CN107704515A - 基于互联网数据抓取系统的数据抓取方法 - Google Patents

基于互联网数据抓取系统的数据抓取方法 Download PDF

Info

Publication number
CN107704515A
CN107704515A CN201710776642.4A CN201710776642A CN107704515A CN 107704515 A CN107704515 A CN 107704515A CN 201710776642 A CN201710776642 A CN 201710776642A CN 107704515 A CN107704515 A CN 107704515A
Authority
CN
China
Prior art keywords
data
url
crawl
method based
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710776642.4A
Other languages
English (en)
Inventor
李松松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Simple Road Technology Co Ltd
Original Assignee
Anhui Simple Road Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Simple Road Technology Co Ltd filed Critical Anhui Simple Road Technology Co Ltd
Priority to CN201710776642.4A priority Critical patent/CN107704515A/zh
Publication of CN107704515A publication Critical patent/CN107704515A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于互联网数据抓取系统的数据抓取方法,S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含深度优先和广度优先算法;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析页面内容及其组织方式,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。对抓取到的数据进行去重处理,改变传统的数据抓取量大问题。

Description

基于互联网数据抓取系统的数据抓取方法
技术领域
本发明属于数据抓取技术领域,更具体地说,尤其涉及一种基于互联网数据抓取系统的数据抓取方法。
背景技术
随着技术的不断进步,中国互联网已经形成规模,互联网应用走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式,甚至影响着整个社会进程。信息抓取是将非结构化的信息从网站中抓取出来保存到结构化的数据库中的过程。信息抓取是企业信息化的根基和第一步,只有利用先进的技术作好了信息抓取工作,才能为信息化带来最大的价值!
现缺少一种基于互联网数据抓取系统的数据抓取方法,互联网数据抓取系统在数据抓取中有很大的发展潜力,数据抓取方法比较固定,无法对抓取的数据进行去重处理,造成数据抓取量大,需要进一步优化和完善,这对数据抓取的发展具有非常重要的意义。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于互联网数据抓取系统的数据抓取方法。
为实现上述目的,本发明提供如下技术方案:一种基于互联网数据抓取系统的数据抓取方法,具体包括如下步骤:
S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S2:系统利用URL校验的方式将获取到的URL进行去重;
S3:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;
S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S5:分析页面内容及其组织方式,确定抓取规则;
S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
优选的,所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。
优选的,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。
优选的,所述步骤S6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。
本发明的技术效果和优点:本发明一种基于互联网数据抓取系统的数据抓取方法,首先通过资金管理平台确定可操作资金,根据博弈论的均衡策略确定买入比例,市场处于下跌行情时,对股票组合最小价值的一个保全措施安排,当价格上涨时,股票组合仍不失去盈利的机会,利用两类产品在不同市场上出现的瞬间定价的不同来迅速实现贱买贵卖的交易,并从中获得价差收益,将股票分类为价值被高估的股票和价值被低估的股票,在预定成本价位的一定波动范围内建仓,最终使综合成本等于预定成本,在账面出现盈利时,按以利博利的手段达到控制阶段性盈利,从而最终实现战略盈利。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于互联网数据抓取系统的数据抓取方法,具体包括如下步骤:
S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S2:系统利用URL校验的方式将获取到的URL进行去重;
S3:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;
S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S5:分析页面内容及其组织方式,确定抓取规则;
S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析,所述步骤S6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。
综上所述:本发明一种基于互联网数据抓取系统的数据抓取方法,提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集,系统利用URL校验的方式将获取到的URL进行去重,URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能,确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度,分析页面内容及其组织方式,确定抓取规则,正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于互联网数据抓取系统的数据抓取方法,其特征在于:具体包括如下步骤:
S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S2:系统利用URL校验的方式将获取到的URL进行去重;
S3:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;
S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S5:分析页面内容及其组织方式,确定抓取规则;
S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
2.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法,其特征在于:所述步骤S4中,注意避免应用了防采集措施的网站,限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。
3.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法,其特征在于:所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。
4.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法,其特征在于:所述步骤S6中匹配搜索过程中采用正则表达式。
CN201710776642.4A 2017-09-01 2017-09-01 基于互联网数据抓取系统的数据抓取方法 Withdrawn CN107704515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710776642.4A CN107704515A (zh) 2017-09-01 2017-09-01 基于互联网数据抓取系统的数据抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710776642.4A CN107704515A (zh) 2017-09-01 2017-09-01 基于互联网数据抓取系统的数据抓取方法

Publications (1)

Publication Number Publication Date
CN107704515A true CN107704515A (zh) 2018-02-16

Family

ID=61171531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710776642.4A Withdrawn CN107704515A (zh) 2017-09-01 2017-09-01 基于互联网数据抓取系统的数据抓取方法

Country Status (1)

Country Link
CN (1) CN107704515A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804559A (zh) * 2018-05-22 2018-11-13 清华大学 一种移动应用内容获取方法及装置
CN109190062A (zh) * 2018-08-03 2019-01-11 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN110874434A (zh) * 2018-08-31 2020-03-10 珠海格力电器股份有限公司 网页数据采集方法、装置、存储介质及电子设备
CN111259220A (zh) * 2020-01-11 2020-06-09 杭州拾贝知识产权服务有限公司 一种基于大数据的数据采集方法和系统
CN111324797A (zh) * 2020-02-20 2020-06-23 民生科技有限责任公司 一种高速精准获取数据的方法和装置
CN111414523A (zh) * 2020-03-11 2020-07-14 中国建设银行股份有限公司 一种数据获取方法和装置
CN111538887A (zh) * 2020-04-30 2020-08-14 广东所能网络有限公司 一种基于人工智能的大数据图文识别系统及方法
CN113553512A (zh) * 2021-08-09 2021-10-26 南京今日商讯信息科技有限公司 一种数据抓取系统及数据抓取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端
CN103744944A (zh) * 2013-12-31 2014-04-23 上海伯释信息科技有限公司 网络爬虫在抓取网页或数据时再过滤的方法
CN103838791A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网络机器人方法
CN103838785A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种专利领域的垂直搜索引擎
CN103902667A (zh) * 2014-03-14 2014-07-02 浪潮电子信息产业股份有限公司 一种基于元搜索的网络信息采集器简单实现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端
CN103838791A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网络机器人方法
CN103838785A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种专利领域的垂直搜索引擎
CN103744944A (zh) * 2013-12-31 2014-04-23 上海伯释信息科技有限公司 网络爬虫在抓取网页或数据时再过滤的方法
CN103902667A (zh) * 2014-03-14 2014-07-02 浪潮电子信息产业股份有限公司 一种基于元搜索的网络信息采集器简单实现方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804559A (zh) * 2018-05-22 2018-11-13 清华大学 一种移动应用内容获取方法及装置
CN109190062A (zh) * 2018-08-03 2019-01-11 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN109190062B (zh) * 2018-08-03 2023-04-07 平安科技(深圳)有限公司 目标语料数据的爬取方法、装置及存储介质
CN110874434A (zh) * 2018-08-31 2020-03-10 珠海格力电器股份有限公司 网页数据采集方法、装置、存储介质及电子设备
CN111259220A (zh) * 2020-01-11 2020-06-09 杭州拾贝知识产权服务有限公司 一种基于大数据的数据采集方法和系统
CN111324797A (zh) * 2020-02-20 2020-06-23 民生科技有限责任公司 一种高速精准获取数据的方法和装置
CN111324797B (zh) * 2020-02-20 2023-08-11 民生科技有限责任公司 一种高速精准获取数据的方法和装置
CN111414523A (zh) * 2020-03-11 2020-07-14 中国建设银行股份有限公司 一种数据获取方法和装置
CN111538887A (zh) * 2020-04-30 2020-08-14 广东所能网络有限公司 一种基于人工智能的大数据图文识别系统及方法
CN111538887B (zh) * 2020-04-30 2023-11-10 贵阳杰汇数字创新中心有限公司 一种基于人工智能的大数据图文识别系统及方法
CN113553512A (zh) * 2021-08-09 2021-10-26 南京今日商讯信息科技有限公司 一种数据抓取系统及数据抓取方法

Similar Documents

Publication Publication Date Title
CN107704515A (zh) 基于互联网数据抓取系统的数据抓取方法
Al Nabki et al. Classifying illegal activities on tor network based on web textual contents
Lakshmi et al. Efficient prediction of phishing websites using supervised learning algorithms
CN103544436B (zh) 一种钓鱼网站鉴别系统和方法
Li et al. Keyword extraction based on tf/idf for Chinese news document
Hartawan et al. Using vector space model in question answering system
CN105824822A (zh) 一种由钓鱼网页聚类定位目标网页的方法
KR102079970B1 (ko) 지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램
CN106230835B (zh) 基于Nginx日志分析和IPTABLES转发的反恶意访问的方法
Meusel et al. Heuristics for fixing common errors in deployed schema. org microdata
CN109918621A (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN109033203A (zh) 一种面向大数据的特征提取并行处理方法
Lindemann et al. Classification of web sites at super-genre level
Lippman et al. Toward finding malicious cyber discussions in social media
CN104077353B (zh) 一种黑链检测的方法及装置
Bellaachia et al. Learning from twitter hashtags: Leveraging proximate tags to enhance graph-based keyphrase extraction
Osman et al. SVM significant role selection method for improving semantic text plagiarism detection
CN112115271B (zh) 知识图谱构建方法及装置
CN104063491B (zh) 一种检测页面篡改的方法及装置
CN109657136A (zh) 互联网数据收集系统的重复数据剔除方法
CN104063494B (zh) 页面篡改检测方法及黑链数据库生成方法
Chakraborty et al. Detecting stance in tweets: A signed network based approach
Kejriwal et al. Empirical best practices on using product-specific schema. org
KR20200081790A (ko) 언어분석과 블록체인을 이용한 문서의 변조율 측정 및 변조 항목 추적 장치
Guimaraes et al. Analysis and detection of unreliable users in twitter: Two case studies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180216

WW01 Invention patent application withdrawn after publication