CN107273499A - 基于垂直搜索引擎的数据抓取方法 - Google Patents

基于垂直搜索引擎的数据抓取方法 Download PDF

Info

Publication number
CN107273499A
CN107273499A CN201710456085.8A CN201710456085A CN107273499A CN 107273499 A CN107273499 A CN 107273499A CN 201710456085 A CN201710456085 A CN 201710456085A CN 107273499 A CN107273499 A CN 107273499A
Authority
CN
China
Prior art keywords
mrow
degree
association
crawl
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710456085.8A
Other languages
English (en)
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201710456085.8A priority Critical patent/CN107273499A/zh
Publication of CN107273499A publication Critical patent/CN107273499A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于垂直搜索引擎的数据抓取方法,该方法包括:通过网页爬取和分析确定每个网页的关联度;根据关联度阈值将相关联的网页和网址进行存储。本发明提出了一种基于垂直搜索引擎的数据抓取方法,实现了多线程的网页爬取,提高采集和存储效率。

Description

基于垂直搜索引擎的数据抓取方法
技术领域
本发明涉及大数据,特别涉及一种基于垂直搜索引擎的数据抓取方法。
背景技术
搜索引擎中用户是信息的发布者,用户如果对某方面的信息感兴趣,实时的相关信息就会通过搜索引擎传播到该用户那里。搜索引擎中传播的信息,例如,在微博中,用户的转发行为引发了微博信息在网络中传播,用于市场营销、广告投放和谣言控制等多个方面。由此可见,信息在搜索引擎中的传播对帮助用户获取信息起着至关重要的作用。现有技术中的信息传播跟踪方法通常只考虑了比较单一的影响信息传播的因素,方法中虚拟的参数通常是任意指定的,不具备预测信息传播的能力。此外,当给定一个搜索引擎后,对于如何在搜索引擎上选取一个指定规模的节点集合以达到影响力最大化的效果方面,已有方法只适用于小型网络,对于大规模的站点,只能得到近似的较优结果。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于垂直搜索引擎的数据抓取方法,包括:
通过网页爬取和分析确定每个网页的关联度;
根据关联度阈值将相关联的网页和网址进行存储。
优选地,所述关联度阈值是通过预先根据训练集对所抓网页进行训练,然后依据输入网页与训练结果进行计算而确定的关联度阈值。
优选地,所述关联度包括主题关联度和文本关联度。
优选地,所述网页爬取进一步包括:
访问爬取目录,并读取目录下的被爬取URL任务,触发网页爬取事件,将页面内容爬取下来,并保存到相应的爬取目录下;使用多线程爬取页面,同时爬取多个页面信息。
优选地,所述使用多线程爬取页面,进一步包括:
通过调用网页解析器,实现整个爬取过程的标准化;
每个线程都执行MapReduce框架中的异步调用Map操作,所述Map操作预先定义了多线程的网页内容爬取逻辑与算法。
优选地,在开始爬取时,启动读取相关流程参数,读取一条URL,通过判断是否为空,然后调用运行函数,实现程序的逐个实例化爬取,在执行一个操作后到爬取任务列表中获取下一个URL,通过采集目录读取爬取列表,通过实例化HTTP方法,实现相关程序的逐步运行,通过配置代理服务器的IP和端口从而获取目标对象的程序爬取,在代理服务器设置完毕后,爬取进程会调用Post的方法,通过对Post方法处理实现程序信息的获取,将设置的Post参数到对应URL网站上进行爬取操作,并返回爬取状态的状态码,接下来根据这个返回的状态码来执行爬取进程的爬取操作,根据HTTP中定义的状态码来判断下一步流程节点,如果执行相关网页数据,暂时将相关的信息存放于爬取目录中,通过格式的不同判断这个信息是否是该流程节点处理的操作,下一流程节点将当前格式的文件读取随着网页分析模块进行处理。
优选地,所述文本关联度通过以下方式来确定:
首先装入已训练出的n个关键词,并将其形成一个n维坐标中的一个质点,其坐标为全1向量A,表明位置为1的维度上出现一个关键词,称为主题参考坐标;然后接受待检测网页,将网页解析后进行分词,划分后的词与主题关键词相比对,将出现相应关键词的维度置为1,形成一个待检测坐标;计算网页与主题的关联度得到两个点的坐标,分别是主题参考坐标A和待检测坐标B;根据两点之间的距离公式得到距离|AB|,并将距离|AB|量化为0~1之间的数值|AB|/|AO|,
|AO|为主题点与坐标原点O之间的距离,二者的比值为待检测点与主题之间的关联度,调整关联度系数使之与主题的关联度呈现正相关形式:
本发明相比现有技术,具有以下优点:
本发明提出了一种基于垂直搜索引擎的数据抓取方法,实现了多线程的网页爬取,提高采集和存储效率。
附图说明
图1是根据本发明实施例的基于垂直搜索引擎的数据抓取方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于垂直搜索引擎的数据抓取方法。图1是根据本发明实施例的基于垂直搜索引擎的数据抓取方法流程图。
本发明的方法通过对爬取网页的分析,确定该网页的主题关联度。预先根据训练集对所抓网页进行训练,然后依据输入网页与训练结果进行计算,确定一个关联度阈值,以此阈值作为衡量主题相关与否的标准,将符合要求的网页和网址进行存储。
该方法通过访问爬取目录,并读取目录下的被爬取URL任务,触发网页爬取事件,将页面内容爬取下来,并保存到相应的爬取目录下。使用多线程爬取页面,同时爬取多个页面信息,通过调用网页解析器,实现整个爬取过程的标准化。爬取进程在网络爬取模块能够运用多线程管理的机制,进行的每个线程都执行MapReduce框架中的异步调用Map操作,Map中定义了多线程的网页内容爬取逻辑与算法。
在开始爬取时,启动读取相关流程参数,读取一条URL,通过判断是否为空,然后调用运行函数,实现程序的逐个实例化爬取,在执行一个操作后到爬取任务列表中获取下一个URL,通过采集目录读取爬取列表,通过实例化HTTP方法,实现相关程序的逐步运行,通过配置代理服务器的IP和端口从而获取目标对象的程序爬取,在代理服务器设置完毕后,爬取进程会调用Post的方法,通过对Post方法处理实现程序信息的获取,将设置的Post参数到对应URL网站上进行爬取操作,并返回爬取状态的状态码,接下来根据这个返回的状态码来执行爬取进程的爬取操作,判断方法根据HTTP中定义的状态码来判断下一步流程节点。如果执行相关网页数据,暂时将相关的信息存放于爬取目录中,通过格式的不同判断这个信息是否是该流程节点处理的操作,下一流程节点将当前格式的文件读取随着网页分析模块进行处理。
首先爬取进程通过HTTP连接获取云端的网页。在网页的处理过程中,首先由网页解析器对网页进行解析,解析的结果包括两种,一种是网页中所有的URL以及网页标题的标签,这些URL和标题标签将要进行网址关联度检测;另一种是网页的正文文本,用于文本关联度检测模块。文本关联度检测模块检测的结果作为网址关联度检测的输入参数。经过文本关联度检测模块输出的网页,即为主题相关的网页;网址关联度检测的输出即为主题相关的网址。
文本关联度检测模块的输入包括网页的文本,以及领域关键词训练模块。领域关键词训练模块向文本关联度检测模块提供关键词,生成标志爬取主题的关键词。领域关键词训练模块的实现机制为:a)从训练集中读出相应网页;b)解析相应网页;c)对解析的数据进行分词;d)选出各网页中同时出现的词作为该类网页的关键词,结果输出。
文本关联度检测模块对网页主题相关性判断是基于领域关键词同时出现而建立。具体设计流程如下。首先装入领域关键词训练模块训练出的n个关键词,并将其形成一个n维坐标中的一个质点,其坐标为A(1,1,1,1,...,1),表明位置为1的维度上出现一个关键词,称为主题参考坐标。然后接受待检测网页,将网页解析后进行分词,划分后的词与主题关键词相比对,将出现相应关键词的维度置为1,形成一个待检测坐标。计算网页与主题的关联度。即得到两个点的坐标,分别是主题参考坐标A和待检测坐标B。根据两点之间的距离公式得到距离|AB|,并将距离|AB|量化为0~1之间的数值|AB|/|AO|,
|AO|为主题点与坐标原点O之间的距离,二者的比值为待检测点与主题之间的关联度,调整关联度系数使之与主题的关联度呈现正相关形式:
网址关联度检测中,输入是网页解析器解析出的所有URL;以及文本关联度检测模块的网页相似度。具体地,首先接收上述网页主题关联度xl。逐一计算每一个网址的主题关联度。抽取URL标签中的锚文本,计算锚文本与主题关联度。如果出现与主题相关的关键词,就将锚文本关联度置为1,否则置为0。将网址主题相关性度量过程设置如下:
θ=ax1+bx2+cx3
其中:x1表示网页的关联度,x2表示网址锚文本的关联度,x3表示标题的关联度;a,b,c分别表示三者对网址影响的权重。
设定URL主题关联度阈值f,用来衡量,小于此阈值f时确定不相关,直接丢弃;大于此值时确定主题相关的,从标签中抽取该URL。
接下来判断该URL是相对网址还是绝对网址,如果是绝对网址,直接存储在缓冲区:如果是相对网址,则将其拼接成一个绝对路径的URL并存储在缓冲区中。
最后,将缓冲区中所有的URL输出。
综上所述,本发明提出了一种基于垂直搜索引擎的数据抓取方法,实现了多线程的网页爬取,提高采集和存储效率。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (7)

1.一种基于垂直搜索引擎的数据抓取方法,其特征在于,包括:
通过网页爬取和分析确定每个网页的关联度;
根据关联度阈值将相关联的网页和网址进行存储。
2.根据权利要求1所述的方法,其特征在于,所述关联度阈值是通过预先根据训练集对所抓网页进行训练,然后依据输入网页与训练结果进行计算而确定的关联度阈值。
3.根据权利要求1所述的方法,其特征在于,所述关联度包括主题关联度和文本关联度。
4.根据权利要求1所述的方法,其特征在于,所述网页爬取进一步包括:
访问爬取目录,并读取目录下的被爬取URL任务,触发网页爬取事件,将页面内容爬取下来,并保存到相应的爬取目录下;使用多线程爬取页面,同时爬取多个页面信息。
5.根据权利要求4所述的方法,其特征在于,所述使用多线程爬取页面,进一步包括:
通过调用网页解析器,实现整个爬取过程的标准化;
每个线程都执行MapReduce框架中的异步调用Map操作,所述Map操作预先定义了多线程的网页内容爬取逻辑与算法。
6.根据权利要求4所述的方法,其特征在于,还包括:
在开始爬取时,启动读取相关流程参数,读取一条URL,通过判断是否为空,然后调用运行函数,实现程序的逐个实例化爬取,在执行一个操作后到爬取任务列表中获取下一个URL,通过采集目录读取爬取列表,通过实例化HTTP方法,实现相关程序的逐步运行,通过配置代理服务器的IP和端口从而获取目标对象的程序爬取,在代理服务器设置完毕后,爬取进程会调用Post的方法,通过对Post方法处理实现程序信息的获取,将设置的Post参数到对应URL网站上进行爬取操作,并返回爬取状态的状态码,接下来根据这个返回的状态码来执行爬取进程的爬取操作,根据HTTP中定义的状态码来判断下一步流程节点,如果执行相关网页数据,暂时将相关的信息存放于爬取目录中,通过格式的不同判断这个信息是否是该流程节点处理的操作,下一流程节点将当前格式的文件读取随着网页分析模块进行处理。
7.根据权利要求3所述的方法,其特征在于,所述文本关联度通过以下方式来确定:
首先装入已训练出的n个关键词,并将其形成一个n维坐标中的一个质点,其坐标为全1向量A,表明位置为1的维度上出现一个关键词,称为主题参考坐标;然后接受待检测网页,将网页解析后进行分词,划分后的词与主题关键词相比对,将出现相应关键词的维度置为1,形成一个待检测坐标;计算网页与主题的关联度得到两个点的坐标,分别是主题参考坐标A和待检测坐标B;根据两点之间的距离公式得到距离|AB|,并将距离|AB|量化为0~1之间的数值|AB|/|AO|,
<mrow> <mrow> <mo>|</mo> <mrow> <mi>A</mi> <mi>B</mi> </mrow> <mo>|</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> 1
<mrow> <mfrac> <mrow> <mo>|</mo> <mrow> <mi>A</mi> <mi>B</mi> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mrow> <mi>A</mi> <mi>O</mi> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <msqrt> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <msub> <mi>a</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>
|AO|为主题点与坐标原点O之间的距离,二者的比值为待检测点与主题之间的关联度,调整关联度系数使之与主题的关联度呈现正相关形式:
<mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <mi>A</mi> <mi>B</mi> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mrow> <mi>A</mi> <mi>O</mi> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>.</mo> </mrow> 2
CN201710456085.8A 2017-06-16 2017-06-16 基于垂直搜索引擎的数据抓取方法 Pending CN107273499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710456085.8A CN107273499A (zh) 2017-06-16 2017-06-16 基于垂直搜索引擎的数据抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710456085.8A CN107273499A (zh) 2017-06-16 2017-06-16 基于垂直搜索引擎的数据抓取方法

Publications (1)

Publication Number Publication Date
CN107273499A true CN107273499A (zh) 2017-10-20

Family

ID=60067278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710456085.8A Pending CN107273499A (zh) 2017-06-16 2017-06-16 基于垂直搜索引擎的数据抓取方法

Country Status (1)

Country Link
CN (1) CN107273499A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063144A (zh) * 2018-08-07 2018-12-21 广州金猫信息技术服务有限公司 可视化网络爬虫方法及装置
CN111708931A (zh) * 2020-06-06 2020-09-25 谢国柱 基于移动互联网的大数据采集方法及人工智能云服务平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫系统
CN103310013A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种面向主题的网页采集系统
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储系统的网络爬虫系统
US20170032044A1 (en) * 2006-11-14 2017-02-02 Paul Vincent Hayes System and Method for Personalized Search While Maintaining Searcher Privacy
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032044A1 (en) * 2006-11-14 2017-02-02 Paul Vincent Hayes System and Method for Personalized Search While Maintaining Searcher Privacy
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫系统
CN103310013A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种面向主题的网页采集系统
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储系统的网络爬虫系统
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张环: "垂直搜索引擎中主题网络爬虫算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈欢: "面向垂直搜索引擎的聚焦网络爬虫关键技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063144A (zh) * 2018-08-07 2018-12-21 广州金猫信息技术服务有限公司 可视化网络爬虫方法及装置
CN111708931A (zh) * 2020-06-06 2020-09-25 谢国柱 基于移动互联网的大数据采集方法及人工智能云服务平台
CN111708931B (zh) * 2020-06-06 2020-12-25 湖南伟业动物营养集团股份有限公司 基于移动互联网的大数据采集方法及人工智能云服务平台

Similar Documents

Publication Publication Date Title
US10043514B2 (en) Intelligent contextually aware digital assistants
CN108369709B (zh) 用于基于网络的广告数据业务时延减小的系统和方法
CN105389722B (zh) 恶意订单识别方法及装置
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
US20130132851A1 (en) Sentiment estimation of web browsing user
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
JP6661754B2 (ja) コンテンツ配信方法および装置
CN110362663A (zh) 自适应多感知相似度检测和解析
CN110516033A (zh) 一种计算用户偏好的方法和装置
CN113821592A (zh) 一种数据处理方法、装置、设备以及存储介质
CN114978624A (zh) 钓鱼网页检测方法、装置、设备及存储介质
CN107273499A (zh) 基于垂直搜索引擎的数据抓取方法
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN109992659B (zh) 用于文本排序的方法和装置
US20190018892A1 (en) User navigation in a target portal
Park et al. Future Information Technology: 6th International Conference on Future Information Technology, FutureTech 2011, Crete, Greece, June 28-30, 2011. Proceedings
CN106557483A (zh) 一种数据处理、数据查询方法及设备
US8914416B2 (en) Semantics graphs for enterprise communication networks
CN111882224A (zh) 对消费场景进行分类的方法和装置
CN113626817B (zh) 恶意代码家族分类方法
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质
US10838965B1 (en) Data valuation at content ingest
CN103678400B (zh) 基于群体搜索行为的网页分类方法及装置
CN106663160A (zh) 一种技能包的搜索与定位方法、系统及机器人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171020