CN102654861A - 网页抽取准确性计算方法及系统 - Google Patents

网页抽取准确性计算方法及系统 Download PDF

Info

Publication number
CN102654861A
CN102654861A CN2011100489601A CN201110048960A CN102654861A CN 102654861 A CN102654861 A CN 102654861A CN 2011100489601 A CN2011100489601 A CN 2011100489601A CN 201110048960 A CN201110048960 A CN 201110048960A CN 102654861 A CN102654861 A CN 102654861A
Authority
CN
China
Prior art keywords
similarity
text
web page
link
anchor text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100489601A
Other languages
English (en)
Other versions
CN102654861B (zh
Inventor
朱靖君
林世飞
张立明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110048960.1A priority Critical patent/CN102654861B/zh
Publication of CN102654861A publication Critical patent/CN102654861A/zh
Application granted granted Critical
Publication of CN102654861B publication Critical patent/CN102654861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种网页抽取准确性计算方法,包括以下步骤:获取浏览器对网页解析的结果;获取待测网页抽取模块对网页解析的结果;计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度。采用上述方法,以浏览器解析网页的结果为网页抽取标准的结果,计算得到的相似度可有效反映待测网页抽取模块进行网页抽取的准确性,该方法不需要人工参与,能够自动的对批量网页进行测试。此外,还提供了一种网页抽取准确性计算系统。

Description

网页抽取准确性计算方法及系统
【技术领域】
本发明涉及网页搜索技术,尤其涉及一种网页抽取准确性计算方法及系统。
【背景技术】
在网页搜索中,网页抽取是其中一个非常关键的环节。网页抽取是指搜索引擎从抓取的网页中抽取出文本和链接等信息,并建立索引,抽取到的链接用于继续抓取新的网页,而抽取到的文本用于用户查询时进行关键词匹配,以返回与查询词相关的网页作为查询结果。因此,网页抽取的准确性极大的影响着搜索引擎的检索质量。
在网页抽取中,通常把网页表示成DOM(Document Object Model,文档对象模型)DOM树的形式。所谓DOM树,是指在网页抽取中,把HTML(HyperTextMark-up Language,超文本标记语言)网页中的链接、文本等表示成节点,并把链接、文本等的包含与被包含关系映射为父子节点的关系,最后构成的树形结构即为DOM树。对DOM树进行遍历,就能得到网页中的文本和链接等信息。
因此,DOM树的准确性反映了网页抽取的准确性。
传统的网页抽取准确性计算方法是输出抽取到的文本和链接,人工地在浏览器中打开相应的页面进行观察,看抽取的结果是否正确。或者以一定的形式输出DOM树,包括DOM树中各个节点的信息,再人工判断DOM树是否准确。然而,传统的这种网页抽取准确性计算方法由于采用人工观察网页或人工判断DOM树是否准确,因此不能自动化的批量测试,只能测试限量的页面,而有限的网页测试则无法保证网页抽取的准确性。因此,传统的网页抽取准确性计算方法不能有效反映真实效果。
【发明内容】
基于此,有必要提供一种无需人工参与,能进行批量测试,并且测试结果能有效反映网页抽取的准确性的网页抽取准确性计算方法。
一种网页抽取准确性计算方法,包括以下步骤:获取浏览器对网页解析的结果;获取待测网页抽取模块对网页解析的结果;计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度,相似度越大,则所述待测网页抽取模块进行网页抽取的准确性越高。
优选的,所述待测网页抽取模块解析的结果包括解析网页得到的第一可见文本集合、第一链接集合和第一锚文本集合,所述浏览器解析的结果包括浏览器解析网页得到的第二可见文本集合、第二链接集合和第二锚文本集合;
所述计算待测网页抽取模块解析的结果与浏览器解析的结果的相似度的步骤为:计算第一可见文本集合与第二可见文本集合的相似度;计算第一链接集合与第二链接集合的相似度;计算第一锚文本集合与第二锚文本集合的相似度;对所述第一可见文本集合与第二可见文本集合的相似度、所述第一链接集合与所述第二链接集合的相似度、所述第一锚文本集合与第二锚文本集合的相似度按第一预设比例求和。
优选的,该计算第一可见文本集合与第二可见文本集合的相似度的步骤为:对所述第一可见文本集合中的文本进行切词,统计每个词出现的次数,建立第一词频向量;对所述第二可见文本集合中的文本进行切词,统计每个词出现的次数,建立第二词频向量;计算所述第一词频向量与所述第二词频向量的相似度,即为所述第一可见文本集合与第二可见文本集合的相似度。
优选的,按照如下公式计算第一链接集合与第二链接集合的相似度:所述第一链接集合与所述第二链接集合的相似度为:所述第一链接集合和所述第二链接集合中相同的链接数的倍数与所述第一链接集合及第二链接集合中的链接总数的比值。
优选的,所述计算第一锚文本集合与第二锚文本集合的相似度的步骤为:提取所述第一锚文本集合与第二锚文本集合中具有相同链接的锚文本;计算每个相同链接所对应的第一锚文本与第二锚文本的相似度,对该相似度求平均值;将第一锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第一文本串;将第二锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第二文本串;计算所述第一文本串和第二文本串的相似度;对所述第一文本串和第二文本串的相似度与所述平均值按第二预设比例求和。
此外,还有必要提供一种无需人工参与,能进行批量测试,并且测试结果能有效反映网页抽取的准确性的网页抽取准确性计算系统。
一种网页抽取准确性计算系统,包括:浏览器,用于对网页进行解析;待测网页抽取模块,用于对网页进行解析;解析结果对比模块,用于获取浏览器对网页的解析结果及所述待测网页抽取模块对网页的解析结果,计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度,相似度越大,所述待测网页抽取模块进行网页抽取的准确性越高。
优选的,所述待测网页抽取模块解析的结果包括解析网页得到的第一可见文本集合、第一链接集合和第一锚文本集合,所述浏览器解析的结果包括浏览器解析网页得到的第二可见文本集合、第二链接集合和第二锚文本集合;
所述解析结果对比模块包括:可见文本相似度计算模块,用于计算第一可见文本集合与第二可见文本集合的相似度;链接相似度计算模块,用于计算第一链接集合与第二链接集合的相似度;锚文本相似度计算模块,用于计算第一锚文本集合与第二锚文本集合的相似度;总相似度计算模块,用于对所述第一可见文本集合与第二可见文本集合的相似度、所述第一链接集合与所述第二链接集合的相似度、所述第一锚文本集合与第二锚文本集合的相似度按第一预设比例求和,得到待测网页抽取模块解析的结果与浏览器解析的结果的相似度。
优选的,所述可见文本相似度计算模块包括:词频向量生成模块,用于对第一可见文本集合中的文本进行切词,统计每个词出现的次数,建立第一词频向量,以及对第二可见文本集合中的文本进行切词,统计每个词出现的次数,建立第二词频向量;词频向量相似度计算模块,用于计算所述第一词频向量与所述第二词频向量的相似度。
优选的,所述链接相似度计算模块用于按如下公式计算所述第一链接集合与所述第二链接集合的相似度为:所述第一链接集合和所述第二链接集合中相同的链接数的倍数与所述第一链接集合及第二链接集合中的链接总数的比值。
优选的,所述锚文本相似度计算模块包括:锚文本提取模块,提取所述第一锚文本集合和第二锚文本集合中具有相同链接的锚文本;平均值求取模块,用于计算每个相同链接所对应的第一锚文本与第二锚文本之间的相似度,对该相似度求平均值。文本串生成模块,用于将第一锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第一文本串,以及将第二锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第二文本串;文本串相似度计算模块,用于计算所述第一文本串和第二文本串的相似度;求和处理模块,对所述第一文本串和第二文本串的相似度与所述平均值按第二预设比例求和,得到所述第一锚文本集合与第二锚文本集合的相似度。
上述网页抽取准确性计算方法及系统,通过浏览器对网页进行解析,由于浏览器对网页的解析较为完善,可作为网页抽取标准的结果,计算待测网页抽取模块解析的结果与浏览器解析的结果之间的相似度,相似度越高,则待测网页抽取模块解析的结果更接近于网页抽取标准,因此计算得到的相似度可有效反映待测网页抽取模块进行网页抽取的准确性。此外,该网页抽取准确性计算方法及系统不需要人工参与,能够自动的对批量网页进行测试,因此在计算网页抽取准确性时不会局限于网页数量,更能反映网页抽取结果的准确性,能有效发现解析工具中存在的问题,便于后续进行改善。
【附图说明】
图1为一个实施例中网页抽取准确性计算方法的流程图;
图2为图1中计算待测网页抽取模块解析的结果与浏览器解析的结果的相似度的方法流程图;
图3为图2中计算第一可见文本集合与第二可见文本集合的相似度的方法流程图;
图4为图2中计算第一锚文本集合与第二锚文本集合的相似度的方法流程图;
图5为一个实施例中网页抽取准确性计算系统的结构示意图;
图6为图5中解析结果对比模块的结构示意图;
图7为图6中可见文本相似度计算模块的结构示意图;
图8为图6中锚文本相似度计算模块的结构示意图。
【具体实施方式】
如图1所示,在一个实施例中,一种网页抽取准确性计算方法,包括以下步骤:
步骤S102,获取浏览器对网页解析的结果。
浏览器对网页的解析是较为完善的,因此浏览器对网页的解析结果可以作为网页抽取标准的结果,待测网页抽取模块解析网页所得到的结果越接近于浏览器对网页的解析结果,即两者的相似度越高,则待测网页抽取模块进行网页抽取越准确。
可以理解,在本步骤之前可以包括:浏览器对网页进行解析。
在一个优选的实施例中,利用浏览器提供的应用程序编程接口(API)获取浏览器对网页解析的结果,解析的结果包括可见文本、链接和锚文本等信息。其中,可见文本是指网页在浏览器中展示时用户可以看见的文本信息。优选的,所使用的浏览器为Google的Chrome浏览器。Chrome浏览器是Google开发的开放原始码网页浏览器,其对外提供很多应用程序编程接口,通过这些应用程序编程接口可获取其解析网页所得到的可见文本、链接和锚文本等信息。
Chrome浏览器采用的是WebKit内核,在解析网页的过程中,浏览器对每个页面分别生成一个DOM树和Render树。遍历DOM树中的节点即可获取网页中的可见文本、链接和锚文本等信息。Render树用来描述DOM树中各个节点的布局和渲染信息,包括节点是否可见、节点的位置坐标等。通常DOM树中的每个节点在Render树中都会有一个对应的节点,一些不涉及渲染的DOM树节点除外。
步骤S104,获取待测网页抽取模块对网页解析的结果。
在网页搜索过程中的网页抽取阶段,需使用网页抽取工具抽取网页,为判定网页抽取工具网页抽取的准确性,需要对网页抽取工具解析网页的结果进行分析,即该网页抽取工具为待测网页抽取模块,通过对待测网页抽取模块对网页解析的结果的准确性进行计算,能够帮助获知网页抽取工具是否存在问题。
可以理解,在本步骤之前可以包括:待测网页抽取模块对网页进行解析。
步骤S106,计算待测网页抽取模块解析的结果与浏览器解析的结果的相似度,相似度越大,则待测网页抽取模块进行网页抽取的准确性越高。
由于浏览器解析的结果可作为网页抽取标准的结果,计算得到待测网页抽取模块解析的结果与浏览器解析的结果的相似度,根据相似度即可获知待测网页抽取模块解析的结果是否接近于网页抽取标准的结果,相似度越高,则待测网页抽取模块解析网页得到的结果更准确。
在一个实施例中,待测网页抽取模块解析的结果包括解析网页得到的第一可见文本集合、第一链接集合和第一锚文本集合,而浏览器解析的结果包括浏览器解析网页得到的第二可见文本集合、第二链接集合和第二锚文本集合。
如图2所示,该实施例中,步骤S106的具体过程如下:
步骤S202,计算第一可见文本集合与第二可见文本集合的相似度。
步骤S204,计算第一链接集合与第二链接集合的相似度。
步骤S206,计算第一锚文本集合与第二锚文本集合的相似度。
步骤S208,对第一可见文本集合与第二可见文本集合的相似度、第一链接集合与第二链接集合的相似度、第一锚文本集合与第二锚文本集合的相似度按第一预设比例求和。
第一预设比例可事先根据实际需要进行设置。例如,第一可见文本集合与第二可见文本集合的相似度为S1,第一链接集合与第二链接集合的相似度为S2,第一锚文本集合与第二锚文本集合的相似度为S3,优选的,待测网页抽取模块解析网页的结果与浏览器解析网页的结果的相似度为:S1*40%+S2*30%+S3*30%。
在一个优选的实施例中,如图3所示,计算第一可见文本集合与第二可见文本集合的相似度的过程如下:
步骤S302,对第一可见文本集合中的文本进行切词,并统计每个词出现的次数,建立第一词频向量。
例如,对第一可见文本集合中的文本进行切词,文本在切词后构成词向量D=(d1,d2,d3,…,dn),其中,di表示对文本切词后的各个词,各个词出现的次数即为词频,统计各个词出现的次数,构成词频向量T=(t1,t2,t3,…,tn),其中,ti表示di出现的次数。
步骤S304,对第二可见文本集合中的文本进行切词,并统计每个词出现的次数,建立第二词频向量。
步骤S306,计算第一词频向量与第二词频向量的相似度,即为第一可见文本集合与第二可见文本集合的相似度。
在一个优选的实施例中,第一词频向量为A,第二词频向量为B,则第一词频向量与第二词频向量的相似度的计算公式为:
Similarity ( A , B ) = cos ( A , B ) × 2 | A | | B | | A | 2 + | B | 2 = 1 - | A - B | 2 | A | 2 + | B | 2
其中,Similarity(A,B)表示第一词频向量与第二词频向量的相似度,cos(A,B)表示第一次词频向量与第二词频向量之间夹角的余弦,|A|表示第一词频向量的模,|B|表示第二词频向量的模,|A-B|表示第一词频向量与第二词频向量的模的差异。
计算得到的第一词频向量与第二词频向量的相似度,即为第一可见文本集合与第二可见文本集合的相似度。
在一个优选的实施例中,按照如下公式计算第一链接集合与第二链接集合的相似度:第一链接集合和所述第二链接集合中相同的链接数的倍数与第一链接集合及第二链接集合中的链接总数的比值。优选的,第一链接集合与第二链接集合的相似度的计算公式为:
Figure BDA0000048447550000072
其中,|C∩D|表示第一链接集合与第二链接集合中相同的链接数,|C|+|D|表示第一链接集合和第二链接集合中的链接总数。
在另一个优选的实施例中,如图4所示,计算第二锚文本集合与第二锚文本集合的相似度的过程如下:
步骤S402,提取第一锚文本集合与第二锚文本集合中具有相同链接的锚文本。
步骤S404,计算每个相同链接所对应的第一锚文本与第二锚文本的相似度,对该相似度求平均值。
该实施例中,采用上述计算第一可见文本集合与第二可见文本集合的相似度的方法来计算每个相同链接所对应的第一锚文本与第二锚文本的相似度。即:首先对每个相同链接所对应的第一锚文本和第二锚文本分别进行切词,统计每个词出现的次数,分别建立词频向量,通过计算词频向量之间的相似度来得到每个相同链接所对应的第一锚文本与第二锚文本的相似度。最后将计算得到的所有相似度求取平均值,该平均值作为第一锚文本集合与第二锚文本集合的相似度的第一部分。
步骤S406,将第一锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第一文本串。例如,采用间隔符“\t”分别将第一锚文本集合中的各个锚文本连接。
步骤S408,将第二锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第二文本串。如上所述,也可采用采用间隔符“\t”分别将第而锚文本集合中的各个锚文本连接。
步骤S410,计算第一文本串和第二文本串的相似度。
该实施例中,采用上述计算第一可见文本集合与第二可见文本集合的相似度的方法来计算第一文本串和第二文本串的相似度。即:分别对第一文本串和第二文本串进行切词,统计每个词出现的次数,分别建立词频向量,计算两个词频向量的相似度即为第一文本串和第二文本串的相似度。该相似度作为第一锚文本集合和第二锚文本结合的相似度的第二部分。
步骤S412,对第一文本串和第二文本串的相似度与平均值按第二预设比例求和。
在一个具体的实施例中,计算得到的上述平均值为Sim1,第一文本串和第二文本串的相似度为Sim2,将Sim1和Sim2按预先设定的比例进行求和,得到第一锚文本集合与第二锚文本集合的相似度。优选的,第一锚文本集合和第二锚文本集合的相似度为:Sim1*60%+Sim2*40%。
如图5所示,在一个实施例中,一种网页抽取准确性计算系统,包括浏览器100、待测网页抽取模块200和解析结果对比模块300,其中:
浏览器100用于对网页进行解析。
浏览器对网页的解析是较为完善的,因此浏览器对网页的解析结果可以作为网页抽取标准的结果,待测网页抽取模块解析网页所得到的结果越接近于浏览器对网页的解析结果,则待测网页抽取模块进行网页抽取越准确。
浏览器解析模块100解析网页的结果包括可见文本、链接和锚文本等信息,其中,可见文本是指网页在浏览器中展示时用户可以看见的文本信息。可利用浏览器提供的应用程序编程接口(API)获取浏览器对网页的解析结果。
在一个优选的实施例中,所使用的浏览器为Google的Chrome浏览器。Chrome浏览器采用的是WebKit内核,在解析网页的过程中,浏览器对每个页面分别生成一个DOM树和Render树。遍历DOM树中的节点即可获取网页中的可见文本、链接和锚文本等信息。Render树用来描述DOM树中各个节点的布局和渲染信息,包括节点是否可见、节点的位置坐标等。通常DOM树中的每个节点在Render树中都会有一个对应的节点,一些不涉及渲染的DOM树节点除外。
待测网页抽取模块200用于对网页进行解析。
在网页搜索过程中的网页抽取阶段,需使用网页抽取工具对网页进行解析,该网页抽取工具为待测网页抽取模块200,通过对待测网页抽取模块200对解析的结果的准确性进行计算,能够帮助获知待测网页抽取模块200是否存在问题。
解析结果对比模块300用于获取浏览器对网页解析的结果及待测网页抽取模块200对网页解析的结果,计算待测网页抽取模块200解析的结果与浏览器解析的结果的相似度。
由于浏览器解析的结果可作为网页抽取标准的结果,计算得到待测网页抽取模块解析的结果与浏览器解析的结果的相似度,根据相似度即可获知待测网页抽取模块解析的结果是否接近于网页抽取标准的结果,相似度越高,则待测网页抽取模块越能准确的解析网页。
在一个实施例中,待测网页抽取模块200解析的结果包括解析网页得到的第一可见文本集合、第一链接集合和第一锚文本集合,而浏览器解析模块100解析的结果包括浏览器解析网页得到的第二可见文本集合、第二链接集合和第二锚文本集合。
如图6所示,在一个实施例中,解析对比模块300包括可见文本相似度计算模块310、链接相似度计算模块320、锚文本相似度计算模块330和总相似度计算模块340,其中:
可见文本相似度计算模块310用于计算第一可见文本集合与第二可见文本集合的相似度。
在一个优选的实施例中,如图7所示,可见文本相似度计算模块310包括词频向量生成模块311和词频向量相似度计算模块312。其中:
词频向量生成模块311用于对第一可见文本集合中的文本进行切词,并统计每个词出现的次数,建立第一词频向量,以及对第二可见文本集合中的文本进行切词,统计每个词出现的次数,建立第二词频向量。
例如,对第一可见文本集合中的文本进行切词,文本在切词后构成词向量D=(d1,d2,d3,…,dn),其中,di表示对文本切词后的各个词,各个词出现的次数即为词频,统计各个词出现的次数,构成词频向量T=(t1,t2,t3,…,tn),其中,ti表示di出现的次数。
词频向量相似度生成模块312用于计算第一词频向量与第二词频向量的相似度,即为第一可见文本集合与第二可见文本集合的相似度。
在一个优选的实施例中,第一词频向量为A,第二词频向量为B,则第一词频向量与第二词频向量的相似度的计算公式为:
Similarity ( A , B ) = cos ( A , B ) × 2 | A | | B | | A | 2 + | B | 2 = 1 - | A - B | 2 | A | 2 + | B | 2
其中,Similarity(A,B)表示第一词频向量与第二词频向量的相似度,cos(A,B)表示第一次词频向量与第二词频向量之间夹角的余弦,|A|表示第一词频向量的模,|B|表示第二词频向量的模,|A-B|表示第一词频向量与第二词频向量的模的差异。
链接相似度计算模块320用于按照如下公式计算第一链接集合与第二链接集合的相似度:第一链接集合和所述第二链接集合中相同的链接数的倍数与第一链接集合及第二链接集合中的链接总数的比值。优选的,第一链接集合与第二链接集合的相似度的计算公式为:
Figure BDA0000048447550000111
其中,|C∩D|表示第一链接集合与第二链接集合中相同的链接数,|C|+|D|表示第一链接集合和第二链接集合中的链接总数。
锚文本相似度计算模块330用于计算第一锚文本集合与第二锚文本集合的相似度。
在一个优选的实施例中,如图8所示,锚文本相似度模块330包括锚文本提取模块311、平均值求取模块312、文本串生成模块313、文本串相似度计算模块314和求和处理模块315。其中:
锚文本提取模块311用于提取第一锚文本集合与第二锚文本集合中具有相同链接的锚文本。
平均值求取模块312用于计算每个相同链接所对应的第一锚文本与第二锚文本的相似度,对该相似度求平均值。
该实施例中,采用上述可见文本相似度计算模块310计算第一可见文本集合与第二可见文本集合的相似度的方法来计算每个相同链接所对应的第一锚文本与第二锚文本的相似度。即:首先对每个相同链接所对应的第一锚文本和第二锚文本分别进行切词,统计每个词出现次数,分别建立词频向量,通过计算词频向量之间的相似度来得到每个相同链接所对应的第一锚文本与第二锚文本的相似度。最后将计算得到的所有相似度求取平均值,该平均值作为第一锚文本集合与第二锚文本集合的相似度的第一部分。
文本串生成模块313用于将第一锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第一文本串,以及将第二锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第二文本串。例如,采用间隔符“\t”分别将第一锚文本集合和第二锚文本集合中的各个锚文本连接。
文本串相似度计算模块314用于计算第一文本串和第二文本串的相似度。
该实施例中,采用上述可见文本相似度计算模块310计算第一可见文本集合与第二可见文本集合的相似度的方法来计算第一文本串和第二文本串的相似度。即:分别对第一文本串和第二文本串进行切词,统计每个词出现的次数,分别建立词频向量,计算两个词频向量的相似度即第一文本串和第二文本串的相似度。该相似度作为第一锚文本集合和第二锚文本结合的相似度的第二部分。
求和处理模块315用于对第一文本串和第二文本串的相似度与平均值按第二预设比例求和。
在一个具体的实施例中,计算得到的上述平均值为Sim1,第一文本串和第二文本串的相似度为Sim2,将Sim1和Sim2按预先设定的比例进行求和,得到第一锚文本集合与第二锚文本集合的相似度。优选的,第一锚文本集合和第二锚文本集合的相似度为:Sim1*60%+Sim2*40%。
总相似度计算模块340用于对第一可见文本集合与第二可见文本集合的相似度、第一链接集合与第二链接集合的相似度、第一锚文本集合与第二锚文本集合的相似度按第一预设比例求和。
第一预设比例可事先根据实际需要进行设置。例如,第一可见文本集合与第二可见文本集合的相似度为S1,第一链接集合与第二链接集合的相似度为S2,第一锚文本集合与第二锚文本集合的相似度为S3,优选的,待测网页抽取模块解析网页的结果与浏览器解析网页的结果的相似度为:S1*40%+S2*30%+S3*30%。
上述网页抽取准确性计算方法及系统,通过浏览器对网页进行解析,由于浏览器对网页的解析较为完善,可作为网页抽取标准的结果,计算待测网页抽取模块解析的结果与浏览器解析的结果之间的相似度,相似度越高,则待测网页抽取模块解析的结果更接近于网页抽取标准,因此计算得到的相似度可有效反映待测网页抽取模块进行网页抽取的准确性。此外,该网页抽取准确性计算方法及系统不需要人工参与,能够自动的对批量网页进行测试,因此在计算网页抽取准确性时不会局限于网页数量,更能反映网页抽取结果的准确性,能有效发现解析工具中存在的问题,便于后续进行改善。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网页抽取准确性计算方法,包括以下步骤:
获取浏览器对网页解析的结果;
获取待测网页抽取模块对网页解析的结果;
计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度,相似度越大,则所述待测网页抽取模块进行网页抽取的准确性越高。
2.根据权利要求1所述的网页抽取准确性计算方法,其特征在于,所述待测网页抽取模块解析的结果包括解析网页得到的第一可见文本集合、第一链接集合和第一锚文本集合,所述浏览器解析的结果包括浏览器解析网页得到的第二可见文本集合、第二链接集合和第二锚文本集合;
所述计算待测网页抽取模块解析的结果与浏览器解析的结果的相似度的步骤为:
计算第一可见文本集合与第二可见文本集合的相似度;
计算第一链接集合与第二链接集合的相似度;
计算第一锚文本集合与第二锚文本集合的相似度;
对所述第一可见文本集合与第二可见文本集合的相似度、所述第一链接集合与所述第二链接集合的相似度、所述第一锚文本集合与第二锚文本集合的相似度按第一预设比例求和。
3.根据权利要求2所述的网页抽取准确性计算方法,其特征在于,所述计算第一可见文本集合与第二可见文本集合的相似度的步骤为:
对所述第一可见文本集合中的文本进行切词,统计每个词出现的次数,建立第一词频向量;
对所述第二可见文本集合中的文本进行切词,统计每个词出现的次数,建立第二词频向量;
计算所述第一词频向量与所述第二词频向量的相似度,即为所述第一可见文本集合与第二可见文本集合的相似度。
4.根据权利要求2所述的网页抽取准确性计算方法,其特征在于,所述计算第一链接集合与第二链接集合的相似度的步骤为:
按照如下公式计算所述第一链接集合与所述第二链接集合的相似度:所述第一链接集合和所述第二链接集合中相同的链接数的倍数与所述第一链接集合及第二链接集合中的链接总数的比值。
5.根据权利要求2所述的网页抽取准确性计算方法,其特征在于,所述计算第一锚文本集合与第二锚文本集合的相似度的步骤为:
提取所述第一锚文本集合与第二锚文本集合中具有相同链接的锚文本;
计算每个相同链接所对应的第一锚文本与第二锚文本的相似度,对该相似度求平均值;
将第一锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第一文本串;
将第二锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第二文本串;
计算所述第一文本串和第二文本串的相似度;
对所述第一文本串和第二文本串的相似度与所述平均值按第二预设比例求和。
6.一种网页抽取准确性计算系统,其特征在于,包括:
浏览器,用于对网页进行解析;
待测网页抽取模块,用于对网页进行解析;
解析结果对比模块,用于获取浏览器对网页的解析结果及所述待测网页抽取模块对网页的解析结果,计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度,相似度越大,所述待测网页抽取模块进行网页抽取的准确性越高。
7.根据权利要求6所述的网页抽取准确性计算系统,其特征在于,所述待测网页抽取模块解析的结果包括解析网页得到的第一可见文本集合、第一链接集合和第一锚文本集合,所述浏览器解析的结果包括浏览器解析网页得到的第二可见文本集合、第二链接集合和第二锚文本集合;
所述解析结果对比模块包括:
可见文本相似度计算模块,用于计算第一可见文本集合与第二可见文本集合的相似度;
链接相似度计算模块,用于计算第一链接集合与第二链接集合的相似度;
锚文本相似度计算模块,用于计算第一锚文本集合与第二锚文本集合的相似度;
总相似度计算模块,用于对所述第一可见文本集合与第二可见文本集合的相似度、所述第一链接集合与所述第二链接集合的相似度、所述第一锚文本集合与第二锚文本集合的相似度按第一预设比例求和,得到待测网页抽取模块解析的结果与浏览器解析的结果的相似度。
8.根据权利要求7所述的网页抽取准确性计算系统,其特征在于,所述可见文本相似度计算模块包括:
词频向量生成模块,用于对第一可见文本集合中的文本进行切词,统计每个词出现的次数,建立第一词频向量,以及对第二可见文本集合中的文本进行切词,统计每个词出现的次数,建立第二词频向量;
词频向量相似度计算模块,用于计算所述第一词频向量与所述第二词频向量的相似度。
9.根据权利要求7所述的网页抽取准确性计算系统,其特征在于,所述链接相似度计算模块用于按照如下公式计算所述第一链接集合与所述第二链接集合的相似度:所述第一链接集合和所述第二链接集合中相同的链接数的倍数与所述第一链接集合及第二链接集合中的链接总数的比值。
10.根据权利要求7所述的网页抽取准确性计算系统,其特征在于,所述锚文本相似度计算模块包括:
锚文本提取模块,提取所述第一锚文本集合和第二锚文本集合中具有相同链接的锚文本;
平均值求取模块,用于计算每个相同链接所对应的第一锚文本与第二锚文本之间的相似度,对该相似度求平均值。
文本串生成模块,用于将第一锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第一文本串,以及将第二锚文本集合中的锚文本通过间隔符按顺序连接起来,生成第二文本串;
文本串相似度计算模块,用于计算所述第一文本串和第二文本串的相似度;
求和处理模块,对所述第一文本串和第二文本串的相似度与所述平均值按第二预设比例求和,得到所述第一锚文本集合与第二锚文本集合的相似度。
CN201110048960.1A 2011-03-01 2011-03-01 网页抽取准确性计算方法及系统 Active CN102654861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110048960.1A CN102654861B (zh) 2011-03-01 2011-03-01 网页抽取准确性计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110048960.1A CN102654861B (zh) 2011-03-01 2011-03-01 网页抽取准确性计算方法及系统

Publications (2)

Publication Number Publication Date
CN102654861A true CN102654861A (zh) 2012-09-05
CN102654861B CN102654861B (zh) 2017-12-08

Family

ID=46730487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110048960.1A Active CN102654861B (zh) 2011-03-01 2011-03-01 网页抽取准确性计算方法及系统

Country Status (1)

Country Link
CN (1) CN102654861B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239206A (zh) * 2014-09-17 2014-12-24 可牛网络技术(北京)有限公司 网页测试方法和装置
CN104965902A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN105095386A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 确定网页质量的装置及方法
CN108197317A (zh) * 2018-02-01 2018-06-22 科大讯飞股份有限公司 文档关键信息抽取系统测试方法及装置
CN108399119A (zh) * 2017-02-06 2018-08-14 腾讯科技(深圳)有限公司 浏览服务内核引擎数据处理、自动化测试的方法和装置
CN108628875A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN113553258A (zh) * 2021-07-15 2021-10-26 北京锐安科技有限公司 测试数据生成方法、提取策略测试方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2019361A1 (en) * 2007-07-26 2009-01-28 Siemens Aktiengesellschaft A method and apparatus for extraction of textual content from hypertext web documents
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2019361A1 (en) * 2007-07-26 2009-01-28 Siemens Aktiengesellschaft A method and apparatus for extraction of textual content from hypertext web documents
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋明秋,张瑞雪: "基于HTML树的网页结构相似度研究", 《情报学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239206A (zh) * 2014-09-17 2014-12-24 可牛网络技术(北京)有限公司 网页测试方法和装置
CN104239206B (zh) * 2014-09-17 2017-08-29 可牛网络技术(北京)有限公司 网页测试方法和装置
CN104965902A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN105095386A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 确定网页质量的装置及方法
CN108399119A (zh) * 2017-02-06 2018-08-14 腾讯科技(深圳)有限公司 浏览服务内核引擎数据处理、自动化测试的方法和装置
CN108399119B (zh) * 2017-02-06 2021-05-25 腾讯科技(深圳)有限公司 浏览服务内核引擎数据处理、自动化测试的方法和装置
CN108628875A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN108628875B (zh) * 2017-03-17 2022-08-30 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN108197317A (zh) * 2018-02-01 2018-06-22 科大讯飞股份有限公司 文档关键信息抽取系统测试方法及装置
CN113553258A (zh) * 2021-07-15 2021-10-26 北京锐安科技有限公司 测试数据生成方法、提取策略测试方法及相关装置

Also Published As

Publication number Publication date
CN102654861B (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN102654861A (zh) 网页抽取准确性计算方法及系统
CN102930055B (zh) 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN102880723B (zh) 一种识别用户检索意图的搜索方法和系统
CN106445920A (zh) 利用句义结构特征的句子相似度计算方法
CN103092956B (zh) 社交网络平台上话题关键词自适应扩充的方法及系统
CN101894134A (zh) 一种基于空间布局的钓鱼网页检测及其实现方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN103106189A (zh) 一种挖掘同义属性词的方法和装置
CN103514234A (zh) 一种页面信息提取方法和装置
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN111897914A (zh) 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN103853760A (zh) 一种网页正文内容提取方法和装置
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN104462547A (zh) 一种可配置的网页数据采集的方法及系统
CN104361115A (zh) 一种基于共同点击的词条权重确定方法及装置
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN103778262A (zh) 基于叙词表的信息检索方法及装置
CN103778122A (zh) 搜索方法和系统
CN105183742A (zh) 一种简历识别方法
CN104133870A (zh) 一种网页相似度计算方法及装置
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN104572787B (zh) 伪原创网站的识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131014

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131014

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

GR01 Patent grant
GR01 Patent grant