CN108763591A - 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质 - Google Patents

一种网页正文提取方法、装置、计算机装置及计算机可读存储介质 Download PDF

Info

Publication number
CN108763591A
CN108763591A CN201810641914.4A CN201810641914A CN108763591A CN 108763591 A CN108763591 A CN 108763591A CN 201810641914 A CN201810641914 A CN 201810641914A CN 108763591 A CN108763591 A CN 108763591A
Authority
CN
China
Prior art keywords
text
web page
labels
row block
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810641914.4A
Other languages
English (en)
Other versions
CN108763591B (zh
Inventor
李丹
吴潇
李靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co Ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co Ltd filed Critical Hunan Xinghan Shuzhi Technology Co Ltd
Priority to CN201810641914.4A priority Critical patent/CN108763591B/zh
Publication of CN108763591A publication Critical patent/CN108763591A/zh
Application granted granted Critical
Publication of CN108763591B publication Critical patent/CN108763591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种网页正文提取方法、装置、计算机装置及计算机可读存储介质,该网页正文提取方法包括:构建DOM树,根据DOM树中的h标签的文本与title标签的文本的相似度,确定网页标题位置;对所述DOM树进行过滤,获取行块列表;通过所述行块列表中行块与所述网页标题位置,确定网页正文区域;根据所述网页正文区域,确定网页正文的开始位置和结束位置,并提取所述开始位置与所述结束位置之间的文本为网页正文。本发明实施例提供的网页正文抽取方法,提高了正文抽取的准确度以及正文抽取的效率,正文抽取方法适用范围更广。

Description

一种网页正文提取方法、装置、计算机装置及计算机可读存储 介质
技术领域
本发明属于互联网技术领域,尤其涉及一种网页正文提取方法、装置、计算机装置及计算机可读存储介质。
背景技术
随着互联网技术的发展,人们对有效的网页信息的需求也越来越高。现有网页一般包括很多信息,如导航、标题、正文、广告等内容,而这些内容中,我们关注的通常为正文的信息,因此需要对网页进去去燥处理,以尽可能精准的提取网页正文的信息。
现有技术中的网页正文提取方法,一般分为以下两种,一种为:通过文字占所有字符的比例、文字个数、标点符号个数等过滤条件来进行正文抽取,但此种方法由于不同语言标点符号的不一致性(如:有些标点符号对英语、西班牙语的等适用,但是对中文不适用),以及不同的网站文字个数、文字占所有字符的比例等阈值的不一致性等原因,导致抽取准确性较差;
另一种为:采用基于模板的正文抽取方法,但是此种方法由于模板需要人工配置,且不同的网页样式需配置不同的模板,当网页种类比较多时,需要大量的人力,正文抽取准确率较低,且正文抽取效率低。
发明内容
本发明实施例提供一种网页正文提取方法,旨在解决现有技术中网页正文抽取准确率低的问题。
本发明实施例是这样实现的,一种网页正文提取方法,所述网页正文提取方法包括:
构建DOM树,根据所述DOM树中的h标签的文本与title标签的文本的相似度,确定网页标题位置;
对所述DOM树进行过滤,获取行块列表;
通过所述行块列表中行块与所述网页标题位置,确定网页正文区域;
根据所述网页正文区域,确定网页正文的开始位置和结束位置,并提取所述开始位置与所述结束位置之间的文本为网页正文。
本发明实施例还提供一种网页正文提取装置,所述网页正文提取装置包括:
网页标题确定单元,用于构建DOM树,根据所述DOM树中的h标签的文本与title标签的文本的相似度,确定网页标题位置;
行块列表获取单元,用于对所述DOM树进行过滤获取行块列表;
网页正文区域确定单元,用于通过所述行块列表中行块与所述网页标题位置,确定网页正文区域;
网页正文提取单元,用于根据所述网页正文区域,确定网页正文的开始位置和结束位置,并提取所述开始位置与所述结束位置之间的文本为网页正文。
本发明实施例还提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述网页正文提取方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述网页正文提取方法的步骤。
本发明实施例提供的网页正文提取方法,通过构建DOM树,根据DOM树中的h标签的文本与title标签的文本的相似度来确定网页标题位置;再对DOM树进行过滤来获取行块列表;然后通过行块列表与网页标题位置确定网页正文区域;最后提取根据网页正文区域确定的网页正文的开始位置和结束位置之间的文本为网页正文,此方法无需对网页抽取类型及语言类型进行限制,提高了网页正文抽取的准确度,应用范围更广;另外,此方法无需人工配置模板,提高了正文抽取的效率。
附图说明
图1是本发明实施例提供的一种网页正文提取方法的实现流程图;
图2是本发明实施例提供的一种行与权值大小对应关系图;
图3是本发明实施例提供的一种行与行块长度的对应关系图;
图4是本发明实施例提供的一种对DOM树进行过滤,获取行块列表的实现流程图;
图5是本发明实施例提供的一种通过行块列表中行块与网页标题位置,确定网页正文区域的实现流程图;
图6是本发明实施例提供的一种通过预设的过滤规则对与DOM树进行过滤,获取无标签网页文本列表的实现流程图;
图7是本发明实施例提供的一种删除第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本的实现流程图;
图8是本发明实施例提供的一种网页正文提取装置的结构示意图;
图9是本发明实施例提供的一种行块列表获取单元的结构示意图;
图10是本发明实施例提供的一种网页正文区域确定单元的结构示意图;
图11是本发明实施例提供的一种网页标题确定单元的结构示意图;
图12是本发明实施例提供的一种无标签网页文本列表获取子单元的结构示意图;
图13是本发明实施例提供的一种行块权值确定子单元的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的网页正文提取方法,通过构建DOM树,根据DOM树中的h标签的文本与title标签的文本的相似度来确定网页标题位置;再对DOM树进行过滤来获取行块列表;然后通过行块列表与网页标题位置确定网页正文区域;最后提取根据网页正文区域确定的网页正文的开始位置和结束位置之间的文本为网页正文,此方法无需对网页抽取类型及语言类型进行限制,提高了网页正文抽取的准确度,应用范围更广。
图1示出了本发明实施例提供的一种网页正文提取方法的实现流程图;该网页正文提取方法,包括:
在步骤S101中,构建DOM树,根据所述DOM树中的h标签的文本与title标签的文本的相似度,确定网页标题位置。
可以理解,本发明实施例中的DOM树属于本领域的公知性常识,在此不再赘述。
作为本发明的一个实施例,h标签包括h1、h2、h3、h4等子标签。其中,当存在h1标签时,则一个h标签中至少包括一个h1标签,同理类推,h2-h4各标签也可以包括多个。
在本发明实施例中,相似度可以40%、41%、45%、50%、60%,h标签的文本与title标签的文本的相似度越高,则h1标签的文本为网页标题的可能性越大。
例如,h1标签的文本与title标签的文本的相似度为70%,则确定h1标签的文本为网页标题;
例如,h1标签的文本与title标签的文本的相似度为35%,当h1标签列表中文本长度为9,则确定h1标签列表中的第一个h1标签中的文本为网页标题。
在步骤S102中,对所述DOM树进行过滤,获取行块列表。
在本发明实施例中,DOM树包括h标签、a标签、body标签、p标签、br标签、脚本、特殊字符等。
作为本发明的一个实施例,行块列表为过滤后去除标签的文本列表(即无标签网页文本列表)根据设置阈值得到的。
在本发明实施例中,设置的阈值包括W(块宽度,即行数)、T(块长度阈值,即W行的字符数相加要到的最小值);W值可取5-8,T值中文可设置为60-80,其他语言如英语、西班牙语可选择T值为70-90,T值的取值可根据W值的变化做相应的调整;调整的方案为:在范围区间内,W值越大,T值随之增加。
例如,中文A无标签网页文本列表共包括12行,其W值为6、中文T值为70,则可对A无标签网页文本列表进行如下划分:
1-6行为第一块;
2-7行为第二块;
3-8行为第三块;
4-9行为第四块;
5-10行为第五块;
6-11行为第六块;
7-12行为第七块。
在步骤S103中,通过所述行块列表中行块与所述网页标题位置,确定网页正文区域。
在本发明实施例中,通过行块与网页标题位置可以获得行块列表中所有行块的权值,且满足权值最大的行块的各行的W值相加≧T值,则此行块所在的位置为网页正文区域。
例如,参见图2(其中,X轴为行,Y轴为对应行块值,其中,对应行块值为,如该行为30行,则以上述步骤S102中行块划分方式,即W=6时,30-35行为一块,此行块对应的行块值)可知,某网页过滤处理后,权值最大的行在30行,对应的行块权值为3.85左右,且此权值最大的行块的各行的W值相加≧T值,所以30行对应的行块所在的位置为网页正文区域。
在本发明实施例中,行块与网页标题位置越近,则所述行块为网页正文的可能性越大。
可以理解网页正文区域包括可以包括多个行块。
在步骤S104中,根据所述网页正文区域,确定网页正文的开始位置和结束位置,并提取所述开始位置与所述结束位置之间的文本为网页正文。
在本发明实施例中,在确定了网页正文区域后,确定正文的起始与结束位置,也确定网页正文,在上述图2的基础上,参见图3,由图3可知,该行块的30行对应的行块长度为L:750,从30行开始向前遍历,当某一行满足L值小于T值时,该行的下一行即为正文的起始位置S,即23行;从30行开始向后遍历,当某一行满足L值小于T值时,该行的上一行即为正文的结束位置E,即31行。
本发明实施例提供的网页正文提取方法,通过构建DOM树,根据DOM树中的h标签的文本与title标签的文本的相似度来确定网页标题位置;再对DOM树进行过滤来获取行块列表;然后通过行块列表与网页标题位置确定网页正文区域;最后提取根据网页正文区域确定的网页正文的开始位置和结束位置之间的文本为网页正文,此方法无需对网页抽取类型及语言类型进行限制,提高了网页正文抽取的准确度,应用范围更广;另外,此方法无需人工配置模板,提高了正文抽取的效率。
参见图4,上述步骤S102,包括:
在步骤S1021中,通过预设的过滤规则对所述DOM树进行过滤,获取无标签网页文本列表。
参见图6,上述步骤S1021,包括:
在步骤S201中,删除DOM树中与网页域名不同的所有a标签,获得第一过滤网页文本。
经过此步骤操作可以有效过滤掉广告等a标签对正文的影响,具体做法可以通过Jsoup解析器进行提取出DOM树中的a标签,再进行a标签的删除。可以理解,本发明实施例中,所有从DOM树中提取的标签,优选的,都采用Jsoup解析器进行提取,以后不再赘述。
在步骤S202中,提取所述第一过滤网页文本中的body标签,并删除body标签中的格式标签,获得第二过滤网页文本。
在本发明实施例中,body标签包括script、style、iframe、footer等标签。
通过上述步骤S202的操作,可去除网站的杂质信息,减少格式标签对网页正文的影响,提高正文抽取的准确度。
在步骤S203中,删除所述第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本。
参见图7,上述步骤S203,具体包括:
在步骤S2031中,提取DOM树中所有p标签,组成p标签列表;
在步骤S2032中,遍历所述p标签列表,删除两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本。
通过上述步骤S203的操作,可以使正文尽可能紧密,提高正文抽取的准确度。
在步骤S204中,将所述第三过滤文本中的网页段落结构标签替换成固定字符,获得第四过滤文本。
通过此步骤的操作,提高了正文的紧密性,进而提高正文抽取的准确度。
在步骤S205中,删除所述第四过滤文本中的脚本、特殊字符、标签,获取无标签网页文本,并将所述无标签网页文本进行换行符分割,获得无标签网页文本列表。
通过此步骤的操作,提高了正文的紧密性,进而提高正文抽取的准确度。
在步骤S1022中,通过预设阈值划分所述无标签网页文本列表,获取行块列表。
作为本发明的优选实施例,W值为6,中文的T值设为70,其他语言如英语、西班牙语选择T值为80,则无需再根据网页类型的不同而预设阈值的调整。
参见图5,上述步骤S103,包括:
在步骤S1031中,通过所述行块列表中行块与所述网页标题位置,确定各行块权值,并组成行块权值列表。
步骤S1031,具体包括:
a、计算行块在所述无标签网页文本中的位置占比,即D,公式为:
其中,titleIndex为所述无标签网页文本中标题的位置,endIndex为所述无标签网页文本中结束位置,P为行块当前距离所述无标签网页文本中的标题的距离;
b、通过预设的行块权值公式,计算出各行块权值,即Y,所述预设的行块权值公式为:
其中,D为行块在所述无标签网页文本中的位置占比,L为该行块中字符个数总数。
在步骤S1032中,确定所述行块列表中行块权值最大的位置为网页正文区域。
在本发明实施例中,先通过行块列表中行块与所述网页标题位置,确定各行块权值,并组成行块权值列表;再通过行块列表中行块权值最大的位置来确定网页正文区域,通过公式精确计算出行块权值,进而提高了网页正文抽取的准确度。
在本发明实施例中,所述h标签包括h1标签、h2标签,上述步骤S101,具体包括:
当Simh1,title≥40%时,则确定h1标签的文本为网页标题;
当Simh1,title<40%时:
a、当h1标签列表中文本长度≥8时,确定所述h1标签列表中的第一个h1标签中的文本为网页标题;
b、当h1标签列表中文本长度<8时,判断Simh2,title是否大于40%;
c、当判断结果为是时,确定所述h2标签列表中的第一个标签为标题;当判断结果为否时,确定title标签为网页标题。
本发明实施例通过上述步骤,可以更加精确确定出网页标题,进而提高了网页正文抽取的准确度。
在本发明实施例中,在图6基础上,所述网页正文提取方法,还包括:
判断提取到的所述第四过滤文本中是否存在结构相似的文本块;
当判断结果为否时,保留提取到的所述网页正文;当判断结果为是时,删除所述文本块。
在本发明实施例中,循环遍历无标签网页文本列表,递归取到每个叶子节点的父节点,父节点的父节点,根据层级结构依次向上递归。当发现有3层或者以上结构相似且相似结构的数目大于等于3个时认为存在相似结构块。
作为本发明的优选实施例,相似结构数目为5时,判断更加精准。
本发明实施例提供的网页正文提取方法,通过判断提取到的第四过滤文本中不存在相似结构的文本块时,保留文本块为网页正文;当存在相似结构块时,删除文本块,有效降低了文字列表等因素的干扰,提高了网页正文抽取的准确度。
本发明实施例提供的网页正文提取方法,通过构建DOM树,根据DOM树中的h标签的文本与title标签的文本的相似度来确定网页标题位置;再对DOM树进行过滤来获取行块列表;然后通过行块列表与网页标题位置确定网页正文区域;最后提取根据网页正文区域确定的网页正文的开始位置和结束位置之间的文本为网页正文,此方法无需对网页抽取类型及语言类型进行限制,提高了网页正文抽取的准确度,应用范围更广;另外,此方法无需人工配置模板,提高了正文抽取的效率。
图8示出了本发明实施例提供的一种网页正文提取装置300的结构示意图,为了便于说明,仅示出了于本发明实施例相关的部分。该网页正文提取装置300,包括:
网页标题确定单元310,用于构建DOM树,根据所述DOM树中的h标签的文本与title标签的文本的相似度,确定网页标题位置。
可以理解,本发明实施例中的DOM树属于本领域的公知性常识,在此不再赘述。
作为本发明的一个实施例,h标签包括h1、h2、h3、h4等子标签,其中,当存在h1标签时,则一个h标签中至少包括一个h1标签,同理类推,h2-h4各标签也可以包括多个。
在本发明实施例中,相似度可以40%、41%、45%、50%、60%,h标签的文本与title标签的文本的相似度越高,则h1标签的文本为网页标题的可能性越大。
例如,h1标签的文本与title标签的文本的相似度为70%,则确定h1标签的文本为网页标题;
例如,h1标签的文本与title标签的文本的相似度为35%,当h1标签列表中文本长度为9,则确定h1标签列表中的第一个h1标签中的文本为网页标题。
行块列表获取单元320,用于对所述DOM树进行过滤获取行块列表。
在本发明实施例中,DOM树包括h标签、a标签、body标签、p标签、br标签、脚本、特殊字符等。
作为本发明的一个实施例,行块列表为过滤后去除标签的文本列表(即无标签网页文本列表)根据设置阈值得到的。
在本发明实施例中,设置的阈值包括W(块宽度,即行数)、T(块长度阈值,即W行的字符数相加要到的最小值);W值可取5-8,T值中文可设置为60-80,其他语言如英语、西班牙语可选择T值为70-90,T值的取值可根据W值的变化做相应的调整;调整的方案为:在范围区间内,W值越大,T值随之增加。
例如,中文A无标签网页文本列表共包括12行,其W值为6、中文T值为70,则可对A无标签网页文本列表进行如下划分:
1-6行为第一块;
2-7行为第二块;
3-8行为第三块;
4-9行为第四块;
5-10行为第五块;
6-11行为第六块;
7-12行为第七块。
网页正文区域确定单元330,用于通过所述行块列表中行块与所述网页标题位置,确定网页正文区域。
在本发明实施例中,通过行块与网页标题位置可以获得行块列表中所有行块的权值,且满足权值最大的行块的各行的W值相加≧T值,则此行块所在的位置为网页正文区域。
例如,参见图2(其中,X轴为行,Y轴为对应行块值,其中,对应行块值为,如该行为30行,则以上述步骤S102中行块划分方式,即W=6时,30-35行为一块,此行块对应的行块值)可知,某网页过滤处理后,权值最大的行在30行,对应的行块权值为3.85左右,且此权值最大的行块的各行的W值相加≧T值,所以30行对应的行块所在的位置问网页正文区域。
在本发明实施例中,行块与网页标题位置越近,则所述行块为网页正文的可能性越大。
可以理解网页正文区域包括可以包括多个行块。
网页正文提取单元340,用于根据所述网页正文区域,确定网页正文的开始位置和结束位置,并提取所述开始位置与所述结束位置之间的文本为网页正文。
在本发明实施例中,在确定了网页正文区域后,确定正文的起始与结束位置,也确定网页正文,在上述图2的基础上,参见图3,由图3可知,该行块的30行对应的行块长度为L:750,从30行开始向前遍历,当某一行满足L值小于T值时,该行的下一行即为正文的起始位置S,即23行;从30行开始向后遍历,当某一行满足L值小于T值时,该行的上一行即为正文的结束位置E,即31行。
本发明实施例提供的网页正文提取装置,通过构建DOM树,根据DOM树中的h标签的文本与title标签的文本的相似度来确定网页标题位置;再对DOM树进行过滤来获取行块列表;然后通过行块列表与网页标题位置确定网页正文区域;最后提取根据网页正文区域确定的网页正文的开始位置和结束位置之间的文本为网页正文,此方法无需对网页抽取类型及语言类型进行限制,提高了网页正文抽取的准确度,应用范围更广;另外,此方法无需人工配置模板,提高了正文抽取的效率。
参见图9,在本发明实施例中,上述行块列表获取单元320,包括:
无标签网页文本列表获取子单元321,用于通过预设的过滤规则对所述DOM树进行过滤,获取无标签网页文本列表。
参见图12,在本发明实施例中,上述无标签网页文本列表获取子单元321,包括:
第一过滤网页正文获取模块3211,用于删除DOM树中与网页域名不同的所有a标签,获取第一过滤网页文本。
经过此步骤操作可以有效过滤掉广告等a标签对正文的影响,具体做法可以通过Jsoup解析器进行提取出DOM树中的a标签,再进行a标签的删除。可以理解,本发明实施例中,所有从DOM树中提取的标签,优选的,都采用Jsoup解析器进行提取,以后不再赘述。
第二过滤网页正文获取模块3212,用于提取所述第一过滤网页文本中的body标签,并删除body标签中的格式标签,获得第二过滤网页文本。
在本发明实施例中,body标签包括script、style、iframe、footer等标签。
通过该模块,可去除网站的杂质信息,减少格式标签对网页正文的影响,提高正文抽取的准确度。
第三过滤网页正文获取模块3213,用于删除所述第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本。
在本发明实施例中,上述第三过滤网页正文获取模块3213,具体包括:
提取子模块,用于提取DOM树中所有p标签,组成p标签列表;
删除子模块,用于遍历所述p标签列表,删除两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本。
通过上述第三过滤网页正文获取模块3213,可以使正文尽可能紧密,提高正文抽取的准确度。
第四过滤网页正文获取模块3214,用于将所述第三过滤文本中的网页段落结构标签替换成固定字符,获得第四过滤文本。
通过此第四过滤网页正文获取模块3214,提高了正文的紧密性,进而提高正文抽取的准确度。
无标签网页文本列表获取模块3215,用于删除所述第四过滤文本中的脚本、特殊字符、标签,获得无标签网页文本,并将所述无标签网页文本进行换行符分割,获取无标签网页文本列表。
通过无标签网页文本列表获取模块3215,提高了正文的紧密性,进而提高正文抽取的准确度。
行块列表获取子单元322,用于通过预设阈值划分所述无标签网页文本列表,获取行块列表。
作为本发明的优选实施例,W值为6,中文的T值设为70,其他语言如英语、西班牙语选择T值为80,则无需再根据网页类型的不同而预设阈值的调整。
参见图10,在本发明实施例中,上述网页正文区域确定单元330,包括:
行块权值确定子单元331,用于通过所述行块列表中行块与所述网页标题位置,确定各行块权值,并组成行块权值列表。
参见图13,在本发明实施例中上述行块权值确定子单元331,具体包括:
第一计算模块,用于计算行块在所述无标签网页文本中的位置占比,
即D,公式为:
其中,titleIndex为所述无标签网页文本中标题的位置,endIndex为所述无标签网页文本中结束位置,P为行块当前距离所述无标签网页文本中的标题的距离;
第二计算模块,用于通过预设的行块权值公式,计算出各行块权值,即Y,所述预设的行块权值公式为:
其中,D为行块在所述无标签网页文本中的位置占比,L为该行块中字符个数总数。
网页正文区域确定子单元332,用于确定所述行块列表中行块权值最大的位置为网页正文区域。
在本发明实施例中,先通过行块列表中行块与所述网页标题位置,确定各行块权值,并组成行块权值列表;再通过行块列表中行块权值最大的位置来确定网页正文区域,通过公式精确计算出行块权值,进而提高了网页正文抽取的准确度。
参见图11,在本发明实施例中,所述h标签包括h1标签、h2标签,上述网页标题确定单元310,具体包括:
第一网页标题确定子单元311,用于当Simh1,title≥40%时,则确定h1标签的文本为网页标题;
第二网页标题确定子单元312,用于当Simh1,title<40%时,当h1标签列表中文本长度≥8时,确定所述h1标签列表中的第一个h1标签中的文本为网页标题;
第三网页标题确定子单元313,用于当h1标签列表中文本长度<8时,且当Simh2,title>40%时,确定所述h2标签列表中的第一个标签为标题。
本发明实施例提供的网页正文抽取装置,通过上述网页标题确定单元310,可以更加精确确定出网页标题,进而提高了网页正文抽取的准确度。
在本发明实施例中,在上述图12的基础上,所述网页正文提取装置,还包括:
判断单元,用于判断提取到的所述第四过滤文本中是否存在结构相似的文本块;
保留单元,用于当判断结果为否时,保留提取到的所述网页正文。
在本发明实施例中,循环遍历无标签网页文本列表,递归取到每个叶子节点的父节点,父节点的父节点,根据层级结构依次向上递归。当发现有3层或者以上结构相似且相似结构的数目大于等于3个时认为存在相似结构块。
作为本发明的优选实施例,相似结构数目为5时,判断更加精准。
本发明实施例提供的网页正文提取装置,通过判断提取到的第四过滤文本中不存在相似结构的文本块时,保留文本块为网页正文;当存在相似结构块时,删除文本块,有效降低了文字列表等因素的干扰,提高了网页正文抽取的准确度。
本发明实施例提供的网页正文提取装置,通过构建DOM树,根据DOM树中的h标签的文本与title标签的文本的相似度来确定网页标题位置;再对DOM树进行过滤来获取行块列表;然后通过行块列表与网页标题位置确定网页正文区域;最后提取根据网页正文区域确定的网页正文的开始位置和结束位置之间的文本为网页正文,此方法无需对网页抽取类型及语言类型进行限制,提高了网页正文抽取的准确度,应用范围更广;另外,此方法无需人工配置模板,提高了正文抽取的效率。
本发明实施例提供一种计算机装置,该计算机装置包括处理器,处理器用于执行存储器中存储的计算机程序时实现上述各个方法实施例提供的网页正文提取方法的步骤。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,计算机程序可以被分割成上述各个方法实施例提供的网页正文提取方法的步骤。
本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个网页正文提取方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信号以及软件分发介质等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种网页正文提取方法,其特征在于,所述网页正文提取方法包括:
构建DOM树,根据所述DOM树中的h标签的文本与title标签的文本的相似度,确定网页标题位置;
对所述DOM树进行过滤,获取行块列表;
通过所述行块列表中行块与所述网页标题位置,确定网页正文区域;
根据所述网页正文区域,确定网页正文的开始位置和结束位置,并提取所述开始位置与所述结束位置之间的文本为网页正文。
2.如权利要求1所述的网页正文提取方法,其特征在于,所述对所述DOM树进行过滤,获取行块列表的步骤,包括:
通过预设的过滤规则对所述DOM树进行过滤,获取无标签网页文本列表;
通过预设阈值划分所述无标签网页文本列表,获取行块列表。
3.如权利要求1所述的网页正文提取方法,其特征在于,所述通过所述行块列表中行块与所述网页标题位置,确定网页正文区域的步骤,包括:
通过所述行块列表中行块与所述网页标题位置,确定各行块权值,并组成行块权值列表;
确定所述行块列表中行块权值最大的位置为网页正文区域。
4.如权利要求1所述的网页正文提取方法,其特征在于,所述h标签包括h1标签、h2标签,所述构建DOM树,根据所述DOM树中的h标签的文本与title标签的文本的相似度,确定网页标题位置,具体包括:
当Simh1,title≥40%时,则确定h1标签的文本为网页标题;
当Simh1,title<40%时:
a、当h1标签列表中文本长度≥8时,确定所述h1标签列表中的第一个h1标签中的文本为网页标题;
b、当h1标签列表中文本长度<8时,且当Simh2,title>40%时,确
定所述h2标签列表中的第一个标签为标题。
5.如权利要求2所述的网页正文提取方法,其特征在于,所述通过预设的过滤规则对与所述DOM树进行过滤,获取无标签网页文本列表,包括:
删除DOM树中与网页域名不同的所有a标签,获得第一过滤网页文本;
提取所述第一过滤网页文本中的body标签,并删除body标签中的格式标签,获得第二过滤网页文本;
删除所述第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本;
将所述第三过滤文本中的网页段落结构标签替换成固定字符,获得第四过滤文本;
删除所述第四过滤文本中的脚本、特殊字符、标签,获取无标签网页文本,并将所述无标签网页文本进行换行符分割,获得无标签网页文本列表。
6.如权利要求5所述的网页正文提取方法,其特征在于,所述删除所述第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本,具体包括:
提取DOM树中所有p标签,组成p标签列表;
遍历所述p标签列表,删除两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本。
7.如权利要求3所述的网页正文提取方法,其特征在于,所述通过所述行块列表中行块与所述网页标题位置,确定各行块权值,并组成行块权值列表,具体包括:
a、计算行块在所述无标签网页文本中的位置占比,即D,公式为:
其中,titleIndex为所述无标签网页文本中标题的位置,endIndex为所述无标签网页文本中结束位置,P为行块当前距离所述无标签网页文本中的标题的距离;
b、通过预设的行块权值公式,计算出各行块权值,即Y,所述预设的行块权值公式为:
其中,D为行块在所述无标签网页文本中的位置占比,L为该行块中字符个数总数。
8.如权利要求5所述的网页正文提取方法,其特征在于,所述网页正文提取方法,还包括:
判断提取到的所述第四过滤文本中是否存在结构相似的文本块;
当判断结果为否时,保留提取到的所述网页正文。
9.一种网页正文提取装置,其特征在于,所述网页正文提取装置包括:
网页标题确定单元,用于构建DOM树,根据所述DOM树中的h标签的文本与title标签的文本的相似度,确定网页标题位置;
行块列表获取单元,用于对所述DOM树进行过滤获取行块列表;
网页正文区域确定单元,用于通过所述行块列表中行块与所述网页标题位置,确定网页正文区域;
网页正文提取单元,用于根据所述网页正文区域,确定网页正文的开始位置和结束位置,并提取所述开始位置与所述结束位置之间的文本为网页正文。
10.如权利要求1所述的网页正文提取装置,其特征在于,所述行块列表获取单元,包括:
无标签网页文本列表获取子单元,用于通过预设的过滤规则对所述DOM树进行过滤,获取无标签网页文本列表;
行块列表获取子单元,用于通过预设阈值划分所述无标签网页文本列表,获取行块列表。
11.如权利要求1所述的网页正文提取装置,其特征在于,所述网页正文区域确定单元,包括:
行块权值确定子单元,用于通过所述行块列表中行块与所述网页标题位置,确定各行块权值,并组成行块权值列表;
网页正文区域确定子单元,用于确定所述行块列表中行块权值最大的位置为网页正文区域。
12.如权利要求1所述的网页正文提取装置,其特征在于,所述h标签包括h1标签、h2标签,所述网页标题确定单元,具体包括:
第一网页标题确定子单元,用于当Simh1,title≥40%时,则确定h1标签的文本为网页标题;
第二网页标题确定子单元,用于当Simh1,title<40%时,当h1标签列表中文本长度≥8时,确定所述h1标签列表中的第一个h1标签中的文本为网页标题;
第三网页标题确定子单元,用于当h1标签列表中文本长度<8时,且当Simh2,title>40%时,确定所述h2标签列表中的第一个标签为标题。
13.如权利要求10所述的网页正文提取装置,其特征在于,所述无标签网页文本列表获取子单元,包括:
第一过滤网页正文获取模块,用于删除DOM树中与网页域名不同的所有a标签,获取第一过滤网页文本;
第二过滤网页正文获取模块,用于提取所述第一过滤网页文本中的body标签,并删除body标签中的格式标签,获得第二过滤网页文本;
第三过滤网页正文获取模块,用于删除所述第二过滤文本中两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本;
第四过滤网页正文获取模块,用于将所述第三过滤文本中的网页段落结构标签替换成固定字符,获得第四过滤文本;
无标签网页文本列表获取模块,用于删除所述第四过滤文本中的脚本、特殊字符、标签,获得无标签网页文本,并将所述无标签网页文本进行换行符分割,获取无标签网页文本列表。
14.如权利要求13所述的网页正文提取装置,其特征在于,所述第三过滤网页正文获取模块,具体包括:
提取子模块,用于提取DOM树中所有p标签,组成p标签列表;
删除子模块,用于遍历所述p标签列表,删除两个p标签之间没有文本的标签、没有文本的p标签以及p标签之后的换行,获得第三过滤网页文本。
15.如权利要求11所述的网页正文提取装置,其特征在于,所述行块权值确定子单元,具体包括:
第一计算模块,用于计算行块在所述无标签网页文本中的位置占比,即D,公式为:
其中,titleIndex为所述无标签网页文本中标题的位置,endIndex为所述无标签网页文本中结束位置,P为行块当前距离所述无标签网页文本中的标题的距离;
第二计算模块,用于通过预设的行块权值公式,计算出各行块权值,即Y,所述预设的行块权值公式为:
其中,D为行块在所述无标签网页文本中的位置占比,L为该行块中字符个数总数。
16.如权利要求13所述的网页正文提取装置,其特征在于,所述网页正文提取装置,还包括:
判断单元,用于判断提取到的所述第四过滤文本中是否存在结构相似的文本块;
保留单元,用于当判断结果为否时,保留提取到的所述网页正文。
17.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-8中任意一项所述网页正文提取方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-8中任意一项所述网页正文提取方法的步骤。
CN201810641914.4A 2018-06-21 2018-06-21 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质 Active CN108763591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810641914.4A CN108763591B (zh) 2018-06-21 2018-06-21 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810641914.4A CN108763591B (zh) 2018-06-21 2018-06-21 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108763591A true CN108763591A (zh) 2018-11-06
CN108763591B CN108763591B (zh) 2021-01-08

Family

ID=63979570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810641914.4A Active CN108763591B (zh) 2018-06-21 2018-06-21 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108763591B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377796A (zh) * 2019-07-25 2019-10-25 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质
CN110381118A (zh) * 2019-06-19 2019-10-25 平安普惠企业管理有限公司 页面数据传输的控制方法和相关设备
CN110688552A (zh) * 2019-06-27 2020-01-14 平安科技(深圳)有限公司 网页正文内容获取方法、装置、计算机设备及存储介质
CN110795933A (zh) * 2019-09-30 2020-02-14 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN111241446A (zh) * 2020-01-13 2020-06-05 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111309854A (zh) * 2019-11-20 2020-06-19 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN111563387A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置
CN111966901A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN112667940A (zh) * 2020-10-15 2021-04-16 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN114201700A (zh) * 2021-12-10 2022-03-18 北京金堤科技有限公司 网页正文获取方法、装置、存储介质及电子设备
CN115203604A (zh) * 2022-09-15 2022-10-18 成都数之联科技股份有限公司 一种网页正文提取方法及系统及装置及介质
CN115658993A (zh) * 2022-09-27 2023-01-31 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
US20110145229A1 (en) * 2007-04-19 2011-06-16 Retrevo Inc. Indexing and searching product identifiers
CN102541874A (zh) * 2010-12-16 2012-07-04 中国移动通信集团公司 网页正文内容提取方法及装置
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
US20120330944A1 (en) * 2007-04-19 2012-12-27 Barnesandnoble.Com Llc Indexing and search query processing
CN102929871A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种网页浏览方法、装置及移动终端
CN103927397A (zh) * 2014-05-05 2014-07-16 湖北文理学院 一种基于区块树的Web页面链接块的识别方法
CN104598577A (zh) * 2015-01-14 2015-05-06 晶赞广告(上海)有限公司 一种网页正文的提取方法
CN105183801A (zh) * 2015-08-25 2015-12-23 北京信息科技大学 网页正文抽取方法及装置
CN106503211A (zh) * 2016-11-03 2017-03-15 福州大学 面向信息发布类网站的移动版自动生成的方法
CN107463571A (zh) * 2016-06-03 2017-12-12 北京京东尚科信息技术有限公司 网页消重方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110145229A1 (en) * 2007-04-19 2011-06-16 Retrevo Inc. Indexing and searching product identifiers
US20120330944A1 (en) * 2007-04-19 2012-12-27 Barnesandnoble.Com Llc Indexing and search query processing
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN102541874A (zh) * 2010-12-16 2012-07-04 中国移动通信集团公司 网页正文内容提取方法及装置
CN102929871A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种网页浏览方法、装置及移动终端
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法
CN103927397A (zh) * 2014-05-05 2014-07-16 湖北文理学院 一种基于区块树的Web页面链接块的识别方法
CN104598577A (zh) * 2015-01-14 2015-05-06 晶赞广告(上海)有限公司 一种网页正文的提取方法
CN105183801A (zh) * 2015-08-25 2015-12-23 北京信息科技大学 网页正文抽取方法及装置
CN107463571A (zh) * 2016-06-03 2017-12-12 北京京东尚科信息技术有限公司 网页消重方法
CN106503211A (zh) * 2016-11-03 2017-03-15 福州大学 面向信息发布类网站的移动版自动生成的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何新宇: "基于改进情感词识别方法的舆情情感分析系统设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563387A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置
CN111563387B (zh) * 2019-02-12 2023-05-02 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置
CN110381118A (zh) * 2019-06-19 2019-10-25 平安普惠企业管理有限公司 页面数据传输的控制方法和相关设备
CN110381118B (zh) * 2019-06-19 2022-03-04 平安普惠企业管理有限公司 页面数据传输的控制方法和相关设备
CN110688552A (zh) * 2019-06-27 2020-01-14 平安科技(深圳)有限公司 网页正文内容获取方法、装置、计算机设备及存储介质
CN110377796B (zh) * 2019-07-25 2021-11-02 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质
CN110377796A (zh) * 2019-07-25 2019-10-25 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质
CN110795933A (zh) * 2019-09-30 2020-02-14 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN110795933B (zh) * 2019-09-30 2023-10-31 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN111309854A (zh) * 2019-11-20 2020-06-19 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN111309854B (zh) * 2019-11-20 2023-05-26 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN111241446B (zh) * 2020-01-13 2023-10-31 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111241446A (zh) * 2020-01-13 2020-06-05 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111966901B (zh) * 2020-08-17 2021-04-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN111966901A (zh) * 2020-08-17 2020-11-20 山东亿云信息技术有限公司 政策类网页正文提取方法、系统、设备及存储介质
CN112667940B (zh) * 2020-10-15 2022-02-18 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112667940A (zh) * 2020-10-15 2021-04-16 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN114201700A (zh) * 2021-12-10 2022-03-18 北京金堤科技有限公司 网页正文获取方法、装置、存储介质及电子设备
CN115203604A (zh) * 2022-09-15 2022-10-18 成都数之联科技股份有限公司 一种网页正文提取方法及系统及装置及介质
CN115658993A (zh) * 2022-09-27 2023-01-31 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及系统
CN115658993B (zh) * 2022-09-27 2023-06-06 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及系统

Also Published As

Publication number Publication date
CN108763591B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN108763591A (zh) 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN106055667B (zh) 一种基于文本-标签密度的网页核心内容提取方法
CN105630941B (zh) 基于统计和网页结构的Web正文内容抽取方法
CN110390038B (zh) 基于dom树的页面分块方法、装置、设备及存储介质
WO2014146483A1 (zh) 一种pdf文档识别方法
CN110377796B (zh) 基于dom树的正文抽取方法、装置、设备及存储介质
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN101950312A (zh) 一种互联网网页内容解析方法
CN110738033B (zh) 报告模板生成方法、装置及存储介质
CN109165373B (zh) 一种数据处理方法及装置
CN112084451B (zh) 一种基于视觉分块的网页logo提取系统及方法
CN109101491B (zh) 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN109271598B (zh) 一种抽取新闻网页内容的方法、装置及存储介质
CN107844468A (zh) 表格信息跨页识别方法、电子设备及计算机可读存储介质
CN103777934A (zh) 一种基于matlab生成控制器can交互层的方法及系统
CN106528509B (zh) 网页信息提取方法及装置
CN105488471A (zh) 一种字形识别方法及装置
US9049400B2 (en) Image processing apparatus, and image processing method and program
CN108694192B (zh) 网页类型的判断方法及装置
CN117473984A (zh) 一种txt文档内容章节划分方法和系统
CN104536947A (zh) 版式文档的处理方法及装置
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN111160445A (zh) 投标文件相似度计算方法及装置
CN115796146A (zh) 一种文件对比方法及装置
CN113392354B (zh) 一种网页正文解析方法、系统、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant