CN105183801B - 网页正文抽取方法及装置 - Google Patents
网页正文抽取方法及装置 Download PDFInfo
- Publication number
- CN105183801B CN105183801B CN201510527675.6A CN201510527675A CN105183801B CN 105183801 B CN105183801 B CN 105183801B CN 201510527675 A CN201510527675 A CN 201510527675A CN 105183801 B CN105183801 B CN 105183801B
- Authority
- CN
- China
- Prior art keywords
- text
- block
- title
- row
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种网页正文抽取方法及系统,其中方法包括:提取网页HTML源码中的title标签中的文本,以及h标签中的文本;根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题;提取网页HTML源码中的body标签中的标签源码;对body标签中的标签源码进行第一抽取处理,获取第一网页正文;确定行块分布函数,并根据行块分布函数抽取文本块;对文本块进行第二抽取处理,获取第二网页正文。通过本发明采用的网页正文抽取方法及装置,其通用性更好,且可以快速并准确的进行抽取,保证了网页正文抽取的顺利进行。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种网页正文抽取方法及装置。
背景技术
随着因特网的高速发展,网络上的信息呈爆炸式的增长,一般用户会通过网页浏览各类信息。而网页上的文字主要有两种,包括网页所要表达的正文信息和无关正文的噪声信息,噪声信息包括网站导航、广告、版权声明、相关链接等各类噪声信息,网页所要表达的正文信息被包含在噪声信息中,而对正文抽取就是要将网页的正文信息准确、高效地提取出来。
而现有技术中往往采用从HTML网页中解析出DOM(Document Object Model,文档对象模型)树,而对不同类别和不同栏目的网页做基于DOM树结构的网页信息抽取费时费力。
因此,针对网络中不同来源、结构,不同复杂度和规范化程度的网页,需要提出一种新的具有通用性的网页正文抽取方法,以准确地进行正文抽取。
发明内容
本发明旨在至少克服上述缺陷之一提供一种网页正文抽取方法及装置,能够快速准确的进行正文抽取。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种网页正文抽取方法,包括:提取网页HTML源码中的title标签中的文本,以及h标签中的文本;根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题;提取网页HTML源码中的body标签中的标签源码;对所述body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理;确定行块分布函数,并根据所述行块分布函数抽取文本块;对所述文本块进行第二抽取处理,获取第二网页正文,其中:所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理。
另外,所述根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题包括:计算所述title标签中的文本以及所述h标签中的文本的文本相似度,获得第一计算结果;如果所述第一计算结果大于等于第一预设阈值,则确定所述title中的文本作为所述正文标题;如果所述第一计算结果小于所述第一预设阈值,则确定所述h标签中的文本作为所述正文标题。
另外,所述利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理包括:对所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行融合计算,获得第二计算结果;根据所述第二计算结果判断当前信息是否为噪声,进行去噪处理。
另外,所述第一抽取处理在利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,还包括以下至少之一:去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。
另外,所述确定行块分布函数,并根据所述行块分布函数抽取文本块包括:按照固定文本块的块长对所述第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;确定骤升点和骤降点,抽取位于所述骤升点和所述骤降点内的文本块。
另外,所述根据所述行块分布函数抽取文本块包括:记录第一个加入抽取结果的文本块的编号;计算当前文本块与所述第一个加入抽取结果的文本块之间的距离,获得第三计算结果;如果所述第三计算结果大于等于第三预设阈值,则判断当前文本块为噪声,进行去噪处理。
另外,所述利用所述文本块与所述正文标题的块文本相似度进行过滤处理包括:对位于所述骤升点和所述骤降点内的文本块与所述正文标题的块文本相似度,获得第四计算结果;如果所述第四计算结果小于第四预设阈值,则将当前文本块作为噪声,进行去噪处理。
另外,所述利用所述文本块与所述正文标题的块文本相似度进行过滤处理还包括:对所述文本块进行网页版权噪声过滤。
另外,所述第二抽取处理在利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后,还包括:计算经过所述利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后的网页正文中的每一行与所述正文标题的行文本相似度,并计算行平均文本相似度,获得第五计算结果;如果所述第五计算结果小于第五预设阈值,则根据所述行文本相似度对所述每一行进行行过滤处理。
另外,所述文本相似度可以通过如下之一进行计算:根据字或者词语采用编辑距离进行计算;根据字或者词语采用余弦距离进行计算。
本发明另一方面提供了一种网页正文抽取装置,包括:提取模块,用于提取网页HTML源码中的title标签中的文本,以及h标签中的文本;确定模块,用于根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题;所述提取模块,还用于提取网页HTML源码中的body标签中的标签源码;抽取模块,用于对所述body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理;所述确定模块,还用于确定行块分布函数;所述抽取模块,还用于根据所述行块分布函数抽取文本块;对所述文本块进行第二抽取处理,获取第二网页正文,其中:所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理。
另外,所述确定模块,通过如下方式根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题:计算所述title标签中的文本以及所述h标签中的文本的文本相似度,获得第一计算结果;如果所述第一计算结果大于等于第一预设阈值,则确定所述title中的文本作为所述正文标题;如果所述第一计算结果小于所述第一预设阈值,则确定所述h标签中的文本作为所述正文标题。
另外,所述抽取模块,通过如下方式利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理:对所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行融合计算,获得第二计算结果;根据所述第二计算结果判断当前信息为噪声,进行去噪处理。
另外,所述抽取模块,还用于在在利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,进行以下至少之一的处理:去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。
另外,所述确定模块,用于通过如下方式确定行块分布函数:按照固定文本块的块长对所述第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;确定骤升点和骤降点;所述抽取模块,用于通过如下方式根据所述行块分布函数抽取文本块:抽取位于所述骤升点和所述骤降点内的文本块。
另外,所述抽取模块,通过如下方式根据所述行块分布函数抽取文本块:记录第一个加入抽取结果的文本块的编号;计算当前文本块与所述第一个加入抽取结果的文本块之间的距离,获得第三计算结果;如果所述第三计算结果大于等于第三预设阈值,则判断当前文本块为噪声,进行去噪处理。
另外,所述抽取模块,通过如下方式利用所述文本块与所述正文标题的文本相似度进行过滤处理:对位于所述骤升点和所述骤降点内的文本块与所述正文标题的块文本相似度,获得第四计算结果;如果所述第四计算结果小于第四预设阈值,则将当前文本块作为噪声,进行去噪处理。
另外,所述抽取模块还通过如下方式利用所述文本块与所述正文标题的块文本相似度进行过滤处理:对所述文本块进行网页版权噪声过滤。
另外,所述抽取模块还用于在利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后,进行以下的处理:计算经过所述利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后的网页正文中的每一行与所述正文标题的行文本相似度,并计算行平均文本相似度,获得第五计算结果;如果所述第五计算结果小于第五预设阈值,则根据所述行文本相似度对所述每一行进行行过滤处理。
另外,所述文本相似度可以通过如下之一进行计算:根据字或者词语采用编辑距离进行计算;根据字或者词语采用余弦距离进行计算。
由上述本发明提供的技术方案可以看出,通过本发明采用的网页正文抽取方法及装置,其通用性更好,且可以快速并准确的进行抽取,保证了网页正文抽取的顺利进行。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的网页正文抽取方法的流程图;
图2为本发明实施例提供的对一种网页进行去噪处理前后的行分布函数;
图3为本发明实施例提供的对另一种网页进行去噪处理前后的行分布函数;
图4为本发明实施例提供的网页正文抽取装置的结构示意图;
图5为本发明实施例提供的网页正文抽取方法的一种具体应用的流程图。
具体实施方式
下面结合附图对本发明的实施方式进行详细说明。
图1示出了本发明实施例提供的一种网页正文抽取方法的流程图,参见图1,本发明实施例提供的一种网页正文抽取方法,包括:
S101,提取网页HTML源码中的title标签中的文本,以及h标签中的文本。
具体地,由于有些网页title标签中的文本是描述网站的信息,和正文无关,因此,需要首先确定title标签中的文本是否与实际的正文相关。此时,可以从网页的源码中提取title标签中的文本,例如记为标题1,并从网页HTML源码中提取h标签中的文本,例如记为标题2。
S102,根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题。
具体地,通过比较标题1和标题2的文本相似度来确定正文标题的实际内容,确定其是否与正文相关。
作为本发明的一个可选实施方式,文本相似度可以通过如下之一进行计算:
方式一、根据字或者词语采用编辑距离进行计算;
方式二、根据字或者词语采用余弦距离进行计算。
本发明实施例可以优选的使用的余弦距离计算文本相似度,可以采用如下公式进行计算:
T1c1,T1c2,…T1cn代表文本1中出现的字,它们在文本1中的个数为:T1n1,T1n2,…T1nn;T2c1,T2c2,…T2cn代表文本2中出现的字,它们在文本2中的个数为:T2n1,T2n2,…T2nn;其中,T1c1和T2c1表示文本1和文本2中同一个字,T1n1和T2n1是它们分别对应的字数。
其中,计算标题1和标题2的文本相似度时,上述公式中的文本1即为标题1,文本2即为标题2。
作为本发明的一个可选实施方式,在根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题的过程中,可以首先计算title标签中的文本以及h标签中的文本的文本相似度,获得第一计算结果;如果第一计算结果大于等于第一预设阈值,则确定title中的文本作为正文标题;如果第一计算结果小于第一预设阈值,则确定h标签中的文本作为正文标题。由于当第一计算结果大于等于第一预设阈值时,即表明title标签中的文本与h标签中的文本的文本相似度较高,此时可以确定title标签中的文本确实为正文内容的实际标题,反之,则把h标签中的文本作为正文标题。通过此种方式进行正文标题的判断,提高了判断速度和准确度。
S103,提取网页HTML源码中的body标签中的标签源码。
具体地,由于网页正文在网页HTML的body标签内,因此,在确定正文标题后,直接从HTML源码中获取body标签中的标签源码,以便为后续的正文抽取做准备。
S104,对body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:第一抽取处理至少包括利用body标签中的标签源码中每一行的行文本密度、行文本与正文标题的文本相似度以及行文本的中文字数进行去噪处理。
具体地,本发明实施例使用多特征融合网页去噪的方法对body标签中的标签源码进行去噪,即本发明实施例中的第一抽取处理至少包括计算body标签中的标签源码中每一行的行文本密度,行文本与正文标题的文本相似度和行文本的中文字数,将三个特征的融合结果作为判断噪声的依据。
作为本发明实施例的一个可选实施方式,可以通过如下方式利用body标签中的标签源码中每一行的行文本密度、行文本与正文标题的文本相似度以及行文本的中文字数进行去噪处理:首先对body标签中的标签源码中每一行的行文本密度、行文本与正文标题的文本相似度以及行文本的中文字数进行融合计算,获得第二计算结果;根据第二计算结果判断当前信息为噪声,进行去噪处理。例如如果第二计算结果中,当行文本密度小于一个第二预设阈值1,文本相似度小于一个第二预设阈值2,同时中文字数大于一个第二预设阈值3,即判断当前信息为与网页正文无关的噪声,进行去噪处理。通过上述三个特征的融合结果作为判断噪声的依据,提高噪声判断的速度和正确率。
其中,行文本密度为在一个网页标签行中,其中的文本在整个标签行的长度(包括标签)所占的比值。例如:对于一个标签行A来说,它的行文本密度density计算公式可表示为:
其中,公式中lines(A)为标签行A的内容,outTag(lines(A))代表去除标签行A的HTML编码后的字符串,getBytesLen(string)代表获取字符串string的字节长度。
行文本相似度为在一个网页标签行中,其中的文本与正文标题的文本相似度。其中,行文本与正文标题的文本相似度也可以采用上述的余弦距离计算文本相似度来进行计算。
作为本发明实施例的一个可选实施方式,第一抽取处理在利用body标签中的标签源码中每一行的行文本密度、行文本与正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,还可以包括以下至少之一的处理:去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。由此经过进一步的进行去噪处理,从而令获得的第一网页正文更为精准。
由此可见,如图2和图3所示,利用多特征融合网页去噪方法前后的文本行分布函数对比图,可以直观地看出网页正文所在区域,离开网页正文所在区域的是非正文信息,经过去噪后,导航、广告等链接群噪声明显减少,这保证了后续在使用获取到的第一网页正文时,可以有效避免非正文信息被判断为是属于正文的文本块。其中,图2和图3中所示的文本行分布函数Y(X),X代表去除HTML编码后的文本行编号,Y代表X行的文本长度。且图2为对网页http://news.sina.com.cn/c/2015-05-14/182031832995.shtml进行去噪处理前后的行分布函数,图3为对网页http://media.163.com/14/0710/17/A0QDL2MC00763NKJ.html进行去噪处理的前后的行分布函数。
S105,确定行块分布函数,并根据行块分布函数抽取文本块。
具体地,为了进一步进行精准的正文抽取,在步骤S104中获取的第一网页正文的基础上,可以进行确定行块分布函数,并根据行块分布函数抽取文本块,并对抽取的文本快进行进一步的过滤,使得获取到的网页正文进一步地准确。
作为本发明实施例的一个可选实施方式,可以通过如下方式确定行块分布函数,并根据行块分布函数抽取文本块:按照固定文本块的块长对第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;确定骤升点和骤降点,抽取位于骤升点和骤降点内的文本块。利用此种方式进行正文抽取,可以提高抽取速度,便于快速精准的进行正文抽取。其中,骤升点判断的依据是当行块的字符数超过一个预设阈值时紧随的行块的字符数不为0。骤降点判断的依据是在得到一个骤升点后,当行块的字符数以及尾随的行块的字符数为0,这时可以判断该网页正文区域结束。
S106,对文本块进行第二抽取处理,获取第二网页正文,其中:第二抽取处理至少包括利用文本块与正文标题的块文本相似度进行过滤处理。
具体地,在确定了行块分布函数,并根据行块分布函数抽取文本块后,对文本快进行进一步的抽取处理,进一步精准的抽取网页正文。
作为本发明实施例的一个可选实施方式,可以通过如下方式根据行块分布函数抽取文本块:记录第一个加入抽取结果的文本块的编号;计算当前文本块与第一个加入抽取结果的文本块之间的距离,获得第三计算结果;如果第三计算结果大于等于第三预设阈值,则判断当前文本块为噪声,进行去噪处理。由此可以快速精准的确定哪些文本块为噪声,提高去噪速度。
作为本发明实施例的一个可选实施方式,可以通过如下方式利用文本块与正文标题的块文本相似度进行过滤处理:对位于骤升点和骤降点内的文本块与正文标题的块文本相似度,获得第四计算结果;如果第四计算结果小于第四预设阈值,则将当前文本块作为噪声,进行去噪处理。由此可以快速的确定当前文本块是否为噪声,提高去噪速度。其中,该利用文本块与正文标题的块文本相似度也可以采用上述的余弦距离计算文本相似度的方式来进行计算。块文本相似度指的是在一个去除HTML编码后的文本块中,其中的文本与正文标题的文本相似度。
作为本发明实施例的一个可选实施方式,利用文本块与正文标题的块文本相似度进行过滤处理可以仅指利用块文本相似度进行过滤处理,也可以包括除了利用块文本相似度进行处理之外,还对文本块进行网页版权噪声过滤。由此进一步保证噪声可被过滤。
作为本发明实施例的一个可选实施方式,第二抽取处理在利用文本块与正文标题的块文本相似度进行过滤处理之后,还可以包括:计算经过利用文本块与正文标题的块文本相似度进行过滤处理之后的网页正文中的每一行与正文标题的行文本相似度,并计算行平均文本相似度,获得第五计算结果;如果第五计算结果小于第五预设阈值,则根据行文本相似度对每一行进行行过滤处理。由此进行再过滤,保证提取的第二网页正文更加精准。
由此可见,通过本发明实施例采用的网页正文抽取方法,其通用性更好,且可以快速并准确的进行抽取,保证了网页正文抽取的顺利进行。
本发明是基于文本块的多特征融合网页正文抽取方法,在正文块抽取前和抽取过程中都使用了多特征融合的去噪方法来提高判断正文的准确度,其算法复杂度低,具有普适性,对于不同来源、结构的网页都有不错的正文提取准确度。与现有技术相比,本发明技术方案的通用性更强,且网页正文抽取的准确度更高,具有如下优点:
1、在正文抽取中将文本相似度、文本密度和文本块分布函数有效地融合在一起。
2、提出了一个多特征融合的网页去噪声的方案,提高了基于文本行块分布函数的正文抽取算法的网页正文抽取准确度。
3、能更好地为Web文本挖掘和摘要生成提供精准的文本来源。
4、可以为相关网络信息服务系统的实现奠定基础。
图4示出了本发明实施例提供的一种网页正文抽取装置的结构示意图,本发明实施例提供的一种网页正文抽取装置应用于上述网页正文抽取方法,其特征均与上述网页正文抽取方法相同,在此不再赘述,仅对本发明实施例提供的一种网页正文抽取装置的结构进行简要说明,值得注意的是,以下说明的结构只是本发明的网页正文抽取装置的一种结构划分,但本发明并不局限于此种结构划分,只要可以实现本发明的网页正文抽取方法的网页正文抽取装置的结构划分,均应属于本发明的保护范围。参见图4,本发明实施例提供的网页正文抽取装置包括:提取模块401、确定模块402、抽取模块403;其中:
提取模块401,用于提取网页HTML源码中的title标签中的文本,以及h标签中的文本;
确定模块402,用于根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题;
提取模块401,还用于提取网页HTML源码中的body标签中的标签源码;
抽取模块403,用于对body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:第一抽取处理至少包括利用body标签中的标签源码中每一行的行文本密度、行文本与正文标题的文本相似度以及行文本的中文字数进行去噪处理;
确定模块402,还用于确定行块分布函数;
抽取模块403,还用于根据行块分布函数抽取文本块;对文本块进行第二抽取处理,获取第二网页正文,其中:第二抽取处理至少包括利用文本块与正文标题的块文本相似度进行过滤处理。
作为本发明实施例的一个可选实施方式,确定模块402,通过如下方式根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题:计算title标签中的文本以及h标签中的文本的文本相似度,获得第一计算结果;如果第一计算结果大于等于第一预设阈值,则确定title中的文本作为正文标题;如果第一计算结果小于第一预设阈值,则确定h标签中的文本作为正文标题。通过此种方式进行正文标题的判断,提高了判断速度和准确度。
作为本发明实施例的一个可选实施方式,抽取模块403,通过如下方式利用body标签中的标签源码中每一行的行文本密度、行文本与正文标题的文本相似度以及行文本的中文字数进行去噪处理:对body标签中的标签源码中每一行的行文本密度、行文本与正文标题的文本相似度以及行文本的中文字数进行融合计算,获得第二计算结果;根据第二计算结果判断当前信息为噪声,进行去噪处理。通过上述三个特征的融合结果作为判断噪声的依据,提高噪声判断的速度和正确率。
作为本发明实施例的一个可选实施方式,抽取模块403,还用于在在利用body标签中的标签源码中每一行的行文本密度、行文本与正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,进行以下至少之一的处理:去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。由此经过进一步的进行去噪处理,从而令获得的第一网页正文更为精准。
作为本发明实施例的一个可选实施方式,确定模块402,用于通过如下方式确定行块分布函数:按照固定文本块的块长对第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;确定骤升点和骤降点;抽取模块403,用于通过如下方式根据行块分布函数抽取文本块:抽取位于骤升点和骤降点内的文本块。利用此种方式进行正文抽取,可以提高抽取速度,便于快速精准的进行正文抽取。
作为本发明实施例的一个可选实施方式,抽取模块403,通过如下方式根据行块分布函数抽取文本块:记录第一个加入抽取结果的文本块的编号;计算当前文本块与第一个加入抽取结果的文本块之间的距离,获得第三计算结果;如果第三计算结果大于等于第三预设阈值,则判断当前文本块为噪声,进行去噪处理。由此可以快速精准的确定哪些文本块为噪声,提高去噪速度。
作为本发明实施例的一个可选实施方式,抽取模块403,通过如下方式利用文本块与正文标题的文本相似度进行过滤处理:对位于骤升点和骤降点内的文本块与正文标题的块文本相似度,获得第四计算结果;如果第四计算结果小于第四预设阈值,则将当前文本块作为噪声,进行去噪处理。由此可以快速的确定当前文本块是否为噪声,提高去噪速度。
作为本发明实施例的一个可选实施方式,抽取模块403还通过如下方式利用文本块与正文标题的块文本相似度进行过滤处理:对文本块进行网页版权噪声过滤。由此进一步保证噪声可被过滤。
作为本发明实施例的一个可选实施方式,抽取模块403还用于在利用文本块与正文标题的块文本相似度进行过滤处理之后,进行以下的处理:计算经过利用文本块与正文标题的块文本相似度进行过滤处理之后的网页正文中的每一行与正文标题的行文本相似度,并计算行平均文本相似度,获得第五计算结果;如果第五计算结果小于第五预设阈值,则根据行文本相似度对每一行进行行过滤处理。由此进行再过滤,保证提取的第二网页正文更加精准。
作为本发明实施例的一个可选实施方式,文本相似度可以通过如下之一进行计算:根据字或者词语采用编辑距离进行计算;根据字或者词语采用余弦距离进行计算。
由此可见,通过本发明实施例采用的网页正文抽取装置,其通用性更好,且可以快速并准确的进行抽取,保证了网页正文抽取的顺利进行。
图5示出了本发明实施例提供的网页正文抽取方法的一种具体应用的流程图,但本发明并不局限于此流程,其他以相同方式实现的流程,也应属于本发明的保护范围。参见图5,本发明实施例提供的一种具体应用的网页正文抽取方法包括:
(1)从网页HTML源码中提取网页title标签中的文本以及h标签中的文本,并确定网页正文的标题;
(2)从网页HTML的body标签中的源码中,利用多特征融合的方法进行网页去噪,特征包括但不限于:行文本密度、行文本与标题相似度以及行文本中文字数等;
(3)对去除导航、广告等链接群后的HTML的源码进行网页标签去噪,包括但不限于:HTML编码、JavaScript脚本以及特殊字符的去噪;
(4)对去噪后得到的比较精准的网页正文进行球行块字数的分布函数;
(5)从分布的文本块中找到骤升骤降点后,计算该块与标题的文本相似度,比利用相似度进行文本块的过滤;
(6)计算网页正文每一行与标题的文本相似度,得到每行平均文本相似度;
(7)依据正文每行平均文本相似的判断是否再过滤,如果再过滤,一句行文本相似度进行过滤;
(8)提取出网页正文作为网页正文进行显示等处理。
通过上述的网页正文抽取方法,其通用性更好,且可以快速并准确的进行抽取,保证了网页正文抽取的顺利进行。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (8)
1.一种网页正文抽取方法,其特征在于,包括:
提取网页HTML源码中的title标签中的文本,以及h标签中的文本;
根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题;
提取网页HTML源码中的body标签中的标签源码;
对所述body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理;
确定行块分布函数,并根据所述行块分布函数抽取文本块;
对所述文本块进行第二抽取处理,获取第二网页正文,其中:所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理;
其中,所述确定行块分布函数,并根据所述行块分布函数抽取文本块包括:
按照固定文本块的块长对所述第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;
确定骤升点和骤降点,抽取位于所述骤升点和所述骤降点内的文本块。
2.根据权利要求1所述的方法,其特征在于,所述第一抽取处理在利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,还包括以下至少之一:
去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。
3.根据权利要求2所述的方法,其特征在于,所述根据所述行块分布函数抽取文本块包括:
记录第一个加入抽取结果的文本块的编号;
计算当前文本块与所述第一个加入抽取结果的文本块之间的距离,获得第三计算结果;
如果所述第三计算结果大于等于第三预设阈值,则判断当前文本块为噪声,进行去噪处理。
4.根据权利要求1所述的方法,其特征在于,所述第二抽取处理在利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后,还包括:
计算经过所述利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后的网页正文中的每一行与所述正文标题的行文本相似度,并计算行平均文本相似度,获得第五计算结果;
如果所述第五计算结果小于第五预设阈值,则根据所述行文本相似度对所述每一行进行行过滤处理。
5.一种网页正文抽取装置,其特征在于,包括:
提取模块,用于提取网页HTML源码中的title标签中的文本,以及h标签中的文本;
确定模块,用于根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题;
所述提取模块,还用于提取网页HTML源码中的body标签中的标签源码;
抽取模块,用于对所述body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理;
所述确定模块,还用于确定行块分布函数;
所述抽取模块,还用于根据所述行块分布函数抽取文本块;对所述文本块进行第二抽取处理,获取第二网页正文,其中:所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理;
其中,所述确定模块,用于通过如下方式确定行块分布函数:
按照固定文本块的块长对所述第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;确定骤升点和骤降点;
所述抽取模块,用于通过如下方式根据所述行块分布函数抽取文本块:
抽取位于所述骤升点和所述骤降点内的文本块。
6.根据权利要求5所述的装置,其特征在于,所述抽取模块,还用于在利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,进行以下至少之一的处理:
去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。
7.根据权利要求6所述的装置,其特征在于,所述抽取模块,通过如下方式根据所述行块分布函数抽取文本块:
记录第一个加入抽取结果的文本块的编号;
计算当前文本块与所述第一个加入抽取结果的文本块之间的距离,获得第三计算结果;
如果所述第三计算结果大于等于第三预设阈值,则判断当前文本块为噪声,进行去噪处理。
8.根据权利要求5所述的装置,其特征在于,所述抽取模块还用于在利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后,进行以下的处理:
计算经过所述利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后的网页正文中的每一行与所述正文标题的行文本相似度,并计算行平均文本相似度,获得第五计算结果;
如果所述第五计算结果小于第五预设阈值,则根据所述行文本相似度对所述每一行进行行过滤处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510527675.6A CN105183801B (zh) | 2015-08-25 | 2015-08-25 | 网页正文抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510527675.6A CN105183801B (zh) | 2015-08-25 | 2015-08-25 | 网页正文抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105183801A CN105183801A (zh) | 2015-12-23 |
CN105183801B true CN105183801B (zh) | 2018-07-06 |
Family
ID=54905884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510527675.6A Active CN105183801B (zh) | 2015-08-25 | 2015-08-25 | 网页正文抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183801B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740355B (zh) * | 2016-01-26 | 2019-03-26 | 中国人民解放军国防科学技术大学 | 基于聚集文本密度的网页正文提取方法及装置 |
CN105868363B (zh) * | 2016-03-29 | 2018-12-14 | 中国农业银行股份有限公司 | 一种基于模糊逻辑的网页页面正文抽取方法及系统 |
CN105912661A (zh) * | 2016-04-11 | 2016-08-31 | 乐视控股(北京)有限公司 | 搜索引擎中去除html标签的方法及装置 |
CN106055667B (zh) * | 2016-06-06 | 2019-06-04 | 北京林业大学 | 一种基于文本-标签密度的网页核心内容提取方法 |
CN106446139A (zh) * | 2016-09-20 | 2017-02-22 | 微梦创科网络科技(中国)有限公司 | 一种提取网页内容的方法及装置 |
CN106874346B (zh) * | 2016-12-26 | 2020-10-30 | 微梦创科网络科技(中国)有限公司 | 网页中的页面正文提取方法和装置 |
CN107145591B (zh) * | 2017-05-17 | 2020-10-16 | 广州瞬速信息科技有限公司 | 一种基于标题的网页有效元数据内容提取方法 |
CN107273491B (zh) * | 2017-06-15 | 2020-07-24 | 华中师范大学 | 网页分割方法、装置及电子设备 |
CN110020312B (zh) * | 2017-12-11 | 2022-09-06 | 北京京东尚科信息技术有限公司 | 提取网页正文的方法和装置 |
CN110633407B (zh) * | 2018-06-20 | 2022-05-24 | 百度在线网络技术(北京)有限公司 | 信息检索方法、装置、设备及计算机可读介质 |
CN108763591B (zh) * | 2018-06-21 | 2021-01-08 | 湖南星汉数智科技有限公司 | 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质 |
CN110381118B (zh) * | 2019-06-19 | 2022-03-04 | 平安普惠企业管理有限公司 | 页面数据传输的控制方法和相关设备 |
CN110795933B (zh) * | 2019-09-30 | 2023-10-31 | 奇安信科技集团股份有限公司 | 一种网页正文的识别处理方法及装置 |
CN111581478A (zh) * | 2020-05-07 | 2020-08-25 | 成都信息工程大学 | 一种特定主体的跨网站通用新闻采集方法 |
CN112667878A (zh) * | 2020-12-31 | 2021-04-16 | 平安国际智慧城市科技股份有限公司 | 网页的文本内容提取方法、装置、电子设备及存储介质 |
CN113569119A (zh) * | 2021-07-02 | 2021-10-29 | 中译语通科技股份有限公司 | 一种基于多模态机器学习的新闻网页正文抽取系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727486A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种Web论坛信息抽取系统 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN103064966A (zh) * | 2012-12-31 | 2013-04-24 | 中国科学院计算技术研究所 | 一种从单记录网页中抽取规律噪音的方法 |
CN103198075A (zh) * | 2012-01-09 | 2013-07-10 | 腾讯科技(深圳)有限公司 | 一种抽取网页信息块的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130218872A1 (en) * | 2012-02-16 | 2013-08-22 | Benzion Jair Jehuda | Dynamic filters for data extraction plan |
-
2015
- 2015-08-25 CN CN201510527675.6A patent/CN105183801B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727486A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种Web论坛信息抽取系统 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN103198075A (zh) * | 2012-01-09 | 2013-07-10 | 腾讯科技(深圳)有限公司 | 一种抽取网页信息块的方法及装置 |
CN103064966A (zh) * | 2012-12-31 | 2013-04-24 | 中国科学院计算技术研究所 | 一种从单记录网页中抽取规律噪音的方法 |
Non-Patent Citations (2)
Title |
---|
web信息抽取技术研究与应用;贾璐璐;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;I139-372 * |
基于文本密度模型的Web正文抽取;朱泽德 等;《模式识别与人工智能》;20130715;第26卷(第7期);667-672 * |
Also Published As
Publication number | Publication date |
---|---|
CN105183801A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183801B (zh) | 网页正文抽取方法及装置 | |
CN105630941B (zh) | 基于统计和网页结构的Web正文内容抽取方法 | |
CN108804512A (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN108920434B (zh) | 一种通用的网页主题内容提取方法和系统 | |
CN103678310B (zh) | 网页主题的分类方法及装置 | |
CN108763591A (zh) | 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质 | |
CN103853760B (zh) | 一种网页正文内容提取方法和装置 | |
CN106126502B (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN105320734B (zh) | 一种网页核心内容提取方法 | |
CN102591612B (zh) | 一种基于标点连续性的通用网页正文提取方法及其系统 | |
CN106021383A (zh) | 网页相似度计算方法及装置 | |
CN107329950B (zh) | 一种基于无词典的中文地址分词方法 | |
WO2011072434A1 (en) | System and method for web content extraction | |
CN106055667A (zh) | 一种基于文本‑标签密度的网页核心内容提取方法 | |
CN108563729A (zh) | 一种基于dom树的招标网站中标信息抽取方法 | |
CN103810251B (zh) | 一种文本提取方法及装置 | |
CN108021692A (zh) | 一种监控网页的方法、服务器及计算机可读存储介质 | |
CN102915361B (zh) | 一种基于文字分布特征的网页正文提取方法 | |
CN105787121B (zh) | 一种基于多故事线的微博事件摘要提取方法 | |
CN107515849A (zh) | 一种成词判定模型生成方法、新词发现方法及装置 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 | |
CN107436929A (zh) | 可扩展标记语言xml文件解析方法及装置 | |
CN108090045B (zh) | 一种分词方法、装置及可读存储介质 | |
CN112312189A (zh) | 一种视频生成方法及视频生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20181212 Address after: Room 01-11, 27th floor, Tengda Building, 168 Xizhimenwai Street, Haidian District, Beijing Patentee after: Beijing Xin Yi Interactive Digital Technology Co., Ltd. Address before: No. 123 Xiaoying East Road, Qinghe, Haidian District, Beijing, 100192 Patentee before: Beijing Information Science and Technology University |