CN110990738B - 一种网页正文及要素提取的方法和系统 - Google Patents

一种网页正文及要素提取的方法和系统 Download PDF

Info

Publication number
CN110990738B
CN110990738B CN201911252927.3A CN201911252927A CN110990738B CN 110990738 B CN110990738 B CN 110990738B CN 201911252927 A CN201911252927 A CN 201911252927A CN 110990738 B CN110990738 B CN 110990738B
Authority
CN
China
Prior art keywords
level
webpage
text
path
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911252927.3A
Other languages
English (en)
Other versions
CN110990738A (zh
Inventor
李兆钧
罗啟泽
雷小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuangyou Digital Technology Guangdong Co Ltd
Original Assignee
Chuangyou Digital Technology Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuangyou Digital Technology Guangdong Co Ltd filed Critical Chuangyou Digital Technology Guangdong Co Ltd
Priority to CN201911252927.3A priority Critical patent/CN110990738B/zh
Publication of CN110990738A publication Critical patent/CN110990738A/zh
Application granted granted Critical
Publication of CN110990738B publication Critical patent/CN110990738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页正文及要素提取的方法和系统,其方法包括以下步骤:从同一平台采集多个网页,分别对单个网页进行预处理;计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;S4:判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则重新采集网页。本发明提供的网页正文及要素提取的方法和系统,能提取的网页元素较多,能提高网页提取的准确性和效率,能评估提取的可靠性程度。

Description

一种网页正文及要素提取的方法和系统
技术领域
本发明涉及信息处理技术领域,特别是涉及一种网页正文及要素提取的方法和系统。
背景技术
随着互联网的迅速发展,网络空间存储着越来越多的信息资源,Web页面是其中的一种主要展现形式,其数量越来越庞大。近年来,如何对这些海量的Web数据进行分析处理,从中挖掘出有价值的信息成为研究的一个热点问题。然而,目前的网页正文抽取方法还存在着一些问题,需要进一步改进和完善。比如基于模板的方法需要给不同的网页格式指定对应的抽取模板,虽然具有很高的抽取精度,但是可扩展性较差,维护成本很高,无法大规模运用。比如基于视觉特征的方法实现复杂,效率较低,难以应对海量Web数据的处理。比如基于统计的方法则抽取精度较低。
现有技术中对网页提取存在以下缺点:
(1)准确度不高,由于简单地基于密度的方法,时有提取到干扰的错误内容,以及遗漏了需要提取的内容;
(2)计算耗时,现有方法没有考虑到同一网站平台的网页结构相似性,每一个网页都作为新遇到的网页,要重新利用计算密度比率并通过聚类等方法重新计算来提取正文;
(3)无法评估提取的可靠程度,现有方法大多只对单个网页进行提取,没有对同一个网站平台的多个网页进行提取比较,因此无从判断提取的可靠性;
(4)支持提取的元素偏少,现有方法大多仅提取正文,而对其他比较重要的要素比如发布时间,发布来源/作者都没有做提取。
发明内容
本发明提供了一种网页正文及要素提取的方法,解决了现有技术中提取网页的元素偏少、准确度不高、计算耗时较长、无法评估提取的可靠性程度的问题。
为解决上述技术问题,本发明的技术方案为:
一种网页正文及要素提取的方法,包括以下步骤:
S1:从同一平台采集多个网页,分别对单个网页进行预处理;
S2:计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;其中,所述网页级提取候选路径包括网页级正文提取候选路径、网页级发布时间提取候选路径和网页级来源提取候选路径;
S3:对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;其中,所述平台级提取候选路径包括平台级正文提取候选路径、平台级发布时间提取候选路径和平台级来源提取候选路径;
S4:判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则计算需要重新采集网页的数量,转去执行S1。
可选地,S2中计算单个所述网页的正文提取候选路径及评分进一步包括:遍历所述网页的DOM结构树,对每个节点计算正文长度占比,取出前K大的正文长度占比的路径,计算两两路径之间的最大公共路径及其综合评分,取综合评分最高的最大公共路径作为所述网页的网页级正文提取候选路径;其中,K为整数。
可选地,对每个节点计算正文长度占比进一步包括,所述正文长度占比的计算公式可以为:
正文长度占比=去除HTML标签的文本长度/节点原始文本长度。
可选地,计算两两路径之间的最大公共路径进一步包括:从根节点开始逐个对比两条路径对应位置上的节点,直到出现第一个不一致的节点,取从根节点开始到当前位置前一个节点作为最大公共路径。
可选地,计算两两路径之间的综合评分进一步包括:计算两两路径之间的路径评分,以最大公共路径为关键字汇总,对应的路径评分作为值进行聚合,聚合方式为求平均值和最大值,平均值和最大值求和得到每个最大公共路径的综合评分。
可选地,S2中计算单个所述网页的发布时间提取候选路径及评分进一步包括:遍历所述网页的DOM结构树,对每个节点计算时间长度占比,取占比最高的路径作为所述网页的网页级发布时间提取候选路径。
可选地,S2中计算单个所述网页的来源提取候选路径及评分进一步包括:在所述网页的网页级发布时间提取候选路径内,利用模式匹配技术提取来源内容,如在当前节点提取不到所需内容,则向上一级节点进行提取,直至达到所述网页的网页级发布时间提取候选路径与网页级正文提取候选路径的最大公共路径为止;如提取到所需内容,取当前所在路径作为所述网页的网页级来源提取候选路径。
可选地,S4中所述平台级提取候选路径的置信度进一步包括:所述平台级正文提取候选路径的置信度可以为:
Figure BDA0002309536450000031
其中,N为网页级正文提取候选路径的个数,NT为网页级正文提取候选路径与平台级正文提取候选路径一致的数量,Conf为平台级正文提取候选路径的置信度。
可选地,S4中计算需要重新采集网页的数量进一步包括:
Figure BDA0002309536450000032
其中,Nnew为需要重新采集网页的数量,α为置信水平,N为网页级正文提取候选路径的个数,NT为网页级正文提取候选路径与平台级正文提取候选路径一致的数量。
一种应用了如权利要求1-9任意一项方法的网页正文及要素提取的系统,包括以下部分:
网页采集与预处理模块:用于从同一平台采集多个网页,分别对单个网页进行预处理;
网页级处理模块:用于计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;其中,所述网页级提取候选路径包括网页级正文提取候选路径、网页级发布时间提取候选路径和网页级来源提取候选路径;
平台级处理模块:用于对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;其中,所述平台级提取候选路径包括平台级正文提取候选路径、平台级发布时间提取候选路径和平台级来源提取候选路径;
判断模块:用于判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则计算需要重新采集网页的数量,利用网页采集与预处理模块重新采集网页及进行预处理。
本发明提供了一种网页正文及要素提取的方法和系统,其中方法包括以下步骤:S1:从同一平台采集多个网页,分别对单个网页进行预处理;S2:计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;其中,所述网页级提取候选路径包括网页级正文提取候选路径、网页级发布时间提取候选路径和网页级来源提取候选路径;S3:对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;其中,所述平台级提取候选路径包括平台级正文提取候选路径、平台级发布时间提取候选路径和平台级来源提取候选路径;S4:判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则计算需要重新采集网页的数量,执行S1。本发明提供的网页正文及要素提取的方法和系统,利用同一平台的多个网页,能够降低噪声的影响,从而提高提取的准确性;同时,由于同一平台的网页结构相似性,在初始完成分析后可以生成如XPath、CSSSelector等的高效要素提取器,不用每个网页都重新进行计算,节省了计算时间;此外,本发明在同一平台的多个网页进行比较,如果数量越多的网页提取结构的结果一致,可以说明提取的可靠程度越高,能准确评估提取的可靠性程度;本发明支持提取的元素较多,除了用于提取正文外,也可以应用于提取网页的发布时间、来源/作者等要素信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的一种网页正文及要素提取的方法的流程示意图。
图2为本发明提供的一种网页正文及要素提取的方法的示例图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如附图1所示,本发明实施例提供了一种网页正文及要素提取的方法,包括以下步骤:
S100:从同一平台采集多个网页,分别对单个网页进行预处理;
从门户网站(如网易、新浪、腾讯、搜狐等)或微信公众号上采集网页。这里的采集网页,需要在同一个平台或同一个公众号上采集N篇网页,具体采集数量N的确定在后续步骤会介绍。如附图2所示,中间方框表示某网页的正文,标题下方的第一个方框表示该网页的发布时间,标题下方的第二个方框表示该网页的来源。
利用所采集的网页,进行预处理,这里的预处理步骤包括:
将网页标签补全。例如有些网页只有<html>而缺少了闭合的</html>,标签补全后使得整个网页DOM结构树的结构更完整,方便后续解析。
去掉网页中的script、style标签的内容。因为这些标签的内容在网页渲染的时候不会显示,因此正文不涉及这些元素,去掉这些元素有助于节省后续的计算消耗。
去掉行内样式。行内样式例如<p style="color:black">这样的节点属性,这种行内样式会干扰后续计算节点的正文长度占比,因此需要去掉。
S200:计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;其中,所述网页级提取候选路径包括网页级正文提取候选路径、网页级发布时间提取候选路径和网页级来源提取候选路径;
计算各个网页的正文候选路径及其评分,以及发布时间、来源等要素的提取候选路径及其综合评分。详细步骤如下:
(1)计算正文提取候选路径及其评分。
遍历网页DOM结构树中body节点下的每个节点,对每个节点计算该节点下去除HTML标签后的文本长度与节点原始的文本长度的比值,称为正文长度占比。正文长度占比的计算公式如下:
正文长度占比=去除HTML标签的文本长度/节点原始文本长度。
按照正文长度占比降序,对网页DOM结构树的节点进行排序,取前K个节点的路径及其对应正文长度占比作为输出:{Path1,…,PathK}和{r1,…,rK},其中Pathi和ri分别为排序后的第i个节点的路径及其正文长度占比,这里的节点路径形如:
html>body>div[3]#post_content.clearfix.post_area>div[2].epContentLeft>div[2].post_body>div[2].endText>p[3];
其中,标签后方括号内的数字代表同一父节点下该类标签的第几个子节点;“#”代表id,“.”代表class。
对所输出的K个节点路径及其正文长度占比,两两之间计算节点路径的最大公共路径,并计算其对应路径评分,生成K(K-1)/2个最大公共路径及其路径评分。两个路径之间的最大公共路径的计算方法为:从根节点开始逐个对比两个路径对应位置上的节点,直到出现第一个不一致的节点(不一致包括标签、排序、id、class的不同),取从根节点开始到当前位置前一个节点即为最大公共路径,其计算举例如下:
路径1:html>body>div[3]#post_content.clearfix.post_area>div[2].epContentLeft>div[2].post_body>div[2].endText>p[3];
路径2:html>body>div[3]#post_content.clearfix.post_area>div[2].epContentLeft>h1[1];
路径1和路径2的最大公共路径为:
html>body>div[3]#post_content.clearfix.post_area>div[2].epContentLeft。
两个路径之间的路径评分计算方法为:第i个和第j个路径之间的路径评分为对应的正文长度占比相乘:ri×rj
对所生成的K(K-1)/2个最大公共路径及其路径评分,以最大公共路径作为key(键)汇总,对应的路径评分作为value(值)进行聚合,聚合方式为求平均和取最大值,得到每个最大公共路径对应的平均路径评分与最大路径评分,并将平均路径评分与最大路径评分进行求和,得到每个最大公共路径的路径综合评分。
对所得到的路径综合评分,取评分最高所对应的最大公共路径,作为该网页的正文提取候选路径。
(2)计算发布时间提取候选路径及其评分。
遍历网页DOM结构树中body节点下的每个节点,对每个节点去除HTML标签后的文本,利用如正则表达式等模式匹配技术,匹配符合时间格式的文本。然后对每个能提取出时间格式文本的节点,计算时间文本的长度与节点去除HTML标签的文本长度的比值,称为时间长度占比。时间长度占比的计算公式如下:
Figure BDA0002309536450000071
对计算得到的时间长度占比,取占比最高所对应的节点路径,作为该网页的发布时间提取候选路径,并取该占比作为该网页的路径综合评分。
(3)计算来源提取候选路径及其评分。
得到(2)中的发布时间提取候选路径后,在发布时间提取候选路径内,利用如正则表达式等模式匹配技术,匹配如“来源:(.+?)\s”、“作者:(.+?)\s”等关键词的内容作为来源候选提取内容。如在当前节点提取不到所需内容,则向上一级节点进行提取,向上取节点的操作直到达到时间提取候选路径与正文提取候选路径的最大公共路径为止。如果提取到所需内容,取当前所在路径作为来源提取候选路径,其对应的来源路径综合评分取为1。
在发布时间提取候选路径内提取内容,去除步骤(2)中所提取的时间格式文本,然后去除空白字符,如果得到的是非空字符串,则使用该字符串的长度去除该字符串过滤掉停用词(如“分享”、“评论”等网页上部与来源同时出现的常见词),得到的比值作为来源长度占比;如果得到的是空字符串,则向上一级节点进行提取,向上取节点的操作直到达到时间提取候选路径与正文提取候选路径的最大公共路径为止。如果提取到所需内容,取当前所在路径作为来源提取候选路径,其对应的来源路径综合评分取为来源长度占比。
S300:对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;其中,所述平台级提取候选路径包括平台级正文提取候选路径、平台级发布时间提取候选路径和平台级来源提取候选路径;
对于S200中得到的单个网页的正文、发布时间、来源等要素的提取候选路径及其评分,称为网页级的提取候选路径及评分,需要对N个网页的网页级候选路径及评分综合计算得到平台级的提取候选路径及评分。详细步骤如下:
考虑到对于正文、发布时间、来源等各个要素,它们的网页级提取候选路径及评分的结构是相同的,因此后续步骤对正文提取作详细说明,而其它的要素提取的方法相同。
对步骤S200中输出的N个网页级提取候选路径及其综合评分,两两之间计算网页级提取候选路径的最大公共路径,并计算其对应路径评分,生成N(N-1)/2个最大公共路径及其路径评分。两个路径之间的最大公共路径的计算方法与步骤(1)中计算最大公共路径的方法一致;两个路径之间的路径评分计算方法与步骤(1)中计算路径评分的方法一致。
对所生成的N(N-1)/2个最大公共路径及其路径评分,以最大公共路径作为key(键)汇总,对应的路径评分作为value(值)进行聚合,聚合方式为求平均和取最大值,得到每个最大公共路径对应的平均路径评分与最大路径评分,并将平均路径评分与最大路径评分进行求和,得到每个最大公共路径的路径综合评分。
根据所得到的路径综合评分,取评分最高所对应的最大公共路径,作为该平台的平台级正文提取候选路径。
S400:判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则计算需要重新采集网页的数量,转去执行S100。
对于得到的正文、发布时间、来源等要素的平台级提取候选路径,需要检验是否达到置信水平,若未达到置信水平,则采集更多网页进行重新计算。详细步骤如下:
考虑到对于正文、发布时间、来源等各个要素,它们的平台级提取候选路径的结构是相同的,因此后续步骤对正文提取作详细说明,而其它的要素提取的方法相同。
对步骤S200中得到的N个网页级正文提取候选路径,与步骤S300得到的平台级正文提取候选路径进行对比,其中一致的数量为NT,不一致的数量为NF
使用贝叶斯方法估计平台级正文提取候选路径的置信度:
Figure BDA0002309536450000091
例如,使用10篇网页生成网页级正文提取候选路径与平台级正文提取候选路径,其中有8个网页级正文提取候选路径与平台级正文提取候选路径一致,计算得平台级正文提取候选路径的置信度为(8+1)/(10+2)=75%,假设置信水平设置为90%,因此未达到置信水平。
对于未达到置信水平的情况,需要重新采集网页,采集的数量使用以下公式估计:
Figure BDA0002309536450000092
其中,Nnew为需要采集的数量,α为置信水平,N为网页级正文提取候选路径的个数,NT为网页级正文提取候选路径与平台级正文提取候选路径一致的数量。
如前述例子,需要重新采集不小于(0.9×10-8+2×0.9-1)/(1-0.9)=18个网页。
采集完成后重新运行步骤S100-S300,得到网页级正文提取候选路径与平台级正文提取候选路径,并估计平台级正文提取候选路径的置信度,如果置信度仍然低于置信水平,则重新估计需要需再次采集的网页数量,再次采集网页,直到平台级正文提取候选路径的置信度高于置信水平。
若所得到的正文、发布时间、来源等要素的平台级提取候选路径的置信度已经达到了置信水平,可以作为平台级提取路径。
对于平台级提取路径,可以容易地直接转化为XPath或CSS Selector,成为针对特定平台的要素提取器。在后续的日常网页采集及提取要素过程中,可以设置置信水平,实时计算要素提取器的置信度,当提取器的置信度低于置信水平,可以重新根据步骤S100-S400采集网页进行提取器更新。
针对现有方法的缺点,本发明实施例旨在发明能够克服上述缺点的网页正文及要素提取的方法,首先本发明实施例考虑到现代网页技术的前后端分离的现实情况,后端提供数据,前端完成网页的渲染,因此同一网站平台的多个网页的结构基本是一致的,充分利用这种网站平台级的结构相似性,是本发明的要点——因为单个网页存在篇幅或长或短、图片或多或少,这些情况会对现有方法产生很大的噪声,而本发明实施例的方法利用同一平台的多个网页,能够降低噪声的影响,从而提高提取的准确性;同时由于同一平台的网页结构相似性,本发明实施例在初始完成分析后可以生成如XPath、CSSSelector等的高效要素提取器,不用每个网页都重新进行计算,节省了计算时间;另一方面,本发明实施例在同一平台的多个网页进行比较,如果数量越多的网页提取结构的结果一致,可以说明提取的可靠程度越高,能准确评估提取的可靠性程度。本发明实施例支持提取的元素较多,除了用于提取正文外,也可以应用于提取网页的发布时间、来源/作者等要素信息。
本发明的另一实施例为应用了网页正文及要素提取方法的系统,包括以下部分:
网页采集与预处理模块:用于从同一平台采集多个网页,分别对单个网页进行预处理;
网页级处理模块:用于计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;其中,所述网页级提取候选路径包括网页级正文提取候选路径、网页级发布时间提取候选路径和网页级来源提取候选路径;
平台级处理模块:用于对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;其中,所述平台级提取候选路径包括平台级正文提取候选路径、平台级发布时间提取候选路径和平台级来源提取候选路径;
判断模块:用于判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则计算需要重新采集网页的数量,利用网页采集与预处理模块重新采集网页及进行预处理。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种网页正文及要素提取的方法,其特征在于,包括以下步骤:
S1:从同一平台采集多个网页,分别对单个网页进行预处理;
S2:计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;其中,所述网页级提取候选路径包括网页级正文提取候选路径、网页级发布时间提取候选路径和网页级来源提取候选路径;
其中,计算单个所述网页的正文提取候选路径及评分进一步包括:
遍历所述网页的DOM结构树,对每个节点计算正文长度占比,根据所述正文长度占比降序排列,取出正文长度占比位于前K位的路径,计算两两路径之间的最大公共路径及其综合评分,取综合评分最高的最大公共路径作为所述网页的网页级正文提取候选路径,K为整数;
S3:对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;其中,所述平台级提取候选路径包括平台级正文提取候选路径、平台级发布时间提取候选路径和平台级来源提取候选路径;
S4:判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则计算需要重新采集网页的数量,转去执行S1。
2.如权利要求1所述的网页正文及要素提取的方法,其特征在于,对每个节点计算正文长度占比进一步包括,所述正文长度占比的计算公式可以为:
正文长度占比=去除HTML标签的文本长度/节点原始文本长度。
3.如权利要求1所述的网页正文及要素提取的方法,其特征在于,计算两两路径之间的最大公共路径进一步包括:从根节点开始逐个对比两条路径对应位置上的节点,直到出现第一个不一致的节点,取从根节点开始到当前位置前一个节点作为最大公共路径。
4.如权利要求1所述的网页正文及要素提取的方法,其特征在于,计算两两路径之间的综合评分进一步包括:计算两两路径之间的的路径评分,以最大公共路径为关键字汇总,对应的路径评分作为值进行聚合,聚合方式为求平均值和最大值,对平均值和最大值求和得到每个最大公共路径的综合评分。
5.如权利要求1所述的网页正文及要素提取的方法,其特征在于,S2中计算单个所述网页的发布时间提取候选路径及评分进一步包括:遍历所述网页的DOM结构树,对每个节点计算时间长度占比,取占比最高的路径作为所述网页的网页级发布时间提取候选路径。
6.如权利要求1所述的网页正文及要素提取的方法,其特征在于,S2中计算单个所述网页的来源提取候选路径及评分进一步包括:在所述网页的网页级发布时间提取候选路径内,利用模式匹配技术提取来源内容,如在当前节点提取不到所需内容,则向上一级节点进行提取,直至达到所述网页的网页级发布时间提取候选路径与网页级正文提取候选路径的最大公共路径为止;如提取到所需内容,取当前所在路径作为所述网页的网页级来源提取候选路径。
7.如权利要求1所述的网页正文及要素提取的方法,其特征在于,S4中所述平台级提取候选路径的置信度进一步包括:所述平台级正文提取候选路径的置信度可以为:
Figure FDA0003312540940000021
其中,N为网页级正文提取候选路径的个数,NT为网页级正文提取候选路径与平台级正文提取候选路径一致的数量,Conf为平台级正文提取候选路径的置信度。
8.如权利要求1所述的网页正文及要素提取的方法,其特征在于,S4中计算需要重新采集网页的数量进一步包括:
Figure FDA0003312540940000022
其中,Nnew为需要重新采集网页的数量,α为置信水平,N为网页级正文提取候选路径的个数,NT为网页级正文提取候选路径与平台级正文提取候选路径一致的数量。
9.一种应用了如权利要求1-8任意一项方法的网页正文及要素提取的系统,其特征在于,包括以下部分:
网页采集与预处理模块:用于从同一平台采集多个网页,分别对单个网页进行预处理;
网页级处理模块:用于计算单个所述网页的正文、发布时间、来源的提取候选路径及其评分,得到所述网页的网页级提取候选路径及评分;其中,所述网页级提取候选路径包括网页级正文提取候选路径、网页级发布时间提取候选路径和网页级来源提取候选路径;
其中,所述网页级处理模块计算单个所述网页的正文提取候选路径及评分进一步包括:
遍历所述网页的DOM结构树,对每个节点计算正文长度占比,根据所述正文长度占比降序排列,取出正文长度占比位于前K位的路径,计算两两路径之间的最大公共路径及其综合评分,取综合评分最高的最大公共路径作为所述网页的网页级正文提取候选路径,K为整数;
平台级处理模块:用于对多个网页的所述网页级提取候选路径及评分进行综合计算,得到平台级提取候选路径及评分;其中,所述平台级提取候选路径包括平台级正文提取候选路径、平台级发布时间提取候选路径和平台级来源提取候选路径;
判断模块:用于判断所述平台级提取候选路径是否达到置信水平,如达到则作为平台级提取路径,生成所述平台的要素提取器,如未达到则计算需要重新采集网页的数量,利用网页采集与预处理模块重新采集网页及进行预处理。
CN201911252927.3A 2019-12-09 2019-12-09 一种网页正文及要素提取的方法和系统 Active CN110990738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252927.3A CN110990738B (zh) 2019-12-09 2019-12-09 一种网页正文及要素提取的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252927.3A CN110990738B (zh) 2019-12-09 2019-12-09 一种网页正文及要素提取的方法和系统

Publications (2)

Publication Number Publication Date
CN110990738A CN110990738A (zh) 2020-04-10
CN110990738B true CN110990738B (zh) 2021-11-26

Family

ID=70091480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252927.3A Active CN110990738B (zh) 2019-12-09 2019-12-09 一种网页正文及要素提取的方法和系统

Country Status (1)

Country Link
CN (1) CN110990738B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856129B2 (en) * 2011-09-20 2014-10-07 Microsoft Corporation Flexible and scalable structured web data extraction
CN105630772A (zh) * 2016-01-26 2016-06-01 广东工业大学 一种网页评论内容的抽取方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100444174C (zh) * 2006-09-25 2008-12-17 北京中搜在线软件有限公司 网页微内容提取、聚合和自动更新系统的方法
US8667015B2 (en) * 2009-11-25 2014-03-04 Hewlett-Packard Development Company, L.P. Data extraction method, computer program product and system
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法
CN107391678A (zh) * 2017-07-21 2017-11-24 福州大学 基于聚类的网页内容信息提取方法
CN110020296A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种提取新闻网页正文的方法及装置
CN109582886B (zh) * 2018-11-02 2022-05-10 北京字节跳动网络技术有限公司 页面内容提取方法、模板的生成方法及装置、介质及设备
CN110377796B (zh) * 2019-07-25 2021-11-02 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856129B2 (en) * 2011-09-20 2014-10-07 Microsoft Corporation Flexible and scalable structured web data extraction
CN105630772A (zh) * 2016-01-26 2016-06-01 广东工业大学 一种网页评论内容的抽取方法

Also Published As

Publication number Publication date
CN110990738A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN107193962B (zh) 一种互联网推广信息的智能配图方法及装置
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN104881458B (zh) 一种网页主题的标注方法和装置
US8073865B2 (en) System and method for content extraction from unstructured sources
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN105988990A (zh) 用于汉语中的零指代消解的装置和方法以及模型训练方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111666766A (zh) 数据处理方法、装置和设备
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN110990738B (zh) 一种网页正文及要素提取的方法和系统
CN111339778A (zh) 文本处理方法、装置、存储介质和处理器
CN113434797B (zh) 一种网页信息提取方法及装置
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质
CN113157857A (zh) 面向新闻的热点话题检测方法、装置及设备
CN112115362A (zh) 一种基于相似代码识别的编程信息推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201124

Address after: Room 011, first floor, no.2429, Xingang East Road, Haizhu District, Guangzhou City, Guangdong Province (office only)

Applicant after: CHUANGYOU digital technology (Guangdong) Co., Ltd

Address before: Room 205, 2f office, No.156, nanshanzui Road, Hengqin, Zhuhai City, Guangdong Province

Applicant before: MINISO (HENGQIN) ENTERPRISE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant