CN109086361B - 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 - Google Patents

一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 Download PDF

Info

Publication number
CN109086361B
CN109086361B CN201810795448.5A CN201810795448A CN109086361B CN 109086361 B CN109086361 B CN 109086361B CN 201810795448 A CN201810795448 A CN 201810795448A CN 109086361 B CN109086361 B CN 109086361B
Authority
CN
China
Prior art keywords
node
information
webpage
article
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810795448.5A
Other languages
English (en)
Other versions
CN109086361A (zh
Inventor
汪敏
刘鹏飞
李伦凉
李绪祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cape Cloud Information Technology Co Ltd
Beijing Puyun Mdt Infotech Ltd
Original Assignee
Cape Cloud Information Technology Co Ltd
Beijing Puyun Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cape Cloud Information Technology Co Ltd, Beijing Puyun Mdt Infotech Ltd filed Critical Cape Cloud Information Technology Co Ltd
Priority to CN201810795448.5A priority Critical patent/CN109086361B/zh
Publication of CN109086361A publication Critical patent/CN109086361A/zh
Application granted granted Critical
Publication of CN109086361B publication Critical patent/CN109086361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于网页节点间互信息的网页文章信息自动抽取方法及系统,该方法包括以下步骤:S1、清理网页,构造干净的DOM树;S2、构造空节点序列1(NODES),用于存放步骤S3找到的文本节点、链接节点、图像节点、视频节点;S3、遍历DOM树,将找到的文本、链接、图片、视频节点保存到NODES序列;S4、构造存放DOM树中不可再拆分的布局节点的空节点序列2(NODES2);S5、遍历NODES2,计算其中各个节点之间的互信息;S6、识别文章边界信息节点,所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;S7、合并网页节点;S8、抽取网页文章信息。采用本发明实施例,能够提高网页文章信息自动抽取的准确率。

Description

一种基于网页节点间互信息的网页文章信息自动抽取方法及 系统
技术领域
本发明涉及互联网信息采集的技术领域,尤其涉及一种基于网页节点互信息的网页信息自动抽取方法及系统。
背景技术
网页文章信息的抽取是指将网页中的标题、正文、正文前、中、后部分的图片、视频抽取出来。目前主流的网页内容信息抽取方法,一般都是基于启发式规则或有监督学习,比如基于网页文本密度信息、基于链接文字比信息、基于网页DOM树中标签特征等,对网页内容进行抽取。但是,它们在抽取网页内容时容易弄错或者丢失网页内容的相关信息,比如,有主、副标题的文章,标题容易识别出错;对于正文前面的图片容易丢失等。
发明内容
本发明提供了一种基于网页节点互信息的网页文章信息自动抽取方法,其将网页中两个节点的距离作为该两个节点间互信息,对于互信息越小的两个节点,其关系越紧密,越应该合并,本发明利用网页中节点间的互信息,实现网页文章信息的自动抽取。
一种基于网页节点间互信息的网页文章信息自动抽取方法,该方法包括以下步骤:
S1、清理网页,构造干净的DOM树;
S2、构造空节点序列1(NODES),用于存放步骤S3找到的文本节点、链接节点(<A/>)、图像节点(<IMG/>)、视频节点(<VIDEO/>);
S3、遍历DOM树,将找到的文本、链接、图片、视频节点保存到NODES序列;
S4、构造存放DOM树中不可再拆分的布局节点的空节点序列2(NODES2);所述布局节点是指网页中影响网页布局的节点,一般包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
S5、遍历NODES2,计算其中各个节点之间的互信息;
S6、识别文章边界信息节点,所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
S7、合并网页节点:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点:并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
S8、抽取网页文章信息。
其中,所述步骤S1进一步包括:
S1.1、获取网页HTML源代码;
S1.2、网页净化:去掉网页HTML源代码中的注释、script、css等无用信息;
S1.3、DOM树生成:对净化后的网页利用jsoup生成DOM树;
其中,所述步骤S4进一步包括:
S4.1、顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
S4.2将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
其中,所述步骤S5进一步包括:
S5.1对DOM树上每一个布局节点进行初步打分,跨越一个DIV标签算2分,P标签算1分,TABLE标签算3分,TR标签算0.5分,TD标签算0.3分,UL标签算3分,LI标签算0.5分;
S5.2如果DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型(文本、链接、图片、视频)和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
如果网页有效信息的类型是链接,那么节点新分值=节点原分值*系数K1,一般系数K1可以取1.1~1.9;
如果网页有效信息的类型是文本,节点新分值=节点原分值*系数K2,一般系数K2可以根据文本长度、段落数量、平均句子长度等因素而定,经验值取1.5~2.5;
如果网页有效信息的类型是图片或视频,节点新分值=节点原分值*系数K3,一般系数K3可以取 1.5~2.0:
S5.3、通过两个节点之间跨越的布局节点分值之和表示两个节点之间的互信息,互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
其中,所述步骤S6进一步包括:
S6.1、如果一个节点为H1、H2或H3,那么它就是网页标题;或者如果节点如H1、H2或H3的节点,被包含在网页的<head><title>...</title></head>中,且文本长度>8,那么该节点是标题节点;
S6.2、如果一个节点下的文字很短,并且包含一些特殊的短文本信息,比如包含“发布日期”,或本身就是日期格式字符串,或者是一个姓名,是一个媒体名称,那么该节点就是文章边界信息节点。
其中,所述步骤S8进一步包括:
S8.1、去除网页干扰信息,去除网页中的非文章信息;
S8.2、获取网页正文:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
S8.3、获取网页文章边界信息:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息,比如作者、来源、发布日期等元信息。
另外,本发明还提供了一种基于网页节点间互信息的网页文章信息自动抽取系统,该系统包括以下模块:
网页清理模块:清理网页,构造干净的DOM树;
文章信息存储模块:遍历DOM树,将找到的文本节点、链接节点、图像节点、视频节点保存到节点序列1(NODES)中;
不可再拆分的布局节点存储模块:将DOM树中不可再拆分的布局节点存放于节点序列2(NODES2)中;所述布局节点是指网页中影响网页布局的节点,包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
互信息计算模块:遍历NODES2,计算其中各个节点之间的互信息,所述互信息为网页中两个节点的距离;
文章边界信息节点识别模块:所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
网页节点合并模块:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
网页文章信息抽取模块:抽取网页文章信息。
其中,所述网页清理模块进一步包括:
源代码获取子模块、获取网页HTML源代码;
网页净化子模块:去掉网页HTML源代码中网页内容无关的无用信息;
DOM树生成子模块:对净化后的网页生成DOM树。
其中,所述不可再拆分的布局节点存储模块进一步包括:
不可再拆分的布局节点查找子模块:顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
不可再拆分的布局节点加入子模块:将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
其中,所述互信息计算模块进一步包括:
初步打分子模块:对所述DOM树上每一个布局节点进行初步打分,跨越一个DIV标签算2分,P标签算1分,TABLE标签算3分,TR标签算0.5分,TD标签算0.3分,UL标签算3分,LI标签算0.5分;
加权分值设置子模块:如果所述DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
计算模块:计算两个节点之间跨越的布局节点分值之和,将其作为两个节点之间的互信息,其中互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
其中,所述文章边界信息节点识别模块进一步包括:
标题节点识别子模块:如果一个节点为H1、H2或H3,那么它就是网页标题节点;或者如果节点如H1、 H2或H3的节点,被包含在网页的<head><title>...</title></head>中,且文本长度>8,那么该节点是网页标题节点;
其他文章边界信息识别子模块:如果一个节点下的文字很短,并且包含特殊的短文本信息,那么该节点就是文章边界信息节点。
其中,所述网页文章信息抽取模块进一步包括:
网页干扰信息去除子模块:去除网页中的非文章信息;
网页正文信息获取子模块:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
网页文章边界信息获取子模块:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。
本发明通过计算网页节点的互信息来标识网页节点间的紧密,并根据节点间的紧密关系实现对网页文章信息自动抽取方法,提高了网页文章信息抽取的准确率,有效解决了在抽取网页内容时容易弄错或者丢失网页内容的相关信息的问题。
附图说明
图1为本发明一种基于网页节点间互信息的网页文章信息自动抽取方法的流程图。
图2为本发明一种基于网页节点间互信息的网页文章信息自动抽取系统的示意图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。
实施例一
图1公开了一种基于网页节点间互信息的网页文章信息自动抽取方法,该方法包括以下步骤:
S1、清理网页,构造干净的DOM树;
S1.1、获取网页HTML源代码;
S1.2、网页净化:去掉网页HTML源代码中的注释、script、css等无用信息;
S1.3、DOM树生成:对净化后的网页利用jsoup生成DOM树;
S2、构造空节点序列1(NODES),用于存放步骤S3找到的文本节点、链接节点(<A/>)、图像节点(<IMG/>)、视频节点(<VIDEO/>);
S3、遍历DOM树,将找到的文本、链接、图片、视频节点保存到NODES序列;
S4、构造存放不可再拆分的布局节点的空节点序列2(NODES2)。顺序遍历NODES序列,对每个节点,找它的父布局节点,所述布局节点是指网页中影响网页布局的节点,一般包括DIV、TABLE、UL/LI、OL/LI、 DL/DT/DD。
S4.1从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止;
S4.2将该父布局节点加入到NODES2中。加入的过程中,删除NODES2中是该父布局节点子孙节点的节点;
比如:<div class=″right″><div id=″article″><div class=″content″><p>这里是第一段</p><p> 这里是第二段<p/></div></div></div>
两个P都会找到同一个祖先节点<div id=″article″>,会在NODES2中删除这两个P,用<div id=″article″>来代替它俩;
最终NODES2中存放的是不可再拆分的布局节点。
S5、遍历NODES2,计算其中各个节点之间的互信息。
S5.1对DOM树上每一个布局节点进行初步打分,跨越一个DIV标签算2分,P标签算1分,TABLE标签算3分,TR标签算0.5分,TD标签算0.3分,UL标签算3分,LI标签算0.5分;
S5.2如果DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型(文本、链接、图片、视频)和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
如果网页有效信息的类型是链接,那么节点新分值=节点原分值*系数K1,一般系数K1可以取1.1~1.9;
如果网页有效信息的类型是文本,节点新分值=节点原分值*系数K2,一般系数K2可以根据文本长度、段落数量、平均句子长度等因素而定,经验值取1.5~2.5;
如果网页有效信息的类型是图片或视频,节点新分值=节点原分值*系数K3,一般系数K3可以取 1.5~2.0;
S5.3、通过两个节点之间跨越的布局节点分值之和表示两个节点之间的互信息,互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
S6、识别文章边界信息节点,所述文章边界信息包括文章的标题、作者、来源、发布日期等信息;
S6.1、如果一个节点为H1、H2或H3,那么它就是网页标题;或者如果节点如H1、H2或H3的节点,被包含在网页的<head><title>...</title></head>中,且文本长度>8,那么该节点是标题节点;
S6.2如果一个节点下的文字很短,并且包含一些特殊的短文本信息,比如包含“发布日期”,或本身就是日期格式字符串,或者是一个姓名,是一个媒体名称,那么该节点就是文章边界信息节点。
S7、合并网页节点:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止。
S8、抽取网页文章信息:
S8.1、去除网页干扰信息,去除网页中的非文章信息,比如排除包含菜单列表、版权信息、关于我们、网站备案标识等干扰;
S8.2、获取网页正文:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
S8.3、获取网页文章边界信息:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息,比如作者、来源、发布日期等元信息。
实施例二
图2为本发明提供的一种基于网页节点间互信息的网页文章信息自动抽取系统,该系统包括以下模块:
网页清理模块:清理网页,构造干净的DOM树;
文章信息存储模块:遍历DOM树,将找到的文本节点、链接节点、图像节点、视频节点保存到节点序列1(NODES)中;
不可再拆分的布局节点存储模块:将DOM树中不可再拆分的布局节点存放于节点序列2(NODES2)中;所述布局节点是指网页中影响网页布局的节点,包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
互信息计算模块:遍历NODES2,计算其中各个节点之间的互信息,所述互信息为网页中两个节点的距离;
文章边界信息节点识别模块:所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
网页节点合并模块:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
网页文章信息抽取模块:抽取网页文章信息。
其中,所述网页清理模块进一步包括:
源代码获取子模块、获取网页HTML源代码;
网页净化子模块:去掉网页HTML源代码中网页内容无关的无用信息;
DOM树生成子模块:对净化后的网页生成DOM树。
其中,所述不可再拆分的布局节点存储模块进一步包括:
不可再拆分的布局节点查找子模块:顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
比如:<div class=″right″><div id=″article″><div class=″content″><p>这里是第一段</p><p> 这里是第二段<p/></div></div></div>
两个P都会找到同一个祖先节点<div id=″article″>,会在NODES2中删除这两个P,用<div id=″article″>来代替它俩;
不可再拆分的布局节点加入子模块:将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
其中,所述互信息计算模块进一步包括:
初步打分子模块:对所述DOM树上每一个布局节点进行初步打分,跨越一个DIV标签算2分,P标签算1分,TABLE标签算3分,TR标签算0.5分,TD标签算0.3分,UL标签算3分,LI标签算0.5分;
加权分值设置子模块:如果所述DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
如果网页有效信息的类型是链接,那么节点新分值=节点原分值*系数K1,一般系数K1可以取1.1~1.9;
如果网页有效信息的类型是文本,节点新分值=节点原分值*系数K2,一般系数K2可以根据文本长度、段落数量、平均句子长度等因素而定,经验值取1.5~2.5;
如果网页有效信息的类型是图片或视频,节点新分值=节点原分值*系数K3,一般系数K3可以取 1.5~2.0;;
计算模块:计算两个节点之间跨越的布局节点分值之和,将其作为两个节点之间的互信息,其中互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
其中,所述文章边界信息节点识别模块进一步包括:
标题节点识别子模块:如果一个节点为H1、H2或H3,那么它就是网页标题节点;或者如果节点如H1、 H2或H3的节点,被包含在网页的<head><title>...</title></head>中,且文本长度>8,那么该节点是网页标题节点;
其他文章边界信息识别子模块:如果一个节点下的文字很短,并且包含特殊的短文本信息,那么该节点就是文章边界信息节点。
其中,所述网页文章信息抽取模块进一步包括:
网页干扰信息去除子模块:去除网页中的非文章信息;
网页正文信息获取子模块:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
网页文章边界信息获取子模块:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (12)

1.一种基于网页节点间互信息的网页文章信息自动抽取方法,该方法包括以下步骤:
S1、清理网页,构造干净的DOM树;
S2、构造空节点序列1NODES,用于存放步骤S3找到的文本节点、链接节点、图像节点、视频节点;
S3、遍历DOM树,将找到的文本节点、链接节点、图像节点、视频节点保存到NODES序列;
S4、构造存放DOM树中不可再拆分的布局节点的空节点序列2NODES2;所述布局节点是指网页中影响网页布局的节点,包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
S5、遍历NODES2,计算其中各个节点之间的互信息,所述互信息为网页中两个节点的距离;
S6、识别文章边界信息节点,所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
S7、合并网页节点:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
S8、抽取网页文章信息。
2.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:所述步骤S1进一步包括:
S1.1、获取网页HTML源代码;
S1.2、网页净化:去掉网页HTML源代码中网页内容无关的无用信息;
S1.3、DOM树生成:对净化后的网页生成DOM树。
3.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:所述步骤S4进一步包括:
S4.1、顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
S4.2将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
4.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:所述步骤S5进一步包括:
S5.1对所述DOM树上每一个布局节点进行初步打分;
S5.2如果所述DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
S5.3、两个节点之间跨越的布局节点分值之和即为两个节点之间的互信息,互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
5.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:其中,所述步骤S6进一步包括:
S6.1、如果一个节点为H1、H2或H3,那么它就是网页标题节点;或者如果节点如H1、H2或H3的节点,被包含在网页的<head><title>...</title></head>中,且文本长度>8,那么该节点是网页标题节点;
S6.2、如果一个节点下的文字很短,并且包含特殊的短文本信息,那么该节点就是文章边界信息节点。
6.如权利要求1所述的基于网页节点间互信息的网页文章信息自动抽取方法,其特征在于:其中,所述步骤S8进一步包括:
S8.1、去除网页干扰信息,去除网页中的非文章信息;
S8.2、获取网页正文信息:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
S8.3、获取网页文章边界信息:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。
7.一种基于网页节点间互信息的网页文章信息自动抽取系统,该系统包括以下模块:
网页清理模块:清理网页,构造干净的DOM树;
文章信息存储模块:遍历DOM树,将找到的文本节点、链接节点、图像节点、视频节点保存到节点序列1NODES中;
不可再拆分的布局节点存储模块:将DOM树中不可再拆分的布局节点存放于节点序列2NODES2中;所述布局节点是指网页中影响网页布局的节点,包括DIV、TABLE、UL/LI、OL/LI、DL/DT/DD;
互信息计算模块:遍历NODES2,计算其中各个节点之间的互信息,所述互信息为网页中两个节点的距离;
文章边界信息节点识别模块:所述文章边界信息为位于网页文章正文前后,属于文章内容的信息;
网页节点合并模块:如果网页中相邻两个节点的互信息小于等于阈值,则合并该相邻的两个节点;并继续判断网页中相邻的节点是否可以合并,直到节点之间的互信息大于阈值终止;
网页文章信息抽取模块:抽取网页文章信息。
8.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述网页清理模块进一步包括:
源代码获取子模块、获取网页HTML源代码;
网页净化子模块:去掉网页HTML源代码中网页内容无关的无用信息;
DOM树生成子模块:对净化后的网页生成DOM树。
9.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述不可再拆分的布局节点存储模块进一步包括:
不可再拆分的布局节点查找子模块:顺序遍历NODES序列,对每个节点,从当前布局节点往上层查找,如果该布局节点的父布局节点只存在一个子布局节点,用父布局节点代替当前布局节点,直到父布局节点存在多个布局节点时终止,此时,该父布局节点即为不可再拆分的布局节点;
不可再拆分的布局节点加入子模块:将该父布局节点加入到NODES2中,并删除NODES2中该父布局节点子孙节点;最终NODES2中存放的是不可再拆分的布局节点。
10.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述互信息计算模块进一步包括:
初步打分子模块:对所述DOM树上每一个布局节点进行初步打分;
加权分值设置子模块:如果所述DOM树上的节点同时是NODES2中的节点,则根据这个节点包含的网页有效信息的类型和数量,设置一个加权值,此时节点的分值为节点原分值*加权值;
计算模块:计算两个节点之间跨越的布局节点初步打分与加权分值之和,将其作为两个节点之间的互信息,其中互信息越大,两个节点联系越疏远;互信息越小,两个节点联系越紧密。
11.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述文章边界信息节点识别模块进一步包括:
标题节点识别子模块:如果一个节点为H1、H2或H3,那么它就是网页标题节点;或者如果节点如H1、H2或H3的节点,被包含在网页的<head><title>...</title></head>中,且文本长度>8,那么该节点是网页标题节点;
其他文章边界信息识别子模块:如果一个节点下的文字很短,并且包含特殊的短文本信息,那么该节点就是文章边界信息节点。
12.如权利要求7所述的基于网页节点间互信息的网页文章信息自动抽取系统,其特征在于:所述网页文章信息抽取模块进一步包括:
网页干扰信息去除子模块:去除网页中的非文章信息;
网页正文信息获取子模块:在去除网页干扰信息后,在NODES2中找到包含文本、链接、图片、视频节点最多的节点,就是正文;
网页文章边界信息获取子模块:在正文前面的标题为网页文章的标题信息;在所述标题信息和所述正文之间的其他文章边界信息即为网页文章的边界信息。
CN201810795448.5A 2018-07-20 2018-07-20 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 Active CN109086361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810795448.5A CN109086361B (zh) 2018-07-20 2018-07-20 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810795448.5A CN109086361B (zh) 2018-07-20 2018-07-20 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Publications (2)

Publication Number Publication Date
CN109086361A CN109086361A (zh) 2018-12-25
CN109086361B true CN109086361B (zh) 2019-06-21

Family

ID=64837894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810795448.5A Active CN109086361B (zh) 2018-07-20 2018-07-20 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Country Status (1)

Country Link
CN (1) CN109086361B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740101A (zh) * 2019-01-18 2019-05-10 杭州凡闻科技有限公司 数据配置方法、公众号文章清洗方法、装置及系统
CN110390037B (zh) * 2019-07-25 2021-12-03 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN110795933B (zh) * 2019-09-30 2023-10-31 奇安信科技集团股份有限公司 一种网页正文的识别处理方法及装置
CN111428444B (zh) * 2020-03-27 2023-10-20 新华智云科技有限公司 网页信息自动抽取方法
CN111651694B (zh) * 2020-05-21 2023-09-29 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN115658993B (zh) * 2022-09-27 2023-06-06 观澜网络(杭州)有限公司 一种网页的核心内容的智能化抽取方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
CN102460432A (zh) * 2009-06-30 2012-05-16 惠普开发有限公司 选择性内容提取
CN102521313A (zh) * 2011-12-01 2012-06-27 北京大学 基于网页质量的静态索引剪枝方法
CN102567530A (zh) * 2011-12-31 2012-07-11 凤凰在线(北京)信息技术有限公司 一种文章类型网页智能抽取系统及其方法
CN103226599A (zh) * 2013-04-23 2013-07-31 翁杰 一种精确提取网页内容的方法及系统
CN103577466A (zh) * 2012-08-03 2014-02-12 腾讯科技(深圳)有限公司 一种在浏览器中显示网页内容的方法和装置
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681994B (zh) * 2011-03-07 2014-03-12 北京百度网讯科技有限公司 一种网页信息抽取方法及系统
CN105653668A (zh) * 2015-12-29 2016-06-08 武汉理工大学 云环境中基于DOMTree的网页内容分析提取优化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
CN102460432A (zh) * 2009-06-30 2012-05-16 惠普开发有限公司 选择性内容提取
CN102521313A (zh) * 2011-12-01 2012-06-27 北京大学 基于网页质量的静态索引剪枝方法
CN102567530A (zh) * 2011-12-31 2012-07-11 凤凰在线(北京)信息技术有限公司 一种文章类型网页智能抽取系统及其方法
CN103577466A (zh) * 2012-08-03 2014-02-12 腾讯科技(深圳)有限公司 一种在浏览器中显示网页内容的方法和装置
CN103226599A (zh) * 2013-04-23 2013-07-31 翁杰 一种精确提取网页内容的方法及系统
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法

Also Published As

Publication number Publication date
CN109086361A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086361B (zh) 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
CN103955529B (zh) 一种互联网信息搜索聚合呈现方法
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN101944109B (zh) 一种基于页面分块的图片摘要提取系统及方法
CN107423391B (zh) 网页结构化数据的信息提取方法
CN101246494B (zh) 一种互联网网页转换方法、系统及设备
CN103678412B (zh) 一种文档检索的方法及装置
US20020021838A1 (en) Adaptively weighted, partitioned context edit distance string matching
CN108920434A (zh) 一种通用的网页主题内容提取方法和系统
CN105913072A (zh) 视频分类模型的训练方法和视频分类方法
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN110390038A (zh) 基于dom树的页面分块方法、装置、设备及存储介质
CN105550359B (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN106055667A (zh) 一种基于文本‑标签密度的网页核心内容提取方法
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
CN104376061B (zh) 一种提取网页正文的方法
CN103064966B (zh) 一种从单记录网页中抽取规律噪音的方法
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN106528509B (zh) 网页信息提取方法及装置
CN106528068A (zh) 一种网页内容重构方法和系统
CN109299443B (zh) 一种基于最小顶点覆盖的新闻文本去重方法
CN109062876B (zh) 一种基于dom网页剪枝的相似网页查找方法及系统
Ferrés et al. PDFdigest: an adaptable layout-aware PDF-to-XML textual content extractor for scientific articles
CN108090121A (zh) 图书评论挖掘系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing

Applicant after: Beijing Puyun Mdt InfoTech Ltd

Applicant after: Cape Cloud Information Technology Co., Ltd.

Address before: 100083 Quantum Ginza 601, No. 26 Zhichun Road, Haidian District, Beijing

Applicant before: Beijing Puyun Mdt InfoTech Ltd

Applicant before: Guangdong Puyun information Polytron Technologies Inc

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant