CN104572934B - 一种基于dom的网页关键内容抽取方法 - Google Patents

一种基于dom的网页关键内容抽取方法 Download PDF

Info

Publication number
CN104572934B
CN104572934B CN201410840805.7A CN201410840805A CN104572934B CN 104572934 B CN104572934 B CN 104572934B CN 201410840805 A CN201410840805 A CN 201410840805A CN 104572934 B CN104572934 B CN 104572934B
Authority
CN
China
Prior art keywords
node
path
key content
tree
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410840805.7A
Other languages
English (en)
Other versions
CN104572934A (zh
Inventor
董博
薛妮
贺欢
郑庆华
马天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201410840805.7A priority Critical patent/CN104572934B/zh
Publication of CN104572934A publication Critical patent/CN104572934A/zh
Application granted granted Critical
Publication of CN104572934B publication Critical patent/CN104572934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种基于DOM的网页关键内容抽取方法,包括以下步骤:根据来自同一网站的模式相同的网页URL1和URL2,下载网页的HTML文本内容,分别保存为HTML1和HTML2,采用DOM树解析技术,将HTML1和HTML2转化为DOM树,记为TREE1和TREE2;定义用于识别TREE1和TREE2中的关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce;基于差异度定义,设计差异度计算方法,计算TREE1中各节点的差异度,将差异度大于给定差异度阈值e的节点的路径加入Lkeycontent;设计算法对Lkeycontent进行约简,得到Lreduce;基于Lreduce将网页中的关键内容返回给用户。本发明能够在网页关键内容的位置及具体内容均未知的情况下对关键内容进行抽取,具有抽取内容完整、可读性强,抽取信息量大,以及抽取效率高的优点。

Description

一种基于DOM的网页关键内容抽取方法
技术领域
本发明属于互联网技术领域,特别涉及一种基于DOM(DocumentObjectModel,文档对象模型,是一种用于表示和处理网页内容的树形数据结构)的网页关键内容抽取方法。
背景技术
随着互联网技术的不断发展,网络信息中的关键内容和冗余内容都呈现出爆炸式的增长,为了充分利用网络信息的价值,就需要过滤冗余内容,将关键内容抽取出来。比如在网页中的文本信息资源中,除了文章标题、文章内容、用户评论等有价值的关键内容以外,通常还包括了导航栏目、广告内容、站内链接等与关键内容无关的冗余信息,这些冗余信息会影响用户的阅读体验,并且在同一网站中的网页通常使用同样的网页模板,模板的冗余信息在网页中占明显比重,影响网页内容索引的质量,使用户难以检索到有价值的关键内容。因此,如何从来自同一网站的相关网页中快速、有效地过滤冗余信息抽取核心的关键内容,成了一个亟待解决的难题。
针对如何快速、有效地从同一网站的网页中去除冗余信息,找到核心的关键内容,以下论文和专利提供了不同的技术方案:
文献1.潘超,梁宏伟,李立召.基于DOM的网页信息抽取方法[J].硅谷,No.20,2010:172;
文献2.一种网页信息抽取的方法和系统(201110161113.6);
文献1提出一种基于DOM的网页信息抽取方法。首先得到用户的需求,然后从DOM树的根节点开始递归遍历DOM树。在遍历DOM树的过程中,从根节点开始判断它的每一个子节点是否包含用户感兴趣的内容。如果节点中包含用户感兴趣的内容,就保留这个节点;否则,就删除这个节点。按照这种方法递归处理每一个节点,从而删除所有不包含用户感兴趣的内容的节点,这样,DOM树中只剩下了用户感兴趣的内容的节点。最后,再将得到的DOM树转换成网页。
文献2分析样本页面的DOM结构,获取抽取内容在DOM结构中的位置;将抽取内容在样本页面中的位置对应的节点作为目标节点,从目标节点出发,递归寻找所有节点直至找到根节点,形成候选路径,将从目标节点到根节点的路径作为路径集合;分析待抽取页面DOM结构,利用路径集合中的路径从根节点出发,定位待抽取页面的内容,获取待抽取页面内容对应的节点作为候选抽取节点集合;从候选抽取节点集合中选出鲁棒性最高的节点作为最终的抽取节点,利用抽取节点获取抽取内容。
以上文献所述方法主要存在以下问题:
文献1要求首先得到用户的需求,不适合在用户需求未知的情况下抽取网页的关键内容;在关键内容抽取过程中,删除了所有与用户需求无关的节点,导致提取内容零散,不便于用户阅读。文献2需要事先得到抽取的内容目标,不适合在未知抽取内容的情况下使用,并且抽取内容的单位仅限于节点,而非子树,导致抽取到的有效信息量较少。
发明内容
本发明目的在于提出一种基于DOM的网页关键内容抽取方法,以解决背景技术中的方法不适合抽取未知内容、并且抽取内容零散的问题,为处理同一网站中的网页关键内容抽取提供支持。
为达到上述目的,本发明是采取如下的技术方案予以实现:
一种基于DOM的网页关键内容抽取方法,包括以下步骤:
1)根据来自同一网站的模式相同的网页URL1和URL2,下载网页的HTML文本内容,分别保存为HTML1和HTML2,然后采用DOM解析技术将HTML1和HTML2分别转化为DOM结构,记为TREE1和TREE2
2)定义用于识别关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce,Lkeycontent和Lreduce的列表元素均为关键内容所在节点node的节点路径Pnode
3)基于步骤2)中的差异度定义,设计差异度计算方法,计算TREE1中各节点相对于TREE2的差异度,将差异度大于给定差异度阈值e的节点的节点路径加入步骤2)设计的关键内容路径列表Lkeycontent
4)设计算法对步骤3)得到的关键内容路径列表Lkeycontent进行约简,得到步骤2)设计的约简关键内容路径列表Lreduce
5)基于步骤4)得到的约简关键内容路径列表Lreduce,获取网页的关键内容,并将其返回给用户。
本发明进一步的改进在于,步骤1)中所述的DOM结构中,每个节点node包括以下3种属性:
1-1)节点类型Tnode:Tnode包括Text类型和Element类型,其中Text类型的节点是DOM的叶节点;Element类型的节点是DOM的分支节点;
1-2)节点内容Cnode:Cnode是节点包含的内容,Text类型节点的内容为该节点的文本,Element类型节点的内容为HTML标签文本;
1-3)节点路径Pnode:节点node的节点路径Pnode是从DOM的根节点到节点node的节点序列。
本发明进一步的改进在于,步骤2)中所述的差异度定义为TREE1的节点N1与TREE2在节点路径PN1对应节点N2的不相似程度,记为diff(N1,TREE2),其取值规则如下:
在TREE2中查找与N1所述节点路径PN1和节点内容CN1均相同的节点N2,如果N2不存在,则diff(N1,TREE2)=1,否则:
2-1)如果TN1等于Text,即N1为Text类型节点,则diff(N1,TREE2)=0;
2-2)如果TN1等于Element,即N1为Element类型节点,则N1的差异度为N1所有子节点差异度平均值,diff(N1,TREE2)=∑idiff(subnodei,TREE2)/n,其中n为N1的子节点数,subnodei为N1的第i个子节点。
本发明进一步的改进在于,步骤3)中所述的差异度计算方法以及关键内容路径选取方法如下:
采用先根遍历的方法对TREE1中的节点进行遍历,对于遍历到的节点node,计算该节点的差异度diff(node,TREE2):
3-1)判断diff(node,TREE2)是否大于差异度阈值e:
a、如果diff(node,TREE2)大于e,则认为node包含的内容为关键内容,将Pnode加入Lkeycontent,执行下一步;
b、如果diff(node,TREE2)小于等于e,则执行步骤3-3);
3-2)判断diff(node,TREE2)是否等于1:
a、如果diff(node,TREE2)不等于1,执行步骤3-3);
b、如果diff(node,TREE2)等于1,则再判断Tnode是否等于Element,如果等于,则该node的所有子节点不再计算差异度,执行步骤3-3);
3-3)按照先根遍历次序对其余未计算差异度的节点进行遍历。
本发明进一步的改进在于,步骤3)中差异度阈值e的取值范围为0<e<1。
本发明进一步的改进在于,步骤3)中差异度阈值e的取值为0.7。
本发明进一步的改进在于,步骤4)中所述的对关键内容路径列表Lkeycontent进行约简得到Lreduce的算法过程如下:
4-1)提取Lkeycontent中所有的关键内容路径,组成关键内容路径集合SET;
4-2)从SET中任取关键内容路径Path,并将SET中剩余关键内容路径组成的集合记为SET’;
4-3)从SET’中任取关键内容路径Path’,按照字符串匹配算法将Path与Path’进行匹配,如果Path是Path’的子串,则从SET及SET’中删除Path’,并且从Lkeycontent中删除Path’,进入下一步;如果Path’是Path的子串,则从SET中删除Path,并且从Lkeycontent中删除Path,进入步骤4-5);否则,进入下一步;
4-4)如果SET’中还有未处理过的关键内容路径,则进入步骤4-3);否则,如果SET’中的关键内容路径数量大于1,则从SET中删除Path,进入步骤4-2),否则进入步骤4-6);
4-5)如果SET中的关键内容路径数量大于1,则进入步骤4-2);否则,进入下一步;
4-6)最终的关键内容路径列表Lkeycontent即为所述约简关键内容路径列表Lreduce
本发明进一步的改进在于,步骤5)中所述的基于约简关键内容路径列表Lreduce将网页中的关键内容返回给用户的方式,包括以下步骤:
对于Lreduce中的每个关键内容路径:
5-1)在TREE1中找到以该路径末端节点为根节点的DOM子树;
5-2)将所述DOM子树转换成网页;
5-3)将所述网页返回给用户。
与现有技术相比,本发明方法的优点是:
1、本发明能够在关键内容的位置及具体内容均未知的情况下对其进行抽取。
2、在关键内容抽取过程中,保留了原DOM树中节点之间的相互关系,没有进行节点删除操作,从而抽取到的信息具有很好的完整性,非常贴近原始信息,便于用户阅读。
3、抽取单位为子树,从而抽取到的关键内容信息量较大,抽取效率较高。
附图说明
图1是本发明方法的整体流程示意图;
图2是本发明设计的节点差异度定义方法的流程图;
图3是本发明设计的差异度计算及关键内容路径选取方法的流程图;
图4是本发明设计的关键内容路径列表约简算法的流程图。
具体实施方式
以下结合附图,对本发明一种基于DOM的网页关键内容抽取方法的具体内容做细致描述。
如图1所示,本发明一种基于DOM的网页关键内容抽取方法,包括下述步骤:
1)根据来自同一网站的模式相同的网页URL1和URL2(UniformResourceLocator,统一资源定位符,即网页地址,例如URL1:http://example.com/1.html,URL2:http://example.com/2.html),下载网页的HTML文本内容(HyperTextMark-upLanguage,超文本标记语言),分别保存为HTML1和HTML2,然后采用DOM解析技术将HTML1和HTML2分别转化为DOM结构,记为TREE1和TREE2
2)定义用于识别关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce,Lkeycontent和Lreduce的列表元素均为关键内容所在节点node的节点路径Pnode
3)基于步骤2)中的差异度定义,设计差异度计算方法,计算TREE1中各节点相对于TREE2的差异度,将差异度大于给定差异度阈值e的节点的节点路径加入步骤2)设计的关键内容路径列表Lkeycontent,其中差异度阈值e的取值范围为0<e<1,默认取值为0.7,如果抽取内容中仍包含较多非关键内容,则增加e值,如果抽取内容较零碎或者包含信息较少,则减小e值;
4)设计算法对步骤3)得到的关键内容路径列表Lkeycontent进行约简,得到步骤2)设计的约简关键内容路径列表Lreduce
5)基于步骤4)得到的约简关键内容路径列表Lreduce,获取网页的关键内容,并将其返回给用户。
上述步骤1)中所述的DOM结构中,每个节点node包括以下3种属性:
1-1)节点类型Tnode:Tnode包括Text类型和Element类型,其中Text类型的节点是DOM的叶节点;Element类型的节点是DOM的分支节点;
1-2)节点内容Cnode:Cnode是节点包含的内容,Text类型节点的内容为该节点的文本,Element类型节点的内容为HTML标签文本;例如:HTML内容“<p>新闻标题</p>”转化的DOM有两个节点,一个是Element类型的节点N1,N1节点的CN1为“p”,另一个是Text类型的节点N2,N2节点的CN2为“新闻标题”,N2是N1的子节点,同时也是该DOM的叶节点;
1-3)节点路径Pnode:节点node的节点路径Pnode是从DOM的根节点到节点node的节点序列。
如图2所示,上述步骤2)中所述的差异度定义为TREE1的节点N1与TREE2在节点路径PN1对应节点N2的不相似程度,记为diff(N1,TREE2),其取值规则如下:
在TREE2中查找与N1所述节点路径PN1和节点内容CN1均相同的节点N2,如果N2不存在,则diff(N1,TREE2)=1,否则:
2-1)如果TN1等于Text,即N1为Text类型节点,则diff(N1,TREE2)=0;
2-2)如果TN1等于Element,即N1为Element类型节点,则N1的差异度为N1所有子节点差异度平均值,diff(N1,TREE2)=∑idiff(subnodei,TREE2)/n,其中n为N1的子节点数,subnodei为N1的第i个子节点。
如图3所示,上述步骤3)中所述的差异度计算方法以及关键内容路径选取方法如下:
采用先根遍历的方法对TREE1中的节点进行遍历,对于遍历到的节点node,计算该节点的差异度diff(node,TREE2):
3-1)判断diff(node,TREE2)是否大于差异度阈值e:
a、如果diff(node,TREE2)大于e,则认为node包含的内容为关键内容,将Pnode加入Lkeycontent,执行下一步;
b、如果diff(node,TREE2)小于等于e,则执行步骤3-3);
3-2)判断diff(node,TREE2)是否等于1:
a、如果diff(node,TREE2)不等于1,执行步骤3-3);
b、如果diff(node,TREE2)等于1,则再判断Tnode是否等于Element,如果等于,则该node的所有子节点不再计算差异度,执行步骤3-3);
3-3)按照先根遍历次序对其余未计算差异度的节点进行遍历。
如图4所示,上述步骤4)中所述的对关键内容路径列表Lkeycontent进行约简得到Lreduce的算法过程如下:
4-1)提取Lkeycontent中所有的关键内容路径,组成关键内容路径集合SET;
4-2)从SET中任取关键内容路径Path,并将SET中剩余关键内容路径组成的集合记为SET’;
4-3)从SET’中任取关键内容路径Path’,按照字符串匹配算法将Path与Path’进行匹配,如果Path是Path’的子串,则从SET及SET’中删除Path’,并且从Lkeycontent中删除Path’,进入下一步;如果Path’是Path的子串,则从SET中删除Path,并且从Lkeycontent中删除Path,进入步骤4-5);否则,进入下一步
4-4)如果SET’中还有未处理过的关键内容路径,则进入步骤4-3);否则,如果SET’中的关键内容路径数量大于1,则从SET中删除Path,进入步骤4-2),否则进入步骤4-6);
4-5)如果SET中的关键内容路径数量大于1,则进入步骤4-2);否则,进入下一步;
4-6)最终的关键内容路径列表Lkeycontent即为所述约简关键内容路径列表Lreduce
上述步骤5)中所述的基于约简关键内容路径列表Lreduce将网页中的关键内容返回给用户的方式,包含以下步骤:
对于Lreduce中的每个关键内容路径:
5-1)在TREE1中找到以该路径末端节点为根节点的DOM子树;
5-2)将所述DOM子树转换成网页;
5-3)将所述网页返回给用户。
综上所述,本发明能够在关键内容的位置及具体内容均未知的情况下对其进行抽取。在关键内容抽取过程中,保留了原DOM树中节点之间的相互关系,没有进行节点删除操作,从而抽取到的信息具有很好的完整性,非常贴近原始信息,便于用户阅读。此外,抽取单位为子树,从而抽取到的关键内容信息量较大,抽取效率较高。

Claims (4)

1.一种基于DOM的网页关键内容抽取方法,其特征在于,包括以下步骤:
1)根据来自同一网站的模式相同的网页URL1和URL2,下载网页的HTML文本内容,分别保存为HTML1和HTML2,然后采用DOM解析技术将HTML1和HTML2分别转化为DOM结构,记为TREE1和TREE2
其中,所述的DOM结构中,每个节点node包括以下3种属性:
1-1)节点类型Tnode:Tnode包括Text类型和Element类型,其中Text类型的节点是DOM的叶节点;Element类型的节点是DOM的分支节点;
1-2)节点内容Cnode:Cnode是节点包含的内容,Text类型节点的内容为该节点的文本,Element类型节点的内容为HTML标签文本;
1-3)节点路径Pnode:节点node的节点路径Pnode是从DOM的根节点到节点node的节点序列;
2)定义用于识别关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce,Lkeycontent和Lreduce的列表元素均为关键内容所在节点node的节点路径Pnode
其中,该步骤中所述的差异度定义为TREE1的节点N1与TREE2在节点路径PN1对应节点N2的不相似程度,记为diff(N1,TREE2),其取值规则如下:
在TREE2中查找与N1所述节点路径PN1和节点内容CN1均相同的节点N2,如果N2不存在,则diff(N1,TREE2)=1,否则:
2-1)如果TN1等于Text,即N1为Text类型节点,则diff(N1,TREE2)=0;
2-2)如果TN1等于Element,即N1为Element类型节点,则N1的差异度为N1所有子节点差异度平均值,diff(N1,TREE2)=∑idiff(subnodei,TREE2)/n,其中n为N1的子节点数,subnodei为N1的第i个子节点;
3)基于步骤2)中的差异度定义,设计差异度计算方法,计算TREE1中各节点相对于TREE2的差异度,将差异度大于给定差异度阈值e的节点的节点路径加入步骤2)设计的关键内容路径列表Lkeycontent
其中,该步骤中所述的差异度计算方法以及关键内容路径选取方法如下:
采用先根遍历的方法对TREE1中的节点进行遍历,对于遍历到的节点node,计算该节点的差异度diff(node,TREE2):
3-1)判断diff(node,TREE2)是否大于差异度阈值e:
a、如果diff(node,TREE2)大于e,则认为node包含的内容为关键内容,将Pnode加入Lkeycontent,执行下一步;
b、如果diff(node,TREE2)小于等于e,则执行步骤3-3);
3-2)判断diff(node,TREE2)是否等于1:
a、如果diff(node,TREE2)不等于1,执行步骤3-3);
b、如果diff(node,TREE2)等于1,则再判断Tnode是否等于Element,如果等于,则该node的所有子节点不再计算差异度,执行步骤3-3);
3-3)按照先根遍历次序对其余未计算差异度的节点进行遍历;
4)设计算法对步骤3)得到的关键内容路径列表Lkeycontent进行约简,得到步骤2)设计的约简关键内容路径列表Lreduce
其中,该步骤中所述的对关键内容路径列表Lkeycontent进行约简得到Lreduce的算法过程如下:
4-1)提取Lkeycontent中所有的关键内容路径,组成关键内容路径集合SET;
4-2)从SET中任取关键内容路径Path,并将SET中剩余关键内容路径组成的集合记为SET’;
4-3)从SET’中任取关键内容路径Path’,按照字符串匹配算法将Path与Path’进行匹配,如果Path是Path’的子串,则从SET及SET’中删除Path’,并且从Lkeycontent中删除Path’,进入下一步;如果Path’是Path的子串,则从SET中删除Path,并且从Lkeycontent中删除Path,进入步骤4-5);否则,进入下一步;
4-4)如果SET’中还有未处理过的关键内容路径,则进入步骤4-3);否则,如果SET’中的关键内容路径数量大于1,则从SET中删除Path,进入步骤4-2),否则进入步骤4-6);
4-5)如果SET中的关键内容路径数量大于1,则进入步骤4-2);否则,进入下一步;
4-6)最终的关键内容路径列表Lkeycontent即为所述约简关键内容路径列表Lreduce;
5)基于步骤4)得到的约简关键内容路径列表Lreduce,获取网页的关键内容,并将其返回给用户。
2.根据权利要求1所述的一种基于DOM的网页关键内容抽取方法,其特征在于,步骤3)中差异度阈值e的取值范围为0<e<1。
3.根据权利要求2所述的一种基于DOM的网页关键内容抽取方法,其特征在于,步骤3)中差异度阈值e的取值为0.7。
4.根据权利要求1所述的一种基于DOM的网页关键内容抽取方法,其特征在于,步骤5)中所述的基于约简关键内容路径列表Lreduce将网页中的关键内容返回给用户的方式,包括以下步骤:
对于Lreduce中的每个关键内容路径:
5-1)在TREE1中找到以该路径末端节点为根节点的DOM子树;
5-2)将所述DOM子树转换成网页;
5-3)将所述网页返回给用户。
CN201410840805.7A 2014-12-29 2014-12-29 一种基于dom的网页关键内容抽取方法 Active CN104572934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410840805.7A CN104572934B (zh) 2014-12-29 2014-12-29 一种基于dom的网页关键内容抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410840805.7A CN104572934B (zh) 2014-12-29 2014-12-29 一种基于dom的网页关键内容抽取方法

Publications (2)

Publication Number Publication Date
CN104572934A CN104572934A (zh) 2015-04-29
CN104572934B true CN104572934B (zh) 2016-03-30

Family

ID=53088996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410840805.7A Active CN104572934B (zh) 2014-12-29 2014-12-29 一种基于dom的网页关键内容抽取方法

Country Status (1)

Country Link
CN (1) CN104572934B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824966A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于结构相似网页集的信息抽取方法
CN107423391B (zh) * 2017-07-24 2020-11-03 福州大学 网页结构化数据的信息提取方法
CN107451065A (zh) * 2017-08-18 2017-12-08 郑州云海信息技术有限公司 一种修复web自动化测试脚本的方法及系统
CN107861868A (zh) * 2017-10-31 2018-03-30 郑州云海信息技术有限公司 一种提取自动化测试对象的方法及系统
CN107918735A (zh) * 2017-11-29 2018-04-17 中科信息安全共性技术国家工程研究中心有限公司 一种基于孤岛文件的网页木马检测方法
CN109165373B (zh) * 2018-09-14 2022-04-22 联想(北京)有限公司 一种数据处理方法及装置
CN110390038B (zh) * 2019-07-25 2021-10-15 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117289B (zh) * 2009-12-30 2012-10-10 北京大学 一种从网页中抽取评论内容的方法和装置
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN103559202A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 一种网页内容抽取装置和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100083095A1 (en) * 2008-09-29 2010-04-01 Nikovski Daniel N Method for Extracting Data from Web Pages

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117289B (zh) * 2009-12-30 2012-10-10 北京大学 一种从网页中抽取评论内容的方法和装置
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN103559202A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 一种网页内容抽取装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于 DOM 的动态网页信息抽取方法;王平根;《科技信息》;20101231(第31期);第470页,第475页 *

Also Published As

Publication number Publication date
CN104572934A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
CN109033358B (zh) 新闻聚合与智能实体关联的方法
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
WO2015172567A1 (zh) 一种互联网信息搜索聚合呈现方法
CN107423391B (zh) 网页结构化数据的信息提取方法
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
CN103927397B (zh) 一种基于区块树的Web页面链接块的识别方法
US20090070366A1 (en) Method and system for web document clustering
CN103778238B (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN112287273B (zh) 一种网站列表页面的分类方法、系统及存储介质
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN103559234A (zh) RESTful Web服务的自动化语义标注系统和方法
CN106021383A (zh) 网页相似度计算方法及装置
CN102662969A (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN103838796A (zh) 一种网页结构化信息抽取方法
CN103984749A (zh) 一种基于链接分析的聚焦爬虫方法
CN105302876A (zh) 基于正则表达式的url过滤方法
CN106547895B (zh) 一种网页信息的提取方法及装置
CN104462532A (zh) 网页正文提取的方法和装置
CN103116635A (zh) 面向领域的暗网资源采集方法和系统
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN103440315A (zh) 一种基于主题的Web页面清洗方法
CN105204806A (zh) 移动终端网页个性化显示方法及装置
CN103853770A (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN102236713A (zh) 一种数字电视交互服务页面的信息提取方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant