CN104834717A - 一种基于网页聚类的Web信息自动抽取方法 - Google Patents

一种基于网页聚类的Web信息自动抽取方法 Download PDF

Info

Publication number
CN104834717A
CN104834717A CN201510235641.XA CN201510235641A CN104834717A CN 104834717 A CN104834717 A CN 104834717A CN 201510235641 A CN201510235641 A CN 201510235641A CN 104834717 A CN104834717 A CN 104834717A
Authority
CN
China
Prior art keywords
template
webpage
page
web
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510235641.XA
Other languages
English (en)
Inventor
武斌
张志华
徐宏伟
王传超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510235641.XA priority Critical patent/CN104834717A/zh
Publication of CN104834717A publication Critical patent/CN104834717A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于网页聚类的Web信息自动抽取方法,属于计算机信息提取技术领域;本发明在基于DOM的抽取技术上,根据对树的相似度比较对网页进行聚类分析,从而分类出网页结构相似度较高的网页簇,实现一个高精度的Web信息自动抽取系统,并通过大量的测试网页集对这些算法进行实验和评估,Web信息自动抽取应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,与同类技术相比具有算法构造简单、准确率高等优势。

Description

一种基于网页聚类的Web信息自动抽取方法
技术领域
本发明公开一种Web信息自动抽取方法,属于计算机信息提取技术领域,具体地说是一种基于网页聚类的Web信息自动抽取方法。
背景技术
随着Internet技术的迅速发展,Web已经成为当今最庞大的信息库。然而Web页面中通常含有很多用户并不关心的信息,如广告链接、导航栏和版权信息等,有必要从Web页面中抽取出有用的信息,而通常用于Web 信息抽取的软件又称作包装器(Wrapper)。自1994 年起,包装器生成技术经历了从手工编写包装器脚本,到利用机器学习的半自动化生成,再到自动化生成的三个阶段。目前,自动化已经成为Web信息抽取技术的一个重要特征,比较有代表性的抽取工具有RoadRunner、IEPAD、Dela和MDR-2等。但是现有的抽取工具使用时算法构造复杂、准确率低。本发明提供一种基于网页聚类的Web信息自动抽取方法,根据数据提供网站动态网页的特点,在基于DOM的抽取技术上,根据对树的相似度比较对网页进行聚类分析,从而分类出网页结构相似度较高的网页簇,实现一个高精度的Web信息自动抽取系统,并通过大量的测试网页集对这些算法进行实验和评估,Web信息自动抽取应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,与同类技术相比具有算法构造简单、准确率高等优势。
发明内容
本发明针对现有的Web自动化信息抽取技术中,抽取工具使用时算法构造复杂、准确率低的问题,提供一种基于网页聚类的Web信息自动抽取方法,根据数据提供网站动态网页的特点,在基于DOM的抽取技术上,自动寻找并抽取网页主要信息,与同类技术相比具有算法构造简单、准确率高等优势。
本发明提出的具体方案是:
一种基于网页聚类的Web信息自动抽取方法:
对动态网页集合进行页面预处理:将HTML网页转化成XHTML格式,并清除网页中的明显错误;
网页聚类:网页集合的聚类具有层次之间的分割嵌套的关系,形成一个树状结构,利用计算它们的编辑距离来比较HTML标签树的相似性;根据网页聚类的复杂度,采取相应的算法,定义两个网页的树编辑距离;
生成抽取模板:网页聚类后的每一个网页簇,都生成一个对应的抽取模板,所有抽取模板组成了抽取系统的包装器;
进行数据抽取:对要抽取的网页和包装器的相应模板进行编辑距离的计算,如果模板中的所有必需节点都在最后的映射中,说明该网页满足此包装器,则把与包装器指定的内容节点对应的网页内容部分抽取出来,模板中不是所有必需节点都在映射中,则通过计算编辑距离选取最相似的模板抽取网页信息。
所述的网页集合的聚类使用的凝聚层次算法来表示层次之间的分割嵌套的关系,每个单独的数据对象作为一个簇,每一步距离最近的两个簇首先被合并,直到簇的个数满足要求。
所述的根据网页聚类的复杂度,采取CURE算法,定义两个网页的树编辑距离,计算过程为:网页聚类中产生的代表簇满足两个阈值,簇的全局自相似性满足阈值Ωg,簇中两两网页间的列相似度满足阈值Ωe,伪代码如下:Cluster Page(page Set,Ωg,Ωe)     let mij be the distance of Pi and Pin the page Set     Initialize each page to a group and put it into the set of groups G     while (G>1) do     choose A,B∈G, a pair of groups which maximize the auto-similarity measure s(A∪B)     if s(A∪B)>Ωg &&∈i,j∈A∪B,cs(i,j)>Ωe        then     remove A and B from G      let Φ=A∪B     insert Φ into G     else break     end while     return G
根据情况设置Ωg和Ωe值。
所述的生成抽取模板,分为两个网页的模板的生成和多网页模板生成;
两个网页模板的生成:利用DOM树的相似性算法,在计算编辑距离的同时,生成一个节点映射集合,获得树节点T1和T2之间距离最小的子树匹配情况,把这些匹配情况作为一个列表返回,当T1和T2不匹配时,返回的列表为空;当T1和T2至少有一个没有子节点时,返回的列表只包含T1和T2的匹配;T1和T2分别是第一个网页和第二个网页的树节点;
多个网页的模板的生成:建立在两个网页的模板生成基础上,选取一个网页作为初始模板,根据其他网页逐步调整模板,通过统计方法得到最后的模板,利用最后模板生成抽取网页信息的包装器。
所述的多个网页的模板的生成过程为:
初始模板的选取,结合网页聚类的算法,对于网页聚类结果簇集合C={P0,P1,…,Pk};
根据其他网页调整和修正该模板,网页的顺序从节点数最多处开始,依次往下,算法的伪代码如下所示:
Generate Template(page Set, λ)      template←the page which have the maximum potential template nodes   Delete the selected template from page Set    Sort the pages of page Set by the number of nodes in descending order   Mark a integer field appear Count of all nodes in template to 1        for each page p in page Set do       es(template, p)     match Nodes Set=get Match Nodes(template, p)         for each node pair'(nt,np) in match Nodes Set do       set nt.appear Count=nt.appearCount+1       align Template(nt,np)         end
mini Count=ceil((pageSet.count+1)*λ)   discard the nodes whose appear Count is less than mini Count   return template
通过统计方法得到最后的模板,利用最后模板生成抽取网页信息的包装器。
本发明的有益之处是:本发明基于DOM的抽取技术上,根据对树的相似度比较对网页进行聚类分析,从而分类出网页结构相似度较高的网页簇,实现一个高精度的Web信息自动抽取系统,并通过大量的测试网页集对这些算法进行实验和评估,Web信息自动抽取应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,与同类技术相比具有算法构造简单、准确率高等优势。
附图说明
图1本发明方法的流程示意图。
具体实施方式
结合附图对本发明做进一步说明。
一种基于网页聚类的Web信息自动抽取方法:
对动态网页集合进行页面预处理:首先,要对页面进行处理。对于抓取的网页,并不能直接转化成一个DOM树,因为HTML网页的格式通常不是规范的XML格式,因此需要将其先转化成XHTML格式。另外,Web中很多的网页都会存在标签上的错误,由于HTML的不规范性导致代码中存在的标签不配对也不影响页面的执行,并且很多标签是多余的。可以采用HTML Tidy来解决。Tidy是一个开源的HTML网页净化工具,它可以将HTML转化成XHTML,并能清除网页中的明显错误。
网页聚类:网页集合的聚类具有层次之间的分割嵌套的关系,形成一个树状结构,利用计算它们的编辑距离来比较HTML标签树的相似性;根据网页聚类的复杂度,采取相应的算法,定义两个网页的树编辑距离;
树编辑距离:对模型进行编辑。基于DOM模型的Web信息抽取技术的基础算法,就是比较两棵HTML标签树的相似性。采用比较两棵树相似性的方法,计算它们的编辑距离,找到两棵树之间权值最小的一个映射(mapping),定义如下:
假设X是一棵树,X[i]是树X中第i个字节点,则树T1和T2之间的映射满足有序数对(i,j)的集合。
对于网页集合的聚类,层次聚类过程不同由层次的分割聚类组成,层次之间的分割具有嵌套的关系,整个过程为一个树状结构。可以采用自底向上的层次算法称为凝聚层次算法,把每个单独的数据对象作为一个簇,每一步距离最近的簇对首先被合并,直到簇的个数满足要求。
网页聚类算法:例如聚类网页的数目为500~1000,在这个复杂度上,可以采用类CURE算法。网页聚类中产生的代表簇必须满足两个阈值。首先簇的全局自相似性必须满足阈值Ωg,其次簇中两两网页间的列相似度必须满足阈值Ωe,这个阈值的设定是为了避免出现新簇,虽有较高的全局自相似性,但簇内仍然包含了一些不相似对象的情况。可以将Ωg和Ωe值分别设置为0.9和0.8,整个过程算法的伪代码如下: Page(page Set,Ωg,Ωe)     let mij be the distance of Pi and Pin the page Set     Initialize each page to a group and put it into the set of groups G     while (G>1) do     choose A,B∈G, a pair of groups which maximize the auto-similarity measure s(A∪B)     if s(A∪B)>Ωg &&∈i,j∈A∪B,cs(i,j)>Ωe        then     remove A and B from G      let Φ=A∪B     insert Φ into G     else break     end while     return G
抽取模板生成:生成抽取模板。对于网页聚类后的每一个网页簇,都会生成一个对应的抽取模板,所有抽取模板组成了抽取系统的包装器。网页模板生成建立在两个网页模板生成的基础上。
两个网页的模板:生成两个网页的模板。利用DOM树的相似性算法,在计算编辑距离的同时,生成一个节点映射集合,获得树节点T1和T2之间距离最小的子树匹配情况,把这些匹配情况作为一个列表返回,当T1和T2不匹配时,返回的列表为空;当T1和T2至少有一个没有子节点时,返回的列表只包含T1和T2的匹配;T1和T2分别是第一个网页和第二个网页的树节点;
返回的两个网页的节点映射集合中的节点就是模板中的必需节点,而两个网页不在映射集合中的点是内容节点。如果是可选节点,就要把这些节点插入到模板中,可以把T1认为是最终模板,然后把T2的可选节点插入到T1中。插入的算法是:对于任一T2在映射中的节点P,获得它在T1中的对应节点Q,遍历P的所有子节点C,如果节点C在T1中存在映射节点D,则记录D节点在Q节点的子节点列表中的位置;如果节点C在T1中不存在映射,则把节点C插入列表中最近一次记录的位置后面。
多网页模板生成:生成多个网页的模板。多网页模板生成算法建立在两个网页的模板生成算法之上。主要过程是选取一个网页作为初始模板,然后根据其他网页逐步调整模板,最后通过统计的方法得到模板,利用此模板生成抽取网页信息的包装器。
首先是初始模板的选取。结合网页聚类的算法,发现对于网页聚类结果簇集合C={P0,P1,…,Pk};
有了初始模板,接下来就是根据其他网页调整和修正该模板。网页的顺序从节点数最多处开始,依次往下,算法的伪代码如下所示:
Generate Template(page Set, λ)      template←the page which have the maximum potential template nodes   Delete the selected template from page Set    Sort the pages of page Set by the number of nodes in descending order   Mark a integer field appear Count of all nodes in template to 1        for each page p in page Set do       es(template, p)     match Nodes Set=get Match Nodes(template, p)         for each node pair'(nt,np) in match Nodes Set do       set nt.appear Count=nt.appearCount+1       align Template(nt,np)         end
mini Count=ceil((pageSet.count+1)*λ)   discard the nodes whose appear Count is less than mini Count   return template
数据抽取:对要抽取的网页和包装器的相应模板进行编辑距离的计算,如果模板中的所有必需节点都在最后的映射中,说明该网页满足此包装器,则把与包装器指定的内容节点对应的网页内容部分抽取出来,模板中不是所有必需节点都在映射中,则通过计算编辑距离选取最相似的模板抽取网页信息。

Claims (5)

1.一种基于网页聚类的Web信息自动抽取方法,其特征是:
对动态网页集合进行页面预处理:将HTML网页转化成XHTML格式,并清除网页中的明显错误;
网页聚类:网页集合的聚类具有层次之间的分割嵌套的关系,形成一个树状结构,利用计算它们的编辑距离来比较HTML标签树的相似性;根据网页聚类的复杂度,采取相应的算法,定义两个网页的树编辑距离;
生成抽取模板:网页聚类后的每一个网页簇,都生成一个对应的抽取模板,所有抽取模板组成了抽取系统的包装器;
进行数据抽取:对要抽取的网页和包装器的相应模板进行编辑距离的计算,如果模板中的所有必需节点都在最后的映射中,说明该网页满足此包装器,则把与包装器指定的内容节点对应的网页内容部分抽取出来,模板中不是所有必需节点都在映射中,则通过计算编辑距离选取最相似的模板抽取网页信息。
2.根据权利要求1所述的一种基于网页聚类的Web信息自动抽取方法,其特征是所述的网页集合的聚类使用的凝聚层次算法来表示层次之间的分割嵌套的关系,每个单独的数据对象作为一个簇,每一步距离最近的两个簇首先被合并,直到簇的个数满足要求。
3.根据权利要求2所述的一种基于网页聚类的Web信息自动抽取方法,其特征是所述的根据网页聚类的复杂度,采取CURE算法,定义两个网页的树编辑距离,计算过程为:网页聚类中产生的代表簇满足两个阈值,簇的全局自相似性满足阈值Ωg,簇中两两网页间的列相似度满足阈值Ωe,伪代码如下:Cluster Page(page Set,Ωg,Ωe)     let mij be the distance of Pi and Pin the page Set     Initialize each page to a group and put it into the set of groups G     while (G>1) do     choose A,B∈G, a pair of groups which maximize the auto-similarity measure s(A∪B)     if s(A∪B)>Ωg &&∈i,j∈A∪B,cs(i,j)>Ωe        then     remove A and B from G      let Φ=A∪B     insert Φ into G     else break     end while     return G
根据情况设置Ωg和Ωe值。
4.根据权利要求3所述的一种基于网页聚类的Web信息自动抽取方法,其特征是所述的生成抽取模板,分为两个网页的模板的生成和多网页模板生成;
两个网页模板的生成:利用DOM树的相似性算法,在计算编辑距离的同时,生成一个节点映射集合,获得树节点T1和T2之间距离最小的子树匹配情况,把这些匹配情况作为一个列表返回,当T1和T2不匹配时,返回的列表为空;当T1和T2至少有一个没有子节点时,返回的列表只包含T1和T2的匹配;T1和T2分别是第一个网页和第二个网页的树节点;
多个网页的模板的生成:建立在两个网页的模板生成基础上,选取一个网页作为初始模板,根据其他网页逐步调整模板,通过统计方法得到最后的模板,利用最后模板生成抽取网页信息的包装器。
5.根据权利要求4所述的一种基于网页聚类的Web信息自动抽取方法,其特征是所述的多个网页的模板的生成过程为:
初始模板的选取,结合网页聚类的算法,对于网页聚类结果簇集合C={P0,P1,…,Pk};
根据其他网页调整和修正该模板,网页的顺序从节点数最多处开始,依次往下,算法的伪代码如下所示:
Generate Template(page Set, λ)      template←the page which have the maximum potential template nodes   Delete the selected template from page Set    Sort the pages of page Set by the number of nodes in descending order   Mark a integer field appear Count of all nodes in template to 1        for each page p in page Set do       es(template, p)     match Nodes Set=get Match Nodes(template, p)         for each node pair'(nt,np) in match Nodes Set do       set nt.appear Count=nt.appearCount+1       align Template(nt,np)         end
mini Count=ceil((pageSet.count+1)*λ)   discard the nodes whose appear Count is less than mini Count   return template
通过统计方法得到最后的模板,利用最后模板生成抽取网页信息的包装器。
CN201510235641.XA 2015-05-11 2015-05-11 一种基于网页聚类的Web信息自动抽取方法 Pending CN104834717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510235641.XA CN104834717A (zh) 2015-05-11 2015-05-11 一种基于网页聚类的Web信息自动抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510235641.XA CN104834717A (zh) 2015-05-11 2015-05-11 一种基于网页聚类的Web信息自动抽取方法

Publications (1)

Publication Number Publication Date
CN104834717A true CN104834717A (zh) 2015-08-12

Family

ID=53812603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510235641.XA Pending CN104834717A (zh) 2015-05-11 2015-05-11 一种基于网页聚类的Web信息自动抽取方法

Country Status (1)

Country Link
CN (1) CN104834717A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512296A (zh) * 2015-12-11 2016-04-20 宁波中青华云新媒体科技有限公司 基于网页差异的网页分析方法及系统
CN105824966A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于结构相似网页集的信息抽取方法
CN107870781A (zh) * 2016-09-27 2018-04-03 华为数字技术(苏州)有限公司 一种数据并行聚类方法及装置
CN107943929A (zh) * 2017-11-22 2018-04-20 福州大学 基于dom树抽象的包装器自动生成方法
CN108664511A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 获取网页信息方法和装置
CN108932528A (zh) * 2018-06-08 2018-12-04 哈尔滨工程大学 变色龙算法中相似性度量及截断方法
CN109710864A (zh) * 2018-11-29 2019-05-03 北京字节跳动网络技术有限公司 页面内容划分方法、装置、可读存储介质及电子设备
CN110795444A (zh) * 2019-10-25 2020-02-14 北京小米移动软件有限公司 Dom数据更新方法、页面更新方法及装置
CN110990738A (zh) * 2019-12-09 2020-04-10 名创优品(横琴)企业管理有限公司 一种网页正文及要素提取的方法和系统
CN111314109A (zh) * 2020-01-15 2020-06-19 太原理工大学 一种基于弱密钥的大规模物联网设备固件识别方法
CN111339396A (zh) * 2018-12-18 2020-06-26 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN111913693A (zh) * 2020-07-30 2020-11-10 北京数立得科技有限公司 一种服务接口子类模板确定方法与系统
CN112084451A (zh) * 2020-09-16 2020-12-15 哈尔滨工业大学 一种基于视觉分块的网页logo提取系统及方法
CN113485782A (zh) * 2021-07-29 2021-10-08 北京百度网讯科技有限公司 页面数据获取方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120166412A1 (en) * 2010-12-22 2012-06-28 Yahoo! Inc Super-clustering for efficient information extraction
US20130138655A1 (en) * 2011-11-30 2013-05-30 Microsoft Corporation Web Knowledge Extraction for Search Task Simplification
CN103136358A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 一种自动抽取论坛数据的方法
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120166412A1 (en) * 2010-12-22 2012-06-28 Yahoo! Inc Super-clustering for efficient information extraction
US20130138655A1 (en) * 2011-11-30 2013-05-30 Microsoft Corporation Web Knowledge Extraction for Search Task Simplification
CN103136358A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 一种自动抽取论坛数据的方法
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱韬奋等: "基于网页聚类的Web信息自动抽取", 《微型机与应用》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512296A (zh) * 2015-12-11 2016-04-20 宁波中青华云新媒体科技有限公司 基于网页差异的网页分析方法及系统
CN105824966A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于结构相似网页集的信息抽取方法
CN107870781B (zh) * 2016-09-27 2020-09-11 华为数字技术(苏州)有限公司 一种数据并行聚类方法及装置
CN107870781A (zh) * 2016-09-27 2018-04-03 华为数字技术(苏州)有限公司 一种数据并行聚类方法及装置
CN108664511A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 获取网页信息方法和装置
CN108664511B (zh) * 2017-03-31 2021-07-13 北京京东尚科信息技术有限公司 获取网页信息方法和装置
CN107943929A (zh) * 2017-11-22 2018-04-20 福州大学 基于dom树抽象的包装器自动生成方法
CN107943929B (zh) * 2017-11-22 2021-09-28 福州大学 基于dom树抽象的包装器自动生成方法
CN108932528A (zh) * 2018-06-08 2018-12-04 哈尔滨工程大学 变色龙算法中相似性度量及截断方法
CN108932528B (zh) * 2018-06-08 2021-08-31 哈尔滨工程大学 变色龙算法中相似性度量及截断方法
CN109710864B (zh) * 2018-11-29 2020-01-24 北京字节跳动网络技术有限公司 页面内容划分方法、装置、可读存储介质及电子设备
CN109710864A (zh) * 2018-11-29 2019-05-03 北京字节跳动网络技术有限公司 页面内容划分方法、装置、可读存储介质及电子设备
CN111339396B (zh) * 2018-12-18 2024-04-16 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN111339396A (zh) * 2018-12-18 2020-06-26 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN110795444A (zh) * 2019-10-25 2020-02-14 北京小米移动软件有限公司 Dom数据更新方法、页面更新方法及装置
CN110795444B (zh) * 2019-10-25 2022-12-02 北京小米移动软件有限公司 Dom数据更新方法、页面更新方法及装置
CN110990738A (zh) * 2019-12-09 2020-04-10 名创优品(横琴)企业管理有限公司 一种网页正文及要素提取的方法和系统
CN111314109A (zh) * 2020-01-15 2020-06-19 太原理工大学 一种基于弱密钥的大规模物联网设备固件识别方法
CN111913693A (zh) * 2020-07-30 2020-11-10 北京数立得科技有限公司 一种服务接口子类模板确定方法与系统
CN111913693B (zh) * 2020-07-30 2023-11-14 北京数立得科技有限公司 一种服务接口子类模板确定方法与系统
CN112084451A (zh) * 2020-09-16 2020-12-15 哈尔滨工业大学 一种基于视觉分块的网页logo提取系统及方法
CN112084451B (zh) * 2020-09-16 2022-09-30 哈尔滨工业大学 一种基于视觉分块的网页logo提取系统及方法
CN113485782A (zh) * 2021-07-29 2021-10-08 北京百度网讯科技有限公司 页面数据获取方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN104834717A (zh) 一种基于网页聚类的Web信息自动抽取方法
CN106250830B (zh) 数字图书结构化分析处理方法
CN101464905B (zh) 一种网页信息抽取的系统及方法
CN102831121B (zh) 一种网页信息抽取的方法和系统
JP5917719B2 (ja) 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体
CN100437582C (zh) 图像内容语义标注方法
CN102456050B (zh) 从网页中抽取数据的方法和装置
CN101430714B (zh) 一种基于样式的内容结构化加工方法及系统
CN103473056B (zh) 一种遥测配置文件自动生成方法
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN107423278A (zh) 评价要素的识别方法、装置及系统
CN103425757A (zh) 融合多模态信息的跨媒体人物新闻检索方法与系统
CN104090882B (zh) 一种广告订单的快速聚类方法及系统、服务器
US9811727B2 (en) Extracting reading order text and semantic entities
US20100185684A1 (en) High precision multi entity extraction
CN102929930A (zh) 小样本自动化Web文本数据抽取模板生成与抽取方法
CN103559234A (zh) RESTful Web服务的自动化语义标注系统和方法
CN105930873A (zh) 一种基于子空间的自步跨模态匹配方法
CN109344355A (zh) 针对网页变化的自动回归检测与块匹配自适应方法和装置
CN108959204B (zh) 互联网金融项目信息抽取方法和系统
CN106776495A (zh) 一种文档逻辑结构重建方法
CN104317867B (zh) 对搜索引擎返回的网页图片进行实体聚类的系统
CN107943929B (zh) 基于dom树抽象的包装器自动生成方法
CN103049557A (zh) 一种站点资源管理方法及装置
CN105279524A (zh) 基于无权超图分割的高维数据聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150812