CN104462540B - 网页信息抽取方法 - Google Patents

网页信息抽取方法 Download PDF

Info

Publication number
CN104462540B
CN104462540B CN201410818097.7A CN201410818097A CN104462540B CN 104462540 B CN104462540 B CN 104462540B CN 201410818097 A CN201410818097 A CN 201410818097A CN 104462540 B CN104462540 B CN 104462540B
Authority
CN
China
Prior art keywords
information
extracted
coordinate
attribute
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410818097.7A
Other languages
English (en)
Other versions
CN104462540A (zh
Inventor
脱立恒
董微
刘学
陆世亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Shanghai 3Ntv Network Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Shanghai 3Ntv Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Shanghai 3Ntv Network Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201410818097.7A priority Critical patent/CN104462540B/zh
Publication of CN104462540A publication Critical patent/CN104462540A/zh
Application granted granted Critical
Publication of CN104462540B publication Critical patent/CN104462540B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种网页信息抽取方法,该方法包括:对网页Web的页面数据建立DOM树,从DOM树中递归选取包含所有待抽取信息的节点子树,选取节点子树中所有待抽取信息的属性节点的路径、值节点的路径和最小的子树,将最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点;将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径,生成属性坐标和值坐标,根据相对特征坐标系的原点、属性坐标和值坐标定位待抽取信息;将属性坐标和值坐标作为待抽取信息的抽取规则,所有待抽取信息的抽取规则组成Web的抽取规则集合并生成包装器;通过包装器的抽取规则的属性坐标和值坐标,定位待抽取信息的属性和值,并抽取Web信息。

Description

网页信息抽取方法
技术领域
本发明涉及网页技术领域,特别涉及一种网页信息抽取方法。
背景技术
伴随着互联网及应用和服务的普及,网上信息量以指数级增长,海量的数据使用户遭遇了选择困难的问题。用户搜索到的信息很大一部分是不感兴趣的或是不相关的。因此,采集互联网上的数据,收集用户感兴趣的内容,抽取有用信息将其集成结构化数据,呈现给用户的相关技术变得十分重要。Web页面具有动态异构性的特点,Web页面会随着时间的变化发生动态改变,且不同的网站之前具有异构性的特点,因此从不同的Web页面中抽取有用的信息也具有相当的难度,且耗时。
发明内容
本发明的目的是提供了一种网页信息抽取方法,提高网页信息抽取的准确率和效率。
为实现上述目的,本发明提供了一种网页信息抽取方法,所述方法包括:
对网页Web的页面数据建立文档对象模型DOM树,从所述DOM树中递归选取包含所有待抽取信息的节点子树,选取所述节点子树中所述所有待抽取信息的属性节点的路径、值节点的路径和最小的子树,将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点;
将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径,生成属性坐标和值坐标,根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息,其中所述所有待抽取信息包括所述待抽取信息;
将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则,其中,不同的待抽取信息训练出的抽取规则不同,所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器;
通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值,并抽取Web信息。
进一步地,所述方法还包括:构建所述HTML标签相对特征坐标系:
将所述所有待抽取信息中的第一个待抽取信息的属性或值所在HTML标签的相关节点作为训练坐标原点;
在以所述训练坐标原点为根节点的子树中查找所述待抽取信息的属性和值;
当所述训练坐标原点不能定位所述所有待抽取信息的属性和值时,更新所述训练坐标原点,将所述训练坐标原点的父节点作为更新后的训练坐标原点;
当所述训练坐标原点能定位所述所有待抽取信息的属性和值时,将所述所有待抽取信息中的每个待抽取信息的属性和值所在标签到当前训练坐标原点的路径作为所述每个待抽取信息的属性坐标和值坐标,所述每个待抽取信息的属性坐标和值坐标组成的坐标系构建所述HTML标签相对特征坐标系。
进一步地,所述方法还包括:在满足所述抽取规则的准确率和召回率阈值的情况下,同类Web页面数据生成的包装器最小,所述包装器中的抽取规则所定位的标签的路径最短。
进一步地,在所述通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值之前,所述方法还包括:
定位所述待抽取信息的抽取坐标原点,根据所述训练坐标原点的文本特征和正则表达式匹配,查找出所述抽取坐标原点所在标签。
进一步地,所述抽取Web信息具体包括:
对所述Web建立HTML标签相对特征坐标系;
对所述Web中的所述待抽取信息建立属性坐标和值坐标;
利用训练集中的网页修正所述待抽取信息的属性坐标和值坐标,使得所述待抽取信息的属性坐标和值坐标能够定位到固定阈值比例的待抽取信息,并将所述待抽取信息的属性坐标和值坐标作为所述待抽取信息的抽取规则;
对于同类的Web页面数据,将所有待抽取信息的属性坐标和值坐标对组合,并构成同类的Web页面数据的包装器;
通过所述坐标原点的文本特征和正则表达式,查找出所述坐标原点的标签,当所述包装器中的抽取规则定位到的属性坐标与所述待抽取信息的属性一致时,则所述包装器中的抽取规则定位到的值坐标为所述待抽取信息。
进一步地,所述抽取Web信息具体还包括:
对于不同类的Web页面数据,将所有待抽取信息的属性坐标和值坐标对组合,并构成不同类的Web页面数据的包装器集合。
本发明提供的网页信息抽取方法,对网页Web的页面数据建立文档对象模型DOM树,从所述DOM树中递归选取包含所有待抽取信息的节点子树,将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点;将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径,生成属性坐标和值坐标,根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息;将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则,所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器;通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值,并抽取Web信息。该方法利用双向定位法抽取Web信息,可以降低抽取信息错误率,提高抽取的准确性;同时相对特征坐标系的使用,极大的减少了构造Web页面的DOM树所需要花费的时间,提高信息抽取效率。
附图说明
图1为本发明实施例提供的网页信息抽取方法流程图;
图2为本发明实施例提供的网页信息抽取方法结构示意图;
图3为本发明实施例提供的DOM树中元素标签中的属性与值的关系示意图;
图4为本发明实施例提供的DOM树中元素标签中的属性与值的关系示意图;
图5为本发明实施例提供的DOM树中元素标签中的属性与值的关系示意图;
图6为本发明实施例提供的包装器训练流程图;
图7为本发明实施例提供的信息抽取的流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
下面以图1为例详细说明本发明实施例提供的网页信息抽取方法,Web信息抽取方法的流程主要包括包装器训练和信息抽取的流程。图1为本发明实施例提供的网页信息抽取方法流程图,图2为本发明实施例提供的网页信息抽取方法结构示意图。结合图1和图2所示,该方法包括如下步骤:
步骤S101、对网页Web的页面数据建立文档对象模型DOM树,从所述DOM树中递归选取包含所有待抽取信息的节点子树,选取所述节点子树中所述所有待抽取信息的属性节点的路径、值节点的路径和最小的子树,将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点;
其中,构建所述HTML标签相对特征坐标系具体包括以下步骤:
步骤21、将所述所有待抽取信息中的第一个待抽取信息的属性或值所在HTML标签的相关节点作为训练坐标原点;
步骤22、在以所述训练坐标原点为根节点的子树中查找所述待抽取信息的属性和值;
步骤23、当所述训练坐标原点不能定位所述所有待抽取信息的属性和值时,更新所述训练坐标原点,将所述训练坐标原点的父节点作为更新后的训练坐标原点;
具体地,当训练坐标原点不能定位所有待抽取信息的属性和值时,循环执行步骤23,直到训练坐标原点能定位所有待抽取信息的属性和值。例如,当训练坐标原点c不能定位所有待抽取信息的属性和值时,更新训练坐标原点c,将训练坐标原点c的父节点d作为更新后的训练坐标原点;如果新的训练坐标原点d也不能定位所有待抽取信息的属性和值时,再次更新训练坐标原点d,将训练坐标原点d的父节点e作为更新后的训练坐标原点;以此类推,直到训练坐标原点能定位所有待抽取信息的属性和值,再进行步骤24。
步骤24、当所述训练坐标原点能定位所述所有待抽取信息的属性和值时,将所述所有待抽取信息中的每个待抽取信息的属性和值所在标签到当前训练坐标原点的路径作为所述每个待抽取信息的属性坐标和值坐标,所述每个待抽取信息的属性坐标和值坐标组成的坐标系构建所述HTML标签相对特征坐标系。
步骤S102、将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径,生成属性坐标和值坐标,根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息,其中所述所有待抽取信息包括所述待抽取信息;
具体地,DOM树中元素标签中的属性与值存在三种关系,图3、4和5为本发明实施例提供的DOM树中元素标签中的属性与值的关系示意图,具体地,如图3所示,元素由混合式内容构成,抽取信息需定位到抽取信息的父节点;如图4所示,元素由混合式内容构成,抽取信息需定位到抽取信息的子节点;如图5所示,元素由子元素构成,抽取信息需定位到抽取信息的兄弟节点。
步骤S103、将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则,其中,不同的待抽取信息训练出的抽取规则不同,所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器;
包装器训练模块,通过对训练集进行训练,查找所有待抽取信息所在DOM树中的子树,构建HTML标签相对特征坐标系,构造坐标系的坐标原点,并训练得到属性和值所在DOM子树的路径作为HTML标签相对特征坐标系中的固定坐标,两个坐标即为抽取该属性值的抽取规则,多个抽取规则组合在一起组成包装器。
为更好地理解上述方法,以一个具体的流程对上述步骤101-步骤103的执行过程进行说明。
如图6所示的包装器训练流程图,步骤101-步骤103描述的包装器训练流程图具体包括以下步骤:
步骤201、训练开始
步骤202、选择训练集中的一个网页,输入到包装器训练模块;
步骤203、对该网页建立DOM树;
步骤204、将第一个抽取属性所在DOM树的节点作为坐标原点;
步骤205、将坐标原点的父节点作为坐标原点;
步骤206、测试所有其他待抽取信息节点是否在该原点子树上,如果都在,执行步骤207,否则,执行步骤205;
步骤207、计算所有待抽取信息的元数据属性相对于坐标原点的XPath路径作为坐标,构建了基于属性的相对坐标系;
步骤208、以属性建立的坐标原点作为原点,计算在其所在子树所有待抽取信息的值相对于坐标原点的XPath路径作为坐标,构建基于值的相对坐标系;
步骤209、分析所有训练集中的网页,使用XPath路径提取属性和值,验证属性坐标和值坐标提取信息是否能够满足召回率和精确度达到阈值0.99,如果已经达到,则执行步骤210,否则执行步骤202;
步骤210、将坐标原点的文本以及所有抽取信息的属性坐标和值坐标组合成包装器输出到信息抽取模块;
步骤211、训练结束。
上述步骤201-步骤211是步骤101-步骤103的具体化,等同于步骤101-步骤103。
步骤S104、通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值,并抽取Web信息。
信息抽取模块,利用包装器训练模块训练出的包装器,使用每条规则中的两个坐标,定位待抽取属性和值,进行Web信息抽取,对两种坐标系下抽取的值进行比较。
可选地,在所述通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值之前,还包括:定位所述待抽取信息的抽取坐标原点,根据所述训练坐标原点的文本特征和正则表达式匹配,查找出所述抽取坐标原点所在标签。
其中,抽取Web信息具体包括以下步骤:
步骤31、对所述Web建立HTML标签相对特征坐标系;
步骤32、对所述Web中的所述待抽取信息建立属性坐标和值坐标;
步骤33、利用训练集中的网页修正所述待抽取信息的属性坐标和值坐标,使得所述待抽取信息的属性坐标和值坐标能够定位到固定阈值比例的待抽取信息,并将所述待抽取信息的属性坐标和值坐标作为所述待抽取信息的抽取规则;
步骤34、对于同类的Web页面数据,将所有待抽取信息的属性坐标和值坐标对组合,并构成同类的Web页面数据的包装器;
进一步地,对于不同类的Web页面数据,将所有待抽取信息的属性坐标和值坐标对组合,并构成不同类的Web页面数据的包装器集合。
步骤35、通过所述坐标原点的文本特征和正则表达式,查找出所述坐标原点的标签,当所述包装器中的抽取规则定位到的属性坐标与所述待抽取信息的属性一致时,则所述包装器中的抽取规则定位到的值坐标为所述待抽取信息。
为更好地理解上述方法,以一个具体的流程对上述步骤104的执行过程进行说明。
如图7所示,信息抽取的流程具体包括以下步骤:
步骤301、抽取开始;
步骤302、取待抽取信息的Web页面;
步骤303、取对应包装器的属性坐标和值坐标对集合;
步骤304、取坐标原点的文本,通过正则表达式定位该原点;
步骤305、使用每条规则中的两个坐标,双向定位待抽取属性和值;
步骤306、两个坐标都能定位到数据,并且属性与待抽取信息一致;如果满足以上条件,执行步骤307,否则,执行步骤308.
步骤307、定位到的信息,即为需要抽取的信息,对所以待抽取信息,进行步骤303到步骤308;
步骤308、待抽取信息抽取失败,对于必须抽取的信息,产生告警,对于不重要的抽取信息,忽略继续抽取;
步骤309、抽取结束。
上述步骤301-步骤309是步骤104的具体化,等同于步骤104。
进一步地,在满足所述抽取规则的准确率和召回率阈值的情况下,同类Web页面数据生成的包装器最小,所述包装器中的抽取规则所定位的标签的路径最短。
本发明实施例提供的网页信息抽取方法,对网页Web的页面数据建立文档对象模型DOM树,从所述DOM树中递归选取包含所有待抽取信息的节点子树,将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点;将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径,生成属性坐标和值坐标,根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息;将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则,所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器;通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值,并抽取Web信息。降低抽取信息错误率,提高抽取的准确性;极大的减少了构造Web页面的DOM树所需要花费的时间,提高信息抽取效率。
因此,本发明提供的网页信息抽取方法,利用双向定位法抽取Web信息,可以降低抽取信息错误率,提高抽取的准确性;同时相对特征坐标系的使用,极大的减少了构造Web页面的DOM树所需要花费的时间,提高信息抽取效率。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种网页信息抽取方法,其特征在于,所述方法包括:
对网页Web的页面数据建立文档对象模型DOM树,从所述DOM树中递归选取包含所有待抽取信息的节点子树,选取所述节点子树中所述所有待抽取信息的属性节点的路径、值节点的路径和最小的子树,将所述最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点;
将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径,生成属性坐标和值坐标,根据所述相对特征坐标系的原点、所述属性坐标和值坐标定位所述待抽取信息,其中所述所有待抽取信息包括所述待抽取信息;
将所述属性坐标和所述值坐标作为所述待抽取信息的抽取规则,其中,不同的待抽取信息训练出的抽取规则不同,所述所有待抽取信息的抽取规则组成所述Web的抽取规则集合并生成包装器;
通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值,并抽取Web信息;所述抽取Web信息具体包括:
对所述Web建立HTML标签相对特征坐标系;
对所述Web中的所述待抽取信息建立属性坐标和值坐标;
利用训练集中的网页修正所述待抽取信息的属性坐标和值坐标,使得所述待抽取信息的属性坐标和值坐标能够定位到固定阈值比例的待抽取信息,并将所述待抽取信息的属性坐标和值坐标作为所述待抽取信息的抽取规则;
对于同类的Web页面数据,将所有待抽取信息的属性坐标和值坐标对组合,并构成同类的Web页面数据的包装器;
通过所述坐标原点的文本特征和正则表达式,查找出所述坐标原点的标签,当所述包装器中的抽取规则定位到的属性坐标与所述待抽取信息的属性一致时,则所述包装器中的抽取规则定位到的值坐标为所述待抽取信息;所述方法还包括:构建所述HTML标签相对特征坐标系:
将所述所有待抽取信息中的第一个待抽取信息的属性或值所在HTML标签的相关节点作为训练坐标原点;
在以所述训练坐标原点为根节点的子树中查找所述待抽取信息的属性和值;
当所述训练坐标原点不能定位所述所有待抽取信息的属性和值时,更新所述训练坐标原点,将所述训练坐标原点的父节点作为更新后的训练坐标原点;
当所述训练坐标原点能定位所述所有待抽取信息的属性和值时,将所述所有待抽取信息中的每个待抽取信息的属性和值所在标签到当前训练坐标原点的路径作为所述每个待抽取信息的属性坐标和值坐标,所述每个待抽取信息的属性坐标和值坐标组成的坐标系构建所述HTML标签相对特征坐标系。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在满足所述抽取规则的准确率和召回率阈值的情况下,同类Web页面数据生成的包装器最小,所述包装器中的抽取规则所定位的标签的路径最短。
3.根据权利要求1所述的方法,其特征在于,在所述通过所述包装器的抽取规则的属性坐标和值坐标,定位所述待抽取信息的属性和值之前,所述方法还包括:
定位所述待抽取信息的抽取坐标原点,根据所述训练坐标原点的文本特征和正则表达式匹配,查找出所述抽取坐标原点所在标签。
4.根据权利要求1所述的方法,其特征在于,所述抽取Web信息具体还包括:
对于不同类的Web页面数据,将所有待抽取信息的属性坐标和值坐标对组合,并构成不同类的Web页面数据的包装器集合。
CN201410818097.7A 2014-12-24 2014-12-24 网页信息抽取方法 Expired - Fee Related CN104462540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410818097.7A CN104462540B (zh) 2014-12-24 2014-12-24 网页信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410818097.7A CN104462540B (zh) 2014-12-24 2014-12-24 网页信息抽取方法

Publications (2)

Publication Number Publication Date
CN104462540A CN104462540A (zh) 2015-03-25
CN104462540B true CN104462540B (zh) 2018-03-30

Family

ID=52908575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410818097.7A Expired - Fee Related CN104462540B (zh) 2014-12-24 2014-12-24 网页信息抽取方法

Country Status (1)

Country Link
CN (1) CN104462540B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951796B (zh) * 2016-01-07 2020-12-15 创新先进技术有限公司 一种数据隐私保护的脱敏方法及其装置
CN107301166A (zh) * 2017-02-13 2017-10-27 上海大学 面向跨领域进行信息抽取的多层次特征模型和特征评价方法
CN108804469B (zh) * 2017-05-04 2021-10-29 腾讯科技(深圳)有限公司 一种网页识别方法以及电子设备
CN107463617A (zh) * 2017-07-04 2017-12-12 北京工业大学 基于路径摘要的链接信息提取方法
CN107943929B (zh) * 2017-11-22 2021-09-28 福州大学 基于dom树抽象的包装器自动生成方法
CN108563729B (zh) * 2018-04-04 2022-04-01 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN108848250B (zh) * 2018-05-07 2020-12-15 北京奇点机智科技有限公司 路径更新方法、装置及设备
CN109376339B (zh) * 2018-08-02 2020-07-03 浙江大学 一种基于用户行为的文本转换候选规则信息提取方法
CN112199613B (zh) * 2020-10-13 2023-03-03 北京理工大学 融合dom拓扑和文本属性的产品url自动定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582075A (zh) * 2009-06-24 2009-11-18 大连海事大学 Web信息抽取系统
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582075A (zh) * 2009-06-24 2009-11-18 大连海事大学 Web信息抽取系统
CN102831121A (zh) * 2011-06-15 2012-12-19 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统

Also Published As

Publication number Publication date
CN104462540A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462540B (zh) 网页信息抽取方法
Raganato et al. Word sense disambiguation: a uinified evaluation framework and empirical comparison
KR102049271B1 (ko) 온라인 소셜 네트워크에서 검색 결과의 블렌딩
CN103955529B (zh) 一种互联网信息搜索聚合呈现方法
CN103390051B (zh) 一种基于微博数据的话题发现与追踪方法
Tablan et al. Mímir: An open-source semantic search framework for interactive information seeking and discovery
CN103150382B (zh) 基于开放知识库的短文本语义概念自动化扩展方法及系统
CN103294781B (zh) 一种用于处理页面数据的方法与设备
US8583622B2 (en) Application of breadcrumbs in ranking and search experiences
US20140222834A1 (en) Content summarization and/or recommendation apparatus and method
Su et al. Combining tag and value similarity for data extraction and alignment
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN102270234A (zh) 一种图像搜索方法及其搜索引擎
CN103365978A (zh) 基于lda主题模型的中医药数据挖掘方法
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN102609427A (zh) 舆情垂直搜索分析系统及方法
US9501530B1 (en) Systems and methods for selecting content
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
US11789946B2 (en) Answer facts from structured content
CN104281565A (zh) 语义词典构建方法和装置
CN107220250A (zh) 一种模板配置方法及系统
CN104915438B (zh) 一种获取特定话题微博中pcu关联数据的方法
CN102004805B (zh) 基于最大相似性匹配的网页去噪系统及其去噪方法
Zhu et al. Get into the spirit of a location by mining user-generated travelogues

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180330

Termination date: 20201224

CF01 Termination of patent right due to non-payment of annual fee