CN106528509A - 网页信息提取方法及装置 - Google Patents

网页信息提取方法及装置 Download PDF

Info

Publication number
CN106528509A
CN106528509A CN201610995251.7A CN201610995251A CN106528509A CN 106528509 A CN106528509 A CN 106528509A CN 201610995251 A CN201610995251 A CN 201610995251A CN 106528509 A CN106528509 A CN 106528509A
Authority
CN
China
Prior art keywords
punctuation mark
leaf node
node
webpage
punctuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610995251.7A
Other languages
English (en)
Other versions
CN106528509B (zh
Inventor
于龙
晋好林
陈美丽
朱涛
赵西法
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JINAN ZHENGHE TECHNOLOGY Co Ltd
Original Assignee
JINAN ZHENGHE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JINAN ZHENGHE TECHNOLOGY Co Ltd filed Critical JINAN ZHENGHE TECHNOLOGY Co Ltd
Priority to CN201610995251.7A priority Critical patent/CN106528509B/zh
Publication of CN106528509A publication Critical patent/CN106528509A/zh
Application granted granted Critical
Publication of CN106528509B publication Critical patent/CN106528509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页信息提取方法及装置,所述方法包括:提取待提取网页的所有区域块;确定所述待提取网页的所有区域块中的非边界区域块;将标点密度超过第一预设阈值的非边界区域块确定为正文内容。本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块,将标点密度超过第一预设阈值的非边界区域块确定为正文内容,通过基于标点数量来确定网页的正文内容,提高了提取网页的通用性和执行效率。

Description

网页信息提取方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种网页信息提取方法及装置。
背景技术
互联网是一个巨大的信息发布和传播源,目前网页数量已超过800亿,每小时还以惊人的速度在增长,这些网页中可能包含用户需要的大量信息,但还包括很多与主题无关的内容,比如,导航条、广告、推销信息、版权信息、欢迎信息等。如何从这些大量的信息中提取出最有用的信息,成为近年来人们的研究热点。
现有技术提供了一种基于标点连续性的通用网页正文提取方法,该方法包括读入文件,转化为Unicode的处理步骤、去除噪声标记信息的处理步骤、生成html标记树的处理步骤、处理正文格式信息的处理步骤、提取文本节点生成文本句子序列的处理步骤和利用常用的标点对文本序列块重新分句的处理步骤和利用标点的连续性原理提取最长连续正文的处理步骤。
现有技术的网页正文提取方法无法识别网页中的链接,如果网页中存在链接,并且链接中有多个标点时,对正文内容的提取存在较大干扰。
发明内容
有鉴于此,本发明实施例的目的是提供一种通用的、执行效率较高、成较率也较高的网页信息提取方法及装置。
为了实现上述目的,本发明实施例提供了一种网页信息提取方法,包括:
提取待提取网页的所有区域块;
确定所述待提取网页的所有区域块中的非边界区域块;
将标点密度超过第一预设阈值的非边界区域块确定为正文内容。
作为优选,确定所述待提取网页的所有区域块中的非边界区域块,包括:
对所述待提取网页的html源码构建文档对象模型DOM树;
查找所述DOM树的叶子节点和所述叶子节点对应的父节点;
提取所述叶子节点和其对应的所述父节点的标点符号;
根据所述叶子节点与其对应的所述父节点的标点符号数量关系,确定所述叶子节点所属的区域块是否为非边界区域块。
作为优选,提取所述叶子节点和其对应的所述父节点的标点符号,包括:
遍历所述DOM树的所有叶子节点,提取所述叶子节点包含的所有标点符号;
将所述叶子节点包含的所有的标点符号正则匹配预设常用标点符号;
存储所述叶子节点中与所述预设常用标点符号相匹配的标点符号;
提取所述叶子节点对应的父节点包含的所有标点符号;
将所述父节点包含的所有的标点符号正则匹配所述预设常用标点符号;
存储所述父节点中与所述预设常用标点符号相匹配的标点符号。
作为优选,提取所述叶子节点包含的所有标点符号,包括:
判断所述叶子节点中是否包含链接,若是,则提取所述叶子节点中除所述链接以外的所有标点符号,否则提取所述叶子节点包含的所有标点符号。
作为优选,提取所述叶子节点对应的父节点包含的所有标点符号,包括;
判断所述父节点中是否包含链接,若是,则提取所述叶子节点中除所述链接以外的所有标点符号,否则提取所述叶子节点包含的所有标点符号。
作为优选,根据所述叶子节点与其对应的所述父节点的标点符号数量关系,确定所述叶子节点所属的区域块是否为非边界区域块,包括:
验证所述父节点中与所述预设常用标点符号相正则匹配的标点符号的数量是否大于所述叶子节点中与所述预设常用标点符号相正则匹配的标点符号的数量达第二预设阈值;
若是,则将所述父节点作为叶子节点,重复以上步骤;
否则,则确定所述子节点所属的区域块为边界区域块;
确定所述所有区域块中除所述边界区域块以外的区域块为非边界区域块。
作为优选,将标点密度超过第一预设阈值的区域块确定为正文内容,包括:
获取包含标点符号数量超过所述第一预设阈值的非边界区域块;
获取所述包含标点符号数量超过所述第一预设阈值的非边界区域块的内容,作为所述待提取网页的正文内容。
本发明实施例还提供一种网页信息提取装置,包括:
提取模块,配置为提取待提取网页的所有区域块;
第一处理模块,配置为确定所述待提取网页的所有区域块中的非边界区域块;
第二处理模块,将标点密度超过第一预设阈值的非边界区域块确定为正文内容。
作为优选,所述第一处理模块包括:
构建子模块,配置为对所述待提取网页的html源码构建文档对象模型DOM树;
查找子模块,配置为查找所述DOM树的叶子节点和所述叶子节点对应的父节点;
提取子模块,配置为提取所述叶子节点和其对应的所述父节点的标点符号;
处理子模块,配置为根据所述叶子节点与其对应的所述父节点的标点符号数量关系,确定所述叶子节点所属的区域块是否为非边界区域块。
作为优选,所述提取子模块具体用于:
遍历所述DOM树的所有叶子节点,提取所述叶子节点包含的所有标点符号;以及
将所述叶子节点包含的所有的标点符号正则匹配预设常用标点符号;以及
存储所述叶子节点中与所述预设常用标点符号相匹配的标点符号;以及
提取所述叶子节点对应的父节点包含的所有标点符号;以及
将所述父节点包含的所有的标点符号正则匹配所述预设常用标点符号;以及
存储所述父节点中与所述预设常用标点符号相匹配的标点符号。
与现有技术相比,本发明实施例具有以下有益效果:本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块,将标点密度超过第一预设阈值的非边界区域块确定为正文内容,通过基于标点数量来确定网页的正文内容,提高了提取网页的通用性和执行效率。
附图说明
图1为本发明的网页信息提取方法的实施例一的流程图;
图2为本发明的网页信息提取方法的实施例二的流程图;
图3为本发明的网页信息提取装置的实施例一的示意图;
图4为本发明的网页信息提取装置的实施例二的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明的网页信息提取方法的实施例一的流程图,如图1所示,本实施例的网页信息提取方法,具体可以包括如下步骤:
S101,提取待提取网页的所有区域块。
具体地,为了提高对网页信息提取的效率,可以首先根据网页的特性将待提取网页分成若干个区域块。例如,可以根据网页的table将网页分成若干个区域块,也可以根据网页的文字数量将网页分成若干个区域块。
S102,确定待提取网页的所有区域块中的非边界区域块。
具体地,待提取网页的区域块中存在边界区域块和非边界区域块。边界区域块通常用于定义网页的非重点信息,例如,网站的备案情况和为使网页美观而设置的符号等,这些都非网页正文内容,因此应当过滤掉边界区域块,保留非边界区域块。
S103,将标点密度超过第一预设阈值的非边界区域块确定为正文内容。
本实施例基于网页中的标点密度来确定待提取网页的正文内容,具体是根据标点密度是否超过第一预设阈值。具体地,将待提取网页分割成若干个区域块,去除区域块中的非边界区域块,保留边界区域块,再将边界区域块中的标点密度进行比较,保留标点密度最大或者相对较大的非边界区域块作为正文内容。
本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块,将标点密度超过第一预设阈值的非边界区域块确定为正文内容,通过基于标点数量来确定网页的正文内容,提高了提取网页的通用性和执行效率。
图2为本发明的网页信息提取方法的实施例二的流程图,本实施例的网页信息提取方法在上述实施例一的基础上,进一步更加详细地介绍本发明的技术方案。如图2所示,本实施例的网页信息提取方法,具体可以包括如下步骤:
S201,提取待提取网页的所有区域块。
具体地,为了提高对网页信息提取的效率,可以首先根据网页的特性将待提取网页分成若干个区域块。例如,可以根据网页的table将网页分成若干个区域块,也可以根据网页的文字数量将网页分成若干个区域块。
S202,对待提取网页的html源码构建文档对象模型(Document Object Model,DOM)树。
具体地,本实施例在具体实施时,可以首先对html源码进行预处理,先除去html源码看存在的一些对于网页正文提取无帮助的字符串,再生成文档对象模型DOM树。
DOM则是专门适用于HTML/XHTML的文档对象模型。DOM是一种与浏览器,平台,语言无关的接口,本领域技术人员有时会将HTML DOM理解为网页的API。它将网页中的各个元素都看作是对象,使网页中的元素也可以被计算机语言获取或者编辑。例如Javascript就可以利用DOM动态地修改网页。由于DOM是基于信息层次的,因而DOM被认为是基于树或基于对象的,DOM把HTML文档呈现为带有元素、属性和文本的树结构(节点树)。
S203,查找DOM树的叶子节点和叶子节点对应的父节点。
S204,提取叶子节点和其对应的父节点的标点符号。
具体地,步骤S204包括以下步骤:
(1),遍历DOM树的所有叶子节点,提取叶子节点包含的所有标点符号。
进一步地,步骤(1)还可以包括:
A,判断叶子节点中是否包含链接,若是,则提取叶子节点中除链接以外的所有标点符号,否则提取叶子节点包含的所有标点符号。
具体地,判断叶子节点是否包含链接的方法,例如可以根据HTML源码中定义的字符串类型来确定。
(2),将叶子节点包含的所有的标点符号正则匹配预设常用标点符号。
例如,预设常用标点符号可以包括“,”、“。”、“;”、“!”和“?”等。为方便比较,可以将预设常用标点符号设置为集合P,P={“,”,“。”,“;”,“!”,“?”}。
(3),存储叶子节点中与预设常用标点符号相匹配的标点符号。
例如,可以设置判定阈值V,例如V=3。则遍历DOM树的所有叶子节点,正则匹配计算叶子节点的文本标点符号属于集合P的数量Cn,如果Cn大于V,则认为符合文本条件,匹配成功。为防止重复访问该叶子节点,可以设置集合S,将匹配成功的叶子节点置入集合S。
(4),提取叶子节点对应的父节点包含的所有标点符号。
进一步地,步骤(4)还可以包括;
B,判断父节点中是否包含链接,若是,则提取叶子节点中除链接以外的所有标点符号,否则提取叶子节点包含的所有标点符号。
具体地,判断父节点中是否包含链接的方法同上,可以根据HTML源码所定义的字符串类型来判断。
(5)将父节点包含的所有的标点符号正则匹配预设常用标点符号。
(6)存储父节点中与预设常用标点符号相匹配的标点符号。
对于父节点正则匹配预设常用标点符号的方法,可以参考对子节点的方法。
S205,根据叶子节点与其对应的父节点的标点符号数量关系,确定叶子节点所属的区域块是否为非边界区域块。
进一步地,步骤S205可以包括:
(1),验证父节点中与预设常用标点符号相正则匹配的标点符号的数量是否大于叶子节点中与预设常用标点符号相正则匹配的标点符号的数量达第二预设阈值;若是,则执行步骤D;否则,执行步骤E;
(2),则将父节点作为叶子节点,重复以上步骤;
(3),否则,则确定子节点所属的区域块为边界区域块;
(4),确定所有区域块中除边界区域块以外的区域块为非边界区域块。
例如,可以设置计数参数n,n=0;符号增加阈值T,T=2。
计算父节点中属于集合P的标点符号的个数Fn。若Fn-Cn>T,则将父节点作为子节点,n=0不变,继续将该子节点与父节点的标点符号进行比较;若Fn-Cn<=T,则n=n+1,直至n=3,则认为到达区域块边界,该叶子节点所属的区域块为非边界区域块,可将非边界区域块作为元素置入集合L。
S206,获取包含标点符号数量超过第一预设阈值的非边界区域块。
S207,获取包含标点符号数量超过第一预设阈值的非边界区域块的内容,作为待提取网页的正文内容。
具体地,当遍历完所有的叶子节点,可以得到边界区域块集合L,再遍历集合L中的所有元素,即所有非边界区域块,查找出标点数量最多的节点,或者查找出标点数量大于第一预设阈值的非边界区域块,作为网页的正文内容,其中,第一预设阈值根据区域块的划分标准来确定。
本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块,将标点密度超过第一预设阈值的非边界区域块确定为正文内容,并且在提取网页时,排除链接中的标点符号,所提取网页的准确性较高。
图3为本发明的网页信息提取装置的实施例一的示意图,如图3所示,本实施例的网页信息提取装置,具体可以包括提取模块31、第一处理模块32和第二处理模块33。
提取模块31,配置为提取待提取网页的所有区域块;
第一处理模块32,配置为确定待提取网页的所有区域块中的非边界区域块;
第二处理模块33,将标点密度超过第一预设阈值的非边界区域块确定为正文内容。
本实施例的网页信息提取装置,通过采用上述模块提取网页正文的实现机制与上述图1所示实施例的网页信息提取方法的实现机制相同,详细可以参考上述图1所示实施例的记载,在此不再赘述。
图4为本发明的网页信息提取装置的实施例二的示意图,本实施例的网页信息提取装置在如图3所示的实施例的基础上,进一步更加详细地介绍本发明的技术方案。如图4所示,本实施例的网页信息提取装置,进一步可以包括:
第一处理模块包32括:
构建子模块321,配置为对待提取网页的html源码构建文档对象模型DOM树;
查找子模块322,配置为查找DOM树的叶子节点和叶子节点对应的父节点;
提取子模块323,配置为提取叶子节点和其对应的父节点的标点符号;
处理子模块324,配置为根据叶子节点与其对应的父节点的标点符号数量关系,确定叶子节点所属的区域块是否为非边界区域块。
进一步地,提取子模块32具体用于:
遍历DOM树的所有叶子节点,提取叶子节点包含的所有标点符号;以及
将叶子节点包含的所有的标点符号正则匹配预设常用标点符号;以及
存储叶子节点中与预设常用标点符号相匹配的标点符号;以及
提取叶子节点对应的父节点包含的所有标点符号;以及
将父节点包含的所有的标点符号正则匹配预设常用标点符号;以及
存储父节点中与预设常用标点符号相匹配的标点符号。
本实施例的网页信息提取装置,通过采用上述模块提取网页正文的实现机制与上述图2所示实施例的网页信息提取方法的实现机制相同,详细可以参考上述图2所示实施例的记载,在此不再赘述。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (10)

1.一种网页信息提取方法,其特征在于,包括:
提取待提取网页的所有区域块;
确定所述待提取网页的所有区域块中的非边界区域块;
将标点密度超过第一预设阈值的非边界区域块确定为正文内容。
2.根据权利要求1所述的方法,其特征在于,确定所述待提取网页的所有区域块中的非边界区域块,包括:
对所述待提取网页的html源码构建文档对象模型DOM树;
查找所述DOM树的叶子节点和所述叶子节点对应的父节点;
提取所述叶子节点和其对应的所述父节点的标点符号;
根据所述叶子节点与其对应的所述父节点的标点符号数量关系,确定所述叶子节点所属的区域块是否为非边界区域块。
3.根据权利要求2所述的方法,其特征在于,提取所述叶子节点和其对应的所述父节点的标点符号,包括:
遍历所述DOM树的所有叶子节点,提取所述叶子节点包含的所有标点符号;
将所述叶子节点包含的所有的标点符号正则匹配预设常用标点符号;
存储所述叶子节点中与所述预设常用标点符号相匹配的标点符号;
提取所述叶子节点对应的父节点包含的所有标点符号;
将所述父节点包含的所有的标点符号正则匹配所述预设常用标点符号;
存储所述父节点中与所述预设常用标点符号相匹配的标点符号。
4.根据权利要求3所述的方法,其特征在于,提取所述叶子节点包含的所有标点符号,包括:
判断所述叶子节点中是否包含链接,若是,则提取所述叶子节点中除所述链接以外的所有标点符号,否则提取所述叶子节点包含的所有标点符号。
5.根据权利要求3所述的方法,其特征在于,提取所述叶子节点对应的父节点包含的所有标点符号,包括;
判断所述父节点中是否包含链接,若是,则提取所述叶子节点中除所述链接以外的所有标点符号,否则提取所述叶子节点包含的所有标点符号。
6.根据权利要求3所述的方法,其特征在于,根据所述叶子节点与其对应的所述父节点的标点符号数量关系,确定所述叶子节点所属的区域块是否为非边界区域块,包括:
验证所述父节点中与所述预设常用标点符号相正则匹配的标点符号的数量是否大于所述叶子节点中与所述预设常用标点符号相正则匹配的标点符号的数量达第二预设阈值;
若是,则将所述父节点作为叶子节点,重复以上步骤;
否则,则确定所述子节点所属的区域块为边界区域块;
确定所述所有区域块中除所述边界区域块以外的区域块为非边界区域块。
7.根据权利要求6所述的方法,其特征在于,将标点密度超过第一预设阈值的区域块确定为正文内容,包括:
获取包含标点符号数量超过所述第一预设阈值的非边界区域块;
获取所述包含标点符号数量超过所述第一预设阈值的非边界区域块的内容,作为所述待提取网页的正文内容。
8.一种网页信息提取装置,其特征在于,包括:
提取模块,配置为提取待提取网页的所有区域块;
第一处理模块,配置为确定所述待提取网页的所有区域块中的非边界区域块;
第二处理模块,将标点密度超过第一预设阈值的非边界区域块确定为正文内容。
9.根据权利要求8所述的装置,其特征在于,所述第一处理模块包括:
构建子模块,配置为对所述待提取网页的html源码构建文档对象模型DOM树;
查找子模块,配置为查找所述DOM树的叶子节点和所述叶子节点对应的父节点;
提取子模块,配置为提取所述叶子节点和其对应的所述父节点的标点符号;
处理子模块,配置为根据所述叶子节点与其对应的所述父节点的标点符号数量关系,确定所述叶子节点所属的区域块是否为非边界区域块。
10.根据权利要求7所述的装置,其特征在于,所述提取子模块具体用于:
遍历所述DOM树的所有叶子节点,提取所述叶子节点包含的所有标点符号;以及
将所述叶子节点包含的所有的标点符号正则匹配预设常用标点符号;以及
存储所述叶子节点中与所述预设常用标点符号相匹配的标点符号;以及
提取所述叶子节点对应的父节点包含的所有标点符号;以及
将所述父节点包含的所有的标点符号正则匹配所述预设常用标点符号;以及
存储所述父节点中与所述预设常用标点符号相匹配的标点符号。
CN201610995251.7A 2016-11-11 2016-11-11 网页信息提取方法及装置 Active CN106528509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610995251.7A CN106528509B (zh) 2016-11-11 2016-11-11 网页信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610995251.7A CN106528509B (zh) 2016-11-11 2016-11-11 网页信息提取方法及装置

Publications (2)

Publication Number Publication Date
CN106528509A true CN106528509A (zh) 2017-03-22
CN106528509B CN106528509B (zh) 2020-04-03

Family

ID=58351328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610995251.7A Active CN106528509B (zh) 2016-11-11 2016-11-11 网页信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN106528509B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409088A (zh) * 2017-08-18 2019-03-01 刘俊 一种网页信息的提取方法及装置
CN111625749A (zh) * 2020-06-01 2020-09-04 深圳市小满科技有限公司 参会公司网站详情页信息提取方法、装置、设备及介质
CN111698364A (zh) * 2020-06-19 2020-09-22 深圳市小满科技有限公司 联系人信息提取方法及相关设备
CN115391711A (zh) * 2022-10-28 2022-11-25 中新宽维传媒科技有限公司 网页正文信息提取方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060161564A1 (en) * 2004-12-20 2006-07-20 Samuel Pierre Method and system for locating information in the invisible or deep world wide web
CN102591612A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于标点连续性的通用网页正文提取方法及其系统
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060161564A1 (en) * 2004-12-20 2006-07-20 Samuel Pierre Method and system for locating information in the invisible or deep world wide web
CN102591612A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于标点连续性的通用网页正文提取方法及其系统
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安增文,徐杰锋: "基于视觉特征的网页正文提取方法研究", 《网络与通信》 *
杨钦,杨沐昀: "一种基于标点密度的网页正文提取方法", 《智能计算机与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409088A (zh) * 2017-08-18 2019-03-01 刘俊 一种网页信息的提取方法及装置
CN111625749A (zh) * 2020-06-01 2020-09-04 深圳市小满科技有限公司 参会公司网站详情页信息提取方法、装置、设备及介质
CN111625749B (zh) * 2020-06-01 2023-08-11 深圳市小满科技有限公司 参会公司网站详情页信息提取方法、装置、设备及介质
CN111698364A (zh) * 2020-06-19 2020-09-22 深圳市小满科技有限公司 联系人信息提取方法及相关设备
CN111698364B (zh) * 2020-06-19 2021-09-21 深圳市小满科技有限公司 联系人信息提取方法、相关设备及计算机可读存储介质
CN115391711A (zh) * 2022-10-28 2022-11-25 中新宽维传媒科技有限公司 网页正文信息提取方法、装置、设备及介质

Also Published As

Publication number Publication date
CN106528509B (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN102184189B (zh) 基于dom节点文本密度的网页核心块确定方法
CN102663023B (zh) 一种提取网页内容的实现方法
CN105630941B (zh) 基于统计和网页结构的Web正文内容抽取方法
CN102254014B (zh) 一种网页特征自适应的信息抽取方法
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN104598577B (zh) 一种网页正文的提取方法
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
CN102253930B (zh) 一种文本翻译的方法及装置
JP2006004417A (ja) 情報ファイルの特定のタイプを認識する方法及び装置
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN109086361B (zh) 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
CN102541874A (zh) 网页正文内容提取方法及装置
CN106528509A (zh) 网页信息提取方法及装置
RU2003134278A (ru) Способ и считываемый компьютером носитель для импорта и экспорта иерархически структурированных данных
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN107871002B (zh) 一种基于指纹融合的跨语言剽窃检测方法
CN109165373B (zh) 一种数据处理方法及装置
CN103810251A (zh) 一种文本提取方法及装置
CN109657114B (zh) 一种抽取网页半结构化数据的方法
CN107894974A (zh) 基于标签路径和文本标点比特征融合的网页正文提取方法
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN108694192B (zh) 网页类型的判断方法及装置
CN104572787A (zh) 伪原创网站的识别方法及装置
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Web page information extraction method and device

Effective date of registration: 20220214

Granted publication date: 20200403

Pledgee: Ji'nan rural commercial bank Limited by Share Ltd. high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: Y2022980001521

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20221212

Granted publication date: 20200403

Pledgee: Ji'nan rural commercial bank Limited by Share Ltd. high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: Y2022980001521

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Web page information extraction method and device

Effective date of registration: 20230203

Granted publication date: 20200403

Pledgee: Ji'nan rural commercial bank Limited by Share Ltd. high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: Y2023980031993