CN105630941A - 基于统计和网页结构的Web正文内容抽取方法 - Google Patents

基于统计和网页结构的Web正文内容抽取方法 Download PDF

Info

Publication number
CN105630941A
CN105630941A CN201510977385.1A CN201510977385A CN105630941A CN 105630941 A CN105630941 A CN 105630941A CN 201510977385 A CN201510977385 A CN 201510977385A CN 105630941 A CN105630941 A CN 105630941A
Authority
CN
China
Prior art keywords
text
tag path
text node
node
complete tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510977385.1A
Other languages
English (en)
Other versions
CN105630941B (zh
Inventor
孙健
汤露阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tianfu cloud number information technology Co., Ltd
Original Assignee
Chengdu Dianke Xintong Jiexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Dianke Xintong Jiexin Technology Co Ltd filed Critical Chengdu Dianke Xintong Jiexin Technology Co Ltd
Priority to CN201510977385.1A priority Critical patent/CN105630941B/zh
Publication of CN105630941A publication Critical patent/CN105630941A/zh
Application granted granted Critical
Publication of CN105630941B publication Critical patent/CN105630941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于统计和网页结构的Web正文内容抽取方法,根据目标网页的HTML源码文档解析得到DOM树,获取各个文本节点的完整标签路径,计算每条完整标签路径对应的文本统计信息标签路径比,将文本统计信息标签路径比的标准差作为系统阈值,然后依次判定每个文本节点的文本统计信息标签路径比是否大于系统阈值,对其进行内容抽取,否则判定以该文本节点为中心的窗口中文本统计信息标签路径比最大值是否大于系统阈值,如果是再判定该最大值对应的完全标签路径与文本节点完整标签路径的编辑距离是否小于阈值,如果是则对其进行内容抽取,其他情况都过滤其内容。本发明结合网页结构和网页文本统计信息来实现对Web网页正文内容的抽取。

Description

基于统计和网页结构的Web正文内容抽取方法
技术领域
本发明属于Web正文抽取技术领域,更为具体地讲,涉及一种基于统计和网页结构的Web正文内容抽取方法。
背景技术
随着互联网高速发展,Web上的网页数目以指数级速度增长,并且网页信息不仅仅包括与主题相关的正文文本,还包括比如广告、导航信息等大约占据网页文本内容30%-50%的噪声信息。面对内容丰富但混杂的Web网页,如何从中抽取出研究人员感兴趣的正文内容,为后续工作比如基于网页内容的二次开发、数据挖掘等提供了基础的支持,因此Web正文内容抽取的研究具有重要的意义。
伴随着Web的发展,研究者们对网页正文内容抽取技术的研究也在不断地深入,但是仍然存在各种各样的不足。早期,有人提出利用正则表达式对网页正文进行抽取,这是种在HTML源码基础上做字符级别的检索,利用正则表达式匹配规则,抽取网页中感兴趣的内容,这种方法优点是无需考虑网页结构特征,所以简单、速度快。但缺点也很明显,如正则表达式不够直观,严重依赖网页编写格式,维护困难。后来,研究者认识到HTML半结构化的结构可以提供一种新的抽取策略—基于包装器的网页内容抽取。根据W3C的标准,任何HTML源码都可以解析成为一颗DOM树,包装器就是根据特定网站的网页DOM树的标签节点特征,设计抽取规则。目前最流行的网页抽取组件Jsoup(Java)和BeautifulSoup(Python)包装器抽取方法的实现。这种方法的缺点是它往往只能处理一种数据源,适用性差,并且抽取规则工作量大,不易维护。随着机器学习技术的兴起,人们认识到可以基于数据挖掘的思想去实现一个普遍适用的自动化的网页正文的抽取策略。这种基于机器学习的网页抽取算法有很多分类,其中基于启发式规则和无监督学习的网页抽取算法是最好实现并且效果最好的。如早期有一种MSS算法(MaximumSubsequenceSegmentation),算法思想是将网页解析为一个token序列(包括标签和文本字符),然后以token序列为基础,为每个token打分(标签负分,文本字符正分)后找到这个token序列中分数最大的子序列,判定为正文序列。这种方法没有利用网页的结构,导致其文本性能并不好。后来的研究者充分利用了网页的结构,做了各种各样的改进,如有人提出的基于DOM的文本密度正文抽取方法、基于标签路径比例的正文内容抽取方法,比起早期方法有了很大的进步,但是经常会有正文内容抽取精度不足,正文内容抽取不全的缺点。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于统计和网页结构的Web正文内容抽取方法,从网页结构出发,结合网页文本统计信息来实现对Web网页正文内容的抽取。
为实现上述发明目的,本发明基于统计和网页结构的Web正文内容抽取方法包括以下步骤:
S1:获取目标网页的HTML源码文档;
S2:以深度优先遍历方式将HTML源码文档解析为DOM树,将文本节点以相同符号标识,获取各个文本节点的完整标签路径;
S3:根据DOM树统计得到每条完整标签路径对应的文本节点,每个文本节点的字符数,每个文本节点的标点符号数,计算算得到每条完整标签路径对应的文本统计信息标签路径比TSRPR(ftpi),其计算公式为:
T S R P R ( ftp i ) = Σ j = 1 Q i A j i × Σ j = 1 Q i B j i Q i 2
其中,ftpi表示第i条完整标签路径,i=1,2,…,N,N表示完整标签路径的条数,Qi表示第i条完整标签路径所对应的文本节点数量,表示第i条完整标签路径所对应的文本节点中文本节点j的字符数,表示第i条完整标签路径所对应的文本节点中文本节点j的标点符号数;
S4:计算N个文本统计信息标签路径比TSRPR(ftpi)的标准差,将其作为系统阈值Th;
S5:令文本节点序号k=1;
S6:如果文本节点k对应的文本统计信息标签路径比TSRPR(k)>Th,进入步骤S9,否则进入步骤S7;
S7:在以文本节点k为中心、长度为2r+1的窗口中,搜索得到文本统计标签路径比最大的文本节点k′,如果TSRPR(k′)>Th,进入步骤S8,否则进入步骤S10;
S8:计算文本节点k与文本节点k′所对应完整标签路径的编辑距离TPED(k,k′),如果TPED(k,k′)<W,W表示预设阈值,进入步骤S9,否则进入步骤S10;
S9:判定文本节点k是正文内容文本节点,抽取其文本内容;
S10:判定文本节点k不是正文内容文本节点,过滤其文本内容;
S11:如果k=K,K表示文本节点总数,内容抽取结束,否则令k=k+1,返回步骤S6。
本发明基于统计和网页结构的Web正文内容抽取方法,根据目标网页的HTML源码文档解析得到DOM树,将文本节点以相同符号标识,获取各个文本节点的完整标签路径,计算每条完整标签路径对应的文本统计信息标签路径比,计算所有文本统计信息标签路径比的标准差作为系统阈值,然后依次判定每个文本节点,如果其文本统计信息标签路径比大于系统阈值,则对其进行内容抽取,否则判定以该文本节点为中心的窗口中文本统计信息标签路径比最大值是否大于系统阈值,如果是,再判定该最大值对应的完全标签路径与文本节点完整标签路径的编辑距离是否小于阈值,如果是则对其进行内容抽取,其他情况都过滤其内容。
本发明具有以下有益效果:
(1)本发明从网页结构出发,结合网页文本统计信息,实现Web网页正文内容的抽取;
(2)本发明在抽取内容时,根据提出的完整标签路径的编辑距离,利用滑动窗口机制进行内容抽取,可以提高对Web网页正文区域中短文本的抽取能力。
附图说明
图1是本发明基于统计和网页结构的Web正文内容抽取方法的具体实施方式流程图;
图2是本实施例中解析得到的DOM树。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
Web上网页大致分为两类,一类是导航型网页,一类是主题内容正文型网页。对于主题内容正文型网页的网页噪声信息和内容主题特征进行分析,可以得到以下两个结论:
第一,网页内容布局与其解析树的标签路径之间存在隐含的关联性,即同一块的信息片段对应着类似的解析DOM树标签路径结构。这种网页设计结构,为从标签路径区分web正文内容和噪声信息提供了支持依据。
第二,对主题内容正文型网页,网页内容统计信息中,主要是文本字符长度和文本块标点符号个数,主题正文部分占据了网页内容统计信息的很大部分。从各大商业门户网站、政府网站、教育科研机构网站中随机选取10个主题内容正文性网页,统计网页中标点符号(句号、逗号)在正文内容出现次数N1和整个页面中的出现次数N2,发现N1/N2平均比率达到95%,这说明了网页中文本标点可以作为一个重要的网页正文抽取参数。统计网页中文本正文信息长度C1和网页中所有文本字符长度,C1/C2的平均比率也占到了60%的比率。
所以,基于上述的两个网页结构特征结论,为本发明基于统计和网页结构的Web正文内容抽取方法提供了重要依据。
图1是本发明基于统计和网页结构的Web正文内容抽取方法的具体实施方式流程图。如图1所示,本发明基于统计和网页结构的Web正文内容抽取方法包括以下步骤:
S101:获取网页HTML源码文档:
首先需要获取目标网页的HTML源码文档。如果给定资源为HTML源码文档,可以直接使用,如果给定资源为网页URL,则需要利用网页爬取工具下载对应的HTML源码文档。然后对HTML文档进行规范化处理。规范化处理主要包括移除脚本、注释、样式标签,因此这些信息在页面上是不可见信息,不会通过浏览器呈现给读者,为避免对后续的正文抽取工作产生干扰,需要先移除。
S102:DOM树解析:
利用网页解析工具以深度优先遍历方式将HTML源码文档解析为DOM(DocumentObjectModel,文档对象模型)树,将文本节点以相同符号标识,获取各个文本节点的完整标签路径。采用深度优先遍历的方式是为了保证文本节点的顺序性。
在DOM树中,以标签节点之间的嵌套形式构成树的父子兄弟关系。下面是一个简单的HTML源码文档。
本实施例中采用JAVA开源工具JSoup以深度优先遍历方式进行解析。图2是本实施例中解析得到的DOM树。如图2所示,将叶子节点为文本节点的节点统一用#Text标识,该DOM树中有三个文本节点。从根节点#document到三个叶子节点的完整标签路径分别是:
TagPath1:#document->#html->#head->#title->#Text
TagPath2:#document->#html->#body->#h1->#Text
TagPath3:#document->#html->#body->#a->#Text
S103:计算文本统计信息标签路径比:
网页内容统计信息中主要是文本字符长度和文本块标点符号个数,主题正文部分占据了网页内容统计信息的很大部分。从各大商业门户网站、政府网站、教育科研机构网站中随机选取10个主题内容正文性网页,统计网页中标点符号(句号、逗号)在正文内容出现次数N1和整个页面中的出现次数N2,发现N1/N2平均比率达到95%,这说明了网页中文本标点可以作为一个重要的网页正文抽取参数。统计网页中文本正文信息长度C1和网页中所有文本字符长度,C1/C2的平均比率也占到了60%的比率。因此,通过文本节点的字符数和标点符号数是判断正文内容的一个重要特征。
一旦一个HTML文档被解析成一棵DOM树,这棵树上所有的文本节点的完整标签路径均可被计算出来,并且每个文本节点中的文本特征(文本个数、标点符号个数)均可被计算出来。在实际情况中,不同内容的文本节点对应的完整标签路径可能是完全一致的,因为往往它们在Web内容显示中对应着一个相同的视觉块,即同一条完整标签路径可能对应多个文本节点。因此根据DOM树统计得到每条完整标签路径对应的文本节点,每个文本节点的字符数,每个文本节点的标点符号数。
本实施例中,在统计标点符号时,只统计句号和逗号(包括中英文格式)。根据这三种统计信息就可以计算得到每条完整标签路径对应的文本统计信息标签路径比TSRPR(ftpi),其计算公式为:
T S R P R ( ftp i ) = Σ j = 1 Q i A j i × Σ j = 1 Q i B j i Q i 2
其中,ftpi表示第i条完整标签路径,i=1,2,…,N,N表示完整标签路径的条数,Qi表示第i条完整标签路径所对应的文本节点数量,表示第i条完整标签路径所对应的文本节点中文本节点j的字符数,表示第i条完整标签路径所对应的文本节点中文本节点j的标点符号数。
根据TSRPR(ftpi)的计算公式可知,具有同样完整标签路径的文本节点的TSTPR值是一致的。TSTPR充分考虑了网页正文内容与噪声内容的特征,以内容块字符长度和内容标点符号为考虑对象参数。具有高值的文本统计信息标签路径比通常聚合了长文本,多标点符号内容块。具有低值的标签路径通常聚合了短文本,少标点符号内容块。这个聚合值可以用来判断网页的内容片段是有意义或没意义,很明显,网页正文内容应该具有相对较高的文本统计信息标签路径比。
S104:计算系统阈值:
计算步骤S103得到的N个文本统计信息标签路径比TSRPR(ftpi)的标准差,将其作为系统阈值Th。系统阈值Th是用来判定文本节点是否为正文内容节点的一个重要条件。
之所以选择TSRPR(ftpi)的标准差的作为系统阈值,而不是选用均值或中值,是考虑到在网页中噪声节点文本对应TSTPR值分布广但值很小,使用TSTPR均值和中值作为系统阈值都达不到很好的文本节点判定效果。
S105:令文本节点序号k=1。文本节点的顺序即步骤S102中采用深度优先遍历时所得到的文本节点顺序。
S106:判断是否文本节点k对应的文本统计信息标签路径比TSRPR(k)>Th,如果是,进入步骤S111,否则进入步骤S107。
S107:窗口搜索:
在以文本节点k为中心、长度为2r+1的窗口中,搜索得到文本统计标签路径比最大的文本节点k′。其中,r≥1,其具体值根据实际需要来设置,为了保证内容抽取的准确,一般来说r的值不会太大,通常r的取值范围为1≤r≤5。
S108:判断是否TSRPR(k′)>Th,如果是,进入步骤S109,否则进入步骤S112。
S109:计算路径编辑距离:
计算文本节点k与文本节点k′所对应完整标签路径的编辑距离TPED(k,k′)。
编辑距离(EditDistance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。例如将字符串S1=”kitten”转成S2=”sitting”:
sitten(k→s)
sittin(e→i)
sitting(→g)
可见,经过三次转换,S1转化为字符串S2,则这两个字符串的编辑距离ED(S1,S2)=3。
由此可以定义完整标签路径的编辑距离(TagPathEditDistance):以标签为单位,实现一条完整标签路径转换成为另一条完整标签路径的最少编辑次数,许可的编辑操作包括标签的替换、插入和删除三种操作。以本实施例中三个文本节点的完整标签路径为例,可以得到两两文本节点的完整标签路径编辑距离如下:
TPED(TagPath1,TagPath2)=2(两次替换操作)
TPED(TagPath1,TagPath3)=1(两次替换操作)
TPED(TagPath2,TagPath3)=2(两次替换操作)
S110:判断是否TPED(k,k′)<W,W表示预设阈值,本实施例中设置为2,如果是,进入步骤S111,否则进入步骤S112。
S111:抽取文本内容:
判定文本节点k是正文内容文本节点,抽取其文本内容。
S112:过滤文本内容:
判定文本节点k不是正文内容文本节点,过滤其文本内容。
S113:判断是否k=K,K表示文本节点总数,如果是,内容抽取结束,否则进入步骤S114。
S114:令k=k+1,返回步骤S106。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于统计和网页结构的Web正文内容抽取方法,其特征在于,包括以下步骤:
S1:获取目标网页的HTML源码文档;
S2:以深度优先遍历方式将HTML源码文档解析为DOM树,将文本节点以相同符号标识,获取各个文本节点的完整标签路径;
S3:根据DOM树统计得到每条完整标签路径对应的文本节点,每个文本节点的字符数,每个文本节点的标点符号数,计算算得到每条完整标签路径对应的文本统计信息标签路径比TSRPR(ftpi),其计算公式为:
T S R P R ( ftp i ) = Σ j = 1 Q i A j i × Σ j = 1 Q i B j i Q i 2
其中,ftpi表示第i条完整标签路径,i=1,2,…,N,N表示完整标签路径的条数,Qi表示第i条完整标签路径所对应的文本节点数量,表示第i条完整标签路径所对应的文本节点中文本节点j的字符数,表示第i条完整标签路径所对应的文本节点中文本节点j的标点符号数;
S4:计算N个文本统计路径比TSRPR(ftpi)的标准差,将其作为系统阈值Th;
S5:令文本节点序号k=1;
S6:如果文本节点k对应的文本统计信息标签路径比TSRPR(k)>Th,进入步骤S9,否则进入步骤S7;
S7:在以文本节点k为中心、长度为2r+1的窗口中,搜索得到文本统计标签路径比最大的文本节点k′,如果TSRPR(k′)>Th,进入步骤S8,否则进入步骤S10;
S8:计算文本节点k与文本节点k′所对应完整标签路径的编辑距离TPED(k,k′),如果TPED(k,k′)<W,W表示预设阈值,进入步骤S9,否则进入步骤S10;
S9:判定文本节点k是正文内容文本节点,抽取其文本内容;
S10:判定文本节点k不是正文内容文本节点,过滤其文本内容;
S11:如果k=K,K表示文本节点总数,内容抽取结束,否则令k=k+1,返回步骤S6。
2.根据权利要求1所述的Web正文内容抽取方法,其特征在于,所述步骤S7中r的取值范围为1≤r≤5。
CN201510977385.1A 2015-12-23 2015-12-23 基于统计和网页结构的Web正文内容抽取方法 Active CN105630941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510977385.1A CN105630941B (zh) 2015-12-23 2015-12-23 基于统计和网页结构的Web正文内容抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510977385.1A CN105630941B (zh) 2015-12-23 2015-12-23 基于统计和网页结构的Web正文内容抽取方法

Publications (2)

Publication Number Publication Date
CN105630941A true CN105630941A (zh) 2016-06-01
CN105630941B CN105630941B (zh) 2018-11-06

Family

ID=56045874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510977385.1A Active CN105630941B (zh) 2015-12-23 2015-12-23 基于统计和网页结构的Web正文内容抽取方法

Country Status (1)

Country Link
CN (1) CN105630941B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294722A (zh) * 2016-08-09 2017-01-04 上海资誉网络科技有限公司 一种网页内容自动提取方法及装置
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN109165333A (zh) * 2018-07-12 2019-01-08 电子科技大学 一种基于网页数据的高速主题爬虫方法
CN109271598A (zh) * 2018-08-01 2019-01-25 数据地平线(广州)科技有限公司 一种抽取新闻网页内容的方法、装置及存储介质
CN109948015A (zh) * 2017-09-26 2019-06-28 中国科学院信息工程研究所 一种元搜索列表结果抽取方法及系统
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置
CN110245349A (zh) * 2019-05-21 2019-09-17 武汉数博科技有限责任公司 一种句法依存分析方法、装置及一种电子设备
CN110390037A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN111177301A (zh) * 2019-11-26 2020-05-19 云南电网有限责任公司昆明供电局 一种关键信息识别提取方法及系统
CN111241446A (zh) * 2020-01-13 2020-06-05 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111339457A (zh) * 2018-12-18 2020-06-26 富士通株式会社 用于从网页抽取信息的方法和设备及存储介质
CN112328928A (zh) * 2020-11-27 2021-02-05 山东省计算中心(国家超级计算济南中心) 一种基于结构序列的文本脉络抽取方法及系统
US10922366B2 (en) 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction
CN112667940A (zh) * 2020-10-15 2021-04-16 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112765940A (zh) * 2021-01-20 2021-05-07 南京万得资讯科技有限公司 一种基于主题特征和内容语义的新型网页去重方法
CN113378088A (zh) * 2021-06-24 2021-09-10 中国电子信息产业集团有限公司第六研究所 一种网页正文抽取方法、装置、设备及存储介质
CN116881595A (zh) * 2023-09-06 2023-10-13 江西顶易科技发展有限公司 一种可自定义的网页数据爬取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120059859A1 (en) * 2009-11-25 2012-03-08 Li-Mei Jiao Data Extraction Method, Computer Program Product and System
CN102760150A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 基于属性重现和标签路径的网页抽取方法
CN103246732A (zh) * 2013-05-10 2013-08-14 合肥工业大学 一种在线Web新闻内容的抽取方法及系统
CN104462532A (zh) * 2014-12-23 2015-03-25 北京奇虎科技有限公司 网页正文提取的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120059859A1 (en) * 2009-11-25 2012-03-08 Li-Mei Jiao Data Extraction Method, Computer Program Product and System
CN102760150A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 基于属性重现和标签路径的网页抽取方法
CN103246732A (zh) * 2013-05-10 2013-08-14 合肥工业大学 一种在线Web新闻内容的抽取方法及系统
CN104462532A (zh) * 2014-12-23 2015-03-25 北京奇虎科技有限公司 网页正文提取的方法和装置

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294722A (zh) * 2016-08-09 2017-01-04 上海资誉网络科技有限公司 一种网页内容自动提取方法及装置
CN106294722B (zh) * 2016-08-09 2019-11-22 上海资誉网络科技有限公司 一种网页内容自动提取方法及装置
CN109948015A (zh) * 2017-09-26 2019-06-28 中国科学院信息工程研究所 一种元搜索列表结果抽取方法及系统
CN109948015B (zh) * 2017-09-26 2023-10-03 中国科学院信息工程研究所 一种元搜索列表结果抽取方法及系统
CN110020302A (zh) * 2017-11-16 2019-07-16 富士通株式会社 提取网页内容的方法和网页内容提取装置
US10922366B2 (en) 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN108920434B (zh) * 2018-06-06 2022-08-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN109165333A (zh) * 2018-07-12 2019-01-08 电子科技大学 一种基于网页数据的高速主题爬虫方法
CN109271598A (zh) * 2018-08-01 2019-01-25 数据地平线(广州)科技有限公司 一种抽取新闻网页内容的方法、装置及存储介质
CN111339457B (zh) * 2018-12-18 2023-09-08 富士通株式会社 用于从网页抽取信息的方法和设备及存储介质
CN111339457A (zh) * 2018-12-18 2020-06-26 富士通株式会社 用于从网页抽取信息的方法和设备及存储介质
CN110245349B (zh) * 2019-05-21 2023-02-07 武汉数博科技有限责任公司 一种句法依存分析方法、装置及一种电子设备
CN110245349A (zh) * 2019-05-21 2019-09-17 武汉数博科技有限责任公司 一种句法依存分析方法、装置及一种电子设备
CN110390037B (zh) * 2019-07-25 2021-12-03 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN110390037A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的信息分类方法、装置、设备及存储介质
CN111177301B (zh) * 2019-11-26 2023-05-26 云南电网有限责任公司昆明供电局 一种关键信息识别提取方法及系统
CN111177301A (zh) * 2019-11-26 2020-05-19 云南电网有限责任公司昆明供电局 一种关键信息识别提取方法及系统
CN111241446A (zh) * 2020-01-13 2020-06-05 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN111241446B (zh) * 2020-01-13 2023-10-31 杭州安恒信息技术股份有限公司 一种web网页的正文内容提取方法、装置、设备及介质
CN112667940B (zh) * 2020-10-15 2022-02-18 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112667940A (zh) * 2020-10-15 2021-04-16 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112328928A (zh) * 2020-11-27 2021-02-05 山东省计算中心(国家超级计算济南中心) 一种基于结构序列的文本脉络抽取方法及系统
CN112765940A (zh) * 2021-01-20 2021-05-07 南京万得资讯科技有限公司 一种基于主题特征和内容语义的新型网页去重方法
CN112765940B (zh) * 2021-01-20 2024-04-19 南京万得资讯科技有限公司 一种基于主题特征和内容语义的网页去重方法
CN113378088A (zh) * 2021-06-24 2021-09-10 中国电子信息产业集团有限公司第六研究所 一种网页正文抽取方法、装置、设备及存储介质
CN113378088B (zh) * 2021-06-24 2024-01-19 中国电子信息产业集团有限公司第六研究所 一种网页正文抽取方法、装置、设备及存储介质
CN116881595A (zh) * 2023-09-06 2023-10-13 江西顶易科技发展有限公司 一种可自定义的网页数据爬取方法
CN116881595B (zh) * 2023-09-06 2023-12-15 江西顶易科技发展有限公司 一种可自定义的网页数据爬取方法

Also Published As

Publication number Publication date
CN105630941B (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN105630941B (zh) 基于统计和网页结构的Web正文内容抽取方法
CN102541874B (zh) 网页正文内容提取方法及装置
CN103853760B (zh) 一种网页正文内容提取方法和装置
CN102663023B (zh) 一种提取网页内容的实现方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN105718586A (zh) 分词的方法及装置
CN110765235B (zh) 训练数据的生成方法、装置、终端及可读介质
US10528664B2 (en) Preserving and processing ambiguity in natural language
CN101937438A (zh) 网页内容提取方法和装置
CN103714176A (zh) 基于最大文本密度的网页正文抽取方法
CN103927397A (zh) 一种基于区块树的Web页面链接块的识别方法
CN109165295B (zh) 一种智能简历评估方法
CN103810251A (zh) 一种文本提取方法及装置
CN101114281A (zh) 开放式文档同构引擎系统
CN114238575A (zh) 文档解析方法、系统、计算机设备及计算机可读存储介质
CN109657114B (zh) 一种抽取网页半结构化数据的方法
CN102117289A (zh) 一种从网页中抽取评论内容的方法和装置
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN106528509B (zh) 网页信息提取方法及装置
CN106227770A (zh) 一种智能化的新闻网页信息抽取方法
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN108694192B (zh) 网页类型的判断方法及装置
CN110795933B (zh) 一种网页正文的识别处理方法及装置
Kim et al. Main content extraction from web documents using text block context
CN105550279A (zh) 基于视觉的列表页识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 610000 Chengdu Research Institute, University of Electronic Science and technology, Southwest Airlines Development Zone, Shuangliu, Chengdu, Sichuan

Applicant after: Chengdu cloud Future Information Science Co., Ltd.

Address before: 610041 Shuangliu County Chengdu Southwest Airlines Economic Development Zone, Sichuan, China

Applicant before: CHENGDU DIANKE XINTONG JIEXIN TECHNOLOGY CO., LTD.

CB02 Change of applicant information
CB03 Change of inventor or designer information

Inventor after: Sun Jian

Inventor after: Lu Chuan

Inventor after: Tang Luyang

Inventor before: Sun Jian

Inventor before: Tang Luyang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200617

Address after: 610000 Sichuan city of Chengdu province Tianfu Zheng Xing Shun Shing Street No. 172

Patentee after: Chengdu Tianfu cloud number information technology Co., Ltd

Address before: 610000 Chengdu Research Institute, University of Electronic Science and technology, Southwest Airlines Development Zone, Shuangliu, Chengdu, Sichuan

Patentee before: CHENGDU YUNSHU FUTURE INFORMATION SCIENCE Co.,Ltd.

TR01 Transfer of patent right