CN106960057A - 一种基于信息密度提取网页正文的方法 - Google Patents

一种基于信息密度提取网页正文的方法 Download PDF

Info

Publication number
CN106960057A
CN106960057A CN201710216774.1A CN201710216774A CN106960057A CN 106960057 A CN106960057 A CN 106960057A CN 201710216774 A CN201710216774 A CN 201710216774A CN 106960057 A CN106960057 A CN 106960057A
Authority
CN
China
Prior art keywords
label
density
webpage
character
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710216774.1A
Other languages
English (en)
Inventor
张欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wei Gu Information Technology Co Ltd
Original Assignee
Shanghai Wei Gu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wei Gu Information Technology Co Ltd filed Critical Shanghai Wei Gu Information Technology Co Ltd
Priority to CN201710216774.1A priority Critical patent/CN106960057A/zh
Publication of CN106960057A publication Critical patent/CN106960057A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明主要是提供一种基于信息密度提取网页正文的方法,利用该方法能够过滤网页中与主题无关的信息,并将网页中真实主题的正文提取。该方法基于对网页html标签及内容的统计分析,统计出网页html标签的数量以及每一个html标签包含子标签的数量,网页中每一个html标签包含字符的数量,网页中每一个html标签包含标点符号的数量,网页中每一个html标签包含链接的数量,网页中每一个html标签包含图片的数量;进一步计算出网页标签密度,字符密度,标点密度,链接密度,图片密度五个计算分量,将五个计算分量的乘积作为每一个html标签的信息密度;筛选出网页中信息密度值最大的标签作为网页正文输出。该方法利用网页信息密度的分布规律区分网页中的有效信息和无关的信息,具有很强的通用性,无需预先设定网页的提取规则,不需要人为设置提取的阈值,对各类网页正文提取准确高效。

Description

一种基于信息密度提取网页正文的方法
技术领域
本发明涉及计算机网络技术领域,具体而言,本发明涉及一种基于信息密度提取网页正文的方法。
背景技术
随着网络技术的不断发展,互联网已成为信息的主要来源,但是,目前互联网中的重复内容、广告内容及无意义内容等无效信息越来越多,而有效信息在网页中所占比重越来越少,使得人们通过互联网如搜索引擎获取其所需的有效信息的效率大幅降低
网页正文提取是实现搜索引擎、舆情监控等系统的技术基础之一,通过网页正文提取,可以将网页中广告、推荐等等与主题无关的信息滤除,利用正文提取的功能,可以提高搜索引擎的搜索精确度,减小舆情监控系统的错报、误报率。
现有的正文提取装置主要采用模式匹配的方法,通过预设网页正文的提取规则,通过模式匹配在网页中寻找正文所在的位置。这种方式具有很大的局限性,首先是需要人工的介入,系统无法自动获取网页正文提取规则,需要事先由操作者对网页进行分析总结后将提取规则输入系统;其次是适应性差,当网页的排版发生改变后,系统即部分或完全失效,无法自适应的对新的网页结构进行提取。
发明内容
本发明主要解决的技术问题是提供一种基于信息密度提取网页正文的方法,利用该方法能够过滤网页中与主题无关的信息,并将网页中真实主题的正文提取。该方法基于对网页html标签及内容的统计分析提出了一种网页信息密度的计算方法,利用网页信息密度的分布规律区分网页中的有效信息和无关的信息。该方法有很强的通用性,无需预先设定网页的提取规则,不需要人为设置提取的阈值,对各类网页正文提取准确高效。
为解决上述技术问题,本发明采用的技术方案是:
1.通过网络或其他途径获取网页html文件;
将其中与网页展示内容不相关的标签删除,例如<script><code>等标签;
统计出网页html标签的数量以及每一个html标签包含子标签的数量,网页中每一个html标签包含字符的数量,网页中每一个html标签包含标点符号的数量,网页中每一个html标签包含链接的数量,网页中每一个html标签包含图片的数量;
计算网页中的每一个html标签的信息密度;
筛选出网页中信息密度值最大的标签作为正文输出,也即选择具有最大信息密度的标签,将其内容输出,该输出即为采用本方法提取出的网页正文。
2.所述的将其中与网页展示内容不相关的标签删除,其中,与网页展示内容不相关的标签,主要包括以下4种标签:
①.代表注释的标签,如<!-->;
②.与网页前端执行脚本相关的标签,如<script>,<var>,<link>,<code>;
③.与css格式相关的标签,如<style>;
④.对网页展示的内容和格式完全无影响的标签,如<!DOCTYPE>。
其中,至少需要删除4种标签中的一种,特别是1,2,3中的一种,全部删除4种与网页展示内容不相关的标签,得到的速度和效果最佳。
3.所述统计出网页html标签的数量以及每一个html标签包含子标签的数量,网页中每一个html标签包含字符的数量,网页中每一个html标签包含标点符号的数量,网页中每一个html标签包含链接的数量,网页中每一个html标签包含图片的数量。计算网页信息密度所需的统计项包括:
①网页html标签的数量以及每一个html标签包含子标签的数量;
②网页中每一个html标签包含字符的数量;
③网页中每一个html标签包含标点符号的数量;
④网页中每一个html标签包含链接的数量;
⑤网页中每一个html标签包含图片的数量。
具体为:
由于网页标题及正文必定存在于body标签中,查找到<body>标签,将其作为根标签输入递归调用模块;
递归统计根标签及其所有下级子标签的子标签数量、字符数量、标点符号数量、链接数量、图片数量。
具体递归统计过程,在具体实施方式和附图中进行了详细的说明。
4.所述的计算网页中的每一个html标签的信息密度,包括:
计算出网页标签密度,字符密度,标点密度,链接密度,图片密度五个计算分量;
将五个计算分量标签密度,字符密度,标点密度,链接密度,图片密度的乘积作为每一个html标签的信息密度。
5.所述的计算出标签密度,字符密度,标点密度,链接密度,图片密度五个计算分量,具体计算方法为:
标签密度,计算方法为本标签内部包含所有子标签的数量除以网页标签的总数;
字符密度,计算方法为本标签内部包含所有字符的数量除以网页字符的总数;
标点密度,计算方法为本标签内部包含所有标点的数量除以网页标点的总数;
链接密度,计算方法为本标签以外包含的所有链接的数量除以网页链接的总数;
图片密度,计算方法为本标签以外包含的所有图片的数量除以网页图片的总数。
6.所述计算网页信息密度的方法,也就是本发明所提出的一种网页信息密度的计算方法,具体为:
1)对网页中的所有标签计算各自的信息密度,每一个html标签的信息密度为五个计算分量的乘积,该五个计算分量分别为:
①标签密度,计算方法为本标签内部包含所有子标签的数量除以网页标签的总数
DtagA=Num(tag A)/Num(root)
上式中,DtagA为标签A的标签密度,Num(tagA)为标签A内包含所有标签及其子标签的数量,Num(root)为根标签包含的所有标签数量,即该网页的标签总数。
②字符密度,计算方法为本标签内部包含所有字符的数量除以网页字符的总数
DwordA=Word(A)/Word(root)
上式中,DwordA为标签A的字符密度,对于英文或其他拉丁文字来说,每一个单词称为一个字符,对于汉字来说,每一个字称为一个字符。Word(A)为标签A及其所有子标签中包含的字符数量,Word(root)为根标签包含的所有字符数量,即该网页的字符总数。
③标点密度,计算方法为本标签内部包含所有标点的数量除以网页标点的总数
DintA=Interpunction(A)/Interpunction(root)
上式中,DintA为标签A的标点密度。,Interpunction(A)为标签A及其所有子标签中包含的标点数量,Interpunction(root)为根标签包含的所有标点数量,即该网页的标点总数。
④链接密度,计算方法为本标签以外包含的所有链接的数量除以网页链接的总数
上式中,DlinkA为标签A的标点密度,Link(A)为标签A及其所有子标签中包含的链接数量,Link(root)为根标签包含的所有链接数量,即该网页的链接总数。
⑤图片密度,计算方法为本标签以外包含的所有图片的数量除以网页图片的总数
上式中,DimageA为标签A的图片密度,Image(A)为标签A及其所有子标签中包含的图片数量,Image(root)为根标签包含的所有图片数量,即该网页的图片总数。
2)每一个标签的信息密度为标签密度、字符密度、标点密度、链接密度、图片密度五个分量的乘积。即如下公式:
DA=DtagA*DwordA*DintA*DlinkA*DimageA
附图说明
图1为本发明中的一种基于信息密度提取网页正文的方法的一个实施例的流程图。
图2为一个三级标签结构的网页递归过程示意图。
具体实施方式
图1为本发明中的一种基于信息密度提取网页正文的方法的一个实施例的流程图,结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明采用的技术方案和保护范围做出更为清楚明确的理解。
获取网页html文件后,以body标签为根标签,以递归的方式遍历所有下级标签页,并统计每一个标签内包含的下级标签、字符、标点符号、链接和图片的数量。
步骤S1:通过网络或其他途径获取html文件;
步骤S2:将其中与网页html内容展示不相关的标签删除,主要包括以下4种标签:
1.代表注释的标签,如<!-->;
2.与网页前端执行脚本相关的标签,如<script>,<var>,<link>,<code>;
3.与css格式相关的标签,如<style>;
4.对网页展示的内容和格式完全无影响的标签,如<!DOCTYPE>。
步骤S3:查找到body标签,由于标题及正文必定存在于body标签中,将其作为根标签输入递归调用模块。
步骤S4:执行递归调用,其运行目的为统计标签及其所有下级子标签的:子标签数量、字符数量、标点符号数量、链接数量、图片数量。
步骤S5:基于信息密度计算公式计算所有标签的信息密度,其具体方法如前述“5.所述计算网页信息密度的方法,也就是本发明所提出的一种网页信息密度的计算方法”所具体描述的计算方法和计算公式。
步骤S6:选择具有最大信息密度的标签,将其内容输出,该输出即为采用本方法提取出的网页正文。
下面以图2的一个三级标签结构的网页递归为例,具体说明步骤S4的递归统计过程:
1.父标签发现其自身存在子标签A,将统计命令发送给子标签A;
2.一级子标签A收到统计命令,发现其自身存在子标签C,D,E,并将统计命令发给子标签C;
3.二级子标签C收到统计命令,发现其自身不存在子标签,则在其内部进行字符,标点,链接和图片数量的计数统计,并将结果返回一级子标签A;
4.一级子标签A将统计命令发给子标签D;
5.二级子标签D收到统计命令,发现其自身不存在子标签,则在其内部进行字符,标点,链接和图片数量的计数统计,并将结果返回一级子标签A;
6.一级子标签A将统计命令发给子标签E;
7.二级子标签E收到统计命令,发现其自身不存在子标签,则在其内部进行字符,标点,链接和图片数量的计数统计,并将结果返回一级子标签A;
8.一级子标签将3,5,7步骤中收到的返回结果与自身内部的统计结果相加,连同子标签的数量(C,D,E共3个子标签)返回父标签;
9.父标签将统计命令发给子标签B;
10.一级子标签B收到统计命令,发现其自身不存在子标签,则在其内部进行字符,标点,链接和图片数量的计数统计,并将结果返回父标签;
11.父标签将8,10步骤中收到的返回结果相加,连同自身内部的统计结果,输出。
在上述递归计算过程中,所有标签都计算出了自身包含的子标签数量、字符数量、标点符号数量、链接数量、图片数量
步骤5基于步骤4统计出的信息,结合上述网页信息密度计算公式计算所有标签的信息密度
步骤6选择具有最大信息密度的标签,将其内容输出,该输出即为采用本方法提取出的网页正文。

Claims (9)

1.一种基于信息密度提取网页正文的方法,其特征在于,包括:
获取网页html文件;
将其中与网页展示内容不相关的标签删除;
统计出网页html标签的数量以及每一个html标签包含子标签的数量,网页中每一个html标签包含字符的数量,网页中每一个html标签包含标点符号的数量,网页中每一个html标签包含链接的数量,网页中每一个html标签包含图片的数量;
计算网页中的每一个html标签的信息密度;
筛选出网页中信息密度值最大的标签作为正文输出。
2.根据权利要求1所述的一种基于信息密度提取网页正文的方法,其特征在于,所述的将其中与网页展示内容不相关的标签删除,其中与网页展示内容不相关的标签包括:
代表注释的标签,与网页前端执行脚本相关的标签,与css格式相关的标签,对网页展示的内容和格式完全无影响的标签;
删除的标签至少包括与网页展示内容不相关的标签中的一种。
3.根据权利要求2所述的一种基于信息密度提取网页正文的方法,其特征在于,所述的计算网页中的每一个html标签的信息密度,包括:
计算出网页标签密度,字符密度,标点密度,链接密度,图片密度五个计算分量;
将五个计算分量标签密度,字符密度,标点密度,链接密度,图片密度的乘积作为每一个html标签的信息密度。
4.根据权利要求3所述的一种基于信息密度提取网页正文的方法,其特征在于,所述的计算出标签密度,字符密度,标点密度,链接密度,图片密度五个计算分量,具体计算方法为:
标签密度,计算方法为本标签内部包含所有子标签的数量除以网页标签的总数;
字符密度,计算方法为本标签内部包含所有字符的数量除以网页字符的总数;
标点密度,计算方法为本标签内部包含所有标点的数量除以网页标点的总数;
链接密度,计算方法为本标签以外包含的所有链接的数量除以网页链接的总数;
图片密度,计算方法为本标签以外包含的所有图片的数量除以网页图片的总数。
5.根据权利要求4所述的一种基于信息密度提取网页正文的方法,其特征在于,所述的具体计算方法的计算公式为:
标签密度,计算方法为本标签内部包含所有子标签的数量除以网页标签的总数,如下公式:
Dta gA=Num(tagA)/Num(root)
上式中,Dta gA为标签A的标签密度,Num(tagA)为标签A内包含所有标签及其子标签的数量,Num(root)为根标签包含的所有标签数量,即该网页的标签总数;
字符密度,计算方法为本标签内部包含所有字符的数量除以网页字符的总数,如下公式:
DwordA=Word(A)/Word(root)
上式中,DwordA为标签A的字符密度,对于英文或其他拉丁文字来说,每一个单词称为一个字符,对于汉字来说,每一个字称为一个字符。Word(A)为标签A及其所有子标签中包含的字符数量,Word(root)为根标签包含的所有字符数量,即该网页的字符总数;
标点密度,计算方法为本标签内部包含所有标点的数量除以网页标点的总数,如下公式:
DintA=Interpunction(A)/Interpunction(root)
上式中,DintA为标签A的标点密度,Interpunction(A)为标签A及其所有子标签中包含的标点数量,Interpunction(root)为根标签包含的所有标点数量,即该网页的标点总数;
链接密度,计算方法为本标签以外包含的所有链接的数量除以网页链接的总数,如下公式:
D l i n k A = 1 - ( L i n k ( A ) L i n k ( r o o t ) )
上式中,DlinkA为标签A的链接密度,Link(A)为标签A及其所有子标签中包含的链接数量,Link(root)为根标签包含的所有链接数量,即该网页的链接总数;
图片密度,计算方法为本标签以外包含的所有图片的数量除以网页图片的总数,如下公式:
D i m a g e A = 1 - ( Im a g e ( A ) Im a g e ( r o o t ) )
上式中,DimageA为标签A的图片密度,Image(A)为标签A及其所有子标签中包含的图片数量,Image(root)为根标签包含的所有图片数量,即该网页的图片总数;
每一个标签的信息密度为标签密度、字符密度、标点密度、链接密度、图片密度五个分量的乘积,如下公式:
DA=DtagA*DwordA*DintA*DlinkA*DimageA
上式中,DA为标签A的信息密度,Dta gA为标签A的标签密度,DwordA为标签A的字符密度,DintA为标签A的标点密度,DlinkA为标签A的链接密度,DimageA为标签A的图片密度。
6.根据权利要求1-5中任一项所述的一种基于信息密度提取网页正文的方法,其特征在于,所述统计出网页html标签的数量以及每一个html标签包含子标签的数量,网页中每一个html标签包含字符的数量,网页中每一个html标签包含标点符号的数量,网页中每一个html标签包含链接的数量,网页中每一个html标签包含图片的数量,具体为:
查找<body>标签,将其作为根标签输入递归调用模块;
递归统计根标签及其所有下级子标签的子标签数量、字符数量、标点符号数量、链接数量、图片数量。
7.一种网页信息密度的计算方法,其特征在于,包括:
计算出网页标签密度,字符密度,标点密度,链接密度,图片密度五个计算分量;
将五个计算分量标签密度,字符密度,标点密度,链接密度,图片密度的乘积作为每一个网页标签的信息密度。
8.根据权利要求7所述的一种网页信息密度的计算方法,其特征在于,所述的计算出标签密度,字符密度,标点密度,链接密度,图片密度五个计算分量,具体计算方法为:
标签密度,计算方法为本标签内部包含所有子标签的数量除以网页标签的总数;
字符密度,计算方法为本标签内部包含所有字符的数量除以网页字符的总数;
标点密度,计算方法为本标签内部包含所有标点的数量除以网页标点的总数;
链接密度,计算方法为本标签以外包含的所有链接的数量除以网页链接的总数;
图片密度,计算方法为本标签以外包含的所有图片的数量除以网页图片的总数。
9.根据权利要求8所述的一种网页信息密度的计算方法,其特征在于,所述的具体计算方法的计算公式为:
标签密度,计算方法为本标签内部包含所有子标签的数量除以网页标签的总数,如下公式:
Dta gA=Num(tagA)/Num(root)
上式中,Dta gA为标签A的标签密度,Num(tagA)为标签A内包含所有标签及其子标签的数量,Num(root)为根标签包含的所有标签数量,即该网页的标签总数;
字符密度,计算方法为本标签内部包含所有字符的数量除以网页字符的总数,如下公式:
DwordA=Word(A)/Word(root)
上式中,DwordA为标签A的字符密度,对于英文或其他拉丁文字来说,每一个单词称为一个字符,对于汉字来说,每一个字称为一个字符。Word(A)为标签A及其所有子标签中包含的字符数量,Word(root)为根标签包含的所有字符数量,即该网页的字符总数;
标点密度,计算方法为本标签内部包含所有标点的数量除以网页标点的总数,如下公式:
DintA=Interpunction(A)/Interpunction(root)
上式中,DintA为标签A的标点密度。,Interpunction(A)为标签A及其所有子标签中包含的标点数量,Interpunction(root)为根标签包含的所有标点数量,即该网页的标点总数;
链接密度,计算方法为本标签以外包含的所有链接的数量除以网页链接的总数,如下公式:
D l i n k A = 1 - ( L i n k ( A ) L i n k ( r o o t ) )
上式中,DlinkA为标签A的标点密度,Link(A)为标签A及其所有子标签中包含的链接数量,Link(root)为根标签包含的所有链接数量,即该网页的链接总数;
图片密度,计算方法为本标签以外包含的所有图片的数量除以网页图片的总数,如下公式:
D i m a g e A = 1 - ( Im a g e ( A ) Im a g e ( r o o t ) )
上式中,DimageA为标签A的图片密度,Image(A)为标签A及其所有子标签中包含的图片数量,Image(root)为根标签包含的所有图片数量,即该网页的图片总数;
每一个标签的信息密度为标签密度、字符密度、标点密度、链接密度、图片密度五个分量的乘积,如下公式:
DA=Dta gA*DwordA*DintA*DlinkA*DimageA
上式中,DA为标签A的信息密度,Dta gA为标签A的标签密度,DwordA为标签A的字符密度,DintA为标签A的标点密度,DlinkA为标签A的链接密度,DimageA为标签A的图片密度。
CN201710216774.1A 2017-04-05 2017-04-05 一种基于信息密度提取网页正文的方法 Pending CN106960057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710216774.1A CN106960057A (zh) 2017-04-05 2017-04-05 一种基于信息密度提取网页正文的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710216774.1A CN106960057A (zh) 2017-04-05 2017-04-05 一种基于信息密度提取网页正文的方法

Publications (1)

Publication Number Publication Date
CN106960057A true CN106960057A (zh) 2017-07-18

Family

ID=59483314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710216774.1A Pending CN106960057A (zh) 2017-04-05 2017-04-05 一种基于信息密度提取网页正文的方法

Country Status (1)

Country Link
CN (1) CN106960057A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020247A (zh) * 2017-12-22 2019-07-16 中移(苏州)软件技术有限公司 一种网页关键模块提取方法及装置
CN110020296A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种提取新闻网页正文的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN101727461A (zh) * 2008-10-13 2010-06-09 中国科学院计算技术研究所 一种网页的正文抽取方法
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN102541874A (zh) * 2010-12-16 2012-07-04 中国移动通信集团公司 网页正文内容提取方法及装置
CN103049536A (zh) * 2012-11-01 2013-04-17 广州汇讯营销咨询有限公司 提取网页正文内容的方法和系统
CN104598577A (zh) * 2015-01-14 2015-05-06 晶赞广告(上海)有限公司 一种网页正文的提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727461A (zh) * 2008-10-13 2010-06-09 中国科学院计算技术研究所 一种网页的正文抽取方法
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN102541874A (zh) * 2010-12-16 2012-07-04 中国移动通信集团公司 网页正文内容提取方法及装置
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN103049536A (zh) * 2012-11-01 2013-04-17 广州汇讯营销咨询有限公司 提取网页正文内容的方法和系统
CN104598577A (zh) * 2015-01-14 2015-05-06 晶赞广告(上海)有限公司 一种网页正文的提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄文蓓 等: "《基于分块的网页正文信息提取算法研究》", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020296A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种提取新闻网页正文的方法及装置
CN110020247A (zh) * 2017-12-22 2019-07-16 中移(苏州)软件技术有限公司 一种网页关键模块提取方法及装置
CN110020247B (zh) * 2017-12-22 2021-05-14 中移(苏州)软件技术有限公司 一种网页关键模块提取方法及装置

Similar Documents

Publication Publication Date Title
US10380197B2 (en) Network searching method and network searching system
CN103544176B (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
Alomari et al. Road traffic event detection using twitter data, machine learning, and apache spark
CN104598577B (zh) 一种网页正文的提取方法
CN104217036B (zh) 一种网页内容提取方法和设备
CN110991171B (zh) 敏感词检测方法及装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN108920434A (zh) 一种通用的网页主题内容提取方法和系统
CN110110156A (zh) 行业舆情监控方法、装置、计算机设备及存储介质
CN103064827A (zh) 一种网页内容抽取的方法及装置
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN108021692A (zh) 一种监控网页的方法、服务器及计算机可读存储介质
CN106909663A (zh) 基于标签用户品牌偏好行为预测方法及其装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN107153716A (zh) 网页内容提取方法和装置
CN112328857B (zh) 一种产品知识聚合方法、装置、计算机设备及存储介质
WO2013178193A2 (zh) 一种文本内容提取方法和装置
CN111625748A (zh) 网站的导航栏信息提取方法、装置、电子设备及存储介质
CN106960057A (zh) 一种基于信息密度提取网页正文的方法
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
CN102999511A (zh) 一种页面快速转换方法、装置和系统
CN106528068A (zh) 一种网页内容重构方法和系统
CN105117482A (zh) 一种实现网站导航的方法和装置
CN104572874B (zh) 一种网页信息的抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718

RJ01 Rejection of invention patent application after publication