CN105653668A - 云环境中基于DOMTree的网页内容分析提取优化方法 - Google Patents

云环境中基于DOMTree的网页内容分析提取优化方法 Download PDF

Info

Publication number
CN105653668A
CN105653668A CN201511016992.8A CN201511016992A CN105653668A CN 105653668 A CN105653668 A CN 105653668A CN 201511016992 A CN201511016992 A CN 201511016992A CN 105653668 A CN105653668 A CN 105653668A
Authority
CN
China
Prior art keywords
text
node
vector
tree
dom tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511016992.8A
Other languages
English (en)
Inventor
李春林
李明铭
周敏
毛习均
杜书猛
严炜
赵张承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201511016992.8A priority Critical patent/CN105653668A/zh
Publication of CN105653668A publication Critical patent/CN105653668A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种云环境中基于DOMTree的网页内容分析提取优化方法,该方法包括:生成DOM树;去script和style块;从各个叶子节点开始,对具有相同标签路径的不同兄弟节点间进行合并;如果叶节点的父节点不包含任何兄弟节点,则删除父节点,并用当前叶子节点代替,使得深度大于1的叶子节点接近根节点,降低DOM?Tree的高度;直至DOM?TREE的高度降为1,得到精简的DOM树,树的每一个叶子节点均为一个内容单元;利用正则表达式对标签信息进行删除,得到网页正文内容。本发明方法对所有节点对象以<TagPath,NodeContent>所形成的键值对进行处理,这一处理模式将大大减少解析所耗费的时间。

Description

云环境中基于DOMTree的网页内容分析提取优化方法
技术领域
本发明涉及网页数据的处理,具体地说是一种云环境中基于DOMTree的网页内容分析提取优化方法。
背景技术
Web信息抽取主要的功能是从海量页面文档中抽取信息数据源,从杂乱无序的Web信息中提取出特定的文本信息,并将这些信息以结构化的数据形式存入数据仓库中以供后用。抽取出来的Web信息能够为后续的数据挖掘的提供知识库,例如在海量的用户行为信息中提取用户特征并给特殊用户投送定点广告。使用自然语言方法进行数据处理的各类网页分类、聚类系统乃至网络信息数据挖掘等相关系统的精准度会随着那些文本噪音信息以及冗余链接文本的减少而得到提高。相同的效果也体现在以互联网为信息全部来源的一些网络爬虫以及搜索引擎等基于信息数据索引技术的系统性能上。
Web页面作为海量信息的来源,近年来基于Web的信息提取和目标文本的挖掘技术越来越受到人们的关注。在互联网这个巨大的信息库中,信息通常以文本为载体,并以Web文档形式出现。通常情况下,相同主题的不同信息分散在不同的网络上并以各异的表现形式存在着,如果能够搜集并以结构化的形式存储这些信息数据,再对这些数据进行有效地管理后将能更好的利用这些海量的网络资源。Web信息抽取系统能将分布在互联网上相同主题不同结构的Web页面存储在数据仓库中,将万维网作为信息巨大的知识数据库,最终达到方便人们对有用信息资源进行有效管理和合理运用的目的。
为了搜集互联网上的海量信息,人们很自然的将传统的文本信息解析技术使用到网页信息处理的领域中来。但是,网页存储的内容与传统的文本不同,具有以下两个特殊之处:一为多主题,即一个页面可能被分成多个区域,每一区域描述了的主题相对独立;二为多噪音,即在页面正文内容的周围经常夹杂着浏览框、广告条、交互式表单、图片修饰、公司的logo等噪声。这就使得传统文本的处理算法在被应用到网络文本处理时,不能取得理想的效果,因此在对传统文本处理之前必须采取有效的网页解析技术才能提取网页中真正想要描述的正文信息。
HTML语言为大多数Web网页所使用,这些页面的主要构成组件为普通文本和HTML标签。在宏观上,可以直接将网页内容看成一个线性的字符串;但是在微观上,这个字符串通常包含着很多交互影响、分层清晰的标签,这些标签决定了页面各模块的结构及属性,例如:网页的视觉特征(字体的颜色、颜色的差异、字体的粗细等)以及网页的版式特点(段落内容长短、标题所属位置、段落彼此的距离等),通常各标签的级别不一,且标签具备一定规律性的分布,还有一些差异性体现在使用习惯上,这些重要的特征都可以在网页解析和内容提取时利用。
互联网网页在经过爬虫系统从服务器抓取到本地后,在进行数据挖掘之前必须对这些源代码数据进行预处理,这一过程就是页面解析。目前,基于网页分析的页面主题信息主要存在着以下问题:解析方法移植性不强,某一方法只针对某一类页面有着效果的效果;解析速度慢,由于解析方法的复杂度太高,不能在用户可以接受的时间内完成页面中目标文本的提取过程;解析效果差,部分方法过于追求速度而对目标文本采取粗粒度的划分方法,这导致了目标文本漏选或噪音数据误选等影响解析效果的问题。因此在解析过程中,单方面的只重视解析效果或者解析速度都不可取,需要在提高效率的同时追求准确度。
发明内容
本发明目的在于克服上述现有技术的不足而提出一种云环境中基于DOMTree的网页内容分析提取优化方法,该方法在传统基于DOMtree的基础上,结合Map/Reduce计算模型而提出的适合大数据并行计算场景的一种优化策略。
实现本发明目的采用的技术方案是一种云环境中基于DOMTree的网页内容分析提取优化方法,该方法包括:
S1、生成DOM树:对于该树中的每个叶子节点,将其标签路径和对应文本,并以键值对<TagPath,NodeContent>的形式存储;
S2、去script和style块:将网页中所有的script块和style块删除;
S3、合并:从各个叶子节点开始,对具有相同标签路径的不同兄弟节点间进行合并;
S4、降度:如果叶节点的父节点不包含任何兄弟节点,则删除父节点,并用当前叶子节点代替,使得深度大于1的叶子节点接近根节点,降低DOMTree的高度;
重复步骤S3~S4,直至DOMTREE的高度降为1,得到精简的DOM树,树的每一个叶子节点均为一个内容单元;
S5、去标签:利用正则表达式对标签信息进行删除,得到网页正文内容。
本发明方法首先根据解析文本对象生成的DOM树,对该树上的叶子节点进行降度合并等处理,同时在基于向量空间模型引用相似度计量方法判断其中噪音节点的位置。该方法对所有节点对象以<TagPath,NodeContent>所形成的键值对进行处理,这一处理模式将大大减少解析所耗费的时间。
附图说明
图1为本发明云环境中基于DOMTree的网页内容分析提取优化方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
如同图1所示,本发明云环境中基于DOMTree的网页内容分析提取优化方法包括:
S1、生成DOM树:对于该树中的每个叶子节点,将其标签路径和对应文本,并以键值对<TagPath,NodeContent>的形式存储。
本发明对每个待解析Web页面(由固定格式的标签和普通文本构成),利用树的概念进行处理,最终生成有层次、组织清晰、布局特征显著的DOMTree数据结构。每个生成树都由O={PageId,Height,{Tag1,Tag2,...,Tagm},{Content1,Content2,...,Contentn}}唯一标识。这一方法使得看似杂乱无章毫无规律的页面源代码清晰明了,易于分析理解。在这一数据结构中,每个包含实际文本的数据均处于叶子节点中,且可以根据从根节点到叶子节点的标签得到该节点的标签路径。这一路径在以后的数据挖掘中将具有重要作用。
DomTree生成树中每个内容块都可根据向量空间模型(VSM,VectorSpaceModel)的思想使用由目标文本中关键字所形成的词条向量来表示,如p={w1,w2,...,wi,...wn}。通常为了具体量化某段文本与主题的相关程度,不仅需要对待分析文本进行处理,还需要对目标主题领域进行分析并构建主题词条库,其中,每条关键词均被赋予特定的衡量权值。同时,目标文本所形成词条向量中的每个词条也有唯一的权重,且由v={v1,v2,...,vi,...vn}向量表示。
同样,在采用向量空间模型思想后,各目标文本文件信息的表示和匹配问题自然地就转化为向量空间中各向量的表示和匹配问题。设定文本段落M所形成的文本词条向量为M={A1,A2,...,Ai,...,An},而另一需要比较的段落向量N为N={B1,B2,...,Bi,...,Bn},那么两个段落之间的关联程度可以用欧氏距离(向量夹角的余弦来)来计算。如下为向量间的相似度计算公式:
s i m ( M , N ) = Σ i = 1 n A i * B i Σ i = 1 n A i 2 Σ i = 1 n B i 2
向量空间模型的优点在于它简化了页面相关度的计算复杂度,使之转化为了向量空间运算,因此本专利在处理文本噪音判断的时候将大量使用向量空间模型来计算相似度。
S2、去script和style块:将网页中所有的script块和style块删除,这一部分对于正文是毫无意义的。
S3、合并:从各个叶子节点开始,对具有相同标签路径的不同兄弟节点间进行合并。
本发明在合并之前,将所有满足finalscore<λ的文本块剔除。SEWM2008规定,在页面文本块中,只要满足如下任一条件即可判定噪音信息:
a.与网页主旨内容不相关的信息
b.由网站提供的内容模板信息
c.广告信息
以上规则过于生硬,且目前部分网页中出现了开发者为达到特殊目的而故意加在网页中文中的广告等噪音信息。本发明方法在以上判定规则的基础上,引入相似度计量的方法,使得噪音识别更加合理。以下为具体步骤:
将经由SEWM2008规则预处理后的页面中各文本块进行关键词提取,构建词条向量。这些词条向量由P={p1,p2,...,pi,...,pn}表示;
利用以下公式,其中vik表示向量pi与pj中第k个词条的权重,求得P中每个词条向量与目标主题向量的相似度(其中),用S={s1,s2,...,si,...,sn}表示;
S i m ( p i , p j ) = Σ k - 1 N v i k * v j k Σ k - 1 N v i k 2 * Σ k - 1 N v j k 2
求得向量S中的最大值,Smax=Max{s1,s2,...,si,...,sn}。在一个页面中,与主题相似度最高的文本块可以判定为正文文本。但是,在其他文本中,也可能出现与主题相关但是不能明显被发现的区域,所以在接下来的判定中不能直接舍得其他文本块,分别比较文本块与目标向量相似度与Smax的关系,其比较方法如下,并求出最终有效值:
finalscore i = ( 1 - α ) * s i S m a x + α * s i
比较每个向量的finalscore与预设阀值λ,若小于该值则判定为噪音节点并舍弃。
这一噪音发现方法,规避了传统规则中过于单一、武断的策略,引入相似度的概念,综合文本段与文本段之间的关联,极大的提高了方法判定的合理性。
S4、降度:如果叶节点的父节点不包含任何兄弟节点,则删除父节点,并用当前叶子节点代替,使得深度大于1的叶子节点接近根节点,降低DOMTree的高度;
重复步骤S3~S4,直至DOMTREE的高度降为1,得到精简的DOM树,树的每一个叶子节点均为一个内容单元。经过以上的合并与降度,一个网页就被分割为了基本内容单元的集合。同时,DOM树从用于显示的琐碎结构变成了适合内容提取的内容单元组织结构,并且内容单元上层节点及其蕴含的布局和视觉特征被完整地保留下来,可结合其它方法使用。
S5、去标签:利用正则表达式对标签信息进行删除,得到网页正文内容。
处理时间是任何方法在实际应用场景中永恒追求的目标。当前互联网数据的规模空前,传统解析方法将所有数据都由某一台或几台机器进行处理,没有考虑节点的处理能力和实际负载,运算耗费时间将是不可估计的,设定待处理文本总长度为len,节点处理平均时间为taver,则总处理时间为:
T1=len*taver
与传统解析方法相比,本专利所提方法对页面DOM生成树进行扫描,只有在发现叶子节点的时候才会记录从根节点到当前节点的标签路径,并以键值对的形式存储标签路径和节点文本。该优化方法在计算成本上最大程度上的发挥Map/Reduce运算模型的优势,将运算时间降低到:
T 2 = Σ i = 1 log n ( l e n ) t a v e r n * h
其中,n代表集群计算中计算节点的数目,在大规模集群计算中这一取值将非常大;而且在一般网页页面中,其内容的深度也不会超过7层,所以本专利所提方法的时间消耗与传统方法相比更少:T1≥T2
本发明解析方法的伪代码描述如下:
首先定义一个HashMap<tagPath,content>表示目标文本中正文叶子节点的标签路径和内容。
(1)初始化目标文本<tagPath,content>和页面DOMTree
(2)dountil页面DOMTree的高度h=1
(3)forDomTree中任一叶子节点ni
(4)if该节点文本块contenti属于script块或者style块
(5)continue;
(6)endif
(7)计算content的词条向量P和相似度S
(8)根据各节点S,求出除最大相似度文本段,其他文本最终权值V
(9)ifV≥λ
(10)将该节点存入<tagPath,content>
(11)将相同tagPath的content合并
(12)endif
(13)endfor
(14)对DOM树各节点降度,h--
(15)endfor
(16)去除<tagPath,content>中的标签路径
从执行步骤可以看出:在结合了DOM树解析网页内容的优点的同时,利用分层合并-降度思想,将网页中文本信息及其对应的标签路径与Map/Reduce模型很好的结合起来,对大量页面原始数据信息进行解析,充分利用Hadoop对大数据处理的优势。

Claims (3)

1.一种云环境中基于DOMTree的网页内容分析提取优化方法,其特征在于,包括:
S1、生成DOM树:对于该树中的每个叶子节点,将其标签路径和对应文本,并以键值对<TagPath,NodeContent>的形式存储;
S2、去script和style块:将网页中所有的script块和style块删除;
S3、合并:从各个叶子节点开始,对具有相同标签路径的不同兄弟节点间进行合并;
S4、降度:如果叶节点的父节点不包含任何兄弟节点,则删除父节点,并用当前叶子节点代替,使得深度大于1的叶子节点接近根节点,降低DOMTree的高度;
重复步骤S3~S4,直至DOMTREE的高度降为1,得到精简的DOM树,树的每一个叶子节点均为一个内容单元;
S5、去标签:利用正则表达式对标签信息进行删除,得到网页正文内容。
2.根据权利要求1所述云环境中基于DOMTree的网页内容分析提取优化方法,其特征在于:步骤S1中,对由固定格式的标签和普通文本构成的每个待解析Web页面,利用树的概念进行处理,每个生成树都由O={PageId,Height,{Tag1,Tag2,...,Tagm},{Content1,Content2,...,Contentn}}唯一标识。
3.根据权利要求1所述云环境中基于DOMTree的网页内容分析提取优化方法,其特征在于:在步骤S3合并之前,将所有满足finalscore<λ的文本块剔除,剔除过程如下:
将经由SEWM2008规则预处理后的页面中各文本块进行关键词提取,构建词条向量,这些词条向量由P={p1,p2,...,pi,...,pn}表示;
(1)设定利用以下公式,其中vik表示向量pi与pj中第k个词条的权重,求得P中每个词条向量与目标主题向量的相似度,用S={s1,s2,...,si,...,sn}表示;
S i m ( p i , p j ) = &Sigma; k - 1 N v i k * v j k &Sigma; k - 1 N v i k 2 * &Sigma; k - 1 N v j k 2
求得向量S中的最大值:Smax=Max{s1,s2,...,si,...,sn},以及向量finalscore:
finalscore i = ( 1 - &alpha; ) * s i S m a x + &alpha; * s i ;
(2)比较每个向量的finalscore与预设阀值λ,若小于该值则判定为噪音节点并舍弃。
CN201511016992.8A 2015-12-29 2015-12-29 云环境中基于DOMTree的网页内容分析提取优化方法 Pending CN105653668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511016992.8A CN105653668A (zh) 2015-12-29 2015-12-29 云环境中基于DOMTree的网页内容分析提取优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511016992.8A CN105653668A (zh) 2015-12-29 2015-12-29 云环境中基于DOMTree的网页内容分析提取优化方法

Publications (1)

Publication Number Publication Date
CN105653668A true CN105653668A (zh) 2016-06-08

Family

ID=56478077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511016992.8A Pending CN105653668A (zh) 2015-12-29 2015-12-29 云环境中基于DOMTree的网页内容分析提取优化方法

Country Status (1)

Country Link
CN (1) CN105653668A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315539A (zh) * 2017-05-12 2017-11-03 武汉斗鱼网络科技有限公司 一种数据存储方法以及数据提取方法
CN107423391A (zh) * 2017-07-24 2017-12-01 福州大学 网页结构化数据的信息提取方法
CN107688567A (zh) * 2016-08-03 2018-02-13 腾讯科技(深圳)有限公司 一种索引存储方法及相关装置
CN108241680A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 获取网页的阅读量的方法和装置
CN108733813A (zh) * 2018-05-21 2018-11-02 山东管理学院 面向bbs论坛网页内容的信息提取方法、系统及介质
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
CN109284295A (zh) * 2018-10-17 2019-01-29 郑州云海信息技术有限公司 一种数据优化的方法及装置
CN109948015A (zh) * 2017-09-26 2019-06-28 中国科学院信息工程研究所 一种元搜索列表结果抽取方法及系统
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN110134853A (zh) * 2019-05-13 2019-08-16 重庆八戒传媒有限公司 数据爬取方法及系统
CN111309854A (zh) * 2019-11-20 2020-06-19 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN111651694A (zh) * 2020-05-21 2020-09-11 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN112667940A (zh) * 2020-10-15 2021-04-16 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112784135A (zh) * 2021-02-26 2021-05-11 张冶青 一种网页信息识别系统
CN112887381A (zh) * 2021-01-15 2021-06-01 中国地质大学(武汉) 用于面向特定网络入口的新内容检测和汇聚方法及装置
CN114218515A (zh) * 2021-12-21 2022-03-22 北京大学 一种基于内容分割的Web数字对象提取方法及系统
CN114528811A (zh) * 2022-01-21 2022-05-24 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655874A (zh) * 2009-09-04 2010-02-24 卓望数码技术(深圳)有限公司 一种网页分割方法和网页分割装置
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN103559259A (zh) * 2013-11-04 2014-02-05 同济大学 基于云平台的消除近似重复网页方法
CN103853760A (zh) * 2012-12-03 2014-06-11 中国移动通信集团公司 一种网页正文内容提取方法和装置
WO2015176435A1 (zh) * 2014-05-21 2015-11-26 广州市动景计算机科技有限公司 基于JavaScript定制页面的方法及终端
WO2015188431A1 (zh) * 2014-06-10 2015-12-17 中兴通讯股份有限公司 资源的下载方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655874A (zh) * 2009-09-04 2010-02-24 卓望数码技术(深圳)有限公司 一种网页分割方法和网页分割装置
CN102298638A (zh) * 2011-08-31 2011-12-28 北京中搜网络技术股份有限公司 使用网页标签聚类提取新闻网页内容的方法和系统
CN103853760A (zh) * 2012-12-03 2014-06-11 中国移动通信集团公司 一种网页正文内容提取方法和装置
CN103559259A (zh) * 2013-11-04 2014-02-05 同济大学 基于云平台的消除近似重复网页方法
WO2015176435A1 (zh) * 2014-05-21 2015-11-26 广州市动景计算机科技有限公司 基于JavaScript定制页面的方法及终端
WO2015188431A1 (zh) * 2014-06-10 2015-12-17 中兴通讯股份有限公司 资源的下载方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MINGMING LI 等: "A Focused Crawler URL Analysis Algorithm based on Semantic Content and Link Clustering in Cloud Environment", 《INTERNATIONAL JOURNAL OF GRID AND DISTRIBUTED COMPUTING》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688567A (zh) * 2016-08-03 2018-02-13 腾讯科技(深圳)有限公司 一种索引存储方法及相关装置
CN107688567B (zh) * 2016-08-03 2021-02-09 腾讯科技(深圳)有限公司 一种索引存储方法及相关装置
CN108241680A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 获取网页的阅读量的方法和装置
CN108241680B (zh) * 2016-12-26 2020-10-13 北京国双科技有限公司 获取网页的阅读量的方法和装置
CN107315539B (zh) * 2017-05-12 2020-08-04 武汉斗鱼网络科技有限公司 一种数据存储方法以及数据提取方法
CN107315539A (zh) * 2017-05-12 2017-11-03 武汉斗鱼网络科技有限公司 一种数据存储方法以及数据提取方法
CN107423391A (zh) * 2017-07-24 2017-12-01 福州大学 网页结构化数据的信息提取方法
CN107423391B (zh) * 2017-07-24 2020-11-03 福州大学 网页结构化数据的信息提取方法
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN109948015A (zh) * 2017-09-26 2019-06-28 中国科学院信息工程研究所 一种元搜索列表结果抽取方法及系统
CN109948015B (zh) * 2017-09-26 2023-10-03 中国科学院信息工程研究所 一种元搜索列表结果抽取方法及系统
CN108733813A (zh) * 2018-05-21 2018-11-02 山东管理学院 面向bbs论坛网页内容的信息提取方法、系统及介质
CN109086361A (zh) * 2018-07-20 2018-12-25 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统
CN109284295B (zh) * 2018-10-17 2021-09-17 郑州云海信息技术有限公司 一种数据优化的方法及装置
CN109284295A (zh) * 2018-10-17 2019-01-29 郑州云海信息技术有限公司 一种数据优化的方法及装置
CN110134853A (zh) * 2019-05-13 2019-08-16 重庆八戒传媒有限公司 数据爬取方法及系统
CN111309854B (zh) * 2019-11-20 2023-05-26 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN111309854A (zh) * 2019-11-20 2020-06-19 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN111651694A (zh) * 2020-05-21 2020-09-11 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN111651694B (zh) * 2020-05-21 2023-09-29 深圳市比一比网络科技有限公司 应用于网页中dom树处理方法
CN112667940B (zh) * 2020-10-15 2022-02-18 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112667940A (zh) * 2020-10-15 2021-04-16 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN112528205B (zh) * 2020-12-22 2021-10-29 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN112528205A (zh) * 2020-12-22 2021-03-19 中科院计算技术研究所大数据研究院 一种网页主体信息提取方法、装置及存储介质
CN112887381A (zh) * 2021-01-15 2021-06-01 中国地质大学(武汉) 用于面向特定网络入口的新内容检测和汇聚方法及装置
CN112784135A (zh) * 2021-02-26 2021-05-11 张冶青 一种网页信息识别系统
CN114218515A (zh) * 2021-12-21 2022-03-22 北京大学 一种基于内容分割的Web数字对象提取方法及系统
CN114528811A (zh) * 2022-01-21 2022-05-24 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质
CN114528811B (zh) * 2022-01-21 2022-09-02 北京麦克斯泰科技有限公司 文章内容抽取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105653668A (zh) 云环境中基于DOMTree的网页内容分析提取优化方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN113935502B (zh) 基于双重注意力机制的面向大坝应急工况事件抽取方法
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN104899273A (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN104268148B (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
CN104933164A (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN103617280A (zh) 一种中文事件信息挖掘方法和系统
CN103389998A (zh) 一种基于云服务的新型互联网商业情报语义分析技术
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
Ji et al. Tag tree template for Web information and schema extraction
CN104361059A (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN106339455A (zh) 基于文本标签特征挖掘的网页正文提取方法
CN103699611A (zh) 一种基于动态摘要技术的微博流信息提取方法
CN103995828B (zh) 一种云存储日志数据分析方法
CN105975547A (zh) 基于内容与位置特征的近似web文档检测方法
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
CN102768663A (zh) 一种网页标题的提取方法、装置及信息处理系统
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160608