CN105630772A - 一种网页评论内容的抽取方法 - Google Patents

一种网页评论内容的抽取方法 Download PDF

Info

Publication number
CN105630772A
CN105630772A CN201610053347.1A CN201610053347A CN105630772A CN 105630772 A CN105630772 A CN 105630772A CN 201610053347 A CN201610053347 A CN 201610053347A CN 105630772 A CN105630772 A CN 105630772A
Authority
CN
China
Prior art keywords
subtree
node
path
comment
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610053347.1A
Other languages
English (en)
Other versions
CN105630772B (zh
Inventor
郝志峰
袁琴
蔡瑞初
陈炳丰
骆魁永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610053347.1A priority Critical patent/CN105630772B/zh
Publication of CN105630772A publication Critical patent/CN105630772A/zh
Application granted granted Critical
Publication of CN105630772B publication Critical patent/CN105630772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。本申请降低了时间复杂度,提高了抽取效率和抽取的准确率,且人工干预少,抽取过程全自动,适应范围广,不用构造抽取模板,无需考虑网页结构变更带来模板更新的麻烦。

Description

一种网页评论内容的抽取方法
技术领域
本申请涉及网页信息分析处理技术领域,尤其是一种网页评论内容的抽取方法。
背景技术
《2014年中国网络购物市场研究报告》显示,我国网民使用网络购物的比例从48.9%提升至55.7%。快速积累的海量产品评论信息是商家和消费者进行需求调研或购物决策的重要依据,从大量的结构迥异的网页中快速准确的抽取评论内容已然成为一个亟待解决的问题。
现有的网页信息抽取的方法有很多种,大致可分为以下几类:1、利用树编辑距离的方法来抽取信息,但此方法涵盖大量的增、删、改操作,计算冗余量大,抽取准确率低。2、基于视觉特征网页分块的方法抽取信息,但此方法局限性大,设定的数据区域块面积阈值过大的话,对于评论条数少的网页不适用。3、基于最长公共子串的方法,该方法在将DOM树转化为标签串的过程中丢失了节点的位置信息,导致整体相似性偏高。4、基于简单树匹配的方法,该方法利用动态规划计算两颗树的最大匹配节点个数得到树之间的相似度,过于严苛要求子节点顺序,导致评论节点对应的子树之间相似度偏低。
现有的抽取方法:上海第二工业大学的申请号为200910198184.6,发明名称为“一种基于互联网的模板抽取属性和评论词的方法”。该方法通过人工标注获取属性模板,工作量大且一旦网页结构改变,模板也需随之改变,容易导致抽取效率低下。南京大学的申请号为201310465730.4,发明名称为“一种基于小样本半监督学习的网页数据抽取方法”。该方法需要大量的用户手工选择及标注,过多的人为参与会导致成本的增加和时间花费的增加。大连灵动科技发展有限公司的申请号为201210491471.8,发明名称为“一种网页结构化信息抽取方法”。该方法采用训练小部分网页作为训练集,将其他网页作为测试集,利用正则表达式抽取其文本内容。针对经常变动的网页格式,正则表达式也需要随之改变,给抽取工作带来了巨大的麻烦。
发明内容
为克服现有技术的缺陷,本申请提供一种网页评论内容的抽取方法,降低时间复杂度,提升抽取效率。
一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。
优选的,通过深度加权子树相似度算法抽取最佳频繁子树,具体包括:建立深度加权树,设定深度权重的叶子节点权值为1,逐层向上的父亲节点深度依次加1;以树节点的标签作为关键词,用相同标签的权值总和作为向量坐标,利用余弦向量算法构建节点相似度算法,计算节点相似度;从根节点层次遍历整棵DOM树,计算当前节点的相似度值sim(R),再计算其所有孩子节点的相似度值;判断根节点的相似度值是否同时满足既大于预置的相似度阈值又大于其所有孩子节点的相似度值;若满足,停止遍历,此时该根节点的所有孩子节点构成的孩子子树即为最佳频繁子树。
优选的,当前节点的相似度值sim(R)的计算式为:
sin ( R ) = &Sigma; i < j s i m ( T i , T j ) C m 2 s i m ( T 1 , T 2 ) = &Sigma; i = 1 n ( w x i * x i &times; w y i * y i ) &Sigma; i = 1 n ( w x i * x i ) 2 &times; &Sigma; i = 1 n ( w y i * y i ) 2
其中,xi表示子树T1的节点标签向量,yi表示子树T2的节点标签向量,W和W分别表示xi和yi的权值,m表示根节点R的孩子节点个数,Ti和T分别表示R的两颗孩子子树,叶子节点的相似度值为0,只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似度值.
优选的,通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容,具体包括:通过频繁子树对齐方法抽取最小评论区域,计算子树对齐值C(Ti),将子树对齐值C(Ti)中最小值对应的子树作为最小评论区域;通过路径的文本长度抽取最频繁评论路径,计算最小评论区域中每条从根节点到叶子节点的路径频繁值L(pj),获取最频繁路径并抽取评论内容。
优选的,子树对齐值C(Ti)的计算式为:
C ( T i ) = &Sigma; j = 1 n a j n * t ;
其中,Ti表示根节点下的第i棵子树,a表示第j个节点的对齐次数,n表示该子树的节点总数,t表示频繁子树的总棵树。
优选的,叶子节点的路径频繁值L(pj)的计算式为:
L ( p j ) = a t * &Sigma; k = 1 a l e n ( T k ) l e n ( T ) ;
其中,p表示第j条从根节点到叶子节点的路径,a表示该条路径中叶子节点的对齐次数,t表示频繁子树的总棵树,len(Tk)表示第K棵子树中该路径包含的文本长度,len(T)表示所有频繁子树中该路径包含的文本长度总和。
本申请具有以下优点:(1)时间复杂度低,通过预剪枝处理能有效的剔除网页中包含的许多与评论内容无关的噪音,如广告、导航链接、版权信息等。降低时间复杂度,提高了抽取效率;(2)抽取的准确率高,通过深度加权子树相似度度量方法能够有效的抽取出最佳频繁子树,再结合后续的子树一致性对齐算法和频繁路径抽取算法能精准的定位评论路径,从而抽取评论内容;(3)人工干预少,抽取过程全自动,不需要任何的人工标注,减少了人工标注带来的人力成本和时间花费;(4)适应范围广,不用构造抽取模板,无需考虑网页结构变更带来模板更新的麻烦。
附图说明
图1为本申请的原理示意图;
图2为某一实施例中预剪枝处理示意图;
图3为某一实施例中抽取最佳频繁子树示意图;
图4为某一实施例中抽取评论路径示意图;
图5为某一实施例中抽取评论内容的结果示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
如图1所示,将来自不同平台的网页,如京东、苏宁等网页,通过httpclient工具包模拟浏览器发送http协议,向网络请求资源,最后获取网页源码,再通过预处理模块将一个网页解析成DOM树,通过节点位置、文本长度、布局特征等视觉信息对DOM树中的广告、导航栏、版权信息等噪声进行剪枝,从而降低树操作的时间复杂度。通过解析模块抽取最佳频繁子树,通过基于深度加权子树相似度的方法抽取出DOM树中评论区域。解析模块中评论内容信息抽取,首先通过树的一致性对齐方法求出最小评论区域,其次通过路径的文本长度获得评论内容路径,再利用jsoup解析出网页评论内容,最后将评论内容存储。
图2示例了如何进行预剪枝处理。首先,利用jsoup工具将网页源码转换为DOM树,其次,通过DOM树获取每个节点的位置信息,衡量其位置时只考虑其横坐标距离绝对值是否大于网页页面距离绝对值的1/4,如果满足条件,将其位置信息C赋值为Y,反之则赋值为N。再次,通过DOM树获取每个节点的文本长度,设定文本长度的阈值为500,高于该值则将节点文本长度L赋值为Y,反之则赋值为N。最后,通过DOM树获取每个节点的布局特征,将满足左对齐、宋体、黑色、非加粗且有图片(用户头像)等特征的节点赋值为Y,反之则赋值为N。
如图3所示,抽取最佳频繁子树包括以下步骤:
S1)构建每个节点都带有编号、标签、权重的剪枝后的DOM树。
S2)利用深度加权子树相似度算法计算当前节点及其下一层所有节点的相似度值。
S3)层次遍历DOM树,比较根节点与其所有孩子节点的相似度值,当且仅当该根节点的相似度值大于预设的相似度阈值0.9且大于其所有孩子节点的相似度值时,停止遍历,此时的所有孩子节点构成的孩子子树即为所求的最佳频繁子树。
其中,步骤S2)包括:S21)判断节点是否为叶子节点,是则相似度值为0;S22)判断节点是否只有一个孩子节点,是则其相似度值等于其孩子节点相似度值;S23)当节点不为叶子节点或者节点不止具有一个孩子节点时,则直接利用深度加权子树相似度算法进行计算。如图3所示,图3中右下角的实线方框内即为最佳频繁子树。
如图4所示,抽取评论路径包括以下步骤:
S101)将抽取出来的最佳频繁子树根据子树一致性对齐方法,计算根节点的所有孩子子树的对齐值C(Ti),取所有C(Ti)中的最小值作为最小评论区域块,如图4中TC内的虚线框部分。
S201)通过路径的文本长度计算方法,计算最小评论区域块中所有从根节点到叶子节点的路径的文本长度L(Pj),取最大L(Pj)值下的路径作为最频繁路径,如图4中Tc内实线框选的部分。
S301)利用jsoup工具解析最频繁路径。
如图5所示,最终已将网页中的评论内容抽取出来。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。

Claims (6)

1.一种网页评论内容的抽取方法,其特征在于:包括以下步骤:
获取网页源码;
将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;
通过深度加权子树相似度算法抽取最佳频繁子树;
通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。
2.根据权利要求1所述的方法,其特征在于:所述通过深度加权子树相似度算法抽取最佳频繁子树,具体包括:
建立深度加权树,设定深度权重的叶子节点权值为1,逐层向上的父亲节点深度依次加1;
以树节点的标签作为关键词,用相同标签的权值总和作为向量坐标,利用余弦向量算法构建节点相似度算法,计算节点相似度;
从根节点层次遍历整棵DOM树,计算当前节点的相似度值sim(R),再计算其所有孩子节点的相似度值;
判断根节点的相似度值是否同时满足既大于预置的相似度阈值又大于其所有孩子节点的相似度值;
若满足,停止遍历,此时该根节点的所有孩子节点构成的孩子子树即为最佳频繁子树。
3.根据要求2所述的方法,其特征在于:所述当前节点的相似度值sim(R)的计算式为:
其中,x表示子树T1的节点标签向量,y表示子树T2的节点标签向量,W和W分别表示xi和yi的权值,m表示根节点R的孩子节点个数,Ti和T分别表示R的两颗孩子子树,叶子节点的相似度值为0,只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似度值。
4.根据权利要求1所述的方法,其特征在于:所述通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容,具体包括:
通过频繁子树对齐方法抽取最小评论区域,计算子树对齐值C(Ti),将子树对齐值C(Ti)中最小值对应的子树作为最小评论区域;
通过路径的文本长度抽取最频繁评论路径,计算最小评论区域中每条从根节点到叶子节点的路径频繁值L(pj),获取最频繁路径并抽取评论内容。
5.根据权利要求4所述的方法,其特征在于:所述的子树对齐值C(Ti)的计算式为:
其中,Ti表示根节点下的第i棵子树,a表示第j个节点的对齐次数,n表示该子树的节点总数,t表示频繁子树的总棵树。
6.根据权利要求4所述的方法,其特征在于:所述的叶子节点的路径频繁值L(pj)的计算式为:
其中,p表示第j条从根节点到叶子节点的路径,a表示该条路径中叶子节点的对齐次数,t表示频繁子树的总棵树,len(Tk)表示第K棵子树中该路径包含的文本长度,len(T)表示所有频繁子树中该路径包含的文本长度总和。
CN201610053347.1A 2016-01-26 2016-01-26 一种网页评论内容的抽取方法 Active CN105630772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610053347.1A CN105630772B (zh) 2016-01-26 2016-01-26 一种网页评论内容的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610053347.1A CN105630772B (zh) 2016-01-26 2016-01-26 一种网页评论内容的抽取方法

Publications (2)

Publication Number Publication Date
CN105630772A true CN105630772A (zh) 2016-06-01
CN105630772B CN105630772B (zh) 2018-10-12

Family

ID=56045729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610053347.1A Active CN105630772B (zh) 2016-01-26 2016-01-26 一种网页评论内容的抽取方法

Country Status (1)

Country Link
CN (1) CN105630772B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095854A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 一种确定信息块的位置信息的方法及装置
CN108021692A (zh) * 2017-12-18 2018-05-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN108664511A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 获取网页信息方法和装置
CN109062876A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN110990738A (zh) * 2019-12-09 2020-04-10 名创优品(横琴)企业管理有限公司 一种网页正文及要素提取的方法和系统
CN111309854A (zh) * 2019-11-20 2020-06-19 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066269A1 (en) * 2003-09-18 2005-03-24 Fujitsu Limited Information block extraction apparatus and method for Web pages
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统
CN104346405A (zh) * 2013-08-08 2015-02-11 阿里巴巴集团控股有限公司 一种从网页中抽取信息的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050066269A1 (en) * 2003-09-18 2005-03-24 Fujitsu Limited Information block extraction apparatus and method for Web pages
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统
CN104346405A (zh) * 2013-08-08 2015-02-11 阿里巴巴集团控股有限公司 一种从网页中抽取信息的方法及装置
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘伟等: "一种Web 评论自动抽取方法", 《软件学报》 *
寇月等: "D-EEM:一种基于DOM树的Deep Web实体抽取机制", 《计算机研究与发展》 *
罗元: "网页净化及去重研究综述", 《现代计算机》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095854A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 一种确定信息块的位置信息的方法及装置
CN106095854B (zh) * 2016-06-02 2022-05-17 腾讯科技(深圳)有限公司 一种确定信息块的位置信息的方法及装置
CN108664511A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 获取网页信息方法和装置
CN108664511B (zh) * 2017-03-31 2021-07-13 北京京东尚科信息技术有限公司 获取网页信息方法和装置
CN108021692A (zh) * 2017-12-18 2018-05-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN108021692B (zh) * 2017-12-18 2022-03-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN109062876A (zh) * 2018-07-20 2018-12-21 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN109062876B (zh) * 2018-07-20 2019-07-12 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN111309854A (zh) * 2019-11-20 2020-06-19 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN111309854B (zh) * 2019-11-20 2023-05-26 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN110990738A (zh) * 2019-12-09 2020-04-10 名创优品(横琴)企业管理有限公司 一种网页正文及要素提取的方法和系统
CN110990738B (zh) * 2019-12-09 2021-11-26 创优数字科技(广东)有限公司 一种网页正文及要素提取的方法和系统

Also Published As

Publication number Publication date
CN105630772B (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN105630772A (zh) 一种网页评论内容的抽取方法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN103559199B (zh) 网页信息抽取方法和装置
CN102651002B (zh) 一种网页信息抽取方法及其系统
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及系统
CN105630941A (zh) 基于统计和网页结构的Web正文内容抽取方法
CN112732994B (zh) 网页信息的提取方法、装置、设备及存储介质
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN108664474A (zh) 一种基于深度学习的简历解析方法
CN112560491A (zh) 一种基于ai技术的信息抽取方法、装置和存储介质
CN107861947A (zh) 一种基于跨语言资源的柬语命名实体识别的方法
CN112036179B (zh) 基于文本分类与语义框架的电力预案信息抽取方法
TW201403354A (zh) 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
CN106600213B (zh) 一种个人简历智能管理系统及方法
CN105677638A (zh) Web信息抽取方法
CN109344355A (zh) 针对网页变化的自动回归检测与块匹配自适应方法和装置
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN105389303B (zh) 一种异源语料自动融合方法
CN109800420A (zh) 一种可研评审报告自动生成方法及存储介质
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN117131856A (zh) 一种基于问题引导的交通事故文本因果关系抽取方法
CN103761312B (zh) 一种多记录网页的信息抽取系统及方法
CN111090999A (zh) 电网调度预案的信息抽取方法及系统
CN110347832A (zh) 一种基于transformer的长文本质量分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant