CN105630772B - 一种网页评论内容的抽取方法 - Google Patents

一种网页评论内容的抽取方法 Download PDF

Info

Publication number
CN105630772B
CN105630772B CN201610053347.1A CN201610053347A CN105630772B CN 105630772 B CN105630772 B CN 105630772B CN 201610053347 A CN201610053347 A CN 201610053347A CN 105630772 B CN105630772 B CN 105630772B
Authority
CN
China
Prior art keywords
node
subtree
frequent
comment
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610053347.1A
Other languages
English (en)
Other versions
CN105630772A (zh
Inventor
郝志峰
袁琴
蔡瑞初
陈炳丰
骆魁永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610053347.1A priority Critical patent/CN105630772B/zh
Publication of CN105630772A publication Critical patent/CN105630772A/zh
Application granted granted Critical
Publication of CN105630772B publication Critical patent/CN105630772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。本申请降低了时间复杂度,提高了抽取效率和抽取的准确率,且人工干预少,抽取过程全自动,适应范围广,不用构造抽取模板,无需考虑网页结构变更带来模板更新的麻烦。

Description

一种网页评论内容的抽取方法
技术领域
本申请涉及网页信息分析处理技术领域,尤其是一种网页评论内容的抽取方法。
背景技术
《2014年中国网络购物市场研究报告》显示,我国网民使用网络购物的比例从48.9%提升至55.7%。快速积累的海量产品评论信息是商家和消费者进行需求调研或购物决策的重要依据,从大量的结构迥异的网页中快速准确的抽取评论内容已然成为一个亟待解决的问题。
现有的网页信息抽取的方法有很多种,大致可分为以下几类:1、利用树编辑距离的方法来抽取信息,但此方法涵盖大量的增、删、改操作,计算冗余量大,抽取准确率低。2、基于视觉特征网页分块的方法抽取信息,但此方法局限性大,设定的数据区域块面积阈值过大的话,对于评论条数少的网页不适用。3、基于最长公共子串的方法,该方法在将DOM树转化为标签串的过程中丢失了节点的位置信息,导致整体相似性偏高。4、基于简单树匹配的方法,该方法利用动态规划计算两颗树的最大匹配节点个数得到树之间的相似度,过于严苛要求子节点顺序,导致评论节点对应的子树之间相似度偏低。
现有的抽取方法:上海第二工业大学的申请号为200910198184.6,发明名称为“一种基于互联网的模板抽取属性和评论词的方法”。该方法通过人工标注获取属性模板,工作量大且一旦网页结构改变,模板也需随之改变,容易导致抽取效率低下。南京大学的申请号为201310465730.4,发明名称为“一种基于小样本半监督学习的网页数据抽取方法”。该方法需要大量的用户手工选择及标注,过多的人为参与会导致成本的增加和时间花费的增加。大连灵动科技发展有限公司的申请号为201210491471.8,发明名称为“一种网页结构化信息抽取方法”。该方法采用训练小部分网页作为训练集,将其他网页作为测试集,利用正则表达式抽取其文本内容。针对经常变动的网页格式,正则表达式也需要随之改变,给抽取工作带来了巨大的麻烦。
发明内容
为克服现有技术的缺陷,本申请提供一种网页评论内容的抽取方法,降低时间复杂度,提升抽取效率。
一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。
优选的,通过深度加权子树相似度算法抽取最佳频繁子树,具体包括:建立深度加权树,设定深度权重的叶子节点权值为1,逐层向上的父亲节点深度依次加1;以树节点的标签作为关键词,用相同标签的权值总和作为向量坐标,利用余弦向量算法构建节点相似度算法,计算节点相似度;从根节点层次遍历整棵DOM树,计算当前节点的相似度值sim(R),再计算其所有孩子节点的相似度值;判断根节点的相似度值是否同时满足既大于预置的相似度阈值又大于其所有孩子节点的相似度值;若满足,停止遍历,此时该根节点的所有孩子节点构成的孩子子树即为最佳频繁子树。
优选的,当前节点的相似度值sim(R)的计算式为:
其中,xi表示子树T1的节点标签向量,yi表示子树T2的节点标签向量,W和W分别表示xi和yi的权值,m表示根节点R的孩子节点个数,Ti和T分别表示R的两颗孩子子树,叶子节点的相似度值为0,只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似度值.
优选的,通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容,具体包括:通过频繁子树对齐方法抽取最小评论区域,计算子树对齐值C(Ti),将子树对齐值C(Ti)中最小值对应的子树作为最小评论区域;通过路径的文本长度抽取最频繁评论路径,计算最小评论区域中每条从根节点到叶子节点的路径频繁值L(pj),获取最频繁路径并抽取评论内容。
优选的,子树对齐值C(Ti)的计算式为:
其中,Ti表示根节点下的第i棵子树,a表示第j个节点的对齐次数,n表示该子树的节点总数,t表示频繁子树的总棵树。
优选的,叶子节点的路径频繁值L(pj)的计算式为:
其中,p表示第j条从根节点到叶子节点的路径,a表示该条路径中叶子节点的对齐次数,t表示频繁子树的总棵树,len(Tk)表示第K棵子树中该路径包含的文本长度,len(T)表示所有频繁子树中该路径包含的文本长度总和。
本申请具有以下优点:(1)时间复杂度低,通过预剪枝处理能有效的剔除网页中包含的许多与评论内容无关的噪音,如广告、导航链接、版权信息等。降低时间复杂度,提高了抽取效率;(2)抽取的准确率高,通过深度加权子树相似度度量方法能够有效的抽取出最佳频繁子树,再结合后续的子树一致性对齐算法和频繁路径抽取算法能精准的定位评论路径,从而抽取评论内容;(3)人工干预少,抽取过程全自动,不需要任何的人工标注,减少了人工标注带来的人力成本和时间花费;(4)适应范围广,不用构造抽取模板,无需考虑网页结构变更带来模板更新的麻烦。
附图说明
图1为本申请的原理示意图;
图2为某一实施例中预剪枝处理示意图;
图3为某一实施例中抽取最佳频繁子树示意图;
图4为某一实施例中抽取评论路径示意图;
图5为某一实施例中抽取评论内容的结果示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
如图1所示,将来自不同平台的网页,如京东、苏宁等网页,通过httpclient工具包模拟浏览器发送http协议,向网络请求资源,最后获取网页源码,再通过预处理模块将一个网页解析成DOM树,通过节点位置、文本长度、布局特征等视觉信息对DOM树中的广告、导航栏、版权信息等噪声进行剪枝,从而降低树操作的时间复杂度。通过解析模块抽取最佳频繁子树,通过基于深度加权子树相似度的方法抽取出DOM树中评论区域。解析模块中评论内容信息抽取,首先通过树的一致性对齐方法求出最小评论区域,其次通过路径的文本长度获得评论内容路径,再利用jsoup解析出网页评论内容,最后将评论内容存储。
图2示例了如何进行预剪枝处理。首先,利用jsoup工具将网页源码转换为DOM树,其次,通过DOM树获取每个节点的位置信息,衡量其位置时只考虑其横坐标距离绝对值是否大于网页页面距离绝对值的1/4,如果满足条件,将其位置信息C赋值为Y,反之则赋值为N。再次,通过DOM树获取每个节点的文本长度,设定文本长度的阈值为500,高于该值则将节点文本长度L赋值为Y,反之则赋值为N。最后,通过DOM树获取每个节点的布局特征,将满足左对齐、宋体、黑色、非加粗且有图片(用户头像)等特征的节点赋值为Y,反之则赋值为N。
如图3所示,抽取最佳频繁子树包括以下步骤:
S1)构建每个节点都带有编号、标签、权重的剪枝后的DOM树。
S2)利用深度加权子树相似度算法计算当前节点及其下一层所有节点的相似度值。
S3)层次遍历DOM树,比较根节点与其所有孩子节点的相似度值,当且仅当该根节点的相似度值大于预设的相似度阈值0.9且大于其所有孩子节点的相似度值时,停止遍历,此时的所有孩子节点构成的孩子子树即为所求的最佳频繁子树。
其中,步骤S2)包括:S21)判断节点是否为叶子节点,是则相似度值为0;S22)判断节点是否只有一个孩子节点,是则其相似度值等于其孩子节点相似度值;S23)当节点不为叶子节点或者节点不止具有一个孩子节点时,则直接利用深度加权子树相似度算法进行计算。如图3所示,图3中右下角的实线方框内即为最佳频繁子树。
如图4所示,抽取评论路径包括以下步骤:
S101)将抽取出来的最佳频繁子树根据子树一致性对齐方法,计算根节点的所有孩子子树的对齐值C(Ti),取所有C(Ti)中的最小值作为最小评论区域块,如图4中TC内的虚线框部分。
S201)通过路径的文本长度计算方法,计算最小评论区域块中所有从根节点到叶子节点的路径的文本长度L(Pj),取最大L(Pj)值下的路径作为最频繁路径,如图4中Tc内实线框选的部分。
S301)利用jsoup工具解析最频繁路径。
如图5所示,最终已将网页中的评论内容抽取出来。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。

Claims (2)

1.一种网页评论内容的抽取方法,其特征在于:包括以下步骤:
获取网页源码;
将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;
通过深度加权子树相似度算法抽取最佳频繁子树,具体包括:
建立深度加权树,设定深度权重的叶子节点权值为1,逐层向上的父亲节点深度依次加1;
以树节点的标签作为关键词,用相同标签的权值总和作为向量坐标,利用余弦向量算法构建节点相似度算法,计算节点相似度;
从根节点层次遍历整棵DOM树,计算当前节点的相似度值sim(R),再计算其所有孩子节点的相似度值,其中,所述当前节点的相似度值sim(R)的计算式为:
其中,xi表示子树T1的节点标签向量,yi表示子树T2的节点标签向量,wxi和wyi分别表示xi和yi的权值,m表示根节点R的孩子节点个数,Ti,Tj分别表示R的两颗孩子子树,叶子节点的相似度值为0,只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似度值;
判断根节点的相似度值是否同时满足既大于预置的相似度阈值又大于其所有孩子节点的相似度值;
若满足,停止遍历,此时该根节点的所有孩子节点构成的孩子子树即为最佳频繁子树;
通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容。
2.根据权利要求1所述的方法,其特征在于:所述通过树的一致性对齐方法求出最小评论区域,然后通过路径文本长度抽取最频繁评论路径并提取评论内容,具体包括:
通过频繁子树对齐方法抽取最小评论区域,计算子树对齐值C(Ti),将子树对齐值C(Ti)中最小值对应的子树作为最小评论区域,其中,所述的子树对齐值C(Ti)的计算式为:
其中,Ti表示根节点下的第i棵子树,aj表示第j个节点的对齐次数,n表示该子树的节点总数,t表示频繁子树的总棵树;
通过路径的文本长度抽取最频繁评论路径,计算最小评论区域中每条从根节点到叶子节点的路径频繁值L(pj),获取最频繁路径并抽取评论内容,其中,所述的叶子节点的路径频繁值L(pj)的计算式为:
其中,pj表示第j条从根节点到叶子节点的路径,a表示该条路径中叶子节点的对齐次数,t表示频繁子树的总棵树,len(Tk)表示第k棵子树中该路径包含的文本长度,len(T)表示所有频繁子树中该路径包含的文本长度总和。
CN201610053347.1A 2016-01-26 2016-01-26 一种网页评论内容的抽取方法 Active CN105630772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610053347.1A CN105630772B (zh) 2016-01-26 2016-01-26 一种网页评论内容的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610053347.1A CN105630772B (zh) 2016-01-26 2016-01-26 一种网页评论内容的抽取方法

Publications (2)

Publication Number Publication Date
CN105630772A CN105630772A (zh) 2016-06-01
CN105630772B true CN105630772B (zh) 2018-10-12

Family

ID=56045729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610053347.1A Active CN105630772B (zh) 2016-01-26 2016-01-26 一种网页评论内容的抽取方法

Country Status (1)

Country Link
CN (1) CN105630772B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095854B (zh) * 2016-06-02 2022-05-17 腾讯科技(深圳)有限公司 一种确定信息块的位置信息的方法及装置
CN108664511B (zh) * 2017-03-31 2021-07-13 北京京东尚科信息技术有限公司 获取网页信息方法和装置
CN108021692B (zh) * 2017-12-18 2022-03-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN109062876B (zh) * 2018-07-20 2019-07-12 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN111309854B (zh) * 2019-11-20 2023-05-26 武汉烽火信息集成技术有限公司 一种基于文章结构树的文章评价方法及系统
CN110990738B (zh) * 2019-12-09 2021-11-26 创优数字科技(广东)有限公司 一种网页正文及要素提取的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统
CN104346405A (zh) * 2013-08-08 2015-02-11 阿里巴巴集团控股有限公司 一种从网页中抽取信息的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092889A (ja) * 2003-09-18 2005-04-07 Fujitsu Ltd ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统
CN104346405A (zh) * 2013-08-08 2015-02-11 阿里巴巴集团控股有限公司 一种从网页中抽取信息的方法及装置
CN103559199A (zh) * 2013-09-29 2014-02-05 北京航空航天大学 网页信息抽取方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
D-EEM:一种基于DOM树的Deep Web实体抽取机制;寇月等;《计算机研究与发展》;20100515;全文 *
一种Web 评论自动抽取方法;刘伟等;《软件学报》;20101231;第21卷(第12期);第3页第4段、倒数第3段,第4页第3-8段、第5页倒数第4段至最后一段,第9页第2段 *
网页净化及去重研究综述;罗元;《现代计算机》;20130525;第2页右栏第3段 *

Also Published As

Publication number Publication date
CN105630772A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN105630772B (zh) 一种网页评论内容的抽取方法
CN103605794B (zh) 一种网站分类方法
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及系统
CN105243129A (zh) 商品属性特征词聚类方法
CN102651002B (zh) 一种网页信息抽取方法及其系统
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
WO2019024755A1 (zh) 网页信息提取方法、装置、系统及电子设备
CN104133855B (zh) 一种输入法智能联想的方法及装置
CN106528583A (zh) 一种网页正文提取比对方法
CN112650848A (zh) 基于文本语义相关乘客评价的城铁舆情信息分析方法
CN104850617B (zh) 短文本处理方法及装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN112100394B (zh) 一种用于推荐医疗专家的知识图谱构建方法
CN112732994B (zh) 网页信息的提取方法、装置、设备及存储介质
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN107436955B (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN106339455A (zh) 基于文本标签特征挖掘的网页正文提取方法
CN107102993A (zh) 一种用户诉求分析方法和装置
CN105677638A (zh) Web信息抽取方法
CN111737623A (zh) 网页信息提取方法及相关设备
CN108920147A (zh) 一种Web页面构建方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant