CN105630772A

CN105630772A - 一种网页评论内容的抽取方法

Info

Publication number: CN105630772A
Application number: CN201610053347.1A
Authority: CN
Inventors: 郝志峰; 袁琴; 蔡瑞初; 陈炳丰; 骆魁永
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2016-06-01
Anticipated expiration: 2036-01-26
Also published as: CN105630772B

Abstract

一种网页评论内容的抽取方法，包括以下步骤：获取网页源码；将网页源码转换成DOM树结构，基于位置、文本长度和布局特征对DOM树进行剪枝预处理；通过深度加权子树相似度算法抽取最佳频繁子树；通过树的一致性对齐方法求出最小评论区域，然后通过路径文本长度抽取最频繁评论路径并提取评论内容。本申请降低了时间复杂度，提高了抽取效率和抽取的准确率，且人工干预少，抽取过程全自动，适应范围广，不用构造抽取模板，无需考虑网页结构变更带来模板更新的麻烦。

Description

一种网页评论内容的抽取方法

技术领域

本申请涉及网页信息分析处理技术领域，尤其是一种网页评论内容的抽取方法。

背景技术

《2014年中国网络购物市场研究报告》显示，我国网民使用网络购物的比例从48.9％提升至55.7％。快速积累的海量产品评论信息是商家和消费者进行需求调研或购物决策的重要依据，从大量的结构迥异的网页中快速准确的抽取评论内容已然成为一个亟待解决的问题。

现有的网页信息抽取的方法有很多种，大致可分为以下几类：1、利用树编辑距离的方法来抽取信息，但此方法涵盖大量的增、删、改操作，计算冗余量大，抽取准确率低。2、基于视觉特征网页分块的方法抽取信息，但此方法局限性大，设定的数据区域块面积阈值过大的话，对于评论条数少的网页不适用。3、基于最长公共子串的方法，该方法在将DOM树转化为标签串的过程中丢失了节点的位置信息，导致整体相似性偏高。4、基于简单树匹配的方法，该方法利用动态规划计算两颗树的最大匹配节点个数得到树之间的相似度，过于严苛要求子节点顺序，导致评论节点对应的子树之间相似度偏低。

现有的抽取方法：上海第二工业大学的申请号为200910198184.6，发明名称为“一种基于互联网的模板抽取属性和评论词的方法”。该方法通过人工标注获取属性模板，工作量大且一旦网页结构改变，模板也需随之改变，容易导致抽取效率低下。南京大学的申请号为201310465730.4，发明名称为“一种基于小样本半监督学习的网页数据抽取方法”。该方法需要大量的用户手工选择及标注，过多的人为参与会导致成本的增加和时间花费的增加。大连灵动科技发展有限公司的申请号为201210491471.8，发明名称为“一种网页结构化信息抽取方法”。该方法采用训练小部分网页作为训练集，将其他网页作为测试集，利用正则表达式抽取其文本内容。针对经常变动的网页格式，正则表达式也需要随之改变，给抽取工作带来了巨大的麻烦。

发明内容

为克服现有技术的缺陷，本申请提供一种网页评论内容的抽取方法，降低时间复杂度，提升抽取效率。

一种网页评论内容的抽取方法，包括以下步骤：获取网页源码；将网页源码转换成DOM树结构，基于位置、文本长度和布局特征对DOM树进行剪枝预处理；通过深度加权子树相似度算法抽取最佳频繁子树；通过树的一致性对齐方法求出最小评论区域，然后通过路径文本长度抽取最频繁评论路径并提取评论内容。

优选的，通过深度加权子树相似度算法抽取最佳频繁子树，具体包括：建立深度加权树，设定深度权重的叶子节点权值为1，逐层向上的父亲节点深度依次加1；以树节点的标签作为关键词，用相同标签的权值总和作为向量坐标，利用余弦向量算法构建节点相似度算法，计算节点相似度；从根节点层次遍历整棵DOM树，计算当前节点的相似度值sim(R)，再计算其所有孩子节点的相似度值；判断根节点的相似度值是否同时满足既大于预置的相似度阈值又大于其所有孩子节点的相似度值；若满足，停止遍历，此时该根节点的所有孩子节点构成的孩子子树即为最佳频繁子树。

优选的，当前节点的相似度值sim(R)的计算式为：

\begin{matrix} \sin (R) = \frac{\underset{i < j}{Σ} s i m (T_{i}, T_{j})}{C_{m}^{2}} & s i m (T_{1}, T_{2}) = \frac{Σ_{i = 1}^{n} (w_{x i} * x_{i} \times w_{y i} * y_{i})}{\sqrt{Σ_{i = 1}^{n} {(w_{x i} * x_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(w_{y i} * y_{i})}^{2}}} \end{matrix}

其中，x_i表示子树T1的节点标签向量，y_i表示子树T2的节点标签向量，W和W分别表示x_i和y_i的权值，m表示根节点R的孩子节点个数，T_i和T分别表示R的两颗孩子子树，叶子节点的相似度值为0，只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似度值.

优选的，通过树的一致性对齐方法求出最小评论区域，然后通过路径文本长度抽取最频繁评论路径并提取评论内容，具体包括：通过频繁子树对齐方法抽取最小评论区域，计算子树对齐值C(Ti)，将子树对齐值C(Ti)中最小值对应的子树作为最小评论区域；通过路径的文本长度抽取最频繁评论路径,计算最小评论区域中每条从根节点到叶子节点的路径频繁值L(pj),获取最频繁路径并抽取评论内容。

优选的，子树对齐值C(Ti)的计算式为：

C (T i) = \frac{Σ_{j = 1}^{n} a_{j}}{n * t};

其中，T_i表示根节点下的第i棵子树，a表示第j个节点的对齐次数，n表示该子树的节点总数，t表示频繁子树的总棵树。

优选的，叶子节点的路径频繁值L(pj)的计算式为：

L (p_{j}) = \frac{a}{t} * Σ_{k = 1}^{a} \frac{l e n (T_{k})}{l e n (T)};

其中，p表示第j条从根节点到叶子节点的路径，a表示该条路径中叶子节点的对齐次数，t表示频繁子树的总棵树，len(Tk)表示第K棵子树中该路径包含的文本长度，len(T)表示所有频繁子树中该路径包含的文本长度总和。

本申请具有以下优点：(1)时间复杂度低，通过预剪枝处理能有效的剔除网页中包含的许多与评论内容无关的噪音,如广告、导航链接、版权信息等。降低时间复杂度，提高了抽取效率；(2)抽取的准确率高，通过深度加权子树相似度度量方法能够有效的抽取出最佳频繁子树，再结合后续的子树一致性对齐算法和频繁路径抽取算法能精准的定位评论路径，从而抽取评论内容；(3)人工干预少，抽取过程全自动，不需要任何的人工标注，减少了人工标注带来的人力成本和时间花费；(4)适应范围广，不用构造抽取模板，无需考虑网页结构变更带来模板更新的麻烦。

附图说明

图1为本申请的原理示意图；

图2为某一实施例中预剪枝处理示意图；

图3为某一实施例中抽取最佳频繁子树示意图；

图4为某一实施例中抽取评论路径示意图；

图5为某一实施例中抽取评论内容的结果示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

如图1所示，将来自不同平台的网页，如京东、苏宁等网页，通过httpclient工具包模拟浏览器发送http协议，向网络请求资源，最后获取网页源码，再通过预处理模块将一个网页解析成DOM树，通过节点位置、文本长度、布局特征等视觉信息对DOM树中的广告、导航栏、版权信息等噪声进行剪枝，从而降低树操作的时间复杂度。通过解析模块抽取最佳频繁子树，通过基于深度加权子树相似度的方法抽取出DOM树中评论区域。解析模块中评论内容信息抽取，首先通过树的一致性对齐方法求出最小评论区域，其次通过路径的文本长度获得评论内容路径，再利用jsoup解析出网页评论内容，最后将评论内容存储。

图2示例了如何进行预剪枝处理。首先，利用jsoup工具将网页源码转换为DOM树，其次，通过DOM树获取每个节点的位置信息，衡量其位置时只考虑其横坐标距离绝对值是否大于网页页面距离绝对值的1/4，如果满足条件，将其位置信息C赋值为Y，反之则赋值为N。再次，通过DOM树获取每个节点的文本长度，设定文本长度的阈值为500，高于该值则将节点文本长度L赋值为Y，反之则赋值为N。最后，通过DOM树获取每个节点的布局特征，将满足左对齐、宋体、黑色、非加粗且有图片(用户头像)等特征的节点赋值为Y，反之则赋值为N。

如图3所示，抽取最佳频繁子树包括以下步骤：

S1)构建每个节点都带有编号、标签、权重的剪枝后的DOM树。

S2)利用深度加权子树相似度算法计算当前节点及其下一层所有节点的相似度值。

S3)层次遍历DOM树，比较根节点与其所有孩子节点的相似度值，当且仅当该根节点的相似度值大于预设的相似度阈值0.9且大于其所有孩子节点的相似度值时，停止遍历，此时的所有孩子节点构成的孩子子树即为所求的最佳频繁子树。

其中，步骤S2)包括：S21)判断节点是否为叶子节点，是则相似度值为0；S22)判断节点是否只有一个孩子节点，是则其相似度值等于其孩子节点相似度值；S23)当节点不为叶子节点或者节点不止具有一个孩子节点时，则直接利用深度加权子树相似度算法进行计算。如图3所示，图3中右下角的实线方框内即为最佳频繁子树。

如图4所示，抽取评论路径包括以下步骤：

S101)将抽取出来的最佳频繁子树根据子树一致性对齐方法，计算根节点的所有孩子子树的对齐值C(T_i)，取所有C(T_i)中的最小值作为最小评论区域块，如图4中T_C内的虚线框部分。

S201)通过路径的文本长度计算方法，计算最小评论区域块中所有从根节点到叶子节点的路径的文本长度L(P_j),取最大L(P_j)值下的路径作为最频繁路径，如图4中T_c内实线框选的部分。

S301)利用jsoup工具解析最频繁路径。

如图5所示，最终已将网页中的评论内容抽取出来。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种网页评论内容的抽取方法，其特征在于：包括以下步骤：

获取网页源码；

将网页源码转换成DOM树结构，基于位置、文本长度和布局特征对DOM树进行剪枝预处理；

通过深度加权子树相似度算法抽取最佳频繁子树；

通过树的一致性对齐方法求出最小评论区域，然后通过路径文本长度抽取最频繁评论路径并提取评论内容。

2.根据权利要求1所述的方法，其特征在于：所述通过深度加权子树相似度算法抽取最佳频繁子树，具体包括：

建立深度加权树，设定深度权重的叶子节点权值为1，逐层向上的父亲节点深度依次加1；

以树节点的标签作为关键词，用相同标签的权值总和作为向量坐标，利用余弦向量算法构建节点相似度算法，计算节点相似度；

从根节点层次遍历整棵DOM树，计算当前节点的相似度值sim(R)，再计算其所有孩子节点的相似度值；

判断根节点的相似度值是否同时满足既大于预置的相似度阈值又大于其所有孩子节点的相似度值；

若满足，停止遍历，此时该根节点的所有孩子节点构成的孩子子树即为最佳频繁子树。

3.根据要求2所述的方法，其特征在于：所述当前节点的相似度值sim(R)的计算式为：

其中，x_澐表示子树T1的节点标签向量，y_澐表示子树T2的节点标签向量，W和W分别表示x_i和y_i的权值，m表示根节点R的孩子节点个数，T_i和T分别表示R的两颗孩子子树，叶子节点的相似度值为0，只有一个孩子节点满足其父亲节点的相似度值等于其孩子节点的相似度值。

4.根据权利要求1所述的方法，其特征在于：所述通过树的一致性对齐方法求出最小评论区域，然后通过路径文本长度抽取最频繁评论路径并提取评论内容，具体包括：

通过频繁子树对齐方法抽取最小评论区域，计算子树对齐值C(Ti)，将子树对齐值C(Ti)中最小值对应的子树作为最小评论区域；

通过路径的文本长度抽取最频繁评论路径,计算最小评论区域中每条从根节点到叶子节点的路径频繁值L(pj),获取最频繁路径并抽取评论内容。

5.根据权利要求4所述的方法，其特征在于：所述的子树对齐值C(Ti)的计算式为：

6.根据权利要求4所述的方法，其特征在于：所述的叶子节点的路径频繁值L(pj)的计算式为：