CN105183847A

CN105183847A - 网络评论数据的特征信息采集方法和装置

Info

Publication number: CN105183847A
Application number: CN201510563709.7A
Authority: CN
Inventors: 黄运杜; 陈海勇
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-09-07
Filing date: 2015-09-07
Publication date: 2015-12-23

Abstract

本申请公开了一种网络评论数据的特征信息采集方法和装置，通过初始阶段的遍历得到初始的属性词和情感词，然后进入迭代的遍历阶段，针对每条评论，根据预先设定的窗口距离，针对上一遍历阶段的属性词，在该属性词的前后窗口距离内查找新的情感词；针对上一遍历阶段的情感词，在该情感词的前后窗口距离内查找新的属性词；将本次遍历出的新的属性词和新的情感词与上一阶段的属性词和情感词合并，得到本阶段的属性词和情感词；重复本遍历阶段，直到遍历出的新的属性词和新的情感词的数量少于指定阈值时结束遍历阶段；对所得到的属性词和情感词进行配对；然后按照所述配对建立句式库，对应设置一种特征信息；按照所述句式库对原始评论进行句式匹配分析，得到评论对应句式的特征信息。本发明可以提高从评论数据采集出的特征信息的准确性。

Description

网络评论数据的特征信息采集方法和装置

技术领域

本申请涉及网络数据处理领域，尤其涉及一种网络评论数据的特征信息采集方法和装置。

背景技术

目前，随着互联网不断的普及，网络用户不断的增多，网民的评论观点越来越受到重视。小到对某件商品的评价，大到对国际形势的评论，或多或少都体现出一个网民自己的观点。而大量的观点汇聚起来，形成了舆情导向。若能准确快速的获得舆情，对个人、企业、公司，甚至是国家都有重要的意义。比如正火爆发展的O2O业务，连接线上线下，分析用户评论，使得线下公司可以及时获得用户反馈信息。而指数爆炸的网络信息，从根本上无法使用人工来分析评论观点，所以需要使用自动挖掘分析评论特征信息的方案。

现有技术中，对于如何自动挖掘分析评论观点的特征信息方案，通常为关联规则法。

所述关联规则法，通常有Apriori方法和FP-growth方法。

(1)Apriori方法是经典的挖掘布尔关联规则频繁项集的方法。图1为现有技术中Apriori方法的流程示意图；参见图1，Apriori方法的核心技术方案是通过设定最小支持度划定界线，大于等于最小支持度的项集设定为频繁项集。然后频繁项集之间结合，产生满足最小支持度和最小可信度的强关联规则。对以上得到的强关联规则，作为初始的频繁项集，继续结合获得更大的频繁项集。以此类推至不能再次获得更大的频繁项集为止。满足最小支持度和最小可信度的频繁项集就是最后挖掘出来的关联结果信息。比如如下表1购物车数据挖掘出来关联结果是啤酒和尿布，即客户购买啤酒时常常会购买尿布。显然这种现有技术的方法用在挖掘分析评论中，可以挖掘出客户类似“质量-好，屏幕-清晰”，这种评论观点的特征信息。

客户编号	购物篮(项集)
		1	面包，牛奶
2	面包，尿布，啤酒，鸡蛋
		3	牛奶，尿布，啤酒，可乐
4	面包，牛奶，尿布，啤酒
		5	面包，牛奶，尿布，可乐

表1

(2)FP-growth方法使用了数据结构-前缀树来挖掘关联规则，速度比较快，内存消耗比较少，也是一种很优秀的关联挖掘算法。

但是，现有技术存在以下缺点：

对于希望采集(或者也称之为挖掘)出结果项集较大的关联效果比较好。所述结果项集较大即结果有两项以上，如“面包，牛奶，尿布，可乐”有四项。而对于评论中只挖掘两项，如“属性-情感词”这种数据的特征信息来说，其准确性的效果退化，采集出来的特征信息不够准确。

在互联网快速发展的信息化时代，评论文本数以亿计。业界亟需一种准确的自动挖掘分析评论数据的技术方案，来采集客户、群众的评论数据的特征信息，反馈给公司企业，优化产品，提高产品和服务质量；还可以来分析网民的舆情导向。

发明内容

有鉴于此，本发明的主要目的是提供一种网络评论数据的特征信息采集方法和装置，以提高从评论数据采集出的特征信息的准确性。

本发明的技术方案是这样实现的：

一种网络评论数据的特征信息采集方法，包括：

获取原始的网络评论数据；

初始阶段，包括：遍历所述网络评论数据中的每一条评论，针对每条评论，查找其中的属性词和情感词，得到初始阶段所遍历出的所有属性词和情感词，进入后续遍历阶段；

遍历阶段，包括：遍历所述网络评论数据中的每一条评论，针对每条评论，根据预先设定的窗口距离，针对上一遍历阶段的属性词，在该属性词的前后窗口距离内查找新的情感词；针对上一遍历阶段的情感词，在该情感词的前后窗口距离内查找新的属性词；将本次遍历出的新的属性词和新的情感词与上一阶段的属性词和情感词合并，得到本阶段的属性词和情感词；重复本遍历阶段，直到遍历出的新的属性词和新的情感词的数量少于指定阈值时结束遍历阶段；对所得到的属性词和情感词进行配对；

按照所述属性词和情感词的配对，建立句式库，对每一句式对应设置一种特征信息；按照所述句式库，对原始网络评论数据的评论进行句式匹配分析，得到评论对应句式的特征信息。

在一种优选实施例中，该方法进一步包括：以指定的维度统计所述网络评论数据的特征信息；获得所述网络评论数据中的特征信息的分布，将所述特征信息的分布情况进行可视化处理，输出至输出设备。

在一种优选实施例中，所述针对每条评论，查找其中的属性词和情感词，具体包括：针对每条评论，进行分词，然后提取出其中的关键词，对关键词进行词性标注区分是属性词或是情感词。

在一种优选实施例中，所述针对每条评论，提取出其中的关键词，具体包括：使用TextRank方法，从所述评论中挖掘提取出其中的关键词。

在一种优选实施例中，所述对所得到的属性词和情感词进行配对，具体包括：

将所得到的所有属性词与所有情感词进行配对；

确定所述每一配对在原始评论数据中的出现概率；

将出现概率低于指定值的配对删除掉。

一种网络评论数据的特征信息采集装置，包括：

数据模块，获取原始的网络评论数据；

挖掘模块，用于执行初始阶段和遍历阶段处理；其中：

所述初始阶段包括：遍历所述网络评论数据中的每一条评论，针对每条评论，查找其中的属性词和情感词，得到初始阶段所遍历出的所有属性词和情感词，进入后续遍历阶段；

所述遍历阶段包括：遍历所述网络评论数据中的每一条评论，针对每条评论，根据预先设定的窗口距离，针对上一遍历阶段的属性词，在该属性词的前后窗口距离内查找新的情感词；针对上一遍历阶段的情感词，在该情感词的前后窗口距离内查找新的属性词；将本次遍历出的新的属性词和新的情感词与上一阶段的属性词和情感词合并，得到本阶段的属性词和情感词；重复本遍历阶段，直到遍历出的新的属性词和新的情感词的数量少于指定阈值时结束遍历阶段；对所得到的属性词和情感词进行配对；

分析处理模块，用于按照所述属性词和情感词的配对，建立句式库，对每一句式对应设置一种特征信息；按照所述句式库，对原始网络评论数据的评论进行句式匹配分析，得到评论对应句式的特征信息。

在一种优选实施例中，所述分析处理模块进一步用于：以指定的维度统计所述网络评论数据的特征信息；获得所述网络评论数据中的特征信息的分布；

所述装置进一步包括可视化模块，用于将所述特征信息的分布情况进行可视化处理，输出至输出设备。

在一种优选实施例中，所述挖掘模块具体用于：针对每条评论，进行分词，然后提取出其中的关键词，对关键词进行词性标注区分是属性词或是情感词。

在一种优选实施例中，所述挖掘模块具体使用TextRank方式从所述评论中挖掘提取出其中的关键词。

在一种优选实施例中，所述挖掘模块对所得到的属性词和情感词进行配对，具体为：

将所得到的所有属性词与所有情感词进行配对；

确定所述每一配对在原始评论数据中的出现概率；

将出现概率低于指定值的配对删除掉。

与现有技术相比，本发明在获取原始的网络评论数据后，通过初始阶段的遍历得到初始的属性词和情感词，然后进入迭代的遍历阶段，针对每条评论，根据预先设定的窗口距离，针对上一遍历阶段的属性词，在该属性词的前后窗口距离内查找新的情感词；针对上一遍历阶段的情感词，在该情感词的前后窗口距离内查找新的属性词；将本次遍历出的新的属性词和新的情感词与上一阶段的属性词和情感词合并，得到本阶段的属性词和情感词；重复本遍历阶段，直到遍历出的新的属性词和新的情感词的数量少于指定阈值时结束遍历阶段；对所得到的属性词和情感词进行配对；然后按照所述属性词和情感词的配对，建立句式库，对每一句式对应设置一种特征信息；按照所述句式库，对原始网络评论数据的评论进行句式匹配分析，得到评论对应句式的特征信息。本发明通过所述迭代遍历，提高了词库的丰富性和准确性，进而对后期的数据处理的广度和精度提供了良好的数据基础，从而最终提高从评论数据采集出的特征信息的准确性。

附图说明

图1为现有技术中Apriori方法的流程示意图；

图2为本发明所述网络评论数据的特征信息采集方法的一种流程图；

图3为本发明所述网络评论数据的特征信息采集装置的一种组成示意图；

图4为本发明所述网络评论数据的特征信息采集装置的一种处理示意图；

图5为本发明所述网络评论数据的特征信息采集装置的一种泳道处理示意图；

图6为本发明所述挖掘模块的执行流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图2为本发明所述网络评论数据的特征信息采集方法的一种流程图。参见图2，本发明所述的方法包括：

步骤201、获取原始的网络评论数据。

步骤202、包括后续的初始阶段和遍历阶段。

所述初始阶段包括：遍历所述网络评论数据中的每一条评论，针对每条评论，查找其中的属性词和情感词(解析出其中的关键词，对关键词进行词性分类)，得到初始阶段所遍历出的所有属性词和情感词，进入后续遍历阶段；

步骤203、按照所述属性词和情感词的配对，建立句式库，对每一句式对应设置一种特征信息；按照所述句式库，对原始网络评论数据的评论进行句式匹配分析，得到评论对应句式的特征信息。

在一种优选实施例中，该方法进一步包括：以指定的维度统计所述网络评论数据的特征信息；获得所述网络评论数据中的特征信息的分布，将所述特征信息的分布情况进行可视化处理，输出至输出设备(如显示器、打印机、或输出至文件生成器生成电子文件)。

与上述方法对应，本发明还公开了一种网络评论数据的特征信息采集装置。图3为本发明所述网络评论数据的特征信息采集装置的一种组成示意图。参见图3，该装置包括数据模块301、挖掘模块302、分析处理模块303，其中：

数据模块301，获取原始的网络评论数据；

挖掘模块302，用于执行初始阶段和遍历阶段处理；其中：

分析处理模块303，用于按照所述属性词和情感词的配对，建立句式库，对每一句式对应设置一种特征信息；按照所述句式库，对原始网络评论数据的评论进行句式匹配分析，得到评论对应句式的特征信息。

在一种优选实施例中，所述分析处理模块进一步用于：以指定的维度统计所述网络评论数据的特征信息；获得所述网络评论数据中的特征信息的分布；所述网络评论数据的特征信息采集装置进一步包括可视化模，如图4所示，用于将所述分析处理模块得到的特征信息的分布情况进行可视化处理，输出至输出设备(如显示器、打印机、或输出至文件生成器生成电子文件)。

图4为本发明所述网络评论数据的特征信息采集装置的一种处理示意图。图5为本发明所述网络评论数据的特征信息采集装置的一种泳道处理示意图。参见图4和图5，所述数据模块首先获取原始的网络评论数据，并可以进一步对原始的网络评论数据进行清洗整理，并分词。获取原始网络评论数据的具体方法例如可以通过Hive或者结构化查询语言(SQL)查询语句从现有的数据库中获取用户评论文本数据。如果是从外部数据源获取网络评论数据，则可以通过网络爬虫软件从网络上抓取。并可以通过观察大量的数据，了解数据后，制定一系列过滤条件，过滤掉无效或不需要的数据，即对数据进行清晰整理。并可以进一步对数据分词与词性标注，建立专有词库提升分词与词性标注效果。

数据模块获取原始的网络评论数据及进行相关的清洗处理后，发送给挖掘模块处理。挖掘模块首先执行所述初始阶段的处理，包括遍历所述网络评论数据中的每一条评论，针对每条评论，查找其中的属性词和情感词，得到初始阶段所遍历出的所有属性词和情感词。其中所述针对每条评论，查找其中的属性词和情感词，的具体方式包括：针对每条评论，进行分词，然后提取出其中的关键词，对关键词进行词性标注区分是属性词或是情感词。更进一步的，所述针对每条评论，提取出其中的关键词，具体包括：使用TextRank方法，从所述评论中挖掘提取出其中的关键词。所述TextRank方法是自然语言处理领域中的关键词提取模块的重要方法，其准确度和不需要语言模块的匹配特性让其在各方面运用。

例如在初始阶段，针对某一条评论“这部手机的信号质量很差”，还那么提取出的属性词可以是“信号”，提取出的情感词可以是“差”。

在初始阶段后，挖掘模块进入遍历阶段的处理，其中具体包括：遍历所述网络评论数据中的每一条评论，针对每条评论，根据预先设定的窗口距离，针对上一遍历阶段的属性词，在该属性词的前后窗口距离内查找新的情感词；针对上一遍历阶段的情感词，在该情感词的前后窗口距离内查找新的属性词；将本次遍历出的新的属性词和新的情感词与上一阶段的属性词和情感词合并，得到本阶段的属性词和情感词；重复本遍历阶段，直到遍历出的新的属性词和新的情感词的数量少于指定阈值时结束遍历阶段；对所得到的属性词和情感词进行配对。

图6为本发明所述挖掘模块的执行流程示意图，参见图6，所述挖掘模块的具体执行流程如下：首先针对每条评论，使用TextRank算法，从所述挖掘出每句评论中的关键词。关键词往往比较杂乱，因此使用词性标注，对关键词分类。属性词一般都为名词，情感词一般是形容词，从而获得初始阶段的属性词和情感词。由于在语义上，情感词形容属性词，所以在文本中关联性很大，且距离较近，所以本发明通过设定窗口距离，开始进入遍历阶段，在初始阶段的属性词附近找形容词性的关键词作为新的候选情感词。同样的在初始阶段的情感词附近找名词性的关键词作为新的候选属性词。然后过滤合并候选情感词和初始阶段情感词作为第二阶段的情感词，同理过滤合并候选属性词和初始阶段的属性词作为第二阶段的属性词。反复迭代所述遍历阶段，至出现较少的新的属性词和新的情感词结束。然后进行所述属性词和情感词配对，通过贝叶斯方法，过滤联合概率低的配对。

例如针对上述初始阶段的属性词“信号”，在再次遍历完每一条评论后，其窗口距离内查找的新的情感词可以是“好”、“不错”、“牛”、“烂”等；针对上述初始阶段的情感词“差”，在再次遍历完每一条评论后，其窗口距离内查找的新的属性词可以是“质量”、“屏幕”、“手机”等。这样的遍历阶段一遍一遍地迭代，得到属性词和情感词的广度和精度都有了保障，从而对后期的数据处理的广度和精度提供了良好的数据基础。

所述对所得到的属性词和情感词进行配对的具体方式包括：

步骤51、将所得到的所有属性词与所有情感词进行配对，得到一个配对集合；具体方式是，遍历每一个属性词，分别将该属性词与所有的情感词进行一一配对，得到配对集合。

步骤52、确定所述每一配对在原始评论数据中的出现概率，即通过贝叶斯方法计算出每一配对在原始评论数据中的联合概率，即出现概率。

步骤53、将出现概率低于指定值的配对从所述配对集合中删除掉。

之后，所述分析处理模块会以挖掘模块获得的属性词-情感词配对集合作为词典，建立句式库。句式库精确分析每句评论属于的句式，从而准确的获得用户想表达的信息。句式库中有否定句，双重否定句，肯定句，定语前置句等句式。对每一句式对应设置一种特征信息，例如对于评论的特征信息可以是评论观点，如“正面观点”、“反面观点”、“中立观点”等。

例如表2为举例说明句式库的具体内容及其对应的特征信息：

句式举例	对应的特征信息
		信号不好(否定句)	反面观点
信号差(肯定句)	反面观点
		信号很烂(肯定句)	反面观点
信号太牛(肯定句)	正面观点
		信号很水(肯定句)	反面观点
信号不是很好(否定句)	反面观点
		开机玩了几天没有发现什么不正常的地方(双重否定句)	正面观点
非常好的东西(定语前置句)	正面观点
		比想象中的好(比较句)	正面观点
手机虽然功能不多，但是很实(转折复合句)	正面观点
		不仅速度快，而且价格合(递进复合句)	正面观点
还行，如果USB接口是3.0的就完美了(假设复合句)	中立观点
		就是没有定时开关机，所以有点不方便(因果复合句)	反面观点
质量这么差，难道我这样一直用下去吗？(反问句)	反面观点

表2

之后按照所述句式库，对原始网络评论数据的评论进行句式匹配分析，得到评论对应的句式，再查询该句式对应的特征信息，例如哪些评论是正面观点，哪些评论是反面观点，哪些评论是中立观点。由于评论文本数据量巨大，分析处理会变的很慢，所以本发明的分析处理模块可以采用分布式系统MapReduce进行分析处理。

之后还可以以指定的维度统计所述网络评论数据的特征信息，获得所述网络评论数据中的特征信息的分布。如不同性别用户的观点，不同年龄段用户的观点，不同学历用户的观点，及时收到货物的用户的观点等，统计这些不同的观点在不同维度的用户分布。例如针对某一电影的评论，可能25～30岁的人80％都是正面观点，31～40岁的人70％是反面观点，等等。

所述可视化模块可以封装可视化接口，把统计结果可视化，获得用户评论中观点的分布，作为决策与优化的支持。

总之，本发明针对现有技术中关联规则挖掘对于“属性词-情感词”这种二元规则挖掘效果退化的缺陷，使用了关键词与词性标注挖掘，并进行遍历迭代增加的方式，极大丰富了词库，对后面的分析句式带来非常大的帮助。在准确率和覆盖率上都有很好的表现。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述各实施例的功能模块可以位于一个终端或网络节点，或者也可以分布到多个终端或网络节点上。

另外，本发明的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此本发明还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本发明上述方法的任何一种实施例。

另外，本发明所述的方法步骤除了可以用数据处理程序来实现，还可以由硬件来实现，例如，可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌入微控制器等来实现。因此这种可以实现本发明所述方法的硬件也可以构成本发明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种网络评论数据的特征信息采集方法，其特征在于，包括：

获取原始的网络评论数据；

2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：以指定的维度统计所述网络评论数据的特征信息；获得所述网络评论数据中的特征信息的分布，将所述特征信息的分布情况进行可视化处理，输出至输出设备。

3.根据权利要求1所述的方法，其特征在于，所述针对每条评论，查找其中的属性词和情感词，具体包括：针对每条评论，进行分词，然后提取出其中的关键词，对关键词进行词性标注区分是属性词或是情感词。

4.根据权利要求3所述的方法，其特征在于，所述针对每条评论，提取出其中的关键词，具体包括：使用TextRank方法，从所述评论中挖掘提取出其中的关键词。

5.根据权利要求1所述的方法，其特征在于，所述对所得到的属性词和情感词进行配对，具体包括：

将所得到的所有属性词与所有情感词进行配对；

确定所述每一配对在原始评论数据中的出现概率；

将出现概率低于指定值的配对删除掉。

6.一种网络评论数据的特征信息采集装置，其特征在于，包括：

数据模块，获取原始的网络评论数据；

挖掘模块，用于执行初始阶段和遍历阶段处理；其中：

7.根据权利要求6所述的装置，其特征在于，所述分析处理模块进一步用于：以指定的维度统计所述网络评论数据的特征信息；获得所述网络评论数据中的特征信息的分布；

8.根据权利要求6所述的装置，其特征在于，所述挖掘模块具体用于：针对每条评论，进行分词，然后提取出其中的关键词，对关键词进行词性标注区分是属性词或是情感词。

9.根据权利要求8所述的装置，其特征在于，所述挖掘模块具体使用TextRank方式从所述评论中挖掘提取出其中的关键词。

10.根据权利要求6所述的装置，其特征在于，所述挖掘模块对所得到的属性词和情感词进行配对，具体为：

将所得到的所有属性词与所有情感词进行配对；

确定所述每一配对在原始评论数据中的出现概率；

将出现概率低于指定值的配对删除掉。