CN106021433B

CN106021433B - 一种商品评论数据的口碑分析方法和装置

Info

Publication number: CN106021433B
Application number: CN201610321688.2A
Authority: CN
Inventors: 苏萌; 刘译璟; 苏海波; 张一帆; 杜晓梦; 刘国栋; 黄伟; 余锦煌; 徐岱
Original assignee: Beijing Baifendian Information Science & Technology Co Ltd
Current assignee: Beijing Percent Technology Group Co ltd
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2019-05-10
Anticipated expiration: 2036-05-16
Also published as: CN106021433A

Abstract

本发明实施例提供一种商品评论数据的口碑分析方法及装置，包括：接收输入的待分析商品评论数据，并对所述待分析商品评论数据进行分句处理；当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时，则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词；其中，所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapp i ng算法得到的；判断所述属性词是否存在属性树文件中，判断所述评价词是否存在评价文件中；当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时，从聚类映射文件中匹配所述属性词和评价词对应的口碑数据，获得目标口碑数据。

Description

一种商品评论数据的口碑分析方法和装置

技术领域

本发明涉及数据挖掘、机器学习技术领域，尤其涉及一种商品评论数据的口碑分析方法和装置。

背景技术

随着电子商务的发展，互联网上用户的商品评论数据与日俱增，商品评论数据具有多种行业、多属性、多方位评价等特点。多行业是指，电商经营的商品种类多种多样，有家电、有手机、有汽车等；多属性是指，每一个商品包含多个方面的属性，例如手机包括屏幕、电池、尺寸、颜色、价格等，而汽车包括油耗、外观、价格、操控、动力、座椅、中控台等等；多方位评价是指，表达同一个含义的说法很多，例如，讲“手机外观漂亮”的说法有“外观漂亮”、“外观大气”、“外观不错”、“外形很喜欢”、“外观高大上”等。

因此，对商品评论数据进行口碑分析能够为商家改进产品质量和服务质量提供数据支持。但现有技术只能够根据商品评论数据的某一种特点提出口碑分析的解决方案，并不能综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案。

发明内容

本发明提供一种商品评论数据的口碑分析方法和装置，可以综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案。

一方面，本发明实施例提供了一种商品评论数据的口碑分析方法，包括：

接收输入的待分析商品评论数据，并对所述待分析商品评论数据进行分句处理；

当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时，则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词；其中，所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的；

判断所述属性词是否存在属性树文件中，判断所述评价词是否存在评价文件中；其中，所述属性树文件用于表示属性文件中多种属性存在的上下级关系，所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的；

当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时，从聚类映射文件中匹配所述属性词和评价词对应的口碑数据，获得目标口碑数据。

另一方面，本发明实施例提供一种商品评论数据的口碑分析装置，包括：

接收模块，用于接收输入的待分析商品评论数据，并对所述待分析商品评论数据进行分句处理；

提取模块，用于当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时，则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词；其中，所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的；

判断模块，用于判断所述属性词是否存在属性树文件中，判断所述评价词是否存在评价文件中；其中，所述属性树文件用于表示属性文件中多种属性存在的上下级关系，所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的；

第一判定模块，用于当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时，从聚类映射文件中匹配所述属性词和评价词对应的口碑数据，获得目标口碑数据。

本发明实施例可以综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案，对商品评论数据进行口碑分析能够为商家改进产品质量和服务质量提供数据支持。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明第一实施例提供的商品评论数据的口碑分析方法的流程示意图；

图2为本发明第二实施例提供的商品评论数据的口碑分析方法的流程示意图；

图3为本发明第三实施例提供的商品评论数据的口碑分析方法的流程示意图；

图4为本发明第三实施例基于图3中步骤101提供的商品评论数据的口碑分析方法的流程示意图；

图5为本发明第三实施例基于图3中步骤102提供的商品评论数据的口碑分析方法的流程示意图；

图6为本发明第四实施例提供的商品评论数据的口碑分析方法的第一部分流程示意图；

图7为本发明第四实施例提供的商品评论数据的口碑分析方法的第二部分流程示意图；

图8为本发明第四实施例提供的汽车评论生成的口碑数据结果示意图；

图9为本发明第五实施例提供的商品评论数据的口碑分析装置的结构模块示意图；

图10为本发明第六实施例提供的电子终端的结构模块示意图。

具体实施方式

以下将配合附图及实施例来详细说明本申请的实施方式，藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

为能更好地理解本发明实施例介绍的方案，申请人在具体描述实施例之前解释下本发明实施例应用到的专业术语的含义，具体如下表1所示。

表1

请参阅图1，为本发明第一实施例提供一种商品评论数据的口碑分析方法，在步骤104，接收输入的待分析商品评论数据，并对所述待分析商品评论数据进行分句处理。

在步骤105，当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时，则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词；其中，所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的。

在步骤106，判断所述属性词是否存在属性树文件中，判断所述评价词是否存在评价文件中；其中，所述属性树文件用于表示属性文件中多种属性存在的上下级关系，所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的。

在步骤107，当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时，从聚类映射文件中匹配所述属性词和评价词对应的口碑数据，获得目标口碑数据。

请参阅图2，为本发明第二实施例提供一种商品评论数据的口碑分析方法，在步骤104，接收输入的待分析商品评论数据，并对所述待分析商品评论数据进行分句处理。

在步骤108，当判定所述属性词不存在所述属性树文件中或所述评价词不存在所述评价词文件中时，将所述属性词或评价词对应的口碑数据作为目标口碑数据。在这里，对于遗漏的口碑词汇，设计回收机制，保证口碑词汇量的持续扩充。

与现有技术相比，本发明实施例的优势在于：

第一，综合使用PageRank、PMI和Bootstrapping等算法，尽可能地实现系统的自动化，节约人力成本和时间成本；

第二，在关键环节设计生成属性树文件和聚类映射文件，保证口碑分析的正确性；

第三，对于遗漏的口碑词汇，设计回收机制，保证口碑词汇量的持续扩充。

请参阅图3，为本发明第三实施例提供的一种商品评论数据的口碑分析方法，其与第一实施例、第二实施例大致相同，不同之处在于，在步骤104之前还包括属性树文件、评价文件、规则文件和聚类映射文件的生成，具体可以如下。

在步骤101，获取输入的待训练商品评论数据，提取所述待训练商品评论数据的属性种子词和评价种子词。具体的，所述步骤101通过PageRank算法和/或PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词。

(一)步骤101基于PageRank算法提取商品评论数据的属性种子词和评价种子词。PageRank是搜索引擎中的一种网页排名算法，其通过网页之间的超链接计算得到每一个网页的重要性得分。具体的，通过PageRank算法提取所述待训练商品评论数据的属性种子词和评价种子词的实现可以如图4展示的流程图所示。

在步骤1011，对待训练文本进行分词，并进行词性标注；其中，所述待训练文本中包括待训练商品评论数据。

在本方案中，所述词性指的根据词语特点进行的词语分类，例如：名词、形容词、动词、代词、数量词等。

在步骤1012，提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容词；其中，所述待训练名词和待训练形容词位于同个待训练文本，且所述待训练名词位于待训练形容词之前。

具体的，所述提取所述文件中待训练商品评论数据的待训练名词和待训练形容词包括：设定一个大小为n的窗口，窗口滑过所有待训练文本；当窗口滑到某段待训练文本上时，如果窗口内的词语满足既有名词又有形容词、且名词在形容词前面的条件(例如：车身很美观，空间很大)，就将所述名词和形容词作为待训练名词和待训练形容词提取出来；其中，所述n为大于零的正整数。

在步骤1013，根据所述待训练名词和待训练形容词构建二分图G(V₁,V₂,E)；其中，二分图的V₁为提取出的所有待训练名词，V₂为提取出的所有待训练形容词。

具体的构造方法为：二分图的V₁为提取出的所有待训练名词，V₂为提取出的所有待训练形容词，如果待训练名词和待训练形容词在同一个窗口中被取出，就在这两个节点上加上无向边，作为二分图的边集E。

在步骤1014，给二分图的V₁和V₂随机分配权值PG(v_1i)和PG(v_2j)，并对权值PG(v_1i)和PG(v_2j)进行调整；其中v_1i表示V₁中的第i个节点，v_2j表示V₂中的第j个节点，调整权值的公式为：

其中p为参数(p其意义为随机跳转概率，这里可以取值为0.85)，c_2j为节点v_2j的边数，c_1i为节点v_1i的边数，n₁为V₁的节点数，n₂为V₂的节点数，M(v_1i)表示和节点v_1i相连接的节点，M(v_2j)表示和节点v_2j相连接的节点。

在步骤1015，重复步骤1014利用调整权值的公式进行权值调整的过程，迭代执行N次直至收敛即权重值PG(v_1i)和PG(v_2j)趋于稳定不变。

在步骤1016，对V₁，V₂节点根据权值从大到小排序并输出这些词语，得到属性种子词和评价种子词。

(二)步骤101基于PMI算法提取商品属性和商品评价种子词。PMI(PointwiseMutual Information)是一种信息论和统计学中用来描述两个随机变量之间相关性大小的方法。具体的，通过PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词的实现方式可以如下所示。

通过以下公式确定属性词X和评价词Y共同出现的概率PMI(X,Y)：

其中，X和Y为随机变量，p(X,Y)表示X和Y的联合概率，p(X)、p(Y)分别表示X和Y的概率。计算得到的PMI数值越大，则说明X和Y共同出现的概率越大。

通过计算评论数据中词汇的PMI可以得到属性种子词和评价种子词。在某一可行的实施方式中，当计算出来p(X,Y)大于预设阈值时，p(X,Y)对应的属性词X和评价词Y为属性种子词和评价种子词。

在步骤102，以所述属性种子词和评价种子词作为输入，调用Bootstrapping算法进行训练学习，生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件。步骤102的实现可以如图5所示的流程图所示。

在步骤1021，以训练语料以及包括属性种子词的属性种子词列表和包括评价种子词的评价种子词列表作为Bootstrapping算法的输入。具体的，所述训练语料为待训练商品评论数据。

在步骤1022，以每一“属性-评价”种子词对作为Bootstrapping算法的输入，从所述训练语料中遍历得出两个词汇之间存在的其他词汇，作为学习得到的规则输出。具体的，“属性-评价种子词”为属性种子词和评价种子词随机配对得到。

在步骤1023，以上述学到的规则作为Bootstrapping算法的输入，遍历所述训练语料，学习得到“属性-评价”扩展词对。故应当理解的是，“属性-评价”配对文件为对“属性-评价”种子词对进行步骤1022和1023后学习出来的。

在步骤1024，重复进行上述步骤1022的学习规则的过程和步骤1023的学习“属性-评价”扩展词对的过程，并设置迭代次数，得到属性文件、评价文件、“属性-评价”配对文件和规则文件。

在步骤103，根据所述属性文件生成属性树文件，根据所述“属性-评价”配对文件生成聚类映射文件。

在本实施例中，根据所述属性文件生成属性树文件主要用于解决多种属性之间存在上下级关系的问题。众所周知，一个商品可能包含有多个属性，并且属性之间可能存在上下级关系，例如手机评论中“速度”可能指“物流速度”，也可能指“手机运行的速度”，此时，单独以“速度”一词作为口碑的属性词，则不够准确。在本发明实施例中，通过设计属性树来构建商品的属性列表以及属性之间的上下级关系。具体的，所述根据所述属性文件生成属性树文件可以包括：

以所述属性文件作为属性树模型的输入，删除不准确的属性词，并添加遗漏属性词；

根据各属性之间的上下级关系，构建并生成属性树文件。具体的，属性树模型(也可以理解为属性树文件)格式可以为：一行表示一个属性，其后跟该属性的父节点，子节点和父节点之间以':'(英文冒号)分割，若一个属性有多个父节点，则父节点之间以'/'(斜线)分割。

在本实施例中，根据所述“属性-评价”配对文件生成聚类映射文件用于解决同义词属性和同义口碑聚类的问题。在大量的商品评论数据中，同一商品的一个属性可能会有不同的说法，例如，“外观”的同义词有“外形”“外表”，“舒适性”的同义词有“舒适感”“舒适度”等。另外，表达同一个意思的说法有多种。为了解决同义口碑聚类问题，本发明实施例中设计聚类映射文件，通过查找该映射文件，即可将表达相同含义的口碑映射到同一种说法上。具体的，所述根据所述“属性-评价”配对文件生成聚类映射文件包括：将属性的同义词、评价的同义词进行归类，生成聚类映射文件。具体的，聚类映射文件格式可以为：

"标准属性词:标准属性词/属性同义词1/属性同义词2/属性同义词3#评价词11/评价词12/评价词13&评价词21/评价词22&评价词31/评价词32/评价词33"。

在本发明上述实施例中，所述评价文件包括评价词列表，所述商品评论数据的口碑分析方法还包括：对评价文件进行筛选，删除评价文件中无效的评价词。删除无效或不需要的评价词可以使最终的评价文件中的评价词更为准确，从而可以使最终输出的口碑数据更具有数据支持的作用。

与现有技术相比，本发明实施例的优势在于：

请参阅图6至图8，图6和图7为本发明第四实施例提供的商品评论数据的口碑分析方法流程示意图，图8为利用本发明实施例汽车评论生成的口碑数据结果。本实施例大致分为以下过程：训练过程和预测过程。其中，训练过程可以线下进行也可以线上进行，主要用于生成属性树文件、评价文件、规则文件和聚类映射文件，以为后续的预测过程应用。预测过程主要用于线上应用，以根据输入的商品评论数据生成对应的口碑数据。

(Ⅰ)训练过程的实施步骤可以如图6所示，具体如下。

第一步，批量输入某一商品的评论数据(即待训练商品评论数据)，例如输入手机的评论数据。此步骤的数据量越大，训练得到的口碑模型的覆盖范围越全。

第二步，选择PageRank算法和/或者PMI算法提取商品的属性种子词和评价种子词。其实现过程可如前述实施例一至三所述，在此不再赘述。

第三步，以第二步生成的属性种子词和评价种子词作为输入，调用Bootstrapping算法进行模型训练，生成属性文件、评价文件、规则文件和“属性-评价”配对文件；

第四步，人工或智能设计属性文件，生成属性树文件；设计“属性-评价”配对文件，生成聚类映射文件；对评价文件进行筛选，删除不需要的评价词。

第五步，保存属性树文件、聚类映射文件、评价文件、规则文件，用于线上预测时使用。

(Ⅱ)预测过程的实施步骤可以如图7所示，具体如下。

第一步，输入商品的评论数据(即待分析商品数据)，并对商品评论数据进行分句处理。

第二步，针对评论中的每一条子句，遍历规则文件，判断其是否符合某一条规则，若不符合，则输出为空，结束；若符合某一条规则，则进入第三步。

第三步，根据符合的规则提取出属性词和评价词，判断属性词是否在属性树文件中，若在，进入第四步，否则，进入第五步。

第四步，判断评价词是否在评价文件中，若在，进入第六步，否则，进入第五步。

第五步，返回口碑分析结果，并保存口碑至待确定口碑文件中，结束。

第六步，从聚类映射文件中找到对应的标准口碑，返回该标准口碑，结束。

本实施例的具体应用可以如图8所示，当输入针对汽车标致308的商品评论数据时，通过上述预测过程的实施后，可以分析并提取出“空间大”、“空间满意”等口碑数据。

与现有技术相比，本发明实施例的优势在于：

请参阅图9，本发明第五实施例提供一种商品评论数据的口碑分析装置，包括：

接收模块901，用于接收输入的待分析商品评论数据，并对所述待分析商品评论数据进行分句处理；

提取模块902，用于当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时，则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词；其中，所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的；

判断模块903，用于判断所述属性词是否存在属性树文件中，判断所述评价词是否存在评价文件中；其中，所述属性树文件用于表示属性文件中多种属性存在的上下级关系，所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的；

第一判定模块904，用于当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时，从聚类映射文件中匹配所述属性词和评价词对应的口碑数据，获得目标口碑数据。

进一步的，所述商品评论数据的口碑分析装置第二判定模块：用于当判定所述属性词不存在所述属性树文件中或所述评价词不存在所述评价词文件中时，将所述属性词或评价词对应的口碑数据作为目标口碑数据。

进一步的，所述商品评论数据的口碑分析装置还包括：

获取模块，用于获取输入的待训练商品评论数据，提取所述待训练商品评论数据的属性种子词和评价种子词；

第一生成模块，用于以所述属性种子词和评价种子词作为输入，调用Bootstrapping算法进行训练学习，生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件；

第二生成模块，用于根据所述属性文件生成属性树文件，根据所述“属性-评价”配对文件生成聚类映射文件。

进一步的，所述评价文件包括评价词列表，所述装置还包括筛选模块：用于对评价文件进行筛选，删除无效的评价词。

进一步的，所述获取模块具体用于：通过PageRank算法和/或PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词。具体的，所述获取模块包括：

分词单元，用于对待训练文本进行分词，并进行词性标注；其中，所述待训练文本中包括待训练商品评论数据；

提取单元，用于提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容词；其中，所述待训练名词和待训练形容词位于同个待训练文本，且所述待训练名词位于待训练形容词之前；

构建单元，用于根据所述待训练名词和待训练形容词构建二分图G(V₁,V₂,E)；其中，二分图的V₁为提取出的所有待训练名词，V₂为提取出的所有待训练形容词；

调整单元，用于给二分图的V₁和V₂随机分配权值PG(v_1i)和PG(v_2j)，并对权值PG(v_1i)和PG(v_2j)进行调整；其中v_1i表示V₁中的第i个节点，v_2j表示V₂中的第j个节点，调整权值的公式为：

其中p为参数，c_2j为节点v_2j的边数，c_1i为节点v_1i的边数，n₁为V₁的节点数，n₂为V₂的节点数，M(v_1i)表示和节点v_1i相连接的节点，M(v_2j)表示和节点v_2j相连接的节点；

迭代单元，用于重复利用调整权值的公式进行权值调整，迭代执行N次直至收敛；

排序单元，用于对V₁，V₂节点根据权值从大到小排序并输出这些词语，得到属性种子词和评价种子词。

进一步的，所述提取单元，具体用于：设定一个大小为n的窗口，窗口滑过所有待训练文本；当窗口滑到某段待训练文本上时，如果窗口内的词语满足既有名词又有形容词，且名词在形容词前面的条件，就将所述名词和形容词作为待训练名词和待训练形容词提取出来；其中，所述n为大于零的正整数。

进一步的，所述调整单元具体用于：如果待训练名词和待训练形容词在同一个窗口中被取出，就在这两个节点上加上无向边，作为二分图的边集E。

进一步的，所述获取模块具体用于通过以下公式确定属性词X和评价词Y共同出现的概率PMI(X,Y)：

其中，X和Y为随机变量，p(X,Y)表示X和Y的联合概率，p(X)、p(Y)分别表示X和Y的概率；

通过计算评论数据中词汇的PMI可以得到属性种子词和评价种子词。

进一步的，所述第一生成模块件包括：

第一输入单元，用于以训练语料以及包括属性种子词的属性种子词列表和包括评价种子词的评价种子词列表作为Bootstrapping算法的输入；

第二输入单元，用于以每一“属性-评价”种子词对作为Bootstrapping算法的输入，从所述训练语料中遍历得出两个词汇之间存在的其他词汇，作为学习得到的规则输出；

第三输入单元，用于以上述学到的规则作为Bootstrapping算法的输入，遍历所述训练语料，学习得到“属性-评价”扩展词对；

输出单元，用于重复进行上述学习规则的过程和学习“属性-评价”扩展词对的过程，并设置迭代次数，得到属性文件、评价文件、“属性-评价”配对文件和规则文件。

进一步的，所述第二生成模块具体用于：

以所述属性文件作为输入，删除不准确的属性词，并添加遗漏属性词；

根据各属性之间的上下级关系，构建并生成属性树文件。

进一步的，所述第二生成模块具体用于：将属性的同义词、评价的同义词进行归类，生成聚类映射文件。

本实施例提供的商品评论数据的口碑分析装置可以执行上述第一至第四方法实施例中相应的步骤。

请参阅图10，示出了本发明第六实施例提供的一种电子终端，包括：

存储器(memory)1000；

通信接口(Communications Interface)1020；

一个或多个处理器(processor)1030；以及，

一个或多个模块1021，所述一个或多个模块被存储在所述存储器中并被配置成由所述一个或多个处理器执行，所述一个或多个模块1021用于执行以下步骤的指令：

综上所述，与现有技术相比，本发明实施例的优势在于：

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种商品评论数据的口碑分析方法，其特征在于，包括：

当判定所述待分析商品评论数据中具有匹配规则文件的规则的子句时，则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词；其中，所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的；

当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时，从聚类映射文件中匹配所述属性词和评价词对应的口碑数据，获得目标口碑数据；其中，

所述聚类映射文件是指针对某一商品构建的文件，所述文件中存储了属性的同义词、属性对应的评价词、以及评价词的情感极性分类。

2.根据权利要求1所述的方法，其特征在于，还包括：当判定所述属性词不存在所述属性树文件中或所述评价词不存在所述评价词文件中时，将所述属性词或评价词对应的口碑数据作为目标口碑数据。

3.根据权利要求1所述的方法，其特征在于，所述接收输入的待分析商品评论数据之前还包括：

获取输入的待训练商品评论数据，提取所述待训练商品评论数据的属性种子词和评价种子词；

以所述属性种子词和评价种子词作为输入，调用Bootstrapping算法进行训练学习，生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件；

根据所述属性文件生成属性树文件，根据所述“属性-评价”配对文件生成聚类映射文件。

4.根据权利要求3所述的方法，其特征在于，所述评价文件包括评价词列表，所述方法还包括：对评价文件进行筛选，删除无效的评价词。

5.根据权利要求3所述的方法，其特征在于，所述提取所述待训练商品评论数据的属性种子词和评价种子词包括：通过PageRank算法和/或PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词。

6.根据权利要求5所述的方法，其特征在于，通过PageRank算法提取所述待训练商品评论数据的属性种子词和评价种子词包括：

对待训练文本进行分词，并进行词性标注；其中，所述待训练文本中包括待训练商品评论数据；

提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容词；其中，所述待训练名词和待训练形容词位于同一个待训练文本，且所述待训练名词位于待训练形容词之前；

根据所述待训练名词和待训练形容词构建二分图G(V₁,V₂,E)；其中，二分图的V₁为提取出的所有待训练名词，V₂为提取出的所有待训练形容词；

给二分图的V₁和V₂随机分配权值PG(v_1i)和PG(v_2j)，并对权值PG(v_1i)和PG(v_2j)进行调整；其中v_1i表示V₁中的第i个节点，v_2j表示V₂中的第j个节点，调整权值的公式为：

重复利用调整权值的公式进行权值调整，迭代执行N次直至收敛；

对V₁，V₂节点根据权值从大到小排序并输出这些词语，得到属性种子词和评价种子词。

7.根据权利要求6所述的方法，其特征在于，所述提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容包括：

设定一个大小为n的窗口，窗口滑过所有待训练文本；当窗口滑到某段待训练文本上时，如果窗口内的词语满足既有名词又有形容词，且名词在形容词前面的条件，就将所述名词和形容词作为待训练名词和待训练形容词提取出来；其中，所述n为大于零的正整数。

8.根据权利要求7所述的方法，其特征在于，当所述根据所述待训练名词和待训练形容词构建二分图G(V₁,V₂,E)时：

如果待训练名词和待训练形容词在同一个窗口中被取出，就在这两个节点上加上无向边，作为二分图的边集E。

9.根据权利要求5所述的方法，其特征在于，通过PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词包括：

通过以下公式确定属性词X和评价词Y共同出现的概率PMI(X,Y)：

10.根据权利要求3所述的方法，其特征在于，所述以所述属性种子词和评价种子词作为输入，调用Bootstrapping算法进行训练学习，生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件包括：

以训练语料以及包括属性种子词的属性种子词列表和包括评价种子词的评价种子词列表作为Bootstrapping算法的输入；

以每一“属性-评价”种子词对作为Bootstrapping算法的输入，从所述训练语料中遍历得出两个词汇之间存在的其他词汇，作为学习得到的规则输出；

以上述学到的规则作为Bootstrapping算法的输入，遍历所述训练语料，学习得到“属性-评价”扩展词对；

重复进行上述学习规则的过程和学习“属性-评价”扩展词对的过程，并设置迭代次数，得到属性文件、评价文件、“属性-评价”配对文件和规则文件。

11.根据权利要求3所述的方法，其特征在于，所述根据所述属性文件生成属性树文件包括：

根据各属性之间的上下级关系，构建并生成属性树文件。

12.根据权利要求3所述的方法，其特征在于，所述根据所述“属性-评价”配对文件生成聚类映射文件包括：将属性的同义词、评价的同义词进行归类，生成聚类映射文件。

13.一种商品评论数据的口碑分析装置，其特征在于，包括：

提取模块，用于当判定所述待分析商品评论数据中具有匹配规则文件的规则的子句时，则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词；其中，所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的；

第一判定模块，用于当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时，从聚类映射文件中匹配所述属性词和评价词对应的口碑数据，获得目标口碑数据；其中，

14.根据权利要求13所述的装置，其特征在于，还包括第二判定模块：用于当判定所述属性词不存在所述属性树文件中或所述评价词不存在所述评价词文件中时，将所述属性词或评价词对应的口碑数据作为目标口碑数据。

15.根据权利要求13所述的装置，其特征在于，还包括：

16.根据权利要求15所述的装置，其特征在于，所述评价文件包括评价词列表，所述装置还包括筛选模块：用于对评价文件进行筛选，删除无效的评价词。

17.根据权利要求15所述的装置，其特征在于，所述获取模块具体用于：通过PageRank算法和/或PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词。

18.根据权利要求17所述的装置，其特征在于，所述获取模块包括：

提取单元，用于提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容词；其中，所述待训练名词和待训练形容词位于同一个待训练文本，且所述待训练名词位于待训练形容词之前；

19.根据权利要求18所述的装置，其特征在于，所述提取单元，具体用于：

20.根据权利要求19所述的装置，其特征在于，所述调整单元具体用于：

21.根据权利要求17所述的装置，其特征在于，所述获取模块具体用于：

通过以下公式确定属性词X和评价词Y共同出现的概率PMI(X,Y)：

22.根据权利要求15所述的装置，其特征在于，所述第一生成模块件包括：

23.根据权利要求15所述的装置，其特征在于，所述第二生成模块具体用于：

根据各属性之间的上下级关系，构建并生成属性树文件。

24.根据权利要求15所述的装置，其特征在于，所述第二生成模块具体用于：将属性的同义词、评价的同义词进行归类，生成聚类映射文件。