CN107967260B

CN107967260B - 一种数据处理方法、设备、系统及计算机可读介质

Info

Publication number: CN107967260B
Application number: CN201711283167.3A
Authority: CN
Inventors: 董超; 崔朝辉
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2021-09-14
Anticipated expiration: 2037-12-07
Also published as: CN107967260A

Abstract

本申请涉及一种数据处理方法、设备、系统及计算机程序产品，其中方法包括：对原始数据进行预处理以获得多个数据集；基于所检测到的情感标识和评价对象来生成包括内容项的意见短语，并且为每个意见短语设置关联权重；基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合；基于评价对象来获得多个正面对象组和多个负面对象组；以及基于每个正面对象组中内容项的组内相似度确定正面表达项，并基于每个负面对象组中内容项的组内相似度确定负面表达项。

Description

一种数据处理方法、设备、系统及计算机可读介质

技术领域

本申请涉及数据处理领域，并且更具体地涉及一种数据处理方法、设备、系统及计算机可读介质。

背景技术

目前，在针对用户评论数据进行处理的领域，通常需要针对用户评论数据中的典型意见进行抽取。典型意见抽取是指针对同一事件或话题的大量评论信息，通过文本处理抽取出评论信息中的具有代表性的观点或评论。典型意见抽取也可以理解成观点归纳或观点总结。典型意见抽取的意义在于其能够方便用户快速地从用户评论数据中了解相关的重点信息，并且可以从多个维度进行用户评论数据的归纳总结。

通常，典型意见抽取一般是针对某个事件、话题、产品的用户评论进行意见抽取。然而，现有技术中并没有针对用户评论数据进行有效地正面意见抽取和负面意见抽取的手段。在现有技术中，通常仅仅区分好评或差评并且将用户评论数据按照好评或差评进行分类展示。

发明内容

本申请针对用户评论数据的特点，将原始的用户评论数据进行正负面情感分析。通过将原始的用户评论数据分为正面评价和负面评价两部分，能够分别对这两部分进行正面意见抽取和负面意见抽取。通过意见抽取有助于形成意见短语并且意见短语是由若干字词组成。在确定意见短语后，可以确定与该意见短语具有同样观点的热度，其中观点的热度是指在所有用户评论中和该观点相类似的观点的权重累加和。通常，权重累加和越大，表明该观点更具代表性。

根据本发明的一个方面，提供一种数据处理方法，所述方法包括：

对原始数据进行预处理以获得多个数据集，其中每个数据集包括至少一个数据单元；

基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语，并且为每个意见短语设置关联权重；

基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合；

基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组，并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组；以及

基于每个正面对象组中内容项的组内相似度确定正面表达项，并基于每个负面对象组中内容项的组内相似度确定负面表达项。

在确定正面表达项之后还包括：基于关联权重计算所述正面表达项的热度，以及在确定负面表达项之后还包括：基于关联权重计算所述负面表达项的热度。

所述原始数据是与特定物品相关联的用户评论数据，并且所述对原始数据进行预处理以获得多个数据集包括：按照用户标识将与特定物品相关联的用户评论数据进行分类以生成多个评论集，并以用户标识作为每个评论集的唯一标识。

对每个评论集进行语义划分，以生成包括至少一个数据单元的数据集，其中所述数据单元为包括基本语义结构的句子。

在基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语之前还包括：对每个数据单元进行词语划分并且对经过词语划分所得到的词语进行词性标注。

对经过词语划分和词性标注的数据单元进行情感标识的检测，并且确定所检测到的情感标识的情感极性。

基于所检测到的情感标识确定相关联的评价对象，其中所述评价对象是词性为名词的词语。

基于所检测到的情感标识和相关联的评价对象确定所述内容项，所述内容项用于表示评论内容。

由所检测到的情感标识、相关联的评价对象、情感极性以及内容项组成意见短语。

所述基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合包括：基于情感标识的情感极性对意见短语进行分类，由情感极性为正面的意见短语组成正面意见短语集合并且由情感极性为负面的意见短语组成负面意见短语集合。

所述基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组包括：以不同的评价对象作为分组标识符，将所述正面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的正面对象组；和/或

所述基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组包括：以不同的评价对象作为分组标识符，将所述负面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的负面对象组。

所述基于每个正面对象组中内容项的组内相似度确定正面表达项包括：确定每个正面对象组的意见短语中的至少一个内容项，计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度，将匹配相似度的和作为内容项的组内相似度，将组内相似度最大的内容项作为正面表达项；其中，所述正面表达项用于代表正面对象组；和/或

所述基于每个负面对象组中内容项的组内相似度确定负面表达项包括：确定每个负面对象组的意见短语中的至少一个内容项，计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度，将匹配相似度的和作为内容项的组内相似度，将组内相似度最大的内容项作为负面表达项；其中，所述负面表达项用于代表负面对象组。

所述基于关联权重计算所述正面表达项的热度包括：将所述正面表达项所对应的正面对象组的权重累加和作为所述正面表达项的热度；

所述基于关联权重计算所述负面表达项的热度包括：将所述负面表达项所对应的负面对象组的权重累加和作为所述负面表达项的热度。

将正面对象组中所有意见短语的关联权重求和以确定所述权重累加和；和/或将负面对象组中所有意见短语的关联权重求和以确定所述权重累加和。

还包括：根据所述正面表达项的热度对所述正面表达项和热度的匹配对进行降序排列以生成正面表达项列表；从所述正面表达项列表中获取预定数量的匹配对以作为结果数据；及

根据所述负面表达项的热度对所述负面表达项和热度的匹配对进行降序排列以生成负面表达项列表；从所述负面表达项列表中获取预定数量的匹配对以作为结果数据。

根据本发明的另一方面，提供一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组；以及

基于每个正面对象组中内容项的组内相似度确定正面表达项并基于每个负面对象组中内容项的组内相似度确定负面表达项。

根据本发明的另一方面，提供一种数据处理系统，其特征在于，所述系统包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行如上所述的方法。

根据本发明的另一方面，提供一种数据处理设备，所述设备包括：

预处理装置，对原始数据进行预处理以获得多个数据集，其中每个数据集包括至少一个数据单元；

生成装置，基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语，并且为每个意见短语设置关联权重；

分类装置，基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合；

分组装置，基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组；以及

处理装置，基于每个正面对象组中内容项的组内相似度确定正面表达项并基于每个负面对象组中内容项的组内相似度确定负面表达项。

本申请提出了针对用户评论数据进行表达项抽取的技术方案。这种技术方案能够针对用户评论数据进行正负极性的情感判断，并分别针对正负极性的评论数据进行意见短语抽取，通过表达项获取来实现对代表性意见的抽取，实现对原始评论数据的表达项的抽取。在抽取了表示代表性意见的表达项之后，通过统计方法对表达项的热度进行计算。本申请的数据处理方案能够为用户提供更为直观的表达项，从而为用户了解相关物品提供了更为便利和直观的方式。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的数据处理方法的流程图；

图2为根据本发明实施方式的表达项获取方法的流程图；

图3为根据本发明实施方式的正面表达项列表的示意图；

图4为根据本发明实施方式的负面表达项列表的示意图；以及

图5为根据本发明实施方式的数据处理设备的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施方式，提供这些实施方式是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的数据处理方法100的流程图。本实施方式针对用户评论数据的特点，将原始的用户评论数据进行正负面情感分析。通过将原始的用户评论数据分为正面评价和负面评价两部分，能够分别对这两部分进行正面意见抽取和负面意见抽取。通过表达项获取来实现对代表性意见的抽取，并通过统计方法对表达项(也可以被称为典型意见)热度的计算，最终实现对原始评论数据的表达项的抽取。

方法100从步骤101处开始。在步骤101，对原始数据进行预处理以获得多个数据集，其中每个数据集包括至少一个数据单元。其中原始数据是与特定物品相关联的用户评论数据。举例来说，针对与某个产品相关的所有用户评论数据D进行用户评论数据的归类。将属于同一用户的一条或多条评论组合成一条评论数据，并以该用户的标识符ID作为评论数据的唯一标识。例如，用户评论数据涉及的用户的总数为N，那么D＝{T₁,T₂,...,T_N}，其中T_i表示用户i的评论数据。

其中对原始数据进行预处理以获得多个数据集包括：按照用户标识将与特定物品相关联的用户评论数据进行分类以生成多个评论集，并且以用户标识作为每个评论集的唯一标识。具体地，对属于每个用户的评论数据T进行句子切分。句子切分的原则是将原始的较长评论数据按照标点符号进行断句切分，例如按照逗号、冒号、感叹号等进行句子分割。原始的用户评论数据T被切分成多条单句S，即T＝{S₁,S₂,...,S_L}，其中T为用户的评论数据并且L表示单句的句子数，其中每个单句S作为一个数据单元。本实施方式还可以对每个评论集进行语义划分，以生成包括至少一个数据单元的数据集，其中所述数据单元为包括基本语义结构的句子。按照语义进行划分的好处在于能够更为准确和完整地确定基本的表达单元(或结构)。

在步骤102，基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语，并且为每个意见短语设置关联权重。其中在基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语之前还包括：对每个数据单元进行词语划分并且对经过词语划分所得到的词语进行词性标注。例如，对用户的评论数据T中每条单句S进行情感分类。首先，情感分析采用基于情感词典的方式进行情感极性判断。本实施方式将评论数据主要分为正面评论、负面评论和中性评论。通过基于情感词典的情感分析，将每条单句S赋予一个情感极性sen(正面/负面/中性)。即，本实施方式根据sen＝pos(表示正向)，或者sen＝neg(表示负向)，进行情感分类。如果sen为中性，则不进行任何处理。对单句S进行中文分词以及词性标注，并记录分词结果中每个词语在原始的单句S中的位置。

对经过词语划分和词性标注的数据单元进行情感标识的检测，并且确定所检测到的情感标识的情感极性。基于所检测到的情感标识确定相关联的评价对象，其中所述评价对象是词性为名词的词语。基于所检测到的情感标识和相关联的评价对象确定所述内容项，所述内容项用于表示评论内容。本实施方式由所检测到的情感标识、相关联的评价对象、情感极性以及内容项组成意见短语。即，意见短语的数据结构为phrase＝{content，polar，sentimentWord，objectWord}，其中content表示意见短语本身内容(即内容项)，polar表示意见短语的情感极性(正面/负面)，sentimentWord表示该意见短语中的情感词(即情感标识)，以及objectWord表示该意见短语所描述的对象词(即评价对象)。

下面介绍用于确定意见短语的具体方式：通过预先设定的意见短语抽取规则ExtractionRule进行意见短语抽取，ExtractionRule是以列表的方式存在，例如ExtractionRule＝{(n,5,sw),(sw,5,n),(n,start,sw),(sw,end,n)}，其中(n,5,sw)表示从情感词位置向前5位区间内找名词，(sw,5,n)表示情感词位置向后5位区间内找名词，(n,start,sw)表示情感词位置向前至句首区间内找名词，(sw,end,n)表示情感词位置向后至句末区间内找名词，具体规则不限定上述所描述四种。本申请以(n,start,sw)举例说明意见短语抽取方式。对于经过中文分词以及词性标注后的每个评论句(或单句)S，通过情感词典识别出情感词的位置。此外，若单句S中存在情感词sw，则记录情感词sw在单句S中的位置index。若单句S中不存在情感词sw，则丢弃这个单句S。从index开始在单句S中向前寻找词性为名词的词以作为意见短语的对象词。如果找到名词ow，则记录名词的位置startIndex；若没有找到名词，则不做记录或丢弃这个单句S。在单句S中截取从startIndex位置开始至单句S结束处的内容作为意见短语phrase，并设置意见短语的表示结构phrase＝{S.substring(startIndex,end),sen,sw,ow}。可选地，如果startIndex位置不存在，则设置phrase＝{S,sen,sw,null}，即指示后续处理中放弃这个意见短语。举例来说，评论单句为“我觉得这本书确实很不错”，那么通过情感分类得到sen＝pos(正面)并且情感词为“不错”。从位置“不错”往前找到第一个名词“书”，则意见短语phrase＝{“书确实很不错”，“pos”，“不错”，“书”}。本实施方式对于每个用户的评论数据T＝{S₁,S₂，...，S_L}中的每条句子S，通过情感分类以及意见短语抽取，形成意见短语集合P＝{p₁,p₂,...,p_J}，其中J表示T中包含的意见短语数量。

随后，本实施方式根据每个数据集所对应的意见短语的数量为每个意见短语设置关联权重。所属领域技术人员应当了解的是，设置关联权重的步骤在步骤105之前进行即可，并不限定必须在此处进行。例如，由于考虑到不同用户的评论数据长度各异并且需要考虑观点权重的公正分配，将单个用户下的意见短语集合中每条意见短语赋值权重为

(p_i∈P＝{p₁,p₂,...,p_J})，其中J表示评论数据T中包含的意见短语的数量。

通过以上处理，将针对所有用户的评论数据进行意见短语的抽取，形成所有用户的意见短语集合PhraseSet＝{p₁,p₂,...,p_N}，其中P_i＝{p_i1,p_i2,...,p_iJ}。

在步骤103，基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合。基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合包括：基于情感标识的情感极性对意见短语进行分类，由情感极性为正面的意见短语组成正面意见短语集合并且由情感极性为负面的意见短语组成负面意见短语集合。即，将意见短语集合PhraseSet中每一条意见短语按照情感极性进行归类：分为正面意见短语集合PosPhraseSet以及负面意见短语集合NegPhraseSet，从而实现意见短语情感的极性归类。

在步骤104，基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组。其中基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组包括：以不同的评价对象作为分组标识符，将所述正面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的正面对象组。其中基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组包括：以不同的评价对象作为分组标识符，将所述负面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的负面对象组。

例如，本实施方式分别对正面意见短语集合PosPhraseSet以及负面意见短语集合NegPhraseSet进行评价对象归类。评价对象为意见短语的数据结构中的名词(针对于具有相同含义的名词，进行同义词合并处理)，通过对评价对象归类，PosPhraseSet以及NegPhraseSet都被切分成了多个组(或集合)，每个组的格式为{名词：属于该名词的意见短语}。

正面意见短语集合PosPhraseSet：

负面意见短语集合NegPhraseSet：

在步骤105，基于每个正面对象组中内容项的组内相似度确定正面表达项并基于每个负面对象组中内容项的组内相似度确定负面表达项。所述基于每个正面对象组中内容项的组内相似度确定正面表达项包括：确定每个正面对象组的意见短语中的至少一个内容项，计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度，将匹配相似度的和作为内容项的组内相似度，将组内相似度最大的内容项作为正面表达项。其中所述计算每个内容项与组内所有其它内容项的匹配相似度包括：计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度。所述正面表达项用于代表正面对象组。

其中基于每个负面对象组中内容项的组内相似度确定负面表达项包括：确定每个负面对象组的意见短语中的至少一个内容项，计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度，将匹配相似度的和作为内容项的组内相似度，将组内相似度最大的内容项作为负面表达项。计算每个内容项与组内所有其它内容项的匹配相似度包括：计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度。负面表达项用于代表负面对象组。

在确定正面表达项之后还包括：基于关联权重计算所述正面表达项的热度，以及在确定负面表达项之后还包括：基于关联权重计算所述负面表达项的热度。其中基于关联权重计算所述正面表达项的热度包括：将所述正面表达项所对应的正面对象组的权重累加和作为所述正面表达项的热度。将正面对象组中所有意见短语的关联权重求和以确定所述权重累加和。其中基于关联权重计算所述负面表达项的热度包括：将所述负面表达项所对应的负面对象组的权重累加和作为所述负面表达项的热度。将负面对象组中所有意见短语的关联权重求和以确定所述权重累加和。

根据所述正面表达项的热度对所述正面表达项和热度的匹配对进行降序排列以生成正面表达项列表。从所述正面表达项列表中获取预定数量的匹配对以作为结果数据。并且，根据所述负面表达项的热度对所述负面表达项和热度的匹配对进行降序排列以生成负面表达项列表。从所述负面表达项列表中获取预定数量的匹配对以作为结果数据。

随后，将表达项按照其对应的热度大小进行降序排列，并且输出顶部K(TopK)的结果作为最终的表达项(K可自定义，一般设置为5、7、9等各种数值)，以实现表达项结果输出。例如，在某电商网站上通过爬虫技术对该网站上的图书评论进行了抓取，抓取的总评论条数为1000+。通过本申请的表达项抽取方法，分别对正面评论以及负面评论进行表达项抽取。最后分别取排名前5的表达项。

本实施方式提出的表达项抽取方案能够高效地对文本评论数据进行正负面表达项的抽取，并且针对正负面的意见，能够对意见进行观点聚合，找出具有代表性的意见短语，并计算出持该意见短语的观点数。本实施方式的数据处理方法能够为用户提供更为直观的表达项和表达项的统计热度，从而为用户了解相关物品提供了更为便利和直观的方式。

图3为根据本发明实施方式的正面表达项列表的示意图。如图3所示，正面表达项列表包括：

书的质量不错：362

物流很快：305

孩子很喜欢：284

印刷不错：229

包装很高大上：195

……。

其中书的质量不错、物流很快、孩子很喜欢、印刷不错以及包装很高大上为正面表达项。362、305、284、229以及195为正面表达项的热度。图3仅示出了正面表达项列表中的热度排名靠前的5个正面表达项，而将其余的正面表达项省略。

图4为根据本发明实施方式的负面表达项列表的示意图。如图4所示，负面表达项列表包括：

物流有点慢：35

纸张有异味：28

价格比较贵：26

不适合小学生看：14

字体不够清晰：10

……。

其中物流有点慢、纸张有异味、价格比较贵、不适合小学生看以及字体不够清晰为负面表达项。35、28、26、14以及10为负面表达项的热度。图4仅示出了负面表达项列表中的热度排名靠前的5个负面表达项，而将其余的负面表达项省略。

图2为根据本发明实施方式的表达项获取方法200的流程图。表达项获取方法200是从用户评价数据的正负面方向进行各部分的表达项抽取。输入的是多条评论文本信息，并且输出的是用户的正面表达项以及负面表达项。表达项的表现形式为文字短语并结合持该观点的论据热度。表达项获取方法200从步骤201处开始。

在步骤201，根据用户对原始评论数据进行归类。针对与某个产品相关的所有用户评论数据D进行用户评论数据的归类。将属于同一用户的一条或多条评论组合成一条评论数据，并以该用户的标识符ID作为评论数据的唯一标识。例如，用户评论数据涉及的用户的总数为N，那么D＝{T₁,T₂,...,T_N}，其中T_i表示用户i的评论数据。

在步骤202，按照标点符号对用户评论数据进行句子切分。对属于每个用户的评论数据T进行句子切分。句子切分的原则是将原始的较长评论数据按照标点符号进行断句切分，例如按照逗号、冒号、感叹号等进行句子分割。原始的用户评论数据T被切分成多条单句S，即T＝{S₁,S₂,...,S_L}，其中T为用户的评论数据并且L表示单句的句子数。

在步骤203，对评论句进行情感分类并且生成意见短语。对用户的评论数据T中每条单句S进行情感分类：首先，情感分析采用基于情感词典的方式进行情感极性判断。本实施方式将评论数据主要分为正面评论、负面评论和中性评论。通过基于情感词典的情感分析，将每条单句S赋予一个情感极性sen(正面/负面/中性)。情感词典中的正向情感词确定单句S的情感极性为正向，而情感词典中的负向情感词确定单句S的情感极性为负向。即，本实施方式根据sen＝pos(表示正向)，或者sen＝neg(表示负向)，进行情感分类。如果sen为中性，则不进行任何处理。对单句S进行中文分词以及词性标注，并记录分词结果中每个词语在原始的单句S中的位置。

意见短语的数据结构为phrase＝{content，polar，sentimentWord，objectWord}，其中content表示意见短语本身内容(即内容项)，polar表示意见短语的情感极性(正面/负面)，sentimentWord表示该意见短语中的情感词(即情感标识)，以及objectWord表示该意见短语岁描述的对象词(即评价对象)。用于确定意见短语的具体方式包括：对于经过中文分词以及词性标注后的每个评论句(或单句)S，通过情感词典识别出情感词的位置。此外，若单句S中存在情感词sw，则记录情感词sw在单句S中的位置index。若单句S中不存在情感词sw，则丢弃这个单句S。从index开始在单句S中向前寻找词性为名词的词以作为意见短语的对象词。如果找到名词ow，则记录名词的位置startIndex；若没有找到名词，则不做记录或丢弃这个单句S。在单句S中截取从startIndex位置开始至单句S结束处的内容作为意见短语phrase，并设置意见短语的表示结构phrase＝{S.substring(startIndex,end),sen,sw,ow}。可选地，如果startIndex位置不存在，则设置phrase＝{S,sen,sw,null}，即指示后续处理中放弃这个意见短语。举例来说，评论单句为“我觉得这本书确实很不错”，那么通过情感分类得到sen＝pos(正面)并且情感词为“不错”。从位置“不错”往前找到第一个名词“书”，则意见短语phrase＝{“书确实很不错”，“pos”，“不错”，“书”}。本实施方式对于每个用户的评论数据T＝{S₁,S₂,...,S_L}中的每条句子S，通过情感分类以及意见短语抽取，形成意见短语集合P＝{p₁,p₂,...,p_J}，其中J表示T中包含的意见短语数量。

在步骤204，针对意见短语进行权重计算。所属领域技术人员应当了解的是，设置关联权重的步骤在步骤207之前进行即可，并不限定必须在此处进行由于考虑到不同用户的评论数据长度各异并且需要考虑观点权重的公正分配，将单个用户下的意见短语集合中每条意见短语赋值权重为

(p_i∈P＝{p₁,p₂,...,p_J})，其中J表示评论数据T中包含的意见短语的数量。通过以上处理，将针对所有用户的评论数据进行意见短语的抽取，形成所有用户的意见短语集合PhraseSet＝{p₁,p₂,...,p_N}，其中P_i＝{p_i1,p_i2,...,p_iJ}。

在步骤205，根据情感极性对意见短语进行分类。本实施方式根据情感极性分别对正面意见短语集合PosPhraseSet以及负面意见短语集合NegPhraseSet进行归类。

在步骤206，根据评价对象对意见短语进行归类。评价对象为意见短语的数据结构中的名词(针对于具有相同含义的名词，进行同义词合并处理)，通过对评价对象归类，PosPhraseSet以及NegPhraseSet都被切分成了多个组(或集合)，每个组的格式为{名词：属于该名词的意见短语}。

正面意见短语集合PosPhraseSet：

负面意见短语集合NegPhraseSet：

在步骤207，获取表达项(即典型意见)并且在获取表达项之后进行相关联的热度统计。具体地，本实施方式对PosPhraseSet以及NegPhraseSet按名词归类后的每个元素{posnon:posnonPhrase}或{negnon:negnonPhrase}进行表达项抽取。抽取posnonPhrase集中的所有意见短语phrase中的内容项content，形成意见短语的内容列表phrCon＝{con₁,con₂,...,con_posnonum}，其中posnonnum表示posnonPhrase中意见短语phrase的个数。获取posnonPhrase中所有意见短语phrase的权重weight，从而形成意见短语权重列表phrWeight＝{weight₁,weight₂,...,weight_posnonum}。

通过表达项抽取函数，从phrCon中抽取出表达项(即典型意见)opinion的计算公式为：

其中，

表示两个文本字符串之间的相似度，

计算公式为：

其中，con_i∩con_j表示两个字符串的交集，即两个字符串相同字的个数。con_i∪con_j表示两个字符串的并集，即两个字符串不重复字的个数。

本实施方式以{posnon：posnonPhrase}为例进行表达项获取方法的说明，应当了解的是，计算{negnon：negnonPhrase}的表达项的方法与{posnon：posnonPhrase}的表达项的方法原理相同，因此不再赘述。

例如，表达项热度统计，当前表达项的热度计算公式为：

其中posnonnum表示posnonPhrase中意见短语phrase的个数，weight_i表示意见短语i的权重。本实施方式以{posnon：posnonPhrase}为例进行表达项热度计算的说明，应当了解的是，计算{negnon：negnonPhrase}的表达项的热度的方法与{posnon：posnonPhrase}的表达项的热度的方法原理相同，因此不再赘述。

在步骤208，针对表达项进行排序并且进行TopK输出。例如，原始的评论数据D通过用户评论归类、情感分类以及意见短语抽取、意见短语权重计算、情感极性归类、对象归类以及表达项抽取及热度计算，最终形成正面表达项列表

posOpinionResult＝{(posOpinion₁，posOpinionWe ight₁)，(posOpinion₂，posOpinionWe ight₂)，...，(posOpinion_prvposOpiniontWeight_pn)}

以及负面表达项列表

negOpinionResult＝{(negOpinion₁，negOpinionWeight₁)，(negOpinion₂，negOpinionWeight₂)，...，(negOpinion_nn，negOpinionWeight_nn)}}

随后，将posOpinionResult以及negOpinionResult中的表达项按照其对应的热度大小进行降序排列，并且输出顶部K(TopK)的结果作为最终的表达项(K可自定义，一般设置为5、7、9等各种数值)，以实现表达项结果输出。

图5为根据本发明实施方式的数据处理设备500的结构示意图。本实施方式针对用户评论数据的特点，将原始的用户评论数据进行正负面情感分析。通过将原始的用户评论数据分为正面评价和负面评价两部分，能够分别对这两部分进行正面意见抽取和负面意见抽取。通过中心句聚类实现对代表性意见的抽取，并通过统计方法对表达项(即典型意见)热度的计算，最终实现对原始评论数据的表达项的抽取。

数据处理设备500包括：预处理装置501、生成装置502、分类装置503、分组装置504以及处理装置505。预处理装置501对原始数据进行预处理以获得多个数据集，其中每个数据集包括至少一个数据单元。其中原始数据是与特定物品相关联的用户评论数据。举例来说，预处理装置501针对与某个产品相关的所有用户评论数据D进行用户评论数据的归类。将属于同一用户的一条或多条评论组合成一条评论数据，并以该用户的标识符ID作为评论数据的唯一标识。例如，用户评论数据涉及的用户的总数为N，那么D＝{T₁，T₂，...，T_N}，其中T_i表示用户i的评论数据。

其中预处理装置501对原始数据进行预处理以获得多个数据集包括：按照用户标识将与特定物品相关联的用户评论数据进行分类以生成多个评论集，并且以用户标识作为每个评论集的唯一标识。具体地，预处理装置501对属于每个用户的评论数据T进行句子切分。句子切分的原则是将原始的较长评论数据按照标点符号进行断句切分，例如按照逗号、冒号、感叹号等进行句子分割。原始的用户评论数据T被切分成多条单句S，即T＝{S₁,S₂,...,S_L}，其中T为用户的评论数据并且L表示单句的句子数，其中每个单句S作为一个数据单元。本实施方式还可以对每个评论集进行语义划分，以生成包括至少一个数据单元的数据集，其中所述数据单元为包括基本语义结构的句子。按照语义进行划分的好处在于能够更为准确和完整地确定基本的表达单元(或结构)。

生成装置502基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语，并且为每个意见短语设置关联权重。其中在基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语之前还包括：对每个数据单元进行词语划分并且对经过词语划分所得到的词语进行词性标注。例如，生成装置502对用户的评论数据T中每条单句S进行情感分类。首先，情感分析采用基于情感词典的方式进行情感极性判断。本实施方式将评论数据主要分为正面评论、负面评论和中性评论。通过基于情感词典的情感分析，将每条单句S赋予一个情感极性sen(正面/负面/中性)。情感词典中的正向情感词确定单句S的情感极性为正向，而情感词典中的负向情感词确定单句S的情感极性为负向。即，本实施方式根据sen＝pos(表示正向)，或者sen＝neg(表示负向)，进行情感分类。如果sen为中性，则不进行任何处理。对单句S进行中文分词以及词性标注，并记录分词结果中每个词语在原始的单句S中的位置。

生成装置502对经过词语划分和词性标注的数据单元进行情感标识的检测，并且确定所检测到的情感标识的情感极性。基于所检测到的情感标识确定相关联的评价对象，其中所述评价对象是词性为名词的词语。基于所检测到的情感标识和相关联的评价对象确定所述内容项，所述内容项用于表示评论内容。本实施方式由所检测到的情感标识、相关联的评价对象、情感极性以及内容项组成意见短语。即，意见短语的数据结构为phrase＝{content，polar，sentimentWord，objectWord}，其中content表示意见短语本身内容(即内容项)，polar表示意见短语的情感极性(正面/负面)，sentimentWord表示该意见短语中的情感词(即情感标识)，以及objectWord表示该意见短语岁描述的对象词(即评价对象)。

下面介绍用于确定意见短语的具体方式：通过预先设定的意见短语抽取规则ExtractionRule进行意见短语抽取，ExtractionRule是以列表的方式存在，例如ExtractionRule＝{(n，5，sw),(sw，5,n),(n,start,sw),(sw,end,n)}，其中(n,5,sw)表示从情感词位置向前5位区间内找名词，(sw,5,n)表示情感词位置向后5位区间内找名词，(n,start,sw)表示情感词位置向前至句首区间内找名词，(sw,end,n)表示情感词位置向后至句末区间内找名词，具体规则不限定上述所描述四种。本申请以(n，start，sw)举例说明意见短语抽取方式。对于经过中文分词以及词性标注后的每个评论句(或单句)S，通过情感词典识别出情感词的位置。此外，若单句S中存在情感词sw，则记录情感词sw在单句S中的位置index。若单句S中不存在情感词sw，则丢弃这个单句S。从index开始在单句S中向前寻找词性为名词的词以作为意见短语的对象词。如果找到名词ow，则记录名词的位置startIndex；若没有找到名词，则不做记录或丢弃这个单句S。在单句S中截取从startIndex位置开始至单句S结束处的内容作为意见短语phrase，并设置意见短语的表示结构phrase＝{S.substring(startIndex,end),sen,sw,ow}。可选地，如果startIndex位置不存在，则设置phrase＝{S,sen,sw,null}，即指示后续处理中放弃这个意见短语。举例来说，评论单句为“我觉得这本书确实很不错”，那么通过情感分类得到sen＝pos(正面)并且情感词为“不错”。从位置“不错”往前找到第一个名词“书”，则意见短语phrase＝{“书确实很不错”，“pos”，“不错”，“书”}。本实施方式对于每个用户的评论数据T＝{S₁,S₂,...,S_L}中的每条句子S，通过情感分类以及意见短语抽取，形成意见短语集合P＝{p₁，p₂，...，p_J}，其中J表示T中包含的意见短语数量。

(p_i∈P＝{p₁,p₂，...，p_J})，其中J表示评论数据T中包含的意见短语的数量。

通过以上处理，将针对所有用户的评论数据进行意见短语的抽取，形成所有用户的意见短语集合PhraseSet＝{p₁,p₂,...，p_N}，其中P_i＝{p_i1,p_i2,...,p_iJ}。

分类装置503基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合。基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合包括：基于情感标识的情感极性对意见短语进行分类，由情感极性为正面的意见短语组成正面意见短语集合并且由情感极性为负面的意见短语组成负面意见短语集合。即，将意见短语集合PhraseSet中每一条意见短语按照情感极性进行归类：分为正面意见短语集合PosPhraseSet以及负面意见短语集合NegPhraseSet，从而实现意见短语情感的极性归类。

分组装置504基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组。其中基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组包括：以不同的评价对象作为分组标识符，将所述正面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的正面对象组。其中基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组包括：以不同的评价对象作为分组标识符，将所述负面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的负面对象组。

例如，分组装置504分别对正面意见短语集合PosPhraseSet以及负面意见短语集合NegPhraseSet进行评价对象归类。评价对象为意见短语的数据结构中的名词(针对于具有相同含义的名词，进行同义词合并处理)，通过对评价对象归类，PosPhraseSet以及NegPhraseSet都被切分成了多个组(或集合)，每个组的格式为{名词：属于该名词的意见短语}。

正面意见短语集合PosPhraseSet：

负面意见短语集合NegPhraseSet：

处理装置505基于每个正面对象组中内容项的组内相似度确定正面表达项，并基于每个负面对象组中内容项的组内相似度确定负面表达项。所述基于每个正面对象组中内容项的组内相似度确定正面表达项包括：确定每个正面对象组的意见短语中的至少一个内容项，计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度，将匹配相似度的和作为内容项的组内相似度，将组内相似度最大的内容项作为正面表达项。其中所述计算每个内容项与组内所有其它内容项的匹配相似度包括：计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度。所述正面表达项用于代表正面对象组。

其中处理装置505基于每个负面对象组中内容项的组内相似度确定负面表达项包括：确定每个负面对象组的意见短语中的至少一个内容项，计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度，将匹配相似度的和作为内容项的组内相似度，将组内相似度最大的内容项作为负面表达项。计算每个内容项与组内所有其它内容项的匹配相似度包括：计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度。负面表达项用于代表负面对象组。

具体地，处理装置505对PosPhraseSet以及NegPhraseSet按名词归类后的每个元素{posnon:posnonPhrase}或{negnon:negnonPhrase}进行表达项抽取。抽取posnonPhrase集中的所有意见短语phrase中的内容项content，形成意见短语的内容列表phrCon＝{con₁,con₂,...,con_posnonum}，其中posnonnum表示posnonPhrase中意见短语phrase的个数。获取posnonPhrase中所有意见短语phrase的权重weight，从而形成意见短语权重列表phrWeight＝{weight₁,weight₂,...,weight_posnonum}。

处理装置505通过表达项抽取函数，从phrCon中抽取出表达项(即典型意见)opinion的计算公式为：

其中，

表示两个文本字符串之间的相似度，

计算公式为：

本实施方式以{posnon:posnonPhrase}为例进行表达项获取方法的说明，应当了解的是，计算{negnon:negnonPhrase}的表达项的方法与{posnon:posnonPhrase}的表达项的方法原理相同，因此不再赘述。

在确定正面表达项之后，处理装置505基于关联权重计算所述正面表达项的热度，以及在确定负面表达项之后，处理装置505基于关联权重计算所述负面表达项的热度。其中处理装置505基于关联权重计算所述正面表达项的热度包括：将所述正面表达项所对应的正面对象组的权重累加和作为所述正面表达项的热度。将正面对象组中所有意见短语的关联权重求和以确定所述权重累加和。其中处理装置505基于关联权重计算所述负面表达项的热度包括：将所述负面表达项所对应的负面对象组的权重累加和作为所述负面表达项的热度。将负面对象组中所有意见短语的关联权重求和以确定所述权重累加和。

例如，表达项热度统计，当前表达项的热度计算公式为：

处理装置505根据所述正面表达项的热度对所述正面表达项和热度的匹配对进行降序排列以生成正面表达项列表。从所述正面表达项列表中获取预定数量的匹配对以作为结果数据。并且，根据所述负面表达项的热度对所述负面表达项和热度的匹配对进行降序排列以生成负面表达项列表。从所述负面表达项列表中获取预定数量的匹配对以作为结果数据。

例如，原始的评论数据D通过用户评论归类、情感分类以及意见短语抽取、意见短语权重计算、情感极性归类、对象归类以及表达项抽取及热度计算，最终形成正面表达项列表

posOpinionResult＝{(posOpinion₁，posOpinionWeight₁)，(posOpinion₂，posOpinionWeight₂)，...，(posOpinion_prvposOpinionWeight_pn)}

以及负面表达项列表

negOpinionResult＝{(negOpinion₁，negOpinionWeight₁)，(negOpinion₂，negOpinionWeight₂)，...，(negOpinion_nn，negOpinionWeight_nn)}

随后，处理装置505将posOpinionResult以及negOpinionResult中的表达项按照其对应的热度大小进行降序排列，并且输出顶部K(TopK)的结果作为最终的表达项(K可自定义，一般设置为5、7、9等各种数值)，以实现表达项结果输出。例如，在某电商网站上通过爬虫技术对该网站上的图书评论进行了抓取，抓取的总评论条数为1000+。通过本申请的表达项抽取方法，分别对正面评论以及负面评论进行表达项抽取。最后分别取排名前5的表达项。

Claims

1.一种数据处理方法，所述方法包括：

基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语，所述内容项用于表示评论内容，并且为每个意见短语设置关联权重，所述每个意见短语的关联权重是根据每个数据集中意见短语的数量所设置的；

基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组，并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组；

所述基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组包括：以不同的评价对象作为分组标识符，将所述负面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的负面对象组；

基于每个正面对象组中内容项的组内相似度确定正面表达项，并基于每个负面对象组中内容项的组内相似度确定负面表达项；

所述基于每个正面对象组中内容项的组内相似度确定正面表达项包括：确定每个正面对象组的意见短语中的至少一个内容项，计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度，将匹配相似度的和作为内容项的组内相似度，将组内相似度最大的内容项作为正面表达项；其中，所述正面表达项用于代表正面对象组；

所述基于每个负面对象组中内容项的组内相似度确定负面表达项包括：确定每个负面对象组的意见短语中的至少一个内容项，计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度，将匹配相似度的和作为内容项的组内相似度，将组内相似度最大的内容项作为负面表达项；其中，所述负面表达项用于代表负面对象组；

其中，根据两个内容项的文本字符串的相似度sim(con_i,con_j)表示两个内容项的匹配相似度，

其中，con_i∩con_j表示两个内容项的文本字符串的交集；con_i∪con_j表示两个内容项的文本字符串的并集；

在确定正面表达项之后还包括：基于关联权重计算所述正面表达项的热度，以及在确定负面表达项之后还包括：基于关联权重计算所述负面表达项的热度；

所述基于关联权重计算所述正面表达项的热度包括：将所述正面表达项所对应的正面对象组中所有意见短语的关联权重求和作为所述正面表达项的热度；

所述基于关联权重计算所述负面表达项的热度包括：将所述负面表达项所对应的负面对象组中所有意见短语的关联权重求和作为所述负面表达项的热度；

根据所述正面表达项的热度对所述正面表达项和热度的匹配对进行降序排列以生成正面表达项列表；从所述正面表达项列表中获取预定数量的匹配对以作为结果数据；以及

2.根据权利要求1所述的方法，所述原始数据是与特定物品相关联的用户评论数据，并且所述对原始数据进行预处理以获得多个数据集包括：

按照用户标识将与特定物品相关联的用户评论数据进行分类以生成多个评论集，并以用户标识作为每个评论集的唯一标识。

3.根据权利要求2所述的方法，对每个评论集进行语义划分，以生成包括至少一个数据单元的数据集，其中所述数据单元为包括基本语义结构的句子。

4.根据权利要求1所述的方法，在基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语之前还包括：对每个数据单元进行词语划分并且对经过词语划分所得到的词语进行词性标注。

5.根据权利要求4所述的方法，对经过词语划分和词性标注的数据单元进行情感标识的检测，并且确定所检测到的情感标识的情感极性。

6.根据权利要求5所述的方法，基于所检测到的情感标识确定相关联的评价对象，其中所述评价对象是词性为名词的词语。

7.根据权利要求6所述的方法，基于所检测到的情感标识和相关联的评价对象确定所述内容项。

8.根据权利要求7所述的方法，由所检测到的情感标识、相关联的评价对象、情感极性以及内容项组成意见短语。

9.根据权利要求5-8中任意一项所述的方法，所述基于情感标识对意见短语进行分类，以确定正面意见短语集合和负面意见短语集合包括：基于情感标识的情感极性对意见短语进行分类，由情感极性为正面的意见短语组成正面意见短语集合并且由情感极性为负面的意见短语组成负面意见短语集合。

10.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现以下步骤：

11.一种数据处理系统，其特征在于，所述系统包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求2至9任意一项所述的方法。

12.一种数据处理设备，所述设备包括：

生成装置，基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语，所述内容项用于表示评论内容，并且为每个意见短语设置关联权重，所述每个意见短语的关联权重是根据每个数据集中意见短语的数量所设置的；

分组装置，基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组；

所述基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组包括：以不同的评价对象作为分组标识符，将所述负面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的负面对象组；以及

处理装置，基于每个正面对象组中内容项的组内相似度确定正面表达项，并基于每个负面对象组中内容项的组内相似度确定负面表达项；