CN108256968A

CN108256968A - 一种电商平台商品专家评论生成方法

Info

Publication number: CN108256968A
Application number: CN201810028986.1A
Authority: CN
Inventors: 姜文君
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2018-07-06
Anticipated expiration: 2038-01-12
Also published as: CN108256968B

Abstract

本发明公开了一种电商平台商品专家评论生成方法，提出一种基于序列到序列生成模型的专家评论总结生成技术，提取某商品所有用户评论中的重要信息，生成一段总结性的话语来描述商品的特性。消费者可以根据生成的专家评论来了解商品的优缺点，考虑是否购买；商家可以根据生成的专家评论来改进自己的商品。本发明可以抽取出具有代表商品特性的重要评论，能够为商家改进商品提供很好的参考，让商家提升产品的用户体验，提高销量，增加收益。同时它能够为消费者提供购买参考，提升消费者的购物体验；还可以帮助电商平台吸引更多的粘性用户，扩大自身的影响力。

Description

一种电商平台商品专家评论生成方法

技术领域

本发明涉及一种电商平台商品专家评论生成方法，属于自然语言处理技术领域。

背景内容

用户产生的商品评论对于消费者购买商品和商家改进商品都有着很重要的参考价值。但大量的评论往往会造成信息过载，而现有的评论总结技术大多是基于评论中高频词语的聚类和相应评论的情感词标注，来生成重要的总结性词语或者短语，借以概括大家对某个商品的观点、反映某商品的特性，从而为消费者购买商品和商家改进产品提供参考。因此大多现有的评论总结技术还停留在短语级别，对于消费者和商家的参考价值有限，现有的电商平台对产品评论的挖掘利用尚不充分。为了充分挖掘利用电商平台对产品的评论，本发明使用用户产生的评论，通过情感分析、语义相似度、语言生成等技术总结生成可供消费者和商家参考的专家评论。所提出的专家评论生成技术既可以帮助商家改善产品和服务，又可以为消费者购买商品提供参考，本发明可以应用到购物网站和其他网络消费平台。

名词解释：

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(InverseDocument Frequency)。

GRU语言模型：一种循环神经网络语言模型，语言模型最主要的功能就是生成合乎语言规则的句子或者段落。循环神经网络的语言模型可以按序生成单词，组成合乎语言规则的句子。GRU(gated recurrent unit，门限递归单元)是一种循环神经网络的变体。

TextRank算法：基于PageRank的一种自动提取文本摘要的图排序算法。

情感词典匹配技术：使用情感词典匹配文本中情感词的技术，情感词典记录了现存词语的一些情感指数。

语义重要性检测：通过语义理解的方式(基于语义的相似度检测算法)来判断每一条评论的重要程度。

循环神经网络模型：一种时间递归神经网络，区别于一般的神经网络，它有时间状态，下一时刻的神经元都和上一时刻的神经元相互连接，每一个时刻记录的神经元信息都会传播给下一时刻的神经元。

解码层的隐藏信息：这里的解码层的隐藏信息(h_yt)，可以理解成接受了t时刻文本向量和上一时刻隐藏信息生成的隐藏信息，因为是神经网络内部的信息，而神经网络又被称为黑盒，所以称之为隐藏信息。

停用词：停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

PageRank图：与本专利要保护的关系不大，不作附加,附加图4解释TextRank公式。

发明内容

本发明克服现有技术存在的不足，本发明公开了一种电商平台商品专家评论生成方法。本专利可以抽取出具有代表商品特性的重要评论，同时归纳总结生成专家评论，专家评论能够帮助商家改进产品，提升产品的用户体验，提高销量，增加收益。同时它也能为消费者提供购买参考，提升消费者的购物体验；还可以帮助电商平台吸引更多的粘性用户，扩大自身的影响力。

为解决上述技术问题，本发明所采用的技术方案为：

一种电商平台商品专家评论生成方法，其主要特征在于评论重要信息抽取和总结生成摘要，包括如下步骤：

步骤一：输入商品评论，对商品评论进行预处理；

步骤二：将商品评论表示成计算机能够识别的数值表示的词向量，对商品评论中的所有词语进行词频统计，形成每个词语的词权重，然后，针对每一条评论，使用带权重的词向量相加的方式完成句子向量的表示；

步骤三：进行商品评论分析：采用情感词典匹配技术，对商品评论中的每一个词语进行相应的匹配，得出相应词语的情感指数，然后计算出每条评论的情感指数。

步骤四：将每条商品评论作为一个节点，评论之间的相似关系作为边，所有的商品评论可以表示成一个带权值的无向图。评论之间边的权值由语义相似衡量算法计算得出，然后，迭代计算无向图各个节点的重要性，得到每条商品评论的语义重要性指数；

步骤五：评论重排序和Top-N抽取。综合商品评论的情感指数和语义重要性指数，可以得到一个综合指标；将一个商品的所有评论按照综合指标进行降序排序，然后抽取前N个商品评论作为评论生成模型的输入，其中N为设定值；

步骤六：将抽取的Top-N商品评论作为序列到序列(Sequence To Sequence)生成模型的输入，生成专家评论。

进一步的改进，所述步骤一中对商品评论进行预处理的方法为：1.1)对所有的商品评论进行字符长度的统计，根据评论长度出现的频率选择合适长度的评论，过于短的评论删除，过于长的评论按句拆分成多条评论，保证在对比相似度的时候评论长度相当。

1.2)对所有的商品评论进行分词；

1.3)去除无意义的标点符号；

1.4)去除数字、表情、其他语言的表示符号；

1.5)去除停用词。

如权利要求1所述的电商平台商品专家评论生成方法，所述步骤二中，使用GRU语言模型将商品评论训练表示成计算机能够识别的数值表示的词向量；使用TF-IDF技术对对商品评论中的所有词语进行词频统计，形成每个词语的词权重；使用带权重的词向量相加的方式完成句子向量的表示的方法为：v表示句向量；

s代表的是句子的单词数；

w代表的是词向量；

a为设定阈值；

P()计算的是单词的出现频率。

进一步的改进，所述步骤三中，情感指数的计算方法为：

其中δ_i表示情感指数，i表示评论的编号数；softmax是一个函数，目的是把情感指数限制在0-1之间；count_pos(s_i)表示第i个评论中带有积极情感的单词个数；s_i表示第i个评论；count_neg(s_i)表示第i个评论中带有消极情感的单词个数；count(s_i)表示第i个评论中所有的单词数。

进一步的改进，所述步骤四中，语义重要性指数计算方法如下：

γ_i＝softmax(WS(v_i))

其中，v_i、v_j、v_k分别表示第i、j、k条评论形成的句子结点，本质是评论的句向量；WS(v_i)、WS(v_j)表示结点v_i、v_j的重要性得分；d表示阻尼系数，取值范围为0到1,代表从图中某一特定点指向其他任意点的概率；In(v_i)表示指向结点v_i的结点集合；Out(v_j)表示结点v_j指向结点的集合；w_ji表示结点v_i和v_j之间的相似度；γ_i表示经过softmax函数计算过控制在0-1之间的第i条评论的语义重要性指数。

进一步的改进，所述步骤六包括如下步骤：

6.1)抽取的商品评论的词向量输入循环神经网络，循环神经网络将词向量编码成为句向量；

6.2)使用循环神经网络将句向量编码成文本向量H_c；

6.3)为解码器抽取文本向量重要的信息：采用注意力机制完成文本向量中重要信息的定位；使用解码层的隐藏信息h_yt和编码层的隐藏信息h_i的相似程度来作为重要性权重衡量每一个评论的重要性；

重要性权重计算公式如下：

其中，表示第i条评论对t时刻生成词语的影响程度，也就是评论级别的注意力权值，代表的是t时刻生成词语对第i条评论的关注度；i表示第i条评论，t代表的是生成词语的时刻；

softmax是一个函数，目的是把值限制在0-1之间；

表示第i条评论中的第j个单词对t时刻生成词语的影响程度，也就是词语级别的注意力权值，代表的是t时刻生成的词语对第i条评论的第j个词语的关注度；i代表第i条评论，j代表第j个词语，t代表的是生成词语的时刻；

H_c，t代表的是t时刻生成词语时应该接受的文本向量，c代表文本；

h_i，j代表的是第i条评论的第j个词语编码后的隐藏信息；

6.4)使用循环神经网络模型对文本向量进行解码，完成解码工作，生成专家评论。

进一步的改进，步骤6.4)中，H_c，t作为每一时刻的输入，则每一时刻解码出相应的单词y_t＝argmaxP(y_t|y₁，...，y_t-1，H_c，t；θ)

其中，argmaxP()代表的是使得概率p最大的y_t的值；

y_t代表的是t时刻生成的词语；y₁表示初始时刻生成的词语；

θ代表的是我们模型需要训练的参数。

进一步的改进，所述综合指标由情感指数和语义重要性指数相乘得到。

附图说明

图1为现有的商品评论总结技术流程图；

图2为本发明的步骤流程示意图；

图3为词向量和句向量的模型构建步骤示意图。

其中，SIM表示(similar的缩写)，SA表示(sentiment analysis的缩写)。SIM代表的是基于相似度的语义重要性检测；SA代表的就是基于情感分析技术的情感指数检测。

具体实施方式

结合图2、图3，下面进行本专利完整技术方案的详细介绍：

一、评论表示

在将评论表示成计算机能够设别的数据之前，我们需要对评论进行一定程度的预处理。预处理的部分主要是去掉一些没有意义的数据，让评论表示更加规整。主要的预处理包括以下几个方面。

1、对所有的商品评论进行字符长度的统计，根据评论长度出现的频率选择合适长度的评论，过于短的评论删除，过于长的评论按句拆分成多条评论，保证在对比相似度的时候评论长度相当。

2、对所有的商品评论进行分词；

3、去除无意义的标点符号；

4、去除数字、表情、其他语言的表示符号；

5、去除停用词。

完成字符级别的预处理之后，我们将采用最新的句向量表示技术，将所有的商品评论表示成计算机能够识别的数值向量。具体的表示过程分为两个部分(图2的SentenceEmbeddings)，首先是采用语言模型(GRU语言模型)去训练所有评论的词向量(图2中的w代表的便是词向量)，不同于传统的词向量表示，这里的词向量在比较小的维度里面隐含了比较多的语义信息，词向量可以使用维基百科的语料库去训练，然后对所有词语进行词频统计(TF-IDF)，形成每个词语的词权重(这里的权重来源于相应的评论数据集，使用TF-IDF的来计算)。

针对每一条评论，使用带权重的词向量相加的方式完成句子向量的表示。每一个评论都按照相同的方式形成相应的句向量表示。计算公式如下：

所有评论经过向量表示，变成计算机可以设别的数据，以便之后的相关处理。这里的词向量服务于句向量，句向量仅仅用于相似度检测算法。

一个简单的例子：我今天很开心！

计算过程如下：

分词：(我，今天，很，开心)

计算每一个词的向量：(w₁，w₂，w₃，w₄)w为n维向量

通过TF-IDF(还有其他方法)计算每个词的重要性：(p₁，p₂，p₃，p₄)

句向量：v＝(p₁*w₁+p₂*w₂+p₃*w₃+p₄*w₄)/4

二、评论分析

这一部分主要是分析相关的评论，提取出每条评论的重要程度，为下一步评论重排序做好相应的准备，这一部分涉及的主要技术包括情感指数检测和语义重要性检测。

1.情感指数检测(SA)

这一部分(如图2中的SA方块所示)的主要目的就是分析得出每一条评论的情感指数，用户使用评论去表达自己的观点，观点明确的评论往往是情感指向明确的评论，而这些评论才应该是我们专家评论生成技术应该关心的评论。所以我们采用情感词典(一种囊括了绝大部分情感词的词典)匹配技术，具体的操作便是，对评论中的每一个词语去进行相应的匹配，得出相应的情感指数。这里并不需要词向量的辅助，简单的字符匹配就能完成评论情感指数的计算，为了避免消极词和积极词之间的相互抵消，我们采用情感词(消极，积极)的数量统计来表示评论的具体情感指数。

计算公式如下：

包含情感词(消极，积极)越多的评论，我们认为它的情感指数越高。

一个简单的例子：句1:手机续航很不错，外形很漂亮，但是相机太垃圾

句2:手机续航三个小时，外形像板砖

情感词匹配：句1(不错，漂亮，垃圾)

句2(无)

情歌指数：softmax(情感词/句子总词)

2.语义重要性检测(SIM)

这一部分(如图2中的SIM方块所示)的主要目的就是分析得出每一条评论的重要性，采用相似度检测技术的主要原因是，重复越多的评论重要性越高。从直观感受上，同一类评论出现的频率越高就代表着某一类对商品的观点就越强烈，当然单是从频率上来反应某一种强烈的观点并不是最稳妥的一种方式，所以我们采用类似TextRank的图排序方式来完成每一条评论的重要性检测。此部分有一个重要的技术点，也是我们整个技术方案中需要保护的第一个重要的技术点：首先，就是句子之间的相似度计算，传统的相似度计算方法主要采用相似字(或者短语)的个数来衡量两句话的相似性，还停留在字面统计的相似上。不同于传统的相似度计算方法，我们采用了一种新的相似度计算方法，它是一种比较适合于句向量表示的相似度计算方式。它能够从语义层面去计算句子之间的相似度。我们使用预处理部分的句向量在语义空间中彼此的距离来衡量两句话之间的相似度。

词向量是可以理解为高维语义空间里的每个词的坐标点，不同的坐标代表着不同的含义，相近的坐标拥有着相近的含义，同样经过我们加权计算的句子向量也是如此(不同的方法计算出来的权重对相似度的计算也有着不同程度的影响)，坐标相近的句子我们就认为它们意思相近，所以我们通过计算它们之间的距离来表示它们之间的相似度，计算公式采用余弦相似度的计算公式，相似度为：cos(v₁，v₂)。v₁表示的是一个句向量，v₂表示另一个句向量。cos是计算相似度的函数。

当我们有了计算评论之间相似度的方法之后，我们就可以使用相应的重要性检测算法去衡量每一条评论的重要性。这里的算法也是我们要保护的第二个子技术点。我们将每个句子看成PageRank图中的一个节点，不同于一般的PageRank算法，也是我们技术的创新点之一，我们使用两句的语义相似度来表示节点之间的权重。这样，我们就能将所有的评论表示成一个带权值的无向图。每个节点都有一个初始化的重要性分值(这边是随机初始化的)。最后，我们通过TextRank算法不停的计算各个节点的重要性，各个节点都会收敛到一个定植，最终的值就是我们基于相似度检测技术得出的评论重要性指标。而这个指标代表的就是语义级别的重要性衡量。

计算公式如下：

γ_i＝softmax(WS(v_i))

w_jk代表的就是句j和句k的语义相似度，也就是cos(v_k，v_j)。γ_i就是重要性指标。

到这里，我们就完成了评论分析的部分，接下来就是评论重排序和重要评论信息的抽取。

三、评论重排序和抽取

这个部分主要是原始评论的重新排序和重要信息抽取。也是我们的第三个要保护的子技术点，对于我们的专家评论总结生成技术来说，原始的评论产生往往是无序的，不太适合应用文本摘要的方式去生成短文本。所以经过相应的评论分析，我们就可以应用上面的情感指数和重要性指数去重排序评论，我们的评论重排序方法综合了评论数据的多种特性，能够让原始的评论变得适合于我们的文本生成模型。

我们的重排序技术最主要的依据就是情感指数和语义重要性指数(融合了大量的语义信息)得出来的指标。为了兼顾这两个指标来进行排序。我们将这两个指标相乘，得到一个最终的指标，然后我们根据这个指标的大小去排序。这样，我们就能得到语义上重要性比较高同时情感指数又比较高的评论。基于相似度语义信息融合的重要性指标生成和评论情感的指标生成相互作用，我们的重排序算法可以做到其他算法无法完成的重要信息提取。

重新排序过后的评论，我们抽取综合指标最高的N组评论(N的大小视具体的数据量去设置)用来作为我们生成模型的输入。这组评论基本上就展示了一个商品的重要特性。即使是作为中间结果，我们也可以使用它来作为初略的评论总结，为消费者和商家提供参考。

四、生成模型

这一部分的主要目的就是根据之前抽取的重要评论来生成相应的专家评论总结。序列到序列生成模型是生成专家评论的重要部分，也是本专利的核心部分，这里采用了最新的深度学习技术。同时，序列到序列生成模型也是我们要保护的第三个子技术点，首先，专家评论生成本身就是一个没有被应用到电商平台评论挖掘的技术。第二，生成模型加入了独特的分层编码机制和多重注意力机制，表现优于一般的生成模型。关于生成模型部分，总共包括三个重要的组成部分，分别是编码部分，解码部分，注意力机制三个主要部分。

首先是编码部分(Encoder)，这部分的主要目的就是将抽取出来的重要评论编码成计算机可以识别出来的语言。这里采用多层编码的机制，可以更好地应对较长的文本数据，也是重要的技术点，需要保护的子技术点之一。编码主要是三个步骤，第一步就是将词编码成词向量，这边我们可以采用评论表示部分的已经生成的词向量，不再另外去训练词向量(w)。第二步是使用GRU(一种循环神经网络)去编码这些词向量每一条评论里面的词向量:

h_i，j＝GRU(h_i，j-1，w_i，j)；h_i，j代表的是第i条评论的第j个词语编码后的隐藏信息；w_i，j表示第i评论的第j个单词的词向量；GRU(h_i，j-1，w_i，j)表示的是通过GRU(一种循环神经网络)去接受前一个词语编码的隐藏信息h_i，j-1和当词语的词向量w_i，j生成我们需要的编码隐藏信息。

经过GRU的编码之后(如图2Encoder部分的下半部分所示)会形成代表每条评论的隐藏含义v_i＝h_i，end，v_i表示第i条评论的句向量；h_i，end表示的是第i条评论的最后一个单词的编码的隐藏信息，因为GRU编码保留了前面单词的信息，所以可以采用它来表示整个句子的信息，可以用作为句向量，简单来说就是将评论编码成为了句向量，不同于之前的评论表示产生的句向量，这边的句向量包含的语义信息更加的丰富。完成前两步的编码之后，我们将进行最后的编码，同样是采用GRU去完成最后的编码:

h_i＝GRU(h_i-1，v_i)；h_i表示第i条评论的隐藏信息；h_i-1表示第i条评论前面的一条评论的隐藏信息。

对于生成的每一条评论的句向量，GRU会将它们一个接着一个的编码成文本向量H_c(如图2的上半部分所示，关于H_c的计算在注意力机制部分会提到)，到此我们就完成了相应的编码工作。

然后就是注意力机制部分(Attention Mechanism)，这里使用了多种注意力机制，可以更好地识别重要的信息，也是重要的技术点，需要保护的子技术点之一。这一部分在图2中没有直接体现出来。但确实是沟通编码和解码的重要部分，注意力机制的主要目的就是从编码的所有信息中为解码器抽取出重要的信息，为生成专家评论做好准备。注意力机制主要受人类视野机制的启发，人的眼睛可能更加关注重要的信息。如图2所示，我们使用解码层的隐藏信息(h_yt)和编码层的隐藏信息(h_i)的相似程度来作为重要性权重来衡量每一个评论的重要性。不同于传统的注意力机制，这里采用多种注意力机制去完成重要信息的定位。我们使用解码层的隐藏信息(h_yt))和编码层的隐藏信息(h_i，j)的相似程度来作为重要性权重来衡量每一个评论中的每一个词语的重要性。H_c就是编码部分的隐藏信息的句子、单词重要性的加权和。这些计算出来的权值和可以定位出重要的信息，用来解码。

权值计算公式如下：

最后是生成模型的解码部分(Decoder)，解码器的实质便是一个语言模型，为我们生成合适的专家评论总结。同样是使用循环神经网络模型(GRU)来完成相应的解码工作。如图2的Decoder部分所示，H_c，t作为每一时刻的输入，相关的信息都是不同的，每一时刻我们都会解码出相应的单词：

y_t＝argmaxP(y_t|y₁，...，y_t-1，H_c，t；θ)

当我们解码到合适长度的文本信息之后，我们就可以生成相应的专家评论了。

上述实施例仅仅是本发明的一个具体实施方式，对其的简单变换、替换等也均在发明的保护范围内。

Claims

1.一种电商平台商品专家评论生成方法，其主要特征在于评论重要信息抽取和总结生成摘要，包括如下步骤：

步骤一：输入商品评论，对商品评论进行预处理；

步骤三：进行商品评论分析：采用情感词典匹配技术，对商品评论中的每一个词语进行相应的匹配，得出相应词语的情感指数，然后计算出每条评论的情感指数；

步骤四：将每条商品评论作为一个节点，评论之间的相似关系作为边，所有的商品评论可以表示成一个带权值的无向图；评论之间边的权值由语义相似衡量算法计算得出，然后，迭代计算无向图各个节点的重要性，得到每条商品评论的语义重要性指数；

步骤五：评论重排序和Top-N抽取：综合商品评论的情感指数和语义重要性指数，得到一个综合指标；将一个商品的所有评论按照综合指标进行降序排序，然后抽取前N个商品评论作为评论生成模型的输入，其中N为设定值；

步骤六：将抽取的前N个商品评论作为序列到序列生成模型的输入，生成专家评论。

2.如权利要求1所述的电商平台商品专家评论生成方法，所述步骤一中对商品评论进行预处理的方法为：

1.1)对所有的商品评论进行字符长度的统计，根据评论长度出现的频率选择合适长度的评论，过于短的评论删除，过于长的评论按句拆分成多条评论，保证在对比相似度的时候评论长度相当。

1.2)对所有的商品评论进行分词；

1.3)去除无意义的标点符号；

1.4)去除数字、表情、其他语言的表示符号；

1.5)去除停用词。

3.如权利要求1所述的电商平台商品专家评论生成方法，所述步骤二中，使用GRU语言模型将商品评论训练表示成计算机能够识别的数值表示的词向量；使用TF-IDF技术对对商品评论中的所有词语进行词频统计，形成每个词语的词权重；使用带权重的词向量相加的方式完成句子向量的表示的方法为：v表示句向量；

s代表的是句子的单词数；

w代表的是词向量；

a为设定阈值；

P()计算的是单词的出现频率。

4.如权利要求1所述的电商平台商品专家评论生成方法，所述步骤三中，情感指数的计算方法为：

5.如权利要求1所述的电商平台商品专家评论生成方法，所述步骤四中，语义重要性指数计算方法如下：

γ_i＝sof tmax(WS(v_i))

其中，v_i、v_j、v_k分别表示第i、j、k条评论形成的句子结点，本质是评论的句向量；WS(v_i)、WS(v_j)表示结点v_i、v_j的重要性得分；d表示阻尼系数，取值范围为0到1,代表从图中某一特定点指向其他任意点的概率；In(v_i)表示指向结点v_i的结点集合；Out(v_j)表示结点v_j指向结点的集合；w_ji表示两点v_i和v_j之间的相似度；γ_i表示经过sof tmax函数计算过的控制在0-1之间的第i条评论的语义重要性指数。

6.如权利要求1所述的电商平台商品专家评论生成方法，所述步骤六包括如下步骤：

6.2)使用循环神经网络将句向量编码成文本向量H_c；

重要性权重计算公式如下：

sof tmax是一个函数，目的是把值限制在0-1之间；

h_i，j代表的是第i条评论的第j个词语编码后的隐藏信息；

6.4)使用循环神经网络模型对文本向量进行解码，完成解码工作，生成专家评论。具体来说，H_c，t作为每一时刻的输入，则每一时刻解码出相应的单词y_t＝argmaxP(y_t|y₁，...，y_t-1，H_c，t；θ)

其中，argmaxP()代表使概率P最大的y_t的值；

θ代表的是我们模型需要训练的参数。