CN110717338B

CN110717338B - 一种基于用户评论的典型意见生成装置

Info

Publication number: CN110717338B
Application number: CN201911060455.1A
Authority: CN
Inventors: 孔洋洋; 李阳; 车皓阳; 杜涛; 朱劲松
Original assignee: Beijing Chehui Technology Co ltd
Current assignee: Beijing Chehui Technology Co ltd
Priority date: 2019-07-29
Filing date: 2019-11-01
Publication date: 2020-07-14
Anticipated expiration: 2039-11-01
Also published as: CN110717338A

Abstract

本申请属于语义分析技术领域，公开了一种基于用户评论的典型意见生成装置，该装置包括：抽取模块，用于基于所述用户评论抽取多个主题词；生成模块，用于根据所述多个主题词生成所述用户评论的典型意见。本申请能够帮助基于用户评论进行动机挖掘，获得更精准效果。

Description

一种基于用户评论的典型意见生成装置

技术领域

本发明涉及语义分析领域，尤其涉及一种基于用户评论的典型意见生成装置。

背景技术

在当前线上交易(如购物)已经成为大众主流消费方式的情况下，用户的评论对于产品具有非常重要的影响。

例如，在车辆领域，众多的车辆线上平台或资源中，如各类门户网站、论坛或app，存在大量的用户评价信息。用户在了解、购买、使用某款车辆的全过程中都会浏览这些线上的用户评价信息，从而结合自己的感觉来对该款车辆进行评价，从而发生连锁效应。

通过上述示例可知，对于各类产品来说，通过大量用户评价信息的积累，会产生海量的用户意见线上数据，进而逐渐形成占据主流地位的典型意见。这对于该产品的市场竞争有着关键性的影响力。

目前通过用户评论来挖掘用户的典型意见，主要通过两个途径：一是通过人工浏览相关网站评论进行总结，二是通过问卷公司对用户进行问卷调查，汇总问卷结果。上述主要通过人工处理用户评论的方式，难以对巨大数据量的评论意见进行数据处理，并且需耗费大量人力、时间，且还可能存在覆盖不全面或区分不精细等问题。

有鉴于此，如何高效且准确地对线上的用户评论进行分析处理，进而获得典型意见，成为本领域需要解决的技术问题。

发明内容

有鉴于此，本申请提出了一种基于用户评论的典型意见生成装置，以通过对用户评论自然语言的构成进行分析的技术手段来实现用户的动机挖掘。

根据本申请的一个方面，提出了一种基于用户评论的典型意见生成装置，该装置包括：

抽取模块，用于基于所述用户评论抽取多个主题词；

生成模块，用于根据所述多个主题词生成所述用户评论的典型意见。

优选地，所述抽取模块，利用编码器-解码器模型抽取所述多个主题词，其中编码器应用注意力机制，解码器所使用的分类器输出存在于词典且存在于所述用户评论中的主题词的概率以及不存在于词典从所述用户评论复制主题词的概率。

优选地，所述生成模块，还用于针对所述多个主题词使用注意力模型生成所述用户评论的典型意见；其中所述注意力模型为：

g_tj＝cov_t-1，jv_a ^Ttanh(W_ah_t-1+U_atopic_j)

g_tj为第j个主题topic_j在时间为t时的注意力系数，t-1为t的前一时间，T＝{topic₁，topic₂，…topic_k}，v_a ^T、W_a、U_a为随机初始化矩阵，N表示生成的文本的词的个数，σ为sigmoid函数，k表示主题的数量，d_w表示每个主题向量的维度，U_f表示k个d_w维主题向量的合并，h_t-1表示t-1时输入的隐藏表达。

优选地，所述编码器模型为：

h_t＝f(x_t，h_t-1)；

c＝q(h₁，h₂，…，h_M)；

h＝(h₁，h₂，…，h_M)；

其中，输入序列X＝(x₁，x₂，…，x_M)，f是GRU函数，语境向量c作为输入序列经过非线性函数q后的全部表达，向量c的每个维度经过q函数得到。优选地，所述解码器模型为：

S_t＝f(y_t-1，S_t-1，c)；

p(y_t|y_{1，…，t-1}，X)＝g(y_t-1，S_t，c)；

其中，S_t为解码器在t时刻的隐状态，输出序列y＝(y₁，y₂，…，y_M′)，非线性函数g是柔性最大值传输函数分类器，a(s_i-1，h_j)是测量s_i-1和h_j相似度的柔性对齐函数，s_i-1表示位置i的输出内容，h_j表示位置j的输入内容，c_i表示向量c的第i个维度，M表示隐状态向量的个数。

优选地，p(y_t|y_{1，…，t-1}，X)＝p_g(y_t|y_{1，…，t-1}，X)+p_c(y_t|y_{1，…，t-1}，X)；其中，

p_g(y_t|y_1,…,t-1,X)＝g(y_t-1,S_t,c)；

其中，非线性函数g是一个柔性最大值传输函数分类器，χ是源用户评论中所有唯一词汇的集合；σ是sigmoid函数；

是利用反向传播方式得到的参数矩阵；Z是所有分数的总和。

优选地，该装置还包括初始化模块，用于对原始用户评论进行数据过滤和数据标准化。

根据本申请的技术方案，通过对海量的线上用户评价信息进行筛选、标记进而根据分析模型的语义结构处理，从而准确地获取用户评论的典型意见。通过上述方式可以以有效处理更大体量的数据，自动生成方式比人工更快速高效，短时间内生成大量典型意见，从而能够高效地实现典型意见的获取。另一方面，由于用户评价信息数据量较大，因此覆盖评论更广，利用本申请的技术手段能够过滤掉人为的情感因素，从而获得更精准的分析结果。

本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施方式及其说明用于解释本申请。在附图中：

图1为本申请实施例提供的基于用户评论的典型意见生成方法示意图；

图2为本申请实施例提供的基于用户评论的典型意见生成装置。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施方式及各个实施方式中的特征可以相互组合。

下面将参考附图并结合实施方式来详细说明本申请。

图1示出了本申请提供的基于用户评论的典型意见生成方法流程，该方法包括：

步骤105，数据初始化。数据初始化主要包括数据过滤和数据标准化。用户评论中有些词出现频率高，但是与主题无关，不适合用来生成典型意见，需要过滤掉。另外，在数据处理过程中需要用到字典，字典规模过大会使得数据处理变得困难，例如低频词会由于其稀疏性导致错误，因而需要将低频词过滤掉，低频词可以为出现频次小于一定数据的词。

例如，{DW₁，DW₂，…，DW_n}是一簇不同用户发表的语义相似的评论的词汇集，n为原始评论中词汇数，其可以表征原始用户评论。首先，进行数据过滤，将评论中停用词和“是”、“的”等出现频率高但与主题无关的词删除；再次，进行数据标准化，将出现频次小于3次的稀疏词删去，使数据更加简洁清晰，得到{DW₁′，DW₂′，…，DW_m′}，称为“信息池”，其中m为过滤后的文章词汇数，可以表征源用户评论。后续生成标题时，直接从“信息池”中抽取信息，可有效排除频率高但与主题无关的词干扰，防止低频词造成词汇稀疏，避免标题偏离正确主题。

步骤110，关键短语抽取。关键短语抽取可以通过数据处理模型来实现，本申请实施例采用带有复制机制的编码器-解码器模型抽取评论中的关键短语。编码器-解码器模型可以通过机器学习的方式来实现。

在本申请实施例中，假设“信息池”中包含N个数据样本的关键短语集，第i个数据样本为(X⁽ⁱ⁾，P⁽ⁱ⁾)，包含一个源用户评论X⁽ⁱ⁾和M_i个目标关键短语

源文本X⁽ⁱ⁾和关键短语P^(i，j)都是词序列。

其中

和

分别表示X⁽ⁱ⁾和P^(i，j)的词序列长度。为了便于说明，将数据样本(X⁽ⁱ⁾，P⁽ⁱ⁾)分成M_i对，

下文中用(x，y)来表示的每一个数据对。

编码器-解码器模型中，编码器将源用户评论压缩为隐藏的表示形式，解码器用来生成对应的关键短语。编码器和解码器可以使用常用词典，该词典中国可以包含最常出现的5000个词。

优选地，编码器使用带有注意力机制的双向门限循环单元(GRU)。编码器将变长的输入序列X＝(x₁，x₂，…，x_M)转换成一组隐藏表达h＝(h₁，h₂，…，h_M)，在时间为t时按照下列等式迭代：

h_t＝f(x_t，h_t-1)

其中，f是表示GRU函数。语境向量c作为输入X经过非线性函数q后的全部表达。

c＝q(h₁，h₂，…，h_M)

优选地，解码器使用另一个前向GRU，采用注意力机制来提高性能。它通过一个条件语言模型，将语境向量解压，逐词生成一个变长序列y＝(y₁，y₂，…，y_M′)。条件语言模型为：

S_t＝f(y_t-1，S_t-1，c)

p(y_t|y_{1，…，t-1}，X)＝g(y_t-1，S_t，c)

其中，S_t是解码器RNN在时间t时的隐状态。非线性函数g是一个柔性最大值传输函数(softmax)分类器，输出在词典中所有词的概率。y_t是在时间t时，运用函数g计算预测词概率，以获得的概率值最大的词作为最后的预测词。

语境向量c作为隐状态h＝(h₁，h₂，…，h_M)的加权和来计算

其中a(S_i-1，h_j)是测量S_i-1和h_j相似度的柔性对齐函数，也就是用来测量输入位置j附近和输出位置i的相似程度。

为了保证学习到的表达的质量并且减少辞典规模引入，可以是使用复制机制，从而有效预测未登录词汇。为了结合复制机制，预测的每一个新词的概率y_t包含两部分，第一部分是生成概率，第二部分是从源文件复制的概率：

p(y_t|y_{1，…，t-1}，X)＝p_g(y_t|y_{1，…，t-1}，X)+p_c(y_t|y_{1，…，t-1}，X)

其中，p_c(y_t|y_{1，…，t-1}，X)只考虑源文本中的词汇。这样，结合了复制机制的RNN，既可以预测没有出现在词典，但是出现在源文本中的词，又会优先考虑出现在源文本中的词。

其中，χ是源用户评论中所有唯一词汇的集合；σ是一个非线性函数；

是通过学习得到的参数矩阵；Z是所有分数的总和，即分子的累加，用于归一化。

步骤115，多主题感知模型生成典型意见。步骤110中得到的关键短语作为多主题感知模型的输入，T＝{topic₁，topic₂，…topic_k}，其中k表示短语中的词汇数量。

为了使用多主题感知模型，本申请中针对传统的注意力模型进行改进，引入了变量cov_i，用来表示每个主题词有多少信息已经被生成，同时还有多少信息没有被生成。对于一个主题词，初始值为1，即cov_0，k＝1(表示主题词k未生成的信息为1，已生成的信息为0)。cov_i会对注意力计算过程产生影响，对于剩余信息还很多的主题词应会相应增大它的注意力系数，反之对于生成信息较多的主题词应该减小它的注意力系数，主题j在时间为t时的注意力系数计算公式如下：

g_tj＝cov_t-1，jv_a ^Ttanh(W_ah_t-1+U_atopic_j)

其中，v_a ^T、W_a、U_a为三个随机初始化，是需要在训练中逐步优化的矩阵；topic_j表示第j个主题；

cov_i的更新公式如下：

其中α_t，j表示主题词k最终所要生成文本的多少。

N表示生成的文本的词的个数，σ为sigmoid函数，k表示主题的数量，d_w表示每个主题向量的维度，U_f表示k个d_w维主题向量的合并，h_t-1表示t-1时输入的隐藏表达。

每生成一个词，cov_i都会发生变化。对于不同主题词有不同的估计值，这样可以有效保证有一个最主要的主题词被更好表达。

优选地，对于步骤115输出的典型意见，可以进行人工检验和校对，并进行润色，最终确定这一簇评论的典型意见，从而使生成的意见更加准确，并具有良好可读性。

相应地，本申请实施例提供了一种基于用户评论的典型意见生成装置，如图2所示，具体包括：抽取模块，用于基于所述用户评论抽取多个主题词；生成模块，用于根据所述多个主题词生成所述用户评论的典型意见。

优选地，抽取模块利用编码器-解码器模型抽取所述多个主题词，其中编码器添加注意力机制，解码器所使用的分类器输出存在于词典且存在于所述用户评论中的主题词的概率以及不存在于词典从所述用户评论复制主题词的概率。生成模块，还用于针对多个主题词使用注意力模型生成所述用户评论的典型意见；其中所述注意力模型为：

g_tj＝cov_t-1，jv_a ^Ttanh(W_ah_t-1+U_atopic_j)；

g_tj为第j个主题topic_j在时间为t时的注意力系数，t-1为t的前一时间，T＝{topic₁，topic₂，…topic_k}，v_a ^T、W_a、U_a为随机初始化矩阵，N表示生成的文本的词的个数，σ为sigmoid函数，k表示主题的数量。

优选地，编码器模型为：

h_t＝f(x_t，h_t-1)；

c＝q(h₁，h₂，…，h_M)；

h＝(h₁，h₂，…，h_M)；

其中，输入序列X＝(x₁，x₂，…，x_M)，f是GRU函数，语境向量c作为输入序列经过非线性函数q后的全部表达，向量c的每个维度经过q函数得到，M表示隐状态向量的个数。

优选地，所述解码器模型为：

S_t＝f(y_t-1，S_t-1，c)；

p(y_t|y_{1，…，t-1}，X)＝g(y_t-1，S_t，c)；

其中，S_t为解码器在t时刻的隐状态，输出序列y＝(y₁，y₂，…，y_T′)，非线性函数g是柔性最大值传输函数分类器，a(s_i-1，h_j)是测量s_i-1和h_j相似度的柔性对齐函数。s_i-1表示位置i的输出内容，h_j表示位置j的输入内容，c_i表示向量c的第i个维度。

p(y_t|y_{1，…，t-1}，X)＝p_g(y_t|y_{1，…，t-1}，X)+p_c(y_t|y_{1，…，t-1}，X)；其中，

是利用反向传播方式得到的参数矩阵；Z是所有分数的总和。

以上所述仅为本申请的较佳实施方式而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于用户评论的典型意见生成装置，其特征在于，该装置包括：

抽取模块，用于基于所述用户评论抽取多个主题词；

生成模块，用于根据所述多个主题词生成所述用户评论的典型意见；

所述生成模块，还用于针对所述多个主题词使用注意力模型生成所述用户评论的典型意见；其中所述注意力模型为：

g_tj＝cov_t-1，jv_a ^Ttanh(W_ah_t-1+U_atopic_j)

2.根据权利要求1所述的装置，其特征在于，所述抽取模块，利用编码器-解码器模型抽取所述多个主题词，其中编码器应用注意力机制，解码器所使用的分类器输出存在于词典且存在于所述用户评论中的主题词的概率以及不存在于词典从所述用户评论复制主题词的概率。

3.根据权利要求2所述的装置，其特征在于，所述编码器模型为：

h_t＝f(x_t，h_t-1)；

c＝q(h₁，h₂，…，h_M)；

h＝(h₁，h₂，…，h_M)；

其中，输入序列X＝(x₁，x₂，…，x_M)，f是GRU函数，语境向量c作为输入序列经过非线性函数q后的全部表达，向量c的每个维度经过q函数得到。

4.根据权利要求3所述的装置，其特征在于，所述解码器模型为：

S_t＝f(y_t-1，S_t-1，c)；

p(y_t|y_{1，…，t-1}，X)＝g(y_t-1，S_t，c)；

5.根据权利要求4所述的装置，其特征在于，p(y_t|y_{1，…，t-1}，X)＝p_g(y_t|y_{1，…，t-1}，X)+p_c(y_t|y_{1，…，t-1}，X)；其中，

p_g(y_t|y_{1，…，t-1}，X)＝g(y_t-1，S_t，c)；

是利用反向传播方式得到的参数矩阵；Z是所有分数的总和。

6.根据权利要求1-5任意一项所述的装置，其特征在于，该装置还包括初始化模块，用于对原始用户评论进行数据过滤和数据标准化。