CN109190109A

CN109190109A - 融合用户信息生成评论摘要的方法及装置

Info

Publication number: CN109190109A
Application number: CN201810833407.0A
Authority: CN
Inventors: 宗成庆; 李俊杰
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2019-01-11
Anticipated expiration: 2038-07-26
Also published as: CN109190109B

Abstract

本发明属于情感分类技术领域，具体提供了一种融合用户信息生成评论摘要的方法及装置，旨在解决现有技术忽略用户信息导致生成的评论摘要不准确的问题。为此目的，本发明提供了一种融合用户信息生成评论摘要的方法，包括基于预先获取的评论信息以及相应的用户信息和评论标题获取评论向量；基于预先构建的评论摘要生成模型并根据评论向量，获取评论向量对应的评论摘要；其中，评论摘要生成模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。基于上述步骤，本发明提供的方法可以根据不同用户关注评论信息中不同的评价对象，充分考虑不同的用户的用词习惯的差异性，生成准确的评论摘要。

Description

融合用户信息生成评论摘要的方法及装置

技术领域

本发明属于情感分类技术领域，具体涉及一种融合用户信息生成评论摘要的方法及装置。

背景技术

高速发展的互联网给用户提供了众多的服务和产品评论平台，这些评论平台包含了大量的用户评论，对这些评论文本进行分析能够帮助用户或者公司更好地了解商家所提供的服务或者产品。随着信息爆发，过多的评论信息让用户无法根据有效的评论信息做出合适的选择。

现有技术可以从评论信息中挖掘重要的句子或者重要的评价对象，但是忽略了用户信息对生成评论摘要的重要性，而用户信息对生成评论摘要具有重要作用，具体包括以下两部分：

1、不同的用户关注不同的评价对象，描述评价对象的词汇不同，而句子对于生成评论摘要的作用与用户时密切相关的，因此用户信息可以用来过滤部分评论内容；

2、充分考虑不同用户的用词习惯的差异性可以更准确地生成评论摘要。

因此，如何提出一种融合用户信息提升生成评论摘要的准确率的方案是本领域技术人员目前需要解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术忽略用户信息导致生成的评论摘要不准确的问题，本发明的第一方面提供了一种融合用户信息生成评论摘要的方法，包括：

基于预先获取的评论信息以及相应的用户信息和评论标题获取评论向量；

基于预先构建的评论摘要生成模型并根据所述评论向量，获取所述评论向量对应的评论摘要；

其中，所述评论摘要生成模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。

在上述方法的优选技术方案中，所述语料集包括特定领域的评论信息、相应的用户信息和评论标题；

在“基于预先构建的评论摘要生成模型并根据所述评论向量，获取所述评论向量对应的评论摘要”的步骤之前，所述方法还包括：

根据所述语料集并利用机器学习算法训练所述评论摘要生成模型。

在上述方法的优选技术方案中，在“根据所述语料集并利用机器学习算法训练所述评论摘要生成模型”的步骤之前，所述方法还包括：

基于预设的筛选策略筛选所述语料集中的评论标题；

所述预设的筛选策略包括：

过滤所述评论标题的字符数量小于预设第一阈值的评论标题，并且/或者过滤所述评论信息的字符数量与所述评论标题的字符数量的比值大于预设第二阈值的评论标题，并且/或者过滤不包含预设的评价对象的评论标题。

在上述方法的优选技术方案中，“基于预先获取的评论信息以及相应的用户信息和评论标题获取评论向量”的步骤包括：

对所述评论信息进行编码得到评论文本向量，基于预设的双向长短期记忆网络模型并根据所述评论文本向量获取所述评论信息对应的评论隐层向量；

利用所述双向长短期记忆网络模型对所述评论文本向量进行解码，得到相应的解码状态向量；

将所述用户信息随机初始化为用户信息向量；

基于预设的注意力机制模型并根据所述评论文本向量、所述解码状态向量和所述用户信息向量，获取用户感知上下文向量；

连接所述解码状态向量、所述用户信息向量和所述用户感知上下文向量，得到所述评论向量。

在上述方法的优选技术方案中，“基于预设的双向长短期记忆网络模型并根据所述评论文本向量获取所述评论信息对应的评论隐层向量”的步骤包括：

基于所述双向长短期记忆网络模型并按照下式所示的方法获取所述评论信息对应的评论隐层向量：

其中，和分别表示所述双向长短期记忆网络模型前向推算和后向推算的过程，“；”表示连接符号，h_i表示所述评论信息中第i个词汇x_i对应的隐层向量。

在上述方法的优选技术方案中，在“基于预设的双向长短期记忆网络模型并根据所述评论文本向量获取所述评论信息对应的评论隐层向量”的步骤之后，所述方法还包括：

基于预设的词汇隐层向量筛选模型并按照下式所示的方法对所述评论隐层向量进行缩放操作：

g_i＝σ(W_k[h_i；u]+b_k)

h′_i＝h_i⊙g_i

其中，g_i表示衡量所述用户信息向量u对所述评论隐层向量h_i的重要程度，σ表示sigmoid函数，W_k表示所述词汇隐层向量筛选模型的词汇筛选层的权重参数，b_k表示所述词汇隐层向量筛选模型的词汇筛选层的偏置权重参数，k表示所述词汇隐层向量筛选模型的词汇筛选层，h′_i表示对所述评论隐层向量进行缩放操作后得到的评论隐层向量，⊙表示拼接符号。

在上述方法的优选技术方案中，“利用所述双向长短期记忆网络模型对所述评论文本向量进行解码，得到相应的解码状态向量”的步骤包括：

基于所述双向长短期记忆网络模型并按照下式所示的方法获取所述解码状态向量：

其中，表示所述双向长短期记忆网络模型前向推算，y_t-1表示t-1时刻得到的评论文本向量，s_t表示t时刻得到的所述解码状态向量。

在上述方法的优选技术方案中，“基于预设的注意力机制模型并根据所述评论文本向量、所述解码状态向量和所述用户信息向量，获取用户感知上下文向量”的步骤包括：

基于所述注意力机制模型并按照下式所示的方法获取所述用户感知上下文向量：

c_t＝∑_iα_tih_i

其中，b_a、均表示所述注意力机制模型的用户感知层的偏置权重参数，T表示转置符号，W_a、W′_a和V_a均表示所述注意力机制模型的用户感知层的权重参数，e_ti表示中间变量，α_ti表示所述评论信息中第j个词汇在构建t时刻用户感知上下文向量c_t时的重要程度，a表示所述注意力机制模型的用户感知层。

在上述方法的优选技术方案中，“连接所述解码状态向量、所述用户信息向量和所述用户感知上下文向量”的步骤包括：

按照下式所示的方法连接所述解码状态向量、所述用户信息向量和所述用户感知上下文向量：

r_t＝W_r[c_t；s_t；u]+b_r

其中，r_t表示t时刻的评论向量，W_r表示所述评论摘要生成模型的评论向量层的权重参数，b_r表示所述评论摘要生成模型的评论向量层的偏置权重参数，r表示所述评论摘要生成模型的评论向量层。

本发明的第二方面提供了一种控制装置，包括处理器和存储设备；所述存储设备，适于存储多条程序；所述程序适于由所述处理器加载以执行上述任一项所述的融合用户信息的评论自动摘要方法。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

1、本发明提供的融合用户信息生成评论摘要的方法，可以全面考虑评论信息、以及对应的用户信息和评论标题，获取评论向量，并通过预先构建的评论摘要生成模型获取评论向量对应的评论摘要，根据不同用户关注评论信息中不同的评价对象，充分考虑不同的用户的用词习惯的差异性，生成准确的评论摘要；

2、本发明提供的融合用户信息生成评论摘要的方法，在根据语料集并利用机器学习算法训练评论摘要生成模型之前，还通过预设的筛选策略筛选语料集中的评论标题，将不合要求的评论标题过滤，提高了计算速度。

附图说明

图1为本发明一种实施例的融合用户信息的评论自动摘要方法的主要步骤示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

参阅附图1，图1示例性的给出了本实施例中融合用户信息生成评论摘要的方法的主要步骤。如图1所示，本实施例中融合用户信息生成评论摘要的方法包括下述步骤：

步骤S101：基于获取的评论信息、用户信息以及评论标题构建语料集。

具体地，可以从各个评论网站中获取与产品或者服务相关的评论文本、发布评论文本的用户身份信息以及评论标题，基于上述信息建立语料集，以便后续能够从整体的角度提高文档级别的生成评论摘要的准确率。在本发明实施例中，可以从网站【https://www.tripadvisor.com/】上抓取2,832,874篇评论、用户信息以及评论标题，这是一个酒店领域的网站，可以将该语料集命名为Tripadvisor。本发明实施例中，可以将评论标题当做评论的摘要，因为标题一般都会涵盖评论主要阐述的内容。

步骤S102：对语料集进行预处理。

步骤S1021：将语料集中的词汇全都转为小写，并进行句子的划分。

步骤S101建立的语料集的文本词汇较为稀疏，例如，在语料集的文本中可能会出现Walk和walk两个词汇，但是实际这两个词汇表示的含义相同，这样就增加了后续训练和学习的难度。将语料集中的词汇全都转为小写，可以降低词汇在文本的稀疏性。将语料集中的词汇全都转为小写后，将句子进行切分，从而能够更好地对评论文本进行建模。

步骤S1022：随机选取预处理后的语料集的80％作为训练集语料，10％作为测试集语料，10％作为开发集语料。

其中，训练集语料用于训练评价对象情感分类模型，测试集语料用于测试评价对象情感分类模型预测的准确性，开发集语料用于调整评价对象情感分类模型的参数。

步骤S1023：基于预设的筛选策略筛选语料集中的评论标题。

用户在撰写标题时并没有任何约束，若将获取的评论标题直接用于后续的操作，将增加后续的计算量，因此需要对获取的评论标题进行筛选，具体的筛选方法可以包括如下三种方式：

1、过滤评论标题的字符数量小于预设第一阈值的评论标题，若评论标题的字符数量太少，则无法有效地根据评论标题获取相应的评论摘要，在本发明实施例中，第一阈值可以是5。

2、过滤评论标题的字符数量与评论信息的字符数量的比值大于预设的第二阈值的评论标题，若评论标题的字符数量太多，而评论信息的字符数量太少，两者的比值过大，也无法有效地根据评论标题获取相应的评论摘要，在本发明实施例中，第二阈值可以是50。

3、过滤不包含预设的评价对象的评论标题，为了筛选与评论信息无关的评论标题，可以预设评价对象，若评论标题中不包含预设的评价对象，则可以认为该评论与评论信息无关。可以设定6类评价对象以及与其对应的关键词，具体如表1所示：

表1：评价对象与其对应的关键词

步骤S103：将语料集中评论信息以及对应的用户信息和评论标题转换为向量。

具体地，可以使用词向量学习工具word2vec在预处理后的语料集中学习词向量，并将用户信息和整体评价信息随机初始化为向量。其中，使用词向量学习工具word2vec在预处理后的语料集中学习词向量的具体方法为：可以设定词向量的维度为200维，使用word2vec工具训练时，可以将整个语料集中出现次数超过预设阈值的词加入词典中进行词向量学习，没有出现在词典中的词将其随机初始化，在本发明实施例中，预设阈值的值可以是五次。同时，将用户信息以及用户评论整体评价信息随机初始化为向量。

步骤S1031：符号表示。

为了说明的方便，将语料集中相关的信息进行符号表示，设定语料集D是关于一个特定领域(比如“餐饮领域”)，语料集D包含m个样本，每个样本是由评论x、评论x对应的摘要y以评论x的发布者u组成的三元组，假设评论x中有n个词汇{x₁,x₂,…,x_n}，摘要y中有l个词汇{y₁,y₂,…,y_l}，其中l≤n。

步骤S1032：获取评论文本向量。

为了捕捉不同词汇在构建句子语义上的差异性，可以用随机初始化的词向量来编码句子x中的每个词汇{x₁,x₂,…,x_n}，并使用双向长短期记忆网络模型得到每个词汇的隐层表示{h₁,h₂,…,h_n}，具体过程如下公式(1)-(3)所示：

为了建模用户u对评论文本不同内容的关注的差异性，可以基于预设的词汇隐层向量筛选模型并按照下式所示的方法对所述评论隐层向量进行缩放操作，具体过程如下公式所示：

g_i＝σ(W_k[h_i；u]+b_k)

h′_i＝h_i⊙g_i

其中，g_i表示衡量用户信息向量u对评论隐层向量h_i的重要程度，σ表示sigmoid函数，W_k表示词汇隐层向量筛选模型的词汇筛选层的权重参数，b_k表示词汇隐层向量筛选模型的词汇筛选层的偏置权重参数，k表示词汇隐层向量筛选模型的词汇筛选层，h′_i表示对评论隐层向量进行缩放操作后得到的评论隐层向量，⊙表示拼接符号。

通过对评论隐层向量进行缩放操作可以降低用户不在意的词对评论摘要生成模型的影响。

步骤S1033：获取解码状态向量。

在解码时刻t，可以使用上一个解码出的词汇向量输入双向长短期记忆网络模型得到时刻t的解码状态向量，具体过程如下公式(4)所示：

其中，表示所述双向长短期记忆网络模型前向推算，y_t-1表示t-1时刻得到的评论文本向量，s_t表示t时刻得到的解码状态向量。

步骤S1034：获取用户信息向量。

可以将用户信息随机初始化为用户信息向量。

步骤S1035：获取用户感知上下文向量。

为了捕捉评论x中不同的词汇在解码t时刻的不同重要性，可以将基于预设的注意力机制模型作用在词汇的隐层表示上，得到用户感知上下文向量c_t，具体过程如下公式(5)-(7)所示：

c_t＝∑_iα_tih_i(7)

步骤S1036：获取评论向量。

为了获取不同用户在生成词汇时不同的用词习惯，可以将解码状态向量、用户信息向量和用户感知上下文向量连接组成评论向量，根据评论向量和待训练的评论摘要生成模型预测生成评论摘要，具体过程如下公式(8)-(9)所示：

r_t＝W_r[c_t；s_t；u]+b_a (8)

p(y_t|y₁,…,y_t-1)＝softmax(W_or_t)+b_o (9)

p(y_t|y₁,…,y_t-1)表示t-1时刻所有的词汇预测t时刻产生词汇y_t的概率，该概率可以通过softmax网络进行计算，W_o和b_o均表示所述评论摘要生成模型的词汇预测层的偏置权重参数，o表示所述评论摘要生成模型的词汇预测层。

步骤S104：基于训练好的评论摘要生成模型并根据预设的评论摘要，获取评论向量对应的评论摘要。

具体地，用已经训练好的评论摘要生成模型对测试集的文本进行预测，并计算得到的评论摘要的准确率。此外，在测试过程中，如果测试集中用户信息缺失或者没有在训练集中出现，在构建测试集文本的表示时，则去掉用户注意力机制。通过考虑用户信息之后，本发明相对于没有考虑用户信息的方法可以有1.3％准确率的提升，具体结果如表2中内容所示：

表2：本发明方法与其他方法的准确率比较

方法	Tripadvisor
		基于支持向量机的分类方法	46.35
基于神经网络的方法	55.49
		本发明	60.7

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

进一步地，基于上述方法实施例，本发明还提供了一种控制装置，该控制装置包括处理器和存储设备；存储设备可以适于存储多条程序并且这些程序可以适于由处理器加载以执行上述方法实施例所述的融合用户信息生成评论摘要的方法。

所属技术领域的技术人员可以清楚地了解到，为了描述的方便和简洁，本发明装置实施例的具体工作过程以及相关说明，可以参考前述方法实施例中的对应过程，且与上述方法具有相同的有益效果，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种融合用户信息生成评论摘要的方法，其特征在于包括：

2.根据权利要求1所述的融合用户信息的评论自动摘要方法，其特征在于，所述语料集包括特定领域的评论信息、相应的用户信息和评论标题；

3.根据权利要求2所述的融合用户信息的评论自动摘要方法，其特征在于，在“根据所述语料集并利用机器学习算法训练所述评论摘要生成模型”的步骤之前，所述方法还包括：

基于预设的筛选策略筛选所述语料集中的评论标题；

所述预设的筛选策略包括：

4.根据权利要求1-3中任一项所述的融合用户信息的评论自动摘要方法，其特征在于，“基于预先获取的评论信息以及相应的用户信息和评论标题获取评论向量”的步骤包括：

对所述评论信息进行编码得到评论文本向量，基于预设的双向长短时记忆网络模型并根据所述评论文本向量获取所述评论信息对应的评论隐层向量；

将所述用户信息随机初始化为用户信息向量；

5.根据权利要求4所述的融合用户信息的评论自动摘要方法，其特征在于，“基于预设的双向长短时记忆网络模型并根据所述评论文本向量获取所述评论信息对应的评论隐层向量”的步骤包括：

其中，和分别表示所述双向长短期记忆网络模型前向推算和后向推算的过程，“；”表示连接符号，h_i表示所述评论信息中第i个词汇x_i对应的评论隐层向量。

6.根据权利要求5所述的融合用户信息的评论自动摘要方法，其特征在于，在“基于预设的双向长短时记忆网络模型并根据所述评论文本向量获取所述评论信息对应的评论隐层向量”的步骤之后，所述方法还包括：

g_i＝σ(W_k[h_i；u]+b_k)

h′_i＝h_i⊙g_i

7.根据权利要求6所述的融合用户信息的评论自动摘要方法，其特征在于，“利用所述双向长短期记忆网络模型对所述评论文本向量进行解码，得到相应的解码状态向量”的步骤包括：

8.根据权利要求7所述的融合用户信息的评论自动摘要方法，其特征在于，“基于预设的注意力机制模型并根据所述评论文本向量、所述解码状态向量和所述用户信息向量，获取用户感知上下文向量”的步骤包括：

9.根据权利要求8所述的融合用户信息的评论自动摘要方法，其特征在于，“连接所述解码状态向量、所述用户信息向量和所述用户感知上下文向量”的步骤包括：

r_t＝W_r[c_t；s_t；u]+b_r

10.一种控制装置，包括处理器和存储设备；所述存储设备，适于存储多条程序；其特征在于，所述程序适于由所述处理器加载以执行权利要求1-9中任一项所述的融合用户信息的评论自动摘要方法。