CN117786092B

CN117786092B - 一种商品评论关键短语提取方法及系统

Info

Publication number: CN117786092B
Application number: CN202410213556.2A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Xiaoduo Technology Co ltd
Current assignee: Chengdu Xiaoduo Technology Co ltd
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-05-14
Anticipated expiration: 2044-02-27
Also published as: CN117786092A

Abstract

本发明公开了一种商品评论关键短语提取方法及系统，属于人工智能神经网络技术领域，该方法包括：提取训练文档中关键词并获取其同义词或/和上位词以构建短语图谱；获取短语图谱中所有节点的词嵌入矩阵；获取待提取的商品评价短语级的向量；获取短语的同义词或/和上位词的注意力机制向量；获取总是同时出现的短语的交叉注意力机制向量；获取当前时间步的输出从而提取出待提取的商品评价中的关键短语。本发明不仅可提取显性的关键词，还可以通过显性词的同义词、上位词找到隐形的关键短语，提高后续商品评价分析的效率和准确性。

Description

一种商品评论关键短语提取方法及系统

技术领域

本发明属于人工智能神经网络技术领域，尤其涉及一种基于短语级transfomer模型的商品评论关键短语提取方法及系统。

背景技术

随着电子商务的发展，人们越来越倾向网络购物，在购物的同时，用户也会留下自己对商品的评价，这些评价蕴含了丰富的内容，可以为其他购物者提供购买参考也可以为商家带来改进产品及服务的好处。因此挖掘评论中的关键词，并分析他们的情感内涵是目前研究的潮流。在一条评论中大多数的关键词是约定俗成的短语，而非单词的任意组合；同时，一些隐性的关键词并不会直接出现，这些隐性的关键词是直接出现的明显的关键词的同义词或者上位词。因此，需要一种方法把这些词识别出来，从而提高商品评论分析的效率和效果。

发明内容

有鉴于此，本发明提供一种商品评论关键短语提取方法，能够从商品评价中提取出关键短语以及其同义词或/和上位词。

为解决以上技术问题，本发明的技术方案为：一种商品评论关键短语提取方法，包括：

提取训练文档中关键词并获取其同义词或/和上位词以构建短语图谱，所述短语图谱中以所述关键词及其同义词或/和上位词作为节点；

获取短语图谱中所有节点的词嵌入矩阵；

对待提取的商品评价进行编码，获取待提取的商品评价短语级的向量；

在解码过程中，通过上一时间步输出的关键词的向量矩阵与词嵌入矩阵之间的注意力权重，获取待提取的商品评价中短语的同义词或/和上位词的注意力机制向量；

通过注意力机制向量和向量/>的注意力权重，获取总是同时出现的短语的交叉注意力机制向量/>；

通过当前时间步的生成概率以及拷贝概率，获取当前时间步的输出从而提取出待提取的商品评价中的关键短语；其中，当前时间步的生成概率基于当前时间步的注意力机制向量获取，当前时间步的拷贝概率基于当前时间步的注意力机制向量、向量/>获取。

作为一种改进，通过ChatGPT获取训练文档中关键词的同义词或/和上位词，并通过图表示学习方法获取短语图谱中所有节点的词嵌入矩阵。

作为一种改进，所述获取待提取的商品评价短语级的向量的方法包括：

将待提取的商品评价输入BERT模型获得词语级别的表示向量；

将词语级别的表示向量的起始位置和结束位置的向量输入短语编码器中进行编码，取最后一个时间步的输出作为待提取的商品评价短语级别的表示向量/>。

作为一种优选，注意力机制向量的获取方法包括：

利用公式：

；

计算待提取的商品评价中短语的同义词或/和上位词的注意力机制向量，其中，为注意力机制向量，/>为/>的上一时间步输出的关键短语的向量矩阵，/>为短语图谱中所有节点的词嵌入矩阵，Attention为注意力机制，/>、/>、/>为权重矩阵。

作为一种改进，注意力机制向量的获取方法包括：

利用公式：

；

计算总是同时出现的短语的注意力机制向量，其中，为注意力机制向量，/>为短语的同义词或/和上位词的注意力机制向量，/>为获取待提取的商品评价短语级的向量，Attention为注意力机制，/>、/>、/>为权重矩阵。

作为一种优选，获取当前时间步的输出的方法包括：

利用公式：

;

计算当前时间步的输出，其中，为当前时间步输出，/>为当前时间步的拷贝概率，/>为当前时间步的生成概率，/>为门机制；

利用公式：

；

计算门机制，其中，为门机制，/>为当前时间步的短语的同义词或/和上位词的注意力机制向量，sigmoid为激活函数，mlp为多层感知机；

利用公式：

；

计算当前时间步生成概率，其中，为当前时间步的生成概率，/>为当前时间步的短语的同义词或/和上位词的注意力机制向量，softmax为激活函数，mlp为多层感知机；

利用公式：

；

计算当前时间步的拷贝概率，其中，为当前时间步的拷贝概率，/>为拷贝注意力权重，/>为当前时间步的总是同时出现的短语的注意力机制向量，w_i为输入的第i个词，/>当前时间步的输出，i:w_i=y_t表示当w_i=y_t时i的值取w_i或者y_t；softmax为激活函数，/>为获取待提取的商品评价短语级的向量/>、/>为权重矩阵。

作为一种改进，利用公式：

；

对模型进行优化，其中，L为损失函数，为模型参数，x为输入，/>当前时间步的输出，/>为上一时间步的输出，/>为概率分布。

本发明还提供一种商品评论关键短语提取系统，用于实现上述商品评论关键短语提取方法，包括：

短语图谱构建模块，用于提取训练文档中关键词并获取其同义词或/和上位词以构建短语图谱，所述短语图谱中以所述关键词及其同义词或/和上位词作为节点；

词嵌入矩阵获取模块，用于获取短语图谱中所有节点的词嵌入矩阵；

向量获取模块，用于获取待提取的商品评价短语级的向量；

注意力机制模块I，用于通过上一时间步输出的关键词的标注向量矩阵与词嵌入矩阵之间的注意力权重，获取待提取的商品评价中短语的同义词或/和上位词的注意力机制向量/>；

注意力机制模块II，通过注意力机制向量和向量/>的注意力权重，获取总是同时出现的短语的交叉注意力机制向量/>；

预测模块，通过当前时间步的生成概率以及拷贝概率，获取当前时间步的输出从而提取出待提取的商品评价中的关键短语；其中，当前时间步的生成概率基于当前时间步的注意力机制向量获取，当前时间步的拷贝概率基于当前时间步的注意力机制向量/>、向量/>获取。

本发明还提供一种计算机程序，所述计算机程序被执行时，可实现上述的商品评论关键短语提取方法。

本发明还提供一种计算机系统，包括处理器以及存储器，所述存储器内存储有计算机程序，当所述计算机程序被处理器执行时，可实现上述的商品评论关键短语提取方法。

本发明的有益之处在于：

本发明中，将训练集内的文档通过人工标注等方式获取关键词构建短语库，然后从短语库内挑选高频短语作为短语词汇，并利用ChatGPT等大模型从所述短语词汇中找出每个短语的同义词和上位词，并利用短语词汇及其同义词和上位词作为节点构建短语谱图，再利用图表示学习方法等获取每个节点的向量。将待提取的商品评价进行编码后输入解码器，通过解码器中与节点向量的同义词、上位词注意力机制以及交叉注意力机制，从待提取的商品评价中提取出关键短语以及其同义词和上位词。

本发明提供的商品评论关键短语提取方法，不仅可提取显性的关键词，还可以通过显性词的同义词、上位词找到隐形的关键短语，提高后续商品评价分析的效率和准确性。

附图说明

图1为本发明的流程图。

图2为本发明的结构原理图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合具体实施方式对本发明作进一步的详细说明。

如图1所示，一种商品评论关键短语提取方法，包括：

S1提取训练文档中关键词并获取其同义词或/和上位词以构建短语图谱，所述短语图谱中以所述关键词及其同义词或/和上位词作为节点。

从预先准备的训练文档（同样是一些同类的商品评价语句）中，通过人工标注等方式对其关键词进行提取作为短语库（Phrase Bank）。

然后再从短语库中对其中出现的高频短语进行挑选作为短语词汇（PhraseVocabulary）/>。在进行挑选的时候，可以设置一个频率阈值，当某个词汇的出现频率高于频率阈值时，则认为该短语为高频短语。

本实施例中，利用可以利用ChatGPT等大模型找出短语词汇中的每个短语的同义词和上位词。

ChatGPT是OpenAI开发的一种基于生成对抗网络（GAN）的聊天模型。它通过预训练大规模的语言模型来生成自然语言，并且可以用于回答用户的问题、进行闲聊等多种对话任务。ChatGPT模型采用了Transformer架构，该架构利用自注意力机制来处理输入序列。该模型通过大量的对话数据进行了预练，以学习语言的语法、语义和上下文信息。

利用短语以及其同义词、上位词构建短语图谱，短语及其同义词、上位词作为节点相互连接。值得注意的是，假如某个短语没有同义词和上位词，那么该词与空节点<UNK>连接，避免形成孤岛。

S2获取短语图谱中所有节点的词嵌入矩阵。

本实施例中，通过Graph Representation Learning （图表示学习的方法），方法可获得短语图谱中所有节点的形成的词嵌入矩阵记作：。

S3对待提取的商品评价进行编码，获取待提取的商品评价短语级的向量。

本步骤中，需要对待提取的商品评价进行编码，其具体步骤包括：

S31将待提取的商品评价输入BERT模型获得词语级别的表示向量。

对于输入的待提取的商品评价，可将其输入BERT模型获得词语级别的表示向量/>，即：

；

BERT (Bidirectional Encoder Representations from Transformers)是Google在2018年提出的一种预训练（Pre-training）语言模型，它可以在大量的无标注数据上进行训练，并且可以生成高质量的文本表示。BERT采用的是Transformer模型结构，并通过预训练任务来生成通用的语言表示向量。

S32将词语级别的表示向量的起始位置和结束位置的向量输入短语编码器中进行编码，取最后一个时间步的输出作为待提取的商品评价短语级别的表示向量/>。

待提取的商品评价实际上由许多短语组成，依据短语库，我们可以找到这些短语及其位置。例如待提取的商品评价/>中第2-4个词是一个短语，而第一个词是单独的词，我们可以获得两个表示向量：

；

其中，第一个短语的表示向量，/>为第二个短语的表示向量，/>为短语编译器，/>分别为第一个短语的起始位置和结束位置，/>分别为第二个短语的启示位置和结束位置。通过上述操作，可获得文档的短语级表示，其中/>~/>为第一到第m个短语的表示向量。这里PhraseEncoder模型是一个GRU（Gated Recurrent Unit）门机制，是一种循环神经网络（RNN）的变种，它在模型内部引入了门机制，以帮助网络更好地捕捉长期依赖关系。本步骤中截取/>中短语开始位置到结束位置的向量分别送入如GRU，取最后一个时间步的输出作为短语的表示向量h，最后拼接成短语级别的表示向量/>。

S4在解码过程中，通过上一时间步输出的关键词的向量矩阵与词嵌入矩阵之间的注意力权重，获取待提取的商品评价中短语的同义词或/和上位词的注意力机制向量/>。

本步骤实际上是实现了一个同义词注意力机制，该注意力机制用于获取显性词汇的同义词、上位词，即隐性的关键词。

具体地，注意力机制向量的获取方法包括：

利用公式：

；

计算待提取的商品评价中短语的同义词或/和上位词的注意力机制向量，其中，为注意力机制向量，/>为上一时间步输出的关键词的向量矩阵（即ground-truths有效数据），/>为短语图谱中所有节点的词嵌入矩阵，/>、/>、/>为权重矩阵。上述权重矩阵中，通过注意力公式：

；

确定权重矩阵间的关系，其中d为参数，可自行设定；Attention为注意力机制，Q、K、V为权重矩阵，为权重矩阵K的转置，softmax为激活函数。

S5通过注意力机制向量和向量/>的注意力权重，获取总是同时出现的短语的交叉注意力机制向量/>。

本步骤实际上是实现了一个交叉注意力机制，该注意力机制用于获取总是同时出现的短语。在商品评价中，一些短语总是同时出现，比如再手机的评论中“屏幕”总是和“亮度高”、“清晰”等一起出现，通过寻找总是同时出现的词，使得关键短语的提取更加准确。

具体地，注意力机制向量的获取方法包括：

利用公式：

；

计算总是同时出现的短语的注意力机制向量，其中，为注意力机制向量，/>为短语的同义词或/和上位词的注意力机制向量，/>为获取待提取的商品评价短语级的向量，/>、/>、/>为权重矩阵。

S6通过当前时间步的生成概率以及拷贝概率，获取当前时间步的输出从而提取出待提取的商品评价中的关键短语；其中，当前时间步的生成概率基于当前时间步的注意力机制向量获取，当前时间步的拷贝概率基于当前时间步的注意力机制向量、向量/>获取。

步骤S4~S6作为一个解码器，对输入的待提取的商品评价短语级别的表示向量进行解码输出。其当前时间步t的输出即为当前词语为某个关键词的概率。该概率基于两部分构成，即当前时间步的生成概率和当前时间步的拷贝概率。而两个概率需要利用一个门机制来确定两个概率所占的权重。具体地，本步骤中获取当前时间步的输出的方法包括：

利用公式：

;

计算当前时间步的输出，其中，为当前时间步输出，/>为当前时间步的拷贝概率，/>为当前时间步的生成概率，/>为门机制。

进一步地，利用公式：

；

计算门机制，其中，为门机制，/>为当前时间步的短语的同义词或/和上位词的注意力机制向量，sigmoid为激活函数，mlp为多层感知机。

Sigmoid函数是一种常用的激活函数，它的输出值在0到1之间，通常于二分类问题或者处理概率值的场合。而MLP（Multi-Layer Perceptron）是一种前馈神经网络（Feedforward Neural Network），其结构由若干个全连接（FC层）组成，其中每个全连接层都由若干个神经元组成。MLP通过堆叠多个全连接层，实现了对输入数据的非线性映射和特征提取，生成更高层次、更抽象的特征表示。MLP的输出是由最后一层的神经元组成的，每个神经元与整个上一层的神经元都有连接。输出神经元的个数通常取决于具体的使用场景（分类问题、回归问题等等），并且可以根据需要进行修改。

另外，本步骤中利用公式：

；

利用公式：

；

S7对步骤S3~S6所表示的transformer模型进行优化，具体地，利用利用公式：

；

如图2所示，本发明还提供一种商品评论关键短语提取系统，用于实现上述商品评论关键短语提取方法，包括：

向量获取模块，用于获取待提取的商品评价短语级的向量；

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种商品评论关键短语提取方法，其特征在于包括：

获取短语图谱中所有节点的词嵌入矩阵E_cocab；

对待提取的商品评价进行编码，获取待提取的商品评价短语级的向量H_p；

在解码过程中，通过上一时间步输出的关键词的向量矩阵与词嵌入矩阵E_vocab之间的注意力权重，获取待提取的商品评价中短语的同义词或/和上位词的注意力机制向量

通过待提取的商品评价中短语的同义词或/和上位词的注意力机制向量和待提取的商品评价短语级的向量H_p的注意力权重，获取总是同时出现的短语的交叉注意力机制向量

通过当前时间步的生成概率以及拷贝概率，获取当前时间步的输出概率从而提取出待提取的商品评价中的关键短语；其中，当前时间步的生成概率基于当前时间步的总是同时出现的短语的交叉注意力机制向量获取，当前时间步的拷贝概率基于当前时间步的待提取的商品评价中短语的同义词或/和上位词的注意力机制向量/>待提取的商品评价短语级的向量H_p获取，包括：

利用公式：

P(y_t)＝g_genP_gen(y_t)+(1-g_gen)P_copy(y_t)；

计算当前时间步的输出概率，其中，P(y_t)为当前时间步输出概率，P_copy(y_t)为当前时间步的拷贝概率，P_gen(y_t)为当前时间步的生成概率，g_gen为门机制；

利用公式：

计算门机制，其中，g_gen为门机制，为当前时间步的短语的同义词或/和上位词的注意力机制向量，sigmoid为激活函数，mlp为多层感知机；

利用公式：

计算当前时间步生成概率，其中，P_gen(y_t)为当前时间步的生成概率，为当前时间步的短语的同义词或/和上位词的注意力机制向量，softmax为激活函数，mlp为多层感知机；利用公式：

计算当前时间步的拷贝概率，其中，P_copy(y_t)为当前时间步的拷贝概率，a_t，i为拷贝注意力权重，为当前时间步的待提取的商品评价中短语的同义词或/和上位词的注意力机制向量，w_i为输入的第i个词，y_t为当前时间步的输出，i：w_i＝y_t表示当w_i＝y_t时i的值取w_i或者y_t；softmax为激活函数，H_p为获取待提取的商品评价短语级的向量/>为权重矩阵。

2.根据权利要求1所述的一种商品评论关键短语提取方法，其特征在于：通过ChatGPT获取训练文档中关键词的同义词或/和上位词，并通过图表示学习方法获取短语图谱中所有节点的词嵌入矩阵E_eocab。

3.根据权利要求1所述的一种商品评论关键短语提取方法，其特征在于所述获取待提取的商品评价短语级的向量H_p的方法包括：

将待提取的商品评价输入BERT模型获得词语级别的表示向量H_w；

将词语级别的表示向量H_w的起始位置和结束位置的向量输入短语编码器中进行编码，取最后一个时间步的输出作为待提取的商品评价短语级别的向量H_p。

4.根据权利要求1所述的一种商品评论关键短语提取方法，其特征在于注意力机制向量的获取方法包括：

利用公式：

计算待提取的商品评价中短语的同义词或/和上位词的注意力机制向量，其中，为注意力机制向量，/>为上一时间步输出的关键短语的向量矩阵，E_cocab为短语图谱中所有节点的词嵌入矩阵，Attention为注意力机制，/>为权重矩阵，R^k×d为维度为k*d的实数域。

5.根据权利要求1所述的一种商品评论关键短语提取方法，其特征在于总是同时出现的短语的交叉注意力机制向量的获取方法包括：

利用公式：

计算总是同时出现的短语的注意力机制向量，其中，为总是同时出现的短语的交叉注意力机制向量，/>为待提取的商品评价中短语的同义词或/和上位词的注意力机制向量，H_p为获取待提取的商品评价短语级的向量，Attention为注意力机制，/>为权重矩阵。

6.根据权利要求1所述的一种商品评论关键短语提取方法，其特征在于利用公式：

L＝-∑logP(y_t|y_t-1，x；θ)；

对模型进行优化，其中，L为损失函数，θ为模型参数，x为输入，y_t当前时间步的输出，y_t-1为上一时间步的输出，P为概率分布。

7.一种商品评论关键短语提取系统，用于实现权利要求1～6中任意一项所述的商品评论关键短语提取方法，其特征在于包括：

词嵌入矩阵获取模块，用于获取短语图谱中所有节点的词嵌入矩阵E_vocab；

向量获取模块，用于获取待提取的商品评价短语级的向量H_p；

注意力机制模块I，用于通过上一时间步输出的关键词的向量矩阵与词嵌入矩阵E_vocab之间的注意力权重，获取待提取的商品评价中短语的同义词或/和上位词的注意力机制向量注意力机制模块II，通过待提取的商品评价中短语的同义词或/和上位词的注意力机制向量/>和待提取的商品评价短语级的向量H_p的注意力权重，获取总是同时出现的短语的交叉注意力机制向量/>

预测模块，通过当前时间步的生成概率以及拷贝概率，获取当前时间步的输出从而提取出待提取的商品评价中的关键短语；其中，当前时间步的生成概率基于当前时间步的总是同时出现的短语的交叉注意力机制向量夹取，当前时间步的拷贝概率基于当前时间步的待提取的商品评价中短语的同义词或/和上位词的注意力机制向量/>待提取的商品评价短语级的向量H_p获取，包括：

利用公式：

P(y_t)＝g_genP_gen(y_t)+(1-g_gen)P_copy(y_t)；

利用公式：

计算当前时间步的拷贝概率，其中，P_copy(y_t)为当前时间步的拷贝概率，a_t，i为拷贝注意力权重，为当前时间步的待提取的商品评价中短语的同义词或/和上位词的注意力机制向量，w_i为输入的第i个词，y_t当前时间步的输出，i：w_i＝y_t表示当w_i＝y_t时i的值取w_i或者y_t；softmax为激活函数，H_p为获取待提取的商品评价短语级的向量/>为权重矩阵。

8.一种计算机系统，其特征在于：包括处理器以及存储器，所述存储器内存储有计算机程序，当所述计算机程序被处理器执行时，用于实现权利要求1～6中任意一项所述的商品评论关键短语提取方法。