CN114625842A

CN114625842A - 一种基于结构注意力增强机制的虚假评论识别模型

Info

Publication number: CN114625842A
Application number: CN202210304001.XA
Authority: CN
Inventors: 吴磊; 钟朝泽; 刘明; 吴少智; 龚海刚; 王晓敏; 陈鹏; 单文煜
Original assignee: Quzhou Haiyi Technology Co ltd; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Quzhou Haiyi Technology Co ltd; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-14

Abstract

本发明涉及一种基于结构注意力增强机制的虚假评论识别模型，它包括层次化语义网络和结构注意力增强机制网络；所述层次化语义网络以预训练的词向量为输入层，通过层次化神经网络学习评论文本词‑句‑段的文本表示，词‑句层利用词嵌入特征学习评论文本的句子表示，完成词语级别的建模，句‑段层通过词‑句层的句子向量生成评论文本的整体段落表示，完成语篇级别的建模；所述结构注意力增强机制网络用于学习上下文的连贯性矩阵和对文本结构单元做非前后文关系的自由语序的增强表示。本发明着重对评论文本的词‑句‑段的层次化结构进行了特征提取，并在层次表示中嵌入结构注意力增强机制，以增强弱结构单元的非线性语义表达。

Description

一种基于结构注意力增强机制的虚假评论识别模型

技术领域

本发明涉及虚假评论检测识别技术领域，尤其涉及一种基于结构注意力增强机制的虚假评论识别模型。

背景技术

虚假评论识别对肃清互联网黑灰产，营造安全可靠的购物环境，给科学研究提供纯净可靠的数据来源等均有着重大意义；互联网和移动终端的蓬勃发展，使得电商平台的便捷性和舒适性改变着人们的消费方式，不同于传统的线下实体购物，线上浏览中选择商品时，消费者不能身临其境地观察产品的外观或者切身体验产品的整体功能，只能从详情页中获取由卖方主导的产品介绍。然而，企业商户在商品详情展示页中，会夸大产品优点，掩盖缺点，使得消费者无法有效获得真实信息，因此，在这种非平衡的购物天平下，其他消费者在商品购物行为后的评论就成为了消费者获取真实信息和做出购买决策的重要信息来源。根据调查，约81％的用户会在购买前阅读评论，其中80％的用户认为评论对他们的购买决策产生了影响，因此，商品的评论内容已逐渐成为人们判断线上产品质量的重要参考因素之一。

由于平台上的评论信息成为消费者购物的指南，人们也越来越依赖于评论的真实性和可靠性。但随之而来的是，故意引导性的失真评论、为了获取积分凑字数的无效评论和部分商家利用刷单冒充用户发表夸张评论或者在竞争商品下发布诋毁评论，即虚假评论；从整个交易流程来看，买方由于误导性购物导致体验下降；卖方无法获取准确的市场反馈影响营销策略和徒增退换工作；平台降低了用户粘性和市场竞争力；由于数据失真给科学研究也带来了数据真实性和清洗工作的困扰。因此，判断和识别虚假评论对诸多视角中都成了亟待解决的任务。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于结构注意力增强机制的虚假评论识别模型，能够判断和识别虚假评论。

本发明的目的通过以下技术方案来实现：一种基于结构注意力增强机制的虚假评论识别模型，它包括用于层次化分阶段文本表示学习的层次化语义网络，以及嵌入层次化语义网络中到对文本结构下的词和句子进行增强表示学习的结构注意力增强机制网络；

所述层次化语义网络以预训练的词向量为输入层，通过层次化神经网络学习评论文本词-句-段的文本表示，词-句层利用词嵌入特征学习评论文本的句子表示，完成词语级别的建模，句-段层通过词-句层的句子向量生成评论文本的整体段落表示，完成语篇级别的建模；

所述结构注意力增强机制网络用于学习上下文的连贯性矩阵和对文本结构单元做非前后文关系的自由语序的增强表示。

所述层次化语义网络包括Embedding层、GRU层和Pooling层；所述Embedding层用于将句子里的每个单词表示成固定且维度相同的词向量；所述GRU层用于对对前向输入序列的词学习向量和后向输入序列的词学习向量进行向量拼接得到词的编码向量；所述Pooling层通过平均值池化对结构注意力增强机制网络语义增强后的所有词进行平均值操作。

所述结构注意力增强机制网络嵌入到所述GRU层和Pooling层之间，用于学习上下文的连贯性矩阵和对文本结构单元做非前后文关系的自由语序的增强表示。

所述层次化语义网络具体实现的步骤包括：

给定一个由n个句子的文档d＝[d₁,d₂,…,d_n]，每个句子s_i都由m个单词[w_i1,w_i2,…,w_im]构成；

Embedding层通过Word2vec模型通过训练未标注的评论文本语料得到单词的向量化词典库，获取单词w_ij表示为w_ij＝W_E·I[w_ij]，其中，W_E为经过预训练得到的词向量矩阵，I[·]表示通过词典库查询到词w_ij的索引；

GRU层通过

得到前向输入序列的词学习向量和

得到后向输入序列的词学习向量，并通过

进行向量拼接得到词的编码向量w_ij，其中，

表示前向输入序列的词学习向量，

表示后向输入序列的词学习向量；

Pooling层通过

对语义增强后的所有词进行平均值操作。

所述结构注意力增强机制网络包括单元依赖学习模块和单元语义增强模块；所述单元依赖学习模块用于对词级和句子级的依赖关系矩阵进行计算，通过长距离或非前后文下的自由词序下构建文本不连续结构；所述单元语义增强模块用于通过构建语法树的方式对词之间的量化矩阵进行学习分配，为具有弱结构信息的文本生成层次化的上下文信息。

所述单元依赖学习模块实现的具体步骤包括：

将词的语义提取层获取的GRU层每一步输出的句子s_i＝[w_i1,w_i2,…,w_ij,…w_im]作为词的语义表达

k表示GRU隐层维度；

通过结构注意力机制学习词间注意力矩阵A∈R^m×m获取词之间的依赖关系，并通过u_ip＝φ(W_p·w_im+b_p)、u_iq＝φ(W_c·w_in+b_q)和

对矩阵A进行学习，其中，A_pq表示w_ip和w_iq的父节点概率(1≤p,q≤m,p≠q)，φ为非线性激活函数，W_p∈R^m×m和W_c∈R^m×m分别为父子节点变换映射矩阵，b_f和b_c为对应的偏置值；

通过u_j＝φ(w_r·w_ij+b_r)和

计算根节点的概率，其中，W_r∈R^1×k为根节点映射矩阵，对句子中所有的词计算其作为根节点的概率为

所述单元语义增强模块实现的具体步骤包括：

将由GRU层输出的语义向量划分为两个部分

其中

表示文本依赖学习，

表示词更新语义；

通过

和

计算得到结构中词

在句子中所有父子词的非线性上下文表示向量，

表示文档树结构中作为根节点的词嵌入向量。

本发明具有以下优点：一种基于结构注意力增强机制的虚假评论识别模型，着重对评论文本的词-句-段的层次化结构进行了特征提取，并在层次表示中嵌入结构注意力增强机制，以增强弱结构单元的非线性语义表达；与以往的方法相比，不仅能够获取到文本的深层结构性语义表达以提高模型的识别性能，还能够获取到文本单元的相关性量化矩阵，不借助第三方分析平台和额外的辅助语料库，用于文本的结构诱导生成，可实现跨平台的迁移使用能力。

附图说明

图1为嵌入结构注意力增强层次网络模型图；

图2为层次语义网络提取特征流程图；

图3为词语级注意力机制示意图；

图4为句子级注意力机制示意图；

图5为词增强更新流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

本发明工作主要围绕评论文本的‘词-句-段’的文本表示学习，以及针对文本结构单元分别在句子级和文档级的表示中嵌入结构注意力增强机制，用于对上下文做非线性关系的增强表示学习。

如图1所示，本发明主要包括用于层次化分阶段文本表示学习的层次化语义网络和对文本结构下的词和句子进行增强表示学习的结构注意力增强机制。左侧网络层，以预训练的词向量为输入层，通过层次化神经网络(Hierarchical Neural Network,HNN)学习到评论文本词-句-段的文本表示，词-句层主要利用词嵌入特征学习评论文本的句子表示，完成词语级别的建模；句-段层通过前一层的句子向量生成评论文本的整体段落表示，完成语篇级别的建模。嵌入结构注意力机制(StructureAttention Enpower Mechanism)，用于学习上下文的连贯性矩阵和对文本结构单元(词语和句子)做非前后文关系的自由语序的增强表示。。

如图2所示，给定一个由n个句子的文档d＝[d₁,d₂,…,d_n]，对于每个句子s_i，由m个单词[w_i1,w_i2,…,w_im]构成。层次化语义网络正是为了刻画文档‘词-句-段’的分层信息。主要由Embedding层、GRU层、Structure-Attention层(结构注意力增强机制层)和Pooling层组成。

首先是Embedding层，将句子里的每个单词表示成固定且维度相同的词向量。首先使用Word2vec模型通过训练未标注的评论文本语料得到单词的向量化词典库。获取单词w_ij的表示为：

w_ij＝W_E·I[w_ij]

其中，i，j表示文档中第i个句子第j个词，W_E为经过预训练得到的词向量矩阵，I[·]表示通过词典库查询到词w_ij的索引。

然后是GRU层，由于传统的RNN在处理长文本输入序列会产生梯度弥散和梯度爆炸的问题，而LSTM和GRU能够通过‘门’控结构来选择上一时间步的历史信息，缓解反向传播中梯度由近距离主导等问题，与LSTM相比，GRU在‘门’结构设计上更为简单，训练的计算速度更快。

其中，

表示前向输入序列的词学习向量，

表示后向输入序列的词学习向量，通过向量拼接得到词的编码向量w_ij。

最后，对于Pooling层，为获取整句话的语义表示，选择平均值池化对Structure-Attention语义增强后的所有词做操作：

其中，文档级建模的过程与句子层大致相同。

不同于全局注意力机制去选择对分类结果贡献度的词语或句子。本发明立足于虚假评论领域提出了能够学习上下文丰富的结构依赖关系的结构注意力机制，主要有以下三点原因:其一，从研究现状不难发现组成文档的基本结构单元词语和句子之间的连接关系可以反映出文档的写作真实性；其二，虚假评论者通过浏览真实评论而剪辑杜撰出的文本缺乏前后文一致性，因此通过学习前后文的相关性，可以研究评论文本的前后一致性；其三，使用层次结构可以学习到深层的文档语义表达，通过捕获文档单元结构的交互信息，从而为对分类贡献度高但缺乏上下文信息的词语或句子生成上下文表示，增强其语义表达。

在文本单元的依赖性分析上，主要是识别一个单元对另外一个单元的依赖性。如图3所示，本发明捕获句子中词之间的交互作用，为每个具有弱结构信息的单词生成上下文表示，以学习更深层次的结构语义表示。在词的语义提取层获取的GRU每一步输出s_i＝[w_i1,w_i2,...,w_ij,...w_im]作为词的语义表达，

k表示GRU隐层维度，R表示实数空间。

为了获取词之间的依赖关系，本发明利用结构注意力机制学习词间注意力矩阵A∈R^m×m，A_pq表示w_ip和w_iq的父节点概率(1≤p,q≤m,p≠q)。矩阵A的学习表示过程如下所示：

u_ip＝φ(W_p·w_im+b_p)

u_iq＝φ(W_c·w_in+b_q)

其中，φ为非线性激活函数，W_p∈R^m×m和W_c∈R^m×m分别为父子节点变换映射矩阵，b_f和b_c为对应的偏置值。

由于后序语义增强表示需要对树结构的根节点做计算，通过以下式子对根节点的概率进行定义：

u_j＝φ(w_r·w_ij+b_r)

其中，W_r∈R^1×k，作为根节点映射矩阵。对句子中所有的词计算其作为根节点的概率为

由依赖关系表示的文本其主要优点在于可以通过长距离或非前后文下的自由词序下构建文本不连续结构。通过构建语法树的方式对词之间的量化矩阵进行学习分配，从而为具有弱结构信息的文本生成层次化的上下文信息。

如图4所示，将由GRU输出的语义向量划分为两个部分：

其中

用于文本依赖学习，用于获取上下文非线性依赖矩阵A和根概率向量

用于词更新语义表示。

其中

和

分别是结构中词

在句子中所有可能的父子词的非线性上下文表示向量，

表示文档树结构中作为根节点的词嵌入向量。

通过上下文非线性依赖矩阵A和根概率向量r，对当前词的语义进行上下文非前后自由语序的补充语义。用于增强对分类结果重要性高，但语义表达弱的词。

本发明同时自动学习更丰富的结构依赖关系。其关键思想是捕获词语和句子之间的交互作用，为每个具有弱结构信息的单词和句子成非上下文语序的增强表示。依托于GRU处理文本语序的每一个时间步的输出，建立出l×l的结构注意力矩阵A和文本结构树根节点概率向量r，为每一个时间步的输出，通过A和r的值，补充其非线性自由语序的语义补充，共同融合成当前步的语义表示。这样，对于那些对最后分类层有识别显著性的词语或句子，能够在网络语义欠学习的情况下，增强其语义表示，使得其能够参与最后文本分类层的特征向量构建中。在以准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1综合评价指标(F1-Score)为评价指标的对比实验中，针对数据集和已有方法的对照实验结果来看，在多个指标中均有2％的效果提升。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本发明所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本发明所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：它包括用于层次化分阶段文本表示学习的层次化语义网络，以及嵌入层次化语义网络中到对文本结构下的词和句子进行增强表示学习的结构注意力增强机制网络；

2.根据权利要求1所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述层次化语义网络包括Embedding层、GRU层和Pooling层；所述Embedding层用于将句子里的每个单词表示成固定且维度相同的词向量；所述GRU层用于对对前向输入序列的词学习向量和后向输入序列的词学习向量进行向量拼接得到词的编码向量；所述Pooling层通过平均值池化对结构注意力增强机制网络语义增强后的所有词进行平均值操作。

3.根据权利要求2所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述结构注意力增强机制网络嵌入到所述GRU层和Pooling层之间，用于学习上下文的连贯性矩阵和对文本结构单元做非前后文关系的自由语序的增强表示。

4.根据权利要求1所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述层次化语义网络具体实现的步骤包括：

给定一个由n个句子的文档d＝[d₁,d₂,...,d_n]，每个句子s_i都由m个单词[w_i1,w_i2,...,w_im]构成；

GRU层通过

得到前向输入序列的词学习向量和

得到后向输入序列的词学习向量，并通过

进行向量拼接得到词的编码向量w_ij，其中，

表示前向输入序列的词学习向量，

表示后向输入序列的词学习向量；

Pooling层通过

对语义增强后的所有词进行平均值操作。

5.根据权利要求3所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述结构注意力增强机制网络包括单元依赖学习模块和单元语义增强模块；所述单元依赖学习模块用于对词级和句子级的依赖关系矩阵进行计算，通过长距离或非前后文下的自由词序下构建文本不连续结构；所述单元语义增强模块用于通过构建语法树的方式对词之间的量化矩阵进行学习分配，为具有弱结构信息的文本生成层次化的上下文信息。

6.根据权利要求5所述的一种基于结构注意力增强机制的虚假评论识别模型，其特征在于：所述单元依赖学习模块实现的具体步骤包括：