CN109359190B

CN109359190B - 一种基于评价对象阵营的立场分析模型构建方法

Info

Publication number: CN109359190B
Application number: CN201810939599.3A
Authority: CN
Inventors: 曾曦; 阳红; 谢瑞云; 夏明赟; 赵姝颖; 常明芳
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2021-12-17
Anticipated expiration: 2038-08-17
Also published as: CN109359190A

Abstract

本发明公开了一种基于评价对象阵营的立场分析模型构建方法，包括如下步骤：步骤一、构建对象阵营词典；步骤二、构建对象阵营判断语料；步骤三、构建对象阵营判断模型；步骤四、构建立场分析语料；步骤五、构建立场分析模型。与现有技术相比，本发明的积极效果是：通过本发明方法构建的立场分析模型对目标对象的分析速度快，远远高于人工判定；其次是准确率高，模型准确率可达到72.54％，且能分析一些少数立场，同时，训练语料构建工作量小，只需要制作一个小规模的语料库，就可以对模型进行训练。综上，本发明的立场分析模型在分析目标对象立场时，不仅节约了人力成本，降低了工作量，且提高了对目标对象立场分析的效率及准确率。

Description

一种基于评价对象阵营的立场分析模型构建方法

技术领域

本发明涉及一种基于评价对象阵营的立场分析模型构建方法。

背景技术

在分析海量评论信息的立场(褒义、贬义、中立等)时，人工判断立场的方法需要耗费大量的人力且效率低。此外，评论信息中涉及的对象很多，评论信息中同样的表达方式，针对不同的对象，立场也不同。因此，当前基于对象进行情感褒贬分析的方法无法直接运用在立场分析。

发明内容

为了克服现有技术的上述缺点，本发明提供了一种基于评价对象阵营的立场分析模型构建方法，针对网络社交媒体的评论信息，构建对象阵营词典，利用本发明的对象阵营判断模型以及立场分析模型的协作，可以达到快速准确分析评论信息立场的目的。

本发明解决其技术问题所采用的技术方案是：一种基于评价对象阵营的立场分析模型构建方法，包括如下步骤：

步骤一、构建对象阵营词典；

步骤二、构建对象阵营判断语料；

步骤三、构建对象阵营判断模型；

步骤四、构建立场分析语料；

步骤五、构建立场分析模型。

与现有技术相比，本发明的积极效果是：

通过本发明方法构建的立场分析模型对目标对象的分析速度快，远远高于人工判定；其次是准确率高，模型准确率可达到72.54％，且能分析一些少数立场，同时，训练语料构建工作量小，只需要制作一个小规模的语料库，就可以对模型进行训练。

综上，本发明的立场分析模型在分析目标对象立场时，不仅节约了人力成本，降低了工作量，且提高了对目标对象立场分析的效率及准确率。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明的原理框图。

具体实施方式

一种基于评价对象阵营的立场分析模型构建方法，如图1所示，针对网络社交媒体的评论信息，构建对象阵营词典。采用词典-评论信息匹配的方法，抽取出明显具有对象阵营特征的句子，作为对象阵营判断的学习语料，构建对象阵营判断模型，完成评论信息对象阵营的判断。人工标注评论信息的立场，并将其与对象阵营、评论信息共同作为立场分析模型的输入，通过训练得到立场分析模型。

本发明的具体内容包括：

(一)对象阵营判断模型构建

1、对象阵营词典构建

为了方便对象阵营判断语料的构建，首先通过人工分析方法构建对象阵营词典，用于匹配评论中的对象信息。该词典内容为一个对象跟随一个类别标签，对象阵营包含两大阵营，分别记为0、1。

2、对象阵营判断语料构建

将对象的评论信息与词典进行匹配，选出明显具有对象阵营特征的评论信息，分别归到0、1阵营中，共同构成对象阵营判断语料。

同时，在不打乱语料对象阵营对应关系的基础上进行语料随机乱序，并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。

3、对象阵营判断模型构建

对象阵营判断模型是一个经典的双向长短记忆神经网络(BLSTM)。

对象阵营判断模型的大体结构可以描述如下：

a.输入层：将长度为N的句子t中的每个词W_t＝{W_t1，W_t2，...，W_tN，}的词向量S_t＝{S_t1，S_t2，...，S_tN，}输入。

S_t＝Embedding(W_t)

b.双向神经网络：通过双向的长短记忆神经网络得到每个词的抽象表示 H_t＝{h_t1，h_t2，...，h_tN，}(隐层输出，维度为50)。

H_t＝BSLTM(S_t)

c.输出层：将每个句子最后一个词的隐层输出h_tN作为最终的句子表示，经过Linear层转化为2维并通过softmax函数得到一个2维概率分布P_t，分别代表评价对象阵营为0和1。

P_t＝Softmax(W×h_tN+bias)

其中，W为句子的权重，bias为偏置。

(二)立场分析模型构建

1、立场分析语料构建

对目标对象评论信息的立场进行人工标注，结合评论信息对象阵营判断的结果，从评论信息的对象阵营、立场、评论信息内容三方面，完成立场分析语料构建。同样，在不打乱语料对应关系的基础上进行语料随机乱序，并将语料信息按照8:1:1的比例分为训练集、验证集、测试集。

2、立场分析模型构建

结合评论信息对象阵营判断的结果，将评论信息的对象阵营、立场、评论信息内容三个要素共同作为立场分析模型的输入，基于BLSTM的分类神经网络，构建立场分析模型。

模型结构描述如下：

a.输入层：将长度为N的句子t的每个词W_t＝{W_t1，W_t2，...，W_tN，}的词向量S_t＝{S_t1，S_t2，...，S_tN，}与该句子对象阵营的向量表示V_t进行连接，并作为立场分析模型的输入，记为I_t。

其中，对象阵营V_t的向量表示方法为one-hot形式：对象阵营标签为0，向量类别表示为[1,0,0]；对象阵营标签为1，向量类别表示为[0,1,0]；对象阵营标签为2，向量类别表示为[0,0,1]。

I_t＝concatenate(S_t，V_t)

b.双向神经网络：通过双向长短记忆神经网络得到每个词的抽象表示 H_t＝{h_t1，h_t2，...，h_tN，}(隐层输出，维度为50)。

H_t＝BSLTM(I_t)

c.注意力层(attention layer)：在每个词的隐层输出H_t上再连接一次该句子对象阵营V_t的向量表示，作为注意力层的输入K_t，在注意力层对该向量进行线性非线性变换，使之变成句子长度N维的概率分布A_t，并认为概率大的位置对于最后的立场判断更加重要。将该概率分布(概率分布拓展到与隐层输出的维度相同)与句子中每个词的隐层输出按位相乘，并求和，即加权求和，作为句子的一个表示R_t。

注意力层采用Linear+Tanh+Linear变换。其中注意力层的输入K_t计算方法如下：

K_t＝concatenate(H_t，V_t)

概率分布A_t：

A_t＝attention(K_t)

句子的一个表示R_t：

R_t＝sum(A_t×H_t)

d.输出层：将注意力层加权求和得到的句子表示R_t与句子最后一个词的隐层输出h_tN进行按位加法，结果作为最终的句子表示h_t*，

h_t*＝R_t+h_tN

将h_t*经过Linear函数变换为3维向量，并经过softmax函数得到一个3 维概率分布P_t。

P_t＝Softmax(W×h_t*+bias)。

Claims

1.一种基于评价对象阵营的立场分析模型构建方法，其特征在于：包括如下步骤：

步骤一、构建对象阵营词典；

步骤二、构建对象阵营判断语料；

步骤三、构建对象阵营判断模型；

步骤四、构建立场分析语料；

步骤五、构建立场分析模型：

(1)输入层：将句子t的每个词的词向量S_t与该句子对象阵营的向量表示V_t进行连接，作为立场分析模型的输入I_t：

I_t＝concatenate(S_t，V_t)

(2)双向神经网络：通过双向长短记忆神经网络得到每个词的抽象表示H_t＝{h_t1，h_t2，...，h_tN，}：

H_t＝BLSTM(I_t)

(3)注意力层：在每个词的隐层输出H_t上再连接一次V_t，作为注意力层的输入K_t：

K_t＝concatenate(H_t，V_t)

在注意力层对该向量进行线性非线性变换，使之变成N维的概率分布A_t：

A_t＝attention(K_t)

将A_t与句子中每个词的隐层输出按位相乘，并求和，作为句子的一个表示R_t：

R_t＝sum(A_t×H_t)

(4)输出层：将R_t与句子最后一个词的隐层输出h_tN进行按位加法，结果作为最终的句子表示h_t*：

h_t*＝R_t+h_tN

将h_t*经过Linear函数变换为3维向量，并经过softmax函数得到一个3维概率分布P_t：

P_t＝Softmax(W×h_t*+bias)；

其中：所述对象阵营的向量表示V_t包括：对象阵营标签为0，向量类别表示为[1，0]；对象阵营标签为1，向量类别表示为[0，1]。

2.根据权利要求1所述的一种基于评价对象阵营的立场分析模型构建方法，其特征在于：步骤一所述对象阵营词典内容为一个对象跟随一个类别标签，对象阵营包含两大阵营，分别记为0、1。

3.根据权利要求2所述的一种基于评价对象阵营的立场分析模型构建方法，其特征在于：步骤二所述构建对象阵营判断语料的方法为：将对象的评论信息与词典进行匹配，选出明显具有对象阵营特征的评论信息，分别归到0、1阵营中，构成对象阵营判断语料；同时，在不打乱对象阵营判断语料对应关系的基础上进行语料随机乱序，并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。

4.根据权利要求3所述的一种基于评价对象阵营的立场分析模型构建方法，其特征在于：所述对象阵营判断模型的结构包括：

(1)输入层：为长度为N的句子t中的每个词W_t＝{W_t1，W_t2，...，W_tN，}的词向量S_t＝{S_t1，S_t2，...，S_tN，}：

S_t＝Embedding(W_t)

(2)双向神经网络：通过双向的长短记忆神经网络得到每个词的抽象表示H_t＝{h_t1，h_t2，...，h_tN，}：

H_t＝BLSTM(S_t)

(3)输出层：将每个句子最后一个词的隐层输出h_tN作为最终的句子表示，经过Linear层转化为2维并通过softmax函数得到一个2维概率分布P′_t，分别代表评价对象阵营为0和1：

P′_t＝Softmax(W×h_tN+bias)

其中，W为句子的权重，bias为偏置。

5.根据权利要求4所述的一种基于评价对象阵营的立场分析模型构建方法，其特征在于：步骤四所述构建立场分析语料的方法为：对目标对象评论信息的立场进行人工标注，结合评论信息对象阵营判断的结果，从评论信息的对象阵营、立场、评论信息内容三方面，完成立场分析语料构建；同时，在不打乱语料对应关系的基础上进行语料随机乱序，并将语料信息按照8∶1∶1的比例分为训练集、验证集、测试集。