CN110297889A

CN110297889A - 一种基于特征融合的企业情感倾向分析方法

Info

Publication number: CN110297889A
Application number: CN201910576432.XA
Authority: CN
Inventors: 顾凌云; 严涵; 王洪阳
Original assignee: Nanjing Bingjian Information Technology Co Ltd
Current assignee: Nanjing Bingjian Information Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-01
Anticipated expiration: 2039-06-28
Also published as: CN110297889B

Abstract

本发明公开了一种基于特征融合的企业情感倾向分析方法，属于大数据技术领域，包括字词矩阵融合，位置矩阵与字词融合矩阵进行宽度上拼接，通过双向GRU与self‑attention结合，提取序列特征，序列特征矩阵与S22所得矩阵进一步宽度拼接，得到最终特征融合矩阵，解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析，从而增加了对企业在相应语境中情感倾向判断的准确性，减少了同义词所带来的情感误差的技术问题，本发明通过引入字嵌入方式，引入循环神经网络与attention进行特征提取，得到的矩阵增强了后期模型对于文本上下文信息学习能力。

Description

一种基于特征融合的企业情感倾向分析方法

技术领域

本发明属于大数据技术领域，尤其涉及一种基于特征融合的企业情感倾向分析方法。

背景技术

企业情感分析是指通过一种特征构建方法，用机器学习或者深度学习的方式构建模型，从而通过模型判断企业在舆情文本中的情感倾向。在基于机器学习模型的情感分类方法构建过程中，主要使用词频作为特征构建的重要因素，这类技术具有模型特征构建简单，可以快速训练部署的特点。但其缺点也很突出，由于词频矩阵并不包含语言的上下文结构，因此这类特征不具有抽象性，所包含的文本信息不足以解决文本语法结构问题。同时由于机器学习模型数据拟合能力没有神经网络能力强，因此其模型泛化性也存在问题。

伴随着深度学习技术的发展，一系列基于word2vec及其他一系列词向量嵌入技术开始投入使用。这类依托于词相似度所构建的特征矩阵具有高维结构，其能够解决部分文本信息不足的问题。但其缺陷在于无法解决文本中同义词所带来的歧义问题。同时常见的情感分析方法，时基于句子级别的粗粒度的情感分析方法。这类方法通过基于词相似度来进行特征构建时，对于上下文结构的表示也存在差距，无法将不同语境中的情感因素提取出来。

传统常见的深度学习的情感分类方法，是基于句子粒度的特征构建模型的方法。这类方法存在难以辨别目标词上下文信息的缺陷，从而导致文本信息构建不全。

发明内容

本发明的目的是提供一种基于特征融合的企业情感倾向分析方法，解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析，从而增加了对企业在相应语境中情感倾向判断的准确性，减少了同义词所带来的情感误差的技术问题。

为实现上述目的，本发明采用如下技术方案：

一种基于特征融合的企业情感倾向分析方法，包括如下步骤：

步骤1：建立中心服务器，在中心服务器中建立字词向量存储模块、矩阵模块、文本序列特征模块和特征融合模块；

步骤2：中心服务器从互联网中爬取到数个新闻的原始文本数据，中心服务器将所有原始文本数据存储在字词向量存储模块中，生成训练集，确保训练集中有足够的词，通过训练集训练字向量和词向量，其步骤如下：

步骤A1：训练词向量时，首先用jieba分词对训练集中的每一段文本进行分词处理，然后输入词窗大小为3的情况下训练CBOW结构word2vec模型，再然后利用所得到的word2vec模型生成256维度嵌入层权值矩阵，即词向量矩阵F1；

步骤A2：训练字向量时，首先将训练集中每一段文本拆分成字符表示，然后输入词窗大小为2的情况下训练CBOW结构word2vec模型，再然后利用训练好的word2vec模型生成256维度嵌入层权值矩阵，即字向量矩阵F2；

步骤3：矩阵模块将词向量矩阵F1和字向量矩阵F2进行加性拼接得到矩阵E1，E1的形状为{batchsize，maxlen，d_model}，其中maxlen表示文本序列固定长度，d_model表示人工设定词向量宽度；

设定训练集中每一段文本的文本序列为X：

X＝{X₁,X₂,X₃…Xa…X_i…Xn}；

矩阵模块以公司名称作为目标词并确定公司名位置索引a，以目标词为原点，分别通过以下公式计算其他非目标词到该目标词的距离d＝{d₁,d₂,d₃,d₄,……,d_i}：

d＝|a-i|；

其中，i表示文本序列中每个分词的位置索引；

步骤4：矩阵模块将计算获得的所有距离d表示为一个形状为{1，1}的一维数组，那么多个句子则得到维度为{batch，1}的距离数组；

矩阵模块根据对距离数组对矩阵E1进行嵌入操作，生成位置矩阵PF，位置矩阵PF的形状为{batch_size，maxlen，1}，其中maxlen的值为整数；

步骤5：文本序列特征模块根据每一段文本的文本序列为X，采用以下公式计算每一段文本的文本数据概率P，得到文本数据概率分布：

P＝P(x₁).P(x₂|x₁).P(x₃|x₂x₁).....P(x_n|x_n-1x_n-2...x₃x₂x₁)；

步骤6：文本序列特征模块通过循环神经网络生成于文本序列X相应的隐藏层，进一步计算相似权值，产生attention注意力训练编码；

步骤7：文本序列特征模块根据字向量矩阵F2，使用GRU双向循环神经网络进行序列处理，其步骤如下：

步骤B1：采用以下公式表示更新门状态更改过程，其输入前一时刻T0的隐藏状态值与现有时刻T1的文本序列值，从而用于控制前一时刻T0隐藏状态量H_T0的输入量的多少：

r_T1＝σ(W_r·[H_T0，x_T1])；

其中，r_T1表示T1时刻更新门状态量，σ表示sigmoid函数，W_r表示更新门权值参数，H_T0表示T0时刻隐藏层状态量，x_T1表示T1时刻输入的序列信息；

步骤B2：采用以下公式计算重置门的量，用于控制前一时刻T0忽略状态量的多少：

z_T1＝σ(W_z·[H_T0，x_T1])；

其中，z_T1表示T1时刻重置门状态量，σ表示sigmoid函数，W_z表示重置门权值参数，H_T0表示T0时刻隐藏层状态量，x_T1表示T1时刻输入序列信息；

步骤B3：通过采用以下公式加入tanh激活函数，用于增加文本序列长期记忆效果：

其中，表示T1时刻隐藏状态量，表示权值参数，r_T1表示T1时刻更新门状态量，H_T0表示T0时刻隐藏状态量，x_T1表示T1时刻序列信息；

步骤B4：采用以下公式计算最终的隐藏状态量HT1：

步骤8：文本序列特征模块对attention注意力训练编码进行attention注意力训练，得到注意力编码矩阵H，将attention注意力训练机制中的query矩阵，key矩阵和value矩阵都看作同一个矩阵，其值与H_T1矩阵相同，其步骤如下：

步骤C1：对query矩阵，key矩阵和value矩阵按照以下三个公式做线性变换：

Query＝W_Q.H_T1；

Key＝W_k.H_T1；

Value＝W_V.H_T1；

其中，W_Q、W_K、W_V是模型训练过程中待确定的参数；

步骤C2：采用以下公式计算Key矩阵与Query矩阵的点乘相似度：

其中i指key矩阵HT1相应的位置索引，d为维度；

步骤C3：采用以下公式计算每一个key矩阵截取片断的softmax值：

其中j表示相似度函数个数，n表示文本序列长度；

将softmax值转换为概率，得到了相应的attention权值；

步骤C4：采用以下公式进行加权求和，得到了整个文本序列上的注意力编码矩阵H：

其中，n表示文本序列长度，V表示文本序列编码，物理意义与key矩阵相同；

步骤9：特征融合模块将PF矩阵与注意力编码矩阵H进一步进行宽度拼接，最终生成融合矩阵；

步骤10：中心服务器采用融合矩阵进行分类处理。

优选的，在执行步骤A1和步骤A2时，在将数据输入CBOW结构word2vec模型前，对每一段文本进行定长处理，将每一段文本序列固定为N个字的长度，N的取值为正整数。

优选的，在执行步骤4时，位置矩阵PF的形状为{batch_size，maxlen，1}，其中maxlen的值为500。

本发明所述的一种基于特征融合的企业情感倾向分析方法，解决了将粗粒度的句子级别情感分析变换为词粒度的情感分析，从而增加了对企业在相应语境中情感倾向判断的准确性，减少了同义词所带来的情感误差的技术问题，本发明通过引入字嵌入方式，引入循环神经网络与attention进行特征提取，得到的矩阵增强了后期模型对于文本上下文信息学习能力，本发明通过字词矩阵融合，位置矩阵宽度拼接和最终序列特征矩阵与位置矩阵进一步融合的3次融合操作，从而使得的到的特征矩阵包含更多的文本信息，使得模型能尽力学习到语言的语法结构。

附图说明

图1是本发明的流程图；

图2是本发明的位置矩阵PF的示意图；

图3是本发明的序列特征提取的示意图；

图4是本发明的特征融合过程的流程图。

具体实施方式

如图1-图4所示的一种基于特征融合的企业情感倾向分析方法，包括如下步骤：

步骤A1：训练词向量时，首先用jieba分词对训练集中的每一段文本进行分词处理，然后输入词窗大小为3的情况下训练CBOW结构word2vec模型，本实施例在将数据输入模型前，实验预处理阶段对每一段文本进行了定长处理，将每一段文本序列固定为500个字的长度；

再然后利用所得到的word2vec模型生成256维度嵌入层权值矩阵，即词向量矩阵F1，F1的形状为{batchsize，500，256}；本实施例在将数据输入模型前，实验预处理阶段对每一段文本进行了定长处理，将每一段文本序列固定为500个字的长度。

步骤A2：训练字向量时，首先将训练集中每一段文本拆分成字符表示，然后输入词窗大小为2的情况下训练CBOW结构word2vec模型，再然后利用训练好的word2vec模型生成256维度嵌入层权值矩阵，即字向量矩阵F2，F2的形状为{batchsize，500,256}；

设定训练集中每一段文本的文本序列为X：

X＝{X₁,X₂,X₃…Xa…X_i…Xn}；

d＝|a-i|；

其中，i表示文本序列中每个分词的位置索引；

如图2所示，图2中的每一个字母表示文本分词的最小词粒度，其中B即为目标词，其中，A、B、C、D、E分别代表不同句子的序列。

后续将位置矩阵PF与矩阵E1进行词向量宽度上的拼接，得到融合矩阵E2，形状为(batchsize，500，513)。对于E2矩阵中每一个输入实例而言，其文本长度为500，其特征向量宽度即为513。此特征矩阵包含过多文本信息，从而具有高度抽象性质。

对于文本序列X＝{X1，X2，X3…Xn}而言，由于句子本身上下文结构得影响，该句子产生得概率可由文本数据概率P表示出来。即对于序列中每一个粒度的分词而言X_i而言，由于文本上下文限制，在语境不同时，相应的分词排布顺序也不同，这类顺序受到句子语义的影响。一段确定的句子则固定生成相应的词组排列顺序，而传同的深度学习嵌入方法未对此加以考虑，将每个词生成概率作为等可能性事件，忽略了歧义词所带来的语义理解错误情况。

如图3所示，假设输入文本序列为{X1，X2，X3，X4}，则通过循环神经网络生成相应隐藏层后，进一步计算相似权值{H1，H2，H3，H4}，产生attention编码。

r_T1＝σ(W_r·[H_T0，x_T1])；

z_T1＝σ(W_z·[H_T0，x_T1])；

步骤B4：采用以下公式计算最终的隐藏状态量HT1：

步骤8：文本序列特征模块对attention注意力训练编码进行attention注意力训练，得到注意力编码矩阵H，注意力编码矩阵H的形状为{batchsize，500，511}，将attention注意力训练机制中的query矩阵，key矩阵和value矩阵都看作同一个矩阵，其值与H_T1矩阵相同，其步骤如下：

Query＝W_Q.H_T1；

Key＝W_k.H_T1；

Value＝W_V.H_T1；

其中，W_Q、W_K、W_V是模型训练过程中待确定的参数；

步骤C2：采用以下公式计算Key矩阵与Query矩阵的点乘相似度：

其中i指key矩阵HT1相应的位置索引，d为维度；

其中j表示相似度函数个数，n表示文本序列长度；

将softmax值转换为概率，得到了相应的attention权值；

步骤9：特征融合模块将PF矩阵与注意力编码矩阵H进一步进行宽度拼接，最终生成融合矩阵，融合矩阵形状为{batchsize,500,1024}；

如图4所示为融合过程示意图，其中char Embedding为字向量，Word Embedding为词向量，GRU为神经网络，Self-Attention为注意力训练，position feature为位置矩阵PF提供的位置特性。

步骤10：中心服务器采用融合矩阵进行分类处理。

Claims

1.一种基于特征融合的企业情感倾向分析方法，其特征在于：包括如下步骤：

设定训练集中每一段文本的文本序列为X：

X＝{X₁,X₂,X₃…Xa…X_i…Xn}；

d＝|a-i|；

其中，i表示文本序列中每个分词的位置索引；

P＝P(x₁).P(x₂|x₁).P(x₃|x₂x₁)......P(x_n|x_n-1x_n-2...x₃x₂x₁)；

rT1＝σ(W_r·[H_T0，x_T1])；

z_T1＝σ(W_z·[H_T0，x_T1])；

步骤B4：采用以下公式计算最终的隐藏状态量H_T1：

Query＝W_Q.H_T1；

Key＝W_k.H_T1；

Value＝W_V.H_T1；

其中，W_Q、W_K、W_V是模型训练过程中待确定的参数；

步骤C2：采用以下公式计算Key矩阵与Query矩阵的点乘相似度：

其中i指key矩阵HT1相应的位置索引，d为维度；

其中j表示相似度函数个数，n表示文本序列长度；

将softmax值转换为概率，得到了相应的attention权值；

步骤10：中心服务器采用融合矩阵进行分类处理。

2.如权利要求1所述的一种基于特征融合的企业情感倾向分析方法，其特征在于：在执行步骤A1和步骤A2时，在将数据输入CBOW结构word2vec模型前，对每一段文本进行定长处理，将每一段文本序列固定为N个字的长度，N的取值为正整数。

3.如权利要求1所述的一种基于特征融合的企业情感倾向分析方法，其特征在于：在执行步骤4时，位置矩阵PF的形状为{batch_size，maxlen，1}，其中maxlen的值为500。