CN113946661A

CN113946661A - 一种融合字形的多视角情感分析方法

Info

Publication number: CN113946661A
Application number: CN202111575584.1A
Authority: CN
Inventors: 杜振东
Original assignee: Nanjing Yunwen Network Technology Co ltd
Current assignee: Nanjing Yunwen Network Technology Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-01-18

Abstract

本发明公开了一种融合字形的多视角情感分析方法，将每个汉字的字符向量、字形向量与拼音向量相互拼接，再经过一个全连接层完成对应汉字的融合嵌入，得到融合向量，将每个汉字的融合向量输入双向LSTM情感分类模型，并引入Attention机制捕捉输入文本文字进行情感分析；在传统情感分类的基础上，充分考虑的中文字符中字形、读音的特点，将中文这种象形文字的字形、读音融合进情感分析模型中，使得情感分析模型对于中文文本的处理准确度得到较大提高，使其能够显著提高预训练语言模型对于中文文本的处理效果。

Description

一种融合字形的多视角情感分析方法

技术领域

本发明属于文本情感分析技术领域，具体涉及一种融合字形的多视角情感分析方法。

背景技术

文本情感分析是一种利用自然语言处理和文本挖掘技术来对目标具有情感色彩的主观性文本进行抽取、处理与分析的技术。当下对于文本的情感分析涉及到信息抽取、文本挖掘、自然语言处理等方向，因为它对于市场营销、金融、政治学、通讯、医疗科学等行业具有十分重要的作用，因此近来成为了各界关注以及研究的重点之一；情感分析任务根据其分析的细粒度可以分为篇章级、句子级、词语级；文本情感分析的一般过程包括爬取原始文本、文本预处理、构建语料库和情感词库以及情感分析结果。

文本情感分析作为自然语言处理的一个研究方向，使用预训练语言模型能够显著降低训练代价，实现更快的收敛速度，并且能够有效提高模型性能。近年来的BERT模型就是预训练模型的一个代表，它对于NLP领域具有里程碑式的意义，然而包含BERT模型等预训练模型最初都是为英文文本设计，而对于中文来说，汉语是一种象形语言，汉字的字形、拼音等往往包含很重要的语义信息，比如“垃圾”、“坏”、“垮”等字都有土字旁，且他们都表示负面情绪；“好”字读“hǎo”的时候表示优点多的，使人满意的；而读“hào”的时候则表示喜爱。因此，原始的预训练语言模型对于中文的情感分析任务还不能达到最好的效果。

发明内容

本发明的目的在于提供一种融合字形的多视角情感分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种融合字形的多视角情感分析方法，包括如下步骤：

1）利用网络爬虫爬取情感语料集数据A，进行数据清洗后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界，得到情感语料集数据B；

2）对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入，得到字符向量V1_i，i表示语句中字符的顺序号；

3）对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入，将这四种字体的文本进行汉字字体图像向量化，每个图像大小设置为32×32，将32×32×4向量展开为4096大小的向量，展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2_i；

4）对于情感语料集数据B使用pypinyin开源工具包将每个文本中所有汉字的拼音转化为拼音序列，将音调也包含其中，然后再将拼音序列输入到宽度为2的CNN模型中，使用混合池化实现汉字的拼音嵌入得到拼音向量V3_i；

5）将每个汉字的字符向量V1_i、字形向量V2_i与拼音向量V3_i相互拼接，再经过一个全连接层完成对应汉字的融合嵌入，得到融合向量V_i；

6）将每个汉字的融合向量V_i输入双向LSTM情感分类模型，其中引入Attention机制捕捉输入文本文字；

7）将情感分类模型结果保存在语料集数据C中。

优选的，所述步骤2）中得到字符向量V1_i的具体步骤为：

先将文本中的每个词映射成V维的词向量，然后使用每个词向量与参数矩阵C相乘，参数矩阵C为V×N维矩阵，得到N维矩阵，再将所有词对应的N维矩阵的数据相加取均值，计算出N维的隐藏层Hidden，最后将隐藏层与N×V维参数矩阵相乘，计算得到待预测的中心词对应的V维词向量，用预测出的中心词与真实的中心词作比较来计算误差函数，通过梯度下降法调整两个参数矩阵，中心词的预测完成，然后提取第二个隐藏层参数作为词嵌入结果，通过CBOW模型，将输入的原始中文文本的字符转换为向量，实现字符嵌入。

优选的，所述步骤4）中使用四个音调符号中的一个表示声调，声调使用特殊符号进行表示，特殊符号包括1、2、3、4；且拼音序列的长度固定为8，当拼音序列的实际长度未达到8时，剩余的位置使用特殊字符“-”来进行填充。

优选的，所述步骤6）中融合向量V_i输入双向LSTM情感分类模型的具体步骤为：

将融合向量V_i输入双向LSTM模型的特征学习层，然后使用Attention机制调整权重，最后通过SoftMax层进行情感分类，得到情感分类结果。

本发明的技术效果和优点：该融合字形的多视角情感分析方法，在传统情感分类的基础上，充分考虑的中文字符中字形、读音的特点，将中文这种象形文字的字形、读音融合进情感分析模型中，使得情感分析模型对于中文文本的处理准确度得到较大提高，使其能够显著提高预训练语言模型对于中文文本的处理效果。

附图说明

图1为本发明的结构示意图；

图2为本发明的CBOW模型示意图；

图3为本发明的字型嵌入模型示意图；

图4为本发明的拼音字符序列模型示意图；

图5为本发明的LSTM模型示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了如图1所示的一种融合字形的多视角情感分析方法，包括如下步骤：

步骤101：利用网络爬虫爬取情感语料集数据A，进行数据清洗进行数据清洗以删除重复信息、空白信息和无意义数据，并去除包含过多英文文本数据，然后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界，得到情感语料集数据B，其中无意义数据指获取得到的表格、长段的时间表达等不包含语义信息的数据；

步骤102：对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入，得到字符向量V1_i，i表示语句中字符的顺序号，即语句中按顺序排列各字符的序号，i表示任意字符的序号；

其中CBOW模型，即连续词袋模型，目的是给定中心词ω_i的一定邻域半径（如半径为2）内的单词ω_i-2、ω_i-1、ω_i+1、ω_i+2，预测输出单词为该中心词ω_i的概率，如下图2所示；将文本中的每个词映射成V维的词向量，然后使用每个词向量与参数矩阵C相乘，参数矩阵C为V×N维矩阵，得到N维矩阵，再将所有词对应的N维矩阵的数据相加取均值，计算出N维的隐藏层Hidden，最后将隐藏层与N×V维参数矩阵相乘，计算得到待预测的中心词ω_i对应的V维词向量，用预测出的中心词ω_i与真实的中心词ω_i作比较来计算误差函数，通过梯度下降法调整两个参数矩阵，这样，中心词ω_i的预测完成，然后提取第二个隐藏层参数作为词嵌入结果，在这里并没有考虑不同词的顺序，所以称为连续词袋模型，通过CBOW模型，将输入的原始中文文本的字符转换为向量，实现字符嵌入。

步骤103：如图3，对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入，将这四种字体的文本进行汉字字体图像向量化，每个图像大小设置为32×32，像素范围为0到255，将32×32×4向量展开为4096大小的向量，展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2_i；

步骤104：对于情感语料集数据B使用pypinyin开源工具包将每个文本中所有汉字的拼音转化为拼音字符序列，并且使用四个音调符号中的一个表示声调，声调使用特殊符号进行表示，特殊符号包括1、2、3、4，将音调附加到拼音字符序列的末尾，然后再将拼音字符序列输入到宽度为2的CNN模型中，使用混合池化实现汉字的拼音嵌入得到拼音向量V3_i；此外，输入拼音序列的长度固定为8，当拼音序列的实际长度未达到8时，剩余的位置使用特殊字符“-”来进行填充，如图4所示。

步骤105：将每个汉字的字符向量V1_i、字形向量V2_i与拼音向量V3_i相互拼接，融合起来形成一个三维向量，然后融合层通过一个全连接层完成对应汉字的融合嵌入，将将三维向量映射到一维，得到融合向量V_i；

步骤106：将每个汉字的融合向量V_i输入双向LSTM情感分类模型，其中引入Attention机制捕捉输入文本文字；如图5所示，输入“我很喜欢狗”，将融合向量V_i输入双向LSTM模型的特征学习层，然后使用Attention机制调整权重，最后通过SoftMax层进行情感分类，得到情感分类结果。

其原理为：将时序相反的两个LSTM网络连接到同一个输出，前向LSTM能够获取输入序列的上文信息，后向LSTM可以获取输入序列的下文信息，这样就能大大提高模型的准确率。双向LSTM在t时刻的隐藏状态H_t包含前向的h_tf和后向的h_tb：

其中，

是指在t时刻前向LSTM的输出门输出的信息，

是指在t时刻返向LSTM的输出门输出的信息，

是指t时刻利用双向LSTM的的输出结果，

为t-1时刻的LSTM的输出门输出的信息，

为t时刻输入的词向量信息，

为t-1时刻，遗忘门输出的信息，同理

为t+1时刻的LSTM的输出门输出的信息，

为t+1时刻，遗忘门输出的信息；

然后将双向LSTM的输出Ht作为文本的特征向量。

此外，其中的Attention机制是模拟人脑注意力的特点，其主要原理是对重要的内容分配较多的注意力，而对其他的部分则分配较少的注意力，Attention机制在篇章级、句子级、词语级的情感分类问题中都得到了广泛应用，能够大大提高情感分类模型的准确度。在Attention机制中：

其中，u_t为H_t的隐藏单元，u_w为上下文向量，a_t为注意力向量，

为权重值，

为偏执量，v为经过Attention机制的输出向量，u^T _t为u_t的转置，uw、

、

均可随机初始化并在训练过程中不断学习。

步骤107：将情感分类模型结果保存在语料集数据C中。

在传统情感分类的基础上，充分考虑的中文字符中字形、读音的特点，将中文这种象形文字的字形、读音融合进情感分析模型中，发明了一种融合字形的多视角情感分析方法，使得情感分析模型对于中文文本的处理准确度得到较大提高，对于相关领域的研究具有很大意义。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种融合字形的多视角情感分析方法，其特征在于，包括如下步骤：

3）对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入，将这四种字体的文本进行汉字字体图像向量化，并将图像向量展开，展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2_i；

7）将情感分类模型结果保存在语料集数据C中。

2.根据权利要求1所述的一种融合字形的多视角情感分析方法，其特征在于：所述步骤2）中得到字符向量V1_i的具体步骤为：

3.根据权利要求1所述的一种融合字形的多视角情感分析方法，其特征在于：所述步骤4）中使用四个音调符号中的一个表示声调，声调使用特殊符号进行表示，特殊符号包括1、2、3、4；且拼音序列的长度固定为8，当拼音序列的实际长度未达到8时，剩余的位置使用特殊字符“-”来进行填充。

4.根据权利要求1所述的一种融合字形的多视角情感分析方法，其特征在于：所述步骤6）中融合向量V_i输入双向LSTM情感分类模型的具体步骤为：

5.根据权利要求1所述的一种融合字形的多视角情感分析方法，其特征在于：所述步骤3）中，汉字字体图像向量化的每个图像大小设置为32×32，且像素范围0到255，为并将32×32×4向量展开为4096大小的向量。