CN113723084A

CN113723084A - 一种融合先验知识的蒙古语文本情感分析方法

Info

Publication number: CN113723084A
Application number: CN202110842205.4A
Authority: CN
Inventors: 仁庆道尔吉; 刘馨远; 张倩; 张文静; 张毕力格图; 郎佳珺; 萨和雅; 吉亚图
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-30

Abstract

一种融合先验知识的蒙古语文本情感分析方法，对含有表情符的蒙古语情感文本语料库进行预处理；将经过预处理得到的文本词和表情符转换为动态词向量；分别创建蒙古语情感词典和表情符的情感词典将二者提取的特征作为模型最终提取的情感特征；由CNN网络和门控机制组成蒙古语文本情感分析模型；将融入先验知识的模型在大规模蒙古语语料上进行预训练，得到融合先验知识的蒙古语文本情感分析模型；将该模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价，达到提高蒙古语文本情感分析性能的目的。

Description

一种融合先验知识的蒙古语文本情感分析方法

技术领域

本发明属于人工智能技术领域，特别涉及一种融合先验知识的蒙古语文本情感分析方法。

背景技术

随着互联网技术的快速发展，越来越多的人开始在诸如微博、论坛、影视网站、购物网站等平台发表各种言论，以此来分享自己的心情、观点和意见。随着时代的发展，文本的载体出现多元化，其中表情符就是一种新的载体。用户发表的这些内容可能包含不同的感情色彩：有开心的或是喜爱的；悲伤的亦或是愤怒的。情感分析的核心是将一段文本所表达的情感分为happiness、 like、sadness、anger四个类别。

随着人工智能的崛起，深度学习方法得到了广泛的关注，因其模型具有强大的特征学习能力，所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说，现有的文本情感分析方法存在以下三点不足。其一，由于蒙古语词汇丰富形态变化多，就造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象，而大量未登录词的存在严重影响情感分析的准确率。其二，目前单一的神经网络模型在解决文本情感分析时不具有很好的实时性，分类效果不佳。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种融合先验知识的蒙古语文本情感分析方法，具有以下三个特点：第一，将BPE技术和词向量修正方法结合，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题；第二，通过预训练模型分别将文本和表情符表示成向量的形式，以充分利用原始数据中的文本和表情符的情感特征，达到多方位分析情感目标的目的；第三，通过构建蒙古语情感词典和表情符的情感词典作为预训练模型的先验知识，再利用蒙古语情感文本语料训练得到基于卷积和门控机制的神经网络的蒙古语文本情感分析模型，提升蒙古语文本情感分析的质量。

为了实现上述目的，本发明采用的技术方案是：

一种融合先验知识的蒙古语文本情感分析方法，包括如下步骤：

步骤1：对含有表情符的蒙古语情感文本语料库进行预处理；

步骤2：BPE分词技术对蒙古语语料进行分词；

步骤3：将经过预处理得到的词转换为动态词向量；

步骤4：分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识；

步骤5：将融合先验知识的模型在大规模的语料进行预训练，得到融合先验知识模型的蒙古语文本情感分析模型；

步骤6：将融合先验知识的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价，以达到提高蒙古语文本情感分析性能的目的。

所述步骤1中，预处理是对所获取的语料进行数据清洗，解决数据源问题，比如原始数据错误，脏乱差。预处理包括移除用户名信息、移除URLS、移除特殊字符等步骤。

所述步骤2中，采用字节对编码技术(BPE)分词技术对预处理的语料信息进行切分操作，利用GloVe模型将文本语料和表情符训练生成对应的词向量，并并使用词向量结果贪心地发现未登录词，修正切分结果。

所述利用GloVe训练生成词向量的目标函数J(W)为：

其中，W为词向量矩阵，W∈R^|V|*d，|V|表示词的数量，d表示词向量维数；X_ij表示词w_j在词w_i的语境下出现的次数，W_i表示词w_i的词向量，W_j表示词w_j的词向量，f(X_ij)是权重项，用于去除低频项噪声，其表达式如下：

其中，X_max为X_i中的最大值，X_i表示在词w_i的语境下出现的所有的词的次数，X_i＝∑_jX_ij；

对于原分词结果Y＝w₁w₂…w_m，从头开始比较当前词w_i的词向量W_i与下一个词w_i+1的词向量W_i+1的夹角余弦值，夹角余弦值公式为：

若该夹角余弦值大于预先给定的阈值λ，则认为词w_i和词w_i+1组成新词，组合后的词向量为二者加和归一化的结果，计算公式为：

利用该新词的词向量继续进行贪心地匹配，直到句子结束，得到修正后的切分结果

其中m为原分词结果Y中的词向量的个数，n为修正后的切分结果

中的词向量的个数。

所述步骤3中，将经过预处理得到的词转换为计算机能识别和处理的语言，即动态词向量。

所述步骤4中，分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。其中，文本情感词典包含happiness、like、sadnes、sanger四种情感的情感词语，如，喜悦、高兴、开心等词汇属于文本情感库里happiness的情感类别，喜欢、想要等词汇属于文本情感库里like的情感类别，

等表情符属于表情符情感词典库里happiness的情感类别。

所述步骤5中，使用融合先验知识的预训练模型Convolutional Neural Net-works And Gating Mechanisms,新的门控Tanh-ReLU单元可以根据给定的方面或实体选择性地输出情感特征。该架构比现有模型中使用的关注层简单得多。其次，我们模型的计算在训练过程中可以很容易地并行化，因为卷积层不像 LSTM层那样具有时间依赖性，门控单元也独立工作。

所述步骤6中，准确率的计算公式

精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中Acc表示准确率，P表示精确率，R表示召回率，F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量；FN表示被模型预测为负例，但实际上为正例的样本数量；FP表示被模型预测为正例，但实际上为负例的样本数量；TN表示实际为负例，且被模型预测为负例的样本数，所述准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。

与现有技术相比，本发明的有益效果是：

(1)本发明将BPE技术和词向量修正方法结合，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题。

(2)本发明通过预训练模型分别将文本和表情符表示成向量的形式，以充分利用原始数据中的文本和表情符的情感特征，达到多方位分析情感目标的目的。

(3)本发明通过构建蒙古语情感词典和表情符的情感词典作为预训练模型的先验知识，再利用蒙古语情感文本语料训练得到基于卷积和门控机制的神经网络的蒙古语文本情感分析模型，提升蒙古语文本情感分析的质量。

附图说明

图1是一种融合先验知识的蒙古语文本情感分析方法的流程图。

图2是门控卷积模型的架构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种融合先验知识的蒙古语文本情感分析方法，过程如下：

第一步：对含有表情符的蒙古语情感文本语料库进行预处理。处理是对所获取的语料进行数据清洗，解决数据源问题，比如原始数据错误，脏乱差。预处理包括移除用户名信息、移除URLS、移除特殊字符等步骤。

第二步：在进行模型训练之前，应对情感文本语料库进行预处理。本发明使用字节对编码技术(BPE)对语料进行切分操作，由于BPE技术是用一个没有在这个字符串中出现的字符将字符串里频率最常见的一对字符代替的层层迭代过程，所以通过对蒙古语词汇进行词干和词缀的切分，能够让高频词保留至词典中，而低频词被切分为更小粒度的子单元，从而缓解数据稀疏，减少未登录词。具体步骤为：

1、将语料库中所有字符加入字典中作为初始化字典，把所有单词变成字符分割的形式，并在末尾加入标记，方便在输入句子后回复分词信息；

2、对语料中的字符对计数，找出次数最多的字符对(A，B)，并在语料中将其用“AB”代替，从而在字典中增加键值“AB”，此步骤称为合并操作；

3、对上一步操作迭代n次，直到已经进行了一定数量的合并操作；

4、字典由字符、词素和词语等组成，此时字典大小＝初始字典大小+合并操作次数n。

随着互联网的发展使得新词不断涌现，只基于词频而不考虑词的语法、语义信息的切分方法准确率不高。因此，为了提升切分性能，在BPE环节之后，本发明选择使用GloVe模型训练生成词向量，并使用词向量结果贪心地发现未登录词，修正切分结果。

GloVe模型通过对“词-词”矩阵进行分解从而得到词的向量表示。GloVe模型需要根据语料构建词语的共现矩阵，共现矩阵统计的是词语在给定中心词和窗口大小的限制环境下的共现次数，因此在一定程度上可以表达词语之间的关系。由于共现频数是在整个语料库中进行统计的，不只是针对一句话或者一段语料，所以具有全局性。对于表达意义相近的词而言，它们之间的“距离”也较其他的词更近。例如“人民政府”一词周围的词语有“市政府”，“政府”，“行政” 等；“科学研究”一词周围的词语有“科研”，“科学技术”，“研究”等。通过 GloVe模型训练得到的词向量包含良好的语法、语义信息。

使用GloVe模型得到的词向量进行切分修正的基本原理为：如果词w_i和词 w_j同时出现的频率较高，那么二者以较大的概率可以组合成新词w_iw_j。通过 GloVe模型生成的词向量具有以下性质：如果词w_i和词w_j有很大可能可以组成新词w_iw_j，那么这两个词对应的词向量W_i和W_j之间的夹角θ的余弦值会接近 1。

根据上述原理，可以采用如下贪婪方法进行修正，具体步骤为：

1、将通过BPE技术切分好的词转换为词向量，使用GloVe模型训练词向量的目标函数为：

式中，W为词向量矩阵，W∈R^|V|*d，|V|表示词的数量，d表示词向量维数；X_ij表示词w_j在词w_i的语境下出现的次数，W_i表示词w_i的词向量，W_j表示词w_j的词向量，f(X_ij)是权重项，用于去除低频项噪声，其表达式如下：

式中，X_max为X_i中的最大值，X_i表示在词w_i的语境下出现的所有的词的次数，X_i＝∑_jX_ij；

2、对于原分词结果Y＝w₁w₂…w_m，从头开始比较当前词w_i的词向量W_i与下一个词w_i+1的词向量W_it1的夹角余弦值，夹角余弦值公式为：

3、若该夹角余弦值大于预先给定的阈值λ，则认为词w_i和词w_it1组成新词，组合后的词向量为二者加和归一化的结果，计算公式为：

4、利用该新词的词向量继续进行贪心地匹配，直到句子结束，得到修正后的切分结果

中的词向量的个数。

第三步：将经过预处理得到的词转换为动态词向量。

第四步：分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。其中，文本情感词典包含happiness、like、sadnes、sanger四种情感的情感词语，如，喜悦、高兴、开心等词汇属于文本情感库里happiness的情感类别，喜欢、想要等词汇属于文本情感库里like的情感类别，

等表情符属于表情符情感词典库里happiness的情感类别。

第五步：本发明采用融合先验知识的预训练模型，其中预训练模型为Convolutional Neural Net-works+Gating Mechanisms,模型建立在卷积层和门控单元上。每个卷积滤波器分别从每个位置的嵌入向量计算不同粒度的n-gram特征。卷积层顶部每个位置的选通单元也是相互独立的。因此，我们的模型更适合并行计算。此外，我们的模型配备了两种有效的过滤机制:卷积层顶部的选通单元和最大池层，这两种机制都可以准确地生成和选择与方面相关的情感特征。

第六步：将融合先验知识模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价，以达到提高蒙古语文本情感分析性能的目的。

其中精确率的计算公式为

召回率的计算公式为

F1 值的计算公式为

其中P表示精确率，指的是在预测为正例的样本中，实际为正例所占的比例，R表示召回率，指的是在实际的正例样本中，预测为正例所占的比例，通常情况下，精确率和召回率是相互矛盾的，即提高一个指标会导致另一个指标的下降。F1表示F1值，为了权衡精确率和召回率，F1值被用于综合评价分类模型的性能。TP(True Positive)表示实际为正例，且被模型预测为正例的样本数量；FN(False Negative)表示被模型预测为负例，但实际上为正例的样本数量；FP(False Positive)表示被模型预测为正例，但实际上为负例的样本数量；TN(True Negative)表示实际为负例，且被模型预测为负例的样本数，精确率、召回率和F1值的分数越高说明情感分析模型性能越好。表1给出了计算中所需的混淆矩阵：

表1混淆矩阵

	预测为正例	预测为负例
			实际为正例	TP	FN
预测为负例	FP	TN

Claims

1.一种融合先验知识的蒙古语文本情感分析方法，其特征在于，包括如下步骤：

步骤1：对含有表情符的蒙古语情感文本语料库进行预处理；

步骤2：BPE分词技术对蒙古语语料进行分词；

步骤3：将经过预处理得到的词转换为动态词向量；

2.根据权利要求1所述融合先验知识的蒙古语文本情感分析方法，其特征在于，所述步骤1中，预处理是对所获取的语料进行数据清洗，解决数据源问题，比如原始数据错误，脏乱差。预处理包括移除用户名信息、移除URLS、移除特殊字符等步骤。

3.根据权利要求2所述融合先验知识的蒙古语文本情感分析方法，其特征在于，采用字节对编码技术(BPE)分词技术对预处理的语料信息进行切分操作，利用GloVe模型将文本语料和表情符训练生成对应的词向量，并并使用词向量结果贪心地发现未登录词，修正切分结果。

4.根据权利要求3所述融合先验知识的蒙古语文本情感分析方法，其特征在于，所述利用GloVe训练生成词向量的目标函数J(W)为：

W_i＝null

中的词向量的个数。

5.根据权利要求1所述融合先验知识的蒙古语文本情感分析方法，其特征在于，所述步骤4中，分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。其中，文本情感词典包含happiness、like、sadness、anger四种情感的情感词语，如，喜悦、高兴、开心等词汇属于文本情感库里happiness的情感类别，喜欢、想要等词汇属于文本情感库里like的情感类别，

等表情符属于表情符情感词典库里happiness的情感类别。

6.根据权利要求5所述融合先验知识的蒙古语文本情感分析方法，其特征在于，所述步骤5中，使用融合先验知识的预训练模型Convolutional Neural Net-works And GatingMechanisms，新的门控Tanh-ReLU单元可以根据给定的方面或实体选择性地输出情感特征。该架构比现有模型中使用的关注层简单得多。其次，我们模型的计算在训练过程中可以很容易地并行化，因为卷积层不像LSTM层那样具有时间依赖性，门控单元也独立工作。

7.根据权利要求4或5所述融合先验知识的蒙古语文本情感分析方法，其特征在于，采用集成模型的思想，将融合文本情感词典和表情符情感词典的先验知识预训练Convolutional Neural Net-works And Gating Mechanisms模型作为最终情感分析模型，提取相关情感特征。

8.根据权利要求1所述融合先验知识的蒙古语文本情感分析方法，其特征在于，所述步骤5中，利用大规模蒙古文多模态情感语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵，将大规模情感分析模型中训练好的网络参数权重迁移到特定蒙古语多模态情感分析模型中进行初始化，最后再利用蒙古语情感文本语料对模型进行进一步的训练。

9.根据权利要求1所述融合先验知识的蒙古语文本情感分析方法，其特征在于，所述步骤6中，精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中P表示精确率，R表示召回率，F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量；FN表示被模型预测为负例，但实际上为正例的样本数量；FP表示被模型预测为正例，但实际上为负例的样本数量；TN表示实际为负例，且被模型预测为负例的样本数，所述精确率、召回率和F1值的分数越高说明情感分析模型性能越好。