CN113377901A

CN113377901A - 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法

Info

Publication number: CN113377901A
Application number: CN202110533016.9A
Authority: CN
Inventors: 仁庆道尔吉; 尹玉娟; 麻泽蕊; 李媛; 程坤; 苏依拉; 李雷孝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-09-10
Anticipated expiration: 2041-05-17
Also published as: CN113377901B

Abstract

一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，对中文和蒙古语情感文本语料库进行预处理；将经过预处理得到的词转换为动态词向量；由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型；将二者提取的特征拼接作为模型最终提取的情感特征；采用迁移学习策略将大规模中文情感文本语料作为训练集，并将训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数，利用预处理的蒙古语情感文本语料训练得到基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型；将该模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价，达到提高蒙古语文本情感分析性能的目的。

Description

一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法

技术领域

本发明属于人工智能技术领域，特别涉及一种基于多尺寸CNN和LSTM 模型的蒙古语文本情感分析方法。

背景技术

随着互联网技术的快速发展，越来越多的人开始在诸如微博、论坛、影视网站、购物网站等平台发表各种言论，以此来分享自己的心情、观点和意见。并且用户发表的这些内容可能包含不同的感情色彩：有积极的或是消极的；支持的亦或是反对的。情感分析的核心是将一段文本所表达的情感分为正向和负向两类，其研究价值在商品评论及推荐、舆情监控、信息预测等方面已经得到了充分的体现。

随着人工智能的崛起，深度学习方法得到了广泛的关注，因其模型具有强大的特征学习能力，所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说，现有的文本情感分析方法存在以下三点不足。其一，由于蒙古语词汇丰富形态变化多，就造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象，而大量未登录词的存在严重影响情感分析的准确率。其二，深度学习作为一种数据驱动的方法，只有当训练语料库达到一定的要求，深度学习模型才会表现出较好的分析效果。但可以收集到的蒙古语语料资源相对较少，因此无法满足深度神经网络模型训练的要求。其三，目前单一的神经网络模型在解决文本情感分析时不具有很好的实时性，不能同时提取文本的局部和全局信息，导致分类效果不佳。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，具有以下三个特点：第一，将BPE技术和词向量修正方法结合，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题；第二，将提取局部特征的多尺寸CNN网络和提取文本序列特征的mLSTM网络融合，以提高蒙古语文本情感分析的质量；第三，采用迁移学习策略将大量中文情感文本语料训练得到网络参数权重迁移至蒙古语文本情感分析模型中，再利用蒙古语情感文本语料训练得到蒙古语文本情感分析模型，从而解决蒙古语语料库不足的问题，达到提升蒙古语文本情感分析性能的目标。

为了实现上述目的，本发明采用的技术方案是：

一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，包括如下步骤：

步骤1：对中文和蒙古语情感文本语料库进行预处理；

步骤2：将经过预处理得到的词转换为动态词向量；

步骤3：由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型；其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息，进而获取文本的局部情感特征；mLSTM用于提取文本序列特征，从而更好地建模长距离语义；在蒙古语文本情感分析模型中采用集成模型的思想，将多尺寸CNN 网络和mLSTM网络提取的特征拼接，作为模型最终提取的情感特征；

步骤4：采用迁移学习策略将大规模中文情感文本语料作为训练集，并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数，再利用经过预处理的蒙古语情感文本语料训练模型，得到基于多尺寸CNN 和LSTM模型的蒙古语文本情感分析模型；

步骤5：将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价，以达到提高蒙古语文本情感分析性能的目的。

所述步骤1中，预处理是使用字节对编码技术(BPE)对语料进行切分操作，然后利用GloVe模型训练生成词向量，并使用词向量结果贪心地发现未登录词，修正切分结果。

所述利用GloVe训练生成词向量的目标函数J(W)为：

其中，W为词向量矩阵，W∈R^|V|*d，|V|表示词的数量，d表示词向量维数；X_ij表示词w_j在词w_i的语境下出现的次数，W_i表示词w_i的词向量，W_j表示词w_j的词向量，f(X_ij)是权重项，用于去除低频项噪声，其表达式如下：

其中，X_max为X_i中的最大值，X_i表示在词w_i的语境下出现的所有的词的次数，X_i＝∑_jX_ij；

对于原分词结果Y＝w₁w₂…w_m，从头开始比较当前词w_i的词向量W_i与下一个词w_i+1的词向量W_i+1的夹角余弦值，夹角余弦值公式为：

若该夹角余弦值大于预先给定的阈值λ，则认为词w_i和词w_i+1组成新词，组合后的词向量为二者加和归一化的结果，计算公式为：

W_i＝null

利用该新词的词向量继续进行贪心地匹配，直到句子结束，得到修正后的切分结果

其中m为原分词结果Y中的词向量的个数，n为修正后的切分结果

中的词向量的个数。

所述步骤2中，使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言，即动态词向量，其中所述ELMO模型为一个双层双向的 LSTM训练语言模型，一个词得到三个嵌入值，在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示，最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。

所述步骤3中，将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中，使用softmax函数进行概率计算，得到最终的分析结果，判定正面/负面情感。

所述多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取， CNN在无需人为干预的情况下自动学习到文本的隐藏特征进行情感分析任务，文本的最小粒度是词，所以卷积核的宽度等于词向量的维度，利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积，得到文本特征；通过卷积核的滑动遍历数据集后，得到n-h+1个特征，并组合成一个特征集合 C＝[c₁c₂…c_n-h+1]，其中n是词向量的个数，h是卷积核大小；使用多个卷积核提取文本数据中的多个特征时，若卷积核数量为k，则得到k个特征集合，对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出

不同尺寸的卷积核提取文本矩阵中不同位置的文本特征，对不同尺寸卷积核输出的特征进行特征融合得到融合特征

所述mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征，其交互公式为：

x^l＝2σ(Q^lh^l-1)⊙x^l-2,for odd l∈[1…r]

h^l＝2σ(R^lx^l-1)⊙h^l-2,for even l∈[1…r]

上式中，x^-1＝x，为当前时刻的输入；h⁰＝h_prev，为上一步LSTM隐藏层的状态；Q^l和R^l为随机初始化的矩阵，为减少附加模型参数的数量，Q^l和R^l通常表现为低秩矩阵的乘积；轮数r是一个超参数，如果r＝0，则为普通的 LSTM；mLSTM接收词向量矩阵之后，利用LSTM单元生成特征向量 output_mLSTM＝[h₁h₂…h_n]，其中，h₁为第一个LSTM单元的输出，h_n为最后一个LSTM单元的输出。

本发明采用集成模型的思想，将多尺寸CNN网络提取的情感特征output_CNN和mLSTM网络提取的情感特征output_mLSTM拼接，作为模型最终提取的情感特征，表达如下：

output_final＝[output_CNNoutput_mLSTM]

其中，output_final为模型最终提取的情感特征。

所述步骤4中，利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵，将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化，最后再利用蒙古语情感文本语料对模型进行进一步的训练。

所述步骤5中，精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中P表示精确率，R表示召回率， F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量；FN表示被模型预测为负例，但实际上为正例的样本数量；FP表示被模型预测为正例，但实际上为负例的样本数量；TN表示实际为负例，且被模型预测为负例的样本数，所述精确率、召回率和F1值的分数越高说明情感分析模型性能越好。

与现有技术相比，本发明的有益效果是：

(1)本发明将BPE技术和词向量修正方法结合，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题。

(2)本发明将提取局部特征的多尺寸CNN网络和提取文本序列特征的 mLSTM网络融合，并行的网络结构从局部和全局两个方面提取特征，以提高蒙古语文本情感分析的质量。

(3)本发明使用迁移学习策略把在中文文本情感分析模型中训练好的参数权重迁移到蒙古语文本情感分析模型中，在一定程度上缓解了蒙古语语料库不足的问题，达到提升蒙古语文本情感分析性能的目标。

附图说明

图1是实现基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法的流程图。

图2是ELMO模型结构图。

图3多尺寸CNN-mLSTM并行网络结构图。

图4多尺寸CNN网络结构图。

图5是LSTM网络结构图。

图6是mLSTM网络交互方式示意图。

图7是迁移学习策略示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，过程如下：

第一步：对中文和蒙古语情感文本语料库进行预处理。

在进行模型训练之前，应对情感文本语料库进行预处理。本发明使用字节对编码技术(BPE)对语料进行切分操作，由于BPE技术是用一个没有在这个字符串中出现的字符将字符串里频率最常见的一对字符代替的层层迭代过程，所以通过对蒙古语词汇进行词干和词缀的切分，能够让高频词保留至词典中，而低频词被切分为更小粒度的子单元，从而缓解数据稀疏，减少未登录词。具体步骤为：

1、将语料库中所有字符加入字典中作为初始化字典，把所有单词变成字符分割的形式，并在末尾加入标记，方便在输入句子后回复分词信息；

2、对语料中的字符对计数，找出次数最多的字符对(A，B)，并在语料中将其用“AB”代替，从而在字典中增加键值“AB”，此步骤称为合并操作；

3、对上一步操作迭代n次，直到已经进行了一定数量的合并操作；

4、字典由字符、词素和词语等组成，此时字典大小＝初始字典大小+合并操作次数n。

随着互联网的发展使得新词不断涌现，只基于词频而不考虑词的语法、语义信息的切分方法准确率不高，例如将

切分成

因此，为了提升切分性能，在BPE环节之后，本发明选择使用GloVe模型训练生成词向量，并使用词向量结果贪心地发现未登录词，修正切分结果。

GloVe模型通过对“词-词”矩阵进行分解从而得到词的向量表示。GloVe模型需要根据语料构建词语的共现矩阵，共现矩阵统计的是词语在给定中心词和窗口大小的限制环境下的共现次数，因此在一定程度上可以表达词语之间的关系。由于共现频数是在整个语料库中进行统计的，不只是针对一句话或者一段语料，所以具有全局性。对于表达意义相近的词而言，它们之间的“距离”也较其他的词更近。例如“人民政府”一词周围的词语有“市政府”，“政府”，“行政”等；“科学研究”一词周围的词语有“科研”，“科学技术”，“研究”等。通过GloVe模型训练得到的词向量包含良好的语法、语义信息。

使用GloVe模型得到的词向量进行切分修正的基本原理为：如果词w_i和词 w_j同时出现的频率较高，那么二者以较大的概率可以组合成新词w_iw_j。通过 GloVe模型生成的词向量具有以下性质：如果词w_i和词w_j有很大可能可以组成新词w_iw_j，那么这两个词对应的词向量W_i和W_j之间的夹角θ的余弦值会接近1。

根据上述原理，可以采用如下贪婪方法进行修正，具体步骤为：

1、将通过BPE技术切分好的词转换为词向量，使用GloVe模型训练词向量的目标函数为：

式中，W为词向量矩阵，W∈R^|V|*d，|V|表示词的数量，d表示词向量维数；X_ij表示词w_j在词w_i的语境下出现的次数，W_i表示词w_i的词向量，W_j表示词w_j的词向量，f(X_ij)是权重项，用于去除低频项噪声，其表达式如下：

式中，X_max为X_i中的最大值，X_i表示在词w_i的语境下出现的所有的词的次数，X_i＝∑_jX_ij；

2、对于原分词结果Y＝w₁w₂…w_m，从头开始比较当前词w_i的词向量W_i与下一个词w_i+1的词向量W_i+1的夹角余弦值，夹角余弦值公式为：

3、若该夹角余弦值大于预先给定的阈值λ，则认为词w_i和词w_i+1组成新词，组合后的词向量为二者加和归一化的结果，计算公式为：

W_i＝null

4、利用该新词的词向量继续进行贪心地匹配，直到句子结束，得到修正后的切分结果

中的词向量的个数。

第二步：将经过预处理得到的词转换为动态词向量。

本发明使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言，即动态词向量。如图2所示，ELMO模型为一个双层双向的LSTM训练语言模型，每一个词向量经过ELMO模型都会得到三个嵌入向量：最底层的向量表示单词特征；第一层的双向LSTM表示句法特征；第二层的双向LSTM 表示语义特征，最终通过权重矩阵来调整这三个向量。ELMO通过多层词向量的融合动态的调整同一词在不同上下文环境中的表示，最终得到的词向量能够兼顾包括句法、语义等在内的多层次信息，更好地解决一词多义问题。

第三步：由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型，模型结构如图3所示。其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息，进而获取文本的局部情感特征；mLSTM则用于提取文本序列特征，从而更好地建模长距离语义。

CNN可以在无需人为干预的情况下自动学习到文本的隐藏特征进行情感分析任务，文本的最小粒度是词，所以卷积核的宽度等于词向量的维度，利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积，得到文本特征。多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取，使得卷积核有更广阔的视野。例如：“我不是特别喜欢这部电影”，文本带有明显的负面色彩，为了详细捕捉到短句信息：“特别喜欢”这个特征，需要较小尺寸的卷积核，但是为了捕捉到长句信息：“不是特别喜欢”又必须使用较大尺寸的卷积核。如图4所示的多个尺寸的卷积核同时进行卷积，获取到不同尺度的特征。多尺寸CNN网通过卷积核的滑动遍历数据集后，可以得到n-h+1个特征，这些组合成一个特征集合C＝[c₁c₂…c_n-h+1]，其中n是词向量的个数，h是卷积核大小。而使用多个卷积核提取文本数据中的多个特征时，若卷积核数量为k，则得到k个特征集合，对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出

LSTM网络充分利用上下文信息抽取到高层的抽象特征。LSTM神经网络按照句子输入的顺序读取输入X＝x₁x₂…x_n，x₁表示输入的第1个词向量，x_j表示输入的第j个词向量，并计算出隐层状态(h₁h₂…h_n)，h₁表示隐层状态的第1个语义向量元素，h_j表示隐层状态的第j个语义向量元素。

LSTM网络中包含一个记忆单元C和三个门结构：遗忘门f、输入门i和输出门o，用于控制信息的传递和遗忘。LSTM网络结构如图5所示，x_t是当前时刻的输入，h_t-1是上一时刻隐藏层的状态。遗忘门决定了上一时刻的记忆单元有多少保留到当前时刻，输入门决定了当前时刻的输入有多少保留到当前时刻，输出门控制记忆单元有多少可以被输出。LSTM网络的关键就是单元状态，是在图上方贯穿运行的那条水平线，它类似于一个传送带，可以控制信息传递给下一时刻。LSTM的计算步骤为：

1、保留上一时刻的信息，即决定上一时刻的单元状态C_t-1有多少保留到当前时刻C_t。这个决定由遗忘门来控制，它会根据上一时刻的输出h_t-1和当前输入x_t产生一个0到1的f_t值，来决定是否让上一时刻的记忆单元信息C_t-1保留或部分保留。f_t值的计算公式为：

f_t＝σ(W_fhh_t-1+W_fxx_t+b_f)

其中，W_fh和W_fx为权重矩阵；b_f为偏移值；σ为sigmoid激活函数。若f_t的值为0，则表示完全遗忘；若f_t的值为0-1之间，则表示部分保留；若f_t的值为 1，则表示完全保留。

2、产生需要更新的新信息，即决定当前时刻网络的输入x_t有多少保留到当前时刻C_t。这一步包含两部分，第一部分是输入门决定什么值需要更新，表示要以多大概率来更新信息；第二部分是创建一个新的候选值向量

表示现在的全部信息。i_t和

值的计算公式为：

i_t＝σ(W_ihh_t-1+W_ixx_t+b_i)

其中，W_ih、W_ix、W_ch和W_cx为权重矩阵；b_i和b_c为偏移值；σ为sigmoid激活函数；tanh为双曲正切函数。输入门i_t控制当前时刻的候选状态

有多少信息需要保存，若i_t的值为0，则表示完全遗忘；若i_t的值为0-1之间，则表示部分保留；若i_t的值为1，则表示完全保留。

3、更新单元状态。将第一步和第二步结合起来，丢掉不需要的信息并添加新信息。新的单元状态C_t的计算公式为：

4、输出信息，即当前单元状态C_t有多少被输出。

o_t＝σ(W_ohh_t-1+W_oxx_t+b_o)

h_t＝o_t⊙tanh(C_t)

其中，W_oh和W_ox为权重矩阵；b_o为偏移值；σ为sigmoid激活函数；tanh 为双曲正切函数。

使用LSTM被普遍认为可以缓解梯度消失和信息遗忘的问题，从而更好地建模长距离语义。但是，注意到在LSTM中，当前的输入和前一步隐藏层的状态是相互独立的，它们只在门中进行交互，在这之前缺乏交互，这就可能会导致上下文信息的丢失。

mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征，图6展示了多轮交互的过程，其具体的交互公式为：

x^l＝2σ(Q^lh^l-1)⊙x^l-2,for odd l∈[1…r]

h^l＝2σ(R^lx^l-1)⊙h^l-2,for even l∈[1…r]

上式中，x^-1＝x，为当前时刻的输入；h⁰＝h_prev，为上一步LSTM隐藏层的状态；Q^l和R^l为随机初始化的矩阵，为减少附加模型参数的数量，Q^l和R^l通常表现为低秩矩阵的乘积；轮数r是一个超参数，如果r＝0，则为普通的 LSTM。

mLSTM接收词向量矩阵之后，利用LSTM单元生成特征向量 output_mLSTM＝[h₁h₂…h_n]，其中，h₁为第一个LSTM单元的输出，h_n为最后一个LSTM单元的输出。

文本向量分别进入多尺寸CNN网络和mLSTM网络学习后，本发明采用集成模型的思想，将多尺寸CNN网络提取的情感特征output_CNN和mLSTM网络提取的情感特征output_mLSTM拼接，作为模型最终提取的情感特征，表达如下：

output_final＝[output_CNNoutput_mLSTM]

式中，output_final为模型最终提取的情感特征。通过将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中，使用softmax函数进行概率计算，得到最终的分析结果，从而可以判定正面/负面情感。

通过并行网络结构从局部和全局两个方面进行特征提取，可提高蒙古语文本情感分析的质量。

第四步：采用迁移学习策略将大规模中文情感文本语料作为训练集，并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数，再利用经过预处理的蒙古语情感文本语料训练模型，得到基于多尺寸CNN 和LSTM模型的蒙古语文本情感分析模型。

深度学习作为一种数据驱动的方法，只有当训练语料库达到一定的要求，深度学习模型才会表现出较好的分析效果。但少数民族地区可以收集到的语料资源相对较少，因此无法满足深度神经网络模型训练的要求。迁移学习策略将训练模型A获取的知识存储下来，应用于新的任务中，即对模型B的训练，以达到提高模型B性能的目的，图7为迁移学习策略示意图。本发明利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵，将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化，最后再利用蒙古语情感文本语料对模型进行进一步的训练。

第五步：将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价，以达到提高蒙古语文本情感分析性能的目的。

表1给出了计算中所需的混淆矩阵：

表1混淆矩阵

	预测为正例	预测为负例
			实际为正例	TP	FN
预测为负例	FP	TN

其中精确率的计算公式为

召回率的计算公式为

F1 值的计算公式为

其中P表示精确率，指的是在预测为正例的样本中，实际为正例所占的比例，R表示召回率，指的是在实际的正例样本中，预测为正例所占的比例，通常情况下，精确率和召回率是相互矛盾的，即提高一个指标会导致另一个指标的下降。F1表示F1值，为了权衡精确率和召回率，F1值被用于综合评价分类模型的性能。TP(True Positive)表示实际为正例，且被模型预测为正例的样本数量；FN(False Negative)表示被模型预测为负例，但实际上为正例的样本数量；FP(False Positive)表示被模型预测为正例，但实际上为负例的样本数量；TN(True Negative)表示实际为负例，且被模型预测为负例的样本数，精确率、召回率和F1值的分数越高说明情感分析模型性能越好。

Claims

1.一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，包括如下步骤：

步骤1：对中文和蒙古语情感文本语料库进行预处理；

步骤2：将经过预处理得到的词转换为动态词向量；

步骤3：由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型；其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息，进而获取文本的局部情感特征；mLSTM用于提取文本序列特征，从而更好地建模长距离语义；在蒙古语文本情感分析模型中采用集成模型的思想，将多尺寸CNN网络和mLSTM网络提取的特征拼接，作为模型最终提取的情感特征；

步骤4：采用迁移学习策略将大规模中文情感文本语料作为训练集，并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数，再利用经过预处理的蒙古语情感文本语料训练模型，得到基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型；

2.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，所述步骤1中，预处理是使用字节对编码技术(BPE)对语料进行切分操作，然后利用GloVe模型训练生成词向量，并使用词向量结果贪心地发现未登录词，修正切分结果。

3.根据权利要求2所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，所述利用GloVe训练生成词向量的目标函数J(W)为：

对于原分词结果Y＝w₁ w₂ … w_m，从头开始比较当前词w_i的词向量W_i与下一个词w_i+1的词向量W_i+1的夹角余弦值，夹角余弦值公式为：

W_i＝null

中的词向量的个数。

4.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，所述步骤2中，使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言，即动态词向量，其中所述ELMO模型为一个双层双向的LSTM训练语言模型，一个词得到三个嵌入值，在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示，最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。

5.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，所述步骤3中，将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中，使用softmax函数进行概率计算，得到最终的分析结果，判定正面/负面情感。

6.根据权利要求5所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，所述多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取，卷积核的宽度等于词向量的维度，利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积，得到文本特征，通过卷积核的滑动遍历数据集后，得到n-h+1个特征，并组合成一个特征集合C＝[c₁ c₂ … c_n-h+1]，其中n是词向量的个数，h是卷积核大小；使用多个卷积核提取文本数据中的多个特征时，若卷积核数量为j，则得到k个特征集合，对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出

7.根据权利要求5所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，所述mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征，其交互公式为：

x^l＝2σ(Q^lh^l-1)⊙x^l-2,for odd l∈[1…r]

h^l＝2σ(R^lx^l-1)⊙h^l-2,for even l∈[1…r]

上式中，x^-1＝x，为当前时刻的输入；h⁰＝h_pre，为上一步LSTM隐藏层的状态；Q^l和R^l为随机初始化的矩阵，为减少附加模型参数的数量，Q^l和R^l通常表现为低秩矩阵的乘积；轮数r是一个超参数，如果r＝0，则为普通的LSTM；mLSTM接收词向量矩阵之后，利用LSTM单元生成特征向量output_mLSTM＝[h₁ h₂ … h_n]，其中，h₁为第一个LSTM单元的输出，h_n为最后一个LSTM单元的输出。

8.根据权利要求6或7所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，采用集成模型的思想，将多尺寸CNN网络提取的情感特征output_CNN和mLSTM网络提取的情感特征output_mLSTM拼接，作为模型最终提取的情感特征，表达如下：

output_final＝[output_CNN output_mLSTM]

其中，output_final为模型最终提取的情感特征。

9.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，所述步骤4中，利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵，将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化，最后再利用蒙古语情感文本语料对模型进行进一步的训练。

10.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法，其特征在于，所述步骤5中，精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中P表示精确率，R表示召回率，F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量；FN表示被模型预测为负例，但实际上为正例的样本数量；FP表示被模型预测为正例，但实际上为负例的样本数量；TN表示实际为负例，且被模型预测为负例的样本数，所述精确率、召回率和F1值的分数越高说明情感分析模型性能越好。