CN114880465A

CN114880465A - 基于粒子群算法优化正则化极限学习机的文本情感分析方法

Info

Publication number: CN114880465A
Application number: CN202210313143.2A
Authority: CN
Inventors: 李琳娜; 魏帆; 孙爱晶
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-08-09

Abstract

本发明公开了基于粒子群算法优化正则化极限学习机的文本情感分析方法。包括以下步骤：(1)获取待分析数据的文本信息,对所述文本信息进行预处理得到文本词汇；(2)将文本词汇采用skip‑gram模型基于同领域数据集语料库进行词向量训练得到文本词向量；(3)利用粒子群算法将正则化极限学习机的参数初始化为一群随机粒子，然后通过迭代确定最佳参数，得到粒子群算法优化正则化极限学习机；(4)将文本词向量输入粒子群算法优化正则化极限学习机，对文本信息进行情感分类。本发明提出采用粒子群算法对正则化极限学习机的三种超参数在一定范围内进行寻优。在使运算精度得以提升的同时，使得网络结构更加紧凑。此外，保证了模型良好的泛化性能。

Description

基于粒子群算法优化正则化极限学习机的文本情感分析方法

技术领域

本发明涉及自然语言处理中的情感分析技术领域，特别涉及基于粒子群算法优化正则化极限学习机的文本情感分析方法。

背景技术

现随着网络的发展，很多人已经习惯于用带有情感色彩和情感倾向的评论来表达对某件事或某产品的看法。然而海量的评论数据使得人工判断评论情感倾向性的难度增加。因此，如何自动且快速地对用户输入的评论文本进行情感分类处理得到有价值的输出成为了一个热门话题。评论文本不仅特征维数高，表达不规范而且规模大，因此在提高文本情感分类模型分类精度的同时缩小时间计算成本也十分重要。

在已有的研究中，基于情感词典、机器学习或神经网络已被广泛认为是进行情感分类的有效方法。情感词典作为判断评论情感极性的一个重要基础，需要针对特定领域建立相关的情感词典来提高分类的准确率；机器学习算法需要选取情感词作为特征词并将文本矩阵化后进行分类，处理速度相对神经网络较快。神经网络通过模拟人的大脑的思维方式来处理信息，将其应用到情感分类中可以很好的提升分类的性能。随着将卷积神经网络(CNN)应用到句子分类中，许多研究人员开始探索将深层神经网络应用于文本的情感分类，并取得了不错的效果。与此同时，为了提高分类精度的同时提高运行效率，许多研究人员将目光聚焦于极限学习机。极限学习机的最大特点是其隐藏层节点间的阈值和不同层之间的权值仅需要通过一次最小二乘法计算，而不需要反向传播进行更新。将极限学习机应用到短文本情感分析中，不仅可以大大缩短运行时间，而且比其他方法更适合非均衡分布的文本数据。

在中文短文本情感分析的研究中，基于情感词典的方法需要针对不同的语境，不同的语义建立不同的情感词典库，建立情感词典的过程需要耗费大量的人力，往往比较耗时且非常不方便。基于传统机器学习的方法，其分类性能太过依赖数据规模，适合处理小数据集，对于大数据集的分类，机器学习往往分类精度低，计算成本高。而对于深层神经网络比如卷积神经网络(CNN)，长短期记忆网络(LSTM)等往往比较浪费时间，且复杂度高，训练需要很多参数，参数调整代价大。同时存在梯度消失和梯度爆炸的问题。相比以上方法存在的问题，极限学习机不仅处理速度快，而且分类效果好。但是极限学习机并未充分考虑结构化风险，这可能会导致过拟合问题。采用正则化极限学习机模型是在极限学习机标准二次型的基础上引入了正则化项，这在避免过拟合的同时提高极限学习机的泛化能力。但直接使用正则化极限学习机存在以下问题：1)正则化极限学习机的网络结构随着互联网用户量的增加使得网络中的文本型数据规模日益增多，因此能够实时从大量的文本数据中抓取和挖掘出有用的信息是对一个算法综合性能评价的重要考量。从模型时间性能角度出发，本发明采是影响其泛化能力的重要因素，其隐藏层节点通过随机初始化获得，并利用最小二乘法求解输出层权值的方式来训练网络结构。虽然在一定程度上克服了收敛速度慢，容易陷入局部最优值的问题，但仍需人为确定隐藏层节点个数，不仅过程繁琐，而且无法保证得到最优和次优的结构。2)激活函数作为正则化极限学习机网络中重要的超参数之一，它不仅可以帮助神经网络激活有用的信息，而且可以抑制无关的数据点。激活函数的选取关系到整个神经网络的运算精度和执行效率。不同的激活函数在不同的输入数据和不同神经网络下会表现出各自的优缺点。3)如果隐藏层数目过多以及输入参数随机时就会导致泛化能力大大降低，因此一般需要选择一个最优的正则化系数从而使模型能够在不同的数据集上取得更好的效果。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供基于粒子群算法优化正则化极限学习机的文本情感分析方法。是一种分类精度高，执行速度快的中文文本情感分析的模型。

为了实现上述发明目的，本发明提供了以下技术方案：

基于粒子群算法优化正则化极限学习机的文本情感分析方法，包括以下步骤：

获取待分析数据的文本信息,对所述文本信息进行预处理得到文本词汇；

将所述文本词汇采用skip-gram模型基于同领域数据集语料库进行词向量训练得到文本词向量；

利用粒子群算法将正则化极限学习机的参数初始化为一群随机粒子，然后通过迭代确定最佳参数，得到粒子群算法优化正则化极限学习机；

将所述文本词向量输入粒子群算法优化正则化极限学习机，对所述文本信息进行情感分类。

在本发明技术方案中首先进行预处理、向量化，在文本向量化时用同领域数据集语料库；其次在分类阶段，针对现有的技术在提高分类精度的同时忽略了执行速度以及极限学习机在进行短文本情感分类时存在的过拟合的问题，本发明在极限学习机标准二次型基础上引入正则化项，采用正则化极限学习机作为中文文本情感分类的主要模型。最后针对直接使用正则化极限学习机在进行中文短文本情感分析过程中存在的迭代次数难确定，易陷入局部最优以及采用粒子群优化算法优化权值和阈值存在的对初始值依赖强的问题，本发明提出采用粒子群算法对正则化极限学习机的三种超参数寻优方法，本发明设置了三种超参数的搜索范围并随机进行搜索。在使运算精度得以提升的同时，使得网络结构更加紧凑，保证了模型良好的泛化性能。

进一步地，所述预处理包括去重、去噪、分词、去词。

更进一步地，所述预处理后，对所述文本词汇做词频分析，从而评估出一个词对于一个数据集的重要程度。

进一步地，同领域数据集语料库建立的具体步骤为：

S21、对所述文本词汇按照词性进行分类，得到分词词语集；

S21、对分词词语集中的每种词语采用skip-gram模型进行词向量训练；

S23、选出步骤S22处理后词向量的高频词，构建成同领域数据集语料库。

进一步地，对于包含N个不同样本的训练集

其中x_i＝[x_i1,x_i2,...,x_in]^T∈Rⁿ，k_i＝[k_i1,k_i2,...,k_im]∈R^m，所述正则化极限学习机的目标函数为：

式中L为正则化极限学习机隐藏层神经元数量，β为输出权重，C为正则化系数，N为训练集样本数量，H为隐含层输出矩阵，T为转置符号。

更进一步地，根据KKT定理(Karush–Kuhn–Tucker conditions)可以得到β的两种表达：

式中I为单位矩阵,C为正则化系数，H为隐藏层输出矩阵，N为训练集样本数量。

更进一步地，采用粒子群算法优化正则化极限学习机的具体步骤为：

S31、设置隐藏层节点数范围、正则化系数倒数范围和激活函数，确定最大迭代次数；

S32、采用均匀分布初始化一系列粒子形成种群，得到初始超参数；

S33、根据初始超参数建立正则化极限学习机模型，采用五折交叉验证法对粒子进行训练并根据适应度函数计算auc值，将auc值作为各粒子适应度值；适应度函数为：maxB＝ω×auc,ω∈[0,1]；

S34、判断是否满足终止条件，终止条件为auc值最大或达到最大迭代次数；

若不满足终止条件，则确定粒子最优值p_best和种群最优值g_best，根据粒子i在d维空间中的位置和速度公式更新粒子位置，得到更新后的超参数，并以更新后的超参数继续进行步骤S33，更新粒子位置的位置和速度公式如下：

ν_i(t+1)＝ω·ν_i(t)+c₁rand()·(p_best-x_i(t))+c₂rand()·(g_best-x_i(t))

x_i(t+1)＝x_i(t)+ν_i(t)

式中ν_i和x_i分别为t时刻i粒子的速度和位置，c₁和c₂为学习因子，rand()为介于0和1之间的随机数，ω为惯性权重；

若满足终止条件，输出最优粒子位置；

S35、依据输出的最优粒子位置所对应的超参数构建得到粒子群算法优化正则化极限学习机。

与现有技术相比，本发明的有益效果：

1、本发明在文本向量化阶段，针对常用语料库存在不同领域间语义鸿沟问题以及短文本存在的稀疏性问题，本发明用同领域数据集建立语料库，这提高了中文文本情感分析的分类精度。

2、本发明在分类阶段，针对现有的技术在提高分类精度的同时忽略了执行速度以及极限学习机在进行短文本情感分类时存在的过拟合的问题，本发明在极限学习机标准二次型基础上引入正则化项，采用正则化极限学习机作为文本情感分类的主要模型，这很大程度提升了分类模型的运行效率。

3、本发明针对直接使用正则化极限学习机在进行中文短文本情感分析过程中存在的迭代次数难确定，对初始值依赖强和易陷入局部最优的问题，现有的技术在优化正则化极限学习机时，是对正则化极限学习机的隐藏层节点间的阈值和不同层之间的权值进行优化。本发明提出采用粒子群算法对正则化极限学习机的三种超参数在一定范围内进行寻优。在使运算精度得以提升的同时，使得网络结构更加紧凑。此外，保证了模型良好的泛化性能。

附图说明：

图1为基于粒子群算法优化正则化极限学习机的文本情感分析方法的流程示意图；

图2为waimai_10k数据集中词云图分析图；

图3为构建同领域数据集语料库过程图；

图4为不同语料库的分类效果对比图；

图5为采用本发明分析方法对数据集分类的混淆矩阵热力图；

图6为不同模型CPU时间对比图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

S1、获取待分析数据的文本信息,对所述文本信息进行预处理得到文本词汇。

本实施例采用的数据集是从github上下载的公开数据集，对两个数据集进行分析，分别为ChnSentiCorp_htl_all酒店领域数据集和waimai_10k外卖平台数据集，首先将每种数据集的一万个文件整合到一个文件后，其次把负向评论的标签从-1变成0，得到待分析数据的文本信息，再进行文本预处理，文本预处理即对原始数据进行进一步处理，使数据成为可以被操作的对象，所述预处理包括去重、去噪、分词、去词，文本预处理的具体步骤为：

S11、将中文评论文本中重复的文字进行遍历去重。

S12、将一些乱码和特殊字符进行去噪，降低复杂度。

S13、采用python语言环境下的pkuseg(北京大学开源分词工具)分词工具进行分词，即将文本信息中的评价按照词性分开。

S14、进行去词，即将文本中存在的语气助词、副词、介词、连词等去除。

经过初步处理的数据情况如表1所示。

表1初步处理后的数据

数据集名称	正面评论条数(标签1)	负面评论条数(标签0)
			ChnSentiCorp_htl_all	5322	2444
Waimai_10k	4000	8000

在一些实施例中，在文本预处理后，通过对文本中出现最多的词做词频分析，从而评估出一个词对于一个数据集的重要程度。如图2所示，分别是waimai_10k数据集中消极和积极文本的统计词云图。其中在积极文本中，出现最多的词分别为“好”、“送”、“好吃”、“不错”，出现次数分别为1330次、1138次、943次、906次。在消极文本中出现最多的词分别为“送”、“没”、“小时”、“慢”，出现次数分别为3802次、1487次、1299次、1259次。这表明影响外卖评论文本积极情感倾向的主要原因在于它的味道以及送达的速度，为外卖平台以及商家提供了改进的方向，也为买家在选择外卖平台时提供了指导作用，这也是中文文本情感分析的意义所在。

S2、将所述文本词汇采用skip-gram模型基于同领域数据集语料库进行词向量训练得到文本词向量。

在计算机通过各种算法进行文本情感分类之前，必须把文本转化为向量的形式。词向量模型是目前文本表征中使用最多的模型。词向量模型的基本思想是将词转换为多维的实数向量，这样一来相似的词会就有相似的向量，从而使得挖掘词语和句子之间的特征方便了许多。已有的研究大多采用word2vec来进行文本表征，它有两种实现方式，其中skip-gram更适合表征分布不均衡的文本数据，因此本发明选择这种方式来进行词向量的训练。训练词向量时，大多数学者使用公开的大型语料库来训练词向量。有研究分析并比较了“维基百科”，“今日头条”等大型常用语料库预训练词向量对文本情感分类结果的影响，发现利用维基百科语预训练的词向量模型的通用效果最好。但利用维基百科语料库训练的词向量模型存在不同领域间语义鸿沟问题以及短文本存在的稀疏性问题。因此，本发明直接采用同领域数据集建立语料库并用调用python中的gensim包训练自己的词向量语料库，同领域数据集语料库建立的具体步骤为：

S21、对所述文本词汇按照词性进行分类，得到分词词语集；

在步骤S23中，经过向量化后将选出的高频词的词向量保存在txt文件中构建成自己的语料库，即得到同领域数据集语料库，如图3所示为采用ChnSentiCorp_htl_all酒店领域数据集构建同领域数据集语料库的过程。构建好的语料库对两个评论数据的情感分类问题的针对性更高，很好地处理和解决了现有中文语料库目前所存在的存在不同领域间语义鸿沟问题以及短文本存在的稀疏性问题。构建好语料库后可以进一步观察词语之间的相似系数，如表2所示列出了在waimia_10k数据集中，与“好吃”最相关的前五个词及其相似系数。

表2相似词的相似系数

相似词	相似系数
		倒是	0.7378
不错	0.7054
		推荐	0.6633
棒棒	0.6436
		美	0.6342

S3、利用粒子群算法将正则化极限学习机的参数初始化为一群随机粒子，然后通过迭代确定最佳参数，得到粒子群算法优化正则化极限学习机。

本发明采用正则化极限学习机完成中文文本情感分析的分类。本发明采用的正则化极限学习机模型是在极限学习机标准二次型的基础上引入了正则化项，这在避免过拟合的同时提高极限学习机的泛化能力。对于包含N个不同样本的训练集

其中x_i＝[x_i1,x_i2,...,x_in]^T∈Rⁿ，k_i＝[k_i1,k_i2,...,k_im]∈R^m，正则化极限学习机的目标函数为：

约束条件：s.t.h(x_i)β＝k_i ^T-ξ_i ^T (2)

式中L为正则化极限学习机隐藏层神经元数量，β为输出权重，C为正则化系数，N为训练集样本数量，ξ_i为第i个样本的训练误差，h(x_i)为隐含层相对于x_i的输出向量，即隐含层输出矩阵，T为转置符号。

将(2)式带入(1)式中，可得到下面的等价优化问题:

根据KKT定理可以得到β的两种表达：

但直接使用正则化极限学习机存在以下问题：1)虽然在一定程度上克服了收敛速度慢，容易陷入局部最优值的问题，但仍需人为确定隐藏层节点个数，不仅过程繁琐，而且无法保证得到最优和次优的结构。2)激活函数的选取关系到整个神经网络的运算精度和执行效率。不同的激活函数在不同的输入数据和不同神经网络下会表现出各自的优缺点。3)如果隐藏层数目过多以及输入参数随机时就会导致泛化能力大大降低。

因此需要选择一个最优的正则化系数从而使正则化极限学习机模型能够在不同的数据集上取得更好的效果。本发明利用粒子群算法对正则化极限学习机进行超参数寻优。超参数是指模型定义和训练中事先需要设置的参数，决定了模型性能训练是否能够成功或达到最优。针对不同模型找到最适合该模型的超参数组合是一项复杂的工作。粒子群优化算法是一个使模型性能达到最优的参数组合，模型中每个参数有一个需要搜索的范围。粒子群算法从多个可能的参数组合开始，随机初始化并进行多次迭代。在每次迭代中，每个粒子被解码成一组参数。当粒子群算法终止时，将返回最佳解，即性能最优的模型参数组合。当一组连续迭代没有观察到改进时，优化过程停止。采用粒子群算法进行正则化极限学习机的超参数寻优过程如图5所示。

采用粒子群算法优化正则化极限学习机的具体步骤为：

ν_i(t+1)＝ω·ν_i(t)+c₁rand()·(p_best-x_i(t))+c₂rand()·(g_best-x_i(t))

x_i(t+1)＝x_i(t)+ν_i(t)

若满足终止条件，输出最优粒子位置；

本实施例利用包含python中包含粒子群算法的optunity包，将正则化极限学习机的参数微调问题定义为一个约束条件下的寻优问题，目标是找到最优超参数值，使auc值最大。寻优过程中的参数设置如下表3。

表3采用粒子群算法优化正则化极限学习机参数设置

参数	取值
		激活函数类型	Sigmoid,tanh,relu,softplus
正则化系数倒数范围	[1,10]
		隐藏层节点数范围	[1,300]
词向量维度	300
		窗口长度	5
最大迭代次数	150
		交叉验证次数	5

S4、将所述文本词向量输入粒子群算法优化正则化极限学习机，对所述文本信息进行情感分类。

采用本发明对两个数据集进行情感分类的方法用M10表示，为了验证本文模型的分类性能，分别将两个数据集的文本信息采用M1-M9的分析方法进行分类，M1-M9的分析方法具体如下：

M1：对文本信息采用本发明步骤S1和S2处理，采用决策树算法(Decision Tree)进行情感分类，决策树算法是从根节点开始，测试待分类项中的特征属性，并按照值选择分支，直到叶子节点，将叶子节点上存放的类别作为最终的分类结果。

M2：对文本信息采用本发明步骤S1和S2处理，采用高斯朴素贝叶斯算法(Gaussian

Bayes)进行情感分类，高斯朴素贝叶斯算法主要是根据概率的计算来完成文本情感分类工作。

M3：对文本信息采用本发明步骤S1和S2处理，采用随机森林(Rondom Fores)进行情感分类，随机森林是一个包含了众多决策树的分类器，利用多棵树对样本进行训练，然后根据个别树的输出类别的众数来确定分类情况。

M4：对文本信息采用本发明步骤S1和S2处理，采用正则化极限学习机(RELM)进行情感分类。

M5：对文本信息采用本发明步骤S1和S2处理，采用支持向量机(SVM)进行情感分类支持向量机，支持向量机是按监督学习的方式对数据进行二分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。

M6：对文本信息采用本发明步骤S1和S2处理，采用SVM+情感词典+NB进行情感分类，分类时使用基于情感词典的朴素贝叶斯分类方法进行情感极性分类，最后将基于情感词典和集成学习的方法相结合。

M7：对文本信息采用本发明步骤S1和S2处理，采用一维卷积神经的时间序列(Conv1D)进行情感分类，优化器选择Adam，学习率为0.0001损失函数使用交叉熵，epoch次数设置为50。

M8：对文本信息采用本发明步骤S1和S2处理，采用长短期记忆网络(LSTM)进行情感分类。

M9：对文本信息采用本发明步骤S1处理，采用skip-gram模型基于维基百科语料库训练词向量，采用粒子群算法对正则化极限学习机进行情感分类。

将采用常用维基百科语料库和自建的同领域数据集语料库训练的词向量的中文文本情感分类结果进行比较，其中C1为采用维基百科语料库，C2为同领域数据集语料库，如图4所示。通过对比不同的语料库训练的词向量的分类效果可以发现，采用同领域数据集语料库预训练的词向量模型的分类效果比用常用维基百科语料库训练的词向量的效果更好。如果想针对某个特定领域的文本进行情感分类，采用与该领域相关的数据集或直接用该数据集去构建形成语同领域数据集语料库并训练词向量效果会更好，针对性也会更强。

为了更加直观有效地展示粒子群优化正则化极限学习机模型应用于中文文本情感分析的效果，本发明在实验部分使用python的seaborn库在两个数据集上的结果分别进行可视化分析。表4和表5展示了不同分析方法对两个数据集分类效果，采用本发明的分析方法具有较高的auc值。表中的分类精度P，召回率R，F1值均为宏均值。其中

TP(True Positive)代表预测积极类正确；FP(False Positive)代表预测积极类错误；FN(False Negative)代表预测消极类错误；TN(True Positive)代表预测消极类正确。

表4不同分析方法在ChnSentiCorp_htl_all上的分类效果

表5不同分析方法在waimai_10k上的分类效果

模型	P	R	F1	auc值
					M1	66.34	67.01	66.67	68.98
M2	76.35	76.52	76.43	66.77
					M3	73.31	80.01	76.51	74.31
M4	79.83	81.05	80.43	83.39
					M5	81.15	79.32	80.22	82.12
M6	-	79.45	78.59	80.12
					M7	80.45	81.49	80.93	81.23
M8	80.00	82.01	81.23	82.11
					M9	83.56	81.96	83.02	87.53
M10	86.58	85.87	86.72	90.39

在ChnSentiCorp_htl_all数据集上，经过粒子群优化正则化后的混淆矩阵热力图5左图所示，被正确分类的正面评论有1234条，被错误分类的负面评论有198条；被正确分类的负面评论有394条，被错误分类的正面评论有为115条。其中，类别为0(即负面评论)的分类精确度为0.77，召回率为0.67，F1值为0.72；类别为1(即正面评论)的分类精度为0.86，召回率为0.92，值为0.89。在waimai_10k数据集上，经过粒子群优化正则化极限学习机后的混淆矩阵热力图如图5的右图所示。被正确分类的正面评论有769条，被错误分类的负面评论有158条，被正确分类的负面评论有1833条，被错误分类的正面评论有233条。其中，类别为0(即负面评论)的分类精确度为0.89，召回率为0.92，F1值为0.90；类别为1(即正面评论)的分类精度为0.83，召回率为0.77，F1值为0.80。

在用模型进行分类时，CPU在全速工作状态下完成分类或者预测任务所花费的时间往往决定了该模型的时间性能。模型的CPU时间越长说明该模型时间性能越差，因此为了比较分析各模型的时间性能，本发明记录了他们在同一数据集上执行分类任务的CPU时间，如图6所示。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。