CN112883720A

CN112883720A - 一种基于双模型的文本情感分类系统及方法

Info

Publication number: CN112883720A
Application number: CN202110098267.9A
Authority: CN
Inventors: 贾磊; 潘虹男; 张力
Original assignee: Beijing Ruiyou Technology Co ltd
Current assignee: Beijing Ruiyou Technology Co ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-06-01

Abstract

本发明公开了一种基于双模型的文本情感分类系统及方法，系统包括：数据采集处理模块，用于获取电商数据并进行数据预处理；主题模型模块，用于将数据预处理后的数据进行基于主题模型的参数估计和预测，并得到各评论的主题标注；中间处理模块，将得到的主题标注与对应的文本进行token处理；预训练模型模块，将token处理后的数据导入到预训练模型中进行微调，以得到情感分类模型，以实现情感极性预测；其有益效果是：通过引入的主题模型，使用较少的标注数据解决对网络商品评论的观点主题挖掘，使得数据的特征更有效有意义，结合了主题模型和预训练模型进行深度学习后，依托主题模型所得到的主题标注，预测效果得到了显著提升。

Description

一种基于双模型的文本情感分类系统及方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于双模型的文本情感分类系统及方法。

背景技术

随着电商领域的不断深耕，商品的评论越来越丰富。如果能对这些评价文本进行有效得分析，就能够辅助商家进行销售分析而辅助决策。与新闻、博客不同，评论文本一般较短；服务领域不同，点评内容也有所不同。需要建立并完善情感词典，并且不能根据上下文的语义分析。

然而，目前在文本情感分析领域，文本较难规范化，不同语义的差别较大，多维情绪不好识别，需要建立质量好的情感词典等有一系列问题。传统的机器学习算法如朴素贝叶斯、SVM等在进行情感分类时候拟合效果一般，无法直接适用于情感分析的技术问题。

而使用最新的自然语言处理领域的预训练模型表现不错，但是在庞杂的商品评论数据中对文本特征过度依赖在多维情绪时候效果尚有待提高。

发明内容

本发明的发明目的在于：提供了一种基于双模型的文本情感分类系统及方法，能够对文本的深层语义信息进行挖掘，提高文本情感分析的准确度，以克服现有技术中传统的机器学习算法不能较好进行情感分析缺陷。

第一方面：一种基于双模型的文本情感分类系统，包括数据采集处理模块、主题模型模块、中间处理模块和预训练模型模块；

所述数据采集处理模块，用于获取电商数据并进行数据预处理；其中，所述电商数据包括电商评论库；

所述主题模型模块，用于将所述数据预处理后的数据进行基于主题模型的参数估计和预测，并得到各评论的主题标注；

所述中间处理模块，用于将得到的各主题标注与其对应的文本进行token处理；

所述预训练模型模块，用于将所述token处理后的数据导入到预训练模型中进行微调，以得到最终的情感分类模型，以实现对陌生的商品评论数据进行情感极性预测。

作为本申请一种可选的实施方式，所述数据采集处理模块具体用于：

从所述电商评论库中提取评论数据，所述评论数据包括商品ID、评论内容和评价星级，并对所述评论内容进行情感标注以得到情感极性，再根据相似的数据分布进行划分，让各极性数据趋于一致，然后将其切分为训练集、验证集和测试集；

再进行去重复行、去空行、去评论标签以及去停词的处理，得到预处理后的电商评论库；

对预处理后的电商评论库中的词语进行词形还原，以减少词语的重复，得到词形还原后的电商评论库，并将其作为所述数据预处理后的数据。

作为本申请一种可选的实施方式，所述主题模型模块具体用于：

对所述词形还原后的电商评论库，进行基于主题模型的参数估计和预测；

结合给定的阀值范围，输出文本-主题和主题-词语矩阵，测试改变主题数并通过视图化工具来测试不同主题数的困惑度变化，在困惑度趋于稳定时候得到最佳的模型性能，以确定最佳个数的主题；其中，参数估计所涉及的参数包括epoch和学习率。

作为本申请一种可选的实施方式，所述中间处理模块具体用于：

将得到的主题标注与其对应的文本进行拼接，然后以新的词向量表征，作为预训练模型的预输入语料；其中，所述主题标注包括主题词；

然后再通过预设的比例切分训练集、验证集和测试集，使得每一个语料都包括了主题词，并作为所述预训练模型的原始语料。

作为本申请一种可选的实施方式，所述进行微调具体包括：

对每个训练集和验证集中的句子在句尾加CLS标记，在开头加SEP标注，并对每个CLS标记给与了原始语料所对应的情感标签；

取出CLS对象的向量用来作为分类标注；

加载中文预训练模型Roberta，根据所述分类标注对比分类效果，调整预训练模型的各项参数，进行基于预训练模型的微调；

最后得到最终的情感分类模型，实现对陌生的商品评论数据进行情感极性预测。

第二方面：一种基于双模型的文本情感分类方法，应用于第一方面所述的一种基于双模型的文本情感分类系统，所述方法包括：

获取电商数据并进行数据预处理；其中，所述电商数据包括电商评论库；

将所述数据预处理后的数据进行基于主题模型的参数估计和预测，并得到各评论的主题标注；

将得到的各主题标注与其对应的文本进行token处理；

再将所述token处理后的数据导入到预训练模型中进行微调，以得到最终的情感分类模型，以实现对陌生的商品评论数据进行情感极性预测。

作为本申请一种可选的实施方式，所述获取电商数据并进行数据预处理，具体包括：

作为本申请一种可选的实施方式，将所述数据预处理后的数据进行基于主题模型的参数估计和预测，具体包括：

作为本申请一种可选的实施方式，所述将得到的各主题标注与其对应的文本进行token处理，具体包括：

作为本申请一种可选的实施方式，所述所述进行微调具体包括：

取出CLS对象的向量用来作为分类标注；

采用上述技术方案，具有以下优点：本发明提出的一种基于双模型的文本情感分类系统及方法，通过引入的主题模型，使用较少的标注数据解决对网络商品评论的观点主题挖掘，使得数据的特征更有效有意义，结合了主题模型和预训练模型进行深度学习后，依托主题模型所得到的主题标注，预测效果得到了显著提升。

附图说明

图1是本发明实施例所提供的一种基于双模型的文本情感分类系统的结构示意图；

图2是本发明实施例所提供的一种基于LDA进行文本主题挖掘的原理图；

图3是本发明实施例所提供的一种基于双模型的文本情感分类方法的流程图。

具体实施方式

下面将详细描述本发明的具体实施例，应当注意，这里描述的实施例只用于举例说明，并不用于限制本发明。在以下描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

下面结合附图，对本发明作详细的说明。

参考图1所示，一种基于双模型的文本情感分类系统，包括数据采集处理模块、主题模型模块、中间处理模块和预训练模型模块；应用时，上述系统的各模块可集成于服务器或客户端中，在此不做限制。

具体地，所述数据采集处理模块具体用于：

从所述电商评论库中提取评论数据，其作为训练数据、验证数据和测试数据的集合；所述评论数据包括商品ID、评论内容和评价星级，并对所述评论内容进行情感标注以得到情感极性，再根据相似的数据分布进行划分，让各极性数据(即情感分类)趋于一致，然后将其切分为训练集、验证集和测试集；其中，所述情感标注即为把评价星级为4-5星的定义为褒义，1-3星定义为贬义；再对训练数据、测试数据根据相似的数据分布进行划分，通过imblearn算法库进行数据不平衡处理，让褒义和贬义的数据分析几乎一致，而不偏向某一种；

对预处理后的电商评论库中的词语进行词形还原，以减少词语的重复(与减少单词的重复含义相同)，得到词形还原后的电商评论库，并将其作为所述数据预处理后的数据。

具体地，对所述词形还原后的电商评论库，进行基于主题模型的参数估计和预测；

例如，可对每个句子中的每个主题词，随机赋一个主题编号；所述主题模型采用LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。

结合给定的阀值范围，输出文本-主题和主题-词语矩阵，测试改变主题数并通过视图化工具来测试不同主题数的困惑度变化，在困惑度趋于稳定时候得到最佳的模型性能，以确定最佳个数的主题topic；其中，参数估计所涉及的参数包括epoch和学习率β(数据量大则调高，数据量小调低)。其中，主题数n通过视图化工具pyLDAvis库来测试；

主题包括n个词，使用吉布斯采样选取前5个作为主题词，对主题词计算每个词占主题权重。

带估计的参数还包括alpha以及topic主题数，alpha根据topic自动确定；

进一步地，参照图2所示，为基于LDA进行文本主题挖掘的原理图，其中α为文本一主题概率分布θ的超参数，β为主题一特征词概率分布φ的超参数，M、W、N分别为文本数、主题数和一篇文本中的特征词数，w为观察到的文本中的特征词，z为特征词w的主题分配。通过对变量z进行Gibbs采样间接估计θ和φ，主题抽取完毕后，为每个主题都生成了一个主题-特征词分布，选取每个主题中概率分布排名前m的特征词作为主题最相关特征，并表示为各个主题的概率分布形式。利用LDA能够对文本的深层语义信息进行挖掘，提高文本情感分析的准确度。其分布律为：

其中，参数是两个标量：维数K和参数向量各维均值

(latex公式形式为：/alpha＝/frac/sum/alphakK)；吉布斯采样是每次选取概率向量的一个维度，给定其他维度变量值当前的维度，不断迭代，直到收敛输出带估计的参数。

初始时，随机给文本中的每个单词分配主题,然后统计每个主题z下出现term t的数量以及每个文档m下出现主题z中的词的数量，每一轮计算，即排除当前词的主题分配，根据其他所有词的主题分配估计当前词分配各个主题的概率；当得到当前词属于所有主题z的概率分布后，根据这个概率分布为该词生成一个新的主题。然后用同样的方法不断更新下一个词的主题，直到发现每个文档下主题分布和每个主题下词的分布收敛，算法停止，保存模型，最终每个语料的主题也可以得到。

具体地，将得到的主题标注与其对应的文本进行拼接，然后以新的词向量表征，作为预训练模型的预输入语料；其中，所述主题标注包括主题词；

然后再通过预设的比例切分训练集、验证集和测试集，使得每一个语料都包括了主题词，并作为所述预训练模型的原始语料；其中，所述预设的比例可采用6:2:2的比例切分。

具体地，所述进行微调具体包括：

取出CLS对象的向量用来作为分类标注；

加载中文预训练模型Roberta，根据所述分类标注对比分类效果(即通过在训练过程中对每个batch迭代器的误差函数变化对比)，调整预训练模型的各项参数，进行基于预训练模型的微调；

通过Roberta进行深度学习训练时候，训练集和验证集都是有标签的，通过训练集让训练在不同标签上收敛，然后训练过程中通过验证集来测试是不是拟合良好；在训练过程中，通过每个batch输入数据到模型中，如果训练集和验证集上的指标接近的时候，说明预测是往好的方向走。测试集用来对没有送入深度学习训练的数据进行打标，因为没有受到roberta的影响，能更真实反映训练效果；

Roberta的调参涉及到epoch、学习率等，通过在训练过程中观察验证集拟合情况，来调整roberta训练参数；其中，1个epoch等于使用训练集中的全部样本训练一次，通俗的讲epoch的值就是整个数据集被轮训几次。

在预训练模型的引入上，通过使用了加强版的BERT模型Roberta，使用更庞大的文本训练，在GLUE、SQuAD和RACE三个排行榜上全部实现了最先进的结果。Roberta通过dynamic mask的方式，对预训练的语料复制十份，分别在每份数据随机mask15％的词，在复制的十份语料中，同样一句话有10种不同的mask方式。理论上减少了由于固定随机一次mask 15％数据的时候带来的部分语义向量的浪费。

上述方案，具有以下优点：

由于海量的商品评论涉及的商品种类繁多，观点挖掘需要数据标注的过程相当繁琐，为所有商品领域的评论建立规范的标注数据降耗费大量的资源。如何在少监督甚至无监督的情况下提高模型的效果，并使得模型具有领域适用性。LDA的引入在于使用较少的标注数据解决网络商品评论的观点主题挖掘方法。

在预训练模型的使用上，更好的特征工程一直是难点所在，通过引入LDA主题模型使得数据的特征更有效有意义，也使得训练效果更好。

使用结合了LDA和预训练模型的深度学习后，预测效果(ACC)有了显著提升；发明人通过对同一批商品品论数据实验效果看，准确率从SVM的68％提高到94％。

参照图3所示，本发明实施例还提供了一种基于双模型的文本情感分类方法，应用于前文所述的一种基于双模型的文本情感分类系统，该系统包括数据采集处理模块、主题模型模块、中间处理模块和预训练模型模块；所述方法包括：

S101，获取电商数据并进行数据预处理；其中，所述电商数据包括电商评论库。

具体地，从所述电商评论库中提取评论数据，所述评论数据包括商品ID、评论内容和评价星级，并对所述评论内容进行情感标注以得到情感极性，再根据相似的数据分布进行划分，让各极性数据趋于一致，然后将其切分为训练集、验证集和测试集；

S102，将所述数据预处理后的数据进行基于主题模型的参数估计和预测，并得到各评论的主题标注。

具体地，对所述词形还原后的电商评论库，进行基于主题模型的参数估计和预测，对每个句子中的每个主题词，随机赋一个主题编号；

再结合给定的阀值范围，输出文本-主题和主题-词语矩阵，测试各主题词对应不同主题数的困惑度变化，在困惑度趋于稳定时候得到最佳的模型性能，以确定待估计的参数，并确定最佳个数的主题；其中，待估计的参数包括epoch和学习率。

S103，将得到的各主题标注与其对应的文本进行token处理。

S104，再将所述token处理后的数据导入到预训练模型中进行微调，以得到最终的情感分类模型，以实现对陌生的商品评论数据进行情感极性预测。

具体地，所述进行微调具体包括：

取出CLS对象的向量用来作为分类标注；

即将CLS作为句向量的分类标注，在Roberta进行训练时候，根据句向量分类标注对比分类效果；调整的参数即为前文所述的epoch、学习率、每个数据迭代器数量等)；

需要说明的是，各步骤的执行主体和具体实施方式参照前文系统实施例的文字描述，在此不再赘述。

上述实施例，通过引入的主题模型，使用较少的标注数据解决对网络商品评论的观点主题挖掘，使得数据的特征更有效有意义，结合了主题模型和预训练模型进行深度学习后，依托主题模型所得到的主题标注，预测效果得到了显著提升。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于双模型的文本情感分类系统，其特征在于，包括数据采集处理模块、主题模型模块、中间处理模块和预训练模型模块；

2.根据权利要求1所述的一种基于双模型的文本情感分类系统，其特征在于，所述数据采集处理模块具体用于：

3.根据权利要求2所述的一种基于双模型的文本情感分类系统，其特征在于，所述主题模型模块具体用于：

4.根据权利要求3所述的一种基于双模型的文本情感分类系统，其特征在于，所述中间处理模块具体用于：

5.根据权利要求4所述的一种基于双模型的文本情感分类系统，其特征在于，所述进行微调具体包括：

取出CLS对象的向量用来作为分类标注；

6.一种基于双模型的文本情感分类方法，其特征在于，应用于权利要求1所述的一种基于双模型的文本情感分类系统，所述方法包括：

将得到的各主题标注与其对应的文本进行token处理；

7.根据权利要求6所述的一种基于双模型的文本情感分类方法，其特征在于，所述获取电商数据并进行数据预处理，具体包括：

8.根据权利要求7所述的一种基于双模型的文本情感分类方法，其特征在于，将所述数据预处理后的数据进行基于主题模型的参数估计和预测，具体包括：

9.根据权利要求8所述的一种基于双模型的文本情感分类方法，其特征在于，所述将得到的各主题标注与其对应的文本进行token处理，具体包括：

10.根据权利要求9所述的一种基于双模型的文本情感分类方法，其特征在于，所述进行微调具体包括：

取出CLS对象的向量用来作为分类标注；