CN114595333A

CN114595333A - 一种用于舆情文本分析的半监督方法和装置

Info

Publication number: CN114595333A
Application number: CN202210447550.2A
Authority: CN
Inventors: 王宏升; 廖青; 鲍虎军; 陈�光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-06-07
Anticipated expiration: 2042-04-27
Also published as: WO2023092961A1; CN114595333B; US20230351212A1

Abstract

本发明提供了一种用于舆情文本分析的半监督方法和装置，针对标注样本、未标注样本采用半监督方法提高舆情文本分析的分类准确率，首先获取舆情数据集，对数据集进行预处理；预处理后的样本使用数据增强算法生成数据增强样本；使类别标签无监督抽取聚类方式为数据集中未标注的样本生成类别标签；采用词向量隐语义空间，计算相似度与线性插值运算，运算结果生成相似度插值样本；构建最终训练样本集；采用半监督方法并使用预训练语言模型，输入最终训练样本集，对模型进行训练得到分类模型，使用分类模型对测试集预测得出分类结果。对比传统文本分类实验表明，使用该方法和装置在少量标注舆情样本、未标注舆情样本情况下提高舆情文本分类的准确率。

Description

一种用于舆情文本分析的半监督方法和装置

技术领域

本发明涉及自然语言处理领域，特别涉及一种用于舆情文本分析的半监督方法和装置。

背景技术

自然语言处理领域现有的分类方法包括有监督分类、半监督分类、无监督分类等方法。其中有监督分类方法需要大量标记样本，人工标注成本较高，不适用于某些特定场景；无监督分类不需要数据的类别信息，应用广泛，但由于缺乏类别导致分类效果不明显。半监督学习是将有监督学习和无监督学习结合，将未标记样本与少量标记样本结合使用可以提高分类准确率，同时解决了标签样本较少时监督学习方法泛化能力不强和缺少样本标签导致无监督学习方法不准确的问题。通过扩展训练样本集的语义特征，并限制选取扩展特征词的个数，以减少扩展后引入过多噪声而造成的效果不明显，然后使用基于半监督学习方法，充分利用未标注样本改进分类模型性能。用更新过的训练样本集来训练分类模型并预测，达到充分利用大量未标注样本来提高分类效果。

发明内容

本发明的目的在于提供一种用于舆情文本分析的半监督方法和装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种用于舆情文本分析的半监督方法，具体包括如下步骤：

S1、获取原始舆情数据集，所述原始舆情数据集包括标注样本、未标注样本和类别标签，其中未标注样本数量少于标注样本数量；

S2、对所述原始舆情数据集进行文本预处理；将原始舆情数据集按比例划分训练集与测试集；

S3、针对训练集，将标注样本和未标注样本采用数据增强方法分别得到：标注样本对应的增强样本、未标注样本对应的增强样本；

S4、计算标注样本的分类交叉熵损失；计算得出未标注样本与未标注样本对应的增强样本之间的相对熵损失；根据交叉熵损失、相对熵损失，计算得出未标注样本和标注样本的整体损失；

S5、针对未标注样本与未标注样本对应的增强样本，通过无监督抽取聚类方式得到聚类标签；

S6、计算聚类标签的相似度；校验聚类标签的相似度是否大于预先设置的类别标签相似度阈值；若大于，将大于类别标签相似度阈值的聚类标签构建置信类别标签；

S7、通过标注样本、标注样本对应的增强样本、未标注样本和未标注样本对应的增强样本之间的词向量隐语义空间，计算余玄相似度，得出相似度样本，再进行线性插值运算，运算结果生成相似度插值样本；

S8、校验相似度插值样本的相似度是否大于预先设置的插值样本相似度阈值；若大于，将大于插值样本相似度阈值的相似度插值样本构建置信样本；

S9、使用原始舆情数据集的类别标签、置信类别标签、置信样本、标注样本对应的增强样本、未标注样本对应的增强样本，构建最终训练数据集；

S10、使用步骤S9中最终训练数据集的标注样本对应的增强样本、原始舆情数据集的类别标签进行训练，得到初始文本分类模型，根据分类效果调整初始文本分类模型参数，再将最终训练数据集的置信类别标签、置信样本、未标注样本对应的增强样本，输入初始文本分类模型中，迭代训练得到最终的文本分类模型；

S11、使用步骤S10中最终的文本分类模型对测试集进行预测，输出舆情文本分类结果。

作为优选，步骤S2中对所述原始舆情数据集进行文本预处理包括如下操作：统一规范文本长度、使用分词库将标注样本和未标注样本的文本分为单个词语、去除特定无用符号。

作为优选，所述步骤S3中数据增强方法为数据增强反译技术、数据增强停用词删除法或数据增强同义词替换法中的一种或多种。

作为优选，所述数据增强反译技术包括如下操作：运用反向翻译技术，将样本原句语言翻译成其它语言，之后再翻译回原语言，从而获得相同语义的不同句子，并将反译后样本作为对应的增强样本。

作为优选，所述数据增强停用词删除法包括如下操作：从标注样本与未标注样本随机选取不属于停用词表的词并删除，删除后的样本作为对应的增强样本。

作为优选，所述数据增强同义词替换法包括如下操作：样本中随机挑选一定量的词，使用同义词表中的词来替换样本中选出的词，得到对应的增强样本。

作为优选，步骤S6中检验聚类标签的相似度具体包括如下操作：校验未标注样本与未标注样本对应的增强样本的聚类标签的相似度均值是否大于预先设定的类别标签相似度阈值，如果大于，则标记未标注样本聚类标签为置信类别标签；反之，则标记未标注样本聚类标签不可用。

作为优选，步骤S7具体包括如下操作：根据标注样本、标注样本对应的增强样本、未标注样本和未标注样本对应的增强样本的数量大小，设置计算相似度与线性插值运算批次大小，样本数量大小与批次大小成整数倍关系；分批次计算样本之间的词向量隐语义空间的余玄相似度，计算得出相似度样本，再将相似度样本线性插值运算，结果得出相似度插值样本。

本发明还公开了一种用于舆情文本分析的半监督装置，包括获取原始舆情样本集模块，用于获取原始舆情数据集；数据预处理模块，用于对原始舆情数据集进行文本预处理；数据增强模块，用于对样本进行文本数据增强，得到对应的数据增强样本；标签抽取聚类模块，用于抽取并聚类未标注样本与对应的增强样本的类别标签，得到未标注样本的聚类标签；校验聚类标签相似度模块，校验未标注样本的聚类标签相似度；置信类别标签模块，使用校验相似度通过的聚类标签构建置信类别标签；校验相似度插值样本模块，校验词向量隐语义空间做相似度线性插值运算生成新的样本相似度；置信样本模块，使用校验相似度插值样本通过的样本构建置信样本；训练样本集模块，用于构建最终训练样本集；模型训练模块：用于根据最终训练样本集，对所述分类模型进行训练，得到舆情文本分类模型，文本分类模块：输入测试集使用舆情文本分类模型预测出文本分类结果。

本发明还公开了一种用于舆情文本分析的半监督装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于上述的一种用于舆情文本分析的半监督装置。

本发明还公开了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的一种用于舆情文本分析的半监督装置。

本发明的有益效果：

基于少量注舆情样本和未林标注舆情样本，通过无监督抽取聚类方式对未标注舆情样本进行抽取并聚类，得聚类标签，解决标注样本缺乏问题，提升文本分类模型准确率；通过校验所述最终样本的标签分类结果是否可信，可以避免不可信样本对模型的影响，进一步提高文本分类模型的准确性。基于半监督学习方法可以在具有少量标注数据且无标注样本的情况下，通过对训练样本进行语义特征扩展，并使用已标注样本构建的初始分类模型，再将数量较多的未标注样本的对应增强样本加入到初始分类模型中进行迭代训练直到模型收敛为止，得到最终分类模型，将测试集输入最终分类模型并预测得出分类结果。对比实验表明本发明提出的方法和装置对少量标注舆情标本未标注舆情样本场景下的文本分类效果提升明显。

本发明的特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1是本发明一种用于舆情文本分析的半监督方法整体流程图；

图2是数据预处理流程图；

图3是数据增强处理流程图；

图4是整体损失流程图；

图5是相似度线性插值运算流程图；

图6是本发明一种用于舆情文本分析的半监督装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参阅图1，本发明一种用于舆情文本分析的半监督方法，首先获取原始舆情数据集，文本预处理，样本数据增强，构建最终训练样本集，对少量已标注样本进行监督学习训练，得到初始分类器，调整参数，再将数量较多的未标注样本的对应增强样本加入到初始分类模型中进行迭代训练直到模型收敛为止，得到最终分类模型，将测试集输入最终分类模型并预测得出分类结果。

通过以下步骤对本发明进行详细说明。

本发明是一种用于舆情文本分析的半监督方法和装置，整个过程分为三个阶段：

第一阶段，数据预处理：如图2所示，规范文本句子长度，使用分词库（jieba）将样本文本分为单个词语、去除特定无用符号。

第二阶段，数据增强算法：如图3所示，同义词替换，反译技术，删除停用词；计算交叉熵损失、相对熵损失、整体损失、余玄相似度，无监督抽取聚类，置信类别标签，线性插值运算，置信插值样本，构建最终训练数据集。

第三阶段，训练与预测：将数据增强样本集输入预训练语言分类模型训练并预测得出分类结果。

进一步地，所述第一阶段具体为：获取初始样本集，初始样本集包括少量标注舆情样本、未标注舆情样本、舆情类别标签。对标注样本和未标注样本进行数据预处理，包括以下子步骤：

步骤一：规范句子长度，中文句子长度设置为150词；

步骤二：针对中文的文本分类模型，删除样本中非该语言的字词；去除指定无用符号；

步骤三：停用词过滤清洗处理，停用词是指将“的、和、好、也”之类的字词，将这些词汇总在预设的停用词表中，当样本中出现停用词表中字词，则删除该样本中的上述字词；

步骤四：使用分词库（jieba）将样本中文本分为单个中文词语。

进一步地，将预处理后的样本，接下进行数据增强处理。

进一步地，所述第二阶段具体为：针对标注样本与未标注样本进行文本数据增强处理，得到对应的数据增强样本。包括以下子步骤：

步骤一：对标注样本与未标注样本进行反译处理，先将未标注样本从中文翻译成另一种语言，再从另一种语言重新翻译成初始中文语言，得到相同语义不同的句子，得到对应的数据增强样本。

步骤二：利用词频逆向文件频率算法获取样本中的关键词和非关键词，对标注样本中的非关键词进行词替换处理，在对样本中的非关键词进行词替换处理时，将该样本中待替换的非关键词替换成另一个非关键词，得到对应的数据增强样本。

步骤三：同义词替换，样本中随机挑选一定量的词，使用同义词表中的词来替换样本中选出的词，得到对应的数据增强样本。

步骤四：如图4所示，计算标注样本分类交叉熵损失，通过无监督抽取聚类方式对标注样本与其对应的增强样本，以类别标签为触发词，抽取并聚类，得到聚类标签，采用激活函数（Softmax）将聚类标签映射到原始样本集的舆情类别标签上，得到聚类标签与原始样本集的类别标签误差，该误差采用交叉熵损失函数表示，公式如下：

其中：

为交叉熵损失，

表示原始样本集的舆情类别标签概率分布，

表示聚类标签概率分布，

表示样本个数，

表示样本数量从1开始，

表示n个样本的交叉熵损失求和，

表示类别标签，

为对数。

步骤五：如图4所示，计算未标注样本相对熵损失，通过无监督抽取聚类方式对未标注样本类别标签进行抽取并聚类，以类别标签为触发词，得出未标注样本聚类标签；通过无监督抽取聚类方式对未标注样本的增强样本类别标抽取并聚类，得出未标注样本的增强样本聚类标签；计算未标注样本的聚类标签与未标注样本的增强样本聚类标签之间距离误差，该距离误差采用相对熵损失函数表示，公式如下：

其中：

为相对熵损失，

为未标注样本聚类标签概率，

为未标注样本的增强样本聚类标签概率，

表示样本个数，

表示样本数量从1开始，

表示n个样本的相对熵损失求和，

为每一个未标注样本类聚类标签概率，

为对数，

为每一个未标注样本的增强样本聚类标签概率。

步骤六：如4所示，计算样本整体损失，将已计算出的交叉熵损失，加入

权重的相对熵损失相加得到样本整体损失，公式如下所示：

其中：

为整体损失，

为交叉熵损失，

为权重用于控制损失系数，

为相对熵损失。

步骤七：使用原始舆情数据集的类别标签作为触发器，通过无监督抽取聚类方式对标注样本进行抽取聚类，得到聚类标签，利用交叉熵来度量聚类标签与原始舆情数据集的类别标签的误差；使用聚类标签作为触发器，通过无监督抽取聚类方式对于未标注样本在增强前后分别进行抽取聚类，获取到抽取聚类对于同一条数据在增强前后的不同结果，利用相对熵来度量同一个未标注样本增强前后预测结果的误差；使用已计算得出的交叉熵损失、相对熵损失来计算整体损失，整体损失用来度量标签类别的损失。

步骤八：计算聚类标签与原始舆情数据集的类别标签余玄相似度；校验相似度是否大于预先设置的类别标签相似度阈值；若大于，将大于类别标签相似度阈值的聚类标签构建置信类别标签，若小于，则该聚类标签删除不用。余玄相似度公式如下：

其中：

为余玄相似度，

表示样本个数，

表示类别标签数量从1开始，

表示求和，

聚类标签，

表示原始舆情数据集的类别标签。

步骤九：如图5所示，通过样本之间词向量隐语义空间，根据未标注样本和标注样本与其分别相对应的增强样本数量大小，设置计算相似度与线性插值运算批次大小，样本数量大小与批次大小成整数倍关系；迭代分批次随机获取两个句子，使两个样本句子长度相同，计算两个句子之间的词向量隐语义空间的余玄相似度，计算得出两个相似度句子，将相似度句子线性插值运算，运算得出两个相似度插值句子，再将两个相似度插值句子特征空间组合，得出相似度插值样本。其中线性插值运算公式如下所示：

;

;

其中：

表示权重用于控制线性插值运算系数，

取值0到1之间；

表示取最大值，

表示相似度插值句子一，

，

表示相似度句子，

表示相似度插值句子二，

，

表示相似度句子。

步骤十：计算相似度插值样本的置信度，校验置信度是否大于预先设置的插值样本置信度阈值；若大于，将大于插值样本置信度阈值的似度插值样本构建置信样本；若小于，则该似度插值样本删除不用。

步骤十：使用原始舆情数据集的类别标签、置信类别标签、置信样本、标注样本对应的增强样本、未标注样本对应的增强样本，构建最终训练数据集；

进一步地，所述第三阶段具体为：模型训练与预测舆情文本类别标签，包括以下子步骤：

步骤一：模型训练，将最终训练数据集的标注样本对应的增强样本、原始舆情数据集的类别标签输入BERT中文预训练模型中训练，得到初始文本分类模型，从而预测其标签类别分布，根据分类效果调整初始文本分类模型参数，为防止模型过拟合加入正则化；再将最终训练数据集的置信类别标签、置信样本、未标注样本对应的增强样本，输入初始文本分类模型中，迭代训练。

步骤二：结果预测，经过轮次迭代训练得到舆情文本分析分类模型，将舆情测试集输入舆情文本分析分类模型中预测得出舆情文本分析分类结果。

实施例：

步骤一：获取3万条舆情文本数据集包括：5000条标注样本、22000条未标注样本、3000条测试样本。

步骤二：实验一，采用本发明提供的舆情文本分析的半监督方法，采用步骤一的舆情文本数据集，按照本发明具体实施方式步骤，预测得出3000条测试样分类准确率为87.83%

步骤三：实验二，采用步骤一的舆情文本数据集，使用BERT预训练模型，预测得出3000条测试样分类准确率为84.62%

在采用相同数据集前提下，两组实验结果对比如下表所示：

	训练样本	测试样本	分类方法	分类准确率
					实验一	27000条	3000条	本发明半监督方法	87.83%
实验二	27000条	3000条	BERT预训练模型	84.62%

并且根据实验，当每个类别的标签数据极为有限时，模型准确率的提升尤为明显。通过对比其它文本分类数据集的实验，本发明提供的文本分析的半监督方法和装置，能够显著提升舆情文本分析分类准确率。

本发明一种用于舆情文本分析的半监督装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明一种用于舆情文本分析的半监督装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种用于舆情文本分析的半监督装置。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于舆情文本分析的半监督方法，其特征在于，具体包括如下步骤：

2.如权利要求1所述的用于舆情文本分析的半监督方法，其特征在于：步骤S2中对所述原始舆情数据集进行文本预处理包括如下操作：统一规范文本长度、使用分词库将标注样本和未标注样本的文本分为单个词语、去除特定无用符号。

3.如权利要求1所述的用于舆情文本分析的半监督方法，其特征在于：所述步骤S3中数据增强方法为数据增强反译技术、数据增强停用词删除法或数据增强同义词替换法中的一种或多种。

4.如权利要求3所述的用于舆情文本分析的半监督方法，其特征在于：所述数据增强反译技术包括如下操作：运用反向翻译技术，将样本原句语言翻译成除所述原句语言外的其他语言，之后再翻译回原句语言，从而获得相同语义的不同句子，并将反译后样本作为对应的增强样本。

5.如权利要求3所述的用于舆情文本分析的半监督方法，其特征在于：所述数据增强停用词删除法包括如下操作：从标注样本与未标注样本随机选取不属于停用词表的词并删除，删除后的样本作为对应的增强样本。

6.如权利要求3所述的用于舆情文本分析的半监督方法，其特征在于：所述数据增强同义词替换法包括如下操作：样本中随机挑选若干个词，使用同义词表中的词来替换样本中选出的词，得到对应的增强样本。

7.如权利要求1所述的用于舆情文本分析的半监督方法，其特征在于：步骤S6中检验聚类标签的相似度具体包括如下操作：校验未标注样本与未标注样本对应的增强样本的聚类标签的相似度均值是否大于预先设定的类别标签相似度阈值，如果大于，则标记未标注样本聚类标签为置信类别标签；反之，则标记未标注样本聚类标签不可用。

8.如权利要求1所述的用于舆情文本分析的半监督方法，其特征在于：步骤S7具体包括如下操作：根据标注样本、标注样本对应的增强样本、未标注样本和未标注样本对应的增强样本的数量大小，设置计算相似度与线性插值运算批次大小，样本数量大小与批次大小成整数倍关系；分批次计算样本之间的词向量隐语义空间的余玄相似度，计算得出相似度样本，再将相似度样本线性插值运算，结果得出相似度插值样本。

9.一种用于舆情文本分析的半监督装置，其特征在于：包括获取原始舆情样本集模块，用于获取原始舆情数据集；数据预处理模块，用于对原始舆情数据集进行文本预处理；数据增强模块，用于对样本进行文本数据增强，得到对应的数据增强样本；标签抽取聚类模块，用于抽取并聚类未标注样本与对应的增强样本的类别标签，得到未标注样本的聚类标签；校验聚类标签相似度模块，校验未标注样本的聚类标签相似度；置信类别标签模块，使用校验相似度通过的聚类标签构建置信类别标签；校验相似度插值样本模块，校验词向量隐语义空间做相似度线性插值运算生成新的样本相似度；置信样本模块，使用校验相似度插值样本通过的样本构建置信样本；训练样本集模块，用于构建最终训练样本集；模型训练模块：用于根据最终训练样本集，对初始文本分类模型进行训练，得到舆情文本分类模型，文本分类模块：输入测试集使用舆情文本分类模型预测出文本分类结果。

10.一种用于舆情文本分析的半监督装置，其特征在于：包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8任一项所述的用于舆情文本分析的半监督方法。

11.一种计算机可读存储介质，其特征在于：其上存储有程序，该程序被处理器执行时,实现权利要求1-8任一项所述的用于舆情文本分析的半监督方法。