CN116029394A

CN116029394A - 自适应文本情感识别模型训练方法、电子设备及存储介质

Info

Publication number: CN116029394A
Application number: CN202310315955.5A
Authority: CN
Inventors: 李祯其; 胡尧; 温志庆
Original assignee: Ji Hua Laboratory
Current assignee: Ji Hua Laboratory
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-04-28
Anticipated expiration: 2043-03-29
Also published as: CN116029394B

Abstract

本申请涉及文本识别技术领域，提供了一种自适应文本情感识别模型训练方法、电子设备及存储介质，该方法通过构建源域的第一稳定混淆域增强与目标域的第二稳定混淆域增强，有效建立跨域数据之间迁移桥梁，同时，利用双策略伪标签产生方法和改进的对比学习技术充分挖掘目标域的特性，提升源域到目标域迁移的可靠性和稳定性。本发明克服了现有技术中缺乏已标注领域数据的问题，节省时间和成本，能够高效准确的完成文本情感识别和领域之间的自适应，具有较好的实用性，具备良好的适用范围以及可扩展性。

Description

自适应文本情感识别模型训练方法、电子设备及存储介质

技术领域

本申请涉及文本识别技术领域，具体而言，涉及一种自适应文本情感识别模型训练方法、电子设备及存储介质。

背景技术

随着互联网技术的快速发展，互联网的普及率越来越高，人们不仅可以从网络上获取信息，也可以在网络上发表自己的观点和见解。而对各个网络平台的舆论数据进行文本情感识别具有非常重要的现实意义，例如，从日常生活角度出发，人们可以获得他人对具体事件的看法；从商业角度出发，企业可以直观了解到客户对其商品的喜好程度以便完善其产品；从网络监管角度出发，监管机构可以实时掌控舆情发展，以便引导正确舆论走向。

目前，深度神经网络在文本情感识别领域取得了出色的性能，但其训练通常依赖于大量有标签数据。由于文本情感识别方法大多针对特定领域，可是在许多现实应用中收集足够多的有标记训练数据通常非常耗时、代价昂贵甚至无法实现。将在数据量丰富的领域内（源域）训练的文本情感分类模型迁移到数据量稀少的领域（目标域）是解决有标签训练数据量稀少的有效方法，但是，不同领域采集的数据难以满足数据独立同分布假设，限制了机器学习模型的泛化能力和知识复用能力，从而导致学习到的模型难以直接在新领域中取得预期结果。

基于上述问题，目前尚未有有效的解决方法。

发明内容

本申请的目的在于提供一种自适应文本情感识别模型训练方法、电子设备及存储介质，使文本情感识别模型可以将识别源域的知识迁移到识别目标域上，缓解现有的模型无法对目标域的无标签的数据编码进行训练的问题。

第一方面，本申请提供了一种自适应文本情感识别模型训练方法，其中，包括以下步骤：

S1.获取源域的带有标签的数据编码和目标域的无标签的数据编码；利用所述源域的带有标签的数据编码进行第一预设轮次的有监督的训练，以获取第一初始模型；

S2.基于所述第一初始模型，分别对所述源域的带有标签的数据编码和所述目标域的无标签的数据编码施加对抗性扰动，以获取所述源域的第一稳定混淆域增强编码和所述目标域的第二稳定混淆域增强编码；

S3.根据所述第一初始模型、所述源域的带有标签的数据编码、所述第一稳定混淆域增强编码、所述目标域的无标签的数据编码和所述第二稳定混淆域增强编码获取第二初始模型；

S4.将所述第二初始模型作为新的第一初始模型，并重复执行步骤S2-步骤S3第二预设轮次，以最后得到的第二初始模型作为能对所述目标域的无标签的数据编码进行分类的文本情感识别模型。

本申请的自适应文本情感识别模型训练方法，通过构建源域的第一稳定混淆域增强编码与目标域的第二稳定混淆域增强编码，并通过实现源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码的特征对齐，使文本情感识别模型可以将识别源域的知识迁移到识别目标域上，缓解现有的文本情感识别模型无法对目标域的无标签的数据编码进行训练的问题，从而有效建立跨域数据之间迁移桥梁，使得文本情感识别模型也能对目标域的无标签的数据编码进行训练和识别，节省时间和成本，能够高效准确的完成文本情感识别和领域之间的自适应，具有较好的实用性，具备良好的适用范围以及可扩展性。

可选地，本申请提供的自适应文本情感识别模型训练方法，步骤S2包括：

S201.初始化对抗性扰动；

S202.分别对所述源域的带有标签的数据编码和所述目标域的无标签的数据编码施加所述对抗性扰动，以构建所述源域的第一混淆域增强编码和所述目标域的第二混淆域增强编码；

S203.循环执行多次：使用所述第一初始模型中的特征提取网络对所述源域的数据编码、所述第一混淆域增强编码、所述目标域的数据编码和所述第二混淆域增强编码进行特征提取；根据提取的特征更新对抗性扰动；分别对所述源域的带有标签的数据编码和所述目标域的无标签的数据编码施加更新后的对抗性扰动，以更新所述第一混淆域增强编码和所述第二混淆域增强编码；

S204.以最后得到的所述第一混淆域增强编码和所述第二混淆域增强编码作为第一稳定混淆域增强编码和第二稳定混淆域增强编码。

通过对源域的带有标签的数据编码和目标域的无标签的数据编码各输入数据的编码施加对抗性扰动，可以屏蔽与句子主题和题材相关的主题标记，从而构建第一混淆域增强编码和第二混淆域增强编码，可以模糊源域和目标域之间的边界，缩小源域和目标域的差距，从而使第一初始模型学习到更稳定有效的文本情感表示。利用对抗学习，即多次更新对抗性扰动，可以使第一初始模型能够准确地掩盖掉源域和目标域内的数据编码的特定标记词，减小源域到目标域迁移时的误差。

可选地，本申请提供的自适应文本情感识别模型训练方法，步骤S3包括：

S301.基于双策略伪标签产生方法，将所述目标域的无标签的数据编码和所述第二稳定混淆域增强编码作为所述第一初始模型的输入，以获取高置信度样本编码和低置信度样本编码；

S302.基于高置信度样本聚类目标函数和低置信度样本聚类目标函数，分别对所述高置信度样本编码和所述低置信度样本编码分别进行聚类处理，以形成多个不同情感下的第一特征类别质心以及多个不同情感下的第二特征类别质心；

S303.计算所述源域的带有标签的数据编码和所述第一稳定混淆域增强编码的多个不同情感下的第三特征类别质心；

S304.基于特征对齐目标函数，将多个所述第一特征类别质心、所述第二特征类别质心和所述第三特征类别质心进行对齐，并根据所述高置信度样本聚类目标函数、所述低置信度样本聚类目标函数和所述特征对齐目标函数对所述第一初始模型进行更新，以获取第二初始模型；

所述第一特征类别质心、所述第二特征类别质心和所述第三特征类别质心的计算公式分别如下：

；

其中，表示所述高置信度样本编码的集合中的一个编码；表示所述低置信度样本编码数据集的集合中的一个编码；表示所述源域的带有标签的数据编码和所述第一稳定混淆域增强编码的集合中的一个编码；表示所述高置信度样本编码的集合；表示所述低置信度样本编码数据集的集合；表示所述源域的带有标签的数据编码和所述第一稳定混淆域增强编码的集合；表示情感下的第一特征类别质心，表示情感下的第二特征类别质心，表示情感下的第三特征类别质心；表示所述第一初始模型中的特征提取网络；表示情感的特征预测得分，由于的输出为输入样本编码属于各类情感的概率，即为的第个输出值；表示所述第一初始模型。

在构建第一稳定混淆域增强编码和第二稳定混淆域增强编码后，本发明进一步利用对比学习对齐源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码的特征，从而实现领域自适应，提升源域到目标域迁移的可靠性和稳定性。

可选地，本申请提供的自适应文本情感识别模型训练方法，步骤S301中，所述双策略伪标签产生方法包括以下步骤：

B1.利用所述第一初始模型获取所述目标域的各个无标签的数据编码的预测得分；

B2.基于阈值的伪标签筛选方法，对预测得分高于预设阈值的所述目标域的无标签的数据编码分配第一伪标签；

B3.基于类别质心距离的伪标签分配方法，对所述目标域的各个无标签的数据编码分配第二伪标签；

B4.筛选出既分配了所述第一伪标签和所述第二伪标签、且所述第一伪标签和所述第二伪标签一致的目标域的无标签的数据编码及其对应的第二稳定混淆域增强编码，作为所述高置信度样本编码，其余没有分配成功的作为所述低置信度样本编码。

通过双策略伪标签产生方法，即基于阈值的伪标签筛选方法和基于类别质心距离的伪标签分配方法，能精确地获取高置信度样本编码，并生成可靠伪标签。

可选地，本申请提供的自适应文本情感识别模型训练方法，步骤B3中，所述第二伪标签的计算公式如下：

；

其中，表示第二伪标签；1表示指示函数；表示遍历所有的内的值；表示所述目标域的各个数据编码；表示所述目标域；表示找出能够使函数最小的情感值；为计算余弦距离；表示特征提取网络；表示计算所得的情感的类别质心；为情感标签。

可选地，本申请提供的自适应文本情感识别模型训练方法，步骤S302中，根据以下公式对所述高置信度样本编码的特征进行聚类处理：

；

其中，表示高置信度样本聚类目标函数；表示与第个所述高置信度样本编码具有相同标签的编码合集的数据规模；表示高置信度样本编码集的数据规模；表示对第个高置信度样本编码提取出的特征；表示对第个高置信度样本编码提取出的特征；表示对第个高置信度样本编码提取出的特征；表示指示函数，当时函数取值为1，否则为0; 表示和两个元素之间的余弦相似度的指数；表示第个高置信度样本编码的伪标签；表示第个高置信度样本编码的伪标签；表示指示函数；表示高置信度样本编码集中第个高置信度样本编码。

可选地，本申请提供的自适应文本情感识别模型训练方法，步骤S302中，根据以下公式对所述低置信度样本编码的特征进行聚类：

；

其中，表示低置信度样本聚类目标函数；表示对第个低置信度样本编码提取出的特征；表示对第个低置信度样本编码产生的目标域的第二稳定混淆域增强编码提取出的特征；表示低置信度样本编码集的数据规模；表示对第个低置信度样本编码提取出的特征；表示和之间的余弦相似度的指数；表示指示函数，当时函数取值为1，否则为0。

可选地，本申请提供的自适应文本情感识别模型训练方法，步骤S304中，所述特征对齐目标函数包括高置信度样本编码的类层面有监督对比损失函数和低置信度样本编码的类层面有监督对比损失函数；根据以下公式将所述第一特征类别质心、所述第二特征类别质心和所述第三特征类别质心进行对齐：

；

其中，n表示情感的总类别数目；表示高置信度样本编码的类层面有监督对比损失函数；表示低置信度样本编码的类层面有监督对比损失函数；表示在情感下的第一特征类别质心；表示在情感下的第二特征类别质心；表示在情感下的第三特征类别质心；表示非情感下的第三特征类别质心；表示计算以为e为底数、变量间的余弦相似度为指数的指数函数。

本申请提供的自适应文本情感识别模型训练方法，通过S1.获取源域的带有标签的数据编码和目标域的无标签的数据编码；利用源域的带有标签的数据编码进行第一预设轮次的有监督的训练，以获取第一初始模型；S2.基于第一初始模型，分别对源域的带有标签的数据编码和目标域的无标签的数据编码施加对抗性扰动，以获取源域的第一稳定混淆域增强编码和目标域的第二稳定混淆域增强编码；S3.根据第一初始模型、源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码获取第二初始模型；S4.将第二初始模型作为新的第一初始模型，并重复执行步骤S2-步骤S3第二预设轮次，以最后得到的第二初始模型作为能对目标域的无标签的数据编码进行分类的文本情感识别模型。本申请通过构建源域的第一稳定混淆域增强编码与目标域的第二稳定混淆域增强编码，并通过实现源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码的特征对齐，使模型可以将识别源域的知识迁移到识别目标域上，缓解现有的模型无法对目标域的无标签的数据编码进行训练的问题，从而有效建立跨域数据之间迁移桥梁，使得文本情感识别模型也能对目标域的无标签的数据编码进行训练和识别，节省时间和成本，能够高效准确的完成文本情感识别和领域之间的自适应，具有较好的实用性，具备良好的适用范围以及可扩展性。

第二方面，本申请提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第三方面，本申请提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

综上，本申请的自适应文本情感识别模型训练方法、电子设备及存储介质，通过构建源域的第一稳定混淆域增强编码与目标域的第二稳定混淆域增强编码，并通过实现源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码的特征对齐，使文本情感识别模型可以将识别源域的知识迁移到识别目标域上，缓解现有的文本情感识别模型无法对目标域的无标签的数据编码进行训练的问题，从而有效建立跨域数据之间迁移桥梁，使得文本情感识别模型也能对目标域的无标签的数据编码进行训练和识别，节省时间和成本，能够高效准确的完成文本情感识别和领域之间的自适应，具有较好的实用性，具备良好的适用范围以及可扩展性。

附图说明

图1为本申请提供的自适应文本情感识别模型训练方法的一种流程图。

图2为本申请提供的电子设备的结构示意图。

标号说明：

301、处理器；302、存储器；303、通信总线。

具体实施方式

下面将结合本申请实施方式中附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。通常在此处附图中描述和示出的本申请实施方式的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施方式的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施方式。基于本申请的实施方式，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方式，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1是本申请一些实施方式中的自适应文本情感识别模型训练方法的流程图，其中，包括以下步骤：

S1.获取源域的带有标签的数据编码和目标域的无标签的数据编码；利用源域的带有标签的数据编码进行第一预设轮次的有监督的训练，以获取第一初始模型；

S2.基于第一初始模型，分别对源域的带有标签的数据编码和目标域的无标签的数据编码施加对抗性扰动，以获取源域的第一稳定混淆域增强编码和目标域的第二稳定混淆域增强编码；

S3.根据第一初始模型、源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码获取第二初始模型；

S4.将第二初始模型作为新的第一初始模型，并重复执行步骤S2-步骤S3第二预设轮次，以最后得到的第二初始模型作为能对目标域的无标签的数据编码进行分类的文本情感识别模型。

步骤S1中，获取源域的带有标签的数据编码和目标域的无标签的数据编码的方法为现有技术，在实际应用中，可以用现有的word2vec、doc2vec模型，将输入的文本数据转换成数据编码，从而让第一初始模型和文本情感识别模型能够识别。

本申请的自适应文本情感识别模型训练方法，通过S1.获取源域的带有标签的数据编码和目标域的无标签的数据编码；利用源域的带有标签的数据编码进行第一预设轮次的有监督的训练，以获取第一初始模型；S2.基于第一初始模型，分别对源域的带有标签的数据编码和目标域的无标签的数据编码施加对抗性扰动，以获取源域的第一稳定混淆域增强编码和目标域的第二稳定混淆域增强编码；S3.根据第一初始模型、源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码获取第二初始模型；S4.将第二初始模型作为新的第一初始模型，并重复执行步骤S2-步骤S3第二预设轮次，以最后得到的第二初始模型作为能对目标域的无标签的数据编码进行分类的文本情感识别模型。本申请通过构建源域的第一稳定混淆域增强编码与目标域的第二稳定混淆域增强编码，并通过构建源域的第一稳定混淆域增强编码与目标域的第二稳定混淆域增强编码，并通过实现源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码的特征对齐，使文本情感识别模型可以将识别源域的知识迁移到识别目标域上，缓解现有的文本情感识别模型无法对目标域的无标签的数据编码进行训练的问题，从而有效建立跨域数据之间迁移桥梁，使得文本情感识别模型也能对目标域的无标签的数据编码进行训练和识别，节省时间和成本，能够高效准确的完成文本情感识别和领域之间的自适应，具有较好的实用性，具备良好的适用范围以及可扩展性。

由于自然语言具有离散性，表意相同的句子也可呈现出不同的句法表示。通常一些用来描述主题对象的特定领域标记词语对情感信息的获取并无作用，甚至可能成为情感识别过程中的噪声。正是由于这些特定领域标记词语的存在，使得直接对齐目标域的无标签的数据编码与源域的带有标签的数据编码特征非常具有挑战性。

因此，在进一步的实施方式中，步骤S2包括：

S201.初始化对抗性扰动；

S202.分别对源域的带有标签的数据编码和目标域的无标签的数据编码施加对抗性扰动，以构建源域的第一混淆域增强编码和目标域的第二混淆域增强编码；

S203.循环执行多次：使用第一初始模型中的特征提取网络对源域的数据编码、第二混淆域增强编码、目标域的数据编码和第二混淆域增强编码进行特征提取；根据提取的特征更新对抗性扰动；分别对源域的带有标签的数据编码和目标域的无标签的数据编码施加更新后的对抗性扰动，以更新第一混淆域增强编码和第二混淆域增强编码；

S204.以最后得到的第一混淆域增强编码和第二混淆域增强编码作为第一稳定混淆域增强编码和第二稳定混淆域增强编码。

步骤S201和步骤S202中，随机初始化对抗性扰动以获取源域的第一混淆域增强编码和目标域的第二混淆域增强编码均为现有技术，在此不再赘述。

步骤S203中，特征提取网络是第一初始模型的一部分，根据提取的特征更新对抗性扰动的计算公式如下：

；

其中，表示第次更新时的对抗性扰动；表示第次更新时的对抗性扰动；表示连乘符号；表示投影至-超参数球中；表示范数；表示超参数；表示第一混淆域增强编码和第二混淆域增强编码的梯度方向；表示域判别器；表示特征提取网络；表示计算的梯度；表示域判别器的输出与实际域标签之间的误差；表示域标签；更新次数同为超参数，大于等于1。

步骤S204中，通过步骤S203可以获得最终的对抗性扰动，将最终获得的对抗性扰动分别施加到源域的带有标签的数据编码和目标域的无标签的数据编码，以获得第一稳定混淆域增强编码和第二稳定混淆域增强编码。

通过对源域的带有标签的数据编码和目标域的无标签的数据编码各输入数据的编码施加对抗性扰动，可以屏蔽与句子主题和题材相关的主题标记，从而构建第一混淆域增强编码和第二混淆域增强编码，可以模糊源域和目标域之间的边界，缩小源域和目标域的差距，从而使第一初始模型学习到更稳定有效的文本情感表示。

利用对抗学习，即多次更新对抗性扰动，可以使第一初始模型能够准确地掩盖掉源域和目标域内的数据编码的特定标记词，减小源域到目标域迁移时的误差。

在另一些优选的实施方式中，步骤S3包括：

S301.基于双策略伪标签产生方法，将目标域的无标签的数据编码和第二稳定混淆域增强编码作为第一初始模型的输入，以获取高置信度样本编码和低置信度样本编码；

S302.基于高置信度样本聚类目标函数和低置信度样本聚类目标函数，分别对高置信度样本编码和低置信度样本编码分别进行聚类处理，以形成多个不同情感下的第一特征类别质心以及多个不同情感下的第二特征类别质心；

S303.计算源域的带有标签的数据编码和第一稳定混淆域增强编码的多个不同情感下的第三特征类别质心；

S304.基于特征对齐目标函数，将多个第一特征类别质心、第二特征类别质心和第三特征类别质心进行对齐，并根据高置信度样本聚类目标函数、低置信度样本函数和特征对齐目标函数对第一初始模型进行更新，以获取第二初始模型。

步骤S303中，第一特征类别质心、第二特征类别质心和第三特征类别质心的计算公式分别如下：

；

其中，表示高置信度样本编码的集合中的一个编码；表示低置信度样本编码数据集的集合中的一个编码；表示源域的带有标签的数据编码和第一稳定混淆域增强编码的集合中的一个编码；表示高置信度样本编码的集合；表示低置信度样本编码数据集的集合；表示源域的带有标签的数据编码和第一稳定混淆域增强编码的集合；表示情感下的第一特征类别质心，表示情感下的第二特征类别质心，表示情感下的第三特征类别质心；表示第一初始模型中的特征提取网络；表示情感的特征预测得分，由于的输出为输入样本编码属于各类情感的概率，即为的第个输出值；表示第一初始模型。

对比学习技术旨在对语义相近的样本提取鲁棒表示，对语义不同的样本实现判别表示，即将相似样本之间的距离最小化的同时最大化不同样本之间的距离。在构建第一稳定混淆域增强编码和第二稳定混淆域增强编码后，本发明进一步利用对比学习，即特征对齐目标函数对齐源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码的特征，从而实现领域自适应，提升源域到目标域迁移的可靠性和稳定性。

在进一步的实施方式中，步骤S301中，双策略伪标签产生方法包括以下步骤：

B1.利用第一初始模型获取目标域的各个无标签的数据编码的预测得分；

B2.基于阈值的伪标签筛选方法，对预测得分高于预设阈值的目标域的无标签的数据编码分配第一伪标签；

B3.基于类别质心距离的伪标签分配方法，对目标域的各个无标签的数据编码分配第二伪标签；

B4.筛选出既分配了第一伪标签和第二伪标签、且第一伪标签和第二伪标签一致的目标域的无标签的数据编码及其对应的第二稳定混淆域增强编码，作为高置信度样本编码，其余没有分配成功的作为低置信度样本编码。步骤B1中，获取目标域的各个数据编码和各个第二稳定混淆域增强编码的预测得分为现有技术，可以通过步骤S1的第一初始模型获取。

步骤B2中，预设阈值可以根据实际需要进行设置。

在实际应用中，虽然基于阈值的伪标签筛选方法能给无标签数据产生第一伪标签，过滤一些劣质样本，但仍然无法避免对于错误预测的样本却给予高预测值的问题。因此，为了减少基于阈值方法所引起错误的第一伪标签，本发明进一步开发基于类别质心距离的伪标签分配方法，即步骤B3和步骤B4，以从特征分布层级来优化所选伪标签。

在进一步的实施方式中，步骤B3中，第二伪标签的计算公式如下：

；

其中，表示第二伪标签；1表示指示函数；表示遍历所有的内的值；表示目标域的各个数据编码；表示目标域；表示找出能够使函数最小的情感值；为计算余弦距离；表示特征提取网络；表示计算所得的情感的类别质心；为情感标签。

步骤B4中，将同时分配了第一伪标签且分配了第二伪标签，且第一伪标签和第二伪标签一致的目标域的无标签的数据编码及其对应的第二稳定混淆域增强编码，作为高置信度样本编码，剩余的没有分配成功的作为低置信度样本编码。在实际应用中，如果第个目标域的无标签的数据编码属于高置信度样本编码，那么第个目标域的无标签的数据编码的混淆域增强，即对应的第二稳定混淆域增强编码也属于高置信度样本编码。

通过双策略伪标签产生方法，即基于阈值的筛选策略和基于聚类的伪标签分配方法，能精确地获取高置信度样本编码，并生成可靠伪标签，提升源域到目标域迁移的可靠性。

在一些实施方式中，步骤S302中，根据以下公式对高置信度样本编码的特征进行聚类：

；

其中，表示高置信度样本聚类目标函数；表示与第个高置信度样本编码具有相同标签的编码合集的数据规模；表示高置信度样本编码集的数据规模；表示对第个高置信度样本编码提取出的特征；表示对第个高置信度样本编码提取出的特征；表示对第个高置信度样本编码提取出的特征；表示指示函数，当时函数取值为1，否则为0; 表示和两个元素之间的余弦相似度的指数；表示第个高置信度样本编码的伪标签；表示第个高置信度样本编码的伪标签；表示指示函数；表示高置信度样本编码集中第个高置信度样本编码；

其中，表示对指示函数与后面的乘积求和;如果就表示是同一个高置信度样本，指示函数为0，；如果，指示函数为1，就。

通过这种方式，能使与，即高置信度样本编码中数据标签相同的数据（包括第个高置信度样本编码以及第个高置信度样本编码的混淆域增强）特征之间的距离减小（分子部分），同时使与第个数据标签不同的数据特征之间的距离远离（分母部分），利用标签信息令具有相同标签的高置信度样本编码相互靠拢，从而实现聚类。

在一些实施方式中，步骤S302中，根据以下公式对低置信度样本编码进行聚类：

；

通过这种方式，能使与，即低置信度样本编码中第个数据编码及其混淆域增强的特征的距离减小（分子部分），同时使非第个数据及其混淆域增强的特征的距离远离（分母部分），从而实现聚类。

步骤S303中，无需对源域的带标签的数据编码进行额外聚类操作；由于源域带标签的数据编码始终参与整个情感模型的训练过程（包含获取第一初始模型阶段以及获取所述第二初始模型阶段），第三特征类别质心可被精准计算，且不同情感下的第三特征类别质心之间距离明显。

虽然通过以上方式，能够分别将高置信度样本编码、低置信度样本编码的特征进行聚类，但由于域偏移，仍难以保证源域和目标域样本编码的特征的准确对齐。因此，在进一步的实施方式中，步骤S304中，特征对齐目标函数包括高置信度样本编码的类层面有监督对比损失函数和低置信度样本编码的类层面有监督对比损失函数；根据以下公式将第一特征类别质心、第二特征类别质心和第三特征类别质心进行对齐：

；

通过计算高置信度样本编码的类层面有监督对比损失函数和低置信度样本编码的类层面有监督对比损失函数，让源域和目标域中相同类别的情感类别质心距离靠近，不同类别的情感质心则距离变远，缩小了源域数据编码特征以及目标域数据编码特征之间的差异。

步骤S304中，根据高置信度样本聚类目标函数、低置信度样本聚类目标函数和特征对齐目标函数对所述第一初始模型进行更新的具体步骤如下：本发明利用高置信度样本聚类目标函数、低置信度样本聚类目标函数和特征对齐目标函数之间的互补性，将所有损失函数进行聚合来共同推动目标域的无标签的数据编码特征与源域的有标签的数据编码特征的对齐，具体优化函数可表示为：

；

其中，表示具体优化函数；表示源域的带有标签的数据编码的有监督交叉熵损失函数；和分别表示目标域内高置信度样本聚类目标函数和低置信度样本聚类目标函数；表示特征对齐目标函数；、和均是超参数，用来调节相应损失函数的效果。

进一步地，通过以下公式计算训练目标损失函数：

；

其中，表示训练目标损失函数；表示用于产生混淆域增强的对抗学习损失函数；表示具体优化函数；表示域判别器的输出与实际域标签之间的误差；表示域标签；表示找出能够使最小的和模型参数；表示第一初始模型；表示使找出能够使最大的对抗性扰动值；表示域判别器；表示第一初始模型中的特征提取网络；表示所输入的源域的有标签的数据编码以及目标域的无标签数据编码。

通过上述训练目标损失函数对第一初始模型的参数进行更新，以获取第二初始模型。

步骤S4中，第二预设轮次可以根据需要进行设置。将源域的带有标签的数据编码和目标域的无标签的数据编码作为输入，对第一初始模型的参数迭代更新以获取第二初始模型，再将第二初始模型作为新的第一初始模型，重复步骤S2-步骤S3第二预设轮次。循环结束后，训练所得的第二初始模型即为最终用于目标域的无标签的数据编码进行分类的文本情感识别模型。

由上可知，本申请的自适应文本情感识别模型训练方法，通过S1.获取源域的带有标签的数据编码和目标域的无标签的数据编码；利用源域的带有标签的数据编码进行第一预设轮次的有监督的训练，以获取第一初始模型；S2.基于第一初始模型，分别对源域的带有标签的数据编码和目标域的无标签的数据编码施加对抗性扰动，以获取源域的第一稳定混淆域增强编码和目标域的第二稳定混淆域增强编码；S3.根据第一初始模型、源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码获取第二初始模型；S4.将第二初始模型作为新的第一初始模型，并重复执行步骤S2-步骤S3第二预设轮次，以最后得到的第二初始模型作为能对所述目标域的无标签的数据编码进行分类的文本情感识别模型。本申请通过构建源域的第一稳定混淆域增强编码与目标域的第二稳定混淆域增强编码，并通过实现源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码的特征对齐，使文本情感识别模型可以将识别源域的知识迁移到识别目标域上，缓解现有的文本情感识别模型无法对目标域的无标签的数据编码进行训练的问题，从而有效建立跨域数据之间迁移桥梁，使得文本情感识别模型也能对目标域的无标签的数据编码进行训练和识别，节省时间和成本，能够高效准确的完成文本情感识别和领域之间的自适应，具有较好的实用性，具备良好的适用范围以及可扩展性。

请参照图2，图2为本申请实施方式提供的一种电子设备的结构示意图，本申请提供一种电子设备，包括：处理器301和存储器302，处理器301和存储器302通过通信总线303和/或其他形式的连接机构（未标出）互连并相互通讯，存储器302存储有处理器301可执行的计算机可读取指令，当电子设备运行时，处理器301执行该计算机可读取指令，以在执行时执行上述实施方式的任一可选的实现方式中的方法，以实现以下功能：S1.获取源域的带有标签的数据编码和目标域的无标签的数据编码；利用源域的带有标签的数据编码进行第一预设轮次的有监督的训练，以获取第一初始模型；S2.基于第一初始模型，分别对源域的带有标签的数据编码和目标域的无标签的数据编码施加对抗性扰动，以获取源域的第一稳定混淆域增强编码和目标域的第二稳定混淆域增强编码；S3.根据第一初始模型、源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码获取第二初始模型；S4.将第二初始模型作为新的第一初始模型，并重复执行步骤S2-步骤S3第二预设轮次，以最后得到的第二初始模型作为能对所述目标域的无标签的数据编码进行分类的文本情感识别模型。

本申请实施方式提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，执行上述实施方式的任一可选的实现方式中的方法，以实现以下功能：S1.获取源域的带有标签的数据编码和目标域的无标签的数据编码；利用源域的带有标签的数据编码进行第一预设轮次的有监督的训练，以获取第一初始模型；S2.基于第一初始模型，分别对源域的带有标签的数据编码和目标域的无标签的数据编码施加对抗性扰动，以获取源域的第一稳定混淆域增强编码和目标域的第二稳定混淆域增强编码；S3.根据第一初始模型、源域的带有标签的数据编码、第一稳定混淆域增强编码、目标域的无标签的数据编码和第二稳定混淆域增强编码获取第二初始模型；S4.将第二初始模型作为新的第一初始模型，并重复执行步骤S2-步骤S3第二预设轮次，以最后得到的第二初始模型作为能对所述目标域的无标签的数据编码进行分类的文本情感识别模型。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static RandomAccess Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically ErasableProgrammable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（ErasableProgrammable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

在本申请所提供的实施方式中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

再者，在本申请各个实施方式中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施方式而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种自适应文本情感识别模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自适应文本情感识别模型训练方法，其特征在于，步骤S2包括：

S201.初始化对抗性扰动；

3.根据权利要求2所述的自适应文本情感识别模型训练方法，其特征在于，步骤S3包括：

；

4.根据权利要求3所述的自适应文本情感识别模型训练方法，其特征在于，步骤S301中，所述双策略伪标签产生方法包括以下步骤：

5.根据权利要求4所述的自适应文本情感识别模型训练方法，其特征在于，步骤B3中，所述第二伪标签的计算公式如下：

；

6.根据权利要求3所述的自适应文本情感识别模型训练方法，其特征在于，步骤S302中，根据以下公式对所述高置信度样本编码的特征进行聚类处理：

；

其中，表示高置信度样本聚类目标函数；表示与第个所述高置信度样本编码具有相同标签的编码合集的数据规模；表示指示函数，当时函数取值为1，否则为0；表示高置信度样本编码集的数据规模；表示对第个高置信度样本编码提取出的特征；表示对第个高置信度样本编码提取出的特征；表示对第个高置信度样本编码提取出的特征；表示指示函数，当时函数取值为1，否则为0; 表示和两个元素之间的余弦相似度的指数；表示第个高置信度样本编码的伪标签；表示第个高置信度样本编码的伪标签；表示指示函数；表示高置信度样本编码集中第个高置信度样本编码。

7.根据权利要求3所述的自适应文本情感识别模型训练方法，其特征在于，步骤S302中，根据以下公式对所述低置信度样本编码的特征进行聚类：

；

8.根据权利要求4所述的自适应文本情感识别模型训练方法，其特征在于，步骤S304中，所述特征对齐目标函数包括高置信度样本编码的类层面有监督对比损失函数和低置信度样本编码的类层面有监督对比损失函数；根据以下公式将所述第一特征类别质心、所述第二特征类别质心和所述第三特征类别质心进行对齐：

；

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-8任一项所述自适应文本情感识别模型训练方法中的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-8任一项所述自适应文本情感识别模型训练方法中的步骤。