CN115310443A

CN115310443A - 模型训练方法、信息分类方法、装置、设备及存储介质

Info

Publication number: CN115310443A
Application number: CN202211083152.3A
Authority: CN
Inventors: 蒋胜臣; 郭林海; 张琛; 万化
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-11-08

Abstract

本发明实施例公开了一种模型训练方法、信息分类方法、装置、设备及存储介质。该方法包括：获取初始训练样本集；在所述初始训练样本中的样本资讯文本基础上，添加提示信息和标签信息，得到目标训练样本集，其中，所述提示信息用于询问所述样本资讯文本的舆情类别，所述标签信息中同时包含至少两种舆情类别；将所述目标训练样本集输入至舆情分类模型中，根据所述舆情分类模型的输出确定目标损失关系；根据所述目标损失关系对所述舆情分类模型进行训练。本发明实施例的技术方案，通过添加标签信息和提示信息，从舆情极性的角度优化了模型输出结果，使训练出的模型的舆情分类效果得到了提升。

Description

模型训练方法、信息分类方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及模型训练方法、信息分类方法、装置、设备及存储介质。

背景技术

近几年，文本舆情分类的研究，持续成为自然语言处理和文本分类领域研究的热点问题之一，文本舆情分类的研究涵盖了包括自然语言处理、信息检索、信息抽取等多个领域。

文本舆情分类是指利用自然语言处理和文本分类技术，对带有舆情信息的文本进行分析、处理和分类的过程。文本舆情分类的主要研究思路分为，基于语义的舆情词典方法和基于机器学习的方法。基于语义的舆情词典方法，首先需要构建舆情词典，而舆情词典的构建主要是，利用已有电子词典扩展为舆情词典。基于机器学习的舆情分类，需要通过机器学习的方法构造舆情分类器，待分类的文本通过该分类器，进行舆情极性分类。常用的舆情分类特征包括，舆情词、词性、否定表达模板等。

然而，现有的基于文本舆情分类模型的分类方案，普遍存在对舆情极性关注不够，往往将舆情分类任务作为文本分类任务处理，但是舆情分类与文本分类任务有明显的差别，文本分类更关注于文本的核心语义信息，以此判别文本所属的类别，舆情分类任务应该更关注于文本中的细节表述，也许一个转折或一个表述转换就可以造成相似度很高的文本具有不同的舆情极性。所以只是将舆情分类任务当作文本分类任务来处理，舆情分类的效果不佳，准确度低。

发明内容

本发明提供一种模型训练方法、信息分类方法、装置、设备及存储介质，可以提高舆情分类的准确度。

第一方面，本发明实施例提供了一种模型训练方法，包括：

获取初始训练样本集，其中，所述初始训练样本集中的初始训练样本中包括样本资讯文本；

在所述初始训练样本中的样本资讯文本基础上，添加提示信息和标签信息，得到目标训练样本集，其中，所述提示信息用于询问所述样本资讯文本的舆情类别，所述标签信息中同时包含至少两种舆情类别；

将所述目标训练样本集输入至舆情分类模型中，根据所述舆情分类模型的输出确定目标损失关系，其中，所述舆情分类模型基于双向语言表征转换模型BERT构建；

根据所述目标损失关系对所述舆情分类模型进行训练。

第二方面，本发明实施例提供了一种信息分类方法，包括：

获取待分类资讯文本；

在所述待分类资讯文本基础上，添加提示信息和标签信息，得到目标待分类数据；

将所述目标待分类数据输入至预设舆情分类模型中，根据所述预设舆情分类模型的输出确定所述待分类资讯文本对应的目标舆情类别，其中，所述预设舆情分类模型采用如上述第一方面的模型训练方法得到。

第三方面，本发明实施例还提供了一种模型训练装置，包括：

训练样本获取模块，用于获取初始训练样本集，其中，所述初始训练样本集中的初始训练样本中包括样本资讯文本；

目标训练样本确定模块，用于在所述初始训练样本中的样本资讯文本基础上，添加提示信息和标签信息，得到目标训练样本集，其中，所述提示信息用于询问所述样本资讯文本的舆情类别，所述标签信息中同时包含至少两种舆情类别；

目标损失关系确定模块，用于将所述目标训练样本集输入至舆情分类模型中，根据所述舆情分类模型的输出确定目标损失关系，其中，所述舆情分类模型基于双向语言表征转换模型BERT构建；

训练模块，用于根据所述目标损失关系对所述舆情分类模型进行训练。

第四方面本发明实施例还提供了一种信息分类装置，包括：

资讯文本获取模块，用于获取待分类资讯文本；

信息添加模块，用于在所述待分类资讯文本基础上，添加提示信息和标签信息，得到目标待分类数据；

舆情类别确定模块，用于将所述目标待分类数据输入至预设舆情分类模型中，根据所述预设舆情分类模型的输出确定所述待分类资讯文本对应的目标舆情类别，其中，所述预设舆情分类模型采用如权利要求1-4任一所述的模型训练方法得到。

第五方面，本发明实施例提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述第一方面的模型训练方法，和/或，实现上述第二方面的信息分类方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序用于使处理器执行时实现上述第一方面的模型训练方法，和/或，实现上述第二方面的信息分类方法。

本发明实施例提供的模型训练方案，获取初始训练样本集，其中，所述初始训练样本集中的初始训练样本中包括样本资讯文本，在所述初始训练样本中的样本资讯文本基础上，添加提示信息和标签信息，得到目标训练样本集，其中，所述提示信息用于询问所述样本资讯文本的舆情类别，所述标签信息中同时包含至少两种舆情类别，将所述目标训练样本集输入至舆情分类模型中，根据所述舆情分类模型的输出确定目标损失关系，其中，所述舆情分类模型基于双向语言表征转换模型BERT构建，根据所述目标损失关系对所述舆情分类模型进行训练。通过采用上述技术方案，在获取了初始训练样本集后，在该初始训练样本中的样本资讯文本上，添加包含舆情类别的标签信息和用于询问舆情类别的提示信息，从而得到目标训练样本集，再将该目标训练样本集输入至舆情分类模型中，根据该模型的输出确定的目标损失关系，来训练舆情分类模型，通过添加标签信息和提示信息，增强了对训练样本的舆情极性的关注度，有效缓解训练样本标注不足的问题，避免了相似度高的文本难以区分舆情极性的问题，从舆情极性的角度优化了模型输出结果，使训练出的模型的舆情分类效果得到了提升。

本发明实施例提供的信息分类方案，获取待分类资讯文本；在所述待分类资讯文本基础上，添加提示信息和标签信息，得到目标待分类数据；将所述目标待分类数据输入至预设舆情分类模型中，根据所述预设舆情分类模型的输出确定所述待分类资讯文本对应的目标舆情类别，其中，所述预设舆情分类模型采用如所述模型训练方法得到。通过采用上述技术方案，在待分类资讯文本的基础上，添加包含舆情类别的标签信息和用于询问舆情类别的提示信息，得到了目标待分类数据，再将该目标待分类数据，输入至预设舆情分类模型中，最后根据该模型的输出确定待分类资讯文本对应的目标舆情类别，通过在待分类资讯文本上，添加标签信息和提示信息，使预设舆情分类模型在编码时，更关注资讯文本的舆情极性，从舆情极性的角度优化了模型输出结果，有效的提高了舆情分类效果。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种模型训练方法的流程图；

图2是根据本发明实施例二提供的一种模型训练方法的流程图；

图3是根据本发明实施例二提供的一种预设舆情分类模型的训练过程示意图；

图4是根据本发明实施例三提供的一种信息分类方法的流程图；

图5是根据本发明实施例四提供的一种模型训练装置的结构示意图；

图6是根据本发明实施例五提供的一种信息分类装置的结构示意图；

图7是根据本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的模型训练方法的流程图，本实施例可适用于训练模型情况，该方法可以由模型训练装置来执行，该模型训练装置可以采用硬件和/或软件的形式实现，该模型训练装置可配置于电子设备中，该电子设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。

如图1所示，该本发明实施例一提供的一种模型训练方法，具体包括如下步骤：

步骤101、获取初始训练样本集。

其中，所述初始训练样本集中的初始训练样本中包括样本资讯文本。

在本实施例中，可以获取多个样本资讯文本作为样本，形成样本资讯文本的集合，即初始训练样本集，该初始训练样本集中的样本，可以用来作为训练模型的初始样本，其中，资讯文本可以理解为，用来训练模型的资讯类的文字文本，在资讯文本获取之前，可以对该文本的主题进行预设，以获得该预设主题的资讯文本，如预设主题为金融领域，则可获取金融领域主题的资讯文本。

可选的，样本资讯文本可以是对所获取的原始资讯样本进行数据预处理后得到的资讯文本，预处理可以包括如去除特殊字符以及停用字等。

步骤102、在所述初始训练样本中的样本资讯文本基础上，添加提示信息和标签信息，得到目标训练样本集。

其中，所述提示信息用于询问所述样本资讯文本的舆情类别，所述标签信息中同时包含至少两种舆情类别，具体数量不做限定，例如2种、3种、4种、或更多种。

在本实施例中，可以在样本资讯文本中的第一预设位置上，添加用于询问舆情类别的提示信息，在样本资讯文本中的第二预设位置上，添加包含舆情类别的标签信息，从而得到目标训练样本集，如，提示信息可以为，“舆情极性是【MASK】”或“舆情类别是【MASK】”等文本信息，标签信息可以为，“好庸坏”(对应3种舆情类别)或“好坏”(对应2种舆情类别)等文本信息。其中，【MASK】可以理解为，判断舆情类别的特征的掩码，第一预设位置可以在第二预设位置之前。

示例性的，若初始训练样本表示为，【CLS】资讯文本【SEP】，则添加提示信息和标签信息后为，【CLS】舆情极性是【MASK】【SEP】好庸坏【SEP】资讯文本【SEP】，“舆情极性是【MASK】”为提示信息，“好庸坏”为标签信息。

S103、将所述目标训练样本集输入至舆情分类模型中，根据所述舆情分类模型的输出确定目标损失关系。

其中，所述舆情分类模型基于双向语言表征转换模型(Bidirectional EncoderRepresentations from Transformers，BERT)构建。

在本实施例中，可以将该目标训练样本集作为输入量，输入到舆情分类模型中，然后根据舆情分类模型输出的数据，参考样本资讯文本的真实舆情类别，可以确定出该舆情分类模型的损失关系，即目标损失关系(具体可以是目标损失值)，其中，损失关系的表现形式可以为损失函数。

可选的，舆情分类模型具体可以是在中文BERT预训练模型基础上进行微调后得到的模型，具体可以针对上述预设主题进行微调，使得微调后得到的舆情分类模型更适用于上述预设主题的舆情极性分类。可选的，可以选用掩码语言模型(Masked Language Model，MLM)任务进行微调。

S104、根据所述目标损失关系对所述舆情分类模型进行训练。

在本实施例中，可以根据损失关系对应的数值大小，来训练舆情分类模型。一般来说，该数值越小，可表明舆情分类模型的分类效果越好，反之，则可表明舆情分类模型输出的分类效果欠佳，可通过调整舆情分类模型的相关参数，如权重系数和/或偏移参数等，来降低损失关系对应的数值，提升舆情分类模型对舆情分类的准确度。

本发明实施例提供的模型训练方法，获取初始训练样本集，其中，所述初始训练样本集中的初始训练样本中包括样本资讯文本，在所述初始训练样本中的样本资讯文本基础上，添加提示信息和标签信息，得到目标训练样本集，其中，所述提示信息用于询问所述样本资讯文本的舆情类别，所述标签信息中同时包含至少两种舆情类别，将所述目标训练样本集输入至舆情分类模型中，根据所述舆情分类模型的输出确定目标损失关系，其中，所述舆情分类模型基于双向语言表征转换模型BERT构建，根据所述目标损失关系对所述舆情分类模型进行训练。通过采用上述技术方案，在获取了初始训练样本集后，在该初始训练样本中的样本资讯文本上，添加包含舆情类别的标签信息和用于询问舆情类别的提示信息，从而得到目标训练样本集，再将该目标训练样本集输入至舆情分类模型中，根据该模型的输出确定的目标损失关系，来训练舆情分类模型，通过添加标签信息和提示信息，增强了对训练样本的舆情极性的关注度，有效缓解训练样本标注不足的问题，避免了相似度高的文本难以区分舆情极性的问题，从舆情极性的角度优化了模型输出结果，使训练出的模型的舆情分类效果得到了提升。

可选的，所述提示信息中包括掩码，所述舆情分类模型的输出中包括所述掩码对应的掩码编码，所述掩码编码用于作为舆情类别判断依据的判断特征表示，所述舆情分类模型的输出中还包括所述标签信息中所述至少两种舆情类别分别对应的舆情标签编码，所述舆情标签编码用于作为舆情类别的类别特征表示。这样设置的好处在于，利用掩码编码和舆情标签编码的方式，可以让舆情分类模型更好的学习设定领域的词汇。

具体的，提示信息中除了包括用于询问样本资讯文本的舆情类别的信息外，还可以包括掩码，将包含提示信息和标签信息的目标训练样本集，输入至舆情分类模型后，相应的，该舆情分类模型的会输出该掩码的编码，即掩码编码，以及标签的编码，即舆情标签编码。其中，所述掩码具体可以基于上述MLM确定。

示例性的，分类模型输出的编码可以表示为：

Bert_out＝BERT([[CLS],x₁,x₂…x_n,[SEP]],sentence_mask)

其中，Bert_out∈R^bs×M×q为舆情分类模型的输出编码张量，即编码的多维数组，BERT为BERT模型，即舆情分类模型，x₁,x₂…x_n对应目标训练样本集中的输入字符，即舆情分类模型的输入量，n为字符的个数，sentence_mask∈R^bs×M为目标训练样本集中的掩码矩阵，bs为批次的大小，q表示输出的向量维数，M为矩阵的阶数，其数值的大小一般为n+2，例如n＝510，M＝512。

可选的，所述目标损失关系基于预设对比损失函数确定，所述预设对比损失函数基于预设目标设定；所述预设目标包括：促使对应同一舆情类别的判断特征表示与类别特征表示接近，并促使对应不同舆情类别的判断特征表示与类别特征表示远离。这样设置的好处在于，拉近了同一舆情类别的样本与其对应的标签的特征表示，拉远了不同舆情类别的样本与其对应的标签的特征表示。

经发明人研究发现，有监督任务中的对比学习容易造成特征表示不再具有‘一致性’，即特征表示的空间分布不再均匀。例如一个简单的词袋编码表示：

句子1：[0,0,0,1,0,0]

句子2：[0,0,1,0,0,0]

分类器的表示：[0,0,1,1,0,0]

在该例子中，根据分类器的表示，句子1和句子2都属于‘1’的类别。但是通过对比学习，句子1和句子2的编码表示相似度为0，这样就容易造成句子编码空间分布不均匀。

本发明实施例中，为了解决上述编码空间分布不均匀的问题，将对比学习从拉近同一类样本的表示，拉远不同类别样本表示的原则，变为拉近同一类别样本与其对于标签的表示，拉远样本与其它标签的表示，因为在有监督的分类任务中，标签是可以区分不同样本特征，又不会对文本句‘一致性’产生影响的唯一对比量。

具体的，本发明实施例中，当同一舆情类别的判断特征表示与类别特征表示，越接近，对比损失函数输出的结果就越小，反之，当同一舆情类别的判断特征表示与类别特征表示，越远离，或不同舆情类别的判断特征表示与类别特征表示，越接近，对比损失函数输出的结果就越大。其中，舆情类别的判断特征表示可以理解为，提示信息中掩码位置上的掩码编码，舆情类别的类别特征表示可以理解为，标签信息的舆情类别位置上的舆情标签编码。

示例性的，如上述所述，若添加过提示信息和标签信息的目标训练样本集中的样本为，【CLS】舆情极性是【MASK】【SEP】好庸坏【SEP】资讯文本【SEP】，则掩码【MASK】位置的编码C∈R^bs×q，可以用于作为舆情类别判断依据的判断特征表示，“好庸坏”的编码B∈R^bs ^×nclass×q，可以作为舆情类别的类别特征表示，q为输出的向量维数。其中，nclass为舆情类别的个数，假设在本例中nclass＝3。

可选的，所述预设对比损失函数包括第一对比损失函数和第二对比损失函数。其中，所述第一对比损失函数中，将所述目标训练样本集中的各目标训练样本依次确定为当前目标训练样本，当前目标训练样本的当前掩码编码和第一待对比舆情标签编码的相似度计算结果，与所述第一对比损失函数对应的损失关系的取值负相关，其中，所述第一待对比舆情标签编码为所述目标训练样本集中，除当前目标训练样本之外的，与当前目标训练样本对应同一舆情类别(可以理解为同一真实舆情类别)的目标训练样本的舆情标签编码；当前目标训练样本的当前掩码编码和第二待对比舆情标签编码的相似度计算结果，与所述第一对比损失函数对应的损失关系的取值正相关，其中，所述第二待对比舆情标签编码为所述目标训练样本集中，除当前目标训练样本之外的，与当前目标训练样本对应不同舆情类别(可以理解为不同真实舆情类别)的目标训练样本的舆情标签编码。其中，相似度计算具体可以是点乘计算。

示例性的，第一对比损失函数

的表达式可以表示为：

其中，C_i∈R^q,C_i表示第i个目标训练样本(当前目标训练样本)的当前掩码编码，

表示第p个第一待对比舆情标签编码，“·”表示点乘计算符号，exp(x)表示e的x次方，γ表示温度系数，N表示样本的个数，

表示第a个第二待对比舆情标签编码，|P_i|表示目标训练样本集中，除第i个目标训练样本之外的，与第i个目标训练样本对应同一舆情类别的目标训练样本的数量，

表示i＝1,2,3，...，N，

表示N个样本的集合，P_i表示在目标训练样本集中，除去第i个目标训练样本之外的，与第i个目标训练样本对应同一舆情类别的舆情标签编码，A_i表示目标训练样本集中，除去第i个目标训练样本之外的，与第i个目标训练样本对应不同舆情类别的目标训练样本的舆情标签编码矩阵。可以看出，

的计算结果越大，

的计算结果就越小，即当前目标训练样本的当前掩码编码和第一待对比舆情标签编码的相似度计算结果，与所述第一对比损失函数对应的损失关系的取值负相关，

的计算结果越大，

的计算结果就越大，即当前目标训练样本的当前掩码编码和第二待对比舆情标签编码的相似度计算结果，与所述第一对比损失函数对应的损失关系的取值正相关。

其中，所述第二对比损失函数中，将所述舆情分类模型输出的各舆情标签编码依次确定为当前舆情标签编码，当前舆情标签编码和第一待对比掩码编码的相似度计算结果，与所述第二对比损失函数对应的损失关系的取值负相关，其中，所述第一待对比掩码编码为所述目标训练样本集中，与当前舆情标签编码对应同一舆情类别(可以理解为同一真实舆情类别)的目标训练样本的掩码编码；当前舆情标签编码和第二待对比掩码编码的相似度计算结果，与所述第二对比损失函数对应的损失关系的取值正相关，其中，所述第二待对比掩码编码为所述目标训练样本集中，与当前舆情标签编码对应不同舆情类别(可以理解为不同真实舆情类别)的目标训练样本的舆情标签编码；其中，所述相似度计算结果的取值越大，对应的接近程度越高。

示例性的，第二对比损失函数

的表达式可以表示为：

其中，C_k∈R^q,C_k表示第k个第一待对比掩码编码，

表示第i个舆情标签编码，“·”表示点乘计算符号，exp(x)表示e的x次方，γ表示温度系数，N表示样本的个数，C_a∈R^q,C_a表示第a个第二待对比掩码编码，|K_i|表示目标训练样本集中，除第i个舆情标签编码所属目标训练样本之外，与第i个舆情标签编码所属目标训练样本对应同一舆情类别的目标训练样本的数量，

表示i＝1,2,3，...，N，K_i表示在目标训练样本集中，除第i个舆情标签编码所属目标训练样本之外，与第i个舆情标签编码所属目标训练样本对应同一舆情类别的目标训练样本，S_i表示在目标训练样本集中，除第i个舆情标签编码之外，与第i个舆情标签编码所属目标训练样本对应不同舆情类别的目标训练样本的掩码编码矩阵。可以看出，

的计算结果越大，

的计算结果就越小，即当前舆情标签编码和第一待对比掩码编码的相似度计算结果，与所述第二对比损失函数对应的损失关系的取值负相关，

的计算结果越大，

的计算结果就越大，即当前舆情标签编码和第二待对比掩码编码的相似度计算结果，与所述第二对比损失函数对应的损失关系的取值正相关。

上述对比损失函数这样设置的好处在于，利用确定出的第一对比损失函数和第二对比损失函数，可以保证舆情分类模型的训练样本的编码空间分布的均匀性。

实施例二

图2为本发明实施例二提供的一种模型训练方法的流程图，本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化，给出了训练模型时，目标损失关系的具体确定方式。

可选的，所述根据所述舆情分类模型的输出确定目标损失关系，包括：根据所述舆情分类模型的输出确定预设对比损失函数和预设交叉熵损失函数；基于所述预设对比损失函数和所述预设交叉熵损失函数的加权和，确定目标损失函数；其中，所述预设交叉熵损失函数中，将所述目标训练样本集中的各目标训练样本依次确定为当前目标训练样本，当前目标训练样本的当前掩码编码和当前舆情标签编码的相似度计算结果，与所述预设交叉熵损失函数对应的损失关系的取值负相关；当前目标训练样本的当前掩码编码和当前目标训练样本对应的至少两种舆情类别分别对应的舆情标签编码的相似度计算结果之和，与所述预设交叉熵损失函数对应的损失关系的取值正相关。这样设置的好处在于，利用预设对比损失函数和预设交叉熵损失函数，可以进一步提升模型识别舆情类别的准确度。

如图2所示，本发明实施例二提供的一种模型训练方法，具体包括如下步骤：

S201、获取初始训练样本集。

S202、在所述初始训练样本中的样本资讯文本基础上，添加提示信息和标签信息，得到目标训练样本集。

S203、将所述目标训练样本集输入至舆情分类模型中，根据所述舆情分类模型的输出确定预设对比损失函数和预设交叉熵损失函数。

其中，所述预设交叉熵损失函数中，将所述目标训练样本集中的各目标训练样本依次确定为当前目标训练样本，当前目标训练样本的当前掩码编码和当前舆情标签编码的相似度计算结果，与所述预设交叉熵损失函数对应的损失关系的取值负相关；当前目标训练样本的当前掩码编码和当前目标训练样本对应的至少两种舆情类别分别对应的舆情标签编码的相似度计算结果之和，与所述预设交叉熵损失函数对应的损失关系的取值正相关。

具体的，图3为本发明实施例二提供了一种预设舆情分类模型的训练过程示意图，如图3所示，可以将目标训练样本集输入至舆情分类模型(BERT Encoder)中，根据输出可以确定出目标损失关系，即预设对比损失函数和预设交叉熵损失函数，其中，计算预设对比损失函数的方式可以为，将第一对比损失函数和第二对比损失函数按照设定方式进行计算，从而得到预设对比损失函数，如对第一对比损失函数和第二对比损失函数进行和计算，得到预设对比损失函数。

可选的，若目标训练样本集中，舆情类别分布不均衡，如中性舆情类别的标签信息对应的样本数量，占目标训练样本集中总训练样本数量的比例较大，负性和良性舆情类别的标签信息对应的样本数量较少，则可以增加负性和良性舆情类别的样本数量。这样设置的好处在于，均衡了舆情极性的分布，从而保证了训练舆情分类模型的效果。

示例性的，预设对比损失函数

的表达式可以表示为：

示例性的，预设交叉熵损失函数

的表达式可以表示为：

其中，C_i∈R^q,C_i表示第i个掩码编码，即当前目标训练样本的当前掩码编码，

表示第i个舆情标签编码，即当前舆情标签编码，“·”表示相似度计算符号，exp(x)表示e的x次方，N表示样本的个数，

表示i＝1,2,3，...，N，L为舆情类别集合，

表示第i个样本的第l个舆情标签编码，即当前目标训练样本对应的至少两种舆情类别分别对应的舆情标签编码。可以看出，

的计算结果越大，

的计算结果就越小，即当前掩码编码和当前舆情标签编码的相似度计算结果，与所述预设交叉熵损失函数对应的损失关系的取值负相关，

的计算结果越大，

的计算结果就越大，即当前掩码编码和当前目标训练样本对应的至少两种舆情类别分别对应的舆情标签编码的相似度计算结果之和，与所述预设交叉熵损失函数对应的损失关系的取值正相关。

S204、基于所述预设对比损失函数和所述预设交叉熵损失函数的加权和，确定目标损失函数。

示例性的，目标损失函数

的表达式可以表示为：

其中，a为权重系数。

可选的，也可针对

和

分别设定权重系数，如a1和a2。

S205、根据所述目标损失关系对所述舆情分类模型进行训练。

本发明实施例提供的模型训练方法，在获取了初始训练样本集后，在该初始训练样本中的样本资讯文本上，添加包含舆情类别的标签信息和包含掩码的提示信息，得到了目标训练样本集，再将该目标训练样本集输入至舆情分类模型中，根据该模型的输出的掩码编码和舆情标签编码，确定出预设对比损失函数和预设交叉熵损失函数分别对应的损失关系，将二者进行加权求和计算，得到目标损失关系，利用该目标损失关系来训练舆情分类模型，利用在训练样本中添加标签信息和提示信息的方式，使得舆情分类模型的编码表示更关注舆情极性信息，区分出不同训练样本的舆情极性特征，并让资讯文本的特征表示保持了统一性，即特征表示的空间分布仍然保持均匀，更有利于少样本的学习，训练出的模型的舆情分类效果得到了提升。

实施例三

图4为本发明实施例三提供了一种信息分类方法的流程图，本实施例可适用于对舆情进行分类的情况，该方法可以由信息分类装置来执行，该信息分类装置可以采用硬件和/或软件的形式实现，该信息分类装置可配置于电子设备中，该信息分类装置也可和模型训练装置配置于同一电子设备中，该电子设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。

如图4所示，该本发明实施例三提供的一种信息分类方法，具体包括如下步骤：

S301、获取待分类资讯文本。

在本实施例中，待分类资讯文本可以理解为，舆情类别未知的资讯文本。

S302、在所述待分类资讯文本基础上，添加提示信息和标签信息，得到目标待分类数据。

在本实施例中，可以在待分类资讯文本中的第三预设位置上，添加用于询问舆情类别的提示信息，在样本资讯文本中的第四预设位置上，添加包含舆情类别的标签信息，从而得到目标待分类数据，如，提示信息可以为，“舆情极性是【MASK】”或“舆情类别是【MASK】”等文本信息，标签信息可以为，“好庸坏”或“好坏”等文本信息。其中，【MASK】可以理解为，判断舆情类别的特征的掩码，第三预设位置可以在第四预设位置之前。

S303、将所述目标待分类数据输入至预设舆情分类模型中，根据所述预设舆情分类模型的输出确定所述待分类资讯文本对应的目标舆情类别。

其中，所述预设舆情分类模型采用如上述实施例中所述的模型训练方法得到。

在本实施例中，如图4所示，将目标待分类数据输入至预设舆情分类模型中，可以得到该目标待分类数据的目标舆情类别，预设舆情分类模型可以理解为，利用上述实施例的模型训练方法，训练出的符合要求的舆情分类模型。

本发明实施例提供的信息分类方法，获取待分类资讯文本，在所述待分类资讯文本基础上，添加提示信息和标签信息，得到目标待分类数据，将所述目标待分类数据输入至预设舆情分类模型中，根据所述预设舆情分类模型的输出确定所述待分类资讯文本对应的目标舆情类别，其中，所述预设舆情分类模型采用模型训练方法得到。本发明实施例技术方案，在待分类资讯文本的基础上，添加包含舆情类别的标签信息和用于询问舆情类别的提示信息，得到了目标待分类数据，再将该目标待分类数据，输入至预设舆情分类模型中，最后根据该模型的输出确定待分类资讯文本对应的目标舆情类别，通过在待分类资讯文本上，添加标签信息和提示信息，使预设舆情分类模型在编码时，更关注资讯文本的舆情极性，从舆情极性的角度优化了模型输出结果，有效的提高了舆情分类效果。

可选的，所述提示信息中包括掩码，所述预设舆情分类模型的输出中包括所述掩码对应的掩码编码，所述掩码编码用于作为舆情类别判断依据的判断特征表示，所述预设舆情分类模型的输出中还包括所述标签信息中所述至少两种舆情类别分别对应的舆情标签编码，所述舆情标签编码用于作为舆情类别的类别特征表示。

具体的，提示信息中除了包括用于询问样本资讯文本的舆情类别的信息外，还可以包括掩码，将包含提示信息和标签信息的目标训练样本集，输入至预设舆情分类模型后，相应的，该预设舆情分类模型的会输出该掩码的编码，即掩码编码，以及标签的编码，即舆情标签编码。这样设置的好处在于，利用掩码编码和舆情标签编码的方式，可以让舆情分类模型更好的学习设定领域的词汇。

可选的，所述根据所述预设舆情分类模型的输出确定所述待分类资讯文本的舆情类别，包括：根据所述预设舆情分类模型输出的目标掩码编码和目标舆情标签编码确定至少两种所述舆情类别分别对应的预测值，得到预测值集合；将所述预设值集合中的最大预测值所对应的舆情类别，确定为所述待分类资讯文本对应的目标舆情类别。这样设置的好处在于，通过对预测值的计算，可以准确的得到待分类资讯文本对应的目标舆情类别。

具体的，可以利用预设方式，如利用相似度计算方式，计算目标掩码编码和目标舆情标签编码，从而得到预测值和预测值集合。

示例性的，预测值

的表达式可以表示为：

其中，arg表示复数辐角主值计算符号，max表示取最大值，n表示舆情类别种类，具体可以理解为舆情类别的序号，n的取值范围为1到nclass，比如1、2和3，C_I∈R^q,C_I表示第I个目标掩码编码，

表示第I个目标待分类数据的第n个舆情标签编码。

实施例四

图5为本发明实施例四提供的一种模型训练装置的结构示意图。如图5所示，该装置包括：训练样本获取模块401、目标训练样本确定模块402、目标损失关系确定模块403以及训练模块404，其中：

本发明实施例提供的模型训练装置，在获取了初始训练样本集后，在该初始训练样本中的样本资讯文本上，添加包含舆情类别的标签信息和用于询问舆情类别的提示信息，从而得到目标训练样本集，再将该目标训练样本集输入至舆情分类模型中，根据该模型的输出确定的目标损失关系，来训练舆情分类模型，通过添加标签信息和提示信息，增强了对训练样本的舆情极性的关注度，有效缓解训练样本标注不足的问题，避免了相似度高的文本难以区分舆情极性的问题，从舆情极性的角度优化了模型输出结果，使训练出的模型的舆情分类效果得到了提升。

可选的，所述提示信息中包括掩码，所述舆情分类模型的输出中包括所述掩码对应的掩码编码，所述掩码编码用于作为舆情类别判断依据的判断特征表示，所述舆情分类模型的输出中还包括所述标签信息中所述至少两种舆情类别分别对应的舆情标签编码，所述舆情标签编码用于作为舆情类别的类别特征表示；其中，所述目标损失关系基于预设对比损失函数确定，所述预设对比损失函数基于预设目标设定；所述预设目标包括：促使对应同一舆情类别的判断特征表示与类别特征表示接近，并促使对应不同舆情类别的判断特征表示与类别特征表示远离。

可选的，所述预设对比损失函数包括第一对比损失函数和第二对比损失函数；

其中，所述第一对比损失函数中，将所述目标训练样本集中的各目标训练样本依次确定为当前目标训练样本，当前目标训练样本的当前掩码编码和第一待对比舆情标签编码的相似度计算结果，与所述第一对比损失函数对应的损失关系的取值负相关，其中，所述第一待对比舆情标签编码为所述目标训练样本集中，除当前目标训练样本之外的，与当前目标训练样本对应同一舆情类别的目标训练样本的舆情标签编码；当前目标训练样本的当前掩码编码和第二待对比舆情标签编码的相似度计算结果，与所述第一对比损失函数对应的损失关系的取值正相关，其中，所述第二待对比舆情标签编码为所述目标训练样本集中，除当前目标训练样本之外的，与当前目标训练样本对应不同舆情类别的目标训练样本的舆情标签编码；

其中，所述第二对比损失函数中，将所述舆情分类模型输出的各舆情标签编码依次确定为当前舆情标签编码，当前舆情标签编码和第一待对比掩码编码的相似度计算结果，与所述第二对比损失函数对应的损失关系的取值负相关，其中，所述第一待对比掩码编码为所述目标训练样本集中，与当前舆情标签编码对应同一舆情类别的目标训练样本的掩码编码；当前舆情标签编码和第二待对比掩码编码的相似度计算结果，与所述第二对比损失函数对应的损失关系的取值正相关，其中，所述第二待对比掩码编码为所述目标训练样本集中，与当前舆情标签编码对应不同舆情类别的目标训练样本的舆情标签编码；

其中，所述相似度计算结果的取值越大，对应的接近程度越高。

可选的，目标损失关系确定模块，包括：

第一损失函数确定单元，用于根据所述舆情分类模型的输出确定预设对比损失函数和预设交叉熵损失函数；

第二损失函数确定单元，用于基于所述预设对比损失函数和所述预设交叉熵损失函数的加权和，确定目标损失函数；

本发明实施例所提供的模型训练装置可执行本发明任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6为本发明实施例四提供的一种信息分类装置的结构示意图。如图6所示，该装置包括：资讯文本获取模块501、信息添加模块502以及舆情类别确定模块503，其中：

资讯文本获取模块，用于获取待分类资讯文本；

舆情类别确定模块，用于将所述目标待分类数据输入至预设舆情分类模型中，根据所述预设舆情分类模型的输出确定所述待分类资讯文本对应的目标舆情类别，其中，所述预设舆情分类模型采用如所述的模型训练方法得到。

本发明实施例提供的信息分类装置，在待分类资讯文本的基础上，添加包含舆情类别的标签信息和用于询问舆情类别的提示信息，得到了目标待分类数据，再将该目标待分类数据，输入至预设舆情分类模型中，最后根据该模型的输出确定待分类资讯文本对应的目标舆情类别，通过在待分类资讯文本上，添加标签信息和提示信息，使预设舆情分类模型在编码时，更关注资讯文本的舆情极性，从舆情极性的角度优化了模型输出结果，有效的提高了舆情分类效果。

可选的，舆情类别确定模块，包括：

预测值确定单元，用于根据所述预设舆情分类模型输出的目标掩码编码和目标舆情标签编码确定至少两种所述舆情类别分别对应的预测值，得到预测值集合；

舆情类别确定单元，用于将所述预设值集合中的最大预测值所对应的舆情类别，确定为所述待分类资讯文本对应的目标舆情类别。

实施例六

图7为本发明实施例6提供的一种电子设备的结构示意图，如图7所示，该设备包括处理器601、存储器602、输入装置603和输出装置604；设备中处理器601的数量可以是一个或多个，图6中以一个处理器601为例；设备中的处理器601、存储器602、输入装置603和输出装置604可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器602作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的模型训练方法对应的模块(例如，模型训练装置中的训练样本获取模块401、目标训练样本确定模块402、目标损失关系确定模块403以及训练模块404)，和/或，本发明实施例中的信息分类方法对应的模块(例如，信息分类装置中的资讯文本获取模块501、信息添加模块502以及舆情类别确定模块503)。处理器601通过运行存储在存储器602中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的模型训练方法，和/或，信息分类方法。

存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器602可进一步包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置604可用于接收输入的数字或字符信息，以及产生与设备的训练样本、提示信息或标签信息有关的键信号输入。输出装置604可包括显示屏等显示设备。

实施例七

本发明实施例七还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时，用于执行一种模型训练方法，该方法包括：

获取初始训练样本集，其中，所述初始训练样本集中的初始训练样本中包括样本资讯文本；在所述初始训练样本中的样本资讯文本基础上，添加提示信息和标签信息，得到目标训练样本集，其中，所述提示信息用于询问所述样本资讯文本的舆情类别，所述标签信息中同时包含至少两种舆情类别；将所述目标训练样本集输入至舆情分类模型中，根据所述舆情分类模型的输出确定目标损失关系，其中，所述舆情分类模型基于双向语言表征转换模型BERT构建；根据所述目标损失关系对所述舆情分类模型进行训练。

和/或，所述计算机还可执行指令在由计算机处理器执行时，用于执行一种信息分类方法，该方法包括：获取待分类资讯文本；在所述待分类资讯文本基础上，添加提示信息和标签信息，得到目标待分类数据；将所述目标待分类数据输入至预设舆情分类模型中，根据所述预设舆情分类模型的输出确定所述待分类资讯文本对应的目标舆情类别，其中，所述预设舆情分类模型采用如所述的模型训练方法得到。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的模型训练方法，和/或，信息分类方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种模型训练方法，其特征在于，包括：

根据所述目标损失关系对所述舆情分类模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述提示信息中包括掩码，所述舆情分类模型的输出中包括所述掩码对应的掩码编码，所述掩码编码用于作为舆情类别判断依据的判断特征表示，所述舆情分类模型的输出中还包括所述标签信息中所述至少两种舆情类别分别对应的舆情标签编码，所述舆情标签编码用于作为舆情类别的类别特征表示；

其中，所述目标损失关系基于预设对比损失函数确定，所述预设对比损失函数基于预设目标设定；所述预设目标包括：促使对应同一舆情类别的判断特征表示与类别特征表示接近，并促使对应不同舆情类别的判断特征表示与类别特征表示远离。

3.根据权利要求2所述的方法，其特征在于，所述预设对比损失函数包括第一对比损失函数和第二对比损失函数；

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述舆情分类模型的输出确定目标损失关系，包括：

根据所述舆情分类模型的输出确定预设对比损失函数和预设交叉熵损失函数；

基于所述预设对比损失函数和所述预设交叉熵损失函数的加权和，确定目标损失函数；

5.一种信息分类方法，其特征在于，包括：

获取待分类资讯文本；

将所述目标待分类数据输入至预设舆情分类模型中，根据所述预设舆情分类模型的输出确定所述待分类资讯文本对应的目标舆情类别，其中，所述预设舆情分类模型采用如权利要求1-4任一所述的模型训练方法得到。

6.根据权利要求5所述的方法，其特征在于，所述提示信息中包括掩码，所述预设舆情分类模型的输出中包括所述掩码对应的掩码编码，所述掩码编码用于作为舆情类别判断依据的判断特征表示，所述预设舆情分类模型的输出中还包括所述标签信息中所述至少两种舆情类别分别对应的舆情标签编码，所述舆情标签编码用于作为舆情类别的类别特征表示；

所述根据所述预设舆情分类模型的输出确定所述待分类资讯文本的舆情类别，包括：

根据所述预设舆情分类模型输出的目标掩码编码和目标舆情标签编码确定至少两种所述舆情类别分别对应的预测值，得到预测值集合；

将所述预设值集合中的最大预测值所对应的舆情类别，确定为所述待分类资讯文本对应的目标舆情类别。

7.一种模型训练装置，其特征在于，包括：

8.一种信息分类装置，其特征在于，包括：

资讯文本获取模块，用于获取待分类资讯文本；

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的模型训练方法，和/或，实现如权利要求5-6中任一所述的信息分类方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的模型训练方法，和/或，实现如权利要求5-6中任一所述的信息分类方法。