CN116741369A

CN116741369A - 模型训练方法、装置、设备及存储介质

Info

Publication number: CN116741369A
Application number: CN202310728248.9A
Authority: CN
Inventors: 舒畅; 肖京; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-12

Abstract

本申请涉及人工智能技术领域，尤其涉及自然语言处理技术领域，提供一种模型训练方法、装置、设备及存储介质，包括：获取训练数据对，训练数据对包括第一文本数据和第二文本数据，第二文本数据由第一文本数据数据变形得到；编码训练数据对，得到第一句向量特征、第二句向量特征；解码第一句向量特征、第二句向量特征，并根据解码结果，计算第一损失值；对第一句向量特征、第二句向量特征进行聚类运算，并根据聚类运算结果计算第二损失值；通过第一损失值和第二损失值，更新模型参数，直至更新后的模型收敛。通过在文本分类模型训练中增加聚类计算等手段，提高模型表现效果。本申请可应用于智慧医疗领域，极大提高了对医疗相关文本数据的识别。

Description

模型训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域的自然语言处理技术领域，尤其涉及模型训练方法、文本分类方法、装置、设备及存储介质。

背景技术

随着互联网的高速发展和大数据时代的到来，文本分类等文本挖掘技术应用于越来越多的领域，例如医疗领域，医院会产生大量的门诊医疗电子病例和电子诊断书，通过文本分类等文本挖掘技术分析这些电子病例和电子诊断书，有利于辅助医院的医护人员更高效地进行诊断决策。

现有的文本分类技术一般是通过训练后的文本分类模型，实现对大量的半结构化、非结构化的文本数据进行分类处理。而基本的文本分类模型对数据进行分类处理的训练模式只涉及到认知层面的特征，导致训练的模型的表现效果一般。因此如何提高模型的表现效果成为亟需解决的问题。

发明内容

本申请的主要目的在于提供一种模型训练方法、装置、设备及存储介质，旨在提高模型表现效果。

第一方面，本申请提供一种模型训练方法，包括：

获取训练数据对，所述训练数据对包括第一文本数据和第二文本数据，所述第二文本数据是对所述第一文本数据进行数据变形而生成的；

对所述训练数据对进行编码，得到所述第一文本数据对应的第一句向量特征，以及所述第二文本数据对应的第二句向量特征；

将所述第一句向量特征、第二句向量特征进行解码，获取所述第一文本数据的第一预测值，以及所述第二文本数据的第二预测值；

根据所述第一预测值和第二预测值，计算文本分类模型的第一损失值；

对所述第一句向量特征、第二句向量特征进行聚类运算，以获取所述第一文本数据对应的第一聚类权重，以及所述第二文本数据对应的第二聚类权重；

根据所述第一聚类权重和第二聚类权重，计算所述文本分类模型的第二损失值；

通过所述第一损失值和第二损失值，更新所述文本分类模型的模型参数，直至更新后的所述文本分类模型收敛。

第二方面，本申请还提供一种文本分类方法，所述文本分类方法包括：

获取目标文本数据；

将所述目标文本输入训练好的文本分类模型，输出所述目标文本对应的目标分类结果，其中，所述文本分类模型是采用如本申请实施例所述的模型训练方法进行训练得到的。

第三方面，本申请还提供一种文本分类装置，所述文本分类装置包括：

获取模块，用于获取训练数据对，所述训练数据对包括第一文本数据和第二文本数据，所述第二文本数据是对所述第一文本数据进行数据变形而生成的；

编码模块，用于对所述训练数据对进行编码，得到所述第一文本数据对应的第一句向量特征，以及所述第二文本数据对应的第二句向量特征；

解码模块，用于对所述第一句向量特征、第二句向量特征进行解码，获得所述第一文本数据对应的第一预测值，以及所述第二文本数据对应的第二预测值；

计算模块，用于根据所述第一预测值和第二预测值，计算文本分类模型的第一损失值；

聚类模块，用于对所述第一句向量特征、第二句向量特征进行聚类运算，以获取所述所述第一句向量特征对应的第一聚类权重，以及所述第二句向量特征对应的第二聚类权重；

所述计算模块，还用于根据所述第一聚类权重和第二聚类权重，计算文本分类模型的第二损失值；

更新模块，用于根据所述第一损失值、第二损失值，更新所述文本分类模型的模型参数，直至更新后的所述文本分类模型收敛。

第四方面，本申请还提供一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述模型训练方法，或者实现如上述的文本分类方法。

第五方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的模型训练方法，或者实现上述的文本分类方法。

本申请提供一种模型训练方法、文本分类方法、装置、设备及存储介质。首先获取训练数据对，训练数据对包括第一文本数据和第二文本数据，其中第二文本数据是对第一文本数据进行数据变形而生成的。然后对训练数据对进行编码，得到第一文本数据对应的第一句向量特征，以及第二文本数据对应的第二句向量特征。将第一句向量特征、第二句向量特征进行解码，获取第一文本数据的第一预测值，以及第二文本数据的第二预测值；再根据第一预测值和第二预测值，计算文本分类模型的第一损失值，并对第一句向量特征、第二句向量特征进行聚类运算，以获取第一文本数据对应的第一聚类权重，以及第二文本数据对应的第二聚类权重；而后根据第一聚类权重和第二聚类权重，计算文本分类模型的第二损失值；最后通过第一损失值和第二损失值，更新文本分类模型的模型参数，直至更新后的文本分类模型收敛。

本申请提供的模型训练方法，通过第一文本数据和第二文本数据组成的训练数据对进行文本分类模型的模型训练，使得模型参数的更新准确度更高，能够提高文本分类模型的训练效果。并且，通过在文本分类模型的训练过程添加聚类运算，将文本分类特征与文本聚类特征相融合，使模型能够更准确的学习到出文本数据内在特征，并使得模型输出结果能够更全面地反映出输入数据的语义信息和结构信息，从而能够显著提高文本分类模型的表现效果。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种模型训练方法的步骤流程示意图；

图2是本申请实施例提供的一种文本模型训练方法中的损失值计算过程的示意图；

图3是图1提供的模型训练方法中的一子步骤流程示意图；

图4是图1提供的模型训练方法中的另一子步骤流程示意图；

图5是本申请实施例提供的一种文本分类方法的步骤流程示意图；

图6是本申请实施例提供的一种文本分类装置的结构示意性框图；

图7是本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

文本分类是自然语言处理的范畴之一，它是利用机器学习或深度学习的方法，对文本按照一定的体系或者标准进行自动分类标记。文本分类的目标是计算机通过机器学习具有像人类一样对输入的内容识别分析，理解其中的含义。文本分类任务的目标是利用不同的算法来学习文本和类别之间的映射关系，然后根据学习到的关系对新的文本进行预测和评估。现有的文本分类技术一般是通过训练后的文本分类模型，实现对大量的半结构化、非结构化的文本数据进行分类处理。而基本的文本分类模型对数据进行分类处理的训练模式只涉及到认知层面的特征，导致训练的模型的表现效果一般。

为解决上述问题，本申请实施例提供一种模型训练方法、文本分类方法、装置、设备及存储介质，旨在提高训练的模型的表现效果。其中，该模型训练方法可应用于计算机设备，该计算机设备包括终端设备或服务器中，该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备；该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。以下以该模型训练方法应用于终端设备为例进行解释说明。

请参照图1，图1为本申请实施例提供的一种模型训练方法的步骤流程示意图。

如图1所示，该模型训练方法包括步骤S101至步骤S107。

步骤S101、获取训练数据对，训练数据对包括第一文本数据和第二文本数据，第二文本数据是对第一文本数据进行数据变形而生成的。

在一实施例中，在训练数据集中随机抽取一条文本数据，将文本数据作为第一文本数据，对第一文本数据做变形处理，得到文本数据记为第二文本数据，将第一文本数据与第二文本数据组成一组训练数据对。

其中，训练数据集是预先设置用来训练模型的数据集合，包含多条文本数据。其中，文本数据是用来训练模型的数据，其具体为包含一条或多条句子的文本数据，文本数据可以包括汉字、字母、符号、数字等字符。训练数据对可以是一个或多个，训练数据对中的第一文本数据与第二文本数据存在对应关系。

其中，变形处理包括但不限于，删除第一文本数据中的至少一个字符、调整第一文本数据中的字符排列顺序、向第一文本数据增加至少一个字符等。变形处理还可以包括，对第一文本数据中的至少一个词语进行替换等，本申请实施例对此不做具体限定。

示例性的，x1＝“流行感冒”为第一文本数据，通过随机删除x1中的一个词语得到的x2＝“流行冒”为第二文本数据，将x1，x2组成一组训练数据对D＝{x1，x2}。示例性的，x3＝“流行感冒”为第一文本数据，通过重组顺序x1中的一个词语得到的x4＝“流感行冒”为第二文本数据，将x1，x2组成一组训练数据对D＝{x3，x4}。

步骤S102、对训练数据对进行编码，得到第一文本数据对应的第一句向量特征，以及第二文本数据对应的第二句向量特征。

在一实施例中，对训练数据进行编码，可以包括多个步骤。具体的，首先对第一文本数据文本数据预处理，然后将第一文本数据文本数据预处理之后的数据输入编码器中，对第一文本数据文本进行特征向量提取，在编码器的输出结果中选择第一文本数据文本对应的句向量特征作为第一句向量特征。

可以理解的，获取第二文本数据对应的句向量特征作为第二句向量特征的实施方式可以参照第一文本数据对应的句向量特征作为第一句向量特征的上述实施方式，本申请实施例对此不再赘述。

在一实施例中，对第一文本数据、第二文本数据进行数据预处理，可以包括：分词、添加标记、词向量化等操作。具体的，对第一文本数据添进行分词处理，将文本数据完整的句子切片拆分成单独词语。为第一文本数据数据添加标记，将第一文本数据文本数据的每个句子的开头插入一个[CLS]标记，用于模型中的分类任务，在多个句子之间添加一个[SEP]标记，用于区分它们。对第一文本数据词向量化，将第一文本数据中每个单独词语和标记转换为它在预设训练模型中对应的唯一id，词向量化的目的将词语转化成可计算的形态。同样的对第二文本数据进行上述操作。

示例性的，第一文本数据x1＝“流行性感冒”分词处理后得到x1＝{“流”,“行”,“感”,“冒”,}为，往x1添加标记得到x1＝{“[CLS]”,“流”,“行”,“感”,“冒”,”[SEP]”}，x2＝{“[CLS]”,“流”,“行”,“感”,”[SEP]”}，根据在预设模型对应的唯一id进行词数值化，得到x1＝{“0.1”,“0.2”,“0.3”,“0.4”,”0.5”}，同理对第二文本数据进行数值化可得x2＝{“0.1”,“0.2”,“0.3”,”0.5”}。

在一实施例中，将第一文本数据、第二文本数据预处理之后的数据输入编码器中，对第一文本数据、第二文本数据进行特征向量提取得到对第一文本数据、第二文本数据对应的多个特征向量，在多个特征向量中选择第一文本数据、第二文本数据对应的句向量特征作为第一句向量特征和第二句向量特征。其中，特征向量代表着文本数据的含义和位置，句向量特征代表着整个文本数据的文本特征。

具体的，对预处理之后的第一文本数据、第二文本数据输入到编码器中进行特征向量提取，得到相对应多个词向量特征，选择其中的CLS向量作为文本数据的句向量特征。其中CLS向量代表着融合了文本数据中各个词语的语义信息。其中，编码器负责的将输入文本数据中的每个单词转换成一个向量表示，这个向量表示代表着词语的意义和词语在句中的位置。其中编码器可有多种，例如BERT编码器，Transform编码器等。

示例性的，以Transform编码器处理第一文本数据为例，Transform编码器中包含多个编码块。每个编码块包含两个子层：多头自注意力层和前馈神经层。多头注意力层将第一文本数据中每个单词之间的相关性给予不同的权重，并将结果拼接起来，得到第一文本数据的词向量矩阵，并输入前馈神经网络，前馈神经网络对结果进行非线性变换，输出第一文本数据对应的多个特征向量。同理对预处理过的第二文本数据进行上述处理得到第二文本数据对应的多个特征向量。

步骤S103、将第一句向量特征、第二句向量特征进行解码，获取第一文本数据的第一预测值，以及第二文本数据的第二预测值。

在一实施例中，将第一句向量特征、第二句向量特征输入解码器中，通过解码器将第一句向量特征和第二句向量特征还原成输入时的文本数值，获取第一文本数据的第一预测值，以及第二文本数据的第二预测值。其中，解码器可以有多种，例如BERT解码器。

示例性的，以BERT解码器为例，将第一句向量特征输入BERT解码器。BERT解码器首先通过第一句向量特征计算待输出的每个字符的概率分布，根据概率分布选择最大概率的字符生成结果，并添加到第一预测值中，根据第一预测值的前一个字符根据概率生成下一个字符，重复步骤，直到将第一预测值所有的字符输出完毕。

可以理解的，获取第二文本数据的第二预测值的实施方式可以参照第一文本数据的第一预测值的上述实施方式，本申请实施例对此不再赘述。

步骤S104、根据第一预测值和第二预测值，计算文本分类模型的第一损失值。

在一实施例中，获取第一文本数据的真实值以及第二文本数据的真实值；将第一文本数据的真实值和第一预测值输入预设交叉熵损失函数进行计算，得到第一文本数据对应的损失值；将第二文本数据的真实值和第二预测值输入预设交叉熵损失函数进行计算，得到第二文本数据对应的损失值；然后将第一文本数据对应的损失值和第二文本数据对应的损失值进行平均值计算，得到文本分类模型的第一损失值。

其中，文本数据的真实值为对文本数据进行预处理之后的数据。交叉熵损失值用于衡量预测值分布和真实值分布之间的差异，它越小表示预测越准确。预测值越准确表示模型对文本分类的能力就越准确，训练效果越好。

需要说明的是，通过计算交叉熵得到的第一损失值，可以准确的判断本次训练模型的效果，对后续的模型进行更加精准的调整，产生更好训练效果。

示例性的，交叉熵损失函数公式为：

其中，L为交叉熵损失值，N表示样本总数量，i表示N个样本中的第i个样本，yi表示第i个样本的真实值，pi表示第i个样本的预测值。

假设只有一个样本，第一文本数据的真实值为0.8，第一文本数据的预测值为0.7，则损失值为L＝-0.8*log(0.7)-(1-0.8)*log(1-0.7)L＝0.61。

步骤S105、对第一句向量特征、第二句向量特征进行聚类运算，以获取第一文本数据对应的第一聚类权重，以及第二文本数据对应的第二聚类权重。

其中，聚类运算通过计算将第一句向量特征、第二句向量特征预设类别的相关程度。预设类别是预设的句向量特征类别，被划分在同一句向量特征类内的句向量特征有着相同或相似的属性。

在一实施例中，如图3所示，步骤105可以包括子步骤S1051和子步骤S1052。

子步骤S1051、将第一句向量特征、第二句向量特征分别输入多个预设类别的注意力层进行聚类运算，得到第一句向量特征对应的多个预设类别的第一注意力数值，以及第二句向量特征对应的多个预设类别的第二注意力数值。

在一实施例中，将第一句向量特征、第二句向量特征分别输入多个预设类别的注意力层进行聚类运算，得到多个相应的第一注意数值、第二注意力数值。

其中，预设类别的注意力层用于计算向量特征和预设类别的关系程度，具体表现形式为权重矩阵，矩阵的维度和句向量特征维度一致。第一注意数值、第二注意力数值是通过计算句向量特征与权重矩阵的乘积得到的。第一注意数值、第二注意力数值代表着句向量特征与类别的相关程度。

具体的，将第一句向量特征、第二句向量特征进行聚类运算，即将第一句向量特征、第二句向量特征与多个预设类别的注意力层的权重矩阵做矩阵相乘计算，得到多个第一句向量特征、第二句向量特征对应的多个预设类别的注意力数值。

示例性的，假设有3个句向量特征类别A、B、C，将第一句向量特征与每个句向量特征类别的权重矩阵做乘积运算，得到三个注意力数值，表示第一句向量特征对应的第一文本数据与各个类别之间的相关性。例如，第一句向量特征经过聚类运算之后得到注意力数值为：[0.8,0.1,0.1]表示第一句向量和类别A最相关，和类别B、C不太相关。根据这些注意力数值，可以判断两个句子是否属于同一个或者相似的语义类别。同理，将第二句向量特征根据上述操作得到第二句向量特征对应的三个注意力数值。

子步骤S1052、根据多个预设类别的第一注意力数值，计算第一文本数据对应的第一聚类权重；

在一实施例中，从多个预设类别的第一注意力数值中确定最大的第一注意力数值；计算多个第一注意力数值的总和，得到第一总和；计算最大的第一注意力数值与第一总和的比值，得到文本数据对应的第一聚类权重。同理可得文本数据对应的第二聚类权重。

其中，第一聚类权重表示文本数据于预设类别的相关性，权重越大，相关程度越大。需要说明的是，通过计算第一聚类权重，可以在训练过程中加强数据特征和类别之间的相关性，提高模型对数据类别联系的识别准确度，提高训练模型的表现效果。

示例性的，计算第一聚类权重表达式为：

其中wxp(q_max)表示以自然常数e为底、以q_max为指数的函数，q_max为多个预设类别对应注意力数值中最大的第一注意力数值，表示n预设类别的注意力数值进行指数函数计算，并将所有结果进行累加，p是聚类权重。

具体的，从多个预设类别的第一注意力数值中选择最大的第一注意力数值作为q_max代入公式中，将多个预设类别的第一注意力数值作为p代入公式中，计算公式结果得到p，即第一聚类权重。

需要说明的是，通过以上公式可以将第一聚类权重转换为0到1之间的概率值，并且保证所有概率值之和为1，能够更加精准的得到聚类权重，提高聚类的效果。

子步骤S1053、根据多个预设类别的第二注意力数值，计算第二文本数据对应的第二聚类权重。

在一实施例中，从多个预设类别的第二注意力数值中确定最大的第二注意力数值；计算多个第二注意力数值的总和，得到第二总和；计算最大的第二注意力数值与第二总和的比值，得到文本数据对应的第二聚类权重。

可以理解的，获取第二文本数据的第二聚类权重的实施方式可以参照第一文本数据的第一聚类权重的上述实施方式，本申请实施例对此不再赘述。

步骤S106、根据第一聚类权重和第二聚类权重，计算文本分类模型的第二损失值。

其中，文本分类模型的第二损失值，是将第一句向量特征、第二句向量特征通过聚类运算得到的损失值。需要说明的是，通过聚类运算得到损失值，将聚类模型的特征与文本分类模型通过第一句向量特征、第二句向量特征联系起来，提高分类模型的特征和聚类模型的特征融合程度。

在一实施例中，如图4所示，步骤106可以包括子步骤S1061和子步骤S1062。其中，第一文本数据和第二文本数据可以为一个或多个，第一文本数据和第二文本数据的数量相同。

子步骤S1061、计算多个第一聚类权重的总和，得到权重总和；分别计算多个第一聚类权重与权重总和的比值，得到多个第一文本数据的聚类权重比值。

示例性的，计算第一文本聚类权重比为，计算聚类权重比的公式为：

其中，k表示个k类别，j表示第j个类别，f_j＝∑_ip_ij表示将所述于第j个类别的第一权重值累加，p_ij表示p_i属于第j类中的第一聚类权重，p_i表示第i个样本的第一聚类权重，表示p_ij在所在类的权重，/>表示k个p_ij在p_ij所在类的总和。q表示聚类权重比值，它表示文本数据和类别之间的相对密度，q越大则代表p_ij对应的文本数据与类别之间联系越紧密。

举个例子，假设有A，B二个类别，一共有3个文本数据对，对应的第一文本聚类权重分别是p1＝0.6，p2＝0.7，p3＝0.8，并且p1，p2属于A类别，p2属于B类别，则p1对应的第一聚类权重比值q1＝0.6^2/(0.6+0.7)/(0.6^2/(0.6+0.7)+0.7^2/(0.6+0.7)+0.8^2/(0.8))＝0.0923，同理可得q2＝0.1256，q3＝0.2133。

需要说明的是，通过计算聚类权重比，能够更精确的描述文本数据与类别之间相关性，根据计算结果能够更加精准调试模型的类别相关参数，达到更好训练效果。

子步骤S1062、将多个聚类权重比和各自对应的第二聚类权重分别输入至预设损失函数进行计算，得到多个聚类损失值；计算多个聚类损失值的平均值，并将平均值作为文本分类模型的第二损失值。

在一实施例中，将多个聚类权重比和各自对应的第二聚类权重分别输入至预设损失函数进行计算，得到多个聚类损失值。预设损失函数可以根据不同的任务情况选择。

示例性的，交叉熵损失函数公式为：

L为交叉熵损失值，N表示有N个样本，，i表示所属于N个样本中第i个样本，yi表示第i个样本的真实值，pi表示第i个样本的预测值。

在一实施例中，计算多个聚类损失值的平均值，并将平均值作为文本分类模型的第二损失值。将多个根据聚类权重比和各自对应的第二聚类权重计算得到的对应损失进行累加得到损失值总和，对损失值总和进行平均值计算，得到文本分类模型的第二损失值。

步骤S107、通过第一损失值和第二损失值，更新文本分类模型的模型参数，直至更新后的文本分类模型收敛。

本申请实施例可以基于机器学习技术对文本分类相关的文本训练集以及医疗领域相关训练文本，例如电子病例，诊疗书等进行获取和处理。其中，机器学习是人工智能和计算机科学的分支，专注于使用数据和算法来模拟人类学习的方式，通过对训练数据大量进行大量学习训练，逐渐提高其对知识的感知、识别或应用的准确性。在医疗领域可以分析电子病例，诊断书等文件，有利于辅助医院的医护人员更高效地进行诊断决策。

需要说明的是，根据第一损失和第二损失值，更新文本分类模型的参数，根据分类计算得到第二损失值，和根据聚类计算得到的第二损失值，共同更新文本分类模型的参数，可以将分类计算所包含的分类特征和聚类计算所包含的聚类特征相互融合共同对模型训练产生影响，使两者的特征能够融合的更加紧密，进一步提高模型的表现效果。

在一实施例中，通过第一损失值和第二损失计算模型总损失，根据总损失值反向计算模型中每个参数的梯度值，通过梯度下降进行参数更新，更新模型参数后，对模型进行迭代训练，直至文本分类模型收敛。

在一实施例中，通过第一损失值和第二损失计算模型总损失，包括：计算第一损失值和第一预设权重的第一乘积；计算第二损失值和第二预设权重的乘积的第二乘积；计算第一乘积与第二乘积的总和，得到模型总损失。

具体的，总损失值为第一损失值和第一预设权重的乘积，和第二损失值和第二预设权重的乘积的总和，其中，第一预设权重和第二权重的总和为1。具体的，计算总损失值的公式为：L_full＝λ·L₁+(1-λ)·L₂其中，L_full表示为总损失值，L₁为第一损失值，λ为第一预设权重，(1-λ)为第二预设权重。

在一实施例中，根据总损失值反向计算模型中每个参数的梯度值，通过梯度下降进行参数更新，更新模型参数后，对模型进行迭代训练，直至文本分类模型收敛。

具体的，根据总损失值反向计算模型中每个参数的梯度值，即计算损失函数对于每个参数的偏导数。梯度值表示了损失函数在该参数方向上变化的速率和方向。按照梯度值的反方向对每个参数进行一定比例(学习率)的调整。这样可以使得损失函数在下一次迭代时更接近最小值。更新模型参数后，使用新的参数对训练数据进行预测和分类，并计算新的损失值。直至文本分类模型收敛，即损失值不再显著下降或达到预设的阈值或次数。此时认为模型已经找到了最优的参数和分类效果。

上述实施例中，本申请提供的模型训练方法，通过第一文本数据和第二文本数据组成的训练数据对进行文本分类模型的模型训练，使得模型参数的更新准确度更高，能够提高文本分类模型的训练效果。并且，通过在文本分类模型的训练过程添加聚类运算，将文本分类特征与文本聚类特征相融合，使模型能够更准确的学习到出文本数据内在特征，并使得模型输出结果能够更全面地反映出输入数据的语义信息和结构信息，从而能够显著提高文本分类模型的表现效果。

并且，在文本分类模型训练过程中只包含一个模型，无须引用新模型增加操作，减少了文本分类模型训练时间和后期维护的成本。同时在文本分类模型训练过程中，聚类运算和分类运算同时训练，相互影响，可以将更多的感知和认知特征进行融合，达到更好的效果。

请参阅图2，图2是本申请实施例提供的一种模型训练方法中总损失值计算过程的示意图。如图2所示，获取训练数据对，训练数据对包括第一文本数据和第二文本数据，第二文本数据是对第一文本数据进行数据变形而生成的；对训练数据对进行编码，得到第一文本数据对应的第一句向量特征，以及第二文本数据对应的第二句向量特征；将第一句向量特征、第二句向量特征进行解码，获取第一文本数据的第一预测值，以及第二文本数据的第二预测值；根据第一预测值和第二预测值，计算文本分类模型的第一损失值；对第一句向量特征、第二句向量特征进行聚类运算，以获取第一文本数据对应的第一聚类权重，以及第二文本数据对应的第二聚类权重；根据第一聚类权重和第二聚类权重，计算文本分类模型的第二损失值；通过第一损失值和第二损失值，更新文本分类模型的模型参数，直至更新后的文本分类模型收敛。

请参阅图5，图5是本申请一实施例提供的文本分类方法的流程示意图。该方法可以应用于计算机设备中，本申请中对该方法的应用场景不做限定。下面以该文本分类方法应用于计算机设备中为例，对该文本分类方法进行详细介绍。

其中，调用的文本分类模型为通过上述实施例中的文本分类方法训练得到的文本分类模型。

如图4所示，该文本方法具体包括步骤S301至步骤S302。

S301、获取目标文本数据；

针对于文本分类任务，获取文本分类任务对应的目标文本。其中，目标文本为待进行分类的文本。

S302、将所述目标文本输入训练好的文本分类模型，输出所述目标文本对应的目标分类结果。

示例性的，将目标文本输入训练好的文本分类模型，如文本自编码模型，计算目标文本与各个类别之间相关性的概率，选取其中与目标文本相关性概率值最大的类别，作为最终输出。也即将目标文本与最接近的类别作为最终的输出答案。

该实施例中通过获取文本分类任务对应的目标文本，将目标文本输入通过上述实施例的文本模型训练方法得到文本分类模型，输出目标文本对应的类别。通过在训练过程中对分类模型增加聚类模块，为文本分类模型增加了感知层面的特性，使训练得的模型表现更好，提高了训练模型的效果。

请参阅图6，图6是本申请的实施例提供的一种神经网络模型训练装置的示意性框图，该神经网络模型训练装置可以配置于计算机设备中，用于执行前述的神经网络模型训练方法。

如图6所示，该文本分类装置1000，包括：获取模块1001、编码模块1002、解码模块1003、计算模块1004、聚类模块1005以及更新模块1006。

获取模块1001，用于获取训练数据对，所述训练数据对包括第一文本数据和第二文本数据，所述第二文本数据是对所述第一文本数据进行数据变形而生成的；

编码模块1002，用于对所述训练数据对进行编码，得到所述第一文本数据对应的第一句向量特征，以及所述第二文本数据对应的第二句向量特征；

解码模块1003，用于对所述第一句向量特征、第二句向量特征进行解码，获得所述第一文本数据对应的第一预测值，以及所述第二文本数据对应的第二预测值；

计算模块1004，用于根据所述第一预测值和第二预测值，计算文本分类模型的第一损失值；

聚类模块1005，用于对所述第一句向量特征、第二句向量特征进行聚类运算，以获取所述所述第一句向量特征对应的第一聚类权重，以及所述第二句向量特征对应的第二聚类权重；

所述计算模块1003，还用于根据所述第一聚类权重和第二聚类权重，计算文本分类模型的第二损失值；

更新模块1006，用于根据所述第一损失值、第二损失值，更新所述文本分类模型的模型参数，直至更新后的所述文本分类模型收敛。

在一实施例中，所述聚类模块1005还用于：

将所述第一句向量特征、所述第二句向量特征分别输入多个预设类别的注意力层进行聚类运算，得到所述第一句向量特征对应的多个预设类别的第一注意力数值，以及所述第二句向量特征对应的多个预设类别的第二注意力数值；根据所述多个预设类别的第一注意力数值，计算所述第一文本数据对应的第一聚类权重；根据所述多个预设类别的第二注意力数值，计算所述第二文本数据对应的第二聚类权重。

在一实施例中，所述聚类模块1005还用于：

从所述多个预设类别的第一注意力数值中确定最大的第一注意力数值；计算多个所述第一注意力数值的总和，得到第一总和；计算所述最大的第一注意力数值与所述第一总和的比值，得到所述文本数据对应的第一聚类权重。

在一实施例中，所述计算模块1003还用于：

获取多个所述第一文本数据的第一聚类权重，并获取多个所述第二文本数据的第二聚类权重；根据多个所述第一聚类权重，确定多个所述第一文本数据的聚类权重比；根据多个所述聚类权重比和多个所述第二聚类权重，计算所述文本分类模型的第二损失值。

在一实施例中，所述计算模块1003还用于：

计算多个所述第一聚类权重的总和，得到权重总和；分别计算多个所述第一聚类权重与所述权重总和的比值，得到多个所述第一文本数据的聚类权重比值。

在一实施例中，所述计算模块1003还用于：

将多个所述聚类权重比和各自对应的第二聚类权重分别输入至预设损失函数进行计算，得到多个聚类损失值；计算所述多个聚类损失值的平均值，并将所述平均值作为所述文本分类模型的第二损失值。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述模型训练方法实施例中的对应过程，在此不再赘述。

示例性的，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本申请实施例提供的一种计算机设备的结构示意性框图。

请参阅图7，该计算机设备包括通过系统总线连接的处理器和存储器，其中，存储器可以包括非易失性存储介质和内存储器。处理器用于提供计算和控制能力，支撑整个计算机设备的运行。内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种神经网络模型训练方法或神经网络模型调用方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取训练数据对，所述训练数据对包括第一文本数据和第二文本数据，所述第二文本数据是对所述第一文本数据进行数据变形而生成的；对所述训练数据对进行编码，得到所述第一文本数据对应的第一句向量特征，以及所述第二文本数据对应的第二句向量特征；将所述第一句向量特征、第二句向量特征进行解码，获取所述第一文本数据的第一预测值，以及所述第二文本数据的第二预测值；根据所述第一预测值和第二预测值，计算文本分类模型的第一损失值；对所述第一句向量特征、第二句向量特征进行聚类运算，以获取所述第一文本数据对应的第一聚类权重，以及所述第二文本数据对应的第二聚类权重；根据所述第一聚类权重和第二聚类权重，计算所述文本分类模型的第二损失值；通过所述第一损失值和第二损失值，更新所述文本分类模型的模型参数，直至更新后的所述文本分类模型收敛。

在一实施例中，所述处理器在实现所述第一句向量特征、第二句向量特征进行聚类运算，以获取所述第一文本数据对应的第一聚类权重，以及所述第二文本数据对应的第二聚类权重时，用于实现：

在一实施例中，所述处理器在实现所述根据所述多个预设类别的第一注意力数值，计算所述第一文本数据对应的第一聚类权重时，用于实现：

在一实施例中，所述处理器在实现所述第一文本数据和所述第二文本数据均为多个；所述根据所述第一聚类权重和第二聚类权重，计算所述文本分类模型的第二损失值时，用于实现：

在一实施例中，所述处理器在实现根据多个所述第一聚类权重，确定多个所述第一文本数据的聚类权重比时，用于实现：

在一实施例中，所述处理器在实现述根据多个所述聚类权重比和多个所述第二聚类权重，计算所述文本分类模型的第二损失值时，用于实现：

将多个所述聚类权重比和各自对应的第二聚类权重分别输入至预设损失函数进行计算，得到多个聚类损失值；

计算所述多个聚类损失值的平均值，并将所述平均值作为所述文本分类模型的第二损失值。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项模型训练方法或文本分类方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard，SMC)，安全数字卡(Secure Digital Card，SD Card)，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请的方法、装置可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

2.如权利要求1中所述的模型训练方法，其特征在于，所述对所述第一句向量特征、第二句向量特征进行聚类运算，以获取所述第一文本数据对应的第一聚类权重，以及所述第二文本数据对应的第二聚类权重，包括：

将所述第一句向量特征、所述第二句向量特征分别输入多个预设类别的注意力层进行聚类运算，得到所述第一句向量特征对应的多个预设类别的第一注意力数值，以及所述第二句向量特征对应的多个预设类别的第二注意力数值；

根据所述多个预设类别的第一注意力数值，计算所述第一文本数据对应的第一聚类权重；

根据所述多个预设类别的第二注意力数值，计算所述第二文本数据对应的第二聚类权重。

3.如权利要求2所述的模型训练方法，其特征在于，所述根据所述多个预设类别的第一注意力数值，计算所述第一文本数据对应的第一聚类权重，包括：

从所述多个预设类别的第一注意力数值中确定最大的第一注意力数值；

计算多个所述第一注意力数值的总和，得到第一总和；

计算所述最大的第一注意力数值与所述第一总和的比值，得到所述文本数据对应的第一聚类权重。

4.如权利要求1-3任一项所述的模型训练方法，其特征在于，所述第一文本数据和所述第二文本数据均为多个；

所述根据所述第一聚类权重和第二聚类权重，计算所述文本分类模型的第二损失值，包括：

获取多个所述第一文本数据的第一聚类权重，并获取多个所述第二文本数据的第二聚类权重；

根据多个所述第一聚类权重，确定多个所述第一文本数据的聚类权重比；

根据多个所述聚类权重比和多个所述第二聚类权重，计算所述文本分类模型的第二损失值。

5.如权利要求4所述的模型训练方法，其特征在于，所述根据多个所述第一聚类权重，确定多个所述第一文本数据的聚类权重比，包括：

计算多个所述第一聚类权重的总和，得到权重总和；

分别计算多个所述第一聚类权重与所述权重总和的比值，得到多个所述第一文本数据的聚类权重比值。

6.如权利要求4所述的模型训练方法，其特征在于，所述根据多个所述聚类权重比和多个所述第二聚类权重，计算所述文本分类模型的第二损失值，包括：

7.一种文本分类方法，其特征在于，包括：

获取目标文本数据；

将所述目标文本输入训练好的文本分类模型，输出所述目标文本对应的目标分类结果，其中，所述文本分类模型是采用如权利要求1至6中任一项所述的模型训练方法进行训练得到的。

8.一种文本分类装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至6任一项所述的模型训练方法，或者实现如权利要求7所述的文本分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至6任一项所述的模型训练方法，或者实现如权利要求7所述的文本分类方法。