CN113360644A

CN113360644A - 文本模型再训练的方法、装置、设备及存储介质

Info

Publication number: CN113360644A
Application number: CN202110587698.1A
Authority: CN
Inventors: 黄海龙
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-07
Anticipated expiration: 2041-05-27
Also published as: CN113360644B

Abstract

本发明提供了一种文本模型再训练的方法、装置、设备及存储介质，包括：获取各所述弱标注的依据信息；根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签；将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，并根据所述损失值调整所述文本模型中的参数。本发明的有益效果：根据弱标注的损失值以及依据信息拟合目标标签作为无标数据在文本模型中的输出，由于目标标签中目标标签只是对原模型的概率分布进行了调整，故而使误差不会累计，减少了再训练后的文本模型存在识别偏差的概率，使再训练的文本模型更加精确。

Description

文本模型再训练的方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，特别涉及一种文本模型再训练的方法、装置、设备及存储介质。

背景技术

为了提高文本模型弱标注的精确度，一般需要对训练好的文本模型进行再训练，以达到使模型更加精确的效果，目前自动再训练的方法主要是通过计算当前的损失值，并利用当前得到的弱标注和损失值对文本模型进行再训练，然这种再训练方式会随着文本模型不断的迭代训练，使得误差会不断积累，从而对文本模型造成识别偏差的问题。

发明内容

本发明的主要目的为提供一种文本模型再训练的方法、装置、设备及存储介质，旨在解决利用当前得到的弱标注和损失值对文本模型进行再训练，导致再训练后的文本模型存在识别偏差的问题。

本发明提供了一种文本模型再训练的方法，包括：

获取训练后的文本模型，对无标数据集合中的每个无标数据进行弱标注，并获取各所述弱标注的依据信息；其中，所述依据信息为无标数据在所述训练后的文本模型中的各预设类别的概率分布；

根据所述依据信息计算每一个所述弱标注的第一预测置信度；

判断所述第一预测置信度是否大于预设置信度值；

若大于所述预设置信度值，则计算所述目标弱标注的损失值，以及根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签；

将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练。

进一步地，所述根据所述依据信息计算每一个所述弱标注的第一预测置信度的步骤，包括：

从所述依据信息中提取所述无标数据在所述文本模型中各个类别的概率；

根据公式

计算所述第一预测置信度；其中，E表示所述第一预测置信度，p_i表示第i个所述无标数据在所述文本模型中对应弱标注的概率，n表示所述无标数据集合的无标数据数量。

进一步地，所述计算所述目标弱标注的损失值的步骤，包括：

获取所述无标数据集合中每个所述目标弱标注对应的所述无标数据的数据向量；

根据所述数据向量计算每两个所述数据向量之间的欧式距离；

根据所述欧式距离以及公式

计算所述损失值，其中

d_ij表示第i个无标数据和第j个无标数据对应数据向量之间的欧式距离，V_i表示第i个数据对应的数据向量，V_j表示第j个数据对应的数据向量，

γ为常数，max(0，γ-d_ij)表示两者之间的最大值。

进一步地，所述将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练的步骤之后，还包括：

根据再训练后的所述文本模型对所述无标数据集合进行弱标注，并获取当前所述文本模型进行弱标注的依据信息；

根据当前所述文本模型进行弱标注的依据信息计算所述弱标注的第二预测置信度；

判断所述第二预测置信度是否大于预设置信度值；

若所述第二预测置信度不大于所述预设置信度值，则判定所述文本模型再训练完成。

进一步地，所述根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签的步骤，包括：

从所述依据信息中，获取所述无标数据集合中每个所述无标数据的概率分布；

将各所述无标数据对应的概率分布输入至公式

中，得到各所述无标数据对应的目标标签；其中，

表示第i个无标数据对应的目标标签，[f(x；θ]_ij表示模型第i个无标数据在第t类的概率，

其中，β为所述无标数据集合，

表示所述无标数据集合中的一个无标数据。

进一步地，所述对无标数据集合中的每个无标数据进行弱标注的步骤，包括：

通过预测模型预测预设词库中的各个词替换各所述无标数据的概率；

根据所述概率，选取第一预设个数的目标词汇；

检测各个类别的预设词典中与所述目标词汇的重合个数；

将所述重合个数大于第二预设个数对应的目标类别作为所述无标数据的弱标注。

本发明还提供了一种文本模型再训练的装置，包括：

获取模块，用于获取训练后的文本模型，对无标数据集合中的每个无标数据进行弱标注，并获取各所述弱标注的依据信息；其中，所述依据信息为无标数据在所述训练后的文本模型中的各预设类别的概率分布；

第一计算模块，用于根据所述依据信息计算每一个所述弱标注的第一预测置信度；

判断模块，用于判断所述第一预测置信度是否大于预设置信度值；

第二计算模块，用于若大于所述预设置信度值，则计算所述目标弱标注的损失值，以及根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签；

调整模块，用于将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练。

进一步地，所述第一计算模块，包括：

提取子模块，用于从所述依据信息中提取所述无标数据在所述文本模型中各个类别的概率；

计算子模块，用于根据公式

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明的有益效果：通过获取到无标集合中各无标数据的概率分布，从而计算对应的第一预测置信度，以判定文本模型是否需要再训练，然后根据弱标注的损失值以及依据信息拟合目标标签作为无标数据在文本模型中的输出，由于目标标签中目标标签只是对原模型的概率分布进行了调整，故而使误差不会累计，减少了再训练后的文本模型存在识别偏差的概率，使再训练的文本模型更加精确。

附图说明

图1是本发明一实施例的一种文本模型再训练的方法的流程示意图；

图2是本发明一实施例的一种文本模型再训练的装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本发明提出一种文本模型再训练的方法，其特征在于，包括：

S1：获取训练后的文本模型，对无标数据集合中的每个无标数据进行弱标注，并获取各所述弱标注的依据信息；其中，所述依据信息为无标数据在所述训练后的文本模型中的各预设类别的概率分布；

S2：根据所述依据信息计算每一个所述弱标注的第一预测置信度；

S3：判断所述第一预测置信度是否大于预设置信度值；

S4：若大于所述预设置信度值，则计算所述目标弱标注的损失值，以及根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签；

S5：将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练。

如上述步骤S1所述，获取训练后的文本模型，对无标数据集合中的每个无标数据进行弱标注，并获取各所述弱标注的依据信息。其中，该文本模型为bert模型，其可以根据无标数据在文本模型中的各个预设类别中的概率，选取其中概率最高的类别作为无标数据的弱标注，而依据信息则是为各无标数据对应各类别的概率分布，即对应的概率分布。其中，弱标注为通过文本模型对无标数据进行的标注。

如上述步骤S2所述，根据所述依据信息计算每一个所述弱标注的第一预测置信度。即根据计算的第一预测置信度可以对文本模型的精确度进行一个评估，计算的方式为根据依据信息中各无标数据的概率分布进行计算，具体地计算方式后续有详细说明，此处不再赘述。

如上述步骤S3-S4所述，判断所述第一预测置信度是否大于预设置信度值，若大于所述预设置信度值，则计算所述目标弱标注的损失值，以及根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签。即可以事先设定一个阈值，即预设置信度值，当大于该预设置信度值时，可以认为该弱标注的正确性较高，可以作为再训练的训练数据，因此可以计算弱标注的损失值，以作为再训练的训练数据，其中计算损失值的计算公式可以是任意的损失值计算公式，例如平方损失函数、绝对值损失函数、对数损失函数、指数损失函数中的任意一种，也可以是其他的损失函数，本申请对此不做限定，可以实现计算上述损失值即可。然后根据依据信息拟合目标标签，由于依据信息中含有对应的概率分布，为了提高文本模型对无标数据进行弱标注的准确性，可以采用对应的处理方式进行处理，即将无标数据在文本模型中的对应弱标注类别的概率提高，将其他类别的概率减小，实现方式可以是任意的计算公式，可以实现将对应弱标注类别的概率提高，将其他类别的概率减小的公式均可，例如可以将非弱标注类别的概率按照一定百分比减小，然后将减小的值加入弱标注类别中。

如上述步骤S5所述，将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练。将拟合的目标标签作为无标数据的输出，可以减少由直接将弱标注作为无标数据输出所导致再训练后的文本模型存在识别偏差的问题。具体地，由于目标标签只是对原模型的概率分布进行了调整，相对于原来将弱标注直接作为输出的方案而言，本申请依然保留了对应的概率分布，只是对概率分布进行了更加优化的选择，依然保留了其他非弱标注类别的信息，使得误差不会累计，从而也减少了再训练后的文本模型存在识别偏差的概率，使再训练的文本模型更加精确。

在一个实施例中，所述根据所述依据信息计算每一个所述弱标注的第一预测置信度的步骤S2，包括：

S201：从所述依据信息中提取所述无标数据在所述文本模型中各个类别的概率；

S202：根据公式

如上述步骤S201-S202所述，实现了对第一预测置信度的计算，即先从依据信息中提取无标数据在文本模型中各个类别的概率，其中，即该无标数据的概率分布，然后根据公式

计算第一预测置信度，该公式充分考虑了各个类别的概率对第一预测置信度的影响，其中，可以理解的是，利用该公式进行计算时，当概率分布越集中在某个范围时，其所得到的值就越小，举例而言，概率为0.5，0.5分布，其第一预测置信度大于概率为0.8，0.2分布的第一预测置信度。其中，定义p_i＝0时，p_ilogp_i＝0。

在一个实施例中，所述计算所述目标弱标注的损失值的步骤S4，包括：

S401：获取所述无标数据集合中每个所述目标弱标注对应的所述无标数据的数据向量；

S402：根据所述数据向量计算每两个所述数据向量之间的欧式距离；

S403：根据所述欧式距离以及公式

计算所述损失值，其中

γ为常数，max(0，γ-d_ij)表示两者之间的最大值。

如上述步骤S401-S403所述，实现了对损失值的计算。其中，数据向量可以是将目标弱标注对应的无标数据输入至文本模型中所得到的向量，也可以是将其输入至其他的向量机中得到的向量，然后根据每个目标弱标注对应的无标数据的数据向量，计算每两个数据向量之间的欧式距离，即计算两者时间的差距，然后根据公式

计算损失值，该公式考虑到了两个无标数据之间的欧式距离，然后对相同的类别和不同类别的无标数据采用了不同的计算方式，因此得到的损失值可以无线接近真实的损失值，后续基于该损失值进行文本模型再训练的参数调整幅度也会更加合理。

在一个实施例中，所述将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练的步骤S5之后，还包括：

S601：根据再训练后的所述文本模型对所述无标数据集合进行弱标注，并获取当前所述文本模型进行弱标注的依据信息；

S602：根据当前所述文本模型进行弱标注的依据信息计算所述弱标注的第二预测置信度；

S603：判断所述第二预测置信度是否大于预设置信度值；

S604：若所述第二预测置信度不大于所述预设置信度值，则判定所述文本模型再训练完成。

如上述步骤S601-S604所述，实现了对文本模型再训练的效果检测，其中，即根据再训练后的所述文本模型对所述无标数据集合进行弱标注，并获取当前所述文本模型进行弱标注的依据信息，根据当前所述文本模型进行弱标注的依据信息计算所述弱标注的第二预测置信度，其中上述计算第二预测置信度的计算方式与计算第一预测置信度的方式相同，此处不再赘述，另外，若计算得到的第二预测置信度依然大于预设置信度值，则可以根据对文本模型进行多次的再训练过程，直至最后得到的预测置信度不大于预设置信度，进行不断迭代的计算过程。

在一个实施例中，所述根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签的步骤S4，包括：

S411：从所述依据信息中，获取所述无标数据集合中每个所述无标数据的概率分布；

S412：将各所述无标数据对应的概率分布输入至公式

中，得到各所述无标数据对应的目标标签；其中，

其中，β为所述无标数据集合，

表示所述无标数据集合中的一个无标数据。

如上述步骤S411-S412所述，实现了对目标弱标注对应的目标弱标注进行目标标签的拟合，即根据依据信息中获取得到无标数据集合中每个所述无标数据的概率分布，将各所述无标数据对应的概率分布输入至公式

中，得到无标数据对应的目标标签，其中，该公式考虑了同一类别中，对概率高的无标数据对应概率值进行增大，对概率低的无标数据对应概率值进行减小，从而完成对概率分布的优化。

在一个实施例中，所述对无标数据集合中的每个无标数据进行弱标注的步骤S1，包括：

S101：通过预测模型预测预设词库中的各个词替换各所述无标数据的概率；

S102：根据所述概率，选取第一预设个数的目标词汇；

S103：检测各个类别的预设词典中与所述目标词汇的重合个数；

S104：将所述重合个数大于第二预设个数对应的目标类别作为所述无标数据的弱标注。

如上述步骤S101所述，其中预测模型为BERT模型，其经过大量的训练文本训练而成，即得到了无标数据在句中前后的连贯度，然后寻找出对应相似的预设词库，该预测模型也可以是简单的类别识别模型，即可以得到无标数据所属的类别，然后基于该类别找到对应的预设词库，再将预设词库中的词替换无标数据，以便于后续进行检测。

如上述步骤S102所述，根据各个词替换所述无标数据的概率，选取第一预设个数的目标词汇。根据各个词替换无标数据的概率，该概率可以基于BERT模型得到，即BERT模型是计算词与词之间的关系，例如将“苹果”取代待分类文本中的“香蕉”，假设前文是一个“吃”字，那么“吃”和“苹果”之间一起出现的概率，则可以作为替换无标数据的概率，然后根据各个词对应的概率大小，由小到大依次挑选出第一预设个数的目标词汇，例如为50个。

如上述步骤S103-S104所述，检测各个类别的预设词典中与所述目标词汇的重合个数，即在各个类别中事先存储了对应类别的类别词汇，然后可以根据目标词汇是否与类别词汇相同，以及相同的个数，(即目标词汇存在于预设词典中)，且目标词汇超过了第二预设个数，其中第二预设个数小于等于第一预设个数，例如为20个，那么可以认为该预设词典所对应的类别为待分类分本的类别，对其进行弱标注，以使后续进行更进一步地判断。

本申请还提供了一种文本模型再训练的装置，包括：

获取模块10，用于获取训练后的文本模型，对无标数据集合中的每个无标数据进行弱标注，并获取各所述弱标注的依据信息；其中，所述依据信息为无标数据在所述训练后的文本模型中的各预设类别的概率分布；

第一计算模块20，用于根据所述依据信息计算每一个所述弱标注的第一预测置信度；

判断模块30，用于判断所述第一预测置信度是否大于预设置信度值；

第二计算模块40，用于若大于所述预设置信度值，则计算所述目标弱标注的损失值，以及根据所述依据信息拟合各个所述目标弱标注对应的所述无标数据的目标标签；

调整模块50，用于将所述目标标签作为所述目标弱标注对应的所述无标数据的输出，将所述无标数据集合作为所述文本模型的输入，并根据所述损失值调整所述文本模型中的参数，以对所述文本模型再训练。

进一步地，所述第一计算模块20，包括：

计算子模块，用于根据公式

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种弱标注及其概率分布等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的文本模型再训练的方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的文本模型再训练的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。