CN116205221A

CN116205221A - 实体识别和文本分类的方法、存储介质和计算机设备

Info

Publication number: CN116205221A
Application number: CN202310497375.2A
Authority: CN
Inventors: 靳雯; 王全修; 石江枫; 赵洲洋; 于伟; 徐永昭
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-06-02
Anticipated expiration: 2043-05-05
Also published as: CN116205221B

Abstract

本申请涉及电数字数据处理技术领域，特别是涉及实体识别和文本分类的方法、存储介质和计算机设备。所述方法包括以下步骤：S100，获取目标文本；S200，使用经训练的目标神经网络模型对目标文本进行实体识别和文本分类；目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型，第一神经网络模型的输入为目标文本，第一神经网络模型的输出为第二神经网络模型和第三神经网络模型的输入，第一神经网络模型用于获取目标文本的编码向量，第二神经网络模型用于根据编码向量识别目标文本中的实体，第三神经网络模型用于根据编码向量获取目标文本的类型。本发明的目标神经网络模型具有对文本进行分类和实体识别的功能。

Description

实体识别和文本分类的方法、存储介质和计算机设备

技术领域

本发明涉及电数字数据处理技术领域，特别是涉及实体识别和文本分类的方法、存储介质和计算机设备。

背景技术

现有技术中的实体识别任务和文本分类任务是相对独立的，即利用一个实体识别模型完成实体识别任务，利用另一个分类模型完成文本分类任务，对实体识别模型的训练过程和对分类模型的训练过程是分开进行的，两训练过程互不影响。对于用户想要同时对文本进行实体识别以及获取文本的类型的场景，若用户需要分别将文本输入到实体识别模型和分类模型，那么操作较为繁琐，用户的体验较差。

发明内容

本发明目的在于，提供一种实体识别和文本分类的方法、存储介质和计算机设备，用户只需将目标文本输入到经训练的目标神经网络模型，就能够获取对目标文本进行实体识别的结果以及对目标文本进行分类的结果，操作较为简便，用户体验感较好。

根据本发明的第一方面，提供了一种实体识别和文本分类的方法，包括以下步骤：

S100，获取目标文本。

S200，使用经训练的目标神经网络模型对所述目标文本进行实体识别和文本分类；所述目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型，所述第一神经网络模型的输入为所述目标文本，所述第一神经网络模型的输出为所述第二神经网络模型和第三神经网络模型的输入，所述第一神经网络模型用于获取所述目标文本的编码向量，所述第二神经网络模型用于根据所述编码向量识别目标文本中的实体，所述第三神经网络模型用于根据所述编码向量获取目标文本的类型。

所述目标神经网络模型的训练方法包括：

S210，获取第一文本样本集Text={text₁,text₂,…,text_n,…,text_N}，text_n为第一文本样本集中的第n个文本样本，n的取值范围为1到N，N为第一文本样本集包括的文本样本的数量。

S220，遍历Text，获取text_n中实体的集合E_n={e_n,1,e_n,2,…,e_n,m,…,e_n,M}，e_n,m为E_n中的第m个实体，m的取值范围为1到M，M为E_n中实体的数量。

S230，遍历Text，获取e_n,m在text_n中出现的词频f_n,m，如果f_n,m≥f₀，则将e_n,m追加至预设的第n集合A_n；否则，不将e_n,m追加至A_n；A_n的初始化为空集；f₀为预设的词频阈值。

S240，遍历Text，如果A_n不为空集，且A_n中存在实体与text_n的类型匹配，则将A_n追加至第二文本样本集Text’；否则，不将A_n追加至第二文本样本集Text’；Text’ 的初始化为空集。

S250，利用Text’对目标神经网络模型进行训练。

根据本发明的第二方面，还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的实体识别和文本分类的方法。

根据本发明的第三方面，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述的实体识别和文本分类的方法。

本发明与现有技术相比至少具有以下有益效果：

本发明的经训练的目标神经网络模型具有对文本进行实体识别和对文本进行分类的功能，由此，对于用户想要同时对文本进行实体识别以及获取文本的类型的场景，用户只需将目标文本输入到经训练的目标神经网络模型，就能够获取对目标文本进行实体识别的结果以及对目标文本进行分类的结果，操作较为简便，用户体验感较好。

而且，本发明中对目标神经网络模型进行训练的文本样本集是经过筛选的特定文本样本集，被选择作为训练样本的每个文本样本中存在与对应文本的类型匹配的实体（即文本中的实体与文本对应的类型之间存在一定的关联），且该实体的词频大于预设的词频阈值（即该实体在所在的样本文本中出现的次数相对较多）；由此，目标神经网络模型能够快速学习到文本的类型与文本中实体相关这个知识（未经训练的模型并不知道该知识），减少了目标神经网络模型在刚开始训练的过程中乱预测的情况，也就减少了训练过程中的损失，进而提高了对目标神经网络模型的模型参数的拟合速度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的实体识别和文本分类的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的第一方面，提供了一种实体识别和文本分类的方法，如图1所示，包括以下步骤：

S100，获取目标文本。

可选的，第一神经网络模型为BERT模型。本领域技术人员知悉，现有技术中任何的可用于获取文本的编码向量的神经网络模型均落入本发明的保护范围。

根据本发明，第二神经网络模型即为NER模型。本领域技术人员知悉，现有技术中任何的NER模型均落入本发明的保护范围。

根据本发明，第三神经网络模型即文本分类模型。本领域技术人员知悉，现有技术中任何的文本分类模型均落入本发明的保护范围。

可选的，所述目标神经网络模型第j次迭代对应的损失为Loss_j，Loss_j=α_j×loss_1,j+β_j×loss_2,j，loss_1,j为实体识别任务在第j次迭代对应的损失，loss_2,j为文本分类任务在第j次迭代对应的损失，α_j为实体识别任务在第j次迭代对应的权重，β_j为文本分类任务在第j次迭代对应的权重。

优选的，

，r_1,j为实体识别任务在第j次迭代对应的收敛速度，r_1,j=loss_1,j/loss_1,j-1，loss_1,j-1为实体识别任务在第j-1次迭代对应的损失， />

，r_2,j为文本分类任务在第j次迭代对应的收敛速度，r_2,j=loss_2,j/loss_2,j-1，loss_2,j-1为文本分类任务在第j-1次迭代对应的损失。

应当理解的是，实体识别任务的损失由第一神经网络模型和第二神经网络模型的误差共同决定，文本分类任务的损失由第一神经网络模型和第三神经网络模型的误差共同决定。

根据本发明，当loss_1,j<loss_1,j-1时，说明实体识别任务的损失有所下降，r_1,j的取值范围为(0, 1)；r_1,j越小，说明实体识别任务的损失下降的速度越快，对应的α_j越小，以减少对文本分类任务收敛的影响；当loss_1,j>loss_1,j-1时，说明实体识别任务的损失有所震荡，r_1,j的取值范围为(1,+∞)；r_1,j越大，说明实体识别任务的损失震荡的幅度越大，对应的α_j越小，以避免实体识别任务的损失出现震荡时权重较大情况的发生，减少对文本分类任务收敛的影响。

同理，当loss_2,j<loss_2,j-1时，说明文本分类任务的损失有所下降，r_2,j的取值范围为(0, 1)；r_2,j越小，说明文本分类任务的损失下降的速度越快，对应的β_j越小，以减少对实体识别任务收敛的影响；当loss_2,j>loss_2,j-1时，说明文本分类任务的损失有所震荡，r_2,j的取值范围为(1,+∞)；r_2,j越大，说明文本分类任务的损失震荡的幅度越大，对应的β_j越小，避免文本分类任务的损失出现震荡时权重较大情况的发生，减少对实体识别任务收敛的影响。

可选的，所述第二神经网络模型对应的损失和所述第三神经网络模型对应的损失均为交叉熵损失。本领域技术人员知悉，现有技术中任何类型的损失均落入本发明的保护范围。

根据本发明，所述目标神经网络模型的训练方法包括：

S230，遍历E_n，获取e_n,m在text_n中出现的词频f_n,m，如果f_n,m≥f₀，则将e_n,m追加至预设的第n集合A_n；否则，不将e_n,m追加至A_n；A_n的初始化为空集；f₀为预设的词频阈值。

可选的，f₀根据用户经验值设置。应当理解的是，A_n中存储的实体为在text_n中出现频次较多的实体；若text_n中出现的实体对应的词频均小于f₀，则遍历E_n得到的A_n为空集。

S240，遍历{A₁,A₂,…,A_n,…,A_N}，如果A_n不为空集，且A_n中存在实体与text_n的类型匹配，则将A_n追加至第二文本样本集Text’；否则，不将A_n追加至第二文本样本集Text’；Text’ 的初始化为空集。

可选的，判断A_n中是否存在实体与text_n的类型匹配的方法包括：

S241，获取第三文本样本集B={b₁,b₂,…,b_q,…,b_Q}，b_q为第三文本样本集中的第q个文本样本，q的取值范围为1到Q，Q为第三文本样本集中文本样本的数量。

S242，遍历B，对b_q中各实体进行标注，得到B对应的文本样本标注集D；其中，当b_q中某实体与预设的第r种类型匹配时，将b_q中该实体标注为第r个预设类型值；r的取值范围为1到R，R为预设的类型数量；第r个预设类型值不等于第i个预设类型值，i的取值范围为1到R，i≠r。

作为一个实施例，预设类型的数量为4，设置第一种类型对应的第1个预设类型值为1，设置第二种类型对应的第2个预设类型值为2，设置第三种类型对应的第3个预设类型值为3，设置第四种类型对应的第4个预设类型值为4；由此，当b_q中某实体与预设的第1种类型匹配时，将b_q中该实体标注为1；当b_q中某实体与预设的第2种类型匹配时，将b_q中该实体标注为2；当b_q中某实体与预设的第3种类型匹配时，将b_q中该实体标注为3；当b_q中某实体与预设的第4种类型匹配时，将b_q中该实体标注为4。

可选的，采用人工标注的方法对b_q中各实体进行标注。

S243，利用B和D对第四神经网络模型进行训练，得到经训练的第四神经网络模型。

本发明的第四神经网络模型为命名实体识别模型，本领域技术人员知悉，现有技术中的任何的命名实体识别模型均落入本发明的保护范围。应当理解的是，经训练的第四神经网络模型具备识别文本中属于上述预设类型的实体的功能。

S244，使用经训练的第四神经网络模型对A_n中各实体进行推理，得到A_n中各实体对应的预设类型值。

S245，如果A_n中存在实体对应的预设类型值与text_n的类型对应的预设类型值相同，则判定A_n中存在实体与text_n的类型匹配。

根据本发明，如果A_n中任一实体对应的预设类型值与text_n的类型对应的预设类型值均不同，则判定A_n中不存在实体与text_n的类型匹配。

可选的，通过将text_n的类型在预设的类型关系库进行检索的方法获取text_n的类型对应的预设类型值，所述预设的类型关系库中存储有文本的类型与预设类型值之间的对应关系。

S250，利用Text’对目标神经网络模型进行训练。

本发明中对目标神经网络模型进行训练的文本样本集Text’是经过筛选的特定文本样本集，被选择作为训练样本的每个文本样本中存在与对应文本的类型匹配的实体（即文本中的实体与文本对应的类型之间存在一定的关联），且该实体的词频大于预设的词频阈值（即该实体在所在的样本文本中出现的次数相对较多）；由此，目标神经网络模型能够快速学习到文本的类型与文本中实体相关这个知识（未经训练的模型并不知道该知识），减少了目标神经网络模型在刚开始训练的过程中乱预测的情况，也就减少了训练过程中的损失，进而提高了对目标神经网络模型的模型参数的拟合速度。

作为一个具体实施方式，目标文本为一条警情，所述第二神经网络模型用于识别目标文本中的被盗物品实体、作案工具实体、被抢财物实体或丢失财物实体，所述目标文本的类型包括盗窃类型、抢劫类型、纠纷类型、诈骗类型或求助类型。

例如，目标文本为：张三在早上8点报警称手机被偷了，手机是白色的手机；使用目标神经网络模型中的第二神经网络模型可以识别出手机为被盗物品，使用目标神经网络模型中的第三神经网络模型可以识推理出目标文本本的类型为盗窃类型。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种实体识别和文本分类的方法，其特征在于，包括以下步骤：

S100，获取目标文本；

S200，使用经训练的目标神经网络模型对所述目标文本进行实体识别和文本分类；所述目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型，所述第一神经网络模型的输入为所述目标文本，所述第一神经网络模型的输出为所述第二神经网络模型和第三神经网络模型的输入，所述第一神经网络模型用于获取所述目标文本的编码向量，所述第二神经网络模型用于根据所述编码向量识别目标文本中的实体，所述第三神经网络模型用于根据所述编码向量获取目标文本的类型；

所述目标神经网络模型的训练方法包括：

S210，获取第一文本样本集Text={text₁,text₂,…,text_n,…,text_N}，text_n为第一文本样本集中的第n个文本样本，n的取值范围为1到N，N为第一文本样本集包括的文本样本的数量；

S220，遍历Text，获取text_n中实体的集合E_n={e_n,1,e_n,2,…,e_n,m,…,e_n,M}，e_n,m为E_n中的第m个实体，m的取值范围为1到M，M为E_n中实体的数量；

S230，遍历E_n，获取e_n,m在text_n中出现的词频f_n,m，如果f_n,m≥f₀，则将e_n,m追加至预设的第n集合A_n；否则，不将e_n,m追加至A_n；A_n的初始化为空集；f₀为预设的词频阈值；

S240，遍历{A₁,A₂,…,A_n,…,A_N}，如果A_n不为空集，且A_n中存在实体与text_n的类型匹配，则将A_n追加至第二文本样本集Text’；否则，不将A_n追加至第二文本样本集Text’；Text’ 的初始化为空集；

S250，利用Text’对目标神经网络模型进行训练。

2.根据权利要求1所述的实体识别和文本分类的方法，其特征在于，S240中，判断A_n中是否存在实体与text_n的类型匹配的方法包括：

S241，获取第三文本样本集B={b₁,b₂,…,b_q,…,b_Q}，b_q为第三文本样本集中的第q个文本样本，q的取值范围为1到Q，Q为第三文本样本集中文本样本的数量；

S242，遍历B，对b_q中各实体进行标注，得到B对应的文本样本标注集D；其中，当b_q中某实体与预设的第r种类型匹配时，将b_q中该实体标注为第r个预设类型值；r的取值范围为1到R，R为预设的类型数量；第r个预设类型值不等于第i个预设类型值，i的取值范围为1到R，i≠r；

S243，利用B和D对第四神经网络模型进行训练，得到经训练的第四神经网络模型；

S244，使用经训练的第四神经网络模型对A_n中各实体进行推理，得到A_n中各实体对应的预设类型值；

3.根据权利要求2所述的实体识别和文本分类的方法，其特征在于，S245中，通过将text_n的类型在预设的类型关系库进行检索的方法获取text_n的类型对应的预设类型值，所述预设的类型关系库中存储有文本的类型与预设类型值之间的对应关系。

4.根据权利要求1所述的实体识别和文本分类的方法，其特征在于，所述目标神经网络模型第j次迭代对应的损失为Loss_j，Loss_j=α_j×loss_1,j+β_j×loss_2,j，loss_1,j为实体识别任务在第j次迭代对应的损失，loss_2,j为文本分类任务在第j次迭代对应的损失，α_j为实体识别任务在第j次迭代对应的权重，β_j为文本分类任务在第j次迭代对应的权重。

5.根据权利要求4所述的实体识别和文本分类的方法，其特征在于，

，r_1,j为实体识别任务在第j次迭代对应的收敛速度，r_1,j=loss_1,j/loss_1,j-1，loss_1,j-1为实体识别任务在第j-1次迭代对应的损失，

6.根据权利要求5所述的实体识别和文本分类的方法，其特征在于，所述第二神经网络模型对应的损失和所述第三神经网络模型对应的损失均为交叉熵损失。

7.根据权利要求1所述的实体识别和文本分类的方法，其特征在于，所述第一神经网络模型为BERT模型。

8.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的实体识别和文本分类的方法。

9.一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器上存储有计算机可读指令，其特征在于，所述计算机可读指令被所述处理器执行时实现如权利要求1-7中任一项所述的实体识别和文本分类的方法。