CN112347769B

CN112347769B - 实体识别模型的生成方法、装置、电子设备及存储介质

Info

Publication number: CN112347769B
Application number: CN202011197366.4A
Authority: CN
Inventors: 李千; 史亚冰; 蒋烨; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2024-01-23
Anticipated expiration: 2040-10-30
Also published as: CN112347769A

Abstract

本申请公开了一种实体识别模型的生成方法、装置、电子设备及存储介质，涉及人工智能，尤其是自然语言处理、深度学习、知识图谱技术领域。具体实现方案为：获取初始标注样本集；利用初始标注样本集，对初始实体识别模型进行训练，生成更新后的实体识别模型；利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据对应的识别结果的置信度；获取置信度小于第一阈值的各个未标注数据对应的各标注结果；利用所述各个未标注数据及对应的各标注结果，对所述初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值。本申请保证了模型的准确性和可靠性。

Description

实体识别模型的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及人工智能、自然语言处理、深度学习、知识图谱技术领域，尤其涉及一种实体识别模型的生成方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的蓬勃发展，人工智能技术也得到了迅速发展，医药、金融、教育等各方面都离不开人工智能技术，自然语言处理技术及深度学习技术等也获得了越来越广泛的运用。实体识别，作为自然语言处理、人工智能及深度学习领域中的重要一环，如何快速、准确的进行实体识别，显得至关重要。

发明内容

本申请提供一种实体识别模型的生成方法、装置、电子设备和存储介质。

根据本申请的一方面，提供了一种实体识别模型的训练方法，包括：

获取初始标注样本集；

利用所述初始标注样本集，对初始实体识别模型进行训练，生成更新后的实体识别模型；

利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据对应的识别结果的置信度；

获取置信度小于第一阈值的各个未标注数据对应的各标注结果；

利用所述各个未标注数据及对应的各标注结果，对所述初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值。

根据本申请的另一方面，提供了一种实体识别模型的生成装置，包括：

第一获取模块，用于获取初始标注样本集；

第一生成模块，用于利用所述初始标注样本集，对初始实体识别模型进行训练，生成更新后的实体识别模型；

第二生成模块，用于利用所述更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据对应的识别结果的置信度；

第二获取模块，用于获取置信度小于第一阈值的各个未标注数据对应的各标注结果；以及

训练模块，用于利用所述各个未标注数据及对应的各标注结果，对所述初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的实体识别模型的生成方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上述一方面所述的实体识别模型的生成方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述一方面实施例所述的实体识别模型的生成方法。

本申请提供的实体识别模型的生成方法、装置、电子设备及存储介质，存在如下有益效果：

通过利用小样本数据先对模型进行训练，以得到实体识别模型，进而根据实体识别模型对未标注数据的识别结果，从未标注数据集中选取数据进行标注，然后对模型进行重复训练，从而使得基于小样本数据，就可以快速开始预测，有很好的领域迁移性，并且，对于置信度小的样本，进行重新标注后，再对模型进行训练，保证了模型的准确性和可靠性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请一个实施例提供的一种实体识别模型的生成方法的流程示意图；

图2为本申请另一实施例提供的一种实体识别模型的生成方法的流程示意图；

图3为本申请又一实施例提供的一种实体识别模型的生成方法的流程示意图；

图4为本申请一个实施例提供的一种实体识别模型的生成装置的结构示意图；

图5为本申请另一实施例提供的一种实体识别模型的生成装置的结构示意图；

图6为本申请又一实施例提供的一种实体识别模型的生成装置的结构示意图；

图7为根据本申请实施例的实体识别模型的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。

自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它是计算机科学与语言学的交叉学科，又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言，人类的思维也就无从谈起，所以自然语言处理体现了人工智能的最高任务与境界，也就是说，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。

深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点和边组成。在知识图谱中，每个节点表示现实世界中存在的实体，每条边为实体与实体之间的关系。通俗地讲，知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络，知识图谱提供了从“关系”的角度去分析问题的能力。

下面参考附图描述本申请实施例的实体识别模型的训练方法、装置、电子设备及存储介质。

图1为本申请实施例提供的一种实体识别模型的训练方法的流程示意图。

如图1所示，该实体识别模型的训练方法包括：

步骤101，获取初始标注样本集。

其中，本申请实施例中的，标注样本集中，包含各个已标注样本及每个样本中的各个实体。

需要说明的是，本申请实施例中对初始标注样本集的规模不做限定，即初始标注样本集中可能仅包含少量的已标注样本数据，或者也可能包含大量的已标注样本数据。

步骤102，利用初始标注样本集，对初始实体识别模型进行训练，生成更新后的实体识别模型。

其中，初始实体识别模型就是最初的还未经过训练的模型。实体识别模型，是指用于获取待识别语句，并对其进行识别，以确定待识别语句中所包含的实体的模型。

需要说明的是，本申请实施例中的实体识别模型，不仅可以识别出语句中包含的实体，还可以识别出各个实体的类型。

在本实施例中，从样本池中获得初始标注样本集后，即可将人工标注过的这一部分样本输送给下游，通过这些初始标注样本集对初始实体识别模型进行训练，生成更新后的实体识别模型。

步骤103，利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据对应的识别结果的置信度。

具体地，用这个更新后的实体识别模型对未标注数据进行实体识别后，即可获取每个未标注数据中包含的各个类型的实体词，及每个预测实体的概率值，进而根据每个未标注数据中各个预测实体的概率值，确定该未标注数据对应的识别结果的置信度。

可以理解的是，当未标注数据中各个实体的概率值越大，该未标注数据对应的置信度就越大。

另外，由于目前的实体类型较多，在实际使用时，还可以根据实体识别模型的使用场景，对实体识别模型识别的实体类型进行选择。比如，可以对应用于终端侧的实体识别模型，指定其可以识别的实体类型，对应用于服务器侧或者云端的实体识别模型，可以预测各个类型的实体。本申请实施例对此不做限定。

步骤104，获取置信度小于第一阈值的各个未标注数据对应的各标注结果。

具体地，第一阈值是指预设定好的一个概率数值，当置信度小于这个数值时，则说明该实体识别模型，对该类数据的处理能力较差，从而即可将这些具有较低置信度的未标注数据进行标注，进而获取其对应的标注结果。

可以理解的是，本申请中，可以通过人工标注的形式，对置信度低的各个未标注数据进行标注，或者，还可以采取其他的标注形式，对置信度低的未标注数据进行标注，本申请对此不做限定。

需要说明的是，在实际使用过程中，若模型训练的准确性和可靠性较低，此时有可能是置信度小于第一阈值的未标注数据的数量比较多。本申请实施例中，在选取置信度小于第一阈值的未标注数据对应的结果时候，为了减少数据标注的工作量，可以从置信度小于第一阈值的未标注数据中选取一部分。选取方式可以是在未标注数据中随机进行选取，也可以是根据未标注数据置信度由小至大的顺序进行选取。

步骤105，利用各个未标注数据及对应的各标注结果，对初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值。

其中，第二阈值是预设定好的一个概率值。

在本实施例中，将获取到的各个未标注数据及对应的各标注结果对初始标注样本集进行更新，就可以利用更新后的标注样本集对更新后的实体识别模型进行训练。进而再利用测试样本集对新生成的实体识别模型进行测试，以确定新生成的实体识别模型的准确性。若新生成的实体识别模型的准确性大于第二阈值，则可以结束训练。

若新生成的实体识别模型的准确性小于或等于第二阈值，则需要利用该新生成的实体识别模型，对各个未标注的数据进行识别，以获取置信度低的各个未标注数据。之后，再利用置信度低的各个未标注数据对应的标注结果，对样本集进行更新、对实体识别模型继续训练，循环这一训练过程，直到生成的实体识别模型的准确性大于第二阈值。

当实体识别模型的准确性大于第二阈值时，表示生成的实体识别模型具有较高的准确性及可靠性，可以用来进行实体识别。

在本实施例中，利用初始标注样本集对初始实体识别模型进行训练，以生成更新后的实体识别模型，之后利用更新后的实体识别模型对未标注数据进行实体识别获取各未标注数据的置信度，进而对于置信度小于第一阈值的各个未标注数据要再进行人工标注，然后用新标注的数据对标注样本进行更新，再用新的标注样本集对更新后的实体识别模型继续训练，直至生成的实体识别模型的准确性大于第二阈值。

需要说明的是，因为置信度高表示准确性高，表示这部分未标注数据对应的识别结果的置信度与标注结果相近，因此，在利用更新后的标注样本集对更新后的实体识别模型进行继续训练之前，可以从置信度大于第一阈值的未标注数据中，选取一部分未标注数据对模型训练样本进行扩充。选取方式可以是在未标注数据中随机进行选取，也可以是根据未标注数据置信度的大小进行选取。

比如，按照未标注数据置信度大小进行选取未标注数据时，可以按照未标注数据置信度由大至小的顺序，从各个未标注数据中获取置信度大于第一阈值的M个未标注数据，其中，M为大于1的正整数。利用M个未标注数据及对应的识别结果，对更新后的标注样本集进行更新。

举例来说，利用更新后的实体识别模型对未标注数据进行实体识别，发现置信度大于第一阈值的未标注数据有1000个，想要选取200个，可以从这1000个中随机选取200个。也可以根据置信度由大到小的顺序，选取其中前200个未标注数据。利用这200个未标注数据及对应的识别结果，对更新后的标注样本集进行更新。

通过利用小样本数据先对模型进行训练，以得到实体识别模型，进而再根据实体识别模型对未标注数据的识别结果，从未标注数据集中选取部分未标注数据进行标注，以对模型进行重复训练，从而使得基于小样本数据，就可以快速开始训练和预测，再利用预测结果中置信度小的样本对模型进行重复训练，保证了生成的实体识别模型的准确性和可靠性。

通常，在模型训练过程中，如果标注样本集规模比较小，那么得到的模型的召回率比较低。本申请实施例中为了提高模型的召回率，可以基于已标注数据中实体的类型，对初始标注样本集进行增强。在实际使用时，可以采用任意数据增强方法，对初始标注样本集进行增强。比如反向翻译、生成对抗网络及对标注样本中的实体进行同类型实体替换。

可以理解的是，实体有多种类型，如人物、机构、地点、疾病、症状、体征、手术等。

本申请实施例中，对标注样本中的实体进行同类型实体替换的条件是，已知标注样本中的各个实体的类型。即本申请实施例中，初始标注样本集中包括多个已标注样本及多个实体集，其中，每个实体集中包含的实体的类型相同。

下面参照图2，以对标注样本中的实体进行同类型实体替换为例，对申请提供的实体识别模型方法进行进一步说明。

步骤201，获取初始标注样本集。

步骤202，确定每个已标注样本中的至少一个待替换实体。

在本实施例中，待替换实体，是指每个已标注的样本中任何一个或者多个实体，该待替换实体的类型，可以为任一类型，或者为指定类型，本实施例对此不做限定。

步骤203，从至少一个待替换实体所属的实体集中，抽取任意一个与待替换实体不同的其他实体。

在本实施例中，实体集是拥有相同类型的实体的集合，这一类型实体的集合中实体的类型都相同，可以相互替换。举例而言，在类型为“地点”的实体集中，确定“北京”为待替换实体后，可以从类型为“地点”的实体集中任意选取一个与“北京”不同的其他实体，如“上海”。

步骤204，用其他实体替换所述待替换实体，以生成补充样本。

举例来说，在“地点”实体集中，确定好了“北京”作为待替换实体之后，可以从地点实体集中选取“上海”、“武汉”、“昆明”等实体来替换掉“北京”这一实体，就会出现多种替换结果，将这些结果作为补充样本。

若选取多个待替换实体时，可以产生多种不同的替换结果。例如在“我在北京XXX广场”中，确定“北京”、“XXX广场”两个实体作为待替换实体，之后即可从各自对应的实体集中选取不同的实体来进行替换。比如用“上海”、“武汉”来替换“北京”这一实体，用“人民广场”、“世纪广场”来替换“XXX广场”这一实体，产生的替换结果可以是“我在上海人民广场”、“我在上海世纪广场”、“我在武汉人民广场”、“我在武汉世纪广场”，将这多种替换结果作为补充样本。

步骤205，利用初始标注样本集及补充样本，对初始实体识别模型进行训练。

具体地，初始标注样本集和补充样本，二者放在一起就是总体的样本，利用这个总体的样本来对初始实体识别模型进行训练。在本实施例中，通过确定每个已标注样本中的待替换实体，从待替换实体所在的实体集中选定同类型的不同其他实体来对待替换实体进行替换，可以用一个或多个同类型实体来替换同一个待替换实体，会产生多种不同的替换结果，将这些不同的替换结果作为补充样本。初始标注样本集和补充样本放在一起就是总体的样本，样本容量得到了扩充，即对样本集实现了数据增强，利用增强后的总体样本集对模型进行训练，有助于提升模型召回率。

步骤206，利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据对应的识别结果的置信度。

步骤207，获取置信度小于第一阈值的各个未标注数据对应的各标注结果。

步骤208，利用各个未标注数据及对应的各标注结果，对初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值。

本实施例提供的实体识别模型的方法不仅可以基于小样本数据快速开始训练和预测，再利用预测结果中置信度小的样本对模型进行重复训练，保证了生成的实体识别模型的准确性和可靠性，而且对样本集实现了数据增强，利用增强后的总体样本集对模型进行训练，有助于提升模型召回率。

通过上述实施例分析，本申请实施例中可以根据更新后的实体识别模型对未标注数据进行实体识别时，获取的各个识别结果的置信度，从各个未标注数据中，选出满足条件的部分未标注数据进行标注，进而利用标注结果对初始标注样本集进行更新，以对模型进行重新训练。下面结合图3，对本实施例提供的实体识别模型的生成方法中，确定各未标注数据的置信度的过程进行详细说明，如图3所示，本实施例提供的的实体识别模型的生成方法包括：

步骤301，获取初始标注样本集。

步骤302，确定每个已标注样本中的至少一个待替换实体。

步骤303，从至少一个待替换实体所属的实体集中，抽取任意一个与待替换实体不同的其他实体。

步骤304，用其他实体替换所述待替换实体，以生成补充样本。

步骤305，利用初始标注样本集及补充样本，对初始实体识别模型进行训练。

步骤306，利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率。

具体地，可以用P(y_j|x_i)表示每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率。

其中x_i代表每个字编码，y_j代表每个字属于每个位置的概率。

i的数值为从1到字编码长度l，其中，字编码长度是指对每一个样本进行向量映射，样本中每一个字映射之后对应的向量。字编码长度可以是任意的，比如说768。

j的取值为从1到n,n是输出结果的个数，n的大小为2*类型数，类型数是指实体识别模型可以预测的实体类型的数量。

步骤307，根据每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率分别与参考值间各个差值的绝对值，确定每个未标注数据对应的识别结果的置信度。

参考值是根据经验确定的，可以是0.5,0.7等数值，本申请中以参考值为0.5为例进行说明。

对应的，在本实施例中，可以采用如公式(1)所示的形式，计算每个未标注数据中每个字符的各第一概率及各第二概率分别与参考值间各个差值的绝对值：

|0.5-P(y_j|x_i)|(1)

可以采用如公式(2)所示的形式，计算每个未标注数据对应的识别结果的置信度：

步骤308，根据每个未标注数据中每个类别实体对应的各个预测起始字符的第一概率、及各个预测终止字符的第二概率，确定每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符。

在本实施例中，确定每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符的方法有多种，比如：

按照每个未标注数据中每个类别实体对应的各个预测起始字符的第一概率、各个预测终止字符的第二概率由大至小的顺序，从每个类别实体对应各个预测起始字符中选取前N个概率最大的预测起始字符作为参考起始字符，从每个类别实体对应各个预测终止字符中选取前N个概率最大的预测终止字符作为参考终止字符，其中，N为大于1的正整数。

举例来说，任一未标注数据中任一类别实体对应的各个预测起始字符的第一概率分别为p₁₁＝0.2，p₁₂＝0.7，p₁₃＝0.8，任一未标注数据中任一类别实体对应的各个预测终止字符的第二概率分别为p₂₁＝0.85，p₂₂＝0.45，p₂₃＝0.75，从中选取前2个概率最大的预测起始字符作为参考起始字符，就是0.7和0.8对应的字符作为参考起始字符，从中选取前2个概率最大的预测终止字符作为参考终止字符，就是0.85和0.75对应的字符作为参考终止字符。

或者，还可以先确定各个预测起始字符的第一概率、各个预测终止字符的第二概率的数值，设定一个第三阈值，将各第一概率及各第二概率分别与第三阈值进行比较。若各第一概率大于第三阈值、各第二概率大于第三阈值就将其置为1，否则置为0。将调整后阈值为1的各预测起始字符、各预测终止字符确定为参考起始字符、参考终止字符。

举例来说，任一未标注数据中任一类别实体对应的各个预测起始字符的第一概率分别为p₁₁＝0.2，p₁₂＝0.7，p₁₃＝0.8，各个预测终止字符的第二概率分别为p₂₁＝0.85，p₂₂＝0.45，p₂₃＝0.75。

若设定的第三阈值为0.5，那么上述例子中p₁₂、p₁₃分别对应的预测起始字符的概率均可置为1，即p₁₂、p₁₃分别对应的预测起始字符可以作为参考起始字符，p₂₁、p₂₃分别对应的预测终止字符的概率均可置为1，即p₂₁、p₂₃分别对应的预测终止字符可以作为参考终止字符。

需要说明的是，上述两种确定每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符的方法，只是举例说明，而并不能作为本申请中，对确定每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符的方法的限定。

步骤309，根据每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符，确定每个类别实体对应的起始字符及终止字符。

在本实施例中，确定每个未标注数据中每个类别实体对应的起始字符及终止字符的方法可以有多种。

例如，从任一未标注数据中任一类别实体对应的各个参考起始字符及各个参考终止字符中分别选取概率数值最大的，作为起始字符和终止字符。如任一未标注数据中任一类别实体对应的参考起始字符的概率为0.7、0.8，选取概率数值最大的，即将0.8对应的参考起始字符作为起始字符，任一未标注数据中任一类别实体对应的参考起始字符的概率为0.75、0.85，选取概率数值最大的，即将0.85对应的参考终止字符作为终止字符。

或者，还可以从任一未标注数据中任一类别实体对应的各个参考起始字符及各个参考终止字符中，根据各个参考起始字符、各个终止参考字符在对应的未标注数据中的前后顺序，选取距离最近的两个字符，作为起始字符和终止字符。例如任一未标注数据中任一类别实体对应的各个参考起始字符的概率为0.7、0.8，任一未标注数据中任一类别实体对应的各个参考终止字符的概率为0.75、0.85，任一未标注数据中任一类别实体对应的各个参考起始字符及各个参考终止字符的概率按照其在对应的未标注数据中的前后顺序排列为0.7、0.8和0.75、0.85，0.8和0.75是距离最近的两个概率，就将0.8、0.75对应的参考起始字符、参考终止字符作为起始字符和终止字符。

步骤310，获取置信度小于第一阈值的各个未标注数据对应的各标注结果。

步骤311，利用各个未标注数据及对应的各标注结果，对初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值。

在本实施例中，首先对初始标注样本数据进行数据增强，进而再利用增强后的样本数据对初始实体识别模型进行训练，然后利用生成的更新后的实体识别模型，对未标注数据进行实体识别，以确定每个未标注数据中各个字符的各第一概率及各第二概率，再根据各个第一概率及第二概率分别与参考值间各个差值的绝对值，确定每个未标注数据对应的识别结果的置信度，然后再根据每个未标注数据对应的置信度，选取满足条件的未标注数据进行标注，再利用标注结果对标注样本数据集进行更新，以利用更新后的标注样本集对模型继续进行训练，从而得到准确性大于第二阈值的实体识别模型。即，本申请实施例中，在模型训练前后，通过采用不同的方式，对模型对应的样本数据集进行扩充，不仅提高了实体识别模型的召回率，而且提高了实体识别模型的准确性和可靠性。

为了实现上述实施例，本申请实施例还提出一种实体识别模型的生成装置。图4为本申请实施例提供的一种实体识别模型的生成装置的结构示意图。

如图4所示，该实体识别模型的生成装置600包括：第一获取模块610、第一生成模块620、第二生成模块630、第二获取模块640及训练模块650。

第一获取模块610，用于获取初始标注样本集。

第一生成模块620，用于利用所述初始标注样本集，对初始实体识别模型进行训练，生成更新后的实体识别模型。

第二生成模块630，用于利用所述更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据对应的识别结果的置信度。

第二获取模块640，用于获取置信度小于第一阈值的各个未标注数据对应的各标注结果。

训练模块650，用于利用所述各个未标注数据及对应的各标注结果，对所述初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值。

进一步地，在本申请实施例一种可能的实现方式中，如图5所示，在如图5所示实施例的基础上，第一生成模块620，包括：

待替换实体确定单元621，用于确定每个所述已标注样本中的至少一个待替换实体；

实体抽取单元622，用于从所述至少一个待替换实体所属的实体集中，抽取任意一个与所述待替换实体不同的其他实体；

样本补充单元623，用于使用所述其他实体替换所述待替换实体，以生成补充样本；

训练单元624，用于利用所述初始标注样本集及所述补充样本，对所述初始实体识别模型进行训练。

进一步地，在本申请实施例一种可能的实现方式中，如图6所示，在如图6所示实施例的基础上，第二生成模块630，包括：

预测字符获取单元631，用于利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率；

置信度确定单元632，用于根据每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率分别与参考值间各个差值的绝对值，确定每个未标注数据对应的识别结果的置信度；

参考字符确定单元633，用于根据每个未标注数据中每个类别实体对应的各个预测起始字符的第一概率、及各个预测终止字符的第二概率，确定每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符；

字符确定单元634，用于根据每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符，确定每个类别实体对应的起始字符及终止字符。

需要说明的是，前述实体识别模型的生成方法实施例的解释说明，也适用于该实施例的实体识别模型的生成装置，故在此不再赘述。

根据本申请实施例的实体识别模型的生成装置，通过利用小样本数据先对模型进行训练，以得到实体识别模型，进而根据实体识别模型对未标注数据的识别结果，从未标注数据集中选取数据进行标注，然后对模型进行重复训练，从而使得基于小样本数据，就可以快速开始预测，有很好的领域迁移性，并且，对于置信度小的样本，进行重新标注后，再对模型进行训练，保证了模型的准确性和可靠性。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例的实体识别模型的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的实体识别模型的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的实体识别模型的生成方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的实体识别模型的生成方法对应的程序指令/模块(例如，附图6所示的第一获取模块610、第一生成模块620、第二生成模块630及第二获取模块640)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的实体识别模型的生成方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实体识别模型的生成电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至实体识别模型的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实体识别模型的生成方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与实体识别模型的生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中，存在的管理难度大，业务扩展性弱的缺陷。

为了实现上述实施例，本申请实施例还提出一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述实施例所述的实体识别模型的生成方法。

当计算机程序被执行时，存在如下有益效果：

根据本申请实施例的技术方案，通过利用小样本数据先对模型进行训练，以得到实体识别模型，进而根据实体识别模型对未标注数据的识别结果，从未标注数据集中选取数据进行标注，然后对模型进行重复训练，从而使得基于小样本数据，就可以快速开始预测，有很好的领域迁移性，并且，对于置信度小的样本，进行重新标注后，再对模型进行训练，保证了模型的准确性和可靠性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种实体识别模型的训练方法，包括:

获取初始标注样本集；

对置信度小于第一阈值的各个未标注数据进行重新标注获取对应的各标注结果；

利用置信度小于第一阈值的所述各个未标注数据及对应的各标注结果，对所述初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值;

其中，所述利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据对应的识别结果的置信度，包括：

利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率；

根据每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率分别与参考值间各个差值的绝对值，确定每个未标注数据对应的识别结果的置信度。

2.如权利要求1所述的方法，其中，所述初始标注样本集中包括多个已标注样本及多个实体集，其中，每个实体集中包含的实体的类型相同，所述利用初始标注样本集，对初始实体识别模型进行训练，包括：

确定每个所述已标注样本中的至少一个待替换实体；

从所述至少一个待替换实体所属的实体集中，抽取任意一个与所述待替换实体不同的其他实体；

用所述其他实体替换所述待替换实体，以生成补充样本；

利用所述初始标注样本集及所述补充样本，对所述初始实体识别模型进行训练。

3.如权利要求1所述的方法，其中，所述获取每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率之后，还包括：

根据每个未标注数据中每个类别实体对应的各个预测起始字符的第一概率、及各个预测终止字符的第二概率，确定每个未标注数据中每个类别实体对应的各个参考起始字符即各个参考终止字符；

根据每个类别实体对应的各个参考起始字符、及各个参考终止字符，在对应的未标注数据中的前后顺序，确定每个类别实体对应的起始字符及终止字符。

4.如权利要求3所述的方法，其中，所述根据每个未标注数据中每个类别实体对应的各个预测起始字符的第一概率、及各个预测终止字符的第二概率，确定每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符，包括：

将每个类别实体对应的第一概率大于第三阈值的预测起始字符，确定为参考起始字符、第二概率大于第三阈值的预测终止字符，确定为参考终止字符。

5.如权利要求3所述的方法，其中，所述根据每个未标注数据中每个类别实体对应的各个预测起始字符的第一概率、及各个预测终止字符的第二概率，确定每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符，包括：

根据第一概率由大至小的顺序，从每个类别实体对应各个预测起始字符中选取N个参考起始字符、从每个类别实体对应各个预测终止字符中选取N个参考终止字符，其中，N为大于1的正整数。

6.如权利要求1-5任一所述的方法，其中，在所述利用更新后的标注样本集对更新后的实体识别模型进行继续训练之前，还包括：

根据置信度由大至小的顺序，从所述各个未标注数据中获取置信度大于第一阈值M个未标注数据，其中，M为大于1的正整数；

利用所述M个未标注数据及对应的识别结果，对所述更新后的标注样本集进行更新。

7.一种实体识别模型的生成装置，其中，包括：

第一获取模块，用于获取初始标注样本集；

第二获取模块，用于对置信度小于第一阈值的各个未标注数据进行重新标注获取对应的各标注结果；以及

训练模块，用于利用置信度小于第一阈值的所述各个未标注数据及对应的各标注结果，对所述初始标注样本集进行更新，以利用更新后的标注样本集对更新后的实体识别模型进行继续训练，直至生成的实体识别模型的准确性大于第二阈值；

其中，所述第二生成模块，包括：

预测字符获取单元，用于利用更新后的实体识别模型，对未标注数据进行实体识别，以获取每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率；

置信度确定单元，用于根据每个未标注数据中每个字符属于各个类别实体的预测起始字符的第一概率、及预测终止字符的第二概率分别与参考值间各个差值的绝对值，确定每个未标注数据对应的识别结果的置信度。

8.如权利要求7所述的实体识别模型的生成装置，其中，所述初始标注样本集中包括多个已标注样本及多个实体集，每个实体集中包含的实体的类型相同，所述利用初始标注样本集，对初始实体识别模型进行训练，所述第一生成模块，包括：

待替换实体确定单元，用于确定每个所述已标注样本中的至少一个待替换实体；

实体抽取单元，用于从所述至少一个待替换实体所属的实体集中，抽取任意一个与所述待替换实体不同的其他实体；

样本补充单元，用于使用所述其他实体替换所述待替换实体，以生成补充样本；

训练单元，用于利用所述初始标注样本集及所述补充样本，对所述初始实体识别模型进行训练。

9.如权利要求7所述的实体识别模型的生成装置，其中，所述第二生成模块，包括：

参考字符确定单元，用于根据每个未标注数据中每个类别实体对应的各个预测起始字符的第一概率、及各个预测终止字符的第二概率，确定每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符；

字符确定单元，用于根据每个未标注数据中每个类别实体对应的各个参考起始字符及各个参考终止字符，确定每个类别实体对应的起始字符及终止字符。

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的实体识别模型的生成方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的实体识别模型的生成方法。