CN117744660A

CN117744660A - 一种基于强化学习和迁移学习的命名实体识别方法和装置

Info

Publication number: CN117744660A
Application number: CN202410182078.3A
Authority: CN
Inventors: 梁会营; 杨雅婷; 林晓兰; 白焜太; 梁铭标
Original assignee: Guangdong General Hospital; Digital Health China Technologies Co Ltd
Current assignee: Guangdong General Hospital; Digital Health China Technologies Co Ltd
Priority date: 2024-02-19
Filing date: 2024-02-19
Publication date: 2024-03-22
Anticipated expiration: 2044-02-19
Also published as: CN117744660B

Abstract

本申请提供了一种基于强化学习和迁移学习的命名实体识别方法和装置，所述方法包括：利用每个高概率预测错误数据对应的第一转换数据以及预设分数对文本打分原始模型进行强化学习训练，得到文本打分模型；将已标注文本数据的第二转换数据输入到文本打分模型中，确定出已标注文本数据对应的文本分数；利用每个已标注文本数据对应的文本分数对源域命名实体识别模型进行迁移学习，以得到目标域对应的目标域命名实体识别模型将目标域对应的医学文本数据输入到目标域命名实体识别模型中，得到目标域命名实体识别模型对医学文本数据进行实体识别的结果。通过方法及装置，提升了命名实体识别模型在目标域的实体识别准确性。

Description

一种基于强化学习和迁移学习的命名实体识别方法和装置

技术领域

本申请涉及实体识别技术领域，尤其是涉及一种基于强化学习和迁移学习的命名实体识别方法和装置。

背景技术

目前，命名实体识别(NER)是自然语言处理领域的一个重要研究方向。在医学场景下，针对某些科室已经训练好NER模型的前提下，在跨科室或跨医院直接测试时，源域NER模型的表现通常会较差，而如何提高NER在目标域的准确性是一个需要解决的问题。

现有的命名实体识别模型主要基于规则匹配、统计方法和机器学习等技术，但这些方法在处理复杂的文本数据时存在一定的局限性。尤其是在处理中文文本时，由于中文的特殊性，现有技术往往无法满足高效准确的命名实体识别需求。而传统的如BI-listm+crf模型结构仅仅通过目标域数据的补标来进行训练效果也差强人意。

发明内容

有鉴于此，本申请的目的在于提供一种基于强化学习和迁移学习的命名实体识别方法和装置，以提升命名实体识别模型在目标域的实体识别准确性。

第一方面，本申请实施例提供了一种基于强化学习和迁移学习的命名实体识别方法，所述命名实体识别方法包括：

针对于目标域对应的每个待预测文本数据，将该待预测文本数据输入到预先通过源域本文数据训练好的源域命名实体识别模型中，确定出该待预测文本数据对应的预测结果；其中，所述预测结果包括该待预测文本数据在每个实体标签下的预测实体，以及该待预测文本数据中的每个字符在每个实体标签下的第一概率值；

基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据；

利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，并利用每个高概率预测错误数据对应的第一转换数据以及预设分数对文本打分原始模型进行强化学习训练，得到文本打分模型；

针对于所述目标域对应的每个已标注文本数据，对该已标注文本数据进行格式转换，得到第二转换数据，并将所述第二转换数据输入到所述文本打分模型中，确定出该已标注文本数据对应的文本分数；

将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型；

将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型中，得到所述目标域命名实体识别模型对所述医学文本数据进行实体识别的结果。

进一步的，所述基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据，包括：

针对于每个待预测文本数据中除了所述预测实体之外的每个其他字符，确定出该其他字符在每个实体标签下的第二概率值，对多个第二概率值中的最大概率值进行负对数运算，得到负对数概率值；

将多个负对数概率值中的最大值作为该待预测文本数据的分值；

基于每个待预测文本数据的分值从多个待预测文本数据中筛选出所述高概率预测错误数据。

进一步的，所述基于每个待预测文本数据的分值从多个待预测文本数据中筛选出所述高概率预测错误数据，包括：

基于每个待预测文本数据的分值，按照预设的分值区间对多个待预测文本数据进行分区，得到多个数据分区；其中，每个数据分区对应不同的分值范围，每个数据分区下包括多个分值在该数据分区对应的分值范围内的待预测文本数据；

基于每个数据分区对应的分值范围对多个数据分区进行升序排列，并基于每个数据分区在排列中的顺序为每个数据分区赋予权重；

针对于每个数据分区，基于该数据分区对应的权重，对该数据分区下的待预测文本数据进行随机抽样，以得到多个高概率预测错误数据。

针对于每个待预测文本数据，判断该待预测文本数据的分值是否小于预设分值阈值；

若是，则将该待预测文本数据作为所述高概率预测错误数据；

若否，则当判断该待预测文本数据符合预设筛选条件时，将该待预测文本数据作为所述高概率预测错误数据。

进一步的，所述利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，包括：

针对于每个高概率预测错误数据对应的预测实体内的每个实体字符，判断该预测实体对应的实体标签与该实体字符所属的真实实体对应的实体标签是否相同；

若是，则利用该预测实体对应的实体标签对该实体字符进行BIO标注，构建该实体字符对应的字符转换数据；

若否，则获取该实体字符在除了该预测实体对应的实体标签之外的其余实体标签下的起始概率最高的其他标签，并利用所述其他标签对该实体字符进行BIO标注，构建该实体字符对应的字符转换数据；

针对于每个高概率预测错误数据中非实体部分内的每个非实体字符，当该非实体字符对应的真实标签为非实体标签时，则对该非实体字符进行BIO标注，构建该非实体字符对应的字符转换数据；

当该非实体字符对应的真实标签为任一实体标签时，则从多个实体标签中抽取随机标签，并利用所述随机标签对该非实体字符进行BIO标注，构建该非实体字符对应的字符转换数据；

将多个字符转换数据按照该高概率预测错误数据中的字符顺序进行拼接，以得到该高概率预测错误数据对应的第一转换数据。

进一步的，所述利用每个高概率预测错误数据对应的第一转换数据以及预设分数对原始文本打分模型进行强化学习训练，得到文本打分模型，包括：

将每个高概率预测错误数据对应的第一转换数据输入到所述文本打分原始模型中，得到每个第一转换数据对应的预测分数；

将每个第一转换数据的预测分数与预设分数进行对比，计算所述文本打分原始模型的第一损失值；

基于所述第一损失值对所述文本打分原始模型进行迭代训练，确定出所述文本打分模型。

进一步的，所述将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型，包括：

针对于每个已标注文本数据，将该已标注文本数据输入到所述源域命名实体识别模型中，得到该已标注文本数据对应的第二损失值；

基于每个已标注文本数据对应的第二损失值以及每个已标注文本数据对应的文本分数确定出目标损失值；

基于所述目标损失值对所述源域命名实体识别模型进行迭代训练，直至迭代次数达到预测迭代次数后，确定出所述目标域命名实体识别模型。

第二方面，本申请实施例还提供了一种基于强化学习和迁移学习的命名实体识别装置，所述命名实体识别装置包括：

实体预测模块，用于针对于目标域对应的每个待预测文本数据，将该待预测文本数据输入到预先通过源域本文数据训练好的源域命名实体识别模型中，确定出该待预测文本数据对应的预测结果；其中，所述预测结果包括该待预测文本数据在每个实体标签下的预测实体，以及该待预测文本数据中的每个字符在每个实体标签下的第一概率值；

数据筛选模块，用于基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据；

模型训练模块，用于利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，并利用每个高概率预测错误数据对应的第一转换数据以及预设分数对文本打分原始模型进行强化学习训练，得到文本打分模型；

文本分数确定模块，用于针对于所述目标域对应的每个已标注文本数据，对该已标注文本数据进行格式转换，得到第二转换数据，并将所述第二转换数据输入到所述文本打分模型中，确定出该已标注文本数据对应的文本分数；

迁移学习模块，用于将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型；

实体识别模块，用于将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型中，得到所述目标域命名实体识别模型对所述医学文本数据进行实体识别的结果。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的基于强化学习和迁移学习的命名实体识别方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的基于强化学习和迁移学习的命名实体识别方法的步骤。

本申请实施例提供的一种基于强化学习和迁移学习的命名实体识别方法和装置，首先，针对于目标域对应的每个待预测文本数据，将该待预测文本数据输入到预先通过源域本文数据训练好的源域命名实体识别模型中，确定出该待预测文本数据对应的预测结果；然后，基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据；利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，并利用每个高概率预测错误数据对应的第一转换数据以及预设分数对文本打分原始模型进行强化学习训练，得到文本打分模型；针对于所述目标域对应的每个已标注文本数据，对该已标注文本数据进行格式转换，得到第二转换数据，并将所述第二转换数据输入到所述文本打分模型中，确定出该已标注文本数据对应的文本分数；将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型；最后，将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型中，得到所述目标域命名实体识别模型对所述医学文本数据进行实体识别的结果。

本申请在将源域命名实体识别模型迁移到目标域时，将目标域的待预测文本数据输入到源域命名实体识别模型中进行预测，利用预测结果来筛选高概率预测错误数据，使用高概率预测错误数据来训练文本打分模型，以使文本打分模型确定出目标域的已标注文本数据的文本分数，将已标注文本数据的文本分数加入到目标域数据的迁移训练过程中获得一个目标域命名实体识别模型，以提升命名实体识别模型在目标域的实体识别准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种基于强化学习和迁移学习的命名实体识别方法的流程图；

图2为本申请实施例所提供的一种筛选高概率预测错误数据的方法的流程图；

图3为本申请实施例所提供的一种基于强化学习和迁移学习的命名实体识别装置的结构示意图；

图4为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于实体识别技术领域。

经研究发现，现有的命名实体识别模型主要基于规则匹配、统计方法和机器学习等技术，但这些方法在处理复杂的文本数据时存在一定的局限性。尤其是在处理中文文本时，由于中文的特殊性，现有技术往往无法满足高效准确的命名实体识别需求。而传统的如BI-listm+crf模型结构仅仅通过目标域数据的补标来进行训练效果也差强人意。

基于此，本申请实施例提供了一种基于强化学习和迁移学习的命名实体识别方法，以提升命名实体识别模型在目标域的实体识别准确性。

请参阅图1，图1为本申请实施例所提供的一种基于强化学习和迁移学习的命名实体识别方法的流程图。如图1中所示，本申请实施例提供的命名实体识别方法，包括：

S101，针对于目标域对应的每个待预测文本数据，将该待预测文本数据输入到预先通过源域本文数据训练好的源域命名实体识别模型中，确定出该待预测文本数据对应的预测结果。

这里，在迁移学习中，将已有的知识叫做源域(source domain)，要学习的新知识叫目标域(target domain)。源域命名实体识别模型是预先通过源域文本数据训练得到的源域UIE-NER模型。作为示例，例如，源域可以为呼吸科，源域文本数据则是呼吸科对应的主诉文本，源域命名实体识别模型则是对呼吸科文本数据进行命名实体识别的模型。待预测文本数据指的是目标域中的主诉文本，利用待预测文本数据来检测源域命名实体识别模型对于目标域数据进行实体识别的准确性。每个待预测文本数据均对应有实体标签集合，实体标签集合中包括多个实体标签。这里，作为实例，当目标域为消化科时，待预测文本数据可以为“肚子疼痛三天”，实体标签为“部位”和“症状”，在“部位”标签下的实体为“肚子”，在“症状”标签下的实体为“疼痛”，其余字符即为非实体部分。预测结果指的是源域命名实体识别模型对待预测文本数据进行实体识别得到的结果，根据本申请提供的实施例，预测结果包括待预测文本数据在每个实体标签下的预测实体，以及待预测文本数据中的每个字符在每个实体标签下的第一概率值。

这里，应注意，上述对源域、源域命名实体识别模型、目标域、待预测文本数据和实体标签的举例仅为示例，实际中，源域、源域命名实体识别模型、目标域、待预测文本数据和实体标签不限于上述例子。

针对上述步骤S101，在具体实施时，获取预先通过源域本文数据训练好的源域命名实体识别模型，以及目标域对应的每个待预测文本数据。针对于每个待预测文本数据，将该待预测文本数据输入到源域命名实体识别模型中，确定出该待预测文本数据对应的预测结果。在使用源域命名实体识别模型进行预测时，将标签集合和待预测文本数据输入源域命名实体识别模型，源域命名实体识别模型会遍历标签集合中的每个实体标签去与待预测文本数据进行拼接，去预测该实体标签下待预测文本数据中每个字符作为实体的起始字的概率和终止字的概率，然后将起始概率值和终止概率值之和大于0.5的实体区间进行组合作为该实体标签最后的预测实体进行输出。

S102，基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据。

针对上述步骤S102，在具体实施时，基于源域命名实体识别模型对每个待预测文本数据进行命名实体识别得到的预测结果从多个待预测文本数据中筛选出源域命名实体识别模型可能预测错误的高概率预测错误数据。

请参阅图2，图2为本申请实施例所提供的一种筛选高概率预测错误数据的方法的流程图。如图2中所示，针对上述步骤S102，所述基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据，包括：

S201，针对于每个待预测文本数据中除了所述预测实体之外的每个其他字符，确定出该其他字符在每个实体标签下的第二概率值，对多个第二概率值中的最大概率值进行负对数运算，得到负对数概率值。

针对上述步骤S201，在具体实施时，针对于每个待预测文本数据中除了预测实体之外的每个其他字符，确定出该其他字符在每个实体标签下的第二概率值。这里，延续上述实施例，当待预测文本数据为“肚子疼痛三天”，源域命名实体识别模型预测出该待预测文本数据中的预测实体为“肚子”和“三天”，这时的其他字符则为“疼”和“痛”，从预测结果中确定出上述两个其他字符在实体标签“部位”和“症状”下的第二概率值。并从多个第二概率值中确定出最大概率值，对最大概率值进行负对数运算，得到负对数概率值。

S202，将多个负对数概率值中的最大值作为该待预测文本数据的分值。

S203，基于每个待预测文本数据的分值从多个待预测文本数据中筛选出所述高概率预测错误数据。

针对上述步骤S202-步骤S203，在具体实施时，确定出多个负对数概率值后，将多个负对数概率值中的最大值作为该待预测文本数据的分值。得到多个待预测文本数据的分值后，基于每个待预测文本数据的分值从多个待预测文本数据中筛选出高概率预测错误数据。

作为一种可选的实施例，针对上述步骤S203，所述基于每个待预测文本数据的分值从多个待预测文本数据中筛选出所述高概率预测错误数据，包括：

A：基于每个待预测文本数据的分值，按照预设的分值区间对多个待预测文本数据进行分区，得到多个数据分区。

这里，预设的分值区间可以设定为0.3，对此本申请不做具体限定。

针对上述步骤A，在具体实施时，基于每个待预测文本数据的分值，按照预设的分值区间对多个待预测文本数据进行分区，得到多个数据分区。这里，每个数据分区对应不同的分值范围，每个数据分区下包括多个分值在该数据分区对应的分值范围内的待预测文本数据。这里，作为实例，当分值区间为0.3时，多个数据分区对应的分值范围分别为0-0.3、0.3-0.6、0.6-0.9以及0.9-1。

B基于每个数据分区对应的分值范围对多个数据分区进行升序排列，并基于每个数据分区在排列中的顺序为每个数据分区赋予权重。

C：针对于每个数据分区，基于该数据分区对应的权重，对该数据分区下的待预测文本数据进行随机抽样，以得到多个高概率预测错误数据。

针对上述步骤B-步骤C，在具体实施时，进行数据分区后，基于每个数据分区对应的分值范围对多个数据分区进行升序排列，并基于每个数据分区在排列中的顺序为每个数据分区赋予权重。这里，在具体实施时，按照升序排列的顺序为每个数据分区的权重依次加1。延续上述实施例，数据分区对应的分值区间为0-0.3时，该数据分区的权重为1；数据分区对应的分值区间为0.3-0.6时，该数据分区的权重为2；数据分区对应的分值区间为0.6-0.9时，该数据分区的权重为3；数据分区对应的分值区间为0.9-1时，该数据分区的权重为4。然后，针对于每个数据分区，基于该数据分区对应的权重，对该数据分区下的待预测文本数据进行随机抽样，以得到多个高概率预测错误数据。

a：针对于每个待预测文本数据，判断该待预测文本数据的分值是否小于预设分值阈值。

b：若是，则将该待预测文本数据作为所述高概率预测错误数据。

c：若否，则当判断该待预测文本数据符合预设筛选条件时，将该待预测文本数据作为所述高概率预测错误数据。

这里，预设分值阈值可以预先设定为0.99，对此本申请不做具体限定。

针对上述步骤a-步骤b，在具体实施时，针对于每个待预测文本数据，首先判断该待预测文本数据的分值是否小于预设分值阈值。若分值小于预设分值阈值，则执行上述步骤b，将该待预测文本数据作为高概率预测错误数据。若分值不小于预设分值阈值，则执行上述步骤c，继续判断该待预测文本数据是否符合预设筛选条件，若符合，则将该待预测文本数据作为高概率预测错误数据。

这里，具体的，根据本申请提供的实施例，预设筛选条件包括：（1）该待预测文本数据对应的预测实体或预测实体中的子字符串在其所属实体标签之外的其他实体标签下的概率值达到预设概率阈值；（2）该待预测文本数据中预测实体的上一个字符在预测实体所属的实体标签下的概率达到预设阈值；（3）该待预测文本数据对应的预测实体与另一命名实体识别模型出的实体范围之间存在交集。

这里，预设概率阈值可以为1e-5，对此本申请不做具体限定。

这里，依次针对上述三种预设筛选条件进行具体说明。延续上述实施例，例如，该待预测文本数据为“肚子疼痛三天”，实体标签包括“部位”和“症状”。针对上述预设筛选条件（1），源域命名实体识别模型预测出在“症状”标签下的预测实体为“三天”，该预测实体的子字符串包括“三”和“天”，当“三天”、“三”、“天”这三者在“部位”标签下的概率值达到预设概率阈值时，则认为该待预测文本数据为高概率预测错误数据。针对上述预设筛选条件（2），例如，源域命名实体识别模型预测出在“部位”标签下的预测实体为“子”，该预测实体的上一个字符为“肚”，当“肚”字在“部位”标签下的概率达到预设阈值时，则认为该待预测文本数据为高概率预测错误数据。针对上述预设筛选条件（3），例如，源域命名实体识别模型预测出的预测实体为包括“肚子”，另一个命名实体识别模型预测出的预测实体包括“子疼”，这时两者存在交集，则认为该待预测文本数据为高概率预测错误数据。

S103，利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，并利用每个高概率预测错误数据对应的第一转换数据以及预设分数对文本打分原始模型进行强化学习训练，得到文本打分模型。

针对上述步骤S103，在具体实施时，针对于步骤S102中筛选出的每个高概率预测错误数据，利用对该高概率预测错误数据对应的预测结果对该高概率预测错误数据进行格式转换，得到文本转换数据。并利用每个高概率预测错误数据对应的第一转换数据以及预设分数对文本打分原始模型进行强化学习训练，得到文本打分模型。

这里，根据本申请提供的实施例，文本转换数据的格式为：“原文【SEP】字符【SEP】该字符索引【CONCAT】B-标签或I-标签或O0/1”。数据构造方式为，在【CONCAT】后面BIO部分入手，在目标域迁移时筛选出的高概率预测错误数据中，将原文按照预测结果分为实体部分和非实体部分。

针对于实体部分：

字符预测正确时，使用“B-”或“I-”加上对应的实体标签，后面对应label 为1；字符预测错误时，使用“B-”或“I-”加上该字符在非标注标签外的其余标签下起始概率最高的标签，后面对应label 为0。

针对于非实体部分：

字符预测正确时选择“O”，后面对应label 为1；字符预测正确时随机选择“B-”或“I-”加上随机标签，后面对应label 为0。

作为一种可选的实施例，针对上述步骤S103，所述利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，包括：

步骤1031，针对于每个高概率预测错误数据对应的预测实体内的每个实体字符，判断该预测实体对应的实体标签与该实体字符所属的真实实体对应的实体标签是否相同。

针对于上述步骤1031，在具体实施时，针对于每个高概率预测错误数据对应的预测实体内的每个实体字符，判断该预测实体对应的实体标签与该实体字符所属的真实实体对应的实体标签是否相同。这里，延续上述实施例，例如，当预测实体为“肚子”，实体字符为“肚”，源域命名实体识别模型预测出预测实体对应的实体标签为“部位”，该实体字符所属的真实实体为“肚子”，实体标签也为“部位”，这时认为相同。当预测实体为“疼痛”，字符为“疼”，源域命名实体识别模型预测出预测实体对应的实体标签为“部位”，该实体字符所属的真实实体对应的实体标签为“症状”，这时认为不相同。

步骤1032，若是，则利用该预测实体对应的实体标签对该实体字符进行BIO标注，构建该实体字符对应的字符转换数据。

针对上述步骤1032，在具体实施时，若相同，则利用该预测实体对应的实体标签对该实体字符进行BIO标注，构建该实体字符对应的字符转换数据。这里，延续上述实施例，针对实体字符“肚”，利用该实体字符在待预测文本数据中的位置索引，该实体字符在预测实体中的位置和实体标签进行BIO标注，得到的字符转换数据为“肚子疼痛三天【SEP】肚【SEP】0【CONCAT】B-部位 1”。由于预测相同，因此上述字符转换数据中最后一位的标签为1。

步骤1033，若否，则获取该实体字符在除了该预测实体对应的实体标签之外的其余实体标签下的起始概率最高的其他标签，并利用所述其他标签对该实体字符进行BIO标注，构建该实体字符对应的字符转换数据。

针对上述步骤1033，在具体实施时，若不相同，则获取该实体字符在除了该预测实体对应的实体标签之外的其余实体标签下的起始概率最高的其他标签，并利用其他标签对该实体字符进行BIO标注，构建该实体字符对应的字符转换数据。这里，延续上述实施例，针对实体字符“疼”，当该实体字符在“症状”标签下的起始概率最高时，利用该实体字符在待预测文本数据中的位置索引，该实体字符在预测实体中的位置和其他标签进行BIO标注，得到的字符转换数据为“肚子疼痛三天【SEP】疼【SEP】2【CONCAT】B-症状 0”。由于预测不相同，因此上述字符转换数据中最后一位的标签为0。

步骤1034，针对于每个高概率预测错误数据中非实体部分内的每个非实体字符，当该非实体字符对应的真实标签为非实体标签时，则对该非实体字符进行BIO标注，构建该非实体字符对应的字符转换数据。

步骤1035，当该非实体字符对应的真实标签为任一实体标签时，则从多个实体标签中抽取随机标签，并利用所述随机标签对该非实体字符进行BIO标注，构建该非实体字符对应的字符转换数据。

针对上述步骤1034-步骤1035，在具体实施时，针对于每个高概率预测错误数据中非实体部分内的每个非实体字符，当该非实体字符对应的真实标签为非实体标签时，则对该非实体字符进行BIO标注，构建该非实体字符对应的字符转换数据。当该非实体字符对应的真实标签为多个实体标签中的任一实体标签时，则从多个实体标签中抽取随机标签，并利用所述随机标签对该非实体字符进行BIO标注，构建该非实体字符对应的字符转换数据。这里，作为实例，当源域命名实体识别模型预测出非实体部分为“三天”时，针对于非实体字符“三”，该非实体字符对应的真实标签即为非实体标签时，对该非实体字符进行BIO标注，构建该非实体字符对应的字符转换数据为“肚子疼痛三天【SEP】三【SEP】4【CONCAT】O 1”。当源域命名实体识别模型预测出非实体部分为“疼痛”时，针对于非实体字符“疼”，该非实体字符对应的真实标签即为“症状”，这时从多个实体标签中抽取随机标签，例如随机标签为“部位”，并利用随机标签对该非实体字符进行BIO标注，构建该非实体字符对应的字符转换数据“肚子疼痛三天【SEP】疼【SEP】2【CONCAT】B-症状 0”或者“肚子疼痛三天【SEP】疼【SEP】2【CONCAT】I-症状 0”。

步骤1036，将多个字符转换数据按照该高概率预测错误数据中的字符顺序进行拼接，以得到该高概率预测错误数据对应的第一文本转换数据。

针对上述步骤1036，在具体实施时，高概率预测错误数据中的每个字符对应的字符转换数据均构建好后，将多个字符转换数据按照该高概率预测错误数据中的字符顺序进行拼接，以得到该高概率预测错误数据对应的第一文本转换数据。

作为一种可选的实施例，针对上述步骤S103，所述利用每个高概率预测错误数据对应的第一转换数据以及预设分数对原始文本打分模型进行强化学习训练，得到文本打分模型，包括：

I：将每个高概率预测错误数据对应的第一转换数据输入到所述文本打分原始模型中，得到每个第一转换数据对应的预测分数。

II：将每个第一转换数据的预测分数与预设分数进行对比，计算所述文本打分原始模型的第一损失值。

III：基于所述第一损失值对所述文本打分原始模型进行迭代训练，确定出所述文本打分模型。

针对上述步骤I-步骤III，在具体实施时，将每个高概率预测错误数据对应的第一转换数据输入到文本打分原始模型中，得到每个第一转换数据对应的预测分数。将每个第一转换数据的预测分数与预设分数进行对比，计算当前文本打分原始模型的第一损失值。根据第一损失值对文本打分原始模型进行迭代训练，其中，当第一损失值大于预设损失阈值时，则对文本打分原始模型的模型参数进行更改，利用第一转换数据对更改后的文本打分原始模型进行训练，直至第一损失值小于等于预设损失阈值时，停止对文本打分原始模型进行迭代训练，确定出文本打分模型。

S104，针对于所述目标域对应的每个已标注文本数据，对该已标注文本数据进行格式转换，得到第二转换数据，并将所述第二转换数据输入到所述文本打分模型中，确定出该已标注文本数据对应的文本分数。

需要说明的是，已标注文本数据指的是目标域对应的，已经根据实体标签标注好了所包含的实体的文本数据。

针对上述步骤S104，在具体实施时，针对于目标域对应的每个已标注文本数据，对该已标注文本数据进行格式转换，得到第二转换数据，并将该第二转换数据输入到步骤S103已经训练好的文本打分模型中，确定出该已标注文本数据对应的文本分数。这里，对已标注文本数据进行格式转换的方法与上述实施例中提供的对高概率预测错误数据进行格式转换的方法相同，进行 BIO标注以得到第二转换数据，这里不再赘述。

S105，将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型。

针对上述步骤S105，在具体实施时，将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，使每个已标注文本数据对应的文本分数也参与目标域命名实体识别的模型训练，以得到所述目标域对应的目标域命名实体识别模型。

作为一种可选的实施例，针对上述步骤S105，所述将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型，包括：

步骤1051，针对于每个已标注文本数据，将该已标注文本数据输入到所述源域命名实体识别模型中，得到该已标注文本数据对应的第二损失值。

针对上述步骤1051，在具体实施时，针对于每个已标注文本数据，将该已标注文本数据输入到源域命名实体识别模型中，得到该已标注文本数据对应的第二损失值。

步骤1052，基于每个已标注文本数据对应的第二损失值以及每个已标注文本数据对应的文本分数确定出目标损失值。

针对上述步骤1052，在具体实施时，根据每个已标注文本数据对应的第二损失值以及每个已标注文本数据对应的文本分数确定出目标损失值。具体的，首先，针对于每个已标注文本数据，利用该已标注文本数据对应的第二损失函数和文本分数计算出待求和损失值。这里，通过下述公式计算待求和损失值：L=Loss_tl-β*L_rm。其中，L表示该已标注文本数据的待求和损失值，Loss_tl表示该已标注文本数据对应的第二损失值，L_rm表示该已标注文本数据对应的文本分数，β表示调节系数。每个已标注文本数据的待求和损失值确定出后，将多个待求和损失值相加，即可确定出目标损失值。

步骤1053，基于所述目标损失值对所述源域命名实体识别模型进行迭代训练，直至迭代次数达到预测迭代次数后，确定出所述目标域命名实体识别模型。

针对上述步骤1053，在具体实施时，基于步骤1052中计算出的目标损失值对源域命名实体识别模型进行迭代训练，每次迭代训练均对源域命名实体识别模型的模型参数进行更改，直至迭代次数达到预测迭代次数后，停止对源域命名实体识别模型进行迭代训练，确定出目标域命名实体识别模型。

S106，将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型中，得到所述目标域命名实体识别模型对所述医学文本数据进行实体识别的结果。

针对上述步骤S106，在具体实施时，目标域命名实体识别模型确定出后，将目标域对应的医学文本数据输入到目标域命名实体识别模型，得到目标域命名实体识别模型对医学文本数据进行实体识别的结果，以实现目标域命名实体识别模型对目标域医学文本数据的命名实体识别。

本申请实施例提供的命名实体识别方法，首先，针对于目标域对应的每个待预测文本数据，将该待预测文本数据输入到预先通过源域本文数据训练好的源域命名实体识别模型中，确定出该待预测文本数据对应的预测结果；然后，基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据；利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，并利用每个高概率预测错误数据对应的第一转换数据以及预设分数对文本打分原始模型进行强化学习训练，得到文本打分模型；针对于所述目标域对应的每个已标注文本数据，对该已标注文本数据进行格式转换，得到第二转换数据，并将所述第二转换数据输入到所述文本打分模型中，确定出该已标注文本数据对应的文本分数；将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型；最后，将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型中，得到所述目标域命名实体识别模型对所述医学文本数据进行实体识别的结果。

请参阅图3，图3为本申请实施例所提供的一种基于强化学习和迁移学习的命名实体识别装置的结构示意图。如图3中所示，所述命名实体识别装置300包括：

实体预测模块301，用于针对于目标域对应的每个待预测文本数据，将该待预测文本数据输入到预先通过源域本文数据训练好的源域命名实体识别模型中，确定出该待预测文本数据对应的预测结果；其中，所述预测结果包括该待预测文本数据在每个实体标签下的预测实体，以及该待预测文本数据中的每个字符在每个实体标签下的第一概率值；

数据筛选模块302，用于基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据；

模型训练模块303，用于利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，并利用每个高概率预测错误数据对应的第一转换数据以及预设分数对文本打分原始模型进行强化学习训练，得到文本打分模型；

文本分数确定模块304，用于针对于所述目标域对应的每个已标注文本数据，对该已标注文本数据进行格式转换，得到第二转换数据，并将所述第二转换数据输入到所述文本打分模型中，确定出该已标注文本数据对应的文本分数；

迁移学习模块305，用于将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型；

实体识别模块306，用于将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型中，得到所述目标域命名实体识别模型对所述医学文本数据进行实体识别的结果。

进一步的，所述数据筛选模块302在用于基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据时，所述数据筛选模块302还用于：

进一步的，所述数据筛选模块302在用于基于每个待预测文本数据的分值从多个待预测文本数据中筛选出所述高概率预测错误数据，所述数据筛选模块302还用于：

进一步的，所述模型训练模块303在用于利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据时，所述模型训练模块303还用于：

将多个字符转换数据按照该高概率预测错误数据中的字符顺序进行拼接，以得到该高概率预测错误数据对应的第一文本转换数据。

进一步的，所述模型训练模块303在用于利用每个高概率预测错误数据对应的第一转换数据以及预设分数对原始文本打分模型进行强化学习训练，得到文本打分模型时，所述模型训练模块303还用于：

进一步的，所述迁移学习模块305在用于将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型时，所述迁移学习模块305还用于：

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图1所示方法实施例中的基于强化学习和迁移学习的命名实体识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的基于强化学习和迁移学习的命名实体识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于强化学习和迁移学习的命名实体识别方法，其特征在于，所述命名实体识别方法包括：

2.根据权利要求1所述的命名实体识别方法，其特征在于，所述基于每个待预测文本数据对应的预测结果从多个待预测文本数据中筛选出高概率预测错误数据，包括：

3.根据权利要求2所述的命名实体识别方法，其特征在于，所述基于每个待预测文本数据的分值从多个待预测文本数据中筛选出所述高概率预测错误数据，包括：

4.根据权利要求2所述的命名实体识别方法，其特征在于，所述基于每个待预测文本数据的分值从多个待预测文本数据中筛选出所述高概率预测错误数据，包括：

5.根据权利要求1所述的命名实体识别方法，其特征在于，所述利用每个高概率预测错误数据对应的预测结果对每个高概率预测错误数据进行格式转换，得到每个高概率预测错误数据对应的第一转换数据，包括：

6.根据权利要求1所述的命名实体识别方法，其特征在于，所述利用每个高概率预测错误数据对应的第一转换数据以及预设分数对原始文本打分模型进行强化学习训练，得到文本打分模型，包括：

7.根据权利要求1所述的命名实体识别方法，其特征在于，所述将多个已标注文本数据输入到所述源域命名实体识别模型中，利用每个已标注文本数据对应的文本分数对所述源域命名实体识别模型进行迁移学习，以得到所述目标域对应的目标域命名实体识别模型，包括：

8.一种基于强化学习和迁移学习的命名实体识别装置，其特征在于，所述命名实体识别装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的基于强化学习和迁移学习的命名实体识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的基于强化学习和迁移学习的命名实体识别方法的步骤。