CN111339759A

CN111339759A - 领域要素识别模型训练方法、装置及电子设备

Info

Publication number: CN111339759A
Application number: CN202010107938.9A
Authority: CN
Inventors: 高原; 戴岱; 肖欣延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-26
Anticipated expiration: 2040-02-21
Also published as: CN111339759B

Abstract

本申请提出一种领域要素识别模型训练方法、装置及电子设备，属于自然语言处理技术领域。其中，该方法包括：利用预设的领域词典与预设的正则表达式，对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息；利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息；根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对预设的要素识别模型进行更新。由此，通过这种领域要素识别模型训练方法，不仅有效提升了要素识别模型的识别效果，通用性好，而且提高了要素识别的效率，大大降低了标注成本。

Description

领域要素识别模型训练方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及自然语言处理技术领域，提出一种领域要素识别模型训练方法、装置及电子设备。

背景技术

在专业领域内存在着大量的无结构或半结构化的文本，这些文本中无疑是蕴含了大量专业知识的。如何使用计算机算法自动的完成专业知识库的构建将具有重大意义。而领域要素识别技术是知识库构建中最基础的技术，是知识库构建的前提，要素识别技术效果的好坏将直接决定知识库构建的效果。

领域要素识别技术面临很多技术挑战。专业领域内虽然有大量的专业文献和数据，但是这些数据是以无监督数据形式存在的。构建领域要素识别模型所需要的有标注数据却十分稀缺。

相关技术中，可以使用领域词典、正则表达式和句法树等手段对领域文本进行规则匹配，以对领域文本进行要素识别。但是，这种要素识别方法，由于规则系统的建立需要耗费大量精力，且只能识别已有规则覆盖的要素，从而不仅泛化能力弱，而且人工成本较高。

发明内容

本申请提出的领域要素识别模型训练方法、装置及电子设备，用于解决相关技术中，基于规则匹配的要素识别方法，由于规则系统的建立需要耗费大量精力，且只能识别已有规则覆盖的要素，从而不仅泛化能力弱，而且人工成本较高的问题。

本申请一方面实施例提出的领域要素识别模型训练方法，包括：利用预设的领域词典与预设的正则表达式，对训练数据集进行标注，以生成所述训练数据集中每个训练数据对应的第一参考实体标注信息；利用预设的要素识别模型，对所述训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息；根据所述每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对所述预设的要素识别模型进行更新。

本申请另一方面实施例提出的领域要素识别模型训练装置，包括：标注模块，用于利用预设的领域词典与预设的正则表达式，对训练数据集进行标注，以生成所述训练数据集中每个训练数据对应的第一参考实体标注信息；第一确定模块，用于利用预设的要素识别模型，对所述训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息；第一更新模块，用于根据所述每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对所述预设的要素识别模型进行更新。

本申请再一方面实施例提出的电子设备，其包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的领域要素识别模型训练方法。

本申请又一方面实施例提出的存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如前所述的领域要素识别模型训练方法。

上述申请中的任一个实施例具有如下优点或有益效果：通过对无监督的训练数据集进行规则标注，以利用标注后生成的半监督训练数据集对预设的要素识别模型进行训练，从而不仅有效提升了要素识别模型的识别效果，通用性好，而且提高了要素识别的效率，大大降低了标注成本。因为采用了利用预设的领域词典与预设的正则表达式，对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息，并利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息，进而根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对预设的要素识别模型进行更新的技术手段，所以克服了由于规则系统的建立需要耗费大量精力，且只能识别已有规则覆盖的要素，从而使得基于规则匹配的要素识别方法不仅泛化能力弱，而且人工成本较高的问题，进而达到了不仅有效提升要素识别模型的识别效果，通用性好，而且提高要素识别的效率，大大降低标注成本的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种领域要素识别模型训练方法的流程示意图；

图2为本申请实施例所提供的另一种领域要素识别模型训练方法的流程示意图；

图3为本申请实施例所提供的再一种领域要素识别模型训练方法的流程示意图；

图4为本申请实施例提供的一种领域要素识别模型训练装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对相关技术中，基于规则匹配的要素识别方法，由于规则系统的建立需要耗费大量精力，且只能识别已有规则覆盖的要素，从而不仅泛化能力弱，而且人工成本较高的问题，提出一种领域要素识别模型训练方法。

下面参考附图对本申请提供的领域要素识别模型训练方法、装置、电子设备及存储介质进行详细描述。

图1为本申请实施例所提供的一种领域要素识别模型训练方法的流程示意图。

如图1所示，该领域要素识别模型训练方法，包括以下步骤：

步骤101，利用预设的规则对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息。

其中，预设的规则，可以包括预设的词典、正则表达式、句法树中的至少一种。需要说明的是，预设的规则是根据具体的应用领域的文献资料生成的。比如，实际的应用领域为医学领域，预设的规则中包括预设的词典、正则表达式，则可以根据医学领域的专业文献数据生成预设的词典、正则表达式，即预设的词典中可以包括疾病名称、手术名称、检查项目名称等医学领域的实体，正则表达式中可以包括医学领域的常用实体对应的正则表达式、常用句式对应的正则表达式等，可以用于对医学领域文本中的实体进行标注。

其中，训练数据对应的第一参考实体标注信息，是指利用预设的规则对训练数据中包含的命名实体进行标注的结果。作为一种可能的实现方式，训练数据对应的第一参考实体标注信息可以包括训练数据对应的参考实体标注序列。

在本申请实施例中，可以利用预设的规则对训练数据集进行标注，即将每个训练数据与预设的规则进行匹配，以确定每个训练数据中包含的命名实体与每个命名实体对应的实体标签，从而生成每个训练数据对应的参考实体标注序列，即第一参考实体标注信息。

举例来说，若预设的规则中包括预设的词典和正则表达式，则可以首先将训练数据进行分词处理，并将训练数据中包括的每个分词与预设的词典中的每个词进行匹配，若预设的词典中包括与某个分词匹配分词，则可以将该分词确定为训练数据中的命名实体，并利用预设的词典中与该分词匹配的词的实体标签，对该分词进行标注。比如，训练数据中的一个分词为“心电图”，并且预设的词典中包括分词“心电图”且“心电图”的实体标签为“检查”，从而可以将训练数据中的命名实体“心电图”标注为“检查”。

作为一种可能的实现方式，在对训练数据中的命名实体进行标注时，可以采用预设的标注规则进行标注。比如，字母“O”表示非命名实体，字母“T”表示“检查”类型的命名实体等，“B-X”表示“X”类型命名实体的第一个词，“I-X”表示“X”类型命名实体的第二个及第二个以后词，如某分词的标注为“B-T”，则该分词为一个“T”类命名实体的第一个词。因此，在通过预设的规则对训练数据集进行标注时，对于每一个训练数据，可以生成一个对应的参考实体标注序列。

举例来说，训练数据为“全麻下行右肺上叶楔形切除术”，则对该训练数据进行分词处理，获得的各分词为“全麻”、“下”、“行”、“右肺上叶”、“楔形切除术”，则该训练数据对应的第一参考实体标注信息中可以包括参考实体标注序列“B-T、O、O、B-B、B-O”，其中“B-T”表示“全麻”为“T”类命名实体的第一个词，“O”表示“下”和“行”不是命名实体，“B-B”表示“右肺上叶”为“B”类命名实体的第一个词，“B-O”表示“楔形切除术”为“O”类命名实体的第一个词。

步骤102，利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息。

其中，预设的要素识别模型，可以是任意的可以对输入文本中的命名实体进行识别并标注的序列标注模型，本申请实施例对此不做限定。比如，预设的要素识别模型可以是双向长短期记忆-条件随机场(Bi-directionalLong Short-Term Memory-conditionalrandom field，简称BiLSTM-CRF)模型。

其中，训练数据对应的预测实体标注信息，是指利用预设的要素识别模型对训练数据中包含的命名实体进行识别并标注的结果。作为一种可能的实现方式，训练数据对应的预测实体标注信息可以包括训练数据对应的预测实体标注序列。

在本申请实施例中，可以将训练数据集中的每个训练数据输入预设的要素识别模型，以使预设的要素识别模型对每个训练数据中包括的命名实体及命名实体的标签进行识别，从而确定出每个训练数据对应的预测实体标注序列，即预测实体标注信息。

作为一种可能的实现方式，若预设的要素识别模型为BiLSTM-CRF模型，则对于一个训练数据，BiLSTM-CRF模型可以输出训练数据对应的过个候选实体标注序列，之后可以根据BiLSTM-CRF模型的CRF层的状态信息，确定每个候选实体标注序列的概率，进而根据每个候选实体标注序列的概率，从训练数据对应的多个候选实体标注序列中选取训练数据对应的预测实体标注序列。

可选的，可以将训练数据应用的概率最大的候选实体标注序列，确定为训练数据对应的预测实体标注序列。

步骤103，根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对预设的要素识别模型进行更新。

在本申请实施例中，训练数据对应的第一参考实体标注信息可以反映出训练数据中实际包括的命名实体，及各命名实体的实际标签，从而可以根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，判断预设的要素识别模型的预测性能，并对预设的要素识别模型进行更新。

作为一种可能的实现方式，若训练数据对应的第一参考实体标注信息包括训练数据对应的参考实体标注序列，训练数据对应的预测实体标注信息可以包括训练数据对应的预测实体标注序列，则可以根据每个训练数据对应的参考实体标注序列与预测实体标注序列的差异，确定预设的要素识别模型的第一损失值。若第一损失值大于第一阈值，则可以确定预设的要素识别模型的性能较差，则可以根据第一损失值对预设的要素识别模型的参数进行更新，以生成新的要素识别模型；若第一损失值小于或等于第一阈值，则可以确定预设的要素识别模型的性能较好，则可以不对预设的要素识别模型进行更新。

需要说明的是，对预设的要素识别模型进行更新的过程可以是多次迭代的过程。也就是说，在根据第一损失值对预设的要素识别模型进行更新之后，可以利用更新后的要素识别模型继续对训练数据集进行识别，确定每个训练数据对应的新的预测实体标注信息，进而根据每个训练数据对应的新的预测实体标注信息与参考实体标注信息的差异，确定新的第一损失值。若新的第一损失值小于或等于第一阈值，则说明更新后的要素识别模型已经符合性能需求，从而无需继续对要素识别模型进行继续训练和更新；若新的第一损失值大于第一阈值，则说明更新后的要素识别模型仍然不符合性能需求，从而可以根据新的第一损失值对更新后的要素识别模型的参数进行再次更新，直至更新后的要素识别模型的第一损失值小于或等于第一阈值，则完成对要素识别模型的训练完成。

实际使用时，可以根据实际需要预设第一阈值的具体取值，本申请实施例对此不做限定。

根据本申请实施例的技术方案，通过利用预设的领域词典与预设的正则表达式，对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息，并利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息，进而根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对预设的要素识别模型进行更新。由此，通过对无监督的训练数据集进行规则标注，以利用标注后生成的半监督训练数据集对预设的要素识别模型进行训练，从而不仅有效提升了要素识别模型的识别效果，通用性好，而且提高了要素识别的效率，大大降低了标注成本。

在本申请一种可能的实现形式中，还可以在预设的要素识别模型中融入语言模型，以通过多任务训练的损失值，共同对预设的要素模型进行更新，进一步提高要素识别模型的预测准确性。

下面结合图2，对本申请实施例提供的领域要素识别模型训练方法进行进一步说明。

图2为本申请实施例所提供的另一种领域要素识别模型训练方法的流程示意图。

如图2所示，该领域要素识别模型训练方法，包括以下步骤：

步骤201，利用预设的规则对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息，其中，每个训练数据对应的第一参考实体标注信息包括参考实体标注序列及每个参考实体对应的下一个分词。

在本申请实施例中，可以在预设的要素识别模型中融入语言模型，即在利用预设的要素识别模型对训练数据中的实体进行识别并标注时，还可以对训练语句中当前正在进行标注的分词的下一个分词进行预测，以通过两个任务的的损失值，对预设的要素识别模型进行更新，从而进一步提高训练出的领域要素识别模型的预测准确性。因此，在对训练数据进行标注时，不仅需要对训练数据中包括的命名实体及命名实体的标签进行标注，还需要对每个实体在训练数据中的下一个分词进行标注，从而可以根据训练数据对应的第一参考实体标注信息中包括的每个参考实体对应的下一个分词，验证在后续的训练过程中，预设的要素识别模型对实体对应的下一个分词的预测是否准确。

举例来说，训练数据为“全麻下行右肺上叶楔形切除术”，则对该训练数据进行分词处理，获得的各分词为“全麻”、“下”、“行”、“右肺上叶”、“楔形切除术”，则该训练数据对应的第一参考实体标注信息中除了可以包括参考实体标注序列“B-T、O、O、B-B、B-O”之外，还可以包括“全麻”、“下”、“行”、“右肺上叶”、“楔形切除术”分别对应的下一个分词，即“全麻”对应的下一个分词为“下”，等等。

上述步骤201中对训练数据集进行标注的其他具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息，其中，每个训练数据对应的预测实体标注信息包括预测实体标注序列及每个预测实体对应的下一个预测词。

作为一种可能的实现方式，在预设的要素识别模型中融入语言模型时，预设的要素识别模型不仅可以对训练数据中包括的命名实体进行识别并标注，还可以对训练数据中当前预测的分词对应的下一个分词进行预测。因此，每个训练数据对应的预测实体标注信息中，不仅包括训练数据对应的预测实体标注序列，还包括训练数据中每个预测实体对应的下一个预测词。其中，每个预测实体对应的下一个预测词，是指通预设的要素识别模型预测的预测命名实体在训练数据中的下一个词。

步骤203，根据每个训练数据对应的预测实体标注序列与参考实体标注序列的差异，及每个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，对预设的要素识别模型进行更新。

在本申请实施例中，预设的要素识别模型中融入语言模型任务时，可以根据每个训练数据对应的预测实体标注序列与参考实体标注序列的差异，判断预设的要素识别模型进行命名实体标注任务的性能，以及可以根据每个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，判断预设的要素识别模型进行语言模型任务的性能，从而根据两个任务的损失值，共同对预设的要素识别模型进行更新。

具体的，上述步骤203，可以包括：

根据每个训练数据对应的预测实体标注序列与参考实体标注序列的差异，确定预设的要素识别模型的第一损失值；

根据每个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，确定预设的要素识别模型的第二损失值；

根据第一损失值及所述第二损失值，对预设的要素识别模型进行更新。

在本申请实施例中，可以根据每个训练数据对应的参考实体标注序列与预测实体标注序列的差异，确定预设的要素识别模型的第一损失值，以及根据个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，确定预设的要素识别模型的第二损失值。

可选的，若第一损失值大于第一阈值和/或第二损失值大于第二阈值，则可以确定预设的要素识别模型的性能较差，则可以根据第一损失值及第二损失值对预设的要素识别模型的参数进行更新，以生成新的要素识别模型；若第一损失值小于或等于第一阈值且第二损失值小于或等于第二阈值，则可以确定预设的要素识别模型在两个任务中的性能都较好，则可以不对预设的要素识别模型进行更新。

可选的，在确定出预设的要素识别模型的第一损失值和第二损失值之后，还可以将第一损失值和第二损失值进行融合，进而根据融合后的损失值对预设的要素识别模型进行更新。比如，可以在第一损失值和第二损失值之和大于第三阈值时，则可以确定预设的要素识别模型的性能较差，则可以根据第一损失值与第二损失值之和对预设的要素识别模型的参数进行更新，以生成新的要素识别模型；若第一损失值与第二损失值之和小于或等于第三阈值，则可以确定预设的要素识别模型在两个任务中的性能都较好，则可以不对预设的要素识别模型进行更新。

需要说明的是，对预设的要素识别模型进行更新的过程可以是多次迭代的过程。也就是说，可以对预设的要素识别模型进行多次训练，直至最新的要素识别模型的第一损失值和第二损失值均符合预设要求。

需要说明的是，根据第一损失值及第二损失值对预设的要素识别模型进行更新的方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要选择根据根据第一损失值及第二损失值对预设的要素识别模型进行更新的方式，本申请实施例对此不做限定。

根据本申请实施例的技术方案，通过利用预设的领域词典与预设的正则表达式，对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息，其中，每个训练数据对应的预测实体标注信息包括预测实体标注序列及每个预测实体对应的下一个预测词，并利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息，其中，每个训练数据对应的预测实体标注信息包括预测实体标注序列及每个预测实体对应的下一个预测词，进而根据每个训练数据对应的预测实体标注序列与参考实体标注序列的差异，及每个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，对预设的要素识别模型进行更新。由此，通过对无监督的训练数据集进行规则标注，以利用标注后生成的半监督训练数据集对预设的要素识别模型进行训练，并在预设的要素识别模型中融入语言模型任务，从而不仅进一步有效提升了要素识别模型的识别准确度，通用性好，而且提高了要素识别的效率，大大降低了标注成本。

在本申请一种可能的实现形式中，还可以通过主动学习机制，在模型训练过程中挑选出模型不置信的训练样本进行人工标注，以利用人工标注后的训练样本对模型进行精调，从而不仅可以进一步提高模型的预测准确度，而且可以进一步降低人工标注成本。

下面结合图3，对本申请实施例提供的领域要素识别模型训练方法进行进一步说明。

图3为本申请实施例所提供的再一种领域要素识别模型训练方法的流程示意图。

如图3所示，该领域要素识别模型训练方法，包括以下步骤：

步骤301，利用预设的规则对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息。

步骤302，利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息，其中，预设的要素识别模型为双向长短期记忆-条件随机场模型。

步骤303，根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对预设的要素识别模型进行更新。

上述步骤301-303的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤304，根据预设的要素识别模型的条件随机场层的状态信息，确定第一训练数据对应的多个候选预测实体标注序列。

其中，第一训练数据，是指训练数据集中任意一个训练数据。

在本申请实施例中，可以在预设的要素识别模型对训练数据集进行预测的过程中，根据预设的要素识别模型对每个训练数据的置信度，挑选出预设的要素识别模型不置信的训练数据进行人工标注，以采用人工标注后的训练数据对预设的要素识别模型进行精调，进一步提高要素识别模型的准确性。

作为一种可能的实现方式，本申请实施例的预设的要素识别模型可以是BiLSTM-CRF模型，BiLSTM-CRF模型在对每个训练数据进行识别处理时，BiLSTM-CRF模型的CRF层可以输出每个训练数据对应的多个候选实体标注序列，以及每个候选标注序列对应的概率。因此，在本申请实施例中，可以在预设的要素识别模型对第一训练数据进行识别处理时，根据CRF层的状态信息，确定第一训练数据对应的每个候选实体标注序列的概率，进而筛选出概率最大的多个候选实体标注序列。比如，可以删选出概率最大的10个候选实体标注序列。

步骤305，根据第一训练数据对应的多个候选预测实体标注序列的概率，确定多个候选预测实体标注序列的置信度。

在本申请实施例中，第一训练数据对应的每个候选预测实体标注序列的概率，可以反映出预设的要素识别模型对每个候选预测实体标注序列的置信度，从而结合第一训练数据对应的多个候选预测实体标注序列的概率，可以确定出预设的要素识别模型对第一训练数据的置信度。

具体的，上述步骤305，可以包括：

根据每个候选预测实体标注序列的概率，确定多个候选预测实体标注序列的熵值；

根据多个候选预测实体标注序列的熵值，确定多个候选预测实体标注序列的置信度。

作为一种可能的实现方式，可以根据第一训练数据对应的每个候选预测实体标注序列的概率，确定多个候选预测实体标注训练的概率分布，进而根据多个候选预测实体标注序列的熵值，进而根据多个候选预测实体标注序列的熵值，确定多个候选预测实体标注序列的置信度。可选的，可以利用Nbest序列熵算法，确定多个候选预测实体标注序列的熵值，且多个候选预测实体标注序列的熵值越大，则多个候选预测实体标注序列的置信度越小，即第一训练数据对应的置信度越小。

步骤306，若多个候选预测实体标注序列的置信度小于置信度阈值，则确定第一训练数据为待人工标注训练数据，以对待人工标注训练数据进行人工标注。

作为一种可能的实现方式，可以根据第一训练数据对应的多个候选预测实体标注序列的置信度与预设的置信度阈值的关系，确定预设的要素识别模型对第一训练数据是否置信。

具体的，由于多个候选预测实体标注序列的置信度越小，说明预设的要素识别模型对第一训练数据越不置信。因此，可以在多个候选预测实体标注序列的置信度小于置信度阈值时，确定预设的要素识别模型对第一训练数据不置信，从而可以将第一训练数据确定为待人工标注数据，以通过人工的方式对待人工标注训练数据进行重新标注，进而利用人工标注后的训练数据对预设的要素识别模型进行精调。

步骤307，获取待人工标注训练数据及待人工标注训练数据对应的第二参考实体标注信息，其中，第二参考实体标注信息为待人工标注训练数据的人工标注结果。

步骤308，利用预设的要素识别模型对待人工标注训练数据进行识别处理，以确定待人工标注训练数据对应的预测实体标注信息。

在本申请实施例中，对挑选出的待人工标注数据进行人工标注之后，由于对待人工标注训练数据的人工标注结果更加准确，从而可以利用待人工标注训练数据及待人工标注训练数据对应的第二参考实体标注信息，对预设的要素识别模型进行精调，以进一步提高预设的要素识别模型的识别准确度。

具体的，可以利用预设的要素识别模型对获取的待人工标注训练数据进行识别处理，以确定待人工标注训练数据对应的预测实体标注信息。

步骤309，根据待人工标注训练数据对应的预测实体标注信息与第二参考实体标注信息的差异，对预设的要素识别模型进行更新。

在本申请实施例中，由于待人工标注训练数据对应的第二参考实体标注信息可以反映出训练数据中实际包括的命名实体，及各命名实体的实际标签，从而可以根据每个待人工标注训练数据对应的预测实体标注信息与第二参考实体标注信息的差异，判断预设的要素识别模型的预测性能，以对预设的要素识别模型进行精调。

作为一种可能的实现方式，可以根据每个待人工标注训练数据对应的第二参考实体标注信息与预测实体标注信息的差异，确定预设的要素识别模型的第三损失值。若第三损失值大于第四阈值，则可以确定预设的要素识别模型的性能较差，则可以根据第四损失值对预设的要素识别模型的参数进行更新，以生成新的要素识别模型；若第三损失值小于或等于第四阈值，则可以确定预设的要素识别模型的性能较好，则可以不对预设的要素识别模型进行更新。

根据本申请实施例的技术方案，通过利用预设的要素识别模型，对标注后的训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息，并根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对预设的要素识别模型进行更新，之后根据预设的要素识别模型的条件随机场层的状态信息，确定第一训练数据对应的多个候选预测实体标注序列，以及根据第一训练数据对应的多个候选预测实体标注序列的概率，确定多个候选预测实体标注序列的置信度，进而根据多个候选预测实体标注序列的置信度确定第一训练数据是否为待人工标注数据，以利用待人工标注训练数据及其人工标注结果对预设的要素识别模型进行精调。由此，通过对无监督的训练数据集进行规则标注，以利用标注后生成的半监督训练数据集对预设的要素识别模型进行训练，并通过主动学习机制自动挑选出要素识别模型不置信的训练数据，从而不仅进一步提升了要素识别模型的识别效果，通用性好，而且进一步提高了要素识别的效率，大大降低了人工标注成本。

为了实现上述实施例，本申请还提出一种领域要素识别模型训练装置。

图4为本申请实施例提供的一种领域要素识别模型训练装置的结构示意图。

如图4所示，该领域要素识别模型训练装置40，包括：

标注模块41，用于利用预设的规则对训练数据集进行标注，以生成训练数据集中每个训练数据对应的第一参考实体标注信息；

第一确定模块42，用于利用预设的要素识别模型，对训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息；

第一更新模块43，用于根据每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对预设的要素识别模型进行更新。

在实际使用时，本申请实施例提供的领域要素识别模型训练装置，可以被配置在任意电子设备中，以执行前述领域要素识别模型训练方法。

在本申请一种可能的实现形式中，上述每个训练数据对应的第一参考实体标注信息包括参考实体标注序列及每个参考实体对应的下一个分词，上述每个训练数据对应的预测实体标注信息包括预测实体标注序列及每个预测实体对应的下一个预测词；

相应的，上述第一更新模块43，具体用于：

根据每个训练数据对应的预测实体标注序列与参考实体标注序列的差异，及每个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，对预设的要素识别模型进行更新。

进一步的，在本申请另一种可能的实现形式中，上述第一更新模块43，还用于：

根据第一损失值及第二损失值，对预设的要素识别模型进行更新。

进一步的，在本申请再一种可能的实现形式中，上述预设的要素识别模型为双向长短期记忆-条件随机场模型；

相应的，上述领域要素识别模型训练装置40，还包括：

第二确定模块，用于根据预设的要素识别模型的条件随机场层的状态信息，确定第一训练数据对应的多个候选预测实体标注序列；

第三确定模块，用于根据第一训练数据对应的多个候选预测实体标注序列的概率，确定多个候选预测实体标注序列的置信度；

第四确定模块，用于若多个候选预测实体标注序列的置信度小于置信度阈值，则确定第一训练数据为待人工标注训练数据，以对待人工标注训练数据进行人工标注。

进一步的，在本申请又一种可能的实现形式中，上述第三确定模块，具体用于：

进一步的，在本申请又一种可能的实现形式中，上述领域要素识别模型训练装置40，还包括：

获取模块，用于获取待人工标注训练数据及待人工标注训练数据对应的第二参考实体标注信息，其中，第二参考实体标注信息为待人工标注训练数据的人工标注结果；

第五确定模块，用于利用预设的要素识别模型对待人工标注训练数据进行识别处理，以确定待人工标注训练数据对应的预测实体标注信息；

第二更新模块，用于根据待人工标注训练数据对应的预测实体标注信息与第二参考实体标注信息的差异，对预设的要素识别模型进行更新。

需要说明的是，前述对图1、图2、图3所示的领域要素识别模型训练方法实施例的解释说明也适用于该实施例的领域要素识别模型训练装置40，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的领域要素识别模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的领域要素识别模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的领域要素识别模型训练方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的领域要素识别模型训练方法对应的程序指令/模块(例如，附图4所示的标注模块41、第一确定模块42及第一更新模块43)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的领域要素识别模型训练方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据领域要素识别模型训练方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至领域要素识别模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

领域要素识别模型训练方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与领域要素识别模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种领域要素识别模型训练方法，其特征在于，包括：

利用预设的规则对训练数据集进行标注，以生成所述训练数据集中每个训练数据对应的第一参考实体标注信息；

利用预设的要素识别模型，对所述训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息；

根据所述每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对所述预设的要素识别模型进行更新。

2.如权利要求1所述的方法，其特征在于，所述每个训练数据对应的第一参考实体标注信息包括参考实体标注序列及每个参考实体对应的下一个分词，所述每个训练数据对应的预测实体标注信息包括预测实体标注序列及每个预测实体对应的下一个预测词；

所述根据所述每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对所述预设的要素识别模型进行更新，包括：

根据所述每个训练数据对应的预测实体标注序列与参考实体标注序列的差异，及所述每个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，对所述预设的要素识别模型进行更新。

3.如权利要求2所述的方法，其特征在于，所述根据所述每个训练数据对应的预测实体标注序列与参考实体标注序列的差异，及所述每个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，对所述预设的要素识别模型进行更新，包括：

根据所述每个训练数据对应的预测实体标注序列与参考实体标注序列的差异，确定所述预设的要素识别模型的第一损失值；

根据所述每个训练数据对应的每个预测实体对应的下一个预测词与参考实体对应的下一个分词的差异，确定所述预设的要素识别模型的第二损失值；

根据所述第一损失值及所述第二损失值，对所述预设的要素识别模型进行更新。

4.如权利要求1所述的方法，其特征在于，所述预设的要素识别模型为双向长短期记忆-条件随机场模型；

所述利用预设的要素识别模型，对所述训练数据集进行识别处理之后，还包括：

根据所述预设的要素识别模型的条件随机场层的状态信息，确定第一训练数据对应的多个候选预测实体标注序列；

根据所述第一训练数据对应的多个候选预测实体标注序列的概率，确定所述多个候选预测实体标注序列的置信度；

若所述多个候选预测实体标注序列的置信度小于置信度阈值，则确定所述第一训练数据为待人工标注训练数据，以对所述待人工标注训练数据进行人工标注。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一训练数据对应的多个候选预测实体标注序列的概率，确定所述多个候选预测实体标注序列的置信度，包括：

根据每个候选预测实体标注序列的概率，确定所述多个候选预测实体标注序列的熵值；

根据所述多个候选预测实体标注序列的熵值，确定所述多个候选预测实体标注序列的置信度。

6.如权利要求4或5所述的方法，其特征在于，所述确定所述第一训练数据为待人工标注数据之后，还包括：

获取待人工标注训练数据及待人工标注训练数据对应的第二参考实体标注信息，其中，所述第二参考实体标注信息为所述待人工标注训练数据的人工标注结果；

利用所述预设的要素识别模型对所述待人工标注训练数据进行识别处理，以确定所述待人工标注训练数据对应的预测实体标注信息；

根据所述待人工标注训练数据对应的预测实体标注信息与所述第二参考实体标注信息的差异，对所述预设的要素识别模型进行更新。

7.一种领域要素识别模型训练装置，其特征在于，包括：

标注模块，用于利用预设的规则对训练数据集进行标注，以生成所述训练数据集中每个训练数据对应的第一参考实体标注信息；

第一确定模块，用于利用预设的要素识别模型，对所述训练数据集进行识别处理，以确定每个训练数据对应的预测实体标注信息；

第一更新模块，用于根据所述每个训练数据对应的预测实体标注信息与第一参考实体标注信息的差异，对所述预设的要素识别模型进行更新。

8.如权利要求7所述的装置，其特征在于，所述每个训练数据对应的第一参考实体标注信息包括参考实体标注序列及每个参考实体对应的下一个分词，所述每个训练数据对应的预测实体标注信息包括预测实体标注序列及每个预测实体对应的下一个预测词；

所述第一更新模块，具体用于：

9.如权利要求8所述的装置，其特征在于，所述第一更新模块，还用于：

10.如权利要求7所述的装置，其特征在于，所述预设的要素识别模型为双向长短期记忆-条件随机场模型；

所述装置，还包括：

第二确定模块，用于根据所述预设的要素识别模型的条件随机场层的状态信息，确定第一训练数据对应的多个候选预测实体标注序列；

第三确定模块，用于根据所述第一训练数据对应的多个候选预测实体标注序列的概率，确定所述多个候选预测实体标注序列的置信度；

第四确定模块，用于若所述多个候选预测实体标注序列的置信度小于置信度阈值，则确定所述第一训练数据为待人工标注训练数据，以对所述待人工标注训练数据进行人工标注。

11.如权利要求10所述的装置，其特征在于，所述第三确定模块，具体用于：

12.如权利要求10或11所述的装置，其特征在于，还包括：

获取模块，用于获取待人工标注训练数据及待人工标注训练数据对应的第二参考实体标注信息，其中，所述第二参考实体标注信息为所述待人工标注训练数据的人工标注结果；

第五确定模块，用于利用所述预设的要素识别模型对所述待人工标注训练数据进行识别处理，以确定所述待人工标注训练数据对应的预测实体标注信息；

第二更新模块，用于根据所述待人工标注训练数据对应的预测实体标注信息与所述第二参考实体标注信息的差异，对所述预设的要素识别模型进行更新。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。