CN113723104A

CN113723104A - 一种有噪数据下实体抽取的方法与装置

Info

Publication number: CN113723104A
Application number: CN202111083213.1A
Authority: CN
Inventors: 史亚飞; 李霄寒
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-11-30

Abstract

本发明涉及一种有噪数据下实体抽取的方法与装置，该方法包括：根据标注数据训练得到多个相同模型结构的命名实体识别NER模型；采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测，获得预测数据；对比所述预测数据与所述标注数据之间的标注差异，根据所述标注差异对所述标注数据进行修改，得到倾向召回的第一数据集和倾向精确的第二数据集；将所述第一数据集和第二数据集作为训练集，训练得到最终的NER模型。本发明通过初步训练获得多个不同的模型，选择出倾向召回和精确的数据进行联合训练，可同时考虑数据中存在的漏标、长标、短标的问题，使得训练出的模型鲁棒性更高。

Description

一种有噪数据下实体抽取的方法与装置

技术领域

本发明涉及命名实体识别NER模型训练领域，具体涉及一种有噪数据下实体抽取的方法与装置。

背景技术

在命名实体识别NER模型的训练过程中，因为标注的专业性和不同标注人员的标注水平问题，所使用的训练数据中难免会存在噪音，噪音主要体现在数据的漏标、长标、短标，其中，漏标指的是实体未被标注出来，长标指的是长的实体被标注为短的实体，例如“胸部CT”被标注为“胸部”，短标则指的是短的实体被标注为长的实体，例如“B超”被标注为“B超检查”，数据中存在的噪音会对模型的效果受到影响。

发明内容

本发明提供一种有噪数据下实体抽取的方法与装置，能够解决数据中存在的噪音会对模型的效果受到影响的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种有噪数据下实体抽取的方法，包括：

根据标注数据训练得到多个相同模型结构的命名实体识别NER模型；

采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测，获得预测数据；

对比所述预测数据与所述标注数据之间的标注差异，根据所述标注差异对所述标注数据进行修改，得到倾向召回的第一数据集和倾向精确的第二数据集；

将所述第一数据集和第二数据集作为训练集，训练得到最终的NER模型。

进一步，所述根据标注数据训练得到多个相同模型结构的命名实体识别NER模型，具体包括：

将标注数据按照k折交叉的方式进行划分，其中k-1折数据用来作为模型训练集，剩余1折数据作为模型测试集，从而获得k种数据集；

将所述k种数据集分别接入相同模型结构的NER模型进行训练，获得包含多个NER模型的NER模型集合。

进一步，根据所述标注差异对所述标注数据进行修改，得到倾向召回的第一数据集和倾向精确的第二数据集，具体包括：

若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值，则保留该实体；若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值，则将所述标注数据中短标的实体替换为所述预测数据中长标的实体，最终获得第一数据集；

若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值，则删除该实体；若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值，则将所述标注数据中长标的实体替换为所述预测数据中短标的实体，最终获得第二数据集。

进一步，所述NER模型采用BERT+BiLSTM+CRF。

进一步，将所述第一数据集和第二数据集作为训练集，训练得到最终的NER模型，具体包括：

将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型，分别获得BiLSTM的第一隐层状态和第二隐层状态；

将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态；

将所述第三隐层状态接入CRF层获得预测的结果，通过模型的迭代，获得最终的NER模型。

第二方面，本发明提供一种有噪数据下实体抽取的装置，包括：

第一模型训练模块，用于根据标注数据训练得到多个相同模型结构的命名实体识别NER模型；

数据预测模块，用于采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测，获得预测数据；

数据处理模块，用于对比所述预测数据与所述标注数据之间的标注差异，根据所述标注差异对所述标注数据进行修改，得到倾向召回的第一数据集和倾向精确的第二数据集；

第二模型训练模块，用于将所述第一数据集和第二数据集作为训练集，训练得到最终的NER模型。

进一步，所述第一模型训练模块，具体包括：

数据划分单元，用于将标注数据按照k折交叉的方式进行划分，其中k-1折数据用来作为模型训练集，剩余1折数据作为模型测试集，从而获得k种数据集；

模型训练单元，用于将所述k种数据集分别接入相同模型结构的NER模型进行训练，获得包含多个NER模型的NER模型集合。

进一步，所述数据处理模块，具体包括：

第一数据处理单元，用于若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值，则保留该实体；若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值，则将所述标注数据中短标的实体替换为所述预测数据中长标的实体，最终获得第一数据集；

第二数据处理单元，用于若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值，则删除该实体；若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值，则将所述标注数据中长标的实体替换为所述预测数据中短标的实体，最终获得第二数据集。

进一步，所述NER模型采用BERT+BiLSTM+CRF。

进一步，所述第二模型训练模块，具体包括：

训练集接入单元，用于将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型，分别获得BiLSTM的第一隐层状态和第二隐层状态；

拼接单元，用于将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态；

预测及迭代单元，用于将所述第三隐层状态接入CRF层获得预测的结果，通过模型的迭代，获得最终的NER模型。

本发明的有益效果是：

通过初步训练获得多个不同的模型，选择出倾向召回和精确的数据进行联合训练，可同时考虑数据中存在的漏标、长标、短标的问题，使得训练出的模型鲁棒性更高。

附图说明

图1为本发明实施例提供的一种有噪数据下实体抽取的方法的流程示意图；

图2为本发明实施例提供的一种有噪数据下实体抽取的方法的框架流程示意图；

图3为本发明实施例提供的一种有噪数据下实体抽取的装置的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明实施例提供一种有噪数据下实体抽取的方法，如图1所示，该方法包括：

110、根据标注数据训练得到多个相同模型结构的命名实体识别NER模型；

具体的，如图2所示，该步骤中，针对有限的标注数据N，可采用k折交叉的方法获得多份数据分别进行训练，从而得到多个NER模型，所述的NER模型可采用现有技术实现，如BERT+BiLSTM+CRF。

120、采用训练得到的多个所述NER模型分别对所述标注数据重新进行预测，获得预测数据；

具体的，如图2所示，采用训练的多个NER模型对标注数据重新预测得到预测数据N_k。

130、对比所述预测数据与所述标注数据之间的标注差异，根据所述标注差异对所述标注数据进行修改，得到倾向召回的第一数据集和倾向精确的第二数据集；

具体的，同一实体在NER模型的预测数据中的标注结果可能会与标注数据中的标注结果存在差异，例如，预测数据中标注出实体但该实体在标注数据中漏标，预测数据中标注出长的实体但在标注数据中标注短的实体，预测数据中标注出短的实体但在标注数据中标注长的实体等。

根据这些标注差异，对标注数据进行修改，可得到倾向召回的第一数据集和倾向精确的第二数据集，其中，召回的概念包括：保留预测数据中标注出但在标注数据中漏标的实体，以及将标注数据中短标的实体替换为预测数据中长标的实体；精确的概念包括：删除预测数据中标注出但在标注数据中漏标的实体，以及将标注数据中长标的实体替换为预测数据中短标的实体。

140、将所述第一数据集和第二数据集作为训练集，训练得到最终的NER模型。

基于最终训练得到的NER模型，即可用于进行实体的抽取。

本发明实施例提供的一种有噪数据下实体抽取的方法，通过初步训练获得多个不同的模型，选择出倾向召回和精确的数据进行联合训练，可同时考虑数据中存在的漏标、长标、短标的问题，使得训练出的模型鲁棒性更高。

可选地，在该实施例中，步骤110，具体包括：

1101、将标注数据按照k折交叉的方式进行划分，其中k-1折数据用来作为模型训练集，剩余1折数据作为模型测试集，从而获得k种数据集；

1102、将所述k种数据集分别接入相同模型结构的NER模型进行训练，获得包含多个NER模型的NER模型集合。

具体的，比如对标注数据N进行5折交叉，数据集分成5份，对应12345，数据集中模型训练集与模型测试集的组合是(1234,5)、(1235,4)、(1245,3)、(1345,2)和(2345,1)，共训练得到5个相同模型结构的NER模型，构成NER模型集合M＝{M₁,M₂,…M_k}。

可选地，在该实施例中，步骤130，具体包括：

1301、若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数大于阈值，则保留该实体；若同一实体在所述多个NER模型的预测数据中长标并且在所述标注数据中短标的次数大于阈值，则将所述标注数据中短标的实体替换为所述预测数据中长标的实体，最终获得第一数据集；

1302、若同一实体在所述多个NER模型的预测数据中标注并且在所述标注数据中漏标的次数小于阈值，则删除该实体；若同一实体在所述多个NER模型的预测数据中短标并且在所述标注数据中长标的次数大于阈值，则将所述标注数据中长标的实体替换为所述预测数据中短标的实体，最终获得第二数据集。

具体的，如图2所示，步骤1301用以选择倾向召回的数据集N_r，对比N_k与N，若漏标和长标次数对比原始数据N大于阈值r，则保留漏标，并将N中短标的实体替换为长标的实体，最终获得数据N_r。

步骤1302用以选择倾向精确的数据集N_p，对比N_k与N，若漏标次数对比原始数据N小于阈值p，则删除漏标实体，若短标次数大于阈值p，将N中长标实体替换为短标的实体，最终获得数据N_p。

可选地，在该实施例中，步骤140，具体包括：

1401、将所述第一数据集和第二数据集作为训练集分别接入BERT+BiLSTM模型，分别获得BiLSTM的第一隐层状态和第二隐层状态；

1402、将所述第一隐层状态和第二隐层状态进行拼接获得第三隐层状态；

1403、将所述第三隐层状态接入CRF层获得预测的结果，通过模型的迭代，获得最终的NER模型。

具体的，如图2所示，步骤140将步骤130获得的数据N_r和N_p作为训练集分别接入BERT+BiLSTM模型，分别获得BiLSTM的隐层状态H_r和H_p，再将H_r和H_p进行拼接获得Hf，最后将H_f接入CRF(条件随机场，Conditional Random Fields)层获得预测的结果，通过模型的迭代，获得最终的NER模型。

与上述方法实施例相对应地，本发明实施例提供一种有噪数据下实体抽取的装置，该装置中的各个功能模块的功能原理已在前述实施例中进行了具体说明，以下不再赘述。

如图3所示，该装置包括：

可选地，在该实施例中，所述第一模型训练模块，具体包括：

可选地，在该实施例中，所述数据处理模块，具体包括：

可选地，在该实施例中，所述NER模型采用BERT+BiLSTM+CRF。

可选地，在该实施例中，所述第二模型训练模块，具体包括：

本发明实施例提供的一种有噪数据下实体抽取的装置，其有益效果是：

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种有噪数据下实体抽取的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据标注数据训练得到多个相同模型结构的命名实体识别NER模型，具体包括：

3.根据权利要求1所述的方法，其特征在于，根据所述标注差异对所述标注数据进行修改，得到倾向召回的第一数据集和倾向精确的第二数据集，具体包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述NER模型采用BERT+BiLSTM+CRF。

5.根据权利要求4所述的方法，其特征在于，将所述第一数据集和第二数据集作为训练集，训练得到最终的NER模型，具体包括：

6.一种有噪数据下实体抽取的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一模型训练模块，具体包括：

8.根据权利要求6所述的装置，其特征在于，所述数据处理模块，具体包括：

9.根据权利要求6-8任一项所述的装置，其特征在于，所述NER模型采用BERT+BiLSTM+CRF。

10.根据权利要求9所述的装置，其特征在于，所述第二模型训练模块，具体包括：