CN113283244B

CN113283244B - 一种基于预训练模型的招投标数据命名实体识别方法

Info

Publication number: CN113283244B
Application number: CN202110816996.3A
Authority: CN
Inventors: 刘洋
Original assignee: Hunan Dademaning Information Technology Co ltd
Current assignee: Hunan Dademaning Information Technology Co ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-01
Anticipated expiration: 2041-07-20
Also published as: CN113283244A

Abstract

本发明涉及一种基于预训练模型的招投标数据命名实体识别方法，具体包括如下步骤：S1：获取开源预训练模型；S2：获取无标注语料，进行数据预处理；S3：训练S1中的预训练模型；S4：使用标注数据有监督训练，得到基准模型M；S5：使基准模型M对无标注数据进行预测得到伪标签数据；S6：将伪标签数据加入训练集，将真实标签数据也加入到训练集中共同训练得到模型M'；S7：构建片段解码网络；S8：将文本输入模型M'进行编码；S9：将文本编码输入片段解码网络；S10：提取实体片段及其类别。本发明在预训练模型之后以片段识别方式进行模型解码预测实体的开头和结尾位置，可以加快解码速度并获得较好精度的实体结果。

Description

一种基于预训练模型的招投标数据命名实体识别方法

技术领域

本发明涉及招投标文本处理领域，尤其涉及一种基于预训练模型的招投标数据命名实体识别方法。

背景技术

招投标数据是招标人公开的招标公告信息或投标、中标公告信息。在招投标数据中，数据文本长度往往较长（整篇平均长度在1500字以上），文本中实体类型多粒度细（如时间实体还可以分为投标开始时间、投标截止时间、开标时间）。提取招投标实体数据对分析某区域某时间段内的招标需求或中标信息等有至关重要的作用，是一项新兴的业务需求。希望提取出招投标数据中的命名实体信息，最直接的想法便是利用自然语言处理技术中的命名实体识别相关的技术。

命名实体识别是自然语言处理领域重要的子任务之一，其任务是抽取文本数据中的命名实体数据，如人名、地名、时间等，这些实体数据将是下游任务如关系抽取、对话、问答系统等重要的数据基础，也是构建知识图谱的必要数据，同时这类技术也被广泛应用于各类人工智能技术中。

目前常用的实体识别的方法，主要有基于传统的统计机器学习方法和深度学习方法。前者如使用机器学习中的HMM（隐马尔可夫模型）、MEMM（最大熵马尔可夫模型）、CRF（条件随机场）等模型直接对标注文本序列建模，需要人工提取文本中的特征，难度很大，且此类方法在需要语义及上下文理解的实体上表现欠佳。深度学习方法可以自动提取文本中的特征而且效果明显好于传统的统计学习方法，RNN结构的深度学习模型利用了文本序列化的特点，使模型可以学习到远距离的语义信息，如一个非常典型的深度学习模型加上机器学习模型解码的模型，LSTM-CRF，一度成为各语种中命名实体识别的主流模型。然而深度学习的方法需要依赖更多的标注数据来训练模型。近期，在深度学习领域，随着自然语言处理预训练语言模型的出现，如GPT、BERT，预训练加上模型微调开始成为主流，此类预训练模型先在大型的语料上进行无监督的预训练，使模型学习到语言的语义信息，并将参数保存在模型中，在下游任务上，只需对有标注的数据进行有监督的微调即可得到下游任务模型，在大多数下游任务都取得了很好的效果。

在处理招投标数据中的命名实体提取的任务中，也面临着一些问题和挑战。(1）在招投标数据中，文本数据长度往往较长、实体类型多粒度细，人工标注数据方法需要消耗大量的人力和物力，导致数据量和数据规模很难达到深度学习的需求，所以迫切需要一种能够适应领域数据、充分利用少量标注数据达到较高精度的方法；(2）直接利用传统的深度学习模型或是纯粹基于开源预训练模型加上微调的方法无法利用无标注的数据，且在领域数据上不一定会取得可观的效果；(3）传统的利用CRF进行序列标注识别实体的方式往往带来巨大的时间开销，训练和预测速度受到了很大的影响，难以满足实际业务使用的需求。

在招投标数据的命名实体识别任务中，可以利用自然语言处理中的命名实体识别的模型方法进行识别，现行的无预训练模型深度学习方法主要基于CNN（卷积神经网络）、RNN（循环神经网络）网络进行文本编码并加以序列标注框架进行实体标注，虽然模型结构较为简单、轻量快捷，但是由于数据量较少的原因，导致模型训练不够充分，且数据中实体类型较多，最终识别的效果较差，在新数据上存在较多识别错误和无法识别的情况。

现行基于预训练模型的实体识别方法主要是基于现有的开源预训练模型对标注数据进行有监督的微调训练，从而得到解决任务的模型的，而实际无标注的数据往往更容易获得，有标注的数据往往非常稀少而珍贵，这类方法对于大量无监督的数据显得无能为力，无法利用无标注数据便无法充分发掘这一部分数据的价值，无法进一步提升效果。

传统的模型利用基于CRF的序列标注方法标注出文本中的实体，而后根据标注的结果进行实体的提取。由于CRF考虑全局的文本路径，需要计算所有可能路径的分数，而后根据得分选取最佳路径，所以导致计算开销较大，这类提取方式速度较慢，且容易出现实体边界错误。

一方面，现有的针对招投标数据做命名实体提取的模型框架还很匮乏，且有标注的高质量招投标数据非常稀缺。另一方面，招投标数据一般是公开信息，较容易获取，且每天会产生大量的新数据，但获取到的数据常常是原始的纯文本数据，对于有监督的模型将难以把这些无标注的数据利用起来。

发明内容

本发明的目的是提供一种基于预训练模型的招投标数据命名实体识别方法，构建了针对招投标数据实体抽取的总体框架（从理论上讲此框架方法同样可以扩展到其它特定领域）。本框架基于预训练语言模型加以领域数据进行进一步领域预训练，从而使预训练模型达到增强领域语义理解的效果；采用半监督方式进行预训练模型的微调训练，可以充分利用无标注数据；在预训练模型之后以片段识别方式进行模型解码预测实体的开头和结尾位置从而进行实体识别任务，可以加快解码速度并获得较好精度的实体结果；对最终结果施以人工规则纠偏，使得输出结果更合理，进一步提高了结果精度。

为达到上述目的而采用了一种基于预训练模型的招投标数据命名实体识别方法，具体包括如下步骤：

S1：获取一个已训练的开源预训练模型；

S2：获取招投标领域无标注语料，进行数据预处理及数据清洗；

S3：使用经S2处理的无标注数据，进一步训练S1中的预训练模型得到领域预训练模型；

S4：选取部分数据进行人工标注，使用有标注数据有监督训练经S3处理的预训练模型，得到一个基准模型M；

S5：使用S4中的基准模型M对无标注数据中的部分随机选取的数据进行预测得到伪标签数据；

S6：将S5中的伪标签数据加入训练集，赋予伪标签数据一个动态可学习权重；同时，将S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M'

S7：构建一个片段解码网络，用于接收模型M'的输出，所述片段解码网络包括开头网络层和结尾网络层，进一步训练模型M'；

S8：将文本输入模型M'进行编码，得到文本编码；

S9：将文本编码输入片段解码网络；

S10：根据开头指针网络层和结尾指针网络层标注出实体的开头和结尾，并对实体类别进行，根据开头位置、结尾位置以及类别标签即可提取实体片段及其类别，作为输出的预测的实体结果。

作为本发明基于预训练模型的招投标数据命名实体识别方法进一步的改进，S6中，权重在模型训练过程根据损失函数进行动态的调整，如公式（1）所示：

损失函数loss=（1-α）*loss（真实标签数据）+α*loss（伪标签数据）（1）

作为本发明基于预训练模型的招投标数据命名实体识别方法进一步的改进，S7中，训练模型M'的方法为：

S7.1：将文本输入至S7中的模型M'，进行编码，得到文本编码；

S7.2：将S7.1中的文本编码输入片段解码网络；

S7.3：根据有标注数据的实体开头和实体结尾，分别计算实体开头损失值和实体结尾损失值并相加，得到训练的损失值，从而调整网络参数；

S7.4：迭代S7.3中步骤，直至完成训练。

作为本发明基于预训练模型的招投标数据命名实体识别方法进一步的改进，还包括：

S11：设定规则，根据S10中输出的预测的实体结果，判断实体类型是否是需要规则处理的类型；

S12：进行规则清洗，输出处理后的结果或进行结果舍弃。

作为本发明基于预训练模型的招投标数据命名实体识别方法进一步的改进，设定规则包括：

设定正则表达式对实体结果进行处理，使日期实体满足日期的形式，人名实体满足中文或英文形式，电话号码满足数字文本及规定长度形式，金额实体满足小数或者带有“元”单位形式。

地址实体根据区县对地址实体的所属省市进行补全。

作为本发明基于预训练模型的招投标数据命名实体识别方法进一步的改进，S1中的开源预训练模型为中文语言预训练模型BERT。

作为本发明基于预训练模型的招投标数据命名实体识别方法进一步的改进，S5中：

部分随机选取的数据的量为S4中标注数据的量的2~3倍。

（1）在招投标数据命名实体识别任务中，本发明提出了一个基于预训练模型的框架来提取招投标数据中的实体类型。

（2）该框架以预训练语言模型为基础，在现有开源预训练模型的基础上，利用大量无标注的招投标数据进行进一步无监督预训练，增强预训练模型在招投标数据上的语义理解能力的同时，又可避免大量费时费力的人工标注。

（3）该框架利用少量的人工精标数据，加上一定量模型预测的标注数据（伪标注数据）进行半监督的微调训练，充分利用了无标注的数据来增强模型效果。

（4）该框架以半标注半指针的片段识别结构代替传统CRF(Conditional RandomField，条件随机场）序列标注结构的模型解码方式，在提高解码速度的同时，精度也有一定的提高。

（5）该框架标注设计了针对招投标数据的特定人工规则，用以对模型最终识别结果进行一定程度上的纠偏纠错。

附图说明

图1为本发明框架总体流程图。

图2为领域预训练流程示意图。

图3为半监督学习方式流程示意图。

图4为主体模型结构及片段抽取示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、 “第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性；此外，除非另有明确的规定和限定，术语“安装”、 “相连”、 “连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

基于预训练模型的招投标数据命名实体识别方法及其步骤如图1所示

1.预训练模型的进一步领域预训练如图2所示；

本框架首先想到使用预训练语言模型加上模型微调的方式来解决无标注的数据利用任务，而后希望预训练模型把大量的无标注领域语料利用起来，故提出了进一步领域预训练的方法。

大体步骤如图2，描述如下：

步骤一：获取在大规模语言语料上训练完成的开源预训练模型，本框架使用中文语言预训练模型BERT(Bidirectional Encoder Representations from Transformers，基于Transformers的双向编码表示）。

步骤二：获取大量招投标领域无标注语料，进行数据预处理及数据清洗。

步骤三：采用原版预训练模型训练的方式，在大量招投标领域无标注语料上训练新的领域预训练模型。

优点：相比于无预训练模型的传统深度学习模型，如RNN(Recurrent NeuralNetwork，循环神经网络）结构的模型，采用预训练模型可以提供语言上的语义信息，且如BERT类基于注意力机制的预训练模型，可以处理更长距离的语义依赖。在领域语料上进行进一步的预训练，还可使模型进一步学习某一领域的语义信息，这在模型的训练和预测中都会是有力的武器，进而节省大量人力物力，达到更好的模型效果。

2.基于预训练模型的半监督微调如图3所示

为了缓解招投标语料的标注数据稀缺的问题，本发明框架使用半监督学习（有标注真实标签数据+伪标签数据）充分利用未标注的部分语料，并采用赋予伪标签数据动态权重的方式训练模型以减小伪标签数据带来的噪声。

步骤如下：

步骤一：首先使用少量原始人工标注的有标注数据有监督训练（模型微调）一个基准模型M。

步骤二：使用基准模型M对无标注数据中的部分随机选取的数据（选取标注数据的2~3倍量）进行预测得到“伪标签数据”。

步骤三：将“伪标签数据”加入训练集，赋予伪标签数据一个动态可学习权重（公式1中的

），权重将在模型训练过程根据损失函数进行动态的调整，目的是尽可能较少伪标签数据带来的噪声，同时真实标签数据也加入到训练集中共同训练得到模型M'。

优点：相比于仅使用少量标注数据进行有监督训练的方法，采用半监督训练，可以把无标注的数据利用起来，在一定程度上扩大了训练集的数量，进而可以增大最终模型的泛化性能、增强模型鲁棒性，减小模型过拟合风险。

3.预训练模型BERT加片段解码如图4所示

目前流行的深度学习处理命名实体识别任务，主要是输入文本先经模型编码，而后通过CRF解码的方式进行文本序列标注的，通过标注的类型便可提取出实体。本框架不采用上述序列标注的方式，在解码部分使用半指针+半标注的结构预测实体片段，即通过设置指针网络标记出实体的起始位置和结束位置便可得到实体片段，同时标注过程中标记出实体类别（包括开始位置的实体类别和结束位置的实体类别）。

模型的结构和解码方式示意如图4，其中片段解码在模型训练和模型预测时执行的操作不完全一样，训练步骤如下：

步骤一：输入文本输入预训练模型进行编码。

步骤二：文本编码输入片段解码网络（包括开头指针网络层和结尾指针网络层）。

步骤三：根据标记数据的实体开头和实体结尾，分别计算实体开头损失值和实体结尾损失值并相加，得到训练的损失值，从而调整网络参数。迭代此步骤直至完成训练。

预测时的步骤如下：

步骤一：输入文本输入预训练模型进行编码。

步骤二：文本编码输入片段解码网络。

步骤三：根据开头指针网络和结尾指针网络标注出实体的开头和结尾，并标记出实体类别。根据开头位置、结尾位置以及类别标签即可提取实体片段及其类别。

优点：这种基于半指针半标注解码结构的预测实体片段的方式，会使模型具有更强的鲁棒性，其标注过程的计算复杂度远小于CRF标注。实验表明在命名实体识别任务上采用此种方式的解码较传统的CRF序列标注解码更实用，往往具有更快的训练和推断速度、更高的精度。

4.规则后处理

本框架在模型预测的最后结果中，加上人工编写的规则对结果做一定的调整。招投标数据有其独特的特点，其涵盖的实体类型包括有时间、人名、地名、电话号码等，部分类型还有更细的粒度（如时间实体还可以分为投标开始时间、投标截止时间、开标时间等；人名可以分为招标联系人、代理联系人等），且文本表述偏向书面化。

本发明框架根据实体数据和文本数据的一些特点，人工编写了适当的实体约束规则，一方面通过正则表达式对实体结果进行处理，比如日期实体应满足日期的形式、人名实体应该是中文或英文、电话号码应是数字文本且长度会有限制、金额实体是数字文本且可能带有小数或者“元”单位等，对于合理的结果可以格式化，而不合理的结果可以进一步处理或舍弃。一方面，地址实体可以根据区县对该地址的所属省市进行补全，而项目名称往往在数据文本的开头位置，以“xx项目”结尾，信息发布时间往往在文本的开头或结尾且常常有标示等，这些情况可以通过外部地址库、程序逻辑加以判断。

从试验结果看，规则的加入可以对模型结果起到一定纠偏的作用，从而提高最终结果的精度。一般的步骤如下：

步骤一：输出模型预测的实体结果，判断实体类型是否是需要规则处理的类型。

步骤二：进行规则清洗，输出处理后的结果或进行舍弃。

本发明的框架基于预训练语言模型加以领域数据进行进一步领域预训练，利用了无标注的领域数据，又可使预训练模型达到增强领域语义理解的效果，通过在该语言和该领域都具有一定语义理解的预训练模型，可以在标注数据较少的情况下也有较好的任务效果。

本发明的框架采用半监督方式进行预训练模型的微调训练，先利用标注语料训练初步的模型，后使用初步模型对一定量的无标注语料进行预测，从而生成“模型标注数据”，将此部分数据施以训练权重并结合最初的标注数据便可训练新的模型，这样可以更充分利用无标注数据，新模型效果较原先也会有所提升。

本框架采用半指针半标注的片段识别方式，在解码部分预测出实体的起始位置和结束位置，从而提取实体片段。此种方式的解码较传统的CRF序列标注解码更实用，具有更快的速度甚至更高的精度。

招投标数据有其独有的特点，比如日期实体应满足日期的形式、地址实体可以根据区县对该地址的所属省市进行补全、项目名称往往在文本的开头位置等。本发明的框架充分考虑了数据的特点，针对性的编写了适当的人工规则施加约束，可以对模型结果进行一定纠偏，从而提高最终结果的精度。

本发明提出的框架首先基于开源预训练模型BERT在招投标领域的大量数据上进行进一步的预训练，得出进一步领域预训练模型，而后采用半监督方式结合标注和无标注数据进行模型微调训练，以片段半指针半标注的解码方式进行模型解码并对最终结果加以规则纠偏。经实验表明，此种方式在标注量数据较少的情况下训练得到的模型，在招投标数据上仍然可以取得较高的精度。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围之内。

Claims

1.一种基于预训练模型的招投标数据命名实体识别方法，其特征在于：具体包括如下步骤：

S1：获取一个已训练的开源预训练模型；

S6：将S5中的伪标签数据加入训练集，赋予伪标签数据一个动态可学习权重；同时，将S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M'；

S7：构建一个片段解码网络，用于接收模型M'的输出，所述片段解码网络包括开头指针网络层和结尾指针网络层，进一步训练模型M'；

S8：将文本输入模型M'进行编码，得到文本编码；

S9：将文本编码输入片段解码网络；

S10：根据开头指针网络层和结尾指针网络层标注出实体的开头和结尾，得到开头指针网络层解码输出的标签，以及结尾指针网络层解码输出的标签，二者结合后构成提取实体片段的标签，并对实体类别进行分类，且实体类别的分类与相应的提取实体片段的标签对应，则根据开头位置、结尾位置以及类别标签即可提取实体片段及其类别，作为输出的预测的实体结果；

S6中，权重在模型训练过程根据损失函数进行动态的调整，如公式（1）所示：

损失函数loss=（1-α）*loss（真实标签数据）+α*loss（伪标签数据）（1）；

S7中，训练模型M'的方法为：

S7.2：将S7.1中的文本编码输入片段解码网络；

S7.3：根据有标注数据的实体开头和实体结尾，分别计算实体开头损失值和实体结尾值损失并相加，得到训练的损失值，从而调整网络参数；

S7.4：迭代S7.3中步骤，直至完成训练；

还包括：

S12：进行规则清洗，输出处理后的结果或进行结果舍弃；

设定规则包括：

设定正则表达式对实体结果进行处理，使日期实体满足日期的形式，人名实体满足中文或英文形式，电话号码满足数字文本及规定长度形式，金额实体满足小数或者带有“元”单位形式；

设定规则包括：

地址实体根据区县对地址实体的所属省市进行补全；

S1中的开源预训练模型为中文语言预训练模型BERT；

部分随机选取的数据的量为S4中标注数据的量的2~3倍。