CN112949637A

CN112949637A - 基于idcnn和注意力机制的招投标文本实体识别方法

Info

Publication number: CN112949637A
Application number: CN202110525979.4A
Authority: CN
Inventors: 李芳芳; 彭亦楠; 单悠然
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-06-11

Abstract

本发明涉及一种基于IDCNN和注意力机制的招投标文本实体识别方法，具体包括如下步骤：S1：构建嵌入层，以字为单位，将文本中的每个字符映射为向量，得到字向量；S2：计算文本中每个字符的位置向量，得到位置向量；S3：将得到的字向量和位置向量进行拼接，作为嵌入层的输出；S4：构建IDCNN层，将嵌入层的输出输入IDCNN层，进行迭代计算后输出；S5：构建注意力层，将IDCNN层的输出输入至注意力层进行计算并输出；S6：构建CRF层，将注意力层的输出输入CRF层后，计算得到每个字符的标签的概率，得到预测结果。本发明将字向量与位置向量拼接，让模型在学习到语义信息的同时捕获到实体间的依赖关系。

Description

基于IDCNN和注意力机制的招投标文本实体识别方法

技术领域

本发明涉及文本数据处理领域、自然语言处理领域，尤其涉及一种基于IDCNN和注意力机制的招投标文本实体识别方法。

背景技术

命名实体识别是自然语言处理的重要子任务之一，目前已被广泛应用在了社会生活的方方面面，同样，在招投标相关工作中，命名实体识别技术也发挥着重要的作用。在进行招标、投标的过程中，命名实体识别技术往往被用来提取招投标文本数据中的关键信息，如提取招投标数据中的“项目名称”、“预算金额”、“成交金额”等实体。通过对这些关键信息进行提取，能够辅助招标机构和投标机构进行相应的决策，提高招投标的效果。

常用的命名实体识别方法主要有基于规则的方法和基于深度学习的方法。基于规则的方法需要人工对文本的特点进行分析，设计出合适的规则来对文本中的实体进行提取。但这种方法最终的效果受限于规则的质量，若制定的规则有缺陷，则最终实体识别的效果也不佳。基于深度学习的方法可以自动提取文本中的特征，无需进行复杂的提取特征的工程，而且命名实体识别的效果和鲁棒性要明显好于基于规则的方法。因此目前基于深度学习的方法逐渐成为了命名实体识别的主流方法。

虽然目前基于深度学习的方法成为了命名实体识别的主流方法，但目前用深度学习方法针对招投标数据进行实体识别的研究仍较少，且由于招投标数据的特殊性，在对其进行实体识别的过程中往往面临着3个问题：

常见的中文命名实体识别方法在对文本进行向量化时，往往只是简单地将文本转化为词向量，没有考虑到实体间的依赖关系。而在招投标文本数据集中，一方面，由于文本普遍长度较长，且语境复杂，在进行实体识别任务时会出现一词多义的问题，同一个词可能会被识别为多种实体，单纯使用词向量对文本进行表示效果不佳；另一方面，在招投标文本数据待提取的24个实体中，有较多的实体在文本数据中存在着较强的依赖关系，单纯使用词向量进行文本向量化不能很好地让模型捕获到实体间的依赖关系。

常见的中文命名实体识别方法往往只使用了单一的深度学习模型，而单一的深度学习模型往往将文本中提取出的每一个特征视为同等重要。而事实上招投标文本数据集由于文本较长，其中存在着大量无用的噪声信息，因此将提取出的特征视为同等重要无疑制约了实体识别模型精度的提高。

常见的中文命名实体识别方法最终的效果往往仅依靠模型的精度，而在对招投标数据进行实体识别的过程中，由于数据具有长度长、语境复杂、待识别实体种类多、实体类型相似等特点，仅通过模型来预测容易出现某些字段有多个预测结果而其相似字段没有预测结果的问题，造成最终实体识别精度不高。

发明内容

本发明的目的是在招投标文本实体识别任务中提出了一个基于IDCNN和注意力机制的招投标文本实体识别方法。该方法首先在文本向量化处理过程中，将字向量与位置向量拼接来对文本进行向量化表示，让模型在学习到语义信息的同时捕获到实体间的依赖关系；其次，该方法使用IDCNN和注意力机制相结合的方法来构建模型，降低了模型学习过程中无用特征对模型的影响；最后，该方法设计了模型后处理机制，通过设定规则的方式对模型的结果进行优化，从而提高了最终实体识别的精度。

为达到上述目的而采用了一种基于IDCNN和注意力机制的招投标文本实体识别方法，具体包括如下步骤：

S1：构建嵌入层，以字为单位，将文本中的每个字符映射为向量，得到字向量；

S2：计算文本中每个字符的位置向量，得到位置向量；

S3：将得到的字向量和位置向量进行拼接，作为嵌入层的输出；

S4：构建IDCNN层，将嵌入层的输出输入IDCNN层，进行迭代计算后输出；

S5：构建注意力层，将IDCNN层的输出输入至注意力层进行计算并输出；

S6：构建CRF层，将注意力层的输出输入CRF层后，计算得到每个字符的标签的概率，得到预测结果。

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，S1中：

使用Word2Vec中的Skip-gram模型计算得到定长的字向量，对于一个文本序列，将文本中每个字的字向量拼接起来，得到整个文本序列的字向量表示，具体如公式（1）所示：

S=C ₁⊕C ₂⊕C ₃⊕...⊕C _n （1）

其中n为文本序列中字的个数，C _i（i=1，2，3，...，n）为文本中第i个字的字向量，S则为文本序列的字向量表示。

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，S2中:

使用正弦、余弦函数来计算相应的位置向量，具体如公式（2）、（3）所示：

U _i，2m=Sin（i/10000^2m/d）（2）

U _i，2m+1=Cos（i/10000^2m/d）（3）

其中d表示位置向量的维度，i表示字符在文本中的位置，m表示字符位置向量的维度位置，2m即表示位置向量的偶数位，2m+1即表示位置向量的奇数位；

文本中第i个字符的位置向量即如公式（4）所示：

P _i=[U _i,0，U _i,1，U _i,2，...，U _i,d-1] （4）

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，S3中:

字向量和位置向量拼接，具体如公式（5）所示：

F _i=[C _i，P _i] （5）

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，S4具体包括：

S4.1：IDCNN层具有多个膨胀卷积块，利用多个膨胀卷积块对嵌入层的输出进行迭代计算；

S4.2：将多个膨胀卷积块的输出进行拼接，得到最终的输出。

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，S4.1中：

每个膨胀卷积块包含多个膨胀卷积层，能够对输入进行多次迭代卷积计算；假设嵌入层输出的向量表示为F，则每个膨胀卷积块的计算原理如公式(6)、(7)所示：

C ^（1）=D _ᵟ ^（0） F （6）

C ^（l+1）=r（D _ᵟ ^（l） C ^（l））（7）

其中D _ᵟ ^（l）表示第l个膨胀卷积层，其膨胀距离为ᵟ；r（）表示ReLU激活函数；通过迭代计算得到最终膨胀卷积块的输出。

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，S4.2中：

假设第j个膨胀卷积块的输出为H _j，则计算最终IDCNN层的输出的原理如公式(8)、(9)所示：

H=H ₁⊕H ₂⊕...⊕H _j⊕...⊕H _k（8）

H'=dropout（H）（9）

其中，k为膨胀卷积块的数量，H'为最终IDCNN层的输出。

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，S5中：

假设注意力层的输入为H'=[h ₁，h ₂，...，h _q]，则每一个输入h _r(r=1,2,3,...,q)的注意力权重α _r的计算过程如公式（10）、（11）所示：

u _r =tanh（Wh _r+b）（10）

（11）

其中W为权重矩阵，b为偏置；最终将注意力权重α _r与输入h _r，进行加权求和即可得到最终注意力层输出的特征表示V，具体如公式(12)所示：

（12）

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，S6中：

假设给定的输入序列为x=[x ₁，x ₂，...，x _T]，对应的标签序列为y=[y₁，y₂，...，y_T]，Y（x）是所有标签的集合，则具体的计算原理如公式(13)所示：

（13）

其中f（y _t-1 ，y _t ，x）用于计算y _t-1到y _t的转移分数，最终的优化目标为最大化P（y|x）。

作为本发明基于IDCNN和注意力机制的招投标文本实体识别方法进一步的改进，还包括：

S7：在对预测结果进行验证后，对易错、难识别出的实体设置提取的规则，并将规则转化为相应的正则表达式；

S8：将用规则提取出的实体与S6中预测出的实体进行比对，若S6中未提取出某类型实体，结果为空，而用规则提取出了实体，则最终使用规则提取的结果；或S6中与规则均提取出了多个实体，则取两者共同的结果，其余情况均以S6中预测结果为最终结果。

本发明提出了一种基于IDCNN和注意力机制的招投标文本实体识别方法。本发明在对招投标文本进行编码时引入了位置向量，通过将位置向量与字向量进行拼接，让模型在学习到语义信息的同时捕获实体间的依赖关系，从而提高模型的精度。本方法将IDCNN和注意力机制相结合来进行实体识别，通过注意力机制为模型提取的每一个特征赋予权重，减小无效特征对模型进行实体识别的影响，提高了模型的精度。本方法设置了规则后处理机制，能够利用规则对模型预测结果进行进一步的优化，从而提高最终实体识别的精度。经实验表明，使用本发明提出的方法能够在招投标文本实体识别任务中取得较好的效果。

在本发明的方法中，使用将字向量与位置向量进行拼接的方法对文本进行向量化处理，在避免一词多义问题的同时让模型捕获到实体间的依赖关系，从而提高模型进行实体识别的精度。

在本发明的方法中，在IDCNN的基础上加入了注意力机制，通过注意力机制能够为IDCNN提取出的每一个特征赋予一个权重，对提取到的有效特征进行放大，同时减小无效特征对模型的影响，从而提高模型进行实体识别的精度。

附图说明

图1为基于IDCNN和注意力机制的招投标文本实体识别方法流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、 “第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性；此外，除非另有明确的规定和限定，术语“安装”、 “相连”、 “连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

1.1嵌入层

一方面，招投标文本数据集中存在一词多义的问题，同一个词可能会被识别为多种实体，从而造成最终结果的错误；另一方面，在待提取的24个实体中，有较多的实体在文本数据中存在着较强的依赖关系，如实体“项目编号”往往出现在实体“项目名称”之后，实体“招标单位联系人”和“招标单位联系电话”往往出现在实体“招标单位”之后。考虑到以上两方面的情况，本发明在模型的嵌入层中，采用将字向量和位置向量进行拼接的方法对文本进行向量化处理。

文本向量化的具体步骤：

步骤一：以字为单位，将文本中的每个字映射为向量。本发明使用Word2Vec中的Skip-gram模型计算得到定长的字向量。对于一个文本序列，将文本中每个字的字向量拼接起来，就可以得到整个文本序列的字向量表示。具体如公式(1)所示：

S=C ₁⊕C ₂⊕C ₃⊕...⊕C _n （1）

步骤二：计算位置向量。在将数据输入模型前，需要对其计算位置向量，从而保存每个字在文本序列中的位置和排列顺序信息。本发明使用正弦、余弦函数来计算相应的位置向量。具体如公式(2)、(3)所示：

U _i，2m=Sin（i/10000^2m/d）（2）

U _i，2m+1=Cos（i/10000^2m/d）（3）

其中d表示位置向量的维度，i表示字符在文本中的位置，m表示字符位置向量的维度位置，2m即表示位置向量的偶数位，2m+1即表示位置向量的奇数位。

文本中第i个字符的位置向量即如公式（4）所示：

P _i=[U _i,0，U _i,1，U _i,2，...，U _i,d-1] （4）

步骤三：将得到的字向量和位置向量进行拼接。在得到字向量和位置向量后，本发明将字向量和位置向量拼接起来作为模型的输入。具体如公式(5)所示：

F _i=[C _i，P _i] （5）

优点：在招投标文本实体识别任务中，需要识别的实体数量较多，且部分实体间存在着一定的依赖关系。相比于单纯使用字向量，通过将字向量与位置向量拼接的方法能够让模型在学习到语义信息的同时捕获实体间的依赖关系，从而提高模型进行实体识别的精度。

1.2 IDCNN层

在将文本进行向量化处理后，本发明将嵌入层的输出输入到IDCNN层中进行处理。

步骤一：利用多个膨胀卷积块对嵌入层的输出进行迭代计算。IDCNN层具有多个膨胀卷积块，每个膨胀卷积块包含多个膨胀卷积层，能够对输入进行多次迭代卷积计算。假设嵌入层输出的向量表示为F，则每个膨胀卷积块的计算原理如公式(6)、(7)所示：

C ^（1）=D _ᵟ ^（0） F （6）

C ^（l+1）=r（D _ᵟ ^（l） C ^（l））（7）

步骤二：将多个膨胀卷积块的输出进行拼接，得到最终的输出。假设第j个膨胀卷积块的输出为H _j，则计算最终IDCNN层的输出的原理如公式(8)、(9)所示：

H=H ₁⊕H ₂⊕...⊕H _j⊕...⊕H _k（8）

H'=dropout（H）（9）

其中，k为膨胀卷积块的数量，H'为最终IDCNN层的输出。

优点：在招投标文本实体识别任务中，本发明所使用的数据集中所包含的文本均为长文本。IDCNN相较于传统的卷积神经网络加大了感受野，让每个卷积输出都包含较大范围的信息；同时它能够加速GPU并行，减少训练时间，在招投标文本实体识别任务中具有更好的性能。

1.3 注意力层

在获取到IDCNN层的输出后，本发明将其输入到注意力层中进行计算。假设注意力层的输入为H'=[h ₁，h ₂，...，h _q]，则每一个输入h _r(r=1,2,3,...,q)的注意力权重α _r的计算过程如公式（10）、（11）所示：

u _r =tanh（Wh _r+b）（10）

（11）

其中W为权重矩阵，b为偏置。最终将注意力权重α _r与输入h _r，进行加权求和即可得到最终注意力层输出的特征表示V，具体如公式(12)所示：

（12）

由于招投标文本数据大多数为长文本，通过注意力机制能够为模型提取的每一个特征赋予权重，减小无效特征对模型进行实体识别的影响，相较于不加入注意力机制的IDCNN效果要更好。

1.4 CRF层

在得到注意力层输出的特征表示后，将其输入CRF层后即可计算得到每个字符的标签的概率。假设给定的输入序列为x=[x ₁，x ₂，...，x _T]，对应的标签序列为y=[y₁，y₂，...，y_T]，Y（x）是所有标签的集合，则具体的计算原理如公式(13)所示：

（13）

1.5规则后处理

由于招投标文本数据集中大多数数据是长文本，语境较为复杂，且有部分实体在文本中的语义相似，如实体“代理机构联系人”和“招标机构联系人”、“投标开始时间”和“开标时间”、“中标单位”和“中标联合单位”等，仅通过模型来进行实体识别容易出现某些字段有多个预测结果而其相似字段没有预测结果的问题。因此本发明设计了规则后处理模块，利用人工设定的规则对模型的预测结果进行补全和校对，从而提高最终实体识别的精度。具体步骤如下：

步骤一：在对模型预测结果进行验证后，请相关专家有针对性地对模型易错、难识别出的实体设置提取的规则，并将规则转化为相应的正则表达式，方便后续来从文本中提取相应的字段。

步骤二：将用规则提取出的实体与模型预测出的实体进行比对。如果模型未提取出某类型实体，结果为空，而用规则提取出了实体，则最终使用规则提取的结果；如果模型与规则均提取出了多个实体，则取两者共同的结果；其余情况均以模型预测结果为最终结果。

优点：通过规则后处理方式能有效解决因数据特殊性导致模型预测错误的问题，且利用规则来进行实体抽取耗时较少，能够在提高最终实体识别精度的同时保证整体处理流程的效率不受到大的影响。

在本发明的方法中，根据招投标文本数据集中文本数据的特点以及模型测试结果的缺陷，设置了相应的规则对模型预测的结果进行补全和校对，通过这种规则后处理机制对模型预测结果进行了优化，从而提升了最终实体识别的精度。

经实验表明，本发明所提出的基于IDCNN和注意力机制的招投标文本实体识别方法在招投标文本数据集上能够取得较好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围之内。

Claims

1.一种基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，具体包括如下步骤：

S2：计算文本中每个字符的位置向量，得到位置向量；

2.根据权利要求1所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，S1中：

S=C ₁⊕C ₂⊕C ₃⊕...⊕C _n （1）

3.根据权利要求2所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，S2中:

U _i，2m=Sin（i/10000^2m/d）（2）

U _i，2m+1=Cos（i/10000^2m/d）（3）

文本中第i个字的位置向量即如公式（4）所示：

P _i=[U _i,0，U _i,1，U _i,2，...，U _i,d-1] （4）。

4.根据权利要求3所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，S3中:

字向量和位置向量拼接，具体如公式（5）所示：

F _i=[C _i，P _i] （5）。

5.根据权利要求4所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，S4具体包括：

S4.2：将多个膨胀卷积块的输出进行拼接，得到最终的输出。

6.根据权利要求5所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，S4.1中：

C ^（1）=D _ᵟ ^（0） F （6）

C ^（l+1）=r（D _ᵟ ^（l） C ^（l））（7）

7.根据权利要求5所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，S4.2中：

H=H ₁⊕H ₂⊕...⊕H _j⊕...⊕H _k（8）

H'=dropout（H）（9）

其中，k为膨胀卷积块的数量，H'为最终IDCNN层的输出。

8.根据权利要求7所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，S5中：

假设注意力层的输入为H'=[h ₁，h ₂，...，h _q]，则其中每一个输入h _r(r=1,2,3,...,q)的注意力权重α _r的计算过程如公式（10）、（11）所示：

u _r =tanh（Wh _r+b）（10）

（11）

其中W为权重矩阵，b为偏置；最终将注意力权重α _r与输入h _r进行加权求和即可得到最终注意力层输出的特征表示V，具体如公式(12)所示：

（12）。

9.根据权利要求8所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，S6中：

（13）

10.根据权利要求1所述的基于IDCNN和注意力机制的招投标文本实体识别方法，其特征在于，还包括：