CN114417872A

CN114417872A - 一种合同文本命名实体识别方法及系统

Info

Publication number: CN114417872A
Application number: CN202111644252.4A
Authority: CN
Inventors: 常远; 孔雷; 孟庆磊; 孟笛
Original assignee: Aerospace Science And Technology Network Information Development Co ltd
Current assignee: Aerospace Science And Technology Network Information Development Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-29

Abstract

本发明涉及文本识别技术领域，具体涉及一种合同文本命名实体识别方法及模型。本发明的方法包括获取合同文本的语句序列；提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；以及对预测标签进行修正处理，输出合同文本标签步骤。本发明的方法步骤均通过采用人工智能的深度学习方法识别合同文本的实体信息，不再需要耗费大量人力制定大量规则，且能够自动、高效识别出输入的合同文本中的命名实体信息，为后续文本分类、数据脱敏等任务提供准确的实体标签。

Description

一种合同文本命名实体识别方法及系统

技术领域

本发明涉及合同文本识别技术领域，具体涉及一种合同文本命名实体识别方法及系统。

背景技术

识别出合同文本中的命名实体成分，并对其进行分类是合同文本分类、企业数据资产保护、数据脱敏等任务中的重要环节。

对于命名实体识别，现有的应用较多的方法是基于规则和字典的方法，以及统计机器学习的方法，或者两种方法的融合。

现有的对于非结构化文本文档中命名实体识别的方法依赖于大量规则的制定，而人工制定这些规则耗费将耗费大量人力，导致识别和归纳过程开销大，识别效率也普遍不高。而基于机器学习的方法，词向量生成方法往往采用word2vec或n-gram，这种方法无法表征汉语中的一词多义，生成的词向量也没有参考文本的上下文信息，对文本提取特征要求高。

另外，合同文本中复杂的数据类型以及存在的实体嵌套问题，使得命名实体识别任务更加复杂且深入，现有的文本识别方法及模型对于具有随意性、复杂性、多变性和嵌套的命名实体，显得不够灵活高效，难以解决复杂数据类型实体以及嵌套实体的识别问题。

发明内容

(一)要解决的技术问题

本发明的目的在于提供一种合同文本命名实体识别方法及系统，以解决现有文本识别方法和模型对于随意性、复杂性、多变性和嵌套的命名实体识别准确性不高的问题。

(二)技术方案

本发明提供一种合同文本命名实体识别方法，包括以下步骤：

获取合同文本的语句序列；

提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；

对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；

对预测标签进行修正处理，输出合同文本标签。

进一步地，所述提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；具体包括：

将合同文本语句序列中的每个词汇或者字符映射为一个词向量或者字符向量，得到带有上下文信息及文本语义信息的词序列特征向量X＝(x₁,x₂,...,x_n)；

其中，x_n是语句序列中文字的动态词特征向量，维度为d，i∈{1,2,3,...,n}。

进一步地，所述对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；具体包括：BiLSTM网络学习和IDCNN网络学习；

BiLSTM网络学习,将词序列特征向量传入BiLSTM网络，分别从左至右和从右至左对输入的序列数据进行学习，得到文本的前向特征和文本的后向特征；并将前向特征和后向特征进行拼接，得到文本的上下文特征，且基于上下文特征计算得到上下文特征序列；

IDCNN网络学习,将上下文特征序列H通过卷积网络卷积处理，得到IDCNN网络的输入特征；将输入特征通过IDCNN网络的多个膨胀卷积块学习，分别输出多个膨胀卷积块的学习结果；并将多个膨胀卷积块的学习结果进行拼接，得到IDCNN网络的学习特征；将学习特征通过全连接层处理，输出文本的预测标签以及预测标签的打分分数。

进一步地，所述BiLSTM网络学习中，前向特征和后向特征依据下列公式计算得到；

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

c_t＝f_tc_t-1+i_t(W_xcx_t+W_hch_t-1+b_c)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b₀)；

h_t＝o_ttanh(c_t)；

其中，i_t为记忆门，f_t为遗忘门，c_t为细胞核，o_t为输出门，h_t为隐藏层，t指代输入第t个文本；前向特征h_lt指从左至右学习计算得到的h_t；后向特征h_rt指从右至左学习计算得到的h_t；W为模型的参数；b为偏置向量；σ为Sigmoid函数；tanh为双曲正切函数；

上下文特征依据下列公式计算：

H_t＝h_lt⊕h_rt；式子中“⊕”表示向量的拼接；

上下文本特征序列H依据下列公式计算：

H＝(H₁,H₂,…H_T)；

其中，H₁、H₂...H_T均为上下文特征。

进一步地，所述IDCNN网络学习中，膨胀卷积块的结构依据下列公式表示：

式中:

为第j层膨胀距离为δ的膨胀卷积神经网络；

为第j层网络卷积得到的特征(j＞1)；r()表示ReLU激活函数；

IDCNN网络的学习特征依据下列公式计算得到：

其中，θ'＝[θ₁'，θ₂'…，θ'_N]为IDCNN网络的参数，

为第n个膨胀卷积块的学习结果输出。

进一步地，所述对预测标签进行修正处理，输出合同文本标签；具体包括：

将预测标签及预测标签的分数序列输入到CRF模型中；

引入状态转移矩阵处理预测标签，得到预测标签的打分分数；

将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理，得到文本对应的标签序列的分数；

基于文本对应的标签序列的分数，计算标签序列分数的条件概率，并输出条件概率的似然函数最大时的预测标签作为输出合同文本标签。

进一步地，所述将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理，得到文本对应的标签序列的分数；基于文本对应的标签序列的分数，计算标签序列分数的条件概率，并输出条件概率的似然函数最大的标签作为合同文本标签；具体包括：

对于输入的词序列特征向量X＝(x₁,x₂,...,x_n)，其对应的预测序列为Y＝(y₁,y₂,……y_n)，y₁,y₂,……y_n为词特征向量x₁,x₂,...,x_n对应的预测标签；通过计算Y的评分函数，得到预测序列Y产生的概率；

预测序列Y的评分函数为：

其中，A表示转移分数矩阵，A_yi，yi+1表示连续两个标签，yi转移到yi+1的分数；P为IDCNN网络全连接层输出的得分矩阵，P_i，yi表示第i个标签对应的标签分数yi；

预测序列Y产生的概率依据下列公式计算:

其中，

表示真实的标注序列(真实标签序列)，Y_X表示所有可能的标注序列；

预测序列(预测标签序列)产生概率的似然函数依据下列公式计算:

进一步地，本发明的方法还包括学习模型更新步骤，计算标签预测信息和真实标签之间的损失值，迭代更新BERT模型和BiLSTM-IDCNN模型的权重，直至损失值收敛。

进一步地，基于交叉熵函数计算标签预测信息和真实标签之间的损失值；所述交叉熵函数为：

其中，N为样本数，y(i)为样本的真实值，

为预测值。

本发明还提供一种合同文本命名实体识别模型，包括依次连接的BERT网络模型、BiLSTM与IDCNN融合网络模型以及CRF网络模型；

BERT网络模型用以提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；

BiLSTM与IDCNN融合网络模型，包括相连地BiLSTM网络模型和IDCNN网络模型，用以对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；

CRF网络模型对预测标签进行修正处理，输出合同文本标签。

(三)有益效果

相比于现有技术，本发明具有以下优点：

本发明的方法通过提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；有效提高合同文本的语句的语义表征能力，提供了合同文本字、词融合上下文特征的更精确的特征表示；通过对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；输出的预测标签既做到了合同文本的远距离信息提取，又兼顾合同文本的局部信息提取，有效提升预测标签以及文本识别的准确性；通过对预测标签进行修正处理，输出合同文本标签；修正处理的的设置进一步提高了输出预测标签的准确性，同时利于计算分析标签预测信息和真实标签之间的损失值，进而实现相关模型以及相关权重的更新或修正，以提高后续合同文本特征提取输出以及预测标签输出的准确性。

本发明的方法步骤均采用人工智能的深度学习方法识别合同文本的实体信息，不再需要耗费大量人力制定大量规则，且能够自动、高效识别出输入的合同文本中的命名实体信息，为后续文本分类、数据脱敏等任务提供准确的实体标签；经实际验证，本发明在CLUENER2020数据集上验证的结果显示，对于人名、地址类实体的识别准确率达到96.33％，对于公司类和职位类实体的识别准确率达到了83.99％。明显高于传统基于规则和机器学习的方法。

附图说明

图1是本发明的合同文本命名实体识别方法的流程图；

图2是本发明合同文本命名实体识别模型的结构示意框图；

具体实施方式

以下结合附图对本发明的具体实施方式做出详细说明，根据下面说明和权利要求书，本发明的优点和特征将更清楚。需要说明的是，附图均采用非常简化的形式且均适用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是，为了清楚地说明本发明的内容，本发明特举多个实施例以进一步阐释本发明的不同实现方式，其中，该多个实施例是列举式而非穷举式。此外，为了说明的简洁，前实施例中已提及的内容往往在后实施例中予以省略，因此，后实施例中未提及的内容可相应参考前实施例。在角度失配和干扰运动同时存在时，现有自适应波束形成技术无法充分抑制干扰和真实输出目标；

图1是本发明提供一种合同文本命名实体识别方法，包括以下步骤：

获取合同文本的语句序列；

对预测标签进行修正处理，输出合同文本标签。

其中，x_n是语句序列中文字的动态词特征向量，维度为d，d取值为1或2或3，i∈{1,2,3,...,n}。本发明优选采用BERT模型提取合同文本的语句序列的语法及语义特征。

所述BiLSTM网络学习中，前向特征和后向特征依据下列公式计算得到；

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)；

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)；

c_t＝f_tc_t-1+i_t(W_xcx_t+W_hch_t-1+b_c)；

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b₀)；

h_t＝o_ttanh(c_t)；

上下文特征依据下列公式计算：

H_t＝h_lt⊕h_rt；式子中“⊕”表示向量的拼接；

上下文本特征序列H依据下列公式计算：

H＝(H₁,H₂,…H_T)。

所述IDCNN网络学习中，膨胀卷积块的结构依据下列公式表示：

式中:

为第j层膨胀距离为δ的膨胀卷积神经网络；

为第j层网络卷积得到的特征(j＞1)；r()表示ReLU激活函数；

IDCNN网络的学习特征依据下列公式计算得到：

其中，θ'＝[θ₁'，θ₂'…，θ'_N]，为IDCNN网络的参数，

为第n个膨胀卷积块的学习结果输出。

将预测标签及预测标签的分数序列输入到CRF模型中；

基于文本对应的标签序列的分数，计算标签序列分数的条件概率，并输出条件概率的似然函数最大时的预测标签作为合同文本标签；

对于输入的词序列特征向量X＝(x₁,x₂,...,x_n)，其对应的预测序列为Y＝(y₁,y₂,……y_n)，y₁,y₂,……y_n为词特征向量x₁,x₂,...,x_n对应的预测标签；计算Y的评分函数，得到预测序列Y产生的概率；

预测序列Y的评分函数的计算方法如下公式所示：

其中，A表示转移分数矩阵，A_yi，yi+1表示连续两个标签，yi转移到yi+1的分数；P为IDCNN网络全连接层输出的得分矩阵，P_i，yi表示第i个标签对应的标签分数yi。

预测标签Y产生的概率依据下列公式计算：

其中，

表示真实的标注序列，Y_X表示所有可能的标注序列；

预测序列产生概率的似然函数为:

本发明方法还包括学习模型更新步骤，计算标签预测信息和真实标签之间的损失值，迭代更新BERT模型和BiLSTM-IDCNN模型(BiLSTM网络模型和IDCNN网络模型)的权重，直至损失值收敛。

优选的，基于交叉熵函数计算标签预测信息和真实标签之间的损失值；所述交叉熵函数为：

其中，N为样本数，y(i)为样本的真实值，

为预测值。

本发明的方法通过提取合同文本的语句序列的语法及语义特征，得到合同文本的词序列特征向量；有效提高合同文本的语句的语义表征能力，提供了合同文本字、词融合上下文特征的更精确的特征表示；通过对文本的词序列特征向量进行特征提取和特征融合，得到文本的预测标签；输出的预测标签既做到了合同文本的远距离信息提取，又兼顾合同文本的局部信息提取，有效提升预测标签以及文本识别的准确性；通过对预测标签进行修正处理，输出合同文本标签；修正处理的的设置进一步提高了输出预测标签的准确性，同时利于计算分析标签预测信息和真实标签之间的损失值，进而实现相关模型以及相关权重的更新或修正，以提高后续合同文本特征提取输出以及预测标签输出的准确性。经实际验证，本发明在CLUENER2020数据集上验证的结果显示，对于人名、地址类实体的识别准确率达到96.33％，对于公司类和职位类实体的识别准确率达到了83.99％。明显高于传统基于规则和机器学习的方法。

CRF网络模型对预测标签进行修正处理，输出合同文本标签。

本发明利用BERT网络模型作为词嵌入层，提高词向量的语义表征能力；实现将合同文本语句序列转换为具有上下文语义及语法的词序列特征向量；本发明的BERT网络模型是一个可供其它任务迁移学习的特征提取器，是一种在海量语料的基础上运行自监督学习方法，能够提供字、词融合上下文特征的更精确的特征表示。

经典的CNN卷积神经网络中，卷积核在连续的区域上滑动，卷积完成之后末梢神经元可能只得到了原始输入数据信息中的一小部分，而命名实体识别任务中一句话中的每个字都有可能都会对当前字向量的生成产生影响。本发明的IDCNN网络在经典的CNN卷积上增加了一个膨胀宽度d，能够跳过膨胀宽度中间的数据，保持卷积核的大小不变进行卷积操作，相比于CNN中的卷积操作，本发明IDCNN网络的卷积核能捕获到更广阔的的输入矩阵数据，扩大了卷积核的感受野。

BiLSTM提取远距离上下文信息，容易忽略局部特征。BiLSTM是一个序列模型，进行网络的前向后向反馈的过程中不能充分利用GPU的并行计算功能。本发明使用IDCNN与BiLSTM融合的网络结构，能够充分的利用GPU资源，提高计算效率；同时将图像分割领域的膨胀卷积神经网络IDCNN与BiLSTM网络融合作为合同文本识别中的特征提取层，既能够像LSTM那样用简单的结构记住尽可能多的输入信息，又能兼顾局部特征，即学习到的特征既能提取远距离信息，又能兼顾局部信息，有效提升文本识别的准确性。

本发明未详细描述内容为本领域技术人员公知技术；以上对本发明的具体实施例进行了描述，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。