CN114417872A - 一种合同文本命名实体识别方法及系统 - Google Patents

一种合同文本命名实体识别方法及系统 Download PDF

Info

Publication number
CN114417872A
CN114417872A CN202111644252.4A CN202111644252A CN114417872A CN 114417872 A CN114417872 A CN 114417872A CN 202111644252 A CN202111644252 A CN 202111644252A CN 114417872 A CN114417872 A CN 114417872A
Authority
CN
China
Prior art keywords
text
label
sequence
network
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111644252.4A
Other languages
English (en)
Inventor
常远
孔雷
孟庆磊
孟笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Science And Technology Network Information Development Co ltd
Original Assignee
Aerospace Science And Technology Network Information Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Science And Technology Network Information Development Co ltd filed Critical Aerospace Science And Technology Network Information Development Co ltd
Priority to CN202111644252.4A priority Critical patent/CN114417872A/zh
Publication of CN114417872A publication Critical patent/CN114417872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本识别技术领域,具体涉及一种合同文本命名实体识别方法及模型。本发明的方法包括获取合同文本的语句序列;提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;以及对预测标签进行修正处理,输出合同文本标签步骤。本发明的方法步骤均通过采用人工智能的深度学习方法识别合同文本的实体信息,不再需要耗费大量人力制定大量规则,且能够自动、高效识别出输入的合同文本中的命名实体信息,为后续文本分类、数据脱敏等任务提供准确的实体标签。

Description

一种合同文本命名实体识别方法及系统
技术领域
本发明涉及合同文本识别技术领域,具体涉及一种合同文本命名实体识别方法及系统。
背景技术
识别出合同文本中的命名实体成分,并对其进行分类是合同文本分类、企业数据资产保护、数据脱敏等任务中的重要环节。
对于命名实体识别,现有的应用较多的方法是基于规则和字典的方法,以及统计机器学习的方法,或者两种方法的融合。
现有的对于非结构化文本文档中命名实体识别的方法依赖于大量规则的制定,而人工制定这些规则耗费将耗费大量人力,导致识别和归纳过程开销大,识别效率也普遍不高。而基于机器学习的方法,词向量生成方法往往采用word2vec或n-gram,这种方法无法表征汉语中的一词多义,生成的词向量也没有参考文本的上下文信息,对文本提取特征要求高。
另外,合同文本中复杂的数据类型以及存在的实体嵌套问题,使得命名实体识别任务更加复杂且深入,现有的文本识别方法及模型对于具有随意性、复杂性、多变性和嵌套的命名实体,显得不够灵活高效,难以解决复杂数据类型实体以及嵌套实体的识别问题。
发明内容
(一)要解决的技术问题
本发明的目的在于提供一种合同文本命名实体识别方法及系统,以解决现有文本识别方法和模型对于随意性、复杂性、多变性和嵌套的命名实体识别准确性不高的问题。
(二)技术方案
本发明提供一种合同文本命名实体识别方法,包括以下步骤:
获取合同文本的语句序列;
提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;
对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;
对预测标签进行修正处理,输出合同文本标签。
进一步地,所述提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;具体包括:
将合同文本语句序列中的每个词汇或者字符映射为一个词向量或者字符向量,得到带有上下文信息及文本语义信息的词序列特征向量X=(x1,x2,...,xn);
其中,xn是语句序列中文字的动态词特征向量,维度为d,i∈{1,2,3,...,n}。
进一步地,所述对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;具体包括:BiLSTM网络学习和IDCNN网络学习;
BiLSTM网络学习,将词序列特征向量传入BiLSTM网络,分别从左至右和从右至左对输入的序列数据进行学习,得到文本的前向特征和文本的后向特征;并将前向特征和后向特征进行拼接,得到文本的上下文特征,且基于上下文特征计算得到上下文特征序列;
IDCNN网络学习,将上下文特征序列H通过卷积网络卷积处理,得到IDCNN网络的输入特征;将输入特征通过IDCNN网络的多个膨胀卷积块学习,分别输出多个膨胀卷积块的学习结果;并将多个膨胀卷积块的学习结果进行拼接,得到IDCNN网络的学习特征;将学习特征通过全连接层处理,输出文本的预测标签以及预测标签的打分分数。
进一步地,所述BiLSTM网络学习中,前向特征和后向特征依据下列公式计算得到;
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
ct=ftct-1+it(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,it为记忆门,ft为遗忘门,ct为细胞核,ot为输出门,ht为隐藏层,t指代输入第t个文本;前向特征hlt指从左至右学习计算得到的ht;后向特征hrt指从右至左学习计算得到的ht;W为模型的参数;b为偏置向量;σ为Sigmoid函数;tanh为双曲正切函数;
上下文特征依据下列公式计算:
Ht=hlt⊕hrt;式子中“⊕”表示向量的拼接;
上下文本特征序列H依据下列公式计算:
H=(H1,H2,…HT);
其中,H1、H2...HT均为上下文特征。
进一步地,所述IDCNN网络学习中,膨胀卷积块的结构依据下列公式表示:
Figure BDA0003444619180000021
Figure BDA0003444619180000022
式中:
Figure BDA0003444619180000031
为第j层膨胀距离为δ的膨胀卷积神经网络;
Figure BDA0003444619180000032
为第j层网络卷积得到的特征(j>1);r()表示ReLU激活函数;
IDCNN网络的学习特征依据下列公式计算得到:
Figure BDA0003444619180000033
其中,θ'=[θ1',θ2'…,θ'N]为IDCNN网络的参数,
Figure BDA0003444619180000034
为第n个膨胀卷积块的学习结果输出。
进一步地,所述对预测标签进行修正处理,输出合同文本标签;具体包括:
将预测标签及预测标签的分数序列输入到CRF模型中;
引入状态转移矩阵处理预测标签,得到预测标签的打分分数;
将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理,得到文本对应的标签序列的分数;
基于文本对应的标签序列的分数,计算标签序列分数的条件概率,并输出条件概率的似然函数最大时的预测标签作为输出合同文本标签。
进一步地,所述将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理,得到文本对应的标签序列的分数;基于文本对应的标签序列的分数,计算标签序列分数的条件概率,并输出条件概率的似然函数最大的标签作为合同文本标签;具体包括:
对于输入的词序列特征向量X=(x1,x2,...,xn),其对应的预测序列为Y=(y1,y2,……yn),y1,y2,……yn为词特征向量x1,x2,...,xn对应的预测标签;通过计算Y的评分函数,得到预测序列Y产生的概率;
预测序列Y的评分函数为:
Figure BDA0003444619180000035
其中,A表示转移分数矩阵,Ayi,yi+1表示连续两个标签,yi转移到yi+1的分数;P为IDCNN网络全连接层输出的得分矩阵,Pi,yi表示第i个标签对应的标签分数yi;
预测序列Y产生的概率依据下列公式计算:
Figure BDA0003444619180000041
其中,
Figure BDA0003444619180000042
表示真实的标注序列(真实标签序列),YX表示所有可能的标注序列;
预测序列(预测标签序列)产生概率的似然函数依据下列公式计算:
Figure BDA0003444619180000043
进一步地,本发明的方法还包括学习模型更新步骤,计算标签预测信息和真实标签之间的损失值,迭代更新BERT模型和BiLSTM-IDCNN模型的权重,直至损失值收敛。
进一步地,基于交叉熵函数计算标签预测信息和真实标签之间的损失值;所述交叉熵函数为:
Figure BDA0003444619180000044
其中,N为样本数,y(i)为样本的真实值,
Figure BDA0003444619180000045
为预测值。
本发明还提供一种合同文本命名实体识别模型,包括依次连接的BERT网络模型、BiLSTM与IDCNN融合网络模型以及CRF网络模型;
BERT网络模型用以提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;
BiLSTM与IDCNN融合网络模型,包括相连地BiLSTM网络模型和IDCNN网络模型,用以对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;
CRF网络模型对预测标签进行修正处理,输出合同文本标签。
(三)有益效果
相比于现有技术,本发明具有以下优点:
本发明的方法通过提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;有效提高合同文本的语句的语义表征能力,提供了合同文本字、词融合上下文特征的更精确的特征表示;通过对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;输出的预测标签既做到了合同文本的远距离信息提取,又兼顾合同文本的局部信息提取,有效提升预测标签以及文本识别的准确性;通过对预测标签进行修正处理,输出合同文本标签;修正处理的的设置进一步提高了输出预测标签的准确性,同时利于计算分析标签预测信息和真实标签之间的损失值,进而实现相关模型以及相关权重的更新或修正,以提高后续合同文本特征提取输出以及预测标签输出的准确性。
本发明的方法步骤均采用人工智能的深度学习方法识别合同文本的实体信息,不再需要耗费大量人力制定大量规则,且能够自动、高效识别出输入的合同文本中的命名实体信息,为后续文本分类、数据脱敏等任务提供准确的实体标签;经实际验证,本发明在CLUENER2020数据集上验证的结果显示,对于人名、地址类实体的识别准确率达到96.33%,对于公司类和职位类实体的识别准确率达到了83.99%。明显高于传统基于规则和机器学习的方法。
附图说明
图1是本发明的合同文本命名实体识别方法的流程图;
图2是本发明合同文本命名实体识别模型的结构示意框图;
具体实施方式
以下结合附图对本发明的具体实施方式做出详细说明,根据下面说明和权利要求书,本发明的优点和特征将更清楚。需要说明的是,附图均采用非常简化的形式且均适用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
需要说明的是,为了清楚地说明本发明的内容,本发明特举多个实施例以进一步阐释本发明的不同实现方式,其中,该多个实施例是列举式而非穷举式。此外,为了说明的简洁,前实施例中已提及的内容往往在后实施例中予以省略,因此,后实施例中未提及的内容可相应参考前实施例。在角度失配和干扰运动同时存在时,现有自适应波束形成技术无法充分抑制干扰和真实输出目标;
图1是本发明提供一种合同文本命名实体识别方法,包括以下步骤:
本发明提供一种合同文本命名实体识别方法,包括以下步骤:
获取合同文本的语句序列;
提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;
对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;
对预测标签进行修正处理,输出合同文本标签。
进一步地,所述提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;具体包括:
将合同文本语句序列中的每个词汇或者字符映射为一个词向量或者字符向量,得到带有上下文信息及文本语义信息的词序列特征向量X=(x1,x2,...,xn);
其中,xn是语句序列中文字的动态词特征向量,维度为d,d取值为1或2或3,i∈{1,2,3,...,n}。本发明优选采用BERT模型提取合同文本的语句序列的语法及语义特征。
进一步地,所述对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;具体包括:BiLSTM网络学习和IDCNN网络学习;
BiLSTM网络学习,将词序列特征向量传入BiLSTM网络,分别从左至右和从右至左对输入的序列数据进行学习,得到文本的前向特征和文本的后向特征;并将前向特征和后向特征进行拼接,得到文本的上下文特征,且基于上下文特征计算得到上下文特征序列;
所述BiLSTM网络学习中,前向特征和后向特征依据下列公式计算得到;
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
ct=ftct-1+it(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,it为记忆门,ft为遗忘门,ct为细胞核,ot为输出门,ht为隐藏层,t指代输入第t个文本;前向特征hlt指从左至右学习计算得到的ht;后向特征hrt指从右至左学习计算得到的ht;W为模型的参数;b为偏置向量;σ为Sigmoid函数;tanh为双曲正切函数;
上下文特征依据下列公式计算:
Ht=hlt⊕hrt;式子中“⊕”表示向量的拼接;
上下文本特征序列H依据下列公式计算:
H=(H1,H2,…HT)。
IDCNN网络学习,将上下文特征序列H通过卷积网络卷积处理,得到IDCNN网络的输入特征;将输入特征通过IDCNN网络的多个膨胀卷积块学习,分别输出多个膨胀卷积块的学习结果;并将多个膨胀卷积块的学习结果进行拼接,得到IDCNN网络的学习特征;将学习特征通过全连接层处理,输出文本的预测标签以及预测标签的打分分数。
所述IDCNN网络学习中,膨胀卷积块的结构依据下列公式表示:
Figure BDA0003444619180000071
Figure BDA0003444619180000072
式中:
Figure BDA0003444619180000073
为第j层膨胀距离为δ的膨胀卷积神经网络;
Figure BDA0003444619180000074
为第j层网络卷积得到的特征(j>1);r()表示ReLU激活函数;
IDCNN网络的学习特征依据下列公式计算得到:
Figure BDA0003444619180000075
其中,θ'=[θ1',θ2'…,θ'N],为IDCNN网络的参数,
Figure BDA0003444619180000076
为第n个膨胀卷积块的学习结果输出。
进一步地,所述对预测标签进行修正处理,输出合同文本标签;具体包括:
将预测标签及预测标签的分数序列输入到CRF模型中;
引入状态转移矩阵处理预测标签,得到预测标签的打分分数;
将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理,得到文本对应的标签序列的分数;
基于文本对应的标签序列的分数,计算标签序列分数的条件概率,并输出条件概率的似然函数最大时的预测标签作为合同文本标签;
对于输入的词序列特征向量X=(x1,x2,...,xn),其对应的预测序列为Y=(y1,y2,……yn),y1,y2,……yn为词特征向量x1,x2,...,xn对应的预测标签;计算Y的评分函数,得到预测序列Y产生的概率;
预测序列Y的评分函数的计算方法如下公式所示:
Figure BDA0003444619180000077
其中,A表示转移分数矩阵,Ayi,yi+1表示连续两个标签,yi转移到yi+1的分数;P为IDCNN网络全连接层输出的得分矩阵,Pi,yi表示第i个标签对应的标签分数yi。
预测标签Y产生的概率依据下列公式计算:
Figure BDA0003444619180000081
其中,
Figure BDA0003444619180000082
表示真实的标注序列,YX表示所有可能的标注序列;
预测序列产生概率的似然函数为:
Figure BDA0003444619180000083
本发明方法还包括学习模型更新步骤,计算标签预测信息和真实标签之间的损失值,迭代更新BERT模型和BiLSTM-IDCNN模型(BiLSTM网络模型和IDCNN网络模型)的权重,直至损失值收敛。
优选的,基于交叉熵函数计算标签预测信息和真实标签之间的损失值;所述交叉熵函数为:
Figure BDA0003444619180000084
其中,N为样本数,y(i)为样本的真实值,
Figure BDA0003444619180000085
为预测值。
本发明的方法通过提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;有效提高合同文本的语句的语义表征能力,提供了合同文本字、词融合上下文特征的更精确的特征表示;通过对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;输出的预测标签既做到了合同文本的远距离信息提取,又兼顾合同文本的局部信息提取,有效提升预测标签以及文本识别的准确性;通过对预测标签进行修正处理,输出合同文本标签;修正处理的的设置进一步提高了输出预测标签的准确性,同时利于计算分析标签预测信息和真实标签之间的损失值,进而实现相关模型以及相关权重的更新或修正,以提高后续合同文本特征提取输出以及预测标签输出的准确性。经实际验证,本发明在CLUENER2020数据集上验证的结果显示,对于人名、地址类实体的识别准确率达到96.33%,对于公司类和职位类实体的识别准确率达到了83.99%。明显高于传统基于规则和机器学习的方法。
本发明还提供一种合同文本命名实体识别模型,包括依次连接的BERT网络模型、BiLSTM与IDCNN融合网络模型以及CRF网络模型;
BERT网络模型用以提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;
BiLSTM与IDCNN融合网络模型,包括相连地BiLSTM网络模型和IDCNN网络模型,用以对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;
CRF网络模型对预测标签进行修正处理,输出合同文本标签。
本发明利用BERT网络模型作为词嵌入层,提高词向量的语义表征能力;实现将合同文本语句序列转换为具有上下文语义及语法的词序列特征向量;本发明的BERT网络模型是一个可供其它任务迁移学习的特征提取器,是一种在海量语料的基础上运行自监督学习方法,能够提供字、词融合上下文特征的更精确的特征表示。
经典的CNN卷积神经网络中,卷积核在连续的区域上滑动,卷积完成之后末梢神经元可能只得到了原始输入数据信息中的一小部分,而命名实体识别任务中一句话中的每个字都有可能都会对当前字向量的生成产生影响。本发明的IDCNN网络在经典的CNN卷积上增加了一个膨胀宽度d,能够跳过膨胀宽度中间的数据,保持卷积核的大小不变进行卷积操作,相比于CNN中的卷积操作,本发明IDCNN网络的卷积核能捕获到更广阔的的输入矩阵数据,扩大了卷积核的感受野。
BiLSTM提取远距离上下文信息,容易忽略局部特征。BiLSTM是一个序列模型,进行网络的前向后向反馈的过程中不能充分利用GPU的并行计算功能。本发明使用IDCNN与BiLSTM融合的网络结构,能够充分的利用GPU资源,提高计算效率;同时将图像分割领域的膨胀卷积神经网络IDCNN与BiLSTM网络融合作为合同文本识别中的特征提取层,既能够像LSTM那样用简单的结构记住尽可能多的输入信息,又能兼顾局部特征,即学习到的特征既能提取远距离信息,又能兼顾局部信息,有效提升文本识别的准确性。
本发明未详细描述内容为本领域技术人员公知技术;以上对本发明的具体实施例进行了描述,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种合同文本命名实体识别方法,其特征在于,包括以下步骤:
获取合同文本的语句序列;
提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;
对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;
对预测标签进行修正处理,输出合同文本标签。
2.根据权利要求1所述的合同文本命名实体识别方法,其特征在于,所述提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;具体包括:
将合同文本语句序列中的每个词汇或者字符映射为一个词向量或者字符向量,得到带有上下文信息及文本语义信息的词序列特征向量X=(x1,x2,...,xn);
其中,xn是语句序列中文字的动态词特征向量,维度为d,i∈{1,2,3,...,n}。
3.根据权利要求2所述的合同文本命名实体识别方法,其特征在于,所述对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;具体包括:BiLSTM网络学习和IDCNN网络学习;
BiLSTM网络学习,将词序列特征向量传入BiLSTM网络,分别从左至右和从右至左对输入的序列数据进行学习,得到文本的前向特征和文本的后向特征;并将前向特征和后向特征进行拼接,得到文本的上下文特征,且基于上下文特征计算得到上下文特征序列;
IDCNN网络学习,将上下文特征序列H通过卷积网络卷积处理,得到IDCNN网络的输入特征;将输入特征通过IDCNN网络的多个膨胀卷积块学习,分别输出多个膨胀卷积块的学习结果;并将多个膨胀卷积块的学习结果进行拼接,得到IDCNN网络的学习特征;将学习特征通过全连接层处理,输出文本的预测标签以及预测标签的打分分数。
4.根据权利要求3所述的合同文本命名实体识别方法,其特征在于,所述BiLSTM网络学习中,前向特征和后向特征依据下列公式计算得到;
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
ct=ftct-1+it(Wxcxt+Whcht-1+bc);
ot=σ(Wxoxt+Whoht-1+Wcoct+b0);
ht=ottanh(ct);
其中,it为记忆门,ft为遗忘门,ct为细胞核,ot为输出门,ht为隐藏层,t指代输入第t个文本;前向特征hlt指从左至右学习计算得到的ht;后向特征hrt指从右至左学习计算得到的ht;W为模型的参数;b为偏置向量;σ为Sigmoid函数;tanh为双曲正切函数;
上下文特征依据下列公式计算:
Figure FDA0003444619170000021
式子中
Figure FDA0003444619170000022
表示向量的拼接;
上下文本特征序列依据下列公式计算:
H=(H1,H2,…HT)
其中,H1、H2...HT均为上下文特征。
5.根据权利要求4所述的合同文本命名实体识别方法,其特征在于,所述IDCNN网络学习中,膨胀卷积块的结构依据下列公式表示:
Figure FDA0003444619170000023
Figure FDA0003444619170000024
式中:
Figure FDA0003444619170000025
为第j层膨胀距离为δ的膨胀卷积神经网络;
Figure FDA0003444619170000026
为第j层网络卷积得到的特征(j>1);r()表示ReLU激活函数;
IDCNN网络的学习特征依据下列公式计算得到:
Figure FDA0003444619170000027
其中,θ'=[θ′1,θ′2…,θ'N]为IDCNN网络的参数,
Figure FDA0003444619170000028
为第n个膨胀卷积块的学习结果输出。
6.根据权利要求5所述的合同文本命名实体识别方法,其特征在于,所述对预测标签进行修正处理,输出合同文本标签;具体包括:
将预测标签及预测标签的分数序列输入到CRF模型中;
引入状态转移矩阵处理预测标签,得到预测标签的打分分数;
将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理,得到文本对应的标签序列的分数;
基于文本对应的标签序列的分数,计算标签序列分数的条件概率,并输出条件概率的似然函数最大时的预测标签作为输出合同文本标签。
7.根据权利要求6所述的合同文本命名实体识别方法,其特征在于,所述将状态转移矩阵和IDCNN网络学习两者得到的预测标签打分分数相加处理,得到文本对应的标签序列的分数;基于文本对应的标签序列的分数,计算标签序列分数的条件概率,并输出条件概率的似然函数最大的标签作为合同文本标签;具体包括:
对于输入的词序列特征向量X=(x1,x2,...,xn),其对应的预测序列为Y=(y1,y2,……yn),通过计算Y的评分函数,得到预测序列Y产生的概率;
预测序列Y的评分函数为:
Figure FDA0003444619170000031
其中,A表示状态转移矩,Ayi,yi+1表示连续两个标签,yi转移到yi+1的分数;P为IDCNN网络全连接层输出的得分矩阵,Pi,yi表示第i个标签对应的标签分数yi;
预测标签Y产生的概率依据下列公式计算:
Figure FDA0003444619170000032
其中,
Figure FDA0003444619170000033
表示真实的标注序列,YX表示所有可能的标注序列;
预测序列产生概率的似然函数依据下列公式计算:
Figure FDA0003444619170000034
8.根据权利要求7所述的合同文本命名实体识别方法,其特征在于,包括学习模型更新步骤,计算标签预测信息和真实标签之间的损失值,迭代更新BERT模型和BiLSTM-IDCNN模型的权重,直至损失值收敛。
9.根据权利要求8所述的合同文本命名实体识别方法,其特征在于,基于交叉熵函数计算标签预测信息和真实标签之间的损失值;所述交叉熵函数为:
Figure FDA0003444619170000035
其中,N为样本数,y(i)为样本的真实值,
Figure FDA0003444619170000041
为预测值。
10.一种合同文本命名实体识别模型,其特征在于,包括依次连接的BERT网络模型、BiLSTM与IDCNN融合网络模型以及CRF网络模型;
BERT网络模型用以提取合同文本的语句序列的语法及语义特征,得到合同文本的词序列特征向量;
BiLSTM与IDCNN融合网络模型,包括相连地BiLSTM网络模型和IDCNN网络模型,用以对文本的词序列特征向量进行特征提取和特征融合,得到文本的预测标签;
CRF网络模型对预测标签进行修正处理,输出合同文本标签。
CN202111644252.4A 2021-12-29 2021-12-29 一种合同文本命名实体识别方法及系统 Pending CN114417872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111644252.4A CN114417872A (zh) 2021-12-29 2021-12-29 一种合同文本命名实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111644252.4A CN114417872A (zh) 2021-12-29 2021-12-29 一种合同文本命名实体识别方法及系统

Publications (1)

Publication Number Publication Date
CN114417872A true CN114417872A (zh) 2022-04-29

Family

ID=81269769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111644252.4A Pending CN114417872A (zh) 2021-12-29 2021-12-29 一种合同文本命名实体识别方法及系统

Country Status (1)

Country Link
CN (1) CN114417872A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956356A (zh) * 2023-09-21 2023-10-27 深圳北控信息发展有限公司 一种基于数据脱敏处理的信息传输方法及设备
CN117744656A (zh) * 2023-12-21 2024-03-22 湖南工商大学 一种结合小样本学习和自校验的命名实体识别方法及系统
CN118036577A (zh) * 2024-04-11 2024-05-14 一百分信息技术有限公司 一种自然语言处理中的序列标注方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956356A (zh) * 2023-09-21 2023-10-27 深圳北控信息发展有限公司 一种基于数据脱敏处理的信息传输方法及设备
CN116956356B (zh) * 2023-09-21 2023-11-28 深圳北控信息发展有限公司 一种基于数据脱敏处理的信息传输方法及设备
CN117744656A (zh) * 2023-12-21 2024-03-22 湖南工商大学 一种结合小样本学习和自校验的命名实体识别方法及系统
CN118036577A (zh) * 2024-04-11 2024-05-14 一百分信息技术有限公司 一种自然语言处理中的序列标注方法

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination