CN112270193A - 基于bert-flat的中文命名实体识别方法 - Google Patents

基于bert-flat的中文命名实体识别方法 Download PDF

Info

Publication number
CN112270193A
CN112270193A CN202011201643.4A CN202011201643A CN112270193A CN 112270193 A CN112270193 A CN 112270193A CN 202011201643 A CN202011201643 A CN 202011201643A CN 112270193 A CN112270193 A CN 112270193A
Authority
CN
China
Prior art keywords
sequence
vector
head
entity recognition
flat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011201643.4A
Other languages
English (en)
Inventor
张璞
王重阳
刘华东
熊安萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011201643.4A priority Critical patent/CN112270193A/zh
Publication of CN112270193A publication Critical patent/CN112270193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及自然语言处理领域,具体涉及一种基于BERT‑FLAT的中文命名实体识别方法,包括:将任意中文句子输入训练好的实体识别模型中,输出训练集中每个句子的词性标注结果,得到命名实体识别结果。本发明基于BERT‑Flat‑Lattice‑CRF的实体识别模型,BERT预训练语言模型和Flat‑Lattice结构,从大规模语料库中学习的BERT预训练语言模型可以通过上下文计算单词的向量表征,可以表征单词的多义性,增强句子的语义表征;Flat‑Lattice结构引入了词汇信息,充分地挖掘出文本中潜在的隐藏信息,达到词汇增强效果,显著地提升了中文命名实体识别的准确率。

Description

基于BERT-FLAT的中文命名实体识别方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于BERT-FLAT的中文命名实体识别方法。
背景技术
命名实体识别(NER)技术可用于识别文本中的特定实体信息,如人名、地名、组织名称等,它广泛应用于信息抽取、信息检索、智能问答、机器翻译等领域。通常,命名实体识别任务被形式化为序列标记任务,并且通过预测每个单词或每个单词的标记来联合预测实体边界和实体类型。
随着神经网络的迅速发展,不依赖人工特征的端到端方案逐渐成为NER技术的主流。首先是基于单向长短期记忆(LSTM)神经网络的LSTM-CRF模型。基于LSTM优秀的序列建模功能,LSTM-CRF成为命名实体识别的基础框架之一,很多方法是以LSTM-CRF为主体框架,整合各种相关功能。例如,加入手工拼写特征、使用文字CNN提取文字特征、或使用字符级LSTM。还有基于CNN的命名实体识别方案,如CNN-CRF结构,或者基于CNN-CRF,使用字符CNN提出的增强模型。还有利用空洞卷积网络(IDCNN-CRF)的命名实体识别方案,它可以在提取序列信息的同时加快训练速度。也有以BiLSTM-CRF模型为基础,利用注意力机制获取全文范围内的单词上下文或者采用GRU计算单元,提出双向GRU为基础的命名实体识别方法。
一方面,传统方法普遍存在的问题是不能代表词的多义性。例如,在“这两批货物都是打折出售的,严重折本,他再也受不了这种折腾”这句话中,三个“折”字表达的意思不同,但在以上方法字的向量表示法中,这三个字的向量是完全一样的,这与客观事实不符。另一方面,通过字级别和词级别统计方法的比较可以发现,基于字符的命名实体识别方法通常优于基于词的命名实体方法。但基于字符的命名实体识别方法没有利用词汇信息,而词汇边界对于实体边界通常起着至关重要的作用。
发明内容
为了解决上述问题,本发明提供一种基于BERT-FLAT的中文命名实体识别方法。
一种基于BERT-FLAT的中文命名实体识别方法,包括以下步骤:将任意中文句子输入训练好的实体识别模型中,模型输出训练集中每个句子的词性标注结果,得到命名实体识别结果,其中,实体识别模型先训练后使用,其训练过程如下:
S1、数据集预处理,得到预处理后的数据集,将预处理后的数据集按照2:1:1分为训练集、验证集和测试集;
S2、将训练集输入到BERT模型中进行处理,得到输出序列向量;
S3、将BERT层的输出作为字符嵌入Character embedding输入到Flat-Lattice模型进行编码,得到编码序列;
S4、将Flat-Lattice层的输出结果输入到CRF模型进行分词序列预测,得到每个单词的预测标签,对预测标签进行筛选,得到最优预测标签序列和初始实体识别模型;采用正向传播和反向传播修改、更新初始实体识别模型各层神经元的参数值以及连接权重,通过验证集确定参数的最佳值,最小化最优预测标签序列与真实标签序列之间的误差,得到训练好的实体识别模型;
S5、得到训练好的实体识别模型后,使用测试集对训练好的实体识别模型进行测试,评价实体识别的效果。
进一步的,将训练集输入到BERT模型中进行处理包括:
S21、按照BERT模型的要求设定最大序列长度,根据此参数对输入序列进行填充Padding;
S22、进行分词处理,得到分词文本序列;
S23、随机选择分词文本序列的部分词进行掩码Mask操作;
S24、在序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔,再将序列向量输入到双向Transformer进行特征提取,得到含有丰富语义特征的序列向量。
进一步的,将序列向量输入自注意力模块进行处理包括:自注意力模块中包含多头注意力机制,多头注意力机制函数表达式如下:
Figure BDA0002755372430000031
将多头注意力机制得到的不同Attention结果拼接起来,得到最终输出序列向量,如下式所示:
MultiHead(Q,K,V)=Concat(head1,head2,...,headh)Wo
headi=Attention(QWi Q,KWi K,VWi V)
其中,Attention(·)为单词的Attention分数归一化后的值,Q,K,V分别为查询向量,键向量,值向量,dk为键向量的维数;MultiHead(·)为得到的最终输出序列向量,headh为第h次投影得到的Attention值,h为投影的次数,Wo为附加的权重矩阵,Concat(·)为向量拼接,Wi Q为Q向量训练权重矩阵,Wi K为K向量训练权重矩阵,Wi V为V向量训练权重矩阵。
进一步的,Flat-Lattice模型进行编码包括:
S31、将BERT层的输出作为字符嵌入Character embedding,通过Lookup table构建词汇嵌入Word embedding,为每个字符和词汇都创建一个Head position encoding和Tail position encoding;
S32、将上述字符嵌入Character embedding和词汇嵌入Word embedding输入到Flat-Lattice模型中,计算xi和xj之间的相对位置编码;
Figure BDA0002755372430000032
Figure BDA0002755372430000033
Figure BDA0002755372430000034
Figure BDA0002755372430000035
利用线性变换公式确定最终相对位置编码,得到编码序列,线性变换公式如下所示:
Figure BDA0002755372430000041
Figure BDA0002755372430000042
Figure BDA0002755372430000043
其中,xi和xj表示第i个Token和第j个Token,其中,
Figure BDA0002755372430000044
表示xi的Head到xj的Head距离,head[i]表示xi的Head,head[j]表示xj的Head,tail[j]表示xj的Tail,tail[i]表示xi的Tail,
Figure BDA0002755372430000045
表示xi的Head到xj的Tail距离,
Figure BDA0002755372430000046
表示xi的Tail到xj的Head距离,
Figure BDA0002755372430000047
表示xi的Tail到xj的Tail距离;Rij表示相对位置编码结果向量,ReLU是激活函数,Wr是一个可学习的参数,
Figure BDA0002755372430000048
表示连接算子,pd表示嵌入的位置向量,d是
Figure BDA0002755372430000049
或者
Figure BDA00027553724300000410
中的任意一个值,dmodel表示需要映射成的向量维度,k为位置编码的维数指标。
进一步的,对预测标签进行筛选包括:对预测标签序列进行评分,将评分最高的序列作为预测标签序列,评分计算公式如下:
Figure BDA00027553724300000411
Figure BDA00027553724300000412
其中,s(x,y)表示标签序列的得分值,n表示字符的个数,
Figure BDA00027553724300000413
表示从yi-1到yi标签转移分数,
Figure BDA00027553724300000414
表示该字符的第yi个标签的分数,W是转换矩阵,h(t)是Flat-Lattice层t时刻输入数据x(t)的隐藏状态,b是偏置量;
利用最大条件似然估计法最小化预测标签序列与真实标签序列之间的误差,
Figure BDA00027553724300000415
Figure BDA00027553724300000416
其中,L表示损失函数,a表示采用的对数底数,λ为优化参数,θ为分布参数,P为原序列到预测序列对应的概率。
本发明的有益效果:
1.本发明提出了BERT-Flat-Lattice-CRF实体识别模型。由于BERT预训练语言模型具有很强的语义表达能力,可以对多义词进行建模,解决了词的多义性问题;Flat-Lattice结构在中文命名实体识别中引入了词汇信息,这种方法充分地挖掘了文本中潜在的隐藏信息,达到了词汇增强的目的。因此,基于此本发明的实体识别模型可以显著地提高中文命名实体的识别的准确率。
2.与传统的命名实体识别模型相比,本发明基于BERT-Flat-Lattice-CRF的实体识别模型的主要区别在于:BERT预训练语言模型和Flat-Lattice结构,从大规模语料库中学习的BERT预训练语言模型可以通过上下文计算单词的向量表征,可以表征单词的多义性,增强句子的语义表征;Flat-Lattice结构引入了词汇信息,充分地挖掘出文本中潜在的隐藏信息,达到词汇增强效果,显著地提升了中文命名实体识别的准确率。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的一种基于BERT-Flat-Lattice-CRF的实体识别模型的整体结构图;
图2为本发明实施例的一种BERT模型预训练语言流程图;
图3为本发明实施例的一种Flat-Lattice Transformer结构图;
图4为本发明实施例的一种Flat-Lattice单元结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于BERT-FLAT的中文命名实体识别方法,包括但不限于以下步骤:
S1、数据集预处理,得到预处理后的数据集,将预处理后的数据集分为训练集、验证集和测试集。
原始数据集采用微软亚洲研究院的MSRA中文命名实体识别数据集,该数据集有5万条数据,包含了地点、机构和人物三种类型的数据,涉及到体育、教育、医疗、文化、生活、娱乐等多个方面。对原始数据集的预处理包括:将原文本拆分成一系列的汉字,并对每个汉字采用BIO方式进行词性标注,得到预处理后的数据集。其中”B”表示该汉字是词汇开始字符,同时也可以表示单字词;“I”表示该汉字是词汇的中间字符;“O”表示该汉字不在词汇当中。然后将预处理后的数据集按照2:1:1分为训练集、验证集和测试集。
S2、将训练集输入到BERT模型中进行语言实体识别模型的预训练处理,得到最终输出序列向量,处理过程包括:
S21、如图2所示,根据BERT模型的要求设定最大序列长度,根据此参数对输入序列进行填充Padding,使得输入输出序列的长度一致;
S22、首先通过分词处理得到分词文本序列;
S23、然后对分词文本序列的部分词随机进行掩码Mask操作;
S24、在序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔,再将序列向量输入到双向Transformer进行特征提取,得到含有丰富语义特征的序列向量;
S25、将含有丰富语义特征的序列向量输入自注意力模块,编码单元最主要的模块是自注意力(Self-Attention)部分,自注意力模块中包括多头注意力机制,多头注意力机制函数表达式包括:
Figure BDA0002755372430000061
其中,Attention(·)为单词的Attention分数归一化后的值,Q,K,V分别为查询向量,键向量,值向量,dk为键向量的维数;
为了防止过拟合,将多头注意力机制得到的不同Attention结果拼接起来,得到最终输出序列向量,计算表达式如下所示:
MultiHead(Q,K,V)=Concat(head1,head2,...,headh)Wo
headi=Attention(QWi Q,KWi K,VWi V)
其中,MultiHead(·)为得到的最终输出序列向量,headh为第h次投影得到的Attention值,h为投影的次数,Wo为附加的权重矩阵,Concat(·)为向量拼接,Wi Q为Q向量训练权重矩阵,Wi K为K向量训练权重矩阵,Wi V为V向量训练权重矩阵。
S3、将BERT层的输出作为字符嵌入Character embedding输入到Flat-Lattice模型进行编码,得到编码序列。
S31、首先通过Lookup table构建词汇嵌入Word embedding,如图3所示,然后为每个字符和词汇都创建一个头部位置编码Head position encoding和尾部位置编码Tailposition encoding,分别表示字或者词的开头以及结尾位置。如图4所示,Flat-Lattice模型使用相对位置编码,使用稠密向量来表达xi和xj之间的相对位置关系,如下式所示:
Figure BDA0002755372430000071
Figure BDA0002755372430000072
Figure BDA0002755372430000073
Figure BDA0002755372430000074
其中,xi和xj表示第i个Token和第j个Token,
Figure BDA0002755372430000075
表示xi的Head到xj的Head距离,head[i]表示xi的Head,head[j]表示xj的Head,tail[j]表示xj的Tail,tail[i]表示xi的Tail,
Figure BDA0002755372430000076
表示xi的Head到xj的Tail距离,
Figure BDA0002755372430000077
表示xi的Tail到xj的Head距离,
Figure BDA0002755372430000078
表示xi的Tail到xj的Tail距离。
根据xi和xj之间的相对位置关系计算xi和xj之间的最终相对位置编码,跨度的最终相对位置编码是四个距离的一个简单的非线性变换,表达式如下:
Figure BDA0002755372430000079
其中,Rij表示相对位置编码结果向量,ReLU是激活函数,Wr是一个可学习的参数,
Figure BDA0002755372430000081
表示连接算子,pd表示嵌入的位置向量,其计算如下所示:
Figure BDA0002755372430000082
Figure BDA0002755372430000083
其中,d是
Figure BDA0002755372430000084
或者
Figure BDA0002755372430000085
中的任意一个值,dmodel表示需要映射成的向量维度,k为位置编码的维数指标。
最后,把BERT层的输出作为Character embedding和构建好的Word embedding输入到Flat-Lattice层的Transformer进行编码,得到编码序列。
S4、Flat-Lattice层的输出结果(编码序列)输入到CRF模型进行分词序列预测,得到每个单词的预测标签,对预测标签进行筛选,得到最优预测标签序列和初始实体识别模型。为了提高实体识别模型的准确率,网络经过正向传播和反向传播,不断修改、更新初始实体识别模型各层神经元的参数值以及连接权重,通过验证集确定参数的最佳值,使误差值达到最小,即最小化最优预测标签序列与真实标签序列之间的误差,得到训练好的实体识别模型。
在一个实施例中,对预测标签进行筛选,得到最优预测标签序列包括:对预测标签序列进行评分,将评分最高的序列作为最优预测标签序列。
利用CRF模型对预测标签序列进行评分,本实施例提供一种评分的具体计算方式如下:
Figure BDA0002755372430000086
其中,s(x,y)表示标签序列的得分值,n表示字符的个数,Wi,j表示标签转移分数,
Figure BDA0002755372430000087
表示该字符的第yi个标签的分数。
Figure BDA0002755372430000088
定义如下:
Figure BDA0002755372430000089
其中,W是转换矩阵,h(t)是Flat-Lattice层t时刻输入数据x(t)的隐藏状态,b是偏置量。
最小化预测标签序列与真实标签序列之间的误差包括:利用最大条件似然估计法最小化预测标签序列与真实标签序列之间的误差,计算表达式如下所示:
Figure BDA0002755372430000091
Figure BDA0002755372430000092
其中,L表示损失函数,a表示采用的对数底数,λ为优化参数,θ为分布参数,P为原序列到预测序列对应的概率。
得到训练好的实体识别模型后,使用测试集对训练好的实体识别模型进行测试,可以验证该模型的实体识别效果。实体识别模型的使用:输入任意中文句子,找到序列的最优预测标签序列,得到每个句子的词性标注结果,从而获得命名实体识别结果。
当介绍本申请的各种实施例的步骤时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个步骤。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的步骤之外,还可以有其它步骤。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于BERT-FLAT的中文命名实体识别方法,其特征在于,包括以下步骤:将任意中文句子输入训练好的实体识别模型中,模型输出训练集中每个句子的词性标注结果,得到命名实体识别结果,其中,实体识别模型先训练后使用,其训练过程如下:
S1、数据集预处理,得到预处理后的数据集,将预处理后的数据集按照2:1:1分为训练集、验证集和测试集;
S2、将训练集输入到BERT模型中进行处理,得到输出序列向量;
S3、将BERT层的输出作为字符嵌入Character embedding输入到Flat-Lattice模型进行编码,得到编码序列;
S4、将Flat-Lattice层的输出结果输入到CRF模型进行分词序列预测,得到每个单词的预测标签,对预测标签进行筛选,得到最优预测标签序列和初始实体识别模型;采用正向传播和反向传播修改、更新初始实体识别模型各层神经元的参数值以及连接权重,通过验证集确定参数的最佳值,最小化最优预测标签序列与真实标签序列之间的误差,得到训练好的实体识别模型;
S5、得到训练好的实体识别模型后,使用测试集对训练好的实体识别模型进行测试,评价实体识别的效果。
2.根据权利要求1所述的一种基于BERT-FLAT的中文命名实体识别方法,其特征在于,将训练集输入到BERT模型中进行处理包括:
S21、按照BERT模型的要求设定最大序列长度,根据此参数对输入序列进行填充Padding;
S22、进行分词处理,得到分词文本序列;
S23、随机选择分词文本序列的部分词进行掩码Mask操作;
S24、在序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔,再将序列向量输入到双向Transformer进行特征提取,得到含有丰富语义特征的序列向量。
3.根据权利要求1所述的一种基于BERT-FLAT的中文命名实体识别方法,其特征在于,将序列向量输入自注意力模块进行处理包括:自注意力模块中包含多头注意力机制,多头注意力机制函数表达式如下:
Figure FDA0002755372420000021
将多头注意力机制得到的不同Attention结果拼接起来,得到最终输出序列向量,如下式所示:
MultiHead(Q,K,V)=Concat(head1,head2,...,headh)Wo
headi=Attention(QWi Q,KWi K,VWi V)
其中,Attention(·)为单词的Attention分数归一化后的值,Q,K,V分别为查询向量,键向量,值向量,dk为键向量的维数;MultiHead(·)为得到的最终输出序列向量,headh为第h次投影得到的Attention值,h为投影的次数,Wo为附加的权重矩阵,Concat(·)为向量拼接,Wi Q为Q向量训练权重矩阵,Wi K为K向量训练权重矩阵,Wi V为V向量训练权重矩阵。
4.根据权利要求1所述的一种基于BERT-FLAT的中文命名实体识别方法,其特征在于,Flat-Lattice模型进行编码包括:
S31、将BERT层的输出作为字符嵌入Character embedding,通过Lookup table构建词汇嵌入Word embedding,为每个字符和词汇都创建一个Head position encoding和Tailposition encoding;
S32、将上述字符嵌入Character embedding和词汇嵌入Word embedding输入到Flat-Lattice模型中,计算xi和xj之间的相对位置编码;
Figure FDA0002755372420000022
Figure FDA0002755372420000023
Figure FDA0002755372420000024
Figure FDA0002755372420000025
利用线性变换公式确定最终相对位置编码,得到编码序列,线性变换公式如下所示:
Figure FDA0002755372420000031
Figure FDA0002755372420000032
Figure FDA0002755372420000033
其中,xi和xj表示第i个Token和第j个Token,其中,
Figure FDA0002755372420000034
表示xi的Head到xj的Head距离,head[i]表示xi的Head,head[j]表示xj的Head,tail[j]表示xj的Tail,tail[i]表示xi的Tail,
Figure FDA0002755372420000035
表示xi的Head到xj的Tail距离,
Figure FDA0002755372420000036
表示xi的Tail到xj的Head距离,
Figure FDA0002755372420000037
表示xi的Tail到xj的Tail距离;Rij表示相对位置编码结果向量,ReLU是激活函数,Wr是一个可学习的参数,
Figure FDA00027553724200000313
表示连接算子,pd表示嵌入的位置向量,d是
Figure FDA0002755372420000038
或者
Figure FDA0002755372420000039
中的任意一个值,dmodel表示需要映射成的向量维度,k为位置编码的维数指标。
5.根据权利要求1所述的一种基于BERT-FLAT的中文命名实体识别方法,其特征在于,对预测标签进行筛选包括:对预测标签序列进行评分,将评分最高的序列作为预测标签序列,评分计算公式如下:
Figure FDA00027553724200000310
Figure FDA00027553724200000315
其中,s(x,y)表示标签序列的得分值,n表示字符的个数,
Figure FDA00027553724200000314
表示从yi-1到yi标签转移分数,
Figure FDA00027553724200000316
表示该字符的第yi个标签的分数,W是转换矩阵,h(t)是Flat-Lattice层t时刻输入数据x(t)的隐藏状态,b是偏置量;
利用最大条件似然估计法最小化预测标签序列与真实标签序列之间的误差,
Figure FDA00027553724200000311
Figure FDA00027553724200000312
其中,L表示损失函数,a表示采用的对数底数,λ为优化参数,θ为分布参数,P为原序列到预测序列对应的概率。
CN202011201643.4A 2020-11-02 2020-11-02 基于bert-flat的中文命名实体识别方法 Pending CN112270193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011201643.4A CN112270193A (zh) 2020-11-02 2020-11-02 基于bert-flat的中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011201643.4A CN112270193A (zh) 2020-11-02 2020-11-02 基于bert-flat的中文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN112270193A true CN112270193A (zh) 2021-01-26

Family

ID=74345871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011201643.4A Pending CN112270193A (zh) 2020-11-02 2020-11-02 基于bert-flat的中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN112270193A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733526A (zh) * 2021-01-28 2021-04-30 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN112800776A (zh) * 2021-03-10 2021-05-14 湖北工业大学 双向gru关系抽取数据处理方法、系统、终端、介质
CN112949310A (zh) * 2021-03-01 2021-06-11 创新奇智(上海)科技有限公司 一种模型训练方法、中医药名识别方法、装置及网络模型
CN112966510A (zh) * 2021-02-05 2021-06-15 武汉工程大学 一种基于albert的武器装备实体抽取方法、系统及存储介质
CN113138773A (zh) * 2021-04-19 2021-07-20 杭州科技职业技术学院 云计算分布式服务集群方法
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113256378A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种确定用户购物需求的方法
CN113299375A (zh) * 2021-07-27 2021-08-24 北京好欣晴移动医疗科技有限公司 数字文件信息实体标注和识别方法、装置和系统
CN113297851A (zh) * 2021-06-21 2021-08-24 北京富通东方科技有限公司 一种针对易混淆运动损伤实体词的识别方法
CN113312918A (zh) * 2021-06-10 2021-08-27 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113449524A (zh) * 2021-04-01 2021-09-28 山东英信计算机技术有限公司 一种命名实体识别方法、系统、设备以及介质
CN113642330A (zh) * 2021-07-19 2021-11-12 西安理工大学 基于目录主题分类的轨道交通规范实体识别方法
CN113743095A (zh) * 2021-07-19 2021-12-03 西安理工大学 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN113836315A (zh) * 2021-09-23 2021-12-24 国网安徽省电力有限公司电力科学研究院 一种电力标准知识抽取系统
CN113901210A (zh) * 2021-09-15 2022-01-07 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN114330354A (zh) * 2022-03-02 2022-04-12 杭州海康威视数字技术股份有限公司 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114330328A (zh) * 2021-12-13 2022-04-12 电子科技大学 基于Transformer-CRF的藏文分词方法
CN114611521A (zh) * 2022-04-13 2022-06-10 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN115062134A (zh) * 2022-08-17 2022-09-16 腾讯科技(深圳)有限公司 知识问答模型训练及知识问答方法、装置和计算机设备
CN115221882A (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质
CN115757325A (zh) * 2023-01-06 2023-03-07 珠海金智维信息科技有限公司 一种xes日志智能转换方法及系统
CN115859983A (zh) * 2022-12-14 2023-03-28 成都信息工程大学 一种细粒度中文命名实体识别方法
CN115879421A (zh) * 2023-02-16 2023-03-31 之江实验室 一种增强bart预训练任务的句子排序方法及装置
CN116227434A (zh) * 2022-12-27 2023-06-06 中国航空综合技术研究所 基于弱监督学习的航空产品文本实体识别方法
CN116341554A (zh) * 2023-05-22 2023-06-27 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法
CN117113996A (zh) * 2023-06-29 2023-11-24 四川省农业科学院农业信息与农村经济研究所 用于茶叶语料文本处理的命名实体识别方法及装置
CN117236338A (zh) * 2023-08-29 2023-12-15 北京工商大学 一种稠密实体文本的命名实体识别模型及其训练方法
CN117236338B (zh) * 2023-08-29 2024-05-28 北京工商大学 一种稠密实体文本的命名实体识别模型及其训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111651989A (zh) * 2020-04-13 2020-09-11 上海明略人工智能(集团)有限公司 命名实体识别方法和装置、存储介质及电子装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111651989A (zh) * 2020-04-13 2020-09-11 上海明略人工智能(集团)有限公司 命名实体识别方法和装置、存储介质及电子装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI等: "Attention Is All You Need", 《HTTPS://ARXIV.ORG/ABS/1706.03762》 *
XIAONAN LI等: "FLAT: Chinese NER Using Flat-Lattice Transformer", 《HTTPS://ARXIV.ORG/PDF/2004.11795.PDF》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733526A (zh) * 2021-01-28 2021-04-30 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN112733526B (zh) * 2021-01-28 2023-11-17 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN112966510A (zh) * 2021-02-05 2021-06-15 武汉工程大学 一种基于albert的武器装备实体抽取方法、系统及存储介质
CN112949310B (zh) * 2021-03-01 2023-06-06 创新奇智(上海)科技有限公司 一种模型训练方法、中医药名识别方法、装置及网络模型
CN112949310A (zh) * 2021-03-01 2021-06-11 创新奇智(上海)科技有限公司 一种模型训练方法、中医药名识别方法、装置及网络模型
CN112800776A (zh) * 2021-03-10 2021-05-14 湖北工业大学 双向gru关系抽取数据处理方法、系统、终端、介质
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113158671B (zh) * 2021-03-25 2023-08-11 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113449524A (zh) * 2021-04-01 2021-09-28 山东英信计算机技术有限公司 一种命名实体识别方法、系统、设备以及介质
CN113449524B (zh) * 2021-04-01 2023-04-07 山东英信计算机技术有限公司 一种命名实体识别方法、系统、设备以及介质
CN113138773B (zh) * 2021-04-19 2024-04-16 杭州科技职业技术学院 云计算分布式服务集群方法
CN113138773A (zh) * 2021-04-19 2021-07-20 杭州科技职业技术学院 云计算分布式服务集群方法
CN113256378A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种确定用户购物需求的方法
CN113312918B (zh) * 2021-06-10 2022-05-17 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113312918A (zh) * 2021-06-10 2021-08-27 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113297851B (zh) * 2021-06-21 2024-03-05 北京富通东方科技有限公司 一种针对易混淆运动损伤实体词的识别方法
CN113297851A (zh) * 2021-06-21 2021-08-24 北京富通东方科技有限公司 一种针对易混淆运动损伤实体词的识别方法
CN113642330B (zh) * 2021-07-19 2024-04-30 西安理工大学 基于目录主题分类的轨道交通规范实体识别方法
CN113743095A (zh) * 2021-07-19 2021-12-03 西安理工大学 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN113642330A (zh) * 2021-07-19 2021-11-12 西安理工大学 基于目录主题分类的轨道交通规范实体识别方法
CN113299375B (zh) * 2021-07-27 2021-11-16 北京好欣晴移动医疗科技有限公司 数字文件信息实体标注和识别方法、装置和系统
CN113299375A (zh) * 2021-07-27 2021-08-24 北京好欣晴移动医疗科技有限公司 数字文件信息实体标注和识别方法、装置和系统
CN113901210A (zh) * 2021-09-15 2022-01-07 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN113836315A (zh) * 2021-09-23 2021-12-24 国网安徽省电力有限公司电力科学研究院 一种电力标准知识抽取系统
CN114330328B (zh) * 2021-12-13 2023-10-10 电子科技大学 基于Transformer-CRF的藏文分词方法
CN114330328A (zh) * 2021-12-13 2022-04-12 电子科技大学 基于Transformer-CRF的藏文分词方法
CN114330354A (zh) * 2022-03-02 2022-04-12 杭州海康威视数字技术股份有限公司 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114611521B (zh) * 2022-04-13 2024-04-09 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN114611521A (zh) * 2022-04-13 2022-06-10 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN115221882B (zh) * 2022-07-28 2023-06-20 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质
CN115221882A (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质
CN115062134A (zh) * 2022-08-17 2022-09-16 腾讯科技(深圳)有限公司 知识问答模型训练及知识问答方法、装置和计算机设备
CN115859983A (zh) * 2022-12-14 2023-03-28 成都信息工程大学 一种细粒度中文命名实体识别方法
CN115859983B (zh) * 2022-12-14 2023-08-25 成都信息工程大学 一种细粒度中文命名实体识别方法
CN116227434B (zh) * 2022-12-27 2024-02-13 中国航空综合技术研究所 基于弱监督学习的航空产品文本实体识别方法
CN116227434A (zh) * 2022-12-27 2023-06-06 中国航空综合技术研究所 基于弱监督学习的航空产品文本实体识别方法
CN115757325A (zh) * 2023-01-06 2023-03-07 珠海金智维信息科技有限公司 一种xes日志智能转换方法及系统
CN115879421B (zh) * 2023-02-16 2024-01-09 之江实验室 一种增强bart预训练任务的句子排序方法及装置
CN115879421A (zh) * 2023-02-16 2023-03-31 之江实验室 一种增强bart预训练任务的句子排序方法及装置
CN116341554B (zh) * 2023-05-22 2023-08-29 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法
CN116341554A (zh) * 2023-05-22 2023-06-27 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法
CN117113996A (zh) * 2023-06-29 2023-11-24 四川省农业科学院农业信息与农村经济研究所 用于茶叶语料文本处理的命名实体识别方法及装置
CN117236338A (zh) * 2023-08-29 2023-12-15 北京工商大学 一种稠密实体文本的命名实体识别模型及其训练方法
CN117236338B (zh) * 2023-08-29 2024-05-28 北京工商大学 一种稠密实体文本的命名实体识别模型及其训练方法

Similar Documents

Publication Publication Date Title
CN112270193A (zh) 基于bert-flat的中文命名实体识别方法
US6684201B1 (en) Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN112115721A (zh) 一种命名实体识别方法及装置
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN108763529A (zh) 一种智能检索方法、装置和计算机可读存储介质
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN114648016A (zh) 一种基于事件要素交互与标签语义增强的事件论元抽取方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN112632250A (zh) 一种多文档场景下问答方法及系统
CN113239666A (zh) 一种文本相似度计算方法及系统
CN113971394A (zh) 文本复述改写系统
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN110929006B (zh) 一种数据型问答系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210126