CN116341555A - 命名实体识别方法和系统 - Google Patents

命名实体识别方法和系统 Download PDF

Info

Publication number
CN116341555A
CN116341555A CN202310606442.XA CN202310606442A CN116341555A CN 116341555 A CN116341555 A CN 116341555A CN 202310606442 A CN202310606442 A CN 202310606442A CN 116341555 A CN116341555 A CN 116341555A
Authority
CN
China
Prior art keywords
text
picture
representation
layer
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310606442.XA
Other languages
English (en)
Other versions
CN116341555B (zh
Inventor
邬昌兴
王琛
姚浩
熊锦晖
杨亚连
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310606442.XA priority Critical patent/CN116341555B/zh
Publication of CN116341555A publication Critical patent/CN116341555A/zh
Application granted granted Critical
Publication of CN116341555B publication Critical patent/CN116341555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种命名实体识别方法和系统,该方法包括:对各样本文本和对应的样本图片分别进行编码得到文本表示和图片表示;根据各图片表示对各文本表示进行信息增强得到文本增强表示,并分别基于文本表示和文本增强表示进行命名实体预测,得到第一预测结果和第二预测结果;根据第一预测结果和第二预测结果确定模型总训练代价,通过最小化模型总训练代价对命名实体识别模型进行参数更新,直至收敛;将待识别文本和/或对应的图片输入收敛后的命名实体识别模型进行识别,得到命名实体识别结果。本发明能有效地建立文本中的实体与图片中的物体之间的联系,从而充分利用图片中的信息学习更好的文本表示,提高了命名实体识别的性能。

Description

命名实体识别方法和系统
技术领域
本发明涉及实体识别技术领域,尤其涉及一种命名实体识别方法和系统。
背景技术
命名实体识别(Named Entity Recognition,NER)任务的目的是识别出给定文本中具有特定意义的实体,并判断实体所属的类型,比如,人名、地名、机构名、时间和专有名词等。命名实体识别是信息抽取、问答系统和机器翻译等上层应用系统的重要基础,在自然语言处理技术走向实用化的过程中占有重要地位,受到学术界和产业界越来越多的关注。
现有的命名实体识别方法,一般仅考虑了文本信息,而在很多情况下仅利用文本中的信息不足以正确地识别出所包含的实体及其类别,例如,在句子“汤姆在追逐杰瑞”中,仅根据文本并不能确定“汤姆”和“杰瑞”是人名还是动物名,进而导致命名实体识别准确率不高。
发明内容
本发明实施例的目的在于提供一种命名实体识别方法和系统,旨在解决现有的命名实体识别准确率不高的问题。
本发明实施例是这样实现的,一种命名实体识别方法,所述方法包括:
对各样本文本进行文本编码,得到文本表示,并对各样本文本对应的样本图片进行图片编码,得到图片表示;
根据各图片表示对各文本表示进行信息增强,得到文本增强表示,并分别基于各文本表示和各文本增强表示进行命名实体预测,得到第一预测结果和第二预测结果;
根据所述第一预测结果和所述第二预测结果确定模型总训练代价,并最小化所述模型总训练代价对命名实体识别模型进行参数更新,直至所述命名实体识别模型收敛;
将待识别文本和/或对应的图片输入收敛后的所述命名实体识别模型进行识别,得到命名实体识别结果。
本发明实施例的另一目的在于提供一种命名实体识别系统,所述系统包括:
编码模块,包括文本编码模块和图片编码模块,文本编码模块用于对各样本文本进行文本编码,得到文本表示,图片编码模块用于对各样本文本对应的样本图片进行图片编码,得到图片表示;
多级图文交互模块,用于根据各图片表示对各文本表示进行信息增强,通过多级信息交互,得到文本增强表示;
解码模块,包括第一解码层和第二解码层,第一解码层以各文本表示作为输入,得到第一预测结果,第二解码层以各文本增强表示作为输入,得到第二预测结果;
命名实体识别模块,用于得到不同实际应用场景下的命名实体识别结果,当输入待识别文本和对应图片时,依次调用文本编码模块、图片编码模块、多级图文交互模块和解码模块中的第二解码层,将第二解码层输出第二预测结果作为命名实体识别结果;当仅输入待识别文本时,依次调用文本编码模块和解码模块中的第一解码层,将第一解码层输出的第一预测结果作为命名实体识别结果。
本发明实施例,能有效地建立文本中的实体与图片中的物体之间的联系,从而充分利用图片中的信息学习更好的文本表示,提高了命名实体识别的性能,还能应用于有对应图片的文本和仅有文本两种真实场景下的命名实体识别。
附图说明
图1是本发明第一实施例提供的命名实体识别方法的流程图;
图2是本发明第二实施例提供的命名实体识别系统的结构示意图;
图3是本发明第二实施例提供的命名实体识别系统的框架示意图;
图4是本发明第三实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的命名实体识别方法的流程图,该命名实体识别方法可以应用于任一终端设备或系统,该命名实体识别方法包括步骤:
步骤S10,对各样本文本进行文本编码,得到文本表示,并对各样本文本对应的样本图片进行图片编码,得到图片表示;
其中,通过采用基于BERT的文本编码模块对各样本文本进行文本编码,得到该文本表示,采用基于ViT的图片编码模块对各样本图片进行图片编码,得到图片表示,该步骤中,预设置有训练数据集D,训练数据集D包括成对的样本文本
Figure SMS_1
和样本图片/>
Figure SMS_2
,任一训练实例可表示为/>
Figure SMS_3
Y为人工标注的样本文本/>
Figure SMS_4
对应的标注序列。
可选的,该步骤中,所述对各样本文本进行文本编码,得到文本表示,并对各样本文本对应的样本图片进行图片编码,得到图片表示,包括:
将各样本文本输入文本编码器进行文本编码,得到各文本表示;
将对应的各样本图片输入图片编码器进行图片编码,得到各图片表示;
其中,基于BERT的文本编码模块包含多个编码层(Transformer),用于学习多层次的文本表示,BERT是使用大量无标注文本预训练的文本编码器,其通过堆叠多个Transformer层以学习多层次的文本表示,在信息抽取等众多自然语言处理任务上取得了非常好的效果。
BERT中底部的多个Transformer层可以学习到词性和句法等语法特征,顶部的多个Transformer层可以学习到实体信息等高层次的语义特征。具体地,给定含有N个词的样本文本
Figure SMS_5
,基于BERT的文本编码模块用于学习多层次的句子表示/>
Figure SMS_6
,具体如下:
Figure SMS_7
其中,BERT为预训练的文本编码器,
Figure SMS_8
为BERT中Transformer的层数,/>
Figure SMS_9
是BERT中第/>
Figure SMS_10
个Transformer层输出的句子表示。/>
Figure SMS_11
是一个N行的二维矩阵,其中的行是文本中相应词的表示,Transformer层是常用的神经网络层。
基于ViT的图片编码模块同样包含多个Transformer层,用于学习多层次的图片表示。ViT是使用大量图片预训练的图片编码器,其通过堆叠多个Transformer层以学习多层次的图片表示,在目标检测等众多计算机视觉任务上取得了非常好的效果。
ViT中底部的多个Transformer层可以学习到线条和轮廓等低层次的视觉特征,顶部的多个Transformer层可以学习到物体等高层次的视觉特征。具体地,给定与文本
Figure SMS_12
成对的图片/>
Figure SMS_13
,将其缩放成指定的大小(比如,560*560个像素点),然后切分为M个大小相同的块(比如,28*28个像素点),并将这些图片块排列成块的序列。基于ViT的图片编码模块用于学习多层次的图片表示/>
Figure SMS_14
,具体如下:
Figure SMS_15
其中,ViT为预训练的图片编码器,
Figure SMS_16
为ViT中Transformer的层数,/>
Figure SMS_17
是ViT中第/>
Figure SMS_18
个Transformer层输出的图片表示。/>
Figure SMS_19
是一个M行的二维矩阵,其中的行是图片中相应块的表示。本实施例中,ViT中Transformer的层数/>
Figure SMS_20
和BERT中Transformer的层数/>
Figure SMS_21
可以相同,也可以不相同。
需要说明的是,本实施例中的文本编码模块也可以基于其他堆叠的神经网络层(例如,BiLSTM层)或预训练模型实现,只要能输出多层次的文本表示即可;图片编码模块同样可以基于其他堆叠的神经网络层(例如,卷积层)或预训练模型实现,只要能输出多层次的图片表示即可。
步骤S20,根据各图片表示对各文本表示进行信息增强,得到文本增强表示,并分别基于各文本表示和各文本增强表示进行命名实体预测,得到第一预测结果和第二预测结果;
其中,可以基于交叉注意力机制的多级图文交互模块对各文本表示进行信息增强,基于交叉注意力机制的多级图文交互模块包含多个交叉注意力机制层,以多层次的句子表示和图片表示作为输入,用于学习图片信息增强的文本表示。在自然语言处理领域,交叉注意力机制常用于建模两段文本之间的交互,在文本推理、语义匹配和篇章关系识别等任务上取得了较好的效果。交叉注意力机制也常用于多模态信息之间的交互,在图片标题生成等多模态任务上取得了较好的效果。
本实施例中,基于BERT的文本编码模块中顶部的多个Transformer层可以学习到实体信息等高层次的语义特征,基于ViT的图片编码模块中顶部的多个Transformer层可以学习到物体等高层次的视觉特征,基于交叉注意力机制的多级图文交互模块可以有效地建立样本文本中的实体与图片中的物体之间的联系,从而能更有效地利用图片中的信息,提升命名实体识别的性能。
可选的,该步骤中,所述根据各图片表示对各文本表示进行信息增强,包括:
将各图片表示及对应的各文本表示输入基于交叉注意力机制的多级图文交互网络中的交叉注意力机制层进行信息交互,得到各文本增强表示;
所述基于交叉注意力机制的多级图文交互网络包括K个堆叠的交叉注意力机制层,第
Figure SMS_22
个交叉注意力机制层的输入包括:
Figure SMS_23
其中,
Figure SMS_31
和/>
Figure SMS_32
是第/>
Figure SMS_33
个交叉注意力机制层的输入,/>
Figure SMS_26
和/>
Figure SMS_39
为第/>
Figure SMS_28
个交叉注意力机制层的输出,/>
Figure SMS_36
为所述文本编码器中第/>
Figure SMS_25
个编码层输出的文本表示,/>
Figure SMS_34
为所述图片编码器中第/>
Figure SMS_24
个编码层输出的图片表示,LayerNorm为层标准化操作,/>
Figure SMS_38
和/>
Figure SMS_30
为参数矩阵,/>
Figure SMS_37
时/>
Figure SMS_27
和/>
Figure SMS_40
为零矩阵,/>
Figure SMS_29
是所述文本编码器中编码层的总个数,/>
Figure SMS_35
是所述图片编码器中编码层的总个数。
本实施例中,第
Figure SMS_41
个交叉注意力机制层输出的各文本增强表示为:
Figure SMS_42
其中,
Figure SMS_46
、/>
Figure SMS_48
和/>
Figure SMS_51
分别为文本到图片的注意力机制中的查询、键和值,
Figure SMS_44
为与文本相关的图片信息的表示,/>
Figure SMS_47
、/>
Figure SMS_50
和/>
Figure SMS_53
为需要学习的参数矩阵,/>
Figure SMS_43
为按行进行归一化操作,T为矩阵转置操作,LayerNorm为层标准化操作,/>
Figure SMS_49
为第/>
Figure SMS_52
个交叉注意力机制层中的第一多层前馈神经网络,/>
Figure SMS_54
为第 />
Figure SMS_45
个交叉注意力机制层输出的文本增强表示。
在第
Figure SMS_55
个交叉注意力机制层中,通过图片到文本的注意力机制部分计算文本信息增强的图片表示/>
Figure SMS_56
,计算公式如下:
Figure SMS_57
其中,
Figure SMS_59
、/>
Figure SMS_63
和/>
Figure SMS_66
分别为图片到文本的注意力机制中的查询、键和值,/>
Figure SMS_60
为与图片相关的文本信息的表示,/>
Figure SMS_62
、/>
Figure SMS_65
和/>
Figure SMS_68
为需要学习的参数矩阵,/>
Figure SMS_58
为第/>
Figure SMS_61
个交叉注意力机制层中的第二多层前馈神经网络,/>
Figure SMS_64
为第 />
Figure SMS_67
个交叉注意力机制层输出的文本信息增强的图片表示。
进一步地,所述分别基于各文本表示和各文本增强表示进行命名实体预测,包括:
将各文本表示输入解码器中的第一解码层,并根据所述第一解码层对文本进行命名实体识别,得到所述第一预测结果;
将各文本增强表示输入所述解码器中的第二解码层,并根据所述第二解码层对文本进行命名实体识别,得到所述第二预测结果;
其中,第一解码层和第二解码层可以采用CRF层,第一CRF层基于文本表示进行命名实体识别,得到第一预测结果,第二CRF层基于图片信息增强的文本表示进行命名实体识别,得到第二预测结果。
在仅有文本而缺失图片的实际应用场景中,可以使用第一CRF层进行命名实体识别,而在具有成对的文本和图片的实际应用场景中,可以使用第二CRF层进行命名实体识别。与基于分类层分别预测每个词的标记相比,CRF层整体预测一个标记序列,能够有效地建模相邻标记之间的约束关系,能取得更好的识别性能。
具体地,给定基于BERT的文本编码模块最后一个Transformer层输出的文本表示
Figure SMS_69
,第一CRF层使用Viterbi算法求出得分最高的标记序列,作为第一预测结果,根据所述第一解码层对文本进行命名实体识别采用的公式包括:
Figure SMS_70
其中,
Figure SMS_73
为/>
Figure SMS_75
的第/>
Figure SMS_77
行,/>
Figure SMS_72
为文本编码器中最后一层的输出,/>
Figure SMS_76
为第一预测结果,/>
Figure SMS_78
为第一CRF层中第/>
Figure SMS_79
个词对应的标记得分向量,N为文本中词的个数,
Figure SMS_71
和/>
Figure SMS_74
分别为第一CRF层中需要学习的不同标记之间的转移得分矩阵和线性变换层参数矩阵,标记序列的得分为文本中每个词对应的标记得分和序列中任意两个相邻标记之间的转移得分的总和。
给定基于交叉注意力机制的多级图文交互模块最后一层输出的图片信息增强的文本表示
Figure SMS_80
,第二CRF层使用Viterbi算法求出得分最高的标记序列,作为第二预测结果,所述根据所述第二解码层对文本进行命名实体识别采用的公式包括:
Figure SMS_81
其中,
Figure SMS_84
为/>
Figure SMS_87
的第/>
Figure SMS_89
行,/>
Figure SMS_83
为第二预测结果,/>
Figure SMS_85
为多级图文交互网络中最后一个交叉注意力机制层输出的文本增强表示,/>
Figure SMS_88
为第二CRF层中第/>
Figure SMS_90
个词对应的标记得分向量,/>
Figure SMS_82
和/>
Figure SMS_86
分别为第二解码层中需要学习的不同标记之间的转移得分矩阵和线性变换层参数矩阵。
步骤S30,根据所述第一预测结果和所述第二预测结果确定模型总训练代价,并最小化所述模型总训练代价对命名实体识别模型进行参数更新,直至所述命名实体识别模型收敛;
其中,定义一种基于知识蒸馏的代价函数(知识蒸馏的代价函数),把第二解码层及基于交叉注意力机制的多级图文交互模块学到的知识传递到第一解码层及基于BERT的文本编码模块,从而实现它们之间迭代地相互增强的目的。
具体的,所述根据所述第一预测结果和所述第二预测结果确定模型总训练代价,计算模型总训练代价的函数包括:
Figure SMS_91
其中,L 1L 2分别为所述第一预测结果和所述第二预测结果对应的代价函数,
Figure SMS_93
为训练数据集/>
Figure SMS_97
中的一个训练样本,/>
Figure SMS_100
为样本文本,/>
Figure SMS_94
为对应的样本图片,/>
Figure SMS_98
为人工标注的样本文本/>
Figure SMS_101
对应的标注序列,/>
Figure SMS_103
为样本文本/>
Figure SMS_92
对应的所有可能的标记序列的集合,为集合
Figure SMS_99
中的标记序列,函数/>
Figure SMS_102
基于第一解码层中词对应的标记得分向量和不同标记之间的转移得分矩阵,计算任一标记序列的得分,函数/>
Figure SMS_104
基于第二解码层中词对应的标记得分向量和不同标记之间的转移得分矩阵,计算任一标记序列的得分,/>
Figure SMS_95
Figure SMS_96
分别为第一解码层和第二解码层中人工标注的标记序列Y对应的概率值;
Figure SMS_105
其中,L 3为知识蒸馏的代价函数,
Figure SMS_106
为样本文本/>
Figure SMS_107
中的第/>
Figure SMS_108
个词,/>
Figure SMS_109
和/>
Figure SMS_110
分别为第一解码层和第二解码层中计算得到的词/>
Figure SMS_111
对应的标记得分向量,函数MSE用于计算两个标记得分向量的均方误差;模型训练过程中,知识蒸馏的代价函数L 3可以使第一解码层中计算得到的标记得分向量尽量拟合第二解码层中计算得到的标记得分向量,从而达到知识传递的目的;
Figure SMS_112
其中,
Figure SMS_113
为所述模型总训练代价函数,/>
Figure SMS_114
、/>
Figure SMS_115
和/>
Figure SMS_116
分别为L 1L 2L 3对应的权重系数,模型总训练代价函数用于计算模型总训练代价,通过最小化总训练代价引导命名实体识别模型进行参数更新,最终得到训练好的命名实体识别模型。由于第二解码层利用了图片信息增强的文本表示,其预测的结果通常会好于第一解码层预测的结果。
步骤S40,将待识别文本和/或对应的图片输入收敛后的所述命名实体识别模型进行识别,得到命名实体识别结果;
其中,当输入待识别文本和对应图片时,依次调用文本编码模块、图片编码模块、多级图文交互模块和解码模块中的第二解码层,将第二解码层输出的第二预测结果作为命名实体识别结果;当仅输入待识别文本时,依次调用文本编码模块和解码模块中的第一解码层,将第一解码层输出的第一预测结果作为命名实体识别结果。
本实施例中,通过各图片表示对各文本表示进行信息增强,能有效地建立各样本文本中的实体与图片中的物体之间的联系,使得各文本表示能有效地集成图片中的信息,从而能更有效地利用图片中的信息提升命名实体识别的性能,还能应用于有对应图片的文本和仅有文本两种真实场景下的命名实体识别。
实施例二
请参阅图2,是本发明第二实施例提供的命名实体识别系统100的结构示意图,包括:编码模块10、多级图文交互模块11、解码模块12和命名实体识别模块13,其中:
编码模块10,包括文本编码模块和图片编码模块,文本编码模块用于对各样本文本进行文本编码,得到文本表示,图片编码模块用于对各样本文本对应的样本图片进行图片编码,得到图片表示。
多级图文交互模块11,用于根据各图片表示对各文本表示进行信息增强,通过多级信息交互,得到文本增强表示。
解码模块12,包括第一解码层和第二解码层,第一解码层以各文本表示作为输入,得到第一预测结果,第二解码层以各文本增强表示作为输入,得到第二预测结果。
命名实体识别模块13,用于得到不同实际应用场景下的命名实体识别结果,当输入待识别文本和对应图片时,依次调用文本编码模块、图片编码模块、多级图文交互模块和解码模块中的第二解码层,将第二解码层输出第二预测结果作为命名实体识别结果;当仅输入待识别文本时,依次调用文本编码模块和解码模块中的第一解码层,将第一解码层输出的第一预测结果作为命名实体识别结果。请参阅图3,编码模块10包括基于BERT的文本编码模块14和基于ViT的图片编码模块15,解码模块12包括第一CRF层16和第二CRF层17,解码模块12中设置有知识蒸馏增强的总代价函数;
本实施例中,基于BERT的文本编码模块14包含多个Transformer层,用于学习多层次的文本表示,基于ViT的图片编码模15同样包含多个Transformer层,用于学习多层次的图片表示,基于交叉注意力机制的多级图文交互模块11包含多个交叉注意力机制层,以多层次的句子表示和图片表示作为输入,用于学习图片信息增强的文本表示,第一CRF层16基于文本表示进行命名实体识别,第二CRF层17基于图片信息增强的文本表示进行命名实体识别,知识蒸馏增强的总代价函数用于计算模型的总训练代价,通过最小化总训练代价引导模型参数的更新,最终得到训练好的命名实体识别模型。
本实施例,通过各图片表示对各文本表示进行信息增强,能有效地建立各样本文本中的实体与图片中的物体之间的联系,使得各文本表示能有效地集成图片中的信息,从而能更有效地利用图片中的信息提升命名实体识别的性能,还能应用于有对应图片的文本和仅有文本两种真实场景下的命名实体识别。
实施例三
图4是本申请第三实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如命名实体识别方法的程序。处理器20执行所述计算机程序22时实现上述各个命名实体识别方法各实施例中的步骤。
示例性的,所述计算机程序22可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括,但不仅限于,处理器20、存储器21。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU)+图形处理器(Graphic Processing Unit,GPU)的处理单元,还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种命名实体识别方法,其特征在于,所述方法包括:
对各样本文本进行文本编码,得到文本表示,并对各样本文本对应的样本图片进行图片编码,得到图片表示;
根据各图片表示对各文本表示进行信息增强,得到文本增强表示,并分别基于各文本表示和各文本增强表示进行命名实体预测,得到第一预测结果和第二预测结果;
根据所述第一预测结果和所述第二预测结果确定模型总训练代价,并最小化所述模型总训练代价对命名实体识别模型进行参数更新,直至所述命名实体识别模型收敛;
将待识别文本和/或对应的图片输入收敛后的所述命名实体识别模型进行识别,得到命名实体识别结果。
2.如权利要求1所述的命名实体识别方法,其特征在于,所述对各样本文本进行文本编码,得到文本表示,并对各样本文本对应的样本图片进行图片编码,得到图片表示,包括:
将各样本文本输入文本编码器进行文本编码,得到各文本表示;
将对应的各样本图片输入图片编码器进行图片编码,得到各图片表示。
3.如权利要求2所述的命名实体识别方法,其特征在于,所述根据各图片表示对各文本表示进行信息增强,包括:
将各图片表示及对应的各文本表示输入基于交叉注意力机制的多级图文交互网络中的交叉注意力机制层进行信息交互,得到各文本增强表示;
所述基于交叉注意力机制的多级图文交互网络包括K个堆叠的交叉注意力机制层,第
Figure QLYQS_1
个交叉注意力机制层的输入包括:
Figure QLYQS_2
其中,
Figure QLYQS_6
和/>
Figure QLYQS_4
是第/>
Figure QLYQS_13
个交叉注意力机制层的输入,/>
Figure QLYQS_10
和/>
Figure QLYQS_19
为第/>
Figure QLYQS_11
个交叉注意力机制层的输出,/>
Figure QLYQS_18
为所述文本编码器中第/>
Figure QLYQS_8
个编码层输出的文本表示,/>
Figure QLYQS_15
为所述图片编码器中第/>
Figure QLYQS_3
个编码层输出的图片表示,LayerNorm为层标准化操作,
Figure QLYQS_12
和/>
Figure QLYQS_7
为参数矩阵,/>
Figure QLYQS_17
时/>
Figure QLYQS_9
和/>
Figure QLYQS_16
为零矩阵,/>
Figure QLYQS_5
是所述文本编码器中编码层的总个数,/>
Figure QLYQS_14
是所述图片编码器中编码层的总个数。
4.如权利要求3所述的命名实体识别方法,其特征在于,第
Figure QLYQS_20
个交叉注意力机制层输出的各文本增强表示为:
Figure QLYQS_21
其中,
Figure QLYQS_23
、/>
Figure QLYQS_29
和/>
Figure QLYQS_32
分别为文本到图片的注意力机制中的查询、键和值,/>
Figure QLYQS_25
为与文本相关的图片信息的表示,/>
Figure QLYQS_26
、/>
Figure QLYQS_30
和/>
Figure QLYQS_33
为参数矩阵,/>
Figure QLYQS_22
为按行进行归一化操作,/>
Figure QLYQS_28
为矩阵转置操作,LayerNorm为层标准化操作,/>
Figure QLYQS_31
为第/>
Figure QLYQS_34
个交叉注意力机制层中的第一多层前馈神经网络,/>
Figure QLYQS_24
为第 />
Figure QLYQS_27
个交叉注意力机制层输出的文本增强表示;
Figure QLYQS_35
个交叉注意力机制层中,通过图片到文本的注意力机制部分计算文本信息增强的图片表示,计算公式如下:
Figure QLYQS_36
其中,
Figure QLYQS_38
、/>
Figure QLYQS_41
和/>
Figure QLYQS_44
分别为图片到文本的注意力机制中的查询、键和值,/>
Figure QLYQS_39
为与图片相关的文本信息的表示,/>
Figure QLYQS_42
、/>
Figure QLYQS_45
和/>
Figure QLYQS_47
为需要学习的参数矩阵,/>
Figure QLYQS_37
为第/>
Figure QLYQS_40
个交叉注意力机制层中的第二多层前馈神经网络,/>
Figure QLYQS_43
为第 />
Figure QLYQS_46
个交叉注意力机制层输出的文本信息增强的图片表示。
5.如权利要求1所述的命名实体识别方法,其特征在于,所述分别基于各文本表示和各文本增强表示进行命名实体预测,包括:
将各文本表示输入解码器中的第一解码层,并根据所述第一解码层对文本进行命名实体识别,得到所述第一预测结果;
将各文本增强表示输入所述解码器中的第二解码层,并根据所述第二解码层对文本进行命名实体识别,得到所述第二预测结果。
6.如权利要求5所述的命名实体识别方法,其特征在于,所述根据所述第一解码层对文本进行命名实体识别采用的公式包括:
Figure QLYQS_48
其中,
Figure QLYQS_50
为/>
Figure QLYQS_53
的第/>
Figure QLYQS_56
行,/>
Figure QLYQS_51
为文本编码器中最后一层的输出,/>
Figure QLYQS_52
为第一预测结果,
Figure QLYQS_55
为第一解码层中第/>
Figure QLYQS_57
个词对应的标记得分向量,N为文本中词的个数,
Figure QLYQS_49
和/>
Figure QLYQS_54
分别为第一解码层中需要学习的不同标记之间的转移得分矩阵和线性变换层参数矩阵;
所述根据所述第二解码层对文本进行命名实体识别采用的公式包括:
Figure QLYQS_58
其中,
Figure QLYQS_61
为/>
Figure QLYQS_63
的第/>
Figure QLYQS_66
行,/>
Figure QLYQS_60
为多级图文交互网络中最后一个交叉注意力机制层输出的文本增强表示,/>
Figure QLYQS_62
为第二预测结果,/>
Figure QLYQS_65
为第二解码层中第/>
Figure QLYQS_67
个词对应的标记得分向量,/>
Figure QLYQS_59
和/>
Figure QLYQS_64
分别为第二解码层中需要学习的不同标记之间的转移得分矩阵和线性变换层参数矩阵。
7.如权利要求6所述的命名实体识别方法,其特征在于,所述根据所述第一预测结果和所述第二预测结果确定模型总训练代价,计算模型总训练代价的函数包括:
Figure QLYQS_68
其中,L 1L 2分别为所述第一预测结果和所述第二预测结果对应的代价函数,
Figure QLYQS_71
为训练数据集/>
Figure QLYQS_76
中的一个训练样本,/>
Figure QLYQS_81
为样本文本,/>
Figure QLYQS_72
为对应的样本图片,/>
Figure QLYQS_73
为人工标注的样本文本/>
Figure QLYQS_77
对应的标注序列,/>
Figure QLYQS_80
为样本文本/>
Figure QLYQS_70
对应的所有可能的标记序列的集合,/>
Figure QLYQS_74
为集合/>
Figure QLYQS_78
中的标记序列,函数/>
Figure QLYQS_82
基于第一解码层中词对应的标记得分向量和不同标记之间的转移得分矩阵,计算任一标记序列的得分,函数/>
Figure QLYQS_69
基于第二解码层中词对应的标记得分向量和不同标记之间的转移得分矩阵,计算任一标记序列的得分,/>
Figure QLYQS_75
和/>
Figure QLYQS_79
分别为第一解码层和第二解码层中人工标注的标记序列Y对应的概率值;
Figure QLYQS_83
其中,L 3为知识蒸馏的代价函数,
Figure QLYQS_84
为样本文本/>
Figure QLYQS_85
中的第/>
Figure QLYQS_86
个词,/>
Figure QLYQS_87
和/>
Figure QLYQS_88
分别为第一解码层和第二解码层中计算得到的词/>
Figure QLYQS_89
对应的标记得分向量,函数MSE用于计算两个标记得分向量的均方误差;
Figure QLYQS_90
其中,
Figure QLYQS_91
为所述模型总训练代价函数,/>
Figure QLYQS_92
、/>
Figure QLYQS_93
和/>
Figure QLYQS_94
分别为L 1L 2L 3对应的权重系数。
8.一种命名实体识别系统,其特征在于,应用上述权利要求1至7任一项所述的命名实体识别方法,所述系统包括:
编码模块,包括文本编码模块和图片编码模块,文本编码模块用于对各样本文本进行文本编码,得到文本表示,图片编码模块用于对各样本文本对应的样本图片进行图片编码,得到图片表示;
多级图文交互模块,用于根据各图片表示对各文本表示进行信息增强,通过多级信息交互,得到文本增强表示;
解码模块,包括第一解码层和第二解码层,第一解码层以各文本表示作为输入,得到第一预测结果,第二解码层以各文本增强表示作为输入,得到第二预测结果;
命名实体识别模块,用于得到不同实际应用场景下的命名实体识别结果,当输入待识别文本和对应图片时,依次调用文本编码模块、图片编码模块、多级图文交互模块和解码模块中的第二解码层,将第二解码层输出第二预测结果作为命名实体识别结果;当仅输入待识别文本时,依次调用文本编码模块和解码模块中的第一解码层,将第一解码层输出的第一预测结果作为命名实体识别结果。
CN202310606442.XA 2023-05-26 2023-05-26 命名实体识别方法和系统 Active CN116341555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310606442.XA CN116341555B (zh) 2023-05-26 2023-05-26 命名实体识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310606442.XA CN116341555B (zh) 2023-05-26 2023-05-26 命名实体识别方法和系统

Publications (2)

Publication Number Publication Date
CN116341555A true CN116341555A (zh) 2023-06-27
CN116341555B CN116341555B (zh) 2023-08-04

Family

ID=86884424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310606442.XA Active CN116341555B (zh) 2023-05-26 2023-05-26 命名实体识别方法和系统

Country Status (1)

Country Link
CN (1) CN116341555B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102189373B1 (ko) * 2019-08-14 2020-12-11 민 정 고 이미지 및 텍스트를 생성하는 장치 및 방법
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
WO2021135193A1 (zh) * 2019-12-30 2021-07-08 华南理工大学 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN113537200A (zh) * 2021-08-30 2021-10-22 平安医疗健康管理股份有限公司 基于图像识别的信息回填方法、装置、设备及介质
CN113627190A (zh) * 2021-08-27 2021-11-09 上海复深蓝软件股份有限公司 可视化数据转换方法、装置、计算机设备及存储介质
US20220147715A1 (en) * 2019-05-16 2022-05-12 Huawei Technologies Co., Ltd. Text processing method, model training method, and apparatus
CN114580413A (zh) * 2022-02-15 2022-06-03 阿里巴巴(中国)有限公司 模型训练和命名实体识别方法、装置、电子设备以及存储介质
CN114818711A (zh) * 2022-04-27 2022-07-29 天津大学 基于神经网络的多信息融合命名实体识别方法
US20220261547A1 (en) * 2021-02-17 2022-08-18 Applica sp. z o.o. Iterative training for text-image-layout transformer
US20220262151A1 (en) * 2019-12-30 2022-08-18 Huawei Technologies Co., Ltd. Method, apparatus, and system for recognizing text in image
CN115033670A (zh) * 2022-06-02 2022-09-09 西安电子科技大学 多粒度特征融合的跨模态图文检索方法
CN115115913A (zh) * 2022-06-02 2022-09-27 北京科技大学 一种数据处理方法、装置、电子设备及存储介质
CN115455970A (zh) * 2022-09-13 2022-12-09 北方民族大学 一种多模态语义协同交互的图文联合命名实体识别方法
CN115545018A (zh) * 2022-10-14 2022-12-30 人民网股份有限公司 一种多模态多粒度实体识别系统及实体识别方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220147715A1 (en) * 2019-05-16 2022-05-12 Huawei Technologies Co., Ltd. Text processing method, model training method, and apparatus
KR102189373B1 (ko) * 2019-08-14 2020-12-11 민 정 고 이미지 및 텍스트를 생성하는 장치 및 방법
WO2021135193A1 (zh) * 2019-12-30 2021-07-08 华南理工大学 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
US20220262151A1 (en) * 2019-12-30 2022-08-18 Huawei Technologies Co., Ltd. Method, apparatus, and system for recognizing text in image
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
US20220261547A1 (en) * 2021-02-17 2022-08-18 Applica sp. z o.o. Iterative training for text-image-layout transformer
CN113627190A (zh) * 2021-08-27 2021-11-09 上海复深蓝软件股份有限公司 可视化数据转换方法、装置、计算机设备及存储介质
CN113537200A (zh) * 2021-08-30 2021-10-22 平安医疗健康管理股份有限公司 基于图像识别的信息回填方法、装置、设备及介质
CN114580413A (zh) * 2022-02-15 2022-06-03 阿里巴巴(中国)有限公司 模型训练和命名实体识别方法、装置、电子设备以及存储介质
CN114818711A (zh) * 2022-04-27 2022-07-29 天津大学 基于神经网络的多信息融合命名实体识别方法
CN115033670A (zh) * 2022-06-02 2022-09-09 西安电子科技大学 多粒度特征融合的跨模态图文检索方法
CN115115913A (zh) * 2022-06-02 2022-09-27 北京科技大学 一种数据处理方法、装置、电子设备及存储介质
CN115455970A (zh) * 2022-09-13 2022-12-09 北方民族大学 一种多模态语义协同交互的图文联合命名实体识别方法
CN115545018A (zh) * 2022-10-14 2022-12-30 人民网股份有限公司 一种多模态多粒度实体识别系统及实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王仁武;孟现茹;孔琦;: "实体―属性抽取的GRU+CRF方法", 现代情报, no. 10 *

Also Published As

Publication number Publication date
CN116341555B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN111695335A (zh) 一种智能面试方法、装置及终端设备
CN112800768A (zh) 一种嵌套命名实体识别模型的训练方法及装置
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN116069931A (zh) 层级标签文本分类方法、系统、设备及存储介质
CN115391520A (zh) 一种文本情感分类方法、系统、装置及计算机介质
CN117540221B (zh) 图像处理方法和装置、存储介质及电子设备
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116341555B (zh) 命名实体识别方法和系统
CN116127978A (zh) 基于医学文本的嵌套命名实体抽取方法
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
CN115952266A (zh) 问题生成方法、装置、计算机设备和存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN115019319A (zh) 一种基于动态特征提取的结构化图片内容识别方法
CN114692596A (zh) 基于深度学习算法的债券信息解析方法、装置及电子设备
CN114329005A (zh) 信息处理方法、装置、计算机设备及存储介质
CN108921911B (zh) 结构化图片自动转换为源代码的方法
CN116882398B (zh) 基于短语交互的隐式篇章关系识别方法和系统
CN115878815B (zh) 法律文书的判决结果预测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant