CN113435203B - 多模态命名实体识别方法、装置以及电子设备 - Google Patents

多模态命名实体识别方法、装置以及电子设备 Download PDF

Info

Publication number
CN113435203B
CN113435203B CN202111000020.5A CN202111000020A CN113435203B CN 113435203 B CN113435203 B CN 113435203B CN 202111000020 A CN202111000020 A CN 202111000020A CN 113435203 B CN113435203 B CN 113435203B
Authority
CN
China
Prior art keywords
vector
image
modal
inputting
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111000020.5A
Other languages
English (en)
Other versions
CN113435203A (zh
Inventor
陈建颖
薛云
张政轩
陈洁海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202111000020.5A priority Critical patent/CN113435203B/zh
Publication of CN113435203A publication Critical patent/CN113435203A/zh
Application granted granted Critical
Publication of CN113435203B publication Critical patent/CN113435203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种多模态命名实体识别方法、装置以及电子设备,该方法包括:获取社交媒体的评论数据,评论数据包括文本和与文本对应的图像,获得上下文表示和图像实体词,输入至多头跨模态注意力机制模型,获得文本向量和图像向量,输入至门控机制模型进行融合,获得多模态融合特征,输入至混合专家系统,获得第一隐藏层向量,输入至自注意力层进行编码,获得第二隐藏层向量,将第一隐藏层向量、第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果,引入词性信息,来消除文本实体的噪声,通过门控机制筛选图像信息,来消除图像的噪声,基于知识库的混合专家系统滤除多模态融合后的噪声,从而提高了命名实体识别精度。

Description

多模态命名实体识别方法、装置以及电子设备
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种多模态命名实体识别方法、装置以及电子设备。
背景技术
命名实体识别是自然语言处理的一个基本问题,其目的在于发现文本中的命名实体以及将命名实体划分到预定义的类别,如人名、地名或组织机构名等。近年来,由于深度学习技术的兴起与成熟,尤其是神经网络在序列标注任务上的成功,基于LSTM-CRF方法在纯文本的命名实体识别任务中取得了令人满意的效果。
然而,使用该方法来处理社交媒体上的帖子仍然存在很多限制。一方面,社交媒体中的文本通常是短文本,文本内容所传达的信息非常少,对命名实体进行分类具有挑战性。另一方面,在大多数情况下,图像对于表达观点是很重要的,也即视觉信息有助于命名实体识别的分类。因此,基于社交网络的多模态数据的名实体识别方法孕育而生。
在传统的多模态命名实体识别方法中,倾向于收集文本和图像两种模态的信息,然后将文本信息和图像信息拼接,整合到多模态命名实体识别神经网络模型中,来处理模态内部以及模态之间的关系。但是,这些传统方法给网络引入了大量的无关信息,导致多模态噪声大、命名实体识别精度低。
发明内容
基于此,本发明的目的在于,提供一种多模态命名实体识别方法、装置以及电子设备,其具有降低噪声、提高命名实体识别精度的优点。
根据本申请实施例的第一方面,提供一种多模态命名实体识别方法,包括如下步骤:
获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;
获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;
将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;
将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;
将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;
将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;
将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;
将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。
根据本申请实施例的第二方面,提供一种多模态命名实体识别装置,包括:
数据获取模块,用于获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;
向量获取模块,用于获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;
特征提取模块,用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;
向量获得模块,用于将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;
向量融合模块,用于将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;
融合特征输入模块,用于将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;
上下文编码模块,用于将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;
结果获得模块,用于将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。
根据本申请实施例的第三方面,提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如上述任意一项所述的多模态命名实体识别方法。
本申请实施例通过获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像。获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示。将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词。将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征。将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量。将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量。将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。本发明在多模态命名实体识别任务中引入词性信息,来消除文本实体的噪声;进一步通过门控机制筛选图像信息,来消除图像的噪声;在图像和文本特征融合后通过基于知识库的混合专家系统提取每个实体的专家级特征,从整体上对每个实体进行了选择,从而滤除多模态融合后的噪声,从而降低了多模态命名实体识别过程中的噪声、提高了命名实体识别精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明多模态命名实体识别方法的流程示意图;
图2为本发明多模态命名实体识别方法中S20的流程示意图;
图3为本发明多模态命名实体识别方法中S30的流程示意图;
图4为本发明多模态命名实体识别方法中S40的流程示意图;
图5为本发明多模态命名实体识别方法中S50的程示意图;
图6为本发明多模态命名实体识别方法中S60的程示意图;
图7为本发明多模态命名实体识别方法中S70的程示意图;
图8为本发明多模态命名实体识别方法中S80的程示意图;
图9为本发明多模态命名实体识别装置的结构框图;
图10为本发明多模态命名实体识别装置向量获取模块92的结构框图;
图11为本发明多模态命名实体识别装置特征提取模块93的结构框图;
图12为本发明多模态命名实体识别装置向量获得模块94的结构框图;
图13为本发明多模态命名实体识别装置向量融合模块95的结构框图;
图14为本发明多模态命名实体识别装置融合特征输入模块96的结构框图;
图15为本发明多模态命名实体识别装置上下文编码模块97的结构框图;
图16为本发明多模态命名实体识别装置结果获得模块98的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A 和/或 B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,本发明实施例提供一种多模态命名实体识别方法,包括的步骤如下:
S10.获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像。
社交媒体是互联网上基于用户关系的内容生产和交换平台,主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。评论数据是社交媒体上的用户分享的意见、见解、经验和观点等等,以图片和文字等形式发布。在本申请实施例中,获取社交媒体推特上发布的用户帖子,所述用户帖子包含一段文本和与所述文本对应的一张图片。
S20.获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示。
在本申请实施例中,双向自注意力模型是BERT(全称为Bidirectional EncoderRepresentation from Transformers)模型,由谷歌技术团队开发,用于编码句子信息。所述BERT模型的输入可以包含一个句子对 (句子 A 和句子 B),也可以是单个句子。所述文本包括多个句子,所述句子包括多个词语。获取每个词语对应的词性向量、词向量、上下句向量和位置向量,输入至双向自注意力模型进行编码,获得所述文本的上下文表示。
S30.将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词。
在本申请实施例中,掩模区域卷积神经网络模型是Mask R-CNN模型,所述Mask R-CNN模型是在Faster R-CNN的基础上添加了一个预测分割mask的分支,用于多目标检测,能确定图片中各个目标的位置和类别。将所述图像输入至Mask R-CNN模型进行特征提取,识别出所述图像中的图像实体词,所述图像实体词与所述文本中的命名实体相关。
S40.将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。
在本申请实施例中,为了在关联图像的指导下学习更好的单词表示以及为了在关联单词的指导下学习更好的图像表示,将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型做交互注意力,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。
S50.将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征。
在本申请实施例中,所述门控机制模型包括多模态门和过滤门,将所述文本向量和所述图像向量输入至所述多模态门进行融合,所述多模态门来权衡网络分别从图像和文本中考虑了多少信息,即为图像和文本信息的选择分配权重。对于命名实体识别,并不是每一个词的预测都需要引入图像信息。例如,当预测的词性是动词或形容词时,图像特征并不是必须的,这时候引入图像特征反而会带来噪声,因而引入过滤门,滤除多模态融合后的噪声,最终获得所述文本向量和所述图像向量的多模态融合特征。
S60.将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量。
在有些情况下,不同的命名实体类型可能具有相似或相同的上下文、词性和图片信息。例如,句子“Arafat subsequently cancelled a meeting between Israeli andPLO officials”,其中,“Arafat”是个名词,并且在图片中可能同时出现人和组织机构的图像实体词,所以“Arafat”既可能标注为人名实体,也可能被标注为组织机构实体。在本申请实施例中,为了消除多模态融合后的噪声,更有效地利用多模态信息,提取有效信息,引入混合专家系统。将所述多模态融合特征输入至混合专家系统,获得专家级特征和置信度,根据所述专家级特征和所述置信度,获得第一隐藏层向量。
S70.将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量。
由于图像包含的命名实体不全面,与文本中的命名实体有偏差,从而过分强调图像突出的命名实体,忽略了文本中剩余的命名实体。在本申请实施例中,为了减少这种噪声,引入了自注意力Transformer层,将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量,用来提高文本信息的权重。
S80.将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。
条件随机场(conditional random field,简称CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。在本申请实施例中,将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果,所述命名识别结果包括预测命名实体的位置BIO信息和类别信息。
应用本发明实施例,通过获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像。获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示。将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词。将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征。将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量。将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量。将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。本发明在多模态命名实体识别任务中引入词性信息,来消除文本实体的噪声;进一步通过门控机制筛选图像信息,来消除图像的噪声;在图像和文本特征融合后通过基于知识库的混合专家系统提取每个实体的专家级特征,从整体上对每个实体进行了选择,从而滤除多模态融合后的噪声,从而降低了多模态命名实体识别过程中的噪声、提高了命名实体识别精度。
在一个可选的实施例中,请参阅图2,所述步骤S20,包括S21~S22,具体如下:
S21.获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息,通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量。
词性信息与命名实体息息相关,其中,名词是命名实体的概率远远超过其他词性是命名实体的概率,揭示了名词词性与命名实体的高度相关性。在本申请实施例中,使用斯坦福解析器对文本进行了词性标注,并将词性分为4类,即名词、动词、形容词和其他词性。同时,获取单词信息、上下句信息和位置信息,通过词嵌入表将所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量。
S22.将每个词的所述词性向量、词向量、上下句向量和位置向量求和,输入至双向自注意力模型进行编码,获得所述文本的上下文表示。
在本申请实施例中,基于所述BERT模型,对每个句子进行了预处理,在每个句子的开头添加[CLS],结尾添加[SEP] ,表示一个句子的开始与结束。若一个句子包含n个单词,所述词性向量为
Figure 337167DEST_PATH_IMAGE001
,所述词向量为
Figure 348985DEST_PATH_IMAGE002
,所述上下句向量为
Figure DEST_PATH_IMAGE003
,由于不需要对句子进行分类,所以上下句向量每个元素为0。对于同一个单词,在句子中的不同位置应该有不同的表示,所述位置向量为
Figure 703743DEST_PATH_IMAGE004
。将每个词的所述词性向量、词向量、上下句向量和位置向量中同一位置上的元素求和,输入至双向自注意力模型进行编码,获得所述文本的上下文表示,所述上下文表示为
Figure DEST_PATH_IMAGE005
在一个可选的实施例中,请参阅图3,所述步骤S30,包括S31~S34,具体如下:
S31.将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得多个目标命名实体词的分类得分;
S32.根据所述分类得分对所述目标命名实体词进行从高到低排序,取前k个目标命名实体词构成目标命名实体词集合;
S33.将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表,生成对象嵌入向量;
S34.将所述对象嵌入向量输入至单层感知机,获得与所述上下文表示的维度相同的图像实体词;其中,生成对象嵌入向量的公式为:
Figure 623158DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
为每个所述目标命名实体词,
Figure 881226DEST_PATH_IMAGE008
为所述对象嵌入向量,
Figure DEST_PATH_IMAGE009
表示所述词嵌入表,
Figure 595104DEST_PATH_IMAGE010
获得与所述上下文表示相同维度的图像实体词的公式为:
Figure DEST_PATH_IMAGE011
Figure 968316DEST_PATH_IMAGE012
为所述图像实体词,
Figure DEST_PATH_IMAGE013
Figure 425843DEST_PATH_IMAGE013
激活函数,
Figure 4329DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
为所述单层感知机中可训练的权重参数。
在本申请实施例中,将所述图像输入至Mask RNN模型来识别图像中的目标命名实体词,将分类得分最高的前4个目标命名实体词输入至词嵌入表,生成对象嵌入向量。为了方便与文本向量做交互注意力,使用单层感知机将所述对象嵌入向量映射为与所述文本向量具有相同维度的图像实体词。
在一个可选的实施例中,请参阅图4,所述步骤S40,包括S41~S43,具体如下:
S41.将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层,并以所述图像实体词作为查询向量,所述上下文表示作为键和值,获得图像引导上下文注意力的输出表示;
S42.将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层,并以所述上下文表示作为查询向量,所述图像引导上下文注意力的输出表示作为键和值,获得所述上下文表示对应的文本向量;
S43.将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层,并以所述上下文表示作为查询向量,所述图像实体词作为键和值,获得所述图像实体词对应的图像向量;
其中,获得图像引导上下文注意力的输出表示的公式为:
Figure 420267DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
Figure 749617DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
是所述第一跨模态注意力层的第
Figure DEST_PATH_IMAGE021
个头,
Figure 309037DEST_PATH_IMAGE022
是所述图像实体词,
Figure DEST_PATH_IMAGE023
是所述上下文表示,
Figure 774653DEST_PATH_IMAGE024
是训练一个批次的句子数量,
Figure DEST_PATH_IMAGE025
是所述第一跨模态注意力层的多头注意力的头数,
Figure 95913DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
Figure 912559DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
是所述第一跨模态注意力层的权重参数,
Figure 470143DEST_PATH_IMAGE030
表示转置,
Figure DEST_PATH_IMAGE031
是所述第一跨模态注意力层的
Figure 55845DEST_PATH_IMAGE025
个头的组合,
Figure 16848DEST_PATH_IMAGE032
是所述第一跨模态注意力层的第1个头到第
Figure 524053DEST_PATH_IMAGE025
个头,
Figure DEST_PATH_IMAGE033
是所述图像引导上下文注意力的输出表示,
Figure 127072DEST_PATH_IMAGE034
Figure 803167DEST_PATH_IMAGE034
激活函数,
Figure 403912DEST_PATH_IMAGE013
Figure 663992DEST_PATH_IMAGE013
激活函数;
获得所述上下文表示对应的文本向量的公式为:
Figure DEST_PATH_IMAGE035
Figure 805124DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
Figure 630997DEST_PATH_IMAGE038
是所述第二跨模态注意力层的第
Figure 668223DEST_PATH_IMAGE021
个头,
Figure DEST_PATH_IMAGE039
是所述第二跨模态注意力层的多头注意力的头数,
Figure 179714DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
Figure 124536DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
是所述第二跨模态注意力层的权重参数,
Figure 539337DEST_PATH_IMAGE044
是所述第二跨模态注意力层的
Figure 13044DEST_PATH_IMAGE039
个头的组合,
Figure DEST_PATH_IMAGE045
是所述第二跨模态注意力层的第1个头到第
Figure 247716DEST_PATH_IMAGE039
个头,
Figure 700956DEST_PATH_IMAGE046
是所述上下文表示对应的文本向量;
获得所述图像实体词对应的图像向量的公式为:
Figure DEST_PATH_IMAGE047
Figure 235843DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
Figure 146030DEST_PATH_IMAGE050
是所述第三跨模态注意力层的第
Figure 336840DEST_PATH_IMAGE021
个头,
Figure DEST_PATH_IMAGE051
是所述第三跨模态注意力层的多头注意力的头数,
Figure 623465DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
Figure 517252DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
是所述第三跨模态注意力层的权重参数,
Figure 863920DEST_PATH_IMAGE056
是所述第三跨模态注意力层的
Figure DEST_PATH_IMAGE057
个头的组合,
Figure 604343DEST_PATH_IMAGE058
是所述第三跨模态注意力层的第1个头到第
Figure 897921DEST_PATH_IMAGE057
个头,
Figure DEST_PATH_IMAGE059
是所述图像实体词对应的图像向量。
由于图像实体词在所述第一跨模态注意力层作为查询向量,生成的图像引导上下文注意力的输出表示
Figure 643285DEST_PATH_IMAGE033
只有4个维度,而所述上下文表示
Figure 629696DEST_PATH_IMAGE023
有n+1个维度,为了使两者维度一致,因而增加了所述第二跨模态注意力层,以所述上下文表示作为查询向量,所述图像引导上下文注意力的输出表示作为键和值,获得所述上下文表示对应的文本向量
Figure 795098DEST_PATH_IMAGE060
在一个可选的实施例中,请参阅图5,所述步骤S50,包括S51~S52,具体如下:
S51.将所述文本向量和所述图像向量输入至所述多模态门进行融合,获得所述文本向量和所述图像向量的初始融合特征;
S52.将所述初始融合特征输入至所述过滤门进行过滤,获得所述文本向量和所述图像向量的多模态融合特征;
其中,获得所述文本向量和所述图像向量的初始融合特征的公式为:
Figure DEST_PATH_IMAGE061
Figure 423525DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
Figure 521931DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
是所述图像向量,
Figure 210402DEST_PATH_IMAGE046
是所述文本向量,
Figure 627214DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE067
Figure 793753DEST_PATH_IMAGE068
是所述多模态门的权重参数,
Figure DEST_PATH_IMAGE069
Figure 12245DEST_PATH_IMAGE070
是所述多模态门的偏置参数,
Figure DEST_PATH_IMAGE071
是所述图像向量
Figure 871617DEST_PATH_IMAGE065
经过
Figure 11611DEST_PATH_IMAGE072
激活函数运算之后生成的新的图像向量,
Figure DEST_PATH_IMAGE073
是所述文本向量
Figure 748885DEST_PATH_IMAGE046
经过
Figure 290725DEST_PATH_IMAGE072
激活函数运算之后生成的新的文本向量,
Figure 524260DEST_PATH_IMAGE074
是sigmoid激活函数,
Figure DEST_PATH_IMAGE075
表示向量的级联,
Figure 682709DEST_PATH_IMAGE076
是所述新的图像向量的多模态门权重系数,
Figure DEST_PATH_IMAGE077
是所述新的文本向量的多模态门权重系数,
Figure 191051DEST_PATH_IMAGE078
是所述文本向量和所述图像向量的初始融合特征;
获得所述文本向量和所述图像向量的多模态融合特征的公式为:
Figure DEST_PATH_IMAGE079
Figure 900248DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE081
Figure 101422DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE083
Figure 747167DEST_PATH_IMAGE084
是所述过滤门的权重参数,
Figure DEST_PATH_IMAGE085
Figure 59200DEST_PATH_IMAGE086
是所述过滤门的偏置参数,
Figure DEST_PATH_IMAGE087
是[0,1]范围内的标量,
Figure 608255DEST_PATH_IMAGE088
是过滤门滤除噪声后保留的多模态融合特征,
Figure DEST_PATH_IMAGE089
是所述文本向量和所述图像向量的多模态融合特征。
在本申请实施例中,所述多模态门用于将文本向量和图像向量进行融合,得到多模态融合特征,所述过滤门用于将多模态融合特征进行噪声滤除,从而提高命名实体识别精度。
在一个可选的实施例中,请参阅图6,所述步骤S60,包括S61~S63,具体如下:
S61.构建每个所述多模态融合特征对应的多个专家级特征;
S62.将所述多模态融合特征和所述知识库输入至所述专家门,获得多个所述专家级特征对应的置信度;
S63.将所述专家级特征和所述置信度相乘并求和,获得所述第一隐藏层向量;
其中,构建专家级特征的公式为:
Figure 980331DEST_PATH_IMAGE090
Figure DEST_PATH_IMAGE091
表示每一个所述多模态融合特征
Figure 113372DEST_PATH_IMAGE092
对应的n个所述专家级特征,
Figure DEST_PATH_IMAGE093
是以e为底的指数函数,
Figure 229095DEST_PATH_IMAGE094
表示所述多模态融合特征
Figure 98569DEST_PATH_IMAGE092
经过
Figure 110387DEST_PATH_IMAGE072
激活函数运算之后得到的第一个所述专家级特征,
Figure DEST_PATH_IMAGE095
表示所述多模态融合特征
Figure 199566DEST_PATH_IMAGE092
经过
Figure 587822DEST_PATH_IMAGE072
激活函数运算之后得到的第n个所述专家级特征;
获得置信度的公式为:
Figure 547688DEST_PATH_IMAGE096
Figure DEST_PATH_IMAGE097
是所述混合专家系统的知识库,
Figure 261566DEST_PATH_IMAGE098
表示每一个所述多模态融合特征
Figure 838041DEST_PATH_IMAGE092
对应的n个所述置信度,
Figure DEST_PATH_IMAGE099
表示所述多模态融合特征
Figure 797032DEST_PATH_IMAGE092
经过
Figure 611404DEST_PATH_IMAGE072
激活函数的运算结果,
Figure 230604DEST_PATH_IMAGE075
表示向量的级联,
Figure 763217DEST_PATH_IMAGE034
Figure 227696DEST_PATH_IMAGE034
激活函数;
获得所述第一隐藏层向量的公式为:
Figure 427733DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE101
是所述第一隐藏层向量。
在本申请实施例中,所述混合专家系统包括知识库,所述知识库是通过提取语料库中所有标注为命名实体的单词,利用卷积神经网络CNN提取每种实体词的特征构成。其中,所述语料库为经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料。将多模态融合特征输入至混合专家系统,滤除了同一个实体词可能对应多个命名实体类别的噪声,提高了命名实体的识别精度。
在一个可选的实施例中,请参阅图7,所述步骤S70,包括S71~S72,具体如下:
S71.将所述上下文表示
Figure 483414DEST_PATH_IMAGE102
输入至自注意力层进行编码,获得所述上下文表示对应的隐藏层向量
Figure DEST_PATH_IMAGE103
S72.将所述隐藏层向量
Figure 538875DEST_PATH_IMAGE104
的第一个元素
Figure DEST_PATH_IMAGE105
和最后一个元素
Figure 603783DEST_PATH_IMAGE106
去除,获得第二隐藏层向量
Figure DEST_PATH_IMAGE107
在本申请实施例中,将所述上下文表示输入至自注意力Transformer层进行编码,获得所述上下文表示对应的隐藏层向量,用于对每个单词进行位置信息BIO的标注,其中,B表示每个单词在命名实体中的开头位置,I表示每个单词在命名实体中的中间和/或结尾位置,O表示不是命名实体。由于跟文本中的第1个单词到第n个单词无关,将所述隐藏层向量的第一个元素和最后一个元素去除,获得第二隐藏层向量。
在一个可选的实施例中,请参阅图8,所述步骤S80,包括S81~S82,具体如下:
S81.将所述第二隐藏层向量与所述预设的概率转换矩阵的乘积,与所述第一隐藏层向量求和,获得第三隐藏层向量;
S82.将所述第三隐藏层向量输入至条件随机场,获得命名实体识别结果;其中,获得第三隐藏层向量公式为:
Figure 189485DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE109
是所述第二隐藏层向量,
Figure 416067DEST_PATH_IMAGE110
是所述预设的概率转换矩阵,
Figure 188851DEST_PATH_IMAGE111
是所述第一隐藏层向量,
Figure DEST_PATH_IMAGE112
是所述第三隐藏层向量;
获得命名实体识别结果公式为:
Figure 293336DEST_PATH_IMAGE113
Figure DEST_PATH_IMAGE114
是当前句子中每个词的标注结果,
Figure 733545DEST_PATH_IMAGE115
是一个训练批次中所有句子中的词标注结果的集合,
Figure DEST_PATH_IMAGE116
Figure 131028DEST_PATH_IMAGE117
是所述条件随机场的权重参数,
Figure DEST_PATH_IMAGE118
Figure 922266DEST_PATH_IMAGE119
是所述条件随机场的偏置参数,
Figure DEST_PATH_IMAGE120
是所述命名实体识别结果。
在本申请实施例中,所述预设的概率转换矩阵
Figure 827512DEST_PATH_IMAGE110
表示命名实体的位置信息到类别信息的转换概率,例如,实体词标注为 B只可能转换为B-PER(人名),B-LOC(地名),B-ORG(组织机构名),B-MISC(其他),因而对应的转换概率均预设为0.25。对于位置信息有BIO三类,B、I类均有PER、LOC、ORG以及MISC四种,因而,最终的预测类别y有9种,根据所述命名实体识别结果,可以得到每个单词在整个文本中是否属于实体词的预测概率,以及若为实体词,可以得到该实体词位于命名实体的具体位置以及所属类别的预测概率。
相应于上述方法实施例,请参阅图9,本发明实施例提供一种多模态命名实体识别装置9,包括:
数据获取模块91,用于获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;
向量获取模块92,用于获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;
特征提取模块93,用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;
向量获得模块94,用于将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;
向量融合模块95,用于将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;
融合特征输入模块96,用于将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;
上下文编码模块97,用于将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;
结果获得模块98,用于将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。
可选的,请参阅图10,所述向量获取模块92,包括:
信息获取单元922,用于获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息,通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量;
向量求和单元924,用于将每个词的所述词性向量、词向量、上下句向量和位置向量求和,输入至预训练的双向自注意力模型进行编码,获得所述文本的上下文表示。
可选的,请参阅图11,所述特征获取模块93,包括:
特征提取单元932,用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得多个目标命名实体词的分类得分;
对象排序单元934,用于根据所述分类得分对所述目标命名实体词进行从高到低排序,取前k个目标命名实体词构成目标命名实体词集合;
对象输入单元936,用于将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表,生成对象嵌入向量;
向量输入单元938,用于将所述对象嵌入向量输入至单层感知机,获得与所述上下文表示的维度相同的图像实体词。
可选的,请参阅图12,所述向量获得模块94,包括:
输出表示获得单元942,用于将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层,并以所述图像实体词作为查询向量,所述上下文表示作为键和值,获得图像引导上下文注意力的输出表示;
文本向量获得单元944,用于将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层,并以所述上下文表示作为查询向量,所述图像引导上下文注意力的输出表示作为键和值,获得所述上下文表示对应的文本向量;
图像向量获得单元946,用于将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层,并以所述上下文表示作为查询向量,所述图像实体词作为键和值,获得所述图像实体词对应的图像向量。
可选的,请参阅图13,所述向量融合模块95,包括:
向量融合单元952,用于将所述文本向量和所述图像向量输入至所述多模态门进行融合,获得所述文本向量和所述图像向量的初始融合特征;
特征过滤单元954,用于将所述初始融合特征输入至所述过滤门进行过滤,获得所述文本向量和所述图像向量的多模态融合特征。
可选的,请参阅图14,所述融合特征输入模块96,包括:
专家级特征构建单元962,用于构建每个所述多模态融合特征对应的多个专家级特征;
置信度获得单元964,用于将所述多模态融合特征和所述知识库输入至所述专家门,获得多个所述专家级特征对应的置信度;
隐藏层向量获得单元966,用于将所述专家级特征和所述置信度相乘并求和,获得所述第一隐藏层向量。
可选的,请参阅图15,所述上下文编码模块97,包括:
上下文表示编码单元972,用于将所述上下文表示
Figure 591069DEST_PATH_IMAGE102
输入至自注意力层进行编码,获得所述上下文表示对应的隐藏层向量
Figure 628295DEST_PATH_IMAGE104
隐藏层向量去除单元974,用于将所述隐藏层向量
Figure 375671DEST_PATH_IMAGE104
的第一个元素
Figure 523756DEST_PATH_IMAGE121
和最后一个元素
Figure 407398DEST_PATH_IMAGE106
去除,获得第二隐藏层向量
Figure 615525DEST_PATH_IMAGE107
可选的,请参阅图16,所述结果获得模块98,包括:
向量矩阵乘积单元982,用于将所述第二隐藏层向量与所述预设的概率转换矩阵的乘积,与所述第一隐藏层向量求和,获得第三隐藏层向量;
识别结果获得单元984,用于将所述第三隐藏层向量输入至条件随机场,获得命名实体识别结果。
应用本发明实施例,通过获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像。获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示。将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词。将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征。将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量。将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量。将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。本发明在多模态命名实体识别任务中引入词性信息,来消除文本实体的噪声;进一步通过门控机制筛选图像信息,来消除图像的噪声;在图像和文本特征融合后通过基于知识库的混合专家系统提取每个实体的专家级特征,从整体上对每个实体进行了选择,从而滤除多模态融合后的噪声,从而降低了多模态命名实体识别过程中的噪声、提高了命名实体识别精度。
本申请还提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述实施例的方法步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种多模态命名实体识别方法,其特征在于,包括:
获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;
获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;
将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;
将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;
将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;
将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;
将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;
将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。
2.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示,包括:
获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息,通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量;
将每个词的所述词性向量、词向量、上下句向量和位置向量求和,输入至预训练的双向自注意力模型进行编码,获得所述文本的上下文表示。
3.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词,包括:
将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得多个目标命名实体词的分类得分;
根据所述分类得分对所述目标命名实体词进行从高到低排序,取前k个目标命名实体词构成目标命名实体词集合;
将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表,生成对象嵌入向量;
将所述对象嵌入向量输入至单层感知机,获得与所述上下文表示的维度相同的图像实体词;其中,生成对象嵌入向量的公式为:
Figure 185763DEST_PATH_IMAGE001
Figure 164083DEST_PATH_IMAGE002
为每个所述目标命名实体词,
Figure 25860DEST_PATH_IMAGE003
为所述对象嵌入向量,
Figure 597786DEST_PATH_IMAGE004
表示所述词嵌入表,
Figure 695055DEST_PATH_IMAGE005
表示从所述词嵌入表
Figure 137669DEST_PATH_IMAGE006
中查询每个所述目标命名实体词
Figure 560560DEST_PATH_IMAGE007
对应的所述对象嵌入向量
Figure 351274DEST_PATH_IMAGE003
Figure 986655DEST_PATH_IMAGE008
获得与所述上下文表示相同维度的图像实体词的公式为:
Figure 549354DEST_PATH_IMAGE009
Figure 18513DEST_PATH_IMAGE010
为所述图像实体词,
Figure 158507DEST_PATH_IMAGE011
Figure 4104DEST_PATH_IMAGE011
激活函数,
Figure 545943DEST_PATH_IMAGE012
Figure 920424DEST_PATH_IMAGE013
为所述单层感知机中可训练的权重参数。
4.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述多头跨模态注意力机制模型包括第一跨模态注意力层、第二跨模态注意力层和第三跨模态注意力层,所述将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量,包括:
将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层,并以所述图像实体词作为查询向量,所述上下文表示作为键和值,获得图像引导上下文注意力的输出表示;
将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层,并以所述上下文表示作为查询向量,所述图像引导上下文注意力的输出表示作为键和值,获得所述上下文表示对应的文本向量;
将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层,并以所述上下文表示作为查询向量,所述图像实体词作为键和值,获得所述图像实体词对应的图像向量;
其中,获得图像引导上下文注意力的输出表示的公式为:
Figure 547715DEST_PATH_IMAGE014
Figure 665843DEST_PATH_IMAGE015
Figure 203135DEST_PATH_IMAGE016
Figure 873151DEST_PATH_IMAGE017
是所述第一跨模态注意力层的第
Figure 128683DEST_PATH_IMAGE018
个头,
Figure 909557DEST_PATH_IMAGE019
是所述图像实体词,
Figure 558145DEST_PATH_IMAGE020
是所述上下文表示,
Figure 274428DEST_PATH_IMAGE021
是训练一个批次的句子数量,
Figure 876311DEST_PATH_IMAGE022
是所述第一跨模态注意力层的多头注意力的头数,
Figure 336242DEST_PATH_IMAGE023
Figure 707181DEST_PATH_IMAGE024
Figure 453420DEST_PATH_IMAGE025
Figure 417965DEST_PATH_IMAGE026
是所述第一跨模态注意力层的权重参数,
Figure 681587DEST_PATH_IMAGE027
表示转置,
Figure 907032DEST_PATH_IMAGE028
是所述第一跨模态注意力层的
Figure 824173DEST_PATH_IMAGE022
个头的组合,
Figure 276014DEST_PATH_IMAGE029
是所述第一跨模态注意力层的第1个头到第
Figure 202381DEST_PATH_IMAGE022
个头,
Figure 157699DEST_PATH_IMAGE030
是所述图像引导上下文注意力的输出表示,
Figure 776899DEST_PATH_IMAGE031
Figure 450457DEST_PATH_IMAGE031
激活函数,
Figure 914937DEST_PATH_IMAGE011
Figure 252989DEST_PATH_IMAGE011
激活函数;
获得所述上下文表示对应的文本向量的公式为:
Figure 918457DEST_PATH_IMAGE032
Figure 938366DEST_PATH_IMAGE033
Figure 347481DEST_PATH_IMAGE034
Figure 402025DEST_PATH_IMAGE035
是所述第二跨模态注意力层的第
Figure 972815DEST_PATH_IMAGE018
个头,
Figure 745599DEST_PATH_IMAGE036
是所述第二跨模态注意力层的多头注意力的头数,
Figure 692826DEST_PATH_IMAGE037
Figure 601876DEST_PATH_IMAGE038
Figure 609147DEST_PATH_IMAGE039
Figure 603648DEST_PATH_IMAGE040
是所述第二跨模态注意力层的权重参数,
Figure 354566DEST_PATH_IMAGE041
是所述第二跨模态注意力层的
Figure 383702DEST_PATH_IMAGE036
个头的组合,
Figure 296294DEST_PATH_IMAGE042
是所述第二跨模态注意力层的第1个头到第
Figure 43670DEST_PATH_IMAGE036
个头,
Figure 191755DEST_PATH_IMAGE043
是所述上下文表示对应的文本向量;
获得所述图像实体词对应的图像向量的公式为:
Figure 219272DEST_PATH_IMAGE044
Figure 302766DEST_PATH_IMAGE045
Figure 271859DEST_PATH_IMAGE046
Figure 223634DEST_PATH_IMAGE047
是所述第三跨模态注意力层的第
Figure 837150DEST_PATH_IMAGE018
个头,
Figure 481758DEST_PATH_IMAGE048
是所述第三跨模态注意力层的多头注意力的头数,
Figure 813513DEST_PATH_IMAGE049
Figure 568979DEST_PATH_IMAGE050
Figure 302580DEST_PATH_IMAGE051
Figure 118089DEST_PATH_IMAGE052
是所述第三跨模态注意力层的权重参数,
Figure 671562DEST_PATH_IMAGE053
是所述第三跨模态注意力层的
Figure 230719DEST_PATH_IMAGE054
个头的组合,
Figure 818826DEST_PATH_IMAGE055
是所述第三跨模态注意力层的第1个头到第
Figure 805237DEST_PATH_IMAGE054
个头,
Figure 111584DEST_PATH_IMAGE056
是所述图像实体词对应的图像向量。
5.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述门控机制模型包括多模态门和过滤门,所述将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征,包括:
将所述文本向量和所述图像向量输入至所述多模态门进行融合,获得所述文本向量和所述图像向量的初始融合特征;
将所述初始融合特征输入至所述过滤门进行过滤,获得所述文本向量和所述图像向量的多模态融合特征;
其中,获得所述文本向量和所述图像向量的初始融合特征的公式为:
Figure 208853DEST_PATH_IMAGE057
Figure 382958DEST_PATH_IMAGE058
Figure 540270DEST_PATH_IMAGE059
Figure 68334DEST_PATH_IMAGE060
Figure 969294DEST_PATH_IMAGE061
是所述图像向量,
Figure 531994DEST_PATH_IMAGE043
是所述文本向量,
Figure 860207DEST_PATH_IMAGE062
Figure 875567DEST_PATH_IMAGE063
Figure 314639DEST_PATH_IMAGE064
是所述多模态门的权重参数,
Figure 731845DEST_PATH_IMAGE065
Figure 230960DEST_PATH_IMAGE066
是所述多模态门的偏置参数,
Figure 733616DEST_PATH_IMAGE067
是所述图像向量
Figure 976379DEST_PATH_IMAGE061
经过
Figure 513670DEST_PATH_IMAGE068
激活函数运算之后生成的新的图像向量,
Figure 183686DEST_PATH_IMAGE069
是所述文本向量
Figure 908060DEST_PATH_IMAGE043
经过
Figure 954513DEST_PATH_IMAGE068
激活函数运算之后生成的新的文本向量,
Figure 360960DEST_PATH_IMAGE070
是sigmoid激活函数,
Figure 201877DEST_PATH_IMAGE071
表示向量的级联,
Figure 413546DEST_PATH_IMAGE072
是所述新的图像向量的多模态门权重系数,
Figure 998111DEST_PATH_IMAGE073
是所述新的文本向量的多模态门权重系数,
Figure 244416DEST_PATH_IMAGE074
是所述文本向量和所述图像向量的初始融合特征;
获得所述文本向量和所述图像向量的多模态融合特征的公式为:
Figure 256235DEST_PATH_IMAGE075
Figure 79834DEST_PATH_IMAGE076
Figure 343456DEST_PATH_IMAGE077
Figure 568901DEST_PATH_IMAGE078
Figure 892566DEST_PATH_IMAGE079
Figure 78828DEST_PATH_IMAGE080
Figure 739617DEST_PATH_IMAGE081
是所述过滤门的权重参数,
Figure 85147DEST_PATH_IMAGE082
Figure 314134DEST_PATH_IMAGE083
是所述过滤门的偏置参数,
Figure 112326DEST_PATH_IMAGE084
是[0,1]范围内的标量,
Figure 717751DEST_PATH_IMAGE020
是所述上下文表示,
Figure 917788DEST_PATH_IMAGE085
是过滤门滤除噪声后保留的多模态融合特征,
Figure 314747DEST_PATH_IMAGE086
是所述文本向量和所述图像向量的多模态融合特征。
6.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述混合专家系统包括专家门和知识库,所述将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量,包括:
构建每个所述多模态融合特征对应的多个专家级特征;
将所述多模态融合特征和所述知识库输入至所述专家门,获得多个所述专家级特征对应的置信度;
将所述专家级特征和所述置信度相乘并求和,获得所述第一隐藏层向量;
其中,构建专家级特征的公式为:
Figure 600235DEST_PATH_IMAGE087
Figure 9351DEST_PATH_IMAGE088
表示每一个所述多模态融合特征
Figure 63894DEST_PATH_IMAGE089
对应的n个所述专家级特征,
Figure 634684DEST_PATH_IMAGE090
是以e为底的指数函数,
Figure 407468DEST_PATH_IMAGE091
表示所述多模态融合特征
Figure 354695DEST_PATH_IMAGE089
经过
Figure 263745DEST_PATH_IMAGE068
激活函数运算之后得到的第一个所述专家级特征,
Figure 271016DEST_PATH_IMAGE092
表示所述多模态融合特征
Figure 265517DEST_PATH_IMAGE089
经过
Figure 16435DEST_PATH_IMAGE068
激活函数运算之后得到的第n个所述专家级特征;
获得置信度的公式为:
Figure 779992DEST_PATH_IMAGE093
Figure 958163DEST_PATH_IMAGE094
是所述混合专家系统的知识库,
Figure 439960DEST_PATH_IMAGE095
表示每一个所述多模态融合特征
Figure 728990DEST_PATH_IMAGE089
对应的n个所述置信度,
Figure 612632DEST_PATH_IMAGE096
表示所述多模态融合特征
Figure 964635DEST_PATH_IMAGE089
经过
Figure 933728DEST_PATH_IMAGE068
激活函数的运算结果,
Figure 26449DEST_PATH_IMAGE071
表示向量的级联,
Figure 764598DEST_PATH_IMAGE097
Figure 284572DEST_PATH_IMAGE098
激活函数;
获得所述第一隐藏层向量的公式为:
Figure 475382DEST_PATH_IMAGE099
Figure 106215DEST_PATH_IMAGE100
是所述第一隐藏层向量。
7.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量,包括:
将所述上下文表示
Figure 964449DEST_PATH_IMAGE101
输入至自注意力层进行编码,获得所述上下文表示对应的隐藏层向量
Figure 389745DEST_PATH_IMAGE102
将所述隐藏层向量
Figure 333431DEST_PATH_IMAGE102
的第一个元素
Figure 767954DEST_PATH_IMAGE103
和最后一个元素
Figure 480695DEST_PATH_IMAGE104
去除,获得第二隐藏层向量
Figure 342472DEST_PATH_IMAGE105
8.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果,包括:
将所述第二隐藏层向量与所述预设的概率转换矩阵的乘积,与所述第一隐藏层向量求和,获得第三隐藏层向量;
将所述第三隐藏层向量输入至条件随机场,获得命名实体识别结果;其中,获得第三隐藏层向量公式为:
Figure 507874DEST_PATH_IMAGE106
Figure 480509DEST_PATH_IMAGE107
是所述第二隐藏层向量,
Figure 313336DEST_PATH_IMAGE108
是所述预设的概率转换矩阵,
Figure 343084DEST_PATH_IMAGE109
是所述第一隐藏层向量,
Figure 995783DEST_PATH_IMAGE110
是所述第三隐藏层向量;
获得命名实体识别结果公式为:
Figure 772109DEST_PATH_IMAGE111
Figure 459442DEST_PATH_IMAGE112
是当前句子中每个词的标注结果,
Figure 663021DEST_PATH_IMAGE113
是一个训练批次中所有句子中的词标注结果的集合,
Figure 803016DEST_PATH_IMAGE114
Figure 117454DEST_PATH_IMAGE115
是所述条件随机场的权重参数,
Figure 924873DEST_PATH_IMAGE116
Figure 299353DEST_PATH_IMAGE117
是所述条件随机场的偏置参数,
Figure 926644DEST_PATH_IMAGE118
是所述命名实体识别结果。
9.一种多模态命名实体识别装置,其特征在于,包括:
数据获取模块,用于获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;
向量获取模块,用于获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;
特征提取模块,用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;
向量获得模块,用于将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;
向量融合模块,用于将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;
融合特征输入模块,用于将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;
上下文编码模块,用于将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;
结果获得模块,用于将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至8中任意一项所述的多模态命名实体识别方法。
CN202111000020.5A 2021-08-30 2021-08-30 多模态命名实体识别方法、装置以及电子设备 Active CN113435203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111000020.5A CN113435203B (zh) 2021-08-30 2021-08-30 多模态命名实体识别方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111000020.5A CN113435203B (zh) 2021-08-30 2021-08-30 多模态命名实体识别方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN113435203A CN113435203A (zh) 2021-09-24
CN113435203B true CN113435203B (zh) 2021-11-30

Family

ID=77798278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111000020.5A Active CN113435203B (zh) 2021-08-30 2021-08-30 多模态命名实体识别方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN113435203B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837102B (zh) * 2021-09-26 2024-05-10 广州华多网络科技有限公司 图文融合分类方法及其装置、设备、介质、产品
CN113836928B (zh) * 2021-09-28 2024-02-27 平安科技(深圳)有限公司 文本实体生成方法、装置、设备及存储介质
CN114443822B (zh) * 2021-12-24 2023-05-26 科大讯飞(苏州)科技有限公司 用于建筑领域的多模态问答的方法、系统和计算设备
CN114417873A (zh) * 2022-01-17 2022-04-29 软通动力信息技术(集团)股份有限公司 一种少样本实体识别方法、装置、介质及设备
CN114580425B (zh) * 2022-05-06 2022-09-09 阿里巴巴(中国)有限公司 命名实体识别的方法和装置,以及电子设备和存储介质
CN114792423B (zh) * 2022-05-20 2022-12-09 北京百度网讯科技有限公司 文档图像的处理方法、装置和存储介质
CN117312582A (zh) * 2022-06-21 2023-12-29 腾讯科技(深圳)有限公司 基于注意力模块的信息识别方法和装置
CN114821605B (zh) * 2022-06-30 2022-11-25 苏州浪潮智能科技有限公司 一种文本的处理方法、装置、设备和介质
CN115512368B (zh) * 2022-08-22 2024-05-10 华中农业大学 一种跨模态语义生成图像模型和方法
CN115659987B (zh) * 2022-12-28 2023-03-21 华南师范大学 基于双通道的多模态命名实体识别方法、装置以及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818083A (zh) * 2017-09-29 2018-03-20 华南师范大学 基于三层条件随机场的疾病数据命名实体识别方法及系统
CN111126069A (zh) * 2019-12-30 2020-05-08 华南理工大学 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN112560491A (zh) * 2020-12-11 2021-03-26 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916301B2 (en) * 2012-12-21 2018-03-13 Microsoft Technology Licensing, Llc Named entity variations for multimodal understanding systems
CN111046668B (zh) * 2019-12-04 2023-09-22 北京信息科技大学 多模态文物数据的命名实体识别方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818083A (zh) * 2017-09-29 2018-03-20 华南师范大学 基于三层条件随机场的疾病数据命名实体识别方法及系统
CN111126069A (zh) * 2019-12-30 2020-05-08 华南理工大学 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN112560491A (zh) * 2020-12-11 2021-03-26 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Zhiwei Wu et al..Multimodal Representation with Embedded Visual Guiding Objects for Named Entity Recognition in Social Media Posts.《MM"20:Proceedings of the 28th ACM international conference on multimedia》.2020,第1038-1046页. *
王红 等.中文医疗命名实体识别方法研究综述.《山东师范大学学报(自然科学版)》.2021,第36卷(第2期),第109-117页. *

Also Published As

Publication number Publication date
CN113435203A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN113435203B (zh) 多模态命名实体识别方法、装置以及电子设备
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111680159B (zh) 数据处理方法、装置及电子设备
CN113836277A (zh) 用于数字助理的机器学习系统
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
CN113449085B (zh) 多模态情感分类方法、装置以及电子设备
CN111221939A (zh) 评分方法、装置和电子设备
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN112287090A (zh) 一种基于知识图谱的金融问题反问方法及系统
CN110597968A (zh) 一种回复选择方法及装置
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及系统
CN114065848A (zh) 一种基于预训练情感嵌入的中文方面级别情感分类方法
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
Kádár et al. Learning word meanings from images of natural scenes
Gautam et al. Deep Neural Network Based Multi-Review Summarization System.
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
CN114138954A (zh) 用户咨询问题推荐方法、系统、计算机设备及存储介质
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant