CN115169333A

CN115169333A - 文本的实体识别方法、装置、设备、存储介质及程序产品

Info

Publication number: CN115169333A
Application number: CN202210803340.2A
Authority: CN
Inventors: 何锦涛; 向玥佳; 王珩; 陈曦
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-11

Abstract

本申请提供了一种文本的实体识别方法、装置、设备、存储介质及程序产品；方法包括：获取待识别文本、以及与待识别文本关联的待识别图像；对待识别图像进行编码，得到图像向量，并对待识别文本进行编码，得到文本向量；将图像向量和文本向量进行模态融合，得到目标多模态向量；基于目标多模态向量对待识别文本进行实体识别，得到待识别文本中的初始实体；基于文本向量对待识别文本进行实体识别，得到待识别文本中的修正实体；基于修正实体，对初始实体进行修正，得到待识别文本中的目标实体。通过本申请，能够有效提高实体识别的准确度。

Description

文本的实体识别方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本的实体识别方法、装置、设备、存储介质及程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在相关技术中，通常使用预先制定的规则对待识别文本进行实体识别，例如，识别文本中的物品价格，如果待识别文本中所有商品的价格均是“数字+元”的形式，则可以通过正则表达式的方式进行实体识别，随着语料数量的增加，预设规则之间也有可能发生冲突，使得实体识别的准确度极低。

发明内容

本申请实施例提供一种文本的实体识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高实体识别的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种文本的实体识别方法，包括：

获取待识别文本、以及与所述待识别文本关联的待识别图像；

对所述待识别图像进行编码，得到图像向量，并对所述待识别文本进行编码，得到文本向量；

将所述图像向量和所述文本向量进行模态融合，得到目标多模态向量；

基于所述目标多模态向量对所述待识别文本进行实体识别，得到所述待识别文本中的初始实体；基于所述文本向量对所述待识别文本进行实体识别，得到所述待识别文本中的修正实体；

基于所述修正实体，对所述初始实体进行修正，得到所述待识别文本中的目标实体。

本申请实施例提供一种文本的实体识别装置，包括：

获取模块，用于获取待识别文本、以及与所述待识别文本关联的待识别图像；

编码模块，用于对所述待识别图像进行编码，得到图像向量，并对所述待识别文本进行编码，得到文本向量；

模态融合模块，用于将所述图像向量和所述文本向量进行模态融合，得到目标多模态向量；

实体识别模块，用于基于所述目标多模态向量对所述待识别文本进行实体识别，得到所述待识别文本中的初始实体；基于所述文本向量对所述待识别文本进行实体识别，得到所述待识别文本中的修正实体；

修正模块，用于基于所述修正实体，对所述初始实体进行修正，得到所述待识别文本中的目标实体。

在一些实施例中，所述模态融合通过模态融合网络实现；所述模态融合网络包括第一模态融合网络、第二模态融合网络、第三模态融合网络；上述模态融合模块，还用于调用所述第一模态融合网络，对所述图像向量和所述文本向量进行模态融合，得到第一多模态向量；调用所述第二模态融合网络，对所述图像向量和所述文本向量进行模态融合，得到第二多模态向量；调用所述第三模态融合网络，对所述文本向量和所述第一多模态向量进行模态融合，得到第三多模态向量；对所述第三多模态向量和所述第二多模态向量进行加权融合，得到加权融合向量；将所述加权融合向量和所述第三多模态向量进行向量拼接，得到所述目标多模态向量。

在一些实施例中，所述第一模态融合网络包括多头注意力网络、残差连接网络和前馈神经网络；上述模态融合模块，还用于调用所述多头注意力网络，对所述图像向量及所述文本向量进行模态融合，得到第四多模态向量；调用所述残差连接网络，对所述第四多模态向量和所述图像向量进行残差连接，得到残差连接结果；调用所述前馈神经网络，对所述残差连接结果进行激活处理，得到激活结果；调用所述残差连接网络，对所述激活结果和所述残差连接结果进行残差连接，得到所述第一多模态向量。

在一些实施例中，上述模态融合模块，还用于将所述图像向量确定为所述第一模态融合网络的查询向量，并将所述文本向量分别确定为所述第一模态融合网络的键向量和值向量；调用所述多头注意力网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到所述第四多模态向量；上述模态融合模块，还用于调用所述残差连接网络，对所述第四多模态向量和所述查询向量进行残差连接，得到所述残差连接结果。

在一些实施例中，所述第二模态融合网络、所述第三模态融合网络和所述第一模态融合网络的网络结构相同；上述模态融合模块，还用于将所述文本向量确定为第二模态融合网络的查询向量，将所述图像向量分别确定为所述第二模态融合网络的键向量和值向量；调用所述第二模态融合网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到第二多模态向量；上述模态融合模块，还用于将所述文本向量确定为第三模态融合网络的查询向量，将所述第一多模态向量分别确定为所述第三模态融合网络的键向量和值向量；调用所述第三模态融合网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到第三多模态向量。

在一些实施例中，上述模态融合模块，还用于获取所述第三多模态向量的第一权重矩阵，以及所述第二多模态向量的第二权重矩阵；将所述第三多模态向量和所述第一权重矩阵相乘，得到第一乘积结果；将所述第二多模态向量和所述第二权重矩阵相乘，得到第二乘积结果；将所述第一乘积结果和所述第二乘积结果进行加和，得到加和结果；对所述加和结果进行归一化处理，得到归一化向量；将所述归一化向量和所述第二多模态向量相乘，得到所述加权融合向量。

在一些实施例中，所述目标多模态向量包括所述待识别文本中的各词对应的词向量，上述实体识别模块，还用于针对所述待识别文本中的各词对应的词向量分别执行以下处理：基于所述词向量，对所述词进行实体类别预测，得到所述词分别对应各类别的初始类别概率值；将最大的所述初始类别概率值所对应的类别，确定为所述词对应的初始类别；当所述初始类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的初始实体。

在一些实施例中，所述文本向量包括所述待识别文本中的各词对应的词文本向量，上述实体识别模块，还用于针对所述待识别文本中的各词对应的词文本向量分别执行以下处理：基于所述词文本向量，对所述词进行实体类别预测，得到所述词分别对应各类别的修正类别概率值；将最大的所述修正类别概率值所对应的类别，确定为所述词对应的修正类别；当所述修正类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的修正实体。

在一些实施例中，所述修正实体及所述初始实体的数量均为至少一个，所述修正模块，还用于针对各所述修正实体分别执行以下处理：将所述修正实体分别与各所述初始实体进行对比，得到对比结果，其中，所述对比结果，用于表征在所述至少一个初始实体中，是否存在与所述修正实体相同的初始实体；响应于所述对比结果表征存在与所述修正实体相同的初始实体，将与所述修正实体相同的初始实体，确定为所述待识别文本中的候选实体；响应于所述对比结果表征不存在与所述修正实体相同的初始实体，将所述词文本向量和所述词向量进行拼接，得到拼接向量；基于所述拼接向量对所述待识别文本进行实体识别，得到所述待识别文本中的候选实体；调用实体知识图谱，对所述候选实体进行实体消歧，得到所述待识别文本中的目标实体。

在一些实施例中，所述拼接向量包括所述待识别文本中的各词对应的词拼接向量，所述修正模块，还用于针对所述待识别文本中的各词对应的词拼接向量分别执行以下处理：基于所述词拼接向量，对所述词进行实体类别预测，得到所述词分别对应各类别的目标类别概率值；将最大的所述目标类别概率值所对应的类别，确定为所述词对应的目标类别；当所述目标类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的候选实体。

在一些实施例中，上述编码模块，还用于确定所述待识别文本中各词对应的上下文向量、词向量和位置向量；将所述上下文向量、所述词向量和所述位置向量进行求和，得到融合向量；对所述融合向量进行编码，得到所述文本向量；上述编码模块，还用于获取所述文本向量的维度，并基于所述文本向量的维度，对所述待识别图像进行尺寸变换，得到标准图像；对所述标准图像进行编码，得到与所述文本向量维度相同的图像向量。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的文本的实体识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的文本的实体识别方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的文本的实体识别方法。

本申请实施例具有以下有益效果：

通过结合待识别文本以及与待识别文本关联的待识别图像，确定目标多模态向量，基于目标多模态向量对待识别文本进行实体识别，从而准确确定出待识别文本中的初始实体，由于所确定的初始实体综合考虑了与待识别文本关联的待识别图像，待识别图像的语义信息辅助对待识别文本进行实体识别，从而有效提高了所确定的初始实体的准确度。同时，通过基于文本向量对待识别文本进行实体识别，得到修正实体，通过修正实体对结合了待识别图像的语义信息的初始实体进行修正，得到待识别文本中的目标实体。一方面，通过结合关联的待识别图像进行实体识别，从而有效提高实体识别的准确度；一方面，通过修正实体，对初始实体可能存在的识别错误进行修正，得到目标实体，从而进一步提高了实体识别的准确度。

附图说明

图1是本申请实施例提供的文本的实体识别系统架构的结构示意图；

图2是本申请实施例提供的文本的实体识别装置的结构示意图；

图3A至图3E是本申请实施例提供的文本的实体识别方法的流程示意图；

图4A至图4D是本申请实施例提供的文本的实体识别方法的原理示意图；

图4E是本申请实施例提供的文本的实体识别方法的效果示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

2)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feed forward Neural Networks)，是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力，能够按其阶层结构对输入图像进行平移不变分类(Shift-InvariantClassification)。

3)条件随机场(Conditional Random Field，CRF)：是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。条件随机场是条件概率分布模型P(Y|X)，表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场，也就是说CRF的特点是假设输出随机变量构成马尔可夫随机场。条件随机场可被看作是最大熵马尔可夫模型在标注问题上的推广。

4)命名实体识别(Named Entity Recognition，NER)：是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

5)自注意力网络(Self-Attention)：是一种注意力机制，自注意力机制用于关注整个输入中不同部分之间的相关性。

6)自然语言处理(Nature Language processing，NLP)：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

7)前馈神经网络(Feed Forward Neural Network，FFN)：是一种人工神经网络，前馈神经网络的各神经元分层排列，每个神经元只与前一层的神经元相连，每一层通过接收前一层的输出，并输出给下一层，各层间没有反馈。前馈神经网络包括感知器网络、BP网络、RBF网络。其中，感知器网络是最简单的前馈网络，它主要用于模式分类，也可用在基于模式分类的学习控制和多模态控制中。感知器网络可分为单层感知器网络和多层感知器网络。BP网络是指连接权调整采用了反向传播(Back Propagation)学习算法的前馈网络。与感知器不同之处在于，BP网络的神经元变换函数采用了S形函数(Sigmoid函数)，因此输出量是0～1之间的连续量，可实现从输入到输出的任意的非线性映射。RBF网络是指隐含层神经元由RBF神经元组成的前馈网络。RBF神经元是指神经元的变换函数为RBF(Radial BasisFunction，径向基函数)的神经元。典型的RBF网络由三层组成：一个输入层，一个或多个由RBF神经元组成的RBF层(隐含层)，一个由线性神经元组成的输出层。

8)残差连接网络(Residual Network，Res Net)：又称残差网络，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

9)长短期记忆网络(Long Short-Term Memory，LSTM)：是一种时间循环神经网络，是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的，所有的循环神经网络都具有一种重复神经网络模块的链式形式。在标准循环神经网络中，这个重复的结构模块只有一个非常简单的结构。

在本申请实施例的实施过程中，申请人发现相关技术存在以下问题：

命名实体识别(Named Entity Recognition，NER)是信息提取的子任务，可以将文本中的命名实体定位并分类为预先定义的类别，如人员、组织、位置、时间表达式、数量、百分比等。

在命名实体识别的相关技术中，通常是直接对待识别文本进行实体识别，从而确定出待识别文本中的实体。对于待识别文本中有特殊上下文的实体，或者实体本身有多重特征的文本，使用预先制定的规则对待识别文本进行实体识别，例如，识别文本中的物品价格，如果待识别文本中所有商品的价格均是“数字+元”的形式，则可以通过正则表达式的方式进行抽取，这样，随着语料数量的增加，面对的情况也会更加复杂，预设规则之间也有可能发生冲突，整个识别系统也有可能变得不可维护，因此，这种实体识别方式普适性较差，且识别准确度极低。

本申请实施例提供一种文本的实体识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高实体识别的准确度，下面说明本申请实施例提供的文本的实体识别设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。

参见图1，图1是本申请实施例提供的文本的实体识别系统100的架构示意图，为实现实体识别的应用场景，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于供用户使用客户端410，在图形界面410-1(示例性示出了图形界面410-1)显示。终端400和服务器200通过有线或者无线网络相互连接。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，服务器200从终端400获取待识别文本，并确定待识别文本中的目标实体，将所确定的目标实体发送到终端400。

在另一些实施例中，终端400获取待识别文本，并确定待识别文本中的目标实体，将所确定的目标实体发送至服务器200。

在另一些实施例中，本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

参见图2，图2是本申请实施例提供的文本的实体识别方法的服务器200的一种结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他电子设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的文本的实体识别装置可以采用软件方式实现，图2示出了存储在存储器250中的文本的实体识别装置255，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2551、编码模块2552、模态融合模块2553、实体识别模块2554、修正模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的文本的实体识别装置可以采用硬件方式实现，作为示例，本申请实施例提供的文本的实体识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的文本的实体识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本申请实施例提供的服务器或终端的示例性应用和实施，说明本申请实施例提供的文本的实体识别方法。

参见图3A，图3A是本申请实施例提供的文本的实体识别方法的流程示意图，将结合图3A示出的步骤101至步骤105进行说明，下述步骤101至步骤105的执行主体可以是服务器或终端，下面将以执行主体为服务器为例进行说明。

在步骤101中，获取待识别文本、以及与待识别文本关联的待识别图像。

在一些实施例中，在影音视频的应用场景中，待识别文本可以是待播放视频的完整字幕文本，与待识别文本关联的待识别图像可以是待播放视频的每个图像帧。那么一个待识别图像可以对应待识别文本中的至少一个句子，即视频画面中存在字幕。一个待识别图像也可以不对应待识别文本，即视频画面中不存在字幕。待识别文本中的每个句子，对应至少一个待识别图像，即视频中的每句字幕，存在与字幕关联的待识别图像。

作为示例，所获取的待识别文本为“小明：你吃饭了吗；小章：我刚吃完饭”，与待识别文本关联的待识别图像可以为图像1和图像2，那么，图像1可以是与待识别文本的句子“小明：你吃饭了吗”关联的待识别图像，图像2可以是与待识别文本中的句子“小章：我刚吃完饭”关联的待识别图像，图像1的画面内容中包括小明，图像2的画面内容中包括小章。

在一些实施例中，在手机软件(APP，Application)的应用场景中，例如，在新闻APP的应用场景中，待识别文本可以是新闻APP中的任意一条新闻文本内容，与待识别文本关联的待识别图像可以是与新闻文本内容对应的新闻画面。那么一个待识别图像可以对应待识别文本中的至少一个句子，即新闻画面与新闻文本内容的至少一个句子呼应，从而有效提升新闻的可读性。

作为示例，所获取的待识别文本为“今日天气晴朗，游人纷纷出行；明日多云转大雨，建议出门带伞”，与待识别文本关联的待识别图像可以为图像3和图像4，那么，图像3可以是与待识别文本的句子“今日天气晴朗，游人纷纷出行”关联的待识别图像，图像4可以是与待识别文本中的句子“明日多云转大雨，建议出门带伞”关联的待识别图像，图像3的画面内容表征天气晴朗，图像4的画面内容表征有雨。

在步骤102中，对待识别图像进行编码，得到图像向量，并对待识别文本进行编码，得到文本向量。

在一些实施例中，图像向量是待识别图像的向量表示，文本向量是待识别文本的向量表示。

在一些实施例中，上述步骤102中对待识别文本进行编码，得到文本向量可以通过如下方式实现：确定待识别文本中各词对应的上下文向量、词向量和位置向量；将上下文向量、词向量和位置向量进行求和，得到融合向量；对融合向量进行编码，得到文本向量。

在一些实施例中，词对应的上下文向量表征该词的上下文的语义信息，通过上下文向量，可以准确表示待识别文本中的每个词的上下文的语义信息。

作为示例，在文本中，一个词可能具有多种不同的语义，结合上下文才能准确的识别出该词的语义，例如，一个词“天”在不同的上下文中的语义不同，上下文为“天地人和”，和上下文为“天啊”，词“天”的语义完全不同。

在一些实施例中，词对应的词向量表征该词自身的语义信息，词对应的位置向量表征该词在待识别文本中的相对位置，例如，当待识别文本为“小章是个胖乎乎的小伙子”时，词“小”在待识别文本中的位置为第9个。

在一些实施例中，上述对融合向量进行编码，得到文本向量可以通过如下方式实现：调用双向编码网络，对融合向量进行编码，得到文本向量。

作为示例，参见图4A，图4A是本申请实施例提供的文本的实体识别方法的原理示意图，图4A所示出的待识别文本为“文章好......美”，待识别文本中各词对应的上下文向量为：E₀，E₁，E_e，E₃......E_n，E_n+1；待识别文本中各词对应的词向量为：E_[cls]，E_Kevin，E_Durant，E_enters......E_Jordan，E_[SEP]；待识别文本中各词对应的位置向量为：E_A，E_A，E_A，E_A......E_A，E_A。

作为示例，参见图4A，将上下文向量：E₀，E₁，E₂，E₃......E_n，E_n+1、词向量：E_[cls]，E_Kevin，E_Durant，E_enters......E_Jordan，E_[SEP]和位置向量：E_A，E_A，E_A，E_A......E_A，E_A进行求和，得到融合向量；调用双向编码网络，对融合向量进行编码，得到文本向量：c₀，c₁，c₂，c₃......c_n，c_n+1。

在一些实施例中，双向编码网络(Bidirectional Encoder RepresentationsFrom Transformer，BERT)可以是一种预训练的语言表征模型，其不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的掩码语言模型(Masked Language Model，MLM)，以致能生成深度的双向语言表征。双向编码网络的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的结果，即：文本的语义表示。

在一些实施例中，上述步骤102中对待识别图像进行编码，得到图像向量可以通过如下方式实现：获取文本向量的维度，并基于文本向量的维度，对待识别图像进行尺寸变换，得到标准图像；对标准图像进行编码，得到与文本向量维度相同的图像向量。

在一些实施例中，向量的维度是指该向量包括的分量的个数，文本向量的维度表征文本向量包括的分量的个数，由于图像向量的维度受图像尺寸的影响，因此，若要得到与文本向量维度相同的图像向量，可以对待识别图像进行尺寸变换，得到标准图像，对标准图像进行编码，得到与文本向量维度相同的图像向量。

在一些实施例中，上述对标准图像进行编码，得到与文本向量维度相同的图像向量可以通过如下方式实现：调用卷积神经网络，对标准图像进行编码，得到与文本向量维度相同的图像向量。

作为示例，参见图4B，图4B是本申请实施例提供的文本的实体识别方法的原理示意图，调用卷积神经网络，对标准图像进行编码，得到与文本向量维度相同的图像向量：V₁，V₂......V_n+1。

在一些实施例中，卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feed Forward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力，能够按其阶层结构对输入信息进行平移不变分类(Shift-InvariantClassification)。

在一些实施例中，可以直接对完整的待识别文本和匹配的至少一幅待识别图像进行编码，得到图像向量以及文本向量。这样，使得实体识别效率较高，可以直接得到实体识别结果，但是由于无法做到一张图像和至少一个句子的准确对应，使得精度可能会不够高。

在一些实施例中，可以对完整的待识别文本中的单个句子以及与句子匹配的待识别图像进行编码，得到每个句子的图像向量以及文本向量。这样，由于每个句子都要单独进行一次处理，使得实体识别效率会比较低，而且不同的句子可能会对应同一张图像，同一张图像存在重复执行的情况，效率自然会低。但是，由于每个句子均会准确对应一幅待识别图像，会使得识别精度相对较高。算法的运算次数，等于待识别文本中句子的数量，若待识别图像的数量大于待识别文本中句子的数量，采用这种处理方式，能够在有效保证高识别精度的同时，兼顾算法的执行效率。

在一些实施例中，可以通过确定每幅待识别图像匹配的待识别文本中的至少一个句子，对匹配的至少一个句子和该幅待识别图像进行编码，得到至少一个句子对应的图像向量以及文本向量。这样，编码的运算次数，等于图片的数量，在待识别图像的数量少于句子的数量时，采用这种处理方式，能够在有效保证高识别精度的同时，兼顾算法的执行效率。

如此，对于不同的场景下，待识别文本的句子的数量和待识别图像的数量具有不同的大小关系，因此，本申请实施例针对不同的场景下，对待识别文本和待识别图像采用不同的处理方式，在待识别图像的数量少于句子的数量时，对匹配的至少一个句子和该幅待识别图像进行编码；在待识别图像的数量大于待识别文本中句子的数量时，对完整的待识别文本中的单个句子以及与句子匹配的待识别图像进行编码，从而在不同的使用场景下，能够在有效保证高识别精度的同时，兼顾算法的执行效率。

在步骤103中，将图像向量和文本向量进行模态融合，得到目标多模态向量。

在一些实施例中，上述步骤103可以通过如下方式实现：调用自注意力网络对文本向量进行转换处理，得到文本向量的隐藏向量；将图像向量和文本向量进行模态融合，得到目标多模态向量。

在一些实施例中，多模态向量具有至少两种模态，多模态向量可以整合不同的模态，例如，视觉模态、听觉模态、触觉模态等，因此，多模态向量不仅可以传达文本向量的语言文本信息，还可以将文本向量的语言文本信息中隐藏的多模态信息挖掘出来。

作为示例，参见图4C，图4C是本申请实施例提供的文本的实体识别方法的原理示意图，调用自注意力网络对文本向量(c₀，c₁，c₂，c₃......c_n，c_n+1)进行转换处理，得到文本向量的隐藏向量(r₀，r₁，r₂，r₃......r_n，r_n+1)；将图像向量(V₁，V₂......V_n+1)和隐藏向量(r₀，r₁，r₂，r₃......r_n，r_n+1)进行模态融合，得到目标多模态向量。

在一些实施例中，模态融合通过如图4D所示出的模态融合网络实现，模态融合网络用于将图像向量和文本向量进行融合，得到多模态向量(h₀，h₁，h₂，h₃......h_n，h_n+1)；图4D所示出的模态融合网络包括第一模态融合网络41、第二模态融合网络42、第三模态融合网络43，其中，第一模态融合网络41、第二模态融合网络42和第三模态融合网络43的网络结构相同，网络输入不同。

在一些实施例中，参见图3B，图3B是本申请实施例提供的文本的实体识别方法的流程示意图，图3B所示出的步骤103可以通过执行以下步骤1031至步骤1035实现。

在步骤1031中，调用第一模态融合网络，对图像向量和文本向量进行模态融合，得到第一多模态向量。

在一些实施例中，上述第一模态融合网络用于对图像向量和文本向量进行模态融合，其中，模态融合是指不同的模态之间融合的过程，例如，文本向量为文本模态，图像向量为图像模态，通过模态融合后的第一多模态向量具有图像和文本两个模态的信息。

作为示例，参见图4D，调用第一模态融合网络41，对图像向量(V₁，V₂......V_n+1)和文本向量的隐藏向量(r₀，r₁，r₂，r₃......r_n，r_n+1)进行模态融合，得到第一多模态向量(p₁，p₂......p_n+1)。

在一些实施例中，第一模态融合网络包括多头注意力网络、残差连接网络和前馈神经网络。

在一些实施例中，参见图3C，图3C是本申请实施例提供的文本的实体识别方法的流程示意图，图3C所示出的步骤1031可以通过执行以下步骤10311至步骤10314实现。

在步骤10311中，调用多头注意力网络，对图像向量及文本向量进行模态融合，得到第四多模态向量。

在一些实施例中，多头注意力网络用于将不同模态的向量进行融合，多头注意力网络的表达式可以为：

MH-CA(V，R)＝W‘[CA₁(V，R)，...，CA_m(V，R)]^T (1)

其中，MH-CA(V，R)表征第一模态融合网络的多头注意力网络，CA₁表征第一个交叉模态的自注意力，CA_m表征第二个交叉模态的自注意力，W‘表征权重矩阵。

在一些实施例中，第i个交叉模态的自注意力可以表示为：

其中，CA_i表征第i个交叉模态的自注意力，

表征权重矩阵，R表征隐藏向量，m表征交叉模态的自注意力的数量，d表征隐藏向量中子向量的个数。

在一些实施例中，上述步骤10311可以通过如下方式实现：将图像向量确定为第一模态融合网络的查询向量，并将文本向量分别确定为第一模态融合网络的键向量和值向量；调用多头注意力网络，对查询向量、键向量和值向量进行模态融合，得到第四多模态向量。

作为示例，参见图4D，将图像向量(V₁，V₂......V_n+1)确定为第一模态融合网络41的查询向量(Query，Q)，并将文本向量的隐藏向量(r₀，r₁，r₂，r₃......r_n，r_n+1)分别确定为第一模态融合网络41的键向量(Key，K)和值向量(Value，V)；调用多头注意力网络，对查询向量(Q)、键向量(K)和值向量(V)进行模态融合，得到第四多模态向量。

在步骤10312中，调用残差连接网络，对第四多模态向量和图像向量进行残差连接，得到残差连接结果。

在一些实施例中，残差连接网络用于对残差连接网络的输入进行残差连接，得到残差连接结果，其中，残差连接包括残差加和以及横向规范化(Layer Normalization)，残差加和用于使残差连接网络关注当前差异，横向规范化用于加快残差连接网络的收敛。

在一些实施例中，横向规范化的表达式可以为：

P＝LN(MH-CA(V，R)) (3)

其中，P表征横向规范化结果，MH-CA(V，R)表征表征第一模态融合网络的多头注意力网络，LN表征横向规范化。

在一些实施例中，上述步骤10312可以通过如下方式实现：调用残差连接网络，对第四多模态向量和查询向量进行残差连接，得到残差连接结果。

作为示例，参见图4D，调用第一模态融合网络41的残差连接网络，对第四多模态向量和第一模态融合网络41的查询向量(Q)进行残差连接，得到残差连接结果。

在步骤10313中，调用前馈神经网络，对残差连接结果进行激活处理，得到激活结果。

在一些实施例中，前馈神经网络用于提升第一模态融合网络的表达能力，前馈神经网络可以通过非线性激活函数实现，非线性激活函数用于对残差连接结果进行激活处理。

在一些实施例中，前馈神经网络中的各神经元分层排列，每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层，各层间没有反馈。

在步骤10314中，调用残差连接网络，对激活结果和残差连接结果进行残差连接，得到第一多模态向量。

作为示例，参见图4D，调用第一模态融合网络41的残差连接网络，对激活结果411和残差连接结果412进行残差连接，得到第一多模态向量(p₀，p₁，p₂，p₃......p_n，p_n+1)。

在步骤1032中，调用第二模态融合网络，对图像向量和文本向量进行模态融合，得到第二多模态向量。

在一些实施例中，第二模态融合网络和第一模态融合网络的网络结构相同。上述步骤1032可以通过如下方式实现：将文本向量确定为第二模态融合网络的查询向量，将图像向量分别确定为第二模态融合网络的键向量和值向量；调用第二模态融合网络，对查询向量、键向量和值向量进行模态融合，得到第二多模态向量。

作为示例，参见图4D，将文本向量的隐藏向量(r₀，r₁，r₂，r₃......r_n，r_n+1)确定为第二模态融合网络42的查询向量(Q)，将图像向量(V₁，V₂......V_n+1)分别确定为第二模态融合网络42的键向量(K)和值向量(V)；调用第二模态融合网络42，对查询向量(Q)、键向量(K)和值向量(V)进行模态融合，得到第二多模态向量。

在一些实施例中，第二模态融合网络包括多头注意力网络、残差连接网络和前馈神经网络；上述调用第二模态融合网络，对查询向量、键向量和值向量进行模态融合，得到第二多模态向量，可以通过如下方式实现：调用多头注意力网络，对查询向量、键向量和值向量进行模态融合，得到第五多模态向量；调用残差连接网络，对第五多模态向量和查询向量进行残差连接，得到残差连接结果；调用前馈神经网络，对残差连接结果进行激活处理，得到激活结果；调用残差连接网络，对激活结果和残差连接结果进行残差连接，得到第二多模态向量。

作为示例，参见图4D，第二模态融合网络42包括多头注意力网络、残差连接网络和前馈神经网络；上述调用第二模态融合网络42，对查询向量(Q)、键向量(K)和值向量(V)进行模态融合，得到第二多模态向量(q₀，q₁，q₂，q₃......q_n，q_n+1)，可以通过如下方式实现：调用多头注意力网络，对查询向量(Q)、键向量(K)和值向量(V)进行模态融合，得到第五多模态向量423；调用残差连接网络，对第五多模态向量423和查询向量(Q)进行残差连接，得到残差连接结果422；调用前馈神经网络，对残差连接结果422进行激活处理，得到激活结果421；调用残差连接网络，对激活结果421和残差连接结果422进行残差连接，得到第二多模态向量(q₀，q₁，q₂，q₃......q_n，q_n+1)。

在步骤1033中，调用第三模态融合网络，对文本向量和第一多模态向量进行模态融合，得到第三多模态向量。

作为示例，参见图4D，调用第三模态融合网络43，对文本向量的隐藏向量(r₀，r₁，r₂，r₃......r_n，r_n+1)和第一多模态向量(q₀，q₁，q₂，q₃......q_n，q_n+1)进行模态融合，得到第三多模态向量(a₀，a₁，a₂，a₃......a_n，a_n+1)。

在一些实施例中，第三模态融合网络和第一模态融合网络的网络结构相同。上述步骤1033可以通过如下方式实现：将文本向量确定为第三模态融合网络的查询向量，将第一多模态向量分别确定为第三模态融合网络的键向量和值向量；调用第三模态融合网络，对查询向量、键向量和值向量进行模态融合，得到第三多模态向量。

作为示例，参见图4D，将文本向量的隐藏向量(r₀，r₁，r₂，r₃......r_n，r_n+1)确定为第三模态融合网络43的查询向量(Q)，将第一多模态向量(q₀，q₁，q₂，q₃......q_n，q_n+1)分别确定为第三模态融合网络43的键向量(K)和值向量(V)；调用第三模态融合网络43，对查询向量(Q)、键向量(K)和值向量(V)进行模态融合，得到第三多模态向量(a₀，a₁，a₂，a₃......a_n，a_n+1)。

在一些实施例中，第三模态融合网络包括多头注意力网络、残差连接网络和前馈神经网络；上述调用第三模态融合网络，对查询向量、键向量和值向量进行模态融合，得到第三多模态向量，可以通过如下方式实现：调用多头注意力网络，对查询向量、键向量和值向量进行模态融合，得到第六多模态向量；调用残差连接网络，对第六多模态向量和查询向量进行残差连接，得到残差连接结果；调用前馈神经网络，对残差连接结果进行激活处理，得到激活结果；调用残差连接网络，对激活结果和残差连接结果进行残差连接，得到第三多模态向量。

作为示例，参见图4D，第三模态融合网络43包括多头注意力网络、残差连接网络和前馈神经网络；上述调用第三模态融合网络43，对查询向量、键向量和值向量进行模态融合，得到第三多模态向量(a₀，a₁，a₂，a₃......a_n，a_n+1)，可以通过如下方式实现：调用多头注意力网络，对查询向量、键向量和值向量进行模态融合，得到第六多模态向量433；调用残差连接网络，对第六多模态向量433和查询向量(Q)进行残差连接，得到残差连接结果432；调用前馈神经网络，对残差连接结果432进行激活处理，得到激活结果431；调用残差连接网络，对激活结果431和残差连接结果432进行残差连接，得到第三多模态向量(a₀，a₁，a₂，a₃......a_n，a_n+1)。

在步骤1034中，对第三多模态向量和第二多模态向量进行加权融合，得到加权融合向量。

在一些实施例中，加权融合包括相乘、加和以及归一化处理。

在一些实施例中，参见图3D，图3D是本申请实施例提供的文本的实体识别方法的流程示意图，图3D所示出的步骤1034可以通过执行以下步骤10341至步骤10345实现。

在步骤10341中，获取第三多模态向量的第一权重矩阵，以及第二多模态向量的第二权重矩阵。

作为示例，第三多模态向量的第一权重矩阵可以表示为：

第二多模态向量的第二权重矩阵：

在步骤10342中，将第三多模态向量和第一权重矩阵相乘，得到第一乘积结果；将第二多模态向量和第二权重矩阵相乘，得到第二乘积结果。

作为示例，第一乘积结果的表达式可以为：

其中，G₁表征第一乘积结果，

表征第一权重矩阵，A表征第三多模态向量。

作为示例，第二乘积结果的表达式可以为：

其中，G₂表征第二乘积结果，

表征第二权重矩阵，Q表征第二多模态向量。

在步骤10343中，将第一乘积结果和第二乘积结果进行加和，得到加和结果。

作为示例，加和结果的表达式可以为：

在步骤10344中，对加和结果进行归一化处理，得到归一化向量。

在一些实施例中，归一化处理，用于通过视觉检测(Visual Gate)机制动态的控制待识别文本的特征与待识别图像的特征之间的对应关系，视觉检测机制通过视觉检测函数实现。

作为示例，归一化向量的表达式可以为：

其中，g表征归一化向量，G₃和

表征加和结果，

表征第二权重矩阵，Q表征第二多模态向量，

表征第一权重矩阵，A表征第三多模态向量，σ表征视觉检测函数。

在步骤10345中，将归一化向量和第二多模态向量相乘，得到加权融合向量。

作为示例，加权融合向量的表达式可以为：

B＝gQ＝(b₀，b₁，......，b_n+1) (8)

其中，B和(b₀，b₁，......，b_n+1)表征加权融合向量，Q表征第二多模态向量，g表征归一化向量，b₀至b_n+1表征加权融合向量中的各个分量。

在步骤1035中，将加权融合向量和第三多模态向量进行向量拼接，得到目标多模态向量。

作为示例，参见图4D，将加权融合向量(b₀，b₁，......，b_n+1)和第三多模态向量(a₀，a₁，a₂，a₃......a_n，a_n+1)进行向量拼接，得到目标多模态向量(h₀，h₁，h₂，h₃......h_n，h_n+1)。

如此，通过本申请实施例提供的第一模态融合网络、第二模态融合网络和第三模态融合网络，对文本向量和图像向量进行多个不同角度的融合，使得所得到的多模态向量，充分融合了待识别图像和待识别文本的特征，为后续精准的进行实体识别提供的有力的数据支撑。

在步骤104中，基于目标多模态向量对待识别文本进行实体识别，得到待识别文本中的初始实体；基于文本向量对待识别文本进行实体识别，得到待识别文本中的修正实体。

在一些实施例中，实体识别(Named Entity Recognition，NER)是一种信息提取技术，用于从待识别文本中获取包括人名、地名、角色名、演员名等实体。

在一些实施例中，上述目标多模态向量包括待识别文本中的各词对应的词向量，上述步骤104中，基于目标多模态向量对待识别文本进行实体识别，得到待识别文本中的初始实体，可以通过针对待识别文本中的各词对应的词向量分别执行处理实现：基于词向量，对词进行实体类别预测，得到词分别对应各类别的初始类别概率值；将最大的初始类别概率值所对应的类别，确定为词对应的初始类别；当初始类别表征词是命名实体时，获取命名实体的实体类别，将词确定为待识别文本中对应实体类别的初始实体。

在一些实施例中，上述实体类别预测可以通过鉴别式概率模型实现，鉴别式概率模型是一种条件随机场(Conditional Random Field，CRF)，用于标注或分析序列资料，条件随机场是无向量图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场当中，随机变量的分布为条件概率，给定的观察值则为随机变量，原则上，条件随机场的图模型布局可以是任意给定的，一般常用的布局是链结式的架构。通过条件随机场对词进行预测，可以确定词分别对应各类别的初始类别概率值。

在一些实施例中，类别可以包括实体类别和非实体类别，在通过条件随机场确定词的类别是非实体类别时，表征该词不是命名实体。在通过条件随机场确定词的类别是实体类别时，表征该词是命名实体。

在一些实施例中，实体类别可以包括人名实体类别、机构实体类别、音乐名实体类别等等。

作为示例，参见图4C，基于词向量E₁，对词进行实体类别预测，得到词分别对应各类别的初始类别概率值(例如，该词对应非实体类别O的概率为0.1，该词对应实体类别的概率为0.9)；将最大的初始类别概率值0.9所对应的类别(实体类别)，确定为该词对应的初始类别；当初始类别表征词是命名实体时(该词对应人名实体类别的概率为0.5，该词对应机构实体类别的概率为0.1，该词对应音乐名实体类别的概率为0.2)(人名实体类别是命名实体)，获取命名实体的实体类别(人名实体类别)，将词确定为待识别文本中对应实体类别(人名实体类别)的初始实体。

作为示例，参见图4C，基于词向量E₃，对词进行实体类别预测，得到词分别对应各类别的初始类别概率值(例如，该词对应非实体类别O的概率为0.9，该词对应实体类别的概率为0.1)；将最大的初始类别概率值0.9所对应的类别(非实体类别)，确定为该词对应的初始类别；当初始类别表征词不是命名实体时，不将该词确定为待识别文本中的初始实体。

在一些实施例中，上述文本向量包括待识别文本中的各词对应的词文本向量，上述步骤104中基于文本向量对待识别文本进行实体识别，得到待识别文本中的修正实体，可以针对待识别文本中的各词对应的词文本向量分别执行以下处理实现：基于词文本向量，对词进行实体类别预测，得到词分别对应各类别的修正类别概率值；将最大的修正类别概率值所对应的类别，确定为词对应的修正类别；当修正类别表征词是命名实体时，获取命名实体的实体类别，将词确定为待识别文本中对应实体类别的修正实体。

作为示例，参见图4C，基于词文本向量F₁，对词进行实体类别预测，得到词分别对应各类别的修正类别概率值(例如，该词对应非实体类别O的修正类别概率为0.1，该词对应实体类别的修正类别概率为0.9)；将最大的修正类别概率值0.9所对应的类别(实体类别)，确定为该词对应的修正类别；当修正类别表征词是命名实体时(该词对应人名实体类别的概率为0.5，该词对应机构实体类别的概率为0.1，该词对应音乐名实体类别的概率为0.2)(人名实体类别是命名实体)，获取命名实体的实体类别(人名实体类别)，将词确定为待识别文本中对应实体类别(人名实体类别)的修正实体。

作为示例，参见图4C，基于词向量F₃，对词进行实体类别预测，得到词分别对应各类别的修正类别概率值(例如，该词对应非实体类别O的概率为0.9，该词对应实体类别的概率为0.1)；将最大的修正类别概率值0.9所对应的类别(非实体类别)，确定为该词对应的修正类别；当修正类别表征词不是命名实体时，不将该词确定为待识别文本中的修正实体。

如此，分别基于词文本向量和词向量，对词进行实体类别预测，对应得到待识别文本中对应实体类别的修正实体和初始实体，由于词向量融合了待识别图像的特征，从而基于词向量所得到的初始实体有效结合了待识别图像的特征，从而使得初始实体的准确率较高。

在步骤105中，基于修正实体，对初始实体进行修正，得到待识别文本中的目标实体。

在一些实施例中，由于基于词向量所得到的初始实体，引入的待识别图像的视觉特征会对初始实体的结果的确定产生偏移，所以，通过基于词文本向量所确定的修正实体，来减少由于引入视觉特征而产生的偏移，从而能够有效提高所确定的待识别文本中的目标实体的准确率。

在一些实施例中，修正实体及初始实体的数量均为至少一个，参见图3E，图3E是本申请实施例提供的文本的实体识别方法的流程示意图，图3E所示出的步骤105可以针对各修正实体分别执行以下步骤1051至步骤1055实现。

在步骤1051中，将修正实体分别与各初始实体进行对比，得到对比结果。

在一些实施例中，对比结果，用于表征在至少一个初始实体中，是否存在与修正实体相同的初始实体。

作为示例，将修正实体11分别与初始实体21、初始实体22、初始实体23、初始实体24、初始实体25进行对比，得到对比结果，例如，对比结果表征修正实体11与初始实体24相同。

在步骤1052中，响应于对比结果表征存在与修正实体相同的初始实体，将与修正实体相同的初始实体，确定为待识别文本中的候选实体。

作为示例，响应于对比结果表征存在与修正实体11相同的初始实体，将与修正实体11相同的初始实体24，确定为待识别文本中的候选实体。

在步骤1053中，响应于对比结果表征不存在与修正实体相同的初始实体，将词文本向量和词向量进行拼接，得到拼接向量。

在一些实施例中，拼接是指两个同维度的向量进行拼接的过程。

作为示例，响应于对比结果表征不存在与修正实体相同的初始实体，将词文本向量和词文本向量进行拼接，得到拼接向量。

在步骤1054中，基于拼接向量对待识别文本进行实体识别，得到待识别文本中的候选实体。

在一些实施例中，拼接向量包括待识别文本中的各词对应的词拼接向量，上述步骤1054可以针对待识别文本中的各词对应的词拼接向量分别执行以下处理实现：基于词拼接向量，对词进行实体类别预测，得到词分别对应各类别的目标类别概率值；将最大的目标类别概率值所对应的类别，确定为词对应的目标类别；当目标类别表征词是命名实体时，获取命名实体的实体类别，将词确定为待识别文本中对应实体类别的候选实体。

在步骤1055中，调用实体知识图谱，对候选实体进行实体消歧，得到待识别文本中的目标实体。

在一些实施例中，实体知识图谱是显示实体知识发展进程和结构关系的一系列各种不同的图形，实体知识图谱包括三种节点：实体节点、概念节点和属性节点，其中，实体节点是指具有可区别性且独立存在的事物，例如，某一个人、某一座城市、某一种植物和某一件商品等，实体节点是知识图谱中最基本的元素，不同的实体节点之间存在着不同的关系。概念节点是指具有相同特性的实体节点构成的集合，特性包括书籍、人名等。属性节点是用于区分概念节点的特征，不同的概念节点具有不同的属性，不同的属性值类型对应于不同类型属性的边；当属性值对应的概念节点或实体节点，则属性节点用于描述两个实体节点之间的关系，称为对象属性；当属性值对应的是具体的数值，则称为数据属性。实体知识图谱，用于描述实体和实体之间的关系。

作为示例，实体知识图谱包括人名实体知识图谱，人名实体知识图谱包括姓氏实体知识图谱、名字实体知识图谱、前缀实体知识图谱(例如，前缀实体包括老王、小李)、后缀实体知识图谱(例如，后缀实体包括王老、章总)。

在一些实施例中，上述步骤1055可以通过如下方式实现：将候选实体与实体知识图谱中的各实体进行对比，确定实体知识图谱中与候选实体相同的匹配实体。在实体知识图谱中获取匹配实体的匹配实体类型，将匹配实体类型与候选实体的实体类型进行对比；响应于对比结果表征匹配实体类型与候选实体的实体类型相同，将候选实体的实体类型确定为待识别文本中的目标实体的实体类型；响应于对比结果表征匹配实体类型与候选实体的实体类型不同，将匹配实体的实体类型确定为待识别文本中的目标实体的实体类型。

如此，分别基于词文本向量和词向量，对词进行实体类别预测，对应得到待识别文本中对应实体类别的修正实体和初始实体，由于词向量融合了待识别图像的特征，从而基于词向量所得到的初始实体有效结合了待识别图像的特征，从而使得初始实体的准确率较高，同时为了进一步提高初始实体的准确率，通过基于词文本向量确定出的修正实体，进一步对初始实体进行修正，通过实体知识图谱，能够有效消除有歧义的实体类型，从而有效提高了实体识别的准确率。

如此，通过将修正实体分别与各初始实体进行对比，在对比结果表征存在与修正实体相同的初始实体时，则直接将与修正实体相同的初始实体，确定为待识别文本中的候选实体；在对比结果表征不存在与修正实体相同的初始实体时，将词文本向量和词文本向量进行拼接，得到拼接向量，基于拼接向量对待识别文本进行实体识别，得到候选实体。从而，基于不同的对比结果，采用不同的方式确定目标实体，从而有效提高了所确定的目标实体的准确率。

如此，通过结合待识别文本以及与待识别文本关联的待识别图像，确定多模态向量，基于多模态向量对待识别文本进行实体识别，从而准确确定出待识别文本中的初始实体，由于所确定的初始实体综合考虑了与待识别文本关联的待识别图像，待识别图像的语义信息辅助对待识别文本进行实体识别，从而有效提高了所确定的初始实体的准确度。同时，通过基于文本向量对待识别文本进行实体识别，得到修正实体，通过修正实体对结合了待识别图像的语义信息的初始实体进行修正，得到待识别文本中的目标实体。一方面，通过结合关联的待识别图像进行实体识别，从而有效提高实体识别的准确度；一方面，通过修正实体，对初始实体可能存在的识别错误进行修正，得到目标实体，从而进一步提高了实体识别的准确度。

下面，将说明本申请实施例在一个实际的实体识别的应用场景中的示例性应用。

参见图4E，图4E是本申请实施例提供的文本的实体识别方法的效果示意图。图4E所示出的待识别文本为：这个小明，面部更可爱。与待识别文本关联的待识别图像为图4E所示出的一只小猫。通过本申请实施例提供的文本的实体识别方法对图4E所示出的待识别文本：“这个小明，面部更可爱”进行实体识别时，可以结合图4E所示出的待识别图像对待识别文本进行实体识别时，得到待识别文本中的实体“小猫”。通过相关技术中的实体识别方法对图4E所示出的待识别文本：“这个小明，面部更可爱”进行实体识别时，得到待识别文本中的实体“小明”，由于待识别文本中的“小明”实质指代图4E中所示出的小猫，因此，相关技术的实体识别方法所识别出的实体，准确度不高，本申请实施例提供的文本的识别方法能够准确识别出符合待识别文本语义环境的实体，实体识别的准确度更高。

在影音视频的应用场景中，待识别文本可以是待播放视频的完整字幕文本，与待识别文本关联的待识别图像可以是待播放视频的每个图像帧。那么一个待识别图像可以对应待识别文本中的至少一个句子，即视频画面中存在字幕。一个待识别图像也可以不对应待识别文本，即视频画面中不存在字幕。待识别文本中的每个句子，对应至少一个待识别图像，即视频中的每句字幕，存在与字幕关联的待识别图像。

在手机软件(APP，Application)的应用场景中，例如，在新闻APP的应用场景中，待识别文本可以是新闻APP中的任意一条新闻文本内容，与待识别文本关联的待识别图像可以是与新闻文本内容对应的新闻画面。那么一个待识别图像可以对应待识别文本中的至少一个句子，即新闻画面与新闻文本内容的至少一个句子呼应，从而有效提升新闻的可读性。

在一些实施例中，参见图4C，图4C所示出的文本的实体识别模型包括：待识别图像的编码网络52，待识别文本的编码网络51，纯文本的实体识别网络53、多模态的实体识别网络54和知识图谱网络55。

在一些实施例中，由于多模态的实体识别网络引入了图像内容会对文本的实体识别模型所确定的目标实体产生偏移(Visual Bias)，所以再加入一个纯文本的实体识别网络(Auxiliary Entity Span Detection Module)，用于减少偏移。

在一些实施例中，在如图4C所示出的文本的实体识别模型中，在文本的实体识别模型的输入为待识别文本和与待识别文本关联的待识别图像。通过待识别图像的编码网络52，对待识别图像进行编码，首先通过卷积神经网络对待识别图像进行特征转换，对待识别图像的尺寸进行变换，经过残差层和全连接层之后，将待识别图像转换成与待识别文本具有相同维度的图像向量。

在一些实施例中，通过待识别文本的编码网络51，对待识别文本进行编码，每一个输入的句子会加上两个特别的向量，即：向量(CLS)在句首，向量(SEP)在句尾。令S′＝(s₀，s₁，...，s_n+1)为输入的句子，s₀，s_n+1分别为两个特殊的向量，令X＝(x₀，x₁，...，x_n+1)为S′的单词表示，x_i表示每一个s_i语义以及位置嵌入信息。将X作为双向编码网络的输入向量，输出向量C＝(c₀，c₁，...，c_n+1)表示X经过双向编码网络之后的上下文表示。

在一些实施例中，将文本模态和图片模态融合，多模态的实体识别网络54如图4C所示，图片左边和右边分别对应图片的文本表示(Image-aware Word Representation)和文本的图片表示(Word-aware Visual Representation)输入的有两个模态的信息。

在一些实施例中，文本模态经过作用之后的隐藏表示R＝(r₀，r₁，...，r_n+1)其中，r_i表示每个x_i的隐藏表示。

在一些实施例中，自注意力网络可以将不同模态的信息融合在一起，本申请实施例所选用的是多头自注意力网络，有助于模型获取更多的信息。

MH-CA(V，R)＝W‘[CA₁(V，R)，...，CA_m(V，R)]^T (9)

在一些实施例中，第i个交叉模态的自注意力可以表示为：

其中，CA_i表征第i个交叉模态的自注意力，

在一些实施例中，横向规范化的表达式可以为：

P＝LN(MH-CA(V，R)) (11)

其中，P表征横向规范化结果，MH-CA(y，R)表征第一模态融合网络的多头注意力网络，LN表征横向规范化。

在一些实施例中，CMT层的输入R为queries，V作为keys和values。输出Q＝(q₀，q₁，...，q_n+1)，并不是每一个单词都需要视觉信息与其对应，比如：的，好，是，因此我们引入机制动态地控制视觉特征与单词的对应关系。

在一些实施例中，归一化向量的表达式可以为：

其中，g表征归一化向量，G₃和

表征加和结果，

表征第二权重矩阵，Q表征第二多模态向量，

在一些实施例中，加入门控机制后每个单词的视觉表示为：B＝gQ＝(b₀，b₁，...，b_n+1)，加入这个门控机制相当于可以控制哪个单词需要对应的信息。将同维度的A和B特征拼接到一起同时输入隐藏层H＝(h₀，h₁，...，h_n+1)。

在一些实施例中，将H作为随机条件场CRF的输入，输出为序列中实体类型的概率。对于输入的句子S以及图片V，定义：

其中，

表示类别y_i转化为y_i+1的分数，

为发射分数，i表示对应的第i个单词。

为y_i权重矩阵。输出为n维的概率向量：E＝(E₁，E₂，...，E_n)。

在一些实施例中，最后结合输入的辅助模块输出的F和多模态模块输出的E共同判定实体命名。

在一些实施例中，参见图4C，知识图谱网络55，处理阶段：经过前面两阶段的处理，文本的实体识别模型输出的已经是带有类型的实体命名，为了尽可能地消除实体表示的歧义，通过引入知识图谱模块，利用该模块可以更准确地将实体类型提取。在文本的实体识别模型输入阶段，使用残差网络将图片信息转化为特征信息输入模型，然后通过多模态的实体识别网络将视觉特征信息和文本特征信息结合起来，在多模态的实体识别网络输出之后，加入知识图谱网络，消除有歧义的实体类型。

针对具体的实体识别的应用场景，从图文数据中提取剧名，角色名，演员名。在不使用本申请实施例提供的文本的实体识别模型时，在测试集上审验证的准确率为：86.7，经过本申请实施例提供的文本的实体识别模型之后的准确率达到：95.1，基本达到人工标注水平。

在本申请实施例中，不同于在数据预处理阶段将其他模态的信息融合到一起，本申请实施例是通过在模型输入时同时输入图片和文本特征，并在融合到同一个模型可以充分利用两个模态的信息，可以减少误差传播，增加模型准确率。

在本申请实施例中，通过加入一个纯文本的实体识别网络，进一步减少多模态的实体识别网络引入视觉内容时对文本的实体识别模型产生的偏移。另外通过引入知识图谱后处理，可以消除实体歧义，提高准确率。

可以理解的是，在本申请实施例中，涉及到的待识别文本和待识别图像等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的文本的实体识别装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器240的文本的实体识别装置255中的软件模块可以包括：获取模块2551，用于获取待识别文本、以及与所述待识别文本关联的待识别图像；编码模块2552，用于对所述待识别图像进行编码，得到图像向量，并对所述待识别文本进行编码，得到文本向量；模态融合模块2553，用于将所述图像向量和所述文本向量进行模态融合，得到目标多模态向量；实体识别模块2554，用于基于所述目标多模态向量对所述待识别文本进行实体识别，得到所述待识别文本中的初始实体；基于所述文本向量对所述待识别文本进行实体识别，得到所述待识别文本中的修正实体；修正模块2555，用于基于所述修正实体，对所述初始实体进行修正，得到所述待识别文本中的目标实体。

在一些实施例中，所述模态融合通过模态融合网络实现；所述模态融合网络包括第一模态融合网络、第二模态融合网络、第三模态融合网络；上述模态融合模块2553，还用于调用所述第一模态融合网络，对所述图像向量和所述文本向量进行模态融合，得到第一多模态向量；调用所述第二模态融合网络，对所述图像向量和所述文本向量进行模态融合，得到第二多模态向量；调用所述第三模态融合网络，对所述文本向量和所述第一多模态向量进行模态融合，得到第三多模态向量；对所述第三多模态向量和所述第二多模态向量进行加权融合，得到加权融合向量；将所述加权融合向量和所述第三多模态向量进行向量拼接，得到所述目标多模态向量。

在一些实施例中，所述第一模态融合网络包括多头注意力网络、残差连接网络和前馈神经网络；上述模态融合模块2553，还用于调用所述多头注意力网络，对所述图像向量及所述文本向量进行模态融合，得到第四多模态向量；调用所述残差连接网络，对所述第四多模态向量和所述图像向量进行残差连接，得到残差连接结果；调用所述前馈神经网络，对所述残差连接结果进行激活处理，得到激活结果；调用所述残差连接网络，对所述激活结果和所述残差连接结果进行残差连接，得到所述第一多模态向量。

在一些实施例中，上述模态融合模块2553，还用于将所述图像向量确定为所述第一模态融合网络的查询向量，并将所述文本向量分别确定为所述第一模态融合网络的键向量和值向量；调用所述多头注意力网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到所述第四多模态向量；上述模态融合模块，还用于调用所述残差连接网络，对所述第四多模态向量和所述查询向量进行残差连接，得到所述残差连接结果。

在一些实施例中，所述第二模态融合网络、所述第三模态融合网络和所述第一模态融合网络的网络结构相同；上述模态融合模块2553，还用于将所述文本向量确定为第二模态融合网络的查询向量，将所述图像向量分别确定为所述第二模态融合网络的键向量和值向量；调用所述第二模态融合网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到第二多模态向量；上述模态融合模块，还用于将所述文本向量确定为第三模态融合网络的查询向量，将所述第二多模态向量分别确定为所述第三模态融合网络的键向量和值向量；调用所述第三模态融合网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到第三多模态向量。

在一些实施例中，上述模态融合模块2553，还用于获取所述第三多模态向量的第一权重矩阵，以及所述第二多模态向量的第二权重矩阵；将所述第三多模态向量和所述第一权重矩阵相乘，得到第一乘积结果；将所述第二多模态向量和所述第二权重矩阵相乘，得到第二乘积结果；将所述第一乘积结果和所述第二乘积结果进行加和，得到加和结果；对所述加和结果进行归一化处理，得到归一化向量；将所述归一化向量和所述第二多模态向量相乘，得到所述加权融合向量。

在一些实施例中，所述目标多模态向量包括所述待识别文本中的各词对应的词向量，上述实体识别模块2554，还用于针对所述待识别文本中的各词对应的词向量分别执行以下处理：基于所述词向量，对所述词进行实体类别预测，得到所述词分别对应各类别的修正类别概率值；将最大的所述修正类别概率值所对应的类别，确定为所述词对应的修正类别；当所述修正类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的初始实体。

在一些实施例中，所述文本向量包括所述待识别文本中的各词对应的词文本向量，上述实体识别模块2554，还用于针对所述待识别文本中的各词对应的词文本向量分别执行以下处理：基于所述词文本向量，对所述词进行实体类别预测，得到所述词分别对应各类别的修正类别概率值；将最大的所述修正类别概率值所对应的类别，确定为所述词对应的修正类别；当所述修正类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的修正实体。

在一些实施例中，所述修正实体及所述初始实体的数量均为至少一个，所述修正模块2555，还用于针对各所述修正实体分别执行以下处理：将所述修正实体分别与各所述初始实体进行对比，得到对比结果，其中，所述对比结果，用于表征在所述至少一个初始实体中，是否存在与所述修正实体相同的初始实体；响应于所述对比结果表征存在与所述修正实体相同的初始实体，将与所述修正实体相同的初始实体，确定为所述待识别文本中的候选实体；响应于所述对比结果表征不存在与所述修正实体相同的初始实体，将所述词文本向量和所述词向量进行拼接，得到拼接向量；基于所述拼接向量对所述待识别文本进行实体识别，得到所述待识别文本中的候选实体；调用实体知识图谱，对候选实体进行实体消歧，得到待识别文本中的目标实体。

在一些实施例中，所述拼接向量包括所述待识别文本中的各词对应的词拼接向量，所述修正模块2555，还用于针对所述待识别文本中的各词对应的词拼接向量分别执行以下处理：基于所述词拼接向量，对所述词进行实体类别预测，得到所述词分别对应各类别的目标类别概率值；将最大的所述目标类别概率值所对应的类别，确定为所述词对应的目标类别；当所述目标类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的目标实体。

在一些实施例中，上述编码模块2552，还用于确定所述待识别文本中各词对应的上下文向量、词向量和位置向量；将所述上下文向量、所述词向量和所述位置向量进行求和，得到融合向量；对所述融合向量进行编码，得到所述文本向量；上述编码模块2552，还用于获取所述文本向量的维度，并基于所述文本向量的维度，对所述待识别图像进行尺寸变换，得到标准图像；对所述标准图像进行编码，得到与所述文本向量维度相同的图像向量。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的文本的实体识别方法，例如，如图3A示出的文本的实体识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本申请实施例具有如下有益效果：

(1)通过结合待识别文本以及与待识别文本关联的待识别图像，确定多模态向量，基于多模态向量对待识别文本进行实体识别，从而准确确定出待识别文本中的初始实体，由于所确定的初始实体综合考虑了与待识别文本关联的待识别图像，待识别图像的语义信息辅助对待识别文本进行实体识别，从而有效提高了所确定的初始实体的准确度。同时，通过基于文本向量对待识别文本进行实体识别，得到修正实体，通过修正实体对结合了待识别图像的语义信息的初始实体进行修正，得到待识别文本中的目标实体。一方面，通过结合关联的待识别图像进行实体识别，从而有效提高实体识别的准确度；一方面，通过修正实体，对初始实体可能存在的识别错误进行修正，得到目标实体，从而进一步提高了实体识别的准确度。

(2)对于不同的场景下，待识别文本的句子的数量和待识别图像的数量具有不同的大小关系，因此，本申请实施例针对不同的场景下，对待识别文本和待识别图像采用不同的处理方式，在待识别图像的数量少于句子的数量时，对匹配的至少一个句子和该幅待识别图像进行编码；在待识别图像的数量大于待识别文本中句子的数量时，对完整的待识别文本中的单个句子以及与句子匹配的待识别图像进行编码，从而在不同的使用场景下，能够在有效保证高识别精度的同时，兼顾算法的执行效率。

(3)通过本申请实施例提供的第一模态融合网络、第二模态融合网络和第三模态融合网络，对文本向量和图像向量进行多个不同角度的融合，使得所得到的文本向量，充分融合了待识别图像和待识别文本的特征，为后续精准的进行实体识别提供的有力的数据支撑。

(4)分别基于词文本向量和词向量，对词进行实体类别预测，对应得到待识别文本中对应实体类别的修正实体和初始实体，由于词向量融合了待识别图像的特征，从而基于词向量所得到的初始实体有效结合了待识别图像的特征，从而使得初始实体的准确率较高。

(5)分别基于词文本向量和词向量，对词进行实体类别预测，对应得到待识别文本中对应实体类别的修正实体和初始实体，由于词向量融合了待识别图像的特征，从而基于词向量所得到的初始实体有效结合了待识别图像的特征，从而使得初始实体的准确率较高，同时为了进一步提高初始实体的准确率，通过基于词文本向量确定出的修正实体，进一步对初始实体进行修正，从而有效提高了实体识别的准确率。

(6)由于基于词向量所得到的初始实体，引入的待识别图像的视觉特征会对初始实体的结果的确定产生偏移，所以，通过基于词文本向量所确定的修正实体，来减少由于引入视觉特征而产生的偏移，从而能够有效提高所确定的待识别文本中的目标实体的准确率。

(7)通过将修正实体分别与各初始实体进行对比，在对比结果表征存在与修正实体相同的初始实体时，则直接将与修正实体相同的初始实体，确定为待识别文本中的目标实体；在对比结果表征不存在与修正实体相同的初始实体时，将词文本向量和词文本向量进行拼接，得到拼接向量，基于拼接向量对待识别文本进行实体识别，得到目标实体。从而，基于不同的对比结果，采用不同的方式确定目标实体，从而有效提高了所确定的目标实体的准确率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种文本的实体识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述模态融合通过模态融合网络实现；所述模态融合网络包括第一模态融合网络、第二模态融合网络、第三模态融合网络；

所述将所述图像向量和所述文本向量进行模态融合，得到目标多模态向量，包括：

调用所述第一模态融合网络，对所述图像向量和所述文本向量进行模态融合，得到第一多模态向量；

调用所述第二模态融合网络，对所述图像向量和所述文本向量进行模态融合，得到第二多模态向量；

调用所述第三模态融合网络，对所述文本向量和所述第一多模态向量进行模态融合，得到第三多模态向量；

对所述第三多模态向量和所述第二多模态向量进行加权融合，得到加权融合向量；

将所述加权融合向量和所述第三多模态向量进行向量拼接，得到所述目标多模态向量。

3.根据权利要求2所述的方法，其特征在于，所述第一模态融合网络包括多头注意力网络、残差连接网络和前馈神经网络；

所述调用所述第一模态融合网络，对所述图像向量和所述文本向量进行模态融合，得到第一多模态向量，包括：

调用所述多头注意力网络，对所述图像向量及所述文本向量进行模态融合，得到第四多模态向量；

调用所述残差连接网络，对所述第四多模态向量和所述图像向量进行残差连接，得到残差连接结果；

调用所述前馈神经网络，对所述残差连接结果进行激活处理，得到激活结果；

调用所述残差连接网络，对所述激活结果和所述残差连接结果进行残差连接，得到所述第一多模态向量。

4.根据权利要求3所述的方法，其特征在于，

所述调用所述多头注意力网络，对所述图像向量及所述文本向量进行模态融合，得到第四多模态向量，包括：

将所述图像向量确定为所述第一模态融合网络的查询向量，并将所述文本向量分别确定为所述第一模态融合网络的键向量和值向量；

调用所述多头注意力网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到所述第四多模态向量；

所述调用所述残差连接网络，对所述第四多模态向量和所述图像向量进行残差连接，得到残差连接结果，包括：

调用所述残差连接网络，对所述第四多模态向量和所述查询向量进行残差连接，得到所述残差连接结果。

5.根据权利要求2所述的方法，其特征在于，所述第二模态融合网络、所述第三模态融合网络和所述第一模态融合网络的网络结构相同；

所述调用所述第二模态融合网络，对所述图像向量和所述文本向量进行模态融合，得到第二多模态向量，包括：

将所述文本向量确定为第二模态融合网络的查询向量，将所述图像向量分别确定为所述第二模态融合网络的键向量和值向量；

调用所述第二模态融合网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到第二多模态向量；

所述调用所述第三模态融合网络，对所述文本向量和所述第一多模态向量进行模态融合，得到第三多模态向量，包括：

将所述文本向量确定为第三模态融合网络的查询向量，将所述第一多模态向量分别确定为所述第三模态融合网络的键向量和值向量；

调用所述第三模态融合网络，对所述查询向量、所述键向量和所述值向量进行模态融合，得到第三多模态向量。

6.根据权利要求2所述的方法，其特征在于，所述对所述第三多模态向量和所述第二多模态向量进行加权融合，得到加权融合向量，包括：

获取所述第三多模态向量的第一权重矩阵，以及所述第二多模态向量的第二权重矩阵；

将所述第三多模态向量和所述第一权重矩阵相乘，得到第一乘积结果；将所述第二多模态向量和所述第二权重矩阵相乘，得到第二乘积结果；

将所述第一乘积结果和所述第二乘积结果进行加和，得到加和结果；

对所述加和结果进行归一化处理，得到归一化向量；

将所述归一化向量和所述第二多模态向量相乘，得到所述加权融合向量。

7.根据权利要求1所述的方法，其特征在于，所述目标多模态向量包括所述待识别文本中的各词对应的词向量，所述基于所述目标多模态向量对所述待识别文本进行实体识别，得到所述待识别文本中的初始实体，包括：

针对所述待识别文本中的各词对应的词向量分别执行以下处理：

基于所述词向量，对所述词进行实体类别预测，得到所述词分别对应各类别的初始类别概率值；

将最大的所述初始类别概率值所对应的类别，确定为所述词对应的初始类别；

当所述初始类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的初始实体。

8.根据权利要求1所述的方法，其特征在于，所述文本向量包括所述待识别文本中的各词对应的词文本向量，所述基于所述文本向量对所述待识别文本进行实体识别，得到所述待识别文本中的修正实体，包括：

针对所述待识别文本中的各词对应的词文本向量分别执行以下处理：

基于所述词文本向量，对所述词进行实体类别预测，得到所述词分别对应各类别的修正类别概率值；

将最大的所述修正类别概率值所对应的类别，确定为所述词对应的修正类别；

当所述修正类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的修正实体。

9.根据权利要求1所述的方法，其特征在于，所述修正实体及所述初始实体的数量均为至少一个，所述基于所述修正实体，对所述初始实体进行修正，得到所述待识别文本中的目标实体，包括：

针对各所述修正实体分别执行以下处理：

将所述修正实体分别与各所述初始实体进行对比，得到对比结果，其中，所述对比结果，用于表征在所述至少一个初始实体中，是否存在与所述修正实体相同的初始实体；

响应于所述对比结果表征存在与所述修正实体相同的初始实体，将与所述修正实体相同的初始实体，确定为所述待识别文本中的候选实体；

响应于所述对比结果表征不存在与所述修正实体相同的初始实体，将所述词文本向量和所述词向量进行拼接，得到拼接向量；

基于所述拼接向量对所述待识别文本进行实体识别，得到所述待识别文本中的候选实体；

调用实体知识图谱，对所述候选实体进行实体消歧，得到所述待识别文本中的目标实体。

10.根据权利要求9所述的方法，其特征在于，所述拼接向量包括所述待识别文本中的各词对应的词拼接向量，所述基于所述拼接向量对所述待识别文本进行实体识别，得到所述待识别文本中的候选实体，包括：

针对所述待识别文本中的各词对应的词拼接向量分别执行以下处理：

基于所述词拼接向量，对所述词进行实体类别预测，得到所述词分别对应各类别的目标类别概率值；

将最大的所述目标类别概率值所对应的类别，确定为所述词对应的目标类别；

当所述目标类别表征所述词是命名实体时，获取所述命名实体的实体类别，将所述词确定为所述待识别文本中对应所述实体类别的候选实体。

11.根据权利要求1所述的方法，其特征在于，所述对所述待识别文本进行编码，得到文本向量，包括：

确定所述待识别文本中各词对应的上下文向量、词向量和位置向量；

将所述上下文向量、所述词向量和所述位置向量进行求和，得到融合向量；

对所述融合向量进行编码，得到所述文本向量；

所述对所述待识别图像进行编码，得到图像向量，包括：

获取所述文本向量的维度，并基于所述文本向量的维度，对所述待识别图像进行尺寸变换，得到标准图像；

对所述标准图像进行编码，得到与所述文本向量维度相同的图像向量。

12.一种文本的实体识别装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令或者计算机程序时，实现权利要求1至11任一项所述的文本的实体识别方法。

14.一种计算机可读存储介质，存储有可执行指令或者计算机程序，其特征在于，所述可执行指令被处理器执行时实现权利要求1至11任一项所述的文本的实体识别方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的文本的实体识别方法。