CN116976344A

CN116976344A - 实体识别方法、装置、计算机设备和介质

Info

Publication number: CN116976344A
Application number: CN202310152696.9A
Authority: CN
Inventors: 刘烨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-10-31

Abstract

本申请公开了一种实体识别方法、装置、计算机设备和介质，该方法包括：获取待识别文本以及待识别图像，待识别图像与待识别文本相关联；利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征；其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。采用本申请，可以提升实体识别的准确性。

Description

实体识别方法、装置、计算机设备和介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种实体识别方法、装置、计算机设备和介质。

背景技术

随着计算机与人工智能技术的不断发展，自然语言处理(Nature LanguageProcessing,NLP)成为计算机科学与人工智能领域中的一个重要方向。作为NLP领域中的一项基础任务，命名实体识别(Named Entity Recognition，NER)能够提取文本中的实体标签，在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用，是热点研究方向之一。由于文本信息中实体常常存在歧义，传统NER无法准确识别，因此，多模态NER应运而生。多模态NER在传统NER基础上额外引入了图像，可以为文本补充语义信息来进行歧义消除，近些年来受到人们广泛的关注。然而，图像信息并非总能准确辅助文本信息进行歧义消除。

因此，如何准确消除文本信息的歧义，提升实体识别的性能成为亟待解决的问题。

发明内容

本申请提供了一种实体识别方法、装置、计算机设备和介质，可提很好地消除文本信息的歧义，提升NER的性能和效果。

本申请一方面提供了一种实体识别方法，包括：获取待识别文本以及待识别图像，待识别图像与待识别文本相关联；利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征；其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。

本申请一方面提供了一种实体识别装置，包括：获取模块，用于获取待识别文本以及待识别图像，待识别图像与待识别文本相关联；处理模块，用于利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征；其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的样本文本实体参考标签；该处理模块，还用于利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。

可选地，获取模块还用于获取样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；处理模块还用于基于样本文本、样本图像、图像实体以及标签数据对初始神经网络进行训练，得到实体识别模型。

可选地，获取模块获取样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据，包括：获取样本文本、与样本文本相关联的样本图像以及样本文本包括的文本实体的文本实体参考标签；对样本图像进行图像检测，得到样本图像包括的图像实体，并生成图像实体的图像实体标签。

可选地，初始神经网络包括特征提取模块、多粒度对齐模块以及实体识别模块，处理模块基于样本文本、样本图像、图像实体以及标签数据对初始神经网络进行训练，得到实体识别模型，包括：调用特征提取模块提取样本文本和图像实体标签的特征，得到样本文本特征和图像实体标签特征；调用特征提取模块提取样本图像和图像实体的特征，得到样本图像特征和图像实体特征；调用多粒度对齐模块对样本文本特征、图像实体标签特征、样本图像特征和图像实体特征进行对齐处理，得到第一差异数据；调用实体识别模块对样本文本特征和样本图像特征进行实体识别处理，并基于处理结果以及文本实体参考标签得到第二差异数据；基于第一差异数据和第二差异数据对初始神经网络的网络参数进行调整，并将网络参数调整后的初始神经网络作为实体识别模型。

可选地，处理模块调用多粒度对齐模块对样本文本特征、图像实体标签特征、样本图像特征和图像实体特征进行对齐处理，得到第一差异数据，包括：调用多粒度对齐模块对样本文本特征与样本图像特征进行对齐处理，得到文本与整图的对齐差异数据；调用多粒度对齐模块对样本文本特征与图像实体特征进行对齐处理，得到文本与局部图像的对齐差异数据；调用多粒度对齐模块对图像实体标签特征与样本图像特征进行对齐处理，得到图像实体标签与整图的对齐差异数据；调用多粒度对齐模块对图像实体标签特征与图像实体特征进行对齐处理，得到图像实体标签与局部图像的对齐差异数据；基于文本与整图的对齐差异数据、文本与局部图像的对齐差异数据、图像实体标签与整图的对齐差异数据、图像实体标签与局部图像的对齐差异数据，确定第一差异数据。

可选地，处理模块调用实体识别模块对样本文本特征和样本图像特征进行实体识别处理，并基于处理结果以及文本实体参考标签得到第二差异数据，包括：调用实体识别模块对样本文本特征和样本图像特征进行融合处理，得到融合特征；调用实体识别模块对融合特征进行识别处理，得到处理结果，处理结果包括样本文本中文本实体的文本实体预测标签；基于样本文本中文本实体的文本实体预测标签与文本实体参考标签，确定第二差异数据。

可选地，当待识别文本为待处理视频中的文本，待识别图像为待处理视频中与文本匹配的图像时，该实体识别装置还包括：该获取模块，还用于获取待处理视频中多个待识别文本的实体识别结果；该处理模块，还用于基于多个待识别文本的实体识别结果对待处理视频进行解析处理，得到待处理视频的解析结果，解析结果包括待处理视频的分类结果、描述信息以及拆分结果中的一种或多种。

本申请一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请中一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时使该处理器执行上述一方面中的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面等各种可选方式中提供的方法。

本申请获取待识别文本以及待识别图像，待识别图像与待识别文本相关联；利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征；其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。由此可见，本申请提出的方法中，实体识别模型在训练过程中所利用的样本图像与图像实体属于不同粒度的图像，样本文本与图形实体标签属于不同粒度的文本，本申请通过将不同粒度的图像与不同粒度的文本进行多粒度对齐，能够显式地表示出在图像中出现的文本中的实体，从而能够利用图像中的实体消除文本中的实体的歧义，进而能够大幅提升NER的精度。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种网络架构的结构示意图；

图2是本申请提供的一种网络训练的场景示意图；

图3是本申请提供的一种实体识别方法的流程示意图；

图4是本申请提供的一种样本图像的示例；

图5是本申请提供的一种网络训练的场景示意图；

图6是本申请提供的一种实体识别装置的结构示意图；

图7是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，随着技术的发展，人工智能技术在更多的领域得到应用，并发挥越来越重要的价值。

本申请涉及到人工智能相关技术。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中主要涉及到了人工智能中的自然语言处理。其中，自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请中还涉及到了人工智能中的机器学习。其中，机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请中还涉及到了计算机视觉技术。其中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请中所涉及到的自然语言处理、机器学习和计算机视觉技术主要指，借助计算机视觉技术，利用机器学习，训练得到用于NER的神经网络，以通过该神经网络来执行NER任务，提高NER任务的准确性。具体可以参见下述实施例中的描述。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器100和终端设备集群，终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，多个终端设备具体可以包括终端设备101、终端设备102、终端设备103、…、终端设备104；如图1所示，终端设备101、终端设备102、终端设备103、…、终端设备104均可以与服务器100进行网络连接，以便于每个终端设备可以通过网络连接与服务器100之间进行数据交互。

如图1所示的服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。

下面以终端设备101与服务器100之间的通信为例，进行本申请实施例的具体描述。

例如，用户可以通过终端设备101向服务器100上传相互关联的文本与图像。服务器100接收终端设备101上传的文本与图像后，基于所接收的文本与图像，针对所接收的文本进行实体命名识别。服务器100的操作步骤可以为：获取待识别文本以及待识别图像，待识别图像与待识别文本相关联；利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征；其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。

请一并参见图2，图2是本申请提供的一种网络训练的场景示意图。其中，上述终端设备101中可以有视频客户端，用户可以利用视频客户端上传或加载视频，视频可以包含字幕，进而终端设备101可以将包含字幕的视频发送给服务器100，通过此种方式，服务器100可以获取到终端设备101发送的包含字幕的若干视频图像，服务器100可以基于该若干视频图像获取若干文本-图像样本对，进而通过该若干样本对训练检测网络，其具体过程可以是：

如图2所示，文本-图像样本对可以包括多个样本文本以及与样本文本相关联的样本图像，服务器100可以从该若干文本-图像样本对中获取到训练集201，该训练集201包括从该多个文本-图像样本对中获取的样本文本、样本图像以及样本文本中所包含的文本实体的文本实体参考标签，该文本实体参考标签可以用于指示文本实体的类别。

其中，训练集201中还可以包括特征训练子集，该特征训练子集可以包括训练集201中的样本文本和样本图像。因此，服务器100可以通过该特征训练子集中的样本文本以及样本图像训练初始神经网络，并基于文本实体参考标签，获得训练好的神经网络202，该训练好的神经网络202用于执行NER任务。

进而，服务器100可以利用该训练好的神经网络202，对待识别文本和待识别图像进行识别，该带识别图像与该待识别文本相关联，最终识别出待识别文本中的实体(如框203所示)。

请参见图3，图3是本申请提供的一种实体识别方法的流程示意图。本申请实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计算机设备可以是服务器，也可以终端设备。因此，本申请实施例中的执行主体可以是服务器，也可以是终端设备，还可以是由服务器和终端设备共同构成。如图3所示，该方法可以包括：

步骤S301，获取待识别文本以及待识别图像，待识别图像与待识别文本相关联。

服务器可以获取待识别文本、以及与该待识别文本相关联的待识别图像。待识别文本以及待识别图像可以是由用户从终端设备上传的。

可选地，待识别文本与待识别图像可以是相互对应的。例如，视频的同一帧中出现的字幕和图像。

可选地，待识别文本可以是一段记录或陈述，待识别图像可以是关于该一段记录或陈述的配图。例如，图像可以是小说或故事中的插画。

可选地，待识别文本可以是关于待识别图像的描述。例如，文本可以是对图像、照片等进行解释说明的文字。

总体而言，待识别文本与待识别图像相互之间存在关联，本发明对此不做任何限制。

步骤S302，利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征。

可选地，模态特征可以是文本的特征，可以利用文本编码器(例如，BERT系列算法等)从待识别文本中提取文本信息而获得。模态特征还可以是图像的特征，可以利用视觉编码器(例如，VisionTransformer、resnet系列、VGG等)从待识别图像中提取图像信息而获得。

服务器可以利用实体识别模型对待识别文本以及待识别图像进行处理，提取得到待识别文本的文本特征以及待识别图像的图像特征。

其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签。

可选地，关于对实体识别模型的训练，本方法还包括：

获取样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；

基于样本文本、样本图像、图像实体以及标签数据对初始神经网络进行训练，得到实体识别模型。

可选地，服务器可以获取样本数据对实体识别模型进行训练。样本数据可以包括N个文本-图像样本对，例如<T₁，I₁>、<T₂，I₂>…<T_N，I_N>。也就是说，样本数据可以包括N个样本文本以及与该N个样本文本相关联的N个样本图像。样本图像中可以包括有图像实体。样本数据还可以包括标签数据。标签数据中可以包括有样本文本中所包括的文本实体的文本实体参考标签。

可以发现，上述训练方式引入了细粒度图像信息，即样本图像中所包括的图像实体，以及与细粒度图像相对应的文本信息，即图像实体标签，能够辅助消除文本信息的歧义，进而提升所得到的实体识别模型的识别准确性。

进一步地，获取样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据，包括：

获取样本文本、与样本文本相关联的样本图像以及样本文本包括的文本实体的文本实体参考标签；

对样本图像进行图像检测，得到样本图像包括的图像实体，并生成图像实体的图像实体标签。

可选地，服务器接收用以训练实体识别模型的样本数据可以仅包括文本-图像样本对及样本文本中所包括的文本实体的文本实体参考标签。优选地，为了提升实体识别模型的实体识别性能，在接收样本数据，获取了样本文本、与样本文本相关联的样本图像以及样本文本包括的文本实体的文本实体参考标签之后，服务器可以对样本图像进行图像检测，得到样本图像包括的图像实体，并生成图像实体的图像实体标签，进而利用样本文本、样本图像、样本图像包括的图像实体、图像实体的图像实体标签与样本文本包括的文本实体的文本实体参考标签对实体识别模型进行训练。

可选地，服务器可以利用计算机视觉技术中的物体检测方法或者视觉定位方法对样本图像进行图像检测，以获取样本图像所包括的图像实体以及对应的图像实体标签。

可以发现，利用图像检测从样本图像中得到图像实体与图像实体标签，可以保证样本文本、样本图像、图像实体与图像实体标签之间的关联性，并且明确图像实体的类型，以利于消除文本歧义。

请一并参考图4，图4示出了本申请提供的一种样本图像I_n 400的示例。

服务器对第n个文本-图像样本对中的样本图像I_n 400进行图像检测。得到了样本图像I_n 400所包括的图像实体和与这些图像实体相对应的图像实体标签。例如，服务器得到了样本图像I_n 400中包括图像实体“人”、“装备”、“门”以及“门”(如图中虚线框所限定)，相应地，还得到了与这些图像实体相对应的图像实体标签“人”401、“装备”402、“门”403以及“门”404。

进一步地，服务器基于样本文本、样本图像、图像实体以及标签数据对初始神经网络进行训练，可以得到实体识别模型。标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签。初始神经网络包括特征提取模块、多粒度对齐模块以及实体识别模块。服务器对初始神经网络进行训练得到实体识别模式的方法可以包括：

调用特征提取模块提取样本文本和图像实体标签的特征，得到样本文本特征和图像实体标签特征；

调用特征提取模块提取样本图像和图像实体的特征，得到样本图像特征和图像实体特征；

调用多粒度对齐模块对样本文本特征、图像实体标签特征、样本图像特征和图像实体特征进行对齐处理，得到第一差异数据；

调用实体识别模块对样本文本特征和样本图像特征进行实体识别处理，并基于处理结果以及文本实体参考标签得到第二差异数据；

基于第一差异数据和第二差异数据对初始神经网络的网络参数进行调整，并将网络参数调整后的神经网络作为实体识别模型。

可选地，服务器可以调用特征提取模块提取样本文本和图像实体标签得到样本文本特征和图像实体标签特征，以及提取样本图像和图像实体的特征，得到样本图像特征和图像实体特征。例如，服务器可以利用文本编码器(例如，BERT系列算法等)从样本文本和图像实体标签中提取文本信息而获得样本文本特征和图像实体标签特征。服务器可以利用视觉编码器(例如，VisionTransformer、resnet系列、VGG等)从样本图像和图像实体中提取图像信息而获得样本图像特征和图像实体特征。

可选地，服务器可以调用多粒度对齐模块对样本文本特征、图像实体标签特征、样本图像特征和图像实体特征进行对齐处理，得到第一差异数据。

可以发现，上述训练方式通过调用多粒度对齐模块将不同粒度的文本与不同粒度的图像进行对齐，可以额外获得能够辅助消除文本信息歧义的信息，即，第一差异数据，进而与第二差异数据协同调整神经网络，以提升所得到的实体识别模型的识别准确性。

进一步地，服务器调用多粒度对齐模块进而得到第一差异数据可以包括：

调用多粒度对齐模块对样本文本特征与样本图像特征进行对齐处理，得到文本与整图的对齐差异数据；

调用多粒度对齐模块对样本文本特征与图像实体特征进行对齐处理，得到文本与局部图像的对齐差异数据；

调用多粒度对齐模块对图像实体标签特征与样本图像特征进行对齐处理，得到图像实体标签与整图的对齐差异数据；

调用多粒度对齐模块对图像实体标签特征与图像实体特征进行对齐处理，得到图像实体标签与局部图像的对齐差异数据；

基于文本与整图的对齐差异数据、文本与局部图像的对齐差异数据、图像实体标签与整图的对齐差异数据、图像实体标签与局部图像的对齐差异数据，确定第一差异数据。

容易理解，样本图像属于整图，而服务器通过图像检测而从样本图像中获得的图像实体属于整图中的局部图像，它们同属于图像类内容但彼此粒度不同。类似地，样本文本与服务器通过图像检测而获得的图像实体的图像实体标签同属于文本类内容但彼此粒度也不相同。因此，针对不同的粒度的文本类内容和图像类内容的对齐，即不同的模态之间的对齐，服务器可以调用多粒度对齐模块进行对齐处理，从而将不同的模态进行模态间对齐。

服务器所进行的模态间对齐处理即匹配文本类内容和图像类内容，可以使匹配的文本类特征与图像类特征在特征空间中的相似度尽可能极大化，同时可以使不匹配的文本类特征与图像类特征在特征空间中的相似度尽可能极小化。例如，用集合W＝{W₁,W₂,…,W_N}表示文本类特征，集合V＝{V₁,V₂,…,V_N}表示图像类特征，服务器可以利用点乘来表示模态之间的相似度分数，可以得到如下表1所示的相似度矩阵，服务器通过对实体识别模型的训练，可以极大化对角线上的相似度分数，极小化非对角线上的相似度分数。

表1文本类-图像类相似度矩阵

可选地，服务器可以调用多粒度对齐模块对样本文本特征与样本图像特征进行对齐处理，得到文本与整图的对齐差异数据，即文本-整图差异；服务器可以调用多粒度对齐模块对样本文本特征与图像实体特征进行对齐处理，得到文本与局部图像的对齐差异数据，即文本-局部图像差异；服务器可以调用多粒度对齐模块对图像实体标签特征与样本图像特征进行对齐处理，得到图像实体标签与整图的对齐差异数据，即标签-整图差异；服务器可以调用多粒度对齐模块对图像实体标签特征与图像实体特征进行对齐处理，得到图像实体标签与局部图像的对齐差异数据，即标签-局部图像差异。

可选地，文本-整图差异、文本-局部图像差异、标签-整图差异以及标签-局部图像差异可以是服务器分别进行文本类-图像类模态间对齐后的相应的损失函数。损失函数例如可以是具有定义形式的熵函数，或者是能够表示文本类-图像类特征之间的差异的其他任何函数。

可选地，服务器可以基于文本-整图差异、文本-局部图像差异、标签-整图差异以及标签-局部图像差异，确定第一差异数据。例如，第一差异数据可以是文本-整图差异、文本-局部图像差异、标签-整图差异以及标签-局部图像差异的加权和，或者，第一差异数据可以是以这些差异为元素构成的向量的线性变换。

可以发现，通过上述多粒度对齐模块所进行的不同粒度的多模态对齐，可以明确表示出在图像中出现的文本中的实体，并这些实体的标签与图像建立对应关系，基于这些对应关系，可以更好地训练实体识别神经网络，从而利于提升所得到的实体识别模型的识别准确性。

进一步地，服务器调用实体识别模块进而得到第二差异数据可以包括：

调用实体识别模块对样本文本特征和样本图像特征进行融合处理，得到融合特征；

调用实体识别模块对融合特征进行识别处理，得到处理结果，处理结果包括样本文本中文本实体的文本实体预测标签；

基于样本文本中文本实体的文本实体预测标签与文本实体参考标签，确定第二差异数据。

可选地，实体识别模块可以包括多模态融合单元和NER任务单元。多模态融合单元用于对不同模态的特征进行融合。NER任务单元用于对融合后的特征进行命名实体识别。

本发明中，服务器可以调用实体识别模块的多模态融合单元基于例如简单的特征拼接、四则加减运算、基于注意力机制等方法进行特征融合，将图像特征信息融合到文本特征信息中，得到融合特征。在此之后，服务器可以调用实体识别模块的NER任务单元对融合特征进行识别处理，得到样本文本中文本实体的文本实体预测标签。

典型的NER任务是一种序列标注任务，序列标注可以认为是标签级别的文本分类，在序列标注中，服务器可以对序列的每一个元素标注一个标签。一般来说，一个序列可以指的是一个句子，而一个元素可以指的是句子中的一个词。序列标注方式常用的有两种：BIO标注法和BIOES标注法。B-begin，用于代表实体的开头字符；I-inside，用于代表实体的中间字符；O-outside，用于代表非实体，标记无关字符；E-end，用于代表实体的结尾字符；S-single，用于代表单个字符本身就是一个实体。

得到样本文本中文本实体的文本实体预测标签后，服务器可以基于该文本实体预测标签与文本实体参考标签，确定第二差异数据。第二差异数据可以是文本实体预测标签与文本实体参考标签之间的损失函数。损失函数例如可以是具有定义形式的熵函数，或者是能够表示文本实体预测标签与文本实体参考标签之间的差异的其他任何函数。

最后，服务器可以基于所得到的第一差异数据和第二差异数据对初始神经网络的网络参数进行调整，以达到收敛条件。收敛条件可以是第二差异数据小于或等于预定阈值，也可以是第一差异数据与第二差异数据的加权和小于或等于预定阈值。通过训练直到满足收敛条件，服务器可以得到网络参数调整后的神经网络，并可以将网络参数调整后的神经网络作为实体识别模型。

可以发现，上述训练方式通过将不同粒度的图像与不同粒度的文本进行多粒度对齐后，能够利用图像中的实体消除文本中的实体的歧义，可以更好地训练实体识别神经网络，从而利于提升所得到的实体识别模型的识别准确性，进而大幅提升NER的精度。

步骤S303，利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。

可选地，服务器可以利用前述步骤的实体识别模型对待识别文本的第一模态特征和待识别图像的第二模态特征进行处理，得到待识别文本中文本实体的识别结果。

进一步地，当待识别文本为待处理视频中的文本，待识别图像为待处理视频中与文本匹配的图像时，服务器可以利用本发明的实体识别方法，获取待处理视频中多个待识别文本的实体识别结果，并且，服务器还可以基于多个待识别文本的实体识别结果对待处理视频进行解析处理，得到待处理视频的解析结果。该解析结果包括该待处理视频的分类结果、描述信息以及拆分结果中的一种或多种。

可以发现，利用本方法训练得到的实体识别模型，能够准确获取图像标签，可以应用在视频理解的各种应用当中，如视频分类、视频生成、视频摘要、视频总结等，具有广泛的应用价值。

进一步地，在其他实施方式中，模态特征还可以是语音的特征，服务器可以利用语音编码器(例如，HuBert、AudioTransformer等)从待识别语音中提取语音信息而获得语音特征。

在其他实施方式中，服务器可以利用类似图3的方法，基于文本特征和语音特征的多模态特征，或者基于文本特征、图像特征和语音特征的多模态特征，进行文本中的实体识别。

请参见图5，图5是本申请提供的一种网络训练的场景示意图。

如图所述，服务器接收到文本-图像对501，可以获取原始文本502与原始图像503。在对神经网络进行训练时，原始文本502可以是样本文本，原始图像503可以是样本图像。首先，服务器可以利用计算机视觉技术对原始图像503进行图像检测，获取原始图像503中的图像实体503’与图像实体标签502’。其次，服务器可以分别利用文本编码器504、视觉编码器505、视觉编码器505’以及文本编码器504’对原始文本502、原始图像503、图像实体503’以及图像实体标签502’进行特征提取，从而相应地获得文本特征506、图像特征507、图像实体特征507’以及文本实体标签特征506’，其中，文本编码器504与文本编码器504’可以是同一文本编码器，也可以是不同的文本编码器，视觉编码器505与视觉编码器505’可以是同一视觉编码器，也可以是不同的视觉编码器。最后，服务器可以利用多模态对齐模块对上述提取的特征进行多粒度对齐处理，分别执行文本-图像对齐508、文本-图像实体对齐509、标签-图像对齐510以及标签-图像实体对齐511，并获取与上述四种对齐相对应的损失函数。同时，服务器可以利用实体识别模块基于文本特征506和图像特征507执行模态融合与NER任务512，并获取NER任务的损失函数。进而基于与上述四种对齐相对应的损失函数以及NER任务的损失函数，对神经网络进行训练，得到实体识别模型。

另一方面，服务器可以利用经上述训练得到的实体识别模型进行实体识别，此时，服务器接收文本-图像对501而获取的原始文本502与原始图像503可以分别为待识别文本与待识别图像。服务器不再对原始图像503进行图像检测，而是直接利用文本编码器504与视觉编码器分别提取原始文本502与原始图像503的特征，获得相应的文本特征506与图像特征507，进而利用实体识别模块基于文本特征506与图像特征507，执行NER任务，以实现实体识别。

本申请可以获取待识别文本以及待识别图像，待识别图像与待识别文本相关联；利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征；其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。由此可见，本申请提出的方法中，实体识别模型在训练过程中所利用的样本图像与图像实体属于不同粒度的图像，样本文本与图形实体标签属于不同粒度的文本，本申请通过将不同粒度的图像与不同粒度的文本进行多粒度对齐，能够显式地表示出在图像中出现的文本中的实体，从而能够利用图像中的实体消除文本中的实体的歧义，进而能够大幅提升NER的精度。该方法能够准确获取图像标签，可以应用在视频理解的各种应用当中，如视频分类、视频生成、视频摘要、视频总结等，具有广泛的应用价值。

请参见图6，图6是本申请提供的一种实体识别装置600的结构示意图。该实体识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该实体识别装置为一个应用软件，该实体识别装置可以用于执行本申请实施例提供的方法中的相应步骤。如图6所示，该实体识别装置600可以包括：获取模块601和处理模块602。

获取模块601用于获取待识别文本以及待识别图像，待识别图像与待识别文本相关联；

处理模块602用于利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征；其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；

处理模块602还用于利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。

可选地，获取模块601还用于获取样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；处理模块还用于基于样本文本、样本图像、图像实体以及标签数据对初始神经网络进行训练，得到实体识别模型。

可选地，获取样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据，包括：获取样本文本、与样本文本相关联的样本图像以及样本文本包括的文本实体的文本实体参考标签；对样本图像进行图像检测，得到样本图像包括的图像实体，并生成图像实体的图像实体标签。

可选地，初始神经网络包括特征提取模块、多粒度对齐模块以及实体识别模块，处理模块602基于样本文本、样本图像、图像实体以及标签数据对初始神经网络进行训练，得到实体识别模型，包括：调用特征提取模块提取样本文本和图像实体标签的特征，得到样本文本特征和图像实体标签特征；调用特征提取模块提取样本图像和图像实体的特征，得到样本图像特征和图像实体特征；调用多粒度对齐模块对样本文本特征、图像实体标签特征、样本图像特征和图像实体特征进行对齐处理，得到第一差异数据；调用实体识别模块对样本文本特征和样本图像特征进行实体识别处理，并基于处理结果以及文本实体参考标签得到第二差异数据；基于第一差异数据和第二差异数据对初始神经网络的网络参数进行调整，并将网络参数调整后的初始神经网络作为实体识别模型。

可选地，处理模块602调用多粒度对齐模块对样本文本特征、图像实体标签特征、样本图像特征和图像实体特征进行对齐处理，得到第一差异数据，包括：调用多粒度对齐模块对样本文本特征与样本图像特征进行对齐处理，得到文本与整图的对齐差异数据；调用多粒度对齐模块对样本文本特征与图像实体特征进行对齐处理，得到文本与局部图像的对齐差异数据；调用多粒度对齐模块对图像实体标签特征与样本图像特征进行对齐处理，得到图像实体标签与整图的对齐差异数据；调用多粒度对齐模块对图像实体标签特征与图像实体特征进行对齐处理，得到图像实体标签与局部图像的对齐差异数据；基于文本与整图的对齐差异数据、文本与局部图像的对齐差异数据、图像实体标签与整图的对齐差异数据、图像实体标签与局部图像的对齐差异数据，确定第一差异数据。

可选地，处理模块602调用实体识别模块对样本文本特征和样本图像特征进行实体识别处理，并基于处理结果以及文本实体参考标签得到第二差异数据，包括：调用实体识别模块对样本文本特征和样本图像特征进行融合处理，得到融合特征；调用实体识别模块对融合特征进行识别处理，得到处理结果，处理结果包括样本文本中文本实体的文本实体预测标签；基于样本文本中文本实体的文本实体预测标签与文本实体参考标签，确定第二差异数据。

可选地，当待识别文本为待处理视频中的文本，待识别图像为待处理视频中与文本匹配的图像时，该实体识别装置还包括：该获取模块601，还用于获取待处理视频中多个待识别文本的实体识别结果；该处理模块602，还用于基于多个待识别文本的实体识别结果对待处理视频进行解析处理，得到待处理视频的解析结果，解析结果包括待处理视频的分类结果、描述信息以及拆分结果中的一种或多种。

根据本申请的一个实施例，图3所示的实体识别方法所涉及的步骤可由图6所示的实体识别装置600中的各个模块来执行。例如，图3中所示的步骤S301可由图6中的对象获取模块601来执行，图3中所示的步骤S302和S303可由图6中的处理模块602来执行。

本申请可以获取待识别文本以及待识别图像，待识别图像与待识别文本相关联；利用实体识别模型对待识别文本以及待识别图像进行处理，得到待识别文本的第一模态特征以及待识别图像的第二模态特征；其中，实体识别模型是基于样本文本、与样本文本相关联的样本图像、样本图像包括的图像实体以及标签数据训练得到的，标签数据包括图像实体的图像实体标签以及样本文本包括的文本实体的文本实体参考标签；利用实体识别模型对第一模态特征以及第二模态特征进行处理，得到待识别文本的实体识别结果。由此可见，本申请提出的装置中，实体识别模型在训练过程中所利用的样本图像与图像实体属于不同粒度的图像，样本文本与图形实体标签属于不同粒度的文本，本申请通过将不同粒度的图像与不同粒度的文本进行多粒度对齐，能够显式地表示出在图像中出现的文本中的实体，从而能够利用图像中的实体消除文本中的实体的歧义，进而能够大幅提升NER的精度。该装置能够准确获取图像标签，可以应用在视频理解的各种应用当中，如视频分类、视频生成、视频摘要、视频总结等，具有广泛的应用价值。

根据本申请的一个实施例，图6所示的实体识别装置600中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，实体识别装置600也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的实体识别装置600，以及来实现本申请实施例的实体识别方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图7，图7是本申请提供的一种计算机设备700的结构示意图。如图7所示，计算机设备700可以包括：处理器701，网络接口704和存储器705，此外，计算机设备700还可以包括：用户接口703，和至少一个通信总线702。其中，通信总线702用于实现这些组件之间的连接通信。其中，用户接口703可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口703还可以包括标准的有线接口、无线接口。网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器705可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示，作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图7所示的计算机设备700中，网络接口704可提供网络通讯功能；而用户接口703主要用于为用户提供输入的接口；而处理器701可以用于调用存储器705中存储的设备控制应用程序，以执行前文图3对应实施例中对上述实体识别方法的描述，也可执行前文图6所对应实施例中对上述实体识别装置600的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的实体识别装置600所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3所对应实施例中对实体识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的实体识别装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3对应实施例中对上述实体识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程实体识别设备的处理器以产生一个机器，使得通过计算机或其他可编程实体识别设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程实体识别设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程实体识别设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种实体识别方法，其特征在于，所述方法包括：

获取待识别文本以及待识别图像，所述待识别图像与所述待识别文本相关联；

利用实体识别模型对所述待识别文本以及所述待识别图像进行处理，得到所述待识别文本的第一模态特征以及所述待识别图像的第二模态特征；其中，所述实体识别模型是基于样本文本、与所述样本文本相关联的样本图像、所述样本图像包括的图像实体以及标签数据训练得到的，所述标签数据包括所述图像实体的图像实体标签以及所述样本文本包括的文本实体的文本实体参考标签；

利用所述实体识别模型对所述第一模态特征以及所述第二模态特征进行处理，得到所述待识别文本的实体识别结果。

2.根据权利要求1所述的实体识别方法，其特征在于，所述方法还包括：

获取样本文本、与所述样本文本相关联的样本图像、所述样本图像包括的图像实体以及标签数据，所述标签数据包括所述图像实体的图像实体标签以及所述样本文本包括的文本实体的文本实体参考标签；

基于所述样本文本、所述样本图像、所述图像实体以及所述标签数据对初始神经网络进行训练，得到所述实体识别模型。

3.根据权利要求2所述的实体识别方法，其特征在于，所述获取样本文本、与所述样本文本相关联的样本图像、所述样本图像包括的图像实体以及标签数据，包括：

获取样本文本、与所述样本文本相关联的样本图像以及所述样本文本包括的文本实体的文本实体参考标签；

对所述样本图像进行图像检测，得到所述样本图像包括的图像实体，并生成所述图像实体的图像实体标签。

4.根据权利要求2或3所述的实体识别方法，其特征在于，所述初始神经网络包括特征提取模块、多粒度对齐模块以及实体识别模块，所述基于所述样本文本、所述样本图像、所述图像实体以及所述标签数据对初始神经网络进行训练，得到实体识别模型，包括：

调用所述特征提取模块提取所述样本文本和所述图像实体标签的特征，得到样本文本特征和图像实体标签特征；

调用所述特征提取模块提取所述样本图像和所述图像实体的特征，得到样本图像特征和图像实体特征；

调用所述多粒度对齐模块对所述样本文本特征、所述图像实体标签特征、所述样本图像特征和所述图像实体特征进行对齐处理，得到第一差异数据；

调用所述实体识别模块对所述样本文本特征和所述样本图像特征进行实体识别处理，并基于处理结果以及所述文本实体参考标签得到第二差异数据；

基于所述第一差异数据和所述第二差异数据对初始神经网络的网络参数进行调整，并将网络参数调整后的神经网络作为实体识别模型。

5.根据权利要求4所述的实体识别方法，其特征在于，所述调用所述多粒度对齐模块对所述样本文本特征、所述图像实体标签特征、所述样本图像特征和所述图像实体特征进行对齐处理，得到第一差异数据，包括：

调用所述多粒度对齐模块对所述样本文本特征与所述样本图像特征进行对齐处理，得到文本与整图的对齐差异数据；

调用所述多粒度对齐模块对所述样本文本特征与所述图像实体特征进行对齐处理，得到文本与局部图像的对齐差异数据；

调用所述多粒度对齐模块对所述图像实体标签特征与所述样本图像特征进行对齐处理，得到图像实体标签与整图的对齐差异数据；

调用所述多粒度对齐模块对所述图像实体标签特征与所述图像实体特征进行对齐处理，得到图像实体标签与局部图像的对齐差异数据；

基于所述文本与整图的对齐差异数据、所述文本与局部图像的对齐差异数据、所述图像实体标签与整图的对齐差异数据、所述图像实体标签与局部图像的对齐差异数据，确定第一差异数据。

6.根据权利要求4所述的实体识别方法，其特征在于，所述调用所述实体识别模块对所述样本文本特征和所述样本图像特征进行实体识别处理，并基于处理结果以及所述文本实体参考标签得到第二差异数据，包括：

调用所述实体识别模块对所述样本文本特征和所述样本图像特征进行融合处理，得到融合特征；

调用所述实体识别模块对所述融合特征进行识别处理，得到处理结果，所述处理结果包括所述样本文本中文本实体的文本实体预测标签；

基于所述样本文本中文本实体的文本实体预测标签与所述文本实体参考标签，确定第二差异数据。

7.根据权利要求1-3中任一项所述的实体识别方法，其特征在于，所述待识别文本为待处理视频中的文本，所述待识别图像为所述待处理视频中与所述文本匹配的图像，所述方法还包括：

获取所述待处理视频中多个所述待识别文本的实体识别结果；

基于多个所述待识别文本的实体识别结果对所述待处理视频进行解析处理，得到所述待处理视频的解析结果，所述解析结果包括所述待处理视频的分类结果、描述信息以及拆分结果中的一种或多种。

8.一种实体识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别文本以及待识别图像，所述待识别图像与所述待识别文本相关联；

处理模块，用于利用实体识别模型对所述待识别文本以及所述待识别图像进行处理，得到所述待识别文本的第一模态特征以及所述待识别图像的第二模态特征；其中，所述实体识别模型是基于样本文本、与所述样本文本相关联的样本图像、所述样本图像包括的图像实体以及标签数据训练得到的，所述标签数据包括所述图像实体的图像实体标签以及所述样本文本包括的样本文本实体参考标签；

所述处理模块，还用于利用所述实体识别模型对所述第一模态特征以及所述第二模态特征进行处理，得到所述待识别文本的实体识别结果。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行权利要求1-7任一项所述的方法。