CN116977992A

CN116977992A - 文本信息识别方法、装置、计算机设备和存储介质

Info

Publication number: CN116977992A
Application number: CN202310544580.XA
Authority: CN
Inventors: 刘烨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-10-31

Abstract

本申请涉及一种文本信息识别方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括：获取待识别图像，从待识别图像中提取文本内容，并确定文本内容在待识别图像中所处的图像区域；将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征；基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的语义识别结果；根据不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。采用本方法能够提高文本信息识别的准确度。

Description

文本信息识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本信息识别方法、装置、计算机设备、存储介质和计算机程序产品，以及一种文本信息识别模型处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，网络资源的内容形式越来越多样化，可以包括图片、文本、视频、音频等各种形式，相比于文本，图像和视频有着更为丰富的内容和直观的表达能力。在图像和视频中还可以直接承载有文本内容，如在图像和视频中可以包括各种文本，如可以包括字幕、标题、人物介绍等各种文本信息。通过识别出图像和视频中包括的文本信息，有利于针对图像和视频进行更准确的理解，以便为图像和视频提供众多丰富的、多样的标签数据，通过这些标签数据，可以方便的进行图像和视频的归档、推荐、二次编辑等多种处理。然而，目前针对视频和图像等媒体中包括的文本信息识别的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高文本信息识别准确性的文本信息识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，以及一种文本信息识别模型处理方法、装置、计算机设备、存储介质和计算机程序产品。

第一方面，本申请提供了一种文本信息识别方法。所述方法包括：

获取待识别图像，从待识别图像中提取文本内容，并确定文本内容在待识别图像中所处的图像区域；

将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征；

基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的语义识别结果；

根据不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。

第二方面，本申请还提供了一种文本信息识别装置。所述装置包括：

图像获取模块，用于获取待识别图像，从待识别图像中提取文本内容，并确定文本内容在待识别图像中所处的图像区域；

特征融合模块，用于将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征；

语义识别模块，用于基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的语义识别结果；

文本语义信息获得模块，用于根据不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述文本信息识别方法、装置、计算机设备、存储介质和计算机程序产品，获取待识别图像，提取待识别图像中的文本内容，并确定文本内容在待识别图像中所处的图像区域，将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征，基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，并根据得到的不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。在文本信息识别的过程中，多模态融合特征是融合基于图像中文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征得到的，利用融合得到的多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，可以综合图像中不同模态特征进行语义识别，增强不同文本粒度的特征表达，有利于提高不同文本粒度语义识别的准确性，从而能够提高文本信息识别的准确性。

第六方面，本申请提供了一种文本信息识别模型处理方法。所述方法包括：

获取样本图像，通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域；

通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征；

通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果；

基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

在其中一个实施例中，通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果，包括：通过待训练的文本信息识别模型，基于多模态融合样本特征按照句子粒度针对样本文本内容进行语义识别，得到样本文本内容的样本句子语义识别结果；基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词；针对样本文本关键词进行实体关系识别，确定样本文本关键词之间的样本关键词关系信息；根据样本句子语义识别结果、样本文本关键词和样本关键词关系信息，得到不同文本粒度的样本语义识别结果。

在其中一个实施例中，还包括：基于样本句子语义识别结果对样本文本内容进行文本分类，得到样本文本内容的样本文本类别；基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词，包括：在样本文本类别属于目标样本类别的情况下，基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词。

在其中一个实施例中，基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型，包括：基于样本句子语义识别结果、样本文本关键词和样本关键词关系信息，分别确定各自的文本处理损失；将样本句子语义识别结果、样本文本关键词和样本关键词关系信息各自的文本处理损失进行加权，得到文本信息识别损失；基于文本信息识别损失，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

第七方面，本申请提供了一种文本信息识别模型处理装置。所述装置包括：

样本图像获取模块，用于获取样本图像，通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域；

样本特征融合模块，用于通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征；

样本语义识别模块，用于通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果；

模型训练更新模块，用于基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

第八方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第九方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第十方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述文本信息识别模型处理方法、装置、计算机设备、存储介质和计算机程序产品，获取样本图像，通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域，通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，并基于得到的不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。对于输入到训练完成的文本信息识别模型中的图像，融合基于图像中文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征得到多模态融合特征，利用融合得到的多模态融合特征按照不同的文本粒度分别针对样本文本内容进行语义识别，可以综合图像中不同模态特征进行语义识别，增强不同文本粒度的特征表达，有利于提高不同文本粒度语义识别的准确性，从而能够提高文本信息识别的准确性。

附图说明

图1为一个实施例中文本信息识别方法以及文本信息识别模型处理方法的应用环境图；

图2为一个实施例中文本信息识别方法的流程示意图；

图3为一个实施例中文本信息识别步骤的流程示意图；

图4为一个实施例中文本信息识别方法的视频标签示意图；

图5为一个实施例中视频描述模板示意图；

图6为一个实施例中文本信息识别模型处理方法的流程示意图；

图7为一个实施例中文本信息识别结果示意图；

图8为一个实施例中文本信息识别方法的框架结构图；

图9为一个实施例中文本框确定的流程框图；

图10为一个实施例中文本信息识别方法的识别结果示意图；

图11为一个实施例中视觉文本分类的界面示意图；

图12为一个实施例中文本信息识别装置的结构框图；

图13为一个实施例中文本信息识别模型处理装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的文本信息识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。在具体进行文本信息识别时，服务器104可以获取待识别图像，待识别图像可以是独立获得的图像，如可以是终端102通过摄像头拍摄得到的图像，待识别图像也可以是从视频中截取的视频帧图像，如待识别图像可以是服务器104从终端102发送的视频中抽取的视频帧图像。服务器104从待识别图像中提取文本内容，并确定文本内容在待识别图像中所处的图像区域，服务器104也可以接收由终端102发送的待识别图像，终端102可以从多种数据源获取视频，并从获取的视频中抽取出待识别图像，数据源具体可以为终端102上的各类软件应用，如视频播放应用、手游类应用、新闻类应用等。针对视频播放应用，终端102可以获取影视视频；针对手游类应用，终端102可以获取游戏视频；针对新闻类应用，终端102可以获取新闻视频，数据源也可以为视频浏览网址、论坛等。服务器104将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征，服务器104基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的语义识别结果，服务器104可以根据不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。服务器104可以将针对待识别图像的、属于不同文本层级的文本语义信息反馈至终端102中进行展示。

本申请实施例提供的文本信息识别模型处理方法，可以应用于如图1所示的应用环境中。服务器104可以获取样本图像，样本图像可以通过终端102获取得到，如可以由终端102直接拍摄得到，或者从终端102反馈的视频中抽取得到。通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域，服务器104可以通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征，服务器104通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果，服务器104基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种文本信息识别方法，该方法由计算机设备执行，具体可以由终端或服务器等计算机设备单独执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待识别图像，从待识别图像中提取文本内容，并确定文本内容在待识别图像中所处的图像区域。

其中，待识别图像为具有视觉效果的画面，可以用于对各类场景进行描述。待识别图像可以是用户提供的需要进行文本信息识别的图像，具体可以为用户通过终端从视频中提取得到的图像，视频可以包括影视视频、游戏视频、新闻视频以及会议视频等各类视频；待识别图像也可以是通过具有拍摄功能的设备，对各类场景进行拍摄后得到的，如可以对采访场景进行拍摄得到待识别图像，如可以对新闻播放场景进行拍摄得到待识别图像。待识别图像还可以是在软件应用运行过程中，通过设定一定的截屏时间间隔，在每一次达到截屏时间间隔时进行截屏得到的。

文本内容可以为文本表现形式的互联网资源，在表现形式上，文本内容可以属于文本模态类型，文本内容具体可以为待识别图像中的文字部分内容。图像区域可以是待识别图像中文字部分内容所在文本框覆盖的区域，在待识别图像中，当文字部分内容分布在待识别图像的底部时，其所在文本框覆盖的区域为待识别图像的底部，相应的图像区域对应位于待识别图像的底部，当文字部分内容分布在待识别图像的右上部时，其所在文本框覆盖的区域为待识别图像的右上部，则图像区域对应位于待识别图像的右上部。

具体地，服务器获取待识别图像，待识别图像可以由终端获取并向服务器发送，具体可以为终端直接获取视频，并从视频中提取得到待识别图像，终端在从视频中提取待识别图像时，可以从视频中抽取多帧视频帧作为待识别图像进行文本信息识别，也可以按照一定截屏周期针对视频进行截屏，从而得到多帧待识别图像进行文本信息识别。此外，终端也可以直接将视频发送到服务器，由服务器针对终端发送的视频进行视频帧抽取，得到需要进行文本信息识别处理的待识别图像。服务器进一步从待识别图像中提取文本内容，并确定文本内容在待识别图像中所处的图像区域。在具体实现时，服务器可以通过OCR(Optical Character Recognition，光学字符识别)技术实现文本内容提取，具体通过OCR引擎针对待识别图像进行文字识别，提取待识别图像中的文本框，从文本框中提取文本内容。根据文本内容，服务器可以确定文本内容在待识别图像中的分布信息，并基于分布信息确定文本内容在待识别图像中所处的图像区域。例如，对于通过OCR引擎从待识别图像中确定文本框后，服务器还可以利用OCR引擎提取文本框的坐标位置，服务器可以根据文本框的坐标位置，可以确定文本内容在待识别图像中所处的图像区域。

在一具体应用中，服务器在根据文本内容所属文本框的坐标位置，确定文本内容在待识别图像中所处的图像区域的过程中，可以适当扩大文本框覆盖区域的区域范围，即对文本框覆盖区域对应的信息进行扩大，具体可以将文本框覆盖区域中，文本框的坐标向外扩展，根据扩展后的文本框覆盖区域，确定图像区域，从而针对各种分辨率的待识别图像均可以实现文本信息识别，提升了兼容性。

步骤204，将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征。

其中，文本模态特征是指提取得到的文本内容属于文本模态的特征，视觉模态特征可以是指确定的图像区域属于图像模态的特征。针对不同模态的特征，可以分别设置对应的提取算法展开提取，具体可以采用基于各种算法构建的人工神经网络模型实现。在提取文本模态特征时，可以采用文本模态特征提取算法，具体可以包括BERT(BidirectionalEncoder Representation from Transformers，基于变换器的双向编码器表示)系列算法、GPT(Generative Pre-training Transformer，生成式预训练编码器)、SpanBert(Improving Pre-training by Representing and Predicting Spans，预训练语言生成模型)等各种算法。在提取视觉模态特征时，可以采用视觉模态特征提取算法，具体可以包括VIT(Vision Transformer，视觉提取模型)、Resnet(Residual Network，残差网络模型)系列、VGG(Visual Geometry Group，数据集合组)等算法。

融合可以是指将不同模态的特征进行融合，以提升特征特性的处理方式，如针对文本模态特征、视觉模态特征，可以将文本模态的特征和视觉模态的特征进行融合，从而将视觉模态特征融合到文本模态特征中或将文本模态特征融合到视觉模态特征中，通过特征融合，可以实现多特征的优势互补，获得准确性更高的识别结果。

多模态融合特征可以是指融合了视觉模态和文本模态后得到的特征。在具体进行文本模态特征和视觉模态特征融合时，可以采用Early Fusion(早融合)的融合方式将文本模态特征和视觉模态特征进行融合。Early Fusion是指在feature-level(特征水平)上进行融合，进行不同特征的concatenate(连接)，从而得到多模态融合特征。

具体地，服务器根据从文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征。在具体实现时，服务器可以针对文本内容和图像区域分别进行特征提取，具体可以针对文本内容进行基于文本模态的特征提取，得到文本内容的文本模态特征；服务器针对图像区域进行基于视觉模态的特征提取，得到图像区域的视觉模态特征。服务器可以采用early fusion的方式对文本模态特征和视觉模态特征进行融合，针对文本模态特征，可以对文本模态特征进行tokenize(标记解析)化，以将文本模态特征分割成若干个文本单元，同时对视觉模态特征也进行tokenize化，以将视觉模态特征分割成若干个图像单元，服务器进一步对文本模态特征的文本单元和视觉模态特征的视觉单元进行拼接，获得拼接结果，并将拼接结果输入到模型中进行融合，如输入到transofmer(深度学习模型)结构中进行融合，得到多模态融合特征。

步骤206，基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的语义识别结果。

其中，文本粒度可以是进行语义识别时的文本单位，文本粒度具体可以包括句子粒度、词粒度、词组粒度、短语粒度、单字粒度等。不同的文本粒度，文本所含的信息量也不同，句子粒度所含的信息量可以高于词粒度、短语粒度、词组粒度的信息量。语义识别是利用多模态融合特征，针对待识别图像中所包括文本信息的语义进行识别的处理过程，通过按照不同的文本粒度分别针对文本内容进行语义识别，可以基于多模态融合特征在不同文本单位上进行语义识别，能够得到不同文本粒度的语义识别结果。语义识别结果包括与各文本粒度对应的识别结果，语义识别结果具体可以是针对文本内容进行句子粒度、短语粒度的语义识别处理之后得到的结果。针对句子粒度，语义识别结果可以为文本内容的文本类别。针对词粒度、短语粒度等，语义识别结果可以为文本内容中的关键词，以及各关键词之间的实体链接关系等，实体链接关系具体可以用于表征关键词与关键词之间的联系。

对于不同的文本粒度，进行语义识别时的方式可以不同。基于多模态融合特征按照句子粒度进行语义识别，即基于句子粒度的识别，可以是指对文本内容进行分类的过程，即基于句子粒度的分类，可以确定出待识别图像中文本内容的文本类别。基于多模态融合特征按照词粒度进行语义识别，可以是指基于多模态融合特征进行关键词识别、建立关键词与关键词之间的联系的过程，即短语粒度、词粒度的识别处理，从而可以抽取得到文本内容中的词粒度、短语粒度的信息。

具体地，服务器基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的语义识别结果。对于不同的文本粒度，可以通过不同的语义识别任务实现，如对于句子粒度可以通过文本分类任务进行语义识别；对于词语粒度，可以基于关键词识别任务和实体链接任务实现语义识别，从而得到不同文本粒度的语义识别结果，如可以得到文本内容的文本类别、文本内容中的关键词、文本内容中关键词之间的实体关系等。

在具体实现时，服务器在确定文本内容的文本类别时，可以建立一个文本分类任务，通过文本分类任务，以对各文本内容进行分类，根据分类结果确定文本内容的文本类别。服务器在确定文本内容中的关键词时，可以采用各类词、短语的抽取算法对关键词进行抽取，如采用NER(Named Entity Recognition，命名实体识别)任务进行关键词抽取，NER是NLP(Natural Language Processing，自然语言处理)领域中的一项基础任务，NER可以用于识别文本中的人名、机构、地名、专有名词等具有特定意义的实体，文本中不同的实体可以对应不同的标签，NER在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用。服务器还可以基于确定出的文本内容中的关键词，进一步确定对各关键词之间关系进行挖掘，得到关键词之间的实体链接关系，在进行挖掘时，具体可以采用各类实体链接方式，实体链接方式可以包括基于概率生成模型的方式、基于主题模型的方式、基于图的方式、基于深度学习的方式、基于关系矩阵的方式等。

步骤208，根据不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。

其中，文本层级用于区分基于不同层次所识别的文本语义信息，文本层级可以包括句子层级、词语层级等，可以用于对不同文本粒度的语义识别结果进行划分，得到不同层次的文本语义信息。语义信息是信息的表现形式之一，是指能够消除事物不确定性的具有一定意义的信息，文本语义信息可以是指以文本形式表征待识别图像的特征的信息。例如，文本语义信息可以包括文本内容的文本类别、文本内容中的关键词，以及文本内容中各关键词之间的实体链接关系等。通过文本语义信息，可以针对待识别图像以及其中包括的文本信息进行准确描述，从而能够利用文本语义信息针对待识别图像进行各种层级化的归档、检索、二次编辑等处理。

具体地，服务器可以根据不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息，如服务器可以基于文本层级，对基于句子粒度的识别结果、基于词粒度的识别结果、基于短语粒度的识别结果等进行划分，得到句子层级的文本语义信息、词语层级的文本语义信息。在一个具体应用中，针对不同场景的待识别图像，语义识别结果会存在不同，相应的，获得的不同文本层级的文本语义信息也会不同。例如，针对采访场景的待识别图像，句子粒度的文本识别结果可以包括字幕信息，字幕信息即为句子层级的文本语义信息，词语粒度的识别结果可以包括对字幕信息的字幕信息内容进行关键词识别之后，得到的关键词以及关键词之间的实体链接关系，如关键词可以为“李梅”、“XX年XX月XX日”、“运动员”以及“获奖5次”等，实体链接关系可以为“运动员信息”，这些都可以是采访场景的词语层级的文本语义信息；针对游戏场景的待识别图像，句子粒度的文本识别结果可以为任务信息，任务信息即为句子层级的文本语义信息，在对任务信息的任务信息内容进行关键词识别后，识别到的关键词可以为“道具”、“XX地区”、“XX人物”、“XX地点”等，实体链接关系可以为“游戏任务信息”等，这些都可以是游戏场景的词语层级的文本语义信息。

上述文本信息识别方法中，获取待识别图像，提取待识别图像中的文本内容，并确定文本内容在待识别图像中所处的图像区域，将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征，基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，并根据得到的不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。在文本信息识别的过程中，多模态融合特征是融合基于图像中文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征得到的，利用融合得到的多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，可以综合图像中不同模态特征进行语义识别，增强不同文本粒度的特征表达，有利于提高不同文本粒度语义识别的准确性，从而能够提高文本信息识别的准确性。

在一个实施例中，如图3所示，针对文本内容进行的不同文本粒度的语义识别处理，即基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的语义识别结果，包括：

步骤302，基于多模态融合特征按照句子粒度针对文本内容进行语义识别，得到文本内容的句子语义识别结果。

其中，按照句子粒度针对文本内容进行语义识别可以是基于多模态融合特征，以句子为单位针对文本内容进行的语义识别处理，如可以按照一个或多个句子进行语义识别处理，以获得每个句子或者多个句子各自的句子语义识别结果。还可以按照整体文本内容进行语义识别，以确定待识别图像中文本内容的句子语义识别结果。整体文本内容可以是指独立文本内容的整体，独立文本内容可以是句子，也可以是词语，独立文本内容的具体内容可以与实际的识别场景相关，通过对文本内容按照整体进行语义识别，可以以文本内容整体的粗粒度进行语义识别，以得到文本内容粗粒度的语义识别结果。句子语义识别结果是基于文本内容的句子粒度进行语义识别得到的，根据句子语义识别结果可以对文本内容整体进行处理，如句子语义识别结果中可以包括每个句子或者多个句子各自的文本类别，基于每个句子或者多个句子各自的文本类别可以进一步对文本内容整体进行文本分类，以确定文本内容所属的文本类别。

步骤304，基于多模态融合特征按照词粒度针对文本内容进行关键词识别，得到文本内容中的文本关键词。

其中，关键词识别可以是指基于多模态融合特征，将与文本内容意义最相关的一些词语抽取出来的过程，文本关键词可以是指文本内容中具有特定意义的词，文本关键词具体可以为文本内容中的人名、机构、地名、专有名词等。针对不同场景的待识别图像，与文本内容意义最相关的文本关键词也存在不同。相比于按照句子粒度进行的语义识别处理，按照词粒度针对文本内容进行关键词识别的处理属于针对文本内容的细粒度的语义识别处理。例如，对于影视场景的文本内容，文本内容可以是“XX卫视主持人小张是一位非常知名的主持人”，则可以获取到“XX卫视主持人”和“小张”两个关键词。文本关键词是从文本内容中基于关键词识别出的关键词。

步骤306，针对文本关键词进行实体关系识别，确定文本关键词之间的关键词关系信息。

其中，实体关系识别即实体链接任务，是指对文本关键词与文本关键词之间的联系进行挖掘，以建立文本关键词和文本关键词之间的联系的过程，在进行实体关系识别时，可以包括有多种实体链接方式，如基于关系矩阵的方式，基于关系矩阵的方式具体可以是构建一个实体和实体之间的关系矩阵，用以代表两个实体是否关联，如果关联的话，用第一标识进行标记，第一标识可以为数值为1，如果不相关，用第二标识进行标记，第二标识可以为数值0。关键词关系信息用于描述文本关键词之间存在的关联关系。例如，当文本关键词为“XX卫视主持人”和“小张”两个文本关键词，那么通过实体链接任务，可以获得“XX卫视主持人”是一个职位，“小张”是人名，二者共同表达一个主持人信息，主持人信息则为关键词关系信息，则不同文本粒度的语义识别结果可以包括：“XX卫视主持人”、“小张”以及“主持人信息”。又如，当文本关键词为“XX地点”、“开会”“XX时间”以及“小李”，四者共同表达一个会议信息，会议信息则为关键词关系信息，则不同文本粒度的语义识别结果可以包括：“XX地点”、“XX时间”、“小李”以及“主持人信息”。

步骤308，根据句子语义识别结果、文本关键词和关键词关系信息，得到不同文本粒度的语义识别结果。

具体地，服务器可以基于多模态融合特征，建立文本分类任务，按照整体文本内容进行文本分类，确定待识别图像中文本内容的文本类别，将确定出的文本类别作为文本分类结果，以及基于多模态融合特征进行关键词识别，如可以采用NER任务进行关键词抽取，得到文本内容中的文本关键词，文本关键词可以包括人名、地名、时间等。例如，对于采访场景的文本内容，文本内容可以是“运动员小李在比赛中获得了冠军”，则可以获取到“运动员”、“小李”、“比赛”以及“冠军”等四个关键词。进一步针对文本关键词进行实体关系识别，确定文本关键词之间的关键词关系信息，如服务器可以采用基于关系矩阵的方式，对各关键词之间的关系进行挖掘，确定关键词之间的实体链接关系，得到文本关键词之间的关键词关系信息。其中，服务器可以直接将句子语义识别结果、文本关键词和关键词关系信息作为不同文本粒度的语义识别结果，也可以针对文本关键词和关键词关系信息进行进一步地筛选，如去除异常信息，得到不同文本粒度的语义识别结果。

在具体实现时，对于影视场景的文本内容，基于多模态融合特征按照句子粒度进行语义识别，可以确定字幕信息、广告等为句子语义识别结果，对于影视场景的文本内容，文本内容可以是“XX卫视主持人小张是一位非常知名的主持人”，则可以获取到“XX卫视主持人”和“小张”两个关键词，那么通过实体链接任务，可以获得“XX卫视主持人”是一个职位，“小张”是人名，二者共同表达一个主持人信息，主持人信息则为关键词关系信息。又如，针对会议场景，句子语义识别结果可以为会议标题、会议内容等，当文本关键词为“XX地点”、“开会”“XX时间”以及“小李”，四者共同表达一个会议信息，会议信息则为关键词关系信息。

本实施例中，服务器通过按照句子粒度进行语义识别，得到句子语义识别结果，根据关键词识别，可以得到文本内容中的文本关键词，针对文本关键词进行实体关系识别，确定文本关键词之间的关键词关系信息，根据句子语义识别结果、文本关键词和关键词关系信息，可以得到丰富的不同文本粒度的语义识别结果。

在一个实施例中，文本信息识别方法还包括：基于句子语义识别结果对文本内容进行文本分类，得到文本内容的文本类别。

具体的，文本类别与实际的识别场景有关，不同的识别场景，文本类别也会不同。文本分类可以是指对独立文本内容的整体进行处理，以确定独立文本内容所属类别的过程，具体可以根据句子语义识别结果对文本内容进行文本分类处理。句子语义识别结果中可以包括每个句子或者多个句子各自的文本类别，基于每个句子或者多个句子各自的文本类别可以进一步对文本内容整体进行文本分类，以确定文本内容所属的文本类别。

例如，句子语义识别结果中可以包括待识别图像的各个文本框中的文本内容的类别，因此，服务器可以根据句子语义识别结果中所包括的所有类别，确定文本内容的文本类别；服务器也可以从句子语义识别结果中，筛选出部分类别确定文本内容的文本类别。在具体根据句子语义识别结果，确定文本内容的类别时，可以结合句子语义识别结果中各类别的数量、各类别的特征等适应性选取。例如，针对新闻场景，服务器从新闻场景的待识别图像中识别出各种文本框，对每个文本框中所包括的文本内容基于句子粒度进行语义识别，得到一个或多个句子语义识别结果，根据一个或者多个句子语义识别结果可以对文本框整体进行文本分类，从而确定每个文本框中所包括文本内容的文本类别，可以识别出文本框中各文本内容的文本类别，识别到文本类别可以包括背景、广告、新闻标题、任务信息以及字幕信息等文本类别。

进一步地，基于多模态融合特征按照词粒度针对文本内容进行关键词识别，得到文本内容中的文本关键词，包括：在文本类别属于目标类别的情况下，基于多模态融合特征按照词粒度针对文本内容进行关键词识别，得到文本内容中的文本关键词。

其中，目标类别可以根据实际需要进行灵活设定，如可以根据业务需求进行设定，具体可以包括待识别图像的场景所需要保留的类别。目标类别可以是针对待识别图像的场景具有代表性的，能够对待识别图像进行标识的类别，如可以从标题、字幕、广告、背景等各种文本类别中根据实际需要进行设定。目标类别具体可以划分成特殊类别、重要类别、有效类别等，特殊类别、重要类别、有效类别等从大体上都可以认为是对待识别图像的场景有用的类别。如在目标类别为有效类别时，有效类别可以是对待识别图像的场景较为重要的类别，相应的，与有效类别对应的类别为无效类别，无效类别可以是对待识别图像的场景不重要的类别。其中，有效类别文本和无效类别可以是相对的概念，例如，在A场景下，某一文本类别可以是有效的，但在B场景下，其可能是无效的，A场景可以是销售场景，B可以是新闻场景，在销售场景下文本类别为广告时，该文本类别是有效的，但在新闻场景下，文本类别是广告时，该文本类别是需要滤除的。

具体地，服务器在进行关键词识别之前，可以对确定出的各文本类别进行识别，确定出目标类别，服务器可以采用预先设定的类别识别条件对文本类别进行识别，类别识别条件可以与识别场景有关，不同的识别场景，均可以对应有相应的类别识别条件。其中，若确定某一文本类别是对识别场景无用的，则后续无需对该文本类别对应的文本内容进行关键词识别，从而减少了数据处理量。当服务器确定某一文本类别为目标类别时，才会基于多模态融合特征按照词粒度针对文本内容进行关键词识别，得到文本内容中的文本关键词。在一个具体应用中，服务器可以预先针对各类识别场景以及各类识别场景各自对应的类别识别条件预先建立识别条件特征库，服务器在获取类别识别条件时，可以根据待识别场景的类别从识别条件特征库中查询得到。具体服务器可以确定待识别图像对应的待识别场景的类别，确定待识别场景的类别之后，服务器则可以根据待识别场景的类别从预先构建的识别条件特征库中查询得到待识别场景相应的类别识别条件。

本实施例中，服务器可以通过确定出目标类别，从而是基于目标类别对应的文本内容的多模态融合特征进行关键词识别的，一方面减少了数据量，可以提升文本信息识别效率；另一方面，通过对待识别场景的目标类别进行识别，使得获得的语义识别结果更具有针对性。

在一个实施例中，还可以对待识别图像中所包括的文本内容均按照不同文本粒度进行语义识别处理之后，再对处理后的语义识别结果进行筛选，得到需要的文本语义信息。具体地，文本语义信息获得的处理，即根据不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息，包括：获取文本信息筛选条件；按照文本信息筛选条件，对不同文本粒度的语义识别结果进行信息筛选，获得目标语义识别结果；根据目标语义识别结果，组合得到针对待识别图像的、属于不同文本层级的文本语义信息。

其中，文本信息筛选条件是指设定的用于对语义识别结果进行筛选的条件，可以用于去除不重要或者不需要的语义识别结果，以便滤除不满足业务需求的文本语义信息。文本信息筛选条件可以根据实际需要进行灵活设定。文本信息筛选条件具体可以和需要进行文本信息识别的场景相匹配，在每一场景下，可以对应有需要保留的文本类别以及需要过滤掉的文本类别、对应有需要保留的关键词以及可以去除的关键词、对应有需要保留的实体关系以及需要过滤掉的实体关系等。例如，针对会议场景，需要保留的文本类别可以包括会议标题信息、任务信息、地点信息等，需要保留的关键词可以是会议时间、会议地点等，实体关系可以是人物信息，具体可以包括姓名和职位等信息。文本信息筛选条件可以是基于会议场景需要保留的文本内容、关键词以及实体关系设定的。针对采访场景，需要保留的文本类别可以包括任务信息，字幕信息等，需要保留的关键词可以是采访时间、采访地点等，实体关系可以是人物信息，如姓名及其工作，文本信息筛选条件可以是基于采访场景需要保留的文本内容、关键词以及实体关系设定的。目标语义识别结果是经由文本信息筛选条件对语义识别结果进行筛选后得到的结果。

具体地，服务器获取文本信息筛选条件，如可以根据需要进行文本信息识别的场景查询得到文本信息筛选条件。具体实现时，服务器可以预先针对各类场景构建相应的文本信息筛选条件库，服务器在获取文本信息筛选条件时，可以根据实际需要从文本信息筛选条件库中查询得到。具体服务器可以确定待识别图像所属的场景类别，并从场景类别中确定当前要识别的场景，确定场景之后，服务器则可以根据场景从预先构建的文本信息筛选条件库中查询得到场景相应的文本信息筛选条件。服务器可以根据文本信息筛选条件，针对不同文本粒度的语义识别结果进行信息筛选，如针对文本分类结果，可以筛选掉背景、广告等类别的文本；而对于关键词和关键词关系而言，可以筛选出所需要类别的关键词和关键词关系。通过针对不同文本粒度的语义识别结果进行筛选，从而可以去除广告内容，或者不重要的实体，实体关系等，得到实际需要的文本语义信息，即获得目标语义识别结果。

服务器在获得目标语义识别结果之后，可以从目标语义识别结果中挑选出具有代表性的结果进行组合，得到文本语义信息，也可以直接基于所有的目标语义结果得到文本语义信息。在应用中，服务器可以将目标语义识别结果进行层级化划分，按照不同的文本层级进行结构化处理，如可以按照不同的文本层级进行排序、格式转换等，得到属于不同文本层级的文本语义信息。

本实施例中，服务器可以获取文本信息筛选条件，对不同文本粒度的语义识别结果进行信息筛选，并根据筛选获得的目标语义识别结果组合得到文本语义信息，可以筛选掉语义识别结果中大量无用的信息，保留重要的信息，可以节省存储空间，提升文本信息识别的准确度。

在一个实施例中，从待识别图像中提取文本内容，并确定文本内容在待识别图像中所处的图像区域，包括：针对待识别图像进行文本位置识别，获得待识别图像中的文本框以及文本框的分布信息；根据文本框中所包括的文本得到文本内容；根据分布信息，从待识别图像中确定文本内容所处图像区域。

其中，文本位置识别可以是指确定文本内容所在待识别图像中的位置的过程，分布信息可以包括文本内容所属文本框的位置信息，具体可以为文本框坐标，按照文本框坐标，可以从待识别图像中确定图像区域，可以作为文本内容对应的视觉框。具体地，服务器在确定文本内容所处图像区域时，可以直接将文本框所覆盖的区域确定为图像区域，即直接根据文本框的文本框坐标确定图像区域，也可以对文本框所覆盖的区域进行一定比例的扩大，即将文本框的坐标向外扩展，将扩大后的文本框所覆盖的区域确定为图像区域。在具体应用中，服务器可以根据文本框的分布信息，针对待识别图像进行图像区域定位，以从待识别图像确定出文本内容所处原始图像区域。服务器可以直接将该原始图像区域确定为文本内容所处图像区域，也可以针对该原始图像区域进行一定比例的扩展，如可以按照10％的比例进行扩展，并将扩展后的图像区域作为文本内容所处的图像区域。

本实施例中，服务器可以根据待识别图像中的文本框提取文本内容，并根据文本框的分布信息，准确的从待识别图像中提取出文本内容所处的图像区域。

在一个实施例中，将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征，包括：通过文本特征提取方式，针对文本内容进行特征提取，得到文本内容的文本模态特征；通过视觉特征提取方式，针对图像区域进行特征提取，得到图像区域的视觉模态特征；将文本模态特征和视觉模态特征进行特征拼接，获得多模态融合特征。

其中，文本特征提取方式适用于对文本内容进行特征提取处理，具体可以采用BERT系列算法展开提取；视觉特征提取方式适用于对图像内容或视频内容进行特征提取处理。特征拼接可以是将文本模态特征和视觉模态特征进行线性变换，转换成相应的特征向量，并基于特征向量进行拼接的过程。在转换成特征向量的过程中，可以为将文本模态特征转换成视觉模态特征需要的特征向量尺寸，然后将文本特征向量与视觉特征向量进行拼接，也可以将视觉模态特征转换成文本模态特征需要的特征向量尺寸，然后再将文本特征向量与视觉特征向量进行拼接。

具体地，服务器通过文本特征提取方式，针对文本内容进行特征提取，得到文本内容的文本模态特征，具体可以通过基于LSTM(Long Short-Term Memory，长短期记忆网络)、RNN(Recurrent Neural Network，循环神经网络)、Transformer、Seq2seq(Sequence-to-sequence，序列到序列)、BERT等各种算法构建的特征提取模型实现。服务器通过视觉特征提取方式，针对图像区域进行特征提取，具体可以通过基于CNN(Convolutional NeuralNetworks，卷积神经网络)、VGG(Visual Geometry Group Network，计算机视觉组网络)、Resnet、VisionTransformer(视觉转换器)算法等各种算法构建的特征提取模型实现，得到图像区域的视觉模态特征。服务器将文本模态特征和视觉模态特征进行特征拼接，获得多模态融合特征。

在具体实现时，服务器可以采用文本模态特征提取算法中的至少一种算法，针对文本内容进行特征提取，得到文本内容的文本模态特征，以及采用视觉模态特征提取算法中的至少一种算法针对图像区域进行特征提取，得到图像区域的视觉模态特征，进一步服务器将提取到的将文本模态特征和视觉模态特征进行特征拼接，获得多模态融合特征。

本实施例中，对于不同模态类型的内容，内容对应的数据结构不同，内容的特征也不同，则服务器通过各自对应的特征提取方式针对进行特征提取处理，从而确保特征表达的有效性，进一步将提取出的特征进行拼接，提升了鲁棒性。

在一个实施例中，文本信息识别可以基于文本信息识别模型实现；文本信息识别模型的训练步骤包括：获取样本图像，通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域；通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征；通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果；基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

其中，文本信息识别模型可以用于对待识别图像进行文本信息识别，得到不同文本粒度的语义识别结果。文本信息识别模型可以是基于人工智能训练得到的网络模型。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能的计算机视觉技术、语音技术、自然语言处理以及机器学习等技术。

其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

样本图像可以是样本集合中的训练样本，样本集合中可以包括不同场景下的图像，如游戏场景的图像、会议场景的图像以及影视场景的图像，还可以包括同一场景下不同时间点的图像。如针对游戏场景，可以包括游戏的时间进度达到5s时的图像、游戏的时间进度达到10s时的图像；如针对影视场景，可以包括影视播放进度达到1min时的图像、影视播放进度达到5min时的图像等。样本文本内容是从样本图像中提取的、样本图像中的文字部分内容，样本图像区域可以是样本图像中文字部分内容所在样本文本框覆盖的区域，待训练的文本信息识别模型可以设置有数据预处理层，数据预处理层可以对各样本图像进行处理，数据预处理层可以是用于训练针对输入的样本图像进行图像预处理的模型结构。

文本模态样本特征是指提取得到的样本图像的文本模态的特征，视觉模态样本特征可以是指提取得到的样本图像的图像模态的特征，在待训练的文本信息识别模型中可以包括多模态特征提取层，以针对不同的模态分别进行特征提取处理，多模态特征提取层可以是用于训练针对输入进行特征提取的模型结构，在具体应用时多模态特征提取层可以基于预先训练的特征提取模型得到。对于每一张样本图像，均可以提取到该样本图像对应的文本模态样本特征和视觉模态样本特征。融合是指基于每一张样本图像的文本模态样本特征、视觉模态样本特征进行特征融合，以将视觉模态特征融合到文本模态特征中，或将文本模态特征融合到视觉模态特征中，待训练的文本信息识别模型可以包括多模态特征融合层，用于对不同模态的特征进行融合，多模态特征融合层可以是用于训练针对提取的模态特征进行特征融合的模型结构，在具体应用时多模态特征融合层可以基于预先训练的特征融合模型得到，通过特征融合，得到多模态融合样本特征，可以实现多特征的优势互补，提升文本信息识别模型的训练精度。

样本语义识别结果指包括与各文本粒度对应的识别结果，针对句子粒度，样本语义识别结果可以包括不同样本文本框所包括的样本文本内容的类别，针对词粒度、短语粒度等，样本语义识别结果可以包括样本文本内容中的样本关键词、各样本关键词之间的实体链接关系等，实体链接关系具体可以用于表征样本关键词与样本关键词之间的联系。

对于不同的文本粒度，进行语义识别时的方式可以不同，基于多模态融合样本特征按照句子粒度针对样本文本内容进行语义识别，可以是指对样本文本内容进行分类的过程，即基于句子粒度的分类，基于多模态融合样本特征进行分类，可以确定出样本图像中各样本文本框所包括的样本文本内容的类别。基于多模态融合样本特征按照词粒度针对样本文本内容进行语义识别，可以是指基于多模态融合样本特征针对样本文本内容进行样本关键词识别的过程，即短语粒度、词粒度的识别处理，从而可以抽取得到样本文本内容中的词粒度、短语粒度的信息。在待训练的文本信息识别模型中可以包括多任务学习层，以按照不同的文本粒度分别进行语义识别处理，多任务学习层可以是用于训练针对输入进行语义识别的模型结构，在具体应用时多任务学习层可以基于预先训练的语义识别模型得到。

具体地，服务器可以获取样本图像，对于获取的样本图像，通过待训练的文本信息识别模型中的数据预处理层，对各样本图像进行处理，从样本图像中提取样本图像中的文字部分内容，进一步根据样本图像中文字部分内容所在样本文本框覆盖的区域，确定样本文本内容在样本图像中所处的样本图像区域。

针对样本文本内容和样本图像区域，服务器可以通过待训练的文本信息识别模型的多模态特征提取层，提取得到文本模态样本特征和视觉模态样本特征，并通过待训练的文本信息识别模型的多模态特征融合层，对文本模态样本特征和视觉模态样本特征进行融合，得到多模态融合样本特征。服务器可以根据待训练的文本信息识别模型的多任务学习层，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果。服务器在确定样本文本内容的类别时，可以建立一个文本分类任务，通过文本分类任务，以对各样本文本框所包括的样本文本内容进行分类，根据分类结果确定样本文本内容的类别。服务器在确定样本文本内容中的样本关键词时，可以采用各类词、短语的抽取算法对关键词进行抽取，如采用NER(Named EntityRecognition，命名实体识别)任务进行样本关键词抽取。服务器还可以基于确定出的样本文本内容中的样本关键词，进一步对各样本关键词之间的关系进行挖掘，得到样本关键词之间的实体链接关系，在进行挖掘时，具体可以采用各类实体链接方式，如可以基于概率生成模型的方式、基于主题模型的方式、基于图的方式、基于深度学习的方式、基于关系矩阵的方式等。进一步的，服务器可以根据不同文本粒度的样本语义识别结果对待训练的文本信息识别模型的模型参数进行更新，如可以对待训练的文本信息识别模型中的多任务学习层进行更新，并在更新后继续进行训练，直至训练结束，如满足训练收敛条件时结束训练，得到训练完成的文本信息识别模型。在具体应用中，服务器可以根据不同文本粒度的样本语义识别结果确定各自的损失，并基于损失对待训练的文本信息识别模型中多任务学习层的参数进行更新，并通过更新后的文本信息识别模型继续训练，直至训练结束，获得训练完成的文本信息识别模型。

本实施例中，训练完成的文本信息识别模型可以根据输入的待识别图像按照不同的文本粒度分别进行语义识别，得到不同文本粒度的语义识别结果，不需要引入多个模型分别进行语义识别，可以提升待识别图像的文本信息识别效率。

在一个实施例中，通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果，包括：通过待训练的文本信息识别模型，基于多模态融合样本特征按照句子粒度针对样本文本内容进行语义识别，得到样本文本内容的样本句子语义识别结果；基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词；针对样本文本关键词进行实体关系识别，确定样本文本关键词之间的样本关键词关系信息；根据样本文本分类结果、样本文本关键词和样本关键词关系信息，得到不同文本粒度的样本语义识别结果。

其中，样本句子语义识别结果是基于样本文本内容的句子粒度进行语义识别得到的，根据样本句子语义识别结果可以对样本文本内容整体进行处理，如样本句子语义识别结果中可以包括每个句子或者多个句子各自的样本文本类别，样本文本类别与实际的样本场景有关，不同的样本场景，样本文本类别也会不同，基于每个句子或者多个句子各自的样本文本类别可以进一步对样本文本内容整体进行文本分类，以确定样本文本内容所属的样本文本类别。样本文本关键词是指样本文本内容中具有特定意义的词，样本文本关键词具体可以为样本文本内容中的人名、机构、地名、专有名词等，样本关键词关系信息可以是指样本文本关键词与样本文本关键词共同指向的信息。

具体地，服务器通过待训练的文本信息识别模型，基于多模态融合样本特征，以句子为单位针对样本文本内容进行语义识别，如可以按照一个或多个句子进行语义识别处理，得到每个句子或者多个句子各自的样本文本类别。服务器可以基于多模态融合样本特征针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词，进一步再针对样本文本关键词进行实体关系识别，确定样本文本关键词之间的样本关键词关系信息，根据样本句子语义识别结果、样本文本关键词和样本关键词关系信息，得到不同文本粒度的样本语义识别结果。在具体实现时，服务器可以基于待训练的文本信息识别模型的多任务学习层建立文本分类任务，基于多模态融合样本特征对样本文本框中的每个句子或者多个句子进行语义识别，确定样本文本框中每个句子或者多个句子的样本文本类别，即样本句子语义识别结果。服务器可以采用待训练的文本信息识别模型的多任务学习层进行关键词抽取，识别到样本文本内容中的样本文本关键词，样本文本关键词可以包括人名、地名、时间等，进一步服务器可以基于待训练的文本信息识别模型的多任务学习层对各样本关键词之间的关系进行挖掘，得到样本关键词之间的样本关键词关系信息。

本实施例中，服务器可以根据待训练的文本信息识别模型的多任务学习层，同步的实现句子识别、关键词识别以及实体关系识别，从而大幅度提升文本信息识别模型的性能，具有灵活性、通用性和易用性。

在一个实施例中，文本信息识别方法还包括：基于样本句子语义识别结果对样本文本内容进行文本分类，得到样本文本内容的样本文本类别。

具体地，服务器可以根据样本句子语义识别结果对样本文本内容进行文本分类处理。样本句子语义识别结果中可以包括每个句子或者多个句子各自的样本文本类别，服务器可以基于每个句子或者多个句子各自的样本文本类别可以进一步对样本文本内容整体进行文本分类，以确定样本文本内容所属的样本文本类别。例如，样本句子语义识别结果中可以包括样本图像的各个样本文本框中的样本文本内容的类别，因此，服务器可以根据样本句子语义识别结果中所包括的所有类别，确定样本文本内容的样本文本类别；服务器也可以从样本句子语义识别结果中，筛选出部分类别确定样本文本内容的样本文本类别。在具体根据样本句子语义识别结果，确定样本文本内容的样本文本类别时，可以结合样本句子语义识别结果中各类别的数量、各类别的特征等适应性选取。

进一步地，基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词，包括：在样本文本类别属于目标样本类别的情况下，基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词。

其中，样本目标类别可以根据实际需要进行灵活设定，如可以根据业务需求进行设定，具体可以包括样本图像的样本场景所需要保留的类别。样本目标类别可以是针对样本图像的样本场景具有代表性的，能够对样本图像进行标识的类别，如可以从标题、字幕、广告、背景等各种样本文本类别中根据实际需要进行设定。目标类别具体可以划分成特殊类别、重要类别、有效类别等，特殊类别、重要类别、有效类别等从大体上都可以认为是对样本图像的样本场景有用的类别。如在目标类别为有效类别时，有效类别可以是对样本图像的样本场景较为重要的类别，相应的，与有效类别对应的类别为无效类别，无效类别可以是对样本图像的场景不重要的类别。

具体地，服务器在进行关键词识别之前，可以对确定出的各样本文本类别进行识别，确定出样本目标类别，服务器可以采用预先设定的样本类别识别条件对样本文本类别进行识别，样本类别识别条件可以与样本场景有关，不同的样本场景，均可以对应有相应的样本类别识别条件。其中，若确定某一样本文本类别是对样本场景无用的，则后续无需对该样本文本类别对应的样本文本内容进行关键词识别，从而减少了数据处理量。当服务器确定某一样本文本类别为样本目标类别时，才会基于多模态融合特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词。

本实施例中，服务器可以通过确定出样本目标类别，从而是基于样本目标类别对应的样本文本内容的多模态融合样本特征进行关键词识别的，一方面减少了数据量，可以提升文本信息识别效率；另一方面，通过对样本图像的样本目标类别进行识别，使得获得的样本语义识别结果更具有针对性。

在一个实施例中，基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型，包括：基于样本句子语义识别结果、样本文本关键词和样本关键词关系信息，分别确定各自的文本处理损失；将样本句子语义识别结果、样本文本关键词和样本关键词关系信息各自的文本处理损失进行加权，得到文本信息识别损失；基于文本信息识别损失，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

其中，文本处理损失可以用于表征基于不同文本粒度进行样本语义识别的性能优劣，对于不同的样本语义识别结果，分别各自对应有相应的文本处理损失，通过对样本句子语义识别结果、样本文本关键词和样本关键词关系信息各自的文本处理损失进行加权，可以确定文本信息识别损失。

例如，在确定与样本句子语义识别结果对应的文本处理损失时，可以采用CE(Cross Entropy Loss，交叉熵损失)、SML(score map loss，分数图损失)、GL(geometryloss，几何形状损失)等损失函数；在确定与样本文本关键词对应的文本处理损失时，可以采用交叉熵损失、MSE(Mean Squared Error，均方差损失)或者SL(square loss，平方损失)等损失函数；在确定与样本关键词关系信息对应的文本处理损失时，可以采用交叉熵损失、HL(hinge loss，合页损失函数)或者ABS(abs loss，绝对值损失)等损失函数。在实际确定各样本语义识别结果对应的文本处理损失时，可以根据对文本信息识别模型的训练精度要求等进行选取。

各文本处理损失可以分别设置有权重，如针对样本句子语义识别结果的文本处理损失，可以设置第一权重，针对样本文本关键词的文本处理损失，可以设置第二权重，针对样本关键词关系信息的文本处理损失，可以设置第三权重，第一权重、第二权重以及第三权重可以相同，当第一权重、第二权重以及第三权重相同时，则表明样本句子语义识别结果、样本文本关键词和样本关键词关系信息是同等重要的，在第一权重、第二权重以及第三权重相同时，第一权重、第二权重以及第三权重可以为0.33。第一权重、第二权重以及第三权重也可以不同，当第一权重、第二权重以及第三权重不同时，表明样本句子语义识别结果、样本文本关键词和样本关键词关系信息中有相对更为重要的结果，如针对综艺场景，若进行文本信息识别的主要目的是滤除掉综艺场景中，与综艺内容无关的背景、广告，以此过滤无效信息，减少数据存储量，则可以将第一权重设置的高于第二权重和第三权重，如第一权重为0.6，第二权重以及第三权重均为0.3。

具体地，服务器可以确定样本句子语义识别结果、样本文本关键词和样本关键词关系信息各自的文本处理损失，并对各文本处理损失进行加权，得到文本信息识别损失，基于文本信息识别损失，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。在具体实现时，服务器可以针对样本句子语义识别结果、样本文本关键词和样本关键词关系信息，均设置交叉熵损失得到各自对应的文本处理损失，并针对各文本处理损失设置有相同的权重，进一步对各文本处理损失进行加权，得到文本信息识别损失，并基于文本信息识别损失对待训练的文本信息识别模型中的多任务学习层的参数进行更新，通过更新后的文本信息识别模型继续训练，直至训练结束，获得训练完成的文本信息识别模型。

本实施例中，服务器通过确定各文本处理损失，对文本处理损失进行加权，得到文本信息识别损失，根据文本信息识别损失对待训练的文本信息识别模型进行训练，可以实现在同一个模型中同时学习文本分类、关键词提取以及实体链接3个任务，可以解决模型存储大、检索耗时以及重复计算等问题。

在一个实施例中，文本信息识别还包括：基于文本内容提取的文本模态特征，按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的第一语义识别结果；基于图像区域提取的视觉模态特征，按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的第二语义识别结果；将第一语义识别结果和第二语义识别结果，按照相同文本粒度进行融合，得到不同文本粒度的融合语义识别结果；根据不同文本粒度的融合语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。

其中，第一语义识别结果是指基于文本模态特征在不同文本单位上针对文本内容进行语义识别得到的结果，如按照句子粒度对文本模态特征进行识别、按照词组粒度对文本模态特征进行识别，得到第一语义识别结果。第二语义识别结果是指基于视觉模态特征在不同文本单位上针对文本内容进行语义识别得到的结果，如按照句子粒度对视觉模态特征进行识别、按照词组粒度对视觉模态特征进行识别，得到第二语义识别结果。融合语义识别结果可以是指基于各模态特征的语义识别结果进行融合得到的结果，对于第一语义识别结果和第二语义识别结果，可以选取基于相同粒度进行语义识别的识别结果进行融合，即针对识别结果进行特征融合，获得句子粒度的融合语义识别结果、词组粒度的融合语义识别结果，在根据融合语义识别结果，确定不同文本层级的文本语义信息时，仍然也可以依据文本层级，对句子粒度的融合语义识别结果、词组粒度的融合语义识别结果进行划分，得到句子层级的文本语义信息，词语层级的文本语义信息。

具体地，服务器分别对文本模态特征、视觉模态特征进行不同的文本粒度的语义识别，得到文本模态特征对应的第一语义识别结果，视觉模态特征对应的第二语义识别结果，将第一语义识别结果和第二语义识别结果，按照相同文本粒度进行融合，得到不同文本粒度的融合语义识别结果，根据不同文本粒度的融合语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。在具体实现时，服务器可以采用Late Fusion的方式对文本模态特征和视觉模态特征进行融合，即不在特征水平上对文本模态特征和视觉模态特征进行融合，而是分别对文本模态特征的识别结果、视觉模态特征的识别结果进行融合。其中，Late Fusion是指在各特征的score-level(预测分数)上进行融合，late fusion可以包括基于注意力机制的方式，如基于self-attention(自注意力机制)的Transformer(转换模型)、基于soft-attention(软注意力机制)等，late fusion还可以包括获取预测分数的average(平均值)、最大值(maximum)、weighted average(加权平均)等方式，在实际进行特征融合的过程中，可以根据对融合的精度需求选择合适的融合方式进行不同模态的特征融合。

本实施例中，对于不同模态类型的内容，内容对应的数据结构不同，内容的特征也不同，则服务器通过各自对应的特征提取方式针对进行特征提取处理，从而确保特征表达的有效性，进一步将提取出的特征的语义识别结果进行融合，提升了鲁棒性。

在一个实施例中，待识别图像是从待识别视频中提取的视频帧图像；文本信息识别还包括：基于文本语义信息生成层级化标签；根据层级化标签，得到用于标识待识别视频的视频标签。

其中，待识别视频可以是指获取的各种形式的视频信息，如终端中呈现的视频文件、多媒体信息等，待识别视频的获取来源不同，相应所属类别也可以不同。例如，若待识别视频为从运行于终端上的视频播放应用中获取的，则待识别视频可以为影视视频，若待识别视频为从运行于终端上的手游类应用中获取的，则待识别视频可以为游戏视频。

视频帧图像可以是指对待识别视频进行关键帧提取后得到的关键帧，针对同一个待识别视频，可以只从待识别视频中提取一帧图像作为视频帧图像，也可以从待识别视频中提取多帧图像作为视频帧图像，具体提取的帧数可以根据待识别视频的实际属性，如待识别视频的时长、内容等进行确定。在从待识别视频中提取视频帧图像时，可以采用均匀采样、帧间差异等方式展开提取，例如，在采用均匀采样提取待识别视频中的视频帧图像时，可以是设定一定的帧数间隔或者时长，在每次达到设定的帧数间隔或者时长时，对待识别视频进行截图，获得视频帧图像。在采用帧间差异提取待识别视频的视频帧图像时，可以对比待识别视频的各帧图像间的相似度，将差异大的，如差异超过阈值的，确定为视频帧图像。

标签可以用来标识事物的目标、分类或内容等，通过设置标签，可以便于查找和定位目标事物，层级化标签可以是指与各层级的文本语义信息对应的标签，如文本语义信息为句子层级，则层级化标签为句子层级的标签，如文本语义信息为词层级，则层级化标签为词层级的标签，获得的层级化标签可以应用到视频下游任务当中，包括视频存储、视频搜索、视频推荐等，如在视频存储中，通过提取到的层级化标签，能够有效的对视频进行存储，在视频搜索中，通过用户输入去匹配层级化标签，能够对视频有效的进行召回。

视频标签是指从层级化标签中选取出的标签，可以用于对待识别视频进行标识，在从层级化标签中选取视频标签时，可以将所有的层级化标签均作为视频标签，也可以只选取部分层级化标签作为视频标签，如当提取出的层级化标签的数量较少时，则可以将所有的层级化标签均作为视频标签，当提取出的层级化标签数量较多或者存在重复的情况下，则可以筛选出若干个层级化标签作为视频标签，在具体进行筛选时，可以依据层级化标签出现的次数、重要程度以及预先对各层级化标签设置的权重等展开筛选，如将满足权重阈值的权重对应的层级化标签选取为视频标签、将出现次数达到次数阈值的层级化标签选取为视频标签等。

具体地，服务器根据文本语义信息生成层级化标签，进一步根据层级化标签，得到用于标识待识别视频的视频标签。在具体实现时，服务器可以按照一定的时间间隔对待识别视频进行分段，如针对时长为15s的待识别视频，服务器可以以5s为一个时间间隔，将待识别视频分为三段，服务器可以在每一段中提取至少一帧关键帧，每一帧关键帧均可以作为待识别图像进行处理，得到层级化标签，针对每一个关键帧的层级化标签，综合得到视频标签，服务器在根据层级化标签确定视频标签时，可以根据实际待识别图像所属的场景来筛选，如待识别图像所属的场景为会议场景，则筛选出的层级化标签可以是与会议时间、会议地点有关的层级化标签，如待识别图像所属的场景为新闻场景，则筛选出的视频标签可以是与人物属性、时间等有关的层级化标签。

在一具体应用中，如图4所示，为针对各不同的视频，服务器均可以提取出其对应的视频标签，如针对视频1，其生成的视频标签可以包括：“西红柿的烹饪方式”、“西红柿”、“小张”以及“美食界面”，在视频下游任务当中，如在视频搜索任务中，通过用户输入去匹配视频标签，能够对视频有效的进行召回。

本实施例中，服务器基于文本语义信息生成层级化标签，根据层级化标签，得到用于标识待识别视频的视频标签，由于层级化标签包括句子粒度和词粒度的标签，因此，获得的视频标签更加丰富和立体。

在一个实施例中，待识别图像是从待识别视频中提取的视频帧图像；文本信息识别还包括：确定待识别视频所属的场景；获取场景关联的视频描述模板；通过文本语义信息对视频描述模板进行更新，获得针对待识别视频的视频描述信息。

其中，场景可以表征待识别图像所处的情景，视频描述模板是指可以对文本语义信息进行存储的模板，可以对待识别视频进行描述，具体可以为对各层级的文本语义信息进行结构化的描述，实现结构化的存储，视频描述信息是指可以对待识别视频进行记录、归纳、分析的信息，通过文本语义信息对视频描述模板进行更新，获得针对待识别视频的视频描述信息。

针对不同的场景，可以对应有相应的视频描述模板，当场景为会议时，对应的视频描述模板可以会议模板，当场景为教育场景时，对应的视频描述模板可以为教育培训模板，当场景为游戏场景时，对应的视频描述模板可以为游戏攻略模板。在不同的视频描述模板中，涉及到的描述内容也可以不同，如针对会议模板，描述内容可以包括会议时间、会议地点、会议主题以及会议参与任务等内容，针对游戏攻略模板，描述内容可以包括游戏经验、游戏心得等内容，针对教育培训模板，描述内容可以包括培训主题、培训时间以及培训人物等内容。

具体地，服务器确定待识别视频所属的场景，获取场景关联的视频描述模板，通过文本语义信息对视频描述模板进行更新，获得针对待识别视频的视频描述信息。在具体实现时，服务器可以针对待识别视频所属的场景，查询得到待识别视频场景所对应的视频描述模板。例如，服务器可以预先针对各类待识别视频以及各类待识别视频各自对应的场景，预先构建相应的视频描述模板特征库，服务器在获取视频描述模板时，可以根据实际需要从视频描述模板特征中查询得到。具体服务器可以确定待识别视频所属的场景类别，并从场景类别中确定当前要识别的场景，确定场景之后，服务器则可以根据场景从预先构建的视频描述模板特征库中查询得到场景相应的视频描述模板。

在一具体应用中，如图5所示，为与会议场景关联的视频描述模板，会议场景的视频描述模板具体由标题+内容的信息组成，标题具体可以为参会时间、会议地点、参会人物、会议主题以及主持人等，在未对会议场景关联的视频描述模板进行更新之前，模板中标题对应的内容为空，通过识别出的与会议场景相关的文本语义信息对视频描述模板进行更新，各标题对应的内容可以进行结构化的描述，实现结构化的存储。

本实施例中，服务器通过采用视频描述模板对文本语义信息进行结构化存储，以此可以对文本语义信息更为直观的描述，进行可视化的描述，方便用户快速的了解视频的内容。

在一个实施例中，如图6所示，提供了一种文本信息识别模型处理方法，该方法由计算机设备执行，具体可以由终端或服务器等计算机设备单独执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤602，获取样本图像，通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域。

其中，文本信息识别模型可以用于对待识别图像进行文本信息识别，得到不同文本粒度的语义识别结果。文本信息识别模型可以是基于人工智能训练得到的网络模型。

具体地，服务器可以获取样本图像，对于获取的样本图像，通过待训练的文本信息识别模型各样本图像进行处理，从样本图像中提取样本图像中的文字部分内容，进一步确定样本文本内容在样本图像中所处的样本图像区域。

步骤604，通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征。

其中，文本模态样本特征是指提取得到的样本图像的文本模态的特征，视觉模态样本特征可以是指提取得到的待识别图像的图像模态的特征。在待训练的文本信息识别模型中可以包括多种不同的多模态特征提取层，以针对不同的模态分别进行特征提取处理，多模态特征提取层可以是用于训练针对输入进行特征提取的模型结构，在具体应用时多模态特征提取层可以基于预先训练的特征提取模型得到。对于每一张样本图像，均可以提取到该样本图像对应的文本模态样本特征和视觉模态样本特征。

具体地，服务器针对样本文本内容和样本图像区域，可以通过待训练的文本信息识别模型的多模态特征提取层，提取得到文本模态样本特征和视觉模态样本特征，并通过待训练的文本信息识别模型的多模态特征融合层，对文本模态样本特征和视觉模态样本特征进行融合，得到多模态融合样本特征。

步骤606，通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果。

具体地，服务器可以根据待训练的文本信息识别模型的多任务学习层，基于多模态融合样本特征按照不同的文本粒度分别进行语义识别，得到不同文本粒度的样本语义识别结果。

步骤608，基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

具体地，服务器可以根据不同文本粒度的样本语义识别结果对待训练的文本信息识别模型的模型参数进行更新，如可以对待训练的文本信息识别模型中的多任务学习层进行更新，并在更新后继续进行训练，直至训练结束，如满足训练收敛条件时结束训练，得到训练完成的文本信息识别模型。在具体应用中，服务器可以根据不同文本粒度的样本语义识别结果确定各自的损失，并基于损失对待训练的文本信息识别模型中多任务学习层的参数进行更新，并通过更新后的文本信息识别模型继续训练，直至训练结束，获得训练完成的文本信息识别模型。训练完成的文本信息识别模型可以根据输入的待识别图像按照不同的文本粒度分别进行语义识别，得到不同文本粒度的语义识别结果。

上述文本信息识别模型处理方法中，获取样本图像，通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域，通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，并基于得到的不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。对于输入到训练完成的文本信息识别模型中的图像，融合基于图像中文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征得到多模态融合特征，利用融合得到的多模态融合特征按照不同的文本粒度分别针对样本文本内容进行语义识别，可以综合图像中不同模态特征进行语义识别，增强不同文本粒度的特征表达，有利于提高不同文本粒度语义识别的准确性，从而能够提高文本信息识别的准确性。

本申请还提供一种应用场景，该应用场景应用上述的文本信息识别方法以及文本信息识别模型处理方法。具体地，该文本信息识别方法以及文本信息识别模型处理方法在该应用场景的应用如下：

随着硬件、网络、音视频处理、人工智能等底层技术不断发展，各种1080、4K等优质高清视频浏览变得常态化。而相比于文本介质，视频有着更为丰富的内容和直观的表达能力。伴随着各大平台的兴起，大量形形色色的视频内容纷至沓来，用户对于视频内容的浏览和消费兴趣更加强烈，需求也更加多样。而不论是用于内容搜索、推荐，还是内容聚合，都离不开基础的分类和标签识别技术。本实施例提出一种统一的模型，能够融合视频多模态的信息，同时提取视频多个层级化的标签，并且定义一套标签体系进行结构化的存储。

近年来，随着海量视频的生产，视频理解任务变得尤为重要。视频理解任务能够提供众多丰富的、多样的标签数据，通过这些标签数据，用户可以方便的进行视频归档，视频推荐，视频二次编辑等。因此提取丰富的多层级的标签，并且进行结构化存储，有着非常重要的应用意义。

目前业界提取标签的主流做法是，通过各个原子能力提取不同的标签。如图7所示，传统方式中可以通过ASR(Automatic Speech Recognition，自动语音识别技术)，提取说话人语音文本，然后通过OCR提取图像中出现的文本，通过公共人脸提取人物信息等。其中，视觉画面中出现的视觉文本尤为重要，包含了重要的诸如人物信息，说话人的字幕，当前新闻的标题信息等。传统提取视频视觉信息的方法主要是通过OCR的方法，通过OCR定位并检测到视频图像中的所有文本框，输出文本信息以及文本框坐标位置。之后，通过NLP中的命名实体识别的方法去提取文本中的关键词和关键短语信息，最后保存所有的信息，如节目信息、片段信息、场景信息以及镜头信息等，具体可以包括人物信息、片段层标签、组织机构、时间以及事件活动等。传统方法中，OCR中存在大量无用的信息，如广告，背景等，而这些信息并不需要存储；而且，提取出来的关键词和关键短语并没有进行结构化的处理，比如新闻视频当中出现的人物信息一般都是由职位+姓名组成，但是传统方法没有进行该信息的关联。如图7中，针对一个视频中的不同片段，可以针对视频中所包括的文本信息，定位到每个时间点的文本信息，如在00:01:29-00:01:33的片段中，识别到在采访画面中，显示的文本框中包括人物介绍信息“一级运动员杜X”以及此时对应的字幕消息“今天很高兴能参加比赛”。基于视频中不同片段中的文本信息，可以获得视频的描述信息，具体可以包括镜头列表、人物信息、片段层标签、组织机构、时间以及事件活动等各种视频相关信息。

基于此，本实施例提供的文本信息识别方法，设计了一个统一的视频文本关键信息提取的方案，只需要一个模型即可提取句子粒度的文本、词粒度的文本等多层级的文本，并将其进行结构化处理。

如图8所示，为本实施例提供的文本信息识别方法的算法框架结构图，算法框架结构图包括4个模块：数据预处理模块、多模态特征提取模块、多模态特征融合以及多任务学习模块；系统框架的大致处理流程包括：首先，提取视频中的关键帧；其次，通过OCR引擎提取关键帧中出现的所有的文本框，然后对文本框提取多模态的特征；进一步的，进行多模态特征融合，最后进行多任务学习，即同时学习文本分类，实体识别以及识别链接的任务。从而能够同时提取视频文本中有用的关键信息，过滤无效信息，同时提取关键实体并进行实体之间关系的挖掘。

具体地，对于数据预处理模块，包括提取关键帧和OCR提取视频文本两个步骤，首先，对原始视频，可以提取原始视频中的关键帧。提取方法可以使用简单的均匀采样的方法，以及算法模型的方法，比如ffmpeg(Fast Forward Mpeg，开源计算机程序)中自带的抽帧工具，原理主要是计算帧之间的差异，进而获取关键帧。其次，在关键帧上可以利用OCR引擎提取视频文本的文字以及相应的坐标位置，整个流程可以如图9所示，服务器可以通过文字识别工具，具体通过OCR工具进行文字识别，提取文本框，可以包括文本框1、文本框2和文本框3等多个文本框，从文本框中可以提取文本内容，并同时提取文本框的文本框坐标，如文本框1坐标范围为[658 334 951 307]，其中每个数值用于表示文本框的四个顶点位置，文本框2坐标范围为[958 334 1012 307]，文本框3坐标范围为[658292 1164 298]。服务器可以根据文本框的坐标，确定文本内容在关键帧中的视觉框，即文本框所处的图像区域。

其中，多模态特征提取模块，可以通过所有的检索任务归结出几个模态，针对不同的模态设置不同的encoder(编码器)提取各个模态的特征，主要包含文本模态和图像模态，具体可以设置2种encoder：文本模态encoder、视觉模态encoder，提取视觉特征encoder可以利用VIT、resnet、VGG等提取特征,文本信息可以利用BERT7系列算法进行提取，包括BERT、GPT、SpanBert等。

其中，多模态信息融合模块：多模态信息融合的目的在于将多个模态的特征融合，将图像信息融合到文本信息中。主要的融合方法包括early fusion和late fusion。earlyfusion就是在特征上(feature-level)进行融合，进行不同特征的连接(concatenate)，输入到一个模型中进行训练；late fusion指的是在预测分数(score-level)上进行融合，常见的late fusion方法有取分数的平均值(average)、最大值(maximum)、加权平均(weighted average)，基于注意力机制的方法。如基于self-attention的Transformer方法，以及基于soft-attention的方法等。

其中，图8中涉及到的是利用early fusion的方法，首先将每个文本框图像进行tokenize化，同时每个文本框的文本也进行tokenize化，之后可以将文本侧的token以及视觉侧的token，对应图8中的B^*进行拼接，作为输入，送到transofmer结构中进行融合，文本侧的token可以对应图8中的T^*，视觉侧的token，可以对应图8中的B^*。拼接格式如下式(1)：

s＝{[CLS],t₁,…，t_N,[SEP],V₁,…，V_M,[PAD],…} (1)

其中，s为拼接特征，[CLS]表示标志放在第一个句子的首位，经过BERT得到的表征向量C可以用于后续的分类任务，t₁表示第一个文本框中文本特征，t_N示第N个文本框中文本特征，[SEP]标志用于分开两个输入句子，例如输入句子A和B，要在句子A、B后面增加[SEP]标志，V₁第一个文本图像特征，V_M为第N个文本图像特征，[PAD]为填充值。

对于多任务学习模块，本实施例提供的文本信息识别方法的目标在于在一个统一模型下，同时得到视觉文本的类别信息，文本中出现的关键词信息，以及关键词之间的关系信息。因此，通过设置三个任务进行联合学习，包含视觉文本分类任务，关键词识别任务以及实体链接任务，视觉文本分类任务中的h_i表征文本特征隐藏向量第i个数值，W_vis表征文本框分类任务投影矩阵，h_iW_vis是指文本框特征经过投影之后的特征，关键词识别任务中的W_txt是指实体识别任务投影矩阵，在实体链接任务中，NM是指实体i，IDT是指实体j。三个任务最终获得的效果如图10所示，图10可以为针对一个采访场景的图像进行文本信息识别之后，最终提取到的信息，对于采访场景的文本内容，字幕信息可以是“运动员小李在XX比赛中获得了冠军”，身份信息可以为“运动员”，姓名可以为“小李”，主题可以是“开展全民健身运动”，实体关系可以是运动员的身份联系信息(运动员，小李)。

其中，对于视觉文本分类任务，视觉文本分类任务中可以存在大量的无效样本，如图11中的1102和1104部分，可能包含大量的背景文本以及广告文本，这些文本不仅没有任何用处，还会导致下游任务的性能下降。因此可以建立一个视频文本分类任务，该任务通过对视频文本进行分类，进而过滤大量的无效样本。我们聚焦的有效类别可以包含新闻标题，任务信息，字幕信息等。

其中，针对关键词抽取任务，OCR提取到的文本信息是句子级别的，然而对于某些下游任务，如视频检索，需要更加细粒度的标签信息，因此我们需要提取词粒度或者短语粒度的标签出来，因此我们设置一个关键词的抽取算法去抽取词/短语粒度的信息出来。常见的词/短语粒度信息抽取技术的方法主要是命名实体识别(NER)任务。NER是NLP领域中的一项基础任务，能够提取文本中的实体标签，在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用，一直是热点研究方向之一。典型的NER任务是一种序列标注任务，序列标注可以认为是token级别的文本分类,在序列标注中，我们想对一个序列的每一个元素标注一个标签。一般来说，一个序列指的是一个句子，而一个元素指的是句子中的一个词。序列标注方式常用的有两种：BIO标注法和BIOES标注法。B-begin，代表实体的开头，I-inside，代表实体的中间，O-outside，代表非实体，用于标记无关字符，E-end，代表实体的结尾，S-single，代表单个字符，本身就是一个实体。

其中，针对实体链接任务，在获取到关键词和关键短语信息后，需要去挖掘词和词之间的联系。例如，原始文本是“XX卫视主持人小张是一位非常知名的主持人”，我们能够获取到“XX卫视主持人”和“小张”两个关键词，那么通过实体链接任务，我们能够获得“XX卫视主持人”是一个职位，“小张”是人名，二者共同表达一个主持人信息。常见的实体链接的方法是关系矩阵的方法。我们通过构建一个实体和实体之间的关系矩阵，如下图所示。其中D(i,j)代表两个实体i和j是否关联，如果关联的话，数值为1，如果不相关，数值是0，实体链接的公式具体如下式(2)：

其中，N实体i的特征向量长度，I表示实体j的特征向量长度，表示实体i开始位置的特征值，/>表示实体i结束位置的特征值，/>表示实体i特征向量的平均值，/>表示实体j开始位置的特征值，/>表示实体j结束位置的特征值，表示实体j特征向量的平均值。

最终，通过将三个任务的损失函数进行加权，得到最终的损失函数，损失计算公式如下式(3)：

L＝αL_BTC+βL_ER+(1-α-β)L_EL (3)

其中，L_BTC表示文本分类的损失函数值，L_ER表示实体识别的损失函数值，L_EL表示实体链接的损失函数值，其中α、β是为了调整三个任务损失函数之间的权重。

本实施例提供的算法框架结构，能够同时提取视频文本中有用的关键信息，过滤无效信息，同时提取关键实体并进行实体之间关系的挖掘，本方法能应用到多个视频下游任务当中，包括视频存储，视频搜索，视频推荐等，提升算法的效果，进而提升产品的体验。应用到视频存储中，通过提取到的结构化的多层级视频标签体系，能够有效的对视频进行存储。应用到视频搜索中，通过用户输入去匹配层级化更加丰富的标签，能够对视频有效的进行召回。

本实施例提供的文本信息识别方法，在只需要训练一个模型的基础上，能够获取有效类别范围内的不同力度的标签信息，解决模型存储大、检索耗时以及重复计算等问题。应用多种视频下游任务当中，具有很高的通用性、灵活性、易用性。具体地，首先提取视频关键帧，其次利用OCR获取视频文本以及位置信息，利用一个统一的多模态编码器，对多模态数据进行编码并进行融合，最后利用多任务学习范式，同时学习文本分类，关键词抽取以及关键词链接3个任务。本实施例提供的文本信息识别方法，能够应用在任何多模态下游任务当中，而不需改变主干网的网络结构，在不增加运行时间的前提下，大幅度提升模型的性能，具有灵活性、通用性和易用性。

本实施例提供的文本信息识别方法，通过视频文本关键信息抽取，能够获得层级化的标签体系，包括句子粒度和词粒度的标签，标签更加丰富和立体。因此，丰富的标签信息能够有效的应用到下游任务当中，包括视频归档，视频检索和视频推荐，显著的有益效果是通用性强，能够无缝衔接到多种视频当中，包括新闻视频，短视频，综艺视频等，具有很强的通用性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本信息识别方法的文本信息识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本信息识别装置实施例中的具体限定可以参见上文中对于文本信息识别方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种文本信息识别装置1200，包括：图像获取模块1202、特征融合模块1204、语义识别模块1206和文本语义信息获得模块1208，其中：

图像获取模块1202，用于获取待识别图像，从待识别图像中提取文本内容，并确定文本内容在待识别图像中所处的图像区域；

特征融合模块1204，用于将基于文本内容提取的文本模态特征和基于图像区域提取的视觉模态特征进行融合，得到多模态融合特征；

语义识别模块1206，用于基于多模态融合特征按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的语义识别结果；

文本语义信息获得模块1208，用于根据不同文本粒度的语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。

在一个实施例中，语义识别模块1206，还用于基于多模态融合特征按照句子粒度针对文本内容进行语义识别，得到文本内容的句子语义识别结果；基于多模态融合特征按照词粒度针对文本内容进行关键词识别，得到文本内容中的文本关键词；针对文本关键词进行实体关系识别，确定文本关键词之间的关键词关系信息；根据句子语义识别结果、文本关键词和关键词关系信息，得到不同文本粒度的语义识别结果。

在一个实施例中，文本信息识别装置还包括文本分类模块；文本分类模块，用于基于句子语义识别结果对文本内容进行文本分类，得到文本内容的文本类别；语义识别模块1206，还用于在文本类别属于目标类别的情况下，基于多模态融合特征按照词粒度针对文本内容进行关键词识别，得到文本内容中的文本关键词。

在一个实施例中，图像获取模块1202，还用于针对待识别图像进行文本位置识别，获得待识别图像中的文本框以及文本框的分布信息；根据文本框中所包括的文本得到文本内容；根据分布信息，从待识别图像中确定文本内容所处图像区域。

在一个实施例中，特征融合模块1204，还用于通过文本特征提取方式，针对文本内容进行特征提取，得到文本内容的文本模态特征；通过视觉特征提取方式，针对图像区域进行特征提取，得到图像区域的视觉模态特征；将文本模态特征和视觉模态特征进行特征拼接，获得多模态融合特征。

在一个实施例中，文本信息识别装置还包括模型训练模块；模型训练模块，用于获取样本图像，通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域；通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征；通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果；基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

在一个实施例中，模型训练模块，还用于通过待训练的文本信息识别模型，基于多模态融合样本特征按照句子粒度针对样本文本内容进行语义识别，得到样本句子语义识别结果；基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词；针对样本文本关键词进行实体关系识别，确定样本文本关键词之间的样本关键词关系信息；根据样本句子语义识别结果、样本文本关键词和样本关键词关系信息，得到不同文本粒度的样本语义识别结果。

在一个实施例中，模型训练模块还包括样本分类模块；样本分类模块，用于基于样本句子语义识别结果对样本文本内容进行文本分类，得到样本文本内容的样本文本类别；模型训练模块，还用于在样本文本类别属于目标样本类别的情况下，基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词。

在一个实施例中，模型训练模块，还用于基于样本句子语义识别结果、样本文本关键词和样本关键词关系信息，分别确定各自的文本处理损失；将样本句子语义识别结果、样本文本关键词和样本关键词关系信息各自的文本处理损失进行加权，得到文本信息识别损失；基于文本信息识别损失，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

在一个实施例中，文本信息识别装置还包括晚融合处理模块，用于基于文本内容提取的文本模态特征，按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的第一语义识别结果；基于图像区域提取的视觉模态特征，按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的第二语义识别结果；将第一语义识别结果和第二语义识别结果，按照相同文本粒度进行融合，得到不同文本粒度的融合语义识别结果；根据不同文本粒度的融合语义识别结果，获得针对待识别图像的、属于不同文本层级的文本语义信息。

在一个实施例中，文本信息识别装置还包括视频标签提取模块，用于基于文本语义信息生成层级化标签；根据层级化标签，得到用于标识待识别视频的视频标签。

在一个实施例中，文本信息识别装置还包括描述信息获取模块，用于确定待识别视频所属的场景；获取场景关联的视频描述模板；通过文本语义信息对视频描述模板进行更新，获得针对待识别视频的视频描述信息。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本信息识别模型处理方法的文本信息识别模型处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本信息识别模型处理装置实施例中的具体限定可以参见上文中对于文本信息识别模型处理方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种文本信息识别模型处理装置1300，包括：样本获取处理1302、样本特征融合模块1304、样本语义识别模块1306和模型训练更新模块1308，其中：

样本图像获取1302，用于获取样本图像，通过待训练的文本信息识别模型从样本图像中提取样本文本内容，并确定样本文本内容在样本图像中所处的样本图像区域；

样本特征融合模块1304，用于通过待训练的文本信息识别模型，将基于样本文本内容提取的文本模态样本特征和基于样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征；

样本语义识别模块1306，用于通过待训练的文本信息识别模型，基于多模态融合样本特征按照不同的文本粒度分别针对样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果；

模型训练更新模块1308，用于基于不同文本粒度的样本语义识别结果，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

在一个实施例中，样本语义识别模块1306，还用于通过待训练的文本信息识别模型，基于多模态融合样本特征按照句子粒度针对样本文本内容进行语义识别，得到样本文本内容的样本句子语义识别结果；基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词；针对样本文本关键词进行实体关系识别，确定样本文本关键词之间的样本关键词关系信息；根据样本句子语义识别结果、样本文本关键词和样本关键词关系信息，得到不同文本粒度的样本语义识别结果。

在一个实施例中，样本语义识别模块1306，还用于基于样本句子语义识别结果对样本文本内容进行文本分类，得到样本文本内容的样本文本类别；在样本文本类别属于目标样本类别的情况下，基于多模态融合样本特征按照词粒度针对样本文本内容进行关键词识别，得到样本文本内容中的样本文本关键词。

在一个实施例中，模型训练更新模块1308，还用于基于样本句子语义识别结果、样本文本关键词和样本关键词关系信息，分别确定各自的文本处理损失；将样本句子语义识别结果、样本文本关键词和样本关键词关系信息各自的文本处理损失进行加权，得到文本信息识别损失；基于文本信息识别损失，对待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的文本信息识别模型。

上述文本信息识别装置、文本信息识别模型处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本信息识别数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息识别方法或一种文本信息识别模型处理方法中的至少一种方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文本信息识别方法，其特征在于，所述方法包括：

获取待识别图像，从所述待识别图像中提取文本内容，并确定所述文本内容在所述待识别图像中所处的图像区域；

将基于所述文本内容提取的文本模态特征和基于所述图像区域提取的视觉模态特征进行融合，得到多模态融合特征；

基于所述多模态融合特征按照不同的文本粒度分别针对所述文本内容进行语义识别，得到不同文本粒度的语义识别结果；

根据所述不同文本粒度的语义识别结果，获得针对所述待识别图像的、属于不同文本层级的文本语义信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多模态融合特征按照不同的文本粒度分别针对所述文本内容进行语义识别，得到不同文本粒度的语义识别结果，包括：

基于所述多模态融合特征按照句子粒度针对所述文本内容进行语义识别，得到所述文本内容的句子语义识别结果；

基于所述多模态融合特征按照词粒度针对所述文本内容进行关键词识别，得到所述文本内容中的文本关键词；

针对所述文本关键词进行实体关系识别，确定所述文本关键词之间的关键词关系信息；

根据所述句子语义识别结果、所述文本关键词和所述关键词关系信息，得到不同文本粒度的语义识别结果。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述句子语义识别结果对所述文本内容进行文本分类，得到所述文本内容的文本类别；

所述基于所述多模态融合特征按照词粒度针对所述文本内容进行关键词识别，得到所述文本内容中的文本关键词，包括：

在所述文本类别属于目标类别的情况下，基于所述多模态融合特征按照词粒度针对所述文本内容进行关键词识别，得到所述文本内容中的文本关键词。

4.根据权利要求1所述的方法，其特征在于，所述从所述待识别图像中提取文本内容，并确定所述文本内容在所述待识别图像中所处的图像区域，包括：

针对所述待识别图像进行文本位置识别，获得所述待识别图像中的文本框以及所述文本框的分布信息；

根据所述文本框中所包括的文本得到文本内容；

根据所述分布信息，从所述待识别图像中确定所述文本内容所处图像区域。

5.根据权利要求1所述的方法，其特征在于，所述将基于所述文本内容提取的文本模态特征和基于所述图像区域提取的视觉模态特征进行融合，得到多模态融合特征，包括：

通过文本特征提取方式，针对所述文本内容进行特征提取，得到所述文本内容的文本模态特征；

通过视觉特征提取方式，针对所述图像区域进行特征提取，得到所述图像区域的视觉模态特征；

将所述文本模态特征和所述视觉模态特征进行特征拼接，获得多模态融合特征。

6.根据权利要求1所述的方法，其特征在于，所述方法基于文本信息识别模型实现；所述文本信息识别模型的训练步骤包括：

获取样本图像，通过待训练的文本信息识别模型从所述样本图像中提取样本文本内容，并确定所述样本文本内容在所述样本图像中所处的样本图像区域；

通过所述待训练的文本信息识别模型，将基于所述样本文本内容提取的文本模态样本特征和基于所述样本图像区域提取的视觉模态样本特征进行融合，得到多模态融合样本特征；

通过所述待训练的文本信息识别模型，基于所述多模态融合样本特征按照不同的文本粒度分别针对所述样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果；

基于所述不同文本粒度的样本语义识别结果，对所述待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的所述文本信息识别模型。

7.根据权利要求6所述的方法，其特征在于，所述通过所述待训练的文本信息识别模型，基于所述多模态融合样本特征按照不同的文本粒度分别针对所述样本文本内容进行语义识别，得到不同文本粒度的样本语义识别结果，包括：

通过所述待训练的文本信息识别模型，基于所述多模态融合样本特征按照句子粒度针对所述样本文本内容进行语义识别，得到所述样本文本内容的样本句子语义识别结果；

基于所述多模态融合样本特征按照词粒度针对所述样本文本内容进行关键词识别，得到所述样本文本内容中的样本文本关键词；

针对所述样本文本关键词进行实体关系识别，确定所述样本文本关键词之间的样本关键词关系信息；

根据所述样本句子语义识别结果、所述样本文本关键词和所述样本关键词关系信息，得到不同文本粒度的样本语义识别结果。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

基于所述样本句子语义识别结果对所述样本文本内容进行文本分类，得到所述样本文本内容的样本文本类别；

所述基于所述多模态融合样本特征按照词粒度针对所述样本文本内容进行关键词识别，得到所述样本文本内容中的样本文本关键词，包括：

在所述样本文本类别属于目标样本类别的情况下，基于所述多模态融合样本特征按照词粒度针对所述样本文本内容进行关键词识别，得到所述样本文本内容中的样本文本关键词。

9.根据权利要求7所述的方法，其特征在于，所述基于所述不同文本粒度的样本语义识别结果，对所述待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的所述文本信息识别模型，包括：

基于所述样本句子语义识别结果、所述样本文本关键词和所述样本关键词关系信息，分别确定各自的文本处理损失；

将所述样本句子语义识别结果、所述样本文本关键词和所述样本关键词关系信息各自的文本处理损失进行加权，得到文本信息识别损失；

基于所述文本信息识别损失，对所述待训练的文本信息识别模型进行更新后继续训练，直至训练结束，获得训练完成的所述文本信息识别模型。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述文本内容提取的文本模态特征，按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的第一语义识别结果；

基于所述图像区域提取的视觉模态特征，按照不同的文本粒度分别针对文本内容进行语义识别，得到不同文本粒度的第二语义识别结果；

将所述第一语义识别结果和所述第二语义识别结果，按照相同文本粒度进行融合，得到不同文本粒度的融合语义识别结果；

根据所述不同文本粒度的融合语义识别结果，获得针对所述待识别图像的、属于不同文本层级的文本语义信息。

11.根据权利要求1至10任意一项所述的方法，其特征在于，所述待识别图像是从待识别视频中提取的视频帧图像；所述方法还包括：

基于所述文本语义信息生成层级化标签；

根据所述层级化标签，得到用于标识所述待识别视频的视频标签。

12.根据权利要求1至10任意一项所述的方法，其特征在于，所述待识别图像是从待识别视频中提取的视频帧图像；所述方法还包括：

确定所述待识别视频所属的场景；

获取所述场景关联的视频描述模板；

通过所述文本语义信息对所述视频描述模板进行更新，获得针对所述待识别视频的视频描述信息。

13.一种文本信息识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取待识别图像，从所述待识别图像中提取文本内容，并确定所述文本内容在所述待识别图像中所处的图像区域；

特征融合模块，用于将基于所述文本内容提取的文本模态特征和基于所述图像区域提取的视觉模态特征进行融合，得到多模态融合特征；

语义识别模块，用于基于所述多模态融合特征按照不同的文本粒度分别针对所述文本内容进行语义识别，得到不同文本粒度的语义识别结果；

文本语义信息获得模块，用于根据所述不同文本粒度的语义识别结果，获得针对所述待识别图像的、属于不同文本层级的文本语义信息。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。