CN116978028A

CN116978028A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN116978028A
Application number: CN202310317481.8A
Authority: CN
Inventors: 林晨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-10-31

Abstract

本申请实施例公开了一种视频处理方法、装置、电子设备及存储介质，该方法包括：对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息；融合文本特征信息、音频特征信息和图像特征信息，得到文本信息中每个字符对应的字符多模态特征信息；根据字符多模态特征信息确定文本信息中各个字符之间的词关联关系结果；根据词关联关系结果确定文本信息包含的待识别短语；确定所述待识别短语对应的目标实体类型；根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。以其他模态的特征对文本模态特征信息进行补充，提升特征信息的准确性，提升实体类型识别的准确性。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种视频处理方法、装置、电子设备及存储介质，其中，存储介质包括计算机可读存储介质。

背景技术

实体是具有特殊意义的文本，每个实体通常对应有一个实体类型，例如，“南京市”是一个实体，而该“南京市”对应的“地名”是一个实体类型，如地点实体类型，即“南京市”是一个表示地点类型的实体。

随着信息的爆炸式增长，媒体平台中存在大量的视频片段，但是，这些视频片段往往缺乏实体类型或者实体标签的标注，不便于对视频片段进行编目或编辑，以至于用户难以通过针对实体和实体类型的标签对视频片段进行理解，而部分存在实体类型或者实体标签标注的视频片段也大多是人工识别标注的结果。因此，存在识别效率较低的问题。

而随着人工智能的发展，通过对视频中文本进行识别，进而分类出相应的实体类型或者实体标签逐渐得到实现，但是，该种方式仍存在准确性较低，效果不佳的情况。

发明内容

本申请实施例提供一种视频处理方法、装置、电子设备及存储介质，可以提升视频标签识别的准确性。

第一方面，本申请实施例提供了一种视频处理方法，包括：

对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息；

融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息；

根据所述字符多模态特征信息确定所述文本信息中各个字符之间的词关联关系结果；

根据所述词关联关系结果确定所述文本信息包含的待识别短语；

确定所述待识别短语对应的目标实体类型；

根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。

第二方面，本申请实施例还提供了一种视频处理装置，包括：

特征提取模块，用于对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息；

特征融合模块，用于融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息；

关系确定模块，用于根据所述字符多模态特征信息确定所述文本信息对应的词关联关系结果；

短语确定模块，用于根据所述词关联关系结果确定所述文本信息包含的待识别短语；

类型确定模块，用于确定所述待识别短语对应的目标实体类型；

标签确定模块，用于根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。

其中，在本申请的一些实施例中，关系确定模块包括：

特征获取单元，用于将所述文本信息中每个字符对应的字符多模态特征信息输入到多层感知机中，得到任意两个字符之间的关联关系特征信息，所述任意两个字符包含所述文本信息中相邻的两个字符以及不相邻的两个字符；

关系分类单元，用于基于所述关联关系特征信息对所述任意两个字符之间的关联关系进行分类，得到词关联关系结果。

其中，在本申请的一些实施例中，类型确定模块包括：

第一类型确定单元，用于将任意两个字符的字符多模态特征信息输入到多层感知机中，得到以所述两个字符为首字符和尾字符的参考短语的参考实体类型；

第二类型确定单元，用于根据所述首字符、所述尾字符和所述参考实体类型，以及所述待识别短语的首字符和尾字符，确定所述待识别短语的目标实体类型。

其中，在本申请的一些实施例中，所述待识别短语是由所述文本信息中连续的字符构成的第一实体且包含由所述文本信息中连续的字符构成的第二实体，所述第一实体与所述第二实体不同；

或待识别短语包含由所述文本信息中非连续的字符构成的实体。

其中，在本申请的一些实施例中，特征融合模块包括：

第一处理单元，用于根据所述音频特征信息和所述图像特征信息对所述文本特征信息进行增强处理，得到增强后文本特征信息；

第二处理单元，用于根据所述文本特征信息和所述图像特征信息对所述音频特征信息进行增强处理，得到增强后音频特征信息；

第三处理单元，用于根据所述音频特征信息和所述音频特征信息对所述图像特征信息进行增强处理，得到增强后图像特征信息；

融合单元，用于融合所述增强后文本特征信息、所述增强后音频特征信息和所述增强后图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息。

其中，在本申请的一些实施例中，第一处理单元包括：

计算子单元，用于计算所述文本特征信息与所述音频特征信息之间的特征相似度；

权重确定子单元，用于根据所述特征相似度确定参考权重；

运算子单元，用于将所述参考权重和所述图像特征信息进行相乘运算，得到增强后文本特征信息。

其中，在本申请的一些实施例中，融合单元包括：

拼接子单元，用于将所述增强后文本特征信息、所述增强后音频特征信息和所述增强后图像特征信息进行拼接，得到拼接后综合特征信息；

融合单元，用于根据乘性参数和加性参数对所述拼接后综合特征信息进行激活处理，得到所述文本信息中每个字符对应的字符多模态特征信息。

第三方面，本申请实施例还提供了一种电子设备，电子设备包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面中的视频处理方法中的步骤或者实现上述第三方面中的视频处理方法中的步骤。

第四方面，本申请实施例还提供了一种存储介质，该存储介质包括计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的视频处理方法中的步骤。

第五方面，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。

其中，本申请实施例对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息，并对文本特征信息、音频特征信息和图像特征信息进行融合，得到文本信息中每个字符对应的字符多模态特征信息，根据所述字符多模态特征信息确定所述文本信息中各个字符之间的词关联关系结果，根据所述词关联关系结果确定所述文本信息包含的待识别短语，确定所述待识别短语对应的目标实体类型，根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。其中，通过对视频中音频特征信息和图像特征信息的提取以及与文本特征信息的融合，达到以多模态的方式对文本模态特征信息进行补充，相较于相关技术中仅分析视频中的文本特征，本方案可以提升特征信息的准确性，进而提升后续标签识别的准确性。其中，通过多模态特征信息确定文本信息中各个字符之间的词关联关系结果，可以利用该词关联关系实现对连续文本和非连续文本对应的短语的识别，相较于现有技术中仅能识别出连续文本短语的方案，本方案可以提升短语识别的全面性和准确性，进而提升实体类型识别的全面性和准确性。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频处理方法的场景示意图；

图2是本申请实施例提供的视频处理方法的流程示意图；

图3是本申请实施例提供的字符之间关系的标注示意图；

图4是本申请实施例提供的文本信息中实体的标注示意图；

图5是本申请实施例提供的模型训练的流程示意图；

图6是本申请实施例提供的原始实体类别识别模型的框架结构图；

图7是本申请实施例提供的视频处理方法的另一流程示意图；

图8是本申请实施例提供的实体类型识别的效果示意图；

图9是本申请实施例提供的视频处理装置的结构示意图；

图10是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种视频处理方法、装置、电子设备及存储介质。具体地，本申请实施例提供适用于电子设备的视频处理装置，其中，电子设备包括终端和服务器，其中，终端包括但不限于计算机、手机、平板电脑或者电视等设备，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接。

其中，在本申请实施例中，可以由终端设备单独执行该视频处理方法，也可以由服务器单独执行该视频处理方法，或者由终端设备和服务器共同执行该视频处理方法，请参阅图1，以终端设备和服务器共同执行视频处理方法为例，其中，视频处理方法的具体执行过程如下：

在终端设备10的屏幕上播放该待播放视频，当终端设备10播放该待播放视频时，将该待播放视频作为待处理视频，并从该待处理视频中提取得到文本信息、音频信息和图像信息，随后，将该文本信息、音频信息和图像信息发送给服务器11。

服务器11在接收到该文本信息、音频信息和图像信息后，分别对该文本信息、音频信息和图像信息进行特征提取，得到文本信息对应的文本特征信息、音频信息对应的音频特征信息、以及图像信息对应的图像特征信息；

随后，服务器11将该文本特征信息、音频特征信息和图像特征信息融合，得到文本信息中每个字符对应的字符多模态特征信息，并根据该各个字符的字符多模态特征信息确定各个字符之间的词关联关系结果；

在得到词关联关系结果后，根据该词关联关系结果确定文本信息中包含的待识别短语，并确定待识别短语对应的目标实体类型；

进而，根据待识别短语和目标实体类型，确定待处理视频的标签。

可以理解的是，待播放视频可以由终端设备从服务器接收得到，或者从终端设备的本地中获取得到。

可以理解的是，在服务器分析得到待处理视频对应的目标实体类型后，服务器还将该目标实体类型返回给终端设备，终端设备将该目标实体类型和待识别短语作为该待处理视频的标签，并根据显示的需求将该目标实体类型以及该目标实体类型对应的实体(待识别短语)显示在终端设备屏幕的相应位置中。

需要说明的是，在本申请实施例中，终端设备周期性提取待处理视频中的文本信息，以及该文本信息对应的音频信息和图像信息，并将该周期性的提取结果发送给服务器，并周期性的得到服务器的返回结果。

其中，通过对视频中音频特征信息和图像特征信息的提取以及与文本特征信息的融合，达到以多模态的方式对文本模态特征信息进行补充，相较于相关技术中仅分析视频中的文本特征，本方案可以提升特征信息的准确性，进而提升后续实体类型识别的准确性。其中，通过多模态特征信息确定文本信息中各个字符之间的词关联关系结果，可以利用该词关联关系实现对连续文本和非连续文本对应的短语的识别，相较于现有技术中仅能识别出连续文本短语的方案，本方案可以提升短语识别的全面性和准确性，进而提升实体类型识别的全面性和准确性。通过确定待识别短语对应的目标实体类型，可以将该目标实体类型作为待处理视频包含的实体类型，实现对待处理视频中实体类型和相应的实体的识别，即实现对待处理视频中标签的识别，当提取得到待处理视频中的标签后，用户可通过该标签了解该视频的内容，加快用户对视频的理解，提升用户体验。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

请参阅图2，图2为本申请实施例提供的视频处理方法的流程示意图。该视频处理方法的具体流程可以如下：

101、对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息。

可以理解的是，待处理视频是需要进行实体类型标注或者实体类型分类的视频，实体类型也称实体标签，即每种实体标签对应不同的实体类型，该视频可以从服务器中获取或者从终端设备本地获取。

需要说明的是，在本申请实施例中，文本信息、音频信息和图像信息是视频在多个模态的信息，每一种信息的来源或者形式，称为一种模态。例如，人有视觉、听觉、触觉、嗅觉，信息的媒介有视频、语音、文字等，因此，文本信息、音频信息和图像信息也称文本模态信息、音频模态信息和图像模态信息。

相应的，文本信息、音频信息和图像信息可以通过对视频进行处理得到，例如，文本信息可以对视频播放过程中的字幕文字提取得到，或者，通过语音识别算法(ASR，Automatic Speech Recognition)对视频进行处理而得到。图像信息可以通过关键帧抽取算法对视频进行处理而得到，每一个视频可以看作一个图像帧序列，其中包含了非常多与视频核心语义相关性较低、冗余的图像帧。通过关键帧抽取算法可以从中抽取与视频核心语义相关度比较高的图像帧。音频信息也称语音信息，可以通过多媒体处理工具的工具包(ffmpeg)对视频进行处理而得到。

可选的，在本申请实施例中，特征信息也称特征向量，文本特征信息也称文本模态特征信息，音频信息也称音频模态特征信息，图像特征信息也称图像模态特征信息，其中，对文本信息、音频信息和图像信息的特征提取可以分别采用相应的编码器(Encoder)编码得到，例如，图像特征信息可以利用图像编码器(Image Encoder)进行特征提取得到，一般图像编码器(Image Encoder)可以选用资源网络模型(ResNet)等图像预训练模型；文本特征信息可以利用文本编码器(Text Encoder)进行特征提取得到，一般文本编码器(TextEncoder)可以选用文本预训练模型(BERT，Bidirectional Encoder Representationsfrom Transformers)等；音频特征信息可以利用音频编码器(Audio Encoder)进行特征提取得到，一般音频编码器(Audio Encoder)可以选用音频预训练模型(Wav2Vec)等。

其中，通过对文本特征信息、音频特征信息和图像特征信息的提取，实现对视频在多个模态的特征信息的提取。

102、融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息。

相应的，字符多模态特征信息对应字符在多个模态的特征信息，在本申请实施例中，是多个模态特征信息的综合结果。

可以理解的是，通过对文本特征信息、音频特征信息和图像特征信息的融合，实现利用音频特征信息和图像特征信息对文本特征信息的补充，相较于相关技术中仅提取文本信息对应的特征得到文本特征信息的方案，本申请实施例提升了提取的特征信息的全面性。

103、根据所述字符多模态特征信息确定所述文本信息中各个字符之间的词关联关系结果。

需要说明的是，词关联关系结果描述两个字符之间的关联关系或者连接关系，例如，词关联关系结果包括存在关联关系或者不存在关联关系，比如，“南京市长江大桥”这个文本中，“南”和“京”之间存在关联关系或者连接关系，“市”和“长”之间不存在关联关系或者不存在连接关系。

可以理解的是，利用每个字符的字符多模态特征信息，在对两两字符的字符多模态特征信息进行分析后，可以得到两两字符之间的关联关系，进而得到字符与其他每个字符的词关联关系结果。

104、根据所述词关联关系结果确定所述文本信息包含的待识别短语。

需要说明的是，待识别短语是基于词关联关系结果组合得到的短语，其中，该短语可以是由一个或者多个字符组合得到，例如，“南京市长江大桥”这个文本中，“南”和“京”之间存在关联关系或者连接关系，则“南”和“京”组合后可以得到“南京”这个短语。

可以理解的是，存在词关联关系结果的字符之间，往往连续起来表达特定的含义，比如，“南京”是一个地点，对应地点实体类型，因此，通过对待识别短语的获取，有助于利用该短语分析文本中包含的实体类型。

105、确定所述识别短语对应的目标实体类型。

需要说明的是，实体是具有特殊意义的文本，而短语往往表达一定的含义，因此，每个短语存在对应一个实体的可能，而每个实体又对应一个实体类型，因此，可以通过判断待识别短语所属的实体类型的方式，来确定视频对应的目标实体类型，即，将待识别短语对应的实体类型作为视频内容包含的实体标签。

106、根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。

其中，通过对待处理视频中包含的实体类型和实体类型对应的短语(实体)的识别，可以将该实体类型和实体作为该视频的标签，以方便用户对该视频的内容的理解，例如，针对一段新闻视频，可以得到如“时间”、“事件活动”、“身份职位”和“地点”等实体类型，相应的，可以得到针对“时间”实体类型的“今天”、“明年”或者“1月1号”等实体，以及得到针对“事件活动”实体类型的“娱乐项目”“创建工程”等实体，可方便用户通过该标签了解视频的主要内容和关键信息，提升用户体验。

可以理解的是，本申请实施例通过对视频中音频特征信息和图像特征信息的提取以及与文本特征信息的融合，达到以多模态的方式对文本模态特征信息进行补充，相较于相关技术中仅分析视频中的文本特征，本方案可以提升特征信息的准确性，进而提升后续实体类型识别的准确性。

另外，通过多模态特征信息确定文本信息中各个字符之间的词关联关系结果，可以利用该词关联关系实现对连续文本和非连续文本对应的短语的识别，相较于现有技术中仅能识别出连续文本短语的方案，本方案可以提升短语识别的全面性和准确性，进而提升实体类型识别的全面性和准确性。

例如，单模态的视频实体标签识别主要基于序列标注的方法，如基于Bi-LSTM+CRF的方法，基于Bi-LSTM+CNN+CRF的方法，或者，基于Bi-LSTM+CNN的方法等。这类方法的输入是一个文本的观测序列，一般是视频的ASR文本，输出是一个标签序列。常见的标签序列一般采用“BIEO”的定义：B，即Begin，表示一个实体的开始位置；I，即Intermediate，表示实体的中间位置；E，即End，表示一个实体的结束位置；O，即Other，表示其他，用于标记非实体的文本。通过对“BIEO”赋予不同的类型，就可以标记不同的实体标签，如对于“机构组织(ORG)”类型的实体，可以用B_ORG、I_ORG和E_ORG来进行标记。

可以理解的是，对于扁平(连续)命名实体提取任务，每一个文本字符对应一个标签；对于嵌套命名实体提取任务，每一个文本字符可对应多个标签。而基于序列标注的方法比较无法较好地解决非连续命名实体识别的任务。而本申请实施例通过将命名实体识别任务建模为关系分类任务，就可以实现以统一的方式解决扁平(连续)命名实体识别、嵌套命名实体识别和非连续命名实体识别任务。

可选的，在本申请实施例中，在提取得到每个字符对应的字符多模态特征信息后，可以利用多层感知机来获取两两字符的字符多模态特征信息对应的关联关系特征，进而，通过该关联关系特征分析得到该两个字符之间的词关联关系结果，即，可选的，在本申请的一些实施例中，步骤“根据所述字符多模态特征信息确定所述文本信息中各个字符之间的词关联关系结果”，包括：

将所述文本信息中每个字符对应的字符多模态特征信息输入到多层感知机中，得到任意两个字符之间的关联关系特征信息，所述任意两个字符包含所述文本信息中相邻的两个字符以及不相邻的两个字符；

基于所述关联关系特征信息对所述任意两个字符之间的关联关系进行分类，得到词关联关系结果。

可以理解的是，多层感知机是训练后的神经网络，通过将两个字符的字符多模态特征信息输入到多层感知机中，可以输出得到该两个字符的字符多模态特征信息对应的关联关系特征信息。

相应的，在得到两个字符对应的关联关系特征信息后，可以根据该关联关系特征信息对两个字符之间的关联关系进行分类，例如，可以通过Softmax函数对两个字符之间的关系进行分类，得到词关联关系结果。

可选的，在本申请实施例中，文本信息中的字符之间的词关联关系结果可以通过相应的符号进行表示，例如，请参阅图3，图3是本申请实施例提供的字符之间关系的标注示意图，其中，以“南京市长江大桥”这个文本为例，符号NNW表示两个字符之间存在关联关系或者连接关系，如，南”和“京”存在关联关系，“京”和“市”存在关联关系，而“市”和“长”不存在关联关系。

相应的，在确定词关联关系结果后，可以根据词关联关系结果得到相应的短语，比如，将存在关联关系的字符进行拼接得到待识别短语，其中，拼接可以为根据关联关系顺序依次拼接，得到一个包含多个字符的长短语，也可以是根据关联关系顺序拼接，得到一个包含少量字符的短短语。

或者，在本申请实施例中，可以根据关联关系进行顺序拼接得到长短语，然后从长短语中提取一定数量的存在先后关联关系的字符作为短短语，即，可选的，在本申请的一些实施例中，步骤“根据所述词关联关系结果确定所述文本信息包含的待识别短语”，包括：

将词关联关系结果描述存在关联关系的字符依次拼接，得到第一参考短语；

从所述第一参考短语中提取至少两个连续的字符，并将所述至少两个连续的字符顺序拼接得到第二参考短语；

将所述第一参考短语和所述第二参考短语分别作为待识别短语。

可以理解的是，在字符依次拼接时，将先后存在关联关系的字符依次进行拼接，直至拼接后短语的最后一个字符与其他字符不存在关联关系，得到第一参考短语，例如，针对“南京市长江大桥”这个文本，若分析出“南”和“京”存在关联关系，“京”和“市”存在关联关系，而“市”和“长”不存在关联关系，则在依次拼接后，可以得到“南京市”这个第一参考短语，又例如，若“长”“江”“大”“桥”之间依次两两存在关联关系，则可以依次拼接得到“长江大桥”这个第一参考短语。

相应的，第二参考短语是从第一参考短语中提取至少两个字符后得到，例如，针对“南京市”这个第一参考短语，可以从中提取得到“南京”或者“京市”等第二参考短语。随后，将第一参考短语和第二参考短语均作为待识别短语。

可以理解的是，在本申请实施例中，还可以根据实体类型分类的具体需求，或者实体的字符数量特征，从第一参考短语中提取相应数量的字符作为第二参考短语。其中，针对特定的需求，待识别短语还应包括单个字符的文本情况。

相应的，在第一参考短语的生成方式中，不仅可以将连续的字符文本进行依次拼接生成连续命名的短语，还可以实现对不连续字符文本的拼接生成不连续命名的短语，例如，针对“南京市长江大桥”这个原文本，可以将“南”、“京”和“市”这三个在原文本中连续的字符拼接得到“南京市”这个连续命名的短语；针对“上呼吸道和肺部感染”这个文本，可以将“上”“呼”“吸”“道”与“感”“染”进行拼接，得到“上呼吸道感染”这个不连续命名的短语。

另外，第二参考短语的生成方式，考虑了名称存在嵌套的情况，例如，“北京市”这个短语中嵌套有“北京”这个短语，而“北京市”和“北京”都对应“地点”这个实体类型，因此，基于第二参考短语的生成方式，可以考虑实体名称命名存在嵌套的情况，尽可能全面的从文本中提取出包含实体的短语文本。

相应的，在根据提取的待识别短语进行实体类型识别时，基于第一参考短语和第二参考短语的生成方式，可以实现连续命名(扁平命名)的文本的识别、嵌套命名的文本的识别以及非连续命名的文本的识别。

可选的，在本申请实施例中，文本信息中的待识别短语可以通过相应的符号进行表示，例如，请参阅图3，符号THW表示一个短语的边界，纵轴坐标是短语的结尾，横轴坐标是短语的开始，如，图3中表格的第二行第一列的THW表示以南”开头和以“京”结尾的短语，即“南京”；第三行第一列的THW表示以南”开头和以“市”结尾的短语，即“南京市”。

可选的，由于实体的尾字符具备的特征较多，例如，市”、“区”等字符，通常表明该实体为地区或者组织，可基本明确的表明实体的类型，因此，通过尾字符可以快速且较为准确的实现对待识别短语所属的目标实体类型的识别。

其中，在本申请实施例中，为了提升实体类型识别的稳定性差和准确性，以首字符和尾字符进行实体类型的识别，例如，将待识别短语的首字符和尾字符的字符多模态特征信息输入到多层感知机中，输出得到该待识别短语的目标实体类型。

相应的，在本申请实施例中，还可以将任意两个字符的字符多模态特征信息输入到多层感知机中，得到以该两个字符为首字符和尾字符的参考短语的参考实体类型，然后，通过参考实体类型和首字符、尾字符的比较，来确定当前的待识别短语的目标实体类型，即，可选的，在本申请的一些实施例中，步骤“确定所述待识别短语对应的目标实体类型”，包括：

将任意两个字符的字符多模态特征信息输入到多层感知机中，得到以所述两个字符为首字符和尾字符的参考短语的参考实体类型；

根据所述首字符、所述尾字符和所述参考实体类型，以及所述待识别短语的首字符和尾字符，确定所述待识别短语的目标实体类型。

需要说明的是，参考短语包括该两个字符，且以该两个字符为首字符和尾字符，该参考短语的中间字符可以为多个，例如，当两个字符为A和C时，则参考短语可以是ABC，也可以是ADC或者ABDC等。

相应的，参考实体类型是该参考短语对应的实体类型，即该参考实体类型时以上述两个字符为首字符和尾字符的任一参考短语的实体类型。比如，当两个字符为A和C时，参考短语ABC的参考实体类型与参考短语ADC、参考短语ABDC的一致。

因此，在本申请实施例中，可以预先获取文本信息中以任意两个字符为首字符和尾字符的参考短语的参考实体类型，然后，通过与待识别短语的首字符和尾字符的比较，来确定待识别短语的目标实体类型，例如，若待识别短语的首字符和尾字符也为A和C时，则参考短语ABC、ADC或者ABDC对应的参考实体类型即为该待识别短语的目标实体类型。

可以理解的是，本申请实施例中，待识别短语是由所述文本信息中连续的字符构成的第一实体且包含由所述文本信息中连续的字符构成的第二实体，所述第一实体与所述第二实体不同；或待识别短语包含由所述文本信息中非连续的字符构成的实体。

可选的，在本申请实施例中，由于相同的首字符和尾字符的实体对应的实体类型可能不同，例如，“重建工作”和“重要工作”，虽然首字符和尾字符相同，但是，两个实体对应的实体类型不同，基于此，在本申请实施例中，在获取字符的字符多模态特征信息时，基于学习到不同字符在不同类型中的向量表示，得到相同字符在不同的实体类型中的不同表示，实现对首字符和尾字符相同而实体类型不同的准确识别。

可选的，在本申请实施例中，在对各个模态的特征信息进行融合前，还可以对各个模态的特征信息进行增强处理，即，可选的，在本申请的一些实施例中，步骤“融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息”，包括：

根据所述音频特征信息和所述图像特征信息对所述文本特征信息进行增强处理，得到增强后文本特征信息；

根据所述文本特征信息和所述图像特征信息对所述音频特征信息进行增强处理，得到增强后音频特征信息；

根据所述音频特征信息和所述音频特征信息对所述图像特征信息进行增强处理，得到增强后图像特征信息；

融合所述增强后文本特征信息、所述增强后音频特征信息和所述增强后图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息。

可以理解的是，视频中的文本、音频和图像存在一定的关联，如同一时间段内的文本、音频和图像表达的内容思想一致，因此，可以通过其他模态的特征信息对当前模态的特征信息进行增强处理，以此增加各个模态的特征的准确性。例如，图像特征信息可以借助文本特征信息来进行增强，语音特征信息可以借助文本特征信息来进行增强等，或者，图像特征信息可以借助文本特征信息和音频特征信息进行增强，音频特征信息可以借助文本特征信息和图像特征信息进行增强。

相应的，在对当前模态的特征进行增强时，可以基于其他两个模态的特征之间的相似度进行，即，可选的，在本申请的一些实施例中，步骤“根据所述音频特征信息和所述图像特征信息对所述文本特征信息进行增强处理，得到增强后文本特征信息”，包括：

计算所述文本特征信息与所述音频特征信息之间的特征相似度；

根据所述特征相似度确定参考权重；

将所述参考权重和所述图像特征信息进行相乘运算，得到增强后文本特征信息。

其中，特征相似度反映特征之间的相似情况，基于该特征相似度与另一模态的特征矩阵的相乘运算，得到当前模态特征增强后的特征信息。

例如，在本申请实施中，可以通过共同注意力机制(Co-attention)借助其他模态的特征信息增强当前模态的特征信息，其中，共同注意力机制Co-attention的实现原理如下：

其中，Q表示当前模态的特征信息，K和V表示其他模态的特征信息，通过计算Q和K的相似度作为权重，并与V矩阵相乘最终得到注意力矩阵A。利用注意力矩阵A可以对当前模态的特征进行特征增强。dk表示归一化项，一般选取特征的维度。

可选的，在本申请实施例中，可以通过特征信息的拼接对特征进行融合，即，可选的，在本申请的一些实施例中，步骤“融合所述增强后文本特征信息、所述增强后音频特征信息和所述增强后图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息”，包括：

将所述增强后文本特征信息、所述增强后音频特征信息和所述增强后图像特征信息进行拼接，得到拼接后综合特征信息；

根据乘性参数和加性参数对所述拼接后综合特征信息进行激活处理，得到所述文本信息中每个字符对应的字符多模态特征信息。

可以理解的是，通过多个模态的特征的融合，实现对单个模态特征的补充，提升特征信息的准确性。

例如，以文本模态特征为例，特征融合的实现原理如下：

h＝ReLU(f*W_f+b_f)

其中，f表示图像特征、文本特征、音频特征的拼接，W_f和b_f是学习的参数，ReLU表示非线性的激活函数。

相应的，在确定相应的待识别短语后，可以分析待识别短语所属的实体类型，将待识别短语所属的实体类型作为视频包含的目标实体类型。其中，在确定相应的待识别短语后，可以根据待识别短语对应的特征信息分析该待识别短语所属的实体类型，比如，通过待识别短语的特征信息属于每个实体类型的概率，确定待识别短语所属的实体类型。

相应的，在确定待识别短语所属的实体类型后，可以根据实体类型的不同对待识别短语进行标记，得到待处理视频的标签，例如，请参阅图4，图4是本申请实施例提供的文本信息中实体的标注示意图，例如，针对地点实体，用THW_loc表示地点实体对应的地点实体类型或者地点实体标签，如图4中表格的第二行第一列的THW_loc，表示地点实体类型，实体名称即相应的短语名称具体为“南京”，表格的第三行第一列的THW_loc，表示地点实体类型，实体名称即相应的短语名称具体为“南京市”。

其中，本申请实施例通过对各个模态的特征信息的增强以及对各个模态的特征的融合，实现对单一模态特征的补充，提升特征信息的全面性和准确性，进而可提升利用该融合后特征分析的实体的准确性。

其中，通过第一参考短语和第二参考短语的生成，实现对连续短语、嵌套短语和非连续短语的筛选，当确定短语对应的实体类型或者实体标签后，实现对视频中包含的实体类型的识别，同时，在确定短语对应有相应的实体类型或者实体标签后，可以直接将该短语作为相应的实体，如，连续短语对应连续命名的实体、嵌套短语对应嵌套命名的实体以及非连续短语对应非连续命名的实体。

可选的，在本申请实施例中，视频对应的目标实体类型可以通过神经网络模型识别得到，通过对神经网络模型的训练，得到能够分析视频、并输出视频中包含的目标实体类型的模型，具体的，请参阅图5，图5是本申请实施例提供的模型训练的流程示意图，其中，该模型训练的流程具体包括：

201、获取原始实体类型识别模型，该原始实体类别识别模型包括特征提取层、特征增强层、特征融合层和实体识别层；

相应的，请参阅图6，图6是本申请实施例提供的原始实体类别识别模型的框架结构图，其中，该模型还包括信息输入层A，信息输入层A用于接收输入的文本信息、图像信息和音频信息，并将该文本信息、图像信息和音频信息输出给特征提取层B，特征提取层B的输出作为特征增强层C的输入，特征增强层C的输出作为特征融合层D的输入，特征融合层D的输出作为实体识别层E的输入，实体识别层E输出相应的实体类型。

其中，特征提取层用于对文本、音频或者图像等多个模态的信息进行特征提取，得到文本特征信息、音频特征信息和图像特征信息；特征增强层用于对特征进行增强处理得到增强后文本特征信息、增强后音频特征信息和增强后图像特征信息；特征融合层用于将多个模态的特征进行融合得到字符多模态特征信息；实体识别层用于识别出文本中包含的实体类型。

202、获取样本数据，该样本数据包括样本文本信息，以及该样本文本信息对应的样本音频信息和样本图像信息，以及该样本文本信息对应的样本实体类型标签；

其中，该样本实体类型标签对应该样本文本信息中包含的样本实体，如，针对“南京市”的样本实体，标记为“地点”的样本实体类型标签，具体的，样本实体类型标签表示为“南京市(地点)”。

203、将该样本文本信息、样本音频信息和样本图像信息输入到原始实体类型识别模型中，并根据该样本文本信息对应的样本实体类型标签对原始实体类型识别模型进行训练，直至满足预设停止条件，得到实体类型识别模型。

其中，通过在模型中配置特征提取层、特征增强层、特征融合层实现对特征信息的处理。

其中，在训练过程中，实体识别层从样本文本信息中预测出实体(短语)，并分析该实体所属的预测实体类型，根据该预测实体类型和相应的样本实体类型标签确定损失函数，其中，损失函数可采用负对数似然函数将模型的预测结果(预测实体类型)与标签结果(样本实体类型标签)进行比对。

请参阅图7，图7是本申请实施例提供的视频处理方法的另一流程示意图，其中，该实体类型识别的流程具体包括：

211、在待播放视频播放时，通过语音识别算法提取该待播放视频在播放过程中的文本信息，通过多媒体处理工具得到该待播放视频的音频信息，通过提取待播放视频播放过程中的关键帧得到图像信息；

212、将该文本信息、音频信息和图像信息输入到实体类型识别模型的特征提取层，并由特征提取层的文本编码器输出文本信息对应的文本特征信息、音频编码器输出音频信息对应的音频特征信息、以及图像编码器输出图像信息对应的图像特征信息；

213、将文本特征信息、音频特征信息和图像特征信息输入到实体类型识别模型的特征增强层，输出得到增强后文本特征信息、增强后音频特征信息和增强后图像特征信息；

具体的，根据音频特征信息和图像特征信息，并通过共同注意力机制对文本特征信息进行增强处理，得到增强后文本特征信息；根据文本特征信息和图像特征信息，并通过共同注意力机制对音频特征信息进行增强处理，得到增强后音频特征信息；根据文本特征信息和音频特征信息，并通过共同注意力机制对图像特征信息进行增强处理，得到增强后图像特征信息。

214、将增强后文本特征信息、增强后音频特征信息和增强后图像特征信息输入到实体类型识别模型的特征融合层，得到每个字符对应的字符多模态特征信息；

215、从文本信息中选取两个字符，并将该两个字符的字符多模态特征信息输入到实体识别层的多层感知机，由多层感知机输出该两个字符之间的关联关系特征和实体类型特征信息；

216、将该关联关系特征和实体类型特征信息分别输入到实体识别层的分类单元，并由该分类单元输出该两个字符之间的词关联关系结果和以该两个字符为首字符和尾字符的参考短语的参考实体类型，其中，词关联关系结果描述该两个字符关联或者不关联；

其中，在本申请实施例中，该分类单元包括激活函数Softmax。

217、根据该词关联关系结果从文本信息中提取得到待识别短语；

218、根据该参考短语的首字符、尾字符和参考实体类型，以及待识别短语的首字符和尾字符的比较，确定待识别短语对应的目标实体类型；

219、将该待识别短语以及该待识别短语对应的目标实体类型作为待处理视频的标签，以对该待处理视频进行标签标注。

其中，通过对视频中音频特征信息和图像特征信息的提取以及与文本特征信息的融合，达到以多模态的方式对文本模态特征信息进行补充，相较于相关技术中仅分析视频中的文本特征，本方案可以提升特征信息的准确性，进而提升后续实体类型识别的准确性。其中，通过多模态特征信息确定文本信息中各个字符之间的词关联关系结果，可以利用该词关联关系实现对连续文本和非连续文本对应的短语的识别，相较于现有技术中仅能识别出连续文本短语的方案，本方案可以提升短语识别的全面性和准确性，进而提升实体类型识别的全面性和准确性。

相应的，该目标实体类型对应的短语即为文本信息中包含的实体，通过识别文本信息中各个字符之间的词关联关系，并在利用该词关联关系确定文本中包含的实体后，实现将命名实体识别任务建模为关系分类任务，就可以实现以统一的方式解决扁平命名实体的识别、嵌套命名实体的识别和非连续命名实体识别的任务。其中，偏平命名实体指命名连续的实体，嵌套命名实体指实体的命名中还包含有其他实体的命名，非连续命名实体指文本中命名字符不连续的实体。

请参阅图8，图8是本申请实施例提供的实体类型识别的效果示意图，其中，从正在播放的视频中提取得到文本信息、图像信息和音频信息，然后，通过视频处理方法，利用文本信息、图像信息和音频信息，识别出视频对应的实体类型或者实体标签或者实体类型标签(即视频的片段层标签)，然后，将该实体类型标签对应的实体罗列在该实体类型标签所在的区域列表中。如图8中右侧矩形框区域中，得到“时间”的实体类型标签，该实体类型标签对应包含有“今年8月8号”“今天”“今年10月”等。

为便于更好的实施本申请的视频处理方法，本申请还提供一种基于上述视频处理方法的视频处理装置。其中第三目标词语的含义与上述视频处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图9，图9是本申请实施例提供的视频处理装置的结构示意图，其中，该视频处理装置可以包括：

特征提取模块301，用于对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息；

特征融合模块302，用于融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息；

关系确定模块303，用于根据所述字符多模态特征信息确定所述文本信息对应的词关联关系结果；

短语确定模块304，用于根据所述词关联关系结果确定所述文本信息包含的待识别短语；

类型确定模块305，用于确定所述待识别短语对应的目标实体类型；

标签确定模块306，用于根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。

其中，在本申请的一些实施例中，关系确定模块303包括：

其中，在本申请的一些实施例中，类型确定模块305包括：

其中，在本申请的一些实施例中，特征融合模块302包括：

其中，在本申请的一些实施例中，第一处理单元包括：

权重确定子单元，用于根据所述特征相似度确定参考权重；

其中，在本申请的一些实施例中，融合单元包括：

其中，在本申请实施例首先由特征提取模块301对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息，接着，由特征融合模块302融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息，随后，由关系确定模块303根据所述字符多模态特征信息确定所述文本信息对应的词关联关系结果，然后，由短语确定模块304根据所述词关联关系结果确定所述文本信息包含的待识别短语，再然后，由类型确定模块305确定所述待识别短语对应的目标实体类型，最后，由标签确定模块306根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。

其中，在本申请实施例通过对视频中音频特征信息和图像特征信息的提取以及与文本特征信息的融合，达到以多模态的方式对文本模态特征信息进行补充，相较于相关技术中仅分析视频中的文本特征，本方案可以提升特征信息的准确性，进而提升后续实体类型识别的准确性。其中，通过多模态特征信息确定文本信息中各个字符之间的词关联关系结果，可以利用该词关联关系实现对连续文本和非连续文本对应的短语的识别，相较于现有技术中仅能识别出连续文本短语的方案，本方案可以提升短语识别的全面性和准确性，进而提升实体类型识别的全面性和准确性。

此外，本申请还提供一种电子设备，如图10所示，其示出了本申请所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图10中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、对象界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及实体类型识别。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现本申请所提供的任一种视频处理方法中的步骤。

本申请实施例对待处理视频对应的文本信息、音频信息和图像信息分别进行特征提取，得到文本特征信息、音频特征信息和图像特征信息，并对文本特征信息、音频特征信息和图像特征信息进行融合，得到文本信息中每个字符对应的字符多模态特征信息，根据所述字符多模态特征信息确定所述文本信息中各个字符之间的词关联关系结果，根据所述词关联关系结果确定所述文本信息包含的待识别短语，确定所述待识别短语对应的目标实体类型，根据所述待识别短语和所述目标实体类型确定所述待处理视频的标签。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请提供一种存储介质，该存储介质包括计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请所提供的任一种视频处理方法中的步骤。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请所提供的任一种视频处理方法中的步骤，因此，可以实现本申请所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请所提供的一种视频处理方法、装置、电子设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

其中，可以理解的是，在本申请的具体实施方式中，涉及到用户播放或者观看的视频中的文本、字幕、音频和视频等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

Claims

1.一种视频处理方法，其特征在于，包括：

确定所述待识别短语对应的目标实体类型；

2.根据权利要求1所述的方法，其特征在于，所述根据所述字符多模态特征信息确定所述文本信息中各个字符之间的词关联关系结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述待识别短语对应的目标实体类型，包括：

4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述待识别短语是由所述文本信息中连续的字符构成的第一实体且包含由所述文本信息中连续的字符构成的第二实体，所述第一实体与所述第二实体不同；

5.根据权利要求1所述的方法，其特征在于，所述融合所述文本特征信息、音频特征信息和图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述音频特征信息和所述图像特征信息对所述文本特征信息进行增强处理，得到增强后文本特征信息，包括：

根据所述特征相似度确定参考权重；

7.根据权利要求5所述的方法，其特征在于，所述融合所述增强后文本特征信息、所述增强后音频特征信息和所述增强后图像特征信息，得到所述文本信息中每个字符对应的字符多模态特征信息，包括：

8.一种视频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述视频处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述视频处理方法的步骤。