CN117765450A

CN117765450A - 一种视频语言理解方法、装置、设备及可读存储介质

Info

Publication number: CN117765450A
Application number: CN202410186667.9A
Authority: CN
Inventors: 赵雅倩; 金良; 贾麒; 范宝余; 郭振华; 尹云峰
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-03-26
Anticipated expiration: 2044-02-20
Also published as: CN117765450B

Abstract

本发明涉及计算机视觉技术领域，具体公开了一种视频语言理解方法、装置、设备及可读存储介质，除视频样本自带的注释文本外，还通过获取如搜索关键词或视频分段信息等视频样本的关联信息，以利用注释文本和关联信息来构建视频样本对应的文本样本，从而弥补视觉模态与文本模态弱相关的问题，在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容；在视频语言模型的训练中基于该文本样本与视频样本进行视觉文本跨模态编码，解决了传统视频语言模型泛化能力差的问题，提升了计算机视觉的视频理解能力，进而可以精确响应视频语言相关问题。

Description

一种视频语言理解方法、装置、设备及可读存储介质

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种视频语言理解方法、装置、设备及可读存储介质。

背景技术

视频（Video）泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。作为传递信息的重要载体，对视频语言进行理解是计算机视觉研究的重要分支。通过计算机视觉对视频语言进行理解，可以执行如视频摘要生成、个性化推荐等任务。通过让计算机理解并精确响应视频相关的问题，可以极大丰富人们生活的方方面面。

传统的计算机视觉主要通过视频语言模型来理解视觉模态和语言模态的内在关系，通过搜索和标注视频，协助用户快速定位与理解视频内容。传统的视频语言模型通过提取视频特征和对应的文本特征后直接输入计算机翻译模型（transformer）中进行模型训练。但由于两种模态间往往存在相关性较弱的问题，导致模型跨模态能力很弱，在实际执行视频理解任务时无法发挥实用价值。

因此，提升计算机视觉的视频理解能力，是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是提供一种视频语言理解方法、装置、设备及可读存储介质，用于提升计算机视觉的视频理解能力，以精确响应视频语言相关的问题。

为解决上述技术问题，本发明提供一种视频语言理解方法，包括：

获取初始视频语言模型和视频样本；

利用所述视频样本对应的注释文本和所述视频样本的关联信息构建所述视频样本对应的文本样本；

根据待处理视频理解任务的任务目标对所述初始视频语言模型进行损失优化训练，并在训练中基于所述视频样本和所述文本样本进行视觉文本跨模态编码，直至达到迭代结束条件后，输出视频语言模型；

响应于所述待处理视频理解任务，调用所述视频语言模型对输入的视频信息进行处理，得到视频处理结果；

其中，所述视频样本的关联信息包括获取所述视频样本时的搜索关键词、所述视频样本携带的视频分段信息中的至少一个。

一方面，所述在训练中基于所述视频样本和所述文本样本进行视觉文本跨模态编码，包括：

自所述视频样本中提取多个视频帧，获取所述视频帧的帧视觉特征，并根据所述视频帧在所述视频样本中的顺序为所述帧视觉特征添加时间维度信息；

自所述文本样本中提取文本特征；

对添加时间维度信息的所述帧视觉特征和所述文本特征进行编码后，得到所述视频样本的视频特征；

对所述视频特征和所述文本特征进行视觉文本跨模态编码。

另一方面，所述视频样本的关联信息包括所述搜索关键词；

所述自所述文本样本中提取文本特征，包括：

自与所述视频样本对应的注释文本中提取主语和宾语；

将与所述搜索关键词、所述主语和所述宾语进行拼接，得到所述文本特征。

另一方面，所述视频样本的关联信息包括所述视频分段信息，所述视频样本的注释文本包括分段事件描述；

所述自所述文本样本中提取文本特征，包括：

根据所述视频分段信息将所述视频样本切分为多个子视频样本，并将对应的所述分段事件描述作为所述子视频样本的注释文本；

调用视频动作识别模型识别得到所述子视频样本的动作预测结果；

自所述子视频样本的注释文本提取视频描述关键词后，将所述子视频样本的动作预测结果与所述子视频样本的视频描述关键词进行拼接，得到所述子视频样本的所述文本特征；

整合各所述子视频样本的所述文本特征为所述视频样本的所述文本特征。

另一方面，所述视频样本的关联信息包括所述视频分段信息，所述视频样本的注释文本包括分段动作描述；

所述自所述文本样本中提取文本特征，包括：

根据所述视频分段信息将所述视频样本切分为多个子视频样本；

调用视频描述模型生成各所述子视频样本的描述文本；

自所述分段动作描述中提取动作关键词，自所述描述文本中提取视频描述关键词后，将所述子视频样本的动作关键词和所述子视频样本的视频描述关键词进行拼接，得到所述子视频样本的所述文本特征；

另一方面，所述对添加时间维度信息的所述帧视觉特征和所述文本特征进行编码后，得到所述视频样本的视频特征，包括：

对添加时间维度信息的所述帧视觉特征进行标记化处理，并提取帧特征向量；

对所述文本特征进行标记化处理，并提取文本特征向量；

将所述帧特征向量和所述文本特征向量进行拼接处理后输入交叉编码器进行交叉编码，得到所述视频特征。

另一方面，所述在训练中基于所述视频样本和所述文本样本进行视觉文本跨模态编码，包括：

初始化先验字典；

根据所述待处理视频理解任务的任务目标确定目标模态；

基于所述视频样本和所述文本样本，自所述先验字典中筛选与所述目标模态适配的目标先验知识；

基于所述目标先验知识对所述视频样本中的视觉模态和所述文本样本中的文本模态进行跨模态信息融合，提炼视觉模态和文本模态之间的视觉文本跨模态共识信息；

根据所述视觉文本跨模态共识信息对应的视频特征、文本特征和所述目标先验知识进行跨模态融合编码，得到视觉文本跨模态编码；

其中，所述目标模态为视觉模态、文本模态和视觉文本联合模态中的一个。

另一方面，所述目标模态为视觉文本联合模态；

所述基于所述视频样本和所述文本样本，自所述先验字典中筛选与所述目标模态适配的目标先验知识，包括：

根据所述视频样本和所述文本样本构建视觉文本模态对，计算所述先验字典中的先验知识与所述视觉文本模态对之间的第一条件互信息；

建立所述先验知识与所述第一条件互信息的一一映射关系，得到第一先验知识-条件互信息字典；

根据所述第一先验知识-条件互信息字典中的第一先验知识-条件互信息字典值从大到小的顺序，选出与所述视觉文本模态对相关性最高的第一预设数量先验知识；

自所有所述视觉文本模态对相关性最高的第一预设数量先验知识中选出相关性最高的第二预设数量先验知识为所述目标先验知识；

其中，一个所述视觉文本模态对包括样本数据中的一个视觉模态和所述样本数据中的一个文本模态。

另一方面，所述第一条件互信息，通过下式计算得到：

；

其中，为所述第一条件互信息的值，/>为先验知识z、文本模态t与视觉模态v的联合概率分布函数，/>为先验知识z的概率分布函数，/>为视觉模态v与先验知识z的联合概率分布函数，/>为文本模态t与先验知识z的联合概率分布函数，/>为视觉模态中的第i个模态，/>为文本模态中的第j个模态，Z为所述先验字典。

另一方面，所述第一先验知识-条件互信息字典值，通过下式计算得到：

；

其中，为所述第一先验知识-条件互信息字典值，/>为第一条件互信息的值，/>为视觉模态长度，/>为文本模态长度。

另一方面，所述基于所述目标先验知识对所述视频样本中的视觉模态和所述文本样本中的文本模态进行跨模态信息融合，提炼视觉模态和文本模态之间的视觉文本跨模态共识信息，包括：

分别对视觉模态和文本模态进行模态内信息整合以及跨模态信息整合，得到模态内信息整合结果和全局共识信息整合结果；

基于所述模态内信息整合结果和所述全局共识信息整合结果，构建文本交叉注意力模块以基于所述目标先验知识搜索视觉模态中与文本模态关联的视频信息；

基于所述模态内信息整合结果和所述全局共识信息整合结果，构建视频交叉注意力模块以基于所述目标先验知识搜索文本模态中与视觉模态关联的文本信息；

基于视觉模态中与文本模态关联的视频信息、文本模态中与视觉模态关联的文本信息以及所述目标先验知识，构建注意力模块进行所述视觉文本跨模态共识信息的融合和提炼。

另一方面，所述分别对视觉模态和文本模态进行模态内信息整合以及跨模态信息整合，得到模态内信息整合结果和全局共识信息整合结果，包括：

对视觉模态进行模态内信息整合，得到视觉模态信息；

对文本模态进行模态内信息整合，得到文本模态信息；

对所述目标先验知识进行模态内信息整合，得到目标先验知识模态信息；

以所述视觉模态信息、所述文本模态信息和所述目标先验知识模态信息为所述模态内信息整合结果；

基于所述目标先验知识对视觉模态和文本模态进行跨模态信息整合，建立所述视觉模态信息、所述文本模态信息和所述目标先验知识模态信息的跨模态信息关联交互模型；

基于所述跨模态信息关联交互模型，调用转换编码器模型对视频特征、文本特征和所述目标先验知识进行整合处理，得到所述全局共识信息整合结果；

其中，在处理所述视频特征时，对所述文本特征和所述目标先验知识进行掩膜处理；在处理所述文本特征时，对所述视频特征和所述目标先验知识进行掩膜处理；在处理所述目标先验知识时，不对所述视频特征、所述文本特征及所述目标先验知识设置掩膜。

另一方面，所述基于所述模态内信息整合结果和所述全局共识信息整合结果，构建文本交叉注意力模块以基于所述目标先验知识搜索视觉模态中与文本模态关联的视频信息，包括：

合并所述模态内信息整合结果中的视觉模态信息和所述目标先验知识为所述文本交叉注意力模块的键值数据，以所述模态内信息整合结果中的文本模态信息为所述文本交叉注意力模块的查询语句，以利用所述文本交叉注意力模块基于查询语句查询对应的键值数据，得到视觉模态中与文本模态关联的视频信息；

所述基于所述模态内信息整合结果和所述全局共识信息整合结果，构建视频交叉注意力模块以基于所述目标先验知识搜索文本模态中与视觉模态关联的文本信息，包括：

合并所述模态内信息整合结果中的所述文本模态信息和所述目标先验知识为所述视频交叉注意力模块的键值数据，以所述模态内信息整合结果中的所述视觉模态信息为所述视频交叉注意力模块的查询语句，以利用所述视频交叉注意力模块基于查询语句查询对应的键值数据，得到文本模态中与视觉模态关联的文本信息。

另一方面，所述基于视觉模态中与文本模态关联的视频信息、文本模态中与视觉模态关联的文本信息以及所述目标先验知识，构建注意力模块进行所述视觉文本跨模态共识信息的融合和提炼，包括：

以视觉模态中与文本模态关联的视频信息为文本标记，以文本模态中与视觉模态关联的文本信息为视频标记，以所述目标先验知识为先验知识标记；

拼接所述视频标记、所述先验知识标记和所述文本标记后，输入所述注意力模块进行所述视觉文本跨模态共识信息的融合和提炼；

在所述注意力模块中，分别合并所述视频标记和所述先验知识标记为键值数据，以所述文本标记为查询语句，以及合并所述文本标记和所述先验知识标记为键值数据，以所述视频标记为查询语句，输出所述视觉文本跨模态共识信息。

另一方面，所述根据所述视觉文本跨模态共识信息对应的视频特征、文本特征和所述目标先验知识进行跨模态融合编码，得到视觉文本跨模态编码，包括：

采用可学习的残差参数融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码，得到所述视觉文本跨模态编码；

其中，当前次的所述输出结果为下一次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的视觉文本跨模态共识信息的输入数据。

另一方面，所述采用可学习的残差参数融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码，得到所述视觉文本跨模态编码，包括：

对第i次所述输出结果中的视频特征，将其中各视频帧分别设置对应的帧系数，根据所述帧系数和所述视频帧的帧特征得到视频残差块特征，将所述视频残差块特征与第i次所述输出结果中的视频特征融合，得到第i次所述输出结果对应的视频特征融合结果；

对第i次所述输出结果中的文本特征，将其中各文本标记分别设置对应的文本标记系数，根据所述文本标记系数和所述文本标记得到文本残差块特征，将所述文本残差块特征与第i次所述输出结果中的文本特征融合，得到第i次所述输出结果对应的文本特征融合结果；

对第i次所述输出结果中的所述目标先验知识，将其中的各先验知识标记分别设置对应的先验知识标记系数，根据所述先验知识标记系数和所述先验知识标记得到先验知识残差块特征，将所述先验知识残差块特征与第i次所述输出结果中的所述目标先验知识融合，得到第i次所述输出结果对应的先验知识融合结果；

拼接第i次所述输出结果对应的视频特征融合结果、第i次所述输出结果对应的文本特征融合结果和第i次所述输出结果对应的先验知识融合结果，得到第i次所述输出结果对应的特征融合结果；

若i不为N，则对第i次所述输出结果对应的特征融合结果执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的视觉文本跨模态共识信息，得到第i+1次所述输出结果；

若i为N，则以第i次所述输出结果对应的特征融合结果为所述视觉文本跨模态编码。

另一方面，所述根据待处理视频理解任务的任务目标对所述初始视频语言模型进行损失优化训练，包括：

构建视频文本匹配任务的损失函数、掩码文本预测任务的损失函数以及共识信息筛选任务的损失函数；

分别为所述视频文本匹配任务的损失函数、所述掩码文本预测任务的损失函数以及所述共识信息筛选任务的损失函数配置对应的任务权重，得到模型损失函数；

利用所述模型损失函数对所述初始视频语言模型进行损失优化训练；

其中，所述视频文本匹配任务用于识别所述视频样本与所述文本样本的匹配情况，所述掩码文本预测任务用于识别根据未被掩码的上下文信息预测被掩码的信息，所述共识信息筛选任务用于自先验字典筛选视觉模态和文本模态的共识信息。

另一方面，所述视频文本匹配任务的损失函数为：

；

其中，为所述视频文本匹配任务的损失值，S为视觉模态与文本模态的匹配对的数目，/>为符号函数，当视觉模态与文本模态匹配时/>为1，当视觉模态与文本模态不匹配时/>为0，/>为第i个视觉模态，/>为第i个文本模态，/>为视觉模态与文本模态匹配预测的概率。

另一方面，所述掩码文本预测任务对应的损失函数为：

；

其中，为第一掩码文本预测损失值，S为视觉模态与文本模态的匹配对的数目，V为文本模态的词典大小，/>为符号函数，当根据第v个视觉模态预测的视频标签符合第i个文本模态中被掩码的视频标签时/>为1，当根据第v个视觉模态预测的视频标签不符合第i个文本模态中被掩码的视频标签时/>为0，/>为第i个视觉模态，/>为第i个文本模态，/>为根据输入的视觉模态和文本模态预测被掩码的视觉标签的概率；

为第二掩码文本预测损失值，/>为符号函数，当根据第v个视觉模态预测的注释文本符合第i个文本模态中被掩码的注释文本时/>为1，当根据第v个视觉模态预测的注释文本不符合第i个文本模态中被掩码的注释文本时/>为0，为第i个视觉模态的视频标签，/>为第i个文本模态中被掩码的注释文本，为根据输入的视觉模态、视觉标签、剩余文本模态预测被掩码的文本模态的概率。

另一方面，所述共识信息筛选任务对应的损失函数为：

；

其中，为所述共识信息筛选任务对应的损失函数，K为目标先验知识的数量，为向量化函数，/>为权重参数，/>为第i个视频特征，/>为第j个文本特征，/>为关联第i个视觉模态和第j个文本模态的相关信息，/>为第i个视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值，/>为视觉模态和文本模态之间的相关信息，/>为第i个视觉模态、第j个文本模态以及视觉模态和文本模态之间的相关信息的条件互信息字典值，/>为所有视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值，/>为先验字典中每个特征的向量。

为解决上述技术问题，本发明还提供一种视频语言理解装置，包括：

第一获取单元，用于获取初始视频语言模型和视频样本；

第一构建单元，用于利用所述视频样本对应的注释文本和所述视频样本的关联信息构建所述视频样本对应的文本样本；

训练单元，用于根据待处理视频理解任务的任务目标对所述初始视频语言模型进行损失优化训练，并在训练中基于所述视频样本和所述文本样本进行视觉文本跨模态编码，直至达到迭代结束条件后，输出视频语言模型；

第一计算单元，用于响应于所述待处理视频理解任务，调用所述视频语言模型对输入的视频信息进行处理，得到视频处理结果；

为解决上述技术问题，本发明还提供一种视频语言理解设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一项所述视频语言理解方法的步骤。

为解决上述技术问题，本发明还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述视频语言理解方法的步骤。

本发明所提供的视频语言理解方法，除视频样本自带的注释文本外，还通过获取如搜索关键词或视频分段信息等视频样本的关联信息，以利用注释文本和关联信息来构建视频样本对应的文本样本，从而弥补视觉模态与文本模态弱相关的问题，在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容；根据待处理视频理解任务的任务目标对初始视频语言模型进行损失优化训练，并在训练中基于视频样本和文本样本进行视觉文本跨模态编码，直至达到迭代结束条件后，输出视频语言模型以响应于待处理视频理解任务对输入的视频信息进行处理得到视频处理结果，提升了计算机视觉的视频理解能力，进而可以精确响应视频语言相关问题。

本发明所提供的视频语言理解方法，还通过对长视频进行基于视频分段信息的视频动作获取，如通过调用视频动作识别模型识别得到分段后的子视频样本的动作预测结果，或通过调用视频描述模型生成各子视频样本的描述文本，以解决视频语言模型在处理长视频时凸显的理解能力不足的问题。

本发明所提供的视频语言理解方法，还提供了一种基于自先验字典筛选目标先验知识以构建视觉文本跨模态共识信息的方案，通过将视频语言数据中蕴含的知识和信息学习到模型的先验字典中，有助于模型更好地理解视频的内容或上下文信息，同时快速引导模型聚焦视频与其对应的语言信息中的重要部分；继而通过根据视觉文本跨模态共识信息进行视觉文本跨模态编码，以目标先验知识为桥梁，进一步解决了视觉模态和文本模态弱相关的问题，相较于传统的跨模态特征提取方法有效降低了因强行语义对齐造成的损失。

本发明所提供的视频语言理解方法，还通过基于视频文本匹配任务、掩码文本预测任务和共识信息筛选任务构建损失函数对初始视频语言模型进行损失优化训练，以分别实现识别视频样本与文本样本的匹配情况、识别根据未被掩码的上下文信息预测被掩码的信息以及自先验字典筛选视觉模态和文本模态的共识信息，从而在针对不同的任务目标训练视频情感识别模型时均可以显著提升训练效率。

本发明还提供了一种视频语言理解装置、设备及可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频语言理解方法的流程图；

图2为本发明实施例提供的一种视频特征提取方法的流程图；

图3为本发明实施例提供的一种接地编码器的架构图；

图4为本发明实施例提供的一种视频帧-文本跨模态编码的流程图；

图5为本发明实施例提供的一种视频-文本跨模态编码的流程图；

图6为本发明实施例提供的一种视觉理解模型的训练框架示意图；

图7为本发明实施例提供的一种视觉语言理解装置的结构示意图；

图8为本发明实施例提供的一种视觉语言理解设备的结构示意图。

具体实施方式

本发明的核心是提供一种视频语言理解方法、装置、设备及可读存储介质，用于提升计算机视觉的视频理解能力，以精确响应视频语言相关的问题。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于理解本发明实施例提供的技术方案，这里先对本发明实施例使用的一些关键名词进行解释：

计算机视觉（computer vision，CV）技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

转换编码器模型（Transformer）是一种自然语言处理（NLP）模型，其采用自注意力（Self-Attention）机制，使得模型可以并行化训练，而且能够拥有全局信息。转换编码器模型主要由编码器（Encoder）和解码器（Decoder）两部分组成，编码器和解码器都包括6个模块，其工作流程主要包括：获取输入句子的每一个单词的表示向量（由单词向量和单词位置向量相加得到），具体得到单词表示向量矩阵输入编码器中，经过6个编码器模块后可以得到句子所有单词的编码信息矩阵，每一个编码器模块的输出的矩阵维度与输入完全一致；将编码器输出的编码信息矩阵传递至解码器中，解码器会依次根据当前翻译过的单词1~i翻译下一个单词i，在使用过程中，翻译到单词i+1时需要通过掩盖（Mask）操作遮盖住i+1之后的单词，以此类推。

视觉-文本匹配（Vision-Text Matching，VTM）包括图像-文本匹配和视频-文本匹配，通过迫使视觉文本对在语义上靠近，并且不配对实例相互远离，学习了一个联合表示空间，实现了跨模态的语义对齐及跨模态的语义传播。

掩码语言模型（masked Language Modeling，MLM）是一种基于神经网络的语言模型，它可以在预训练阶段使用海量的未标注语料库进行训练，然后在有监督的任务中进行微调，如文本分类、序列标注等。

全连接层（Fully Connected，FC）是卷积神经术语，在卷积神经网络（ConvNet或CNN）结构中，经多个卷积层和池化层后，连接着1个或1个以上的全连接层，与多层感知机（Multilayer Perceptron，MLP）类似，全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。为了提升CNN网络性能，全连接层每个神经元的激励函数一般采用神经网络激活函数（RectifiedLinear Unit，ReLU）函数，最后一层全连接层的输出值被传递给一个输出，可以采用归一化指数函数（softmax）逻辑回归（softmax regression）进行分类，该层也可称为归一化指数函数层（softmax layer）。对于一个具体的分类任务，选择一个合适的损失函数是十分重要的，卷积神经网络有几种常用的损失函数，各自都有不同的特点。通常，卷积神经网络的全连接层与多层感知机的结构一样，卷积神经网络的训练算法也多采用误差反向传播（ErrorBack Propagation，BP）算法。

对比语言-图像预训练（Contrastive Language-Image Pretraining，CLIP）模型是一个预训练模型。它旨在学习图像和文本之间的相互关系，以便于进行文本图像检索和其他相关应用。对比语言-图像预训练模型包含两个主要模态：文本模态和视觉模态，分别由文本编码器（Text Encoder）和图像编码器（Image Encoder）处理。这两个模态输出的都是固定长度的向量表示，即Embedding。在训练过程中，对比语言-图像预训练模型会使用大量互联网上的文本和图像对作为训练数据。每个文本图像对被视为一个正样本，因为它是一对配对的，而与之相对的其他图像则作为负样本。这样的设计使得对比语言-图像预训练模型能够学习到图像和文本之间的高层次语义特征，而不是仅仅依赖于像素级的监督信息。

基于转换编码器模型的双向编码器表示（Bidirectional EncoderRepresentations from Transformers，BERT）模型是一个预训练的语言表征模型，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的掩码语言模型（masked Language Modeling，MLM）以致能生成深度的双向语言表征。

接地编码器（grounding encoder）是接地语言模型（Grounding语言模型）中的编码器，Grounding即将语言模型与具体的环境（数据/API/服务/物理世界等等）相连接，这是解决众多实际任务的根本。

随着计算机视觉技术的不断发展革新，基于视频语言模型对视频进行与相应文本模态间的跨模态学习，可以实现计算机视觉对视频携带的信息进行理解，从而执行如视频内容理解和分类、视频字幕生成和翻译、视频问答（Video Question Answering）、视频摘要和高亮生成、视频检索和推荐系统等任务。其中，视频内容理解和分类任务为通过视频语言理解模型帮助理解视频内容，并将其分类到如电影、体育赛事、新闻报道等不同的类别中，可以执行视频平台的视频分类、视频库内容管理等下游任务；视频字幕生成和翻译任务为利用视频语言理解模型理解视频内容和对话，自动生成字幕，乃至进行多语言翻译，例如可以实现为电影或电视节目自动生成字幕，实现跨语言视频内容的访问等；视频问答（VideoQuestion Answering）任务为通过视频语言理解模型理解视频内容并回答有关视频的问题，在教育行业、客户服务领域等具有广泛的应用，例如可以实现教育平台上的互动学习、客户服务中的自动问题解答等；视频摘要和高亮生成任务为通过视频语言理解模型自动识别视频中的关键时刻并生成摘要或高亮片段，适用于长视频内容的快速浏览，例如体育赛事的精彩时刻回放、会议录像的关键内容摘要等；视频检索和推荐系统为通过视频语言理解模型理解视频内容，响应用户查询操作，提高视频搜索的准确性和相关性，例如在线视频平台的搜索和推荐，数字图书馆的视频检索等。

传统的视频-文本的跨模态学习模型都是通过视觉骨干网络和语言骨干网络自视频样本中提取视频特征，自视频样本携带的注释文本中提取文本特征，将视频特征和文本特征输入到不同类型的转换编码器模型中进行训练。然而，由于视觉模态和文本模态往往存在语义弱相关问题，传统的视频语言理解模型往往无法在跨模态学习中学习到足够的知识，以致模型泛化能力较差，在实际的视频语言理解任务中无法发挥实用价值。

对此，本发明实施例旨在针对传统的视频-文本的跨模态学习模型泛化能力差的问题，提供一种视频语言理解方法，来实现视觉模态和文本模态的深度交互与融合，以提高对视频内容的深度理解与分析。

在系统架构上，本发明实施例提供的视频语言理解方法可以基于单台计算设备或由多台计算设备构成的计算系统实现，所采用的计算设备可以采用但不限于图形处理器（Graphics Processing Unit，GPU）、现场可编程逻辑门阵列设备（Field ProgrammableGate Array，FPGA）、专用集成电路设备（Application Specific Integrated Circuit，ASIC）和处理器分散处理单元设备（Data Processing Unit，DPU），或采用其中一种或多种作为加速器的计算设备，也可以采用其他类型的计算设备。

本发明实施例提供的视频语言理解方法可以进一步应用于一个包含计算系统、存储系统和客户端设备的视频语言理解系统，其中，存储系统用于存储用于进行视频语言模型训练的样本数据集；计算系统用于自存储系统读取样本数据集并根据待处理视频理解任务的任务目标执行视频语言模型的训练任务；客户端设备用于响应用户输出的待处理视频理解任务，从中解析出待识别数据及其相关的视频理解任务参数传递至计算系统，由计算系统进一步响应于待处理视频理解任务以调用视频语言模型对输入的待识别数据进行视频语言理解处理，得到视频处理结果，并通过客户端设备将视频处理结果以待处理视频理解任务所需的形式进行展示。

本发明实施例提供的视频语言理解方法可以用于解决但不限于视频内容理解和分类任务、视频字幕生成和翻译任务、视频问答（Video Question Answering）任务、视频摘要和高亮生成任务、视频检索和推荐任务等。

在上述架构的基础上，下面结合附图对本发明实施例提供的视频语言理解方法进行说明。

图1为本发明实施例提供的一种视频语言理解方法的流程图。

如图1所示，本发明实施例提供的视频语言理解方法包括：

S101：获取初始视频语言模型和视频样本。

S102：利用视频样本对应的注释文本和视频样本的关联信息构建视频样本对应的文本样本。

S103：根据待处理视频理解任务的任务目标对初始视频语言模型进行损失优化训练，并在训练中基于视频样本和文本样本进行视觉文本跨模态编码，直至达到迭代结束条件后，输出视频语言模型。

S104：响应于待处理视频理解任务，调用视频语言模型对输入的视频信息进行处理，得到视频处理结果。

其中，视频样本的关联信息包括获取视频样本时的搜索关键词、视频样本携带的视频分段信息中的至少一个。

在本发明实施例中，对于S101，根据待处理视频理解任务的任务目标获取相应的初始视频语言模型。初始视频语言模型可以采用传统视频理解领域中的通用视频语言模型，也可以基于另外的样本数据训练得到。根据待处理视频理解任务的任务目标，获取相应的视频-文本样本集。

对于S102，传统的视频语言模型训练所基于的样本数据集仅为视频样本及其携带的注释文本，而注释文本往往存在与视频样本弱相关、语义不对齐的问题，导致无法进行有效的跨模态学习。故在本发明实施例中，在构建文本样本时，除了视频样本携带的注释文本，还结合视频样本的关联信息来与注释文本一起构建视频样本对应的文本样本。视频样本的关联信息可以为搜索关键词也可以为视频样本携带的视频分段信息。

其中，搜索关键词为爬取视频时会采用关键词的形式进行搜索，检索结果会根据相关性从高至低进行排序，通常数据收集者会采集高相关性的视频，因此这些关键词与视频内容强相关。如搜索关键词为“篮球”，得到的视频皆是篮球的相关视频。

视频分段信息则是在某些视频尤其是篇幅较长的视频中携带的划分视频章节的信息，例如该视频的每十分钟被分为一段，每段视频对应该视频的一个章节，则“十分钟”在视频中的相对时间位置即为视频分段信息。

对于S103，为解决视觉模态和文本模态的弱相关情形下的编码问题，区别于传统的跨模态编码方案，本发明实施例引入视觉文本跨模态共识信息进行视觉文本跨模态编码，通过视觉文本跨模态共识信息搭建视觉模态与文本模态之间的桥梁，而不是将视觉模态和文本模态进行强制语义对齐，避免强制语义对齐带来的损失，增强模型的跨模态理解能力，进而增强模型泛化能力。

例如，视频样本为人物灌篮的动作片段，对应的注释文本为“一场精彩的比赛”，此时注释文本中并没有“篮球”的字眼，如果采用传统的视觉理解模型，在进行跨模态编码时无法将视觉模态与文本模态对齐，则无法学习到相应的知识。而应用本发明实施例提供的基于视觉文本跨模态共识信息的视觉文本跨模态编码来训练视觉理解模型，从人物灌篮的动作片段学习到人物获得了灌篮相应的比分，从“一场精彩的比赛”的注释文本学习到人物执行的动作取得了阶段性或全局的胜利，由此学习到“人物做出灌篮动作赢得了比分进而赢得了比赛，这是一场精彩的比赛”的共识信息，使得人物灌篮的动作片段和 “一场精彩的比赛”的注释文本不再是无法语义对齐的视觉模态和文本模态，而是存在关联的视觉模态和文本模态，模型也由此学习到更为丰富的跨模态知识。

迭代结束条件可以为执行完预设次数的迭代训练和/或模型损失值降至预设阈值。

对于S104，对于视频内容理解和分类任务、视频字幕生成和翻译任务、视频问答（Video Question Answering）任务、视频摘要和高亮生成任务、视频检索和推荐任务等所需执行的待处理视频理解任务，获取相应的输入数据输入到视频语言模型中进行计算，得到视频处理结果，即为待处理视频理解任务所需的结果。应用本发明实施例提供的视频语言理解方法，可以应用到广泛的视频语言理解的下游任务中，并基于视觉文本跨模态编码的视觉理解模型获得更准确的视觉语言理解结果。

本发明实施例提供的视频语言理解方法，除视频样本自带的注释文本外，还通过获取如搜索关键词或视频分段信息等视频样本的关联信息，以利用注释文本和关联信息来构建视频样本对应的文本样本，从而弥补视觉模态与文本模态弱相关的问题，在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容；根据待处理视频理解任务的任务目标对初始视频语言模型进行损失优化训练，并在训练中基于视频样本和文本样本进行视觉文本跨模态编码，直至达到迭代结束条件后，输出视频语言模型以响应于待处理视频理解任务对输入的视频信息进行处理得到视频处理结果，提升了计算机视觉的视频理解能力，进而可以精确响应视频语言相关问题。

图2为本发明实施例提供的一种视频特征提取方法的流程图。

在上述实施例的基础上，本发明实施例进一步对提取视频特征的步骤进行说明。

视频可以看成在时间维度上的一组图像，如图2所示，帧视觉特征的提取主要分为拆帧和提取帧视觉特征两个步骤。对于拆帧的步骤，可以采用均匀采样方式在视频中选取N帧。将单个视频采样后结果记为，其中N为采样数目，/>为当前视频抽帧之后的结果。

对于提取帧视觉特征的步骤，可以记视觉模态的视觉特征为，其中/>为单个视频的所有帧视觉特征。选取的视频帧即为图像，可采用图像相关骨干网络（vision backbone）提取对应图像特征，如Resnet、ViT等。此处以对比语言-图像预训练模型中的ViT为例提取帧视觉特征，将图像无重叠分块成16x16大小的块（patch），然后将这些二维的块（patch）线性映射到一维，并叠加对应的位置向量（position embedding），通过12层的转换编码器（transformerencoder）的自注意力机制整合上下文信息，去建模全局信息，并实现特征交互和融合，随后通过多层感知机（MLP）提取图像特征，同时促进不同位置的特征信息传递，最终输出的图像特征维度为197x768，其中197=196+1，196为块（patch）序列长度，1为特殊字符（分类标记cls），768为块（patch）维度。

需要说明的是，在图2中，各层编码器输出的帧视觉特征（0，1，……N）及文本特征（0，1，……M）采用了相同的三元组图形表示，并不代表各层编码器输出的特征都是一样的，仅为指示该特征为帧视觉特征的三元组数据或文本特征的三元组数据。

至此，可以获得各单个视频帧的帧视觉特征。

而在视频中，视频帧之间往往存在关联关系，如表征一个动作的不同步骤。则在上述步骤的基础上，可以通过自注意力机制实现视频帧之间的交互，最终输出视频帧之间的表征，如图3所示，具体步骤可以包括：

采用对帧视觉特征的维度进行调整，其中/>为输入维度768输出1024的维度全连接层，/>为将特征维度/>转换为/>，FC为输入维度1024输出维度1024的全连接层，/>为每个视频帧数；

通过转换编码器（transformer encoder）提取视频特征，即，其中/>为隐藏层维度为1024，深度为4，header为8，块（path_size）大小为6×10的自注意力模块/>最终的输出维度为/>，其中b为批次数据大小（batch size），/>为每个视频帧数。

而在训练视频语言模型时，由于需要往往需要对整个视频的内容进行理解，因此不能局限于帧维度的特征。在本发明实施例的一些可选的实施方式中，在训练中基于视频样本和文本样本进行视觉文本跨模态编码，可以包括：

自视频样本中提取多个视频帧，获取视频帧的帧视觉特征，并根据视频帧在视频样本中的顺序为帧视觉特征添加时间维度信息；

自文本样本中提取文本特征；

对添加时间维度信息的帧视觉特征和文本特征进行编码后，得到视频样本的视频特征；

对视频特征和文本特征进行视觉文本跨模态编码。

在本发明实施例中，可以通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息，而后基于视觉文本跨模态共识信息来勾联视觉模态与文本模态高层语义之间的信息，实现对视频特征和文本特征进行视觉文本跨模态编码。通过采用基于视觉文本跨模态共识信息的视觉文本跨模态编码的而不是视觉文本对齐编码的方式，降低跨模态编码损失，增强视觉文本跨模态编码表达能力。在训练视频语言模型时，所需获取的样本数据集包括视频样本及其对应的文本样本。获取的样本数据集可以来源于公开的数据集，如视频-本文检索、动作分类和识别、视频描述，或待处理视频理解任务的用户提供的样本数据集。

其中，视频-本文检索类样本数据集可以包括MSR-VTT，每个视频有多达20个描述，而且每个视频提供对应的类别，如音乐等。此类数据集将对应的类别作为本方案的hashtag，而视频描述、视频保持不变。

动作分类和识别样本数据集可以包括UCF101，此类数据集包含101个动作类别的视频片段，每个视频提供对于动作类别已经发生的起始时间和结束时间。此类数据集将动作类别作为本方案的hashtag，由于此类数据集缺少对应的描述，可根据现有视频描述模型，如Vid2Seq，基于视频内容、动作类别已经动作发生的开始和结束，生成多个对于当前视频的描述。

视频描述类样本数据集可以包括MSVD，每个视频片段都附带了多个人工生成的英文描述，共计约70,000个描述。这些描述被设计用于准确地描述视频片段中正在发生的事件和场景。由于此类数据集缺少对应的类别，可通过动作分类和识别相关模型直接生成对应类别，如TSN、BSN、R2Plus1D等，随后结合视频描述剔除掉相似度的类别，并将最终类别作为本发明实施例所采用的话题标签（hashtag）。

为了使得视频内容更契合文本或者任务，同时加速任务的收敛，本发明实施例将采取基于话题标签（hashtag）的交叉编码器（cross encoder）。

在利用本发明实施例提供的视频帧的帧视觉特征的提取方法提取帧视觉特征后，由于帧视觉特征仅是空间维度上视觉特征，缺少时间维度上信息，为了能够表达视频特征，需要将在帧视觉特征附加时间维度信息。时间维度信息有相对时间维度和绝对时间维度，相对时间维度是根据抽取帧的顺序依次添加时间顺序，而绝对时间维度是当前帧在整个视频中位置，通常会精确到毫秒。本发明实施例仅需对视频内容进行理解，不需要绝对时间维度。而后，利用本发明实施例提供的基于话题标签（hashtag）的交叉编码器（crossencoder）进一步提取视频特征。

在此，需要对本发明实施例训练视频语言模型所采用的话题标签（hashtag）进行说明。在社交平台中，话题标签（hashtag）也称聚合标签，通常采用井号“#”单词或短语来表示数据类别，在社交平台中用于组织话题讨论。而在本发明实施例中，定义话题标签（hashtag）作为提取视频特征的导向，以帮助模型提供更多的语境信息，增强视觉模态和语言模态的联合表征学习能力，进而提升模型泛化能力。

如本发明上述实施例所介绍的，以获取视频样本时的搜索关键词、视频样本携带的视频分段信息中的至少一个作为视频样本的关联信息，用于和视频样本对应的注释文本一起构建视频样本对应的文本样本。则可以定义该关联信息为视频样本的话题标签（hashtag）。

若以搜索关键词作为话题标签，即视频样本的关联信息包括搜索关键词，在本发明实施例的一些可选的实施方式中，自文本样本中提取文本特征，可以包括：

自与视频样本对应的注释文本中提取主语和宾语；

将与搜索关键词、主语和宾语进行拼接，得到文本特征。

视频内容通常表达一个观点或描述一个事实，而这些内容通常有对应的客体和主体，以文本主语和宾语为导向针对是单个视频，如“小男孩在公园里遛狗”。

则如图3所示，假设视频样本的注释文本（评论）为“姚和麦在篮球队中表现最为出彩”，视频样本的搜索关键词为“篮球”，对注释文本（评论）进行句法分析，提取主语和宾语分别为“姚”和“麦”，以“篮球”为话题标签，拼接得到“[分类标记][篮球][姚][麦][序列终止标签][补全字符]”的句子，其中，“[分类标记]”表示为“cls”，“[序列终止标签]”表示为“eos”，“[补全字符]”表示为“pad”。将拼接得到的句子输入语言骨干网络进一步提取文本特征0，1，……M。

若以视频分段信息作为话题标签，即视频样本的关联信息包括视频分段信息，视频样本的注释文本包括分段事件描述；

则自文本样本中提取文本特征，可以包括：

根据视频分段信息将视频样本切分为多个子视频样本，并将对应的分段事件描述作为子视频样本的注释文本；

调用视频动作识别模型识别得到子视频样本的动作预测结果；

自子视频样本的注释文本提取视频描述关键词后，将子视频样本的动作预测结果与子视频样本的视频描述关键词进行拼接，得到子视频样本的文本特征；

整合各子视频样本的文本特征为视频样本的文本特征。

其中，自子视频样本的注释文本提取视频描述关键词，可以包括：采用自然语言处理（NLP）模型提取核心关键词的方式自子视频样本的注释文本提取视频描述关键词。

若以视频分段信息作为话题标签，即视频样本的关联信息包括视频分段信息，视频样本的注释文本包括分段动作描述；

自文本样本中提取文本特征，还可以包括：

根据视频分段信息将视频样本切分为多个子视频样本；

调用视频描述模型生成各子视频样本的描述文本；

自分段动作描述中提取动作关键词，自描述文本中提取视频描述关键词后，将子视频样本的动作关键词和子视频样本的视频描述关键词进行拼接，得到子视频样本的文本特征；

整合各子视频样本的文本特征为视频样本的文本特征。

其中，自描述文本中提取视频描述关键词，可以包括：采用自然语言处理（NLP）模型提取核心关键词的方式自描述文本中提取视频描述关键词。

在本发明实施例的另一些可选的实施方式中，根据与视频样本对应的注释文本提取文本特征，可以包括：

若视频样本不包括视频分段信息，则自与视频样本对应的注释文本中提取主语和宾语；将主语和宾语与获取视频样本的搜索关键词进行拼接，得到文本特征；

若视频样本对应有视频分段信息和分段事件描述，则根据视频分段信息将视频样本切分为多个子视频样本，并将对应的分段事件描述作为子视频样本的注释文本；调用视频动作识别模型识别得到子视频样本的动作预测结果；自子视频样本的注释文本提取视频描述关键词后，将子视频样本的动作预测结果与子视频样本的视频描述关键词进行拼接，得到子视频样本的文本特征；整合各子视频样本的文本特征为视频样本的文本特征；

若视频样本对应有视频分段信息和分段动作描述，则根据视频分段信息将视频样本切分为多个子视频样本；调用视频描述模型生成各子视频样本的描述文本；自分段动作描述中提取动作关键词，自描述文本中提取视频描述关键词后，将子视频样本的动作关键词和子视频样本的视频描述关键词进行拼接，得到子视频样本的文本特征；整合各子视频样本的文本特征为视频样本的文本特征。

继而执行对添加时间维度信息的帧视觉特征和文本特征及进行编码后，得到视频样本的视频特征的步骤。在本发明实施例的一些可选的实施方式中，对添加时间维度信息的帧视觉特征和文本特征进行编码后，得到视频样本的视频特征，可以包括：

对添加时间维度信息的帧视觉特征进行标记化处理，并提取帧特征向量；

对文本特征进行标记化处理，并提取文本特征向量；

将帧特征向量和文本特征向量进行拼接处理后输入交叉编码器进行交叉编码，得到视频特征。

如图2所示，利用本发明实施例提供的基于话题标签（hashtag）的交叉编码器（cross encoder），可以进一步包括：

获取视频样本对应的话题标签以及注释文本中的主语和宾语。话题标签可以通过标注文件直接获取，而注释文本中的主语和宾语通过句法分析加依存关系确定，如可以给定输入的文本，首先进行句法分析来确定句子中的结构和成分，通过句法分析将给定的文本分解为短语、句子和词汇，并确定它们之间的关系；

根据句法分析结果，确定依存关系，得到注释文本中的主语或宾语；通过分析句子中的依存关系，确定动词和其他成分之间的关系，找到与动词直接或间接依赖关系的成分，从而确定句子的主语和宾语；

拼接话题标签（hashtag）和注释文本中的主语和宾语，并基于语言骨干网络提取特征。令话题标签（hashtag）数目为n，注释文本中的主语为m，宾语数目为l，且n+m+l<10，拼接过程可以包括：拼接话题标签（hashtag）和注释文本中的主语和宾语，拼接后的记为；选择语言骨干模型对文本特征进行标记（token）化，并提取向量（embedding），设置最大长度为10，长度不足10将用补全字符（pad）补齐，加上前后分类标记（cls）和序列终止标签（eos），这样输出维度为12x768；

拼接帧视觉特征与文本特征（/>），并输入到基于话题标签（hashtag）的交叉编码器（cross encoder）进行编码得到视频特征，可以包括：

拼接帧视觉特征与文本特征（/>），首先按照视频帧的顺序，依次添加对应位置编码/>，作为视频帧的时间维度信息，另外添加视频类型编码/>（例如，若该数据为视频数据则用0表示，若该数据为文本数据则用1表示），如此将每个视频帧的帧视觉特征表征为帧特征三元组（对应图3中视觉特征三元组数据）；基于话题标签（hashtag）和主语宾语的/>，添加位置编码/>和类型编码/>，如此将每个文本特征表征为文本特征三元组/>（对应图3中文本特征三元组数据）；拼接帧特征三元组与文本特征三元组,得到输入特征/>，其中/>为帧特征三元组，/>为文本特征三元组，N和M为帧数目和文本长度；

将拼接之后的帧视觉特征与文本特征（/>）输入到基于话题标签（hashtag）的交叉编码器（cross encoder）进行编码，随后经过多层感知机得到视频特征/>；其中，基于话题标签（hashtag）的交叉编码器（cross encoder）可以由四层转换编码器模型构成，隐藏层维数为512，交叉注意力头（cross-attention head）的数目为4，下降速度（drop）可以设置为0.1，权重初始化可采用对比语言-图像预训练模型的文本编码器（text-encoder）；为了充分利用图文预训练模型的知识，在视觉特征与跨模态表征之间采用残差结构，即/>，其中/>为池化（pool）层，/>为权重；通过含有多个全连接层的多层感知机得到最终的视频特征，，最终的维度[b,128]，其中b为批次数据大小（batchsize），128为多层感知机的输出维度。

本发明实施例提供的视频语言理解方法，还通过在训练视频语言模型时，基于注释文本中的文本特征自视频样本中提取视频特征，可以采用注释文本中的主语和宾语以及获取视频样本的搜索关键词进行拼接得到文本特征，相较于传统的视频特征提取方案，在不同层面上为视觉理解模型提供了丰富的上下文信息，帮助视频语言模型更好地理解视频内容，提高视频特征提取的效果。

本发明实施例提供的视频语言理解方法，还通过对长视频进行基于视频分段信息的视频动作获取，如通过调用视频动作识别模型识别得到分段后的子视频样本的动作预测结果，或通过调用视频描述模型生成各子视频样本的描述文本，以解决视频语言模型在处理长视频时凸显的理解能力不足的问题。

在上述实施例的基础上，本发明实施例进一步对在训练中基于视频样本和文本样本进行视觉文本跨模态编码的步骤进行说明。

在本发明实施例中，S103中在训练中基于视频样本和文本样本进行视觉文本跨模态编码，可以包括：

初始化先验字典；

根据待处理视频理解任务的任务目标确定目标模态；

基于视频样本和文本样本，自先验字典中筛选与目标模态适配的目标先验知识；

基于目标先验知识对视频样本中的视觉模态和文本样本中的文本模态进行跨模态信息融合，提炼视觉模态和文本模态之间的视觉文本跨模态共识信息；

根据视觉文本跨模态共识信息对应的视频特征、文本特征和目标先验知识进行跨模态融合编码，得到视觉文本跨模态编码；

其中，目标模态为视觉模态、文本模态和视觉文本联合模态中的一个。

在本发明实施例中，先验字典初始时为一组随机变量，通过视觉与文本跨模态学习，将先验知识引入到先验字典中，起到桥接视觉内容与文本内容语义不对齐的部分。进而言之，为了解决视觉模态和文本模态之间不对齐现象，在视觉模态和文本模态之间搭建桥梁，通过该桥梁分别与视觉模态和文本模态进行多次交互，以在先验字典中挑选最适配视觉模态和文本模态的目标先验知识，通过后续的跨模态编码，来对齐视觉模态和文本模态。

在本发明实施例中，首先构建先验字典（Prior knowledge Dictionary）。令先验字典矩阵为，其中C为向量（embedding）长度，D为向量（embedding）维度，采用随机初始化方式构建先验字典。

而后自先验字典中筛选目标先验知识。先验字典经过视觉模态和文本模态的跨模态学习之后，会将相关的知识学习到先验字典中，而这些相关的知识可以作为先验知识，这些目标先验知识通过视觉内容和文本信息进行筛选，将筛选结果称为目标先验知识。由于不同的待处理视频理解任务所侧重的模态不同，根据待处理视频理解任务的任务目标确定目标模态后，再基于样本数据集自先验字典中筛选与目标模态适配的目标先验知识。

当目标模态为视觉文本联合模态时，令视觉模态为，文本模态为/>，其中/>为视觉模态中第i个模态，/>为文本模态中的第j个模态，需要从C维的先验字典U中选择出最适配联合目标/>的K个目标先验知识。

当目标模态为视觉文本联合模态时，基于视频样本和文本样本，自先验字典中筛选与目标模态适配的目标先验知识，可以包括：

根据视频样本和文本样本构建视觉文本模态对，计算先验字典中的先验知识与视觉文本模态对之间的第一条件互信息；

建立先验知识与第一条件互信息的一一映射关系，得到第一先验知识-条件互信息字典；

根据第一先验知识-条件互信息字典中的第一先验知识-条件互信息字典值从大到小的顺序，选出与视觉文本模态对相关性最高的第一预设数量先验知识；

自所有视觉文本模态对相关性最高的第一预设数量先验知识中选出相关性最高的第二预设数量先验知识为目标先验知识；

其中，一个视觉文本模态对包括样本数据中的一个视觉模态和样本数据中的一个文本模态。

其中，第一条件互信息，可以通过下式计算得到：

；

其中，为第一条件互信息的值，/>为先验知识z、文本模态t与视觉模态v的联合概率分布函数，/>为先验知识z的概率分布函数，/>为视觉模态v与先验知识z的联合概率分布函数，/>为文本模态t与先验知识z的联合概率分布函数，/>为视觉模态中的第i个模态，/>为文本模态中的第j个模态，Z为先验字典。

第一先验知识-条件互信息字典值，可以通过下式计算得到：

；/>

其中，为第一先验知识-条件互信息字典值，/>为第一条件互信息的值，/>为视觉模态长度，/>为文本模态长度。

将第一先验知识-条件互信息字典值按照从大到小排序，选择与联合目标相关性最高的k个先验知识。为降低后续编码计算量，在遍历上述步骤选择出视觉模态与文本模态所有组合的相关性最高的k的先验知识后，统计所有组合的先验知识，按照出现次数排序这些先验知识，从中选择出次数最多的K个先验知识作为最终筛选出的目标先验知识。

而在另一些视觉情感识别任务中，需要更侧重于视觉模态或更侧重于文本模态，即联合目标变为单目标/>，处理流程类似。

由于评论中带有丰富的情感和观点信息，这些情感和观点是观看者对视频内容的直接反映，如情感状态、观点等，这些信息可以为任务提供更直接、丰富的线索，在进行视频情感识别时，通过根据视频与评论的内容去做情感分析与观点分析，尤其是通过同一视频的不同评论之间相互补充，可以多角度获取到视频信息、消除视频内容的歧义、捕获更多的情感细节，例如，不同的评论反映了观看者多样化的情感和观点，通过分析这些不同的评论，可以获得更全面的情感理解，从而对同一视频获取多角度的视频信息；有时视频内容本身可能模糊不清或多义，评论可以提供额外的上下文信息，帮助解释视频内容，减少误解；评论中的细节可以揭示视频中不易察觉的情感细节，如微妙的幽默、讽刺或情绪转变等。此外，通过获取评论中共同的价值取向，即通过分析视频评论，有助于理解观看者对于某一类视频的普遍态度，同时有助于模型学习到特定文化或社会群体的价值观和偏好。因此，对于基于评论的视频情感识别任务，通过将用于筛选目标先验知识的目标模态设置为文本模态，以侧重于从文本模态侧获取跨模态共识信息，更有助于模型理解视频的情感信息。

则在本发明实施例的另一些可能的实施方式中，当待处理视频理解任务为基于评论的视频情感识别任务时，目标模态为文本模态；

基于样本数据集，自先验字典中筛选与目标模态适配的目标先验知识，包括：

计算先验字典中的先验知识与样本数据集中的文本模态的第二条件互信息；

建立先验知识与第二条件互信息的一一映射关系，得到第二先验知识-条件互信息字典；

根据第二先验知识-条件互信息字典中的第二先验知识-条件互信息字典值从大到小的顺序，选出与样本数据集中的文本模态相关性最高的第三预设数量先验知识；

自与样本数据集中的各文本模态相关性最高的第三预设数量先验知识中选出相关性最高的第四预设数量先验知识为目标先验知识。

当目标模态为视觉模态时，实现方式与目标模态为文本模态时的实现方式类似。

本发明实施例提供的视频语言理解方法，还提供了一种基于自先验字典筛选目标先验知识以构建视觉文本跨模态共识信息的方案，通过将视频语言数据中蕴含的知识和信息学习到模型的先验字典中，有助于模型更好地理解视频的内容或上下文信息，同时快速引导模型聚焦视频与其对应的语言信息中的重要部分；继而通过根据视觉文本跨模态共识信息进行视觉文本跨模态编码，以目标先验知识为桥梁，进一步解决了视觉模态和文本模态弱相关的问题，相较于传统的跨模态特征提取方法有效降低了因强行语义对齐造成的损失。

图3为本发明实施例提供的一种接地编码器的架构图。

基于上述实施例提供的任意一种跨模态共识信息的建立方法，本发明实施例进一步对基于视觉文本跨模态共识信息的视觉文本跨模态编码的实现步骤进行说明。

多模态模型中通常将两个模态特征直接输入到转换编码器模型中，利用转换编码器模型的自注意力机制促进不同模态在同一表征空间的对比与关联，进而提升模型的性能。但由于两个模态常常存在语义鸿沟，如果强制关联视觉模态和文本模态，会减弱模型性能。为了提升跨模态之间的融合，本发明实施例基于两个模态或单个模态从先验字典中获取相关的先验知识，以它作为桥梁提升跨模态融合能力，如图3所示，本发明实施例提供一种接地编码器（grounding encoder）用于实现基于目标先验知识对样本数据集中的视觉模态和样本数据集中的文本模态进行跨模态信息融合，提炼视觉模态和文本模态之间的视觉文本跨模态共识信息的步骤。

在本发明实施例中，基于目标先验知识对视频样本中的视觉模态和文本样本中的文本模态进行跨模态信息融合，提炼视觉模态和文本模态之间的视觉文本跨模态共识信息，可以包括：

基于模态内信息整合结果和全局共识信息整合结果，构建文本交叉注意力模块以基于目标先验知识搜索视觉模态中与文本模态关联的视频信息；

基于模态内信息整合结果和全局共识信息整合结果，构建视频交叉注意力模块以基于目标先验知识搜索文本模态中与视觉模态关联的文本信息；

基于视觉模态中与文本模态关联的视频信息、文本模态中与视觉模态关联的文本信息以及目标先验知识，构建注意力模块进行视觉文本跨模态共识信息的融合和提炼。

其中，分别对视觉模态和文本模态进行模态内信息整合以及跨模态信息整合，得到模态内信息整合结果和全局共识信息整合结果，可以包括：

对视觉模态进行模态内信息整合，得到视觉模态信息；

对文本模态进行模态内信息整合，得到文本模态信息；

对目标先验知识进行模态内信息整合，得到目标先验知识模态信息；

以视觉模态信息、文本模态信息和目标先验知识模态信息为模态内信息整合结果；

基于目标先验知识对视觉模态和文本模态进行跨模态信息整合，建立视觉模态信息、文本模态信息和目标先验知识模态信息的跨模态信息关联交互模型；

基于跨模态信息关联交互模型，调用转换编码器模型对视频特征、文本特征和目标先验知识进行整合处理，得到全局共识信息整合结果；

其中，在处理视频特征时，对文本特征和目标先验知识进行掩膜处理；在处理文本特征时，对视频特征和目标先验知识进行掩膜处理；在处理目标先验知识时，不对视频特征、文本特征及目标先验知识设置掩膜。

如图3中下方三个方框所示，分别对视觉模态的视觉标记、文本模态的文本标记和目标先验知识的先验知识标记进行模态内信息整合，用来整合关键信息和全局信息。由于一些关键的信息可能分布在不同的位置，通过模态内信息整合可获取这些关键信息；另外，自注意机制本身可以就捕获到全局的语义信息。

而后如图3下方三个方框的交叉示意，基于先验知识标记整合所有模态信息，即视觉标记、文本标记和先验知识标记。由于先验知识标记是基于视频特征和文本特征筛选出来的，因此先验知识标记之间除了自身连接之外，同时连接视觉标记和文本标记，来提升不同模态信息之间的关联和交互。

如图3所示，使用同一个转换编码器模型处理视觉标记、文本标记和先验知识标记，此处转换编码器模型可以采用多头注意力模型、基于转换编码器模型的双向编码器表示（Bidirectional Encoder Representations from Transformers，BERT）模型或对比语言-图像预训练（Contrastive Language-Image Pretraining，CLIP）模型，将模型记为，令视频特征为/>，文本特征为/>，筛选出的先验知识的特征为/>，对应的标记（token）类型为/>，其中/>、/>、/>为视觉标记、文本标记和先验知识标记对应的标记（token）类型，，其中/>、/>、/>为视觉标记、文本标记和先验知识标记对应的掩码（mask），输入为，包括下述三种掩码类型：

视频特征掩码（mask），当处理视频特征时，遮住其他两个模态，即令为1，/>、为0,记为/>；

文本特征掩码（mask），当处理文本特征时，遮住其他两个模态，即令为1，/>、为0，记为/>；

基于目标先验知识整合所有模态信息的掩码（mask），当处理目标先验知识时，由于需要关注到所有模态信息，即令、/>、/>为1，记为/>；

整合以上三种掩码（mask），得到=，经由转换编码器模型处理得到视觉模态信息、文本模态信息和目标先验知识模态信息的跨模态信息关联交互模型，即跨模态信息整合结果为/>。

经过上述信息整合步骤，已完成关键信息和全局共性信息整合，为了进一步完善共识信息，基于目标先验知识为桥梁的基础上，视觉模态与文本模态分别互相交互，建立视觉信息和语言信息之间的关系，使每种模态均考虑另一种模态的上下文，提高模型对于每种模态内部信息理解。基于模态内信息整合结果和全局共识信息整合结果，构建文本交叉注意力模块以基于目标先验知识搜索视觉模态中与文本模态关联的视频信息，可以包括：

合并模态内信息整合结果中的视觉模态信息和目标先验知识为文本交叉注意力模块的键值数据，以模态内信息整合结果中的文本模态信息为文本交叉注意力模块的查询语句，以利用文本交叉注意力模块基于查询语句查询对应的键值数据，得到视觉模态中与文本模态关联的视频信息；

基于模态内信息整合结果和全局共识信息整合结果，构建视频交叉注意力模块以基于目标先验知识搜索文本模态中与视觉模态关联的文本信息，包括：

合并模态内信息整合结果中的文本模态信息和目标先验知识为视频交叉注意力模块的键值数据，以模态内信息整合结果中的视觉模态信息为视频交叉注意力模块的查询语句，以利用视频交叉注意力模块基于查询语句查询对应的键值数据，得到文本模态中与视觉模态关联的文本信息。

如图3所示，构建文本交叉注意力（Text cross attention）模块来获取文本对应的视觉信息，有助于模型理解图像或视频中的具体内容。通过构建文本交叉注意力模块中的查询语句（query）、关键字（key）和值（value），合并视觉模态和目标先验知识，并作为关键字（key）和值（value），即，其中/>和/>分别为视觉模态和目标先验知识，将文本模态作为/>；以文本模态作为查询语句（query），视觉模态和先验知识作为关键字（key）和值（value），获取与文本模态相关的视觉信息。此处可以采用多头注意力机制作为文本交叉注意力模块，，输出维度与查询语句（query）维度相同，注意力头（header）为3。

如图3所示，构建视觉交叉注意力（Vision cross attention）模块来获取视觉对应的文本信息，有助于模型理解描述或文本的具体语境。构建视觉交叉注意力模块的查询语句（query）、关键字（key）和值（value），此处将视觉模态作为查询语句（query），文本模态和目标先验知识作为关键字（key）和值（value）。即合并文本模态和目标先验知识，，其中/>和/>分别为文本模态和目标先验知识，将视觉模态作为/>去获取与视觉模态相关的文本信息；此处可以采用多头注意力机制作为视觉交叉注意力模块，/>，输出维度与查询语句（query）维度相同，注意力头（header）为3。

上述步骤虽从不同的层面获取其他模态的信息，但这些信息离散化，需要对这些信息进行融合并加以提炼，从而使得模型能够更好的处理和理解同时包含两种模态的复杂任务。则基于视觉模态中与文本模态关联的视频信息、文本模态中与视觉模态关联的文本信息以及目标先验知识，构建注意力模块进行视觉文本跨模态共识信息的融合和提炼，可以包括：

以视觉模态中与文本模态关联的视频信息为文本标记，以文本模态中与视觉模态关联的文本信息为视频标记，以目标先验知识为先验知识标记；

拼接视频标记、先验知识标记和文本标记后，输入注意力模块进行视觉文本跨模态共识信息的融合和提炼；

在注意力模块中，分别合并视频标记和先验知识标记为键值数据，以文本标记为查询语句，以及合并文本标记和先验知识标记为键值数据，以视频标记为查询语句，输出视觉文本跨模态共识信息。

如图3所示，拼接视觉标记、先验知识标记和文本标记，即，其中/>为视觉交叉注意力模块输出结果，/>为文本交叉注意力模块输出结果，/>为经过模型/>处理后的先验知识标记。基于注意力机制进一步融合和提炼共识信息，此处仍可以采用多头注意力机制作为注意力模块，其中查询语句（query）、关键字（key）和值（value）相同，输入维度和输出维度相同，/>。

图4为本发明实施例提供的一种视频帧-文本跨模态编码的流程图。

由于文本输出方的关注点不一样，导致同样的图像或视频帧出现不同的文本内容，通过构建视频帧视觉特征与文本特征关系，来解决文本关注视频中某一帧或某些帧情况，但由于两者之间存在语义不一致情况，为了缓解这一现象，通过基于文本语义与视频帧视觉语义去筛选先验字典相近的目标先验知识以作为视频帧-文本的跨模态共识信息并实现跨模态共识编码。

如图4所示，考虑视觉特征为视频帧，根据视觉文本跨模态共识信息对应的视频特征、文本特征和目标先验知识进行跨模态融合编码，得到视觉文本跨模态编码，可以包括：

采用残差结构融合多次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码，得到视觉文本跨模态编码；

其中，当前次的输出结果为下一次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息的输入数据。

如图4所示，在本发明实施例中，参考本发明上述实施例的说明，对于输入的视频数据进行视频拆帧后通过视频帧特征提取模块提取帧视觉特征（0，1，……N）。

获取视频样本对应的文本样本，并采用语言骨干模型提取文本特征（0，1，……M），其中/>为语言骨干模型，如基于转换编码器模型的双向编码器表示（Bidirectional Encoder Representations fromTransformers，BERT）模型，大型语言模型（RoBERTa）等。例如，文本样本为评价“最后一个镜头是多么美丽，侧身滑下，多么惊人的技术”，则提取到句子“[分类标记][多么]……[惊人][序列终止标签][补全字符]”，利用语言骨干网络提取句子中的文本特征。

初始化先验字典（1，2……，C），将帧视觉特征与文本特征联合起来，采用先验字典中基于视觉模态和文本模态的去筛选先验字典中最相近的K个先验知识，记为，其中/>为视觉模态/>中第i帧模态，/>为文本模/>的第j个模态。

拼接帧视觉特征、文本特征/>、K个目标先验知识，记为/>，通过本发明上述实施例提供的接地编码器（grounding encoder）模块进行编码，得到。

获取编码后的视频帧特征、文本特征/>，输入到先验字典模块中，再次筛选先验字典中最相近的K个目标先验知识，记为/>。

采用残差结构融合多次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码，得到视觉文本跨模态编码，可以包括：

利用对第i次输出结果中的图像特征编码进行特征融合处理，得到第i次输出结果对应的图像特征融合结果；/>

利用对第i次输出结果中的文本特征编码进行特征融合处理，得到第i次输出结果对应的文本特征融合结果；

利用对第i次输出结果中的先验知识编码进行融合处理，得到第i次输出结果对应的先验知识融合结果；

拼接第i次输出结果对应的图像特征融合结果、第i次输出结果对应的文本特征融合结果和第i次输出结果对应的先验知识融合结果，得到第i次输出结果对应的特征融合结果；

若i不为N，则对第i次输出结果对应的特征融合结果执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息，得到第i+1次输出结果；

若i为N，则以第i次输出结果对应的特征融合结果为视觉文本跨模态编码；

其中，为第i次输出结果对应的图像特征融合结果，/>为残差系数，/>为第i次输出结果中的图像特征编码，/>为输入的图像特征，/>为第i次输出结果对应的文本特征融合结果，/>为第i次输出结果中的文本特征编码，/>为输入的文本特征，/>为第i次输出结果对应的先验知识融合结果，/>为第i次输出结果中的先验知识编码，/>为输入的目标先验知识。

即是说，利用本发明实施例提供的接地编码器（grounding encoder）重复执行基于视频帧特征（或图像特征）及文本特征筛选目标先验知识及进行视觉文本跨模态编码的步骤，以上一次接地编码器（grounding encoder）的输出结果为当前接地编码器（grounding encoder）的输入数据，如此执行N次。

例如，采用残差结构融合得到、/>和，将拼接之后的/>输入到接地编码器（grounding encoder）模块再次进行编码，得到/>。重复该步骤N次，得到最终编码结果/>。

本发明实施例提供的视频语言理解方法，还通过基于残差结构在图像层面跨模态编码，解决文本模态聚焦图像全局及局部信息的问题，有助于模型捕捉图像细节信息，从而增强模型对视觉模态和文本模态两种模态间语义对应关系的理解，提高其在视频帧语言理解等相关任务上的表现。

图5为本发明实施例提供的一种视频-文本跨模态编码的流程图。

视频帧-文本跨模态编码解决了评论关注的视频的某一帧或者某几帧问题，针对评论关注的是某一段或者某几段，甚至整个视频，视频帧级别的处理就显得力不从心。为解决这一问题，需要建立视频特征与文本关系，同样为了解决两者语义不一致问题，通过基于文本语义和视频语义共同去筛选先验字典中的目标先验知识。如图5所示，当考虑视觉特征为视频特征时，根据视觉文本跨模态共识信息对应的视频特征、文本特征和目标先验知识进行跨模态融合编码，得到视觉文本跨模态编码，可以包括：

采用可学习的残差参数融合多次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码，得到视觉文本跨模态编码；

如图5所示，在本发明实施例中，参考本发明上述实施例的说明，对于输入的视频数据进行视频拆帧后通过视频帧特征提取模块提取帧视觉特征（0，1，……N）。

获取与视频样本对应的话题标签（hashtag）及注释文本（评价）中的主语和宾语，通过语言骨干模型提取文本特征（0，1，……M）。其中主语和宾语通过句法分析和依存关系获取。

通过基于话题标签（hashtag）的交叉编码器（cross encoder）对输入视频帧特征与文本特征（话题标签和主语、宾语）进行编码，在通过多层感知机得到视频特征。

采用语言骨干模型提取视频对应评价文本的文本特征，即。

例如，注释文本为“姚和麦在篮球队中表现最为出彩”，采用搜索关键词“篮球”作为话题标签（hashtag），通过句法分析得到话题标签、主语和宾语拼接后的句子为“[分类标记][篮球][姚][麦][序列终止标签][补全字符]”，同时将注释文本转换为句子“[分类标记][姚]……[队][序列终标签][补全字符]”。将“[分类标记][篮球][姚][麦][序列终止标签][补全字符]”通过语言骨干网络提取特征后，通过本发明实施例提供的基于话题标签的交叉编码器基于“[分类标记][篮球][姚][麦][序列终止标签][补全字符]”提取的文本特征进行视频特征提取，并通过多层感知机输出得到视频特征。将“[分类标记][姚]……[队][序列终标签][补全字符]”通过语言骨干网络提取文本特征。

以视频特征和文本特征/>为联合目标，从帧先验字典集中选择最相近的K个先验token。由于视频由帧组成，每帧都从一定程度上反映视频相关信息，因此此处采用所有帧已选择的目标先验知识作为视频的先验知识字典的候选集，此候选集为先验字典的子集。具体如下：

获取所有帧筛选的top-k先验知识，记为集合A，且，/>，/>为第i帧筛选的目标先验知识，/>，其中为输入到第i个接地编码器（grounding encoder）筛选的top-k的目标先验知识。

采用先验知识-条件互信息字典值的大小从A中筛选最相近的K个目标先验，记为，其中/>为视觉模态/>的第i个模态，/>为文本模态/>的第j个模态。

拼接视频特征、文本特征/>、K个目标先验知识，记为/>,通过接地编码器（grounding encoder）模块进行编码，得到编码/>。/>

分别获取编码后的视频特征、文本特征/>，并组成成联合目标，从所有帧筛选的先验token集A中再次筛选最相近的K个目标先验知识，记为/>。

采用可学习的残差参数融合多次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码，得到视觉文本跨模态编码，包括：

对第i次输出结果中的视频特征，将其中各视频帧分别设置对应的帧系数，根据帧系数和视频帧的帧特征得到视频残差块特征，将视频残差块特征与第i次输出结果中的视频特征融合，得到第i次输出结果对应的视频特征融合结果；

对第i次输出结果中的文本特征，将其中各文本标记分别设置对应的文本标记系数，根据文本标记系数和文本标记得到文本残差块特征，将文本残差块特征与第i次输出结果中的文本特征融合，得到第i次输出结果对应的文本特征融合结果；

对第i次输出结果中的目标先验知识，将其中的各先验知识标记分别设置对应的先验知识标记系数，根据先验知识标记系数和先验知识标记得到先验知识残差块特征，将先验知识残差块特征与第i次输出结果中的目标先验知识融合，得到第i次输出结果对应的先验知识融合结果；

拼接第i次输出结果对应的视频特征融合结果、第i次输出结果对应的文本特征融合结果和第i次输出结果对应的先验知识融合结果，得到第i次输出结果对应的特征融合结果；

若i为N，则以第i次输出结果对应的特征融合结果为视觉文本跨模态编码。

如图5所示，通过可学习的残差系数对视频特征、文本特征以及目标先验知识特征进行融合。即给予每帧去学习对应的系数，通过帧系数以及帧特征得到残差块特征，随后通过残差结构融合。令视频帧的特征为F，维数为N×w×h，N为视频帧数，w和h分别为宽和高，此处可以为192、768。上述视频特征融合可以包括：

采用在帧数维度上计算全局平均值；

构建门控机制计算每帧的残差系数，，其中/>为全连接网络，/>为激活函数，如神经网络激活函数（Rectified Linear Unit，ReLU）函数，为归一化（sigmoid）函数；

计算残差块的视频特征，；

通过残差结构融合视频特征，；

文本特征融合和目标先验知识特征融合，在标记（token）个数上去学习对应系数，随后通过与视频特征融合策略相同的方法融合，得到和/>。

拼接视频特征融合结果、文本特征融合结果和先验知识融合结果，得到特征融合结果。/>

重复上述步骤N次，得到最终编码结果。

即是说，利用本发明实施例提供的接地编码器（grounding encoder）重复执行基于视频特征及文本特征筛选目标先验知识及进行视觉文本跨模态编码的步骤，以上一次接地编码器（grounding encoder）的输出结果为当前接地编码器（grounding encoder）的输入数据，如此执行N次。

本发明实施例提供的视频语言理解方法，还通过基于可学习的残差系数在视频层面进行跨模态编码，通过学习得到不同视频帧的残差系数，助力模型处理更加复杂的视频语言理解任务，同时也深层次构建了视觉和语言两个模态之间的关系，提升视频语言模型的模型泛化能力。

图6为本发明实施例提供的一种视觉理解模型的训练框架示意图。

在上述实施例的基础上，本发明实施例进一步对视频语言模型的训练过程进行说明。

如图6所示，S103中根据待处理视频理解任务的任务目标对初始视频语言模型进行损失优化训练，可以包括：

分别为视频文本匹配任务的损失函数、掩码文本预测任务的损失函数以及共识信息筛选任务的损失函数配置对应的任务权重，得到模型损失函数；

利用模型损失函数对初始视频语言模型进行损失优化训练；

其中，视频文本匹配任务用于识别视频样本与文本样本的匹配情况，掩码文本预测任务用于识别根据未被掩码的上下文信息预测被掩码的信息，共识信息筛选任务用于自先验字典筛选视觉模态和文本模态的共识信息。

在本发明实施例中，样本数据集的收集方式可以参考上述实施例的说明。需要说明的是，为了适配更多的下游任务，训练视频语言模型时可以采用更加丰富的样本数据集，例如注释文本可以包括但不限于视频样本的题目、摘要、字幕或其他描述文字，还可以包括通过视频识别模型自图像或视频中识别得到的文字信息。

在本发明实施例中，通过融合视觉和语言信息训练视频语言模型，实现跨模态的理解和生成，可以通过无监督学习方式，大规模利用无标签数据，学习丰富的视觉和语言知识。视频语言模型的训练框架可以参考图6提供的视频语言模型的训练框架，通过视频进行视频帧特征提取得到帧视觉特征（0,1,……N），利用语言骨干网络从文本样本中提取文本特征（0,1,……M），利用视频帧-文本跨模态编码器根据帧视觉特征和文本特征进行视频帧-文本跨模态编码，利用视频特征提取模块根据帧视觉特征和文本特征提取视频特征，利用视频-文本跨模态编码器根据视频特征和文本特征进行视频-文本跨模态编码，最后通过转换编码器模型将视频帧-文本跨模态编码和视频-文本跨模态编码进行训练，将转换编码器模型的输出输入到视觉文本匹配模型和掩码语言模型执行视觉文本匹配任务和掩码文本预测任务。通过设置三种损失函数，实现视觉模态和文本模态的匹配、掩码预测以及获取跨模态共识信息。

在本发明实施例中，视频文本匹配任务用于识别视频样本与文本样本的匹配情况，例如可以设置匹配为1，不匹配为0。以本发明上述实施例列举的提取视频特征时的三种样本数据集为例，在适配视频与文本的匹配任务中，针对视频-文本检索和视频描述，由于不存在同类视频，因此做匹配时，随机选择其他视频或者其他视频对应的文本；而对于动作分类和识别类数据集，存在不同视频同类现象，需要从其他类视频或者其他类视频对应的文本中随机选择。视频文本匹配任务的损失函数可以为：

；

其中，为视频文本匹配任务的损失值，S为视觉模态与文本模态的匹配对的数目，/>为符号函数，当视觉模态与文本模态匹配时/>为1，当视觉模态与文本模态不匹配时/>为0，/>为第i个视觉模态，/>为第i个文本模态，/>为视觉模态与文本模态匹配预测的概率。

在本发明实施例中，掩码文本预测任务用于识别根据未被掩码的上下文信息预测被掩码的信息。采用掩码语言模型（masked Language Modeling，MLM）实现无监督的预训练，根据剩余未被掩码的上下文信息预测这些被掩码的单词。具体而言，是掩码文本中一部分词，基于输入的图像数据或视频数据和其他未被掩码的词，去预测被掩码掉部分内容。

基于本发明上述实施例介绍的在提取视频特征时，可以通过构建话题标签的方式丰富视觉模态的除注释文本之外的语境。以话题标签为视觉标签，则掩码文本预测任务分为两种情况：第一种掩码文本预测任务为将视觉标签掩码，基于输入的视觉数据和文本数据预测被掩码的视觉标签。第二种掩码文本预测任务为将注释文本掩码，基于输入的视觉数据和话题标签去预测被掩码的注释文本。

则掩码文本预测任务对应的损失函数可以为：

；

为第二掩码文本预测损失值，/>为符号函数，当根据第v个视觉模态预测的注释文本符合第i个文本模态中被掩码的注释文本时/>为1，当根据第v个视觉模态预测的注释文本不符合第i个文本模态中被掩码的注释文本时/>为0，为第i个视觉模态的视频标签，/>为第i个文本模态中被掩码的注释文本，为根据输入的视觉模态、视觉标签、剩余文本模态预测被掩码的文本模态的概率。/>

在训练视觉理解模型时，掩码语言模型可以进行15%的掩码。

在本发明实施例中，共识信息筛选任务用于自先验字典筛选视觉模态和文本模态的共识信息。在本发明实施例的一些实施方式中，可以采用构建新字典的方式来使模型学习视觉模态到文本模态的跨模态共识信息。通过随机初始化先验字典，在训练视频语言模型时对先验字典进行迭代更新，使模型将跨模态共识信息学习到字典中。共识信息筛选任务对应的损失函数可以为：

；

其中，为共识信息筛选任务对应的损失函数，K为目标先验知识的数量，/>为向量化函数，/>为权重参数，/>为第i个视频特征，/>为第j个文本特征，/>为关联第i个视觉模态和第j个文本模态的相关信息，/>为第i个视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值，/>为视觉模态和文本模态之间的相关信息，/>为第i个视觉模态、第j个文本模态以及视觉模态和文本模态之间的相关信息的条件互信息字典值，/>为所有视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值，/>为先验字典中每个特征的向量。

在共识信息筛选任务对应的损失函数中，第一项为L2损失函数（又称为欧几里得损失函数或均方误差（MSE）损失函数），使得映射到目标先验知识表达；第二项也同样是L2损失函数，用来约束先验字典的向量（embedding）空间，防止其过快增长。

本发明实施例提供的视频语言理解方法，还通过基于视频文本匹配任务、掩码文本预测任务和共识信息筛选任务构建损失函数对初始视频语言模型进行损失优化训练，以分别实现识别视频样本与文本样本的匹配情况、识别根据未被掩码的上下文信息预测被掩码的信息以及自先验字典筛选视觉模态和文本模态的共识信息，从而在针对不同的任务目标训练视频情感识别模型时均可以显著提升训练效率。

需要说明的是，在本发明各视频语言理解方法的实施例中，各步骤或特征中的部分可以忽略或不执行。为方便说明所划分的硬件或软件功能模块，也并非实现本发明实施例提供的视频语言理解方法的唯一实现形式。

上文详述了视频语言理解方法对应的各个实施例，在此基础上，本发明还公开了与上述方法对应的视频语言理解装置、设备及可读存储介质。

图7为本发明实施例提供的一种视觉语言理解装置的结构示意图。

如图7所示，本发明实施例提供的视频语言理解装置包括：

第一获取单元701，用于获取初始视频语言模型和视频样本；

第一构建单元702，用于利用视频样本对应的注释文本和视频样本的关联信息构建视频样本对应的文本样本；

训练单元703，用于根据待处理视频理解任务的任务目标对初始视频语言模型进行损失优化训练，并在训练中基于视频样本和文本样本进行视觉文本跨模态编码，直至达到迭代结束条件后，输出视频语言模型；

第一计算单元704，用于响应于待处理视频理解任务，调用视频语言模型对输入的视频信息进行处理，得到视频处理结果；

需要说明的是，本发明实施例提供的视频语言理解装置的各实施方式中，单元的划分仅为一种逻辑功能上的划分，可以采用其他的划分方式。不同单元之间的连接方式可以采用电性、机械或其他连接方式。分离的单元可以位于同一物理位置或分布在多个网络节点上。各单元可以以硬件的形式实现，也可以采用软件功能单元的形式实现。即可以根据实际需要选择本发明实施例提供的各单元的部分或全部并采用相应的连接方式或集成方式来实现本发明实施例方案的目的。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图8为本发明实施例提供的一种视频语言理解设备的结构示意图。

如图8所示，本发明实施例提供的视频语言理解设备包括：

存储器810，用于存储计算机程序811；

处理器820，用于执行计算机程序811，该计算机程序811被处理器820执行时实现如上述任意一项实施例所述视频语言理解方法的步骤。

其中，处理器820可以包括一个或多个处理核心，比如3核心处理器、8核心处理器等。处理器820可以采用数字信号处理DSP（Digital Signal Processing）、现场可编程门阵列FPGA（Field－Programmable Gate Array）、可编程逻辑阵列PLA（Programmable LogicArray）中的至少一种硬件形式来实现。处理器820也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器CPU（CentralProcessing Unit）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器820可以集成有图像处理器GPU（Graphics Processing Unit），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器820还可以包括人工智能AI（Artificial Intelligence）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器810可以包括一个或多个可读存储介质，该可读存储介质可以是非暂态的。存储器810还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器810至少用于存储以下计算机程序811，其中，该计算机程序811被处理器820加载并执行之后，能够实现前述任一实施例公开的视频语言理解方法中的相关步骤。另外，存储器810所存储的资源还可以包括操作系统812和数据813等，存储方式可以是短暂存储或者永久存储。其中，操作系统812可以为Windows、Lunux或其他类型的操作系统。数据813可以包括但不限于上述方法所涉及到的数据。

在一些实施例中，视频语言理解设备还可包括有显示屏830、电源840、通信接口850、输入输出接口860、传感器870以及通信总线880。

本领域技术人员可以理解，图8中示出的结构并不构成对视频语言理解设备的限定，可以包括比图示更多或更少的组件。

本发明实施例提供的视频语言理解设备，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如上所述的视频语言理解方法，效果同上。

本发明实施例提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时可以实现如上述任意一项实施例所述视频语言理解方法的步骤。

该可读存储介质可以包括：U盘、移动硬盘、只读存储器ROM（Read-Only Memory）、随机存取存储器RAM（Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明实施例提供的可读存储介质的介绍请参照上述方法实施例，且其所起到的效果同本发明实施例提供的视频语言理解方法，本发明在此不做赘述。

以上对本发明所提供的一种视频语言理解方法、装置、设备及可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种视频语言理解方法，其特征在于，包括：

获取初始视频语言模型和视频样本；

2.根据权利要求1所述的视频语言理解方法，其特征在于，所述在训练中基于所述视频样本和所述文本样本进行视觉文本跨模态编码，包括：

自所述文本样本中提取文本特征；

对所述视频特征和所述文本特征进行视觉文本跨模态编码。

3.根据权利要求2所述的视频语言理解方法，其特征在于，所述视频样本的关联信息包括所述搜索关键词；

所述自所述文本样本中提取文本特征，包括：

自与所述视频样本对应的注释文本中提取主语和宾语；

4.根据权利要求2所述的视频语言理解方法，其特征在于，所述视频样本的关联信息包括所述视频分段信息，所述视频样本的注释文本包括分段事件描述；

所述自所述文本样本中提取文本特征，包括：

5.根据权利要求2所述的视频语言理解方法，其特征在于，所述视频样本的关联信息包括所述视频分段信息，所述视频样本的注释文本包括分段动作描述；

所述自所述文本样本中提取文本特征，包括：

调用视频描述模型生成各所述子视频样本的描述文本；

6.根据权利要求2所述的视频语言理解方法，其特征在于，所述对添加时间维度信息的所述帧视觉特征和所述文本特征进行编码后，得到所述视频样本的视频特征，包括：

对所述文本特征进行标记化处理，并提取文本特征向量；

7.根据权利要求1所述的视频语言理解方法，其特征在于，所述在训练中基于所述视频样本和所述文本样本进行视觉文本跨模态编码，包括：

初始化先验字典；

根据所述待处理视频理解任务的任务目标确定目标模态；

8.根据权利要求7所述的视频语言理解方法，其特征在于，所述目标模态为视觉文本联合模态；

9.根据权利要求8所述的视频语言理解方法，其特征在于，所述第一条件互信息，通过下式计算得到：

；

10.根据权利要求9所述的视频语言理解方法，其特征在于，所述第一先验知识-条件互信息字典值，通过下式计算得到：

；

11.根据权利要求7所述的视频语言理解方法，其特征在于，所述基于所述目标先验知识对所述视频样本中的视觉模态和所述文本样本中的文本模态进行跨模态信息融合，提炼视觉模态和文本模态之间的视觉文本跨模态共识信息，包括：

12.根据权利要求11所述的视频语言理解方法，其特征在于，所述分别对视觉模态和文本模态进行模态内信息整合以及跨模态信息整合，得到模态内信息整合结果和全局共识信息整合结果，包括：

对视觉模态进行模态内信息整合，得到视觉模态信息；

对文本模态进行模态内信息整合，得到文本模态信息；

13.根据权利要求11所述的视频语言理解方法，其特征在于，所述基于所述模态内信息整合结果和所述全局共识信息整合结果，构建文本交叉注意力模块以基于所述目标先验知识搜索视觉模态中与文本模态关联的视频信息，包括：

14.根据权利要求11所述的视频语言理解方法，其特征在于，所述基于视觉模态中与文本模态关联的视频信息、文本模态中与视觉模态关联的文本信息以及所述目标先验知识，构建注意力模块进行所述视觉文本跨模态共识信息的融合和提炼，包括：

15.根据权利要求7所述的视频语言理解方法，其特征在于，所述根据所述视觉文本跨模态共识信息对应的视频特征、文本特征和所述目标先验知识进行跨模态融合编码，得到视觉文本跨模态编码，包括：

16.根据权利要求15所述的视频语言理解方法，其特征在于，所述采用可学习的残差参数融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码，得到所述视觉文本跨模态编码，包括：

17.根据权利要求1所述的视频语言理解方法，其特征在于，所述根据待处理视频理解任务的任务目标对所述初始视频语言模型进行损失优化训练，包括：

18.根据权利要求17所述的视频语言理解方法，其特征在于，所述视频文本匹配任务的损失函数为：

；

19.根据权利要求17所述的视频语言理解方法，其特征在于，所述掩码文本预测任务对应的损失函数为：

；

为第二掩码文本预测损失值，/>为符号函数，当根据第v个视觉模态预测的注释文本符合第i个文本模态中被掩码的注释文本时/>为1，当根据第v个视觉模态预测的注释文本不符合第i个文本模态中被掩码的注释文本时/>为0，/>为第i个视觉模态的视频标签，/>为第i个文本模态中被掩码的注释文本，/>为根据输入的视觉模态、视觉标签、剩余文本模态预测被掩码的文本模态的概率。

20.根据权利要求17所述的视频语言理解方法，其特征在于，所述共识信息筛选任务对应的损失函数为：

；

其中，为所述共识信息筛选任务对应的损失函数，K为目标先验知识的数量，/>为向量化函数，/>为权重参数，/>为第i个视频特征，/>为第j个文本特征，/>为关联第i个视觉模态和第j个文本模态的相关信息，/>为第i个视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值，/>为视觉模态和文本模态之间的相关信息，/>为第i个视觉模态、第j个文本模态以及视觉模态和文本模态之间的相关信息的条件互信息字典值，/>为所有视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值，/>为先验字典中每个特征的向量。

21.一种视频语言理解装置，其特征在于，包括：

第一获取单元，用于获取初始视频语言模型和视频样本；

22.一种视频语言理解设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至20任意一项所述视频语言理解方法的步骤。

23.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至20任意一项所述视频语言理解方法的步骤。