CN114140708A

CN114140708A - 视频处理方法、装置及计算机可读存储介质

Info

Publication number: CN114140708A
Application number: CN202110937670.6A
Authority: CN
Inventors: 刘烁; 王超群; 全卫泽; 严冬明; 刘媛; 李威; 雷鸣
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2022-03-04

Abstract

本发明公开了一种视频处理方法、装置及计算机可读存储介质。其中，该方法包括：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。本发明解决了相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的技术问题。

Description

视频处理方法、装置及计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，具体而言，涉及一种视频处理方法、装置及计算机可读存储介质。

背景技术

人类感知系统能够融合视觉和听觉信息，以实现对现实世界中的视听事件的理解。传统的视频检测技术局限于视觉方法而忽略其他感知方法，无法准确对视听事件进行检测。相关技术中，通过多模态事件检测算法对音频与视频特征进行融合，可以实现对视频中视听事件的检测，然而现有的多模态事件检测算法采用粗粒度的特征融合方式，比如，音频特征仅仅在单一维度上参与引导视频特征，导致视频中视听事件检测不准确。

针对上述相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频处理方法、装置及计算机可读存储介质，以至少解决相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的技术问题。

根据本发明实施例的一个方面，提供了一种视频处理方法，包括：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。

根据本发明实施例的一个方面，提供了一种视频处理方法，包括：获取直播过程中采集到的待处理的直播视频；采用目标检测模型直播视频进行分类检测，得到直播视频中视听事件的预测结果；基于预测结果对直播视频增加标签信息，其中，目标检测检测模型用于对直播视频进行特征提取，以得到直播视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测视听事件。

根据本发明实施例的另一方面，还提供了一种视频处理装置，包括：接收模块，用于接收待处理视频，并对待处理视频进行特征提取，得到待处理视频的初始视频特征和初始音频特征；增强模块，用于通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征；预测模块，用于基于增强的视频特征预测待处理视频中的视听事件。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述任意一项的方法。

根据本发明实施例的另一方面，还提供了一种计算机程序，计算机程序运行时执行上述任意一项的方法。

根据本发明实施例的另一方面，还提供了一种视频的处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。

在本发明实施例中，接收待处理视频，并对待处理视频进行特征提取，得到待处理视频的初始视频特征和初始音频特征，基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征，基于增强的视频特征预测待处理视频中的视听事件，通过在多个维度上对音频和视频特征进行细粒度模态融合，减少了背景噪声对视听事件检测造成的干扰，可以更加准确地捕获视频中声源的位置，进而提高了视听事件检测的准确性，进而解决了相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是一种用于实现数据的训练方法的计算设备的硬件结构框图；

图2是根据本发明实施例的一种视频处理方法的流程图；

图3a是根据本发明实施例的一种可选的三元注意力网络结构的示意图；

图3b是根据本发明实施例的一种可选的MFB模块的示意图；

图4a是根据本发明实施例的一种可选的稠密跨模态注意力模块结构的示意图；

图4b是根据本发明实施例的一种可选的稠密相关权重计算的示意图；

图4c是根据本发明实施例的一种可选的分组加权平均的示意图；

图5是根据本发明实施例的一种可选的视频处理方法的示意图；

图6是根据本发明实施例的一种可选的视频处理方法的示意图；

图7是不同的平衡超参对于检测结果影响的示意图；

图8是根据本发明实施例的一种视频处理方法的流程图；

图9是根据本发明实施例的一种视频处理装置的示意图；

图10是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，还提供了一种视频处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种视频处理方法的计算机终端的硬件结构框图。如图1所示，计算设备10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的视频处理方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图2所示的视频处理方法。图2是根据本发明实施例一的视频处理方法的流程图。如图2所示，该方法包括：

步骤S201，接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征。

上述待处理视频为需要进行检测视听事件的视频，视听事件为包含图像和音频的事件，比如，视听事件可以为待处理视频中包含语音对话和图像的一段视频。

待处理视频可以为任意主题或者应用场景的视频，包括但不限于直播平台上获得的直播视频，交通场景下的交通视频，教育领域的教学视频，医疗领域的医疗检查视频等。

上述初始视频特征和初始音频特征可以通过训练好的特征提取模型进行提取，初始视频特征用于表示待处理视频中的图像特征，初始音频特征用于表示待处理视频中的声音特征。

步骤S202，通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征。

通过在多个维度上以细粒度的融合方式来计算注意力的权重参数，对初始视频特征和初始音频特征进行融合，并得到增强的视频特征，增强的视频特征相比于初始视频特征，突出显示了事件相关区域(事件相关区域为待处理视频中存在视听事件的视频片段)，降低了视听事件检测过程中背景噪声的干扰，显著地提高了捕获视频中声源位置的性能。

在一种可选的实施例中，上述第一注意力模块可以为三元注意力模块，上述多个维度可以包括通道维度、空间维度和时间维度，三元注意力模块基于初始音频特征得到通道维度、空间维度和时间维度三个维度上的权重参数，进而在通道、空间和时间三个维度上以细粒度方式对初始视频特征进行增强处理。

图3a是根据本发明实施例的一种可选的三元注意力网络结构的示意图，如图3a所示，三元注意力网络结构包括通道注意力模块，空间注意力模块和时间注意力模块，空间注意力模块可以采用多模态双线性矩阵分解池化模块(Multi-modal factorized bilinearpooling，MFB模块)，将初始音频特征a_t(且

)和初始视频特征v_t(且

)输入至三元注意力网络模型中，实现初始音频特征在通道、空间和时间三个维度上以细粒度方式对初始视频特征进行增强处理，得到增强的视频特征

步骤S203，基于增强的视频特征预测待处理视频中的视听事件。

在得到了增强的视频特征后，基于增强的视频特征与音频特征进行融合，得到音频和视频的融合特征，融合特征可以用于预测待处理视频中的视听事件。

在一种可选的实施中，在基于增强的视频特征预测待处理视频中的视听事件之后，上述方法还包括：输出视听事件的预测结果，其中，预测结果包括待处理视频中是否存在所述视听事件、视听事件所在的视频片段以及所述视听事件的类别中的任意一种或者多种。

具体的，对视听事件的预测结果可以包括视听事件相关段和视听事件的类别，视听事件相关段的预测结果可以包括待处理视频中是否存在视听事件，以及当待处理视频中存在视听事件时该视听事件在待处理视频中存在的视频片段。例如，待预测的视听事件可以为飞机起飞的视听事件，可以将获取到的待处理视频基于上述方法得到增强的视频特征，将增强的视频特征输入训练好的检测模型中，可以得到预测结果，预测结果可以包括待处理视频中是否包含飞机起飞视听事件、飞机起飞视听事件存在与待处理视频中的视频片段，以及视听事件的类别，基于视听事件的类别可以对检测到的视听事件增加标签，比如，将“飞机起飞”作为视听事件的类别标签。本实施例中，基于增强的视频特征来预测视听事件，增强了区别声音相似类别的检测性能，比如，可以更精确的区分出噪音和视听事件中音频特征。

本实施例中的视频处理方法可以用于在视频推荐场景、视频内容审核、视频内容理解场景以及音视频分离场景等多种应用场景中视频中视听事件的检测。

本实施例中，接收待处理视频，并对待处理视频进行特征提取，得到待处理视频的初始视频特征和初始音频特征，基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征，基于增强的视频特征预测待处理视频中的视听事件，通过在多个维度上对音频和视频特征进行细粒度模态融合，减少了背景噪声对视听事件检测造成的干扰，可以更加准确地捕获视频中声源的位置，进而提高了视听事件检测的准确性，解决了相关技术中粗粒度的视频检测方法，导致视频中视听事件检测不准确的技术问题。

作为一种可选的实施例，对待处理视频进行特征提取，得到待处理视频的初始视频特征，包括：获取待处理视频的图像序列；基于图像特征提取模型从图像序列中提取得到特征图；将特征图进行全局平均池化，得到初始视频特征。

上述图像序列可以为从待处理视频中提取的具有指定帧数的图像，指定帧数可以根据图像特征提取模型确定，此处不作限定。例如，从待处理视频中提取16帧RGB图像，作为上述图像序列。

上述可以为卷积神经网络模型，比如VGG-19网络模型，图像特征提取模型可以基于图像数据集(比如，ImageNet数据集)对VGG-19网络模型预训练得到。

上述特征图可以为具有指定时间长度的视频片段的特征图，例如，为了得到初始视频特征，可以从待处理视频中采样得到16帧RGB图像序列，输入至预训练的VGG-19网络模型中，提取得到具有1秒视频片段的pool5特征图，使用全局平均池化，得到段级别的初始视频特征v_t，t∈[1，10]。

作为一种可选的实施例，对待处理视频进行特征提取，得到待处理视频的初始音频特征，包括：获取待处理视频中的音频片段；将音频片段转换为频谱图；基于音频特征提取模型从频谱图中提取特征向量；确定特征向量为初始音频特征。

上述音频片段可以为从待处理视频中提取的具有指定时间长度的音频，指定时间长度可以根据音频特征提取模型确定。

上述音频特征提取模型可以为预训练的卷积神经网络模型，比如VGGish网络模型，具体的，音频特征提取模型可以通过基于音频数据集(比如，AudioSet数据集)对VGGish网络模型预训练得到。

例如，为了得到初始音频特征，可以将待处理视频中每1秒的音频片段转换为log-mel频谱图，基于预训练的VGGish网络模型提取得到128D特征向量，作为段级别的初始音频特征a_t，t∈[1，10]。

作为一种可选的实施例，多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，步骤S202，基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，包括如下步骤：

步骤S2021，使用第一维度注意力权重参数对初始视频特征进行增强，得到第一维度视频特征。

上述第一注意力模块可以为三元注意力模块，上述第一维度可以为通道维度，第二维度可以为空间维度，第三维度可以为时间维度，三元注意力模块基于初始音频特征，在通道、空间和时间三个维度上以细粒度方式对初始视频特征进行增强处理。

在一种可选的实施例中，通过初始音频特征确定多个维度上的权重参数，包括：对初始音频特征对初始视频特征进行非线性变化和激活处理，得到第一维度注意力权重参数。

第一维度注意力权重参数可以为通道注意力权重，在得到初始音频特征

和初始视频特征

后，可通过两个非线性变换将初始音频特征和初始视频特征投影和对齐到相同维度，通过挤压和激励模块获得通道注意力权重

具体的，通道注意力权重

的计算过程如下：

其中，

和

为使用ReLU激活的全连接层，AVP表示在空间维度上全局平均池化，

和

分别表示两个线性变换，δ代表ReLU的激活操作，σ分别代表sigmoid的激活操作。

第一维度注意力权重参数可以为通道注意力权重

使用通道注意力权重

对初始视频特征

进行增强，得到通道注意力的视频特征

(即第一维度视频特征)，具体过程如下：

其中，⊙表示元素间按位相乘。

步骤S2022，基于第二维度注意力权重参数和第三维度注意力权重参数，得到第二维度注意力特征映射权重，其中，第二维度注意力权重参数通过在第二维度上对初始音频特征和第一维度视频特征进行融合得到，第三维度注意力权重参数通过在第三维度上对初始音频特征和第一维度视频特征进行融合得到。

具体的，第二维度注意力权重参数为空间注意力权重

第三维度注意力权重参数为时间注意力权重

基于空间注意力权重和时间注意力权重，计算得到空间注意力特征映射权重

其中，W₃表示一个线性转换。

步骤S2023，使用第二维度注意力特征映射权重，更新第一维度视频特征，得到增强的视频特征

其中，

为空间注意力特征映射权重。通过使用空间注意力特征映射权重来更新通道注意力的视频特征

可以得到音频在通道、空间和时间三个维度上增强的视频特征

在一种可选的实施例中，通过初始音频特征确定多个维度上的权重参数，包括：基于激活函数将初始音频特征和第一维度视频特征分别进行维度扩张，得到扩张的音频特征和扩张的视频特征；确定扩张的视频特征在第二维度上的视频特征单元；基于多模态双线性矩阵分解池化模块，对第二维度上的视频特征单元和扩张的音频特征进行融合，得到第二维度注意力权重参数。

上述激活函数可以为ReLU激活函数，使用ReLU激活的完全连接层将初始音频特征a_t和通道注意力的视频特征

扩张到相同的维度kdo，得到扩张的音频特征和视频特征。第二维度上的视频特征单元为每个空间位置上的视频特征，第二维度注意力权重参数可以为空间注意力权重

在空间维度上对初始音频特征a_t和通道注意力的视频特征

进行融合可以得到空间注意力权重：

具体的，空间注意力权重

的计算过程如下：

其中，

和

为两个可学习的矩阵参数，分别用于将初始音频特征a_t和通道注意力的视频特征

扩张到相同的维度kdo，SP(f，k)代表核和步长都为k的求和池化(即sumpool ing)操作，D(·)代表dropout层，用来防止过拟合。

通过采用多模态双线性矩阵分解池化模块(即MFB模块)，对每个空间位置上的视频特征和对应的音频特征使用共享的MFB模块进行细粒度的融合，基于MFB模块计算音频和视频特征之间的相关性，代替相关技术中简单的逐元素相乘的相关性计算方法，可以显著地提高了捕获视频中声源位置的性能。图3b是根据本发明实施例的一种可选的MFB模块的示意图，如图3b所示，由于空间注意力权重中权重矩阵W包含的参数数量过多，可以采用MFB模块进行分解，减少了参数数量，此外MFB模块引入平方归一化和归一化L₂可以实现对模型的稳定训练。

在另一种可选的实施例中，第三维度注意力权重参数为时间注意力权重

可以通过在时间维度上采用双端LSTM(Long-Short Term Memory,长短期记忆人工神经网络)网络模型针对每个视频特征空间块进行在时序维度上细粒度的音视频融合建模得到，具体步骤如下：

将初始音频特征a_t和通道注意力的视频特征

投影到相同的维度do：

其中，

和

为使用ReLU激活的全连接层。

将每块空间的视频特征

和音频特征

表示为：

将

输入到一个双端LSTM网络，对每块空间进行时序建模，得到时间注意力权重

作为一种可选的实施例，步骤S203，基于增强的视频特征预测待处理视频中的视听事件,包括如下步骤:

步骤S2031，将初始音频特征和增强的视频特征分别输入自注意力模块，得到自注意力音频特征和自注意力视频特征。

上述自注意模块由多头注意力模块、残差连接和一层规范化层组成。自注意力模块更关注特征内部的相关性，将特征自身作为权重参数，例如，将特征m输入到自注意力模块中，可以得到自注意力特征m_self＝self(m)的计算过程如下：

将m作为权重参数，得到自注意力的查询query(即Q)、键值key(即K)和值项value(即V):

M＝Concat(m₁，m₂，...，m_h)W^O；

M_r＝LayerNorm(M+m)；

Self(m)＝LayerNorm(δ(M_rW₂)W₃+W_r)。

具体的，可以将初始音频特征a_t和增强的视频特征

分别输入到两个自注意力模块，基于上述自注意力特征的计算过程，得到：自注意力音频特征a_self＝self(a)和自注意力视频特征v_self＝self(v)。

步骤S2032，将初始音频特征和自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将增强的视频特征和自注意力音频特征输入第二注意力模块，得到交叉注意力的视频特征,将交叉注意力的音频特征和交叉注意力的视频特征进行融合，得到融合特征。

上述第二注意力模块可以为稠密跨模态注意力模块，稠密跨模态注意力模块为利用模态内部和模态之间的稠密关系，有效的融合两种模态信息的模块。图4a是根据本发明实施例的一种可选的稠密跨模态注意力模块结构的示意图，如图4a所示，第二注意力模块采用多头的稠密跨模态注意力模块(DCMA模块)，DCMA模块使用稠密相关权重(DCWC)计算方式代替相关技术中稀疏矩阵计算方式，具体的，将两种模态的特征(x,y)输入到稠密跨模态注意力模块中，x作为稠密跨模态注意力模块的查询query，concat(x,y)作为键值key和值项value，在DCMA模块中，把特征x与concat(x,y)之间的相关性分解为Nx,x和Nx,y，Nx,x是通过经典矩阵乘法方式计算模态内之间的相关性，Nx,y是通过稠密相关权重(DCWC)方式来计算细粒度的跨模态相关性。图4b是根据本发明实施例的一种可选的稠密相关权重计算的示意图，如图4b所示，稠密相关权重(DCWC)计算方式中，元素之间的运算采用分组加权平均(GWA)的计算方式代替传统的内部乘积，稠密相关权重(DCWC)的计算方式如下：

N_x，y＝DCWC(x，y)，

GWA(x_i，y_j)＝sum((x_i×y_j)⊙W)；

其中，GWA是特征x_i和特征y_i外积乘积的加权平均数，×表示外积运算，W为权重矩阵。图4c是根据本发明实施例的一种可选的分组加权平均的示意图，如图4c所示，x_i为图4c中的ai，yi为图4c中的bi，将矩阵(x_i×yi)中的元素分为两组：对角线元素(对应于原始内积运算)和其他元素。权重矩阵W的对角线元素为α，其他元素对应的权重为：

其中，

为正则化参数。

在一种可选的实施例中，将初始音频特征和自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将增强的视频特征和自注意力音频特征输入第二注意力模块，得到交叉注意力的视频特征，包括：基于第二注意力模块，对初始音频特征和自注意力视频特征进行分组加权平均处理，得到交叉注意力的音频特征；基于第二注意力模块，对增强的视频特征和自注意力音频特征进行分组加权平均处理，得到交叉注意力的视频特征。

本实施例中，通过采用多头的稠密跨模态注意力模块，计算了音频和视频特征之间所有通道的加权平均数作为更加细粒度的跨模态注意力权重，提供了更加丰富的跨模态信息。

在一种可选的实施例中，将初始音频特征a_t和自注意力视频特征v_self，以及增强的视频特征

和自注意力音频特征a_self分别输入到两个多头的稠密跨模态注意力模块，计算得到交叉注意力的音频特征a_cross和交叉注意力的视频特征v_cross：

a_cross＝DCMA(a，v_self)；

v_cross＝DCMA(v，a_self)；

图5是根据本发明实施例的一种可选的视频处理方法的示意图，如图5所示，基于图5所示的视听融合模块，输入特征51可以为交叉注意力的音频特征，输入特征52可为交叉注意力的视频特征，将交叉注意力的音频特征和交叉注意力的视频特征进行融合，得到融合特征53的过程如下：

f_av＝a_cross⊙v_cross，m_a，v＝Concat(a，v)；

q₁＝f_avw^q，k_1，2＝m_a，vw^k；v_1，2＝m_a，vw^v；

其中，O_av为最终得到的融合特征，q1为查询query，k_1,2为键值key，v_1,2为值项。

通过将交叉注意力的音频特征和交叉注意力的视频特征进行融合，可以得到音频和视频融合的高语义特征。

步骤S2033，基于融合特征预测视听事件。

具体的，可以将融合特征输入值预设的检测模型中，得到对视听事件的检测结果，上述检测结果可以包括预测的视听事件的事件相关段(即待处理是视频中是否包含视听事件以及视听事件所处的位置)和视听事件类别等。

例如，待处理视频可以为一段包含了人物交谈和飞机起飞事件的视频，将上述待处理视频基于上述方法得到融合特征，将融合特征输入预设的检测模型中，可以得到上述待处理视频中包含人物交谈的视听事件和飞机起飞的视听事件的检测结果，以及各视听事件的类别，基于类别可以对检测到的视听事件增加标签。

由于融合特征通过上述细粒度的跨模态融合得到，使用融合特征来检测待处理视频中的视听事件，可以提高对视听事件检测的准确性，比如，在检测飞机起飞的视听事件时，可以准确的区分出人物交谈的声音为噪音，降低噪音对视听事件检测的干扰。

作为一种可选的实施例，上述方法还包括：获取待训练模型，其中，待训练模型用于基于融合特征预测视听事件；基于融合特征确定第一分类损失函数；基于自注意力视频特征确定第二分类损失函数；根据第一分类损失函数和第二分类损失函数对待训练模型进行优化。

上述待训练模型为用于基于融合特征检测视听事件的检测模型，检测模型可以根据得到的融合特征，输出检测结果，其中，检测结果可以包括对于待处理视频中是否存在视听事件，以及视听事件的类别。上述第一分类损失函数基于融合特征确定，可以为一种跨模态约束损失函数，关注融合特征的分类能力。第二分类损失函数基于自注意力视频特征确定，可以为一种单模态约束损失函数，关注单模态特征的分类能力。

在一种可选的实施中，为了提高待训练模型对视频级别的视听事件类别检测的准确性，分别基于融合特征确定第一分类损失函数，以及基于中间阶段的自注意力视频特征确定第二分类损失函数(即单模态约束损失函数)，不仅利用融合特征O_av计算交叉熵损失，还利用自注意力视频特征v_self(即单模态特征)计算交叉熵损失，实现了利用单模态约束损失函数去加强单模态特征的分类能力，将单模态约束损失函数与基于融合特征的视听事件分类损失结合，以进一步提高利用单模态特征识别事件类别的能力，进而增强了对于相似的视听事件分类的区分性能。

具体的，先利用融合特征O_av计算交叉熵损失

利用自注意力视频特征v_self计算交叉熵损失：

得到第一分类损失函数：

以及第二分类损失函数：

其中，K表示视听事件类别的数量，

代表指示函数：

联合第一分类损失函数和第二分类损失函数对上述待训练模型进行优化，可以增强待训练模型对于相似的视听事件分类的区分性能。

在一种可选的实施例中，上述第一分类损失函数为多标签软边界损失的视听事件分类损失，第二分类损失函数可以为单模态事件分类约束损失，基于第一分类损失函数和第二分类损失函数，可得到弱监督损失函数

其中，λ为平衡超参数，

为第一分类损失函数，

为第二分类损失函数。

作为一种可选的实施例，基于融合特征确定预测损失函数；根据预测损失函数、第一分类损失函数和第二分类损失函数对待训练模型进行优化。

基于上述待训练模型对视听事件的检测结果还包括待处理视频中是否存在视听事件，即对视听事件相关段的检测结果。上述预测损失函数用于优化待训练模型对视听事件相关段检测结果的准确性。

具体的，预测损失函数可以基于二元交叉熵损失函数确定，首先，可以利用融合特征O_av计算二元交叉熵损失s：s＝Sigmoid(FC(O_av))，,

进而得到预测损失函数：

其中，N表示训练样本的数量，FC表示分类器。

在得到预测损失函数、第一分类损失函数和第二分类损失函数后，可以分别使用三种损失函数对上述待训练模型进行优化，也可以基于三种损失函数构建成一个最终的损失函数，使用最终的损失函数来训练待训练模型。

在一种可选的实施例中，根据预测损失函数、第一分类损失函数和第二分类损失函数对特征提取模型进行优化，包括：基于预设的超参数通过预测损失函数、第一分类损失函数和第二分类损失函数构建完全监督损失函数；求解完全监督损失函数以对待训练模型进行优化。

具体的，基于预测损失函数

第一分类损失函数

和第二分类损失函数

得到完全监督损失函数

其中，λ是平衡超参数。

使用完全监督损失函数

对待训练模型进行优化，可以提高对待处理视频中的视听事件的检测结果的准确性。

在完成对待训练模型的优化后，最终的检测结果由基于融合特征O_av计算的交叉熵损失

和二元交叉熵损失s共同决定。可以设定合理的对比阈值，来判断检测结果中是否包含视听事件，例如，对比阈值可以设定为0.5，如果s≥0.5，则确定待处理视频包含视听事件，且该视听事件为

的视听事件类别；如果s＜0.5，则确定该段待处理视频为背景视频段，不包含上述视听事件。

在一种可选的实施例中，图6是根据本发明实施例的一种可选的视频处理方法的示意图，如图6所示，从待处理视频中采样得到具有预设帧数的视频片段601输入至VGG-19网络中提取得到初始视频特征Vt，将待处理视频中的音频片段602转换为log-mel频谱图603，将log-mel频谱图603输入至VGGish网络中提取得到初始音频特征a_t，将初始视频特征Vt和初始音频特征a_t输入至音频引导的三元注意力模块606中，实现初始音频特征在通道、空间和时间三个维度上以细粒度方式对初始视频特征进行增强处理，得到增强的视频特征

将增强的视频特征

输入模态内注意力模块607(即自注意力模块)，得到自注意力的视频特征，将初始视频特征a_t输入模态内注意力模块608(即自注意力模块)，得到自注意力的音频特征。上述第二注意力模块分别包括稠密跨模态注意力模块609和稠密跨模态注意力模块610，将增强的视频特征

和自注意力的音频特征输入稠密跨模态注意力模块610，得到，将自注意力的视频特征和初始音频特征输入稠密跨模态注意力模块609，将输入音频-视频融合模块605，可以得到最终的融合特征，融合特征经过分类模型(即全连接层FC)处理，可以得到视听事件相关段和视听事件类型的检测结果。

此外，可以基于模态内注意力模块607输出的自注意力视频特征，构建单模态约束损失函数604，以及基于音频-视频融合模块611输出的融合特征构件构建分类损失函数，利用单模态约束损失函数604去加强单模态特征的分类能力，将单模态约束损失函数604与分类损失函数结合，对分类模型进行训练，进一步提高分类模型利用单模态特征识别事件类别的能力，进而增强了对于相似的视听事件分类的区分性能。

基于本实施例中的视频处理方法，在弱监督的条件下，对视听事件检测到准确度可以达到74.3％，在完全监督的条件下，对视听事件检测到准确度可以达到79.6％，相比于现有的检测网络，提高了对视听事件检测的准确度。

图7是不同的平衡超参数对于检测结果影响的示意图，如图7所示，横坐标为平衡超参数的取值，纵坐标为检测结果精度，曲线71为基于弱监督损失函数

对上述待训练模型优化后的检测结果的精度曲线，曲线72为基于完全监督损失函数对上述待训练模型优化后的检测结果的精度曲线，根据不同平衡超参数对检测结果精度影响，确定出合适的平衡超参数，可以提高对视听事件检测结果的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种视频处理方法的实施例，图8是根据本发明实施例的一种视频处理方法的流程图，如图8所示，该方法包括：

步骤S801，获取直播过程中采集到的待处理的直播视频。

步骤S802，采用目标检测模型直播视频进行分类检测，得到直播视频中视听事件的预测结果。

上述待处理的直播视频为直播平台中需要检测视听事件的视频，基于目标检测模型对直播视频进行检测，得到的预测结果。

步骤S803，基于预测结果对直播视频增加标签信息，其中，目标检测检测模型用于对直播视频进行特征提取，以得到直播视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测视听事件。

目标检测模型中可以包括特征提取模型，上述初始视频特征和初始音频特征可以通过训练好的特征提取模型进行提取，初始视频特征用于表示待处理视频中的图像特征，初始音频特征用于表示待处理视频中的声音特征。

具体的，对视听事件的预测结果可以包括视听事件相关段和视听事件的类别，视听事件相关段的预测结果可以包括待处理视频中是否存在视听事件，以及当待处理视频中存在视听事件时该视听事件在待处理视频中存在的视频片段。

例如，待预测的视听事件可以为主播唱歌，可以将获取到的直播视频基于上述方法得到增强的视频特征，将增强的视频特征输入训练好的目标检测模型中，可以得到预测结果，预测结果可以包括待处理视频中是否包含主播唱歌的视听事件，存在该视听事件的视频片段，以及视听事件的类别，基于视听事件的类别可以对检测到的视听事件增加标签，比如，将“唱歌”作为视听事件的标签信息。本实施例中，基于增强的视频特征来预测视听事件，增强了区别声音相似类别的检测性能，比如，可以更精确的区分出噪音和视听事件中音频特征。

上述标签信息可以用于向用户进行直播视频推荐，比如，将包含“唱歌”标签对应视听事件的直播视频推荐给感兴趣的用户。

在直播视频审核场景中，待处理的直播视频可以为视频直播平台上正在直播的直播视频，上述采集过程可以为在直播视频分发到用户端前对直播视频进行采集，通过对采集的直播视频的视听事件进行分类检测，进而对直播视频的内容进行审核，以确定正在直播的直播视频是否涉及到违规内容类别，进而作出相应的预处理措施，避免包含违规内容的直播视频在网络平台上传播。

本实施例通过在多个维度上以细粒度的融合方式来计算注意力的权重参数，对初始视频特征和初始音频特征进行融合，并得到增强的视频特征，增强的视频特征相比于初始视频特征，突出显示了事件相关区域(事件相关区域为待处理视频中存在视听事件的视频片段)，降低了视听事件检测过程中背景噪声的干扰，显著地提高了捕获视频中声源位置的性能。

实施例3

根据本发明实施例，还提供了一种用于实施上述视频处理方法的装置，图9是根据本发明实施例的一种视频处理装置的示意图，如图9所示，该装置包括：

接收模块91，用于接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；增强模块92，用于通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；预测模块93，用于基于增强的视频特征预测待处理视频中的视听事件。

此处需要说明的是，上述接收模块91、增强模块92、和预测模块93对应于实施例1中的步骤S201至步骤S203，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算设备10中。

作为一种可选的实施例，上述预测模块还用于：在基于增强的视频特征预测待处理视频中的视听事件之后，输出视听事件的预测结果，其中，预测结果包括待处理视频中是否存在所述视听事件、视听事件所在的视频片段以及所述视听事件的类别中的任意一种或者多种。

作为一种可选的实施例，上述接收模块还用于：获取待处理视频的图像序列；基于图像特征提取模型从图像序列中提取得到特征图；将特征图进行全局平均池化，得到初始视频特征。

作为一种可选的实施例，上述接收模块还用于：获取待处理视频中的音频片段；转换子模块，用于将音频片段转换为频谱图；基于音频特征提取模型从频谱图中提取特征向量；确定特征向量为初始音频特征。

作为一种可选的实施例，多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，上述增强模块还用于：使用第一维度注意力权重参数对初始视频特征进行增强，得到第一维度视频特征；基于第二维度注意力权重参数和第三维度注意力权重参数，得到第二维度注意力特征映射权重，其中，第二维度注意力权重参数通过在第二维度上对初始音频特征和第一维度视频特征进行融合得到，第三维度注意力权重参数通过在第三维度上对初始音频特征和第一维度视频特征进行融合得到；使用第二维度注意力特征映射权重，更新第一维度视频特征，得到增强的视频特征。

作为一种可选的实施例，上述增强模块还用于：对初始音频特征对初始视频特征进行非线性变化和激活处理，得到第一维度注意力权重参数。

作为一种可选的实施例，上述增强模块还用于：基于激活函数将初始音频特征和第一维度视频特征分别进行维度扩张，得到扩张的音频特征和扩张的视频特征；确定扩张的视频特征在第二维度上的视频特征单元；基于多模态双线性矩阵分解池化模块，对第二维度上的视频特征单元和扩张的音频特征进行融合，得到第二维度注意力权重参数。

作为一种可选的实施例，上述预测模块还用于：将初始音频特征和增强的视频特征分别输入自注意力模块，得到自注意力音频特征和自注意力视频特征；将初始音频特征和自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将增强的视频特征和自注意力音频特征输入第二注意力模块，得到交叉注意力的视频特征,将交叉注意力的音频特征和交叉注意力的视频特征进行融合，得到融合特征；基于融合特征预测视听事件。

作为一种可选的实施例，上述预测模块还用于：基于第二注意力模块，对初始音频特征和自注意力视频特征进行分组加权平均处理，得到交叉注意力的音频特征；基于第二注意力模块，对增强的视频特征和自注意力音频特征进行分组加权平均处理，得到交叉注意力的视频特征。

作为一种可选的实施例，上述装置还包括：获取模块，用于获取待训练模型，其中，待训练模型用于基于融合特征预测视听事件；第一确定模块，用于基于融合特征确定第一分类损失函数；第二确定模块，用于基于自注意力视频特征确定第二分类损失函数；优化模块，用于根据第一分类损失函数和第二分类损失函数对待训练模型进行优化。

作为一种可选的实施例，上述装置还包括：第三确定模块，用于基于融合特征确定预测损失函数；上述优化模块还用于根据预测损失函数、第一分类损失函数和第二分类损失函数对待训练模型进行优化。

作为一种可选的实施例，上述优化模块还用于基于预设的超参数通过预测损失函数、第一分类损失函数和第二分类损失函数构建完全监督损失函数；求解完全监督损失函数以对待训练模型进行优化。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例4

本发明的实施例还提供了一种计算机可读存储介质。计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述目标对象的搜索方法。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算设备群中的任意一个计算设备中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：对待处理视频进行特征提取，得到待处理视频的初始视频特征，包括：获取待处理视频的图像序列；基于图像特征提取模型从图像序列中提取得到特征图；将特征图进行全局平均池化，得到初始视频特征。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：对待处理视频进行特征提取，得到待处理视频的初始音频特征，包括：获取待处理视频中的音频片段；将音频片段转换为频谱图；基于音频特征提取模型从频谱图中提取特征向量；确定特征向量为初始音频特征。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，包括：使用第一维度注意力权重参数对初始视频特征进行增强，得到第一维度视频特征；基于第二维度注意力权重参数和第三维度注意力权重参数，得到第二维度注意力特征映射权重，其中，第二维度注意力权重参数通过在第二维度上对初始音频特征和第一维度视频特征进行融合得到，第三维度注意力权重参数通过在第三维度上对初始音频特征和第一维度视频特征进行融合得到；使用第二维度注意力特征映射权重，更新第一维度视频特征，得到增强的视频特征。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过初始音频特征确定多个维度上的权重参数，包括：对初始音频特征对初始视频特征进行非线性变化和激活处理，得到第一维度注意力权重参数。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过初始音频特征确定多个维度上的权重参数，包括：基于激活函数将初始音频特征和第一维度视频特征分别进行维度扩张，得到扩张的音频特征和扩张的视频特征；确定扩张的视频特征在第二维度上的视频特征单元；基于多模态双线性矩阵分解池化模块，对第二维度上的视频特征单元和扩张的音频特征进行融合，得到第二维度注意力权重参数。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于增强的视频特征预测待处理视频中的视听事件,包括:将初始音频特征和增强的视频特征分别输入自注意力模块，得到自注意力音频特征和自注意力视频特征；将初始音频特征和自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将增强的视频特征和自注意力音频特征输入第二注意力模块，得到交叉注意力的视频特征,将交叉注意力的音频特征和交叉注意力的视频特征进行融合，得到融合特征；基于融合特征预测视听事件。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：将初始音频特征和自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将增强的视频特征和自注意力音频特征输入第二注意力模块，得到交叉注意力的视频特征，包括：基于第二注意力模块，对初始音频特征和自注意力视频特征进行分组加权平均处理，得到交叉注意力的音频特征；基于第二注意力模块，对增强的视频特征和自注意力音频特征进行分组加权平均处理，得到交叉注意力的视频特征。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取待训练模型，其中，待训练模型用于基于融合特征预测视听事件；基于融合特征确定第一分类损失函数；基于自注意力视频特征确定第二分类损失函数；根据第一分类损失函数和第二分类损失函数对待训练模型进行优化。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于融合特征确定预测损失函数；根据预测损失函数、第一分类损失函数和第二分类损失函数对待训练模型进行优化。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：根据预测损失函数、第一分类损失函数和第二分类损失函数对特征提取模型进行优化，包括：基于预设的超参数通过预测损失函数、第一分类损失函数和第二分类损失函数构建完全监督损失函数；求解完全监督损失函数以对待训练模型进行优化。

实施例5

根据本申请实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的视频处理方法中以下步骤的程序代码：接收待处理视频，并对待处理视频进行特征提取，以得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，以得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。

可选地，图10是根据本申请实施例5的一种计算机终端的结构框图，如图10所示，该计算机终端1000可以包括：一个或多个(图中仅示出一个)处理器1002、存储器1004、以及外设接口1006。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的视频处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器用于运行程序，可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收待处理视频，并对待处理视频进行特征提取，得到待处理视频的初始视频特征和初始音频特征；通过初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对初始视频特征进行增强处理，得到增强的视频特征；基于增强的视频特征预测待处理视频中的视听事件。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobi leInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端1000还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频处理方法，其特征在于，包括：

接收待处理视频，并对所述待处理视频进行特征提取，以得到所述待处理视频的初始视频特征和初始音频特征；

通过所述初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，以得到增强的视频特征；

基于所述增强的视频特征预测所述待处理视频中的视听事件。

2.根据权利要求1所述的视频处理方法，其特征在于，在基于所述增强的视频特征预测所述待处理视频中的视听事件之后，所述方法还包括：

输出所述视听事件的预测结果，其中，所述预测结果包括所述待处理视频中是否存在所述视听事件、所述视听事件所在的视频片段以及所述视听事件的类别中的任意一种或者多种。

3.根据权利要求1所述的视频处理方法，其特征在于，所述多个维度上的权重参数包括第一维度注意力权重参数、第二维度注意力权重参数和第三维度注意力权重参数，基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，包括：

使用所述第一维度注意力权重参数对所述初始视频特征进行增强，得到第一维度视频特征；

基于所述第二维度注意力权重参数和所述第三维度注意力权重参数，得到第二维度注意力特征映射权重，其中，所述第二维度注意力权重参数通过在第二维度上对所述初始音频特征和所述第一维度视频特征进行融合得到，所述第三维度注意力权重参数通过在第三维度上对所述初始音频特征和所述第一维度视频特征进行融合得到；

使用所述第二维度注意力特征映射权重，更新所述第一维度视频特征，得到所述增强的视频特征。

4.根据权利要求1所述的视频处理方法，其特征在于，基于所述增强的视频特征预测所述待处理视频中的视听事件,包括:

将所述初始音频特征和所述增强的视频特征分别输入自注意力模块，得到自注意力音频特征和自注意力视频特征；

将所述初始音频特征和所述自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将所述增强的视频特征和所述自注意力音频特征输入所述第二注意力模块，得到交叉注意力的视频特征；

将所述交叉注意力的音频特征和所述交叉注意力的视频特征进行融合，得到融合特征；

基于所述融合特征预测所述视听事件。

5.根据权利要求4所述的视频处理方法，其特征在于，将所述初始音频特征和所述自注意力视频特征输入第二注意力模块，得到交叉注意力的音频特征，以及将所述增强的视频特征和所述自注意力音频特征输入所述第二注意力模块，得到交叉注意力的视频特征，包括：

基于所述第二注意力模块，对所述初始音频特征和所述自注意力视频特征进行分组加权平均处理，得到所述交叉注意力的音频特征；

基于所述第二注意力模块，对所述增强的视频特征和所述自注意力音频特征进行分组加权平均处理，得到所述交叉注意力的视频特征。

6.根据权利要求4所述的视频处理方法，其特征在于，所述方法还包括：

获取待训练模型，其中，所述待训练模型用于基于所述融合特征预测所述视听事件；

基于所述融合特征确定第一分类损失函数；

基于所述自注意力视频特征确定第二分类损失函数；

根据所述第一分类损失函数和所述第二分类损失函数对所述待训练模型进行优化。

7.根据权利要求6所述的视频处理方法，其特征在于，所述方法还包括：

基于所述融合特征确定预测损失函数；

根据所述预测损失函数、所述第一分类损失函数和所述第二分类损失函数对所述待训练模型进行优化。

8.一种视频处理方法，其特征在于，包括：

获取直播过程中采集到的待处理的直播视频；

采用目标检测模型所述直播视频进行分类检测，得到所述直播视频中视听事件的预测结果；

基于所述预测结果对所述直播视频增加标签信息；

其中，所述目标检测检测模型用于对所述直播视频进行特征提取，以得到所述直播视频的初始视频特征和初始音频特征；通过所述初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，以得到增强的视频特征；基于所述增强的视频特征预测所述视听事件。

9.一种视频处理装置，其特征在于，包括：

接收模块，用于接收待处理视频，并对所述待处理视频进行特征提取，以得到所述待处理视频的初始视频特征和初始音频特征；

增强模块，用于通过所述初始音频特征确定多个维度上的权重参数，并基于第一注意力模块利用多个维度上的权重参数对所述初始视频特征进行增强处理，以得到增强的视频特征；

预测模块，用于基于所述增强的视频特征预测所述待处理视频中的视听事件。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的方法。

11.一种计算机程序，其特征在于，所述计算机程序运行时执行权利要求1至8中任意一项所述的方法。

12.一种视频处理系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：接收待处理视频，并对所述待处理视频进行特征提取，以得到所述待处理视频的初始视频特征和初始音频特征；