CN111461235A

CN111461235A - 音视频数据处理方法、系统、电子设备及存储介质

Info

Publication number: CN111461235A
Application number: CN202010257755.5A
Authority: CN
Inventors: 陈雁翔; 檀华东; 赵鹏铖; 武广
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111461235B; US11335096B2; US20210303866A1

Abstract

本发明提供一种音视频数据处理方法、系统、电子设备及存储介质，所述音视频数据处理方法包括获取第一数据集，所述第一数据集包括若干数据对，所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元；构建多路特征提取网络模型，以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征；利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型，以对所述多路特征提取网络模型进行训练；构建分类器以判断输入的待判断音视频数据对是否匹配。利用本发明，能够利用互联网上广泛存在的无标签音视频数据，不依赖需要耗费大量人力物力的有标签数据，扩宽了音视频协同学习的方法。

Description

音视频数据处理方法、系统、电子设备及存储介质

技术领域

本发明涉及多模态数据特征学习技术领域，特别涉及一种音视频数据处理方法、系统、电子设备及存储介质。

背景技术

如今的信息时代，互联网上每时每刻都有大量新的数据产生，并且这些数据呈现出多种形式，例如文字、图片、音频、视频等等，因此需要一些方法能够去挖掘这些多模态数据间隐藏的共性信息。在这些数据形式中，视觉信息和听觉信息是两种极为重要的信息，它们之间存在着自然的联系，例如狗的声音和描述狗的画面都反映了狗这个物体，当人听到狗叫声时，脑海中就能联想到狗的样子。这种具有联系的音视频数据大量存在，视频中的视觉信息和听觉信息就是一一对应的。因此我们希望也赋予机器这样的能力，这就需要一种方法能够学习到那些相互对应的视觉信息和听觉信息之间的联系，进而以一种音视频协同学习的方式去结合二者的有效信息，以此来解决一些依赖于多模态信息的实际问题。

目前的一些音视频协同学习方法中，大都需要结合有标签的数据才能够有比较好的效果，但是数据标签的获取需要耗费大量的人力物力，面对互联网上海量的无标签数据，这种方式显然是低效和不可取的。此外，如果需要建立音视频数据特征之间的联系，就要学习到特定的特征信息，例如描述狗的图片中，狗就是我们需要的信息，其他的背景信息就是一些无效的噪声信息，音频数据单元同样是如此。

因此需要一种能够从数据本身发现潜在规律并且能够剔除无用的噪声信息的方法来处理这些无标签数据，从而能够扩宽音视频协同学习的适用范围。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种音视频数据处理方法、系统、电子设备及存储介质，用于解决现有技术中音视频协同学习方法不适合无标签数据的技术问题。

为实现上述目的及其他相关目的，本发明提供一种音视频数据处理方法，所述音视频数据处理方法包括：

获取第一数据集，所述第一数据集包括若干数据对，所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元；

构建多路特征提取网络模型，以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征；

利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型，以对所述多路特征提取网络模型进行训练；

构建分类器以判断输入的待判断音视频数据对是否匹配。

在一可选实施例中，所述构建分类器以判断输入的待判断音视频数据对是否匹配的步骤包括：

获取第二数据集，所述第二数据集包括若干数据对，所述第二数据集中的每个所述数据对包括视频帧序列单元和音频数据单元，以及两者的匹配与否值；

利用训练好的所述多路特征提取网络模型分别提取出所述第二数据集中的每个所述数据对的所述视频帧序列单元的视觉特征和所述音频数据单元的听觉特征；

将所述第二数据集中的每个所述数据对的所述视觉特征和所述听觉特征进行融合，以获取所述第二数据集中的每个所述数据对的融合特征；

构建所述分类器，并利用所述融合特征对所述分类器进行训练；

利用训练好的所述分类器判断输入的所述待判断音视频数据对是否匹配。

在一可选实施例中，所述利用所述融合特征对所述分类器进行训练的步骤包括，以所述融合特征作为所述分类器的输入，再结合预设损失函数模型对所述分类器进行训练。

在一可选实施例中，所述预设损失函数模型的表达式为：

其中，y_j＝1表示z_concat是由所述第二数据集中的匹配数据对得到的融合特征，y_j＝0表示z_concat是由所述第二数据集中的不匹配数据对得到的融合特征，θ_c是分类器网络模型的参数，N是所述第二数据集中的数据对的个数。

在一可选实施例中，所述构建多路特征提取网络模型，以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征的步骤包括，构建视觉特征提取网络模型和听觉特征提取网络模型，以分别提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征。

在一可选实施例中，所述视觉特征提取网络模型由依次连接的三维卷积层、二维卷积层和全连接层构成。

在一可选实施例中，所述听觉特征提取网络模型由依次连接的多个卷积层和全连接层构成。

在一可选实施例中，所述利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数，以对所述多路特征提取网络模型进行训练的步骤包括：

对于所述第一数据集中的数据，选取与每个所述视频帧序列单元对应的所述音频数据单元构成正例对，选取与每个所述视频帧序列单元不对应的多个所述音频数据单元构成负例对，以构成第三数据集；

根据提取出的所述视觉特征和所述听觉特征构建评价函数模型，以使所述正例对的取值较大，而负例对的取值较小；

根据所述评价函数模型构建所述对比编码损失函数模型，并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。

在一可选实施例中，根据所述评价函数模型构建所述对比编码损失函数模型，并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练的步骤包括：

对构建的所述对比编码损失函数模型进行近似处理；

利用近似处理后的所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。

为实现上述目的及其他相关目的，本发明还提供一种音视频数据处理系统，包括：

第一数据集获取单元，用于获取第一数据集，所述第一数据集包括若干第一音视频数据对，每个所述第一音视频数据对包括相互匹配的视频帧序列单元和音频数据单元；

特征提取网络模型构建单元，用于构建多路特征提取网络模型，以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征；

特征提取网络模型训练单元，用于利用提取出的所述视觉特征和所述听觉特征，构建对比编码损失函数以对所述多路特征提取网络模型进行训练；

分类器构建判定单元，用于构建分类器以判断输入的待判断音视频数据对是否匹配。

在一可选实施例中，所述分类器构建判定单元包括：

第二数据集获取子单元，用于获取第二数据集，所述第二数据集包括若干数据对，所述第二数据集中的每个所述数据对包括视频帧序列单元和音频数据单元，以及两者的匹配与否值；

特征提取子单元，用于利用训练好的所述多路特征提取网络模型分别提取出所述第二数据集中的每个所述数据对的所述视频帧序列单元的视觉特征和所述音频数据单元的听觉特征；

特征融合子单元，用于将所述第二数据集中的每个所述数据对的所述视觉特征和所述听觉特征进行融合，以获取所述第二数据集中的每个所述数据对的融合特征；

分类器构建子单元，用于构建所述分类器，并利用所述融合特征对所述分类器进行训练；

判定子单元，用于利用训练好的所述分类器判断输入的所述待判断音视频数据对是否匹配。

在一可选实施例中，所述分类器构建子单元还用于以所述融合特征作为所述分类器的输入，再结合预设损失函数模型对所述分类器进行训练。

在一可选实施例中，所述预设损失函数模型的表达式为：

其中，z_xoncat表示融合特征，y_j表示所述第二数据集中第j个数据对的匹配值，y_j＝1表示z_concat是由所述第二数据集中的匹配数据对得到的融合特征，y_j＝0表示z_concat是由所述第二数据集中的不匹配数据对得到的融合特征。

在一可选实施例中，所述特征提取网络模型构建单元包括：

用于构建视觉特征提取网络模型的视觉特征提取网络模型构建子单元；

用于构建听觉特征提取网络模型的听觉特征提取网络模型构建子单元。

在一可选实施例中，所述特征提取网络模型训练单元包括：

第三数据集获取子单元，用于对于所述第一数据集中的数据，选取与每个所述视频帧序列单元对应的所述音频数据单元构成正例对，选取与每个所述视频帧序列单元不对应的多个所述音频数据单元构成负例对，以构成第三数据集；

评价函数模型构建子单元，用于根据提取出的所述视觉特征和所述听觉特征构建评价函数模型，以使所述正例对的取值较大，而负例对的取值较小；

对比编码损失函数模型构建子单元，用于根据所述评价函数模型构建所述对比编码损失函数模型，并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。

在一可选实施例中，所述对比编码损失函数模型构建子单元包括：

用于对构建的所述对比编码损失函数模型进行近似处理的子单元；

利用近似处理后的所述对比编码损失函数模型对所述多路特征提取网络模型进行训练的子单元。

为实现上述目的及其他相关目的，本发明还提供一种电子设备，所述电子设备包括：

通信器，用于与外部通信；

存储器，用于存储计算机程序；

处理器，连接所述通信器及存储器，用于运行所述计算机程序以执行上述任意一项所述的音视频数据处理方法。

为实现上述目的及其他相关目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序；所述计算机程序运行时执行上述任意一项所述的音视频数据处理方法。

本发明利用多模态对比编码构建损失函数，利用广泛存在的音视频数据中的视觉部分和听觉部分，通过匹配关系与否划分为正例对和负例对，通过引入大量的负例样本来最小化该损失函数的方式去训练视觉特征提取网络和听觉特征提取网络，使得网络的参数在学习的过程中以最大化正例对数据特征之间的互信息为标准，进而能够学习到这些音视频数据对中潜在的共性特征信息。

本发明以一种自监督的学习方式去建立音视频数据对之间的特征联系，学习到一种反映二者之间共性的特征表示，它不依赖于需要耗费大量人力物力的有标签数据，能够利用广泛存在的无标签数据对特征提取网络进行训练，进而可以得到有效的音视频特征来处理下游任务，减少了人力物力的消耗，是一种更为理想的特征学习方式，扩宽了音视频协同学习的适用范围。

附图说明

图1显示为本发明音视频数据处理方法的流程示意图。

图2显示为本发明的视觉特征提取网络模型结构框图。

图3显示为本发明的听觉特征提取网络模型结构框图。

图4显示为本发明的音视频数据处理方法的整体网络架构图。

图5显示为本发明的音视频数据处理系统的结构框图。

图6显示为本发明的电子设备的结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-6。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

图1示出了本发明的音视频数据处理方法的流程图，请参阅图1，所述音视频数据处理方法是利用两路深度神经网络提取出视觉特征信息和听觉特征信息；以多模态对比编码构造损失函数来训练特征提取网络；以学习好的音视频融合特征作为分类器的输入以判定音视频数据对是否匹配。具体包括步骤S10、获取第一数据集，所述第一数据集包括若干数据对，所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元；步骤S20、构建多路特征提取网络模型，以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征；步骤S30、利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型，以对所述多路特征提取网络模型进行训练；步骤S40、构建分类器以判断输入的待判断音视频数据对是否匹配。图4示出了音视频数据处理方法的网络架构图，下面将结合附图1-4详细阐述本发明的技术方案。

首先，执行步骤S10，请参阅图1和图4，获取第一数据集，所述第一数据集包括若干数据对，所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元。具体地，先将一个或者多个视频划分为多个视频段，然后提取出每个视频段中的视觉部分和听觉部分并进行处理以构成所述第一数据集，所述第一数据集中的视频帧序列单元作为步骤S20中的视觉特征提取网络模型的输入，所述第一数据集中的音频数据单元作为步骤S20中的听觉特征提取网络模型的输入。

作为示例，生成第一数据集的视频或者也称为音视频数据中，存在相互关联的视觉信息和听觉信息，例如描述狗的画面和声音的这种具有联系的音视频数据，狗的声音和描述狗的画面都反映了狗这个物体。

作为示例，在将一个或者多个视频划分为多个视频段的步骤中，例如可利用opencv工具(当然也可以是其他合适的工具)将视频数据划分为多个视频段，每个视频段的时长为预设时长，所述预设时长可根据实际需要进行灵活调整，所述预设时长例如可选取为1s。

作为示例，在提取出每个视频段中的视觉部分和听觉部分并进行处理以构成所述第一数据集的步骤中，例如可借助FFmpeg工具(当然也可以是其他合适的工具)将每个视频段的视觉部分和听觉部分提取出来；对于听觉部分，例如利用python的librosa库提取出每个音频数据单元段对应的对数梅尔声谱图(Log-Mel Spectrogram，LMS)作为一个音频数据单元，在其他实施例中，当然也可采用每个音频数据单元段的短时傅里叶变换声谱图(Short-Time Fourier Transform，STFT)、梅尔频率的倒谱系数声谱图(Mel-FrequencyCepstral Coefficients，MFCC)或梅尔声谱图(Mel-Spectrum，MS)作为该音频数据单元段的音频数据单元，优选对数梅尔声谱图；对于视觉部分，以1秒时长为标准来选取多帧图像作为视频帧序列单元。由此得到数据集D＝{(v₁,a₁),...,(v_j,a_j),...,(v_N,a_N)}，其中v_j代表第j个视频帧序列单元，a_j代表第j个音频数据单元，并且v_j和a_j是在时序和语义上都是严格对齐的，所述数据集D也即所述第一数据集。

其次，执行步骤S20，请参阅图1和图4中，分别构建视觉特征提取网络模型和听觉特征提取网络模型，以分别提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征。具体包括构建视觉特征提取网络模型的步骤S21；构建听觉特征提取网络模型的步骤S22。

在步骤S21中，所述视觉特征提取网络模型例如可有依次连接的三维卷积层、二维卷积层和全连接层构成，图2示出了视觉特征提取网络模型的一种结构框图，请参阅图2，视觉特征提取网络模型的起始部分由三维卷积层构成，随后连接多层二维卷积层(具体的网络参数细节见图2，其中conv表示卷积神经网络，3ⅹ7ⅹ7,3,64分别表示三维卷积，卷积核大小为7ⅹ7，输入维度以及输出维度；pool代表池化层，fc表示全连接层)，通过结合三维卷积神经网络和二维卷积神经网络来提取出由多帧图像数据所构成的视觉信息(也即视频帧序列单元)的时空特征，最后通过全连接层进行特征维度变换，以获取512维视觉特征。需要说明的是，在其他实施例中，也可以采用其他合适结构的特征提取网络，不以此为限。

在步骤S22中，所述听觉特征提取网络模型例如可由依次连接的多个卷积层和全连接层构成。图3示出了听觉特征提取网络模型的一种结构框图，请参阅图3，该听觉特征提取网络模型以音频数据单元对应的LMS为输入，利用多层卷积层提取出音频数据单元的特征信息(具体的网络参数细节见图3)，最后同样通过全连接层得到音频数据单元对应的512维听觉特征。

接着，执行步骤S30，请参阅图1和图4，利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型，以对所述多路特征提取网络模型进行训练，具体包括，步骤S31、对于所述第一数据集中的数据，选取与每个所述视频帧序列单元对应的所述音频数据单元构成正例对，选取与每个所述视频帧序列单元不对应的多个所述音频数据单元构成负例对，以构成第三数据集；步骤S32、根据提取出的所述视觉特征和所述听觉特征构建评价函数模型，以使所述正例对的取值较大，而负例对的取值较小；步骤S33、根据所述评价函数模型构建所述对比编码损失函数模型，并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。

作为示例，在步骤S31中，对于数据集D中的数据，以视觉数据v_i(也即任意一个视频帧序列单元v_i)为导向，选取与其唯一对应的音频数据单元a_i构成正例对，再选取与其不对应的k个音频数据单元{a₁,...,a_k}构成多个负例对，负例对的获取方式有两种，一是同一视频中时间不对应的音频数据单元，二是不同视频中的音频数据单元，从而构成数据集合S＝{v_i,a_i,a₁,...,a_k}。

作为示例，在步骤S32中、利用视觉特征提取网络和听觉特征提取网络分别提取出视觉特征z_v和听觉特征z_a，其中z_v＝f_v(v,θ_v)，z_a＝f_a(a,θ_a)，θ_v和θ_a分别是视觉特征提取网络和听觉特征提取网络的参数。设计评价函数(模型)

w_va是评价函数的参数，对于音视频数据对，评价函数的标准是使得正例对{v_i,a_i}的取值较大，负例对{v_i,a_j}的取值较小。

作为示例，在步骤33中、结合评价函数c_θ({v,a})构造如下的对比编码损失函数模型(其中E表示取数据集S下的数学期望)：

对于上式，可以证明得到：I(z_v,z_a)≥log(k)-L_v,a，其中I(z_v,z_a)是z_v和z_a的互信息，k是负例对的个数，应选择相对较大的数值来保证二者的互信息足够大，具体的取值范围可以是2000到10000。因此在最小化损失函数L_v,a的值时，可以最大化I(z_v,z_a)的下边界，从而能够使得每一视觉特征都能与其相互匹配的听觉特征建立起联系，网络学习到的特征能够最大化二者之间的共性，也即可以利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。

由步骤S33中的损失函数可知，z_v和z_a的互信息的大小随着负例样本个数k的增大而增大，因此需要大量负例样本参与该损失函数的计算，这就导致了该损失函数有很大的计算难度。为此，作为改进，在步骤S33中，可以先对构建的所述对比编码损失函数模型进行近似处理；然后利用近似处理后的所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。

具体地，例如可结合噪声对比估计(Noise Contrastive Estimation，NCE)算法近似计算损失函数，其思想就是将真实的训练样本和一批噪声样本进行对比，进而发现出真实样本的数据规律，即将其转换为二分类问题，将真实样本判定为1，将噪声样本判定为0，噪声样本选取的是均匀分布。对于某一视觉数据样本v_i，某一听觉数据a∈{a_j|j＝1,2,...,k+1}与其相匹配的概率为：

对于每个数据样本，选取m个噪声样本与之对比，以视觉数据为导向，则听觉数据a来自真实样本分布的后验概率为：

其中p_d代表真实样本分布，p_n(·|v_i)＝1/N表示选取的噪声样本分布，噪声样本服从均匀分布，每一个噪声样本出现的概率都是1/N。因此可以得到步骤S33中对比编码损失函数模型的近似估计为：

通过上述损失函数，结合梯度下降算法，通过反复求取梯度进行反向传播来更新网络中的参数，进而最小化上述损失函数的值，最后至参数拟合以学习到所需要的参数分布，从而学习到所需要的音视频数据特征。

最后执行步骤S40，请参阅图1和图4，构建分类器以判断输入的待判断音视频数据对是否匹配。可以包括，步骤S41、获取第二数据集，所述第二数据集包括若干数据对，所述第二数据集中的每个所述数据对包括视频帧序列单元和音频数据单元，以及两者的匹配与否值；步骤S42、利用训练好的所述多路特征提取网络模型分别提取出所述第二数据集中的每个所述数据对的所述视频帧序列单元的视觉特征和所述音频数据单元的听觉特征；步骤S43、将所述第二数据集中的每个所述数据对的所述视觉特征和所述听觉特征进行融合，以获取所述第二数据集中的每个所述数据对的融合特征；步骤S44、构建所述分类器，并利用所述融合特征对所述分类器进行训练；步骤S45、利用训练好的所述分类器判断输入的所述待判断音视频数据对是否匹配。

作为示例，在步骤S41中，构建数据集合Ω＝{(v₁,a₁,y₁),...,(v_j,a_j,y_j),...(v_N,a_N,y_N)}，也即第二数据集，其中y_j＝1代表v_j和a_j是相互匹配的数据对，y_j＝0代表v_j和a_j是相互不匹配的数据对。

作为示例，在步骤S42和步骤S43中、针对数据集合Ω中的每一数据对，利用步骤S30中训练好的特征提取网络分别提取出每个数据对的512维视觉特征z_v和512维听觉特征z_s，在图4中的特征融合层中对z_v和z_s进行特征融合得到最终的1024维融合特征z_concat。

作为示例，在步骤S44、请参阅4，以融合特征z_concat为分类器的输入，以分类器的输出来判定输入的音视频数据对是否匹配。分类器具体由两层全连接层组成，对应神经元的个数分别为128和1。利用交叉熵损失作为分类器的损失函数，具体形式如下(其中θ_c是分类器网络的参数)：

上式中y_j＝1表示z_concat是由所述第二数据集中的匹配数据对得到的融合特征，y_j＝0表示z_concat是由所述第二数据集中的不匹配数据对得到的融合特征，θ_c是分类器网络模型的参数，N是所述第二数据集中的数据对的个数。

作为示例，步骤S45、根据步骤S44中的损失函数，利用随机梯度下降算法对分类器进行训练，通过最小化交叉熵损失函数来更新分类器的参数，注意此时步骤S30中的特征提取网络中的参数不会发生更新，进而让分类器能够区分出匹配与否的音视频数据对，并以该分类准确率的大小作为音视频协同学习好坏的评价指标。

本发明的实施例还介绍了一种用于实现上述音视频数据处理方法的处理系统1，图5示出了该音视频数据处理系统1的结构框图。请参阅图5，所述音视频数据处理系统1包括，第一数据集获取单元11，特征提取网络模型构建单元12，特征提取网络模型训练单元13，及分类器构建判定单元14；其中，所述第一数据集获取单元11为实现上述步骤S10所建立的功能模块，用于获取第一数据集，所述第一数据集包括若干第一音视频数据对，每个所述第一音视频数据对包括相互匹配的视频帧序列单元和音频数据单元；所述特征提取网络模型构建单元12为实现上述步骤S20所建立的功能模块，用于构建多路特征提取网络模型，以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征；所述特征提取网络模型训练单元13为实现上述步骤S30所建立的功能模块，用于利用提取出的所述视觉特征和所述听觉特征，构建对比编码损失函数以对所述多路特征提取网络模型进行训练；所述分类器构建判定单元14为实现上述步骤S40所建立的功能模块，用于构建分类器以判断输入的待判断音视频数据对是否匹配。

在本实施例中，所述特征提取网络模型构建单元12包括，用于构建视觉特征提取网络模型的视觉特征提取网络模型构建子单元，作为实现上述步骤S21所建立的功能模块；用于构建听觉特征提取网络模型的听觉特征提取网络模型构建子单元，作为实现上述步骤S22所建立的功能模块。作为示例，图2示出了视觉特征提取网络模型的一种结构框图，所述视觉特征提取网络模型由依次连接的三维卷积层、二维卷积层和全连接层构成。作为示例，图3示出了听觉特征提取网络模型的一种结构框图，所述听觉特征提取网络模型由依次连接的多个卷积层和全连接层构成。

在本实施例中，所述特征提取网络模型训练单元13包括：第三数据集获取子单元，作为实现上述步骤S31所建立的功能模块，用于对于所述第一数据集中的数据，选取与每个所述视频帧序列单元对应的所述音频数据单元构成正例对，选取与每个所述视频帧序列单元不对应的多个所述音频数据单元构成负例对，以构成第三数据集；评价函数模型构建子单元，作为实现上述步骤S32所建立的功能模块，用于根据提取出的所述视觉特征和所述听觉特征构建评价函数模型，以使所述正例对的取值较大，而负例对的取值较小；对比编码损失函数模型构建子单元，作为实现上述步骤S33所建立的功能模块，用于根据所述评价函数模型构建所述对比编码损失函数模型，并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。

为了降低对比编码损失函数模型的计算难度，所述对比编码损失函数模型构建子单元还可进一步包括：用于对构建的所述对比编码损失函数模型进行近似处理的子单元；利用近似处理后的所述对比编码损失函数模型对所述多路特征提取网络模型进行训练的子单元。

在本实施例中，所述分类器构建判定单元13包括：第二数据获取子单元，作为实现上述步骤S41所建立的功能模块，用于获取第二数据集，所述第二数据集包括若干数据对，所述第二数据集中的每个所述数据对包括视频帧序列单元和音频数据单元，以及两者的匹配与否值；特征提取子单元，作为实现上述步骤S42所建立的功能模块，用于利用训练好的所述多路特征提取网络模型分别提取出所述第二数据集中的每个所述数据对的所述视频帧序列单元的视觉特征和所述音频数据单元的听觉特征；特征融合子单元，作为实现上述步骤S43所建立的功能模块，用于将所述第二数据集中的每个所述数据对的所述视觉特征和所述听觉特征进行融合，以获取所述第二数据集中的每个所述数据对的融合特征；分类器构建子单元，作为实现上述步骤S44所建立的功能模块，用于构建所述分类器，并利用所述融合特征对所述分类器进行训练；判定子单元，作为实现上述步骤S45所建立的功能模块，用于利用训练好的所述分类器判断输入的所述待判断音视频数据对是否匹配。

具体地，所述分类器构建子单元还用于以所述融合特征作为所述分类器的输入，再结合预设损失函数模型对所述分类器进行训练。作为示例，所述预设损失函数模型的表达式为：

其中，z_concat表示融合特征，y_j表示所述第二数据集中第j个数据对的匹配值，y_j＝1表示z_concat是由所述第二数据集中的匹配数据对得到的融合特征，y_j＝0表示z_concat是由所述第二数据集中的不匹配数据对得到的融合特征。

需要说明的是，在本实施例中，上述各单元的功能详见上文的方法部分中的各步骤，在此不做赘述。

需要说明的是，上述音视频数据处理系统的各功能单元，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分单元通过处理元件调用软件的形式实现，部分单元通过硬件的形式实现。此外这些单元全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

需要说明的是，如图6所示，本实施例的上述音视频数据处理方法还可以通过一电子设备100实现，所述电子设备100包括相互连接的存储器103、处理器101及通信器102，所述存储器101存储有计算机程序，该程序被所述处理器101执行时实现所述音视频数据处理方法。

上述处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件；上述存储器103可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

需要说明的是，上述存储器103中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以通过软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

综上所述，利用本发明，通过两路深度神经网络分别提取出视频数据中的视觉信息和听觉信息；针对这两种模态的数据特征，利用多模态对比编码设计损失函数，并结合噪声对比估计算法对网络进行训练，以最大化相互匹配的视频帧序列单元和音频数据单元之间的互信息，从而能够学习到具有联系的音视频数据的共性特征；最后设计一个二分类器，利用训练好的特征提取网络得到两种模态的数据特征，并将其进行融合作为分类器的输入，再结合交叉熵损失函数进行训练以判断输入的音视频数据对是否匹配。该方法通过多模态对比编码建立起具有关联的音视频数据之间的联系，学习到一种反映二者之间共性的特征表示，这种自监督的学习方式能够利用互联网上广泛存在的无标签音视频数据，从而能够不再依赖需要耗费大量人力物力的有标签数据，扩宽了音视频协同学习的方法，更好的学习到音视频数据间的共性特征。

在本文的描述中，提供了许多特定细节，诸如部件和/或方法的实例，以提供对本发明实施例的完全理解。然而，本领域技术人员将认识到可以在没有一项或多项具体细节的情况下或通过其他设备、系统、组件、方法、部件、材料、零件等等来实践本发明的实施例。在其他情况下，未具体示出或详细描述公知的结构、材料或操作，以避免使本发明实施例的各方面变晦涩。

在整篇说明书中提到“一个实施例(one embodiment)”、“实施例(anembodiment)”或“具体实施例(a specific embodiment)”意指与结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中，并且不一定在所有实施例中。因而，在整篇说明书中不同地方的短语“在一个实施例中(in one embodiment)”、“在实施例中(inan embodiment)”或“在具体实施例中(in a specific embodiment)”的各个表象不一定是指相同的实施例。此外，本发明的任何具体实施例的特定特征、结构或特性可以按任何合适的方式与一个或多个其他实施例结合。应当理解本文所述和所示的发明实施例的其他变型和修改可能是根据本文教导的，并将被视作本发明精神和范围的一部分。

还应当理解还可以以更分离或更整合的方式实施附图所示元件中的一个或多个，或者甚至因为在某些情况下不能操作而被移除或因为可以根据特定应用是有用的而被提供。

另外，除非另外明确指明，附图中的任何标志箭头应当仅被视为示例性的，而并非限制。此外，除非另外指明，本文所用的术语“或”一般意在表示“和/或”。在术语因提供分离或组合能力是不清楚的而被预见的情况下，部件或步骤的组合也将视为已被指明。

如在本文的描述和在下面整篇权利要求书中所用，除非另外指明，“一个(a)”、“一个(an)”和“该(the)”包括复数参考物。同样，如在本文的描述和在下面整篇权利要求书中所用，除非另外指明，“在…中(in)”的意思包括“在…中(in)”和“在…上(on)”。

本发明所示实施例的上述描述(包括在说明书摘要中所述的内容)并非意在详尽列举或将本发明限制到本文所公开的精确形式。尽管在本文仅为说明的目的而描述了本发明的具体实施例和本发明的实例，但是正如本领域技术人员将认识和理解的，各种等效修改是可以在本发明的精神和范围内的。如所指出的，可以按照本发明所述实施例的上述描述来对本发明进行这些修改，并且这些修改将在本发明的精神和范围内。

本文已经在总体上将系统和方法描述为有助于理解本发明的细节。此外，已经给出了各种具体细节以提供本发明实施例的总体理解。然而，相关领域的技术人员将会认识到，本发明的实施例可以在没有一个或多个具体细节的情况下进行实践，或者利用其它装置、系统、配件、方法、组件、材料、部分等进行实践。在其它情况下，并未特别示出或详细描述公知结构、材料和/或操作以避免对本发明实施例的各方面造成混淆。

因而，尽管本发明在本文已参照其具体实施例进行描述，但是修改自由、各种改变和替换意在上述公开内，并且应当理解，在某些情况下，在未背离所提出发明的范围和精神的前提下，在没有对应使用其他特征的情况下将采用本发明的一些特征。因此，可以进行许多修改，以使特定环境或材料适应本发明的实质范围和精神。本发明并非意在限制到在下面权利要求书中使用的特定术语和/或作为设想用以执行本发明的最佳方式公开的具体实施例，但是本发明将包括落入所附权利要求书范围内的任何和所有实施例及等同物。因而，本发明的范围将只由所附的权利要求书进行确定。

Claims

1.一种音视频数据处理方法，其特征在于，所述数据处理方法包括以下步骤：

构建分类器以判断输入的待判断音视频数据对是否匹配。

2.根据权利要求1所述的音视频数据处理方法，其特征在于，所述构建分类器以判断输入的待判断音视频数据对是否匹配的步骤包括：

3.根据权利要求2所述的音视频数据处理方法，其特征在于，所述利用所述融合特征对所述分类器进行训练的步骤包括，以所述融合特征作为所述分类器的输入，再结合预设损失函数模型对所述分类器进行训练。

4.根据权利要求2所述的音视频数据处理方法，其特征在于，所述预设损失函数模型的表达式为：

5.根据权利要求1所述的音视频数据处理方法，其特征在于，所述构建多路特征提取网络模型，以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征的步骤包括，构建视觉特征提取网络模型和听觉特征提取网络模型，以分别提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征。

6.根据权利要求5所述的音视频数据处理方法，其特征在于，所述视觉特征提取网络模型由依次连接的三维卷积层、二维卷积层和全连接层构成。

7.根据权利要求5所述的音视频数据处理方法，其特征在于，所述听觉特征提取网络模型由依次连接的多个卷积层和全连接层构成。

8.根据权利要求1-7中任意一项所述的音视频数据处理方法，其特征在于，所述利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数，以对所述多路特征提取网络模型进行训练的步骤包括：

9.根据权利要求8所述的音视频数据处理方法，其特征在于，根据所述评价函数模型构建所述对比编码损失函数模型，并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练的步骤包括：

对构建的所述对比编码损失函数模型进行近似处理；

10.一种音视频数据处理系统，其特征在于，包括：

11.根据权利要求10所述的音视频数据处理系统，其特征在于，所述分类器构建判定单元包括：

12.根据权利要求11所述的音视频数据处理系统，其特征在于，所述分类器构建子单元还用于以所述融合特征作为所述分类器的输入，再结合预设损失函数模型对所述分类器进行训练。

13.根据权利要求11所述的音视频数据处理系统，其特征在于，所述预设损失函数模型的表达式为：

14.根据权利要求10所述的音视频数据处理系统，其特征在于，所述特征提取网络模型构建单元包括：

15.根据权利要求14所述的音视频数据处理系统，其特征在于，所述视觉特征提取网络模型由依次连接的三维卷积层、二维卷积层和全连接层构成。

16.根据权利要求14所述的音视频数据处理系统，其特征在于，所述听觉特征提取网络模型由依次连接的多个卷积层和全连接层构成。

17.根据权利要求10-16中任意一项所述的音视频数据处理系统，其特征在于，所述特征提取网络模型训练单元包括：

18.根据权利要求17所述的音视频数据处理系统，其特征在于，所述对比编码损失函数模型构建子单元包括：

19.一种电子设备，其特征在于，所述电子设备包括：

通信器，用于与外部通信；

存储器，用于存储计算机程序；

处理器，连接所述通信器及存储器，用于运行所述计算机程序以执行如权利要求1-9中任意一项所述的音视频数据处理方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序；所述计算机程序运行时执行如权利要求1-9中任意一项所述的音视频数据处理方法。