CN114501164A

CN114501164A - 音视频数据的标注方法、装置及电子设备

Info

Publication number: CN114501164A
Application number: CN202111627068.9A
Authority: CN
Inventors: 邢文峰; 李保成
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-13

Abstract

本公开涉及一种音视频数据的标注方法、装置及电子设备，尤其涉及数据处理技术领域。该方法包括：根据待标注音视频数据和第一受控随机数据，获取第一生成数据，第一受控随机数据为根据目标类音视频数据的特征分布生成的；确定第一生成数据对应的第一相似度参数和第二受控随机数据，第一相似度参数用于表征第一生成数据为目标类音视频数据的概率，第二受控随机数据为根据第一生成数据恢复的第一受控随机数据；在第一相似度参数大于或等于相似度阈值的情况下，确定第二受控随机数据为待标注音视频数据的特征参数，将待标注音视频数据标注为目标类音视频数据。

Description

音视频数据的标注方法、装置及电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种音视频数据的标注方法、装置及电子设备。

背景技术

神经网络可以被用于解决许多问题，神经网络是一种模拟动物神经网络行为特征，进行分布式并行信息处理的算法，神经网络通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。如果神经网络要发挥很好的性能，必须依赖大量的训练音视频数据。但是获取大量标注音视频数据通常很困难，在获取标注音视频数据的过程中，如何根据分类标准提取音视频数据对应的特征参数，进行特征参数相对应分类的数据标注是亟需解决的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种音视频数据的标注方法、装置及电子设备，可以根据自动提取待标注音视频数据对应的特征参数，并标注待标注音视频数据所述分类。

为了实现上述目的，本公开实施例提供的技术方案如下：

第一方面，提供一种音视频数据的标注方法，包括：

根据待标注音视频数据和第一受控随机数据，获取第一生成数据，所述第一受控随机数据为根据目标类音视频数据的特征分布生成的；

确定所述第一生成数据对应的第一相似度参数和第二受控随机数据，所述第一相似度参数用于表征所述第一生成数据为所述目标类音视频数据的概率，所述第二受控随机数据为根据所述第一生成数据恢复的所述第一受控随机数据；

在所述第一相似度参数大于或等于相似度阈值的情况下，确定所述第二受控随机数据为所述待标注音视频数据的特征参数，将所述待标注音视频数据标注为所述目标类音视频数据。

作为本公开实施例一种可选的实施方式，所述方法应用于目标生成式对抗网络模型，所述目标生成式对抗网络模型包括生成器和判别器，所述生成器中包括编码器和解码器；

所述根据待标注音视频数据和第一受控随机数据，获取第一生成数据，包括：

将所述待标注音视频数据输入所述编码器，生成编码后的所述待标注音视频数据；

将编码后的所述待标注音视频数据和所述第一受控随机数据，输入至所述解码器，获取所述第一生成数据。

作为本公开实施例一种可选的实施方式，所述生成器为根据第一目标函数进行训练后得到的；

所述第一目标函数为：max[logD_fake+a*sum(logD_condition)]；

其中，D_fake为在所述判别器的输入信号为生成数据时，所述判别器输出的相似度参数为所述目标类音视频数据的概率；logD_condition为所述生成器输出的各个生成数据对应的受控随机数据的相似程度，a为常数。

所述控制器，具体用于：

将所述第一生成数据输入所述判别器；

获取所述判别器输出的所述第一相似度参数和所述第二受控随机数据。

作为本公开实施例一种可选的实施方式，所述判别器为根据第二目标函数进行训练后得到的；

所述第二目标函数为：max[logD_real+log(1-D_fake)+a*sum(log(1-D_condition)]；

其中，D_real为在所述判别器的输入信号为真实数据时，所述判别器输出的相似度参数为所述目标类音视频数据的概率；D_fake为在所述判别器的输入信号为生成数据时，所述判别器输出的相似度参数为所述目标类音视频数据的概率；log (1-D_condition)为所述生成器输出的各个生成数据对应的受控随机数据的相似程度，a 为常数。

作为本公开实施例一种可选的实施方式，所述根据待标注音视频数据和第一受控随机数据，获取第一生成数据之前，所述方法还包括：

根据多个样本音视频数据，确定所述目标类音视频数据的特征分布，所述多个样本音视频数据为所述目标类音视频数据；

根据所述目标类音视频数据的特征分布，确定所述第一受控随机数据。

第二方面，提供一种音视频数据的标注装置，其特征在于，包括：

生成模块，用于根据待标注音视频数据和第一受控随机数据，获取第一生成数据，所述第一受控随机数据为根据目标类音视频数据的特征分布生成的；

判别模块，用于确定所述第一生成数据对应的第一相似度参数和第二受控随机数据，所述第一相似度参数用于表征所述第一生成数据为所述目标类音视频数据的概率，所述第二受控随机数据为根据所述第一生成数据恢复的所述第一受控随机数据；

标注模块，用于在所述第一相似度参数大于或等于相似度阈值的情况下，确定所述第二受控随机数据为所述待标注音视频数据的特征参数，将所述待标注音视频数据标注为所述目标类音视频数据。

第三方面，提供一种电子设备，包括：控制器，用于：

作为本公开实施例一种可选的实施方式，所述控制器中内置有目标生成式对抗网络模型，所述目标生成式对抗网络模型包括生成器和判别器，所述生成器中包括编码器和解码器；

所述控制器，具体用于：

所述第一目标函数为：max[logD_fake+a*sum(logD_condition)]；

所述控制器，具体用于：

将所述第一生成数据输入所述判别器；

作为本公开实施例一种可选的实施方式，所述控制器，还用于：

所述根据待标注音视频数据和第一受控随机数据，获取第一生成数据之前，根据多个样本音视频数据，确定所述目标类音视频数据的特征分布，所述多个样本音视频数据为所述目标类音视频数据；

第四方面，提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的音视频数据的标注方法。

第五方面，提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式所述的音视频数据的标注方法。

第六方面，提供一种计算机程序产品，其特征在于，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现如第一方面或其任意一种可选的实施方式所述的音视频数据的标注方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：可以根据目标类音视频数据的特征分布确定第一受控随机数据，并将第一受控随机数据作为噪声与待标注音视频数据生成第一生成数据，这样在得到生成数据时，通过第一受控随机数据进行了约束，并且计算第一生成数据对应的第一相似度参数，以及基于第一受控随机数据进行音视频数据恢复后生成的第二受控随机数据，由于第一相似度参数用于表征第一生成数据为目标类音视频数据的概率，因此在第一相似度参数大于或等于相似度阈值的情况下，认为第一生成数据为目标类音视频数据，这样恢复出的第二受控随机数，就可以认为是待标注音视频数据的特征参数并且可以确定该待标注音视频数据为目标类音视频数据。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中获取及应用标注音视频数据的流程示意图；

图2为本公开实施例中一种获取及应用标注音视频数据的流程示意图；

图3为本公开实施例中一种GAN模型的架构示意图；

图4为本公开实施例中一种info GAN模型的架构示意图；

图5为本公开实施例中提供的目标生成式对抗网络模型的架构示意图；

图6A为本公开实施例中一种电子设备200的硬件配置框图；

图6B为本公开实施例中一种电子设备200的软件配置框图；

图7为本公开实施例中一种音视频数据的标注方法的流程示意图；

图8A为本公开实施例中一种获取第一受控随机数据的流程示意图；

图8B为本公开实施例中一种人声的频率范围的特征分布的示意图；

图9为本公开实施例中一种基于目标生成式对抗网络模型实现音视频数据的标注方法的流程示意图；

图10为本公开实施例中一种控制器的架构示意图；

图11为本公开实施例提供的一种音视频数据的标注装置的结构框图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

本公开中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一受控随机数据和第二受控随机数数据等是用于区别不同的受控随机数据，而不是用于描述受控随机数据的特定顺序。

神经网络可以指向两种，一中是生物神经网络，一种是人工神经网络(ArtificialNeural Networks，ANNs)。生物神经网络一般指生物的大脑神经元、细胞、触点等组成的神经网络，用于产生生物的意识，帮助生物进行思考和行动。人工神经网络也简称为神经网络(NNs)，或者，人工神经网络称作连接模型(Connection Model)，人工神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的，下面本公开实施例中所涉及的神经网络均为人工神经网络。

目前，人工神经网络可以被用于解决许多问题，人工神经网络是一种模拟动物人工神经网络行为特征，进行分布式并行信息处理的算法，人工神经网络通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。如果人工神经网络要发挥很好的性能，必须依赖大量的标注数据。大量的标注数据是保证人工神经网络性能的基石，因此获取标注数据成为通过人工神经网络实现人工智能的重中之重。要想实现人工智能，需要把人类的理解和判断教给计算机，标注数据就是让计算机能识别人类的语言的方法，具体是把需要计算机识别和分辨的音视频数据打上特征标签，让计算机不断的识别这些音视频数据，从而最终实现计算机能够自主识别。针对显示设备而言，通常需要将一些音频数据在某些特征上进行区分，去识别音频数据，从而实现某些功能(如显示相应字幕数据)。示例性的，针在显示设备显示时可能需要针对不同语种的人声进行区分(如区分应用人声和汉语人声)，如果没有标注数据，区分不同语种的人声很困难，因为在两种语言体系相似度较高时，可能会选择一些错误的特征进行分类，比如根据老人和小孩，男人和女人，说话声音的大小等进行分类，因为这些区别比两种语言发音之间的区别更大，更容易识别，因此也会有更大的概率成为分类的标准。由上述可见标注数据的获取十分重要，但是获取大量标注过的音视频数据通常很困难，目前进行音视频数据的标注过程中，如何根据分类的标准提取音视频数据对应的特征参数是亟需解决的问题。

示例性的，如图1所示，为相关技术中获取及应用标注音视频数据的流程示意图，在获取到待标注音视频数据后，先通过人工标注方式标注待标注音视频数据，得到标注数据，然后将标注数据作为训练样本，输入人工神经网络对人工神经网络进行训练。

由于上述标注数据(标注音视频数据)是通过对音视频数据进行人工标注得到的，这样就需要大量的人工成本，并且在需要获取的人工标注音视频数据很多时，人工标注得到标注音视频数据的耗时也会非常长。为了解决上述问题，本公开实施例提供了一种音视频数据的标注方法、装置及电子设备。示例性的，如图2 所示，为本公开实施例中一种获取及应用标注音视频数据的流程示意图，本公开实施例中通过目标生成式对抗网络可以自动提取待标注音视频数据对应的特征参数，并确定待标注音视频数据标注为目标类音视频数据，得到标注数据，并将该标注数据作为人工神经网络的训练样本。本公开实施例中所涉及到的音视频数据可以为音频数据，和/或，视频数据。

本公开实施例中，可以通过输入的第一受控随机数据，得到第一生成数据，并且在生成数据被判别为真实数据时，可以将通过第一生成数据去恢复第一受控随时数据的第二受控随时数据作为待标注音视频数据的特征参数，并确定待标注音视频数据为与第一受控随机数据所表征的目标类音视频数据，相同类型的数据。如此就可以在获取标注音视频数据时可以无需进行人工操作就可以实现，大大降低了人工成本，提升了标注效率。

本公开实施例中，可以通过无监督学习的方式自动根据提取音视频数据对应的特征参数，并确定待标注音视频数据所述分类，无监督学习是当前人工神经网络的一个重要分支，无监督学习是当前人工神经网络的一个重要分支。无监督学习本质上是利用音视频数据的特征，将音视频数据按照一定的规则进行聚类。对于音频数据和视频数据来说，分类的最大的困难是如何根据分类的标准提取其对应的特征，因为对音频数据和视频数据的分类，往往不是直接利用信息本身的特征进行分类，而是加入了人类理解，例如，对音频数据和视频数据中的苹果和香蕉分类。尤其是在复杂的背景下，对音频数据和视频数据分类变得更为困难。

本公开实施例中，在无监督学习中的互信息生成式对抗网络(infoGAN)模型的基础上，改进得到了目标生成式对抗网络模型，通过该目标生成式对抗网络模型，实现自动提取音视频数据对应的特征参数。其中，infoGAN模型为基于生成式对抗网络(GenerativeAdversarial Networks，GAN)模型演进的一种模型。

GAN模型的数学理论指出，生成器(generator)和判别器(discriminator)的对抗学习。具体的，生成器尽可能生成满足正样本分布的假样本，而判别器则尽可能辨别出真假样本，在这个博弈过程中两种网络的性能都越来越好，从而实现对抗学习。GAN模型的目标其实是得到一个与真实数据(real data)分布一致的生成数据(fake data)分布。但是由于生成器的输入是一个连续的随机噪声z，并且没有任何约束，导致GAN将z(可以理解为不可压缩的噪声)的具体维度与输出的语义特征对应起来时，可解释性很差。也就是说，从表征学习的角度来看GAN 模型，会发现由于在生成器使用随机噪声z的时候没有加任何的限制，所以在以一种高度混合的方式使用z，z的任何一个维度都没有明显的表示一个特征，所以在数据生成过程中，我们无法得知什么样的噪声z可以用来生成怎样的结果，从一点程度上限制了我们对GAN的使用。

示例性的，如图3所示，为一种GAN模型的架构示意图，GAN模型中包括生成器和判别器，生成器输入一个随机噪声z之后会得到生成数据，该生成数据和真实数据输入判别器后，判别器确定生成数据是否为真实数据，输出判断结果，判断结果为真时表示生成数据为真实数据，判别结果为假时，表示生成数据不是真实数据。

而在infoGAN模型里面，把输入向量z分成了两部分，随机变量c和随机噪声z'。随机变量c可以理解为可解释的隐变量，而随机噪声z'可以理解为不可压缩的噪声，infoGAN模型希望通过约束c与输出信号的关系，使得c的维度对应输出信号的语义特征。以手写数字为例，这些语义特征可以包括：数字的笔画粗细，数字的倾斜度等。infoGAN模型通过互信息的方式来对c进行约束，也可以理解成自编码的过程。具体的操作是，判别器中还包括一个恢复网络Q，生成器的输出信号，会经过该恢复网络Q，看是否能够恢复得到c。该恢复网络Q的恢复过程其实可以看成一个自编码器(anto-encoder)的反过程。其余判别器与常规的GAN 模型是一样的。

示例性的，如图4所示，为一种infoGAN模型的架构示意图，该infoGAN模型中包括一个生成器和一个判别器，判别器中包括生成网络Q和判别网络D，随机变量c和随机噪声z'输入至生成器后，生成器会输出一个生成数据，该生成数据和真实数据输入至判别器，恢复网络Q根据生成数据恢复该随机变量c，判别网络 D则判别生成数据是否为真实数据。其中，在实际实现过程中，恢复网络Q和判别网络D会共享参数，两者只有最后一层是不一样的，恢复网络Q的是一个向量, 判别网络D输出的是一个标量。

如图5所示，为本公开实施例中提供的目标生成式对抗网络模型的架构示意图，该目标生成式对抗网络模型中判别器的架构与图4所示的infoGAN模型的架构示意图类似，但是生成器中架构有所不同，该生成器中包括编码器和解码器，并且本公开实施例中目标生成式对抗网络模型的输入信号与上述图4中infoGAN 模型的输入信号也不同。图5中，将待标注音视频数据输入至编码器，会得到编码后的待标注音视频数据，然后将该编码后的音视频数据和第一受控随时数据输入到解码器，得到第一生成数据，然后判别器将第一生成数据和真实数据进行比较，并输出第一相似度参数来判别第一生成数据的真或假，并且判别器还会通过第一生成数据来会恢复第一受控随机数据，得到第二受控随机数据，在第一相似度参数大于或等于相似度阈值的情况下，确定第二受控随机数据为待标注音视频数据的特征参数，将待标注音视频数据标注为目标类音视频数据。

本公开实施例提供的音视频数据的标注方法，可以基于电子设备，或者电子设备中的功能模块或者功能实体实现，

其中，电子设备可以为个人计算机(personal computer，PC)、服务器、手机、平板电脑、笔记本电脑、大型计算机等，本公开实施例对此不作具体限定。

示例性的，如图6A所示，为本公开实施例中一种电子设备200的硬件配置框图。如图6A所示电子设备200包括：调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源等。其中，控制器250包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG音视频数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250 所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，上述电子设备是具有显示功能的终端设备，例如电视机、手机、电脑、学习机等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制电子设备的工作和响应用户的操作。控制器250控制电子设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

输出接口(显示器260，和/或，音频输出接口270)，被配置为输出用户交互信息；

通信器220，用于与服务器400或其它设备进行通信。

在一些实施例中，控制器250可以实现自动提取待标注音频频数据的特征参数，并对待标注音视频数据进行标注。实现方式包括：根据待标注音视频数据和第一受控随机数据，获取第一生成数据，所述第一受控随机数据为根据目标类音视频数据的特征分布生成的；确定所述第一生成数据对应的第一相似度参数和第二受控随机数据，所述第一相似度参数用于表征所述第一生成数据为所述目标类音视频数据的概率，所述第二受控随机数据为根据所述第一生成数据恢复的所述第一受控随机数据；在所述第一相似度参数大于或等于相似度阈值的情况下，确定将所述第二受控随机数据为所述待标注音视频数据的特征参数，将所述待标注音视频数据标注为所述目标类音视频数据。

在一些实施例中，控制器250中内置有目标生成式对抗网络模型，该目标生成式对抗网络模型包括生成器和判别器，所述生成器中包括编码器和解码器；控制器250具体通过生成器和判别器实现提取待标注音频频数据的特征参数；

一些实施例中的实现方式包括：控制器250具体可以将所述待标注音视频数据输入所述编码器，生成编码后的所述待标注音视频数据；

将编码后的所述待标注音视频数据和所述第一受控随机数据，输入至所述解码器，获取所述第一生成数据。其中，上述生成器为根据第一目标函数进行训练后得到的；

所述第一目标函数为：max[logD_fake+a*sum(logD_condition)] (1)；

其中，在上述公式(1)中，D_fake为在所述判别器的输入信号为生成数据时，所述判别器输出的相似度参数为所述目标类音视频数据的概率；logD_condition为所述生成器输出的各个生成数据对应的受控随机数据的相似程度，a为常数。

一些实施例中的实现方式包括：控制器250具体可以将所述第一生成数据输入所述判别器；获取所述判别器输出的所述第一相似度参数和所述第二受控随机数据。

其中，上述判别器为根据第二目标函数进行训练后得到的；

所述第二目标函数为：

max[logD_real+log(1-D_fake)+a*sum(log(1-D_condition)] (2)；

其中，在上述公式(2)中，D_real为在所述判别器的输入信号为真实数据时，所述判别器输出的相似度参数为所述目标类音视频数据的概率；D_fake为在所述判别器的输入信号为生成数据时，所述判别器输出的相似度参数为所述目标类音视频数据的概率；log(1-D_condition)为所述生成器输出的各个生成数据对应的受控随机数据的相似程度，a为常数。

在一些实施例中，控制器250，还用于所述根据待标注音视频数据和第一受控随机数据，获取第一生成数据之前，根据多个样本音视频数据，确定所述目标类音视频数据的特征分布，所述多个样本音视频数据为所述目标类音视频数据；

如图6B所示，图6B为根据本申请一个或多个实施例的电子设备200中软件配置示意图，如图6B所示，将系统分为四层，从上至下分别为应用程序(Applications) 层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。本申请实施例提供的音视频数据的标注方法可以基于上述电子设备实现。

本公开实施例提供的音视频数据的标注方法，可以基于上述电子设备实现，该方法可以根据目标类音视频数据的特征分布确定第一受控随机数据，并将第一受控随机数据作为噪声与待标注音视频数据生成第一生成数据，并且计算第一生成数据对应的第一相似度参数，以及基于第一受控随机数据进行音视频数据恢复后生成的第二受控随机数据，由于第一相似度参数用于表征第一生成数据为目标类音视频数据的概率，因此在第一相似度参数大于或等于相似度阈值的情况下，认为第一生成数据为目标类音视频数据，这样恢复出的第二受控随机数，就可以认为是目标类音视频数据的特征参数，该方案可以基于目标类音视频数据的特征分布，实现自动提取出待标注音视频数据的特征参数，并将待标注音视频数据标注为目标类音视频数据。

为了更加详细的说明本方案，以下将以示例性的方式结合图7进行说明，可以理解的是，图7中所涉及的步骤在实际实现时可以包括更多的步骤，或者更少的步骤，并且这些步骤之间的顺序也可以不同，以能够实现本申请实施例中提供的音视频数据的标注方法为准。

如图7所示，为本公开实施例中一种音视频数据的标注方法的流程示意图一，该音视频数据的标注方法包括如下步骤S701至S704：

S701、根据待标注音视频数据和第一受控随机数据，获取第一生成数据。

本申请实施例提供的音视频数据的标注方法，可以应用于如图5所示的目标生成式对抗网络模型，目标生成式对抗网络模型包括生成器和判别器，该生成器中包括编码器和解码器。

上述S701中根据待标注音视频数据和第一受控随机数据，获取第一生成数据可以首先将待标注音视频数据和第一受控随机数据输入生成器；获取生成器输出的第一生成数据。

本公开实施例中，待标注音视频数据输入至目标生成式对抗网络模型的生成器中的编码器中，编码器会对该待标注音视频数据进行编码，得到编码信号并将编码信号输入至生成器中的解码器，解码器会基于第一受控随机数据对编码信号进行解码，以得到第一生成数据。

其中，上述第一受控随机数据为根据目标类音视频数据的特征分布生成的。

在一些实施例中，获取第一受控随机数据可以通过以下步骤实现：

A、获取少量样本音视频数据，并进行人工标注。

示例性的，如图8A所示，为本公开实施例中一种获取第一受控随机数据的流程示意图。可以从10万个样本中获取少量的样本音视频数据，例如，获取1千个样本音视频数据，并针对标注为同一类音视频数据(可以是目标类音视频数据) 的样本音视频数据输入到图8A中所示的分类器(classifer)中，得到针对该类音视频数据的特征分布函数，该特征分布函数用于表征目标类音视频数据的特征分布情况。

其中，上述样本可以为音视频数据的样本，音视频数据可以为音频数据，和/ 或，视频数据。针对这些少量样本标注音视频数据类型。

上述分类器，可以使用常规的全链接分类器。

B、人工标注后的样本音视频数据中获取标注为目标类音视频数据的样本音视频数据。

人工标注后的样本音视频数据可以全部是标注为目标类音视频数据的样本音视频数据，也可以有一部分是目标类音视频数据的样本音视频数据。

示例性的，针对图像数据而言，假设有1千个标注为苹果图像的样本音视频数据，所针对的苹果图像的特征是苹果的宽高比，那么分类器可以基于这1千个样本，生成苹果图像针对苹果的宽高比的特征分布，假设所针对的苹果图像的特征是苹果的颜色，那么分类器可以基于这1千个样本，生成苹果图像针对苹果的颜色的特征分布等。

示例性的，针对音频数据而言，假设针对人声的特性，例如有1千个标注为人声样本的音频数据，所针对的人声的特征是频率范围，那么分类器可以基于这1 千个样本，生成针对人声的频率范围的特征分布。如图8B所示，为一种人声的频率范围的特征分布的示意图，该特征分布呈现正态分布的形式，图8B中假设横轴代表频率范围f，纵轴代表概率P，那么可以从图8B中所示的曲线确定出，人声的频率范围处于f1到f2之间，其中处于f0的概率最大。

示例性的，针对音频数据而言，假设针对人声的特性，例如，所针对的人声的特征是元音的音素，可以根据元音的因素进行聚类，因为元音因素的频率分布一般都比较稳定，比较容易统计出其概率分布。这种情况下甚至可以利用现有的人声样本进行训练，提高效率。

示例性的，针对音频数据而言，假设针对人声的特性，也可以对语言的声调进行聚类，按照一声、二声、三声、四声和轻声，这五类音调分别进行概率分布的聚类，如果待标注声音在这5种音调上的概率都很低，那就说明是人声的可能性比较低。

C、将目标类音视频数据的样本输入至分类器，获取分类器输出的目标类音视频数据的特征分布函数。

D、从目标类音视频数据的特征分布函数中获取第一受控随机数据。

本公开实施例中，可以从目标类音视频数据的特征分布函数中取任意值，得到第一受控随机数据(Conditional Random data)。Conditional Random data可以用来标记音视频数据的属性特征，通常一个音视频数据会存在多个属性特征。

一个音视频数据中存在L个属性特征，记为：c1,c2,…cL；那么假设这L个属性特征是相互独立的，那么该一个音频视频数据的特征全局可以表示为：

在传统的infoGAN中，随机向量c一般采用符合正态分布的随机噪声，或者某个范围内的线性噪声。这样让每个c自动匹配图像或者信号的某一个特征，比如对于MNIST手写字符集，采用两个同样概率分布的随机向量c，一个会得到手写笔画的粗细，一个会得到字符旋转的方向。

其中，MNIST手写字符集是机器学习领域中非常经典的一个数据集，MNIST 手写字符集是一个入门级的计算机视觉数据集，它包含各种手写数字图片样本，每个样本都是一张28*28像素的灰度手写数字图片，每个像素点是一个0-255的整数。

本公开实施例中目标生成式对抗网络模型与传统infoGAN模型不同的是：传统infoGAN模型的目标是按一定的规则控制生成的数据，而本公开实施例中目标生成式对抗网络模型的目标是针对无标签的数据进行分类。infoGAN从随机向量中生成数据，随机向量是无特征的随机变量，而我们需要针对原始信号提取特征，生成受控的ConditionalRandom data(即上述步骤A至D中生成第一受控音视频数据的过程)。

对于复杂背景的图片信号或者音频信号而言，通常输入的随机向量c只能抓取整个信号的某些特征，因此如果想对信号中某个部分进行分类，还必须对该部分的特征进行分析，进而得出对应的特征参数的数据范围，这样就可以得到特征的概率分布。

例如，对于识别果树上的苹果，我们可以采用不同的Conditional Random data来标注不同的特征，可以从苹果的颜色范围、形状范围、大小范围等不同的特征给出其数据范围，这项工作需要对样本音视频数据进行分析，类似于一个弱标签的概念，但是由于针对数据标注来说，由于数据集的数量动辄在几万，几十万，上百万，甚至上千万的数量级，这使得标注工作变得极为费力。本公开实施例中的上述方法可以大大节省数据标注的时间。

示例性的，结合图8A和图5，如图9所示，为本公开实施例中一种基于目标生成式对抗网络模型实现音视频数据的标注方法的流程示意图，从图9中可以看出将基于图8A所确定的第一受控随机数据作为随机噪声输入到生成器中，并给予该第一受控随机数据针对生成器输入的待标注音视频数据进行处理。

基于图9所示的流程，可知在本公开实施例的电子设备200中的控制器250 中不仅会内置有目标生成式对抗网络模型，还会设置有分类器，示例性的，如图 10所示，为本公开实施例中一种控制器的架构示意图，该控制器中内置有目标生成式对抗网络模型和分类器，以实现本公开实施例提供的音视频数据的标注方法。

上述实施例中，可以基于少量的样本进行人工标注后，就可以利用分类器生成第一受控随机数据，并且基于该第一受控随机数据来处理待标注音视频数据最终确定出目标类音视频数据对应的特征参数，该方法通过少量的人工标注就可以实现自动提取出目标类音视频数据的特征参数。

本公开实施例中，目标生成式对抗网络模型中的生成器为根据第一目标函数进行训练后得到的，由于本公开实施例中将第一受控随机数据作为噪声输入到生成器中，因此本公开实施例中的第一目标函数在传统infoGAN模型的基础上进行了改进，该第一目标函数被优化为：

max[logD_fake+a*sum(logD_condition)] (1)；

其中，D_fake为在判别器的输入信号为生成数据时，判别器输出的相似度参数为目标类音视频数据的概率；logD_condition为生成器输出的各个生成数据对应的受控随机数据的相似程度，a为常数。在实际实现中，上述a可以根据经验值进行调试。

S702、确定第一生成数据对应的第一相似度参数和第二受控随机数据。

其中，第一相似度参数用于表征第一生成数据为目标类音视频数据的概率，第二受控随机数据为根据第一生成数据恢复的第一受控随机数据。

一些实施例中，确定第一生成数据对应的第一相似度参数和第二受控随机数据，包括：将第一生成数据输入判别器；获取判别器输出的第一相似度参数和第二受控随机数据。

示例性的，如图5所示，可以将第一生成数据输入到判别器中，判别器会判别该第一生成数据的判断结果为真或假(真/假)，若判别器判断出第一生成数据为真实数据，则输出的判断结果为真；若判别器判断出第一生成数据不是真实数据，则输出的判断结果为假，该判断结果可以为相似度参数，即第一生成数据与真实数据的相似度参数。可以基于该相似度参数的大小来得到结果为真/假。同时判别器中的恢复网络也可以同时输出基于第一生成数据恢复的第一受控随机数据时所得到的第二受控随机数据。

其中，上述目标生成式对抗网络模型中的判别器为根据第二目标函数进行训练后得到的。由于本公开实施例中将第一受控随机数据作为噪声输入到生成器中，因此本公开实施例中的第二目标函数在传统infoGAN模型的基础上也相应进行了改进，该第二目标函数被优化为：

max[logD_real+log(1-D_fake)+a*sum(log(1-D_condition)] (2)；

其中，D_real为在判别器的输入信号为真实数据时，判别器输出的相似度参数为目标类音视频数据的概率；D_fake为在判别器的输入信号为生成数据时，判别器输出的相似度参数为目标类音视频数据的概率；log(1-D_condition)为生成器输出的各个生成数据对应的受控随机数据的相似程度，a为常数。在实际实现中，上述a可以根据经验值进行调试。

S703、在第一相似度参数大于或等于相似度阈值的情况下，将第二受控随机数据确定为待标注音视频数据的特征参数。上述预设相似度阈值可以为设置的一个门限，在第一相似度参数大于或等于该门限时，说明第一生成数据被判别为是真实数据，此时就可以将第二受控随机数据确定为待标注音视频数据的特征参数；相应的，在第一相似度参数小于该门限时，说明第一生成数据被判别为是生成数据，此时第二受控随机数据不会被确定为待标注音视频数据的特征参数。

本公开实施例中，在获取第一相似度参数之后，先判断第一相似度参数是否大于或等于相似度阈值，在第一相似度参数大于或等于相似度阈值的情况下，认为第一生成数据为真实数据，将第二受控随机数据确定为待标注音视频数据的特征参数，正在判断出第一相似度参数小于相似度阈值的情况下，认为第一生成数据不是真实数据，将第二受控随机数据丢弃。

S704、将待标注音视频数据标注为目标类音视频数据。

由于第二受控随机数据为基于第一生成数据恢复第一受控随机数数据所得到的数据，那么第二受控随机数据所表示的数据类型与第一受控随机数据应该相同，那么在第一受控随机数据为目标类音视频数据的特征分布的情况下，第二受控随机数据也表示目标类音视频数据的特征分布，进一步的，由于在第一相似度参数大于或等于相似度阈值的情况下，将第二受控随机数据确定为待标注音视频数据的特征参数，那么就可以确定出待标注音视频数据为目标类音视频数据，此时可以将待标注音视频数据标注为目标类音视频数据。

本公开实施例提供的音视频数据的标注方法，可以根据目标类音视频数据的特征分布确定第一受控随机数据，并将第一受控随机数据作为噪声与待标注音视频数据生成第一生成数据，并且计算第一生成数据对应的第一相似度参数，以及基于第一受控随机数据进行音视频数据恢复后生成的第二受控随机数据，由于第一相似度参数用于表征第一生成数据为目标类音视频数据的概率，因此在第一相似度参数大于或等于相似度阈值的情况下，认为第一生成数据为目标类音视频数据，这样恢复出的第二受控随机数，就可以认为是待标注音视频数据的特征参数并且可以确定该待标注音视频数据为目标类音视频数据。如图11所示，为本公开实施例提供的一种音视频数据的标注装置的结构框图，该装置包括：

生成模块1101，用于根据待标注音视频数据和第一受控随机数据，获取第一生成数据，所述第一受控随机数据为根据目标类音视频数据的特征分布生成的；

判别模块1102，用于确定所述第一生成数据对应的第一相似度参数和第二受控随机数据，所述第一相似度参数用于表征所述第一生成数据为所述目标类音视频数据的概率，所述第二受控随机数据为根据所述第一生成数据恢复的所述第一受控随机数据；

标注模块1103，用于在所述第一相似度参数大于或等于相似度阈值的情况下，确定所述第二受控随机数据为所述待标注音视频数据的特征参数，将所述待标注音视频数据标注为所述目标类音视频数据。

作为本公开实施例一种可选的实施方式，所述装置中内置有目标生成式对抗网络模型，所述目标生成式对抗网络模型包括生成器和判别器，所述生成器中包括编码器和解码器；

所述生成模块1101，具体用于：

所述第一目标函数为：max[logD_fake+a*sum(logD_condition)] (1)；

所述判别模块1102，具体用于：

将所述第一生成数据输入所述判别器；

所述第二目标函数为：

max[logD_real+log(1-D_fake)+a*sum(log(1-D_condition)] (2)；

作为本公开实施例一种可选的实施方式，如图11所示，该装置还包括：

确定模块1104，用于所述根据待标注音视频数据和第一受控随机数据，获取第一生成数据之前待标注音视频数据，根据多个样本音视频数据，确定所述目标类音视频数据的特征分布，所述多个样本音视频数据为所述目标类音视频数据；

上述音视频数据的标注装置可以实现与上述音视频数据的标注方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述音视频数据的标注方法。

本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述音视频数据的标注方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请提供一种计算机程序产品，其特征在于，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现上述音视频数据的标注方法。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种音视频数据的标注方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法应用于目标生成式对抗网络模型，所述目标生成式对抗网络模型包括生成器和判别器，所述生成器中包括编码器和解码器；

3.根据权利要求2所述的方法，其特征在于，所述生成器为根据第一目标函数进行训练后得到的；

所述第一目标函数为：max[logD_fake+a*sum(logD_condition)]；

4.根据权利要求1所述的电子设备，其特征在于，所述方法应用于目标生成式对抗网络模型，所述目标生成式对抗网络模型包括生成器和判别器，所述生成器中包括编码器和解码器；

所述控制器，具体用于：

将所述第一生成数据输入所述判别器；

5.根据权利要求4所述的电子设备，其特征在于，所述判别器为根据第二目标函数进行训练后得到的；

其中，D_real为在所述判别器的输入信号为真实数据时，所述判别器输出的相似度参数为所述目标类音视频数据的概率；D_fake为在所述判别器的输入信号为生成数据时，所述判别器输出的相似度参数为所述目标类音视频数据的概率；log(1-D_condition)为所述生成器输出的各个生成数据对应的受控随机数据的相似程度，a为常数。

6.根据权利要求1所述的电子设备，其特征在于，所述根据待标注音视频数据和第一受控随机数据，获取第一生成数据之前，所述方法还包括：

7.一种音视频数据的标注装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：控制器，用于：根据待标注音视频数据和第一受控随机数据，获取第一生成数据，所述第一受控随机数据为根据目标类音视频数据的特征分布生成的；

9.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的音视频数据的标注方法。

10.一种计算机程序产品，其特征在于，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现如权利要求1至6任一项所述的音视频数据的标注方法。