CN112233667A

CN112233667A - 基于深度学习的同期声识别方法

Info

Publication number: CN112233667A
Application number: CN202011492040.4A
Authority: CN
Inventors: 陈锋; 温序铭; 罗明利; 杨瀚; 谢超平
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-01-15
Anticipated expiration: 2040-12-17
Also published as: CN112233667B

Abstract

本发明公开了基于深度学习的同期声识别方法，包括步骤：S1，获取新闻节目视频，利用视频转场将获取的新闻节目视频分割为多个片段，抽取音频，然后对音频打上同期声或非同期声的标记；S2，提取音频特征；S3，利用步骤S2中处理后的数据基于深度学习网络模型进行训练，并与预训练模型结合进行迁移学习训练，获得分类预测模型，作为同期声识别模型；S4，对同期声识别模型的结果进行融合输出等；本发明减小了同期声识别中的计算资源消耗，提高了可靠性和稳定性，提高了同期声识别质量和工作效率，增强了节目内容的感染力和节目制作效率等。

Description

基于深度学习的同期声识别方法

技术领域

本发明涉及广播电视新闻同期声识别领域，更为具体的，涉及基于深度学习的同期声识别方法。

背景技术

新闻节目中包含的声音可以概括为两大类，一种是采访声音或者环境声音称为同期声，另一种则是由主持人或者其他人为画面配的音、或者后期加入的声音特效，可以称之为非同期声。

近年来，随着广播电视新闻行业的快速发展，同期声的运用也越来越广泛。同期声在新闻节目中有着重要的地位，准确地区分同期声，利用同期声，可以加强新闻的现场感、真实感，让观众有身临其境的感觉。观众对电视节目的要求越来越高了，解说加画面的传统方式已经不再满足观众的需求了。事实证明，被采访者亲口说出来的事实远远比记者、主持人描述出来的更能打动人心，更能够诱发观众情感上的共鸣、佐证新闻内容的真实性。同期声片段在新闻节目制作中往往能够复用，准确智能地识别出同期声也能够帮助节目制作人员轻松地复用同期声片段，极大地提高工作效率。

目前，现有的同期声识别技术存在如下问题：计算资源消耗严重、可靠性和稳定性较差等。

发明内容

本发明的目的在于克服现有技术的不足，提供基于深度学习的同期声识别方法，减小了同期声识别中的计算资源消耗，提高了可靠性和稳定性，提高识别质量和工作效率，增强了节目内容的感染力和节目制作效率等。

本发明的目的是通过以下方案实现的：

基于深度学习的同期声识别方法，包括步骤：

S1，获取新闻节目视频，利用视频转场将获取的新闻节目视频分割为多个片段，抽取音频，然后对音频打上同期声或非同期声的标记；

S2，提取音频特征；

S3，利用步骤S2中处理后的数据基于深度学习网络模型进行训练，并与预训练模型结合进行迁移学习训练，获得分类预测模型，作为同期声识别模型；

S4，对同期声识别模型的结果进行融合输出。

进一步地，步骤S1中，找到视频镜头切换的地方，按照视频转场的入出点分割视频文件。

进一步地，步骤S1包括子步骤：

S11，对收集的新闻节目视频进行解码；

S12，对解码后的视频进行转场处理，找到视频镜头切换的地方，利用视觉画面的转场来进行分割；

S13，按照视频转场的入出点分割视频文件；

S14，抽取分割后的每个视频片段文件的音频信息形成音频wav文件；

S15，标注音频文件，在步骤S15中标注音频文件的方式包括：同期声标记为1，非同期声标记为0。

进一步地，步骤S2中，提取音频特征前首先将音频信号进行重采样到统一的采样率。

进一步地，步骤S2中，对重采样后的信号做加窗处理。

进一步地，步骤S2提取音频特征过程中，通过傅里叶变换将时域信号变换到频域信号处理，对变换后的频域信息利用Mel滤波处理，然后对输出能量进行对数操作。

进一步地，对数操作后进行组帧，组帧后数据作为深度学习网络模型的输入。

进一步地，步骤S2中，提取音频特征包括提取音频的log-mel spectrogram特征。

进一步地，步骤S3中利用VGGish作为预训练模型，然后在VGGish网络的后面接全连接层进行迁移学习训练，并与所述深度学习网络模型结合训练，获得二分类预测模型。

进一步地，利用所述二分类预测模型预测的结果融合处理，然后为输入的音频片段打上同期声或者非同期声的标签。

本发明的有益效果是：

本发明减小了同期声识别中的计算资源消耗，提高了可靠性和稳定性，提高识别质量和工作效率。具体的，利用深度学习强大的特征抽取能力，从现有大量的媒体资料库中获得大量的同期声和非同期声数据样本，并借助预训练模型，用较小的资源消耗训练出最优的模型，从而减小了计算资源消耗；对解码后的视频进行转场处理，直接找到视频镜头切换的地方，由于同期声的转换伴随着画面的转变，所以直接利用视觉画面的转场来进行分割，切割效率高，有益于减小计算资源消耗；将音频信号重采样到统一的采样率，使模型面对不同的输入能够适应，避免繁杂的计算，简化了计算过程，有益于减小计算资源消耗；对频谱信号加窗处理，减少这种信号频谱的泄露，数据更加完整可靠；通过利用傅里叶变换将时域信号变换到频域信号进行处理，同时利用Mel滤波，能够得到稳定的Mel声谱信息，使得信号更加符合人声听觉系统的感知，有益于提高识别质量和工作效率，增强了节目内容的感染力和节目制作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为从广播电视新闻节目视频到同期声识别的全流程图；

图2为训练数据准备流程图；

图3为模型训练流程图；

图4为 log-mel spectrogram特征提取过程；

图5为VGG网络结构示意图；

图5中，convolution+ReLU代表卷积层+修正线性激活层，max pooling代表最大池化层，fully connected+ReLU代表全连接层+修正线性激活层，softmax代表输出激励函数采用softmax。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

根据背景技术，同期声识别的问题本质上可以定性为一个声音的二分类问题。深度学习方法在视觉分类问题中已经得到了广泛应用并取得了巨大的成功。在视觉分类中，将不同类别的图像数据集输入神经网络中，由网络提取特征、在损失函数的约束下，不断地更新网络参数，学习到最优的分类模型。因此利用声音信号的特征，利用深度学习的方法获得一种同期声识别的方法，这对新闻节目制作，不论是节目内容的感染力还是节目制作的高效性都是十分有意义的。

如图1~5所示，基于深度学习的同期声识别方法，包括步骤：

S2，提取音频特征；

S4，对同期声识别模型的结果进行融合输出。

进一步地，步骤S1包括子步骤：

S11，对收集的新闻节目视频进行解码；

S13，按照视频转场的入出点分割视频文件；

进一步地，步骤S2中，对重采样后的信号做加窗处理。

在本发明的其他实施例中，提供了一种基于深度学习的同期声识别方法，图1表示从广播电视新闻节目到同期声识别的整个流程，该实施例方案包括以下步骤：新闻节目视频数据标注；同期声识别模型训练（包含音频特征提取）；模型预测结果融合输出。

上述实施例的方案中，新闻节目视频数据标注属于模型训练的前期准备工作，在由数据驱动的深度学习中，训练数据的准备尤为重要。数据准备的流程如图2所示，其中输入新闻节目素材是指从现实中收集的视音频一体的文件，为了保证数据的多样性，收集了来自中央台、体育台、地方新闻台的各种类型的新闻节目视频。具体步骤如下：

步骤1.1：首先对收集的节目视频进行解码。

步骤1.2：对视频进行转场处理，找到视频镜头切换的地方，因为同期声的转换伴随着画面的转变（如采访画面），所以利用视觉画面的转场来进行分割。

步骤1.3：按照视频转场的入出点分割视频文件。

步骤1.4：抽取每个视频片段文件的音频信息形成音频wav文件。

步骤1.5：人工标注音频文件，同期声标记为1，非同期声标记为0。

上述实施例方案中，用深度学习方法训练同期声识别模型，包括特征工程、网络设计与参数调优三大过程。如图3所示，详细介绍如下：

步骤2.1：log-mel spectrogram特征提取。特征的提取过程如图4，为了满足不同的输入适应不同的情况，首先将音频信号重采样到统一的采样率下，本发明实施例中统一处理为16kHZ的单声道音频信号，对输入信号

进行重采样处理：

=

其中，

代表重采样前的原始音频信号，

代表重采样后的音频信号，

代表重采样函数；

代表音频采样点的值；

本发明实施例中，如果原音频为双声道音频信号

，则进行均值处理：

]=

其中，

、

分别代表双声道音频的通道1和通道2的信号，

代表将双声道音频信号做均值处理，

]代表均值处理后的单声道音频信号。

截取完的信号往往是非周期性的，容易造成信号频谱“泄露”，为了减少这种信号频谱的“泄露”，本发明实施例中，做加窗处理，本发明实施例中，可以选取25毫秒的Hann窗，定义如下：

其中，N代表Hann窗的宽度（时间长度），0≤s≤N，

代表加窗后的值，s代表窗函数的横轴点。

频域信号和时域信号相比，频域信号更能用有限的参数对信号进行准确的描述，因此本发明实施例中通过采用傅里叶变换将时域信号变换到频域信号进行处理，为了使信号更符合人声听觉系统的感知，本发明实施例中将频谱信息经过Mel滤波处理，Mel标度与频率的关系为：

其中，f代表原始音频信号，log代表对数操作，Mel(f)代表Mel滤波后的音频信号。

本发明实施例中选取了一组64阶的Mel滤波器对频谱进行处理，然后对输出能量进行对数操作从而得到稳定的Mel声谱信息。然后是组帧操作，以固定时长0.96s作为一帧，作为深度学习网络模型的输入。

步骤2.2：深度学习往往需要大量的数据作为支持，然而实际生活中，由于数据来源的限制以及数据标注的繁琐和枯燥，导致本发明实施例中能够得到的带标签数据集是十分有限的，难以满足深度学习对数据量巨大的需求，因此本发明实施例中需要借助在大规模数据集上的预训练模型，通过模型微调来完成解决背景技术中提出的问题。本发明实施例中利用VGGish作为预训练模型，利用实施例中提取出的log-mel spectrogram特征经过 VGGish（embedding），得到形如

的特征表示，其中：

其中，

代表音频长度，

代表处理后的音频帧长。

步骤2.3：特征表示工程结束后就是网络的设计，考虑到要借助预训练模型的强大助力，本发明实施例的网络模型可以基于VGG网络，如图5所示，本发明实施例中在VGG网络的后面接设计全连接层，形式如下：

logits = slim.fully_connected(

fc, _NUM_CLASSES, activation_fn=None, scope='logits')

tf.sigmoid(logits, name='prediction')

本发明实施例采用交叉熵损失函数作为loss：

xent = tf.nn.sigmoid_cross_entropy_with_logits(

logits=logits, labels=labels, name='xent')

本发明实施例中，优化器使用Adam：

optimizer = tf.train.AdamOptimizer(

learning_rate=vggish_params.LEARNING_RATE,

epsilon=vggish_params.ADAM_EPSILON)

本发明实施例中，训练中进行了参数手动调优，最后各训练参数见表1。

表1 训练调优的参数值列表

模型预测结果融合输出是将模型预测的结果融合处理，然后为输入的音频片段打上同期声或者非同期声的标签。由于本发明实施例中输入的音频经过特征表征之后会以固定时长0.96s作为一帧输入模型，因此预测的时候同样会进行组帧操作，从而预测的结果是每一帧的结果，本发明实施例需要为音频片段打标签，因此需要对预测的结果做融合处理。

输入一段音频，模型的输出结果为：

假设结果中label为1的个数为rcot_1，置信度总和rcof_1，label为0的个数rcot_0，置信度总和为rcof_0。则融合后的结果表示为：

其中，

代表标签为0的片段个数，

代表标签为0的片段的置信度总和，

代表标签为1的片段个数，

代表标签为1的片段的置信度总和，代表融合后片段的标签值。

本发明实施例利用深度学习强大的特征抽取能力，从现有大量的媒体资料库中获得大量的同期声和非同期声数据样本，借助预训练模型，用较小的资源消耗训练出最优的模型，应用到同期声识别中，减小了计算资源消耗。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。

Claims

1.基于深度学习的同期声识别方法，其特征在于，包括步骤：

S2，提取音频特征；

S4，对同期声识别模型的结果进行融合输出。

2.根据权利要求1所述的基于深度学习的同期声识别方法，其特征在于，步骤S1中，找到视频镜头切换的地方，按照视频转场的入出点分割视频文件。

3.根据权利要求1或2所述的基于深度学习的同期声识别方法，其特征在于，步骤S1包括子步骤：

S11，对收集的新闻节目视频进行解码；

S13，按照视频转场的入出点分割视频文件；

4.根据权利要求1所述的基于深度学习的同期声识别方法，其特征在于，步骤S2中，提取音频特征前首先将音频信号进行重采样到统一的采样率。

5.根据权利要求4所述的基于深度学习的同期声识别方法，其特征在于，步骤S2中，对重采样后的信号做加窗处理。

6.根据权利要求1、4或5任一所述的基于深度学习的同期声识别方法，其特征在于，步骤S2提取音频特征过程中，通过傅里叶变换将时域信号变换到频域信号处理，对变换后的频域信息利用Mel滤波处理，然后对输出能量进行对数操作。

7.根据权利要求6所述的基于深度学习的同期声识别方法，其特征在于，对数操作后进行组帧，组帧后数据作为深度学习网络模型的输入。

8. 根据权利要求1所述的基于深度学习的同期声识别方法，其特征在于，步骤S2中，提取音频特征包括提取音频的log-mel spectrogram特征。

9.根据权利要求1或8所述的基于深度学习的同期声识别方法，其特征在于，步骤S3中利用VGGish作为预训练模型，然后在VGGish网络的后面接全连接层进行迁移学习训练，并与所述深度学习网络模型结合训练，获得二分类预测模型。

10.根据权利要求9所述的基于深度学习的同期声识别方法，其特征在于，利用所述二分类预测模型预测的结果融合处理，然后为输入的音频片段打上同期声或非同期声的标签。