CN110246512B

CN110246512B - 声音分离方法、装置及计算机可读存储介质

Info

Publication number: CN110246512B
Application number: CN201910466401.9A
Authority: CN
Inventors: 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2023-05-26
Anticipated expiration: 2039-05-30
Also published as: CN110246512A; WO2020237855A1

Abstract

本发明公开了一种声音分离方法，该方法包括：将原始音视频样本分割成多个音视频段，提取每个音视频段的视频流及音频流；确定每个音视频段的视频流中的人脸特征；利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征；将每个音视频段的人脸特征及音频特征进行结合，生成每个音视频段的视听特征；将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型；将所述目标音视频数据作为所述训练好的声音分离模型的输入，输出所述目标音视频数据中人的音频数据。本发明还提出一种声音分离装置以及一种计算机可读存储介质。本发明能实现声音与说话者的准确映射，显著提高语音分离的质量。

Description

声音分离方法、装置及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种声音分离方法、装置及计算机可读存储介质。

背景技术

现有业内或产品的缺陷或不足或问题：在嘈杂的室内环境中，比如在鸡尾酒会中，同时存在着许多不同的声源，人类听觉非常容易从嘈杂的环境中专注于某一声音，自动“屏蔽”掉其他声音，而目前已有的计算机言语识别的智能系统无法准确在嘈杂环境中识别目标语句，无法加强选中人的语音，同时减弱同一时间其他人的音量，现有的系统未能解决“鸡尾酒会效应”。

发明内容

本发明提供一种声音分离方法、装置及计算机可读存储介质，其主要目的在于实现将目标声音从混杂声音中分离出来，实现了特定目标人的语音增强，同时削弱了其他杂音。

为实现上述目的，本发明还提供一种声音分离方法，所述方法包括：

获取原始音视频样本；

将原始音视频样本分割成多个音视频段，提取每个音视频段的视频流及音频流；

确定每个音视频段的视频流中的人脸特征；

利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征；

通过连接学习将每个音视频段的人脸特征及音频特征进行结合，生成每个音视频段的视听特征；

将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型；

获取目标音视频数据；

将所述目标音视频数据作为所述训练好的声音分离模型的输入，输出所述目标音视频数据中人的音频数据。

优选地，所述确定每个音视频段的视频流中的人脸特征包括：

将每个音视频段的视频流输入到人脸检测器中；

利用所述人脸检测器，在每个音视频段的视频流中的每帧中查找人脸图像；

使用人脸特征提取网络模型，从检测到的人脸图像中提取人脸特征作为每个音视频段的视频流中的人脸特征。

优选地，所述人脸特征提取网络模型为扩张卷积神经网络结构，所述人脸特征提取网络模型包括：卷积层、降采样层、全链接层，每一层有多个特征图。

优选地，所述利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征包括：

将每个音视频段的音频流中的时间和频率参数输入到短时傅里叶变换模型，得到变换后的信号

对变换后的信号执行幂律压缩，生成每个音视频段的音频流中噪声信号和纯净参考信号；

将每个音视频段的音频流中噪声信号和纯净参考信号输入至训练好的音频特征提取模型中，并输出每个音视频段的音频流中的音频特征。

优选地，所述将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型包括：

基于每个音视频段的视听特征，利用LSTM网络及三层全链接网络训练所述声音分离模型。

优选地，所述基于每个音视频段的视听特征，利用LSTM网络及三层全链接网络训练所述声音分离模型包括：

获取第一预设数量的训练数据；

将所述第一预设数量的训练数据依次输入所述声音分离模型，利用LSTM网络及三层全链接网络训练所述声音分离模型，并利用第二预设数量的训练数据校验训练后的声音分离模型；

利用第二预设数量的训练数据校验训练后的声音分离模型，若训练后的声音分离模型的识别准确率大于或等于预设阈值，则训练完成；

若训练后的声音分离模型的识别准确率小于预设阈值，则发出提醒信息，提醒用户增加样本数量重新训练所述声音分离模型。

为了实现上述目的，本发明还提供一种声音分离装置，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的声音分离程序，所述声音分离程序被所述处理器执行时实现如下步骤：

获取原始音视频样本；

确定每个音视频段的视频流中的人脸特征；

获取目标音视频数据；

将每个音视频段的视频流输入到人脸检测器中；

使用人脸特征提取网络模型从检测到的人脸图像中提取人脸特征作为每个音视频段的视频流中的人脸特征。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有声音分离程序，所述声音分离程序可被一个或者多个处理器执行，以实现如上所述的声音分离方法的步骤。

本发明获取原始音视频样本；将原始音视频样本分割成多个音视频段，提取每个音视频段的视频流及音频流；确定每个音视频段的视频流中的人脸特征；利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征；通过连接学习将每个音视频段的人脸特征及音频特征进行结合，生成每个音视频段的视听特征；将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型；获取目标音视频数据；将所述目标音视频数据作为所述训练好的声音分离模型的输入，输出所述目标音视频数据中人的音频数据。本发明结合听视觉信号来分离输入视频中的语音，实现了声音与说话者的准确映射，显著提高语音分离的质量，净化了可视化图像分离出的音轨；并通过深度学习，将目标声音从混杂声音中分离出来，生成纯净的视频，实现了特定目标人的语音增强，同时削弱了其他杂音。

附图说明

图1为本发明一实施例提供的声音分离方法的流程示意图；

图2为本发明一实施例提供的声音分离装置的内部结构示意图；

图3为本发明一实施例提供的声音分离装置中声音分离程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种声音分离方法。参照图1所示，为本发明一实施例提供的声音分离方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，声音分离方法包括：

S10、获取原始音视频样本。

在本实施例中，所述原始音视频样本包括多个应用场景的音视频。例如获取会议室的历史音视频文件，从中选择大约10000个小时的音视频数据。

S11、将原始音视频样本分割成多个音视频段，提取每个音视频段的视频流及音频流。

由于音视频文件往往很大，这对数据的导入、处理、分析等操作造成效率低下、无法处理、分析等问题，为了能高效正常处理数据，本发明将原始音视频文件分割成预设大小的音视频段。将所述音视频数据切成预设大小，如大约3秒到10秒时长，的多个片段，其中，每秒包括大概25帧静态图像，。

S12、确定每个音视频段的视频流中的人脸特征。

在本实施例中，所述确定每个音视频段的视频流中的人脸特征包括：

将每个音视频段的视频流输入到人脸检测器中；

具体地，所述人脸检测器模型的训练数据可以来自一个考勤系统中的人脸数据。在一具体实现中本发明利用大量的人脸数据训练所述人脸识别模型，该人脸识别模型随数据的不断更新训练，可以得到较好的人脸识别效果。本案中基于该人脸识别模型从所述视频片段中提取检测到的人脸图像，并丢弃人脸图像间无关的变化，如由光照原因造成的变化等。

具体地，所述人脸特征提取网络模型为扩张卷积神经网络结构，所述人脸特征提取网络模型包括：卷积层、降采样层、全链接层，每一层有多个特征图。其中卷积层通过卷积运算，使原信号特征增强，同时降低噪音。降采样层根据人脸图像局部相关性的原理，对人脸图像进行子采样可以减少计算量，同时保持人脸图像旋转不变形。全链接层：采用损失函数全连接，得到的激活值即扩张卷积神经网络提取的人脸特征。

S13、利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征。

在本实施例中，所述利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征包括：

通过上述实施例，将音频的时间和频率参数传入到短时傅里叶变换模型，同时执行幂律压缩，将声音进行分离，生成噪声信号和纯净参考信号数据集，并使用扩张卷积神经网络提取音频特征，从而保证训练数据的准确性，更好的训练模型。

S14、通过连接学习将每个音视频段的人脸特征及音频特征进行结合，生成每个音视频段的视听特征。

在本实施例中，每个音视频段的人脸特征对应每个音视频段的音频特征，从而实现人脸特征与音频特征的映射集，从而更好的训练模型。

S15、将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型。

在本实施例中，所述将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型包括：

具体地，所述基于每个音视频段的视听特征，利用LSTM网络及三层全链接网络训练所述声音分离模型包括：

获取第一预设数量的训练数据；

S16、获取目标音视频数据。

在本实施例中，获取目标原始音视频数据，按照类似于对训练样本的处理步骤得到所述目标原始音视频数据中每个音视频段的人脸特征及音频特征，作为所述目标音视频数据。

S17、将所述目标音视频数据作为所述训练好的声音分离模型的输入，输出所述目标音视频数据中人的音频数据。

本发明还提供一种声音分离装置。参照图2所示，为本发明一实施例提供的声音分离装置的内部结构示意图。

在本实施例中，声音分离装置1可以是个人电脑(Personal Computer，PC)，也可以是智能手机、平板电脑、便携计算机等终端设备。该声音分离装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是声音分离装置1的内部存储单元，例如该声音分离装置1的硬盘。存储器11在另一些实施例中也可以是声音分离装置1的外部存储设备，例如声音分离装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括声音分离装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于声音分离装置1的应用软件及各类数据，例如声音分离程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行声音分离程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在声音分离装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及声音分离程序01的声音分离装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对声音分离装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有声音分离程序01；处理器12执行存储器11中存储的声音分离程序01时实现如下步骤：

获取原始音视频样本。

将原始音视频样本分割成多个音视频段，提取每个音视频段的视频流及音频流。

确定每个音视频段的视频流中的人脸特征。

将每个音视频段的视频流输入到人脸检测器中；

利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征。

通过连接学习将每个音视频段的人脸特征及音频特征进行结合，生成每个音视频段的视听特征。

将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型。

获取第一预设数量的训练数据；

获取目标音视频数据。

可选地，在其他实施例中，声音分离程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述声音分离程序在声音分离装置中的执行过程。

例如，参照图3所示，为本发明声音分离装置一实施例中的声音分离程序的程序模块示意图，该实施例中，声音分离程序可以被分割为获取模块10、提取模块20、确定模块30、生成模块40、训练模块50及输出模块60，示例性地：

获取模块10获取原始音视频样本；

提取模块20将原始音视频样本分割成多个音视频段，提取每个音视频段的视频流及音频流；

确定模块30确定每个音视频段的视频流中的人脸特征；

所述获取模块10利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征；

生成模块40通过连接学习将每个音视频段的人脸特征及音频特征进行结合，生成每个音视频段的视听特征；

训练模块50将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型；

所述获取模块10获取目标音视频数据；

输出模块60将所述目标音视频数据作为所述训练好的声音分离模型的输入，输出所述目标音视频数据中人的音频数据。

上述获取模块10、提取模块20、确定模块30、生成模块40、训练模块50及输出模块60等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有声音分离程序，所述声音分离程序可被一个或多个处理器执行，以实现如下操作：

获取原始音视频样本；

确定每个音视频段的视频流中的人脸特征；

获取目标音视频数据；

本发明计算机可读存储介质具体实施方式与上述声音分离装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声音分离方法，其特征在于，所述方法包括：

获取原始音视频样本；

确定每个音视频段的视频流中的人脸特征；

获取目标音视频数据；

2.如权利要求1所述的声音分离方法，其特征在于，所述确定每个音视频段的视频流中的人脸特征包括：

将每个音视频段的视频流输入到人脸检测器中；

3.如权利要求2所述的声音分离方法，其特征在于，所述人脸特征提取网络模型为扩张卷积神经网络结构，所述人脸特征提取网络模型包括：卷积层、降采样层、全链接层，每一层有多个特征图。

4.如权利要求1所述的声音分离方法，其特征在于，所述利用音频变换压缩方法，获取每个音视频段的音频流中的音频特征包括：

将每个音视频段的音频流中的时间和频率参数输入到短时傅里叶变换模型，得到变换后的信号；

5.如权利要求1所述的声音分离方法，其特征在于，所述将每个音视频段的视听特征作为声音分离模型的输入，对所述声音分离模型进行训练，得到训练好的声音分离模型包括：

6.如权利要求5所述的声音分离方法，其特征在于，所述基于每个音视频段的视听特征，利用LSTM网络及三层全链接网络训练所述声音分离模型包括：

获取第一预设数量的训练数据；

7.一种声音分离装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的声音分离程序，所述声音分离程序被所述处理器执行时实现如下步骤：

获取原始音视频样本；

确定每个音视频段的视频流中的人脸特征；

获取目标音视频数据；

8.如权利要求7所述的声音分离装置，其特征在于，所述确定每个音视频段的视频流中的人脸特征包括：

将每个音视频段的视频流输入到人脸检测器中；

9.如权利要求8所述的声音分离装置，其特征在于，所述人脸特征提取网络模型为扩张卷积神经网络结构，所述人脸特征提取网络模型包括：卷积层、降采样层、全链接层，每一层有多个特征图。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有声音分离程序，所述声音分离程序可被一个或者多个处理器执行，以实现如权利要求1至6中任一项所述的声音分离方法。