CN110322882A

CN110322882A - 一种生成混合语音数据的方法及系统

Info

Publication number: CN110322882A
Application number: CN201910394160.1A
Authority: CN
Inventors: 康元勋; 方泽煌; 冯万健
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-10-11
Also published as: EP3739581A1; US11508397B2; US20200365174A1

Abstract

本发明公开了一种生成混合语音数据的方法及系统，属于语音识别技术领域。本发明的一种生成混合语音数据的方法，先采集纯净语音和噪声，再将采集的语音数据进行归一化处理，而后对处理后的数据进行随机化处理，再对数据进行GAIN处理，最后经过滤波器处理得到混合语音数据。本发明的一种生成混合语音数据的系统，包括采集单元、计算单元和存储单元，所述采集单元与计算单元电连接，计算单元通过数据传输单元与存储单元连接。本发明的目的在于克服现有技术中，深度学习所需的音频数据匮乏的不足，提供了一种生成混合语音数据的方法及系统，可以自动生成混合语音数据，可以满足深度学习的数据需求。

Description

一种生成混合语音数据的方法及系统

技术领域

本发明涉及语音识别技术领域，更具体地说，涉及一种生成混合语音数据的方法及系统。

背景技术

随着科学技术的发展，语音识别已经成为人工智能应用的一个重点，通过语音控制设备简单方便，在各个领域兴起了研究应用的热潮。数据、算法及芯片是语音识别技术的3个关键，大量优质的数据、精准快速的算法和高性能语音识别芯片是提升语音识别的核心。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面，语音识别是实现人机自由交互、推动人工智能发展的关键技术。

深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务。深度学习模型作为一种模拟人类大脑感知和学习外界信息的机器学习理论，将深度学习与语音识别技术相结合具有很大的研究价值和实用价值。

目前，深度学习在语音识别领域的应用在不断发展，但是在现有技术中深度学习所需的音频数据不足是较大的问题，传统方案通常是通过人工采集来收集数据，但是在实际过程中，通过人工采集的噪音很难覆盖到各个场景，人工采集周期长不利于研发，而且也提高了研发成本。综上所述，如何获取混合语音数据以满足深度学习的数据需求，是现有技术亟需解决的问题。

发明内容

1.要解决的问题

本发明的目的在于克服现有技术中，深度学习所需的音频数据匮乏的不足，提供了一种生成混合语音数据的方法及系统，可以生成批量的混合语音数据，从而可以满足深度学习的数据需求。

2.技术方案

为了解决上述问题，本发明所采用的技术方案如下：

本发明的一种生成混合语音数据的方法，先采集纯净语音和噪声，再将采集的语音数据进行归一化处理，而后对处理后的数据进行随机化处理，再对数据进行GAIN处理，最后经过滤波器处理得到混合语音数据。

更进一步地，具体步骤为：步骤一、原始数据采集，先采集纯净语音数据和噪声数据；步骤二、归一化处理，先将采集的语音数据转换成单通道数据，再对数据进行重采样，而后将数据与归一化系数相乘得到归一化处理后的数据；步骤三、随机化处理，将数据的文件序列进行随机处理；步骤四、GAIN处理，对纯净语音数据和噪声数据分别定义不同的GAIN值，其中，GAIN值的范围为0＜g＜1；步骤五、滤波器处理，通过滤波器对数据依次进行低通滤波处理、高通滤波处理和参数滤波处理，并得到混合语音数据。

更进一步地，步骤二中语音数据的双通道数据转为单通道数据的公式为：

Mono(x)＝mean(D₀(x)+D₁(x))

其中，Mono(x)表示单通道数据，D₀和D₁分别表示音频两个通道的数据，mean表示D₀和D₁的平均值。

更进一步地，步骤二中重采样的指定频率为8KHz或16KHz或44.1KHz，归一化系数的值为0.767。

更进一步地，步骤五中低通滤波的频率点为0.95f，高通滤波的频率点0.005f，其中，f为语音信号的最高频率。

更进一步地，参数滤波处理过程为：先设定滤波器分子系数向量和分母系数向量n，再对数据进行滤波处理；其中，分子系数向量的范围为-1＜m＜1，分母系数向量的范围为-1＜n＜1。

更进一步地，滤波器为IIR数字滤波器。

本发明的一种生成混合语音数据的系统，包括采集单元、计算单元和存储单元，采集单元与计算单元电连接，计算单元通过数据传输单元与存储单元连接；其中，计算单元包括处理器和存储器，存储器内存有程序，该程序用于实现上述的一种生成混合语音数据的方法，处理器用于执行程序生成混合语音数据。

更进一步地，采集单元包括声音采集器和信号转换器，声音采集器与信号转换器电连接，信号转换器与计算单元电连接。

3.有益效果

相比于现有技术，本发明的有益效果为：

本发明的一种生成混合语音数据的方法，通过对纯净语音和噪声进行处理，可以自动生成批量的混合语音数据，从而提高了数据的收集速度，进而可以满足深度学习的数据需求，能够使得深度学习模型进行充分训练，提高模型的收敛速度，进一步降低实例化测试中的错误率；本发明的一种生成混合语音数据的系统可以批量生成混合语音数据，可以应用于深度学习音频领域，满足深度学习模型的数据需求，进而可以提高深度学习模型的性能。

附图说明

图1为本发明一种生成混合语音数据的方法的流程示意图；

图2为实施例1纯语音数据示意图；

图3为实施例1噪音数据示意图；

图4为实施例1生成的混合语音数据示意图；

图5为本发明一种生成混合语音数据的系统结构示意图。

示意图中的标号说明：100、采集单元；200、计算单元；300、数据传输单元；400、存储单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；而且，各个实施例之间不是相对独立的，根据需要可以相互组合，从而达到更优的效果。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

结合图1所示，本发明的一种生成混合语音数据的方法，先采集纯净语音和噪声，再将采集的语音数据进行归一化处理，而后对处理后的数据进行随机化处理，再对数据进行GAIN处理，最后经过滤波器处理得到混合语音数据。具体步骤如下：

步骤一、原始数据采集

先采集纯净语音数据和噪声数据；本实施例中纯净语音是在消音室采集，纯净语音为底噪小、信噪比高的语音(如图2所示)。采集噪声通过实地采集和网络下载收集两种方式实行，值得说明的是，需要采集不同场景下的噪声，例如在办公室、街道和车站等场景进行噪声的采集(如图3所示)。

步骤二、归一化处理

先将采集的语音数据转换成单通道数据，再对数据进行重采样，而后将数据与归一化系数相乘得到归一化处理后的数据；具体地，通过以下公式将语音数据的双通道数据转为单通道数据：

Mono(x)＝mean(D₀(x)+D₁(x))

其中，Mono(x)表示单通道数据，x为输入的语音数据，D₀和D₁分别表示音频两个通道的数据，mean表示D₀和D₁的平均值。

对数据进行重采样过程为对于原数据采样频率高于指定频率的数据进行下采样，原数据采样频率低于指定频率的数据进行上采样，本发明中重采样的指定频率为8KHz或16KHz或44.1KHz，三种指定频率所带来的效果相同，都可以避免数据冲突和造成合成语音的异常情况；值得进一步说明的是，本发明的数据格式需要进行标准化设置，本发明的数据格式为int16、float32或者float64，本实施例中的数据格式为float32。

进一步地，将数据与归一化系数相乘得到归一化处理后的数据，本发明中归一化系数的值为0.767。

步骤三、随机化处理

对归一化处理后的数据的文件序列进行随机化处理，具体地，在采集噪声数据时，采集的数据为不同场景下的数据，而每一个场景数据均存为一个文件，因此随机打乱文件顺序，即可有不同场景组合下的混合场景生成，从而能够生成更多不同的混合场景。

步骤四、GAIN处理

对数据进行GAIN处理，GAIN指的是一个标量系数，具体地，对纯语音数据和噪声数据分别定义不同的GAIN值，其中，GAIN值的范围为0＜g＜1；纯语音数据和噪声数据分别在GAIN值范围内随机取一实数作为各自的gain值，每生成一个混合语音文件之后，都会重新再取gain值，从而可以模拟实际应用场景中可能出现的各个信噪比，进而可以增加数据的泛化性。

步骤五、滤波器处理

通过滤波器对数据依次进行低通滤波处理、高通滤波处理和参数滤波处理，具体地，低通滤波的频率点为0.95f，高通滤波的频率点0.005f，其中，f为语音信号的最高频率，最高频率为8kHz～44.1KHz，；参数滤波处理过程为：先设定滤波器分子系数向量和分母系数向量，再对数据进行滤波处理；其中，分子系数向量的范围为-1＜m＜1，分母系数向量的范围为-1＜n＜1，本实施例中分子系数向量为0.4，分母系数向量为0.6；滤波处理后的数据为混合语音数据(如图4所示)；本实施例的滤波器为IIR数字滤波器。

由于有限的数据集训练的模型往往泛化性不够，模型难以收敛，在语音降噪的实例化测试错误率较高；本发明的一种生成混合语音数据的方法，通过以上步骤能够随机生成大量的混合语音数据，生成的数据不仅还原度高而且场景覆盖面广；从而提高了数据的收集速度，进而可以满足深度学习的数据需求，能够使得深度学习模型进行充分训练，提高模型的收敛速度，进一步降低实例化测试中的错误率。

结合图5所示，本发明的一种生成混合语音数据的系统，包括采集单元100、计算单元200和存储单元400，采集单元100与计算单元200电连接，计算单元200通过数据传输单元300与存储单元400连接；具体地，采集单元100包括声音采集器和信号转换器，声音采集器与信号转换器电连接，信号转换器与计算单元200电连接。其中，声音采集器用于采集语音，信号转换器用于将环境中的声学信号转换成数字信号，本实施例中的声音采集器麦克风，信号转换器为ADC硬件芯片；计算单元200包括处理器和存储器，存储器内存有程序，该程序用于实现上述的一种生成混合语音数据的方法，处理器用于执行程序生成混合语音数据；本实施例的计算单元200为计算机；数据传输单元300用于传输数据，本实施例中数据传输单元300为传输数据的网络系统；存储单元400用于存储混合语音数据，本实施例的存储单元400通过数据传输单元300与计算单元200网络连接，可以快速的传输存储生成的混合语音数据。本发明的一种生成混合语音数据的系统可以批量生成混合语音数据，可以应用于深度学习音频领域，满足深度学习模型的数据需求，进而可以提高深度学习模型的性能。

在上文中结合具体的示例性实施例详细描述了本发明。但是，应当理解，可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的，而不是限制性的，如果存在任何这样的修改和变型，那么它们都将落入在此描述的本发明的范围内。此外，背景技术旨在为了说明本技术的研发现状和意义，并不旨在限制本发明或本申请和本发明的应用领域。

Claims

1.一种生成混合语音数据的方法，其特征在于，先采集纯净语音和噪声，再将采集的语音数据进行归一化处理，而后对处理后的数据进行随机化处理，再对数据进行GAIN处理，最后经过滤波器处理得到混合语音数据。

2.根据权利要求1所述的一种生成混合语音数据的方法，其特征在于，具体步骤为：

步骤一、原始数据采集

先采集纯净语音数据和噪声数据；

步骤二、归一化处理

先将采集的语音数据转换成单通道数据，再对数据进行重采样，而后将数据与归一化系数相乘得到归一化处理后的数据；

步骤三、随机化处理

将数据的文件序列进行随机处理；

步骤四、GAIN处理

对纯净语音数据和噪声数据分别定义不同的GAIN值，其中，GAIN值的范围为0＜g＜1；

步骤五、滤波器处理

通过滤波器对数据依次进行低通滤波处理、高通滤波处理和参数滤波处理，并得到混合语音数据。

3.根据权利要求2所述的一种生成混合语音数据的方法，其特征在于，步骤二中语音数据的双通道数据转为单通道数据的公式为：

Mono(x)＝mean(D₀(x)+D₁(x))

4.根据权利要求2所述的一种生成混合语音数据的方法，其特征在于，步骤二中重采样的指定频率为8KHz或16KHz或44.1KHz，归一化系数的值为0.767。

5.根据权利要求2所述的一种生成混合语音数据的方法，其特征在于，步骤五中低通滤波的频率点为0.95f，高通滤波的频率点0.005f，其中，f为语音信号的最高频率。

6.根据权利要求2所述的一种生成混合语音数据的方法，其特征在于，参数滤波处理过程为：先设定滤波器分子系数向量和分母系数向量n，再对数据进行滤波处理；其中，分子系数向量的范围为-1＜m＜1，分母系数向量的范围为-1＜n＜1。

7.根据权利要求1～6任一项所述的一种生成混合语音数据的方法，其特征在于，滤波器为IIR数字滤波器。

8.一种生成混合语音数据的系统，其特征在于，包括采集单元、计算单元和存储单元，所述采集单元与计算单元电连接，计算单元通过数据传输单元与存储单元连接；其中，计算单元包括处理器和存储器，所述存储器内存有程序，该程序用于实现权利要求1～7任一项所述的一种生成混合语音数据的方法，所述处理器用于执行程序生成混合语音数据。

9.根据权利要求8所述的一种生成混合语音数据的系统，其特征在于，采集单元包括声音采集器和信号转换器，声音采集器与信号转换器电连接，信号转换器与计算单元电连接。