CN110875050A

CN110875050A - 用于真实场景的语音数据收集方法、装置、设备及介质

Info

Publication number: CN110875050A
Application number: CN202010052221.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shenzhen Yizhi Times Technology Co Ltd
Current assignee: Shenzhen Yizhi Times Technology Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-03-10
Anticipated expiration: 2040-01-17
Also published as: CN110875050B

Abstract

本发明适用于语音处理技术领域，提供了一种用于真实场景的语音数据收集方法、装置、设备及介质，该方法包括：通过对纯净语音数据集中的各音频进行拼接，得到第一拼接音频，并建立第一拼接音频的音频字典，对在预设的真实场景中播放的第一拼接音频进行录制，得到第一录制音频，对第一拼接音频和第一录制音频进行互相关计算，确定第一拼接音频和第一录制音频互相关性最大位置的采样点偏移，根据采样点偏移更新第一拼接音频和第一录制音频，得到第二拼接音频和第二录制音频，根据音频字典对第二拼接音频和第二录制音频进行拆分，生成纯净语音数据集以及带噪语音数据集，从而简化了纯净语音数据和带噪语音数据的收集过程，降低了收集成本。

Description

用于真实场景的语音数据收集方法、装置、设备及介质

技术领域

本发明属于语音处理技术领域，尤其涉及一种用于真实场景的语音数据收集方法、装置、设备及介质。

背景技术

语音增强是指语音信号被噪声干扰时对噪声进行抑制，从混合信号中提取有用的语音信号。语音增强的应用范围很广，例如日常通信，军事通信，人机交互等场景任务都需要语音增强技术来去除噪声的干扰，噪声包含平稳噪声和非平稳噪声，常见的平稳噪声例如高斯白噪声，电脑、风扇发出的声音等，常见的非平稳噪声例如汽车鸣笛，敲击，键盘声等。传统的单通道语音增强算法能够对平稳噪声进行有效抑制，对非平稳噪声抑制性能有待提高。近些年来，随着深度学习的发展，基于深度学习的语音增强算法通过大数据驱动，训练神经网络从带噪语音中估计出干净语音，不仅能够抑制平稳噪声，也能够有效的抑制非平稳噪声。

针对降噪后的音频，除了主观感受外，经常采用以下两种客观评分方式：语音感知质量评价算法（Perceptual Evaluation of Speech Quality，PESQ）和短时客观可懂度（Short-time objective intelligibility，STOI)。PESQ是一种使用客观数学模型来模拟主观评价的方法，得分范围在-0.5-4.5，越接近4.5代表增强后的语音越接近原始语音信号，降噪后的语音质量越高，反之得分越低降噪效果越差；STOI是目前最常用的语音可懂度估计器，用于客观评价语音增强系统的性能，STOI能够相当准确的预测噪声或处理过的语音在大范围声学场景中的可理解性，得分范围0-1，值越高，可懂度越高。采用以上两种评分方式均需要获得匹配数据集，即干净音频和对应带噪音频进行语音增强后的音频数据。

现有一些公开数据集仅仅只包含纯净语音数据，目前产生带噪语音通过对噪音数据和干净音频数据按照不同信噪比进行加性合成，得到的噪音大部分都是加性噪音，而实际场景下的噪音来源不一，环境复杂，为了能够更加客观对模型性能进行评估，需要收集特定场景下的匹配数据，而同时收集干净和带噪语音过程复杂，且成本很高。

发明内容

本发明的目的在于提供一种用于真实场景的语音数据收集方法、装置、设备及介质，旨在解决由于现有技术中在真实场景下收集语音数据过程复杂的问题。

一方面，本发明提供一种用于真实场景的语音数据收集方法，所述方法包括下述步骤：

对获取到的第一纯净语音数据集中的各音频进行预处理，得到第二纯净语音数据集；

将所述第二纯净语音数据集中的所有音频进行拼接，得到第一拼接音频，并建立所述第一拼接音频的音频字典；

对在预设的真实场景中播放的所述第一拼接音频进行录制，并对录制的音频进行所述预处理，得到第一录制音频；

对所述第一拼接音频和所述第一录制音频进行互相关计算，确定所述第一拼接音频和所述第一录制音频互相关性最大位置的采样点偏移；

根据所述采样点偏移更新所述第一拼接音频和所述第一录制音频，得到第二拼接音频和第二录制音频；

根据所述音频字典对所述第二拼接音频和所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集。

优选地，所述根据所述采样点偏移更新所述第一拼接音频和所述第一录制音频的步骤，包括：

根据所述采样点偏移将所述第一录制音频与所述第一拼接音频进行对齐；

计算对齐后的第一录制音频的音频长度与所述第一拼接音频的音频长度之间的最小值，得到目标音频长度；

根据所述目标音频长度更新所述对齐后的第一录制音频和所述第一拼接音频。

优选地，所述对在预设的真实场景中播放的所述第一拼接音频进行录制的步骤之前，包括：

获取所述真实场景中录音的增益系数；

所述根据所述音频字典对所述第二拼接音频和所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集的步骤之前，包括：

根据所述增益系数对所述第二拼接音频进行放大或缩小处理；或

根据所述增益系数对所述第二录制音频进行放大或缩小处理；

所述根据所述音频字典对所述第二拼接音频和所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集的步骤，包括：

根据所述音频字典对经放大或缩小处理后的所述第二拼接音频和所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集；或

根据所述音频字典对所述第二拼接音频和经放大或缩小处理后的所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集。

优选地，所述根据所述音频字典对所述第二拼接音频和所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集的步骤之后，包括：

对所述带噪语音数据集中的各带噪音频进行评分。

另一方面，本发明提供了一种用于真实场景的语音数据收集装置，所述装置包括：

纯净音频处理单元，用于对获取到的第一纯净语音数据集中的各音频进行预处理，得到第二纯净语音数据集；

音频拼接单元，用于将所述第二纯净语音数据集中的所有音频进行拼接，得到第一拼接音频，并建立所述第一拼接音频的音频字典；

音频录制单元，用于对在预设的真实场景中播放的所述第一拼接音频进行录制，并对录制的音频进行所述预处理，得到第一录制音频；

时移计算单元，用于对所述第一拼接音频和所述第一录制音频进行互相关计算，确定所述第一拼接音频和所述第一录制音频互相关性最大位置的采样点偏移；

音频更新单元，用于根据所述采样点偏移更新所述第一拼接音频和所述第一录制音频，得到第二拼接音频和第二录制音频；以及

音频拆分单元，用于根据所述音频字典对所述第二拼接音频和所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集。

优选地，所述音频更新单元还包括：

起点确定单元，用于根据所述采样点偏移将所述第一录制音频与所述第一拼接音频进行对齐；

长度确定单元，用于计算对齐后的第一录制音频的音频长度与所述第一拼接音频的音频长度之间的最小值，得到目标音频长度；以及

音频更新子单元，用于根据所述目标音频长度更新所述对齐后的第一录制音频和所述第一拼接音频。

优选地，所述装置还包括：

增益系数获取单元，用于获取所述真实场景中录音的增益系数；

第一增益处理单元，用于根据所述增益系数对所述第二拼接音频进行放大或缩小处理；或

第二增益处理单元，用于根据所述增益系数对所述第二录制音频进行放大或缩小处理；

所述音频拆分单元还包括：

第一音频拆分单元，用于根据所述音频字典对经放大或缩小处理后的所述第二拼接音频和所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集；或

第二音频拆分单元，用于根据所述音频字典对所述第二拼接音频和经放大或缩小处理后的所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集。

优选地，所述装置还包括：

评分单元，用于对所述带噪语音数据集中的各带噪音频进行评分。

另一方面，本发明还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明通过对纯净语音数据集中的各音频进行拼接，得到第一拼接音频，并建立第一拼接音频的音频字典，对在预设的真实场景中播放的第一拼接音频进行录制，得到第一录制音频，对第一拼接音频和第一录制音频进行互相关计算，确定第一拼接音频和第一录制音频互相关性最大位置的采样点偏移，根据采样点偏移更新第一拼接音频和第一录制音频，得到第二拼接音频和第二录制音频，根据音频字典对第二拼接音频和第二录制音频进行拆分，生成纯净语音数据集以及与纯净语音数据集匹配的带噪语音数据集，从而简化了纯净语音数据和带噪语音数据的收集过程，降低了收集成本。

附图说明

图1是本发明实施例一提供的用于真实场景的语音数据收集方法的实现流程图；

图2是本发明实施例一提供的根据增益系数对音频进行放大处理前后的音频对比图；

图3是本发明实施例二提供的用于真实场景的语音数据收集装置的结构示意图；

图4是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的用于真实场景的语音数据收集方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，对获取到的第一纯净语音数据集中的各音频进行预处理，得到第二纯净语音数据集。

本发明实施例适用于手机、平板、电脑等电子设备。该获取到的第一纯净语音数据集可以为从openslr上获取到的开源的数据集，例如，aishell数据集，该获取到的第一纯净语音数据集也可以为近场语音数据集，当然，该获取到的第一纯净语音数据集也可以为上述以外的语音数据集，在此不作限定。为了方便后续处理，对获取到的第一纯净语音数据集中的各音频进行预处理，具体地，可以将第一纯净语音数据集中的各音频按照预设的采样频率和采样位深进行处理，例如，按照采样频率率（sample rate）16KHz、采样位深（bitdepth）为16bit的方式进行处理，还可以将第一纯净语音数据集中的各音频进行格式转换，例如，将音频格式统一转换为wav格式，得到的第二纯净语音数据集中的各音频与上述预处理方式对应，例如，第二纯净语音数据集中的各音频为采样频率率（sample rate）16KHz、采样位深（bit depth）为16bit的单通道wav格式的音频文件。

在步骤S102中，将第二纯净语音数据集中的所有音频进行拼接，得到第一拼接音频，并建立第一拼接音频的音频字典。

在本发明实施例中，将第二纯净语音数据集中的所有音频进行拼接，即，将第二纯净语音数据集中的各音频首尾相连，得到第一拼接音频，在对音频进行拼接时，可以按照各音频的音频长度的大小顺序进行拼接，也可以按照各音频的标识（例如，文件名）进行拼接，在此不作限定。第一拼接音频的音频字典包含有第二纯净语音数据集中的各音频的音频标识（例如，文件名）、各音频在第一拼接音频中的起始位置（例如，起始采样点或时间戳），以及各音频的长度（例如，以采样点为单位或以时间戳为单位的长度）。

作为示例地，若第二纯净语音数据集中包含有100个音频（0.wav，1.wav,2.wav，......， 99.wav），默认按照文件名进行拼接，则将各音频按照各音频的文件名进行首尾相连（0.wav，1.wav, 2.wav，......， 99.wav），得到第一拼接音频，并建立第一拼接音频的音频字典，该音频字典为{{音频名称：0.wav ，起始采样点：103400，长度：20000}，……，{音频名称：99.wav ，起始采样点：10240000，长度：10000}}。

在步骤S103中，对在预设的真实场景中播放的第一拼接音频进行录制，并对录制的音频进行预处理，得到第一录制音频。

在本发明实施例中，为获取在真实场景（例如，办公环境或家庭环境）中第一拼接音频对应的带噪语音，在确定真实场景后，在该真实场景下播放该第一拼接音频并进行录制。该步骤中的预处理方式与步骤S101中的描述一致，在此不再赘述。

对在预设的真实场景中播放的第一拼接音频进行录制之前，优选地，获取真实场景中录音的增益系数，以便于后续的音频处理，从而保证了录制的带噪语音和干净音频具有相同的增益。考虑到即使对于同一段音频，采用的电子播放设备不同，录制麦克风与播放音响的距离不同都会影响最终录制音频的音量，因此，在固定好音响、麦克风的位置及增益后，播放测试音频，然后根据录音前的测试音频的增益和录音后的测试音频的增益计算出录制的增益系数。例如，录音前的测试音频的增益sign=[0.5，0.5，0.5，0.5，0.5]，经过录音后的测试音频的增益sign_record = [0.82，0.79，0.80，0.78，0.81]，则该真实场景下录制的增益系数A= mean(abs(sign_record)) / mean(abs(sign)) = 1.6, 其中mean表示求均值，abs表示求绝对值。

在步骤S104中，对第一拼接音频和第一录制音频进行互相关计算，确定第一拼接音频和第一录制音频互相关性最大位置的采样点偏移。

在本发明实施例中，在对第一拼接音频和第一录制音频进行互相关计算时，为便于说明，用x(t)表示第一拼接音频，用y(t)表示第一录制音频，互相关函数为R(t)的定义如公式（1）所示：

（1）

其中，

表示求互相关，

表示求复共轭。

互相关可以由线性卷积进行计算，如公式（2）所示：

（2）

其中，

表示乘积。

由公式（2）可知，R(t)最大时的位置即为第一拼接音频和第一录制音频互相关性最大位置，由此，可计算出R(t)取最大时第一拼接音频和第一录制音频的时移。

进一步地，结合公式（1）和公式（2），则有：

（3）

其中，

表示卷积。

在本实施例中，为便于说明和简化处理过程，x(t)的长度用M表示，x(t)的坐标轴用[0，M]表示，y(t)的长度用N表示，y(t)的坐标轴用[0，N]表示，则R(t)长度为M+N-1，对应R(t)的坐标轴为[-N, M]，由公式（3）可计算出R(t)取最大值时对应的采样点偏移。根据互相关函数的定义可知，采样点偏移可能大于零，也可能小于零。由于在录制音频存在时间上的先后顺序，即先打开录音开关，再播放第一拼接音频，即录制的音频时间要先于第一拼接音频的播放时间，因此，本实施例中的采样点偏移是大于零的整数。

在步骤S105中，根据采样点偏移更新第一拼接音频和第一录制音频，得到第二拼接音频和第二录制音频。

在本发明实施例中，在根据采样点偏移更新第一拼接音频和第一录制音频时，优选地，根据采样点偏移将第一录制音频与第一拼接音频进行对齐，计算对齐后的第一录制音频的音频长度与第一拼接音频的音频长度之间的最小值，得到目标音频长度，根据目标音频长度更新对齐后的第一录制音频和第一拼接音频，从而保证了第二拼接音频与第二录制音频起始位置和终止位置的一致性，降低了后续带噪音频生成过程中数据处理的复杂度。具体地，本实施例中x(t)、y(t)的起始采样点为坐标原点，相应地R(t)取最大值时对应的采样点偏移与R(t)取最大值时在y(t)中对应的采样点相同，为便于说明本实施例中用shift表示，在确定出shift之后，可以根据shift将第二录制音频与第二拼接音频进行对齐，在进行对齐时，可以从第shift个点开始取值并重新赋值以使第一拼接音频与第一录制音频具有相同的起点，重新赋值后（对齐）的第一录制音频用y_shift（t）表示，然后计算min_len = min{len(x)，len(y_shift)}，并令x_new = x[:min_len]， y_new = y_shift[:min_len]，其中，len(x)表示第一拼接音频的音频长度，len(y_shift)表示经对齐后的第一录制音频的音频长度，min_len表示len(x)和len(y_shift)之间的最小值，x_new表示第二拼接音频，即从坐标原点取min_len的长度对应的音频，y_new表示第二录制音频，即从对齐后的第一录制音频的坐标原点取min_len的长度对应的音频，以使第一拼接音频与第一录制音频具有相同的终点。

在这里需要说明的是，由于在录制音频时会存在时间上的先后顺序，通常是先播放完毕第一拼接音频，再关闭录音开关，即播放完毕时的音频时间要先于关闭录音开关的时间，该情况下第二拼接音频与第一拼接音频相同。但实际中也可能会在第一拼接音频播放完毕之前关闭录音开关，该情况下第二拼接音频与第一拼接音频不同，第二拼接音频的音频长度小于第一拼接音频的音频长度。

在步骤S106中，根据音频字典对第二拼接音频和第二录制音频进行拆分，生成第三纯净语音数据集，以及与第三纯净语音数据集匹配的带噪语音数据集。

在本发明实施例中，音频字典同样适用于第二拼接音频和第二录制音频，因此，根据音频字典对第二拼接音频进行拆分，生成第三纯净语音数据集，对第二录制音频进行拆分，生成与第三纯净语音数据集匹配的带噪语音数据集。

作为示例地，若根据音频字典中每个音频对应的起始采样点和长度对第二拼接音频和第二录制音频进行拆分，得到100个纯净音频（0.wav，1.wav，......，99.wav），和100个带噪音频（0.wav, 1.wav, ......, 99.wav），音频字典中的一项{音频名称：10.wav，起始点：103400，长度：20000}，则第三纯净语音数据集中的名称为10.wav的音频对应第二拼接音频中的音频片段x_new [103400:123400], 即，对应第二拼接音频中的音频片段的起始采样点为103400，终止采样点为123999，带噪语音数据集中的名称为10.wav的音频对应第二录制音频中的音频片段y_new[103400:123400]，即，对应第二录制音频中的音频片段的起始采样点为103400，终止采样点为123999。

在根据音频字典对第二拼接音频和第二录制音频进行拆分，生成第三纯净语音数据集，以及与第三纯净语音数据集匹配的带噪语音数据集的步骤之前，优选地，根据增益系数对第二拼接音频进行放大或缩小处理，根据音频字典对经放大或缩小处理后的第二拼接音频和第二录制音频进行拆分，生成第三纯净语音数据集，以及与第三纯净语音数据集匹配的带噪语音数据集，或者，根据增益系数对第二录制音频进行放大或缩小处理，根据音频字典对第二拼接音频和经放大或缩小处理后的第二录制音频进行拆分，生成第三纯净语音数据集，以及与第三纯净语音数据集匹配的带噪语音数据集，从而通过真实场景下的增益系数对第二拼接音频或第二录制音频进行处理，进而进一步提高了生成的带噪语音数据的匹配度。具体地，可以将第二拼接音频乘以增益系数，或者将第二录制音频除以增益系数，以使二者的增益匹配。

在根据音频字典对第二拼接音频和第二录制音频进行拆分，生成第三纯净语音数据集，以及与第三纯净语音数据集匹配的带噪语音数据集的步骤之后，优选地，对带噪语音数据集中的各带噪音频进行评分，以对该带噪语音的生成方法进行客观评价。具体地，可以通过语音感知质量评价算法和/或短时客观可懂度对带噪音频进行评价。PESQ或STOI评分对增益变化不敏感，结果如图2所示。图2为根据增益放大系数对音频进行放大处理前后的音频对比图，图2中的上图为纯净音频，图2中的下图为对纯净音频进行经放大处理（乘以增益系数）后的音频，其PESQ评分：4.49（最高分4.50），其STOI评分：1.00（最高分1.00）。

本发明实施例通过对纯净语音数据集中的各音频进行拼接，得到第一拼接音频，并建立第一拼接音频的音频字典，对在预设的真实场景中播放的第一拼接音频进行录制，得到第一录制音频，对第一拼接音频和第一录制音频进行互相关计算，确定第一拼接音频和第一录制音频互相关性最大位置的采样点偏移，根据采样点偏移更新第一拼接音频和第一录制音频，得到第二拼接音频和第二录制音频，根据音频字典对第二拼接音频和第二录制音频进行拆分，生成纯净语音数据集以及与纯净语音数据集匹配的带噪语音数据集，从而简化了纯净语音数据和带噪语音数据的收集过程，降低了收集成本。

实施例二：

图3示出了本发明实施例二提供的用于真实场景的语音数据收集装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

纯净音频处理单元31，用于对获取到的第一纯净语音数据集中的各音频进行预处理，得到第二纯净语音数据集；

音频拼接单元32，用于将第二纯净语音数据集中的所有音频进行拼接，得到第一拼接音频，并建立第一拼接音频的音频字典；

音频录制单元33，用于对在预设的真实场景中播放的第一拼接音频进行录制，并对录制的音频进行预处理，得到第一录制音频；

时移计算单元34，用于对第一拼接音频和第一录制音频进行互相关计算，确定第一拼接音频和第一录制音频互相关性最大位置的采样点偏移；

音频更新单元35，用于根据采样点偏移更新第一拼接音频和第一录制音频，得到第二拼接音频和第二录制音频；以及

音频拆分单元36，用于根据音频字典对第二拼接音频和第二录制音频进行拆分，生成第三纯净语音数据集，以及与第三纯净语音数据集匹配的带噪语音数据集。

优选地，该音频更新单元还包括：

起点确定单元，用于根据采样点偏移将第一录制音频与第一拼接音频进行对齐；

长度确定单元，用于计算对齐后的第一录制音频的音频长度与第一拼接音频的音频长度之间的最小值，得到目标音频长度；以及

音频更新子单元，用于根据目标音频长度更新对齐后的第一录制音频和第一拼接音频。

优选地，该装置还包括：

增益系数获取单元，用于获取真实场景中录音的增益系数；

第一增益处理单元，用于根据增益系数对第二拼接音频进行放大或缩小处理；或

第二增益处理单元，用于根据增益系数对第二录制音频进行放大或缩小处理；

该音频拆分单元还包括：

第一音频拆分单元，用于根据音频字典对经放大或缩小处理后的第二拼接音频和第二录制音频进行拆分，生成第三纯净语音数据集，以及与第三纯净语音数据集匹配的带噪语音数据集；或

第二音频拆分单元，用于根据音频字典对第二拼接音频和经放大或缩小处理后的第二录制音频进行拆分，生成第三纯净语音数据集，以及与第三纯净语音数据集匹配的带噪语音数据集。

优选地，该装置还包括：

评分单元，用于对带噪语音数据集中的各带噪音频进行评分。

在本发明实施例中，用于真实场景的语音数据收集装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。用于真实场景的语音数据收集装置的各单元的具体实施方式可参考前述方法实施例的描述，在此不再赘述。

实施例三：

图4示出了本发明实施例三提供的电子设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的电子设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述各方法实施例中的步骤，例如图1所示的步骤S101至S106。或者，处理器40执行计算机程序42时实现上述各装置实施例中各单元的功能，例如图3所示单元31至36的功能。

在本发明实施例中，通过对纯净语音数据集中的各音频进行拼接，得到第一拼接音频，并建立第一拼接音频的音频字典，对在预设的真实场景中播放的第一拼接音频进行录制，得到第一录制音频，对第一拼接音频和第一录制音频进行互相关计算，确定第一拼接音频和第一录制音频互相关性最大位置的采样点偏移，根据采样点偏移更新第一拼接音频和第一录制音频，得到第二拼接音频和第二录制音频，根据音频字典对第二拼接音频和第二录制音频进行拆分，生成纯净语音数据集以及与纯净语音数据集匹配的带噪语音数据集，从而简化了纯净语音数据和带噪语音数据的收集过程，降低了收集成本。

实施例四：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S106。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图3所示单元31至36的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于真实场景的语音数据收集方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，所述根据所述采样点偏移更新所述第一拼接音频和所述第一录制音频的步骤，包括：

3.如权利要求1所述的方法，其特征在于，

所述对在预设的真实场景中播放的所述第一拼接音频进行录制的步骤之前，包括：

获取所述真实场景中录音的增益系数；

4.如权利要求1所述的方法，其特征在于，所述根据所述音频字典对所述第二拼接音频和所述第二录制音频进行拆分，生成第三纯净语音数据集，以及与所述第三纯净语音数据集匹配的带噪语音数据集的步骤之后，包括：

对所述带噪语音数据集中的各带噪音频进行评分。

5.一种用于真实场景的语音数据收集装置，其特征在于，所述装置包括：

6.如权利要求5所述的装置，其特征在于，所述音频更新单元还包括：

7.如权利要求5所述的装置，其特征在于，

所述装置还包括：

所述音频拆分单元还包括：

8.如权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。