CN107481731B

CN107481731B - 一种语音数据增强方法及系统

Info

Publication number: CN107481731B
Application number: CN201710648063.1A
Authority: CN
Inventors: 李超; 宋辉; 李先刚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2021-01-22
Anticipated expiration: 2037-08-01
Also published as: CN107481731A

Abstract

本申请提供一种语音数据增强方法及系统，所述方法包括：估计远场环境下的冲激响应函数；利用所述冲激响应函数，对近场语音训练数据进行滤波处理；对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据。能够避免现有技术中录制远场语音训练数据需要花费大量的时间成本和经济成本的问题；减少获取远场语音训练数据的时间和经济成本。

Description

一种语音数据增强方法及系统

【技术领域】

本申请涉及人工智能领域，尤其涉及一种语音数据增强方法及系统。

【背景技术】

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。

随着人工智能的不断发展，语音交互作为最自然的交互方式日益推广，人们对于语音识别服务的需求越来越多，智能音箱，智能电视，智能冰箱，越来越多的智能产品出现在了大众消费品市场。这一批智能设备的登场将语音识别服务从进场逐渐迁移到了远场。目前，近场语音识别已经能够达到很高的识别率，但是远场语音识别，尤其是说话人距离麦克风3至5米的距离，由于噪声和/或混响等干扰因素的影响，识别率远远低于近场语音识别。远场识别性能之所以下降如此明显，是由于在远场场景下，语音信号幅度过低，噪声和/或混响等其他干扰因素凸显，而目前语音识别系统中的声学模型通常是由近场语音训练数据生成，识别数据和训练数据的不匹配导致远场语音识别率迅速下降。

因此，远场语音识别算法研究面临的第一个问题就是如何获得大量的数据。现在主要采用录制数据的方法来获得远场语音训练数据。为了开发语音识别服务，往往需要在不同的房间不同的环境里耗费大量的时间和人力录制大量的数据，才能保证算法的性能，而这需要花费大量的时间成本和经济成本，并浪费了大量的近场语音训练数据。

【发明内容】

本申请的多个方面提供一种语音数据增强方法及系统，用以减少获取远场语音数据的时间和经济成本。

本申请的一方面，提供一种语音数据增强方法，其特征在于，包括：

估计远场环境下的冲激响应函数；

利用所述冲激响应函数，对近场语音训练数据进行滤波处理；

对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，

所述估计远场环境下的冲激响应函数包括：

采集远场环境下的多路冲激响应函数；

将所述多路冲激响应函数进行合并，得到所述远场环境下的冲激响应函数。

所述采集远场环境下的多路冲激响应函数包括：

采集远场声源到不同位置的目标测试音箱之间的冲激响应函数。

所述利用所述冲激响应函数，对近场语音训练数据进行滤波处理包括：

对所述冲激响应函数和近场语音训练数据进行时域卷积运算或者频域相乘运算。

所述对滤波处理后得到的数据进行加噪处理包括：

选取噪声数据；

利用信噪比SNR分布函数，在所述滤波处理后得到的数据中叠加所述噪声数据。

本申请的另一方面，提供一种语音数据增强系统，其特征在于，包括：

冲激响应函数估计单元，用于估计远场环境下的冲激响应函数；

滤波单元，用于利用所述冲激响应函数，对近场语音训练数据进行滤波处理；

加噪单元，用于对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据。

所述冲激响应函数估计单元具体用于：

采集远场环境下的多路冲激响应函数；

冲激响应函数估计单元具体用于：

所述滤波单元，具体用于：

所述加噪单元包括：

噪声数据选取子单元，用于选取噪声数据；

加噪子单元，用于利用信噪比SNR分布函数，在所述滤波处理后得到的数据中叠加所述噪声数据。

本申请的另一方面，提供一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一上述的方法。

本申请的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现任一上述的方法。

由所述技术方案可知，采用本实施例提供的技术方案，能够避免现有技术中录制远场语音训练数据需要花费大量的时间成本和经济成本的问题；减少获取远场语音训练数据的时间和经济成本。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的语音数据增强方法的流程示意图；

图2为本发明一实施例提供的语音数据增强方法中对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据的流程示意图；

图3为本申请另一实施例提供的语音数据增强系统的结构示意图；

图4为本申请另一实施例提供的语音数据增强系统中加噪单元的结构示意图；

图5为适于用来实现本发明实施例的示例性计算机系统/服务器的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请一实施例提供的语音数据增强方法的流程图，如图1所示，包括以下步骤：

101、估计远场环境下的冲激响应函数；

102、利用所述冲激响应函数，对近场语音训练数据进行滤波处理；

103、对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据。

在本实施例的一种实施方式中，所述估计远场环境下的冲激响应函数包括：

采集远场环境下的多路冲激响应函数；将所述多路冲激响应函数进行合并，得到所述远场环境下的冲激响应函数。

例如，利用一个独立的高保真音箱A(不是目标测试音箱)来播放从0到16000Hz渐变的扫频信号作为远场声源，然后利用不同位置的目标测试音箱B来收集到这个扫频信号的录音，通过数字信号处理理论得到多路冲激响应函数。所述多路冲激响应函数能够模拟声源通过空间传输和/或房间反射等影响，到达目标测试音箱B时的最终结果。

在本实施例的一种实施方式中，远场声源和不同位置的目标测试音箱B的组合数量不少于50个；将多路冲激响应函数进行合并，如加权平均处理，得到远场环境下的冲激响应函数；所述远场环境下的冲激响应函数能够模拟远场环境的混响效应。

在本实施例的一种实施方式中，所述利用所述冲激响应函数，对近场语音训练数据进行滤波处理包括：

其中，由于近场语音识别的使用非常广泛，已经积累了很多的近场语音训练数据。因此，可以使用已有的近场语音训练数据。

所述近场语音训练数据为纯净的数据，即在安静环境下采集的语音识别训练数据。

可选的，在使用时，可以是使用已有的所有近场语音训练数据。或者，也可以是从已有的所有近场语音训练数据中进行筛选，选择出部分近场语音训练数据。具体的筛选准则可以预先设置，例如，随机选择或者满足预设准则的最优化方式选择。通过选择已有的所有数据或者选择部分数据，可以根据实际需求选择数据规模，满足不同的实际需求。

可以将合并冲激响应函数作为滤波器函数，利用远场环境下的冲激响应函数对所述近场语音训练数据进行滤波运算，例如时域卷积或者频域相乘运算，以模拟远场环境的混响效应的影响。

真实的远场环境中采集到的语音是含有大量噪声的，因此为了能够更好的模拟远场语音训练数据，需要对滤波处理后得到的数据进行加噪处理。

图2为本发明语音数据增强方法中对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据的流程图，如图2所示，所述对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据可以包括：

201、选取噪声数据。

例如，噪声数据的类型需要和具体的产品应用场景相集合，大部分音箱产品在室内使用，噪声主要是电视、电冰箱、抽油烟机、空调、洗衣机等设备的噪声。需要提前采集这些噪声并进行拼接处理，得到纯噪声段。

采集大量的实际应用场景中噪声环境下的噪声数据，所述噪声数据中不含语音段，即为非语音段；或截取所述噪声数据的非语音段。

从所有非语音段中预先筛选出持续时间超过预定阈值且平稳的非语音段。

将筛选出的非语音段拼接为纯噪声段。

在纯噪声段中随机截取与滤波处理后得到的数据的时长相等的噪声片段。

202、利用信噪比SNR分布函数，在所述滤波处理后得到的数据中叠加所述噪声数据。

创建噪声的信噪比SNR分布函数；例如，采用的类似瑞利分布的分布函数：

通过调整期望μ和标准差σ来得到更好符合预期的概率密度曲线；再将其离散化，例如SNR变化粒度是1dB，那么需要将每个1dB内的概率密度曲线做积分，得到每个dB的概率。

按照信噪比SNR将截取出的噪声片段与所述滤波处理后得到的数据进行信号叠加从而得到远场语音训练数据。

通过上述步骤所得到的远场语音训练数据既通过冲激响应函数的引入，模拟了远场混响效应，又通过加噪处理的引入，模拟了实际的噪声环境，而这两点，恰好是远场识别与近场识别的两个最重要的不同点。

在远场语音训练数据之后，还可以包括以下步骤：根据所述远场语音训练数据，训练远场声学模型；根据训练后的远场声学模型进行远场识别。

利用所述远场语音训练数据训练远场声学模型，所获得的远场声学模型，可以很好地学习混响和噪声这两个重要的远场效应，使得上述远场声学模型与待识别的语音信号更匹配，识别率也更高。此外，本实施例并没有真实录制大量的远场语音作为训练数据，虽然真实录制大量的远场语音作为训练数据是理论上最合理的训练方法，得到的模型也最匹配，但是这样做不仅浪费了大量的近场训练数据，而且要耗费大量的时间和人力来进行录制，成本极高。本实施例提供的远场语音识别方法利用已有的近场语音训练数据作为数据源，产生和近场语音同等规模的远场语音训练数据，既节省了大量的录音成本，又显著地改善了远场语音识别效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在所述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图3为本申请一实施例提供的语音数据增强系统的结构图，如图3所示，包括以下单元：

冲激响应函数估计单元31，用于估计远场环境下的冲激响应函数；

滤波单元32，用于利用所述冲激响应函数，对近场语音训练数据进行滤波处理；

加噪单元33，用于对滤波处理后得到的数据进行加噪处理，得到远场语音训练数据。

在本实施例的一种实施方式中，所述冲激响应函数估计单元31具体用于：

在本实施例的一种实施方式中，所述滤波单元具体用于：

图4为本发明语音数据增强系统中所述加噪单元的结构图，如图4所示，所述加噪单元可以包括：

噪声数据选取子单元41，用于选取噪声数据。

例如，噪声数据的类型需要和具体的产品应用的远场环境相适应，大部分智能设备在室内使用，噪声主要是电视、电冰箱、抽油烟机、空调、洗衣机等设备的噪声。

将筛选出的非语音段拼接为纯噪声段。

加噪子单元42，用于利用信噪比SNR分布函数，在所述滤波处理后得到的数据中叠加所述噪声数据。

远场语音训练数据既通过冲激响应函数的引入，模拟了远场混响效应，又通过加噪处理的引入，模拟了实际的噪声环境，而这两点，恰好是远场识别与近场识别的两个最重要的不同点。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图5显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图5中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音数据增强方法，其特征在于，包括：

估计远场环境下的冲激响应函数；

2.根据权利要求1所述的方法，其特征在于，所述估计远场环境下的冲激响应函数包括：

采集远场环境下的多路冲激响应函数；

3.根据权利要求2所述的方法，其特征在于，所述采集远场环境下的多路冲激响应函数包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述冲激响应函数，对近场语音训练数据进行滤波处理包括：

5.根据权利要求1所述的方法，其特征在于，所述对滤波处理后得到的数据进行加噪处理包括：

选取噪声数据；

6.一种语音数据增强系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述冲激响应函数估计单元具体用于：

采集远场环境下的多路冲激响应函数；

8.根据权利要求7所述的系统，其特征在于，所述冲激响应函数估计单元具体用于：

9.根据权利要求7所述的系统，其特征在于，所述滤波单元，具体用于：

10.根据权利要求6所述的系统，其特征在于，所述加噪单元包括：

噪声数据选取子单元，用于选取噪声数据；

11.一种语音数据增强设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。