CN109658935A

CN109658935A - 多通道带噪语音的生成方法及系统

Info

Publication number: CN109658935A
Application number: CN201811640799.5A
Authority: CN
Inventors: 孙海涛
Original assignee: AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-19
Anticipated expiration: 2038-12-29
Also published as: CN109658935B

Abstract

本发明实施例提供一种多通道带噪语音的生成方法。该方法包括：接收用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；对各音频计算各预设场景内的混响，与各音频根据远场衰减后的直达音频叠加，确定混响环境下的远场单通道纯语音音频集合；根据采集噪音的第二录音设备的相位延迟函数，将远场单通道纯语音音频集合模拟为第二录音设备录制的远场多通道纯语音音频集合；对其进行混音处理，批量生成远场多通道带噪语音音频。本发明实施例还提供一种多通道带噪语音的生成系统。本发明实施例对普通设备录制的音频适配调整，降低了唤醒词训练中对录音设备配置需求，人员无需到录音现场录音，提高了多通道带噪语音的收集效率。

Description

多通道带噪语音的生成方法及系统

技术领域

本发明涉及唤醒词定制领域，尤其涉及一种多通道带噪语音的生成方法及系统。

背景技术

唤醒词定制需要获取大量的带噪语音音频，需要把录音设备放置在噪声环境中，同时需要人员在一定距离说出唤醒词，通过录音设备录制多通道的带噪语音数据。

改进版的唤醒词定制中，首先需要在录音设备旁边放置环境噪声源，录音设备录制纯噪声的多通道音频数据，然后再录制安静环境下的人员在一定距离说出的唤醒词，作为多通道纯语音数据，最后，将纯噪声的多通道音频数据和多通道纯语音数据按照一定方式进行混音，得到多通道带噪语音数据。

传统唤醒词定制同时录制人声和噪声，人员需要在不同噪声场景进行多次录制。而改进版唤醒词定制可分开录制人声和噪声，且噪声和人声通过混音而得到多通道带噪语音，人员只需要在安静场景进行一次录制，即可得到人员在不同噪声场景下的带噪语音。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

对特定设备的唤醒词定制通常需要上百数量的录音人数，一般的唤醒词定制项目要求带噪语音在较短的时间内收集完毕，由于带噪语音的音质、参数等需求，需要人员到达录音现场进行集中录音，由于特定的录音设备数量有限，使得数据收集周期较长，同时组织大量人员也较为麻烦。

发明内容

为了至少解决现有技术中由于训练唤醒词的带噪语音有一定音质、参数的需求，只能让大量的录音人员统一到特定的录音现场中进行录制，使得带噪语音收集的效率较低，收集周期较长，使得唤醒词训练效率较低的问题。

第一方面，本发明实施例提供一种多通道带噪语音的生成方法，包括：

接收至少一个用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；

对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响，并与所述近场单通道纯语音音频集合内各音频根据远场衰减后的直达音频进行叠加，确定混响环境下的远场单通道纯语音音频集合；

根据用于采集噪音的第二录音设备内的各麦克风之间的相位延迟函数，将所述远场单通道纯语音音频集合模拟为所述第二录音设备录制的远场多通道纯语音音频集合；

将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理，批量生成远场多通道带噪语音音频。

第二方面，本发明实施例提供一种多通道带噪语音的生成系统，包括：

近场单通道纯语音接收程序模块，用于接收至少一个用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；

远场单通道纯语音确定程序模块，用于对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响，并与所述近场单通道纯语音音频集合内各音频根据远场衰减后的直达音频进行叠加，确定混响环境下的远场单通道纯语音音频集合；

远场多通道纯语音模拟程序模块，用于根据用于采集噪音的第二录音设备内的各麦克风之间的相位延迟函数，将所述远场单通道纯语音音频集合模拟为所述第二录音设备录制的远场多通道纯语音音频集合；

远场多通道带噪语音生成程序模块，用于将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理，批量生成远场多通道带噪语音音频。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的多通道带噪语音的生成方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的多通道带噪语音的生成方法的步骤。

本发明实施例的有益效果在于：通过对普通的录音设备录制的音频进行适配调整处理，降低了唤醒词训练中对录音设备配置需求，使得录音人员无需到录音现场，提高了多通道带噪语音的收集效率，缩短收集周期，提高唤醒词定制效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种多通道带噪语音的生成方法的流程图；

图2是本发明一实施例提供的一种多通道带噪语音的生成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种多通道带噪语音的生成方法的流程图，包括如下步骤：

S11：接收至少一个用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；

S12：对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响，并与所述近场单通道纯语音音频集合内各音频根据远场衰减后的直达音频进行叠加，确定混响环境下的远场单通道纯语音音频集合；

S13：根据用于采集噪音的第二录音设备内的各麦克风之间的相位延迟函数，将所述远场单通道纯语音音频集合模拟为所述第二录音设备录制的远场多通道纯语音音频集合；

S14：将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理，批量生成远场多通道带噪语音音频。

在本实施方式中，由于对特定设备的唤醒词定制有一定音质、参数的要求，普通的录音设备录制的音频无法达到这种要求或者与其参数不相同，所以，通过对普通的录音设备录制的音频进行调整优化，以使其符合这种要求，进而降低了对特定录音设备数量的限制，无需统一组织大量人员到录音现场集中录音。

对于步骤S11，接收多个用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合，例如，为了录音便捷，各参加录音的人员，可以使用手机进行录音，各人员可以在各自的生活环境中找到一个安静的环境，在安静环境下手持手机进行录音，由于手机距离用户较近，且手机一般只有一个麦克风，进而录制的音频是近场单通道语音音频，在各人员录制好近场单通道语音音频后，上传至服务器，进而服务器接收到安静环境下录制的近场单通道纯语音音频集合。

对于步骤S12，在接收到近场单通道纯语音音频集合后，对所述近场单通道纯语音音频集合内的各音频进行直达声衰减并与其混响叠加，由于房间大小的不同，使得不同的房间会有不同的混响函数，而不同距离处的录音差异体现在直达声幅值的衰减函数中，由此可以在某个虚拟房间下，将衰减后的近场语音数据视为与人员一定距离的无混响录音数据，再与该音频在房间产生的混响叠加，此时将近场安静环境的单通道语音数据模拟为各类安静房间内远场录制的单通道语音数据。

对于步骤S13，采集噪音的第二录音设备为特定的录音设备，例如，在项目开发中，需要为智能音箱进行训练，需要与其相对应的唤醒词，由于噪音环境种类有限，可以使用有限数量的特定的录音设备对噪音进行一一录制，由于特定录音设备内的各麦克风的位置不同，使得各麦克风接收相同的音频时会存在一定的延迟，也就是不同麦克风结构的录音设备有着不同的相位延迟函数，通过所述相位延迟函数，将所述远场单通道纯语音音频集合模拟为专业录音设备录制的远场多通道纯语音音频集合；

对于步骤S14，将所述特定的录音设备录制的多通道纯噪声音频集合与所述步骤S13确定的远场多通道纯语音音频集合进行混音处理，从而批量的生成远场多通道带噪语音音频。

通过该实施方式可以看出，通过对普通的录音设备录制的音频进行适配调整处理，降低了唤醒词训练中对录音设备配置需求，使得录音人员无需到录音现场，提高了多通道带噪语音的收集效率，缩短收集周期，提高唤醒词定制效率。

作为一种实施方式，在本实施例中，在对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响之前，包括：

对所述近场单通道纯语音音频集合内的各音频进行筛选；

当检测到至少一个音频所对应的录音设备型号不属于预设有效机型时，从所述近场单通道纯语音音频集合中丢弃所述至少一个音频。

在本实施方式中，虽然可以对普通的录音设备录制的音频调整适配处理，使其接近于专业设备录制的音频，但是如果普通录制设备的质量较差，这样录制的音频效果也就很差，进而再调整适配也是没有用的，所以，要对普通的录制设备进行一定的筛选。例如，可以获取市面上比较大众的手机机型，在每款手机中获取一定数量的录音样本，然后在消音室进行专业的录音音质检测，最后筛选出符合要求的手机型号。将这些符合要求的手机作型号为有效机型。由于手机录音中，除了有录制的音频外，还有一些附加的数据，例如，这是音频是由哪种设备录制的。从而可以进行机型的检测。如果检测到至少一个音频所对应的录音设备型号不属于预设有效机型时从所述近场单通道纯语音音频集合中丢弃所述至少一个音频。

通过该实施方式可以看出，通过限制设备的型号，保证了普通录音设备录制音频的录音质量，进而提高了远场多通道带噪语音音频质量。

作为一种实施方式，在本实施例中，所述方法还包括：

所述近场单通道纯语音音频集合由所述至少一个第一录音设备使用相同的录音软件录制获得。

在本实施方式中，所述近场单通道纯语音音频集合由所述至少一个第一录音设备使用相同的录音软件录制获得，通过使用相同的录音软件，可以对录制的音频参数进行一定的约束，保证处理的效果。

通过该实施方式可以看出，通过使用相同的录音软件，对普通的录制设备录制的音频有一定约束，同时也便于服务器的处理，进而保证了音频处理的效果。

作为一种实施方式，所述将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理包括：

根据信噪比调节所述多通道纯噪声音频集合内各噪声音频的幅值；

按照所述各噪声音频的幅值，将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音。

在本实施方式中，由于麦克风录音是线性叠加的，所以可以将第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音，且根据信噪比调节数据的幅值，进而批量得到了远场带噪多通道语音数据。

通过该实施方式可以看出，通过信噪比调节数据的幅值，批量得到远场带噪多通道语音数据，效率更高。

如图2所示为本发明一实施例提供的一种多通道带噪语音的生成系统的结构示意图，该系统可执行上述任意实施例所述的多通道带噪语音的生成方法，并配置在终端中。

本实施例提供的一种多通道带噪语音的生成系统包括：近场单通道纯语音接收程序模块11，远场单通道纯语音确定程序模块12，远场多通道纯语音模拟程序模块13和远场多通道带噪语音生成程序模块14。

其中，近场单通道纯语音接收程序模块11用于接收至少一个用于采集唤醒词的第一录音设备在安静环境下录制的近场单通道纯语音音频集合；远场单通道纯语音确定程序模块12用于对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响，并与所述近场单通道纯语音音频集合内各音频根据远场衰减后的直达音频进行叠加，确定混响环境下的远场单通道纯语音音频集合；远场多通道纯语音模拟程序模块13用于根据用于采集噪音的第二录音设备内的各麦克风之间的相位延迟函数，将所述远场单通道纯语音音频集合模拟为所述第二录音设备录制的远场多通道纯语音音频集合；远场多通道带噪语音生成程序模块14用于将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理，批量生成远场多通道带噪语音音频。

进一步地，在所述近场单通道纯语音接收程序模块前，所述系统还包括：音频筛选程序模块，

用于对所述近场单通道纯语音音频集合内的各音频进行筛选；

进一步地，所述近场单通道纯语音音频集合由所述至少一个第一录音设备使用相同的录音软件录制获得。

进一步地，所述将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理包括：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的多通道带噪语音的生成方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的多通道带噪语音的生成方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的多通道带噪语音的生成方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有录音功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多通道带噪语音的生成方法，包括：

2.根据权利要求1所述的方法，其中，在对所述近场单通道纯语音音频集合内的各音频计算各预设场景内的混响之前，包括：

对所述近场单通道纯语音音频集合内的各音频进行筛选；

3.根据权利要求1所述的方法，其中，所述近场单通道纯语音音频集合由所述至少一个第一录音设备使用相同的录音软件录制获得。

4.根据权利要求1所述的方法，其中，所述将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理包括：

5.一种多通道带噪语音的生成系统，包括：

6.根据权利要求5所述的系统，其中，在所述近场单通道纯语音接收程序模块前，所述系统还包括：音频筛选程序模块，

7.根据权利要求5所述的系统，其中，所述近场单通道纯语音音频集合由所述至少一个第一录音设备使用相同的录音软件录制获得。

8.根据权利要求5所述的系统，其中，所述将所述第二录音设备录制的多通道纯噪声音频集合与所述远场多通道纯语音音频集合进行混音处理包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。