CN112634877A

CN112634877A - 一种远场语音模拟方法及装置

Info

Publication number: CN112634877A
Application number: CN201910954666.3A
Authority: CN
Inventors: 焦伟; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2021-04-09
Anticipated expiration: 2039-10-09
Also published as: CN112634877B

Abstract

本发明提供一种远场语音模拟方法及装置，该方法包括：获取近场语音数据和目标位置信息；将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，以得到与所述目标位置信息对应的远场语音数据；其中，所述模拟远场语音神经网络模型使用的训练样本包括：近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据。本发明实施例能够提高模拟出的远场语音数据的真实性。

Description

一种远场语音模拟方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种远场语音模拟方法及装置。

背景技术

目前，语音识别系统越来越广泛被应用于车载系统、智能手表、智能手机等领域，且随着智能音箱的兴起，远场语音识别技术得到很大的关注，现有的语音识别系统中，一般使用模拟远场语音来训练对齐模型，再使用对齐模型对数据进行对齐，来训练声学模型。

远场语音数据和近场语音数据的区别主要体现在混响和噪音两个方面，现有技术中，通常是通过将近场语音和冲激响应做卷积操作来模仿混响效果，将噪声和近场语音相加来模仿噪音效果，但由于该方式较为简单，混响和噪音的样本丰富度较低，导致模拟出的远场语音不够真实，与真实远场语音存在较大差别。

发明内容

本发明实施例提供一种远场语音模拟方法及装置，以解决现有远场语音模拟方法模拟出的远场语音不够真实、与真实远场语音存在较大差别的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种远场语音模拟方法，包括：

获取近场语音数据和目标位置信息；

将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，以得到与所述目标位置信息对应的远场语音数据；

其中，所述模拟远场语音神经网络模型使用的训练样本包括：近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据。

可选的，所述远场语音样本数据包括不同位置的录音设备对同一声源录制的多条远场语音数据，所述录制位置信息包括每条远场语音数据的录音位置、声源位置和录音室内空间信息。

可选的，所述模拟远场语音神经网络模型的训练过程，包括：

将所述近场语音样本数据、所述噪声数据和所述录制位置信息作为神经网络的输入，将所述远场语音样本数据作为神经网络的输出，训练得到所述模拟远场语音神经网络模型。

将所述近场语音样本数据、所述噪声数据和所述录制位置信息拼接后输入神经网络进行计算，得到所述神经网络的输出；

根据所述远场语音样本数据和所述神经网络的输出，计算二者之间的相对熵；

基于所述相对熵对所述神经网络的参数进行调整，得到所述模拟远场语音神经网络模型。

可选的，所述神经网络共有M层，每层节点数为N个，且每层神经网络均为因子分解时延神经网络TDNN-F层，其中，M和N为大于1的整数。

第二方面，本发明实施例提供一种远场语音模拟装置，包括：

获取模块，用于获取近场语音数据和目标位置信息；

模拟模块，用于将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，以得到与所述目标位置信息对应的远场语音数据；

将所述近场语音样本数据、所述噪声数据和所述录制位置信息拼接后输入神经网络进行模拟，得到所述神经网络的输出；

第三方面，本发明实施例提供一种远场语音模拟装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述远场语音模拟方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述远场语音模拟方法中的步骤。

本发明实施例中，通过将近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，来得到与所述目标位置信息对应的远场语音数据，这样，由于所述模拟远场语音神经网络模型是采用真实采集的近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据训练生成的，从而能够提高模拟出的远场语音数据的真实性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种远场语音模拟方法的流程图；

图2是本发明实施例提供的一种远场语音模拟装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种远场语音模拟方法的流程图，如图1所示，包括以下步骤：

步骤101、获取近场语音数据和目标位置信息。

上述近场语音数据可以是用户根据需要预先录制的，例如，用户需要对某条语音指令进行远场模拟，则可以利用录音设备(如麦克风)来录制该条语音指令，其中，录音设备可以靠近用户的发声位置处进行录制。

上述目标位置信息可以是用户输入的期望获得的声源模拟距离信息，也就是期望声源的发声位置信息，其可以使用坐标位置(如x，y坐标)表示，例如，用户期望模拟前方3米处的声源发出的语音数据，则所述目标位置信息为前方3米处。本发明实施例中，所述目标位置信息可以是为模拟特定远场语音设置的远场距离、坐标等信息。如本领域技术人员所知，在语音技术领域，存在远场和近场之分，远场的语音模型与近场的语音模型存在不同，不同不仅在于距离，还在于波形类型等。本发明实施例中，远场可以为普通人肢体不可直接触及的范围或为大于等于1-1.5米，相应的，近场可以为小于远场的距离范围如小于1-1.5米、或普通人手臂可触及的范围内。

上述获取近场语音数据和目标位置信息，则可以是获取用户预先录制并存储的近场语音数据，以及获取用户输入的期望模拟的远场语音数据的目标位置信息。

步骤102、将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，以得到与所述目标位置信息对应的远场语音数据；

上述模拟远场语音神经网络模型可以是利用预先录制的训练样本对神经网络进行训练得到的，该训练样本可以包括录制得到的近场语音样本数据和远场语音样本数据，其中，所述近场语音样本数据为距声源的距离小于预设距离的录音设备录制的，所述远场语音样本数据为距声源的距离大于预设距离的录音设备录制的。

其中，所述远场语音样本数据可以包括不同位置的录音设备对同一声源录制的多条远场语音数据，所述录制位置信息可以包括每条远场语音数据的录音位置、声源位置和录音室内空间信息。

例如，在录制训练样本的过程中，用户可以先在一房间内的多个不同位置分布放置录音设备，然后用户可于某处手持录音设备发出所需录制的语音指令，从而手持录音设备录制得到的数据即为近场语音样本数据，其他位置处的录音设备录制得到的数据即为远场语音样本数据，且可以根据各录音设备距用户发声位置即声源位置的距离不同，对各录音设备录制的远场语音样本数据进行标记，如标记声源位置、录音设备位置。

这样，所述模拟远场语音神经网络模型使用的训练样本可以包括近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据，所述录制位置信息可以包括声源位置、录制得到的每条远场语音样本数据的录音位置和录音室内空间信息，所述噪声数据可以是预先采集的噪声源数据。其中，为保证所述模拟远场语音神经网络模型的可信度，可采用大量的、丰富的训练样本对神经网络进行训练，如在不同的室内空间，采用不同的噪声数据、多条不同距离的远场语音样本数据等作为训练样本对神经网络进行训练。

其中，所述录音室内空间信息可以包括所述录音设备所处的室内的长宽高信息。

由于远场语音控制场景通常是在室内进行，如家中、办公室等，故所述录音室内空间信息可以是某房间的长、宽、高等信息，实际中可以是在一个房间内的不同位置布置多个录音设备，用于录制不同位置采集到的远场语音样本数据。这样，在对所述神经网络进行远场语音模拟训练时，还可进一步结合所述训练样本在录制时的室内的长宽高信息，通过考虑室内空间对语音样本数据产生的混响，来保证所模拟的远场语音更接近真实场景中的远场语音。

本发明实施例中，通过利用真实录制的近场语音样本数据、远场语音样本数据、对应的录制位置信息和噪声数据作为训练样本，对神经网络进行远场模拟训练，可以保证训练得到的所述模拟远场语音神经网络模型在模拟远场语音数据时具备较高的准确性和真实性。

该步骤中，通过将所获取的近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，便可得到与所述目标位置信息对应的远场语音数据，即模拟得到的远场语音数据相当于在距声源为所述目标位置信息处的设备采集得到的远场语音，其中，所述将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，即为将所述近场语音数据和目标位置信息作为所述模拟远场语音神经网络模型的输入，经过所述模拟远场语音神经网络模型的模拟训练，便可得到与所述目标位置信息对应的所述远场语音数据的输出。

一种实施方式中，可以是将所述近场语音样本数据、所述噪声数据和所述录制位置信息作为神经网络的输入，将所述远场语音样本数据作为神经网络的输出，对所述模拟远场语音神经网络模型进行训练，具体地，可以是将所述近场语音样本数据、所述噪声数据和所述录制位置信息输入神经网络，并设定其输出为所述远场语音样本数据，进而对所述神经网络的处理参数进行调整，以保证经所述神经网络对所述近场语音样本数据和所述噪声数据进行混合处理后得到的模拟远场语音数据与所述远场语音样本数据尽可能相似，且对应的距离标签也与所述录制位置信息中指示的远场语音的录音位置相匹配。

需说明的是，由于需要采用多组样本数据对所述神经网络进行训练，故在训练过程中，对所述神经网络的参数的调整不是一次到位的，而是通过不断迭代调整实现的，在迭代的过程中，可以不断修正参数并对迭代的收敛性进行判断，直至迭代收敛则可停止迭代调整过程。

还一种实施方式中，可结合相对熵即KL散度来更为精确地训练神经网络，具体地，可以先分别对所述近场语音样本数据和所述噪声数据进行傅里叶变换，以将时域语音数据变成频域语音数据，然后将变换后的近场语音样本数据和噪声数据，再加上所述录制位置信息，如录音位置信息、声源位置信息、录音室内空间信息等，将三者拼接在一起后输入神经网络进行计算，得到所述神经网络的输出。同样地，对于所述远场语音样本数据，也可进行傅里叶变换，得到频域语音数据。

然后，可以基于所述神经网络的输出和变换后的远场语音样本数据，计算二者之间的相对熵，即KL散度，也即相当于计算二者在频域分布上的相似度，以得到初始模拟出的远场语音数据与实际远场语音数据之间的损耗值，其中，相对熵越小，说明二者越相似，训练出的模拟语音损耗越小，相对熵越大，说明二者相差越大，训练出的模拟语音损耗越大。故可以基于所计算出的相对熵对所述神经网络的参数进行调整，以得到模拟出的远场语音与真实远场语音的相对熵尽可能小的模拟远场语音神经网络模型。

其中，相对熵可以描述两个概率分布间差异的非对称性度量，计算公式可以为

p(i)和q(i)表示随机变量i的两个概率分布，D(p||q)即为这两个概率分布的相对熵。这样，在计算所述神经网络的输出和变换后的远场语音样本数据之间的相对熵时，可以按照该公式进行快速计算。

该实施方式中，所采用的神经网络可以包括多层，且每层可以包括多个节点，例如，所述神经网络可以共有10层，每层节点数可以为1024个，且每层神经网络可以为因子分解时延神经网络(Factorized Time Delay Neural Network，TDNN-F)层。其中，TDNN-F神经网络是对时延神经网络(Time Delay Neural Network，TDNN)的一种改进，TDNN层可以考虑到上下文到信息，有能力表达语音特征在时间上的关系。

TDNN-F相较于TDNN具有几点区别和优点，其一，TDNN-F增加了中间层，降低中间层维数，在减少模型参数的同时，依然保持很好的建模能力，所述神经网络中中间层的节点数可以设置为256；其二，TDNN-F增加了跳层连接，与残差结构相似，可以减缓梯度消失的问题；其三，TDNN-F还增加了随机失活dropout层，以防止过拟合。这样，通过采用TDNN-F神经网络模型对所述近场语音样本数据、所述噪声数据和所述录制位置信息进行训练，可以提高训练的精度，保证训练得到的模拟远场语音神经网络模型更为可靠。

本实施例中的远场语音模拟方法，通过将近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，来得到与所述目标位置信息对应的远场语音数据，这样，由于所述模拟远场语音神经网络模型是采用真实采集的近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据训练生成的，从而能够提高模拟出的远场语音数据的真实性。

参见图2，图2是本发明实施例提供的一种远场语音模拟装置的结构示意图，如图2所示，远场语音模拟装置200包括：

获取模块201，用于获取近场语音数据和目标位置信息；

模拟模块202，用于将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，以得到与所述目标位置信息对应的远场语音数据；

远场语音模拟装置200能够实现图1的方法实施例中的各个过程，为避免重复，这里不再赘述。本发明实施例的远场语音模拟装置200可以通过将近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟，来得到与所述目标位置信息对应的远场语音数据，这样，由于所述模拟远场语音神经网络模型是采用真实采集的近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据训练生成的，从而能够提高模拟出的远场语音数据的真实性。

本发明实施例还提供一种远场语音模拟装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述远场语音模拟方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述远场语音模拟方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种远场语音模拟方法，其特征在于，包括：

获取近场语音数据和目标位置信息；

2.根据权利要求1所述的方法，其特征在于，所述远场语音样本数据包括不同位置的录音设备对同一声源录制的多条远场语音数据，所述录制位置信息包括每条远场语音数据的录音位置、声源位置和录音室内空间信息。

3.根据权利要求1所述的方法，其特征在于，所述模拟远场语音神经网络模型的训练过程，包括：

4.根据权利要求1所述的方法，其特征在于，所述模拟远场语音神经网络模型的训练过程，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述神经网络共有M层，每层节点数为N个，且每层神经网络均为因子分解时延神经网络TDNN-F层，其中，M和N为大于1的整数。

6.一种远场语音模拟装置，其特征在于，包括：

获取模块，用于获取近场语音数据和目标位置信息；

7.根据权利要求6所述的远场语音模拟装置，其特征在于，所述远场语音样本数据包括不同位置的录音设备对同一声源录制的多条远场语音数据，所述录制位置信息包括每条远场语音数据的录音位置、声源位置和录音室内空间信息。

8.根据权利要求6所述的远场语音模拟装置，其特征在于，所述模拟远场语音神经网络模型的训练过程，包括：

9.根据权利要求6所述的远场语音模拟装置，其特征在于，所述模拟远场语音神经网络模型的训练过程，包括：

10.根据权利要求8或9所述的远场语音模拟装置，其特征在于，所述神经网络共有M层，每层节点数为N个，且每层神经网络均为因子分解时延神经网络TDNN-F层，其中，M和N为大于1的整数。

11.一种远场语音模拟装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的远场语音模拟方法中的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的远场语音模拟方法中的步骤。