CN112967728B

CN112967728B - 结合声传递函数的端到端语音合成方法及装置

Info

Publication number: CN112967728B
Application number: CN202110542804.4A
Authority: CN
Inventors: 智鹏鹏; 陈高峰; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-07-30
Anticipated expiration: 2041-05-19
Also published as: CN112967728A

Abstract

本发明公开了一种结合声传递函数的端到端语音合成方法及装置。该方法包括：将文本序列语音合成为音频；根据预设的目标声源的位置获取声传递函数；利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波，从而生成带有空间信息的语音。该装置包括：语音合成单元、声传递函数获取单元、以及空间信息加入单元。这种方法和装置引入声传递函数方法对语音进行处理，空间参数信息结合端到端语音合成生成带有空间信息的语音，结合声传递函数搭建端到端语音合成系统，可以在虚拟教室与虚拟直播等场景引入空间信息，增加与学生或听众互动体验与空间感受。

Description

结合声传递函数的端到端语音合成方法及装置

技术领域

本发明涉及声学合成技术，更为具体来说，本发明涉及一种结合声传递函数的端到端语音合成方法及装置。

背景技术

听觉在人类生活中有着非常重要的意义。它通过感知周围环境声音，从而做出相应的判断与决策。人类的听觉除了能感知声音的强度、音调和音色等主观属性外，还能对声源的方向和距离做出判断。声音的空间信息对声音的感知有重要意义。

声源发出的声波经人的头部、躯干和耳廓等部位散射后到达双耳，其中的物理过程可视为一个线性时不变的声滤波系统。头相关传递函数（HRTF，Head Related TransferFunction）定义为自由场情况下从声源到双耳的频域声学传输函数，它表达了人体结构对声波的综合滤波效果，具体为鼓膜处声压与声源声压之比

式中，P(r,

,

, f, s)为鼓膜处的声压，P_S(f)为声源处的声压，HRTF是声源到头中心的距离r、仰角

、水平角

以及声源频率f的函数。目前，通过实验测量、数值计算以及HRTF建模方法可以构建HRTF库。

随着深度学习的应用，语音合成技术目前迅速发展。但当前的语音合成系统合出的语音并没有空间线索，为了使合出的语音更加丰富多彩，目前亟需一种结合声传递函数搭建的端到端语音合成系统。

发明内容

本发明创新地提供了一种结合声传递函数的端到端语音合成方法及装置，解决了当前的端到端语音合成系统合出的语音没有空间线索的问题。

为实现上述的技术目的，一方面，本发明公开了一种结合声传递函数的端到端语音合成方法。所述结合声传递函数的端到端语音合成方法包括：将文本序列语音合成为音频；根据预设的目标声源的位置获取声传递函数；利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波，从而生成带有空间信息的语音。

进一步地，对于所述结合声传递函数的端到端语音合成方法，根据预设的目标声源的位置获取声传递函数，包括：根据预设的目标声源的位置获取空间信息参数；根据所获取的空间信息参数在声传递函数库中查找对应的声传递函数的系数；当根据所述空间信息参数在声传递函数库中查找到对应的声传递函数的系数时，将对应的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

进一步地，对于所述结合声传递函数的端到端语音合成方法，其根据预设的目标声源的位置获取声传递函数，还包括：当根据所述空间信息参数在声传递函数库中没有查找到对应的声传递函数的系数时，使用两个相近的声传递函数的系数插值求得目标声传递函数的系数，将求得的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

进一步地，对于所述结合声传递函数的端到端语音合成方法，所述空间信息参数包括所述目标声源相对于收听者头中心的仰角、水平角和距离。

进一步地，对于所述结合声传递函数的端到端语音合成方法，将文本序列语音合成为音频，包括：将文本序列输入前端处理模块，转换为音素序列；将所述音素序列转化为嵌入向量后输入编码器模块中；将编码后的序列输入注意力模块，得到语境向量；将解码器模块中prenet的输出和注意力模块输出的语境向量串联起来作为输入，经过GRU单元后输出到解码器模块中decoder-RNN；经由解码器模块生成各个帧的频谱图；拼帧，并将拼帧后的频谱图经过griffin-lim声码器或使用神经声码器转换为音频。

为实现上述的技术目的，另一方面，本发明公开了一种结合声传递函数的端到端语音合成装置。所述结合声传递函数的端到端语音合成装置包括：语音合成单元，用于将文本序列语音合成为音频；声传递函数获取单元，用于根据预设的目标声源的位置获取声传递函数；空间信息加入单元，用于利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波，从而生成带有空间信息的语音。

进一步地，对于所述结合声传递函数的端到端语音合成装置，所述声传递函数获取单元包括：空间信息参数获取模块，用于根据预设的目标声源的位置获取空间信息参数；声传递函数系数查找模块，用于根据所获取的空间信息参数在声传递函数库中查找对应的声传递函数的系数；声传递函数确定模块，用于当根据所述空间信息参数在声传递函数库中查找到对应的声传递函数的系数时，将对应的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

进一步地，对于所述结合声传递函数的端到端语音合成装置，所述声传递函数获取单元还包括：系数插值单元，用于当根据所述空间信息参数在声传递函数库中没有查找到对应的声传递函数的系数时，使用两个相近的声传递函数的系数插值求得目标声传递函数的系数，将求得的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

为实现上述的技术目的，又一方面，本发明公开了一种计算设备。所述计算设备包括：一个或多个处理器，以及与所述一个或多个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行上述方法。

为实现上述的技术目的，再一方面，本发明公开了一种机器可读存储介质。所述机器可读存储介质存储有可执行指令，所述指令当被执行时使得所述机器执行上述方法。

本发明的有益效果为：

本发明实施例提供的结合声传递函数的端到端语音合成方法及装置引入声传递函数方法对语音进行处理，空间参数信息结合端到端语音合成生成带有空间信息的语音，结合声传递函数搭建端到端语音合成系统，可以在虚拟教室与虚拟直播等场景引入空间信息，增加与学生或听众互动体验与空间感受。当前语音合成技术日臻完善，合成的语音质量越来越高，有力地支持智能语音客服、在线教育等行业的发展。很多场景都需要使用带有空间信息的语音，例如虚拟教室，同学们需要通过声音判断老师的方向和位置。

附图说明

图中，

图1为本发明一个实施例提供的结合声传递函数的端到端语音合成方法的流程图；

图2为本发明另一个示例提供的图1所示的结合声传递函数的端到端语音合成方法中步骤S110的流程图；

图3为本发明一个示例提供的基于encoder-decoder的seq2seq的架构图；

图4为本发明另一个示例提供的图1所示的结合声传递函数的端到端语音合成方法中步骤S120的流程图；

图5为本发明一个示例提供的声传递函数球坐标系图；

图6为本发明另一个实施例提供的结合声传递函数的端到端语音合成装置的结构示意图；

图7为根据本发明实施例的用于结合声传递函数的端到端语音合成处理的计算设备的结构框图。

具体实施方式

下面结合说明书附图对本发明提供的结合声传递函数的端到端语音合成方法及装置进行详细的解释和说明。

图1为本发明一个实施例提供的结合声传递函数的端到端语音合成方法的流程图。

如图1所示，在步骤S110，将文本序列语音合成为音频。

如图2所示，步骤S110可以包括以下步骤：

步骤S1101，将文本序列输入前端处理模块，转换为音素序列。作为一个具体例子，可以将文本序列输入前端处理模块，可以经过文本正则（Text Normalization）和字音转换（Grapheme-to-Phoneme），英语转为音素序列，汉语同时还可以经过多音字分类（PolyphoneClassification）和韵律预测（Prosody Prediction），最终转为音素序列。

步骤S1103，将音素序列转化为嵌入向量后输入编码器模块中。作为一个具体例子，可以将音素序列输入字符嵌入（character embedding）模块后转换为嵌入向量，例如512维嵌入向量，输入到编码器模块中生成中间隐变量。其中，语言编码器模块的结构可以包括3层1维卷积层（5卷积核，512单元）和1层256单元双向（Bi-directional）长短期记忆网络（LSTM, Long Short-Term Memory）层。

步骤S1105，将编码后的序列输入注意力（Attention）模块，得到语境向量。作为一个具体例子，注意力模块中位置敏感注意力（position sensitive attention）的结构可以包括一层包含128个门控循环单元（GRU, Gated Recurrent Unit）的循环神经网络（RNN,Recurrent Neural Network）。

步骤S1107，将解码器模块中逐步优化循环网络（PReNet，progressive recurrentnetwork)的输出和注意力模块输出的语境向量串联起来作为输入，经过GRU单元后输出到解码器模块中的decoder-RNN。将解码器模块中prenet的输出和注意力模块的输出作为输入，经过GRU单元后输出到解码器模块中的decoder-RNN中，“去伪存真”，关注隐变量中的有用信息，同时可以起到降维的功能

步骤S1109，经由解码器模块生成各个帧的频谱图。作为一个具体例子，解码器（decoder）模块主要包括三部分：pre-net、Attention-RNN、以及Decoder-RNN。decode-RNN为两层残差GRU（residual GRU），它的输出为输入与经过GRU单元的输出之和，每层同样包含了256个GRU单元。第一步解码器（decoder）的输入为0矩阵，之后都会把第t步的输出作为第t+1步的输入。按照帧级别生成频谱图比如梅尔频谱图。同时使用stop token来预测停止标签。

步骤S1111，拼帧，并将拼帧后的频谱图经过griffin-lim声码器或使用神经声码器转换为音频。

其中，编码器-解码器（encoder-decoder）可以采用序列到序列（seq2seq,sequence-to-sequence）模型的架构，如图3所示。Seq2Seq网络通常包括两部分：编码器（encoder），它主要是处理RNN的输入序列，将最后一个RNN的单元状态来作为最终的输出的上下文C；解码器（decoder），它以编码器的输出C作为输入，以固定长度的向量作为条件，产生输出序列 Y={y(1),y(2)...y(ny)}Y={y(1),y(2)...y(ny)}。

在步骤S120，根据预设的目标声源的位置获取声传递函数。其中，声传递函数可以为头相关传递函数（HRTF），自由场情况下从声源到双耳的频域声学传输函数，它表达了人体结构对声波的综合滤波效果，具体为鼓膜处声压与声源声压之比。

如图4所示，步骤S120可以包括以下步骤：

步骤S122，根据预设的目标声源的位置获取空间信息参数。其中，空间信息参数可以包括目标声源相对于收听者头中心的仰角

、水平角

和距离r，例如（r=200，

=20，

=20），如图5所示。

步骤S124，根据所获取的空间信息参数在声传递函数库中查找对应的声传递函数的系数。如果根据空间信息参数在声传递函数库中查找到对应的声传递函数的系数，则流程进行到步骤S126；如果根据空间信息参数在声传递函数库中没有查找到对应的声传递函数的系数，则流程进行到步骤S128。

步骤S126，将对应的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

步骤S128，使用两个相近的声传递函数的系数插值求得目标声传递函数的系数，将求得的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

在步骤S130，利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波，从而生成带有空间信息的语音。

图6为本发明另一个实施例提供的结合声传递函数的端到端语音合成装置的结构示意图。如图6所示，该实施例提供的结合声传递函数的端到端语音合成装置600包括语音合成单元610、声传递函数获取单元620、以及空间信息加入单元630。

语音合成单元610用于将文本序列语音合成为音频。语音合成单元610的操作可以参照上面参考图1描述的步骤S110的操作。

声传递函数获取单元620用于根据预设的目标声源的位置获取声传递函数。声传递函数获取单元620的操作可以参照上面参考图1描述的步骤S120的操作。

空间信息加入单元630用于利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波，从而生成带有空间信息的语音。空间信息加入单元630的操作可以参照上面参考图1描述的步骤S130的操作。

具体来说，声传递函数获取单元620可以包括：空间信息参数获取模块，用于根据预设的目标声源的位置获取空间信息参数；声传递函数系数查找模块，用于根据所获取的空间信息参数在声传递函数库中查找对应的声传递函数的系数；声传递函数确定模块，用于当根据空间信息参数在声传递函数库中查找到对应的声传递函数的系数时，将对应的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。其中，空间信息参数可以包括目标声源相对于收听者头中心的仰角、水平角和距离。

进一步来说，声传递函数获取单元620还可以包括：系数插值单元，用于当根据空间信息参数在声传递函数库中没有查找到对应的声传递函数的系数时，使用两个相近的声传递函数的系数插值求得目标声传递函数的系数，将求得的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

作为一种可选实施方式，语音合成单元610可以包括：前端处理模块，用于将输入的文本序列转换为音素序列；字符嵌入模块，用于将音素序列转化为嵌入向量后输入编码器模块中；编码器模块，用于对输入的嵌入向量进行编码；注意力模块，用于将编码后的序列转换为语境向量；串联输入模块，用于将解码器模块中prenet的输出和注意力模块输出的语境向量串联起来作为输入，经过GRU单元后输出到解码器模块中decoder-RNN；解码器模块，用于生成各个帧的频谱图；拼帧和音频生成模块，用于拼帧，并将拼帧后的频谱图经过griffin-lim声码器或使用神经声码器转换为音频。

如图7所示，计算设备700可以包括至少一个处理器710、存储器720、内存730、通信接口740以及内部总线750，并且至少一个处理器710、存储器720、内存730和通信接口740经由总线750连接在一起。该至少一个处理器710执行在计算机可读存储介质（即，存储器720）中存储或编码的至少一个计算机可读指令（即，上述以软件形式实现的元素）。

在一个实施例中，在存储器720中存储有计算机可执行指令，当其执行时使得至少一个处理器710执行：将文本序列语音合成为音频；根据预设的目标声源的位置获取声传递函数；利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波，从而生成带有空间信息的语音。

应该理解的是，在存储器720中存储的计算机可执行指令当执行时使得至少一个处理器710进行本公开的各个实施例中以上结合图1-6描述的各种操作和功能。

在本公开中，计算设备700可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理（PDA）、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。

根据一个实施例，提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令（即，上述以软件形式实现的元素），该指令当被机器执行时，使得机器执行本公开的各个实施例中以上结合图1-6描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

以上所述仅为本发明的实施例，并非因此限制本发明的权利要求保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明权利要求的保护范围内。

Claims

1.一种结合声传递函数的端到端语音合成方法，其特征在于，包括：

将文本序列语音合成为音频；

根据预设的目标声源的位置获取声传递函数；

利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波，从而生成带有空间信息的语音；

将文本序列语音合成为音频，包括：

将文本序列输入前端处理模块，转换为音素序列；

将所述音素序列转化为嵌入向量后输入编码器模块中；

将编码后的序列输入注意力模块，得到语境向量；

将解码器模块中prenet的输出和注意力模块输出的语境向量串联起来作为输入，经过GRU单元后输出到解码器模块中decoder-RNN；

经由解码器模块生成各个帧的频谱图；

拼帧，并将拼帧后的频谱图经过griffin-lim声码器或使用神经声码器转换为音频。

2.根据权利要求1所述的结合声传递函数的端到端语音合成方法，其特征在于，根据预设的目标声源的位置获取声传递函数，包括：

根据预设的目标声源的位置获取空间信息参数；

根据所获取的空间信息参数在声传递函数库中查找对应的声传递函数的系数；

当根据所述空间信息参数在声传递函数库中查找到对应的声传递函数的系数时，将对应的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

3.根据权利要求2所述的结合声传递函数的端到端语音合成方法，其特征在于，根据预设的目标声源的位置获取声传递函数，还包括：

当根据所述空间信息参数在声传递函数库中没有查找到对应的声传递函数的系数时，使用两个相近的声传递函数的系数插值求得目标声传递函数的系数，将求得的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

4.根据权利要求2或3所述的结合声传递函数的端到端语音合成方法，其特征在于，所述空间信息参数包括所述目标声源相对于收听者头中心的仰角、水平角和距离。

5.一种结合声传递函数的端到端语音合成装置，其特征在于，包括：

语音合成单元，用于将文本序列语音合成为音频；

声传递函数获取单元，用于根据预设的目标声源的位置获取声传递函数；

空间信息加入单元，用于利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波，从而生成带有空间信息的语音；

将文本序列语音合成为音频，包括：

将文本序列输入前端处理模块，转换为音素序列；

将所述音素序列转化为嵌入向量后输入编码器模块中；

将编码后的序列输入注意力模块，得到语境向量；

经由解码器模块生成各个帧的频谱图；

6.根据权利要求5所述的结合声传递函数的端到端语音合成装置，其特征在于，所述声传递函数获取单元包括：

空间信息参数获取模块，用于根据预设的目标声源的位置获取空间信息参数；

声传递函数系数查找模块，用于根据所获取的空间信息参数在声传递函数库中查找对应的声传递函数的系数；

声传递函数确定模块，用于当根据所述空间信息参数在声传递函数库中查找到对应的声传递函数的系数时，将对应的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

7.根据权利要求6所述的结合声传递函数的端到端语音合成装置，其特征在于，所述声传递函数获取单元还包括：系数插值单元，用于当根据所述空间信息参数在声传递函数库中没有查找到对应的声传递函数的系数时，使用两个相近的声传递函数的系数插值求得目标声传递函数的系数，将求得的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。

8.一种计算设备，其特征在于，包括：

一个或多个处理器，以及

与所述一个或多个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1到4中任一项所述的方法。

9.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到4中任一项所述的方法。