CN111508469A

CN111508469A - 一种文语转换方法及装置

Info

Publication number: CN111508469A
Application number: CN202010337691.XA
Authority: CN
Inventors: 杜慷; 陈孝良; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-07

Abstract

本申请公开了一种文语转换方法及装置。该方法通过采集当前用户的至少一段语音，并接收待转换文本；采用声纹特征识别算法，对当前用户的至少一段语音进行声纹特征识别，得到当前用户的声纹特征，以及采用预设分析算法，对待转换文本的文本信息进行分析，得到待转换文本对应的文本序列信息；基于声纹特征和文本序列信息得到合成语音。该方法可以将当前说话人的声纹特征去合成待转换文本的语音，实现了语音合成的通用性，提高了用户体验。

Description

一种文语转换方法及装置

技术领域

本申请涉及语音合成技术领域，尤其涉及一种文语转换方法及装置。

背景技术

语音合成(Text To Speech，TTS)又称文语转换技术是一种通过机械或电子的方式生成人造语音的技术。语音合成的发展历程主要分为三个阶段，分别为波形拼接法、参数合成法和端到端语音合成法。经过不断发展，波形拼接发和参数合成法在自然度和真实度上已经完全不能与端到端TTS相媲美，在现阶段，基于端到端模型的TTS合成法成为新的主流合成方法。

端到端TTS合成法摒弃了参数合成中的多个复杂模块结合的方法，直接从文本生成语音。该方法减少了特征工程，只需要输入文本，其他的特征模型均可以通过端到端模型隐式建模。避免了多个子模型的误差传递和积累，各种条件添加方便，如语种、说话人、情感信息等。同时这种模型生成的语音细节丰富，能够大幅度还原人声。

同时，基于端到端TTS合成法的多说话人技术也得到长足发展，学者们在现有的TTS合成法基础上，加入多个说话人中每个说话人的大量音频，如语音信息，然后进行多说话人音频的训练，测试时可以根据多个说话人的音频标签来指定用哪种声音来合成出当前文字的语音，实现不同说话人间的灵活切换。

然而，上述方法只能从训练好的音频标签中选择输出合成语音的声音，不具备通用性。

发明内容

本申请实施例提供一种文语转换方法及装置，解决了现有技术存在的上述问题，实现了语音合成的通用性，提高了用户体验。

第一方面，提供了一种文语转换方法，该方法可以包括：

采集当前用户的至少一段语音，并接收待转换文本；

采用声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征；

以及，采用预设分析算法，对所述待转换文本的文本信息进行分析，得到所述待转换文本对应的文本序列信息；

基于所述声纹特征和所述文本序列信息得到合成语音。

在一个可选的实现中，基于所述声纹特征和所述文本序列信息得到合成语音，包括：

获取所述文本序列信息对应的具有所述声纹特征的声谱信息；

采用预设转换算法，将所述声谱信息转换为具有所述声纹特征的语音。

在一个可选的实现中，采用声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征之前，所述方法还包括：

采集待训练用户中每个待训练用户的至少一段待训练语音；

获取所述每个待训练用户的至少一段待训练语音的待训练的声学特征；

采用预设声纹训练算法，对所述每个待训练用户的用户标识和相应待训练的声学特征进行声纹训练，得到声纹识别模型。

在一个可选的实现中，所述预设声纹训练算法为神经网络ResNet-34算法。

在一个可选的实现中，采用声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征，包括：

利用训练的声纹识别模型的声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征。

在一个可选的实现中，所述文本序列信息包括所述文本信息对应的音素序列和所述音素序列对应的韵律特征；

获取所述文本序列信息对应的具有所述声纹特征的声谱信息，包括：

采用预设声学特征提取算法，获取所述音素序列对应的声学特征；

采用声谱合成算法，按照所述声纹特征，对所述音素序列对应的声学特征和所述韵律特征进行声谱合成，得到具有所述声纹特征的声谱信息。

第二方面，提供了一种文语转换装置，该装置可以包括：获取单元、识别单元和分析单元；

所述获取单元，用于采集当前用户的至少一段语音，并接收待转换文本；

所述识别单元，用于采用声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征；

所述分析单元，用于采用预设分析算法，对所述待转换文本的文本信息进行分析，得到所述待转换文本对应的文本序列信息；

所述获取单元，还用于基于所述声纹特征和所述文本序列信息得到合成语音。

在一个可选的实现中，所述装置还包括转换单元；

所述获取单元，还用于获取所述文本序列信息对应的具有所述声纹特征的声谱信息；

所述转换单元，用于采用预设转换算法，将所述声谱信息转换为具有所述声纹特征的语音。

在一个可选的实现中，所述装置还包括训练单元；

所述获取单元，还用于采集待训练用户中每个待训练用户的至少一段待训练语音；

以及，获取所述每个待训练用户的至少一段待训练语音的待训练的声学特征；

所述训练单元，用于采用预设声纹训练算法，对所述每个待训练用户的用户标识和相应待训练的声学特征进行声纹训练，得到声纹识别模型。

在一个可选的实现中，所述识别单元，具体用于利用训练的声纹识别模型的声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征。

所述获取单元，具体用于采用预设声学特征提取算法，获取所述音素序列对应的声学特征；

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明实施例提供的文语转换方法通过采集当前用户的至少一段语音，并接收待转换文本；采用声纹特征识别算法，对当前用户的至少一段语音进行声纹特征识别，得到当前用户的声纹特征，以及采用预设分析算法，对待转换文本的文本信息进行分析，得到待转换文本对应的文本序列信息；基于声纹特征和文本序列信息得到合成语音。该方法可以将当前说话人的声纹特征去合成待转换文本的语音，实现了语音合成的通用性，提高了用户体验。

附图说明

图1为本发明实施例提供的一种应用文语转换方法的转换设备的结构示意图；

图2为本发明实施例提供的一种文语转换方法的流程示意图；

图3为本发明实施例提供的一种文语转换装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供的文语转换方法可以应用在转换设备中，如图1所示，该设备可以包括采集装置、声纹识别装置、声谱合成装置和声码器。

采集装置，用于采集当前用户的至少一段语音，并接收待转换文本。

声纹识别装置，用于采用声纹特征识别算法，对当前采集的当前用户的至少一段语音进行声纹特征识别，得到当前用户的声纹特征。

其中，声纹(Voiceprint)是指能惟一识别某人或某物的声音特征，是用电声学仪器显示的携带言语信息的声波频谱。声纹识别(Voiceprint Recognition，VPR)，也称为说话人识别(Speaker Recognition)，有两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。

声谱合成装置，用于采用预设分析算法，对当前接收的待转换文本的文本信息进行分析，得到待转换文本对应的文本序列信息，并获取文本序列信息对应的具有声纹特征的声谱信息。

声码器，用于采用预设转换算法，将声谱信息转换为具有声纹特征的语音。

可选地，该转换设备的采集装置需要内置于终端中，转换设备的声纹识别装置、声谱合成装置和声码器可以内置于服务器中，也可以内置于终端中。为了保证转换的精确性，服务器可以是具有较强计算能力的应用服务器或云服务器；终端可以是具有较强的计算能力与语音采集功能的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)、移动终端(Mobile Terminal)等。该终端具备经无线接入网(Radio Access Network，RAN)与一个或多个核心网进行通信的能力。

当然，若该转换设备的声纹识别装置、声谱合成装置和声码器位于服务器中，且在执行本发明实施例提供的文语转换时，需要与该服务器连接的终端将当前采集的语音和待转换文本发送至服务器进行相应处理，服务器依照本发明实施例提供的文语转换方法对终端当前采集的语音和待转换文本进行处理之后，可以向终端发送待转换文本对应的处理后的语音，以使终端进行播放。

本申请的该转换设备可以不预先对用户各自的大量语音的声纹特征进行存储，应用时，可以直接用当前采集的当前用户的少量语音的声纹特征去参与合成指定文本，实现了语音合成的通用性。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2为本发明实施例提供的一种文语转换方法的流程示意图。如图2所示，该方法可以包括：

步骤210、采集当前用户的至少一段语音，并接收待转换文本。

采集装置采集当前用户的至少一段语音，如3-5句语音，以及接收待转换文本。

步骤220、采用声纹特征识别算法，对当前用户的至少一段语音进行声纹特征提取，得到当前用户的声纹特征。

可选地，执行该步骤之前，可以训练声纹识别模型，具体为：

声纹识别装置可以采集待训练用户中每个待训练用户的至少一段待训练语音，如每个待训练用户的3-5句语音；

获取每个待训练用户的至少一段待训练语音的待训练的声学特征，如梅尔倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)、感知线性预测系数PLP、能量规整谱系数(Power-Normalized Cepstral Coefficients，PNCC)、深度瓶颈特征(Deep BottleneckFeature，DBF)等；

声纹识别装置采用预设声纹训练算法，如残差神经网络(Residual NeuralNetwork-34，ResNet-34)算法，深度神经网络(Deep Neural Network，DNN)算法等，对每个待训练用户的用户标识和相应待训练的声学特征进行声纹训练，得到声纹识别模型，其中，声纹识别模型包括模型权重。

之后，声纹识别装置可以利用训练的声纹识别模型的声纹特征识别算法，如ResNet-34算法，DNN算法等，对当前用户的至少一段语音进行声纹特征识别，得到当前用户的声纹特征。

声纹识别装置将ResNet-34模型作为声纹识别模型的主要结构，后接Softmax层作为用户的分类层，训练时，提取声学特征数据的40维Log-Mel Spectrogram特征作为ResNet-34模型的输入，其中，将采集的每个用户的语音进行分帧，处理为帧长为800ms，帧移为400ms的多个语音帧。在Softmax层回传梯度，将其作为一个辨别说话人的分类性任务，不断调整声纹识别模型分类权重至最优。

对当前用户的至少一段语音进行声纹特征识别，得到ResNet-34模型中的倒数第二层特征c-vector作为当前用户的声纹特征，该声纹特征为512维，其中，该特征作为TTS编码的一个重要限制条件，用来控制语音合成的音色选择。

步骤230、采用预设分析算法，对待转换文本的文本信息进行分析，得到待转换文本对应的文本序列信息。

声谱合成装置获取待转换文本，并对待转换文本中的文本信息进行语言学分析，逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括对文本信息的断句、字词切分、多音字的处理、数字的处理、缩略语的处理，以及对文本信息的无效字符删除、分句、字符集转换等。其中，分词是指从连续的文本中搜索除当前应处理的句子单元，主要依据特征标点符号、句长统计等信息进行处理。字符集转换是指为了支持多内码文本的转换。

其中，文本序列信息可以包括音素序列和该音素序列对应的韵律特征。韵律特征(prosodic feature)可以包括音素的音高、音长、音强、停顿等特征。

声谱合成装置的主要结构为声谱预测网络Tacotron2，该Tacotron2是基于注意力attention机制的编解码模型，编码器为3层卷积网络和双向GRU网络的组合模型，注意力机制采样(Local Sensitive attention)，解码器为2个LSTM层、2个全连接层Prenet和5层卷积网络组成的模型结构。

在编码阶段，将文本序列信息与声纹识别模型的声纹特征进行合成，然后输入注意力机制进行对齐和解码的过程，最终输出带有该声纹特征的梅尔谱信息，即文本序列信息对应的具有声纹特征的声谱信息。

步骤240、基于声纹特征和文本序列信息得到合成语音。

获取文本序列信息对应的具有声纹特征的声谱信息，并采用预设转换算法，将声谱信息转换为具有所述声纹特征的语音。

具体的，采用预设声学特征提取算法，获取音素序列对应的声学特征，并采用声谱合成算法，按照声纹特征，对音素序列对应的声学特征和韵律特征进行韵律特性的调整和修改，得到具有声纹特征的声谱信息。

采用预设转换算法，将声谱信息转换为具有声纹特征的语音。其中，声码器可以将声谱信息变换为语音波形。

声码器可以使用WaveRNN模型作为主要结构，通过网络稀疏化的方法减小网络参数，大大缩减声码器合成时间，提高声码器实施效率；同时优化网络结构和参数，通过不断实验寻找到WaveRNN模型的最优参数组合，大大提升了合成音质。WaveRNN模型可应用在手机，嵌入式等资源比较少的系统，该模型可以产生十分逼近于人声的音质，能够复现真实人声的语音细节，在移动端可以实时的合成高保真音频。

WaveRNN结构由单层GRU和双层softmax层构成，softmax层用于预测音频样本采样值。本方法利用了循环神经网络(RNN)的核心特点：通过单循环层可以输出对特征的高非线性变换，保证语音合成的自然都和流畅度。且WaveRNN结构增加了权重稀疏化与结构稀疏化方法，该方法可以减小网络参数数量，缩减采样过程中所需的计算时间，保证TTS的实时率。同时使用子尺度依赖和批采样方法，减少音频采样值的预测依赖，在保证TTS音频质量的同时，加速语音合成过程。

与上述方法对应的，本发明实施例还提供一种文语转换装置，如图3所示，该文语转换装置包括：获取单元310、识别单元320和分析单元330；

获取单元310，用于采集当前用户的至少一段语音，并接收待转换文本；

识别单元320，用于采用声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征；

分析单元330，用于采用预设分析算法，对所述待转换文本的文本信息进行分析，得到所述待转换文本对应的文本序列信息；

获取单元310，还用于基于所述声纹特征和所述文本序列信息得到合成语音。

在一个可选的实现中，所述装置还包括：转换单元340；

获取单元310，还用于获取所述文本序列信息对应的具有所述声纹特征的声谱信息；

转换单元340，用于采用预设转换算法，将所述声谱信息转换为具有所述声纹特征的语音。

在一个可选的实现中，所述装置还包括：训练单元350；

获取单元310，还用于采集待训练用户中每个待训练用户的至少一段待训练语音；

训练单元350，用于采用预设声纹训练算法，对所述每个待训练用户的用户标识和相应待训练的声学特征进行声纹训练，得到声纹识别模型。

在一个可选的实现中，识别单元320，具体用于利用训练的声纹识别模型的声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征。

获取单元310，具体用于采用预设声学特征提取算法，获取所述音素序列对应的声学特征；

本发明上述实施例提供的文语转换装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本发明实施例提供的文语转换装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器410、通信接口420、存储器430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。

存储器430，用于存放计算机程序；

处理器410，用于执行存储器430上所存放的程序时，实现如下步骤：

采集当前用户的至少一段语音，并接收待转换文本；

基于所述声纹特征和所述文本序列信息得到合成语音。

采集待训练用户中每个待训练用户的至少一段待训练语音；

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现，因此，本发明实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文语转换方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文语转换方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种文语转换方法，其特征在于，所述方法包括：

采集当前用户的至少一段语音，并接收待转换文本；

基于所述声纹特征和所述文本序列信息得到合成语音。

2.如权利要求1所述的方法，其特征在于，基于所述声纹特征和所述文本序列信息得到合成语音，包括：

3.如权利要求1所述的方法，其特征在于，采用声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征之前，所述方法还包括：

采集待训练用户中每个待训练用户的至少一段待训练语音；

4.如权利要求3所述的方法，其特征在于，所述预设声纹训练算法为神经网络ResNet-34算法。

5.如权利要求3所述的方法，其特征在于，采用声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征，包括：

6.如权利要求2所述的方法，其特征在于，所述文本序列信息包括所述文本信息对应的音素序列和所述音素序列对应的韵律特征；

7.一种文语转换装置，其特征在于，所述装置包括：获取单元、识别单元和分析单元；

8.如权利要求7所述的装置，其特征在于，所述装置还包括转换单元；

9.如权利要求7所述的装置，其特征在于，所述装置还包括训练单元；

10.如权利要求9所述的装置，其特征在于，所述预设声纹训练算法为神经网络ResNet-34算法。

11.如权利要求9所述的装置，其特征在于，所述识别单元，具体用于利用训练的声纹识别模型的声纹特征识别算法，对所述当前用户的至少一段语音进行声纹特征识别，得到所述当前用户的声纹特征。

12.如权利要求7所述的装置，其特征在于，所述文本序列信息包括所述文本信息对应的音素序列和所述音素序列对应的韵律特征；

13.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。