CN103077705B

CN103077705B - 一种基于分布式自然韵律优化本地合成方法

Info

Publication number: CN103077705B
Application number: CN201210585840.XA
Authority: CN
Inventors: 郜静文; 殷翔; 孙见青; 江源; 刘艳茹; 袁武文; 张鑫; 孙梦娟; 赵志伟; 吴晓如
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-12-30
Filing date: 2012-12-30
Publication date: 2015-03-04
Anticipated expiration: 2032-12-30
Also published as: CN103077705A

Abstract

一种基于分布式自然韵律优化本地合成效果的方法，用于低码率传输自然语音韵律信息并在本地合成，包括以下步骤：由录音数据或者服务器级别的合成系统，生成合成文本的前端标注信息和语音韵律信息。然后通过网络的方式将信息下载到本地，本地使用这些信息结合后端系统合成。由于使用了更好的前端信息和后端韵律参数，提升了本地合成的韵律，从而提高本地合成效果。同时由于基频和时长占用的数据量很少，相比传统网络合成方式响应速度更快和流量更少。

Description

一种基于分布式自然韵律优化本地合成方法

技术领域

本发明涉及一种基于分布式自然韵律优化本地合成方法，属于语音合成应用领域，主要应用于手机等电子产品的合成系统中，提升语音合成的韵律表现，降低网络流量。

背景技术

随着信息化的发展，语音合成应用越来越多，但语音合成的效果也受到一些硬件条件的限制，导致更好的合成效果无法再应用产品上体现，如硬件设备空间有限、网络环境不稳定、用户流量限制等。增加训练库的大小，可以提升合成语音效果，但存储资源会增加，放到终端设备上比较困难，如果使用网络云调用的方式，在网络环境不好的情况下，合成响应比较慢，同时下载语音数据，会造成用户流量比较大。也可以使用分布式的方式，解决流量问题，即合成文本分析前端在服务器运行，合成后端在本地，同时减少了流量、也减少了本地资源大小，但后端效果完全依赖于本地资源。

发明内容

本发明技术解决问题：克服现有技术的硬件设备空间有限、网络环境不稳定以及用户流量限制等不足，提供一种基于分布式自然韵律优化本地合成方法，具有节省码流率、提升合成语音韵律效果的优点。

本发明技术解决方案：一种基于分布式自然韵律优化本地合成方法，包括：合成文本前端信息和语音韵律信息提取、低码率网络传输、及本地合成器解析与合成三个步骤；

第一步，利用录音数据或服务器合成器获得文本韵律信息和合成语音的部分参数信息，并进行编码，用于网络传输；所述参数信息包含基频，时长和频谱信息，其中基频和时长信息在网络端生成；具体实现如下：

（1）如果没有录音数据，则文本输入到服务器合成系统，文本前端信息和基频、时长信息均能够利用服务器合成系统生成，由于服务器端相对于终端设备有更多的运算和存储空间，服务器端能够配置最好的语音合成系统，从而获得更准确的前端和基频、时长信息；

（2）如果是已有的录音数据，则分为以下三步进行提取：

（2.1）合成文本前端信息根据录音数据获取，先生成相应的韵律文本，再转换为语音对应的标注文本；

（2.2）时长信息通过发音人已有的合成模型进行状态时长切分，时长信息为音素的状态时长，每个音素包含5个状态，时长信息提前生成，不用等到待合成时再生成；

基频信息利用STRAIGHT工具生成，或者使用人工标注的基频，之后按照音素对应的状态为单位，进行基频静态参数均值和一阶动态参数均值的计算。计算以帧为单位，5ms一帧，其中基频静态参数为当前帧F0的对数值，即lf0，一阶动态参数为后一帧的lf0减去前一帧的lf0，差值除以2，基频静态参数均值是对一个状态下所有浊音帧对应基频静态参数总和的平均，一阶动态参数均值是对一个状态下所有浊音帧对应基频一阶动态参数总和的平均；

（2.3）将提取得到的合成文本前端信息输出到文本文件中，而基频、时长信息整合到二进制文件中用于网络传输；

第二步，低码率网络传输

将第一步生成的合成文本前端信息的文本文件和基频、时长的二进制文件通过网络方式传输到终端设备上，如手机、车载设备等；

第三步，终端设备接收到网络数据后，利用本地合成器解析与合成，具体步骤为：

（3.1）本地合成器接收到合成文本前端信息进行文本解析后，采用传统参数生成方法，由本地合成模型决策得到文本对应的频谱信息；

（3.2）由网络传输得到二进制文件，解码后得到相应的状态时长与基频均值数据，根据MLPG（Maximum Likelihood Parameter Generation）算法生成基频数值，结合上述生成的频谱参数，利用本地参数合成器完成合成，输出合成语音数据。

步骤三（3.2）是在解码得到相应的状态时长数据后，对原合成模型决策所得的状态时长进行替换，使得本地合成的语音在时长分布上与自然语音保持一致。

步骤三（3.2）所述的MLPG算法即为，在基频参数生成中，使用解码后的基频均值数据对原合成模型决策所得的基频均值进行替换，之后基于状态进行解参，得到每一帧对应的基频数值，最后使用替换后的时长、MLPG算法得到的基频结合本地频谱进行参数合成，

MLPG算法计算公式如下：

\arg \max \log P (WC | Q, λ)

= - \frac{1}{2} C^{T} W^{T} U^{- 1} WC + C^{T} W^{T} U^{- 1} M + const

以上为HMM状态观察概率的表达式，其中

C为待生成状态的静态参数矢量，每一维为一帧对应的基频数值，

W为窗函数矩阵，

U为本地决策树得到的静态参数对应的协方差矩阵，

M为全部待合成状态的基频静态参数均值和一阶动态参数均值矢量，

const是独立于CW的分量，

为了最大化上述观察概率，对公式中的C求偏导，当静态参数C满足下式时，使状态观察概率最大，

W^TU^-1WC＝W^TU^-1M

M替换为经网络传输、解码过后的基频均值，即已获取的自然韵律基频静态参数均值和一阶动态参数均值矢量，U和W的数值已知，由上述公式解得基频静态参数矢量C，从而获得每一帧的基频数值。

本发明与现有技术相比的有益效果在于：

（1）分布式韵律合成

相对于现有技术，本发明在服务端布置一个前后端效果最好的合成系统，通过网络的方式将前端标注信息和后端基频时长下载到本地，本地使用这些信息结合本地后端系统合成。在硬件条件限制的情况下，使用了更接近自然语音的前后端参数，从而使得此效果比本地合成效果更好。

（2）降低产品应用中网络传输流量

本发明使用了分布式的合成效果，相对于网络端合成流量更小，分布式韵律方式的流量在2kbps以下，对比传统的mp3传输在20kbps左右，减少到20%，大大提升了合成响应速度，解决了用户流量限制问题。

（3）语音自然韵律

针对一些产品应用，本发明可以录制一些常用提示语，使得合成语音的韵律有更大的提升合成效果，从而满足用户对于高质量语音的需求。

（4）文本前端信息和时长、基频在服务端生成，相对终端合成器更方便修改和优化，因为一旦需要升级优化终端合成效果，就需要用户更新软件，在服务器端优化，用户不需要升级。

（5）本发明中的服务端针对一些常用、固定的文本进行录音，当使用自然声音的韵律信息时，合成效果更自然。

（6）本发明中的合成参数信息中时长、基频相对频谱数据小很多，使得在网络传输中，信息少，响应速度快。

附图说明

图1为本发明实现流程图。

具体实施方式

下面结合附图详细解释本发明提出的基于分布式自然韵律优化本地合成效果的方法。

如图1所示，本发明包括提取信息、网络传输和本地合成过程，具体如下：

步骤一：收集常用、固定文本，并进行录音

步骤二：根据录音和文本，对文本进行人工标注，得到正确的韵律信息，存储为文本文件；

步骤三：使用离线基频、时长工具对语音数据进行参数生成，得到对应语音的音素状态时长、基频均值（包括基频静态参数均值和一阶动态参数均值），存储为二进制数据文件。

时长信息通过发音人已有的合成模型进行状态时长切分，时长信息为音素的状态时长，每个音素包含5个状态，时长信息提前生成，不用等到待合成时再生成。

步骤四：将韵律信息文件和参数数据文件放到网络资源服务器上；

步骤五：在服务器上搭建一个语音合成系统，支持输入文本，输出文本韵律信息、音素状态时长和基频，该语音合成系统可以使用更大的合成资源和更多的运算量，提供高质量的语音数据。

上述步骤的完成，即完成了网络端信息的获取。

其中韵律信息包括文本、音素、音调、节奏等语音相关信息。

时长为音素状态时长，每个音素存5个状态。

基频为状态的基频静态参数均值和一阶动态参数均值。

步骤六：搭建合成服务，提供本地端合成响应，如果有录音，将下发自然韵律文件数据，如果无录音，将下发合成系统生成的韵律文件数据。

步骤七：当终端设备准备合成时，将待合成的文本上传到服务器，并从服务器获得合成文本前端韵律信息和时长、基频信息。

步骤八：将合成文本前端韵律信息传送给本地合成系统，利用本地合成模型，决策生成频谱参数。

步骤九：在解码得到相应的状态时长数据后，对原合成模型决策所得的状态时长进行替换，使得本地合成的语音在时长分布上与自然语音保持一致。

步骤十：在基频的MLPG算法中，使用解码后的基频均值数据对原合成模型决策所得的基频均值进行替换，之后基于状态进行解参，得到每一帧对应的基频数值。具体公式如下：

\arg \max \log P (WC | Q, λ)

= - \frac{1}{2} C^{T} W^{T} U^{- 1} WC + C^{T} W^{T} U^{- 1} M + const

以上为HMM状态观察概率的表达式，其中

W为窗函数矩阵，

U为本地决策树得到的静态参数对应的协方差矩阵，

const是独立于CW的分量，

为了最大化上述观察概率，对公式中的C求偏导，当静态参数C满足下式时，可使状态观察概率最大。

W^TU^-1WC＝W^TU^-1M

M替换为经网络传输、解码过后的基频均值，即已获取的自然韵律基频静态参数均值和一阶动态参数均值矢量，U和W的数值已知，由上述公式可解得基频静态参数矢量C，从而获得每一帧的基频数值。

步骤十一：本地合成器使用上述生成的频谱、时长和基频信息，利用原参数合成器，即可生成文本对应的语音音频数据并输出，合成完毕。

总之，本发明的传输信息增加后端基频和时长信息，来提高合成效果，基频和时长可来源于服务器级别的合成后端，也可以来源于录音数据，这样针对一些固定文本的合成韵律提升明显，有利于产品效果表现的提升。同时由于基频和时长占用的数据量比较少，传输过程中响应速度更快，流量更少。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于分布式自然韵律优化本地合成方法，其特征在于包括：合成文本前端信息和语音韵律信息提取、低码率网络传输、及本地合成器解析与合成三个步骤；

(1)如果没有录音数据，则文本输入到服务器合成系统，文本前端信息和基频、时长信息均能够利用服务器合成系统生成，由于服务器端相对于终端设备有更多的运算和存储空间，服务器端能够配置最好的语音合成系统，从而获得更准确的前端和基频、时长信息；

(2)如果是已有的录音数据，则分为以下三步进行提取：

(2.1)合成文本前端信息根据录音数据获取，先生成相应的韵律文本，再转换为语音对应的标注文本；

(2.2)时长信息通过发音人已有的合成模型进行状态时长切分，时长信息为音素的状态时长，每个音素包含5个状态，时长信息提前生成，不用等到待合成时再生成；

基频信息利用STRAIGHT工具生成，或者使用人工标注的基频，之后按照音素对应的状态为单位，进行基频静态参数均值和一阶动态参数均值的计算，计算以帧为单位，5ms一帧，其中基频静态参数为当前帧F0的对数值，即lf0，一阶动态参数为后一帧的lf0减去前一帧的lf0，差值除以2，基频静态参数均值是对一个状态下所有浊音帧对应基频静态参数总和的平均，一阶动态参数均值是对一个状态下所有浊音帧对应基频一阶动态参数总和的平均；

(2.3)将提取得到的合成文本前端信息输出到文本文件中，而基频均值、时长信息整合到二进制文件中用于网络传输；

第二步，低码率网络传输

将第一步生成的合成文本前端信息的文本文件和基频均值、时长的二进制文件通过网络方式传输到终端设备上；

(3.1)本地合成器接收到合成文本前端信息进行文本解析后，采用传统参数生成方法，由本地合成模型决策得到文本对应的频谱信息；

(3.2)由网络传输得到二进制文件，解码后得到相应的状态时长与基频均值数据，根据MLPG(Maximum Likelihood Parameter Generation)算法生成基频数值，结合上述生成的频谱信息，利用本地参数合成器完成合成，输出合成语音数据；

所述第三步中(3.2)所述的MLPG算法即为，在基频参数生成中，使用解码后的基频均值数据对原合成模型决策所得的基频均值进行替换，之后基于状态进行解参，得到每一帧对应的基频数值，最后使用替换后的时长、MLPG算法得到的基频结合本地频谱进行参数合成，

MLPG算法计算公式如下：

\begin{matrix} \arg \max \log P (WC | Q, λ) \\ = - \frac{1}{2} C^{T} W^{T} U^{- 1} WC + C^{T} W^{T} U^{- 1} M + const \end{matrix}

以上为HMM状态观察概率的表达式，其中：

W为窗函数矩阵，

U为本地决策树得到的静态参数对应的协方差矩阵，

const是独立于CW的分量，

W^TU^-1WC＝W^TU^-1M

2.根据权利要求1所述的一种基于分布式自然韵律优化本地合成方法，其特征在于：所述步骤三(3.2)是在解码得到相应的状态时长数据后，对原合成模型决策所得的状态时长进行替换，使得本地合成的语音在时长分布上与自然语音保持一致。