CN103117057A

CN103117057A - 一种特定人语音合成技术在手机漫画配音中的应用方法

Info

Publication number: CN103117057A
Application number: CN2012105793142A
Authority: CN
Inventors: 唐义平; 江源; 孙见青; 江涛; 聂小林; 徐佳佳
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2013-05-22
Anticipated expiration: 2032-12-27
Also published as: CN103117057B

Abstract

本发明公开了一种特定人语音合成技术在手机漫画配音中的应用方法，该方法在手机上接收用户输入的文字，通过特定人语音合成技术，生成模拟多种不同发音人音调和音色的音频数据，对图片或漫画进行配音；接收用户在手机上输入的文字，将文字通过特定人语音合成技术，并设置合成模版参数，实现各种模拟男女对话、老少对话等的合成音频，实现手机图片、漫画的配音。本发明将用户输入的文字，转化为指定人的声音甚至是自己亲属的声音，实现对手机图片、漫画的配音，增加了趣味性，提升了用户交互体验。

Description

一种特定人语音合成技术在手机漫画配音中的应用方法

技术领域

本发明涉及语音变声技术领域，公开了一种特定人语音合成技术在手机漫画配音中的应用方法，该方法在手机上接收用户输入的文字，通过特定人语音合成技术，生成模拟多种不同发音人音调和音色的音频数据，对图片或漫画进行配音的方法和系统，该方法包括：1）通过收集目标发音人的少量语音数据（50-100句），实现具有其发音特点的语音合成系统的快速构建；2）接收用户在手机上输入的文字，将文字通过个性化合成技术，并设置合成模版参数，实现各种模拟男女对话、老少对话等的合成音频，实现手机图片、漫画的配音。

利用本发明，可以将用户输入的文字，转化为指定人的声音甚至是自己亲属的声音实现对手机图片、漫画的配音，增加了趣味性，提升了用户交互体验。

背景技术

现有一些应用“对图片配音”的解决方案主要是采用人工录音的方式对图片进行配音，配音效果单一，不能实现将声音转变成不同目标人、甚至是自己亲属声音的等有趣效果。

现有技术的缺点为：现有图片漫画配音大多采用人工录音的方案，配音效果单一，很难满足用户对有趣好玩等的应用需求。

发明内容

本发明要解决以下几个问题：1、从声音模拟目标人角度来看，需要解决只采集目标人少量语音数据的情况下模拟合成的发音人声音的相似度问题。2、从业务的角度来看，模拟发音人声音需要采集发音人一定量的语料，如果让用户在采集语料时不感到厌烦，同时不需要花费大量的时间成本。

本发明采用的技术方案为：一种特定人语音合成技术在手机漫画配音中的应用方法，该方法包括如下步骤：

步骤1）、模型训练步骤：

a）、特定语料库准备

需要根据用户日常用语、生日祝福、励志语录、网络流行语的分类构建语料库，每个分类至少收集百句以上的典型语料；

b）、用户个人虚拟形象设定

用户可以通过手机端程序可以新建自己的虚拟形象，也可以创建给自己的亲属各创建一个虚拟形象；

c）、虚拟形象驯养

程序模拟养鹦鹉的场景，需要每天不定时对鹦鹉的虚拟形象说话，鹦鹉重复一句，用户说话的内容由程序随机从第a）步系统准备的语料库里面随机选取，采用这种方式利用用户的零碎时间采集用户的声音数据，并上传到后台系统；

d）、声学模型训练

后台系统将根据第c）步骤收集过来的用户声音数据，进行声学模型训练，生成用户个人虚拟形象音库资源，给出用户的虚拟形象模拟用户声音的当前相似度，在客户端虚拟形象上可以采用鹦鹉从幼鸟生长为成鸟或者鹦鹉的人气值不断升高等设计来模拟虚拟形象的成长过程；

e）、系统预置个性化音库资源

后台系统在用户的个人虚拟形象未训练完成或者希望更多个性化声音效果时，可以选用系统预置的一些特色的方言、明星音库；

步骤2）、文字配音流程：

用户在手机客户端程序上，选择有趣的漫画或图片，输入适合漫画的文字，输入完成后用户可以选择自己驯养的虚拟形象，也可以以道具的方式购买选用系统预置的虚拟形象，客户端程序将使用用户选择的虚拟形象对应的后台音库资源合成出音频文件，在客户端合成为MV等视频文件，生成有声漫画，供用户进行娱乐和分享给好友欣赏；

在选择虚拟形象的过程中，用户可以根据漫画上下文需要，给不同的文字选择不同的虚拟形象如男女，或者自己的亲属虚拟形象，系统将合成出生动的对话效果，增强漫画的趣味性。

本发明与现有技术相比的技术优点为：

1、采用特定语音合成技术的技术方案，替换人工录音，解决了配音单调问题，增强了趣味性。

2、用户可以通过在手机上输入文本便捷地制作个性化手机有声图片或漫画。

3、采用特定人语音合成技术，只需采集少量目标的人声音数据，即可达到基本相像的效果。

附图说明

图1为用户训练个性化音库配音系统构建流程框图；

图2为声学模型训练框图的示意图。

具体实施方式

下面结合附图及具体实施例进一步说明本发明。

1、技术及业务流程，如图1所示。

1）、模型训练流程

a）、特定语料库准备

需要根据用户日常用语、生日祝福、励志语录、网络流行语等分类构建语料库，每个分类至少收集百句以上的典型语料。

b）、用户个人虚拟形象设定

用户可以通过手机端程序可以新建自己的虚拟形象，也可以创建给自己的亲属各创建一个虚拟形象。

c）、虚拟形象驯养

程序模拟养鹦鹉的场景，需要每天不定时对鹦鹉（虚拟形象）说话，鹦鹉重复一句，用户说话的内容由程序随机从第a）步系统准备的语料库里面随机选取，采用这种方式利用用户的零碎时间通过移动手机网络远程采集用户的声音数据，同时不让用户感到厌烦，并上传到后台系统。

d）、声学模型训练

后台系统将根据第c）步骤收集过来的用户声音数据，进行声学模型训练，生成用户个人虚拟形象音库资源，给出用户的虚拟形象模拟用户声音的当前相似度。在客户端虚拟形象上可以采用鹦鹉从幼鸟生长为成鸟或者鹦鹉的人气值不断升高等设计来模拟虚拟形象的成长过程。具体技术实现算法参考下面介绍的声学模型训练方法。

e）、系统预置个性化音库资源

后台系统在用户的个人虚拟形象未训练完成或者希望更多个性化声音效果时，可以选用系统预置的一些特色的方言、明星音库等。

2）、文字配音流程

用户在手机客户端程序上，选择有趣的漫画（图片），输入适合漫画的文字。输入完成后用户可以选择自己驯养的虚拟形象，也可以以道具的方式购买选用系统预置的虚拟形象。客户端程序将使用用户选择的虚拟形象对应的后台音库资源合成出音频文件，在客户端合成为MV等视频文件，生成有声漫画，供用户进行娱乐和分享给好友欣赏。

2、系统关键模块的详细说明

1）用户个人虚拟形象音库资源构建

可以模拟成养鹦鹉场景，每天对鹦鹉说一句特定预定的语料，鹦鹉同样跟学一句，手机程序自动将用户录音上传到系统后台，进行声学模型训练。用户根据预定的语料和鹦鹉说的越多，系统收集用户的特定语料就越多，训练出来的声学模型对用户声音的模拟就越相似。目前实验结果表明，只要100句以上就能达到基本相像的效果。

2）声学模型训练算法

根据用户输入的少量录音进行声学模型训练。具体实现技术除利用科大讯飞专利《一种结合高层描述信息和模型自适应的说话人转换方法》（专利号200610039680.3）外，还增加了模型自适应算法处理。具体如图2所示框图的加粗虚线框图部分。

该算法为最小生成误差线性回归模型自适应方法：

①、利用自适应数据，由最大似然线性回归模型自适应算法，计算源说话人到目标说话人的转换矩阵M；

②、根据源说话人的声学模型λ和源说话人模型到目标说话人模型的转换矩阵M，得到目标说话人模型，通过传统的基于最大似然的参数生成方法，估计与自适应数据的声学参数C各帧相对应的生成声学参数

其中：

C＝[c₁，c₂，...，c_T] (1)

\tilde{C} (λ, M) = [{\tilde{c}}_{1}, {\tilde{c}}_{2}, . . ., {\tilde{c}}_{T}] - - - (2)

T为总帧数，c₁，c₂到Ct定义如下公式（3），这里采用的声学参数为线谱频率参数（lsf)，即：

c_t＝[lsf_t.l，...,lsf_t,N] (3)

{\tilde{c}}_{t} = [ls {\tilde{f}}_{t, 1}, . . ., ls {\tilde{f}}_{t, N}] - - - (4)

其中N为线谱频率参数的阶数，这里取40；由以下公式计算自适应数据声学参数C与生成参数之间的听感误差：

D (C, \tilde{C} (λ, M)) =

Σ_{t = 1}^{T} Σ_{p = 1}^{N} {({lsf}_{t, p} - ls {\tilde{f}}_{t, p})}^{2} / \min ({lsf}_{t, p} - {lsf}_{t, p - 1}, {lsf}_{t, p + 1} - {lsf}_{t, p}) - - - (5)

③、以最小化听感误差为目标，调整源说话人模型到目标说话人模型的转换矩阵M。为了求解听感误差最小时，所对应的源说话人模型到目标说话人模型的转换矩阵M，可以

采用梯度下降法对转换矩阵中的各参数进行逐步调整，即：

M (n + 1) = M (n) - e_{n} \frac{&PartialD; D (C, \tilde{C} (λ, M))}{&PartialD; M} |_{M = M (n)} - - - (6)

其中n为迭代次数，ε_n为每一步的迭代步长，M(n)表示第n次迭代后的转换矩阵参数。

④、对步骤②和③进行反复迭代，直至生成参数听感误差收敛，则完成了源说话人模型到目标说话人模型转换矩阵的更新。

⑤、使用源说话人声学模型λ和经过迭代更新的源说话人模型到目标说话人模型的转换矩阵M，计算得到目标说话人声学模型λ′，则最终完成了基于生成参数听感误差最小化的模型自适应过程。

最小生成误差线性回归模型自适应方法，相对传统MLLR方法，提升合成语音相似度约0.2MOS分。具体实验数据如下表1所示。

表1

3）模版合成

用户输入文字，可以设置不同段的文字对应不同发音人的格式模版，后台根据模版进行合成，以形成实际的漫画或图片的对话效果，增强趣味性。

模版内容使用CSSML（Chinese Speech Synthesis Markup Language）标记语言表示。传入符合规范的CSSML文本即可实现模板合成功能。

表2元素列表

Speaker元素：

用法：

属性：

xml:lang指定根文档使用的语言类型。可选。

注意:

有效的CSSML文档必须包含根元素"speak"，而且该元素只能有一个。

voice元素：

用法：

属性：

vaiant指明发音人代号。只可取值整数。

audio元素：

用法：

属性：

src音频文件本地或url地址。

alt为音频描述。

例如：

展堂，额最大方咧，听说现在结婚很便宜，民政局9块钱搞定.今儿我佟湘玉豁出去了，额请你吧!不准不去！

Claims

1.一种特定人语音合成技术在手机漫画配音中的应用方法，其特征在于：该方法包括如下步骤：

步骤1）、模型训练步骤：

a）、特定语料库准备

b）、用户个人虚拟形象设定

用户可以通过手机端程序可以新建自己的虚拟形象，也可以给自己的亲属各创建一个鹦鹉虚拟形象；

c）、虚拟形象驯养

程序模拟驯养鹦鹉的场景，需要每天不定时对鹦鹉的虚拟形象说话，鹦鹉重复一遍，用户说话的内容由程序随机从第a）步系统准备的语料库里面随机选取，采用这种方式利用用户的零碎时间采集用户的声音数据，并上传到后台系统；

d）、声学模型训练

e）、系统预置个性化音库资源

步骤2）、文字配音流程：

用户在手机客户端程序上，选择有趣的漫画或图片，输入适合漫画的文字，输入完成后用户选择自己驯养的虚拟形象，或者以道具的方式购买选用系统预置的虚拟形象，客户端程序将使用用户选择的虚拟形象对应的后台音库资源合成出音频文件，在客户端合成为MV等视频文件，生成有声漫画，供用户进行娱乐和分享给好友欣赏；还可以将合成出的音频文件设置成用户彩铃和来电铃声；