CN110136687B - 一种基于语音训练克隆口音及声韵方法 - Google Patents

一种基于语音训练克隆口音及声韵方法 Download PDF

Info

Publication number
CN110136687B
CN110136687B CN201910420416.1A CN201910420416A CN110136687B CN 110136687 B CN110136687 B CN 110136687B CN 201910420416 A CN201910420416 A CN 201910420416A CN 110136687 B CN110136687 B CN 110136687B
Authority
CN
China
Prior art keywords
voice
user
frame
text
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910420416.1A
Other languages
English (en)
Other versions
CN110136687A (zh
Inventor
邝翠珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Digital Galaxy Technology Co ltd
Original Assignee
Shenzhen Digital Galaxy Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Digital Galaxy Technology Co ltd filed Critical Shenzhen Digital Galaxy Technology Co ltd
Priority to CN201910420416.1A priority Critical patent/CN110136687B/zh
Publication of CN110136687A publication Critical patent/CN110136687A/zh
Application granted granted Critical
Publication of CN110136687B publication Critical patent/CN110136687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Abstract

一种基于语音训练克隆口音及声韵方法,公开了以训练文本使用代表不同语调的典型分类文本,经训练后获得用户同一音标几个不同语调下的含口音、声韵的单元,从中提取音素、语音片段单元最为音库内容,比较全面的保留了用户个性化的语音中口音、声韵等特征,克隆模拟语音时,根据文本特征代表的语调和训练经验获得对应的音素组,经过声韵矫正、缓差对齐矫正合成的语音,实现口音及声调的保真克隆。

Description

一种基于语音训练克隆口音及声韵方法
技术领域
本发明涉及语音克隆技术领域,尤其涉及一种基于语音训练克隆口音及音调方法。
背景技术
现在语音技术是科技研究最热点最前沿的技术领域之一,语音技术也是许多Google、讯飞等国际型科技公司大力研究的课题,国外有家LYREBIRD(天琴鸟)网站平台提供语音克隆的服务,用户只要通过网站平台的30句左右的文本进行朗读训练后,用户就能获得输入文本内容的的朗读语音,并且所获语音的音质和用户语音相近,现在成为热点,许多用户都在各大视频网站平台发布这种语音克隆的视频,但LYREBIRD(天琴鸟)网站平台和现有的其他语音模式克隆技术一样,声音的音质虽然和用户语音很接近,是很大的突破,但所发的语音仍然是机械的电子音,全世界的声学工程师也一直致力于研究让机器“说人话”,但搞出来的成果大多数还是跟人类真实的声音有很大差距,生硬、不自然一直是通病;究其根本,就是现有语音模拟克隆技术基本都是基于音质音调的强制一致,没有克隆模拟出用户的语调、韵律、口音等能代表用户个性化特征的语音内容。
发明内容
鉴于以上的技术问题,克隆语音的语音表达的意思往往和用户本身的本意难以统一。
为解这些问题,一种基于语音训练语音克隆口音及音调方法,以语音分割为基础,以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元(含口音偏向的特征),文本转语音时候,根据文本代表的语调获得对应的所述语调类别的音素单元,经过合成克隆语音,这种技术方案的创造性在于个性化,和主流语音克隆技术的区别在于:使用原始因素修正后为合成的基础单元,不只为音质牺牲个性化的语音特征。
一种基于语音训练克隆口音及声韵方法,其特征在于,包括:以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元,文本转语音时候,根据文本的语调和训练经验获得对应的音素单元:
a、训练所用文本词句单词,涵盖所有的音素、特殊组合发音的音节;
b、设置不同长度的语句,以获得用户朗读时候的换气必要动作所造成的声韵特征;
c、涵盖典型语气的文本语句,以获得用户在不同文本内涵意思,对语气声调影响的特征;
d、设置语调类,分别映射对应文本内容、音标、语音片段单元。
合成克隆语音,包括如下要素:
目标克隆语音,其构成是一组语音片段单元,其内容为:y=(
Figure DEST_PATH_IMAGE001
,
Figure DEST_PATH_IMAGE002
,
Figure DEST_PATH_IMAGE003
,…..
Figure DEST_PATH_IMAGE004
),则每个相邻的语音片段单元就需要进行矫正,取任意两个相邻语音片段单元
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
进行矫正运算。
分别将
Figure 316094DEST_PATH_IMAGE005
Figure 222476DEST_PATH_IMAGE006
语音片段单元进行分帧。
将帧长设定为12ms,获得语音帧的声音强度:创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通低通滤波的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,将既定时长的语音分解成既定时长帧集合,记载各帧段语音的平均声强或波幅,作为用户的声韵特征标准。
Figure DEST_PATH_IMAGE007
分子
Figure DEST_PATH_IMAGE008
是测量值的声压,分母
Figure DEST_PATH_IMAGE009
设定为20微帕,公式3声压震幅绝对平均值运算,求得各个语音帧时间段声压平均值之后,代入上述的公式3中,算出语音帧相对的分贝值,和用户信息,映射的音标一并记载到系统中的声韵特征库。
克隆语音中取任意两个相邻语音片段单元
Figure 372835DEST_PATH_IMAGE005
Figure 967764DEST_PATH_IMAGE006
,将
Figure 261605DEST_PATH_IMAGE005
Figure 399325DEST_PATH_IMAGE006
语音片段单元进行分帧,分别获得两组序列语音帧的声音强度组对应
Figure 986164DEST_PATH_IMAGE005
为c=(
Figure DEST_PATH_IMAGE010
,
Figure DEST_PATH_IMAGE011
,
Figure DEST_PATH_IMAGE012
,…..
Figure DEST_PATH_IMAGE013
)、对应
Figure 425979DEST_PATH_IMAGE006
为d=(
Figure DEST_PATH_IMAGE014
,
Figure DEST_PATH_IMAGE015
,
Figure DEST_PATH_IMAGE016
,…..
Figure DEST_PATH_IMAGE017
),分别将
Figure 615521DEST_PATH_IMAGE005
Figure 607748DEST_PATH_IMAGE006
根据时间轴上的分布找到对应的时间段。
α=INT(
Figure 601374DEST_PATH_IMAGE005
音素时长/帧时长*η);
β=INT(
Figure 170896DEST_PATH_IMAGE006
音素时长/帧时长*η);
η为修正比例参数,即表示在音素中取η比例的帧参与缓差对齐的矫正;η赋值为0.085;INT为取整函数,即取小于等于括号中的运算结果的最大整数。α、β分别为
Figure 180440DEST_PATH_IMAGE005
Figure 886228DEST_PATH_IMAGE006
中将参与缓差对齐的矫正的语音帧个数。
Figure 955815DEST_PATH_IMAGE005
Figure 747053DEST_PATH_IMAGE006
音素的临界合成点声音强度L设定为:
Figure DEST_PATH_IMAGE018
L为临界合成点声音强度;
以变量i对
Figure 386720DEST_PATH_IMAGE005
音素中的帧从1开始编号,将
Figure 212593DEST_PATH_IMAGE005
音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式:
Figure DEST_PATH_IMAGE019
以变量i对
Figure 515399DEST_PATH_IMAGE006
音素中的帧从1开始编号,将
Figure 59513DEST_PATH_IMAGE006
音素中从第一帧开始到第β个帧结束修正声音强度的公式:
Figure DEST_PATH_IMAGE020
通过以上所述及公式6、7、8,完成相邻语音片段单元的语音合成后对应音素声音强度的新赋值,通过循环依次将所有相邻的语音片段单元进行同样的矫正合成,强制对应音素强度为矫正计算后的强度。
所述一种基于语音训练克隆口音及声韵方法,还包括:
创建用户音库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中。
创建用户声韵特征库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵;
根据用户音库实现语音克隆,在用户输入文本需要模拟克隆语音时候,首先以标点符号文本特征识别文本语调类别,识别无结果是默认陈述语调,进一步,将文本分拆成音素、音节、单词,并根据分拆的特征文本在用户音库中检索其对应的语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类设为陈述的类别检索。
所述创建用户音库,将经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本片段单元组对应的语音片段单元组y = (
Figure 240221DEST_PATH_IMAGE001
,
Figure 186180DEST_PATH_IMAGE002
,
Figure 331990DEST_PATH_IMAGE003
,…..
Figure DEST_PATH_IMAGE021
),并将所述文本片段单元组的标准语音的时长分别调出,获得s = (
Figure DEST_PATH_IMAGE022
,
Figure DEST_PATH_IMAGE023
,
Figure DEST_PATH_IMAGE024
,…..
Figure DEST_PATH_IMAGE025
),即
Figure 783307DEST_PATH_IMAGE001
的标准时长是
Figure 62979DEST_PATH_IMAGE022
Figure 738810DEST_PATH_IMAGE002
的标准时长是
Figure 180156DEST_PATH_IMAGE023
,以此类推
Figure 574228DEST_PATH_IMAGE021
的标准时长是
Figure 893476DEST_PATH_IMAGE025
,用户语音训练英语朗读基于文本内容,采循环递推打分分拆识别法:
首先将文本分拆成单词组、音素、音节组,以单词、音素、音节的标准语音及其声学特征等作为标准参考模型,先设音素、音节、单词被用户朗读的时长为标准时长,即为音素、音节、单词在被标准发音朗读对应的时长,在被测用户朗读的语音上依次分拆该时长的语音段,进行比对获得最高分值的语音段,然后进行向前向后的加减时长的修正,获得音素、音节、单词较为匹配的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别一并保存。
所述一种基于语音训练克隆口音及声韵方法,还包括:一种声韵矫正的方法,目标克隆语音,其构成是一组语音片段单元,其内容为:y=(
Figure 689394DEST_PATH_IMAGE001
,
Figure 36062DEST_PATH_IMAGE002
,
Figure 510906DEST_PATH_IMAGE003
,…..
Figure 132380DEST_PATH_IMAGE004
),调出语音片段单元对应的时长,获得s = (
Figure 782804DEST_PATH_IMAGE022
,
Figure 353504DEST_PATH_IMAGE023
,
Figure 456589DEST_PATH_IMAGE024
,…..
Figure 350596DEST_PATH_IMAGE025
),对语音帧时长进行叠加求和运算:
Figure DEST_PATH_IMAGE026
j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录,所述记录对应的语音通过分帧获得各帧的声强数据组,读取为b=(
Figure DEST_PATH_IMAGE027
,
Figure DEST_PATH_IMAGE028
,
Figure DEST_PATH_IMAGE029
,…..
Figure DEST_PATH_IMAGE030
),计算目标克隆语音y的在其内部帧单元的声强a=(
Figure DEST_PATH_IMAGE031
,
Figure DEST_PATH_IMAGE032
,
Figure DEST_PATH_IMAGE033
,…..
Figure DEST_PATH_IMAGE034
),从目标克隆语音的第一帧开始,修正声韵的声强强度,计算公式如下:
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
第i帧声强,
Figure DEST_PATH_IMAGE037
声韵特征库中检索到合乎条件的第i帧声强,f为系统设置的声韵修正阀值,K为系统预设的声韵修正系数,在i小于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强,即i取值从1开始,递增1进行循环运算,直到不符合i值同时满足小于等于m、n的条件。
系统设置的声韵修正阀值f赋值为28dB,系统预设声韵修正系数k赋值为0.13。
附图说明
图1 为一种基于语音训练克隆口音及声韵方法整体逻辑框架图。
图2 为缓差对齐的语音合成矫正的方法中,两音素合成对齐矫正前后的语音强度对比波形示意图。
具体实施方式
具体的技术方案首先部署数据库、系统软硬件环境,配置用户注册模块、用户模块等常规系统的必要模块,还包括如下模块、步骤及要素。
步骤一、语音信息处理模块,收集来自于麦克风或智能设备中语音传感器的功能等等语音硬件的信号,将用户的说话的声音,形成信号输入系统,并将采集后的语音转换成语音数字信号推送或等待系统进行运算处理。
步骤二、构建低通滤波算法;为了最大限度的降低语音中的噪声,屏蔽语音信息里和用户语音内容不相关的内容,就需要进行过滤,容许低于截止频率的信号通过,截止高于截止频率的信号;一种实施例:采用巴特沃斯滤波算法构建低通滤波 ,巴特沃斯滤波的特点是通频带内的频率响应曲线最大限度平坦,没有起伏,而在阻频带则逐渐下降为零,采用的是巴特沃斯传递函数,允许从直流到某个截止频率(fCUTOFF) 的信号通过,将通用滤波器二阶传递函数的高通和带通系数均设为零,即得到一个低通滤波器传递公式,巴特沃斯低通滤波器可用如下振幅的平方对频率的公式表示:
Figure DEST_PATH_IMAGE038
其中, n为 滤波器的阶数,
Figure DEST_PATH_IMAGE039
等于截止频率也就是等于振幅下降为3dB时的频率,
Figure DEST_PATH_IMAGE040
为通频带边缘频率,通过本公式1的传递函数,获取过滤的用户的音频数据;对所述音频数据进行解析。
优选地,根据所述的低通滤波传递公式,以MATLAB作为滤波的分析运算、编写程序的工具, 最新版本的MATLAB可以利用MATLAB编译器和C/C++数学库和图形库,将自己的MATLAB程序自动转换为独立于MATLAB运行的C和C++代码,允许用户编写可以和MATLAB进行交互的C或C++语言程序;因此滤波运算后的语音数据方便系统程序无缝对接。
步骤三、语音训练所用文本的选择方法:为充分获得用户语音的发音特征,训练文本必须涵盖有多样性的典型,本发明采用训练文本选择的方法有:
a、所用文本词句单词,需要至少一次涵盖所有的音素、特殊组合发音的音节。
b、设置不同长度的语句,以获得用户朗读时候的换气等必要动作所造成的声韵特征。
c、尽可能涵盖多种典型语气的文本语句,例如疑问句,惊讶句、兴奋句、严肃语句等等,以获得用户在不同文本内涵对语气声调影响的特征。
d、在系统中设置语调类,分别映射对应文本内容、音标、语音片段单元等,实施例:疑问声调、陈述声调、感叹声调等。
步骤四、创建用户音库,对所述用户对训练文本朗读的音频数据通过如上步骤1低通滤波等的解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长、等信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中。
所述创建用户音库,将经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本片段单元组对应的语音片段单元组y = (
Figure 839215DEST_PATH_IMAGE001
,
Figure 934210DEST_PATH_IMAGE002
,
Figure 383646DEST_PATH_IMAGE003
,…..
Figure 81343DEST_PATH_IMAGE021
),并将所述文本片段单元组的标准语音的时长分别调出,获得s = (
Figure 565414DEST_PATH_IMAGE022
,
Figure 831311DEST_PATH_IMAGE023
,
Figure 999DEST_PATH_IMAGE024
,…..
Figure 502387DEST_PATH_IMAGE025
),即
Figure 716331DEST_PATH_IMAGE001
的标准时长是
Figure 277762DEST_PATH_IMAGE022
Figure 701790DEST_PATH_IMAGE002
的标准时长是
Figure 616657DEST_PATH_IMAGE023
,以此类推
Figure 311205DEST_PATH_IMAGE021
的标准时长是
Figure 43538DEST_PATH_IMAGE025
,所述标准时长即为语音片段单元在被标准发音朗读对应的时长,本文统称标准时长,用户语音训练英语朗读基于文本内容,采循环递推打分分拆识别法:
在被测用户朗读的语音上依次分拆y对应s时长的语音段,和y对应的标准语音之间的语音特征数据进行比对,获得最高分值的语音段,然后进行加减时长向前修正、向后修正,所述向前修正即为 s时长对应的在被测用户朗读的语音起点时间戳,依次减去设定时间段的数值设新的起点时间,取新起点时间戳和s时长对应的在被测用户朗读的语音终点时间戳之间的语音段,和对应的标准语音之间的语音特征比对获得分值,将分值最高的所述语音段所对应的在被测用户朗读的语音起点设为修正后的起点,依次类推所述向后修正,依次加上设定时间段的数值设新的终点时间,取新终点时间戳和对应的在被测用户朗读的向前修正后语音起点时间戳之间的语音段,和对应的标准语音之间的语音特征比对获得分值,将分值最高的所述语音段所对应的在被测用户朗读的语音终点时间戳设为修正后的终端时间戳,获得最高分值的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的文本、用户信息及根据文本特征认定的语调类别一并保存。
步骤五、创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通过如上步骤1低通滤波等的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值等信息保存到系统中用户信息的相关数据库的声韵特征库表格。
优选地,所述记录用户声韵特征信息,常规语音克隆技术所模拟的用户语音,只在音质上相近,缺少真人语音此起彼伏的声韵内容,因此本发明分析用户语音声调声韵特征,将既定时长的语音分解成既定时长帧集合,记载各帧段语音的平均声强或波幅,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵。
一种声韵特征记载的实施例:声音强度只能使用无纲量的相对单位,现在最常用的是分贝(decibel,缩写为dB)。通用计算公式如下
Figure DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
分子
Figure 486021DEST_PATH_IMAGE008
是测量值的声压,分母
Figure 470157DEST_PATH_IMAGE009
是人类所能听到的最小声压(本发明设定为20微帕,),公式2适合于声压震幅平方值运算,公式3适合针对声压震幅绝对平均值运算。
安卓系统中获得音源数据的类有两个:android.media.MediaRecorder和android.media.AudioRecord,通过申请语音接口权限:<uses-permission android:name="android.permission.RECORD_AUDIO" />获得音源数据的类:android.media.MediaRecorder和android.media.AudioRecord,经过本发明技术人员的多次试验,这两个类相比 使用android.media.AudioRecord的结果更为平稳,将语音数据用read(byte[] audioData, int offsetInBytes, int sizeInBytes)方法从缓冲区读取到系统预先设定的数组audioData后,再等待调用提高运算效率,为了避免极端异常的帧幅值的影响造成巨大误差。
优选地,将语音分成帧长为12ms的时间段获取其绝对值的平均值,使计算的结果更加稳定。
通过如上所述的方法求得各个语音帧时间段平均值之后,代入上述的公式3中,算出语音帧相对的分贝值,和用户信息,映射的音标等一并记载到系统中的声韵特征库。
步骤六、用户声韵特征库 根据用户音库实现语音克隆,在用户输入文本需要模拟克隆语音时候,首先以标点符号等文本特征识别文本语调类别,识别无结果是默认陈述语调。
进一步,将文本按照步骤三所述的方法分拆成音素、音节、单词,并根据所述分拆的特征文本在用户音库中检索其对应的语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类设为陈述的类别检索优选的结果。
这样将文本对应一组语音片段单元组y = (
Figure 16283DEST_PATH_IMAGE001
,
Figure 653937DEST_PATH_IMAGE002
,
Figure 193503DEST_PATH_IMAGE003
,…..
Figure 574806DEST_PATH_IMAGE021
),并将所述语音片段单元的标准时长分别调出,获得s = (
Figure 742482DEST_PATH_IMAGE022
,
Figure 52503DEST_PATH_IMAGE023
,
Figure 813786DEST_PATH_IMAGE024
,…..
Figure 733200DEST_PATH_IMAGE025
),待系统进一步的运算整理。
步骤七、声韵矫正,每个人的语音会因换气习惯、肺活量等因素的影响,朗读不同长度的文本会有不同的声韵特征,根据目标克隆语音的预判时长对合成语音进行声韵矫正运算,使得克隆所得语音更加个性化。
一种声韵矫正的方法,语音帧时长进行叠加求和运算:
Figure DEST_PATH_IMAGE043
j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录。
读取记录中帧组声强数据组,读取为b=(
Figure 489803DEST_PATH_IMAGE027
,
Figure 734840DEST_PATH_IMAGE028
,
Figure 341008DEST_PATH_IMAGE029
,…..
Figure 939480DEST_PATH_IMAGE030
),,按照步骤五的技术方法,计算步骤六目标克隆语音y的在其内部帧单元的声强a=(
Figure 347328DEST_PATH_IMAGE031
,
Figure 497686DEST_PATH_IMAGE032
,
Figure 967982DEST_PATH_IMAGE033
,…..
Figure 760357DEST_PATH_IMAGE034
),从目标克隆语音的第一帧开始,修正声韵的声强强度,本发明独创的计算公式如下:
Figure DEST_PATH_IMAGE044
Figure 461859DEST_PATH_IMAGE036
第i帧声强,
Figure 783119DEST_PATH_IMAGE037
声韵特征库中检索到合乎条件的第i帧声强,f为系统设置的声韵修正阀值,K为系统预设的声韵修正系数,在i小于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强,即i取值从1开始,递增1进行循环运算,直到不符合i值同时满足小于等于m、n的条件。
本发明通过实验优选地,系统设置的声韵修正阀值f赋值为28dB,系统预设声韵修正系数k赋值为0.13。
步骤八、缓差对齐矫正合成语音(阶差、 断点过渡修正),使用原声音库根据文本英标进行语音合成最大的技术困难在于被合成的语音单元之间音量及语调衔接往往是断崖式的落差,合成出的声音会变得非常刺耳机械,因此音素、语音片段合成时候需要做缓冲对齐的修正,才会让克隆出的语音平缓自然,本发明创建了一种缓差对齐的语音合成矫正的方法来克服这些技术缺陷。
通过步骤七,我们获得经过声韵语调修正过的目标克隆语音,其构成是一组被矫正运算过的语音片段单元,其内容为新值的:y=(
Figure 130924DEST_PATH_IMAGE001
,
Figure 71198DEST_PATH_IMAGE002
,
Figure 922480DEST_PATH_IMAGE003
,…..
Figure 178755DEST_PATH_IMAGE004
);则每个相邻的语音片段单元就需要进行缓冲对齐的矫正,取任意两个相邻语音片段单元
Figure 889222DEST_PATH_IMAGE005
Figure 492242DEST_PATH_IMAGE006
进行矫正运算。
按照步骤5所述的技术方法分别将
Figure 729188DEST_PATH_IMAGE005
Figure 267617DEST_PATH_IMAGE006
语音片段单元进行分帧。
优选地,将帧长设定为12ms。
通过分帧,并通过步骤五所述的技术方法分别获得两组序列语音帧的声音强度组对应
Figure 58855DEST_PATH_IMAGE005
为c=(
Figure 232610DEST_PATH_IMAGE010
,
Figure 58484DEST_PATH_IMAGE011
,
Figure 33393DEST_PATH_IMAGE012
,…..
Figure 577507DEST_PATH_IMAGE013
)、对应
Figure 787908DEST_PATH_IMAGE006
为d=(
Figure 609234DEST_PATH_IMAGE014
,
Figure 378213DEST_PATH_IMAGE015
,
Figure 144044DEST_PATH_IMAGE016
,…..
Figure 767923DEST_PATH_IMAGE017
),分别将
Figure 833968DEST_PATH_IMAGE005
Figure 275314DEST_PATH_IMAGE006
根据时间轴上的分布找到对应的时间段,根据时长分别获得
Figure 403807DEST_PATH_IMAGE005
Figure 723055DEST_PATH_IMAGE006
中语音帧的时间戳。
α=INT(
Figure 112448DEST_PATH_IMAGE005
音素时长/帧时长*η);
β=INT(
Figure 600061DEST_PATH_IMAGE006
音素时长/帧时长*η);
η为修正比例参数,即表示在音素中取η比例的帧参与缓差对齐的矫正;η赋值为0.085;INT为取整函数,即取小于等于括号中的运算结果的最大整数。α、β分别为
Figure 606063DEST_PATH_IMAGE005
Figure 319548DEST_PATH_IMAGE006
中将参与缓差对齐的矫正的语音帧个数。
Figure 829027DEST_PATH_IMAGE005
Figure 221962DEST_PATH_IMAGE006
音素的临界合成点声音强度L设定为:
Figure DEST_PATH_IMAGE045
L为临界合成点声音强度。
以变量i对
Figure 544621DEST_PATH_IMAGE005
音素中的帧从1开始编号,将
Figure 313994DEST_PATH_IMAGE005
音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式:
Figure 943558DEST_PATH_IMAGE019
以变量i对
Figure 897608DEST_PATH_IMAGE006
音素中的帧从1开始编号,将
Figure 487989DEST_PATH_IMAGE006
音素中从第一帧开始到第β个帧结束修正声音强度的公式:
Figure DEST_PATH_IMAGE046
通过以上所述及公式6、7、8,完成相邻语音片段单元的语音合成后赋值声音强度,通过循环依次将所有相邻的语音片段单元进行同样的矫正合成,强制对应音素强度为矫正计算后的强度,就能完成目标克隆语音整体的合成矫正,具体技术方法和效果参见附图图2示意图,得到声调和谐自然的克隆语音的效果。
通过上述的技术方案的语音克隆,从最为本源的用户训练语音中提取语音片段单元作为音库内容,比较全面的保留了用户个性化的语音中口音、音调等特征,这种技术方案的创造性在于个性化,和主流语音克隆技术的区别在于:使用原始因素修正后为合成的基础单元,不只为音质牺牲个性化的语音特征,独创了语音合成中涉及声韵、语调矫正的技术手法,相比于现有技术具有显著的进步。
特别申明:在本说明书中所述的 “实施例”等,指的是结合该实施例描述的具体特征、要素或者特点包括在本申请概括性描述的实施例中。在说明书中多个地方出现同种表述并非限定特指的是同一个实施例。也就是说,结合任一实施例描述一个具体特征、要素或者特点时,所要主张的是结合其他实施例来实现这种特征、要素或者特点被包含于本发明申请保护的权利要求范围中; 实施例是参照本发明逻辑架构及思路的多个解释性实施例对本发明进行了描述,但本发明的保护范围并不局限于此,本领域技术人员在本发明技术方案框架下可以设计出很多其他的修改和实施方式,可以对技术方案的要点变换组合/或布局进行多种非本质性变型和改进,对于本领域技术人员来说,其他的用途也将是明显的,可轻易想到实施的非实质性变化或替换,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (3)

1.一种基于语音训练克隆口音及声韵方法,其特征在于,包括:以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元,文本转语音时候,根据文本的语调和训练经验获得对应的音素单元:
a、训练所用文本词句单词,涵盖所有的音素、特殊组合发音的音节;
b、设置不同长度的语句,以获得用户朗读时候的换气必要动作所造成的声韵特征;
c、涵盖典型语气的文本语句,以获得用户在不同文本内涵意思,对语气声调影响的特征;
d、设置语调类,分别映射对应文本内容、音标、语音片段单元;
合成克隆语音, 包括如下要素:
目标克隆语音,其构成是一组语音片段单元,其内容为:y=(
Figure 298675DEST_PATH_IMAGE001
,
Figure 697295DEST_PATH_IMAGE002
,
Figure 78598DEST_PATH_IMAGE003
,…..
Figure 387219DEST_PATH_IMAGE004
),则每个相邻的语音片段单元就需要进行矫正,取任意两个相邻语音片段单元
Figure 195775DEST_PATH_IMAGE005
Figure 317577DEST_PATH_IMAGE006
进行矫正运算;
分别将
Figure 377937DEST_PATH_IMAGE005
Figure 400120DEST_PATH_IMAGE006
语音片段单元进行分帧;
将帧长设定为12ms,获得语音帧的声音强度:创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通低通滤波的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,将既定时长的语音分解成既定时长帧集合,记载各帧段语音的平均声强或波幅,作为用户的声韵特征标准;
Figure 379577DEST_PATH_IMAGE007
分子
Figure 752790DEST_PATH_IMAGE008
是测量值的声压,分母
Figure 351261DEST_PATH_IMAGE009
设定为20微帕,公式3对 声压振 幅绝对平均值运算,求得各个语音帧时间段声压平均值之后,代入上述的公式3中,算出语音帧相对的分贝值,和用户信息,映射的音标一并记载到系统中的声韵特征库;
克隆语音中取任意两个相邻语音片段单元
Figure 726486DEST_PATH_IMAGE005
Figure 408003DEST_PATH_IMAGE006
,将
Figure 878298DEST_PATH_IMAGE005
Figure 139515DEST_PATH_IMAGE006
语音片段单元进行分帧,分别获得两组序列语音帧的声音强度组, 对应
Figure 136290DEST_PATH_IMAGE005
为c=(
Figure 224594DEST_PATH_IMAGE010
,
Figure 916607DEST_PATH_IMAGE011
,
Figure 247094DEST_PATH_IMAGE012
,…..
Figure 98375DEST_PATH_IMAGE013
)、对应
Figure 324957DEST_PATH_IMAGE006
为d=(
Figure 35424DEST_PATH_IMAGE014
,
Figure 402558DEST_PATH_IMAGE015
,
Figure 108346DEST_PATH_IMAGE016
,…..
Figure 36988DEST_PATH_IMAGE017
),分别将
Figure 703593DEST_PATH_IMAGE005
Figure 375882DEST_PATH_IMAGE006
根据时间轴上的分布找到对应的时间段;
α=INT(
Figure 703221DEST_PATH_IMAGE005
音素时长/帧时长*η);
β=INT(
Figure 537185DEST_PATH_IMAGE006
音素时长/帧时长*η);
η为修正比例参数,即表示在音素中取η比例的帧参与缓差对齐的矫正;η赋值为0.085;INT为取整函数,即取小于等于括号中的运算结果的最大整数, α、β分别为
Figure 956665DEST_PATH_IMAGE005
Figure 432645DEST_PATH_IMAGE006
中将参与矫正的语音帧个数;
Figure 113025DEST_PATH_IMAGE005
Figure 993257DEST_PATH_IMAGE006
音素的临界合成点声音强度L设定为:
Figure 257623DEST_PATH_IMAGE018
L为临界合成点声音强度;
以变量i对
Figure 271715DEST_PATH_IMAGE005
音素中的帧从1开始编号,将
Figure 806601DEST_PATH_IMAGE005
音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式:
Figure 388893DEST_PATH_IMAGE019
以变量i对
Figure 642019DEST_PATH_IMAGE006
音素中的帧从1开始编号,将
Figure 695688DEST_PATH_IMAGE006
音素中从第一帧开始到第β个帧结束修正声音强度的公式:
Figure 226027DEST_PATH_IMAGE020
通过以上及公式6、7、8,完成相邻语音片段单元的语音合成后对应音素声音强度的新赋值,通过循环依次将所有相邻的语音片段单元进行同样的矫正合成,强制对应音素强度为矫正计算后的强度。
2.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征在于,包括:创建用户音库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中;
创建用户声韵特征库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵;
根据用户音库实现语音克隆, 在用户输入文本需要模拟克隆语音时,首先以标点符号文本特征识别文本语调类别,识别无结果是默认陈述语调,进一步,将文本分拆成音素、音节、单词,并根据分拆的特征文本在用户音库中检索其对应的语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类设为陈述的类别检索;
所述创建用户音库,将经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本片段单元组对应的语音片段单元组y = (
Figure 838274DEST_PATH_IMAGE001
,
Figure 313117DEST_PATH_IMAGE002
,
Figure 403433DEST_PATH_IMAGE003
,…..
Figure 411447DEST_PATH_IMAGE021
),并将所述文本片段单元组的标准语音的时长分别调出,获得s = (
Figure 69961DEST_PATH_IMAGE022
,
Figure 297680DEST_PATH_IMAGE023
,
Figure 457266DEST_PATH_IMAGE024
,…..
Figure 555672DEST_PATH_IMAGE025
),即
Figure 650667DEST_PATH_IMAGE001
的标准时长是
Figure 601568DEST_PATH_IMAGE022
Figure 299266DEST_PATH_IMAGE002
的标准时长是
Figure 658703DEST_PATH_IMAGE023
,以此类推
Figure 783654DEST_PATH_IMAGE021
的标准时长是
Figure 720386DEST_PATH_IMAGE025
,用户语音训练英语朗读基于文本内容,采循环递推打分分拆识别法:首先将文本分拆成单词组、音素、音节组,以单词、音素、音节的标准语音及其声学特征等作为标准参考模型,先设音素、音节、单词被用户朗读的时长为标准时长,即为音素、音节、单词在被标准发音朗读对应的时长,在被测用户朗读的语音上依次分拆该时长的语音段,进行比对获得最高分值的语音段,然后进行向前向后的加减时长的修正,获得音素、音节、单词较为匹配的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别一并保存。
3.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征在于,包括:一种声韵矫正的方法,以权利要求1中所述目标克隆语音,其构成是一组语音片段单元,其内容为:y=(
Figure 478168DEST_PATH_IMAGE001
,
Figure 692111DEST_PATH_IMAGE002
,
Figure 987963DEST_PATH_IMAGE003
,…..
Figure 411991DEST_PATH_IMAGE004
),调出y语音片段单元对应的时长,获得s = (
Figure 451492DEST_PATH_IMAGE022
,
Figure 785521DEST_PATH_IMAGE023
,
Figure 753739DEST_PATH_IMAGE024
,…..
Figure 133905DEST_PATH_IMAGE025
),对语音帧时长进行叠加求和运算:
Figure 242675DEST_PATH_IMAGE026
j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录,所述记录对应的语音通过分帧获得各帧的声强数据组,读取为b=(
Figure 290266DEST_PATH_IMAGE027
,
Figure 803287DEST_PATH_IMAGE028
,
Figure 434863DEST_PATH_IMAGE029
,…..
Figure 816166DEST_PATH_IMAGE030
),计算目标克隆语音y的在其内部帧单元的声强a=(
Figure 983842DEST_PATH_IMAGE031
,
Figure 667764DEST_PATH_IMAGE032
,
Figure 553680DEST_PATH_IMAGE033
,…..
Figure 240139DEST_PATH_IMAGE034
),从目标克隆语音的第一帧开始,修正声韵的声强强度,计算公式如下:
Figure 403267DEST_PATH_IMAGE035
Figure 382724DEST_PATH_IMAGE036
为 第i帧声强,
Figure 490358DEST_PATH_IMAGE037
为 声韵特征库中检索到合乎条件的第i帧声强 , f为系统设置的声韵修正阀值,K为系统预设的声韵修正系数,在i小于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强,即i取值从1开始,递增1进行循环运算,直到不符合i值同时满足小于等于m、n的条件;
系统设置的声韵修正阀值f赋值为28dB,系统预设声韵修正系数k赋值为0.13。
CN201910420416.1A 2019-05-20 2019-05-20 一种基于语音训练克隆口音及声韵方法 Active CN110136687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910420416.1A CN110136687B (zh) 2019-05-20 2019-05-20 一种基于语音训练克隆口音及声韵方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910420416.1A CN110136687B (zh) 2019-05-20 2019-05-20 一种基于语音训练克隆口音及声韵方法

Publications (2)

Publication Number Publication Date
CN110136687A CN110136687A (zh) 2019-08-16
CN110136687B true CN110136687B (zh) 2021-06-15

Family

ID=67571554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910420416.1A Active CN110136687B (zh) 2019-05-20 2019-05-20 一种基于语音训练克隆口音及声韵方法

Country Status (1)

Country Link
CN (1) CN110136687B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503956B (zh) * 2019-09-17 2023-05-12 平安科技(深圳)有限公司 语音识别方法、装置、介质及电子设备
CN110889987A (zh) * 2019-12-16 2020-03-17 安徽必果科技有限公司 一种用于英语口语矫正的智能点评方法
SG10201912562SA (en) * 2019-12-18 2021-07-29 Yitu Pte Ltd A training method, a readable storage medium and a voice cloning method for a voice cloning model
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN111048064B (zh) * 2020-03-13 2020-07-07 同盾控股有限公司 基于单说话人语音合成数据集的声音克隆方法及装置
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN112102808A (zh) * 2020-08-25 2020-12-18 上海红阵信息科技有限公司 用于伪造语音的深度神经网络的构建方法及系统
CN113160794B (zh) * 2021-04-30 2022-12-27 京东科技控股股份有限公司 基于音色克隆的语音合成方法、装置及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954361A (zh) * 2004-05-11 2007-04-25 松下电器产业株式会社 声音合成装置和方法
CN101606190A (zh) * 2007-02-19 2009-12-16 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法及程序
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN106297765A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7797146B2 (en) * 2003-05-13 2010-09-14 Interactive Drama, Inc. Method and system for simulated interactive conversation
US8219398B2 (en) * 2005-03-28 2012-07-10 Lessac Technologies, Inc. Computerized speech synthesizer for synthesizing speech from text
CN100347741C (zh) * 2005-09-02 2007-11-07 清华大学 移动语音合成方法
CN109493846B (zh) * 2018-11-18 2021-06-08 深圳市声希科技有限公司 一种英语口音识别系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954361A (zh) * 2004-05-11 2007-04-25 松下电器产业株式会社 声音合成装置和方法
CN101606190A (zh) * 2007-02-19 2009-12-16 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法及程序
CN106297765A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法

Also Published As

Publication number Publication date
CN110136687A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110136687B (zh) 一种基于语音训练克隆口音及声韵方法
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN106898340B (zh) 一种歌曲的合成方法及终端
CN108899009B (zh) 一种基于音素的中文语音合成系统
DK175374B1 (da) Fremgangsmåde ved og udstyr til talesyntese ved sammenlægning-overlapning af bölgesignaler
US20050171778A1 (en) Voice synthesizer, voice synthesizing method, and voice synthesizing system
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
KR100659212B1 (ko) 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법
CN102473416A (zh) 音质变换装置及其方法、元音信息制作装置及音质变换系统
Abushariah et al. Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
CN111739536A (zh) 一种音频处理的方法和装置
CN112927677B (zh) 语音合成方法和装置
Zhang et al. AccentSpeech: learning accent from crowd-sourced data for target speaker TTS with accents
US7139708B1 (en) System and method for speech recognition using an enhanced phone set
Cahyaningtyas et al. Development of under-resourced Bahasa Indonesia speech corpus
CN113314109B (zh) 一种基于循环生成网络的语音生成方法
JP3841596B2 (ja) 音素データの生成方法及び音声合成装置
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
Evain et al. Beatbox sounds recognition using a speech-dedicated HMM-GMM based system
CN114359450A (zh) 一种模拟虚拟人物说话的方法及装置
CN114927122A (zh) 一种情感语音的合成方法及合成装置
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant