CN110136687B - 一种基于语音训练克隆口音及声韵方法 - Google Patents
一种基于语音训练克隆口音及声韵方法 Download PDFInfo
- Publication number
- CN110136687B CN110136687B CN201910420416.1A CN201910420416A CN110136687B CN 110136687 B CN110136687 B CN 110136687B CN 201910420416 A CN201910420416 A CN 201910420416A CN 110136687 B CN110136687 B CN 110136687B
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- frame
- text
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Abstract
一种基于语音训练克隆口音及声韵方法,公开了以训练文本使用代表不同语调的典型分类文本,经训练后获得用户同一音标几个不同语调下的含口音、声韵的单元,从中提取音素、语音片段单元最为音库内容,比较全面的保留了用户个性化的语音中口音、声韵等特征,克隆模拟语音时,根据文本特征代表的语调和训练经验获得对应的音素组,经过声韵矫正、缓差对齐矫正合成的语音,实现口音及声调的保真克隆。
Description
技术领域
本发明涉及语音克隆技术领域,尤其涉及一种基于语音训练克隆口音及音调方法。
背景技术
现在语音技术是科技研究最热点最前沿的技术领域之一,语音技术也是许多Google、讯飞等国际型科技公司大力研究的课题,国外有家LYREBIRD(天琴鸟)网站平台提供语音克隆的服务,用户只要通过网站平台的30句左右的文本进行朗读训练后,用户就能获得输入文本内容的的朗读语音,并且所获语音的音质和用户语音相近,现在成为热点,许多用户都在各大视频网站平台发布这种语音克隆的视频,但LYREBIRD(天琴鸟)网站平台和现有的其他语音模式克隆技术一样,声音的音质虽然和用户语音很接近,是很大的突破,但所发的语音仍然是机械的电子音,全世界的声学工程师也一直致力于研究让机器“说人话”,但搞出来的成果大多数还是跟人类真实的声音有很大差距,生硬、不自然一直是通病;究其根本,就是现有语音模拟克隆技术基本都是基于音质音调的强制一致,没有克隆模拟出用户的语调、韵律、口音等能代表用户个性化特征的语音内容。
发明内容
鉴于以上的技术问题,克隆语音的语音表达的意思往往和用户本身的本意难以统一。
为解这些问题,一种基于语音训练语音克隆口音及音调方法,以语音分割为基础,以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元(含口音偏向的特征),文本转语音时候,根据文本代表的语调获得对应的所述语调类别的音素单元,经过合成克隆语音,这种技术方案的创造性在于个性化,和主流语音克隆技术的区别在于:使用原始因素修正后为合成的基础单元,不只为音质牺牲个性化的语音特征。
一种基于语音训练克隆口音及声韵方法,其特征在于,包括:以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元,文本转语音时候,根据文本的语调和训练经验获得对应的音素单元:
a、训练所用文本词句单词,涵盖所有的音素、特殊组合发音的音节;
b、设置不同长度的语句,以获得用户朗读时候的换气必要动作所造成的声韵特征;
c、涵盖典型语气的文本语句,以获得用户在不同文本内涵意思,对语气声调影响的特征;
d、设置语调类,分别映射对应文本内容、音标、语音片段单元。
合成克隆语音,包括如下要素:
将帧长设定为12ms,获得语音帧的声音强度:创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通低通滤波的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,将既定时长的语音分解成既定时长帧集合,记载各帧段语音的平均声强或波幅,作为用户的声韵特征标准。
分子是测量值的声压,分母设定为20微帕,公式3声压震幅绝对平均值运算,求得各个语音帧时间段声压平均值之后,代入上述的公式3中,算出语音帧相对的分贝值,和用户信息,映射的音标一并记载到系统中的声韵特征库。
克隆语音中取任意两个相邻语音片段单元、,将、语音片段单元进行分帧,分别获得两组序列语音帧的声音强度组对应 为c=( ,, ,…..)、对应为d=( ,, ,…..),分别将、根据时间轴上的分布找到对应的时间段。
L为临界合成点声音强度;
通过以上所述及公式6、7、8,完成相邻语音片段单元的语音合成后对应音素声音强度的新赋值,通过循环依次将所有相邻的语音片段单元进行同样的矫正合成,强制对应音素强度为矫正计算后的强度。
所述一种基于语音训练克隆口音及声韵方法,还包括:
创建用户音库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中。
创建用户声韵特征库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵;
根据用户音库实现语音克隆,在用户输入文本需要模拟克隆语音时候,首先以标点符号文本特征识别文本语调类别,识别无结果是默认陈述语调,进一步,将文本分拆成音素、音节、单词,并根据分拆的特征文本在用户音库中检索其对应的语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类设为陈述的类别检索。
所述创建用户音库,将经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本片段单元组对应的语音片段单元组y = (, , ,…..),并将所述文本片段单元组的标准语音的时长分别调出,获得s = ( ,, ,…..),即的标准时长是、的标准时长是,以此类推的标准时长是,用户语音训练英语朗读基于文本内容,采循环递推打分分拆识别法:
首先将文本分拆成单词组、音素、音节组,以单词、音素、音节的标准语音及其声学特征等作为标准参考模型,先设音素、音节、单词被用户朗读的时长为标准时长,即为音素、音节、单词在被标准发音朗读对应的时长,在被测用户朗读的语音上依次分拆该时长的语音段,进行比对获得最高分值的语音段,然后进行向前向后的加减时长的修正,获得音素、音节、单词较为匹配的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别一并保存。
所述一种基于语音训练克隆口音及声韵方法,还包括:一种声韵矫正的方法,目标克隆语音,其构成是一组语音片段单元,其内容为:y=( , , ,…..),调出语音片段单元对应的时长,获得s = ( , ,,…..),对语音帧时长进行叠加求和运算:
j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录,所述记录对应的语音通过分帧获得各帧的声强数据组,读取为b=(,,,…..),计算目标克隆语音y的在其内部帧单元的声强a=(,,,…..),从目标克隆语音的第一帧开始,修正声韵的声强强度,计算公式如下:
第i帧声强,声韵特征库中检索到合乎条件的第i帧声强,f为系统设置的声韵修正阀值,K为系统预设的声韵修正系数,在i小于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强,即i取值从1开始,递增1进行循环运算,直到不符合i值同时满足小于等于m、n的条件。
系统设置的声韵修正阀值f赋值为28dB,系统预设声韵修正系数k赋值为0.13。
附图说明
图1 为一种基于语音训练克隆口音及声韵方法整体逻辑框架图。
图2 为缓差对齐的语音合成矫正的方法中,两音素合成对齐矫正前后的语音强度对比波形示意图。
具体实施方式
具体的技术方案首先部署数据库、系统软硬件环境,配置用户注册模块、用户模块等常规系统的必要模块,还包括如下模块、步骤及要素。
步骤一、语音信息处理模块,收集来自于麦克风或智能设备中语音传感器的功能等等语音硬件的信号,将用户的说话的声音,形成信号输入系统,并将采集后的语音转换成语音数字信号推送或等待系统进行运算处理。
步骤二、构建低通滤波算法;为了最大限度的降低语音中的噪声,屏蔽语音信息里和用户语音内容不相关的内容,就需要进行过滤,容许低于截止频率的信号通过,截止高于截止频率的信号;一种实施例:采用巴特沃斯滤波算法构建低通滤波 ,巴特沃斯滤波的特点是通频带内的频率响应曲线最大限度平坦,没有起伏,而在阻频带则逐渐下降为零,采用的是巴特沃斯传递函数,允许从直流到某个截止频率(fCUTOFF) 的信号通过,将通用滤波器二阶传递函数的高通和带通系数均设为零,即得到一个低通滤波器传递公式,巴特沃斯低通滤波器可用如下振幅的平方对频率的公式表示:
优选地,根据所述的低通滤波传递公式,以MATLAB作为滤波的分析运算、编写程序的工具, 最新版本的MATLAB可以利用MATLAB编译器和C/C++数学库和图形库,将自己的MATLAB程序自动转换为独立于MATLAB运行的C和C++代码,允许用户编写可以和MATLAB进行交互的C或C++语言程序;因此滤波运算后的语音数据方便系统程序无缝对接。
步骤三、语音训练所用文本的选择方法:为充分获得用户语音的发音特征,训练文本必须涵盖有多样性的典型,本发明采用训练文本选择的方法有:
a、所用文本词句单词,需要至少一次涵盖所有的音素、特殊组合发音的音节。
b、设置不同长度的语句,以获得用户朗读时候的换气等必要动作所造成的声韵特征。
c、尽可能涵盖多种典型语气的文本语句,例如疑问句,惊讶句、兴奋句、严肃语句等等,以获得用户在不同文本内涵对语气声调影响的特征。
d、在系统中设置语调类,分别映射对应文本内容、音标、语音片段单元等,实施例:疑问声调、陈述声调、感叹声调等。
步骤四、创建用户音库,对所述用户对训练文本朗读的音频数据通过如上步骤1低通滤波等的解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长、等信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中。
所述创建用户音库,将经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本片段单元组对应的语音片段单元组y = (,,,…..),并将所述文本片段单元组的标准语音的时长分别调出,获得s = ( , ,,…..),即的标准时长是、的标准时长是,以此类推的标准时长是,所述标准时长即为语音片段单元在被标准发音朗读对应的时长,本文统称标准时长,用户语音训练英语朗读基于文本内容,采循环递推打分分拆识别法:
在被测用户朗读的语音上依次分拆y对应s时长的语音段,和y对应的标准语音之间的语音特征数据进行比对,获得最高分值的语音段,然后进行加减时长向前修正、向后修正,所述向前修正即为 s时长对应的在被测用户朗读的语音起点时间戳,依次减去设定时间段的数值设新的起点时间,取新起点时间戳和s时长对应的在被测用户朗读的语音终点时间戳之间的语音段,和对应的标准语音之间的语音特征比对获得分值,将分值最高的所述语音段所对应的在被测用户朗读的语音起点设为修正后的起点,依次类推所述向后修正,依次加上设定时间段的数值设新的终点时间,取新终点时间戳和对应的在被测用户朗读的向前修正后语音起点时间戳之间的语音段,和对应的标准语音之间的语音特征比对获得分值,将分值最高的所述语音段所对应的在被测用户朗读的语音终点时间戳设为修正后的终端时间戳,获得最高分值的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的文本、用户信息及根据文本特征认定的语调类别一并保存。
步骤五、创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通过如上步骤1低通滤波等的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值等信息保存到系统中用户信息的相关数据库的声韵特征库表格。
优选地,所述记录用户声韵特征信息,常规语音克隆技术所模拟的用户语音,只在音质上相近,缺少真人语音此起彼伏的声韵内容,因此本发明分析用户语音声调声韵特征,将既定时长的语音分解成既定时长帧集合,记载各帧段语音的平均声强或波幅,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵。
一种声韵特征记载的实施例:声音强度只能使用无纲量的相对单位,现在最常用的是分贝(decibel,缩写为dB)。通用计算公式如下
安卓系统中获得音源数据的类有两个:android.media.MediaRecorder和android.media.AudioRecord,通过申请语音接口权限:<uses-permission android:name="android.permission.RECORD_AUDIO" />获得音源数据的类:android.media.MediaRecorder和android.media.AudioRecord,经过本发明技术人员的多次试验,这两个类相比 使用android.media.AudioRecord的结果更为平稳,将语音数据用read(byte[] audioData, int offsetInBytes, int sizeInBytes)方法从缓冲区读取到系统预先设定的数组audioData后,再等待调用提高运算效率,为了避免极端异常的帧幅值的影响造成巨大误差。
优选地,将语音分成帧长为12ms的时间段获取其绝对值的平均值,使计算的结果更加稳定。
通过如上所述的方法求得各个语音帧时间段平均值之后,代入上述的公式3中,算出语音帧相对的分贝值,和用户信息,映射的音标等一并记载到系统中的声韵特征库。
步骤六、用户声韵特征库 根据用户音库实现语音克隆,在用户输入文本需要模拟克隆语音时候,首先以标点符号等文本特征识别文本语调类别,识别无结果是默认陈述语调。
进一步,将文本按照步骤三所述的方法分拆成音素、音节、单词,并根据所述分拆的特征文本在用户音库中检索其对应的语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类设为陈述的类别检索优选的结果。
步骤七、声韵矫正,每个人的语音会因换气习惯、肺活量等因素的影响,朗读不同长度的文本会有不同的声韵特征,根据目标克隆语音的预判时长对合成语音进行声韵矫正运算,使得克隆所得语音更加个性化。
一种声韵矫正的方法,语音帧时长进行叠加求和运算:
j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录。
读取记录中帧组声强数据组,读取为b=(,,,…..),,按照步骤五的技术方法,计算步骤六目标克隆语音y的在其内部帧单元的声强a=(,,,…..),从目标克隆语音的第一帧开始,修正声韵的声强强度,本发明独创的计算公式如下:
第i帧声强,声韵特征库中检索到合乎条件的第i帧声强,f为系统设置的声韵修正阀值,K为系统预设的声韵修正系数,在i小于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强,即i取值从1开始,递增1进行循环运算,直到不符合i值同时满足小于等于m、n的条件。
本发明通过实验优选地,系统设置的声韵修正阀值f赋值为28dB,系统预设声韵修正系数k赋值为0.13。
步骤八、缓差对齐矫正合成语音(阶差、 断点过渡修正),使用原声音库根据文本英标进行语音合成最大的技术困难在于被合成的语音单元之间音量及语调衔接往往是断崖式的落差,合成出的声音会变得非常刺耳机械,因此音素、语音片段合成时候需要做缓冲对齐的修正,才会让克隆出的语音平缓自然,本发明创建了一种缓差对齐的语音合成矫正的方法来克服这些技术缺陷。
通过步骤七,我们获得经过声韵语调修正过的目标克隆语音,其构成是一组被矫正运算过的语音片段单元,其内容为新值的:y=( , ,,…..);则每个相邻的语音片段单元就需要进行缓冲对齐的矫正,取任意两个相邻语音片段单元、进行矫正运算。
优选地,将帧长设定为12ms。
通过分帧,并通过步骤五所述的技术方法分别获得两组序列语音帧的声音强度组对应 为c=( , ,,…..)、对应为d=( , ,,…..),分别将、根据时间轴上的分布找到对应的时间段,根据时长分别获得、中语音帧的时间戳。
L为临界合成点声音强度。
通过以上所述及公式6、7、8,完成相邻语音片段单元的语音合成后赋值声音强度,通过循环依次将所有相邻的语音片段单元进行同样的矫正合成,强制对应音素强度为矫正计算后的强度,就能完成目标克隆语音整体的合成矫正,具体技术方法和效果参见附图图2示意图,得到声调和谐自然的克隆语音的效果。
通过上述的技术方案的语音克隆,从最为本源的用户训练语音中提取语音片段单元作为音库内容,比较全面的保留了用户个性化的语音中口音、音调等特征,这种技术方案的创造性在于个性化,和主流语音克隆技术的区别在于:使用原始因素修正后为合成的基础单元,不只为音质牺牲个性化的语音特征,独创了语音合成中涉及声韵、语调矫正的技术手法,相比于现有技术具有显著的进步。
特别申明:在本说明书中所述的 “实施例”等,指的是结合该实施例描述的具体特征、要素或者特点包括在本申请概括性描述的实施例中。在说明书中多个地方出现同种表述并非限定特指的是同一个实施例。也就是说,结合任一实施例描述一个具体特征、要素或者特点时,所要主张的是结合其他实施例来实现这种特征、要素或者特点被包含于本发明申请保护的权利要求范围中; 实施例是参照本发明逻辑架构及思路的多个解释性实施例对本发明进行了描述,但本发明的保护范围并不局限于此,本领域技术人员在本发明技术方案框架下可以设计出很多其他的修改和实施方式,可以对技术方案的要点变换组合/或布局进行多种非本质性变型和改进,对于本领域技术人员来说,其他的用途也将是明显的,可轻易想到实施的非实质性变化或替换,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (3)
1.一种基于语音训练克隆口音及声韵方法,其特征在于,包括:以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元,文本转语音时候,根据文本的语调和训练经验获得对应的音素单元:
a、训练所用文本词句单词,涵盖所有的音素、特殊组合发音的音节;
b、设置不同长度的语句,以获得用户朗读时候的换气必要动作所造成的声韵特征;
c、涵盖典型语气的文本语句,以获得用户在不同文本内涵意思,对语气声调影响的特征;
d、设置语调类,分别映射对应文本内容、音标、语音片段单元;
合成克隆语音, 包括如下要素:
将帧长设定为12ms,获得语音帧的声音强度:创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通低通滤波的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,将既定时长的语音分解成既定时长帧集合,记载各帧段语音的平均声强或波幅,作为用户的声韵特征标准;
分子是测量值的声压,分母设定为20微帕,公式3对 声压振 幅绝对平均值运算,求得各个语音帧时间段声压平均值之后,代入上述的公式3中,算出语音帧相对的分贝值,和用户信息,映射的音标一并记载到系统中的声韵特征库;
克隆语音中取任意两个相邻语音片段单元、,将、语音片段单元进行分帧,分别获得两组序列语音帧的声音强度组, 对应为c=( , , ,…..)、对应为d=( , , ,…..),分别将、根据时间轴上的分布找到对应的时间段;
L为临界合成点声音强度;
通过以上及公式6、7、8,完成相邻语音片段单元的语音合成后对应音素声音强度的新赋值,通过循环依次将所有相邻的语音片段单元进行同样的矫正合成,强制对应音素强度为矫正计算后的强度。
2.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征在于,包括:创建用户音库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中;
创建用户声韵特征库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵;
根据用户音库实现语音克隆, 在用户输入文本需要模拟克隆语音时,首先以标点符号文本特征识别文本语调类别,识别无结果是默认陈述语调,进一步,将文本分拆成音素、音节、单词,并根据分拆的特征文本在用户音库中检索其对应的语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类设为陈述的类别检索;
所述创建用户音库,将经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本片段单元组对应的语音片段单元组y = ( , , ,…..),并将所述文本片段单元组的标准语音的时长分别调出,获得s = ( , , ,…..),即的标准时长是、的标准时长是,以此类推的标准时长是,用户语音训练英语朗读基于文本内容,采循环递推打分分拆识别法:首先将文本分拆成单词组、音素、音节组,以单词、音素、音节的标准语音及其声学特征等作为标准参考模型,先设音素、音节、单词被用户朗读的时长为标准时长,即为音素、音节、单词在被标准发音朗读对应的时长,在被测用户朗读的语音上依次分拆该时长的语音段,进行比对获得最高分值的语音段,然后进行向前向后的加减时长的修正,获得音素、音节、单词较为匹配的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别一并保存。
3.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征在于,包括:一种声韵矫正的方法,以权利要求1中所述目标克隆语音,其构成是一组语音片段单元,其内容为:y=( , , ,…..),调出y语音片段单元对应的时长,获得s = ( , , ,…..),对语音帧时长进行叠加求和运算:
j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录,所述记录对应的语音通过分帧获得各帧的声强数据组,读取为b=(, , ,…..),计算目标克隆语音y的在其内部帧单元的声强a=(, , ,…..),从目标克隆语音的第一帧开始,修正声韵的声强强度,计算公式如下:
为 第i帧声强,为 声韵特征库中检索到合乎条件的第i帧声强 , f为系统设置的声韵修正阀值,K为系统预设的声韵修正系数,在i小于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强,即i取值从1开始,递增1进行循环运算,直到不符合i值同时满足小于等于m、n的条件;
系统设置的声韵修正阀值f赋值为28dB,系统预设声韵修正系数k赋值为0.13。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420416.1A CN110136687B (zh) | 2019-05-20 | 2019-05-20 | 一种基于语音训练克隆口音及声韵方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420416.1A CN110136687B (zh) | 2019-05-20 | 2019-05-20 | 一种基于语音训练克隆口音及声韵方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110136687A CN110136687A (zh) | 2019-08-16 |
CN110136687B true CN110136687B (zh) | 2021-06-15 |
Family
ID=67571554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910420416.1A Active CN110136687B (zh) | 2019-05-20 | 2019-05-20 | 一种基于语音训练克隆口音及声韵方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110136687B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503956B (zh) * | 2019-09-17 | 2023-05-12 | 平安科技(深圳)有限公司 | 语音识别方法、装置、介质及电子设备 |
CN110889987A (zh) * | 2019-12-16 | 2020-03-17 | 安徽必果科技有限公司 | 一种用于英语口语矫正的智能点评方法 |
SG10201912562SA (en) * | 2019-12-18 | 2021-07-29 | Yitu Pte Ltd | A training method, a readable storage medium and a voice cloning method for a voice cloning model |
CN112786026A (zh) * | 2019-12-31 | 2021-05-11 | 深圳市木愚科技有限公司 | 基于语音迁移学习的亲子故事个性化音频生成系统及方法 |
CN111048064B (zh) * | 2020-03-13 | 2020-07-07 | 同盾控股有限公司 | 基于单说话人语音合成数据集的声音克隆方法及装置 |
CN111681635A (zh) * | 2020-05-12 | 2020-09-18 | 深圳市镜象科技有限公司 | 基于小样本的语音实时克隆的方法、装置、设备和介质 |
CN112102808A (zh) * | 2020-08-25 | 2020-12-18 | 上海红阵信息科技有限公司 | 用于伪造语音的深度神经网络的构建方法及系统 |
CN113160794B (zh) * | 2021-04-30 | 2022-12-27 | 京东科技控股股份有限公司 | 基于音色克隆的语音合成方法、装置及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1954361A (zh) * | 2004-05-11 | 2007-04-25 | 松下电器产业株式会社 | 声音合成装置和方法 |
CN101606190A (zh) * | 2007-02-19 | 2009-12-16 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法及程序 |
CN105304080A (zh) * | 2015-09-22 | 2016-02-03 | 科大讯飞股份有限公司 | 语音合成装置及方法 |
CN106297765A (zh) * | 2015-06-04 | 2017-01-04 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7797146B2 (en) * | 2003-05-13 | 2010-09-14 | Interactive Drama, Inc. | Method and system for simulated interactive conversation |
US8219398B2 (en) * | 2005-03-28 | 2012-07-10 | Lessac Technologies, Inc. | Computerized speech synthesizer for synthesizing speech from text |
CN100347741C (zh) * | 2005-09-02 | 2007-11-07 | 清华大学 | 移动语音合成方法 |
CN109493846B (zh) * | 2018-11-18 | 2021-06-08 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
-
2019
- 2019-05-20 CN CN201910420416.1A patent/CN110136687B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1954361A (zh) * | 2004-05-11 | 2007-04-25 | 松下电器产业株式会社 | 声音合成装置和方法 |
CN101606190A (zh) * | 2007-02-19 | 2009-12-16 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法及程序 |
CN106297765A (zh) * | 2015-06-04 | 2017-01-04 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
CN105304080A (zh) * | 2015-09-22 | 2016-02-03 | 科大讯飞股份有限公司 | 语音合成装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110136687A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136687B (zh) | 一种基于语音训练克隆口音及声韵方法 | |
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
DK175374B1 (da) | Fremgangsmåde ved og udstyr til talesyntese ved sammenlægning-overlapning af bölgesignaler | |
US20050171778A1 (en) | Voice synthesizer, voice synthesizing method, and voice synthesizing system | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2002014689A (ja) | デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 | |
KR100659212B1 (ko) | 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법 | |
CN102473416A (zh) | 音质变换装置及其方法、元音信息制作装置及音质变换系统 | |
Abushariah et al. | Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems | |
JP2006337667A (ja) | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 | |
CN111739536A (zh) | 一种音频处理的方法和装置 | |
CN112927677B (zh) | 语音合成方法和装置 | |
Zhang et al. | AccentSpeech: learning accent from crowd-sourced data for target speaker TTS with accents | |
US7139708B1 (en) | System and method for speech recognition using an enhanced phone set | |
Cahyaningtyas et al. | Development of under-resourced Bahasa Indonesia speech corpus | |
CN113314109B (zh) | 一种基于循环生成网络的语音生成方法 | |
JP3841596B2 (ja) | 音素データの生成方法及び音声合成装置 | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP7069386B1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
Evain et al. | Beatbox sounds recognition using a speech-dedicated HMM-GMM based system | |
CN114359450A (zh) | 一种模拟虚拟人物说话的方法及装置 | |
CN114927122A (zh) | 一种情感语音的合成方法及合成装置 | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |