CN111179902B - 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质 - Google Patents

基于高斯模型模拟共鸣腔的语音合成方法、设备及介质 Download PDF

Info

Publication number
CN111179902B
CN111179902B CN202010011587.1A CN202010011587A CN111179902B CN 111179902 B CN111179902 B CN 111179902B CN 202010011587 A CN202010011587 A CN 202010011587A CN 111179902 B CN111179902 B CN 111179902B
Authority
CN
China
Prior art keywords
model
speaker
condition
speech
resonance cavity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010011587.1A
Other languages
English (en)
Other versions
CN111179902A (zh
Inventor
张广学
肖龙源
蔡振华
李稀敏
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010011587.1A priority Critical patent/CN111179902B/zh
Publication of CN111179902A publication Critical patent/CN111179902A/zh
Application granted granted Critical
Publication of CN111179902B publication Critical patent/CN111179902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及介质,所述方法包括:分别构建说话人基频模型、强度模型、共鸣腔模型;获取被模拟说话人的基本语音;提取被模拟人正常情况下、异常情况下说话时的语速特征和/或强度特征;与现有强度模型进行匹配;若找到,相似的,则以该模型替换被模拟说话人的强度模型;提取被模拟说话人对元音因素的发音部分,并通过高斯模型来拟合该元音特征;通过相似度来调整高斯模型的参数;获取该音素的共鸣腔模型;输入待语音合成文本,输出模拟语音,本发明可以有效模拟目标人话语;可拓展性较强,适应人发生结构变化特征;仅需较少的被模拟人语音即可完成模型训练。

Description

基于高斯模型模拟共鸣腔的语音合成方法、设备及介质
技术领域
本发明涉及语音合成领域,尤其涉及一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及介质。
背景技术
在导航、阅读、自动规划、自动提醒等方面,语音合成技术都有很大的应用场景。一个好的语音合成技术,可以很好的模拟人的声音和语气,达到以假乱真的程度。发音器官可以分为声门下系统、喉系统和声门上系统(共鸣腔)等三部分。现有的语音合成技术,对说话人在各种情况下的语速/能量控制效果不佳,不够自然。另外,需要从被模拟人处收集较多的语料,进而进行语音合成。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提出一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及存储介质,旨在在实现一个好的语音合成模型,本发明的设计构思主要分为三个部分,基频模型、强度模型、共鸣腔模型。其中,基频部分为被模拟人发不同音素时的语音基频,语速模块则为被模拟人正常、生气、高兴等情况下的说话语速/强度,共鸣腔模型则为说话人区别于其他人的声音特征的。
为达成上述目的,本发明的技术方案如下:
本发明提供了一种基于高斯模型模拟共鸣腔的语音合成方法,包括步骤一至步骤七:
步骤一,分别构建说话人基频模型、强度模型、共鸣腔模型;
所述构建说话人基频模型具体包括如下步骤:
采集说话人正常情况下进行元音音素发音时的基频特征,
根据上一步骤所述的基频特征构建该说话人相应元音音素的基频模型;
所述构建说话人强度模型具体包括如下步骤:
采集一定数量的人在正常情况下、异常情况下的语音;
通过声学模型确定各个元音音素的位置;
通过声学模型训练元音音素在正常情况下相应的转变特征、能量和语速模型;
通过声学模型训练元音音素在异常情况下相应的转变特征、能量和语速模型;
所述构建说话人共鸣腔模型具体包括如下步骤:
获取说话人的语音;
通过高斯模型模拟说话人在发不同元音时的共鸣腔特征;
步骤二,获取被模拟说话人的基本语音;提取被模拟人正常情况下说话时的语速特征和/或强度特征,提取被模拟人异常情况下说话时的语速特征和/或强度特征;
步骤三,与现有强度模型进行匹配;若找到相似的,则以该模型替换被模拟说话人的强度模型;
步骤四,提取被模拟说话人对元音的发音部分,并通过高斯模型来拟合该元音特征;
步骤五,通过相似度来调整高斯模型的参数;当高斯模型的拟合度达到预定值时,获取该音素的共鸣腔模型;
步骤六,输入待语音合成文本,通过说话人基频模型和说话人共鸣腔模型,模拟出每个字的发音;
步骤七,输出模拟语音。
进一步的,在本发明优选实施例中,所述声学模型为TDNN模型。所述声学模型还可以为GMM模型,RNN模型,CNN模型等模型。
进一步的,步骤七中,所述输出模拟语音具体实现方法为:通过文本情感分析,判断说话人的情绪;根据情感分析,调整语速和强度,输出模拟语音。
进一步的,通过高斯模型模拟说话人在发不同元音时的共鸣腔特征步骤中,对未收集到的元音音素,则通过发音相似人的共鸣腔特征进行替换。
进一步的,所述异常情况下的语音包括以下生气情况下的语音、高兴情况下的语音、生病情况下的语音、惊吓情况下的语音、愤怒情况下的语音、拘谨情况下的语音中的一种、或任意多种;
当异常情况为生气情况下,则通过声学模型训练元音音素在生气情况下相应的转变特征、能量和语速模型;当异常情况为高兴情况下,则通过声学模型训练元音音素在高兴情况下相应的转变特征、能量和语速模型;当异常情况为生病情况下,则通过声学模型训练元音音素在生病情况下相应的转变特征、能量和语速模型;当异常情况为惊吓情况下,则通过声学模型训练元音音素在惊吓情况下相应的转变特征、能量和语速模型;当异常情况为愤怒情况下,则通过声学模型训练元音音素在愤怒情况下相应的转变特征、能量和语速模型;当异常情况为拘谨情况下,则通过声学模型训练元音音素在拘谨情况下相应的转变特征、能量和语速模型。
需要说明的,通常情况下,所述异常情况下包含三左右的异常情况,可以根据选择设置多种的异常情况。
进一步的,所述从步骤二提取的被模拟人的语速特征和/或强度特征与现有强度模型进行匹配,具体为:提取说话人正常情况时和/或异常情况时的语速、强度特征,将该特征与现有强度模型进行匹配,查找各种情况下的相似度,并根据相似度选取与被模拟人相似的强度模型。
进一步的,上述方法中,基于权重方式来选取与说话人相似的强度模型。
进一步的,所述通过相似度来调整高斯模型的参数,具体为:
当说话人发一个元音时,则对该元音发音时的共鸣腔建立高斯模型,依次使用多个元音发音时的共鸣腔特征来调整高斯模型的参数。
另外,本发明还提供了一种终端设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述的基于高斯模型模拟共鸣腔的语音合成方法步骤。
另外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行上述的基于高斯模型模拟共鸣腔的语音合成方法步骤。
通过本发明的基于高斯模型模拟共鸣腔的语音合成方法、终端设备及存储介质,与现有技术,可以达到以下的有益效果:
(1)本发明通过三个模型来模拟目标人说话,可应用在导航、阅读、自动规划、自动提醒等方面,可以有效模拟目标人话语;
(2)本发明可拓展性较强,适应人发生结构变化特征;
(3)需要较少的被模拟人语音即可完成模型训练。
附图说明
此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种基于高斯模型模拟共鸣腔的语音合成方法的流程步骤图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。下面通过实施例一、二对本发明提供的基于高斯模型模拟共鸣腔的语音合成方法进行详细阐述。
实施例一
本发明实施例提供了一种基于高斯模型模拟共鸣腔的语音合成方法,包括如下步骤:
步骤S1,分别构建说话人基频模型、强度模型、共鸣腔模型;
所述构建说话人基频模型具体包括如下步骤:
采集说话人正常情况下进行元音音素发音时的基频特征;
采集说话人正常情况下进行元音音素发音时的基频特征,即正常情况下为被模拟者日常交流且情绪波动不大的情况下的说话特征,相反地,被模拟者日常交流且情绪波动大的情况下的说话特征为异常情况下。
根据上一步骤所述的基频特征构建该说话人相应元音音素的基频模型;相应的元音音素包括a、e、i、o、ang、ing、eng等一些元音。
所述构建说话人强度模型具体包括如下步骤:
采集一定数量的人在正常情况下、异常情况下的语音;在本发明实施例中,采集说话人的语音应该包括各地方言、普通话说话者,并且每类说话者至少一千人以上,且男女、老幼分布平均。
通过声学模型确定各个元音音素的位置;
通过声学模型(如TDNN模型)训练元音音素在正常情况下的相应转变特征、能量和语速模型;
通过声学模型(如TDNN模型)训练元音音素在异常情况下相应的转变特征、能量和语速模型;
TDNN模型为时延神经网络(TDNN),时延神经网络是多层的,每层对特征有较强的抽象能力,有能力表达语音特征在时间上的关系,具有时间不变性,习过程中不要求对所学的标记进行精确的时间定为,通过共享权值,方便学习。
通过声学模型(如TDNN模型)声学模型确定各个元音音素的位置,具体而言为:
通过TDNN模型训练元音音素在正常情况下相应的转变特征、能量和语速模型;
通过TDNN模型训练元音音素在异常情况下相应的转变特征、能量和语速模型;
所述转变特征为辅音-元音结合处的过渡音征问题,能量即为说话人发音时的普遍能量强度,可以理解为强度或能量强度。将转变特征、能量都放在了语速模型这个模块,语速的变化会影响转变特征和能量,有一种内在关联特征。
在语音对齐之后,可以通过声学模型知道该处的元音是何种元音。进而,通过进行相应特征的提取和训练。
需要说明的是,本发明所述的声学模型不限于本发明实施所举例的TDNN模型,还可以为GMM模型(混合高斯模型),RNN模型(递归神经网络模型),CNN模型(卷积神经网络模型)等。
所述异常情况下的语音包括生气情况下的语音、高兴情况下的语音、生病情况下、惊吓情况下、愤怒情况下、拘谨情况下的语音中的一种、或任意多种;
当异常情况为生气情况下,则通过TDNN模型训练元音音素在生气情况下相应的转变特征、能量和语速模型;当异常情况为高兴情况下,则通过TDNN模型训练元音音素在高兴情况下相应的转变特征、能量和语速模型;当异常情况为生病情况下,则通过TDNN模型训练元音音素在生病情况下相应的转变特征、能量和语速模型。当异常情况为惊吓情况下,则通过声学模型训练元音音素在惊吓情况下相应的转变特征、能量和语速模型;当异常情况为愤怒情况下,则通过声学模型训练元音音素在愤怒情况下相应的转变特征、能量和语速模型;当异常情况为拘谨情况下,则通过声学模型训练元音音素在拘谨情况下相应的转变特征、能量和语速模型。
在本发明实施例中,通过TDNN模型训练元音音素在生气情况下相应的转变特征、能量和语速模型;通过TDNN模型训练元音音素在高兴情况下相应的转变特征、能量和语速模型;通过TDNN模型训练元音音素在生病情况下相应的转变特征、能量和语速模型;
所述构建说话人共鸣腔模型具体包括如下步骤:
获取说话人的语音;
通过高斯模型模拟说话人在发不同元音时的共鸣腔特征;不同元音指a、e、i、o、ang、ing、eng等一些元音,进一步,最好能采集正常、异常情况下的各个元音的发音,即使不能亦可匹配现有模型,找最相似的人共鸣腔特征代替。
步骤S2,获取被模拟说话人的基本语音;需要说明的是,基本语音为一段语音包含正常情况下的语音和异常情况下的语音。
提取被模拟人正常情况下说话时的语速特征和/或强度特征,和/或提取被模拟人异常情况下说话时的语速特征和/或强度特征;
步骤S3,从步骤二提取的被模拟人的语速特征和/或强度特征与现有强度模型进行匹配;若找到相似的,则以该模型替换被模拟说话人的语速模型;
语速模型即指说话人在各种情况下的说话语速以及说话过程中的声音大小(也称响度),这部分属于语速模型。通过提取说话人在该种状态下(如正常、生气、高兴等)的说话语速和强度特征,将这些特征与现有模型中的类似状态下的语速、强度模型进行比较,查找最为相似的模型。
相似即为与被模拟人说话语速相近,声音大小等特征相似度较高,该模型即为模型里边匹配度较高的所存说话人的强度模型。
从步骤二提取的被模拟人的语速特征和/或强度特征与现有强度模型进行匹配,具体为:提取说话人正常情况时和/异常情况时(如生气情况时、和/或高兴情况时、和/或生病情况时)的语速、强度特征,将该特征与现有强度模型进行匹配,查找各种情况下的相似度,最后,基于权重方式来选取与说话人相似的强度模型。
步骤S4,提取被模拟说话人对元音的发音部分,并通过高斯模型来拟合该元音特征;
步骤S5,通过相似度来调整高斯模型的参数;当高斯模型的拟合度达到预定值时,获取该音素的共鸣腔模型;所述相似度即为高斯模型所模拟的特征与元音发音时的特征的相似度,即为高斯模型模拟元音发音特征的切合度。被模拟元音的,元音有多个,每一个都需要进行高斯模型模拟。
所述通过相似度来调整高斯模型的参数,具体为:
当说话人发一个元音时,则对该元音发音时的共鸣腔建立高斯模型。之后,依次使用多个元音发音时的共鸣腔特征来调整高斯模型的参数。辨别标准为,调整后的高斯模型与各个元音发音时的共鸣腔特征相似度最高。
步骤S6,输入待语音合成文本,通过说话人基频模型和说话人共鸣腔模型,模拟出每个字的发音;
步骤S7,输出模拟语音。
其中,在本发明进一步优选实施例中,所述输出模拟语音具体为:
将待语音合成文本通过文本情感分析,判断说话人的情绪;
根据文本情感分析的判断说话人的情绪,调整语速和强度,输出模拟语音。
进一步,通过高斯模型模拟说话人在发不同元音时的共鸣腔特征步骤中,对未收集到的元音音素,则通过发音相似人的共鸣腔特征进行替换。
找到相似说话人之后,即可认为这两个人所有元音音素发音时的共鸣腔特征相似。
实施例二
本发明实施例提供了一种终端设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行实现基于高斯模型模拟共鸣腔的语音合成方法步骤,所述至少一个处理器执行实现基于高斯模型模拟共鸣腔的语音合成方法步骤与具体实施例1相同,本发明在此不再赘述。
实施例三
一种计算机可读存储介质,所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现一种基于高斯模型模拟共鸣腔的语音合成方法步骤。所述至少一个处理器执行实现基于高斯模型模拟共鸣腔的语音合成方法步骤与具体实施例1相同,本发明在此不再赘述。
以上所述的实施例仅是本发明的优选实施方式,应当指出,对本领域普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和浸润,这些改进和浸润也应该视为本发明的保护范围。

Claims (9)

1.一种基于高斯模型模拟共鸣腔的语音合成方法,其特征在于,所述方法,包括:
步骤一,分别构建说话人基频模型、强度模型、共鸣腔模型;
所述构建说话人基频模型具体包括如下步骤:
采集说话人正常情况下进行元音音素发音时的基频特征,
根据上一步骤所述的基频特征构建该说话人相应元音音素的基频模型;
所述构建说话人强度模型具体包括如下步骤:
采集一定数量的人在正常情况下、异常情况下的语音;
通过声学模型确定各个元音音素的位置;
通过声学模型训练元音音素在正常情况下相应的转变特征、能量和语速模型;
通过声学模型训练元音音素在异常情况下相应的转变特征、能量和语速模型;
所述转变特征为辅音-元音结合处的过渡音征;
所述构建说话人共鸣腔模型具体包括如下步骤:
获取说话人的语音;
通过高斯模型模拟说话人在发不同元音时的共鸣腔特征;
步骤二,获取被模拟说话人的基本语音;提取被模拟人正常情况下说话时的语速特征和/或强度特征,提取被模拟人异常情况下说话时的语速特征和/或强度特征;
步骤三,与现有强度模型进行匹配;若找到相似的,则以该模型替换被模拟说话人的强度模型;
步骤四,提取被模拟说话人对元音的发音部分,并通过高斯模型来拟合该元音特征;
步骤五,通过相似度来调整高斯模型的参数;当高斯模型的拟合度达到预定值时,获取该音素的共鸣腔模型;
步骤六,提取并输入待语音合成文本,通过说话人基频模型和说话人共鸣腔模型,模拟出每个字的发音;
步骤七,输出模拟语音。
2.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法,其特征在于,
所述声学模型为TDNN模型。
3.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法,其特征在于,步骤七中,所述输出模拟语音具体实现方法为:
通过文本情感分析,判断说话人的情绪;
根据情感分析,调整语速和强度,输出模拟语音。
4.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法,其特征在于,
通过高斯模型模拟说话人在发不同元音时的共鸣腔特征步骤中,对未收集到的元音音素,则通过发音相似人的共鸣腔特征进行替换。
5.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法,其特征在于,
所述异常情况下的语音包括以下生气情况下的语音、高兴情况下的语音、生病情况下的语音、惊吓情况下的语音、愤怒情况下的语音、拘谨情况下的语音中的一种、或任意多种;
当异常情况为生气情况下,则通过声学模型训练元音音素在生气情况下相应的转变特征、能量和语速模型;
当异常情况为高兴情况下,则通过声学模型训练元音音素在高兴情况下相应的转变特征、能量和语速模型;
当异常情况为生病情况下,则通过声学模型训练元音音素在生病情况下相应的转变特征、能量和语速模型;
当异常情况为惊吓情况下,则通过声学模型训练元音音素在惊吓情况下相应的转变特征、能量和语速模型;
当异常情况为愤怒情况下,则通过声学模型训练元音音素在愤怒情况下相应的转变特征、能量和语速模型;
当异常情况为拘谨情况下,则通过声学模型训练元音音素在拘谨情况下相应的转变特征、能量和语速模型。
6.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法,其特征在于,
所述从步骤二提取的被模拟人的语速特征和/或强度特征与现有强度模型进行匹配,具体为:
提取说话人正常情况时和/或异常情况时的语速、强度特征,将该特征与现有强度模型进行匹配,查找各种情况下的相似度,并根据相似度选取与被模拟人相似的强度模型。
7.根据权利要求1所述的基于高斯模型模拟共鸣腔的语音合成方法,其特征在于,
所述通过相似度来调整高斯模型的参数,具体为:
当所述说话人发一个元音时,则对该元音发音时的共鸣腔建立高斯模型,依次使用多个元音发音时的共鸣腔特征来调整高斯模型的参数。
8.一种终端设备,其特征在于,
所述终端设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行实现如权利要求1至7任一项所述的基于高斯模型模拟共鸣腔的语音合成方法步骤。
9.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质上存储有处理系统,所述处理系统被处理器执行时实现权利要求1至7中任一项所述的基于高斯模型模拟共鸣腔的语音合成方法步骤。
CN202010011587.1A 2020-01-06 2020-01-06 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质 Active CN111179902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010011587.1A CN111179902B (zh) 2020-01-06 2020-01-06 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010011587.1A CN111179902B (zh) 2020-01-06 2020-01-06 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质

Publications (2)

Publication Number Publication Date
CN111179902A CN111179902A (zh) 2020-05-19
CN111179902B true CN111179902B (zh) 2022-10-28

Family

ID=70649288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010011587.1A Active CN111179902B (zh) 2020-01-06 2020-01-06 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质

Country Status (1)

Country Link
CN (1) CN111179902B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1795491A (zh) * 2003-03-27 2006-06-28 法国电讯 分析基频信息的方法以及实现所述分析方法的话音转换方法和系统
WO2006082287A1 (fr) * 2005-01-31 2006-08-10 France Telecom Procede d'estimation d'une fonction de conversion de voix
CN106057192A (zh) * 2016-07-07 2016-10-26 Tcl集团股份有限公司 一种实时语音转换方法和装置
CN108597492A (zh) * 2018-05-02 2018-09-28 百度在线网络技术(北京)有限公司 语音合成方法和装置
US10510358B1 (en) * 2017-09-29 2019-12-17 Amazon Technologies, Inc. Resolution enhancement of speech signals for speech synthesis

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014058270A1 (en) * 2012-10-12 2014-04-17 Samsung Electronics Co., Ltd. Voice converting apparatus and method for converting user voice thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1795491A (zh) * 2003-03-27 2006-06-28 法国电讯 分析基频信息的方法以及实现所述分析方法的话音转换方法和系统
WO2006082287A1 (fr) * 2005-01-31 2006-08-10 France Telecom Procede d'estimation d'une fonction de conversion de voix
CN106057192A (zh) * 2016-07-07 2016-10-26 Tcl集团股份有限公司 一种实时语音转换方法和装置
US10510358B1 (en) * 2017-09-29 2019-12-17 Amazon Technologies, Inc. Resolution enhancement of speech signals for speech synthesis
CN108597492A (zh) * 2018-05-02 2018-09-28 百度在线网络技术(北京)有限公司 语音合成方法和装置

Also Published As

Publication number Publication date
CN111179902A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN107221318B (zh) 英语口语发音评分方法和系统
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
CN107103900A (zh) 一种跨语言情感语音合成方法及系统
CN103928023A (zh) 一种语音评分方法及系统
JP2017058513A (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
Ahsiah et al. Tajweed checking system to support recitation
CN110598208A (zh) Ai/ml增强发音课程设计和个性化练习计划方法
Nanavare et al. Recognition of human emotions from speech processing
CN109300339A (zh) 一种英语口语的练习方法及系统
CN112599113A (zh) 方言语音合成方法、装置、电子设备和可读存储介质
Peabody et al. Towards automatic tone correction in non-native mandarin
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Huang et al. English mispronunciation detection based on improved GOP methods for Chinese students
CN111179902B (zh) 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质
Krug et al. Articulatory synthesis for data augmentation in phoneme recognition
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
KR102274766B1 (ko) 외국어 초보 학습자를 위한 발음 예측 및 평가시스템
Li et al. Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models
Minematsu Pronunciation assessment based upon the compatibility between a learner's pronunciation structure and the target language's lexical structure.
Yamashita et al. Automatic scoring for prosodic proficiency of English sentences spoken by Japanese based on utterance comparison
Li et al. English sentence pronunciation evaluation using rhythm and intonation
Gao et al. An investigation of the target approximation model for tone modeling and recognition in continuous Mandarin speech
Alam et al. Bangla Speaker Accent Variation Classification from Audio Using Deep Neural Networks: A Distinct Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant