CN107833572A - 一种模拟用户说话的语音合成方法及系统 - Google Patents
一种模拟用户说话的语音合成方法及系统 Download PDFInfo
- Publication number
- CN107833572A CN107833572A CN201711080690.6A CN201711080690A CN107833572A CN 107833572 A CN107833572 A CN 107833572A CN 201711080690 A CN201711080690 A CN 201711080690A CN 107833572 A CN107833572 A CN 107833572A
- Authority
- CN
- China
- Prior art keywords
- voice
- synthesis
- pronunciation
- analog
- analog voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 22
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 87
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 8
- 239000003999 initiator Substances 0.000 claims description 7
- 238000004088 simulation Methods 0.000 abstract description 13
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种模拟用户说话的语音合成方法及系统,属于语音合成技术领域;方法包括步骤S1,获取外部输入的一段待模拟语音;步骤S2,将待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本;步骤S3,根据待模拟语音分别处理得到发音文本中每个基本音子的发音时段信息;步骤S4,将发音文本和发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中,以得到对应于待模拟语音的合成语音并输出。系统包括语音获取单元、语音识别单元、处理单元以及合成单元。上述技术方案的有益效果是:体现语音模拟应用的音色一致性,突出应用本身的个性特点,同时提供给用户更有特色的合成语音,提升用户的使用体验。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种模拟用户说话的语音合成方法及系统。
背景技术
随着语音识别和语音合成技术的日渐发展,越来越多具有趣味性的语音模拟应用进入人们的娱乐生活。语音模拟应用的作用主要为模仿用户说话,即用户说一句话,语音模拟应用可以直接对用户的语音进行变声处理再输出,以达到“学舌”的娱乐目的。
现有的语音模拟应用通常只是对用户输入的语音进行简单的变换处理就输出来达到模拟用户说话的目的。例如对于不同音色的声音输入,语音模拟应用会进行相同的变换(例如对基频、音色或者语速进行简单的变换处理),所得到的声音音色仍然是各不相同的,这样的后果是应用本身的音色没有一致性,给用户的体验就像面对一面镜子的感觉,
发明内容
根据现有技术中存在的上述问题,现提供一种模拟用户说话的语音合成方法及系统的技术方案,旨在体现语音模拟应用的音色一致性,突出应用本身的个性特点,同时提供给用户更有特色的合成语音,提升用户的使用体验。
上述技术方案具体包括:
一种模拟用户说话的语音合成方法,其中,包括:
步骤S1,获取外部输入的一段待模拟语音;
步骤S2,将所述待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本;
步骤S3,根据所述待模拟语音分别处理得到所述发音文本中每个基本音子的发音时段信息;
步骤S4,将所述发音文本和所述发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中,以得到对应于所述待模拟语音的合成语音并输出。
优选的,该语音合成方法,所述步骤S3中,所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。
优选的,该语音合成方法,其中,所述步骤S3中,采用维特比方法分别处理得到每个所述基本音子的所述发音时段信息。
优选的,该语音合成方法,其中,所述步骤S1中,在获取所述待模拟语音时,获取所述待模拟语音的基频信息;
则所述步骤S4中,将所述待模拟语音的所述基频信息作为所述语音合成器的基频信息,以处理得到所述合成语音。
优选的,该语音合成方法,其中,所述步骤S4中,采用所述语音合成器中预设的音色处理得到所述合成语音。
一种模拟用户说话的语音合成系统,其中,包括:
语音获取单元,用于获取外部输入的一段待模拟语音;
语音识别单元,连接所述语音获取单元,用于将所述待模拟语音识别为对应的发音文本,所述发音文本中包括多个顺序排列的基本音子;
处理单元,连接所述语音识别单元,用于根据所述待模拟语音分别处理得到所述发音文本中每个基本音子的发音时段信息;
合成单元,分别连接所述处理单元和所述语音获取单元,所述合成单元中预先训练形成一语音合成模型,所述合成单元用于将所述发音文本和所述发音时段信息所述语音合成模型中,以得到对应于所述待模拟语音的合成语音并输出。
优选的,该语音合成系统,其中,所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。
优选的,该语音合成系统,其中,所述语音获取单元具体包括:
第一获取模块,用于获取所述待模拟语音;
第二获取模块,连接所述第一获取模块,用于获取所述待模拟语音的基频信息;
则所述合成单元将所述待模拟语音的所述基频信息作为在所述语音合成模型中进行语音合成时应用的基频信息,以处理得到所述合成语音。
优选的,该语音合成系统,其中,所述合成单元为语音合成器。
优选的,该语音合成系统,其中,于所述语音合成器中预先设置有用于形成预设的音色的合成器参数;
所述合成单元采用所述合成器参数,以所述预设的音色处理得到所述合成语音。
上述技术方案的有益效果是:
1)提供一种模拟用户说话的语音合成方法,能够体现语音模拟应用的音色一致性,突出应用本身的个性特点,同时提供给用户更有特色的合成语音,提升用户的使用体验。
2)提供一种模拟用户说话的语音合成系统,能够支持实现上述语音合成方法。
附图说明
图1是本发明的较佳的实施例中,一种模拟用户说话的语音合成方法的总体流程示意图;
图2是本发明的较佳的实施例中,一种模拟用户说话的语音合成方法的总体结构示意图;
图3是本发明的较佳的实施例中,于图2的基础上,语音获取单元的具体结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
根据现有技术中存在的上述问题,现提供一种模拟用户说话的语音合成方法,该方法可以适用在语音模拟应用中。
该方法具体如图1中所示,包括:
步骤S1,获取外部输入的一段待模拟语音;
步骤S2,将待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本;
步骤S3,根据待模拟语音分别处理得到发音文本中每个基本音子的发音时段信息;
步骤S4,将发音文本和发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中,以得到对应于待模拟语音的合成语音并输出。
具体地,本实施例中,上述步骤S1中,首先获取用户输入到语音模拟应用中的一段语音,并将这段语音视作待模拟语音。在用户结束语音输入后,将这段待模拟语音送入后续进行语音识别和模拟合成语音的过程中。
本实施例中,上述步骤S2中,采用语音识别技术将待模拟语音识别为对应的发音文本,上述语音识别过程中,可以采用现有的语音识别技术来将语音识别为对应的文本,在此不再赘述。
本实施例中,上述发音文本中的每个文字都可以由对应的基本音子(即音素)构成,具体地可以参照现有技术中各自语言的音子对照表来将上述发音文本中的每个文字转换成对应的基本音子。
随后,上述步骤S3中,分别获取每个基本音子的发音时段信息。具体地,通过对待模拟语音的变换和分析可以获知每个基本音子在待模拟语音中对应的位置,随后可以采用得到每个基本音子在待模拟语音中对应的发音时段,并且以发音时段信息来表示。
本实施例中,最终将上述发音文本以及文本中每个基本音子的发音时段信息送入语音合成器中,以合成得到模拟用户发音的合成语音。具体地,上述语音合成器中预先训练形成了一语音合成模型。该语音合成模型采用现有技术中的语音合成模型实现,例如采用一些通用的TTS(从文本到语言,Text To Speech)引擎来实现上述语音合成模型。基于上述理由,本发明技术方案中不再赘述上述语音合成模型的具体构成、训练步骤以及采用该语音合成模型合成语音等具体过程。
本发明的较佳的实施例中,上述发音时段信息包括基本音子的起始发音时刻和终止发音时刻。换言之,本发明技术方案中,采用一个基本音子的起始发音时刻和终止发音时刻来定义该基本音子在整段待模拟语音中所处的发音时间。并且,用户说话的节奏反映为语音中各基本音子的发音持续时间长短的变化,例如音子的发音持续时间越长说明用户说话越缓慢,对应地音子的发音时间越短说明用户说话越急促。当将所有基本音子的发音时段信息被确定之后,整段待模拟语音的发音时长和每个基本音子的发音时间点就被确定了,这有助于更好地对用户说的话进行节奏模拟。
对用户说话的语调进行模拟,是通过提取用户的语音基频信息,并将该基频信息应用到最终合成语音中来实现的。进一步地,本发明的较佳的实施例中,采用维特比(veterbi)方法来处理得到发音文本中基本音子的时间对齐信息,即采用维特比方法来处理得到发音文本中各基本音子的发音时段信息。
本发明的较佳的实施例中,上述步骤S1中,在获取待模拟语音时,获取待模拟语音的基频信息;
则步骤S4中,将待模拟语音的基频信息作为语音合成器的基频信息,以处理得到合成语音。
具体地,本实施例中,在获取待模拟语音的同时提取用户的基频信息,并且通过将语音合成器中输出的原始的基频信息替换成用户的基频信息的方式在最终的合成语音中模拟用户说话的腔调,即实现按照用户说话的腔调重复用户语音的目的。
本发明的较佳的实施例中,上述步骤S4中,采用语音合成器中预设的音色处理得到合成语音。
因此,本发明技术方案中,将用户输入的语音转换成发音文本,并且利用维特比方法得到发音文本中各基本音子的发音时段信息,将发音文本和发音时段信息送入语音合成器中,并且利用用户输入语音时的基频信息替换掉语音合成器中预设的基频信息,以及利用语音合成器中预设的音色,最终形成以语音合成器自身的音色模拟形成的合成语音,该合成语音能够按照用户说话的腔调来重复用户的语音。
本发明的较佳的实施例中,基于上文中所述的模拟用户说话的语音合成方法,还提供一种模拟用户说话的语音合成系统。该系统同样可以适用在语音模拟应用中。
该语音合成系统的结构具体如图2中所示,包括:
语音获取单元1,用于获取外部输入的一段待模拟语音;
语音识别单元2,连接语音获取单元1,用于将待模拟语音识别为对应的发音文本,发音文本中包括多个顺序排列的基本音子;
处理单元3,连接语音识别单元2,用于根据待模拟语音分别处理得到发音文本中每个基本音子的发音时段信息;
合成单元4,分别连接处理单元3和语音获取单元1,合成单元中预先训练形成一语音合成模型,合成单元4用于将发音文本和发音时段信息语音合成模型中,以得到对应于待模拟语音的合成语音并输出。
本发明的较佳的实施例中,如上文中所述,上述发音时段信息包括基本音子的起始发音时刻和终止发音时刻。
本发明的较佳的实施例中,如图3中所示,上述语音获取单元1具体包括:
第一获取模块11,用于获取待模拟语音;
第二获取模块12,连接第一获取模块11,用于获取待模拟语音的基频信息;
则合成单元4将待模拟语音的基频信息作为在语音合成模型中进行语音合成时应用的基频信息,以处理得到合成语音。
本发明的较佳的实施例中,上述合成单元4为语音合成器。
本发明的较佳的实施例中,于语音合成器中预先设置有用于形成预设的音色的合成器参数;
则上述合成单元4采用合成器参数,以预设的音色处理得到合成语音。
具体地,上述合成器参数可以包括共振峰、基频信息、基频波动比信息语速以及相关的情绪参数等,通过预设合成器参数可以对一个语音合成器的音色做个性化的设置,进而对一个具体的语音模拟应用做有特色的个性化设置。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (10)
1.一种模拟用户说话的语音合成方法,其特征在于,包括:
步骤S1,获取外部输入的一段待模拟语音;
步骤S2,将所述待模拟语音识别为对应的包括多个顺序排列的基本音子的发音文本;
步骤S3,根据所述待模拟语音分别处理得到所述发音文本中每个基本音子的发音时段信息;
步骤S4,将所述发音文本和所述发音时段信息送入包括一预先训练形成的语音合成模型的语音合成器中,以得到对应于所述待模拟语音的合成语音并输出。
2.如权利要求1所述的语音合成方法,所述步骤S3中,所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。
3.如权利要求1所述的语音合成方法,其特征在于,所述步骤S3中,采用维特比方法分别处理得到每个所述基本音子的所述发音时段信息。
4.如权利要求1所述的语音合成方法,其特征在于,所述步骤S1中,在获取所述待模拟语音时,获取所述待模拟语音的基频信息;
则所述步骤S4中,将所述待模拟语音的所述基频信息作为所述语音合成器的基频信息,以处理得到所述合成语音。
5.如权利要求1所述的语音合成方法,其特征在于,所述步骤S4中,采用所述语音合成器中预设的音色处理得到所述合成语音。
6.一种模拟用户说话的语音合成系统,其特征在于,包括:
语音获取单元,用于获取外部输入的一段待模拟语音;
语音识别单元,连接所述语音获取单元,用于将所述待模拟语音识别为对应的发音文本,所述发音文本中包括多个顺序排列的基本音子;
处理单元,连接所述语音识别单元,用于根据所述待模拟语音分别处理得到所述发音文本中每个基本音子的发音时段信息;
合成单元,分别连接所述处理单元和所述语音获取单元,所述合成单元中预先训练形成一语音合成模型,所述合成单元用于将所述发音文本和所述发音时段信息所述语音合成模型中,以得到对应于所述待模拟语音的合成语音并输出。
7.如权利要求6所述的语音合成系统,其特征在于,所述发音时段信息包括所述基本音子的起始发音时刻和终止发音时刻。
8.如权利要求6所述的语音合成系统,其特征在于,所述语音获取单元具体包括:
第一获取模块,用于获取所述待模拟语音;
第二获取模块,连接所述第一获取模块,用于获取所述待模拟语音的基频信息;
则所述合成单元将所述待模拟语音的所述基频信息作为在所述语音合成模型中进行语音合成时应用的基频信息,以处理得到所述合成语音。
9.如权利要求6所述的语音合成系统,其特征在于,所述合成单元为语音合成器。
10.如权利要求9所述的语音合成系统,其特征在于,于所述语音合成器中预先设置有用于形成预设的音色的合成器参数;
所述合成单元采用所述合成器参数,以所述预设的音色处理得到所述合成语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711080690.6A CN107833572A (zh) | 2017-11-06 | 2017-11-06 | 一种模拟用户说话的语音合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711080690.6A CN107833572A (zh) | 2017-11-06 | 2017-11-06 | 一种模拟用户说话的语音合成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107833572A true CN107833572A (zh) | 2018-03-23 |
Family
ID=61653801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711080690.6A Pending CN107833572A (zh) | 2017-11-06 | 2017-11-06 | 一种模拟用户说话的语音合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107833572A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801608A (zh) * | 2018-12-18 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种基于神经网络的歌曲生成方法和系统 |
CN113488057A (zh) * | 2021-08-18 | 2021-10-08 | 山东新一代信息产业技术研究院有限公司 | 面向康养的对话实现方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1383130A (zh) * | 2001-04-26 | 2002-12-04 | 西门子公司 | 确定一系列声音模块以合成调性语言的语言信号的方法 |
US20060230140A1 (en) * | 2005-04-05 | 2006-10-12 | Kazumi Aoyama | Information processing apparatus, information processing method, and program |
US20080255702A1 (en) * | 2007-04-13 | 2008-10-16 | National Taiwan University Of Science & Technology | Robotic system and method for controlling the same |
CN101751919A (zh) * | 2008-12-03 | 2010-06-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
CN105206257A (zh) * | 2015-10-14 | 2015-12-30 | 科大讯飞股份有限公司 | 一种声音转换方法及装置 |
CN106571145A (zh) * | 2015-10-08 | 2017-04-19 | 重庆邮电大学 | 一种语音模仿方法和装置 |
CN106652996A (zh) * | 2016-12-23 | 2017-05-10 | 北京奇虎科技有限公司 | 一种提示音生成方法和装置、移动终端 |
CN107104803A (zh) * | 2017-03-31 | 2017-08-29 | 清华大学 | 一种基于数字口令与声纹联合确认的用户身份验证方法 |
-
2017
- 2017-11-06 CN CN201711080690.6A patent/CN107833572A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1383130A (zh) * | 2001-04-26 | 2002-12-04 | 西门子公司 | 确定一系列声音模块以合成调性语言的语言信号的方法 |
US20060230140A1 (en) * | 2005-04-05 | 2006-10-12 | Kazumi Aoyama | Information processing apparatus, information processing method, and program |
US20080255702A1 (en) * | 2007-04-13 | 2008-10-16 | National Taiwan University Of Science & Technology | Robotic system and method for controlling the same |
CN101751919A (zh) * | 2008-12-03 | 2010-06-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
CN106571145A (zh) * | 2015-10-08 | 2017-04-19 | 重庆邮电大学 | 一种语音模仿方法和装置 |
CN105206257A (zh) * | 2015-10-14 | 2015-12-30 | 科大讯飞股份有限公司 | 一种声音转换方法及装置 |
CN106652996A (zh) * | 2016-12-23 | 2017-05-10 | 北京奇虎科技有限公司 | 一种提示音生成方法和装置、移动终端 |
CN107104803A (zh) * | 2017-03-31 | 2017-08-29 | 清华大学 | 一种基于数字口令与声纹联合确认的用户身份验证方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801608A (zh) * | 2018-12-18 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种基于神经网络的歌曲生成方法和系统 |
CN113488057A (zh) * | 2021-08-18 | 2021-10-08 | 山东新一代信息产业技术研究院有限公司 | 面向康养的对话实现方法及系统 |
CN113488057B (zh) * | 2021-08-18 | 2023-11-14 | 山东新一代信息产业技术研究院有限公司 | 面向康养的对话实现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003084800A (ja) | 音声による感情合成方法及び装置 | |
CN106205623B (zh) | 一种声音转换方法及装置 | |
CN109887485A (zh) | 利用言语合成对话语进行响应的技术 | |
CN106128450A (zh) | 一种汉藏双语跨语言语音转换的方法及其系统 | |
DE3779170D1 (de) | Erzeugung von wortgrundstrukturen zur spracherkennung. | |
DE112004000187T5 (de) | Verfahren und Vorrichtung der prosodischen Simulations-Synthese | |
KR20200092505A (ko) | 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 | |
CN116863038A (zh) | 一种文本生成数字人语音及面部动画的方法 | |
CN103165126A (zh) | 一种手机文本短信的语音播放的方法 | |
Kitahara et al. | Prosodic control to express emotions for man-machine speech interaction | |
CN109599094A (zh) | 声音美容与情感修饰的方法 | |
CN103370743A (zh) | 音质变换系统、音质变换装置及其方法、声道信息生成装置及其方法 | |
CN107833572A (zh) | 一种模拟用户说话的语音合成方法及系统 | |
EP1280137A1 (en) | Method for speaker identification | |
Petrushin et al. | Whispered speech prosody modeling for TTS synthesis | |
JP2001242882A (ja) | 音声合成方法及び音声合成装置 | |
KR102077735B1 (ko) | 근육 기억을 이용한 언어 학습 장치 및 언어 학습 방법 | |
Hönemann et al. | Adaptive speech synthesis in a cognitive robotic service apartment: An overview and first steps towards voice selection | |
Pitrelli et al. | Expressive speech synthesis using American English ToBI: questions and contrastive emphasis | |
Ravi et al. | Text-to-speech synthesis system for Kannada language | |
KR0134707B1 (ko) | 다이폰 단위를 이용한 엘에스피(lsp)방식의 음성 합성 방법 | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
CN1538276A (zh) | 汉字一笔音形结合码输入法 | |
Ngo et al. | A study on prosody of vietnamese emotional speech | |
Nhu et al. | Text-to-speech of a talking robot for interactive speech training of hearing impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180323 |