CN117351931A - 一种音频合成方法、音频装置、设备及存储介质 - Google Patents
一种音频合成方法、音频装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117351931A CN117351931A CN202311344299.8A CN202311344299A CN117351931A CN 117351931 A CN117351931 A CN 117351931A CN 202311344299 A CN202311344299 A CN 202311344299A CN 117351931 A CN117351931 A CN 117351931A
- Authority
- CN
- China
- Prior art keywords
- audio
- model
- voice
- features
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 25
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 67
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 10
- 230000002194 synthesizing effect Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本申请公开一种音频合成方法、音频装置、设备及存储介质,本申请的音频合成方法通过配置软件并在软件上训练模型以获取音频处理模型和音频合成输出模型,以便于后续对音频和文本进行解析和语音的合成;通过对输入音频进行预处理以获取模型输入特征以使其能顺利进入音频处理模型;通过音频处理模型对模型输入特征进行转换操作以获取第一语音特征,并对第一语音特征进行编码调整操作以获取第二语音特征,编码调整操作可以调整合成语音过程中的语音特征,即可调整合成语音的音色、音调或音波中的一种或多种,从而提高了语音合成方法合成语音的适用性,即可以合成多种音色、音调和音波的语音,合成语音局限性小,适用性广。
Description
技术领域
本申请涉及技术领域,具体涉及一种音频合成方法、音频装置、设备及存储介质。
背景技术
现有技术中,通过语音合成软件来实现人工智能(Artificial Intelligence,AI)合成语音。语音合成软件合成语音的步骤包括:将需要输出语音的文本输入语音合成软件,通过语音合成软件内配置的文本解析方式进行文本的解析以获取解析内容,并通过语音合成软件内配置的语音音色以获取音色,最后对解析内容和音色进行合成以获取语音合成结果,并对语音合成结果进行输出。
现有技术中的语音合成软件合成语音的缺点如下:
(1)每个语音合成软件内配置的语音音色为固定的,因此在最终生成语音合成结果时,只能选择该语音合成软件所指定的音色来生成语音,局限性较大;
(2)由于配置的文本解析方式和语音音色均在语音合成之前配置完成,因此在语音合成过程中无法干涉其生成结果,因此只能合成指定的语音,适用性较小。因此,如何解决现有的语音合成软件的缺点是目前亟待解决的问题。
发明内容
鉴于此,本申请提供一种音频合成方法、音频装置、设备及存储介质,以解决现有的语音合成软件只能合成指定的语音、局限性较大、适用性较小的问题。
本申请提供一种音频合成方法,包括步骤:
配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型;
对输入音频进行预处理以获取模型输入特征,并将所述模型输入特征输入所述音频处理模型;
所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征,对所述第一语音特征进行编码调整操作以获取第二语音特征,并将所述第二语音特征输入所述音频合成输出模型;
所述音频合成输出模型对所述第二语音特征进行合成输出操作以获取音频波形。
可选地,所述音频处理模型包括Tacotron 2模型,所述音频合成输出模型包括WaveGlow模型。
可选地,对输入音频进行预处理以获取模型输入特征的步骤包括:
设置前处理函数,所述前处理函数对所述输入音频依次进行文本解析操作和语义解析操作以获取所述模型输入特征。
可选地,所述第一语音特征包括音色、音调和音波。
可选地,对所述第一语音特征进行编码调整操作以获取第二语音特征的步骤包括:
对所述第一语音特征进行编码操作以获取第一编码,对所述第一编码进行调整操作以获取第二编码,对所述第二编码进行解码操作以获取所述第二语音特征,其中,所述第二语音特征包括梅尔频谱特征。
本申请还提供一种音频装置,包括:
建立模型模块,用于配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型;
预处理模块,用于对输入音频进行预处理以获取模型输入特征,并将所述模型输入特征输入所述音频处理模型;
编码调整模块,用于控制所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征,并对所述第一语音特征进行编码调整操作以获取第二语音特征,并将所述第二语音特征输入所述音频合成输出模型;
音频合成模块,用于控制所述音频合成输出模型对所述第二语音特征进行合成输出操作以获取音频波形。
可选地,所述编码调整模块包括:
编码单元,用于对所述第一语音特征进行编码操作以获取第一编码;
调整单元,用于对所述第一编码进行调整操作以获取第二编码;
解码单元,用于对所述第二编码进行解码操作以获取所述第二语音特征,其中,所述第二语音特征包括梅尔频谱特征。
可选地,所述音频装置还包括存储模块,用于存储所述音频波形。
本申请还提供一种设备,包括存储器和处理器,所述存储器内存储有程序,当所述程序被所述处理器执行时实现所述音频合成方法。
本申请还提供一种存储介质,所述存储介质中存储有程序,当所述程序被处理器执行时实现所述音频合成方法。
本申请的音频合成方法、音频装置、设备及存储介质的有益效果在于:
通过配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型,以便于后续对文本进行解析和语音的合成;通过对输入音频进行预处理以获取模型输入特征以使其能顺利进入音频处理模型;通过所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征,并对所述第一语音特征进行编码调整操作以获取第二语音特征,并将所述第二语音特征输入所述音频合成输出模型,编码调整操作可以调整合成语音过程中的语音特征,即可调整合成语音的音色、音调或音波中的一种或多种,从而提高了语音合成方法合成语音的适用性,即可以合成多种音色、音调和音波的语音,合成语音局限性小,适用性广;解决了现有的语音合成软件只能合成指定的语音、局限性较大、适用性较小的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的音频合成方法的流程图;
图2是本申请实施例的对第一语音特征进行编码调整操作以获取第二语音特征的流程图;
图3是本申请实施例的音频装置的结构示意图;
图4是是本申请实施例另一种实施方式中音频装置的结构示意图;
图5是本申请实施例的编码调整模块的结构示意图。
具体实施方式
下面结合附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,下述各个实施例及其技术特征可以相互组合。
通过下面对实施例的描述,将更加有助于公众理解本发明,但不能也不应当将申请人所给出的具体的实施例视为对本发明技术方案的限制,任何对部件或技术特征的定义。
参照图1,本申请提供一种音频合成方法,包括步骤:
S0:配置软件并在软件上训练模型以获取音频处理模型和音频合成输出模型;
S1:对输入音频进行预处理以获取模型输入特征,并将模型输入特征输入音频处理模型;
S2:音频处理模型对模型输入特征进行转换操作以获取第一语音特征,对第一语音特征进行编码调整操作以获取第二语音特征,并将第二语音特征输入音频合成输出模型;
S3:音频合成输出模型对第二语音特征进行合成输出操作以获取音频波形。
一些实施例中,步骤S0具体包括:
配置软件:安装Python和PyTorch软件,并设置好Python开发环境,确保Tacotron2模型和WaveGlow模型能准确且顺利地运行;
在PyTorch Hub中下载Tacotron 2和WaveGlow的预训练模型,使用torch.hub.load函数加载这些模型,确保下载的acotron 2和WaveGlow的预训练模型与PyTorch的版本兼容;
在软件上训练模型:设置训练参数,并通过训练参数对Tacotron 2和WaveGlow的预训练模型进行模型训练操作,以获取本申请所需要的Tacotron 2模型和WaveGlow模型。
作为本申请一种可选的实施方式,音频处理模型包括Tacotron 2模型,音频合成输出模型包括WaveGlow模型。Tacotron 2模型和WaveGlow模型均为可通过修改参数和训练等操作来达到本申请对合成语音的音色、音波和音调等进行调节的目的。
作为本申请一种可选的实施方式,步骤S1中,对输入音频进行预处理以获取模型输入特征的步骤包括:
设置前处理函数,前处理函数对输入音频依次进行文本解析操作和语义解析操作以获取模型输入特征。
一些实施例中,前处理函数可以参照Tacotron 2的文档和示例中的前处理函数来设置,由于是现有技术人员的常规技术,在此不再赘述。
一些实施例中,前处理函数设置于音频处理模型的输入端的前端,将输入音频输入音频处理模型后,前处理函数对输入音频依次进行文本解析操作和语义解析操作以获取模型输入特征,该模型输入特征可通过音频处理模型的输入通道进入音频处理模型内部,并可以被音频处理模型进行后续的转换操作。
作为本申请一种可选的实施方式,步骤S1中,第一语音特征包括音色、音调和音波。
一些实施例中,第一语音特征还可以包括音素、音节、音位和语速中的一种和多种,根据需要可自行设置。
作为本申请一种可选的实施方式,参照图2,步骤S2中,对第一语音特征进行编码调整操作以获取第二语音特征的步骤包括:
S21:对第一语音特征进行编码操作以获取第一编码;
S22:对第一编码进行调整操作以获取第二编码;
S23:对第二编码进行解码操作以获取第二语音特征,其中,第二语音特征包括梅尔频谱特征。
一些实施例中,步骤S2中,通过编码程序对第一语音特征进行编码操作以获取第一编码,通过调整程序对第一编码进行调整操作以获取第二编码,这里的调整程序可以为一段代码或函数,通过修改调整程序中的参数便可调整第一编码以获取需要的第二编码,后续对第二编码进行解码便可获取用户需要修改或调整后的音色、音波或音调,从而达到自动控制和改变最终获取的合成语音的音色、音波和音调的目的;通过解码程序或解码器对第二编码进行解码操作以获取包含梅尔频谱(mel-spectrogram)特征的第二语音特征,使得包含mel-spectrogram特征的第二语音特征能被WaveGlow模型接收并进行相应的合成输出操作,即使得WaveGlow模型可以对mel-spectrogram特征进行处理并输出音频波形。
本申请还提供一种音频装置,参照图3,音频装置包括:
建立模型模块1,用于配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型;
一些实施例中,音频处理模型包括Tacotron 2模型,音频合成输出模型包括WaveGlow模型。Tacotron 2模型和WaveGlow模型均为可通过修改参数和训练等操作来达到本申请对合成语音的音色、音波和音调等进行调节的目的。
预处理模块2,用于对输入音频进行预处理以获取模型输入特征,并将模型输入特征输入音频处理模型;
编码调整模块3,用于控制音频处理模型对模型输入特征进行转换操作以获取第一语音特征,并对第一语音特征进行编码调整操作以获取第二语音特征,并将第二语音特征输入音频合成输出模型;
一些实施例中,第一语音特征包括音色、音调和音波。
音频合成模块4,用于控制音频合成输出模型对第二语音特征进行合成输出操作以获取音频波形。
一些实施例中,音频音频合成模块4通过发送生产合成语音指令至音频合成输出模型,音频合成输出模型接收到该生产合成语音指令后,对第二语音特征进行合成操作以得到音频合成结果,并输出音频合成结果即输出音频波形。
参照图4,在本申请实施例的另一种实施方式中,音频装置还包括存储模块5,用于存储音频波形。用于将音频波形以指定格式(如WAV格式)存储于存储模块5中,便于后续播放和验证。也可以选择不同的音频格式进行保存,便于不同的播放设备进行音频的播放。
一些实施例中,存储模块5可以包括易失性存储器,例如随机存取存储器;也可以包括非易失性存储器,例如只读存储器、快闪存储器。
一些实施例中,建立模型模块1、预处理模块2、编码调整模块3、音频合成模块4可以为一个或多个电路元件或单片机组成。
一些实施例中,预处理模块2对输入音频进行预处理以获取模型输入特征的步骤包括:
设置前处理函数,前处理函数对输入音频依次进行文本解析操作和语义解析操作以获取模型输入特征。
作为本申请一种可选的实施方式,参照图5,编码调整模块3包括:
编码单元31,用于对第一语音特征进行编码操作以获取第一编码;
调整单元32,用于对第一编码进行调整操作以获取第二编码;
解码单元33,用于对第二编码进行解码操作以获取第二语音特征,其中,第二语音特征包括梅尔频谱特征。
一些实施例中,通过编码单元31对第一语音特征进行编码操作以获取第一编码;
通过调整单元32对第一编码进行调整操作以获取第二编码,调整单元可以通过修改或编辑调整函数或调整代码中的参数便可调整第一编码一以获取所需要的第二编码,可以获取用户想要修改的音色、音波或音调,从而达到自动控制和改变最终获取的合成语音的音色、音波和音调的目的;
通过解码单元33对第二编码进行解码操作以获取包含梅尔频谱(mel-spectrogram)特征的第二语音特征,使得包含mel-spectrogram特征的第二语音特征能被WaveGlow模型接收并进行相应的合成输出操作,即使得WaveGlow模型可以对mel-spectrogram特征进行处理并输出音频波形。
本申请还提供一种设备,包括存储器和处理器,存储器内存储有程序,当程序被处理器执行时实现上述的音频合成方法。
本申请还提供一种存储介质,存储介质中存储有程序,当程序被处理器执行时实现上述的音频合成方法。其中,存储介质中存储的程序为一段或多段,处理器也可为一个或多个,可根据实际需求可自行设置。
本申请涉及的处理器可以为中央处理单元(Central Processing Unit,CPU),也可以是一种集成电路芯片,还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请使用的存储介质或存储器可以包括易失性存储器,例如随机存取存储器;也可以包括非易失性存储器,例如只读存储器、快闪存储器、机械硬盘或固态硬盘;还可以包括U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,还可以包括上述种类的存储器的组合。
综上本申请的音频合成方法、音频装置、设备及存储介质的优点为:
通过配置并训练模型以获取音频处理模型和音频合成输出模型,以便于后续对文本进行解析和语音的合成;通过对输入音频进行预处理以获取模型输入特征以使文本能顺利进入音频处理模型;通过音频处理模型对模型输入特征进行转换操作以获取第一语音特征,并对第一语音特征进行编码调整操作以获取第二语音特征,并将第二语音特征输入音频合成输出模型,编码调整操作可以调整合成语音过程中的语音特征,即可调整合成语音的音色、音调或音波中的一种或多种,从而提高了语音合成方法合成语音的适用性,即可以合成多种音色、音调和音波的语音,合成语音局限性小,适用性广;解决了现有的语音合成软件只能合成指定的语音、局限性较大、适用性较小的问题。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,例如各实施例之间技术特征的相互结合,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种音频合成方法,其特征在于,包括步骤:
配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型;
对输入音频进行预处理以获取模型输入特征,并将所述模型输入特征输入所述音频处理模型;
所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征,对所述第一语音特征进行编码调整操作以获取第二语音特征,并将所述第二语音特征输入所述音频合成输出模型;
所述音频合成输出模型对所述第二语音特征进行合成输出操作以获取音频波形。
2.如权利要求1所述的音频合成方法,其特征在于,所述音频处理模型包括Tacotron 2模型,所述音频合成输出模型包括WaveGlow模型。
3.如权利要求2所述的音频合成方法,其特征在于,对输入音频进行预处理以获取模型输入特征的步骤包括:
设置前处理函数,所述前处理函数对所述输入音频依次进行文本解析操作和语义解析操作以获取所述模型输入特征。
4.如权利要求1所述的音频合成方法,其特征在于,所述第一语音特征包括音色、音调和音波。
5.如权利要求2所述的音频合成方法,其特征在于,对所述第一语音特征进行编码调整操作以获取第二语音特征的步骤包括:
对所述第一语音特征进行编码操作以获取第一编码,对所述第一编码进行调整操作以获取第二编码,对所述第二编码进行解码操作以获取所述第二语音特征,其中,所述第二语音特征包括梅尔频谱特征。
6.一种音频装置,其特征在于,包括:
建立模型模块,用于配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型;
预处理模块,用于对输入音频进行预处理以获取模型输入特征,并将所述模型输入特征输入所述音频处理模型;
编码调整模块,用于控制所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征,并对所述第一语音特征进行编码调整操作以获取第二语音特征,并将所述第二语音特征输入所述音频合成输出模型;
音频合成模块,用于控制所述音频合成输出模型对所述第二语音特征进行合成输出操作以获取音频波形。
7.如权利要求6所述的音频装置,其特征在于,所述编码调整模块包括:
编码单元,用于对所述第一语音特征进行编码操作以获取第一编码;
调整单元,用于对所述第一编码进行调整操作以获取第二编码;
解码单元,用于对所述第二编码进行解码操作以获取所述第二语音特征,其中,所述第二语音特征包括梅尔频谱特征。
8.如权利要求6所述的音频装置,其特征在于,还包括存储模块,用于存储所述音频波形。
9.一种设备,其特征在于,包括存储器和处理器,所述存储器内存储有程序,当所述程序被所述处理器执行时实现如权利要求1至5任意一项所述的音频合成方法。
10.一种存储介质,其特征在于,所述存储介质中存储有程序,当所述程序被处理器执行时实现如权利要求1至5任意一项所述的音频合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311344299.8A CN117351931A (zh) | 2023-10-17 | 2023-10-17 | 一种音频合成方法、音频装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311344299.8A CN117351931A (zh) | 2023-10-17 | 2023-10-17 | 一种音频合成方法、音频装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351931A true CN117351931A (zh) | 2024-01-05 |
Family
ID=89368761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311344299.8A Withdrawn CN117351931A (zh) | 2023-10-17 | 2023-10-17 | 一种音频合成方法、音频装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351931A (zh) |
-
2023
- 2023-10-17 CN CN202311344299.8A patent/CN117351931A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295721B2 (en) | Generating expressive speech audio from text data | |
CN110299131B (zh) | 一种可控制韵律情感的语音合成方法、装置、存储介质 | |
JP7395792B2 (ja) | 2レベル音声韻律転写 | |
US20050144002A1 (en) | Text-to-speech conversion with associated mood tag | |
US11830473B2 (en) | Expressive text-to-speech system and method | |
US20050182629A1 (en) | Corpus-based speech synthesis based on segment recombination | |
GB2591245A (en) | An expressive text-to-speech system | |
EP1559095A2 (en) | Apparatus, methods and programming for speech synthesis via bit manipulations of compressed data base | |
US20070011009A1 (en) | Supporting a concatenative text-to-speech synthesis | |
CN113112995B (zh) | 词声学特征系统、词声学特征系统的训练方法及系统 | |
US8103505B1 (en) | Method and apparatus for speech synthesis using paralinguistic variation | |
CN111223474A (zh) | 一种基于多神经网络的语音克隆方法和系统 | |
CN112908294B (zh) | 一种语音合成方法以及语音合成系统 | |
KR20230133362A (ko) | 다양하고 자연스러운 텍스트 스피치 변환 샘플들 생성 | |
US20040054537A1 (en) | Text voice synthesis device and program recording medium | |
CN117678013A (zh) | 使用合成的训练数据的两级文本到语音系统 | |
CN117373431A (zh) | 音频合成方法、训练方法、装置、设备及存储介质 | |
CN117351931A (zh) | 一种音频合成方法、音频装置、设备及存储介质 | |
KR102626618B1 (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
US11915714B2 (en) | Neural pitch-shifting and time-stretching | |
CN116416964A (zh) | 语音转换方法、装置、存储介质及电子设备 | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
CN114495896A (zh) | 一种语音播放方法及计算机设备 | |
CN114724539A (zh) | 一种生成个性化音色的歌唱合成方法、装置及存储介质 | |
JPH05100692A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20240105 |