CN115171651B - 一种儿化音合成方法、装置、电子设备及存储介质 - Google Patents
一种儿化音合成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115171651B CN115171651B CN202211076075.9A CN202211076075A CN115171651B CN 115171651 B CN115171651 B CN 115171651B CN 202211076075 A CN202211076075 A CN 202211076075A CN 115171651 B CN115171651 B CN 115171651B
- Authority
- CN
- China
- Prior art keywords
- data
- sound
- voice
- module
- retrospective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 82
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 82
- 230000005012 migration Effects 0.000 claims abstract description 41
- 238000013508 migration Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 238000001308 synthesis method Methods 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种儿化音合成方法、装置、电子设备及存储介质,包括如下步骤:包括如下步骤:S1:进行儿化音的数据采集,对采集后的儿化音数据进行数据切分,将切分后的儿化音进行初始语音合成模型的训练,用于合成与儿化音对应的普通发音的数据;S2:将切分后的儿化音和合成后的普通发音作为风格迁移模型的输入,并通过风格迁移模型进行儿化音数据的迁移训练和数据增强,根据增强后的儿化音数据进行目标语音合成模型的训练。本发明提供的儿化音合成方法、装置、电子设备及存储介质,通过风格迁移模型构造足够多的儿化音数据,随后再用于语音合成模型进行儿化音数据的合成和语音转换,提高语音合成的系统鲁棒性。
Description
技术领域
本发明涉及中文语音合成技术领域,具体涉及一种儿化音合成方法、装置、电子设备及存储介质。
背景技术
智能语音交互领域在近年来获得了长足瞩目的发展,逐渐成为国内外学术界、工业界的研究焦点,而其中实现机器“发声”的核心技术就是语音合成技术,其主要的功能是模仿人类的说话方式,通过文字产生相应的声音。通常在中文语音合成中,语音合成的基本单位是独立的每个字,或者是字对应的拼音等,可以直观地认为语音合成系统是将每个字单独映射成为对应的音频信号,但这其中也存在一些特殊情况,如普通话中的儿化音。儿化音是指一些字的末位韵母因卷舌动作而发生的音变现象,如“哪儿”通常会连读成一个卷舌的“哪”字音。
儿化音广泛存在于汉语的日常对话中,并且是十分多变的,并且没有固定的搭配形式,任意汉字后接“儿”字都有可能构成儿化音。这为语音合成系统的搭建带来了艰巨的挑战,因为在常用的语音数据集中很难涵盖所有儿化音出现的搭配情况,甚至在大多数数据集中儿化音只占很小的一部分,因而我们很难收集到足够多的儿化音对模型进行训练。
发明内容
针对现有技术的不足,本发明提供了一种儿化音合成方法、装置、电子设备及存储介质,通过风格迁移模型构造足够多的儿化音数据,随后再用于语音合成模型进行儿化音数据的合成和语音转换,提高语音合成的系统鲁棒性。
为了实现本发明的目的,本发明提供一种儿化音合成方法,包括如下步骤:
S1:进行儿化音的数据采集,对采集后的儿化音数据进行数据切分,将切分后的儿化音进行初始语音合成模型的训练,用于合成与儿化音对应的普通发音的数据;
S2:将切分后的儿化音和合成后的普通发音作为风格迁移模型的输入,并通过风格迁移模型进行儿化音数据的迁移训练和数据增强,根据增强后的儿化音数据进行目标语音合成模型的训练。
优选的,所述步骤S2中通过风格迁移模型进行儿化音数据的迁移训练的具体步骤为:
将合成后的普通发音输送至CycleGAN的第一对抗生成网络的第一生成器中,并进行儿化音的生成,将生成的儿化音作为第二对抗生成网络中的第二生成器的输入,并通过第二生成器进行普通发音的数据生成;
其中,第一对抗生成网络还包括第一鉴别器,第二对抗生成网络还包括第二鉴别器,第一鉴别器用于鉴定第一生成器生成的数据是否为儿化音,第二鉴别器用于鉴定第二生成器转换的数据是否为普通发音。
优选的,所述步骤S2中通过风格迁移模型进行儿化音数据的数据增强的具体步骤为:
将经过风格迁移模型的第一生成器生成的儿化音数据输送至初始语音合成模型中进行训练,并通过语音合成模型进行普通发音数据的合成,将合成后的普通发音数据再次通过第一生成器进行儿化音数据的生成。
优选的,所述CycleGAN的损失函数总和计算公式为:
E=x+y+z
其中,x代表第一鉴别器和第二鉴别器的使用损失,y代表第一生成器转换后的儿化音和增强后的儿化音的损失,z代表第二生成器转换后的普通发音和采集的儿化音的损失。
优选的,所述步骤S2中的目标语音合成模型用于将增强后的儿化音数据转换成相应的语音数据输出。
优选的,本发明还提供一种儿化音合成装置,包括:
获取模块:采集儿化音的数据,并根据采集的儿化音进行数据切分;
风格迁移模块:用于进行儿化音和普通发音之间的数据迁移和数据增强;
合成模块:包括初始语音合成模块和目标语音合成模块;
初始语音合成模块:用于用于合成与儿化音对应的普通发音的数据;
目标语音合成模块:用于对增强后的儿化音进行训练并转换成语音数据输出。
优选的,所述风格迁移模块包括:
第一生成模块:用于生成与普通发音相对应的儿化音;
第二生成模块:将第一生成模块生成的儿化音进行普通发音的生成;
第一鉴定模块:用于鉴定第一生成模块生成后的数据是否为儿化音;
第二鉴定模块:用于鉴定第二生成模块转换后的数据是否为普通发音。
优选的,所述风格迁移模块还包括:
数据增强模块:将经过风格迁移模块的第一生成模块生成的儿化音输送至初始语音合成模块中进行训练,并通过语音合成模块进行普通发音数据的合成,将合成后的普通发音数据再次通过第一生成模块进行儿化音数据的生成。
优选的,本发明还提供了一种电子设备,包括存储器和位于存储器上的至少一个计算机程序;
还包括至少一个处理器,用于处理所述存储器中的至少一个计算机程序,所述处理器执行所述计算机程序时,实现上述实施例中的儿化音合成方法。
优选的,本发明还提供了一种计算机存储介质,所述计算机介质上存储有至少一个计算机程序,所述计算机程序在被执行时实现上述优选实施例中的儿化音合成方法。
本发明的有益效果为:本发明提供的儿化音合成方法、装置、电子设备及存储介质,通过风格迁移模型构造足够多的儿化音数据,随后再用于语音合成模型进行儿化音数据的合成和语音转换,提高语音合成的系统鲁棒性。
附图说明
通过附图中所示的本发明优选实施例更具体说明,本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分,且并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本的主旨。
图1为本发明实施例提供的儿化音合成方法的具体流程示意图;
图2为本发明实施例提供的初始语音合成模型训练的流程示意图;
图3为本发明实施例提供的儿化音数据生成阶段的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明技术方案作进一步的详细描述,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参考图1-3,本发明实施例提供一种儿化音合成方法,包括如下步骤:
S1:进行儿化音的数据采集,对采集后的儿化音数据进行数据切分,将切分后的儿化音进行初始语音合成模型的训练,用于合成与儿化音对应的普通发音的数据;
S2:将切分后的儿化音和合成后的普通发音作为风格迁移模型的输入,并通过风格迁移模型进行儿化音数据的迁移训练和数据增强,根据增强后的儿化音数据进行目标语音合成模型的训练。
请参考图1-3,所采集的儿化音的数据主要为常用中文语音数据集中的儿化音数据,也可为其他数据集中的儿化音数据,所采集的儿化音的数据为文本数据,然后对采集的儿化音进行切分备用,例如:采集的儿化音语句段为“你到哪儿去、我们在这儿”,切分步骤则是将“你到哪儿去、我们在这儿”中的“哪儿和这儿”从语句中切分并提取出来(此处的切分手段包括手工切分、利用语音对齐工具,也可采用其他切分手段),然后将切分好的儿化音数据(哪儿和这儿)输送至初始语音合成模型中,然后通过初始语音合成模型将切分好的儿化音数据进行相对应的普通发音的数据合成,如将儿化音数据(哪儿和这儿)合成为普通发音数据(哪和这),然后将儿化音数据和普通发音数据作为数据对,用来作为风格迁移模型的输入(原材料);
然后对数据进行迁移模型的训练和数据增强,具体为:将普通发音迁移成儿化音,例如:将“哪”字的正常发音转换成为其在儿化音场景下的发音,即“哪儿”的音频,随后可生成任意文字的儿化音发音作为语音合成系统的训练数据,达到数据增强(扩充)的目的,然后将增强后的儿化音输送至目标语音合成模型中进行训练即可。
本发明的有益效果为:本发明提供的儿化音合成方法、装置、电子设备及存储介质,主要采用风格迁移模型先对儿化音数据进行增强,然后通过语音合成模型将对增强后的儿化音数据进行训练,一定程度上提高了语音合成模型的鲁棒性。
请参考图1-3,在优选实施例中,步骤S2中通过风格迁移模型进行儿化音数据的迁移训练的具体步骤为:
将合成后的普通发音输送至CycleGAN的第一对抗生成网络的第一生成器中,并进行儿化音的生成,将生成的儿化音作为第二对抗生成网络中的第二生成器的输入,并通过第二生成器进行普通发音的数据生成;
其中,第一对抗生成网络还包括第一鉴别器,第二对抗生成网络还包括第二鉴别器,第一鉴别器用于鉴定第一生成器生成的数据是否为儿化音,第二鉴别器用于鉴定第二生成器转换的数据是否为普通发音。
CycleGAN中包含两个对抗生成网络,对于第一对抗生成网络GAN1,生成器G1需要将普通读音Aori转化为儿化音发音Aerhua,如将“哪”转化为“哪儿”,鉴别器Derhua需要鉴别生成器生成的是不是儿化音发音。对于第二生成对抗网络G2,它的生成器G2需要将的G1输出Aerhua作为输入,然后将儿化音转化为普通读音,如将“哪儿”转换为“哪”,得到A-ori,第二个鉴别器Dori用于鉴别A-ori是不是普通读音。
本申请提供的儿化音合成方法,主要采用CycleGAN的风格迁移方法,该风格迁移学习模型主要通过构建两个生成对抗网络(第一、第二生成对抗网络)和两个鉴别器(第一、第二鉴别器)来完成普通发音到儿化音发音的目标迁移学习任务,在训练过程中,固定判别器参数训练生成器(第一生成器和第一鉴别器、第二生成器和第二鉴别器),使得生成的儿化音发音在分布上更接近于目标儿化音发音,固定生成器的参数训练判别器使得判别器有更好的辨别能力从而保证生成器能产生更加真实的儿化音发音;训练过程中还有一个重要损失(CycleGAN的损失函数)是,用来防止生成的儿化音发音内容本身发生改变。
请参考图2,在图2中,通过初始语音合成模型(系统)对切分后的儿化音数据进行相对应的普通发音的数据合成,然后将普通发音和对应的儿化音数据(作为输入)一并输送至风格迁移模型(风格转换模型)中进行风格迁移。
请参考图1-3,在优选实施例中,步骤S2中通过风格迁移模型进行儿化音数据的数据增强的具体步骤为:
将经过风格迁移模型的第一生成器生成的儿化音数据输送至初始语音合成模型中进行训练,并通过语音合成模型进行普通发音数据的合成,将合成后的普通发音数据再次通过第一生成器进行儿化音数据的生成。
数据增强(扩充)主要是将经过风格迁移模型训练后的儿化音数据通过初始语音合成模型进行普通发音的生成,在将普通发音输送至第一生成器进行儿化音数据的生成,并将生成的儿化音数据存储在目标语音合成模型中,并将儿化音数据转换成语音数据输出。
请参考图3,在图3中,先通过初始语音合成模型(初始语音合成系统)对切分后的儿化音数据进行相应的普通发音的数据合成,然后通过风格转换模型(风格迁移模型)进行迁移,从而达到数据增强和扩充的效果。
请参考图1,在进一步的优选实施例中,CycleGAN的损失函数总和计算公式为:
E=x+y+z
其中,x代表第一鉴别器和第二鉴别器的使用损失(指判断是目标儿化音发音的概率和是否是生成的儿化音概率的对数之和),y代表第一生成器转换后的儿化音和增强后的儿化音的损失(Aerhua与目标儿化音音频的损失),z代表第二生成器转换后的普通发音和采集的儿化音的损失(A-ori与原始的儿化音音频的损失)。
请参考图1-3,在进一步的优选实施例中,步骤S2中的目标语音合成模型用于将增强后的儿化音数据转换成相应的语音数据输出。
目标语音合成模型为基础的TTS语音合成模型,是从文本到语音的合成模型,也就是说将增强后的儿化音文本数据转换成语音数据作为输出,而步骤S1中的初始语音合成模型指的是用于用于合成与儿化音对应的普通发音的数据。
在CycleGAN(对抗生成网络)模型训练完毕后,则通过第一对抗生成网络和初始语音合成模型进行结合使用,将第一生成器生成的儿化音数据进行初始语音合成模型的训练,合成相对应的普通发音的数据,在将普通发音的数据再次通过第一生成器进行相对应的儿化音数据的生成,从而达到数据增强(扩充)的结果。
请参考图2-3,在进一步的优选实施例中,本发明还提供了一种儿化音合成装置,包括:
获取模块:采集儿化音的数据,并根据采集的儿化音进行数据切分;
风格迁移模块:用于进行儿化音和普通发音之间的数据迁移和数据增强;
合成模块:包括初始语音合成模块和目标语音合成模块;
初始语音合成模块:用于用于合成与儿化音对应的普通发音的数据;
目标语音合成模块:用于对增强后的儿化音进行训练并转换成语音数据输出。
请参考图2-3,在优选实施例中,风格迁移模块包括:
风格迁移模块包括:
第一生成模块:用于生成与普通发音相对应的儿化音;
第二生成模块:将第一生成模块生成的儿化音进行普通发音的生成;
第一鉴定模块:用于鉴定第一生成模块生成后的数据是否为儿化音;
第二鉴定模块:用于鉴定第二生成模块转换后的数据是否为普通发音。
请参考图2-3,在优选实施例中,风格迁移模块还包括:
数据增强模块:将经过风格迁移模块的第一生成模块生成的儿化音输送至初始语音合成模块中进行训练,并通过语音合成模块进行普通发音数据的合成,将合成后的普通发音数据再次通过第一生成模块进行儿化音数据的生成。
请参考图1-3,在优选实施例中,本发明还提供了一种电子设备,包括:
存储器和位于存储器上的至少一个计算机程序;
还包括至少一个处理器,用于处理存储器中的至少一个计算机程序,处理器执行计算机程序时,实现上述实施例中的儿化音合成方法。
电子设备可以是手机、电脑以及能够实现计算机程序的移动终端等。
请参考图1-3,在优选实施例中,本发明还提供了一种计算机存储介质,计算机介质上存储有至少一个计算机程序,计算机程序在被执行时实现上述实施例中的儿化音合成方法。计算机存储介质可以是U盘、闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等多种介质。
本发明的有益效果为:本发明提供了一种儿化音合成方法、装置、电子设备及存储介质,通过风格迁移模型构造足够多的儿化音数据,随后再用于语音合成模型进行儿化音数据的合成和语音转换,提高语音合成的系统鲁棒性。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种儿化音合成方法,其特征在于,包括如下步骤:
S1:进行儿化音的数据采集,对采集后的儿化音数据进行数据切分,将切分后的儿化音进行初始语音合成模型的训练,用于合成与儿化音对应的普通发音的数据;
S2:将切分后的儿化音和合成后的普通发音作为风格迁移模型的输入,并通过风格迁移模型进行儿化音数据的迁移训练和数据增强,根据增强后的儿化音数据进行目标语音合成模型的训练;
其中,通过风格迁移模型进行儿化音数据的迁移训练的具体步骤为:
将合成后的普通发音输送至CycleGAN的第一对抗生成网络的第一生成器中,并进行儿化音的生成,将生成的儿化音作为第二对抗生成网络中的第二生成器的输入,并通过第二生成器进行普通发音的数据生成;
其中,第一对抗生成网络还包括第一鉴别器,第二对抗生成网络还包括第二鉴别器,第一鉴别器用于鉴定第一生成器生成的数据是否为儿化音,第二鉴别器用于鉴定第二生成器转换的数据是否为普通发音;
通过风格迁移模型进行儿化音数据的数据增强的具体步骤为:
将经过风格迁移模型的第一生成器生成的儿化音数据输送至初始语音合成模型中进行训练,并通过初始语音合成模型进行普通发音数据的合成,将合成后的普通发音数据再次通过第一生成器进行儿化音数据的生成。
2.如权利要求1所述的儿化音合成方法,其特征在于,所述CycleGAN的损失函数总和计算公式为:
E=x+y+z
其中,x代表第一鉴别器和第二鉴别器的使用损失,y代表第一生成器转换后的儿化音和增强后的儿化音的损失,z代表第二生成器转换后的普通发音和采集的儿化音的损失。
3.如权利要求1所述的儿化音合成方法,其特征在于,所述步骤S2中的目标语音合成模型用于将增强后的儿化音数据转换成相应的语音数据输出。
4.一种儿化音合成装置,其特征在于,包括:
获取模块:采集儿化音的数据,并根据采集的儿化音进行数据切分;
风格迁移模块:用于进行儿化音和普通发音之间的数据迁移和数据增强;
所述风格迁移模块还包括:
第一生成模块:用于生成与普通发音相对应的儿化音;
第二生成模块:将第一生成模块生成的儿化音进行普通发音的生成;
第一鉴定模块:用于鉴定第一生成模块生成后的数据是否为儿化音;
第二鉴定模块:用于鉴定第二生成模块转换后的数据是否为普通发音;
数据增强模块:将经过风格迁移模块的第一生成模块生成的儿化音输送至初始语音合成模块中进行训练,并通过初始语音合成模块进行普通发音数据的合成,将合成后的普通发音数据再次通过第一生成模块进行儿化音数据的生成;
合成模块:包括初始语音合成模块和目标语音合成模块;
初始语音合成模块:用于合成与儿化音对应的普通发音的数据;
目标语音合成模块:用于对增强后的儿化音进行训练并转换成语音数据输出。
5.一种电子设备,其特征在于,包括:
存储器和位于存储器上的至少一个计算机程序;
还包括至少一个处理器,用于处理所述存储器中的至少一个计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-3任一项所述的儿化音合成方法。
6.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有至少一个计算机程序,所述计算机程序在被执行时实现权利要求1-3任一项所述的儿化音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211076075.9A CN115171651B (zh) | 2022-09-05 | 2022-09-05 | 一种儿化音合成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211076075.9A CN115171651B (zh) | 2022-09-05 | 2022-09-05 | 一种儿化音合成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115171651A CN115171651A (zh) | 2022-10-11 |
CN115171651B true CN115171651B (zh) | 2022-11-29 |
Family
ID=83480608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211076075.9A Active CN115171651B (zh) | 2022-09-05 | 2022-09-05 | 一种儿化音合成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171651B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10347241B1 (en) * | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
CN110600047B (zh) * | 2019-09-17 | 2023-06-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
ES2964322T3 (es) * | 2019-12-30 | 2024-04-05 | Tmrw Found Ip Sarl | Sistema y método de conversión de voz multilingüe |
CN112037760B (zh) * | 2020-08-24 | 2022-01-07 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
CN113077783B (zh) * | 2021-03-26 | 2023-07-21 | 联想(北京)有限公司 | 小语种语音语料扩增方法、装置及电子设备和存储介质 |
CN113611293B (zh) * | 2021-08-19 | 2022-10-11 | 内蒙古工业大学 | 一种蒙古语数据集扩充方法 |
CN113707125B (zh) * | 2021-08-30 | 2024-02-27 | 中国科学院声学研究所 | 一种多语言语音合成模型的训练方法及装置 |
CN113781999B (zh) * | 2021-09-13 | 2024-02-20 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
-
2022
- 2022-09-05 CN CN202211076075.9A patent/CN115171651B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115171651A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103680498A (zh) | 一种语音识别方法和设备 | |
CN111914076B (zh) | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 | |
CN110688857A (zh) | 一种文章生成的方法和装置 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN103514882A (zh) | 一种语音识别方法及系统 | |
CN115938352A (zh) | 模型的获得方法、口型系数生成方法、装置、设备及介质 | |
CN114387945A (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
CN112163084B (zh) | 问题反馈方法、装置、介质以及电子设备 | |
CN109739968A (zh) | 一种数据处理方法及装置 | |
CN113268989A (zh) | 多音字处理方法及装置 | |
CN113012683A (zh) | 语音识别方法及装置、设备、计算机可读存储介质 | |
CN115171651B (zh) | 一种儿化音合成方法、装置、电子设备及存储介质 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN114121010A (zh) | 模型训练、语音生成、语音交互方法、设备以及存储介质 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN112071299A (zh) | 神经网络模型训练方法、音频生成方法及装置和电子设备 | |
CN111489742A (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
CN110085212A (zh) | 一种用于cnc程序控制器的语音识别方法 | |
CN117877509B (zh) | 一种数字人实时交互方法及装置、电子设备、存储介质 | |
CN114049885B (zh) | 标点符号识别模型构建方法和装置 | |
CN115273849B (zh) | 一种关于音频数据的意图识别方法及装置 | |
CN114203159A (zh) | 语音情感识别方法、终端设备及计算机可读存储介质 | |
CN118155605A (zh) | 一种语音语种转化的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |