CN110459232A - 一种基于循环生成对抗网络的语音转换方法 - Google Patents
一种基于循环生成对抗网络的语音转换方法 Download PDFInfo
- Publication number
- CN110459232A CN110459232A CN201910669055.4A CN201910669055A CN110459232A CN 110459232 A CN110459232 A CN 110459232A CN 201910669055 A CN201910669055 A CN 201910669055A CN 110459232 A CN110459232 A CN 110459232A
- Authority
- CN
- China
- Prior art keywords
- speaker
- voice
- data
- source speaker
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012546 transfer Methods 0.000 title claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 13
- 230000008485 antagonism Effects 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 235000013350 formula milk Nutrition 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims 1
- 238000013480 data collection Methods 0.000 abstract description 3
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一种基于循环生成对抗网络的语音转换方法,获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特;按照设定的比例分成训练集、测试集和验证集;使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;将sp送入到CycleGAN模型中训练;模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;合成语音转换后的音频。本发明改善先前技术中语音转换的质量,并且无需并行数据集就可以实现高质量的语音转换。
Description
技术领域
本发明涉及语音转换技术,特别是一种基于循环生成对抗网络的语音转换方 法。
背景技术
语音转换是一种用于修改源说话者语音信号以匹配目标说话者语音信号的技术,使之具有目标说话人的语音特征但同时保持语音信息不变。语音转换的主要 任务包括提取代表说话人个性的特征参数并进行转换,然后将转换之后的参数重 构成语音。这一过程既要保证转换后语音的清晰度,又要保证转换后语音特征的 相似度。
语音转换的目标是找到源说话人和目标说话人的语音特征之间的映射。矢量 量化,高斯混合模型和人工神经网络都是典型的语音转换方法。但是包括上述方 法在内的很多方法都需要使用源和目标说话人的时间对齐的并行数据作为训练数 据。但是对齐的过程也耗费了时间,并且对齐也不是完全正确的,在对齐的过程 中可能还会引入别的错误。
在非并行的语音数据中,训练数据由不同的语言内容组成,因为不共享语言 特征,因此自动匹配两个说话人的语音特征便更加困难。
发明内容
为了克服已有语音转换方法的质量较低的不足,本发明提供了一种基于循环 生成对抗网络的语音转换方法,目的是改善先前技术中语音转换的质量,并且无 需并行数据集就可以实现高质量的语音转换。
本发明解决其技术问题所采用的技术方案是:
一种基于循环生成对抗网络的语音转换方法,包括以下步骤:
步骤1:获取源说话人与目标说话人的语料库并将所有的音频统一为固定比 特;
步骤2:按照设定的比例分别将源说话人与目标说话人的数据集分成训练集、 测试集和验证集;
步骤3:使用WORLD模型分别从源说话人和目标说话人训练集语音中提取 平滑功率谱参数sp;
步骤4:将源说话者和目标说话者的功率谱参数sp送入到CycleGAN模型中 训练;
步骤5:模型训练完成之后使用WORLD模型从源说话人和目标说话人的验 证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做 线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;
步骤6:使用WORLD将步骤5中的f0、ap和sp合成语音转换后的音频, 若转换效果良好,音质清晰,则保存训练好的CycleGAN模型;
步骤7:使用WORLD提取源说话人测试集语音的基频信息f0、非周期分量 ap和平滑功率谱参数sp。对f0做与步骤5相同的线性变换,ap不做任何处理, sp传入步骤6保存好的CycleGAN模型中进行转换;
步骤8:使用WORLD将步骤7中的f0、ap和sp合成语音并输出。
进一步,所述步骤4中,功率谱参数送入CycleGAN之前,需要使用WORLD 对其进行编码,降低维度之后再传入网络模型。
再进一步,所述步骤5中,sp传入训练好的CycleGAN网络模型进行转换输出 之后,要对sp进行解码操作,以恢复之前的维度。
所述步骤5中,f0的线性变换,其变换公式为:
f0new表示线性变换后的基频信息,f0x、μx和分别表示源说话人基频信息、 源说话人基频信息的均值与方差,μy和分别表示目标说话人基频信息的均值与 方差。
更进一步,所述步骤5中,所述的CycleGAN模型的训练指标由CycleGAN 损失函数决定;其中CycleGAN的损失函数由三部分构成,分别是对抗性损失、 循环一致性损失和身份映射损失;对抗性损失表示为:
其中,表示期望,x表示源说话人语音数据,y表示目标说话人语音数据, x~PData(x)和y~PData(y)分别表示x和y来自源说话人数据集PData(x)和目标说话人 数据集PData(y)。GX→Y为生成器,表示从源说话人到目标说话人的的映射关系,输 入源说话人语音数据,生成的具有目标说话人特征的源说话人语音数据,DY表示 鉴别器,用于判断输入的数据真实的y还是由生成器生成的虚假的数据;生成器 GX→Y试图通过最小化对抗性损失来生成假数据,使得DY无法鉴别,而DY试图通过 最大化该损失而不被生成器GX→Y欺骗。
循环一致性损失的表示为:
其中,表示期望,||·||1为L1正则化,GX→Y为生成器,表示从源说话人到目 标说话人的的映射关系,输入源说话人语音数据,生成的具有目标说话人特征的 源说话人语音数据,GY→X为另一个生成器,表示从目标说话人到源说话人的映射 关系,输入目标说话人语音数据,生成具有源说话人特征的语音数据。
身份映射损失的表示为:
本发明中,提高非并行语音转换性能的一种潜在方法就是使用循环生成对抗 网络(CycleGAN)。CycleGAN可以学习从源说话人到目标说话人以及目标说话 人到源说话人的双向映射,而且不依赖并行数据,相比于传统语音转换方法还避 免了过渡平滑的情况。CycleGAN使用对抗性损失和循环一致性损失同时学习正 向映射和反向映射,并且对抗性损失有助于减少转换后特征序列的过度平滑现象, 同时加入了身份映射损失,尽可能的保留语言信息。
本发明的有益效果主要表现在:1.相比传统的语音转换方法,特征转换效果 更好,转换后的语音质量更佳;2.因为循环生成对抗网络的特性,一次训练便可 以实现从源说话人到目标话人的特征转换和从目标说话人到源说话人的转换;3. 不用依赖并行数据集便可以实现高质量的语音转换。
附图说明
图1是本发明涉及的系统的训练部分流程图;
图2是本发明涉及的系统的转换部分流程图;
图3是本发明的循环生成对抗网络的系统框图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于循环生成对抗网络的语音转换方法,具体步骤如下:
步骤1:获取源说话人与目标说话人的语料库,这里采用了vcc2016(voiceconversion challenge2016)提供的开源语料库,并将所有的音频统一为64比特;
步骤2:按照6:2:2的比例分别将源说话人与目标说话人的数据集分成训练集、 测试集和验证集;
步骤3:确定采样频率与平滑功率谱参数的维度数等参数之后使用WORLD 模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;
步骤4:对源说话者和目标说话者的功率谱参数sp做降维处理之后送入到CycleGAN模型中训练;
步骤5:模型训练完成之后使用WORLD模型从源说话人和目标说话人的验 证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做 线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出, 输出的sp做解码处理以恢复之前的维度;
步骤6:使用WORLD步骤5中的f0、ap和sp合成语音转换后的音频,若 转换效果良好,音质清晰,则保存训练好的CycleGAN模型;
步骤7:CycleGAN一次训练可以实现源到目标说话人和目标到源说话人的双 向转换,所以先确定语音转换方向,默认设置为源到目标的转换。使用WORLD 提取源说话人测试集语音的基频信息f0、非周期分量ap和平滑功率谱参数sp, 对f0做与步骤5相同的线性变换,ap不做任何处理,sp传入步骤6保存好的 CycleGAN模型中进行转换;
步骤8:使用WORLD将步骤7中的f0、ap和sp合成语音并输出。
进一步,所述步骤4中,功率谱参数送入CycleGAN之前,需要使用WORLD 对其进行编码,降低维度之后再传入网络模型。
再进一步,所述步骤5中,sp传入训练好的CycleGAN网络模型进行转换输出 之后,要对sp进行解码操作,以恢复之前的维度。
所述步骤5中,f0的线性变换,其变换公式为:
f0new表示线性变换后的基频信息,f0x、μx和分别表示源说话人基频信息、 源说话人基频信息的均值与方差,μy和分别表示目标说话人基频信息的均值与 方差。
更进一步,所述步骤5中,所述的CycleGAN模型的训练指标由CycleGAN 损失函数决定;参照图3,其中CycleGAN的损失函数由三部分构成,分别是对 抗性损失、循环一致性损失和身份映射损失;对抗性损失表示为:
其中,表示期望,x表示源说话人语音数据,y表示目标说话人语音数据, x~PData(x)和y~PData(y)分别表示x和y来自源说话人数据集PData(x)和目标说话人 数据集PData(y)。GX→Y为生成器,表示从源说话人到目标说话人的的映射关系,输 入源说话人语音数据,生成的具有目标说话人特征的源说话人语音数据,DY表示 鉴别器,用于判断输入的数据真实的y还是由生成器生成的虚假的数据;生成器 GX→Y试图通过最小化对抗性损失来生成假数据,使得DY无法鉴别,而DY试图通过 最大化该损失而不被生成器GX→Y欺骗;
仅优化对抗性损失不一定能保证x和GX→Y(x)的上下文信息是一致的。这是因 为对抗性损失只告诉我们GX→Y(x)是否遵循目标数据分布但是对保留x的上下文 信息没有帮助,所以引入了循环一致性损失。循环一致性损失的表示为:
其中,表示期望,||·||1为L1正则化,GX→Y为生成器,表示从源说话人到目 标说话人的的映射关系,输入源说话人语音数据,生成的具有目标说话人特征的 源说话人语音数据,GY→X为另一个生成器,表示从目标说话人到源说话人的映射 关系,输入目标说话人语音数据,生成具有源说话人特征的语音数据。对于 GY→X(GX→Y(x)),生成器GY→X接受的数据是GX→Y(x),其是来自生成器GX→Y生成的 具有目标说话人特征的源说话人语音数据,GY→X再利用这个虚假的数据生成具有 源说话人特征的语音数据,对于GX→Y(GY→X(y))同理。
更进一步,尽管循环一致性损失会对网络结构起到约束的作用,但其并不足 以保证映射关系始终能够保留语言信息。为了使语言信息保存而不依赖额外的模 块且可以是CycleGAN的语音转换不依赖于并行数据集,这里引入了身份映射损 失。身份映射损失的表示为:
针对本发明使用的CycleGAN网络模型,待训练迭代次数达到35万次以上时, 损失函数基本下降到最低或者是无明显变化,此时标志着模型训练完成,可以验 证训练效果。验证结果之后如果转换效果明显,音质清晰便保存模型。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的 技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述 的只是说明本发明的原理.凡是利用本发明说明书及附图内容所作的等效结构或 等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明 的专利保护范围内。
Claims (5)
1.一种基于循环生成对抗网络的语音转换方法,其特征在于,所述方法包括以下步骤:
步骤1:获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特;
步骤2:按照设定的比例分别将源说话人与目标说话人的数据集分成训练集、测试集和验证集;
步骤3:使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;
步骤4:将源说话者和目标说话者的功率谱参数sp送入到CycleGAN模型中训练;
步骤5:模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;
步骤6:使用WORLD将步骤5中的f0、ap和sp合成语音转换后的音频,若转换效果良好,音质清晰,则保存训练好的CycleGAN模型;
步骤7:使用WORLD提取源说话人测试集语音的基频信息f0、非周期分量ap和平滑功率谱参数sp,对f0做与步骤5相同的线性变换,ap不做任何处理,sp传入步骤6保存好的CycleGAN模型中进行转换;
步骤8:使用WORLD将步骤7中的f0、ap和sp合成语音并输出。
2.如权利要求1所述的一种基于循环生成对抗网络的语音转换方法,其特征在于,所述步骤4中,功率谱参数送入CycleGAN之前,需要使用WORLD对其进行编码,降低维度之后再传入网络模型。
3.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法,其特征在于,所述步骤5中,sp传入训练好的CycleGAN网络模型进行转换输出之后,要对sp进行解码操作,以恢复之前的维度。
4.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法,其特征在于,所述步骤5中,f0的线性变换,其变换公式为:
f0new表示线性变换后的基频信息,f0x、μx和分别表示源说话人基频信息、源说话人基频信息的均值与方差,μy和分别表示目标说话人基频信息的均值与方差。
5.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法,其特征在于,所述步骤5中,所述的CycleGAN模型的训练指标由CycleGAN损失函数决定;其中CycleGAN的损失函数由三部分构成,分别是对抗性损失、循环一致性损失和身份映射损失;对抗性损失表示为:
其中,表示期望,x表示源说话人语音数据,y表示目标说话人语音数据,x~PData(x)和y~PData(y)分别表示x和y来自源说话人数据集PData(x)和目标说话人数据集PData(y)。GX→Y为生成器,表示从源说话人到目标说话人的的映射关系,输入源说话人语音数据,生成的具有目标说话人特征的源说话人语音数据,DY表示鉴别器,用于判断输入的数据真实的y还是由生成器生成的虚假的数据;生成器GX→Y试图通过最小化对抗性损失来生成假数据,使得DY无法鉴别,而DY试图通过最大化该损失而不被生成器GX→Y欺骗;
循环一致性损失的表示为:
其中,表示期望,||·||1为L1正则化,GX→Y为生成器,表示从源说话人到目标说话人的的映射关系,输入源说话人语音数据,生成的具有目标说话人特征的源说话人语音数据,GY→X为另一个生成器,表示从目标说话人到源说话人的映射关系,输入目标说话人语音数据,生成具有源说话人特征的语音数据。
身份映射损失的表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910669055.4A CN110459232A (zh) | 2019-07-24 | 2019-07-24 | 一种基于循环生成对抗网络的语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910669055.4A CN110459232A (zh) | 2019-07-24 | 2019-07-24 | 一种基于循环生成对抗网络的语音转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110459232A true CN110459232A (zh) | 2019-11-15 |
Family
ID=68483096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910669055.4A Pending CN110459232A (zh) | 2019-07-24 | 2019-07-24 | 一种基于循环生成对抗网络的语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110459232A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111599368A (zh) * | 2020-05-18 | 2020-08-28 | 杭州电子科技大学 | 一种基于直方图匹配的自适应实例规一化语音转换方法 |
CN111696520A (zh) * | 2020-05-26 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 智能配音方法、装置、介质及电子设备 |
CN112951253A (zh) * | 2019-11-24 | 2021-06-11 | 华南理工大学 | 一种基于Cycle-GAN的音频风格转换方法及系统 |
CN113066476A (zh) * | 2019-12-13 | 2021-07-02 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
CN113129914A (zh) * | 2019-12-30 | 2021-07-16 | 明日基金知识产权有限公司 | 跨语言语音转换系统和方法 |
CN113205794A (zh) * | 2021-04-28 | 2021-08-03 | 电子科技大学 | 基于生成网络的虚拟低音转换方法 |
CN113066476B (zh) * | 2019-12-13 | 2024-05-31 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN105261359A (zh) * | 2015-12-01 | 2016-01-20 | 南京师范大学 | 手机麦克风的消噪系统和消噪方法 |
CN106504741A (zh) * | 2016-09-18 | 2017-03-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度神经网络音素信息的语音转换方法 |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109599091A (zh) * | 2019-01-14 | 2019-04-09 | 南京邮电大学 | 基于STARWGAN-GP和x向量的多对多说话人转换方法 |
CN109671442A (zh) * | 2019-01-14 | 2019-04-23 | 南京邮电大学 | 基于STARGAN与x向量的多对多说话人转换方法 |
CN110047501A (zh) * | 2019-04-04 | 2019-07-23 | 南京邮电大学 | 基于beta-VAE的多对多语音转换方法 |
-
2019
- 2019-07-24 CN CN201910669055.4A patent/CN110459232A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN105261359A (zh) * | 2015-12-01 | 2016-01-20 | 南京师范大学 | 手机麦克风的消噪系统和消噪方法 |
CN106504741A (zh) * | 2016-09-18 | 2017-03-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度神经网络音素信息的语音转换方法 |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
CN109326283A (zh) * | 2018-11-23 | 2019-02-12 | 南京邮电大学 | 非平行文本条件下基于文本编码器的多对多语音转换方法 |
CN109599091A (zh) * | 2019-01-14 | 2019-04-09 | 南京邮电大学 | 基于STARWGAN-GP和x向量的多对多说话人转换方法 |
CN109671442A (zh) * | 2019-01-14 | 2019-04-23 | 南京邮电大学 | 基于STARGAN与x向量的多对多说话人转换方法 |
CN110047501A (zh) * | 2019-04-04 | 2019-07-23 | 南京邮电大学 | 基于beta-VAE的多对多语音转换方法 |
Non-Patent Citations (1)
Title |
---|
李涛: ""基于CycleGAN网络实现非平行语料库条件下的语音转换"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112951253A (zh) * | 2019-11-24 | 2021-06-11 | 华南理工大学 | 一种基于Cycle-GAN的音频风格转换方法及系统 |
CN113066476A (zh) * | 2019-12-13 | 2021-07-02 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
CN113066476B (zh) * | 2019-12-13 | 2024-05-31 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
CN113129914A (zh) * | 2019-12-30 | 2021-07-16 | 明日基金知识产权有限公司 | 跨语言语音转换系统和方法 |
CN111599368A (zh) * | 2020-05-18 | 2020-08-28 | 杭州电子科技大学 | 一种基于直方图匹配的自适应实例规一化语音转换方法 |
CN111599368B (zh) * | 2020-05-18 | 2022-10-18 | 杭州电子科技大学 | 一种基于直方图匹配的自适应实例规一化语音转换方法 |
CN111696520A (zh) * | 2020-05-26 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 智能配音方法、装置、介质及电子设备 |
WO2021237923A1 (zh) * | 2020-05-26 | 2021-12-02 | 深圳壹账通智能科技有限公司 | 智能配音方法、装置、计算机设备和存储介质 |
CN113205794A (zh) * | 2021-04-28 | 2021-08-03 | 电子科技大学 | 基于生成网络的虚拟低音转换方法 |
CN113205794B (zh) * | 2021-04-28 | 2022-10-14 | 电子科技大学 | 基于生成网络的虚拟低音转换方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110459232A (zh) | 一种基于循环生成对抗网络的语音转换方法 | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
CN110600047B (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN110060701B (zh) | 基于vawgan-ac的多对多语音转换方法 | |
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN101751922B (zh) | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 | |
CN108777140A (zh) | 一种非平行语料训练下基于vae的语音转换方法 | |
CN109599091B (zh) | 基于STARWGAN-GP和x向量的多对多说话人转换方法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
CN111833855B (zh) | 基于DenseNet STARGAN的多对多说话人转换方法 | |
CN109559736A (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN109377981B (zh) | 音素对齐的方法及装置 | |
CN112466316A (zh) | 一种基于生成对抗网络的零样本语音转换系统 | |
CN109410974A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN112259080B (zh) | 一种基于神经网络模型的语音识别方法 | |
CN111666831A (zh) | 一种基于解耦表示学习的说话人脸视频生成方法 | |
CN111951781A (zh) | 一种基于图到序列的中文韵律边界预测的方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN116721176B (zh) | 一种基于clip监督的文本到人脸图像生成方法及装置 | |
Ling | An acoustic model for English speech recognition based on deep learning | |
CN115249479A (zh) | 基于brnn的电网调度复杂语音识别方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |
|
RJ01 | Rejection of invention patent application after publication |