CN110459232A - 一种基于循环生成对抗网络的语音转换方法 - Google Patents

一种基于循环生成对抗网络的语音转换方法 Download PDF

Info

Publication number
CN110459232A
CN110459232A CN201910669055.4A CN201910669055A CN110459232A CN 110459232 A CN110459232 A CN 110459232A CN 201910669055 A CN201910669055 A CN 201910669055A CN 110459232 A CN110459232 A CN 110459232A
Authority
CN
China
Prior art keywords
speaker
voice
data
source speaker
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910669055.4A
Other languages
English (en)
Inventor
吴哲夫
陈明达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910669055.4A priority Critical patent/CN110459232A/zh
Publication of CN110459232A publication Critical patent/CN110459232A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种基于循环生成对抗网络的语音转换方法,获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特;按照设定的比例分成训练集、测试集和验证集;使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;将sp送入到CycleGAN模型中训练;模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;合成语音转换后的音频。本发明改善先前技术中语音转换的质量,并且无需并行数据集就可以实现高质量的语音转换。

Description

一种基于循环生成对抗网络的语音转换方法
技术领域
本发明涉及语音转换技术,特别是一种基于循环生成对抗网络的语音转换方 法。
背景技术
语音转换是一种用于修改源说话者语音信号以匹配目标说话者语音信号的技术,使之具有目标说话人的语音特征但同时保持语音信息不变。语音转换的主要 任务包括提取代表说话人个性的特征参数并进行转换,然后将转换之后的参数重 构成语音。这一过程既要保证转换后语音的清晰度,又要保证转换后语音特征的 相似度。
语音转换的目标是找到源说话人和目标说话人的语音特征之间的映射。矢量 量化,高斯混合模型和人工神经网络都是典型的语音转换方法。但是包括上述方 法在内的很多方法都需要使用源和目标说话人的时间对齐的并行数据作为训练数 据。但是对齐的过程也耗费了时间,并且对齐也不是完全正确的,在对齐的过程 中可能还会引入别的错误。
在非并行的语音数据中,训练数据由不同的语言内容组成,因为不共享语言 特征,因此自动匹配两个说话人的语音特征便更加困难。
发明内容
为了克服已有语音转换方法的质量较低的不足,本发明提供了一种基于循环 生成对抗网络的语音转换方法,目的是改善先前技术中语音转换的质量,并且无 需并行数据集就可以实现高质量的语音转换。
本发明解决其技术问题所采用的技术方案是:
一种基于循环生成对抗网络的语音转换方法,包括以下步骤:
步骤1:获取源说话人与目标说话人的语料库并将所有的音频统一为固定比 特;
步骤2:按照设定的比例分别将源说话人与目标说话人的数据集分成训练集、 测试集和验证集;
步骤3:使用WORLD模型分别从源说话人和目标说话人训练集语音中提取 平滑功率谱参数sp;
步骤4:将源说话者和目标说话者的功率谱参数sp送入到CycleGAN模型中 训练;
步骤5:模型训练完成之后使用WORLD模型从源说话人和目标说话人的验 证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做 线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;
步骤6:使用WORLD将步骤5中的f0、ap和sp合成语音转换后的音频, 若转换效果良好,音质清晰,则保存训练好的CycleGAN模型;
步骤7:使用WORLD提取源说话人测试集语音的基频信息f0、非周期分量 ap和平滑功率谱参数sp。对f0做与步骤5相同的线性变换,ap不做任何处理, sp传入步骤6保存好的CycleGAN模型中进行转换;
步骤8:使用WORLD将步骤7中的f0、ap和sp合成语音并输出。
进一步,所述步骤4中,功率谱参数送入CycleGAN之前,需要使用WORLD 对其进行编码,降低维度之后再传入网络模型。
再进一步,所述步骤5中,sp传入训练好的CycleGAN网络模型进行转换输出 之后,要对sp进行解码操作,以恢复之前的维度。
所述步骤5中,f0的线性变换,其变换公式为:
f0new表示线性变换后的基频信息,f0x、μx分别表示源说话人基频信息、 源说话人基频信息的均值与方差,μy分别表示目标说话人基频信息的均值与 方差。
更进一步,所述步骤5中,所述的CycleGAN模型的训练指标由CycleGAN 损失函数决定;其中CycleGAN的损失函数由三部分构成,分别是对抗性损失、 循环一致性损失和身份映射损失;对抗性损失表示为:
其中,表示期望,x表示源说话人语音数据,y表示目标说话人语音数据, x~PData(x)和y~PData(y)分别表示x和y来自源说话人数据集PData(x)和目标说话人 数据集PData(y)。GX→Y为生成器,表示从源说话人到目标说话人的的映射关系,输 入源说话人语音数据,生成的具有目标说话人特征的源说话人语音数据,DY表示 鉴别器,用于判断输入的数据真实的y还是由生成器生成的虚假的数据;生成器 GX→Y试图通过最小化对抗性损失来生成假数据,使得DY无法鉴别,而DY试图通过 最大化该损失而不被生成器GX→Y欺骗。
循环一致性损失的表示为:
其中,表示期望,||·||1为L1正则化,GX→Y为生成器,表示从源说话人到目 标说话人的的映射关系,输入源说话人语音数据,生成的具有目标说话人特征的 源说话人语音数据,GY→X为另一个生成器,表示从目标说话人到源说话人的映射 关系,输入目标说话人语音数据,生成具有源说话人特征的语音数据。
身份映射损失的表示为:
本发明中,提高非并行语音转换性能的一种潜在方法就是使用循环生成对抗 网络(CycleGAN)。CycleGAN可以学习从源说话人到目标说话人以及目标说话 人到源说话人的双向映射,而且不依赖并行数据,相比于传统语音转换方法还避 免了过渡平滑的情况。CycleGAN使用对抗性损失和循环一致性损失同时学习正 向映射和反向映射,并且对抗性损失有助于减少转换后特征序列的过度平滑现象, 同时加入了身份映射损失,尽可能的保留语言信息。
本发明的有益效果主要表现在:1.相比传统的语音转换方法,特征转换效果 更好,转换后的语音质量更佳;2.因为循环生成对抗网络的特性,一次训练便可 以实现从源说话人到目标话人的特征转换和从目标说话人到源说话人的转换;3. 不用依赖并行数据集便可以实现高质量的语音转换。
附图说明
图1是本发明涉及的系统的训练部分流程图;
图2是本发明涉及的系统的转换部分流程图;
图3是本发明的循环生成对抗网络的系统框图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于循环生成对抗网络的语音转换方法,具体步骤如下:
步骤1:获取源说话人与目标说话人的语料库,这里采用了vcc2016(voiceconversion challenge2016)提供的开源语料库,并将所有的音频统一为64比特;
步骤2:按照6:2:2的比例分别将源说话人与目标说话人的数据集分成训练集、 测试集和验证集;
步骤3:确定采样频率与平滑功率谱参数的维度数等参数之后使用WORLD 模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;
步骤4:对源说话者和目标说话者的功率谱参数sp做降维处理之后送入到CycleGAN模型中训练;
步骤5:模型训练完成之后使用WORLD模型从源说话人和目标说话人的验 证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做 线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出, 输出的sp做解码处理以恢复之前的维度;
步骤6:使用WORLD步骤5中的f0、ap和sp合成语音转换后的音频,若 转换效果良好,音质清晰,则保存训练好的CycleGAN模型;
步骤7:CycleGAN一次训练可以实现源到目标说话人和目标到源说话人的双 向转换,所以先确定语音转换方向,默认设置为源到目标的转换。使用WORLD 提取源说话人测试集语音的基频信息f0、非周期分量ap和平滑功率谱参数sp, 对f0做与步骤5相同的线性变换,ap不做任何处理,sp传入步骤6保存好的 CycleGAN模型中进行转换;
步骤8:使用WORLD将步骤7中的f0、ap和sp合成语音并输出。
进一步,所述步骤4中,功率谱参数送入CycleGAN之前,需要使用WORLD 对其进行编码,降低维度之后再传入网络模型。
再进一步,所述步骤5中,sp传入训练好的CycleGAN网络模型进行转换输出 之后,要对sp进行解码操作,以恢复之前的维度。
所述步骤5中,f0的线性变换,其变换公式为:
f0new表示线性变换后的基频信息,f0x、μx分别表示源说话人基频信息、 源说话人基频信息的均值与方差,μy分别表示目标说话人基频信息的均值与 方差。
更进一步,所述步骤5中,所述的CycleGAN模型的训练指标由CycleGAN 损失函数决定;参照图3,其中CycleGAN的损失函数由三部分构成,分别是对 抗性损失、循环一致性损失和身份映射损失;对抗性损失表示为:
其中,表示期望,x表示源说话人语音数据,y表示目标说话人语音数据, x~PData(x)和y~PData(y)分别表示x和y来自源说话人数据集PData(x)和目标说话人 数据集PData(y)。GX→Y为生成器,表示从源说话人到目标说话人的的映射关系,输 入源说话人语音数据,生成的具有目标说话人特征的源说话人语音数据,DY表示 鉴别器,用于判断输入的数据真实的y还是由生成器生成的虚假的数据;生成器 GX→Y试图通过最小化对抗性损失来生成假数据,使得DY无法鉴别,而DY试图通过 最大化该损失而不被生成器GX→Y欺骗;
仅优化对抗性损失不一定能保证x和GX→Y(x)的上下文信息是一致的。这是因 为对抗性损失只告诉我们GX→Y(x)是否遵循目标数据分布但是对保留x的上下文 信息没有帮助,所以引入了循环一致性损失。循环一致性损失的表示为:
其中,表示期望,||·||1为L1正则化,GX→Y为生成器,表示从源说话人到目 标说话人的的映射关系,输入源说话人语音数据,生成的具有目标说话人特征的 源说话人语音数据,GY→X为另一个生成器,表示从目标说话人到源说话人的映射 关系,输入目标说话人语音数据,生成具有源说话人特征的语音数据。对于 GY→X(GX→Y(x)),生成器GY→X接受的数据是GX→Y(x),其是来自生成器GX→Y生成的 具有目标说话人特征的源说话人语音数据,GY→X再利用这个虚假的数据生成具有 源说话人特征的语音数据,对于GX→Y(GY→X(y))同理。
更进一步,尽管循环一致性损失会对网络结构起到约束的作用,但其并不足 以保证映射关系始终能够保留语言信息。为了使语言信息保存而不依赖额外的模 块且可以是CycleGAN的语音转换不依赖于并行数据集,这里引入了身份映射损 失。身份映射损失的表示为:
针对本发明使用的CycleGAN网络模型,待训练迭代次数达到35万次以上时, 损失函数基本下降到最低或者是无明显变化,此时标志着模型训练完成,可以验 证训练效果。验证结果之后如果转换效果明显,音质清晰便保存模型。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的 技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述 的只是说明本发明的原理.凡是利用本发明说明书及附图内容所作的等效结构或 等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明 的专利保护范围内。

Claims (5)

1.一种基于循环生成对抗网络的语音转换方法,其特征在于,所述方法包括以下步骤:
步骤1:获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特;
步骤2:按照设定的比例分别将源说话人与目标说话人的数据集分成训练集、测试集和验证集;
步骤3:使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;
步骤4:将源说话者和目标说话者的功率谱参数sp送入到CycleGAN模型中训练;
步骤5:模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;
步骤6:使用WORLD将步骤5中的f0、ap和sp合成语音转换后的音频,若转换效果良好,音质清晰,则保存训练好的CycleGAN模型;
步骤7:使用WORLD提取源说话人测试集语音的基频信息f0、非周期分量ap和平滑功率谱参数sp,对f0做与步骤5相同的线性变换,ap不做任何处理,sp传入步骤6保存好的CycleGAN模型中进行转换;
步骤8:使用WORLD将步骤7中的f0、ap和sp合成语音并输出。
2.如权利要求1所述的一种基于循环生成对抗网络的语音转换方法,其特征在于,所述步骤4中,功率谱参数送入CycleGAN之前,需要使用WORLD对其进行编码,降低维度之后再传入网络模型。
3.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法,其特征在于,所述步骤5中,sp传入训练好的CycleGAN网络模型进行转换输出之后,要对sp进行解码操作,以恢复之前的维度。
4.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法,其特征在于,所述步骤5中,f0的线性变换,其变换公式为:
f0new表示线性变换后的基频信息,f0x、μx分别表示源说话人基频信息、源说话人基频信息的均值与方差,μy分别表示目标说话人基频信息的均值与方差。
5.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法,其特征在于,所述步骤5中,所述的CycleGAN模型的训练指标由CycleGAN损失函数决定;其中CycleGAN的损失函数由三部分构成,分别是对抗性损失、循环一致性损失和身份映射损失;对抗性损失表示为:
其中,表示期望,x表示源说话人语音数据,y表示目标说话人语音数据,x~PData(x)和y~PData(y)分别表示x和y来自源说话人数据集PData(x)和目标说话人数据集PData(y)。GX→Y为生成器,表示从源说话人到目标说话人的的映射关系,输入源说话人语音数据,生成的具有目标说话人特征的源说话人语音数据,DY表示鉴别器,用于判断输入的数据真实的y还是由生成器生成的虚假的数据;生成器GX→Y试图通过最小化对抗性损失来生成假数据,使得DY无法鉴别,而DY试图通过最大化该损失而不被生成器GX→Y欺骗;
循环一致性损失的表示为:
其中,表示期望,||·||1为L1正则化,GX→Y为生成器,表示从源说话人到目标说话人的的映射关系,输入源说话人语音数据,生成的具有目标说话人特征的源说话人语音数据,GY→X为另一个生成器,表示从目标说话人到源说话人的映射关系,输入目标说话人语音数据,生成具有源说话人特征的语音数据。
身份映射损失的表示为:
CN201910669055.4A 2019-07-24 2019-07-24 一种基于循环生成对抗网络的语音转换方法 Pending CN110459232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910669055.4A CN110459232A (zh) 2019-07-24 2019-07-24 一种基于循环生成对抗网络的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910669055.4A CN110459232A (zh) 2019-07-24 2019-07-24 一种基于循环生成对抗网络的语音转换方法

Publications (1)

Publication Number Publication Date
CN110459232A true CN110459232A (zh) 2019-11-15

Family

ID=68483096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910669055.4A Pending CN110459232A (zh) 2019-07-24 2019-07-24 一种基于循环生成对抗网络的语音转换方法

Country Status (1)

Country Link
CN (1) CN110459232A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599368A (zh) * 2020-05-18 2020-08-28 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法
CN111696520A (zh) * 2020-05-26 2020-09-22 深圳壹账通智能科技有限公司 智能配音方法、装置、介质及电子设备
CN112951253A (zh) * 2019-11-24 2021-06-11 华南理工大学 一种基于Cycle-GAN的音频风格转换方法及系统
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113129914A (zh) * 2019-12-30 2021-07-16 明日基金知识产权有限公司 跨语言语音转换系统和方法
CN113205794A (zh) * 2021-04-28 2021-08-03 电子科技大学 基于生成网络的虚拟低音转换方法
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN105261359A (zh) * 2015-12-01 2016-01-20 南京师范大学 手机麦克风的消噪系统和消噪方法
CN106504741A (zh) * 2016-09-18 2017-03-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度神经网络音素信息的语音转换方法
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109671442A (zh) * 2019-01-14 2019-04-23 南京邮电大学 基于STARGAN与x向量的多对多说话人转换方法
CN110047501A (zh) * 2019-04-04 2019-07-23 南京邮电大学 基于beta-VAE的多对多语音转换方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN105261359A (zh) * 2015-12-01 2016-01-20 南京师范大学 手机麦克风的消噪系统和消噪方法
CN106504741A (zh) * 2016-09-18 2017-03-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度神经网络音素信息的语音转换方法
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN109326283A (zh) * 2018-11-23 2019-02-12 南京邮电大学 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109671442A (zh) * 2019-01-14 2019-04-23 南京邮电大学 基于STARGAN与x向量的多对多说话人转换方法
CN110047501A (zh) * 2019-04-04 2019-07-23 南京邮电大学 基于beta-VAE的多对多语音转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李涛: ""基于CycleGAN网络实现非平行语料库条件下的语音转换"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951253A (zh) * 2019-11-24 2021-06-11 华南理工大学 一种基于Cycle-GAN的音频风格转换方法及系统
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113129914A (zh) * 2019-12-30 2021-07-16 明日基金知识产权有限公司 跨语言语音转换系统和方法
CN111599368A (zh) * 2020-05-18 2020-08-28 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法
CN111599368B (zh) * 2020-05-18 2022-10-18 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法
CN111696520A (zh) * 2020-05-26 2020-09-22 深圳壹账通智能科技有限公司 智能配音方法、装置、介质及电子设备
WO2021237923A1 (zh) * 2020-05-26 2021-12-02 深圳壹账通智能科技有限公司 智能配音方法、装置、计算机设备和存储介质
CN113205794A (zh) * 2021-04-28 2021-08-03 电子科技大学 基于生成网络的虚拟低音转换方法
CN113205794B (zh) * 2021-04-28 2022-10-14 电子科技大学 基于生成网络的虚拟低音转换方法

Similar Documents

Publication Publication Date Title
CN110459232A (zh) 一种基于循环生成对抗网络的语音转换方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN110060701B (zh) 基于vawgan-ac的多对多语音转换方法
CN101064104B (zh) 基于语音转换的情感语音生成方法
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN101751922B (zh) 基于隐马尔可夫模型状态映射的文本无关语音转换系统
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN109599091B (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN111833855B (zh) 基于DenseNet STARGAN的多对多说话人转换方法
CN109559736A (zh) 一种基于对抗网络的电影演员自动配音方法
CN109377981B (zh) 音素对齐的方法及装置
CN112466316A (zh) 一种基于生成对抗网络的零样本语音转换系统
CN109410974A (zh) 语音增强方法、装置、设备及存储介质
CN112259080B (zh) 一种基于神经网络模型的语音识别方法
CN111666831A (zh) 一种基于解耦表示学习的说话人脸视频生成方法
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN116721176B (zh) 一种基于clip监督的文本到人脸图像生成方法及装置
Ling An acoustic model for English speech recognition based on deep learning
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115

RJ01 Rejection of invention patent application after publication