CN116312469A - 一种基于语音转换的病理嗓音修复方法 - Google Patents
一种基于语音转换的病理嗓音修复方法 Download PDFInfo
- Publication number
- CN116312469A CN116312469A CN202310553240.3A CN202310553240A CN116312469A CN 116312469 A CN116312469 A CN 116312469A CN 202310553240 A CN202310553240 A CN 202310553240A CN 116312469 A CN116312469 A CN 116312469A
- Authority
- CN
- China
- Prior art keywords
- voice
- pathological
- obtaining
- formula
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000001575 pathological effect Effects 0.000 title claims abstract description 67
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 31
- 230000008439 repair process Effects 0.000 claims abstract description 40
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000001228 spectrum Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 14
- 230000000903 blocking effect Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000005215 recombination Methods 0.000 claims description 5
- 230000006798 recombination Effects 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000008521 reorganization Effects 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000004913 activation Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 206010013887 Dysarthria Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 208000011293 voice disease Diseases 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010071368 Psychological trauma Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种基于语音转换的病理嗓音修复方法,包括对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;通过内容编码器分离出病理嗓音内容;对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。本发明选择采用参数修复方法得到少量修复语音作为目标语音输入,结合语音转换技术,实现不受文本约束的病理嗓音修复。
Description
技术领域
本发明属于病理嗓音修复技术领域,尤其是涉及一种基于语音转换的病理嗓音修复方法。
背景技术
病理嗓音主要是由于声带和喉的各种疾病导致的闭合或振动异常,致使其声学性质发生改变,在临床上表现出不同程度的声音嘶哑、失真等。嗓音疾病会影响人们的语言交流,给人们的生活带来严重的困扰,因此病理嗓音修复的相关研究具有重要的研究意义和实际应用价值。
目前国内外关于病理嗓音的研究侧重于病理嗓音的检测、识别和分类,鲜有病理嗓音修复方面的研究。病理嗓音诊断治疗的传统方法是主观听觉感知和侵入式方式,然而这需要专业设备和训练有素的专业人员,而且侵入式治疗的不彻底性会对患者的语言表达和听觉感知产生影响,甚至可能会给患者造成心理创伤。随着计算机的普及和声学技术的发展,采用非侵入式方法对病理嗓音进行修复逐渐成为学者们关注的重点,其中采用信号处理、机器学习等方法实现病理嗓音修复是研究的新方向,它具有运行成本低,容易操作等优点。
病理嗓音修复旨在通过修复病理嗓音中代表个人特色的客观表征以提高语音的可懂度。对于病理嗓音修复研究,主要分为基于声学参数的方法和基于语音转换的方法。
基于声学参数的方法针对的是声带受损语音的修复,它是通过对病理嗓音基频和共振峰进行提取重构实现的修复,且都有较好的修复效果,病理的可懂度有提高。但是基于参数的修复方法存在的问题是:一、只能对特定的音素进行修复,可修复的文本对象受限;二、修复效率低且不稳定,因此该方法并不能满足实际应用中为嗓音疾病患者提供便利的语音交互的需求。
近两年人们开始研究利用语音转换技术去提升语音可懂度,目前主要应用于构音障碍,关于声带受损的病理嗓音还未涉及。语音转换是人工智能的一个重要方面。语音转换的目的是在保持语言内容不变的情况下对语音信号的非语言信息进行转换。非语言信息可能包括说话人的身份,口音或发音等。基于语音转换模型的病理嗓音修复实际上是保持说话人身份不变,通过对音色进行改变,以提高病理嗓音的可懂度。目前语音转换技术在构音障碍中取得了一定的应用,但是效果并不理想。
考虑到上述问题,本发明选择采用参数修复方法得到少量修复语音作为目标语音输入,结合语音转换技术,实现不受文本约束的病理嗓音修复。
发明内容
有鉴于此,本发明提出了一种基于语音转换的病理嗓音修复方法,通过构建端到端的语音转换模型,达到提高病理嗓音可懂度的目的。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于语音转换的病理嗓音修复方法,包括如下步骤;
步骤1:对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;
步骤2:将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;
步骤3:将任意病理语音通过内容编码器分离出病理嗓音内容;
步骤4:对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。
进一步的,所述指定语料包括汉语的所有声母和韵母音节。
进一步的,所述步骤1中,基于参数的修复方法采用小波变换和Hilbert-Huang变换进行基频提取,基于线谱对LSP特征重构共振峰,通过合成基频和共振峰得到修复的语音。
进一步的,所述步骤2中具体包括如下步骤:
进一步的,所述步骤3中具体包括如下步骤:
进一步的,所述步骤4中具体包括如下步骤:
其中upsample()为最近邻上采样计算公式;
相对于现有技术,本发明所述的一种基于语音转换的病理嗓音修复方法具有以下优势:将基于参数的修复与语音转换方式相结合,可以实现患者任意语句的修复,摆脱文本的约束,只需对患者的指定语料进行参数修复,再利用语音转换将修复的音色与患者的内容进行合成,即可得到修复的病理嗓音。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的方法的整体框图;
图2为本发明的音色编码器网络模型示意图;
图3为本发明的内容编码器网络模型示意图;
图4为本发明的解码器网络模型示意图;
图5为本发明的频谱对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,本发明的公式中所用的各个函数都是torch中提供的函数。
本发明通过一个基于改进的VAE的语音转换模型将语音的内容与音色分离开,首次提出采用参数修复方法对病理说话人的指定语料进行修复得到少量修复语音作为目标语音,病理语音作为源语音/>,二者分别通过音色编码器和内容编码器得到修复的音色和病理嗓音的内容,最后由解码器将两者进行合成,得到修复的病理嗓音。
如图1所示,本发明的基于语音转换的病理嗓音修复方法具体包括如下步骤:
步骤1、“伪参考语料”的生成
对病理说话人的指定语料进行基于参数的修复得到少量修复语音,该指定语料涵盖汉语了所有声母和韵母音节。然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”去近似代替GT(Ground Truth),以提供“健康的音色”。基于参数的修复方法如采用小波变换和Hilbert-Huang变换进行基频提取,基于线谱对(LSP)特征重构共振峰,通过合成基频和共振峰得到修复的语音,该修复语音的可懂度有显著的提升。
步骤2、提取音色
将参数修复后的语音质量最好的“伪参考语料”作为目标语音,并输入至音色编码器网络中。如图2所示,音色编码器网络是一个自回归模型,通过对输入特征频谱逐层编码得到深层特征,取最后得到的潜变量/>作为说话人表示,即音色。具体包括:
其中upsample()为最近邻上采样计算公式;
步骤3、提取内容
病理嗓音内容的分离是通过一个内容编码器网络,得到一个代表病理嗓音内容的潜在表征/>,内容编码器网络模型如图3所示。为了在保留内容信息的同时删除说话人信息,/>网络中加入了实例归一化(Instance normalization, In),具体包括:
步骤4、语音合成
其中,为附加公式,该公式根据Zs的形状,计算出每个通道的均值和标准差,将均值和标准差张量按照通道数的维度划分为两个张量,分别为 mean 和 std,对于输入/> ,通过乘以std加上 mean实现append,/>= />× std + mean;
下面通过具体的实施过程说明本发明的方案。
三、语音合成
四、组成模块
同时经批归一化和二维卷积得到/>,二维卷积的参数为/>,其中每层卷积核的大小为/>,输出的特征图个数为64。批归一化的输入特征图的个数为 64,eps=BN_EPS=1e-5,momentum=0.05。
通过SE层得到/>。对/>的维度2和3进行均值计算,然后view维度变换转换为二维张量/>,/>依次经过全连接层1、ReLU激活层、全连接层2、Sigmoid激活层得到/>。全连接层1输入输出分别为64和4,全连接层2的输入输出分别为4和64。最后对/>进行维度变换并乘以原始输入/>得到/>。
批归一化的输入特征图的个数为384,eps=BN_EPS=1e-5,momentum=0.05。
通过SE层得到/>。对/>的维度2和3进行均值计算,然后view维度变换保持转换为二维张量/>,/>依次经过全连接层、ReLU激活层、全连接层、Sigmoid激活层得到/>,全连接层1输入输出分别为64和4,全连接层2的输入输出分别为4和64。最后对/>进行维度变换并乘以原始输入/>得到/>。
图5 对比原始病理语音频谱和基于参数修复的病理语音频谱,其中,最上面的图为病理语音频谱图,中间的图为参数修复语音频谱图,最下面的图为语音转换修复语音频谱图。由此可见,本发明的方法可以显著地减少原始病理语音的噪声干扰等影响因素,提高语音的质量。本发明可以摆脱修复文本的约束,对任意语句进行修复,较之参数修复方法更灵活、高效。综合来说,本发明的方法更具有实际应用的意义。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于语音转换的病理嗓音修复方法,其特征在于:包括如下步骤:
步骤1:对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;
步骤2:将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;
步骤3:将任意病理语音通过内容编码器分离出病理嗓音内容;
步骤4:对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。
2.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述指定语料包括汉语的所有声母和韵母音节。
3.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤1中,基于参数的修复方法采用小波变换和Hilbert-Huang变换进行基频提取,基于线谱对LSP特征重构共振峰,通过合成基频和共振峰得到修复的语音。
4.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤2中具体包括如下步骤:
5.根据权利要求4所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤3中具体包括如下步骤:
6.根据权利要求5所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤4中具体包括如下步骤:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553240.3A CN116312469B (zh) | 2023-05-17 | 2023-05-17 | 一种基于语音转换的病理嗓音修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553240.3A CN116312469B (zh) | 2023-05-17 | 2023-05-17 | 一种基于语音转换的病理嗓音修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116312469A true CN116312469A (zh) | 2023-06-23 |
CN116312469B CN116312469B (zh) | 2023-08-11 |
Family
ID=86794498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310553240.3A Active CN116312469B (zh) | 2023-05-17 | 2023-05-17 | 一种基于语音转换的病理嗓音修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312469B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117357104A (zh) * | 2023-12-07 | 2024-01-09 | 深圳市好兄弟电子有限公司 | 一种基于用户特征的音频分析方法 |
CN117976141A (zh) * | 2024-04-01 | 2024-05-03 | 四川大学华西医院 | 一种基于声学分析算法的嗓音康复分析方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
CN112652318A (zh) * | 2020-12-21 | 2021-04-13 | 北京捷通华声科技股份有限公司 | 音色转换方法、装置及电子设备 |
CN112837669A (zh) * | 2020-05-21 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置及服务器 |
CN115294970A (zh) * | 2022-10-09 | 2022-11-04 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
US20230081659A1 (en) * | 2020-03-13 | 2023-03-16 | Microsoft Technology Licensing, Llc | Cross-speaker style transfer speech synthesis |
CN116030792A (zh) * | 2023-03-30 | 2023-04-28 | 澳克多普有限公司 | 用于转换语音音色的方法、装置、电子设备和可读介质 |
-
2023
- 2023-05-17 CN CN202310553240.3A patent/CN116312469B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230081659A1 (en) * | 2020-03-13 | 2023-03-16 | Microsoft Technology Licensing, Llc | Cross-speaker style transfer speech synthesis |
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
CN112837669A (zh) * | 2020-05-21 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置及服务器 |
CN112652318A (zh) * | 2020-12-21 | 2021-04-13 | 北京捷通华声科技股份有限公司 | 音色转换方法、装置及电子设备 |
CN115294970A (zh) * | 2022-10-09 | 2022-11-04 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
CN116030792A (zh) * | 2023-03-30 | 2023-04-28 | 澳克多普有限公司 | 用于转换语音音色的方法、装置、电子设备和可读介质 |
Non-Patent Citations (2)
Title |
---|
GANJUN LIU ET AL.: "《GBNF-VAE: A Pathological Voice Enhancement Model Based on Gold Section for Bottleneck Feature With Variational Autoencoder》", 《JOURNAL OF VOICE》, pages 1 - 12 * |
TAO ZHANG ET AL.: "《Multiple Vowels Repair Based on Pitch Extraction and Line Spectrum Pair Feature for Voice Disorder》", 《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》, vol. 24, no. 7, pages 1940 - 1951 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117357104A (zh) * | 2023-12-07 | 2024-01-09 | 深圳市好兄弟电子有限公司 | 一种基于用户特征的音频分析方法 |
CN117357104B (zh) * | 2023-12-07 | 2024-04-26 | 深圳市好兄弟电子有限公司 | 一种基于用户特征的音频分析方法 |
CN117976141A (zh) * | 2024-04-01 | 2024-05-03 | 四川大学华西医院 | 一种基于声学分析算法的嗓音康复分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116312469B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116312469B (zh) | 一种基于语音转换的病理嗓音修复方法 | |
Hou et al. | Audio-visual speech enhancement using multimodal deep convolutional neural networks | |
US11856369B1 (en) | Methods and systems implementing phonologically-trained computer-assisted hearing aids | |
Zhao et al. | Accent conversion using phonetic posteriorgrams | |
Erro et al. | Voice conversion based on weighted frequency warping | |
Ding et al. | Group Latent Embedding for Vector Quantized Variational Autoencoder in Non-Parallel Voice Conversion. | |
CN107452379B (zh) | 一种方言语言的识别方法及虚拟现实教学方法和系统 | |
US8386256B2 (en) | Method, apparatus and computer program product for providing real glottal pulses in HMM-based text-to-speech synthesis | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
JP2956548B2 (ja) | 音声帯域拡大装置 | |
JP2019120841A (ja) | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 | |
Su et al. | Bandwidth extension is all you need | |
JP2002507033A (ja) | 顔合成装置および顔合成方法 | |
Chen et al. | Generative adversarial networks for unpaired voice transformation on impaired speech | |
CN112381040B (zh) | 一种基于语音和人脸图像的跨模态生成方法 | |
CN113343705A (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
Yang et al. | Improving dysarthric speech intelligibility using cycle-consistent adversarial training | |
Huang et al. | Refined wavenet vocoder for variational autoencoder based voice conversion | |
KR20200084443A (ko) | 음성 변조 시스템 및 방법 | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
CN113254694A (zh) | 一种文本转图像方法和装置 | |
Liu et al. | Effect of bandwidth extension to telephone speech recognition in cochlear implant users | |
CN111326170A (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
Luong et al. | Scaling and bias codes for modeling speaker-adaptive DNN-based speech synthesis systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |