CN116312469A - 一种基于语音转换的病理嗓音修复方法 - Google Patents

一种基于语音转换的病理嗓音修复方法 Download PDF

Info

Publication number
CN116312469A
CN116312469A CN202310553240.3A CN202310553240A CN116312469A CN 116312469 A CN116312469 A CN 116312469A CN 202310553240 A CN202310553240 A CN 202310553240A CN 116312469 A CN116312469 A CN 116312469A
Authority
CN
China
Prior art keywords
voice
pathological
obtaining
formula
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310553240.3A
Other languages
English (en)
Other versions
CN116312469B (zh
Inventor
张涛
吕莹
刘赣俊
赵鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310553240.3A priority Critical patent/CN116312469B/zh
Publication of CN116312469A publication Critical patent/CN116312469A/zh
Application granted granted Critical
Publication of CN116312469B publication Critical patent/CN116312469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于语音转换的病理嗓音修复方法,包括对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;通过内容编码器分离出病理嗓音内容;对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。本发明选择采用参数修复方法得到少量修复语音作为目标语音输入,结合语音转换技术,实现不受文本约束的病理嗓音修复。

Description

一种基于语音转换的病理嗓音修复方法
技术领域
本发明属于病理嗓音修复技术领域,尤其是涉及一种基于语音转换的病理嗓音修复方法。
背景技术
病理嗓音主要是由于声带和喉的各种疾病导致的闭合或振动异常,致使其声学性质发生改变,在临床上表现出不同程度的声音嘶哑、失真等。嗓音疾病会影响人们的语言交流,给人们的生活带来严重的困扰,因此病理嗓音修复的相关研究具有重要的研究意义和实际应用价值。
目前国内外关于病理嗓音的研究侧重于病理嗓音的检测、识别和分类,鲜有病理嗓音修复方面的研究。病理嗓音诊断治疗的传统方法是主观听觉感知和侵入式方式,然而这需要专业设备和训练有素的专业人员,而且侵入式治疗的不彻底性会对患者的语言表达和听觉感知产生影响,甚至可能会给患者造成心理创伤。随着计算机的普及和声学技术的发展,采用非侵入式方法对病理嗓音进行修复逐渐成为学者们关注的重点,其中采用信号处理、机器学习等方法实现病理嗓音修复是研究的新方向,它具有运行成本低,容易操作等优点。
病理嗓音修复旨在通过修复病理嗓音中代表个人特色的客观表征以提高语音的可懂度。对于病理嗓音修复研究,主要分为基于声学参数的方法和基于语音转换的方法。
基于声学参数的方法针对的是声带受损语音的修复,它是通过对病理嗓音基频和共振峰进行提取重构实现的修复,且都有较好的修复效果,病理的可懂度有提高。但是基于参数的修复方法存在的问题是:一、只能对特定的音素进行修复,可修复的文本对象受限;二、修复效率低且不稳定,因此该方法并不能满足实际应用中为嗓音疾病患者提供便利的语音交互的需求。
近两年人们开始研究利用语音转换技术去提升语音可懂度,目前主要应用于构音障碍,关于声带受损的病理嗓音还未涉及。语音转换是人工智能的一个重要方面。语音转换的目的是在保持语言内容不变的情况下对语音信号的非语言信息进行转换。非语言信息可能包括说话人的身份,口音或发音等。基于语音转换模型的病理嗓音修复实际上是保持说话人身份不变,通过对音色进行改变,以提高病理嗓音的可懂度。目前语音转换技术在构音障碍中取得了一定的应用,但是效果并不理想。
考虑到上述问题,本发明选择采用参数修复方法得到少量修复语音作为目标语音输入,结合语音转换技术,实现不受文本约束的病理嗓音修复。
发明内容
有鉴于此,本发明提出了一种基于语音转换的病理嗓音修复方法,通过构建端到端的语音转换模型,达到提高病理嗓音可懂度的目的。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于语音转换的病理嗓音修复方法,包括如下步骤;
步骤1:对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;
步骤2:将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;
步骤3:将任意病理语音通过内容编码器分离出病理嗓音内容;
步骤4:对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。
进一步的,所述指定语料包括汉语的所有声母和韵母音节。
进一步的,所述步骤1中,基于参数的修复方法采用小波变换和Hilbert-Huang变换进行基频提取,基于线谱对LSP特征重构共振峰,通过合成基频和共振峰得到修复的语音。
进一步的,所述步骤2中具体包括如下步骤:
步骤201:输入的目标语音频谱
Figure SMS_1
经L个第一残差模块/>
Figure SMS_2
依次得到不同层次的特征/>
Figure SMS_3
步骤202:
Figure SMS_4
经二维卷积和分块得到均值/>
Figure SMS_5
和方差/>
Figure SMS_6
Figure SMS_7
其中
Figure SMS_8
为分块公式;/>
Figure SMS_9
和/>
Figure SMS_10
为卷积层的权重和偏置;
步骤203:
Figure SMS_11
和/>
Figure SMS_12
生成正态分布/>
Figure SMS_13
Figure SMS_14
其中
Figure SMS_15
为生成正态分布公式;
步骤204:对生成的不同的正态分布
Figure SMS_16
进行随机采样得到,
Figure SMS_17
其中
Figure SMS_18
为随机采样公式,其中/>
Figure SMS_19
步骤205:
Figure SMS_20
与/>
Figure SMS_21
通过第一拼接模块/>
Figure SMS_22
相加得到第一拼接特征/>
Figure SMS_23
;/>
Figure SMS_24
为一个大小确定随机生成的可训练参数;
步骤206:
Figure SMS_25
通过第二残差模块/>
Figure SMS_26
得到特征/>
Figure SMS_27
步骤207:
Figure SMS_28
经二维卷积和分块得到均值/>
Figure SMS_29
和方差/>
Figure SMS_30
Figure SMS_31
其中
Figure SMS_32
和/>
Figure SMS_33
为卷积层的权重和偏置;
步骤208:输入的目标语音频谱
Figure SMS_34
经L-i个第一残差模块/>
Figure SMS_35
得到特征/>
Figure SMS_36
,/>
Figure SMS_37
通过第二拼接模块/>
Figure SMS_38
得到第二拼接特征/>
Figure SMS_39
步骤209:
Figure SMS_40
经二维卷积和分块得到均值/>
Figure SMS_41
和方差/>
Figure SMS_42
Figure SMS_43
其中
Figure SMS_44
和 />
Figure SMS_45
为卷积层的权重和偏置;
步骤210:
Figure SMS_46
和/>
Figure SMS_47
,/>
Figure SMS_48
生成正态分布/>
Figure SMS_49
Figure SMS_50
步骤211:循环
Figure SMS_51
次步骤204-210依次得到/>
Figure SMS_52
最终,得到的
Figure SMS_53
为所需的音色Zs
进一步的,所述步骤3中具体包括如下步骤:
步骤301:输入的病理嗓音梅尔频谱
Figure SMS_54
经填充和一维卷积前向计算得到特征/>
Figure SMS_55
Figure SMS_56
其中,
Figure SMS_57
为填充公式,/>
Figure SMS_58
为一维卷积公式;
步骤302:对特征
Figure SMS_59
进行实例归一化得到实例归一化特征/>
Figure SMS_60
,计算公式如下
Figure SMS_61
其中,
Figure SMS_62
为/>
Figure SMS_63
的均值和方差,其中/>
Figure SMS_64
步骤303:
Figure SMS_65
经激活、平均池化得到特征/>
Figure SMS_66
Figure SMS_67
其中,
Figure SMS_68
为激活函数,/>
Figure SMS_69
为一维平均池化公式;
步骤304:
Figure SMS_70
和/>
Figure SMS_71
相加得到/>
Figure SMS_72
步骤305:令
Figure SMS_73
,循环6次步骤302 -304依次得到/>
Figure SMS_74
步骤306:
Figure SMS_75
经填充和一维卷积前向计算得到均值/>
Figure SMS_76
和方差/>
Figure SMS_77
,最终/>
Figure SMS_78
为代表病理嗓音内容的潜在表征/>
Figure SMS_79
进一步的,所述步骤4中具体包括如下步骤:
步骤401:
Figure SMS_80
依次经填充、一维卷积前向计算和实例归一化得到/>
Figure SMS_81
步骤402:Zs先通过全连接处理然后和
Figure SMS_82
相加得到/>
Figure SMS_83
Figure SMS_84
其中,
Figure SMS_85
为附加公式;
步骤403:
Figure SMS_86
依次经激活、填充、一维卷积前向计算和像素重组上采样得到/>
Figure SMS_87
Figure SMS_88
;PixelShuffle()为像素重组上采样计算公式;
步骤404:
Figure SMS_89
经最近邻上采样处理的结果和/>
Figure SMS_90
相加得到/>
Figure SMS_91
Figure SMS_92
;upsample()为最近邻上采样计算公式;
其中,
Figure SMS_93
步骤405:令
Figure SMS_94
,循环6次步骤401- 404依次得到/>
Figure SMS_95
步骤406:
Figure SMS_96
经填充和一维卷积前向计算得到/>
Figure SMS_97
,最终/>
Figure SMS_98
为合成的修复语音。
进一步的,所述第一残差模块
Figure SMS_99
的实现过程如下:
输入目标语音频谱
Figure SMS_100
经过skip connection网络结构得到/>
Figure SMS_101
同时输入目标语音频谱经批归一化和二维卷积得到
Figure SMS_102
Figure SMS_103
其中,SyncBatchNorm()为批归一化计算公式,为现有技术,
Figure SMS_104
和/>
Figure SMS_105
为卷积层的权重和偏置;
Figure SMS_106
与/>
Figure SMS_107
进行加权计算得到/>
Figure SMS_108
Figure SMS_109
,其中/>
Figure SMS_110
,令/>
Figure SMS_111
进一步的,所述第二残差模块
Figure SMS_112
的实现过程如下:
输入
Figure SMS_113
经过skip connection网络结构得到/>
Figure SMS_114
同时输入
Figure SMS_115
使用最近邻方法进行上采样得到/>
Figure SMS_116
,/>
Figure SMS_117
其中upsample()为最近邻上采样计算公式;
经二维卷积和批归一化处理得到
Figure SMS_118
Figure SMS_119
其中
Figure SMS_120
和/>
Figure SMS_121
为卷积层的权重和偏置;
Figure SMS_122
与/>
Figure SMS_123
进行加权计算得到/>
Figure SMS_124
Figure SMS_125
,其中/>
Figure SMS_126
进一步的,所述第一拼接模块
Figure SMS_127
的实现过程如下:
将输入的
Figure SMS_128
和/>
Figure SMS_129
拼接起来,得到/>
Figure SMS_130
Figure SMS_131
,其中/>
Figure SMS_132
为拼接公式;
Figure SMS_133
经二维卷积得到/>
Figure SMS_134
,/>
Figure SMS_135
,其中/>
Figure SMS_136
,/>
Figure SMS_137
和/>
Figure SMS_138
为卷积层的权重和偏置。
进一步的,所述第二拼接模块
Figure SMS_139
的实现过程如下:
输入的
Figure SMS_140
进行二维卷积得到/>
Figure SMS_141
Figure SMS_142
,其中/>
Figure SMS_143
和/>
Figure SMS_144
为卷积层的权重和偏置;
Figure SMS_145
和/>
Figure SMS_146
相加得到/>
Figure SMS_147
,/>
Figure SMS_148
相对于现有技术,本发明所述的一种基于语音转换的病理嗓音修复方法具有以下优势:将基于参数的修复与语音转换方式相结合,可以实现患者任意语句的修复,摆脱文本的约束,只需对患者的指定语料进行参数修复,再利用语音转换将修复的音色与患者的内容进行合成,即可得到修复的病理嗓音。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的方法的整体框图;
图2为本发明的音色编码器网络模型示意图;
图3为本发明的内容编码器网络模型示意图;
图4为本发明的解码器网络模型示意图;
图5为本发明的频谱对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,本发明的公式中所用的各个函数都是torch中提供的函数。
本发明通过一个基于改进的VAE的语音转换模型将语音的内容与音色分离开,首次提出采用参数修复方法对病理说话人的指定语料进行修复得到少量修复语音作为目标语音
Figure SMS_149
,病理语音作为源语音/>
Figure SMS_150
,二者分别通过音色编码器和内容编码器得到修复的音色和病理嗓音的内容,最后由解码器将两者进行合成,得到修复的病理嗓音。
如图1所示,本发明的基于语音转换的病理嗓音修复方法具体包括如下步骤:
步骤1、“伪参考语料”的生成
对病理说话人的指定语料进行基于参数的修复得到少量修复语音,该指定语料涵盖汉语了所有声母和韵母音节。然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”去近似代替GT(Ground Truth),以提供“健康的音色”。基于参数的修复方法如采用小波变换和Hilbert-Huang变换进行基频提取,基于线谱对(LSP)特征重构共振峰,通过合成基频和共振峰得到修复的语音,该修复语音的可懂度有显著的提升。
步骤2、提取音色
将参数修复后的语音质量最好的“伪参考语料”作为目标语音,并输入至音色编码器网络中。如图2所示,音色编码器网络
Figure SMS_151
是一个自回归模型,通过对输入特征频谱逐层编码得到深层特征,取最后得到的潜变量/>
Figure SMS_152
作为说话人表示,即音色。具体包括:
步骤201:输入的目标语音频谱
Figure SMS_153
经L个第一残差模块/>
Figure SMS_154
依次得到不同层次的特征/>
Figure SMS_155
步骤202:
Figure SMS_156
经二维卷积和分块得到均值/>
Figure SMS_157
和方差/>
Figure SMS_158
Figure SMS_159
其中chunk为torch中提供的分块函数,输入为张量、chunk数及维度;
Figure SMS_160
和/>
Figure SMS_161
为卷积层的权重和偏置;
步骤203:
Figure SMS_162
和/>
Figure SMS_163
生成正态分布/>
Figure SMS_164
Figure SMS_165
其中
Figure SMS_166
为生成正态分布公式;
步骤204:对生成的正态分布
Figure SMS_167
进行随机采样得到,
Figure SMS_168
其中
Figure SMS_169
为随机采样公式,其中/>
Figure SMS_170
步骤205:
Figure SMS_171
与/>
Figure SMS_172
通过第一拼接模块/>
Figure SMS_173
相加得到第一拼接特征/>
Figure SMS_174
;/>
Figure SMS_175
为一个大小确定随机生成的可训练参数;
步骤206:
Figure SMS_176
通过第二残差模块/>
Figure SMS_177
得到特征/>
Figure SMS_178
步骤207:
Figure SMS_179
经二维卷积和分块得到均值/>
Figure SMS_180
和方差/>
Figure SMS_181
Figure SMS_182
其中
Figure SMS_183
和/>
Figure SMS_184
为卷积层的权重和偏置;
步骤208:输入的目标语音频谱
Figure SMS_185
经L-i个第一残差模块/>
Figure SMS_186
得到特征/>
Figure SMS_187
,/>
Figure SMS_188
通过第二拼接模块/>
Figure SMS_189
得到第二拼接特征/>
Figure SMS_190
步骤209:
Figure SMS_191
经二维卷积和分块得到均值/>
Figure SMS_192
和方差/>
Figure SMS_193
Figure SMS_194
其中
Figure SMS_195
和 />
Figure SMS_196
为卷积层的权重和偏置;
步骤210:
Figure SMS_197
和/>
Figure SMS_198
,/>
Figure SMS_199
生成正态分布/>
Figure SMS_200
Figure SMS_201
步骤211:循环
Figure SMS_202
次步骤204- 210依次得到/>
Figure SMS_203
最终,得到的
Figure SMS_204
为所需的音色Zs
在本发明的中,所述第一残差模块
Figure SMS_205
的实现过程如下:
输入
Figure SMS_206
经过skip connection网络结构得到/>
Figure SMS_207
同时输入
Figure SMS_208
经批归一化和二维卷积得到/>
Figure SMS_209
Figure SMS_210
其中,SyncBatchNorm()为批归一化计算公式,
Figure SMS_211
和/>
Figure SMS_212
为卷积层的权重和偏置;
Figure SMS_213
与/>
Figure SMS_214
进行加权计算得到/>
Figure SMS_215
Figure SMS_216
,其中/>
Figure SMS_217
,令/>
Figure SMS_218
在本发明中,所述第二残差模块
Figure SMS_219
的实现过程如下:
输入
Figure SMS_220
经过skip connection网络结构得到/>
Figure SMS_221
同时输入
Figure SMS_222
使用最近邻方法进行上采样得到/>
Figure SMS_223
,/>
Figure SMS_224
其中upsample()为最近邻上采样计算公式;
经二维卷积和批归一化处理得到
Figure SMS_225
Figure SMS_226
其中
Figure SMS_227
和/>
Figure SMS_228
为卷积层的权重和偏置;
Figure SMS_229
与/>
Figure SMS_230
进行加权计算得到/>
Figure SMS_231
Figure SMS_232
,其中/>
Figure SMS_233
在本发明中,所述第一拼接模块
Figure SMS_234
的实现过程如下:
将输入的
Figure SMS_235
和/>
Figure SMS_236
拼接起来,得到/>
Figure SMS_237
Figure SMS_238
,其中/>
Figure SMS_239
为拼接公式;
Figure SMS_240
经二维卷积得到/>
Figure SMS_241
,/>
Figure SMS_242
,其中/>
Figure SMS_243
,/>
Figure SMS_244
和/>
Figure SMS_245
为卷积层的权重和偏置。
在本发明中,所述第二拼接模块
Figure SMS_246
的实现过程如下:
输入的
Figure SMS_247
进行二维卷积得到/>
Figure SMS_248
Figure SMS_249
;其中/>
Figure SMS_250
和/>
Figure SMS_251
为卷积层的权重和偏置;
Figure SMS_252
和/>
Figure SMS_253
相加得到/>
Figure SMS_254
,/>
Figure SMS_255
步骤3、提取内容
病理嗓音内容的分离是通过一个内容编码器网络
Figure SMS_256
,得到一个代表病理嗓音内容的潜在表征/>
Figure SMS_257
,内容编码器网络模型如图3所示。为了在保留内容信息的同时删除说话人信息,/>
Figure SMS_258
网络中加入了实例归一化(Instance normalization, In),具体包括:
步骤301:输入的病理嗓音梅尔频谱
Figure SMS_259
,经填充和一维卷积前向计算得到特征
Figure SMS_260
,/>
Figure SMS_261
其中,
Figure SMS_262
为填充公式,pad层输入为频谱/>
Figure SMS_263
,填充尺寸size以及填充模式mode,/>
Figure SMS_264
为一维卷积公式;
步骤302:对特征
Figure SMS_265
进行实例归一化得到实例归一化特征/>
Figure SMS_266
,计算公式如下
Figure SMS_267
其中,
Figure SMS_268
为/>
Figure SMS_269
的均值和方差,其中/>
Figure SMS_270
步骤303:
Figure SMS_271
经激活、平均池化得到/>
Figure SMS_272
Figure SMS_273
其中,
Figure SMS_274
为激活函数,/>
Figure SMS_275
为一维平均池化公式;
步骤304:
Figure SMS_276
和/>
Figure SMS_277
相加得到/>
Figure SMS_278
步骤305:令
Figure SMS_279
,循环6次步骤302 -304依次得到/>
Figure SMS_280
步骤306:
Figure SMS_281
经填充和一维卷积前向计算得到均值/>
Figure SMS_282
和方差/>
Figure SMS_283
,最终/>
Figure SMS_284
为代表病理嗓音内容的潜在表征/>
Figure SMS_285
步骤4、语音合成
Figure SMS_286
和/>
Figure SMS_287
编码得到代表内容和音色的潜在表征/>
Figure SMS_288
和/>
Figure SMS_289
,经过一个解码器网络D进行合成即可得到修复语音,解码器网络模型如图4所示。具体包括:
步骤401:
Figure SMS_290
依次经填充、一维卷积前向计算和实例归一化得到/>
Figure SMS_291
步骤402:Zs先通过全连接处理然后和
Figure SMS_292
相加得到/>
Figure SMS_293
Figure SMS_294
其中,
Figure SMS_295
为附加公式,该公式根据Zs的形状,计算出每个通道的均值和标准差,将均值和标准差张量按照通道数的维度划分为两个张量,分别为 mean 和 std,对于输入/>
Figure SMS_296
,通过乘以std加上 mean实现append,/>
Figure SMS_297
= />
Figure SMS_298
× std + mean;
步骤403:
Figure SMS_299
依次经激活、填充、一维卷积前向计算和像素重组上采样得到/>
Figure SMS_300
Figure SMS_301
;PixelShuffle()为像素重组上采样计算公式,为现有技术;
步骤404:
Figure SMS_302
经最近邻上采样处理的结果和/>
Figure SMS_303
相加得到/>
Figure SMS_304
Figure SMS_305
;upsample()为最近邻上采样计算公式,为现有技术;
其中,
Figure SMS_306
步骤405:令
Figure SMS_307
,循环6次步骤401-404依次得到/>
Figure SMS_308
步骤406:
Figure SMS_309
经填充和一维卷积前向计算得到/>
Figure SMS_310
,最终/>
Figure SMS_311
为合成的修复语音。
下面通过具体的实施过程说明本发明的方案。
一、以音色编码器
Figure SMS_312
得到音色表征/>
Figure SMS_313
1、输入的目标语音频谱
Figure SMS_314
经二维卷积得到/>
Figure SMS_315
。二维卷积的参数为/>
Figure SMS_316
,其中每层卷积核的大小为/>
Figure SMS_317
,输出的特征图个数为32。
2、
Figure SMS_318
经L个第一残差模块/>
Figure SMS_319
依次得到不同层次的特征/>
Figure SMS_320
3、
Figure SMS_321
经二维卷积和分块得到均值/>
Figure SMS_322
和方差/>
Figure SMS_323
。二维卷积的参数为/>
Figure SMS_324
,其中每层卷积核的大小为/>
Figure SMS_325
,输出的特征图个数为256。然后将输出特征在1维上分为两部分,/>
Figure SMS_326
和/>
Figure SMS_327
4、
Figure SMS_328
和/>
Figure SMS_329
生成正态分布/>
Figure SMS_330
5、对生成的正态分布
Figure SMS_331
进行随机采样得到/>
Figure SMS_332
,其中/>
Figure SMS_333
6、
Figure SMS_334
与确定性特征映射/>
Figure SMS_335
通过第一拼接模块/>
Figure SMS_336
相加得到第一拼接特征/>
Figure SMS_337
7、
Figure SMS_338
通过第二残差模块/>
Figure SMS_339
得到特征/>
Figure SMS_340
8、
Figure SMS_341
经二维卷积和分块得到均值/>
Figure SMS_342
和方差/>
Figure SMS_343
。二维卷积的参数为/>
Figure SMS_344
,其中每层卷积核的大小为/>
Figure SMS_345
,输出的特征图个数为256。然后将输出的1维上分为两部分,/>
Figure SMS_346
和/>
Figure SMS_347
9、输入的目标语音频谱
Figure SMS_348
经L-i个第一残差模块/>
Figure SMS_349
得到特征/>
Figure SMS_350
和/>
Figure SMS_351
,通过第二拼接模块/>
Figure SMS_352
得到第二拼接特征/>
Figure SMS_353
10、
Figure SMS_354
经二维卷积和分块得到/>
Figure SMS_355
和/>
Figure SMS_356
,二维卷积的参数为/>
Figure SMS_357
,其中每层卷积核的大小为/>
Figure SMS_358
,输出的特征图个数为256。然后将输出的1维上分为两部分,/>
Figure SMS_359
和/>
Figure SMS_360
11、
Figure SMS_361
和/>
Figure SMS_362
生成正态分布/>
Figure SMS_363
12、循环
Figure SMS_364
次步骤5-11依次得到/>
Figure SMS_365
最终,得到的
Figure SMS_366
为所需的音色Zs
二、以内容编码器
Figure SMS_367
得到内容表征/>
Figure SMS_368
1、输入的病理嗓音梅尔频谱
Figure SMS_369
,经过ConvBank层得到/>
Figure SMS_370
。ConvBank层是一维卷积,输入输出分别为512和128,卷积核为1,激活函数是ReLU。
2、
Figure SMS_371
经填充和一维卷积前向计算得到/>
Figure SMS_372
,一维卷积的输入输出分别为128和128,卷积核为1。
3、
Figure SMS_373
经实例归一化得到/>
Figure SMS_374
,其中/>
Figure SMS_375
;一维实例归一化的输入为128,无仿射变换。
4、
Figure SMS_376
经激活、平均池化得到/>
Figure SMS_377
,激活函数是ReLU,一维平均池化的卷积核是2。
5、
Figure SMS_378
和/>
Figure SMS_379
相加得到/>
Figure SMS_380
6、令
Figure SMS_381
,循环6次步骤2-4依次得到/>
Figure SMS_382
7、
Figure SMS_383
经填充和一维卷积前向计算得到均值/>
Figure SMS_384
和方差/>
Figure SMS_385
,维卷积的输入输出分别为128和128,卷积核为1。最终/>
Figure SMS_386
为代表病理嗓音内容的潜在表征/>
Figure SMS_387
三、语音合成
1、
Figure SMS_388
依次经填充、一维卷积前向计算和实例归一化得到/>
Figure SMS_389
;一维卷积的输入输出分别为128和128,卷积核为1。一维实例归一化的输入为128,无仿射变换。
2、Zs先通过全连接处理然后和
Figure SMS_390
相加得到/>
Figure SMS_391
,全连接层的输入输出分别为128和256。
3、
Figure SMS_392
依次经激活、填充、一维卷积前向计算和像素重组上采样得到/>
Figure SMS_393
,激活函数是ReLU。一维卷积的输入输出分别为128和256,卷积核为1。像素重组上采样的扩大倍数为2。
4、
Figure SMS_394
经最近邻上采样处理的结果和/>
Figure SMS_395
相加得到/>
Figure SMS_396
,其中,/>
Figure SMS_397
;最近邻上采样的扩大倍数为2.
5、令
Figure SMS_398
,循环6次步骤1- 4依次得到/>
Figure SMS_399
6、
Figure SMS_400
经填充和一维卷积前向计算得到/>
Figure SMS_401
,一维卷积的输入输出分别为128和256,卷积核为1。最终/>
Figure SMS_402
为合成的修复语音。/>
四、组成模块
1、第一残差模块
Figure SMS_403
输入的特征图片
Figure SMS_404
经过skip connection网络结构得到/>
Figure SMS_405
同时
Figure SMS_406
经批归一化和二维卷积得到/>
Figure SMS_407
,二维卷积的参数为/>
Figure SMS_408
,其中每层卷积核的大小为/>
Figure SMS_409
,输出的特征图个数为64。批归一化的输入特征图的个数为 64,eps=BN_EPS=1e-5,momentum=0.05。
Figure SMS_410
通过SE层得到/>
Figure SMS_414
。对/>
Figure SMS_417
的维度2和3进行均值计算,然后view维度变换转换为二维张量/>
Figure SMS_412
,/>
Figure SMS_413
依次经过全连接层1、ReLU激活层、全连接层2、Sigmoid激活层得到/>
Figure SMS_416
。全连接层1输入输出分别为64和4,全连接层2的输入输出分别为4和64。最后对/>
Figure SMS_418
进行维度变换并乘以原始输入/>
Figure SMS_411
得到/>
Figure SMS_415
Figure SMS_419
与/>
Figure SMS_420
进行加权计算,
Figure SMS_421
,其中/>
Figure SMS_422
,令/>
Figure SMS_423
2、第二残差模块
Figure SMS_424
输入的特征图谱
Figure SMS_425
经过skip connection网络结构得到/>
Figure SMS_426
同时
Figure SMS_427
使用最近邻方法进行上采样得到/>
Figure SMS_428
,二维最近邻上采样的放大倍数为2。
Figure SMS_429
经二维卷积和批归一化处理得到特征/>
Figure SMS_430
,批归一化的输入特征图个数为64,eps=BN_EPS=1e-5,momentum=0.1。
Figure SMS_431
经二维卷积和批归一化处理得到/>
Figure SMS_432
。二维卷积的参数为3×3×64,其中每层卷积核的大小为/>
Figure SMS_433
,输出的特征图个数为384。
批归一化的输入特征图的个数为384,eps=BN_EPS=1e-5,momentum=0.05。
重复上面的过程得到
Figure SMS_434
Figure SMS_435
经二维卷积和批归一化处理得到/>
Figure SMS_436
。二维卷积的参数为/>
Figure SMS_437
,其中每层卷积核的大小为/>
Figure SMS_438
,输出的特征图个数为64。批归一化的输入特征图个数为64,eps=BN_EPS=1e-5,momentum=0.1。
Figure SMS_441
通过SE层得到/>
Figure SMS_444
。对/>
Figure SMS_446
的维度2和3进行均值计算,然后view维度变换保持转换为二维张量/>
Figure SMS_440
,/>
Figure SMS_442
依次经过全连接层、ReLU激活层、全连接层、Sigmoid激活层得到/>
Figure SMS_445
,全连接层1输入输出分别为64和4,全连接层2的输入输出分别为4和64。最后对/>
Figure SMS_447
进行维度变换并乘以原始输入/>
Figure SMS_439
得到/>
Figure SMS_443
Figure SMS_448
与/>
Figure SMS_449
进行加权,
Figure SMS_450
,其中/>
Figure SMS_451
。/>
3、第一拼接模块
Figure SMS_452
将输入的
Figure SMS_453
和/>
Figure SMS_454
按照维度1进行拼接,得到/>
Figure SMS_455
Figure SMS_456
经二维卷积得到/>
Figure SMS_457
,二维卷积的参数为/>
Figure SMS_458
,其中每层卷积核的大小为/>
Figure SMS_459
。输出的特征图个数为64。
4、第二拼接模块
Figure SMS_460
输入的
Figure SMS_461
进行二维卷积得到/>
Figure SMS_462
,二维卷积的参数为/>
Figure SMS_463
,其中每层卷积核的大小为/>
Figure SMS_464
,输出的特征图个数为64;
Figure SMS_465
和/>
Figure SMS_466
相加得到/>
Figure SMS_467
图5 对比原始病理语音频谱和基于参数修复的病理语音频谱,其中,最上面的图为病理语音频谱图,中间的图为参数修复语音频谱图,最下面的图为语音转换修复语音频谱图。由此可见,本发明的方法可以显著地减少原始病理语音的噪声干扰等影响因素,提高语音的质量。本发明可以摆脱修复文本的约束,对任意语句进行修复,较之参数修复方法更灵活、高效。综合来说,本发明的方法更具有实际应用的意义。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语音转换的病理嗓音修复方法,其特征在于:包括如下步骤:
步骤1:对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;
步骤2:将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;
步骤3:将任意病理语音通过内容编码器分离出病理嗓音内容;
步骤4:对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。
2.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述指定语料包括汉语的所有声母和韵母音节。
3.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤1中,基于参数的修复方法采用小波变换和Hilbert-Huang变换进行基频提取,基于线谱对LSP特征重构共振峰,通过合成基频和共振峰得到修复的语音。
4.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤2中具体包括如下步骤:
步骤201:输入的目标语音频谱
Figure QLYQS_1
经L个第一残差模块/>
Figure QLYQS_2
依次得到不同层次的特征
Figure QLYQS_3
步骤202:
Figure QLYQS_4
经二维卷积和分块得到均值/>
Figure QLYQS_5
和方差/>
Figure QLYQS_6
Figure QLYQS_7
其中
Figure QLYQS_8
为分块公式;/>
Figure QLYQS_9
和/>
Figure QLYQS_10
为卷积层的权重和偏置;
步骤203:
Figure QLYQS_11
和/>
Figure QLYQS_12
生成正态分布/>
Figure QLYQS_13
Figure QLYQS_14
其中
Figure QLYQS_15
为生成正态分布公式;
步骤204:对生成的不同的正态分布
Figure QLYQS_16
进行随机采样得到,
Figure QLYQS_17
其中
Figure QLYQS_18
为随机采样公式,其中/>
Figure QLYQS_19
步骤205:
Figure QLYQS_20
与/>
Figure QLYQS_21
通过第一拼接模块/>
Figure QLYQS_22
相加得到第一拼接特征/>
Figure QLYQS_23
;/>
Figure QLYQS_24
为一个大小确定随机生成的可训练参数;
步骤206:
Figure QLYQS_25
通过第二残差模块/>
Figure QLYQS_26
得到特征/>
Figure QLYQS_27
步骤207:
Figure QLYQS_28
经二维卷积和分块得到均值/>
Figure QLYQS_29
和方差/>
Figure QLYQS_30
Figure QLYQS_31
其中
Figure QLYQS_32
和/>
Figure QLYQS_33
为卷积层的权重和偏置;
步骤208:输入的目标语音频谱
Figure QLYQS_34
经L-i个第一残差模块/>
Figure QLYQS_35
得到特征/>
Figure QLYQS_36
,/>
Figure QLYQS_37
通过第二拼接模块/>
Figure QLYQS_38
得到第二拼接特征/>
Figure QLYQS_39
步骤209:
Figure QLYQS_40
经二维卷积和分块得到均值/>
Figure QLYQS_41
和方差/>
Figure QLYQS_42
Figure QLYQS_43
其中
Figure QLYQS_44
和 />
Figure QLYQS_45
为卷积层的权重和偏置;
步骤210:
Figure QLYQS_46
和/>
Figure QLYQS_47
,/>
Figure QLYQS_48
生成正态分布/>
Figure QLYQS_49
Figure QLYQS_50
步骤211:循环
Figure QLYQS_51
次步骤204- 210依次得到/>
Figure QLYQS_52
最终,得到的
Figure QLYQS_53
为所需的音色Zs
5.根据权利要求4所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤3中具体包括如下步骤:
步骤301:输入的病理嗓音梅尔频谱
Figure QLYQS_54
经填充和一维卷积前向计算得到特征/>
Figure QLYQS_55
Figure QLYQS_56
其中,
Figure QLYQS_57
为填充公式,/>
Figure QLYQS_58
为一维卷积公式;
步骤302:对特征
Figure QLYQS_59
进行实例归一化得到实例归一化特征/>
Figure QLYQS_60
,计算公式如下:
Figure QLYQS_61
其中,
Figure QLYQS_62
为/>
Figure QLYQS_63
的均值和方差,其中/>
Figure QLYQS_64
步骤303:
Figure QLYQS_65
经激活、平均池化得到特征/>
Figure QLYQS_66
Figure QLYQS_67
其中,
Figure QLYQS_68
为激活函数,/>
Figure QLYQS_69
为一维平均池化公式;
步骤304:
Figure QLYQS_70
和/>
Figure QLYQS_71
相加得到/>
Figure QLYQS_72
步骤305:令
Figure QLYQS_73
,循环6次步骤302 -304依次得到/>
Figure QLYQS_74
步骤306:
Figure QLYQS_75
经填充和一维卷积前向计算得到均值/>
Figure QLYQS_76
和方差/>
Figure QLYQS_77
,最终/>
Figure QLYQS_78
为代表病理嗓音内容的潜在表征/>
Figure QLYQS_79
6.根据权利要求5所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤4中具体包括如下步骤:
步骤401:
Figure QLYQS_80
依次经填充、一维卷积前向计算和实例归一化得到/>
Figure QLYQS_81
步骤402: Zs先通过全连接处理然后和
Figure QLYQS_82
相加得到/>
Figure QLYQS_83
Figure QLYQS_84
其中,
Figure QLYQS_85
为附加公式;
步骤403:
Figure QLYQS_86
依次经激活、填充、一维卷积前向计算和像素重组上采样得到/>
Figure QLYQS_87
Figure QLYQS_88
;PixelShuffle()为像素重组上采样计算公式;
步骤404:
Figure QLYQS_89
经最近邻上采样处理的结果和/>
Figure QLYQS_90
相加得到/>
Figure QLYQS_91
Figure QLYQS_92
; upsample()为最近邻上采样计算公式;
其中,
Figure QLYQS_93
步骤405:令
Figure QLYQS_94
,循环6次步骤401- 404依次得到/>
Figure QLYQS_95
步骤406:
Figure QLYQS_96
经填充和一维卷积前向计算得到/>
Figure QLYQS_97
,最终/>
Figure QLYQS_98
为合成的修复语音。
7.根据权利要求4所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述第一残差模块
Figure QLYQS_99
的实现过程如下:
输入目标语音频谱
Figure QLYQS_100
经过skip connection网络结构得到/>
Figure QLYQS_101
同时输入目标语音频谱经批归一化和二维卷积得到
Figure QLYQS_102
Figure QLYQS_103
其中,SyncBatchNorm()为批归一化计算公式,
Figure QLYQS_104
和/>
Figure QLYQS_105
为卷积层的权重和偏置;
Figure QLYQS_106
与/>
Figure QLYQS_107
进行加权计算得到/>
Figure QLYQS_108
Figure QLYQS_109
,其中/>
Figure QLYQS_110
,令/>
Figure QLYQS_111
8.根据权利要求4所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述第二残差模块
Figure QLYQS_112
的实现过程如下:
输入
Figure QLYQS_113
经过skip connection网络结构得到/>
Figure QLYQS_114
同时输入
Figure QLYQS_115
使用最近邻方法进行上采样得到/>
Figure QLYQS_116
,/>
Figure QLYQS_117
其中upsample()为最近邻上采样计算公式;
经二维卷积和批归一化处理得到
Figure QLYQS_118
Figure QLYQS_119
其中
Figure QLYQS_120
和/>
Figure QLYQS_121
为卷积层的权重和偏置;
Figure QLYQS_122
与/>
Figure QLYQS_123
进行加权计算得到/>
Figure QLYQS_124
Figure QLYQS_125
,其中/>
Figure QLYQS_126
9.根据权利要求4所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述第一拼接模块
Figure QLYQS_127
的实现过程如下:
将输入的
Figure QLYQS_128
和/>
Figure QLYQS_129
拼接起来,得到/>
Figure QLYQS_130
Figure QLYQS_131
,其中/>
Figure QLYQS_132
为拼接公式;
Figure QLYQS_133
经二维卷积得到/>
Figure QLYQS_134
,/>
Figure QLYQS_135
,其中/>
Figure QLYQS_136
,/>
Figure QLYQS_137
和/>
Figure QLYQS_138
为卷积层的权重和偏置。
10.根据权利要求4所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述第二拼接模块
Figure QLYQS_139
的实现过程如下:
输入的
Figure QLYQS_140
进行二维卷积得到/>
Figure QLYQS_141
Figure QLYQS_142
,其中/>
Figure QLYQS_143
和/>
Figure QLYQS_144
为卷积层的权重和偏置;
Figure QLYQS_145
和/>
Figure QLYQS_146
相加得到/>
Figure QLYQS_147
,/>
Figure QLYQS_148
CN202310553240.3A 2023-05-17 2023-05-17 一种基于语音转换的病理嗓音修复方法 Active CN116312469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310553240.3A CN116312469B (zh) 2023-05-17 2023-05-17 一种基于语音转换的病理嗓音修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310553240.3A CN116312469B (zh) 2023-05-17 2023-05-17 一种基于语音转换的病理嗓音修复方法

Publications (2)

Publication Number Publication Date
CN116312469A true CN116312469A (zh) 2023-06-23
CN116312469B CN116312469B (zh) 2023-08-11

Family

ID=86794498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310553240.3A Active CN116312469B (zh) 2023-05-17 2023-05-17 一种基于语音转换的病理嗓音修复方法

Country Status (1)

Country Link
CN (1) CN116312469B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117357104A (zh) * 2023-12-07 2024-01-09 深圳市好兄弟电子有限公司 一种基于用户特征的音频分析方法
CN117976141A (zh) * 2024-04-01 2024-05-03 四川大学华西医院 一种基于声学分析算法的嗓音康复分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及系统
CN112652318A (zh) * 2020-12-21 2021-04-13 北京捷通华声科技股份有限公司 音色转换方法、装置及电子设备
CN112837669A (zh) * 2020-05-21 2021-05-25 腾讯科技(深圳)有限公司 语音合成方法、装置及服务器
CN115294970A (zh) * 2022-10-09 2022-11-04 苏州大学 针对病理嗓音的语音转换方法、装置和存储介质
US20230081659A1 (en) * 2020-03-13 2023-03-16 Microsoft Technology Licensing, Llc Cross-speaker style transfer speech synthesis
CN116030792A (zh) * 2023-03-30 2023-04-28 澳克多普有限公司 用于转换语音音色的方法、装置、电子设备和可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230081659A1 (en) * 2020-03-13 2023-03-16 Microsoft Technology Licensing, Llc Cross-speaker style transfer speech synthesis
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及系统
CN112837669A (zh) * 2020-05-21 2021-05-25 腾讯科技(深圳)有限公司 语音合成方法、装置及服务器
CN112652318A (zh) * 2020-12-21 2021-04-13 北京捷通华声科技股份有限公司 音色转换方法、装置及电子设备
CN115294970A (zh) * 2022-10-09 2022-11-04 苏州大学 针对病理嗓音的语音转换方法、装置和存储介质
CN116030792A (zh) * 2023-03-30 2023-04-28 澳克多普有限公司 用于转换语音音色的方法、装置、电子设备和可读介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GANJUN LIU ET AL.: "《GBNF-VAE: A Pathological Voice Enhancement Model Based on Gold Section for Bottleneck Feature With Variational Autoencoder》", 《JOURNAL OF VOICE》, pages 1 - 12 *
TAO ZHANG ET AL.: "《Multiple Vowels Repair Based on Pitch Extraction and Line Spectrum Pair Feature for Voice Disorder》", 《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》, vol. 24, no. 7, pages 1940 - 1951 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117357104A (zh) * 2023-12-07 2024-01-09 深圳市好兄弟电子有限公司 一种基于用户特征的音频分析方法
CN117357104B (zh) * 2023-12-07 2024-04-26 深圳市好兄弟电子有限公司 一种基于用户特征的音频分析方法
CN117976141A (zh) * 2024-04-01 2024-05-03 四川大学华西医院 一种基于声学分析算法的嗓音康复分析方法及系统

Also Published As

Publication number Publication date
CN116312469B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN116312469B (zh) 一种基于语音转换的病理嗓音修复方法
Hou et al. Audio-visual speech enhancement using multimodal deep convolutional neural networks
US11856369B1 (en) Methods and systems implementing phonologically-trained computer-assisted hearing aids
Zhao et al. Accent conversion using phonetic posteriorgrams
Erro et al. Voice conversion based on weighted frequency warping
Ding et al. Group Latent Embedding for Vector Quantized Variational Autoencoder in Non-Parallel Voice Conversion.
CN107452379B (zh) 一种方言语言的识别方法及虚拟现实教学方法和系统
US8386256B2 (en) Method, apparatus and computer program product for providing real glottal pulses in HMM-based text-to-speech synthesis
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
JP2956548B2 (ja) 音声帯域拡大装置
JP2019120841A (ja) スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
Su et al. Bandwidth extension is all you need
JP2002507033A (ja) 顔合成装置および顔合成方法
Chen et al. Generative adversarial networks for unpaired voice transformation on impaired speech
CN112381040B (zh) 一种基于语音和人脸图像的跨模态生成方法
CN113343705A (zh) 一种基于文本语义的细节保持图像生成方法及系统
Yang et al. Improving dysarthric speech intelligibility using cycle-consistent adversarial training
Huang et al. Refined wavenet vocoder for variational autoencoder based voice conversion
KR20200084443A (ko) 음성 변조 시스템 및 방법
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
CN113254694A (zh) 一种文本转图像方法和装置
Liu et al. Effect of bandwidth extension to telephone speech recognition in cochlear implant users
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
Luong et al. Scaling and bias codes for modeling speaker-adaptive DNN-based speech synthesis systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant