CN115294970B - 针对病理嗓音的语音转换方法、装置和存储介质 - Google Patents

针对病理嗓音的语音转换方法、装置和存储介质 Download PDF

Info

Publication number
CN115294970B
CN115294970B CN202211226889.6A CN202211226889A CN115294970B CN 115294970 B CN115294970 B CN 115294970B CN 202211226889 A CN202211226889 A CN 202211226889A CN 115294970 B CN115294970 B CN 115294970B
Authority
CN
China
Prior art keywords
sample
voice
generator
mel
pathological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211226889.6A
Other languages
English (en)
Other versions
CN115294970A (zh
Inventor
吴迪
楚明航
杨梦涛
马瑶瑶
王靖
徐超
范智玮
张晓俊
陶智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202211226889.6A priority Critical patent/CN115294970B/zh
Publication of CN115294970A publication Critical patent/CN115294970A/zh
Application granted granted Critical
Publication of CN115294970B publication Critical patent/CN115294970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种针对病理嗓音的语音转换方法、装置和存储介质,涉及声音处理技术领域,所述方法包括:获取训练样本;对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频;获取风格向量;将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换。解决了现有技术中病理嗓音的语音质量较差,无法被理解的问题。

Description

针对病理嗓音的语音转换方法、装置和存储介质
技术领域
本发明涉及一种针对病理嗓音的语音转换方法、装置和存储介质,属于声音处理技术领域。
背景技术
作为语言的载体,语音是现实生活中传递信息的重要信号。包括语音相关专业人士、老年人、吸烟者、呼吸系统疾病患者、鼻部疾病患者、咽喉疾病患者等在内的部分人群存在不同程度的语音困难。通常情况下,患者发出的病理嗓音难以被普通人理解。
现有技术中,一些病理性声音患者可以通过手术改善其语音质量,然后手术可能会给患者造成一定的伤害。例如,在喉切除术的情况下,该过程不仅改变了患者的生活方式,而且还导致声带的切除和语言能力的丧失。
发明内容
本发明的目的在于提供一种针对病理嗓音的语音转换方法、装置和存储介质,用于解决现有技术中存在的问题。
为达到上述目的,本发明提供如下技术方案:
根据第一方面,本发明实施例提供了一种针对病理嗓音的语音转换方法,所述方法包括:
获取训练样本,所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音;
对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;
根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频;
获取风格向量;
将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;
根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;
根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换。
可选地,所述根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频,包括:
对于每个样本梅尔谱图,将所述样本梅尔谱图输入至F0提取网络,通过所述F0提取网络提取所述样本病理嗓音的样本基频。
可选地,所述获取风格向量,包括:
获取随机采样的高斯分布向量;
将所述高斯分布向量输入至映射网络,通过所述映射网络生成所述风格向量。
可选地,所述获取风格向量,包括:
获取参考梅尔谱图;
将所述参考梅尔谱图输入至说话人编码器,通过所述说话人编码器生成所述风格向量。
可选地,所述根据所述判别器的各个判别结果训练所述生成器,包括:
获取第一损失因子,所述第一损失因子包括:对抗损失因子、对抗源损失因子、风格重构损失因子、风格多样化损失因子、F0一致性损失因子、语音一致性损失因子、范数一致性损失因子和循环一致性损失因子中的至少一种;
根据所述第一损失因子和所述各个判别结果训练所述生成器。
可选地,所述根据所述判别器的各个判别结果训练所述判别器,包括:
获取第二损失因子,所述第二损失因子包括对抗损失因子和源分类器损失因子;
根据所述第二损失因子和所述各个判别结果训练所述判别器。
可选地,所述获取所述样本病理嗓音的样本梅尔谱图,包括:
将所述样本病理嗓音先做STFT变换生成功率谱特征,然后输入至梅尔滤波器组,通过所述梅尔滤波器组获取所述样本梅尔谱图。
第二方面,提供了一种针对病理嗓音的语音转换方法,所述方法包括:
获取目标病理嗓音的梅尔谱图;
根据所述梅尔谱图获取所述目标病理嗓音的基频;
获取风格向量;
将所述梅尔谱图、所述基频以及所述风格向量输入至训练后的生成器,通过所述生成器输出转换后的梅尔谱图,所述生成器通过第一方面所述的方法训练得到;
将转换后的梅尔谱图输入到所述声码器,通过所述声码器输出转换后所述目标病理嗓音的语音波形,进而得到转换后的目标嗓音。
第三方面,提供了一种针对病理嗓音的语音转换装置,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如第一方面或者第二方面所述的方法。
第四方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如第一方面或者第二方面所述的方法。
通过获取训练样本,所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音;对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频;获取风格向量;将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换。解决了现有技术中病理嗓音的语音质量较差,无法被理解的问题,达到了可以通过训练对抗网络进而通过生成器将病理嗓音转换为正常嗓音,提高病理嗓音的可懂度和清晰度的效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明一个实施例提供的针对病理嗓音的语音转换方法的方法流程图;
图2为本发明一个实施例提供的针对病理嗓音的语音转换方法的原理框图;
图3为本发明一个实施例提供的映射网络的结构示意图;
图4为本发明一个实施例提供的说话人编码器的网络结构示意图;
图5为本发明一个实施例提供的生成器的网络结构示意图;
图6为本发明一个实施例提供的判别器的网络结构示意图;
图7为本发明一个实施例提供的针对病理嗓音的语音转换方法的方法流程图;
图8为本发明一个实施例提供的转换方法与现有两种转换方法转换后的频谱示意图;
图9为本发明一个实施例提供的转换方法与现有两种转换方法转换后的语音清晰度评价结果的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖 直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间 未构成冲突就可以相互结合。
请参考图1,其示出了本申请一个实施例提供的针对病理嗓音的语音转换方法的方法流程图,如图1所示,所述方法包括:
步骤101,获取训练样本,所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音;
步骤102,对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;
请参考图2,其示出了本申请所涉及的实施原理的原理框图,如图2所示,可以通过预处理模块P对各个样本病理嗓音进行处理。并且,可选的,预处理模块P可以为梅尔滤波器组。也即本步骤包括:
将所述样本病理嗓音先做STFT变换生成功率谱特征,然后输入至梅尔滤波器组,通过所述梅尔滤波器组获取所述样本梅尔谱图。
梅尔频率与实际频率的关系如下:
Figure 341244DEST_PATH_IMAGE001
其中,f表示语音波形的原始频率。预处理模块P将输入语音波形xs转换为Xp-mel,Xp-mel定义为输入语音波形的梅尔谱图。
可选地,将 VCTK 和 SVD 病态语音样本中选择的 20 个说话人的样本分成帧大小为 1200 的帧。对于每一帧,执行离散时间傅里叶变换 (DTFT),总共有 2048 个点。之后,使用一个 80 通道的梅尔滤波器组从上述所有样本中提取特征,然后将频率尺度映射到梅尔尺度。通过上述预处理得到每个样本的梅尔频率倒谱系数(MFCC)。每个帧的特征被组合为转换网络的输入数据。
步骤103,根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频;
对于每个样本梅尔谱图,将所述样本梅尔谱图输入至F0提取网络,通过所述F0提取网络提取所述样本病理嗓音的样本基频。
F0提取网络为预先训练并存储的网络。
比如,F0提取网络提取得到的基频为hf0。
步骤104,获取风格向量;
可选的,本步骤可以包括如下两种可能的实现方式:
在第一种可能的实现方式中,本步骤包括:
第一,获取随机采样的高斯分布向量;
第二,将所述高斯分布向量输入至映射网络,通过所述映射网络生成所述风格向量。
映射网络用于生成引导生成器生成正常语音的风格向量。映射网络由内部的全连接层组成,是一个全连接网络,并且映射网络有多个分支输出,分支的数量取决于域的数量,即说话人的数量。映射网络结构如图3所示。其中,全连接层作为映射网络的输入层,ReLU函数作为映射网络的激活函数。
映射网络 M 在域y中生成带有高斯分布向量
Figure 865242DEST_PATH_IMAGE002
的样式向量/>
Figure 802236DEST_PATH_IMAGE003
Figure 152706DEST_PATH_IMAGE004
其中M(·)表示映射网络的输出。高斯分布向量z是从高斯分布中采样的,以在所有域中提供不同的样式表示。所有领域的模型权重参数在映射网络的前四层共享,后四层用于生成特定领域的样式向量。
在第二种可能的实施例中,本步骤包括:
第一,获取参考梅尔谱图;
第二,将所述参考梅尔谱图输入至说话人编码器,通过所述说话人编码器生成所述风格向量。
与映射网络一样,说话人编码器也用于生成样式向量。与映射网络类似,说话者编码器首先处理跨所有域的共享层的输入。与映射网络不同,四个残差块用作说话人编码器的共享层。 然后,通过特定领域的全连接层生成不同说话人领域的风格向量。说话人编码器的网络结构如图4所示。
在训练阶段,说话人编码器不仅生成风格向量,还引导生成器在同一域中生成更多样化的特征。因此,该网络可以实现任意对多的病理嗓音转换。给定参考梅尔谱图
Figure 530860DEST_PATH_IMAGE005
,说话人编码器 S 提取域 y_trg 中的样式代码/>
Figure 215307DEST_PATH_IMAGE006
Figure 92127DEST_PATH_IMAGE007
其中, S(·) 表示扬声器编码器的输出。
步骤105,将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;
生成器是用于生成正常语音。如图2所示,生成器包括编码器和解码器。并且,如图2所示,在编码器中,使用卷积层作为输入层,残差块作为网络的主要部分。残差块由归一化层、激活层、卷积层和池化层组成。残差块先首尾连接,然后再依次连接。在编码器中采用实例归一化作为归一化层,由于语音转换任务中关注每个样本的细节,因此对于激活层,为了保存小于0的数据,leakrelu函数比relu更适合这个任务。
残差块也用于解码器中作为网络的主要部分。与编码器不同的是,自适应实例归一化函数被用作解码器的归一化层。 最后一个残差块的输出输入到实例归一化层、激活层和卷积层, 转换后的频谱图通过卷积层输出。生成器的网络结构如图5所示。
结合图5,生成器 G 将作为 P 的输出的输入梅尔谱图X 转换为反映s 中的风格(由说话人编码器或映射网络提供)和
Figure 960202DEST_PATH_IMAGE008
中的基频(由F0提取网络F的卷积层提供)的/>
Figure 566764DEST_PATH_IMAGE009
Figure 232231DEST_PATH_IMAGE011
其中, E(·) 表示生成器的编码器的输出,D(·) 表示生成器的解码器的输出。
步骤106,根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;
判别器可以判断生成器生成的语音是否为真实语音。卷积层用作判别器的输入层,残差块用作其隐藏层。与映射网络和说话人编码器类似,鉴别器也有多个输出分支。但是,如果特定领域的分类器仅包含一个卷积层,则无法捕捉特定领域特征的重要方面,例如说话者的发音。为了解决这个问题,本申请采用了一个额外的分类器 C,其架构与 D 相同,用于学习转换样本的原始域。判别器的结构如图 6所示。
对于一个梅尔谱图X,判别器 D 计算语音在域 y 中为真实的概率 p:
Figure 924244DEST_PATH_IMAGE012
其中,D(·) 表示判别器的输出。
步骤107,根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换。
可选的,训练生成器的步骤包括:
第一,获取第一损失因子,所述第一损失因子包括:对抗损失因子、对抗源损失因子、风格重构损失因子、风格多样化损失因子、F0一致性损失因子、语音一致性损失因子、范数一致性损失因子和循环一致性损失因子中的至少一种;
对抗损失用于优化生成器以生成更逼真的语音。生成器接收输入的梅尔谱图 X和样式向量 s,并通过对抗性损失学习生成新的梅尔谱图
Figure 802201DEST_PATH_IMAGE013
Figure 732111DEST_PATH_IMAGE015
其中,
Figure 825270DEST_PATH_IMAGE016
表示域/>
Figure 270158DEST_PATH_IMAGE017
的真/伪分类器的输出。
对抗性源损失用于计算生成器生成的语音被分类器分类到目标域的概率。由于分类器包含在判别器中,因此本申请在网络架构中没有单独分离分类器。本申请在源分类器C 中使用了一个额外的对抗性损失函数:
Figure 482965DEST_PATH_IMAGE018
其中,
Figure 64119DEST_PATH_IMAGE019
表示交叉熵损失函数。
为了确保生成器生成的语音的风格编码与目标语音的风格编码一致,我们使用了风格重构损失:
Figure 336968DEST_PATH_IMAGE021
其中,
Figure 3573DEST_PATH_IMAGE022
表示域/>
Figure 20070DEST_PATH_IMAGE017
的说话人编码器的输出,/>
Figure 455731DEST_PATH_IMAGE023
表示/>
Figure 162131DEST_PATH_IMAGE024
范数。
风格多样化损失,针对同一个域的不同样本强制生成器生成不同的风格编码,使生成器生成更多样化的样本,从而实现零样本转换。除了最大化生成样本之间的平均绝对误差 (MAE) 之外,本申请还最大化使用不同样式代码生成的样本之间的 F0 特征的 MAE。损失函数如下:
Figure 519294DEST_PATH_IMAGE026
其中
Figure 339483DEST_PATH_IMAGE027
是来自域/>
Figure 364071DEST_PATH_IMAGE028
的两个随机采样的样式代码,/>
Figure 244302DEST_PATH_IMAGE029
是 F0 提取网络 F的卷积层的输出。
F0 一致损失被添加到 F0 网络 F 提供的归一化 F0 曲线中,以产生 F0 一致结果。对于输入 F 的梅尔谱图 X,F(X) 为 X 的每一帧提供以赫兹为单位的绝对 F0 值。由于男性和女性说话者的平均 F0 不同,本申请将F(X) 的绝对值归一化为其时间平均值,记为
Figure 619920DEST_PATH_IMAGE030
。F0一致性损失如下:
Figure 978220DEST_PATH_IMAGE031
为保证转换后的正常语音与源病理嗓音内容一致,采用自动语音识别技术辅助训练生成器,保证语音内容的一致性。本申请使用来自 Espnet Toolkit 1 中给出的预训练联合CTC-attention VGG-BLSTM 网络的卷积特征的语音一致性损失。语音一致性损失如下:
Figure 391402DEST_PATH_IMAGE032
其中,
Figure 442535DEST_PATH_IMAGE033
表示LSTM层之前的中间层的输出。
范数一致性损失用于保留生成样本的语音/静音间隔。我们对第 t 帧有 N维和 T帧的梅尔谱图 X 使用绝对列和范数,定义为
Figure 39869DEST_PATH_IMAGE034
, 其中 t ∈ {1, . . . ,T } 是帧索引。范数一致性损失由下式给出:
Figure 873964DEST_PATH_IMAGE035
使用循环一致性损失来保留输入语音的所有其他特征。将生成器生成的语音输入到生成器中,将目标域
Figure 607565DEST_PATH_IMAGE036
设置为源域/>
Figure 564020DEST_PATH_IMAGE037
,计算生成器重构的源语音与源语音之间的损失。循环一致性损失如下:/>
Figure 645721DEST_PATH_IMAGE038
其中
Figure 611403DEST_PATH_IMAGE039
定义为/>
Figure 730668DEST_PATH_IMAGE040
,即源域/>
Figure 592445DEST_PATH_IMAGE041
中输入的估计样式代码。
第二,根据所述第一损失因子和所述各个判别结果训练所述生成器。
可选地,在第一损失因子包括多个时,根据各个损失因子以及每个损失因子对应的权重确定生成器的总损失函数,进而根据确定的损失函数和各个判别结果训练生成器。
在一种可能的实现方式中,生成器的损失函数为:
Figure 164372DEST_PATH_IMAGE042
其中,
Figure 809111DEST_PATH_IMAGE043
为每个损失因子提供的超参数。可选地,/>
Figure 797532DEST_PATH_IMAGE044
Figure 767893DEST_PATH_IMAGE045
。在整个训练过程中,我们使用了固定学习率为 0.0001 的 AdamW 优化器。
可选的,训练判别器的步骤包括:
第一,获取第二损失因子,所述第二损失因子包括对抗损失因子和源分类器损失因子;
对抗损失因子与上述生成器中的对抗损失因子类似,在此不再赘述。
第二,根据所述第二损失因子和所述各个判别结果训练所述判别器。
在第二损失因子包括多个时,可以根据各个第二损失因子计算判别器的总损失函数,损失函数为:
Figure 840498DEST_PATH_IMAGE046
其中,
Figure 882403DEST_PATH_IMAGE047
是源分类器损失/>
Figure 445103DEST_PATH_IMAGE048
的超参数,由下式给出:
Figure 179840DEST_PATH_IMAGE049
综上所述,通过获取训练样本,所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音;对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频;获取风格向量;将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换。解决了现有技术中病理嗓音的语音质量较差,无法被理解的问题,达到了可以通过训练对抗网络进而通过生成器将病理嗓音转换为正常嗓音,提高病理嗓音的可懂度和清晰度的效果。
请参考图7,其示出了本申请一个实施例提供的针对病理嗓音的语音转换方法的方法流程图,如图7所示,所述方法包括:
步骤701,获取目标病理嗓音的梅尔谱图;
步骤702,根据所述梅尔谱图获取所述目标病理嗓音的基频;
步骤703,获取风格向量;
步骤704,将所述梅尔谱图、所述基频以及所述风格向量输入至训练后的生成器,通过所述生成器输出转换后的梅尔谱图;
所述生成器通过上述实施例所述的方法训练得到。
步骤701至步骤704与上述实施例中的步骤102至步骤105类似,不同的是,处理的对象不同,上述实施例处理的是样本病理嗓音,而本步骤处理的是目标病理嗓音,对此并不做限定。
步骤705,将转换后的梅尔谱图输入到所述声码器,通过所述声码器输出转换后所述目标病理嗓音的语音波形,进而得到转换后的目标嗓音。
与上述实施例不同的是,在本实施例中,在生成器输出转换后的梅尔谱图时,并不输入至判别器进行判别,而是输入至声码器,通过声码器将转换后的梅尔谱图转换至目标嗓音。
在本申请中,通过主观评价和客观评价来评估上述方法转换得到的目标嗓音的性能。
其中,对于主观评价,从 SVD 数据集中的所有样本中随机选择 50 个话语作为源语音,并从 VCTK 数据集中的所有说话者中随机选择 1 个男性和 1 个女性作为目标说话者。所以得到了 100 对语音进行测试。要求 30 名受试者以 1 到 5 的等级对每个语音样本的自然度进行评分,其中 1 表示完全失真且不自然,5 表示没有失真且完全自然。此外,我们要求被试以 1 到 5 的等级判断每对音频的内容是否相同且可理解,其中 1 表示内容完全不同/完全无法理解,5 表示内容完全相同/完全可理解。受试者不会被告知音频样本是真实的还是转换的。我们在评估集中添加了 10 个高度失真和难以理解的音频部分作为注意力检查,以验证受试者没有偶然完成调查。如果这些样本中的三个以上被评为 2 或更高,则将受试者从分析中删除。
对于客观评价,我们采用频谱图分析和字错误率 (WER) 作为转换后语音的频域和可懂度的评估指标。一方面,频谱图是由语音短时傅里叶变换(STFT)的幅度创建的二维图形,其中横轴是时间,纵轴是频率,每个网格的颜色深度反映幅度。在本实验中,我们使用窄带频谱图来研究语音的基频和共振峰。另一方面,我们使用上述 ASR 模型计算语音的WER。我们通过 ASR 网络获取 SVD 数据集中所有语音样本的识别结果和转换后的语音识别结果,然后使用以下公式计算 WER:
Figure 460780DEST_PATH_IMAGE050
其中S表示替换词数,D表示删除词数,I表示插入词数,N表示总词数。
此外,为了更好的对比,本申请通过如下几个维度进行对比:
(1)、频谱分析。
将重度病理嗓音和轻度病理嗓音通过三种方法转换后语音的频谱图如图8所示。转换后的语音频谱图的源语音是同一个病理嗓音样本,本申请使用原始病态语音作为参考。我们发现 ASR-TTS 和 VAE 方法无法保持轻度和重度病态声音的语音长度一致。但是,本申请方法(P2N-VC)可以保持语音长度一致,即保持源说话人的韵律。这样,转换后的语音只改变了源说话人声音的病理特征,同时保留了源说话人声音的韵律特征。此外,本申请和VAE 方法可以在原始频谱图的基础上增加表示语音内容的频率能量,但从图 8 可以看出,我们提出的方法表现更好。然而,使用 ASR-TTS 方法转换的语音可以产生比本申请和 VAE更自然的语音,因为合成语音的自然度受到神经声码器的影响。自然度的详细分析将在以下各节中介绍。我们发现,无论源病理嗓音是轻度还是重度,ASR-TTS方法转换后的语音频谱图都非常相似,因此无法生成个性化语音。结果表明,本申请方法成功地提高了重度和轻度病态声音的语音质量,并且在重度病态声音中明显优于其他两种方法。其中,图8中a为源语音是轻度病理嗓音,b为源语音是重度病理嗓音。
(2)、语音清晰度的定量评价。
WER用于评估转换后语音的可懂度,WER越小,语音的可懂度越高。首先,针对不同类型的病理嗓音,我们比较了三种方法生成语音的可懂度。语音清晰度评价结果如图 9 所示,对比了 20 种转换后的病态语音的清晰度。其中 P2N-VC(本申请方法)、ASR-TTS 和VAE 用三种不同的颜色表示。我们发现,虽然 VAE 方法可以提高语音质量,但在语音可懂度方面却不尽如人意。 ASR-TTS 方法在轻度病态声音方面的表现与 P2N-VC 方法相似。表1比较了SVD数据集中所有转换语音的平均WER。粗体字表示与其他方法的结果相比最好的结果。结果表明,P2N-VC 方法在提高各种病理嗓音的清晰度方面优于其他方法。
表1
Method Ground Truth VAE ASR-TTS P2N-VC
WER(%) 7.09 78.26 36.79 17.05
除了上述客观评价外,我们还对转换后的语音清晰度进行了主观评价。主观评价的实验结果如表 2 所示。使用我们提出的方法 P2N-VC 转换后的语音在 WER 方面不如病理嗓音,但在平均意见分数(MOS)方面优于病理嗓音。这是因为自动语音识别(ASR)网络都是使用真实语音数据集训练的,网络合成的语音识别率不如真实语音。此外,轻度病态声音在 SVD 数据集中占有很大比例,在计算评估指标的均值中起主导作用。因此,仅使用 WER来评估病态语音和转换语音的可懂度是片面的,我们从主客观两个指标来评估病态语音和转换语音的可懂度。从表 2 可以看出,我们提出的方法 P2N-VC 与VAE方法、病理嗓音和ASR-TTS 方法相比分别提高了 91.40%、18.67% 和 4.09%。
表2
Pathological VAE ASR-TTS P2N-VC
Naturalness 3.46 2.98 3.54 3.20
Intelligibility 3.00 1.86 3.42 3.56
Content Similarity 3.84 1.92 3.38 3.94
(3)、语音自然度的定量评价。
每个受试者一共听了 200 个音频样本:50(speaker pairs) × 4(pathological, P2N-VC, ASR-TTS, VAE)。给定一对说话人,以随机顺序播放 4 个音频样本:病理嗓音、转换语音(P2N-VC)、转换语音(ASR-TTS)、转换语音(VAE)。对于每个音频样本,受试者将他或她听到的 MOS(自然度)输入计算机。评估结果如表2所示。很明显,ASR-TTS方法转换的语音在自然度方面优于其他方法转换的语音,甚至优于真实的病态语音。因为受试者无法将言语的病理性和自然性完全分开,疾病程度影响受试者对自然性的判断。结果表明,这三种方法转换后的语音的MOS(自然度)在2.98到3.54之间。 VAE 方法并没有提高病态语音的自然度,因为 VAE 方法没有完全解开说话人特征和内容特征。 ASR-TTS方法将语音的MOS(自然度)提高了0.08,比病态语音提高了2.31%。相比之下,P2N-VC方法转换的语音的自然度得分不如病态语音,因为合成语音的自然度主要受声码器性能的影响。后续我们考虑优化神经声码器,以合成自然度更高的语音。
(4)、内容相似度的定量评价。
语音的内容相似度用于评估转换后的语音是否能保留源语音的内容。在这里,我们采用健康说话者的语音内容作为参考内容,对病理嗓音和通过 VAE 方法、ASR-TTS 方法和 P2N-VC 转换的语音进行评分。与自然度分数一样,每个受试者总共听了 200 个音频样本:50(说话者对)×4(病理、ASR-TTS、VAE、P2N-VC)。并且我们随机打乱了200个音频样本,防止被试提前知道音频的来源,影响判断。受试者以 1-5 的等级对每个样本进行评分,分数越高表示内容越相似。结果如表 2 所示。粗体字表示与其他方法的结果相比的最佳结果。我们发现病理语音内容比VAE方法和ASR-TTS方法转换的语音内容更接近参考内容。因此,虽然 ASR-TTS 方法在语音自然度方面优于 P2N-VC 方法,但我们的主要目的是提高病态声音的可懂度,其中 ASR-TTS 方法没有效果。即ASR-TTS方法转换后的语音更接近真实语音,但其内容与参考内容相差较大。
我们提出的方法 P2N-VC 转换的语音内容相似度比病态语音高 2.60%,分别比VAE 方法和 ASR-TTS 方法高 105.21% 和 16.57%。
综上本申请提出的 P2N-VC 方法转换后的语音与病态语音相比,语音清晰度提高了约 18.67%;转换后的语音内容与参考内容的相似度比病态语音内容增加了2.60%;“优秀”相对于真实的声音,转换后的语音质量接近“好”的MOS水平。在客观评价方面,我们提出的方法 P2N-VC 与 VAE 方法和 ASR-TTS 方法相比分别提高了 78.21% 和 53.66%。
综上所述,通过获取目标病理嗓音的梅尔谱图;根据所述梅尔谱图获取所述目标病理嗓音的基频;获取风格向量;将所述梅尔谱图、所述基频以及所述风格向量输入至训练后的生成器,通过所述生成器输出转换后的梅尔谱图,所述生成器通过上述方法训练得到;根据转换后的梅尔谱图生成转换后的目标嗓音。解决了现有技术中病理嗓音的语音质量较差,无法被理解的问题,达到了可以通过训练对抗网络进而通过生成器将病理嗓音转换为正常嗓音,提高病理嗓音的可懂度和清晰度的效果。本申请还提供了一种针对病理嗓音的语音转换装置,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如上所述的方法。
本申请还提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如上所述的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种针对病理嗓音的语音转换方法,其特征在于,所述方法包括:
获取训练样本,所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音;
对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;
对于每个样本梅尔谱图,将所述样本梅尔谱图输入至F0提取网络,通过所述F0提取网络提取所述样本病理嗓音的样本基频;
获取风格向量;
将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;所述生成器包括编码器和解码器,残差块用于解码器中作为网络的主要部分,自适应实例归一化函数被用作解码器的归一化层;
根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;
根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换;
所述获取风格向量,包括:
获取随机采样的高斯分布向量;将所述高斯分布向量输入至映射网络,通过所述映射网络生成所述风格向量;所述映射网络有多个分支输出,分支的数量取决于域的数量;所有领域的模型权重参数在映射网络的前四层共享,后四层用于生成特定领域的样式向量;
或者,
获取参考梅尔谱图;将所述参考梅尔谱图输入至说话人编码器,通过所述说话人编码器生成所述风格向量;所述说话人编码器通过四个残差块用作说话人编码器的共享层,通过特定领域的全连接层生成不同说话人领域的风格向量;
所述根据所述判别器的各个判别结果训练所述生成器,包括:
获取第一损失因子,所述第一损失因子包括:对抗损失因子、对抗源损失因子、风格重构损失因子、风格多样化损失因子、F0一致性损失因子、语音一致性损失因子、范数一致性损失因子和循环一致性损失因子;
根据所述第一损失因子和所述各个判别结果训练所述生成器;
所述风格多样化损失除了最大化生成样本之间的平均绝对误差 MAE之外,还最大化使用不同样式代码生成的样本之间的 F0 特征的 MAE,所述风格多样化损失
Figure DEST_PATH_IMAGE001
的损失函数如下:
Figure DEST_PATH_IMAGE003
其中
Figure 754620DEST_PATH_IMAGE004
是来自域
Figure DEST_PATH_IMAGE005
的两个随机采样的样式代码,
Figure 593132DEST_PATH_IMAGE006
是 F0 提取网络的卷积层的输出;
Figure DEST_PATH_IMAGE007
是生成器接收输入的梅尔谱图 X 和样式向量
Figure 500432DEST_PATH_IMAGE008
通过对抗性损失学习生成的新的梅尔谱图;
Figure DEST_PATH_IMAGE009
是生成器接收输入的梅尔谱图 X 和样式向量
Figure 754696DEST_PATH_IMAGE010
通过对抗性损失学习生成的新的梅尔谱图;E(·)表示生成器的编码器的输出;
F0 一致性损失被添加到 F0 提取网络提供的归一化 F0 曲线中,以产生 F0 一致结果;对于输入所述F0 提取网络的梅尔谱图 X,F(X) 为 X 的每一帧提供以赫兹为单位的绝对 F0 值,F(X) 的绝对值归一化为其时间平均值,记为:
Figure DEST_PATH_IMAGE011
;F0一致性损失
Figure 490440DEST_PATH_IMAGE012
如下:
Figure DEST_PATH_IMAGE013
其中,
Figure 640798DEST_PATH_IMAGE014
表示 l1 范数,
Figure DEST_PATH_IMAGE015
是生成器接收输入的梅尔谱图 X 和样式向量
Figure 504237DEST_PATH_IMAGE016
通过对抗性损失学习生成的新的梅尔谱图;
所述生成器采用自动语音识别技术辅助训练,所述语音一致性损失
Figure DEST_PATH_IMAGE017
如下:
Figure 93350DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE019
表示LSTM层之前的中间层的输出;
范数一致性损失用于保留生成样本的语音/静音间隔;对第 t 帧有 N维和 T 帧的梅尔谱图 X 使用绝对列和范数,定义为
Figure 339392DEST_PATH_IMAGE020
, 其中 t ∈ {1, . . . , T }是帧索引;范数一致性损失
Figure DEST_PATH_IMAGE021
由下式给出:
Figure 284538DEST_PATH_IMAGE022
2.根据权利要求1所述的方法,其特征在于,所述根据所述判别器的各个判别结果训练所述判别器,包括:
获取第二损失因子,所述第二损失因子包括对抗损失因子和源分类器损失因子;
根据所述第二损失因子和所述各个判别结果训练所述判别器。
3.根据权利要求1所述的方法,其特征在于,所述获取所述样本病理嗓音的样本梅尔谱图,包括:
将所述样本病理嗓音先做STFT变换生成功率谱特征,然后输入至梅尔滤波器组,通过所述梅尔滤波器组获取所述样本梅尔谱图。
4.一种针对病理嗓音的语音转换方法,其特征在于,所述方法包括:
获取目标病理嗓音的梅尔谱图;
根据所述梅尔谱图获取所述目标病理嗓音的基频;
获取风格向量;
将所述梅尔谱图、所述基频以及所述风格向量输入至训练后的生成器,通过所述生成器输出转换后的梅尔谱图,所述生成器通过权利要求1至3任一所述的方法训练得到;
将转换后的梅尔谱图输入到声码器,通过所述声码器输出转换后所述目标病理嗓音的语音波形,进而得到转换后的目标嗓音。
5.一种针对病理嗓音的语音转换装置,其特征在于,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如权利要求1至4任一所述的方法。
6.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如权利要求1至4任一所述的方法。
CN202211226889.6A 2022-10-09 2022-10-09 针对病理嗓音的语音转换方法、装置和存储介质 Active CN115294970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211226889.6A CN115294970B (zh) 2022-10-09 2022-10-09 针对病理嗓音的语音转换方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211226889.6A CN115294970B (zh) 2022-10-09 2022-10-09 针对病理嗓音的语音转换方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN115294970A CN115294970A (zh) 2022-11-04
CN115294970B true CN115294970B (zh) 2023-03-24

Family

ID=83833380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211226889.6A Active CN115294970B (zh) 2022-10-09 2022-10-09 针对病理嗓音的语音转换方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN115294970B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110437B (zh) * 2023-04-14 2023-06-13 天津大学 基于语音特征和说话人特征融合的病理嗓音质量评价方法
CN116312469B (zh) * 2023-05-17 2023-08-11 天津大学 一种基于语音转换的病理嗓音修复方法
CN117975982A (zh) * 2024-04-01 2024-05-03 天津大学 一种基于g-lpc的病理嗓音增强方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527141B (zh) * 2009-03-10 2011-06-22 苏州大学 基于径向基神经网络的耳语音转换为正常语音的方法
CN106448673B (zh) * 2016-09-18 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种汉语电子喉语音转换方法
CN108520741B (zh) * 2018-04-12 2021-05-04 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
US20210158834A1 (en) * 2018-04-25 2021-05-27 Ninispeech Ltd. Diagnosing and treatment of speech pathologies using analysis by synthesis technology
CN109671442B (zh) * 2019-01-14 2023-02-28 南京邮电大学 基于STARGAN和x向量的多对多说话人转换方法
CN110246488B (zh) * 2019-06-14 2021-06-25 思必驰科技股份有限公司 半优化CycleGAN模型的语音转换方法及装置
CN111833855B (zh) * 2020-03-16 2024-02-23 南京邮电大学 基于DenseNet STARGAN的多对多说话人转换方法
CN113658583B (zh) * 2021-08-17 2023-07-25 安徽大学 一种基于生成对抗网络的耳语音转换方法、系统及其装置
CN113763987A (zh) * 2021-09-06 2021-12-07 中国科学院声学研究所 一种语音转换模型的训练方法及装置
CN114299917A (zh) * 2022-01-04 2022-04-08 南京邮电大学 基于基频差异补偿的StyleGAN情感语音转换方法
CN114582363A (zh) * 2022-02-21 2022-06-03 杭州电子科技大学 用于非平行语料的高质量语音转换方法
CN114550701A (zh) * 2022-02-25 2022-05-27 昆山杜克大学 一种基于深度神经网络的汉语电子喉语音转换装置及方法
CN114822567B (zh) * 2022-06-22 2022-09-27 天津大学 一种基于能量算子的病理嗓音频谱重构方法

Also Published As

Publication number Publication date
CN115294970A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
Cooper et al. Zero-shot multi-speaker text-to-speech with state-of-the-art neural speaker embeddings
CN115294970B (zh) 针对病理嗓音的语音转换方法、装置和存储介质
Jia et al. Transfer learning from speaker verification to multispeaker text-to-speech synthesis
CN109599091A (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
Liu et al. A novel method of artificial bandwidth extension using deep architecture.
Huang et al. Refined wavenet vocoder for variational autoencoder based voice conversion
CN111724806B (zh) 一种基于深度神经网络的双视角单通道语音分离方法
Vignolo et al. Evolutionary cepstral coefficients
Vallés-Pérez et al. Improving multi-speaker TTS prosody variance with a residual encoder and normalizing flows
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
Chu et al. E-DGAN: an encoder-decoder generative adversarial network based method for pathological to normal voice conversion
Prajapati et al. Voice privacy using CycleGAN and time-scale modification
He et al. Stress and emotion recognition using log-Gabor filter analysis of speech spectrograms
CN116364096B (zh) 一种基于生成对抗网络的脑电信号语音解码方法
Lőrincz et al. Speaker verification-derived loss and data augmentation for DNN-based multispeaker speech synthesis
Wang et al. Controllable speech representation learning via voice conversion and aic loss
CN113436607B (zh) 一种快速语音克隆方法
Ai et al. Denoising-and-dereverberation hierarchical neural vocoder for statistical parametric speech synthesis
CN115035904A (zh) 一种基于生成式对抗神经网络的高质量声码器模型
Williams Learning disentangled speech representations
Boril et al. Data-driven design of front-end filter bank for Lombard speech recognition
Maes Synchrosqueezed representation yields a new reading of the wavelet transform
Erro et al. On combining statistical methods and frequency warping for high-quality voice conversion
Lobato et al. Performance comparison of tts models for brazilian portuguese to establish a baseline
Sahoo et al. Detection of speech-based physical load using transfer learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant