CN115171666A - 语音转换模型训练方法、语音转换方法、装置及介质 - Google Patents

语音转换模型训练方法、语音转换方法、装置及介质 Download PDF

Info

Publication number
CN115171666A
CN115171666A CN202210897502.3A CN202210897502A CN115171666A CN 115171666 A CN115171666 A CN 115171666A CN 202210897502 A CN202210897502 A CN 202210897502A CN 115171666 A CN115171666 A CN 115171666A
Authority
CN
China
Prior art keywords
sample
voice
conversion model
speech
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210897502.3A
Other languages
English (en)
Inventor
孙奥兰
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210897502.3A priority Critical patent/CN115171666A/zh
Publication of CN115171666A publication Critical patent/CN115171666A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请涉及语音转换技术领域,提供了一种语音转换模型训练方法、语音转换方法、装置及介质,方法部分包括:通过编码器从预设语音样本中提取语音样本特征。然后基于预设掩码策略对语音样本进行解耦,得到的样本特征表示,将样本特征表示输入至生成器,令生成器根据样本特征表示重建语音样本梅尔频谱图,得到目标样本梅尔频谱图,根据目标样本梅尔频谱图和预设语音样本对应的原始样本梅尔频谱图,计算语音转换模型的语音重构损失。基于对抗损失和语音重构损失优化语音转换模型中的参数,得到训练好的语音转换模型。通过预设掩码策略和预设对抗网络对语音样本特征进行解耦,提高了语音转换模型的鲁棒性,进而提高了训练效率。

Description

语音转换模型训练方法、语音转换方法、装置及介质
技术领域
本申请涉及语音转换技术领域,尤其涉及一种语音转换模型训练方法、语音转换方法、语音转换模型训练装置、语音转换装置、计算机设备及存储介质。
背景技术
语音转换包括改变源说话者的语音,使其听起来像目标说话者的语音,同时保持语言信息不变。
在现有的语音转换模型的训练过程中,语音转换模型采用的解纠缠(解耦)算法,例如随机重采样和临时瓶颈层大小对语音特征进行解纠缠,但这种方法很难确保鲁棒的语音特征解耦,进而影响整个训练过程,导致语音转换模型训练效率较低。
发明内容
本申请实施例提供一种语音转换模型训练方法,以解决现有的现有的语音转换模型训练方案存在训练效率较低的问题。
本申请实施例的第一方面提供了一种语音转换模型训练方法,所述语音转换模型训练方法包括:
通过编码器从预设语音样本中提取语音样本特征;所述语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征;
基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失;所述样本特征表示用于表征增强后的语音样本特征;
将所述样本特征表示输入生成器,生成目标样本梅尔频谱图;
根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失;
基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型。
本申请实施例的第二方面提供了一种语音转换方法,包括:
提取源说话人和目标说话人的语音信息;所述语音信息包括语音内容信息、音色信息、节奏信息及音高信息
将所述语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图;其中,所述训练好的语音转换模型是采用上述的语音转换模型训练方法进行训练得到的;
采用预设算法将所述目标梅尔频谱图转换为波形,得到合成语音。
本申请实施例的第三方面提供了一种语音转换模型训练装置,所述语音转换模型训练装置包括:
提取模块:用于通过编码器从预设语音样本中提取语音样本特征;所述语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征;
解耦模块:用于基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失;所述样本特征表示用于表征增强后的语音样本特征;
重建模块:用于将所述样本特征表示输入生成器,生成目标样本梅尔频谱图;
计算模块:用于根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失;
训练模块:用于基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型。
本申请实施例的第四方面提供了一种语音转换装置,包括:
提取模块:用于提取源说话人和目标说话人的语音信息;所述语音信息包括语音内容信息、音色信息、节奏信息及音高信息;
第一转换模块:用于将所述语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图;其中,所述训练好的语音转换模型是采用上述的语音转换模型训练方法进行训练得到的;
第二转换模块:用于采用预设算法将所述目标梅尔频谱图转换为波形,得到合成语音。
本申请实施例的第五方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述语音转换模型训练方法,或所述处理器执行所述计算机可读指令时以实现上述的语音转换方法。
本申请实施例的第六方面提供了一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,实现如上述语音转换模型训练方法,或所述计算机可读指令被一个或多个处理器执行时,以实现上述的语音转换方法。
本申请实施例提供一种语音转换模型训练方法,通过编码器从预设语音样本中提取语音样本特征,其中,语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征。然后基于预设掩码策略对语音样本进行解耦,对语音样本特征进行语音增强,得到的样本特征表示,并通过计算解耦过程中的对抗损失尽可能减少语音样本特征的失真,得到更精确的样本特征表示,以尽可能克服将样本特征表示输入至生成器后存在特征不匹配,影响语音转换模型训练的鲁棒性的问题。将解耦的样本特征表示输入至生成器,并训练生成器根据样本特征表示重建语音样本梅尔频谱图,得到目标样本梅尔频谱图,根据目标样本梅尔频谱图和预设语音样本对应的原始样本梅尔频谱图,计算语音转换模型的语音重构损失。基于对抗损失和语音重构损失优化语音转换模型中的参数,得到训练好的语音转换模型。通过预设掩码策略和预设对抗网络对语音样本特征进行解耦,减少语音样本特征的失真,提高了语音转换模型训练的鲁棒性,进而提高了训练效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中语音转换模型训练方法或语音转换方法的应用环境示意图;
图2是本申请实施例中语音转换模型训练方法的实现流程示意图;
图3是本申请实施例中语音转换模型训练方法的语音转换模型示例图;
图4是本申请实施例中语音转换模型训练方法的解耦网络示例图;
图5是本申请实施例中语音转换方法的实现流程示意图;
图6是本申请实施例中语音转换模型训练装置的结构示意图;
图7是本申请实施例中语音转换装置的结构示意图;
图8是本申请实施例中计算机设备的一示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1示出了本申请实施例中语音转换模型训练方法的一应用环境示意图,如图1所示,可以是通过用户终端录入并上传预设语音样本或源说话人、目标说话人的语音信息等,由服务器执行语音转换模型的训练与语音转换,也可以是由包含处理器、计算机存储介质等的用户终端执行语音转换模型的训练与语音转换。其中,用户终端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。不同业务系统的用户终端可以同时与服务器,或者与服务器集群中的某个特定服务器之间进行交互。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
请参阅图2,图2所示为本申请实施例中语音转换模型训练方法的实现流程图,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
本申请实施例中语音转换模型包括:编码器、解耦网络及生成器,解耦网络包括预设掩码策略和预设对抗网络。
S11:通过编码器从预设语音样本中提取语音样本特征;所述语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征。
在步骤S11中,编码器包括但不限于内容编码器、音色编码器、节奏编码器、音高编码器。
在本实施例中,内容编码器用于将识别输入语音并进行文本转换,得到与说话人无关的语音内容信息,可以采用ASR(Automatic Speech Recognition,自动语音识别技术)等作为内容编码器。音色编码器用于提取音色特征,其输入为音色向量。节奏编码器的输入是包含大量信息的语音,因此很可能各种杂乱无章的信息会被编码到节奏特征中,因此在进行节奏特征提取前可以先对输入的语音进行预处理,以过滤掉节奏无关的信息,提高节奏特征提取的精度。音高编码器的输入为语音的音高轮廓信息,或者说是基频信息。
作为一示例,请参阅图3,图3所示为本申请实施例提供的语音转换模型训练方法的语音转换模型示例图,如图1所示,利用one-hot(独热)编码获取预设语音样本的音色向量,然后将音色变量输入音色编码器,对输入音色向量进行深层学习得到样本音色特征,音色编码器可以采用word-embeding(词嵌入)编码实现对输入音色向量的深层学习。独热编码是根据训练语料中语音样本数,通过0-1的编码生成不同预设语音样本的one-hot标签,例如有三个预设语音样本1、2、3,则第一个预设语音样本的one-hot标签为[100],第二个预设语音样本的one-hot标签为[010],第三个预设语音样本的one-hot标签为[001],将预设语音样本对应的one-hot标签作为预设语音样本的音色向量输入音色编码器。此外在将语音样本输入内容编码器和音高编码器之前,需要预先对输入语音样本和音高轮廓进行随机采样,以提高训练过程中样本特征的精度。
S12:基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失;所述样本特征表示用于表征增强后的语音样本特征。
在步骤S12中,解耦网络包括预设掩码策略和预设对抗网络,解耦是指通过对抗训练学习分离语音样本特征,实现对语音样本特征的增强。
在本实施例中,预设掩码策略是通过配置随机掩码来随机屏蔽编码器生成的语音样本特征中的任意一个特征,预设对抗网络用于根据未被屏蔽的其它语音样本特征来推测被屏蔽的特征,同时反向激励编码器生成包含较少与语音样本特征无关的更精确的语音样本特征。通过配置预设掩码策略和预设对抗网络来通过对抗训练学习分离语音样本特征,实现对语音样本特征的增强。避免现有的采用随机重采样和临时瓶颈层大小调整实现解耦,较难确保解耦的鲁棒性,进而影响语音转换模型训练的鲁棒性。
作为本申请一实施例,所述预设对抗网络包括预测层和梯度反向层;所述基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失,包括:基于所述预设掩码策略生成随机掩码;所述随机掩码用于随机屏蔽所述样本内容特征、样本音色特征、样本节奏特征及样本音高特征中的一种样本特征,使得所述预测层基于除被屏蔽的样本特征外的其他三种样本特征,预测出所述被屏蔽的样本特征;基于所述随机掩码和所述语音样本特征计算所述对抗损失;基于所述梯度反向层和所述对抗损失,对所述语音样本特征进行解耦,得到样本特征表示。
在本实施例中,通过0用来表示被屏蔽的样本特征,通过1来表示未被屏蔽的样本特征,按照上述规则,随机掩码包括(0,1,1,1)、(1,0,1,1)、(1,1,0,1)、(1,1,1,0),通过随机掩码随机屏蔽由编码器编码得到的样本内容特征、样本音色特征、样本节奏特征及样本音高特征中的一种样本特征,通过对抗网络中的预测层基于除被屏蔽的样本特征外的其他三种样本特征,预测出被屏蔽的样本特征。然后根据随机掩码和语音样本特征计算对抗损失,将对抗损失通过梯度反向层反向传播给编码器,鼓励编码器学习的语音样本特征包含尽可能少的互信息。
作为一示例,请参阅图4,图4所示为本申请实施例提供的语音转换模型训练方法的解耦网络示例图。对抗网络的预测层包括全连接层、激活函数、层归一化和另一个全连接层。对抗网络的梯度在反向传播到编码器之前被梯度反向层反转,鼓励编码器学习的语音样本特征包含尽可能少的互信息。通过随机掩码预测的解耦网络,分离语音样本特征,提高语音转换模型训练过程中多因素高度可控风格迁移的鲁棒性。
作为本申请一实施例,所述基于所述随机掩码和所述语音样本特征计算所述对抗损失,包括:
按照下式计算所述对抗损失:
Ladv=||(1-M)·(Z-MAP(M·Z)||,
其中,Z=(Zr,Zc,Zf,Zu),M∈(0,1,1,1),(1,0,1,1),(1,1,0,1),(1,1,1,0);
式中,Ladv是指对抗损失;M是指随机掩码;Zr是指样本节奏特征,Zc是指样本内容特征,Zf是指样本音高特征,Zu是指样本音色特征;Z是指Zr、Zc、Zf、Zu的级联后的向量;MAP是指均值平均精度。需要说明的是,MAP是Mean Average Precision的缩写,即均值平均精度。作为object dection中衡量检测精度的指标。计算公式为:MAP=所有类别的平均精度求和除以所有类别。
S13:将所述样本特征表示输入生成器,生成目标样本梅尔频谱图。
在步骤S13中,样本特征表示以向量形式存在,包括但不限于样本内容表示、样本音色表示、样本节奏表示、样本音高表示。
在本实施例中,提取解耦得到的样本内容表示、样本音色表示、样本节奏表示、样本音高表示,将各样本特征表示输入生成器进行特征融合,得到融合向量,根据梅尔频谱系数的特性对该融合向量进行解码,得到目标样本梅尔频谱图。需要说明的是,样本内容表示、样本音色表示、样本节奏表示、样本音高表示可以是相同的维度表示,也可以是可以是不同维度的向量表示,过对样本内容表示、样本音色表示、样本节奏表示、样本音高表示进行特征融合,可以得到一个更高维度的向量,例如,样本内容表示为128维度的向量,样本音色表示为64维度的向量,样本节奏表示为32维度的向量,样本音高表示为32维度的向量,通过特征融合得到一个512维度的融合向量。
S14:根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失。
在步骤S14中,原始样本梅尔频谱图是根据输入的预设语音样本原始的语音样本特征,通过梅尔频谱滤波器得到的梅尔频谱图。
在本实施例中,由于在通过语音转换模型中编码器和对抗训练后语音样本特征的改变,经语音转换模型合成的目标样本梅尔频谱图与原始样本梅尔频谱图也存在差异,该差异用语音重构损失表示。
作为本申请一实施例,所述根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失,包括:
按照下式计算所述语音重构损失:
Figure BDA0003769522710000101
式中,Lrecon是指语音重构损失;S是指所述原始样本梅尔频谱图;
Figure BDA0003769522710000102
是指所述目标样本梅尔频谱图。
S15:基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型。
在步骤S15中,对抗损失是指对语音样本特征进行解耦过程中产生的,样本特征表示与语音样本特征之间的误差。语音重构损失是指生成器基于样本特征表示生成的目标样本梅尔频谱与对应输入的预设语音样本的原始样本梅尔频谱图之间的误差。根据对抗损失与语音重构损失构成语音转换模型的模型损失函数。
在本实施例中,为对抗损失和语音重构损失分别分配权重,基于对抗损失和语音重构损失训练语音转换模型,优化语音转换模型中的参数,并调整两者的权重值,使得模型损失函数的值能够满足模型收敛条件,得到训练好的语音转换模型。
作为本申请一实施例,所述基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型,包括:
按照下式计算模型损失:
L=α*Ladv+β*Lrecon
式中,L是指模型损失,α是指对抗损失的权重,β是指语音重构损失的权重,α、β的取值范围均为[0,1];
当模型损失达到预设收敛条件时,所述语音转换模型收敛,得到训练好的语音转换模型。其中预设收敛条件可以为具体数值也可以为数值范围,可自定义收敛条件的大小或取值,目的是使得模型损失尽可能的小,提高语音转换模型数据输出的精度。
本申请实施例提供一种语音转换模型训练方法,其中,语音转换模型包括编码器,解耦网络及生成器,解耦网络包括预设掩码策略和预设对抗网络,通过编码器从预设语音样本中提取语音样本特征,其中,语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征。然后基于预设掩码策略对语音样本进行解耦,对语音样本特征进行语音增强,得到的样本特征表示,并通过计算解耦过程中的对抗损失尽可能减少语音样本特征的失真,得到更精确的样本特征表示,以尽可能克服将样本特征表示输入至生成器后存在特征不匹配,影响语音转换模型训练的鲁棒性的问题。将解耦的样本特征表示输入至生成器,并训练生成器根据样本特征表示重建语音样本梅尔频谱图,得到目标样本梅尔频谱图,根据目标样本梅尔频谱图和预设语音样本对应的原始样本梅尔频谱图,计算语音转换模型的语音重构损失。基于对抗损失和语音重构损失优化语音转换模型中的参数,得到训练好的语音转换模型。通过预设掩码策略和预设对抗网络对语音样本特征进行解耦,减少语音样本特征的失真,提高了语音转换模型训练的鲁棒性,进而提高了训练效率。
请参阅图5,图5所示为本申请实施例提供的一种语音转换方法的实现流程图,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S21:提取源说话人与目标说话人的语音信息;所述语音信息包括语音内容信息、音色信息、节奏信息及音高信息。
在步骤S21中,源说话人的语音信息也即待转换的语音信息。在需要对源说话人的语音进行语音转换时,该源说话人的语音即作为待转换语音。
在本实施例中,在对源说话人的语音进行转换之前,还需要获取源说话人的语音和目标说话人的语音信息,具体地可以从视频文件、音频文件等提取完整音频或部分音频作为源说话人的语音或目标说话人的语音信息。其中语音信息包括但不限于语音内容信息、音色信息、节奏信息及音高信息。
S22:将所述语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图;其中,所述训练好的语音转换模型是采用上述语音转换模型训练方法进行训练得到的。
在步骤S22中,目标梅尔频谱图是指经过训练好的语音转换模型进行语音转换后得到的新的语音的梅尔频谱图。
在本实施例中,将语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图包括:将源说话人的语音信息输入至训练好的语音转换模型的内容编码器,以提取到与说话人无关的内容特征;将目标说话人的语音信息分别输入至训练好的语音转换模型的音色编码器、节奏编码器、以及音高编码器,以提取目标说话人的音色特征、节奏特征和音高特征;通过训练好的语音转换模型,基于上述内容特征与目标说话人的音色特征、节奏特征和音高特征,生成目标梅尔频谱图。作为一种实施方式,再将目标说话人的语音信息分别输入至训练好的语音转换模型的音色编码器、节奏编码器、以及音高编码器之前,还可以对目标说话人的语音信息进行预处理,例如提取目标说话人的语音信息的音高轮廓,并对该音高轮廓进行随机采样后再输入音高编码器,本申请对预处理的方式不做限定。
S23:采用预设算法将所述目标梅尔频谱图转换为波形,得到合成语音。
在步骤S23中,预设算法包括但不限于Griffin_lim算法。
在本实施例中,Griffin_lim算法的过程为:随机初始化一个相位谱,用该相位谱与已知的目标梅尔频谱经过逆傅里叶变换合成新的语音波形,用合成语音做短时傅里叶变换,得到新的幅度谱和新的相位谱,再用已知的目标梅尔频谱与新的相位谱经过逆傅里叶变换合成新的语音,如此重复多次,直至合成的语音达到满意的效果。
本实施例提供一种语音转换方法,通过在语音转换过程中,增加目标说话人的节奏、音高特征的转换,使得语音转换后源说话人与目标说话人的韵律保持一致,提高语音转换的效果。且基于训练好的语音转换模型中对抗性学习的解耦语音表示网络,提取源说话人语音的内容表示,及目标说话人的音色、节奏及音高表示,提高了语音转换过程中多因素高度可控风格迁移的鲁棒性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一个实施例中,提供一种语音转换模型训练装置600,该语音转换模型训练装置与上述实施例中语音转换模型训练方法一一对应。如图6所示,该语音转换模型训练装置包括提取模块601、解耦模块602、重建模块603、计算模块604以及训练模块605。各功能模块详细说明如下:
提取模块601:用于通过编码器从预设语音样本中提取语音样本特征;所述语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征;
解耦模块602:用于基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失;所述样本特征表示用于表征增强后的语音样本特征;
重建模块603:用于将所述样本特征表示输入生成器,生成目标样本梅尔频谱图;
计算模块604:用于根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失;
训练模块605:用于基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型。
在一个实施例中,还提供一种语音转换装置700,该语音转换装置与上述实施例中的语音转换方法一一对应。如图7所示,该语音转换装置包括提取模块701、第一转换模块702以及第二转换模块703。各功能模块详细说明如下:
提取模块701:用于提取源说话人和目标说话人的语音信息;所述语音信息包括语音内容信息、音色信息、节奏信息及音高信息;
第一转换模块702:用于将所述语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图;其中,所述训练好的语音转换模型是采用上述的语音转换模型训练方法进行训练得到的;
第二转换模块703:用于采用预设算法将所述目标梅尔频谱图转换为波形,得到合成语音。
关于语音转换模型训练装置的具体限定可以参见上文中对于语音转换模型训练方法的限定,关于语音转换装置的具体限定可以参见上文中对于语音转换方法的限定,在此不再赘述。上述语音转换模型训练装置与语音转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储语音转换模型训练方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音转换模型训练方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音转换模型训练方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现:
一种语音转换模型训练方法,包括:
通过编码器从预设语音样本中提取语音样本特征;所述语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征;
基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失;所述样本特征表示用于表征增强后的语音样本特征;
将所述样本特征表示输入生成器,生成目标样本梅尔频谱图;
根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失;
基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型。
及一种语音转换方法,包括:
提取源说话人和目标说话人的语音信息;所述语音信息包括语音内容信息、音色信息、节奏信息及音高信息;
将所述语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图;其中,所述训练好的语音转换模型是采用上述的语音转换模型训练方法进行训练得到的;
采用预设算法将所述目标梅尔频谱图转换为波形,得到合成语音。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现:
一种语音转换模型训练方法,包括:
通过编码器从预设语音样本中提取语音样本特征;所述语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征;
基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失;所述样本特征表示用于表征增强后的语音样本特征;
将所述样本特征表示输入生成器,生成目标样本梅尔频谱图;
根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失;
基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型。
及一种语音转换方法,包括:
提取源说话人和目标说话人的语音信息;所述语音信息包括语音内容信息、音色信息、节奏信息及音高信息;
将所述语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图;其中,所述训练好的语音转换模型是采用上述的语音转换模型训练方法进行训练得到的;
采用预设算法将所述目标梅尔频谱图转换为波形,得到合成语音。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种语音转换模型训练方法,其特征在于,所述语音转换模型训练方法包括:
通过编码器从预设语音样本中提取语音样本特征;所述语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征;
基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失;所述样本特征表示用于表征增强后的语音样本特征;
将所述样本特征表示输入生成器,生成目标样本梅尔频谱图;
根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失;
基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型。
2.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述预设对抗网络包括预测层和梯度反向层;所述基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失,包括:
基于所述预设掩码策略生成随机掩码;所述随机掩码用于随机屏蔽所述样本内容特征、样本音色特征、样本节奏特征及样本音高特征中的一种样本特征,使得所述预测层基于除被屏蔽的样本特征外的其他三种样本特征,预测出所述被屏蔽的样本特征;
基于所述随机掩码和所述语音样本特征计算所述对抗损失;
基于所述梯度反向层和所述对抗损失,对所述语音样本特征进行解耦,得到样本特征表示。
3.根据权利要求2所述的语音转换模型训练方法,其特征在于,所述基于所述随机掩码和所述语音样本特征计算所述对抗损失,包括:
按照下式计算所述对抗损失:
Ladv=||(1-M)·(Z-MAP(M·Z)||,
其中,Z=(Zr,Zc,Zf,Zu),M∈(0,1,1,1),(1,0,1,1),(1,1,0,1),(1,1,1,0);
式中,Ladv是指所述对抗损失;M是指所述随机掩码;Zr是指所述样本节奏特征,Zc是指所述样本内容特征,Zf是指所述样本音高特征,Zu是指所述样本音色特征;Z是指Zr、Zc、Zf、Zu的级联后的向量;MAP是指均值平均精度。
4.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失,包括:
按照下式计算所述语音重构损失:
Figure FDA0003769522700000021
式中,Lrecon是指语音重构损失;S是指所述原始样本梅尔频谱图;
Figure FDA0003769522700000022
是指所述目标样本梅尔频谱图。
5.根据权利要求3或4任一项所述的语音转换模型训练方法,其特征在于,所述基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型,包括:
按照下式计算模型损失:
L=α*Ladv+β*Lrecon
式中,L是指模型损失,α是指所述对抗损失的权重,β是指所述语音重构损失的权重,α、β的取值范围均为[0,1];
当所述模型损失达到预设收敛条件时,所述语音转换模型收敛,得到训练好的语音转换模型。
6.一种语音转换方法,其特征在于,所述语音转换方法包括:
提取源说话人和目标说话人的语音信息;所述语音信息包括语音内容信息、音色信息、节奏信息及音高信息;
将所述语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图;其中,所述训练好的语音转换模型是采用如权利要求1-5任一项所述的语音转换模型训练方法进行训练得到的;
采用预设算法将所述目标梅尔频谱图转换为波形,得到合成语音。
7.一种语音转换模型训练装置,其特征在于,所述语音转换模型训练装置包括:
提取模块:用于通过编码器从预设语音样本中提取语音样本特征;所述语音样本特征包括样本内容特征、样本音色特征、样本节奏特征以及样本音高特征;
解耦模块:用于基于预设掩码策略和预设对抗网络对所述语音样本特征进行解耦,得到样本特征表示,并计算解耦过程中的对抗损失;所述样本特征表示用于表征增强后的语音样本特征;
重建模块:用于将所述样本特征表示输入生成器,生成目标样本梅尔频谱图;
计算模块:用于根据所述目标样本梅尔频谱图与所述预设语音样本对应的原始样本梅尔频谱图,计算语音重构损失;
训练模块:用于基于所述对抗损失和所述语音重构损失优化所述语音转换模型中的参数,得到训练好的语音转换模型。
8.一种语音转换装置,其特征在于,所述语音转换装置包括:
提取模块:用于提取源说话人和目标说话人的语音信息;所述语音信息包括语音内容信息、音色信息、节奏信息及音高信息;
第一转换模块:用于将所述语音信息输入至训练好的语音转换模型进行语音转换,得到目标梅尔频谱图;其中,所述训练好的语音转换模型是采用如权利要求1-5任一项所述的语音转换模型训练方法进行训练得到的;
第二转换模块:用于采用预设算法将所述目标梅尔频谱图转换为波形,得到合成语音。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时以实现如权利要求1-5任意一项所述的语音转换模型训练方法,或者所述计算机可读指令被处理器执行时以实现如权利要求6所述的语音转换方法。
10.一个或多个可读存储介质,其特征在于,所述可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时以实现如权利要求1-5任意一项所述的语音转换模型训练方法,或者所述计算机可读指令被处理器执行时以实现如权利要求6所述的语音转换方法。
CN202210897502.3A 2022-07-28 2022-07-28 语音转换模型训练方法、语音转换方法、装置及介质 Pending CN115171666A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210897502.3A CN115171666A (zh) 2022-07-28 2022-07-28 语音转换模型训练方法、语音转换方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210897502.3A CN115171666A (zh) 2022-07-28 2022-07-28 语音转换模型训练方法、语音转换方法、装置及介质

Publications (1)

Publication Number Publication Date
CN115171666A true CN115171666A (zh) 2022-10-11

Family

ID=83477599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210897502.3A Pending CN115171666A (zh) 2022-07-28 2022-07-28 语音转换模型训练方法、语音转换方法、装置及介质

Country Status (1)

Country Link
CN (1) CN115171666A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778937A (zh) * 2023-03-28 2023-09-19 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778937A (zh) * 2023-03-28 2023-09-19 南京工程学院 一种基于说话人对抗子网络的语音转换方法
CN116778937B (zh) * 2023-03-28 2024-01-23 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Similar Documents

Publication Publication Date Title
CN110136690B (zh) 语音合成方法、装置及计算机可读存储介质
CN112712813B (zh) 语音处理方法、装置、设备及存储介质
CN112786009A (zh) 语音合成方法、装置、设备及存储介质
CN110335587A (zh) 语音合成方法、系统、终端设备和可读存储介质
CN112837669B (zh) 语音合成方法、装置及服务器
WO2022252904A1 (zh) 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN114267329A (zh) 基于概率生成和非自回归模型的多说话人语音合成方法
CN113450765A (zh) 语音合成方法、装置、设备及存储介质
CN115376495A (zh) 语音识别模型训练方法、语音识别方法及装置
CN114360493A (zh) 语音合成方法、装置、介质、计算机设备和程序产品
CN116959465A (zh) 语音转换模型训练方法、语音转换方法、装置及介质
CN115171666A (zh) 语音转换模型训练方法、语音转换方法、装置及介质
CN113178200B (zh) 语音转换方法、装置、服务器及存储介质
CN113077783A (zh) 小语种语音语料扩增方法、装置及电子设备和存储介质
CN116564270A (zh) 基于去噪扩散概率模型的歌唱合成方法、设备及介质
CN113555003B (zh) 语音合成方法、装置、电子设备及存储介质
CN115359780A (zh) 语音合成方法、装置、计算机设备及存储介质
CN113327578B (zh) 一种声学模型训练方法、装置、终端设备及存储介质
KR20230075340A (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
CN115376486A (zh) 一种语音合成方法、装置、计算机设备及存储介质
CN114464163A (zh) 语音合成模型的训练方法、装置、设备、存储介质和产品
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN113887243A (zh) 语义分类模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination