CN112259086A - 一种基于语谱图合成的语音转换方法 - Google Patents

一种基于语谱图合成的语音转换方法 Download PDF

Info

Publication number
CN112259086A
CN112259086A CN202011102941.8A CN202011102941A CN112259086A CN 112259086 A CN112259086 A CN 112259086A CN 202011102941 A CN202011102941 A CN 202011102941A CN 112259086 A CN112259086 A CN 112259086A
Authority
CN
China
Prior art keywords
spectrogram
target
speaker
speech
feature matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011102941.8A
Other languages
English (en)
Inventor
简志华
朱雅楠
于佳祺
韦凤瑜
徐嘉
吴超
刘二小
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011102941.8A priority Critical patent/CN112259086A/zh
Publication of CN112259086A publication Critical patent/CN112259086A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明公开了一种基于语谱图合成的语音转换方法,包括:S1.将源语音和目标语音的语谱图分解为内容语谱图和说话人语谱图,并将内容语谱图和说话人语谱图分别输入超深度卷积神经网络中进行处理,分别得到语义内容信息和说话人身份信息;S2.将得到的语义内容信息和说话人身份信息映射到特征空间,分别得到语义内容信息和说话人身份信息的特征矩阵直方图;S3.将得到的语义内容信息和说话人身份信息的特征矩阵直方图输入直方图匹配HdaIN层中进行匹配,得到目标特征矩阵;S4.基于生成框架将得到的目标特征矩阵转换为目标语谱图;S5.将转换得到的目标语谱图通过生成对抗网络转换为语音波形输出。

Description

一种基于语谱图合成的语音转换方法
技术领域
本发明涉及语音转换技术领域,尤其涉及一种基于语谱图合成的语音转换方法。
背景技术
语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息,同时保持语音内容不变,简单地说就是将一个说话人(称之为源)的声音,通过某种手段进行变换,使其听起来仿佛是另一个说话人(称之为目标)说的话。语音转换属于交叉性的学科分支,其内容既涉及到语音学、语义学及心理声学等领域的知识,又涵盖语音信号处理领域的各个方面,如语音的分析与合成、说话人识别、语音编码和增强等。现阶段,语音转换技术在医疗服务、保密通信及生活娱乐的方面有着非常重要的应用。目前,语音转换可以大致分为两类,一类是受监督的,另一类是无监督的。受监督的语音转换已经取得了较好的成果,但是需要源语音与目标语音之间相应语音帧对齐,如果源语音与目标语音之间有巨大差异,就无法达到较好的转换效果,这也限制了其应用推广。
因此,本发明提出一种基于语谱图合成的语音转换方法。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于语谱图合成的语音转换方法。
为了实现以上目的,本发明采用以下技术方案:
一种基于语谱图合成的语音转换方法,包括:
S1.将源语音和目标语音的语谱图分解为内容语谱图和说话人语谱图,并将内容语谱图和说话人语谱图分别输入超深度卷积神经网络中进行处理,分别得到内容语谱图的语义内容信息和说话人语谱图的说话人身份信息;
S2.将得到的语义内容信息和说话人身份信息映射到特征空间,分别得到语义内容信息的特征矩阵直方图和说话人身份信息的特征矩阵直方图;
S3.将得到的语义内容信息的特征矩阵直方图和说话人身份信息的特征矩阵直方图输入直方图匹配HdaIN层中进行匹配,得到目标特征矩阵;
S4.基于生成框架将得到的目标特征矩阵转换为目标语谱图,其中,转换后的目标语谱图包括内容语谱图的语义内容信息和说话人语谱图的说话人身份信息;
S5.将转换得到的目标语谱图通过生成对抗网络转换为语音波形输出。
进一步的,所述步骤S1具体为:
将源语音的语谱图C和目标语音的语谱图S分别作为内容语谱图和说话人语谱图输入超深度卷积神经VGG网络中,超深度卷积神经VGG网络从源语音的语谱图C中提取语义内容信息,从目标语音的语谱图S中提取说话人身份信息,分别得到内容语谱图的语义内容信息和说话人语谱图的说话人身份信息。
进一步的,所述步骤S2具体为:
分别对语义内容信息和说话人身份信息进行编码,得到与语义内容信息和说话人身份信息对应的语义内容信息的特征矩阵f(c)和说话人身份信息的特征矩阵f(s)。
进一步的,所述步骤S3具体为:
将得到的语义内容信息的特征矩阵f(c)和说话人身份信息的特征矩阵f(s)馈送到通过直方图匹配的HdaIN层,HdaIN层将语义内容信息的特征矩阵f(c)和说话人身份信息的特征矩阵f(s)进行匹配,从而获得目标特征矩阵,表示为:
y=HadIN(f(c),f(s))
其中,y表示目标特征矩阵。
进一步的,所述步骤S4具体为:
通过生成框架镜像处理得到的目标特征矩阵,对随机的生成函数g进行训练,将目标特征矩阵转为目标语谱图,表示为:
O=g(y)
其中,O表示生成的目标语谱图;g(y)表示目标特征矩的函数。
进一步的,所述步骤S4中生成框架具体为:
使用预训练的超深度卷积神经VGG网络计算出重建的语义内容信息损失与说话人身份信息损失,并训练生成框架。
进一步的,所述内容损失与说话人损失具体为:
使用生成的目标语谱图处理目标特征矩阵,并计算HdaIN层输出语义内容信息损失函数,表示为:
Lc=||f(g(y)-y)||
其中,LC表示语义内容信息损失函数;
通过匹配常规的实例统计信息获得说话人身份信息损失函数,表示为:
Figure BDA0002726017410000031
Figure BDA0002726017410000032
Ls=Ls1+Ls2
其中,Ls表示说话人身份信息损失函数;t表示超深度卷积神经VGG网络中relu1_1,relu2_1,relu3_1,relu4_1层中的一层;μ表示目标说话人语谱图的均值;σ表示目标说话人语谱图的方差。
进一步的,所述步骤S4还包括:
将逐层输出目标特征矩阵重新映射为具有梯度的特殊特征图,将特殊特征图与生成的目标语谱图进行匹配得到直方图损失函数,表示为:
Figure BDA0002726017410000033
Figure BDA0002726017410000034
其中,Lh表示直方图损失函数;t表示超深度卷积神经VGG网络中relu1_1,relu4_1层中的一层;H(Oij)表示通过直方图映射后的特征图;Oij表示原始输出的特征图;
Figure BDA0002726017410000035
表示原始输出特征图的最大值;
Figure BDA0002726017410000036
表示原始输出特征图的最小值;Delta表示直方图间隔参数。
进一步的,所述步骤S4中还包括:
计算目标语谱图的总损失函数,表示为:
L=Lc+Ls+Lh
其中,L表示总损失函数。
进一步的,所述步骤S5中将转换得到的目标语谱图通过生成对抗网络转换为语音波形输出,表示为:
x=G(g(y))
其中,x表示语音波形。
与现有技术相比,本发明具有以下优点:
(1)通过HdaIN层的应用,可以将语谱图的内容信息与身份信息分开进行处理,并且可以实现无监督的语音转换,从而解决了需要大量并行数据的弊端,使语音转换的应用范围更加广泛与灵活。
(2)本发明的方法基于语谱图进行语音转换,语音波形不参与直接转换,使得数据收集十分容易。
(3)通过GAN模型进行语谱图与语音之间的转换,可以得到质量更高的语音,并且用时更短。
附图说明
图1是实施例一提供的一种基于语谱图合成的语音转换方法流程图;
图2是实施例一提供的基于语谱图合成的语音转换系统框架结构图;
图3是实施例一提供的GAN模型生成器结构图;
图4是实施例一提供的GAN模型鉴别器结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于语谱图合成的语音转换方法。
本发明提出通过直方图匹配的实例归一化(Histogram-matched InstanceNormalization,HdaIN)将源语音和目标语音的语谱图分解为内容语谱图和说话人语谱图分别处理,无需对齐语音。
实施例一
本实施例提供一种基于语谱图合成的语音转换方法,如图1-2所示,包括步骤:
S11.将源语音和目标语音的语谱图分解为内容语谱图和说话人语谱图,并将内容语谱图和说话人语谱图分别输入超深度卷积神经网络中进行处理,分别得到内容语谱图的语义内容信息和说话人语谱图的说话人身份信息;
S12.将得到的语义内容信息和说话人身份信息映射到特征空间,分别得到语义内容信息的特征矩阵直方图和说话人身份信息的特征矩阵直方图;
S13.将得到的语义内容信息的特征矩阵直方图和说话人身份信息的特征矩阵直方图输入直方图匹配HdaIN层中进行匹配,得到目标特征矩阵;
S14.基于生成框架将得到的目标特征矩阵转换为目标语谱图,其中,转换后的目标语谱图包括内容语谱图的语义内容信息和说话人语谱图的说话人身份信息;
S15.将转换得到的目标语谱图通过生成对抗网络转换为语音波形输出。
本实施例将源语音和目标语音的语谱图作为输入,采用超深度卷积神经网络——视觉几何小组(Visual Geometry Group 19,VGG-19)对其进行处理,从内容语谱图中提取语义内容信息,从说话人语谱图中提取说话人身份信息,并将其映射到特征空间。随后将内容特征矩阵的直方图与说话人信息特征矩阵的直方图在HdaIN层进行匹配得到目标特征矩阵,再通过生成框架将目标特征矩阵转换为目标语谱图,转换后的语谱图具有内容语谱图的语义内容和目标说话人语谱图的身份信息,并将生成的目标语谱图通过生成对抗网络(Generative Adversarial Network,GAN)转换为语音波形输出。
本实施例通过计算目标语谱图的特征分别与内容语谱图的特征、说话人语谱图的特征之间的欧氏距离得到内容损失Lc与说话人损失Ls,通过计算原始输出与直方图映射输出的欧氏距离得到直方图损失Lh。整个系统的损失函数是由内容损失Lc、说话人损失Ls以及直方图损失Lh构成,从而可以通过最小化损失找到最优匹配进行转换,达到生成高质量合成语谱图的目的。本发明的语音转换系统结构如图2所示。
语义内容信息具体为:
本实施例使用了19层VGG网络的16个卷积层和5个池化层的规范化版本提供的特征空间,通过缩放权重来对网络进行归一化,以使每个卷积滤波器在图像和位置上的平均激活次数等于1。
通常,网络中的每一层都定义了一个非线性滤波器组,其复杂度随网络中该层位置的升高而增加。因此,给定的内容输入语谱图通过对该图像的滤波器响应在卷积神经网络的每一层中进行编码,具有Nt个离散滤波器的层具有Nt个特征图,每个特征图的大小均为Mt,其中Mt是特征图的高度乘以宽度。因此,层t中的响应可以存储在矩阵
Figure BDA0002726017410000061
中,其中
Figure BDA0002726017410000062
是层t中位置j处第i个滤波器的激活。为了可视化在不同层上编码的图像信息,可以对白噪声图像执行梯度下降,以找到与原始图像的特征响应相匹配的另一幅图像。令C和O为原始源说话人语谱图和生成的语谱图,令Ct和Ot为它们在层t中的各自特征表示。然后,本实施例定义两个特征表示之间的误差损失为:
Figure BDA0002726017410000063
通过计算内容损失的导数确定层t中的激活,内容损失的导数为:
Figure BDA0002726017410000064
从中可以使用标准误差反向传播来计算相对于图像O的梯度。因此,我们可以更改初始随机图像O,直到它在卷积神经网络的特定层中生成与原始图像C相同的响应为止。
当对卷积神经网络进行内容识别训练时,它们会形成图像表示,从而使内容信息沿处理层次的升高越来越清晰。因此,网络中的高层根据对象及其在输入图像中的排列来捕获高级内容,但并不会很大程度地限制重建的精确像素值。相比之下,从较低层进行的重建只是简单地复制了原始图像的精确像素值。因此,我们将网络高层中的特征响应称为内容表示f(c)。
说话人身份信息具体为:
为了获得输入语谱图的说话人表示,本实施例使用了一个特征空间来捕获说话人身份信息。可以在VGG网络任何层的滤波器响应上构建此特征空间,它由不同滤波器响应之间的相关关系组成,其中对特征图的空间范围求期望。这些特征相关性由Gram矩阵
Figure BDA0002726017410000071
给出,其中
Figure BDA0002726017410000072
是第t层中矢量化特征图i和j之间的内积:
Figure BDA0002726017410000073
因为包括多层的特征相关性,所以可以获得输入图像平稳、多尺度的表示,该表示捕获了图像包含的说话人信息,但不捕获全局信息。因此可以通过构建与给定输入说话人语谱图的说话人表示相匹配的图像,来可视化这些在VGG网络不同层上构建的说话人特征空间所捕获的信息。这是通过使用白噪声图像的梯度下降来最小化原始图像的Gram矩阵与要生成的图像的Gram矩阵之间的均方距离来实现的。
令S和O为原始目标说话人语谱图和生成的语谱图,而St和Gt分别表示层t中的说话人信息。那么,t层的损失为:
Figure BDA0002726017410000074
总损失为:
Figure BDA0002726017410000075
其中,wt表示每一层对总损失的贡献的加权因子。关于层t中的激活,可以通过分析Et的导数来计算:
Figure BDA0002726017410000076
使用标准误差反向传播可以很容易地计算出El相对于图像O的梯度。
因此将可视化后的说话人信息称之为说话人表示f(s)。
生成对抗网络GAN模型具体为:
本实施例采用GAN模型将语谱图转化为原始语音波形。该模型中的生成器是一个完全卷积的前馈网络,由于语谱图位于较低的256倍时间分辨率,所以使用了一系列转置的卷积层来对输入序列进行上采样。每个上采样层是一个转置卷积,内核大小是步幅的两倍。256x上采样分4个阶段进行,分别是8x,8x,2x和2x上采样。每个转置的卷积层后面是一堆带有膨胀卷积的剩余块,每个剩余块都具有三层,其扩散层1、3和9的核大小为3,总接收场为27个时间步长。其结构如图3所示。
本实施例采用具有3个鉴别器(D1,D2,D3)的多尺度架构,这些鉴别器具有相同的网络结构,但在不同频率的音频运行。D1以原始音频的频率运行,而D2,D3以分别降频2倍和4倍的原始音频运行。下采样是使用具有内核大小为4的跨步平均池执行的。音频具有不同级别的结构,因此可以激发不同比例的多个鉴别器。每个单独的鉴别器都是基于马尔可夫窗口的鉴别器,由一系列大内核的跨步卷积层组成。其结构如图4所示。
语谱图转换方法具体为:
本实施例通过提取内容语谱图的语义内容和说话人语谱图的身份信息,对其特征图进行映射并用直方图匹配,从而合成高质量的转换后语谱图,最后用GAN模型将语谱图转化为原始语音波形,得到转换后的语音,即具有目标说话人的身份信息但不改变源说话人的内容。算法的具体过程如下。
在步骤S11中,将源语音和目标语音的语谱图分解为内容语谱图和说话人语谱图,并将内容语谱图和说话人语谱图分别输入超深度卷积神经网络中进行处理,分别得到内容语谱图的语义内容信息和说话人语谱图的说话人身份信息。
将源说话人的语谱图C和目标说话人的语谱图S分别作为内容语谱图和说话人语谱图输入VGG网络。VGG网络从源说话人的语谱图C中提取语义内容,同时从目标语音的语谱图S中提取说话人身份信息,分别得到内容语谱图的语义内容信息和说话人语谱图的说话人身份信息。
在步骤S12中,将得到的语义内容信息和说话人身份信息映射到特征空间,分别得到语义内容信息的特征矩阵直方图和说话人身份信息的特征矩阵直方图。
分别对语义内容信息和说话人身份信息进行编码,得到与语义内容信息和说话人身份信息对应的语义内容信息的特征矩阵f(c)和说话人身份信息的特征矩阵f(s)。
在步骤S13中,将得到的语义内容信息的特征矩阵直方图和说话人身份信息的特征矩阵直方图输入直方图匹配HdaIN层中进行匹配,得到目标特征矩阵。
将获得的特征矩阵f(c)和f(s)馈送到通过直方图匹配的HdaIN层,该层将内容特征矩阵的直方图与样式特征矩阵的直方图进行匹配,从而获得目标特征矩阵:
y=HadIN(f(c),f(s)) (7)
其中,y表示目标特征矩阵。
在步骤S14中,基于生成框架将得到的目标特征矩阵转换为目标语谱图,其中,转换后的目标语谱图包括内容语谱图的语义内容信息和说话人语谱图的说话人身份信息。
通过生成框架镜像处理目标特征矩阵,对随机的生成函数g进行训练,以将目标矩阵转为目标语谱图,即:
O=g(y) (8)
使用预训练的VGG-19网络计算出重建的内容损失与说话人损失,从而训练生成框架。关于内容损失函数Lc,我们使用生成的图像来处理其特征并计算HdaIN输出y,即:
Lc=||f(g(y)-y)|| (9)
我们通过匹配常规的实例统计信息来获得说话人信息损失函数Ls,即:
Figure BDA0002726017410000091
Figure BDA0002726017410000092
Ls=Ls1+Ls2 (12)
此处,t表示VGG-19中relu1_1,relu2_1,relu3_1,relu4_1层中的一层。
根据值从原始输出激活中找出
Figure BDA0002726017410000093
Figure BDA0002726017410000094
从而确定直方图间隔Delta,即:
Figure BDA0002726017410000095
首先将逐层输出特征图重新映射为具有梯度的特殊特征图。然后我们将它们与生成的图像进行匹配以获得直方图损失函数Lh,即:
Figure BDA0002726017410000101
其中,t表示VGG-19中relu1_1,relu4_1层中的一层。
在步骤S15中,将转换得到的目标语谱图通过生成对抗网络转换为语音波形输出。
得到高质量的目标语谱图后,通过GAN网络将语谱图转化为原始语音波形x,即:
x=G(g(y)) (16)
其中,x表示语音波形。
与现有技术相比,本实施例具有以下优点:
(1)通过HdaIN层的应用,可以将语谱图的内容信息与身份信息分开进行处理,并且可以实现无监督的语音转换,从而解决了需要大量并行数据的弊端,使语音转换的应用范围更加广泛与灵活。
(2)本实施例的方法基于语谱图进行语音转换,语音波形不参与直接转换,使得数据收集十分容易。
(3)通过GAN模型进行语谱图与语音之间的转换,可以得到质量更高的语音,并且用时更短。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于语谱图合成的语音转换方法,其特征在于,包括:
S1.将源语音和目标语音的语谱图分解为内容语谱图和说话人语谱图,并将内容语谱图和说话人语谱图分别输入超深度卷积神经网络中进行处理,分别得到内容语谱图的语义内容信息和说话人语谱图的说话人身份信息;
S2.将得到的语义内容信息和说话人身份信息映射到特征空间,分别得到语义内容信息的特征矩阵直方图和说话人身份信息的特征矩阵直方图;
S3.将得到的语义内容信息的特征矩阵直方图和说话人身份信息的特征矩阵直方图输入直方图匹配HdaIN层中进行匹配,得到目标特征矩阵;
S4.基于生成框架将得到的目标特征矩阵转换为目标语谱图,其中,转换后的目标语谱图包括内容语谱图的语义内容信息和说话人语谱图的说话人身份信息;
S5.将转换得到的目标语谱图通过生成对抗网络转换为语音波形输出。
2.根据权利要求1所述的一种基于语谱图合成的语音转换方法,其特征在于,所述步骤S1具体为:
将源语音的语谱图C和目标语音的语谱图S分别作为内容语谱图和说话人语谱图输入超深度卷积神经VGG网络中,超深度卷积神经VGG网络从源语音的语谱图C中提取语义内容信息,从目标语音的语谱图S中提取说话人身份信息,分别得到内容语谱图的语义内容信息和说话人语谱图的说话人身份信息。
3.根据权利要求2所述的一种基于语谱图合成的语音转换方法,其特征在于,所述步骤S2具体为:
分别对语义内容信息和说话人身份信息进行编码,得到与语义内容信息和说话人身份信息对应的语义内容信息的特征矩阵f(c)和说话人身份信息的特征矩阵f(s)。
4.根据权利要求3所述的一种基于语谱图合成的语音转换方法,其特征在于,所述步骤S3具体为:
将得到的语义内容信息的特征矩阵f(c)和说话人身份信息的特征矩阵f(s)馈送到通过直方图匹配的HdaIN层,HdaIN层将语义内容信息的特征矩阵f(c)和说话人身份信息的特征矩阵f(s)进行匹配,从而获得目标特征矩阵,表示为:
y=HadIN(f(c),f(s))
其中,y表示目标特征矩阵。
5.根据权利要求4所述的一种基于语谱图合成的语音转换方法,其特征在于,所述步骤S4具体为:
通过生成框架镜像处理得到的目标特征矩阵,对随机的生成函数g进行训练,将目标特征矩阵转为目标语谱图,表示为:
O=g(y)
其中,O表示生成的目标语谱图;g(y)表示目标特征矩的函数。
6.根据权利要求5所述的一种基于语谱图合成的语音转换方法,其特征在于,所述步骤S4中生成框架具体为:
使用预训练的超深度卷积神经VGG网络计算出重建的语义内容信息损失与说话人身份信息损失,并训练生成框架。
7.根据权利要求6所述的一种基于语谱图合成的语音转换方法,其特征在于,所述内容损失与说话人损失具体为:
使用生成的目标语谱图处理目标特征矩阵,并计算HdaIN层输出语义内容信息损失函数,表示为:
Lc=||f(g(y)-y)||
其中,LC表示语义内容信息损失函数;
通过匹配常规的实例统计信息获得说话人身份信息损失函数,表示为:
Figure FDA0002726017400000021
Figure FDA0002726017400000022
Ls=Ls1+Ls2
其中,Ls表示说话人身份信息损失函数;t表示超深度卷积神经VGG网络中relu1_1,relu2_1,relu3_1,relu4_1层中的一层;μ表示目标说话人语谱图的均值;σ表示目标说话人语谱图的方差。
8.根据权利要求7所述的一种基于语谱图合成的语音转换方法,其特征在于,所述步骤S4还包括:
将逐层输出目标特征矩阵重新映射为具有梯度的特殊特征图,将特殊特征图与生成的目标语谱图进行匹配得到直方图损失函数,表示为:
Figure FDA0002726017400000031
Figure FDA0002726017400000032
其中,Lh表示直方图损失函数;t表示超深度卷积神经VGG网络中relu1_1,relu4_1层中的一层;H(Oij)表示通过直方图映射后的特征图;Oij表示原始输出的特征图;
Figure FDA0002726017400000033
表示原始输出特征图的最大值;
Figure FDA0002726017400000034
表示原始输出特征图的最小值;Delta表示直方图间隔参数。
9.根据权利要求8所述的一种基于语谱图合成的语音转换方法,其特征在于,所述步骤S4中还包括:
计算目标语谱图的总损失函数,表示为:
L=Lc+Ls+Lh
其中,L表示总损失函数。
10.根据权利要求9所述的一种基于语谱图合成的语音转换方法,其特征在于,所述步骤S5中将转换得到的目标语谱图通过生成对抗网络转换为语音波形输出,表示为:
x=G(g(y))
其中,x表示语音波形。
CN202011102941.8A 2020-10-15 2020-10-15 一种基于语谱图合成的语音转换方法 Pending CN112259086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011102941.8A CN112259086A (zh) 2020-10-15 2020-10-15 一种基于语谱图合成的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011102941.8A CN112259086A (zh) 2020-10-15 2020-10-15 一种基于语谱图合成的语音转换方法

Publications (1)

Publication Number Publication Date
CN112259086A true CN112259086A (zh) 2021-01-22

Family

ID=74242238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011102941.8A Pending CN112259086A (zh) 2020-10-15 2020-10-15 一种基于语谱图合成的语音转换方法

Country Status (1)

Country Link
CN (1) CN112259086A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066475A (zh) * 2021-06-03 2021-07-02 成都启英泰伦科技有限公司 一种基于生成式对抗网络的语音合成方法
CN113421574A (zh) * 2021-06-18 2021-09-21 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取模型的训练方法、音频识别方法及相关设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564543A (zh) * 2017-09-13 2018-01-09 苏州大学 一种高情感区分度的语音特征提取方法
CN107680601A (zh) * 2017-10-18 2018-02-09 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
CN108831485A (zh) * 2018-06-11 2018-11-16 东北师范大学 基于语谱图统计特征的说话人识别方法
CN110299148A (zh) * 2019-06-27 2019-10-01 平安科技(深圳)有限公司 基于Tensorflow的语音融合方法、电子装置及存储介质
US20190318757A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US20190355347A1 (en) * 2018-05-18 2019-11-21 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111429893A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于Transitive STARGAN的多对多说话人转换方法
CN111462768A (zh) * 2020-03-12 2020-07-28 南京邮电大学 基于共享训练的多尺度StarGAN的语音转换方法
CN111599368A (zh) * 2020-05-18 2020-08-28 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564543A (zh) * 2017-09-13 2018-01-09 苏州大学 一种高情感区分度的语音特征提取方法
CN107680601A (zh) * 2017-10-18 2018-02-09 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
US20190318757A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US20190355347A1 (en) * 2018-05-18 2019-11-21 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
CN108831485A (zh) * 2018-06-11 2018-11-16 东北师范大学 基于语谱图统计特征的说话人识别方法
CN110299148A (zh) * 2019-06-27 2019-10-01 平安科技(深圳)有限公司 基于Tensorflow的语音融合方法、电子装置及存储介质
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法
CN111429893A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于Transitive STARGAN的多对多说话人转换方法
CN111462768A (zh) * 2020-03-12 2020-07-28 南京邮电大学 基于共享训练的多尺度StarGAN的语音转换方法
CN111599368A (zh) * 2020-05-18 2020-08-28 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HUZAIFAH BIN MD SHAHRIN等: "Applying visual domain style transfer and texture synthesis techniques to audio: insights and challenges", 《ARXIV》 *
MANMANPENG等: "Enhanced Style Transfer in Real-time with Histogram-matched Instance", 《2019 IEEE 21ST INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS; IEEE 17TH INTERNATIONAL CONFERENCE ON SMART CITY; IEEE 5TH INTERNATIONAL CONFERENCE ON DATA SCIENCE AND SYSTEMS (HPCC/SMARTCITY/DSS)》 *
XUN HUANG等: "Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization", 《ARXIV》 *
YANG GAO等: "Voice Impersonation using Generative Adversarial Networks", 《ARXIV》 *
任强: "基于生成对抗网络的语音风格转移技术的研究及应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066475A (zh) * 2021-06-03 2021-07-02 成都启英泰伦科技有限公司 一种基于生成式对抗网络的语音合成方法
CN113066475B (zh) * 2021-06-03 2021-08-06 成都启英泰伦科技有限公司 一种基于生成式对抗网络的语音合成方法
CN113421574A (zh) * 2021-06-18 2021-09-21 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取模型的训练方法、音频识别方法及相关设备

Similar Documents

Publication Publication Date Title
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
Matthews et al. Extraction of visual features for lipreading
Gurbuz et al. Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition
JP2003526142A (ja) 一般ガウス混合モデルを使用するマルチソース・データの非監視適応および分類
CN110428364B (zh) 帕金森声纹语谱图样本扩充方法、装置及计算机存储介质
Avci An expert system for speaker identification using adaptive wavelet sure entropy
CN108962229A (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN114663685B (zh) 一种行人重识别模型训练的方法、装置和设备
CN112259086A (zh) 一种基于语谱图合成的语音转换方法
Behnke Discovering hierarchical speech features using convolutional non-negative matrix factorization
Zöhrer et al. Representation learning for single-channel source separation and bandwidth extension
CN110163156A (zh) 一种基于卷积自编码模型的唇部特征提取方法
CN112331232A (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
Le Cornu et al. Voicing classification of visual speech using convolutional neural networks
Li et al. Deeplabv3+ vision transformer for visual bird sound denoising
CN115691539A (zh) 基于视觉导引的两阶段语音分离方法及系统
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置
Sunny et al. Discrete wavelet transforms and artificial neural networks for recognition of isolated spoken words
Morade et al. Lip reading by using 3-D discrete wavelet transform with dmey wavelet
CN111402901B (zh) 一种基于彩色图像rgb映射特征的cnn声纹识别方法及系统
CN114999633A (zh) 一种基于多模态共享矢量空间的抑郁识别方法及系统
Shen Application of transfer learning algorithm and real time speech detection in music education platform
Kaur et al. Maximum likelihood based estimation with quasi oppositional chemical reaction optimization algorithm for speech signal enhancement
Srinivasan et al. Multi-view representation based speech assisted system for people with neurological disorders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210122