CN114842859A - 一种基于in和mi的语音转换方法、系统、终端及存储介质 - Google Patents

一种基于in和mi的语音转换方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN114842859A
CN114842859A CN202210515056.5A CN202210515056A CN114842859A CN 114842859 A CN114842859 A CN 114842859A CN 202210515056 A CN202210515056 A CN 202210515056A CN 114842859 A CN114842859 A CN 114842859A
Authority
CN
China
Prior art keywords
speaker
information embedding
voice
source
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210515056.5A
Other languages
English (en)
Inventor
张旭龙
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210515056.5A priority Critical patent/CN114842859A/zh
Publication of CN114842859A publication Critical patent/CN114842859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于I N和M I的语音转换方法、系统、终端及存储介质。所述方法包括:获取源语音数据的梅尔频谱;将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用I N算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,并利用M I算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度;基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。本发明能够进一步加强语音特征和说话人特征的特征解耦功能,实现更好的语音转换效果,能够更好的胜任动画短视频配音等个性化语音合成任务,扩展了语音转换模型的应用场景。

Description

一种基于IN和MI的语音转换方法、系统、终端及存储介质
技术领域
本发明涉及智能语音技术领域,特别是涉及一种基于IN和MI的语音转换方法、系统、终端及存储介质。
背景技术
语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息,同时保持语音内容不变,在医疗服务、保密通信及生活娱乐的方面有着非常重要的应用。在现实生活中,语音转换可以在很多领域发挥出很强的应用价值,例如语音导航,根据驾驶员个人喜好将导航语音转换为其喜爱的明星声音,实现符合用户喜欢的个性化语音生成。目前,语音转换领域较为流行的方法包括基于IN(instance normalization,实例化归一)算法或GAN,现有方法的语音转换效果都有待进一步提升。
随着自制短视频的发展,目前,很多自媒体人具有较强的视频创作灵感,可以创作出很多趣味性较强的动画短视频,然而由于资金短缺、人手不足等原因,自媒体人很难雇请专业的配音演员为自制的动画短视频配音,只能采用无声动画或者机器合成音等为动画短视频配音,无法产生多样的个性化定制语音,使得视频的最终效果打了很大的折扣,大大影响了短视频领域的发展。
发明内容
本发明提供了一种基于IN和MI的语音转换方法、系统、终端及存储介质,旨在解决现有语音转换方法的语音转换效果有待提升以及动画短视频配音无法产生多样的个性化定制语音等技术问题。
为解决上述技术问题,本发明采用的技术方案为:
一种基于IN和MI的语音转换方法,包括:
获取源语音数据的梅尔频谱;
将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,并利用MI算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度;
基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。
本发明实施例采取的技术方案还包括:所述获取源语音数据的梅尔频谱包括:
采用短时傅里叶变换算法对所述源语音数据进行转换,获取源语音数据的梅尔频谱。
本发明实施例采取的技术方案还包括:所述采用短时傅里叶变换算法对所述源语音数据进行转换,获取源语音数据的梅尔频谱包括:
确定源语音数据X、窗函数类型、窗长WinLen、重叠点数OverLap、采样频率及傅里叶点数;
计算窗滑动次数以及信号长度nx,并根据信号长度nx、窗长WinLen以及窗口之间的重叠点数OverLap计算出需要窗口滑动的次数n;
确定每一列的值,得到一个列数为n、行数为WinLen的矩阵;
将转换为列向量的窗函数扩展为n列的矩阵w,对矩阵w进行点乘,并对点乘结果进行快速傅里叶变换,得到时频矩阵;
根据所述时频矩阵进行梅尔频率转换,并输出梅尔频谱;其中,所述梅尔频率转换公式为:B(f)=1125ln(1+f/700)其中f为频率,B为梅尔频率。
本发明实施例采取的技术方案还包括:所述基于IN和MI的语音转换模型包括第一encoder、IN模块、第二encoder、decoder和分类器;所述第一encoder用于从源语音数据的梅尔频谱中提取出包含且仅包含内容信息的内容向量;所述IN模块用于从梅尔频谱中过滤掉音色信息,得到与说话人无关的内容向量;所述第二encoder用于提取与说话人有关的说话人信息嵌入;所述decoder用于根据内容向量和说话人信息嵌入学习生成目标说话人的梅尔频谱;在所述分类器和第一encoder之间还包括梯度反转层,所述梯度反转层用于在反向传播到该层时使得梯度转为负值,从而使得所述第一encoder和分类器的优化目标完全相反。
本发明实施例采取的技术方案还包括:所述基于IN和MI的语音转换模型的训练过程包括:
在模型训练阶段,以所述源语音数据的梅尔频谱x为输入,通过所述IN模块获得源语音数据对应的文本信息嵌入(c),通过第二encoder得到与说话人有关的说话人信息嵌入(s);将所述文本信息嵌入(c)和说话人信息嵌入(s)投入到decoder中,获得重构语音x1,实现语音重构任务,所述语音重构任务损失为Lrecon=‖x―x11;同时,计算MI(c,s)并使其更小,MI(c,s)代表文本信息嵌入(c)和说话人信息嵌入(s)的互信息。
本发明实施例采取的技术方案还包括:所述MI(c,s)的计算公式为:
Figure BDA0003641128860000041
其中,p(c)和p(s)分别表示边缘概率,p(c,s)表示联合概率分布。
本发明实施例采取的技术方案还包括:所述基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据包括:
基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的梅尔频谱;
利用声码器对所述对应目标说话人音色的梅尔频谱进行转换,输出转换后的音频文件。
本发明实施例采取的另一技术方案为:一种基于IN和MI的语音转换系统,包括:
梅尔谱提取模块:用于获取源语音数据的梅尔频谱;
语音转换模块:用于将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,利用MI算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度,并基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。
本发明实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现上述的基于IN和MI的语音转换方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以执行所述端到端基于IN和MI的语音转换操作。
本发明实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行上述的基于IN和MI的语音转换方法。
本发明实施例的基于IN和MI的语音转换方法、系统、终端及存储介质利用IN算法和MI算法相结合对语音转换模型进行改进,从而利用IN算法和MI算法相结合对语音转换模型进行改进,通过IN算法获得源语音数据对应的文本信息嵌入(c),通过encoder得到与说话人有关的说话人信息嵌入(s),并利用MI算法衡量文本信息嵌入和说话人信息嵌入的相关程度,从而通过约束互信息MI(c,s)使得模型训练目标更为合理,同时能够进一步加强语音特征和说话人特征的特征解耦功能,实现更好的语音转换效果,能够更好的胜任动画短视频配音等个性化语音合成任务,扩展了语音转换模型的应用场景。
附图说明
图1是本发明第一实施例的基于IN和MI的语音转换方法的流程示意图;
图2是本发明第二实施例的基于IN和MI的语音转换方法的流程示意图;
图3为本申请实施例的基于IN和MI的语音转换模型结构示意图;
图4是本发明实施例的基于IN和MI的语音转换系统的系统示意图;
图5是本发明实施例的终端系统示意图;
图6是本发明实施例的存储介质系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、系统或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参阅图1,是本发明第一实施例的基于IN和MI的语音转换方法的流程示意图。本发明第一实施例的基于IN和MI的语音转换方法包括以下步骤:
S100:获取源语音数据的梅尔频谱;
S101:将源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,并利用MI算法衡量文本信息嵌入和说话人信息嵌入的相关程度;
S102:基于文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。
请参阅图2,是本发明第二实施例的基于IN和MI的语音转换方法的流程示意图。本发明第二实施例的基于IN和MI的语音转换方法包括以下步骤:
S200:获取待转换的源语音数据;
S201:采用STFT(short-time Fourier transform,短时傅里叶变换)算法对源语音数据进行转换,获取源语音数据的梅尔频谱;
本步骤中,音频数据由几个单频声波组成,即在一段时间内对信号进行采样时,仅能捕获得到的幅度。利用STFT算法为源语音数据加窗,然后分段做FFT(fast Fouriertransform,快速傅立叶变换),利用FFT算法计算加窗后的音频数据的幅度谱,并通过一定维数的梅尔滤波器组对幅度谱进行转换,得到的结果即为源语音数据的梅尔频谱x,梅尔频谱x为频率转换为梅尔标度的谱图。其中,FFT是一种DFT(Discrete Fourier Transform,离散傅里叶变换)的高效算法,幅值谱表征信号的幅值随频率的分布情况,利用FFT算法将音频数据变换到频域上之后,对语音数据进行取模操作即可获取幅度谱。
具体的,采用STFT获取梅尔频谱的过程具体包括:
第一步:确定源语音数据X、窗函数类型、窗长WinLen、重叠点数OverLap、采样频率、傅里叶点数等相关参数;
第二步:计算窗滑动次数以及信号长度nx,并根据信号长度nx、窗长WinLen以及窗口之间的重叠点数OverLap计算出需要窗口滑动的次数n;
第三步:确定每一列的值,得到一个列数为n、行数为WinLen的矩阵;
第四步:将转换为列向量的窗函数扩展为n列的矩阵w,对矩阵w进行点乘,并对点乘结果进行快速傅里叶变换,得到时频矩阵;其中,在傅里叶变化过程中,当信号长度小于傅里叶点数时,算法会自动进行补零,然后再进行快速傅里叶变换;
第五步:根据时频矩阵进行梅尔频率转换,并输出梅尔频谱;其中,梅尔频率转换公式为:B(f)=1125ln(1+f/700)其中f为频率,B为Mel频率。
S202:将源语音数据的梅尔频谱输入预训练好的语音转换模型,语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,并利用encoder(编码器)获取与说话人有关的说话人信息嵌入,并利用MI算法衡量文本信息嵌入和说话人信息嵌入的相关程度;
本步骤中,语音转换模型为基于IN(instance normalization,实例化归一技术)和MI(互信息,Mutual Information)的语音转换模型,I N算法是一种数据归一化技术,该算法应用于风格迁移任务中时,可以剔除与说话人相关的静态信息。MI算法用于衡量两种分布的相关程度,MI(X,Y)越小,表明分布X和分布Y的独立性越强,X和Y相互独立时,MI(X,Y)达到最小值0。
具体如图3所示,为本申请实施例的基于IN和MI的语音转换模型结构示意图。本申请实施例的基于IN和MI的语音转换模型包括第一encoder(编码器)、IN模块、第二encoder、decoder(解码器)和分类器;其中,第一encoder用于从源语音数据的梅尔频谱中提取出包含且仅包含内容信息的content embedding(内容向量);IN模块用于过滤掉源语音数据中的音色信息,得到尽可能与说话人无关的latent code(隐藏函数),latent code即contentembedding;第二encoder用于提取与说话人有关的speaker embedding(说话人信息嵌入),以对latent code中缺少的音色信息进行补充;decoder用于根据content embedding和说话人信息嵌入学习生成目标说话人的梅尔频谱X’。在分类器和第一encoder之间还包括一层GRL层(梯度反转层),GRL层可以使得反向传播到该层时梯度转为负值,从而使得第一encoder和分类器的优化目标完全相反,即分类器希望能从content embedding中准确分类出说话人身份,而第一encoder希望生成与说话人无关的content embedding从而骗过分类器。
本申请实施例中,基于IN和MI的语音转换模型训练过程包括:模型输入为源语音数据的梅尔频谱x,通过IN模块获得源语音数据对应的文本信息嵌入(c),通过第二encoder得到与说话人有关的说话人信息嵌入(s),然后将文本信息嵌入(c)和说话人信息嵌入(s)投入到decoder中,获得重构语音x1,从而在训练阶段实现一个语音重构任务,语音重构任务损失为Lrecon=‖x―x11。同时,计算MI(c,s)并使其更小,MI(c,s)代表文本信息嵌入(c)和说话人信息嵌入(s)的互信息,用于衡量文本信息嵌入(c)和说话人信息嵌入(s)之间的关联程度,MI(c,s)越小,表示文本信息嵌入(c)和说话人信息嵌入(s)越独立,即文本信息嵌入(c)和说话人信息嵌入(s)的相关性越低。MI(c,s)的计算公式为:
Figure BDA0003641128860000101
其中,p(c)和p(s)分别表示边缘概率,p(c,s)是联合概率分布。
S203:基于文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的梅尔频谱;
S204:利用声码器对对应目标说话人音色的梅尔频谱进行转换,输出转换后的音频文件。
基于上述,本发明实施例的基于IN和MI的语音转换方法利用IN算法和MI算法相结合对语音转换模型进行改进,通过IN算法获得源语音数据对应的文本信息嵌入(c),通过encoder得到与说话人有关的说话人信息嵌入(s),并利用MI算法衡量文本信息嵌入和说话人信息嵌入的相关程度,从而通过约束互信息MI(c,s)使得模型训练目标更为合理,同时能够进一步加强语音特征和说话人特征的特征解耦功能,实现更好的语音转换效果,能够更好的胜任动画短视频配音等个性化语音合成任务,扩展了语音转换模型的应用场景。
在一个可选的实施方式中,还可以:将所述的基于IN和MI的语音转换方法的结果上传至区块链中。
具体地,基于所述的基于IN和MI的语音转换方法的结果得到对应的摘要信息,具体来说,摘要信息由所述的基于IN和MI的语音转换方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述的基于IN和MI的语音转换方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图4,是本发明实施例端到端基于IN和MI的语音转换系统的系统示意图。本发明实施例端到端基于IN和MI的语音转换系统40包括:
源数据获取模块41:用于获取待转换的源语音数据;
梅尔谱提取模块42:用于采用STFT(short-time Fourier transform,短时傅里叶变换)算法对源语音数据进行转换,获取源语音数据的梅尔频谱;其中,音频数据由几个单频声波组成,即在一段时间内对信号进行采样时,仅能捕获得到的幅度。利用STFT算法为源语音数据加窗,然后分段做FFT(fast Fourier transform,快速傅立叶变换),利用FFT算法计算加窗后的音频数据的幅度谱,并通过一定维数的梅尔滤波器组对幅度谱进行转换,得到的结果即为源语音数据的梅尔频谱x,梅尔频谱x为频率转换为梅尔标度的谱图。其中,FFT是一种DFT(Discrete Fourier Transform,离散傅里叶变换)的高效算法,幅值谱表征信号的幅值随频率的分布情况,利用FFT算法将音频数据变换到频域上之后,对语音数据进行取模操作即可获取幅度谱。
具体的,采用STFT获取梅尔频谱的过程具体包括:
第一步:确定源语音数据X、窗函数类型、窗长WinLen、重叠点数OverLap、采样频率、傅里叶点数等相关参数;
第二步:计算窗滑动次数以及信号长度nx,并根据信号长度nx、窗长WinLen以及窗口之间的重叠点数OverLap计算出需要窗口滑动的次数n;
第三步:确定每一列的值,得到一个列数为n、行数为WinLen的矩阵;
第四步:将转换为列向量的窗函数扩展为n列的矩阵w,对矩阵w进行点乘,并对点乘结果进行快速傅里叶变换,得到时频矩阵;其中,在傅里叶变化过程中,当信号长度小于傅里叶点数时,算法会自动进行补零,然后再进行快速傅里叶变换;
第五步:根据时频矩阵进行梅尔频率转换,并输出梅尔频谱;其中,梅尔频率转换公式为:B(f)=1125ln(1+f/700)其中f为频率,B为Mel频率。
语音转换模块43:用于将源语音数据的梅尔频谱输入预训练好的语音转换模型,语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,并利用encoder(编码器)获取与说话人有关的说话人信息嵌入,并利用MI算法衡量文本信息嵌入和说话人信息嵌入的相关程度;其中,语音转换模型为基于IN(instance normalization,实例化归一技术)和MI(互信息,Mutual Information)的语音转换模型,IN算法是一种数据归一化技术,该算法应用于风格迁移任务中时,可以剔除与说话人相关的静态信息。MI算法用于衡量两种分布的相关程度,MI(X,Y)越小,表明分布X和分布Y的独立性越强,X和Y相互独立时,MI(X,Y)达到最小值0。
具体如图3所示,为本申请实施例的基于IN和MI的语音转换模型结构示意图。本申请实施例的基于IN和MI的语音转换模型包括第一encoder(编码器)、IN模块、第二encoder、decoder(解码器)和分类器;其中,第一encoder用于从源语音数据的梅尔频谱中提取出包含且仅包含内容信息的content embedding(内容向量);IN模块用于过滤掉源语音数据中的音色信息,得到尽可能与说话人无关的latent code(隐藏函数),latent code即contentembedding;第二encoder用于提取与说话人有关的speaker embedding(说话人信息嵌入),以对latent code中缺少的音色信息进行补充;decoder用于根据content embedding和说话人信息嵌入学习生成目标说话人的梅尔频谱X’。在分类器和第一encoder之间还包括一层GRL层(梯度反转层),GRL层可以使得反向传播到该层时梯度转为负值,从而使得第一encoder和分类器的优化目标完全相反,即分类器希望能从content embedding中准确分类出说话人身份,而第一encoder希望生成与说话人无关的content embedding从而骗过分类器。
本申请实施例中,基于IN和MI的语音转换模型训练过程包括:模型输入为源语音数据的梅尔频谱x,通过IN模块获得源语音数据对应的文本信息嵌入(c),通过第二encoder得到与说话人有关的说话人信息嵌入(s),然后将文本信息嵌入(c)和说话人信息嵌入(s)投入到decoder中,获得重构语音x1,从而在训练阶段实现一个语音重构任务,语音重构任务损失为Lrecon=‖x―x11。同时,计算MI(c,s)并使其更小,MI(c,s)代表文本信息嵌入(c)和说话人信息嵌入(s)的互信息,用于衡量文本信息嵌入(c)和说话人信息嵌入(s)之间的关联程度,MI(c,s)越小,表示文本信息嵌入(c)和说话人信息嵌入(s)越独立,即文本信息嵌入(c)和说话人信息嵌入(s)的相关性越低。MI(c,s)的计算公式为:
Figure BDA0003641128860000131
其中,p(c)和p(s)分别表示边缘概率,p(c,s)是联合概率分布。
梅尔谱转换模块44:用于利用声码器对对应目标说话人音色的梅尔频谱进行转换,输出转换后的音频文件。
基于上述,本发明第二实施例的基于IN和MI的语音转换系统利用IN算法和MI算法相结合对语音转换模型进行改进,通过IN算法获得源语音数据对应的文本信息嵌入(c),通过encoder得到与说话人有关的说话人信息嵌入(s),并利用MI算法衡量文本信息嵌入和说话人信息嵌入的相关程度,从而通过约束互信息MI(c,s)使得模型训练目标更为合理,同时能够进一步加强语音特征和说话人特征的特征解耦功能,实现更好的语音转换效果,能够更好的胜任动画短视频配音等个性化语音合成任务,扩展了语音转换模型的应用场景。
请参阅图5,为本发明实施例的终端系统示意图。该终端50包括处理器51、与处理器51耦接的存储器52。
存储器52存储有用于实现上述基于IN和MI的语音转换方法的程序指令。
处理器51用于执行存储器52存储的程序指令以执行端到端基于IN和MI的语音转换操作。
其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参阅图5,图5为本发明实施例的存储介质的系统示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效系统或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于IN和MI的语音转换方法,其特征在于,包括:
获取源语音数据的梅尔频谱;
将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,并利用MI算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度;
基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。
2.根据权利要求1所述的基于IN和MI的语音转换方法,其特征在于,所述获取源语音数据的梅尔频谱包括:
采用短时傅里叶变换算法对所述源语音数据进行转换,获取源语音数据的梅尔频谱。
3.根据权利要求2所述的基于IN和MI的语音转换方法,其特征在于,所述采用短时傅里叶变换算法对所述源语音数据进行转换,获取源语音数据的梅尔频谱包括:
确定源语音数据X、窗函数类型、窗长WinLen、重叠点数OverLap、采样频率及傅里叶点数;
计算窗滑动次数以及信号长度nx,并根据信号长度nx、窗长WinLen以及窗口之间的重叠点数OverLap计算出需要窗口滑动的次数n;
确定每一列的值,得到一个列数为n、行数为WinLen的矩阵;
将转换为列向量的窗函数扩展为n列的矩阵w,对矩阵w进行点乘,并对点乘结果进行快速傅里叶变换,得到时频矩阵;
根据所述时频矩阵进行梅尔频率转换,并输出梅尔频谱;其中,所述梅尔频率转换公式为:B(f)=1125ln(1+f/700)其中f为频率,B为梅尔频率。
4.根据权利要求1所述的基于IN和MI的语音转换方法,其特征在于,所述基于IN和MI的语音转换模型包括第一encoder、IN模块、第二encoder、decoder和分类器;所述第一encoder用于从源语音数据的梅尔频谱中提取出包含且仅包含内容信息的内容向量;所述IN模块用于从梅尔频谱中过滤掉音色信息,得到与说话人无关的内容向量;所述第二encoder用于提取与说话人有关的说话人信息嵌入;所述decoder用于根据内容向量和说话人信息嵌入学习生成目标说话人的梅尔频谱;在所述分类器和第一encoder之间还包括梯度反转层,所述梯度反转层用于在反向传播到该层时使得梯度转为负值,从而使得所述第一encoder和分类器的优化目标完全相反。
5.根据权利要求4所述的基于IN和MI的语音转换方法,其特征在于,所述基于IN和MI的语音转换模型的训练过程包括:
在模型训练阶段,以所述源语音数据的梅尔频谱x为输入,通过所述IN模块获得源语音数据对应的文本信息嵌入(c),通过第二encoder得到与说话人有关的说话人信息嵌入(s);将所述文本信息嵌入(c)和说话人信息嵌入(s)投入到decoder中,获得重构语音x1,实现语音重构任务,所述语音重构任务损失为Lrecon=‖x―x11;同时,计算MI(c,s)并使其更小,MI(c,s)代表文本信息嵌入(c)和说话人信息嵌入(s)的互信息。
6.根据权利要求5所述的基于IN和MI的语音转换方法,其特征在于,所述MI(c,s)的计算公式为:
Figure FDA0003641128850000031
其中,p(c)和p(s)分别表示边缘概率,p(c,s)表示联合概率分布。
7.根据权利要求1至6所述的基于IN和MI的语音转换方法,其特征在于,所述基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据包括:
基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的梅尔频谱;
利用声码器对所述对应目标说话人音色的梅尔频谱进行转换,输出转换后的音频文件。
8.一种基于IN和MI的语音转换系统,其特征在于,包括:
梅尔谱提取模块:用于获取源语音数据的梅尔频谱;
语音转换模块:用于将所述源语音数据的梅尔频谱输入预训练好的基于IN和MI的语音转换模型,所述语音转换模型利用IN算法获取源语音数据对应的文本信息嵌入,利用编码器获取与说话人有关的说话人信息嵌入,利用MI算法衡量所述文本信息嵌入和说话人信息嵌入的相关程度,并基于所述文本信息嵌入和说话人信息嵌入,通过decoder生成对应目标说话人音色的语音数据。
9.一种终端,其特征在于,所述终端包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现权利要求1至7任一项所述的基于IN和MI的语音转换方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以执行所述基于IN和MI的语音转换方法。
10.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至7任一项所述的基于IN和MI的语音转换方法。
CN202210515056.5A 2022-05-12 2022-05-12 一种基于in和mi的语音转换方法、系统、终端及存储介质 Pending CN114842859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210515056.5A CN114842859A (zh) 2022-05-12 2022-05-12 一种基于in和mi的语音转换方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210515056.5A CN114842859A (zh) 2022-05-12 2022-05-12 一种基于in和mi的语音转换方法、系统、终端及存储介质

Publications (1)

Publication Number Publication Date
CN114842859A true CN114842859A (zh) 2022-08-02

Family

ID=82571058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210515056.5A Pending CN114842859A (zh) 2022-05-12 2022-05-12 一种基于in和mi的语音转换方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114842859A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476027A (zh) * 2023-12-28 2024-01-30 南京硅基智能科技有限公司 语音转换方法及装置、存储介质、电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476027A (zh) * 2023-12-28 2024-01-30 南京硅基智能科技有限公司 语音转换方法及装置、存储介质、电子装置
CN117476027B (zh) * 2023-12-28 2024-04-23 南京硅基智能科技有限公司 语音转换方法及装置、存储介质、电子装置

Similar Documents

Publication Publication Date Title
CN106898340B (zh) 一种歌曲的合成方法及终端
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN111667814B (zh) 一种多语种的语音合成方法及装置
CN111583900B (zh) 歌曲合成方法、装置、可读介质及电子设备
CN109785820B (zh) 一种处理方法、装置及设备
Borrelli et al. Synthetic speech detection through short-term and long-term prediction traces
CN111402842B (zh) 用于生成音频的方法、装置、设备和介质
CN112634920B (zh) 基于域分离的语音转换模型的训练方法及装置
CN111445892B (zh) 歌曲生成方法、装置、可读介质及电子设备
CN111798821B (zh) 声音转换方法、装置、可读存储介质及电子设备
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
EP3818526A1 (en) Hybrid audio synthesis using neural networks
CN112153460B (zh) 一种视频的配乐方法、装置、电子设备和存储介质
CN110379411B (zh) 针对目标说话人的语音合成方法和装置
CN111128116B (zh) 一种语音处理方法、装置、计算设备及存储介质
CN112927674B (zh) 语音风格的迁移方法、装置、可读介质和电子设备
CN112735371A (zh) 一种基于文本信息生成说话人视频的方法及装置
CN113470684A (zh) 音频降噪方法、装置、设备及存储介质
CN113724683A (zh) 音频生成方法、计算机设备及计算机可读存储介质
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
CN114842859A (zh) 一种基于in和mi的语音转换方法、系统、终端及存储介质
CN112580669B (zh) 一种对语音信息的训练方法及装置
CN113923390A (zh) 视频录制方法、装置、设备及存储介质
CN114363531B (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
CN113421554B (zh) 语音关键词检测模型处理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination