CN117995206A - 一种语音转换方法及系统 - Google Patents
一种语音转换方法及系统 Download PDFInfo
- Publication number
- CN117995206A CN117995206A CN202410140646.3A CN202410140646A CN117995206A CN 117995206 A CN117995206 A CN 117995206A CN 202410140646 A CN202410140646 A CN 202410140646A CN 117995206 A CN117995206 A CN 117995206A
- Authority
- CN
- China
- Prior art keywords
- voice
- target
- data set
- effective
- tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001228 spectrum Methods 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音转换方法及系统,涉及语音转换技术领域,包括采集语音数据集,识别预处理后数据集中的表征音色特征,作为目标音色;基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器;当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征;将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。本发明通过引入多模态技术和改进的模型训练方法,能够更好地适应不同的语音样本和说话者,拓宽了语音转换的适用范围。
Description
技术领域
本发明涉及语音转换技术领域,特别是一种语音转换方法及系统。
背景技术
VC(Voice Conversion,语音转换)旨在将已有音色转换为目标音色,是音色克隆的一部分,让语音能够与目标音色更加相似,更加拟真。近年来,随着声学模型和声码器技术的飞速发展,VC在语音助手,有声读物、口语对话系统和数字人等许多领域都发挥着重要作用。
在拥有大量高质量语音条件下,VC可以将其他音色语音转换为目标音色,几乎可以以假乱真,目前,VC受限于训练集,对已训练的说话者的音色进行克隆,但是,大量单个说话者的高质量语音较难获取,导致训练的难度大大增加。传统的语音转换方法在实现语音合成时常常面临困难,特别是在保留原始语音信号的情况下改变其音色。本发明提供了一种多模态语音转换系统及方法,通过采用先进的数据集采集和预处理方法,结合目标文本信息和特定音色的识别技术,实现了高效且高质量的语音转换。
发明内容
鉴于上述存在的问题,提出了本发明。
因此,本发明所要解决的问题在于:传统的语音转换方法在实现语音合成时常常面临困难,特别是在保留原始语音信号的情况下改变其音色。
为解决上述技术问题,本发明提供如下技术方案:一种语音转换方法,其包括,采集语音数据集,对数据集进行预处理,识别预处理后数据集中的表征音色特征,作为目标音色;基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器;当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件中的语种类型,并对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征;将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。
作为本发明所述一种语音转换方法的一种优选方案,其中:所述语音数据集的采集条件包括,语音数据集中只能出现单个说话人语音;语音数据集中除目标人说话声音外不允许出现其他背景声音;语速与情绪音调需满足预设条件;语音数据集中需包含所需不同语种的音频;语音数据集的音频有效时长至少大于20min。
作为本发明所述一种语音转换方法的一种优选方案,其中:将采集到语音数据集载入评分模型中进行评分,评分模型表示为,
其中,Mfinal表示为最终生成音频质量,Mtrue表示为真实音频的质量,Maudio表示为录制数据集的质量,Pn表示为数据集内所有有效音频的音素数量,T表示为数据集所有有效音频的时长,S表示为正常说话语速;基于评分模型对语音数据集进行评分,当Mfinal满足预设阈值时则正常输出语音数据集,若不满足则将语音数据集打回,重新采集语音并评分,直至Mfinal满足预设阈值结束流程。
作为本发明所述一种语音转换方法的一种优选方案,其中:所述预处理包括,使用频谱分析技术识别目标语音信号和背景噪音在频域上的差异,基于差异进行模型训练学习目标语音和噪音的特征,对有效的人声进行分离;在人声分离后,比较语音信号和估计的噪音谱,将估计的噪音从语音信号中减去,再将语音信号分解成不同频率的子带,通过对每个子带进行阈值处理来减少噪音。
作为本发明所述一种语音转换方法的一种优选方案,其中:所述基于目标音色进行模型训练包括,对语音数据集以每个单元词为单位进行拆分,基于音调为每个单元词赋予重读音、正常读音和轻读音标签,获取每种读音对应单元词的语义,对轻读音单元词的语义进行解耦获得有效语义和无效语义,将无效语义对应的单元词从语音数据集中剔除,收集相同语义下不同语种对应的重读音、正常读音和轻读音的语音频谱,以一种语义对应多种频谱为目标进行训练,得到语义与频谱的对应关系,具体公式表示为,
minθL(CNN(C(D(L(s)));θ),F(L有效,T(s)))
其中,minθL表示为最小损失函数,CNN表示为卷积神经网络,C表示为选择函数,D表示为解耦函数,L(s)表示为单元词s的语义,s表示为单元词,θ表示为模型参数,F(L有效,T(s))表示为与有效语义L有效和音调标签T(s)对应的频谱集合;解耦函数D(L(s))用于区分有效和无效语义,公式表示为,
其中,σL(s)表示为相似性度量(L(s),L有效集),计算历史词句有效集L有效集与L(s)的相似度,τ表示为阈值根据实际工况设定;将通过解耦函数得到有效语音单元词代入选择函数C中,进行有效语音词与对应频谱的匹配,公式表示为,
C(L有效)={s→f|D(L(s))=L有效,s∈S}
其中,f表示为单元词s对应的不同语种的频谱,S表示为所有单元词的集合;将X=C(L有效)代入卷积神经网络CNN进行训练得到语义与频谱的对应关系,公式表示为,
Z(X)=r(W*X+b)
其中,r表示为激活函数,W表示为卷积核的权重矩阵,*表示为卷积操作,b表示为卷积核的偏置项;将Z(X)代入最大池化层进行输出表示为,
P(Z)=maxp×p(Z(X))
将P(Z)代入全连接层并随机输出一个单元词得到预测频谱公式表示为,
其中,p×p表示为池化窗口大小,Wf表示为全连接层的权重矩阵,bf表示为偏置,Flatten表示为表示将池化层的输出平铺成一个向量;最后将得到与F进行最小化损失,公式表示为,
其中,N表示为总输入的单元词量;
根据输出的进行阈值判断,若满足条件则训练完毕输出模型,若不满足条件则调整模型参数θ再进行训练,直至满足条件输出,θ包括卷积核大小k×k和池化窗口大小p×p。
作为本发明所述一种语音转换方法的一种优选方案,其中:所述基于目标音色进行模型训练还包括,根据最终训练后的CNN得到了语义与频谱的对应关系,现随机输入若干段文本至模型中,对比目标音色的目标值与预期合成的预测值,调整语义对应频谱的权重,公式表示为,
其中,H(p,q)表示为交叉熵损失函数,p表示为目标音色的目标值,q表示为预期合成的预测值,x表示为当前所用的特征参数;通过梯度下降法调整权重,使H(p,q)最小化,结束流程并输出模型即为声学模型。
作为本发明所述一种语音转换方法的一种优选方案,其中:所述声码器包括,通过声码器将频谱特征转化为语音波形。
本发明的另外一个目的是提供一种语音转换系统,此系统可将非目标音频进行转换,不改变其内容,转换为目标语音的音频
为解决上述技术问题,本发明提供如下技术方案:一种语音转换方法的系统,包括:数据采集模块、模型训练模块和语音转换模块;所述数据采集模块用于得到目标音色,采集语音数据集,对数据集进行预处理,识别预处理后数据集中的表征音色特征,作为目标音色;所述模型训练模块用于训练模型,基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器;所述语音转换模块用于将文本文件转换为目标语音,当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件中的语种类型,并对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征,将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述一种语音转换方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述一种语音转换方法的步骤。
本发明有益效果为:本发明通过采用先进的数据集采集和预处理方法,结合目标文本信息和特定音色的识别技术,本发明能够更有效地模拟和再现目标音色,使得转换后的语音在音质和真实感上更加接近原始目标音色,大大提高了语音转换的质量和真实感。
传统的语音转换技术受限于数据集的质量和规模,尤其是在高质量单一说话者数据难以获得的情况下。本发明通过引入多模态技术和改进的模型训练方法,能够更好地适应不同的语音样本和说话者,拓宽了语音转换的适用范围。
结合目标文本信息和特定音色的识别技术,使得本发明不仅能够处理多样化的语音输入,还能够适应不同的应用场景,如语音助手、有声读物、口语对话系统和数字人等,提高了系统的灵活性和适应性。
在进行音色转换的同时,本发明能够更好地保留原始语音信号的特性,如语调、节奏和情感表达,从而在改变音色的同时保持语音的自然性和表现力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中:
图1为实施例1中一种语音转换方法的流程图。
图2为实施例1中一种语音转换系统的模块结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
实施例1
参照图1,为本发明第一个实施例,该实施例提供了一种语音转换方法包括,如图1所示:
采集语音数据集,对数据集进行预处理,识别预处理后数据集中的表征音色特征,作为目标音色。
语音数据集的采集条件包括,语音数据集中只能出现单个说话人语音;语音数据集中除目标人说话声音外不允许出现其他背景声音;语速与情绪音调需满足预设条件;语音数据集中需包含所需不同语种的音频;语音数据集的音频有效时长至少大于20min。
将采集到语音数据集载入评分模型中进行评分,评分模型表示为,
其中,Mfinal表示为最终生成音频质量,Mtrue表示为真实音频的质量,Maudio表示为录制数据集的质量,Pn表示为数据集内所有有效音频的音素数量,T表示为数据集所有有效音频的时长,S表示为正常说话语速;
基于评分模型对语音数据集进行评分,当Mfinal满足预设阈值时则正常输出语音数据集,若不满足则将语音数据集打回,重新采集语音并评分,直至Mfinal满足预设阈值结束流程。
使用频谱分析技术识别目标语音信号和背景噪音在频域上的差异,基于差异进行模型训练学习目标语音和噪音的特征,对有效的人声进行分离;
在人声分离后,比较语音信号和估计的噪音谱,将估计的噪音从语音信号中减去,再将语音信号分解成不同频率的子带,通过对每个子带进行阈值处理来减少噪音。
基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器。
基于目标音色进行模型训练包括,对语音数据集以每个单元词为单位进行拆分,基于音调为每个单元词赋予重读音、正常读音和轻读音标签,获取每种读音对应单元词的语义,对轻读音单元词的语义进行解耦获得有效语义和无效语义,将无效语义对应的单元词从语音数据集中剔除,收集相同语义下不同语种对应的重读音、正常读音和轻读音的语音频谱,以一种语义对应多种频谱为目标进行训练,得到语义与频谱的对应关系。
本发明此步骤的优势在于:在实际语音训练中,录制人多多少少会出现无意义的语气词,传统的语音训练方法可能会将此语气词载入模型进行训练,这会对最后的输出结果造成严重影响,本发明从语义的角度出发剔除掉无意义词,对模型训练更加准确,并且本发明考虑到了不同语种的问题,因为同一种语义在不同语种的表达方式及音调可能完全不同,本发明针对此问题进行语种频谱训练,可以更好地得到语义与频谱的对应关系。
训练的具体公式表示为,
minθL(cNN(C(D(L(s)));θ),F(L有效,T(s)))
其中,minθL表示为最小损失函数,CNN表示为卷积神经网络,C表示为选择函数,D表示为解耦函数,L(s)表示为单元词s的语义,s表示为单元词,θ表示为模型参数,F(L有效,T(s))表示为与有效语义L有效和音调标签T(s)对应的频谱集合。
解耦函数D(L(s))用于区分有效和无效语义,公式表示为,
其中,σL(s)表示为相似性度量(L(s),L有效集),计算历史词句有效集L有效集与L(s)的相似度,τ表示为阈值根据实际工况设定。
将通过解耦函数得到有效语音单元词代入选择函数C中,进行有效语音词与对应频谱的匹配,公式表示为,
C(L有效)={s→f|D(L(s))=L有效,s∈S}
其中,f表示为单元词s对应的不同语种的频谱,S表示为所有单元词的集合。
将X=C(L有效)代入卷积神经网络CNN进行训练得到语义与频谱的对应关系,公式表示为,
Z(X)=r(W*X+b)
其中,r表示为激活函数,W表示为卷积核的权重矩阵,*表示为卷积操作,b表示为卷积核的偏置项。
将Z(X)代入最大池化层进行输出表示为,
P(Z)=maxp×p(Z(X))
将P(Z)代入全连接层并随机输出一个单元词得到预测频谱公式表示为,
其中,p×p表示为池化窗口大小,Wf表示为全连接层的权重矩阵,bf表示为偏置,Flatten表示为表示将池化层的输出平铺成一个向量。
最后将得到与F进行最小化损失,公式表示为,
其中,N表示为总输入的单元词量。
根据输出的进行阈值判断,若满足条件则训练完毕输出模型,若不满足条件则调整模型参数θ再进行训练,直至满足条件输出,θ包括卷积核大小k×k和池化窗口大小p×p。
根据最终训练后的CNN得到了语义与频谱的对应关系,现随机输入若干段文本至模型中,对比目标音色的目标值与预期合成的预测值,调整语义对应频谱的权重,即一种语义对应着重读音权重、正常读音权重和轻读音权重,在训练时权重越大训练出对应的音调的概率越大,初始权重为重读音权重、正常读音权重和轻读音权重分别相等,因为不同的音调表达出的意思可能完全不同,本发明此步骤可以使语义与音调的对应关系更佳准确,具体公式表示为,
其中,H(p,q)表示为交叉熵损失函数,p表示为目标音色的目标值,q表示为预期合成的预测值,x表示为当前所用的特征参数。
通过梯度下降法调整权重,使H(p,q)最小化,结束流程并输出模型即为声学模型。
当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件中的语种类型,并对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征;
将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。
实施例2
本发明第二个实施例,其不同于第一个实施例的是:一种语音转换方法还包括,为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
将传统方法与本发明方法在同一实验环境下进行仿真实验,得到的数据如表1所示:
表1:实验数据对比表
通过听众评分,我方发明在音质真实度上得分较高,这说明转换后的语音在听感上更接近自然语音。
使用自动音色匹配算法进行比较,我方发明在音色相似度方面的表现显著优于现有技术,几乎达到了与目标音色的完美匹配。
在说话者变化适应测试中,我方发明显示出更高的适应率,这表明我方发明能更好地处理多样化的说话者。
在多语种适应性测试中,我方发明同样表现出较好的适应能力,适合全球化应用,根据实际应用统计,我方发明能够适用于更多的应用场景,显示出更高的灵活性。
在语音特征分析中,我方发明在保留原始语音信号(如语调、节奏)方面表现优异,在训练数据统计中,我方发明需要的样本量明显少于现有技术,降低了资源需求。
在控制环境测试中,我方发明显示出更高的性能指标得分,表明在理想条件下表现卓越,在现场应用测试中,我方发明同样表现优越,适应真实环境的能力强。
实施例3
参照图2,为本发明第三个实施例,其不同于前两个实施例的是:一种语音转换方法的系统,包括数据采集模块、模型训练模块和语音转换模块;数据采集模块用于得到目标音色,采集语音数据集,对数据集进行预处理,识别预处理后数据集中的表征音色特征,作为目标音色;模型训练模块用于训练模型,基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器;语音转换模块用于将文本文件转换为目标语音,当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件中的语种类型,并对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征,将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种语音转换方法,其特征在于:包括,
采集语音数据集,对数据集进行预处理,识别预处理后数据集中的表征音色特征,作为目标音色;
基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器;
当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件中的语种类型,并对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征;
将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。
2.如权利要求1所述的一种语音转换方法,其特征在于:所述语音数据集的采集条件包括,语音数据集中只能出现单个说话人语音;语音数据集中除目标人说话声音外不允许出现其他背景声音;语速与情绪音调需满足预设条件;语音数据集中需包含所需不同语种的音频;语音数据集的音频有效时长至少大于20min。
3.如权利要求2所述的一种语音转换方法,其特征在于:所述采集条件还包括,将采集到语音数据集载入评分模型中进行评分,评分模型表示为,
其中,Mfinal表示为最终生成音频质量,Mtrue表示为真实音频的质量,Maudio表示为录制数据集的质量,Pn表示为数据集内所有有效音频的音素数量,T表示为数据集所有有效音频的时长,S表示为正常说话语速;
基于评分模型对语音数据集进行评分,当Mfinal满足预设阈值时则正常输出语音数据集,若不满足则将语音数据集打回,重新采集语音并评分,直至Mfinal满足预设阈值结束流程。
4.如权利要求3所述的一种语音转换方法,其特征在于:所述预处理包括,使用频谱分析技术识别目标语音信号和背景噪音在频域上的差异,基于差异进行模型训练学习目标语音和噪音的特征,对有效的人声进行分离;
在人声分离后,比较语音信号和估计的噪音谱,将估计的噪音从语音信号中减去,再将语音信号分解成不同频率的子带,通过对每个子带进行阈值处理来减少噪音。
5.如权利要求4所述的一种语音转换方法,其特征在于:所述基于目标音色进行模型训练包括,对语音数据集以每个单元词为单位进行拆分,基于音调为每个单元词赋予重读音、正常读音和轻读音标签,获取每种读音对应单元词的语义,对轻读音单元词的语义进行解耦获得有效语义和无效语义,将无效语义对应的单元词从语音数据集中剔除,收集相同语义下不同语种对应的重读音、正常读音和轻读音的语音频谱,以一种语义对应多种频谱为目标进行训练,得到语义与频谱的对应关系,具体公式表示为,
minθL(CNN(C(D(L(s)));θ),F(L有效,T(s)))
其中,minθL表示为最小损失函数,CNN表示为卷积神经网络,C表示为选择函数,D表示为解耦函数,L(s)表示为单元词s的语义,s表示为单元词,θ表示为模型参数,F(L有效,T(s))表示为与有效语义L有效和音调标签T(s)对应的频谱集合;
解耦函数D(L(s))用于区分有效和无效语义,公式表示为,
其中,σL(s)表示为相似性度量(L(s),L有效集),计算历史词句有效集L有效集与L(s)的相似度,τ表示为阈值根据实际工况设定;
将通过解耦函数得到有效语音单元词代入选择函数C中,进行有效语音词与对应频谱的匹配,公式表示为,
C(L有效)={s→f|D(L(s))=L有效,s∈S}
其中,f表示为单元词s对应的不同语种的频谱,S表示为所有单元词的集合;
将X=C(L有效)代入卷积神经网络CNN进行训练得到语义与频谱的对应关系,公式表示为,
Z(X)=r(W*X+b)
其中,r表示为激活函数,W表示为卷积核的权重矩阵,*表示为卷积操作,b表示为卷积核的偏置项;
将Z(X)代入最大池化层进行输出表示为,
P(Z)=maxp×p(Z(X))
将P(Z)代入全连接层并随机输出一个单元词得到预测频谱公式表示为,
其中,p×p表示为池化窗口大小,Wf表示为全连接层的权重矩阵,bf表示为偏置,Flatten表示为表示将池化层的输出平铺成一个向量;
最后将得到与F进行最小化损失,公式表示为,
其中,N表示为总输入的单元词量;
根据输出的进行阈值判断,若满足条件则训练完毕输出模型,若不满足条件则调整模型参数θ再进行训练,直至满足条件输出,θ包括卷积核大小k×k和池化窗口大小p×p。
6.如权利要求5所述的一种语音转换方法,其特征在于:所述基于目标音色进行模型训练还包括,根据最终训练后的CNN得到了语义与频谱的对应关系,现随机输入若干段文本至模型中,对比目标音色的目标值与预期合成的预测值,调整语义对应频谱的权重,公式表示为,
其中,H(p,q)表示为交叉熵损失函数,p表示为目标音色的目标值,q表示为预期合成的预测值,x表示为当前所用的特征参数;
通过梯度下降法调整权重,使H(p,q)最小化,结束流程并输出模型即为声学模型。
7.如权利要求6所述的一种语音转换方法,其特征在于:所述声码器包括,通过声码器将频谱特征转化为语音波形。
8.一种采用如权利要求1~7任一所述的一种语音转换方法的系统,其特征在于:包括数据采集模块、模型训练模块和语音转换模块;
所述数据采集模块用于得到目标音色,采集语音数据集,对数据集进行预处理,识别预处理后数据集中的表征音色特征,作为目标音色;
所述模型训练模块用于训练模型,基于目标音色进行模型训练,得到属于目标音色的语音合成器,所述语音合成器包括声学模型和声码器;
所述语音转换模块用于将文本文件转换为目标语音,当接收到转换任务时,将所要转换的文本文件载入至语音合成器中,声学模型识别所述文本文件中的语种类型,并对每个词句赋予符合所述目标音色的频谱特征,作为目标频谱特征,将目标频谱特征发送至声码器中,声码器将所述目标频谱特征转换为属于所述目标音色的语音声音。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的一种语音转换方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的一种语音转换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410140646.3A CN117995206A (zh) | 2024-01-31 | 2024-01-31 | 一种语音转换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410140646.3A CN117995206A (zh) | 2024-01-31 | 2024-01-31 | 一种语音转换方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117995206A true CN117995206A (zh) | 2024-05-07 |
Family
ID=90900359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410140646.3A Pending CN117995206A (zh) | 2024-01-31 | 2024-01-31 | 一种语音转换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117995206A (zh) |
-
2024
- 2024-01-31 CN CN202410140646.3A patent/CN117995206A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lech et al. | Real-time speech emotion recognition using a pre-trained image classification network: Effects of bandwidth reduction and companding | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
US5867816A (en) | Operator interactions for developing phoneme recognition by neural networks | |
CN102231278B (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
KR20230056741A (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
JPH09500223A (ja) | 多言語音声認識システム | |
JPH08263097A (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
CN110570842B (zh) | 基于音素近似度和发音标准度的语音识别方法及系统 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Kumar et al. | Machine learning based speech emotions recognition system | |
Hu et al. | Generating synthetic dysarthric speech to overcome dysarthria acoustic data scarcity | |
CN114550706A (zh) | 基于深度学习的智慧校园语音识别方法 | |
Dua et al. | Noise robust automatic speech recognition: review and analysis | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
US11915714B2 (en) | Neural pitch-shifting and time-stretching | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
CN117995206A (zh) | 一种语音转换方法及系统 | |
Pao et al. | Emotion recognition from Mandarin speech signals | |
CN114299910B (zh) | 语音合成模型的训练方法、使用方法、装置、设备及介质 | |
JP2658426B2 (ja) | 音声認識方法 | |
CN115440205A (zh) | 语音处理方法、装置、终端以及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |