CN113903347A - 一种基于机器学习的语音处理方法、装置、设备及介质 - Google Patents
一种基于机器学习的语音处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113903347A CN113903347A CN202111149021.6A CN202111149021A CN113903347A CN 113903347 A CN113903347 A CN 113903347A CN 202111149021 A CN202111149021 A CN 202111149021A CN 113903347 A CN113903347 A CN 113903347A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- loss function
- information
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 20
- 238000003672 processing method Methods 0.000 title abstract description 10
- 230000006870 function Effects 0.000 claims abstract description 118
- 238000006243 chemical reaction Methods 0.000 claims abstract description 85
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000013139 quantization Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000003068 static effect Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请涉及人工智能技术,提供了一种基于机器学习的语音处理方法、装置、设备及介质,包括:从源语音信息中提取得到第一语音特征,并对第一语音特征进行矢量量化处理得到第一离散变量特征;对第一离散变量特征进行分类,以去除第一离散变量特征中的与源语音信息对应的说话人信息,得到第二离散变量特征,计算分类损失函数;对第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,确定语音重构损失函数;根据语音重构损失函数和分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型,以对待转换语音进行处理;结合了矢量量化和域对抗的分类技术,增强了语音转换效果,使目标语音转换模型更好的胜任个性化语音转换任务。
Description
技术领域
本申请涉及一种人工智能技术,提供一种基于机器学习的语音处理方法、装置、设备及介质。
背景技术
语音转换(voice conversion,VC)是指在不改变话语内容信息的情况下,让某个人说的语音经过转换后听起来像是另一个人说的语音;
很多自媒体人具有较强的视频创作灵感,可以创作出很多趣味性较强的动画短视频,可惜,由于资金短缺,人手不足,自媒体人很难雇请专业的配音演员为自制的动画短视频配音,只能退而求其次,采用无声动画或机器转换语音来为动画视频加上声音,而通过机器转换的语音较为死板,且无法保证语音转换的质量,这无疑使得视频的最终效果打了很大的折扣。
发明内容
本申请的目的在于提供一种基于机器学习的语音处理方法、装置、设备及介质,结合了矢量量化和域对抗技术,增强了语音转换效果,使得得到的目标语音转换模型能更好的胜任个性化语音合成和语音转换任务。
本申请提出一种基于机器学习的语音处理方法,包括:
从源语音信息中提取得到第一语音特征,并对所述第一语音特征进行矢量量化处理得到第一离散变量特征;
对所述第一离散变量特征进行分类,以去除所述第一离散变量特征中的与所述源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数;对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构,并确定语音重构损失函数;
根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;
根据所述目标语音转换模型对待转换语音进行语音转换处理。
进一步地,所述通过矢量量化器对所述第一语音特征进行矢量量化处理得到第一离散变量特征之前,所述方法包括:
对所述第一语音特征进行处理,以去除所述第一语音特征中的静态固有信息。
进一步地,所述对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理之前,所述方法包括:
从特征语音信息中提取得到各时间点的第二语音特征,并对所述各时间点的第二语音特征进行矢量量化处理得到各时间点的第三离散变量特征,其中所述特征语音信息包括所述目标语音信息对应的说话人信息,且所述征提取语音信息包括多个时间点的子语音信息,各时间点的子语音信息与各时间点的第二语音特征对应;
获取各时间点的第三离散变量特征与第二语音特征之间的各差值;
将所述各差值的期望均值作为所述目标语音信息对应的说话人特征。
进一步地,所述对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理之前,所述方法包括:
将特征语音信息输入到深度神经网络中最后的隐藏层进行识别处理,得到所述目标语音信息对应的说话人特征,所述特征语音信息包括所述目标语音信息对应的说话人信息。
进一步地,所述将所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数包括:
将所述第二离散变量特征和所述说话人特征相加得到合成特征;
对所述合成特征进行语音重构处理,得到目标语音信息;
所述语音重构损失函数包括:
Lrecon=‖x-x1‖1,x代表源语音信息,x1代表目标语音信息。
进一步地,所述根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练之前,所述方法包括:
根据所述第二离散变量特征和所述第一语音特征确定语音内容特征损失函数;语音内容特征损失函数包括:Lvq=‖V-C‖1,V表示第二离散变量特征,C表示第一语音特征;
所述根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练包括:
根据语音重构损失函数、语音内容特征损失函数和所述分类损失函数对初始语音转换模型进行训练。
进一步地,所述根据语音重构损失函数、语音内容特征损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型包括:
根据语音重构损失函数、语音内容特征损失函数和分类损失函数确定初始语音转换模型的总损失函数,总损失函数包括:l=λ1lrecon+λ2Lvq+λ3Ld,其中λ1、λ2和λ3为权重,所述Lrecon为语音重构损失函数,所述Lvq为语音内容特征损失函数,所述Ld为分类损失函数;
当所述总损失函数收敛时,得到所述目标语音转换模型。
本申请还提出一种基于对抗学习的语音处理装置,包括:特征处理模块,用于从源语音信息中提取得到第一语音特征,并对所述第一语音特征进行矢量量化处理得到第一离散变量特征;对抗学习模块,用于对所述第一离散变量特征进行分类,以去除所述第一离散变量特征中的与所述源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数;语音重构模块,用于将所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数;模型训练模块,用于根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;
语音转换模块,用于根据所述目标语音转换模型对待转换语音进行转换处理。
本申请还提出一种计算机设备,所述计算机设备包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行如上所述的方法。
本申请还提出一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的方法。
与现有技术相比,本申请具有如下有益效果:
本申请的提供的技术方案中,从源语音信息中提取得到第一语音特征,并对第一语音特征进行矢量量化处理得到第一离散变量特征;对所述第一离散变量特征进行分类,以去除第一离散变量特征中的与源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数,对第二离散变量特征和目标语音信息对应的说话人特征进行语音重构,并确定语音重构损失函数;根据语音重构损失函数和分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;其中结合了矢量量化和域对抗的分类技术,采用矢量量化技术提取源语音信息中的第一离散变量特征,通过分类能够进一步加强矢量量化的第一离散变量特征和源语音信息中说话人特征的特征解耦功能,进而通过语音重构损失函数和分类损失函数对初始语音转换模型进行训练,增强了语音转换效果,使得得到的目标语音转换模型能更好的胜任个性化语音合成和语音转换任务。
附图说明
图1示出了根据本申请的一个实施例的一种基于机器学习的语音处理方法的流程图;
图2示出了图1所示实施例中的步骤S130之前在一示例性实施例中的流程图;
图3示出了图1所示实施例中的步骤S130在一示例性实施例中的流程图;
图4示出了图1所示实施例中的步骤S140在一示例性实施例中的流程图;
图5示出了根据本申请的一个实施例的一种具体的语音处理方法的流程结构图;
图6示出了根据本申请的一个实施例的一种基于机器学习的语音处理装置的架构示意图;
图7示出了根据本申请的一个实施例的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音处理技术(speech signal processing)用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。
本申请实施例提供的方案涉及人工智能的语音处理技术中的语音转换,并基于机器学习得到对应的语音转换模型,通过语音转换模型实现语音转换,具体通过如下实施例进行说明。
请参阅图1,图1是根据一示例性实施例示出的一种基于机器学习的语音处理方法的流程图,该基于机器学习的语音处理方法包括步骤S110至步骤S150,详细介绍如下:
S110、从源语音信息中提取得到第一语音特征,并对第一语音特征进行矢量量化处理得到第一离散变量特征。
在本实施例中,源语音信息中包含了说话人的声音个性信息和说话内容信息,示例的,可以将源语音信息输入到编码器中,输出得到第一语音特征,编码器用于从源语音信息中提取第一语音特征,编码器可以学习到源语音信息的隐含特征,进而压缩成第一语音特征,该第一语音特征用于表征源语音信息中所表达信息的语音特征,第一语音特征为连续型的特征。
矢量量化:(vector quantization,VQ)是一种通过类似于聚类的方式将原有的连续型数据聚类成离散数据,从而使得需要存储的数据量降低,进而达到数据压缩的目的;具体的基本原理是用码书中与输入矢量最匹配的码字的索引代替输入矢量进行传输与存储。
一示例性的,第一离散变量特征用于表示源语音信息中内容信息,对第一语音特征进行矢量量化处理得到第一离散变量特征的具体过程包括:将第一语音特征输入到矢量量化器,矢量量化器用于从码书中查找与第一语音特征最匹配的码字的索引,该码字的索引作为矢量量化后的离散变量,进而将原有的连续型数据聚类成离散数据,即第一离散变量特征;如连续型的第一语音特征0~1对应的码字的索引为1,特征1~2对应的码字的索引为2,则码书包括1、2等码字的索引;当语音特征为1.4,则码书中与语音特征最匹配的码字的索引为2,则第一离散变量特征为2。
在本实施例中,对第一语音特征进行矢量量化处理得到第一离散变量特征之前,方法还包括:
对第一语音特征进行处理,以去除第一语音特征中的静态固有信息。
其中静态固有信息在一句话的任何时间片段内都保持不变,如静态固有信息为音色信息;示例的,可将第一语音特征输入到实例规格化层(Instance Normalization,IN),以去除静态固有信息,IN借鉴于视觉任务的风格迁移,用不带仿射变换的IN很容易就能去除音频中的静态固有信息,即更多的消除说话人信息,以使得到的第一离散变量特征更能表征源语音信息中的内容信息。
S120、对第一离散变量特征进行分类,以去除第一离散变量特征中的与源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数。
可以理解的是,域对抗:包含特征提取网络和域分类器,特征提取网络提取出中间特征,该特征力求解离一切风格信息,同时分类器希望能够分辨出该特征上的风格类型;二者形成对抗学习。
由于希望VQ技术得到第一离散变量特征尽可能与说话人无关,则恰好与域对抗中的特征提取网络的目标相似,因此在本实施例中,引入域分类器,引入域对抗的思想,示例的,将第一离散变量特征输入到域分类器中,域分类器用于对第一离散变量特征进行分类,尽可能分出该第一离散变量特征是否与源语音信息对应的说话人有关,得到第二离散变量特征,第二离散变量特征为去除与说话人有关的信息之后的特征。
一示例性的,域分类器以sigmoid作为激活函数,进而将sigmoid对应的损失函数作为分类损失函数。
S130、对第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数。
在本实施例中,目标语音信息对应的说话人特征,指的是想要语音转换说话人的个性特征,如音色;因此需要先获取目标语音信息对应的说话人特征,可从想要语音转换音色的语音中提取说话人特征。
如图2所示,图2是图1所示实施例中的步骤S130之前在一示例性实施例中的流程图,对第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理之前,方法包括:
S211、从特征语音信息中提取得到各时间点的第二语音特征,并对各时间点的第二语音特征进行矢量量化处理得到各时间点的第三离散变量特征;
在本实施例中,特征语音信息包括目标语音信息对应的说话人信息,且征提取语音信息包括多个时间点的子语音信息,例如特征语音信息为张三说的一段语音,该段语音中包括了张三的音色,且该段语音包括60秒,则包括每隔10秒的子语音信息;则可以提取到各时间点的子语音信息对应的各第二语音特征v,然后对每个第二语音特征v进行矢量量化,最终得到各时间点的第三离散变量特征c。
S212、获取各时间点的第三离散变量特征与第二语音特征之间的各差值;
S213、将各差值的期望均值作为目标语音信息对应的说话人特征。
计算第三离散变量特征与第二语音特征之间的差值(v-c),由于每个时间点都对应有一个差值,则计算多个差值的期望均值s=Et(v-c),其中v=encoder(x),c=quantize(v),x代表源语音信息,encoder表示编码器,quantize代表矢量量化技术,t为时间点。说话人信息为连续型的第二语音特征与量化后的第三离散变量特征之间的差值,通过将多个时间点的差值的期望均值作为说话人特征,以保证目标语音信息对应的说话人特征提取的准确性。
一示例性的,对第二离散变量特征和目标语音信息对应的说话人特征输入到解码器进行语音重构处理之前,方法包括:
将特征语音信息输入到深度神经网络中最后的隐藏层进行识别处理,得到目标语音信息对应的说话人特征,特征语音信息包括目标语音信息对应的说话人信息。
深度神经网络DNN最后的隐藏层为d_vector,表示特定语音段上的说话人特性,即将特征语音信息输入到训练之后的DNN,将d-Vector输出的特征作为说话人特征。
得到目标语音信息对应的说话人特征之后,如图3所示,图3是图1所示实施例中的步骤S130在一示例性实施例中的流程图,语音重构的过程包括:
S131、将第二离散变量特征和说话人特征相加得到合成特征;
S132、对合成特征进行语音重构,得到目标语音信息。
在本实施例中,将第二离散变量特征和说话人特征相加后输入到解码器中进行语音重构,通过解码器可以将合成特征进行转换成语音信息,进而得到目标语音信息,且该目标语音信息包括了源语音信息中的说话内容信息和特征语音信息中的声音个性信息,实现了语音转换,如目标语音信息包括李四的说话内容和张三的音色。
由于将源语音信息转换为了目标语音信息,则语音重构损失为包括:Lrecon=‖x-x1‖1,x代表源语音信息,x1代表目标语音信息。
S140、根据语音重构损失函数和分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型。
在本实施例中,通过最大化分类损失和最小化重构损失确定初始语音转换模型的最优参数,得到目标转换模型。在一示例中,初始语音转换模型包括上述的编码器、矢量量化器、解码器和域分类器。
值得注意的是,为了对初始语音转换模型的准确性,在步骤S140之前,语音处理方法还包括:
根据第二离散变量特征和第一语音特征确定语音内容特征损失函数。
由于矢量量化过程中,第二离散变量特征被要求尽可能与和第一语音特征靠近,为了使得第二离散变量与第一语音特征的距离最小,尽可能准确地获取内容信息,需计算确定语音内容特征损失函数,其中语音内容特征损失函数包括:Lvq=‖V-C‖1,V表示第二离散变量特征,C表示第一语音特征;
此时,步骤S140具体包括:根据语音重构损失函数、语音内容特征损失函数和分类损失函数对初始语音转换模型进行训练。
即通过语音内容特征损失函数和分类损失函数对初始语音转换模型进行训练,以更好地得到源语音信息的内容信息,并结合语音重构损失函数对初始语音转换模型进行训练,以使得语音重构后的目标语音信息与源语音信息中的说话人信息尽可能不同。
一示例性的,如图4所示,图4是图1所示实施例中的步骤S140在一示例性实施例中的流程图,得到目标语音转换模型包括:
S141、根据语音重构损失函数、语音内容特征损失函数和分类损失函数确定初始语音转换模型的总损失函数;
S142、当总损失函数收敛时,得到目标语音转换模型。
其中总损失函数包括:L=λ1Lrecon+λ2Lvq+λ3Ld,其中λ1、λ2和λ3为权重,Lrecon为语音重构损失函数,Lvq为语音内容特征损失函数,Ld为分类损失函数;该λ1、λ2和λ3可以根据实际需求进行灵活调整,例如λ1为0.4、λ2为0.2和λ3为0.4。当总损失函数收敛时,表示初始语音转换模型的编码器、矢量量化器、域分类器和解码器的参数是最优的。
S150、根据目标语音转换模型对待转换语音进行语音转换处理。
在本实施例中,得到目标转换模型之后,可以根据目标转换模型对待转换语音进行语音转换处理,得到个性化定制语音。
在一个应用场景中,目标转换模型用于助力动画爱好者制作同人动画、自媒体人自制短视频的发展,例如应用于短视频配音中,只需要视频制作者录制一遍台词,产生待转换语音,通过目标转换模型就可以产生多样的个性化定制语音。
为了便于理解,本实施例以一个较为具体的例子对语音处理方法进行说明,目标转换模型包括训练好的解码器、矢量量化器、域分类器和解码器,如图5所示,录制台词产生的待转换语音x输入到解码器encoder中,得到连续型的第一语音特征V1,通过IN层对第一语音特征V1的静态固有信息进行分离,得到分离后的第一语音特征IN(V1),然后通过矢量量化器对分离后的第一语音特征IN(V1)进行矢量量化处理,得到第一离散变量特征C1,用于表征待转换语音x中的内容信息;该第一离散变量特征C1输入到域分类器,进行对抗学习,以区分该第一离散变量特征C1是否与待转换语音x的说话人相关,通过域分类器输出第二离散变量特征C2,该第二离散变量特征C2与动画人物A的说话人特征S相加后,输入到解码器decoder中,最后得到由动画人物A说台词的个性化定制语音x1;其中说话人特征S可以是,动画人物A说话的语音x2经过解码器、IN和矢量量化器后,计算IN输出的第二语音特征IN(V2)和矢量量化器输出的第三离散变量特征C3的差值,将多个时间点的差值的均值作为说话人特征S。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的基于机器学习的语音处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的基于机器学习的语音处理方法的实施例。
如图6所示,图6示出了根据本申请的一个实施例的基于机器学习的语音处理装置的框图,该装置包括:
特征处理模块610,用于从源语音信息中提取得到第一语音特征,并对第一语音特征进行矢量量化处理得到第一离散变量特征;
特征分类模块620,用于对第一离散变量特征进行分类,以去除第一离散变量特征中的与源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数;
语音重构模块630,用于对第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数;
模型训练模块640,用于根据语音重构损失函数和分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;
语音转换模块650,用于根据目标语音转换模型对待转换语音进行转换处理。
其中基于机器学习的语音处理装置还包括静态信息去除模块,用于对第一语音特征进行处理,以去除第一语音特征中的静态固有信息。
一示例性的,基于机器学习的语音处理装置还包括说话人特征获取模型,用于从特征语音信息中提取得到各时间点的第二语音特征,并对各时间点的第二语音特征进行矢量量化处理得到各时间点的第三离散变量特征,其中特征语音信息包括目标语音信息对应的说话人信息,且征提取语音信息包括多个时间点的子语音信息,各时间点的子语音信息与各时间点的第二语音特征对应;获取各时间点的第三离散变量特征与第二语音特征之间的各差值;将各差值的期望均值作为目标语音信息对应的说话人特征。
一示例性的,说话人特征获取模型用于将特征语音信息输入到深度神经网络中最后的隐藏层进行识别处理,得到目标语音信息对应的说话人特征,特征语音信息包括目标语音信息对应的说话人信息。
语音重构模块630用于将第二离散变量特征和说话人特征相加得到合成特征;对合成特征进行语音重构处理,得到目标语音信息;语音重构损失函数包括:Lrecon=‖x-x1‖1,x代表源语音信息,x1代表目标语音信息。
基于机器学习的语音处理装置还包括损失确定模块,用于根据第二离散变量特征和第一语音特征确定语音内容特征损失函数;语音内容特征损失函数包括:Lvq=‖V-C‖1,V表示第二离散变量特征,C表示第一语音特征;模型训练模块640用于根据语音重构损失函数、语音内容特征损失函数和分类损失函数对初始语音转换模型进行训练。
进一步地,模型训练模块,根据语音重构损失函数、语音内容特征损失函数和分类损失函数确定初始语音转换模型的总损失函数,总损失函数包括:L=λ1Lrecon+λ2Lvq+λ3Ld,其中λ1、λ2和λ3为权重,Lrecon为语音重构损失函数,Lvq为语音内容特征损失函数,Ld为分类损失函数;当总损失函数收敛时,得到目标语音转换模型。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
在一示例性实施例中,一种计算机设备,包括处理器和存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前所述的方法。
图7是根据一示例性实施例示出的一种计算机设备的结构示意图。
需要说明的是,该计算机设备只是一个适配于本申请的示例,不能认为是提供了对本申请的使用范围的任何限制。该计算机设备也不能解释为需要依赖于或者必须具有图7中示出的示例性的计算机设备中的一个或者多个组件。
如图7所示,在一示例性实施例中,计算机设备包括处理组件701、存储器702、电源组件703、多媒体组件704、音频组件705、传感器组件707和通信组件708。其中,上述组件并不全是必须的,计算机设备可以根据自身功能需求增加其他组件或减少某些组件,本实施例不作限定。
处理组件701通常控制计算机设备的整体操作,诸如与显示、数据通信以及日志数据处理相关联的操作等。处理组件701可以包括一个或多个处理器709来执行指令,以完成上述操作的全部或部分步骤。此外,处理组件701可以包括一个或多个模块,便于处理组件701和其他组件之间的交互。例如,处理组件701可以包括多媒体模块,以方便多媒体组件704和处理组件701之间的交互。
存储器702被配置为存储各种类型的数据以支持在计算机设备的操作,这些数据的示例包括用于在计算机设备上操作的任何应用程序或方法的指令。存储器702中存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理器709执行,以完成上述实施例中所描述的方法中的全部或者部分步骤。
电源组件703为计算机设备的各种组件提供电力。电源组件703可以包括电源管理系统,一个或多个电源,及其他与为计算机设备生成、管理和分配电力相关联的组件。
多媒体组件704包括在计算机设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括TP(Touch Panel,触摸面板)和LCD(Liquid Crystal Display,液晶显示器)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件705被配置为输出和/或输入音频信号。例如,音频组件705包括一个麦克风,当计算机设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。在一些实施例中,音频组件705还包括一个扬声器,用于输出音频信号。
传感器组件707包括一个或多个传感器,用于为计算机设备提供各个方面的状态评估。例如,传感器组件707可以检测到计算机设备的打开/关闭状态,还可以检测计算机设备的温度变化。
通信组件708被配置为便于计算机设备和其他设备之间有线或无线方式的通信。计算机设备可以接入基于通信标准的无线网络,例如Wi-Fi(Wireless-Fidelity,无线网络)。
可以理解,图7所示的结构仅为示意,计算机设备该可以包括比图7中所示更多或更少的组件,或者具有与图7所示不同的组件。图7中所示的各组件均可以采用硬件、软件或者其组合来实现。
在一示例性实施例中,一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
需要说明的是,本申请实施例所示的计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (10)
1.一种基于机器学习的语音处理方法,其特征在于,包括:
从源语音信息中提取得到第一语音特征,并对所述第一语音特征进行矢量量化处理得到第一离散变量特征;
对所述第一离散变量特征进行分类,以去除所述第一离散变量特征中的与所述源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数;
对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数;
根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;
根据所述目标语音转换模型对待转换语音进行语音转换处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一语音特征进行矢量量化处理得到第一离散变量特征之前,所述方法包括:
对所述第一语音特征进行处理,以去除所述第一语音特征中的静态固有信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理之前,所述方法包括:
从特征语音信息中提取得到各时间点的第二语音特征,并对所述各时间点的第二语音特征进行矢量量化处理得到各时间点的第三离散变量特征,其中所述特征语音信息包括所述目标语音信息对应的说话人信息,且所述特征语音信息包括多个时间点的子语音信息,各时间点的子语音信息与各时间点的第二语音特征对应;
获取各时间点的所述第三离散变量特征与所述第二语音特征之间的各差值;
将所述各差值的期望均值作为所述目标语音信息对应的说话人特征。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理之前,所述方法包括:
将特征语音信息输入到深度神经网络中最后的隐藏层进行识别处理,得到所述目标语音信息对应的说话人特征,所述特征语音信息包括所述目标语音信息对应的说话人信息。
5.根据权利要求1所述的方法,其特征在于,所述对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数包括:
将所述第二离散变量特征和所述目标语音信息对应的说话人特征相加得到合成特征;
对所述合成特征进行语音重构处理,得到目标语音信息;
所述语音重构损失函数包括:
Lrecon=‖x-x1‖1,x代表源语音信息,x1代表目标语音信息。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练之前,所述方法包括:
根据所述第二离散变量特征和所述第一语音特征确定语音内容特征损失函数;语音内容特征损失函数包括:Lvq=‖V-C‖1,V表示第二离散变量特征,C表示第一语音特征;
所述根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练包括:
根据所述语音重构损失函数、所述语音内容特征损失函数和所述分类损失函数对初始语音转换模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述根据语音重构损失函数、语音内容特征损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型包括:
根据所述语音重构损失函数、所述语音内容特征损失函数和所述分类损失函数确定初始语音转换模型的总损失函数,所述总损失函数包括:L=λ1Lrecon+λ2Lvq+λ3Ld,其中λ1、λ2和λ3为权重,所述Lrecon为语音重构损失函数,所述Lvq为语音内容特征损失函数,所述Ld为分类损失函数;
当所述总损失函数收敛时,得到所述目标语音转换模型。
8.一种基于机器学习的语音处理装置,其特征在于,包括:
特征处理模块,用于从源语音信息中提取得到第一语音特征,并对所述第一语音特征进行矢量量化处理得到第一离散变量特征;
特征分类模块,用于对所述第一离散变量特征进行分类,以去除所述第一离散变量特征中的与所述源语音信息对应的说话人信息,得到第二离散变量特征,并计算分类损失函数;
语音重构模块,用于对所述第二离散变量特征和目标语音信息对应的说话人特征进行语音重构处理,并确定语音重构损失函数;
模型训练模块,用于根据所述语音重构损失函数和所述分类损失函数对初始语音转换模型进行训练,得到目标语音转换模型;
语音转换模块,用于根据所述目标语音转换模型对待转换语音进行转换处理。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-7中的任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-7中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111149021.6A CN113903347A (zh) | 2021-09-28 | 2021-09-28 | 一种基于机器学习的语音处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111149021.6A CN113903347A (zh) | 2021-09-28 | 2021-09-28 | 一种基于机器学习的语音处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113903347A true CN113903347A (zh) | 2022-01-07 |
Family
ID=79189095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111149021.6A Pending CN113903347A (zh) | 2021-09-28 | 2021-09-28 | 一种基于机器学习的语音处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113903347A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283824A (zh) * | 2022-03-02 | 2022-04-05 | 清华大学 | 一种基于循环损失的语音转换方法及装置 |
CN116778937A (zh) * | 2023-03-28 | 2023-09-19 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
-
2021
- 2021-09-28 CN CN202111149021.6A patent/CN113903347A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283824A (zh) * | 2022-03-02 | 2022-04-05 | 清华大学 | 一种基于循环损失的语音转换方法及装置 |
CN116778937A (zh) * | 2023-03-28 | 2023-09-19 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
CN116778937B (zh) * | 2023-03-28 | 2024-01-23 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
CN111276120B (zh) | 语音合成方法、装置和计算机可读存储介质 | |
CN112071330B (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
CN111930992A (zh) | 神经网络训练方法、装置及电子设备 | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
CN115641543B (zh) | 一种多模态抑郁情绪识别方法及装置 | |
CN117349675B (zh) | 一种多种信息源的多模态大模型构建系统 | |
CN113903347A (zh) | 一种基于机器学习的语音处理方法、装置、设备及介质 | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN115662435A (zh) | 一种虚拟教师拟真化语音的生成方法及终端 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN111653270A (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
Bozkurt et al. | Affective synthesis and animation of arm gestures from speech prosody | |
CN112185340A (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN116580691A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN116665642A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
Qian et al. | A survey of technologies for automatic Dysarthric speech recognition | |
CN114170997A (zh) | 发音技巧检测方法、装置、存储介质及电子设备 | |
CN115731917A (zh) | 语音数据处理方法、模型训练方法、装置及存储介质 | |
Liu et al. | M3TTS: Multi-modal text-to-speech of multi-scale style control for dubbing | |
Park et al. | Perturbation AUTOVC: Voice Conversion From Perturbation and Autoencoder Loss | |
CN117877517B (zh) | 基于对抗神经网络的环境音生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |