CN116386590B - 一种多模态的表现性语音合成方法及装置 - Google Patents
一种多模态的表现性语音合成方法及装置 Download PDFInfo
- Publication number
- CN116386590B CN116386590B CN202310613237.6A CN202310613237A CN116386590B CN 116386590 B CN116386590 B CN 116386590B CN 202310613237 A CN202310613237 A CN 202310613237A CN 116386590 B CN116386590 B CN 116386590B
- Authority
- CN
- China
- Prior art keywords
- style
- noise
- voice
- encoder
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 36
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 9
- 230000009286 beneficial effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。
Description
技术领域
本发明属于语音合成技术领域,具体涉及一种多模态的表现性语音合成方法及装置。
背景技术
语音合成(Text-to-Speech,TTS)旨在根据给定的文本信息合成自然的、可理解的音频。语音合成技术在语音助手、车载导航、视频配音、虚拟主持人等方面有着广泛的应用。
为了合成表现性丰富的干净语音,语音合成模型需要学习独立控制说话人特性、语音风格和背景噪声等信息。这需要模型具有对语音的各种表现性因子解耦并独立控制的能力。由于语音中的噪声信号难以标注,缺乏标签信息,因此很难对噪声信号进行精确的建模。
首先,现有技术中往往忽略了语音中的噪声信息,直接对其他表现性因子(例如说话人特性,说话风格,情感等因子)进行建模研究。但实际生活中,大多数的场景中都是包含噪声的,例如在嘈杂环境下召开的视频会议。这些表现性建模方法难以直接应用在实际生活中。
此外,现有技术往往直接将语谱图作为输入,为合成语音提供风格信息,存在着信息泄露的问题,当信息泄露严重时,TTS模型会完全根据编码的语谱图特征生成语音,使文本编码器失去作用,导致TTS模型训练失败。
发明内容
为了解决现有技术忽略语音中的噪声信息,导致语音合成质量差,难以在实际生活中应用,并且,往往直接将语谱图作为输入,为合成语音提供风格信息,存在着信息泄露的技术问题,本发明提供一种多模态的表现性语音合成方法及装置。
第一方面
本发明提供一种多模态的表现性语音合成方法,包括:
S101:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码Mdenoise;
S102:将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入Estyle;
S103:将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入Etext;
S104:文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征Eexpand;
S105:将帧级别的语音特征Eexpand与去噪掩码Mdenoise相乘,获得去噪后的帧级别的语音特征Eclean;
S106:将去噪后的帧级别的语音特征Eclean与风格嵌入Estyle在通道维度上进行拼接;
S107:将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图Melclean。
第二方面
本发明提供一种多模态的表现性语音合成装置,包括:
第一获得模块,用于将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码Mdenoise;
提供模块,用于将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入Estyle;
第二获得模块,用于将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入Etext;
第三获得模块,用于文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征Eexpand;
第四获得模块,用于将帧级别的语音特征Eexpand与去噪掩码Mdenoise相乘,获得去噪后的帧级别的语音特征Eclean;
拼接模块,用于将去噪后的帧级别的语音特征Eclean与风格嵌入Estyle在通道维度上进行拼接;
合成模块,用于将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图Melclean。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,重视噪声对于语音合成的影响,将噪声也看作一个风格因子,利用视频模态与语音模态的高度相关性,利用视频模态生成去噪掩码,之后通过去噪掩码对语音模态的语音特征进行去噪,大大提升了语音合成的质量,更有利于在实际生活中应用。
(2)在本发明中,避免直接将语谱图作为输入,采用视频模态作为输入,提供多尺度的风格信息,从而避免了信息泄露,提升信息安全性。
(3)在本发明中,可以在合成过程,选择不成对的文本控制合成语音的内容,选择不成对的视频控制合成语音的风格,增强了语音合成的控制性,通过提供了多尺度的风格信息,增强了语音合成的表现性。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明提供的一种多模态的表现性语音合成方法的流程示意图;
图2是本发明提供的一种多模态的表现性语音合成方法的逻辑示意图;
图3是本发明提供的一种去噪掩码的生成方法的流程示意图;
图4是本发明提供的一种多模态的表现性语音合成装置的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
参考图1,图1示出了本发明提供的一种多模态的表现性语音合成方法的流程示意图。
参考图2,图2示出了本发明提供的一种多模态的表现性语音合成方法的逻辑示意图。
参考图3,图3示出了本发明提供的一种去噪掩码的生成方法的流程示意图。
本发明提供的一种多模态的表现性语音合成方法,包括:
S101:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码Mdenoise。
如图3所示,降噪掩码模块主要由视频流和语音流两个特征提取模块、多模态融合模块和掩码生成模块组成。
在一种可能的实施方式中,S101具体包括子步骤S1011至S1015:
S1011:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器。
S1012:提取出噪声语谱图中的语音特征。
具体地,语音特征提取模块将噪声语谱图编码成帧级别的语音特征。
S1013:提取出第一无声视频序列中的视频特征。
其中,语音特征与视频特征的长度相同。
具体地,视频特征提取模块可以将输入的无声视频序列进行编码并4倍上采样,输出与语音特征相同长度的视频特征。
S1014:将语音特征和视频特征进行多模态融合,获得融合特征序列。
需要说明的是,在多模态融合中可以将语音特征和视频特征这两种不同类型的数据结合起来,以获得更全面、更丰富的信息表示,从而在不同模态之间建立相关性,从而提供更好的表示能力和更准确的结果。
可选地,可以采用深度神经网络对特征进行融合,还可以使用一些特征级别的融合策略,例如拼接(concatenation)、求和(sum)、加权求和(weighted sum)等。
S1015:将融合特征序列通过激活函数进行处理,获得数值范围在0至1之间的去噪掩码Mdenoise。
其中,激活函数可以对输入数据进行非线性的转换。
其中,激活函数为sigmoid激活函数。
在一种可能的实施方式中,激活函数也可以选用ReLU激活函数、Tanh激活函数等。
S102:将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入Estyle。
其中,第二无声视频序列可以与第一无声视频序列来源不同,以进行说话人的风格迁移,增强合成音频的表现性和提高语音合成的可控性。
其中,风格嵌入Estyle包括全局风格嵌入Eglobal和局部韵律嵌入Elocal。
可以理解的是,全局风格嵌入Eglobal是循环神经网络GRU在最后一个时刻的输出特征,局部韵律嵌入Elocal是GRU每个时刻的输出拼接得到的特征,Eglobal和Elocal合称为多尺度风格嵌入Estyle。
需要说明的是,通过提供了多尺度的风格信息,可以增强了语音合成的表现性。
其中,多尺度风格编码器可以采用神经网络模型,主要包括一个3维卷积层、ResNet-18和两层Bi-GRU。3维卷积层用于处理三维数据(例如视频或体积数据)的卷积层。它采用卷积运算对输入数据进行特征提取。3维卷积层通常用于捕捉时空信息,例如视频中的运动模式或体积数据中的结构特征。ResNet-18是一个经典的深度残差网络,用于提取图像中的特征。ResNet-18由多个卷积层和残差块组成,其中每个残差块包含跳跃连接,可以帮助解决梯度消失和模型退化的问题。通过使用ResNet-18,多尺度风格编码器可以从输入图像中提取高层次、抽象的特征。双向门控循环单元(Bi-GRU)是一种循环神经网络(RNN)的变体,用于处理序列数据。Bi-GRU由两个方向相反的门控循环单元组成,分别从前向和后向来对序列数据进行建模。这种双向建模能够捕捉序列数据中的上下文信息。在多尺度风格编码器中,Bi-GRU被用于处理从3维卷积层和ResNet-18提取的特征,以更好地捕捉图像中的时空关系。
在一种可能的实施方式中,S102具体包括子步骤S1021至S1024:
S1021:将第二无声视频序列输入至多尺度风格编码器。
S1022:提取每个时刻的第二无声视频序列的风格特征。
具体地,提取到的风格信息通过一个GRU,将最后一个时刻的隐状态输出作为全局风格特征。
S1023:将每个时刻的风格特征在时间维度上进行拼接,得到局部韵律特征和全局风格特征。
其中,全局风格特征为最后一个时刻的风格特征。
S1024:根据局部韵律特征和全局风格特征生成多尺度的风格嵌入Estyle。
S103:将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入Etext。
S104:文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征Eexpand。
S105:将帧级别的语音特征Eexpand与去噪掩码Mdenoise相乘,获得去噪后的帧级别的语音特征Eclean。
需要说明的是,将去噪掩码Mdenoise与主干网络生成的语音特征Eexpand相乘就可以实现语音去噪。这是因为去噪掩码的数值较小的地方,会使相应位置上的语音特征减小,从而抑制噪声成分;而去噪掩码的数值较大的地方,会使相应位置上的语音特征保持原始的强度。经过去噪之后将拥有更好的语音合成的效果。
S106:将去噪后的帧级别的语音特征Eclean与风格嵌入Estyle在通道维度上进行拼接。
S107:将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图Melclean。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,重视噪声对于语音合成的影响,将噪声也看作一个风格因子,利用视频模态与语音模态的高度相关性,利用视频模态生成去噪掩码,之后通过去噪掩码对语音模态的语音特征进行去噪,大大提升了语音合成的质量,更有利于在实际生活中应用。
(2)在本发明中,避免直接将语谱图作为输入,采用视频模态作为输入,提供多尺度的风格信息,从而避免了信息泄露,提升信息安全性。
(3)在本发明中,可以在合成过程,选择不成对的文本控制合成语音的内容,选择不成对的视频控制合成语音的风格,增强了语音合成的控制性,通过提供了多尺度的风格信息,增强了语音合成的表现性。
在一种可能的实施方式中,在S101之前,多模态的表现性语音合成方法还包括:
S108:获取视频图像,将视频图像中的图片裁剪缩放为预设大小。
可选地,预设大小为96×96的大小。将视频图像中的图片裁剪缩放为预设大小可以便于后续的处理。
S109:从干净数据集中选取语音信号,从噪声数据集中选取噪声信号,将语音信号与噪声信号进行混合,获得噪声语音。
在一种可能的实施方式中,S109具体为:从干净数据集中选取语音信号,从噪声数据集中选取噪声信号,随机选取5-25dB之间的信噪比,将语音信号与噪声信号进行混合,获得噪声语音。
在一种可能的实施方式中,干净数据集为GRID数据集。GRID是由33位说话者的句子按照固定语法组成的数据集。该数据集包含了成对的语音,视频和文本信息。噪声数据集为Nonspeech100数据集。Nonspeech100是包含20种噪声类别的100个噪声语音的噪声数据集。
S110:将语音信号和噪声语音分别进行短时傅里叶变换得到干净的语谱图和噪声语谱图。
其中,短时傅里叶变换将输入的噪声语音信号分解为一系列窗口化的短时片段,每个片段都进行傅里叶变换,得到相应的频谱信息。这些频谱信息可以表示为语谱图,其中每个点表示相应时间和频率的信号强度。
实施例二
参照图4,图4示出了本发明实施例提供的一种多模态的表现性语音合成装置的结构示意图。
本发明提供一种多模态的表现性语音合成装置40,包括:
第一获得模块401,用于将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码Mdenoise;
提供模块402,用于将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入Estyle;
第二获得模块403,用于将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入Etext;
第三获得模块404,用于文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征Eexpand;
第四获得模块405,用于将帧级别的语音特征Eexpand与去噪掩码Mdenoise相乘,获得去噪后的帧级别的语音特征Eclean;
拼接模块406,用于将去噪后的帧级别的语音特征Eclean与风格嵌入Estyle在通道维度上进行拼接;
合成模块407,用于将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图Melclean。
在一种可能的实施方式中,第一获得模块401具体用于:
将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器;
提取出噪声语谱图中的语音特征;
提取出第一无声视频序列中的视频特征,其中,语音特征与视频特征的长度相同;
将语音特征和视频特征进行多模态融合,获得融合特征序列;
将融合特征序列通过激活函数进行处理,获得数值范围在0至1之间的去噪掩码Mdenoise。
在一种可能的实施方式中,激活函数为sigmoid激活函数。
在一种可能的实施方式中,风格嵌入Estyle包括全局风格嵌入Eglobal和局部韵律嵌入Elocal。
在一种可能的实施方式中,提供模块402具体用于:
将第二无声视频序列输入至多尺度风格编码器;
提取每个时刻的第二无声视频序列的风格特征;
将每个时刻的风格特征在时间维度上进行拼接,得到局部韵律特征和全局风格特征,其中,全局风格特征为最后一个时刻的风格特征;
根据局部韵律特征和全局风格特征生成多尺度的风格嵌入Estyle。
在一种可能的实施方式中,多模态的表现性语音合成装置40还包括:
第五获取模块,用于获取视频图像,将视频图像中的图片裁剪缩放为预设大小;
混合模块,用于从干净数据集中选取语音信号,从噪声数据集中选取噪声信号,将语音信号与噪声信号进行混合,获得噪声语音;
变换模块,用于将语音信号和噪声语音分别进行短时傅里叶变换得到干净的语谱图和噪声语谱图。
在一种可能的实施方式中,混合模块具体用于:从干净数据集中选取语音信号,从噪声数据集中选取噪声信号,随机选取5-25dB之间的信噪比,将语音信号与噪声信号进行混合,获得噪声语音。
在一种可能的实施方式中,干净数据集为GRID数据集,噪声数据集为Nonspeech100数据集。
本发明提供的多模态的表现性语音合成装置40能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,重视噪声对于语音合成的影响,将噪声也看作一个风格因子,利用视频模态与语音模态的高度相关性,利用视频模态生成去噪掩码,之后通过去噪掩码对语音模态的语音特征进行去噪,大大提升了语音合成的质量,更有利于在实际生活中应用。
(2)在本发明中,避免直接将语谱图作为输入,采用视频模态作为输入,提供多尺度的风格信息,从而避免了信息泄露,提升信息安全性。
(3)在本发明中,可以在合成过程,选择不成对的文本控制合成语音的内容,选择不成对的视频控制合成语音的风格,增强了语音合成的控制性,通过提供了多尺度的风格信息,增强了语音合成的表现性。
本发明不局限于以上实施例的具体技术方案,除上述实施例外,本发明还可以有其他实施方案。凡采用等同替换形成的技术方案,均为本发明要求的保护范围。
Claims (7)
1.一种多模态的表现性语音合成方法,其特征在于,包括:
S101:将噪声语谱图和与所述噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过所述噪声掩码编码器获得去噪掩码Mdenoise;
所述S101具体包括:
S1011:将噪声语谱图和与所述噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器;
S1012:提取出所述噪声语谱图中的语音特征;
S1013:提取出所述第一无声视频序列中的视频特征,其中,所述语音特征与所述视频特征的长度相同;
S1014:将所述语音特征和所述视频特征进行多模态融合,获得融合特征序列;
S1015:将所述融合特征序列通过激活函数进行处理,获得数值范围在0至1之间的所述去噪掩码Mdenoise;
S102:将第二无声视频序列输入至多尺度风格编码器,通过所述多尺度风格编码器提供多尺度的风格嵌入Estyle;
所述S102具体包括:
S1021:将第二无声视频序列输入至多尺度风格编码器;
S1022:提取每个时刻的第二无声视频序列的风格特征;
S1023:将每个时刻的风格特征在时间维度上进行拼接,得到局部韵律特征和全局风格特征,其中,所述全局风格特征为最后一个时刻的风格特征;
S1024:根据所述局部韵律特征和所述全局风格特征生成多尺度的风格嵌入Estyle;
S103:将文本信息输入至文本编码器,通过所述文本编码器获得文本信息嵌入Etext;
S104:所述文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征Eexpand;
S105:将所述帧级别的语音特征Eexpand与所述去噪掩码Mdenoise相乘,获得去噪后的帧级别的语音特征Eclean;
S106:将所述去噪后的帧级别的语音特征Eclean与所述风格嵌入Estyle在通道维度上进行拼接;
S107:将拼接得到的特征序列输入至解码器,通过所述解码器合成干净的语谱图Melclean。
2.根据权利要求1所述的多模态的表现性语音合成方法,其特征在于,所述激活函数为sigmoid激活函数。
3.根据权利要求1所述的多模态的表现性语音合成方法,其特征在于,所述风格嵌入Estyle包括全局风格嵌入Eglobal和局部韵律嵌入Elocal。
4.根据权利要求1所述的多模态的表现性语音合成方法,其特征在于,在所述S101之前还包括:
S108:获取视频图像,将视频图像中的图片裁剪缩放为预设大小;
S109:从干净数据集中选取语音信号,从噪声数据集中选取噪声信号,将所述语音信号与所述噪声信号进行混合,获得噪声语音;
S110:将所述语音信号和所述噪声语音分别进行短时傅里叶变换得到干净的语谱图和噪声语谱图。
5.根据权利要求4所述的多模态的表现性语音合成方法,其特征在于,所述S109具体为:
从干净数据集中选取语音信号,从噪声数据集中选取噪声信号,随机选取5-25dB之间的信噪比,将所述语音信号与所述噪声信号进行混合,获得噪声语音。
6.根据权利要求4所述的多模态的表现性语音合成方法,其特征在于,所述干净数据集为GRID数据集,所述噪声数据集为Nonspeech100数据集。
7.一种多模态的表现性语音合成装置,其特征在于,包括:
第一获得模块,用于将噪声语谱图和与所述噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过所述噪声掩码编码器获得去噪掩码Mdenoise;
所述第一获得模块具体用于:
将噪声语谱图和与所述噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器;
提取出所述噪声语谱图中的语音特征;
提取出所述第一无声视频序列中的视频特征,其中,所述语音特征与所述视频特征的长度相同;
将所述语音特征和所述视频特征进行多模态融合,获得融合特征序列;
将所述融合特征序列通过激活函数进行处理,获得数值范围在0至1之间的所述去噪掩码Mdenoise;
提供模块,用于将第二无声视频序列输入至多尺度风格编码器,通过所述多尺度风格编码器提供多尺度的风格嵌入Estyle;
所述提供模块具体用于:
将第二无声视频序列输入至多尺度风格编码器;
提取每个时刻的第二无声视频序列的风格特征;
将每个时刻的风格特征在时间维度上进行拼接,得到局部韵律特征和全局风格特征,其中,所述全局风格特征为最后一个时刻的风格特征;
根据所述局部韵律特征和所述全局风格特征生成多尺度的风格嵌入Estyle;
第二获得模块,用于将文本信息输入至文本编码器,通过所述文本编码器获得文本信息嵌入Etext;
第三获得模块,用于所述文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征Eexpand;
第四获得模块,用于将所述帧级别的语音特征Eexpand与所述去噪掩码Mdenoise相乘,获得去噪后的帧级别的语音特征Eclean;
拼接模块,用于将所述去噪后的帧级别的语音特征Eclean与所述风格嵌入Estyle在通道维度上进行拼接;
合成模块,用于将拼接得到的特征序列输入至解码器,通过所述解码器合成干净的语谱图Melclean 。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310613237.6A CN116386590B (zh) | 2023-05-29 | 2023-05-29 | 一种多模态的表现性语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310613237.6A CN116386590B (zh) | 2023-05-29 | 2023-05-29 | 一种多模态的表现性语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116386590A CN116386590A (zh) | 2023-07-04 |
CN116386590B true CN116386590B (zh) | 2023-08-15 |
Family
ID=86971337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310613237.6A Active CN116386590B (zh) | 2023-05-29 | 2023-05-29 | 一种多模态的表现性语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386590B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116543749B (zh) * | 2023-07-05 | 2023-09-15 | 北京科技大学 | 一种基于堆栈记忆网络的多模态语音合成方法及系统 |
CN116563957B (zh) * | 2023-07-10 | 2023-09-29 | 齐鲁工业大学(山东省科学院) | 一种基于傅里叶域适应的人脸伪造视频检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112951258A (zh) * | 2021-04-23 | 2021-06-11 | 中国科学技术大学 | 一种音视频语音增强处理方法及模型 |
CN114040126A (zh) * | 2021-09-22 | 2022-02-11 | 西安深信科创信息技术有限公司 | 一种文字驱动的人物播报视频生成方法及装置 |
CN114692733A (zh) * | 2022-03-11 | 2022-07-01 | 华南理工大学 | 端到端的抑制时域噪声放大的视频风格迁移方法、系统及存储介质 |
WO2022204630A1 (en) * | 2021-03-23 | 2022-09-29 | Qualcomm Incorporated | Context-based speech enhancement |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102663669B1 (ko) * | 2019-11-01 | 2024-05-08 | 엘지전자 주식회사 | 소음 환경에서의 음성 합성 |
-
2023
- 2023-05-29 CN CN202310613237.6A patent/CN116386590B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022204630A1 (en) * | 2021-03-23 | 2022-09-29 | Qualcomm Incorporated | Context-based speech enhancement |
CN112951258A (zh) * | 2021-04-23 | 2021-06-11 | 中国科学技术大学 | 一种音视频语音增强处理方法及模型 |
CN114040126A (zh) * | 2021-09-22 | 2022-02-11 | 西安深信科创信息技术有限公司 | 一种文字驱动的人物播报视频生成方法及装置 |
CN114692733A (zh) * | 2022-03-11 | 2022-07-01 | 华南理工大学 | 端到端的抑制时域噪声放大的视频风格迁移方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于WaveNet的端到端语音合成方法;邱泽宇;屈丹;张连海;;计算机应用(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116386590A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116386590B (zh) | 一种多模态的表现性语音合成方法及装置 | |
CN112562720B (zh) | 一种唇形同步的视频生成方法、装置、设备及存储介质 | |
US10777215B2 (en) | Method and system for enhancing a speech signal of a human speaker in a video using visual information | |
Lee et al. | Emotional end-to-end neural speech synthesizer | |
Akbari et al. | Lip2audspec: Speech reconstruction from silent lip movements video | |
JP2022137201A (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
Biswas et al. | Audio codec enhancement with generative adversarial networks | |
Borsos et al. | Speechpainter: Text-conditioned speech inpainting | |
Cao et al. | Nonparallel Emotional Speech Conversion Using VAE-GAN. | |
CN111916054A (zh) | 基于唇形的语音生成方法、装置和系统及存储介质 | |
CN110428812A (zh) | 基于动态时间规划根据语音信息合成舌超声视频的方法 | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Hegde et al. | Visual speech enhancement without a real visual stream | |
WO2020175530A1 (ja) | データ変換学習装置、データ変換装置、方法、及びプログラム | |
CN116013297A (zh) | 一种基于多模态门控提升模型的视听语音降噪方法 | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
Huang et al. | A preliminary study of a two-stage paradigm for preserving speaker identity in dysarthric voice conversion | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
CN117975991A (zh) | 基于人工智能的数字人驱动方法及装置 | |
CN116828129B (zh) | 一种超清2d数字人生成方法及系统 | |
CN115938385A (zh) | 一种语音分离方法、装置及存储介质 | |
CN117594034A (zh) | 多模态语音识别方法、装置、冰箱及存储介质 | |
Zheng et al. | Incorporating ultrasound tongue images for audio-visual speech enhancement through knowledge distillation | |
WO2024087337A1 (zh) | 一种由舌部超声图像直接合成语音的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |