CN113470671B - 一种充分利用视觉与语音联系的视听语音增强方法及系统 - Google Patents

一种充分利用视觉与语音联系的视听语音增强方法及系统 Download PDF

Info

Publication number
CN113470671B
CN113470671B CN202110716972.0A CN202110716972A CN113470671B CN 113470671 B CN113470671 B CN 113470671B CN 202110716972 A CN202110716972 A CN 202110716972A CN 113470671 B CN113470671 B CN 113470671B
Authority
CN
China
Prior art keywords
voice
amplitude
phase
visual
enhanced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110716972.0A
Other languages
English (en)
Other versions
CN113470671A (zh
Inventor
李腾
王晓龙
王妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110716972.0A priority Critical patent/CN113470671B/zh
Publication of CN113470671A publication Critical patent/CN113470671A/zh
Application granted granted Critical
Publication of CN113470671B publication Critical patent/CN113470671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

一种充分利用视觉与语音联系的视听语音增强方法及系统,属于语音信号处理技术领域,解决如何利用视觉与语音之间的内在联系,在现实中嘈杂的语音环境中实现对目标语音信息进行增强的问题;在语音特征和视觉特征融合之前,通过BLSTM对视觉特征进行初次利用,由此得到的目标的二进制掩码和原始的噪声幅度谱图获取的语音特征相融合从而得到干净幅度二进制掩码,将此幅度掩码代替基本框架中的视觉特征和语音特征一起馈入BLSTM和全连接层组成的训练网络;同时在基础的增强网络之上,基于频域,加入后置相位子网络,利用语音的幅度和相位在结构上相关性,获取增强相位谱图和幅度谱图相融合使得语音增强效果更佳,提高了增强后语音清晰度,降低语音失真率。

Description

一种充分利用视觉与语音联系的视听语音增强方法及系统
技术领域
本发明属于语音信号处理技术领域,涉及一种充分利用视觉与语音联系的视听语音增强方法及系统。
背景技术
“语音增强”或者说“语音分离”来自于“鸡尾酒会问题”,采集的语音信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音增强的目标就是从这些干扰中分离出主说话人的语音得到增强的语音信号的效果。
当我们身处一个嘈杂的环境中,想要清晰准确地分辨我们欲感知的声音可以直接走近声音源处,根据距离优势得到我们想要了解的声音。当我们的预感知对象发生了迁移,我们依然可以由自身移动去追踪声源的位置。但是如若我们是在观看一个录制的视频,预感知对象的声源成为视频中固定的存在,丧失了缩短位置靠近声源的优势,想要在嘈杂的混合语音中得到想要的清晰的语音就成为了一个难题。于是就需要用到语音信号的增强型研究。
传统的语音分离和语音增强主流方法为独立分量分析ICA(IndependentComponent Analysis)和稀疏主成分分析Spars PCA。
独立分量分析是将信号之间的独立性作为分离变量判据的方法。ICA方法可以通过某个对比函数的目标函数达到极大值来消除观察信号中的高阶统计关联,实现盲源分离。盲源分离被描述成在不知道传输通道特性的情况下,从传感器或传感器阵列中分离或估计原始源波形的问题。
稀疏主成分分析则会把主成分系数(构成主成分时每个变量前面的系数)变的稀疏,也即是把大多数系数都变成零,通过这样一种方式,我们就可以把主成分的主要的部分凸现出来,这样主成分就会变得较为容易解释。
随着深度学习的发展,在语音分离和语音增强上也开始广泛应用,其中应用最广泛的方法是端到端的语音分离和增强。端到端的语音分离框架仍然是纯语音分离和语音增强主流的发展趋势。如郭荣志等人提出的文献《Enhancing End-to-End Multi-ChannelSpeech Separation Via Spatial Feature Learning》(ICASSP 2020-2020 IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020.)公开了集成架构可直接从端到端语音分离框架内的多通道语音波形中学习空间特征。在此体系结构中,训练跨越信号通道的时域滤波器以执行自适应空间滤波。这些滤波器由2d卷积(conv2d)层实现,并且使用语音分离目标函数以纯数据驱动的方式优化了它们的参数。同时具有深度注意力融合特征的端到端后置滤波方法,可用于非单声道说话者无关的语音分离。将时频域语音分离方法用作预分离阶段,目的是对混合物进行初步分离。提出了具有深层关注融合特征的端到端后置滤波器(E2EPF)从而增强预分离语音效果,进一步提高分离性能。E2EPF可以充分利用预先分离语音的先验知识,这有助于语音分离。它是一个完全卷积的语音分离网络,使用波形作为输入特征。
尽管近年来自纯语音分离领域取得了长足进步,但其呈现地效果仍存在一些缺陷,特别是在嘈杂的环境中或在多个人同时讲话的情况下识别语音信息。基于此,在多说话人场景中隔离语音,增加嘈杂语音中的信噪比或两者的结合都是重要的任务。随着不断对其深入研究的进行,多模态的语音分离得到的被增强的语音信号质量可以呈现显著地提升,其中以面部信息作为参考最能直接有效地改善语音增强的效果。
研究表明仅使用语音作为输入来解决此任务非常具有挑战性,并且不能提供分离的语音信号与视频中的扬声器的关联。于是谷歌团队提出了一个基于深度网络的模型,参见文献《Looking to Listen at the Cocktail Party:A Speaker-Independent Audio-Visual Model for Speech Separation》(ACM Transactions on Graphics,2018,37(4CD):112.1-112.11.),该模型结合了视觉和听觉信号来解决此任务。在纯语音分离上加上视觉信息融入增强网络,这就是视听语音分离和视听语音增强,视觉功能用于将语音“聚焦”到场景中所需的扬声器上并提高语音分离和语音增强质量。基于视觉信息和语音信息的相关性,提出将面部信息的提取融入增强和分离网络,用来提高语音分离的效果。
视听语音增强的基本流程为:视觉特征提取、语音特征提取、视觉语音融合以及逆转,便可得到想要增强的语音。这是一套完整的流程,但是仍然有一些地方可以改进从而达到更好的效果。
首先,常见的视听语音增强中考虑的是用面部信息驱动语音的增强。但是利用语音信息同样可以反过来有效提高面部信息的提取性能。所以本发明的思路在于用视觉特征增强语音之前,通过BLSTM,对视觉特征进行初次利用,由此得到的二进制掩码和原始的噪声幅度谱图相融合从而得到干净的幅度二进制掩码,从而更深层次地发掘面部信息与语音之间的相关性。这里就是语音特征和视觉特征的初次融合,将此干净的幅度二进制掩码代替基本框架中的视觉特征,和语音特征一起馈入BLSTM和全连接层组成的训练网络。同时语音的相位和幅度之间存在某种内部联系使得二者具有相关性,所以本发明考虑在基础的增强网络之上,从时域和频域上出发,加入后置的相位子网络,利用语音的幅度和相位在结构上的相关性,从而使得语音的增强效果更佳。
发明内容
本发明所要解决的技术问题在于如何利用视觉与语音之间的内在联系,在现实中嘈杂的语音环境中实现对目标语音信息进行增强。
本发明是通过以下技术方案解决上述技术问题的:
一种充分利用视觉与语音联系的视听语音增强方法,包括以下步骤:
S01、获取混合语音输入样本:对每个样本的语音片段,通过人工加噪的方式形成嘈杂的混合语音输入样本;
S02、获取输入语音幅度特征:对混合语音信号进行采样获得其时域信号,对混合语音时域信号加窗分帧和短时傅里叶变换得到混合语音的原始幅度谱图和原始相位谱图,将所述的原始幅度谱图输入到组合的ResNet网络从而获取语音幅度特征;
S03、获取输入视觉特征:采用人脸检测器提取人脸关键信息,经由时空残差网络提取面部信息作为视觉特征;
S04、视觉和语音初次融合:将步骤S03得到的视觉特征输入BLSTM中,从而得到二进制掩码,将步骤S02得到的语音幅度特征和二进制掩码相融合,从而得到干净的二进制幅度掩码;
S05、视觉和语音再次融合:将步骤S04中得到的包含语音和视觉之间联系的干净的二进制幅度掩码和语音幅度特征串联输入,双向的BLSTM,经由BLSTM之后再进入两层全连接层,再经由激活函数将输出控制在[0,1]区间之内,经过迭代训练之后得到可乘的理想幅度掩码,再将语音幅度特征和可乘的理想幅度掩码相乘,得到增强的幅度谱图;
S06、幅度与相位相结合,逆变换获取增强语音:将步骤S05中得到的增强的幅度谱图和原始相位谱图一起输入相位子网络获得相位残差,经由L2型标准化从而获得增强的相位谱图,通过最小化增强的幅度谱图和地面真理之间的L1型损失函数来训练幅度子网络,通过最大化增强的相位谱图和地面真理之间的余弦相似性,通过地面真相缩放来训练相位子网络,在通过傅里叶逆变换,最终输出增强的语音。
本发明的技术方案通过充分利用语音与视觉之间的相关性,在语音特征和视觉特征融合之前,通过BLSTM对视觉特征进行初次利用,由此得到的目标的二进制掩码和原始的噪声幅度谱图获取的语音特征相融合从而得到干净的幅度二进制掩码,将此幅度掩码代替基本框架中的视觉特征,和语音特征一起馈入BLSTM和全连接层组成的训练网络。同时在基础的增强网络之上,基于频域的角度考虑,加入后置地相位子网络,利用语音的幅度和相位在结构上的相关性,获取增强的相位谱图,并和幅度谱图相融合,从而使得语音的增强效果更佳。相比现有的语音增强技术,本发明的技术方案能够有效的结合面部视觉信息,同时在频域上将语音的幅度与相位相结合,使得语音增强的效果有很明显的提升,同时更适用于现实中嘈杂的语音环境,提高了增强后语音的清晰度,降低语音的失真率,有效地提高了增强后目标语音的可懂度,对于语音增强在现实生活中的应用有很好的参考价值。
作为本发明技术方案的进一步改进,步骤S01所述的通过人工加噪的方式形成嘈杂的混合语音输入样本的方法为:在每个样本中第一说话人的语音中,随机混合其他说话人的时长相等的语音片段,以其他说话人的语音作为噪音掺杂,从而形成嘈杂的混合语音输入样本。
作为本发明技术方案的进一步改进,步骤S02所述的加窗分帧采用汉宁窗函数,所述的ResNet网络采用5个卷积层构成的卷积模块。
作为本发明技术方案的进一步改进,步骤S03所述的时空残差网络提取面部信息的方法为:将提取的人脸关键信息输入到一个3D的ResNet卷积层,然后经过一维的18层的ResNet,共有10个卷积块,对于每个时间节点上的人脸信息,网络输出512维特征向量作为视觉特征向量。
作为本发明技术方案的进一步改进,步骤S04所述的干净的二进制幅度掩码的计算公式为:
其中,是干净的二进制幅度掩码;σ是sigmoid激活函数,使得输出的值介于0到1之间;/>表示周期为T的幅度网络中的卷积块形成的堆栈;/>为视觉特征向量;M0是带噪声的原始幅度谱图。
作为本发明技术方案的进一步改进,步骤S05所述的增强的幅度谱图的计算公式为:
其中,为语音特征向量;/>为增强的幅度谱图。
作为本发明技术方案的进一步改进,步骤S06中所述的相位子网络获得相位残差的方法为:将增强的幅度谱图和原始相位谱图作为输入,二者经由线性投影融合在一起后输入至卷积模块,再利用幅度和相位之间的相关性,以增强的幅度谱图为参照,将其映射到原始相位谱图,从而得到相位残差;所述的相位残差的计算公式为:
其中,φ6表示相位残差,Conv Block表示卷积快;表示T周期下相位和幅度结合中的卷积块堆栈,/>表示T周期下相位网络中的卷积快堆栈,Φn表示噪声的相位谱图。
作为本发明技术方案的进一步改进,步骤S06所述的增强的相位谱图的计算方法为:经由L2型标准化,从而获得增强的相位谱图如下:
其中,表示预测的增强的相位谱图;/>表示T周期下残差和原始相位结合时的卷积块堆栈。
作为本发明技术方案的进一步改进,步骤S06所述的增强的语音计算公式为:
其中,M*为真实的目标幅度谱图;λ为预设的比例因子,经实验得其值取0.8最佳;T表示时间帧,F表示采样频率;Σt,f表示求和;表示T-F单元下真实的目标幅度谱图;/>表示T-F单元下预测的干净的相位谱图;/>表示T-F单元下真实的相位谱图。
一种充分利用视觉与语音联系的视听语音增强系统,包括:
获取混合语音输入样本模块,用于对每个样本的语音片段,通过人工加噪的方式形成嘈杂的混合语音输入样本;
获取输入语音幅度特征模块,用于对混合语音信号进行采样获得其时域信号,对混合语音时域信号加窗分帧和短时傅里叶变换得到混合语音的原始幅度谱图和原始相位谱图,将所述的原始幅度谱图输入到组合的ResNet网络从而获取语音幅度特征;
获取输入视觉特征模块,用于采用人脸检测器提取人脸关键信息,经由时空残差网络提取面部信息作为视觉特征;
视觉和语音初次融合模块,用于将获取输入视觉特征模块得到的视觉特征输入BLSTM中,从而得到二进制掩码,将获取输入语音幅度特征模块得到的语音幅度特征和二进制掩码相融合,从而得到干净的二进制幅度掩码;
视觉和语音再次融合模块,用于将视觉和语音初次融合模块中得到的包含语音和视觉之间联系的干净的二进制幅度掩码和语音幅度特征串联输入,双向的BLSTM,经由BLSTM之后再进入两层全连接层,再经由激活函数将输出控制在[0,1]区间之内,经过迭代训练之后得到可乘的理想幅度掩码,再将语音幅度特征和可乘的理想幅度掩码相乘,得到增强的幅度谱图;
逆变换获取增强语音模块,用于将视觉和语音再次融合模块中得到的增强的幅度谱图和原始相位谱图一起输入相位子网络获得相位残差,经由L2型标准化从而获得增强的相位谱图,通过最小化增强的幅度谱图和地面真理之间的L1型损失函数来训练幅度子网络,通过最大化增强的相位谱图和地面真理之间的余弦相似性,通过地面真相缩放来训练相位子网络,在通过傅里叶逆变换,最终输出增强的语音。
本发明的优点在于:
本发明的技术方案通过充分利用语音与视觉之间的相关性,在语音特征和视觉特征融合之前,通过BLSTM对视觉特征进行初次利用,由此得到的目标的二进制掩码和原始的噪声幅度谱图获取的语音特征相融合从而得到干净的幅度二进制掩码,将此幅度掩码代替基本框架中的视觉特征,和语音特征一起馈入BLSTM和全连接层组成的训练网络。同时在基础的增强网络之上,基于频域的角度考虑,加入后置地相位子网络,利用语音的幅度和相位在结构上的相关性,获取增强的相位谱图,并和幅度谱图相融合,从而使得语音的增强效果更佳。相比现有的语音增强技术,本发明的技术方案能够有效的结合面部视觉信息,同时在频域上将语音的幅度与相位相结合,使得语音增强的效果有很明显的提升,同时更适用于现实中嘈杂的语音环境,提高了增强后语音的清晰度,降低语音的失真率,有效地提高了增强后目标语音的可懂度,对于语音增强在现实生活中的应用有很好的参考价值。
附图说明
图1为本发明实施例一的充分利用视觉与语音联系的视听语音增强方法的流程图。
图2为本发明实施例一的充分利用视觉与语音联系的视听语音增强方法的执行步骤图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述:
实施例一
如图1所示,一种充分利用视觉与语音联系的视听语音增强方法,包括:
1、获取混合语音输入样本
对每个样本的语音片段,通过人工加噪的方式形成嘈杂的混合语音输入样本;样本包括:训练数据集、测试数据集和验证数据集;训练数据集和验证数据集采用GRID数据集,测试数据集采用GRID数据集和TCD-TIMIT数据集。数据集由长度为3秒的视频和视频对应的语音组成,初始的语音是干净清晰的语音。对每个样本,作为第一说话人的语音中,随机混合其他说话人的时长相等的语音片段,以第二说话人的语音作为噪音掺杂,这样人工加噪的方式使得干净的样本形成训练数据集,作为嘈杂的语音输入样本,同样的方法创造出验证数据集和测试数据集。同样的,在人工加噪的时候,对第一说话人的语音片段随机混合进第二说话人和第三说话人的语音片段,这样得到的混合语音的噪音成分更多,相对来说更为嘈杂,清晰度更低。
2、获取输入语音幅度特征
由步骤1得到的混合语音作为训练前的样本准备,对训练语音样本进行信号采样,从而获取混合语音样本时域信号。具体地,对混合语音的训练样本进行时域信号的下采样,采样频率为16kHz。
语音信号是一个准稳态的信号,若把它分成较短的帧,每帧中可将其看作稳态信号,可用处理稳态信号的方法来处理。由于在步骤3中的视觉特征提取的时候,视觉信息提取的时间间隔为40ms,也就是每秒25FPS,所以在语音的处理中,选择10ms的跳跃长度,窗口长度为40ms。将语音信号分帧后,需要对每一帧信号进行分析处理。窗函数一般具有低通特性,加窗函数的目的是减少频域中的泄漏。和现有的大部分技术相同,本发明选择汉宁窗进行计算。
对混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱图和相位谱图,幅度谱图M0将在此步骤中馈入语音特征提取网络(ResNet)以获得混合的语音幅度特征,相位谱图将在步骤5相位网络中使用。ResNet网络是由ResNet的卷积模块构成,此处为5个卷积层,语音幅度特征向量可表示为
3、获取输入视觉特征
目前现有的技术中,对视频预处理的时候多数选择将完整的视频片段分割成连续的视频帧,通常以40ms为间隔,一秒的视频片段被分成25个视频帧,作为图片输入。这样做的方法存在一个弊端就是需要先切割视频在输入,本发明中选择使用人脸检测器和人脸关键点检测器进行视频中目标视觉信息(主要是面部信息)的提取。同样是以40ms为时间间隔记录关键点信息。采用速度较块,检测精度较高的DLIB人脸检测器和DLIB人脸关键点检测器。在对视频中人脸信息进行预处理的时候,只需由其检测到人脸,同时将人脸关键点检测出来并保存至单独的文件内,作为人脸信息的输入。
DLIB人脸检测器是一个机器学习的C++库,包含了多种机器学习常用的算法,通过DLIB库代码解读,来对人脸检测的相关技术做分析。
人脸信息每个时间帧的信息将被馈入时空残差网络以获取视觉特征。
时空残差网络作为视觉流和语音流混合训练前,对视觉信息的预训练,也被称为唇读网络。时空残差网络是一种复合的网络结构,进入此网络,首先进入一个3D的ResNet卷积层,然后是一维的18层的ResNet,共有10个卷积块。对于每个时间节点上的人脸信息,网络输出紧凑的512维特征向量
4、视觉和语音初次融合
由步骤3得到的视觉特征首先需要经过BLSTM得到目标的二进制掩码。
首先介绍一下BLSTM,BLSTM由LSTM进化而来。LSTM由RNN演变而来,是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
LSTM内部主要有三个阶段:
(1)忘记阶段。这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是会“忘记不重要的,记住重要的”。
(2)选择记忆阶段。这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入进行选择记忆。哪些重要则着重记录下来,哪些不重要,则少记一些。
(3)输出阶段。这个阶段将决定哪些将会被当成当前状态的输出。
LSTM通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息;而不像普通的RNN那样只能够单一地仅有一种记忆叠加方式。
BLSTM是LSTM的另一种变型。由于LSTM只能实现单向的传递,当我们语句是承前启后的情况时,自然能完成。但是当语句顺序倒过来,关键信息由后向前传递,LSTM就无能为力了。因此这里需要使用提BLSTM双向网络。BLSTM和LSTM的单元计算是相同的,不同的是单向的隐藏层只需要保存一个值,但是双向的需要保存两个值,一个值参与正向计算,另一个值参与反向计算。最终的输出值取决于两者的和。
视觉特征经由BLSTM之后,再经由激活函数归一化,使得其幅值分布在[0,1]的区间之内,便可得到二进制掩码,再和嘈杂的语音幅度谱图相融合,得到的便是干净的二进制掩码,表示为:
其中,是干净的二进制掩码;σ是sigmoid激活函数,使得输出的值介于0到1之间;/>表示周期为T下幅度网络中的卷积块形成的堆栈;/>为视觉特征向量;M0是带噪声的原始的幅度谱图。
这里是为了充分挖掘语音与视觉信息之间的相关性,将含有语音与视觉之间联系的干净的目标二进制掩码代替基本框架中的视觉特征,将在步骤5中介绍。
5、视觉和语音再次融合
由步骤4得到的联系着语音与视觉信息的干净二进制掩码将在此步骤中和嘈杂的原始语音提取的特征一起馈入训练网络,这里训练网络包括单层的BLSTM和两个全连接层(BLSTM+FC),经由BLSTM之后进入两层全连接层,这里可以得到可乘的理想幅度谱图的掩码,输出的每个时间帧上的掩码的数值需要进行微调,需要进行归一化处理,通过一个激活函数将这些掩码的数值映射到[0,1]的区间之内,再和语音幅度特征向量相乘,经由掩码和幅度谱图的逐位相乘之后,这样便得到了增强的幅度谱图,表示为:
其中,为语音特征向量;/>为增强的幅度谱图。
增强的幅度谱图经由逆傅里叶变换便可以得到增强后的语音。
6、为了进一步提升语音增强的效果,在逆傅里叶变换之前,本发明加入了后置的相位子网络,利用相位和幅度之间存在的结构相关性,对语音再一次增强。
相位子网络的两个输入通过线性投影得以融合,将此产物馈入一段由6个卷积块组成的网络段,其中每个都有1024个通道。
以步骤5得到的增强后的幅度谱图和步骤2中嘈杂语音经由短时傅里叶变换得到的相位谱图作为输入,二者经由线性投影融合在一起再输入至卷积模块。这里是利用幅度和相位之间的相关性,以增强的幅度谱图为参照,将其映射到原始的相位谱图,得到相位残差。
所述的相位残差的计算公式为:
再经由L2型标准化,从而获得以下增强的相位谱图:
其中,Conv Block表示卷积快;表示T周期下相位和幅度结合中的卷积块堆栈;表示T周期下相位网络中的卷积快堆栈;φ6表示相位残差;Φn表示噪声的相位谱图;/>表示增强的相位谱图;/>表示T周期下残差和原始相位结合时的卷积块堆栈。
通过最小化增强的幅度谱图和地面真理之间的L1型损失函数来训练幅度子网络,通过最大化增强的相位谱图和地面真理之间的余弦相似性,通过地面真相缩放来训练相位子网络,在通过傅里叶逆变换,最终目标是输出增强的语音计算公式如下:
其中,M*为真实的目标幅度谱图;λ为预设的比例因子,经实验得其值取0.8最佳;T表示时间帧,F表示采样频率;Σt,f表示求和;表示T-F单元下真实的目标幅度谱图;/>表示T-F单元下预测的干净的相位谱图;/>表示T-F单元下真实的相位谱图。
经由幅度和相位两个阶段的网络的训练,最终输出的便是嘈杂语音增强后的谱图,包括将相位网络得到的增强的相位谱图和步骤5得到的增强后的幅度谱图。
将二者经由逆傅里叶变换转化回时域便可以得到最终的增强语音。
至此,本发明的方法流程叙述完毕。
实施例二
一种充分利用视觉与语音联系的视听语音增强系统,包括:获取混合语音输入样本模块,获取输入语音幅度特征模块,获取输入视觉特征模块,视觉和语音初次融合模块,视觉和语音再次融合模块,逆变换获取增强语音模块。
所述的获取混合语音输入样本模块,用于对每个样本的语音片段,通过人工加噪的方式形成嘈杂的混合语音输入样本;
所述的获取输入语音幅度特征模块,用于对混合语音信号进行采样获得其时域信号,对混合语音时域信号加窗分帧和短时傅里叶变换得到混合语音的原始幅度谱图和原始相位谱图,将所述的原始幅度谱图输入到组合的ResNet网络从而获取语音幅度特征;
所述的获取输入视觉特征模块,用于采用人脸检测器提取人脸关键信息,经由时空残差网络提取面部信息作为视觉特征;
所述的视觉和语音初次融合模块,用于将获取输入视觉特征模块得到的视觉特征输入BLSTM中,从而得到二进制掩码,将获取输入语音幅度特征模块得到的语音幅度特征和二进制掩码相融合,从而得到干净的二进制幅度掩码;
所述的视觉和语音再次融合模块,用于将视觉和语音初次融合模块中得到的包含语音和视觉之间联系的干净的二进制幅度掩码和语音幅度特征串联输入,双向的BLSTM,经由BLSTM之后再进入两层全连接层,再经由激活函数将输出控制在[0,1]区间之内,经过迭代训练之后得到可乘的理想幅度掩码,再将语音幅度特征和可乘的理想幅度掩码相乘,得到增强的幅度谱图;
所述的逆变换获取增强语音模块,用于将视觉和语音再次融合模块中得到的增强的幅度谱图和原始相位谱图一起输入相位子网络获得相位残差,经由L2型标准化从而获得增强的相位谱图,通过最小化增强的幅度谱图和地面真理之间的L1型损失函数来训练幅度子网络,通过最大化增强的相位谱图和地面真理之间的余弦相似性,通过地面真相缩放来训练相位子网络,在通过傅里叶逆变换,最终输出增强的语音。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,包括以下步骤:
S01、获取混合语音输入样本:对每个样本的语音片段,通过人工加噪的方式形成嘈杂的混合语音输入样本;
S02、获取输入语音幅度特征:对混合语音信号进行采样获得其时域信号,对混合语音时域信号加窗分帧和短时傅里叶变换得到混合语音的原始幅度谱图和原始相位谱图,将所述的原始幅度谱图输入到组合的ResNet网络从而获取语音幅度特征;
S03、获取输入视觉特征:采用人脸检测器提取人脸关键信息,经由时空残差网络提取面部信息作为视觉特征;
S04、视觉和语音初次融合:将步骤S03得到的视觉特征输入BLSTM中,从而得到二进制掩码,将步骤S02得到的语音幅度特征和二进制掩码相融合,从而得到干净的二进制幅度掩码;
S05、视觉和语音再次融合:将步骤S04中得到的包含语音和视觉之间联系的干净的二进制幅度掩码和语音幅度特征串联输入,双向的BLSTM,经由BLSTM之后再进入两层全连接层,再经由激活函数将输出控制在[0,1]区间之内,经过迭代训练之后得到可乘的理想幅度掩码,再将语音幅度特征和可乘的理想幅度掩码相乘,得到增强的幅度谱图;
S06、幅度与相位相结合,逆变换获取增强语音:将步骤S05中得到的增强的幅度谱图和原始相位谱图一起输入相位子网络获得相位残差,经由L2型标准化从而获得增强的相位谱图,通过最小化增强的幅度谱图和地面真理之间的L1型损失函数来训练幅度子网络,通过最大化增强的相位谱图和地面真理之间的余弦相似性,通过地面真相缩放来训练相位子网络,在通过傅里叶逆变换,最终输出增强的语音。
2.根据权利要求1所述的一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,步骤S01所述的通过人工加噪的方式形成嘈杂的混合语音输入样本的方法为:在每个样本中第一说话人的语音中,随机混合其他说话人的时长相等的语音片段,以其他说话人的语音作为噪音掺杂,从而形成嘈杂的混合语音输入样本。
3.根据权利要求1所述的一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,步骤S02所述的加窗分帧采用汉宁窗函数,所述的ResNet网络采用5个卷积层构成的卷积模块。
4.根据权利要求1所述的一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,步骤S03所述的时空残差网络提取面部信息的方法为:将提取的人脸关键信息输入到一个3D的ResNet卷积层,然后经过一维的18层的ResNet,共有10个卷积块,对于每个时间节点上的人脸信息,网络输出512维特征向量作为视觉特征向量。
5.根据权利要求1所述的一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,步骤S04所述的干净的二进制幅度掩码的计算公式为:
其中,是干净的二进制幅度掩码;σ是sigmoid激活函数,使得输出的值介于0到1之间;/>表示周期为T的幅度网络中的卷积块形成的堆栈;/>为视觉特征向量;M0是带噪声的原始幅度谱图。
6.根据权利要求5所述的一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,步骤S05所述的增强的幅度谱图的计算公式为:
其中,为语音特征向量;/>为增强的幅度谱图。
7.根据权利要求6所述的一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,步骤S06中所述的相位子网络获得相位残差的方法为:将增强的幅度谱图和原始相位谱图作为输入,二者经由线性投影融合在一起后输入至卷积模块,再利用幅度和相位之间的相关性,以增强的幅度谱图为参照,将其映射到原始相位谱图,从而得到相位残差;所述的相位残差的计算公式为:
其中,φ6表示相位残差,Conv Block表示卷积快;表示T周期下相位和幅度结合中的卷积块堆栈,/>表示T周期下相位网络中的卷积快堆栈,Φn表示噪声的相位谱图。
8.根据权利要求7所述的一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,步骤S06所述的增强的相位谱图的计算方法为:经由L2型标准化,从而获得增强的相位谱图如下:
其中,表示预测的增强的相位谱图;/>表示T周期下残差和原始相位结合时的卷积块堆栈。
9.根据权利要求8所述的一种充分利用视觉与语音联系的视听语音增强方法,其特征在于,步骤S06所述的增强的语音计算公式为:
其中,M*为真实的目标幅度谱图;λ为预设的比例因子,经实验得其值取0.8最佳;T表示时间帧,F表示采样频率;Σt,f表示求和;表示T-F单元下真实的目标幅度谱图;/>表示T-F单元下预测的干净的相位谱图;/>表示T-F单元下真实的相位谱图。
10.一种充分利用视觉与语音联系的视听语音增强系统,其特征在于,包括:
获取混合语音输入样本模块,用于对每个样本的语音片段,通过人工加噪的方式形成嘈杂的混合语音输入样本;
获取输入语音幅度特征模块,用于对混合语音信号进行采样获得其时域信号,对混合语音时域信号加窗分帧和短时傅里叶变换得到混合语音的原始幅度谱图和原始相位谱图,将所述的原始幅度谱图输入到组合的ResNet网络从而获取语音幅度特征;
获取输入视觉特征模块,用于采用人脸检测器提取人脸关键信息,经由时空残差网络提取面部信息作为视觉特征;
视觉和语音初次融合模块,用于将获取输入视觉特征模块得到的视觉特征输入BLSTM中,从而得到二进制掩码,将获取输入语音幅度特征模块得到的语音幅度特征和二进制掩码相融合,从而得到干净的二进制幅度掩码;
视觉和语音再次融合模块,用于将视觉和语音初次融合模块中得到的包含语音和视觉之间联系的干净的二进制幅度掩码和语音幅度特征串联输入,双向的BLSTM,经由BLSTM之后再进入两层全连接层,再经由激活函数将输出控制在[0,1]区间之内,经过迭代训练之后得到可乘的理想幅度掩码,再将语音幅度特征和可乘的理想幅度掩码相乘,得到增强的幅度谱图;
逆变换获取增强语音模块,用于将视觉和语音再次融合模块中得到的增强的幅度谱图和原始相位谱图一起输入相位子网络获得相位残差,经由L2型标准化从而获得增强的相位谱图,通过最小化增强的幅度谱图和地面真理之间的L1型损失函数来训练幅度子网络,通过最大化增强的相位谱图和地面真理之间的余弦相似性,通过地面真相缩放来训练相位子网络,在通过傅里叶逆变换,最终输出增强的语音。
CN202110716972.0A 2021-06-28 2021-06-28 一种充分利用视觉与语音联系的视听语音增强方法及系统 Active CN113470671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110716972.0A CN113470671B (zh) 2021-06-28 2021-06-28 一种充分利用视觉与语音联系的视听语音增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110716972.0A CN113470671B (zh) 2021-06-28 2021-06-28 一种充分利用视觉与语音联系的视听语音增强方法及系统

Publications (2)

Publication Number Publication Date
CN113470671A CN113470671A (zh) 2021-10-01
CN113470671B true CN113470671B (zh) 2024-01-23

Family

ID=77873209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110716972.0A Active CN113470671B (zh) 2021-06-28 2021-06-28 一种充分利用视觉与语音联系的视听语音增强方法及系统

Country Status (1)

Country Link
CN (1) CN113470671B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245280B (zh) * 2021-12-20 2023-06-23 清华大学深圳国际研究生院 一种基于神经网络的场景自适应助听器音频增强系统
CN114898767B (zh) * 2022-04-15 2023-08-15 中国电子科技集团公司第十研究所 基于U-Net的机载语音噪音分离方法、设备及介质
CN114519996B (zh) * 2022-04-20 2022-07-08 北京远鉴信息技术有限公司 一种语音合成类型的确定方法、装置、设备以及存储介质
CN116343809B (zh) * 2022-11-18 2024-04-02 上海玄戒技术有限公司 视频语音增强的方法及装置、电子设备和存储介质
CN116129931B (zh) * 2023-04-14 2023-06-30 中国海洋大学 一种视听结合的语音分离模型搭建方法及语音分离方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102150201A (zh) * 2008-07-11 2011-08-10 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN111128209A (zh) * 2019-12-28 2020-05-08 天津大学 一种基于混合掩蔽学习目标的语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11244696B2 (en) * 2019-11-06 2022-02-08 Microsoft Technology Licensing, Llc Audio-visual speech enhancement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102150201A (zh) * 2008-07-11 2011-08-10 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN111128209A (zh) * 2019-12-28 2020-05-08 天津大学 一种基于混合掩蔽学习目标的语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
联合深度编解码网络和时频掩蔽估计的单通道语音增强;时文华;张雄伟;邹霞;孙蒙;李莉;;声学学报(第03期);全文 *

Also Published As

Publication number Publication date
CN113470671A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN113470671B (zh) 一种充分利用视觉与语音联系的视听语音增强方法及系统
Ephrat et al. Looking to listen at the cocktail party: A speaker-independent audio-visual model for speech separation
Afouras et al. The conversation: Deep audio-visual speech enhancement
CN110246510B (zh) 一种基于RefineNet的端到端语音增强方法
Rivet et al. Mixing audiovisual speech processing and blind source separation for the extraction of speech signals from convolutive mixtures
Gogate et al. DNN driven speaker independent audio-visual mask estimation for speech separation
Phan et al. Self-attention generative adversarial network for speech enhancement
CN111899756B (zh) 一种单通道语音分离方法和装置
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
WO2020039571A1 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
Roman et al. Pitch-based monaural segregation of reverberant speech
CN112331218B (zh) 一种针对多说话人的单通道语音分离方法和装置
CN112259120A (zh) 基于卷积循环神经网络的单通道人声与背景声分离方法
Li et al. Sams-net: A sliced attention-based neural network for music source separation
Sato et al. Multimodal attention fusion for target speaker extraction
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
Kim et al. Collaborative audio enhancement using probabilistic latent component sharing
Hou et al. Multi-task learning for end-to-end noise-robust bandwidth extension
Xu et al. Improving visual speech enhancement network by learning audio-visual affinity with multi-head attention
Abdulatif et al. Investigating cross-domain losses for speech enhancement
Yu et al. Multi-channel $ l_ {1} $ regularized convex speech enhancement model and fast computation by the split bregman method
CN115691539A (zh) 基于视觉导引的两阶段语音分离方法及系统
CN113035225A (zh) 视觉声纹辅助的语音分离方法及装置
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
Gogate et al. Towards real-time privacy-preserving audio-visual speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant