CN113035225A - 视觉声纹辅助的语音分离方法及装置 - Google Patents

视觉声纹辅助的语音分离方法及装置 Download PDF

Info

Publication number
CN113035225A
CN113035225A CN201911252373.7A CN201911252373A CN113035225A CN 113035225 A CN113035225 A CN 113035225A CN 201911252373 A CN201911252373 A CN 201911252373A CN 113035225 A CN113035225 A CN 113035225A
Authority
CN
China
Prior art keywords
data
hidden layer
target object
layer representation
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911252373.7A
Other languages
English (en)
Other versions
CN113035225B (zh
Inventor
许家铭
张鹏
石晶
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Zidong Taichu Beijing Technology Co ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201911252373.7A priority Critical patent/CN113035225B/zh
Publication of CN113035225A publication Critical patent/CN113035225A/zh
Application granted granted Critical
Publication of CN113035225B publication Critical patent/CN113035225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例涉及一种视觉声纹辅助的语音分离方法和装置,所述方法包括:对采集到的混合语音数据进行音频处理,得到该混合语音数据的隐层表示;对采集到的目标对象的视频数据进行视频处理,得到该视频数据的隐层表示;所述视频数据与所述混合语音数据在时间维度上对齐;基于所述视频数据的隐层表示,确定目标对象的身份信息;基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。由此,可以实现混合语音数据中分离出目标对象的语音数据。

Description

视觉声纹辅助的语音分离方法及装置
技术领域
本发明实施例涉及音视频处理领域,尤其涉及一种视觉声纹辅助的语音分离方法及装置。
背景技术
近些年,随着电子设备和人工智能技术的飞速发展,人机语音交互的重要性日益凸显。但是,由于声学环境负载,干扰声多言,很难从混合语音数据中提出目标对象的语音数据。因此,如何从混合语音数据中提取出目标对象的语音数据就成为业界持续探讨的问题。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种视觉声纹辅助的语音分离方法和装置。
第一方面,本发明实施例提供一种视觉声纹辅助的语音分离方法,包括:
对采集到的混合语音数据进行音频处理,得到该混合语音数据的隐层表示;
对采集到的目标对象的视频数据进行视频处理,得到该视频数据的隐层表示;所述视频数据与所述混合语音数据在时间维度上对齐;
基于所述视频数据的隐层表示,确定目标对象的身份信息;
基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。
在一个可能的实施方式中,所述基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据,包括:
若该目标对象是已注册对象,则在预设数据库中获取该目标对象的声纹数据,并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据;
若该目标对象是未注册对象,则基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据。
在一种可选的实施方式中,所述对采集到的混合语音数据进行音频处理,得到该混合语音数据的隐层表示,包括:
将采集到的混合语音数据转换为混合语音线性谱;
将混合语音线性谱输入至预设的语音处理子网络中,以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积,得到混合语音数据的隐层表示;所述语音处理子网络为基于多层因果扩张卷积神经网络的子网络。
在一种可选的实施方式中,所述对采集到的目标对象的视频数据进行视频处理,得到该视频数据的隐层表示,包括:
将该视频数据拆分为多帧图像;
对每一帧图像进行人脸检测,截取每一帧图像中的人脸图像;
将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取,得到特征向量;
将所述特征向量输入到预设的视觉处理子网络中,以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积,得到该视频数据的隐层表示;所述视觉处理子网络为基于多层因果空洞卷积神经网络的子网络。
在一种可选的实施方式中,所述基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模,包括:
将所述声纹数据在时间维度上进行扩展,以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐;
将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;
将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模;所述掩模生成网络包括:多层因果空洞卷积和全连接层。
在一种可选的实施方式中,所述基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模包括:
将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;
将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模;所述掩模生成网络包括:多层因果空洞卷积和全连接层。
若该目标对象是未注册对象,所述方法还包括:
从识别出的所述目标对象的语音数据中提取所述目标对象的声纹数据;
将提取到的所述声纹数据储存至预设的数据库。
第二方面,本发明实施例提供一种视觉声纹辅助的语音分离装置,包括:
音频处理单元,用于对采集到的混合语音数据进行音频处理,得到该混合语音数据的隐层表示;
视频处理单元,用于对采集到的目标对象的视频数据进行视频处理,得到该视频数据的隐层表示;所述视频数据与所述混合语音数据在时间维度上对齐;
身份识别单元,用于基于所述视频数据的隐层表示,确定目标对象的身份信息;
语音分离单元,用于基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。
在一种可选的实施方式中,所述语音分离单元,具体用于若该目标对象是已注册对象,则在预设数据库中获取该目标对象的声纹数据,并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据;
若该目标对象是未注册对象,则基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据。
在一种可选的实施方式中,所述音频处理单元,具体用于将采集到的混合语音数据转换为混合语音线性谱;
将混合语音线性谱输入至预设的语音处理子网络中,以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积,得到混合语音数据的隐层表示;所述语音处理子网络为基于多层因果扩张卷积神经网络的子网络。
在一种可选的实施方式中,所述视频处理单元,具体用于将该视频数据拆分为多帧图像;
对每一帧图像进行人脸检测,截取每一帧图像中的人脸图像;
将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取,得到特征向量;
将所述特征向量输入到预设的视觉处理子网络中,以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积,得到该视频数据的隐层表示;所述视觉处理子网络为基于多层因果空洞卷积神经网络的子网络。
在一种可选的实施方式中,所述语音分离单元,在基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模时,具体用于将所述声纹数据在时间维度上进行扩展,以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐;
将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;
将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模;所述掩模生成网络包括:多层因果空洞卷积和全连接层。
在一种可选的实施方式中,所述语音分离单元,在基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模时,具体用于将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模;所述掩模生成网络包括:多层因果空洞卷积和全连接层。所述语音识别单元,还用于若该目标对象是未注册对象,则从识别出的所述目标对象的语音数据中提取所述目标对象的声纹数据;将提取到的所述声纹数据储存至预设的数据库。
本申请提供一种基于深度学习技术的,端到端的深度利用视觉和声纹线索进行语音分离的模型,用于在复杂声学场景中利用混合语音数据、视频数据和声纹数据得到目标对象的语音掩模,并通过该语音掩模从混合语音数据中提取目标对象的语音数据,从而实现了从混合语音数据中分离出目标对象的语音数据。
附图说明
图1为本申请一示例性实施例示出的一种视觉声纹辅助的语音分离方法的流程图;
图2为本申请一示例性实施例示出的一种视觉声纹辅助的语音分离装置的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
近些年,随着电子设备和人工智能技术的飞速发展,人机语音交互的重要性日益凸显。然而,由于干扰声源的存在,在复杂开放环境下的语音交互技术远没有达到令人满意的程度。人类通过语音之间的沟通其实是基于多种感官信号(例如听觉、视觉)共同的刺激而完成的。举例而言,在日常的一段对话过程中,除了听觉通路本身以外,视觉也会带来如对语音分离质量的提升、对语音分离性能的提升(例如通过唇语动作的辅助)等作用。除了在多种模态信号输入方面的复杂之外,现实中的语音经常会面对有不止一个人参与的场景。在这类场景中,声学环境复杂,干扰声多样,这使得在复杂的场景中的语音分离技术成为一个非常重要的任务。
语音分离是语音处理中的一项重要任务,其目的是从混合语音中分离出目标说话人的语音。这就是Cherry在1953年所提出的著名的“鸡尾酒会”问题,虽然该问题被研究了60多年,但是截至今日,该问题还没有得到很好的解答。经典的语音分离任务只专注于从单纯的听觉通道来分离不同说话人的语音,忽略了在实际场景中视觉信号参与的重要性。在仅有听觉通道的情况下,当两个说话人具有相似声纹时,分离效果十分不理想。
近几年,整合视觉和听觉通道来做语音分离的方法还只有很少的工作被提出来。在仅有的一些工作中,需要使用非常理想的面部数据或采用额外的工具来提取说话人的清晰和正面的脸部或唇部区域。这种视觉信息的获取十分严苛,并且当视觉信息丢失时,语音分离质量会受到较为严重影响。
有鉴于此,本申请提供一种基于深度学习技术的,端到端的深度利用视觉和声纹线索进行语音分离的模型,用于在复杂声学场景中利用混合语音数据、视频数据和声纹数据得到目标对象的语音掩模,并通过该语音掩模从混合语音数据中提取目标对象的语音数据,从而实现了从混合语音数据中分离出目标对象的语音数据。
参见图1,图1是本申请一示例性实施例示出的一种视觉声纹辅助的语音分离方法的流程图,该方法可包括如下所示步骤。
步骤101:对采集到的混合语音数据进行音频处理,得到所述混合语音数据的隐层表示。
在实现时,利用麦克风采集场景中的全程语音,经过A/D转换,采样率转换后,得到16000采样率的单通道混合语音数据。
将所述混合语音信号经短时傅里叶变换(STFT)得到混合语音线性谱,并将将混合语音线性谱输入至预设的语音处理子网络中,以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积,得到混合语音数据的隐层表示。
其中,语音处理子网络是多层因果扩张卷积神经网络的子网络,可以通过多层因果扩张卷积神经网络,将所输入的混合语音线性谱的特征提取为高维的隐层向量,得到该混合语音数据的隐层表示。
其中,语音处理子网络的第一层卷积神经网络会依据输入语音特征的通道数的不同而制定不同的输入通道数目。在整个语音处理子网络中,卷积层的操作将保持数据的尺寸大小不变,但是通道数保持不变或增加,直到达到预设定好的通道数目。其中,该语音处理子网络采用流式处理的方式,每200ms处理一次,对应的语音帧数为20,可以达到实时的目的;考虑到时序在语音信号中的重要性,我们沿着时间维度做1-D卷积,即在频率维度上的特征经过多层的网络后融合到一起。最终在每一个帧上得到一个一维的隐层向量表示。
步骤102:对采集到的目标对象的视频数据进行视频处理,得到所述视频数据的隐层表示;所述视频数据与所述混合语音数据在时间维度上对齐。
在实现时,将该视频数据拆分为多帧图像,并对每一帧图像进行人脸检测,截取每一帧图像中的人脸图像。将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取,得到特征向量,并将所述特征向量输入到预设的视觉处理子网络中,以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积,得到该视频数据的隐层表示。其中,该每一帧图像是RGB图像。
其中,人脸检测网络可以完成上述“每一帧图像进行人脸检测,截取每一帧图像中的人脸图像”的操作。人脸检测网络对是在大规模人脸检测数据集上预训练得到的。该人脸检测网络用于检测每帧图像中的人脸并输出只包含人脸的图像。
人脸特征提取网络是在大规模人脸识别数据集上预训练得到的,用于提取每帧人脸图像的特征;将多帧图像的人脸特征堆叠在一起得到T*D维的特征向量,其中T是帧数,D是每帧特征的维度,然后将上述T*D维的特征向量输入视频处理子网络中。
视频处理子网络是多层因果扩张卷积网络中的子网络。该视频处理子网络也采用流式处理的方式,每200ms处理一次,对应的图像帧数为5;时序在视频处理中同样重要,所以沿着时间维度做1-D卷积,最终在每一个帧上得到一个一维的隐层向量表示,之后再做上采样操作使得到的视觉部分的隐层表示的帧数与听觉部分的隐层表示的帧数相同。
步骤103:基于所述视频数据的隐层表示,确定目标对象的身份信息。
在本申请中,设置有预设数据库,预设数据库中保存了已注册对象的身份信息和声纹数据的对应关系。
在本申请中,检测该预设数据库中是否包含目标对象的身份信息,若该预设数据库中包含该目标对象的身份信息,则确定该目标对象的已注册对象。若该目标预设数据库中未包含该目标对象的身份信息,确定该目标对象为未注册对象。
步骤104:基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。
1)若该目标对象是已注册对象,则在预设数据库中获取该目标对象对应的声纹数据,并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据。
下面对“基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模”进行介绍。
在实现时,将所述声纹数据在时间维度上进行扩展,以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐。并将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征。然后将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模。
其中,该掩模生成网络包括:多层因果空洞卷积和全连接层。
2)若该目标对象是未注册对象,则基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据。
下面对上述“采用所述语音掩模对所述混合语音数据进行掩模处理”进行详细地说明。
将掩膜(mask)与混合语音的线性谱逐项相乘得到目标对象的语音线性谱。然后将目标对象的语音线性谱进行反短时傅里叶变换(ISTFT)后得到目标对象的语音数据。
由上述描述可知,第一方面,现有语音分离方案中,单纯利用听觉通道进行分离和听觉、视觉通道整合的方案都存在难以解决的问题。首先单纯利用听觉通道进行分离的方案难以解决声纹相似的说话人的语音分离;听觉、视觉通道整合的方案需要获得高质量的面部数据,这在大多数情况下是不切实际的。并且,当视觉信息丢失时,语音分离的质量会急速下降。针对上述问题,我们提出了我们的方案。
第二方面,我们的方案可以很好的解决上述问题,对于声纹相似的说话人,我们利用视觉信息进行辅助分离;对于视觉信息丢失的情况,我们采用声纹信息进行辅助分离。
第三方面,我们的模型可以作为一个处理多说话人场景的基础工具,很方便地与处理一些下游的任务配合,例如语音转录、会议纪要等。这可以有效地解决一系列面向多说话人场景中语音分离的问题。
此外,本申请还提供了与上述视觉声纹辅助的语音分离方法对应的视觉声纹辅助的语音分离装置。
参见图2,图2为本申请一示例性实施例示出的一种视觉声纹辅助的语音分离装置的框图,该语音分离装置可包括如下所示单元。
音频处理单元,用于对采集到的混合语音数据进行音频处理,得到该混合语音数据的隐层表示;
视频处理单元,用于对采集到的目标对象的视频数据进行视频处理,得到该视频数据的隐层表示;所述视频数据与所述混合语音数据在时间维度上对齐;
身份识别单元,用于基于所述视频数据的隐层表示,确定目标对象的身份信息;
语音分离单元,用于基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。
在一种可选的实施方式中,所述语音分离单元,具体用于若该目标对象是已注册对象,则在预设数据库中获取该目标对象的声纹数据,并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据;
若该目标对象是未注册对象,则基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据。
在一种可选的实施方式中,所述音频处理单元,具体用于将采集到的混合语音数据转换为混合语音线性谱;
将混合语音线性谱输入至预设的语音处理子网络中,以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积,得到混合语音数据的隐层表示;所述语音处理子网络为基于多层因果扩张卷积神经网络的子网络。
在一种可选的实施方式中,所述视频处理单元,具体用于将该视频数据拆分为多帧图像;
对每一帧图像进行人脸检测,截取每一帧图像中的人脸图像;
将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取,得到特征向量;
将所述特征向量输入到预设的视觉处理子网络中,以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积,得到该视频数据的隐层表示;所述视觉处理子网络为基于多层因果空洞卷积神经网络的子网络。
在一种可选的实施方式中,所述语音分离单元,在基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模时,具体用于将所述声纹数据在时间维度上进行扩展,以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐;
将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;
将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模;所述掩模生成网络包括:多层因果空洞卷积和全连接层。
在一种可选的实施方式中,所述语音分离单元,在基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模时,具体用于将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模;所述掩模生成网络包括:多层因果空洞卷积和全连接层。若该目标对象是未注册对象,则从识别出的所述目标对象的语音数据中提取所述目标对象的声纹数据;将提取到的所述声纹数据储存至预设的数据库。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种视觉声纹辅助的语音分离方法,其特征在于,包括:
对采集到的混合语音数据进行音频处理,得到所述混合语音数据的隐层表示;
对采集到的目标对象的视频数据进行视频处理,得到所述视频数据的隐层表示,所述视频数据与所述混合语音数据在时间维度上对齐;
基于所述视频数据的隐层表示,确定目标对象的身份信息;
基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据,包括:
若所述目标对象是已注册对象,则在预设数据库中获取所述目标对象的声纹数据,并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据;
若所述目标对象是未注册对象,则基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据。
3.根据权利要求2所述的方法,其特征在于,所述对采集到的混合语音数据进行音频处理,得到所述混合语音数据的隐层表示,包括:
将采集到的混合语音数据转换为混合语音线性谱;
将混合语音线性谱输入至预设的语音处理子网络中,以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积,得到混合语音数据的隐层表示;所述语音处理子网络为基于多层因果扩张卷积神经网络的子网络。
4.根据权利要求要求2所述的方法,其特征在于,所述对采集到的目标对象的视频数据进行视频处理,得到所述视频数据的隐层表示,包括:
将所述视频数据拆分为多帧图像;
对每一帧图像进行人脸检测,截取每一帧图像中的人脸图像;
将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取,得到特征向量;
将所述特征向量输入到预设的视觉处理子网络中,以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积,得到所述视频数据的隐层表示;所述视觉处理子网络为基于多层因果空洞卷积神经网络的子网络。
5.根据权利要求2所述的方法,其特征在于,所述基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模,包括:
将所述声纹数据在时间维度上进行扩展,以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐;
将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;
将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模,所述掩模生成网络包括:多层因果空洞卷积和全连接层。
6.根据权利要求2所述的方法,其特征在于,所述基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模包括:
将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;
将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模,所述掩模生成网络包括:多层因果空洞卷积和全连接层;
若所述目标对象是未注册对象,所述方法还包括:
从分离出的所述目标对象的语音数据中提取所述目标对象的声纹数据;
将提取到的所述声纹数据储存至预设的数据库。
7.一种视觉声纹辅助的语音分离装置,其特征在于,包括:
音频处理单元,用于对采集到的混合语音数据进行音频处理,得到所述混合语音数据的隐层表示;
视频处理单元,用于对采集到的目标对象的视频数据进行视频处理,得到所述视频数据的隐层表示,所述视频数据与所述混合语音数据在时间维度上对齐;
身份识别单元,用于基于所述视频数据的隐层表示,确定目标对象的身份信息;
语音分离单元,用于基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。
8.根据权利要求7所述的装置,其特征在于,所述语音分离单元,具体用于若所述目标对象是已注册对象,则在预设数据库中获取所述目标对象的声纹数据,并基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据;
若所述目标对象是未注册对象,则基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模,采用所述语音掩模对所述混合语音数据进行掩模处理,得到所述目标对象的语音数据。
9.根据权利要求8所述的装置,其特征在于,所述音频处理单元,具体用于将采集到的混合语音数据转换为混合语音线性谱;将混合语音线性谱输入至预设的语音处理子网络中,以使得所述语音处理子网络对混合语音线性谱在时间维度上进行卷积,得到混合语音数据的隐层表示;所述语音处理子网络为基于多层因果扩张卷积神经网络的子网络。
10.根据权利要求8所述的装置,其特征在于,所述视频处理单元,具体用于将所述视频数据拆分为多帧图像;对每一帧图像进行人脸检测,截取每一帧图像中的人脸图像;将多帧图像相对应的多帧人脸图像输入至预设的人脸特征提取网络中进行特征提取,得到特征向量;将所述特征向量输入到预设的视觉处理子网络中,以使得所述视觉处理子网络对所述特征向量在时间维度上进行卷积,得到所述视频数据的隐层表示;所述视觉处理子网络为基于多层因果空洞卷积神经网络的子网络。
11.根据权利要求8所述的装置,其特征在于,所述语音分离单元,在基于所述混合语音数据的隐层表示、视频数据的隐层表示和所述声纹数据,得到所述目标对象的语音掩模时,具体用于将所述声纹数据在时间维度上进行扩展,以使所述声纹数据与所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上对齐;将扩展的声纹数据、所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模;所述掩模生成网络包括:多层因果空洞卷积和全连接层。
12.根据权利要求8所述的装置,其特征在于,所述语音分离单元,在基于所述混合语音数据的隐层表示、视频数据的隐层表示,得到所述目标对象的语音掩模时,具体用于将所述混合语音数据的隐层表示和视频数据的隐层表示在时间维度上进行拼接,得到拼接后的拼接特征;将所述拼接特征输入到预设的掩模生成网络中,得到所述目标对象的语音掩模,所述掩模生成网络包括:多层因果空洞卷积和全连接层;若所述目标对象是未注册对象,则从识别出的所述目标对象的语音数据中提取所述目标对象的声纹数据;将提取到的所述声纹数据储存至预设的数据库。
CN201911252373.7A 2019-12-09 2019-12-09 视觉声纹辅助的语音分离方法及装置 Active CN113035225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252373.7A CN113035225B (zh) 2019-12-09 2019-12-09 视觉声纹辅助的语音分离方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252373.7A CN113035225B (zh) 2019-12-09 2019-12-09 视觉声纹辅助的语音分离方法及装置

Publications (2)

Publication Number Publication Date
CN113035225A true CN113035225A (zh) 2021-06-25
CN113035225B CN113035225B (zh) 2023-02-28

Family

ID=76451991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252373.7A Active CN113035225B (zh) 2019-12-09 2019-12-09 视觉声纹辅助的语音分离方法及装置

Country Status (1)

Country Link
CN (1) CN113035225B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035907A (zh) * 2022-05-30 2022-09-09 中国科学院自动化研究所 一种目标说话人分离系统、设备及存储介质
WO2023006001A1 (zh) * 2021-07-29 2023-02-02 华为技术有限公司 视频处理方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1730667A1 (en) * 2004-03-30 2006-12-13 Intel Corporation Techniques for separating and evaluating audio and video source data
US20180144746A1 (en) * 2010-06-07 2018-05-24 Affectiva, Inc. Audio analysis learning using video data
WO2019104229A1 (en) * 2017-11-22 2019-05-31 Google Llc Audio-visual speech separation
CN110246512A (zh) * 2019-05-30 2019-09-17 平安科技(深圳)有限公司 声音分离方法、装置及计算机可读存储介质
CN110473566A (zh) * 2019-07-25 2019-11-19 深圳壹账通智能科技有限公司 音频分离方法、装置、电子设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1730667A1 (en) * 2004-03-30 2006-12-13 Intel Corporation Techniques for separating and evaluating audio and video source data
US20180144746A1 (en) * 2010-06-07 2018-05-24 Affectiva, Inc. Audio analysis learning using video data
WO2019104229A1 (en) * 2017-11-22 2019-05-31 Google Llc Audio-visual speech separation
CN110246512A (zh) * 2019-05-30 2019-09-17 平安科技(深圳)有限公司 声音分离方法、装置及计算机可读存储介质
CN110473566A (zh) * 2019-07-25 2019-11-19 深圳壹账通智能科技有限公司 音频分离方法、装置、电子设备及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023006001A1 (zh) * 2021-07-29 2023-02-02 华为技术有限公司 视频处理方法及电子设备
CN115035907A (zh) * 2022-05-30 2022-09-09 中国科学院自动化研究所 一种目标说话人分离系统、设备及存储介质
CN115035907B (zh) * 2022-05-30 2023-03-17 中国科学院自动化研究所 一种目标说话人分离系统、设备及存储介质
US11978470B2 (en) 2022-05-30 2024-05-07 Institute Of Automation, Chinese Academy Of Sciences Target speaker separation system, device and storage medium

Also Published As

Publication number Publication date
CN113035225B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
US11894014B2 (en) Audio-visual speech separation
US10923137B2 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
EP3776535B1 (en) Multi-microphone speech separation
Afouras et al. The conversation: Deep audio-visual speech enhancement
CN108630193B (zh) 语音识别方法及装置
Ochiai et al. Multimodal SpeakerBeam: Single Channel Target Speech Extraction with Audio-Visual Speaker Clues.
CN113035225B (zh) 视觉声纹辅助的语音分离方法及装置
CN112242149B (zh) 音频数据的处理方法、装置、耳机及计算机可读存储介质
KR101812159B1 (ko) 딥러닝을 이용한 음향 방향 추정 방법 및 장치
CN115862658A (zh) 提取目标说话者语音的系统和方法
CN115938385A (zh) 一种语音分离方法、装置及存储介质
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
Luo et al. Audio-visual speech separation using i-vectors
CN115691539A (zh) 基于视觉导引的两阶段语音分离方法及系统
CN110992966B (zh) 一种人声分离方法及系统
CN113707149A (zh) 音频处理方法和装置
Okuno et al. Combining independent component analysis and sound stream segregation
Wake et al. Semi-Blind speech enhancement basedon recurrent neural network for source separation and dereverberation
US20230410830A1 (en) Audio purification method, computer system and computer-readable medium
US20230186925A1 (en) Feature domain bandwidth extension and spectral rebalance for asr data augmentation
Aarabi et al. The fusion of visual lip movements and mixed speech signals for robust speech separation
Gogate et al. Towards Pose-Invariant Audio-Visual Speech Enhancement in the Wild for Next-Generation Multi-Modal Hearing Aids
CN112397089B (zh) 语音发出者身份识别方法、装置、计算机设备及存储介质
CN117059115A (zh) 语音增强方法、装置、系统、存储介质和辅听耳机
CN118197346A (zh) 基于多尺度语音-脑电融合的脑控说话人提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240620

Address after: 200-19, 2nd Floor, Building B, Wanghai Building, No.10 West Third Ring Middle Road, Haidian District, Beijing, 100036

Patentee after: Zhongke Zidong Taichu (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District

Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES

Country or region before: China