CN112712819A - 视觉辅助跨模态音频信号分离方法 - Google Patents

视觉辅助跨模态音频信号分离方法 Download PDF

Info

Publication number
CN112712819A
CN112712819A CN202011537001.1A CN202011537001A CN112712819A CN 112712819 A CN112712819 A CN 112712819A CN 202011537001 A CN202011537001 A CN 202011537001A CN 112712819 A CN112712819 A CN 112712819A
Authority
CN
China
Prior art keywords
spectrum
target
mask image
separation
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011537001.1A
Other languages
English (en)
Other versions
CN112712819B (zh
Inventor
姬艳丽
马硕
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011537001.1A priority Critical patent/CN112712819B/zh
Publication of CN112712819A publication Critical patent/CN112712819A/zh
Application granted granted Critical
Publication of CN112712819B publication Critical patent/CN112712819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种视觉辅助跨模态音频信号分离方法,构建并训练音频信号分离模型,包括视觉特征提取模块、初步分离模块、残差频谱计算模块、修正分离模块和频谱分离模块,采用目标检测模块对包含多个声源信号的视频进行目标检测得到目标检测结果,从视频中提取出音频信号,用音频时序信号‑频谱转换模块进行处理得到对应频谱,将目标检测结果和频谱输入音频信号分离模型,得到分离的声源频谱,然后采用频谱‑音频时序信号转换模块得到不同目标的音频信号。本发明设计了一种跨模态的音频信号分离模型,更好地构建视‑听觉之间的对应关系,并且引入迭代修正使得声源分离结果更加准确。

Description

视觉辅助跨模态音频信号分离方法
技术领域
本发明属于音频信号分离技术领域,更为具体地讲,涉及一种视觉辅助跨模态音频信号分离方法。
背景技术
在实际生活中,当听到来自不同来源的不同声音的混合时,人类可以很自然地分辨出哪个声音来自哪个发生源头,可能来能鸟类,动物,乐器,或者机器。这种强大的辨别能力使得人类可以很好地理解这个自然世界。在智能技术飞速发展的今天,由机器人或智能设备自动实现准确地声源分离任务,在实际场景中是非常有意义的,例如可以应用到音频降噪,音频事件定位,以及声音筛选等。
在地震救灾过程中,救助工作是争分夺秒进行的。在这种复杂场景中实现场景中人、动物及其他物体声音的智能化分离,对于快速定位需要被救助的人或动物是非常有帮助的。
传统的声源分离方法是基于非负矩阵分解的方式来解决分离问题。近年来,深度学习的方法也被应用到声源分离中。但是随着深度学习在计算机视觉领域的快速发展,以及在视觉领域取得的卓越成效,在近些年的研究中,视觉信息也开始被引入到音频的声源分离任务中。引入视觉信息的另一个原因是目前的方法仅从声音这个单一模态来完成声源分离的任务时,难以取得非常显著的成效。鉴于发声物体的视觉信息和声音信息的天然关联性,视觉信息理论上可以作为指导信息,用于辅助混合场景下的音频声源分离。使用视觉信息来辅助解决声源分离任务的实质,就是构建视觉与听觉信息之间的跨模态对应。现有技术中涉及到的使用视觉信息辅助声源分离的方法,所使用的视觉信息相对复杂,并且主要方向是探索视觉中更贴切的表示形式,而对于声音信息本身考虑的并不细致。
发明内容
本发明的目的在于克服现有技术的不足,提供一种视觉辅助跨模态音频信号分离方法,对用户输入的多声源视频,根据视频帧中所包含的发声物体信息,从混合音频中精确分离出多个单声源的音频信号,并通过对分离结果进行迭代修正实现精确的声音分离。
为了实现上述发明目的,本发明视觉辅助跨模态音频信号分离方法包括以下步骤:
S1:根据所需分离的N个声音类别所对应的N个目标构建目标检测模型,并收集这N个目标的图像数据集对目标检测模型进行训练;
S2:对于每个目标分别获取若干个预设长度的包含有目标声音信号的视频,并从中提取出单个目标音频信号;
S3:采用目标检测模型对步骤S2中的各个视频的每一帧图像进行目标的检测,选取所有帧中置信度最高的检测结果并归一化至预设尺寸作为该视频的目标检测结果;
S4:随机选择2个及以上包含不同目标视频所对应的单个目标音频信号进行组合,得到混合音频信号,记所得到混合音频信号数量为M;
S5:对于步骤S4得到的每个混合音频信号,采用音频时序信号-频谱转换模块进行处理得到对应的混合频谱Sm,m=1,2,…,M;记第m个混合音频信号中所包含的单个目标音频信号数量为Km,对于各个单个目标音频信号,同样采用音频时序信号-频谱转换模块进行处理得到对应的单个目标频谱
Figure BDA0002853365800000021
k=1,2,…,Km;记单个目标音频信号在所对应的视频中的目标检测结果为Om,k;将混合频谱Sm、其中一个单个目标频谱
Figure BDA0002853365800000022
和目标检测结果Om,k作为一个训练样本;
S6:构建视觉辅助跨模态音频信号分离模型,包括视觉特征提取模块、初步分离模块、残差频谱计算模块、修正分离模块和频谱分离模块,其中:
视觉特征提取模块用于对视频得到的目标检测结果进行视觉特征提取并发送给初步分离模块和修正分离模块;
初步分离模块采用类U-Net网络,初步分离模块的输入为混合频谱,由编码器得到混合频谱特征,将视觉特征调整至经过编码器编码后的混合频谱特征维度,然后级联视觉特征和经过编码器编码后的混合频谱特征,将得到的特征输入至解码器,在解码器的最后一层设置sigmoid层,将输出图像中的每个元素值限制在0~1之间,得到初步分离声源频谱掩码图像;
残差频谱掩码计算模块用于根据各个初步分离声源频谱掩码图像或修正分离声源频谱掩码图像从原始的混合频谱中提取出各个目标的初步分离频谱,并将这些初步分离频谱进行叠加得到叠加频谱,然后将原始的混合频谱减去叠加频谱得到残差频谱,再将残差频谱与原始的混合频谱做除法,得到残差频谱掩码图像;计算残差频谱掩码图像的期望,如果期望小于预设的阈值,表明此时残差信息不存在或只存在噪声,则将当前使用的初步分离声源频谱掩码图像或修正分离声源掩码图像作为最终的分离声源频谱掩码图像发送至频谱分离模块,否则将初步分离声源频谱掩码图像或修正分离声源掩码图像作为分离声源掩码图像连同残差频谱掩码图像一起发送至修正分离模块继续循环迭代修正;
修正分离模块用于根据残差频谱掩码图像和视觉特征对分离声源掩码图像进行修正,得到修正分离声源频谱掩码图像反馈至残差频谱计算模块;修正分离模块的输入为残差频谱掩码图像和分离声源频谱掩码图像的级联掩码图像,由编码器得到级联掩码图像特征,将视觉特征调整至经过编码器编码后的级联掩码图像特征维度,然后级联视觉特征和经过编码器编码后的级联掩码图像特征,将得到的特征输入至解码器,在解码器的最后一层设置sigmoid层,将输出图像中的每个元素值限制在0~1之间,得到修正分离声源频谱掩码图像;
频谱分离模块用于根据接收到的分离声源频谱掩码图像从混合频谱中分离出单个目标频谱;
S8:采用步骤S105得到的训练样本中的混合频谱Sm和目标检测结果Om,k作为输入,将单个目标频谱
Figure BDA0002853365800000031
作为期望输出,对音频信号分离模型进行训练;
S9:采集预设长度的包含有多个声源信号的视频,采用目标检测模块对其进行目标检测得到目标检测结果从视频中提取出待分离音频信号,用音频时序信号-频谱转换模块进行处理得到对应的待分离频谱。将目标检测结果和频谱输入训练好的音频信号分离模型,得到分离的声源频谱,然后采用频谱-音频时序信号转换模块得到不同目标的音频信号。
本发明视觉辅助跨模态音频信号分离方法,构建并训练音频信号分离模型,包括视觉特征提取模块、初步分离模块、残差频谱计算模块、修正分离模块和频谱分离模块,采用目标检测模块对包含多个声源信号的视频进行目标检测得到目标检测结果,从视频中提取出音频信号,用音频时序信号-频谱转换模块进行处理得到对应频谱,将目标检测结果和频谱输入音频信号分离模型,得到分离的声源频谱,然后采用频谱-音频时序信号转换模块得到不同目标的音频信号。本发明设计了一种跨模态的音频信号分离模型,更好地构建视-听觉之间的对应关系,并且引入迭代修正使得声源分离结果更加准确。
附图说明
图1是本发明视觉辅助跨模态音频信号分离方法的具体实施方式流程图;
图2是本发明中音频信号分离模型的结构图;
图3是本实施例中视觉特征提取模块的结构图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明视觉辅助跨模态音频信号分离方法的具体实施方式流程图。如图1所示,本发明用于视觉辅助跨模态音频信号分离方法的具体步骤包括:
S101:构建并训练目标检测模型:
根据所需分离的N个声音类别所对应的N个目标构建目标检测模型,并收集这N个目标的图像数据集对目标检测模型进行训练。在实际应用中可以采用公开的图像数据集来获取每个目标的图像数据集。
S102:获取视频和音频:
对于每个目标分别获取若干个预设长度的包含有目标声音信号的视频,并从中提取出单个目标音频信号。如果视频中包含的目标数量大于1,则需要事先对音频信号进行分离。
S103:获取目标检测结果:
采用目标检测模型对步骤S102中的各个视频的每一帧图像进行对应目标的检测,选取所有帧中置信度最高的检测结果并归一化至预设尺寸作为该视频的目标检测结果。归一化的尺寸是根据后续视觉特征提取模块的输入尺寸要求来确定的。
S104:获取混合音频信号:
随机选择2个及以上包含不同目标视频所对应的单个目标音频信号进行组合,得到混合音频信号,记所得到混合音频信号数量为M。
S105:获取训练样本:
对于步骤S104得到的每个混合音频信号,采用音频时序信号-频谱转换模块进行处理得到对应的混合频谱Sm,m=1,2,…,M。记第m个混合音频信号中所包含的单个目标音频信号数量为Km,对于各个单个目标音频信号,同样采用音频时序信号-频谱转换模块进行处理得到对应的单个目标频谱
Figure BDA0002853365800000051
k=1,2,…,Km。记单个目标音频信号在所对应视频中的对应目标检测结果为Om,k。将混合频谱Sm、其中一个单个目标频谱
Figure BDA0002853365800000052
和目标检测结果Om,k作为一个训练样本。可见,所得到的训练样本数量为
Figure BDA0002853365800000053
音频时序信号-频谱转换模块用于声音的一维时序信号与二维频谱的转换,常用于声音信号变换的方法有短时傅里叶变换、梅尔倒频谱以及小波变换等方法。由于短时傅里叶变换能够最大程度的保留有效信息,且性能优越,因此短时傅里叶变换在信号的转换中被广泛选择,本实施例中即采用短时傅里叶变换将混合音频信号转化为混合频谱。
S106:构建音频信号分离模型:
本发明中为了实现跨模态音频信号分离,需要构建音频信号分离模型。图2是本发明中音频信号分离模型的结构图。如图2所示,本发明中音频信号分离模型包括视觉特征提取模块、初步分离模块、修正分离模块和频谱分离模块,下面分别对每个模块进行详细说明。
·视觉特征提取模块
视觉特征提取模块用于对视频得到的目标检测结果进行视觉特征提取并发送给初步分离模块和修正分离模块。
视觉特征提取模块的具体结构可以根据实际需要设置。图3是本实施例中视觉特征提取模块的结构图。如图3所示,空心块表示特征图,实心块表示网络结构层。本实施例中视觉特征提取模块包括ResNet-18网络的前4层Block、卷积层、批归一化(BN,BatchNormalization)层、Relu激活层和全连接(FC)层,其中:
ResNet-18网络的前4层Block用于对所输入的目标检测结果提取特征图,然后发送给卷积层。
卷积层用于对所接收到的特征图进行1x1卷积降低维度,将得到的特征图发送给批归一化层。
批归一化层对所接收到的特征图进行批归一化处理,将处理得到的特征图发送给Relu激活层。
Relu激活层用于采用Relu激活函数对所接收到的特征图进行处理,将处理得到的特征图发送给全连接层。
全连接层用于对所接收到的特征进行处理,得到指定维数的特征向量。
表1是本实施例中视觉特征提取模块的网络结构和各网络层参数表。
Figure BDA0002853365800000061
表1
·初步分离模块
初步分离模块用于根据所输入的视觉特征,对混合频谱进行初步分离,得到不同目标对应的初步分离声源频谱掩码图像。
本发明中,初步分离模块采用类U-Net网络。初步分离模块的输入为混合频谱,由编码器得到混合频谱特征,将视觉特征调整至经过编码器编码后的混合频谱特征维度,然后级联视觉特征和经过编码器编码后的混合频谱特征,将得到的特征输入至解码器,在解码器的最后一层设置sigmoid层,将输出图像中的每个元素值限制在0~1之间,得到初步分离声源频谱掩码图像。
使用U-Net的优势是,通过短接的方式,可以使得网络不会随着卷积计算而丢失浅层信息。本实施例中使用的U-Net结构有7层。输入为混合频谱的幅值部分,经过尺寸调整后,频谱的大小变为256×256,所以初步分离模块的输入维度为1×256×256。
编码器(即下采样)部分,三层结构中每一层分别包括级联的2d卷积层,批归一化层以及LeakyReLU激活层。LeakyReLU激活函数相对于ReLU激活函数,在负值部分设置小的斜率,使得负值部分不会被完全丢弃,负值部分的斜率大小默认为0.2。
级联视觉特征和经过编码器编码后的混合频谱特征,输入至解码器。本实施例中视觉特征为512维向量,混合频谱特征的维度为512×2×2,为了使维度保持一致,根据频谱特征的尺寸对视觉特征进行处理,即将视觉特征翻4倍(2×2),转化为512×2×2维度,以保持两个模态特征的维度一致。那么级联后的特征维度为1024×2×2。
解码器(即上采样)部分,每一层分别包括2d反卷积层、批归一化层以及ReLU激活层。同时在上采样时,每一层都会级联在下采样时与其对应的特征,这种级联操作即为短接操作。每次在反卷积之前,完成特征的拼接,拼接在第一个维度进行,再将拼接好的特征图输入下一级上采样层。因为预测的结果是掩码的形式,且为比例掩码,取值在0~1之间,所以在最后一级上采样层,结构为反卷积加sigmoid层,保证结果在0~1之间。
·残差频谱掩码计算模块
残差频谱掩码计算模块用于根据各个初步分离声源频谱掩码图像或修正分离声源频谱掩码图像从原始的混合频谱中提取出各个目标的初步分离频谱,并将这些初步分离频谱进行叠加得到叠加频谱,然后将原始的混合频谱减去叠加频谱得到残差频谱,再将残差频谱与原始的混合频谱做除法,得到残差频谱掩码图像。计算残差频谱掩码图像的期望,如果期望小于预设的阈值,表明此时残差信息不存在或只存在噪声,则将当前使用的初步分离声源频谱掩码图像或修正分离声源掩码图像作为最终的分离声源掩码图像发送至频谱分离模块,否则将初步分离声源频谱掩码图像或修正分离声源掩码图像作为分离声源掩码图像连同残差频谱掩码图像一起发送至修正分离模块继续循环迭代修正。
也就是说,根据残差信息的定义,只要最终的分离结果不是理想的,那么残差信息就会存在。因此可以根据每次计算出的残差信息进行循环迭代,迭代修正分离结果,直至残差信息不存在或只存在噪声。
·修正分离模块
修正分离模块用于根据残差频谱掩码图像和视觉特征对分离声源频谱掩码图像进行修正,得到修正分离声源频谱掩码图像反馈至残差频谱计算模块。本发明中的修正分离模块也采用类U-Net网络。如图2所示,本发明中修正分离模块的输入为残差频谱掩码图像和分离声源频谱掩码图像的级联掩码图像,由编码器得到级联掩码图像特征,将视觉特征调整至经过编码器编码后的级联掩码图像特征维度,然后级联视觉特征和经过编码器编码后的级联掩码图像特征,将得到的特征输入至解码器,在解码器的最后一层设置sigmoid层,将输出图像中的每个元素值限制在0~1之间,得到修正分离声源频谱掩码图像。
本实施例中修正分离模块的详细网络结构和初步分离模块类似,只是输入数据有所差别,即输入数据由1×256×256的混合频谱,变为2×256×256的级联掩码图像,其余部分不变。
·频谱分离模块
频谱分离模块用于根据接收到的分离声源掩码图像从混合频谱中分离出单个目标频谱。
S107:训练音频信号分离模型:
采用步骤S105得到的训练样本中的混合频谱Sm和目标检测结果Om,k作为输入,将单个目标频谱
Figure BDA0002853365800000081
作为期望输出,对音频信号分离模型进行训练。
在进行音频信号分离模块进行训练时,所使用的损失函数可以根据实际需要设置。为了提高训练效果,使最终的音频信号分离结果更加准确,本实施例中对不同方面的损失进行分析,提出了一种综合性的损失函数。本实施例中所使用的损失包括共分离损失、目标一致性损失、修正损失和频谱一致性损失,下面分别对各个损失函数进行详细说明:
·共分离损失
本实施例中共分离损失L1的计算公式为:
Figure BDA0002853365800000091
其中,K表示当前所输入混合频谱所对应的视频数量,Vk表示当前所输入混合频谱所对应的第k个视频,k=1,2,…,K,|Vk|表示视频Vk中所包含的目标数量,
Figure BDA0002853365800000092
表示音频信号分离模型中初步分离模块所得到的视频Vk中第i个目标的初步分离声源频谱掩码图像,
Figure BDA0002853365800000093
表示视频Vk的频谱掩码图像,采用如下公式计算:
Figure BDA0002853365800000094
其中,
Figure BDA0002853365800000095
表示视频Vk的原始音频信号经音频时序信号-频谱转换模块进行处理得到的频谱。
共分离损失用于计算初步分离网络的掩码分离结果与对应的原视频的掩码之间的差异性,这种差异性是用两者之间的L1范数进行衡量的。理想情况下两者之间是没有差异的,那么根据计算出的差异性对网络进行训练,调整网络参数,使网络不断学习两个模态之间的匹配信息,生成对应的接近真实的频谱掩码。由于在训练过程中,混合的视频可以是多个,那么共分离损失计算的对象是单个视频相对所有混合视频的掩码,以及该单个视频中所有发声物体分离掩码的叠加之和。
·目标一致性损失
本实施例中在计算目标一致性损失时,先根据初步分离模块得到的初步分离声源频谱掩码图像从输入的混合频谱中分离出单个目标频谱,采用预训练好的频谱分类器对该单个目标频谱进行分类,得到该单个目标频谱属于第n个目标的概率,n=1,2,…,N,然后确定目标分类结果,并判定该分类结果与所输入的视觉特征对应的目标分类结果是否一致,然后采用以下公式计算目标一致性损失L2
Figure BDA0002853365800000096
其中,
Figure BDA0002853365800000097
表示当前所输入混合频谱所对应的视频中所包含的目标数量,pj,n表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱所判别出的属于第n个目标的概率,yj,n=1表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱的目标分类结果与所输入的视觉特征对应的目标分类结果一致,yj,n=0表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱的目标分类结果与所输入的视觉特征对应的目标分类结果不一致。
目标一致性损失用于判断对初步分离模块所分离频谱所属目标类别的预测结果与预训练的目标检测模块的预测结果是否一致。该损失的计算对象是初步分离模块的分离频谱经过预训练的频谱分类器后的类别预测分布和目标检测模块所给出的类别预测标签,从而促使两个模态的信息对应。本实施例中频谱分类器的结构是ResNet-18,最后的全连接输出层输出维度调整为本实施例中使用的目标类别数目。
·修正损失
本实施例中修正损失L3的计算公式为:
Figure BDA0002853365800000101
其中,D表示当前所输入训练样本在修正分离模块中的循环迭代次数,αd表示每次迭代对应的权重,
Figure BDA0002853365800000102
d=1,2,…,D,lossd表示每次迭代中修正分离声源频谱掩码图像所对应的共分离损失,其计算公式如下:
Figure BDA0002853365800000103
其中,
Figure BDA0002853365800000104
表示修正分离模块在第d次迭代时所得到的视频Vk中第i个目标的初步分离声源频谱掩码图像。
Ε[Sleft]表示残差频谱的期望值,Sleft表示残差频谱,其计算公式如下:
Figure BDA0002853365800000105
其中,S表示所输入的混合频谱,sk,i表示视频Vk中第i个目标在当前迭代中所对应的分离得到的单个目标频谱,显然当第一次迭代时sk,i是根据初步分离模块所得到的初步分离声源频谱掩码图像分离得到的,第二次及之后迭代时sk,i是根据修正分离模块所得到的修正分离声源频谱掩码图像分离得到的。
修正损失用于计算迭代分离结果的掩码叠加之和与对应原视频掩码之间的差异以及限制残差频谱的能量趋近于0。因为修正模块和初步分离模块一样,都是生成器,为了约束生成结果接近真实结果,需要设置重建损失进行限制。所以本实施例中修正损失的第一部分和共分离损失的思想一致,就是为了约束最终生成的分离声源频谱掩码图像接近真实视频的掩码图像。
第二部分是限制残差频谱的能量。因为修正过程是迭代进行的,在理想情况下残差频谱中不应该存在信息,或者只存在噪声。因此在损失函数计算时,加入对残差频谱的限制,促使网络趋于理想情况下的分离性能。
·频谱一致性损失
本实施例中频谱一致性损失L4的计算公式为:
Figure BDA0002853365800000111
其中,φs()表示频谱特征提取函数,
Figure BDA0002853365800000112
表示视频Vk中第i个目标在训练样本中所对应的真实单个目标频谱,
Figure BDA0002853365800000113
表示视频Vk中第i个目标由修正分离模块所得到的单个目标频谱,|| ||2表示求取二范数。
频谱一致性损失是用于衡量最终分离的频谱与真实频谱之间的差异。分离效果越好,则分离的频谱与真实频谱之间差异越小。最直观的约束方式是直接计算两者之间的差异,求频谱之间的L1或者L2范数。但是为了减少计算量,并且只使用关键特征即可判断两者之间差异,同时加速计算,本实施例采用了频谱特征提取函数,从特征层面约束两者,使差异最小化。频谱特征提取函数可以根据需要设置,例如可以基于特征提取网络实现。对于特征的频谱一致性损失采用的是L2范数。
根据以上四种损失,即可得到本实施例中模型训练的总损失函数如下:
Figure BDA0002853365800000114
其中,λt表示预设的第t项损失的权重,
Figure BDA0002853365800000115
t=1,2,3,4。
本实施例中训练数据采用两个视频混合或三个视频混合的形式,每个视频中包含1~2个发声物体,且视频帧中包含其视觉信息。整个网络训练至少300个周期,优化器使用Adam,批次大小视混合数据的情况而定,一般情况下两个视频混合的批次大小为16,3个视频混合的批次大小为8。初始时,视觉特征提取器,初步分离模块,修正模块的学习率设置为0.0001,频谱分类器和频谱特征提取器的学习率设置为0.00001。当训练周期到达总周期数的40%以及80%时,调整学习率为原先的十分之一。
S108:音频信号分离:
采集预设长度的包含有多个声源信号的视频,采用目标检测模块对其进行目标检测得到目标检测结果。从视频中提取出待分离音频信号,用音频时序信号-频谱转换模块进行处理得到对应的待分离频谱。将目标检测结果和频谱输入训练好的音频信号分离模型,得到分离的声源频谱,然后采用频谱-音频时序信号转换模块得到不同目标的音频信号。本实施例中频谱-音频时序信号转换模块所采用的转换方法即为短时傅里叶逆变换。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种视觉辅助跨模态音频信号分离方法,其特征在于,包括以下步骤:
S1:根据所需分离的N个声音类别所对应的N个目标构建目标检测模型,并收集这N个目标的图像数据集对目标检测模型进行训练;
S2:对于每个目标分别获取若干个预设长度的包含有目标声音信号的视频,并从中提取出单个目标音频信号;
S3:采用目标检测模型对步骤S2中的各个视频的每一帧图像进行目标的检测,选取所有帧中置信度最高的检测结果并归一化至预设尺寸作为该视频的目标检测结果;
S4:随机选择2个及以上包含不同目标视频所对应的单个目标音频信号进行组合,得到混合音频信号,记所得到混合音频信号数量为M;
S5:对于步骤S4得到的每个混合音频信号,采用音频时序信号-频谱转换模块进行处理得到对应的混合频谱Sm,m=1,2,…,M;记第m个混合音频信号中所包含的单个目标音频信号数量为Km,对于各个单个目标音频信号,同样采用音频时序信号-频谱转换模块进行处理得到对应的单个目标频谱
Figure FDA0002853365790000011
k=1,2,…,Km;记单个目标音频信号在所对应视频中的对应目标检测结果为Om,k;将混合频谱Sm、其中一个单个目标频谱
Figure FDA0002853365790000012
和目标检测结果Om,k作为一个训练样本;
S6:构建视觉辅助跨模态音频信号分离模型,包括视觉特征提取模块、初步分离模块、残差频谱计算模块、修正分离模块和频谱分离模块,其中:
视觉特征提取模块用于对视频得到的目标检测结果进行视觉特征提取并发送给初步分离模块和修正分离模块;
初步分离模块采用类U-Net网络,初步分离模块的输入为混合频谱,由编码器得到混合频谱特征,将视觉特征调整至经过编码器编码后的混合频谱特征维度,然后级联视觉特征和经过编码器编码后的混合频谱特征,将得到的特征输入至解码器,在解码器的最后一层设置sigmoid层,将输出图像中的每个元素值限制在0~1之间,得到初步分离声源频谱掩码图像;
残差频谱掩码计算模块用于根据各个初步分离声源频谱掩码图像或修正分离声源频谱掩码图像从原始的混合频谱中提取出各个目标的初步分离频谱,并将这些初步分离频谱进行叠加得到叠加频谱,然后将原始的混合频谱减去叠加频谱得到残差频谱,再将残差频谱与原始的混合频谱做除法,得到残差频谱掩码图像;计算残差频谱掩码图像的期望,如果期望小于预设的阈值,则将当前使用的初步分离声源频谱掩码图像或修正分离声源掩码图像作为最终的分离声源频谱掩码图像发送至频谱分离模块,否则将初步分离声源频谱掩码图像或修正分离声源掩码图像作为分离声源掩码图像连同残差频谱掩码图像一起发送至修正分离模块继续循环迭代修正;
修正分离模块用于根据残差频谱掩码图像和视觉特征对分离声源掩码图像进行修正,得到修正分离声源频谱掩码图像反馈至残差频谱计算模块;修正分离模块的输入为残差频谱掩码图像和分离声源频谱掩码图像的级联掩码图像,由编码器得到级联掩码图像特征,将视觉特征调整至经过编码器编码后的级联掩码图像特征维度,然后级联视觉特征和经过编码器编码后的级联掩码图像特征,将得到的特征输入至解码器,在解码器的最后一层设置sigmoid层,将输出图像中的每个元素值限制在0~1之间,得到修正分离声源频谱掩码图像;
频谱分离模块用于根据接收到的残差频谱掩码图像从混合频谱中分离出单个目标频谱;
S8:采用步骤S105得到的训练样本中的混合频谱Sm和目标检测结果Om,k作为输入,将单个目标频谱sm,k作为期望输出,对音频信号分离模型进行训练;
S9:采集预设长度的包含有多个声源信号的视频,采用目标检测模块对其进行目标检测得到目标检测结果。从视频中提取出待分离音频信号,用音频时序信号-频谱转换模块进行处理得到对应的待分离频谱;将目标检测结果和频谱输入训练好的音频信号分离模型,得到分离的声源频谱,然后采用频谱-音频时序信号转换模块得到不同目标的音频信号。
2.根据权利要求1所述的视觉辅助跨模态音频信号分离方法,其特征在于,所述的视觉特征提取模块包括ResNet-18网络的前4层Block、卷积层、批归一化层、Relu激活层和全连接层,其中:
ResNet-18网络的前4层Block用于对所输入的目标检测结果提取特征图,然后发送给卷积层;
卷积层用于对所接收到的特征图进行1x1卷积降低维度,将得到的特征图发送给批归一化层;
批归一化层对所接收到的特征图进行批归一化处理,将处理得到的特征图发送给Relu激活层;
Relu激活层用于采用Relu激活函数对所接收到的特征图进行处理,将处理得到的特征图发送给全连接层;
全连接层用于对所接收到的特征进行处理,得到指定维数的特征向量。
3.根据权利要求1所述的视觉辅助跨模态音频信号分离方法,其特征在于,所述步骤S8中音频信号分离模块进行训练时所使用的损失
Figure FDA0002853365790000031
采用以下公式计算:
Figure FDA0002853365790000032
其中,λt表示预设的第t项损失的权重,t=1,2,3,4;
L1表示共分离损失,其计算公式如下:
Figure FDA0002853365790000033
其中,K表示当前所输入混合频谱中所对应的视频数量,Vk表示当前所输入混合频谱中所对应的第k个视频,k=1,2,…,K,|Vk|表示视频Vk中所包含的目标数量,
Figure FDA0002853365790000034
表示音频信号分离模型中初步分离模块所得到的视频Vk中第i个目标的初步分离声源频谱掩码图像,
Figure FDA0002853365790000035
表示视频Vk的频谱掩码图像,采用如下公式计算:
Figure FDA0002853365790000036
其中,
Figure FDA0002853365790000037
表示视频Vk的原始音频信号经音频时序信号-频谱转换模块进行处理得到的频谱;
L2表示目标一致性损失,其计算方法为:先根据初步分离模块得到的初步分离声源频谱掩码图像从输入的混合频谱中分离出单个目标频谱,采用预训练好的频谱分类器对该单个目标频谱进行分类,得到该单个目标频谱属于第n个目标的概率,n=1,2,…,N,然后确定目标分类结果,并判定该分类结果与所输入的视觉特征对应的目标分类结果是否一致,然后采用以下公式计算目标一致性损失L2
Figure FDA0002853365790000041
其中,
Figure FDA0002853365790000042
表示当前所输入混合频谱所对应的视频中所包含的目标数量,pj,n表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱所判别出的属于第n个目标的概率,yj,n=1表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱的目标分类结果与所输入的视觉特征对应的目标分类结果一致,yj,n=0表示预训练好的频谱分类器对第j个视频目标初步分离得到的单个目标频谱的目标分类结果与所输入的视觉特征对应的目标分类结果不一致;
L3表示修正损失,其计算公式如下:
Figure FDA0002853365790000043
中,D表示当前所输入训练样本在修正分离模块中的循环迭代次数,αd表示每次迭代对应的权重,
Figure FDA0002853365790000044
lossd表示每次迭代中修正分离声源频谱掩码图像所对应的共分离损失,其计算公式如下:
Figure FDA0002853365790000045
其中,
Figure FDA0002853365790000046
表示修正分离模块在第d次迭代时所得到的视频Vk中第i个目标的初步分离声源频谱掩码图像。
Ε[Sleft]表示残差频谱的期望值,Sleft表示残差频谱,其计算公式如下:
Figure FDA0002853365790000047
其中,S表示所输入的混合频谱,sk,i表示视频Vk中第i个目标在当前迭代中所对应的分离得到的单个目标频谱;
L4表示频谱一致性损失,其计算公式如下:
Figure FDA0002853365790000051
其中,φs()表示频谱特征提取函数,
Figure FDA0002853365790000052
表示视频Vk中第i个目标在训练样本中所对应的真实单个目标频谱,
Figure FDA0002853365790000053
表示视频Vk中第i个目标由修正分离模块所得到的单个目标频谱,||||2表示求取二范数。
CN202011537001.1A 2020-12-23 2020-12-23 视觉辅助跨模态音频信号分离方法 Active CN112712819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011537001.1A CN112712819B (zh) 2020-12-23 2020-12-23 视觉辅助跨模态音频信号分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011537001.1A CN112712819B (zh) 2020-12-23 2020-12-23 视觉辅助跨模态音频信号分离方法

Publications (2)

Publication Number Publication Date
CN112712819A true CN112712819A (zh) 2021-04-27
CN112712819B CN112712819B (zh) 2022-07-26

Family

ID=75545364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011537001.1A Active CN112712819B (zh) 2020-12-23 2020-12-23 视觉辅助跨模态音频信号分离方法

Country Status (1)

Country Link
CN (1) CN112712819B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380270A (zh) * 2021-05-07 2021-09-10 普联国际有限公司 一种音频音源分离方法、装置、存储介质及电子设备
CN113850246A (zh) * 2021-11-30 2021-12-28 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
CN114596876A (zh) * 2022-01-21 2022-06-07 中国科学院自动化研究所 声源分离方法及装置
CN114970607A (zh) * 2022-05-06 2022-08-30 北京谛声科技有限责任公司 基于深度神经网络声发射信号分离的变压器局放检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1566796A2 (en) * 2004-02-20 2005-08-24 Sony Corporation Method and apparatus for separating a sound-source signal and method and device for detecting pitch
US20170221503A1 (en) * 2016-02-02 2017-08-03 Canon Kabushiki Kaisha Audio processing apparatus and audio processing method
US20170366896A1 (en) * 2016-06-20 2017-12-21 Gopro, Inc. Associating Audio with Three-Dimensional Objects in Videos
CN110675891A (zh) * 2019-09-25 2020-01-10 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN110709924A (zh) * 2017-11-22 2020-01-17 谷歌有限责任公司 视听语音分离
CN110970056A (zh) * 2019-11-18 2020-04-07 清华大学 一种从视频中分离音源的方法
CN111052232A (zh) * 2017-07-03 2020-04-21 耶路撒冷希伯来大学伊森姆研究发展有限公司 使用视觉信息增强视频中人类说话者的语音信号的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1566796A2 (en) * 2004-02-20 2005-08-24 Sony Corporation Method and apparatus for separating a sound-source signal and method and device for detecting pitch
US20170221503A1 (en) * 2016-02-02 2017-08-03 Canon Kabushiki Kaisha Audio processing apparatus and audio processing method
US20170366896A1 (en) * 2016-06-20 2017-12-21 Gopro, Inc. Associating Audio with Three-Dimensional Objects in Videos
CN111052232A (zh) * 2017-07-03 2020-04-21 耶路撒冷希伯来大学伊森姆研究发展有限公司 使用视觉信息增强视频中人类说话者的语音信号的方法和系统
CN110709924A (zh) * 2017-11-22 2020-01-17 谷歌有限责任公司 视听语音分离
CN110675891A (zh) * 2019-09-25 2020-01-10 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN110970056A (zh) * 2019-11-18 2020-04-07 清华大学 一种从视频中分离音源的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FAHEEM ULLAH KHAN,等: "Using Visual Speech Information in Masking Methods for Audio Speaker Separation", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
关勇,等: "基于计算听觉场景分析和语者模型信息的语音识别鲁棒前端研究", 《自动化学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380270A (zh) * 2021-05-07 2021-09-10 普联国际有限公司 一种音频音源分离方法、装置、存储介质及电子设备
CN113850246A (zh) * 2021-11-30 2021-12-28 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
CN113850246B (zh) * 2021-11-30 2022-02-18 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
CN114596876A (zh) * 2022-01-21 2022-06-07 中国科学院自动化研究所 声源分离方法及装置
CN114970607A (zh) * 2022-05-06 2022-08-30 北京谛声科技有限责任公司 基于深度神经网络声发射信号分离的变压器局放检测方法
CN114970607B (zh) * 2022-05-06 2024-03-29 北京谛声科技有限责任公司 基于深度神经网络声发射信号分离的变压器局放检测方法

Also Published As

Publication number Publication date
CN112712819B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN110136731B (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN112712819B (zh) 视觉辅助跨模态音频信号分离方法
CN113806609B (zh) 一种基于mit和fsm的多模态情感分析方法
CN112349297A (zh) 一种基于麦克风阵列的抑郁症检测方法
US11837252B2 (en) Speech emotion recognition method and system based on fused population information
CN108198576A (zh) 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法
CN115862684A (zh) 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法
CN116994564B (zh) 一种语音数据的处理方法及处理装置
CN116049743B (zh) 基于多模态数据的认知识别方法、计算机设备和存储介质
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
CN111798875A (zh) 一种基于三值量化压缩的vad实现方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN116704585A (zh) 一种基于质量感知的人脸识别方法
Hamsa et al. Speaker identification from emotional and noisy speech using learned voice segregation and speech VGG
CN112466284B (zh) 一种口罩语音鉴别方法
CN117275510A (zh) 一种基于多梯度流网络的小样本水声目标识别方法及系统
CN112259086A (zh) 一种基于语谱图合成的语音转换方法
CN116469404A (zh) 一种视听跨模态融合语音分离方法
CN113808604B (zh) 基于伽马通频谱分离的声场景分类方法
CN116110423A (zh) 一种融合双通道注意力机制的多模态视听分离方法及系统
CN113488069B (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Sunny et al. Discrete wavelet transforms and artificial neural networks for recognition of isolated spoken words
Barbieri et al. Towards a multimodal time-based empathy prediction system
CN117312548A (zh) 一种多源异构灾情数据融合理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant