CN110400575A - 通道间特征提取方法、音频分离方法和装置、计算设备 - Google Patents

通道间特征提取方法、音频分离方法和装置、计算设备 Download PDF

Info

Publication number
CN110400575A
CN110400575A CN201910671562.1A CN201910671562A CN110400575A CN 110400575 A CN110400575 A CN 110400575A CN 201910671562 A CN201910671562 A CN 201910671562A CN 110400575 A CN110400575 A CN 110400575A
Authority
CN
China
Prior art keywords
channel
dimensional
mixed audio
sound
source mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910671562.1A
Other languages
English (en)
Other versions
CN110400575B (zh
Inventor
顾容之
张世雄
陈联武
徐勇
于蒙
苏丹
俞栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910671562.1A priority Critical patent/CN110400575B/zh
Publication of CN110400575A publication Critical patent/CN110400575A/zh
Priority to EP20844066.9A priority patent/EP4006902B1/en
Priority to PCT/CN2020/100064 priority patent/WO2021012929A1/zh
Priority to US17/401,125 priority patent/US11908483B2/en
Application granted granted Critical
Publication of CN110400575B publication Critical patent/CN110400575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种多通道多声源混合音频信号的通道间特征提取方法、音频分离方法和装置、计算设备、计算机可读存储介质、以及多声源音频分离系统。音频分离方法包括:将多通道多声源混合音频信号的多个通道分量之一变换成一特征空间中的单通道多声源混合音频表征;对多通道多声源混合音频信号执行二维空洞卷积,以提取多个通道间特征;对所述单通道多声源混合音频表征和所述多个通道间特征执行特征融合;基于融合后的多通道多声源混合音频特征,估计多个声源在所述单通道多声源混合音频表征中各自的权重;根据所述单通道多声源混合音频表征和所述各自的权重得到多个声源各自的表征;并且将所述多个声源各自的表征变换成多个声源各自的音频信号。

Description

通道间特征提取方法、音频分离方法和装置、计算设备
技术领域
本发明涉及音频处理技术,具体来说涉及一种多通道多声源混合音频信号的通道间特征提取方法、一种多通道多声源混合音频信号的音频分离方法和装置、计算设备、计算机可读存储介质、以及多声源音频分离系统。
背景技术
由于语音信号的时频稀疏效应和掩蔽效应,经典的多说话人混合语音分离方法大多在时频域进行。例如,为每一个声源估计一个时频掩模,每个时频单元的掩模值表征了该声源的主导程度或该声源主导的概率。但是,基于时频域的方法面临复杂的相位估计和相位重构问题,限制了其性能上限。而且,时频域通道间特征(如两耳时间差、两耳相位差、两耳强度差等)通常通过手工提取,这要求较长的处理时间长,导致系统实时性差等问题。
发明内容
有利的是,提供一种可以缓解、减轻或甚至消除上述问题中的一个或多个的机制。
根据本发明的一些实施例,提供了一种多通道多声源混合音频信号的通道间特征提取方法,包括:接收所述多通道多声源混合音频信号,其中所述多通道多声源混合音频信号包括C个通道分量,每个通道分量包括S个采样点,CS为大于或等于2的整数;并且基于通道间空洞系数z、通道间步幅pn个相同尺寸的二维卷积核,对所述多通道多声源混合音频信号执行二维空洞卷积,以生成n个特征图,其中所述n个特征图包含多个声源的空间分布信息,zn为整数,1≤zCn≥1,h为每个所述二维卷积核的高度,l为每个所述二维卷积核的长度,lS
在一些实施例中,所述方法还包括:基于所述通道间空洞系数z的多个不同取值和/或所述通道间步幅p的多个不同取值,执行所述二维空洞卷积,以生成多个所述通道间特征。
在一些实施例中,所述执行二维空洞卷积包括:执行标准的二维空洞卷积或其变型,所述变型选自以下各项所组成的组:可分离卷积、可形变卷积、多尺度卷积、以及一维卷积的二维扩展。
根据本发明的一些实施例,提供了一种多通道多声源混合音频信号的音频分离方法,包括:将所述多通道多声源混合音频信号的多个通道分量之一变换成一特征空间中的单通道多声源混合音频表征;对所述多通道多声源混合音频信号执行二维空洞卷积,以提取多个通道间特征;对所述单通道多声源混合音频表征和所述多个通道间特征执行特征融合,以得到融合后的多通道多声源混合音频特征;基于所述融合后的多通道多声源混合音频特征,估计多个声源在所述单通道多声源混合音频表征中各自的权重;根据所述单通道多声源混合音频表征和所述各自的权重得到所述多个声源各自的表征;并且将所述多个声源各自的表征变换成所述多个声源各自的音频信号。
在一些实施例中,对所述多通道多声源混合音频信号执行二维空洞卷积包括:基于通道间空洞系数z的多个不同取值和/或通道间步幅p的多个不同取值,和并行的至少一个二维卷积层,对所述多通道多声源混合音频信号执行二维空洞卷积。所述多通道多声源混合音频信号包括C个通道分量,每个通道分量包括S个采样点,CS为大于或等于2的整数。每个所述二维卷积层包括相应的n个相同尺寸的二维卷积核,每个所述二维卷积核的长度小于或等于S。对于所述通道间空洞系数z的每个取值和/或所述通道间步幅p的每个取值,每个所述二维卷积层将所述多通道多声源混合音频信号与所述相应的n个相同尺寸的二维卷积核进行二维空洞卷积,以生成相应的n个特征图作为一个相应的通道间特征,其中zn为整数,1≤zCn≥1。
在一些实施例中,所述音频分离方法基于端到端的神经网络实现。对于每个所述二维卷积层,所述n个相同尺寸的二维卷积核在所述端到端的神经网络的训练阶段按照以下方案之一进行初始化:
w n’,l’,0 =1,w n’,l’,1 =-1,w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’=2,3,...,h-1
w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =-w n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’= 2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布;
w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =-λw n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’= 2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布,λ为可学习的网络参数;或
w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =-λ l’ w n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1, h’=2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布,λ l’ 为可学习的网络参数,且随l’不同而不同,
其中,h为该二维卷积层中每个二维卷积核的高度,l为该二维卷积层中每个二维卷积核的长度,w n’,l’,h’ 表示第n’个二维卷积核在(l’, h’)位置上的取值。
在一些实施例中,所述至少一个二维卷积层包括并行的多个二维卷积层。对于所述多个二维卷积层中的不同二维卷积层,所述二维卷积核具有不同的尺寸。
在一些实施例中,所述音频分离方法基于端到端的神经网络实现。所述音频分离方法还包括对所述端到端的神经网络进行训练的训练阶段,所述训练阶段包括:基于多个不同声源的原始音频数据s i (t)建立用于训练的多通道多声源混合音频数据,其中i=1, 2,…, II为所述不同声源的总数;并且基于置换不变性训练准则,利用所述多通道多声源混合音频数据对所述端到端的神经网络进行训练,其中利用所述端到端的神经网络估计的音频数据和所述原始音频数据s i (t),计算针对所述不同声源的估计音频-原始音频的各种配对组合的得分,其中θ (i) 表示某一个配对组合,并且将具有最高得分的配对组合的得分负值作为所述端到端的神经网络的损失函数。
根据本发明的一些实施例,提供了一种多通道多声源混合音频信号的音频分离装置,包括:编码器模块,被配置成将所述多通道多声源混合音频信号的多个通道分量之一变换成一特征空间中的单通道多声源混合音频表征;通道间特征提取模块,被配置成对所述多通道多声源混合音频信号执行二维空洞卷积,以提取多个通道间特征;特征融合模块,被配置成对所述单通道多声源混合音频表征和所述多个通道间特征执行特征融合,以得到融合后的多通道多声源混合音频特征;分离模块,被配置成基于所述融合后的多通道多声源混合音频特征,估计多个声源在所述单通道多声源混合音频表征中各自的权重;加权模块,被配置成根据所述单通道多声源混合音频表征和所述各自的权重得到所述多个声源各自的表征;以及解码器模块,被配置成将所述多个声源各自的表征变换成所述多个声源各自的音频信号。
在一些实施例中,所述编码器模块、所述通道间特征提取模块、所述特征融合模块、所述分离模块、所述加权模块和所述解码器模块被实施为端到端的神经网络。
在一些实施例中,所述编码器模块和解码器模块均包括一维卷积层,所述通道间特征提取模块包括并行的至少一个二维卷积层,所述特征融合模块包括线性层、卷积层或映射层,并且所述分离模块包括多个堆叠的深度可分离空洞卷积网络。
在一些实施例中,所述特征融合模块与所述分离模块彼此分离。
在一些实施例中,所述特征融合模块被嵌入在所述分离模块的所述多个堆叠的深度可分离空洞卷积网络之间。
根据本发明的一些实施例,提供了一种计算设备,包括处理器和存储器,所述存储器其上存储指令,所述指令当在所述处理器上执行时促使所述处理器执行如上所述的音频分离方法中的任一个。
根据本发明的一些实施例,提供了一种计算机可读存储介质,其上存储指令,所述指令当在处理器上执行时促使所述处理器执行如上所述的音频分离方法中的任一个。
根据本发明的一些实施例,提供了一种多声源音频分离系统,包括:声学传感器阵列,被配置成获取多通道多声源混合音频信号;以及如上所述的计算设备。
本发明的实施例提供了各种优点。在通道间特征提取方法的实施例中,二维空洞卷积可以自动学习出通道间特征。相对于手工提取通用通道间特征的方案,加速了网络训练进程,提高了系统实时性。在设定场景下,可以提升系统性能。在音频分离方法和装置的实施例中,通过构建端到端的神经网络并在训练阶段对二维空洞卷积核进行初始化,更好地发掘及编码通道间的差异信息。相对于单通道时域方法,音频分离方法和装置的实施例集成了通道间线索,利用神经网络的非线性拟合能力学习到更具区分性的特征表达,从而提供更好的分离效果。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:
图1示出了其中可以应用根据本发明实施例的音频分离方法的示例系统的示意图;
图2示出了根据本发明实施例的音频分离方法的流程图;
图3示出了根据本发明实施例的音频分离装置的示意性框图;
图4示出了图2中的提取通道间特征的步骤的流程图;
图5A和5B示出了利用不同通道间空洞系数的二维空洞卷积的示意图;并且
图6一般地图示了一个示例系统,其包括可以实现本文描述的各种技术的示例计算设备。
具体实施方式
在描述本发明的实施例之前,解释说明本文中使用的若干术语。这些概念本身是人工智能领域的技术人员已知的,为了简洁起见,它们的详细描述在本文中被省略。
1、空洞卷积(Dilated Convolution)。空洞卷积也被称为扩张卷积或膨胀卷积,它向卷积层引入了一个称为“空洞系数”或“扩张率(dilation rate)”的新参数,该参数定义了卷积核处理数据时该数据中被卷积的各个值之间的间距。例如,在对二维数据做空洞卷积的情况下,如果空洞系数为1,则空洞卷积与普通的卷积操作相同;如果在某个维度上,空洞系数为2,则在该维度上,该二维数据中将被卷积的各数据点之间的间距为2,或者说,在该维度上,该二维数据中将被卷积的相邻数据点之间存在1个空洞。关于空洞卷积的更多信息可参见Yu, Fisher, and Vladlen Koltun. Multi-scale context aggregation bydilated convolutions. arXiv preprint arXiv:1511.07122 (2015)。
2、端到端(End-to-End)神经网络。“端到端”是相对于多步骤解决方案而言的。例如,在语音识别的场景下,传统的语音识别系统包括多个模块,诸如声学模型、发音词典、语言模型。这些模块的训练一般都是独立进行的,各有各的目标函数。由于各个模块在训练时不能互相取长补短,训练的目标函数又与系统整体的性能指标有偏差,这样训练出的网络往往达不到最优性能。与之相对,在端到端神经网络中,不再有独立的声学模型、发音词典、语言模型等模块,而是从输入端(语音波形)到输出端(单词或字符序列)直接用一个神经网络相连,让这个神经网络来承担原先所有模块的功能。这样,由输入端的数据在输出端处直接得到结果。在多声源混合音频信号分离的场景下,输入端的数据例如为多声源混合音频信号,并且输出端的数据为各个声源各自的音频信号。
3、深度可分离卷积(depthwise separable convolution)。深度可分离卷积将传统的卷积分解为一个深度卷积(depthwise convolution)加 一个 1×1的卷积(pointwiseconvolution),比普通卷积减少了所需要的参数。
下面结合附图详细描述本发明的实施例。
图1示出了其中可以应用根据本发明实施例的音频分离方法的示例系统100的示意图。参考图1,系统100包括声学传感器阵列110和计算设备120。
声学传感器阵列110包括多个声学传感器,例如麦克风MIC,其用于拾取来自多个声源(例如,用户102a、102b和102c)的音频信号(例如,语音信号)。每个声学传感器即为一个“通道”。在一些实施例中,声学传感器阵列110可以集成在计算设备102中。替换地,声学传感器阵列110可以与计算设备102空间分离。在一些实施例中,多个声学传感器可以定位于不同的物理位置,例如分布在房间的不同角落。
计算设备120可以经由直连连接130(有线或无线)从声学传感器阵列110接收由声学传感器阵列110拾取的多声源多通道混合音频信号(例如,用户102a、102b和102c的语音信号)。替换地或附加地,计算设备120还可以经由网络140与声学传感器阵列110通信。网络140的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如因特网之类的通信网络的组合。
如图1所示,计算设备120包括能够通过直连连接130和/或网络140进行通信的至少一个通信接口121。这样的通信接口可以是以下项中的一个或多个:任何类型的网络接口(例如,网络接口卡(NIC))、有线或无线(诸如IEEE 802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、BluetoothTM接口、近场通信(NFC)接口等。本发明的实施例不限于此。
计算设备120还包括音频分离装置122,其用于对从声学传感器阵列110接收的多声源多通道混合音频信号进行分离,得到各个声源各自的音频信号。在图1的示例中,音频分离装置122可以用于从声学传感器阵列110拾取的混合语音信号中分离出用户102a、102b和102c的各自的语音信号。具体地,计算设备120可以应用于复杂声学场景下的语音交互,例如虚拟前台、智能音箱、智能TV等使用场景。
系统100可以以各种方式配置,并且可以以各种方式操作,以使得能够实现混合音频分离。例如,图2示出了根据本发明实施例的音频分离方法200的流程图。系统100可以在实施例中根据方法200来操作。图3示出了根据本发明实施例的音频分离装置300的示意性框图。音频分离装置300是图1的音频分离装置122的示例。为了说明的目的,下面参照图3描述图2的方法200。
在步骤210,将多通道多声源混合音频信号的多个通道分量之一变换成一特征空间中的单通道多声源混合音频表征。步骤210可以由编码器模块310实现。
在一个实施例中,多通道多声源混合音频信号及其多个通道分量为时域信号,并且每个通道分量为多个声源各自的音频信号的时域混合信号。
在一个实施例中,编码器模块310包括一维卷积层。通道分量x(t)被输入编码器模块310,并且编码器模块310将时域混合信号x(t)分解在一系列的基函数上,得到某个特征空间中的非负表示w。一系列的基函数可以写成矩阵U,那么编码器模块310实现的操作是:
其中ReLU(·)是一个激活函数,*表示卷积操作。
在步骤220,对多通道多声源混合音频信号执行二维空洞卷积,以提取多个通道间特征。步骤220可以由通道间特征提取模块320实现。
在一个实施例中,通道间特征提取模块320包括一个或多个二维卷积层,每个二维卷积层包括相应的n个相同尺寸的二维卷积核。在一个二维卷积层的情况下,多通道多声源混合音频信号与该二维卷积层的n个二维卷积核进行空洞卷积,生成作为通道间特征的n个特征图。在多个二维卷积层的情况下,多个二维卷积层是并行的,并且不同二维卷积层的二维卷积核可以具有彼此相同或不同的尺寸。多通道多声源混合音频信号被输入不同的二维卷积层进行空洞卷积,使得不同二维卷积层中的每一层都生成作为通道间特征的n个特征图。这些特征图指示了通道间的差异信息,该差异信息进而隐含了多个声源的空间分布信息。不管何种情况,通过改变通道间空洞系数和/或通道间步幅,同一个二维卷积层可以生成多个通道间特征。
步幅(stride)定义了卷积核遍历输入数据矩阵时的步幅大小。当卷积核移动的步幅小于卷积核的边长(例如,在卷积核为正方形的情况下)时,会出现卷积核在输入数据矩阵上的作用范围的重叠(overlap);当卷积核移动的步幅与卷积核的边长相一致时,不会出现重叠。
图4示出了步骤220的操作的流程图。参考图4,在步骤221,接收多通道多声源混合音频信号。例如,由图1的声学传感器阵列110采集且缓存在存储器中的多通道多声源混合音频信号被输入到通道间特征提取模块320。在步骤222,对所述多通道多声源混合音频信号执行二维空洞卷积。例如,多通道多声源混合音频信号被输入到通道间特征提取模块320的一个或多个二维卷积层,并且基于通道间空洞系数的多个不同取值和/或通道间步幅的多个不同取值进行所述二维空洞卷积。
假设多通道多声源混合音频信号包括C个通道分量,每个通道分量包括S个采样点,CS为大于或等于2的整数。该多通道多声源混合音频信号与n个尺寸为h×l的二维卷积核进行卷积,生成n个特征图。h为每个所述二维卷积核的高度,l为每个所述二维卷积核的长度,lS。设置卷积核的步幅为(p, q),其中p是通道间的步幅,q为采样点上的步幅,并且设置通道间空洞系数为z,1≤zC
图5A示出了在通道间空洞系数为1的情况下二维空洞卷积的示意图。第n个特征图v n 位于(i, j)位置处的值可以表示成:
,或z=1)
其中x pi+h’,qj+l’ 表示输入多通道语音波形第pi+h’个通道的第qj+l’个采样点,w n,l’,h’ 表示第n个卷积核在(l’, h’)位置上的参数。由此,得到n个特征图,每个特征图的大小为((C- h)/p+1, (S-l)/q+1)。
如前所述,通过改变通道间空洞系数和/或通道间步幅,同一个二维卷积层可以生成不同的通道间特征。这可以发掘非相邻通道的不同组合(例如,通道1和通道3、通道1和通道4)的通道间特征。
图5B示出了在通道间空洞系数z为2的情况下二维空洞卷积的示意图。第n个特征图v n 位于(i, j)位置处的值可以表示成:
z=2)
将理解的是,通道间空洞系数z还可以取其他值以发掘更多非相邻通道的组合的通道间特征,本文不再赘述。
返回参考图2,虽然步骤210和220被示出为并行地执行,但是这不是限制性的。在其他实施例中,步骤210和220可以被顺序地执行。
在步骤230,对步骤210中得到的单通道多声源混合音频表征和步骤220中得到的多个通道间特征执行特征融合,以得到融合后的多通道多声源混合音频特征。步骤230可以由特征融合模块330实现。
在一个实施例中,特征融合模块330包括线性层(例如,全连接层),使得特征被简单地拼接(concatenate)。将理解的是,特征融合方法不限于拼接,而是可以包括例如相加(sum)、通过映射层(projection layer)等。相应地,在替换的实施例中,特征融合模块330可以包括卷积层或映射层。
在步骤240,基于所述融合后的多通道多声源混合音频特征,估计多个声源在所述单通道多声源混合音频表征中各自的权重。步骤240可以由分离模块340实现。
在一个实施例中,分离模块340包括多个堆叠的深度可分离空洞卷积网络。这些卷积网络可以最后连接一个1×1卷积层。分离模块340为每个声源输出一张掩模(mask)m i ,其中i=1,2,…,I,并且I为声源的总数(在图1的示例中,I=3)。掩模值的大小表示了声源i对非负表示w的贡献程度,即声源i在单通道混合语音表征中所占据的权重。
虽然步骤240在图2中被示出为在步骤230之后执行,并且特征融合模块330和分离模块340在图3中相应地被示出为彼此分离,但是这不是限制性的。在其他实施例中,特征融合(步骤230)可以在分离(步骤240)过程中完成。例如,在分离模块340的某一个卷积网络之后进行特征融合,融合后的特征继续通过剩余的卷积网络。相应地,特征融合模块330可以作为网络层,被嵌入在分离模块340的多个卷积网络之间。
继续参考图2,在步骤250,根据所述单通道多声源混合音频表征和所述各自的权重得到所述多个声源各自的表征。步骤250可以由加权模块350实现。
在一个实施例中,声源i的表征可以表达为:
其中表示元素乘法,m i 表示声源i的掩模,w表示单通道多声源混合音频表征(非负表示)。
在步骤260,将多个声源各自的表征变换成所述多个声源各自的音频信号。步骤260可以由解码器模块360实现。
在一个实施例中,解码器模块360包括一维卷积层。解码器模块360通过线性解卷积操作将声源i的表示d i 重构成时域信号:
其中,V是解码器模块360的基函数矩阵。这样,解码器模块360输出多个声源各自的音频信号的估计。
虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。另外,本文讨论的执行动作的特定模块包括该特定模块本身执行动作,或者替换地该特定模块调用或以其他方式访问执行该动作的另一个组件或模块(或结合该特定模块一起执行动作)。因此,执行动作的特定模块可以包括执行动作的特定模块本身和/或执行动作的该特定模块调用或以其他方式访问的另一模块。
类似地,虽然各个操作在附图中被描绘为按照特定的顺序,但是这不应理解为要求这些操作必须以所示的特定顺序执行,也不应理解为要求必须执行所有示出的操作以获得期望的结果。
在一些实施例中,上面结合图2和3描述的编码器模块310、通道间特征提取模块320、特征融合模块330、分离模块340、加权模块350和解码器模块360被实施为端到端的神经网络。通过端到端地自动学习出通道间特征,可以提高系统的实时性。
在神经网络的训练阶段,参数必须被初始化。在本上下文中,通道间特征提取模块320中使用的二维卷积核的初始化对于通道间特征的学习和提取具有影响。常用的初始化方法包括高斯分布初始化、Xavier初始化、均匀分布初始化等。在这些初始化方法中,属于各个通道的卷积核系数服从同一个分布。但是,通道之间可能并不具有数值上的关联性,也就是说,将各个通道的特征图的对应位置上的数值相加所得到的值,不一定具有明确的物理意义。
在本发明的实施例中,为了提取通道间的差异信息,提出了以下几种针对通道间特征学习的初始化方法。
1)对于每个二维卷积层的所有n个尺寸为h×l的卷积核,令w n’,l’,0 =1,w n’,l’,1 =-1,w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’=2,3,...,h-1。于是,第n个特征图v n 位于(i, j)位置处的值即为通道pi和通道pi+z间音频信号的数值之差在qjqj+l-1区间内的和:
2)对每个二维卷积层的所有n个尺寸为h×l的卷积核,令w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =- w n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’=2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布。于是,第n个特征图v n 位于(i, j)位置处的值即为通道pi和通道pi+z间波形数值之差与卷积核系数的乘积,在qjqj+l-1区间内的和:
3)对每个二维卷积层的所有n个尺寸为h×l的卷积核,令w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =-λ w n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’=2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布,λ为可学习的缩放系数。于是,第n个特征图v n 位于(i, j)位置处的值即为:
4)对每个二维卷积层的所有n个尺寸为h×l的卷积核,令w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =- λ l’ w n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’=2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布,λ l’ 为可学习的缩放系数。该方法与3)类似,区别之处在于缩放系数λ l’ 可以随l’不同而不同。
如前所述,对于通道间特征提取模块320中的不同二维卷积层,二维卷积核的尺寸h×l可以具有不同取值。
在初始化参数的基础上,端到端神经网络可以被训练以更好地发掘及编码通道间的差异信息。下面简单描述被实施为端到端神经网络的音频分离装置300的示例训练过程。
首先,建立用于训练的多通道多声源混合音频数据。在一些实施例中,可以从标准数据库(如华尔街日报数据库)中随机选取若干属于不同声源(如说话人)的原始音频数据s i (t),并且利用比例系数α i 将其在时域混合,得到单通道多声源混合音频数据,其中I为声源的总数。然后,可以通过改变房间混响、房间大小、声源空间位置等参数,将单通道多声源混合音频数据仿真成多通道多声源混合音频数据。一种典型的仿真方法可以参见Habets, Emanuel AP. “Room impulse response generator.”Technische Universiteit Eindhoven, Tech. Rep 2.2.4 (2006): 1。最后,将得到的多通道多声源混合音频数据划分为训练集和测试集。
另外,需要为训练过程设置训练目标。声源的原始音频数据s i (t)可以用作监督数据。在一个实施例中,可以采用基于置换不变性(Permutation invariant training, PIT)的训练准则。具体地,利用神经网络估计的音频数据和原始音频数据s i (t),计算针对不同声源的估计音频-原始音频的各种配对组合的得分,其中θ (i) 表示某一个配对组合,并且将具有最高得分的配对组合的得分负值作为神经网络的损失函数。作为示例,可以计算尺度不变的信号干扰比(Scale-invariant speech-to-distortion ratio,SI-SDR)作为得分。关于PIT训练准则的更多信息可以参见Yu D, Kolbæk M, Tan Z H, et al.Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation [J]. 2017:241-245。
虽然前面的讨论包含若干特定的实现细节,但是这些不应解释为对任何发明或者可能要求保护的范围的限制,而应解释为对可能仅限于特定发明的特定实施例的特征的描述。
图6一般地在600处图示了示例系统,其包括可以实现本文描述的各种技术的示例计算设备610。计算设备610是图1的计算设备120的示例。
计算设备610可以是各种不同类型的设备,例如服务提供商的服务器、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。计算设备610的示例包括但不限于:台式计算机,服务器计算机、笔记本电脑或上网本计算机、移动设备(例如,平板电脑或者phablet设备、蜂窝或其他无线电话(例如,智能电话)、记事本计算机、移动台)、可穿戴设备(例如,眼镜、手表)、娱乐设备(例如,娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。因此,计算设备610的范围可以从具有大量存储器和处理器资源的全资源设备(例如,个人计算机、游戏控制台)到具有有限的存储器和/或处理资源的低资源设备(例如,传统的机顶盒、手持游戏控制台)。
如图示的示例计算设备610包括彼此通信耦合的处理系统611、一个或多个计算机可读介质612以及一个或多个I/O接口613。尽管未示出,但是计算设备610还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统611代表使用硬件执行一个或多个操作的功能。因此,处理系统611被图示为包括可被配置为处理器、功能块等的硬件元件614。这可以包括在硬件中实现作为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件614不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质612被图示为包括存储器/存储装置615。存储器/存储装置615表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置615可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置615可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质612可以以下面进一步描述的各种其他方式进行配置。
一个或多个输入/输出接口613代表允许用户向计算设备610键入命令和信息并且还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备610可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备610还包括音频分离应用616。音频分离应用616可以作为计算机程序指令存储在存储器/存储装置615中。音频分离应用616是图1的音频分离装置122的示例。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备610访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备610的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指以这样的方式对信号中的信息进行编码来设置或改变其特征中的一个或多个的信号。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前所述,硬件元件614和计算机可读介质612代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件614体现的一个或多个指令和/或逻辑。计算设备610可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件614,可以至少部分地以硬件来实现将模块实现为可由计算设备610作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备610和/或处理系统611)可执行/可操作以实现本文所述的技术、模块和示例。
本文描述的技术可以由计算设备610的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。该功能还可以通过使用分布式系统、诸如通过如下所述的平台630在“云”620上全部或部分地实现。
云620包括和/或代表用于资源632的平台630。平台630抽象云620的硬件(例如,服务器)和软件资源的底层功能。资源632可以包括在远离计算设备610的服务器上执行计算机处理时可以使用的应用和/或数据。资源632还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台630可以抽象资源和功能以将计算设备610与其他计算设备连接。平台630还可以用于抽象资源的分级以提供遇到的对于经由平台630实现的资源632的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统600内。例如,功能可以部分地在计算设备610上以及通过抽象云620的功能的平台630来实现。
在本文的讨论中,描述了各种不同的实施例。应当领会和理解,本文描述的每个实施例可以单独使用或与本文所述的一个或多个其他实施例相关联地使用。
尽管已经以结构特征和/或方法动作特定的语言描述了主题,但是应当理解,所附权利要求中限定的主题不一定限于上述具体特征或动作。相反,上述具体特征和动作被公开为实现权利要求的示例形式。
通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除其他元件或步骤,不定冠词“一”或“一个”不排除多个,并且“多个”意指两个或更多。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获利。

Claims (16)

1.一种多通道多声源混合音频信号的通道间特征提取方法,包括:
接收所述多通道多声源混合音频信号,其中所述多通道多声源混合音频信号包括C个通道分量,每个通道分量包括S个采样点,CS为大于或等于2的整数;并且
基于通道间空洞系数z、通道间步幅pn个尺寸为h×l的二维卷积核,对所述多通道多声源混合音频信号执行二维空洞卷积,以生成n个特征图,其中所述n个特征图包含多个声源的空间分布信息,zn为整数,1≤zCn≥1,h为每个所述二维卷积核的高度,l为每个所述二维卷积核的长度,lS
2.如权利要求1所述的方法,还包括:
基于所述通道间空洞系数z的多个不同取值和/或所述通道间步幅p的多个不同取值,执行所述二维空洞卷积,以生成多个所述通道间特征。
3.如权利要求1或2所述的方法,其中所述执行二维空洞卷积包括:执行标准的二维空洞卷积或其变型,所述变型选自以下各项所组成的组:可分离卷积、可形变卷积、多尺度卷积、以及一维卷积的二维扩展。
4.一种多通道多声源混合音频信号的音频分离方法,包括:
将所述多通道多声源混合音频信号的多个通道分量之一变换成一特征空间中的单通道多声源混合音频表征;
对所述多通道多声源混合音频信号执行二维空洞卷积,以提取多个通道间特征;
对所述单通道多声源混合音频表征和所述多个通道间特征执行特征融合,以得到融合后的多通道多声源混合音频特征;
基于所述融合后的多通道多声源混合音频特征,估计多个声源在所述单通道多声源混合音频表征中各自的权重;
根据所述单通道多声源混合音频表征和所述各自的权重得到所述多个声源各自的表征;并且
将所述多个声源各自的表征变换成所述多个声源各自的音频信号。
5.如权利要求4所述的方法,其中对所述多通道多声源混合音频信号执行二维空洞卷积包括:
基于通道间空洞系数z的多个不同取值和/或通道间步幅p的多个不同取值,和并行的至少一个二维卷积层,对所述多通道多声源混合音频信号执行二维空洞卷积,
其中所述多通道多声源混合音频信号包括C个通道分量,每个通道分量包括S个采样点,CS为大于或等于2的整数,
其中每个所述二维卷积层包括相应的n个相同尺寸的二维卷积核,每个所述二维卷积核的长度小于或等于S
其中对于所述通道间空洞系数z的每个取值和/或所述通道间步幅p的每个取值,每个所述二维卷积层将所述多通道多声源混合音频信号与所述相应的n个相同尺寸的二维卷积核进行二维空洞卷积,以生成相应的n个特征图作为一个相应的通道间特征,其中zn为整数,1≤zCn≥1。
6.如权利要求5所述的方法,
其中所述音频分离方法基于端到端的神经网络实现,并且
其中对于每个所述二维卷积层,所述n个相同尺寸的二维卷积核在所述端到端的神经网络的训练阶段按照以下方案之一进行初始化:
w n’,l’,0 =1,w n’,l’,1 =-1,w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’=2,3,...,h-1
w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =-w n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’= 2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布;
w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =-λw n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’= 2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布,λ为可学习的网络参数;或
w n’,l’,0 ~N(μ, σ 2),w n’,l’,1 =-λ l’ w n’,l’,1 w n’,l’,h’ =0n’=1,2,...,n,l’=0,1,...,l-1,h’ =2,3,...,h-1N(μ, σ 2)为均值为μ,方差为σ 2 的高斯分布,λ l’ 为可学习的网络参数,且随l’不同而不同,
其中,h为该二维卷积层中每个二维卷积核的高度,l为该二维卷积层中每个二维卷积核的长度,w n’,l’,h’ 表示第n’个二维卷积核在(l’, h’)位置上的取值。
7.如权利要求5或6所述的方法,
其中所述至少一个二维卷积层包括并行的多个二维卷积层,并且
其中对于所述多个二维卷积层中的不同二维卷积层,所述二维卷积核具有不同的尺寸。
8.如权利要求4所述的方法,
其中所述音频分离方法基于端到端的神经网络实现,并且
其中所述音频分离方法还包括对所述端到端的神经网络进行训练的训练阶段,所述训练阶段包括:
基于多个不同声源的原始音频数据s i (t)建立用于训练的多通道多声源混合音频数据,其中i=1, 2, …, II为所述不同声源的总数;并且
基于置换不变性训练准则,利用所述多通道多声源混合音频数据对所述端到端的神经网络进行训练,其中利用所述端到端的神经网络估计的音频数据和所述原始音频数据s i (t),计算针对所述不同声源的估计音频-原始音频的各种配对组合的得分,其中θ (i) 表示某一个配对组合,并且将具有最高得分的配对组合的得分负值作为所述端到端的神经网络的损失函数。
9.一种多通道多声源混合音频信号的音频分离装置,包括:
编码器模块,被配置成将所述多通道多声源混合音频信号的多个通道分量之一变换成一特征空间中的单通道多声源混合音频表征;
通道间特征提取模块,被配置成对所述多通道多声源混合音频信号执行二维空洞卷积,以提取多个通道间特征;
特征融合模块,被配置成对所述单通道多声源混合音频表征和所述多个通道间特征执行特征融合,以得到融合后的多通道多声源混合音频特征;
分离模块,被配置成基于所述融合后的多通道多声源混合音频特征,估计多个声源在所述单通道多声源混合音频表征中各自的权重;
加权模块,被配置成根据所述单通道多声源混合音频表征和所述各自的权重得到所述多个声源各自的表征;以及
解码器模块,被配置成将所述多个声源各自的表征变换成所述多个声源各自的音频信号。
10.如权利要求9所述的装置,其中所述编码器模块、所述通道间特征提取模块、所述特征融合模块、所述分离模块、所述加权模块和所述解码器模块被实施为端到端的神经网络。
11.如权利要求10所述的装置,
其中所述编码器模块和解码器模块均包括一维卷积层,
其中所述通道间特征提取模块包括并行的至少一个二维卷积层,
其中所述特征融合模块包括线性层、卷积层或映射层,并且
其中所述分离模块包括多个堆叠的深度可分离空洞卷积网络。
12.如权利要求11所述的装置,其中所述特征融合模块与所述分离模块彼此分离。
13.如权利要求11所述的装置,其中所述特征融合模块被嵌入在所述分离模块的所述多个堆叠的深度可分离空洞卷积网络之间。
14.一种计算设备,包括处理器和存储器,所述存储器其上存储指令,所述指令当在所述处理器上执行时促使所述处理器执行权利要求4-8中任一项所述的方法。
15.一种计算机可读存储介质,其上存储指令,所述指令当在处理器上执行时促使所述处理器执行权利要求4-8中任一项所述的方法。
16.一种多声源音频分离系统,包括:
声学传感器阵列,被配置成获取多通道多声源混合音频信号;以及
如权利要求14所述的计算设备。
CN201910671562.1A 2019-07-24 2019-07-24 通道间特征提取方法、音频分离方法和装置、计算设备 Active CN110400575B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910671562.1A CN110400575B (zh) 2019-07-24 2019-07-24 通道间特征提取方法、音频分离方法和装置、计算设备
EP20844066.9A EP4006902B1 (en) 2019-07-24 2020-07-03 Inter-channel feature extraction for audio separation
PCT/CN2020/100064 WO2021012929A1 (zh) 2019-07-24 2020-07-03 通道间特征提取方法、音频分离方法和装置、计算设备
US17/401,125 US11908483B2 (en) 2019-07-24 2021-08-12 Inter-channel feature extraction method, audio separation method and apparatus, and computing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910671562.1A CN110400575B (zh) 2019-07-24 2019-07-24 通道间特征提取方法、音频分离方法和装置、计算设备

Publications (2)

Publication Number Publication Date
CN110400575A true CN110400575A (zh) 2019-11-01
CN110400575B CN110400575B (zh) 2024-03-29

Family

ID=68324922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910671562.1A Active CN110400575B (zh) 2019-07-24 2019-07-24 通道间特征提取方法、音频分离方法和装置、计算设备

Country Status (4)

Country Link
US (1) US11908483B2 (zh)
EP (1) EP4006902B1 (zh)
CN (1) CN110400575B (zh)
WO (1) WO2021012929A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326168A (zh) * 2020-03-25 2020-06-23 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置
WO2021012929A1 (zh) * 2019-07-24 2021-01-28 腾讯科技(深圳)有限公司 通道间特征提取方法、音频分离方法和装置、计算设备
CN112489675A (zh) * 2020-11-13 2021-03-12 北京云从科技有限公司 一种多通道盲源分离方法、装置、机器可读介质及设备
CN112927701A (zh) * 2021-02-05 2021-06-08 商汤集团有限公司 样本生成、神经网络生成、音频信号生成方法及装置
CN112949508A (zh) * 2021-03-08 2021-06-11 咪咕文化科技有限公司 模型训练方法、行人检测方法、电子设备及可读存储介质
CN113488063A (zh) * 2021-07-02 2021-10-08 国网江苏省电力有限公司电力科学研究院 一种基于混合特征及编码解码的音频分离方法
CN113823273A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113870891A (zh) * 2021-09-26 2021-12-31 平安科技(深圳)有限公司 语音提取方法、系统、装置及存储介质
CN113990303A (zh) * 2021-10-08 2022-01-28 华南理工大学 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法
CN117711423A (zh) * 2024-02-05 2024-03-15 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854571B2 (en) * 2019-11-29 2023-12-26 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal
CN113239942A (zh) * 2021-05-21 2021-08-10 佛山育脉科技有限公司 基于卷积运算的图像特征提取方法、装置及可读存储介质
CN113963715B (zh) * 2021-11-09 2024-09-03 清华大学 语音信号的分离方法、装置、电子设备及存储介质
CN114550743B (zh) * 2022-02-23 2024-05-28 平安科技(深圳)有限公司 一种语音增强方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103165136A (zh) * 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
CN103270508A (zh) * 2010-09-08 2013-08-28 Dts(英属维尔京群岛)有限公司 对漫射声音的空间音频编码和再现
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
US20190180142A1 (en) * 2017-12-11 2019-06-13 Electronics And Telecommunications Research Institute Apparatus and method for extracting sound source from multi-channel audio signal

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
JP6109927B2 (ja) * 2012-05-04 2017-04-05 カオニックス ラブス リミテッド ライアビリティ カンパニー 源信号分離のためのシステム及び方法
EP2731359B1 (en) * 2012-11-13 2015-10-14 Sony Corporation Audio processing device, method and program
WO2014147442A1 (en) * 2013-03-20 2014-09-25 Nokia Corporation Spatial audio apparatus
US10014002B2 (en) * 2016-02-16 2018-07-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN108805278B (zh) 2018-05-15 2022-03-08 成都理想境界科技有限公司 一种应用于深度学习的特征提取方法及系统
CN109830245B (zh) * 2019-01-02 2021-03-12 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110032926B (zh) * 2019-02-22 2021-05-11 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备
CN110400575B (zh) * 2019-07-24 2024-03-29 腾讯科技(深圳)有限公司 通道间特征提取方法、音频分离方法和装置、计算设备
WO2021239285A1 (en) * 2020-05-29 2021-12-02 Sony Group Corporation Audio source separation and audio dubbing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103270508A (zh) * 2010-09-08 2013-08-28 Dts(英属维尔京群岛)有限公司 对漫射声音的空间音频编码和再现
CN103165136A (zh) * 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
US20190180142A1 (en) * 2017-12-11 2019-06-13 Electronics And Telecommunications Research Institute Apparatus and method for extracting sound source from multi-channel audio signal
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021012929A1 (zh) * 2019-07-24 2021-01-28 腾讯科技(深圳)有限公司 通道间特征提取方法、音频分离方法和装置、计算设备
US11908483B2 (en) 2019-07-24 2024-02-20 Tencent Technology (Shenzhen) Company Limited Inter-channel feature extraction method, audio separation method and apparatus, and computing device
CN111326168A (zh) * 2020-03-25 2020-06-23 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111326168B (zh) * 2020-03-25 2023-08-22 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置
CN112489675A (zh) * 2020-11-13 2021-03-12 北京云从科技有限公司 一种多通道盲源分离方法、装置、机器可读介质及设备
CN112927701A (zh) * 2021-02-05 2021-06-08 商汤集团有限公司 样本生成、神经网络生成、音频信号生成方法及装置
CN112927701B (zh) * 2021-02-05 2024-07-16 商汤集团有限公司 样本生成、神经网络生成、音频信号生成方法及装置
CN112949508A (zh) * 2021-03-08 2021-06-11 咪咕文化科技有限公司 模型训练方法、行人检测方法、电子设备及可读存储介质
CN113488063B (zh) * 2021-07-02 2023-12-19 国网江苏省电力有限公司电力科学研究院 一种基于混合特征及编码解码的音频分离方法
CN113488063A (zh) * 2021-07-02 2021-10-08 国网江苏省电力有限公司电力科学研究院 一种基于混合特征及编码解码的音频分离方法
CN113823273B (zh) * 2021-07-23 2024-02-13 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113823273A (zh) * 2021-07-23 2021-12-21 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113870891A (zh) * 2021-09-26 2021-12-31 平安科技(深圳)有限公司 语音提取方法、系统、装置及存储介质
CN113990303A (zh) * 2021-10-08 2022-01-28 华南理工大学 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法
CN113990303B (zh) * 2021-10-08 2024-04-12 华南理工大学 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法
CN117711423A (zh) * 2024-02-05 2024-03-15 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法
CN117711423B (zh) * 2024-02-05 2024-05-10 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法及系统

Also Published As

Publication number Publication date
WO2021012929A1 (zh) 2021-01-28
EP4006902B1 (en) 2023-09-27
EP4006902A1 (en) 2022-06-01
US20210375294A1 (en) 2021-12-02
CN110400575B (zh) 2024-03-29
EP4006902A4 (en) 2022-08-17
US11908483B2 (en) 2024-02-20

Similar Documents

Publication Publication Date Title
CN110400575B (zh) 通道间特征提取方法、音频分离方法和装置、计算设备
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
JP7034339B2 (ja) オーディオ信号処理システム、及び入力オーディオ信号を変換する方法
JP7008638B2 (ja) 音声認識
WO2020155907A1 (zh) 用于生成漫画风格转换模型的方法和装置
JP6668366B2 (ja) オーディオ源の分離
US9818431B2 (en) Multi-speaker speech separation
EP3301675B1 (en) Parameter prediction device and parameter prediction method for acoustic signal processing
US9215539B2 (en) Sound data identification
CN111144124B (zh) 机器学习模型的训练方法、意图识别方法及相关装置、设备
JPWO2018042791A1 (ja) 情報処理装置、情報処理方法及び記録媒体
WO2023005386A1 (zh) 模型训练方法和装置
CN104361896B (zh) 语音质量评价设备、方法和系统
JP6647475B2 (ja) 言語処理装置、言語処理システムおよび言語処理方法
CN113241092A (zh) 基于双注意力机制和多阶段混合卷积网络声源分离方法
CN114121029A (zh) 语音增强模型的训练方法和装置以及语音增强方法和装置
US9318106B2 (en) Joint sound model generation techniques
CN114283833A (zh) 语音增强模型训练方法、语音增强方法、相关设备及介质
US9351093B2 (en) Multichannel sound source identification and location
CN117496990A (zh) 语音去噪方法、装置、计算机设备及存储介质
CN117373468A (zh) 远场语音增强处理方法、装置、计算机设备和存储介质
US12014728B2 (en) Dynamic combination of acoustic model states
CN114171043A (zh) 回声的确定方法、装置、设备以及存储介质
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant