CN117437930A - 用于多通道语音信号的处理方法、装置、设备和存储介质 - Google Patents
用于多通道语音信号的处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117437930A CN117437930A CN202311424589.3A CN202311424589A CN117437930A CN 117437930 A CN117437930 A CN 117437930A CN 202311424589 A CN202311424589 A CN 202311424589A CN 117437930 A CN117437930 A CN 117437930A
- Authority
- CN
- China
- Prior art keywords
- channel
- microphone array
- speech signal
- signal
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 104
- 238000000034 method Methods 0.000 claims abstract description 75
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 230000004807 localization Effects 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 24
- 238000003491 array Methods 0.000 claims description 20
- 238000000926 separation method Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 abstract description 37
- 238000012549 training Methods 0.000 abstract description 29
- 238000010586 diagram Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012067 mathematical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开的实施例提供了一种用于多通道语音信号的处理方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法面向麦克风阵列阵型已知的应用场景,提出了一种适用于任何麦克风阵列阵型的多通道语音前处理框架,其中,通过将麦克风阵列所采集的多通道语音信号中与该麦克风阵列的阵型信息相关的语音特征应用于该多通道语音信号的处理,使得同一经训练的多通道语音信号处理模型可以应用于任何麦克风阵型,而不需要为每种麦克风阵型训练专用的模型。此外,通过本公开的实施例的方法能够利用可知的阵型信息,支持诸如声源定位、定向增强、音区提取等的多种前处理任务。
Description
技术领域
本公开涉及数据处理领域,更具体地,涉及一种用于多通道语音信号的处理方法、装置、设备和存储介质。
背景技术
多通道语音前处理(Multi-channel speech processing,MC-SP)是一种用于增强多通道语音信号质量的技术,其旨在通过利用多通道信息和信号处理技术,提高语音信号的质量和可理解性。在麦克风阵列(即,排列成一定几何结构的多个麦克风)所采集到的多通道语音信号中,来自不同麦克风的信号可以提供更多的空间信息,但也可能受到噪声、回声等干扰。对此,多通道语音前处理模型可以基于麦克风阵列所采集到的多通道语音信号,对其进行目标语音分离、降噪、去混响等操作。
多通道语音前处理技术在语音信号处理领域具有重要意义,它能够提高语音信号的质量和可理解性,为后续的语音识别、语音合成等应用提供更好的输入。然而,目前的多通道语音前处理技术仍然存在一些挑战和问题。
因此,需要一种改进的多通道语音前处理方法,用于进一步增强多通道语音信号的质量和可理解性。
发明内容
为了解决上述问题,本公开面向麦克风阵列阵型已知的应用场景,提出了一种可用于任何麦克风阵列结构的多通道语音前处理统一方法,使得同一经训练的多通道语音前处理模型可处理任何麦克风阵列的多通道信号。
本公开的实施例提供了一种用于多通道语音信号的处理方法、装置、设备和计算机可读存储介质。
本公开的实施例提供了一种用于多通道语音信号的处理方法,包括:获取多通道语音信号,所述多通道语音信号由第一麦克风阵列采集;根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取,以获得所述多通道语音信号中的语音特征,所述语音特征包括与所述第一麦克风阵列的阵型信息相关的语音特征;以及利用经训练的多通道语音信号处理模型,基于所述语音特征和所述多通道语音信号,生成经处理的语音信号。
本公开的实施例提供了一种用于多通道语音信号的处理装置,包括:数据获取模块,被配置为获取多通道语音信号,所述多通道语音信号由第一麦克风阵列采集;特征提取模块,被配置为根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取,以获得所述多通道语音信号中的语音特征,所述语音特征包括与所述第一麦克风阵列的阵型信息相关的语音特征;以及信号处理模块,被配置为利用经训练的多通道语音信号处理模型,基于所述语音特征和所述多通道语音信号,生成经处理的语音信号。
本公开的实施例提供了一种用于多通道语音信号的处理设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的用于多通道语音信号的处理方法。
本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的用于多通道语音信号的处理方法。
本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的用于多通道语音信号的处理方法。
本公开的实施例所提供的方法相比于阵型不可知条件下的多通道语音前处理方法而言,能够利用麦克风阵列的可知的阵型信息,从而可以进行声源定位、定向增强、音区提取等任务。
本公开的实施例所提供的方法面向麦克风阵列阵型已知的应用场景,提出了一种适用于任何麦克风阵列阵型的多通道语音前处理框架,其中,通过将麦克风阵列所采集的多通道语音信号中与该麦克风阵列的阵型信息相关的语音特征应用于该多通道语音信号的处理,使得同一经训练的多通道语音信号处理模型可以应用于任何麦克风阵型,而不需要为每种麦克风阵型训练专用的模型。此外,通过本公开的实施例的方法能够利用可知的阵型信息,支持诸如声源定位、定向增强、音区提取等的多种前处理任务。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是示出根据本公开的实施例的通过麦克风阵列获取多通道语音信号的场景示意图;
图2是示出根据本公开的实施例的用于多通道语音信号的处理方法的流程图;
图3是示出根据本公开的实施例的用于多通道语音信号的处理方法的示意图;
图4是示出根据本公开的实施例的信号到达第一麦克风阵列中的相邻两个麦克风的到达时间差的示意图;
图5是示出根据本公开的实施例的用于多通道语音信号的处理方法的模拟场景示意图;
图6是示出根据本公开的实施例的多通道语音信号处理模型的训练过程的示意图;
图7是示出根据本公开的实施例的用于多通道语音信号的处理装置的示意图;
图8示出了根据本公开的实施例的用于多通道语音信号的处理设备的示意图;以及
图9示出了根据本公开的实施例的示例性计算设备的架构的示意图。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参考附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
在本说明书和附图中,具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示,且对这些步骤和元素的重复描述将被省略。同时,在本公开的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或排序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
为便于描述本公开,以下介绍与本公开有关的概念。
本公开的用于多通道语音信号的处理方法可以是基于人工智能(Artificialintelligence,AI)的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如,对于基于人工智能的用于多通道语音信号的处理方法而言,其能够以类似于人类听觉系统从嘈杂环境中很好地分辨出期望语音信号的方式来从通过麦克风阵列接收的混合语音信号中获取目标信号。人工智能通过研究各种智能机器的设计原理与实现方法,使本公开的用于多通道语音信号的处理方法具有针对阵型信息已知的任何麦克风阵列均能够通过统一的处理模型对其所采集的多通道语音信号的语音特征进行处理以生成目标信号的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本公开的用于多通道语音信号的处理方法还可以基于多通道语音前处理(Multi-channel Speech Preprocessing,MC-SP)技术。多通道语音前处理是对在麦克风阵列中采集到的多通道语音信号进行预处理的技术。其中,麦克风阵列是由多个麦克风组成的阵列,可以通过在时间和空间上对麦克风信号进行合理的组合和处理,获得更好的语音信号质量,常见的麦克风阵列可以包括线性阵列、圆形阵列和均匀圆阵列等。多通道语音前处理的目的是提高语音信号的质量和可理解性,降低噪声和混响的影响,从而改善语音识别、语音增强和语音通信等应用的性能。多通道语音前处理技术可以包括诸如声源定位、噪声估计和消除、混响抑制以及定向增强等处理。其中,声源定位处理可以包括通过对多通道语音信号进行声源定位,确定语音信号的方向和位置,从而更好地进行后续的语音信号处理。噪声估计和消除处理通过对多通道语音信号进行噪声估计和消除,以降低噪声的影响,提高语音信号的清晰度和可理解性。混响抑制处理通过对多通道语音信号进行混响抑制,减少混响的影响,提高语音信号的可理解性。定向增强处理可以包括通过对多通道语音信号进行处理,提高目标声源的可听性和可理解性,同时减弱背景噪声和其他干扰声源的影响。定向增强处理的目标是从多个麦克风阵列中获取到的多通道语音信号中,提取出目标声源的声音,并抑制其他非目标声源的声音,这对于语音识别、语音增强和语音通信等应用非常重要,因为它可以提高系统的性能和用户体验。
综上所述,本公开的实施例提供的方案涉及人工智能、多通道语音前处理等技术,下面将结合附图对本公开的实施例进行进一步地描述。
图1是示出根据本公开的实施例的通过麦克风阵列获取多通道语音信号的场景示意图。
如图1所示,在多个声源(图1中示为C个)在麦克风阵列(图1中示为由6个麦克风以圆形阵列均匀分布)的探测范围内发出声音时,其声音可由麦克风阵列进行采集,从而通过麦克风阵列的多个通道获取多通道语音信号。可选地,该麦克风阵列具体可以被实现在诸如智能手机、平板电脑、膝上型便携计算机、台式计算机、车载终端、可穿戴设备等设备上,但并不局限于此。
接下来,所获取的多通道语音信号可以被传送至语音信号处理端,以根据具体需求应用于各种麦克风阵列处理任务,包括但不限于语音增强、语音分离、自动语音识别、关键词识别和语音二值化。该语音信号处理端可以是如下文所述的根据本公开的实施例的用于多通道语音信号的处理装置,也可以是用于实现其他目的的处理装置。可选地,该语音信号处理端可以被实现在服务器端,并且所获取的多通道语音信号可以通过网络被传送至服务器端。可选地,网络可以是基于互联网和/或电信网的物联网(Internet of Things),其可以是有线网也可以是无线网,例如,其可以是局域网(LAN)、城域网(MAN)、广域网(WAN)、蜂窝数据通信网络等能实现信息交换功能的电子网络,布置有麦克风阵列的设备和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
多通道语音前处理MC-SP可以通过针对由麦克风阵列采集到的多通道语音信号进行目标语音分离、降噪、去混响等操作,改善语音信号的质量,以优化后续各种语音处理任务的性能。但是,在多通道语音前处理中采用的处理模型(即MC-SP模型)往往与特定的麦克风阵型(包括特定的麦克风数量和结构等)绑定,因此,在每次面对新的麦克风阵列场景需求时,都需要重新训练新的MC-SP模型,这显然需要大量的时间和计算量;同时,在诸如云端服务的应用中,由于用户数据的录制设备不同,往往需要一个统一模型来处理所有需求。
现有的一类MC-SP模型的输入通道数量固定,通过提取多通道信号的多通道特征(诸如空间特征、方向特征等)来利用空间信息,但是,这类特征需要基于特定麦克风阵型计算,因此训练好的模型仅适用于该特定麦克风阵型,而无法应用于其它麦克风阵型的场景中。另一类MC-SP模型独立地计算每一个通道上的前处理结果,然后用加权平均或中值等算法来合并所有通道输出的结果。尽管这类方法适用于任意麦克风阵型,但该方法难以使用多通道信号的空间信息,并且在通道数较多时计算复杂度较高,难以满足实际场景的实时需求。
为了保证多通道语音前处理模型对麦克风阵型的泛化性,目前的研究提出了阵型无关的多通道语音分离模型FasNet-TAC,其提出了通道数量无关的变换-平均-拼接(Transform-Average-Concatenate,TAC)模块,该模块将每个通道的中间特征经由共享的变换层进行变换,然后对其求平均得到融合所有通道的特征,并将该跨通道特征和每个通道变换后的特征进行拼接,输入下一个处理模块。因此,TAC模块在保留通道信息的同时,以一种通道数量无关的方式充分地利用通道间信息。基于TAC模块,另一研究提出了一种阵型不可知条件下的多通道语音分离模型VarArray,其输入是一组幅度谱和通道间相位差特征,并用一种与麦克风排序无关的方式排列。该模型由多个融合(conformer)模块穿插TAC模块组成,以充分利用多通道语音信号的时序相关性和通道间相关性。又一研究提出了一种面向多通道语音增强的网络结构PW-NBDF,使其学习适用于任何阵列结构的通用语音增强信息,而不是学习专为某一阵列特性设计的信息。
上述方法尽管可以在未知阵列条件下,对麦克风阵列具有一定的泛化性,但是,这些方法相较于麦克风阵列的阵型信息已知的模型性能有限,且由于假设阵型未知,无法完成与定位相关的任务,诸如定向语音增强、声源定位、音区提取等。
本公开基于此,面向麦克风阵列阵型已知的应用场景,提出了一种可用于任何麦克风阵列结构的多通道语音前处理统一方法,使得同一经训练的多通道语音前处理模型可处理任何麦克风阵列的多通道信号。
本公开的实施例所提供的方法相比于阵型不可知条件下的多通道语音前处理方法而言,能够利用麦克风阵列的可知的阵型信息,从而可以进行声源定位、定向增强、音区提取等任务。
本公开的实施例所提供的方法面向麦克风阵列阵型已知的应用场景,提出了一种适用于任何麦克风阵列阵型的多通道语音前处理框架,其中,通过将麦克风阵列所采集的多通道语音信号中与该麦克风阵列的阵型信息相关的语音特征应用于该多通道语音信号的处理,使得同一经训练的多通道语音信号处理模型可以应用于任何麦克风阵型,而不需要为每种麦克风阵型训练专用的模型。此外,通过本公开的实施例的方法能够利用可知的阵型信息,支持诸如声源定位、定向增强、音区提取等的多种前处理任务。
图2是示出根据本公开的实施例的用于多通道语音信号的处理方法200的流程图。图3是示出根据本公开的实施例的用于多通道语音信号的处理方法的示意图。
在步骤201中,可以获取多通道语音信号,所述多通道语音信号由第一麦克风阵列采集。例如,该多通道语音信号可以是通过如图1所示的第一麦克风阵列采集的。
可选地,本公开中的第一麦克风阵列可以包括按照特定形状规则布置排列的多个麦克风,以用于采集来自空间中不同方向的不同声源(例如,图1中的声源1-声源C)的语音信号,其可根据拓扑结构而被分为线性阵列、平面阵列、立体阵列等,例如图1所示的麦克风阵列为平面均匀圆阵列。需要注意的是,本公开中以该平面均匀圆阵列为例以便于描述本公开的方法,但该方法同样适用于其他任何类型的麦克风阵列,图1所示的麦克风阵列仅用作示例而非限制。
由第一麦克风阵列采集的多通道语音信号可以是通过第一麦克风阵列中的多个麦克风同时采集到的语音信号,相比于单通道语音信号,该多通道语音信号可以包含来自不同位置和方向的声音信息,以用于提供更多的空间和方位信息。
在本公开的实施例中,由第一麦克风阵列采集的多通道语音信号可以通过各种信号模型来表示,这些信号模型可以基于时域、频域或时间-频域(时频域)表示,并且可以使用不同的数学方法和算法进行建模和处理。可选地,本公开的用于多通道语音信号的处理方法可以根据具体的任务和应用需求来选择要使用的信号模型,以实现对多通道语音信号的准确建模和处理。
在本公开的实施例中,可以使用时域信号模型,将多通道语音信号表示为时间序列的形式。例如,可以假设具有M个麦克风阵元的第一麦克风阵列所接收到的M-通道混合信号在时域被表示为y,其可以包括空间中的C个语音声源s1至sC、以及可能的加性噪声n。因此,此场景下由该第一麦克风阵列采集的多通道语音信号y可以表示如下:
其中,hc表示第c个声源sc到达所有M个麦克风的传输函数,假设其为一种有限长冲激响应(Finite Impulse Response,FIR)长度为L的线性滤波器,*为卷积操作,每个样本的麦克风数量M可变。
因此,基于上述多通道语音信号y,通过将信号变换到时频域,可得该多通道语音信号y在时频域中可表示如下:
其中,Y、Hc、Sc、N分别表示多通道混合信号y的复数频谱、第c个声源的位置到M个麦克风的位置的房间冲激响应(Room Impulse Response,RIR)、第c个声源的语音信号的复数频谱、点源和非点源噪声频谱的和,Xc(t,f)表示第c个声源的语音信号在M个麦克风处的混响声像的复数频谱。
当然,应当理解,上述多通道语音信号的信号模型在本公开中仅用作示例而非限制,本公开的用于多通道语音信号的处理方法还可以采用其他各种信号模型。
可选地,上述声源可以是如图1所示的多个人声,此时本公开的方法用于对这些说话人的语音信号处理,诸如语音分离、语音增强或语音识别等。此外,该声源还可以包括音乐,诸如乐器演奏声,本公开对此不作限制。
根据本公开的实施例,用于多通道语音信号的处理方法还可以包括获取与所述多通道语音信号相关的任务特定信息,所述任务特定信息指示与针对所述多通道语音信号的预定任务相对应的信息。
可选地,除了上述多通道音频信号外,本公开的用于多通道语音信号的处理方法还可以获取与该多通道语音信号相关的任务特定信息,以用于基于该任务特定信息对该多通道语音信号进行与针对该多通道语音信号的预定任务相关的语音信号处理。其中,根据本公开的实施例,所述预定任务可以包括定向增强任务、声源定位任务和语音分离任务中的一个或多个。例如,可以根据实际的应用场景和需求确定对多通道音频信号的预定任务,这些任务可以包括但不限于定向增强任务、声源定位任务和语音分离任务等。其中,定向增强任务旨在提高特定声源的信号强度,以减少背景噪音的影响。声源定位任务旨在确定语音信号的来源位置,以便更好地理解环境中的声音。语音分离任务旨在将多个重叠的音频信号分离开来,以便单独处理每个声源。根据具体的应用需求,选择适当的预定任务可以提高音频处理的效果和质量。
可选地,上述预定任务可以通过训练对应的多通道音频信号处理模型来实现。例如,对于上述作为示例给出的声源定位任务,可以为声源定位任务训练特定的多通道音频信号处理模型,以将训练的多通道音频信号处理模型用于多通道音频信号的声源定位处理。此外,本公开的用于多通道语音信号的处理方法可以对多通道语音信号同时执行多个预定任务,例如同时执行对多通道语音信号的声源定位任务和语音分离任务。也就是说,所训练的多通道音频信号处理模型可以是同时针对多个预定任务进行训练的,因此,该多通道音频信号处理模型可以用于对多通道音频信号的多种语音信号处理。关于多通道音频信号处理模型的具体训练过程将在下文参考图6进行说明。
在步骤202中,可以根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取,以获得所述多通道语音信号中的语音特征,所述语音特征可以包括与所述第一麦克风阵列的阵型信息相关的语音特征。其中,第一麦克风阵列的阵型信息可以包括第一麦克风阵列中的麦克风数量、各个麦克风之间的位置和方向关系、以及麦克风之间的距离、角度和相对位置等信息。
可选地,可以从多通道语音信号中提取各种语音特征,以用于对多通道语音信号的各种处理任务,其中,这些语音特征可以包括诸如多通道语音信号的梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)和功率谱等的语音特征,并且进一步地,语音特征还可以包括与第一麦克风阵列的阵型信息相关的语音特征。也就是说,可以利用第一麦克风阵列的阵型信息从多通道语音信号中提取与第一麦克风阵列的阵型信息相关的语音特征。
作为示例,可以通过分析第一麦克风阵列中的麦克风之间的距离和角度关系来获得声源的定位信息,这对于声源分离和定位任务是非常有用的。作为另一示例,第一麦克风阵列的阵型信息还可以用于抑制噪声和回声任务,例如,可以通过对麦克风之间的相对位置进行建模,来准确估计噪声和回声的传播路径,并将其从语音信号中去除。此外,第一麦克风阵列的阵型信息还可以用于增强语音信号的清晰度和鲁棒性,例如,通过对麦克风之间的相对位置和方向关系进行建模,可以改善语音信号的可理解性和抗干扰能力。
如上所述,第一麦克风阵列的阵型信息可以用于与多通道语音信号相结合地使用,以从该多通道语音信号中提取出与第一麦克风阵列的阵型信息相关的语音特征,从而应用于对该多通道语音信号的处理。
根据本公开的实施例,根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取可以包括:基于所述第一麦克风阵列的阵型信息、所述任务特定信息和所述多通道语音信号,确定与所述第一麦克风阵列的阵型信息相关、并且特定于所述预定任务的语音特征。
可选地,在将第一麦克风阵列的阵型信息用于多通道语音信号的特征提取的基础上,还可以进一步地针对预定任务,将与该预定任务相对应的任务特定信息一起用于多通道语音信号的特征提取,以从多通道语音信号中提取出特定于该预定任务并且与第一麦克风阵列的阵型信息相关的语音特征,从而应用于对该多通道语音信号的特定于该预定任务的处理。
可选地,在本公开的实施例中,对于上述作为示例提供的多个预定任务,可以以具有代表性的定向增强任务为例在下文中进行描述,但是应当理解,本公开的用于多通道语音信号的处理方法同样可以用于针对多通道语音信号的其他任务,并且还可以对多通道语音信号同时执行多个预定任务,以下针对定向增强任务的描述在本公开中仅用作示例而非限制。
例如,定向增强任务可以用于从混合语音信号中增强来自给定角度的语音信号,而非所有声源的语音信号,或者说并非来自所有角度的语音信号。基于传统信号处理的定向增强方法在嘈杂、混响程度严重的声学环境中的干扰信号抑制能力非常有限,而基于神经网络训练出的定向增强模型为高性能的语音定向增强提供了可能,但是目前基于神经网络训练出的定向增强模型泛化能力较差,为实际的落地应用造成了困难。
因此,针对定向增强任务,本公开的用于多通道语音信号的处理方法可以训练对应的多通道语音信号处理模型,并利用与多通道语音信号相关、并且与该定向增强任务相对应的任务特定信息来从多通道语音信号中提取更适于定向增强任务并且与第一麦克风阵列的阵型信息相关的语音特征,从而通过经训练的多通道语音信号处理模型来对多通道语音信号进行定向增强处理。
根据本公开的实施例,在所述预定任务包括定向增强任务的情况下,所述任务特定信息可以包括目标语音方位信息,用于指示所述多通道语音信号中的目标语音信号的方位;并且所述语音特征可以包括方向特征,用于描述所述多通道语音信号在各个方位上的信号成分。
可选地,对于预定任务,用于指示与针对多通道语音信号的预定任务相对应的信息的任务特定信息可以包括针对多通道语音信号的预定任务所需的信息。例如,对于定向增强任务,可以获取针对多通道语音信号的定向增强任务所需的目标语音方位信息,该目标语音方位信息可以指示目标语音信号在多通道语音信号中的方位。
因此,如图3所示,基于多通道语音信号、上述任务特定信息和麦克风阵列的阵型信息,可以针对预定任务,通过特征提取获得特定于该预定任务、并且与麦克风阵列的阵型信息相关的语音特征。例如,对于定向增强任务,基于多通道语音信号、目标语音方位信息和麦克风阵列的阵型信息,可以从多通道语音信号中提取方向特征,以用于描述多通道语音信号在各个方位上的信号成分,并确定多通道语音信号在目标语音方位信息所指示的方位上的信号强度。
根据本公开的实施例,基于所述第一麦克风阵列的阵型信息、所述任务特定信息和所述多通道语音信号,确定与所述第一麦克风阵列的阵型信息相关、并且特定于所述预定任务的语音特征可以包括:基于所述第一麦克风阵列的阵型信息、所述目标语音方位信息和所述多通道语音信号,确定与所述第一麦克风阵列的阵型信息相关、并且特定于所述定向增强任务的方向特征,所述方向特征可以指示所述多通道语音信号中的在所述目标语音方位信息所指示的方位上的信号在所述多通道语音信号中的权重。
在本公开的实施例中,可以假设针对定向增强任务,给定目标语音信号方位θ,该定向增强任务旨在从混合带噪的多通道语音信号y∈RM×S中估计出目标语音信号stgt,其中,M表示当前多通道语音信号的通道数量,每个样本的M可变,S表示该语音信号的采样点数量,tgt是目标语音信号在多通道语音信号中的索引。因此,定向增强任务实际上可以看作通过用于定向增强任务的多通道语音信号处理模型所实现的映射stgt=g(y;θ),即实现多通道语音信号和任务特定信息(例如,目标语音方位信息)到目标语音信号的映射。
可选地,对于定向增强任务,方向特征可以是基于声源方向(目标语音信号方位)θ来估计来自该方向的信号在混合语音中所占权重的特征,其可以指示混合语音信号在不同方向上的信号成分,或是作为对某一方向信号的时频掩蔽的粗略估计。
根据本公开的实施例,所述方向特征可以是基于在时频域中由所述第一麦克风阵列对所述多通道语音信号的观测相位差与理论相位差之间的相似度确定的;其中,所述理论相位差可以对应于在所述多通道语音信号中仅存在来自所述目标语音方位信息所指示的方位上的信号的情况下,在所述方位上的信号到达所述第一麦克风阵列中的相邻两个麦克风的到达时间差,并且所述观测相位差可以对应于在所述方位上的信号到达所述第一麦克风阵列中的相邻两个麦克风的实际到达时间差。
图4是示出根据本公开的实施例的信号到达第一麦克风阵列中的相邻两个麦克风的到达时间差的示意图。
可选地,假设对于如图4所示的平面波传播模型、时频点(t,f)上只被来自方向θ的信号主导,来自方向θ的信号到达第一麦克风阵列中的相邻两个麦克风之间的到达时间差(Time difference of arraival,TDOA)τθ(d)在时频域上可以体现为一个固定相位差:
其中,表示来自方向θ的信号在第m个麦克风对(例如,图4中的M1和M2)之间、第f个频段上的理论相位差(Target phase difference,TPD),F表示总频点数,dm表示第m个麦克风对中两个麦克风之间的物理距离,τθ(dm)可以表示为τθ(dm)=dm·fs·cosθ/v,其中fs是信号采样频率,v是声速。
因此,在本公开的实施例中,可以采用基于相位的方向特征(Angulardirectional feature),其可以被定义为理论相位差TPD与通道间的观测相位差IPD(Interaural phase difference)在每个时频点(t,f)上的相似度:
其中,观测相位差表示多通道语音信号在第m个麦克风对的两个通道之间的相位差,其中<p,q>表示复数p和q的求内积操作。
如上式(4)所示,本公开的实施例中采用的基于相位的方向特征可以表示观测相位差IPD与理论相位差TPD之间的相似度大小,其中,理论相位差TPD实际上可以被视作对应于多通道语音信号中仅存在来自目标语音方位信息所指示的方位上的信号的情况,即,在这种情况下,观测相位差IPD与理论相位差TPD之间的相似度表现为最大值。例如,在时频点(t,f)被来自于方向θ的声源的语音信号所主导的情况下,观测相位差IPD与理论相位差TPD之间应具有较高的相似度,反正,在时频点(t,f)来自于方向θ的声源的语音信号在多通道语音信号中权重较低的情况下,观测相位差IPD与理论相位差TPD之间应具有较低的相似度。因此,方向特征可以指示多通道语音信号中的在目标语音方位信息所指示的方位上的信号在多通道语音信号中的权重,即,越大的方向特征可以对应于观测相位差IPD与理论相位差TPD之间越大的相似度,因此对应于在目标语音方位信息所指示的方位上的信号在多通道语音信号中越大的权重,而相反地,越小的方向特征可以对应于观测相位差IPD与理论相位差TPD之间越小的相似度,因此对应于在目标语音方位信息所指示的方位上的信号在多通道语音信号中越小的权重。
当然,上述方向特征在本公开中同样仅用作示例而非限制,在不脱离本公开的权利要求的保护范围的情况下,本公开的用于多通道语音信号的处理方法还可以采用其他各种语音特征。作为示例,除了上述基于相位的方向特征外,本公开的方法还可以采用诸如基于固定波束形成(Fixed beamforming)输出功率的方向特征。在这种情况下,当声源在空间中稀疏分布时,被来自目标语音信号方位的信号所主导的时频点上的功率应在所有方向功率和中所占的比重最大,其中,不同方位信号的功率可以通过固定波束形成算法,采用多波束划分的方式估计。
因此,如上所述,通过基于多通道语音信号、任务特定信息和麦克风阵列的阵型信息对多通道语音信号的特征提取,可以确定多通道语音信号中的语音特征,并且这些语音特征可以包括与麦克风阵列的阵型信息相关的语音特征。这些语音特征可以作为后续多通道语音信号处理模型的输入,由统一的多通道语音信号处理模型对语音特征进行处理,以生成期望的目标语音信号。
接下来,在步骤203中,可以利用经训练的多通道语音信号处理模型,基于所述语音特征和所述多通道语音信号,生成经处理的语音信号。
根据本公开的实施例,所述经训练的多通道语音信号处理模型可以与预定任务相关联,所述经训练的多通道语音信号处理模型可以以所述多通道语音信号的复数频谱和所述语音特征为输入,并且以所述经处理的语音信号为输出;所述经训练的多通道语音信号处理模型可以是针对所述预定任务、基于由不同麦克风阵列采集的多通道语音信号训练得到的。
如图3所示,本公开的多通道前处理统一模型(即,UMA(Unified model forarbitrary Microphone Arrays)模型),即上述多通道语音信号处理模型,可以是针对预定任务而训练的,其可以以多通道语音信号的复数频谱和语音特征为输入,并以经处理的语音信号为输出。其中,通过将麦克风阵列的阵列信息用于特征提取,在多通道语音信号处理中考虑了麦克风阵列的阵列结构,并且将不同麦克风阵列的阵列信息转换为统一表示的语音特征以输入UMA模型,使得训练得到的UMA模型可以适用于执行任何阵型的麦克风阵列的预定任务,而不需要为每种麦克风阵型训练专门的模型。
下面,作为示例,将参考图5和图6介绍对本公开的多通道前处理统一模型即多通道语音信号处理模型的训练过程。
首先,为了训练用于任何麦克风阵型的统一的多通道语音信号处理模型,需要准备覆盖了不同麦克风阵列、不同声学环境的大量多通道语音信号数据。因此,可选地,本公开可以采用模拟房间混响的形式来仿真由不同麦克风阵列采集到的大量数据。图5是示出根据本公开的实施例的用于多通道语音信号的处理方法的模拟场景示意图。其中,例如,可以预设四种麦克风阵列的形状,分别为常见的线形(均匀/非均匀)、环形(均匀/非均匀)、方形及不规则形,其对应的麦克风数量范围及孔径范围可以如下表1所示。
表1四种麦克风阵列的麦克风数量范围及孔径范围
在训练过程中,每一个训练样本的麦克风阵列的形状、孔径和数量均可以被设置为随机生成。除此之外,房间的大小、混响时间、声源方向角、声源-阵列距离也均可以被设置为随机选择。可选地,如图5所示,模拟房间的大小可以在预定范围(例如,3×4×2.5至12×10×4立方米)之间随机采样。混响时间可以在例如0.05至0.7秒之间随机采样,方向角可以在例如方位角在-180°到180°之间随机采样,俯仰角可以在例如-45°到45°之间随机采样,声源-阵列距离可以在例如0.1m到2.5m之间随机采样。作为示例,在图5所示的模拟房间中布置了一直径为10厘米(cm)的圆形麦克风阵列,该麦克风阵列由6个均分分布的麦克风组成。此外,模拟房间中还存在两个扬声器(声源),其与麦克风阵列的中心位置之间的平均距离为2.9±1.6米。
此外,在本公开的实施例中,还可以考虑不同类型的噪声种类以贴近实际场景的声学环境,例如包括各向同性噪声(环境噪声)、点源噪声和背景人声噪声(babble noise)等。因此,可以在每个多通道语音信号训练样本中随机加入不同类型的噪声。
图6是示出根据本公开的实施例的多通道语音信号处理模型的训练过程的示意图。
根据上文参考图4所述的方向特征的计算过程可以看出,方向特征的计算过程与麦克风阵型相关,这具体可以体现在:1)dm表示第m个麦克风对中两个麦克风之间的物理距离,其是由麦克风阵列中各个阵元的摆放位置决定的;2)方向θ是由麦克风阵列所确定的坐标系来决定的。在完成方向特征的提取后,本公开的多通道语音信号处理模型不再显式或隐式地建模与麦克风阵型、数量相关的特征,即,该多通道语音信号处理模型本身可以是与麦克风阵型无关的,其只需要基于前序计算得到的方向特征来执行预定任务,例如定向增强或声源定位等。
因此,在本公开的实施例中,可以将阵型相关的语音特征提取(例如,方向特征提取)与阵型无关的模型训练解耦,通过采用如上参考图5所述而获得的不同麦克风阵型下的大量多通道语音信号训练数据,训练得到一个阵型通用的多通道前处理统一模型。
如图6所示,对阵型通用的多通道前处理统一模型的训练可以包括数据仿真和采样阶段、特征提取阶段以及模型处理阶段。其中,在数据仿真和采样阶段,可以通过采样麦克风阵列,并采样目标语音信号stgt和干扰(包括语音和噪声),通过如上式(1)所示的方式生成多通道语音信号y。其中,RIR仿真可以用于控制所有点源(包括噪声和语音)的空间化仿真,噪声模块可以用于生成不同类型的噪声,继而在SNR/SIR控制模块中根据采样的信噪比(SNR)及信干比(SIR)重新调节目标、干扰和噪声的能量。此外,在RIR仿真过程中,还可以确定目标语音方向θ。
接下来,在方向特征提取阶段,可以以多通道语音信号y为输入,用于计算多通道语音信号的复数频谱Y和多个麦克风对的通道间相位差IPD。同时,还可以根据目标语音方向θ和麦克风阵列的阵型信息确定TPD(如上式(3)所示)。因此,根据上式(4),可以确定与麦克风阵列的阵型信息相关的、特定于定向增强任务的方向特征DF。
因此,统一模型UMA模型的输入即为多通道语音信号y的复数频谱Y、以及方位特征DF,其训练目标在于输出逼近于目标语音信号stgt的语音信号因此,可以利用目标语音信号stgt作为监督信息来训练UMA模型。在本公开中不对UMA模型的具体网络结构和训练损失函数进行限制,本公开的UMA模型可以采用诸如循环神经网络(Recurrent neuralnetwork,RNN)、长短时记忆网络(Long-short term memory,LSTM)、卷积神经网络(Convolution neural network,CNN)、转换器模型(Transformer)等的各种模型结构,还可以采用诸如频域重构损失、信噪比、时域重构损失等形式的训练损失。
如上所述,通过上述关于UMA模型的训练和应用,本公开的UMA模型可以适用于任何麦克风阵列结构,即,可以将同一UMA模型应用于任何一种麦克风阵型,而不需要为每种麦克风阵型训练专门的模型,并且通过利用可知的阵型信息,可以进行声源定位、定向增强、音区提取等与麦克风阵型相关的任务。
接下来,将作为示例在下表2给出本公开的用于多通道语音信号的处理方法与现有的单通道盲分离方法(表2中示为单通道模型,对应于未知阵列结构)、多通道盲分离方法(表2中示为多通道模型,对应于未知阵列结构)和FasNet-TAC方法在不同麦克风阵型上的任务性能对比。其中,SDR表示信号干扰比,PESQ表示语音感知评估短时质量,两者的数值均为越高越好。N/A表示该模型不适用于该阵型。
表2不同方法在不同麦克风阵型上的任务性能对比
在表2中,阵列专用模型、麦克风数量专用模型和阵型专用模型可以看作特定性能上限,例如,阵列专用模型对应于为不同阵列(2个麦克风的阵列、4个麦克风的线阵、4个麦克风的方阵、6个麦克风的圆阵等)专门训练不同的模型;麦克风数量专用模型对应于为不同的麦克风数量(2个麦克风、4个麦克风、6个麦克风等)专门训练不同的模型;而阵型专用模型对应于为不同形状的阵型(线阵、圆阵、方阵、不规则阵等)专门训练不同的模型。
因此,如表2所示,本公开的用于多通道语音信号的处理方法可以仅利用一个通用模型(UMA模型)来适于所有麦克风阵型,并且具有与专用模型可比的任务性能。
本公开的用于多通道语音信号的处理方法面向麦克风阵列阵型已知的应用场景,提出了一种适用于任何麦克风阵列阵型的多通道语音前处理框架,其中,通过将麦克风阵列所采集的多通道语音信号中与该麦克风阵列的阵型信息相关的语音特征应用于该多通道语音信号的处理,使得同一经训练的多通道语音信号处理模型可以应用于任何麦克风阵型,而不需要为每种麦克风阵型训练专用的模型。此外,通过本公开的方法能够利用可知的阵型信息,支持诸如声源定位、定向增强、音区提取等的多种前处理任务。
图7是示出根据本公开的实施例的用于多通道语音信号的处理装置700的示意图。
根据本公开的实施例,所述用于多通道语音信号的处理装置700可以包括数据获取模块701、特征提取模块702、和信号处理模块703。
数据获取模块701可以被配置为获取多通道语音信号,所述多通道语音信号由第一麦克风阵列采集。可选地,数据获取模块701可以执行如上参考步骤201所描述的操作。
可选地,本公开中的第一麦克风阵列可以包括按照特定形状规则布置排列的多个麦克风,以用于采集来自空间中不同方向的不同声源(例如,图1中的声源1-声源C)的语音信号,其可根据拓扑结构而被分为线性阵列、平面阵列、立体阵列等。由第一麦克风阵列采集的多通道语音信号可以是通过第一麦克风阵列中的多个麦克风同时采集到的语音信号,相比于单通道语音信号,该多通道语音信号可以包含来自不同位置和方向的声音信息,以用于提供更多的空间和方位信息。
由第一麦克风阵列采集的多通道语音信号可以通过各种信号模型来表示,这些信号模型可以基于时域、频域或时间-频域(时频域)表示,并且可以使用不同的数学方法和算法进行建模和处理。可选地,本公开的用于多通道语音信号的处理方法可以根据具体的任务和应用需求来选择要使用的信号模型,以实现对多通道语音信号的准确建模和处理。
可选地,除了获取上述多通道语音信号外,数据获取模块701还可以被配置为获取与该多通道语音信号相关的任务特定信息,以用于基于该任务特定信息对该多通道语音信号进行与针对该多通道语音信号的预定任务相关的语音信号处理。
特征提取模块702可以被配置为根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取,以获得所述多通道语音信号中的语音特征,所述语音特征包括与所述第一麦克风阵列的阵型信息相关的语音特征。其中,第一麦克风阵列的阵型信息可以包括第一麦克风阵列中的麦克风数量、各个麦克风之间的位置和方向关系、以及麦克风之间的距离、角度和相对位置等信息。可选地,特征提取模块702可以执行如上参考步骤202所描述的操作。
可选地,第一麦克风阵列的阵型信息可以用于与多通道语音信号相结合地使用,以从该多通道语音信号中提取出与第一麦克风阵列的阵型信息相关的语音特征,从而应用于对该多通道语音信号的处理。例如,可以从多通道语音信号中提取各种语音特征,以用于对多通道语音信号的各种处理任务,其中,这些语音特征可以包括诸如多通道语音信号的梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)和功率谱等的语音特征,并且进一步地,语音特征还可以包括与第一麦克风阵列的阵型信息相关的语音特征。也就是说,可以利用第一麦克风阵列的阵型信息从多通道语音信号中提取与第一麦克风阵列的阵型信息相关的语音特征。
可选地,在将第一麦克风阵列的阵型信息用于多通道语音信号的特征提取的基础上,还可以进一步地针对预定任务,将与该预定任务相对应的任务特定信息一起用于多通道语音信号的特征提取,以从多通道语音信号中提取出特定于该预定任务并且与第一麦克风阵列的阵型信息相关的语音特征,从而应用于对该多通道语音信号的特定于该预定任务的处理。
可选地,针对定向增强任务,本公开的用于多通道语音信号的处理装置可以训练对应的多通道语音信号处理模型,并利用与多通道语音信号相关、并且与该定向增强任务相对应的任务特定信息来从多通道语音信号中提取更适于定向增强任务并且与第一麦克风阵列的阵型信息相关的语音特征,从而通过经训练的多通道语音信号处理模型来对多通道语音信号进行定向增强处理。
可选地,对于预定任务,用于指示与针对多通道语音信号的预定任务相对应的信息的任务特定信息可以包括针对多通道语音信号的预定任务所需的信息。例如,对于定向增强任务,可以获取针对多通道语音信号的定向增强任务所需的目标语音方位信息,该目标语音方位信息可以指示目标语音信号在多通道语音信号中的方位。因此,基于多通道语音信号、上述任务特定信息和麦克风阵列的阵型信息,可以针对预定任务,通过特征提取获得特定于该预定任务、并且与麦克风阵列的阵型信息相关的语音特征。
例如,对于定向增强任务,基于多通道语音信号、目标语音方位信息和麦克风阵列的阵型信息,可以从多通道语音信号中提取方向特征,以用于描述多通道语音信号在各个方位上的信号成分,并确定多通道语音信号在目标语音方位信息所指示的方位上的信号强度。例如,对于定向增强任务,方向特征可以是基于声源方向(目标语音信号方位)来估计来自该方向的信号在混合语音中所占权重的特征,其可以指示混合语音信号在不同方向上的信号成分,或是作为对某一方向信号的时频掩蔽的粗略估计。
可选地,在本公开的实施例中,可以采用基于相位的方向特征,其可以被定义为理论相位差TPD与通道间的观测相位差IPD在每个时频点上的相似度。本公开的实施例中采用的基于相位的方向特征可以表示观测相位差IPD与理论相位差TPD之间的相似度大小,其中,理论相位差TPD实际上可以被视作对应于多通道语音信号中仅存在来自目标语音方位信息所指示的方位上的信号的情况,即,在这种情况下,观测相位差IPD与理论相位差TPD之间的相似度表现为最大值。方向特征可以指示多通道语音信号中的在目标语音方位信息所指示的方位上的信号在多通道语音信号中的权重,即,越大的方向特征可以对应于观测相位差IPD与理论相位差TPD之间越大的相似度,因此对应于在目标语音方位信息所指示的方位上的信号在多通道语音信号中越大的权重,而相反地,越小的方向特征可以对应于观测相位差IPD与理论相位差TPD之间越小的相似度,因此对应于在目标语音方位信息所指示的方位上的信号在多通道语音信号中越小的权重。此外,本公开的方法还可以采用诸如基于固定波束形成输出功率的方向特征,本公开对此不作限制。
因此,在特征提取模块702中,通过基于多通道语音信号、任务特定信息和麦克风阵列的阵型信息对多通道语音信号的特征提取,可以确定多通道语音信号中的语音特征,并且这些语音特征可以包括与麦克风阵列的阵型信息相关的语音特征。这些语音特征可以作为后续多通道语音信号处理模型的输入,由统一的多通道语音信号处理模型对语音特征进行处理,以生成期望的目标语音信号。
信号处理模块703可以被配置为利用经训练的多通道语音信号处理模型,基于所述语音特征和所述多通道语音信号,生成经处理的语音信号。可选地,信号处理模块703可以执行如上参考步骤203所描述的操作。
可选地,本公开的多通道语音信号处理模型可以是针对预定任务而训练的,其可以以多通道语音信号的复数频谱和语音特征为输入,并以经处理的语音信号为输出。其中,通过将麦克风阵列的阵列信息用于特征提取,在多通道语音信号处理中考虑了麦克风阵列的阵列结构,并且将不同麦克风阵列的阵列信息转换为统一表示的语音特征以输入模型,使得训练得到的模型可以适用于执行任何阵型的麦克风阵列的预定任务,而不需要为每种麦克风阵型训练专门的模型。
根据本公开的又一方面,还提供了一种用于多通道语音信号的处理设备。图8示出了根据本公开的实施例的用于多通道语音信号的处理设备2000的示意图。
如图8所示,所述用于多通道语音信号的处理设备2000可以包括一个或多个处理器2010,和一个或多个存储器2020。其中,所述存储器2020中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器2010运行时,可以执行如上所述的用于多通道语音信号的处理方法。
本公开的实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或ARM架构的。
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
例如,根据本公开的实施例的方法或装置也可以借助于图9所示的计算设备3000的架构来实现。如图9所示,计算设备3000可以包括总线3010、一个或多个CPU 3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如ROM 3030或硬盘3070可以存储本公开提供的用于多通道语音信号的处理方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然,图9所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图9示出的计算设备中的一个或多个组件。
根据本公开的又一方面,还提供了一种计算机可读存储介质。所述计算机存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本公开的实施例的用于多通道语音信号的处理方法。本公开的实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本公开的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的用于多通道语音信号的处理方法。
本公开的实施例提供了一种用于多通道语音信号的处理方法、装置、设备和计算机可读存储介质。
本公开的实施例所提供的方法相比于阵型不可知条件下的多通道语音前处理方法而言,能够利用麦克风阵列的可知的阵型信息,从而可以进行声源定位、定向增强、音区提取等任务。
本公开的实施例所提供的方法面向麦克风阵列阵型已知的应用场景,提出了一种适用于任何麦克风阵列阵型的多通道语音前处理框架,其中,通过将麦克风阵列所采集的多通道语音信号中与该麦克风阵列的阵型信息相关的语音特征应用于该多通道语音信号的处理,使得同一经训练的多通道语音信号处理模型可以应用于任何麦克风阵型,而不需要为每种麦克风阵型训练专用的模型。此外,通过本公开的实施例的方法能够利用可知的阵型信息,支持诸如声源定位、定向增强、音区提取等的多种前处理任务。
需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
在上面详细描述的本公开的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本公开的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本公开的范围内。
Claims (12)
1.一种用于多通道语音信号的处理方法,包括:
获取多通道语音信号,所述多通道语音信号由第一麦克风阵列采集;
根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取,以获得所述多通道语音信号中的语音特征,所述语音特征包括与所述第一麦克风阵列的阵型信息相关的语音特征;以及
利用经训练的多通道语音信号处理模型,基于所述语音特征和所述多通道语音信号,生成经处理的语音信号。
2.如权利要求1所述的方法,其中,所述经训练的多通道语音信号处理模型与预定任务相关联,所述预定任务包括定向增强任务、声源定位任务和语音分离任务中的一个或多个。
3.如权利要求1所述的方法,还包括:获取与所述多通道语音信号相关的任务特定信息,所述任务特定信息指示与针对所述多通道语音信号的预定任务相对应的信息;
其中,根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取包括:
基于所述第一麦克风阵列的阵型信息、所述任务特定信息和所述多通道语音信号,确定与所述第一麦克风阵列的阵型信息相关、并且特定于所述预定任务的语音特征。
4.如权利要求3所述的方法,其中,在所述预定任务包括定向增强任务的情况下,
所述任务特定信息包括目标语音方位信息,用于指示所述多通道语音信号中的目标语音信号的方位;并且
所述语音特征包括方向特征,用于描述所述多通道语音信号在各个方位上的信号成分。
5.如权利要求4所述的方法,其中,基于所述第一麦克风阵列的阵型信息、所述任务特定信息和所述多通道语音信号,确定与所述第一麦克风阵列的阵型信息相关、并且特定于所述预定任务的语音特征包括:
基于所述第一麦克风阵列的阵型信息、所述目标语音方位信息和所述多通道语音信号,确定与所述第一麦克风阵列的阵型信息相关、并且特定于所述定向增强任务的方向特征,所述方向特征指示所述多通道语音信号中的在所述目标语音方位信息所指示的方位上的信号在所述多通道语音信号中的权重。
6.如权利要求4或5所述的方法,其中,所述方向特征是基于在时频域中由所述第一麦克风阵列对所述多通道语音信号的观测相位差与理论相位差之间的相似度确定的;
其中,所述理论相位差对应于在所述多通道语音信号中仅存在来自所述目标语音方位信息所指示的方位上的信号的情况下,在所述方位上的信号到达所述第一麦克风阵列中的相邻两个麦克风的到达时间差,并且
所述观测相位差对应于在所述方位上的信号到达所述第一麦克风阵列中的相邻两个麦克风的实际到达时间差。
7.如权利要求2所述的方法,其中,所述经训练的多通道语音信号处理模型以所述多通道语音信号的复数频谱和所述语音特征为输入,并且以所述经处理的语音信号为输出;
所述经训练的多通道语音信号处理模型是针对所述预定任务、基于由不同麦克风阵列采集的多通道语音信号训练得到的。
8.一种用于多通道语音信号的处理装置,包括:
数据获取模块,被配置为获取多通道语音信号,所述多通道语音信号由第一麦克风阵列采集;
特征提取模块,被配置为根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取,以获得所述多通道语音信号中的语音特征,所述语音特征包括与所述第一麦克风阵列的阵型信息相关的语音特征;以及
信号处理模块,被配置为利用经训练的多通道语音信号处理模型,基于所述语音特征和所述多通道语音信号,生成经处理的语音信号。
9.如权利要求8所述的装置,其中,所述数据获取模块还被配置为:
获取与所述多通道语音信号相关的任务特定信息,所述任务特定信息指示与针对所述多通道语音信号的预定任务相对应的信息,所述预定任务包括定向增强任务、声源定位任务和语音分离任务中的一个或多个;
其中,根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取包括:
基于所述第一麦克风阵列的阵型信息、所述任务特定信息和所述多通道语音信号,确定与所述第一麦克风阵列的阵型信息相关、并且特定于所述预定任务的语音特征。
10.一种用于多通道语音信号的处理设备,包括:
一个或多个处理器;以及
一个或多个存储器,其中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-7中任一项所述的方法。
11.一种计算机程序产品,所述计算机程序产品存储在计算机可读存储介质上,并且包括计算机指令,所述计算机指令在由处理器运行时使得计算机设备执行权利要求1-7中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311424589.3A CN117437930A (zh) | 2023-10-30 | 2023-10-30 | 用于多通道语音信号的处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311424589.3A CN117437930A (zh) | 2023-10-30 | 2023-10-30 | 用于多通道语音信号的处理方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437930A true CN117437930A (zh) | 2024-01-23 |
Family
ID=89545711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311424589.3A Pending CN117437930A (zh) | 2023-10-30 | 2023-10-30 | 用于多通道语音信号的处理方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437930A (zh) |
-
2023
- 2023-10-30 CN CN202311424589.3A patent/CN117437930A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep learning based binaural speech separation in reverberant environments | |
Wang et al. | Deep learning based target cancellation for speech dereverberation | |
CN109074816B (zh) | 远场自动语音识别预处理 | |
MX2014006499A (es) | Aparato y metodo para posicionar microfonos basado en la densidad de potencia espacial. | |
CN102411138A (zh) | 一种机器人声源定位方法 | |
CN113870893B (zh) | 一种多通道双说话人分离方法及系统 | |
Pujol et al. | BeamLearning: An end-to-end deep learning approach for the angular localization of sound sources using raw multichannel acoustic pressure data | |
CN112712818A (zh) | 语音增强方法、装置、设备 | |
JP2023550434A (ja) | 改良型音響源測位法 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
Bai et al. | Audio enhancement and intelligent classification of household sound events using a sparsely deployed array | |
Chakrabarty et al. | Multi-scale aggregation of phase information for complexity reduction of CNN based DOA estimation | |
Sarabia et al. | Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning | |
Luo et al. | Fast random approximation of multi-channel room impulse response | |
CN110838303B (zh) | 一种利用传声器阵列的语音声源定位方法 | |
Aarabi et al. | Robust sound localization using conditional time–frequency histograms | |
Lim et al. | Speaker localization in noisy environments using steered response voice power | |
Firoozabadi et al. | Combination of nested microphone array and subband processing for multiple simultaneous speaker localization | |
US20230269532A1 (en) | Beamforming method and beamforming system using neural network | |
CN117437930A (zh) | 用于多通道语音信号的处理方法、装置、设备和存储介质 | |
CN112731291B (zh) | 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统 | |
Dehghan Firoozabadi et al. | A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers | |
Rusrus et al. | Direction of arrival estimation of moving sound sources using deep learning | |
Li et al. | Beamformed feature for learning-based dual-channel speech separation | |
Habib et al. | Auditory inspired methods for localization of multiple concurrent speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |