CN112735462A - 分布式麦克风阵列的降噪方法和语音交互方法 - Google Patents
分布式麦克风阵列的降噪方法和语音交互方法 Download PDFInfo
- Publication number
- CN112735462A CN112735462A CN202011614180.4A CN202011614180A CN112735462A CN 112735462 A CN112735462 A CN 112735462A CN 202011614180 A CN202011614180 A CN 202011614180A CN 112735462 A CN112735462 A CN 112735462A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- target
- microphone
- noise reduction
- voice interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000009467 reduction Effects 0.000 title claims abstract description 68
- 230000005236 sound signal Effects 0.000 claims abstract description 168
- 238000004891 communication Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims description 25
- 230000002452 interceptive effect Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000001360 synchronised effect Effects 0.000 abstract description 10
- 241000854291 Dianthus carthusianorum Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W56/00—Synchronisation arrangements
- H04W56/001—Synchronization between nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W76/00—Connection management
- H04W76/10—Connection setup
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种分布式麦克风阵列的降噪方法和语音交互方法,所述分布式麦克风阵列的降噪方法,应用于通信连接的多个设备中的目标设备,包括:通过所述目标设备的麦克风采集原始音频信号;接收其他设备发送的参考音频信号,其中,所述参考音频信号与所述其他设备的扬声器播放的音频对应;通过所述参考音频信号对所述原始音频信号进行降噪,得到目标音频信号。根据本发明的分布式麦克风阵列的降噪方法,通过预先建立设备之间的通信连接,并将扬声器播放的音频同步到各麦克风,可以有效消除分布式麦克风阵列的噪声。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及一种分布式麦克风阵列的降噪方法和语音交互方法。
背景技术
麦克风拾音后,如何实现降噪,一直是音频处理领域的一大痛点,特别是随着智能设备的普及,语音交互得到广泛的实际应用。在同一片区域,往往存在相当多的设备均具有麦克风和扬声器,这些麦克风存在于不同的设备上,形成分布式麦克风阵列,扬声器播放的音频与人声的特性类似,常规的去噪算法(维纳滤波或波束形成等)对平稳的噪音较为有效,面对扬声器播放的非平稳音频效果不佳。
发明内容
本发明提供一种分布式麦克风阵列的降噪方法和语音交互方法,用以解决现有技术中分布式麦克风阵列难以降噪的缺陷,实现对分布式麦克风阵列的噪声消除。
本发明提供一种分布式麦克风阵列的降噪方法,应用于通信连接的多个设备中的目标设备,包括:通过所述目标设备的麦克风采集原始音频信号;接收其他设备发送的参考音频信号,其中,所述参考音频信号与所述其他设备的扬声器播放的音频对应;通过所述参考音频信号对所述原始音频信号进行降噪,得到目标音频信号。
根据本发明提供的一种分布式麦克风阵列的降噪方法,所述通过所述参考音频信号对所述原始音频信号进行降噪,得到目标音频信号,包括:基于所述参考音频信号,确定回声消除算法的损失函数;通过所述回声消除算法,对所述原始音频信号进行回声消除,得到目标音频信号。
本发明还提供一种语音交互方法,包括:使用如上述的分布式麦克风阵列的降噪方法,处理所述原始音频信号,得到目标音频信号;基于所述目标音频信号,进行语音交互。
根据本发明提供的一种语音交互方法,所述处理所述原始音频信号,得到目标音频信号,包括:
处理目标麦克风采集的原始音频信号,得到目标音频信号,所述目标麦克风为离声源最近的麦克风;
所述基于所述目标音频信号,进行语音交互,包括:
基于所述目标音频信号,确定交互指令;将所述交互指令发送给对应的设备。
根据本发明提供的一种语音交互方法,所述目标麦克风通过如下方式确定:
确定被唤醒的各麦克风采集的唤醒语音的语音能量;
比较所述各麦克风对应的语音能量,将语音能量最大的麦克风作为所述目标麦克风。
根据本发明提供的一种语音交互方法,所述通信连接的多个设备包括多个设备簇,每个设备簇簇包括至少一个带麦克风的设备,不同的设备簇之间通过所述带麦克风的设备通信连接,每个所述设备簇内的其他设备均与所述带麦克风的设备通信连接;
所述交互指令包括语音交互信息,所述将所述交互指令发送给对应的设备,包括:
确定所述目标麦克风所属的设备具有扬声器,将所述语音交互信息发送给所述目标麦克风所属设备的扬声器;
或,确定所述目标麦克风所属的设备不具有扬声器,基于网络延迟从其他具有扬声器的设备簇中确定目标扬声器;将所述语音交互信息发送给所述目标扬声器。
本发明还提供一种分布式麦克风阵列的降噪装置,应用于通信连接的多个设备中的目标设备,包括:
第一采集模块,用于通过所述目标设备的麦克风采集原始音频信号;
第一接收模块,用于接收其他设备发送的参考音频信号,其中,所述参考音频信号与所述其他设备的扬声器播放的音频对应;
第一处理模块,用于通过所述参考音频信号对所述原始音频信号进行降噪,得到目标音频信号。
本发明还提供一种语音交互装置,包括:
降噪装置,用于使用上述的降噪方法,处理所述原始音频信号,得到目标音频信号;
第一执行模块,用于基于所述目标音频信号,进行语音交互。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述降噪方法或所述语音交互方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述降噪方法或所述语音交互方法的步骤。
本发明提供的分布式麦克风阵列的降噪方法和语音交互方法,通过预先建立设备之间的通信连接,并将扬声器播放的音频同步到各麦克风,可以有效消除分布式麦克风阵列的噪声。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的分布式麦克风阵列的降噪方法的流程示意图;
图2是本发明提供的分布式麦克风阵列的降噪方法中设备的连接结构示意图;
图3是本发明提供的分布式麦克风阵列的降噪装置的结构示意图;
图4是本发明提供的语音交互方法的流程示意图;
图5是本发明提供的语音交互装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图2描述本发明的分布式麦克风阵列的降噪方法。
在分布式麦克风阵列场景下,常规的噪声抑制算法带来的效果很有限。
发明人通过大量研究发现,分布式麦克风阵列中的多个麦克风可能分属于不同的设备,设备之间互相不确定其他设备的空间方位信息,特别是部分设备的位置并不固定(比如手机、扫地机器人等),这使得在对分布式麦克风阵列进行降噪时,使用波束形成(波束形成需要一些空间方位信息作为先验,以抑制和增强特定方位的声音)等常规噪声抑制算法的效果很有限。
本发明实施例提供的分布式麦克风阵列的降噪方法,应用于通信连接的多个设备中的目标设备。目标设备可以为就带有麦克风的设备。
换言之,在本发明的实施例中,预先在多个设备之间建立通信连接,这些设备中的至少部分具有麦克风。
通信连接的多个设备可以通过点对点(ad-hoc)网络实现通信连接,多个设备分为多个设备簇,每个设备簇簇包括至少一个带麦克风的设备,不同的设备簇之间通过带麦克风的设备通信连接,每个设备簇内的其他设备均与带麦克风的设备通信连接。
换言之,带麦克风的设备通过ad-hoc主网络连接形成设备簇的簇头,不带麦克风的设备就近与簇头相连形成子网络。
以图2为例,设备10带麦克风和扬声器,设备20带麦克风,设备10和设备20通过ad-hoc主网络30相连,设备10和设备20作为簇头,设备11、设备12、设备21和设备22不带麦克风,设备11和设备12位于设备10附近,设备11和设备12均通过ad-hoc子网络31与设备10连接,设备21和设备22均通过ad-hoc子网络32与设备20连接。
上述各个设备之间的连接方式包括但不限于wifi、蓝牙等无线连接方式,有线连接方式也可行。
在将各个设备通过网络连接后,需要进行时钟与采样率同步。
当然,通信连接的多个设备也可以通过中心式的网络实现通信连接,比如这些设备均与路由器连接。
本发明实施例的降噪方法应用于通信连接的多个设备中的目标设备,目标设备可以为带麦克风的设备,比如在家庭场景下,目标设备可以为智能音箱、手机、机顶盒、带麦克风的冰箱等。该降噪方法的执行主体可以为设备本身或者设备的控制模块或设备的处理模块。
如图1所示,本发明实施例的分布式麦克风阵列的降噪方法包括:步骤110、步骤120和步骤130。
步骤110、通过目标设备的麦克风采集原始音频信号;
目标设备的麦克风可以为单个麦克风,也可以为多个麦克风形成的麦克风阵列,单个设备内的麦克风阵列可以为规则阵列。
目标设备的麦克风拾取的原始音频信号可能包括用户发出的声音、环境噪声、其他扬声器播放的音频等。
步骤120、接收其他设备发送的参考音频信号,其中,参考音频信号与其他设备的扬声器播放的音频对应;
特别需要说明的是,步骤110和步骤120的执行顺序不作限定,在这些设备中的任一扬声器播放音频前或播放音频时或播放音频后,该设备将对应的音频信号发送给其他带麦克风的设备。
其他麦克风在采集到各自对应的原始音频信号,可以以接收的音频信号作为参考音频信号,该参考音频信号用于后续步骤降噪。
步骤130、通过参考音频信号对原始音频信号进行降噪,得到目标音频信号。
在该步骤中,对原始音频信号进行降噪处理,可以得到降噪后的目标音频信号。
由于获得了参考音频信号,在对原始音频信号进行降噪处理时,可以消除一些常规噪声抑制算法无法抑制的非平稳声音。
可以理解的是,上述降噪方法,通过预先建立设备之间的通信连接,使同一声场内的多个设备关联,将扬声器播放的音频同步给各个麦克风,使得分布式麦克风阵列的降噪,转换为回声消除。
上述降噪方法,克服了相关技术中,分布式麦克风阵列难以降噪的技术偏见,通过转换思路,将无参考信号的“噪声消除”问题,转变为一个有参考信号的“回声消除”问题,使得分布式麦克风阵列对于非平稳声音的噪声消除问题迎刃而解。
根据本发明实施例的分布式麦克风阵列的降噪方法,通过预先建立设备之间的通信连接,并将扬声器播放的音频同步到各麦克风,可以有效消除分布式麦克风阵列的噪声。
在一些实施例中,步骤130、通过参考音频信号对原始音频信号进行降噪,得到目标音频信号,包括:基于参考音频信号,确定回声消除算法的损失函数;通过回声消除算法,对原始音频信号进行回声消除,得到目标音频信号。
在实际的执行中,损失函数为:
其中,n时刻有Q个扬声器在播放音频,xq(n)为n时刻第q个扬声器发送的参考音频信号,hqp为第q个扬声器到第p个麦克风的回声路径,vp(n)为n时刻第p个麦克风接收到的近端信号。
上述回声消除算法可以为LMS(Least Mean Square)算法,比如NLMS(NormalizedLeast Mean Square)算法。
在得到上述函数后,可以进行基于NLMS的自适应滤波算法最小化损失函数,得到回声消除后的信号。
换言之,在消除过程中,动态更新滤波器的系数以逼近扬声器与麦克风之间的传递函数,使得估计值更加逼近真实的回声。然后将估计出来的回声从麦克风拾取的原始音频信号中减去,从而达到消除回声的目的。
下面对本发明提供的分布式麦克风阵列的降噪装置进行描述,下文描述的分布式麦克风阵列的降噪装置与上文描述的分布式麦克风阵列的降噪方法可相互对应参照。
本发明提供的分布式麦克风阵列的降噪装置300,应用于通信连接的多个设备中的目标设备。目标设备可以为就带有麦克风的设备。
如图3所示,分布式麦克风阵列的降噪装置300可以包括:第一采集模块310、第一接收模块320和第一处理模块330。
第一采集模块310,用于通过目标设备的麦克风采集原始音频信号;
第一接收模块320,用于接收其他设备发送的参考音频信号,其中,参考音频信号与其他设备的扬声器播放的音频对应;
第一处理模块330,用于通过参考音频信号对原始音频信号进行降噪,得到目标音频信号。
根据本发明实施例的分布式麦克风阵列的降噪装置,通过预先建立设备之间的通信连接,并将扬声器播放的音频同步到各麦克风,可以有效消除分布式麦克风阵列的噪声。
在一些实施例中,第一处理模块330,还用于基于参考音频信号,确定回声消除算法的损失函数;通过回声消除算法,对原始音频信号进行回声消除,得到目标音频信号。
下面结合图4描述本发明的语音交互方法。
本发明实施例提供的语音交互方法,应用于通信连接的多个设备中的目标设备。
换言之,在本发明的实施例中,预先在多个设备之间建立通信连接,这些设备中的至少部分具有麦克风。
通信连接的多个设备可以通过点对点(ad-hoc)网络实现通信连接,多个设备分为多个设备簇,每个设备簇簇包括至少一个带麦克风的设备,不同的设备簇之间通过带麦克风的设备通信连接,每个设备簇内的其他设备均与带麦克风的设备通信连接。
换言之,带麦克风的设备通过ad-hoc主网络连接形成设备簇的簇头,不带麦克风的设备就近与簇头相连形成子网络。
以图2为例,设备10带麦克风和扬声器,设备20带麦克风,设备10和设备20通过ad-hoc主网络30相连,设备11、设备12、设备21和设备22不带麦克风,设备11和设备12位于设备10附近,设备11和设备12均通过ad-hoc子网络31与设备10连接,设备21和设备22均通过ad-hoc子网络32与设备20连接。
上述各个设备之间的连接方式包括但不限于wifi、蓝牙等。
在将各个设备通过网络连接后,需要进行时钟与采样率同步。
当然,通信连接的多个设备也可以通过中心式的网络实现通信连接,比如这些设备均与路由器连接。
本发明实施例提供的语音交互方法包括:上述实施例描述的任一种分布式麦克风阵列的降噪方法,且在使用该降噪方法处理原始音频信号,得到目标音频信号后还包括步骤140。
如图4所示,本发明实施例提供的语音交互方法包括:步骤110-步骤140。
步骤110、通过目标设备的麦克风采集原始音频信号;
目标设备的麦克风可以为单个麦克风,也可以为多个麦克风形成的麦克风阵列,该麦克风阵列为规则阵列。
目标设备的麦克风拾取的原始音频信号可能包括用户发出的声音、环境噪声、其他扬声器发出的音频等。
步骤120、接收其他设备发送的参考音频信号,其中,参考音频信号与其他设备的扬声器播放的音频对应;
换言之,在这些设备中的任一扬声器播放音频前或播放音频时或播放音频后,该设备将对应的音频信号发送给其他带麦克风的设备。
其他麦克风在采集到各自对应的原始音频信号,可以以接收的音频信号作为参考音频信号,该参考音频信号用于后续步骤降噪。
步骤130、通过参考音频信号对原始音频信号进行降噪,得到目标音频信号。
步骤130可以包括:基于参考音频信号,确定回声消除算法的损失函数;通过回声消除算法,对原始音频信号进行回声消除,得到目标音频信号。
在实际的执行中,损失函数为:
其中,n时刻有Q个扬声器在播放音频,xq(n)为n时刻第q个扬声器发送的参考音频信号,hqp为第q个扬声器到第p个麦克风的回声路径,vp(n)为n时刻第p个麦克风接收到的近端信号。
上述回声消除算法可以为LMS(Least Mean Square)算法,比如NLMS(NormalizedLeast Mean Square)算法。
在得到上述函数后,可以进行基于NLMS的自适应滤波算法最小化损失函数,得到回声消除后的信号。
步骤140、基于目标音频信号,进行语音交互。
在得到降噪后的目标音频信号的基础上,再进行语音交互的准确率和和灵敏度都更高。
在该语音交互方法中,由于各个设备实现了互联,这样对于任一设备,其采集语音的有效空间范围就不再局限于自身附近,而是依靠分布于不同位置的其他设备,得到了极大的扩展。
比如,用户卧室的空调与客厅的电视机实现通信连接,电视机具有麦克风,这样用户在客厅可以语音控制卧室的空调,从而可以实现远距离拾音的语音识别率。
另外,部分设备不具有麦克风和配套的语音交互系统,通过与其他具有麦克风和配套的语音交互系统的设备通信连接,可以在具有麦克风和配套的语音交互系统的设备识别出交互指令后,接收该交互指令,并执行对应的操作,这样这些不具有麦克风和配套的语音交互系统设备,也能够实现语音交互功能。从另一方面,也拓展了整个语音交互控制场景中总的麦克风数目,降低硬件成本。
根据本发明实施例的语音交互方法,通过预先建立设备之间的通信连接,并将扬声器播放的音频同步到各麦克风,可以有效消除分布式麦克风阵列的噪声,提高语音交互的准确率与使用范围,降低硬件成本。
在一些实施例中,处理原始音频信号,得到目标音频信号,包括:处理目标麦克风采集的原始音频信号,得到目标音频信号,目标麦克风为离声源最近的麦克风。
换言之,在进行语音交互时,可能多个设备的麦克风均采集到了原始音频信号,通过选择离声源最近的麦克风作为目标麦克风,并基于该目标麦克风采集的原始音频信号进行降噪,以及后续的语音交互基础,可以从语音交互的起点——拾音——提升语音交互的准确率。
在一些实施例中,目标麦克风通过如下方式确定:确定被唤醒的各麦克风采集的唤醒语音的语音能量;比较各麦克风对应的语音能量,将语音能量最大的麦克风作为目标麦克风。
换言之,通过各个麦克风接收到的唤醒语音的总能量,可以方便准确地识别出,离声源最近的麦克风。
对于采用如图2所示的点对点网络实现通信连接的多个设备,设备可以将自身的总语音能量发布给其他被唤醒的阵列节点,各节点保留受到的总语音能量信息,并保留最大的那个,即可选出总语音能量最大的麦克风,作为离说话人距离最近的目标麦克风。
在一些实施例中,步骤140、基于目标音频信号,进行语音交互,包括:基于目标音频信号,确定交互指令;将交互指令发送给对应的设备。
交互指令可以包括多种表现形式:
其一,交互指令可以为操作性质的控制命令。
当前的设备通过处理,确定出该交互指令后,可以发送给对应的设备,对应的设备在接收到该交互指令,即可以执行对应的操作。
比如,卧室的空调本身无法实现语音交互功能,通过建立上述的网络,与带有麦克风和语音交互系统的设备通信连接,带有麦克风和语音交互系统的设备,在采集到原始音频信号,并处理得到交互指令后,确定该交互指令与卧室的空调对应,则将该交互指令传输给卧室的空调,卧室的空调通过交互指令调节自身的挡位或其他状态。
其二,交互指令可以为对话性质的语音交互信息。
将交互指令发送给对应的设备,包括:确定目标麦克风所属的设备具有扬声器,将语音交互信息发送给目标麦克风所属设备的扬声器;或,确定目标麦克风所属的设备不具有扬声器,基于网络延迟从其他具有扬声器的设备簇中确定目标扬声器;将语音交互信息发送给目标扬声器。
换言之,如果当前离声源最近的麦克风所属的设备具有扬声器,则直接使用该扬声器与用户进行语音交互即可。
若当前离声源最近的麦克风所属的设备无扬声器,则可以根据网络收发延迟来确定距离该麦克风最近的扬声器作为目标扬声器。
在语音交互过程中,扬声器播放的语音同样需要同步给其他麦克风,即回到步骤120。
下面对本发明提供的语音交互装置进行描述,下文描述的语音交互装置与上文描述的语音交互方法可相互对应参照。
如图5所示,本发明实施例提供的语音交互装置包括:降噪装置300和第一执行模块400。
降噪装置300,用于使用上述任一种降噪方法,处理原始音频信号,得到目标音频信号;
第一执行模块400,用于基于目标音频信号,进行语音交互。
根据本发明实施例的语音交互装置,通过预先建立设备之间的通信连接,并将扬声器播放的音频同步到各麦克风,可以有效消除分布式麦克风阵列的噪声,提高语音交互的准确率与使用范围,降低硬件成本。
在一些实施例中,降噪装置300,还用于处理目标麦克风采集的原始音频信号,得到目标音频信号,目标麦克风为离声源最近的麦克风;
第一执行模块400,还用于基于目标音频信号,确定交互指令;将交互指令发送给对应的设备。
在一些实施例中,目标麦克风通过如下方式确定:确定被唤醒的各麦克风采集的唤醒语音的语音能量;比较各麦克风对应的语音能量,将语音能量最大的麦克风作为目标麦克风。
在一些实施例中,通信连接的多个设备包括多个设备簇,每个设备簇簇包括至少一个带麦克风的设备,不同的设备簇之间通过带麦克风的设备通信连接,每个设备簇内的其他设备均与带麦克风的设备通信连接;
交互指令包括语音交互信息,第一执行模块400,还用于确定目标麦克风所属的设备具有扬声器,将语音交互信息发送给目标麦克风所属设备的扬声器;或,确定目标麦克风所属的设备不具有扬声器,基于网络延迟从其他具有扬声器的设备簇中确定目标扬声器;将语音交互信息发送给目标扬声器。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行分布式麦克风阵列的降噪方法,该方法应用于通信连接的多个设备中的目标设备,包括:通过目标设备的麦克风采集原始音频信号;接收其他设备发送的参考音频信号,其中,参考音频信号与其他设备的扬声器播放的音频对应;通过参考音频信号对原始音频信号进行降噪,得到目标音频信号;或者,执行语音交互方法,该方法包括:使用上述分布式麦克风阵列的降噪方法,处理原始音频信号,得到目标音频信号;基于目标音频信号,进行语音交互。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的分布式麦克风阵列的降噪方法,该方法应用于通信连接的多个设备中的目标设备,包括:通过目标设备的麦克风采集原始音频信号;接收其他设备发送的参考音频信号,其中,参考音频信号与其他设备的扬声器播放的音频对应;通过参考音频信号对原始音频信号进行降噪,得到目标音频信号;或者,执行语音交互方法,该方法包括:使用上述分布式麦克风阵列的降噪方法,处理原始音频信号,得到目标音频信号;基于目标音频信号,进行语音交互。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的分布式麦克风阵列的降噪方法,该方法应用于通信连接的多个设备中的目标设备,包括:通过目标设备的麦克风采集原始音频信号;接收其他设备发送的参考音频信号,其中,参考音频信号与其他设备的扬声器播放的音频对应;通过参考音频信号对原始音频信号进行降噪,得到目标音频信号;或者,执行语音交互方法,该方法包括:使用上述分布式麦克风阵列的降噪方法,处理原始音频信号,得到目标音频信号;基于目标音频信号,进行语音交互。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种分布式麦克风阵列的降噪方法,应用于通信连接的多个设备中的目标设备,其特征在于,包括:
通过所述目标设备的麦克风采集原始音频信号;
接收其他设备发送的参考音频信号,其中,所述参考音频信号与所述其他设备的扬声器播放的音频对应;
通过所述参考音频信号对所述原始音频信号进行降噪,得到目标音频信号。
2.根据权利要求1所述的分布式麦克风阵列的降噪方法,其特征在于,所述通过所述参考音频信号对所述原始音频信号进行降噪,得到目标音频信号,包括:
基于所述参考音频信号,确定回声消除算法的损失函数;
通过所述回声消除算法,对所述原始音频信号进行回声消除,得到目标音频信号。
3.一种语音交互方法,其特征在于,包括:
使用如权利要求1或2所述的分布式麦克风阵列的降噪方法,处理所述原始音频信号,得到目标音频信号;
基于所述目标音频信号,进行语音交互。
4.根据权利要求3所述的语音交互方法,其特征在于,所述处理所述原始音频信号,得到目标音频信号,包括:
处理目标麦克风采集的原始音频信号,得到目标音频信号,所述目标麦克风为离声源最近的麦克风;
所述基于所述目标音频信号,进行语音交互,包括:
基于所述目标音频信号,确定交互指令;
将所述交互指令发送给对应的设备。
5.根据权利要求4所述的语音交互方法,其特征在于,所述目标麦克风通过如下方式确定:
确定被唤醒的各麦克风采集的唤醒语音的语音能量;
比较所述各麦克风对应的语音能量,将语音能量最大的麦克风作为所述目标麦克风。
6.根据权利要求4所述的语音交互方法,其特征在于,所述通信连接的多个设备包括多个设备簇,每个设备簇簇包括至少一个带麦克风的设备,不同的设备簇之间通过所述带麦克风的设备通信连接,每个所述设备簇内的其他设备均与所述带麦克风的设备通信连接;
所述交互指令包括语音交互信息,所述将所述交互指令发送给对应的设备,包括:
确定所述目标麦克风所属的设备具有扬声器,将所述语音交互信息发送给所述目标麦克风所属设备的扬声器;
或,确定所述目标麦克风所属的设备不具有扬声器,基于网络延迟从其他具有扬声器的设备簇中确定目标扬声器;将所述语音交互信息发送给所述目标扬声器。
7.一种分布式麦克风阵列的降噪装置,应用于通信连接的多个设备中的目标设备,其特征在于,包括:
第一采集模块,用于通过所述目标设备的麦克风采集原始音频信号;
第一接收模块,用于接收其他设备发送的参考音频信号,其中,所述参考音频信号与所述其他设备的扬声器播放的音频对应;
第一处理模块,用于通过所述参考音频信号对所述原始音频信号进行降噪,得到目标音频信号。
8.一种语音交互装置,其特征在于,包括:
降噪装置,用于使用如权利要求1或2所述的降噪方法,处理所述原始音频信号,得到目标音频信号;
第一执行模块,用于基于所述目标音频信号,进行语音交互。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1或2所述降噪方法或3-6中任一项所述语音交互方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1或2所述降噪方法或3-6中任一项所述语音交互方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011614180.4A CN112735462B (zh) | 2020-12-30 | 2020-12-30 | 分布式麦克风阵列的降噪方法和语音交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011614180.4A CN112735462B (zh) | 2020-12-30 | 2020-12-30 | 分布式麦克风阵列的降噪方法和语音交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735462A true CN112735462A (zh) | 2021-04-30 |
CN112735462B CN112735462B (zh) | 2024-05-31 |
Family
ID=75611189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011614180.4A Active CN112735462B (zh) | 2020-12-30 | 2020-12-30 | 分布式麦克风阵列的降噪方法和语音交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735462B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114305485A (zh) * | 2021-12-31 | 2022-04-12 | 科大讯飞股份有限公司 | 心跳监测方法以及心跳监测装置、计算机可读存储介质 |
WO2022262432A1 (zh) * | 2021-06-18 | 2022-12-22 | 荣耀终端有限公司 | 降噪方法及降噪装置 |
WO2023273230A1 (zh) * | 2021-06-29 | 2023-01-05 | 达闼机器人股份有限公司 | 语音交互方法、语音交互设备及存储介质 |
CN116110393A (zh) * | 2023-02-01 | 2023-05-12 | 镁佳(北京)科技有限公司 | 一种基于语音相似度的拒识方法、装置、计算机及介质 |
WO2023155607A1 (zh) * | 2022-02-17 | 2023-08-24 | 海信视像科技股份有限公司 | 终端设备和语音唤醒方法 |
WO2023163896A1 (en) * | 2022-02-23 | 2023-08-31 | Qualcomm Incorporated | Systems and methods for improved group communication sessions |
US20230282224A1 (en) * | 2022-02-23 | 2023-09-07 | Qualcomm Incorporated | Systems and methods for improved group communication sessions |
US11909786B2 (en) | 2022-02-23 | 2024-02-20 | Qualcomm Incorporated | Systems and methods for improved group communication sessions |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102355748A (zh) * | 2010-06-02 | 2012-02-15 | 索尼公司 | 用于确定经处理的音频信号的方法及手持设备 |
CN102752883A (zh) * | 2012-06-18 | 2012-10-24 | 中兴通讯股份有限公司 | 一种基于点对点网络的通讯系统及通讯方法 |
CN103200672A (zh) * | 2013-03-04 | 2013-07-10 | 华为技术有限公司 | 目标设备的定位方法和系统及设备 |
US20150340049A1 (en) * | 2013-12-20 | 2015-11-26 | Csr Technology Inc. | Acoustic echo cancellation (aec) for a close-coupled speaker and microphone system |
CN105206281A (zh) * | 2015-09-14 | 2015-12-30 | 胡旻波 | 基于分布式麦克风阵列网络的语音增强方法 |
US20160063997A1 (en) * | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-Sourced Noise Suppression |
US20170004828A1 (en) * | 2013-12-11 | 2017-01-05 | Lg Electronics Inc. | Smart home appliances, operating method of thereof, and voice recognition system using the smart home appliances |
US20170332168A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Speech from Distributed Microphones |
US20180191788A1 (en) * | 2016-12-30 | 2018-07-05 | Google Inc. | Multimodal transmission of packetized data |
US20180270277A1 (en) * | 2017-03-20 | 2018-09-20 | At&T Intellectual Property I, L.P. | Automatic ad-hoc multimedia conference generator |
CN109076349A (zh) * | 2015-09-15 | 2018-12-21 | 索尼公司 | 频谱管理装置及方法、基站侧和用户设备侧的装置及方法 |
US20190108838A1 (en) * | 2014-09-10 | 2019-04-11 | Crestron Electronics, Inc. | System for audio distribution including network microphones for voice applications |
CN109788382A (zh) * | 2019-01-25 | 2019-05-21 | 深圳大学 | 一种分布式麦克风阵列拾音系统及方法 |
CN110709931A (zh) * | 2017-06-06 | 2020-01-17 | 赛普拉斯半导体公司 | 用于音频模式识别的系统和方法 |
CN111312244A (zh) * | 2020-02-17 | 2020-06-19 | 苏州思必驰信息科技有限公司 | 用于沙盘的语音交互系统及方法 |
US20200349953A1 (en) * | 2019-04-30 | 2020-11-05 | Microsoft Technology Licensing, Llc | Audio-visual diarization to identify meeting attendees |
CN111916068A (zh) * | 2019-05-07 | 2020-11-10 | 北京地平线机器人技术研发有限公司 | 音频检测方法和装置 |
-
2020
- 2020-12-30 CN CN202011614180.4A patent/CN112735462B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102355748A (zh) * | 2010-06-02 | 2012-02-15 | 索尼公司 | 用于确定经处理的音频信号的方法及手持设备 |
CN102752883A (zh) * | 2012-06-18 | 2012-10-24 | 中兴通讯股份有限公司 | 一种基于点对点网络的通讯系统及通讯方法 |
CN103200672A (zh) * | 2013-03-04 | 2013-07-10 | 华为技术有限公司 | 目标设备的定位方法和系统及设备 |
US20170004828A1 (en) * | 2013-12-11 | 2017-01-05 | Lg Electronics Inc. | Smart home appliances, operating method of thereof, and voice recognition system using the smart home appliances |
US20150340049A1 (en) * | 2013-12-20 | 2015-11-26 | Csr Technology Inc. | Acoustic echo cancellation (aec) for a close-coupled speaker and microphone system |
US20160063997A1 (en) * | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-Sourced Noise Suppression |
CN106797512A (zh) * | 2014-08-28 | 2017-05-31 | 美商楼氏电子有限公司 | 多源噪声抑制 |
US20190108838A1 (en) * | 2014-09-10 | 2019-04-11 | Crestron Electronics, Inc. | System for audio distribution including network microphones for voice applications |
CN105206281A (zh) * | 2015-09-14 | 2015-12-30 | 胡旻波 | 基于分布式麦克风阵列网络的语音增强方法 |
CN109076349A (zh) * | 2015-09-15 | 2018-12-21 | 索尼公司 | 频谱管理装置及方法、基站侧和用户设备侧的装置及方法 |
US20170332168A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Speech from Distributed Microphones |
US20180191788A1 (en) * | 2016-12-30 | 2018-07-05 | Google Inc. | Multimodal transmission of packetized data |
US20180270277A1 (en) * | 2017-03-20 | 2018-09-20 | At&T Intellectual Property I, L.P. | Automatic ad-hoc multimedia conference generator |
CN110709931A (zh) * | 2017-06-06 | 2020-01-17 | 赛普拉斯半导体公司 | 用于音频模式识别的系统和方法 |
CN109788382A (zh) * | 2019-01-25 | 2019-05-21 | 深圳大学 | 一种分布式麦克风阵列拾音系统及方法 |
US20200349953A1 (en) * | 2019-04-30 | 2020-11-05 | Microsoft Technology Licensing, Llc | Audio-visual diarization to identify meeting attendees |
CN111916068A (zh) * | 2019-05-07 | 2020-11-10 | 北京地平线机器人技术研发有限公司 | 音频检测方法和装置 |
CN111312244A (zh) * | 2020-02-17 | 2020-06-19 | 苏州思必驰信息科技有限公司 | 用于沙盘的语音交互系统及方法 |
Non-Patent Citations (1)
Title |
---|
黄江德;徐清涛;: "麦克风阵列的自适应降噪算法", 通讯世界, no. 01, 25 January 2020 (2020-01-25) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022262432A1 (zh) * | 2021-06-18 | 2022-12-22 | 荣耀终端有限公司 | 降噪方法及降噪装置 |
WO2023273230A1 (zh) * | 2021-06-29 | 2023-01-05 | 达闼机器人股份有限公司 | 语音交互方法、语音交互设备及存储介质 |
CN114305485A (zh) * | 2021-12-31 | 2022-04-12 | 科大讯飞股份有限公司 | 心跳监测方法以及心跳监测装置、计算机可读存储介质 |
WO2023155607A1 (zh) * | 2022-02-17 | 2023-08-24 | 海信视像科技股份有限公司 | 终端设备和语音唤醒方法 |
WO2023163896A1 (en) * | 2022-02-23 | 2023-08-31 | Qualcomm Incorporated | Systems and methods for improved group communication sessions |
US20230282224A1 (en) * | 2022-02-23 | 2023-09-07 | Qualcomm Incorporated | Systems and methods for improved group communication sessions |
US11909786B2 (en) | 2022-02-23 | 2024-02-20 | Qualcomm Incorporated | Systems and methods for improved group communication sessions |
CN116110393A (zh) * | 2023-02-01 | 2023-05-12 | 镁佳(北京)科技有限公司 | 一种基于语音相似度的拒识方法、装置、计算机及介质 |
CN116110393B (zh) * | 2023-02-01 | 2024-01-23 | 镁佳(北京)科技有限公司 | 一种基于语音相似度的拒识方法、装置、计算机及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112735462B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735462B (zh) | 分布式麦克风阵列的降噪方法和语音交互方法 | |
CN108900943B (zh) | 一种场景自适应主动降噪方法及耳机 | |
CN106782584B (zh) | 音频信号处理设备、方法和电子设备 | |
CN105825864B (zh) | 基于过零率指标的双端说话检测与回声消除方法 | |
CN107093429B (zh) | 主动降噪方法、系统及汽车 | |
US8787587B1 (en) | Selection of system parameters based on non-acoustic sensor information | |
US10291784B2 (en) | Adaptive filter unit for being used as an echo canceller | |
TW202115718A (zh) | 融合骨振動感測器信號及麥克風信號的深度學習降噪方法 | |
CN109769060A (zh) | 一种手机主动降噪装置及方法 | |
CN107465970B (zh) | 用于语音通信的设备 | |
WO2015176372A1 (zh) | 智能终端通话降噪方法及智能终端 | |
DK3148213T3 (en) | DYNAMIC RELATIVE TRANSFER FUNCTION ESTIMATION USING STRUCTURED "SAVING BAYESIAN LEARNING" | |
CN107068162B (zh) | 一种语音增强方法、装置及终端设备 | |
CN105554234B (zh) | 一种消噪处理的方法、装置和终端 | |
CN110992967A (zh) | 一种语音信号处理方法、装置、助听器及存储介质 | |
CN111078185A (zh) | 录制声音的方法及设备 | |
CN109087662A (zh) | 一种回声消除方法及装置 | |
JP2022505997A (ja) | 骨振動センサーとマイクの信号を融合するディープラーニング音声抽出及びノイズ低減方法 | |
CN113542960A (zh) | 音频信号处理方法、系统、装置、电子设备和存储介质 | |
CN110931007A (zh) | 语音识别方法及系统 | |
CN107845388B (zh) | 语音识别方法及装置 | |
EP3900399B1 (en) | Source separation in hearing devices and related methods | |
CN109600703B (zh) | 扩声系统及其扩声方法和计算机可读存储介质 | |
CN113241085B (zh) | 回声消除方法、装置、设备及可读存储介质 | |
CN210667779U (zh) | 一种可实现降噪的设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |