CN112151058B - 一种声音信号的处理方法、装置及设备 - Google Patents

一种声音信号的处理方法、装置及设备 Download PDF

Info

Publication number
CN112151058B
CN112151058B CN201910577192.5A CN201910577192A CN112151058B CN 112151058 B CN112151058 B CN 112151058B CN 201910577192 A CN201910577192 A CN 201910577192A CN 112151058 B CN112151058 B CN 112151058B
Authority
CN
China
Prior art keywords
sound
gain
sound signal
pointing
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910577192.5A
Other languages
English (en)
Other versions
CN112151058A (zh
Inventor
杨晓霞
刘溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Original Assignee
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Mobvoi Beijing Information Technology Co Ltd filed Critical Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority to CN201910577192.5A priority Critical patent/CN112151058B/zh
Publication of CN112151058A publication Critical patent/CN112151058A/zh
Application granted granted Critical
Publication of CN112151058B publication Critical patent/CN112151058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了一种声音信号的处理方法、装置及设备,该方法包括:将声音信号的能量值控制在小于预设阈值的情况下,通过优化求解得到差分麦克风阵列算法中的计算参数;利用声源方向对应的差分麦克风阵列算法参数,对获取到的多路声音信号进行处理,得到指向声源方向的声音信号;可见,本方案中,第一方面,对声源方向进行信号增强处理,降低了干扰信号的影响;第二方面,现有的差分麦克风阵列算法存在对低频声音信号进行放大的技术问题,而本方案中,将声音信号的能量值控制在小于预设阈值的情况下,求解得到差分麦克风阵列算法中的计算参数,利用该计算参数处理声音信号,解决了这一技术问题。

Description

一种声音信号的处理方法、装置及设备
技术领域
本发明涉及声音处理技术领域,特别是指一种声音信号的处理方法、装置及设备。
背景技术
一些场景中,用户可以与电子设备进行语音交互,比如,用户可以向车载设备、智能家居设备等发送语音指令,这些设备可以解析并执行该语音指令。
但是环境中通常存在干扰信号,降低设备解析语音指令的准确性。比如,车载环境中,主驾驶员向车载设备发送语音指令,另外副驾驶员也在说话,这种情况下,副驾驶员方向的声音信号会产生干扰。
发明内容
有鉴于此,本发明的目的在于提出一种声音信号的处理方法、装置及设备,以降低干扰信号的影响。
基于上述目的,本发明实施例提供了一种声音信号的处理方法,包括:
获取多路声音信号;
利用差分麦克风阵列算法、以及声源方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向声源方向的声音信号;其中,所述声源方向对应的差分麦克风阵列算法参数为:以指向声源方向的声音信号的能量值小于预设阈值、并且声源方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的。
可选的,所述利用差分麦克风阵列算法、以及声源方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向声源方向的声音信号,包括:
针对每个预设方向,利用差分麦克风阵列算法、以及该方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向该方向的声音信号;其中,该方向对应的差分麦克风阵列算法参数为:以指向该方向的声音信号的能量值小于预设阈值、并且该方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的;所述预设方向包括声源方向。
可选的,所述预设方向包括:主驾方向和副驾方向;
其中,主驾方向对应的差分麦克风阵列算法参数为:以指向主驾方向的声音信号的能量值小于预设阈值、并且主驾方向相邻的端射方向波束增益最大、副驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的;
副驾方向对应的差分麦克风阵列算法参数为:以指向副驾方向的声音信号的能量值小于预设阈值、并且副驾方向相邻的端射方向波束增益最大、主驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
可选的,采用如下算式求解得到主驾方向对应的差分麦克风阵列算法参数:
采用如下算式求解得到副驾方向对应的差分麦克风阵列算法参数:
其中,θ1d表示主驾方向相邻的端射方向,θ2d表示副驾方向相邻的端射方向,θ1表示主驾方向,θ2表示副驾方向,f表示频点,α表示麦克风阵列的导向矢量,ω表示差分麦克风阵列算法参数,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,|ω|2表示声音信号的能量值,σ表示所述预设阈值。
可选的,所述利用差分麦克风阵列算法、以及该方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向该方向的声音信号,包括:
利用如下算式,计算指向主驾方向的声音信号:
利用如下算式,计算指向副驾方向的声音信号:
其中,n表示帧序号,表示麦克风阵列采集的第n帧第f个频点处的多路声音信号,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,/>表示指向主驾方向的第n帧第f个频点处声音信号,/>表示指向副驾方向的第n帧第f个频点处声音信号。
可选的,所述方法还包括:
根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算增益参数;
利用所述增益参数,对指向所述声源方向的声音信号进行增益处理,得到指向所述声源方向的增益后的声音信号。
可选的,所述根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算增益参数,包括:
根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算第一级增益参数;
利用所述第一级增益参数,分别对所述指向每个预设方向的声音信号进行增益处理,得到指向每个预设方向的第一级增益后的声音信号;
根据所述指向每个预设方向的第一级增益后的声音信号、以及所述声源方向,计算第二级增益参数;
所述利用所述增益参数,对指向所述声源方向的声音信号进行增益处理,得到指向所述声源方向的增益后的声音信号,包括:
利用所述第二级增益参数,对指向所述声源方向的第一级增益后的声音信号进行增益处理,得到指向所述声源方向的第二级增益后的声音信号。
可选的,所述根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算第一级增益参数,包括:
利用如下算式,计算第一级增益参数:
其中,A1(n,f)表示所述第一级增益参数,n表示帧序号,f表示频点,分别表示得到的指向每个预设方向的声音信号,m为大于1的正整数,/>表示得到的指向声源方向的声音信号;
所述利用所述第一级增益参数,分别对所述指向每个预设方向的声音信号进行增益处理,得到指向每个预设方向的第一级增益后的声音信号,包括:
利用如下算式,计算指向每个预设方向的第一级增益后的声音信号:
其中,p表示任意一个预设方向,表示指向一个预设方向的声音信号,/>表示指向该方向的第一级增益后的声音信号;
所述根据所述指向每个预设方向的第一级增益后的声音信号、以及所述声源方向,计算第二级增益参数,包括:
利用如下算式,计算第二级增益参数:
其中,A2(n,f)表示所述第二级增益参数,分别表示指向每个预设方向的第一级增益后的声音信号,/>表示指向声源方向的第一级增益后的声音信号;
所述利用所述第二级增益参数,对指向所述声源方向的第一级增益后的声音信号进行增益处理,得到指向所述声源方向的第二级增益后的声音信号,包括:
利用如下算式,计算指向所述声源方向的第二级增益后的声音信号:
其中,表示指向所述声源方向的第一级增益后的声音信号,/>表示指向所述声源方向的第二级增益后的声音信号。
基于上述目的,本发明实施例还提供了一种声音信号的处理装置,包括:
获取模块,用于获取多路声音信号;
处理模块,用于利用差分麦克风阵列算法、以及声源方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向声源方向的声音信号;其中,所述声源方向对应的差分麦克风阵列算法参数为:以指向声源方向的声音信号的能量值小于预设阈值、并且声源方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的。
可选的,处理模块,具体用于:
针对每个预设方向,利用差分麦克风阵列算法、以及该方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向该方向的声音信号;其中,该方向对应的差分麦克风阵列算法参数为:以指向该方向的声音信号的能量值小于预设阈值、并且该方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的;所述预设方向包括声源方向。
可选的,所述预设方向包括:主驾方向和副驾方向;
其中,主驾方向对应的差分麦克风阵列算法参数为:以指向主驾方向的声音信号的能量值小于预设阈值、并且主驾方向相邻的端射方向波束增益最大、副驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的;
副驾方向对应的差分麦克风阵列算法参数为:以指向副驾方向的声音信号的能量值小于预设阈值、并且副驾方向相邻的端射方向波束增益最大、主驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
可选的,所述装置还包括:
第一计算模块,用于采用如下算式求解得到主驾方向对应的差分麦克风阵列算法参数:
采用如下算式求解得到副驾方向对应的差分麦克风阵列算法参数:
其中,θ1d表示主驾方向相邻的端射方向,θ2d表示副驾方向相邻的端射方向,θ1表示主驾方向,θ2表示副驾方向,f表示频点,α表示麦克风阵列的导向矢量,ω表示差分麦克风阵列算法参数,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,|ω|2表示声音信号的能量值,σ表示所述预设阈值。
可选的,所述处理模块,具体用于:
利用如下算式,计算指向主驾方向的声音信号:
利用如下算式,计算指向副驾方向的声音信号:
其中,n表示帧序号,表示麦克风阵列采集的第n帧第f个频点处的多路声音信号,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,/>表示指向主驾方向的第n帧第f个频点处声音信号,表示指向副驾方向的第n帧第f个频点处声音信号。
可选的,所述装置还包括:
第二计算模块,用于根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算增益参数;
增益模块,用于利用所述增益参数,对指向所述声源方向的声音信号进行增益处理,得到指向所述声源方向的增益后的声音信号。
可选的,所述第二计算模块,具体用于:
根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算第一级增益参数;
利用所述第一级增益参数,分别对所述指向每个预设方向的声音信号进行增益处理,得到指向每个预设方向的第一级增益后的声音信号;
根据所述指向每个预设方向的第一级增益后的声音信号、以及所述声源方向,计算第二级增益参数;
所述增益模块,具体用于:利用所述第二级增益参数,对指向所述声源方向的第一级增益后的声音信号进行增益处理,得到指向所述声源方向的第二级增益后的声音信号。
可选的,所述第二计算模块,具体用于:
利用如下算式,计算第一级增益参数:
其中,A1(n,f)表示所述第一级增益参数,n表示帧序号,f表示频点,分别表示得到的指向每个预设方向的声音信号,m为大于1的正整数,/>表示得到的指向声源方向的声音信号;
利用如下算式,计算指向每个预设方向的第一级增益后的声音信号:
其中,p表示任意一个预设方向,表示指向一个预设方向的声音信号,/>表示指向该方向的第一级增益后的声音信号;
利用如下算式,计算第二级增益参数:
其中,A2(n,f)表示所述第二级增益参数,分别表示指向每个预设方向的第一级增益后的声音信号,/>表示指向声源方向的第一级增益后的声音信号;
所述增益模块,具体用于:利用如下算式,计算指向所述声源方向的第二级增益后的声音信号:
其中,表示指向所述声源方向的第一级增益后的声音信号,/>表示指向所述声源方向的第二级增益后的声音信号。
基于上述目的,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种声音信号的处理方法。
本发明所示实施例中,将声音信号的能量值控制在小于预设阈值的情况下,通过优化求解得到差分麦克风阵列算法中的计算参数;利用声源方向对应的差分麦克风阵列算法参数,对获取到的多路声音信号进行处理,得到指向声源方向的声音信号;可见,本方案中,第一方面,利用声源方向对应的差分麦克风阵列算法参数,对该多种声音信号进行处理,也就是对声源方向进行信号增强处理,降低了干扰信号的影响;第二方面,现有的差分麦克风阵列算法存在对低频声音信号进行放大的技术问题,而本方案中,将声音信号的能量值控制在小于预设阈值的情况下,求解得到差分麦克风阵列算法中的计算参数,利用该计算参数处理声音信号,解决了这一技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声音信号的处理方法的第一种流程示意图;
图2为本发明实施例提供的一种场景示意图;
图3为本发明实施例提供的声音信号的处理方法的第二种流程示意图;
图4为本发明实施例提供的一种具体实施方式示意图;
图5为本发明实施例提供的一种声音信号的处理装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
为了解决上述技术问题,本发明实施例提供了一种声音信号的处理方法、装置及设备,该方法及装置可以应用于各种电子设备,比如车载设备,或者声音采集设备等,具体不做限定。下面首先对发明实施例提供的声音信号的处理方法进行介绍。
图1为本发明实施例提供的声音信号的处理方法的第一种流程示意图,包括:
S101:获取多路声音信号。
举例来说,执行本方案的电子设备(执行主体,以下简称本电子设备)中可以内置声音采集模块,通过该声音采集模块采集多路声音信号;或者,本电子设备可以与其他声音采集设备通信连接,获取该声音采集设备采集的多路声音信号。该声音采集模块或者声音采集设备可以为麦克风阵列,麦克风阵列可以采集得到多路声音信号(一个麦克风可以采集得到一路声音信号),该麦克风阵列可以为线性的阵列、或者也可以为双麦阵列,等等,麦克风阵列的具体阵列形状不做限定。
一种情况下,本方案可以应用于车载场景中,在车内阅读灯位置安装两个麦克风,这两个麦克风的间距较小;S101中获取这两个麦克风采集的两路声音信号。
S102:利用差分麦克风阵列算法、以及声源方向对应的差分麦克风阵列算法参数,对该多路声音信号进行处理,得到指向声源方向的声音信号;其中,声源方向对应的差分麦克风阵列算法参数为:以指向声源方向的声音信号的能量值小于预设阈值、并且声源方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的。
举例来说,本电子设备可以与用户进行语音交互,或者说进行对话,在对话过程中,声源方向即为用户所在的方向。一种情况下,一次对话过程中可以确定一次声源方向,并认为对话过程中的声源方向不变。比如,可以通过DOA(Direction of Arrival,声源方向到达)估计的方式确定声源方向。
以车载场景为例来说,声源方向可以为主驾方向(主驾驶员所在方向),或者可以为副驾方向(副驾驶员所在方向);主驾方向可以理解为由麦克风阵列指向主驾位置的方向,副驾方向可以理解为由麦克风阵列指向副驾位置的方向。
若声源方向为主驾方向,主驾方向对应的差分麦克风阵列算法参数为:以指向主驾方向的声音信号的能量值小于预设阈值、并且主驾方向相邻的端射方向波束增益最大、副驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
若声源方向为副驾方向,副驾方向对应的差分麦克风阵列算法参数为:以指向副驾方向的声音信号的能量值小于预设阈值、并且副驾方向相邻的端射方向波束增益最大、主驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
一种情况下,可以预先设定多个方向(以下称为“预设方向”),该“预设方向”可以理解为预先设定的可能发出声音信号的方向,该预设方向可以理解为相对于麦克风阵列的方向。比如,车载场景中,预设方向可以包括主驾方向和/或副驾方向。每个预设方向分别对应一个差分麦克风阵列算法(Differential Microphone Array,DMA)参数。DMA参数可以记为ω(θ,f),θ表示方向的角度,f表示频点。举例来说,主驾方向对应的差分麦克风阵列算法参数可以表示为ω(θ1,f),主驾方向的角度记为θ1,副驾方向对应的差分麦克风阵列算法参数可以表示为ω(θ2,f),副驾方向的角度记为θ2
可以预先求解得到每个预设方向对应的差分麦克风阵列算法参数。现有的DMA算法存在对低频声音信号进行放大的缺陷,这导致经过DMA处理后,声音信号低频段能量被放大,低频噪声也就被放大。而本方案中,将声音信号的能量值控制在小于预设阈值的情况下,求解得到差分麦克风阵列算法中的计算参数,利用该计算参数处理声音信号,能够抑制低频噪声。
举例来说,可以采用cardioid(心形线)的形式,求解一个方向对应的DMA参数,可以包括:以指向该方向的声音信号的能量值小于预设阈值、并且该方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到该方向对应的DMA参数。
举例来说,可以通过凸优化算法求解得到DMA参数。参考图2,假设麦克风阵列为双麦阵列,则这两个麦克风连线的方向为两个端射方向,图2中,一个端射方向为90°,另一个端射方向为-90°。如果麦克风阵列为线性阵列,类似的,这些麦克风阵列连线的两个方向为两个端射方向。仍参考图2,假设主驾方向为-45°,副驾方向为45°,则主驾方向相邻的端射方向为-90°,副驾方向相邻的端射方向为90°。
预先求解得到每个预设方向对应的差分麦克风阵列算法参数,这些预设方向中包括声源方向,这样确定出声源方向后,S102中便可以利用声源方向对应的差分麦克风阵列算法参数,对该多种声音信号进行处理,也就是对声源方向进行信号增强处理,降低了干扰信号的影响。
一种实施方式中,S102可以包括:针对每个预设方向,利用差分麦克风阵列算法、以及该方向对应的差分麦克风阵列算法参数,对该多路声音信号进行处理,得到指向该方向的声音信号。其中,该方向对应的差分麦克风阵列算法参数为:以指向该方向的声音信号的能量值小于预设阈值、并且该方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的;所述预设方向包括声源方向。
如上所述,“预设方向”可以理解为预先设定的可能发出声音信号的方向,该预设方向可以理解为相对于麦克风阵列的方向。以预设方向包括主驾方向和副驾方向为例来说:
主驾方向对应的差分麦克风阵列算法参数为:以指向主驾方向的声音信号的能量值小于预设阈值、并且主驾方向相邻的端射方向波束增益最大、副驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
副驾方向对应的差分麦克风阵列算法参数为:以指向副驾方向的声音信号的能量值小于预设阈值、并且副驾方向相邻的端射方向波束增益最大、主驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
比如,可以采用如下算式求解得到主驾方向对应的差分麦克风阵列算法参数:
采用如下算式求解得到副驾方向对应的差分麦克风阵列算法参数:
其中,θ1d表示主驾方向相邻的端射方向,θ2d表示副驾方向相邻的端射方向,θ1表示主驾方向,θ2表示副驾方向,f表示频点,α表示麦克风阵列的导向矢量,ω表示差分麦克风阵列算法参数,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,|ω|2表示声音信号的能量值,σ表示所述预设阈值。
一种情况下,σ可以为5。
延续图2的例子,主驾方向为-45°(θ1=-45),副驾方向为45°(θ2=45),主驾方向相邻的端射方向为-90°(θ1d=-90),副驾方向相邻的端射方向为90°(θ1d=90);这样,可以采用如下算式求解得到主驾方向对应的差分麦克风阵列算法参数:
采用如下算式求解得到副驾方向对应的差分麦克风阵列算法参数:
利用差分麦克风阵列算法、以及主驾方向对应的差分麦克风阵列算法参数,对该多路声音信号进行处理,得到指向主驾方向的声音信号。利用差分麦克风阵列算法、以及副驾方向对应的差分麦克风阵列算法参数,对该多路声音信号进行处理,得到指向副驾方向的声音信号。
比如,可以利用如下算式,计算指向主驾方向的声音信号:
利用如下算式,计算指向副驾方向的声音信号:
其中,n表示帧序号,表示麦克风阵列采集的第n帧第f个频点处的多路声音信号,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,/>表示指向主驾方向的第n帧第f个频点处声音信号,表示指向副驾方向的第n帧第f个频点处声音信号。
上述一种情况下,麦克见阵列为双麦阵列,假设这两个麦克风在第n帧第f个频点处采集的声音信号分别为则该多路声音信号表示为/>
本实施方式中,S102中得到了指向每个预设方向的声音信号,也就是将声源不同的声音信号进行分离,这样可以降低干扰信号的影响。比如,主驾方向的用户与设备进行语音交互的过程中,或者说进行对话的过程中,将主驾方向作为目标方向,将副驾方向作为干扰方向,利用本方案分别得到指向主驾方向的声音信号和指向副驾方向的声音信号,也就是将来源于主驾方向的声音信号与来源于副驾方向的声音信号分离,这样,设备可以只对主驾方向的声音信号进行处理,降低了副驾方向的声音信号的干扰。或者,本实施方式中得到指向不同方向的声音信号后,后续可以分别对指向不同方向的声音信号进行处理,具体情况不做限定。
作为一种实施方式,在得到指向每个预设方向的声音信号之后,还可以根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算增益参数;利用所述增益参数,对指向所述声源方向的声音信号进行增益处理,得到指向所述声源方向的增益后的声音信号。
举例来说,本电子设备可以与用户进行语音交互,或者说进行对话,在对话过程中,声源方向即为用户所在的方向。一种情况下,一次对话过程中可以确定一次声源方向,并认为对话过程中的声源方向不变。比如,可以通过DOA(Direction of Arrival,声源方向到达)估计的方式确定声源方向。
举例来说,可以采用如下算式计算增益参数:
其中,A1(n,f)表示增益参数,n表示帧序号,f表示频点,分别表示得到的指向每个预设方向的声音信号,m为大于1的正整数,/>表示得到的指向声源方向的声音信号。这里存在m个预设方向,声源方向可以为m个预设方向中的一个方向,也就是说,/>可以为/>中的一个。
举例来说,可以采用如下算式,计算指向声源方向的增益后的声音信号:
其中,表示指向声源方向的声音信号,/>表示指向声源方向的增益后的声音信号。
延续上述例子,如果预设方向包括主驾方向和副驾方向,假设声源方向为主驾方向,则可以采用如下算式计算增益参数:
其中,表示指向主驾方向的声音信号,/>表示指向副驾方向的声音信号。
举例来说,可以采用如下算式,计算指向声源方向(主驾方向)的增益后的声音信号:
其中,表示指向声源方向(主驾方向)的声音信号,/>表示指向声源方向(主驾方向)的增益后的声音信号。
本实施方式中,对声音信号进行非线性增益,可以增强声源方向的声音信号,抑制干扰方向的声音信号,提高了声音信号的质量,能够获得较为清晰的声源方向的声音信号。
一种实施方式中,可以对声音信号进行两级增益,比如,可以根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算第一级增益参数;利用所述第一级增益参数,分别对所述指向每个预设方向的声音信号进行增益处理,得到指向每个预设方向的第一级增益后的声音信号;根据所述指向每个预设方向的第一级增益后的声音信号、以及所述声源方向,计算第二级增益参数;利用所述第二级增益参数,对指向所述声源方向的第一级增益后的声音信号进行增益处理,得到指向所述声源方向的第二级增益后的声音信号。
本实施方式中,上述计算得到的A1(n,f)表示第一级增益参数,举例来说,可以采用如下算式,计算指向每个预设方向的第一级增益后的声音信号:
其中,p表示任意一个预设方向,表示指向一个预设方向的声音信号,/>表示指向该方向的第一级增益后的声音信号。
延续上述例子,如果预设方向包括主驾方向和副驾方向,则可以采用如下算式,计算指向主驾方向的第一级增益后的声音信号:
采用如下算式,计算指向副驾方向的第一级增益后的声音信号:
举例来说,可以采用如下算式,计算第二级增益参数:
其中,A2(n,f)表示所述第二级增益参数,分别表示指向每个预设方向的第一级增益后的声音信号,/>表示指向声源方向的第一级增益后的声音信号。这里存在m个预设方向,声源方向可以为m个预设方向中的一个方向,也就是说,/>可以为/>中的一个,上述/>也为/>中的一个。
举例来说,可以采用如下算式计算指向声源方向的第二级增益后的声音信号:
其中,表示指向声源方向的第一级增益后的声音信号,/>表示指向声源方向的第二级增益后的声音信号。
延续上述例子,如果预设方向包括主驾方向和副驾方向,并且声源方向为主驾方向,则可以采用如下算式,计算第二级增益参数:
其中,表示指向主驾方向的第一级增益后的声音信号,/>表示指向副驾方向的第一级增益后的声音信号。
可以采用如下算式,计算指向声源方向(主驾方向)的第二级增益后的声音信号:
一种情况下,第二级增益可以仅对语音能量分布较大的频谱段进行处理,比如200Hz-2500Hz的频谱段,这样,上述计算第二级增益参数的算式中,200Hz≤f≤2500Hz。语音数据在200Hz-2500Hz范围内能量较强,仅针对这部分频带内的数据进行第二级增益处理,可以得到较好的处理效果。
本实施方式中,对声音信号进行两级非线性增益,可以进一步增强声源方向的声音信号,进一步抑制干扰方向的声音信号,进一步提高声音信号质量。
本发明所示实施例中,将声音信号的能量值控制在小于预设阈值的情况下,通过优化求解得到差分麦克风阵列算法中的计算参数;利用声源方向对应的差分麦克风阵列算法参数,对获取到的多路声音信号进行处理,得到指向声源方向的声音信号;可见,本方案中,第一方面,利用声源方向对应的差分麦克风阵列算法参数,对该多种声音信号进行处理,也就是对声源方向进行信号增强处理,降低了干扰信号的影响;第二方面,现有的差分麦克风阵列算法存在对低频声音信号进行放大的技术问题,而本方案中,将声音信号的能量值控制在小于预设阈值的情况下,求解得到差分麦克风阵列算法中的计算参数,利用该计算参数处理声音信号,解决了这一技术问题。第三方面,先对声音信号进行DMA处理,可以将声源方向和干扰方向的声音信号进行初步分离,再对声音信号进行两级非线性处理,进一步对声源方向的声音信号进行增强,对干扰方向的声音信号进行抑制,提高了声音信号的质量,能够获得较为清晰的声源方向的声音信号。
图3为本发明实施例提供的声音信号的处理方法的第二种流程示意图,包括:
S301:获取多路声音信号。
举例来说,执行本方案的电子设备(执行主体,以下简称本电子设备)中可以内置声音采集模块,通过该声音采集模块采集多路声音信号;或者,本电子设备可以与其他声音采集设备通信连接,获取该声音采集设备采集的多路声音信号。该声音采集模块或者声音采集设备可以为麦克风阵列,麦克风阵列可以采集得到多路声音信号(一个麦克风可以采集得到一路声音信号),该麦克风阵列可以为线性的阵列、或者也可以为双麦阵列,等等,麦克风阵列的具体阵列形状不做限定。
一种情况下,本方案可以应用于车载场景中,在车内阅读灯位置安装两个麦克风,这两个麦克风的间距较小;S301中获取这两个麦克风采集的两路声音信号。
S302:利用差分麦克风阵列算法、以及主驾方向对应的差分麦克风阵列算法参数,对该多路声音信号进行处理,得到指向主驾方向的声音信号;利用差分麦克风阵列算法、以及副驾方向对应的差分麦克风阵列算法参数,对该多路声音信号进行处理,得到指向副驾方向的声音信号。
其中,主驾方向对应的差分麦克风阵列算法参数为:以指向主驾方向的声音信号的能量值小于预设阈值、并且主驾方向相邻的端射方向波束增益最大、副驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的;
副驾方向对应的差分麦克风阵列算法参数为:以指向副驾方向的声音信号的能量值小于预设阈值、并且副驾方向相邻的端射方向波束增益最大、主驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
举例来说,主驾方向对应的差分麦克风阵列算法参数可以表示为ω(θ1,f),主驾方向的角度记为θ1,副驾方向对应的差分麦克风阵列算法参数可以表示为ω(θ2,f),副驾方向的角度记为θ2
可以预先求解得到主副驾方向对应的差分麦克风阵列算法参数。现有的DMA算法存在对低频声音信号进行放大的缺陷,这导致经过DMA处理后,声音信号低频段能量被放大,低频噪声也就被放大。而本方案中,将声音信号的能量值控制在小于预设阈值的情况下,求解得到DMA参数,利用该DMA参数处理声音信号,能够抑制低频噪声。
举例来说,可以通过凸优化算法求解得到DMA参数。可以采用如下算式求解得到主驾方向对应的DMA参数:
采用如下算式求解得到副驾方向对应的DMA参数:
其中,θ1d表示主驾方向相邻的端射方向,θ2d表示副驾方向相邻的端射方向,θ1表示主驾方向,θ2表示副驾方向,f表示频点,α表示麦克风阵列的导向矢量,ω表示差分麦克风阵列算法参数,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,|ω|2表示声音信号的能量值,σ表示所述预设阈值。
一种情况下,σ可以为5。
参考图2,假设麦克风阵列为双麦阵列,则这两个麦克风连线的方向为两个端射方向,图2中,主驾方向为-45°(θ1=-45),副驾方向为45°(θ2=45),主驾方向相邻的端射方向为-90°(θ1d=-90),副驾方向相邻的端射方向为90°(θ1d=90);这样,可以采用如下算式求解得到主驾方向对应的DMA参数:
采用如下算式求解得到副驾方向对应的DMA参数:
可以利用如下算式,计算指向主驾方向的声音信号:
利用如下算式,计算指向副驾方向的声音信号:
其中,n表示帧序号,表示麦克风阵列采集的第n帧第f个频点处的多路声音信号,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,/>表示指向主驾方向的第n帧第f个频点处声音信号,表示指向副驾方向的第n帧第f个频点处声音信号。
上述一种情况下,麦克见阵列为双麦阵列,假设这两个麦克风在第n帧第f个频点处采集的声音信号分别为则该多路声音信号表示为/>
S303:根据指向主驾方向的声音信号、指向副驾方向的声音信号以及确定的声源方向,计算第一级增益参数。
举例来说,本电子设备可以与用户进行语音交互,或者说进行对话,在对话过程中,声源方向即为用户所在的方向。一种情况下,一次对话过程中可以确定一次声源方向,并认为对话过程中的声源方向不变。比如,可以通过DOA估计的方式确定声源方向。
举例来说,假设声源方向为主驾方向,可以采用如下算式,计算第一级增益参数:
其中,表示指向主驾方向的声音信号,/>表示指向副驾方向的声音信号。
S304:利用第一级增益参数,对指向主驾方向的声音信号进行增益处理,得到指向主驾方向的第一级增益后的声音信号;利用第一级增益参数,对指向副驾方向的声音信号进行增益处理,得到指向副驾方向的第一级增益后的声音信号。
举例来说,可以采用如下算式,计算指向主驾方向的第一级增益后的声音信号:
采用如下算式,计算指向副驾方向的第一级增益后的声音信号:
S305:根据指向主驾方向的第一级增益后的声音信号、指向副驾方向的第一级增益后的声音信号以及声源方向,计算第二级增益参数。
举例来说,假设声源方向为主驾方向,可以采用如下算式,计算第二级增益参数:
其中,表示指向主驾方向的第一级增益后的声音信号,/>表示指向副驾方向的第一级增益后的声音信号。
S306:利用第二级增益参数,对指向声源方向的第一级增益后的声音信号进行增益处理,得到指向声源方向的第二级增益后的声音信号。
延续上述例子,假设声源方向为主驾方向,可以采用如下算式,计算指向主驾方向的第二级增益后的声音信号:
一种情况下,第二级增益可以仅对语音能量分布较大的频谱段进行处理,比如200Hz-2500Hz的频谱段,这样,上述计算第二级增益参数的算式中,200Hz≤f≤2500Hz。语音数据在200Hz-2500Hz范围内能量较强,仅针对这部分频带内的数据进行第二级增益处理,可以得到较好的处理效果。
应用图3所示实施例,第一方面,将声音信号的能量值控制在小于预设阈值的情况下,通过凸优化算法求解得到DMA参数,利用该DMA参数处理声音信号,能够抑制低频噪声。第二方面,先对声音信号进行DMA处理,可以将声源方向和干扰方向的声音信号进行初步分离,再对声音信号进行两级非线性处理,进一步对声源方向的声音信号进行增强,对干扰方向的声音信号进行抑制,提高了声音信号的质量,能够获得较为清晰的声源方向的声音信号。
下面参考图4介绍一种具体的实施方式:
以双麦阵列为例来说,两个麦克风采集得到两路声音信号。利用主驾方向对应的DMA参数,对这两路声音信号进行DMA处理,得到指向主驾方向的声音信号。利用副驾方向对应的DMA参数,对这两路声音信号进行DMA处理,得到指向副驾方向的声音信号。这样,便实现了主副驾方向声音信号的初步分离。
基于确定的声源方向,对声音信号进行两级级联非线性处理,得到指向声源方向的第二级增益后的声音信号,这样可以进一步增强声源方向的声音信号,进一步抑制干扰方向的声音信号,进一步提高声音信号质量。
如上所述,可以在车内阅读灯位置安装两个麦克风,这两个麦克风的间距较小,比如可以为2cm;如果利用现有的波束形成算法,对这两个麦克风采集的两路声音信号进行波束形成处理,分离得到主驾方向的声音信号和副驾方向的声音信号,由于两个麦克风间距较小,使得分离结果准确性较差,不能获得清晰的声源方向的声音信号。
而应用图4所示实施方式,先对声音信号进行DMA处理,可以将声源方向和干扰方向的声音信号进行初步分离,再对声音信号进行两级非线性处理,进一步对声源方向的声音信号进行增强,对干扰方向的声音信号进行抑制,得到更干净的声源方向的声音信号。应用本实施方式能够分离主副驾方向的声音信号,获得较为清晰的声源方向的声音信号。
与上述方法实施例相对应,本发明实施例还提供了一种声音信号的处理装置,如图5所示,包括:
获取模块501,用于获取多路声音信号;
处理模块502,用于利用差分麦克风阵列算法、以及声源方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向声源方向的声音信号;其中,声源方向对应的差分麦克风阵列算法参数为:以指向声源方向的声音信号的能量值小于预设阈值、并且声源方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的。
作为一种实施方式,处理模块502,具体用于:针对每个预设方向,利用差分麦克风阵列算法、以及该方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向该方向的声音信号;其中,该方向对应的差分麦克风阵列算法参数为:以指向该方向的声音信号的能量值小于预设阈值、并且该方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的;所述预设方向包括声源方向。
作为一种实施方式,所述预设方向包括:主驾方向和副驾方向;
其中,主驾方向对应的差分麦克风阵列算法参数为:以指向主驾方向的声音信号的能量值小于预设阈值、并且主驾方向相邻的端射方向波束增益最大、副驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的;
副驾方向对应的差分麦克风阵列算法参数为:以指向副驾方向的声音信号的能量值小于预设阈值、并且副驾方向相邻的端射方向波束增益最大、主驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
作为一种实施方式,所述装置还包括:
第一计算模块(图中未示出),用于采用如下算式求解得到主驾方向对应的差分麦克风阵列算法参数:
采用如下算式求解得到副驾方向对应的差分麦克风阵列算法参数:
其中,θ1d表示主驾方向相邻的端射方向,θ2d表示副驾方向相邻的端射方向,θ1表示主驾方向,θ2表示副驾方向,f表示频点,α表示麦克风阵列的导向矢量,ω表示差分麦克风阵列算法参数,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,|ω|2表示声音信号的能量值,σ表示所述预设阈值。
作为一种实施方式,处理模块502具体用于:
利用如下算式,计算指向主驾方向的声音信号:
利用如下算式,计算指向副驾方向的声音信号:
其中,n表示帧序号,表示麦克风阵列采集的第n帧第f个频点处的多路声音信号,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,/>表示指向主驾方向的第n帧第f个频点处声音信号,表示指向副驾方向的第n帧第f个频点处声音信号。
作为一种实施方式,所述装置还包括:第二计算模块和增益模块(图中未示出),其中,
第二计算模块,用于根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算增益参数;
增益模块,用于利用所述增益参数,对指向所述声源方向的声音信号进行增益处理,得到指向所述声源方向的增益后的声音信号。
作为一种实施方式,所述第二计算模块,具体用于:
根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算第一级增益参数;
利用所述第一级增益参数,分别对所述指向每个预设方向的声音信号进行增益处理,得到指向每个预设方向的第一级增益后的声音信号;
根据所述指向每个预设方向的第一级增益后的声音信号、以及所述声源方向,计算第二级增益参数;
所述增益模块,具体用于:利用所述第二级增益参数,对指向所述声源方向的第一级增益后的声音信号进行增益处理,得到指向所述声源方向的第二级增益后的声音信号。
作为一种实施方式,所述第二计算模块,具体用于:
利用如下算式,计算第一级增益参数:
其中,A1(n,f)表示所述第一级增益参数,n表示帧序号,f表示频点,分别表示得到的指向每个预设方向的声音信号,m为大于1的正整数,/>表示得到的指向声源方向的声音信号;
利用如下算式,计算指向每个预设方向的第一级增益后的声音信号:
其中,p表示任意一个预设方向,表示指向一个预设方向的声音信号,/>表示指向该方向的第一级增益后的声音信号;
利用如下算式,计算第二级增益参数:
其中,A2(n,f)表示所述第二级增益参数,分别表示指向每个预设方向的第一级增益后的声音信号,/>表示指向声源方向的第一级增益后的声音信号;
所述增益模块,具体用于:利用如下算式,计算指向所述声源方向的第二级增益后的声音信号:
其中,表示指向所述声源方向的第一级增益后的声音信号,/>表示指向所述声源方向的第二级增益后的声音信号。/>
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本发明实施例还提供了一种电子设备,如图6所示,包括存储器602、处理器601及存储在存储器602上并可在处理器601上运行的计算机程序,处理器601执行所述程序时实现上述任一种声音信号的处理方法。
本发明实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一种声音信号的处理方法。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种声音信号的处理方法,其特征在于,包括:
获取多路声音信号;
利用差分麦克风阵列算法、以及声源方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向声源方向的声音信号;其中,所述声源方向对应的差分麦克风阵列算法参数为:以指向声源方向的声音信号的能量值小于预设阈值、并且声源方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的;其中,
所述利用差分麦克风阵列算法、以及声源方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向声源方向的声音信号,包括:针对每个预设方向,利用差分麦克风阵列算法、以及该方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向该方向的声音信号;其中,该方向对应的差分麦克风阵列算法参数为:以指向该方向的声音信号的能量值小于预设阈值、并且该方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的;所述预设方向包括声源方向;
所述预设方向包括:主驾方向和副驾方向;
其中,主驾方向对应的差分麦克风阵列算法参数为:以指向主驾方向的声音信号的能量值小于预设阈值、并且主驾方向相邻的端射方向波束增益最大、副驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的;
副驾方向对应的差分麦克风阵列算法参数为:以指向副驾方向的声音信号的能量值小于预设阈值、并且副驾方向相邻的端射方向波束增益最大、主驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
2.根据权利要求1所述的方法,其特征在于,采用如下算式求解得到主驾方向对应的差分麦克风阵列算法参数:
min[α(θ2d,f)ω(θ1f)],
采用如下算式求解得到副驾方向对应的差分麦克风阵列算法参数:
min[α(θ1d,f)ω(θ2,f)],
其中,θ1d表示主驾方向相邻的端射方向,θ2d表示副驾方向相邻的端射方向,θ1表示主驾方向,θ2表示副驾方向,f表示频点,α表示麦克风阵列的导向矢量,ω表示差分麦克风阵列算法参数,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,|ω|2表示声音信号的能量值,σ表示所述预设阈值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算增益参数;
利用所述增益参数,对指向所述声源方向的声音信号进行增益处理,得到指向所述声源方向的增益后的声音信号。
4.根据权利要求3所述的方法,其特征在于,所述根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算增益参数,包括:
根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算第一级增益参数;
利用所述第一级增益参数,分别对所述指向每个预设方向的声音信号进行增益处理,得到指向每个预设方向的第一级增益后的声音信号;
根据所述指向每个预设方向的第一级增益后的声音信号、以及所述声源方向,计算第二级增益参数;
所述利用所述增益参数,对指向所述声源方向的声音信号进行增益处理,得到指向所述声源方向的增益后的声音信号,包括:
利用所述第二级增益参数,对指向所述声源方向的第一级增益后的声音信号进行增益处理,得到指向所述声源方向的第二级增益后的声音信号。
5.根据权利要求4所述的方法,其特征在于,所述根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算第一级增益参数,包括:
利用如下算式,计算第一级增益参数:
其中,A1(n,f)表示所述第一级增益参数,n表示帧序号,f表示频点,分别表示得到的指向每个预设方向的声音信号,m为大于1的正整数,/>表示得到的指向声源方向的声音信号;
所述利用所述第一级增益参数,分别对所述指向每个预设方向的声音信号进行增益处理,得到指向每个预设方向的第一级增益后的声音信号,包括:
利用如下算式,计算指向每个预设方向的第一级增益后的声音信号:
其中,p表示任意一个预设方向,表示指向一个预设方向的声音信号,/>表示指向该方向的第一级增益后的声音信号;
所述根据所述指向每个预设方向的第一级增益后的声音信号、以及所述声源方向,计算第二级增益参数,包括:
利用如下算式,计算第二级增益参数:
其中,A2(n,f)表示所述第二级增益参数,分别表示指向每个预设方向的第一级增益后的声音信号,/>表示指向声源方向的第一级增益后的声音信号;
所述利用所述第二级增益参数,对指向所述声源方向的第一级增益后的声音信号进行增益处理,得到指向所述声源方向的第二级增益后的声音信号,包括:
利用如下算式,计算指向所述声源方向的第二级增益后的声音信号:
其中,表示指向所述声源方向的第一级增益后的声音信号,/>表示指向所述声源方向的第二级增益后的声音信号。
6.一种声音信号的处理装置,其特征在于,包括:
获取模块,用于获取多路声音信号;
处理模块,用于利用差分麦克风阵列算法、以及声源方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向声源方向的声音信号;其中,所述声源方向对应的差分麦克风阵列算法参数为:以指向声源方向的声音信号的能量值小于预设阈值、并且声源方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的;其中,
所述处理模块,具体用于:
针对每个预设方向,利用差分麦克风阵列算法、以及该方向对应的差分麦克风阵列算法参数,对所述多路声音信号进行处理,得到指向该方向的声音信号;其中,该方向对应的差分麦克风阵列算法参数为:以指向该方向的声音信号的能量值小于预设阈值、并且该方向相邻的端射方向波束增益最大为约束条件,通过优化求解得到的;所述预设方向包括声源方向;
所述预设方向包括:主驾方向和副驾方向;
其中,主驾方向对应的差分麦克风阵列算法参数为:以指向主驾方向的声音信号的能量值小于预设阈值、并且主驾方向相邻的端射方向波束增益最大、副驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的;
副驾方向对应的差分麦克风阵列算法参数为:以指向副驾方向的声音信号的能量值小于预设阈值、并且副驾方向相邻的端射方向波束增益最大、主驾方向相邻的端射方向波束增益最小为约束条件,通过凸优化算法求解得到的。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一计算模块,用于采用如下算式求解得到主驾方向对应的差分麦克风阵列算法参数:
min[α(θ2d,f)ω(θ1f)],
采用如下算式求解得到副驾方向对应的差分麦克风阵列算法参数:
min[α(θ1d,f)ω(θ2,f)],
其中,θ1d表示主驾方向相邻的端射方向,θ2d表示副驾方向相邻的端射方向,θ1表示主驾方向,θ2表示副驾方向,f表示频点,α表示麦克风阵列的导向矢量,ω表示差分麦克风阵列算法参数,ω(θ1,f)表示主驾方向对应的差分麦克风阵列算法参数,ω(θ2,f)表示副驾方向对应的差分麦克风阵列算法参数,|ω|2表示声音信号的能量值,σ表示所述预设阈值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二计算模块,用于根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算增益参数;
增益模块,用于利用所述增益参数,对指向所述声源方向的声音信号进行增益处理,得到指向所述声源方向的增益后的声音信号。
9.根据权利要求8所述的装置,其特征在于,所述第二计算模块,具体用于:
根据得到的指向每个预设方向的声音信号、以及确定的声源方向,计算第一级增益参数;
利用所述第一级增益参数,分别对所述指向每个预设方向的声音信号进行增益处理,得到指向每个预设方向的第一级增益后的声音信号;
根据所述指向每个预设方向的第一级增益后的声音信号、以及所述声源方向,计算第二级增益参数;
所述增益模块,具体用于:利用所述第二级增益参数,对指向所述声源方向的第一级增益后的声音信号进行增益处理,得到指向所述声源方向的第二级增益后的声音信号。
10.根据权利要求9所述的装置,其特征在于,所述第二计算模块,具体用于:
利用如下算式,计算第一级增益参数:
其中,A1(n,f)表示所述第一级增益参数,n表示帧序号,f表示频点,分别表示得到的指向每个预设方向的声音信号,m为大于1的正整数,/>表示得到的指向声源方向的声音信号;
利用如下算式,计算指向每个预设方向的第一级增益后的声音信号:
其中,p表示任意一个预设方向,表示指向一个预设方向的声音信号,/>表示指向该方向的第一级增益后的声音信号;
利用如下算式,计算第二级增益参数:
其中,A2(n,f)表示所述第二级增益参数,分别表示指向每个预设方向的第一级增益后的声音信号,/>表示指向声源方向的第一级增益后的声音信号;
所述增益模块,具体用于:利用如下算式,计算指向所述声源方向的第二级增益后的声音信号:
其中,表示指向所述声源方向的第一级增益后的声音信号,/>表示指向所述声源方向的第二级增益后的声音信号。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。
CN201910577192.5A 2019-06-28 2019-06-28 一种声音信号的处理方法、装置及设备 Active CN112151058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910577192.5A CN112151058B (zh) 2019-06-28 2019-06-28 一种声音信号的处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910577192.5A CN112151058B (zh) 2019-06-28 2019-06-28 一种声音信号的处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112151058A CN112151058A (zh) 2020-12-29
CN112151058B true CN112151058B (zh) 2023-09-15

Family

ID=73869539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910577192.5A Active CN112151058B (zh) 2019-06-28 2019-06-28 一种声音信号的处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112151058B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023004776A1 (zh) * 2021-07-30 2023-02-02 深圳市大疆创新科技有限公司 一种麦克风阵列的信号处理方法、麦克风阵列以及系统
CN117238312B (zh) * 2023-08-28 2024-05-03 深蓝感知(杭州)物联科技有限公司 一种执法记录仪背景声音放大方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003333683A (ja) * 2002-05-16 2003-11-21 Tokai Rika Co Ltd ノイズ抑圧方法及びマイクロフォン装置
KR20090056598A (ko) * 2007-11-30 2009-06-03 삼성전자주식회사 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
JP2011077649A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 収音装置、利得制御方法、およびプログラム
JP2011135119A (ja) * 2009-12-22 2011-07-07 Yamaha Corp 音信号処理装置
WO2014083542A1 (en) * 2012-11-30 2014-06-05 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
CN108877828A (zh) * 2017-05-16 2018-11-23 福州瑞芯微电子股份有限公司 语音增强方法/系统、计算机可读存储介质及电子设备
CN109308908A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种语音交互方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101470528B1 (ko) * 2008-06-09 2014-12-15 삼성전자주식회사 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법
US8081772B2 (en) * 2008-11-20 2011-12-20 Gentex Corporation Vehicular microphone assembly using fractional power phase normalization
US9865277B2 (en) * 2013-07-10 2018-01-09 Nuance Communications, Inc. Methods and apparatus for dynamic low frequency noise suppression

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003333683A (ja) * 2002-05-16 2003-11-21 Tokai Rika Co Ltd ノイズ抑圧方法及びマイクロフォン装置
KR20090056598A (ko) * 2007-11-30 2009-06-03 삼성전자주식회사 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
JP2011077649A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 収音装置、利得制御方法、およびプログラム
JP2011135119A (ja) * 2009-12-22 2011-07-07 Yamaha Corp 音信号処理装置
WO2014083542A1 (en) * 2012-11-30 2014-06-05 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
CN108877828A (zh) * 2017-05-16 2018-11-23 福州瑞芯微电子股份有限公司 语音增强方法/系统、计算机可读存储介质及电子设备
CN109308908A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种语音交互方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A COMPACT-MICROPHONE-ARRAY-BASED SPEECH ENHANCEMENT ALGORITHM USING AUDITORY SUBBANDS AND PROBABLITY CONSTRAINED POSTFILTER;Heng Zhang等;IEEE;全文 *
基于相干性滤波器的广义旁瓣抵消器麦克风小阵列语音增强方法;杨立春等;电子与信息学报(第12期);全文 *
驾驶环境下的麦克风阵列语音增强算法研究;靳韡赟;中国优秀硕士论文全文数据库·信息科技辑;全文 *

Also Published As

Publication number Publication date
CN112151058A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
EP3189521B1 (en) Method and apparatus for enhancing sound sources
US9552828B2 (en) Audio signal processing device
US10524077B2 (en) Method and apparatus for processing audio signal based on speaker location information
CN115762579A (zh) 一种声音处理方法、装置与设备
Li et al. Geometrically constrained independent vector analysis for directional speech enhancement
CN111435598B (zh) 语音信号处理方法、装置、计算机可读介质及电子设备
CN112151058B (zh) 一种声音信号的处理方法、装置及设备
CN111798860B (zh) 音频信号处理方法、装置、设备及存储介质
CN112216295B (zh) 一种声源定位方法、装置及设备
US8189806B2 (en) Sound collection apparatus
CN110875054A (zh) 一种远场噪声抑制方法、装置和系统
US10951978B2 (en) Output control of sounds from sources respectively positioned in priority and nonpriority directions
US20220208206A1 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
US11721353B2 (en) Spatial audio wind noise detection
CN112216298B (zh) 双麦克风阵列声源定向方法、装置及设备
CN111048096B (zh) 一种语音信号处理方法、装置及终端
JP2019080246A (ja) 指向性制御装置および指向性制御方法
CN112133299B (zh) 一种声音信号的处理方法、装置及设备
KR101424327B1 (ko) 잡음 제거 장치 및 방법
US20200327887A1 (en) Dnn based processor for speech recognition and detection
CN112216299B (zh) 双麦克风阵列波束形成方法、装置及设备
JP2017003654A (ja) オーディオ補正装置、オーディオ装置およびオーディオ補正システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant