CN114708881A - 基于双麦克风的定向可选拾音方法、电子设备及存储介质 - Google Patents
基于双麦克风的定向可选拾音方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114708881A CN114708881A CN202210417778.7A CN202210417778A CN114708881A CN 114708881 A CN114708881 A CN 114708881A CN 202210417778 A CN202210417778 A CN 202210417778A CN 114708881 A CN114708881 A CN 114708881A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- domain signal
- signal
- adjustment value
- phase adjustment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 63
- 230000001629 suppression Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000001960 triggered effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000009467 reduction Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例提出了一种基于双麦克风的定向可选拾音方法、电子设备及存储介质,其中,上述基于双麦克风的定向可选拾音方法中,在获取到双麦克风对应的第一频域信号和第二频域信号后,通过按照待输出音频信号的目标波束角对第一频域信号和第二频域信号进行相位调整,得到相位调整后的第三频域信号和第四频域信号,再基于第三频域信号和第四频域信号形成该待输出音频信号,与现有技术相比,本申请通过确定目标波束角来确定需进行定向增强的拾音区域,以支持拾音区域定向可选,输出定向增强的音频信号。
Description
【技术领域】
本申请实施例涉及智能终端技术领域,尤其涉及一种基于双麦克风的定向可选拾音方法、电子设备及存储介质。
【背景技术】
随着智能手机、可穿戴设备、智能音箱的发展,配备至少两个麦克风的语音终端设备被广泛应用,传统单麦克风降噪算法对于非平稳噪声的降噪能力较差。基于深度学习的单麦克风降噪算法可提升非平稳噪声场景下的降噪性能,但由于算法本身的特性,该算法对于人声干扰的抑制表现欠佳,且相比传统的降噪算法复杂度较高。所以,提供一种能实时调整拾音区域并且能够抑制非目标方向干扰的基于双麦克风的定向可选拾音方法是本领域技术人员亟待解决的问题。
【发明内容】
本申请实施例提供了一种基于双麦克风的定向可选拾音方法、电子设备及存储介质,以实现当需进行定向拾音时,可通过相位控制模块对麦克风信号的相位进行调整,以输出支持拾音区域可选,且对非平稳噪声和人声干扰具有较好抑制能力的语音信号。
第一方面,本申请实施例提供一种基于双麦克风的定向可选拾音方法,应用于电子设备,所述电子设备包括第一麦克风和第二麦克风,所述方法包括:获得所述第一麦克风对应的第一频域信号,以及所述第二麦克风对应的第二频域信号;获取待输出音频信号对应的目标波束角;基于所述目标波束角确定所述第一频域信号对应的第一相位调整值和所述第二频域信号对应的第二相位调整值;依据所述第一相位调整值调整所述第一频域信号的相位,得到第三频域信号,以及依据所述第二相位调整值调整第二频域信号的相位,得到第四频域信号;基于所述第三频域信号和第四频域信号形成所述待输出音频信号。
上述基于双麦克风的定向可选拾音方法中,在获取到双麦克风对应的第一频域信号和第二频域信号后,通过按照待输出音频信号的目标波束角对第一频域信号和第二频域信号进行相位调整,得到相位调整后的第三频域信号和第四频域信号,再基于第三频域信号和第四频域信号形成该待输出音频信号,与现有技术相比,本申请通过确定目标波束角来确定需进行定向增强的拾音区域,以支持拾音区域定向可选,输出定向增强的音频信号。
其中一种实施方式中,所述获取待输出音频信号对应的目标波束角,包括:响应于用户触发的拾音区域选择指令,获得所述拾音区域选择指令对应的目标波束角。
其中一种实施方式中,所述第一相位调整值和所述第二相位调整值基于以下公式得到:
其中,θ1(k)为第一相位调整值,θ2(k)为第二相位调整值,α为目标波束角,d为两个麦克风的间距,c为空气中的声速,N为频域信号对应的时间窗的长度。
其中一种实施方式中,所述第三频域信号基于以下公式得到:
Sp1[k]=S1[k]*θ1(k)
其中,Sp1[k]为第三频域信号,S1[k]为第一频域信号,θ1(k)为第一相位调整值;
所述第四频域信号基于以下公式得到:
Sp2[k]=S2[k]*θ2(k)
其中,Sp2[k]为第四频域信号,S2[k]为第二频域信号,θ2(k)为第二相位调整值。
其中一种实施方式中,所述基于所述第三频域信号和第四频域信号形成对应的音频信号,包括:基于所述第三频域信号和第四频域信号按照预设方向形成对应方向零陷后的频域信号;基于所述对应方向零陷后的频域信号获得目标频域信号中各频率点的幅度值,得到所述目标频域信号;将所述目标频域信号进行时域转换,形成所述待输出音频信号。
其中一种实施方式中,所述对应方向零陷后的频域信号基于以下公式得到:
Sw1=[Sp1 Sp2]H1,Sw2=[Sp1 Sp2]H2,Sw3=[Sp1 Sp2]H3
其中一种实施方式中,所述目标频域信号基于以下公式得到:
其中,Sa1、Sa2、Sa3分别为Sw1、Sw2、Sw3对应的幅度谱,Sang为第一频域信号的相位谱,HL为补偿滤波因子,γ为控制拾音区的波束宽度的因子,β为控制非拾音区的抑制强度的因子。
第二方面,本申请提供一种电子设备,所述电子设备包括第一麦克风和第二麦克风,所述电子设备包括:频域信号获得模块,用于获得所述第一麦克风对应的第一频域信号,以及所述第二麦克风对应的第二频域信号;目标波束角获取模块,用于获取待输出音频信号对应的目标波束角;相位调整值确定模块,用于基于所述目标波束角确定所述第一频域信号对应的第一相位调整值和所述第二频域信号对应的第二相位调整值;频域信号调整模块,用于依据所述第一相位调整值调整所述第一频域信号的相位,得到第三频域信号,以及依据所述第二相位调整值调整第二频域信号的相位,得到第四频域信号;音频信号输出模块,用于基于所述第三频域信号和第四频域信号形成所述待输出音频信号。
第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述基于双麦克风的定向可选拾音方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述基于双麦克风的定向可选拾音方法的步骤。
应当理解的是,本申请实施例的第二~四方面与本申请实施例的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
【附图说明】
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请一个实施例提供的基于双麦克风的定向可选拾音方法的流程示意图;
图2为本申请一个实施例提供的双麦克风阵列的结构示意图,其中,图2A为智能手机的双麦克风阵列的结构示意图,图2B为手表的双麦克风阵列的结构示意图;
图3为本申请一个实施例提供的目标波束角的示意图;
图4为本申请一个实施例提供的不同波束宽度因子下的波束图,其中,图4A为波束宽度因子为1时的波束图,图4B为波束宽度因子为5时的波束图;
图5为本申请一个实施例提供的不同抑制强度因子下的波束图,其中,图5A为抑制强度因子为0.01时的波束图,图5B为抑制强度因子为0.0001时的波束图;
图6为本申请一个实施例提供的不同β参数下针对干扰信号执行抑制后的频谱图;
图7为本申请一个实施例提供的待输出音频信号的波束图,其中,图7A为目标波束角为0°时的待输出音频信号的波束图,图7B为目标波束角为90°时的待输出音频信号的波束图,图7C为目标波束角为180°时的待输出音频信号的波束图;
图8为本申请一个实施例提供的目标波束角为90°时的频谱图;
图9为本申请一个实施例提供的基于双麦克风的定向可选拾音方法的流程示意图;
图10为本申请一个实施例提供的电子设备的结构示意图;
图11为本申请一个实施例提供的电子设备的结构示意图;
图12为本申请一个实施例提供的电子设备的结构示意图。
【具体实施方式】
为了更好的理解本说明书的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本申请实施例提供的基于双麦克风的定向可选拾音方法可以由电子设备来执行,该电子设备可以是诸如智能手机、手表、平板电脑、PC机、笔记本电脑等终端设备。在一可选实施例中,该电子设备上可以安装有用于执行基于双麦克风的定向可选拾音方法的服务程序。
现有技术中,双麦克风被广泛应用于各类语音终端产品中,定向拾音多采用基于麦克风阵列波束形成技术,传统的固定波束形成方案在麦克风个数较少时干扰抑制效果较差且波束模式不满足频率不变性。一阶差分波束形成通过补偿滤波能够实现较好的频率不变性,但是一阶差分只能对某方向的干扰进行零陷,在一个复杂的环境中往往干扰方向未知且个数较多,所以抑制效果欠佳。作为另外一种实施方案,一阶差分结合广义旁瓣相消器(General sidelobe canceller,GSC)的双麦方案是通过阻塞矩阵输出噪声估计信号,同时采用固定波束形成对语音信号进行增强,将噪声估计作为参考信号自适应消除语音中的干扰噪声最后经过后置滤波输出。该方案相比一阶差分能够实现较好的噪声抑制效果,但是该方案对方向干扰的抑制强度不可控,拾音方向也较难进行实时的调整。
针对以上技术问题,以下针对本申请进行详细说明:
图1为本申请实施例提供的一种基于双麦克风的定向可选拾音方法的流程示意图,如图所示,该基于双麦克风的定向可选拾音方法可以包括以下步骤:
步骤S101,获得第一麦克风对应的第一频域信号,以及第二麦克风对应的第二频域信号。
可选地,上述第一麦克风和第二麦克风可以位于电子设备的同一侧,例如,如图2A所示,第一麦克风(101)和第二麦克风(102)均位于智能手机的底部,或者,如图2B所示,第一麦克风(103)和第二麦克风(104)均位于手表的正面底侧。
可选地,上述第一麦克风首先采集到的信号为第一频域信号对应的第一时域信号,将该第一时域信号进行分帧加窗,然后分别将各帧时域子信号做傅里叶变换,将各帧时域子信号变换到频域,得到各帧时域子信号对应的各帧频域子信号,并将各帧频域子信号进行整合,形成该第一频域信号,各帧频域子信号的整合过程可以基于以下公式实现:
其中,s1(n)为第一时域信号,w(n)是N点的窗函数,N的大小对应着频域分析的时间窗长度,窗函数例如矩形窗(rectwin),正弦窗(Sine),汉宁窗(Hanning),汉明窗(Hamming),Tukey窗等。
可选地,上述第二麦克风首先采集到的信号为第二频域信号对应的第二时域信号,将该第二时域信号进行分帧加窗,然后分别将各帧时域子信号做傅里叶变换,将各帧时域子信号变换到频域,得到各帧时域子信号对应的各帧频域子信号,再将各帧频域子信号进行整合,形成该第二频域信号,各帧频域子信号的整合过程可以基于以下公式实现:
其中,s2(n)为第二时域信号,w(n)是N点的窗函数,N的大小对应着频域分析的时间窗长度,窗函数例如矩形窗(rectwin),正弦窗(Sine),汉宁窗(Hanning),汉明窗(Hamming),图基窗(Tukey)等。
步骤S102,获取待输出音频信号对应的目标波束角。
双麦克风在接收声源发出的音频信号时,因该声源与两个麦克风的距离不同,故两个麦克风在接收音频信号时会产生时间差和强度差,即两个麦克风接收的音频信号的相位和幅度值不同,电子设备可经降噪叠加处理后依据此差异计算声源位置,该声源位置可表现为该目标波束角,目标波束角(α)的示意图如图3所示。
可选地,上述目标波束角的获取方式可以为预先设置,也可以为电子设备生成拾音区域选择请求,以供用户选择目标拾音区域,从而电子设备可响应于用户触发的拾音区域选择指令,获得该拾音区域选择指令对应的目标波束角。
可选地,上述拾音区域选择请求中包括的拾音区域可以根据采集场景进行分类,例如,公司集体会议、一对一会议、面对面采访等,也可以根据待采集的声源所在方向进行分类,例如,正前方、斜左前方、斜右前方、正左侧、正右侧等。
可选地,当根据用户反馈的拾音区域选择指令确定好目标拾音区域后,可根据该目标拾音区域确定对应的目标波束角,例如,当拾音区域根据采集场景进行分类时,目标波束角分别为:公司集体会议对应的0°或180°,一对一会议对应的90°、面对面采访对应的90°;当拾音区域根据待采集的声源所在方向进行分类时,目标波束角分别为:正前方对应的90°,斜左前方对应的135°,斜右前方对应的45°,正左侧对应的180°,正右侧对应的0°。
步骤S103,基于目标波束角确定第一频域信号对应的第一相位调整值和第二频域信号对应的第二相位调整值。
当确定好目标波束角后,即将该目标波束角作为最后形成的待输出音频信号的波束角,并依据该目标波束角对该第一频域信号和第二频域信号进行相位调整,以使双通道频域信号经降噪叠加后输出的音频信号即为波束角为目标波束角的待输出音频信号。
可选地,上述第一相位调整值和第二相位调整值可以基于以下公式得到:
其中,θ1(k)为第一相位调整值,θ2(k)为第二相位调整值,α为目标波束角,d为两个麦克风的间距,c为空气中的声速,一般为340m/s,N为频域信号对应的时间窗的长度。
可选地,当计算出θ1(k)-θ2(k)的值后,可以根据该差值对第一相位调整值和第二相位调整值进行赋值,例如,当目标波束角α为0°,即 时,该第一相位调整值即为该第二相位调整值即为0;当目标波束角α为90°,即θ1(k)-θ2(k)=0时,则第一频域信号和第二频域信号不需要进行相位调整,即第一相位调整值即为0,该第二相位调整值即为0;当目标波束角α为180°,即时,该第一相位调整值即为该第二相位调整值即为0。
步骤S104,依据第一相位调整值调整第一频域信号的相位,得到第三频域信号,以及依据第二相位调整值调整第二频域信号的相位,得到第四频域信号。
可选地,上述第三频域信号可以基于以下公式得到:
Sp1[k]=S1[k]*θ1(k)
其中,Sp1[k]为第三频域信号,S1[k]为第一频域信号,θ1(k)为第一相位调整值。
可选地,上述第四频域信号基于以下公式得到:
Sp2[k]=S2[k]*θ2(k)
其中,Sp2[k]为第四频域信号,S2[k]为第二频域信号,θ2(k)为第二相位调整值。
步骤S105,基于第三频域信号和第四频域信号形成待输出音频信号。
因此时目标波束角确定,故可利用相应的时间延迟对各个麦克风接收到的信号进行补偿以对齐全部信号,即把某一个麦克风作为参考点,将另一个麦克风接收到的信号进行幅度和相位的补偿,最后对信号进行加权求和,从而实现增强目标方向音频信号和抑制非目标方向噪声干扰的目的。
可选地,可将各麦克风采集到的信号的空间特性进行叠加处理,以输出该待输出音频信号。此时,输出的目标频域信号为Y(m)=WHX(m),其中,X(m)为各麦克风的远场导向矢量,用于表征各麦克风的空间特性,WH为权矢量的共轭装置,该权矢量W的取值和各麦克风的远场导向矢量有关,波束形成通过权矢量W对信号添加合适的时延补偿Y(m),使得所有麦克风接收到的信号相位和幅度一致。对所有麦克风接收到的信号进行求和,在来波方向上形成波束,从而达到增强音频信号的目的,在权矢量的作用下使得各个干扰信号的方向与待输出音频信号相反,从而抑制干扰源。
例如,上述步骤S105可以包括以下步骤:
步骤S1051,基于第三频域信号和第四频域信号按照预设方向形成对应方向零陷后的频域信号,其中,该预设方向由目标波束角确定。
形成零陷波的目的是消除指定方向的干扰或噪声,利用事先确定目标波束角后去除该目标波束角外的其他方向上的干扰噪声,待去除噪声后进行延时补偿,然后进行求和运算。
可选地,上述预设方向可以为0度、目标波束角α和180度方向,即对应三个方向上的权矢量H1、H2、H3分别为:
例如,当目标波束角α为90°时,即对应三个方向上的权矢量H1、H2、H3分别为:
则经权矢量零陷后的频域信号分别为:
Sw1=[Sp1 Sp2]H1,Sw2=[Sp1 Sp2]H2,Sw3=[Sp1 Sp2]H3
步骤S1052,基于对应方向零陷后的频域信号获得目标频域信号中各频率点的幅度值,得到该目标频域信号。
因现有技术中对干扰噪声的抑制强度不可控,故一定程度上会影响待输出音频信号的理想强度值,故需引入控制抑制强度的因子,以控制对方向干扰的抑制强度。
可选地,在计算出经三个方向上的权矢量零陷后的频域信号后,分别计算Sw1、Sw2、Sw3的幅度谱得到Sa1、Sa2、Sa3,即输出的目标频域信号Sout(k)为:
其中,Sa1、Sa2、Sa3分别为Sw1、Sw2、Sw3对应的幅度谱,Sang为第一频域信号的相位谱,HL为补偿滤波因子,γ为控制拾音区的波束宽度的因子(γ≥1),β为控制非拾音区的抑制强度的因子(0<β<<1)。
引入上述γ因子后,可供本领域技术人员和用户以调整拾音区的波束宽度,例如,如图4所示,在声源的采样率为16kHz,频谱分析的频率范围为0~8kHz的情况下,针对目标波束角为90°的待输出音频信号进行双通道频域信号的相位、幅度调整后,在γ=1时可形成如图4A所示的波束图,在γ=5时可形成如图4B所示的波束图。
引入上述β因子后,可供本领域技术人员和用户以调整非拾音区的抑制强度,例如,如图5所示,在声源的采样率为16kHz,频谱分析的频率范围为0~8kHz的情况下,针对目标波束角为90°的待输出音频信号进行双通道频域信号的相位、幅度调整后,在β=0.01时可形成如图5A所示的波束图,在β=0.0001时可形成如图5B所示的波束图。并且,对非拾音区的抑制强度也可进行相应控制,例如,当目标波束角选择为90°时,此时针对波束角为0°的音频信号即视为干扰信号,在不同β参数下针对该干扰信号的频谱图如图6所示,即此时可通过调整β以输出不同抑制强度的待输出音频信号。
步骤S1053,将目标频域信号进行时域转换,形成待输出音频信号。
可选地,该目标频域信号转换成待输出音频信号的方式可以采用逆傅里叶变换,公式如下:
可选地,此时形成的待输出音频信号则表现为目标波束角对应的波束,例如,当目标波束角为0°时,则此时待输出音频信号对应的波束即为波束角为0°的波束,如图7A所示;当目标波束角为90°时,则此时待输出音频信号对应的波束即为波束角为90°的波束,如图7B所示;目标波束角为180°时,则此时待输出音频信号对应的波束即为波束角为180°的波束,如图7B所示。并且,此时针对除目标波束角外的干扰信号得到了有效的抑制,例如,当目标波束角为90°时,则此时除90°外的0°、45°、135°和180°均为干扰信号,相应的频谱图如图8所示。
上述基于双麦克风的定向可选拾音方法中,在获取到双麦克风对应的第一频域信号和第二频域信号后,通过按照待输出音频信号的目标波束角对第一频域信号和第二频域信号进行相位调整,得到相位调整后的第三频域信号和第四频域信号,再基于第三频域信号和第四频域信号形成该待输出音频信号,与现有技术相比,本申请通过确定目标波束角来确定需进行定向增强的拾音区域,以支持拾音区域定向可选,输出定向增强的音频信号。
图9为本申请实施例提供的一种基于双麦克风的定向可选拾音方法的流程示意图,如图所示,该基于双麦克风的定向可选拾音方法可以包括以下步骤:
步骤S201,获得第一麦克风的第一时域信号(201)和第二麦克风的第二时域信号(202),其中,该时域信号为麦克风采集到的音频信号。
步骤S202,将第一时域信号(201)和第二时域信号(202)经分帧加窗频域转换后得到第一频域信号(203)和第二频域信号(204)。
步骤S203,响应于用户触发的拾音区域选择指令,确定该拾音区域选择指令对应的拾音区,获得该拾音区对应的目标波束角,经确定该目标波束角为90°。
步骤S204,依据该目标波束角计算针对第一频域信号(203)和第二频域信号(204)应加的相移,当目标波束角为90°时,经公式 确定第一频域信号和第二频域信号均不需要进行相移或者需进行相同的相移,得到第三频域信号(205)和第四频域信号(206)。
步骤S205,利用第三频域信号和第四频域信号做零陷波束形成,三个权矢量分别对应0°、90°和180°方向,根据三个方向上的权矢量得到相应方向上的对应方向零陷后的频域信号,分别为第一零陷后的频域信号(207)、第二零陷后的频域信号(208)和第三零陷后的频域信号(209)。
步骤S206,将第一零陷后的频域信号(207)、第二零陷后的频域信号(208)和第三零陷后的频域信号(209)做谱减补偿滤波处理后得到目标频域信号(210)。
步骤S207,将目标频域信号进行时域转换加窗合成得到待输出音频信号(211)。
图10为本申请实施例提供的一种电子设备的结构示意图,该电子设备包括第一麦克风和第二麦克风,如图所示,该电子设备30可以包括:
频域信号获得模块301,用于获得第一麦克风对应的第一频域信号,以及第二麦克风对应的第二频域信号;
目标波束角获取模块302,用于获取待输出音频信号对应的目标波束角;
相位调整值确定模块303,用于基于目标波束角确定第一频域信号对应的第一相位调整值和第二频域信号对应的第二相位调整值;
频域信号调整模块304,用于依据第一相位调整值调整第一频域信号的相位,得到第三频域信号,以及依据第二相位调整值调整第二频域信号的相位,得到第四频域信号;
音频信号输出模块305,用于基于第三频域信号和第四频域信号形成待输出音频信号。
其中一种实施例方式中,该目标波束角获取模块302包括:
选择指令响应子模块,用于响应于用户触发的拾音区域选择指令,获得拾音区域选择指令对应的目标波束角。
其中一种实施例方式中,该相位调整值确定模块303可以依据以下公式运行:
其中,θ1(k)为第一相位调整值,θ2(k)为第二相位调整值,α为目标波束角,d为两个麦克风的间距,c为空气中的声速,N为频域信号对应的时间窗的长度。
其中一种实施例方式中,该频域信号调整模块304可以依据以下公式运行:
Sp1[k]=S1[k]*θ1(k)
其中,Sp1[k]为第三频域信号,S1[k]为第一频域信号,θ1(k)为第一相位调整值;
Sp2[k]=S2[k]*θ2(k)
其中,Sp2[k]为第四频域信号,S2[k]为第二频域信号,θ2(k)为第二相位调整值。
其中一种实施例方式中,该音频信号输出模块305可以包括:
零陷后的频域信号形成子模块,用于基于第三频域信号和第四频域信号按照预设方向形成对应方向零陷后的频域信号;
目标频域信号获得子模块,用于基于对应方向零陷后的频域信号获得目标频域信号中各频率点的幅度值,得到该目标频域信号;
时域转换子模块,用于将目标频域信号进行时域转换,形成待输出音频信号。
其中一种实施例方式中,该零陷后的频域信号形成子模块可以基于以下公式运行:
Sw1=[Sp1 Sp2]H1,Sw2=[Sp1 Sp2]H2,Sw3=[Sp1 Sp2]H3
其中一种实施例方式中,该目标频域信号获得子模块可以基于以下公式运行:
其中,Sa1、Sa2、Sa3分别为Sw1、Sw2、Sw3对应的幅度谱,Sang为第一频域信号的相位谱,HL为补偿滤波因子,γ为控制拾音区的波束宽度的因子,β为控制非拾音区的抑制强度的因子。
图11为本申请实施例提供的一种电子设备的结构示意图,如图所示,该电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserial bus,USB)接口130,音频模块170,扬声器170A,受话器170B,麦克风170C和内部存储器121等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
处理器110通过运行存储在内部存储器121中的程序,从而执行各种功能应用以及数据处理,例如实现本发明图1~图9所示实施例提供的基于双麦克风的定向可选拾音方法。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
如图12所示,本申请实施例还提供了一种电子设备的结构示意图,该电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本说明书图1~图9所示实施例提供的基于双麦克风的定向可选拾音方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述基于双麦克风的定向可选拾音方法的步骤。可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本发明实施例的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本说明书的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本说明书的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本申请实施例中所涉及的终端可以包括但不限于个人计算机(personal computer,PC)、个人数字助理(personal digital assistant,PDA)、无线手持设备、平板电脑(tablet computer)、手机、MP3播放器、MP4播放器等。
在本说明书所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本说明书各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (10)
1.一种基于双麦克风的定向可选拾音方法,其特征在于,应用于电子设备,所述电子设备包括第一麦克风和第二麦克风,所述方法包括:
获得所述第一麦克风对应的第一频域信号,以及所述第二麦克风对应的第二频域信号;
获取待输出音频信号对应的目标波束角;
基于所述目标波束角确定所述第一频域信号对应的第一相位调整值和所述第二频域信号对应的第二相位调整值;
依据所述第一相位调整值调整所述第一频域信号的相位,得到第三频域信号,以及依据所述第二相位调整值调整第二频域信号的相位,得到第四频域信号;
基于所述第三频域信号和第四频域信号形成所述待输出音频信号。
2.如权利要求1所述的方法,其特征在于,所述获取待输出音频信号对应的目标波束角,包括:
响应于用户触发的拾音区域选择指令,获得所述拾音区域选择指令对应的目标波束角。
4.如权利要求1所述的方法,其特征在于,所述第三频域信号基于以下公式得到:
Sp1[k]=S1[k]*θ1(k)
其中,Sp1[k]为第三频域信号,S1[k]为第一频域信号,θ1(k)为第一相位调整值;
所述第四频域信号基于以下公式得到:
Sp2[k]=S2[k]*θ2(k)
其中,Sp2[k]为第四频域信号,S2[k]为第二频域信号,θ2(k)为第二相位调整值。
5.如权利要求1所述的方法,其特征在于,所述基于所述第三频域信号和第四频域信号形成所述待输出音频信号,包括:
基于所述第三频域信号和第四频域信号按照预设方向形成对应方向零陷后的频域信号;
基于所述对应方向零陷后的频域信号获得目标频域信号中各频率点的幅度值,得到所述目标频域信号;
将所述目标频域信号进行时域转换,形成所述待输出音频信号。
8.一种电子设备,其特征在于,所述电子设备包括第一麦克风和第二麦克风,所述电子设备包括:
频域信号获得模块,用于获得所述第一麦克风对应的第一频域信号,以及所述第二麦克风对应的第二频域信号;
目标波束角获取模块,用于获取待输出音频信号对应的目标波束角;
相位调整值确定模块,用于基于所述目标波束角确定所述第一频域信号对应的第一相位调整值和所述第二频域信号对应的第二相位调整值;
频域信号调整模块,用于依据所述第一相位调整值调整所述第一频域信号的相位,得到第三频域信号,以及依据所述第二相位调整值调整第二频域信号的相位,得到第四频域信号;
音频信号输出模块,用于基于所述第三频域信号和第四频域信号形成所述待输出音频信号。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210417778.7A CN114708881A (zh) | 2022-04-20 | 2022-04-20 | 基于双麦克风的定向可选拾音方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210417778.7A CN114708881A (zh) | 2022-04-20 | 2022-04-20 | 基于双麦克风的定向可选拾音方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708881A true CN114708881A (zh) | 2022-07-05 |
Family
ID=82174071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210417778.7A Pending CN114708881A (zh) | 2022-04-20 | 2022-04-20 | 基于双麦克风的定向可选拾音方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708881A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116668892A (zh) * | 2022-11-14 | 2023-08-29 | 荣耀终端有限公司 | 音频信号的处理方法、电子设备及可读存储介质 |
-
2022
- 2022-04-20 CN CN202210417778.7A patent/CN114708881A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116668892A (zh) * | 2022-11-14 | 2023-08-29 | 荣耀终端有限公司 | 音频信号的处理方法、电子设备及可读存储介质 |
CN116668892B (zh) * | 2022-11-14 | 2024-04-12 | 荣耀终端有限公司 | 音频信号的处理方法、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109102822B (zh) | 一种基于固定波束形成的滤波方法及装置 | |
US10123113B2 (en) | Selective audio source enhancement | |
US9922663B2 (en) | Voice signal processing method and apparatus | |
US9628905B2 (en) | Adaptive beamforming for eigenbeamforming microphone arrays | |
KR101340215B1 (ko) | 멀티채널 신호의 반향 제거를 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체 | |
US9094496B2 (en) | System and method for stereophonic acoustic echo cancellation | |
US7099821B2 (en) | Separation of target acoustic signals in a multi-transducer arrangement | |
US8903108B2 (en) | Near-field null and beamforming | |
JP5493850B2 (ja) | 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム | |
US9020163B2 (en) | Near-field null and beamforming | |
US9232309B2 (en) | Microphone array processing system | |
US20120099732A1 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
CN106663445A (zh) | 声音处理装置、声音处理方法及程序 | |
US8913758B2 (en) | System and method for spatial noise suppression based on phase information | |
CN110827846B (zh) | 采用加权叠加合成波束的语音降噪方法及装置 | |
CN108597532A (zh) | 基于mvdr的隐声方法 | |
WO2023108864A1 (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
CN114708881A (zh) | 基于双麦克风的定向可选拾音方法、电子设备及存储介质 | |
WO2021027049A1 (zh) | 一种声音采集方法、装置及介质 | |
Ba et al. | Enhanced MVDR beamforming for arrays of directional microphones | |
JPWO2017065092A1 (ja) | 情報処理装置 | |
CN113223552B (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
CN115884038A (zh) | 音频采集方法、电子设备及存储介质 | |
Thyssen et al. | A novel Time-Delay-of-Arrival estimation technique for multi-microphone audio processing | |
WO2017064914A1 (ja) | 情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |