CN113496708A - 拾音方法、装置和电子设备 - Google Patents
拾音方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113496708A CN113496708A CN202010270764.8A CN202010270764A CN113496708A CN 113496708 A CN113496708 A CN 113496708A CN 202010270764 A CN202010270764 A CN 202010270764A CN 113496708 A CN113496708 A CN 113496708A
- Authority
- CN
- China
- Prior art keywords
- target
- audio signal
- calculating
- final pointing
- directional gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 230000005236 sound signal Effects 0.000 claims abstract description 273
- 238000001914 filtration Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000004590 computer program Methods 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 description 47
- 238000004891 communication Methods 0.000 description 34
- 230000006854 communication Effects 0.000 description 34
- 238000007726 management method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000010295 mobile communication Methods 0.000 description 11
- 210000000988 bone and bone Anatomy 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000012546 transfer Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 102000003712 Complement factor B Human genes 0.000 description 5
- 108090000056 Complement factor B Proteins 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/03—Constructional features of telephone transmitters or receivers, e.g. telephone hand-sets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例提供一种拾音方法、装置和电子设备,方法中,获取M个麦克风拾取到的M个通道的音频信号,M个麦克风是电子设备内置的麦克风,M≥3,根据预设的至少两个目标方向以及每个目标方向的空间滤波器,对音频信号进行空间滤波处理,得到每个目标方向上的音频信号,根据每个目标方向上的音频信号计算每个目标方向上的方向性增益并获取最终指向方向上的音频信号,根据每个目标方向上的方向性增益以及最终指向方向上的音频信号计算得到目标音频信号,从而能够基于电子设备内置的麦克风,实现对最终指向方向的方向性拾音,对非最终指向方向的声音进行有效抑制,具有高指向性。
Description
技术领域
本申请涉及智能终端技术领域,特别涉及一种拾音方法、装置和电子设备。
背景技术
在很多应用场景下,人们需要使用电子设备例如手机、平板、智能穿戴设备、机器人等对目标声源发出的声音(也即目标音频信号)进行拾音。这样的应用场景包括但不限于:使用电子设备进行现场录音、生活录像、音视频直播、远程通话或会议、k歌、语音对讲等,或者使用电子设备中的语音输入法、或者智能语音助手等。
但是,由于电子设备所处环境中声学环境的复杂性,电子设备在拾音时往往需要面对来自声学环境的干扰和影响。举例来说,如果在地铁、餐馆、娱乐场所、办公室等环境下电子设备对某一目标声音进行拾音,来自四面八方的环境背景噪声会直接影响电子设备拾取到的声音中目标声音的清晰度和方位感;如果在人流密集的街道、车厢、或者会议场所等环境下电子设备对某一目标声音进行拾音,电子设备拾取到的声音中会存在近距离的干扰人声,从而影响电子设备的拾音效果,甚至影响实际语音沟通的可懂度;如果在大课堂上课、脱口秀、或者演讲现场等环境下以发言者的声音作为目标声音进行拾音,由于电子设备与发言者的位置相距较远,且目标声音在空间中多次反射,电子设备最终拾取到的声音中目标声音的清晰度低,目标声音的音色也会发生明显的改变。
为了在上述复杂声学环境下提升电子设备的拾音质量,电子设备通常会对自带或者外接的一个或者多个麦克风拾取到的音频信号进行方向性滤波,从而提升目标音频信号的清晰度、自然度,同时抑制干扰声源或者声学环境的负面影响。
目前电子设备进行方向性拾音的一种方法是:在电子设备上额外附加一个或者多个具有不同方向指向性的麦克风例如指向性麦克风、近场麦克风、分布式麦克风等,利用麦克风硬件自身的强指向性实现对真实声场的方向性滤波。但是这种方法所获得的方向性拾音受到外接方向性麦克风设备自身特性的限制,方向性滤波效果差;且,同一麦克风器件高低频方向性差异显著,也会影响方向性滤波的效果。
发明内容
本申请提供了一种拾音方法、装置和电子设备,能够基于电子设备内置的麦克风,实现对指定方向的方向性滤波,对非指定方向的声音进行有效抑制,具有高指向性。
第一方面,本申请提供了一种拾音方法,包括:
获取M个麦克风拾取到的M个通道的音频信号;M个麦克风是电子设备内置的麦克风,M≥3;
根据预设的至少两个目标方向以及每个目标方向的空间滤波器,对音频信号进行空间滤波处理,得到每个目标方向上的音频信号;
根据每个目标方向上的音频信号计算每个目标方向上的方向性增益,并且,根据每个目标方向上的音频信号获取最终指向方向上的音频信号;
根据每个目标方向上的方向性增益以及最终指向方向上的音频信号计算得到目标音频信号。
上述方法能够基于电子设备内置的麦克风,实现对最终指向方向的方向性滤波,对非最终指向方向的声音进行有效抑制,具有高指向性。
其中,根据每个目标方向上的方向性增益以及最终指向方向上的音频信号计算得到目标音频信号,包括:
根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子;
根据最终指向方向上的方向性增益因子以及最终指向方向上的音频信号计算得到目标音频信号。
其中,根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子之前,还包括:
估计M个麦克风之间扩散性声场成分出现的概率;
相应的,根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子,包括:
根据每个目标方向上的方向性增益以及估计得到的概率计算最终指向方向上的方向性增益因子。
对于方向性拾音来说,扩散性声场成分不存在方向性拾音所需要的方向性成分,通过上述步骤的执行可以尽可能的滤除扩散性声场成分。
其中,根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子,包括:
从目标方向中选择与最终指向方向夹角最小的目标方向;
根据每个目标方向上的方向性增益计算得到选择的目标方向上的方向性增益因子,将计算得到的方向性增益因子作为最终指向方向上的方向性增益因子。
其中,根据每个目标方向上的音频信号获取最终指向方向上的音频信号,包括:
从目标方向中选择与最终指向方向夹角最小的目标方向,将选择的目标方向上的音频信号作为最终指向方向上的音频信号。
其中,根据最终指向方向上的方向性增益因子以及最终指向方向上的音频信号计算得到目标音频信号,包括:
对方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子;
根据控制后的方向性增益因子以及最终指向方向上的音频信号计算得到目标音频信号。
其中,根据预设的至少两个目标方向以及每个目标方向的空间滤波器,对音频信号进行空间滤波处理,得到每个目标方向上的音频信号,包括:
其中,j=1,…,Npr;wm(f,prj)为目标方向prj的空间滤波器对于第m个麦克风的音频信号的第f个频点的滤波器权值;xm(t,f)为第m个麦克风拾取的音频信号,m=1,…,M。
其中,根据每个目标方向上的音频信号计算每个目标方向上的方向性增益,包括:
其中,j=1,…,Npr;y(t,f,prj)为目标方向prj上的音频信号,xq(t,f)为基准麦克风拾取的音频信号,基准麦克风是M个麦克风中的一个麦克风。
第二方面,本申请实施例提供一种拾音方法,包括:
获取M个麦克风拾取到的M个通道的音频信号;M个麦克风是电子设备内置的麦克风,M≥3;
根据预设的至少两个目标区域以及每个目标区域的空间滤波器,对音频信号进行空间滤波处理,得到每个目标区域上的音频信号;目标区域根据方向和距离划分得到;
根据每个目标区域上的音频信号计算每个目标区域上的方向性增益,并且,根据每个目标区域上的音频信号获取最终指向位置上的音频信号;
根据每个目标区域上的方向性增益以及最终指向位置上的音频信号计算得到目标音频信号。
上述方法能够基于电子设备内置的麦克风,实现对最终指向位置的方向性滤波,对非最终指向位置的声音进行有效抑制,具有高指向性。
其中,根据每个目标区域上的方向性增益以及最终指向位置上的音频信号计算得到目标音频信号,包括:
根据每个目标区域上的方向性增益计算最终指向位置上的方向性增益因子;
根据最终指向位置上的方向性增益因子以及最终指向位置上的音频信号计算得到目标音频信号。
其中,根据每个目标区域上的方向性增益计算最终指向位置上的方向性增益因子之前,还包括:
估计M个麦克风之间扩散性声场成分出现的概率;
相应的,根据每个目标区域上的方向性增益计算最终指向位置上的方向性增益因子,包括:
根据每个目标区域上的方向性增益以及估计得到的概率计算最终指向位置上的方向性增益因子。
其中,根据每个目标区域上的方向性增益计算最终指向位置上的方向性增益因子,包括:
从目标区域中选择与最终指向位置距离最小的目标区域;
根据每个目标区域上的方向性增益计算得到选择的目标区域上的方向性增益因子,将计算得到的方向性增益因子作为最终指向位置上的方向性增益因子。
其中,根据每个目标区域上的音频信号获取最终指向位置上的音频信号,包括:
从目标区域中选择与最终指向位置距离最小的目标区域,将选择的目标区域上的音频信号作为最终指向位置上的音频信号。
其中,根据最终指向位置上的方向性增益因子以及最终指向位置上的音频信号计算得到目标音频信号,包括:
对方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子;
根据控制后的方向性增益因子以及最终指向位置上的音频信号计算得到目标音频信号。
其中,根据预设的至少两个目标区域以及每个目标区域的空间滤波器,对音频信号进行空间滤波处理,得到每个目标区域上的音频信号,包括:
其中,j=1,…,Npr;wm(f,prj)为目标区域prj的空间滤波器对于第m个麦克风的音频信号的第f个频点的滤波器权值;xm(t,f)为第m个麦克风拾取的音频信号,m=1,…,M。
其中,根据每个目标区域上的音频信号计算每个目标区域上的方向性增益,包括:
其中,j=1,…,Npr;y(t,f,prj)为目标区域prj上的音频信号,xq(t,f)为基准麦克风拾取的音频信号,基准麦克风是M个麦克风中的一个麦克风。
第三方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行第一方面的方法。
第四方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行第二方面的方法。
第五方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第一方面的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第二方面的方法。
第七方面,本申请提供一种计算机程序,当计算机程序被计算机执行时,用于执行第一方面或第二方面的方法。
在一种可能的设计中,第七方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上,也可以部分或者全部存储在不与处理器封装在一起的存储器上。
附图说明
图1A为手机的麦克风布局示例图;
图1B为手机的一种麦克风布局示例图;
图1C为手机的三维坐标系建立方法示例图;
图2为本申请拾音方法一个实施例的流程图;
图3A为本申请拾音方法另一个实施例的流程图;
图3B为本申请拾音方法流程示意图;
图4A为本申请实施例目标方向示例图;
图4B为本申请实施例空间位置采样示例图;
图4C为本申请实施例水平方向角和俯仰角示例图;
图4D为本申请实施例目标方向上的方向性增益示例图;
图4E为本申请实施例最终指向方向的方向性因子、非最终指向方向的方向性因子、以及最终指向方向上的方向性增益因子示例图;
图5为本申请拾音装置一个实施例的结构示意图;
图6为本申请电子设备一个实施例的结构示意图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请实施例提出一种拾音方法、装置和电子设备,能够基于电子设备内置的麦克风,实现对指定方向的方向性拾音,对非指定方向的声音进行有效抑制,具有高指向性。
本申请实施例中,电子设备内置的麦克风的数量可以为3个或3个以上,本申请实施例设电子设备内置的麦克风的总数量为M个,M≥3。以下,以手机为例对电子设备中麦克风的布局进行示例性说明,参见图1A所示,通常手机顶部和底部都会存在1~2个麦克风,以对来自顶部和底部方向的声源进行区分,如麦克风1、4和麦克风2、6的布局方式;而在一些手机的参考布局中,还会在手机外拍或自拍摄像头附近布局若干麦克风,以增强对手机前后半球面的空间区分能力,如麦克风3、5的布局方式;而在手机的顶部(或者底部)同时布局两个麦克风可以进一步提升手机对来自不同高度声源的区分能力。需要说明的是,以上的麦克风布局仅为示例,本申请实施例拾音方法仅要求电子设备内置至少3个麦克风,对麦克风在电子设备上的布局并无要求。在一种可能的实现方式中,电子设备中可以设置图1B中所示的位于手机底部的麦克风1、位于手机顶部的麦克风2、以及位于手机背部摄像头附近的麦克风3共3个麦克风作为内置的麦克风;对于不按照图1A所示方式布局麦克风的电子设备,本申请实施例拾音方法在适当模糊部分方向或区域的空间解析力的条件下也可以实现方向性拾音。
以下说明电子设备的三维坐标系一种可能的建立方法,以下本申请实施例的说明中与三维坐标系相关的描述可以以该三维坐标系为依据。具体的,以电子设备为手机为例,参见图1C所示,分别以手机横屏状态下的正视图、以及俯视图(图中的z轴未示出)为例说明手机三维坐标系的建立方法,具体的:可以以手机的几何中心点作为原点,以手机横屏状态下经过原点指向手机顶部中心点的方向,也即水平向右的方向为x轴正方向,经过原点指向手机背面中心点的方向,也即水平向后的方向为y轴正方向,经过原点垂直向上的方向为z轴正方向。其中,手机的正面一般是具有显示屏的一面,手机的背面是与手机正面相对的一面。
以下对本申请拾音方法进行示例性说明。
图2为本申请拾音方法一个实施例的流程图,如图2所示,该方法可以包括:
步骤201:电子设备获取M个麦克风拾取到的M个通道的音频信号;
步骤202:电子设备根据预设的至少两个目标方向以及每个目标方向的空间滤波器,对上述音频信号进行空间滤波处理,得到每个目标方向上的音频信号;
步骤203:电子设备根据每个目标方向上的音频信号计算每个目标方向上的方向性增益,并且,根据每个目标方向上的音频信号获取最终指向方向上的音频信号;
步骤204:电子设备根据每个目标方向上的方向性增益以及最终指向方向上的音频信号计算得到目标音频信号。
其中,最终指向方向可以为:与目标声源相关的方向;可选地,最终指向方向可以是目标方向中的一个方向。
图2所示的方法中,电子设备根据预设的至少两个目标方向以及每个目标方向的空间滤波器,对音频信号进行空间滤波处理,得到每个目标方向上的音频信号,根据每个目标方向上的音频信号计算每个目标方向上的方向性增益,根据每个目标方向上的方向性增益以及最终指向方向上的音频信号计算得到目标音频信号,从而得到的目标音频信号是最终指向方向上的目标音频信号,有效的抑制了非最终指向方向上的音频信号,使得该拾音方法具有高指向性。
以下通过图3对上述拾音方法进行示例性说明。
图3A为本申请拾音方法一个实施例的流程图,图3B为该流程图的另一种示意图,结合图3A和图3B所示,该方法可以包括:
步骤301:电子设备中预先设置Npr个目标方向prj,i=1,…,Npr,以及每个目标方向prj的空间滤波器w(prj)。
其中,Npr≥2,Npr的具体取值本申请实施例不限定。目标方向可以根据方向对电子设备周边的空间进行划分。举例来说,
如果Npr取值为2,参见图4A所示的目标方向示例图,以电子设备是手机为例,且图4A中为手机横屏状态下的俯视图,麦克风1位于手机底部,麦克风2位于手机顶部,麦克风3位于手机背部,目标方向pr1可以为y轴正方向,也即指向手机后置摄像头方向,目标方向pr2可以为y轴负方向,也即指向屏幕自拍方向;
如果Npr取值大于2,则在图4A所示目标方向pr1和pr2的基础上,可以进一步增加新的目标方向,例如如果Npr取值为4,参见图4A所示的目标方向示例图,在上述目标方向pr1和目标方向pr2的基础上,目标方向pr3可以为x轴正方向,也即指向手机顶部的方向,目标方向pr4可以为x轴负方向,也即指向手机底部的方向。
以下,对于每个目标方向prj的空间滤波器w(prj)的获取方法进行说明:
首先,以空间非均匀采样的方式采样电子设备周边的Npos个空间位置,获取每个空间位置到每个麦克风相对于该空间位置到基准麦克风的空间相对传递函数。基准麦克风是M个麦克风中的一个麦克风。
其中,Npos的具体取值、以及Npos个空间位置的具体采样位置,本申请实施例不作限定,可选地,Npos可以大于等于Npr。例如,如果拾音方法中更关心水平方向上声源的方向性差异,参见图4B所示,可以基于空间非均匀采样的方式选取XOY平面上r={0.5m,1m,1.5m},θ={0°,10°,20°,…,340°,350°},的共108个空间位置,从而得到这108个空间位置中每个空间位置的空间相对传递函数。需要说明的是,由于采样的空间位置过多,图4B仅为示意图,并未示出全部108个采样的空间位置。
其中,每个空间位置到每个麦克风相对于该空间位置到基准麦克风的空间相对传递函数的获得方法如下:
将Npos个空间位置中第i个空间位置记为:pi,i=1,…,Npos;对于空间位置pi:
20Hz~20kHz频率范围的扫频信号等,从M个麦克风中选取一个麦克风作为基准麦克风,假设基准麦克风为第q个麦克风,q可以为1~M中的任意值;则,该空间位置pi处的点声源到第m个麦克风相对于该点声源到基准麦克风(也即第q个麦克风)的空间相对传递函数H(f,m,pi)可以使用如下公式计算:
其中,电子设备上第m个麦克风拾取到的该点声源的音频信号的时频域表达可以表示为{xm(t,f,pi);m=1,2,…,M},t为时间序号,f为频点序号,M为电子设备上内建麦克风的总数量,(.)H表示复共轭操作,ri,θi,分别表示空间位置pi到电子设备的几何中心点o的距离、水平方向角和俯仰角。参见图4C所示,水平方向角θi是指:电子设备的几何中心点o指向空间位置pi的射线在XOY平面上投影的射线与Y轴正方向的夹角;俯仰角是指:电子设备的几何中心点o指向空间位置pi的射线与该射线在XOY平面上投影的射线之间的夹角。
空间位置pi的点声源到第m个麦克风相对于该点声源到基准麦克风的空间相对传递函数H(f,m,pi)也即为:空间位置pi到第m个麦克风相对于该空间位置pi到基准麦克风的空间相对传递函数H(f,m,pi)。
其次,根据获取到的每个空间位置到每个麦克风相对于该空间位置到基准麦克风的空间相对传递函数,设置Npr个目标方向中每个目标方向的空间滤波器,每个空间滤波器中包括:该空间滤波器针对于每个麦克风拾取的音频信号的每个频点的权值。其中,可以将目标方向prj的空间滤波器记为:w(prj),j=1,…,Npr,空间滤波器w(prj)针对于第m个麦克风拾取的音频信号的第f个频点的权值记为:wm(f,prj)。具体的,每个空间滤波器针对于每个麦克风拾取的音频信号的每个频点的权值的获得方法如下:
在一种可能的实现方式中,步骤301中预设的空间滤波器可以利用线性滤波的方式来区分来自实际空间中不同方向的声音,假设对于Npr个目标方向中的一个目标方向prj,j=1,…,Npr,目标方向prj的空间滤波器w(prj)输出的音频信号y(t,f,prj)可以通过以下公式计算:
其中,wm(f,prj)可以采用如下准则设计:
其中,B(t,f,prj,pi)定义为目标方向prj的空间滤波器w(f,prj)针对不同空间位置pi上的方向性增益函数实际值,即:
基于以上的方法,可以计算得到每个目标方向上的空间滤波器针对于每个麦克风拾取的音频信号的每个频点的权值。
方向性增益函数实际值的数值越大表示来自于空间位置pi的声音会更多地保留在空间滤波器w(f,prj)的输出信号中,数值越小则表示来自于空间位置pi的声音会被空间滤波器w(f,prj)所抑制;
D(B(t,f,prj,pi),Bg(t,f,prj,pi))为方向性增益函数实际值B(t,f,prj,pi)与方向性增益函数期望值Bg(t,f,prj,pi)之间的距离,如欧式距离、绝对值等,p(.)为空间滤波器w(f,prj)的惩罚函数,用以保证空间滤波后目标方向声源无失真,且不出现白噪声增益放大等问题,γ为惩罚因子。惩罚因子γ的具体取值本申请实施例不作限定,例如γ的取值可以为区间[0.1,5]中的一个数值。方向性增益函数期望值Bg(t,f,prj,pi)的形状可以根据实际需要进行设计,常见的形状可以包括但不限于三维余弦窗、矩形窗或梯形窗等。
步骤302:电子设备获取M个麦克风拾取到的M个通道的音频信号X。
其中,M个通道的音频信号的时频域表达式可以为:X={xm(t,f);m=1,2,…,M};
步骤303:电子设备根据预设的Npr个目标方向以及每个目标方向的空间滤波器,对音频信号X进行空间滤波处理,得到每个目标方向上的音频信号。
其中,本步骤中得到的音频信号的数量与目标方向的数量一致,为Npr个。
步骤304:根据每个目标方向上的音频信号以及基准麦克风拾取的音频信号计算每个目标方向上的方向性增益。
其中,xq(t,f)为基准麦克风拾取的音频信号。
通过步骤301~步骤304,通过预设的空间滤波器将电子设备内建麦克风拾取到的音频信号X沿不同目标方向prj进行增强,从而获得每个目标方向prj上的音频信号y(t,f,prj)和方向性增益B(t,f,prj)。参见图4D所示,以图4B所示的4个目标方向为例,可以得到各个目标方向上的方向性增益B(t,f,prj)如图4D中虚线所示。
以下,通过步骤305~步骤308对步骤204的可能实现进行示例性说明。
步骤305:电子设备估计M个麦克风之间扩散性声场成分出现的概率。
步骤305在步骤302之后执行,与步骤303~步骤304之间的执行顺序不限制。
本步骤可以包括:
对于M个麦克风中任意两个麦克风l、k组成的麦克风对,根据两个麦克风l、k分别拾取到的音频信号计算该麦克风对在扩散性声场中的空间相关性Cdiffuse(f,rl,k);l≠k;l=1,2,…,M;k=1,2,…,M。
根据该麦克风对的空间相关性Cdiffuse(f,rl,k)以及空间相干函数Cl,k(f)计算该麦克风对的两个麦克风l、k之间扩散性声场成分出现的概率Pdiffuse,l,k(t,f),以下称为麦克风对对应的扩散性声场成分出现的概率;
根据M个麦克风中所有麦克风对对应的扩散性声场成分出现的概率计算M个麦克风之间扩散性声场成分出现的概率Pdiffuse(t,f)。
其中,麦克风l、k在扩散性声场中的空间相关性计算公式可以为:
其中,c为声速,rl,k为麦克风l、k之间的距离。
其中,可以根据所有麦克风对对应的扩散性声场成分出现的概率计算平均值或者取其中的最大值,得到M个麦克风之间扩散性声场成分出现的概率Pdiffuse(t,f)。
其中,扩散性声场成分通常可以满足以下三个条件:
(1)声场所携带的声能向各个方向传播的概率相同;
(2)由各个方向传播过来的声音互不相干,叠加后相位变化成无规律性;
(3)空间平均声能密度处处相同。
电子设备估计扩散性声场成分出现的概率的原因在于,对于方向性拾音来说,扩散性声场成分不存在方向性拾音所需要的方向性成分,因此在实际设计方案中应尽可能的滤除。
其中,步骤305为可选步骤。
步骤306:电子设备获取最终指向方向,根据每个目标方向上的方向性增益以及估计得到的扩散性声场成分出现的概率计算最终指向方向上的方向性增益因子。
其中,最终指向方向一般是拾音的目标声源相关的方向,优选地,可以是目标声源所在的方向。最终指向方向可以由电子设备实时选择、或者预先设置、或者由用户直接指定。具体的,电子设备可以基于M个麦克风拾取的音频信号确定该最终指向方向,或者,如果该拾音方法应用于录像等场景下,还可以进一步基于电子设备录像中获得的图像确定该最终指向方向;或者,电子设备中也可以预先设置某一个方向作为最终指向方向;或者,也可以由用户在拾音过程中自主制定一个方向作为最终指向方向。
其中,最终指向方向上的方向性增益因子的计算公式可以为:
G(t,f)=f(B(t,f,prj),Pdiffuse(t,f),pfinal);
如果步骤305不执行,则本步骤中可以根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子,计算公式可以为:G(t,f)=f(B(t,f,prj),pfinal)。
其中,f(.)为非线性融合函数。
在一种可能的实现方式中,f(.)可以利用数据增强配合机器学习的方式获得。具体的,利用步骤301中测量获得的空间相对传递函数H(f,m,pi)来在空间中模拟任意pm个不同空间位置的点声源同时发声场景下,pm≤Npos,M个麦克风中第m个麦克风拾取到的音频信号xpoint(t,f,m)可以为:
其中,m=1,…,M;xm′(t,f,pi)表示空间位置pi处的点声源发声时,第m个麦克风拾取到的音频信号的时频域表达式;xq′(t,f,pi)表示空间位置pi处的点声源发声时,第q个麦克风(也即基准麦克风)拾取到的音频信号的时频域表达式。
而扩散场声源可以用步骤301中采样过的Npos个空间位置的点声源同步发出同声能不相干信号的方式进行模拟,M个麦克风中第m个麦克风拾取到的音频信号xdiffuse(t,f,m)可以为:
其中,m=1,…,M;xm″(t,f,pi)表示空间位置pi处的点声源发声时,第m个麦克风拾取到的音频信号的时频域表达式;xq″(t,f,pi)表示空间位置pi处的点声源发声时,第q个麦克风(也即基准麦克风)拾取到的音频信号的时频域表达式。
假设最终指向方向为pfinal,则该方向上声源在没有混响没有干扰的情况下M个麦克风中第m个麦克风拾取到的信号可以为:
xtarget(t,f,m)=H(f,m,pfinal)xq(t,f,pfinal);m=1,…,M;
那么基于上述模拟数据,可以假设最终指向方向pfinal的理想方向性增益因子G可以由理想比例掩蔽值给出:
理想方向性增益因子也可以采用其他的方式给出,例如理想二值化掩蔽值、相位相关比例掩蔽值、或者复数掩蔽值(直接就最终指向方向上声源频谱的xtarget(t,f,m)实部虚部分别求取掩蔽值得到)等。而最终非线性融合函数f(.)需要在某种代价函数最小的条件下使得方向性增益因子估计值G(t,f)=f(B(t,f,prj),Pdiffuse(t,f),pfinal)与理想值Gideal(t,f)最接近。基于以上的方法,即可以得到非线性融合函数f(.)。
在使用上述非线性融合函数f(.)时,最终指向方向可以是从电子设备的中心点指向任意方向,例如可以为拾音中目标声源所在的方向,也可以为预设的某一方向。
在另一种可能的实现方式中,f(.)可以利用人为设定的规则来实现。具体的,
首先,从目标方向中找出与最终指向方向pfinal夹角最小的目标方向pt,将与最终指向方向pfinal夹角最小的目标方向pt的空间滤波器设为wtarget,m(f),其对应的方向性因子为Btarget(t,f)。这里的方向性因子描述了随声源方向的变化,空间滤波器输出信号相对能量水平,声源方向与空间滤波器目标方向夹角越小方向性因子的值越大,夹角越大方向性因子的值越小。对于不同时频点,其所包含声源的方向与目标声源方向夹角越小,则方向性因子Btarget(t,f)的数值越大;相反的,若夹角偏离目标声源方向越明显,则方向性因子数值越小。同时,将除此之外的其他空间滤波器的方向性因子进行融合,获得非最终指向方向的方向性因子Bnon_target(t,f),其获得的空间指向性对最终指向方向pfinal形成抑制。对于不同时频点,其所包含声源的方向与目标声源方向夹角越大,则非最终指向方向的方向性因子Bnon_target(t,f)的数值越大。常见的Bnon_target(t,f)融合方式如下所示,
在某些应用场景中,为了使得最终指向方向和非最终指向方向之间方向性因子区分性更大,可以在三维空间/区域划分中减少最终指向方向附近的空间采样密度,甚至仅将三维空间划分为目标声源方向及其反方向两个区域。这样的方式能够防止由于电子设备本身麦克风数目不够或者拓扑结构不均匀所导致的最终方向性拾音方法空间指向性不对称或者出现音色改变等问题。
获得Btarget(t,f)和Bnon_target(t,f)两个方向性因子后,首先对其进行动态范围的修正,防止空间滤波器非最优设计导致的部分方向过度抑制等问题,减少最终方向性拾音方法引起的失真。本发明可以采用sigmod函数、relu函数、或者分段线性函数等实现方向性因子动态范围修正,如下所示。
B′(t,f)=min(aB(t,f)+b,Bmin)
其中,B(t,f)包含了Btarget(t,f)和Bnon_target(t,f)两个方向性因子。接下来,这两个方向性因子与扩散性声场成分出现的概率Pdiffuse(t,f)进行再融合,以期获得面向最终指向方向pfinal更高指向性的方向性增益因子G。本发明采用如下方式获得G:
其中,eps为极小的正数,g(Pdiffuse(t,f))是扩散声场抑制函数,若在电子设备拾取的音频信号中扩散性声场成分出现的概率Pdiffuse(t,f)较高,则对该时频点进行大幅度的抑制;若方向性声源作为主要音频信号则g(Pdiffuse(t,f))近似等于1,即不做抑制。上述扩散声场抑制函数本申请实施例不限定,例如可以通过传统谱减、维纳滤波、线性约束最小二乘、或者归一化特征值分解等方法实现。
在使用该非线性融合函数f(.)时,本步骤具体可以包括:电子设备从目标方向中选择与最终指向方向夹角最小的目标方向作为指定目标方向;根据每个目标方向上的方向性增益、以及估计得到的扩散性声场成分出现的概率计算指定目标方向上的方向性增益因子。计算得到的指定目标方向上的方向性增益因子作为上述最终指向方向上的方向性增益因子。
可选地,由于本申请实施例中需要根据最终指向方向选择指定目标方向,因此,也可以限定最终指向方向是目标方向中的一个目标方向,此时最终指向方向与指定目标方向重合。
延续前述步骤中的举例,假设最终指向方向为pr1,其对应的方向性增益即最终指向方向的方向性因子Btarget(t,f),而pr2、pr3、pr4三个方向的空间滤波器生成的方向性增益进行融合,形成非最终指向方向的方向性因子Bnon_target(t,f)。最终指向方向pfinal上的方向性增益因子如下式所示:
若不加入扩散性声场成分出现的概率Pdiffuse(t,f)这一因素,则可以采用以下公式计算最终指向方向pfinal上的方向性增益因子:
参见图4E所示,为最终指向方向为pr1时,最终指向方向的方向性因子、非最终指向方向的方向性因子、以及最终指向方向pfinal上的方向性增益因子示例图。
步骤307:电子设备对最终指向方向的方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子。
面向目标方向的更高指向的方向性因子G,该因子可以作为对每个时频点所包含声源的方向性增益函数,直接作用到麦克风采集到的音频信号或者空间滤波器输出的音频信号上,实现高指向性的方向性拾音。然而,在时频点间方向性因子变化频率过快或者变化幅度过大都会引起方向性拾音处理后重建音频听感不自然的问题。本申请实施例可以采用时频平滑方式的安全网策略,具体的:对音频信号按照人耳听觉特性进行频域子带重新划分,对每个子带内各个时频点方向性因子G(t,f)进行统计,将最终的统计量作为该子带的方向性因子,利用谱减或者维纳滤波的方式构建平滑后的方向性增益函数,以实现高指向性的方向性拾音。上述统计量包含但不限于平均滤波、中值滤波、取最大值或最小值、时频域二维滤波或平滑等。
此外,由于麦克风布局需要考虑电子设备的外观设计合理性,并不能采用具有均匀空间排布的最优拓扑结构,这也会造成拾音重建后音频高频成分出现方向性混叠,即方向性因子与真实声源实际位置不相关。为了改善高频区域的方向性,本申请实施例可以引入增益控制机制,具体的:设定方向性滤波能够处理的音频频率范围上限fh,对于高于该上限值的高频成分,其方向性因子G(t,f)设为某一个中频段[fl,fh]方向性因子的平均值,即:
通过本步骤的处理,可以防止时频点间方向性增益变化频率过快或变化幅度过大引起听感的失真;同时,利用额外的增益控制机制,来修正高频方向性增益,防止这些频段受到非最优化麦克风布局影响形成方向性偏差。
步骤307为可选步骤。
步骤308:电子设备获取最终指向方向上的音频信号,根据控制后的方向性增益因子、以及最终指向方向上的音频信号计算得到目标音频信号。
其中,电子设备获取最终指向方向上的音频信号可以包括:电子设备获取目标方向中与最终指向方向夹角最小的目标方向,将该目标方向上的音频信号作为最终指向方向上的音频信号。
其中,假设与最终指向方向夹角最小的目标方向为pt,则目标音频信号可以为:
本步骤中获得的方向性增益因子将作用在与最终指向方向夹角最小的目标方向上的音频信号,以实现高指向性的方向性拾音效果。
在另一种可能的实现方式中,可以在图2和图3A所示的本申请实施例依据方向划分目标方向的基础上,增加距离这一划分维度,从而将电子设备周围的空间依照方向和距离两个维度划分为目标区域。需要说明的是,本申请实施例以方向和距离两个维度来划分得到的目标区域,目标区域之间可以没有除方向和距离以外的边界。
对目标区域的划分举例说明:如果以方向和距离来划分目标区域,可以在图4A所示不同目标方向上增加距离这一维度的划分标准,具体的,例如对于图4A中的目标方向pr1,其对应的方向为y轴正方向,可以在y轴正方向的基础上增加距离维度,例如边界值为1m,则目标方向pr1进一步被划分为2个目标区域,这两个目标区域分别包含方向和距离两个维度,具体的,一个目标区域可以为(y轴正方向,(0,1m)),一个目标区域可以为(y轴正方向,[1m,∞))。这里的距离可以是空间中的位置到电子设备的中心点(也即坐标系原点)的距离。
在将电子设备周围的空间划分为目标区域时的本申请实施例拾音方法中,可以将图2和图3A所示本申请实施例拾音方法中的目标方向替换为上述目标区域,区别仅在于,由于增加了距离这一维度,步骤306~步骤308中最终指向方向也增加距离维度,变为最终指定位置;
相应的,上述的电子设备获取目标方向中与最终指向方向夹角最小的目标方向,可以替换为:电子设备获取目标区域中与最终指定位置距离最小的目标区域。
可以理解的是,上述实施例中的部分或全部步骤骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
图5为本申请装置一个实施例的结构示意图,如图5所示,该装置50可以包括:获取单元51、滤波单元52以及计算单元53。
在一种可能的实现方式中:
获取单元51,用于获取M个麦克风拾取到的M个通道的音频信号;M个麦克风是电子设备内置的麦克风,M≥3;
滤波单元52,用于根据预设的至少两个目标方向以及每个目标方向的空间滤波器,对音频信号进行空间滤波处理,得到每个目标方向上的音频信号;
计算单元53,用于根据每个目标方向上的音频信号计算每个目标方向上的方向性增益,并且,根据每个所述目标方向上的音频信号获取最终指向方向上的音频信号,根据每个目标方向上的方向性增益以及最终指向方向上的音频信号计算得到目标音频信号。
其中,计算单元53具体可以用于:
根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子;
根据最终指向方向上的方向性增益因子以及最终指向方向上的音频信号计算得到目标音频信号。
其中,计算单元53还可以用于:估计M个麦克风之间扩散性声场成分出现的概率;根据每个目标方向上的方向性增益以及估计得到的概率计算最终指向方向上的方向性增益因子。
其中,计算单元53具体可以用于:从目标方向中选择与最终指向方向夹角最小的目标方向;根据每个目标方向上的方向性增益计算得到选择的目标方向上的方向性增益因子,将计算得到的方向性增益因子作为最终指向方向上的方向性增益因子。
其中,计算单元53具体可以用于:从目标方向中选择与最终指向方向夹角最小的目标方向,将选择的目标方向上的音频信号作为最终指向方向上的音频信号。
其中,计算单元53具体可以用于:
对方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子;
根据控制后的方向性增益因子以及最终指向方向上的音频信号计算得到目标音频信号。
其中,滤波单元52具体可以用于:
其中,j=1,…,Npr;wm(f,prj)为目标方向prj的空间滤波器对于第m个麦克风的音频信号的第f个频点的滤波器权值;xm(t,f)为第m个麦克风拾取的音频信号,m=1,…,M。
其中,j=1,…,Npr;y(t,f,prj)为目标方向prj上的音频信号,xq(t,f)为基准麦克风拾取的音频信号,基准麦克风是M个麦克风中的一个麦克风。
在另一种可能的实现方式中:
获取单元51,用于获取M个麦克风拾取到的M个通道的音频信号;所述M个麦克风是电子设备内置的麦克风,M≥3;
滤波单元52,用于根据预设的至少两个目标区域以及每个所述目标区域的空间滤波器,对所述音频信号进行空间滤波处理,得到每个所述目标区域上的音频信号;所述目标区域根据方向和距离划分得到;
计算单元53,用于根据每个所述目标区域上的音频信号计算每个所述目标区域上的方向性增益,根据每个所述目标区域上的音频信号获取最终指向位置上的音频信号,根据每个所述目标区域上的方向性增益以及所述最终指向位置上的音频信号计算得到目标音频信号。
其中,计算单元53具体可以用于:根据每个所述目标区域上的方向性增益计算所述最终指向位置上的方向性增益因子;根据所述最终指向位置上的方向性增益因子以及所述最终指向位置上的音频信号计算得到所述目标音频信号。
其中,计算单元53还可以用于:估计M个麦克风之间扩散性声场成分出现的概率;相应的,所述根据每个所述目标区域上的方向性增益计算所述最终指向位置上的方向性增益因子,包括:
根据每个所述目标区域上的方向性增益以及估计得到的所述概率计算所述最终指向位置上的方向性增益因子。
其中,计算单元53具体可以用于:从所述目标区域中选择与所述最终指向位置距离最小的目标区域;根据每个所述目标区域上的方向性增益计算得到选择的所述目标区域上的方向性增益因子,将计算得到的方向性增益因子作为所述最终指向位置上的方向性增益因子。
其中,计算单元53具体可以用于:从所述目标区域中选择与所述最终指向位置距离最小的目标区域,将选择的所述目标区域上的音频信号作为所述最终指向位置上的音频信号。
其中,计算单元53具体可以用于:对所述方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子;根据所述控制后的方向性增益因子以及所述最终指向位置上的音频信号计算得到所述目标音频信号。
其中,滤波单元52具体可以用于:
其中,j=1,…,Npr;wm(f,prj)为目标区域prj的空间滤波器对于第m个麦克风的音频信号的第f个频点的滤波器权值;xm(t,f)为第m个麦克风拾取的音频信号,m=1,…,M。
其中,j=1,…,Npr;y(t,f,prj)为目标区域prj上的音频信号,xq(t,f)为基准麦克风拾取的音频信号,所述基准麦克风是M个麦克风中的一个麦克风。
图5所示实施例提供的装置可用于执行本申请图2~图3A所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图5所示装置的各个单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元通过硬件的形式实现。例如,滤波单元可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些单元可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
图6为本申请电子设备一个实施例的结构示意图,如图6所示,上述电子设备可以包括:一个或多个处理器;存储器;以及一个或多个计算机程序。
其中,上述电子设备可以为移动终端(手机),智慧屏,无人机,智能网联车(Intelligent Connected Vehicle;以下简称:ICV),智能(汽)车(smart/intelligentcar)或车载设备等设备。
在一种可能的实现方式总,其中上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备执行以下步骤:
获取M个麦克风拾取到的M个通道的音频信号;M个麦克风是电子设备内置的麦克风,M≥3;
根据预设的至少两个目标方向以及每个目标方向的空间滤波器,对音频信号进行空间滤波处理,得到每个目标方向上的音频信号;
根据每个目标方向上的音频信号计算每个目标方向上的方向性增益,并且,根据每个目标方向上的音频信号获取最终指向方向上的音频信号;
根据每个目标方向上的方向性增益以及最终指向方向上的音频信号计算得到目标音频信号。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标方向上的方向性增益以及最终指向方向上的音频信号计算得到目标音频信号的步骤包括:
根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子;
根据最终指向方向上的方向性增益因子以及最终指向方向上的音频信号计算得到目标音频信号。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子的步骤之前,还执行以下步骤:
估计M个麦克风之间扩散性声场成分出现的概率;
相应的,当上述指令被上述设备执行时,使得上述设备执行根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子的步骤包括:
根据每个目标方向上的方向性增益以及估计得到的概率计算最终指向方向上的方向性增益因子。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标方向上的方向性增益计算最终指向方向上的方向性增益因子的步骤包括:
从目标方向中选择与最终指向方向夹角最小的目标方向;
根据每个目标方向上的方向性增益计算得到选择的目标方向上的方向性增益因子,将计算得到的方向性增益因子作为最终指向方向上的方向性增益因子。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标方向上的音频信号获取最终指向方向上的音频信号的步骤包括:
从目标方向中选择与最终指向方向夹角最小的目标方向,将选择的目标方向上的音频信号作为最终指向方向上的音频信号。
其中,当上述指令被上述设备执行时,使得上述设备执行根据最终指向方向上的方向性增益因子以及最终指向方向上的音频信号计算得到目标音频信号的步骤包括:
对方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子;
根据控制后的方向性增益因子以及最终指向方向上的音频信号计算得到目标音频信号。
其中,当上述指令被上述设备执行时,使得上述设备执行根据预设的至少两个目标方向以及每个目标方向的空间滤波器,对音频信号进行空间滤波处理,得到每个目标方向上的音频信号的步骤包括:
其中,j=1,…,Npr;wm(f,prj)为目标方向prj的空间滤波器对于第m个麦克风的音频信号的第f个频点的滤波器权值;xm(t,f)为第m个麦克风拾取的音频信号,m=1,…,M。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标方向上的音频信号计算每个目标方向上的方向性增益的步骤包括:
其中,j=1,…,Npr;y(t,f,prj)为目标方向prj上的音频信号,xq(t,f)为基准麦克风拾取的音频信号,基准麦克风是M个麦克风中的一个麦克风。
在另一种可能的实现方式中,其中上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备执行以下步骤:
获取M个麦克风拾取到的M个通道的音频信号;M个麦克风是电子设备内置的麦克风,M≥3;
根据预设的至少两个目标区域以及每个目标区域的空间滤波器,对音频信号进行空间滤波处理,得到每个目标区域上的音频信号;目标区域根据方向和距离划分得到;
根据每个目标区域上的音频信号计算每个目标区域上的方向性增益,并且,根据每个目标区域上的音频信号获取最终指向位置上的音频信号;
根据每个目标区域上的方向性增益以及最终指向位置上的音频信号计算得到目标音频信号。
当上述指令被上述设备执行时,使得上述设备执行根据每个目标区域上的方向性增益以及最终指向位置上的音频信号计算得到目标音频信号的步骤包括:
根据每个目标区域上的方向性增益计算最终指向位置上的方向性增益因子;
根据最终指向位置上的方向性增益因子以及最终指向位置上的音频信号计算得到目标音频信号。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标区域上的方向性增益计算最终指向位置上的方向性增益因子的步骤之前,还执行以下步骤:
估计M个麦克风之间扩散性声场成分出现的概率;
相应的,当上述指令被上述设备执行时,使得上述设备执行根据每个目标区域上的方向性增益计算最终指向位置上的方向性增益因子的步骤包括:
根据每个目标区域上的方向性增益以及估计得到的概率计算最终指向位置上的方向性增益因子。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标区域上的方向性增益计算最终指向位置上的方向性增益因子的步骤包括:
从目标区域中选择与最终指向位置距离最小的目标区域;
根据每个目标区域上的方向性增益计算得到选择的目标区域上的方向性增益因子,将计算得到的方向性增益因子作为最终指向位置上的方向性增益因子。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标区域上的音频信号获取最终指向位置上的音频信号的步骤包括:
从目标区域中选择与最终指向位置距离最小的目标区域,将选择的目标区域上的音频信号作为最终指向位置上的音频信号。
其中,当上述指令被上述设备执行时,使得上述设备执行根据最终指向位置上的方向性增益因子以及最终指向位置上的音频信号计算得到目标音频信号的步骤包括:
对方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子;
根据控制后的方向性增益因子以及最终指向位置上的音频信号计算得到目标音频信号。
其中,当上述指令被上述设备执行时,使得上述设备执行根据预设的至少两个目标区域以及每个目标区域的空间滤波器,对音频信号进行空间滤波处理,得到每个目标区域上的音频信号的步骤包括:
其中,j=1,…,Npr;wm(f,prj)为目标区域prj的空间滤波器对于第m个麦克风的音频信号的第f个频点的滤波器权值;xm(t,f)为第m个麦克风拾取的音频信号,m=1,…,M。
其中,当上述指令被上述设备执行时,使得上述设备执行根据每个目标区域上的音频信号计算每个目标区域上的方向性增益的步骤包括:
其中,j=1,…,Npr;y(t,f,prj)为目标区域prj上的音频信号,xq(t,f)为基准麦克风拾取的音频信号,基准麦克风是M个麦克风中的一个麦克风。
图6所示的电子设备可以用于执行本申请图2~图3A所示实施例提供的方法中的功能/步骤。
电子设备600可以包括处理器610,外部存储器接口620,内部存储器621,通用串行总线(universal serial bus,USB)接口630,充电管理模块640,电源管理模块641,电池642,天线1,天线2,移动通信模块650,无线通信模块660,音频模块670,扬声器670A,受话器670B,麦克风670C,耳机接口670D,传感器模块680,按键690,马达691,指示器692,摄像头693,显示屏694,以及用户标识模块(subscriber identification module,SIM)卡接口695等。其中传感器模块680可以包括压力传感器680A,陀螺仪传感器680B,气压传感器680C,磁传感器680D,加速度传感器680E,距离传感器680F,接近光传感器680G,指纹传感器680H,温度传感器680J,触摸传感器680K,环境光传感器680L,骨传导传感器680M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备600的具体限定。在本申请另一些实施例中,电子设备600可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器610可以包括一个或多个处理单元,例如:处理器610可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器610中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器610中的存储器为高速缓冲存储器。该存储器可以保存处理器610刚用过或循环使用的指令或数据。如果处理器610需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器610的等待时间,因而提高了系统的效率。
在一些实施例中,处理器610可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器610可以包含多组I2C总线。处理器610可以通过不同的I2C总线接口分别耦合触摸传感器680K,充电器,闪光灯,摄像头693等。例如:处理器610可以通过I2C接口耦合触摸传感器680K,使处理器610与触摸传感器680K通过I2C总线接口通信,实现电子设备600的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器610可以包含多组I2S总线。处理器610可以通过I2S总线与音频模块670耦合,实现处理器610与音频模块670之间的通信。在一些实施例中,音频模块670可以通过I2S接口向无线通信模块660传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块670与无线通信模块660可以通过PCM总线接口耦合。在一些实施例中,音频模块670也可以通过PCM接口向无线通信模块660传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器610与无线通信模块660。例如:处理器610通过UART接口与无线通信模块660中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块670可以通过UART接口向无线通信模块660传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器610与显示屏694,摄像头693等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器610和摄像头693通过CSI接口通信,实现电子设备600的拍摄功能。处理器610和显示屏694通过DSI接口通信,实现电子设备600的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器610与摄像头693,显示屏694,无线通信模块660,音频模块670,传感器模块680等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口630是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口630可以用于连接充电器为电子设备600充电,也可以用于电子设备600与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备600的结构限定。在本申请另一些实施例中,电子设备600也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块640用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块640可以通过USB接口630接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块640可以通过电子设备600的无线充电线圈接收无线充电输入。充电管理模块640为电池642充电的同时,还可以通过电源管理模块641为电子设备供电。
电源管理模块641用于连接电池642,充电管理模块640与处理器610。电源管理模块641接收电池642和/或充电管理模块640的输入,为处理器610,内部存储器621,显示屏694,摄像头693,和无线通信模块660等供电。电源管理模块641还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块641也可以设置于处理器610中。在另一些实施例中,电源管理模块641和充电管理模块640也可以设置于同一个器件中。
电子设备600的无线通信功能可以通过天线1,天线2,移动通信模块650,无线通信模块660,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备600中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块650可以提供应用在电子设备600上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块650可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块650可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块650还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块650的至少部分功能模块可以被设置于处理器610中。在一些实施例中,移动通信模块650的至少部分功能模块可以与处理器610的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器670A,受话器670B等)输出声音信号,或通过显示屏694显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器610,与移动通信模块650或其他功能模块设置在同一个器件中。
无线通信模块660可以提供应用在电子设备600上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块660可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块660经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器610。无线通信模块660还可以从处理器610接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备600的天线1和移动通信模块650耦合,天线2和无线通信模块660耦合,使得电子设备600可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备600通过GPU,显示屏694,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏694和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器610可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏694用于显示图像,视频等。显示屏694包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备600可以包括1个或N个显示屏694,N为大于1的正整数。
电子设备600可以通过ISP,摄像头693,视频编解码器,GPU,显示屏694以及应用处理器等实现拍摄功能。
ISP用于处理摄像头693反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头693中。
摄像头693用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备600可以包括1个或N个摄像头693,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备600在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备600可以支持一种或多种视频编解码器。这样,电子设备600可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备600的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口620可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备600的存储能力。外部存储卡通过外部存储器接口620与处理器610通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器621可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器621可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备600使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器621可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器610通过运行存储在内部存储器621的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备600的各种功能应用以及数据处理。
电子设备600可以通过音频模块670,扬声器670A,受话器670B,麦克风670C,耳机接口670D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块670用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块670还可以用于对音频信号编码和解码。在一些实施例中,音频模块670可以设置于处理器610中,或将音频模块670的部分功能模块设置于处理器610中。
扬声器670A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备600可以通过扬声器670A收听音乐,或收听免提通话。
受话器670B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备600接听电话或语音信息时,可以通过将受话器670B靠近人耳接听语音。
麦克风670C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风670C发声,将声音信号输入到麦克风670C。电子设备600可以设置至少一个麦克风670C。在另一些实施例中,电子设备600可以设置两个麦克风670C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备600还可以设置三个,四个或更多麦克风670C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口670D用于连接有线耳机。耳机接口670D可以是USB接口630,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器680A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器680A可以设置于显示屏694。压力传感器680A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器680A,电极之间的电容改变。电子设备600根据电容的变化确定压力的强度。当有触摸操作作用于显示屏694,电子设备600根据压力传感器680A检测所述触摸操作强度。电子设备600也可以根据压力传感器680A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器680B可以用于确定电子设备600的运动姿态。在一些实施例中,可以通过陀螺仪传感器680B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器680B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器680B检测电子设备600抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备600的抖动,实现防抖。陀螺仪传感器680B还可以用于导航,体感游戏场景。
气压传感器680C用于测量气压。在一些实施例中,电子设备600通过气压传感器680C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器680D包括霍尔传感器。电子设备600可以利用磁传感器680D检测翻盖皮套的开合。在一些实施例中,当电子设备600是翻盖机时,电子设备600可以根据磁传感器680D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器680E可检测电子设备600在各个方向上(一般为三轴)加速度的大小。当电子设备600静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器680F,用于测量距离。电子设备600可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备600可以利用距离传感器680F测距以实现快速对焦。
接近光传感器680G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备600通过发光二极管向外发射红外光。电子设备600使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备600附近有物体。当检测到不充分的反射光时,电子设备600可以确定电子设备600附近没有物体。电子设备600可以利用接近光传感器680G检测用户手持电子设备600贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器680G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器680L用于感知环境光亮度。电子设备600可以根据感知的环境光亮度自适应调节显示屏694亮度。环境光传感器680L也可用于拍照时自动调节白平衡。环境光传感器680L还可以与接近光传感器680G配合,检测电子设备600是否在口袋里,以防误触。
指纹传感器680H用于采集指纹。电子设备600可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器680J用于检测温度。在一些实施例中,电子设备600利用温度传感器680J检测的温度,执行温度处理策略。例如,当温度传感器680J上报的温度超过阈值,电子设备600执行降低位于温度传感器680J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备600对电池642加热,以避免低温导致电子设备600异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备600对电池642的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器680K,也称“触控器件”。触摸传感器680K可以设置于显示屏694,由触摸传感器680K与显示屏694组成触摸屏,也称“触控屏”。触摸传感器680K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏694提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器680K也可以设置于电子设备600的表面,与显示屏694所处的位置不同。
骨传导传感器680M可以获取振动信号。在一些实施例中,骨传导传感器680M可以获取人体声部振动骨块的振动信号。骨传导传感器680M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器680M也可以设置于耳机中,结合成骨传导耳机。音频模块670可以基于所述骨传导传感器680M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器680M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键690包括开机键,音量键等。按键690可以是机械按键。也可以是触摸式按键。电子设备600可以接收按键输入,产生与电子设备600的用户设置以及功能控制有关的键信号输入。
马达691可以产生振动提示。马达691可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏694不同区域的触摸操作,马达691也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器692可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口695用于连接SIM卡。SIM卡可以通过插入SIM卡接口695,或从SIM卡接口695拔出,实现和电子设备600的接触和分离。电子设备600可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口695可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口695可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口695也可以兼容不同类型的SIM卡。SIM卡接口695也可以兼容外部存储卡。电子设备600通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备600采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备600中,不能和电子设备600分离。
应理解,图6所示的电子设备600能够实现本申请图2~图3A所示实施例提供的方法的各个过程。电子设备600中的各个模块的操作和/或功能,分别为了实现上述方法实施例中的相应流程。具体可参见本申请图2~图3A所示方法实施例中的描述,为避免重复,此处适当省略详细描述。
应理解,图6所示的电子设备600中的处理器610可以是片上系统SOC,该处理器610中可以包括中央处理器(Central Processing Unit,CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit,GPU)等。
总之,处理器610内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在内部存储器121中。
本申请还提供一种电子设备,所述设备包括存储介质和中央处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述中央处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现本申请图2~图3A所示实施例提供的方法。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请图2~图3A所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请图2~图3A所示实施例提供的方法。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种拾音方法,其特征在于,包括:
获取M个麦克风拾取到的M个通道的音频信号;所述M个麦克风是电子设备内置的麦克风,M≥3;
根据预设的至少两个目标方向以及每个所述目标方向的空间滤波器,对所述音频信号进行空间滤波处理,得到每个所述目标方向上的音频信号;
根据每个所述目标方向上的音频信号计算每个所述目标方向上的方向性增益,并且,根据每个所述目标方向上的音频信号获取最终指向方向上的音频信号;
根据每个所述目标方向上的方向性增益以及所述最终指向方向上的音频信号计算得到目标音频信号。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述目标方向上的方向性增益以及所述最终指向方向上的音频信号计算得到目标音频信号,包括:
根据每个所述目标方向上的方向性增益计算所述最终指向方向上的方向性增益因子;
根据所述最终指向方向上的方向性增益因子以及所述最终指向方向上的音频信号计算得到所述目标音频信号。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述目标方向上的方向性增益计算所述最终指向方向上的方向性增益因子之前,还包括:
估计M个麦克风之间扩散性声场成分出现的概率;
相应的,所述根据每个所述目标方向上的方向性增益计算所述最终指向方向上的方向性增益因子,包括:
根据每个所述目标方向上的方向性增益以及估计得到的所述概率计算所述最终指向方向上的方向性增益因子。
4.根据权利要求2所述的方法,其特征在于,所述根据每个所述目标方向上的方向性增益计算所述最终指向方向上的方向性增益因子,包括:
从所述目标方向中选择与所述最终指向方向夹角最小的目标方向;
根据每个所述目标方向上的方向性增益计算得到选择的所述目标方向上的方向性增益因子,将计算得到的方向性增益因子作为所述最终指向方向上的方向性增益因子。
5.根据权利要求1所述的方法,其特征在于,所述根据每个所述目标方向上的音频信号获取最终指向方向上的音频信号,包括:
从所述目标方向中选择与所述最终指向方向夹角最小的目标方向,将选择的所述目标方向上的音频信号作为所述最终指向方向上的音频信号。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述最终指向方向上的方向性增益因子以及所述最终指向方向上的音频信号计算得到所述目标音频信号,包括:
对所述方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子;
根据所述控制后的方向性增益因子以及所述最终指向方向上的音频信号计算得到所述目标音频信号。
9.一种拾音方法,其特征在于,包括:
获取M个麦克风拾取到的M个通道的音频信号;所述M个麦克风是电子设备内置的麦克风,M≥3;
根据预设的至少两个目标区域以及每个所述目标区域的空间滤波器,对所述音频信号进行空间滤波处理,得到每个所述目标区域上的音频信号;所述目标区域根据方向和距离划分得到;
根据每个所述目标区域上的音频信号计算每个所述目标区域上的方向性增益,并且,根据每个所述目标区域上的音频信号获取最终指向位置上的音频信号;
根据每个所述目标区域上的方向性增益以及所述最终指向位置上的音频信号计算得到目标音频信号。
10.根据权利要求9所述的方法,其特征在于,所述根据每个所述目标区域上的方向性增益以及所述最终指向位置上的音频信号计算得到目标音频信号,包括:
根据每个所述目标区域上的方向性增益计算所述最终指向位置上的方向性增益因子;
根据所述最终指向位置上的方向性增益因子以及所述最终指向位置上的音频信号计算得到所述目标音频信号。
11.根据权利要求10所述的方法,其特征在于,所述根据每个所述目标区域上的方向性增益计算所述最终指向位置上的方向性增益因子之前,还包括:
估计M个麦克风之间扩散性声场成分出现的概率;
相应的,所述根据每个所述目标区域上的方向性增益计算所述最终指向位置上的方向性增益因子,包括:
根据每个所述目标区域上的方向性增益以及估计得到的所述概率计算所述最终指向位置上的方向性增益因子。
12.根据权利要求10所述的方法,其特征在于,所述根据每个所述目标区域上的方向性增益计算所述最终指向位置上的方向性增益因子,包括:
从所述目标区域中选择与所述最终指向位置距离最小的目标区域;
根据每个所述目标区域上的方向性增益计算得到选择的所述目标区域上的方向性增益因子,将计算得到的方向性增益因子作为所述最终指向位置上的方向性增益因子。
13.根据权利要求9所述的方法,其特征在于,所述根据每个所述目标区域上的音频信号获取最终指向位置上的音频信号,包括:
从所述目标区域中选择与所述最终指向位置距离最小的目标区域,将选择的所述目标区域上的音频信号作为所述最终指向位置上的音频信号。
14.根据权利要求9至13任一项所述的方法,其特征在于,所述根据所述最终指向位置上的方向性增益因子以及所述最终指向位置上的音频信号计算得到所述目标音频信号,包括:
对所述方向性增益因子执行安全网策略并进行增益控制,得到控制后的方向性增益因子;
根据所述控制后的方向性增益因子以及所述最终指向位置上的音频信号计算得到所述目标音频信号。
17.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行权利要求1至8任一项所述的方法。
18.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行权利要求9至16任一项所述的方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-8任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求9-16任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010270764.8A CN113496708B (zh) | 2020-04-08 | 2020-04-08 | 拾音方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010270764.8A CN113496708B (zh) | 2020-04-08 | 2020-04-08 | 拾音方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113496708A true CN113496708A (zh) | 2021-10-12 |
CN113496708B CN113496708B (zh) | 2024-03-26 |
Family
ID=77994651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010270764.8A Active CN113496708B (zh) | 2020-04-08 | 2020-04-08 | 拾音方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113496708B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339582A (zh) * | 2021-11-30 | 2022-04-12 | 北京小米移动软件有限公司 | 双通道音频处理、方向感滤波器生成方法、装置以及介质 |
CN114449434A (zh) * | 2022-04-07 | 2022-05-06 | 荣耀终端有限公司 | 麦克风校准方法及电子设备 |
CN116668892A (zh) * | 2022-11-14 | 2023-08-29 | 荣耀终端有限公司 | 音频信号的处理方法、电子设备及可读存储介质 |
CN116828102A (zh) * | 2023-08-29 | 2023-09-29 | 荣耀终端有限公司 | 录音方法、设备及存储介质 |
WO2023197997A1 (zh) * | 2022-04-14 | 2023-10-19 | 华为技术有限公司 | 穿戴设备、拾音方法及装置 |
CN117953912A (zh) * | 2024-03-26 | 2024-04-30 | 荣耀终端有限公司 | 一种语音信号处理方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101015001A (zh) * | 2004-09-07 | 2007-08-08 | 皇家飞利浦电子股份有限公司 | 提高了噪声抑制能力的电话装置 |
US20110158425A1 (en) * | 2009-12-25 | 2011-06-30 | Fujitsu Limited | Microphone directivity control apparatus |
CN106782584A (zh) * | 2016-12-28 | 2017-05-31 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108806711A (zh) * | 2018-08-07 | 2018-11-13 | 吴思 | 一种提取方法及装置 |
CN110379439A (zh) * | 2019-07-23 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种音频处理的方法以及相关装置 |
-
2020
- 2020-04-08 CN CN202010270764.8A patent/CN113496708B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101015001A (zh) * | 2004-09-07 | 2007-08-08 | 皇家飞利浦电子股份有限公司 | 提高了噪声抑制能力的电话装置 |
US20110158425A1 (en) * | 2009-12-25 | 2011-06-30 | Fujitsu Limited | Microphone directivity control apparatus |
CN106782584A (zh) * | 2016-12-28 | 2017-05-31 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108806711A (zh) * | 2018-08-07 | 2018-11-13 | 吴思 | 一种提取方法及装置 |
CN110379439A (zh) * | 2019-07-23 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种音频处理的方法以及相关装置 |
Non-Patent Citations (1)
Title |
---|
樊伟;刘庆华;: "传声器阵列语音增强新方法与仿真实验", 电声技术, no. 10, pages 61 - 65 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339582A (zh) * | 2021-11-30 | 2022-04-12 | 北京小米移动软件有限公司 | 双通道音频处理、方向感滤波器生成方法、装置以及介质 |
CN114339582B (zh) * | 2021-11-30 | 2024-02-06 | 北京小米移动软件有限公司 | 双通道音频处理、方向感滤波器生成方法、装置以及介质 |
CN114449434A (zh) * | 2022-04-07 | 2022-05-06 | 荣耀终端有限公司 | 麦克风校准方法及电子设备 |
CN114449434B (zh) * | 2022-04-07 | 2022-08-16 | 北京荣耀终端有限公司 | 麦克风校准方法及电子设备 |
WO2023197997A1 (zh) * | 2022-04-14 | 2023-10-19 | 华为技术有限公司 | 穿戴设备、拾音方法及装置 |
CN116668892A (zh) * | 2022-11-14 | 2023-08-29 | 荣耀终端有限公司 | 音频信号的处理方法、电子设备及可读存储介质 |
CN116668892B (zh) * | 2022-11-14 | 2024-04-12 | 荣耀终端有限公司 | 音频信号的处理方法、电子设备及可读存储介质 |
CN116828102A (zh) * | 2023-08-29 | 2023-09-29 | 荣耀终端有限公司 | 录音方法、设备及存储介质 |
CN116828102B (zh) * | 2023-08-29 | 2023-11-21 | 荣耀终端有限公司 | 录音方法、设备及存储介质 |
CN117953912A (zh) * | 2024-03-26 | 2024-04-30 | 荣耀终端有限公司 | 一种语音信号处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113496708B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111050269B (zh) | 音频处理方法和电子设备 | |
CN113496708B (zh) | 拾音方法、装置和电子设备 | |
CN110458902B (zh) | 3d光照估计方法及电子设备 | |
CN111179282A (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN113393856B (zh) | 拾音方法、装置和电子设备 | |
CN114846816B (zh) | 立体声拾音方法、装置、终端设备和计算机可读存储介质 | |
CN114697812B (zh) | 声音采集方法、电子设备及系统 | |
CN114727220A (zh) | 一种设备搜寻方法以及电子设备 | |
CN111147667A (zh) | 一种熄屏控制方法及电子设备 | |
CN114257920B (zh) | 一种音频播放方法、系统和电子设备 | |
CN114157945A (zh) | 一种数据处理方法及相关装置 | |
CN112188094B (zh) | 图像处理方法及装置、计算机可读介质及终端设备 | |
CN113518189B (zh) | 拍摄方法、系统、电子设备及存储介质 | |
CN113225661A (zh) | 扬声器识别方法、装置和电子设备 | |
CN115550986A (zh) | 一种检测设备方法和电子设备 | |
CN114120950B (zh) | 一种人声屏蔽方法和电子设备 | |
CN113129916A (zh) | 一种音频采集方法、系统及相关装置 | |
CN114390406B (zh) | 一种控制扬声器振膜位移的方法及装置 | |
CN115706755A (zh) | 回声消除方法、电子设备及存储介质 | |
CN113132532B (zh) | 环境光强度校准方法、装置及电子设备 | |
CN115480250A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113436635A (zh) | 分布式麦克风阵列的自校准方法、装置和电子设备 | |
CN113963712A (zh) | 滤除回声的方法、电子设备和计算机可读存储介质 | |
CN115393676A (zh) | 手势控制优化方法、装置、终端和存储介质 | |
CN114584913B (zh) | Foa信号和双耳信号的获得方法、声场采集装置及处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |