CN113393856A - 拾音方法、装置和电子设备 - Google Patents
拾音方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113393856A CN113393856A CN202010167292.3A CN202010167292A CN113393856A CN 113393856 A CN113393856 A CN 113393856A CN 202010167292 A CN202010167292 A CN 202010167292A CN 113393856 A CN113393856 A CN 113393856A
- Authority
- CN
- China
- Prior art keywords
- electronic device
- electronic equipment
- obtaining
- fixed
- azimuth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000005236 sound signal Effects 0.000 claims abstract description 91
- 238000001914 filtration Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 abstract description 37
- 230000008030 elimination Effects 0.000 abstract description 4
- 238000003379 elimination reaction Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 32
- 230000006854 communication Effects 0.000 description 32
- 230000001133 acceleration Effects 0.000 description 30
- 238000004422 calculation algorithm Methods 0.000 description 29
- 230000005484 gravity Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 18
- 238000007726 management method Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 13
- 230000009467 reduction Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000010295 mobile communication Methods 0.000 description 11
- 210000000988 bone and bone Anatomy 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- XJUXBRCZUUHSKU-UHFFFAOYSA-L calcium;4-benzamido-2-hydroxybenzoate Chemical compound [Ca+2].C1=C(C([O-])=O)C(O)=CC(NC(=O)C=2C=CC=CC=2)=C1.C1=C(C([O-])=O)C(O)=CC(NC(=O)C=2C=CC=CC=2)=C1 XJUXBRCZUUHSKU-UHFFFAOYSA-L 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000010349 pulsation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 1
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/19—Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72454—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
- H04M2201/405—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/12—Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例提供一种拾音方法、装置和电子设备,在该方法中,获得用户相对电子设备的方位,所述电子设备设置有不少于3个的麦克风,在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束,当所述N个麦克风接收到声音信号时,使用所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述副波束的波束形成系数计算所述声音信号的副输出信号,使用所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号,从而缓解语音失真问题、以及人声干扰消除不彻底问题。
Description
技术领域
本申请涉及智能终端技术领域,特别涉及拾音方法、装置和电子设备。
背景技术
市面上大多数终端类电子设备,比如智能手机、平板,都带有语音助手应用,它的主要作用是在用户不接触手机等电子设备的情况下,通过语音指令控制电子设备,完成一些低难度高频次的指令操作,比如播放音乐、查询天气、设置闹钟、拨打电话、地图导航等。
上述人机交互的流程一般包括:利用电子设备的麦克风拾取音频信号;通过前端增强算法从音频信号中估计出一路干净的语音信号;使用该语音信号进行语音唤醒和语音识别。前端增强算法主要通过噪声消除来提取干净的语音信号,噪声消除包括:回声消除、干扰抑制以及去除背景噪声等,回声消除中需要消除的回声一般是人机交互过程中电子设备的喇叭自发声,干扰抑制中的干扰一般是方向性噪声,比如客厅环境中的电视声音、车载环境中的车载喇叭声等。前端增强算法的性能直接影响到人机交互的成功率,最终影响用户体验。
以手机为例。前端增强算法主要利用手机上的麦克风进行噪声消除,考虑到功耗以及计算资源的限制,大多情况下只利用一个麦克风进行单麦降噪,该算法称之为单通道降噪算法。常见的单通道降噪算法有谱减法、维纳滤波算法、及深度学习法。单通道降噪算法对于不可预测的非平稳噪声没有效果,低信噪比条件下语音失真严重。
为了达到更好的降噪效果,基于两个麦克风的双通道降噪算法在电子设备上越来越普及,它主要应用于对功耗不敏感的场景,比如用户能够随时为电子设备充电的车载场景,利用位于手机顶部和底部的两个麦克风来进行噪声抑制。双通道降噪算法的主要思想是选取一个麦克风作为主麦,一个麦克风作为副麦,首先基于人声语音的谐波检测算法确定主麦数据中噪声的时频点信息,然后基于滤波的思想利用副麦噪声滤除主麦噪声,提高语音质量,达到降噪的思想。但是,谐波检测算法不能区分人声干扰和包含唤醒词的目标人声,对人声干扰基本很难消除。
发明内容
本申请实施例提供了一种拾音方法,缓解语音失真问题、以及人声干扰消除不彻底问题。
第一方面,本申请实施例提供了一种拾音方法,包括:
获得用户相对电子设备的方位;电子设备设置有N个麦克风;N为大于等于3的整数;上述电子设备可以包括移动终端(手机)、电脑、PAD、可穿戴设备、智慧屏、无人机、智能网联车(Intelligent Connected Vehicle;以下简称:ICV)、智能(汽)车(smart/intelligent car)或车载设备等设备;可选地,为了达到更好的拾音效果,N个麦克风在电子设备上可以分散设置,例如设置在电子设备的不同部位,每个麦克风设置的位置包括但不限于:电子设备的上部、下部、顶部、底部、屏幕所在的上表面、和/或背部等;
在电子设备的预设固定波束中,选择距离方位最近的固定波束作为主波束,按照距离方位从远到近的顺序选择至少一个固定波束作为副波束;预设固定波束的数量大于等于2;
当N个麦克风接收到声音信号时,使用主波束的波束形成系数计算声音信号的主输出信号,并且,使用副波束的波束形成系数计算声音信号的副输出信号;
使用副输出信号对主输出信号进行滤波处理,得到目标声音信号。
该方法中,获得用户相对电子设备的方位,通过该方位从电子设备的预设固定波束中选择主波束和副波束,从而能够更准确地从声音信号中获得目标声源的声音信号,有效地减少目标声音信号中的人声干扰;使用至少3个麦克风接收声音信号,由于电子设备壳体的影响,可以更好的区分噪声,增强滤波处理的效果,缓解低信噪比条件下的语音失真问题以及人声干扰消除不彻底问题。
在一种可能的实现方式中,获得用户相对电子设备的方位,包括:
获取电子设备的摄像头捕捉到的图像;
如果从图像中识别出电子设备的用户的人脸信息,根据人脸信息在图像中的位置信息,获得用户相对电子设备的方位;
如果从图像中未识别出用户的人脸信息,获取电子设备的摆放位置;根据摆放位置,获得用户相对电子设备的方位。
通过获得用户相对电子设备的方位,可以获得更加准确的目标人说话信息,为后续信号处理带来更多先验信息。
在一种可能的实现方式中,在电子设备的预设固定波束中,选择距离方位最近的固定波束作为主波束,按照距离方位从远到近的顺序选择至少一个固定波束作为副波束,包括:
计算方位针对每个固定波束的比值K;Kk=夹角Δk/波束宽度其中,Kk是方位针对固定波束k的比值,夹角Δk是方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,…,M;M是固定波束的组数;
选择最小的比值对应的固定波束作为主波束,按照比值从大到小的顺序从最大的比值开始选择至少一个比值对应的固定波束作为副波束。
在一种可能的实现方式中,获得用户相对电子设备的方位之前,还包括:
获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
在一种可能的实现方式中,获得预设组数的固定波束的波束形成系数、方向、以及波束宽度,包括:
为电子设备建立三维笛卡尔坐标系;
获得N个麦克风在坐标系中的坐标;
根据N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
获得电子设备壳体对麦克风的频域响应矩阵;
根据理想条件下的导向矢量以及频域响应矩阵计算目标声源的真实导向矢量;
根据真实导向矢量计算预设组数的固定波束的波束形成系数、方向、以及波束宽度。
第二方面,本申请实施例提供一种拾音装置,包括:
方位获得单元,用于获得用户相对电子设备的方位;电子设备设置有N个麦克风;N为大于等于3的整数;
波束选择单元,用于在电子设备的预设固定波束中,选择距离方位获得单元获得的方位最近的固定波束作为主波束,按照距离方位从远到近的顺序选择至少一个固定波束作为副波束;
信号计算单元,用于当N个麦克风接收到声音信号时,使用波束选择单元选择的主波束的波束形成系数计算声音信号的主输出信号,并且,使用波束选择单元选择的副波束的波束形成系数计算声音信号的副输出信号;
滤波单元,用于使用信号计算单元计算的副输出信号对主输出信号进行滤波处理,得到目标声音信号。
在一种可能的实现方式中,方位获得单元包括:
图像获取子单元,用于获取电子设备的摄像头捕捉到的图像;
方位获得子单元,用于如果从图像子单元获取到的图像中识别出电子设备的用户的人脸信息,根据人脸信息在图像中的位置信息,获得用户相对电子设备的方位;如果从图像子单元获取到的图像中未识别出用户的人脸信息,获取电子设备的摆放位置;根据摆放位置,获得用户相对电子设备的方位。
在一种可能的实现方式中,波束选择单元包括:
比值计算子单元,用于计算方位针对每个固定波束的比值K;Kk=夹角Δk/波束宽度其中,Kk是方位针对固定波束k的比值,夹角Δk是方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,…,M;M是固定波束的组数;
波束选择子单元,用于在比值计算子单元计算的比值中,选择最小的比值对应的固定波束作为主波束,按照比值从大到小的顺序从最大的比值开始选择至少一个比值对应的固定波束作为副波束。
在一种可能的实现方式中,还包括:
波束获得单元,用于获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
在一种可能的实现方式中,波束获得单元包括:
坐标系建立子单元,用于为电子设备建立三维笛卡尔坐标系;
坐标获得子单元,用于获得N个麦克风在坐标系中的坐标;
理想导向矢量计算子单元,用于根据N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
矩阵获得子单元,用于获得电子设备壳体对麦克风的频域响应矩阵;
真实导向矢量计算子单元,用于根据理想条件下的导向矢量以及频域响应矩阵计算目标声源的真实导向矢量;
固定波束计算子单元,用于根据真实导向矢量计算预设组数的固定波束的波束形成系数、方向、以及波束宽度。
第三方面,本申请实施例提供一种电子设备,包括:
显示屏;一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行以下步骤:
获得用户相对电子设备的方位;电子设备设置有N个麦克风;N为大于等于3的整数;
在电子设备的预设固定波束中,选择距离方位最近的固定波束作为主波束,按照距离方位从远到近的顺序选择至少一个固定波束作为副波束;
当N个麦克风接收到声音信号时,使用主波束的波束形成系数计算声音信号的主输出信号,并且,使用副波束的波束形成系数计算声音信号的副输出信号;
使用副输出信号对主输出信号进行滤波处理,得到目标声音信号。。
在一种可能的实现方式中,指令被设备执行时,使得获得用户相对电子设备的方位的步骤包括:
获取电子设备的摄像头捕捉到的图像;
如果从图像中识别出电子设备的用户的人脸信息,根据人脸信息在图像中的位置信息,获得用户相对电子设备的方位;
如果从图像中未识别出用户的人脸信息,获取电子设备的摆放位置;根据摆放位置,获得用户相对电子设备的方位。
在一种可能的实现方式中,指令被设备执行时,使得在电子设备的预设固定波束中,选择距离方位最近的固定波束作为主波束,按照距离方位从远到近的顺序选择至少一个固定波束作为副波束的步骤包括:
计算方位针对每个固定波束的比值K;Kk=夹角Δk/波束宽度其中,Kk是方位针对固定波束k的比值,夹角Δk是方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,…,M;M是固定波束的组数;
选择最小的比值对应的固定波束作为主波束,按照比值从大到小的顺序从最大的比值开始选择至少一个比值对应的固定波束作为副波束。
在一种可能的实现方式中,指令被设备执行时,使得获得用户相对电子设备的方位的步骤之前还执行以下步骤:
获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
在一种可能的实现方式中,指令被设备执行时,使得获得预设组数的固定波束的波束形成系数、方向、以及波束宽度的步骤包括:
为电子设备建立三维笛卡尔坐标系;
获得N个麦克风在坐标系中的坐标;
根据N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
获得电子设备壳体对麦克风的频域响应矩阵;
根据理想条件下的导向矢量以及频域响应矩阵计算目标声源的真实导向矢量;
根据真实导向矢量计算预设组数的固定波束的波束形成系数、方向、以及波束宽度。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第一方面的方法。
第五方面,本申请实施例提供一种计算机程序,当计算机程序被计算机执行时,用于执行第一方面的方法。
在一种可能的设计中,第五方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上,也可以部分或者全部存储在不与处理器封装在一起的存储器上。
附图说明
图1为本申请实施例电子设备上麦克风设置示例图;
图2为本申请拾音方法一个实施例的流程图;
图3a为本申请拾音方法另一个实施例的流程图;
图3b为本申请电子设备的三维笛卡尔坐标系示例图;
图3c为本申请实施例方位角和俯仰角示例图;
图3d为本申请实施例电子设备摆放位置示例图;
图4为本申请一个步骤的实现方法一个实施例的流程图;
图5a和图5b为本申请拾音方法所适用的电子设备的一种结构图;
图6a为本申请拾音装置一个实施例的结构示意图;
图6b为本申请拾音装置一个单元的一个实施例的结构示意图;
图6c为本申请拾音装置另一个单元的一个实施例的结构示意图;
图7a为本申请拾音装置又一个实施例的结构示意图;
图7b为本申请拾音装置另一个单元一个实施例的结构示意图;
图8为本申请电子设备一个实施例的结构示意图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
现有的实现方案中,单通道降噪算法在低信噪比条件下语音失真严重,双通道降噪算法对人声干扰基本很难消除,为此,本申请提出一种拾音方法,能够缓解低信噪比条件下语音失真的情况,也能够减少人声干扰。
本申请实施例中电子设备上设置有至少3个麦克风,各个麦克风在电子设备上的设置位置本申请实施例不作限定。可选地,为了达到更好的拾音效果,所述至少3个麦克风在电子设备上分散设置,例如设置在电子设备的不同部位,每个麦克风设置的位置包括但不限于:电子设备的上部、下部、顶部、底部、屏幕所在的上表面、和/或背部等。在一种可能的实现方式中,参见图1所示,3个麦克风可以分别设置于:电子设备的顶部,电子设备的底部,电子设备的背部。
本申请实施例可以适用于电子设备的语音助手应用的场景下,为语音唤醒和语音识别提供较为干净的语音信号,也可以适用于其他场景下,例如为某个人进行录音、录像等需要较为干净的语音信号的场景下。
图2为本申请拾音方法一个实施例的流程图,如图2所示,上述方法可以包括:
步骤201:获得用户相对电子设备的方位;所述电子设备设置有N个麦克风,N≥3。
步骤202:在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束。
步骤203:当所述N个麦克风接收到声音信号时,使用所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述副波束的波束形成系数计算所述声音信号的副输出信号。
步骤204:使用所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号。
这里,得到的目标声音信号是滤除了噪声的干净语音信号。
图2所示的方法中,获得用户相对电子设备的方位,通过该方位从电子设备的预设固定波束中选择主波束和副波束,从而能够更准确地从声音信号中获得目标声源的声音信号,有效地减少目标声音信号中的人声干扰;使用至少3个麦克风接收声音信号,由于电子设备壳体的影响,可以更好的区分噪声,增强滤波处理的效果,缓解低信噪比条件下的语音失真问题。尤其当所述至少3个麦克风分散设置在电子设备的不同部位,例如3个麦克风分别设置于电子设备的顶部、底部以及背部时,由于电子设备壳体的影响,可以更好的区分前后噪声,增强滤波处理的效果,缓解低信噪比条件下的语音失真问题以及人声干扰消除不彻底问题。
图3a为本申请拾音方法另一个实施例的流程图,如图3a所示,该方法可以包括:
步骤301:获得预设组数的固定波束的波束形成系数、方向、以及波束宽度。
其中,所述预设组数大于等于2,也即预设组数的最小值为2,最大值不限制。
其中,本步骤一般为预设步骤,也即获得预设组数的固定波束的波束形成系数、方向、以及波束宽度后,可以将获得的上述信息存储于电子设备中,无需每次执行步骤302~步骤309之前均执行该步骤。实际应用中,也可以对存储于电子设备中的上述信息进行修改。
本步骤的实现请参考图4所示的说明,这里不赘述。
为了便于以下步骤中的描述,对图4所示实施例中基于电子设备建立的三维笛卡尔坐标系进行说明,参见图3b所示,三维笛卡尔坐标系以电子设备上表面的中心点作为坐标原点,电子设备上表面的对称轴分别为X轴和Y轴,经过电子设备上表面的中心点的垂线作为Z轴。电子设备的上表面一般是电子设备具有显示屏侧的表面。
以下的步骤302~步骤304为所述获得用户相对电子设备的方位的步骤的一种可能实现方法。
步骤302:获取所述电子设备的摄像头捕捉到的图像,判断从所述图像中是否能够识别出所述电子设备的用户的人脸信息,如果否,执行步骤303;如果是,执行步骤304。
在实际应用中,电子设备中可以保存电子设备的用户的人脸信息,在一种可能的实现方式中,该人脸信息可以由电子设备的用户在电子设备中自主设置。
其中,本步骤中使用电子设备的所有摄像头还是部分摄像头捕捉图像,本申请实施例不作限定。例如,可以使用前置摄像头捕捉图像,或者,也可以使用前置摄像头和后置摄像头捕捉图像。
在一种可能的实现方式中,本步骤可以使用人像识别检测技术识别用户的人脸信息,具体的,人像识别检测技术是用电子设备的摄像头采集含有人脸的图像或视频流,并自动在采集的图像或视频流中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,使用这一技术就可以识别出用户的人脸信息在图像或者视频流中的位置信息。
步骤303:获取电子设备的摆放位置,根据所述摆放位置估计所述用户相对电子设备的方位;执行步骤305。
在一种可能的实现方式中,用户相对电子设备的方位可以通过(方位角,俯仰角)来表示,其中,用户相对电子设备的方位在图3b所示三维笛卡尔坐标系中可以用坐标系原点指向用户的人脸中心点的射线来表示,所述方位角是:坐标系原点指向用户的人脸中心点的射线在XOY平面上投影的射线与X轴正方向的夹角;所述俯仰角是:坐标系原点指向用户的人脸中心点的射线与Z轴正方向的夹角。参见图3c的具体举例,假设A点为用户的人脸中心点,则OA为坐标系原点指向用户的人脸中心点的射线,也即用户相对电子设备的方位,其方位角为射线OA在XOY平面上投影的射线OB与X轴正方向的夹角,如图3c所示,为∠XOB;其俯仰角为射线OA与Z轴正方向的夹角,如图3c所示,为∠ZOA,通过这两个角度来表示用户相对电子设备的方位。需要说明的是,用户相对电子设备的方位用方位角和俯仰角来标识仅为举例,并不用以限定本申请实施例用户相对电子设备的方位的其他表示方式或实现方式。
在一种可能的实现方式中,可以使用电子设备中的重力传感器(g-sensor)获取电子设备的摆放位置。具体的,重力传感器可以获取电子设备不同方向的重力加速度,电子设备的摆放位置不同,重力传感器在不同方向获取的重力加速度的数值也会不同。以为电子设备建立图3b中的三维笛卡尔坐标系为例,参见图3d所示电子设备的可能摆放位置示例图,将电子设备的显示屏朝上平躺放在桌面上,X轴与Y轴重力加速度为0,Z轴重力加速度的值大于9.8,桌面在图3d中未示出;将电子设备的显示屏朝下平躺放在桌面上时,X轴与Y轴重力加速度为0,Z轴重力加速度的值小于-9.8;将电子设备正向竖立放置(完全竖直),X轴与Z轴的重力加速度为0,Y轴重力加速度的值大于9.8;将电子设备倒立放置(完全竖直),X轴与Z轴的重力加速度为0,Y轴重力加速度的值小于-9.8;将电子设备向左横立放置(完全横立),Y轴与Z轴的重力加速度为0,X轴重力加速度的值大于9.8;将电子设备向右横立放置(完全横立),Y轴与Z轴的重力加速度为0,X轴重力加速度的值小于-9.8。因此,根据重力传感器在各个方向上获取的重力加速度的数值,可以得到电子设备的摆放位置。
具体的,可以预先设置电子设备的不同摆放位置对应的X轴重力加速度的阈值范围,Y轴重力加速度的阈值范围,Z轴重力加速度的阈值范围,相应的,本步骤中可以根据重力加速度输出的X轴重力加速度、Y轴重力加速度、以及Z轴重力加速度,确定其所处阈值范围,从而获得电子设备的摆放位置。举例来说,参考前述电子设备摆放位置对应的重力加速度举例,假设X轴、Y轴、Z轴的重力加速度分别为g1、g2、g3,当|g1|<△1,|g2|<△1,|g3-9.8|<△1或者|g3+9.8|<△1时,电子设备处于水平放置状态;当|g1|<△1,|g3|<△1,g2>△2时,电子设备处于手持状态;当|g2|<△1,|g3|<△1,g1>△2时,电子设备处于向左倾斜状态;当|g2|<△1,|g3|<△1,g1<-△2时,电子设备处于向右倾斜状态,其中△1和△2为预设的阈值,△1可以为接近于0的正数,△2可以为大于△1的正数。其中,△1和△2的具体取值可以在实际应用中自主设置,本申请不限制。
在实际应用中,可以预设不同摆放位置与用户相对电子设备的方位之间的对应关系;则,所述根据所述摆放位置估计所述用户相对电子设备的方位,可以包括:
从预设的所述对应关系中获取所述电子设备的摆放位置对应的用户相对电子设备的方位。
对该实现方式说明如下:如果电子设备从摄像头拍摄的图像中没有识别出电子设备的用户的人脸信息,表明用户的人脸方位超过了摄像头拍摄角度范围,这时可以根据所述摆放位置以及所述摄像头的拍摄角度范围来估计用户相对电子设备最可能的方位,具体的,
可以先从用户相对电子设备的所有方位中剔除掉所述摄像头的拍摄角度范围对应的方位;
之后,可以根据用户使用习惯大数据统计分析,从剩余的方位中推算出电子设备在不同摆放位置下用户相对电子设备最大概率的方位,从而可以得到:不同摆放位置、用户相对电子设备的方位两者之间的对应关系。
例如,参考前述的摆放位置举例,基于使用习惯和阅读方便,电子设备处于手持状态或者水平放置状态时,用户大概率正对电子设备,位于电子设备的y轴负方向位置,剔除掉摄像头的拍摄角度范围对应的方位,可以设置电子设备处于手持状态或者水平放置状态时,对应的用户相对电子设备的方位可以为:(270°,90°);电子设备处于向左倾斜状态或者向右倾斜状态时,用户大多是在观看视频或者玩游戏,用户位于电子设备的XOZ平面内,剔除掉摄像头的拍摄角度范围对应的方位,可以设置电子设备处于向左倾斜状态或者向右倾斜状态时,对应的用户相对电子设备的方位可以为:(0°,45°)或者(180°,45°)。
以上仅为可能实现方式的示例性说明,并不用以限定本申请实施例。例如:上述方位角和俯仰角的具体取值可以不同;不同电子设备的摄像头拍摄角度范围不同,不同电子设备处于同一摆放位置,设置的该摆放位置对应的用户相对电子设备的方位也可能不同。
相比于以下步骤304中根据人脸在图像中的位置估计用户相对电子设备的方位,通过电子设备的摆放位置来间接估计用户相对电子设备的方位,准确度要低一点,但是考虑到超过摄像头角度的场景不多,另外后续步骤中固定波束的宽度也可以容许一定的角度误差,因此,本步骤中根据电子设备的摆放位置估计出用户相对电子设备的方位,仍然可以满足本申请实施例的要求,对本申请实施例后续的处理结果影响较小。
举例来说,可以根据用户使用习惯大数据以及电子设备的摆放位置,得到不同摆放位置对应的用户相对电子设备最大概率的方位。以电子设备是手机为例,假设电子设备的摆放位置为手持,剔除前置摄像头和后置摄像头的拍摄角度方位对应的方位,用户相对电子设备最大概率的方位可以为:位于手机的底部方位,即图3b中y轴负方向。
步骤304:获取所述用户的人脸信息在所述图像中的位置信息,根据所述位置信息,获得所述用户相对电子设备的方位;执行步骤305。
本步骤中可以使用投影等相关技术,将用户在图像中的位置信息直接转化为在图3b所示三维笛卡尔坐标系中的方位角和俯仰角,得到用户相对电子设备的方位。
通过获得用户相对电子设备的方位,可以获得更加准确的目标人说话信息,为后续信号处理带来更多先验信息。
以下的步骤305~步骤306是步骤202的一种可能的实现方式。
步骤305:计算所述方位针对每个固定波束的比值K。
步骤306:从所述比值中选择最小的比值对应的固定波束作为主波束,按照所述比值从大到小的顺序从最大的所述比值开始选择至少一个所述比值对应的固定波束作为副波束。
在实际应用中,副波束的数量可以为1个或者多个,具体数量本申请并不限制,但是,副波束和主波束的总数量不超过固定波束的数量M。也即是说:假设M为2,则副波束的数量只能为1,假设M为5,则副波束的数量可以为2、3、或4。在一种可能的实现方式中,副波束的数量可以为2。
主波束的波束形成系数记为W(1)(f),副波束的波束形成系数记为W(q)(f),q=2,...,S+1;S为副波束的数量。
步骤307:获得N个麦克风接收到的N路声音信号,对N路声音信号进行回声消除,得到声音信号:X(f,l)=[X1(f,l),X2(f,l),...,XN(f,l)]T;l为帧号。
其中,所述回声消除步骤为可选步骤,本步骤中如何对N路声音信号进行回声消除,本申请并不限制。
在实际应用中,可以使用相关的回声消除算法进行N路声音信号的回声消除,回声消除算法又包括时域处理算法和频域处理算法,这里不赘述。自适应的回声消除算法的基本原理是:利用参考信号自适应地估计出回声信号,将麦克风接收到的声音信号减去估计的回声信号,获得无回声的声音信号。
步骤307与步骤305~步骤306之间没有执行顺序的限制。
步骤308:根据声音信号X(f,l)以及主波束的波束形成系数W(1)(f)计算主输出信号Y1(f,l)=W(1)(f)X(f,l);根据声音信号X(f,l)以及副波束的波束形成系数W(q)(f)计算副输出信号Yq(f,1)=W(q)(f)X(f,l)。
步骤309:使用副输出信号Yq(f,l)对主输出信号Y1(f,l)进行滤波处理,得到目标声音信号。
在一种可能的实现方式中,假设副波束为2个,则副输出信号为2个,假设目标声音信号为Z(f,l),那么其中,y2=[Y2(f,1),...,Y2(f,l-p+1)]T,y3=[Y3(f,l),...,Y3(f,l-p+1)]T,b2和b3为p×1维滤波器系数矩阵,p是滤波器系数矩阵的维数,具体数值可以在实际应用中自主选择设置,本申请不限制。
在实际应用中可以使用相关的滤波算法如维纳滤波、最小均方差准则滤波、卡尔曼滤波等进行本步骤中的滤波处理,这里不再赘述。
本申请实施例中,在常规2个麦克风的基础上增加了至少一个麦克风,可选地,增加的麦克风可以为背部麦克风,这些麦克风组成了一个立体的麦克风阵列,由于电子设备壳体的影响,该麦克风阵列可以很好地基于3D空间进行定向波束形成,做到区分前后噪声的效果。
以下,通过图4所示的步骤流程对步骤301的实现进行举例说明。参见图4所示,包括:
步骤401:建立基于电子设备的三维笛卡尔坐标系。
三维笛卡尔坐标系的建立方法请参见图3b以及对应描述,这里不赘述,在图3b中以麦克风的数量N取值3为例,以这3个麦克风分别位于电子设备的顶部、底部以及背部为例。
步骤402:根据N个麦克风在电子设备上的位置,分别获得N个麦克风在三维笛卡尔坐标系中的坐标。
假设每个麦克风Mici的坐标为(xi,yi,zi),i=1,2,...,N。
参见图3b所示,第一个麦克风Mic1的坐标为(x1,y1,z1);第二个麦克风Mic2的坐标为(x2,y2,z2);第三个麦克风Mic3的坐标为(x3,y3,z3)。
步骤403:根据N个麦克风在三维笛卡尔坐标系中的坐标,计算目标声源在理想条件下的导向矢量。
其中,c是声速,f是频率。
步骤404:获得电子设备壳体对麦克风的频域响应矩阵Γ(θ,φ,f)。
在实际应用中,一般通过让电子设备的麦克风接收不同方向的同一音频来计算麦克风对不同方位信号的响应,得到电子设备如手机的壳体对麦克风的频域响应矩阵。具体步骤是:将电子设备放置在专业的全消室中,以电子设备为球心,依次在1m半径的球面不同位置上播放同一音频,该音频一般是高斯白噪声,然后通过电子设备麦克风接收来自球面不同位置上的音频信号,基于如果没有电子设备壳体的影响,麦克风接收到的音频信号应该是一致的原理,通过对比计算获得电子设备壳体对各个麦克风的响应情况,得到频域响应矩阵Γ(θ,φ,f)。
在一种可能的实现方式中,如果M<4,每个固定波束的方向指向一水平方向,将360°空间平均划分为M份;如果M≥4,一个固定波束的方向指向Z轴正方向,其他M-1个固定波束的方向指向一水平方向,将360°空间平均划分为M-1份,类似一个莲花状。例如,M=5时,5组固定波束的方向可以分别指向X轴正方向、X轴负方向、Y轴正方向、Y轴负方向和Z轴正方向。
在一种可能的实现方式中,M可以为5,则得到五组固定波束的波束形成系数Wk(f),k=1,2,3,4,5;五组波束的方向可以分别指向X轴正方向、X轴负方向、Y轴正方向、Y轴负方向和Z轴正方向;五组固定波束的波束宽度分别为
在实际应用中,可以使用固定波束形成算法来计算五组固定波束形成系数。
简单的固定波束形成算法为延时相加算法,其波束形成系数是 θk表示固定波束k的方位角,φk表示固定波束k的俯仰角。以上述5组固定波束的方向分别指向X轴正方向、X轴负方向、Y轴正方向、Y轴负方向和Z轴正方向为例,五组固定波束的方位角和俯仰角(θk,φk)分别为:(0°,90°)、(180°,90°)、(90°,90°)、(270°,90°)以及(0°,0°)。
其中,固定波束的方向也可以用(方位角,俯仰角)来表示。固定波束的方位角是:在三维笛卡尔坐标系中,固定波束的方向在XOY平面上投影的射线与X轴正方向的夹角;固定波束的俯仰角是:在三维笛卡尔坐标系中,固定波束的方向与Z轴正方向的夹角;具体可以参考前述关于图3c的举例,不再赘述。
复杂的固定波束形成算法包括超定向波、恒定束宽波束形成等,以上复杂的固定波束形成算法最后归结为一个二次规划问题,需要借助凸优化技术来求解获得固定波束形成系数Wk(f)。
图4所示的方法实现了M组固定波束的获得。
在一种可能的实现方式中,可以将本申请实施例图3a所示的拾音方法应用于电子设备的语音助手场景下,例如,驾驶场景是用户使用手机语音助手频率相对较高的场景,该场景下噪声环境相对恶劣,包括有发动机的声音、轮胎摩擦声、空调声、开窗时的风噪等,这将直接导致手机接收到的用户语音信噪比变低,对语音助手拾取干净的用户语音提出了较大的挑战。具体的,参见图5a所示,电子设备可以包括:传感器模块、场景分析模块、前端增强模块、语音唤醒模块、声纹辨识确认模块、语音识别模块以及其他交互模块。其中,传感器模块可以包括:摄像头、麦克风以及重力传感器,通过这些传感器可以分别获得用户的图像、声音信号、电子设备的摆放方位等数据;场景分析模块用于获取关于声音信号的先验信息,进行有针对性的声音拾取;前端增强模块用于提取用户(机主)的声音信号,也即是目标声音信号,同时抑制其他干扰信号和噪声;语音唤醒模块用于检测目标声音信号中的特定唤醒词,这些特定唤醒词可以“叫醒”电子设备,而电子设备最终会不会被唤醒还需要声纹辨识确认模块来“把关”,顾名思义,声纹辨识确认模块用于对用户声纹的辨识和确认,只有当前说唤醒词的用户声纹和预设的用户声纹一致,电子设备才最终被用户唤醒。
由于电子设备的资源开销限制,语音唤醒模块只支持一路唤醒,这就要求前端增强模块只能输出一路音频信号至语音唤醒模块进行唤醒检测,在存在多个说话人时,需准确辨识出目标说话人方位等信息,然后利用回声消除、固定波束形成、多通道自适应滤波等降噪算法进行定向拾音增强,估计出干净的目标声音信号送入语音唤醒模块,进行声纹检测和语音唤醒识别等后续处理。
基于图5a所示的电子设备的结构,结合图3a所示的实施例,对图3a所示实施例在图5a所示电子设备中的处理过程进行举例说明。参见图5b所示,用户与传感器模块之间的交互包括:摄像头捕捉包含人脸的图像,重力传感器可以获得电子设备在各个方向的重力加速度值,麦克风获取用户的声音信号。传感器模块中摄像头捕捉的图像、以及重力传感器获得的重力加速度值传输至场景分析模块,场景分析模块据此获得用户相对电子设备的方位,将该方位传输至前端增强模块。传感器模块将麦克风获取的声音信号也传输至前端增强模块,前端增强模块根据所述方位以及声音信号提取出目标声音信号。该目标声音信号是比较干净的一路语音信号,该目标声音信号将传输至语音唤醒模块和声纹辨识确认模块,由语音唤醒模块检测特定唤醒词,声纹辨识确认模块将目标声音信号的声纹与预设的用户声纹进行比对,确认声纹是否一致;如果声纹辨识确认模块确认声纹一致,语音识别模块根据语音唤醒模块提取的特定唤醒词与其他交互模块进行交互。
可以理解的是,上述实施例中的部分或全部步骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
图6a为本申请拾音装置一个实施例的结构图,如图6a所示,拾音装置600可以包括:
方位获得单元610,用于获得用户相对电子设备的方位;所述电子设备设置有N个麦克风;N为大于等于3的整数;
波束选择单元620,用于在所述电子设备的预设固定波束中,选择距离所述方位获得单元610获得的所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束;
信号计算单元630,用于当所述N个麦克风接收到声音信号时,使用所述波束选择单元620选择的所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述波束选择单元620选择的所述副波束的波束形成系数计算所述声音信号的副输出信号;
滤波单元640,用于使用所述信号计算单元630计算的所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号。
其中,参见图6b所示,所述方位获得单元610可以包括:
图像获取子单元611,用于获取所述电子设备的摄像头捕捉到的图像;
方位获得子单元612,用于如果从所述图像子单元611获取到的所述图像中识别出所述电子设备的用户的人脸信息,根据所述人脸信息在所述图像中的位置信息,获得所述用户相对电子设备的方位;如果从所述图像子单元获取到的所述图像中未识别出所述用户的人脸信息,获取所述电子设备的摆放位置;根据所述摆放位置,获得所述用户相对所述电子设备的方位。
其中,参见图6c所示,所述波束选择单元620可以包括:
比值计算子单元621,用于计算所述方位针对每个固定波束的比值K;Kk=夹角Δk/波束宽度其中,Kk是所述方位针对固定波束k的比值,夹角Δk是所述方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,...,M;M是固定波束的组数;
波束选择子单元622,用于在所述比值计算子单元计算的比值中,选择最小的所述比值对应的固定波束作为主波束,按照所述比值从大到小的顺序从最大的所述比值开始选择至少一个所述比值对应的固定波束作为副波束。
参见图7a,在图6a所示装置的基础上,该装置600还可以包括:
波束获得单元650,用于获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
参见图7b,所述波束获得单元650可以包括:
坐标系建立子单元651,用于为电子设备建立三维笛卡尔坐标系;
坐标获得子单元652,用于获得所述N个麦克风在所述坐标系中的坐标;
理想导向矢量计算子单元653,用于根据所述N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
矩阵获得子单元654,用于获得电子设备壳体对所述麦克风的频域响应矩阵;
真实导向矢量计算子单元655,用于根据所述理想条件下的导向矢量以及所述频域响应矩阵计算所述目标声源的真实导向矢量;
固定波束计算子单元656,用于根据所述真实导向矢量计算所述预设组数的固定波束的波束形成系数、方向、以及波束宽度。
图6a~图7b所示实施例提供的拾音装置600可用于执行本申请图2~图4所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图6a~图7b所示的拾音装置的各个单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元通过硬件的形式实现。例如,方位获得单元可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些单元可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
图8为本申请电子设备一个实施例的结构示意图,如图8所示,上述电子设备可以包括:显示屏;一个或多个处理器;存储器;以及一个或多个计算机程序。
其中,上述显示屏可以包括车载计算机(移动数据中心Mobile Data Center)的显示屏;上述电子设备可以为移动终端(手机),电脑,PAD,可穿戴设备,智慧屏,无人机,智能网联车(Intelligent Connected Vehicle;以下简称:ICV),智能(汽)车(smart/intelligentcar)或车载设备等设备。
其中上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备执行以下步骤:
获得用户相对电子设备的方位;所述电子设备设置有N个麦克风;N为大于等于3的整数;
在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束;
当所述N个麦克风接收到声音信号时,使用所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述副波束的波束形成系数计算所述声音信号的副输出信号;
使用所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号。
在一种可能的实现方式中,所述指令被所述设备执行时,使得所述获得用户相对电子设备的方位的步骤可以包括:
获取所述电子设备的摄像头捕捉到的图像;
如果从所述图像中识别出所述电子设备的用户的人脸信息,根据所述人脸信息在所述图像中的位置信息,获得所述用户相对电子设备的方位;
如果从所述图像中未识别出所述用户的人脸信息,获取所述电子设备的摆放位置;根据所述摆放位置,获得所述用户相对所述电子设备的方位。
在一种可能的实现方式中,所述指令被所述设备执行时,使得所述在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束的步骤可以包括:
计算所述方位针对每个固定波束的比值K;Kk=夹角Δk/波束宽度其中,Kk是所述方位针对固定波束k的比值,夹角Δk是所述方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,…,M;M是固定波束的组数;
选择最小的所述比值对应的固定波束作为主波束,按照所述比值从大到小的顺序从最大的所述比值开始选择至少一个所述比值对应的固定波束作为副波束。
在一种可能的实现方式中,所述指令被所述设备执行时,使得所述获得用户相对电子设备的方位的步骤之前还执行以下步骤:
获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
在一种可能的实现方式中,所述指令被所述设备执行时,使得所述获得预设组数的固定波束的波束形成系数、方向、以及波束宽度的步骤可以包括:
为电子设备建立三维笛卡尔坐标系;
获得所述N个麦克风在所述坐标系中的坐标;
根据所述N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
获得电子设备壳体对所述麦克风的频域响应矩阵;
根据所述理想条件下的导向矢量以及所述频域响应矩阵计算所述目标声源的真实导向矢量;
根据所述真实导向矢量计算所述预设组数的固定波束的波束形成系数、方向、以及波束宽度。
图8所示的电子设备可以是终端设备也可以是内置于上述终端设备的电路设备。该设备可以用于执行本申请图2~图4所示实施例提供的方法中的功能/步骤。
电子设备800可以包括处理器810,外部存储器接口820,内部存储器821,通用串行总线(universal serial bus,USB)接口830,充电管理模块840,电源管理模块841,电池842,天线1,天线2,移动通信模块850,无线通信模块860,音频模块870,扬声器870A,受话器870B,麦克风870C,耳机接口870D,传感器模块880,按键890,马达891,指示器892,摄像头893,显示屏894,以及用户标识模块(subscriber identification module,SIM)卡接口895等。其中传感器模块880可以包括压力传感器880A,陀螺仪传感器880B,气压传感器880C,磁传感器880D,加速度传感器880E,距离传感器880F,接近光传感器880G,指纹传感器880H,温度传感器880J,触摸传感器880K,环境光传感器880L,骨传导传感器880M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备800的具体限定。在本申请另一些实施例中,电子设备800可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器810可以包括一个或多个处理单元,例如:处理器810可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器810中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器810中的存储器为高速缓冲存储器。该存储器可以保存处理器810刚用过或循环使用的指令或数据。如果处理器810需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器810的等待时间,因而提高了系统的效率。
在一些实施例中,处理器810可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器810可以包含多组I2C总线。处理器810可以通过不同的I2C总线接口分别耦合触摸传感器880K,充电器,闪光灯,摄像头893等。例如:处理器810可以通过I2C接口耦合触摸传感器880K,使处理器810与触摸传感器880K通过I2C总线接口通信,实现电子设备800的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器810可以包含多组I2S总线。处理器810可以通过I2S总线与音频模块870耦合,实现处理器810与音频模块870之间的通信。在一些实施例中,音频模块870可以通过I2S接口向无线通信模块860传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块870与无线通信模块860可以通过PCM总线接口耦合。在一些实施例中,音频模块870也可以通过PCM接口向无线通信模块860传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器810与无线通信模块860。例如:处理器810通过UART接口与无线通信模块860中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块870可以通过UART接口向无线通信模块860传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器810与显示屏894,摄像头893等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器810和摄像头893通过CSI接口通信,实现电子设备800的拍摄功能。处理器810和显示屏894通过DSI接口通信,实现电子设备800的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器810与摄像头893,显示屏894,无线通信模块860,音频模块870,传感器模块880等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口830是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口830可以用于连接充电器为电子设备800充电,也可以用于电子设备800与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备800的结构限定。在本申请另一些实施例中,电子设备800也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块840用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块840可以通过USB接口830接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块840可以通过电子设备800的无线充电线圈接收无线充电输入。充电管理模块840为电池842充电的同时,还可以通过电源管理模块841为电子设备供电。
电源管理模块841用于连接电池842,充电管理模块840与处理器810。电源管理模块841接收电池842和/或充电管理模块840的输入,为处理器810,内部存储器821,显示屏894,摄像头893,和无线通信模块860等供电。电源管理模块841还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块841也可以设置于处理器810中。在另一些实施例中,电源管理模块841和充电管理模块840也可以设置于同一个器件中。
电子设备800的无线通信功能可以通过天线1,天线2,移动通信模块850,无线通信模块860,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备800中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块850可以提供应用在电子设备800上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块850可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块850可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块850还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块850的至少部分功能模块可以被设置于处理器810中。在一些实施例中,移动通信模块850的至少部分功能模块可以与处理器810的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器870A,受话器870B等)输出声音信号,或通过显示屏894显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器810,与移动通信模块850或其他功能模块设置在同一个器件中。
无线通信模块860可以提供应用在电子设备800上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块860可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块860经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器810。无线通信模块860还可以从处理器810接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备800的天线1和移动通信模块850耦合,天线2和无线通信模块860耦合,使得电子设备800可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备800通过GPU,显示屏894,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏894和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器810可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏894用于显示图像,视频等。显示屏894包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备800可以包括1个或N个显示屏894,N为大于1的正整数。
电子设备800可以通过ISP,摄像头893,视频编解码器,GPU,显示屏894以及应用处理器等实现拍摄功能。
ISP用于处理摄像头893反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头893中。
摄像头893用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备800可以包括1个或N个摄像头893,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备800在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备800可以支持一种或多种视频编解码器。这样,电子设备800可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备800的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口820可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备800的存储能力。外部存储卡通过外部存储器接口820与处理器810通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器821可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器821可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备800使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器821可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器810通过运行存储在内部存储器821的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备800的各种功能应用以及数据处理。
电子设备800可以通过音频模块870,扬声器870A,受话器870B,麦克风870C,耳机接口870D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块870用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块870还可以用于对音频信号编码和解码。在一些实施例中,音频模块870可以设置于处理器810中,或将音频模块870的部分功能模块设置于处理器810中。
扬声器870A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备800可以通过扬声器870A收听音乐,或收听免提通话。
受话器870B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备800接听电话或语音信息时,可以通过将受话器870B靠近人耳接听语音。
麦克风870C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风870C发声,将声音信号输入到麦克风870C。电子设备800可以设置至少一个麦克风870C。在另一些实施例中,电子设备800可以设置两个麦克风870C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备800还可以设置三个,四个或更多麦克风870C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口870D用于连接有线耳机。耳机接口870D可以是USB接口830,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器880A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器880A可以设置于显示屏894。压力传感器880A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器880A,电极之间的电容改变。电子设备800根据电容的变化确定压力的强度。当有触摸操作作用于显示屏894,电子设备800根据压力传感器880A检测所述触摸操作强度。电子设备800也可以根据压力传感器880A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器880B可以用于确定电子设备800的运动姿态。在一些实施例中,可以通过陀螺仪传感器880B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器880B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器880B检测电子设备800抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备800的抖动,实现防抖。陀螺仪传感器880B还可以用于导航,体感游戏场景。
气压传感器880C用于测量气压。在一些实施例中,电子设备800通过气压传感器880C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器880D包括霍尔传感器。电子设备800可以利用磁传感器880D检测翻盖皮套的开合。在一些实施例中,当电子设备800是翻盖机时,电子设备800可以根据磁传感器880D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器880E可检测电子设备800在各个方向上(一般为三轴)加速度的大小。当电子设备800静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器880F,用于测量距离。电子设备800可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备800可以利用距离传感器880F测距以实现快速对焦。
接近光传感器880G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备800通过发光二极管向外发射红外光。电子设备800使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备800附近有物体。当检测到不充分的反射光时,电子设备800可以确定电子设备800附近没有物体。电子设备800可以利用接近光传感器880G检测用户手持电子设备800贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器880G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器880L用于感知环境光亮度。电子设备800可以根据感知的环境光亮度自适应调节显示屏894亮度。环境光传感器880L也可用于拍照时自动调节白平衡。环境光传感器880L还可以与接近光传感器880G配合,检测电子设备800是否在口袋里,以防误触。
指纹传感器880H用于采集指纹。电子设备800可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器880J用于检测温度。在一些实施例中,电子设备800利用温度传感器880J检测的温度,执行温度处理策略。例如,当温度传感器880J上报的温度超过阈值,电子设备800执行降低位于温度传感器880J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备800对电池842加热,以避免低温导致电子设备800异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备800对电池842的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器880K,也称“触控器件”。触摸传感器880K可以设置于显示屏894,由触摸传感器880K与显示屏894组成触摸屏,也称“触控屏”。触摸传感器880K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏894提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器880K也可以设置于电子设备800的表面,与显示屏894所处的位置不同。
骨传导传感器880M可以获取振动信号。在一些实施例中,骨传导传感器880M可以获取人体声部振动骨块的振动信号。骨传导传感器880M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器880M也可以设置于耳机中,结合成骨传导耳机。音频模块870可以基于所述骨传导传感器880M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器880M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键890包括开机键,音量键等。按键890可以是机械按键。也可以是触摸式按键。电子设备800可以接收按键输入,产生与电子设备800的用户设置以及功能控制有关的键信号输入。
马达891可以产生振动提示。马达891可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏894不同区域的触摸操作,马达891也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器892可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口895用于连接SIM卡。SIM卡可以通过插入SIM卡接口895,或从SIM卡接口895拔出,实现和电子设备800的接触和分离。电子设备800可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口895可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口895可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口895也可以兼容不同类型的SIM卡。SIM卡接口895也可以兼容外部存储卡。电子设备800通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备800采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备800中,不能和电子设备800分离。
应理解,图8所示的电子设备800能够实现本申请图2~图4所示实施例提供的方法的各个过程。电子设备800中的各个模块的操作和/或功能,分别为了实现上述方法实施例中的相应流程。具体可参见本申请图2~图4所示方法实施例中的描述,为避免重复,此处适当省略详细描述。
应理解,图8所示的电子设备800中的处理器810可以是片上系统SOC,该处理器810中可以包括中央处理器(Central Processing Unit,CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit,GPU)等。
总之,处理器810内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在内部存储器121中。
本申请还提供一种电子设备,所述设备包括存储介质和中央处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述中央处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现本申请图2~图4所示实施例提供的方法。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请图2~图4所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请图2~图4所示实施例提供的方法。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种拾音方法,其特征在于,包括:
获得用户相对电子设备的方位;所述电子设备设置有N个麦克风;N为大于等于3的整数;
在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束;
当所述N个麦克风接收到声音信号时,使用所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述副波束的波束形成系数计算所述声音信号的副输出信号;
使用所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号。
2.根据权利要求1所述的方法,其特征在于,所述获得用户相对电子设备的方位,包括:
获取所述电子设备的摄像头捕捉到的图像;
如果从所述图像中识别出所述电子设备的用户的人脸信息,根据所述人脸信息在所述图像中的位置信息,获得所述用户相对电子设备的方位;
如果从所述图像中未识别出所述用户的人脸信息,获取所述电子设备的摆放位置;根据所述摆放位置,获得所述用户相对所述电子设备的方位。
4.根据权利要求1或2所述的方法,其特征在于,所述获得用户相对电子设备的方位之前,还包括:
获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
5.根据权利要求4所述的方法,其特征在于,所述获得预设组数的固定波束的波束形成系数、方向、以及波束宽度,包括:
为电子设备建立三维笛卡尔坐标系;
获得所述N个麦克风在所述坐标系中的坐标;
根据所述N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
获得电子设备壳体对所述麦克风的频域响应矩阵;
根据所述理想条件下的导向矢量以及所述频域响应矩阵计算所述目标声源的真实导向矢量;
根据所述真实导向矢量计算所述预设组数的固定波束的波束形成系数、方向、以及波束宽度。
6.一种拾音装置,其特征在于,包括:
方位获得单元,用于获得用户相对电子设备的方位;所述电子设备设置有N个麦克风;N为大于等于3的整数;
波束选择单元,用于在所述电子设备的预设固定波束中,选择距离所述方位获得单元获得的所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束;
信号计算单元,用于当所述N个麦克风接收到声音信号时,使用所述波束选择单元选择的所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述波束选择单元选择的所述副波束的波束形成系数计算所述声音信号的副输出信号;
滤波单元,用于使用所述信号计算单元计算的所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号。
7.根据权利要求6所述的装置,其特征在于,所述方位获得单元包括:
图像获取子单元,用于获取所述电子设备的摄像头捕捉到的图像;
方位获得子单元,用于如果从所述图像子单元获取到的所述图像中识别出所述电子设备的用户的人脸信息,根据所述人脸信息在所述图像中的位置信息,获得所述用户相对电子设备的方位;如果从所述图像子单元获取到的所述图像中未识别出所述用户的人脸信息,获取所述电子设备的摆放位置;根据所述摆放位置,获得所述用户相对所述电子设备的方位。
9.根据权利要求6或7所述的装置,其特征在于,还包括:
波束获得单元,用于获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
10.根据权利要求9所述的装置,其特征在于,所述波束获得单元包括:
坐标系建立子单元,用于为电子设备建立三维笛卡尔坐标系;
坐标获得子单元,用于获得所述N个麦克风在所述坐标系中的坐标;
理想导向矢量计算子单元,用于根据所述N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
矩阵获得子单元,用于获得电子设备壳体对所述麦克风的频域响应矩阵;
真实导向矢量计算子单元,用于根据所述理想条件下的导向矢量以及所述频域响应矩阵计算所述目标声源的真实导向矢量;
固定波束计算子单元,用于根据所述真实导向矢量计算所述预设组数的固定波束的波束形成系数、方向、以及波束宽度。
11.一种电子设备,其特征在于,包括:
显示屏;一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行以下步骤:
获得用户相对电子设备的方位;所述电子设备设置有N个麦克风;N为大于等于3的整数;
在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束;
当所述N个麦克风接收到声音信号时,使用所述主波束的波束形成系数计算所述声音信号的主输出信号,并且,使用所述副波束的波束形成系数计算所述声音信号的副输出信号;
使用所述副输出信号对所述主输出信号进行滤波处理,得到目标声音信号。。
12.根据权利要求11所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述获得用户相对电子设备的方位的步骤包括:
获取所述电子设备的摄像头捕捉到的图像;
如果从所述图像中识别出所述电子设备的用户的人脸信息,根据所述人脸信息在所述图像中的位置信息,获得所述用户相对电子设备的方位;
如果从所述图像中未识别出所述用户的人脸信息,获取所述电子设备的摆放位置;根据所述摆放位置,获得所述用户相对所述电子设备的方位。
13.根据权利要求11或12所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述在所述电子设备的预设固定波束中,选择距离所述方位最近的固定波束作为主波束,按照距离所述方位从远到近的顺序选择至少一个固定波束作为副波束的步骤包括:
计算所述方位针对每个固定波束的比值K;Kk=夹角Δk/波束宽度其中,Kk是所述方位针对固定波束k的比值,夹角Δk是所述方位与固定波束k的方向之间的夹角,波束宽度是固定波束k的波束宽度;k=1,2,…,M;M是固定波束的组数;
选择最小的所述比值对应的固定波束作为主波束,按照所述比值从大到小的顺序从最大的所述比值开始选择至少一个所述比值对应的固定波束作为副波束。
14.根据权利要求11或12所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述获得用户相对电子设备的方位的步骤之前还执行以下步骤:
获得M组固定波束的波束形成系数、方向、以及波束宽度,M为大于等于2的整数。
15.根据权利要求14所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述获得预设组数的固定波束的波束形成系数、方向、以及波束宽度的步骤包括:
为电子设备建立三维笛卡尔坐标系;
获得所述N个麦克风在所述坐标系中的坐标;
根据所述N个麦克风的坐标计算目标声源在理想条件下的导向矢量;
获得电子设备壳体对所述麦克风的频域响应矩阵;
根据所述理想条件下的导向矢量以及所述频域响应矩阵计算所述目标声源的真实导向矢量;
根据所述真实导向矢量计算所述预设组数的固定波束的波束形成系数、方向、以及波束宽度。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-5任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167292.3A CN113393856B (zh) | 2020-03-11 | 2020-03-11 | 拾音方法、装置和电子设备 |
PCT/CN2021/079789 WO2021180085A1 (zh) | 2020-03-11 | 2021-03-09 | 拾音方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167292.3A CN113393856B (zh) | 2020-03-11 | 2020-03-11 | 拾音方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393856A true CN113393856A (zh) | 2021-09-14 |
CN113393856B CN113393856B (zh) | 2024-01-16 |
Family
ID=77615411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010167292.3A Active CN113393856B (zh) | 2020-03-11 | 2020-03-11 | 拾音方法、装置和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113393856B (zh) |
WO (1) | WO2021180085A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023246223A1 (zh) * | 2022-06-20 | 2023-12-28 | 青岛海尔科技有限公司 | 分布式唤醒的语音增强方法和装置、存储介质 |
WO2024000834A1 (zh) * | 2022-06-30 | 2024-01-04 | 歌尔股份有限公司 | 一种Beam-forming功能实现方法及系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114023347A (zh) * | 2021-11-30 | 2022-02-08 | 云知声智能科技股份有限公司 | 一种定向拾音方法、装置、电子设备和存储介质 |
CN114257684A (zh) * | 2021-12-17 | 2022-03-29 | 歌尔科技有限公司 | 一种语音处理方法、系统、装置及电子设备 |
CN114339525A (zh) * | 2021-12-31 | 2022-04-12 | 紫光展锐(重庆)科技有限公司 | 一种信号处理方法、装置、芯片及模组设备 |
CN117215516B (zh) * | 2023-09-12 | 2024-07-16 | 深圳市品声科技有限公司 | 一种基于麦克风的交互方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2499033A1 (en) * | 2004-03-02 | 2005-09-02 | Microsoft Corporation | A system and method for beamforming using a microphone array |
CN106710603A (zh) * | 2016-12-23 | 2017-05-24 | 上海语知义信息技术有限公司 | 利用线性麦克风阵列的语音识别方法及系统 |
US20180176679A1 (en) * | 2016-12-20 | 2018-06-21 | Verizon Patent And Licensing Inc. | Beamforming optimization for receiving audio signals |
CN109102822A (zh) * | 2018-07-25 | 2018-12-28 | 出门问问信息科技有限公司 | 一种基于固定波束形成的滤波方法及装置 |
CN110428851A (zh) * | 2019-08-21 | 2019-11-08 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2519379B (en) * | 2013-10-21 | 2020-08-26 | Nokia Technologies Oy | Noise reduction in multi-microphone systems |
US10311889B2 (en) * | 2017-03-20 | 2019-06-04 | Bose Corporation | Audio signal processing for noise reduction |
CN107742522B (zh) * | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
DK179837B1 (en) * | 2017-12-30 | 2019-07-29 | Gn Audio A/S | MICROPHONE APPARATUS AND HEADSET |
-
2020
- 2020-03-11 CN CN202010167292.3A patent/CN113393856B/zh active Active
-
2021
- 2021-03-09 WO PCT/CN2021/079789 patent/WO2021180085A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2499033A1 (en) * | 2004-03-02 | 2005-09-02 | Microsoft Corporation | A system and method for beamforming using a microphone array |
US20180176679A1 (en) * | 2016-12-20 | 2018-06-21 | Verizon Patent And Licensing Inc. | Beamforming optimization for receiving audio signals |
CN106710603A (zh) * | 2016-12-23 | 2017-05-24 | 上海语知义信息技术有限公司 | 利用线性麦克风阵列的语音识别方法及系统 |
CN109102822A (zh) * | 2018-07-25 | 2018-12-28 | 出门问问信息科技有限公司 | 一种基于固定波束形成的滤波方法及装置 |
CN110428851A (zh) * | 2019-08-21 | 2019-11-08 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023246223A1 (zh) * | 2022-06-20 | 2023-12-28 | 青岛海尔科技有限公司 | 分布式唤醒的语音增强方法和装置、存储介质 |
WO2024000834A1 (zh) * | 2022-06-30 | 2024-01-04 | 歌尔股份有限公司 | 一种Beam-forming功能实现方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021180085A1 (zh) | 2021-09-16 |
CN113393856B (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111050269B (zh) | 音频处理方法和电子设备 | |
CN113393856B (zh) | 拾音方法、装置和电子设备 | |
CN113496708B (zh) | 拾音方法、装置和电子设备 | |
CN113347560B (zh) | 蓝牙连接方法、电子设备及存储介质 | |
CN111147667A (zh) | 一种熄屏控制方法及电子设备 | |
CN114697812A (zh) | 声音采集方法、电子设备及系统 | |
WO2022022319A1 (zh) | 一种图像处理方法、电子设备、图像处理系统及芯片系统 | |
WO2020034104A1 (zh) | 一种语音识别方法、可穿戴设备及系统 | |
CN111176465A (zh) | 使用状态识别方法、装置、存储介质与电子设备 | |
CN113132532B (zh) | 环境光强度校准方法、装置及电子设备 | |
CN114257920B (zh) | 一种音频播放方法、系统和电子设备 | |
CN115514844A (zh) | 一种音量调节的方法,电子设备和系统 | |
WO2023197997A1 (zh) | 穿戴设备、拾音方法及装置 | |
CN114356109A (zh) | 文字输入方法、电子设备及计算机可读存储介质 | |
CN113838478A (zh) | 异常事件检测方法、装置和电子设备 | |
CN114120950B (zh) | 一种人声屏蔽方法和电子设备 | |
CN113129916A (zh) | 一种音频采集方法、系统及相关装置 | |
CN115641867A (zh) | 语音处理方法和终端设备 | |
CN113436635B (zh) | 分布式麦克风阵列的自校准方法、装置和电子设备 | |
CN115480250A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN114120987B (zh) | 一种语音唤醒方法、电子设备及芯片系统 | |
CN115706755A (zh) | 回声消除方法、电子设备及存储介质 | |
CN115731923A (zh) | 命令词响应方法、控制设备及装置 | |
CN115393676A (zh) | 手势控制优化方法、装置、终端和存储介质 | |
CN115209027B (zh) | 相机对焦的方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |