CN111383650B - 一种机器人及其音频数据处理方法 - Google Patents
一种机器人及其音频数据处理方法 Download PDFInfo
- Publication number
- CN111383650B CN111383650B CN201811624983.0A CN201811624983A CN111383650B CN 111383650 B CN111383650 B CN 111383650B CN 201811624983 A CN201811624983 A CN 201811624983A CN 111383650 B CN111383650 B CN 111383650B
- Authority
- CN
- China
- Prior art keywords
- audio data
- paths
- microphone
- robot
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 230000009467 reduction Effects 0.000 abstract description 11
- 102000008482 12E7 Antigen Human genes 0.000 description 8
- 108010020567 12E7 Antigen Proteins 0.000 description 8
- 101000893549 Homo sapiens Growth/differentiation factor 15 Proteins 0.000 description 8
- 101000692878 Homo sapiens Regulator of MON1-CCZ1 complex Proteins 0.000 description 8
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 4
- 102100032912 CD44 antigen Human genes 0.000 description 3
- 102100037904 CD9 antigen Human genes 0.000 description 3
- 101000868273 Homo sapiens CD44 antigen Proteins 0.000 description 3
- 101000738354 Homo sapiens CD9 antigen Proteins 0.000 description 3
- 101001051490 Homo sapiens Neural cell adhesion molecule L1 Proteins 0.000 description 3
- 102100024964 Neural cell adhesion molecule L1 Human genes 0.000 description 3
- 101100345585 Toxoplasma gondii MIC6 gene Proteins 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明适用于电子技术领域,提供了一种机器人及其音频数据处理方法,机器人包括机身、拾音模块及主控模块;拾音模块包括麦克风阵列,麦克风阵列包括第一麦克风阵列和第二麦克风阵列;第一麦克风阵列包括N个麦克风,N个麦克风环绕机器人的机身设置且均匀分布;第二麦克风阵列包括M个麦克风,M个麦克风设置于机器人的机身且位于第一麦克风阵列中任意两个麦克风的连线上;主控模块通过第一麦克风阵列获取N路音频数据、通过第二麦克风阵列获取M路音频数据,并基于N路音频数据、M路音频数据及参考音频数据进行声源定位和声音拾取。能够支持机器人360度唤醒和声源定位及形成定向波束,降噪效果好。
Description
技术领域
本发明属于电子技术领域,尤其涉及一种机器人及其音频数据处理方法。
背景技术
在设计机器人时,如果麦克风阵列的位置摆放不正确,则会影响语音交互效果。因为麦克风阵列的波束形成(beam-forming)的最基本的要求和前提条件是:声音直达麦克风阵列中的每一个麦克风。因此,若把环形麦克风阵列放在机器人脖子处的话,机器人的脖子会挡住脖子后面的麦克风,导致声音被脖子反射不能直达机器人脖子后面麦克风,进而影响拾音效果。
针对上述问题目前市面上通常:是将环形麦克风放在机器人的头部或者同时使用环形麦克风阵列和线性麦克风阵列,将环形麦克风阵列放在机器人脖子处,用于实现机器人的360度唤醒和360度声源定位,将线性麦克风放在机器人头部,用于波束形成以进行拾音。
而将环形麦克风阵列放在机器人头部则对机器人的高度有限制,同时由于环形麦克风阵列需要处于水平静止状态才能达到较好的拾音效果,因此导致机器人的头部动作有限制,而同时使用环形麦克风阵列和线性麦克风阵列会导致机器人身上到处都是麦克风的开孔,影响机器人的美观,且存在降噪效果差的问题。
发明内容
有鉴于此,本发明实施例提供了一种机器人及其音频数据处理方法,以解决目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且降噪效果差的问题。
本发明的第一方面提供了一种机器人,所述机器人包括机身、拾音模块及主控模块;
所述拾音模块与所述主控模块电连接,所述拾音模块包括麦克风阵列,所述麦克风阵列包括第一麦克风阵列和第二麦克风阵列;
所述第一麦克风阵列包括N个麦克风,所述N个麦克风环绕所述机器人的机身设置且均匀分布;其中N≥3且N为整数;
所述第二麦克风阵列包括M个麦克风,所述M个麦克风设置于所述机器人的机身且位于所述第一麦克风阵列中任意两个麦克风的连线上,其中M≥1且M为整数;
所述主控模块通过所述第一麦克风阵列获取N路音频数据、通过所述第二麦克风阵列获取M路音频数据,并基于所述N路音频数据和所述M路音频数据进行声源定位和声音拾取。
本发明的第二方面提供了一种基于上述机器人的音频数据处理方法,包括:
通过拾音模块的N个麦克风和M个麦克风采集音频数据;
将所述N个麦克风采集的N路音频数据、M个麦克风采集的M路音频数据及参考音频数据发送至主控模块;
所述主控模块将所述N路音频数据、所述M路音频数据及参考音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取。
本发明提供的一种机器人及其音频数据处理方法,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风和分布在N个麦克风中任意两个麦克风的连线上的M个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N+M路音频数据及参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,同时通过第二麦克风阵列来实现声音拾取,能够有效地降噪且不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且降噪效果差的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种机器人的模块结构示意图;
图2是本发明实施例一提供的一种机器人的拾音模块40的结构示意图;
图3是本发明实施例一提供的机器人的麦克风阵列41的分布示意图;
图4是本发明实施例二提供的一种基于实施例一的机器人的音频数据处理方法的实现流程示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
需要说明的是,本发明的说明书和权利要求书中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。
本发明实施例为了解决目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且降噪效果差的问题,提供了一种机器人及其音频数据处理方法,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风和分布在N个麦克风中任意两个麦克风的连线上的M个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N+M路音频数据和参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,既能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,同时通过第二麦克风阵列来实现声音拾取,能够有效地降噪且不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且降噪效果差的问题。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
如图1所示,本实施例提供了一种机器人1,该机器人1包括头部10、机身20、主控模块30以及拾音模块40。
拾音模块40与主控模块30电连接,拾音模块40包括麦克风阵列41,麦克风阵列41包括第一麦克风阵列41A和第二麦克风42B阵列。
第一麦克风阵列41A包括N个麦克风,N个麦克风环绕机器人1的机身20设置且均匀分布;其中N≥3且N为整数。
第二麦克风阵列41B包括M个麦克风,M个麦克风设置于机器人1的机身20且位于第一麦克风阵列41A中任意两个麦克风的连线上,其中M≥1且M为整数。
主控模块30通过第一麦克风阵列41A获取N路音频数据、通过第二麦克风阵列41B获取M路音频数据,并基于N路音频数据和M路音频数据进行声源定位和声音拾取。
在具体应用中,上述机器人可以为人形机器人,也可以为仿人形机器人,在此不加以限制。
在一个实施例中,上述拾音装置40还包括MIC小板42。
MIC小板42分别与麦克风阵列41和主控模块30电连接。
MIC小板42对M路音频数据和N路音频数据进行模数转换和编码后传输至主控模块30。
在具体应用中,MIC小板42能够将每个麦克风采集到的模拟音频数据转换成相应的数字音频数据,再将数字音频数据进行编号,并将编号完成的数字音频数据发送给主控模块。
在一个实施例中,上述MIC小板42包括分别与麦克风阵列41和主控模块30电连接的模数转换器42A。
在具体应用中,如图2所示,上述拾音模块40包括与麦克风阵列41通过麦克风线实现电连接的MIC小板42,该MIC小板包括模数转换器42A。MIC小板通过I2S总线、I2C总线以及电源线与主控模块30电连接。MIC小板42将麦克风阵列采集到的N路音频数据和M路音频数据通过模数转换器42A进行模数转换,再将转换后的N路音频数据和M路音频数据进行融合,并通过I2S接口将融合后的音频数据传输到主控模块30中。上述MIC小板还分别对N路音频数据和M路音频数据进行编号,通过编号将音频数据与采集到该音频数据的麦克风进行对应。
在一个实施例中,上述第一麦克风阵列包括6个麦克风,6个麦克风设置于机器人的机身20,具体的,上述6个麦克风设置在机器人的颈部,6个麦克风分布于以机器人的机身30纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线。
在具体应用中,如图3所示,第一麦克风阵列41A包括第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6,其中,第一麦克风MIC1和第二麦克风MIC2位于垂直于机器人机身30纵轴线的水平线上,第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6按照等间距按照每两个麦克风与机器人的机身30纵轴线上的任一点为圆心的圆周的圆心形成的夹角为60度,即按360度环绕机器人的颈部20均匀分布。第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6构成环绕机器人颈部的环形6MIC的第一麦克风阵列。
在一个实施例中,上述第二麦克风阵列41B包括2个麦克风,2个麦克风设置在机器人的颈部20,并设置在第一麦克风阵列41A的6个麦克风中任意两个麦克风的连线上。
在具体应用中,如图3所示,上述第二麦克风阵列41B包括第七麦克风MIC7和第八麦克风MIC8。第七麦克风MIC7和第八麦克风MIC8分别分布在第一麦克风MIC1和第二麦克风MIC2的连线上,且第一麦克风MIC1、第二麦克风MIC2、第七麦克风MIC7以及第八麦克风MIC8等间隔分布在该机器人1的颈部20,第一麦克风MIC1、第二麦克风MIC2、第七麦克风MIC7以及第八麦克风MIC8构成线性4MIC的第二麦克风阵列。第一麦克风MIC1、第二麦克风MIC2、第七麦克风MIC7以及第八麦克风MIC8位于垂直于机器人机身的同一水平线上,且设置在机器人的颈部。通过线性4MIC的第二麦克风阵列拾取机器人的正前方180度的声音。需要说明的是,对于机器人来说,该机器人的正前方是指该机器人的脸正对着的方向。
在一个实施例中,所述主控模块从功放引入参考音频数据并输入到MIC小板,所述MIC小板还用于对上述参考音频数据进行模数转换和编码后传输至所述主控模块。上述通过主控模块向MIC小板输入参考音频数据,通过MIC小板将输入的参考音频数据进行编号并与上述N路音频数据和M路音频数据进行融合后,通过I2S接口发送至主控单元50。主控单元50根据这参考音频数据来对回声进行消除,滤除环境杂音的影响,进一步提高声源定位的准确度和语音识别的准确度。
在一个实施例中,上述机器人还包括与主控模块30电连接的功放50。
主控模块30获取功放50播放的音频数据,并根据功放播放的音频数据生成参考音频数据。
在具体应用中,若上述主控模块对应播放音频是双声道则生成两路参考音频数据;若上述主控模块对应播放音频是单声道则生成一路参考音频数据;若主控模块对应播放音频是四声道则生成四路参考音频数据。以双声道为例,主控模块会直接通过数据线连接到MIC小板,再将主控模块的功放处播放的两路参考音频数据传到MIC小板。
在一个实施例中,上述主控模块30包括数据缓冲池51(buffer池),数据缓冲池用于存储M路音频数据和N路音频数据。在一个实施例中,上述机器人还包括与主控模块30电连接的功放50。
主控模块30获取功放50播放的音频数据,并根据功放播放的音频数据生成参考音频数据。
在具体应用中,若上述主控模块对应播放音频是双声道则生成两路参考音频数据;若上述主控模块对应播放音频是单声道则生成一路参考音频数据;若主控模块对应播放音频是四声道则生成四路参考音频数据。以双声道为例,主控模块会直接通过数据线连接到MIC小板,再将主控模块的功放处播放的两路参考音频数据传到MIC小板。
在具体应用中,主控模块30将从MIC小板42的I2S接口获取到的N路音频数据、M路音频数据以及参考音频数据存储在上述数据缓冲池51中。通过主控模块30根据数据缓冲池51中的音频数据进行数据复用,通过运行预设算法来实现360度唤醒以及形成波束以进行拾音。需要说明的是,上述预设算法是指现有的根据采集到的音频数据进行声源定位的定位算法、现有的根据采集到的音频数据进行机器人唤醒的唤醒算法以及现有的根据采集到的音频数据进行波束形成及拾音的波束形成拾音算法。
在具体应用中,通过环形6MIC采集到的对应的音频数据以及两路参考音频数据(共八路音频数据)进行机器人唤醒及回声消除,即根据上述八路音频数据进行声源定位,通过声源定位确定声源位置与当前位置的角度差,控制机器人按照该角度差进行转向并唤醒机器人,在唤醒机器人后,通过线性4MIC采集到的音频数据和两路参考音频数据(共六路音频数据)进行回声消除、波束形成拾音及语音识别,即根据上述六路音频数据进行回声消除、降噪、波束形成后得到用于语音识别的音频数据,通过将该音频数据由语音设备单元进行识别后,将语音数据转换为文字。
在一个实施例中,上述主控模块30可以是安卓开发板,在上述安卓开发板的软件层设置一个数据缓冲池,将拾音模块发送过来的N路音频数据、M路音频数据以及两路参考音频数据进行编号并存储在上述数据缓冲池中,通过并行运行唤醒算法和识别算法,并行地从数据缓冲池中获取所需的音频数据。需要说明的是,上述唤醒算法可以采用现有的各种语音唤醒算法,上述识别算法可以采用现有的各种语音识别算法。通过对麦克风采集的音频数据进行复用,将部分麦克风获取到的音频数据既供唤醒算法使用,又供识别算法使用。使得位于机器人颈部的麦克风阵列依然能够实现360度的声源定位和360度唤醒,同时保证用于语音识别的音频数据的采集(波束形成拾音),不影响语音识别,且具有较好的降噪效果。
本实施例提供的一种机器人,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风和分布在N个麦克风中任意两个麦克风的连线上的M个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据和M路音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,同时通过第二麦克风阵列来实现声音拾取,能够有效地降噪且不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置不当而导致机器人的高度及头部动作被限制且降噪效果差的问题。
实施例二:
如图4所示,本实施例提供了一种基于实施例一所提供的机器人的语音处理方法,具体包括:
步骤S101:通过拾音模块的N个麦克风和M个麦克风采集音频数据。
在具体应用中,通过设置于机器人颈部的N个麦克风和M个麦克风进行音频数据采集。上述N个麦克风分布于以机器人的机身纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线,N≥3且N为整数。
在具体应用中,上述M个麦克风分布在上述N个麦克风中任意两个麦克风的连线上,M≥1且M为整数。
在一个实施例中,上述N个麦克风为6个麦克风,6个麦克风设置于机器人的颈部,6个麦克风分布于以机器人的机身纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线,6个麦克风形成环形6MIC阵列。上述M个麦克风为2个麦克风,2个麦克风设置在机器人的颈部,并设置上述6个麦克风中任意两个麦克风的连线上,上述2个麦克风与连线上的两个麦克风形成线性4MIC阵列。且四个麦克风等间隔分布在机器人的颈部的同一水平线上。
步骤S102:将所述N个麦克风采集的N路音频数据、M个麦克风采集的M路音频数据及参考音频数据发送至主控模块。
在具体应用中,通过将N个麦克风采集到的N路音频数据、M个麦克风采集到的M路音频数据及参考音频数据发送到主控模块,通过主控模块根据上述音频数据实现声源定位和声音拾取。
在具体应用中,通过与N个麦克风和M个麦克风电连接的MIC小板,对N路音频数据和M路音频数据进行模数转换后,对模数转换后的音频数据进行数据融合,再将融合了的音频数据传输给主控模块。
在具体应用中,MIC小板在进行数据融合时,通过导入参考音频信号,将这参考音频信号与上述N路音频数据和M路音频数据进行数据融合,将融合后的音频数据传输给主控模块。
在具体应用中,上述MIC小板还将各路音频数据进行对应编号,对上述N路音频数据、M路音频数据以及参考音频数据分别进行编号。
需要说明的是,上述参考音频数据是主控模块获取功放播放的音频数据,并根据功放播放的音频数据生成的。若上述主控模块对应播放音频是双声道则生成两路参考音频数据;若上述主控模块对应播放音频是单声道则生成一路参考音频数据;若主控模块对应播放音频是四声道则生成四路参考音频数据。以双声道为例,主控模块会直接通过数据线连接到MIC小板,再将主控模块的功放处播放的两路参考音频数据传到MIC小板。
步骤S103:所述主控模块将所述N路音频数据、所述M路音频数据及参考音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取。
在具体应用中,主控模块根据存储在数据缓冲池中的音频数据运行对应的算法,来进行声源定位和声音拾取,以实现唤醒和语音识别。具体的,主控模块根据运行的算法从上述数据缓冲池中获取对应编码的音频数据,并运行对应的算法。
在具体应用中,主控模块通过从数据缓冲池中获取N路音频数据、M路音频数据以及两路参考音频数据,并根据N路音频数据、M路音频数据以及两路参考音频数据运行唤醒算法,实现对机器人的360度唤醒。主控模块并行地从数据缓冲池中获取M路音频数据、与M个麦克风连线的两个麦克风的音频数据以及两路参考音频数据,并根据N路音频数据、M路音频数据以及两路参考音频数据运行识别算法,实现对用户说的话进行语音识别。
在一个实施例中,上述步骤S103具体包括以下步骤:
步骤S1031:将参考音频数据、所述N路音频数据以及所述M路音频数据存储至所述数据缓冲池中。
步骤S1032:从所述数据缓冲池中获取第一组音频数据,通过第一预设算法进行回声消除、声源定位和唤醒。
步骤S1033:从所述数据缓冲池中获取第二组音频数据,通过第二预设算法对所述第二组音频数据进行回声消除、波束形成及音频降噪处理。
在一个实施例中,上述N路音频数据包括6路音频数据,所述M路音频数据包括2路音频数据,上述参考音频数据包括两路参考音频数据。
在具体应用中,对各个麦克风采集到的音频数据进行对应编号,即第一麦克风获取到的音频数据编号为第一音频数据,第二麦克风获取到的音频数据编号为第二音频数据,第三麦克风获取到的音频数据编号为第三音频数据,第四麦克风获取到的音频数据编号为第四音频数据,第五麦克风获取到的音频数据编号为第五音频数据,第六麦克风获取到的音频数据编号为第六音频数据,将第七麦克风获取到的音频数据编号为第七音频数据,将第八麦克风获取到的音频数据编号为第八音频数据,将第一路参考音频数据编号为第九音频数据,将第二路参考音频数据编号为第十音频数据。上述第一组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第九音频数据以及第十音频数据;上述第二组音频数据包括:第一音频数据、第二音频数据、第七音频数据、第八音频数据、第九音频数据以及第十音频数据。
在具体应用中,通过环形6MIC采集到的对应的音频数据及两路参考音频数据(共八路音频数据)进行机器人唤醒,即根据第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第九音频数据以及第十音频数据进行360度声源定位、360度机器人唤醒及回声消除,通过声源定位确定声源位置与当前位置的角度差,控制机器人按照该角度差进行转向并唤醒机器人,再唤醒机器人后,通过线性4MIC采集到的音频数据和两路参考音频数据(共六路音频数据)进行360度声源定位、360度机器人唤醒及回声消除,即根据第一音频数据、第二音频数据、第七音频数据、第八音频数据、第九音频数据以及第十音频数据进行回声消除、降噪、波束形成后得到用于语音识别的音频数据,通过将该音频数据由语音设备单元进行识别后,将语音数据转换为文字,实现语音识别。
需要说明的是,上述第一预设算法为现有的能够实现声源定位和机器人唤醒的唤醒算法,上述第二预设算法为现有的能够实现语音识别的算法。
本实施例提供的基于实施例一提供的机器人来实现的音频数据处理方法,同样能够通过在机器人的机身设置由呈环形且均匀分布的N个麦克风和分布在N个麦克风中任意两个麦克风的连线上的M个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据、M路音频数据及参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,同时通过第二麦克风阵列来实现声音拾取,能够有效地降噪且不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置不当而导致机器人的高度及头部动作被限制且降噪效果差的问题。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种机器人,其特征在于,所述机器人包括机身、拾音模块及主控模块;
所述拾音模块与所述主控模块电连接,所述拾音模块包括麦克风阵列,所述麦克风阵列包括第一麦克风阵列和第二麦克风阵列;
所述第一麦克风阵列包括N个麦克风,所述N个麦克风环绕所述机器人的机身设置且均匀分布;其中N3且N为整数;
所述第二麦克风阵列包括M个麦克风,所述M个麦克风设置于所述机器人的机身且位于所述第一麦克风阵列中任意两个麦克风的连线上,其中M1且M为整数;
所述主控模块通过所述第一麦克风阵列获取N路音频数据、通过所述第二麦克风阵列获取M路音频数据,并基于所述N路音频数据和所述M路音频数据进行声源定位和声音拾取;
所述基于所述N路音频数据和所述M路音频数据进行声源定位和声音拾取包括:
对各个麦克风采集到的音频数据以及两路参考音频信号进行对应编号,并将所述N路音频数据和所述M路音频数据、两路参考音频数据存储在数据缓冲池中;
并行地从所述数据缓冲池中获取第一组音频数据和第二组音频数据,所述第一组音频数据包括所述第一麦克风阵列获取的N路音频数据、第二麦克风阵列获取的M路音频数据和所述两路参考音频数据,所述第二组音频数据包括第一麦克风阵列中与M 个麦克风连线的两个麦克风的音频数据、所述第二麦克风阵列获取的M路音频数据以及所述两路参考音频数据,对所述第一组音频数据运行唤醒算法,对所述第二组音频数据运行识别算法;
所述N路音频数据包括6路音频数据,所述M路音频数据包括2路音频数据;
将第一麦克风获取到的音频数据编号为第一音频数据,将第二麦克风获取到的音频数据编号为第二音频数据,将第三麦克风获取到的音频数据编号为第三音频数据,将第四麦克风获取到的音频数据编号为第四音频数据,将第五麦克风获取到的音频数据编号为第五音频数据,将第六麦克风获取到的音频数据编号为第六音频数据,将第七麦克风获取到的音频数据编号为第七音频数据,将第八麦克风获取到的音频数据编号为第八音频数据,将第一路参考音频数据编号为第九音频数据,将第二路参考音频数据编号为第十音频数据;
所述第一组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第九音频数据以及第十音频数据;
所述第二组音频数据包括:第一音频数据、第二音频数据、第七音频数据、第八音频数据、第九音频数据以及第十音频数据。
2.根据权利要求1所述的机器人,其特征在于,所述拾音模块还包括MIC小板;
所述MIC小板分别与所述麦克风阵列和所述主控模块电连接;
所述MIC小板对所述M路音频数据和所述N路音频数据进行模数转换和编码后传输至所述主控模块。
3.根据权利要求2所述的机器人,其特征在于,所述MIC小板包括分别与所述麦克风阵列和所述主控模块电连接的模数转换器。
4.根据权利要求1所述的机器人,其特征在于,所述第一麦克风阵列包括6个麦克风,所述6个麦克风设置于所述机器人的颈部,所述6个麦克风分布于以所述机器人的机身纵轴线上的任一点为圆心的圆周,所述圆周垂直于所述纵轴线。
5.根据权利要求1所述的机器人,其特征在于,所述主控模块从功放引入参考音频数据并输入到MIC小板,所述MIC小板还用于对上述参考音频数据进行模数转换和编码后传输至所述主控模块。
6.根据权利要求5所述的机器人,其特征在于,还包括与所述主控模块电连接的功放;
所述主控模块获取所述功放播放的音频数据,并根据喇叭播放的音频数据生成参考音频数据。
7.根据权利要求1所述的机器人,其特征在于,所述主控模块包括数据缓冲池,所述数据缓冲池用于存储所述M路音频数据和所述N路音频数据。
8.一种基于权利要求1所述的机器人的音频数据处理方法,其特征在于,包括:
通过拾音模块的N个麦克风和M个麦克风采集音频数据;
将所述N个麦克风采集的N路音频数据、M个麦克风采集的M路音频数据及参考音频数据发送至主控模块;
所述主控模块将所述N路音频数据、所述M路音频数据及参考音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取;
对各个麦克风采集到的音频数据以及两路音频数据进行对应编号,并将所述N路音频数据和所述M路音频数据、两路参考音频数据存储在数据缓冲池中;
并行地从所述数据缓冲池中获取第一组音频数据和第二组音频数据,所述第一组音频数据包括所述第一麦克风阵列获取的N路音频数据、第二麦克风阵列获取的M路音频数据和所述两路参考音频数据,所述第二组音频数据包括所述第一麦克风阵列中与M 个麦克风连线的两个麦克风的音频数据、所述第二麦克风阵列获取的M路音频数据以及所述两路参考音频数据,对所述第一组音频数据运行唤醒算法,对所述第二组音频数据运行识别算法;
所述N路音频数据包括6路音频数据,所述M路音频数据包括2路音频数据;
将第一麦克风获取到的音频数据编号为第一音频数据,将第二麦克风获取到的音频数据编号为第二音频数据,将第三麦克风获取到的音频数据编号为第三音频数据,将第四麦克风获取到的音频数据编号为第四音频数据,将第五麦克风获取到的音频数据编号为第五音频数据,将第六麦克风获取到的音频数据编号为第六音频数据,将第七麦克风获取到的音频数据编号为第七音频数据,将第八麦克风获取到的音频数据编号为第八音频数据,将第一路参考音频数据编号为第九音频数据,将第二路参考音频数据编号为第十音频数据;
所述第一组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第九音频数据以及第十音频数据;
所述第二组音频数据包括:第一音频数据、第二音频数据、第七音频数据、第八音频数据、第九音频数据以及第十音频数据。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624983.0A CN111383650B (zh) | 2018-12-28 | 2018-12-28 | 一种机器人及其音频数据处理方法 |
US16/447,978 US10827258B2 (en) | 2018-12-28 | 2019-06-21 | Robot and audio data processing method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624983.0A CN111383650B (zh) | 2018-12-28 | 2018-12-28 | 一种机器人及其音频数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111383650A CN111383650A (zh) | 2020-07-07 |
CN111383650B true CN111383650B (zh) | 2024-05-03 |
Family
ID=71121873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811624983.0A Active CN111383650B (zh) | 2018-12-28 | 2018-12-28 | 一种机器人及其音频数据处理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10827258B2 (zh) |
CN (1) | CN111383650B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115150712A (zh) * | 2022-06-07 | 2022-10-04 | 中国第一汽车股份有限公司 | 一种车载麦克风系统及汽车 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007221300A (ja) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | ロボット及びロボットの制御方法 |
US8983089B1 (en) * | 2011-11-28 | 2015-03-17 | Rawles Llc | Sound source localization using multiple microphone arrays |
CN106098075A (zh) * | 2016-08-08 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 基于麦克风阵列的音频采集方法和装置 |
CN108254721A (zh) * | 2018-04-13 | 2018-07-06 | 歌尔科技有限公司 | 一种机器人声源定位方法和机器人 |
CN108322859A (zh) * | 2018-02-05 | 2018-07-24 | 北京百度网讯科技有限公司 | 用于回声消除的设备、方法和计算机可读存储介质 |
CN207676650U (zh) * | 2017-08-22 | 2018-07-31 | 北京捷通华声科技股份有限公司 | 一种基于6麦克风环形阵列的语音处理装置和智能设备 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN209551787U (zh) * | 2018-12-28 | 2019-10-29 | 深圳市优必选科技有限公司 | 一种机器人 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102392113B1 (ko) * | 2016-01-20 | 2022-04-29 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 명령 처리 방법 |
US10924873B2 (en) * | 2018-05-30 | 2021-02-16 | Signify Holding B.V. | Lighting device with auxiliary microphones |
US11026019B2 (en) * | 2018-09-27 | 2021-06-01 | Qualcomm Incorporated | Ambisonic signal noise reduction for microphone arrays |
-
2018
- 2018-12-28 CN CN201811624983.0A patent/CN111383650B/zh active Active
-
2019
- 2019-06-21 US US16/447,978 patent/US10827258B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007221300A (ja) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | ロボット及びロボットの制御方法 |
US8983089B1 (en) * | 2011-11-28 | 2015-03-17 | Rawles Llc | Sound source localization using multiple microphone arrays |
CN106098075A (zh) * | 2016-08-08 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 基于麦克风阵列的音频采集方法和装置 |
CN207676650U (zh) * | 2017-08-22 | 2018-07-31 | 北京捷通华声科技股份有限公司 | 一种基于6麦克风环形阵列的语音处理装置和智能设备 |
CN108322859A (zh) * | 2018-02-05 | 2018-07-24 | 北京百度网讯科技有限公司 | 用于回声消除的设备、方法和计算机可读存储介质 |
CN108254721A (zh) * | 2018-04-13 | 2018-07-06 | 歌尔科技有限公司 | 一种机器人声源定位方法和机器人 |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN209551787U (zh) * | 2018-12-28 | 2019-10-29 | 深圳市优必选科技有限公司 | 一种机器人 |
Also Published As
Publication number | Publication date |
---|---|
US20200213724A1 (en) | 2020-07-02 |
CN111383650A (zh) | 2020-07-07 |
US10827258B2 (en) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111383649B (zh) | 一种机器人及其音频处理方法 | |
WO2018137704A1 (zh) | 一种基于麦克风阵列的拾音方法及系统 | |
US9596554B2 (en) | Methods circuits devices systems and associated computer executable code for acquiring acoustic signals | |
CN106792415B (zh) | 一种用于数字麦克风阵列的测试方法及装置 | |
WO2003103336A3 (en) | AUDIO IMAGING METHOD AND SYSTEM | |
WO2009075085A1 (ja) | 収音装置、収音方法、収音プログラム、および集積回路 | |
CN111383650B (zh) | 一种机器人及其音频数据处理方法 | |
CN209551787U (zh) | 一种机器人 | |
CN111883161A (zh) | 一种音频采集和位置识别的方法及装置 | |
CN202773062U (zh) | 高信噪比跟踪定向采音设备 | |
CN209551796U (zh) | 一种机器人 | |
CN106409306A (zh) | 一种获取人声的智能系统及基于该系统的获取方法 | |
CN108680902A (zh) | 一种基于多麦克风阵列的声源定位系统 | |
CN107948870A (zh) | 基于立体麦克风阵列的便携式音频降噪系统 | |
US10652653B2 (en) | Audio pickup and play circuit and system, and method for switching audio pickup and play | |
CN209514591U (zh) | 一种会议终端设备 | |
CN109473111B (zh) | 一种语音赋能装置及方法 | |
US20040170289A1 (en) | Audio conference system with quality-improving features by compensating sensitivities microphones and the method thereof | |
CN111988705B (zh) | 音频处理方法、装置、终端及存储介质 | |
CN208520985U (zh) | 一种基于多麦克风阵列的声源定位系统 | |
CN211318724U (zh) | 仿生声源定位装置及智能机器人 | |
US20190306618A1 (en) | Methods circuits devices systems and associated computer executable code for acquiring acoustic signals | |
CN206134248U (zh) | 一种智能设备的声控电路 | |
CN214591939U (zh) | 一种定向语音识别电路 | |
CN217135683U (zh) | 一种多声道远场语音电路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |