CN111383649A - 一种机器人及其音频处理方法 - Google Patents

一种机器人及其音频处理方法 Download PDF

Info

Publication number
CN111383649A
CN111383649A CN201811620508.6A CN201811620508A CN111383649A CN 111383649 A CN111383649 A CN 111383649A CN 201811620508 A CN201811620508 A CN 201811620508A CN 111383649 A CN111383649 A CN 111383649A
Authority
CN
China
Prior art keywords
audio data
robot
control module
microphone
main control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811620508.6A
Other languages
English (en)
Inventor
熊友军
邢芳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubtech Robotics Corp
Original Assignee
Ubtech Robotics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubtech Robotics Corp filed Critical Ubtech Robotics Corp
Priority to CN201811620508.6A priority Critical patent/CN111383649A/zh
Priority to US16/447,986 priority patent/US10667045B1/en
Priority to JP2019208175A priority patent/JP6692983B1/ja
Publication of CN111383649A publication Critical patent/CN111383649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Abstract

本发明适用于电子技术领域,提供了一种机器人及其音频处理方法,该机器人包括拾音模块和主控模块;拾音模块与主控模块电连接,拾音模块包括麦克风阵列,麦克风阵列包括N个麦克风;N个麦克风环绕机器人的机身均匀分布,主控模块获取麦克风阵列采集的N路音频数据,并基于音频数据进行声源定位和声音拾取。通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据和参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,无需在机器人头部开设麦克风孔,不会影响机器人的美观。

Description

一种机器人及其音频处理方法
技术领域
本发明属于电子技术领域,尤其涉及一种机器人及其音频处理方法。
背景技术
在设计机器人时,如果麦克风阵列的位置摆放不正确,则会影响语音交互效果。因为麦克风阵列的波束形成(beam-forming)的最基本的要求和前提条件是:声音直达麦克风阵列中的每一个麦克风。因此,若把环形麦克风阵列放在机器人脖子处的话,机器人的脖子会挡住脖子后面的麦克风,导致声音被脖子反射不能直达机器人脖子后面麦克风,进而影响拾音效果。
针对上述问题目前市面上通常:是将环形麦克风放在机器人的头部或者同时使用环形麦克风阵列和线性麦克风阵列,将环形麦克风阵列放在机器人脖子处,用于实现机器人的360度唤醒和360度声源定位,将线性麦克风放在机器人头部,用于波束形成以进行拾音。
而将环形麦克风阵列放在机器人头部则对机器人的高度有限制,同时由于环形麦克风阵列需要处于水平静止状态才能达到较好的拾音效果,因此导致机器人的头部动作有限制,且并且环形麦克风放在机器人头部环形的开孔也会影响机器人的美观。而同时使用环形麦克风阵列和线性麦克风阵列会导致机器人身上到处都是麦克风的开孔,影响机器人的美观。
发明内容
有鉴于此,本发明实施例提供了一种机器人及其音频处理方法,以解决目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
本发明的第一方面提供了一种机器人,包括拾音模块和主控模块;
所述拾音模块与所述主控模块电连接,所述拾音模块包括麦克风阵列,所述麦克风阵列包括N个麦克风,其中N≥3且N为整数;
所述N个麦克风呈环形且均匀分布于所述机器人的机身,通过所述N个麦克风进行采集音频数据,并将N个麦克风获取到的N路音频数据传输至所述主控模块;以使所述主控模块基于所述音频数据进行声源定位和声音拾取。
本发明的第二方面提供了一种基于上书机器人的音频处理方法,包括:
通过拾音模块的N个麦克风采集音频数据;
将所述N个麦克风采集的N路音频数据发送至主控模块;
所述主控模块将所述N路音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取。
本发明提供的一种机器人及其音频处理方法,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据和参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种机器人的模块结构示意图;
图2是本发明实施例一提供的一种机器人的拾音模块40的结构示意图;
图3是本发明实施例一提供的机器人的麦克风阵列41的分布示意图;
图4是本发明实施例二提供的一种基于实施例一的机器人的音频数据处理方法的实现流程示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
需要说明的是,本发明的说明书和权利要求书中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。
本发明实施例为了解决目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题,提供了一种机器人及其音频数据处理方法,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据和参考音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
如图1所示,本实施例提供了一种机器人1,该机器人1包括拾音模块10和主控模块20。
拾音模块10与主控模块20电连接,拾音模块10包括麦克风阵列11,麦克风阵列11包括N个麦克风;其中N≥3且N为整数。
N个麦克风环绕机器人1的机身均匀分布,主控模块20获取麦克风阵列10采集的N路音频数据,并基于音频数据进行声源定位和声音拾取。
在一个实施例中,上述拾音装置10还包括MIC小板12。
MIC小板12分别与麦克风阵列11和主控模块20电连接。
MIC小板12将麦克风阵列11采集的N路音频数据进行模数转换后传输至主控模块20。具体的MIC小板将麦克风阵列11采集的N路模拟音频数据转换为数字音频数据,再将该数字音频数据传输至主控模块20。
在一个实施例中,上述MIC小板12包括分别与麦克风阵列11和主控模块20电连接的模数转换器121。通过模数转换器121对N路音频数据进行模数转换。
在具体应用中,MIC小板12能够将每个麦克风采集到的模拟音频数据转换成相应的数字音频数据,再将数字音频数据进行编号,并将编号完成的数字音频数据发送给主控模块。
在具体应用中,如图2所示,上述拾音模块10包括与麦克风阵列11通过麦克风线实现电连接的MIC小板12,该MIC小板包括模数转换器121。MIC小板通过I2S总线、I2C总线以及电源线与主控模块20电连接。MIC小板12将麦克风阵列11采集到的N路音频数据通过模数转换器121进行模数转换,再将转换后的N路音频数据进行融合,并通过I2S接口将融合后的音频数据传输到主控模块20中。上述MIC小板还分别对N路音频数据进行编号,通过编号将音频数据与采集到该音频数据的麦克风进行对应。
在一个实施例中,上述第一麦克风阵列包括6个麦克风,6个麦克风设置于机器人的机身,6个麦克风分布于以机器人的机身30纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线。
在具体应用中,上述机器人为人形机器人,上述人形机器人包括头部和机身,机身包括颈部,上述6个麦克风设置在上述机器人的颈部。
在具体应用中,如图3所示,麦克风阵列11包括第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6,其中,第一麦克风MIC1和第二麦克风MIC2位于垂直于机器人机身30纵轴线的水平线上,第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6按照等间距按照每两个麦克风与机器人的机身30纵轴线上的任一点为圆心的圆周的圆心形成的夹角为60度,即按360度环绕机器人的颈部均匀分布。第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3、第四麦克风MIC4、第五麦克风MIC5以及第六麦克风MIC6构成环绕机器人颈部的环形6MIC的麦克风阵列。
在一个实施例中,所述主控模块从功放引入参考音频数据并输入到MIC小板,所述MIC小板还用于对上述参考音频数据进行模数转换和编码后传输至所述主控模块。在具体应用中,上述通过主控模块向MIC小板12输入参考音频数据,通过MIC小板12将输入的参考音频数据进行编号并与上述N路音频数据进行融合后,通过I2S接口发送至主控单元20。主控单元20根据这参考音频数据来对回声进行消除,滤除环境杂音的影响,进一步提高声源定位的准确度和语音识别的准确度。
在一个实施例中,上述机器人还包括与主控模块20电连接的功放30。
主控模块20获取功放30播放的音频数据,并根据功放30播放的音频数据生成参考音频数据。
在具体应用中,若上述主控模块对应播放音频是双声道则生成两路参考音频数据;若上述主控模块对应播放音频是单声道则生成一路参考音频数据;若主控模块对应播放音频是四声道则生成四路参考音频数据。以双声道为例,主控模块会直接通过数据线连接到MIC小板,再将主控模块的功放处播放的两路参考音频数据传到MIC小板。
在一个实施例中,上述主控模块20包括数据缓冲池21(buffer池),数据缓冲池用于存储N路音频数据。在一个实施例中,上述缓冲池不仅存储了N路音频数据,还存储了从MIC小板传输过来的参考音频数据。
在具体应用中,主控模块20将从MIC小板12的I2S接口获取到的N路音频数据以及参考音频数据存储在上述数据缓冲池51中。通过控制模块20根据数据缓冲池中的音频数据进行数据复用,通过运行预设算法来实现360度唤醒以及形成波束以进行拾音。需要说明的是,上述预设算法是指现有的根据采集到的音频数据进行声源定位的定位算法、现有的根据采集到的音频数据进行机器人唤醒的唤醒算法以及现有的根据采集到的音频数据进行波束形成及拾音的波束形成拾音算法。
在具体应用中,通过环形6MIC采集到的对应的音频数据以及两路参考音频数据(共八路音频数据)进行机器人唤醒,即根据上述八路音频数据进行声源定位,通过声源定位确定声源位置与当前位置的角度差,控制机器人按照该角度差进行转向并唤醒机器人,在唤醒机器人后,通过上述环形6MIC中的第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3以及第六麦克风MIC6采集到的音频数据和两路参考音频数据(共六路音频数据)进行波束形成拾音和语音识别,即根据上述六路音频数据进行降噪,回声消除后得到用于语音识别的音频数据,通过将该音频数据由语音设备单元进行识别后,将语音数据转换为文字。
在一个实施例中,上述主控模块20可以是安卓开发板,在上述安卓开发板的软件层设置一个数据缓冲池,将拾音模块10发送过来的N路音频数据以及两路参考音频数据进行编号并存储在上述数据缓冲池中,通过并行运行唤醒算法和识别算法,并行地从数据缓冲池中获取所需的音频数据。需要说明的是,上述唤醒算法可以采用现有的各种语音唤醒算法,上述识别算法可以采用现有的各种语音识别算法。通过对麦克风采集的音频数据进行复用,将部分麦克风获取到的音频数据既供唤醒算法使用,又供识别算法使用。使得位于机器人颈部的麦克风阵列依然能够实现360度的声源定位和360度唤醒,同时保证用于语音识别的音频数据的采集(波束形成拾音),不影响语音识别。也无需在机器人的头部开设麦克风孔,不会影响机器人的美观。
本实施例提供的一种机器人,通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
实施例二:
如图4所示,本实施例提供了一种基于实施例一所提供的机器人的语音处理方法,具体包括:
步骤S101:通过拾音模块的N个麦克风采集音频数据。
在具体应用中,通过设置于机器人机身的N个麦克风进行音频数据采集。上述N个麦克风分布于以机器人的机身纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线,N≥3且N为整数。
在一个实施例中,上述N个麦克风为6个麦克风,6个麦克风设置于机器人的颈部,6个麦克风分布于以机器人的机身纵轴线上的任一点为圆心的圆周,圆周垂直于纵轴线,6个麦克风形成环形6MIC阵列。
步骤S102:将所述N个麦克风采集的N路音频数据发送至主控模块。
在具体应用中,通过将N个麦克风采集到的N路音频数据发送到主控模块,通过主控模块根据上述音频数据实现声源定位和声音拾取。
在具体应用中,通过与麦克风阵列的N个麦克风电连接的MIC小板,对N路音频数据进行模数转换后,对模数转换后的音频数据进行数据融合,再将融合了的音频数据传输给主控模块。
在具体应用中,MIC小板在进行数据融合时,通过导入参考音频信号,将参考音频信号与上述N路音频数据进行数据融合,将融合后的数字音频数据传输给主控模块。
在具体应用中,上述MIC小板还将各路音频数据进行对应编号,对上述N路音频数据以及两路参考音频数据分别进行编号。
步骤S103:所述主控模块将所述N路音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取。
在具体应用中,主控模块根据存储在数据缓冲池中的音频数据运行对应的算法,来进行声源定位和声音拾取,以实现唤醒和语音识别。具体的,主控模块根据运行的算法从上述数据缓冲池中获取对应编码的音频数据,并运行对应的算法。
在具体应用中,主控模块通过从数据缓冲池中获取N路音频数据以及两路参考音频数据,并根据N路音频数据以及两路参考音频数据运行唤醒算法,实现对机器人的360度唤醒。主控模块并行地从数据缓冲池中第一麦克风MIC1获取的音频数据、第二麦克风MIC2获取的音频数据以及两路参考音频数据,并根据第一麦克风MIC1获取的音频数据、第二麦克风MIC2获取的音频数据第三麦克风MIC3获取的音频数据、第六麦克风MIC6获取的音频数据以及两路参考音频数据运行识别算法,实现对用户说的话进行语音识别。
在一个实施例中,上述步骤S103具体包括以下步骤:
步骤S1031:将两路参考音频数据与所述N路音频数据存储至所述数据缓冲池中。
步骤S1032:从所述数据缓冲池中获取第一组音频数据,通过第一预设算法定位声源位置。
步骤S1033:从所述数据缓冲池中获取第二组音频数据,通过第二预设算法对所述第二组音频数据进行波束形成及音频降噪处理。
在一个实施例中,上述N路音频数据包括6路音频数据。
在具体应用中,对各个麦克风采集到的音频数据进行对应编号,即第一麦克风获取到的音频数据编号为第一音频数据,第二麦克风获取到的音频数据编号为第二音频数据,第三麦克风获取到的音频数据编号为第三音频数据,第四麦克风获取到的音频数据编号为第四音频数据,第五麦克风获取到的音频数据编号为第五音频数据,第六麦克风获取到的音频数据编号为第六音频数据,将第一路参考音频数据编号为第七音频数据,将第二路参考音频数据编号为第八音频数据。上述第一组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第七音频数据以及第八音频数据;上述第二组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第六音频数据、第七音频数据以及第八音频数据。
在具体应用中,通过环形6MIC采集到的对应的音频数据以及两路参考音频数据(共八路音频数据)进行回声消除、360声源定位及机器人唤醒,即根据第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第七音频数据以及第八音频数据进行回声消除、声源定位,通过声源定位确定声源位置与当前位置的角度差,控制机器人按照该角度差进行转向并唤醒机器人,在唤醒机器人后,通过第一麦克风MIC1采集到的音频数据和第二麦克风MIC2采集到的音频数据、第三麦克风MIC3采集的音频数据、第六麦克风MIC6采集的音频数据及两路参考音频数据(共六路音频数据)进行回声消除、降噪、波束形成拾音及语音识别,即根据第一音频数据、第二音频数据、第三音频数据、第六音频数据、第七音频数据以及第八音频数据进行降噪,回声消除后得到用于语音识别的音频数据,通过将该音频数据由语音设备单元进行识别后,将语音数据转换为文字,实现语音识别。
需要说明的是,当用户站在机器人正前方,用户的声音能够直达的MIC组成MIC阵列,就能够用来做波束形成。在本实施中使用的是环形6MIC,那么只要用户站在机器人正前方,声音能够直达的环形MIC阵列的所有MIC,由这些MIC组成半圆形MIC阵列的麦克风在采集声音时就不会被遮挡,因此采用半圆形MIC阵列(第一麦克风MIC1、第二麦克风MIC2、第三麦克风MIC3及第六麦克风MIC6组成的半圆形MIC阵列)采集到的音频数据来做波束形成就能够较好地拾音。还需要说明的是,上述只是本实施例的一种实施方式,只要用户站在机器人正前方时,用户的声音能够直达(不被遮挡)的麦克风都能够用来实现波束形成,在此不加以限制。
需要说明的是,上述第一预设算法为现有的能够实现声源定位和机器人唤醒的唤醒算法,上述第二预设算法为现有的能够实现语音识别的算法。
本实施例提供的基于实施例一提供的机器人来实现的音频数据处理方法,同样能够通过在机器人的机身设置由呈环形且均匀分布的N个麦克风组成的麦克风阵列进行音频数据采集,再将采集到N路音频数据传输到主控模块中,通过主控模块基于该音频数据实现声源定位和声音拾取,即能够支持机器人的360度唤醒和声源定位,又能够支持定向波束的形成,实现声音拾取,不会造成对机器人的高度的限制,也不会限制机器人的头部动作,解决了目前由于设置环形麦克风阵列的位置而导致机器人的高度及头部动作被限制且不美观的问题。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种机器人,其特征在于,所述机器人包括拾音模块和主控模块;
所述拾音模块与所述主控模块电连接,所述拾音模块包括麦克风阵列,所述麦克风阵列包括N个麦克风,其中N≥3且N为整数;
所述N个麦克风环绕所述机器人的机身均匀分布,所述主控模块获取所述麦克风阵列采集的N路音频数据,并基于所述音频数据进行声源定位和声音拾取。
2.根据权利要求1所述的机器人,其特征在于,所述拾音装置还包括MIC小板;
所述MIC小板分别与所述麦克风阵列和所述主控模块电连接;
所述MIC小板将所述麦克风阵列采集的N路模拟音频数据转换为数字音频数据和编码,并将所述数字音频数据和编码传输至所述主控模块。
3.根据权利要求2所述的机器人,其特征在于,所述MIC小板包括与所述麦克风阵列和所述主控模块电连接的模数转换器,所述模数转换器对N路音频数据进行模数转换。
4.根据权利要求1所述的机器人,其特征在于,所述克风阵列包括6个麦克风,所述6个麦克风设置于所述机器人的机身,所述6个麦克风分布于以所述机身纵轴线上的任一点为圆心的圆周,所述圆周垂直于所述纵轴线。
5.根据权利要求2所述的机器人,其特征在于,所述主控模块从功放引入参考音频数据并输入到MIC小板,所述MIC小板还用于对上述参考音频数据进行模数转换和编码后传输至所述主控模块。
6.根据权利要求5所述的机器人,其特征在于,还包括与所述主控模块电连接的功放;
控制主控模块获取所述功放播放的音频数据,并根据所述功放播放的音频数据生成参考音频数据。
7.根据权利要求1所述的机器人,其特征在于,所述主控模块包括数据缓冲池,所述数据缓冲池用于存储所述N路音频数据。
8.一种基于权利要求1所述的机器人实现的音频处理方法,其特征在于,包括:
通过拾音模块的N个麦克风采集音频数据;
将所述N个麦克风采集的N路音频数据发送至主控模块;
所述主控模块将所述N路音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取。
9.根据权利要求8所述的音频处理方法,其特征在于,所述主控模块将所述N路音频数据存储在数据缓冲池中,并根据音频数据进行声源定位和声音拾取,包括:
将两路参考音频数据与所述N路音频数据存储至所述数据缓冲池中;
从所述数据缓冲池中获取第一组音频数据,通过第一预设算法定位声源位置;
从所述数据缓冲池中获取第二组音频数据,通过第二预设算法对所述第二组音频数据进行波束形成及音频降噪处理。
10.根据权利要求9所述的音频处理方法,其特征在于,所述N路音频数据为6路音频数据;
将第一麦克风获取到的音频数据编号为第一音频数据,将第二麦克风获取到的音频数据编号为第二音频数据,将第三麦克风获取到的音频数据编号为第三音频数据,将第四麦克风获取到的音频数据编号为第四音频数据,将第五麦克风获取到的音频数据编号为第五音频数据,将第六麦克风获取到的音频数据编号为第六音频数据,将第一路参考音频数据编号为第七音频数据,将第二路参考音频数据编号为第八音频数据;
所述第一组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第四音频数据、第五音频数据、第六音频数据、第七音频数据以及第八音频数据;
所述第二组音频数据包括:第一音频数据、第二音频数据、第三音频数据、第六音频数据、第七音频数据以及第八音频数据。
CN201811620508.6A 2018-12-28 2018-12-28 一种机器人及其音频处理方法 Pending CN111383649A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811620508.6A CN111383649A (zh) 2018-12-28 2018-12-28 一种机器人及其音频处理方法
US16/447,986 US10667045B1 (en) 2018-12-28 2019-06-21 Robot and auto data processing method thereof
JP2019208175A JP6692983B1 (ja) 2018-12-28 2019-11-18 ロボット及びそのオーディオデータ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811620508.6A CN111383649A (zh) 2018-12-28 2018-12-28 一种机器人及其音频处理方法

Publications (1)

Publication Number Publication Date
CN111383649A true CN111383649A (zh) 2020-07-07

Family

ID=70549763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811620508.6A Pending CN111383649A (zh) 2018-12-28 2018-12-28 一种机器人及其音频处理方法

Country Status (3)

Country Link
US (1) US10667045B1 (zh)
JP (1) JP6692983B1 (zh)
CN (1) CN111383649A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112230654A (zh) * 2020-09-28 2021-01-15 深兰科技(上海)有限公司 机器人及其召唤方法和装置
CN115359804A (zh) * 2022-10-24 2022-11-18 北京快鱼电子股份公司 一种基于麦克风阵列的定向音频拾取方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104934033A (zh) * 2015-04-21 2015-09-23 深圳市锐曼智能装备有限公司 机器人的声源定位、唤醒识别的控制方法及其控制系统
CN106683684A (zh) * 2016-12-05 2017-05-17 上海木爷机器人技术有限公司 音频信号处理系统和音频信号处理方法
CN106782585A (zh) * 2017-01-26 2017-05-31 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及系统
US20170206900A1 (en) * 2016-01-20 2017-07-20 Samsung Electronics Co., Ltd. Electronic device and voice command processing method thereof
CN207676650U (zh) * 2017-08-22 2018-07-31 北京捷通华声科技股份有限公司 一种基于6麦克风环形阵列的语音处理装置和智能设备
CN209551796U (zh) * 2018-12-28 2019-10-29 深圳市优必选科技有限公司 一种机器人

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3891153B2 (ja) * 2003-07-31 2007-03-14 ソニー株式会社 通話装置
JP2007221300A (ja) 2006-02-15 2007-08-30 Fujitsu Ltd ロボット及びロボットの制御方法
JP4536020B2 (ja) 2006-03-13 2010-09-01 Necアクセステクニカ株式会社 雑音除去機能を有する音声入力装置および方法
JP2007295085A (ja) * 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法
JP2008278399A (ja) 2007-05-07 2008-11-13 Yamaha Corp 放収音装置
EP2197219B1 (en) * 2008-12-12 2012-10-24 Nuance Communications, Inc. Method for determining a time delay for time delay compensation
JP5251808B2 (ja) 2009-09-24 2013-07-31 富士通株式会社 雑音除去装置
JP5595112B2 (ja) * 2010-05-11 2014-09-24 本田技研工業株式会社 ロボット
US10269343B2 (en) * 2014-08-28 2019-04-23 Analog Devices, Inc. Audio processing using an intelligent microphone
CN105163209A (zh) * 2015-08-31 2015-12-16 深圳前海达闼科技有限公司 一种接收声音的处理方法及装置
EP3515088A4 (en) * 2016-09-13 2019-07-31 Sony Corporation SOUND SOUND POSITION ESTIMATING DEVICE AND CLOTHING DEVICE
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
WO2019070722A1 (en) * 2017-10-03 2019-04-11 Bose Corporation SPACE DIAGRAM DETECTOR
US10959029B2 (en) * 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104934033A (zh) * 2015-04-21 2015-09-23 深圳市锐曼智能装备有限公司 机器人的声源定位、唤醒识别的控制方法及其控制系统
US20170206900A1 (en) * 2016-01-20 2017-07-20 Samsung Electronics Co., Ltd. Electronic device and voice command processing method thereof
CN106683684A (zh) * 2016-12-05 2017-05-17 上海木爷机器人技术有限公司 音频信号处理系统和音频信号处理方法
CN106782585A (zh) * 2017-01-26 2017-05-31 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及系统
CN207676650U (zh) * 2017-08-22 2018-07-31 北京捷通华声科技股份有限公司 一种基于6麦克风环形阵列的语音处理装置和智能设备
CN209551796U (zh) * 2018-12-28 2019-10-29 深圳市优必选科技有限公司 一种机器人

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112230654A (zh) * 2020-09-28 2021-01-15 深兰科技(上海)有限公司 机器人及其召唤方法和装置
CN115359804A (zh) * 2022-10-24 2022-11-18 北京快鱼电子股份公司 一种基于麦克风阵列的定向音频拾取方法和系统
CN115359804B (zh) * 2022-10-24 2023-01-06 北京快鱼电子股份公司 一种基于麦克风阵列的定向音频拾取方法和系统

Also Published As

Publication number Publication date
JP2020109941A (ja) 2020-07-16
US10667045B1 (en) 2020-05-26
JP6692983B1 (ja) 2020-05-13

Similar Documents

Publication Publication Date Title
US9838785B2 (en) Methods circuits devices systems and associated computer executable code for acquiring acoustic signals
Okuno et al. Robot audition: Its rise and perspectives
CN204836533U (zh) 一种具有回声消除功能的声控智能音箱
WO2003103336A3 (en) AUDIO IMAGING METHOD AND SYSTEM
WO2009009568A3 (en) Augmented elliptical microphone array
CN111383649A (zh) 一种机器人及其音频处理方法
EP1085782A3 (en) Voice control system with a microphone array
CN110349582B (zh) 显示装置与远场语音处理电路
WO2010138729A3 (en) Digital air gun
CN205584434U (zh) 一种智能耳机
GB2598870A8 (en) Flexible voice capture front-end for headsets
CN209551787U (zh) 一种机器人
CN111383650A (zh) 一种机器人及其音频数据处理方法
CN203399256U (zh) 耳道麦克风及其使用装置
CN209551796U (zh) 一种机器人
CN108966086A (zh) 基于目标位置变化的自适应定向音频系统及其控制方法
CN108680902A (zh) 一种基于多麦克风阵列的声源定位系统
WO2018193162A3 (en) Audio signal generation for spatial audio mixing
CN108243381A (zh) 具有自适应双耳听觉引导的听力设备和相关方法
CN209514591U (zh) 一种会议终端设备
CN207676616U (zh) 一种基于语音交互的智能广告牌
CN109473111A (zh) 一种语音赋能装置及方法
US11217268B2 (en) Real-time augmented hearing platform
CN207869317U (zh) 一种应用于智能机器人的环形麦克风阵列模块
US20190306618A1 (en) Methods circuits devices systems and associated computer executable code for acquiring acoustic signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination