CN111028840A - 基于三维麦克风阵列的无人机语音控制系统 - Google Patents

基于三维麦克风阵列的无人机语音控制系统 Download PDF

Info

Publication number
CN111028840A
CN111028840A CN201911349011.XA CN201911349011A CN111028840A CN 111028840 A CN111028840 A CN 111028840A CN 201911349011 A CN201911349011 A CN 201911349011A CN 111028840 A CN111028840 A CN 111028840A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
voice
voice control
control information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911349011.XA
Other languages
English (en)
Inventor
张燕
秦娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Areox Technologies Co ltd
Original Assignee
Shenzhen Areox Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Areox Technologies Co ltd filed Critical Shenzhen Areox Technologies Co ltd
Priority to CN201911349011.XA priority Critical patent/CN111028840A/zh
Publication of CN111028840A publication Critical patent/CN111028840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种基于三维麦克风阵列的无人机语音控制系统,应用于无人机,无人机上设有摄像头,包括,麦克风,麦克风设有多个,多个麦克风分别设在无人机的机身外壳上,呈长方体结构排列,所述麦克风用于接收人的语音控制信息;语音处理模块,语音处理模块设于无人机内部,与麦克风电信号连接,用于将麦克风接收到的语音控制信息进行识别处理,将语音控制信息转换为对应的控制指令;无人机控制模块,与语音处理模块电信号连接,用于控制无人机执行所述语音处理模块识别处理得到的控制指令。本发明将麦克风阵列安装在无人机上,不需要额外的手持装置采集语音信号,使用更加简单,采用三维麦克风阵列结构,可远距离全方位收音。

Description

基于三维麦克风阵列的无人机语音控制系统
技术领域
本发明涉及无人机语音控制系统,尤其是指一种基于三维麦克风阵列的无人机语音控制系统。
背景技术
近年来,无人机技术领域快速发展,无人机早已从特定专业应用拓展到消费级应用领域,能够让用户体验航拍、高清摄影和全景拍摄等好玩有趣功能。不过现有技术中,无人机主要是依赖于遥控器进行操控的,使用遥控器对操作技能要求较高,操控复杂。这对大部分用户来讲,使用起来受到了一定的限制,不够便携,而且在某些特定场合也可能不如语音、手势这样的操作更简单方便。
发明内容
本发明所要解决的技术问题是:提供一种基于三维麦克风阵列的无人机语音控制系统,旨在实现无人机的语音控制。
为了解决上述技术问题,本发明采用的技术方案为:一种基于三维麦克风阵列的无人机语音控制系统,应用于无人机,无人机上设有摄像头,包括,
麦克风,麦克风设有多个,多个麦克风分别设在无人机的机身外壳上,呈长方体结构排列,所述麦克风用于接收人的语音控制信息;
语音处理模块,语音处理模块设于无人机内部,与麦克风电信号连接,用于将麦克风接收到的语音控制信息进行识别处理,将语音控制信息转换为对应的控制指令;
无人机控制模块,与语音处理模块电信号连接,用于控制无人机执行所述语音处理模块识别处理得到的控制指令。
进一步的,所述语音处理模块可识别的语音控制信息包括,起飞、降落、前进、后退、向左,向右、录像、拍照。
进一步的,语音处理模块,还用于根据多个麦克风从不同空间方向接收到的语音控制信息,通过声波抵达每个麦克风之间的时差,定位出声源的位置;
无人机控制模块,还用于根据声源的位置,控制摄像头对发出语音控制信息的人进行跟踪。
进一步的,所述语音处理模块包括,
降噪单元,用于对接收到的语音控制信息进行背景降噪处理;
语音信号增强单元,用于对降噪处理后的语音控制信息进行信号增强;
语音识别器单元,用于从信号增强后的语音控制信息中识别出控制内容;
指令编码生成单元,将控制内容进行编码处理生成控制指令。
进一步的,所述麦克风设有八个,八个麦克风在无人机机身外壳上呈长方体结构排列。
进一步的,所述麦克风的排列结构还包括,线性排列结构、环形排列结构、四面体排列结构。
进一步的,所述无人机为多旋翼无人飞行器。
本发明的有益效果在于:本方案将麦克风阵列安装在无人机上,不需要额外的手持装置采集语音信号,使用更加简单,采用三维麦克风阵列结构,可远距离全方位收音,语音处理模块将语音控制信息转换为对应的控制指令,无人机控制模块根据控制指令来控制无人机。
附图说明
下面结合附图详述本发明的具体结构。
图1为本发明的基于三维麦克风阵列的无人机语音控制系统的模块示意图;
图2为本发明的基于三维麦克风阵列的无人机语音控制系统的结构前视图;
图3为本发明的基于三维麦克风阵列的无人机语音控制系统的结构后视图;
其中,1-无人机、2-语音处理模块、3-摄像头、4-第一麦克风、5-第二麦克风、6-第三麦克风、7-第四麦克风、8-第五麦克风、9-第六麦克风、10、第七麦克风、11-第八麦克风;30-麦克风、40-无人机控制模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1,图2,图3所示,本发明的一实施例为:一种基于三维麦克风阵列的无人机语音控制系统,应用于无人机1,无人机1上设有摄像头3,包括,
麦克风30,麦克风30设有多个,多个麦克风分别设在无人机1的机身外壳上,呈长方体结构排列,所述麦克风30用于接收人的语音控制信息;
语音处理模块2,语音处理模块2设于无人机1内部,与麦克风30电信号连接,用于将麦克风30接收到的语音控制信息进行识别处理,将语音控制信息转换为对应的控制指令;
无人机控制模块40,与语音处理模块2电信号连接,用于控制无人机1执行所述语音处理模块2识别处理得到的控制指令。
优选地,所述语音处理模块2可识别的语音控制信息包括,起飞、降落、前进、后退、向左,向右、录像、拍照。
本实施例中,将麦克风30阵列安装在无人机上,不需要额外的手持装置采集语音信号,使用更加简单,采用三维麦克风阵列结构,可远距离全方位收音,语音处理模块2将语音控制信息转换为对应的控制指令,无人机控制模块40根据控制指令来控制无人机。
在一具体实施例中,语音处理模块2,还用于根据多个麦克风从不同空间方向接收到的语音控制信息,通过声波抵达每个麦克风之间的时差,定位出声源的位置;
无人机控制模块40,还用于根据声源的位置,控制摄像头3对发出语音控制信息的人进行跟踪。
本实施例中,通过多个麦克风的立体阵列可以得到信号的水平方位角、垂直方位角和声源与麦克风阵列参考点距离这三维信息,可实时探测出说话人相对于麦克风阵列的方位以及距离,使摄像头能实时跟踪移动着的说话人,通过语音控制无人机拍照和录像。
在一具体实施例中,所述语音处理模块2包括,
降噪单元21,用于对接收到的语音控制信息进行背景降噪处理;
语音信号增强单元22,用于对降噪处理后的语音控制信息进行信号增强;
语音识别器单元23,用于从信号增强后的语音控制信息中识别出控制内容;
指令编码生成单元24,将控制内容进行编码处理生成控制指令。
本实施例中,通过降噪单元21中的阵列算法处理后,能够将环境中的噪音干扰过滤掉,能够有效提高语音识别率。
在一具体实施中,所述麦克风设有八个,八个麦克风在无人机机身外壳上呈长方体结构排列。
如图2,图3所示,八个麦克风分别为:第一麦克风4、第二麦克风5、第三麦克风6、第四麦克风7、第五麦克风8、第六麦克风9、第七麦克风10、第八麦克风11,八个麦克风形成长方体麦克风阵列。
进一步的,所述麦克风的排列结构还包括,线性排列结构、环形排列结构、四面体排列结构。
进一步的,所述无人机为多旋翼无人飞行器。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种基于三维麦克风阵列的无人机语音控制系统,应用于无人机,无人机上设有摄像头,其特征在于:包括,
麦克风,麦克风设有多个,多个麦克风分别设在无人机的机身外壳上,呈长方体结构排列,所述麦克风用于接收人的语音控制信息;
语音处理模块,语音处理模块设于无人机内部,与麦克风电信号连接,用于将麦克风接收到的语音控制信息进行识别处理,将语音控制信息转换为对应的控制指令;
无人机控制模块,与语音处理模块电信号连接,用于控制无人机执行所述语音处理模块识别处理得到的控制指令。
2.如权利要求1所述的基于三维麦克风阵列的无人机语音控制系统,其特征在于:所述语音处理模块可识别的语音控制信息包括,起飞、降落、前进、后退、向左,向右、录像、拍照。
3.如权利要求2所述的基于三维麦克风阵列的无人机语音控制系统,其特征在于:语音处理模块,还用于根据多个麦克风从不同空间方向接收到的语音控制信息,通过声波抵达每个麦克风之间的时差,定位出声源的位置;
无人机控制模块,还用于根据声源的位置,控制摄像头对发出语音控制信息的人进行跟踪。
4.如权利要求1-3任一项所述的基于三维麦克风阵列的无人机语音控制系统,其特征在于:所述语音处理模块包括,
降噪单元,用于对接收到的语音控制信息进行背景降噪处理;
语音信号增强单元,用于对降噪处理后的语音控制信息进行信号增强;
语音识别器单元,用于从信号增强后的语音控制信息中识别出控制内容;
指令编码生成单元,将控制内容进行编码处理生成控制指令。
5.如权利要求1所述的基于三维麦克风阵列的无人机语音控制系统,其特征在于:所述麦克风设有八个,八个麦克风在无人机机身外壳上呈长方体结构排列。
6.如权利要求1所述的基于三维麦克风阵列的无人机语音控制系统,其特征在于:所述麦克风的排列结构还包括,线性排列结构、环形排列结构、四面体排列结构。
7.如权利要求1所述的基于三维麦克风阵列的无人机语音控制系统,其特征在于:所述无人机为多旋翼无人飞行器。
CN201911349011.XA 2019-12-24 2019-12-24 基于三维麦克风阵列的无人机语音控制系统 Pending CN111028840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911349011.XA CN111028840A (zh) 2019-12-24 2019-12-24 基于三维麦克风阵列的无人机语音控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911349011.XA CN111028840A (zh) 2019-12-24 2019-12-24 基于三维麦克风阵列的无人机语音控制系统

Publications (1)

Publication Number Publication Date
CN111028840A true CN111028840A (zh) 2020-04-17

Family

ID=70211960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911349011.XA Pending CN111028840A (zh) 2019-12-24 2019-12-24 基于三维麦克风阵列的无人机语音控制系统

Country Status (1)

Country Link
CN (1) CN111028840A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101511000A (zh) * 2009-02-27 2009-08-19 中山大学 一种利用声波定位的智能监控摄像头装置
CN205131667U (zh) * 2015-10-28 2016-04-06 上海顺砾智能科技有限公司 一种无人机的语音识别远程控制装置
WO2017143910A1 (zh) * 2016-02-25 2017-08-31 中兴通讯股份有限公司 采集处理方法、装置、系统和计算机存储介质
CN109215648A (zh) * 2018-09-03 2019-01-15 惠州市德赛西威智能交通技术研究院有限公司 车载语音识别系统及方法
CN109760847A (zh) * 2019-03-27 2019-05-17 李良杰 导游无人机

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101511000A (zh) * 2009-02-27 2009-08-19 中山大学 一种利用声波定位的智能监控摄像头装置
CN205131667U (zh) * 2015-10-28 2016-04-06 上海顺砾智能科技有限公司 一种无人机的语音识别远程控制装置
WO2017143910A1 (zh) * 2016-02-25 2017-08-31 中兴通讯股份有限公司 采集处理方法、装置、系统和计算机存储介质
CN109215648A (zh) * 2018-09-03 2019-01-15 惠州市德赛西威智能交通技术研究院有限公司 车载语音识别系统及方法
CN109760847A (zh) * 2019-03-27 2019-05-17 李良杰 导游无人机

Similar Documents

Publication Publication Date Title
CN110379439B (zh) 一种音频处理的方法以及相关装置
WO2017000795A1 (zh) 一种机器人系统及其控制方法
CN107210044A (zh) 无人机推进系统噪声的建模和降低
KR20210101637A (ko) Lidar센서와 YOLO알고리즘을 결합한 3D MAP 자율주행 비행체
CN104599674A (zh) 一种摄像中定向录音的系统及方法
CN113053368A (zh) 语音增强方法、电子设备和存储介质
Wang et al. Audio-visual sensing from a quadcopter: dataset and baselines for source localization and sound enhancement
CN106331956A (zh) 集成远场语音识别和声场录制的系统和方法
CN109963117A (zh) 一种水下航行器的自主跟踪拍摄系统
CN111696562A (zh) 语音唤醒方法、设备及存储介质
CN111028840A (zh) 基于三维麦克风阵列的无人机语音控制系统
US20230269537A1 (en) Information Processing Apparatus, Information Processing Method, And Video Sound Output System
US11647334B2 (en) Information processing apparatus, information processing method, and video sound output system
CN104590124A (zh) 一种基于无线的全景泊车辅助系统
CN110475195A (zh) 应用于无人机喊话器的控制方法、装置、系统及设备
CN112104964B (zh) 一种跟随式扩声机器人的控制方法及控制系统
US11368611B2 (en) Control method for camera device, camera device, camera system, and storage medium
GB2610459A (en) Audio processing method, apparatus, electronic device and storage medium
CN112565598B (zh) 聚焦方法与装置、终端、计算机可读存储介质和电子设备
CN106791603A (zh) 一种具有全方位监控功能的机器人
US10827258B2 (en) Robot and audio data processing method thereof
CN205961366U (zh) 一种新闻采访装置
CN207433825U (zh) 一种无人机的喊话装置
CN207117791U (zh) 具有电子云台的视频会议摄像机及视频会议系统
KR20160107430A (ko) 셀피 스틱을 이용한 고음질 녹화영상 생성 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417