CN112470215A - 控制方法、装置和可移动平台 - Google Patents

控制方法、装置和可移动平台 Download PDF

Info

Publication number
CN112470215A
CN112470215A CN201980048649.1A CN201980048649A CN112470215A CN 112470215 A CN112470215 A CN 112470215A CN 201980048649 A CN201980048649 A CN 201980048649A CN 112470215 A CN112470215 A CN 112470215A
Authority
CN
China
Prior art keywords
target object
sound source
movable platform
sound
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980048649.1A
Other languages
English (en)
Inventor
林浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SZ DJI Technology Co Ltd
Original Assignee
SZ DJI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SZ DJI Technology Co Ltd filed Critical SZ DJI Technology Co Ltd
Publication of CN112470215A publication Critical patent/CN112470215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例提供一种控制方法、装置和可移动平台,所述方法包括:获取所述目标物周围的声源分布信息;根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。本申请提供的控制方法,由于在控制可移动平台运动的过程中,可以基于所确定的目标区域进行移动,从而可以使得可移动平台运动所包括的音频采集装置能够尽可能地获取目标物发出的声音信息且尽可能地削弱或屏蔽获取除目标物之外的其它物体所发出的声音信息,进一步地,可以提高获取的目标物发声的信噪比。

Description

控制方法、装置和可移动平台
版权申明
本专利文件披露的内容包含受版权保护的材料。该版权为版权所有人所有。版权所有人不反对任何人复制专利与商标局的官方记录和档案中所存在的该专利文件或者该专利披露。
技术领域
本申请涉及计算机技术领域,并且更为具体地,涉及一种控制方法、装置和可移动平台。
背景技术
目前越来越多的泛机器人设备进入到人类社会的各个方面,然而在进行人机交互的过程中,一方面若机器人与用户之间的距离过远,通过麦克风阵列可以增强语音,会使得硬件和算法成本增加,且原始声音经过处理后会使得原始声音失真变大导致识别失败问题,影响用户体验;另一方面,若机器人与用户之间的距离合适,但是用户声音的方向上有其他噪声,无法区分有用人声和噪声,导致获取的声音信息中存在较多的背景噪声,导致识别率低。
因此,如何有效地识别目标物的声音信息,提高获取的目标物的声音的信噪比是一项亟待解决的问题。
发明内容
本申请实施例提供一种控制方法和装置以及可移动平台,可以有效地识别目标物的声音信息,提高获取的目标物的声音的信噪比。
第一方面,提供一种控制方法,可移动平台搭载音频采集装置,用于获取目标物发出的声音,所述方法包括:获取所述目标物周围的声源分布信息;根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
第二方面,提供一种控制装置,包括所述装置包括存储器和处理器;所述存储器用于存储程序代码;所述处理器,调用所述程序代码,当程序代码被执行时,用于执行以下操作:获取目标物周围的声源分布信息;根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;控制可移动平台的运动,以使所述可移动平台包括的音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
第三方面,提供一种可移动平台,包括:音/视频采集装置,用于获取目标物发出的声音;至少一个处理器,单独地或共同地用于:获取所述目标物周围的声源分布信息;根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
第四方面,提供一种芯片,用于实现上述第一方面或其各实现方式中的方法。
具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备执行如上述第一方面或其各实现方式中的方法。
第五方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
第六方面,提供了一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第一方面或第一方面的各实现方式中的方法。
第七方面,提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面的任一可能的实现方式中的方法。
第八方面,提供了一种控制方法,可移动平台搭载音频采集装置,用于获取目标物发出的声音,所述方法包括:
获取所述目标物周围的声源分布信息;
根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;
控制所述可移动平台的运动,以使音频采集装置的朝向、所述目标物和所述目标区域满足预设方位关系。
本申请实施例提供的控制方法,通过根据符合声源条件的目标区域控制可移动平台的运动,使得音频采集装置的拾音波束的指向、目标物和目标区域满足预设方位关系。由于在控制可移动平台运动的过程中,可以基于所确定的目标区域进行移动,从而可以使得可移动平台运动所包括的音频采集装置能够尽可能地获取目标物发出的声音信息且尽可能地削弱或屏蔽获取除目标物之外的其它物体所发出的声音信息,进一步地,可以提高获取的目标物发声的信噪比。
附图说明
下面将对实施例使用的附图作简单地介绍。
图1是应用本申请实施例的技术方案的架构图;
图2是本申请一实施例提供的控制方法的示意性流程图;
图3a是本申请一实施例提供的音频采集装置的拾音波束与目标物的相对位置的示意性图;
图3b是本申请另一实施例提供的音频采集装置的拾音波束与目标物的相对位置的示意性图;
图3c是本申请又一实施例提供的音频采集装置的拾音波束与目标物的相对位置的示意性图;
图3d是本申请再一实施例提供的音频采集装置的拾音波束与目标物的相对位置的示意性图;
图4a是本申请一实施例提供的目标物的周围被划分的待选区域的示意性图;
图4b是本申请另一实施例提供的目标物的周围被划分的待选区域的示意性图;
图4c是本申请又一实施例提供的目标物的周围被划分的待选区域的示意性图;
图4d是本申请再一实施例提供的目标物的周围被划分的待选区域的示意性图;
图5是本申请另一实施例提供的控制方法的示意性流程图;
图6是本申请又一实施例提供的控制方法的示意性流程图;
图7是本申请一实施例提供的对用户360°范围区域划分的示意性图;
图8是本申请一实施例提供的控制装置的示意性结构图;
图9是本申请一实施例提供的可移动平台的示意性结构图;
图10是本申请又一实施例提供的控制装置的示意性结构图;
图11是本申请实施例提供的芯片的示意性结构图。
具体实施方式
下面对本申请实施例中的技术方案进行描述。
除非另有说明,本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请的范围。
目前越来越多的泛机器人设备进入到人类社会的各个方面,例如,工业机器人和服务机器人等,这些机器人在很大比例上是具有可移动性的机器人,例如,楼宇送货机器人,无人机送货机器人等。这类机器人正在逐步取代之前人力操作,并且在在可预见的未来,该类机器人能够做出更多仿人化的操作,比如增加人机对话和信息交换,让整个服务流程更加人性化和便捷。
这些机器人具有可移动性,可视为可移动平台,包括但不限于双足、四轮、多旋翼飞行器等能够负载一定重量的本体移动装置。
本申请以服务机器人为例,无人机送货机器人或者楼宇送货机器人将商品送达后,与用户交互时,可能存在如下类人化场景:此处暂定需要使用语音对话确认用户身份,机器视觉内部人脸数据库无法满足识别需求,或用户面部数据由于隐私性不能使用的场景中。
送货机器人与收货人(用户)的对话可以如下:
送货机器人:您好,有您的包裹,再跟您确认下信息,请说下您的姓名和手机尾号;
收货人(用户):我叫XXX,手机尾号XXXX;
送货机器人:好的,请收好包裹并签收;
收货人(用户):谢谢!
应理解,上述场景仅为举例说明,还可以为其他场景,不应对本申请造成特别限定。
然而在进行上述人机交互的过程中,如图1所示,有可能存在如下问题:
(1)、第一送货机器人120与用户110之间的距离过远,比如两者之间的距离在3m以上,目前方案是第一送货机器人120与用户110对话方位不变,通过麦克风阵列语音增强来获得更好的信噪比,这个过程中可能会使得硬件和算法成本增加,且原始声音经过处理后会使得原始声音失真变大导致识别失败问题,影响用户体验。
(2)、第二送货机器人130与用户110之间的距离适中,但是通过麦克风阵列定位用户声音方向,恰好在同一方向有其他噪声,如汽车140发出的噪声,导致麦克风阵列在拾取用户110声音的同时也拾取较多背景噪声,注意此处背景噪声包括不限于除用户外其他人的讲话声音、风噪声、车噪声等,目前方案无法区分这种场景的有用人声和噪声,因此音源中存在较多的背景噪声,导致识别率低。
针对上述问题,目前可以通过波束成形(Beamforming)算法来优化上述方案中存在的问题,具体过程如下:
(1)、用户通过语音唤醒送货机器人,然后与送货机器人讲话;
(2)送货机器人会对用户的语音进行降噪处理:
a、送货机器人通过麦克风语音阵列,利用波束成形算法定位用户的方向,假定用户方向为0°,从而可以只拾取(0°±Δ°)这一角度范围内的声音,进而可以削弱(Δ°~(360-Δ)°)这一角度范围内的声音。
b、对于稳态噪声,通过分析频谱,可以将预先记录或者学习的模型进行比对,然后消除,例如,风噪Beamforming原理。
(3)、在降噪的基础上会做其他措施,如自动增益控制(Automatic Gain Control,AGC)等,改善输入语音幅度过小等问题。
经过波束成形算法的优化改进,在进行人机交互的时候可能会出现较高的误识别率或无反应,因为此时拾音模块的麦克风语音阵列拾取用户语音的准确率与其灵敏度、失真以及底噪等共同决定,若麦克风语音阵列拾取用户语音时偏离了用户所在的方向,意味着接收的原始的用户语音极小,导致性能更加劣化,降低用户的体验;若用户同方向还存在其他声音,如其他人说话声/噪声等,即使经过波束成形算法优化后,送货机器人接收到的语音中仍旧存在背景噪声,导致语音信噪比不足,人机交互仍然存在问题。
除了识别特定语音以外,另一种可能的场景是识别动物声音。例如,与宠物进行交互的宠物陪伴机器人,需要识别宠物发出的声音。再比如,农场监测应用中,需要识别动物发出的声音。还有一种可能的场景是识别特定的机械声。例如,车辆检修时,获取车辆机械振动的发声以进行问题诊断。
因此,本申请实施例提供一种控制方法,能够提高获取目标物的发出的声音的信噪比,进而提升对该目标物发声的识别率。
下面结合图2详细描述本申请实施例提供的控制方法200。该方法可以应用于可移动平台,也可以应用于与可移动平台通信连接的服务器。在一些实施例中,部分步骤可由可移动平台执行,部分由服务器执行。
如图2所示,为本申请一实施例提供的控制方法200,该方法200可以包括步骤210-230。
210,获取目标物周围的声源分布信息。
本申请实施例中的目标物可以为人,也可以为设备,还可以为其他能够发声且需要待识别该声音的物体,本申请对此不作具体限定。
例如,若本申请实施例中的目标物为人,则可以获取人周围的声源分布信息,进一步地,可以根据人周围的声源分布信息确定可移动平台的最佳位置,以获取目标人物的有效声音信息;若本申请实施例中的目标物为设备,则可以获取设备周围的声源分布信息,进一步地,可以根据设备周围的声源分布信息确定可移动平台的最佳位置,以获取该设备的有效声音信息,从而可以检测该设备的质量。
220,根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域。
本申请实施例中的声源分布信息可以包括目标物周围的噪声声源分布信息以及环境信息。本申请实施例中的噪声声源分布信息可以包括目标物周围的能够发声的物体,例如,目标物周围发出鸣笛声的汽车,或者目标物周围相互说话的其他人等;本申请实施例中的环境信息可以包括目标物周围的环境分布情况,例如,目标物周围的环境可以是学校、公园或者公路等。
在获取目标物周围的声源分布信息之后,可以根据该声源分布信息确定目标物周围的符合声源条件的目标区域。可以理解的是,所确定的目标区域可以使得在获取目标物的声音的时候能够最大限度地获取目标物所发出的声音且可以最大限度地削弱或屏蔽获取其他物体所发出的声音信息。
230,控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
本申请实施例中的可移动平台可以是送货机器人,也可以是智能音箱,还可以为具有多轮或多旋翼的飞行器等,本申请对此不作具体限定,只要是能够与目标物交互的智能设备均可应用本申请实施例。
可选地,在一些实施例中,所述声源分布信息是基于所述音频采集装置获取的。
应理解,本申请实施例中,可移动平台可以包括音频采集装置,该音频采集装置的拾音波束的指向可以是可移动平台的正向,也可以不是可移动平台的正向。在音频采集装置的拾音波束的指向不是可移动平台的正向的情况下,音频采集装置可以基于可移动平台包括的机械臂等进行伸缩,因此,在这种情况下,音频采集装置仍然可以采集目标物所发出的声音。
还应理解,本申请实施例中的预设方位关系是指使得音频采集装置可以尽可能地获取目标物发出的声音信息且尽可能地削弱或屏蔽获取除目标物之外的其它物体所发出的声音信息。
本申请实施例提供的控制方法,通过根据符合声源条件的目标区域控制可移动平台的运动,使得音频采集装置的拾音波束的指向、目标物和目标区域满足预设方位关系。由于在控制可移动平台运动的过程中,可以基于所确定的目标区域进行移动,从而可以使得可移动平台运动所包括的音频采集装置能够尽可能地获取目标物发出的声音信息且尽可能地削弱或屏蔽获取除目标物之外的其它物体所发出的声音信息,进一步地,可以提高获取的目标物发声的信噪比。
下文将具体介绍音频采集装置获取目标物周围的声源分布信息。为方便描述,下文主要人机语音交互的场景进行举例说明。值得说明的是,这并未将本发明的实时场景局限于该举例场景中。
可选地,在一些实施例中,所述获取所述目标物周围的声源分布信息,包括:调整所述拾音波束的指向,使得所述拾音波束的指向对应所述目标物周围的不同方位;基于所述音频采集装置在不同拾音波束指向下获取的声音信息获取所述声源分布信息。
本申请实施例中,以目标物为人为例进行说明。音频采集装置的拾音波束的指向可以调整,通过对拾音波束指向的调整,可以获取人周围的不同方位的声源分布信息。例如,如图3a所示,若音频采集装置的拾音波束指向人的正右方,拾音波束可以在该位置获取人的部分左方和右方区域的声源分布信息,即图3a中的区域A;若将音频采集装置的拾音波束指向人的正左方,拾音波束可以在该位置获取人的部分左方的声源分布信息,即图3b中的区域B;类似地,若将音频采集装置的拾音波束指向上方,拾音波束可以在该位置获取人的上方的声源分布信息,即图3c中的区域C;类似地,若将音频采集装置的拾音波束指向下方,拾音波束可以在该位置获取人的下方的声源分布信息,即图3d中的区域D。
应理解,本申请实施中的图3a-图3d中的每一个区域的大小仅为示例图区域,可以通过算法调节每一个区域的大小。
本申请实施例中的音频采集装置可以为拾音传感器,例如,可以包括电容式麦克风(Electret Condenser Microphone,ECM)、微机电系统(Micro Electro MechanicalSystem,MEMS)等,本申请对此不作具体限定,只要能够将声音转换为电信号的传感器均可应用本申请实施例。
本申请实施例中的音频采集装置可以包括麦克风单体,也可以包括麦克风阵列。
上文指出,本申请实施例中的音频采集装置可以包括麦克风单体,也可以包括麦克风阵列。若音频采集装置包括麦克风阵列,可以基于麦克风阵列中所包括的收音单元进行调整拾音波束的指向。下文将进行具体描述。
可选地,在一些实施例中,所述音频采集装置包括麦克风阵列,所述拾音波束的指向是基于所述麦克风阵列的中每一收音单元的信号权重进行调整的。
可选地,在一些实施例中,所述拾音波束的指向是基于所述可移动平台的位姿进行调整的。
本申请实施例中,音频采集装置可以包括麦克风阵列,如图3a-图3d所示,每一个音频采集装置可以包括多个麦克风形成麦克风阵列,在获取人周围的声源分布信息的时候,可以基于麦克风阵列中的每一收音单元的信号权重进行调整。例如,如图3a所示,图中的麦克风1-麦克风5可以为本申请实施例中的收音单元,若麦克风2-麦克风4的收音权重大于麦克风1和麦克风5的收音权重,则拾音波束的指向可以基于该位置获取人的右方区域和部分左方区域的声源分布信息。
若麦克风1-麦克风2的收音权重大于麦克风3-麦克风5的收音权重,则可以将图3a中的收音波束的指向调整为图3c中的拾音波束的指向,从而可以主要基于麦克风1和麦克风2获取人的上方区域的声源分布信息。
可选地,在一些实施例中,所述声源分布信息包括以下信息中的一种或多种:所述声源的位置信息,所述声源的音量信息,所述声源的类型信息。
可选地,在一些实施例中,所述可移动平台搭载视觉采集装置,所述声源分布信息是基于所述视觉采集装置获取的。
本申请实施例中的声源分布信息可以包括声源的位置信息,例如,目标物周围的发出声音的声源位于目标物的哪个方向,该位置信息可以通过音频采集装置获取,也可以通过视觉采集装置获取,还可以通过音频采集装置和视觉采集装置共同获取,本申请对此不作具体限定。
本申请实施例中的声源分布信息可以包括声源音量信息,例如,目标物周围的声源的音量是多少分贝,该音量信息可以通过音频采集装置获取。
本申请实施例中的声源分布信息可以包括声源的类型信息,例如,目标物周围的发出声音的声源是什么,如汽车,公园里的人,学校的学生等,该类型信息可以通过视觉采集装置来获取。
本申请实施例中的视觉采集装置可以为视觉传感器,例如,该视觉传感器可以包括摄像头模组、红外传感器或雷达传感器等的其中一个或多个,本申请对此不作具体限定,只要是能够实现对外界环境探测和扫描的传感器均可应用本申请实施例。
上文指出,可以根据声源分布信息确定目标物周围符合声源条件的目标区域,下文将具体描述根据声源分布信息确定目标区域。
可选地,在一些实施例中,所述根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域,包括:确定所述目标物周围多个初级待选区域,多个所述初级待选区域分别位于所述目标物的不同方位;基于根据所述声源分布信息确定所述多个所述初级待选区域中符合声源条件的目标区域。
本申请实施例中,可以将目标物周围划分为多个初级待选区域,再基于上述获取的声源分布信息从多个初级待选区域确定目标区域。例如,可以以目标物为人为例进行说明。
如图4a所示,假设目标人物周围被划分为4个初级待选区域,分别为区域A、区域B、区域C以及区域D。若区域A中存在较强的背景噪声,区域B、区域C以及区域D中的声源发出的声音较小或者不存在背景噪声,则可以将区域C确定为本申请实施例中的目标区域。在一种实现方式中,可移动平台的音频采集装置在采集人的声音的时候,音频采集装置的拾音波束的指向、人以及区域C满足预设方位关系,例如,可以控制音频采集装置运动至区域A中,音频采集装置的拾音波束的指向可以指向人。这时,人面向A区域与可移动平台交互。噪音更小的区域B、C、D可以作为人的背景,因其噪音更小,可以基于拾音波束尽可能地只获得信噪比更高的人发出的声音信息,而消减噪音较大的区域A的声音。
在另一种实现方式中,若区域A中存在较强的背景噪声,区域B、区域C以及区域D中的声源发出的声音较小或者不存在背景噪声,也可以控制将可移动平台运动至区域C中,音频采集装置的拾音波束的指向可以指向人,以获取人发出的声音信息。可以理解的是,在这种情况下,虽然音频采集装置的拾音波束可能会获取到区域A中的背景噪声,但可移动平台与人之间至少是没有噪声的或者噪声较小,在一定程度上也可以降低噪声对可移动平台获取人发出的声音信息的影响,进一步地,可以提高获取人的发出的声音的信噪比。
可以理解的是,由于区域B和区域D中的声源发出的声音较小或者不存在背景噪声,可移动平台也可以移动至区域B或区域D,以获取目标人物发出的声音信息。
综上所述,若目标物周围存在背景噪声,在控制可移动平台运动的时候,其目的均在于使得可移动平台尽可能地只获取目标人物发出的声音信息,而对于除目标人物之外的其他声音,尽可能地削弱或屏蔽。
可选地,在一些实施例中,任意两相邻所述初级待选区域相对于所述目标物的方向之间相差第一预设角度。
本申请实施例中,任意相邻的初级待选区域相对于目标物之间的角度可以相差第一预设角度。如图4a所示,在特殊情况下,本申请实施例中的第一预设角度可以为0°,即任意相邻的初级待选区域相对于目标物(人)之间的角度为0°。换句话说,图4a中的区域A与区域B向对于目标物之间的角度为0°,区域B与区域C相对于目标物之间的角度为0°,区域C与区域D相对于目标物之间的角度为0°,区域D与区域A相对于目标物之间的角度为0°。
在一些实施例中,第一预设角度也可以为大于0°的其他角度,例如,如图4b所示,第一预设角度可以为45°,即任意相邻的初级待选区域相对于目标物之间的角度可以为45°。换句话说,区域A与区域B相对于目标物之间的角度可以为45°,区域B与区域C相对于目标物之间的角度可以为45°,区域C与区域D相对于目标物之间的角度可以为45°,区域D与区域A相对于目标物之间的角度可以为45°。
可选地,在一些实施例中,可以根据声源分布信息确定目标物周围的多个初级待选区域,根据声源分布信息从多个初级待选区域确定符合声源条件的目标区域。
本申请实施例中,任意相邻的初级待选区域相对于目标物之间的角度可以不相同,例如,可以根据声源分布信息确定多个初级待选区域。若音频采集装置采集在获取目标物周围声源分布信息的时候,获取到区域A中的不同区域的声源的音量不同,例如,如图4c所示,在区域A1中,存在较大的背景噪声,在区域A2中,无背景噪声,在区域C中,也没有背景噪声。
在这种情况下,可以将区域C中靠近区域D的部分区域作为本申请实施例中的目标区域,例如,可以将图4c中的区域C1作为目标区域,可以控制可移动平台运动至区域C1,拾音采集装置的拾音波束指向目标物以及区域A2,由于区域A2中无背景噪声,从而可以最大限度地只获取目标物发出的声音信息,而不受其它区域上的噪声的影响;或者,可以控制可移动平台运动至区域A2,拾音采集装置的拾音波束指向目标物以及区域C1,由于区域C1中也无背景噪声,从而可以最大限度地只获取目标物发出的声音信息,而不受其它区域上的噪声的影响。
上文说明了可以从多个初级待选区域中确定符合声源条件的目标区域,在一些情况下,有可能多个初级待选区域中均存在较大的背景噪声,因此,可以考虑对初级待选区域再次进行划分,以使得存在符合声源条件的目标区域,下文将具体进行说明。
可选地,在一些实施例中,所述方法还包括:若多个所述初级待选区域中不存在符合所述声源条件的目标区域,确定所述目标物周围多个次级待选区域,多个所述次级待选区域分别位于所述目标物的不同方位,任意两相邻所述次级待选区域相对于所述目标物的方向之间相差第二预设角度,所述第二预设角度小于所述第一预设角度;基于根据所述声源分布信息确定所述多个所述次级待选区域中符合声源条件的目标区域。
本申请实施例中,若初级待选区域中不存在符合声源条件的目标区域,可以从次级待选区域中确定符合声源条件的目标区域。其中,次级待选区域的任意相邻的区域相对于目标物之间的角度小于初级待选区域的任意相邻的区域相对于目标物之间的角度,即本申请实施例中的第一预设角度大于第二预设角度。
如图4d所示,假设第二预设角度为30°,小于上述提到的第一预设角度45°。由于次级待选区域相对于初级待选区域来说,目标物周围的区域被划分的更细致,即次级待选区域中所包括的每一个区域的范围更小,因此可以基于该多个小区域确定本申请实施例中的目标区域。
应理解,本申请实施中的预设角度的数值仅为举例说明,还可以为其它数值,不应对本申请造成特别限定。
例如,假设图4b中的区域A-区域D中存在较大的背景噪声,则可以确定目标物周围不存在符合声源条件的目标区域,在这种情况下,可以基于次级待选区域确定符合声源条件的目标区域。
例如,如图4d所示,假设图中的区域A1存在较大的背景噪声,区域A2不存在背景噪声,区域C1也存在较大的背景噪声,区域C2不存在背景噪声。因此,可以将图4d中的区域C2确定为符合声源条件的目标区域,可以控制可移动平台运动至区域C2,拾音采集装置的拾音波束指向目标物以及区域A2,由于区域A2中无背景噪声,从而可以最大限度地只获取目标物发出的声音信息,而不受其它区域上的噪声的影响;或者,控制可移动平台运动至区域A2,拾音采集装置的拾音波束指向目标物以及区域C2,由于区域C2中无背景噪声,从而可以最大限度地只获取目标物发出的声音信息,而不受其它区域上的噪声的影响。
上文在多处说明了可以根据声源分布信息确定符合声源条件的目标区域,下文将具体说明符合声源条件所包括的一些条件。
可选地,在一些实施例中,所述声源条件包括以下条件中的一种或多种:区域内的声源音量小于音量阈值;区域内的声源频率属于预设频率范围;区内的声源类型属于预设种类;区域内声源在预设第一时长内的音量变化量小于预设阈值。
本申请实施例中,声源条件可以包括多种,例如,某一区域内的声源音量小于音量阈值,如目标物周围的声源的音量小于10分贝,或者目标物周围的声源的音量小于目标物所发出的声音的音量,则可以认为该区域符合声源条件,可以将该区域作为目标区域。
例如,如图4a所示,若区域C是比较安静的公园,公园内的声源的音量小于10分别或者小于人所发出的声音的音量,则可以认为区域C符合声源条件,可以将区域C作为目标区域。在这种情况下,可移动设备可以移动至区域C的对面,例如,区域A中,从而可以最大限度地只获取目标人物的声音。
声源条件也可以为区域内的声源频率属于预设频率范围。假设预设频率范围为300Hz-3000Hz,则若某一区域内的声源所发出的声音的频率在300Hz-3000Hz范围内,可以认为该区域符合声源条件,可以将该区域作为目标区域。
例如,如图4a所示,若区域C是比较安静的公园,公园内可能包括其他人之间的窃窃私语声,人说话的频率一般在300Hz-3000Hz这一范围内,则可以认为区域C符合声源条件,可以将区域C作为目标区域;若区域B是一建筑工地,建筑工地上一般可能会有电钻等设备发出的声音,该声音的频率一般可能不属于300Hz-3000Hz这一频率范围内,因此,可以认为区域B不符合声源条件,区域B也就不能作为本申请实施例中的目标区域。
声源条件也可以为区内的声源类型属于预设种类。假设预设种类为相互窃窃私语的人或者发出声音的河流,则若区域内的声源为相互交谈的人或者为河流,可以认为该区域符合声源条件,可以将该区域作为目标区域;若区域内的声源为工地上的电钻,则认为该区域不符合声源条件。
声源条件还可以为区域内声源在预设第一时长内的音量变化量小于预设阈值。假设目标物背后的公路上有一条辆飞奔而过的汽车,该汽车在经过目标物的时候,鸣笛几秒钟,音量达100分贝,随后在接下来的5分钟内该条公路上无汽车驶过。假设第一时长为1分钟,预设阈值为50分贝,由于汽车的鸣笛声持续了几秒钟,且音量大于预设阈值,因此,目标物背后的区域不符合声源条件。
例如,如图4a所示,若区域B中有一条公路,该公路上在某一时刻有一辆从区域B向区域A行驶的汽车,该汽车在经过目标物的时候,鸣笛几秒钟,音量达100分贝,随后在接下来的5分钟内该条公路上无汽车驶过。由于汽车在经过目标物的时候,其鸣笛声持续了几秒钟,且音量大于预设阈值,同时由于在接下来的几分钟内再无大的音量的声音出现,即汽车从鸣笛开始到5分钟结束,区域B中的声音的音量的变化大于预设阈值,因此,区域B不符合声源条件。
可选地,在一些实施例中,所述控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系,包括:控制所述可移动平台运动,以使所述拾音波束的方向指向所述目标物和所述目标区域。
可选地,在一些实施例中,所述控制所述可移动平台的运动,以使所述拾音波束的方向指向所述目标物和所述目标区域,包括:控制所述可移动平台运动至所述目标物的第一方向上,所述第一方向为从所述目标物到所述目标区域的方向的反向。
本申请实施例中的拾音波束的方向指向目标物和目标区域,可以是指拾音波束的方向在指向目标物和目标区域的时候,可以最大限度地获取目标物发出的声音信息,且可以将除目标物之外的其它声音信息削弱或屏蔽,进一步地,可以提高语音信噪比。
本申请实施例中,在确定目标区域后,可以控制可移动平台的运动,以使得拾音波束的方向指向目标物和目标区域。在一些实现方式中,例如,如图4a所示,假设确定区域C为目标区域,则可以控制可移动平台运动至区域A中,以使得可移动平台的音频采集装置可以最大限度地获取目标物发出的声音信息,提高获取的目标物发出的声音的信噪比。
可以理解的是,在这种情况下,由于区域C为本申请实施例中的目标区域,即区域C中无噪声或者噪声相对于目标物发出的声音来说可以忽略不计,可移动平台可以移动至区域A中,在获取目标物所发出的声音信息的时候,由于没有其它噪声的影响,因此获取的声音信息是有效的,即可移动平台和目标物之间可以正常进行交互。
在另一些实现方式中,也可以将可移动平台运动之区域A和区域B之间的交界处,可移动平台所包括的音频采集装置可以向外延伸,例如,可以延伸至区域A中。在这种情况下,虽然可移动平台本体位于区域A和区域B的交界处,但是音频采集装置位于区域A中,从而音频采集装置也可以最大限度地获取目标物发出的声音信息,提高获取的目标物发出的声音的信噪比。
可选地,在一些实施例中,在控制所述可移动平台运动后,所述方法还包括:发出用于提示所述目标物的发声侧朝向所述可移动平台的提示信息。
本申请实施例中,在确定符合声源条件的目标区域后,控制可移动平台运动后,可以向目标物发出提示信息,用于提示目标物的发声侧与可移动平台的声频采集装置相互对应,即目标物的发声侧可以朝向可移动平台的声频采集装置,以使得声频采集装置可以有效地采集目标物所发出的声音信息。
应理解,该提示信息可以为语音信息,也可以为显示于可移动平台上的文字信息或颜色信息等,本申请对此不作具体限定。
若提示信息为语音信息,则在控制可移动平台运动后,可以向目标物发出语音提示信息,例如,可以发出“请面部朝向我”类似的语音信息等,目标物在接收到该提示信息后,可以转动自己的方位,以使得其面部朝向可移动平台所包括的声频采集装置。
若提示信息为文字信息,则在控制可移动平台运动后,可移动平台可以在其包括的显示屏上显示“请面部朝向我”类似的文字信息等,目标物在接收到该提示信息后,可以转动自己的方位,以使得其面部朝向可移动平台所包括的声频采集装置。
若提示信息为颜色信息,则在控制可移动平台运动后,可移动平台可以显示绿色,目标物在看到可移动平台显示绿色的信息时,可以转动自己的方位,以使得其面部朝向可移动平台所包括的声频采集装置。
可以理解的是,可移动平台可以根据目标物的类型选择提示信息,例如,若目标物为人,则提示信息可以为语音信息、文字信息和颜色信息中的任意一种或多种;若目标物为机器人,则提示信息可以为语音信息。
本申请实施例中,也可以通过0°对位算法使得可移动平台与目标物的发声侧对位,即使得目标物的发声侧朝向可移动平台。
上文描述了基于声源分布信息确定目标区域以及控制可移动平台的运动,使得所述音频采集装置能够最大限度地只获取目标物发出的声音信息。在一些情况下,在获取目标物周围的声源分布信息后,可能不存在符合声源条件的目标区域,在这种情况下,可以向目标物发出提示信息,从而使得音频采集装置可以只获取到目标物发出的声音信息。下文将进行具体说明。
可选地,在一些实施例中,如图5所示,所述方法200还可以包括步骤240。
240,若不存在所述目标区域,则发出用于提示所述目标物增加发声音量的提示信息。
本申请实施例中,在获取目标物周围的声源分布信息后,通过对所获取的声源分布信息进行分析后,确定不存在符合声源条件的目标区域,则可以向目标物发出提示信息,该信息可以提示目标物增加发声音量。
本申请实施中的不存在目标区域,可以是指目标物周围360°的方向上均存在噪声而导致的不存在目标区域。
应理解,该提示信息可以为语音信息,也可以为显示于可移动平台上的文字信息或颜色信息等,或者可以为语音信息、文字信息以及颜色信息中的多种信息,本申请对此不作具体限定。
若提示信息为语音信息,则确定目标物周围不存在目标区域后,可以向目标物发出语音提示信息,例如,可以发出“请增加音量”类似的文字信息等,目标物在接收到该提示信息后,可以增加音量,以使得可移动平台可以获取目标物发出的声音信息。
若提示信息为文字信息,则确定目标物周围不存在目标区域后,可以在可移动平台所包括的显示屏上显示“请增加音量”类似的信息等,目标物在接收到该提示信息后,可以增加音量,以使得可移动平台可以获取目标物发出的声音信息。
若提示信息为颜色信息,则确定目标物周围不存在目标区域后,可以基于预设的规则进行调整,例如,绿色可以表示目标物的声音音量调小,目标物可以增加音量。可移动平台可以发出绿色的闪烁光,目标物在接收到该颜色的提示信息后,可以增加音量,以使得可移动平台可以获取目标物发出的声音信息。
可选地,在一些实施例中,在获取所述目标物周围的声源分布信息之前,所述方法还包括:判断所述目标物发出的声音中语音识别指令是否为预设指令;所述获取所述目标物周围的声源分布信息,包括:若所述语音识别指令为所述预设指令,则获取所述目标物周围的声源分布信息。
本申请实施例中的预设指令可以为目标物与可移动平台之间语音交互识别错误次数是否大于预设阈值的指令,也可以为可移动平台是否能从目标物的声音信息中提取出有效信息的指令,还可以为目标物的声音信息中的百分之多少的声音信息被转换的指令。
具体地,假设预设指令为目标物与可移动平台之间语音交互识别错误次数是否大于预设阈值的指令,且预设阈值为2次,若目标物与可移动平台之间的第一次语音识别未成功,目标物可以与可移动平台再次进行交互,若目标物与可移动平台之间的第二次语音识别仍未成功,则说明目标物周围可能存在较强的噪声,可移动平台可以获取目标物周围的声源分布信息,基于声源分布信息再确定可移动平台的位置,进一步地,可以最大限度地只获取目标物所发出的声音信息。
假设预设指令为可移动平台是否能从目标物的声音信息中提取出有效信息的指令,若可移动平台可以从目标物的声音信息中提取交互的有效信息,可以基于该有效信息与目标物进行交互;若可移动平台不能从目标物的声音信息中提取出交互的有效信息,则可以获取目标物周围的声源分布信息,进一步地,可以基于声源分布信息确定可移动平台的优选位置,进一步地,可以最大限度地只获取目标物所发出的声音信息。
应理解,本申请实施例中,在可移动平台不能从目标物的声音信息中提取出交互的有效信息的情况下,可以尝试再次与目标物进行交互,若还是不能从目标物的声音信息中提取出交互的有效信息,则可以获取目标物周围的声源分布信息,基于获取的声源分布信息确定可移动平台的优选位置,进一步地,在确定的优选位置上,可移动平台可以最大限度地只获取目标物所发出的声音信息。
假设预设指令为目标物的声音信息中的百分之多少的声音信息被转换的指令,若目标物的声音信息中的百分之五十的声音信息被转换,则可以认为目标物可以与可移动平台进行正常交互;若目标物的声音信息中的百分之二十的声音信息被转换,则可以认为目标物不能与可移动平台进行正常交互,在这种情况下,可以获取目标物周围的声源分布信息,进一步地,可以基于声源分布信息确定可移动平台的优选位置,从而在确定的优选位置上,可移动平台可以最大限度地只获取目标物所发出的声音信息。
本申请实施中的数值仅为举例说明,还可以为其它数值,不应对本申请造成特别限定。
可选地,在一些实施例中,所述方法还包括:控制所述可移动平台运动至与所述目标物之间距离属于预设距离区间的位置。
本申请实施例中,控制可移动平台与目标物之间的距离属于预设距离区间的位置的这一动作可以是在控制可移动平台运动之前,也可以是在控制可移动平台运动的过程中,本申请对此不作具体限定。
具体地,在可移动平台与目标物均达到指定地点后,可以先调整下两者之间的距离,假设预设距离区间为区间[1,2],则目标物可以通过靠近或远离可移动平台调整两者之间的距离在区间[1,2]这一范围内;或者可移动平台在经过扫描和识别后,发现与目标物之间的距离较远或较近,可以通过调整自身的位置调整两者之间的距离在区间[1,2]这一范围内。
在一些实施方式中,若控制可移动平台在运动的过程中,也可以调整可移动平台与目标物之间的距离属于区间[1,2]这一范围内。例如,如图4a所示,若可移动平台与目标物到达指定地点后,可移动平台开始位于区域B中,经过对目标物周围的声源分布信息分析后,确定区域C是本申请实施中的目标区域,即区域C中无噪声或噪声对于目标物所发出的声音信息来说不受影响,则可以控制可移动平台运动至区域A,在控制可移动平台运动至区域A的过程中,可以同时调整可移动平台与目标物之间的距离数据预设距离区间,即使得可移动平台与目标物之间的距离区间[1,2]这一范围内。
应理解,本申请实施例中的预设距离区间可以为区间[1,2],即控制可移动平台与目标物之间的距离在1-2米之间。本申请实施例中的预设距离区间的端点值可以为其它数值,例如,区间[1,3]等,不应对本申请造成特别限定。
可选地,在一些实施例中,所述方法还包括:识别所述目标物的发声侧;控制所述可移动平台运动,以使所述音频装置的所述拾音波束指向所述目标物的所述发声侧。
本申请实施例中,识别目标物的发声侧可以基于音频采集装置识别,也可以基于视觉采集装置识别,还可以通过音频采集装置和视觉采集装置共同识别。
本申请实施例中的识别目标物的发生侧和控制可移动平台的运动可以是在控制可移动平台运动之前,也可以是在控制可移动平台运动的过程中,本申请对此不作具体限定。
具体地,在可移动平台与目标物均达到指定地点后,可移动平台可以先识别目标物的发声侧,在识别目标物的发声侧后,可以控制可移动平台运动,从而使得可移动平台所包括的音频采集装置的拾音波束指向目标物的发声侧,即音频采集装置和目标物的发声侧相互面对面。
在另一种实现方式中,若控制可移动平台在运动的过程中,也可以调整音频装置的拾音波束指向目标物的所述发声侧。例如,如图4a所示,若可移动平台与目标物到达指定地点后,可移动平台开始位于区域B中,经过对目标物周围的声源分布信息分析后,确定区域C是本申请实施中的目标区域,即区域C中无噪声或噪声对于目标物所发出的声音信息来说不受影响,则可以控制可移动平台运动至区域A,在控制可移动平台运动至区域A的过程中,可以同时调整可移动平台所包括的声频采集装置的拾音波束指向目标物的发声侧。
下面以机器人和用户为例,结合图6详细说明本申请的方案。
如图6所示,为本申请实施例提供的控制方法600,该方法可以包括步骤610-632。
610,机器人和用户均达到指定地点。
611,机器人对四周环境进行扫描和识别并判断与用户距离。
612,判断与用户距离是否大于或等于1m。
若否,则执行步骤613,若是,则执行步骤614。
613,与用户距离过近,以用户为中心重新规划停靠地点。
614,判断与用户是否大于或等于2m。
若是,则执行步骤615,若否,则执行步骤616。
615,给用户提示,距离过远,启动主动靠近。
616,麦克风阵列/视觉传感器模组与用户启动0°对位。
617,判断0°对位是否完成。
若否,则返回步骤616,若是,则执行步骤618。
618,机器人根据预定的服务程序进行人机交互。
619,机器人与用户之间是否出现语音识别错误,同时记录错误次数。
若否,则执行步骤620,若是,则执行步骤621。
620,机器人和用户进行正常的人机交互。
621,判断语音识别错误次数是否小于或等于2。
若是,则执行步骤622,若否,则执行步骤623。
622,给用户反馈,并提示用于进行重复一次交互。
623,启动换位扫描和定位算法,根据与用户的距离,计算以用户为中心的360°方向,距离用户2米内的角度。
624,利用麦克风拾音阵列拾取用户360°范围内声源。
625,记录并分析用户侧声源。
626,在声源定位基础上,利用视觉传感器扫描用户360°范围内环境。
其中,在分析用户周围的声源分布信息时,可以基于换位扫描和定位算法进行分析。如图7所示,为本申请一实施例提供的对用户360°范围区域划分的示意性图。
本申请实施例中,将用户周围360°范围内的区域划分为6个区域,分别为区域A、区域B、区域C、区域D、区域E以及区域F。如图7所示,机器人与用户之间的距离为L2,该距离L2可以设定为2米,图中的L1可以为2米。可以根据预设模型计算图中的D1-D6,其中,D1-D6分别为机器人距离用户不同位置的距离,例如,D1可以为机器人与用户周围的a点之间的距离;D2可以为机器人与用户周围的b点之间的距离;D3可以为机器人与用户周围的c点之间的距离;D4可以为机器人与用户周围的d点之间的距离;D5可以为机器人与用户周围的e点之间的距离;D6可以为机器人与用户周围的f点之间的距离。该机器人可以扫描以用户为中心360°方向上,且距离用户2米内的声源分布信息。
应理解,机器人在对用户周围的声源分布信息进行扫描探测的时候,不局限于二维平面探测,也可以是立体扫描探测,即可以对用户周围的声源分布信息进行360°立体扫描探测。
还应理解,本申请实施例中的用户周围的划分区域不局限于图7中所示的区域,还可以划分其它区域,例如,可以划分为8个或10个区域等,本申请对此不作具体限定。
本申请实施例中,在对用户周围的区域进行划分的时候,也可以不是均匀划分,例如,区域A可以划分的比区域B更大一些,或者区域A可以比区域B更小一些,即区域A相对于用户的角度比区域B相对于用户的角度可以稍大或稍小一些,本申请对此不作具体限定。
627,分析用户侧环境。
628,判断用户侧的每一角度上是否存在背景噪声和其他人物。
若否,则执行步骤629,若是,则执行步骤630。
629,返回至步骤618,向用户反馈,指示增加音量。
630,根据声源定位和扫描结果计算最佳交互角度。
例如,最佳交互角度上没有人存在,且声源的分贝小于预设音量阈值。
631,机器人启动以用户为中心,相对距离保持不变的移动。
632,移动至最佳角度对应的位置,执行步骤618。
本申请实施例还提供另一种控制方法,可移动平台搭载音频采集装置,用于获取目标物发出的声音,所述方法包括:
获取所述目标物周围的声源分布信息;
根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;
控制所述可移动平台的运动,以使所述音频采集装置的朝向、所述目标物和所述目标区域满足预设方位关系。
其中,所述音频采集装置的朝向,可以是音频采集装置的麦克风朝向,可移动平台上可以设置有网状麦克风采集窗口,这个窗口的朝向一定程度上能够标识出麦克风的朝向。
可选的,所述声源分布信息是基于所述音频采集装置获取的。
可选的,所述获取所述目标物周围的声源分布信息,包括:调整所述音频采集装置的朝向,使得所述音频采集装置的朝向对应所述目标物周围的不同方位;基于所述音频采集装置在不同朝向下获取的声音信息获取所述声源分布信息。
可选的,所述音频采集装置的朝向是基于所述可移动平台的位姿进行调整的。
在一种可选的实施方式中,所述声源条件包括包括第一声源条件,所述第一声源条件包括以下条件中的一种或多种:区域内的声源音量小于第一音量阈值;区域内的声源频率属于第一预设频率范围;区域内的声源类型属于第一预设种类;区域内声源在预设第一时长内的音量变化量小于第一预设阈值。
具体的第一音量阈值、第一预设频率范围、第一预设种类、第一预设阈值等等条件值,可以根据从获取的目标物发出的声音中进行相应的声音识别操作时,对该声音识别操作干扰小于预设指标的条件值设置。例如,进行声音识别操作时,音量小于80分贝条件值的声源,能够控制识别错误率指标在10%以下,则将所述音量阈值设置为80分贝。
第一目标区域是符合所述第一声源条件的区域,所述控制所述可移动平台的运动,以使所述音频采集装置的音频采集装置的朝向、所述目标物和所述第一目标区域满足预设方位关系,包括:控制所述可移动平台运动,以使所述音频采集装置的朝向指向所述目标物和所述第一目标区域。
所述控制所述可移动平台运动,以使所述音频采集装置的朝向指向所述目标物和所述第一目标区域,包括:控制所述可移动平台运动至所述目标物的第一方向上,所述第一方向为从所述目标物到所述第一目标区域的方向的反向。
在另一种可选的实施方式中,所述声源条件包括第二声源条件,所述第二声源条件包括以下条件中的一种或多种:区域内的声源音量小于第二音量阈值;区域内的声源频率属于第二预设频率范围;区域内的声源类型属于第二预设种类;区域内声源在预设第二时长内的音量变化量小于第二预设阈值。
具体的第二音量阈值、第二预设频率范围、第二预设种类、第二预设阈值等等条件值,可以根据从获取的目标物发出的声音中进行相应的声音识别操作时,对该声音识别操作干扰大于预设指标的条件值设置,也就是说,该区域可能存在影响识别目标物发出的声音的噪音声源。例如,进行声音识别操作时,频率属于20-50Hz频率范围条件值的声源,能够控制识别错误率指标在10%以下,则将所述预设频率范围设置为20-50Hz。
第二目标区域是符合所述第二声源条件的区域。所述控制所述可移动平台的运动,以使所述音频采集装置的音频采集装置的朝向、所述目标物和所述第二目标区域满足预设方位关系,包括:控制所述可移动平台运动,以使所述音频采集装置的朝向指向所述目标物的同时,使得所述第二目标区域远离所述音频采集装置的朝向。
所述控制所述可移动平台运动,以使所述音频采集装置的朝向指向所述目标物和所述第二目标区域,包括:控制所述可移动平台运动至所述目标物的第一方向上,所述第一方向为从所述目标物到所述第二目标区域的方向。
这样,所述音频采集装置的朝向指向所述目标物,且背离所述第二目标区域,以减少第二目标区域的噪音声源的影响。
可选的,所述方法还包括:识别所述目标物的发声侧;控制所述可移动平台运动,以使所述音频装置的朝向指向所述目标物的所述发声侧。
值得说明的是,关于上述可选实施例的解释说明与上文实施例类似,请参考上文实施例相关部分。基于本发明的构思,本可选实施方式可以与上文的提供的任意可选实施方式进行合理组合,例如,具体请参见关于具体方案的解释说明。
针对一些音频装置,其音频装置的朝向与其拾音方向可能是一致的。比如可移动平台为语音交互机器人,音频装置的装载在语音交互机器人的正面。在语音交互机器人的正面面对用户时,其音频装置朝向用户,且拾音方向也指向用户。
另一些音频装置的朝向与其拾音方向可能存在夹角,例如,包括麦克风阵列的音频装置装载在语音交互机器人的正面。在语音交互机器人的正面面对用户时,其音频装置朝向用户,且拾音方向随着麦克风阵列参数的调整,可能指向用户,也可能指向用户旁边的另一目标物。
上文结合图1-图7,详细描述了本申请的方法实施例,下面结合图8-图11,描述本申请的装置实施例,装置实施例与方法实施例相互对应,因此未详细描述的部分可参见前面各部分方法实施例。
图8为本申请一实施例提供的一种控制装置800,该装置800可以包括存储器810和处理器820。
所述存储器810用于存储程序代码。
所述处理器820,调用所述程序代码,当程序代码被执行时,用于执行以下操作:
获取目标物周围的声源分布信息。
根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域。
控制可移动平台的运动,以使所述可移动平台包括的音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
可选地,在一些实施例中,所述声源分布信息是基于所述音频采集装置获取的。
可选地,在一些实施例中,所述处理器820进一步用于:调整所述拾音波束的指向,使得所述拾音波束的指向对应所述目标物周围的不同方位;基于所述音频采集装置在不同拾音波束指向下获取的声音信息获取所述声源分布信息。
可选地,在一些实施例中,所述音频采集装置包括麦克风阵列,所述拾音波束的指向是基于所述麦克风阵列的中每一收音单元的信号权重进行调整的。
可选地,在一些实施例中,所述拾音波束的指向是基于所述可移动平台的位姿进行调整的。
可选地,在一些实施例中,所述声源分布信息包括以下信息中的一种或多种:所述声源的位置信息,所述声源的音量信息,所述声源的类型信息。
可选地,在一些实施例中,所述可移动平台搭载视觉采集装置,所述声源分布信息是基于所述视觉采集装置获取的。
可选地,在一些实施例中,所述处理器820进一步用于:确定所述目标物周围多个初级待选区域,多个所述初级待选区域分别位于所述目标物的不同方位;基于根据所述声源分布信息确定所述多个所述初级待选区域中符合声源条件的目标区域。
可选地,在一些实施例中,任意两相邻所述初级待选区域相对于所述目标物的方向之间相差第一预设角度。
可选地,在一些实施例中,所述处理器820进一步用于:若多个所述初级待选区域中不存在符合所述声源条件的目标区域,确定所述目标物周围多个次级待选区域,多个所述次级待选区域分别位于所述目标物的不同方位,任意两相邻所述次级待选区域相对于所述目标物的方向之间相差第二预设角度,所述第二预设角度小于所述第一预设角度;基于根据所述声源分布信息确定所述多个所述次级待选区域中符合声源条件的目标区域。
可选地,在一些实施例中,所述声源条件包括以下条件中的一种或多种:区域内的声源音量小于音量阈值;区域内的声源频率属于预设频率范围;区内的声源类型属于预设种类;区域内声源在预设第一时长内的音量变化量小于预设阈值。
可选地,在一些实施例中,所述处理器820进一步用于:控制所述可移动平台运动,以使所述拾音波束的方向指向所述目标物和所述目标区域。
可选地,在一些实施例中,所述处理器820进一步用于:控制所述可移动平台运动至所述目标物的第一方向上,所述第一方向为从所述目标物到所述目标区域的方向的反向。
可选地,在一些实施例中,所述处理器820进一步用于:发出用于提示所述目标物的发声侧朝向所述可移动平台的提示信息。
可选地,在一些实施例中,所述处理器820进一步用于:若不存在所述目标区域,则发出用于提示所述目标物增加发声音量的提示信息。
可选地,在一些实施例中,所述处理器820进一步用于:判断所述目标物发出的声音中语音识别指令是否为预设指令;若所述语音识别指令为所述预设指令,则获取所述目标物周围的声源分布信息。
可选地,在一些实施例中,所述处理器820进一步用于:控制所述可移动平台运动至与所述目标物之间距离属于预设距离区间的位置。
可选地,在一些实施例中,所述处理器820进一步用于:识别所述目标物的发声侧;控制所述可移动平台运动,以使所述音频装置的所述拾音波束指向所述目标物的所述发声侧。
本发明实施例还提供一种控制装置,所述装置包括存储器和处理器;
所述存储器用于存储程序代码;
所述处理器,调用所述程序代码,当程序代码被执行时,用于执行以下操作:
获取所述目标物周围的声源分布信息;
根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;
控制所述可移动平台的运动,以使所述音频采集装置的朝向、所述目标物和所述目标区域满足预设方位关系。
图9为本申请一实施例提供的一种可移动平台900,该可移动平台900可以包括音/视频采集装置910和至少一个处理器920。
音/视频采集装置910,用于获取目标物发出的声音。
至少一个处理器920,单独地或共同地用于:获取所述目标物周围的声源分布信息;根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
可选地,在一些实施例中,所述至少一个处理器920进一步用于:调整所述拾音波束的指向,使得所述拾音波束的指向对应所述目标物周围的不同方位;基于所述音频采集装置在不同拾音波束指向下获取的声音信息获取所述声源分布信息。
可选地,在一些实施例中,所述音频采集装置包括麦克风阵列,所述拾音波束的指向是基于所述麦克风阵列的中每一收音单元的信号权重进行调整的。
可选地,在一些实施例中,所述拾音波束的指向是基于所述可移动平台的位姿进行调整的。
可选地,在一些实施例中,所述声源分布信息包括以下信息中的一种或多种:所述声源的位置信息,所述声源的音量信息,所述声源的类型信息。
可选地,在一些实施例中,所述至少一个处理器920进一步用于:确定所述目标物周围多个初级待选区域,多个所述初级待选区域分别位于所述目标物的不同方位;基于根据所述声源分布信息确定所述多个所述初级待选区域中符合声源条件的目标区域。
可选地,在一些实施例中,任意两相邻所述初级待选区域相对于所述目标物的方向之间相差第一预设角度。
可选地,在一些实施例中,所述至少一个处理器920进一步用于:若多个所述初级待选区域中不存在符合所述声源条件的目标区域,确定所述目标物周围多个次级待选区域,多个所述次级待选区域分别位于所述目标物的不同方位,任意两相邻所述次级待选区域相对于所述目标物的方向之间相差第二预设角度,所述第二预设角度小于所述第一预设角度;基于根据所述声源分布信息确定所述多个所述次级待选区域中符合声源条件的目标区域。
可选地,在一些实施例中,所述声源条件包括以下条件中的一种或多种:区域内的声源音量小于音量阈值;区域内的声源频率属于预设频率范围;区内的声源类型属于预设种类;区域内声源在预设第一时长内的音量变化量小于预设阈值。
可选地,在一些实施例中,所述至少一个处理器920进一步用于:控制所述可移动平台运动,所述拾音波束的方向指向所述目标物和所述目标区域。
可选地,在一些实施例中,所述至少一个处理器920进一步用于:控制所述可移动平台运动至所述目标物的第一方向上,所述第一方向为从所述目标物到所述目标区域的方向的反向。
可选地,在一些实施例中,其特征在于,所述至少一个处理器920进一步用于:发出用于提示所述目标物的发声侧朝向所述可移动平台的提示信息。
可选地,在一些实施例中,所述至少一个处理器920进一步用于:若不存在所述目标区域,则发出用于提示所述目标物增加发声音量的提示信息。
可选地,在一些实施例中,其特征在于,所述至少一个处理器920进一步用于:判断所述目标物发出的声音中语音识别指令是否为预设指令;若所述语音识别指令为所述预设指令,则获取所述目标物周围的声源分布信息。
可选地,在一些实施例中,所述至少一个处理器920进一步用于:控制所述可移动平台运动至与所述目标物之间距离属于预设距离区间的位置。
可选地,在一些实施例中,所述至少一个处理器920进一步用于:识别所述目标物的发声侧;控制所述可移动平台运动,以使所述音频装置的所述拾音波束指向所述目标物的所述发声侧。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述控制方法200或600中的任何一种方法。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述控制方法200或600中的任何一种方法。
图10是本申请再一实施例提供的控制装置的示意性结构图。图10所示的控制装置1000包括处理器1010,处理器1010可以从存储器中调用并运行计算机程序,以实现本申请实施例中所述的方法。
可选地,如图10所示,控制装置1000还可以包括存储器1020。其中,处理器1010可以从存储器1020中调用并运行计算机程序,以实现本申请实施例中的方法。
其中,存储器1020可以是独立于处理器1010的一个单独的器件,也可以集成在处理器1010中。
可选地,如图10所示,控制装置1000还可以包括收发器1030,处理器1010可以控制该收发器1030与其他装置进行通信,具体地,可以向其他装置发送信息或数据,或接收其他装置发送的信息或数据。
可选地,控制装置例如可以是机器人,智能音箱等,并且该控制装置1000可以实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
图11是本申请实施例的芯片的示意性结构图。图11所示的芯片1100包括处理器1110,处理器1110可以从存储器中调用并运行计算机程序,以实现本申请实施例中的方法。
可选地,如图11所示,芯片1100还可以包括存储器1120。其中,处理器1110可以从存储器1120中调用并运行计算机程序,以实现本申请实施例中的方法。
其中,存储器1120可以是独立于处理器1110的一个单独的器件,也可以集成在处理器1110中。
可选地,该芯片1100还可以包括输入接口1130。其中,处理器1110可以控制该输入接口1130与其他装置或芯片进行通信,具体地,可以获取其他装置或芯片发送的信息或数据。
可选地,该芯片1100还可以包括输出接口1140。其中,处理器1110可以控制该输出接口1140与其他装置或芯片进行通信,具体地,可以向其他装置或芯片输出信息或数据。
应理解,本申请实施例提到的芯片还可以称为系统级芯片,系统芯片,芯片系统或片上系统芯片等。
应理解,本申请实施例的处理器可能是一种集成电路图像处理系统,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,上述存储器为示例性但不是限制性说明,例如,本申请实施例中的存储器还可以是静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)等等。也就是说,本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例中的存储器可以向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器可以用于执行存储器中存储的指令,并且该处理器执行该指令时,该处理器可以执行上述方法实施例中与终端设备对应的各个步骤。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
还应理解,在本申请实施例中,图像中的像素点可以位于不同的行和/或列,其中,A的长度可以对应于A包括的位于同一行的像素点个数,A的高度可以对应于A包括的位于同一列的像素点个数。此外,A的长度和高度也可以分别称为A的宽度和深度,本申请实施例对此不做限定。
还应理解,在本申请实施例中,“与A的边界间隔分布”可以指与A的边界间隔至少一个像素点,也可以称为“不与A的边界相邻”或者“不位于A的边界”,本申请实施例对此不做限定,其中,A可以是图像、矩形区域或子图像,等等。
还应理解,上文对本申请实施例的描述着重于强调各个实施例之间的不同之处,未提到的相同或相似之处可以互相参考,为了简洁,这里不再赘述。
应理解,在本申请实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (46)

1.一种控制方法,其特征在于,可移动平台搭载音频采集装置,用于获取目标物发出的声音,所述方法包括:
获取所述目标物周围的声源分布信息;
根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;
控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
2.根据权利要求1所述的方法,其特征在于,所述声源分布信息是基于所述音频采集装置获取的。
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标物周围的声源分布信息,包括:
调整所述拾音波束的指向,使得所述拾音波束的指向对应所述目标物周围的不同方位;
基于所述音频采集装置在不同拾音波束指向下获取的声音信息获取所述声源分布信息。
4.根据权利要求3所述的方法,其特征在于,所述音频采集装置包括麦克风阵列,所述拾音波束的指向是基于所述麦克风阵列的中每一收音单元的信号权重进行调整的。
5.根据权利要求3或4所述的方法,其特征在于,所述拾音波束的指向是基于所述可移动平台的位姿进行调整的。
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述声源分布信息包括以下信息中的一种或多种:
所述声源的位置信息,所述声源的音量信息,所述声源的类型信息。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述可移动平台搭载视觉采集装置,所述声源分布信息是基于所述视觉采集装置获取的。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域,包括:
确定所述目标物周围多个初级待选区域,多个所述初级待选区域分别位于所述目标物的不同方位;
基于根据所述声源分布信息确定所述多个所述初级待选区域中符合声源条件的目标区域。
9.根据权利要求8所述的方法,其特征在于,任意两相邻所述初级待选区域相对于所述目标物的方向之间相差第一预设角度。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若多个所述初级待选区域中不存在符合所述声源条件的目标区域,确定所述目标物周围多个次级待选区域,多个所述次级待选区域分别位于所述目标物的不同方位,任意两相邻所述次级待选区域相对于所述目标物的方向之间相差第二预设角度,所述第二预设角度小于所述第一预设角度;
基于根据所述声源分布信息确定所述多个所述次级待选区域中符合声源条件的目标区域。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述声源条件包括以下条件中的一种或多种:
区域内的声源音量小于音量阈值;
区域内的声源频率属于预设频率范围;
区域内的声源类型属于预设种类;
区域内声源在预设第一时长内的音量变化量小于预设阈值。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系,包括:
控制所述可移动平台运动,以使所述拾音波束的方向指向所述目标物和所述目标区域。
13.根据权利要求12所述的方法,其特征在于,所述控制所述可移动平台的运动,以使所述拾音波束的方向指向所述目标物和所述目标区域,包括:
控制所述可移动平台运动至所述目标物的第一方向上,所述第一方向为从所述目标物到所述目标区域的方向的反向。
14.根据权利要求1至13中任一项所述的方法,其特征在于,在控制所述可移动平台运动后,所述方法还包括:
发出用于提示所述目标物的发声侧朝向所述可移动平台的提示信息。
15.根据权利要求1至13中任一项所述的方法,其特征在于,所述方法还包括:
若不存在所述目标区域,则发出用于提示所述目标物增加发声音量的提示信息。
16.根据权利要求1至15中任一项所述的方法,其特征在于,在获取所述目标物周围的声源分布信息之前,
所述方法还包括:
判断所述目标物发出的声音中语音识别指令是否为预设指令;
所述获取所述目标物周围的声源分布信息,包括:
若所述语音识别指令为所述预设指令,则获取所述目标物周围的声源分布信息。
17.根据权利要求1至16中任一项所述的方法,其特征在于,所述方法还包括:
控制所述可移动平台运动至与所述目标物之间距离属于预设距离区间的位置。
18.根据权利要求1至17中任一项所述的方法,其特征在于,所述方法还包括:
识别所述目标物的发声侧;
控制所述可移动平台运动,以使所述音频装置的所述拾音波束指向所述目标物的所述发声侧。
19.一种控制装置,其特征在于,所述装置包括存储器和处理器;
所述存储器用于存储程序代码;
所述处理器,调用所述程序代码,当程序代码被执行时,用于执行以下操作:
获取目标物周围的声源分布信息;
根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;
控制可移动平台的运动,以使所述可移动平台包括的音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
20.根据权利要求19所述的装置,其特征在于,所述声源分布信息是基于所述音频采集装置获取的。
21.根据权利要求20所述的装置,其特征在于,所述处理器进一步用于:调整所述拾音波束的指向,使得所述拾音波束的指向对应所述目标物周围的不同方位;
基于所述音频采集装置在不同拾音波束指向下获取的声音信息获取所述声源分布信息。
22.根据权利要求21所述的装置,其特征在于,所述音频采集装置包括麦克风阵列,所述拾音波束的指向是基于所述麦克风阵列的中每一收音单元的信号权重进行调整的。
23.根据权利要求21或22所述的装置,其特征在于,所述拾音波束的指向是基于所述可移动平台的位姿进行调整的。
24.根据权利要求20至23中任一项所述的装置,其特征在于,所述声源分布信息包括以下信息中的一种或多种:
所述声源的位置信息,所述声源的音量信息,所述声源的类型信息。
25.根据权利要求19至24中任一项所述的装置,其特征在于,所述可移动平台搭载视觉采集装置,所述声源分布信息是基于所述视觉采集装置获取的。
26.根据权利要求19至25中任一项所述的装置,其特征在于,所述处理器进一步用于:
确定所述目标物周围多个初级待选区域,多个所述初级待选区域分别位于所述目标物的不同方位;
基于根据所述声源分布信息确定所述多个所述初级待选区域中符合声源条件的目标区域。
27.根据权利要求26所述的装置,其特征在于,任意两相邻所述初级待选区域相对于所述目标物的方向之间相差第一预设角度。
28.根据权利要求27所述的装置,其特征在于,所述处理器进一步用于:
若多个所述初级待选区域中不存在符合所述声源条件的目标区域,确定所述目标物周围多个次级待选区域,多个所述次级待选区域分别位于所述目标物的不同方位,任意两相邻所述次级待选区域相对于所述目标物的方向之间相差第二预设角度,所述第二预设角度小于所述第一预设角度;
基于根据所述声源分布信息确定所述多个所述次级待选区域中符合声源条件的目标区域。
29.根据权利要求19至28中任一项所述的装置,其特征在于,所述声源条件包括以下条件中的一种或多种:
区域内的声源音量小于音量阈值;
区域内的声源频率属于预设频率范围;
区域内的声源类型属于预设种类;
区域内声源在预设第一时长内的音量变化量小于预设阈值。
30.根据权利要求19至29中任一项所述的装置,其特征在于,所述处理器进一步用于:
控制所述可移动平台运动,以使所述拾音波束的方向指向所述目标物和所述目标区域。
31.根据权利要求30所述的装置,其特征在于,所述处理器进一步用于:
控制所述可移动平台运动至所述目标物的第一方向上,所述第一方向为从所述目标物到所述目标区域的方向的反向。
32.根据权利要求19至31中任一项所述的装置,其特征在于,所述处理器进一步用于:
发出用于提示所述目标物的发声侧朝向所述可移动平台的提示信息。
33.根据权利要求19至31中任一项所述的装置,其特征在于,所述处理器进一步用于:
若不存在所述目标区域,则发出用于提示所述目标物增加发声音量的提示信息。
34.根据权利要求19至33中任一项所述的装置,其特征在于,所述处理器进一步用于:
判断所述目标物发出的声音中语音识别指令是否为预设指令;
若所述语音识别指令为所述预设指令,则获取所述目标物周围的声源分布信息。
35.根据权利要求19至34中任一项所述的装置,其特征在于,所述处理器进一步用于:
控制所述可移动平台运动至与所述目标物之间距离属于预设距离区间的位置。
36.根据权利要求19至35中任一项所述的装置,其特征在于,所述处理器进一步用于:
识别所述目标物的发声侧;
控制所述可移动平台运动,以使所述音频装置的所述拾音波束指向所述目标物的所述发声侧。
37.一种可移动平台,其特征在于,包括:
音/视频采集装置,用于获取目标物发出的声音;
至少一个处理器,单独地或共同地用于:
获取所述目标物周围的声源分布信息;
根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;
控制所述可移动平台的运动,以使所述音频采集装置的拾音波束的指向、所述目标物和所述目标区域满足预设方位关系。
38.一种计算机可读存储介质,其特征在于,包括用于执行权利要求1至18中任一项所述的控制方法的指令。
39.一种控制方法,其特征在于,可移动平台搭载音频采集装置,用于获取目标物发出的声音,所述方法包括:
获取所述目标物周围的声源分布信息;
根据所述声源分布信息确定所述目标物周围符合声源条件的目标区域;
控制所述可移动平台的运动,以使所述音频采集装置的朝向、所述目标物和所述目标区域满足预设方位关系。
40.根据权利要求39所述的方法,其特征在于,所述声源分布信息是基于所述音频采集装置获取的。
41.根据权利要求40所述的方法,其特征在于,所述获取所述目标物周围的声源分布信息,包括:
调整所述音频采集装置的朝向,使得所述音频采集装置的朝向对应所述目标物周围的不同方位;
基于所述音频采集装置在不同朝向下获取的声音信息获取所述声源分布信息。
42.根据权利要求41所述的方法,其特征在于,所述音频采集装置的朝向是基于所述可移动平台的位姿进行调整的。
43.根据权利要求39至42中任一项所述的方法,其特征在于,所述声源条件包括以下条件中的一种或多种:
区域内的声源音量小于音量阈值;
区域内的声源频率属于预设频率范围;
区域内的声源类型属于预设种类;
区域内声源在预设第一时长内的音量变化量小于预设阈值。
44.根据权利要求39至43中任一项所述的方法,其特征在于,所述控制所述可移动平台的运动,以使所述音频采集装置的音频采集装置的朝向、所述目标物和所述目标区域满足预设方位关系,包括:
控制所述可移动平台运动,以使所述音频采集装置的朝向指向所述目标物和所述目标区域。
45.根据权利要求44所述的方法,其特征在于,所述控制所述可移动平台运动,以使所述音频采集装置的朝向指向所述目标物和所述目标区域,包括:
控制所述可移动平台运动至所述目标物的第一方向上,所述第一方向为从所述目标物到所述目标区域的方向的反向。
46.根据权利要求39至45中任一项所述的方法,其特征在于,所述方法还包括:
识别所述目标物的发声侧;
控制所述可移动平台运动,以使所述音频装置的朝向指向所述目标物的所述发声侧。
CN201980048649.1A 2019-12-03 2019-12-03 控制方法、装置和可移动平台 Pending CN112470215A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/122726 WO2021108991A1 (zh) 2019-12-03 2019-12-03 控制方法、装置和可移动平台

Publications (1)

Publication Number Publication Date
CN112470215A true CN112470215A (zh) 2021-03-09

Family

ID=74807693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980048649.1A Pending CN112470215A (zh) 2019-12-03 2019-12-03 控制方法、装置和可移动平台

Country Status (2)

Country Link
CN (1) CN112470215A (zh)
WO (1) WO2021108991A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747303A (zh) * 2021-09-06 2021-12-03 上海科技大学 定向声束耳语交互系统、控制方法、控制终端及介质
CN114242072A (zh) * 2021-12-21 2022-03-25 上海帝图信息科技有限公司 一种用于智能机器人的语音识别系统
CN114516061A (zh) * 2022-02-25 2022-05-20 杭州萤石软件有限公司 一种机器人控制方法、机器人系统及一种机器人

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234729A1 (en) * 2002-06-05 2005-10-20 Koninkliijke Phillips Electronic N.V. Mobile unit and method of controlling a mobile unit
CN102137318A (zh) * 2010-01-22 2011-07-27 华为终端有限公司 拾音控制方法和装置
CN108917113A (zh) * 2018-08-01 2018-11-30 珠海格力电器股份有限公司 辅助语音控制方法、装置以及空调
CN109286875A (zh) * 2018-09-29 2019-01-29 百度在线网络技术(北京)有限公司 用于定向拾音的方法、装置、电子设备和存储介质
JP2019062435A (ja) * 2017-09-27 2019-04-18 沖電気工業株式会社 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
CN110085258A (zh) * 2019-04-02 2019-08-02 深圳Tcl新技术有限公司 一种提高远场语音识别率的方法、系统及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10379534B2 (en) * 2016-01-28 2019-08-13 Qualcomm Incorporated Drone flight control
WO2018023232A1 (zh) * 2016-07-31 2018-02-08 杨洁 一种根据声音移动机器人的方法和机器人
CN106708047B (zh) * 2016-12-21 2019-08-13 精效新软新技术(北京)有限公司 智能物品投递机器人装置及其控制方法
CN109144092A (zh) * 2017-06-16 2019-01-04 昊翔电能运动科技(昆山)有限公司 无人机飞行辅助方法、装置及无人机
CN108828599B (zh) * 2018-04-06 2021-11-16 东莞市华睿电子科技有限公司 一种基于救援无人机的受灾人员搜寻方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234729A1 (en) * 2002-06-05 2005-10-20 Koninkliijke Phillips Electronic N.V. Mobile unit and method of controlling a mobile unit
CN102137318A (zh) * 2010-01-22 2011-07-27 华为终端有限公司 拾音控制方法和装置
JP2019062435A (ja) * 2017-09-27 2019-04-18 沖電気工業株式会社 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
CN108917113A (zh) * 2018-08-01 2018-11-30 珠海格力电器股份有限公司 辅助语音控制方法、装置以及空调
CN109286875A (zh) * 2018-09-29 2019-01-29 百度在线网络技术(北京)有限公司 用于定向拾音的方法、装置、电子设备和存储介质
CN110085258A (zh) * 2019-04-02 2019-08-02 深圳Tcl新技术有限公司 一种提高远场语音识别率的方法、系统及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747303A (zh) * 2021-09-06 2021-12-03 上海科技大学 定向声束耳语交互系统、控制方法、控制终端及介质
CN113747303B (zh) * 2021-09-06 2023-11-10 上海科技大学 定向声束耳语交互系统、控制方法、控制终端及介质
CN114242072A (zh) * 2021-12-21 2022-03-25 上海帝图信息科技有限公司 一种用于智能机器人的语音识别系统
CN114516061A (zh) * 2022-02-25 2022-05-20 杭州萤石软件有限公司 一种机器人控制方法、机器人系统及一种机器人
CN114516061B (zh) * 2022-02-25 2024-03-05 杭州萤石软件有限公司 一种机器人控制方法、机器人系统及一种机器人

Also Published As

Publication number Publication date
WO2021108991A1 (zh) 2021-06-10

Similar Documents

Publication Publication Date Title
CN112470215A (zh) 控制方法、装置和可移动平台
CN108780154B (zh) 3d点云的处理方法
CN108831474B (zh) 语音识别设备及其语音信号捕获方法、装置和存储介质
CN113392869B (zh) 用于事件检测、定位和分类的视觉-听觉监测系统
CN104269172A (zh) 基于视频定位的语音控制方法和系统
CN106826846A (zh) 基于异常声音和图像事件驱动的智能服务机器人及方法
CN108725452B (zh) 一种基于全声频感知的无人驾驶车辆控制系统及控制方法
WO2021060539A1 (ja) 測距装置、測距方法、プログラム、電子機器、学習モデル生成方法、製造方法、およびデプスマップ生成方法
CN110188179B (zh) 语音定向识别交互方法、装置、设备及介质
CN114417908A (zh) 一种基于多模态融合的无人机探测系统和方法
CN114218999A (zh) 一种基于融合图像特征的毫米波雷达目标检测方法及系统
CN110992971A (zh) 一种语音增强方向的确定方法、电子设备及存储介质
CN109061655B (zh) 一种智能驾驶车辆全声频感知系统及其智能控制方法
US20230367319A1 (en) Intelligent obstacle avoidance method and apparatus based on binocular vision, and non-transitory computer-readable storage medium
CN116612638A (zh) 交通碰撞事故检测方法、装置及可读介质
CN115831141A (zh) 车载语音的降噪方法、装置、车辆及存储介质
CN111027522A (zh) 基于深度学习的探鸟定位系统
CN104200817A (zh) 语音控制方法和系统
CN113763717A (zh) 一种车辆的识别方法、装置、计算机设备和存储介质
CN210119708U (zh) 一种全向铁路巡检机器人
CN110309741B (zh) 障碍物检测方法及装置
CN113496697B (zh) 机器人、语音数据处理方法、装置以及存储介质
CN112132865A (zh) 人员识别方法及系统
CN110706496A (zh) 基于声学的环境感知方法及系统
CN112578338A (zh) 声源定位方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination