CN110919699B

CN110919699B - 视听感知系统和设备以及机器人系统

Info

Publication number: CN110919699B
Application number: CN201911208485.2A
Authority: CN
Inventors: 贝蒂娜·博拉
Original assignee: Cloudminds Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2018-11-30
Filing date: 2019-11-30
Publication date: 2021-12-24
Anticipated expiration: 2039-11-30
Also published as: CN110919699A; US20200175271A1; US11157738B2

Abstract

一种视听感知系统包括听觉感知模块和视觉感知模块，分别接收对象的声音和图像，且将其转换成音频和视觉信号。以上两个模块中的至少一个是具有多于一个工作模式的第一感知模块。处理和控制模块基于从以上两个模块中除了第一感知模块之外的一个接收到的音频或视觉信号控制第一感知模块切换其工作模式。还公开了一种具有上述视听感知系统的视听感知设备，该设备可用作安装到机器人上的机器人控制单元(RCU)，使得人机回圈机器人操作员能够视觉上和听觉上监控机器人周围的对象。RCU可在RCU模式和移动电话模式之间切换。此外，还公开了一种包括上述试听感知设备的机器人系统。

Description

视听感知系统和设备以及机器人系统

技术领域

本公开总体上涉及人机交互技术领域，更具体地，涉及机器人技术这一子领域，并且更具体地涉及视听感知系统、配备有视听感知系统的视听感知设备，以及包括视听感知装置的机器人系统。

背景技术

随着社交机器人或服务机器人朝着在家和办公室中执行日常任务的方向稳步发展，该领域的主要挑战之一是它们必须能够应对复杂且不断变化的环境。

当前正在快速发展以解决上述挑战的一项技术是在服务机器人执行复杂且具有挑战性的任务的过程中使人涉入回路中，尤其是在利用人机回圈操作员的认知能力来应对极其复杂的情况或需要当前对于自动系统来说仍然困难的决策的情况时。

人机回圈机器人操作员(human-in-the-loop robot operator)(其可以在控制台，或者远程或者在同一地点然而在幕后)有时会利用配备有各种传感器的机器人控制单元装置(即RCU，也称为机器人控制器)来感知其正在操作的机器人的环境。例如，机器人控制单元装置可以配备有一个或多个相机从而使得人机回圈机器人操作员能够看到机器人周围的人或物体，并且/或者配备一个更多个麦克风使他/她可以听到对机器人讲的话或机器人周围的声音提示。

发明内容

在第一方面，本公开提供了一种视听系统。

该视听感知系统包括音频感知模块、视觉感知模块以及可通信地耦合到音频感知模块和视觉感知模块中每个的处理和控制模块。音频感知模块被配置成接收来自对象的声音，然后将声音转换成音频信号。视觉感知模块被配置成接收对象的图像，然后将图像转换成视觉信号。

还配置成使得音频感知模块和视觉感知模块中的至少一个是具有多于一个工作模式的第一感知模块；以及处理和控制模块被配置成基于从音频感知模块和视觉感知模块中除了第一感知模块之外的一个模块接收到的感觉信号来控制第一感知模块切换其工作模式，其中感觉信号是与音频感知模块和视觉感知模块中除了第一感知模块之外的该一个模块对应的音频信号或视觉信号中的一个。

可选地，在视听感知系统中，视觉感知模块可以具有多于一个工作模式，且多于一个工作模式涉及不同调焦范围、不同角度、单色光功能、捕获不同波长光的能力、波克效应功能、不同光圈、不同视频功能或不同清晰度中的至少一个。

在此，根据一些实施例，视觉感知模块包括常规角工作模式和广角工作模式，且处理和控制模块被配置成控制视觉感知模块，以便如果从音频感知模块接收到的音频信号表示对象在与常规角工作模式对应的第一预定范围内，则启动常规角工作模式；或者否则控制视觉感知模块启动广角工作模式。

在此，根据一些其他实施例，视觉感知模块包括近场工作模式和远场工作模式，且处理和控制模块被配置成控制视觉感知模块，以便如果从音频感知模块接收到的音频信号表示对象在与近场工作模式对应的第二预定范围内，则启动近场工作模式；或者否则控制视觉感知模块启动远场工作模式。

可选地，在视听感知系统中，音频感知模块可以具有多于一种工作模式，且多于一种工作模式涉及以下至少之一：不同的灵敏度水平，波束形成能力、插断功能、不同的信道频率、不同的噪声降低水平、声音消除功能或自动语音识别功能。

在此，根据一些实施例，音频感知模块包括短距离工作模式和长距离工作模式，且处理和控制模块被配置成控制音频感知模块，以便如果从视觉感知模块接收到的视觉信号表示对象在与短距离工作模式对应的第三预定范围内，则启动短距离工作模式；或者否则控制音频感知模块启动长距离工作模式。

在上述任何视听感知系统的实施例中，对象可以是人类讲话者、动物或能够发出音频提示(比如声音或噪声等)和视觉提示(比如图像或姿势等)的物体。在此，物体可以是机器人、机器等。

根据视听感知系统的一些实施例，对象是人类讲话者，且声音包括人类讲话者发出的热词。这样，视觉感知模块相应地具有多于一种工作模式，且处理和控制模块被配置成基于处理和控制模块识别的热词控制视觉感知模块切换其工作模式。

根据视听感知系统的一些其他实施例，对象是人类讲话者，且图像包括人类讲话者做出的姿势。这样，音频感知模块相应地具有多于一种工作模式，且处理和控制模块被配置成基于处理和控制模块识别的姿势控制音频感知模块切换其工作模式。

在第二方面，本公开还提供一种视听感知设备，包括根据以上任一视听感知系统的实施例的视听感知系统。

在此，视听感知设备可以是机器人的集成部分，被配置成使得机器人能够视觉上和听觉上感测机器人周围的对象。

视听感知设备可以被配置为具有安装到机器人上的可安装部分的机器人控制单元(RCU)，其中视听感知设备被配置为使得人机回圈机器人操作员能够视觉上和听觉上监控机器人周围的对象。

在此，可选地可安装部分可以是能够从机器人拆除的，且能够在允许机器人控制的RCU模式和允许移动电话功能的移动电话模式之间切换，且其还配置成使得如果可安装部分安装到机器人上，则开启RCU模式，禁止移动电话模式；以及否则启动移动电话模式，关闭RCU模式。

此外，上述视听感知设备可以可选地还包括用户接口，被配置为使得用户能够在RCU模式和移动电话模式之间切换RCU设备的操作。

根据一些实施例，上述可安装部分包括显示面板，且用户接口是配置为显示在显示面板上的图形用户接口(GUI)。

根据视听感知设备的一些实施例，视听感知系统的视觉感知模块包括布置在可安装部分上的第一相机装置，以及视听感知系统的音频感知模块包括布置在可安装部分上的第一麦克风装置。

在此，可选地，第一相机装置包括各自具有不同的特征的至少两个镜头，不同的特征有关于(即涉及或包括)以下至少之一：不同的调焦范围、不同的角度、单色光功能、捕获不同波长的光的能力、波克效应功能不同的光圈、不同的视频功能、或不同的分辨率。

进一步可选地，在视听感知设备中，视听感知系统的视觉感知模块还包括第二相机装置，第二相机装置位置上与可安装部分分离然而与可安装部分可通信地耦接。

根据视听感知设备的一些实施例，第一麦克风装置包括具有多个第一麦克风的第一麦克风阵列，多个第一麦克风分别布置在可安装部分的不同位置处。

在此，第一麦克风阵列中多个第一麦克风中的每个可以是全向麦克风，其布置在可安装部分的边缘的顶端上且被配置成朝外或朝向侧面。

根据视听感知设备的一些实施例，视听感知系统的音频感知模块还包括第二麦克风装置，第二麦克风装置位置上与可安装部分分离然而与可安装部分可通信地耦接。第二麦克风装置可以包括具有多个第二麦克风的第二麦克风阵列。

根据视听感知设备的一些实施例，第一相机装置包括常规角镜头和广角镜头，第一麦克风装置被配置为使得能够基于来自声音源的声音确定声音源是在位于可安装部分上的第一相机装置的常规角范围内还是在该第一相机装置的广角范围内。视听感知系统的处理和控制模块被配置成：如果从第一麦克风装置接收到的音频信号表示对象在常规角范围内，则将第一命令发送至第一相机装置，从而启动常规角镜头，或者被配置成在其他情况将第二命令发送至第一相机装置，从而启动广角镜头。

此外，在上述视听感知设备中，第一音频装置可以可选地包括两个麦克风，两个麦克风在内设于可安装部分的两个不同位置处。

根据视听感知设备的一些实施例，第一相机装置包括近场镜头和远场镜头，第一麦克风装置被配置成使得能够基于来自声音源的声音确定声音源在位于可安装部分上的第一相机装置的近场范围内，还是在该第一相机装置的远场范围内。视听感知系统的处理和控制模块被配置为：如果从第一麦克风装置接收到的音频信号表示对象在近场范围内，则将第三命令发送至第一相机装置，从而启动近场镜头；或者被配置为在其他情况下将第四命令发送至第一相机装置，从而启动远场镜头。

根据视听感知设备的一些实施例，第一麦克风装置和第二麦克风装置分别被配置成分别在短距离和长距离下工作，以及第一相机装置被配置成使得能够基于物体的图像确定物体是否在第一麦克风装置的短距离内。视听感知系统的处理和控制模块被配置成：如果从第一相机装置接收到的视觉信号表示对象在短距离内，则发送第五命令，从而启动第一麦克风装置；或者被配置成在其他情况下将第六命令发送至第二麦克风装置，从而启动第二麦克风装置。

在第三方面，还公开了一种机器人系统。

该机器人系统包括机器人，以及基于上述任一视听感知设备实施例的视听感知设备。

根据一些实施例，机器人系统还包括安装装置，被配置成调解要安装到机器人上或从机器人拆除的视听感知设备的可安装部分的安装。

在此，安装装置可选地可以包括：第一连接部分，与机器人连接；以及第二连接部分，与第一连接部分连接，且被配置成稳固地将视听感知设备的可安装部分保持就位，而不影响视听系统的功能。

根据机器人系统的一些实施例，视听系统包括第一相机装置和第一麦克风装置，第一相机装置和第一麦克风装置都布置在可安装部分上；以及安装装置的第二连接部分包括夹具，其中夹具包括至少一个夹持件，被配置成使得至少一个夹持件中没有夹持件会阻挡第一相机装置中的任何镜头或第一麦克风装置中的任何麦克风。

在整个本公开内容中，术语“模块”、“系统”、“接口”等中的每一个被视为计算机实现的功能实体，包括至少一个处理器和存储器，其中存储器被配置成存储软件程序(即计算机代码或可执行指令)，且至少一个处理器被配置成基于存储在存储器中的软件程序执行计算，从而执行实施指定功能的任务。此外，至少一个处理器可以包括一个或更多个控制器、通用处理器、专用处理器、协同处理器等，且至少一个处理器能够以并行处理结构和/或多处理结构布置。另外，以上术语中的每个可以是具有软件程序的通用计算机，或可以是为该任务专门设计的硬件计算装置。计算机和硬件计算装置可以本地布置，或可以远程布置，比如布置在内联网上、因特网上或云中。

在整个本公开内容中，方法、步骤、子步骤、处理和特征等中的每个可实施为操作系统或专用应用、组件、程序、对象、模块或称为“程序”的一系列指令的一部分。例如，一个或更多个程序可用来执行此处描述的特定处理。程序一般包括计算机系统中的各种存储器和存储装置中的一个或更多个指令，当至少一个处理器读取且执行该程序时，该程序使得计算机系统执行操作以实施方法、步骤、子步骤、处理和特征等。方法、步骤、子步骤、处理和特征等中的每个都可以用软件、固件、硬件(比如专用集成电路)或其任何组合来实现。

附图说明

为了更清楚地示出本文公开的一些实施例，以下简要描述附图。以下说明中的附图仅用于例示一些实施例。对于本领域技术人员而言，基于这些附图，其他实施例的其他附图是明显的。

图1示出了机器人控制单元；

图2A示出了根据本发明的一些实施方式的视听感知系统的框图；

图2B示出了图2A所示的视听感知系统的系统架构；

图3A示出了图2A和图2B所示的视听感知系统的第一实施例；

图3B是图3A所示的视听感知系统的第一实施例的工作过程的流程图；

图4A示出了图2A和图2B所示的视听感知系统的第二实施例；

图4B是图4A所示的视听感知系统的第二实施例的工作过程的流程图；

图5A示出了图2A和图2B所示的视听感知系统的第三实施例；

图5B是图5A所示的视听感知系统的第三实施例的工作过程的流程图；

图6A是根据本公开的某些特定实施例的结合了视听感知系统的移动电话机器人控制单元设备的俯视图；

图6B示出了根据本公开一些实施例的图6A所示的移动电话机器人控制单元设备的麦克风阵列中的麦克风的示意图的透视图；

图6C示出了没有遮蔽笼/膜情况下、图6B所示麦克风的内部；

图7示出了根据本公开的一些实施例的视听感知系统的音频感知模块；

图8A示出了根据本公开的一些实施例的视觉感知模块，该视觉感知模块包括前置和双镜头相机821；

图8B示出了图8A所示的视觉感知模块的常规角工作模式和广角工作模式；

图9示出了根据一个特定实施例的用于机器人控制单元开关(RCU开关)的图形用户界面(GUI)；

图10A示出了根据本公开的一些实施例的用于将移动电话RCU设备安装在机器人上的安装装置；

图10B是图10A中所示的安装装置的俯视图；

图11A示出了根据本公开一个具体实施例的包括视听感知系统的移动电话机器人控制单元(RCU)设备；

图11B示出了图11A所示的移动电话RCU设备中的视听感知系统的工作过程；

图12A示出了根据本公开的一个具体实施例的配备有视听感知系统的视听感知设备；

图12B示出图12A所示的视听感知设备的工作过程；

图13A示出了根据本发明的另一具体实施例的配备有视听感知系统的视听感知设备；

图13B示出了图13A所示的视听感知设备的不同工作区域；以及

图13C示出了图13A所示的视听感知设备的工作过程。

具体实施方式

图1示出了机器人控制单元(RCU)装置的一个示例性例子。如图1所示，其在安装到机器人10的情况下基本上是可用作RCU装置的移动电话机器人控制单元，或者如果是其他情况其可用作常规移动电话。

具体地，当移动电话机器人控制单元20未安装在机器人上时，其处于移动电话模式，因此仅用作允许用户拨打/接听电话和/或消息的常规移动电话。或者，当移动电话机器人控制单元20安装在机器人上时，例如插到图1所示的仿人机器人10的背心上时，RCU模式启动，从而允许人机回圈机器人操作员通过与移动电话机器人控制单元20可通信地耦接的应用/控制台来操作机器人。

如图1所示的移动电话机器人控制单元20一般配备有内部前置相机21和两个内置的内部麦克风22A和22B(通常嵌入在装置的边缘中，且分别布置在顶部边缘和底部边缘中)，这使得在人机回圈机器人操作员能够分别看到和听到站在移动电话机器人控制单元前且与机器人交互的人。然而，观察到以下视觉和听觉上的限制。

一方面，仅完全站在装置的前置相机焦距内的讲话者(即与机器人对话的用户)能被人机回圈机器人操作员清晰看到，而站在前置相机即时焦距之外的与机器人交互的讲话者不能被清晰看到以使得其可被识别出来或者其面部表情可以以足够准确度被观察到。

此外，即使讲话者站在前置相机的整个焦距内，但如果讲话者站的离机器人太近，则插入式电话倾斜的角度(例如，倾斜角度太陡)不允许人机回圈机器人操作员清楚地看到他们的脸，从而能够捕获他们的面部表情。

另一方面，只有直接站在装置前面的讲话者可被听到或被容易理解，而站在机器人侧面(即站在移动电话机器人控制单元装置的侧面且因此站在内部麦克风侧面)的讲话者不能被清楚理解或很难被听到(即音量大大降低)。人机回圈机器人操作员难以检测或不可能检测到他们的语音，这使得难以在机器人与人之间产生流畅的对话。

另一个限制因素是装置插入机器人躯干(例如机器人背心)的方式。移动电话机器人控制单元为两个内部(即边缘嵌入的)麦克风而设的开口仅允许从正面接收声音，因此麦克风暴露/接收在侧面和背面受到部分阻碍。

为了减少上述听觉和视觉上的限制，当前有时会利用处理员(即人工代理)来将移动电话机器人控制单元安装到机器人上，并提醒讲话者以面向所安装装置的相对好的角度和位置来定位自身。该处理员通常位于机器人的前面，充当调解员或主持人的角色，重复机器人的问题，或引导人们(访客/讲话者)将自己置于机器人前面的最佳位置，以便操作员可以听到和看到他们。

在处理员的帮助下，讲话者可以相对于机器人保持适当的接近度/角度站立(例如，站在机器人的前面并处于机器人的视野中央)，以便于人机回圈机器人操作员适当地看到和听到讲话者。这样，人机回圈机器人操作员可以接收到讲话者的声音和图像，或换句话说，人机回圈机器人操作员可以通过RCU装置听到并看到站在机器人前面的讲话者。

然而，在现场没有处理员的情况下，或者当人与机器人自发交互时，人不会意识到机器人通过安装在机器人躯干前部上的移动电话机器人控制单元装置“看到”和“听到”他们。结果，他们经常与仿人机器人的形状因子(例如，眼睛、转动的头部)交互，并且站在所安装装置的焦距之外，因此也就在人机回圈机器人操作员的视听接收范围之外。

应当注意，如上所述的视听限制不限于如图1所示的移动电话机器人控制单元。在其他类型的机器人控制单元装置中也发现了这些局限性，在这些装置中，安装在机器人控制单元装置上的麦克风和相机之间普遍缺乏协调，也普遍缺乏调适。这些局限性还导致不那么理想的人机交互、有时甚至无效的人机交互。

为了有效解决上述观察到的与诸如图1所示的机器人控制单元相关联的视听限制，本公开提供以下技术方案。

在下文中，将参考本文公开的各个实施例的上述附图，以清楚且完全可理解的方式描述本公开的各个实施例的技术方案。请注意，所描述的实施例仅仅是本公开实施例的一部分，而不是全部。基于本公开的所述实施例，本领域技术人员能够得到其他实施例，该其他实施例也落入本发明力求保护的范围。

在第一方面，本公开提供一种视听系统，其被配置为与机器人控制单元一起工作，从而提供一种用于接收/捕获与其上安装有机器人控制单元的机器人交互的人的声音和图像的装置。

图2A示出了根据本公开的一些实施例的视听感知系统的框图。如图2A所示，视听系统感知100包括音频感知模块110，视觉感知模块120，以及处理和控制模块130。

视觉感知模块120被配置为捕获讲话者U的图像，从而将该图像转换成视觉信号，然后将视觉信号发送至处理和控制模块130以进行处理和输出，其中讲话者U站在包括视听感知系统100的装置(比如如图1所示安装在机器人10上的机器人控制单元20)周围。音频感知模块110被配置为接收来自讲话者U的声音，将该声音转换为音频信号，然后将音频信号发送至处理和控制模块130以进行处理和输出。还配置成使得音频感知模块110和视觉感知模块120中的至少一个模块具有多于一种的工作模式。

处理和控制模块130可通信地耦接到音频感知模块110和视觉感知模块120中的每一个，并且被配置为处理并输出分别从音频感知模块110和视觉感知模块120接收到的音频信号和视觉信号。处理和控制模块130还被配置为基于如下信号控制该具有多于一个工作模式的一个模块切换其工作模式：从另一模块接收到的感觉信号(即，音频信号或视觉信号)。

图2B示出了图2A所示的视听感知系统的系统架构，如图2B进一步所示，视听感知系统可基本上在计算机系统中实现。音频感知模块110、视觉感知模块120以及处理和控制模块130各自可通信地连接到系统总线(示为“总线”)。该计算机实现的视听感知系统还包括用于允许用户向计算机系统提供输入或从计算机系统接收输出的用户接口、显示面板(示为“显示器”)、一个或多个处理器(示为“处理器”)、内存和存储器，这些也分别可通信地连接到系统总线。

音频感知模块110和视觉感知模块12中的每个可以包括硬件，该硬件可以包括麦克风(示为连接到音频感知模块110的空圆)，或者可以包括相机(示为连接到视觉感知模块110的实心圆)。以上两个模块中的每个模块可以选择性地包括软件程序。

处理和控制模块130可以包括软件程序。在此，处理和控制模块13中以及可选地在音频感知模块110或视觉感知模块120中的软件程序可以包括存储在存储器中的计算机代码或可执行指令，其可被加载到内存中，以允许一个或多个处理器执行计算，从而实现相应模块的预期功能。

在此应注意的是，除非另外指出，否则术语“切换”等等同于“激活”、“触发”、“接通”等，因此(除非另有说明)术语“切换”可被视为在第一工作模式(即最初工作模式)启动或不启动的情况下，仅启动第二工作模式。

具体地，以下详细描述在图3A和图3B、图4A和图4B以及图5A和图5B中分别示出的三个不同实施例及其相应工作过程，从而更好地解释视听感知系统100的工作过程。

在图3A和图3B中示出的视听感知系统100的第一实施例中，仅视觉感知模块120具有多于一个工作模式(即，如图3A中所示的“工作模式#V1”、“工作模式#V2”、…以及“工作模式#Vn”，其中n是大于等于2的整数)。

如图3A所示的框图中所示，以及在图3B所示的工作过程(即S100A、S200A和S300A)中，视听感知系统100的该第一实施例中的处理和控制模块130基本上被配置为：在接收到来自音频感知模块110的音频信号后，基于该音频信号确定视觉感知模块120的多于一个工作模式中的一个工作模式，然后将视觉感知模块控制命令发送至视觉感知模块120，从而启动至少一个工作模式中的上述一个工作模式，以基于讲话者U的被捕获图像生成视觉信号。

更具体地，如图3B所示，在S100A，音频感知模块110捕获来自讲话者的声音，基于该声音生成音频信号，并将音频信号发送至处理和控制模块130。

在S200A，处理和控制模块130基于音频信号确定视觉感知模块120的工作模式，将视觉感知模块控制命令发送至视觉感知模块120。

在S300A，视觉感知模块120在接收到视觉感知模块控制命令后启动其工作模式，从而基于所捕获的讲话者的图像生成视觉信号，然后将视觉信号发送至处理和控制模块130用于输出。

在本实施例中，可以实现视听感知系统100的优化的视觉感知性能。

在图4A和图4B所示的视听感知系统100的第二实施例中，仅音频感知模块110具有多于一个的工作模式(即“工作模式#A1”、“工作模式#A2”、…以及“工作模式#Am”，如图3B所示，其中m是大于等于2的整数)。

如图4A所示的框图中所示，在图4B所示的工作过程(即S100B、S200B和S300B)中，视听感知系统100的该第二实施例中的处理和控制模块130基本上被配置为：在从视听感知模块120接收到视觉信号之后，基于该视觉信号确定音频感知模块110的多于一个工作模式中的一个工作模式，然后将音频感知模块控制命令发送至音频感知模块110，从而启动多于一个工作模式中的上述一个工作模式，以基于讲话者U的被捕获声音生成音频信号。

更具体地，如图4B所示，在S100B，视觉感知模块120接收讲话者的图像，基于该图像生成视觉信号，将视觉信号发送至处理和控制模块130。

在S200B，处理和控制模块130基于视觉信号确定音频感知模块110的工作模式，将音频感知模块控制命令发送至音频感知模块110。

在S300B，音频感知模块110在接收到音频感知模块控制命令后启动其工作模式，从而基于捕获的讲话者的声音生成音频信号，然后将音频信号发送至处理和控制模块130用于输出。

在本实施例中，可以实现视听感知系统100的优化的音频感知性能。

在图5A和图5B所示的视听感知系统100的第三实施例中，音频感知模块110和视觉感知模块120中的每个可以具有多于一个工作模式(即，音频感知模块110的“工作模式#A1”、“工作模式#A2”、……以及“工作模式#Am”，视觉感知模块120的“工作模式#V1”、“工作模式#V2”、……以及“工作模式#Vn”，其中m和n均为大于等于2的整数)。

如图5A所示的框图中所示，以及在图5B所示的工作过程中(即S100C、S200C和S300C)，视听感知系统100的该第三实施例中的处理和控制模块130基本上被配置为能够以第一实施例和第二实施例所示的两种方式中的每一种独立地操作。

如图5B所示，基于音频感知模块110感知的信号确定视觉感知模块120的工作方式的处理可以包括：在S100C，音频感知模块110从讲话者接收声音，基于声音生成第一音频信号，将第一音频信号发送至处理和控制模块130；在S200C，处理和控制模块130基于该第一音频信号确定视觉感知模块120的工作模式，将视觉感知模块控制命令发送至视觉感知模块120；以及在S300C，视觉感知模块120在接收到视觉感知模块控制命令后切换其工作模式，从而基于捕获的讲话者的图像生成第二视觉信号，然后将第二视觉信号发送至处理和控制模块130用于输出。

独立于基于音频感知模块110感知的信号确定视觉感知模块120的工作方式的处理，如图5B所示，基于视觉感知模块120感知的信号确定音频感知模块110的工作方式的处理可以包括：在S100C，音频感知模块110接收讲话者的图像，基于图像生成第一视觉信号，将第一视觉信号发送至处理和控制模块130；在S200C，处理和控制模块130基于第一视觉信号确定音频感知模块110的工作模式，将音频感知模块控制命令发送至音频感知模块110；以及在S300C，音频感知模块110在接收到音频感知模块控制命令后切换其工作模式，从而基于捕获的讲话者的声音生成第二音频信号，然后将第二音频信号发送至处理和控制模块130用于输出。

更具体来说，处理和控制模块130被配置为从音频感知模块110接收第一音频信号，基于第一音频信号确定视觉感知模块120的一种工作模式，然后将视觉感知模块控制命令发送至视觉感知模块120，从而启动该一种工作模式，用以基于讲话者U的被捕获图像生成第二视觉信号。

以独立的方式，处理和控制模块130还被配置为从视觉感知模块120接收第一视觉信号，基于第一视觉信号确定音频感知模块110的一个工作模式，然后将音频感知模块控制命令发送至音频感知模块110，从而启动多于一个工作模式中的上述一个工作模式，用以基于讲话者U的被捕获声音生成第二音频信号。

接着，处理和控制模块130还被配置为输出第二音频信号和第二视觉信号，从而实现视听感知系统100的优化的视听感知性能。

注意，在任何上述实施例中，处理和控制模块130基于音频信号或第一音频信号(比如在上述第一和第三实施例中)确定视觉感知模块120的工作模式的方式可以基于第一预定规则，且处理和控制模块130基于视觉信号或第一视觉信号(比如在上述第二和第三实施例中)确定音频感知模块110的工作模式的方式可基于第二预定规则。

第一预定规则和第二预定规则中的每个可包括一种类型的初始或被处理感觉信号(即音频信号或视觉信号)以及另一种类型的感觉感知模块(即视觉感知模块120或音频感知模块110)的工作模式之间的对应关系，其被预先确定/预设以及被预存储在介质中(比如作为预先获得且存储在内存或存储装置中的对应表或脚本)，使得处理和控制模块130能够基于其进行确定。

还应注意，感觉信号可以由处理和控制模块130或分离的功能模块处理，并且处理和控制模块130可以利用处理后的数据来进行确定。例如，基于从音频感知模块110接收到的音频信号，处理和控制模块130可以通过音频数据处理推断关于讲话者的相对角度、位置、距离等的信息，或作为替选可通过语音识别与自然语言处理而捕获讲话者发出热门词汇(比如“远场”、“近场”等)的含义。类似地，基于从视觉感知模块120接收到的视觉信号，处理和控制模块130还可通过视觉数据处理推断关于讲话者U的相对角度、位置、距离等的信息，或作为替选可通过图像识别捕获讲话者做出特定姿势的含义。

这样，一种类型的被处理的感觉信号与另一种类型的感觉感知模块的工作模式之间的对应关系可以实质上是从感觉信号推断出的信息与另一种类型的感觉感知模块的工作模式之间的对应关系。下面提供具体例子来详细说明。

在本文公开的视听感知系统100中，将在以下部分中详细描述音频感知模块110和视觉感知模块120中的每一个的不同配置和不同工作模式。注意，主要使用以下示例性例子来提供描述，在该例子中视听感知系统100的音频感知模块110和/或视觉感知模块120被部分地或完全地包含在移动电话RCU设备中。然而，还应注意，这些示例仅用于说明目的，并不对本公开的范围构成限制，并且视听感测系统100可以在除移动电话RCU设备之外的设备中，比如非移动电话RCU设备。

在视听感知系统100中，音频感知模块110可以可选地包括一个或更多个音频设备，并且可以可选地被配置为根据不同的实际需求且根据本公开的不同实施例工作在不同的工作模式下。

根据视听感知系统100的一些实施例，音频感知模块110仅包括一个音频装置，该音频装置例如可以被配置为安装在机器人上的RCU设备上的内置装置，从而使得人机回圈操作员能够听到站在机器人附近的讲话者。音频装置可以包括具有多个麦克风的麦克风的阵列(即，麦克风阵列)，该多个麦克风在位置上被串联布置，且功能上被配置为协同工作以从讲话者U接收声音且基于接收到的声音生成音频信号。

在图6A所示的一个具体实施例中，视听感知系统被配置为至少部分地位于安装在机器人上的移动电话RCU设备600中。如图6A所示，视听感知系统的音频感知模块大体上包括麦克风的阵列(即麦克风阵列)，该麦克风的阵列包括多个麦克风612，其在位置上以串联方式布置于移动电话RCU设备600的边缘的顶端。

如图6A所示，麦克风阵列中的多个麦克风612中的每个都优选地是朝外/侧向的全向麦克风。这样，一旦移动电话RCU设备600被插入或安装在机器人上，就可以从位于移动电话RCU设备600侧面的源(比如讲话者)检测到来的声音。如图6B和图6C进一步所示，每个麦克风612可选地可以包括功能件6121，且进一步设置有半圆顶形状的微型笼状物6121、膜等，其被配置成保护由其覆盖的麦克风612的功能件6121。也可以采用其他配置。

音频感知模块中麦克风阵列的这种布置和配置具有以下优点：将麦克风阵列置于移动电话RCU设备600的边缘顶端与位于边缘中/下方的现有嵌入式麦克风相比，更多地暴露于到来的声音，在现有嵌入式麦克风情况下声波需要穿过针孔尺寸的孔径行进从而到达麦克风自身。麦克风位于边缘外，将能够从不同方向拾取更多声音，且能够检测站在移动电话RCU设备600侧面的讲话者的语音。

根据视听感知系统100的一些其他实施例，音频感知模块110包括多于一个音频设备，该音频设备中的每个都被配置成能够接收来自讲话者U的声音并将其转换成音频信号。

在图7所示的一个具体说明性示例中，音频感知模块包括两个音频装置7221和7222，两个音频装置7221和7222均被配置为能够接收来自讲话者U的声音。在图7所示的音频感知模块的该特定实施例的两个音频装置中(即第一音频装置7221和第二音频装置7222)，第一音频装置7221基本上是安装在机器人710上的移动电话RCU设备720中的内置音频装置，其可被激活从而接收站在预定范围(即到机器人控制单元的特定距离比如约2米)内的讲话者U的声音，然后将该声音转换成音频信号。第二音频装置7222基本上是物理上与机器人710分离的音频装置，其到机器人710的距离为D，特征是超灵敏的能力且在讲话者U站在预定范围之外时能够被激活。

具体来说，如果讲话者U站在预定范围(例如到安装在机器人710上的RCU设备720的距离为约1.0米)内，音频感知模块可被配置成在第一工作模式工作，在该第一工作模式中，第一音频装置7221(即内置的音频装置)可被激活从而接收来自讲话者U的声音并将其转换成音频信号，而第二音频装置7222被停用或禁止，从而节省能量和其他资源。

然而，如果讲话者U站在预定范围之外(比如到安装在机器人710上的机器人控制单元720的距离为约2.0米)，音频感知模块110可被配置成在第二工作模式下工作，在该第二工作模式中，第一音频装置7221被停用或禁止，而具有超灵敏能力的第二音频装置7222被激活从而从讲话者U接收声音且然后将其转换成音频信号。

在此，预定范围可以是第一音频装置7221能够以足够准确的水平检测来自以常规音量说话的讲话者U的声音的最大距离。第二音频装置7222可以包括特别设计的麦克风阵列，该麦克风阵列能够例如采取盘状形状，且能够挂在机器人710的头顶，到机器人的距离为D，如图7所示。第二音频装置7222中的麦克风阵列可串联布置且被配置成协同工作以接收讲话者U的声音。

除了以上在图7所示的说明性示例中描述的常规模式和超灵敏模式(即近场模式和远场模式)之外，针对音频感知模块110的不同工作模式还可以包括其他特征比如波束形成选项、插断选项、不同的信道频率、噪声降低、声音抵消以及自动语音识别等。这些不同工作模式中的每个可根据实际需求被启动或关闭，在此不受限制。

音频感知模块110的不同工作模式还可以包括以下实施例，其中音频感知模块110包括多个音频装置，每个音频装置布置在不同位置处和/或具有不同的工作方向性且被配置成具有与其相对应的不同的工作区域。因此，不同音频装置的启动代表音频感知模块110的不同工作模式，这使得能够有效捕获站在对应工作区域的讲话者U的声音。

在一个示例中，如果视听系统100确定讲话者U站在与一个特定音频装置相对应的工作区域内，则相应的音频装置启动，而音频感知模块110的其他音频装置被关闭，从而允许以最佳方式捕获讲话者U的声音。在音频感知模块110中被打开或关闭的这些音频装置的每个不同组合基本上形成了其不同的工作模式。

在本文公开的视听感知系统100中，视觉感知模块120可以包括至少一个相机，并且可以被进一步配置为根据不同的实际需要并根据本公开的不同实施例以不同的工作模式工作。

根据本公开的一些实施例，视觉感知模块120包括被配置成能够以不同模式工作的一个相机，该相机可以比如被配置为安装在机器人上的RCU设备中的内置装置，其允许人机回圈操作员看见站在机器人前面的讲话者。

在一个说明性例子中，视觉感知模块120的相机可被配置成能够放大或缩小，从而调节相机的镜头焦距。这样，不同的工作模式包括相机的不同镜头焦距，该焦距取决于讲话者U到机器人控制单元的相对距离，该距离可由视听感知系统100中的音频感知模块110确定。

根据本公开的一些其他实施例，视觉感知模块120包括至少两个相机，其被配置成分别工作在不同模式下。在图8A所示的一个特定说明性例子中，视觉感知模块包括双相机装置821，其包括两个前置相机，第一相机8211作为常规视场相机工作，第二相机8212作为广角相机工作。第一相机8211和第二相机8212都被配置为安装在机器人810上的机器人控制单元820上的内置装置，如图8A所示。

图8B示出了图8A所示的视觉感知模块的常规角工作模式和广角工作模式，进一步参考图8B，如果讲话者U站在预定范围A1内(即与机器人控制单元820中的双相机装置821的第一相机8211的镜头的焦线所成角度小于或等于值α的区域中)，视觉感知模块可被配置成工作在第一工作模式(即常规角工作模式)，其中第一相机8211被激活以接收来自讲话者U的图像，而第二相机8212被停用或禁止以节省资源。

然而，如果讲话者U站在预定范围A1之外(比如图8B所示的区域A2中)，视觉感知模块可被配置成工作在第二工作模式下(即广角工作模式)，其中，第一相机8211被停用，而具有广角能力的第二相机8212被激活，从而接收讲话者U的图像。

应注意，除了图8A和图8B所示的视觉感知模块的以上实施例中的两个相机之外，视觉感知模块可选地可以包括具有其他能力的相机，比如具有单色镜头的相机，能够基于红外光捕获图像的相机等。在此不受限制。

在视觉感知模块的以上实施例中，不同的工作模式涉及相机镜头的焦距、角度、单色光和/或光波长，除了视觉感知模块的以上实施例之外，视觉感知模块的不同工作模式还可包括其他特征比如波克效应选项、不同的光圈、不同的视频功能(比如常规模式和慢动作模式)、不同的清晰度(比如常规清晰度和相对高的清晰度)等。不同工作模式中的每个可基于实际需求启动或关闭。

应注意，在本公开中，对于视觉感知模块中包括的相机数目以及/或者针对视觉感知模块实现不同工作模式的方式没有限制。例如，这些不同工作模式中的每个可特定于各个不同的相机，或可通过硬件、软件或其组合来实现。

在一个例子中，针对视觉感知模块的具有不同缩放的不同工作模式可通过焦距由软件调整的单镜头相机来实现，或可通过各自具有不同的缩放范围的两个或多个相机来实现。在另一个例子中，具有或不具有波克效应的不同工作模式可通过具有能产生波克效应的软件的单镜头相机实现，或可通过能够产生波克效应的两个相机一起来实现。

此外，视觉感知模块可进一步设置有其他性能用以确定讲话者U的特征/位置/度量或讲话者U给出的信号，基于此音频感知模块可在不同的工作模式之间切换，使得可实现讲话者U的声音的优化捕获。讲话者U的特征/属性/参数/度量的例子可以包括讲话者U的相对角度和/或相对距离，且可包括讲话者U做出的姿势。

综上，本公开提供了一种视听感知系统，其可通过音频感知模块和视觉感知模块之间的串话，自适应接收来自能产生音频提示和视觉提示的对象(比如人、动物或机器等)的声音以及该对象的图像，从而实现优化的音频和视觉捕捉性能。

在一个说明性例子中，视听感知系统可由机器人或机器直接利用，从而实现有效且高效的人机互动。在另一个例子中，视听感知系统可包含在机器人控制单元设备中，该机器人控制单元设备在被集成到、插入、安装在机器人上时，使得人机回圈机器人操作员能够实现对其正在控制的机器人的环境的优化感知。本发明在此不受限制。

在第二方面中，本公开还提供一种视听感知设备，其大体上包括以上所述和示出的根据任一实施例的视听感知系统。

在此，此处公开的视听感知设备可被机器人系统中的机器人利用，以使得机器人能够视觉上和听觉上感知机器人周围里的对象(即接收机器人周围的对象的声音和图像，然后将其转换成音频信号和视觉信号)，从而使得在对象和机器人系统里的机器人之间能够进行人机互动。

可选地，此处公开的视听感知设备可被用作集成到或安装到机器人系统中的机器人上的机器人控制单元(RCU)，其被配置成使得人机回圈机器人操作员能够视觉上和听觉上感知机器人周围的对象。

在上述任何视听感知设备的使用中，对象可以是人类讲话者、动物或能够产生音频提示和视觉提示的物体。

根据一些实施例，视听感知设备可以是机器人系统中机器人的集成部分。

根据一些其他实施例，视听感知设备可以包括仅可安装部分(即没有其他分离的部分)，该可安装部分被插入/安装到机器人系统中的机器人上，从而便于人机回圈机器人操作员控制机器人。在此，视听感知设备可经由附着到机器人上(比如附着到机器人的背心的前侧上)的安装构件(即安装装置，比如背心夹等)安装到机器人上。

进一步可选地，视听感知设备可包括可安装部分和至少一个分离部分。可安装部分能够安装到机器人上，而至少一个分离部分被设置为与机器人物理上分离(因此不会安装到机器人上)。

在一个例子中，视听感知设备除了配备有第一相机装置和第一麦克风装置的可安装部分之外，还可以包括至少一个在位置上与可安装部分分离的其他相机装置，至少一个其他相机装置中的每个可在具有机器人的空间中处于不同位置，和/或具有关于以下方面不同的特征：焦距范围、拍摄角度、单色光性能、捕获不同波长的光的性能、波克效应性能、不同光圈、不同视频性能或不同清晰度等。

在另一个例子中，视听感知设备除了配备有第一相机装置和第一麦克风装置的可安装部分之外，还可以包括至少一个在位置上与可安装部分分离的其他麦克风装置，至少一个其他麦克风装置中的每个可在具有机器人的空间中处于不同位置且因此具有不同的工作区域，和/或具有关于以下方面不同的特征：不同水平的灵敏度、波束形成性能、插断性能、不同信道频率、不同水平的噪声降低、声学消除性能或自动语音识别性能等。

在任何以上视听感知设备的实施例中，可安装部分可以是图1所示的移动电话机器人控制单元(RCU)装置。更具体地，参照图1，如果且当可安装部分安装到机器人10上或者当可安装部分安装到机器人10上时，视听感知设备可用作RCU，或如果是其他情况则可用作常规移动电话(即移动电话)。这样，视听感知设备的可安装部分可被视为移动电话RCU装置20。

为了便于在这两种不同功能之间切换，根据本公开的一些实施例，视听感知设备可被配置为具有双模式，包括RCU模式和移动电话模式，其可通过双模式开关来启动和关闭。

根据一些优选实施例，双模式开关可被配置成使得在一个模式启动时，另一个模式被禁止或关闭。例如，当在RCU模式时，视听感知设备的可安装部分可被插入或安装到机器人上，使得人机回圈操作员能够控制机器人，而同时双模式开关禁止常规移动电话的所有功能(例如接电话和消息)，从而确保设备仅作为RCU装置操作。另一方面，当设备处于移动电话模式时，比如在视听感知设备的可安装部分从机器人拆除时，双模式开关关闭机器人控制功能。

可选地，双模式开关可由在设备上运行的软件/应用程序(APP)来实现。根据一些特定实施例，双模式开关可包括图9中的“RCU开关”所示的图形用户接口(GUI)，其可以显示在设备的交互式显示面板(比如触控显示面板)上(比如在整个视听感知装置中，显示面板被布置为移动电话RCU设备20的一部分)，使得用户能够选择两个模式(即“RCU模式”和“移动电话模式”)中的哪一个可被启动，同时通知用户另一模式的功能被禁止或关闭，如图9进一步所示。

根据一些其他实施例，双模式开关可以包括语音用户接口(voice userinterface，VUI)。双模式开关可例如促使用户在将移动电话RCU装置20安装到机器人上或从机器人拆除移动电话RCU装置20时，在两个模式即“RCU模式”和“移动电话模式”之间进行选择。当用户做出选择时，两个模式中的一个模式被启动，而另一模式被禁止或关闭。

可选地，双模式开关可通过硬件来实现，且可选地可包括物理上置于视听感知设备(即移动电话RCU装置20)的可安装部分中的按钮、操纵杆、旋钮等，且可在双模式开关被触发时(例如按下按钮、移动操纵杆或转动旋钮等)在RCU模式和移动电话模式之间切换。

在第三方面中，本公开还提供一种机器人系统，其包括机器人以及可通信地连接到机器人的视听感知设备。视听感知系统可基于以上所述和所示的任何一个实施例。

可选地，在机器人系统中，视听感知设备被配置成使得机器人能够视觉上和听觉上感测机器人周围的对象(即接收机器人周围中的对象的声音和图像，然后将其转换成音频和视觉信号)，从而使得能够在对象和机器人系统中的机器人之间进行人机交互。

还可选地，在机器人系统中，视听感知设备可被配置为机器人控制单元(RCU)，其可集成到或替换地可被安装到机器人上，从而使得人机回圈机器人操作员能够视觉上和听觉上感测机器人周围的对象。

在其中视听感知设备包括可安装部分的机器人系统的实施例中，机器人系统可包括配置成调解视听感知设备的可安装部分(例如图1所示的移动电话RCU装置20)到机器人的安装的安装构件(即安装装置)。这样，在此的机器人系统中，安装构件基本上是视听感知设备的可安装部分与机器人之间的连接适配件。

优选地，进一步参考图1，安装构件与视听感知设备的可安装部分(即移动电话RCU装置20)适当地相配，从而使得能够将视听感知设备的可安装部分方便地安装到机器人上和/或从机器人拆除。还配置为使得安装构件不影响视听感知设备的功能。

可选地，安装构件包括第一连接部分和第二连接部分。第一连接部分被固定或可拆除地附接到机器人(例如在机器人的对接部分，比如背心或其外加部分)。第二连接部分与第一连接部分附接，且被配置成能够稳固地将视听感知设备的可安装部分保持就位，而不影响视听感知设备中视听感知系统的功能。

根据图10A和图10B所示的机器人系统的一些实施例，安装构件的第二连接部分包括夹具1030，夹具1030具有四个夹持件1031、1032、1033和1034，其能够稳固地将视听感知设备的可安装部分1020(即移动电话RCU装置)卡在附接到机器人1010上的第一连接部分上(图中未示出)，而不遮蔽麦克风阵列(即音频感知模块)中的任何麦克风1022或相机(即视觉感知模块)中的任何镜头1021，使得麦克风1021和镜头1022可完全暴露，从而实现内置于移动电话RCU设备1020中的视听感知系统的音频感知模块和视觉感知模块的全部功能。夹具1030可通过注射成型或3D打印来制造。

可选地，夹具1030在第二连接部分上的角度可被进一步配置成可调节地倾斜，使得移动电话RCU设备1020一旦卡在夹具1030中从而安装到机器人1010上，则具有朝向靠近机器人1010的讲话者相对不太陡的角度。这样，人机互助机器人操作员可通过内置于安装到机器人1010上的移动电话RCU设备1020中的视听感知系统的视觉感知模块(即相机)，容易地看到讲话者。

根据机器人系统的一些实施例，安装构件的第二连接部分或第二连接部分上的夹具设置有角度调节机构，用以手动调节夹具的角度。优选地，角度调节机构被配置为自动的，使得能够基于移动电话RCU设备1020中的相机捕获的图像适应性地调节卡在机器人上的夹具1030中的移动电话RCU设备1020的角度。

以下提供上述机器人系统中使用的视听感知设备的若干特定实施例，从而更详细例示其结构、配置和工作过程。

实施例1：

图11A示出根据本公开一些实施例的机器人系统中使用的视听感知设备。视听感知设备在其中包括单个移动电话机器人控制单元(RCU)装置1120，该移动电话机器人控制单元装置1120连同机器人1110一起基本上形成了机器人系统。

移动电话RCU装置1120被配置成能够通过RCU开关在RCU模式和移动电话模式之间切换，RCU开关包括显示在移动电话RCU装置1120的触控显示面板上的图形用户接口(GUI)，如图9所示。

具体来说，移动电话RCU装置1120被配置成安装到机器人1110上，如图11A所示，从而使其RCU模式被启动，以允许人机回圈操作员控制机器人1110。移动电话RCU装置1120还被配置成当移动电话模式启动时用作移动电话。

视听感知系统中的音频感知模块基本上包括麦克风的阵列(即麦克风阵列)，且麦克风阵列中的每个麦克风1122可以是布置在移动电话RCU设备的边缘顶端上的朝外/朝侧面的全向麦克风。麦克风阵列可参考图6A、图6B和图6C，以及以上部分中的相关描述。视听感知系统中的视觉感知模块基本上包括具有双镜头性能的前置相机1121(以虚线椭圆包围)，其具有一个标准镜头11211和一个广角镜头11212。

图11B示出了图11A所示的移动电话RCU装置1120中的视听感知系统的工作过程。如图中所示，视听感知系统的麦克风阵列(即音频感知模块)可首先从站在移动电话RCU设备附近的讲话者接收声音输入。然后基于捕获的声音，视听感知系统的处理和控制模块可确定发出声音的讲话者是(即在相机的即时焦距之外)否(即在即时焦距之内)站在安装到机器人上的移动电话RCU装置1120的前置相机1121的侧面。

如果确定出讲话者站在即时焦距内，然而不在移动电话RCU装置1120中的前置相机1121的侧面，如图11B所示的菱形块“来自装置侧面的声音”的朝左“否”分支所示，则视听系统的处理和控制模块可向前置相机1121发送“常规角模式”命令，以激活前置相机1121的常规角工作模式(即启动标准镜头11211)，从而相对更好地捕获站在相对于移动电话RCU装置1120和机器人1110常规角以内的讲话者的图像。

然而，如果确定出讲话者站在移动电话RCU装置1120中的前置相机1121的侧面，如图11B所示的菱形“来自装置侧面的声音”的向右“是”分支所示，则视听系统的处理和控制模块可向前置相机1121发送“广角模式”命令，从而启动前置相机1121的广角工作模式(即启动广角镜头11212)，从而相对更好地捕获站在移动电话RCU装置1120侧面且也站在机器人1110侧面的讲话者的图像。

通过在此所述的移动电话RCU装置1120，站在仿人机器人1110侧面(且因此站在插入的移动电话RCU装置1120的中心焦距以外)的讲话者可被人机回圈机器人操作员看到和听到。他们的面部表情可被观察到，他们的言语可被清晰理解，这使得人机回圈机器人操作员能够生成或支持讲话者和机器人之间的自然对话流。

这样，通过内置于移动电话RCU装置1120中的麦克风阵列1122和双镜头前置相机1121而分别实现的音频和视觉上的改进可以提高人机互助机器人操作员对站在机器人1110(其上安装有移动电话RCU装置1120)周围的讲话者的音频和视觉感知。例如，在处理员的帮助下，移动电话RCU装置1120可被插入到机器人的背心上，从而将移动电话RCU装置1120安装到机器人上。

另外，通过移动电话RCU装置1120中的视听感知系统中的处理和控制模块而实现的音频感知模块(即麦克风阵列1122)和视觉感知模块(即双镜头前置相机1121)之间的串话，人机回圈机器人操作员对讲话者的视觉感知可具有自适应特征，而不需要处理员(这节省了人力资源)。这样，人与机器人进行自发交互是实际可行的，相对地与人类讲话者相对于机器人位于何处无关。这使得人(来访者/讲话者)能够完全和自然地与仿人形状因子发生关系。

实施例2：

图12A示出了根据本公开一些其他实施例在机器人系统中使用的视听感知设备120。在此视听感知设备120还可用作安装于机器人上的机器人控制单元(RCU)设备，且允许人机互助操作员控制机器人，如同实施例1中那样，然而还可用作使得机器人或机器能直接看到和听到站在其面前的人类讲话者的手段。

如图12A所示，视听感知设备120包括视觉感知模块和音频感知模块。视觉感知模块基本上是配置成在两种工作模式下操作的前置相机1201：远场模式和近场模式，其分别通过第一镜头12011和第二镜头12012来实现。音频感知模块基本上包括麦克风阵列1202，该麦克风阵列1202包括串联布置的多个麦克风12020，该多个麦克风12020被配置成协同工作。

如图12B所示的视听感知设备120的该特定实施例的工作过程所示出，视听系统可基于站在视听感知设备120前面的讲话者发出的热词，在视觉感知模块的两种工作模式之间切换。

具体地，对于视听感知设备120，麦克风阵列1202可首先接收来自讲话者的声音输入，然后处理和控制模块可基于已识别的声音确定讲话者发出的是两个热词(比如“远场”和“近场”)中的哪一个。

如果确定出讲话者发出的是热词“远场”(如图12B所示的菱形“发出‘远场’或‘近场’”的朝左分支所示)，则处理和控制模块可将“远场模式”命令发送至前置相机1201，以启动前置相机1121的远场工作模式(即启动远场镜头12011)，从而相对更好地捕获站在一定距离处的讲话者的图像，且将其通知给视听感知设备120。

但是，如果确定出讲话者发出的是热词“近场”(如图12B所示的菱形“发出‘远场’或‘近场’”的朝右分支所示)，则处理和控制模块可将“近场模式”命令发送至前置相机1201，以启动前置相机1121的近场工作模式(即启动近场镜头12012)，从而相对更好地捕获站在近距离处的讲话者的图像，且将其通知给视听感知设备120。

实施例3：

图13A示出了根据本公开一些其他实施例的机器人系统中使用的视听感知设备130。如图中所示，视听感知设备130基本上包括第一构件130A和第二构件130B，这两个构件位置上分离然而功能上集成，然而也可位置上和功能上都彼此集成。

视听感知设备130包括视觉感知模块1301和音频感知模块1302。视觉感知模块1301可包括至少一个相机(例如两个相机13011和13012，如图13A所示)，且音频感知模块1302可包括内置于第一构件130A中的短距离麦克风13021和第二构件130B中的超灵敏和长距离麦克风阵列13022。这样，视觉感知模块1301的相机和音频感知模块1302的短距离麦克风13021一起内置于视听感知设备130的第一构件130A中，而音频感知模块1302的麦克风阵列13022设置在第二构件130B中。

根据一些实施例，视听感知设备130的第一元件130A可以是安装到机器人上的机器人控制单元设备(比如图1所示的移动电话RCU设备20)，用于人机回圈机器人操作员控制机器人，且视听感知设备130的第二构件130B可以被视为机器人控制单元设备(即第一构件130A)的听觉延伸。

如图13B进一步所示，音频感知模块1302的短距离麦克风13021具有由以下区域限定的工作区域B1，该区域被以内置麦克风13021为中心、半径为r的半圆包围。工作区域B1以外的区域被限定为B2。

图13C示出了图13A和图13B所示的视听感知设备130的工作过程。如图13B和图13C所示，视觉感知模块1301(即内置的相机13011和13012)可接收站在视听感知设备130的第一构件130A前面的讲话者U的图像，然后处理和控制模块(图中未示出)可基于从相机输入的图像确定讲话者U是站在内置短距离麦克风13021的工作区域B1内还是站在区域B2内。

如果确定出讲话者U站在工作区域B1内(如图13C所示的菱形“讲话者在内置麦克风的工作区域内？”的朝左“是”分支所示)，则处理和控制模块可以向音频感知模块1302发送“短距离模式”命令，以启动其短距离工作模式(即启动内置麦克风13021)，从而捕获靠近视听感知设备130的第一构件130A的讲话者的声音。

但是，如果确定出讲话者U站在工作区域B1外或者在区域B2内(如图13C所示的菱形“讲话者在内置麦克风的工作区域内？”的朝右“否”分支所示)，则处理和控制模块可以向音频感知模块1302发送“长距离模式”命令，以启动其长距离工作模式(即启动超灵敏麦克风阵列13022)，从而相对更好地捕获距视听感知设备130的第一构件130A一定距离处的讲话者的声音。

尽管上面已经详细描述了特定实施例，但是该描述仅出于说明的目的。因此，应当理解，除非明确说明，并不意在将上述许多方面视为需要或必需的元素。

除了以上所述之外，本领域技术人员可对示例性实施例的所公开方面进行各种修改、做出与之对应的等同动作，这些修改和等同动作具有本公开的益处，而不偏离权利要求中限定的本公开的精神和范围，应对权利要求的范围赋予最宽泛的解释，从而囊括这种修改和等同结构。

Claims

1.一种视听感知系统，被配置为机器人控制单元RCU，用于控制机器人与对象进行交互，所述视听感知系统包括：

音频感知模块，被配置成接收来自所述对象的声音，并将所述声音转换成音频信号，其中所述音频感知模块包括：

第一音频装置，其内置于所述RCU中，并被配置为接收与所述机器人相距预定距离以内的对象的声音并将所述声音转换成音频信号；以及

第二音频装置，其与所述机器人分离设置，并被配置为接收与所述机器人相距所述预定距离之外的对象的声音并将所述声音转换成音频信号；

视觉感知模块，被配置成接收所述对象的图像，并将所述图像转换成视觉信号；以及

处理和控制模块，与所述音频感知模块和所述视觉感知模块中的每一个可通信地耦接；

其中：

所述音频感知模块和所述视觉感知模块中的至少一个是具有多于一个工作模式的第一感知模块；以及

所述处理和控制模块被配置成基于从所述音频感知模块和所述视觉感知模块中除了所述第一感知模块之外的一个模块所接收到的感觉信号，控制所述第一感知模块切换其工作模式，其中所述感觉信号是与所述音频感知模块和所述视觉感知模块中除了所述第一感知模块之外的所述一个模块相对应的所述对象的音频信号或视觉信号其中之一。

2.根据权利要求1所述的视听感知系统，其中所述视觉感知模块包括常规角工作模式和广角工作模式，其中所述处理和控制模块被配置成控制所述视觉感知模块，以便：

如果从所述音频感知模块接收到的音频信号表示所述对象在与所述常规角工作模式对应的第一预定范围内，则启动所述常规角工作模式；或者

否则启动所述广角工作模式。

3.根据权利要求1所述的视听感知系统，其中所述视觉感知模块包括近场工作模式和远场工作模式，其中所述处理和控制模块被配置成控制所述视觉感知模块，以便：

如果从所述音频感知模块接收到的音频信号表示所述对象在与所述近场工作模式对应的第二预定范围内，则启动所述近场工作模式；或者

否则启动所述远场工作模式。

4.根据权利要求1所述的视听感知系统，其中所述音频感知模块包括短距离工作模式和长距离工作模式，其中所述处理和控制模块被配置成控制所述音频感知模块，以便：

如果从所述视觉感知模块接收到的视觉信号表示所述对象在与所述短距离工作模式对应的第三预定范围内，则启动所述短距离工作模式；或者

否则启动所述长距离工作模式。

5.一种视听感知设备，包括根据权利要求1所述的视听感知系统。

6.根据权利要求5所述的视听感知设备，其中，所述视听感知设备具有安装到所述机器人上的可安装部分，其中所述视听感知设备被配置为使得人机回圈操作员能够视觉上和听觉上监控所述机器人周围的所述对象。

7.根据权利要求6所述的视听感知设备，其中所述可安装部分能够从所述机器人拆除，且能够在允许机器人控制的RCU模式和允许移动电话功能的移动电话模式之间切换，所述视听感知设备被配置成使得：

如果所述可安装部分安装到所述机器人上，则开启所述RCU模式而禁止所述移动电话模式；以及

否则开启所述移动电话模式，并且关闭所述RCU模式。

8.根据权利要求7所述的视听感知设备，还包括：用户接口，被配置为使得用户能够在所述RCU模式和所述移动电话模式之间切换RCU设备的操作。

9.根据权利要求6所述的视听感知设备，其中：

所述视听感知系统的所述视觉感知模块包括布置在所述可安装部分上的第一相机装置；以及

所述第一音频装置包括布置在所述可安装部分上的第一麦克风装置。

10.根据权利要求9所述的视听感知设备，其中所述视听感知系统的所述视觉感知模块还包括第二相机装置，所述第二相机装置位置上与所述可安装部分分离但是与所述可安装部分可通信地耦接。

11.根据权利要求9所述的视听感知设备，其中所述第一麦克风装置包括具有多个第一麦克风的第一麦克风阵列，所述多个第一麦克风分别布置在所述可安装部分的不同位置处。

12.根据权利要求11所述的视听感知设备，其中所述第一麦克风阵列中的所述多个第一麦克风中的每个是布置在所述可安装部分的边缘的顶端上且被配置成朝外或朝向侧面的全向麦克风。

13.根据权利要求9所述的视听感知设备，其中所述第二音频装置包括第二麦克风装置，所述第二麦克风装置位置上与所述可安装部分分离但是与所述可安装部分可通信地耦接，其中：

所述第二麦克风装置包括具有多个第二麦克风的第二麦克风阵列。

14.根据权利要求9所述的视听感知设备，其中：

所述第一相机装置包括常规角镜头和广角镜头；

所述第一麦克风装置被配置为使得能够基于来自声音源的声音，确定所述声音源是在位于所述可安装部分上的所述第一相机装置的常规角范围内还是在所述第一相机装置的广角范围内；以及

所述视听感知系统的处理和控制模块被配置成：

如果从所述第一麦克风装置接收到的音频信号表示所述对象在常规角范围内，则将第一命令发送至所述第一相机装置，从而启动所述常规角镜头；或者

否则，将第二命令发送至所述第一相机装置，从而启动所述广角镜头。

15.根据权利要求9所述的视听感知设备，其中：

所述第一相机装置包括近场镜头和远场镜头；

所述第一麦克风装置被配置成使得能够基于来自声音源的声音确定所述声音源是在位于所述可安装部分上的所述第一相机装置的近场范围内，还是在所述第一相机装置的远场范围内；以及

所述视听感知系统的所述处理和控制模块被配置为：

如果从所述第一麦克风装置接收到的音频信号表示所述对象在所述近场范围内，则将第三命令发送至所述第一相机装置，从而启动所述近场镜头；或者

否则将第四命令发送至所述第一相机装置，从而启动所述远场镜头。

16.根据权利要求13所述的视听感知设备，其中：

所述第一麦克风装置和所述第二麦克风装置分别被配置成分别在短距离和长距离下工作；

所述第一相机装置被配置成使得能够基于物体的图像确定所述物体是否在所述第一麦克风装置的短距离内；以及

所述视听感知系统的所述处理和控制模块被配置成：

如果从所述第一相机装置接收到的视觉信号表示所述对象在所述短距离内，则发送第五命令，从而启动所述第一麦克风装置；或者

否则，将第六命令发送至所述第二麦克风装置，从而启动所述第二麦克风装置。

17.一种机器人系统，包括：

机器人；以及

根据权利要求6所述的视听感知设备。

18.根据权利要求17所述的机器人系统，还包括：安装装置，被配置成调解要安装到所述机器人上或从所述机器人拆除的所述视听感知设备的可安装部分的安装。

19.根据权利要求18所述的机器人系统，其中所述安装装置包括：

第一连接部分，附接至所述机器人上；以及

第二连接部分，附接至所述第一连接部分且被配置成稳固地将所述视听感知设备的可安装部分保持就位，而不影响所述视听感知系统的功能。

20.根据权利要求19所述的机器人系统，其中：

所述视听感知系统包括第一相机装置和第一麦克风装置，所述第一相机装置和所述第一麦克风装置均布置在所述可安装部分上；以及

所述安装装置的所述第二连接部分包括夹具，其中所述夹具包括至少一个夹持件，被配置成使得所述至少一个夹持件中的任何夹持件都不会阻挡所述第一相机装置中的任何镜头或所述第一麦克风装置中的任何麦克风。