CN112975950B

CN112975950B - 远程操作系统及远程操作方法

Info

Publication number: CN112975950B
Application number: CN202011453028.2A
Authority: CN
Inventors: 山本贵史
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-12-13
Filing date: 2020-12-11
Publication date: 2023-11-28
Anticipated expiration: 2040-12-11
Also published as: JP2021094604A; JP7276108B2; CN112975950A; US20210178581A1

Abstract

本发明提供一种远程操作系统及远程操作方法。远程操作系统具备：拍摄部，对具备末端执行器的被操作对象所存在的环境进行拍摄；操作终端，显示拍摄部拍摄到的环境的拍摄图像，受理相对于所显示的拍摄图像的手写输入信息的输入，并且具备供用户与被操作对象之间进行基于文本聊天的会话的功能；及推定部，基于对拍摄图像输入的手写输入信息和文本聊天的会话履历，来推定被请求由末端执行器进行把持的把持对象物，并且推定对把持对象物请求的由末端执行器进行的把持动作的方式。

Description

远程操作系统及远程操作方法

技术领域

本公开涉及远程操作系统及远程操作方法。

背景技术

已知一种如下技术：对具备末端执行器的被操作对象(例如，具备臂的前端的把持部(例如，手或吸附部)作为末端执行器的机器人等)进行远程操作来使该被操作对象执行把持动作等。例如，在日本特许第5326794号公报中公开了如下技术：显示对机器人周边进行拍摄所得的拍摄图像，并基于用户对拍摄图像以手写方式输入的指示，来推定针对机器人的操作内容。

发明内容

但是，日本特许第5326794号公报所公开的技术是通过以手写方式输入预先设定的指示图形(〇、×、△等)来对机器人进行远程操作的技术。因此，最近，期望一种如下的技术：能够通过直观的用户界面来实现被操作对象可执行的作业之中的实际想要执行的作业的指示。

本公开是为了解决这样的问题而提出的，提供一种能够进行更直观的操作的远程操作系统及远程操作方法。

本公开的第一方式中的远程操作系统对具备末端执行器的被操作对象进行远程操作，其中，该远程操作系统具备：

拍摄部，对所述被操作对象所存在的环境进行拍摄；

操作终端，显示所述拍摄部拍摄到的所述环境的拍摄图像，受理相对于所显示的所述拍摄图像的手写输入信息的输入，并且具备供用户与所述被操作对象之间进行基于文本聊天的会话的功能；及

推定部，基于对所述拍摄图像输入的所述手写输入信息和所述文本聊天的会话履历，来推定被请求由所述末端执行器进行把持的把持对象物，并且推定对所述把持对象物请求的由所述末端执行器进行的把持动作的方式。

本公开的第二方式中的远程操作方法是利用对具备末端执行器的被操作对象进行远程操作的远程操作系统执行的远程操作方法，其中，

对所述被操作对象所存在的环境进行拍摄，

在显示所述环境的拍摄图像的操作终端受理相对于所显示的所述拍摄图像的手写输入信息的输入，

所述被操作对象与所述操作终端的用户之间进行基于文本聊天的会话；

基于对所述拍摄图像输入的所述手写输入信息和所述文本聊天的会话履历，来推定被请求由所述末端执行器进行把持的把持对象物，并且推定对所述把持对象物请求的由所述末端执行器进行的把持动作的方式。

根据上述本公开的方式，可以提供能够进行更直观的操作的远程操作系统及远程操作方法。

本公开的上述和其它目的、特征和优点将从下文给出的详细说明以及附图得到更充分的理解，详细说明和附图仅仅是为了说明的目的而给出的，因此不应将它们看作是对本公开的限制。

附图说明

图1是表示利用本实施方式的远程操作系统的整体环境的例子的概念图。

图2是表示在远程终端的显示面板所显示的显示画面的例子的图。

图3是表示在远程终端的显示面板所显示的显示画面的例子的图。

图4是表示在远程终端的显示面板所显示的显示画面的例子的图。

图5是表示机器人的外观结构例的外观立体图。

图6是表示机器人的块结构例的框图。

图7是表示机器人所取得的拍摄图像的例子的图。

图8是表示学习完毕模型输出的可把持区域的例子的图。

图9是表示远程终端的块结构例的框图。

图10是表示本实施方式的远程操作系统的整体处理的流程的例子的流程图。

图11是表示在远程终端的显示面板所显示的显示画面的例子的图。

图12是表示在远程终端的显示面板所显示的显示画面的例子的图。

具体实施方式

以下，通过发明的实施方式对本公开进行说明，但并不将要求保护的范围的发明限定于以下的实施方式。另外，在实施方式中说明的全部结构并不一定都是作为用于解决课题的手段而必须的。另外，在以下的实施方式中，作为被操作对象，以具备臂的前端的手作为末端执行器的机器人为例进行说明，但被操作对象并不限定于此。

图1是表示利用本实施方式的远程操作系统10的整体环境的例子的概念图。通过位于远离第一环境的第二环境的作为远程操作者的用户对远程终端300(操作终端)进行操作，由此在第一环境中执行各种动作的机器人100经由与互联网600连接的系统服务器500而被远程操作。

机器人100在第一环境中经由无线路由器700与互联网600连接。此外，远程终端300在第二环境中经由无线路由器700与互联网600连接。系统服务器500连接到互联网600。机器人100按照远程终端300的操作，执行由手124进行的把持动作等。

另外，在本实施方式中，对于由手124进行的把持动作不限于仅把持(抓住)把持对象物的动作，例如还包括以下的动作等。

·抓住把持对象物并抬起的动作

·在把持对象物是衣柜等的门或抽屉的把手的情况下，抓住把手来对门或抽屉进行开闭的动作

·在把持对象物是门的门把手的情况下，抓住门把手来对门进行开闭的动作

机器人100利用立体照相机131(拍摄部)对机器人100所存在的第一环境进行拍摄，并经由互联网600将拍摄图像发送到远程终端300。图1的例子示出了机器人100正在对存在于第一环境的工作台400进行拍摄的状况。

远程终端300例如是平板终端，具有重叠配置有触摸面板的显示面板341。在显示面板341显示从机器人100接收到的拍摄图像，用户能够间接地目视确认机器人100所存在的第一环境。此外，用户能够对显示于显示面板341的拍摄图像以手写方式输入手写输入信息。手写输入信息例如是指示请求由手124进行把持的把持对象物、针对把持对象物的把持动作的方式等的信息。作为手写输入信息的输入方法，具有使用用户的手指或触控笔等来触摸重叠配置于显示面板341的触摸面板的方法等，但并不限定于此。用户对拍摄图像输入的手写输入信息经由互联网600发送给机器人100。

此外，远程终端300具备供用户与机器人100之间进行基于文本聊天的会话的功能。作为文本聊天的用户的发言语句的文本信息的输入方法，具有在显示面板341显示文本输入用的键盘画面并在重叠配置于显示面板341的触摸面板上，使用用户的手指或触控笔等来触摸键盘画面的相应键的方法等，但并不限定于此。用户所输入的发言语句的文本信息经由互联网600发送给机器人100。此外，经由互联网600从机器人100接收由机器人100生成的针对用户的发言语句的应答发言语句的文本信息。

图2是表示在远程终端300的显示面板341所显示的显示画面310的例子的图。在图2的例子中，显示画面310横向排列配置有机器人100拍摄到的拍摄图像311和聊天画面312。

在拍摄图像311显现有工作台400、载置于工作台400的杯子401、电子计算器402、智能手机403、纸404。另外，杯子401、电子计算器402、智能手机403、纸404是手124能够把持的可把持物。因此，拍摄图像311被加工成用对话框显示可把持物的名称，使得用户能够目视确认可把持物。另外，用户以手写方式输入了针对拍摄图像311的手写输入信息931。

在聊天画面312显示在远程终端300的用户与机器人100之间以文本聊天的形式进行对话的文本信息。详细而言，用户输入到远程终端300的发言语句的文本信息作为文字显示于从模拟用户的图像901伸出的对话框形式的文本框911～913。此外，机器人100生成的针对用户的发言语句的应答发言语句的文本信息作为文字显示于从模拟机器人100的图像902伸出的对话框形式的文本框921～923。

机器人100基于用户对拍摄图像输入的手写输入信息和文本聊天的会话履历，来推定被请求由手124进行把持的把持对象物，并且推定对所推定出的把持对象物请求的由手124进行的把持动作的方式。

在图2的例子中，手写输入信息931在拍摄图像311上的智能手机403的位置处被输入。此外，根据输入到文本框911、921、912的文本信息，请求了抓住把持对象物并抬起的把持动作(详细情况后述)。因此，机器人100能够基于手写输入信息931和输入到文本框911、921、912的文本信息，推定为把持对象物是载置于工作台400的智能手机403，把持动作的方式是抓住智能手机403并抬起。另外，在图2的例子中，成为手写输入信息931模拟从上方抓住智能手机403的图像，但并不限定于此。也可以采用如下方式，即，手写输入信息931仅作为指示智能手机403是把持对象物的图像，把持动作的方式由用户在基于文本聊天的会话中进行指示。作为指示智能手机403是把持对象物的手写输入信息931的图像，例如图3所示，可以为用箭头指出智能手机403的图像，或者如图4所示，可以为用任意图形(图4中为圆圈)包围智能手机403的图像等。

此外，也可以采用如下方式，即，机器人100基于文本聊天的会话履历，判断是否存在以追加的方式对机器人100请求的动作，如果存在以追加的方式对机器人100请求的动作，则推定该动作的方式。

在图2的例子中，根据输入到文本框912、922、923、913的文本信息，请求了将智能手机403运送到起居室(详细情况后述)。因此，机器人100能够基于输入到文本框912、922、923、913的文本信息，推定为对机器人100以追加的方式请求了将通过把持操作抓住的智能手机403运送到起居室。

因此，在图2的示例中，机器人100能够推定为对机器人100请求的整体动作是抓住智能手机403并将其运送到起居室。

图5是表示机器人100的外观结构例的外观立体图。机器人100大致划分由台车部110和主体部120构成。台车部110在圆筒形状的壳体内支承各自的行走面接触地面的2个驱动轮111和1个脚轮112。两个驱动轮111配设成旋转轴芯彼此一致。各驱动轮111由未示出的电动机独立地旋转驱动。脚轮112是从动轮，设置成从台车部110沿铅垂方向延伸的旋转轴与车轮的旋转轴分离地对车轮进行轴支承，并以跟踪的方式追随台车部110的移动方向。

台车部110在上表面的周缘部具备激光扫描器133。激光扫描器133针对每个步进角而扫描水平面内的一定范围，并输出在各个方向上是否存在障碍物。此外，在存在障碍物的情况下，激光扫描器133将到该障碍物为止的距离输出。

主体部120主要具备：搭载于台车部110的上表面的躯干部121；载置于躯干部121的上表面的头部122；支承于躯干部121的侧面的臂123；及设置于臂123的前端部的手124。臂123和手124经由未图示的电动机被驱动，对把持对象物进行把持。躯干部121能够通过未图示的电动机的驱动力而相对于台车部110绕铅垂轴旋转。

头部122主要具备立体照相机131和显示面板141。立体照相机131具有如下结构，即，具有相同的视场角的两个照相机单元彼此分离地配置的结构，并输出由各个照相机单元拍摄所得的拍摄信号。

显示面板141例如是液晶面板，通过动画显示所设定的角色的面部，或者通过文本或图标显示与机器人100相关的信息。如果在显示面板141显示角色的面部，则能够给予周围的人们显示面板141好像是模拟性的面部的印象。

头部122能够通过未图示的电动机的驱动力而相对于躯干部121绕铅垂轴旋转。因此，立体照相机131能够对任意方向进行拍摄，并且显示面板141能够朝向任意方向呈现显示内容。

图6是表示机器人100的块结构例的框图。在此，对与把持对象物及把持动作的方式的推定相关的主要要素进行了说明，但作为机器人100的结构，也可以具备其他要素，另外，也可以增加有助于把持对象物及把持动作的方式的推定的其他要素。

控制部150例如是CPU，例如存放于躯干部121所具备的控制单元。台车驱动单元145包括驱动轮111和用于对驱动轮111进行驱动的驱动电路和电动机。控制部150通过向台车驱动单元145发送驱动信号，从而执行驱动轮的旋转控制。另外，控制部150从台车驱动单元145接收编码器等的反馈信号，来掌握台车部110的移动方向和移动速度。

上身驱动单元146包括臂123和手124、躯干部121和头部122、及用于对它们进行驱动的驱动电路和电动机。控制部150通过向上身驱动单元146发送驱动信号，来实现把持动作和手势。另外，控制部150从上身驱动单元146接收编码器等的反馈信号，来掌握臂123及手124的位置和移动速度、躯干部121及头部122的朝向和转速。

显示面板141接收并显示由控制部150生成的图像信号。另外，如上所述，控制部150生成角色等的图像信号，并显示于显示面板141。

立体照相机131按照来自控制部150的请求，对机器人100所存在的第一环境进行拍摄，并将拍摄信号传递给控制部150。控制部150使用拍摄信号来执行图像处理，或者按照预先规定的格式将拍摄信号变换为拍摄图像。激光扫描器133按照来自控制部150的请求来检测在移动方向上是否存在障碍物，并将作为其检测结果的检测信号传递给控制部150。

手持照相机135例如是距离图像传感器，用于识别把持对象物的距离、形状、方向等。手持照相机135包括对从对象空间入射的光学图像进行光电变换的像素以二维状排列而成的成像元件，按每个像素向控制部150输出到被摄体为止的距离。具体而言，手持照相机135包括将图形光照射到对象空间的照射单元，由成像元件接收相对于该图形光的反射光，并根据图像中的图形的变形和大小，输出到各像素捕捉到的被摄体为止的距离。另外，控制部150用立体照相机131掌握更广的周边环境的状况，并用手持照相机135掌握把持对象物附近的状况。

存储器180是非易失性的存储介质，例如使用固态驱动器。存储器180除了存储有用于控制机器人100的控制程序以外，还存储有用于控制和运算的各种参数值、函数、查找表等。特别地，存储器180存储有学习完成模型181、发言DB182和地图DB183。

学习完毕模型181是将拍摄图像作为输入图像，并输出显现于该拍摄图像的可把持物的学习完毕模型。

发言DB182例如由硬盘驱动器的记录介质构成，是将组织为语料库的各个用语与可再现的发言数据一起存储的数据库。

地图DB183例如由硬盘驱动器的记录介质构成，是存放有描述机器人100所存在的第一环境中的空间的地图信息的数据库。

通信单元190例如是无线LAN单元，与无线路由器700之间进行无线通信。通信单元190接收从远程终端300发送来的、针对拍摄图像的手写输入信息和用户的发言语句的文本信息并传递给控制部150。此外，通信单元190按照控制部150的控制，将由立体照相机131拍摄到的拍摄图像和由控制部150生成的针对用户的发言语句的应答会话语句的文本信息发送给远程终端300。

控制部150通过执行从存储器180读出的控制程序来执行机器人100整体的控制和各种运算处理。另外，控制部150还承担作为执行与控制相关的各种运算和控制的功能执行部的作用。作为这种功能执行部，控制部150包括识别部151和推定部152。

识别部151将由立体照相机131的任一个照相机单元拍摄到的拍摄图像作为输入图像，从自存储器180读出的学习完毕模型181得到在拍摄图像中所显现的手124能够把持的可把持区域，由此识别可把持部。

图7是表示机器人100利用立体照相机131取得的第一环境的拍摄图像311的例子的图。在图7的拍摄图像311显现有工作台400、载置于工作台400的杯子401、电子计算器402、智能手机403及纸404。识别部151将这样的拍摄图像311作为输入图像提供给学习完毕模型181。

图8是表示在将图7的拍摄图像311作为输入图像的情况下学习完毕模型181输出的可把持区域的例子的图。具体而言，将包围杯子401的区域检测为可把持区域801，将包围电子计算器402的区域检测为可把持区域802，将包围智能手机403的区域检测为可把持区域803，并将包围纸404的区域检测为可把持区域804。因此，识别部151将分别被可把持区域801～804包围的杯子401、电子计算器402、智能手机403及纸404识别为可把持部。

学习完毕模型181是利用教师数据进行学习所得的神经网络，所述教师数据是显现手124能够把持的可把持部的图像与该图像中的哪个区域是可把持部的正确答案值的组合。此时，通过将教师数据设为进一步表示图像中的可把持部的名称、距离、方向的教师数据，还能够将学习完毕模型181设为将拍摄图像作为输入图像，并且不仅输出可把持部，还输出该可把持部的名称、距离、方向的学习完毕模型。另外，学习完毕模型181是利用深层学习进行学习所得的神经网络为宜。另外，学习完毕模型181也可以随时追加教师数据来进行追加学习。

另外，识别部151也可以在识别出可把持部后，对拍摄图像进行加工，使得用户能够目视确认可把持物。作为拍摄图像的加工方法，如图2的例子所示，具有用对话框显示可把持物的名称的方法等，但并不限定于此。

推定部152承担以文本聊天的形式与远程终端300的用户进行会话的功能。更具体而言，推定部152参照发言DB182，针对与用户输入到远程终端300的发言语句生成相应的应答发言语句的文本信息。此时，在用户在远程终端300也输入了针对拍摄图像的手写输入信息的情况下，推定部152也参照手写输入信息来生成应答发言语句的文本信息。

推定部152基于用户对拍摄图像输入的手写输入信息和文本聊天的会话履历，来推定被请求由手124进行把持的把持对象物，并且推定对所推定出的把持对象物请求的由手124进行的把持动作的方式。此外，也可以采用如下方式，即，推定部152基于文本聊天的会话履历，判断是否存在对机器人100以追加的方式请求的动作，如果存在对机器人100以追加的方式请求的动作，则推定该动作的方式。此时，推定部152对手写输入信息的内容及文本聊天的会话履历的内容进行解析，并一边使用文本聊天的文本信息向远程终端300确认解析出的内容，一边进行上述推定为宜。

以下，举出图2为例，对在机器人100的推定部152中推定把持对象物及把持动作的方式等的推定方法进行详细说明。

在图2的例子中，首先，机器人100从远程终端300接收用户的表达语句“把这个取来”的文本信息(文本框911)。此时，显现于机器人100正在拍摄的拍摄图像311的可把持物是识别部151识别出的杯子401、电子计算器402、智能手机403及纸404。此外，在机器人100中，也从远程终端300接收在该拍摄图像311上的智能手机403的位置处被输入的手写输入信息931。

因此，推定部152基于“把这个取来”的文本信息，解析为把持动作的方式是抓住把持对象物并抬起的动作。而且，推定部152基于手写输入信息931，解析为把持对象物是识别部151识别出的可把持物中的处于手写输入信息931的输入位置的智能手机403。另外，推定部152能够以任意的方法识别拍摄图像311上的手写输入信息931的输入位置。例如，如果远程终端300将表示拍摄图像311上的手写输入信息931的输入位置的位置信息包含在手写输入信息931中而进行发送，则推定部152能够基于该位置信息来识别手写输入信息931的输入位置。或者，如果远程终端300发送被加工成输入有手写输入信息931的状态的拍摄图像311，则推定部152能够基于该拍摄图像311来识别手写输入信息931的输入位置。

然后，推定部152为了向用户确认把持对象物是智能手机403，而生成“收到。是智能手机吗？”这样的应答发言语句的文本信息(文本框921)，并将所生成的文本信息发送到远程终端300。

接着，在机器人100中，从远程终端300接收用户的发言语句“是的。拿到我这里来”的文本信息(文本框912)。因此，推定部152推定为被请求由手124进行把持的把持对象物是智能手机403，把持动作的方式是抓住智能手机403并抬起。

此外，推定部152由于推定出了把持对象物及把持动作的方式，因此生成“收到”这样的应答发言语句的文本信息(文本框922)，并将所生成的文本信息发送到远程终端300。

而且，推定部152基于“拿到我这里来”的文本信息，解析为对机器人100以追加的方式请求了将通过把持动作抓住的智能手机403运送到“我这里”的动作。

然后，推定部152为了确认“我这里”是哪里，而生成“在起居室吗？”这样的应答发言语句的文本信息(文本框923)，并将所生成的文本信息发送到远程终端300。

接着，在机器人100中，从远程终端300接收用户的发言语句“是的。谢谢”的文本信息(文本框913)。因此，推定部152推定为对机器人100以追加的方式请求了将智能手机403运动到起居室的动作。

其结果为，推定部152会推定为对机器人100请求的整体动作是抓住智能手机403并将其运送到起居室。

如上所述，推定部152能够推定出被请求由手124进行把持的把持对象物、和对把持对象物请求的由手124进行的把持动作的方式。而且，如果存在对机器人100以追加的方式进行请求的动作，则推定部152也能够推定该动作的方式。

当由推定部152进行的上述推定结束时，控制部150进行用于开始对把持对象物请求的由手124进行的把持动作的准备。具体而言，首先，控制部150将臂123向手持照相机135能够观察到把持对象物的位置进行驱动。接着，控制部150使手持照相机135对把持对象物进行拍摄，识别把持对象物的状态。

然后，控制部150基于把持对象物的状态和对把持对象物请求的由手124进行的把持动作的方式，生成用于实现对把持对象物请求的把持动作的手124的轨道。此时，控制部150以满足规定的把持条件的方式生成手124的轨道。规定的把持条件包括手124对把持对象物进行把持时的条件、到手124对把持对象物进行把持为止的轨道的条件等。手124对把持对象物进行把持时的条件例如是在手124对把持对象物进行把持时使臂123不过度伸长等。另外，到手124对把持对象物进行把持为止的轨道的条件例如是在把持对象物是抽屉的把手的情况下手124采取直线轨道等。

控制部150在生成了手124的轨道时，将与所生成的轨道相应的驱动信号发送给上身驱动单元146。手124根据该驱动信号进行针对把持对象物的把持动作。

另外，在推定部152推定了对机器人100以追加的方式进行请求的动作的方式的情况下，控制部150在手124的轨道生成及把持动作之前或之后，执行对机器人100以追加的方式进行请求的动作。此时，根据对机器人100以追加的方式进行请求的动作，有时需要使机器人100移动的动作。例如，如图2的例子所示，在以追加的方式请求了抓住把持对象物并运送的动作的情况下，需要使机器人100移动到运送目的地。此外，在从机器人100的当前位置到把持对象物存在距离的情况下，需要使机器人100移动到把持对象物的附近。

在需要使机器人100移动的动作的情况下，控制部150从地图DB183取得描述机器人100所存在的第一环境中的空间的地图信息，从而生成使机器人100移动的路径。地图信息例如是描述第一环境中的各房间的位置、各房间的布局等的信息为宜。另外，地图信息也可以是描述存在于各房间的衣柜、桌子等障碍物的信息。但是，关于障碍物，也能够根据来自激光扫描器133的检测信号来检测在机器人100的移动方向上是否存在障碍物。另外，在从机器人100的当前位置到把持对象物存在距离的情况下，根据学习完毕模型181，能够从由立体照相机131所取得的拍摄图像得到把持对象物的距离、方向。另外，把持对象物的距离、方向既可以通过对第一环境的拍摄图像进行图像解析而得到，也可以通过来自其他传感器的信息而得到。

因此，控制部150在使机器人100向把持对象物的附近移动的情况下，基于地图信息、把持对象物的距离、方向、有无障碍物的存在等，生成用于使机器人100从当前位置起在避开障碍物的同时移动到把持对象物的附近的路径。此外，在使机器人100向运送目的地移动的情况下，控制部150基于地图信息、有无障碍物的存在等，生成用于使机器人100从当前位置起在避开障碍物的同时移动到运送目的地的路径。然后，控制部150将与所生成的路径相应的驱动信号发送给台车驱动单元145。台车驱动单元145根据该驱动信号使机器人100移动。另外，控制部150在运送目的地的路径中例如在存在门的情况下，需要生成用于在门的附近抓住门把手来对门进行开闭的手124的轨道，并且也一并进行与所生成的轨道相应的手124的控制。该情况下的轨道的生成及手124的控制例如使用与上述方法相同的方法即可。

图9是表示远程终端300的块结构例的框图。这里，对关于用户对从机器人100接收到的拍摄图像输入手写输入信息的处理、用于用户进行基于文本聊天的会话的处理的主要要素进行说明，但作为远程终端300的结构，也可以具备其他要素，另外，也可以增加有助于用户输入手写输入信息的处理、用于用户进行基于文本聊天的会话的处理的其他要素。

运算部350例如是CPU，通过执行从存储器380读出的控制程序来执行远程终端300整体的控制和各种运算处理。显示面板341例如是液晶面板，例如显示从机器人100发送来的拍摄图像和文本聊天的聊天画面。此外，显示面板341在聊天画面显示用户所输入的发言语句的文本信息和从机器人100发送来的应答发言语句的文本信息。

输入单元342包括重叠配置于显示面板141的触摸面板、设置于显示面板141的周缘部的按钮等。输入单元342将用户通过对触摸面板的触摸而输入的手写输入信息和发言语句的文本信息传递给运算部350。手写输入信息和文本信息的例子例如如图2所示。

存储器380是非易失性的存储介质，例如使用固态驱动器。存储器380除了存储有用于控制远程终端300的控制程序以外，还存储有用于控制和运算的各种参数值、函数、查找表等。

通信单元390例如是无线LAN单元，与无线路由器700之间进行无线通信。通信单元390接收从机器人100发送来的拍摄图像和应答发言语句的文本信息并传递给运算部350。另外，通信单元390与运算部350协作，将手写输入信息和用户的表达语句的文本信息发送给机器人100。

接着，对本实施方式的远程操作系统10的整体处理进行说明。图10是表示本实施方式的远程操作系统10的整体处理的流程的例子的流程图。左侧的流程表示机器人100的处理流程，右侧的流程表示远程终端300的处理流程。另外，将经由系统服务器500进行的手写输入信息、拍摄图像和文本聊天的文本信息的交换用虚线箭头表示。

机器人100的控制部150使立体照相机131对机器人100所存在的第一环境进行拍摄(步骤S11)，并将该拍摄图像经由通信单元190发送给远程终端300(步骤S12)。

远程终端300的运算部350在经由通信单元390从机器人100接收到拍摄图像时，将接收到的拍摄图像显示于显示面板341。

之后，用户在远程终端300上与机器人100进行基于文本聊天的会话(步骤S21)。具体而言，当用户经由触摸面板即输入单元342输入了发言语句的文本信息时，远程终端300的运算部350将该文本信息显示于显示面板341的聊天画面，并且经由通信单元390发送给机器人100。另外，运算部350在经由通信单元390从机器人100接收到应答发言语句的文本信息时，将该文本信息显示于显示面板341的聊天画面。

另外，远程终端300的运算部350转移到受理相对于拍摄图像的手写输入信息的输入的状态(步骤S31)。当用户经由触摸面板即输入单元342对拍摄图像输入了手写输入信息时(步骤S31中的“是”)，运算部350将该手写输入信息经由通信单元390发送给机器人100(步骤S32)。

机器人100的推定部152在从远程终端300接收到用户对拍摄图像输入的手写输入信息时，基于该手写输入信息和文本聊天的会话履历，来推定被请求由手124进行把持的把持对象物，并且推定对所推定出的把持对象物请求的由手124进行的把持动作的方式(步骤S13)。此时，关于把持对象物，推定部152从识别部151取得在输入有手写输入信息的拍摄图像所显现的可把持部的信息，并基于手写输入信息和文本聊天的会话履历，从可把持部之中推定把持对象物。另外，推定部152对手写输入信息的内容及文本聊天的会话履历的内容进行解析，并一边使用文本聊天的文本信息向远程终端300确认解析出的内容，一边进行上述推定。

之后，机器人100的控制部150生成用于实现对把持对象物请求的把持动作的手124的轨道(步骤S14)。控制部150在生成手124的轨道后，根据所生成的轨道控制上身驱动单元146，利用手124进行对把持对象部的把持动作(步骤S15)。

另外，在步骤13中，也可以采用如下方式，即，推定部152基于文本聊天的会话履历，判断是否存在对机器人100以追加的方式请求的动作，如果存在对机器人100以追加的方式请求的动作，则推定该动作的方式。也可以对文本聊天的会话履历的内容进行解析，并一边使用文本聊天的文本信息向远程终端300确认解析出的内容，一边进行上述推定。

在推定部152中推定了对机器人100以追加的方式进行请求的动作的方式的情况下，控制部150在步骤S14、S15之前或之后，执行对机器人100以追加的方式进行请求的动作。在执行这种动作时，在需要使机器人100移动的动作的情况下，控制部150生成使机器人100移动的路径。然后，控制部150将与生成的路径相应的驱动信号发送给台车驱动单元145。台车驱动单元145根据该驱动信号使机器人100移动。

如以上所说明的那样，根据本实施方式，推定部152基于用户对拍摄机器人100所存在的环境所得的拍摄图像输入的手写输入信息和文本聊天的会话履历，来推定被请求由手124进行把持的把持对象物，并且推定对所推定出的把持对象物请求的由手124进行的把持动作的方式。

由此，用户即使不一边回忆预先设定的指示图形一边进行手写输入，也能够通过远程操作使机器人100执行把持动作。因此，可以实现能够进行更直观的操作的远程操作系统10。

另外，根据本实施方式，推定部152也可以解析对拍摄图像输入的手写输入信息的内容及文本聊天的会话履历的内容，并使用文本聊天的文本信息向远程终端300(用户)确认解析出的内容。

由此，能够一边通过文本聊天确认用户的意图，一边与用户取得与把持动作的操作相关的沟通。因此，可以实现能够进行更加反映用户的意图的直观操作的远程操作系统10。

另外，本公开并不限定于上述实施方式，在不脱离主旨的范围内，能够适当地进行变更。

例如，在上述实施方式中，例如如图2所示，在显示于远程终端300的显示面板341的显示画面310是横向排列配置有拍摄图像311和聊天画面312的画面，但并不限定于此。显示画面310例如也可以是与拍摄图像重叠地配置有聊天画面的画面。图11是表示与拍摄图像311重叠地配置有聊天画面312的显示画面310的例子的图。

另外，在上述实施方式中，推定部152使用文本聊天的文本信息向远程终端300(用户)确认针对向拍摄图像所输入的手写输入信息进行解析所得的内容。此时，对于根据手写输入信息解析出的把持对象物，也可以通过从拍摄图像切出该把持对象物的图像并显示于聊天画面，来向远程终端300(用户)进行确认。图12是表示将根据手写输入信息解析出的把持对象物的图像显示于聊天画面的例子的图。在图12的例子中，推定部152为了向用户确认根据手写输入信息931解析出的把持对象物是智能手机403，而将从拍摄图像311切出的智能手机403的图像(文本框925)与“收到。是这个智能手机吗？”这样的应答发言语句的文本信息(文本框924)一起发送到远程终端300，并将它们显示于显示面板341的聊天画面312。

另外，在上述实施方式中，说明了对拍摄图像输入一个手写输入信息的例子，但不限定于此。对拍摄图像也可以输入多个手写输入信息。在对拍摄图像输入了多个手写输入信息的情况下，推定部152只要对多个手写输入信息的每一个进行解析，并一边使用文本聊天的文本信息向远程终端300(用户)确认解析出的内容，一边推定把持对象物及把持动作的方式即可。此时，推定部152也可以将把持动作的顺序推定为与把持动作对应的手写输入信息被输入的顺序。或者，推定部152也可以一边使用文本聊天的文本信息向远程终端300(用户)进行确认，一边推定把持动作的顺序。

另外，在上述实施方式中，识别部151及推定部152设置于机器人100，但并不限定于此。识别部151、及推定部152中的除了与远程终端300的用户进行会话的功能之外的功能可以设置于远程终端300，也可以设置于系统服务器500。

另外，在上述实施方式中，用户通过对重叠配置于远程终端300的显示面板341的触摸面板的触摸，来输入会话语句的文本信息，但并不限定于此。例如，用户也可以对远程终端300的麦克风等进行发言，远程终端300使用普通的语音识别技术来识别用户的表达内容而将其转换为文本信息，并将转换后的文本信息作为用户的会话语句的文本信息。

此外，在上述实施方式中，机器人100和远程终端300经由互联网600和系统服务器500交换拍摄图像、手写输入信息和文本聊天的文本信息，但并不限定于此。机器人100和远程终端300也可以通过直接通信来交换拍摄图像、手写输入信息和文本聊天的文本信息。

另外，在上述实施方式中，使用了机器人100所具备的拍摄部(立体照相机131)，但并不限定于此。拍摄部只要是设置于机器人100所存在的第一环境中的任意场所的任意拍摄部即可。另外，拍摄部并不限定于立体照相机，也可以是单眼照相机等。

另外，在上述实施方式中，说明了被操作对象是具备臂123的前端的手124作为末端执行器的机器人100的例子，但并不限定于此。被操作对象只要是具备末端执行器并使用末端执行器来执行把持动作即可。另外，末端执行器也可以是手以外的其他把持部(例如吸附部等)。

另外，在上述实施方式中，对在机器人100及远程终端300中，通过由CPU执行从存储器读出的控制程序来执行控制和运算处理的情况进行了说明。在系统服务器500中，也可以与机器人100及远程终端300同样地，通过由CPU执行从存储器读出的控制程序来执行控制和运算处理。

在上述例子中，所述程序可以使用任何类型的非暂时性计算机可读介质被存储并且提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。非暂时性计算机可读介质的示例包括磁性存储介质(例如软盘、磁带、硬盘驱动器等)、光磁存储介质(例如磁光盘)、CD-ROM(光盘只读存储器)、CD-R(可记录光盘)、CD-R/W(可擦写光盘)、以及半导体存储器(例如掩模ROM、PROM(可编程ROM)、EPROM(可擦除PROM)、闪存ROM、RAM(随机存取存储器)等))。所述程序可以使用任何类型的暂时性计算机可读介质提供给计算机。暂时性计算机可读介质的示例包括电信号、光信号和电磁波。暂时性计算机可读介质可以经由有线通信线路(例如，电线和光纤)或无线通信线路将程序提供给计算机。

从所描述的公开内容中，显而易见的是，本公开的实施例可以以多种方式改变。这种改变不应被认为是脱离了本公开的主旨和范围，并且所有对于本领域的技术人员而言显而易见的这些改变都旨在包括在要求保护的范围内。

Claims

1.一种远程操作系统，对具备末端执行器的被操作对象进行远程操作，其中，该远程操作系统具备：

拍摄部，对所述被操作对象所存在的环境进行拍摄；

推定部，基于对所述拍摄图像输入的所述手写输入信息和所述文本聊天的会话履历，来推定被请求由所述末端执行器进行把持的把持对象物，并且推定对所述把持对象物请求的由所述末端执行器进行的把持动作，

所述把持动作是以下动作中的至少一个：

(A)仅把持所述把持对象物的动作；

(B)抓住所述把持对象物并抬起的动作；

(C)在所述把持对象物是门或抽屉的把手的情况下，抓住所述把手来对所述门或抽屉进行开闭的动作；

(D)在所述把持对象物是门的门把手的情况下，抓住所述门把手来对所述门进行开闭的动作。

2.根据权利要求1所述的远程操作系统，其中，

所述推定部解析对所述拍摄图像输入的所述手写输入信息的内容，并使用所述文本聊天的文本信息向所述操作终端确认解析出的内容。

3.根据权利要求1或2所述的远程操作系统，其中，

所述远程操作系统还具备识别部，该识别部基于所述拍摄图像来识别所述末端执行器能够把持的可把持部，

所述推定部从所述识别部识别出的所述可把持部之中推定所述把持对象物。

4.一种远程操作方法，是利用对具备末端执行器的被操作对象进行远程操作的远程操作系统执行的远程操作方法，其中，

对所述被操作对象所存在的环境进行拍摄，

所述被操作对象与所述操作终端的用户之间进行基于文本聊天的会话，

基于对所述拍摄图像输入的所述手写输入信息和所述文本聊天的会话履历，来推定被请求由所述末端执行器进行把持的把持对象物，并且推定对所述把持对象物请求的由所述末端执行器进行的把持动作，

所述把持动作是以下动作中的至少一个：

(A)仅把持所述把持对象物的动作；

(B)抓住所述把持对象物并抬起的动作；

5.一种计算机可读介质，存储有用于使计算机执行如下步骤的程序：

基于对拍摄图像输入的手写输入信息、和在被操作对象与操作终端的用户之间进行的文本聊天的会话履历，来推定被请求由末端执行器进行把持的把持对象物，并且推定对所述把持对象物请求的由所述末端执行器进行的把持动作，所述拍摄图像是对具备所述末端执行器的所述被操作对象所存在的环境进行拍摄而得到的且显示于所述操作终端的图像，

所述把持动作是以下动作中的至少一个：

(A)仅把持所述把持对象物的动作；

(B)抓住所述把持对象物并抬起的动作；