CN109521878A

CN109521878A - 交互方法、装置和计算机可读存储介质

Info

Publication number: CN109521878A
Application number: CN201811329171.3A
Authority: CN
Inventors: 许国军
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Optical Technology Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-26

Abstract

本发明公开了一种交互方法，包括：通过麦克风获取音频信息，并通过摄像头获取视频信息；与VR设备建立连接；将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备根据所述视频信息和/或音频信息进行展示；接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息；根据所述头部动作信息、肢体动作信息和表情信息进行对应的同步操作。本发明还公开了一种交互装置、计算机可读存储介质。本发明能够实现利用机器人和VR设备使远程双方具有更立体和沉浸感的互动，加强远程双方的交流。

Description

交互方法、装置和计算机可读存储介质

技术领域

本发明涉及智能交互技术领域，尤其涉及一种交互方法、装置及计算机可读存储介质。

背景技术

随着经济的发展，生活节奏的提高，人们的生活越来越富裕，生活也越来越忙碌，但照顾家庭的时间越来越少。因此，对老人和小孩的照顾问题已越来越成为人们急需解决的棘手问题。现在，越来越多的智能产品和智能服务应用于远程陪护方面，帮助人们解决照顾家庭的问题。

目前，基于固定摄像头模式的远程看护交流模式即用固定高清摄像头静态地进行室内的拍摄来实现远程陪护的模式，虽然能够满足人们对家庭的监控需求来应对意外情况的发生，但无法解决老人感觉无人陪伴的困扰，和远程监视端对视频中场景缺少沉浸感的问题。

发明内容

本申请的主要目的在于提供了一种交互方法、装置和计算机可读存储介质，旨在提供一种更加有沉浸感、互动性更强的远场交互方式。

为实现上述目的，本发明提供一种交互方法，所述交互方法包括：

通过麦克风获取音频信息，并通过摄像头获取视频信息；

与VR设备建立连接；

将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备根据所述视频信息和/或音频信息进行展示；

接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息；

根据所述头部动作信息、肢体动作信息和表情信息进行对应的同步操作。

可选地，所述通过麦克风获取音频信息的步骤包括：

通过环形或者线形麦克风阵列收集声音信息；

利用预设的空域滤波算法对所述声音信息进行降噪处理，得到无噪音的声音信息；

确定所述无噪音的声音信息起始点和结束点，并对所述无噪音的声音信息进行检测过滤，得到音频信息。

可选地，所述通过摄像头获取视频信息的步骤包括：

利用预设的声源定位算法确定所述声音信息对应的声源在预设坐标系中所处的方位；

控制摄像头转动到所述声源所处的方位，并用左目和右目摄像头同时拍摄，得到左目视频帧和右目视频帧；

根据所述左目视频帧和右目视频帧获得所述视频信息。

可选地，所述将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备根据视频信息和/或音频信息进行展示的步骤包括：

将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备对视频信息进行解码，并将所述左目视频信息投射到用户的左眼睛，将所述右目视频信息投射到用户的右眼睛。

可选地，所述接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息的步骤包括：

接收所述VR设备根据所述VR设备中眼动跟踪器、重力加速计和陀螺仪分别获得的眼部动作、头部动作幅度和转动方向转化的头部动作信息。

接收所述VR设备发送的根据体感器获得的使用者的肢体动作幅度、动作角度，并利用红外光流法转化为的相应的肢体动信息。

接收所述VR设备根据摄像头拍摄使用者的脸部图像获得的表情信息。

可选地，所述根据所述头部动作信息、肢体动作信息和表情信息进行对应的同步操作的步骤包括：

根据所述头部动作信息控制颈部进行上下左右转动；

根据所述肢体动作信息控制手臂上下左右的摆动和身体躯干进行上下左右转动；

根据所述表情信息控制眉毛上下摆动，眼珠上下左右转动，嘴巴进行上下转动。

可选地，所述与VR设备建立连接的步骤之前还包括：

根据获取的音频信息和/或视频信息判断是否满足预设条件；

若是，则执行步骤：与VR设备建立连接；

若否，则对所述音频信息和/或视频信息进行识别，并根据识别结果进行处理。

可选地，所述根据获取的音频信息和/或视频信息判断是否满足预设条件的步骤包括：

对所述音频信息和/或视频信息与预设的数据库进行对比进行检验，判断是否存在危险画面。

此外，为实现上述目的，本发明还提供一种交互装置，所述交互装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互程序，所述交互程序被所述处理器执行时实现如上所述的交互方法的步骤。

此外，为了实现上述目的，本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有交互程序，所述交互程序被处理器执行时实现如上所述的交互方法的步骤。

本发明提供一种交互方法，装置和计算机存储介质。在该方法中，通过麦克风获取音频信息，并通过摄像头获取视频信息；与VR设备建立连接；将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备根据所述视频信息和/或音频信息进行展示；接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息；根据所述头部动作信息、肢体动作信息和表情信息进行对应的同步操作。通过上述方式，将机器人端的场景转化为相关的信息，发送给VR端进行展示，能够使VR端的用户立体的感知机器人端的场景，仿佛身临其境的效果。同时VR设备的各种感知元件，也能够将VR端用户的动作、面部表情等转化为相关信息发送给机器人，使机器人模拟相应动作和面部表情，实现和家人的交流。这样能使远程双方能进行更有沉浸感的互动，加强双方的沟通与交流。本发明利用VR设备的360度环视、立体视角的沉浸模式、结合机器人的自主运动、姿态调整的展现模式，实现在远程的交互，增加远端的人和家人的互动交流，使双方实现立体和沉浸式的互动模式。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明交互方法第一实施例的流程示意图；

图3为本发明交互方法第二实施例的流程示意图；

图4为本发明交互方法第三实施例的流程示意图；

图5为本发明交互方法第四实施例的流程示意图；

图6为本发明交互方法第五实施例的流程示意图；

图7为本发明交互方法第六实施例的流程示意图；

图8为本发明交互方法第七实施例的流程示意图；

图9为本发明交互方法第八实施例的流程示意图；

图10为本发明交互方法第九实施例的流程示意图；

图11为本发明交互方法第十实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是机器人或者与机器人连接的服务器。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、Wi-Fi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及交互程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的交互程序，并执行以下操作：

通过麦克风获取音频信息，并通过摄像头获取视频信息；

与VR设备建立连接；

进一步地，处理器1001可以调用存储器1005中存储的交互程序，还执行以下操作：

通过环形或者线形麦克风阵列收集声音信息；

根据所述左目视频帧和右目视频帧获得所述视频信息。

根据所述头部动作信息控制颈部进行上下左右转动；

根据获取的音频信息和/或视频信息判断是否满足预设条件；

若是，则执行步骤：与VR设备建立连接；

参照图2，图2为本发明交互方法第一实施例的流程示意图。

基于上述硬件结构，提出本发明交互方法的实施例。所述交互方法包括：

步骤S10，通过麦克风获取音频信息，并通过摄像头获取视频信息；

在本发明实施例中，本发明可以应用于交互系统，交互系统可以包括交互装置和VR设备，具体实施中交互系统还可以包括交互装置、数据处理中心和VR设备，这两种系统结构的区别在于第一种系统结构中交互装置包括数据处理和根据数据处理结果进行交互的功能，而第二种系统结构中数据处理由数据处理中心进行处理，然后数据处理中心将处理结果发送给交互装置执行对应的交互动作。该交互装置可以为机器人或者可以执行面部表情或者动作的机器。本实施例以机器人为例进行说明

机器人应当有麦克风和摄像头。VR设备应该有摄像头，多种感应元器件，如：重力加速计、陀螺仪、眼动跟踪仪等。

机器人中的麦克风可以是多个麦克风组成的环形阵列，如3颗麦克风环形阵列，摄像头是双目摄像头或者多目摄像头，本发明以双目摄像头为例进行说明。采用双目摄像头或者多目摄像头是为了拍摄立体画面，从而使得佩戴VR设备的用户看到的图像与身临其境相同。

在运行过程中通过双目摄像头中左摄像头拍摄左目视频图像，右摄像头拍摄右目视频图像，通过麦克风收集相关的声音。在采集音、视频信息后进入步骤S20。

步骤S20，与VR设备建立连接；

机器人本身具有通讯能力，具体地，机器人和VR设备都预先存储有对方的标识信息，根据对方的标识可以查找到对方的通讯地址信息，然后通过3G/4G/WIFI等无线接入模式接入因特网进行连接，在连接过程中可以是机器人发起连接请求与VR设备相连，也可以是VR设备发起连接请求与机器人相连。需要特别说明的是具体实施中，也可以先执行步骤S20再通过机器人获取音、视频信息。

步骤S30，将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备根据所述视频信息和/或音频信息进行展示；

机器人与VR设备建立连接后，将获得视频信息和音频信息发送给VR设备。VR设备接收到信息后，可以对信息进行处理，然后将其展示出来，VR设备展示图像和音频信息的具体过程与现有技术相同，此处不再赘述。具体实施中机器人还可以仅获得音频信息，或者仅获得视频信息，然后将其发送给VR设备。

步骤S40，接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息；

VR设备上装有头部感知元件，能够感知HDM使用者的头部动作、面部表情，如眨眼、转动、挥手、表情等，并通过网络实时传递到机器人一侧。

具体实施中，如利用VR设备上的肌电分析仪，可以实时获取使用者的面部表情，可以将相应的表情信息发送给机器人。也可以使用连接到VR头戴设备的3D相机来追踪佩戴者的嘴部动作。被佩戴的设备所遮挡住的面部表情利用设备与佩戴者面部接触的填充泡沫中，放置的变形测量设备检测面部表情的变化。再将两个数据源相结合之后，佩戴者面部运动的精准3D图像就可以获得。通过面部表情的识别，即可准确获知佩戴者的面部表情。VR设备在获取到这些信息之后，然后将其传送给机器人。

步骤S50，根据所述头部动作信息、肢体动作信息和表情信息进行对应的同步操作。

机器人同步VR设备使用者的动作、面部表情等，并伴随远端的声音，能够起到半自主的模拟远端使用者。机器人具有类似人一样的嘴巴、鼻子、眼睛和眉毛等五官特征，可以利用不同的五官组合状态来模拟人的表情。当接收到表情信息同步模块发送到的使用者表情后，根据算法通过内部的牵拉装置，组合为不同的样貌特征来模拟人的同步表情。

本实施例以对老人的陪伴为例进行说明，具体实施中该交互方法还可以用于对小孩的监护，或者对病人的观察等情形。

机器人在对老人的陪伴过程中，通过机器人上的麦克风收集相关的声音，如老人的咳嗽声，讲话声等；同时，通过机器人上的摄像头拍摄老人的相关画面，如老人在睡觉，进行锻炼的画面等。当老人发生意外，如摔倒后，机器人通过摄像头捕捉到这个画面，然后通过机器人内部的识别系统对这一画面进行判断识别，识别出老人发送摔倒行为，然后与远端的VR设备发起连接，发出呼叫远端的命令。当远端的家人接收到呼叫信息，就能通过机器人传来的视频和声音信息利用VR设备实时更清晰更立体地观察家中情况，当看见老人摔倒的画面后，发出前进扶起老人的动作，VR设备感应到相同的动作，然后传送给机器人使机器人同步相同的动作，即前进扶起老人的动作，同时，伴随着VR端传来的家人关切的声音，如“摔的怎么样呢？还严重么？”等。使老人能时时感觉家人在身边一样，解决老人孤独缺乏陪伴的感觉。

在本实施例中，通过麦克风获取音频信息，并通过摄像头获取视频信息；与VR设备建立连接；将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备根据所述视频信息和/或音频信息进行展示；接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息；根据所述头部动作信息、肢体动作信息和表情信息进行对应的同步操作。通过上述方式，将机器人端的场景转化为相关的信息，发送给VR端进行展示，能够使VR端的用户立体的感知机器人端的场景，仿佛身临其境的效果。同时VR设备的各种感知元件，也能够将VR端用户的动作、面部表情等转化为相关信息发送给机器人，使机器人模拟相应动作和面部表情，实现和家人的交流。这样能使远程双方能进行更有沉浸感的互动，加强双方的沟通与交流。本发明利用VR设备的360度环视、立体视角的沉浸模式、结合机器人的自主运动、姿态调整的展现模式，实现在远程的交互，增加远端的人和家人的互动交流，使双方实现立体和沉浸式的互动模式。

进一步地，参照图3，图3为本发明交互方法第二实施例的流程示意图。

基于上述本发明交互方法，提出本发明交互方法的第二实施例。

在本实施例中，步骤S10可以包括：

步骤S11，通过环形或者线形麦克风阵列收集声音信息；

为避免外界杂音对声音的干扰，增强有效声音的拾取，并实现根据声音信息进行定位，本实施例中麦克风阵列可以使用至少3颗麦环形阵列或者线形麦克风阵列，比如使用三麦或者六麦环形阵列，三麦或者六麦线形阵列。能够轻松拾取5米以内的有效声音，实现多角度声源拾音。环形或者线形麦克风阵列设置在机器人上，在机器人工作工程中，通过环形或者线形麦克风阵列实时收集声音信息。

步骤S12，利用预设的空域滤波算法对所述声音信息进行降噪处理，得到无噪音的声音信息；

由于机器人一般在家中使用，因此基本不需要对环境噪音进行识别，本实施中对多方向，多角度和声音远近的声音来源，利用麦克风阵列的空域滤波特性有效抑制空间噪声，使收集到清晰清楚的声音，即无噪音的声音信息。空域滤波算法是降低噪音的其中一种方法，也是常用方法，为现有技术，在此不做多余赘述。

步骤S13，确定所述无噪音的声音信息起始点和结束点，并对所述无噪音的声音信息进行检测过滤，得到音频信息。

在获得无噪音的声音信息后，确定声音信息起始点和结束点，并对声音信息进行检测过滤，从而筛选出重要信息，过滤掉其他无用的声音，并只对有效信息进行存储和处理，能有效提升对声音的处理速度和减低所占用的系统内存。

进一步地，参照图4，图4为本发明交互方法第三实施例的流程示意图。

基于上述本发明交互方法实施例，提出本发明交互方法的第三实施例。

在本实施例中，步骤S10还可以包括：

步骤S14，利用预设的声源定位算法确定所述声音信息对应的声源在预设坐标系中所处的方位；

麦克风阵列声源定位是利用麦克风阵列拾取高质量的声音信号，再结合声源和阵列结构之间的关系，得到一个或者多个声源的位置信息，再根据接收到声音的时间、相位和强度的差异，利用声源定位算法，能精准定位声源所处角度，进而确定声音来源的方位。声源定位算法为现有技术，此处就不做多余赘述。

步骤S15，控制摄像头转动到所述声源所处的方位，并用左目和右目摄像头同时拍摄，得到左目视频帧和右目视频帧；

根据声音的方位，然后转动机器人到相应的方位，对场景进行拍摄。通过机器人的摄像头能够对画面进行多角度拍摄。本实施例以双目摄像头为例进行说明，对同一画面，通过左目摄像头拍摄得到左目视频帧，通过右目摄像头拍摄能得到右目视频帧。两个视频帧是对同一画面通过不同角度进行拍摄。

步骤S16，根据所述左目视频帧和右目视频帧获得所述视频信息。

左目视频帧和右目视频帧之间有大部分的重叠区域和很少部分非重叠区域，重叠区域存在相位视差。经过视频矫正、视频投影变换计算、视频融合处理、视频编码和视频流处理过程，处理后的视频就是我们传送给其他设备的视频信息。

进一步地，参照图5，图5为本发明交互方法第四实施例的流程示意图。

基于上述本发明提示的交互方法，提出本发明第四实施例。

基于上述所示的实施例，在本实施例中，步骤S30还包括：

步骤S31，将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备对视频信息进行解码，并将所述左目视频信息投射到用户的左眼睛，将所述右目视频信息投射到用户的右眼睛。

VR设备端接收到该视频信息，交给视频处理模块，视频处理模块解码该视频信息，并根据该视频信息确定视频信息中的左目视频帧和右目视频帧，最终交由VR设备中视频播放模块将所述左目视频信息投射到用户的左眼睛，将所述右目视频信息投射到用户的右眼睛，用户在通过左右眼接收到不同的图像后，经过大脑合成，就形成了立体图像。这样就利用了相关图像原理实现了图像的立体化，让使用者能立体的感到机器人那端的情况，有身临其境之感。

进一步地，参照图6，图6为本发明交互方法第五实施例的流程示意图。

基于上述本发明提示的交互方法，提出本发明第五实施例。

基于上述发明实施例，在本实施例中，步骤S40可以包括：

步骤S41，接收所述VR设备根据所述VR设备中眼动跟踪器、重力加速计和陀螺仪分别获得的眼部动作、头部动作幅度和转动方向转化的头部动作信息。

VR设备中眼动跟踪器能跟踪眼部的运动情况，如眨眼，转动眼球等。重力加速计能够检测到头部的运动幅度，如向上抬头多高等，陀螺仪能记录头部的转动方向，如点头，向左转，还是向右转等。通过这些感应元件就能感应出头部的相关动作，并将其转化为相应信息传输给机器人。

进一步地，参照图7，图7为本发明交互方法第六实施例的流程示意图。

基于上述本发明提示的交互方法，提出本发明第六实施例。

基于上述发明实施例，在本实施例中，步骤S40还包括：

步骤S42，接收所述VR设备发送的根据体感器获得的使用者的肢体动作幅度、动作角度，并利用红外光流法转化为的相应的肢体动信息。

体感器内置有红外投射器，能不断向外发出红外结构光，就相当于蝙蝠向外发出的声波，红外结构光照到不同距离的地方强度会不一样。红外感应器，相当于蝙蝠的耳朵，用来接收反馈的消息，不同强度的结构光会在红外感应器上产生不同强度的感应，这样，通过红外投射器照射面前物体的深度信息，就能将不同深度的物体区别开来。当红外投射器从上到下扫描你时，能根据你的身高给逐步判断出你的身形，如膝盖在哪，手掌在哪，肚子在哪。并能根据你的身形的变化来判断你的肢体动作。包括走动、挥手、转体等等，并将相应动作幅度、角度等转化为相应的信息传递给机器人

进一步地，参照图8，图8为本发明交互方法第七实施例的流程示意图。

基于上述本发明提示的交互方法，提出本发明第七实施例。

基于上述发明实施例，在本实施例中，步骤S40之还包括：

步骤S43，接收所述VR设备根据摄像头拍摄使用者的脸部图像获得的表情信息。

在一定的学习框架下，利用摄像头通过神经网络模型和数据库可以来识别人脸表情。基于Keras框架，先通过摄像头拍摄图像，再对图像进行人脸检测，识别出人脸区域，识别出人脸区域后，再对人脸区域进行预处理，提取人脸特征，再利用神经网络模型对比kaggle的fer2013数据集进行人脸表情分类，如开心、难过、苦脸等，进而识别出图像中的表情信息，将表情信息转化为相应信息传递给机器人。

进一步地，参照图9，图9为本发明交互方法第八实施例的流程示意图。

基于上述本发明提示的交互方法，提出本发明第八实施例。

基于上述发明实施例，在本实施例中，步骤S50可以包括：

步骤S51，根据所述头部动作信息控制颈部进行上下左右转动；

将头部动作信息传递给机器人，然后机器人进行解码等处理后，传递给机器人内部的相关牵引器，使机器人控制模块控制颈部进行相关动作，如使头部向下等，从而达到模拟VR端用户的头部动作。

步骤S52，根据所述肢体动作信息控制手臂上下左右的摆动和身体躯干进行上下左右转动；

机器人对接收的VR端用户的肢体动作信息进行处理，然后发送给机器人的控制模块，控制模块接收到指令后，控制手臂的上下左右摆动，身体躯干的上下转动，实现与VR设备用户的身体动作同步的动作，实现互动交流。

步骤S53，根据所述表情信息控制眉毛上下摆动，眼珠上下左右转动，嘴巴进行上下转动。

机器人对表情信息进行处理，传递给相关控制器来控制眉毛，眼珠的运动来达到模拟的效果。如VR端用于抬了一下眉毛，VR设备检测到这个动作，将这个动作转化为相关信息传递给机器人，机器人进行处理，并转化为相关的指示命令发送给眉毛相关控制器，控制器接收命令并执行，进行同样的动作，即抬眉毛，从而实现同步动作。

进一步地，参照图10，图10为本发明交互方法第九实施例的流程示意图。

基于上述本发明提示的交互方法，提出本发明第九实施例。

基于上述发明实施例，在本实施例中，步骤S20之前还包括：

步骤S00，根据获取的音频信息和/或视频信息判断是否满足预设条件；

若是，则执行步骤S20：与VR设备建立连接；

若否，则执行步骤S01：对所述音频信息和/或视频信息进行识别，并根据识别结果进行处理。

机器人获取到音频信息和/或视频信息后，对获取的音频信息和/或视频信息进行检测判断，看是否满足预设条件，如呼叫机器人名字，或者呼叫远端用户的名字。如果满足预设条件，就发起与VR端的连接请求，如果没有满足条件，机器人就进入自主模式，能智能与家人交流。具体的，当家人想要与远端VR设备的用户进行互动时，可以呼叫远端用户的名字，机器人进行识别，判断满足预设条件，然后发起连接，与远程端VR设备建立联系，使家人能和远端用户进行互动。如果没有满足预设条件，机器人通过网络AI能力为家庭成员提供服务，例如在有家庭成员问：今天天气怎么样？语音信号通过麦克风阵列输入到机器人的处理中心，处理中心将语音信号发送到因特网上的语音识别引擎，识别该问题后，将机器人所在位置的天气信息以语音片段的模式发送到机器人上的处理中心，处理中心调用播放器播放语音片段播放出来该天气信息片段：今天天气不错，晴，最低温度15度，最高温度22度……机器人可以提供其他交互服务，如当用户需要机器人跳舞时，可以发出语音指令，机器人进行跳舞等。

进一步地，参照图11，图11为本发明交互方法第十实施例的流程示意图。

基于上述本发明提示的交互方法，提出本发明第十实施例。

基于上述发明实施例，在本实施例中，步骤S00可以包括：

步骤S02，对所述音频信息和/或视频信息与预设的数据库进行对比进行检验，判断是否存在危险画面。

根据预设的数据库能对获取的音频信息和/或视频信息进行识别，进行多种情况的判断，看是否发生危险情况。如小孩哭闹，老人摔倒，有陌生人进入等。机器人所带摄像头、麦克风阵列和其他传感器不断监视获取周边信息，如利用摄像头获取到的视频帧发送到智能处理模块，智能处理模块识别到有老人摔倒、陌生人闯入等情况；或者麦克风阵列模块获取到的音频信息发送的音频处理模块分析到有哭声异常等、或者其他传感器、如红外、烟感、煤气泄漏等异常情况等。

如果对比数据库判断发生异常情况就建立连接，通知远端的家人处理。如果没有异常情况，机器人就为自主模式，通过AI智能功能进行沟通等。具体的，如小孩哭闹，麦克风收集到声音，通过哭声建模，利用模型对获取的声音信号累检测对比，从而得出哭声识别结果，进而发起连接，通知远端家人进行处理。

此外，本发明还提供一种交互装置。

本发明交互装置：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互程序，所述交互程序被所述处理器执行时实现如上所述的交互的步骤。

其中，在所述处理器上运行的交互程序被执行时所实现的方法可参照本发明交互方法各个实施例，此处不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质。

本发明计算机可读存储介质上存储有交互程序，所述交互程序被处理器执行时实现如上所述的交互方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种交互方法，其特征在于，所述交互方法包括以下步骤：

通过麦克风获取音频信息，并通过摄像头获取视频信息；

与VR设备建立连接；

2.如权利要求1所述的交互方法，其特征在于，所述通过麦克风获取音频信息的步骤包括：

通过环形或者线形麦克风阵列收集声音信息；

3.如权利要求2所述的交互方法，其特征在于，所述通过摄像头获取视频信息的步骤包括：

根据所述左目视频帧和右目视频帧获得所述视频信息。

4.如权利要求2所述的交互方法，其特征在于，所述将获取的所述音频信息和/或视频信息发送给所述VR设备，以使得VR设备根据视频信息和/或音频信息进行展示的步骤包括：

5.如权利要求1所述的交互方法，其特征在于，所述接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息的步骤包括：

6.如权利要求1所述的交互方法，其特征在于，所述接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息的步骤包括：

7.如权利要求1所述的交互方法，其特征在于，所述接收所述VR设备发送的使用者的头部动作信息、肢体动作信息和表情信息的步骤包括：

8.如权利要求1所述的交互方法，其特征在于，所述根据所述头部动作信息、肢体动作信息和表情信息进行对应的同步操作的步骤包括：

根据所述头部动作信息控制颈部进行上下左右转动；

9.如权利要求1所述的交互方法，其特征在于，所述与VR设备建立连接的步骤之前还包括：

根据获取的音频信息和/或视频信息判断是否满足预设条件；

若是，则执行步骤：与VR设备建立连接；

10.如权利要求9所述的交互方法，其特征在于，所述根据获取的音频信息和/或视频信息判断是否满足预设条件的步骤包括：

11.一种交互装置，其特征在于，所述交互装置包括：机器人、VR设备，存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交互程序，存储器、处理器可以在机器人内部，也可以在机器人外部单独存在，所述交互程序被所述处理器执行时实现如权利要求1至10中的任一项所述的交互方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有交互程序，所述交互程序被处理器执行时实现如权利要求1至10中任一项所述的交互方法的步骤。