CN114615430B

CN114615430B - 移动终端与外部对象之间的交互方法、装置和电子设备

Info

Publication number: CN114615430B
Application number: CN202210224427.4A
Authority: CN
Inventors: 史元春; 秦岳; 喻纯
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-12-23
Anticipated expiration: 2042-03-07
Also published as: CN114615430A

Abstract

本发明提供了一种移动终端与外部对象之间的交互方法、装置和电子设备，通过人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域从多个外部对象中确定出交互对象，使移动终端按照用户视角选择交互对象进行交互，大大提高了用户使用移动终端与外部对象交互的使用体验。

Description

移动终端与外部对象之间的交互方法、装置和电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种移动终端与外部对象之间的交互方法、装置和电子设备。

背景技术

目前，用于手机、Pad等移动终端与现实空间中物体(主要为智能家居、物联网中的各类电器)互动时的目标选择技术(目标选择技术：是指让机器明确用户想要和哪个目标设备进行交互)。当前没有有效的用于手机、Pad等移动终端与现实空间中物体的交互技术。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种移动终端与外部对象之间的交互方法、装置和电子设备。

第一方面，本发明实施例提供了一种移动终端与外部对象之间的交互方法，包括：

当获取到用户触发的交互指令时，移动终端控制所述移动终端的前置摄像头拍摄所述用户的人眼图像、以及控制所述移动终端的后置摄像头拍摄目标识别图像；

对所述用户的人眼图像进行处理，得到所述用户的人眼坐标；

基于所述人眼坐标，确定所述用户的人眼在所述后置摄像头的成像平面上被所述移动终端遮挡的被遮挡区域；

从所述目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；

基于所述被遮挡区域与所述目标识别图像中多个外部对象的外部对象图像，从所述多个外部对象中确定出与所述移动终端自身交互的交互对象；

根据所述交互对象，执行所述交互指令，使得所述移动终端自身能够与所述交互对象进行交互。

第二方面，本发明实施例还提供了一种移动与外部对象之间的交互装置，包括：

控制模块，用于当获取到用户触发的交互指令时，控制所述移动终端的前置摄像头拍摄所述用户的人眼图像、以及控制所述移动终端的后置摄像头拍摄目标识别图像；

处理模块，用于对所述用户的人眼图像进行处理，得到所述用户的人眼坐标；

第一确定模块，用于基于所述人眼坐标，确定所述用户的人眼在所述后置摄像头的成像平面上被所述移动终端遮挡的被遮挡区域；

第二确定模块，用于从所述目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；

第三确定模块，用于基于所述被遮挡区域与所述目标识别图像中多个外部对象的外部对象图像，从所述多个外部对象中确定出与所述移动终端自身交互的交互对象；

交互模块，用于根据所述交互对象，执行所述交互指令，使得所述移动终端自身能够与所述交互对象进行交互。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供了一种电子设备，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行上述第一方面所述的方法的步骤。

本发明实施例上述第一方面提供的方案中，通过移动终端的前置摄像头拍摄用户的人眼图像及后置摄像头拍摄目标识别图像；对所述用户的人眼图像进行处理得到用户的人眼坐标，并基于人眼坐标，确定用户的人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域；从目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；基于被遮挡区域与目标识别图像中多个外部对象的外部对象图像，从多个外部对象中确定出与所述移动终端自身交互的交互对象；与相关技术中没有手机、Pad等移动终端与现实空间中物体的交互方式相比，通过人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域从多个外部对象中确定出交互对象，使移动终端按照用户视角选择交互对象进行交互，大大提高了用户的使用体验。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的应用场景；

图2示出了本发明实施例1所提供的一种移动终端与外部对象之间的交互方法的流程图；

图3示出了本发明实施例1所提供的一种移动终端与外部对象之间的交互方法中，被遮挡区域的端点的示意图；

图4示出了本发明实施例2所提供的一种移动终端与外部对象之间的交互装置的结构示意图；

图5示出了本发明实施例3所提供的一种电子设备的结构示意图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请做进一步详细的说明。

如图1所示的应用场景中，用户可以手持移动终端，通过移动终端的后置摄像头所拍摄的外部对象图像，将用户所在空间中出现在外部对象图像中的物体作为外部对象；移动终端对所述外部对象图像处理后，从外部对象中确定出与移动终端进行交互的交互对象。

本申请提出的移动终端与外部对象之间的交互方法、装置和电子设备，核心思想是利用用户眼中的移动终端物理外观形成的矩形区域作为选择框(图1中黑色区域)，用户通过将移动终端在用户视角挡住物体这一动作明确交互目标，通过触发交互指令使移动终端进行同时拍摄，移动终端依据遮挡关系理解用户期待的交互对象，移动终端通过对交互对象的识别自动映射到预定义的交互功能，完成交互闭环。以若干使用场景为例：用户举起移动终端挡住家里的电视后触发交互指令即可自动显示电视遥控器界面在手机屏幕上；例如用户举起移动终端挡住天花板日光灯后触发交互指令完成开关灯操作；例如举起移动终端挡住面前众多二维码中的一个并触发交互指令自动打开对应应用扫描被挡住的二维码；例如举起移动终端挡住一辆共享单车并双击屏幕自动打开共享单车APP并开锁；例如举起移动终端挡住家里的宠物狗自动打开淘宝APP检索并下单狗粮。在未来空间中存在大量受控电子设备乃至用户自定义的大量实体的场景下，相比解锁屏幕打开特定软件从冗长的候选列表中点选目标交互对象并执行交互意图的传统方法，使用本技术用户可随时随地直接拿起移动终端挡住目标进行交互，动作简单容易，遮挡过程提供了精准的视觉反馈，可以快捷的从大量空间目标中选中交互对象并明确交互意图，方便且自然；需要注意的是，动作并不需要完全“挡住”，而是让移动终端物理外观这一矩形区域和交互对象尽可能匹配，可以在物体内部，物体旁边等位置，只需附近不会有其他物体产生歧义都可以认为选中了交互对象，每个交互对象用矩形区域标识出来。

基于此，本实施例提出一种移动终端与外部对象之间的交互方法、装置和电子设备，通过移动终端的前置摄像头拍摄用户的人眼图像及后置摄像头拍摄目标识别图像；对所述用户的人眼图像进行处理得到用户的人眼坐标，并基于人眼坐标，确定用户的人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域；从目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；基于被遮挡区域与目标识别图像中多个外部对象的外部对象图像，从多个外部对象中确定出与所述移动终端自身交互的交互对象；通过人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域从多个外部对象中确定出交互对象，使移动终端按照用户视角选择交互对象进行交互，大大提高了用户的使用体验。

实施例1

在执行以下移动终端与外部对象之间的交互方法之前，需要先根据移动终端的前置摄像头所在位置建立前置摄像头坐标系；同时根据移动终端的后置摄像头所在位置建立后置摄像头坐标系；然后确定前置摄像头坐标系内坐标与后置摄像头坐标系内坐标的相互转换方式。以上建立前置摄像头坐标系、后置摄像头坐标系、前置摄像头坐标系内坐标与后置摄像头坐标系内坐标的相互转换方式的具体过程是现有技术，都可以在移动终端中自动完成。而且，例如确定摄像头视场角、光心坐标、朝向和距离等参数的过程，可以在移动终端出厂时一次性完成，这里不再一一赘述。移动终端在出厂时，会会对得到的摄像头视场角、光心坐标、朝向和距离等参数进行存储。

并且，由于移动终端可以近似被看作是正六面体；所以，移动终端在平面上的投影可以被看作是矩形，那么移动终端的四个端点，可以被视作是矩形的四个角点，即移动终端的四个角点；因此，在后置摄像头坐标系下，根据移动终端四个角点与后置摄像头之间的距离，可以得到移动终端的四个角点的角点坐标；并将得到的移动终端的四个角点的角点坐标存储在移动终端自身中。

参见图2所示的一种移动终端与外部对象之间的交互方法的流程图，本实施例提出一种移动终端与外部对象之间的交互方法，包括：

步骤200、当获取到用户触发的交互指令时，移动终端控制所述移动终端的前置摄像头拍摄所述用户的人眼图像、以及控制所述移动终端的后置摄像头拍摄目标识别图像。

在上述步骤200中，用户触发的交互指令，可以是用户通过任何移动终端的输入方式(如按下侧边按钮、触控屏幕上显示的图标以及双击背面、挤压边侧等任何触发手势)来触发交互指令的。

所述外部对象，可以是用户所在空间内的任何物体。所述物体可以是但不限于：电子设备(如：另一移动终端或者智能穿戴设备)、智能家居设备(如：电视、空调、以及扫地机器人)、图像(二维码、条形码、照片、显示设备上呈现的对象)、以及用户通过移动终端自身安装的APP软件定义的可识别对象(如：花瓶、宠物等)。

步骤202、对所述用户的人眼图像进行处理，得到所述用户的人眼坐标。

在上述步骤202中，所述人眼坐标，包括：所述用户的人眼在后置摄像头坐标系下的坐标和所述用户的人眼在前置摄像头坐标系下的坐标。

在前置摄像头坐标系下，对所述用户的人眼图像进行处理，得到所述用户的人眼在前置摄像头坐标系下的坐标的具体方案是现有技术，这里不再赘述。

在得到所述用户的人眼在前置摄像头坐标系下的坐标之后，可以根据与预先确定的坐标系转换的方式，将所述用户的人眼在前置摄像头坐标系下的坐标，转换为在所述用户的人眼在后置摄像头坐标系下的坐标，具体过程是现有技术，这里不再赘述。

步骤204、基于所述人眼坐标，确定所述用户的人眼在所述后置摄像头的成像平面上被所述移动终端遮挡的被遮挡区域。

在上述步骤204中，所述成像平面，是指所述后置摄像头前方某一固定深度处，垂直于系统主光轴(平行于焦平面)的某一虚拟平面；后置摄像头依据其视场角、光心坐标、分辨率等参数，将过该成像平面的光线映射到二维像素平面图像中。

在上述步骤204中，为了确定所述用户的人眼在所述后置摄像头的成像平面上被所述移动终端遮挡的被遮挡区域，可以执行以下步骤(1)至步骤(4)：

(1)获取所述移动终端自身的角点在所述后置摄像头坐标系内的角点坐标；

(2)从所述用户的人眼在后置摄像头坐标系下的坐标指示的位置向所述后置摄像头的成像平面上做经过所述移动终端的角点的直线；

(3)将所述直线与所述成像平面的交点确定为所述被遮挡区域的端点；

(4)基于所述人眼坐标，计算得到所述被遮挡区域的端点的端点坐标，从而确定所述被遮挡区域的范围。

在上述步骤(3)中，如图3所示的所述被遮挡区域的端点的示意图，所述被遮挡区域的端点，就是经过人眼坐标的所述直线(虚线)与成像平面的交点。

在上述步骤(4)中，为了计算得到所述被遮挡区域的端点的端点坐标，从而确定所述被遮挡区域的范围，可以执行以下步骤(41)至步骤(42)：

(41)获取所述移动终端自身与所述成像平面之间的第一距离、所述移动终端的角点与所述前置摄像头的第二距离和所述前置摄像头与所述后置摄像头之间的第三距离；

(42)利用所述用户的人眼在前置摄像头坐标系下的坐标、所述移动终端自身与所述成像平面之间的第一距离、所述移动终端的角点与所述前置摄像头的第二距离和所述前置摄像头与所述后置摄像头之间的第三距离，计算得到所述被遮挡区域的端点在所述成像平面上的端点坐标。

在上述步骤(41)中，所述移动终端自身与所述成像平面之间的第一距离是图3中的T_z，对成像平面到相机距离T_z可以选择为合适的固定值(例如2米)存储在移动终端中，当然也可以根据实际情况将成像平面到相机距离T_z设置为其他的长度值，这里不再一一赘述。而且，也可依据拍摄画面中可识别对象的深度将物平面粗略估计为成像平面，此为现有技术不再赘述。所述移动终端的角点与所述前置摄像头的第二距离是图3中的D_X；所述D_X是通过上述步骤(1)中的所述移动终端自身的角点在所述后置摄像头坐标系内的角点坐标中得到的，是角点坐标中在后置摄像头坐标系内x轴方向上的坐标值。所述前置摄像头与所述后置摄像头之间的第三距离D_c，预先存储在所述移动终端中。

在上述步骤(42)中，所述成像平面上的端点坐标包括：T_x、T_y和T_z；在通过上述步骤(41)的描述可知，已经得到T_z；因此，在步骤(42)中，只需计算所述成像平面上的端点坐标中的T_x和T_y。

通过以下公式计算端点坐标T_x：

T_x＝(D_x-D_c)+(D_x-I_x)*(T_z/I_z)

其中，I_x表示所述用户的人眼在前置摄像头坐标系内x轴方向上的坐标值；I_z表示所述用户的人眼在前置摄像头坐标系内z轴方向上的坐标值。

通过以下公式计算端点坐标T_y：

T_y＝(D_c-D_y)+(D_y-I_y)*(T_z/I_z)

其中，D_y表示角点坐标中在后置摄像头坐标系内y轴方向上的坐标值。

在通过上述步骤(42)描述的内容可以计算得到所述成像平面上的端点坐标(T_x、T_y、T_z)后，可将该端点坐标依据后置摄像头视场角、光心坐标、成像分辨率等内部参数投影到后置摄像头图像中得到后置摄像头照片在人眼视角下被移动终端挡住的角点的二维坐标。

根据上述得到的端点坐标，通过将移动终端四个角点对应的后置摄像头成像平面上二维坐标依次相连，就可以估计出所述用户的人眼在所述后置摄像头的成像平面上被所述移动终端遮挡的被遮挡矩形区域。

可选地，由于两只眼睛的人眼坐标不同，后置摄像头画面中会分别产生由左右眼的两个不同的被遮挡区域，实现是取这两个不同的被遮挡区域的交集作为最终的被遮挡区域，但也有其他的实现方式，例如可选的使用左眼的被遮挡区域或者右眼的被遮挡区域；可选的，使用该两个不同的被遮挡区域的并集的最小包围区域作为最终的被遮挡区域。

步骤206、从所述目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像。

在上述步骤206中，从所述目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像的具体实现过程是现有技术，这里不再赘述。

在一个实施方式中，在确定被遮挡区域后，需要根据后置摄像头画面使用图像识别算法定位所有可交互的外部对象的图像坐标。可交互的外部对象的类别需要事先在数据库中定义，例如具体到某一品牌某一的设备、用户自定义注册的某一物体、或二维码等通用概念等(进行交互的外部对象的选择任务完成后，设备将根据选中物体对应的类别标签执行后续交互动作，例如是扫码还是发射红外指令还是打开APP等)。根据大量数据集中图像标注进行训练，得到图像识别的神经网络模型，例如可选用的某一具体实现是YOLOv4，它提供目标的矩形包围盒，除此之外还有很多模型可以提供像素级分割等，均可用来实现本实施例提出的交互方法。在实际使用中，对后置摄像头作用物体识别模型，得到所有在数据库中注册过的外部对象的矩形包围盒或其他可用于描述目标对象区域的数据结构。

可选的：在拍摄图像时，依据设备IMU重力计的方向，将拍摄到的前后双摄图像中的倾斜图像进行校正，同时经过倾斜矫正后，所有的外部对象的矩形包围盒都是正的，以优化人眼定位和物体识别的准确率。

步骤208、基于所述被遮挡区域与所述目标识别图像中多个外部对象的外部对象图像，从所述多个外部对象中确定出与所述移动终端自身交互的交互对象。

在上述步骤208中，为了从所述多个外部对象中确定出与所述移动终端自身交互的交互对象，可以执行以下步骤(1)至步骤(2)：

(1)计算所述被遮挡区域与所述多个外部对象中各外部对象的外部对象图像的相似度；

(2)将各所述外部对象中外部对象图像与所述被遮挡区域相似度最大的外部对象确定为与所述移动终端自身交互的交互对象。

在上述步骤(1)中，计算所述被遮挡区域与所述多个外部对象中各外部对象的外部对象图像的相似度的具体过程是现有技术，这里不再赘述。

可选地，为了计算所述被遮挡区域与所述多个外部对象中各外部对象的外部对象图像的相似度，可以使用被遮挡区域的中心点到外部对象图像中心点的距离；还可以使用被遮挡区域的中心点到外部对象图像的任意一点的最近距离(如果有距离相等的外部对象图像，那么优先选择面积小的目标)；还可以使用被遮挡区域与外部对象图像之间的最近距离，使用被遮挡区域与外部对象图像的交并比(交集面积除以并集面积)，使用被遮挡区域与外部对象的加权交并比(GIoU、DIoU、CIoU)，使用被遮挡区域上某个角点到目标图像中心点距离来计算所述被遮挡区域与所述多个外部对象中各外部对象的外部对象图像的相似度。上述度量遮挡区域和目标对象区域相似度的方法是非穷尽的，均为现有技术，其他用于度量矩形到区域相似度的方法均可以使用。

优选地，上述距离使用的是加权的杰卡德距离(Jaccard Index)，即：首先将被遮挡区域与外部对象图像依据中心和协方差(方向)转化为两个最大值为1的高斯函数，然后计算加权杰卡德相似度。当被遮挡区域与外部对象图像完全重合时说明计算得到的被遮挡区域与外部对象图像的加权杰卡德距离为1。

如果遮挡区域中心点越靠近外部对象区域中心点时，会让加权杰卡德距离变大；如果外部对象图像的水平方向的长度大于垂直方向的长度，且将移动终端如图1所示放置使得被遮挡区域遮挡住外部对象图像时，会让被遮挡区域与外部对象图像之间的加权杰卡德距离变大；如果外部对象图像的水平方向的长度小于垂直方向的长度，且移动终端放置后也是水平方向的长度小于垂直方向的长度，那么会让被遮挡区域与外部对象图像之间的加权杰卡德距离变大；如果外部对象图像很小，就把移动终端放置在距离外部对象图像远一些的位置，让被遮挡区域变小会让被遮挡区域与外部对象图像之间的加权杰卡德距离变大；如果外部对象图像很大，就把移动终端放置在距离外部对象图像近一些的位置，让被遮挡区域变大会让被遮挡区域与外部对象图像之间的加权杰卡德距离变大。当然如果外部对象之间摆放比较稀疏没有歧义，随便怎么挡只要被遮挡区域的中心点大概位于外部对象附近都可以选中它作为交互对象。

步骤210、根据所述交互对象，执行所述交互指令，使得所述移动终端自身能够与所述交互对象进行交互。

在上述步骤210中，根据交互对象的类型，执行与交互对象的类型匹配的交互指令，使得所述移动终端自身能够与所述交互对象进行交互。具体的交互过程是现有技术，这里不再赘述。

具体地，交互对象的类型，用于表示交互对象执行交互指令的方式。当交互对象是电子设备或者智能家居设备时，移动终端可以将交互指令发送到交互对象上，由交互对象执行该交互指令；当交互对象是图像时，那么移动终端执行的对图像的交互指令，就是对交互对象进行扫描或拍摄；当交互对象是定义的可识别对象(如：花瓶、宠物等)时，移动终端可以根据定义的交互执令执行方式，来执行交互指令、如交互对象是花瓶，那么移动终端就可以将电商平台上售卖鲜花的页面展示给用户；如交互对象是宠物，那么移动终端就可以将电商平台上售卖宠物用品的页面展示给用户。

综上所述，本实施例提出一种移动终端与外部对象之间的交互方法，通过移动终端的前置摄像头拍摄用户的人眼图像及后置摄像头拍摄目标识别图像；对所述用户的人眼图像进行处理得到用户的人眼坐标，并基于人眼坐标，确定用户的人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域；从目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；基于被遮挡区域与目标识别图像中多个外部对象的外部对象图像，从多个外部对象中确定出与所述移动终端自身交互的交互对象；与相关技术中没有手机、Pad等移动终端与现实空间中物体的交互方式相比，通过人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域从多个外部对象中确定出交互对象，使移动终端按照用户视角选择交互对象进行交互，大大提高了用户的使用体验。

实施例2

本实施例提出一种移动与外部对象之间的交互装置，用于执行上述实施例1提出的移动与外部对象之间的交互方法。

参见图4所示的一种移动与外部对象之间的交互装置得结构示意图，本实施例提出一种移动与外部对象之间的交互装置，包括：

控制模块400，用于当获取到用户触发的交互指令时，控制所述移动终端的前置摄像头拍摄所述用户的人眼图像、以及控制所述移动终端的后置摄像头拍摄目标识别图像；

处理模块402，用于对所述用户的人眼图像进行处理，得到所述用户的人眼坐标；

第一确定模块404，用于基于所述人眼坐标，确定所述用户的人眼在所述后置摄像头的成像平面上被所述移动终端遮挡的被遮挡区域；

第二确定模块406，用于从所述目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；

第三确定模块408，用于基于所述被遮挡区域与所述目标识别图像中多个外部对象的外部对象图像，从所述多个外部对象中确定出与所述移动终端自身交互的交互对象；

交互模块410，用于根据所述交互对象，执行所述交互指令，使得所述移动终端自身能够与所述交互对象进行交互。

所述用户的人眼坐标包括：所述用户的人眼在后置摄像头坐标系下的坐标。

具体地，所述第一确定模块404，具体用于：

获取所述移动终端自身的角点在所述后置摄像头坐标系内的角点坐标；

从所述用户的人眼在后置摄像头坐标系下的坐标指示的位置向所述后置摄像头的成像平面上做经过所述移动终端的角点的直线；

将所述直线与所述成像平面的交点确定为所述被遮挡区域的端点；

基于所述人眼坐标，计算得到所述被遮挡区域的端点的端点坐标，从而确定所述被遮挡区域的范围。

所述用户的人眼坐标包括：所述用户的人眼在前置摄像头坐标系下的坐标。

具体地，所述第一确定模块404，用于基于所述人眼坐标，计算得到所述被遮挡区域的端点的端点坐标，包括：

获取所述移动终端自身与所述成像平面之间的第一距离、所述移动终端的角点与所述前置摄像头的第二距离和所述前置摄像头与所述后置摄像头之间的第三距离；

利用所述用户的人眼在前置摄像头坐标系下的坐标、所述移动终端自身与所述成像平面之间的第一距离、所述移动终端的角点与所述前置摄像头的第二距离和所述前置摄像头与所述后置摄像头之间的第三距离，计算得到所述被遮挡区域的端点在所述成像平面上的端点坐标。

具体地，所述第三确定模块408，具体用于：

计算所述被遮挡区域与所述多个外部对象中各外部对象的外部对象图像的相似度；

将各所述外部对象中外部对象图像与所述被遮挡区域相似度最大的外部对象确定为与所述移动终端自身交互的交互对象。

综上所述，本实施例提出一种移动终端与外部对象之间的交互装置，通过移动终端的前置摄像头拍摄用户的人眼图像及后置摄像头拍摄目标识别图像；对所述用户的人眼图像进行处理得到用户的人眼坐标，并基于人眼坐标，确定用户的人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域；从目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；基于被遮挡区域与目标识别图像中多个外部对象的外部对象图像，从多个外部对象中确定出与所述移动终端自身交互的交互对象；与相关技术中没有手机、Pad等移动终端与现实空间中物体的交互方式相比，通过人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域从多个外部对象中确定出交互对象，使移动终端按照用户视角选择交互对象进行交互，大大提高了用户的使用体验。

实施例3

本实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例1描述的移动终端与外部对象之间的交互方法的步骤。具体实现可参见方法实施例1，在此不再赘述。

此外，参见图5所示的一种电子设备的结构示意图，本实施例还提出一种电子设备，上述电子设备包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述电子设备包括有存储器55。

本实施例中，上述电子设备还包括：存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序，经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤(1)至步骤(6)：

(1)当获取到用户触发的交互指令时，移动终端控制所述移动终端的前置摄像头拍摄所述用户的人眼图像、以及控制所述移动终端的后置摄像头拍摄目标识别图像；

(2)对所述用户的人眼图像进行处理，得到所述用户的人眼坐标；

(3)基于所述人眼坐标，确定所述用户的人眼在所述后置摄像头的成像平面上被所述移动终端遮挡的被遮挡区域；

(4)从所述目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；

(5)基于所述被遮挡区域与所述目标识别图像中多个外部对象的外部对象图像，从所述多个外部对象中确定出与所述移动终端自身交互的交互对象；

(6)根据所述交互对象，执行所述交互指令，使得所述移动终端自身能够与所述交互对象进行交互。

收发机53，用于在处理器52的控制下接收和发送数据。

其中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质，还可以提供用户接口56，例如小键盘、显示器、扬声器、麦克风、操纵杆。

处理器52负责管理总线51和通常的处理，如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。

可选的，处理器52可以是但不限于：中央处理器、单片机、微处理器或者可编程逻辑器件。

可以理解，本发明实施例中的存储器55可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器55存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：操作系统551和应用程序552。

其中，操作系统551，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序552，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。

综上所述，本实施例提出一种计算机可读存储介质和电子设备，通过移动终端的前置摄像头拍摄用户的人眼图像及后置摄像头拍摄目标识别图像；对所述用户的人眼图像进行处理得到用户的人眼坐标，并基于人眼坐标，确定用户的人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域；从目标识别图像中确定出能够进行交互的多个外部对象的外部对象图像；基于被遮挡区域与目标识别图像中多个外部对象的外部对象图像，从多个外部对象中确定出与所述移动终端自身交互的交互对象；与相关技术中没有手机、Pad等移动终端与现实空间中物体的交互方式相比，通过人眼在后置摄像头的成像平面上被移动终端遮挡的被遮挡区域从多个外部对象中确定出交互对象，使移动终端按照用户视角选择交互对象进行交互，大大提高了用户的使用体验。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种移动终端与外部对象之间的交互方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述用户的人眼坐标包括：所述用户的人眼在后置摄像头坐标系下的坐标；

基于所述人眼坐标，确定所述用户的人眼在所述后置摄像头的成像平面上被所述移动终端遮挡的被遮挡区域，包括：

3.根据权利要求2所述的方法，其特征在于，所述用户的人眼坐标包括：所述用户的人眼在前置摄像头坐标系下的坐标；

所述基于所述人眼坐标，计算得到所述被遮挡区域的端点的端点坐标，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述被遮挡区域与所述目标识别图像中多个外部对象的外部对象图像，从所述多个外部对象中确定出与所述移动终端自身交互的交互对象，包括：

5.一种移动终端与外部对象之间的交互装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述用户的人眼坐标包括：所述用户的人眼在后置摄像头坐标系下的坐标；

所述第一确定模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述用户的人眼坐标包括：所述用户的人眼在前置摄像头坐标系下的坐标；

所述第一确定模块，用于基于所述人眼坐标，计算得到所述被遮挡区域的端点的端点坐标，包括：

8.根据权利要求5所述的装置，其特征在于，所述第三确定模块，具体用于：

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-4任一项所述的方法的步骤。

10.一种电子设备，其特征在于，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行权利要求1-4任一项所述的方法的步骤。