CN114610156A

CN114610156A - 基于ar/vr眼镜的交互方法、装置及ar/vr眼镜

Info

Publication number: CN114610156A
Application number: CN202210290510.1A
Authority: CN
Inventors: 李颖; 邵柏韬; 刘朋浩; 姜飞俊
Original assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd
Current assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-10

Abstract

本说明书实施例提供基于AR/VR眼镜的交互方法以及装置，其中所述基于AR/VR眼镜的交互方法包括：获取AR/VR眼镜的图像采集设备采集的视频流；从所述视频流提取目标的动作形态和动作参量；判断所述目标的动作形态和动作参量是否符合预设唤醒动作；在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据；基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作。

Description

基于AR/VR眼镜的交互方法、装置及AR/VR眼镜

技术领域

本说明书实施例涉及智能穿戴技术领域，特别涉及一种基于AR/VR眼镜的交互方法以及装置。

背景技术

随着智能穿戴技术的发展，为人们提供了AR/VR眼镜的技术。AR/VR眼镜，是基于增强现实(Augmented Reality)/虚拟现实(Virtual Reality),将虚拟信息与真实世界巧妙融合的智能穿戴技术。对AR/VR眼镜进行智能化设计可以为用户提供多种多样的交互体验。

目前，AR/VR眼镜主要通过一些额外的配件例如手套、手环、绑带等对距离、接触的感应来实现交互。但是，这样的交互方式需要用户除了AR/VR眼镜本身之外，还要额外佩戴配件，导致用户穿戴复杂。

发明内容

有鉴于此，本说明书实施例提供了一种基于AR/VR眼镜的交互方法。本说明书一个或者多个实施例同时涉及一种基于AR/VR眼镜的交互装置，一种AR/VR眼镜，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种基于AR/VR眼镜的交互方法，所述方法包括：获取AR/VR眼镜的图像采集设备采集的视频流；从所述视频流提取目标的动作形态和动作参量；判断所述目标的动作形态和动作参量是否符合预设唤醒动作；在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据；基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作。

可选地，所述AR/VR眼镜的图像采集设备为单目摄像头。

可选地，所述从所述视频流提取目标的动作形态和动作参量，包括：从所述视频流抽取采样帧，从所述采样帧提取目标的动作形态和动作参量；所述通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据，包括：通过对所述视频流中的目标进行逐帧地追踪，得到所述目标的时序动作数据。

可选地，所述基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作，包括：在所述AR/VR眼镜播放视频时，基于所述目标的时序动作数据控制所述AR/VR眼镜对所述视频执行对应的交互操作。

可选地，所述基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作，包括：获取交互界面的屏幕坐标系；计算出所述目标的预设多个关键点在所述视频流中的坐标序列；计算所述坐标序列在所述屏幕坐标系对应的交互位置；在所述时序动作数据满足所述交互位置的预设操作条件的情况下，控制所述AR/VR眼镜执行所述预设操作条件对应的交互渲染与交互操作。

可选地，还包括：在符合预设唤醒动作的情况下，确定进入连续交互状态；在所述连续交互状态下，利用所述目标的时序动作数据对追踪到的目标进行动作识别，判断所述目标的动作是否为预设正确交互动作；如果否，退出连续交互状态，重新进入所述获取AR/VR眼镜的图像采集设备采集的视频流的步骤。

可选地，所述判断所述目标的动作形态和动作参量是否符合预设唤醒动作，包括：计算出所述目标在所述视频流中的时序图像特征；计算出所述目标的预设多个关键点在所述视频流中的坐标序列；将所述坐标序列与所述目标的时序图像特征进行融合，得到融合后的动作特征，所述动作特征包括动作形态特征和动作参量；判断融合后的动作特征是否符合预设唤醒动作。

可选地，所述计算出所述目标的预设多个关键点在所述视频流中的坐标序列，包括：基于多分支深度卷积神经网络，对所述目标在所述视频流的多个采样帧中所在的区域进行预设多个关键点的坐标的预测，其中，所述多分支深度卷积神经网络是基于多分支结构对不同分辨率的图片进行特征学习训练得到的。

可选地，所述多分支深度卷积神经网络中包括以下任一种设置或多种设置的组合：由1x1卷积，分组卷积，以及空洞卷积组成的卷积模块；用于多分支卷积交叉融合计算的1x1卷积；用于编译层中的分组卷积集中存放数据的存储区域。

可选地，所述目标为人手，所述预设多个关键点包括人手的关节点和/或手指的指尖点。

可选地，所述从视频流提取目标的动作形态和动作参量的步骤中，和/或，所述在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据的步骤中，通过使用卷积神经网络进行特征学习；所述卷积神经网络的训练过程包括：在所述卷积神经网络的多分支卷积阶段进行模型剪枝，得到模型剪枝后的卷积神经网络；基于模型剪枝后的卷积神经网络进行特征学习训练，得到卷积神经网络模型；对所述卷积神经网络模型进行模型量化，得到模型量化后的卷积神经网络模型；对模型量化后的卷积神经网络模型进行特征学习训练，得到轻量化的卷积神经网络模型。

可选地，所述通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据，包括：基于多目标追踪算法以及单目标追踪算法，对所述视频流的多个采样帧中的目标进行追踪，得到所述目标的时序动作数据。

根据本说明书实施例的第二方面，提供了一种基于AR/VR眼镜的交互装置，所述装置包括：视频获取模块，被配置为获取AR/VR眼镜的图像采集设备采集的视频流。唤醒检测模块，被配置为从所述视频流提取目标的动作形态和动作参量，并判断所述目标的动作形态和动作参量是否符合预设唤醒动作。目标追踪模块，被配置为在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据。交互控制模块，被配置为基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作。

根据本说明书实施例的第三方面，提供了一种AR/VR眼镜，包括：图像采集设备、存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现本说明书任意实施例所述基于AR/VR眼镜的交互方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本说明书任意实施例所述基于AR/VR眼镜的交互方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行所述基于AR/VR眼镜的交互方法的步骤。

本说明书一个实施例实现了基于AR/VR眼镜的交互方法，由于该方法获取AR/VR眼镜的图像采集设备采集的视频流，从所述视频流提取目标的动作形态和动作参量，判断所述目标的动作形态和动作参量是否符合预设唤醒动作，在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据，基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作，因此，该方法受用户的特定唤醒动作唤醒而进入交互状态，使AR/VR眼镜基于特定唤醒动作精准地与用户开始交互，避免交互失误，而且，通过AR/VR眼镜本身设置的图像采集设备采集的视频流追踪目标，基于目标的时序动作数据控制AR/VR眼镜交互，实现了用户无需额外穿戴配件，基于动作隔空交互操控的交互方式，降低用户穿戴的复杂性。

附图说明

图1是本说明书一个实施例提供的一种基于AR/VR眼镜的交互方法的流程图；

图2是本说明书一个实施例提供的手部关节点的示意图；

图3是本说明书一个实施例提供的一种基于AR/VR眼镜的交互方法的处理过程流程图；

图4是本说明书一个实施例提供的一种基于AR/VR眼镜的交互装置的结构示意图；

图5是本说明书另一个实施例提供的一种基于AR/VR眼镜的交互装置的结构示意图；

图6是本说明书一个实施例提供的一种AR/VR眼镜的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

AR/VR眼镜视频播放：通过佩戴的AR/VR眼镜虚拟大屏播放视频。

动作识别：通过图像采集设备采集的视频，对摇头、眨眼、拍掌、捏合、拖动等人体动作进行识别。例如，手势识别，是通过图像采集设备，对手掌、捏合、拖动等人体手势进行识别。

目标跟踪：在有初始目标检测框的基础上或者有部分帧漏检的情况下，利用跟踪算法对目标进行跟踪。例如，手势跟踪：在有初始手势检测框的基础上或者有部分帧漏检的情况下，利用跟踪算法对手势框进行跟踪。

在本说明书中，提供了一种基于AR/VR眼镜的交互方法，本说明书同时涉及一种基于AR/VR眼镜的交互装置，一种AR/VR眼镜，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种基于AR/VR眼镜的交互方法的流程图。该方法应用于设置了图像采集设备的AR/VR眼镜。该方法具体包括以下步骤。

步骤102：获取AR/VR眼镜的图像采集设备采集的视频流。

其中，所述图像采集设备的具体类型不限。在AR/VR眼镜中，为了降低AR/VR眼镜的成本以及设备复杂度，所述图像采集设备可以是嵌入式地安装在AR/VR眼镜上的单目RGB的图像采集设备。当然，根据应用场景需要，可以使用多RGB摄像头，RGBD摄像头，或者ToF等3D传感器，结合不同的算法追踪目标以使识别结果更加准确。

其中，视频流，是指视频的各帧数据以连续的流的方式传输。AR/VR眼镜的处理器能够从图像采集设备实时地获取连续的采样帧并进行处理。

例如，在获取视频流之前，还可以获取图像采集设备的相机分辨率，虚拟屏幕坐标系等参数，以便为后续的交互操作做系统初始化。通过系统初始化，确保能获取当前相机设置下的视频流，作为数据处理的输入。

步骤104：从所述视频流提取目标的动作形态和动作参量，并判断所述目标的动作形态和动作参量是否符合预设唤醒动作。

例如，可以采用基于RGB时序序列为主框架的视频识别方案，提取采样帧的时序图像特征以获取目标的动作形态和动作参量，以便识别预设唤醒动作。例如，在目标为手的实施例中，预设唤醒动作可以为“挥手”等动态手势动作。

其中，所述动作形态是指目标的动作在形态上进行分类得到形态分类结果，例如手的“挥手”等形态。所述动作参量是用于确定目标的动作的一些动作参数，如轨迹、角度、幅度等。手的“挥手”形态的动作参量例如可以包括挥手的幅度、角度等。

在判断目标的动作形态和动作参量是否符合预设唤醒动作时，可以通过预设的一些参数阈值来进行判断，本说明书实施例提供的方法对此并不进行限制。例如，可以判断是否为挥手的动作形态，动作参量如挥手的幅度、角度是否达到唤醒所需的幅度、角度，等等。

需要说明的是，在识别到预设唤醒动作之前和之后，两个阶段都可以对目标进行追踪。前一阶段追踪目标用于圈定目标获取目标的动作形态和动作参量以便进行唤醒检测，后一阶段追踪目标用于获取更详细的时序动作数据以便进行连续交互。两个阶段追踪目标的算法可以相同，也可以不同。例如，唤醒之前，可以采用对算力要求不高的追踪算法对目标进行追踪，一旦识别到预设唤醒动作，这时进入连续交互状态，可以采用对算力要求稍高的追踪算法对目标进行精度更高的追踪，以便准确交互。

步骤106：在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据。

预设唤醒动作的判断可以使AR/VR眼镜更加智能、准确地基于视觉与用户连续交互。在符合预设唤醒动作的情况下持续追踪目标，持续获得目标的时序动作数据。为了使追踪到的动作更加平滑和准确，可以对所述视频流进行逐帧地追踪。当然，根据实际应用场景的需要，也可以是不连续的采样帧，具体根据实施场景设置。

本说明书实施例提供的方法对目标追踪的具体算法并不进行限制。基于视觉对目标追踪例如可以包括检测、提取、识别等跟踪处理，以获得目标的时序动作数据。目标可以是一个或多个。目标的时序动作数据根据实施场景对交互操作控制的需要例如可以包括：位置、速度、加速度、运动轨迹、动作识别结果等等任意带有时序信息的动作数据的序列。

例如，追踪的算法可以是多目标追踪算法、单目标追踪算法等。通过追踪目标，可以不断更新获得目标的时序动作数据如位置变化以及动作。

步骤108：基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作。

其中，时序动作数据与对应的交互操作的对应方式，可以根据具体应用场景下的交互逻辑确定。例如，在目标为手的实施例中，可以支持拖动、点击等多种手势的交互场景，如：手的运动轨迹为点击，可以对应暂停/播放；手的运动轨迹为左右拖动，可以对应拖动播放进度条，上下拖动可以对应拖动音量控制条等。例如，在所述AR/VR眼镜播放视频时，可以基于所述目标的时序动作数据控制所述AR/VR眼镜对所述视频执行对应的交互操作。

由于该方法获取AR/VR眼镜的图像采集设备采集的视频流，从所述视频流提取目标的动作形态和动作参量，判断所述目标的动作形态和动作参量是否符合预设唤醒动作，在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据，基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作，因此，该方法受用户的特定唤醒动作唤醒而进入交互状态，使AR/VR眼镜基于特定唤醒动作精准地与用户开始交互，避免交互失误，而且，通过AR/VR眼镜本身设置的图像采集设备采集的视频流追踪目标，基于目标的时序动作数据控制AR/VR眼镜交互，实现了用户无需额外穿戴配件，基于动作隔空交互操控的交互方式，降低用户穿戴的复杂性，交互更方便自然。

更进一步地，本说明书一个或多个实施例中，所述AR/VR眼镜的图像采集设备可以为单目摄像头。通过使用单目摄像头结合本说明书一些实施例提供的深度卷积神经网络算法，能达到与多目摄像头系统同样的使用效果，极大的降低了设备使用门槛。

本说明书另一个或多个实施例中，为了降低算力，提高效率，减少功耗，提高设备使用时长，在唤醒阶段可以采用抽帧模糊处理，之后的目标追踪阶段可以逐帧处理，提高精度，避免全程使用逐帧处理。具体地，所述从所述视频流提取目标的动作形态和动作参量，可以包括：从所述视频流抽取采样帧，从所述采样帧提取目标的动作形态和动作参量。所述通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据，可以包括：通过对所述视频流中的目标进行逐帧地追踪，得到所述目标的时序动作数据。

需要说明的是，本说明书实施例提供的方法可应用的AR/VR眼镜的类型不限，例如，可以是AR/VR眼镜、带有AR/VR眼镜的头盔等任何能够基于自身设置的图像采集设备采集到用户身体某一个或多个目标的AR/VR眼镜。

例如，所述AR/VR眼镜可以为智能头盔上的AR/VR眼镜，智能头盔上设置有摄像头。智能头盔的面罩具有AR/VR眼镜展示虚拟交互界面的功能。当用户戴上智能头盔伸出手做出手势操作虚拟交互界面时，AR/VR眼镜实时获取视频流，响应于预设唤醒动作追踪手的动作，基于手的动作在虚拟交互界面上与用户交互。

又例如，所述智能设备可以为更接近眼镜外形的AR/VR眼镜，所述目标为佩戴所述AR/VR眼镜的用户的手。AR/VR眼镜上设置有摄像头。例如，可以是单目RGB的摄像头。AR/VR眼镜具有展示虚拟交互界面的功能。当用户戴上AR/VR眼镜伸出手做出手势操作虚拟交互界面时，AR/VR眼镜实时获取视频流，响应于预设唤醒动作追踪手的动作，基于手的动作在虚拟交互界面上与用户交互。

例如，在AR/VR眼镜应用于元宇宙的应用场景中，可以根据本说明书实施例提供的方法，使AR/VR眼镜基于视觉感应实现手势交互，这种交互方式对于用户来说，无需额外佩戴其他配件、交互方式更加简单、直接。根据本说明书实施例提供的方法，AR/VR眼镜可以基于视觉感应实现手势追踪并基于手势交互，达到较高产品能力和用户体验。根据本说明书实施例提供的方法，AR/VR眼镜可以在多领域、各种产品上实现手势操控能力，例如，在AR/VR眼镜视频播放场景下的连续手势交互操控等。

由于AR/VR眼镜通常会在自己的屏幕(虚拟屏幕或现实屏幕)中展示交互界面，要支持用户对AR/VR眼镜的屏幕隔空交互操作，需要在屏幕坐标系中确定正确的交互位置，因此，所述基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作，可以包括：获取交互界面的屏幕坐标系；计算出所述目标的预设多个关键点在所述视频流中的坐标序列；计算所述坐标序列在所述屏幕坐标系对应的交互位置；在所述时序动作数据满足所述交互位置的预设操作条件的情况下，控制所述AR/VR眼镜执行所述预设操作条件对应的交互渲染与交互操作。

其中，所述预设操作条件可以根据实施场景需要设置，具体可以包括对时序动作数据在对应交互位置的相关动作参量的判断条件。例如，某一应用场景中，所述时序动作数据为拖动手势，交互位置为音量调节按钮，由于该时序动作数据在该交互位置满足了预设操作条件“在音量调节按钮处向调大音量方向拖动的手势”，则可以控制AR/VR眼镜相应执行对应的调大音量的交互渲染与交互操作。

另外，在实际应用场景中，用户可能在唤醒连续交互状态后退出，因此，本说明书一个或多个实施例中，所述方法还可以包括：在符合预设唤醒动作的情况下，确定进入连续交互状态；在所述连续交互状态下，利用所述目标的时序动作数据对追踪到的目标进行动作识别，判断所述目标的动作是否为预设正确交互动作；如果否，退出连续交互状态，重新进入所述获取AR/VR眼镜的图像采集设备采集的视频流的步骤。可以理解的是，在判定为是预设正确交互动作的情况下，则持续追踪目标，基于目标的时序动作数据进行连续交互。

本说明书实施例提供的方法中，对目标的追踪可以采用任意可能的追踪算法实现。例如，一个或多个实施例中，所述通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据，包括：基于多目标追踪算法以及单目标追踪算法，对所述视频流的多个采样帧中的目标进行追踪，得到所述目标的时序动作数据。

在该实施例中，采用多目标追踪算法以及单目标追踪算法，保证了交互的唯一性，不会受到其他类似目标的干扰，持续追踪到目标，例如可以采用Tracking by Detection(通过检测进行跟踪)的方案，不断更新目标的位置变化以及动作追踪，充分利用前面帧的信息，保证与用户交互的连续性以及提高用户体验。同时，可以基于深度神经网络的目标分类模型确认当前交互区域目标的动作是否正确，如果正确，表示目标正在交互，可以继续追踪，根据目标的时序动作数据进行交互；如果不正确，表示是没有目标在做交互，此时需要退出连续交互状态，基于实时获取的更新视频流检测是否再次被唤醒。另外，如果交互超时，也可以退出连续交互状态，基于实时获取的更新视频流检测是否再次被唤醒。

本说明书一个或多个实施例中，为了使唤醒的判断更加准确，将目标的多个关键点的坐标序列作为特征与时序图像特征相融合进行判断，使得用于判断唤醒的目标特征更加准确。具体地，例如，所述判断所述目标的动作形态和动作参量是否符合预设唤醒动作，包括：计算出所述目标在所述视频流中的时序图像特征；计算出所述目标的预设多个关键点在所述视频流中的坐标序列；将所述坐标序列与所述目标的时序图像特征进行融合，得到融合后的动作特征，所述动作特征包括动作形态特征和动作参量；判断融合后的动作特征是否符合预设唤醒动作。

例如，可以利用3D卷积网络提取采样帧中目标的RGB图像特征，得到时序图像特征；可以利用深度卷积网络提取采样帧中目标的预设多个关键点坐标，得到预设多个关键点的坐标序列，将预设多个关键点的坐标序列与时序图像特征进行融合。其中，3D卷积网络可以是改良的高效快速的非退化3D卷积网络。其中，坐标序列是指预设多个关键点在时序上的坐标序列。

例如，在目标为手的实施例中，所述预设多个关键点包括人手的关节点和/或手指的指尖点。计算手的多个关键点的坐标序列，例如可以是通过对手指关键点指尖位置进行多任务学习，学习得到的手指指尖的运动轨迹，辅助唤醒手势的动作识别，提升手势唤醒的识别精度。

需要说明的是，在该实施例中，连续交互唤醒之前，计算目标的多个关键点的坐标序列，是为了与时序图像特征融合进行唤醒判断，而连续交互唤醒之后，计算目标的多个关键点的坐标序列，是为了控制AR/VR眼镜执行交互操作，两个处理的目的不同，处理的具体实现方式可以相同，也可以不同。例如，由于连续交互唤醒之前的坐标序列用于特征融合，在与时序图像特征相互辅助的情况下，对动作细节要求不高，因此，可以采用要求算力比较低，较为简单的算法，以提高唤醒的响应速度。而连续交互唤醒之后的计算用于控制交互操作，对动作细节要求较高，因此，可以采用计算较为精确的算法进行计算，以便进行更加准确地交互操作。

为了能够更加准确地计算出所述目标的预设多个关键点在所述视频流中的坐标序列，本说明书一个或多个实施例中，所述计算出所述目标的预设多个关键点在所述视频流中的坐标序列，包括：基于多分支深度卷积神经网络，对所述目标在所述视频流的多个采样帧中所在的区域进行预设多个关键点的坐标的预测，其中，所述多分支深度卷积神经网络是基于多分支结构对不同分辨率的图片进行特征学习训练得到的。

其中，所述目标在所述视频流的多个采样帧中所在的区域，可以是通过目标追踪确定的每个采样帧中目标所在的区域。例如，一些追踪目标的算法中目标所在的区域通常以矩形检测框的形式来表示。在矩形检测框中，可以通过多种实现方式预测该预设多个关键点所在的位置。上述实施例中，通过多分支深度卷积神经网络，对目标区域进行多个关键点的预测，通过多分支对不同分辨率的图片进行特征提取，增强网络的特征提取能力。

例如，在目标为手的实施例中，所述预设多个关键点可以包括人手的关节点和/或手指的指尖点。基于人手的关节点以及手指的指尖点，可以详细地计算出手部关节点坐标位置变化，准确地表示手指的运动位置，进而精准地控制AR/VR眼镜执行精确地交互操作。例如，如图2所示的手部关节点的示意图所示，所述预设多个关键点可以包括掌根点、五指指根点、五指的指根到指尖之间的中间关节点、五指指尖点共21个关节点。对目标区域的手进行21个关节点坐标的预测，得到多个连续采样帧的手部关节点坐标序列之后，可以对应到虚拟视频播放界面的坐标，计算界面的相关交互位置。在确定交互位置的情况下，可以基于手势分类的结果进行界面交互逻辑判断，如果满足预设操作条件，则进行界面交互渲染以及相应交互操作。

另外，本说明书一个或多个实施例中，还可以针对任一采样帧，利用从所述任一采样帧之前的多个采样帧中提取出的预设多个关键点的坐标序列，对从所述任一采样帧中提取出的预设多个关键点的坐标进行修正。例如，可以使用前面多帧的手部关节点坐标对当前帧的手部关节点坐标进行修正，保证手部关节点坐标位置变化的平滑和准确。

为了在使用多分支深度卷积神经网络提取坐标序列时即满足轻量化要求又能满足精度要求，本说明书一个或多个实施例中，所述多分支深度卷积神经网络中包括以下任一种设置或多种设置的组合：

由1x1卷积，分组卷积，以及空洞卷积组成的卷积模块；

用于多分支卷积交叉融合计算的1x1卷积；

用于编译层中的分组卷积集中存放数据的存储区域。

通过上述设置实现的轻量化的神经网络模型，增强了神经网络的特征提取能力，兼顾性能和功耗的平衡，便于在AR/VR眼镜等AR/VR眼镜上部署。

另外，本说明书实施例提供的方法中可以在任一或多个步骤中基于需要使用合适的卷积神经网络模型。例如，所述从视频流提取目标的动作形态和动作参量的步骤中，和/或，所述在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据的步骤中，可以通过使用卷积神经网络进行特征学习。为了使模型更加轻量，同时保证模型精度，所述卷积神经网络的训练过程可以包括：在所述卷积神经网络的多分支卷积阶段进行模型剪枝，得到模型剪枝后的卷积神经网络；基于模型剪枝后的卷积神经网络进行特征学习训练，得到卷积神经网络模型；对卷积神经网络模型进行模型量化，得到模型量化后的卷积神经网络模型；对模型量化后的卷积神经网络模型进行特征学习训练，得到轻量化的卷积神经网络模型。上述训练过程可以用于本说明书任意卷积神经网络模型中。

其中，模型剪枝，是指通过去除神经网络中冗余的通道、过滤器、神经元或者网络层以得到一个更轻量级的神经网络，同时不影响性能。模型量化是一种将浮点计算转成低比特定点计算的技术，可以有效的降低模型计算强度、参数大小和内存消耗。另外，在模型量化之后，还可以进行模型转换，以便与部署侧框架连接。

上述实施例中的深度卷积神经网络：通过使用的多分支卷积，在不同阶段进行交叉融合计算，提升了模型精度；使用了轻量化的卷积模块(包括1x1卷积，分组卷积，空洞卷积等的组合)，减少了计算量；在分支卷积中进行裁剪，在交叉融合计算阶段不进行裁剪，在轻量化的同时，保证模型精度；通过卷积通道数裁剪，降低模型的计算量；在交叉融合计算阶段，通过增加1x1卷积来提升性能；通过量化，例如将float参数(32位)，替换成int参数(8位)，降低计算量；基于模型中的大量的分组卷积，为了避免对数据进行分组计算时从不同的存储位置读取数据增加耗时，设置了用于编译层中的分组卷积集中存放数据的存储区域，这样进行计算时，可以集中读取数据，降低耗时，提高效率。

下述结合附图3，对所述基于AR/VR眼镜的交互方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种基于AR/VR眼镜的交互方法的处理过程流程图，具体包括以下步骤。

步骤302：获取AR/VR眼镜设备当前相机设置下的视频流。

其中，在获取视频流之前，可以进行系统初始化，例如，获取AR/VR眼镜设备的相机分辨率，虚拟屏幕坐标系等参数。通过系统初始化，确保能通过AR/VR眼镜设备拿到当前相机设置下的视频流，作为数据处理的输入。

步骤304：将视频流输入手势唤醒模块以判断是否唤醒进入连续交互状态。

手势唤醒模块的处理根据本说明书实施例提供的方法可以包括：基于3D卷积神经网络提取RGB视频帧的深度卷积网络特征，即连续采样帧中手的时序图像特征；并且基于RGB视频帧提取手部关节点坐标序列，如通过对手指关键点指尖位置进行多任务学习，学习手指的运动轨迹得到指尖点的坐标序列，将手部关节点坐标序列作为特征与手的时序图像特征进行融合，以辅助手势的动作识别；将融合后的特征输入唤醒判定模块；唤醒判定模块对特征进行识别，判断是否符合例如“挥手”等预设连续交互唤醒动作，以确定是否进入连续交互状态。

如果否，重新进入步骤304，更新的视频流输入手势唤醒模块进行手势唤醒判断。

步骤306：如果是，将视频流输入手部检测追踪模块以确定目标手部区域以及手部动作。

需要说明的是，视频流中的数据是图像采集设备持续实时获取的流数据，因此，输入手部检测追踪模块的数据中包括实时获取的新的视频数据。手部检测追踪模块根据本说明书实施例提供的方法可以包括：响应于手势唤醒进入连续交互状态，将视频流经过手部检测得到初始目标检测框，基于初始目标检测框经多目标追踪算法以及单目标追踪算法，得到手部区域以及手部动作。为了减少背景干扰，还可以设置一些删选的逻辑，删除干扰，输出确定为交互手的目标手部区域的位置变化以及动作追踪的结果。

通过手部检测追踪模块采用多目标追踪算法以及单目标追踪算法，持续追踪到交互手，通过Tracking by Detection的方案，不断更新交互手的位置变化以及动作追踪，保证了交互的唯一性，不会受到其他区域手的干扰。

步骤308：基于手部检测追踪模块输出的目标手部区域以及手部动作，进行手势分类。

其中，手势分类可以基于深度神经网络的手势分类模型实现，通过手势分类确认当前交互手区域手势是否正确，即确定是否还有手在交互，如果还在继续交互，将会继续追踪并进入步骤310以获取手部关节点坐标。

如果没有手交互且超时，可以回到手势唤醒模块。

步骤310：计算目标手部区域的手部关节点坐标。

例如，可以利用多分支深度卷积神经网络，对目标区域的手进行如图2所示的21个关节点坐标的预测。通过多分支对不同分辨率的图片进行特征提取，增强网络的特征提取能力，同时经过轻量化的改造，兼顾性能和功耗的平衡，便于在AR/VR眼镜上部署。该步骤基于连续采样帧，提取出目标手部区域的手部关节点坐标的序列。另外，还可以使用前面多帧的手部关节点坐标对当前帧的手部关节点坐标进行修正，保证手部关节点坐标位置变化的平滑和准确。

步骤312：基于手部关节点坐标进行UI(User Interface，用户界面)交互位置计算。

该步骤中，可以基于连续采样帧提取出的手部关节点坐标的序列以及虚拟视频播放界面的坐标系，计算UI交互的相关位置。

步骤314：基于UI交互位置进行UI交互逻辑判断。

步骤316：如果手部动作满足该UI交互位置的预设操作条件，则进行UI交互渲染以及相应交互操作的响应。

根据上述实施例提供的基于AR/VR眼镜的交互方法，交互算力要求低，实现了针对AR/VR眼镜的视频播放场景的交互模式，响应于动态唤醒、支持例如拖动、点击等多种手势的连续交互，用户除了AR/VR眼镜本身，无需额外的硬件配件，即可与AR/VR眼镜连续手势交互操控，交互更方便自然。

与上述方法实施例相对应，本说明书还提供了基于AR/VR眼镜的交互装置实施例。图4示出了本说明书一个实施例提供的一种基于AR/VR眼镜的交互装置的结构示意图。如图4所示，该装置包括：

视频获取模块402，可以被配置为获取AR/VR眼镜的图像采集设备采集的视频流。

唤醒检测模块404，可以被配置为从所述视频流提取目标的动作形态和动作参量，并判断所述目标的动作形态和动作参量是否符合预设唤醒动作。

目标追踪模块406，可以被配置为在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据。例如，可以基于多目标追踪算法以及单目标追踪算法，对所述视频流的多个采样帧中的目标进行追踪，得到所述目标的时序动作数据。

交互控制模块408，可以被配置为基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作。例如，可以被配置为在所述AR/VR眼镜播放视频时，基于所述目标的时序动作数据控制所述AR/VR眼镜对所述视频执行对应的例如播放、调音量等交互操作。

由于该装置获取AR/VR眼镜的图像采集设备采集的视频流，从所述视频流提取目标的动作形态和动作参量，判断所述目标的动作形态和动作参量是否符合预设唤醒动作，在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据，基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作，因此，该方法受用户的特定唤醒动作唤醒而进入交互状态，使AR/VR眼镜基于特定唤醒动作精准地与用户开始交互，避免交互失误，而且，通过AR/VR眼镜本身设置的图像采集设备采集的视频流追踪目标，基于目标的时序动作数据控制AR/VR眼镜交互，实现了用户无需额外穿戴配件，基于动作隔空交互操控的交互方式，降低用户穿戴的复杂性。

所述目标为佩戴所述AR/VR眼镜的用户的手。

由于AR/VR眼镜通常会在自己的屏幕(虚拟屏幕或现实屏幕)中展示交互界面，要支持用户对AR/VR眼镜的屏幕隔空交互操作，需要在屏幕坐标系中确定正确的交互位置，因此，如图5示出的本说明书另一个实施例提供的一种基于AR/VR眼镜的交互装置的结构示意图，所述交互控制模块408，可以包括：

坐标系获取子模块4082，可以被配置为获取交互界面的屏幕坐标系。

坐标计算子模块4084，可以被配置为计算出所述目标的预设多个关键点在所述视频流中的坐标序列。

位置计算子模块4086，可以被配置为计算所述坐标序列在所述屏幕坐标系对应的交互位置。

控制子模块4088，可以被配置为在所述时序动作数据满足所述交互位置的预设操作条件的情况下，控制所述电子设备执行所述预设操作条件对应的交互渲染与交互操作。

在实际应用场景中，用户可能在唤醒连续交互状态后退出，因此，本说明书一个或多个实施例中，所述装置还可以包括：

交互检测模块412，可以被配置为在符合预设唤醒动作的情况下，确定进入连续交互状态，在所述连续交互状态下，利用所述目标的时序动作数据对追踪到的目标进行动作识别，判断所述目标的动作是否为预设正确交互动作，如果否，退出连续交互状态。相应地，所述视频获取模块402获取更新的视频流，触发所述视频获取模块402继续获取视频流以便继续检测唤醒。

本说明书一个或多个实施例中，为了使唤醒的判断更加准确，将目标的多个关键点的坐标序列作为特征与时序图像特征相融合进行判断，使得用于判断唤醒的目标特征更加准确。

具体地，例如，所述唤醒检测模块404可以包括：

图像特征计算子模块4042，可以被配置为计算出所述目标在所述视频流中的时序图像特征。

坐标序列计算子模块4044，可以被配置为计算出所述目标的预设多个关键点在所述视频流中的坐标序列。

特征融合子模块4046，可以被配置为将所述坐标序列与所述目标的时序图像特征进行融合，得到融合后的动作特征，所述动作特征包括动作形态特征和动作参量。

动作判断子模块4048，可以被配置为判断融合后的动作特征是否符合预设唤醒动作。

为了能够更加准确地计算出所述目标的预设多个关键点在所述视频流中的坐标序列，本说明书一个或多个实施例中，所述坐标序列计算子模块4044，可以被配置为基于多分支深度卷积神经网络，对所述目标在所述视频流的多个采样帧中所在的区域进行预设多个关键点的坐标的预测，其中，所述多分支深度卷积神经网络是基于多分支结构对不同分辨率的图片进行特征学习训练得到的。

其中，所述多分支深度卷积神经网络中可以包括以下任一种设置或多种设置的组合：

由1x1卷积，分组卷积，以及空洞卷积组成的卷积模块；

用于多分支卷积交叉融合计算的1x1卷积；

用于编译层中的分组卷积集中存放数据的存储区域。

例如，在目标为手的实施例中，所述预设多个关键点可以包括人手的关节点和/或手指的指尖点。基于人手的关节点以及手指的指尖点，可以详细地计算出手部关节点坐标位置变化，准确地表示手指的运动位置，进而精准地控制AR/VR眼镜执行精确地交互操作。

为了使本说明书实施例提供的装置使用的卷积神经网络模型即满足轻量化要求又能满足精度要求，本说明书一个或多个实施例中，所述装置还可以包括：训练模块414，可以被配置为在所述卷积神经网络的多分支卷积阶段进行模型剪枝，得到模型剪枝后的卷积神经网络；基于模型剪枝后的卷积神经网络进行特征学习训练，得到卷积神经网络模型；对所述卷积神经网络模型进行模型量化，得到模型量化后的卷积神经网络模型；对模型量化后的卷积神经网络模型进行特征学习训练，得到轻量化的卷积神经网络模型。

上述为本实施例的一种基于AR/VR眼镜的交互装置的示意性方案。需要说明的是，该基于AR/VR眼镜的交互装置的技术方案与上述的基于AR/VR眼镜的交互方法的技术方案属于同一构思，基于AR/VR眼镜的交互装置的技术方案未详细描述的细节内容，均可以参见上述基于AR/VR眼镜的交互方法的技术方案的描述。

图6示出了根据本说明书一个实施例提供的一种AR/VR眼镜600的结构框图。该AR/VR眼镜600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

AR/VR眼镜600还包括接入设备640，接入设备640使得AR/VR眼镜600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，AR/VR眼镜600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的AR/VR眼镜结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

AR/VR眼镜600还可以与移动式或静止式的服务器通信以实现所述基于AR/VR眼镜的交互方法的处理过程。

其中，处理器620用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述基于AR/VR眼镜的交互方法的步骤。

上述为本实施例的一种AR/VR眼镜的示意性方案。需要说明的是，该AR/VR眼镜的技术方案与上述的基于AR/VR眼镜的交互方法的技术方案属于同一构思，AR/VR眼镜的技术方案未详细描述的细节内容，均可以参见上述基于AR/VR眼镜的交互方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述基于AR/VR眼镜的交互方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的基于AR/VR眼镜的交互方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述基于AR/VR眼镜的交互方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述基于AR/VR眼镜的交互方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的基于AR/VR眼镜的交互方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述基于AR/VR眼镜的交互方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于AR/VR眼镜的交互方法，所述方法包括：

获取AR/VR眼镜的图像采集设备采集的视频流；

从所述视频流提取目标的动作形态和动作参量；

判断所述目标的动作形态和动作参量是否符合预设唤醒动作；

在符合预设唤醒动作的情况下，通过对所述视频流中的目标进行追踪，得到所述目标的时序动作数据；

基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作。

2.根据权利要求1所述的方法，所述基于所述目标的时序动作数据控制所述AR/VR眼镜执行对应的交互操作，包括：

获取交互界面的屏幕坐标系；

计算出所述目标的预设多个关键点在所述视频流中的坐标序列；

计算所述坐标序列在所述屏幕坐标系对应的交互位置；

在所述时序动作数据满足所述交互位置的预设操作条件的情况下，控制所述AR/VR眼镜执行所述预设操作条件对应的交互渲染与交互操作。

3.根据权利要求1所述的方法，所述判断所述目标的动作形态和动作参量是否符合预设唤醒动作，包括：

计算出所述目标在所述视频流中的时序图像特征；

将所述坐标序列与所述目标的时序图像特征进行融合，得到融合后的动作特征，所述动作特征包括动作形态特征和动作参量；

判断融合后的动作特征是否符合预设唤醒动作。

4.根据权利要求2或3所述的方法，所述计算出所述目标的预设多个关键点在所述视频流中的坐标序列，包括：

基于多分支深度卷积神经网络，对所述目标在所述视频流的多个采样帧中所在的区域进行预设多个关键点的坐标的预测，其中，所述多分支深度卷积神经网络是基于多分支结构对不同分辨率的图片进行特征学习训练得到的。

5.根据权利要求4所述的方法，所述多分支深度卷积神经网络中包括以下任一种设置或多种设置的组合：

由1x1卷积，分组卷积，以及空洞卷积组成的卷积模块；

用于多分支卷积交叉融合计算的1x1卷积；

用于编译层中的分组卷积集中存放数据的存储区域。

6.根据权利要求2或3所述的方法，所述目标为人手，所述预设多个关键点包括人手的关节点和/或手指的指尖点。

7.根据权利要求1所述的方法，还包括：

在符合预设唤醒动作的情况下，确定进入连续交互状态；

在所述连续交互状态下，利用所述目标的时序动作数据对追踪到的目标进行动作识别，判断所述目标的动作是否为预设正确交互动作；

如果否，退出连续交互状态，重新进入所述获取AR/VR眼镜的图像采集设备采集的视频流的步骤。

8.根据权利要求1所述的方法，所述AR/VR眼镜的图像采集设备为单目摄像头。

9.一种AR/VR眼镜，包括：

图像采集设备、存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至8任意一项所述基于AR/VR眼镜的交互方法的步骤。

10.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至8任意一项所述基于AR/VR眼镜的交互方法的步骤。