CN116360603A

CN116360603A - 基于时序信号匹配的交互方法、设备、介质及程序产品

Info

Publication number: CN116360603A
Application number: CN202310614855.2A
Authority: CN
Inventors: 李阳
Original assignee: Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Current assignee: Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-06-30

Abstract

本申请实施例提供一种基于时序信号匹配的交互方法、设备、介质及程序产品。其中，一智能设备具有传感器，传感器用于采集智能设备周围的环境数据，适用于智能设备的方法包括：在采集到的当前环境数据中含有目标手时，从当前环境数据中提取目标手的手部特征点；跟踪目标手，以得到手部特征点在跟踪时间段内形成的第一时序信号；对第一时序信号进行匹配分析，以确定第一时序信号对应的交互操作指令；按照交互操作指令，执行相应的交互操作。本方案利用智能设备上的传感器实现了纯视觉的手势交互、且可令用户与智能设备的手势交互不需要借助任何外部的辅助设备，利于提高用户交互体验感、降低交互成本。

Description

基于时序信号匹配的交互方法、设备、介质及程序产品

技术领域

本申请涉及虚拟现实技术领域，尤其涉及一种基于时序信号匹配的交互方法、设备、介质及程序产品。

背景技术

随着科学技术的不断发展，各种智能设备不断推陈出新，在一定程度上给用户带来不错的体验。目前，如虚拟现实设备、智能手机、自动售票机等各种智能设备，与用户的交互如点击、输入等操作，基本上是依赖一些辅助设备，如可穿戴设备、鼠标、手柄、触屏等设备，给用户带来不便性、且增加了交互成本。

发明内容

鉴于上述问题，本申请提供一种解决上述问题或至少部分地解决上述问题的基于时序信号匹配的交互方法、设备、介质及程序产品。

在本申请的一个实施例中，提供了一种基于时序信号匹配的交互方法。该方法适用于具有传感器的智能设备，所述传感器用于采集所述智能设备周围的环境数据，所述方法包括：

在采集到的当前环境数据中含有目标手时，从所述当前环境数据中提取所述目标手的手部特征点；

跟踪所述目标手，以得到所述手部特征点在跟踪时间段内形成的第一时序信号；

对所述第一时序信号进行匹配分析，以确定所述第一时序信号对应的交互操作指令；

按照所述交互操作指令，执行相应的交互操作。

在本申请的另一实施例中，还提供了一种智能设备。该智能设备包括：传感器、存储器和处理器；其中，

所述传感器，用于采集智能设备周围的环境数据；

所述存储器，用于存储计算机程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述计算机程序，以用于实现本申请实施例提供的所述基于时序信号匹配的交互方法中的步骤。

在本申请的又一实施例中，还提供了一种虚拟现实设备。该虚拟现实设备包括：传感器、存储器和处理器；其中，

所述传感器，用于采集智能设备周围的环境数据；

所述存储器，用于存储计算机程序；

在本申请的又一实施例中，还提供了一种虚拟现实设备。该虚拟现实设备包括：头戴式设备体和遥控装置；其中，

所述头戴式设备体上设置有传感器，用于采集所述头戴式设备体周围的环境数据；

所述遥控装置，与所述头戴式设备体通信连接；所述遥控装置上设置有处理器，用于实现本申请实施例提供的所述基于时序信号匹配的交互方法中的步骤。

在本申请的又一实施例中，还提供了一种虚拟现实眼镜。该虚拟现实眼镜包括：头戴式眼镜体和遥控装置；其中，

所述头戴式眼镜体上设置有传感器，用于采集所述头戴式眼镜体周围的环境数据；

所述遥控装置，与所述头戴式眼镜体通信连接；所述遥控装置上设置有处理器，用于实现本申请实施例提供的所述基于时序信号匹配的交互方法中的步骤。

本申请各实施例提供的技术方案，智能设备（如虚拟现实设备、虚拟现实眼镜）可通过自身具有的传感器来采集周围的环境数据，并在采集到的当前环境数据中含有目标手时，可从当前环境数据中提取目标手的手部特征点；进一步地，通过跟踪该目标手，可得到目标手的手部特征点在跟踪时间段内形成的第一时序信号，并通过对第一时序信号进行匹配分析，可确定出该第一时序信号对应的交互操作指令，从而按照该交互操作指令可执行相应的交互操作。本方案是利用智能设备上的传感器实现了一种纯视觉的手势交互、利于实现较多的手势交互动作，且可令用户与智能设备的手势交互不需要借助任何外部的辅助设备，有利于提高用户交互体验感、降低交互成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要利用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的基于时序信号匹配的交互方法的流程示意图；

图2为本申请一实施例提供的智能设备的具体形态示意图；

图3为本申请一实施例提供的提取出的手部特征点的示意图；

图4a为本申请一实施例提供的基于地面坐标系确定手部特征点的三维坐标手示意图；

图4b为本申请一实施例提供的基于智能设备坐标系确定手部特征点的三维坐标手示意图；

图5a和图5b为本申请实施例提供将手部特征点的三维坐标转化为其他类型的坐标原理性示意图；

图6a和图6b为本申请实施例提供的虚拟现实设备的虚拟交互界面示意图；

图7为本申请一实施例提供的基于时序信号匹配的交互装置的结构示意图；

图8为本申请一实施例提供的智能设备的结构示意图；

图9为本申请一实施例提供的计算机程序产品的结构示意图；

图10为本申请又一实施例提供的基于时序信号匹配的交互方法流程示意图；

图11为本申请一实施例提供的有关目标手的识别确定流程示意图；

图12为本申请一实施例提供的将第一时序信号与信号库中的第二时序信号进行匹配的流程示意图。

具体实施方式

目前，智能设备，比如虚拟现实设备（如头戴式的虚拟现实眼镜、虚拟现实眼罩等）、智能手机，个人电脑（包括台式计算机、笔记本电脑）、自动售票机等，与用户的交互如点击、输入等操作，主要是依赖于如鼠标、手柄、触屏、指环、交互笔等一些辅助设备来实现，这既增加了交互成本，同时也给用户带来不便性。虽然，对于一些相对更高级的智能设备，为用户也提供有其它交互方式，如语音交互，手势交互，但是针对上述手势交互，现有具有手势交互功能的智能设备并不存在完善的纯视觉手势交互功能，其在实现手势交互功能时往往仍需要用户佩戴一些辅助设备，比如具有定位功能的手套等可穿戴设备诸，而且，所能实现的手势交互也仅局限于少数的几个交互动作，比如简单的通过手指相互触碰实现点击，用户体验感相对较差。

针对上述问题，本申请提供了一种新的手势交互技术方案，本方案是基于时序信号匹配的交互技术方案，具体地，本方案是利用智能设备上的传感器（如图像传感器）实现了一种纯视觉的手势交互、且能实现的手势交互动作也比较多，可令用户与智能设备的交互不需要借助任何外部的辅助设备，有利于提高用户交互体验感、降低交互成本。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。而本申请中术语“或/和”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如：A或/和B，表示可以单独存在A，同时存在A和B，单独存在B这三种情况；本申请中字符“/”，一般表示前后关联对象是一种“或”关系。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。此外，下述的各实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了本申请一实施例提供的基于时序信号匹配的交互方法的流程示意图，该方法的执行主体为具有传感器的智能设备，更具体地为智能设备的处理器（如CPU）。上述智能设备可以为虚拟现实设备，如头戴式的虚拟现实眼镜（如AR眼镜、VR眼镜、MR眼镜等）、虚拟现实眼罩等；或者，也可以为智能电器设备，如智能手机、平板、笔记本电脑、个人计算机、自主售票机、自主结账机、智能电视等，本实施例对智能设备的具体形态不作限定。智能设备所具有的传感器可包含但不限于：图像传感器（如摄像头）、测距传感器（如红外传感器、雷达）等，用于采集智能设备周围的环境数据。如图1，本实施例提供的所述基于时序信号匹配的交互方法包括如下步骤：

101、在采集到的当前环境数据中含有目标手时，从所述当前环境数据中提取所述目标手的手部特征点；

102、跟踪所述目标手，以得到所述手部特征点在跟踪时间段内形成的第一时序信号；

103、对所述第一时序信号进行信匹配分析，以确定所述第一时序信号对应的交互操作指令；

104、按照所述交互操作执行，执行相应的交互操作。

上述101中，所述的环境数据可是智能设备通过自身具有的传感器如图像传感器、雷达（如激光雷达）、红外传感器等中的至少一项采集到的，即：采集到的环境数据可包括如下中至少一项数据：图像数据、雷达数据、红外数据，本实施例利用该采集到的环境数据可确定用于手势交互的目标手、提取目标手的手部特征点、对目标手进行跟踪以得到目标手的手部特征点在跟踪时间段内形成的第一时序信号，等等。

需说明的是，本申请实施例中上下文中所述的时序信号（如第一时序信号、第二时序信号），是一种时序性的手势动作信号。

考虑到现有的大多智能设备上都是安装有图像传感器（如摄像头）的，为使本方案能适用较广泛的智能设备、避免增加过多的冗余成本，优选地，通过图像传感器来采集智能设备周围真实的环境图像，以为实现本方案提供数据支持。

基于上述内容，即上述智能设备具有的传感器可包括图像传感器；以及，本实施例提供的所述方法还可包括如下步骤：

100a、通过所述图像传感器采集所述智能设备周围的环境图像；

100b、在采集到的当前环境图像中含有手时，识别所述当前环境图像中是否存在目标手；

100c、存在所述目标手时，根据所述当前环境图像，触发执行上述101中的“从所述当前环境数据中提取所述目标手的手部特征点”的步骤。

具体实施时，上述图像传感器可为常开的摄像头(Always on Camera，AONCamera)，用于实时采集智能设备周围的环境图像。该摄像头具有低功率工作模式，摄像头工作于低功率工作模式下，能够在常开状态节省耗能。上述摄像头按照摄像头数量，可为单摄像头、多摄像头；或者，按照摄像头的成像原理，摄像头可为红外摄像头、RGB摄像头等等，本实施例对摄像头的类型不作具体限定。

例如，若智能设备为如图2示出的虚拟现实设备31，更具体为头戴式的虚拟现实眼镜，则可在该虚拟现实眼镜上设置至少一个摄像头，比如：可在此虚拟现实眼镜的镜框上设置摄像头，具体地如可在左镜框和右镜框上各设置一个摄像头，或者在左镜框和右镜框的中间位置处设置一个摄像头；进一步地，为了达到更广泛的采集范围，还可以在此虚拟现实眼镜的镜腿上设置摄像头等等，以实现对此虚拟现实眼镜的360度周围环境的采集。由于本实施例主要是利用虚拟现实眼镜上的摄像头实现手势交互，而在手势交互过程中，用户的手基本是在用户脸部朝向对应的现实空间内动作，基于此，为降低成本，优选地，可只在此虚拟现实眼镜的镜框上设置摄像头，设置的摄像头只要能确保此采集到用户脸部朝向对应的现实空间的环境图像即可。

再例如，若智能设备为笔记本电脑、平板、智能手机、自主售票机等智能电器设备32，只要保证智能电器设备32朝向用户的一侧面上设置有至少一个摄像头即可，以确保能采集到含有用户手的图像。

上述图像传感器，可将实时采集到的环境图像发送给智能设备内的处理器；处理器可调用内部事先预置的图像识别模型，对接收到的环境图像进行识别分析，以确定采集到的当前环境图像中是否含有手。其中，图像识别模型可为但不限于事先训练好的机器学习模型，如神经网络模型、深度学习模型等。

在本实施例中，用户与智能设备进行手势交互，可使用单手或双手，或与他人的手进行协作交互等，本实施例对此不作限定。基于此，在确定当前环境图像中含有手，可结合一定的识别规则来确定当前环境图像中是否存在用于手势交互的目标手，从而在识别到存在目标手时，从当前环境图像中提取目标手的手部特征点，以为实现后续步骤提供数据支撑。即，在一种可实现技术方案中，上述100b“识别所述当前环境图像中是否目标手”，可具体包括如下步骤：

100b1、识别所述当前环境图像中是否存在符合预设规则的手；

100b2、存在符合预设规则的手时，确定所述当前环境图像中存在目标手。

上述中，存在符合预设规则的手包括如下中的至少一项：

当前环境图像中含有一只手；

当前环境图像中含有与所述图像传感器的距离大于或等于第一距离阈值、且小于或等于第二距离阈值的手；

当前环境图像中含有被所述智能设备的使用用户注视时长大于或等于时长阈值的手；

当前环境图像中含有是属于所述智能设备的使用用户的手。

例如，在当前环境图像中出现一只手时，可基于默认设置，将该当前环境图像中出现的唯一一只手确定为目标手。

再例如，在当前环境图像中出现一只或多只手时，还可以基于相应的检测算法，来判断该当前环境图像中出现的一只或多只手中是否存在目标手。具体地：

示例11：可先确定当前环境图像中出现的一只或多只手各自与图像传感器的距离D；然后，在判断是否存在有距离D大于或等于第一距离阈值、且小于或等于第二距离阈值的手，换句话也就是说，判断是否存在有距离D处于预设距离范围（为第一距离阈值和第二距离阈值所限定的距离范围）内的手，若存在，则将该距离D处于预设距离范围内的手，确定为目标手；反之，若不存在，则认为当前环境图像中不存在目标手，后续可以根据当前之后图像传感器采集到的环境图像来确定目标手。

例如，假设上述预设距离范围为：0.2米到0.7米，则当前环境图像中出现的与图像传感器的距离处于此0.2米到0.7米范围内的手会被确定为目标手，后续基于该目标手进行手势识别操作；反之，当前环境图像中出现的与图像传感器的距离不处于此0.2米到0.7米范围内的手，则会被确定为非目标手，后续不会基于此非目标手进行手势识别操作。上述给出的预设距离范围（0.2米到0.7米）仅是示意性的，对本申请的预设距离范围不具有任何限定作用。预设距离范围可根据实际情况进行灵活调整，如预设距离范围还可以是：0.2米到0.5米，0.5米到0.7米等。

这里需要补充说明的是，上述示例中，在分析当前环境图像中出现的手与图像传感器的距离时，可将手上任一点相对于图像传感器的距离作为手与图像传感器的距离，比如：设当前环境图像中出现的手包括手hand1，可以将手hand1的中心像素点相对于图像传感器的距离作为此手hand1与图像传感器的距离；或者，也可以取手hand1对应的所有像素点各自相对于图像传感器的距离之间的均值，以此确定此手hand1与图像传感器的距离等等，本实施例对此不作限定。其中，在距离分析时，可根据图像传感器的数量及类型，利用适配的深度估计方法进行距离确定。例如，承接上述例子，若智能设备上设置有一个RGB摄像头，可利用事先预置的单目深度估计模型来估计上述手hand1对应的像素点与图像传感器的距离，进而估计出此手hand1相对于与图像传感器的距离；若智能设备上设置有两个RGB摄像头，可利用事先预置的双目深度估计模型来估计上述手hand1对应的像素点与图像传感器的距离，进而估计出此手hand1相对于与图像传感器的距离。或者，为提高距离确定的精准性，在智能设备上具有的传感器包括测距传感器的情况下，也可根据测距传感器采集到的与当前环境图像对应的感测数据，并结合测距传感器与图像传感器之间的位置关系，对利用深度估计方法所估计出的上述手hand1的像素点相对于图像传感器的距离进行修正，以减小手hand1的像素点相对于图像传感器的距离与实际距离之间的误差，从而再根据修正后的手hand1的像素点相对于图像传感器的距离来确定当前环境图像中出现的手hand1相对于图像传感器的距离，提高距离确定的精准性。当然，在智能设备上具有的传感器包括测距传感器的情况下，也可直接根据测距传感器采集到的与当前环境图像对应的感测数据，并结合测距传感器与图像传感器之间的位置关系，来确定当前环境图像中出现的手hand1相对于图像传感器的距离。上述所述的测距传感器可以为但不限于红外线传感器、雷达（如激光雷达），其中，红外线传感器可通过TOF(Time of flight，飞行时间)方法，来获取红外线传感器与当前环境图像中出现的手hand1的像素点相对于红外传感器的距离，从而再根据红外传感器与图像传感器之间的位置关系，也就可得到手hand1的像素点相对于图像传感器的距离。

这里还需补充说明的是，上述所述的单目深度估计模型、双目深度估计模型，以及下文所述的姿势检测模型、特征点提取模型等，均可是但不限于事先训练好的机器学习模型，如深度学习网络模型。

示例12：可利用相应的视线检测方法，实时检测用户的视线，从而结合用户的视线来判断当前环境图像中是否存在目标手。具体地：可通过智能设备上设置的图像传感器实时采集用户的眼部图像；根据与当前环境图像对应的眼部图像，确定用户的人眼当前注视智能设备的显示器对应的注视位置信息，进而根据该注视位置信息来确定用户的人眼在当前环境图像中关注点的位置坐标，以此根据该关注点的位置坐标来确定用户在当前环境图像中所注视的手（记为手hand2）；之后，可根据后续采集到的用户的眼睛图像和环境图像，统计用户注视手hand2的注视时长，若注视时长大于或等于时长阈值，则确定手hand2为目标手。上述时长阈值可为默认值、或者也可根据具体场景和用户的设置来灵活确定，如时长阈值可为1秒、5秒等。

这里需要补充说明的是，智能设备可对通过传感器采集到的环境数据如环境图像进行存储，在上述示例12中，在根据后续（即当前之后）采集到用户的眼部图像和环境图像确定出手hand2为目标手时，可以返回从本地获取到当前环境图像以提取目标手的手部特征点，以及还可获取到本地所存储的当前之后采集到的一系列环境图像以对目标手跟踪。另外，在上述示例12中，在智能设备为虚拟现实设备的情况下，用于采集用户的眼睛图像的图像传感器，可是指设置在虚拟现实设备的透镜上的图像传感器，与上文所述的用于采集智能设备周围的环境图像的图像传感器不是同一传感器；在智能设备为笔记本电脑等智能电器设备的情况下，用于采集用户的眼睛图像的图像传感器与用于采集智能设备周围的环境图像的图像传感器，可以是同一图像传感器。

示例13、可利用预置的姿势检测模型识别当前环境图像中是否存在属于智能设备的使用用户的手，若存在，则将当前环境图像中属于使用用户的手确定为目标手。例如，若姿势检测模型中识别到当前环境图像中含有手背朝向使用用户、且手相对于使用用户的身体的偏角在预设偏角范围内的手hand2，则可确定该手hand2为属于使用用户的手，即为目标手。其中，上述手相对于使用用户的身体的偏角可是指：手上的方向从手指到手腕的一线相对于使用用户的身体的偏角；预设偏角范围可根据实际情况灵活设置，如根据多数用户的手势交互习惯，预设偏角范围可设置为20^o~180^o等。

这里需补充说明的是，本申请上下文出现的用户也即为智能设备的使用用户。

为进一步地提高目标手确定的精准性，还可结合当前使用手势交互的交互模式（如单手）、使用场景（与智能设备的类型有关）中的至少一项，来确定预设规则的优先级，从而根据该优先级来执行上述步骤100b1。由此，即本实施例提供的所述方法还可包括如下步骤：

S11、获取交互（为手势交互）的使用场景和交互模式；

S12、根据所述使用场景、所述交互模式中的至少一项，确定预设规则的优先级；

S13、根据所述优先级，触发执行上述步骤100b1。

上述S11中，所获取的是当前手势交互的使用场景和交互模式。手势交互的使用场景，可根据智能设备的类型确定。例如，若智能设备为虚拟现实设备，则使用场景可为虚拟现实设备提供的虚拟场景，如用于与用户交互的虚拟交互界面（如图6中示出的虚拟交互界面a1）。再例如，若智能设备为笔记本电脑等智能电器设备，则使用场景可为智能电器设备提供的真实场景，如为智能电器设备提供的真实交互界面（比如笔记本电脑提供的交互界面）。当前手势交互使用的交互模式可为但不限于单手、双手、与他人协作交互等模式。

上述S12~S13中，例如：假设使用场景为虚拟场景、交互模式为单手，则上文在详述步骤100b1~100b2时所给出的预设规则①~④的优先级顺序可为但不局限于：④—＞①—＞②—＞③，在根据此优先级顺序，触发执行上述步骤100b1时，可先识别当前环境图像中出现的手中是否含有属于智能设备的使用用户的手，若存在，再确定当前环境图像中含有属于使用用户的手的数量，若为多只手，再识别当前环境图像中是否含有属于使用用户的手、且与图像传感器的距离处于预设距离范围的手等等，以此类推识别，直至确定出目标手。

有上述内容，在识别出目标手后，可对目标手进行锁定以便于后续跟踪目标手。例如，在上述描述内容中，结合用户视线确定目标手的情况下，对目标手进行锁定，可使得后续当用户视线离开目标手时，智能设备仍可对之前锁定的目标手锁定以跟踪、进行信息提取等，方便于用户在与智能设备进行手势交互时，可将视线转移到其它需要关注的元素上，直至采集不到包含有被锁定的目标手（即被锁定的目标手离开图像传感器采集范围）、或者用户视线连续停留在环境图像中其它手的时长超过时长阈值，则将锁定的目标手切换为用户重新注视的手。

在从当前环境图像中识别出目标手后，可利用预置的特征点提取模型，通过执行上述步骤101来从当前环境图像中提取出该目标手的手部特征点，此外，还可选取适配的方法确定手部特征点当前的坐标信息。

上述101中，提取出的目标手的手部特征点可包括但不限于如下中至少一种：关节点、指尖点、骨骼中间点；或者还可包括其它能够表征手势动作的手部点，如位于手腕处的点；或者除上述之外其它能用于构建目标手对应的手部模型（为目标手的虚拟模型）的点等，本实施例对比不作限定，手部特征点的选取可根据设备性能和用户设置来确定，以便选取中最符合用户手势交互使用习惯和最利于智能设备性能的特征点。

图3中示出了本实施例提取出的目标手的手部特征点为关节点和指尖点（共21个手部特征点）示例，其中，灰色圆“

”即表示手部特征点。

在确定手部特征点当前的坐标信息时，可先利用适配的方法确定手部特征点与图像传感器当前的距离，然后再结合手部特征点在当前环境图像中的图像空间坐标，来得到手部特征点的坐标信息。有关确定手部特征点与图像传感器的距离的具体实现，可参见上文针对上述步骤100b1给出的示例11中相关的内容，如在补充说明中所描述的确定当前环境图像中出现的手对应的像素点与图像传感器的距离相关内容，这里不再做赘述。

这里需补充说明的是：在参见上文相关内容，用适配的深度估计方法来确定手部特征点与图像传感器距离时，可事先在当前环境图像中针对目标手标记出相应的手部特征点，之后再将标记后的当前环境图像输入至单目深度估计模型或双目深度估计模型等，以提高相应的深度估计模型距离估计效率，避免深度估计模型对非手部特征点进行距离估计。

上述所确定的手部特征点的坐标信息为三维坐标，可基于地面坐标系确定（如图4a）；或者也可基于智能设备坐标系确定（如图4b）。

在具体实施时，手部特征点的坐标信息除了可采用直接基于地面坐标系或智能设备坐标系，确定出的三维坐标来表征外，还可通过将手部特征点的三维坐标转化成其它类型形式的坐标，以用来表征手部特征点的坐标信息。具体地，

示例21、可将手部特征点的三维坐标转换为手的关节骨骼（可简称骨骼）的角度坐标表征手部特征点的坐标信息，具体地，可通过计算关节骨骼所在直线与相应的坐标系之间的夹角，以得到关节骨骼的角度坐标，从而利用该角度坐标表征相应手部特征点的坐标信息，这种角度坐标可减少坐标之间的相关性。

例如，参见图5a，手部特征点8和手部特征点7对应的关节骨骼l₇₈，根据手部特征点8和手部特征点7的三维坐标，不难计算出该关节骨骼l₇₈所在的直线L与地面坐标系之间的夹角为(α，β），即关节骨骼l₇₈的角度坐标为(α，β），此角度坐标为(α，β）可表征上述手部特征点8和/或手部特征点7的坐标信息。

示例21、可将手部特征点的三维坐标转换为手的相邻关节骨骼之间的相对角度坐标来表征手部特征点的坐标信息，具体地，可通过计算相邻的两个关节骨骼之间的夹角，以此得到该相邻的两个关节骨骼之间的夹角坐标（即相对角度坐标），这种夹角坐标也可减少坐标之间的相关性。

例如，参见图5b，手部特征点7和手部特征点6对应的关节骨骼l₆₇、手部特征点6和手部特征点5对应的关节骨骼l₅₆，关节骨骼l₆₇与关节骨骼l₅₆相邻，根据手部特征点7、手部特征点6和手部特征点5的三维坐标，不难计算出关节骨骼l₆₇与关节骨骼l₅₆之间的夹角θ，该夹角θ可表征上述手部特征点7、手部特征点6和手部特征点5的坐标信息。

上述示例21和示例22中给出的将手部特征点的三维坐标转化成的两种类型形式仅是示例性地，并不具有任何限制性作用。

在基于上述方式内容，确定出手部特征点当前的坐标信息后，可对其进行存储以为后续确定相应的时序信号提供数据支持。

上述102中，可以根据当前之后通过智能设备上的传感器如图像传感器采集到的环境图像，利用相应的目标跟踪算法来跟踪目标手。在跟踪过程中，可分析计算目标手的手部特征点在采集到的每一帧环境图像对应时刻所处的坐标信息并记录存储，以此得到手部特征点在跟踪时间段内产生的至少一个坐标信息，进而基于该至少一个坐标信息来确定相应的第一时序信号。有关利用相应的目标跟踪算法来跟踪目标手的具体实现，可参见现有相关内容。有上即，在一种可实现技术方案中，上述102“跟踪所述目标手，以得到所述手部特征点在跟踪时间段内形成的第一时序信号”，可具体包括：

1021、根据当前之后所述图像传感器采集到的所述智能设备周围的环境图像，跟踪所述目标手，以确定所述手部特征点在跟踪时间段内产生的至少一个坐标信息；

1022、根据所述至少一个坐标信息，确定所述第一时序信号。

上述1021中，还可结合当前环境图像来跟踪目标手，即上述至少一个坐标信息可包括手部特征点在当前环境图像对应时刻所处的坐标信息。另外，上述至少一个坐标信息在智能设备中存储形式可以为但不限于：坐标向量数组。

例如，以手部特征点的坐标信息为地面坐标系对应的三维坐标为例，手部特征点的至少一个坐标信息的存储方式可为如下：

上述，n表示手部特征点的总个数；（

）表示第i个手部特征点相对于地面坐标系的三维坐标向量，/>

分别是由连续时间序列内第i个手部特征点的横坐标、纵坐标、竖坐标形成的向量，连续时间序列的时间长度由跟踪目标手的跟踪时间而定。/>

分别具体为：

，

，

，/>

分别表示在j时刻所存储的第i个手部特征点相对于地面坐标系的横坐标、纵坐标、竖坐标。t表征存储记录的时刻，具体地：t₀表征存储记录的初始时刻（为存储记录手部特征点的初始坐标信息对应的时刻），t_m表征记录的当前时刻，存储记录的时刻步长（时间步长）根据图像传感器的采样频率而定。

再例如，若手部特征点的坐标信息是通过相应的关节骨骼的角度坐标来表征的，则手部特定点的至少一个坐标信息的存储方式可为如下：

^T

其中，

代表所有手部特征点对应的关节骨骼总数；/>

、/>

表示由连续时间序列内第i个关节骨骼的角坐标形成的向量，/>

、/>

分别具体为：

，

；T为转置符。有关t的含义、连续时间序列的时间长度等的详述，可参见上述例子相应内容。

又例如，若手部特征点的坐标信息是通过相邻的两个关节骨骼的角度坐标来表征，则手部特定点的至少一个坐标信息的存储方式可为如下：

^T

其中，

代表所有手部特征点对应的相邻两个关节骨骼的总对数；/>

表示由连续时间序列内第i对相邻的两个关节骨骼（如图5b中示出的关节骨骼l₆₇和关节骨骼l₅₆）的角坐标形成的向量，/>

具体为：/>

。有关t的含义、连续时间序列的时间长度等的详述，可参见上述例子相应内容。

上述1022中，所确定出的第一手势的手势互动信号，即是由所有的手部特征点的坐标随时间形成的向量矩阵，该向量矩阵可参见针对上述步骤1021给出的手部特征点的坐标信息存储形式的示例。

在确定出第一手势互动信号后，执行上述步骤103时，可通过将第一时序信号与预置的至少一个第二时序信号匹配，以根据匹配结果来确定第一手势互动信号反映的交互操作指令。由此即，在一种可实现技术方案中，上述103“对所述第一时序信号进行匹配分析，以确定所述第一时序信号对应的交互操作指令”，可具体包括：

1031、将所述第一时序信号与信号库中包括的至少一个第二时序信号进行匹配，确定与所述第一时序信号匹配的目标第二时序信号；

1032、将所述目标第二时序信号关联的交互操作指令，确定为所述第一时序信号对应的交互操作指令。

上述1031中，信号库中的第二时序信号，是事先根据交互需求设计并预置的，其中，本实施例提供有使用户自定义第二时序信号的功能。第二时序信号反映的手势动作包括但不限于如下中的一种或多种组合：点击、抓取、按压、抬起、多个手指间的触碰、摇动、滑动、握紧、松开、缩放。相应地，为第二时序信号关联的交互操作指令是与其反映的手势动作相适配的，如：若第二时序信号反映的是点击动作，相应地，为该第二时序信号关联的交互操作指令可为点击指令。

信号库中的每个第二时序信号，具体可采用如下方式来获得：

以信号库中某一个第二时序信号为用户自定义的为例，用户在自定义一个用于手势交互的第二时序信号时，可先作出相应的手势动作，在该期间可参见上文所描述的针对目标手确定第一时序信号详述的相关内容来采集此手势动作的信号，存储记录从手势动作起始点到结束点对应的手部特征点的坐标信息，以形式原始信号数据；进一步地，可对该原始信号数据进行插值、线性拟合、非线性拟合等优化操作处理，并为优化操作处理后的原始信号数据添加标签，比如：为优化操作处理后的原始信号数据关联相适配的交互操作指令、手势动作名称等各种标签，标签添加完成后，该优化操作处理后的原始信号数据即作为一个第二时序信号存储在信号库中。

上述信号库，可以在智能设备本地中存储和/或也可以存储在智能设备对应的服务端（如云端），以备在需要时调用。

这里需要补充说明的是：信号库中除了存储有每个第二时序信号对应的手部特征点的坐标信息之外，还可存储每个第二时序信号对应的手势动作名称、手势动作的编号，触发匹配的最低相关性阈值（即上文所述的匹配阈值），使用的坐标系类型、坐标信息的坐标类型等信息。其中，第二时序信号在信号库中的存储顺序，可以是按下文所述的遍历优先级顺序存储的；根据第二时序信号对应的手势动作可确定其相对应的交互操作指令。

这里需要补充说明的是，通过本实施例生成的时序信号（如第二时序信号）包含可被坐标信息（如三维坐标等）表征的手部静态姿势，动态动作及其组合，在单帧图像或多帧图像形成的动作信号集合，等等。另外，本实施例中是提供有至少一个信号库的，一个信号库与至少一个手势交互的使用场景对应，在进行匹配前，可先根据手势交互的使用场景来从至少一个信号库中选择出适配的信号库以用于匹配分析。信号库可在智能设备对应的服务端（如云端）存储、或也可以在智能设备的本地存储。

在将第一时序信号与信号库中包括的至少一个第二时序信号进行匹配分析时，可以利用相应的相关性计算方法来实现。考虑到本实施例中的时序信号（如第一时序信号、第二时序信号）是由手部特征点的坐标随时间形成的向量矩阵，为高维信号，因此，传统的一维信号的相关性计算方法并不能直接应用于本方案，为此本实施例提供了一种将一维信号的相关性计算拓展到高维信号的方法以实现信号的匹配分析。具体地，通过本实施例中提供的相关性计算方法，上述步骤1031“将所述第一时序信号与信号库中包括的至少一个第二时序信号进行匹配，确定与所述第一时序信号匹配的目标第二时序信号”，可采用如下具体步骤来实现；

10311、遍历所述至少一个第二时序信号，确定当前遍历到的第二时序信号；

10312、计算所述第一时序信号与当前遍历到的第二时序信号的内积；

10313、计算所述第一时序信号的第一平方、当前遍历到的第二时序信号的第二平方；

10314、根据所述内积、所述第一平方、所述第二平方，确定所述第一时序信号与当前遍历到的第二时序信号的匹配度；

10315、所述匹配度大于或等于匹配阈值时，遍历终止，将当前遍历到的第二时序信号确定为所述目标第二时序信号；或者，继续遍历直至确定出所述第一时序信号分别与各第二时序信号的匹配度，将匹配度最高且匹配度大于或等于匹配阈值的第二时序信号确定为所述目标时序信号；

10316、所述匹配度小于所述第一阈值时，返回执行所述确定当前遍历到的第二时序信号的步骤。

针对上述步骤10311~10316，举一示例：以第一时序信号和信号库中的第二时序信号均是采用同一类型的单个坐标表征（如在上文中所述的手部特征点的坐标信息是通过相邻的两个关节骨骼的角度坐标来表征的情况下）为例，假设：

=[/>

,/>

,...,/>

,...,,/>

]是当前遍历到的信号库中的第二时序信号，/>

表示第i个单坐标（换句话为第i对相邻的两个关节骨骼的角度坐标）按一定时间间隔采样得到的向量，持续时长为/>

₀=t_m-t₀，/>

与/>

₊₁之间的采样时间间隔为/>

₀/(n-1)；

s=[s₁,s₂,...,s_i,...,,s_n]是智能设备存储的第一时序信号，s_i=[s_i(T₀),s_i(T₁),... ,

s_i(T_q)]，i=1,2,...,n，持续时间为T₀=t_q-t₀。

应注意：在匹配分析时，第一时序信号s与信号库中的第二时序信号

的坐标类型必须一致，即/>

和s_i代表相同的坐标系下同一类手部特征点。不过，第一时序信号s与第二时序信号/>

的持续时间不必一致，在不一致时，可通过对第一时序信号s进行插值、分段拟合等处理，得到与第二时序信号/>

的频率、持续时长等一致的第一时序信号s’=[s₁’,s₂’,...,s_i’,...,,s_n’]，以用作匹配分析。

对于上述第一时序信号s和第二时序信号

，可采用如下公式计算相关性以确定二者之间的匹配度：

其中，Cov表示计算出的相关性值（确定为匹配度）；

表示向量的内积运算；/>

s为第一时序信号s与当前遍历到的第二时序信号/>

的内积；s²为第一时序信号s的第一平方；/>

²为第二时序信号/>

的第二平方。

这里需要补充说明的是：在对信号库中的至少一个第二时序信号进行遍历之前，可以先获取至少一个第二时序信号的遍历优先级，以按照该遍历优先级来对至少一个第二时序信号进行遍历。上述中，至少一个第二时序信号的遍历优先级可是根据信号库对应的手势交互的使用场景来事先设置的。另外，由于不同的第二时序信号的复杂程度不同，可针对不同的时序信号设置各自对应的相关性阈值（即匹配阈值），并存储在信号库中，以提高匹配的精确度。若在遍历完所有的第二时序信号后，始终未发现匹配度大于或等于匹配阈值的第二时序信号，则说明目前无法识别第一时序信号对应的交互操作指令，可输出相应的提示信息（如语音提示），以提示用户重做交互手势等；或者，也可以直接将匹配度最高的第二时序信号确定为与第一时序信号匹配的目标第二手势，以用于执行上述1032步骤，将目标第二时序信号关联的交互操作指令确定为第一时序信号对应的交互操作指令。

上述本申请实施例提供的匹配度确定，是通过将一维信号的Pearson相关系数计算拓展到高维信号来实现的。除了采用上述所述的方法之外，还可以采用其他的相关性计算方法来分析第一时序信号与第二时序信号的相关性以确定二者的匹配度，比如，可采用互相关函数法、Spearman相关系数法、Kendall相关系数法、相位相关法、相位差法等等，本实施例对比并不限定。

在进行计算第一时序信号与相应的第二时序信号的相关性以确定二者间的匹配度之前，为得到更准确的相关性值以确保确定出的匹配度具有较高精准性，本实施例还提供有一些优化方法，例如：可采用零均值化后的时序信号、时序信号的衍生量（如通过对时序信号进行求导化所得到的速度、角速度、加速度、角加速度等）等进行相关性计算；再例如，可在两个时序信号的相位、信号时长、采样频率等参量不同的情况下，调整上述各参量相同后在进行相关性计算，等等。基于此，本实施例提供的所述方法还可包括如下步骤：

S21、对所述第一时序信号进行处理，确定处理后的第一时序信号；

S22、根据处理后的第一时序信号，触发执行上述步骤1031，或者触发执行上述步骤1031包括的多个下级步骤中的上述步骤10312。

其中，处理后的第一时序信号通过如下中的任一项确定：

1）根据对所述第一时序信号进行标准处理所获得的标准处理后第一时序信号确定；

2）根据对所述第一时序信号的参量进行调整所获得的调整后第一时序信号确定；其中，调整后第一时序信号的参量与所述当前遍历到的第二时序信号的参量相同，所述参量包括如下中的至少一种：时长、相位、频率；

3）根据所述第一时序信号的衍生量确定，其中，所述衍生量包括如下中的任一种：对所述第一时序信号进行展开所获得的展开系数、对所述第一时序信号进行求导所获得的时间导数。

上述1）中，所述的标准处理可为不限于零均值化、归一化、标准化等，若对第一时序信号进行了标准处理，为保证匹配分析时信号类型的一致性，也需要对相应的第二时序信号进行标准处理。

上述2）中，若对第一时序信号的参量如频率、相位等进行调整，可以上述步骤10311之后、步骤10312之前，增设一步骤A：检测第一时序信号的参量与当前遍历到的第二时序信号的参量是否相同，若不相同，则触发执行调整第一时序信号的参量的步骤，以根据调整后的第一时序信号触发执行上述步骤1032；若相同，则触发执行上述步骤1032。具体的，在调整第一时序信号的参量时，可使用相应的相位校正技术，将第一时序信号和当前遍历到的第二时序信号这两个信号的相位调整到最佳匹配位置以实现相位对齐；可将第一时序信号和当前遍历到的第二时序信号这两个信号通过插值等方法，重新采样到相同的采样频率上，使二者信号具有相同的采样率、频谱分辨率、时长等。

上述3）中，第一时序信号的衍生量可包括但不限于如下中的任一种：

通过可对第一时序信号进行快速傅里叶展开或泰勒展开等后，所得到相应的傅里叶系数或泰勒系数等展开系数；

在根据第一时序信号包含手部特征点的坐标信息，获得到手部特征点的三维坐标之后，通过对手部特征点的三维坐标进行求一次时间导数，所得到的速度、角速度等；或者，通过对手部特征点的三维坐标进行求多次时间导数（时间高阶导数），所得到的加速度，角加速度等。

利用第一时序信号的衍生量与当前遍历到的第二时序信号的衍生量，可进行相关性计算分析以确定二者之间的匹配度。有关第二时序信号的衍生量的确定，可参见上述详述的第一时序信号的衍生量确定，此处不再作具体赘述。

上述104中，在通过上述步骤103确定出第一时序信号对应的交互操作指令后，智能设备可响应于该交互操作指令以执行相应的交互操作，并输出交互操作结果。

不同类型的智能设备响应交互操作指令的方式不同。例如：参见图2，若智能设备是一体式的虚拟现实设备或智能电器设备，则智能设备内的处理器可直接响应于所确定出的交互操作指令。再例如，参见图6a，若智能设备为分离式的虚拟现实眼镜，该分离式的虚拟现实眼镜的处理器单独集成在一个遥控装置上，遥控装置与戴于用户头部的眼镜体（为头戴式眼镜体）分离，二者可通过有线或无线方式通信连接，遥控装置中的处理器在确定出第一时序信号对应的交互操作指令后，会将该交互操作指令发送至眼镜体，由眼镜体中相应的执行模块响应于该交互操作指令；或者，遥控装置也可直接执行交互操作指令，将执行结果发送给眼镜体显示，等等，本实施例对此不作限定。

响应于交互操作指令所输出的交互操作结果可以为但不限于：输出相应的语音、打开交互界面上的某一应用、对交互界面上物体放大或缩小或拖拽或旋转等、滑动验证登录一应用，抓住游戏交互界面中的某物体，等等。

在本实施例中，智能设备还具有针对交互操作指令进行语音提醒功能，语音提醒可通过智能设备上的音频组件（如扬声器）实现。例如，若当前的交互操作指令为点击，智能设备的处理器可控制扬声器播放如下语音提醒“您当前欲对***进行点击，请确认”；根据该语音提醒，用户可核对当前所执行的交互操作指令是否自己的手势交互意图，若是，可针对该语音提醒触发确认（如可通过语音方式），进而智能设备再根据用户反馈的确认信息触发执行上述步骤104。

本实施例提供的技术方案，智能设备可通过自身具有的传感器来用于采集周围的环境数据，并在采集到的当前环境数据中含有目标手时，可从当前环境数据中提取目标手的手部特征点；进一步地，通过跟踪该目标手，可以得到目标手的手部特征点在跟踪时间段内形成的第一时序信号，并确定出该第一时序信号对应的交互操作指令，从而按照该交互操作指令可执行相应的交互操作。本方案是利用智能设备上的传感器（如图像传感器）实现了一种纯视觉的手势交互、利于实现较多的手势交互动作，且可令智能设备与用户的交互不需要借助任何外部的辅助设备，有利于提高用户交互体验感、降低交互成本。

考虑到在手势交互过程中，用户并无法从视觉上感知到智能设备是否识别到用于手势交互的目标手，或者在智能设备为如虚拟现实设备的情况下，用户并无法较为清晰的从视觉上感知自己在手势交互过程中所做的手势动作变化等，针对此，本实施例提供的所述方法还包括如下步骤：

105、在所述当前环境数据中含有目标手时，确定当前所述目标手相对于所述智能设备的交互界面的位置；

106、根据所述位置，在所述交互界面上显示所述目标手的虚拟手；

107、在跟踪所述目标手过程中，根据所述第一时序信号控制所述虚拟手动作。

具体实施时，上述所述的虚拟手可以是目标手的三维模型，或者也可以是用轮廓高亮等方法标记出的目标手轮廓，本实施例对此不做限定。图6a和图6b中在交互界面上示出的虚拟手b为根据目标手的手部特征点勾勒出的目标手轮廓示例。

综上，参见图10所示，本实施例提供的基于时序信号匹配的交互方案可简述为如下过程：

通过智能设备具有的传感器采集智能设备周围的环境数据；

采集到的当前环境数据中含有手时，结合预设规则，利用相应的识别模型（如图像识别模型）对当前环境数据中的手进行识别分析，以判断当前环境数据中是否含有目标手；

含有目标手时，利用相应的特征点提取模型，从当前环境数中提取出目标手的手部特征点；

利用深度估计方法，估计得到手部特征点当前的坐标信息（或叫空间位置信息）并存储；

跟踪目标手，记录并存储在当前之后跟踪时间内手部特征点的坐标信息，以根据存储的手部特征点的所有坐标信息确定目标手对应的第一时序信号；

将第一时序信号与信号库中的至少一个第二时序信号进行匹配；

将与第一时序信号匹配的第二时序信号关联的交互操作指令，确定为第一时序信号对应的交互操作指令并输出。

以及，参见图11所示，上述本申请提供的手势交互技术方案中关于目标手的识别确定过程，可简述为如下过程：

利用相应的目标检测算法（如识别模型），将当前环境数据（如当前环境图像）中的所有手部数据提取出来，并利用特征点提取模型从各手部数据中提取出相应的手部特征点；

结合预设规则，如与位姿有关的规则、与深度有关的规则（如手相对于传感器的距离）等确定是否存在符合预设规则的目标手；

若存在符合预设规则的目标手，将目标手的手部特征点的坐标信息存储，以用于进行手势识别操作（即确定目标手对应的第一时序信号）。

以及，参见图12所示，上述本申请提供的手势交互技术方案中关于将第一时序信号与信号库中的第二时序信号进行匹配的确定过程，可简述为如下过程：

利用相应的跟踪算法，对目标手进行跟踪，获取跟踪时间段内目标手的手部特征点产生的至少一个坐标信息，以确定目标手对应的第一时序信号；

根据当前手势交互的使用场景等，选择适配的信号库；

利用相应的相关性计算方法，计算第一时序信号与信号库中的每个第二时序信号之间的相关性（匹配度）；

找出相关性最高且大于或等于相应的相关性阈值（即匹配阈值）的第二时序信号，作为目标第二时序信号并输出。

下面结合具体应用场景，以智能设备为如图6a中示出的虚拟现实设备31，更具体地为分离式的虚拟现实眼镜为例，对本申请提供的手势交互技术方案进行说明。

图6a中示出的虚拟现实眼镜包括：头戴式眼镜体311（在下文描述某些设备实施例描述场景中，也称为头戴式设备体）和遥控装置312，遥控装置312与所述头戴式眼镜体311是通过有线（如USB）或无线（如WiFi、蓝牙、移动网络等）的方式通信连接，头戴式眼镜体311上设置有传感器，如图像传感器、红外传感器、激光雷达等，用于采集头戴式眼镜体311周围的环境数据，遥控装置312上设置有处理器、控制按键等，处理器用于执行上述本申请实施例提供的手势交互方法。具体地，

在用户刚开始带上头戴式眼镜体311时，看到的画面内容（即环境影像内容）为根据传感器采集到的真实环境数据合成的、类似于人眼看到的现实环境。假设，本实施例事先在信号库中预置有一第二时序信号a1，该第二时序信号a1关联的手势动作为向右滑动，该向右滑动对应的交互操作指令为用于唤出该虚拟现实眼镜所提供的类似于电脑桌面的虚拟眼镜桌面的唤出指令，则：用户戴上该头戴式眼镜体311后，针对该虚拟现实眼镜当前显示的画面内容在连续时间序列内做出了一个向右滑动的手势动作，遥控装置312中的处理器通过传感器采集到的环境数据铺获了该向右滑动的手势动作对应的第一时序信号b1后，通过将该第一时序信号b1和信号库的至少一个第二时序信号进行匹配，确定出第二时序信号a1与第一时序信号b1最为匹配，进而根据第二时序信号a1关联的手势动作、手势动作对应的交互操作指令等信息，确定出第一时序信号b1对应的交互操作指令为唤出指令；遥控装置312响应于该唤出指令，调取出虚拟眼镜桌面并发送至相应的虚拟图像渲染引擎处理，以将该虚拟眼镜桌面渲染至当前显示的画面内容中进行显示。显示出的效果可参见图6a中示出的虚拟交互界面a1，该虚拟交互界面a1中包含的环境影像是作为虚拟眼镜桌面的背景，虚拟眼镜桌面上展示有各种元素，如设置、社交、办公、电话簿、视频等应用元素，用户针对该虚拟眼镜桌面上展示的元素可进一步地手势交互操作。

这里需要补充说明的是，在一些场景下，若虚拟眼镜桌面、应用数据等是存储在遥控装置312内，遥控装置312可直接响应于唤出指令（或下文所述的打开指令等），以调取出虚拟眼镜桌面并发送至相应的虚拟图像渲染引擎处理；若虚拟眼镜桌面、应用数据等是存储在头戴式眼镜体内，遥控装置312可将唤出指令发送至头戴式眼镜体，由头戴式眼镜体根据唤出指令执行相应的操作，本申请实施例对比不作限定。另外，除了可通过手势交互使虚拟眼镜桌面显示出来之外，用户也可以通过操作遥控装置上相应的控制按键来控制虚拟眼镜桌面显示。

接续上述示例描述内容，例如，进一步地遥控装置312根据传感器采集到的环境数据，确定出用户针对虚拟眼镜桌面上的应用2进行了点击，该点击动作对应的交互操作指令为打开指令，则：遥控装置响应于该打开指令，会调取出应用2的应用界面并发送至相应的虚拟图像渲染引擎处理，以将该应用2的应用界面渲染至当前显示的画面内容中进行显示。显示出的效果可参见图6a中示出的虚拟交互界面a2。针对该显示的应用2的应用界面，用户可进一步的通过手势交互进行拖拽、缩放、旋转等各种操作，其中，拖拽的范围并不局限于虚拟眼镜桌面所限定的区域。例如：可将应用2的应用界面拖拽出虚拟眼镜桌面所限定的区域范围外，以放置在环境影像所限定的区域内。

假设，应用2为钢琴应用，用户（记为User1）欲通过该钢琴应用与其他用户（记为User1）进行四手联弹，User1所戴的虚拟现实眼镜与User2所戴的虚拟现实眼镜已建立通信连接、且二者之间开启了虚拟交互界面共享模式（此模式下User1和User2通过各自的虚拟现实眼镜所看到的画面内容是相同的），在该共享模式下，User1和User2可以针对应用2的应用界面上显示出的虚拟钢琴进行相应的手势交互以协作四手联弹奏出一首钢琴曲。其中，在协作四手联弹过程中，User2的虚拟现实眼镜可将针对User2确定出的交互操作指令Order21、时序信号Sig22、虚拟手Vir_hand23等发送给User1的虚拟现实眼镜（具体为对应遥控装置），供User1的虚拟现实眼镜可按照交互操作指令Order21和针对User1确定出的交互操作指令Order11来控制扬声器发出相应的音频、以及根据虚拟手Vir_hand23控制戴在User1头上的头戴式眼镜体所显示的虚拟交互界面上显示虚拟手Vir_hand23、并根据时序信号Sig22控制显示的虚拟手Vir_hand23动作，使得User1通过显示的虚拟手Vir_hand23可看到User2的手势动作变化。当然，User1的虚拟现实眼镜也可将针对User1确定出的交互操作指令Order11、时序信号Sig12、虚拟手Vir_hand13等发送给User2的虚拟现实眼镜，以供User2的虚拟现实眼镜执行相应的控制操作。

有关上述场景中涉及虚拟现实眼镜针对用户确定相应的时序信号、交互操作指令等的具体实现，可参见上文相关内容。

综上描述示例场景并结合上文具体实现内容，采用本方案，虚拟现实设备（如虚拟现实眼镜）可基于识别到的手部特征点的位置，利用双目定位等算法计算手部特征点的坐标（如指尖的坐标），并将手部特征点的坐标与虚拟场景中的至少一个虚拟输入界面进行对比，若手部特征点的坐标位置与至少一个虚拟输入界面中的目标虚拟输入界面之间满足设定位置规则，则确定用户通过目标虚拟输入界面执行输入操作。通过这种方式，可通过双目定位等算法对用户手部特征点的坐标（如指尖的坐标）进行计算，用户无需与现实世界的控制器或特殊的传感器设备进行交互，如无需佩戴相应的辅助设备进行交互，可进一步提升虚拟场景的沉浸感和真实感。

这里需要补充说明的是，上述所述的虚拟图像渲染引擎、扬声器等，可设置在遥控装置312内，或者也可设置在头戴式眼镜体311上，本申请实施例对比不作具体限定。上述智能虚拟现实眼镜的控制和显示分离设计，利于减轻给用户带来的重量感，用户使用体验感较好。另外，在虚拟场景中的手势交互如参见图6b所示还可包括：对虚拟空间（为一种三维形式的交互界面）中的虚拟键盘进行点击，以实现打字输入；或者，对虚拟空间中的虚拟物体进行点击选取、抓握选取等，再通过移动手部进行拖动、放置、缩放等操作。

图7示出了本申请一实施例提供的基于时序信号匹配的交互装置的结构示意图。该交互装置设置在具有传感器的智能设备上，所述传感器用于采集所述智能设备周围的环境数据。如图7所述，本实施例提供的基于时序信号匹配的交互装置包括：提取模块41、跟踪模块42、确定模块43、执行模块44；其中，

提取模块41，用于在采集到的当前环境数据中含有目标手时，从所述当前环境数据中提取所述目标手的手部特征点；

跟踪模块42，用于跟踪所述目标手，以得到所述手部特征点在跟踪时间段内形成的第一时序信号；

确定模块43，用于对所述第一时序信号进行匹配分析，以确定所述第一时序信号对应的交互操作指令；

执行模块44，用于按照所述交互操作指令，执行相应的交互操作。

进一步地，上述确定模块43，在用于确定所述第一时序信号对应的操作指令时，具体用于：将所述第一时序信号与信号库中包括的至少一个第二时序信号进行匹配，确定与所述第一时序信号匹配的目标第二时序信号；将所述目标第二时序信号关联的交互操作指令，确定为所述第一时序信号对应的交互操作指令。

进一步地，上述确定模块43，在用于将所述第一时序信号与信号库中包括的至少一个第二时序信号进行匹配，确定与所述第一时序信号匹配的目标第二时序信号时，具体用于：

遍历所述至少一个第二时序信号，确定当前遍历到的第二时序信号；

计算所述第一时序信号与当前遍历到的第二时序信号的内积；

计算所述第一时序信号的第一平方、当前遍历到的第二时序信号的第二平方；

根据所述内积、所述第一平方、所述第二平方，确定所述第一时序信号与当前遍历到的第二时序信号的匹配度；

所述匹配度大于或等于匹配阈值时，遍历终止，将当前遍历到的第二时序信号确定为所述目标第二时序信号；或者，继续遍历直至确定出所述第一时序信号分别与各第二时序信号的匹配度，将匹配度最高且匹配度大于或等于匹配阈值的第二时序信号确定为所述目标时序信号；

所述匹配度小于所述匹配阈值时，返回执行所述确定当前遍历到的第二时序信号的步骤。

进一步地，上述确定模块43，还用于对所述第一时序信号进行处理，确定处理后的第一时序信号；以及，本实施例提供的所述装置还包括：根据处理后的第一时序信号，触发执行所述将所述第一时序信号与信号库中包括的至少一个第二时序信号进行匹配的步骤，或触发执行所述计算所述第一时序信号与当前遍历到的第二时序信号的内积的步骤；其中，处理后的第一时序信号通过如下中的任一项确定：根据对所述第一时序信号进行标准处理所获得的标准处理后第一时序信号确定；根据对所述第一时序信号的参量进行调整所获得的调整后第一时序信号确定；其中，调整后第一时序信号的参量与所述当前遍历到的第二时序信号的参量相同，所述参量包括如下中的至少一种：时长、相位、频率；根据所述第一时序信号的衍生量确定，其中，所述衍生量包括如下中的任一种：对所述第一时序信号进行展开所获得的展开系数、对所述第一时序信号进行求导所获得的时间导数。

进一步地，所述智能设备具有的传感器包括图像传感器；以及，本实施例提供的所述装置还包括：采集模块，用于通过所述图像传感器采集所述智能设备周围的环境图像；识别模块，用于在采集到的当前环境图像中含有手时，识别所述当前环境图像中是否存在目标手；上述触摸模块，还用于存在所述目标手时，根据所述当前环境图像，触发执行所述从所述当前环境数据中提取所述目标手的手部特征点的步骤。

进一步地，上述识别模块，在用于识别所述当前环境图像中是否存在目标手时，具体用于：识别所述当前环境图像中是否存在符合预设规则的手；存在符合预设规则的手时，确定所述当前环境图像中存在目标手；其中，存在符合预设规则的手包括如下中的至少一项：当前环境图像中含有一只手；当前环境图像中含有与所述图像传感器的距离大于或等于第一距离阈值、且小于或等于第二距离阈值的手；当前环境图像中含有被所述智能设备的使用用户注视时长大于或等于时长阈值的手；当前环境图像中含有是属于所述智能设备的使用用户的手。

进一步地，本实施例提供的所述装置还包括：获取模块，用于获取手势交互的使用场景和交互模式；上述确定模块43，还用于根据所述使用场景、所述交互模式中的至少一项，确定预设规则的优先级；上述触发模块，还用于根据所述优先级，触发执行所述识别所述当前环境图像中是否存在符合预设规则的手的步骤。

进一步地，上述跟踪模块42，在用于跟踪所述目标手，以得到所述手部特征点在跟踪时间段内形成的第一时序信号时，具体用于；根据当前之后所述图像传感器采集到的所述智能设备周围的环境图像，跟踪所述目标手，以确定所述手部特征点在跟踪时间段内产生的至少一个坐标信息；根据所述至少一个坐标信息，确定所述第一时序信号。

进一步地，所述智能设备具有的传感器还包括测距传感器；以及，上述获取模块，还用于通过所述测距传感器获取所述手部特征点相对于所述智能设备的距离信息；本实施例提供的所述方法还包括：修正模块，用于根据所述距离信息，对所述至少一个坐标信息进行修正，以根据修正后的所述至少一个坐标信息手确定所述第一时序信号。

进一步地，所述手部特征点包括如下中至少一种：关节点、指尖点、骨骼中间点；所述信号库中的第二时序信号反映的手势动作包括如下中的一种或多种组合：点击、抓取、按压、抬起、多个手指间的触碰、摇动、滑动、握紧、松开、缩放。

进一步地，上述确定模块43，还用于在所述当前环境数据中含有目标手时，确定当前所述目标手相对于所述智能设备的交互界面的位置；以及，本实施例提供的所述装置还包括：显示模块，用于根据所述位置，在所述交互界面上显示所述目标手的虚拟手；控制模块，用于在跟踪所述目标手过程中，根据所述第一时序信号控制所述虚拟手动作。

这里需要说明的是：本实施例提供的所述基于时序信号匹配的交互装置中各步骤未尽详述的内容可参见上述各实施例中的相应内容，此处不再作赘述。此外，本实施例提供的所述基于时序信号匹配的交互装置中除了上述各步骤以外，还可包括上述各实施例中其他部分或全部步骤，具体可参见上述各实施例相应内容，在此不再赘述。

此外，本申请还有一个实施例提供了一种智能设备。图8示出的本申请实施例提供的智能设备的结构示意图。如图8所述，该智能设备包括：传感器53、存储器51和处理器52；其中，

所述传感器53，用于采集智能设备周围的环境数据；

所述存储器51，用于存储计算机程序；

所述处理器52，与所述存储器耦合，用于执行所述存储器中存储的所述计算机程序，以用于本申请实施例提供的基于时序信号匹配的交互方法中的步骤或功能。

上述存储器可被配置为存储其它各种数据以支持在智能设备上的操作。这些数据的示例包括用于在智能设备上操作的任何应用程序或方法的指令、用户信息、联系人数据，电话簿数据、消息、图片、视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

进一步，上述智能设备除包括存储器和处理器之外，还包括其他组件，比如电源组件55、通信组件（图中未示出）、显示器54、音频组件56（如扬声器）等。

上述显示器54包括屏幕，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述音频组件56，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信（NFC）技术、射频识别（RFID）技术、红外数据协会（IrDA）技术、超宽带（UWB）技术、蓝牙（BT）技术和其他技术来实现。

上述电源组件55，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

图8中仅示意性给出部分组件，并不意味着智能设备只包括图8所示组件。

有关上述传感器的详细可参见上文相关内容，此处不再做具体赘述。

如参见图2示出的智能设备具体形态示例，上述智能设备可以为虚拟现实设备31，如头戴式的虚拟现实眼镜（如AR眼镜、VR眼镜、MR眼镜等）、虚拟现实眼罩等；或者，也可以为智能电器设备32，如智能手机、平板、笔记本电脑、个人计算机、自主售票机、自主结账机、智能电视等，本实施例对智能设备的具体形态不作限定。

针对上述所述的智能设备为虚拟现实设备31的情形，本申请又一实施例还提供了一种虚拟现实设备，具体地，所述虚拟现实设备包括：该智能设备包括：传感器、存储器和处理器；其中，

所述传感器，用于采集智能设备周围的环境数据；

所述存储器，用于存储计算机程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述计算机程序，以用于本申请实施例提供的基于时序信号匹配的交互方法中的步骤或功能。

考虑到现大多数虚拟现实设备（如虚拟现实眼镜）均为集成化一体设计，即所有的部件均集成在一个设备体上，这除了给用户在戴虚拟现实设备时带来较重的重量感之外，也不方便于用户操作，用户使用体验感差。针对此，本申请实施例还提供了另一种形态的虚拟现实设备，该虚拟现实设备的结构可参见图6a或图6b所示。如参见图6a，本申请实施例提供的虚拟现实设备31可包括：头戴式设备体311和遥控装置312；其中，

头戴式设备体311上设置有传感器，用于采集所述头戴式设备体周围的环境数据；

遥控装置312，与所述头戴式设备体311通信连接；所述遥控装置内设置有处理器，用于实现本申请实施例提供的基于时序信号匹配的交互方法中的步骤或功能。

上述实例中，本申请提供的虚拟现实设备可以为虚拟现实眼镜或虚拟现实眼镜等，针对虚拟现实设备为虚拟现实眼镜的形态，本申请又一实施例还提供了一种虚拟现实眼镜，该虚拟现实眼镜的结构同图6a示出的虚拟现实设备31。具体地，所述虚拟现实眼镜包括：头戴式眼镜体和遥控装置；

所述遥控装置，与所述头戴式眼镜体通信连接；所述遥控装置上设置有处理器，用于实现本申请实施例提供的所述基于时序信号匹配的交互方法中的步骤或功能。

这里需要说明的是：有关上述智能设备或智能虚拟现实设备的处理器的具体可执行功能，可参见上述本申请提供的各方法实施例中所描述的内容，此处不作赘述。此外，本实施例提供的智能设备或智能现实设备各功能结构未详尽的内容，也可参见上述各实施例相关的内容，此处不再作具体赘述。

除了上文所介绍的本申请提供的各实施例之外，本申请又一实施例还提供了一种计算机可读存储介质，其存储有计算机程序；所述计算机程序被如图8中示出的处理器执行时能够实现本申请提供的基于时序信号匹配的交互方法实施例中的步骤或功能。

具体实施时，所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘；还可以是半导体介质，例如，固态硬盘。该计算机可读存储介质可以是易失性或非易失性存储介质，或可包括易失性和非易失性两种类型的存储介质。

本申请中的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。图9示意性地示出了本申请提供的一计算机程序产品的框图。所述计算机程序产品包括一个或多个计算机程序/指令61，在计算机上加载和执行所述计算机程序或指令61时，可全部或部分地执行本申请实施例所提供的所述基于时序信号匹配的交互方法中的步骤或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备、核心网设备、OAM或者其它可编程装置。

所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘；还可以是半导体介质，例如，固态硬盘。该计算机可读存储介质可以是易失性或非易失性存储介质，或可包括易失性和非易失性两种类型的存储介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于时序信号匹配的交互方法，其特征在于，适用于具有传感器的智能设备，所述传感器用于采集所述智能设备周围的环境数据，所述方法包括：

按照所述交互操作指令，执行相应的交互操作。

2.根据权利要求1所述的方法，其特征在于，对所述第一时序信号进行匹配分析，以确定所述第一时序信号对应的交互操作指令，包括：

将所述第一时序信号与信号库中包括的至少一个第二时序信号进行匹配，确定与所述第一时序信号匹配的目标第二时序信号；

将所述目标第二时序信号关联的交互操作指令，确定为所述第一时序信号对应的交互操作指令。

3.根据权利要求2所述的方法，其特征在于，将所述第一时序信号与信号库中包括的至少一个第二时序信号进行匹配，确定与所述第一时序信号匹配的目标第二时序信号，包括：

所述匹配度大于或等于匹配阈值时，遍历终止，将当前遍历到的第二时序信号确定为所述目标第二时序信号；或者，继续遍历直至确定出所述第一时序信号分别与各第二时序信号的匹配度，将匹配度最高且匹配度大于或等于匹配阈值的第二时序信号确定为所述目标第二时序信号；

4.根据权利要求3所述的方法，其特征在于，还包括：

对所述第一时序信号进行处理，确定处理后的第一时序信号；

根据处理后的第一时序信号，触发执行所述将所述第一时序信号与信号库中包括的至少一个第二时序信号进行匹配的步骤，或触发执行所述计算所述第一时序信号与当前遍历到的第二时序信号的内积的步骤；

其中，处理后的第一时序信号通过如下中的任一项确定：

根据对所述第一时序信号进行标准处理所获得的标准处理后第一时序信号确定；

根据对所述第一时序信号的参量进行调整所获得的调整后第一时序信号确定；其中，调整后第一时序信号的参量与所述当前遍历到的第二时序信号的参量相同，所述参量包括如下中的至少一种：时长、相位、频率；

根据所述第一时序信号的衍生量确定，其中，所述衍生量包括如下中的任一种：对所述第一时序信号进行展开所获得的展开系数、对所述第一时序信号进行求导所获得的时间导数。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述智能设备具有的传感器包括图像传感器；

以及，所述方法还包括：

通过所述图像传感器采集所述智能设备周围的环境图像；

在采集到的当前环境图像中含有手时，识别所述当前环境图像中是否存在目标手；

存在所述目标手时，根据所述当前环境图像，触发执行所述从所述当前环境数据中提取所述目标手的手部特征点的步骤。

6.根据权利要求5所述的方法，其特征在于，识别所述当前环境图像中是否存在目标手，包括：

识别所述当前环境图像中是否存在符合预设规则的手；

存在符合预设规则的手时，确定所述当前环境图像中存在目标手；

其中，存在符合预设规则的手包括如下中的至少一项：

当前环境图像中含有一只手；

当前环境图像中含有属于所述智能设备的使用用户的手。

7.根据权利要求6所述的方法，其特征在于，还包括：

获取手势交互的使用场景和交互模式；

根据所述使用场景、所述交互模式中的至少一项，确定预设规则的优先级；

根据所述优先级，触发执行所述识别所述当前环境图像中是否存在符合预设规则的手的步骤。

8.根据权利要求6或7所述的方法，其特征在于，跟踪所述目标手，以得到所述手部特征点在跟踪时间段内形成的第一时序信号；

根据当前之后所述图像传感器采集到的所述智能设备周围的环境图像，跟踪所述目标手，以确定所述手部特征点在跟踪时间段内产生的至少一个坐标信息；

根据所述至少一个坐标信息，确定所述第一时序信号。

9.根据权利要求8所述的方法，其特征在于，还包括：所述智能设备具有的传感器还包括测距传感器；

所述方法还包括：

通过所述测距传感器获取所述手部特征点相对于所述智能设备的距离信息；

根据所述距离信息，对所述至少一个坐标信息进行修正，以根据修正后的所述至少一个坐标信息确定所述第一时序信号。

10.根据权利要求2至4中任一项所述的方法，其特征在于，所述手部特征点包括如下中的至少一种：关节点、指尖点、骨骼中间点；

所述信号库中的第二时序信号反映的手势动作包括如下中的一种或多种组合：点击、抓取、按压、抬起、多个手指间的触碰、摇动、滑动、握紧、松开、缩放。

11.根据权利要求1至4中任一项所述的方法，其特征在于，还包括：

在所述当前环境数据中含有目标手时，确定当前所述目标手相对于所述智能设备的交互界面的位置；

根据所述位置，在所述交互界面上显示所述目标手的虚拟手；

在跟踪所述目标手过程中，根据所述第一时序信号控制所述虚拟手动作。

12.一种智能设备，其特征在于，包括：传感器、存储器和处理器；其中，

所述传感器，用于采集智能设备周围的环境数据；

所述存储器，用于存储计算机程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述计算机程序，以用于实现上述权利要求1至11中任一项所述的基于时序信号匹配的交互方法中的步骤。

13.一种虚拟现实设备，其特征在于，包括传感器、存储器和处理器；其中，

所述传感器，用于采集智能设备周围的环境数据；

所述存储器，用于存储计算机程序；

14.一种虚拟现实设备，其特征在于，包括：头戴式设备体和遥控装置；其中，

所述遥控装置，与所述头戴式设备体通信连接；所述遥控装置上设置有处理器，用于实现上述权利要求1至11中任一项所述的基于时序信号匹配的交互方法中的步骤。

15.一种虚拟现实眼镜，其特征在于，包括：头戴式眼镜体和遥控装置；其中，

所述遥控装置，与所述头戴式眼镜体通信连接；所述遥控装置上设置有处理器，用于实现上述权利要求1至11中任一项所述的基于时序信号匹配的交互方法中的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括指令，当所述指令被处理器执行时，能实现上述权利要求1至11中任一项所述的基于时序信号匹配的交互方法中的步骤。

17.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，当所述计算机程序被处理器执行时，能实现上述权利要求1至11中任一项所述的基于时序信号匹配的交互方法中的步骤。