CN114783067A

CN114783067A - 基于手势的识别方法、设备及系统

Info

Publication number: CN114783067A
Application number: CN202210667878.5A
Authority: CN
Inventors: 赵明明
Original assignee: Honor Device Co Ltd
Current assignee: Shanghai Glory Smart Technology Development Co ltd
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-07-22
Anticipated expiration: 2042-06-14
Also published as: CN114783067B

Abstract

本申请实施例提供一种基于手势的识别方法、设备及系统，涉及人工智能技术领域。在本申请方案中，由智能设备采集包含用户手势和物体的图像，并向终端设备发送与该物体的识别场景对应的指令，使得终端设备能够快速执行该指令所指示的处理动作，不同识别场景对应不同指令，不同指令用于指示不同处理动作。如此，利用智能设备和终端设备扩展了智能识别场景的应用范围，满足了不同智能识别场景的使用需求，提升了在智能识别时用户的操作体验。

Description

基于手势的识别方法、设备及系统

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于手势的识别方法、设备及系统。

背景技术

随着电子设备的智能化发展，用户与电子设备的交互方式越来越多。智能识别就是近年来应运而生的一项新兴技术。

对于不同的智能识别场景，通常采用不同的电子设备和方法进行识别。例如，当用户想要使用手机购买某物品的同类商品时，可以打开购物应用程序的拍照功能，并将摄像头对准该物品，从而手机对照片进行识别，并推荐相关商品。再例如，当孩子学习功课时，可以将点读笔对准书本，从而点读笔对扫描的内容进行识别，并语音播放识别到的相关内容。

智能识别场景的种类将会继续增加。若每种场景分别采用不同的电子设备和方法，则将导致设备种类繁杂，且用户操作也较为复杂，从而限制了智能识别技术的发展，影响了在智能识别时用户的操作体验。

发明内容

本申请提供一种基于手势的识别方法、设备及系统，解决在不同识别场景下采用不同设备和不同方法，限制了智能识别技术的发展的技术问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请实施例提供一种基于手势的识别方法。该方法应用于智能设备，包括：

采集目标图像，目标图像包含用户手势以及通过用户手势指定的待识别对象；

确定用户手势为预设手势；

确定目标场景类型，目标场景类型用于指示待识别对象属于的场景类型；

向终端设备发送与目标场景类型对应的目标指令，目标指令用于指示终端设备执行目标处理动作，不同的场景类型对应不同的指令，不同的指令用于指示不同的处理动作。

通过上述方案，由智能设备采集包含用户手势和待识别对象的图像，并在用户手势为预设手势的情况下，对待识别对象进行识别，从而确定了待识别对象属于的场景类型，进而可以通过向终端设备发送指令，使得终端设备能够快速执行该场景类型对应的处理动作。由于不同场景对应不同的处理动作，因此实现了对多种场景的快速识别，从而扩展了智能识别场景的应用范围，满足了不同智能识别场景的使用需求。另外，相对于传统的识别技术，用户通过一个隔空手势就能完成快速识别，简化了操作步骤，提升了在智能识别时用户的操作体验。

在一种可能的实现方式中，目标场景类型为以下任意一项：

文本识别场景，文本识别场景为对文本内容进行识别的场景；

智能识物场景，智能识物场景为对物体的属性进行识别的场景；

智慧出行场景，智慧出行场景为对即将出行的用户位于的场所进行识别的场景。

在一种可能的实现方式中，目标场景类型为文本识别场景。相应地，目标指令用于指示：终端设备输出文本内容的识别结果，和/或存储文本内容的识别结果。

在一种可能的实现方式中，目标场景类型为智能识物场景。相应地，目标指令用于指示：终端设备输出物体的属性的识别结果，和/或输出根据物体的属性的识别结果生成的推荐内容。例如，智能识物场景为道路标识牌识别场景，目标指令用于指示：从用户处于的当前位置到道路标识牌识指示的目标位置的目标路线。

在一种可能的实现方式中，目标场景类型为智慧出行场。相应地，目标指令用于指示：终端设备显示与场所的识别结果对应的身份识别码，身份识别码用于在用户出入该场所时进行身份验证。例如，身份识别码为乘车码、健康码和行程码中的至少一项。

在一种可能的实现方式中，确定用户手势为预设手势，包括：

在目标图像中确定第一区域，第一区域为包含用户手势的图像区域；

将第一区域的图像输入第一卷积神经网络；

在第一卷积神经网络的输出为手势标签的情况下，确定用户手势为预设手势，手势标签用于指示预设手势。

在一种可能的实现方式中，确定目标场景类型，包括：

根据第一区域包含的用户手势，在目标图像中确定第二区域，第二区域为包含待识别对象的图像区域；

将第二区域的图像输入第二卷积神经网络；

在第二卷积神经网络的输出为场景标签的情况下，确定目标场景类型，场景标签用于指示目标场景类型。

在一种可能的实现方式中，向终端设备发送与目标场景类型对应的目标指令，包括：

在检测到与终端设备连接的情况下，向终端设备发送目标指令。

在一种可能的实现方式中，在检测到与终端设备连接的情况下，向终端设备发送目标指令，包括：

在检测到智能设备与多个设备连接的情况下，向多个设备中的每个设备发送目标指令，多个设备包括终端设备；或者，根据多个设备的优先级，向多个设备中符合第一优先级的终端设备发送目标指令。

在一种可能的实现方式中，该方法还包括：

在检测到智能设备未与任何设备连接的情况下，输出与目标场景类型关联的识别结果。其中，不同的场景类型关联不同的识别结果。例如，文本识别场景关联的识别结果为识别到的文本内容，智能识物场景关联的识别结果为识别到的物体的属性，智慧出行场景关联的识别结果为用户位于的场所名称等，本申请实施例不作限定。

在一种可能的实现方式中，目标指令包括：源信息、目标信息和数据信息。

其中，源信息用于指示生成目标指令的智能设备及应用程序，目标信息用于指示接收目标指令的终端设备及应用程序，数据信息用于指示处理动作。

确定用户手势为目标预设手势；其中，目标预设手势为预设的多种类型的手势中的一种，不同类型的手势用于指示识别不同的场景类型，目标预设手势用于指示识别目标场景类型。

确定目标场景类型，包括：根据目标预设手势，对目标场景类型进行识别，确定待识别对象属于目标场景类型。

确定用户手势为目标预设手势；其中，目标预设手势为预设的多种类型的手势中的一种。

确定目标场景类型，包括：根据目标预设手势，对所有场景类型进行识别，从所有场景类型中确定多种场景类型；响应于用户对多种场景类型中的目标场景类型的选择操作，确定待识别对象属于目标场景类型。

第二方面，本申请实施例提供一种基于手势的识别方法。该方法应用于终端设备，包括：

接收来自智能设备的目标指令，目标指令为与目标场景类型对应的指令，目标场景类型为通过用户手势指定的待识别对象属于的场景类型；

响应于目标指令，执行目标指令指示的目标处理动作，不同的场景类型对应不同的指令，不同的指令用于指示不同的处理动作。

通过上述方案，在终端设备接收到与智能设备识别到的场景类型对应的指令的情况下，用户无需对终端设备进行操作，终端设备能够快速执行该场景类型对应的处理动作，从而简化了用户的操作步骤。此外，由于不同场景对应不同的处理动作，因此扩展了智能识别场景的应用范围，满足了不同智能识别场景的使用需求。

在一种可能的实现方式中，目标场景类型为以下任意一项：

在一种可能的实现方式中，目标场景类型为文本识别场景。

相应地，响应于目标指令，执行目标处理动作，包括：

响应于目标指令，输出文本内容的识别结果，和/或存储文本内容的识别结果。

在一种可能的实现方式中，目标场景类型为智能识物场景。

相应地，响应于目标指令，执行目标处理动作，包括：

响应于目标指令，输出物体的属性的识别结果，和/或输出根据属性的识别结果生成的推荐内容。

在一种可能的实现方式中，目标场景类型为智慧出行场景。

相应地，响应于目标指令，执行目标处理动作，包括：

响应于目标指令，显示与场所的识别结果对应的身份识别码，身份识别码用于出入该场所。

在一种可能的实现方式中，目标指令包括：源信息、目标信息和数据信息。其中，源信息用于指示生成目标指令的智能设备及应用程序，目标信息用于指示接收目标指令的终端设备及应用程序，数据信息用于指示目标处理动作。

相应地，响应于目标指令，执行目标处理动作，包括：

响应于目标指令，运行目标信息指示的目标应用程序；

目标应用程序根据数据信息，执行目标处理动作；或者，目标应用程序根据源信息，从智能设备获取待识别对象的识别结果，并根据数据信息和待识别对象的识别结果，执行目标处理动作。

第三方面，本申请实施例提供一种基于手势的识别方法。该方法应用于服务器，包括：

接收来自智能设备的目标图像，目标图像包含用户手势以及通过用户手势指定的待识别对象；

确定用户手势为预设手势；

向智能设备发送目标场景类型。

通过上述方案，在服务器接收到来自智能眼镜的图像后，由服务器执行用户手势识别和场景类型识别，从而降低了对智能眼镜的数据处理能力和数据存储能力的要求，降低了智能眼镜的生产成本，并节约了智能眼镜的功耗。

在一种可能的实现方式中，目标场景类型为以下任意一项：

第四方面，本申请提供一种识别装置，该识别装置包括用于执行上述第一方面的方法的单元/模块。该识别装置可对应于执行上述第一方面描述的方法，该识别装置中的单元/模块的相关描述请参照上述第一方面的描述，为了简洁，在此不再赘述。

第五方面，本申请提供一种执行装置，该执行装置包括用于执行上述第二方面的方法的单元/模块。该执行装置可对应于执行上述第二方面描述的方法，该执行装置中的单元/模块的相关描述请参照上述第二方面的描述，为了简洁，在此不再赘述。

第六方面，提供一种智能设备，包括处理器、通信模块和存储器。该处理器与存储器、通信模块耦合。该处理器用于执行该存储器中存储的计算机程序或指令，以使得智能设备实现如第一方面中任一项的基于手势的识别方法。该通信模块为移动通信模块或无线通信模块，用于与终端设备、服务器交互数据。

第七方面，提供一种终端设备，包括处理器、通信模块和存储器。该处理器与存储器、通信模块耦合。该处理器用于执行该存储器中存储的计算机程序或指令，以使得终端设备实现如第二方面中任一项的基于手势的识别方法。该通信模块为移动通信模块或无线通信模块，用于与智能设备、服务器交互数据。

第八方面，提供一种服务器，包括处理器、通信模块和存储器。该处理器与存储器、通信模块耦合。该处理器用于执行该存储器中存储的计算机程序或指令，以使得服务器实现如第三方面中任一项的基于手势的识别方法。该通信模块用于与智能设备、终端设备交互数据。

第九方面，提供一种芯片。该芯片与存储器耦合。该芯片用于读取并执行该存储器中存储的计算机程序，以实现如第一方面至第三方面中任一项的基于手势的识别方法。

第十方面，提供一种计算机可读存储介质。该计算机可读存储介质存储有计算机程序。当该计算机程序在智能设备上运行时，使得智能设备执行如第一方面中任一项的基于手势的识别方法。或者，当该计算机程序在终端设备上运行时，使得终端设备执行如第二方面中任一项的基于手势的识别方法。或者，当该计算机程序在服务器上运行时，使得服务器执行如第三方面中任一项的基于手势的识别方法。

第十一方面，提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面至第三方面中任一项的基于手势的识别方法。

第十二方面，提供一种识别系统，包括：如第六方面的智能设备和如第七方面的终端设备；或者，包括：如第六方面的智能设备、如第七方面的终端设备和如第八方面的服务器。

可以理解的是，上述第四方面至第十二方面的有益效果可以参见上述第一方面至第三方面中的相关描述，在此不再赘述。

附图说明

图1为本申请实施例提供的一种智能系统的示意图；

图2为本申请实施例提供的智能眼镜的结构示意图；

图3为本申请实施例提供的手机的结构示意图；

图4为本申请实施例提供的基于手势的识别方法的流程示意图；

图5为本申请实施例提供的一种智能眼镜的硬件结构示意图；

图6为本申请实施例提供的另一种智能眼镜的硬件结构示意图；

图7为本申请实施例提供的对图像进行区域划分的示意图；

图8为本申请实施例提供的智能眼镜与多个终端设备连接的场景示意图；

图9为本申请实施例提供的三种预设手势的示意图；

图10为本申请实施例提供的一种场景识别的流程示意图；

图11为本申请实施例提供的另一种场景识别的流程示意图；

图12为本申请实施例提供的文本识别场景的场景示意图；

图13为本申请实施例提供的智能识物场景的场景示意图；

图14为本申请实施例提供的智慧出行场景的场景示意图；

图15为本申请实施例提供的智能设备和终端设备的架构示意图；

图16为本申请实施例提供的识别方法的模块交互时序图；

图17为本申请实施例提供的识别装置的结构示意图；

图18为本申请实施例提供的执行装置的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

用户在使用手机等电子设备时，可能会遇到不方便用手指直接接触电子设备的屏幕或物理按键来的情况。这时用户可以通过隔空手势来操作电子设备。

隔空手势是指用户的手部不接触电子设备，且手部与电子设备之间的距离大于或者等于预设距离阈值时的手势操作。电子设备可以利用摄像头、触摸屏、电磁感应器件、红外传感器和超声波传感器等检测部件，采集用户的手部形状、运动情况等信息，以检测隔空手势。该隔空手势可以包括但不限于静态手势和动态手势。其中，静态手势是指某一时刻手部的姿态，比如手指弯曲、收拢等，如OK手势、V手势或五指伸开的手势等。动态手势是指一段时间内手部的运动情况，包括运动方向、速度、手部姿态变化等，如挥动手势、平移手势或握拳手势等。

本申请实施例提供了一种基于手势的识别方法，应用于包括智能设备和终端设备的智能系统。当用户想要使用智能系统对某个待识别对象进行识别时，用户的手部做出隔空手势。智能设备通过图像采集模块（比如摄像头）采集包含用户手势和待识别对象的图像，并对用户手势和待识别对象进行图像识别，以确定待识别对象属于的识别场景，从而向终端设备发送与待识别对象属于的识别场景对应的指令，进而使得终端设备能够快速执行该指令所指示的处理动作。其中，不同的场景对应不同的指令，不同的指令指示不同的处理动作。一方面，与传统的接触屏幕的操作相比，用户通过一个隔空手势就能完成快速识别，提高了识别对象的效率。另一方面，智能系统扩展了传统识别场景的应用范围，满足了用户在不同识别场景下的识别需求，提升了在识别时用户的操作体验。

图1为本申请实施例提供的一种智能系统的示意图。

如图1所示，智能系统包括智能设备01和终端设备02。其中，智能设备01为智能系统的主设备，主要用于图像采集、手势识别、场景识别、指令生成、指令发送和场景信息提示等。终端设备02是智能系统的从设备，主要用于指令接收和指令执行，如数据记录和数据输出等。

智能设备01和终端设备02的形态相同或不同。在一种实现方式中，智能设备01可以是可穿戴设备（如智能眼镜或智能手表）、增强现实（augmented reality，AR）设备或虚拟现实（virtual reality，VR）设备等具备图像采集功能的电子设备。终端设备02可以是手机（mobile phone）、平板电脑（pad）、电视（television，TV）、个人计算机（personalcomputer，PC）、车载设备、游戏机、投影幕布或智慧屏等具备指令执行功能的电子设备。在另一种实现方式中，智能设备01和终端设备02可以均是手机、AR设备或VR设备等。当然，智能设备01和终端设备02也可以是其他任意可能的电子设备，本申请对此不作限定。

另外，智能设备01和终端设备02可以通过有线方式连接，也可以通过无线方式连接。其中，无线方式可以是蓝牙（bluetooth，BT）、无线保真（wireless fidelity，Wi-Fi）、近场通信（near field communication，NFC）或紫蜂（ZigBee）等短距离无线接入连接，还可以是新空口（new radio，NR）等移动接入技术连接，本申请对此不作限定。

需要说明的是，图1是以智能设备连接一个终端设备为例进行说明的，其并不对本申请实施例形成限定。可以理解，在实际实现时，智能设备可以连接多个终端设备。相应地，智能设备可以向多个终端设备中的每个终端设备分别发送指令。或者，智能设备也可以按照多个终端设备的优先级，向多个终端设备中的部分终端设备发送指令，比如向优先级最高的终端设备发送指令。

以智能设备为智能眼镜为例，图2示出了本申请实施例提供的智能眼镜的结构示意图。

如图2所示，智能眼镜可以包括：处理器210，摄像头220，存储器230，电源模块240，通信接口250，音频模块260，扬声器260A，麦克风260B，显示屏270，无线通信模块280，开关290以及天线等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括中央处理器（central processing unit，CPU），图像信号处理器（image signal processor，ISP），数字信号处理器（digital signal processor，DSP），视频编解码器，神经网络处理器（neural-network processing unit，NPU），图形处理器（graphics processing unit，GPU），应用处理器（application processor，AP），和/或调制解调处理器等。在一些实施例中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，CPU是信息处理、程序运行的最终执行单元，其主要工作包括处理指令、执行操作、控制时间和处理数据等。CPU可以包括控制器、运算器、高速缓冲存储器，以及用于连接这些部件的总线。在一些实施例中，在由摄像头220采集的图像传输至处理器210后，处理器210可以利用图像识别算法进行手势识别。在识别到的手势为预设手势的情况下，处理器210识别手势指向的被识别物体属于的场景，并通过无线通信模块280及天线向终端设备发送与场景对应的指令，以使得终端设备执行与指令对应的处理动作。

摄像头220可以用于捕获静态图像或视频。摄像头220可以设置在智能眼镜的镜架上。当用户想要使用智能眼镜进行智能识别时，可以通过麦克风260B输入语音，或者通过按压开关290，触发智能眼镜开启智能识别功能，进而启动摄像头220。被识别物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，智能眼镜可以包括一个或多个摄像头220。

存储器230，可以用于存储计算机可执行程序代码，可执行程序代码包括计算机指令。处理器210通过运行存储在存储器230的指令，从而执行各种功能应用以及数据处理。存储器230可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能（比如语音播放功能，拍照功能，智能识别功能等）所需的应用程序。存储数据区可存储智能眼镜使用过程中所创建的数据（比如识别到的场景数据）等。此外，存储器230可以包括高速随机存取存储器，还可以包括非易失性存储器等。

电源模块240，可以用于接收电源输入，储蓄电能，以及为处理器210、摄像头220、存储器230、音频模块260，扬声器260A，麦克风260B以及显示屏270等供电。在一些实施例中，由于电源模块240存储的电能有限，因此智能眼镜通常处于低功耗模式或关机模式，以节省电能。在用户触发操作下，智能眼镜开启智能识别功能，电源模块240启动正常功能模式，并为各个功能模块提供所需的电能。

通信接口250，可以用于与终端设备、路由器和U盘等外部设备通讯。通信接口250可以为网口或通用串行总线（universal serial bus，USB）接口等任意可能的接口。

智能眼镜可以通过音频模块260，扬声器260A，麦克风260B，以及应用处理器等实现音频功能。例如语音数据播放，拾音或录音等。

音频模块260，用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块260还可以用于对音频信号编码和解码。

扬声器260A，也称为“喇叭”，用于将音频电信号转换为声音信号。比如，当智能眼镜未与其他设备连接时，智能眼镜可以通过扬声器260A外放识别到的结果，例如通过扬声器260A外放用户当前所在的位置的地点名称。

麦克风260B，也称为“话筒”，“传声器”，用于将声音信号转换为电信号。当用户想要使用智能眼镜进行智能识别时，可以通过麦克风260B输入用户语音。然后，音频模块260将麦克风260B采集的模拟音频输入转换为数字音频信号，并发送至处理器210，从而处理器210响应于用户指令，开启智能识别功能。

显示屏270可以用于显示图像和视频等。在一些实施例中，显示屏270可以设置于智能眼镜的镜片的内表面上。在用户佩戴智能眼镜时，外界环境光可透过镜片进入人眼，镜片显示内容也可以进入人眼。

无线通信模块280可以提供应用在智能眼镜上的无线通信的解决方案。无线通信包括Wi-Fi、调频（frequency modulation，FM）、蓝牙或NFC等。无线通信模块280可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块280经由天线接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器210。无线通信模块280还可以从处理器210接收待发送的信号（比如与识别到的场景对应的指令），对其进行调频、放大，经天线转为电磁波辐射出去。

可以理解的是，本申请实施例示意的结构并不构成对智能眼镜的具体限定。在另一些实施例中，智能眼镜可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

以终端设备为手机为例，图3示出了本申请实施例提供的手机的结构示意图。

如图3所示，手机可以包括：处理器110，外部存储器接口120，内部存储器121，USB接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriber identification module，SIM）卡接口195等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，以及骨传导传感器180M等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括CPU，GPU，ISP，AP，DSP，NPU，调制解调处理器，存储器，视频编解码器和/或基带处理器等。处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110可以用于根据来自智能眼镜的指令，执行与指令对应的处理动作，比如在智慧出行场景显示乘车码、健康码或行程码等，在智能识物场景语音播放物体的名称等属性信息，在文本识别场景语音播放识别到的文本信息等。

手机的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。其中，天线1和天线2用于发射和接收电磁波信号。

移动通信模块150可以提供应用在手机上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器（lownoise amplifier，LNA）等。在一些实施例中，移动通信模块150可以由天线1接收来自其他设备的电磁波，并对电磁波进行滤波、放大等处理，传送至调制解调处理器进行解调，从而得到与识别场景对应的指令。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备输出声音信号（比如语音播放识别到的场景名称），或通过显示屏194显示图像或视频（比如显示支付二维码）。

无线通信模块160可以提供应用在手机上的包括无线局域网（wireless localarea networks，WLAN）（如Wi-Fi网络），蓝牙，全球导航卫星系统（global navigationsatellite system，GNSS），FM，NFC，红外技术（infrared，IR）等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。在一些实施例中，无线通信模块160经由天线2接收来智能眼镜等智能设备的电磁波，将电磁波信号调频以及滤波处理，得到与识别场景对应的指令。

手机通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。显示屏194用于显示图像和视频等，如显示二维码等。

可以理解，本申请实施例示意的结构并不构成对手机的具体限定。在另一些实施例中，手机可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

本申请实施例提供的基于手势的识别方法的执行主体可以为智能设备和终端设备，也可以为智能设备和终端设备中能够实现基于手势的识别方法的功能模块和/或功能实体，并且本申请方案能够通过硬件和/或软件的方式实现，本申请对此不作限定。下面以智能设备是智能眼镜，终端设备是手机为例，对本申请实施例提供的基于手势的识别方法进行示例说明。

图4为本申请实施例提供的基于手势的识别方法的流程示意图。如图4所示，该方法可以包括下述S41-S49。

S41、智能眼镜开启智能识别功能。

本申请实施例中，智能眼镜具有智能识别功能。智能识别功能是指对预设手势所指向的对象属于的场景类型进行识别的功能。

示例性地，智能识别功能包括：隔空手势的识别功能，以及对目标对象的场景类型的识别功能。其中，目标对象为由用户通过隔空手势指定的被拍摄对象（即待识别对象），比如印刷品中的文字和图画、建筑物、动植物、用品、道路标识牌和景区宣传栏等。在智能眼镜开启智能识别功能后，智能眼镜先开启隔空手势的识别功能，以对通过摄像头采集的图像包含的用户手势进行手势识别；再在识别到的用户手势为预设手势的情况下，对目标对象属于的场景类型进行识别，即开启对目标对象的场景类型的识别功能。

在一些实施例中，智能眼镜默认开启智能识别功能。智能眼镜持续通过摄像头采集图像，并对采集到的图像中包含的手势图像进行手势识别。

在另一些实施例中，智能眼镜默认关闭智能识别功能。在检测到用户的开启指示后，智能眼镜开启智能识别功能，并对摄像头采集的图像中包含的手势图像进行手势识别。其中，该开启指示可以是用户的语音指示，或者用户按压智能眼镜的开关的操作等。

在又一些实施例中，智能眼镜默认关闭智能识别功能。在自动检测到满足开启条件后，智能眼镜开启智能识别功能，并对摄像头采集的图像进行用户手势识别。其中，该开启条件可以是用户对智能眼镜的移动操作或佩戴操作等。例如，智能眼镜设置有陀螺仪传感器，智能眼镜通过陀螺仪传感器可以确定智能眼镜围绕三个轴（x，y和z轴）的角速度，进而根据角速度确定是否发生移动。再例如，智能眼镜设置有压力传感器，当用户佩戴上智能眼镜时，头部会挤压压力传感器，从而压力传感器感受压力信号，并将压力信号转换成电信号，进而智能眼镜可以确定是否被用户佩戴。

S42、智能眼镜通过摄像头采集图像。

在本申请实施例中，至少一个摄像头设置在智能眼镜的镜架的第一表面上，第一表面为背离用户面部的一面。应理解，由于至少一个摄像头背离用户面部，因此在用户佩戴上智能眼镜时，至少一个摄像头的拍摄视角与用户的视角基本一致。当用户想要使用智能眼镜进行识别时，可以伸出手臂，将手部指向待识别的目标对象，从而至少一个摄像头将采集到包含用户手势及目标对象的图像。

示例性地，图5示出了本申请实施例提供的一种智能眼镜的硬件结构示意图。如图5所示，智能眼镜包括镜架011、摄像头012、右眼镜片013和左眼镜片014。右眼镜片013和左眼镜片014承载于镜架011上。摄像头012设置在镜架011的第一表面上，且摄像头012位于右眼镜片013和左眼镜片014之间。在用户佩戴上智能眼镜的情况下，若用户将手部指向目标对象03，且目标对象03位于摄像头012的拍摄视角内，则摄像头012将采集到包含用户手势及目标对象03的图像。

再示例性地，图6示出了本申请实施例提供的另一种智能眼镜的硬件结构示意图。如图6所示，智能眼镜包括镜架011、右眼镜片013、左眼镜片014、摄像头015和摄像头016。右眼镜片013和左眼镜片014承载于镜架011上。摄像头015和摄像头016设置在镜架011的第一表面上，且摄像头015设置在右眼镜片013的正上方，摄像头016设置在左眼镜片016的正上方。在用户佩戴上智能眼镜的情况下，若用户将手部指向目标对象03，且目标对象03位于摄像头015和摄像头016的拍摄视角内，则摄像头015和摄像头016将采集到包含用户手势及目标对象03的图像。在一些实施例中，摄像头015和摄像头016的拍摄视角包含两个摄像头的共同拍摄视角和非共同拍摄视角。由于身体角度、目标对象视角等特殊原因，用户手势及目标对象03可能分别位于不同摄像头的拍摄视角内，此时智能眼镜可能无法确定出用户手势指向的对象，因此智能眼镜可以对两个摄像头采集的图像进行拼接，进而从拼接图像中识别出用户手势及用户手势指向的目标对象。

S43、智能眼镜识别图像包含的用户手势。

若智能眼镜通过一个摄像头采集图像，则智能眼镜对该图像包含的用户手势进行识别。若智能眼镜通过多个摄像头采集图像，则智能眼镜对多个摄像头采集的图像进行拼接得到拼接图像，并对拼接图像包含的用户手势进行识别。其中，由一个或多个摄像头采集的图像可以是静态图片，或由多个视频帧组成的视频。

S44、智能眼镜判断识别到的用户手势是否为预设手势。在识别到的用户手势为预设手势的情况下，智能眼镜执行下述S45；否则，继续通过摄像头采集图像。

在一些实施例中，智能眼镜预先存储了预设手势识别算法及预设手势。智能眼镜可以通过预设手势识别算法对用户手势进行识别，以确定采集到的用户手势是否为预设手势。其中，用户手势包括手部姿态、手部形状、手部与智能眼镜的相对位置、手部的移动速度、手部的移动轨迹、手部的移动距离等中的一种或多种。需要说明的是，下述实施例是以手部姿态和手部形状为例进行说明的，例如，如图9所示的预设手势041、预设手势042和预设手势043，其并不对本申请实施例形成限定。

示例性地，智能眼镜可以采用卷积神经网络（convolutional neural network，CNN）对摄像头采集到的大量图像进行训练，大量图像包含了多种不同姿态和形状的手部图像以及与手部图像对应的手势标签。在将摄像头采集到的图像输入到CNN后，若CNN输出的标签为预设手势标签，则智能眼镜确定检测到的用户手势为预设手势。当然，智能眼镜还可以采用其他图像识别算法对用户手势进行识别，本申请实施例不作限定。

在一些实施例中，由于智能眼镜通过摄像头采集的图像可能包含佩戴智能眼镜的用户的手部图像，也有可能包含其他用户的手部图像。若是其他用户的手势与预设手势相符，则智能眼镜可能会将其他用户的手势误判为佩戴智能眼镜的用户的手势，导致误执行下述S45。

为了避免此问题，在采用CNN进行训练时，可以对佩戴智能眼镜的用户的手部特征进行标记。手部特征可以包括手纹特征、指纹特征、手部三维轮廓特征、手部的关键点特征和手部皮肤特征等特征中的一项或多项。在摄像头采集到的图像输入CNN后，CNN对用户手势及手部特征进行识别。如果CNN识别到的用户手势为预设手势，且识别到的手部特征符合预先标记的手部特征，则执行下述S45；否则，继续通过摄像头采集图像。

S45、智能眼镜识别图像的场景类型。

智能眼镜采集的图像分为两个部分：包含用户手势的区域、包含目标对象的区域。因此，智能眼镜可以先分离出包含用户手势的区域，对包含用户手势的区域进行识别，以识别出用户手势。再在识别到的用户手势为预设手势的情况下，智能眼镜对包含目标对象的区域进行识别，以确定目标对象属于的场景类型，即开启对目标对象的场景类型的识别功能。

在一种实现方式中，智能眼镜根据采集的图像的纹理、颜色和/或语义等信息，从图像分离出包含用户手势的图像区域，对用户手势的图像进行识别。然后，智能眼镜将除该图像区域外的其他图像区域作为包含目标对象的区域，并对包含目标对象的区域进行识别，以确定目标对象属于的场景类型。

在另一种实现方式中，智能眼镜根据采集的图像的纹理、颜色和/或语义等信息进行区域分割，得到多个区域，比如得到如图7所示的区域x1、区域x2和区域x3。智能眼镜将各个区域的图像分别输入CNN。由于区域x2对应的图像输入CNN后，CNN输出的标签为预设手势标签，则智能眼镜确定检测到的用户手势为预设手势。然后，智能眼镜根据用户手势指向的方向，比如食指的指向F1，确定区域x1为包含目标对象的区域，并对区域x1进行识别，以确定目标对象属于的场景类型。需要说明的是，由于区域x3不包含用户手势或待识别对象，因此区域x3为无效区域。

在一些实施例中，智能眼镜可以预先存储场景类型识别算法及多种场景类型。智能眼镜采用场景类型识别算法进行场景类型识别，以确定目标对象属于的场景类型。其中，场景类型识别算法可以是CNN算法、光学字符识别（optical character recognition，OCR）算法或其他任意算法等，本申请实施例不作限定。

本申请实施例主要提供了三种场景类型：文本识别场景、智能识物场景和智慧出行场景。其中，文本识别场景是指对期刊、杂志、报纸、课本、产品说明书及电子书等以文字、字符、图画和图像形式呈现的文本内容进行识别的场景。智能识物场景是指对建筑物、动植物、用品和道路标识牌等物体的名称、类别、功能、尺寸、体积及容量等属性进行识别的场景。智慧出行场景是指对用户即将采用某种交通工具出行或即将进入某些场所时，对这些场所进行识别的场景等需要展示乘车码、健康码或行程码等身份识别码的事件进行识别的场景。

示例性地，智能眼镜可以采用CNN对摄像头采集到的大量图像进行训练，大量图像包含了多种不同场景的图像以及对各个图像标记的场景标签。在包含目标对象的区域输入CNN后，CNN输出场景标签，该场景标签可以用于指示目标对象属于的场景。例如，标签1用于指示文本识别场景，标签2用于指示智能识物场景，标签3用于指示智慧出行场景。

S46、智能眼镜检测是否连接终端设备。在智能眼镜连接终端设备的情况下，智能眼镜执行下述S47；否则，执行S48。

在智能眼镜识别出目标对象属于的场景类型（可称为目标场景类型）后，智能眼镜可以检测是否连接终端设备，并生成与场景类型对应的指令。其中，不同场景对应不同的指令，不同指令用于指示不同的处理动作。

在一些实施例中，智能眼镜先检测是否连接终端设备，再根据检测结果生成不同的指令。

示例性地，一种场景为，在检测到智能眼镜连接终端设备的情况下，智能眼镜生成第一指令，并向终端设备发送第一指令，其中，第一指令包括源信息、目标信息和数据信息，源信息用于指示生成指令的设备及应用程序，目标信息用于指示接收指令的设备及应用程序，数据信息用于指示处理动作、识别到的图像内容、以及识别到的图像内容的关联内容等中的至少一项。另一种场景为，在检测到智能眼镜未连接终端设备的情况下，智能眼镜生成第二指令，并根据第二指令包含的数据信息，输出识别到的图像内容和/或识别到的图像内容的关联内容。其中，第二指令包含的数据信息用于指示识别到的图像内容和/或识别到的图像内容的关联内容。

在另一些实施例中，智能眼镜先生成指令，再检测是否连接终端设备。

示例性地，智能眼镜生成第一指令，该第一指令包括源信息、目标信息和数据信息，其中，源信息用于指示生成指令的设备及应用程序，目标信息用于指示接收指令的设备及应用程序，数据信息用于指示处理动作、识别到的图像内容、以及识别到的图像内容的关联内容等中的至少一项。然后，智能眼镜检测是否连接终端设备。一种场景为，在检测到智能眼镜连接终端设备的情况下，智能眼镜向终端设备发送第一指令。另一种场景为，在检测到智能眼镜未连接终端设备的情况下，智能眼镜仅读取第一指令的数据信息，并根据数据信息输出识别到的图像内容和/或识别到的图像内容的关联内容。

作为一种示例，表1示出了几种场景类型、指令和处理动作的对应关系表。参照表1，当智能眼镜识别到的场景类型不同时，智能眼镜可以生成包含不同数据信息的指令，从而使得与智能眼镜连接的终端设备执行不同的处理动作。

表1

S47、智能眼镜向终端设备发送与识别到的场景类型对应的指令。

S48、终端设备响应于指令，执行对应的处理动作。

在一些实施例中，智能眼镜可能连接至多个终端设备。

一种实现方式为，智能眼镜向多个终端设备中的每个终端设备分别发送相同的指令，以使得每个终端设备分别响应于该指令，执行该指令对应的处理动作。

示例性地，以期刊内容识别场景为例。假设智能眼镜与音响设备a、音响设备b和音响设备c通过Wi-Fi连接。智能眼镜向音响设备a、音响设备b和音响设备c分别发送指令1。其中，指令1用于指示音响设备语音播放识别到的图片内容，比如点读、跟读或复读图片内容。

另一种实现方式中，智能眼镜根据多个终端设备的设备类型和/或优先级等信息生成不同的指令，并向每个终端设备分别发送对应的指令，从而使得每个终端设备分别执行与指令对应的处理动作。

示例性地，以期刊内容识别场景为例。假设智能眼镜与投影幕布、音响设备和计算机设备通过Wi-Fi连接。在智能眼镜采用OCR算法对图片内容识别后，智能眼镜向投影幕布发送指令1-1，向音响设备发送指令1-2，并向计算机设备发送指令1-3。其中，指令1-1用于指示投影幕布显示识别到的图片内容；指令1-2用于指示音响设备语音播放识别到的图片内容，比如点读、跟读或复读图片内容；指令1-3用于指示计算机设备在后台记录识别到的图片内容，比如高频词汇等。

再一种实现方式为，智能眼镜向多个终端设备中符合第一优先级的终端设备发送指令，以使得符合第一优先级的终端设备执行指令对应的处理动作。其中，各个终端设备的优先级用于指示执行指令的先后顺序。

示例性地，以第一优先级为最高优先级，且智能眼镜与终端设备通过蓝牙连接为例进行说明。图8示出了智能眼镜与多个终端设备连接的场景示意图。假设智能眼镜01预先存储了多个终端设备的优先级，优先级由高到低依次是：手机02a、智慧屏02b、手表02c。如图8所示，智能眼镜01可以检测到与智慧屏02b和手表02c保持蓝牙连接，与手机02a断开了蓝牙连接。尽管手机02a的优先级最高，但是由于手机02a与智能眼镜01断开了蓝牙连接，且智慧屏02b的优先级高于手表02c的优先级，因此智能眼镜01可以向智慧屏02b送指令，从而智慧屏02b响应于指令，通过该指令指示的应用程序执行对应的处理动作。

需要说明的是，上述文本识别场景、智能识物场景和智慧出行场景这三种场景类型中的每种场景类型，可以包括多个子场景。针对同一种场景类型的多个子场景，每个子场景对应不同的指令，相应地，不同的指令对应不同的处理动作。例如，以智慧出行场景为例，若是地铁出行子场景，则智能眼镜向终端设备发送指令3-1，用于指令终端设备的支付应用显示地铁乘车码；若是公交出行子场景，则智能眼镜向终端设备发送指令3-2，用于指令终端设备的支付应用显示公交乘车码；若是进入商场子场景，则智能眼镜向终端设备发送指令3-3，用于指令终端设备的支付应用显示健康码和行程码。

S49、智能眼镜输出与识别到的场景类型关联的识别结果。

在智能眼镜未与终端设备连接的情况下，智能眼镜可以通过扬声器语音播放识别到的图像内容和/或识别到的图像内容的关联内容，或者，在显示屏中显示识别到的图像内容和/或识别到的图像内容的关联内容。

本申请实施例提供的识别方法，智能眼镜通过摄像头采集包含用户手势和目标对象的图像，并对用户手势和目标对象进行识别，从而确定了目标对象属于的场景类型，进而使得终端设备能够快速执行该场景类型对应的处理动作。由于不同场景对应不同的处理动作，因此利用由智能眼镜和终端设备组成的智能系统实现了对多种场景的识别，从而扩展了智能识别场景的应用范围，满足了不同智能识别场景的使用需求。另外，相对于传统的识别技术，用户通过一个隔空手势就能完成快速识别，简化了操作步骤，提升了在智能识别时用户的操作体验。

上述实施例是以智能眼镜执行用户手势识别和场景类型识别为例进行说明的。这些识别对智能眼镜的数据处理能力和数据存储能力有一定要求。在某些情况下，智能眼镜的数据处理能力和数据存储能力可能无法满足识别需求，为了解决这一问题，本申请实施例提供了另外一种实现方式。仍如图4所示，作为与S43-S45并列的步骤，本申请提供的识别算法还可以包括S51-S55。

S51、在智能眼镜采集到图像后，智能眼镜向服务器发送采集的图像。

S52、服务器识别图像包含的用户手势。

若智能眼镜通过一个摄像头采集图像，则智能眼镜直接向服务器发送通过一个摄像头采集的图像，服务器对图像包含的用户手势进行识别。

若智能眼镜通过多个摄像头采集图像，则智能眼镜对多个摄像头采集的图像进行拼接得到拼接图像，并向服务器发送拼接图像，从而服务器对拼接图像包含的用户手势进行识别。或者，智能眼镜向服务器发送通过多个摄像头采集的图像，服务器对多个摄像头采集的图像进行拼接得到拼接图像，并对拼接图像包含的用户手势进行识别。

S53、服务器判断识别到的用户手势是否为预设手势。在识别到的用户手势为预设手势的情况下，服务器执行下述S54；否则结束步骤。

在一些实施例中，服务器预先存储了预设手势识别算法及预设手势。服务器可以通过预设手势识别算法对用户手势进行识别，以确定采集到的用户手势是否为预设手势。其中，用户手势包括手部姿态、手部形状、手部与智能眼镜的相对位置、手部的移动速度、手部的移动轨迹、手部的移动距离等中的一种或多种。其中，预设手势识别算法可以是CNN算法或其他图像识别算法。对于CNN算法与上述S44的描述类似，此处不再赘述。

在一些实施例中，由于智能眼镜通过摄像头采集图像可能包含佩戴智能眼镜的用户的手部图像，也有可能包含其他用户的手部图像。若是其他用户的手势与预设手势相符，则服务器可能会将其他用户的手势误判为佩戴智能眼镜的用户的手势，导致误执行下述S54。

为了避免此问题，在服务器采用CNN进行训练时，可以对不同用户的手部特征进行标记，并绑定每个智能设备与使用每个智能设备的用户，比如绑定智能眼镜与用户a。手部特征可以包括手纹特征、指纹特征、手部三维轮廓特征、手部的关键点特征和手部皮肤特征中的一项或多项。在由智能眼镜采集到的图像输入CNN后，CNN对用户手势及手部特征进行识别。如果识别到的用户手势为预设手势，且识别到的手部特征符合预先标记的用户a的手部特征，则执行下述S54；否则结束步骤。

S54、服务器识别图像的场景类型。

服务器可以预先存储场景类型识别算法及多种场景类型。服务器采用场景类型识别算法进行场景类型识别，以确定目标对象属于的场景类型。其中，场景类型识别算法可以是CNN算法、OCR算法或其他任意算法等，本申请实施例不作限定。对于服务器识别场景类型的实现方式，与上述S45类似，此处不再赘述。

S55、服务器向智能眼镜发送识别到的场景类型。

在服务器识别到的场景类型为某些特殊的场景类型的情况下，服务器还可以获取与目标对象关联的信息，并向智能眼镜发送该信息，从而智能眼镜可以在生成的指令中携带这些信息。例如，以建筑物识别场景为例，服务器可以获取建筑物的名称、高度、建成年代、设计师和用途等。再例如，以动植物识别场景为例，服务器可以获取动植物的名称、形态特征、属于的纲目、分布区域和生长属性等。

本申请实施例提供的识别方法，在智能眼镜采集图像后，由服务器执行用户手势识别和场景类型识别，这样降低了对智能眼镜的数据处理能力和数据存储能力的要求，降低了智能眼镜的生产成本，并节约了智能眼镜的功耗。

在某些情况下，智能眼镜采集的图像所包含的内容可能符合预设类型中的至少两种场景类型。比如，当一张图像的内容为地铁口时，地铁口属于建筑物，符合智能识别场景；另外，地铁口与地铁乘车事件密切相关，也符合智慧出行场景。因此，智能眼镜或服务器可能同时识别到智能识物场景和智慧出行场景。在实际上可能仅有一种场景类型符合用户需求。

为了更好的满足用户需求，本申请实施例提供如下几种解决方案。

解决方案1：

预先设置预设手势与场景类型的对应关系，不同预设手势用于指示识别不同的场景类型。智能眼镜或服务器仅对符合预设手势的场景类型进行识别。

示例性地，图9示出了本申请实施例提供的三种预设手势：预设手势041、预设手势042和预设手势043。其中，预设手势041为五指伸开的手势，用于指示文本识别场景。预设手势042为双指伸开的手势，用于指示智能识物场景。预设手势043为单指伸开的手势，用于指示智慧出行场景。

结合图9，如图10所示，为本申请实施例提供的一种场景识别的流程示意图。在智能眼镜开启智能识别功能后，用户根据想要识别的场景，在目标对象前做出特定手势（例如将手指指向目标对象），从而智能眼镜通过摄像头采集到包含用户手势的图像。

以智能眼镜执行用户手势识别和场景类型识别为例进行说明。智能眼镜对采集的图像进行用户手势识别。一种情形为，如果识别到的用户手势符合预设手势041，那么智能眼镜对目标对象进行场景识别，并判断识别到的场景是否符合识别文本识别场景。在符合识别文本识别场景的情况下，智能眼镜生成指令1。另一种情形为，如果识别到的用户手势符合预设手势042，那么智能眼镜对目标对象进行场景识别，并判断识别到的场景是否符合智能识物场景。在符合智能识物场景的情况下，智能眼镜生成指令2。再一种情形为，如果识别到的用户手势符合预设手势043，那么智能眼镜对目标对象进行场景识别，并判断识别到的场景是否符合智慧出行场景。在符合智慧出行场景的情况下，智能眼镜生成指令3。

应理解，通过设置预设手势与场景类型的对应关系，使得在用户做出某种预设手势的情况下，智能眼镜或服务器仅对与该预设手势对应的场景类型进行识别，避免由于出现同时符合多种场景类型而导致计算量大的问题，提升计算准确性。

解决方案2：

智能眼镜或服务器对所有场景类型进行识别。在识别到的场景类型符合至少两种类型的情况下，智能眼镜输出提示信息，以提醒用户从至少两种类型中选择一种场景类型。

示例性地，图11本申请实施例提供的另一种场景识别的流程示意图。在智能眼镜开启智能识别功能后，用户在目标对象前做出预设手势，从而智能眼镜通过摄像头采集到包含用户手势的图像。以智能眼镜执行用户手势识别和场景类型识别为例进行说明。智能眼镜对采集到的图像进行用户手势识别。如果识别到的用户手势符合多种预设手势中的任意一种，那么智能眼镜将识别图像的场景类型。如图11所示，假设识别到的场景类型同时符合文本识别场景、智能识物场景和智慧出行场景，那么智能眼镜将通过扬声器语音输出“文本识别场景”、“智能识物场景”和“智慧出行场景”。用户可以通过对智能眼镜的触控操作或者语音输入等方式，从三种场景中选择一种场景，从而智能眼镜生成与该场景对应的指令。比如，用户选择智能识物场景，则智能眼镜生成指令2。

应理解，在识别到的场景类型符合至少两种类型的情况下，通过输出提示信息，使得用户可以从中选择一种符合心意的场景类型，提升用户使用体验。

为了更清楚地理解文本识别场景、智能识物场景和智慧出行场景，下面将通过示例1、示例2和示例3对这三种场景类型进行说明。

示例1，图12示出了本申请实施例提供的文本识别场景的场景示意图。

用户佩戴智能眼镜01阅读一本英文读物。当用户不认识英文读物中的单词06时，用户按压智能眼镜01的开关，智能眼镜01开启智能识别功能，通过摄像头采集图像。用户伸出手臂，五指展开，并将五指指尖指向单词06，从而呈现出手势05。摄像头采集包含手势05及单词06的图像。智能眼镜01根据图像的纹理、颜色和/或语义等信息，从图像分离出包含手势05的区域，并将包含手势05的区域输入到用于手势识别的CNN。如果用于手势识别的CNN输出与如图9所示的预设手势041对应的标签，那么确定手势05与预设手势041相符。智能眼镜01根据手势05指向的方向，比如五指指尖的指向，确定包含单词06的图像区域，并将包含单词06的图像区域输入到用于场景识别的CNN。如果用于场景识别的CNN输出用于指示文本识别场景的标签，单词06与文本识别场景符合，那么智能眼镜01确定当前场景为文本识别场景。另外，智能眼镜01可以通过搜索数据库等方式获取单词06的释义和读音。

然后，智能眼镜01检测是否在局域网内与终端设备连接。如果检测到在局域网内与智慧屏07连接，那么智能眼镜01生成指令，比如指令请求包。智能眼镜01向智慧屏07发送指令请求包，如发送send message=START com.hihonor.xxx。在智慧屏07接收到指令请求包后，智慧屏07打开多媒体播放应用程序，通过屏幕显示单词06的释义，并通过扬声器语音播放单词06的读音。此外，智慧屏还可以通过存储器记录、存储扫描内容，对扫描内容进行数据分析，为用户后续学习提供学习建议等。

示例性地，指令请求包由下述信息组成：

数据信息，用于指示处理动作、识别到的图像内容、以及识别到的图像内容的关联内容等中的至少一项。比如，数据信息用于指示在屏幕中显示单词06的释义，通过扬声器语音播放单词06的读音，以及在存储器中存储单词06。

源信息，用于指示生成指令的设备及应用程序。比如，源信息为com.hihonor.xxx1，com.hihonor.xxx1表示智能眼镜01的眼镜应用程序。

目标信息，用于指示接收指令的设备及应用程序。比如，目标信息为com.hihonor.xxx2，com.hihonor.xxx2表示智慧屏07的多媒体播放应用程序。

需要说明的是，上述实施例是以智慧屏获取单词的释义和读音为例进行说明的。本申请实施例还提供另一种实现方式，智慧屏在指令的数据信息中记录识别到的目标对象，然后由终端设备搜索与目标对象关联的信息。

本申请采用了智慧屏与终端设备的互动方式进行智能识别。与传统的点读笔方式相比，本申请实施例具备下述优点：用户无需手持点读笔进行扫描，仅通过一个隔空手势就能完成快速识别，降低了用户操作的难度。智慧屏还可以对扫描内容进行数据分析，为用户后续学习提供建议。另外，智慧屏的屏幕尺寸更大，便于用户阅读。

示例2，图13示出了本申请实施例提供的智能识物场景的场景示意图。该智能识物场景具体为道路标识牌识别场景。

在用户驾驶汽车出行时，通常路侧会设置各种各样的道路标识牌，例如，如图13所示的道路标识牌08。用户可能不认识道路标识牌08中的图形标识代表的含义，或者用户想要获取从当前位置到道路标识牌08中指示的目标位置的最优行驶线路。在这种情况下，用户可以按压智能眼镜01的开关，智能眼镜01开启智能识别功能，通过摄像头采集图像。用户伸出手臂，展开食指和中指，并将双指指尖指向道路标识牌08，从而呈现出手势09。摄像头采集包含手势09及道路标识牌08的图像。智能眼镜01根据图像的纹理、颜色和/或语义等信息，从图像分离出包含手势09的区域，并将包含手势09的区域输入到用于手势识别的CNN。如果用于手势识别的CNN输出与如图9所示的预设手势042对应的标签，那么手势09与预设手势042相符。智能眼镜01根据手势09指向的方向，比如双指指尖的指向，确定包含道路标识牌08的区域，并将包含道路标识牌08的区域输入到用于场景识别的CNN。如果用于场景识别的CNN输出用于指示道路标识牌识别场景的标签2，道路标识牌08与道路标识牌识别场景符合，那么智能眼镜01确定当前场景为道路标识牌识别场景。

然后，智能眼镜01检测是否在局域网内与终端设备连接。如果检测到在局域网内与车载设备10连接，那么智能眼镜01生成指令，比如指令请求包。智能眼镜01向车载设备10发送指令请求包，如发送send message=START com.hihonor.xxx。

以道路标识牌08包含目标位置为例，在车载设备10接收到包含目标位置的指令请求包后，通过地图应用程序根据车辆的当前位置和标识牌指示的目标位置，规划从当前位置到目标位置用时最短和/或路况最佳的目标路线，并显示如图13所示的目标路线，从而用户能够按照目标路线驾驶车辆前往目标位置。

示例性地，指令请求包由下述信息组成：

数据信息，用于指示目标位置。

目标信息，用于指示接收指令的设备及应用程序。比如，目标信息为com.hihonor.xxx2，com.hihonor.xxx3表示车载设备10的地图应用程序。

再以道路标识牌08包含图形标识为例，在车载设备10接收到包含图形标识代表的含义的指令请求包后，车载设备10的多媒体播放应用程序在屏幕中显示图形标识代表的含义，和/或通过扬声器语音播放图形标识代表的含义。

示例性地，指令请求包由下述信息组成：

数据信息，用于指示图形标识代表的含义。如禁止车辆掉头、与前方出口的距离等。

目标信息，用于指示接收指令的设备及应用程序。比如，目标信息为com.hihonor.xxx2，com.hihonor.xxx3表示载设备10的多媒体播放应用程序。

本申请采用了智慧屏与终端设备的互动方式进行智能识别。与传统的手机拍照识物功能仅能输出物体名称相比，本申请实施例具备下述优点：一方面，用户无需手持手机进行拍照，仅通过一个隔空手势就能完成快速识物，降低了用户操作的难度，特别是提高了用户开车等特殊场景的安全性。另一方面，本申请将智能识物场景划分为多种子场景，每种场景对应的处理动作也各不相同，满足了不同的识物需求。

示例3，图14示出了本申请实施例提供的智慧出行场景的场景示意图。

在用户乘坐地铁、公交和公共自行车等公共交通工具出行时需要展示乘车支付码，或者是在进入地铁、商场、工作单位和小区等场所时需要展示健康码，或者在购物付款时需要展示付款码。以乘坐地铁出行事件为例，用户可以按压智能眼镜01的开关，智能眼镜01开启智能识别功能，通过摄像头采集图像。用户伸出手臂，并将食指指尖指向与地铁出行事件关联的地铁站12，从而呈现出手势11。摄像头采集包含手势11及地铁站12的图像。智能眼镜01根据图像的纹理、颜色和/或语义等信息，从图像分离出包含手势11的区域，并将包含手势11的区域输入到用于手势识别的CNN。如果用于手势识别的CNN输出与如图9所示的预设手势043对应的标签，那么手势11与预设手势043相符。智能眼镜01根据手势11指向的方向，比如食指指尖的指向，确定包含地铁站12的区域，并将包含地铁站12的区域输入到用于场景识别的CNN。如果用于场景识别的CNN输出用于指示智慧出行场景的标签3，地铁站12与智慧出行场景符合，那么智能眼镜01确定当前场景为智慧出行场景。

然后，智能眼镜01检测是否在局域网内与终端设备连接。如果检测到在局域网内与手机13连接，那么智能眼镜01生成指令，比如指令请求包。智能眼镜01向手机13发送指令请求包，如发送send message=START com.hihonor.xxx。在手机13接收到包含地点类型的指令请求包后，打开支付应用程序，显示健康码和支付二维码等身份识别码。

示例性地，指令请求包由下述信息组成：

数据信息，用于指示用户当前所在位置的地点类型。比如，地铁subway，公交bus，火车train或公交站station等。

目标信息，用于指示接收指令的设备及应用程序。比如，目标信息为com.hihonor.xxx2，com.hihonor.xxx4表示手机13的支付应用程序。

本申请采用了智慧屏与终端设备的互动方式进行智能识别。与传统的手动打开二维码、健康码的方式相比，本申请实施例具备下述优点：用户无需对手机进行多步骤操作，仅通过一个隔空手势就能完成智慧出行场景识别，并在手机直接显示健康码和支付二维码等身份识别码，降低了用户操作的难度，提高了显示身份识别码的速度。

上述实施例是从智能设备和终端设备的角度对本申请实施例提供的方案进行了介绍。可以理解的是，智能设备和终端设备为了实现上述功能，其包含了执行每个功能相应的硬件结构和/或软件模块。下面将结合图15和图16，从智能设备和终端设备包含的功能模块的角度，对本申请实施例提供的识别方法进行详细说明。

图15示出了本申请实施例提供的智能设备和终端设备的架构示意图。相应地，图16示出了本申请实施例提供的识别方法的模块交互时序图。

图15所示，智能设备是智能系统的主设备，终端设备是智能系统的从设备。智能设备和终端设备的架构，从上至下依次均包括：应用层（application，APP）、框架层（framework，FWK）、硬件抽象层（hardware abstract layer，HAL）、以及内核层（kernel）。其中，每层都有清晰的角色和分工，层与层之间通过接口通信。

针对智能设备：

应用层包括入口管理模块、数据存储模块和数据处理模块。其中，入口管理模块包括融合有手势识别算法（比如深度学习CNN算法）的手势识别模块，以及搭载了场景识别算法的自动识物模块。数据存储模块用于将识别到的数据信息转化为二进制。数据处理模块包含数据处理单元和指令请求单元，数据处理单元用于采用图像识别算法对图像进行识别处理，指令请求单元用于生成包含数据信息和应用信息的指令请求包。

框架层包括活动管理服务（activity manager service，AMS）模块。AMS模块用于为数据存储模块提供服务接口。

硬件抽象层包括数据存储HAL模块。数据存储HAL模块用于作为AMS模块和安全数码（secure digital memory，SD）卡之间的服务接口，包括硬件抽象层接口定义语言（HALinterface definition language，HIDL）设置（set）模块和HIDL获取（get）模块。

内核层包括用于存储识别到的数据信息的SD卡。

针对终端设备：

应用层包括数据处理模块和结果显示模块。其中，数据处理模块包括指令接收单元和响应处理单元，指令单元用于获取指令响应包，数据包响应处理单元用于对指令响应包进行处理。指令响应包包括了数据传输响应包和应用传输响应包。结果显示模块用于根据数据处理模块的处理结果，显示相关内容。

框架层包括AMS模块。AMS用于为数据处理模块提供服务接口。

硬件抽象层包括为框架层和内核层间传输指令设置的指令处理接口。

内核层包括与SD卡等对应的功能器件，用于将SD卡中的数据信息通过指令处理接口传输至结果显示模块。

如图16所示，该方法可以包括下述的A1-A10。

A1．入口管理模块启动智能识别功能，并向数据处理单元通知启动事件。

其中，启动事件用于指示已经启动智能识别功能。

启动智能识别功能包括：启动手势识别模块的隔空手势识别功能，以及启动自动识物模块的场景类型识别功能。其中，手势识别模块存储有手势识别算法及预设手势，自动识物模块存储有用于场景识别算法及预设场景。

A2．数据处理单元对摄像头采集的图像进行用户手势识别，并判断识别到的用户手势是否为预设手势。在识别到的手势为预设手势的情况下，识别图像的场景类型。之后，数据处理单元可以执行下述A3和A5。

A3．数据处理单元通过数据存储模块将识别到的数据信息或识别结果，转化为二进制信息。

A4．数据存储模块调用AMS模块和数据存储HAL模块，在SD卡中存储转化得到的二进制信息。

A5．指令请求单元根据数据处理单元的识别结果，生成指令请求包。其中，指令请求包括了智能眼镜的应用信息、终端设备的应用信息和数据信息。

A6．指令请求单元向指令接收单元发送指令请求包。

A7．指令接收单元对接收到指令请求包进行解析，得到数据传输响应包和应用传输响应包。其中，数据传输响应包包含了数据信息，应用传输响应包包含了终端设备的应用信息。

A8．指令接收单元将数据传输响应包和应用传输响应包发送至响应处理单元。

A9．响应处理单元调用AMS模块、指令处理接口及对应功能器件，从SD卡获取二进制信息，并根据二进制信息生成待显示内容。或者，响应处理单元直接根据数据传输响应包和应用传输响应包，生成待显示内容。

A10．响应处理单元通过结果显示模块显示待显示内容。例如，在文本识别场景，在多媒体播放应用程序的界面中显示文本的释义。再例如，在智慧出行场景下，在支付应用程序的界面中显示健康码和支付二维码等身份识别码等。

对于上述A1-A10的具体实现方式，可以参照上述实施例的描述，此处不再赘述。

本申请实施例可以根据上述方法示例对智能设备和终端设备进行功能模块的划分，例如，可以对应每一个功能划分每一个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以采用对应每一个功能划分每一个功能模块为例进行说明。

图17为本申请实施例提供的识别装置的结构示意图。如图17所示，该识别装置700可以包括采集模块701、识别模块702、处理模块703和传输模块704。

采集模块701，用于在开启智能识别功能的情况下采集图像。

识别模块702，用于识别图像包含的用户手势，并在识别到的用户手势为预设手势的情况下，识别图像的场景类型。

处理模块703，用于生成与识别到的场景类型对应的指令。

传输模块704，用于在智能眼镜连接终端设备的情况下，向终端设备发送该指令。

处理模块703，还用于在智能眼镜未连接终端设备的情况下，响应于指令，执行对应的处理动作。

在一些实施例中，识别模块702具体用于从采集的图像中分离出包含用户手势的区域，对包含用户手势的区域进行识别，以识别出用户手势；并在识别到的用户手势为预设手势的情况下，开启对目标对象的场景类型的识别功能，对包含目标对象的区域进行识别，以确定目标对象属于的场景类型。

在一些实施例中，处理模块703，具体用于：

在识别到文本识别场景的情况下，生成第一指令，第一指令用于指示第一应用程序输出识别到的图像内容以及识别到的图像内容的关联内容；

在识别到智能识物场景的情况下，生成第二指令，第二指令用于指示第二应用程序输出识别到的物体的属性信息及属性信息的关联信息；

在识别到智慧出行场景的情况下，生成第三指令，第三指令用于指示第三应用程序显示健康码、支付码和行程码等身份识别码。

本申请实施例的识别装置可对应于执行本申请实施例中描述的方法，为了简洁，在此不再赘述。

图18为本申请实施例提供的执行装置的结构示意图。如图18所示，该执行装置800可以包括传输模块801、显示模块802和语音模块803。

传输模块801，用于接收来自智能设备的指令。

显示模块802，用于响应于指令，显示与指令对应的内容。

语音模块803，用于响应于指令，语音播放与指令对应的内容。

本申请实施例的执行装置可对应于执行本申请实施例中描述的方法，为了简洁，在此不再赘述。

本申请实施例还提供了一种智能设备，包括处理器和通信接口，处理器与存储器耦合，通信接口用于与终端设备交互数据，处理器用于执行存储器中存储的计算机程序或指令，以使得智能设备实现上述各实施例中的方法。

本申请实施例还提供了一种终端设备，包括处理器和通信接口，处理器与存储器耦合，通信接口用于与智能设备交互数据，处理器用于执行存储器中存储的计算机程序或指令，以使得终端设备实现上述各实施例中的方法。

本申请实施例还提供了一种服务器，包括处理器和通信接口，处理器与存储器耦合，通信接口用于与智能设备交互数据，处理器用于执行存储器中存储的计算机程序或指令，以使得服务器实现上述各实施例中的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令；当该计算机可读存储介质在智能设备或终端设备上运行时，使得智能设备或终端设备执行如上所示的方法。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质（例如，软盘、硬盘或磁带），光介质或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述各实施例中的方法。

本申请实施例还提供了一种芯片，该芯片与存储器耦合，该芯片用于读取并执行存储器中存储的计算机程序或指令，以执行上述各实施例中的方法。该芯片可以为通用处理器，也可以为专用处理器。

需要说明的是，该芯片可以使用下述电路或者器件来实现：一个或多个现场可编程门阵列（field programmable gate array，FPGA）、可编程逻辑器件（programmablelogic device，PLD）、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。

上述本申请实施例提供的智能设备、终端设备、识别装置、执行装置、计算机可读存储介质、计算机程序产品以及芯片均用于执行上文所提供的方法，因此，其所能达到的有益效果可参考上文所提供的方法对应的有益效果，在此不再赘述。

在本申请的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B。在本申请的描述中，“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

在本申请的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。例如，第一时长和第二时长等是用于区别不同的时长，而不是用于描述时长的特定顺序。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

应理解，上述只是为了帮助本领域技术人员更好地理解本申请实施例，而非要限制本申请实施例的范围。本领域技术人员根据所给出的上述示例，显然可以进行各种等价的修改或变化，例如，上述检测方法的各个实施例中某些步骤可以是不必须的，或者可以新加入某些步骤等。或者上述任意两种或者任意多种实施例的组合。这样的修改、变化或者组合后的方案也落入本申请实施例的范围内。

还应理解，上文对本申请实施例的描述着重于强调各个实施例之间的不同之处，未提到的相同或相似之处可以互相参考，为了简洁，这里不再赘述。

还应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本申请实施例中，“预先设定”、“预先定义”可以通过在设备(例如，包括电子设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现，本申请对于其具体的实现方式不做限定。

还应理解，本申请实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便，不应构成特别的限定，各种方式、类别、情况以及实施例中的特征在不矛盾的情况下可以相结合。

还应理解，在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

最后应说明的是：以上描述内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于手势的识别方法，其特征在于，所述方法包括：

采集目标图像，所述目标图像包含用户手势以及通过所述用户手势指定的待识别对象；

确定所述用户手势为预设手势；

确定目标场景类型，所述目标场景类型用于指示所述待识别对象属于的场景类型；

向终端设备发送与所述目标场景类型对应的目标指令，所述目标指令用于指示所述终端设备执行目标处理动作；

其中，不同的场景类型对应不同的指令，不同的指令用于指示不同的处理动作。

2.根据权利要求1所述的方法，其特征在于，所述目标场景类型为以下任意一项：

文本识别场景，所述文本识别场景为对文本内容进行识别的场景；

智能识物场景，所述智能识物场景为对物体的属性进行识别的场景；

智慧出行场景，所述智慧出行场景为对即将出行的用户位于的场所进行识别的场景。

3.根据权利要求2所述的方法，其特征在于，所述目标场景类型为所述文本识别场景，所述目标指令用于指示：所述终端设备输出所述文本内容的识别结果，和/或存储所述文本内容的识别结果。

4.根据权利要求2所述的方法，其特征在于，所述目标场景类型为所述智能识物场景，所述目标指令用于指示：所述终端设备输出所述物体的属性的识别结果，和/或输出根据所述属性的识别结果生成的推荐内容。

5.根据权利要求2所述的方法，其特征在于，所述目标场景类型为所述智慧出行场景，所述目标指令用于指示：所述终端设备显示与所述场所的识别结果对应的身份识别码，所述身份识别码用于在用户出入所述场所时进行身份验证。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述确定所述用户手势为预设手势，包括：

在所述目标图像中确定第一区域，所述第一区域为包含所述用户手势的图像区域；

将所述第一区域的图像输入第一卷积神经网络；

在所述第一卷积神经网络的输出为手势标签的情况下，确定所述用户手势为所述预设手势，所述手势标签用于指示所述预设手势。

7.根据权利要求6所述的方法，其特征在于，所述确定目标场景类型，包括：

根据所述第一区域包含的所述用户手势，在所述目标图像中确定第二区域，所述第二区域为包含所述待识别对象的图像区域；

将所述第二区域的图像输入第二卷积神经网络；

在所述第二卷积神经网络的输出为场景标签的情况下，确定所述目标场景类型，所述场景标签用于指示所述目标场景类型。

8.根据权利要求1至5中任一项所述的方法，其特征在于，所述向终端设备发送与所述目标场景类型对应的目标指令，包括：

在检测到与所述终端设备连接的情况下，向所述终端设备发送所述目标指令。

9.根据权利要求8所述的方法，其特征在于，所述在检测到与所述终端设备连接的情况下，向所述终端设备发送所述目标指令，包括：

在检测到与多个设备连接的情况下，向所述多个设备中的每个设备发送所述目标指令，所述多个设备包括所述终端设备；或者，根据所述多个设备的优先级，向所述多个设备中符合第一优先级的所述终端设备发送所述目标指令。

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

在检测到未与任何设备连接的情况下，输出与所述目标场景类型关联的识别结果。

11.根据权利要求1至5中任一项所述的方法，其特征在于，所述目标指令包括：源信息、目标信息和数据信息；

其中，所述源信息用于指示生成所述目标指令的智能设备及应用程序，所述目标信息用于指示接收所述目标指令的所述终端设备及应用程序，所述数据信息用于指示所述目标处理动作。

12.根据权利要求1至5中任一项所述的方法，其特征在于，

所述确定所述用户手势为预设手势，包括：

确定所述用户手势为目标预设手势；其中，所述目标预设手势为预设的多种类型的手势中的一种，不同类型的手势用于指示识别不同的场景类型，所述目标预设手势用于指示识别所述目标场景类型；

所述确定目标场景类型，包括：

根据所述目标预设手势，对所述目标场景类型进行识别，确定所述待识别对象属于所述目标场景类型。

13.根据权利要求1至5中任一项所述的方法，其特征在于，

所述确定所述用户手势为预设手势，包括：

确定所述用户手势为目标预设手势；其中，所述目标预设手势为预设的多种类型的手势中的一种；

所述确定目标场景类型，包括：

根据所述目标预设手势，对所有场景类型进行识别，从所述所有场景类型中确定多种场景类型；

响应于用户对所述多种场景类型中的所述目标场景类型的选择操作，确定所述待识别对象属于所述目标场景类型。

14.一种基于手势的识别方法，其特征在于，所述方法包括：

接收来自智能设备的目标指令，所述目标指令为与目标场景类型对应的指令，所述目标场景类型为通过用户手势指定的待识别对象属于的场景类型；

响应于所述目标指令，执行所述目标指令指示的目标处理动作；

15.根据权利要求14所述的方法，其特征在于，所述目标场景类型为文本识别场景，所述文本识别场景为对文本内容进行识别的场景；

所述响应于所述目标指令，执行目标处理动作，包括：

响应于所述目标指令，输出所述文本内容的识别结果，和/或存储所述文本内容的识别结果。

16.根据权利要求14所述的方法，其特征在于，所述目标场景类型为智能识物场景，所述智能识物场景为对物体的属性进行识别的场景；

所述响应于所述目标指令，执行目标处理动作，包括：

响应于所述目标指令，输出所述物体的属性的识别结果，和/或输出根据所述属性的识别结果生成的推荐内容。

17.根据权利要求14所述的方法，其特征在于，所述目标场景类型为智慧出行场景，所述智慧出行场景为对即将出行的用户位于的场所进行识别的场景；

所述响应于所述目标指令，执行目标处理动作，包括：

响应于所述目标指令，显示与所述场所的识别结果对应的身份识别码，所述身份识别码用于出入所述场所。

18.根据权利要求14至17中任一项所述的方法，其特征在于，所述目标指令包括：源信息、目标信息和数据信息；所述源信息用于指示生成所述目标指令的所述智能设备及应用程序，所述目标信息用于指示接收所述目标指令的终端设备及应用程序，所述数据信息用于指示所述目标处理动作；

所述响应于所述目标指令，执行所述目标指令指示的目标处理动作，包括：

响应于所述目标指令，运行所述目标信息指示的目标应用程序；

所述目标应用程序根据所述数据信息，执行所述目标处理动作；或者，所述目标应用程序根据所述源信息，从所述智能设备获取所述待识别对象的识别结果，并根据所述数据信息和所述待识别对象的识别结果，执行所述目标处理动作。

19.一种基于手势的识别方法，其特征在于，所述方法包括：

接收来自智能设备的目标图像，所述目标图像包含用户手势以及通过所述用户手势指定的待识别对象；

确定所述用户手势为预设手势；

向所述智能设备发送所述目标场景类型。

20.根据权利要求19所述的方法，其特征在于，所述目标场景类型为以下任意一项：

21.一种智能设备，其特征在于，包括处理器、通信模块和存储器，所述处理器与所述存储器、所述通信模块耦合，所述处理器用于执行所述存储器中存储的计算机程序或指令，以使得所述智能设备实现如权利要求1至13中任一项所述的基于手势的识别方法。

22.一种终端设备，其特征在于，包括处理器、通信模块和存储器，所述处理器与所述存储器、所述通信模块耦合，所述处理器用于执行所述存储器中存储的计算机程序或指令，以使得所述终端设备实现如权利要求14至18中任一项所述的基于手势的识别方法。

23.一种服务器，其特征在于，包括处理器、通信模块和存储器，所述处理器与所述存储器、所述通信模块耦合，所述处理器用于执行所述存储器中存储的计算机程序或指令，以使得所述服务器实现如权利要求19或20所述的基于手势的识别方法。

24.一种识别系统，其特征在于，所述识别系统包括：如权利要求21所述的智能设备，以及如权利要求22所述的终端设备；或者，所述识别系统包括：如权利要求21所述的智能设备，如权利要求22所述的终端设备，以及如权利要求23所述的服务器。

25.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在智能设备上运行时，使得所述智能设备执行如权利要求1至13中任一项所述的基于手势的识别方法；或者，当所述计算机程序在终端设备上运行时，使得所述终端设备执行如权利要求14至18中任一项所述的基于手势的识别方法；或者，当所述计算机程序在服务器上运行时，使得所述服务器执行如权利要求19或20所述的基于手势的识别方法。