CN110162204B

CN110162204B - 触发设备功能的方法、装置以及控制进行图像捕获的方法

Info

Publication number: CN110162204B
Application number: CN201811173020.3A
Authority: CN
Inventors: 汪雨秋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2022-08-12
Anticipated expiration: 2038-10-09
Also published as: CN110162204A

Abstract

本发明揭示了一种触发设备功能的方法、装置、控制进行图像捕获的方法和机器设备。所述方法包括：设备功能被选择调用时该设备功能等待被触发，该设备功能跳转执行图像捕获；进行关键点的识别和定位获得关键点位置信息；根据关键点位置信息识别动作；在动作符合触发设备功能的设定动作时触发完成终端设备中调用的设备功能。由此而新增了设备功能，诸如摄像头拍照与视频功能的触发实现，并不需要直接对终端设备触发操作，例如点击屏幕的操作，仅需要通过所触发动作来实现所调用设备功能的触发，识别所触发动作是否符合设定动作之后，就能够触发所相关操作的执行达成设备功能，设备功能的触发不再仅限于单一触发方式，能够适用于各种场景。

Description

触发设备功能的方法、装置以及控制进行图像捕获的方法

技术领域

本发明涉及机器视觉技术领域，特别涉及一种触发设备功能的方法、装置、控制进行图像捕获的方法和机器设备。

背景技术

随着终端设备在人们生活和工作充当着越来越重要的角色，人们依赖着终端设备中各种设备功能的触发而为其生活和工作提供各种辅助。每一终端设备都具备丰富的设备功能，设备功能是终端设备所能够支持的任意功能。例如，设备功能可以是摄像头拍照与视频功能、语音输入功能等。

在所进行的设备功能调用中，需要通过一定的操作控制，例如在用户操控下触发所调用的设备功能，进而在设备功能的调用下实现所调用设备功能相关操作的执行，使得所调用的设备功能得以在终端设备中实现。

设备功能的触发往往是通过点击屏幕所实现的。比如摄像头拍照与视频功能，在其被调用的过程中，都将通过手指点按拍照按钮来触发拍照操作以获得相应的照片。

但是，这一设备功能的触发并非能够在任意场景下都得以进行，往往存在着用户难以点击屏幕的场景，进而无法实施设备功能触发。比如，在摄像头拍照与视频功能中，用户受限于各种因素的制约无法点击拍照按钮，但如未触发拍照按钮，则无法触发摄像头拍照与视频功能，进而便无法对摄像头所捕获的图像画面实施拍照或视频录制。

由此可知，设备功能的现有触发实现受限于点击屏幕此单一的触发方式，难以适用于各种场景，亟待需要为设备功能的触发新增能够适用于诸多场景的触发实现，消除各种场景下触发设备功能的限制。

发明内容

为了解决相关技术中设备功能，诸如摄像头拍照与视频功能的触发由于仅限于单一触发方式而受到各种场景的限制，本发明新增能够适用于诸多场景的触发实现，提供了一种触发设备功能的方法、装置、控制进行图像捕获的方法和机器设备。

一种触发设备功能的方法，所述方法应用于终端设备，所述方法包括：

终端设备所具备的设备功能被选择调用时所述设备功能等待被触发，所述设备功能跳转执行图像捕获得到图像数据；

对所述图像数据进行图像中关键点的识别和定位，获得关键点的位置信息；

根据所述关键点的位置信息识别触发的动作，所述动作是在所进行的图像捕获过程中触发的；

在所触发动作符合触发所述设备功能的设定动作时，触发完成所述终端设备中调用的所述设备功能。

一种控制进行图像捕获的方法，所述方法应用于终端设备，所述方法包括：

终端设备所具备的设备功能被选择调用时所述设备功能等待被触发，所述摄像头拍照与视频功能跳转执行图像捕获得到图像数据；

在所触发动作符合触发摄像头拍照与视频功能的设定动作时，触发完成所述终端设备中调用的摄像头拍照与视频功能。

一种触发设备功能的装置，所述装置被配置于终端设备，所述装置包括：

图像捕获模块，用于终端设备所具备的设备功能被选择调用时所述设备功能等待被触发，所述设备功能跳转执行图像捕获得到图像数据；

关键点检测模块，用于对所述图像数据进行图像中关键点的识别和定位，获得关键点的位置信息；

动作识别模块，用于根据所述关键点的位置信息识别触发的动作，所述动作是在所述设备功能的调用中触发的；

功能触发模块，用于在所触发动作符合触发所述设备功能的设定动作时，触发完成所述终端设备中调用的所述设备功能。

一种机器设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行前述方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

对于终端设备中的一指定设备功能，终端设备所具备的设备功能被选择调用时设备功能等待被触发，设备功能跳转执行图像捕获得到图像数据，然后对图像数据进行图像中关键点的识别和定位，以此来获得关键点的位置信息，再根据关键点的位置信息识别触发的动作，最后在符合触发设备功能的设定动作时，触发完成终端设备中调用的设备功能，由此而新增了设备功能，诸如摄像头拍照与视频功能的触发实现，由于并不需要直接对终端设备触发操作，例如点击屏幕的操作，而仅需要通过所触发动作来实现所调用设备功能的触发，对于终端设备的设备功能而言，识别所触发动作是否符合设定动作之后，就能够触发其所相关操作的执行，进而达成设备功能，设备功能的触发不再仅限于单一触发方式，通过所触发动作而自动触发设备功能，能够适用于各种场景。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的本发明所涉及实施环境的简略图；

图2是根据一示例性实施例示出的一种装置的框图；

图3是根据一示例性实施例示出的一种触发设备功能的方法的流程图；

图4是根据图3对应实施例示出的对步骤310进行描述的流程图；

图5是根据图4对应实施例示出的对步骤311进行描述的流程图；

图6是根据图3对应实施例示出的对步骤330进行描述的流程图；

图7是根据图3所对应实施例示出的对步骤350进行描述的流程图；

图8是根据图7对应实施例示出的对步骤353进行描述的流程图；

图9是根据另一示例性实施例示出的一种触发设备功能的方法的流程图；

图10是根据一示例性实施例示出的预设动作界面示意图；

图11是根据图10对应实施例示出的自定义动作界面；

图12是根据一示例性实施例示出的一种控制进行图像捕获的方法的流程图；

图13是根据另一示例性实施例示出的一种控制进行图像捕获的方法的流程图；

图14是根据一示例性实施例示出的拍照功能触发的主要流程图；

图15是根据一示例性实施例示出的人体特征点示意图；

图16是根据一示例性实施例示出的设定动作向量图；

图17是根据图16对应实施例示出的触发动作向量图；

图18是根据一示例性实施例示出的一种触发设备功能的装置的框图；

图19是根据一示例性实施例示出的一种控制进行图像捕获的装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的本发明所涉及实施环境的简略图。在一个示例性实施例中，如图1所示，本发明所涉及的实施环境包括用于为用户实现当前所需要设备功能的终端设备110。

以设备功能为摄像头拍照与视频功能为例，终端设备110通过所运行应用发生的摄像头调用或者相机应用的触发，而面向于所配置摄像头调用摄像头拍照与视频功能。

此时，用户将在终端设备110所调用摄像头拍照与视频功能的辅助下实现当前所需要进行的自拍。当前所需要进行的自拍是指在一场景下，用户独自一人，但想拍摄一张全身照，此时，在现有摄像头拍照与视频功能的触发实现中，用户只能麻烦周围的路人或者借助于自拍杆之类的工具，但是，路人取的景并不一定是用户想拍的部分，自拍杆也有着角度和长度等的限制，并无法满足用户的自拍需求，用户无法随心所欲的进行自拍。

此时，通过本发明所摄像头拍照与视频功能的触发实现，按照用户自身的取景需求进行终端设备110的摆放，用户站立于取景点并触发指定的动作，即可通过终端设备110所进行的动作检测，亦为人体姿态检测来实现摄像头拍照与视频功能的触发，所获得的照片，即为用户所指定视野内的全身照。

可以理解，在本发明所涉及实施环境中，为设备功能提供了一种全新的触发方式，不再限于屏幕点击的设备功能触发方式，设备功能将在所触发动作的控制下被触发，用户与终端设备之间并无直接接触。

图2是根据一示例性实施例示出的一种装置的框图。例如，装置200可以是前述所示实施环境中的终端设备。例如，终端设备可以是智能手机、平板电脑、台式电脑、笔记本电脑等。

参照图2，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，传感器组件214以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件202可以包括一个或多个处理器218来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器204中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器218执行，以完成下述图3、图4、图5、图6、图7、图8、图9、图12和图13任一所示方法中的全部或者部分步骤。

电源组件206为装置200的各种组件提供电力。电源组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(Microphone，简称MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到装置200的打开/关闭状态，组件的相对定位，传感器组件214还可以检测装置200或装置200一个组件的位置改变以及装置200的温度变化。在一些实施例中，该传感器组件214还可以包括磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线保真)。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(Near FieldCommunication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RadioFrequency Identification，简称RFID)技术，红外数据协会(Infrared DataAssociation，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

图3是根据一示例性实施例示出的一种触发设备功能的方法的流程图。该触发设备功能的方法适用于前述所示的实施环境。如图3所示，该触发设备功能的方法，其终端设备，至少包括以下步骤。

在步骤310中，终端所具备的设备功能被选择调用时该设备功能等待被触发，该设备功能跳转执行图像捕获得到图像数据。

其中，首先应当说明的是，设备功能是指终端设备所具备的功能，例如，前述所指的摄像头拍照与视频功能、语音输入功能等。此设备功能都将在本发明示例性实施例的控制下通过动作而被触发，此设备功能的触发不再限于用户对屏幕的点击。

终端设备中，设备功能的调用将触发图像捕获的进行，也就是说，在触发调用设备功能之后将首先触发进行图像捕获。在一个示例性实施例中，所进行图像捕获的执行主体是终端设备配置的摄像头。

设备功能的调用，一方面是在用户的操控下选择进行的，此时，所调用的设备功能将处于等待状态，即等待触发完成自身的功能，例如等待用户的触控操作，以在此触控操作下使得调用的设备功能被触发完成；另一方面则是所在终端设备对其它设备功能的触发下，所执行操作而引发的设备功能调用，例如，相互之间关联的设备功能之间发生的相互调用。但无论何种调用过程的进行，设备功能的调用都是在终端设备中选择进行的。

在触发进行设备功能的调用之后，便对终端设备触发进行图像捕获，所指的图像捕获，在一个示例性实施例中即为对摄像头所采集图像画面获取图像数据的过程。

设备功能一旦被调用，终端设备中的摄像头便进行着图像拍摄获得图像数据。所得到的图像数据描述了终端设备摄像头所采集得到的图像，图像数据所呈现的图像，可以是单幅图片，也可以是若干帧图像，即一短视频，在此不时行限定。

例如，随着终端设备中摄像头拍照与视频功能的调用，将控制摄像头进行图像数据的采集，以得到加载至内存中的图像数据，而不仅仅进行着摄像头拍照与视频页面中捕获图像的显示。

又例如，随着手握终端设备的用户抬起手臂，处在锁屏状态的终端设备得以抬手亮屏，此时终端设备将选择调用屏幕解锁功能，并进行着图像数据的采集，通过所捕获图像数据中存在的动作，即姿态检测来触发所调用的屏幕解锁功能，触发执行解锁操作。

在步骤330中，对图像数据进行图像中关键点的识别和定位，获得关键点的位置信息。

其中，随着设备功能的调用，被调用的设备功能等待被触发，进而触发执行相应的操作。在设备功能的调用和触发等待过程中，对摄像头所获得的图像数据进行关键点的识别和定位，所指的关键点将用于表征动作，所识别定位得到的关键点位置信息将在空间上描述了触发的动作。

在一个示例性实施例中，以人为例进行关键点所相关的说明。关键点是人的特征点，即人脸、人体以及手上的特征点。例如，这些关键点包括：头部如眼睛、鼻子、耳朵；躯干如肩膀、髋部；四脚如手肘、手腕、膝盖、脚腕等。

对于所需要进行关键点识别和定位的对象，例如人，或者动物等，都预先进行着关键点的定义和配置，以控制步骤330所进行的关键点识别和定位能够获得存在的所有关键点，以及每一关键点的位置信息。

应当理解，所调用设备功能的不同，其进行关键点识别和定位的对象也各不相同。例如，在调用摄像头拍照与视频功能对一猫咪触发拍照操作的过程中，进行着图像数据所呈现图像中此猫咪的关键点检测，以通过所检测关键点来识别猫咪是否触发了设定动作，进而控制终端设备对猫咪执行拍照操作。

因此，在一个示例性实施例中，能够面向于各种不同对象进行着图像数据捕获以及在此基础之上的关键点识别定位，进而以此来针对于不同的对象自动触发所调用的设备功能。

在一个示例性实施例中，关键点的位置信息，是在空间中映射的坐标位置。图像数据中关键点识别和定位的进行，将在空域上进行着特征提取，即所识别和定位得到的关键点就是所提取得到的特征。对图像数据进行的关键点识别和定位将得以指示了所获得的关键点是对应于识别和定位对象的哪一部分的，以及坐标位置。

应当补充说明的是，对图像数据进行的关键点识别和定位，是面向于一图像进行的，也可以是面向于一视频图像序列进行的，即对所捕获的短视频识别和定位各帧的关键点存在，进而达到识别短视频中动作的目的。

对图像数据所进行的关键点识别和定位，实质是对图像数据进行的特征提取。因此，在一示例性实施例中，通过神经网络进行关键点检测，此来完成关键点的识别和定位。可选的，所指的神经网络为全卷积神经网络。

在步骤350中，根据关键点的位置信息识别触发的动作，该动作是在所进行的图像捕获过程中触发的。

其中，由前述步骤350进行的关键点识别和定位，获得了所识别得到的关键点，即获得图像数据所呈现图像中存在了哪一类关键点，例如，用于标示手肘的关键点，并且在此基础之上得到此关键点对应的坐标位置。

此时，即可进行所触发动作的识别。在此所指的动作，是在所进行的图像捕获过程中触发的，因此，捕获图像所得到的图像数据进行着动作所相关的描述。

在设备功能的调用中，一方面所在终端设备进行着图像数据的采集，另一方面，所对应进行关键点识别和定位的对象，例如用户，也相应为此而触发动作。因此，所采集得到的图像数据捕捉到了触发的动作，进而通过步骤350的执行相应执行所触发动作的识别。

在一个示例性实施例中，根据所识别得到的关键点以及其位置信息，在数值上通过向量的构建而表示所触发的动作，也就是说，在数值上进行所触发动作的向量表示，以准确描述所触发的动作，且便于快速准确的识别所触发的动作。

与之相对应的，根据关键点的位置信息而进行的动作识别，便是通过所构建的向量进行所触发动作与设定动作二者之间匹配的过程，其中，所指的设定动作是为所调用设备功能配置的，所触发动作在符合设定动作之时，即可自动触发所调用的设备功能。通过步骤350的执行，能够得到相应的动作识别结果，该动作识别结果指示了所触发动作是否与触发设备功能的动作相符合。

至此，应当补充说明的是，所指的动作之间的符合，是指动作之间的匹配程度是小于所设定的动作识别阈值的，此动作识别阈值可根据所需要的灵活度和识别精度进行动态调整，以此来保证设备功能被自动触发的灵敏性。

在步骤370中，在所触发动作符合触发设备功能的设定动作时，触发完成终端设备中调用的设备功能。

其中，通过前述步骤350的执行，为调用的设备功能确认所触发动作是符合触发设备功能的设定动作时，即可自动触发完成设备功能。由此，将使得所调用的设备功能不再需要用户在终端设备上操作，例如，点击屏幕，也能够准确快速的触发设备功能，增强了终端设备实现设备功能的性能，使得设备功能的应用不再受限于各种场景。

通过如上所述的示例性实施例，对于所进行的设备功能触发而言，不再需要用户与终端设备直接接触，例如触碰终端设备的屏幕，就能够实现设备功能的自动触发，这将极大的拓宽设备功能所适应的场景，在用户不便于接触终端设备，操控终端设备的诸多场景下，都能够借助于动作的触发而实现设备功能的触发。

在如上所述的示例性实施例中，可以看到，实施设备功能所面向的对象，只要所触发动作符合设定动作，就能够自动触发设备功能，由此，可面对于特定条件，即所面向对象在触发与设定动作相类似的动作进，就能够面向此对象自动触发设备功能，设备功能的智能化程度得到增强，进而能够用于满足面向于某些对象在特定场景下的设备功能触发需求。

例如，需要对猫咪的特定动作拍照，此时，在现有的技术实现中，是用户手持终端设备而对猫咪进行图像捕获，在猫咪触发此特定动作时快速按下拍照按钮，以获得触发特定动作的猫咪照片。但是，可以想到的，在猫咪触发特定动作时，用户难以准确把握时机快速按下拍照按钮，因此，对猫咪的特定动作抓拍并不容易。

但是，通过本发明示例性实施例的实现，可以设定所需要抓拍的特定动作为设定动作，并会终端设备置于合适位置之后，即可通过检测猫咪所触发的动作来自动触发摄像头拍照与视频功能，进而实现自动抓拍，快速准确，易于实现。

至此，也可以清楚的看到，本发明所触发设备功能所面向的对象并非仅限于用户，其它对象，也可作用触发设备功能以及实施设备功能的面向对象。也就是说，根据实现的需求，设备功能可以是终端设备中实现的任意功能，例如，摄像头拍照与视频功能，所面向的对象也将根据场景而灵活设置。

图4是根据图3对应实施例示出的对步骤310进行描述的流程图。在一个示例性实施例中，如图4所示，该步骤310至少包括：

在步骤311中，终端设备响应选择调用设备功能的操作，获得设备功能调用指令，设备功能调用指令所指示调用的设备功能将在检测到图像所存在动作符合设定动作之后自动触发。

在步骤313中，在调用的设备功能所进行的触发等待中，根据设备功能调用指令发起终端设备的图像捕获，获得图像数据。

其中，首先应当说明的是，选择调用设备功能的操作，可以是用户针对于所需要调用的设备功能触发的操作，也可以是终端设备的系统运行中所触发调用设备功能的操作，在此不进行限定。

在终端设备中，被触发了调用设备功能的操作之后，便对此进行响应获取得到设备功能调用指令。设备功能调用指令用于为所发起调用的设备功能控制进行图像采集，即控制进行终端设备的图像捕获，得到图像数据。

设备功能调用指令指示了当前所发起调用的设备功能，除此之外，也将为设备功能的调用和触发之间控制进行终端设备的图像捕获，基于所获得的图像数据来衔接设备功能的调用和触发执行，从而为所调用的设备功能提供新的触发机制。

在终端设备响应选择调用设备功能的操作而进行的设备功能调用中，根据所获得的设备功能调用指令，为调用的设备功能进行图像捕获，以得到图像数据。所得到的图像数据将用于检测所进行的设备功能调用的过程中是否存在动作的触发，以及所触发动作是否符合设定动作，进而为调用的设备功能实现自动触发。

也就是说，终端设备中，设备功能被调用之后，便通过所进行的图像捕获而不持续进行动作感知，一旦感知得到动作，且该动作与设定动作相符就自动触发调用的设备功能。

通过此示例性实施例，使得设备功能所面向的实施对象，例如用户，与终端设备相互之间无实质接触，在此基础上进行着设备功能的自动触发，由此，将使得设备功能能够适用于任意场景，增强了设备功能应用的广泛性。

图5是根据图4对应实施例示出的对步骤311进行描述的流程图。在一个示例性实施例中，设备功能包括终端设备中的摄像头拍照与视频功能，该步骤311，如图5所示，至少包括以下步骤。

在步骤401中，通过终端设备受控进行的自身摄像头调用，跳转进入终端设备中的摄像头拍照与视频页面。

在步骤403中，为摄像头拍照与视频页面上进行的图像捕捉触发生成设备功能调用指令。

其中，摄像头拍照与视频功能，是终端设备系统本身具备的功能，也是终端设备中相机应用所实现的功能。摄像头拍照与视频功能用于在终端设备所配置摄像头的作用下记录图像内容获得图像和/或视频，所获得的图像和/或视频将以图像数据的形式存在。

终端设备中，可通过所进行的功能调用或者相机应用的触发运行实现摄像头拍照与视频功能的调用。随着摄像头拍照与视频功能的调用，终端设备受控进行自身摄像头的调用，并跳转进入终端设备中的摄像头拍照与视频页面。

摄像头拍照与视频页面，即为所捕捉图像内容的显示页面，对于所捕捉得到的图像内容，一旦按下拍照按钮或视频按钮即可记录下来，获得相应的图像和/或视频。

而在本发明示例性实施例的作用下，并不限于此，一旦对所调用的摄像头拍照与视频功能跳转进入摄像头拍照与视频功能之后，就通过步骤403的执行而为动作检测的进行触发设备功能调用指令，通过设备功能调用指示为当前调用的设备功能，即摄像头拍照与视频功能发起动作检测，以控制进行实现动作检测所必须的图像捕捉。

通过摄像头拍照与视频页面上的图像捕捉感知拍照和/或视频的对象是否触发动作，并且所触发动作是否符合设定动作。

通过此示例性实施例，为摄像头拍照与视频功能的自动触发新增了自身所调用摄像头的图像数据采集，也就是说，对摄像头拍照与视频页面当前所正在进行的图像捕获采集图像数据，以此为依据来实现摄像头拍照与视频功能的自动触发。

图6是根据图3对应实施例示出的对步骤330进行描述的流程图。在一个示例性实施例中，如图6所示的，该步骤330至少包括：

在步骤331中，通过全卷积神经网络对图像数据进行图像中关键点的检测，获得所存在的关键点分布。

在步骤333中，根据关键点分布获得图像中存在的关键点以及对应于关键点的位置信息。

其中，可以理解，进行关键点检测的可以是多帧图像，也可以是单帧图像，这将取决于所获得的图像数据。对图像数据中的每一图像，都进行关键点检测，以确定每一图像中的关键点存在，存在的所有关键点便形成了关键点分布。

应当理解，通过所获得的关键点分布，能够从中获知存在着哪一类型的关键点，以及此关键点在空间中的位置。例如，从所获得的关键点分布，可以得到对应于手肘的关键点及其在空间中的坐标位置。

在此示例性实施例，应用了全卷积神经网络实现关键点的检测，以在来通过全卷积神经网络输出的关键点找到触发的动作。在全卷积神经网络的作用下，学习有效的特征，即关键点，以动态建模，实现关键点以及关键点坐标位置表示的识别。通过全卷积神经网络得以准确的对图像进行像素级的分类，对每一像素都产生一个预测，并保留了原有的空间信息，因此，能够准确的识别出单帧图像所存在的每一关键点以及位置信息。

通过全卷积神经网络而实现关键点检测，得以获得更快的检测速度，且能够支持全身和半身的检测，进而使得设备功能能够通过任意动作触发。

当然，应当理解的，关键点检测的实现，并不限于全卷积神经网络，全卷积神经网络仅作为一示例存在，其它基于机器学习的姿态检测都可用于实现本发明所涉及的关键点检测。

图7是根据图3所对应实施例示出的对步骤350进行描述的流程图。在一个示例性实施例中，如图7所示，该步骤350至少包括：

在步骤351中，根据关键点的位置信息构建向量，该向量用于在空间中描述所触发的动作。

在步骤353中，根据向量进行所触发动作与设定动作之间的匹配，以判定所触发动作是否符合设定动作。

其中，首先应当说明的是，对于所识别定位得到的关键点，其都有着唯一对应的编号。图像中进行关键点识别和定位的每一部位，例如，手掌、手肘、面部等，都是由对应着某几个编号的关键点构成的。图像上存在的关键点，在数据上将是以编码和位置信息的形式存在的。

针对于每一关键点，都根据位置信息构建向量。对于一部位而言，其关键点所对应向量将描述了此部位在空间中的运动情况，即所触发的动作。

通过关键点构建的向量进行所触发动作与设定动作的匹配。也就是说，由识别和定位所得到关键点构建的向量，与设定动作所对应向量之间进行向量匹配，如果二者之间相互匹配，则可认为所触发的动作符合设定动作。

在一个示例性实施例中，从识别和定位得到的关键点提取对应于指定部位的关键点，由所提取关键点的位置信息来进行向量的构建，进而再进行向量匹配。

指定部位，可以是识别定位得到的关键点中对应的相同部位，也可以是为设备功能的触发而指定的部位。指定部位是实施动作的部位。例如，其可为右小臂等。

对所有关键点，由于其所对应的编号指示了其在所对应部位中的位置，此每一部位所设定的关键点，都根据其位置存在着一定的向量组合顺序，因此，按照向量组合顺序进行关键点所对应向量的组合，即可构建得到能够描述所对应动作的向量，进而用于执行动作之间的向量匹配。

可以理解的，对于任意动作，其都可拆解，并且转换为向量图，进而获得对应于此动作的向量。设定动作所对应的向量，便是对设定动作进行拆解和向量图转换之后得到的。

在一个示例性实施例中，对于根据向量而进行的动作之间匹配，将通过角度匹配的方式实现，以此来保证匹配的准确性。

以触发动作的人为例，人有高矮胖瘦，身型比例也各不相同，如果选择欧式距离进行动作之间的匹配，即计算空间中两个点之间的绝对距离，则会存在非常大的误差。而角度匹配，即余弦距离，则可以完全忽视人体的身材差异，只关注于动作本身，例如，仅关注动作的位置、幅度等，因此，通过所进行的角度匹配能够获得非常高的精准性。

图8是根据图7对应实施例示出的对步骤353进行描述的流程图。在一个示例性实施例中，如图8所示，该步骤353至少包括：

在步骤501中，相对设定动作所对应向量，进行向量的夹角，获得向量之间的夹角。

在步骤503中，根据动作识别阈值对向量之间的夹角判定所触发动作是否符合设定动作。

其中，此示例性实施例即为角度匹配的实现过程。即针对于所触发动作的向量和设定动作对应的向量，进行向量之间夹角的计算，将所计算得到的夹角与动作识别阈值进行比较，以判定所触发动作相对设定动作是否存在较大偏差，进而以此为依据判定所触发动作是否符合设定动作。

与角度匹配相对应的，动作识别阈值为角度的形式，例如，其可为30度。在一个示例性实施例中，判断向量之间的夹角是否小于动作识别阈值，如果小于，则判定所触发动作符合设定动作。

在一个示例性实施例中，设备功能包括终端设备中摄像头拍照和视频功能，步骤370包括：

在所触发动作与触发设备功能的设定动作相符时，对终端设备调用摄像头拍照与视频功能触发当前所捕获图像的图像画面采集和/或录制，获得摄像头拍照与视频功能触发下对应于图像画面的照片和/或视频。

其中，在摄像头拍照和视频功能的调用下，进行拍照和/或视频录制的对象，一旦被终端设备的摄像头捕获得到与设定动作相符的动作触发，都对此对象自动触发当前所捕获图像的图像画面采集和/或视频录制，以此来实现终端设备中拍照和视频的自动触发。

图9是根据另一示例性实施例示出的一种触发设备功能的方法的流程图。在另一示例性实施例中，如图9所示，该触发设备功能的方法，至少包括：

在步骤710中，根据对设备功能而进行的触发动作配置，接收设备功能对应的触发动作配置指令。

在步骤730中，执行动作配置指令进行设备功能的预置触发动作选择或动作自定义处理，获得设备功能的设定动作。

其中，此示例性实施例用于实现设定动作的配置，即为设备功能的触发而配置一动作来作为设定动作。所配置的动作，可以是系统所预置的，也可以是用户所自定义设置的。

随着用户对设备功能进行触发动作配置，将接收到用户选择进行预置触发动作选择或动作自定义的触发动作配置指令。触发动作配置指令是对应于设备功能的，将指示了用户所选择进行的触发动作配置过程。

例如，图10是根据一示例性实施例示出的预设动作界面示意图。在此预设动作界面上，可根据需要进行手势以及全身动作的选择，用户点击选取的动作便被置为设定动作。

在此基础上，也可通过点击“自定义一个动作”这一按钮而跳转进入自定义动作界面。图11是根据图10对应实施例示出的自定义动作界面。在此界面之上，用户可通过拍照、从相册选择等方式来实现自定义动作，拍照或者从相册选择所得到图像中存在的动作即为设定动作。

在一个示例性实施例中，步骤730包括：根据触发动作配置指令所指示进行的触发动作自定义配置，获得动作图像数据，动作图像数据用于描述自定义的设定动作。

其中，在选择进行的设定动作自定义配置中，正如图11所描述的，可从原有图像或者视频中获得自定义配置的动作，并配置为设定动作；也可以从即时采用的图像或视频中获得并配置为设定动作。

因此，根据触发动作配置指令而进行的触发动作自定义配置，所获得的动作图像数据可以是当前所即时拍照或录制视频所得到的，也可以原有的图像数的，例如，相册中包含某一动作的照片，或者短视频。

可选的，对于所进行的触发动作配置，为设备功能所配置的设定动作，可以是一个设定动作，也可以是一组设定动作，以此来适应于不同的设备功能触发需求。

通过一设定动作的配置，而为所调用的设备功能通过这一设定动作的触发，来触发完成所调用的设备功能。

也可通一组设定动作的配置，而通过这一组设定动作的连续触发，而不断触发所调用的设备功能，在所配置的一组设定动作控制下，自动进行着所调用设备功能不断触发完成相应的操作。

在另一个示例性实施例中，步骤730之后，该触发设备功能的方法，还包括：

通过设备功能的设定动作，为选择调用的设备功能提取表征设定动作的目标向量，目标向量用于检测触发的动作是否符合设定动作。

如前所述的，动作之间的匹配是通过向量实现的。对于配置的设定动作，需要为此而获取所对应的目标向量。通过目标向量在空间中进行设定动作的数值描述。

对于从预置触发动作选择所得到的设定动作，预置了所对应的目标向量，可直接用于进行动作之间的匹配。

而对于自定义配置的设定动作，则需要从动作图像数据中识别和定位所存在的关键点以及的位置信息，再由此构建向量，获得目标向量。此过程是对所捕获动作进行拆解和转换向量图的过程。

与上述触发设备功能的方法所对应的，本发明还提供了一种控制进行图像捕获的方法，此方法是在本发明所构建的设备功能触发机制下实现的摄像头拍照与视频功能。

图12是根据一示例性实施例示出的一种控制进行图像捕获的方法的流程图。在一个示例性实施例中，该控制进行图像捕获的方法，如图12所示，至少包括：

在步骤910中，终端设备所具备的摄像头拍照与视频功能被选择调用时摄像头拍照与视频功能等待被触发，摄像头拍照与视频功能跳转执行图像捕获得到图像数据。

在步骤930中，对图像数据进行图像中关键点的识别和定位，获得关键点的位置信息。

在步骤950中，根据关键点的位置信息识别触发的动作，动作是在所进行的图像捕获过程中触发的。

在步骤970中，在所触发动作符合触发摄像头拍照与视频功能的设定动作时，触发完成终端设备中调用的摄像头拍照与视频功能。

此示例性实施例是摄像头拍照与视频功能的自动触发，也就是说，当摄像头捕获与设定动作相符合的动作时，自动触发拍照和/或视频录制，为终端设备中拍照和视频录制的进行提供了新的触发机制。

在一个示例性实施例中，该步骤970包括：在所触发动作符合触发所述设备功能的设定动作时，对终端设备调用摄像头拍照与视频功能触发当前所捕获图像的图像画面采集和/或录制，获得所述摄像头拍照与视频功能触发下对应于所述图像画面的照片和/或视频。

图13是根据另一示例性实施例示出的一种控制进行图像捕获的方法的流程图。在一个示例性实施例中，该控制进行图像捕获的方法，在执行步骤970之前，还包括以下步骤。

在步骤1010中，根据摄像头照与视频功能而进行的触发动作配置，接收触发动作配置指令。

在步骤1030中，执行触发动作配置指令进行摄像头拍照与视频功能的预置触发动作选择或触发动作自定义处理，获得摄像头拍照与视频功能的设定动作。

通过此示例性实施例而为拍照和/或视频录制的进行灵活配置设定动作，以满足不同的拍照和/或视频录制过程。

此设定动作，可以是单一的一个动作，也可以是对应于指定数量的一组动作，在此不进行限定，将根据摄像头拍照与视频功能的实际需要灵活配置。

可选的，通过为摄像头拍照与视频功能所配置的一设定动作，用户能够通过触发此设定动作来发起所调用摄像头拍照与视频功能，即触发所调用的摄像头拍照与视频功能，触发进行拍照和/或视频录制。

在此基础之上，也能够通过对摄像头拍照与视频功能配置的一组设定动作，使得用户能够通过一系列动作的触发而发起所调用摄像头拍照与视频功能，连续进行拍照，即围绕这一系列动作的触发而进行连拍。

通过单一动作或者一组动作的设定而满足摄像头拍照与视频功能所需要执行的不同拍照和/或视频录制过程。

以拍照功能为例，结合此拍照功能来描述上述示例性实施例所实现的过程。在此，所指的拍照功能为摄像头拍照与视频功能中的一部分。

大家都通过终端设备，例如智能手机，来拍摄照片，无论是使用系统自带的拍照功能，还是一应用内的拍照功能，比如即时通信工具和社交网络应用中的拍照功能，都是通过手指点按按钮来触发拍照的。这样，当用户独自一人想拍张全身的照片时，就只能麻烦周围的路人或者借助于自拍杆之类的工具，但是，路人取的景并不一定是用户想要的，而自拍杆也有着角度和长度等的限制。

为此，通过本发明的实现，将利用用户自己的姿态或者手势来触发拍照功能。例如，为此而定义几种姿势或手势，比如双手比心、手指比V字形胜利手势、胳膊平举等动作。当用户做了这种动作，则自动触发拍照功能，而不再需要用户点按拍照按钮。

所能够触发拍照功能的设定动作，可以是固定的几种，也支持用户所上传的图片，其可从相册中选择，也可重新拍摄，进而实现自定义动作。具体的，如果用户选择自定义动作，触发“拍照”按钮会唤起相机，支持新拍摄一张图片；选择“从相册里选择”则会打开系统相册。

图14是根据一示例性实施例示出的拍照功能触发的主要流程图。如图14所示的，将首先通过摄像头采集帧，以采集得到静态帧，此提取特征点，即如前述所指的关键点。

在提取得到特征点之后进行着匹配，一旦匹配成功便触发拍照。此过程简单易行，能够满足拍照的实时性要求。

而对特征点以及特征点所实现的向量构建。图15是根据一示例性实施例示出的人体特征点示意图。如图15所示的，可以看到，每个特征点都是有编号的，比如，右小臂是34组成的向量，在匹配时，如果要匹配右小臂的动作，则直接计算用户预设的34向量和摄像头采集到的图像中3’4’向量之间的夹角。

与此相对应的，对于所自定义设定的动作，将首先拆解此动作，将这一动作转换为向量图，即如图16所示。图16是根据一示例性实施例示出的设定动作向量图。此向量图对应着设定动作的向量，即所有特征点的组合。

这是一个由点组成向量的过程。对所有特征点，按照右臂{2,3,4},左臂{5,6,7},右腿{8,9,10},左腿{11,12,13}来组合，比如右大臂就是{2,3}组成的向量，右小臂就是{3,4}组成的向量。

当摄像头采集到视频帧时，也提取这些特征点组成向量，即如图17所示的。

图17是根据图16对应实施例示出的触发动作向量图。

在此基础之上进行向量匹配，即运算两个向量之前的余弦距离，如cos<23,2’3’>，cos的值越大，两个向量间的夹角越小。当所有夹角都小于用户设的匹配阈值时，认为匹配成功。如果匹配成功，则调用系统的拍照接口或者应用内的拍照接口，完成此次拍照。

如上所述的实现，利用了人体姿态或手势触发实时拍照，当然也可用于触发拍摄视频，还可以实现延时拍摄，比如设置一个手势或姿态实现延时3s后拍摄。

下述为本发明装置实施例，可以用于执行本发明上述方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明的方法实施例。

图18是根据一示例性实施例示出的一种触发设备功能的装置的框图。该触发设备的装置，如图18所示，至少包括但不限于：图像捕获模块1110、关键点检测模块1130、动作识别模块1150以及功能触发模块1170。

图像捕获模块1110，用于终端设备所具备的设备功能被选择调用时设备功能等待被触发，设备功能跳转执行图像捕获得到图像数据；

关键点检测模块1130，用于对所述图像数据进行图像中关键点的识别和定位，获得关键点的位置信息；

动作识别模块1150，用于根据所述关键点的位置信息识别触发的动作，所述动作是在所进行的图像捕获过程中触发的；

功能触发模块1170，用于在所触发动作符合触发所述设备功能的设定动作时，触发完成所述终端设备中调用的所述设备功能。

在一个示例性实施例中，图像捕获模块1110被配置执行：

终端设备响应选择调用设备功能的操作，获得设备功能调用指令，所述设备功能调用指令所指示调用的设备功能将在检测到图像所存在动作符合设定动作之后自动触发；

在调用的设备功能所进行的触发等待中，根据所述设备功能调用指令发起终端设备的图像捕获，获得图像数据。

在一个示例性实施例中，设备功能包括所述终端设备中的摄像头拍照与视频功能，所执行的终端设备响应选择调用设备功能的操作，获得设备功能调用指令步骤包括：

通过所述终端设备受控进行的自身摄像头调用，跳转进入所述终端设备中的摄像头拍照与视频页面；

为所述摄像头拍照与视频页面上进行的图像捕捉触发生成设备功能调用指令。

在一个示例性实施例中，关键点检测模块1130被配置执行：

通过全卷积神经网络对所述图像数据进行图像中关键点的检测，获得所存在的关键点分布；

根据所述关键点分布获得所述图像中存在的关键点以及对应于所述关键点的位置信息。

在另一个示例性实施例中，动作识别模块1150被配置执行：

根据所述关键点的位置信息构建向量，所述向量用于在空间中描述所触发的动作；

根据所述向量进行所触发动作与设定动作之间的匹配，以判定所述所触发动作是否符合设定动作。

进一步的，所执行根据所述向量进行所触发动作与设定动作之间的匹配，以判定所述所触发动作是否符合设定动作步骤包括：

相对设定动作所对应向量，进行所述向量的夹角计算，获得向量之间的夹角；

根据动作识别阈值对所述向量之间的夹角判定所触发动作是否符合设定动作。

在另一个示例性实施例中，设备功能包括所述终端设备中的摄像头拍照与视频功能，功能触发模块1170被配置执行：

在所触发动作与触发所述设备功能的设定动作相符时，对终端设备调用摄像头拍照与视频功能触发当前所捕获图像的图像画面采集和/或录制，获得所述摄像头拍照与视频功能触发下对应于所述图像画面的照片和/或视频。

在另一个示例性实施例中，该触发设备功能的装置还包括：配置指令接收模块和动作设定模块。

配置指令接收模块，用于根据对所述设备功能而进行的触发动作配置，接收所述设备功能对应的触发动作配置指令。

动作设定模块，用于执行所述触发动作配置指令进行所述设备功能的预置触发动作选择或触发动作自定义处理，获得所述设备功能的设定动作。

进一步的，动作设定模块用于根据所述触发动作配置指令所指示进行的触发动作自定义配置，获得动作图像数据，所述动作图像数据用于描述自定义的所述设定动作。

在另一个示例性实施例中，该触发设备功能的装置还包括：向量构建模块。向量构建模块用于通过所述设备功能的设定动作，为选择调用的所述设备功能提取表征所述设定动作的目标向量，所述目标向量用于检测触发的所述动作是否符合所述设定动作。

图19是根据一示例性实施例示出的一种控制进行图像捕获的装置的框图。在一个示例性实施例中，该控制进行图像捕获的装置，如图19所示，至少包括：

图像获取模块1210，用于终端设备所具备的摄像头拍照与视频功能被选择调用时所述摄像头拍照与视频功能等待被触发，摄像头拍照与视频功能跳转执行图像捕获得到图像数据。

关键点识别模块1230，用于对所述图像数据进行图像中关键点的识别和定位，获得关键点的位置信息。

动作感知模块1250，用于根据所述关键点的位置信息识别触发的动作，所述动作是在所进行的图像捕获过程中触发的。

摄像头触发模块1270，用于在所触发动作符合触发摄像头拍照与视频功能的设定动作时，触发完成所述终端设备中调用的摄像头拍照与视频功能。

在一个示例性实施例中，图像获取模块1210被配置执行：

为所述摄像头拍照与视频页面上进行的图像捕捉触发生摄像头拍照与视频功能调用指令；

根据所述摄像头拍照与视频功能调用指令发起所述终端设备的图像捕获，获得图像数据。

在一个示例性实施例中，摄像头触发模块1270在所触发动作符合触发所述设备功能的设定动作时，对终端设备调用摄像头拍照与视频功能触发当前所捕获图像的图像画面采集和/或录制，获得所述摄像头拍照与视频功能触发下对应于所述图像画面的照片和/或视频。

在另一个示例性实施例中，该控制进行图像捕获的装置还被配置执行：

根据所述摄像头拍照与视频功能而进行的触发动作配置，接收触发动作配置指令；

执行所述触发动作配置指令进行所述摄像头拍照与视频功能的预置触发动作选择或触发动作自定义处理，获得所述摄像头拍照与视频功能的设定动作。

可选的，本发明还提供一种机器设备，该机器设备可以用于前述所示实施环境中，执行图3、图4、图5、图6、图7、图8、图9、图12和图13任一所示的方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

所述计算机可读指令被所述处理器执行时实现前述所述的方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关该方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器204，上述指令可由装置200的处理器218执行以完成上述方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种触发设备功能的方法，其特征在于，所述方法应用于终端设备，所述方法包括：

所述终端设备响应选择调用设备功能的操作，跳转进入所述终端设备中的摄像头拍照与视频页面，所述设备功能包括语音输入；

为所述摄像头拍照与视频页面上进行的图像捕捉触发生成设备功能调用指令，所述设备功能调用指令所指示调用的设备功能将在检测到图像所存在动作符合设定动作之后自动触发；

在调用的所述设备功能所进行的触发等待中，根据所述设备功能调用指令发起终端设备的图像捕获，获得加载至内存中的图像数据，而不仅仅进行着摄像头拍照与视频页面中捕获图像的显示；

对所述图像数据进行图像中关键点的识别和定位，获得关键点的位置信息，所述关键点将用于表征动作，所识别定位得到的关键点的位置信息将在空间上描述了触发的动作；

根据所述向量进行所触发动作与设定动作之间的匹配，以判定所述所触发动作是否符合设定动作，对于根据所述向量而进行的动作之间匹配，将通过角度匹配的方式实现，针对于所触发动作的向量和设定动作对应的向量，进行向量之间夹角的计算，将所计算得到的夹角与动作识别阈值进行比较以判定所触发动作是否符合设定动作；

2.根据权利要求1所述的方法，其特征在于，所述对所述图像数据进行图像中关键点的识别和定位，获得关键点的位置信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述设备功能包括所述终端设备中的摄像头拍照与视频功能，在用户所触发动作符合触发所述设备功能的设定动作时，触发完成所述终端设备中调用的所述设备功能，包括：

4.根据权利要求1所述的方法，其特征在于，所述在所触发动作符合触发所述设备功能的设定动作时，触发完成所述终端设备中调用的所述设备功能之前，所述方法还包括：

根据对所述设备功能而进行的触发动作配置，接收所述设备功能对应的触发动作配置指令；

执行所述触发动作配置指令进行所述设备功能的预置触发动作选择或触发动作自定义处理，获得所述设备功能的设定动作。

5.根据权利要求4所述的方法，其特征在于，所述执行所述触发动作配置指令进行所述设备功能的触发动作自定义处理，获得所述设备功能的设定动作，包括：

根据所述触发动作配置指令所指示进行的触发动作自定义配置，获得动作图像数据，所述动作图像数据用于描述自定义的所述设定动作。

6.根据权利要求5所述的方法，其特征在于，所述执行所述触发动作配置指令进行所述设备功能的触发动作自定义处理，获得所述设备功能的设定动作之后，所述方法还包括：

通过所述设备功能的设定动作，为选择调用的所述设备功能提取表征所述设定动作的目标向量，所述目标向量用于检测触发的所述动作是否符合所述设定动作。

7.一种触发设备功能的装置，其特征在于，所述装置被配置于终端设备，所述装置包括：

图像捕获模块，用于所述终端设备响应选择调用设备功能的操作，跳转进入所述终端设备中的摄像头拍照与视频页面，所述设备功能包括语音输入；

关键点检测模块，用于对所述图像数据进行图像中关键点的识别和定位，获得关键点的位置信息，所述关键点将用于表征动作，所识别定位得到的关键点的位置信息将在空间上描述了触发的动作；

动作识别模块，用于根据所述关键点的位置信息构建向量，所述向量用于在空间中描述所触发的动作；

8.一种机器设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至6中任一项所述的方法。