CN113495490A

CN113495490A - 设备控制方法、装置、电子设备及存储介质

Info

Publication number: CN113495490A
Application number: CN202010266807.5A
Authority: CN
Inventors: 鲁静; 张龙
Original assignee: Eigenstone Technology Co ltd
Current assignee: Eigenstone Technology Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2021-10-12
Anticipated expiration: 2040-04-07
Also published as: CN113495490B

Abstract

本发明实施例公开了一种设备控制方法、装置、电子设备及存储介质，其中，所述设备控制方法包括：获取包含若干个红外图像的红外图像序列；针对所述红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个骨架信息，每一个骨架信息对应一个目标；根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列；根据所述骨架序列进行目标执行动作的识别，得到所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。采用本发明所提供的动作识别方法、装置、电子设备及存储介质解决了现有技术中设备控制存在泄漏用户隐私的风险的问题。

Description

设备控制方法、装置、电子设备及存储介质

技术领域

本发明涉及设备控制技术领域，尤其涉及一种设备控制方法、装置、电子设备及存储介质。

背景技术

随着物联网技术的发展，越来越多的智能设备进入人们的视野，例如，智能空调、智能门锁、窗帘电机等等。

智能设备部署在网关中，并通过与网关之间的交互，使得用户可以借助用户设备(例如智能手机)，监控或者控制家中的智能设备。对于智能设备的控制，往往需要在用户设备中启动相应的客户端，并通过用户在客户端输入一系列操作，方可实现，然而，过于繁琐的操作并不利于提高设备控制的实用性。

为此，动作控制设备的方案应运而生，此方案中，对目标所执行的特定动作加以识别，即可实现设备控制，例如，张开双手臂的动作可控制开灯，或者，合拢双手臂的动作可控制关灯等等，从而避免用户基于客户端输入一系列操作，进而有效地提高设备控制的实用性。

然而，发明人意识到，对于用户而言，在卧室、卫生间等私密性高的空间内，用户对自己隐私是否安全心存顾虑，很可能非常排斥安装常规的摄像设备，例如摄像头。

因此，如何在设备控制过程中避免泄漏用户隐私亟待解决。

发明内容

本发明各实施例提供一种设备控制方法、装置、电子设备及存储介质，以此解决相关技术中设备控制存在泄漏用户隐私的风险的问题。

其中，本发明所采用的技术方案为：

根据本发明实施例的一个方面，一种设备控制方法，包括：获取包含若干个红外图像的红外图像序列；针对所述红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个骨架信息，每一个骨架信息对应一个目标；根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列；根据所述骨架序列进行目标执行动作的识别，得到所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作

根据本发明实施例的一个方面，一种设备控制装置，包括：图像获取模块，用于获取包含若干个红外图像的红外图像序列；骨架提取模块，用于针对所述红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个骨架信息，每一个骨架信息对应一个目标；骨架跟踪模块，用于根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列；动作识别模块，用于根据所述骨架序列进行目标执行动作的识别，得到所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。

在一个实施例中，所述骨架提取模块，包括：位置获取单元，用于针对所述红外图像序列中的每一个红外图像，将该红外图像输入骨架提取网络，输出得到目标在该红外图像中的多个关键点位置；位置生成单元，用于由该目标在该红外图像中的多个关键点位置，生成对应于该目标的骨架信息。

在一个实施例中，所述位置获取单元，包括：关键点类别预测子单元，用于基于所述骨架提取网络，对该红外图像中的每一个像素点进行关键点类别预测，得到该像素点的关键点类别；关键点确定子单元，用于根据该红外图像中像素点的关键点类别，确定属于该目标同一个关键点的像素点；位置确定子单元，用于将属于该目标同一个关键点的像素点的位置，作为该目标该同一个关键点在该红外图像中的关键点位置。

在一个实施例中，所述设备控制装置，还包括：数据采集模块，用于利用布设在特定采集高度和特定采集距离的若干台红外热成像设备，在特定目标执行若干个特定动作时，从不同方位采集训练数据；骨架训练集生成模块，用于对采集到的训练数据进行关键点位置标注，生成骨架网络训练集；骨架网络训练模块，用于根据所述骨架网络训练集对第一基础模型进行训练，生成所述骨架提取网络。

在一个实施例中，所述骨架跟踪模块，包括：骨架确定单元，用于在各红外图像中，根据提取到的骨架信息确定对应于骨架信息的骨架区域；骨架搜索单元，用于根据当前一个红外图像中的每一个骨架区域，在所述红外图像序列中搜索与该骨架区域相匹配的骨架区域；第一序列生成单元，用于如果搜索到与该骨架区域相匹配的骨架区域，则将该骨架区域对应的骨架信息，添加至相匹配骨架区域对应的骨架信息所在的骨架序列；第二序列生成单元，用于如果搜索不到与该骨架区域相匹配的骨架区域，则由该骨架区域对应的骨架信息生成一个新的骨架序列。

在一个实施例中，所述骨架搜索单元，包括：第一搜索子单元，用于根据当前一个红外图像中的每一个骨架区域，在前一个红外图像中搜索与该骨架区域相匹配的骨架区域；第二搜索子单元，用于如果前一个红外图像中搜索不到与该骨架区域相匹配的骨架区域，则在前特定数量个红外图像中搜索与该骨架区域相匹配的骨架区域。

在一个实施例中，所述第一搜索子单元，包括：重叠度计算子单元，用于针对当前一个红外图像中的每一个骨架区域，计算该骨架区域与前一个红外图像中骨架区域之间的重叠度；相似度计算子单元，用于基于所述重叠度，计算该骨架区域与前一个红外图像中骨架区域之间的相似度；骨架确定子单元，用于根据所述相似度，在前一个红外图像中，确定与该骨架区域相匹配的骨架区域。

在一个实施例中，所述骨架确定子单元，包括：校验子单元，用于基于所述相似度，如果前一个红外图像中存在与该骨架区域相匹配的骨架区域，则对前一个红外图像中与该骨架区域相匹配的骨架区域进行连续性校验；确定子单元，用于在前一个红外图像中，确定连续性校验成功的骨架区域与该骨架区域相匹配。

在一个实施例中，所述动作识别模块，包括：动作类别预测单元，用于将所述骨架序列输入动作识别网络，对所述骨架序列中的每一个骨架信息进行动作类别预测，得到该骨架信息的动作类别；动作确定单元，用于根据所述骨架序列中各骨架信息的动作类别，确定各骨架信息所对应的同一个目标执行的动作；设备控制单元，用于将确定的动作作为所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。

在一个实施例中，所述设备控制装置，还包括：数据连接模块，用于基于特定目标执行若干个特定动作时采集到的训练数据，将对应于同一个特定动作的训练数据连接形成动作图像序列；识别训练集生成模块，用于根据该同一个特定动作对所述动作图像序列进行标注，并由标注的动作图像序列提取得到的骨架信息生成识别网络训练集；识别网络训练模块，用于根据所述识别网络训练集对第二基础模型进行训练，生成所述动作识别网络。

根据本发明实施例的一个方面，一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的设备控制方法。

根据本发明实施例的一个方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的设备控制方法。

在上述技术方案中，获取包含若干个红外图像的红外图像序列，使得用户隐私在智能家居场景中得到很好的保护；同时，针对红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个对应于目标的骨架信息，并根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列，进而根据该骨架序列进行目标执行动作的识别，从而通过动作识别结果控制设备执行对应的操作，由此，实现基于红外图像的连续性动作的识别，充分体现了简单高效的设备控制，进一步有效地提高了设备控制的实用性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种电子设备的硬件结构图。

图3是根据一示例性实施例示出的一种设备控制方法的流程图。

图4是图3对应实施例中步骤330在一个实施例的流程图。

图5是图4对应实施例中步骤331在一个实施例的流程图。

图6是根据一示例性实施例示出的另一种设备控制方法的流程图。

图7是图6对应实施例所涉及的红外热成像设备的布设示意图一。

图8是图6对应实施例所涉及的红外热成像设备的布设示意图二。

图9是图3对应实施例中步骤350在一个实施例的流程图。

图10是图7对应实施例中步骤353在一个实施例的流程图。

图11是图10对应实施例中步骤3535在一个实施例的流程图。

图12是图3对应实施例中步骤370在一个实施例的流程图。

图13是根据一示例性实施例示出的另一种设备控制方法的流程图。

图14是根据一示例性实施例示出的一种设备控制装置的框图。

图15是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1为一种设备控制方法所涉及的实施环境的示意图。该实施环境包括用户设备110、路由器120、网关150、部署在网关150中的智能设备130以及服务器端170。

具体而言，用户设备110可以是台式电脑、笔记本电脑、平板电脑、智能手机或者其他可实施通信连接的电子设备，在此不进行具体限定。

智能设备130部署于网关150，并通过其自身所配置的通信模块(例如ZIGBEE、Wi-Fi或者蓝牙)接入网关150，进而实现与网关150之间的交互。该智能设备130可以是智能打印机、智能传真机、智能摄像机、智能空调、智能门锁、智能灯或者配置了通信模块的人体传感器、门窗传感器、温湿度传感器、水浸传感器、天然气报警器、烟雾报警器、墙壁开关、墙壁插座、无线开关、无线墙贴开关、魔方控制器、窗帘电机等等电子设备，在此也不进行具体限定。

用户设备110与网关150以及部署在网关150中的智能设备130进行交互，使得用户得以借助用户设备110控制部署在网关150中的智能设备130执行操作。在一个应用场景中，用户设备110通过路由器130与网关150之间建立有线或者无线等方式的通信连接，使得用户设备110与网关150部署于同一个局域网络，进而使得用户设备110可通过局域网络路径实现与智能设备130、网关150之间的交互。在另一个应用场景中，用户设备110通过服务器端170与网关150之间建立有线或者无线等方式的通信连接，例如，该有线或者无线等方式包括但不限于2G/3G/4G/5G、Wi-Fi等，使得用户设备110与网关150部署于同一个广域网络，进而使得用户设备110可通过广域网络路径实现与智能设备130、网关150之间的交互。

其中，服务器端170可以是一台服务器，也可以是由多台服务器构成的一个服务器集群，或者是由多台服务器构成的云计算中心，以便于更好地向海量用户设备110以及智能设备130提供后台服务。例如，服务器是为用户提供后台服务的电子设备，该后台服务包括但不限于设备控制服务。

随着用户设备110、智能设备130与网关150之间的交互，目标(例如用户)即可执行特定动作，并以此借助用户设备110对该特定动作加以识别，进而向网关150请求对智能设备130进行控制，使得智能设备130按照目标所执行的特定动作完成对应的操作，由此实现用户借助特定动作对智能设备130的控制。

图2是根据一示例性实施例示出的一种电子设备的硬件结构图。该种电子设备适用于图1所示出实施环境的用户设备110。

需要说明的是，该种电子设备只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该种电子设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的电子设备200中的一个或者多个组件。

电子设备200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，电子设备200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。

具体地，电源210用于为电子设备200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口，用于与外部设备交互。例如，进行图1所示出实施环境中用户设备110与网关150之间的交互，或者，进行图1所示出实施环境中网关150与智能设备130之间的交互。

当然，在其余本发明适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图2所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备200上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对电子设备200的一系列计算机可读指令。例如，设备控制装置可视为部署于电子设备200的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是动作识别结果等等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成设备控制方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图3，在一示例性实施例中，一种设备控制方法适用于电子设备，例如图1所示实施环境中的用户设备110，该电子设备的结构可以如图2所示。

该种设备控制方法可以由电子设备执行，也可以理解为由电子设备中运行的应用程序(例如设备控制装置)执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为电子设备加以说明，但是并不对此构成限定。

该种设备控制方法可以包括以下步骤：

步骤310，获取包含若干个红外图像的红外图像序列。

首先说明的是，红外图像，是在智能家居场景中通过布设红外热成像设备替代常规的摄像设备生成的。其中，红外热成像设备可以布设在智能家居场景中的各处，在此不加以限定。

具体地，在目标执行动作过程中，使用该红外热成像设备对目标执行的动作进行拍摄和采集生成的。其中，目标是指智能家居场景中的任意对象，例如，某个人、某个动物、某个智能机器人、某部智能手机等等，此处也不加以限定。

通过如此设置，基于红外图像仅能够显示出目标的轮廓，避免用户隐私被泄漏，进而在智能家居场景中有效地保护了用户隐私。

可以理解，拍摄可以是单次拍摄，还可以是连续性拍摄，那么，对于连续性拍摄而言，红外图像序列中的红外图像，相当于一段视频中的某个画面；而就单次拍摄来说，红外图像序列中的红外图像，相当于一张图片，本实施例对此并未加以限定。

其次，关于红外图像序列中红外图像的获取，可以是红外热成像设备实时采集并上传至电子设备，还可以是红外热成像设备在采集后预先存储于本地，在电子设备下发图像采集指令时，将特定历史时间段内采集到的红外图像发送至电子设备，本实施例在此也并未加以限定。

步骤330，针对所述红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个骨架信息。

可以理解，在红外热成像设备采集红外图像时，并非仅限于一个目标执行动作，也可能存在多个目标同时执行动作。由此，对于一个红外图像而言，将提取得到至少一个骨架信息，每一个骨架信息对应一个目标。

其中，骨架信息用于表示其所对应的目标执行动作时在红外图像中的多个关键点。

以目标为人举例说明，人执行动作时在红外图像中的关键点，包括但不限于：鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左臀、右臀、左膝、右膝、左踝、右踝等等。

下面对骨架信息的提取过程进行详细地说明。

如图4所示，骨架信息的提取过程可以包括以下步骤：

步骤331，针对所述红外图像序列中的每一个红外图像，将该红外图像输入骨架提取网络，输出得到目标在该红外图像中的多个关键点位置。

应当理解，目标执行动作时在红外图像中的关键点，是由红外图像中的像素点构成的，而像素点在红外图像中具有唯一的位置，由坐标(x,y)进行表示。基于此，目标在红外图像中的关键点位置实质为该目标在红外图像中的像素点位置。

本实施例中，关键点位置预测，是通过骨架提取网络实现。

该骨架提取网络，由基础模型训练生成，实质是在红外图像中的像素点与关键点类别之间构建了数学映射关系。

其中，基础模型包括但不限于监督学习模型、无监督学习模型、强化学习模型。该监督学习模型进一步包括：卷积神经网络模型、循环神经网络模型、递归神经网络模型等等。

那么，基于骨架提取网络提供的数学映射关系，便可通过红外图像的输入，预测得到目标在红外图像中的多个关键点位置。

具体地，如图5所示，步骤331可以包括以下步骤：

步骤3311，基于所述骨架提取网络，对该红外图像中的每一个像素点进行关键点类别预测，得到该像素点的关键点类别。

其中，关键点类别预测，是通过骨架提取网络中的分类器实现的。具体地，基于该分类器，计算红外图像中该像素点属于不同关键点类别的概率。

假设关键点类别共17种，分别是鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左臀、右臀、左膝、右膝、左踝、右踝。

通过分类器的概率计算，红外图像中该像素点属于鼻子的概率为P₁，红外图像中该像素点属于左眼的概率为P₂，以此类推，红外图像中该像素点属于右踝的概率为P₁₇。值得一提的是，P₁+P₂+……+P₁₇＝1。

那么，如果概率最大值为P₁，则预测该像素点的关键点类别为鼻子，同理，如果概率最大值为P₂，则预测该像素点的关键点类别为左眼，以此类推。也就是说，该像素点属于某个关键点类别的概率最大，该像素点的关键点类别即为该某个关键点类别。

待红外图像中所有像素点完成关键点类别预测，便得到该红外图像中所有像素点的关键点类别。

步骤3313，根据该红外图像中像素点的关键点类别，确定属于该目标同一个关键点的像素点。

仍以前述例子进行说明，按照图像扫描顺序来说，假设红外图像中第一个像素点的关键点类别为鼻子，第二个像素点的关键点类别为鼻子，第三个像素点的关键点类别为左眼，第四个像素点的关键点类别为左眼，……。

那么，便可确定属于该目标同一个关键点(鼻子)的像素点有第一个像素点和第二个像素点，而属于该目标同一个关键点(左眼)的像素点有第三个关键点和第四个关键点。

步骤3315，将属于该目标同一个关键点的像素点的位置，作为该目标该同一个关键点在该红外图像中的关键点位置。

由上可知，第一个像素点和第二个像素点的位置，即视为该目标该同一个关键点(鼻子)在该红外图像中的关键点(鼻子)位置。同理，第三个像素点和第四个像素点的位置，即视为该目标该同一个关键点(左眼)在该红外图像中的关键点(左眼)位置。

步骤333，由该目标在该红外图像中的多个关键点位置，生成对应于该目标的骨架信息。

也就是说，在一些实施方式中，骨架信息＝{鼻子位置、左眼位置、右眼位置、……}＝{{第一个像素点位置、第二个像素点位置、……}、{第三个像素点位置、第四个像素点位置、……}、……}。

当然，在一些实施方式中，还可以将属于该目标同一个关键点的多个像素点中概率最高的像素点作为最终的该目标关键点的像素点。例如，第一个像素点和第二个像素点相比，第一像素点具有的概率更高，即视为该目标该同一个关键点(鼻子)在该红外图像中的关键点(鼻子)位置。同理，第三个像素点和第四个像素点的位置，第四像素点具有概率更高，即视为该目标该同一个关键点(左眼)在该红外图像中的关键点(左眼)位置。

也就是说，骨架信息＝{鼻子位置、左眼位置、右眼位置、……}＝{{第一个像素点位置}、{第四个像素点位置}、……}。

步骤350，根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列。

应当理解，设备控制通常是响应于同一个目标执行的动作，换而言之，同一个目标执行的动作，用于控制设备执行对应的操作。例如，张开双手臂控制开灯。

因此，本实施例中，通过跟踪，在各红外图像提取得到的骨架信息中，搜索对应于同一个目标的骨架信息，以便于能够根据该同一个目标执行的动作控制设备执行对应的操作。

可选地，跟踪方法包括但不限于：基于轮廓的跟踪、基于特征的跟踪、基于区域的跟踪、基于模型的跟踪等等。例如，KLT算法属于基于特征的跟踪，能够在众多骨架信息中针对各骨架信息对应的目标进行全局搜索，以此实现跟踪对应于同一个目标的骨架信息。

在获得对应于同一个目标的骨架信息之后，便能够由对应于同一个目标的骨架信息生成骨架序列。

应当理解，红外图像的采集是有时间顺序的，相应地，骨架信息之间也具有时间顺序。因此，骨架序列的生成，实质是按照时间顺序添加跟踪到的骨架信息。例如，当前一个红外图像中跟踪到的骨架信息，优先于后一个红外图像中跟踪到的骨架信息，添加至骨架序列。

步骤370，根据所述骨架序列进行目标执行动作的识别，得到所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。

本实施例中，动作识别，是通过动作识别网络实现。

该动作识别网络，由基础模型训练生成，实质是在骨架序列所包含的骨架信息与动作类别之间构建了数学映射关系。

那么，基于动作识别网络提供的数学映射关系，便可通过骨架序列的输入，输出得到对应的动作识别结果，进而通过该动作识别结果控制设备执行对应的操作。

通过如上所述的过程，使用红外热成像设备替代常规的摄像设备进行前端图像采集，应用在智能家居场景中，充分地提高了用户隐私的安全性，进而提高了设备控制的安全性。

此外，通过骨架信息的跟踪，实现了基于红外图像的连续性动作的识别，充分体现了简单高效的设备控制，进一步有效地提高了设备控制的实用性。

在一示例性实施例中，步骤330之前，如上所述的方法还可以包括以下步骤：

生成骨架提取网络。

其中，骨架提取网络的生成，一方面，可通过离线的方式完成，例如，由服务器端基于各个智能家居场景中采集到的红外图像，对基础模型加以训练，生成骨架提取网络，并应用在不同智能家居场景中的用户设备，即利用该骨架提取网络进行骨架信息提取；另一方面，也可通过离线和在线相互结合的方式完成，例如，对于用户设备而言，在获得服务器端生成的初始的骨架提取网络之后，基于该用户设备所在的智能家居场景中采集到的红外图像，继续对初始的骨架提取网络进行训练，生成最终的骨架提取网络，进而利用该骨架提取网络进行骨架信息提取，本实施例对此并未加以限定。

下面以离线方式为例，对骨架提取网络的生成过程进行详细地说明，该生成过程可以由服务器端完成。

具体地，如图6所示，骨架提取网络的生成过程可以包括以下步骤：

步骤410，利用布设在特定采集高度和特定采集距离的若干台红外热成像设备，在特定目标执行若干个特定动作时，从不同方位采集训练数据。

可选地，对于不同的特定目标，若干台红外热成像设备按照特定采集高度和特定采集距离布设，使得采集到的训练数据具有不同高度和/或不同距离。其中，特定采集高度是指红外热成像设备与地面之间的垂直高度；特定采集距离是指红外热成像设备与目标之间的水平距离。

当然，特定采集高度和特定采集距离，可以根据应用场景的实际需要灵活地设置。例如，特定目标为人时，特定采集高度H可以为0.5米～2.7米，特定采集距离D可以为2米～4.5米，如图7所示。

可选地，若干台红外热成像设备按照特定方位角度布设，使得采集到的训练数据具有不同视角。其中，特定方位角度是指红外热成像设备与目标构成的平面与水平面之间的夹角。当然，特定方位角度，可以根据应用场景的实际需要灵活地设置。

举例来说，如图8所示，红外热成像设备1按照特定方位角度为左方位45°布设，红外热成像设备2按照特定方位角度为0°布设，红外热成像设备3按照特定方位角度为右方位45°布设。

当特定目标面向红外热成像设备1执行特定动作，便可采集到正面视角、左视角、左边45°视角的训练数据。当特定目标面向红外热成像设备3执行特定动作，便可采集到正面视角、右视角、右边45°视角的训练数据。

可选地，在同一个采集时段，保持同一个特定目标；在不同采集时段，保持不同的特定目标，使得采集到的训练数据具有不同的目标特性。其中，不同的特定目标，可以是年龄不同、性别不同、身高不同等等。

可选地，特定动作，包括但不限于：张开双手臂、合拢双手臂、举起左手臂、举起右手臂、跳跃、下蹲、抬头、低头等等，使得采集到的训练数据对应于不同的动作。

通过以上设置，加强训练数据的多样性，从而有利于提高动作识别的精准度，进而有利于实现设备的精准控制。

步骤430，对采集到的训练数据进行关键点位置标注，生成骨架网络训练集。

其中，关键点包括但不限于：鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左臀、右臀、左膝、右膝、左踝、右踝等等。相应地，关键点位置标注，是指在训练数据中对上述关键点的关键点位置进行标记。

在此，发明人意识到，由于训练数据具有不同视角，则可能存在某个关键点在训练数据中被遮挡。基于此，本实施例中，关键点位置标注，还需要对上述关键点的关键点位置进行可见性标记，以此提升动作识别的精准度。

举例来说，如图8所示，对于红外热成像设备1而言，训练数据中的关键点，例如鼻子、左眼、右眼均可见，而左腕则可能存在遮挡。那么，对于鼻子、左眼、右眼等关键点来说，对应的关键点位置标记为1，表示关键点可见，而对于左腕来说，对应的关键点位置标记为0，表示关键点不可见。

当然，在其他实施例中，可见性标记，并不局限于关键点可见1和关键点不可见0两种标记，还可以设置更多标记，例如，0表示关键点的可见性未知，1表示关键点不可见，2表示关键点可见，本实施例并非对此构成具体限定。

在完成关键点位置标注之后，便由标注的训练数据生成骨架网络训练集。

步骤450，根据所述骨架网络训练集对第一基础模型进行训练，生成所述骨架提取网络。

其中，训练，是基于骨架网络训练集中的训练数据，对第一基础模型的参数进行多次优化，直至该第一基础模型在参数优化过程中逐步收敛为骨架提取网络。

具体地，随机初始化第一基础模型的参数，并根据初始化的参数和骨架网络训练集中的第一个训练数据，计算指定函数的损失值。其中，指定函数可以是期望函数、交叉熵函数、类内分布函数、类间分布函数、激活分类函数等等。

计算得到的损失值越小，表示预测的关键点位置与标注的关键点位置越接近，也可以理解为，关键点位置的预测能力越强。

可以理解，如果关键点位置的预测能力足够强，则第一基础模型无需再训练，即视为第一基础模型收敛为骨架提取网络。基于此，设置一个损失阈值，作为第一基础模型的收敛条件，该损失阈值可以根据应用场景的实际需要灵活地调整，此处不加以限定。

如果损失值超过损失阈值，表示预测的关键点位置与标注的关键点位置仍存在较大差距，则对第一基础模型的参数进行更新，并根据更新的参数和骨架网络训练集中的第二个训练数据，继续对第一基础模型进行训练。

反之，如果损失值低于损失阈值，表示预测的关键点位置与标注的关键点位置之间的差距已经足够小，则训练完成。此时，第一基础模型的参数视为最佳参数，具有该最佳参数的第一基础模型即为骨架提取网络。

由此，骨架提取网络，便具备了关键点位置预测能力，为实现对应于同一个目标的骨架信息跟踪提供了数据依据，进而使得基于动作的设备控制得以实现。

请参阅图9，在一示例性实施例中，步骤350可以包括以下步骤：

步骤351，在各红外图像中，根据提取到的骨架信息确定对应于骨架信息的骨架区域。

本实施例中，跟踪方法采用基于轮廓的跟踪。

如前所述，骨架信息，是由目标在红外图像中的多个关键点位置生成的，由此，骨架信息对应的骨架区域，实质是由目标在红外图像中的多个关键点位置确定的最小外接矩形。也可以理解为，骨架区域，用于表示目标在红外图像中的骨架轮廓，相当于目标在红外图像中的“骨架”。

步骤353，根据当前一个红外图像中的每一个骨架区域，在所述红外图像序列中搜索与该骨架区域相匹配的骨架区域。

在确定各骨架信息对应的骨架区域之后，便能够在众多骨架信息中针对各骨架信息对应的骨架区域进行全局搜索，以此实现相匹配骨架区域的跟踪，进而实现跟踪对应于同一个目标的骨架信息。

其中，全局搜索，是指针对当前一个红外图像中的每一个骨架区域而言，在红外图像序列中搜索与该骨架区域相匹配的骨架区域。

具体地，根据当前一个红外图像中的每一个骨架区域，在前一个红外图像中搜索与该骨架区域相匹配的骨架区域。

如果前一个红外图像中搜索到与该骨架区域相匹配的骨架区域，则执行步骤355。反之，如果前一个红外图像中搜索不到与该骨架区域相匹配的骨架区域，则在前特定数量个红外图像中继续搜索与该骨架区域相匹配的骨架区域。

其中，特定数量个可以根据应用场景的实际需要灵活地设置。例如，特定数量个为3个。也就是说，在前3个红外图像中搜索与该骨架区域相匹配的骨架区域，本实施例并非对此构成具体限定。

如果在前特定数量个红外图像中搜索到与该骨架区域相匹配的骨架区域，则执行步骤355。反之，如果在前特定数量个红外图像中仍然搜索不到与该骨架区域相匹配的骨架区域，则视为搜索不到与该骨架区域相匹配的骨架区域，并执行步骤357。

步骤355，如果搜索到与该骨架区域相匹配的骨架区域，则将该骨架区域对应的骨架信息，添加至相匹配骨架区域对应的骨架信息所在的骨架序列。

步骤357，如果搜索不到与该骨架区域相匹配的骨架区域，则由该骨架区域对应的骨架信息生成一个新的骨架序列。

举例来说，假设当前一个红外图像中，提取得到2个骨架信息，分别为骨架信息00、骨架信息01。而前一个红外图像中，提取得到3个骨架信息，分别为骨架信息10、骨架信息11、骨架信息12。

如果骨架信息00对应的骨架区域搜索到与骨架信息11对应的骨架区域相匹配，则，骨架序列1＝{……、骨架信息11、骨架信息00}。

也就是说，跟踪到的骨架信息所对应的目标是一个已存在的目标。在添加骨架信息00之前，骨架序列1已经包含了若干个骨架信息，例如，骨架信息11，该若干个骨架信息对应的骨架区域与骨架信息00对应的骨架区域相匹配。

如果骨架信息01对应的骨架区域搜索不到相匹配骨架区域，则，骨架序列2＝{骨架信息01}。

也就是说，跟踪到的骨架信息所对应的目标是一个新的目标，由此，骨架序列2是一个新的骨架序列，随着骨架区域的全局搜索，将进一步添加对应于该新的目标的骨架信息。

在上述实施例的配合下，实现了基于骨架区域的跟踪，充分保障了骨架序列中骨架信息所对应目标的一致性，为动作识别提供了数据依据，进而使得基于动作的设备控制得以实现。

请参阅图10，在一示例性实施例中，步骤353可以包括以下步骤：

步骤3531，针对当前一个红外图像中的每一个骨架区域，计算该骨架区域与前一个红外图像中骨架区域之间的重叠度。

本实施例中，重叠度，用于表示当前一个红外图像中的骨架区域与前一个红外图像中的骨架区域之间是否存在重叠。

其中，重叠度为0，表示当前一个红外图像中的骨架区域与前一个红外图像中的骨架区域之间不存在重叠；重叠度大于0，表示当前一个红外图像中的骨架区域与前一个红外图像中的骨架区域之间存在重叠。

仍以前述例子进行说明，假设当前一个红外图像中，提取得到2个骨架信息，分别为骨架信息00、骨架信息01。而前一个红外图像中，提取得到3个骨架信息，分别为骨架信息10、骨架信息11、骨架信息12。

通过重叠度计算，上述相邻两个红外图像中的骨架区域之间的重叠度如表1所示。

表1相邻两个红外图像中的骨架区域之间的重叠度

对应骨架信息	10	11	12
				00	>0	>0	0
01	0	0	>0

由上可知，骨架信息00对应的骨架区域，与骨架信息10、骨架信息11对应的骨架区域之间存在重叠。而骨架信息01对应的骨架区域，则与骨架信息12对应的骨架区域之间存在重叠。

步骤3533，基于所述重叠度，计算该骨架区域与前一个红外图像中骨架区域之间的相似度。

本实施例中，相似度，用于表示当前一个红外图像中的骨架区域与前一个红外图像中的骨架区域之间的相似程度。相似度越高，表示二者越相似，则隶属于同一个目标的可能性越大。例如，相似度为1，表示当前一个红外图像中的其中一个骨架区域与前一个红外图像中的其中一个骨架区域之间完全相同。

然而，发明人意识到，相似度计算，实质是计算当前一个红外图像中各关键点位置与前一个红外图像中各关键点位置之间的欧式距离。假设当前一个红外图像中的骨架区域的个数为N，而前一个红外图像中的骨架区域的个数为M，那么，随着骨架区域个数的增加，计算复杂度O(NM)将成倍增长，严重地影响了动作识别的效率，进而影响到用户的设备控制体验。

因此，本实施例中，相似度计算，需要基于重叠度。

也就是说，对于当前一个红外图像中的每一个骨架区域，并不是计算该骨架区域与前一个红外图像中所有骨架区域之间的相似度，而仅有与该骨架区域之间的重叠度不为零的前一个红外图像中的骨架区域才会参与相似度计算，以此有效地降低计算复杂度，进而提高动作识别的效率，来提升用户的设备控制体验。

如前述例子，对于骨架信息00对应的骨架区域而言，仅有骨架信息10、骨架信息11对应的骨架区域参与相似度计算。而对于骨架信息01对应的骨架区域而言，则仅有骨架信息12对应的骨架区域参与相似度计算。

进一步地，本实施例中，相似度OKS(Object Keypoint Similarity)的计算公式如下：

其中，p对应于目标；i对应于关键点位置；d_pi为预测的关键点位置与标注的关键点位置之间的欧式距离；s_p为目标p的尺度因子，定义为目标p人体区域面积的平方根；σ_i是关键点归一化因子，由标注的关键点位置偏移的标准差计算得到；v_pi为目标p的第i个关键点的可见性，δ(·)为克罗内克函数，即只有被标记为可见的关键点(v＝1)方可计入评价指标。

仍以前述例子进行说明，通过相似度计算，上述相邻两个红外图像中的骨架区域之间的相似度如表2所示。

表2相邻两个红外图像中的骨架区域之间的相似度

对应骨架信息	10	11	12
				00	0.2	0.8	0
01	0	0	0.9

由上可知，骨架信息00对应的骨架区域，与骨架信息11对应的骨架区域最相似。而骨架信息01对应的骨架区域，则与骨架信息12对应的骨架区域最相似。

步骤3535，根据所述相似度，在前一个红外图像中，确定与该骨架区域相匹配的骨架区域。

如前述例子，根据相似度，在前一个红外图像中，骨架信息11对应的骨架区域，与骨架信息00对应的骨架区域相匹配。而骨架信息12对应的骨架区域，则与骨架信息01对应的骨架区域最相似。

在此，发明人意识到，对于骨架信息00对应的骨架区域而言，骨架信息11对应的骨架区域与之匹配，然而，如果考虑“骨架”连续性，则对于骨架信息11对应的骨架区域而言，骨架信息00对应的骨架区域也应该之匹配。

换而言之，只有骨架信息00对应的骨架区域与骨架信息11对应的骨架区域相互匹配，才能够表明在相邻红外图像中骨架信息00和骨架信息11对应于同一个目标。

因此，本实施例中，针对前一个红外图像中存在的与该骨架区域相匹配的骨架区域，需要进行双向匹配的确认。

具体地，如图11所示，双向匹配的确认过程可以包括以下步骤：

步骤3535a，基于所述相似度，如果前一个红外图像中存在与该骨架区域相匹配的骨架区域，则对前一个红外图像中与该骨架区域相匹配的骨架区域进行连续性校验。

为了方便描述，此处，将该骨架区域定义为第一骨架区域，将前一个红外图像中与该骨架区域相匹配的骨架区域定义为第二骨架区域。

那么，连续性校验，实质是根据第二骨架区域，在当前一个红外图像中搜索与第二骨架区域相匹配的骨架区域，进而验证搜索到的与第二骨架区域相匹配的骨架区域是否为第一骨架区域。

其中，搜索过程与步骤3531至步骤3535所描述的搜索过程大体一致，区别仅在于搜索对象由前一个红外图像中的骨架区域变更为当前一个红外图像中的骨架区域，此处不再重复赘述。

如果当前一个红外图像中存在与第二骨架区域相匹配的骨架区域即为第一骨架区域，则表示第二骨架区域的连续性校验成功，即执行步骤3535c。

反之，如果当前一个红外图像中不存在与第二骨架区域相匹配的骨架区域，则表示第二骨架区域的连续性校验失败。

在此说明的是，当第二骨架区域的连续性校验失败，可以在当前一个红外图像中，先假设存在一个全零骨架区域与该第二骨架区域相匹配，也即是，二者所对应的骨架信息属于同一个目标，此时，在该第二骨架区域对应的骨架信息所在的骨架序列中，添加该全零骨架区域对应的全零骨架信息。

然后，在随后的特定数量个(例如2个)红外图像中仍搜索不到与该第二骨架区域相匹配的骨架区域时，也即是，在该第二骨架区域对应的骨架信息所在的骨架序列中，出现了至少3个全零骨架信息，方可将该第二骨架区域对应的骨架信息由原骨架序列中删除，表示该骨架信息对应的目标已消失，从而避免误检，以此充分地保障跟踪的准确性。

步骤3535c，在前一个红外图像中，确定连续性校验成功的骨架区域与该骨架区域相匹配。

也就是说，在连续性校验成功之后，第一骨架区域和第二骨架区域之间具有连续性，表示二者所对应的骨架信息属于同一个目标，此时，便可确定第二骨架区域与第一骨架区域相匹配。

在上述过程中，不仅基于重叠度，有效地降低了相似度的计算复杂度，进而提高了动作识别的效率；而且通过连续性校验，充分地保障了跟踪的准确性，进而保障了动作识别的准确率，使得设备控制能够更加地精准，以此大大改善用户的设备控制体验。

请参阅图12，在一示例性实施例中，步骤370可以包括以下步骤：

步骤371，将所述骨架序列输入动作识别网络，对所述骨架序列中的每一个骨架信息进行动作类别预测，得到该骨架信息的动作类别。

同理于关键点类别预测，动作类别预测，是通过动作识别网络中的分类器实现的。具体地，基于该分类器，计算骨架序列中每一个骨架信息属于不同动作类别的概率。

假设动作类别包括张开双手臂、合拢双手臂。

通过分类器的概率计算，骨架序列中的该骨架信息属于张开双手臂的概率为P₁，骨架序列中的该骨架信息属于合拢双手臂的概率为P₂。值得一提的是，P₁+P₂＝1。

那么，如果P₁>P₂，则预测该骨架信息的动作类别为张开双手臂，反之，如果P₁<P₂，则预测该骨架信息的动作类别为合拢双手臂。

待骨架序列中的所有骨架信息完成动作类别预测，便得到各骨架信息的动作类别。

步骤373，根据所述骨架序列中各骨架信息的动作类别，确定各骨架信息所对应的同一个目标执行的动作。

可以理解，由于骨架序列中的各骨架信息所对应的是同一个目标，那么，在一个连续时段，该同一个目标执行的动作将保持一致，也可以理解为，骨架序列中的各骨架信息的动作类别是一致的。

仍以前述例子进行说明，在骨架序列中，如果超过特定数量比例的骨架信息的动作类别均为张开双手臂，则确定该骨架序列中各骨架信息所对应的同一个目标执行的动作为张开双手臂。

其中，特定数量比例，可以根据应用场景的实际需要灵活地设置，本实施例在此并未加以限定。例如，在识别精度要求高的应用场景中，特定数量比例为95％。

步骤375，将确定的动作作为所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。

例如，张开双手臂的动作可控制开灯，或者，合拢双手臂的动作可控制关灯等等。

在上述实施例的作用下，利用动作识别网络实现了基于红外图像的连续性动作的识别，为实现简单高效且私密性高的设备控制奠定了坚实基础。

在一示例性实施例中，步骤370之前，如上所述的方法还可以包括以下步骤：

生成动作识别网络。

同理于骨架提取网络，动作识别网络的生成也包括离线、离线+在线两种方式。

下面仍以离线方式为例，详细地说明动作识别网络的生成过程，该生成过程可以由服务器端完成。

具体地，如图13所示，动作识别网络的生成过程可以包括以下步骤：

步骤610，基于特定目标执行若干个特定动作时采集到的训练数据，将对应于同一个特定动作的训练数据连接形成动作图像序列。

如前所述，在同一个采集时段，可针对同一个特定目标执行的若干个特定动作进行训练数据采集。

那么，针对同一个特定目标采集到的训练数据，便可按照不同的特定动作加以划分，进而形成同一个特定目标的多个动作图像序列，每一个动作图像序列对应于一个特定动作。

应当理解，训练数据的采集具有时间顺序，因此，动作图像序列的生成，实质是按照时间顺序连接对应于同一个特定动作的训练数据。

步骤630，根据该同一个特定动作对所述动作图像序列进行标注，并由标注的动作图像序列提取得到的骨架信息生成识别网络训练集。

首先说明的是，动作标注，是对动作图像序列进行动作标记。

例如，动作图像序列是由对应于张开双手臂的训练数据连接形成的，则标记为ZK，表示特定动作为张开双手臂。或者，动作图像序列是由对应于合拢双手臂的训练数据连接形成的，则标记为HL，表示特定动作为合拢双手臂。

其次，识别网络训练集，由多个骨架序列生成。每一个骨架序列是由标注了某一个特定动作的动作图像序列提取得到的骨架信息生成的。换而言之，识别网络训练集中的每一个骨架序列，通过其所包含的骨架信息反映了同一个特定目标执行的同一个特定动作。

在此，骨架信息的提取，是基于骨架提取网络实现的，具体过程如前所述，此处不再重复赘述。

步骤650，根据所述识别网络训练集对第二基础模型进行训练，生成所述动作识别网络。

训练，是基于识别网络训练集，对第二基础模型的参数进行多次优化，进而在参数优化过程中，由第二基础模型收敛得到动作识别网络，具体过程同理于骨架提取网络的训练过程，此处不再重复赘述。

基于此，动作识别网络便具备了动作类别预测能力，使得基于动作的设备控制得以实现。

下述为本发明装置实施例，可以用于执行本发明所涉及的设备控制方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的设备控制方法的方法实施例。

请参阅图14，在一示例性实施例中，一种设备控制装置900包括但不限于：图像获取模块910、骨架提取模块930、骨架跟踪模块950以及动作识别模块970。

其中，图像获取模块910，用于获取包含若干个红外图像的红外图像序列。

骨架提取模块930，用于针对所述红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个骨架信息，每一个骨架信息对应一个目标。

骨架跟踪模块950，用于根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列。

动作识别模块970，用于根据所述骨架序列进行目标执行动作的识别，得到所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。

需要说明的是，上述实施例所提供的设备控制装置在进行设备控制时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即设备控制装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的设备控制装置与设备控制方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图15，在一示例性实施例中，一种电子设备1000，包括处理器1001以及存储器1002。

其中，所述存储器1002上存储有计算机可读指令。

所述计算机可读指令被所述处理器1001执行时实现上述各实施例中的设备控制方法。

在一示例性实施例中，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的设备控制方法。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种设备控制方法，其特征在于，包括：

获取包含若干个红外图像的红外图像序列；

针对所述红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个骨架信息，每一个骨架信息对应一个目标；

根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列；

根据所述骨架序列进行目标执行动作的识别，得到所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。

2.如权利要求1所述的方法，其特征在于，所述针对所述红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个骨架信息，包括：

针对所述红外图像序列中的每一个红外图像，将该红外图像输入骨架提取网络，输出得到目标在该红外图像中的多个关键点位置；

由该目标在该红外图像中的多个关键点位置，生成对应于该目标的骨架信息。

3.如权利要求2所述的方法，其特征在于，所述针对所述红外图像序列中的每一个红外图像，将该红外图像输入骨架提取网络，输出得到目标在该红外图像中的多个关键点位置，包括：

基于所述骨架提取网络，对该红外图像中的每一个像素点进行关键点类别预测，得到该像素点的关键点类别；

根据该红外图像中像素点的关键点类别，确定属于该目标同一个关键点的像素点；

将属于该目标同一个关键点的像素点的位置，作为该目标该同一个关键点在该红外图像中的关键点位置。

4.如权利要求2所述的方法，其特征在于，所述针对所述红外图像序列中的每一个红外图像，将该红外图像输入骨架提取网络，输出得到目标在该红外图像中的多个关键点位置之前，所述方法还包括：

利用布设在特定采集高度和特定采集距离的若干台红外热成像设备，在特定目标执行若干个特定动作时，从不同方位采集训练数据；

对采集到的训练数据进行关键点位置标注，生成骨架网络训练集；

根据所述骨架网络训练集对第一基础模型进行训练，生成所述骨架提取网络。

5.如权利要求1所述的方法，其特征在于，所述根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列，包括：

在各红外图像中，根据提取到的骨架信息确定对应于骨架信息的骨架区域；

根据当前一个红外图像中的每一个骨架区域，在所述红外图像序列中搜索与该骨架区域相匹配的骨架区域；

如果搜索到与该骨架区域相匹配的骨架区域，则将该骨架区域对应的骨架信息，添加至相匹配骨架区域对应的骨架信息所在的骨架序列；

如果搜索不到与该骨架区域相匹配的骨架区域，则由该骨架区域对应的骨架信息生成一个新的骨架序列。

6.如权利要求5所述的方法，其特征在于，所述根据当前一个红外图像中的每一个骨架区域，在所述红外图像序列中搜索与该骨架区域相匹配的骨架区域，包括：

根据当前一个红外图像中的每一个骨架区域，在前一个红外图像中搜索与该骨架区域相匹配的骨架区域；

如果前一个红外图像中搜索不到与该骨架区域相匹配的骨架区域，则在前特定数量个红外图像中搜索与该骨架区域相匹配的骨架区域。

7.如权利要求6所述的方法，其特征在于，所述根据当前一个红外图像中的每一个骨架区域，在前一个红外图像中搜索与该骨架区域相匹配的骨架区域，包括：

针对当前一个红外图像中的每一个骨架区域，计算该骨架区域与前一个红外图像中骨架区域之间的重叠度；

基于所述重叠度，计算该骨架区域与前一个红外图像中骨架区域之间的相似度；

根据所述相似度，在前一个红外图像中，确定与该骨架区域相匹配的骨架区域。

8.如权利要求7所述的方法，其特征在于，所述根据所述相似度，在前一个红外图像中，确定与该骨架区域相匹配的骨架区域，包括：

基于所述相似度，如果前一个红外图像中存在与该骨架区域相匹配的骨架区域，则对前一个红外图像中与该骨架区域相匹配的骨架区域进行连续性校验；

在前一个红外图像中，确定连续性校验成功的骨架区域与该骨架区域相匹配。

9.如权利要求1至8任一项所述的方法，其特征在于，所述根据所述骨架序列进行目标执行动作的识别，得到所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作，包括：

将所述骨架序列输入动作识别网络，对所述骨架序列中的每一个骨架信息进行动作类别预测，得到该骨架信息的动作类别；

根据所述骨架序列中各骨架信息的动作类别，确定各骨架信息所对应的同一个目标执行的动作；

将确定的动作作为所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。

10.如权利要求9所述的方法，其特征在于，所述将所述骨架序列输入动作识别网络，对所述骨架序列中骨架信息所对应的同一个目标执行的动作进行动作类别预测，得到该动作的动作类别之前，所述方法还包括：

基于特定目标执行若干个特定动作时采集到的训练数据，将对应于同一个特定动作的训练数据连接形成动作图像序列；

根据该同一个特定动作对所述动作图像序列进行标注，并由标注的动作图像序列提取得到的骨架信息生成识别网络训练集；

根据所述识别网络训练集对第二基础模型进行训练，生成所述动作识别网络。

11.一种设备控制装置，其特征在于，包括：

图像获取模块，用于获取包含若干个红外图像的红外图像序列；

骨架提取模块，用于针对所述红外图像序列中的每一个红外图像，从该红外图像中提取得到若干个骨架信息，每一个骨架信息对应一个目标；

骨架跟踪模块，用于根据各红外图像提取得到的骨架信息，跟踪对应于同一个目标的骨架信息，由对应于同一个目标的骨架信息生成骨架序列；

动作识别模块，用于根据所述骨架序列进行目标执行动作的识别，得到所述骨架序列对应的动作识别结果，通过该动作识别结果控制设备执行对应的操作。

12.一种电子设备，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至10中任一项所述的设备控制方法。

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的设备控制方法。