CN112560625A

CN112560625A - 基于时空联合响应网络的智能家居系统及其控制方法

Info

Publication number: CN112560625A
Application number: CN202011425891.7A
Authority: CN
Inventors: 黄倩; 李畅; 陈斯斯; 毛莺池
Original assignee: Nanjing Huiying Electronic Technology Co ltd; Hohai University HHU
Current assignee: Nanjing Huiying Electronic Technology Co ltd; Hohai University HHU
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-26
Anticipated expiration: 2040-12-09
Also published as: CN112560625B

Abstract

本发明提出了一种基于时空联合响应网络的智能家居控制方法，属于行为识别领域，可以通过识别目标对象的行为发出相应的指令来控制家居的运作状态。首先，通过物理层采集动作视频，再经数据处理层进行处理并生成动作特征图传入行为识别层。行为识别层采用StarNet网络结构，该网络分别训练针对于时间和空间特征的自编码器，然后利用门控机制自动地对时间、空间或时空混合的输入做出响应并进行最优化编码。编码后的特征向量经全连接层和激活层实现分类。然后，控制层获取行为识别层的分类结果并根据设计的行为关联库发出相应的指令控制家居的运转。本发明提高了行为识别的准确度和智能家居系统的可靠性，解决了语音受限条件下智能家居的控制问题。

Description

基于时空联合响应网络的智能家居系统及其控制方法

技术领域

本发明属于行为识别领域，特别是涉及基于时空联合响应网络的智能家居系统及其控制方法。

背景技术

随着大数据、物联网、云计算、人工智能等技术的快速发展，越来越多的产品及行业被赋予了智能的概念。

智能家居行业也随之快速发展以满足现代化家庭对于家居生活安全化、智能化、生态化、个性化以及娱乐化的需求。智能家居是利用物联网和通信技术嵌入了多传感器、智能设备和基础设施的家庭环境，可以通过感知人类活动和环境变化，推断居民的需求并提供适当的服务。智能家居系统对解决资源滥用、安全监控、提高人们的生活质量有着重要的意义。

现有的智能家居系统在信息收集方面的技术已经比较成熟，当下的侧重点是信息的自动化处理，也就是智能化方面。人体行为识别技术的发展对智能家居系统的研究起着至关重要的推动作用。人体行为识别可以自动地识别视频数据中的行为动作，这改变了现有智能家居系统中的控制方式，提高了智能家居系统的便捷性和高效性，对于具有语言或视觉障碍的人群同样适用。

与此同时，人体行为识别技术可以对某些识别出来的动作自动标记上危险动作便可实现报警的功能，让智能家居中的监控更加智能化。因而人体行为识别技术在智能家居系统中具有广阔的应用前景和巨大的研究价值。

传统的行为识别方法大多基于手工特征，如HOG、SIFT、LBP等，这些特征仅能提取动作的局部空间特征且不适用于多模态数据。

近年来，通过卷积神经网络直接提取图像特征的方法受到广泛关注，其可以有效地捕获图像的网络状拓扑并通过卷积自动提取图像特征。虽然基于深度学习的方法可以显著提高行为识别效果，但是依然面临着许多问题，尤其是在识别具有相似运动轨迹的人体行为方面。

基于行为识别的智能家居系统也因此受到限制，相似行为往往被预测为同一种行为从而触发错误的控制指令。

现有的人体行为方法多侧重于捕获人体运动的空间信息而忽略了人体运动的时序信息，从而造成了对空间轨迹相似的行为的误判。人体行为包括丰富的时间和空间信息，这些时空信息具有高度的相关性，可以为行为识别提供上下文信息，有效区分相似动作。

因此设计一种时空信息融合的行为识别技术并将其应用于智能家居系统是亟待解决的问题。

发明内容

发明目的：本发明提供了基于时空联合响应网络的智能家居系统，解决了相似动作的识别问题，提高了智能家居系统的可靠性；本发明的另一目的是提供基于时空联合响应网络的智能家居系统的控制方法。

技术方案：为了解决上述问题，本发明采用如下技术方案：

基于时空联合响应网络的智能家居系统，包括物理层、数据处理层、行为识别层和控制层四部分；其中：

所述的物理层通过摄像和通信设备获取行为识别视频，然后，通过局域网传输至数据处理层；

所述的数据处理层对数据进行预处理并计算特征图送入行为识别层；

所述的行为识别层采用时空联合响应网络，将实时接收的行为数据通过训练好的模型进行分类；

所述的控制层接收行为识别层传入的行为类别，然后根据建立的行为和控制的关联库发出指令以控制家居的运转。

进一步地，所述的时空联合响应网络，该网络包括特征提取网络和两个栈式自编码器组成；特征提取网络提取时域特征和空域特征，分别送入对应于时域特征和空域特征的栈式自编码器中；在两个栈式自编码器中之间加入一个门控单元，将优先级低的自编码器连接全连接层和激活层，使用Softmax作为激活函数。

进一步地，所述的基于时空联合响应网络的智能家居系统的控制方法，包括如下步骤：

步骤1，数据采集，通过Kinect摄像头采集不同家居环境中不同个体的动作视频，包括挥手、抬手、冲拳、画圆、踢腿等动作；然后，对采集到的数据进行规范化处理并进行标记。

步骤2，数据加工，由深度动作序列计算得出表示空域和时域特征的动作特征图，然后分别作为空域自编码器和时域自编码器的输入；

步骤3，模型构建，采用一种时空联合响应网络结构；

步骤4，模型训练，将采集到的数据划分为测试集和训练集，按照步骤2生成深度运动图并提取空间特征作为空域自编码器的训练数据，然后生成运动历史图并提取时间特征作为时域自编码器的训练数据；

步骤5，关联设计，建立行为与控制的匹配关系，确定每个动作对应的指令以实现对家居的操控；

步骤6，行为识别，将真实场景下采集的行为视频，通过步骤2转化动作特征图送入训练好的网络模型中进行行为识别；

步骤7，家居控制，根据行为识别的结果触发指令并通过局域网对家居进行控制。

进一步地，所述的步骤2中，数据加工的具体过程为：

首先，将获得的深度视频投影到三个正交的笛卡尔平面上，因此每个3D深度帧都会生成三个2D特征图；

然后，以深度图序列中相同像素位置的最小值作为DMI的像素值生成空间特征图；

最后，计算两个连续投影图之间的绝对差，然后按照时间序列生成时间特征图。

进一步地，所述的步骤3中，具体包括如下步骤：

首先，构造特征提取网络用于提取时空特征；

然后，构造空域自编码器和时域自编码器；两个自编码器均由编码器和解码器两个部分组成；其中，解码器的输出看作输入的近似即重构样本并作为对输入样本的补充；根据响应优先级调整自编码器的位置，优先级高的自编码器放在前面；两个自编码器之间加入门控单元并设置响应阈值；

最后，将优先级低的自编码器连接全连接层和激活层；通过自编码器进行优化编码的行为特征作为全连接层的输入并进行分类。

进一步地，所述的步骤3中，具体包括如下步骤：

第一步，构建特征提取网络；构建一个卷积神经网络并将其全连接层的输出作为自编码器的输入；

第二步，构建自编码器，包括时域自编码器和空域自编码器两种。两个自编码器均采用五层栈式结构并将中间层作为输出层；时域和空域自编码器均使用重构误差和稀疏惩罚项作为损失函数；

第三步，组装网络，首先确定时间和空间的响应优先级，将优先级高的自编码器直接与特征提取网络进行全连接；两个自编码器之间加入一个门控单元，根据设置的阈值大小选择最优的编码方式；优先级低的自编码器后接一个全连接层经过Softmax激活函数后输出；输出层神经元的个数对应于行为类别的个数。

进一步地，所述的步骤4中，训练时使用重构误差和稀疏惩罚项作为损失函数，通过无监督学习进行训练；然后固定编码器的参数训练整个网络，使用交叉熵作为损失函数并使用L2正则化项来防止过拟合；这里对编码器的训练并行执行。

进一步地，所述的步骤4中，模型训练的具体过程为：

4.1，训练自编码器；首先以空间特征图作为输入，通过特征提取网络获得相应的特征向量，使用无监督的方法训练空域自编码器；训练时将空域自编码器的第一、二、五层看作浅层自编码器1，将第二、三、四层看作另一个浅层自编码器2；因为自编码器具有严格的对称性因此每一个编码器都采用捆绑权重的方式进行训练；先训练浅层自编码器1，再训练浅层自编码器2，然后再将两者堆叠成空域自编码器；训练的损失函数均为重构误差加上稀疏惩罚项；训练时域自编码器的方法同理；

4.2，以时域和空域自编码器最终的平均误差作为门控单元的阈值；将空域自编码器每次迭代得到损失记为

，将空域自编码器每次得到的损失记为

则空间响应级优先时阈值的大小为

，相应地，时间响应级优先时阈值的大小为

；

4.3，固定自编码器的参数和门控单元的阈值，训练全连接层的参数；使用交叉熵作为损失函数并使用L2正则化项来防止过拟合；不断迭代直至误差等于或小于期望值时结束训练。

有益效果：与现有技术相比，本发明的基于时空联合响应网络的智能家居系统，提出的StarNet网络结构，可以自动地对时间、空间或时空混合的输入做出响应并进行最优化编码。编码后的特征向量自动完成了降维、去噪、稀疏化等操作，可以直接通过全连接层和激活函数实现分类。StarNet还可以用于特征提取、特征融合、降维、分类以及生成式建模，有效解决了训练数据少、标记困难、数据类型单一等问题。同时，还可以利用其他模态的数据训练该网络结构中的自编码器，从而实现对其他模态数据的自动编码和融合。本发明提供的提供基于时空联合响应网络的智能家居系统的控制方法，可以通过识别人体动作发出控制指令来控制家居的运转，实现了一种更为便捷的智能家居控制方法，可以更好地适用于有语音受限的环境。在行为识别层通过StarNet对时间和空间模态的行为数据进行自动编码和融合，有效结合了行为的空间信息和时间信息，增强了对人体行为时空特征的表述能力，提高了相似轨迹行为的识别精度和智能家居系统的可靠性。

附图说明

图1是基于时空联合响应网络的智能家居系统的控制方法的框架图；

图2是数据处理层的输出示例；

图3是时空联合响应网络的结构图；

图4是时空联合响应网络的训练过程；

图5是基于时空联合响应网络的智能家居系统的框架图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

物理层通过摄像和通信设备获取行为识别视频，然后，通过局域网传输至数据处理层；

数据处理层对数据进行预处理并计算特征图送入行为识别层；

行为识别层采用一种时空联合响应网络，将实时接收的行为数据通过训练好的模型进行分类；

控制层接收行为识别层传入的行为类别，然后根据建立的行为和控制的关联库发出指令以控制家居的运转。

时空联合响应网络，该网络包括特征提取网络和两个栈式自编码器组成；特征提取网络提取时域特征和空域特征，分别送入对应于时域特征和空域特征的栈式自编码器中；在两个栈式自编码器中之间加入一个门控单元，将优先级低的自编码器连接全连接层和激活层，使用Softmax作为激活函数。

基于时空联合响应网络的智能家居系统的控制方法，包括如下步骤：

步骤2，数据加工，由深度动作序列计算得出可以表示空域和时域特征的动作特征图，然后分别作为空域自编码器和时域自编码器的输入。

具体的，步骤2，数据加工的具体过程为：

步骤3中，具体包括如下步骤：

首先，构造特征提取网络用于提取时空特征；

步骤3中，具体包括如下步骤：

具体的，步骤3模型构建的具体过程为：

3.1，构建特征提取网络；第一个卷积层块由6个5×5大小的卷积核和一个2×2的池化层组成，首先设置填充为0，步幅为1，然后使用不同的卷积核对图片进行卷积得到6个特征图；再对特征图分别进行最大池化操作得到6个下采样特征图，池化操作的填充为0，步幅为1；第二个卷积层块使用16个5×5大小的卷积核按照步骤1得到16个特征图，再通过池化层分别对其进行下采样操作，填充和参数设置同上；第三个卷积层块没有池化操作，直接使用120个5×5大小的卷积核按照填充为0，步幅为1的设置进行卷积操作得到120个1×1大小的特征图；这里也可以采用其他网络结构来提取特征。

3.2，构建自编码器，采用两个栈式自编码器，每个自编码器有五层并呈对称结构且以中间层作为输出层；第一层使用120个神经元，后接两个隐含层分别对应64和32个神经元；时域和空域自编码器均使用重构误差和稀疏惩罚项作为损失函数。

3.3，组装网络，首先确定时间和空间的响应优先级，将优先级高的自编码器直接与特征提取网络进行全连接；两个编码器之间加入门控单元，根据设置的阈值大小选择最优的编码方式；优先级低的自编码器后接一个全连接层经过Softmax激活后输出；输出层的个数对应于行为类别的个数。

步骤4，模型训练，将采集到的数据划分为测试集和训练集，按照步骤2生成深度运动图并提取空间特征作为空域自编码器的训练数据，然后生成运动历史图并提取时间特征作为时域自编码器的训练数据；训练时使用重构误差和稀疏惩罚项作为损失函数，通过无监督学习进行训练；然后固定两个自编码器的参数训练整个网络，使用交叉熵作为损失函数并使用L2正则化项来防止过拟合；这里对自编码器的训练可以并行执行。

具体的，步骤4模型训练的具体过程为：

4.1，训练自编码器；首先以空间特征图作为输入，通过特征提取网络获得相应的特征向量，使用无监督的方法训练空域自编码器；训练时将空域自编码器的第一、二、五层看作浅层自编码器1，将第二、三、四层看作另一个浅层自编码器2；因为自编码器具有严格的对称性因此每一个编码器都可以采用捆绑权重的方式进行训练；先训练浅层自编码器1，再训练浅层自编码器2，然后再将两者堆叠成空域自编码器；训练的损失函数均为重构误差加上稀疏惩罚项；训练时域自编码器的方法同理。

，将空域自编码器每次得到的损失记为

则空间响应级优先时阈值的大小为

，相应地，时间响应级优先时阈值的大小为

。

4.3，固定两个自编码器的参数和门控单元的阈值，训练全连接层的参数；使用交叉熵作为损失函数并使用L2正则化项来防止过拟合；不断迭代直至误差等于或小于期望值时结束训练。

步骤5，关联设计，建立行为与控制的匹配关系，确定每个动作对应的指令以实现对家居的操控。

步骤6，行为识别，将真实场景下采集的行为视频，通过步骤2转化动作特征图送入训练好的网络模型中进行行为识别。

实施例

如图1和图5所示，本发明基于行为识别技术的智能家居控制包括物理层、数据处理层、行为识别层和控制层。首先，通过物理层的摄像和通信设备获取行为视频，然后通过局域网传输至数据处理层；数据处理层负责对数据进行预处理并计算特征图送入行为识别层；行为识别层采用一种时空联合响应网络，将实时接收的行为数据通过训练好的模型进行分类；控制层接收行为识别层传入的行为类别，然后根据建立的行为和控制的关联库发出指令并控制家居的运转。

1.物理层

物理层主要负责行为视频的采集和数据传输，由kinect摄像头、通信设备和其它基础硬件设施组成。物理层采集家居环境中不同个体的动作视频包括挥手、抬手、冲拳、画圆、踢腿等动作，然后传送至数据处理层。

2.数据处理层

2.1计算空域动作特征图

本实施例中使用深度动作图(DMI)作为空域特征图。首先，将获得的深度视频投影到三个正交的笛卡尔平面上，因此每个3D深度帧都会生成三个视角的2D特征图，分别对应于前视图、侧视图、俯视图，记为map_v(i，j，t)，v∈{f，s，t}。以深度图序列中相同像素位置的最小值作为特征图的像素值生成空间特征图。帧数为N的深度序列可以通过以下等式计算得出DMI：

DMI_v(i，j)＝255-min(map_v(i，j，t)) (1)

其中，map_v(i，j，t)是v视角的下的第t帧动作图中(i，j)位置的像素值。

2.2计算时域动作特征图

本实施例中使用深度运动图(DMM)作为时域特征图。在三个视角下，分别计算两个连续投影之间的绝对差，然后按照时间序列生成DMM。计算公式如下：

2.3通过将每个像素值除以图像中所有像素的最大值来对特征图进行亮度归一化，然后进行裁剪感兴趣区域(ROI)操作以排除多余的黑色像素。这种进一步的归一化可以减少类内差异，降低了体型和动作幅度对动作识别的干扰。本实施例中数据处理层的输出如图2所示。

3.行为识别层

行为识别层主要包括三个部分，分别为模型构建、模型训练和行为识别。

3.1模型构建

特征提取网络使用LeNet模型。网络的第一个卷积层块由6个5×5大小的卷积核对输入的32×32的图片进行卷积，设置填充为0，步幅为1，可以生成6个28×28大小的特征图。然后，设置填充为0，步幅为2，经过2×2的最大池化后得到6个14×14的特征图。第二个卷积层块使用16个5×5的多通道卷积核得到16个10×10的特征图，再通过池化层分别对其进行下采样操作得到16个5×5的特征图(填充和步幅设置同上)。具体卷积过程为：使用6个3通道卷积核对上层得到的三个相邻的特征图进行卷积，再使用6个4通道卷积核对上层得到的四个相邻特征图进行卷积，然后使用3个4通道卷积核对间隔相邻的四个特征图进行卷积，最后使用1个6通道卷积核对上一层的6个特征图一起进行卷积。最后一个卷积层使用120个5×5的16通道卷积核生成120个1×1的特征图即一个120维的特征向量。

特征提取网络后接两个栈式自编码器。自编码器共五层并呈对称结构，中间层作为输出层。第一层使用120个神经元，后接两个隐含层分别对应64和32个神经元。时域和空域自编码器的结构相同，均使用重构误差和稀疏惩罚项作为损失函数。首先确定时间和空间的响应优先级，将优先级高的自编码器直接与特征提取网络进行全连接。两个编码器之间加入一个门控单元，根据设置的阈值选择最优的编码方式。优先级低的编码器后接一个全连接层经过Softma函数激活后输出。输出层的个数对应于行为类别的个数。时空联合响应网络的结构如图3所示。

3.2模型训练

首先以空间特征图作为输入，通过特征提取网络获得相应的特征表示作为输入，使用无监督的方法训练空域自编码器。训练时将空域自编码器的第一、二、五层看作浅层自编码器1，将第二、三、四层看作另一个浅层自编码器2。因为自编码器具有严格的对称性因此每一个编码器都可以采用捆绑权重的方式进行训练。先训练浅层自编码器1，再训练浅层自编码器2，然后再将两者堆叠成空域自编码器。图4展示了自编码器的训练过程。训练的损失函数均为重构误差加上稀疏惩罚项。时域和空域自编码器可以并行进行训练，其损失函数为：

其中x是输入向量，f(x)是编码函数，g(x)是解码函数。将空域自编码器每次迭代得到损失记为

将空域自编码器每次得到的损失记为

则空间响应级优先时阈值的大小为

相应地，时间响应级优先时阈值的大小为

固定自编码器的参数和门控单元的阈值，训练全连接层的参数。使用交叉熵作为损失函数并使用L2正则化项来防止过拟合。其损失函数为：

其中，n表示动作类别数，p(x)表示动作样本真实标签的概率分布，q(x)表示预测标签的概率分布。不断迭代此过程直至误差等于或小于期望值时，结束训练。

3.3行为识别

将真实场景下采集的行为视频，通过数据处理层转化为时空联合相应网络的输入，然后经过训练好的网络模型的得出分类结果。输入首先通过优先级高的空域自编码器，通过门控机制可以判断输入的类型。如果是空间特征则直接进行分类，如果是时间特征则通过时域自编码器进行优化编码后再进行分类。时空联合响应网络的输出是概率向量，取最大概率对应的行为作为最终的识别结果。

4.控制层

首先要设计关联，建立行为与控制的匹配关系，确定每个动作对应的指令以及实现对家居的操控。本发明的实施例对应的关联如下：抬手控制开灯；挥手控制关灯；抬手控制打开窗帘；冲拳控制关闭窗帘；画圆控制打开音响；踢腿控制关闭音响。控制层根据行为识别层传入的结果触发指令并通过局域网对家居进行操控。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围。

Claims

1.基于时空联合响应网络的智能家居系统，其特征在于：包括物理层、数据处理层、行为识别层和控制层四部分；其中：

2.根据权利要求1所述的基于时空联合响应网络的智能家居系统，其特征在于：所述的时空联合响应网络，该网络包括特征提取网络和两个栈式自编码器组成；特征提取网络提取时域特征和空域特征，分别送入对应于时域特征和空域特征的栈式自编码器中；在两个栈式自编码器中之间加入一个门控单元，将优先级低的自编码器连接全连接层和激活层，使用Softmax作为激活函数。

3.根据权利要求1或2所述的基于时空联合响应网络的智能家居系统的控制方法，其特征在于：包括如下步骤：

步骤1，数据采集，通过Kinect摄像头采集不同家居环境中不同个体的动作视频；然后，对采集到的数据进行规范化处理并进行标记；

步骤3，模型构建，采用一种时空联合响应网络结构；

4.根据权利要求3所述的基于时空联合响应网络的智能家居系统的控制方法，其特征在于：所述的步骤2中，数据加工的具体过程为：

5.根据权利要求3所述的基于时空联合响应网络的智能家居系统的控制方法，其特征在于：所述的步骤3中，具体包括如下步骤：

首先，构造特征提取网络用于提取时空特征；

6.根据权利要求3所述的基于时空联合响应网络的智能家居系统的控制方法，其特征在于：所述的步骤3中，具体包括如下步骤：

第二步，构建自编码器，包括时域自编码器和空域自编码器两种；两个自编码器均采用五层栈式结构并将中间层作为输出层；时域和空域自编码器均使用重构误差和稀疏惩罚项作为损失函数；

7.根据权利要求3所述的基于时空联合响应网络的智能家居系统的控制方法，其特征在于：所述的步骤4中，训练时使用重构误差和稀疏惩罚项作为损失函数，通过无监督学习进行训练；然后固定编码器的参数训练整个网络，使用交叉熵作为损失函数并使用L2正则化项来防止过拟合；这里对编码器的训练并行执行。

8.根据权利要求3所述的基于时空联合响应网络的智能家居系统的控制方法，其特征在于：所述的步骤4中，模型训练的具体过程为：

将空域自编码器每次得到的损失记为

则空间响应级优先时阈值的大小为

相应地，时间响应级优先时阈值的大小为