CN114281185A

CN114281185A - 基于嵌入式平台的体态识别及体感交互系统和方法

Info

Publication number: CN114281185A
Application number: CN202110446256.5A
Authority: CN
Inventors: 陈豪; 孙晅; 王晓萌
Original assignee: Beijing Yiti Sports Industry Development Co ltd
Current assignee: Zhejiang Yiti Technology Co ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-04-05
Anticipated expiration: 2041-04-25
Also published as: CN114281185B

Abstract

本发明涉及一种基于嵌入式平台的体态识别及体感交互系统和方法，所述系统包括：数据采集模块、数据处理模块、主控模块、通信模块和反馈模块；所述数据采集模块用于采集包含用户体态的二维图像信息；所述数据处理模块用于根据所述二维图像信息确定人体概要特征和图像区块，并根据所述人体概要特征和图像区块对用户体态动作进行分析识别，得到用户操作指令；所述主控模块用于将该用户操作指令通过通信模块传输至外部相应的受控设备，还用于根据该用户操作指令通过反馈模块向用户提供操作反馈信息。本发明基于嵌入式平台搭建，系统体积小、功耗低、集成度高，便于实际部署与应用；利用两组深度神经网络进行动作识别，提高了识别精度和系统响应速度。

Description

基于嵌入式平台的体态识别及体感交互系统和方法

技术领域

本发明涉及体感交互技术领域，具体涉及一种基于嵌入式平台的体态识别及体感交互系统和方法。

背景技术

以手机、平板电脑为代表的嵌入式设备已经成为日常生活及工作中必不可少的工具，其功能也从简单的通信或轻量级的计算存储，扩展至移动办公、影音娱乐等多个领域。随着物联网技术的普及，以及嵌入式设备本身计算能力的提高，嵌入式设备越来越多地作为交互控制终端应用于各类系统及场景中。

传统的嵌入式设备通常以按键、触屏等硬件作为输入设备。近年来随着摄像头组件的微型化和软件技术的提高，越来越多的嵌入式设备采用摄像头作为输入设备，通过基于机器视觉的体感交互技术实现系统控制，从而为用户提供便捷、自然、准确且高效的交互体验。

从成像过程上，摄像头可大致分为单目摄像头和深度摄像头两类。其中，单目摄像头可理解为使用单一设备，从固定角度拍摄，得到目标的二维图像。深度摄像头则能够额外获得目标与摄像头之间的距离，即深度信息，能否直接获取目标的深度信息，是单目摄像头和深度摄像头间的主要区别。

目前基于摄像头的嵌入式设备体感交互方案中，深度摄像头成本通常较高，部分深度摄像头在强光下还存在一定应用限制。多摄像头方案在硬件部署上要求较高，部分场景难以满足。在基于单目摄像头的方案中，对于大视场、复杂环境下的应用场景仍以体态识别为主。而单目体态识别的网络模型及识别方法中，现有识别方法精度和速度欠佳，部分方法则是其他方法的简单叠加，针对嵌入式平台缺乏足够的优化。

此外，现有大部分方法通常以关键点提取或动作识别为最终目的，并未作为交互系统的一部分进行有机整合，未能将交互系统内容及预设操作作为先验知识作为输入。因此识别精度、识别速度及用户体验仍有提升空间。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于嵌入式平台的体态识别及体感交互系统和方法。

为实现以上目的，本发明采用如下技术方案：一种基于嵌入式平台的体态识别及体感交互系统，该系统基于嵌入式平台搭建，包括：

数据采集模块、数据处理模块、主控模块、通信模块和反馈模块；

所述数据采集模块、所述数据处理模块、所述通信模块和所述反馈模块分别与所述主控模块电连接；

所述数据采集模块用于采集包含用户体态的二维图像信息，并将所述二维图像信息通过所述主控模块发送至所述数据处理模块；

所述数据处理模块用于根据所述二维图像信息确定人体概要特征和图像区块，并根据所述人体概要特征和图像区块对用户体态动作进行分析识别，得到用户操作指令，并将所述用户操作指令传输至所述主控模块；

所述主控模块还用于将所述用户操作指令通过所述通信模块传输至外部相应的受控设备；所述主控模块还用于根据所述用户操作指令通过所述反馈模块向用户提供操作反馈信息。

可选的，所述数据处理模块根据所述二维图像信息确定人体概要特征和图像区块，包括：

所述数据处理模块利用人体检测网络根据所述二维图像信息对用户的人体概要特征进行检测，并对所述二维图像信息进行裁剪，得到仅包括人体的图像区块；

所述人体检测网络包括：第一卷积层、第一池化层、第一全链接层、第一激活函数和第二激活函数；

将一个或多个第一卷积层、一个第一池化层和一个第一激活函数结合作为一个第一特征提取单元，再将多个第一特征提取单元采取残差结构进行组合连接，多个第一特征提取单元组合连接后，再结合一个或多个第一全链接层及一个第二激活函数构成人体检测网络；

所述数据处理模块将每次的检测结果进行存储，以辅助后续检测分析。

可选的，所述人体检测网络的输入数据包括：二维图像信息、前序人体检测结果、系统状态及交互内容；

所述人体检测网络的输出数据包括：用户的人体概要特征和对应的图像区块；

所述人体检测网络训练时所使用的样本数据包括：多个特定数据包以及每个所述特定数据包对应的人体概要特征和图像区块；

其中，每个所述特定数据包包括：人体动作图像数据，系统状态和交互内容。

可选的，利用所述输入数据和所述输出数据对所述人体检测网络进行训练，包括如下步骤：

步骤11：收集各组人体动作图像数据；

步骤12：根据应用需求定义系统交互内容和系统状态；

步骤13：将各组人体动作图像数据与系统交互内容、系统状态绑定为数据包；

步骤14：标注各个数据包对应的人体概要特征和图像区块；

步骤15：将各个数据包依次输入人体检测网络进行计算，分别得到预估的人体概要特征和图像区块；

步骤16：将步骤15得到的预估的人体概要特征和图像区块与步骤14标注的人体概要特征和图像区块进行对比，得到预估结果误差；

步骤17：判断预估结果误差是否小于第一阈值；

步骤18：当预估结果误差大于等于第一阈值，根据步骤16得到的预估结果误差更新人体检测网络的参数；迭代执行步骤15至步骤18，直至预估结果误差小于第一阈值。

可选的，所述数据处理模块根据所述人体概要特征和图像区块对用户体态动作进行分析识别，包括：

所述数据处理模块利用体态识别网络根据所述人体概要特征和图像区块对用户体态动作进行分析识别；

所述体态识别网络包括：第二卷积层、第二池化层、BN层、第二全链接层、第三激活函数和第四激活函数；

将一个或多个第二卷积层与一个第二池化层、一个BN层和一个第三激活函数结合作为一个第二特征提取单元，再由一个或多个第二特征提取单元结合一个或多个第二全链接层及一个第四激活函数构成体态识别网络；

所述数据处理模块将每次的识别结果进行存储，以辅助后续识别分析。

可选的，所述体态识别网络的输入数据包括：人体概要特征、图像区块、前序体态识别结果、系统状态及交互内容；

所述体态识别网络的输出数据包括：用户操作指令；

所述体态识别网络训练时所使用的样本数据包括：多个特定数据包以及每个所述特定数据包对应的用户操作指令；

其中，每个所述特定数据包包括：人体概要特征、对应的图像区块、系统状态和交互内容。

可选的，利用所述输入数据和所述输出数据对所述体态识别网络进行训练，包括如下步骤：

步骤21：收集各组人体概要特征和对应的图像区块；

步骤22：根据应用需求定义交互内容、系统状态和操作指令；

步骤23：将各组人体概要特征和对应的图像区块与系统交互内容、系统状态绑定为数据包；

步骤24：标注各个数据包对应的操作指令；

步骤25：计算各组人体概要特征间的相似度评分；

步骤26：利用步骤24和步骤25的结果计算操作指令间的相似度评分；

步骤27：将各个数据包依次输入体态识别网络进行计算，分别得到预估的操作指令；

步骤28：将步骤27得到的预估的操作指令与步骤24标注的操作指令进行对比，得到预估结果误差；

步骤29：将步骤28与步骤26的相似度评分相结合，得到加权预估结果误差；

步骤210：判断加权预估结果误差是否小于第二阈值；

步骤211：当加权预估结果误差大于等于第二阈值，根据步骤29得到的加权预估结果误差更新体态识别网络的参数；迭代执行步骤27至步骤211，直至加权预估结果误差小于第二阈值。

可选的，所述主控模块还用于实时监测所述数据采集模块、所述数据处理模块、所述通信模块和所述反馈模块的运行状态，并当所述数据采集模块、所述数据处理模块、所述通信模块或所述反馈模块运行发生异常时，及时停止运行并发出警告信号；

所述数据采集模块为单目摄像头。

本发明还提供了一种基于嵌入式平台的体态识别及体感交互方法，包括：

采集包含用户体态的二维图像信息；

对所述二维图像信息进行检测，得到人体概要特征和图像区块；

根据所述人体概要特征和图像区块对用户体态动作进行分析识别，得到用户操作指令；

将所述用户操作指令传输至外部相应的受控设备；

根据所述用户操作指令向用户提供操作反馈信息。

可选的，所述采集包含用户体态的二维图像信息，包括：

采用单目摄像头采集用户体态图像；

所述用户体态图像包括：彩色图像及灰度图像。

本发明采用以上技术方案，所述基于单目摄像头的体态识别及体感交互系统包括：数据采集模块、数据处理模块、主控模块、通信模块和反馈模块；所述数据采集模块用于采集包含用户体态的二维图像信息；所述数据处理模块用于根据所述二维图像信息确定人体概要特征和图像区块，并根据所述人体概要特征和图像区块对用户体态动作进行分析识别，得到用户操作指令；所述主控模块用于将所述用户操作指令通过所述通信模块传输至外部相应的受控设备，还用于根据所述用户操作指令通过所述反馈模块向用户提供操作反馈信息。本发明所述系统基于嵌入式平台搭建，系统体积小、功耗低、集成度高，便于实际部署与应用；该系统采用单目摄像头捕获人体图像信息，成本低、适用范围广；利用两组深度神经网络进行动作识别，识别过程中将系统交互内容及系统状态作为输入，形成数据处理与系统运行逻辑的闭环，提高了识别精度和系统响应速度，有利于保证交互流畅度，提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于嵌入式平台的体态识别及体感交互系统实施例一提供的结构示意图；

图2是本发明中人体检测网络的特征提取单元的示意图；

图3是本发明中人体检测网络的整体结构示意图；

图4是本发明中对人体检测网络进行训练的流程示意图；

图5是本发明中体态识别网络的特征提取单元的示意图；

图6是本发明中体态识别网络的整体结构示意图；

图7是本发明中对体态识别网络进行训练的流程示意图；

图8是本发明一种基于嵌入式平台的体态识别及体感交互系统实施例二提供的示意图；

图9是游戏追逐区示意图；

图10是游戏陷阱区示意图；

图11是本发明一种基于嵌入式平台的体态识别及体感交互系统实施例三提供的示意图；

图12是本发明一种基于嵌入式平台的体态识别及体感交互方法一个实施例提供的流程示意图。

图中：1、数据采集模块；2、数据处理模块；3、主控模块；4、通信模块；5、反馈模块；6、受控设备。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明一种基于嵌入式平台的体态识别及体感交互系统实施例一提供的结构示意图。

如图1所示，本实施例所述的一种基于嵌入式平台的体态识别及体感交互系统，该系统基于嵌入式平台搭建，包括：

所述数据处理模块用于根据所述二维图像信息确定人体概要特征和图像区块(该图像区块是指仅包括人体的图像区块)，并根据所述人体概要特征和图像区块对用户体态动作进行分析识别，得到用户操作指令，并将所述用户操作指令传输至所述主控模块；

进一步的，所述数据采集模块采用单目摄像头采集用户体态图像；

所述用户体态图像包括：彩色图像及灰度图像；

所述单目摄像头的分辨率、焦距和视场角参数依据应用场景进行选择设置，所述单目摄像头在运行过程中能够根据环境变化实时调节曝光、对比度、亮度、Gamma校正和帧率。

对用户体态的拍摄方式包括上半身和全身两种模式，并可根据用户位置实时切换。

本系统工作时，主控模块调用数据采集模块采集的包含用户体态的二维图像，传输至数据处理模块进行分析识别，得到用户操作指令，随后将该指令经过通信模块传输至相应受控设备执行对应功能，最后通过反馈模块向用户提供操作反馈。具体的，所述数据处理模块进行分析识别的过程是利用两组深度神经网络完成的。第一组深度神经网络为人体检测网络，用于快速检测二维图像场景中的人体整体，并通过检测结果将捕获的人体轮廓图像进行裁剪，以减少后续运算量。第二组深度神经网络为体态识别网络，该网络基于人体检测网络的输出结果进行二次处理，识别出用户体态动作并将该动作转化为操作指令。

各个模块可独立封装，也可集成于同一硬件平台上。

主控模块是该系统的逻辑中心，控制其他各模块，并实时监测所述数据采集模块、所述数据处理模块、所述通信模块和所述反馈模块的运行状态。当所述数据采集模块、所述数据处理模块、所述通信模块或所述反馈模块运行发生异常时，及时停止运行并发出警告信号。其中，运行异常包括硬件异常、软件异常及通信异常。硬件异常包括模块无响应、摄像头无法捕获图像、系统过热、硬件损坏等；软件异常包括系统软件运行中出现的非预期状态，例如系统管理员登入密码异常、软件资源文件损坏、系统软件版本过期、系统软件版本与硬件不匹配等；通信异常则主要为通信模块与受控设备间出现的异常，例如受控设备连接信号差、突然断开、长时间无响应、通信协议不匹配等。

运行过程中，主控模块控制交互过程，并向数据处理模块提供当前交互内容及系统状态作为输入，形成数据处理分析与系统运行逻辑的闭环。其中，交互内容指系统向用户呈现的交互接口，包括系统当前可用功能、允许的用户操作及相关的操作指引；系统状态则指交互系统内部的运行及逻辑状态，与用户操作仅有间接关联，通常对用户不可见。实际应用中，系统状态与交互内容常常存在部分重叠，有些信息既属于交互内容，也属于系统状态。

进一步的，所述数据处理模块根据所述二维图像信息确定人体概要特征和图像区块，包括：

所述人体检测网络包括：卷积层(Convolutional Layer)、池化层(PoolingLayer)和全链接层(Fully Connected Layer)，并采用Relu或Sigmoid等网络设计中的常用函数作为激活函数(Activation Function)。具体的，所述人体检测网络包括：第一卷积层、第一池化层、第一全链接层、第一激活函数和第二激活函数；

将一个或多个第一卷积层、一个第一池化层和一个第一激活函数结合作为一个第一特征提取单元，再将多个第一特征提取单元采取残差结构进行组合连接，多个第一特征提取单元组合连接后，再结合一个或多个第一全链接层及一个第二激活函数构成人体检测网络；所述数据处理模块将每次的检测结果进行存储，作为后续检测过程的输入，以提高检测精度。人体检测网络的特征提取单元的示意图如图2所示，人体检测网络的整体结构示意图如图3所示。所述人体检测网络的实际结构可根据具体应用场景进行调整与优化。

进一步的，所述人体检测网络的输入数据包括：二维图像信息、前序人体检测结果、系统状态及交互内容；

本发明中所述人体检测网络在训练时所使用的样本数据区别于一般的深度神经网络，需要将人体动作图像数据，与系统状态和交互内容绑定为一个数据包，通过这种方式，将系统交互中的先验信息引入训练过程。对于同一张人体图像，当预设的系统状态及交互内容不同时，人体图像的标注可能不同，从而对不同交互流程下的检测结果进行筛选。

进一步的，如图4所示，利用所述输入数据和所述输出数据对所述人体检测网络进行训练，包括如下步骤：

步骤11：收集各组人体动作图像数据；

步骤12：根据应用需求定义系统交互内容和系统状态；

步骤14：标注各个数据包对应的人体概要特征和图像区块；

步骤17：判断预估结果误差是否小于第一阈值；

进一步的，所述数据处理模块根据所述人体概要特征和图像区块对用户体态动作进行分析识别，包括：

所述体态识别网络包括：卷积层、池化层、BN层(Batch Normalization)、和全链接层；并采用Softmax或Relu等网络设计中的常用函数作为激活函数。具体的，所述体态识别网络包括：第二卷积层、第二池化层、BN层、第二全链接层、第三激活函数和第四激活函数；

所述体态识别网络将一个或多个第二卷积层与一个第二池化层、一个BN层和一个第三激活函数结合作为一个第二特征提取单元，再由一个或多个第二特征提取单元结合一个或多个第二全链接层及一个第四激活函数构成体态识别网络；同时，所述数据处理模块将每次的识别结果进行存储，以辅助后续识别分析。所述体态识别网络的特征提取单元的示意图如图5所示，体态识别网络的整体结构示意图如图6所示。实际体态识别网络的结构可根据具体应用场景进行调整与优化。

进一步的，所述体态识别网络的输入数据包括：人体概要特征、图像区块、前序体态识别结果、系统状态及交互内容；

所述体态识别网络的输出数据包括：用户操作指令。

所述体态识别网络与人体检测网络类似，体态识别网络训练时需要将人体概要特征、裁剪后的图像区块，与预设的系统状态、交互内容绑定为一个数据包，再标注出每个数据包对应的操作指令。对于相同的人体概要特征和图像区块，如果绑定的系统状态或交互内容不同，所标注的操作指令也有所不同。

具体的，该系统有一系列预设的操作，根据交互内容的不同，系统期望及允许的用户操作也不同，因此识别时会优先识别期望及允许的用户操作。

例如，当屏幕上显示“按钮”时，系统期望用户做出“点击”动作，因此“点击”是权重最高，最优先识别的操作。同时系统又允许用户“拖拽”按钮从而重新排布界面，因此“拖拽”动作不属于期望操作，但属于被允许的操作，识别优先级较低。此外，“滑动”、“长按”在显示“按钮”时，属于不被允许的操作。因此在识别时，“滑动”将被直接屏蔽，而“长按”则被识别为“点击”。因此，每一个操作，根据系统交互内容的不同，都可能不进行识别，或识别为不同的操作。

即该系统会根据期望及允许的操作控制识别的结果。为了实现这一特性，在标注及训练时则需进行特殊的处理。例如，在标注过程中，对输入的人体动作图像数据检测后得到人体概要特征和裁剪后的图像区块，用户实际做出“手部向前短距离推送，并长时间停留”动作。对于这个动作，当绑定的系统交互内容为“屏幕上显示应用图标”时，将该动作视为“长按”。所对应的操作指令为“用户长按，要求弹出附加菜单”。而当绑定的系统交互内容为“屏幕上显示按钮”时，则将该动作视为“点击”，所对应的操作指令为“用户点击按钮，要求触发按钮对应功能”。因此，当绑定的交互内容不同时，同一个动作对应标注的操作指令也有所不同。

本发明通过以上过程能够有效减少简单动作或相似动作在实际交互时所产生的歧义。

所述体态识别网络在训练时，还包括：对于相似的人体概要特征和图像区块进行相似度评分，进而得到与其对应的操作指令相似度评分。其中，人体概要特征和图像区块包含着完整的人体动作图像序列信息，进而可以通过身体形态的相似度和序列动作的相似度两个主要特征评定相似度。首先评定身体形态的相似度，形态越相似，评分越高；而当身体形态相似度相同时，后续动作流程越相近，相似度评分越高。

如前所述，每一组操作指令均对应一组人体概要特征和图像区块，因此操作指令间的相似度评分，继承其对应的人体概要特征和图像区块间的相似度评分。另一方面，一组人体概要特征和图像区块可对应至多组操作指令，则这些操作指令间具有最高的相似度评分。

在后续的训练过程中，上述操作指令间的相似度评分将作为计算误差的权重。当相似的操作指令间出现误识别时，利用权重增大输出的误差值，进而促使神经网络对相似动作进行区分。

举例来说，考虑“用户手部连续左右摆动”，和“用户手部在左边短暂停留，再从左边移动到右边”这两组人体动作图像序列。第一个动作中，当用户手部第一次从左向右摆动时，与第二个动作有很高的相似度。在识别过程中极易造成误识别。针对上述问题，在训练体态识别网络的过程中，如果相似的动作间出现误检，则需在原本计算得到的误差上，乘以较大的系数，以标明该类错误要优先解决，进而促使体态识别网络更好地完成识别任务。通过该过程得到的调整后的误差，即为加权预估结果误差。

在标注完成后，利用上述数据进行训练，如图7所示，利用所述输入数据和所述输出数据对所述体态识别网络进行训练，包括如下步骤：

步骤21：收集各组人体概要特征和对应的图像区块；

步骤24：标注各个数据包对应的操作指令；

步骤25：计算各组人体概要特征间的相似度评分；

步骤210：判断加权预估结果误差是否小于第二阈值；

本系统中所述通信模块用于将主控模块下发的控制指令传递至受控设备，并从受控设备获取其运行状态返回主控模块。硬件上可采用光纤、USB线缆、串口通信及其他有线通信方式，也可采用蓝牙、WiFi、ZigBee及其他无线通信方式。其中，受控设备为外接于交互系统，具备特定功能，能够满足具体应用需求的软硬件设备。其运行状态通常包括设备是否正常运转、是否进行或完成某项功能、是否需要额外指令输入等。

在实际应用中，所述受控设备取决于应用场景，例如，在智能家居领域所述受控设备可以是空调、电视、洗衣机等各类家用电器，且分别具备自身特定的运行逻辑和状态；在体感游戏领域，所述受控设备可以是显示屏幕或游戏主机，其运行状态主要为游戏进程及界面内容；在会议演示领域，所述受控设备则可以是投影仪等，运行状态可能包括会议信息等各类内容。

本系统中所述反馈模块主要用于向用户提供操作反馈信息。可采用的方式包括图像、灯光、声音、振动、文字等方式，硬件上可采用显示器、信号灯、扬声器、振动器等装置。所述反馈模块还可用于向用户展示交互内容，或进行操作提示，引导用户做出相应动作与系统进行交互。

下面举一个具体的实施例来对本发明所述的体态识别及体感交互系统进行进一步说明。如图8所示，该实施例中所述的系统硬件包括：智能手机和智能电视。结构上，所述主控模块、数据处理模块与通信模块集成于智能手机内，所述数据采集模块由智能手机的前置摄像头实现，所述反馈模块5由智能电视实现。

智能手机与智能电视通过WiFi、蓝牙等方式相连，智能电视接收由智能手机发送的游戏画面呈现至玩家，引导玩家做出游戏动作；智能手机使用前置摄像头捕获玩家动作，并对捕获图像进行识别，根据识别结果更新游戏内容，再通过智能电视的屏幕反馈至玩家。

游戏中设置一名卡通角色，当玩家在原地小步跑动时，角色慢速前进；当玩家在原地高抬腿跑时，角色快速前进。游戏中的地图分为陷阱区和追逐区两个类型，当角色前进时会随机遇到陷阱区和追逐区。当遇到追逐区时，角色后方会有怪物追逐，应快速前进，如图9所示；当遇到陷阱区时，怪物停止追逐，应慢速通过以避免触发陷阱，如图10所示。

用于动作识别的深度神经网络运行于智能手机内，接收由前置摄像头捕获的用户图像、游戏角色当前所处的地图区域类型以及游戏的难度设置。其中，用户图像由智能手机的前置摄像头(单目摄像头)捕获。

游戏角色当前所处的地图区域类型以及游戏的难度设置存储于系统内部，能够决定游戏的运行结果，并实时向用户展示，因而既属于系统状态又属于交互内容，为二者的重叠部分。

相比之下，部分信息则互不重叠，例如，系统当前硬件温度、功耗、密钥、开机时长等信息，属于单纯的系统状态。这类信息对用户不可见，但能够影响系统运行，例如系统温度过高则需要降频，或进入待机状态等等。另一些信息，如角色形象，动画特效，主要用于向用户进行展示，不影响系统运行，则属于单纯的交互内容。

当玩家做出介于两个操作之间，可能引起歧义的动作时，系统能够通过当前状态，将该动作识别为预期的操作。例如，当玩家长时间游戏时，可能由于体力不支无法完成高抬腿跑，而是做出中等幅度的原地跑动作，从而造成游戏指令歧义。此时网络将根据输入的地图区域类型及游戏难度设置，实时修正识别结果，以保证玩家游戏体验。例如，在追逐区将动作识别为快速前进指令，在陷阱区识别为慢速前进指令，以降低游戏难度，或识别为与上述相反的指令以增加游戏难度。

下面再举一个具体的实施例，该实施例提供了一种体感会议展示系统，如图11所示，该系统硬件包括：智能手机和投影仪。结构上，所述主控模块、数据处理模块与通信模块集成于智能手机内，所述数据采集模块由智能手机的前置摄像头实现，所述反馈模块5由投影仪实现。智能手机挂置于墙面，通过WiFi等无线方式连接至投影仪，通过智能手机上的前置摄像头捕获演讲者图像，投影仪接收智能手机发送的画面呈现至与会者。用于动作识别的深度神经网络运行于智能手机内，通过对人物大小的判定区分演讲者和与会者，并且仅响应演讲者做出的手势。演讲者可通过挥手控制放映画面，当向屏幕右侧方向挥手时，播放下一内容；当向屏幕左侧方向挥手时，播放上一内容。

本发明所述的一种基于嵌入式平台的体态识别及体感交互系统基于嵌入式平台搭建，系统体积小、功耗低、集成度高，便于实际部署与应用；该系统采用单目摄像头捕获人体图像信息，成本低、适用范围广；利用两组深度神经网络进行动作识别，识别过程中将系统交互内容及系统状态作为输入，形成数据处理与系统运行逻辑的闭环，提高了识别精度和系统响应速度，有利于保证交互流畅度；该系统在使用时，无需用户佩戴额外设备，操作便捷，不为用户操作带来额外负担；该系统可根据应用需求进行定制，软件功能及硬件结构灵活，便于部署，有利于提升用户体验。

如图12所示，本实施例所述的一种基于嵌入式平台的体态识别及体感交互方法，包括：

S101：采集包含用户体态的二维图像信息；

进一步的，所述采集包含用户体态的二维图像信息，包括：

采用单目摄像头采集用户体态图像；

所述用户体态图像包括：彩色图像及灰度图像；

S102：对所述二维图像信息进行检测，得到人体概要特征和图像区块；

进一步的，利用深度神经网络——人体检测网络对所述二维图像信息进行检测，得到人体概要特征和图像区块；

S103：根据所述人体概要特征和图像区块对用户体态动作进行分析识别，得到用户操作指令；

进一步的，利用深度神经网络——体态识别网络根据所述人体概要特征和图像区块对用户体态动作进行分析识别，得到用户操作指令。

所述步骤S102和S103的具体处理过程，参见前文描述。

S104：将所述用户操作指令传输至外部相应的受控设备；

S105：根据所述用户操作指令向用户提供操作反馈信息。

本实施例所述一种基于单目摄像头的体态识别及体感交互方法的工作原理与图1、图8或图11所述的一种基于单目摄像头的体态识别及体感交互系统的工作原理相同，在此不再赘述。

本实施例所述的一种基于嵌入式平台的体态识别及体感交互方法采用单目摄像头捕获人体图像信息，成本低、适用范围广；利用两组深度神经网络进行动作识别，识别过程中将系统交互内容及系统状态作为输入，形成数据处理与系统运行逻辑的闭环，提高了识别精度和处理速度，有利于保证交互流畅度。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于嵌入式平台的体态识别及体感交互系统，其特征在于，该系统基于嵌入式平台搭建，包括：

2.根据权利要求1所述的体态识别及体感交互系统，其特征在于，所述数据处理模块根据所述二维图像信息确定人体概要特征和图像区块，包括：

3.根据权利要求2所述的体态识别及体感交互系统，其特征在于，

所述人体检测网络的输入数据包括：二维图像信息、前序人体检测结果、系统状态及交互内容；

4.根据权利要求3所述的体态识别及体感交互系统，其特征在于，利用所述输入数据和所述输出数据对所述人体检测网络进行训练，包括如下步骤：

步骤11：收集各组人体动作图像数据；

步骤12：根据应用需求定义系统交互内容和系统状态；

步骤14：标注各个数据包对应的人体概要特征和图像区块；

步骤17：判断预估结果误差是否小于第一阈值；

5.根据权利要求1所述的体态识别及体感交互系统，其特征在于，所述数据处理模块根据所述人体概要特征和图像区块对用户体态动作进行分析识别，包括：

6.根据权利要求5所述的体态识别及体感交互系统，其特征在于，

所述体态识别网络的输入数据包括：人体概要特征、图像区块、前序体态识别结果、系统状态及交互内容；

所述体态识别网络的输出数据包括：用户操作指令；

7.根据权利要求6所述的体态识别及体感交互系统，其特征在于，利用所述输入数据和所述输出数据对所述体态识别网络进行训练，包括如下步骤：

步骤21：收集各组人体概要特征和对应的图像区块；

步骤24：标注各个数据包对应的操作指令；

步骤25：计算各组人体概要特征间的相似度评分；

步骤210：判断加权预估结果误差是否小于第二阈值；

8.根据权利要求1至7任一项所述的体态识别及体感交互方法，其特征在于，

所述主控模块还用于实时监测所述数据采集模块、所述数据处理模块、所述通信模块和所述反馈模块的运行状态，并当所述数据采集模块、所述数据处理模块、所述通信模块或所述反馈模块运行发生异常时，及时停止运行并发出警告信号；

所述数据采集模块为单目摄像头。

9.一种基于嵌入式平台的体态识别及体感交互方法，其特征在于，包括：

采集包含用户体态的二维图像信息；

将所述用户操作指令传输至外部相应的受控设备；

根据所述用户操作指令向用户提供操作反馈信息。

10.根据权利要求9所述的体态识别及体感交互方法，其特征在于，所述采集包含用户体态的二维图像信息，包括：

采用单目摄像头采集用户体态图像；

所述用户体态图像包括：彩色图像及灰度图像。