CN110689041A

CN110689041A - 一种多目标行为动作识别预测方法、电子设备及存储介质

Info

Publication number: CN110689041A
Application number: CN201910768905.6A
Authority: CN
Inventors: 陈羽旻
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2020-01-14

Abstract

本发明公开了一种多目标行为动作识别预测方法，首先根据个人或个体动物的特征数据信息、所携带的各类便携式监测设备采集的传感器数据以及个人或个体动物的行为动作信息建立行为动作模型，然后对个人或个体动物的预设时间段内的传感器数据或动作流数据进行处理生成数据片段图，使用对应行为动作模型对数据片段图进行计算，实现个人或个体动物在预设时间内的行为动作的识别和/或在预设时间段之后的行为动作的预测。本发明可实现多类别行为动作的识别或预测，为个人或个体动物提供日常生活行为活动的智能化识别、预测以及记录方法。本发明还公开了一种电子设备及存储介质。

Description

一种多目标行为动作识别预测方法、电子设备及存储介质

技术领域

本发明涉及行为识别预测，尤其涉及一种多目标行为动作识别预测方法、电子设备及存储介质。

背景技术

随着人们对生活质量要求的提高，为了提高人们的生活质量、改变不良习惯，需要对人们的日常起居生活动作、饮食、运动等行为动作进行识别、监控、分析。现有的行为识别一般是通过图像识别的方式，比如通过加装摄像头对人的行为姿态的动作进行拍摄，然后对拍摄的图像或视频进行图像处理等手段来识别得出用户当前的行为姿态。这种方式需要借助于第三方设备，如摄像设备等，在实际使用过程中除了会增加设备成本外，对一些涉及到私人场景的区域不允许安装摄像头，比如公共浴室、卫生间等，从而无法通过该方式获得用户行为动作。另外，由于人会在不同地方活动，因此若仅通过摄像头并不能够实现对用户在所有场景的行为进行实时监控。同样地，对于动物来说，其生活环境的不同，也会有很多的活动场景，无法通过摄像头的方式记录动物在所有场景的行为进行实时监控。

随着微型传感器及电子技术的发展，越来越多的传感器通过便携式设备接入到人体上或各种生活场景中，通过各种传感器设备实现对人体的日常起居的生活习惯、运动、饮食等进行数据的采集，实现监控。但是，现有技术提供的便携式设备能实现的监控也仅仅是停留在一些基本数据采集方面或者识别一些简单的动作，比如通过电子手环采集心率、心电ECG等数据，或者通过惯性传感器的数据实现静坐、步行、跑步、游泳、入睡、起床等的动作识别。然而，目前这些识别方法并不能够对人体的日常起居的行为进行较详细地识别和记录，例如喝水、进食、挠痒、穿衣、脱衣、上洗手间、洗漱、工作、性行为、睡姿等更多类别的与生活密切相关的行为信息。当前，现有的设备并不能够对上述等相关行为进行自动识别、记录，也没有其他的数据处理方式能够识别出上述相关行为。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种多目标行为动作识别预测方法，其能够解决现有技术中对于人或动物等行为动作识别或预测类别少、不准确、成本高等的问题。

本发明的目的之二在于提供一种电子设备，其能够解决现有技术中对于人或动物等行为动作识别或预测类别少、不准确、成本高等的问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能够解决现有技术中对于人或动物等行为动作识别或预测类别少、不准确、成本高等的问题。

本发明的目的之一采用如下技术方案实现：

一种多目标行为动作识别预测方法，包括以下步骤：

模型建立步骤：根据个人或个体动物的特征数据信息、所携带的各类便携式监测设备采集的传感器数据以及个人或个体动物的基本行为动作信息建立行为动作模型；

数据获取步骤：获取预设时间段内的个人或个体动物的特征数据和所携带的便携式监测设备采集的传感器数据；

数据处理步骤：对预设时间段内的传感器数据，通过预处理生成重采样数据序列和特征数据序列，并通过一次或多次重采样将各个数据序列组合成预设时间段内用户的特征数据流片段图；

计算步骤：使用行为动作模型对预设时间段内个人或个体动物的特征数据流片段图和特征数据信息进行计算，识别得出个人或个体动物在所述预设时间段内的每个行为动作的结果信息和/或预测得出在所述预设时间段之后的每个基本行为动作的结果信息。

进一步地，所述模型建立步骤还包括：

行为动作标注：标注每个基本行为动作的类型、特征、起止时间形成基本行为动作信息，并存储于数据库中；

识别模型训练：在数据库中抽取某个时间段的特征数据流片段图、特征数据信息和对应时间段内的基本行为动作的标注数据作为一组训练数据，使用若干组训练数据进行模型训练，得出基本行为动作识别模型；

预测模型训练：在数据库中抽取某个时间段的特征数据流片段图、特征数据信息和对应时间段之后的基本行为动作的标注数据作为一组训练数据，使用若干组训练数据进行模型训练，得出基本行为动作预测模型；

混合模型训练：在数据库中抽取基本行为动作识别模型和基本行为动作预测模型的训练数据进行模型训练，得出混合模型。

进一步地，所述特征数据流片段图是由一个或多个数据序列的组合所组成；所述数据序列分为原始数据序列、重采样数据序列以及特征数据序列；原始数据序列为传感器数据所形成的数据序列；重采样数据序列为传感器数据或特征数据经过重采样后所形成的数据序列；特征数据序列为传感器数据经过特征提取后所形成的数据序列；

特征数据流片段图具体包括但不限于以下中的任意一种：

A1：由预设时间段内等长的两个或以上原始数据序列组成；

A2：由预设时间段内等长的两个或以上重采样数据序列组成；

A3：由预设时间段内等长的两个或以上特征数据序列组成；

A4：由预设时间段内等长的若干个原始数据序列、若干个重采样数据序列和若干个特征数据序列组成。

进一步地，模型训练的方式包括：

使用不同长度、不同采样频率的特征数据流片段图对模型在时间维度进行多尺度训练；使用不同传感器或特征组合产生的特征数据流片段图对模型进行多维度训练。

进一步地，根据传感器数据的类型，所述预处理包括但不限于以下中的任意一种或多种方法：

方法一：将多维传感器数据序列展开为一个或者多个一维序列数据；

方法二：对数据序列片段进行计算并映射为分类信息或特征信息，并将其作为特征数据，实现信息压缩；

方法三：运用不同的特征提取模块对原始传感器数据序列、特征数据序列和两者的混合数据序列进行计算并映射为分类信息或特征信息，并将其作为特征数据，实现信息深度压缩。

进一步地，使用的特征提取模块具体包括：

将数据序列通过特征提取方法进行特征提取得出对应的特征数据；其中，特征提取方法包括但不限于：均值、极值、方差、PCA主成分、频域主成分、目标识别网络和特征映射网络。

进一步地，所述目标识别网络包括但不限于以下中的一种或多种：适用于图像传感器的目标检测的YOLO、SSD、Fast R-CNN、Mask R-CNN网络或自定义目标识别网络；适用于音频传感器的声纹目标检测的DNN、ResCNN、 GRU网络或自定义目标识别网络；适用于其他传感器中的一个或多个特征目标检测的自定义目标识别网络。

进一步地，所述重采样的方法包括但不限于以下中的一种或多种：最邻近法、线性内插法、卷积内插法、增采样和减采样。

进一步地，还包括扩展行为动作识别或预测步骤：

步骤S1：根据设定时间段内的每个基本行为动作的结果信息以及时间的先后顺序将所有的基本行为动作进行顺序排列，生成动作流片段图；以及标注每个扩展行为动作的类型、特征、起止时间并形成扩展行为动作信息；

步骤S2：根据设定时间段内的动作流片段图和特征数据信息以及该设定时间段内的扩展行为动作信息作为一组识别训练数据并存储于系统中，使用多组识别训练数据对模型进行训练，得出扩展行为动作识别模型；根据预设时间段内的动作流片段图和特征数据信息以及该预设时间之后的扩展行为动作信息作为一组预测训练数据，使用多组预测训练数据对模型进行训练，得出扩展行为动作预测模型；使用识别训练数据和预测训练数据中的全部或部分数据对模型进行训练，得出扩展行为动作混合模型；

步骤S3：使用扩展行为动作识别模型对一段连续时间内的基本行为动作的结果信息进行识别，获得该段连续时间内的一个或多个扩展行为动作的结果信息；

步骤S4：使用扩展行为动作预测模型对一段连续时间内的基本行为动作的结果信息进行预测，获得该段连续时间之后的一个或多个扩展行为动作的结果信息；

步骤S5：使用扩展行为动作混合模型对一段连续时间内的基本行为动作的结果信息进行识别预测，获得该段连续时间内及之后的一个或多个扩展行为动作的结果信息。

进一步地，所述基本行为动作的结果信息、扩展行为动作的结果信息均包括：行为分类、行为存在的置信度、行为特征、行为开始时间、行为持续时间或行为结束时间；行为开始时间、行为结束时间在特征流片段图起止时间内或超出特征流片段图起止时间；每次识别或预测的过程中的多个行为信息在时间维度上具有重叠区域或没有重叠区域。

进一步地，模型训练过程中的模型网络结构包括以下一个或多个特征：

使用组合卷积核对数据特征流片段图或动作流片段图进行特征提取；

使用组合卷积核对通过组合卷积提取的特征再次进行特征提取；

组合卷积核由多个通用卷积核组成；

一个组合卷积核中的多个通用卷积核对不同目标数据进行同步卷积；

单个通用卷积核只对特征流片段图中的特定一个或多个维度数据序列进行卷积；

对多个通用卷积核结果分别乘以预设权重值后求和，得出组合卷积核结果。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明目的之一采用的一种多目标行为动作识别预测方法的步骤。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一所采用的一种多目标行为动作识别预测方法的步骤。

相比现有技术，本发明的有益效果在于：

本发明使用针对个人或个体动物所携带的便携式监测设备采集的数据与其行为动作对神经网络进行训练，得出行为动作数据与便携式监测设备采集数据之间的对应关系。在行为识别或预测时，使用训练后的神经网络对个人或个体动物所携带的便携式监测设备在某段时间内采集的数据进行计算，获得对应的行为动作数据，比如：在该段时间内所发生的动作的识别，或该段时间结束后用户将要结束或将要发生的动作的预测。本发明利用神经网络训练的方式建立个人或个体动物的行为动作与便携式监测设备采集数据之间的对应关系，解决了现有技术中对于行为识别或预测系统的建设成本高的问题，同时，本发明还大大提高行为动作的识别或预测的准确性以及行为类别数量。

本发明在进行模型训练时，通过历史数据训练出识别或预测模型，而不需要人工定义传感器特征值，使模型具备自学习能力；使用一段时间内的传感器数据和对应时间内或对应时间之后发生的多个行为动作的数据对识别、预测或混合模型进行训练，提高了模型的识别或预测的准确性和识别或预测的分类数量。

附图说明

图1为本发明提供的一种多目标行为动作识别预测方法的流程图；

图2为本发明提供的传感器原始数据及标注数据示意图；

图3为本发明提供的通过目标识别方式对音频特征提取示意图；

图4为本发明提供的传感器数据经预处理后的特征流片段图；

图5为本发明提供的特征流片段及组合卷积核；

图6为本发明提供的组合卷积过程；

图7为本发明提供的基本行为动作识别与预测方法的流程图；

图8为本发明提供的动作流片段图；

图9为本发明提供的扩展行为动作识别与预测的方法流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

由于现有技术中基于视觉的方式，一般是需要通过安装摄像头等摄像设备来获取图像，进而通过图像识别的方式识别人或动物的行为动作。但是这种方式，需要安装大量设备，成本较高；而且对于一些隐私场合来说，比如试衣间、卫生间等并不适合安装摄像设备，也就无法对人的行为动作进行识别。而对于动物来说，由于其生活环境较为广阔，也不能够完全通过安装摄像设备来实现对动物的行为动作进行识别。因此，本发明基于上述技术问题，提供了一种多目标行为动作识别系统，其不需要在使用场所安装摄像设备，就可以实现对人或动物的行为动作的实时监控以及识别。

本发明提出了一种多目标行为动作识别预测系统，对人或动物的行为动作能够快速、准确以及实时进行识别和预测，大大提高了系统的应用范围以及应用场景。本发明在针对行为动作识别或预测时，不分时间、场合、地点等，可实现对人或动物的行为动作进行实时识别以及预测，解决了现有技术中针对人或动物的行为动作识别不能够识别一些场景、时间等的行为动作，比如涉及私人场景、特殊场合、时间等。本系统包括三大部分：数据采集、模型训练和行为识别或预测。首先使用用户端个人特征数据以及所携带的各类便携式监测设备采集的数据、用户的行为动作信息对模型进行训练得出对应识别或预测模型，然后再根据训练得出的模型对用户一段时间内的行为动作进行识别或预测。

本发明采用人体或动物所携带的各种便携式监测装置，实时对人体或动物进行监控，比如手环、移动设备等都具备数据的采集，采集到人或动物的状态数据(比如加速度、心跳、血压、脉搏等)、人或动物所处环境数据等各种不同类型的数据，然后根据这些数据结合个人或个体动物的特征数据信息以及行为动作信息进行模型训练建立对应模型，然后通过训练后的模型对在一段时间内的采集人或动物所携带的便携式监测装置的数据进行计算，实现在该段时间内行为动作的识别和/或该段时间后的行为动作的预测等。依据上述方式，本发明不仅仅可以实现人的行为动作的识别与预测，也可以实现其他生物，比如动物的行为动作识别与预测。

另外，为了便于实施例的说明描述，以下的描述中均以人为对象来描述本发明的具体实现过程，当然以下的描述也适用于动物的行为动作识别、预测。

本发明中的便携式监测设备，可以是任意一种对人所处的环境、人体内、人与环境交互的各种特征进行监控的各种设备，比如手环、脚环、颈环、手机、平板电脑、体征监测器、胶囊内窥镜、口腔环境成分监测仪等各种设备，以上列举的设备只是其中的一部分，在实际的应用过程中，根据需求自行选择对应的设备，只要能够通过手机、平板电脑、PC(personalcomputer，个人计算机) 等终端或其他设备直接或间接地读取到设备的传感器数据或其他相关特征数据，都应包括在本发明所述的便携式监测设备中。这些设备一般都是通过内置对应的传感器来实现数据的采集。其中，传感器包括但不限于以下任意一种：加速度传感器、陀螺仪传感器、磁场强度传感器、GPS(Global Positioning System，全球定位系统)数据、麦克风传感器、光强传感器、气压传感器、气体成分传感器、湿度传感器、酸碱度传感器、物质成分分析传感器、温度传感器、心率传感器、图像传感器等。安装有传感器的各类监测设备可以佩戴在人身体上、或者安装在身体的其他部位，比如手、脚、头、躯干等各个部位，也可以安装在人体所穿戴的衣服、鞋子、帽子、眼镜、配饰等上面，也可以将手环等放在办工作上，用来记录声音、震动、环境等数据，也可以安装植入在人体体内，比如口腔内、腹腔内、胸腔内、四肢内等，实现对人体各个部位的内外、以及内外交互的数据的采集。

使用便携式监测设备采集数据后，对数据进行标注，标注对应的行为动作分类、特征、起止时间，记录传感器数据和标注数据到数据库中。另外，定期通过读取外部监测设备或人工录入的方式获取个人特征数据，如性别、身高、体重、体脂、年龄、人体骨架特征，同样记录到数据库中。

将一段时间的多个传感器数据通过特征提取以及重采样等预处理方式合并为特征数据流片段图，结合对应时间段的个人特征数据，对识别模型、预测模型进行训练。识别模型、预测模型中使用组合卷积方式对特征数据流片段图进行特征提取，使用目标检测算法包括比如：YOLO(You only look once，基于回归的目标检测算法)、SSD(Single ShotMultiBox Detector，多分类单杆检测器)、 Fast R-CNN(Fast Region-basedConvolutional Neural Network，快速区域卷积神经网络)、Mask R-CNN(Mask Region-based Convolutional Neural Network，快速区域分割卷积神经网络)等相近的方式进行目标识别或预测，获得传感器数据对应的行为分类、行为存在的置信度、行为特征、行为开始时间、行为持续时间或行为结束时间。其中行为起止时间通过模型输出的bounding box(简称为： bbox，边框)在片段图中横向偏移值和bbox宽度计算获得。在训练过程中通过重采样改变片段图中的采样频率，以及通过选取不同时间长度的片段图，使模型具备对不同时间长度、不同分辨率(采样率)的特征流片段图进行识别。通过选取特征片段图对应时间段之后的行为动作标注信息，与上述同样结构的模型进行训练，可获得根据当前传感器数据和个人特征数据预测后面将要发生的行为动作信息。

另外，由于上述的模型训练依赖于传感器的数据，对于能够直接通过传感器数据流特征片段图来识别或预测得出的行为动作，其涉及到的时间跨度短、数据量较小、行为动作在较小的时间范围内可以完成等，比如：挠痒、直走、左转、右转、蹲下、搓手等，这类行为动作，本发明称为基本行为动作。

而相反地，对于有些行为动作：上厕所、洗漱、吃饭等一些时间持续时间较长的动作来说，单靠传感器数据流特征片段图，也很难对上述动作进行识别或预测。对于这些行为动作没有相对固定的时间范围，其动作的时间可能跨度很大，数据量大，很难通过传感器监测的数据进行直接计算得出其行为动作，这类行为动作，本发明中称为扩展行为动作。

也即是说，通过模型对上述传感器数据流特征片段图计算可以实现基本行为动作的识别、预测。而对于扩展行为动作的识别、预测，本发明根据上述识别模型或预测模型识别得出的基本行为动作的结果信息来实现。

比如，首先对使用上述识别、预测模型通过分段处理方式，对一段较长时间的特征片段图进行识别、预测，获得多个基本行为动作的结果信息，并按照时间先后顺序将多个基本行为动作进行时间顺序组成动作流片段图，如：动作类型、动作持续时间、动作特征1、动作特征2…动作特征n。然后使用和基本动作模型中采用相似的模型训练方法，使用动作流片段图、个人特征数据以及扩展行为动作的标注信息进行模型训练，获得像喝水、抽烟、吃饭、上厕所等扩展行为动作的识别模型或预测模型。在行为识别或预测时，就可以通过扩展行为动作的识别模型对一段时间内所有的基本行为动作所组成的动作流片段图进行计算，实现该段时间内的一个或多个扩展行为动作的识别；或通过扩展行为动作的预测模型对一段时间之后的所有基本行为动作所组成的动作流片段图进行计算，实现对该段时间之后的一个或多个扩展行为动作或该段时间内未结束的扩展行为动作进行预测。其中，模型计算获得的扩展行为动作的结果信息也包括行为分类、行为存在的置信度、行为特征、行为开始时间、行为持续时间或行为结束时间。采用上述识别、预测方法，可实现例如洗手、大小便、洗澡、阅读、绘画、唱歌、游泳、走路、跑步、健身、做菜、乘坐交通工具等各种扩展行为动作的识别与预测。

另外，本发明中对于基本行为动作以及扩展行为动作的划分，一般是基于时间长短来进行划分，但是其时间长短的确定本发明不作限定，可根据实际场景、用户特征、设备、识别的目标进行调整。比如，一般可将如跨度在10秒以内的动作作为短时间行为动作，即基本行为动作(以下实施例中也称为短时间行为动作)，即可通过模型对传感器数据流特征片段图直接计算得出，而跨度10 秒以上的行为动作作为长时间行为动作，即扩展行为动作(以下实施例中也称为长时间行为动作)则需通过扩展行为动作的识别模型或预测模型进行计算获得。

为了便于理解和阅读，实施例以人的行为动作为例，先从简单的应用叙述，而在后面复杂的应用中，则会简化在简单实施例中已描述的方法及过程，以提高阅读效率。

实施例一：挠痒

由于蚊虫叮咬、细菌、外伤、神经紧张等会造成不同位置的皮肤局部瘙痒、痕痒。当出现瘙痒的时候，人类以及部分动物都会有挠痒的行为。通过记录该行为发生的时间、位置、频率等，对日后的环境、药物、心理状况的分析会有较高的价值。本实施例是针对基本行为动作的识别与预测，其时间跨度小，能够直接从人所携带的便携式监测设备中所检测到的数据反映出用户的行为动作。

对于现有的技术和方法最直接的方式是通过摄像头拍摄用户，通过人体姿态识别判断，但该技术需要用户在拍摄画面中活动，并且需要多个摄像头从不同的角度拍摄才能准确获得挠痒的位置，显然，无论从方案成本还是隐私方面考虑，该方法都难以普及应用。如CN108416979A一种智能老年人摔倒报警系统使用网络摄像装置拍摄图片分析老年人摔倒的状态，判断是否需要报警，该方法只能在拍摄区域进行分析，无法在任意地方拍摄用户。

其他与本方法相近的是利用手环等装置上的惯性传感器数据，通过特征分析、学习，识别行为动作。但其大部分利用手腕处的空间维度数据，对于一些在手腕处空间维度表现的特征相近的行为动作则无法通过该类方法进行区分。如CN108062170A基于卷积神经网络和智能终端的多类别人体姿态识别方法中，仅使用三轴加速度传感器数据对姿态进行识别。

通过本发明在该场景的应用，可以很方便地自动记录生活中挠痒动作：

1、采集数据

通过便携监测装置如手环、指环等，记录一段时间内手腕附近的三轴加速度、三轴角速度、三轴地磁强度和两轴麦克风数据以及对应的时间戳，不同的传感器可以使用不同的采样频率，以上传感器在一段时间内的数据分布如图 2。

2、标注数据

对上一步记录的传感器数据出现的挠痒行为进行标注并保存与数据库中，标注某一段挠痒行为的开始及结束时间，标注其类别为“挠痒”，标注其挠痒的部位特征为：“头部”、“手部”、“后背”等。标注的时候可以通过数据可视化、回放等方式确认类别、特征和起止时间，如图2所示。

3、预处理数据

3.1、转为一维数据

上述多轴传感器数据可以视为多维传感器，即每个采样时刻可获得一个以上的数值，而在连续采样一段时间后，则会获得一组多维数据序列，将该多维数据序列展开为多个一维数据序列。如X、Y、Z方向的三个加速度数值，在连续采样后会有如[[A_X1,A_Y1,A_Z1],[A_X2,A_Y2,A_Z2],…,[A_Xt,A_Yt,A_Zt]]的二维数组，通过计算机程序将其转置为三个一维数组:[A_X1,A_X2,…,A_Xt],[A_Y1,A_Y2,…,A_Yt]和[A_Z1, A_Z2,…,A_Zt]。

3.2、使用特征提取模块

使用针对音频分类的识别网络，如DNN(Deep Neural Networks，深度神经网络)、ResCNN(residual Convolutional Neural Networks，残差卷积神经网络)、 GRU(GatedRecurrent Unit，门控循环单元网络)网络或自定义目标识别网络，对上述两轴麦克风采集的两组一维音频数据序列分别进行滑窗分类，滑窗长度为1秒，滑窗每次步进0.1秒，最后将原来44.1kHz或其它采样频率的原始音频数据序列生成为10Hz的分类结果数据序列，如音频1分类特征数据序列＝[M0, M1,M2,…,Mn]，其中M_n∈[未定义类型，挠毛发声音类型，挠皮肤声音类型，隔衣服挠声音类型，…]。可见这里从44kHz的数据速率降为10Hz的数据速率，将大幅降低后续数据的运算量，如图3所示。

同样的，对滑窗使用求均值、极值、方差、PCA(Principal Component Analysis，主成分分析)、频域分布特征产生新的特征数据序列也能降低数据速率。

3.3、重采样

在预设时间段内，如1分钟内，对上述多个一维原始数据序列和经特征提取后的一维特征数据序列，进行10Hz同步重采样，使以上多个一维数据序列在预设时间段内的长度相等，且采样时刻对齐，最终将重采样后的一维数据序列组合为一个特征数据流片段图，其大小为11×600。重采样方式包括但不限于：最邻近法、线性内插法、卷积内插法、增采样和减采样。

3.4特征数据流片段图

在不间断的对传感器数据进行采集、特征提取，形成特征数据流。对一段时间内的多个特征数据流进行截取、重采样，形成特征数据流片段图。

与通常的二维图像数据不同，二维图像横向的数据表示拍摄物体在投影XY 平面的X方向数据，纵向数据表示Y方向数据，而特征流片段图的横向是特征在时间方向的数据，纵向是各个特征数据。

以下叙述中将特征数据流片段图简称为特征流片段图。

4、神经网络的组成及训练

4.1训练集

在上述步骤获得预设时间段的特征流片段图后，在前述标注的数据库中查找预设时间段内所包含的行为动作，以及动作的分类、特征和起止时间，将特征流片段图和对应的标注作为一组训练数据存储于系统的数据库中。在数据库中抽取多组训练数据作为识别训练集。

进一步，在上述步骤获得预设时间段的特征流片段图后，在前述标注的数据库中查找预设时间段之后所包含的行为动作，以及动作的分类、特征和起止时间，将特征流片段图和对应的预设时间段之后的标注作为一组训练数据存储于系统的数据库中。在数据库中抽取多组训练数据作为预测训练集。

4.2神经网络组成

在如YOLO、SSD、Fast R-CNN、Mask R-CNN等具备对二维图像实现多目标分类的神经网络或能实现相近功能的神经网络的基础上，将以上网络中的所使用的特征提取网络里的全部或部分常规卷积核修改为组合卷积核。其中，特征提取网络，一般可采用以下的模型来实现，比如VGGNET(2014年，Imagenet比赛亚军的模型)、GoogleLeNet(2014年，Imagenet比赛冠军的模型) 以及AlexNet(2012年，Imagenet比赛冠军的模型)。

常规的卷积方式是通过卷积核对二维数据中相邻的数值进行卷积，因为二维图像信息在空域中是连续的，所以可以使用同一个卷积核对原始二维图像数据或卷积后的二维特征数据的任意位置进行遍历卷积，提取如轮廓等的特征信息。而在上述由多个不同维度的特征数据组合而成的特征流片段图，虽然在数据形式上也可以看作是一个二维的图像，但该特征流片段图图像中不同特征的数据只在时域上是连续的，不同特征之间的数据点是不连续的，特征流片段图更像是高维的数据集合，所以如果直接像二维图像那样使用同一个卷积核对特征流片段图的任意位置进行遍历的话，难以提取有效的特征。

本文的方法使用组合卷积对不同维度的数据进行卷积，以使用更少的卷积运算提取行为动作的主要特征。如图4所示，前述特征流片段图中包含三轴加速度、三轴角速度、三轴地磁强度数据和两轴音频分类特征数据序列，共11个维度的数据序列。对于N个维度的数据序列，最多可以有

种不同的组合方式，所以可以使用M种不同的组合方式的卷积核对特征流片段图进行卷积，获得M组卷积结果，同时也可以使用多个相同的组合卷积核对特定维度的数据特征进行提取。

如图5表示对4个维度(A\B\C\D)的数据序列，可以使用的组合卷积核类别可以有

种，其中

相当于是4组一维卷积。以下使用

的卷积核为例描述卷积过程，

种组合卷积核，每种卷积核分别对总共4个维度中的2个特征数据序列进行同步卷积，最终获得6 组卷积结果。图中6种(F1～F6)组合卷积核纵向长度均是2，横向长度均是3，这里仅举例，横向长度可根据实际应用进行调整。一个2×3的组合卷积核可以视作2个1×3的通用卷积核组合，同理，本例

中的4种3×3组合卷积核可视作3个1×3的通用卷积核组合，卷积核对4个维度中的3个特征数据序列进行同步卷积，获得4组卷积结果。

每种组合卷积核只对特征流片段图中特定维度的数据序列在时间方向上进行卷积，即组合卷积核在卷积计算过程只在特征流片段图的横向移动，不作纵向移动，其卷积过程如图6所示。在本例中，组合卷积核1第一次的

其中j＝0，其它卷积结果j按步进1代入计算，其它卷积核计算过程以此类推。

进一步，在下一层网络中，对多个、多种组合卷积核的卷积结果经激活层计算后输出合并组成的新特征流片段图进行二次组合卷积，实现对新的特征流片段图进行特征提取。同样的，其组合卷积核类别最多可以有

种。

通过上述方式，可以在VGGNet、GoogLeNet、AlexNet等特征提取网络中替换部分常规卷积过程，从而减少运算量，提高训练速度。其他部分如BN (Batch Normalization，批量归一化)层、池化层、常规卷积层、全连接层、联合层、dropout(随机失活)层、softmax(分类)层等可以不作修改或在本领域技术人员容易想到的方法进行相应的修改，本方法对网络中的其他部分不作限定。

进一步，可在神经网络增加输入层输入部分个人特征数据，结合原有的特征片段图输入层进行训练，提高识别、预测模型对同一行为动作在不同特征用户发生时的识别或预测的准确度。个人特征包括但不限于：性别、身高、体重、体脂、年龄、人体骨架特征。

4.3网络训练

使用4.1描述的数据集对4.2描述的网络进行训练，分别得到多目标行为动作识别模型和预测模型。

进一步，通过重采样改变已有数据集中的特征流片段图的时间分辨率，或者重新对原始数据序列进行预处理获得不同时间长度或不同采样率的特征流片段图，通过这些特征流片段图对多目标行为动作识别模型和预测模型在时间维度进行多尺度训练。例如增加使用15秒、30秒、90秒、120秒等时间长度的特征流片段图以及5Hz、20Hz、50Hz等重采样频率的特征流片段图对识别和预测模型进行多尺度训练，最终使模型能对不同时间长度、分辨率的特征流片段图进行识别和预测。

进一步，通过对特征流片段图中的某一个或多个特征数据序列置一固定值实现对该特征数据序列的屏蔽，模拟生成具有不同特征维度的特征流片段图，使用这些不同特征维度的特征流片段图对识别和预测模型进行多维度的训练，最终使模型能对不同传感器或特征组合产生的特征流片段图进行识别和预测。

其中，可通过对原有数据序列中的一个或多个数据序列置0生成新的特征流片段图，例如将X轴加速度传感器数据序列置0，模拟在没有X轴加速度传感器数据时的产生的特征流片段图。

神经网络的具体训练过程对于机器学习领域技术人员容易实现，所以不进行详述。

5、系统使用

如图7所示，使用上一步训练后的多目标行为动作识别模型和预测模型对第3步预处理后的特征流片段图进行识别和预测，获得对应的一组或多组动作信息：行为分类、行为存在的置信度、行为特征、行为开始时间、行为持续时间或行为结束时间。例如，对最近1分钟的特征流片段图进行识别，获得1分钟内一个或多个挠痒动作的起止时间、挠痒部位(特征)，从而实现挠痒的动作识别应用。其中，动作的起止时间是通过行为的bounding box(bbox)在特征流片段图中的横向偏移值和bbox宽度计算获得。

通过对前述识别得出的挠痒的动作运用常规统计分析计算，可获得如每天挠痒次数、持续时间以及不同挠痒位置的次数、时间等。

同样的，上述挠痒动作识别的应用，可以通过相似的过程，通过增加如肢体动作、拳击、踢腿、搓手、饮食、性行为等动作的数据集对识别和预测模型进行训练，获得其他行为动作类型、特征、起止时间的识别和预测。

实施例二：上厕所

洗漱、大小便等这些动作，即：扩展行为动作(以下也称：长时间行为动作)，身体机能健全的人每天都会重复这些动作。饭前有没洗手、每天大小便的次数，这些对人们的健康有着密切的联系。而洗漱、大小便一般都需要在卫生间进行，这些动作通常持续时间较长，从几十秒到几十分钟不等，如果直接使用传感器的数据或者即使是一些提取后的特征数据，也很难对上述动作进行识别，原因主要是其没有固定的时间范围，其次动作的时间跨度大，原始数据巨大。通过记录该行为发生的时间、位置、频率等，对日后的饮食、运动、健康状况的分析会有较大的帮助。

对于现有的技术和方法最直接的方式是用摄像头拍摄分析，显然，无论从方案成本还是隐私方面考虑，该方法都难以普及应用。

通过本发明在该场景的应用，可以很方便地自动记录生活中的洗漱、大小便等动作：

1、建立常规动作识别模型或预测模型或混合模型：

按实施例一中描述1～5的步骤，建立能识别和/或预测以下动作的模型A：直走、左转、右转、掉头、蹲下、静止、搓手、冲水和起立等基本行为动作。具体建立模型过程与实施例一中描述的基本一致，不作详述。

2、标注长时间行为动作数据：

在前述建立模型过程中标注常规动作数据时，同时标注长时间的行为动作，如洗手、小便、大便等动作信息，包括其类型、特征、起止时间，其中特征包括但不限于：洗手过程是否使用洗手液、香皂；小便时是站立还是蹲下；动作发生时的地理位置名称。将以上标注信息保存到数据库中。

3、预处理、生成动作流片段图：

通过上述的识别和/或预测模型对如实施例一中一段时间内的连续多个特征流片段图进行识别或预测，得出该段时间内一系列动作的结果信息、以及该段时间之后的一系列动作的结果信息，将这些结果信息按时间先后顺序排列，组成以下格式动作流片段图，如图8所示：

[[动作1类型,动作2类型,…,动作n类型],[动作1持续时间,

动作2持续时间,…,动作n持续时间],[动作1特征1,动作2特征1,…,动作n特征1],…,

[动作1特征m,动作2特征m,…,动作n特征m]]。

以上数据与实施例一中描述的特征流片段图相似，横向是特征在时间方向的数据，纵向是各个特征数据序列，各个特征序列长度都相等，以下将此称为动作流片段图。

4、神经网络组成及训练

4.1训练集

在上述步骤获得预设时间段的动作流片段图后，在前述标注的数据库中查找预设时间段内所包含的长时间行为动作，以及长时间行为动作的分类、特征和起止时间，将动作流片段图和对应的长时间行为动作标注作为一组训练数据存储于系统的数据库中。在数据库中抽取多组训练数据作为识别训练集。

进一步，在上述步骤获得预设动作流片段图后，在前述标注的数据库中查找预设时间段之后所包含的长时间行为动作，以及长时间行为动作的分类、特征和起止时间，将动作流片段图和对应的预设时间段之后的标注作为一组训练数据存储于系统的数据库中。在数据库中抽取多组训练数据作为预测训练集。

4.2神经网络组成

使用如实施例一中描述的多目标识别和/或预测神经网络。

进一步，可在神经网络增加输入层输入部分个人特征数据，结合原有的特征片段图或动作流片段图输入层进行训练，提高识别、预测模型对同一种长时间行为动作在不同特征用户发生时的识别或预测准确度。个人特征包括但不限于：性别、身高、体重、体脂、年龄、人体骨架特征。

4.3网络训练

使用4.1描述的数据集对4.2描述的网络进行训练，分别得到多目标长时间行为动作识别模型和预测模型。

5、系统使用

如图9所示，使用上一步训练后的多目标长时间行为动作识别模型和预测模型对第3步预处理后的动作流片段图进行识别和预测，获得对应的一组或多组长时间行为动作的结果信息：行为分类、行为存在的置信度、行为特征、行为开始时间、行为持续时间或行为结束时间。例如，对最近8小时的动作流片段图进行识别，获得8小时内的一个或多个洗手、小便、大便等长时间行为动作的起止时间、特征，从而实现长时间行为动作识别应用。其中，动作的起止是通过长时间行为动作的结果信息的bbox在动作流片段图中横向包含的动作时间信息计算获得。

通过对上述长时间行为动作的结果信息运用常规统计分析计算，可获得如每天洗手、大小便次数、持续时间等。

同样的，上述上厕所等动作识别的应用，可以通过相似的过程，结合其他传感器、特征数据，应用于其他长时间行为动作的类型、特征、起止时间的识别和预测，例如阅读、绘画、唱歌、游泳、走路、跑步、健身、做菜、乘坐交通工具等。

本发明提供了一种多目标行为动作识别预测方法，如图1所示，包括以下步骤：

本发明中通过将采集到的传感器数据处理成特征数据流片段图，能够融合多种传感器数据，如惯性、音频、图像、位置、心率等传感器数据结合个人特征等数据，提高了动作识别或预测的准确度。

进一步地，所述模型建立步骤还包括：

识别模型训练：在数据库中抽取某个时间段的特征数据流片段图和对应时间段内的基本行为动作的标注数据作为一组训练数据，使用若干组训练数据进行模型训练，得出基本行为动作识别模型。

预测模型训练：在数据库中抽取某个时间段的特征数据流片段图和对应时间段之后的基本行为动作的标注数据作为一组训练数据，使用若干组训练数据进行模型训练，得出基本行为动作预测模型。

本发明还针对行为动作信息中加入动作的起止时间信息，使得模型在一段时间的数据中能识别出动作的起止时间，扩大了该模型的应用范围。

本发明通过动作的识别模型和预测模型能够利用已有的数据对已经发生并完成的行为进行识别，也可以对未发生或未结束的行为进行预测，提供对未发生或未结束的行为进行干预的依据。同时，可通过混合模型代替单个识别模型和预测模型实现行为的识别和预测，减少识别预测的整体参数数量，减少运算量。

特征数据流片段图具体包括但不限于以下中的任意一种：

A1：由预设时间段内等长的两个或以上原始数据序列组成；

A3：由预设时间段内等长的两个或以上特征数据序列组成；

本发明通过将原始数据序列、重采样数据序列和特征数据序列以等长方式混合组成特征数据流片段图，能够获得更为丰富的特征信息，提高动作识别或预测的准确度。

进一步地，模型训练的方式包括：

本发明中在模型训练时，使用不同时间尺度和不同传感器维度的数据对模型进行训练，可使得训练后的模型能够在不同应用场景以及不同传感器种类、数量时的维持动作识别或预测的准确度，如高频高精度场景、低频低功耗场景。

本发明中通过使用特征提取模块对不同传感器特征进行提取，便于实现信息的深度压缩，以及实现数据类型差异较大的传感器之间的数据融合，最终提高动作识别或预测的准确度和识别或预测的动作类别数量。

进一步地，使用的特征提取模块具体包括：

本发明通过采用不同的特征提取的方式，能够提取出不同维度的特征数据，便于提高动作识别或预测的准确度。

由于传感器类型不同，则其传感器数据也不同，因此使用不同的目标识别网络对传感器数据进行特征提取。

进一步地，所述重采样的方法包括但不限于以下中的一种或多种：最邻近法、线性内插法、卷积内插法、增采样、减采样。

进一步地，还包括扩展行为动作识别或预测步骤：

步骤S2：根据设定时间段内的动作流片段图和特征数据信息以及该设定时间段内的扩展行为动作信息作为一组识别训练数据并存储于系统中，使用多组识别训练数据对模型进行训练，得出扩展行为动作识别模型；根据预设时间段内的动作流片段图以及该预设时间之后的扩展行为动作信息作为一组预测训练数据，使用多组预测训练数据对模型进行训练，得出扩展行为动作预测模型；使用识别训练数据和预测训练数据中的全部或部分数据对模型进行训练，得出扩展行为动作混合模型；

由于传感器的数据能够直观地反应出基本行为动作，但是对于扩展行为动作，诸如上厕所，其时间跨度长、行为复杂、涉及到的传感器类型更多，因此，本发明通过已经识别或预测得出的基本行为动作，并结合本文中提供的模型训练方法建立对应的扩展行为动作的识别模型和预测模型，进而完成扩展行为动作的识别或预测，大大丰富了行为动作识别或预测的类型，同时，也降低了实现长时间的复杂行为动作识别和预测时数据运算量。

使用组合卷积核对数据特征流片段图或动作片段图进行特征提取；

组合卷积核由多个通用卷积核组成；

本发明中还给出了模型训练过程中的模型网络结构的组合卷积的实现方法，能够大大减少了卷积的运算量，提高运算效率。

实施例三：

本发明还提供了一种电子设备，其包括存储器、处理器以及存储在存储器上并可在处理上运行的计算机程序，所述处理器执行所述程序时实现如文中所述的一种多目标行为动作识别预测方法的步骤。

实施例四：

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如文中所述一种多目标行为动作识别预测方法的步骤。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种多目标行为动作识别预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种多目标行为动作识别预测方法，其特征在于：所述模型建立步骤还包括：

3.根据权利要求1或2所述一种多目标行为动作识别预测方法，其特征在于：所述特征数据流片段图是由一个或多个数据序列的组合所组成；所述数据序列分为原始数据序列、重采样数据序列以及特征数据序列；原始数据序列为传感器数据所形成的数据序列；重采样数据序列为传感器数据或特征数据经过重采样后所形成的数据序列；特征数据序列为传感器数据经过特征提取后所形成的数据序列；

特征数据流片段图具体包括但不限于以下中的任意一种：

A1：由预设时间段内等长的两个或以上原始数据序列组成；

A3：由预设时间段内等长的两个或以上特征数据序列组成；

4.根据权利要求2所述一种多目标行为动作识别预测方法，其特征在于：模型训练的方式包括：

5.根据权利要求1所述一种多目标行为动作识别预测方法，其特征在于：根据传感器数据的类型，所述预处理包括但不限于以下中的任意一种或多种方法：

6.根据权利要求5所述一种多目标行为动作识别预测方法，其特征在于：使用的特征提取模块具体包括：

7.根据权利要求6所述一种多目标行为动作识别预测方法，其特征在于：所述目标识别网络包括但不限于以下中的一种或多种：适用于图像传感器的目标检测的YOLO、SSD、FastR-CNN、Mask R-CNN网络或自定义目标识别网络；适用于音频传感器的声纹目标检测的DNN、ResCNN、GRU网络或自定义目标识别网络；适用于其他传感器中的一个或多个特征目标检测的自定义目标识别网络。

8.根据权利要求1所述一种多目标行为动作识别预测方法，其特征在于：所述重采样的方法包括但不限于以下中的一种或多种：最邻近法、线性内插法、卷积内插法、增采样和减采样。

9.根据权利要求1所述一种多目标行为动作识别预测方法，其特征在于：还包括扩展行为动作识别或预测步骤：

10.根据权利要求9所述一种多目标行为动作识别预测方法，其特征在于：所述基本行为动作的结果信息、扩展行为动作的结果信息均包括：行为分类、行为存在的置信度、行为特征、行为开始时间、行为持续时间或行为结束时间；行为开始时间、行为结束时间在特征流片段图起止时间内或超出特征流片段图起止时间；每次识别或预测的过程中的多个行为信息在时间维度上具有重叠区域或没有重叠区域。

11.根据权利要求1所述一种多目标行为动作识别预测方法，其特征在于：模型训练过程中的模型网络结构包括以下一个或多个特征：

组合卷积核由多个通用卷积核组成；

12.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如权利要求1-11中任一项所述一种多目标行为动作识别预测方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述一种多目标行为动作识别预测方法的步骤。