CN114662606A

CN114662606A - 行为识别方法及装置、计算机可读介质和电子设备

Info

Publication number: CN114662606A
Application number: CN202210325383.4A
Authority: CN
Inventors: 周兴康; 裴璇; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-24

Abstract

本公开提供一种行为识别方法、行为识别装置、计算机可读介质和电子设备，涉及行为识别技术领域，应用于包括第一设备和第二设备的行为识别系统。该方法包括：通过第一设备采集用户的第一运动数据和/或第一多模态数据，并通过第二设备采集用户的第二运动数据和第二多模态数据；基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。本公开通过多设备采集运动数据，同时将采集的多模态数据作为运动数据的补充，以提供更加丰富的人体行为数据，进而基于丰富的人体行为数据进行行为识别，以扩大人体行为识别可以识别的行为类型的范围，同时提高人体行为识别的准确率。

Description

行为识别方法及装置、计算机可读介质和电子设备

技术领域

本公开涉及行为识别技术领域，具体涉及一种行为识别方法、行为识别装置、计算机可读介质和电子设备。

背景技术

人体行为识别(HAR)作为重要的检测手段，能够使得智能设备的交互和监测功能更加贴合用户的生活。目前，人体行为识别已经被广泛应用于当前主流的智能手机和智能可穿戴设备中，如手机的抬起唤醒，手表的运动类型识别等。常见的HAR技术主要是通过单个设备所搭载的惯性测量单元(IMU)测量的加速度、角速度和朝向变化等，使用相应的数据处理方式和识别模型，得到用户在不同时间进行的不同行为。

发明内容

本公开的目的在于提供一种行为识别方法、行为识别装置、计算机可读介质和电子设备，进而至少在一定程度上提高人体行为识别的识别范围和准确率。

根据本公开的第一方面，提供一种行为识别方法，应用于包括第一设备和第二设备的行为识别系统，包括：通过第一设备采集用户的第一运动数据和/或第一多模态数据，并通过第二设备采集用户的第二运动数据和第二多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据；基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

根据本公开的第二方面，提供一种行为识别方法，应用于第一设备，包括：采集用户的第一运动数据和/或第一多模态数据，并获取第二设备发送的用户的第二运动数据和第二多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据；基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

根据本公开的第三方面，提供一种行为识别方法，应用于第二设备，包括：采集用户的第二运动数据和第二多模态数据，并获取第一设备发送的用户的第一运动数据和/或第一多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据；基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

根据本公开的第四方面，提供一种行为识别装置，应用于包括第一设备和第二设备的行为识别系统，包括：第一采集模块，用于通过第一设备采集用户的第一运动数据和/或第一多模态数据，并通过第二设备采集用户的第二运动数据和第二多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据；第一识别模块，用于基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

根据本公开的第五方面，提供一种行为识别装置，应用于第一设备，包括：第二采集模块，用于采集用户的第一运动数据和/或第一多模态数据，并获取第二设备发送的用户的第二运动数据和第二多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据；第二识别模块，用于基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

根据本公开的第六方面，提供一种行为识别装置，应用于第二设备，包括：第三采集模块，用于采集用户的第二运动数据和第二多模态数据，并获取第一设备发送的用户的第一运动数据和/或第一多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据；第三识别模块，用于基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

根据本公开的第七方面，提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法。

根据本公开的第八方面，提供一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本公开的一种实施例所提供的行为识别方法，通过第一设备采集用户的第一运动数据和/或第一多模态数据，同时通过第二设备采集该用户的第二运动数据和第二多模态数据，进而根据运动数据和多模态数据共同进行行为识别，以识别用户的行为类型。本公开通过多设备采集运动数据，同时将采集的多模态数据作为运动数据的补充，以提供更加丰富的人体行为数据，进而基于丰富的人体行为数据进行行为识别，以扩大人体行为识别可以识别的行为类型的范围，同时提高人体行为识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图；

图2示意性示出本公开示例性实施例中一种行为识别方法的流程图；

图3示意性示出本公开示例性实施例中另一种行为识别方法的流程图；

图4示意性示出本公开示例性实施例中一种多模态transformer融合模型的模型结构示意图；

图5示意性示出本公开示例性实施例中一种transformer编码器的结构示意图；

图6示意性示出本公开示例性实施例中一种动作识别模型的模型结构示意图；

图7示意性示出本公开示例性实施例中一种动作识别方法的流程图；

图8示意性示出本公开示例性实施例中另一种动作识别方法的流程图；

图9示意性示出本公开示例性实施例中又一种行为识别方法的流程图；

图10示意性示出本公开示例性实施例中一种行为识别过程中的数据流转示意图；

图11示意性示出本公开示例性实施例中又一种行为识别方法的流程图；

图12示意性示出本公开示例性实施例中再一种行为识别方法的流程图；

图13示意性示出本公开示例性实施例中行为识别装置的组成示意图；

图14示出了可以应用本公开实施例的一种电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种行为识别方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括第一设备101、102、103中的一个或多个，第二设备104、105、106中的一个或多个，网络107和服务器108。网络107用以在第一设备101、102、103，第二设备104、105、106，以及服务器108之间提供通信链路的介质。网络107可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。第一设备101、102、103和第二设备104、105、106可以是搭载有传感器的可移动设备或可穿戴设备，包括但不限于手机，平板电脑，便携式计算机、手表、眼镜、耳机、运动鞋等。应该理解，图1中的第一设备、第二设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在相关技术中，通常采用单一位置放置的智能手机或固定在人体不同部位的传感器设备搭载的IMU测量智能手机或传感器设备的加速度、角速度和朝向等，以识别人体行为。然而，考虑到IMU的精度较低，且智能手机和传感器设备固定在人体的部位有限，因此仅依赖于IMU采集的运动数据进行的人体行为识别，只能识别一些固定的人体运动状态或简单的行为模式，无法识别复杂的人体行为和动作。

基于上述一个或多个问题，本示例实施方式提供了一种行为识别方法。该行为识别方法可以应用于包括第一设备和第二设备的行为识别系统。参考图2所示，该行为识别方法可以包括以下步骤S210和S220：

在步骤S210中，通过第一设备采集用户的第一运动数据和/或第一多模态数据，并通过第二设备采集用户的第二运动数据和第二多模态数据。

其中，行为识别系统中包括的第一设备的数量可以为1个或多个，第二设备的数量也可以为1个或多个，本公开对此不做特殊限定。例如，行为识别系统可以包括1个第一设备和多个第二设备；再如行为识别系统可以包括多个第一设备和1个第二设备；又如，行为识别系统可以同时包括多个第一设备和多个第二设备。

其中，第一运动数据和第二运动数据分别可以包括用户携带或穿戴第一设备或第二设备时采集的，用于表征第一设备或第二设备当前发生的移动对应的数据。例如，加速度、角速度等数据。需要说明的是，第一设备和第二设备均搭载有传感器，以便于采集用户携带或穿戴第一设备或第二设备时，第一设备和第二设备对应的运动数据。

其中，第一多模态数据和第二多模态数据分别可以包括用户携带或穿戴第一设备或第二设备时采集的，用于表征第一设备或第二设备采集的，除运动模态之外的其他模态数据，例如声音、视频、环境数据、生理数据等多模态数据。

在一示例性实施例中，第一设备可以包括用户携带的可移动设备，包括但不限于智能手机，平板电脑，便携式计算机等；第二设备可以包括用户穿戴的可穿戴设备，包括但不限于智能手表、智能眼镜、智能耳机、智能运动鞋等。

在步骤S220中，基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

在一示例性实施例中，在基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别时，可以基于深度学习模型进行识别。具体的，可以将第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据输入行为识别模型中进行行为识别，得到用户的行为类型。

在一示例性实施例中，参照图3所示，在将第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据输入行为识别模型中进行行为识别时，可以包括以下步骤S310和S320：

在步骤S310中，对第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行数据融合，得到融合数据。

在步骤S320中，对融合数据进行行为识别，得到用户的行为类型。

在一示例性实施例中，在将第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据输入行为识别模型后，行为识别模型可以先对三种或四种数据进行数据融合得到融合数据，然后基于融合数据进行行为识别，进而识别用户的行为类型。例如，可以通过多模态transformer模型进行数据融合，利用注意力机制有效学习各个模态的数据包含的行为信息，进而得到用户的行为类型。

在一示例性实施例中，行为识别模型可以包括多模态transformer融合模型，参照图4所示，该多模态transformer融合模型包括多模态数据输入层、线性映射层、位置嵌入层，transformer编码器和分类器构成。其中，多模态数据输入层将第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据输入模型；线性映射层将各个模态(包括运动模态)的数据线性映射至相等维度空间；位置嵌入层根据行为类型进行位置嵌入；transformer编码器对嵌入数据进行多次编码变换，并通过注意力机制学习多种数据与行为类型之间的映射关系(transformer编码器的结构可以参照图5所示)；分类器将映射关系输出至行为标签，得到用户的行为类型。

通过多模态transformer融合模型的方式，在保证行为识别的高准确率的情况下，无需特征提取和特征筛选等步骤；同时，在不依赖于大量专业先验来进行数据特征工程的前提下，保证了对不同可穿戴设备的兼容性。

需要说明的是，在行为识别模型中，可以设置多种识别范围的分类器，以分别识别不同范围的用户行为。例如，可以将用户的行为类型分类为：实时状态类型、特定部位行为类型、交互行为类型、场景行为类型；其中，实时状态类型可以用于确定用户的整体状态，例如，走动、跑动、静止等；特定部位行为类型用于确定用户特定部位的状态，例如，手部状态、头部状态、嘴部状态(是否说话)等；交互行为类型可以用于确定用户当前行为的交互对象，例如，用户与宠物、其他用户交互，用户正在操作家电、乐器等；场景行为类型则用于确定用户当前行为所处场景，例如，用户在跑步，是在室内还是室外，再如，用户正在交通工具上站立。对应的，可以设置相应识别范围的分类器，进而实现不同范围的用户行为的识别。

此外，在一示例性实施例中，还可以在确定用户的行为类型之后，通过对上述多种识别范围的识别结果进行组合和预测联想，实现复杂行为的识别，和用户行为的预测。例如，通过上下文动作联合模型，识别打扫房间、健身房内跑步、坐地铁上班等日常生活中的复杂行为，同时可以实现起床至洗漱，下班至坐地铁，散步至回家等用户行为的预测联想。

在一示例性实施例中，为了实现从简单的运动状态到复杂人体行为的识别，在第一设备采集第一运动数据，或者在第一设备采集第一运动数据和第一多模态数据时，还可以基于第一运动数据和第二运动数据进行动作识别，得到用户的动作类型。

在一示例性实施例中，在基于第一运动数据和第二运动数据进行动作识别时，可以将第一运动数据和第二运动数据输入第一动作识别模型中进行动作识别，得到用户的动作类型。

在一示例性实施例中，第一动作识别模型可以包括第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型，该第一动作识别模型的结构可以包括串联的第一卷积神经网络、第一长短期记忆神经网络和第一动作分类器。需要说明的是，由于输入第一动作识别模型的第一运动数据或第二运动数据可以包括多种传感器数据，因此第一动作识别模型的输入分支需要根据传感器数据的数量进行调整。例如，在输入的第一运动数据包括陀螺仪传感器数据、加速度传感器数据、磁力计传感器数据3个传感器数据时，针对第一运动数据的输入分支结构参照图6所示，包括3个输入分支(即3组串联的第一卷积神经网络-第一长短期记忆神经网络)，分别对应于陀螺仪传感器数据、加速度传感器数据、磁力计传感器数据，最后通过第一动作分类器对3个输入分支输出结果进行处理。另外，还需要根据第二运动数据中传感器数据的数量进一步对模型结构进行调整。

此时，基于第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型进行动作识别，参照图7所示，可以包括以下步骤S710至S740：

在步骤S710中，基于第一卷积神经网络分别对第一运动数据和第二运动数据进行特征提取，以获得第一空间特征和第二空间特征。

具体的，将第一运动数据和第二运动数据输入第一卷积神经网络，经过串联的多层卷积层、批量归一化层、池化层和dropout层进行特征提取，以分别获得第一运动数据对应的第一空间特征和第二运动数据对应的第二空间特征。

在步骤S720中，基于第一长短期记忆神经网络分别对第一空间特征和第二空间特征进行特征提取，以获得第一时序特征和第二时序特征。

具体的，将第一空间特征和第二空间特征输入第一长短期记忆神经网络进行进一步的特征提取，分别得到第一空间特征对应的第一时序特征和第二空间特征对应的第二时序特征。

需要说明的是，第一动作识别模型中可以包括多层串联的第一长短期记忆神经网络，具体层数可以根据传感器数据的复杂程度进行不同的设定。例如，图6中的模型结构包括3层LSTM。

在步骤S730中，对第一时序特征和第二时序特征进行特征融合，得到融合特征。

具体的，可以通过深度神经网络在高维数据空间对第一时序特征和第二时序特征进行特征融合，得到融合特征。

在步骤S740中，基于第一动作分类器对融合数据进行动作分类，得到用户的动作类型。

具体的，将融合后的融合特征经过第一动作分类器中的全连接层以及softmax层，输出概率映射后的最大概率的类别，即用户动作类型。

通过第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型进行动作识别，可以在保证识别的高准确率的情况下，基于未采用特征提取、特征筛选等步骤的方式实现动作识别；同时，该方式可以不依赖于大量专业的先验知识来进行数据特征工程，还可以保证了对不同第一设备和第二设备的兼容性。此外，在第一设备为终端设备，第二设备为可穿戴设备时，可以以终端设备为核心，通过加入可穿戴设备，使用深度学习的方法进行多传感器数据的融合，具有良好的可拓展性。

在一示例性实施例中，为了实现从简单的运动状态到复杂人体行为的识别，在第一设备仅采集第一多模态数据时，还可以基于第二运动数据进行动作识别，得到用户的动作类型。

在一示例性实施例中，在基于第二运动数据进行动作识别时，可以将第二运动数据输入第二动作识别模型中进行动作识别，得到用户的动作类型。

在一示例性实施例中，第二动作识别模型可以包括第二深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型，该第二动作识别模型的结构可以包括串联的第二卷积神经网络、第二长短期记忆神经网络和第二动作分类器。需要说明的是，第二深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型的具体细节与第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型相似，在第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型部分的实施方式中已经详细说明，未披露的细节内容可以参见该部分的实施方式内容，因而不再赘述。

此时，基于第二深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型进行动作识别，参照图8所示，可以包括以下步骤S810至S830：

在步骤S810中，基于第二卷积神经网络对第二运动数据进行特征提取，以获得第三空间特征。

在步骤S820中，基于第二长短期记忆神经网络对第三空间特征进行特征提取，以获得第三时序特征。

在步骤S830中，基于第二动作分类器对第三时序特征进行动作分类，得到用户的动作类型。

具体的，将第二运动数据输入第二卷积神经网络，经过串联的多层卷积层、批量归一化层、池化层和dropout层进行特征提取，得到第三空间特征；然后将第三空间特征输入第二长短期记忆神经网络进行进一步的特征提取，得到第三空间特征对应的第三时序特征；之后，第三时序特征经过第二动作分类器中的全连接层以及softmax层，输出概率映射后的最大概率的类别，即用户动作类型。

在一示例性实施例中，上述的动作类型可以包括持续动作类型和/或过渡动作类型。其中，动作类型是指可以表征用于基于部分肢体或者全部肢体进行的特定动作的类型，而非基于多种动作实现的运动状态(状态类型)；持续动作类型可以表征用户持续性动作的类型。例如，用户静止时(状态类型)，判断用户站立或坐下(持续动作类型)；用户位于交通工具上时(状态类型)，判断用户是否在开车(持续动作类型)；此外，常见的持续性动作可以包括吃饭、抽烟、打字、扫地，以及特定部位动作如点头/摇头；过渡动作类型可以识别持续动作之间的转换，例如站立-坐下、坐下-站起，坐-蹲，站-蹲等变化动作。

在一示例性实施例中，在动作类型包括持续动作类型和/或过渡动作类型时，基于第一运动数据和第二运动数据进行动作识别时，可以基于第一运动数据和第二运动数据进行持续动作识别和/或过渡动作识别，进而得到用户的持续动作类型和/或过渡动作类型。

对应的，在上述基于第一动作识别模型或第二动作识别模型进行动作类型的识别时，可以采用持续动作分类器作为第一动作分类器或第二动作分类器，或者采用过渡动作分类器作为第一动作分类器或第二动作分类器进行识别，对应的得到持续动作类型和过渡动作类型。

需要说明的是，由于上述第一动作识别模型和第二动作识别模型的处理过程相似，因此在一些实施例中，可以根据处理过程是否一致，将两个动作识别模型合并，基于同一网络结构执行同一处理过程，以压缩动作识别模型的大小，同时减少动作识别的计算量。

此外，在一示例性实施例中，还可以将行为识别模型和动作识别模型作为同一识别模型的不同分支，基于该识别模型可以同时进行行为识别和动作识别。

在一示例性实施例中，在对上述识别模型、行为识别模型或动作识别模型进行训练时，可以采用Adam优化器和交叉熵损失函数，利用F1值、准确率、精确率和召回率等评价参数相结合的评价方法，对模型进行训练。其中，交叉熵损失函数可以通过如下公式(1)进行计算：

其中，y_i表示真实类别的值，p_i表示模型输出的预测值，N表示单个样本可能存在类别的数量。

以下参照图9和图10，以智能手机为第一设备，以智能耳机、智能手表、智能眼镜等可穿戴设备为第二设备，以第一设备同时采集第一运动数据和第一多模态数据，以惯性测量单元IMU为采集运动数据的传感器，以麦克风、摄像模组、光体积变化传感器和肌电信号传感器为采集多模态数据的传感器为例，对行为识别过程进行阐述：

步骤S901，通过智能手机搭载的IMU采集第一运动数据，通过智能手机搭载的麦克风、摄像模组、光体积变化传感器和肌电信号传感器采集第一多模态数据；

步骤S903，通过可穿戴设备搭载的IMU采集第二运动数据，通过可穿戴设备搭载的麦克风、摄像模组、光体积变化传感器和肌电信号传感器采集第二多模态数据；

具体的，IMU传感器采样频率为50HZ，第一运动数据和第二运动数据分别可以包括加速度传感器、陀螺仪传感器、磁力计传感器的x、y、z三轴数值，共9维数据。

具体的，麦克风采集的声音数据可以包括语音语义数据、声源识别数据、反射定位数据等；摄像模组采集的视觉数据可以包括人体信息、用户视野、光线数据等；光体积变化传感器采集的数据可以包括心率数据、血氧数据等；肌电信号传感器采集的数据可以包括肌电数据等。

需要说明的是，由于不同可穿戴设备中搭载的传感器不同，对应采集的第二多模态数据的模态也不同；例如，可穿戴设备中设置有麦克风和摄像模组，则麦克风可以用于采集声音模态的声音数据，摄像模组可以用于采集视觉模态的视觉数据。

步骤S905，将第一运动数据、第一多模态数据、第二运动数据和第二多模态数据输入多模态transformer融合模型中，并基于不同识别范围的分类器对上述数据进行识别，得到多种不同识别范围的识别结果；

其中，多模态transformer融合模型用于处理智能手机和可穿戴设备的多IMU数据和多模态数据，多模态数据可以包括麦克风、摄像模组、光体积变化传感器和肌电信号传感器等传感器采集的各个模态的数据。

具体的，需要提前对多模态transformer融合模型进行训练。在训练时，需要对各个模态数据在不同行为模式下进行人工标注，进而进行有监督的模型训练。

此外，还可以将第一运动数据和第二运动数据输入第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型中，得到用户的动作类型。

其中，第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型用于处理智能手机和可穿戴设备的多IMU数据，通过IMU数据来识别用户的特定动作，包括持续动作如吃饭、打字、抽烟等，以及过渡动作如站-立变化等。

具体的，需要提前对第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型进行训练：

首先，在传感器进行运动数据采集时，每个样本数据的起始点和终止点可以通过人工标注进行；需要注意的是，每个样本数据的开始和结尾部分可能包含有其他干扰动作的信息，因此需要删除每组数据开头一定长度和结尾一定长度的数据，以保证数据质量。

其次，为了能够提取动作的关键信息，可以采用滑动窗口的方式对原始数据进行采样。例如，在传感器采样频率为50HZ时，可以采用128大小的滑动窗口，采集包含了2.56s以内的动作数据。通过针对传感器采样频率和滑动窗口的设定，可以保证采样数据的时间跨度能够涵盖大多数日常动作的执行时间。例如，一段长度为256的三轴传感器数据经过滑动窗口处理，提取关键信息后，每个窗口数据的维度为128×9，可以作为样本数据输入第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型进行训练。

之后，将采样后的滑动窗口数据输入至第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型，第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型的每个输入分支分别进行特征提取和融合，并进行动作识别，得到用户的动作类型。

同时，还可以将多种不同识别范围的识别结果输入上下文动作联合模型中识别复杂行为，同时对用户行为进行预测联想。

在一示例性实施例中，在行为识别模型和动作识别模型作为一识别模型的两个分支时，数据的流转过程可以参照图10所示。具体的，通过手机采集第一运动数据和第一多模态数据，通过智能耳机、智能手表、智能眼镜等可穿戴设备采集第二运动数据和第二多模态数据，将上述四种数据输入多模态transformer融合模型，并基于多种不同识别范围的分类器分别输出对应的行为类型，之后将多种行为类型输入上下文动作联合模型，输出复杂行为类型，实现复杂行为识别；同时，输出行为预测联想结果。此外，将第一运动数据和第二运动数据输入第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型通过第一卷积神经网络和第一长短期记忆神经网络的处理，得到第一时序特征和第二时序特征，之后通过特征融合和动作分类器(持续动作分类器和过渡动作分类器)，得到用户的动作类型(持续动作类型和过渡动作类型)。

综上，本示例性实施方式中，一方面，如果仅利用IMU数据进行行为识别，将会有许多限制，无法识别特定场景(如电影院)、特殊行为(如交谈)以及特定对象(如其他用户、宠物)，因此通过多模态transformer融合模型，基于注意力机制，从多模态数据中学习不同动作所关注的关键数据，从而实现从IMU数据和多模态数据中提取复杂行为模式的抽象表达，进而拓展可识别的行为类型范围，提高识别结果的精细程度。例如，用户行为类型可以包括在A场景下，与对象B进行C行为。

另一方面，通过手机和可穿戴设备采集的数据即可完成行为识别，不需要使用额外佩戴的传感器，可以在各种环境中实时识别复杂的人体行为，在现实生活中应用的限制小、成本低、可行性高。

再一方面，以手机作为计算和通信核心，可穿戴设备作为拓展，使用深度学习的方式进行传感器数据融合，具有良好的可拓展性，可以实现从简单的运动状态到复杂人体动作的识别，还可以应用于用户行为上下文识别和预测。

此外，除了利用IMU数据，还融合了多模态数据进行行为识别，不仅提高了行为识别的种类和范围，还实现了对行为识别场景、对象的识别，有效扩展了行为识别的界限。

参考图11所示，本公开的示例性实施方式中还提供了另一种行为识别方法，可以应用于第一设备，行为识别方法包括如下步骤S1110和S1120：

步骤S1110，采集用户的第一运动数据和/或第一多模态数据，并获取第二设备发送的用户的第二运动数据和第二多模态数据。

步骤S1120，基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据。

需要说明的是，在一示例性实施例中，在存在多个第一设备时，可以以任意一个第一设备为执行主体。此时，作为执行主体的第一设备，不仅需要采集用户的第一运动数据和/或第一多模态数据，获取第二设备发送的用户的第二运动数据和第二多模态数据，还需要获取其它第一设备发送的第一运动数据和/或第一多模态数据，以保证数据的完整性。

参考图12所示，本公开的示例性实施方式中还提供了又一种行为识别方法，可以应用于第二设备，行为识别方法包括如下步骤S1210和S1220：

步骤S1210，采集用户的第二运动数据和第二多模态数据，并获取第一设备发送的用户的第一运动数据和/或第一多模态数据；

步骤S1220，基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

同样的，在一示例性实施例中，在存在多个第二设备时，可以以任意一个第二设备为执行主体。此时，作为执行主体的第二设备，不仅需要采集用户的第二运动数据和第二多模态数据，获取第一设备发送的用户的第一运动数据和/或第一多模态数据，还需要获取其它第二设备发送的第二运动数据和第二多模态数据，以保证数据的完整性。

上述方法中各步骤的具体细节在应用于行为识别系统部分的实施方式中已经详细说明，未披露的细节内容可以参见该部分实施方式内容，因而不再赘述

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图13所示，本公开的示例性实施方式中提供一种行为识别装置1300，应用于包括第一设备和第二设备的行为识别系统，包括第一采集模块1310和第一识别模块1320。其中：

第一采集模块1310可以用于通过第一设备采集用户的第一运动数据和/或第一多模态数据，并通过第二设备采集用户的第二运动数据和第二多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据。

第一识别模块1320可以用于基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

在一示例性实施例中，第一识别模块1320可以用于将第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据输入行为识别模型中进行行为识别，得到用户的行为类型。

在一示例性实施例中，第一识别模块1320可以用于对第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行数据融合，得到融合数据；对融合数据进行行为识别，得到用户的行为类型。

在一示例性实施例中，在第一设备采集第一运动数据，或者在第一设备采集第一运动数据和第一多模态数据时，第一识别模块1320还可以用于基于第一运动数据和第二运动数据进行动作识别，得到用户的动作类型。

在一示例性实施例中，第一识别模块1320可以用于将第一运动数据和第二运动数据输入第一动作识别模型中进行动作识别，得到用户的动作类型。

在一示例性实施例中，第一动作识别模型包括第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型时，第一识别模块1320可以用于基于第一卷积神经网络分别对第一运动数据和第二运动数据进行特征提取，以获得第一空间特征和第二空间特征；基于第一长短期记忆神经网络分别对第一空间特征和第二空间特征进行特征提取，以获得第一时序特征和第二时序特征；对第一时序特征和第二时序特征进行特征融合，得到融合特征；基于第一动作分类器对融合数据进行动作分类，得到用户的动作类型。

在一示例性实施例中，在第一设备采集第一多模态数据时，第一识别模块1320还可以用于基于第二运动数据进行动作识别，得到用户的动作类型。

在一示例性实施例中，第一识别模块1320可以用于将第二运动数据输入第二动作识别模型中进行动作识别，得到用户的动作类型。

在一示例性实施例中，第二动作识别模型包括第二深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型时，第一识别模块1320可以用于基于第二卷积神经网络对第二运动数据进行特征提取，以获得第三空间特征；基于第二长短期记忆神经网络对第三空间特征进行特征提取，以获得第三时序特征；基于第二动作分类器对第三时序特征进行动作分类，得到用户的动作类型。

在一示例性实施例中，动作类型包括持续动作类型和/或过渡动作类型。

本公开的示例性实施方式中还提供另一种行为识别装置，应用于第一设备，包括第二采集模块和第二识别模块。其中：

第二采集模块可以用于采集用户的第一运动数据和/或第一多模态数据，并获取第二设备发送的用户的第二运动数据和第二多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据。

第二识别模块可以用于基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

本公开的示例性实施方式中还提供又一种行为识别装置，应用于第二设备，包括第三采集模块和第三识别模块。其中：

第三采集模块可以用于采集用户的第二运动数据和第二多模态数据，并获取第一设备发送的用户的第一运动数据和/或第一多模态数据；其中，第一多模态数据和第二多模态数据包括除运动模态外，用户的其他模态数据。

第三识别模块可以用于基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别，得到用户的行为类型。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式中还提供一种用于实现行为识别方法的电子设备，其可以是图1中的终端设备101、102、103，可穿戴设备104、105、106，或服务器108。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行行为识别方法。

下面以图14中的移动终端1400为例，对本公开实施例中的电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图14中的构造也能够应用于固定类型的设备。在另一些实施方式中，移动终端1400可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出，并不构成对移动终端1400的结构限定。在另一些实施方式中，移动终端1400也可以采用与图14不同的接口连接方式，或多种接口连接方式的组合。

如图14所示，移动终端1400具体可以包括：处理器1410、内部存储器1421、外部存储器接口1422、通用串行总线(Universal Serial Bus，USB)接口1430、充电管理模块1440、电源管理模块1441、电池1442、天线1、天线2、移动通信模块1450、无线通信模块1460、音频模块1470、扬声器1471、受话器1472、麦克风1473、耳机接口1474、传感器模块1480、显示屏1490、摄像模组1491、指示器1492、马达1493、按键1494以及用户标识模块(subscriberidentification module，SIM)卡接口1495等。其中传感器模块1480可以包括陀螺仪传感器14801、加速度传感器14802、磁力计传感器14803等。

处理器1410可以包括一个或多个处理单元，例如：处理器1410可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

NPU为神经网络(Neural-Network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现移动终端1400的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。在一些实施例中，NPU可以用于将第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据输入行为识别模型中进行行为识别，以及将第一运动数据和第二运动数据输入第一动作识别模型，或者将第二运动数据输入第二动作识别模型，进行动作识别。

处理器1410中设置有存储器。存储器可以存储用于实现六个模块化功能的指令：检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令，并由处理器1410来控制执行。

移动终端1400的无线通信功能可以通过天线1、天线2、移动通信模块1450、无线通信模块1460、调制解调处理器以及基带处理器等实现。其中，天线1和天线2用于发射和接收电磁波信号；移动通信模块1450可以提供应用在移动终端1400上的包括14G/3G/4G/5G等无线通信的解决方案；调制解调处理器可以包括调制器和解调器；无线通信模块1460可以提供应用在移动终端1400上的包括无线局域网(Wireless Local Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)、蓝牙(Bluetooth，BT)等无线通信的解决方案。在一些实施例中，移动终端1400的天线1和移动通信模块1450耦合，天线2和无线通信模块1460耦合，使得移动终端1400可以通过无线通信技术与网络以及其他设备通信。

在一些实施例中，可以通过无线通信功能将第一设备采集的第一运动数据和/或第一多模态数据，第二设备采集的第二运动数据和第二多模态数据传输至行为识别方法的执行主体(行为识别系统、第一设备、第二设备、服务器等)中，以便于执行主体基于第一运动数据和/或第一多模态数据，以及第二运动数据和第二多模态数据进行行为识别。

陀螺仪传感器14801可以用于确定移动终端1400的运动姿态。在一些实施方式中，可以通过陀螺仪传感器14803确定移动终端1400围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器14803可以用于拍摄防抖、导航、体感游戏场景等。

加速度传感器14802可以检测移动终端1400在各个方向上(一般为三轴)加速度的大小。当移动终端1400静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

磁力计传感器14803用于定位设备的方位。可以测量出电子设备与东、南、西、北四个方向的夹角。

此外，还可以根据实际需要在传感器模块1480中设置其他功能的传感器，例如深度传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器、骨传导传感器等。

移动终端1400中还可包括其它提供辅助功能的设备。例如，按键1494包括开机键，音量键等，用户可以通过按键输入，产生与移动终端1400的用户设置以及功能控制有关的键信号输入。再如，指示器1492、马达1493、SIM卡接口1495等。

此外，本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图2、图3、图7、图8、图9、图11以及图12中任意一个或多个步骤。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种行为识别方法，其特征在于，应用于包括第一设备和第二设备的行为识别系统，包括：

通过所述第一设备采集用户的第一运动数据和/或第一多模态数据，并通过所述第二设备采集所述用户的第二运动数据和第二多模态数据；

其中，所述第一多模态数据和所述第二多模态数据包括除运动模态外，用户的其他模态数据；

基于所述第一运动数据和/或所述第一多模态数据，以及所述第二运动数据和所述第二多模态数据进行行为识别，得到所述用户的行为类型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一运动数据和/或所述第一多模态数据，以及所述第二运动数据和所述第二多模态数据进行行为识别，得到所述用户的行为类型，包括：

将所述第一运动数据和/或所述第一多模态数据，以及所述第二运动数据和所述第二多模态数据输入行为识别模型中进行行为识别，得到所述用户的行为类型。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一运动数据和/或所述第一多模态数据，以及所述第二运动数据和所述第二多模态数据输入行为识别模型中进行行为识别，得到所述用户的行为类型，包括：

对所述第一运动数据和/或所述第一多模态数据，以及所述第二运动数据和所述第二多模态数据进行数据融合，得到融合数据；

对所述融合数据进行行为识别，得到所述用户的行为类型。

4.根据权利要求1所述的方法，其特征在于，在所述第一设备采集第一运动数据，或者在所述第一设备采集第一运动数据和第一多模态数据时，所述方法还包括：

基于所述第一运动数据和所述第二运动数据进行动作识别，得到所述用户的动作类型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一运动数据和所述第二运动数据进行动作识别，得到所述用户的动作类型，包括：

将所述第一运动数据和所述第二运动数据输入第一动作识别模型中进行动作识别，得到所述用户的动作类型。

6.根据权利要求5所述的方法，其特征在于，所述第一动作识别模型包括第一深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型；

所述将所述第一运动数据和所述第二运动数据输入动作识别模型中进行动作识别，得到所述用户的动作类型，包括：

基于第一卷积神经网络分别对所述第一运动数据和所述第二运动数据进行特征提取，以获得第一空间特征和第二空间特征；

基于第一长短期记忆神经网络分别对所述第一空间特征和第二空间特征进行特征提取，以获得第一时序特征和第二时序特征；

对所述第一时序特征和所述第二时序特征进行特征融合，得到融合特征；

基于第一动作分类器对所述融合数据进行动作分类，得到所述用户的动作类型。

7.根据权利要求1所述的方法，其特征在于，在所述第一设备采集第一多模态数据时，所述方法还包括：

基于所述第二运动数据进行动作识别，得到所述用户的动作类型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述第二运动数据进行动作识别，得到所述用户的动作类型，包括：

将所述第二运动数据输入第二动作识别模型中进行动作识别，得到所述用户的动作类型。

9.根据权利要求8所述的方法，其特征在于，所述第二动作识别模型包括第二深度学习混合卷积神经网络-长短期记忆神经网络-动作分类器模型；

所述将所述第二运动数据输入动作识别模型中进行动作识别，得到所述用户的动作类型，包括：

基于第二卷积神经网络对所述第二运动数据进行特征提取，以获得第三空间特征；

基于第二长短期记忆神经网络对所述第三空间特征进行特征提取，以获得第三时序特征；

基于第二动作分类器对所述第三时序特征进行动作分类，得到所述用户的动作类型。

10.根据权利要求4至9任一项所述的方法，其特征在于，所述动作类型包括持续动作类型和/或过渡动作类型。

11.一种行为识别方法，其特征在于，应用于第一设备，所述方法包括：

采集用户的第一运动数据和/或第一多模态数据，并获取第二设备发送的所述用户的第二运动数据和第二多模态数据；

12.一种行为识别方法，其特征在于，应用于第二设备，所述方法包括：

采集用户的第二运动数据和第二多模态数据，并获取第一设备发送的所述用户的第一运动数据和/或第一多模态数据；

13.一种行为识别装置，其特征在于，应用于包括第一设备和第二设备的行为识别系统，包括：

第一采集模块，用于通过所述第一设备采集用户的第一运动数据和/或第一多模态数据，并通过所述第二设备采集所述用户的第二运动数据和第二多模态数据；其中，所述第一多模态数据和所述第二多模态数据包括除运动模态外，用户的其他模态数据；

第一识别模块，用于基于所述第一运动数据和/或所述第一多模态数据，以及所述第二运动数据和所述第二多模态数据进行行为识别，得到所述用户的行为类型。

14.一种行为识别装置，其特征在于，应用于第一设备，所述装置包括：

第二采集模块，用于采集用户的第一运动数据和/或第一多模态数据，并获取第二设备发送的所述用户的第二运动数据和第二多模态数据；其中，所述第一多模态数据和所述第二多模态数据包括除运动模态外，用户的其他模态数据；

第二识别模块，用于基于所述第一运动数据和/或所述第一多模态数据，以及所述第二运动数据和所述第二多模态数据进行行为识别，得到所述用户的行为类型。

15.一种行为识别装置，其特征在于，应用于第二设备，所述装置包括：

第三采集模块，用于采集用户的第二运动数据和第二多模态数据，并获取第一设备发送的所述用户的第一运动数据和/或第一多模态数据；其中，所述第一多模态数据和所述第二多模态数据包括除运动模态外，用户的其他模态数据；

第三识别模块，用于基于所述第一运动数据和/或所述第一多模态数据，以及所述第二运动数据和所述第二多模态数据进行行为识别，得到所述用户的行为类型。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的方法。

17.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任一项所述的方法。