CN112820071A

CN112820071A - 一种行为识别方法和装置

Info

Publication number: CN112820071A
Application number: CN202110212626.9A
Authority: CN
Inventors: 杨颜如; 刘岩; 邓玥琳; 贾晨; 李玉莹
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-05-18
Anticipated expiration: 2041-02-25
Also published as: CN112820071B

Abstract

本发明公开了一种行为识别方法和装置，涉及计算机技术领域。该方法的一个具体实施方式包括：基于对象的同步多模态信息生成对象的多模态特征，多模态特征包括对象的关键点序列特征和声音序列特征，其中，等频率抽取对象的同步音视频信息中的图像帧，检测并提取图像帧中对象的关键点信息，得到对象的关键点序列特征；从对象的同步音视频信息中获取与抽取的图像帧同步的预设时间长度的音频信息，以提取对象的声音序列特征；对对象的多模态特征进行融合，得到该对象的组合特征，将该对象的组合特征输入分类器，以识别该对象的行为类别。该实施方式能够基于对象的更全面的特征表征对象行为，提高对对象行为异常情况的感知能力，提高识别准确率。

Description

一种行为识别方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种行为识别方法和装置。

背景技术

行为识别有着广泛的应用前景，早期的人体动作识别基于单一视觉模态信息取得了较好的识别效果，视觉模态信息包括RGB视频、深度图像、光流图、红外图像等。视觉图像是最直观表现人体信息的形式，其中RGB视频包含的视觉信息最完整，但是视觉信息有各自适用的特定场景，现有的优秀算法也只在特定的数据集上表现较好。

在视频监控领域，视频中的图像信息能捕捉人体信息，但是由于环境中存在在遮挡及视角问题，单一的视频图像特征并不确定能完整捕捉人体和人脸信息。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

无法完整捕捉对象的信息，对对象行为异常情况的感知能力较差，识别准确率低。

发明内容

有鉴于此，本发明实施例提供一种行为识别方法和装置，能够基于对象的更全面的特征表征对象行为，提高对对象行为异常情况的感知能力，提高识别准确率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种行为识别方法。

一种行为识别方法，包括：基于对象的同步多模态信息生成所述对象的多模态特征，所述多模态特征包括所述对象的关键点序列特征和声音序列特征，其中，等频率抽取所述对象的同步音视频信息中的图像帧，通过预定的深度神经网络模型检测并提取所述图像帧中所述对象的关键点信息，得到所述对象的关键点序列特征；从所述对象的同步音视频信息中，获取与抽取的所述图像帧同步的预设时间长度的音频信息，从所述预设时间长度的音频信息中提取所述对象的声音序列特征；对所述对象的多模态特征进行融合，得到所述对象的组合特征；将所述对象的组合特征输入分类器，以识别所述对象的行为类别。

可选地，所述对象的关键点序列特征为第一目标人体的骨骼序列特征；所述通过预定的深度神经网络模型检测并提取所述图像帧中所述对象的关键点信息，得到所述对象的关键点序列特征，包括：通过所述预定的深度神经网络模型，获取所述图像帧中所述第一目标人体的各关节点的横、纵坐标，根据所述各关节点的横、纵坐标得到所述第一目标人体的骨骼序列特征。

可选地，所述对所述对象的多模态特征进行融合，得到所述对象的组合特征，包括：利用核典型相关分析算法，提取所述第一目标人体的关键点序列特征和声音序列特征的非线性相关特性，得到与所述第一目标人体的关键点序列特征对应的第一特征分量和与所述第一目标人体的声音序列特征对应的第二特征分量，所述第一特征分量为第一多维向量与所述第一目标人体的关键点序列特征的核矩阵的乘积，所述第二特征分量为第二多维向量与所述第一目标人体的声音序列特征的核矩阵的乘积，将所述第一特征分量、所述第二特征分量进行线性变换，得到所述第一目标人体的组合特征。

可选地，还包括：根据第一训练集中人体样本的关键点序列特征和声音序列特征，利用核典型相关分析算法求解得到所述第一多维向量、所述第二多维向量；根据所述第一多维向量与所述第一训练集中人体样本的关键点序列特征的核矩阵的乘积，得到所述第一训练集中人体样本的第三特征分量；根据所述第二多维向量与所述第一训练集中人体样本的声音序列特征的核矩阵的乘积，得到所述第一训练集中人体样本的第四特征分量；将所述第三特征分量、所述第四特征分量进行线性变换，得到所述第一训练集中人体样本的组合特征，所述第一训练集中人体样本的组合特征转换为第一矩阵与第二矩阵的乘积的形式，所述第一矩阵为基于所述第一多维向量和所述第二多维向量生成的矩阵，所述第二矩阵为基于所述第一训练集中人体样本的关键点序列特征和声音序列特征生成的矩阵；以所述第一训练集中人体样本的组合特征为所述分类器的输入，训练所述分类器，得到第一权重矩阵，保存所述第一权重矩阵和所述第一矩阵。

可选地，还包括：以第二训练集中人体样本的第一类型特征为所述分类器的输入，训练所述分类器，得到第二权重矩阵并保存；利用所述第一权重矩阵和所述第二权重矩阵计算第三权重矩阵，其中：所述第一权重矩阵为所述第一矩阵与第三矩阵的乘积，所述第三矩阵基于所述第二权重矩阵和所述第三权重矩阵生成；以所述第三权重矩阵作为所述分类器的权重矩阵，得到第一分类器，所述第一分类器用于根据第二目标人体的第二类型特征，识别所述第二目标人体的行为类别，其中：所述第一类型特征为关键点序列特征、所述第二类型特征为声音序列特征；或者，所述第一类型特征为声音序列特征、所述第二类型特征为关键点序列特征。

可选地，所述将所述对象的组合特征输入分类器，以识别所述对象的行为类别，包括：将所述第一目标人体的组合特征输入KNN分类器，以确定与所述第一目标人体的组合特征最接近的预设数量的训练样本对应的标签集，所述KNN分类器的权重矩阵为所述第一权重矩阵；当所述标签集中标记动作类型为跌倒的标签数量超过所述标签集中标签总数量的预定比例时，输出表示所述第一目标人体跌倒的行为类别识别结果。

可选地，所述对象的待识别行为类别为人体跌倒行为，所述对象的同步音视频信息为同步采集的所述第一目标人体的视频信息和音频信息，对所述第一目标人体的所述骨骼序列特征和所述声音序列特征进行融合，得到所述第一目标人体的组合特征，将所述第一目标人体的组合特征输入所述分类器，以输出所述第一目标人体是否跌倒的行为类别识别结果。

根据本发明实施例的另一方面，提供了一种行为识别装置。

一种行为识别装置，包括：特征生成模块，用于基于对象的同步多模态信息生成所述对象的多模态特征，所述多模态特征包括所述对象的关键点序列特征和声音序列特征，其中，等频率抽取所述对象的同步音视频信息中的图像帧，通过预定的深度神经网络模型检测并提取所述图像帧中所述对象的关键点信息，得到所述对象的关键点序列特征；从所述对象的同步音视频信息中，获取与抽取的所述图像帧同步的预设时间长度的音频信息，从所述预设时间长度的音频信息中提取所述对象的声音序列特征；特征融合模块，用于对所述对象的多模态特征进行融合，得到所述对象的组合特征；行为识别模块，用于将所述对象的组合特征输入分类器，以识别所述对象的行为类别。

可选地，所述对象的关键点序列特征为第一目标人体的骨骼序列特征；所述特征生成模块还用于：通过所述预定的深度神经网络模型，获取所述图像帧中所述第一目标人体的各关节点的横、纵坐标，根据所述各关节点的横、纵坐标得到所述第一目标人体的骨骼序列特征。

可选地，特征融合模块还用于：利用核典型相关分析算法，提取所述第一目标人体的关键点序列特征和声音序列特征的非线性相关特性，得到与所述第一目标人体的关键点序列特征对应的第一特征分量和与所述第一目标人体的声音序列特征对应的第二特征分量，所述第一特征分量为第一多维向量与所述第一目标人体的关键点序列特征的核矩阵的乘积，所述第二特征分量为第二多维向量与所述第一目标人体的声音序列特征的核矩阵的乘积，将所述第一特征分量、所述第二特征分量进行线性变换，得到所述第一目标人体的组合特征。

可选地，还包括第一训练模块，用于：根据第一训练集中人体样本的关键点序列特征和声音序列特征，利用核典型相关分析算法求解得到所述第一多维向量、所述第二多维向量；根据所述第一多维向量与所述第一训练集中人体样本的关键点序列特征的核矩阵的乘积，得到所述第一训练集中人体样本的第三特征分量；根据所述第二多维向量与所述第一训练集中人体样本的声音序列特征的核矩阵的乘积，得到所述第一训练集中人体样本的第四特征分量；将所述第三特征分量、所述第四特征分量进行线性变换，得到所述第一训练集中人体样本的组合特征，所述第一训练集中人体样本的组合特征转换为第一矩阵与第二矩阵的乘积的形式，所述第一矩阵为基于所述第一多维向量和所述第二多维向量生成的矩阵，所述第二矩阵为基于所述第一训练集中人体样本的关键点序列特征和声音序列特征生成的矩阵；以所述第一训练集中人体样本的组合特征为所述分类器的输入，训练所述分类器，得到第一权重矩阵，保存所述第一权重矩阵和所述第一矩阵。

可选地，还包括第二训练模块、权重矩阵计算模块和第一分类器生成模块，其中：所述第二训练模块用于以第二训练集中人体样本的第一类型特征为所述分类器的输入，训练所述分类器，得到第二权重矩阵并保存；所述权重矩阵计算模块用于利用所述第一权重矩阵和所述第二权重矩阵计算第三权重矩阵，其中：所述第一权重矩阵为所述第一矩阵与第三矩阵的乘积，所述第三矩阵基于所述第二权重矩阵和所述第三权重矩阵生成；所述第一分类器生成模块用于以所述第三权重矩阵作为所述分类器的权重矩阵，得到第一分类器，所述第一分类器用于根据第二目标人体的第二类型特征，识别所述第二目标人体的行为类别，其中：所述第一类型特征为关键点序列特征、所述第二类型特征为声音序列特征；或者，所述第一类型特征为声音序列特征、所述第二类型特征为关键点序列特征。

可选地，所述行为识别模块还用于：将所述第一目标人体的组合特征输入KNN分类器，以确定与所述第一目标人体的组合特征最接近的预设数量的训练样本对应的标签集，所述KNN分类器的权重矩阵为所述第一权重矩阵；当所述标签集中标记动作类型为跌倒的标签数量超过所述标签集中标签总数量的预定比例时，输出表示所述第一目标人体跌倒的行为类别识别结果。

可选地，所述对象的待识别行为类别为人体跌倒行为，所述对象的同步音视频信息为同步采集的所述第一目标人体的视频信息和音频信息，所述特征融合模块还用于对所述第一目标人体的所述骨骼序列特征和所述声音序列特征进行融合，得到所述第一目标人体的组合特征，所述行为识别模块还用于将所述第一目标人体的组合特征输入所述分类器，以输出所述第一目标人体是否跌倒的行为类别识别结果。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明实施例所提供的行为识别方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的行为识别方法。

上述发明中的一个实施例具有如下优点或有益效果：基于对象的同步多模态信息生成对象的多模态特征，多模态特征包括对象的对象的关键点序列特征和声音序列特征，对对象的多模态特征进行融合，得到该对象的组合特征，将该对象的组合特征输入分类器，以识别该对象的行为类别。能够基于对象的更全面的特征表征对象行为，提高对对象行为异常情况的感知能力，提高识别准确率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明一个实施例的行为识别方法的主要步骤示意图；

图2是根据本发明一个实施例的行为识别流程示意图；

图3是根据本发明一个实施例的行为识别装置的主要模块示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明一个实施例的行为识别方法的主要步骤示意图。

如图1所示，本发明一个实施例的行为识别方法主要包括如下的步骤S101至步骤S103。

步骤S101：基于对象的同步多模态信息生成对象的多模态特征，多模态特征包括对象的关键点序列特征和声音序列特征；

步骤S102：对对象的多模态特征进行融合，得到对象的组合特征；

步骤S103：将对象的组合特征输入分类器，以识别对象的行为类别。

在一个实施例中，同步多模态信息可以是同步音视频信息。

同步音视频信息是指与视频与音频信息是同步的，同步音视频信息可以从对象所在的现场采集得到，例如通过视频和音频监控来得到同步的视频图像信息和声音信息。以监控到某个老人摔倒为例，监控图像中显示的是老人的摔倒的视频信息，另外还采集到老人摔倒时的音频信息，该视频信息和音频信息是同步产生的，即为同步音视频信息。

在一个实施例中，基于对象的同步多模态信息生成对象的多模态特征，具体可以包括：等频率抽取对象的同步音视频信息中的图像帧；通过预定的深度神经网络模型检测并提取图像帧中对象的关键点信息，得到对象的关键点序列特征。

基于对象的同步多模态信息生成对象的多模态特征还可以包括：从对象的同步音视频信息中，获取与抽取的图像帧同步的预设时间长度(例如3秒)的音频信息；从预设时间长度的音频信息中提取对象的声音序列特征。

在一个实施例中，同步多模态信息可以包括同步的视频、音频、红外、无线微波等多个模态信息，相应地，生成的对象多模态特征包括对象的图像序列特征(即对象的关键点序列特征)、声音序列特征、红外序列特征、无线微波序列特征等多模态特征。

在一个实施例中，对象可以为人，例如老人。

对象的关键点序列特征可以为第一目标人体的骨骼序列特征。第一目标人体是当前作为识别目标的人。

通过预定的深度神经网络模型检测并提取图像帧中对象的关键点信息，得到对象的关键点序列特征，具体可以包括：通过预定的深度神经网络模型，获取图像帧中第一目标人体的各关节点的横、纵坐标，根据各关节点的横、纵坐标得到第一目标人体的骨骼序列特征。

预定的深度神经网络模型可以是openpose深度神经网络模型，openpose是一个实时多人关键点检测库，它实现了人的身体、手部和脸部关键点检测的实时系统，共130个关键点。

在一个实施例中，对对象的多模态特征进行融合，得到对象的组合特征，包括：利用核典型相关分析算法，提取第一目标人体的关键点序列特征和声音序列特征的非线性相关特性，得到与第一目标人体的关键点序列特征X1对应的第一特征分量u1和与第一目标人体的声音序列特征Y1对应的第二特征分量v1。

第一特征分量u1为第一多维向量ξ与第一目标人体的关键点序列特征X1的核矩阵K_X1的乘积，即：u1＝ξK_X1。第二特征分量v1为第二多维向量η与第一目标人体的声音序列特征Y1的核矩阵K_Y1的乘积，即，v1＝ηK_Y1。

将第一特征分量u1、第二特征分量v1进行线性变换，得到第一目标人体的组合特征Z1。Z1的形式如下：

其中，矩阵

称为第一矩阵。

本领域技术人员可以理解的是，在另一实施例中，当多模态特征不仅包括对象的图像序列特征(即对象的关键点序列特征)和声音序列特征，还包括其他模态的序列特征的情况下，也可以参照上述的核典型相关分析算法，得到对象的组合特征，例如当三个模态时，组合特征为三种模态序列特征的组合。相应地，第一矩阵则为如下形式的三行三列的矩阵：

在一个实施例中，还可以根据第一训练集中人体样本的关键点序列特征和声音序列特征，利用核典型相关分析算法求解得到第一多维向量ξ、第二多维向量η；根据第一多维向量ξ与第一训练集中人体样本的关键点序列特征X的核矩阵K_X的乘积，得到第一训练集中人体样本的第三特征分量u；根据第二多维向量η与第一训练集中人体样本的声音序列特征Y的核矩阵K_Y的乘积，得到第一训练集中人体样本的第四特征分量v；将第三特征分量u、第四特征分量v进行线性变换，得到第一训练集中人体样本的组合特征Z，第一训练集中人体样本的组合特征转换为第一矩阵与第二矩阵的乘积的形式，第一矩阵为基于第一多维向量ξ和第二多维向量η生成的矩阵(如上文所示ξ和η构成的二行二列矩阵)，第二矩阵为基于第一训练集中人体样本的关键点序列特征和声音序列特征生成的矩阵。

第二矩阵的形式如下：

以第一训练集中人体样本的组合特征为分类器的输入，训练分类器，得到第一权重矩阵W_Z，保存第一权重矩阵W_Z和第一矩阵。

在一个实施例中，将对象的组合特征输入分类器，以识别对象的行为类别，包括：将第一目标人体的组合特征输入KNN分类器，以确定与第一目标人体的组合特征最接近的预设数量的训练样本对应的标签集，KNN分类器的权重矩阵为第一权重矩阵；当标签集中标记动作类型为跌倒的标签数量超过标签集中标签总数量的预定比例时，输出表示第一目标人体跌倒的行为类别识别结果。

在一个实施例中，行为类别可以是人的动作等行为，例如站立、坐下、蹲下、倒下等行为，也可以根据需要包括其他行为。

本发明实施例的同步多模态信息可以是同步音视频信息，多模态信息可以由多模态信息采集装置采集得到，多模态信息采集装置例如多模态监控装置，其由具有视频图像检测功能的模块(例如摄像采集电路)、声音识别功能的模块(例如声音检测电路)合成。当异常情况发生时，摄像采集电路，声音检测电路都会检测到异常信息，通过本发明实施例的行为识别方法对采集的视频图像信息、声音信息进行分析，能够提高识别准确率，提高人体跌倒等场景下异常情况的感知能力。

下面以识别人的跌倒行为为例详细介绍本发明实施例的行为识别方法。在人体跌倒检测场景中，对象的待识别行为类别为人体跌倒行为，对象的同步音视频信息为同步采集的第一目标人体的视频信息和音频信息，对第一目标人体的骨骼序列特征和声音序列特征进行融合，得到第一目标人体的组合特征，将第一目标人体的组合特征输入分类器，以输出第一目标人体是否跌倒的行为类别识别结果，对于办公、生活等建筑内或户外场所等的人体跌倒识别均可适用。

第一目标人体例如老人。

上文已经介绍了对对象的多模态特征进行融合，得到对象的组合特征的方法，本实施例中，对象为第一目标人体，对象的关键点序列特征为第一目标人体的骨骼序列特征。那么，对第一目标人体的骨骼序列特征和声音序列特征进行融合，得到第一目标人体的组合特征的步骤包括：利用核典型相关分析算法，提取第一目标人体的骨骼序列特征和声音序列特征的非线性相关特性，得到与第一目标人体的骨骼序列特征对应的第一特征分量和与第一目标人体的声音序列特征对应的第二特征分量，第一特征分量为第一多维向量与第一目标人体的骨骼序列特征的核矩阵的乘积，第二特征分量为第二多维向量与第一目标人体的声音序列特征的核矩阵的乘积，将第一特征分量、第二特征分量进行线性变换，得到第一目标人体的组合特征。

以下进一步介绍人体跌倒检测场景中，对人体跌倒行为的识别过程。

读入待预测的音视频序列，该音视频序列即人的同步音视频信息，其中包括图像序列(即视频信息)和声音序列(即音频信息)，等频率抽取图像帧，声音序列暂不进行抽取。

基于抽取的图像帧，使用openpose提取人体的骨骼信息，应用openpose提取骨骼信息，将提取的骨骼信息进行标注，标记的行为类别可以包括站立、坐下、蹲下、倒下四个动作，将骨骼信息存储为36*3的矩阵形式，得到人的图像序列特征(即关键点序列特征)，具体为人的骨骼序列特征，以下的图像序列特征具体指人的骨骼序列特征。

基于同步音视频信息中的声音序列，取三秒的音频信息，通过VGGish(基于tensorflow的VGG(Visual Geometry Group，视觉几何组)模型)提取到声音序列特征(或称语音序列特征)，数据格式为(3，128)。

将提取出的人的图像序列特征和声音序列特征进行融合，由于图像信息和声音信息(例如语音信息)典型相关性所表示的线性关系，本发明实施例采用核典型相关分析(KCCA)进行相关性分析及融合。

KCCA是CCA(典型相关性分析)的非线性扩展，隐含实现了原始空间非线性问题的求解。CCA用于研究两组变量之间的线性相关关系。

设X＝(x₁,x₂,x₃...,x_N)，Y＝(y₁,y₂,y₃...,y_N)分别表示图像序列特征向量和语音序列特征向量，KCCA通过两个非线性映射φ和ψ作用于两组特征向量：

设核函数分别为k_x和k_y，核矩阵为：

其中：

核矩阵中心化对训练样本进行零均值化：

KCCA的目标是寻求投影方向α_φ和β_ψ，使得如下准则函数式最大：

向量α_φ位于样本φ(x₁),φ(x₂),φ(x₃),...,φ(x_N)张成的空间，根据核再生理论，则存在N维向量ξ使α_φ＝φ(X)ξ，同理，存在N维向量η使得β_ψ＝ψ(Y)η，带入上式得到：

式中0≤τ≤1。

因此，KCCA转化为关于ξ,η的约束优化问题，目标函数为：

maxξ^TK_XK_Yη

约束条件：

利用拉格朗日乘数法求解上述带约束的极值问题，则相应的拉格朗日方程为

式中，λ₁,λ₂为拉格朗日乘数。

分别求L(ξ,η)关于ξ,η的偏导数并令其为零，即

从而，KCCA等价于求解如下广义特征矩阵对应的特征向量问题，

即

求解出ξ,η，提取特征X和Y之间的非线性相关特性：

式中，u和v是变换后的两个特征分量，训练阶段u即第三特征分量、v即第四特征分量。

将其线性变换，

得到投影后的组合特征Z，用于后继的行为识别的建模与分类。

输入图像序列特征(具体即关键点序列特征)X、声音序列特征Y，及类标签，行为类型分别设定为站立1，坐下2，蹲下3，倒下4，其他5。

根据训练样本选择核函数，由样本X，Y以及核函数K(x,z)的定义计算核矩阵K_x、K_Y及以下：

其中，J＝I-ee^T,e＝(1,...1)^T，I为单位矩阵。

由以下式子计算α,β：

L^-1UV^-1U^Tα＝λ²α

V^-1U^TL^-1Uβ＝λ²β

根据以下式子计算u,v：

融合u,v后得到组合特征Z，送入K近邻分类器(KNN分类器)对5个种类进行分类识别，KNN是模式识别领域中的一种无参数分类方法，方法是找到与待识别融合特征向量Z距离最小的K个近邻，分别为Z₁，Z₂，Z₃，...，Z_k，那么KNN的分类判别函数为：d_m(Z)＝max{d_i(Z)}(i＝1,2,...,k)。

通过本发明实施例的行为识别方法，可以基于KCCA算法进行多模态信息融合，使得能较大地提高对人的行为识别的准确率。

本发明实施例的行为识别方法可在服务器端执行，通过将视频特征结合音频特征，使用摄像头和麦克风采集的音视频信息传到服务器端，服务器端通过openpose深度神经网络模型进行人体关键点检测，得到骨骼序列特征，选用VGGish提取音频序列特征，该两种模态的特征共同表征人体行为，比单一模态的特征更加准确全面。将该两种模态的特征经过KCCA进行融合，对于非线性相关的视频和声音，更能提取两者之间的相关特征，与CCA线性相关相比，可以取得较高的识别率，融合后的特征送入KNN分类器进行识别，在数据量充分的情况下可以保证较高的准确率。

以监测室内有无老人跌倒现象为例，如图2所示，在训练阶段：

采集楼宇内的若干行人姿态的音视频监控信息，里面包括跌倒和其他行为类别，按照2：1的比例分配训练集和测试集。

从音视频监控信息获取中同步的视频信息和音频信息，即分别得到音频序列训练集和视频序列训练集。

将视频序列训练集中的视频信息进行抽帧处理，具体地，等频率抽取图像帧，例如，共抽取3幅RGB图像，对3幅图像利用openpose预测功能，得到每幅图像中的人体的骨骼序列特征。openpose可以获取人体18个关节点的x、y坐标(即横、纵坐标)，因此可以得到36*3的骨骼信息，即人的骨骼序列特征。

取音频序列训练集中与视频信息同步的3秒的音频信息，将音频信息通过VGGish进行特征提取，将提取出的音频特征转化为128维的特征向量，得到声音序列特征。

利用KCCA将两种网络提取的图像序列特征(本例具体即骨骼序列特征)和声音序列特征进行融合(即多模态KCCA特征融合)。将融合后得到的组合特征用于KNN分类器的建模。训练参数可以包括KNN分类器的权重矩阵，以及后续所需的其他参数，例如ξ、η、第一矩阵等。

在预测阶段，即行为类别识别阶段：

将待识别的某老人的音视频信息中的音频信息(即图2中的待识别音频序列)通过VGGish处理，得到该老人的声音序列特征，视频信息(即图2中的待识别视频序列)通过抽帧处理后，经openpose得到该老人的骨骼序列特征，将两种特征经过KCCA进行特征融合(即多模态KCCA特征融合)，得到该老人的组合特征。将融合后得到的组合特征输入到KNN分类器，根据最近的k个训练样本来识别行为类别。与待识别的特征Z距离最近的k个近邻记为z₁,z₂,...,z_k，若其中标签为1(表示跌倒)的数据大于k/2个(即超过k的一半)，则判定为该老人跌倒。

本领域技术人员可以理解的是，上述流程可以扩展到更多模态的情况，例如设计多种模态，包括视频、红外、语音、无线微波等有效模态，并且识别的行为不仅限于识别老人跌倒，可以基于更多模态的特征融合得到老人的组合特征，共同实时分析老人的健康状态，是否有异常行为，包括突发疾病、意外状况等。

上文已经介绍了通过以第一训练集中人体样本的组合特征为分类器的输入训练分类器，得到第一权重矩阵W_Z，并保存第一权重矩阵W_Z和第一矩阵，结合人的视频和音频信息，可以通过提取人的关键点序列特征和声音序列特征，并融合得到人的组合特征，输入到该训练后的分类器进行行为识别。在此过程中，当积累足够的数据后，同时还能学习到视频、音频两种模态特征的相关性。

在另一实施例中，可以利用通过上述实施例学习到的两种模态特征的相关性，在后续的一些场景中，运用一种模态的特征进行训练，而在另一种模态特征上进行预测，增强单模态表达能力。

具体地，以第二训练集中人体样本的第一类型特征为分类器的输入，训练分类器，得到第二权重矩阵并保存；利用第一权重矩阵W_Z和第二权重矩阵W₂计算第三权重矩阵W₃。

其中：第一权重矩阵W_Z为第一矩阵与第三矩阵的乘积，第三矩阵基于第二权重矩阵W₂和第三权重矩阵W₃生成。第三矩阵具体形式如下：

以第三权重矩阵W₃作为分类器的权重矩阵，得到第一分类器，第一分类器用于根据第二目标人体的第二类型特征，识别第二目标人体的行为类别。

在一个实施例中，第一类型特征为关键点序列特征X2、第二类型特征为声音序列特征Y2，相应地，第二权重矩阵W₂为W_X、第三权重矩阵W₃为W_Y。

在另一个实施例中，第一类型特征为声音序列特征Y3、第二类型特征为关键点序列特征X3，相应地，第二权重矩阵W₂为W_Y、第三权重矩阵W₃为W_X。

下面以第一类型特征为关键点序列特征X2、第二类型特征为声音序列特征Y2举例介绍。

例如某一场景下，只能获取到足够的具有视频信息的样本，从而从训练集中提取训练用的人体样本的关键点序列特征，用于训练以关键点序列特征作为输入的分类器(记作第二分类器)，如果现场只能采集到音频信息，即进行人的行为识别时只能利用人的声音序列特征输入分类器进行识别，在不具备训练以声音序列特征作为输入的分类器(即第一分类器)的情况下，本发明实施例可以利用人的关键点序列特征与声音序列特征这两种模态特征的相关性，由第一权重矩阵W_Z和第二权重矩阵(本例为W_X)来推算第三权重矩阵(本例为W_Y)，从而无需对第一分类器训练而利用采集的音频信息进行人的行为类别的识别。

上文已经介绍了人的关键点序列特征X和声音序列特征Y之间的非线性相关特性为：

将其线性变换后得到：

由于权重矩阵在深度学习中也是用于区分特征的数学表达，不同特征之间的组合关系也适用于权重矩阵之间的组合关系，且KCCA中对特征X和Y的变换相当于深度学习中对输入乘以权重矩阵，即KCCA算法中采用的高斯变换与深度学习中计算权重矩阵的方式相同。

W_Z、W_X、W_Y之间满足如下关系：

基于W_Z、W_X已知，并且能读取到保存的ξ,η，那么，对该式进行线性变换的逆变换，即通过求逆矩阵的方式，即可计算出W_Y，从而得到第一分类器，在使用第一分类器识别人的行为类别时，输入该人的声音序列特征，第一分类器即可输出该人的行为类别，从而在只能采集人的音频信息的场景，例如只有音频监控的养老院，也可以实现识别老人的跌倒行为。

图3是根据本发明一个实施例的行为识别装置的主要模块示意图。

如图3所示，本发明一个实施例的行为识别装置300主要包括：特征生成模块301、特征融合模块302、行为识别模块303。

特征生成模块301，用于基于对象的同步多模态信息生成对象的多模态特征，多模态特征包括对象的关键点序列特征和声音序列特征，其中，等频率抽取所述对象的同步音视频信息中的图像帧，通过预定的深度神经网络模型检测并提取所述图像帧中所述对象的关键点信息，得到所述对象的关键点序列特征；从所述对象的同步音视频信息中，获取与抽取的所述图像帧同步的预设时间长度的音频信息，从所述预设时间长度的音频信息中提取所述对象的声音序列特征。

特征融合模块302，用于对对象的多模态特征进行融合，得到对象的组合特征。

行为识别模块303，用于将对象的组合特征输入分类器，以识别对象的行为类别。

在一个实施例中，对象的关键点序列特征为第一目标人体的骨骼序列特征。特征生成模块301具体用于：通过预定的深度神经网络模型，获取图像帧中第一目标人体的各关节点的横、纵坐标，根据各关节点的横、纵坐标得到第一目标人体的骨骼序列特征。

特征融合模块302具体可以用于：利用核典型相关分析算法，提取第一目标人体的关键点序列特征和声音序列特征的非线性相关特性，得到与第一目标人体的关键点序列特征对应的第一特征分量和与第一目标人体的声音序列特征对应的第二特征分量，第一特征分量为第一多维向量与第一目标人体的关键点序列特征的核矩阵的乘积，第二特征分量为第二多维向量与第一目标人体的声音序列特征的核矩阵的乘积，将第一特征分量、第二特征分量进行线性变换，得到第一目标人体的组合特征。

行为识别装置300还可以包括第一训练模块，用于：根据第一训练集中人体样本的关键点序列特征和声音序列特征，利用核典型相关分析算法求解得到第一多维向量、第二多维向量；根据第一多维向量与第一训练集中人体样本的关键点序列特征的核矩阵的乘积，得到第一训练集中人体样本的第三特征分量；根据第二多维向量与第一训练集中人体样本的声音序列特征的核矩阵的乘积，得到第一训练集中人体样本的第四特征分量；将第三特征分量、第四特征分量进行线性变换，得到第一训练集中人体样本的组合特征，第一训练集中人体样本的组合特征转换为第一矩阵与第二矩阵的乘积的形式，第一矩阵为基于第一多维向量和第二多维向量生成的矩阵，第二矩阵为基于第一训练集中人体样本的关键点序列特征和声音序列特征生成的矩阵；以第一训练集中人体样本的组合特征为分类器的输入，训练分类器，得到第一权重矩阵，保存第一权重矩阵和第一矩阵。

在一个实施例中，行为识别装置300还可以包括第二训练模块、权重矩阵计算模块和第一分类器生成模块，其中：第二训练模块用于以第二训练集中人体样本的第一类型特征为分类器的输入，训练分类器，得到第二权重矩阵并保存；权重矩阵计算模块用于利用第一权重矩阵和第二权重矩阵计算第三权重矩阵，其中：第一权重矩阵为第一矩阵与第三矩阵的乘积，第三矩阵基于第二权重矩阵和第三权重矩阵生成；第一分类器生成模块用于以第三权重矩阵作为分类器的权重矩阵，得到第一分类器，第一分类器用于根据第二目标人体的第二类型特征，识别第二目标人体的行为类别，其中：第一类型特征为关键点序列特征、第二类型特征为声音序列特征；或者，第一类型特征为声音序列特征、第二类型特征为关键点序列特征。

行为识别模块303具体可以用于：将第一目标人体的组合特征输入KNN分类器，以确定与第一目标人体的组合特征最接近的预设数量的训练样本对应的标签集，KNN分类器的权重矩阵为第一权重矩阵；当标签集中标记动作类型为跌倒的标签数量超过标签集中标签总数量的预定比例时，输出表示第一目标人体跌倒的行为类别识别结果。

本发明一个实施例的对象的待识别行为类别为人体跌倒行为，对象的同步音视频信息为同步采集的第一目标人体的视频信息和音频信息，特征融合模块302具体用于对第一目标人体的骨骼序列特征和声音序列特征进行融合，得到第一目标人体的组合特征，行为识别模块303具体用于将第一目标人体的组合特征输入分类器，以输出第一目标人体是否跌倒的行为类别识别结果。

本发明实施例可用于养老社区、安防监控、工作职场等场所做行为监测，也可以推广至人机交互、机器人、健康监测等领域，比如，设计多种模态，包括视频、红外、语音、无线微波等有效模态，共同实时分析老人的健康状态，是否有异常行为，包括突发疾病、意外状况等。通过采集视频画面和语音信息，更加准确地监测人的行为活动，实现对老人的看护管理、以及对职员异常行为的排查。在进行视频分析的同时还结合语音信息采集特征，最终实现精准地行为识别。

另外，在本发明实施例中行为识别装置的具体实施内容，在上面行为识别方法中已经详细说明了，故在此重复内容不再说明。

图4示出了可以应用本发明实施例的行为识别方法或行为识别装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的行为识别方法一般由服务器405执行，相应地，行为识别装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。图5示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征生成模块、特征融合模块、行为识别模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，特征生成模块还可以被描述为“用于基于对象的同步多模态信息生成对象的多模态特征，多模态特征包括对象的图像序列特征和声音序列特征的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：基于对象的同步多模态信息生成对象的多模态特征，多模态特征包括对象的图像序列特征和声音序列特征；对对象的多模态特征进行融合，得到对象的组合特征；将对象的组合特征输入分类器，以识别对象的行为类别。

根据本发明实施例的技术方案，基于对象的同步多模态信息生成对象的多模态特征，多模态特征包括对象的关键点序列特征和声音序列特征，其中，等频率抽取所述对象的同步音视频信息中的图像帧，通过预定的深度神经网络模型检测并提取所述图像帧中所述对象的关键点信息，得到所述对象的关键点序列特征；从所述对象的同步音视频信息中，获取与抽取的所述图像帧同步的预设时间长度的音频信息，从所述预设时间长度的音频信息中提取所述对象的声音序列特征，对对象的多模态特征融合得到该对象的组合特征，将该对象的组合特征输入分类器，以识别该对象的行为类别。能够基于对象的更全面的特征表征对象行为，提高对对象行为异常情况的感知能力，提高识别准确率。当数据足够积累后，通过学习到的两种或多种模态的相关性，之后可以运用一种模态的特征进行训练，而在另一种模态特征上进行预测，增强单模态表达能力。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

基于对象的同步多模态信息生成所述对象的多模态特征，所述多模态特征包括所述对象的关键点序列特征和声音序列特征，其中，等频率抽取所述对象的同步音视频信息中的图像帧，通过预定的深度神经网络模型检测并提取所述图像帧中所述对象的关键点信息，得到所述对象的关键点序列特征；从所述对象的同步音视频信息中，获取与抽取的所述图像帧同步的预设时间长度的音频信息，从所述预设时间长度的音频信息中提取所述对象的声音序列特征；

对所述对象的多模态特征进行融合，得到所述对象的组合特征；

将所述对象的组合特征输入分类器，以识别所述对象的行为类别。

2.根据权利要求1所述的方法，其特征在于，所述对象的关键点序列特征为第一目标人体的骨骼序列特征；

所述通过预定的深度神经网络模型检测并提取所述图像帧中所述对象的关键点信息，得到所述对象的关键点序列特征，包括：

通过所述预定的深度神经网络模型，获取所述图像帧中所述第一目标人体的各关节点的横、纵坐标，根据所述各关节点的横、纵坐标得到所述第一目标人体的骨骼序列特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述对象的多模态特征进行融合，得到所述对象的组合特征，包括：

利用核典型相关分析算法，提取所述第一目标人体的关键点序列特征和声音序列特征的非线性相关特性，得到与所述第一目标人体的关键点序列特征对应的第一特征分量和与所述第一目标人体的声音序列特征对应的第二特征分量，所述第一特征分量为第一多维向量与所述第一目标人体的关键点序列特征的核矩阵的乘积，所述第二特征分量为第二多维向量与所述第一目标人体的声音序列特征的核矩阵的乘积，将所述第一特征分量、所述第二特征分量进行线性变换，得到所述第一目标人体的组合特征。

4.根据权利要求3所述的方法，其特征在于，还包括：

根据第一训练集中人体样本的关键点序列特征和声音序列特征，利用核典型相关分析算法求解得到所述第一多维向量、所述第二多维向量；

根据所述第一多维向量与所述第一训练集中人体样本的关键点序列特征的核矩阵的乘积，得到所述第一训练集中人体样本的第三特征分量；

根据所述第二多维向量与所述第一训练集中人体样本的声音序列特征的核矩阵的乘积，得到所述第一训练集中人体样本的第四特征分量；

将所述第三特征分量、所述第四特征分量进行线性变换，得到所述第一训练集中人体样本的组合特征，所述第一训练集中人体样本的组合特征转换为第一矩阵与第二矩阵的乘积的形式，所述第一矩阵为基于所述第一多维向量和所述第二多维向量生成的矩阵，所述第二矩阵为基于所述第一训练集中人体样本的关键点序列特征和声音序列特征生成的矩阵；

以所述第一训练集中人体样本的组合特征为所述分类器的输入，训练所述分类器，得到第一权重矩阵，保存所述第一权重矩阵和所述第一矩阵。

5.根据权利要求4所述的方法，其特征在于，还包括：

以第二训练集中人体样本的第一类型特征为所述分类器的输入，训练所述分类器，得到第二权重矩阵并保存；

利用所述第一权重矩阵和所述第二权重矩阵计算第三权重矩阵，其中：所述第一权重矩阵为所述第一矩阵与第三矩阵的乘积，所述第三矩阵基于所述第二权重矩阵和所述第三权重矩阵生成；

以所述第三权重矩阵作为所述分类器的权重矩阵，得到第一分类器，所述第一分类器用于根据第二目标人体的第二类型特征，识别所述第二目标人体的行为类别，其中：所述第一类型特征为关键点序列特征、所述第二类型特征为声音序列特征；或者，所述第一类型特征为声音序列特征、所述第二类型特征为关键点序列特征。

6.根据权利要求4所述的方法，其特征在于，所述将所述对象的组合特征输入分类器，以识别所述对象的行为类别，包括：

将所述第一目标人体的组合特征输入KNN分类器，以确定与所述第一目标人体的组合特征最接近的预设数量的训练样本对应的标签集，所述KNN分类器的权重矩阵为所述第一权重矩阵；

当所述标签集中标记动作类型为跌倒的标签数量超过所述标签集中标签总数量的预定比例时，输出表示所述第一目标人体跌倒的行为类别识别结果。

7.根据权利要求2所述的方法，其特征在于，所述对象的待识别行为类别为人体跌倒行为，所述对象的同步音视频信息为同步采集的所述第一目标人体的视频信息和音频信息，对所述第一目标人体的所述骨骼序列特征和所述声音序列特征进行融合，得到所述第一目标人体的组合特征，将所述第一目标人体的组合特征输入所述分类器，以输出所述第一目标人体是否跌倒的行为类别识别结果。

8.一种行为识别装置，其特征在于，包括：

特征生成模块，用于基于对象的同步多模态信息生成所述对象的多模态特征，所述多模态特征包括所述对象的关键点序列特征和声音序列特征，其中，等频率抽取所述对象的同步音视频信息中的图像帧，通过预定的深度神经网络模型检测并提取所述图像帧中所述对象的关键点信息，得到所述对象的关键点序列特征；从所述对象的同步音视频信息中，获取与抽取的所述图像帧同步的预设时间长度的音频信息，从所述预设时间长度的音频信息中提取所述对象的声音序列特征；

特征融合模块，用于对所述对象的多模态特征进行融合，得到所述对象的组合特征；

行为识别模块，用于将所述对象的组合特征输入分类器，以识别所述对象的行为类别。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。