CN111444788B

CN111444788B - 行为识别的方法、装置及计算机存储介质

Info

Publication number: CN111444788B
Application number: CN202010173400.8A
Authority: CN
Inventors: 蒋霆; 叶年进; 王光甫; 刘帅成
Original assignee: Chengdu Kuangshi Jinzhi Technology Co ltd; Beijing Megvii Technology Co Ltd
Current assignee: Chengdu Kuangshi Jinzhi Technology Co ltd; Beijing Megvii Technology Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2024-03-15
Anticipated expiration: 2040-03-12
Also published as: WO2021179591A1; CN111444788A

Abstract

本发明公开了一种行为识别的方法、装置及计算机存储介质。该方法包括：获取待识别图像，并将其输入至预先训练好的神经网络；获取所述神经网络的输出，包括表示待识别图像中人物行为正常的概率的第一输出、表示该人物正在进行第一行为的概率的第二输出、表示该人物正在进行第二行为的概率的第三输出；根据输出确定该人物的行为。可见，本发明实施例能够利用预先训练好的神经网络确定待识别图像中人物的行为，具体地，该神经网络能够提取丰富的视觉特征，能够关注待识别图像中的人物的特定行为，使得行为识别的准确率更高。并且，本发明实施例的行为识别的方法能够满足实时性要求，能够进行实时运算，进而满足各种不同的应用领域的识别要求。

Description

行为识别的方法、装置及计算机存储介质

技术领域

本发明实施例涉及图像处理领域，并且更具体地，涉及一种行为识别的方法、装置及计算机存储介质。

背景技术

行为识别可以是指对人的行为进行分析和识别的一种技术。例如，可以对图像(例如，视频帧数据)中人的行为进行分析和识别，这种技术能够从视频序列中抽取出相关的帧数据，并提取出丰富的视觉特征，从而对人的行为进行表达和解释。

在人工智能(AI)领域，行为识别在视频监控、自动驾驶等诸多方面有着非常广泛的应用。例如在驾驶领域，由于司机出现的分心行为造成的交通事故非常多，为了降低事故发生率，可以通过行为识别技术来对司机的分心行为进行检测，并对司机出现的如吸烟、打电话、喝水等会影响到正常驾驶状态的行为及时制止。

然而，由于多种因素的影响，目前行为识别的精度和鲁棒性在应用领域无法完全满足要求。

发明内容

本发明提供了一种行为识别的方法、装置及计算机存储介质，具有较高的识别精度，且能够满足在特定的应用领域的识别要求。

根据本发明的第一方面，提供了一种行为识别的方法，包括：

获取待识别图像，并将所述待识别图像输入至预先训练好的神经网络；

获取所述神经网络的输出，所述输出包括第一输出、第二输出和第三输出，其中，所述第一输出表示所述待识别图像中人物行为正常的概率，所述第二输出表示所述待识别图像中人物正在进行第一行为的概率，所述第三输出表示所述待识别图像中人物正在进行第二行为的概率；

根据所述第一输出、所述第二输出和所述第三输出确定所述待识别图像中的人物的行为。

在一种实现方式中，所述根据所述第一输出、所述第二输出和所述第三输出确定所述待识别图像中的人物的行为，包括：

根据所述第一输出与第一阈值的比较结果、所述第二输出与第二阈值的比较结果、所述第三输出与第三阈值的比较结果中的至少一项，确定所述待识别图像中的人物的行为。

若所述第一输出大于或等于第一阈值，或者，若所述第一输出小于所述第一阈值且所述第二输出大于所述第三输出且所述第二输出小于第二阈值，或者，若所述第一输出小于所述第一阈值且所述第二输出小于或等于所述第三输出且所述第三输出小于第三阈值，则确定所述待识别图像中的人物的行为正常；

若所述第一输出小于所述第一阈值且所述第二输出大于所述第三输出且所述第二输出大于或等于所述第二阈值，则确定所述待识别图像中的人物正在进行所述第一行为；

若所述第一输出小于所述第一阈值且所述第二输出小于或等于所述第三输出且所述第三输出大于或等于所述第三阈值，则确定所述待识别图像中的人物正在进行所述第二行为。

在一种实现方式中，所述神经网络包括第一分支模型、第二分支模型和第三分支模型，且所述第一分支模型产生所述第一输出，所述第二分支模型产生所述第二输出，所述第三分支模型产生所述第三输出。

在一种实现方式中，所述第二分支模型为吸烟行为识别模型，所述第三分支模型为打电话行为识别模型。

在一种实现方式中，所述第一分支模型的第一卷积层的输出与所述第二分支模型的第二卷积层的输出进行融合作为所述第二分支模型的第三卷积层的输入。所述第一分支模型的第一卷积层的输出与所述第三分支模型的第四卷积层的输出进行融合作为所述第三分支模型的第五卷积层的输入。

在一种实现方式中，所述神经网络是基于训练数据集，通过训练得到的。

在一种实现方式中，通过如下方式构建所述训练数据集：

获取N个原始数据，其中每个原始数据都包括人像区域；

针对每一个原始数据：分割出其中的人像区域，在所述人像区域之外的其他区域分别添加多个噪声，生成多个训练数据；

针对N个原始数据的多个训练数据的集合即为所述训练数据集，所述训练数据集包括M个训练数据，其中，M大于N且均为正整数。

在一种实现方式中，在训练所述神经网络时，针对所述训练数据集中的训练数据：

对所述训练数据进行数据增强处理，得到增强后的数据；

对所述增强后的数据进行人脸下半部分裁剪，得到裁剪后的数据；

对所述增强后的数据进行边缘检测，得到边缘检测后的数据；

将所述增强后的数据作为所述神经网络的所述第一分支模型的输入；

将所述裁剪后的数据作为所述神经网络的所述第二分支模型的输入；

将所述边缘检测后的数据与所述增强后的数据进行融合之后，作为所述神经网络的所述第三分支模型的输入。

在一种实现方式中，所述数据增强处理包括如下至少一项：镜像、亮度变化、随机裁剪。

在一种实现方式中，在训练所述神经网络时，通过设定单次迭代时的数据量、总的迭代次数、学习率衰减策略来控制所述训练过程的终止。

根据本发明的第二方面，提供了一种行为识别的装置，所述装置用于实现前述第一方面或任一实现方式所述方法的步骤，所述装置包括：

获取模块，用于获取待识别图像；

输入模块，用于将所述待识别图像输入至预先训练好的神经网络；

所述获取模块，还用于获取所述神经网络的输出，所述输出包括第一输出、第二输出和第三输出，其中，所述第一输出表示所述待识别图像中人物行为正常的概率，所述第二输出表示所述待识别图像中人物正在进行第一行为的概率，所述第三输出表示所述待识别图像中人物正在进行第二行为的概率；

确定模块，用于根据所述第一输出、所述第二输出和所述第三输出确定所述待识别图像中的人物的行为。

根据本发明的第三方面，提供了一种行为识别的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述第一方面或任一实现方式所述方法的步骤。

根据本发明的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述第一方面或任一实现方式所述方法的步骤。

由此可见，本发明实施例能够利用预先训练好的神经网络确定待识别图像中人物的行为，具体地，该神经网络包括多个分支模型，能够提取丰富的视觉特征，能够重点关注待识别图像中的人物的特定行为，从而使得行为识别的准确率更高。并且，本发明实施例的行为识别的方法能够满足实时性要求，能够进行实时运算，进而满足各种不同的应用领域的识别要求。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的神经网络的训练过程的一个示意图；

图3是本发明实施例的神经网络的网络结构的一个示意图；

图4是本发明实施例的卷积块的结构的一个示意图；

图5是本发明实施例的根据输出确定人物的行为的一个示意图；

图6是本发明实施例的行为识别的方法的一个示意性流程图；

图7是本发明实施例的行为识别的装置的一个示意性框图；

图8是本发明实施例的行为识别的装置的另一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

近年来行为识别技术的应用越来越广泛，基础研究也得到了非常迅速的发展，但是行为识别仍然是一项非常具有挑战性的任务。由于光照条件多样性、视角多样性、背景复杂性、行为状态多样性等诸多因素的存在，使得行为识别的精度和鲁棒性在应用领域并没有完全满足要求。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括中央处理单元(Central Processing Unit，CPU)1021和图形处理单元(Graphics Processing Unit，GPU)1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

本发明实施例提供了一种神经网络，该神经网络能够用于识别人物的行为。该神经网络至少包括三个分支模型，分别为第一分支模型、第二分支模型和第三分支模型。其中，第一分支模型可以为主分支模型，例如可以利用该第一分支模型对输入该神经网络的图像进行主要识别。第二分支模型可以主要用于识别第一行为，例如第一异常行为。第三分支模型可以主要用于识别第二行为，例如第二异常行为。

作为一例，第一行为可以为吸烟行为，第二行为可以为打电话行为。相应地，本发明实施例中，可以将三个分支模型分别称为：主分支模型、吸烟分支模型和打电话分支模型。

可选地，该神经网络还可以包括第四分支模型，可以用于识别第三行为，例如第三异常行为。也就是说，本发明实施例中的神经网络除了包括第一分支模型之外，还可以包括任意数量的分支模型，用于识别相应数量的行为。可选地，第三行为可以为喝水行为。

为了描述的方便，本发明后续实施例以该神经网络为三分支模型的网络为例进行详细阐述。

本发明实施例中的神经网络可以是基于训练数据集，通过训练得到的。

示例性地，可以通过如下方式构建所述训练数据集：获取N个原始数据，其中每个原始数据都包括人像区域；针对每一个原始数据：分割出其中的人像区域，在人像区域之外的其他区域分别添加多个噪声，生成多个训练数据；针对N个原始数据的多个训练数据的集合即为训练数据集，该训练数据集包括M个训练数据，其中，M大于N且均为正整数。

具体地，获取N个原始数据可以包括：通过对视频流数据进行抽帧，获取到原始数据集，其包括足够的数据。如果该神经网络将用于驾驶领域，对驾驶员的行为进行识别，那么该原始数据集可以包含正常驾驶、抽烟、打电话三个类的数据。随后可以对该原始数据集进行人工筛选或脚本筛选，将其中不包含人脸、严重模糊等情况的错误样本删除掉，最终得到N个原始数据。示例性地，该过程也可以理解为是数据获取并清洗的过程。

可理解，由于已经将不包含人脸的样本剔除掉，因此，N个原始数据中每个原始数据均包含人像区域。

可选地，作为一例，可以类似地构建验证数据集(例如，可以表示为V)，其中可以包括N1个验证数据。或者，可选地，作为另一例，在将原始数据集筛选之后，可以将其中的N个原始数据用于训练，将其他的N个数据作为验证数据集。可理解，验证数据集用于对训练好的神经网络进行验证，用于判断神经网络模型的好坏。

具体地，可以基于N个原始数据得到M个训练数据，包括：首先采用分割模型分割出人像区域，并在非人像区域添加噪声，从而得到训练数据集，数据量为M。示例性地，该过程可以在将数据送入待训练的神经网络之前进行，因此也可以称为是数据线下增强的过程。

例如，可以在一个原始数据的非人像区域(即人像区域以外的其他区域)添加不同的噪声，如通过添加p个不同的噪声，基于一个原始数据得到p个训练数据。在一种实现方式中，M为N的整数倍，例如，M＝p×N。

本发明实施例中，在得到M个训练数据时，可以在非人像区域添加噪声，如此能够在一定程度上去除掉背景的干扰，从而使得训练过程更快地收敛，且保证训练后的神经网络的精度更高。并且可理解，通过在非人像区域添加噪声，使得得到的神经网络能够针对复杂背景下的人物的行为进行识别，消除了复杂背景的干扰。

在对神经网络进行训练时，可以将训练数据集(如上，包括M个训练数据)送到待训练的神经网络中。随后，可以基于该训练数据集生成输入至神经网络的各个不同的分支模型的输入数据。

具体地，可以对训练数据进行数据增强处理，得到增强后的数据；对增强后的数据进行人脸下半部分裁剪，得到裁剪后的数据；对增强后的数据进行边缘检测，得到边缘检测后的数据；将增强后的数据作为第一分支模型的输入；将裁剪后的数据作为第二分支模型的输入；将边缘检测后的数据与增强后的数据进行融合之后，作为第三分支模型的输入。

示例性地，参照图2，可以对训练数据进行数据增强处理，得到增强后的数据，如图2中示出为“数据输入”。其中，数据增强处理可以包括镜像、亮度变化、随机裁剪中的至少一项，或者，数据增强处理也可以包括其他类型的处理，这里不再一一罗列。可理解，通过进行数据增强处理，能够消除视角多样性、不同光照等的影响。

增强后的数据(即“数据输入”)可以作为第一分支模型的输入，也就是说，图2中所示出的数据输入可以直观地理解为是第一分支模型的输入。可选地，第一分支模型可以称为主分支模型。

第二分支模型可以为吸烟分支模型，该分支模型主要关注吸烟的行为，因此可以只重点关注人的嘴部周围的行为。相应地，可以对增强后的数据进行人脸下半部分裁剪(如图2中的区域裁剪)，这样，通过裁剪可以得到吸烟分支所关注的嘴部周围的图像。

第三分支模型可以为打电话分支模型，该分支模型主要关注打电话行为，因此可以只重点关注手机等对象。由于手机属于边缘凸显的刚体，因此可以通过边缘检测方法检测有效边缘信息，得到边缘检测后的数据，随后再与增强后的数据进行融合之后，作为第三分支模型的输入。

其中，可以通过sobel算子做边缘检测，或者也可以采用其他的方式进行边缘检测，本发明对此不限定。其中，融合可以包括concatenate操作(简称Concat)，即将边缘检测后的数据与增强后的数据的特征进行结合，从而能够确保第三分支模型重点关注打电话行为区域。

可见，本发明实施例中，考虑到行为状态的多样性，有针对性地设计多个不同的分支模型，能够更有针对性地对人物的行为进行分析和识别。

本发明实施例中的神经网络的三分支模型可以具有如图3所示的网络结构，应当注意的是，图3所示的网络结构仅是示意性的，不应当将其作为对神经网络的结构的限制。

图3中，IP1表示输入至第一分支模型的数据，具体地为图2中的增强后的数据。IP2表示输入至第二分支模型的数据，具体地为图2中的区域裁剪后的数据，可选地，IP2的大小可以为IP1的一半。IP3表示边缘检测后的数据，其与IP1进行特征融合之后，输入至第三分支模型。

图3中的卷积层包括常规的卷积层(Convolution)以及卷积组(ConvolutionGroup)。Convolution Group为一个带有残差结构的包含多个卷积块(Conv Block)的组结构，其中采用Pool为最大值池化(Max Pooling)来进行降维。其中，卷积块的结构可以如图4所示，包括通道分割(Channel Split)、多个卷积算子、特征融合(Concat)以及通道重排(Channel Shuffle)。其中，多个卷积算子包括1×1卷积、3×3DW卷积、1×1卷积以及SE(Squeeze-and-Excitation)，并且还包括批归一化(batch-normalization，BN)和批归一化修正线性单元(batch-normalization Rectified Linear Unit，BN ReLU)。具体地点，关于卷积块可以参见已有神经网络的结构中卷积块的相关描述，为避免重复，这里不再赘述。

另外，对于第二分支模型和第三分支模型，在Convolution Group之前，还进行尺寸变换(resize)和特征融合(cat)操作，其中，在图3中未示出resize。

示例性地，第一分支模型的第一卷积层的输出与第二分支模型的第二卷积层的输出进行融合作为第二分支模型的第三卷积层的输入。第一分支模型的第一卷积层的输出与第三分支模型的第四卷积层的输出进行融合作为第三分支模型的第五卷积层的输入。结合图3，第一分支模型的第一卷积层表示为COV1，第二分支模型的第二卷积层和第三卷积层分别表示为COV2和COV3，第三分支模型的第四卷积层和第五卷积层分别表示为COV4和COV5。图3中，COV1的输出与COV2的输出进行融合(cat)再输入至COV3，COV1的输出与COV4的输出进行融合(cat)再输入至COV5。

应当理解的是，第一卷积层(COV1)可以是指第一分支模型所包括的多个卷积层中的一个，示例性地可以为4块(blocks)卷积组。并且，第一分支模型中位于第一卷积层之后的卷积层(如图3中的COV6)可以是6块(blocks)卷积组，再其后(如图3中的COV7)是4块卷积组。

第二卷积层(COV2)可以是第二分支模型所包括的多个卷积层中的一个，第三卷积层(COV3)可以是第二分支模型包括的多个卷积层中的位于第二卷积层之后的卷积层，示例性地，第三卷积层(COV3)可以为6块(blocks)卷积组。

类似地，第四卷积层(COV4)可以是第三分支模型所包括的多个卷积层中的一个，第五卷积层(COV5)可以是第三分支模型包括的多个卷积层中的位于第四卷积层之后的卷积层，示例性地，第五卷积层(COV5)可以为6块(blocks)卷积组。

图3中每个分支模型的全连接层(Fully Connect，FC)之后，还可以包括一个softmax(分类模型)。参见图3，第一分支模型的softmax输出正常行为与异常行为的概率。第二分支模型(如吸烟分支模型)的softmax输出第一行为(如吸烟行为)和非第一行为(如非吸烟行为)的概率。第三分支模型(如打电话分支模型)的softmax输出第二行为(如打电话行为)和非第二行为(如非打电话行为)的概率。

示例性地，在训练神经网络时，可以通过设定单次迭代时的数据量、总的迭代次数、学习率衰减策略来控制训练过程的终止。具体地，可以设置初始学习率为η，batch(每次迭代送入模型的数据的个数)的大小为B，总的迭代(epoch)次数为E，学习率衰减策略为每隔K个epoch减小十倍的衰减。达到总的epoch后，模型训练终止。并且在训练过程中可以根据在验证集V上的模型验证正确率，隔I次迭代对最好的验证正确率的模型进行保存，最终得到最好的模型，进行实际测试，并进行部署。

参照图3，神经网络的三个分支模型将得到三个softmax的输出，假设所得到的是：第一分支模型输出的正常行为的概率为Pn，第二分支模型输出的第一行为的概率为Ps，第三分支模型输出的第二行为的概率为Pc。那么，在对神经网络的训练完成之后，在测试阶段，可以对这三个输出的概率进行组合以确定人物的行为。示例性地，可以设定与三个分支模型分别对应的阈值th1、th2、th3，并且可以按照如图5所示的过程来确定人物的行为为正常行为或第一行为或第二行为。可选地，第一行为和第二行为可以分别为第一异常行为和第二异常行为，例如分别为吸烟行为和打电话行为。

这样，通过本发明实施例，能够得到用于进行行为识别的神经网络，该神经网络包括多个分支模型，如上面描述的三个分支模型。这样的多分支模型的神经网络能够重点关注到特定行为的行为区域，从而使得对行为的识别准确率更高。进一步地，可以将训练得到的神经网络进行部署，从而应用于特定的领域，并且能够满足在特定的应用领域的识别要求。

并且，本发明实施例利用深度学习模型的复杂建模能力，使得训练得到的神经网络对行为的识别的准确率更高。以驾驶领域为例，假设正常行为为正常驾驶行为，第一行为为吸烟行为，第二行为为打电话行为，下面的表1示出了本发明实施例的包括三分支模型的神经网络与现有技术中传统的单模型进行行为识别的准确率的比较，可以看出，本发明实施例中的神经网络的行为识别的准确率更高。

表1

图6是本发明实施例的一种行为识别的方法的示意性流程图，图6所示的方法可以由如图1所示的设备10执行，或者更具体地由处理器102执行，图6所示的方法可以包括：

S110，获取待识别图像，并将所述待识别图像输入至预先训练好的神经网络；

S120，获取所述神经网络的输出，所述输出包括第一输出、第二输出和第三输出，其中，所述第一输出表示所述待识别图像中人物行为正常的概率，所述第二输出表示所述待识别图像中人物正在进行第一行为的概率，所述第三输出表示所述待识别图像中人物正在进行第二行为的概率；

S130，根据所述第一输出、所述第二输出和所述第三输出确定所述待识别图像中的人物的行为。

可理解，该过程可以用于对待识别图像中的人物的行为进行识别。图6中提到的神经网络可以是如上结合图2至图5所描述的神经网络，对该神经网络的训练过程可以参见上述的相关描述。

图6所示的方法对应用场景不作限定，例如，可以应用于视频监控、自动驾驶等领域。假设图6所示的方法应用于驾驶领域，相应地，人物的正常行为可以表示正常驾驶行为，第一行为可以是第一异常行为，如吸烟行为，第二行为可以是第二异常行为，如打电话行为。

作为一例，待识别图像可以是实时采集的一张图像或者可以是实时采集的视频流中的一帧图像；待识别图像可以是预先存储的一张图像或者也可以是预先存储的视频流中的一帧图像。

作为一例，S110中的获取待识别图像可以包括提取视频流中的一帧图像。

示例性地，神经网络可以包括第一分支模型、第二分支模型和第三分支模型，且第一分支模型产生第一输出，第二分支模型产生第二输出，第三分支模型产生第三输出。假设图6所示的方法应用于驾驶领域，那么作为一例，第一输出可以表示待识别图像中人物(即司机)正常驾驶的概率，第二输出表示待识别图像中人物正在进行第一异常行为(如抽烟行为)的概率，第三输出表示待识别图像中人物正在进行第二异常行为(如打电话行为)的概率。相应地，可以将第一分支模型称为主分支模型，第二分支模型称为吸烟行为识别模型，第三分支模型称为打电话行为识别模型。

本发明实施例在进行行人识别时，只需将待识别图像输入至神经网络，便可以得到第一输出、第二输出和第三输出，进而能够通过S130确定人物的行为，该操作简单方便，不包括繁琐的步骤，用户体验高。

示例性地，S130可以包括：根据第一输出与第一阈值的比较结果、第二输出与第二阈值的比较结果、第三输出与第三阈值的比较结果中的至少一项，确定待识别图像中的人物的行为。其中，第一阈值、第二阈值和第三阈值是预先设定的，例如可以根据应用场景、精度需求等预先设定，并且可理解，第一阈值、第二阈值和第三阈值均是0至1之间的值，且，这三个值两两之间可以相等或不相等，本发明对此不限定。

示例性地，S130可以包括：若第一输出大于或等于第一阈值，或者，若第一输出小于第一阈值且第二输出大于第三输出且第二输出小于第二阈值，或者，若第一输出小于第一阈值且第二输出小于或等于第三输出且第三输出小于第三阈值，则确定待识别图像中的人物的行为正常。若第一输出小于第一阈值且第二输出大于第三输出且第二输出大于或等于第二阈值，则确定待识别图像中的人物正在进行第一行为。若第一输出小于第一阈值且第二输出小于或等于第三输出且第三输出大于或等于第三阈值，则确定待识别图像中的人物正在进行第二行为。

为了更直观地描述S130，可以假设将第一输出、第二输出和第三输出依次表示为Pn、Ps和Pc。将第一阈值、第二阈值和第三阈值依次表示为th1、th2和th3。

结合图5，若(1)Pn≥th1，或(2)Pn<th1且Ps>Pc且Ps<th2，或(3)Pn<th1且Ps<Pc且Pc<th3，则可以确定人物的行为为正常行为，如在驾驶领域，为正常驾驶行为。

结合图5，若Pn<th1且Ps>Pc且Ps≥th2，则可以确定人物的行为为第一行为，如在驾驶领域，为第一异常行为(如吸烟行为)。

结合图5，若Pn<th1且Ps≤Pc且Pc≥th3，则可以确定人物的行为为第二行为，如在驾驶领域，为第二异常行为(如打电话行为)。

可见，本发明实施例可以有效地针对视角多样性、不同光照、复杂背景、行为状态多样性下人物的行为进行识别，可有效识别打电话、吸烟等行为状态，并有效排除可能的攻击行为，克服现有技术中存在的在复杂场景下的不敏感问题。

本发明实施例中的神经网络包括多个分支模型，能够利用多分支融合模型来提取丰富的视觉特征，能够重点关注待识别图像中的人物的行为，并得到有效的行为表达和解释。

另外，本发明实施例能够满足实时性要求，能够在嵌入式端(手机端，车机端)进行实时运算，进而满足实际应用。

图7是本发明实施例的行为识别的装置的一个示意性框图。图7所示的装置20包括：获取模块210、输入模块220和确定模块230。

获取模块210可以用于获取待识别图像。

输入模块220可以用于将获取模块210获取的待识别图像输入至预先训练好的神经网络。

获取模块210还可以用于获取神经网络的输出，输出包括第一输出、第二输出和第三输出，其中，第一输出表示待识别图像中人物行为正常的概率，第二输出表示待识别图像中人物正在进行第一行为的概率，第三输出表示待识别图像中人物正在进行第二行为的概率；

确定模块230可以用于根据第一输出、第二输出和第三输出确定待识别图像中的人物的行为。

示例性地，确定模块230可以具体用于根据第一输出与第一阈值的比较结果、第二输出与第二阈值的比较结果、第三输出与第三阈值的比较结果中的至少一项，确定待识别图像中的人物的行为。

示例性地，确定模块230可以具体用于：若第一输出大于或等于第一阈值，或者，若第一输出小于第一阈值且第二输出大于第三输出且第二输出小于第二阈值，或者，若第一输出小于第一阈值且第二输出小于或等于第三输出且第三输出小于第三阈值，则确定待识别图像中的人物的行为正常。若第一输出小于第一阈值且第二输出大于第三输出且第二输出大于或等于第二阈值，则确定待识别图像中的人物正在进行第一行为；若第一输出小于第一阈值且第二输出小于或等于第三输出且第三输出大于或等于第三阈值，则确定待识别图像中的人物正在进行第二行为。

示例性地，神经网络包括第一分支模型、第二分支模型和第三分支模型，且第一分支模型产生第一输出，第二分支模型产生第二输出，第三分支模型产生第三输出。其中，该神经网络可以预选训练得到，参见前述图2至图5的相关描述。

图7所示的装置20能够实现前述图6所示的行为识别的方法，为避免重复，这里不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，本发明实施例还提供了另一种行为识别的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图6所示的行为识别的方法的步骤。

如图8所示，该装置30可以包括存储器310和处理器320。

存储器310存储用于实现根据本发明实施例的行为识别的方法中的相应步骤的计算机程序代码。

处理器320用于运行存储器310中存储的计算机程序代码，以执行根据本发明实施例的行为识别的方法的相应步骤。

示例性地，在所述计算机程序代码被处理器320运行时执行以下步骤：获取待识别图像，并将所述待识别图像输入至预先训练好的神经网络；获取所述神经网络的输出，所述输出包括第一输出、第二输出和第三输出，其中，所述第一输出表示所述待识别图像中人物行为正常的概率，所述第二输出表示所述待识别图像中人物正在进行第一行为的概率，所述第三输出表示所述待识别图像中人物正在进行第二行为的概率；根据所述第一输出、所述第二输出和所述第三输出确定所述待识别图像中的人物的行为。

另外，本发明实施例还提供了一种电子设备，该电子设备可以为图1所示的电子设备10，或者，该电子设备可以包括图7或图8所示的行为识别的装置。该电子设备可以实现前述图6所示的行为识别的方法。

其中，该电子设备可以为移动终端，该移动终端可以包括图像采集装置，以及图7或图8所示的行为识别的装置。例如，该移动终端可以为智能电话，或者可以为车载设备等等。

举例来说，该移动终端可以设置于车辆内部并使得其图像采集装置朝向驾驶员，例如方向盘的后方或侧方等，这样该移动终端可以通过其图像采集装置采集到驾驶员的视频流数据或图像数据，并采用如图6所示的方法实时地确定驾驶员的行为。可选地，如果通过识别确定驾驶员正在进行异常行为，如吸烟或打电话等可能影响安全驾驶的行为，那么该移动终端可以实时地发出告警信息，以便提醒驾驶员及时更正其行为，进而保障驾驶安全。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图6所示的行为识别的方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：获取待识别图像，并将所述待识别图像输入至预先训练好的神经网络；获取所述神经网络的输出，所述输出包括第一输出、第二输出和第三输出，其中，所述第一输出表示所述待识别图像中人物行为正常的概率，所述第二输出表示所述待识别图像中人物正在进行第一行为的概率，所述第三输出表示所述待识别图像中人物正在进行第二行为的概率；根据所述第一输出、所述第二输出和所述第三输出确定所述待识别图像中的人物的行为。

计算机存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

另外，本发明实施例还提供了一种计算机程序产品，其包含指令，当该指令被计算机所执行时，使得计算机执行上述图6中所示的行为识别的方法的步骤。

由此可见，本发明实施例提供了一种行为识别的方法、装置及计算机存储介质，能够利用预先训练好的神经网络确定待识别图像中人物的行为，具体地，该神经网络包括多个分支模型，能够提取丰富的视觉特征，能够重点关注待识别图像中的人物的特定行为，从而使得行为识别的准确率更高。并且，本发明实施例的行为识别的方法能够满足实时性要求，能够进行实时运算，进而满足各种不同的应用领域的识别要求。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(Digital Signal Processing，DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行为识别的方法，其特征在于，所述方法包括：

获取待识别图像，并将所述待识别图像输入至预先训练好的神经网络，所述神经网络包括第一分支模型、第二分支模型和第三分支模型；

获取所述神经网络的输出，所述输出包括第一输出、第二输出和第三输出，其中，所述第一输出表示所述待识别图像中人物行为正常的概率，所述第二输出表示所述待识别图像中人物正在进行第一行为的概率，所述第三输出表示所述待识别图像中人物正在进行第二行为的概率，且所述第一分支模型产生所述第一输出，所述第二分支模型产生所述第二输出，所述第三分支模型产生所述第三输出，

所述第一分支模型的第一卷积层的输出与所述第二分支模型的第二卷积层的输出进行融合作为所述第二分支模型的第三卷积层的输入，其中，所述第一卷积层为所述第一分支模型所包括的多个卷积层中的一个，第二卷积层为所述第二分支模型所包括的多个卷积层中的一个，所述第三卷积层为所述第二分支模型包括的多个卷积层中的位于所述第二卷积层之后的卷积层；所述第一分支模型的第一卷积层的输出与所述第三分支模型的第四卷积层的输出进行融合作为所述第三分支模型的第五卷积层的输入，所述第四卷积层为所述第三分支模型所包括的多个卷积层中的一个，所述第五卷积层为所述第三分支模型包括的多个卷积层中的位于所述第四卷积层之后的卷积层；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一输出、所述第二输出和所述第三输出确定所述待识别图像中的人物的行为，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一输出、所述第二输出和所述第三输出确定所述待识别图像中的人物的行为，包括：

4.根据权利要求1所述的方法，其特征在于，所述第二分支模型为吸烟行为识别模型，所述第三分支模型为打电话行为识别模型。

5.根据权利要求1所述的方法，其特征在于，所述神经网络是基于训练数据集，通过训练得到的。

6.根据权利要求5所述的方法，其特征在于，通过如下方式构建所述训练数据集：

获取N个原始数据，其中每个原始数据都包括人像区域；

7.根据权利要求5或6所述的方法，其特征在于，在训练所述神经网络时，针对所述训练数据集中的训练数据：

对所述训练数据进行数据增强处理，得到增强后的数据；

8.根据权利要求7所述的方法，其特征在于，所述数据增强处理包括如下至少一项：镜像、亮度变化、随机裁剪。

9.根据权利要求5所述的方法，其特征在于，在训练所述神经网络时，通过设定单次迭代时的数据量、总的迭代次数、学习率衰减策略来控制所述训练过程的终止。

10.一种行为识别的装置，其特征在于，所述装置包括：

获取模块，用于获取待识别图像；

输入模块，用于将所述待识别图像输入至预先训练好的神经网络，所述神经网络包括第一分支模型、第二分支模型和第三分支模型；

所述获取模块，还用于获取所述神经网络的输出，所述输出包括第一输出、第二输出和第三输出，其中，所述第一输出表示所述待识别图像中人物行为正常的概率，所述第二输出表示所述待识别图像中人物正在进行第一行为的概率，所述第三输出表示所述待识别图像中人物正在进行第二行为的概率，且所述第一分支模型产生所述第一输出，所述第二分支模型产生所述第二输出，所述第三分支模型产生所述第三输出；

11.一种行为识别的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述方法的步骤。