CN114913602A

CN114913602A - 行为识别方法、装置、设备及存储介质

Info

Publication number: CN114913602A
Application number: CN202210557078.8A
Authority: CN
Inventors: 曾志颖
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-16

Abstract

本申请实施例公开了一种行为识别方法、装置、设备及存储介质，其中，所述方法包括：对获取的待识别图像进行对象检测，得到所述待识别图像中第一对象的检测信息；基于所述检测信息和已检测图像集合中的第二属性信息，确定所述第一对象的第一属性信息；其中，所述已检测图像集合中的已检测图像携带画面中的第二对象的第二属性信息；在所述已检测图像集合和所述待识别图像的图像总帧数达到预设帧数阈值的情况下，基于所述第二属性信息和所述第一属性信息，对所述待识别图像和所述已检测图像集合进行目标行为识别；响应于识别到所述目标行为，在所述第一对象和所述第二对象中，确定参与所述目标行为的目标对象。

Description

行为识别方法、装置、设备及存储介质

技术领域

本申请涉及但不限于计算机视觉技术领域，尤其涉及一种行为识别方法、装置、设备及存储介质。

背景技术

在相关技术中，当前的视频领域，一般是根据对于人脸人体对象进行图像采集，只有当对象的人脸或人体出现在摄像头当中，才能采集得到。一旦对象乘坐交通进行移动，只能等对象下一次出现在路边，才能再次得到对象的位置信息，极大地限制了图像采集的实时性与精确度。

发明内容

有鉴于此，本申请实施例至少提供一种行为识别方法、装置、设备及存储介质。

本申请实施例的技术方案是这样实现的：

一方面，本申请实施例提供一种行为识别方法，所述方法包括：

对获取的待识别图像进行对象检测，得到所述待识别图像中第一对象的检测信息；

基于所述检测信息和已检测图像集合中的第二属性信息，确定所述第一对象的第一属性信息；其中，所述已检测图像集合中的已检测图像携带画面中的第二对象的第二属性信息；

在所述已检测图像集合和所述待识别图像的图像总帧数达到预设帧数阈值的情况下，基于所述第二属性信息和所述第一属性信息，对所述待识别图像和所述已检测图像集合进行目标行为识别；

响应于识别到所述目标行为，在所述第一对象和所述第二对象中，确定参与所述目标行为的目标对象。

另一方面，本申请实施例提供一种行为识别，所述装置包括：

第一检测模块，用于对获取的待识别图像进行对象检测，得到所述待识别图像中第一对象的检测信息；

第一确定模块，用于基于所述检测信息和已检测图像集合中的第二属性信息，确定所述第一对象的第一属性信息；其中，所述已检测图像集合中的已检测图像携带画面中的第二对象的第二属性信息；

第一识别模块，用于在所述已检测图像集合和所述待识别图像的图像总帧数达到预设帧数阈值的情况下，基于所述第二属性信息和所述第一属性信息，对所述待识别图像和所述已检测图像集合进行目标行为识别；

第二确定模块，用于响应于识别到所述目标行为，在所述第一对象和所述第二对象中，确定参与所述目标行为的目标对象。

再一方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算机设备中运行时，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

又一方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。

本申请实施例中，获取待识别图像之后，首先，对待识别图像进行对象检测，以检测到该待识别图像中第一对象的检测信息；其次，将已检测图像集合中缓存的第二对象的第二属性信息和检测信息相结合，得到该第一对象的第一属性信息；这样，通过检测得到的检测信息和已检测图像集合中缓存的属性信息，为第一对象设定第一属性信息，通过该第一属性信息能够体现待识别图像中的第一对象和已检测图像集合中的第一对象之间的关联，利于后续进行目标行为的识别；再次，对待识别图像进行对象检测之后，判断图像总帧数是否达到预设帧数阈值，如果缓存的图像总帧数达到预设帧数阈值，那么通过第二属性信息和第一属性信息，在待识别图像和已检测图像集合中进行目标行为的识别；这样，通过多帧图像进行目标行为识别，能够减少对目标行为的误判，使得目标行为的识别结果更加准确。最后，如果识别到目标行为，那么在待识别图像和已检测图像集合中的至少两个对象中，确定参与目标行为的目标对象；如此，将目标行为和参与该目标行为的目标对象关联起来，既能够明确参与目标行为的目标对象，还能够提供更加丰富的目标行为与目标对象之间的行为关系。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种行为识别方法的实现流程示意图；

图2为本申请实施例提供的一种行为识别方法的另一实现流程示意图；

图3为本申请实施例提供的一种行为识别方法的又一实现流程示意图；

图4为本申请实施例提供的行为识别方法的另一实现流程示意图；

图5为本申请实施例提供的行为识别方法的再一实现流程示意图；

图6为本申请实施例提供的行为识别方法的另一实现流程示意图；

图7为本申请实施例提供的行为识别方法的另一实现流程示意图；

图8为本申请实施例提供的一种行为识别的组成结构示意图；

图9为本申请实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本申请的技术方案进一步详细阐述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的，不是旨在限制本申请。

在对本申请实施例进行进一步详细说明之前，先对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)计算机视觉，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

2)深度学习，是一种机器学习方法，作为人工神经网络可以根据学习过程中的示例数据来独立地构建(训练)出基本规则。尤其是在机器视觉领域，神经网络通常采用监督式学习的方法来训练，即通过示例数据和示例数据的预定义结果来进行训练。

本申请实施例提供一种行为识别方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1为本申请实施例提供的一种行为识别方法的实现流程示意图，如图1所示，该方法包括如下步骤S101至步骤S104：

步骤S101，对获取的待识别图像进行对象检测，得到所述待识别图像中第一对象的检测信息。

在一些实施例中，待识别图像可以是通过采集设备对画面进行采集得到的或对采集的视频流进行解码得到的视频帧，还可以是接收到的其他设备发送的图像；待识别图像中的画面可以是任意场景下的画面，可以是背景复杂的图像，还可以是背景简单的图像。在一些可能的实现方式中，待识别图像的获取可以是与目标行为相关联的，即获取的待识别图像是在可能发生目标行为的场景下的图像。待识别图像可以是在当前已缓存的已检测图像帧数不满足预设帧数阈值的情况下获取的。在一些可能的实现方式中，目标行为是上下车行为，那么待识别图像为交通场景下的图像；目标行为是进出大厦的行为，那么待识别图像为针对该大厦的出入口进行采集的图像等。

在一些实施例中，待识别图像中第一对象的类型可以是基于目标行为确定的，参与该目标行为所需的对象即对象。待识别图像中的第一对象可以是一个对象或者多个对象；比如，目标行为是上下车行为，那么第一对象为可能参与上下车行为的乘客、车辆等。在一些可能的实现方式中，首先，获取待识别图像，然后，对待识别图像进行对象检测，最后，通过检测框对检测到的第一对象进行标记，并将检测框的位置信息以及尺寸信息作为检测信息。这样，检测信息中包括：第一对象的检测框在待识别图像中的坐标以及该检测框在待识别图像中占据的图像区域的大小。

在一些可能的实现方式中，通过将待识别图像输入到训练好的深度神经网络(比如，视网膜网络(RetinaNet))中进行对象检测，该训练好的深度神经网络可以是通过大量的画面包括第一对象的图像进行训练得到的。通过该深度神经网络对待识别图像进行对象检测，能够得到待识别图像中所有可能为第一对象的疑似对象；之后，通过确定每一个疑似对象的置信度，对多个疑似对象进行筛选，得到置信度较大且不重叠的第一对象；这样，使得待识别图像中标记的第一对象是清晰的，无重叠的，提高了对象检测的准确度。

步骤S102，基于所述检测信息和已检测图像集合中的第二属性信息，确定所述第一对象的第一属性信息。

在一些实施例中，已检测图像集合包括携带画面中第二对象的第二属性信息的已检测图像，已检测图像集合中的已检测图像为时序连续的多帧图像；第二对象与第一对象相同或不同。待识别图像可以是与已检测图像集合中的图像在时序上连续的图像，比如，待识别图像与已检测图像集合中时序最后的一帧图像连续。每一已检测图像中均包括该已检测图像中检测到的第二对象以及该第二对象的属性信息，即第二属性信息。

在一些实施例中，已检测图像集合中的第二属性信息包括每一已检测图像中第二对象的属性信息，其中，第二对象的第二属性信息用于表征该第二对象的标识以及该第二对象在所属图像中的位置。比如，第二对象的第二属性信息包括该第二对象在所属图像中的检测信息以及能够唯一表示该第二对象的标识信息，该标识信息可以是对每一个第二对象标记的标识号(identity，id)。

在一些可能的实现方式中，由于第二属性信息中包括对应第二对象的检测信息，这样，通过待识别图像中第一对象的检测信息以及已检测图像集合中第二对象的检测信息，能够得到待识别图像中第一对象的检测框以及已检测图像集合中第二对象的检测框；通过比较两类检测框内对象之间的相似性，即可确定待识别图像中的第一对象是否在已检测图像集合中存现过；如果相似性较高，那么确定待识别图像中的第一对象在已检测图像集合中存现过，将已检测图像集合中与该第二对象相似性较高的对象的标识作为该第一对象的标识信息；从而通过将该第一对象的标识信息和该第一对象的检测信息相结合，得到该第一对象的属性信息，即第一属性信息。

步骤S103，在所述已检测图像集合和所述待识别图像的图像总帧数达到预设帧数阈值的情况下，基于所述第二属性信息和所述第一属性信息，对所述待识别图像和所述已检测图像集合进行目标行为识别。

在一些实施例中，对待识别图像进行检测完成，确定该待识别图像中第一对象的第一属性信息之后，判断已检测图像集合中当前已缓存的已检测图像以及待识别图像的图像总帧数。如果该图像总帧数达到预设帧数阈值，那么进行对当前已经检测的待识别图像以及已检测图像集合中的图像进行目标行为识别。如果该图像总帧数未达到预设帧数阈值，那么将该待识别图像以及对应的第一对象的第一属性信息加入已检测图像集合中，并继续获取下一帧待识别图像进行对象检测，直到已检测图像集合中缓存的图像总帧数达到预设帧数阈值，进行目标行为识别。其中，预设帧数阈值可以是用户自定义设置的，还可以是通过分析多次目标行为识别结果的准确度按照经验值设定的，比如，可以将预设帧数阈值设置为7，这样，当已检测图像集合中的帧数达到7帧，即对待识别图像以及已检测图像集合中的图像，总共8帧图像进行目标行为识别。

在一些可能的实现方式中，将已检测图像集合中每一图像、每一图像中的第二属性信息、待识别图像以及待识别图像中的第一属性信息，输入到已训练的目标行为识别网络(比如，通过大量已标注目标行为的样本图像训练得到的深度神经网络)中，输出表征是否发生目标行为的向量。通过对该向量进行解析即可得到发生目标行为的置信度，从而根据该置信度的大小，即可确定待识别图像以及已检测图像集合中是否发生目标行为。

在一个具体例子中，以目标行为为上车行为、下车行为为例，所述第一对象包括：第一乘客、第一车辆，所述第二对象包括：第二乘客、第二车辆；这样，在所述已检测图像集合和所述待识别图像的图像总帧数达到预设帧数阈值的情况下，基于所述第一乘客和所述第一车辆的第一属性信息，以及所述第二乘客和所述第二车辆的第二属性信息，在所述已检测图像集合和所述待识别图像中，识别所述上车行为和所述下车行为。

这里，第一乘客和第二乘客可以相同或不同，第一车辆与第二车辆可以相同或不同，通过将携带图像中第二乘客和第二车辆的属性信息的已检测图像，以及携带图像中第一乘客和第一车辆的属性信息的待识别图像输入到训练好的网络中，得到输出向量；之后，将该输出向量输入到分类器中，预测该向量中包括上车行为的置信度，以及包括下车行为的置信度。最后，根据该置信度的大小，即可确定待识别图像以及已检测图像集合中是否发生上车行为或下车行为，通过多帧图像进行上下车行为的识别提高了上下车行为识别的准确度。

步骤S104，响应于识别到所述目标行为，在所述第一对象和所述第二对象中，确定参与所述目标行为的目标对象。

在一些实施例中，如果待识别图像以及已检测图像集合包括目标行为的置信度大于预设置信度阈值，说明在待识别图像以及已检测图像集合中识别到该目标行为。其中，预设置信度阈值可以是基于经验值设定的，比如，设定预设置信度阈值为0.9。

在一些可能的实现方式中，如果识别到该目标行为，那么在待识别图像和已检测图像集合中选择该目标行为所在的关键帧图像，即发生该目标行为的关键帧图像。这样，在该关键帧图像中确定发生该目标行为的包围框，通过对包围框所对应的图像区域进行识别，即可确定参与该目标行为的对象，即目标对象。在一个具体例子中，以目标行为为上下车行为为例，第一对象和第二对象即为乘客或车辆，如果在待识别图像和已检测图像集合中识别到存在上车行为或下车行为，那么在待识别图像和已检测图像集合中的多个车辆以及乘客中，确定出参与该上车行为或下车行为的乘客以及车辆。

在本申请实施例中，通过检测得到的检测信息和已检测图像集合中缓存的属性信息，为第一对象设定第一属性信息，通过该第一属性信息能够体现待识别图像中的第一对象和已检测图像集合中的第二对象之间的关联，利于后续进行目标行为的识别；对待识别图像进行对象检测之后，判断图像总帧数是否达到预设帧数阈值，如果缓存的图像总帧数达到预设帧数阈值，那么通过第二属性信息和第一属性信息，在待识别图像和已检测图像集合中进行目标行为的识别；这样，通过多帧图像进行目标行为识别，能够减少对目标行为的误判，使得目标行为的识别结果更加准确。如果识别到目标行为，那么在待识别图像和已检测图像集合中的至少两个对象中，确定参与目标行为的目标对象；如此，将目标行为和参与该目标行为的目标对象关联起来，既能够明确参与目标行为的目标对象，还能够提供更加丰富的目标行为与目标对象之间的行为关系。

在一些实施例中，在获取待识别图像之前，先统计当前已缓存的已检测图像集合中的图像帧数，如果该图像帧数未达到预设帧数阈值，那么获取待识别图像，进行对象检测之后，缓存在已检测图像集合中，即上述步骤S101之前还包括以下步骤：

第一步，在所述已检测图像集合中的图像帧数未达到所述预设帧数阈值的情况下，获取所述已检测图像集合对应的原始视频流。

这里，如果已检测图像集合中的图像帧数未达到预设帧数阈值，说明当前缓存的已检测图像的帧数还不够用于进行目标行为识别，那么先获取已检测图像集合对应的原始视频流，然后继续从视频流中获取视频帧，并对该视频帧进行检测之后，缓存在已检测图像集合中。该原始视频流可以理解为已检测图像集合对应的原始图像帧所在的视频流，已检测图像集合中的已检测图像对应于该原始视频流中时序连续的视频帧，即通过对这些视频帧进行对象检测即得到已检测图像。

第二步，在所述原始视频流中，确定与所述已检测图像集合中的已检测图像时序连续的待识别的原始视频帧。

这里，通过对原始视频流进行解码，得到多帧视频帧。在这多帧视频帧中包括已检测图像集合对应的已检测的视频帧，以及未检测的视频帧；按照多帧视频帧之间的时序关系，从多帧视频帧中确定与已检测图像时序连续的原始视频帧，即得到该待识别的原始视频帧。

第三步，对所述待识别的原始视频帧进行预处理，得到所述待识别图像。

这里，按照对象检测模型中对图像尺寸的需求，对该原始视频帧进行尺度调整，以及对原始视频帧进行色域转换或图像增强等，得到该待识别图像。这样，在已检测图像集合中的图像帧数未达到预设帧数阈值的情况下，通过在已检测图像集合对应的原始视频流中获取时序与该已检测图像时序连续且位于已检测图像的时序之后的原始视频帧；并通过对该原始视频帧进行预处理，提高了得到的待识别图像的图像质量，而且使得待识别图像能够更好的满足对象检测网络的需求，从而利于提高对待识别图像进行对象检测的准确度。

在一些实施例中，如果当前缓存的图像总帧数未达到预设帧数阈值，那么需要继续将当前识别的待识别图像进行检测之后，缓存到该已检测图像集合中，并同步更新已检测图像集合的帧数，使得在图像总帧数达到预设帧数阈值的情况下，进行目标行为识别，即上述步骤S104之后，还包括以下步骤：

第一步，在所述图像总帧数未达到所述预设帧数阈值的情况下，获取与所述待识别图像时序连续的下一帧图像。

在一些实施例中，如果图像总帧数未达到所述预设帧数阈值，说明当前已缓存的已进行对象检测的图像的帧数还不能够用于进行目标行为识别，需要继续获取下一帧图像，以便于对下一帧图像进行对象识别。该下一帧图像是与待识别图像时序连续，且时序位于待识别图像的时序之后的图像，比如，采集时刻位于该待识别图像的采集时刻之后。在一些可能的实现方式中，待识别图像和该下一帧图像可以是在同一个视频流中，对视频流进行解码之后，得到多帧视频帧，待识别图像和该下一帧图像均为视频帧。获取下一帧图像之后，对该下一帧图像进行对象检测，得到下一帧图像中第一对象的检测信息；并将该检测信息与第二属性信息和第一属性信息相结合，得到该下一帧图像中第一对象的第三属性信息。

第二步，将所述下一帧图像的第三属性信息与所述下一帧图像进行绑定，得到已绑定图像。

在一些实施例中，在所述图像总帧数未达到所述预设帧数阈值的情况下，将所述第三属性信息赋予该下一帧图像。如果当前缓存的图像总帧数如果未达到预设帧数阈值，那么将第三属性信息赋予下一帧图像，即将第三属性信息下一帧图像关联起来。在一些可能的实现方式中，将第三属性信息中各个对象的标识信息以及检测信息，分别赋予该下一帧图像中的对象，这样，实现了将第三属性信息与下一帧图像绑定在一起。

第三步，将所述已绑定图像缓存在所述已检测图像集合中，得到更新后的已检测图像集合。

在一些实施例中，将与第三属性信息绑定的下一帧图像，缓存在已检测图像集合中，并同时统计更新后的图像总帧数；如果更新后的图像总帧数仍然未达到预设帧数阈值，那么继续获取下一帧图像的下一帧图像并进行对象检测，直到当前缓存的已检测的图像帧数达到该预设帧数阈值。

第四步，在所述更新后的已检测图像集合的图像帧数达到所述预设帧数阈值的情况下，基于所述第一属性信息、所述第二属性信息和所述第三属性信息，对所述更新后的已检测图像集合进行目标行为识别。

在一些实施例中，如果更新后的已检测图像集合的图像帧数达到所述预设帧数阈值，基于该更新后的已检测图像集合中缓存的所有图像的属性信息，对该更新后的已检测图像集合中缓存的图像进行目标行为识别。由于该更新后的已检测图像集合中包括：已检测图像集合中的图像、待识别图像以及该待识别图像的下一帧图像，那么通过这些图像的属性信息(即第一属性信息、第二属性信息和第三属性信息)，在该更新后的已检测图像集合中进行目标行为识别，以识别更新后的已检测图像集合中缓存的图像中是否包括目标行为。

上述第一步至第四步，如果当前已缓存的图像总帧数未达到预设帧数阈值，那么继续获取与待识别图像时序连续的下一帧图像，并将下一帧图像进行对象检测之后，确定第三属性信息；将该下一帧图像与该图像中对象的第三属性信息进行绑定之后，缓存在该已检测图像集合中；并实时更新图像总帧数，直到图像总帧数达到预设帧数阈值，对缓存的图像进行目标行为识别，从而能够提高目标行为识别的准确度。

在一些实施例中，通过在待识别图像中检测出多个疑似对象，再通过置信度对疑似对象进行筛选，得到第一对象，从而通过融合检测框以及类别信息，得到该对象的检测信息，即上述步骤S101可以通过以下步骤S111至S114(图示未示出)实现：

步骤S111，对所述待识别图像进行疑似对象检测，得到多个疑似对象的检测框。

在一些实施例中，该疑似对象为待识别图像中所有可能为第一对象的个体。比如，目标行为是上车行为，疑似对象可以是疑似发生上车行为的行人或车辆等。在一些可能的实现方式中，将该待识别图像输入到进行对象检测的深度神经网络中，输出每一疑似对象在待识别图像中的检测框，该检测框在待识别图像中的位置以及大小可以通过向量表示。

步骤S112，基于所述多个疑似对象的检测框，确定所述多个疑似对象为所述第一对象的置信度。

在一些实施例中，将该多个疑似对象的检测框对应的向量输入到分类模型中，得到该多个疑似对象为第一对象的置信度，该置信度可以通过分类模型输出的浮点数来表示。这里，分类模型是通过已标记第一对象的样本图像训练得到的，从而通过该分类模型可以确定每一疑似对象为第一对象的可能性。

步骤S113，基于所述置信度，在所述多个疑似对象中选择满足预设条件的所述第一对象。

在一些实施例中，预设条件，可以是该置信度大于预设置信度阈值且检测框之间的重叠度较小。这样，按照每一个疑似对象的置信度，对多个疑似对象中置信度较低的疑似对象进行剔除，之后，再过滤掉检测框重叠度较大的疑似对象，这样，剩余的疑似对象中置信度较高且相互之间重叠度较小，将这样的疑似对象作为第一对象，能够提高检测第一对象的准确度。

步骤S114，基于所述第一对象的检测框和所述第一对象的类别信息，确定所述检测信息。

在一些实施例中，确定第一对象的检测框之后，在待识别图像中能够确定该检测框的坐标以及检测框的尺寸信息；其中，检测框的坐标包括：该检测框的中心坐标、左上角坐标等。检测框的尺寸信息包括该检测框在待识别图像中所占据的图像区域的高和宽。第一对象的类别信息用于表示可能参与目标行为的对象的类别，比如，目标行为是上下车行为，那么第一对象的类型信息包括人员类或者车辆类，这样，通过该类别信息即可得知第一对象是乘客还是车辆。在一些可能的实现方式中，检测信息可以通过向量的形式来表示，比如，该向量包括(类别，坐标，宽，高)。

上述步骤S111至步骤S114，通过对待识别图像进行对象检测，得到所有可能为第一对象的疑似对象；之后，按照每一疑似对象的置信度，从多个疑似对象中筛选出满足预设条件的第一对象，这样，对检测到的疑似对象进行二次筛选，使得到的第一对象更加精准。

在一些实施例中，对于检测到的多个疑似对象，通过置信度筛选以及重叠度的过滤，得到清晰度较高且准确的第一对象，即上述步骤S113可以通过以下步骤实现：

第一步，在所述多个疑似对象中，剔除置信度小于第一置信度阈值的疑似对象，得到多个剩余疑似对象。

在一些实施例中，每一个疑似对象的置信度可以是每一个疑似对象为第一对象的概率，将置信度小于第一置信度阈值的疑似对象进行剔除；这样，就剔除了概率较小的疑似对象，那么剩余的多个疑似对象均是为第一对象的可能性较大的对象。其中，第一置信度阈值可以是基于经验值设定的，比如，设定第一置信度阈值为0.9，这样将置信度小于0.9的疑似对象均剔除，得到剩余的疑似对象。

第二步，确定所述多个剩余疑似对象的检测框之间的重叠度。

在一些实施例中，对于多个剩余疑似对象，确定每至少两个剩余疑似对象的检测框之间的重叠度。在一些可能的实现方式中，在待识别图像中，对于每两个剩余疑似对象，确定这两个剩余疑似对象的检测框之间的交并比，通过该交并比表征这两个剩余疑似对象的之间的重叠度；这样，两个剩余疑似对象的检测框之间的交并比越大说明这两个剩余疑似对象之间的重叠度越大。

第三步，在所述多个剩余疑似对象中，对重叠度大于预设重叠度阈值的至少部分疑似对象进行过滤，得到所述第一对象。

在一些实施例中，重叠度大于预设重叠度阈值说明对应的疑似对象为同一对象的概率较大，因此，如果对重叠的至少两个剩余疑似对象中的至少部分进行过滤。在已经剔除置信度较小的疑似对象的多个剩余疑似对象中，进一步过滤掉彼此之间重叠度较大的剩余疑似对象中的至少部分疑似对象，并且保留其中置信度最大的疑似对象。比如，有三个疑似对象之间的重叠度大于预设重叠度阈值，对这三个疑似对象的置信度进行排序，过滤掉置信度较小的两个疑似对象，将置信度最大的疑似对象作为该第一对象。

在一些可能的实现方式中，对于已剔除置信度较小的疑似对象的多个剩余对象，采用非极大值抑制的方式，过滤掉重叠度较大且置信度不是最大的剩余疑似对象，从而将过滤后的疑似对象作为第一对象。

在本申请实施例中，先在多个疑似对象中剔除置信度较小的疑似对象，得到置信度较大的多个剩余疑似对象，然后通过分析不同剩余疑似对象之间的重叠度，对于重叠度较大的至少两个疑似对象过滤掉其中的至少部分，以得到置信度较高且重叠度较小的疑似对象，如此，将这样的疑似对象作为第一对象，能够提高第一对象与目标行为的契合度，从而便于提高对目标行为进行识别的准确度。

在一些实施例中，对待识别图像进行对象检测，得到第一对象的检测信息之后，进一步进行多目标跟踪，以便于确定第一对象与已检测图像集合中第二对象之间的相似度，进而能够设定第一对象的标识信息，即上述步骤S102可以通过图2所示的步骤实现：

步骤S201，基于所述检测信息和所述第二属性信息，确定所述第一对象与所述已检测图像集合的多个第二对象之间的相似度。

在一些实施例中，已检测图像集合中每一第二对象的第二属性信息中包括该第二对象的检测信息和该第二对象的标识信息。通过该第二属性信息中的检测信息和待识别图像中第一对象的检测信息，能够得到已检测图像集合中第二对象的检测框以及待识别图像中第一对象的检测框；之后，对检测框内的图像进行特征提取，基于提取的特征向量，即可得到待识别图像中第一对象与已检测图像集合中第二对象之间的相似度。比如，该相似度可以是通过确定两个特征向量之间的余弦值来表示相似度，还可以是通过特征距离表示该相似度。还可以是通过两个检测框之间的交并比来表征该相似度，比如，交并比越大两个检测框之间的贴合度更高，进而说明这两个检测框内的对象的相似度越高。还可以是通过两个检测框之间的距离(比如，两个检测框的中心点坐标之间的距离)来表征该相似度，距离越大相似度越低。

步骤S202，基于所述相似度，在所述多个第二对象中查找与所述第一对象匹配的候选对象。

在一些实施例中，按照已检测图像集合中每一第二对象与待识别图像中第一对象之间的相似度，从中选择相似度最高且大于相似度阈值的对象，作为候选对象。

步骤S203，响应于查找到所述候选对象，将所述候选对象的标识信息作为所述第一对象的标识信息。

在一些实施例中，如果已检测图像集合中存在与待识别图像中第一对象相似度大于相似度阈值的对象，即查找到候选对象，进一步说明候选对象与待识别图像中的第一对象很大可能是同一对象，因此，可以将该候选对象在第二属性信息中的标识信息作为第一对象的标识信息。

步骤S204，将所述检测信息和所述标识信息融合，得到所述第一属性信息。

在一些实施例中，将第一对象在待识别图像中的检测信息和该第一对象的标识信息，作为该第一属性信息。在一些可能的实现方式中，可以将该标识信息作为一个维度的元素加入表示该检测信息的向量中，将增加维度后的向量作为第一属性信息；比如，表示该检测信息的向量的形式为：(类别，坐标，宽，高)，在(类别，坐标，宽，高)中增加标识信息，这样得到的向量表达形式为：(标识，类别，坐标，宽，高)；如此，第一属性信息可以通过形如(标识，类别，坐标，宽，高)的向量来表示。

在本申请实施例中，将待识别图像输入到进行对象检测的网络中，得到第一对象的检测信息之后，按照该检测信息分析第一对象与已检测图像集合中第二对象之间的相似度，并通过相似度在已检测图像集合的第二对象中查找与匹配的候选对象，以对该第一对象设定标识信息，这样，实现了多目标跟踪，通过第一对象的标识信息即可进一步获得该第一对象的活动轨迹；这样，即使待识别图像在对象检测过程中没有准确检测到任一第一对象，但是通过多目标跟踪，依旧可以得到图像中参与目标行为的目标对象在图像可能的位置，从而提高了获得第一对象的活动轨迹的稳定性。

在一些实施例中，通过不同的图像特征之间的特征相似度以及不同对象的检测框之间的交并比，得到不同对象之间的相似度，即上述步骤S201可以通过以下步骤S211至S214(图示未示出)实现：

步骤S211，基于所述检测信息和所述第二属性信息，分别对所述待识别图像和所述已检测图像集合进行特征提取，得到待识别图像特征和已检测图像特征。

在一些实施例中，通过该检测信息以及已检测图像集合中每一图像中第二对象的第二属性信息，能够得到每一第二对象在所属图像中的检测框；之后，通过对检测框所在区域进行特征提取，即可得到待识别图像特征，以及每一已检测图像的已检测图像特征。在一些可能的实现方式中，可以是将已检测后的图像，即标记有第二对象的检测框的图像输入到神经网络(比如，卷积神经网络或残差神经网络等)中，通过该神经网络对检测框内的第二对象进行特征提取；这样，提到的待识别图像特征和已检测图像特征能够表示对应的第二对象。

步骤S212，确定所述待识别图像特征和所述已检测图像特征之间的特征相似度。

在一些实施例中，确定待识别图像特征与每一帧已检测图像的已检测图像特征之间的相似度。通过确定两个图像特征的向量之间的距离，或者两个图像特征的向量之间的角度，来表示该相似度；这样，两个特征的向量之间的距离越小，说明两个图像特征越相似；两个图像特征的向量之间的角度越小，说明两个图像特征越相似。

步骤S213，确定所述第一对象的检测框和所述多个第二对象的检测框之间的交并比。

在一些实施例中，通过已检测图像集合中每一已检测图像中第二对象的第二属性信息，能够得到第二属性信息中每一第二对象的检测框；这样，能够确定待识别图像中第一对象的检测框与每一已检测图像中第二对象的检测框之间的交并比，通过该交并比能够表征两个对象的相似度。

步骤S214，基于所述特征相似度和/或所述交并比，得到所述第一对象与所述多个第二对象之间的相似度。

在一些实施例中，采用特征相似度和检测框的交并比中的至少之一，表示待识别图像中第一对象与每一已检测图像中第二对象之间的相似度，能够更加精确地分析不同对象之间的相似度。

上述步骤S211至S214，通过分别对待识别图像和已检测图像集合中的每一帧图像进行特征提取，得到特征相似度；以及，不同对象的检测框之间的交并比；这样，通过特征相似度和交并比中的至少之一表征不同对象之间的相似度，能够实现多方面且多维度地分析不同图像中对象之间的相似度。

在一些实施例中，如果已检测图像集合中的第二对象不存在第一对象，那么将新的预设标识信息赋予该待识别图像中的第一对象，即在上述步骤S202之后，还包括以下步骤：

第一步，响应于未查找到所述第一对象，获取用于标识所述第一对象的预设标识信息。

这里，预设标识信息与所述多个第二对象的标识信息不同。如果在已检测图像集合的多个第二对象中不存在与待识别图像中第一对象相似度较高的对象，说明该待识别图像中的第一对象还未被检测到过，即未被缓存过包括该第一对象的已检测图像。对于未匹配到第一对象的第一对象，重新获取一个与当前已经用过的标识信息不同的预设标识信息，即获取新的标识信息。

第二步，将所述预设标识信息和所述检测信息融合，得到所述第一属性信息。

这里，将获取的新的标识信息，即预设标识信息赋予待识别图像中第一对象，作为能够唯一表示该第一对象的标识。将该预设标识信息加入到检测信息中，得到该第一属性信息。比如，将预设标识信息作为向量中一个维度上的元素加入到表示检测信息的向量中，得到的新的向量即为第一属性信息。

上述第一步和第二步，在已检测图像集合中的第二对象中未匹配到第一对象的情况下，获取已检测图像集合中不存在的预设标识信息，并将该预设标识信息赋予第一对象；这样，对于未缓存过的第一对象，赋予新的预设标识信息，便于通过包括预设标识信息的第一属性信息丰富缓存的属性信息。

在一些实施例中，通过第二属性信息和第一属性信息，分析已检测图像集合以及待识别图像中发生目标行为的置信度，进而判断已检测图像集合以及待识别图像中是否存在该目标行为，即上述步骤S103可以通过以下步骤S131和S132(图示未示出)实现：

步骤S131，基于所述第二属性信息和所述第一属性信息，确定所述已检测图像集合和所述待识别图像中包括所述目标行为的置信度。

在一些实施例中，将每一已检测图像中的第二属性信息和待识别图像中的第一属性信息输入到进行目标行为识别的深度神经网络中，该深度神经网络输出表征已检测图像和待识别图像中发生的行为的输出向量；之后，将该输出向量输入到已训练的目标行为分类网络中，该分类网络对输出向量中的行为是否属于目标行为进行预测，得到两个浮点数；其中，一个浮点数表征该输出向量中的行为是目标行为的概率(即包括目标行为的置信度)，另一个浮点数表征该输出向量中的行为不是目标行为的概率。

在一些可能的实现方式中，可以是得到每一帧图像(即每一帧已检测图像以及待识别图像)中包括目标行为的置信度，这样就得到多个置信度；还可以是已检测图像集合和待识别图像作为以整体来看，包括目标行为的置信度，这样得到一个置信度。

步骤S132，基于所述置信度和第二置信度阈值，确定在所述已检测图像集合和所述待识别图像中是否识别到所述目标行为。

在一些实施例中，得到包括目标行为的置信度之后，通过判断置信度与第二置信度阈值之间的大小关系，能够确定在已检测图像集合以及待识别图像中是否发生目标行为。如果置信度大于第二置信度阈值，确定识别到目标行为；如果置信度小于第二置信度阈值，确定未识别到目标行为。第二置信度阈值可以和第一置信度阈值相同或不同，也可以是基于经验值设定的，比如，设定第二置信度阈值为0.95，这样，置信度大于0.95的情况下，即确定在已检测图像集合和待识别图像中发生目标行为。如此，通过分析待识别图像中第一属性信息与每一已检测图像中的第二属性信息，能够预测已检测图像集合和待识别图像中发生目标行为的可能性，进而通过可能性的大小，能够精确确定是否发生目标行为。

在一些实施例中，在识别到有目标行为之后，从已检测图像集合和待识别图像中查找出包括该目标行为的关键帧图像，从而识别参与该目标行为的目标对象，即上述步骤S104可以通过图3所示的步骤实现：

步骤S301，响应于识别到所述目标行为，在所述第一对象所属的所述待识别图像和所述第二对象所属的已检测图像中，确定与所述目标行为匹配的关键帧图像。

在一些实施例中，识别到目标行为之后，在当前已缓存的待识别图像和已检测图像中，查找出画面包括该目标行为的关键帧图像，即目标行为匹配的关键帧图像。

在一些可能的实现方式中，该关键帧图像的选择方式可以包括以下两种：

一是，将已检测图像集合和待识别图像中包括目标行为的置信度最高的图像作为关键帧图像。

这里，如果确定的置信度是每一图像包括目标行为的可能性，那么从中选择置信度最高的图像，该图像可能是待识别图像也可能是已检测图像，将该置信度最高的图像作为关键帧图像，能够使得通过关键帧图像识别出的目标对象更加准确。

二是，将已检测图像集合和所述待识别图像中时序位置满足预设位置的图像作为关键帧图像。

这里，所述已检测图像集合中的已检测图像和所述待识别图像之间时序连续，这样可以是将时序位置满足预设位置的图像作为该关键帧图像。该预设位置可以是基于已检测图像集合的数量设定的，比如，将预设位置设置为中间位置、已检测图像集合的数量中前三分之一时序的位置或已检测图像集合的数量中前五分之三时序的位置等比如，将已检测图像集合和待识别图像中时序位于中间位置的图像作为关键帧图像。在一些可能的实现方式中，如果确定的置信度是表示已检测图像集合和待识别图像整体包括目标行为的可能性，那么将时序位置满足预设位置的图像作为该关键帧图像。这样，将时序位置满足预设位置的图像作为关键帧图像，既能够快速定位关键帧图像还能够提高定位的关键帧图像的准确度。

步骤S302，将所述关键帧图像中的检测框包围的关键对象，确定为目标对象。

在一些实施例中，关键对象包括第一对象或第二对象。如果关键帧图像是待识别图像，那么关键对象即为该待识别图像中的第一对象；如果关键帧图像为已检测图像集合中的已检测图像，那么关键对象即为该已检测图像中的第二对象。在该关键帧图像包括至少一个检测框，那么检测框中包括的关键对象即为参与该目标行为的目标对象。比如，如果目标行为是上车行为，那么确定包括该上车行为的关键帧图像之后，将该关键图像的检测框中包围的乘客和车辆，作为目标对象。

上述步骤S301和S302，在识别到目标行为之后，从当前的已检测图像以及待识别图像中，选择出包括该目标行为的关键帧图像；并且通过该关键帧图像中的检测框所包围的对象，可得到参与该目标行为的目标对象，进而建立目标行为与目标对象之间的行为关系，这样，能够非常明确的体现出目标对象所参与的行为，以提供该目标对象更加丰富的活动信息。

在一些实施例中，从第一对象和第二对象确定出目标对象之后，进一步确定该目标行为的类别从而建立并输出目标行为的类别和目标对象之间的行为关系，即上述步骤S302之后，还包括以下步骤S303至S305(图示未示出)实现：

步骤S303，基于所述关键帧图像中关键对象对应的属性信息，对所述关键对象进行特征提取，得到对象特征。

在一些实施例中，将已标注关键对象对应的属性信息的关键帧图像，输入到特征提取网络(该特征提取网络还可以是分类网络中的一个特征提取模块)中，对该关键帧图像中关键对象所在的区域进行特征提取，得到表征该关键对象的向量，即对象特征。

步骤S304，将所述对象特征与已标注目标行为类别的预设图像库进行比对，得到所述目标行为的类别。

在一些实施例中，已标注目标行为类别的预设图像库，包括多帧具有目标行为的类别标签的图像。比如，目标行为是上下车行为，那么预设图像库包括多帧已标注上车行为或已标注下车行为的交通图像。在一些可能的实现方式中，通过对预设图像库进行特征提取，将提取到的预设图像特征与该对象特征进行比对，从中选择出相似度最高的图像特征；将该相似度最高的图像特征所标记的类别即为该对象特征所属的目标行为的类别。

步骤S305，将所述目标行为的类别和目标对象进行绑定并输出。

在一些实施例中，将该目标行为的类别与参与该目标行为的目标对象进行绑定，以建立目标行为的具体类别与参与的目标对象之间的行为关系，并且将该行为关系输出给用户，以使得用户能够获得目标对象更为丰富的活动行为。

在一个具体例子中，如果目标行为是上车行为或下车行为，那么通过将该对象特征与已标注目标行为类别的预设图像库进行比对，如果比对到的图像中标注的类别为上车行为，那么确定该目标行为的类别即为上车行为。

在本申请实施例中，通过对关键对象进行特征提取，将提取的对象特征与已标注目标行为类别的预设图像库进行比对，从而能够精确比对出目标行为的类别，进而输出目标对象以及该目标对象参与的具体的目标行为的类别，从而能够提供更加详细的目标对象的活动情况，以便于用户能够对该目标对象进行有针对性地管理。

下面说明本申请实施例提供的行为识别方法在实际场景中的应用，以针对行人的上下车行为进行识别为例进行说明。

本申请实施例提供一种行为识别方法，利用深度学习框架进行行人上下机动车的行为识别，通过深度神经网络的强大描述能力，精确识别出行人上下车动作的发生。而且在识别出行人上下车动作发生的同时，区分出当前的动作是上车还是下车。其中，识别出动作发生的主体，即对应的人体与机动车；如此，能将对象以及对象乘坐的交通工具进行关联，即可用交通工具的轨迹来延伸人的轨迹，将对象最新的出现时间连接到对应机动车的最新出现时间，提高图像采集的实时性与精确度。通过对这种行为的识别，将对象与机动车关联起来，车的移动轨迹即为对象的移动轨迹。

图4为本申请实施例提供的行为识别方法的另一实现流程示意图，结合图4所示的步骤进行以下说明：

步骤S401，对获取的采集视频，进行解码以及预处理，得到待识别图像。

在一些实施例中，采集视频来自于用户提供的摄像头采集的视频流，需要根据对应的编码协议进行解码，得到对应的图像帧。为了使得图像帧可以输入到深度神经网络中，需要对图像帧进行预处理，包括：色域转换，图像增强以及图像缩放等(缩放后的图像大小等于深度神经网络要求的输入大小)。

步骤S402，对待识别图像进行人体和机动车的检测，得到检测信息。

在一些实施例中，检测信息，包括：人体的坐标和机动车的坐标。基于残差深度神经网络(RetinaNet)，使用大量的人体以及机动车图像数据进行训练，得到对应的检测模型。在实际运行时，可以通过图5所示的步骤实现：

步骤S501，将待识别图像输入到检测模型，输出结果向量。

这里，将预处理后的待识别图像输入到残差深度神经网络中，对该图像中的行人和机动车进行检测，得到多个结果向量。

步骤S502，对检测模型输出的结果向量进行解析，得到表征待识别图像中所有可能的人体以及机动车的疑似对象。

步骤S503，采用置信度阈值对疑似对象进行判断。

这里，先确定每一疑似对象的置信度，再通过置信度阈值对表征每一个人体的疑似对象以及表征机动车的疑似对象进行筛选。将置信度低于置信度阈值的疑似对象去除，即如果疑似对象的置信度小于置信度阈值，进入步骤S504。如果该疑似对象的置信度大于置信度阈值，进入步骤S505。

步骤S504，如果疑似对象的置信度小于置信度阈值，抛弃该疑似对象。

步骤S505，如果疑似对象的置信度大于置信度阈值，采用非极大值抑制算法，过滤检测框的重叠度较大的疑似对象。

这里，得到置信度大于置信度阈值的疑似对象之后，将检测框与该对象信息中检测框之间重叠度较大的疑似对象进行过滤。比如，将重叠度大于一定阈值的对象信息进行过滤，该阈值可以是依据经验值设定的，比如，设定阈值为90％，这样，如果任一疑似对象的检测框与置信度大于预设阈值的疑似对象的检测框之间的重叠度大于90％，那么删除该任一疑似对象。

步骤S506，输出对疑似对象进行过滤后的第一对象的检测信息。

这里，该检测信息以形如[label，left，top，width，height]的向量形式进行输出；其中，label代表第一对象的种类，用于区分第一对象的类别；left和top分别为第一对象的检测框的左上角在待识别图像中的像素坐标；width和height分别为第一对象在待识别图像中的宽高信息。

步骤S403，基于检测信息，确定第一对象的标识信息。

在一些实施例中，第一对象包括：人体和机动车。通过对图像中的人体目标以及机动车目标进行多目标跟踪，以确定当前图像帧每个人体以及机动车的id信息，从而能够明确是哪一个人体执行了上下机动车动作，被执行的机动车是哪一辆。

在一些可能的实现方式中，对检测信息中的人体与机动车的多目标跟踪，可以采用的是SORT多目标跟踪算法实现多目标跟踪；如图6所示，结合图6所示的步骤进行以下说明：

步骤S601，获取缓存的检测信息。

这里，在历史时刻，对历史的待识别图像进行检测得到检测信息，并将这些检测信息进行缓存。

步骤S602，确定待识别图像中的检测信息与缓存的检测信息之间的相似度，得到相似度矩阵。

这里，将当前帧的待识别图像的检测信息与之前缓存的检测信息进行两两比对，得到两两之间的相似分数即相似度矩阵。该相似分数取决于两个比对第一对象的像素面积，第一对象的中心像素坐标以及交并比；其中，像素面积越相近，分数越高；第一对象的中心的像素坐标越相近，则分数越高；交并比越大，分数越高。

步骤S603，基于该相似度矩阵，将待识别图像中的第一对象与缓存的第二对象进行匹配，得到匹配关系。

这里，使用二分图匹配算法(如，KM算法或者最小费用最大流算法)，通过分析相似度矩阵，得到待识别图像中的第一对象与缓存的第二对象的匹配关系。

步骤S604，判断该匹配关系是否匹配成功。

这里，如果该匹配关系表征待识别图像中的第一对象与缓存的第二对象匹配成功，进入步骤S605；如果未匹配成功，进入步骤S606。

步骤S605，将待识别图像中的第一对象的标识信息改为匹配的缓存第一对象的标识信息，并对该待识别图像中的第一对象的检测信息进行更新。

这里，对于匹配成功的待识别图像中的第一对象，该第一对象的id为匹配的历史缓存中第一对象的id。

步骤S606，对待识别图像中的第一对象分配新的标识信息，并加入缓存。

这里，匹配失败的待识别图像中的第一对象，则为该第一对象分配一个新的唯一id，并存储到历史缓存中。将赋予了新的标识信息之后的第一对象加入缓存之后，返回到步骤S601，作为历史缓存，以便于匹配后续采集到的图像中的第一对象。

这里，对于待识别图像的每个第一对象，输出该第一对象的相关信息，以[id，label，left，top，width，height]的向量形式进行输出；其中，id为待识别图像中第一对象的唯一标识信息，label代表第一对象的种类，用于区分第一对象的类别，left和top分别为第一对象的左上角在待识别图像中的像素坐标，width和height分别为第一对象在待识别图像中的宽高信息。

步骤S404，基于待识别图像、第一对象的标识信息以及检测信息，在多个第一对象中，确定上下车行为涉及的目标对象。

在一些实施例中，采用深度神经网络识别行人上下车行为，深度神经网络的输入为当前8帧图像帧序列以及每帧图像对应的人体以及机动车的标识信息和对象信息；输出为第一对象中上下车行为涉及的目标对象。

在一些可能的实现方式中，可以通过图7所示的方式确定目标对象，结合图7所示的步骤进行以下说明：

步骤S701，获取连续的多帧图像、多个第一对象的标识信息以及检测信息。

步骤S702，确定连续的多帧图像的帧数是否达到8帧。

这里，如果连续的多帧图像的帧数达到8帧，将这8帧图像输入深度神经网络，进入步骤S703；如果连续的多帧图像的帧数未达到8帧，返回步骤S701。

步骤S703，将缓存的8帧图像输入到深度神经网络中，得到输出类别向量。

步骤S704，解析输出类别向量，得到每帧图像中第一对象发生上下车行为的置信度，将置信度最高且高于置信度阈值的图像帧作为关键图像帧。

步骤S705，基于该关键帧图像的输出类别向量进行行为识别，确定所述关键帧图像中的行为类别以及发生该行为类型的目标对象。

这里，根据该关键帧图像的输出类别向量，推断出关键帧图像中的行为类别，即该行为类别是上车行为还是下车行为；对该输出类别向量进行解析得到行为发生的最小包围框；将位于最小包围框内的人体以及机动车作为参与行为的目标对象，最后输出行为关系。

在一些具体例子中，在实时的图像采集场景中，通过识别行人的上下车行为，将人与机动车联系起来，达到用机动车的轨迹延伸人的轨迹，将采集对象最新出现时间推进到车的最新出现时间，从而能够实时获取对象的轨迹。

在本申请实施例中，首先，获取视频流，对视频流进行解码，得到对应的图像帧，并进行预处理；然后，将待识别图像输入深度神经网络，进行行人以及机动车检测，得到每个行人以及机动车在图像中的具体位置；并对检测到的人体以及机动车使用跟踪算法，得到每个人体以及机动车的id；这样，通过进行对象检测以及多目标跟踪，可以明确出参与行为的目标对象。最后，将该帧图像、对应的人体以及机动车信息进行缓存，如果缓存的图像以及检测跟踪结果达到8帧，将8帧图像以及检测跟踪结果输入至深度神经网络，得到网络输出类别向量，解析输出类别向量，判断当前是否发生上下车行为。这样，利用深度神经网络进行建模，得益于该网络强大的描述能力，能更加精确地识别出来上下车行为，且后续更加容易进行结果纠错与再学习；而且利用多帧图像序列作为输入，引入时序信息，极大地减少误判，提升行为识别的准确率。

基于前述的实施例，本申请实施例提供一种行为识别装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central ProcessingUnit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

图8为本申请实施例提供的一种行为识别装置的组成结构示意图，如图8所示，行为识别装置800包括：

第一检测模块801，用于对获取的待识别图像进行对象检测，得到所述待识别图像中第一对象的检测信息；

第一确定模块802，用于基于所述检测信息和已检测图像集合中的第二属性信息，确定所述第一对象的第一属性信息；其中，所述已检测图像集合中的已检测图像携带画面中的第二对象的第二属性信息；

第一识别模块803，用于在所述已检测图像集合和所述待识别图像的图像总帧数达到预设帧数阈值的情况下，基于所述第二属性信息和所述第一属性信息，对所述待识别图像和所述已检测图像集合进行目标行为识别；

第二确定模块804，用于响应于识别到所述目标行为，在所述第一对象和所述第二对象中，确定参与所述目标行为的目标对象。

在一些实施例中，所述第一检测模块801，包括：第一检测子模块，用于对所述待识别图像进行疑似对象检测，得到多个疑似对象的检测框；第一确定子模块，用于基于所述多个疑似对象的检测框，确定所述多个疑似对象为所述第一对象的置信度；第一选择子模块，用于基于所述置信度，在所述多个疑似对象中选择满足预设条件的所述第一对象；第二确定子模块，用于基于所述第一对象的检测框和所述第一对象的类别信息，确定所述检测信息。

在一些实施例中，所述第一选择子模块，包括：第一剔除单元，用于在所述多个疑似对象中，剔除置信度小于第一置信度阈值的疑似对象，得到多个剩余疑似对象；第一确定单元，用于确定所述多个剩余疑似对象的检测框之间的重叠度；第一过滤单元，用于在所述多个剩余疑似对象中，对重叠度大于预设重叠度阈值的至少部分疑似对象进行过滤，得到所述第一对象。

在一些实施例中，所述第一确定模块802，包括：第三确定子模块，用于基于所述检测信息和所述第二属性信息，确定所述第一对象与所述已检测图像集合的多个第二对象之间的相似度；第一查找子模块，用于基于所述相似度，在所述多个第二对象中查找与所述第一对象匹配的候选对象；第四确定子模块，用于响应于查找到所述候选对象，将所述候选对象的标识信息作为所述第一对象的标识信息；第一融合子模块，用于将所述检测信息和所述标识信息融合，得到所述第一属性信息。

在一些实施例中，所述第三确定子模块，包括：第一提取单元，用于基于所述检测信息和所述第二属性信息，分别对所述待识别图像和所述已检测图像集合进行特征提取，得到待识别图像特征和已检测图像特征；第二确定单元，用于确定所述待识别图像特征和所述已检测图像特征之间的特征相似度；第三确定单元，用于确定所述第一对象的检测框和所述多个第二对象的检测框之间的交并比；第四确定单元，用于基于所述特征相似度和/或所述交并比，得到所述第一对象与所述多个第二对象之间的相似度。

在一些实施例中，所述装置还包括：第二获取模块，用于响应于未查找到所述候选对象，获取用于标识所述第一对象的预设标识信息；其中，所述预设标识信息与所述多个第二对象的标识信息不同；第一融合模块，用于将所述预设标识信息和所述检测信息融合，得到所述第一属性信息。

在一些实施例中，所述第一识别模块803，包括：第五确定子模块，用于基于所述第二属性信息和所述第一属性信息，确定所述已检测图像集合和所述待识别图像中包括所述目标行为的置信度；第六确定子模块，用于基于所述置信度和第二置信度阈值，确定在所述已检测图像集合和所述待识别图像中是否识别到所述目标行为。

在一些实施例中，所述第二确定模块804，包括：第七确定子模块，用于响应于识别到所述目标行为，在所述第一对象所属的所述待识别图像和所述第二对象所属的已检测图像中，确定与所述目标行为匹配的关键帧图像；第八确定子模块，用于将所述关键帧图像中的检测框包围的关键对象，确定为所述目标对象；其中，所述关键对象包括所述第一对象或所述第二对象。

在一些实施例中，所述装置还包括：第一提取模块，用于基于所述关键帧图像中关键对象对应的属性信息，对所述关键对象进行特征提取，得到对象特征；第一比对模块，用于将所述对象特征与已标注目标行为类别的预设图像库进行比对，得到所述目标行为的类别；第一输出模块，用于将所述目标行为的类别和目标对象进行绑定并输出。

在一些实施例中，所述关键帧图像至少包括以下之一：所述已检测图像集合和所述待识别图像中包括所述目标行为的置信度最高的图像；所述已检测图像集合和所述待识别图像中时序位置满足预设位置的图像。

在一些实施例中，所述装置还包括：第三获取模块，用于在所述图像总帧数未达到所述预设帧数阈值的情况下，获取与所述待识别图像时序连续的下一帧图像；第一绑定模块，用于将所述下一帧图像的第三属性信息与所述下一帧图像进行绑定，得到已绑定图像；第一缓存模块，用于将所述已绑定图像缓存在所述已检测图像集合中，得到更新后的已检测图像集合；第一更新模块，用于在所述更新后的已检测图像集合的图像帧数达到所述预设帧数阈值的情况下，基于所述第一属性信息、所述第二属性信息和所述第三属性信息，对所述更新后的已检测图像集合进行目标行为识别。

在一些实施例中，所述装置还包括：第四获取模块，用于在所述已检测图像集合中的图像帧数未达到所述预设帧数阈值的情况下，获取所述已检测图像集合对应的原始视频流；第三确定模块，用于在所述原始视频流中，确定与所述已检测图像集合中的已检测图像时序连续的待识别的原始视频帧；第一预处理模块，用于对所述待识别的原始视频帧进行预处理，得到所述待识别图像。

在一些实施例中，所述目标行为包括上车行为、下车行为，所述第一对象包括：第一乘客、第一车辆，所述第二对象包括：第二乘客、第二车辆，所述第一识别模块803，还用于：在所述图像总帧数达到预设帧数阈值的情况下，基于所述第一乘客和所述第一车辆的第一属性信息，以及所述第二乘客和所述第二车辆的第二属性信息，在所述已检测图像集合和所述待识别图像中，识别所述上车行为和所述下车行为。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法，对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的行为识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。

本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本申请实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图9为本申请实施例中计算机设备的一种硬件实体示意图，如图9所示，该计算机设备900的硬件实体包括：处理器901、通信接口902和存储器903，其中：

处理器901通常控制计算机设备900的总体操作。

通信接口902可以使计算机设备通过网络与其他终端或服务器通信。

存储器903配置为存储由处理器901可执行的指令和应用，还可以缓存待处理器901以及计算机设备900中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。处理器901、通信接口902和存储器903之间可以通过总线904进行数据传输。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种行为识别方法，其特征在于，所述方法包括：

基于所述检测信息和已检测图像集合中的第二属性信息，确定所述第一对象的第一属性信息；其中，所述已检测图像集合用于缓存已进行对象检测的图像，且已检测图像携带画面中的第二对象的第二属性信息；

2.根据权利要求1所述的方法，其特征在于，所述对获取的待识别图像进行对象检测，得到所述待识别图像中第一对象的检测信息，包括：

对所述待识别图像进行疑似对象检测，得到多个疑似对象的检测框；

基于所述多个疑似对象的检测框，确定所述多个疑似对象为所述第一对象的置信度；

基于所述置信度，在所述多个疑似对象中选择满足预设条件的所述第一对象；

基于所述第一对象的检测框和所述第一对象的类别信息，确定所述检测信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述置信度，在所述多个疑似对象中选择满足预设条件的所述第一对象，包括：

在所述多个疑似对象中，剔除置信度小于第一置信度阈值的疑似对象，得到多个剩余疑似对象；

确定所述多个剩余疑似对象的检测框之间的重叠度；

在所述多个剩余疑似对象中，对重叠度大于预设重叠度阈值的至少部分疑似对象进行过滤，得到所述第一对象。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述检测信息和已检测图像集合中的第二属性信息，确定所述第一对象的第一属性信息，包括：

基于所述检测信息和所述第二属性信息，确定所述第一对象与所述已检测图像集合的多个第二对象之间的相似度；

基于所述相似度，在所述多个第二对象中查找与所述第一对象匹配的候选对象；

响应于查找到所述候选对象，将所述候选对象的标识信息作为所述第一对象的标识信息；

将所述检测信息和所述标识信息融合，得到所述第一属性信息。

5.根据权利要求4所述的方法，其特征在于，所述基于所述检测信息和所述第二属性信息，确定所述第一对象与所述已检测图像集合的多个第二对象之间的相似度，包括：

基于所述检测信息和所述第二属性信息，分别对所述待识别图像和所述已检测图像集合进行特征提取，得到待识别图像特征和已检测图像特征；

确定所述待识别图像特征和所述已检测图像特征之间的特征相似度；

确定所述第一对象的检测框和所述多个第二对象的检测框之间的交并比；

基于所述特征相似度和/或所述交并比，得到所述第一对象与所述多个第二对象之间的相似度。

6.根据权利要求4所述的方法，其特征在于，所述基于所述相似度，在所述多个第二对象中查找与所述第一对象匹配的候选对象之后，所述方法还包括：

响应于未查找到所述候选对象，获取用于标识所述第一对象的预设标识信息；其中，所述预设标识信息与所述多个第二对象的标识信息不同；

将所述预设标识信息和所述检测信息融合，得到所述第一属性信息。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述在所述已检测图像集合和所述待识别图像的图像总帧数达到预设帧数阈值的情况下，基于所述第二属性信息和所述第一属性信息，对所述待识别图像和所述已检测图像集合进行目标行为识别，包括：

基于所述第二属性信息和所述第一属性信息，确定所述已检测图像集合和所述待识别图像中包括所述目标行为的置信度；

基于所述置信度和第二置信度阈值，确定在所述已检测图像集合和所述待识别图像中是否识别到所述目标行为。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述响应于识别到所述目标行为，在所述第一对象和所述第二对象中，确定参与所述目标行为的目标对象，包括：

响应于识别到所述目标行为，在所述第一对象所属的所述待识别图像和所述第二对象所属的已检测图像中，确定与所述目标行为匹配的关键帧图像；

将所述关键帧图像中的检测框包围的关键对象，确定为所述目标对象；其中，所述关键对象包括所述第一对象或所述第二对象。

9.根据权利要求8所述的方法，其特征在于，所述将所述关键帧图像中的检测框包围的关键对象，确定为所述目标对象之后，所述方法还包括：

基于所述关键帧图像中关键对象对应的属性信息，对所述关键对象进行特征提取，得到对象特征；

将所述对象特征与已标注目标行为类别的预设图像库进行比对，得到所述目标行为的类别；

将所述目标行为的类别和目标对象进行绑定并输出。

10.根据权利要求8或9所述的方法，其特征在于，所述关键帧图像至少包括以下之一：

所述已检测图像集合和所述待识别图像中包括所述目标行为的置信度最高的图像；

所述已检测图像集合和所述待识别图像中时序位置满足预设位置的图像。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述基于所述检测信息和已检测图像集合中的第二属性信息，确定所述第一对象的第一属性信息之后，所述方法还包括：

在所述图像总帧数未达到所述预设帧数阈值的情况下，获取与所述待识别图像时序连续的下一帧图像；

将所述下一帧图像的第三属性信息与所述下一帧图像进行绑定，得到已绑定图像；

将所述已绑定图像缓存在所述已检测图像集合中，得到更新后的已检测图像集合；

在所述更新后的已检测图像集合的图像帧数达到所述预设帧数阈值的情况下，基于所述第一属性信息、所述第二属性信息和所述第三属性信息，对所述更新后的已检测图像集合进行目标行为识别。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述对获取的待识别图像进行对象检测，得到所述待识别图像中第一对象的检测信息之前，所述方法还包括：

在所述已检测图像集合中的图像帧数未达到所述预设帧数阈值的情况下，获取所述已检测图像集合对应的原始视频流；

在所述原始视频流中，确定与所述已检测图像集合中的已检测图像时序连续的待识别的原始视频帧；

对所述待识别的原始视频帧进行预处理，得到所述待识别图像。

13.根据权利要求1至12任一项所述的方法，其特征在于，所述目标行为包括上车行为、下车行为，所述第一对象包括：第一乘客、第一车辆，所述第二对象包括：第二乘客、第二车辆，所述在所述已检测图像集合和所述待识别图像的图像总帧数达到预设帧数阈值的情况下，基于所述第二属性信息和所述第一属性信息，对所述待识别图像和所述已检测图像集合进行目标行为识别，包括：

在所述图像总帧数达到预设帧数阈值的情况下，基于所述第一乘客和所述第一车辆的第一属性信息，以及所述第二乘客和所述第二车辆的第二属性信息，在所述已检测图像集合和所述待识别图像中，识别所述上车行为和所述下车行为。

14.一种行为识别装置，其特征在于，包括：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至13任一项所述方法中的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至13任一项所述方法中的步骤。