CN115588239A

CN115588239A - 交互行为识别方法、装置、设备及存储介质

Info

Publication number: CN115588239A
Application number: CN202211469700.6A
Authority: CN
Inventors: 朱强; 冯雪涛; 王炎
Original assignee: Zhejiang Lianhe Technology Co ltd
Current assignee: Zhejiang Shenxiang Intelligent Technology Co ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-01-10
Anticipated expiration: 2042-11-22
Also published as: CN115588239B

Abstract

本申请实施例提供一种交互行为识别方法、装置、设备及存储介质。在本申请实施例中，能够从至少一个交互视频中提取至少两个交互对象的交互行为特征，所述交互行为特征包括行人重识别特征、朝向特征和轨迹特征；通过定位传感器获取所述至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，所述定位传感器设置于所述指定交互对象上；基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化；基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为。

Description

交互行为识别方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种交互行为识别方法、设备及存储介质。

背景技术

目前，对于线下零售行业来说，顾客购物体验的好坏很大程度上往往取决于顾客进店后店员的服务响应快慢、顾客逛店过程中店员对在售商品的介绍等店员的线下服务情况。优质的线下服务通常能够有效提升顾客进店后的购物转化率，提升店铺营收。互联网应用、实体门店的物联网技术、人工智能以及自动化技术相融合的数字化门店应运而生。为提高店员的服务水平，这类门店可结合计算机视觉技术从门店的监控视频中对店员为顾客提供的线下服务进行识别，以进行相关的服务评价。

然而，由于店员的着装甚至表情通常都是比较相似的，那么在通过计算机视觉技术识别店员身份时容易出错，这就导致在后续对店员和顾客之间的交互行为的识别准确率较低。

发明内容

本申请的多个方面提供一种交互行为识别方法、装置、设备及存储介质，用以准确识别店员与顾客之间的交互行为。

本申请实施例提供一种交互行为识别方法，包括：从至少一个交互视频中提取至少两个交互对象的交互行为特征，所述交互行为特征包括行人重识别特征、朝向特征和轨迹特征；通过定位传感器获取所述至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，所述定位传感器设置于所述指定交互对象上；基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化；基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为。

本申请实施例还提供一种交互行为识别装置，包括：提取模块，用于从至少一个交互视频中提取至少两个交互对象的交互行为特征，所述交互行为特征包括行人重识别特征、朝向特征和轨迹特征；获取模块，用于通过定位传感器获取所述至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，所述定位传感器设置于所述指定交互对象上；优化模块，用于基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化；识别模块，用于基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为。

本申请实施例还提供一种电子设备，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，与所述存储器耦合，用于执行所述计算机程序，以用于：从至少一个交互视频中提取至少两个交互对象的交互行为特征，所述交互行为特征包括行人重识别特征、朝向特征和轨迹特征；通过定位传感器获取所述至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，所述定位传感器设置于所述指定交互对象上；基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化；基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被处理器执行时，致使所述处理器实现本申请实施例提供的交互行为识别方法中的步骤。

在本申请实施例中，在从至少一个交互视频中提取至少两个交互对象的交互行为特征，该交互行为特征包括行人重识别特征、朝向特征和轨迹特征之后，还可通过设置在指定交互对象上的定位传感器获取至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，并能基于指定交互对象的身份信息和基准轨迹特征，对至少两个交互对象的交互行为特征中的轨迹特征进行优化，以提高各交互对象的轨迹特征和身份信息的准确度，进而使得基于优化后的至少两个交互对象的交互行为特征，识别得到的至少两个交互对象的交互行为也更加准确。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种交互行为识别方法的流程示意图；

图2为本申请示例性实施例提供的交互行为识别方法中交互行为特征的提取流程示意图；

图3为本申请示例性实施例提供的交互行为识别方法中优化指定交互对象的轨迹特征的流程示意图；

图4为本申请示例性实施例提供的交互行为识别方法中交互行为识别模型识别图像中交互行为的流程示意图；

图5为本申请示例性实施例提供的交互行为识别方法应用于一种实际场景的流程示意图；

图6为本申请示例性实施例提供的一种交互行为识别装置的结构示意图；

图7为本申请示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如背景技术中所述，现有的数字化门店中顾客与店员的交互行为的识别方法，通常是通过对监控视频的图像帧进行人体检测、多目标跟踪（Multi-Object Tracking，MOT）、行人重识别（Person Re-Identification，ReID）等方法，实现对店员和顾客的身份识别，然后再通过基于视觉的行为识别算法识别顾客和店员之间的交互行为。然而由于店员的着装甚至表情都比较相似，在通过MOT和ReID等技术识别店员身份时则容易出错，这就导致在后续进行店员和顾客之间的交互行为识别上可能出现错误，比如顾客A是与店员A之间存在交互，而由于店员A和店员B之间的相似度较高，将店员A识别为店员B，这就会导致识别结果出现错误。

针对此，在本申请一些实施例中，在从至少一个交互视频中提取至少两个交互对象的交互行为特征，该交互行为特征包括行人重识别特征、朝向特征和轨迹特征之后，还可通过设置在指定交互对象上的定位传感器获取至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，并能基于指定交互对象的身份信息和基准轨迹特征，对至少两个交互对象的交互行为特征中的轨迹特征进行优化，以提高各交互对象的轨迹特征和身份信息的准确度，进而使得基于优化后的至少两个交互对象的交互行为特征，识别得到的至少两个交互对象的交互行为也更加准确。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种交互行为识别方法的流程示意图。如图1所示，该方法包括：

步骤110，从至少一个交互视频中提取至少两个交互对象的交互行为特征，该交互行为特征包括行人重识别特征、朝向特征和轨迹特征。

其中，至少一个交互视频中的各交互视频可由对应的单镜头采集得到，当至少一个交互视频的数量为多个时，该多个交互视频可由多个单镜头采集得到，应理解，一个单镜头也可采集多个交互视频。本申请实施例提供的交互行为识别方法可应用于数字化门店场景中，该至少两个交互对象可包括店员和顾客，或者，还可应用于车厢监控场景，该至少两个交互对象可包括行窃者和被窃者，或者，还可应用于教学场景，该至少两个交互对象可包括教师和学生等两者之间可能存在交互行为的交互对象。

其中，行人重识别特征为使用行人重识别模型从交互视频中包含有交互对象的检测框的图像帧中提取得到的特征，行人重识别模型通常是以深度神经网络为主体，输出为模型特征层的一维向量，通过优化分类层或对比学习损失层训练，最后以特征层作为输出特征。行人重识别模型可利用计算机视觉技术判断图像或者视频序列中是否存在特定行人，可被认为是用于图像检索的模型，可通过该模型检索到多个单镜头采集的交互视频中某一特定的行人图像。

朝向特征为使用朝向模型从交互视频中包含有交互对象的检测框的图像帧中提取得到的交互对象的朝向特征，该朝向特征可以角度数值来表征。朝向模型可以卷积神经网络为主体架构的回归模型。轨迹特征为将交互视频中包含有同一交互对象的检测框进行关联得到的，用于表征交互对象在交互视频中的位置变化轨迹。

可选地，为便于区分交互视频中的交互对象，可将交互视频中的各图像帧中的交互对象通过检测模型检测出来，并以检测框的形式表征，一个检测框中可包含一个交互对象。具体地，从至少一个交互视频中提取至少两个交互对象的交互行为特征，该交互行为特征包括行人重识别特征、朝向特征和轨迹特征，包括：

从至少一个交互视频中提取至少两个交互对象的检测框；

通过行人重识别模型从至少两个交互对象的检测框中提取至少两个交互对象的行人重识别特征，以及通过朝向识别模型从至少两个交互对象的检测框中提取至少两个交互对象的朝向特征；

将至少两个交互对象的检测框在相机坐标系下的坐标转换为世界坐标系下的坐标，以获取至少两个交互对象的位置信息；

基于至少两个交互对象的行人重识别特征和位置信息，从至少两个交互对象的检测框中提取至少两个交互对象的轨迹特征。

其中，从至少一个交互视频中提取至少两个交互对象的检测框，可通过计算机视觉检测模型，对至少一个交互视频的各图像帧进行检测，获取包含有交互对象的检测框，每个检测框中包含有一个交互对象。计算机视觉检测模型包括但不限于YOLO（一种快速的单阶段目标检测模型），Faster-RCNN（一种两阶段目标检测模型）等检测模型。

作为一种实施方式，将至少两个交互对象的检测框在相机坐标系下的坐标转换为世界坐标系下的坐标，具体可将至少两个交互对象的检测框的下沿中点在相机坐标系下的坐标，经过相机的内外参投影，转换为世界坐标系下的坐标，从而得到各检测框中的交互对象的位置信息。在此基础上，可基于至少两个交互对象的行人重识别特征，将同一交互对象的位置信息进行关联得到该交互对象的位置变化轨迹，进而得到该交互对象的轨迹特征。

可选地，对于一个交互视频中的同一交互对象的轨迹特征，可通过将该交互对象的检测框进行关联，得到其检测框下沿中点坐标的变化轨迹，即可作为该交互对象在该交互视频中的轨迹特征，而对于不同交互视频中的同一交互对象的轨迹特征，则可通过将该交互对象在不同交互视频中的检测框进行关联，得到其检测框下沿中点坐标在不同交互视频中的变化轨迹，即可作为该交互对象在该交互视频中的轨迹特征。具体地，基于至少两个交互对象的行人重识别特征和位置信息，从至少两个交互对象的检测框中提取至少两个交互对象的轨迹特征，包括：

基于至少两个交互对象的行人重识别特征和位置信息，从目标交互视频对应的至少两个交互对象的检测框中分别提取至少两个交互对象的轨迹特征，目标交互视频为至少一个交互视频中的任意一个交互视频；

当至少一个交互视频的数量为多个时，将多个交互视频中的同一交互对象的轨迹特征进行关联，得到至少两个交互对象的轨迹特征。

其中，一个交互视频通常是由一个单镜头采集得到，多个交互视频可由多个单镜头采集得到。当交互视频的数量为多个时，可先获取各交互视频中的MOT结果，具体可基于各交互视频中检测框对应的时间序列，获取各个交互视频中各交互对象的位置变化轨迹，再将多个交互视频中同一交互对象的位置变化轨迹进行关联，即将多个交互视频中的MOT结果进行关联，形成每个交互对象的完整轨迹，从而获取每个交互对象的轨迹特征。其中，关联方法包括但不限于匈牙利匹配算法。

图2为本申请示例性实施例提供的交互行为识别方法中交互行为特征的提取流程示意图。在图2中，交互行为特征的提取流程可包括：s21、从交互视频中提取包含交互对象的检测框；s22、通过ReID模型从检测框中提取交互对象的ReID特征；s23、通过朝向模型从检测框提取交互对象的朝向特征；s24、将检测框下沿中点在相机坐标系中的坐标转换为世界坐标系中的坐标，得到各交互对象的位置信息；s25、基于各交互对象的位置信息和ReID特征，获取各交互对象在多个交互视频中的轨迹特征。

步骤120，通过定位传感器获取至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，定位传感器设置于指定交互对象上。

其中，指定交互对象为至少两个交互对象中相对较为固定的交互对象，以至少两个交互对象中包括店员和顾客为例，对于线下店铺而言，店员通常较为固定，而每天的到店顾客则是随机的，基于此，可将定位传感器设置在店员身上。定位传感器可通过超宽带（Ultra Wide Band，UWB）技术来实现，UWB可提供厘米级精度的低成本定位设备，该定位传感器可内置在店员的工牌中，由店员佩戴在身上。由于定位传感器的定位精度较高，因此可由指定交互对象身上设置的定位传感器获取的轨迹特征作为基准轨迹特征，对步骤110中提取得到的轨迹特征进行优化。指定交互对象的身份信息包含指交互对象的姓名、身份标识等信息，用于唯一标识指定交互对象。

步骤130，基于指定交互对象的身份信息和基准轨迹特征，对至少两个交互对象的交互行为特征中的轨迹特征进行优化。

可选地，为了提高确定的各交互对象的轨迹的准确度，基于指定交互对象的身份信息和基准轨迹特征，对至少两个交互对象的交互行为特征中的轨迹特征进行优化，包括：

从至少两个交互对象中确定与指定交互对象的身份信息相匹配的指定交互对象；

基于指定交互对象的基准轨迹特征，优化至少两个交互对象中指定交互对象的轨迹特征；

基于优化后的指定交互对象的轨迹特征，优化目标交互对象的轨迹特征，目标交互对象为至少两个交互对象中除指定交互对象以外的交互对象。

在通过行人重识别模型从至少两个交互对象的检测框中提取至少两个交互对象的行人重识别特征之后，可基于该特征区分不同的交互对象。然而，对具备统一着装的店员而言，由于店员的妆容、衣着甚至表情都是极为相似的，在这种情况下，则很可能出现识别出现错误的现象。为了解决这一问题，本申请实施例可基于指定交互对象身上设置的定位传感器对指定交互对象的身份进行再次确认，再基于指定交互对象身上设置的定位传感器采集的轨迹，对确认身份后的指定交互对象的轨迹特征进行优化，以提高提取到的轨迹特征的准确率。

应理解，在至少两个交互对象包括店员和顾客的场景中，除店员以外的交互对象通常都为到店顾客，基于此，可将至少两个交互对象中除指定交互对象以外交互对象确认为目标交互对象，以及基于优化后的指定交互对象的轨迹特征，优化目标交互对象的轨迹特征。

可选地，基于优化后的指定交互对象的轨迹特征，优化目标交互对象的轨迹特征，包括：

将优化后的指定交互对象的轨迹特征从至少两个交互对象的轨迹特征中删除，得到剩余轨迹特征；

基于目标交互对象的行人重识别特征和位置信息，从剩余轨迹特征中提取目标交互对象的轨迹特征，目标交互视频为至少一个交互视频中的任意一个交互视频；

当至少一个交互视频的数量为多个时，将多个交互视频中的目标交互对象的轨迹特征进行关联，得到目标交互对象的轨迹特征。

其中，将优化后的指定交互对象的轨迹特征从至少两个交互对象的轨迹特征中删除，具体可将优化后的指定交互对象的轨迹特征从检测到的至少两个交互对象的检测框中删除，得到剩余检测框，再基于目标交互对象的行人重识别特征和位置信息，从剩余检测框中提取目标交互对象的轨迹特征。应理解，由于不同顾客的身高、体重、衣着和动作神态往往都存在一定差异，基于该差异则很容易区分不同顾客，因此，在去除了指定交互对象的检测框进行单镜头下MOT以及多个单镜头下的MOT时，便能较轻松地获取到不同目标交互对象的轨迹特征。

可选地，当存在与基准轨迹特征对应的基准轨迹相似的多条候选轨迹时，可从多条候选轨迹中，取与基准轨迹之间的空间距离最小的候选轨迹作为目标候选轨迹，并将该目标候选轨迹替换为基准轨迹。具体地，基于指定交互对象的基准轨迹特征，优化至少两个交互对象中的指定交互对象的轨迹特征，包括：

从至少两个交互对象的轨迹特征中，确定与指定交互对象的基准轨迹特征之间的相似度大于或等于预设相似度的候选轨迹特征；

若候选轨迹特征对应的轨迹数量为多个，则确定多个候选轨迹特征对应的多条候选轨迹与基准轨迹特征对应的基准轨迹之间的空间距离；

从多个候选轨迹特征对应的多条候选轨迹中，确定与基准轨迹特征对应的基准轨迹之间的空间距离最小的目标候选轨迹；

将目标候选轨迹对应的轨迹特征替换基准轨迹特征，得到优化后的指定交互对象的轨迹特征。

其中，确定多个候选轨迹特征对应的多条候选轨迹与基准轨迹特征对应的基准轨迹之间的空间距离，具体可对每个轨迹等时间间隔抽取多个轨迹坐标，再计算各候选轨迹中的多个轨迹坐标（比如n个轨迹坐标）与基准轨迹中在时间上对应的轨迹坐标之间的距离，得到多个距离比如a1、a2、……、an，再对这多个距离取平均值d=（a1+a2+……+an）/n，便可得到各候选轨迹与基准轨迹之间的空间距离。再从多条候选轨迹中取空间距离最小的候选轨迹，作为目标候选轨迹。

图3为本申请示例性实施例提供的交互行为识别方法中优化指定交互对象的轨迹特征的流程示意图。在图3中，该优化流程可包括：s31、确定与指定交互对象的基准轨迹特征之间的相似度大于或等于预设相似度的多个候选轨迹特征；s32、等时间间隔抽取各轨迹中的轨迹坐标，以确定多个候选轨迹特征对应的多条候选轨迹与基准轨迹特征对应的基准轨迹之间的空间距离；s33、确定与基准轨迹特征对应的基准轨迹之间的空间距离最小的目标候选轨迹；s34、将目标候选轨迹对应的轨迹特征替换基准轨迹特征。

步骤140，基于优化后的至少两个交互对象的交互行为特征，识别至少两个交互对象的交互行为。

可选地，可基于至少两个交互对象的朝向特征对至少两个交互对象进行配对，每对交互对象中包含两个交互对象，在从交互视频中获取包含各配对的交互对象的检测框，以通过交互行为识别模型对该检测框的图像进行识别，判断该图像中是否存在交互行为。具体地，基于优化后的至少两个交互对象的交互行为特征，识别至少两个交互对象的交互行为，包括：

基于优化后的至少两个交互对象的交互行为特征中的朝向特征，从至少两个交互对象中获取至少一个候选交互对象对，其中，一个候选交互对象对中包含两个交互对象；

基于指定交互对象的身份信息，从至少一个候选交互对象对中过滤不包含指定交互对象的候选交互对象对，得到目标交互对象对；

从至少一个交互视频中获取以包含有目标交互对象对的检测框为边界的目标图像；

通过交互行为识别模型识别目标图像中是否存在交互行为，交互行为识别模型为基于多个存在交互行为的图像和多个不存在交互行为的图像以及对应的交互标签训练得到。

其中，交互行为识别模型是一种以深度学习模型为主干网络的分类模型，它是一个时序模型，输入是上述处理后的一组目标图像的图像序列，即一组包含有一个候选交互对象对的检测框图像，输出是一个二分类结果，即是否存在指定交互对象与目标交互对象之间的交互行为，以顾客和店员为例，即输出是否存在顾客与店员的交互行为。

可选地，获取至少一个候选交互对象对可基于两个交互对象是否面对面，或者两个交互对象是否面向同一物体这一特征来获取。具体地，基于优化后的至少两个交互对象的交互行为特征中的朝向特征，从至少两个交互对象中获取至少一个候选交互对象对，包括：

基于优化后的至少两个交互对象的交互行为特征中的朝向特征，从至少两个交互对象中确定朝向存在面对面的至少一个候选交互对象对；和/或

基于优化后的至少两个交互对象的交互行为特征中的朝向特征，从至少两个交互对象中确定朝向指向同一物体的至少一个候选交互对象对。

其中，基于优化后的至少两个交互对象的交互行为特征中的朝向特征，从至少两个交互对象中确定朝向存在面对面的至少一个候选交互对象对，具体可根据实际的场景情况设置空间距离阈值，通过朝向特征判断两个交互对象是否面对面，当两个交互对象之间的空间距离小于空间距离阈值且该两个交互对象的朝向为面对面则认为是这两个交互对象为候选交互行为对象对。而基于优化后的至少两个交互对象的交互行为特征中的朝向特征，从至少两个交互对象中确定朝向指向同一物体的至少一个候选交互对象对，具体也可根据实际的场景情况设置空间距离阈值，通过朝向特征判断两个交互对象是否面对同一物体，当两个交互对象之间的空间距离小于空间距离阈值且该两个交互对象的朝向为面同一物体则认为是这两个交互对象为候选交互行为对象对。

应理解，当基于优化后的至少两个交互对象的交互行为特征中的朝向特征，从至少两个交互对象中确定朝向指向同一物体的至少一个候选交互对象对时，从至少一个交互视频中获取以目标交互对象对的检测框为边界的目标图像，包括：

从至少一个交互视频中，获取以包含有目标交互对象对和对应的物体的检测框为边界的目标图像。

可选地，通过交互行为识别模型识别目标图像中是否存在交互行为，包括：

通过交互行为识别模型中的特征提取模块提取目标图像中的交互行为特征；

通过交互行为识别模型中的特征融合模块对目标图像中的交互行为特征进行特征融合，得到特征融合后的交互行为特征；

通过交互行为识别模型中的分类模块对特征融合后的交互行为特征进行分类，以确定目标图像中是否存在交互行为。

其中，交互行为识别模型包括特征提取模块、特征融合模块和分类模块。其中特征提取模块可对于输入的每一张目标图像使用深度学习模型提取交互行为特征，特征融合模块对于特征提取模块提取的每一组特征使用长短时记忆网络进行融合，得到融合后的交互行为特征，分类模块用于对特征融合后的交互行为特征进行分类，并输出分类结果，即输出是否存在交互行为。

图4为本申请示例性实施例提供的交互行为识别方法中交互行为识别模型识别图像中交互行为的流程示意图。在图4中，交互行为识别模型包括特征提取模块、特征融合模块和分类模块，识别流程包括：s41，特征提取模块提取目标图像中的交互行为特征的特征序列；s42，特征融合模块对目标图像中的交互行为特征进行特征融合，得到融合特征；s43，分类模块对融合特征进行分类，得到分类结果。

图5为本申请示例性实施例提供的交互行为识别方法应用于一种实际场景的流程示意图。在图5中，该实际场景以店员和顾客的交互场景为例，该交互行为识别方法可包括：s51，从交互视频中提取店员与顾客的交互行为特征；s52，通过定位传感器获取店员的身份信息和位置信息；s53，基于店员的身份信息和位置信息，优化顾客和店员的身份信息和轨迹特征；s54，基于优化后的顾客和店员的身份信息和轨迹特征以及朝向特征和行人重识别特征，通过交互行为识别模型识别顾客和店员之间是否存在交互行为。

另外，本实施例提供的方法可应用于任何存在交互行为识别的应用场景中，从至少一个交互视频中提取至少两个交互对象的交互行为特征，结合设置在指定交互对象上的定位传感器获取至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，对至少两个交互对象的交互行为特征进行优化，提高识别得到的至少两个交互对象的交互行为的准确度。

在本申请一些实施例提供的交互行为识别方法中，在从至少一个交互视频中提取至少两个交互对象的交互行为特征，该交互行为特征包括行人重识别特征、朝向特征和轨迹特征之后，还可通过设置在指定交互对象上的定位传感器获取至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，并能基于指定交互对象的身份信息和基准轨迹特征，对至少两个交互对象的交互行为特征中的轨迹特征进行优化，以提高各交互对象的轨迹特征和身份信息的准确度，进而使得基于优化后的至少两个交互对象的交互行为特征，识别得到的至少两个交互对象的交互行为也更加准确。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤110至步骤130的执行主体可以为设备A；又比如，步骤110至步骤120的执行主体可以为设备A，步骤130的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如110、120等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图6为本申请示例性实施例提供的一种交互行为识别装置的结构示意图。如图6所示，该装置包括：提取模块610、获取模块620、优化模块630和识别模块640，其中：

提取模块610，用于从至少一个交互视频中提取至少两个交互对象的交互行为特征，所述交互行为特征包括行人重识别特征、朝向特征和轨迹特征；

获取模块620，用于通过定位传感器获取所述至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，所述定位传感器设置于所述指定交互对象上；

优化模块630，用于基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化；

识别模块640，用于基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为。

本申请实施例提供的交互行为识别装置，在从至少一个交互视频中提取至少两个交互对象的交互行为特征，该交互行为特征包括行人重识别特征、朝向特征和轨迹特征之后，还可通过设置在指定交互对象上的定位传感器获取至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，并能基于指定交互对象的身份信息和基准轨迹特征，对至少两个交互对象的交互行为特征中的轨迹特征进行优化，以提高各交互对象的轨迹特征和身份信息的准确度，进而使得基于优化后的至少两个交互对象的交互行为特征，识别得到的至少两个交互对象的交互行为也更加准确。

进一步可选地，所述提取模块610从至少一个交互视频中提取至少两个交互对象的交互行为特征时，具体用于：

从所述至少一个交互视频中提取所述至少两个交互对象的检测框；

通过行人重识别模型从所述至少两个交互对象的检测框中提取所述至少两个交互对象的行人重识别特征，以及通过朝向识别模型从所述至少两个交互对象的检测框中提取所述至少两个交互对象的朝向特征；

将所述至少两个交互对象的检测框在相机坐标系下的坐标转换为世界坐标系下的坐标，以获取所述至少两个交互对象的位置信息；

基于所述至少两个交互对象的行人重识别特征和位置信息，从所述至少两个交互对象的检测框中提取所述至少两个交互对象的轨迹特征。

进一步可选地，所述提取模块610基于所述至少两个交互对象的行人重识别特征和位置信息，从所述至少两个交互对象的检测框中提取所述至少两个交互对象的轨迹特征时，具体用于：

基于所述至少两个交互对象的行人重识别特征和位置信息，从目标交互视频对应的所述至少两个交互对象的检测框中分别提取所述至少两个交互对象的轨迹特征，所述目标交互视频为所述至少一个交互视频中的任意一个交互视频；

当所述至少一个交互视频的数量为多个时，将所述多个交互视频中的同一交互对象的轨迹特征进行关联，得到所述至少两个交互对象的轨迹特征。

进一步可选地，所述优化模块630基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化时，具体用于：

从所述至少两个交互对象中确定与所述指定交互对象的身份信息相匹配的指定交互对象；

基于所述指定交互对象的基准轨迹特征，优化所述至少两个交互对象中所述指定交互对象的轨迹特征；

基于所述优化后的指定交互对象的轨迹特征，优化目标交互对象的轨迹特征，所述目标交互对象为所述至少两个交互对象中除所述指定交互对象以外的交互对象。

进一步可选地，所述优化模块630基于所述指定交互对象的基准轨迹特征，优化所述至少两个交互对象的交互行为特征中的所述指定交互对象的轨迹特征时，具体用于：

从所述至少两个交互对象的轨迹特征中，确定与所述指定交互对象的基准轨迹特征之间的相似度大于或等于预设相似度的候选轨迹特征；

若所述候选轨迹特征对应的轨迹数量为多个，则确定多个所述候选轨迹特征对应的多条候选轨迹与所述基准轨迹特征对应的基准轨迹之间的空间距离；

从多个所述候选轨迹特征对应的多条候选轨迹中，确定与所述基准轨迹特征对应的基准轨迹之间的空间距离最小的目标候选轨迹；

将所述目标候选轨迹对应的轨迹特征替换为所述基准轨迹特征，得到所述优化后的指定交互对象的轨迹特征。

进一步可选地，所述优化模块630基于所述优化后的指定交互对象的轨迹特征，优化目标交互对象的轨迹特征时，具体用于：

将所述优化后的指定交互对象的轨迹特征从所述至少两个交互对象的轨迹特征中删除，得到剩余轨迹特征；

基于所述目标交互对象的行人重识别特征和位置信息，从所述剩余轨迹特征中提取所述目标交互对象的轨迹特征，所述目标交互视频为所述至少一个交互视频中的任意一个交互视频；

当所述至少一个交互视频的数量为多个时，将所述多个交互视频中的所述目标交互对象的轨迹特征进行关联，得到所述目标交互对象的轨迹特征。

进一步可选地，所述识别模块640基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为时，具体用于：

基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中获取至少一个候选交互对象对，其中，一个候选交互对象对中包含两个交互对象；

基于所述指定交互对象的身份信息，从所述至少一个候选交互对象对中过滤不包含所述指定交互对象的候选交互对象对，得到目标交互对象对；

从所述至少一个交互视频中获取以包含有所述目标交互对象对的检测框为边界的目标图像；

通过交互行为识别模型识别所述目标图像中是否存在交互行为，所述交互行为识别模型为基于多个存在交互行为的图像和多个不存在交互行为的图像以及对应的交互标签训练得到。

进一步可选地，所述识别模块640通过交互行为识别模型识别所述目标图像中是否存在交互行为时，具体用于：

通过所述交互行为识别模型中的特征提取模块提取所述目标图像中的交互行为特征；

通过所述交互行为识别模型中的特征融合模块对所述目标图像中的交互行为特征进行特征融合，得到所述特征融合后的交互行为特征；

通过所述交互行为识别模型中的分类模块对所述特征融合后的交互行为特征进行分类，以确定所述目标图像中是否存在交互行为。

进一步可选地，所述识别模块640基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中获取至少一个候选交互对象对时，具体用于：

基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中确定朝向存在面对面的至少一个候选交互对象对；和/或

基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中确定朝向指向同一物体的至少一个候选交互对象对。

进一步可选地，当基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中确定朝向指向同一物体的至少一个候选交互对象对时，所述识别模块640从所述至少一个交互视频中获取以所述目标交互对象对的检测框为边界的目标图像时，具体用于：

从所述至少一个交互视频中，获取以包含有所述目标交互对象对和对应的物体的检测框为边界的目标图像。

交互行为识别装置能够实现图1~图5的方法实施例的方法，具体可参考图1~图5所示实施例的交互行为识别方法，不再赘述。

图7为本申请示例性实施例提供的一种电子设备的结构示意图。如图7所示，该设备包括：存储器71和处理器72。

存储器71，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算设备上的操作。这些数据的示例包括用于在计算设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

处理器72，与存储器71耦合，用于执行存储器71中的计算机程序，以用于：从至少一个交互视频中提取至少两个交互对象的交互行为特征，所述交互行为特征包括行人重识别特征、朝向特征和轨迹特征；通过定位传感器获取所述至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，所述定位传感器设置于所述指定交互对象上；基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化；基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为。

进一步可选地，所述处理器72从至少一个交互视频中提取至少两个交互对象的交互行为特征时，具体用于：

进一步可选地，所述处理器72基于所述至少两个交互对象的行人重识别特征和位置信息，从所述至少两个交互对象的检测框中提取所述至少两个交互对象的轨迹特征时，具体用于：

进一步可选地，所述处理器72基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化时，具体用于：

进一步可选地，所述处理器72基于所述指定交互对象的基准轨迹特征，优化所述至少两个交互对象的交互行为特征中的所述指定交互对象的轨迹特征时，具体用于：

进一步可选地，所述处理器72基于所述优化后的指定交互对象的轨迹特征，优化目标交互对象的轨迹特征时，具体用于：

进一步可选地，所述处理器72基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为时，具体用于：

进一步可选地，所述处理器72通过交互行为识别模型识别所述目标图像中是否存在交互行为时，具体用于：

进一步可选地，所述处理器72基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中获取至少一个候选交互对象对时，具体用于：

进一步可选地，当基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中确定朝向指向同一物体的至少一个候选交互对象对时，所述处理器72从所述至少一个交互视频中获取以所述目标交互对象对的检测框为边界的目标图像时，具体用于：

进一步，如图7所示，该电子设备还包括：通信组件73、显示器74、电源组件75、音频组件76等其它组件。图7中仅示意性给出部分组件，并不意味着电子设备只包括图7所示组件。另外，根据流量回放设备的实现形态的不同，图7中虚线框内的组件为可选组件，而非必选组件。例如，当电子设备实现为智能手机、平板电脑或台式电脑等终端设备时，可以包括图7中虚线框内的组件；当电子设备实现为常规服务器、云服务器、数据中心或服务器阵列等服务端设备时，可以不包括图7中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器能够实现上述交互行为识别方法实施例中的步骤。

上述图7中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还可以包括近场通信（NFC）模块，射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术等。

上述图7中的存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

上述图7中的显示器包括屏幕，其屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图7中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图7中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种交互行为识别方法，其特征在于，包括：

从至少一个交互视频中提取至少两个交互对象的交互行为特征，所述交互行为特征包括行人重识别特征、朝向特征和轨迹特征；

通过定位传感器获取所述至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，所述定位传感器设置于所述指定交互对象上；

基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化；

基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为。

2.如权利要求1所述的方法，其特征在于，所述从至少一个交互视频中提取至少两个交互对象的交互行为特征，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述至少两个交互对象的行人重识别特征和位置信息，从所述至少两个交互对象的检测框中提取所述至少两个交互对象的轨迹特征，包括：

4.如权利要求1~3中任一所述的方法，其特征在于，所述基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化，包括：

5.如权利要求4所述的方法，其特征在于，所述基于所述指定交互对象的基准轨迹特征，优化所述至少两个交互对象中的所述指定交互对象的轨迹特征，包括：

6.如权利要求4所述的方法，其特征在于，所述基于所述优化后的指定交互对象的轨迹特征，优化目标交互对象的轨迹特征，包括：

7.如权利要求1所述的方法，其特征在于，所述基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为，包括：

8.如权利要求7所述的方法，其特征在于，所述通过交互行为识别模型识别所述目标图像中是否存在交互行为，包括：

9.如权利要求7所述的方法，其特征在于，所述基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中获取至少一个候选交互对象对，包括：

10.如权利要求9所述的方法，其特征在于，当基于所述优化后的至少两个交互对象的交互行为特征中的朝向特征，从所述至少两个交互对象中确定朝向指向同一物体的至少一个候选交互对象对时，所述从所述至少一个交互视频中获取以所述目标交互对象对的检测框为边界的目标图像，包括：

11.一种交互行为识别装置，其特征在于，包括：

提取模块，用于从至少一个交互视频中提取至少两个交互对象的交互行为特征，所述交互行为特征包括行人重识别特征、朝向特征和轨迹特征；

获取模块，用于通过定位传感器获取所述至少两个交互对象中指定交互对象的身份信息和基准轨迹特征，所述定位传感器设置于所述指定交互对象上；

优化模块，用于基于所述指定交互对象的身份信息和基准轨迹特征，对所述至少两个交互对象的交互行为特征中的轨迹特征进行优化；

识别模块，用于基于所述优化后的至少两个交互对象的交互行为特征，识别所述至少两个交互对象的交互行为。

12.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，与所述存储器耦合，用于执行所述计算机程序，以用于：

13.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1~10中任一项所述交互行为识别方法中的步骤。