CN113469056A

CN113469056A - 行为识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113469056A
Application number: CN202110750749.8A
Authority: CN
Inventors: 王浩然; 纪德益
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-01
Also published as: WO2023273334A1

Abstract

本公开实施例公开了一种识别方法、装置、电子设备及计算机可读存储介质。该方法包括：对每张待检测图像进行检测得到多个对象的特征，对特征进行编码，得到与多个对象分别一一对应的多维特征，基于每组对象的每个对象的特征中的部分特征，确定每组对象的至少两类对象的空间结果，以及每个对象的动作结果；基于多维特征，确定每组对象的关系交互特征，并在依据关系交互特征，确定每组对象中的对象之间相互关联的情况下，基于空间结果和动作结果，确定每组对象的目标结果，得到至少一个目标结果；基于至少一个目标结果，确定每张待检测图像中的对象行为。通过本公开，可以提高对人物交互行为进行识别时的识别准确度和识别效率。

Description

行为识别方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种行为识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人物交互行为检测是理解人与对象如何交互的一项重要任务。人与物体交互(Human-object interaction，HOI)行为检测旨在根据输入图像对人、物体和人与物体的关系的三元组进行定位和分类。检测到人与物体的交互可以使设计良好的算法能够为场景生成更好的描述。

然而，采用相关技术进行人物交互行为检测时，检测效率与准确度较低，从而造成对人物交互行为的检测效果差，以及检测效率低下。

发明内容

本公开实施例提供一种行为识别方法、装置、电子设备及计算机可读存储介质，能够提高对人物交互行为的识别准确度和识别效率。

本公开实施例的技术方案是这样实现的：

本公开实施例提供一种行为识别方法，包括：对每张待检测图像进行检测得到多个对象的特征，对所述特征进行编码，得到与所述多个对象分别一一对应的多维特征；基于每一组对象的每个组员对象的特征中的部分特征，确定所述每一组对象的至少两类对象的空间结果，以及每个所述组员对象的动作结果，其中，所述每一组对象至少包含：所述多个对象中类别为物体的对象，以及类别为人的对象；基于所述多维特征，确定所述每一组对象的关系交互特征，并在依据所述关系交互特征，确定所述每一组对象中的所述组员对象之间相互关联的情况下，基于所述空间结果和所述动作结果，确定所述每一组对象的目标结果，得到至少一个所述目标结果；基于至少一个所述目标结果，确定所述每张待检测图像中的对象行为。

上述方法中，所述基于所述多维特征，确定所述每一组对象的关系交互特征，包括：基于与所述多个对象分别一一对应的所述多维特征，生成与所述多个对象所对应的全连接图；通过对每个所述对象一一对应的所述多维特征，以及所述全连接图，进行图卷积处理，得到与每个所述对象一一对应的更新后的多维特征；根据所述每一组对象中每个所述组员对象的所述更新后的多维特征，得到所述每一组对象的所述关系交互特征。

上述方法中，所述依据所述关系交互特征，确定所述每一组对象中的所述组员对象之间相互关联，包括：根据所述关系交互特征，对所述每一组对象进行分类，得到所述每一组对象的交互结果；在所述交互结果大于或等于第一预设分数阈值的情况下，确定所述每一组对象中的所述组员对象之间相互关联。

上述方法中，所述基于所述空间结果和所述动作结果，确定所述每一组对象的目标结果，包括：基于所述每一组对象的所述关系交互特征，以及预设参数，对每个所述组员对象的所述多维特征进行更新，得到每个所述组员对象的细化特征，并基于所述细化特征，确定所述每一组对象的图交互特征；基于所述图交互特征，对所述每一组对象进行分类，得到图关系结果；基于所述空间结果、所述动作结果、所述交互结果、所述图关系结果，以及对每个所述组员对象进行所述检测时所得到的置信结果，确定所述每一组对象的所述目标结果。

上述方法中，所述目标结果为目标数值；所述基于至少一个所述目标结果，确定所述每张待检测图像中的对象行为，包括：根据至少一个所述目标数值，从与至少一个所述目标数值一一对应的多个关联对象组中，选出与最高的目标数值所对应的一个关联对象组，并识别所述一个关联对象组中的所述组员对象之间的行为。

上述方法中，所述全连接图通过邻接矩阵表征，所述邻接矩阵中的每个数据表征对应的两个对象之间的关联度；所述通过对每个所述对象一一对应的所述多维特征，以及所述全连接图，进行图卷积处理，得到与每个所述对象一一对应的更新后的多维特征，包括：基于所述邻接矩阵和每个所述对象一一对应的所述多维特征，通过图神经网络，对每个所述对象的所述多维特征进行迭代，得到与每个所述对象一一对应的更新后的多维特征。

上述方法中，所述两个对象包括：第一对象和第二对象；确定所述两个对象之间的关联度的方法包括：确定所述第一对象的所述多维特征和所述第二对象的所述多维特征之间的相似度；基于所述第一对象在所述每张待检测图像中的位置特征，以及所述第二对象在所述每张待检测图像中的位置特征，确定所述第一对象与所述第二对象之间的距离；基于所述相似度和所述距离，确定所述第一对象和所述第二对象之间的所述关联度。

上述方法中，所述基于所述邻接矩阵和每个所述对象一一对应的所述多维特征，通过图神经网络，对每个所述对象的所述多维特征进行迭代，得到与每个所述对象一一对应的更新后的多维特征，包括：基于更新参数、所述邻接矩阵、与迭代次数对应的第一权重参数，以及每个所述对象一一对应的所述多维特征，对每个所述对象的所述多维特征进行迭代更新，并在迭代次数达到第一预设次数的情况下，将所述第一预设次数之后生成的特征，作为每个所述对象的所述更新后的多维特征。

上述方法中，所述预设参数包括：第二权重参数和迭代次数；所述基于所述每一组对象的所述关系交互特征，以及预设参数，对每个所述组员对象的所述更新后的多维特征进行更新，得到每个所述组员对象的细化特征，包括：基于所述第二权重参数和所述每一组对象的所述关系交互特征，对每个所述组员对象的所述多维特征进行迭代更新，并在迭代次数达到第二预设次数的情况下，将所述第二预设次数之后生成的特征，作为每个所述组员对象的所述细化特征。

上述方法中，所述检测包括：图像检测和词向量检测；所述对所述特征进行编码，得到与所述多个对象分别一一对应的多维特征，包括：将与所述多个对象分别一一对应的位置特征进行编码，得到每个对象的第一特征；将与所述多个对象分别一一对应的视觉特征进行编码，得到每个所述对象的第二特征；所述位置特征和所述视觉特征是对所述每张待检测图像进行图像检测得到的；将与所述多个对象分别一一对应的词向量特征进行编码，得到每个所述对象的第三特征；所述词向量特征是对每个所述对象的类别信息，进行词向量检测得到的；所述类别信息是对所述每张待检测图像进行图像检测得到的；根据所述第一特征、第二特征和所述第三特征，得到与所述多个对象分别一一对应的所述多维特征；其中，所述第一特征、所述第二特征和所述第三特征的维度相同。

上述方法中，所述将与所述多个对象分别一一对应的视觉特征进行编码，得到每个所述对象的第二特征，包括：将与所述多个对象分别一一对应的视觉特征，进行维度变换处理，得到每个所述对象的维度变换后的视觉特征；对所述维度变换后的视觉特征进行编码，得到每个所述对象的所述第二特征。

上述方法中，所述部分特征包括：每个所述组员对象的位置特征和视觉特征；所述位置特征和所述视觉特征是对所述每张待检测图像进行图像检测得到的；所述基于每一组对象的每个组员对象的特征中的部分特征，确定所述每一组对象的至少两类对象的空间结果，以及每个所述组员对象的动作结果，包括：基于所述每一组对象的每个所述组员对象的所述位置特征，确定每个所述组员对象在所述每张待检测图像中的图像区域；根据每个所述组员对象的所述图像区域，得到所述每一组对象对应的图像区域，并对所述每一组对象对应的图像区域进行编码，得到二维特征数据；对所述二维特征数据，以及每个所述组员对象的所述视觉特征，分别进行特征处理，对应得到处理后的二维特征数据和处理后的视觉特征；根据所述处理后的二维特征数据，对所述每一组对象进行分类，得到所述每一组对象的所述空间结果，以及根据所述处理后的视觉特征，对每个所述组员对象进行分类，得到每个所述组员对象的所述动作结果。

上述方法中，所述对每张待检测图像进行检测得到多个对象的特征，包括：对所述每张待检测图像进行图像检测，得到检测出的每个目标的位置特征、视觉特征、置信结果，以及与所述置信结果对应的类别信息；将所述置信结果大于或等于第二预设分数阈值的目标，作为检测出的对象，得到与所述多个对象分别一一对应的所述位置特征、所述视觉特征，以及所述类别信息；对每个对象的所述类别信息进行词向量检测，得到每个所述对象的词向量特征。

本公开实施例提供一种行为识别装置，包括：编码单元，用于对每张待检测图像进行检测得到多个对象的特征，对所述特征进行编码，得到与所述多个对象分别一一对应的多维特征；结果确定单元，用于基于每一组对象的每个组员对象的特征中的部分特征，确定所述每一组对象的至少两类对象的空间结果，以及每个所述组员对象的动作结果，其中，所述每一组对象至少包含：所述多个对象中类别为物体的对象，以及类别为人的对象；基于所述多维特征，确定所述每一组对象的关系交互特征，并在依据所述关系交互特征，确定所述每一组对象中的所述组员对象之间相互关联的情况下，基于所述空间结果和所述动作结果，确定所述每一组对象的目标结果，得到至少一个所述目标结果；行为确定单元，用于基于至少一个所述目标结果，确定所述每张待检测图像中的对象行为。

上述装置中，所述结果确定单元，还用于基于与所述多个对象分别一一对应的所述多维特征，生成与所述多个对象所对应的全连接图；通过对每个所述对象一一对应的所述多维特征，以及所述全连接图，进行图卷积处理，得到与每个所述对象一一对应的更新后的多维特征；根据所述每一组对象中每个组员对象的所述更新后的多维特征，得到所述每一组对象的所述关系交互特征。

上述装置中，所述结果确定单元，还用于根据所述关系交互特征，对所述每一组对象进行分类，得到所述每一组对象的交互结果；在所述交互结果大于或等于第一预设分数阈值的情况下，确定所述每一组对象中的所述组员对象之间相互关联。

上述装置中，所述结果确定单元，还用于基于所述每一组对象的所述关系交互特征，以及预设参数，对每个所述组员对象的所述多维特征进行更新，得到每个所述组员对象的细化特征，并基于所述细化特征，确定所述每一组对象的图交互特征；基于所述图交互特征，对所述每一组对象进行分类，得到图关系结果；基于所述空间结果、所述动作结果、所述交互结果、所述图关系结果，以及对每个所述组员对象进行所述检测时所得到的置信结果，确定所述每一组对象的所述目标结果。

上述装置中，所述目标结果为目标数值；所述行为确定单元，还用于根据至少一个所述目标数值，从与至少一个所述目标数值一一对应的多个关联对象组中，选出与最高的目标数值所对应的一个关联对象组，并识别所述一个关联对象组中的所述组员对象之间的行为。

上述装置中，所述全连接图通过邻接矩阵表征，所述邻接矩阵中的每个数据表征对应的两个对象之间的关联度；所述结果确定单元，还用于基于所述邻接矩阵和每个所述对象一一对应的所述多维特征，通过图神经网络，对每个所述对象的所述多维特征进行迭代，得到与每个所述对象一一对应的更新后的多维特征。

上述装置中，所述两个对象包括：第一对象和第二对象；所述结果确定单元，还用于确定所述第一对象的所述多维特征和所述第二对象的所述多维特征之间的相似度；基于所述第一对象在所述每张待检测图像中的位置特征，以及所述第二对象在所述每张待检测图像中的位置特征，确定所述第一对象与所述第二对象之间的距离；基于所述相似度和所述距离，确定所述第一对象和所述第二对象之间的所述关联度。

上述装置中，所述结果确定单元，还用于基于更新参数、所述邻接矩阵、与迭代次数对应的第一权重参数，以及每个所述对象一一对应的所述多维特征，对每个所述对象的所述多维特征进行迭代更新，并在迭代次数达到第一预设次数的情况下，将所述第一预设次数之后生成的特征，作为每个所述对象的所述更新后的多维特征。

上述装置中，所述预设参数包括：第二权重参数和迭代次数；所述结果确定单元，还用于基于所述第二权重参数和所述每一组对象的所述关系交互特征，对每个所述组员对象的所述多维特征进行迭代更新，并在迭代次数达到第二预设次数的情况下，将所述第二预设次数之后生成的特征，作为每个所述组员对象的所述细化特征。

上述装置中，所述检测包括：图像检测和词向量检测；所述编码单元，还用于将与所述多个对象分别一一对应的位置特征进行编码，得到每个对象的第一特征；将与所述多个对象分别一一对应的视觉特征进行编码，得到每个所述对象的第二特征；所述位置特征和所述视觉特征是对所述每张待检测图像进行图像检测得到的；将与所述多个对象分别一一对应的词向量特征进行编码，得到每个所述对象的第三特征；所述词向量特征是对每个所述对象的类别信息，进行词向量检测得到的；所述类别信息是对所述每张待检测图像进行图像检测得到的；根据所述第一特征、第二特征和所述第三特征，得到与所述多个对象分别一一对应的所述多维特征；其中，所述第一特征、所述第二特征和所述第三特征的维度相同。

上述装置中，所述编码单元，还用于将与所述多个对象分别一一对应的视觉特征，进行维度变换处理，得到每个所述对象的维度变换后的视觉特征；对所述维度变换后的视觉特征进行编码，得到每个所述对象的所述第二特征。

上述装置中，所述部分特征包括：每个所述组员对象的位置特征和视觉特征；所述位置特征和所述视觉特征是对所述每张待检测图像进行图像检测得到的；所述结果确定单元，还用于基于所述每一组对象的每个所述组员对象的所述位置特征，确定每个所述组员对象在所述每张待检测图像中的图像区域；根据每个所述组员对象的所述图像区域，得到所述每一组对象对应的图像区域，并对所述每一组对象对应的图像区域进行编码，得到二维特征数据；对所述二维特征数据，以及每个所述组员对象的所述视觉特征，分别进行特征处理，对应得到处理后的二维特征数据和处理后的视觉特征；根据所述处理后的二维特征数据，对所述每一组对象进行分类，得到所述每一组对象的所述空间结果，以及根据所述处理后的视觉特征，对每个所述组员对象进行分类，得到每个所述组员对象的所述动作结果。

上述装置中，所述装置还包括检测单元，用于对所述每张待检测图像进行图像检测，得到检测出的每个目标的位置特征、视觉特征、置信结果，以及与所述置信结果对应的类别信息；将所述置信结果大于或等于第二预设分数阈值的目标，作为检测出的对象，得到与所述多个对象分别一一对应的所述位置特征、所述视觉特征，以及所述类别信息；对每个对象的所述类别信息进行词向量检测，得到每个所述对象的词向量特征。

本公开实施例提供一种电子设备，包括：存储器，用于存储可执行计算机程序；处理器，用于执行所述存储器中存储的可执行计算机程序时，实现上述的行为识别方法。

本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，用于引起处理器执行时，实现上述的行为识别方法。

本公开实施例提供的行为识别方法、装置、电子设备及计算机可读存储介质，通过对每张待检测图像进行检测得到多个对象的特征，对得到的特征进行编码，得到每个对象所对应的多维特征；基于每一组对象的每个组员对象的特征中的部分特征，确定每一组对象的至少两类对象的空间结果，以及每个组员对象的动作结果，其中，每一组对象至少包含：多个对象中类别为物体的对象，以及类别为人的对象；之后，基于与多个对象分别一一对应的多维特征，确定每一组对象的关系交互特征，并在依据关系交互特征，确定每一组对象中的组员对象之间相互关联的情况下，基于空间结果和动作结果，确定每一组对象的目标结果，从而得到至少一个目标结果；最后，基于得到的至少一个目标结果，确定该张待检测图像中的对象行为。由于本公开实施例先确定每一组对象中的组员对象是否相互关联，之后将组员对象是否相互关联的组用来确定待检测图像中的对象行为，所以，过滤掉了组员对象之间相互不关联的组，从而在确定待检测图像中的对象行为时，减少了干扰确定结果的因素，同时，减少了所需计算的数据量，从而提高了对人物交互行为进行识别时的识别准确度和识别效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1A为本公开实施例提供的示例性地一张待检测图像的示意图；

图1B为本公开实施例提供的示例性地另一张待检测图像的示意图；

图2为本公开实施例提供的行为识别方法的一个可选的流程示意图；

图3为本公开实施例提供的行为识别方法的一个可选的流程示意图；

图4为本公开实施例提供的行为识别方法的一个可选的流程示意图；

图5为本公开实施例提供的行为识别方法的一个可选的流程示意图；

图6为本公开实施例提供的行为识别方法的一个可选的流程示意图；

图7为本公开实施例提供的行为识别方法的一个可选的流程示意图；

图8为本公开实施例提供的行为识别方法的一个可选的流程示意图；

图9为本公开实施例提供的行为识别方法的一个可选的流程示意图；

图10为本公开实施例提供的示例性地采用行为识别方法识别一张待检测图像中的对象行为的部分流程示意图；

图11为本公开实施例提供的识别装置的结构示意图；

图12为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

人物交互行为检测是理解人与对象如何交互的一项重要任务。人与物体交互(Human-object interaction，HOI)行为检测旨在根据输入图像，对人、物体和人与物体的关系的三元组进行定位和分类。检测到人与物体的交互可以使设计良好的算法能够为场景生成更好的描述。例如，图1A为本公开实施例提供的示例性地一张待检测图像的示意图，如图1A所示，从该图像中检测出了人、大象，并且，每个对象均采用了标注框标注，通过检测人与物体的交互，针对该图像中的行为，所生成的更好的描述应该是“男人骑着大象”而非“男人和大象”。目前都把这个任务看作是一个一阶段的分类问题，例如，针对一张图片首先检测出图片中所有的人和物体，然后对每一对人和物的组合进行分类，从而预测每一对人和物的交互行为和得分，最终通过得分阈值判断出一张图片中包含的交互行为。但是，这种直接预测所有组合的方式无法去掉负样本对，容易引起误判。例如，图1B为本公开实施例提供的示例性地另一张待检测图像的示意图，如图1B所示，人、桌子和茶杯均被检测了出来，每个对象均采用了标注框标注，如图1B所示，人和茶杯为一对负样本对，也就是说，虽然人和茶杯没有接触，但是当人和茶杯组合成对的时候，依然有很大的概率将其预测成喝茶行为，从而影响最终的预测结果的准确性。

基于此，本公开实施例提供一种行为识别方法，能够减少负样本对，从而提高对人物交互行为的识别准确度和识别效率。本公开实施例提供的行为识别方法应用于电子设备。下面说明本公开实施例提供的电子设备的示例性应用，本公开实施例提供的电子设备可以实施为AR眼镜、笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端(以下简称终端)，也可以实施为服务器。

下面，将说明电子设备实施为终端时的示例性应用。图2是本公开实施例提供的行为识别方法的一个可选的流程示意图，将结合图2示出的步骤进行说明。

S101、对每张待检测图像进行检测得到多个对象的特征，对所述特征进行编码，得到与多个对象分别一一对应的多维特征。

在公开实施例中，终端可以先对每张待检测图像进行检测，得到每个对象的特征，然后，对每个对象的特征进行编码，从而得到该张待检测图像中存在的多个对象中，每个对象的多维特征。需要说明的是，多个对象可以为该张待检测图像中的所有对象，也可以为该张待检测图像中的部分对象。

在本公开的一些实施例中，终端可以通过自身对该张待检测图像进行图像检测和词向量检测，来获得多个对象中每个对象的特征。每个对象的特征可以是该对象的位置特征、视觉特征和词向量特征，这三种特征所组成的特征；其中，位置特征可以是该对象在待检测图像中的标注框的坐标，视觉特征可以是与该标注框的坐标所对应的感兴趣区域(Region of Interes，RoI)池化后的特征图，词向量特征可以是与该对象的类别信息对应的词向量。

示例性地，对于一张待检测图像，终端可以先采用Faster R-CNN模型，对该张待检测图像进行图像检测，得到每个对象的位置特征和视觉特征，以及得到每个对象的类别信息(例如，人、树等)，以及还得到与该类别信息对应的置信度(置信结果)，然后采用词向量与文本分类模型(例如，fastText模型)对该类别信息进行词向量检测，得到每个对象的类别信息所对应的词向量特征。

在本公开实施例中，待检测图像可以是针对任何场景的图像，例如，待检测图像可以是采集的某个店铺中的顾客购物图像，或者，采集的某个景点的图像等，本公开实施例对此不作限定。

S102、基于每一组对象的每个组员对象的特征中的部分特征，确定每一组对象的至少两类对象的空间结果，以及每个组员对象的动作结果；其中，每一组对象至少包含：多个对象中类别为物体的对象，以及类别为人的对象。

在本公开实施例中，终端在获得该张待检测图像中的多个对象后，可以将多个对象进行分组，从而得到多组对象，其中，每一组对象至少包含了类别为物体的对象和类别为人的对象；并且，任意两组对象之间至少有一个组员对象不同。在得到多组对象后，对于每一组对象，终端可以根据该组对象中每个组员对象的特征中的部分特征，来确定出该组对象中的组员对象之间的空间结果，以及确定出每个组员对象的动作结果。

在一些实施例中，每一组对象中可以包含人和物体这两类对象，或者，每一组对象中还可以包含人、物体和动物这三类对象。

示例性地，在该多个对象为3个对象，每一组对象中包含人和物体这两类对象，且3个对象包括：人、物体1和物体2的情况下，终端可以将这3个对象分成2组：人-物体1、人-物体2；显然，这两组对象之间有一个组员对象不同(物体1与物体2不同)；在得到这两组对象后，对于人-物体1，终端根据该组对象中人和物体1的特征中的部分特征，确定出人与物体1之间的空间结果，并分别确定出人的动作结果和物体1的动作结果；对于人-物体2，终端根据该组对象中人和物体2的特征中的部分特征，确定出人与物体2之间的空间结果，并分别确定出人的动作结果和物体2的动作结果。

需要说明的是，空间结果和动作结果可以是分类分数值，终端可以通过全连接层得到空间结果和动作结果。

S103、基于多维特征，确定每一组对象的关系交互特征，并在依据关系交互特征，确定每一组对象中的所述组员对象之间相互关联的情况下，基于空间结果和动作结果，确定每一组对象的目标结果，得到至少一个目标结果。

在本公开实施例中，终端在获得多个对象中每个对象的多维特征之后，可以根据与多个对象分别一一对应的多维特征，确定出每一组对象所对应的关系交互特征，针对每一组对象，终端可以根据该组对象的关系交互特征，确定该组对象中组员对象之间是否关联，并在确定出该组对象的组员对象之间关联的情况下，基于该组对象中组员对象之间的空间结果，以及每个组员对象的动作结果，再确定出该组对象所对应的目标结果，如此，在多组对象中有一个或多个组的组员对象之间相互关联(以下将一个组中的组员对象之间相互关联的组，称为关联对象组)的情况下，可以对应获得至少一个目标结果。例如，在多组对象为3组，且这3组对象中存在2个关联对象组的情况下，可以得到与这2个关联对象组一一对应的两个目标结果。

可以理解的是，在确定一组对象的组员对象之间不关联的情况下，则该组对象不是关联对象组，且没有目标结果；也就是说，本公开实施例通过确定目标结果，过滤掉了组员对象之间不关联的对象组；如此，可以在后续确定待检测图像中的对象行为时，减少干扰因素，同时，减少所需计算的数据量；从而可以提高后续根据组员对象之间关联的对象组，对人物交互行为进行识别时的识别准确度和识别效率。

S104、基于至少一个目标结果，确定每张待检测图像中的对象行为。

本公开实施例中，终端在得到至少一个目标结果的情况下，可以根据这至少一个目标结果，以及与这至少一个目标结果对应的至少一个关联对象组，确定出该张待检测图像中的对象行为。示例性地，该张待检测图像中的对象行为可以是人与物体之间的行为，例如，针对图1A中的待检测图像，得到的对象行为可以是“男人骑着大象”，又例如，针对图1B中的待检测图像，得到的对象行为可以是“多人坐在餐桌前”。

在一些实施例中，目标结果为目标数值；终端可以根据至少一个目标数值，从与至少一个目标数值一一对应的多个关联对象组中，选出与最高的目标数值所对应的一个关联对象组，并识别所选的这一个关联对象组中的组员对象之间的行为。

这里，终端在获得至少一个目标数值的情况下，可以将这至少一个目标数值进行排序，并根据排序结果从中选取最高的目标数值，并将该最高的目标数值所对应的一个关联对象组作为识别目标，从而识别这一个关联对象组中的组员对象之间的行为动作。需要说明的是，本公开实施例可以采用相关技术中的识别模型，对这一个关联对象组中的组员对象之间的行为动作进行识别，本公开实施例在此对该识别模型不作限定。

在本公开的一些实施例中，上述S103中的基于多维特征，确定每一组对象的关系交互特征，可以通过S1031-S1033实现，将结合图3示出的步骤进行说明。

S1031、基于与多个对象分别一一对应的多维特征，生成与多个对象所对应的全连接图。

在本公开实施例中，对于该张待检测图像中的多个对象，终端可以根据这多个对象中每个对象所对应的多维特征，生成与该待检测图像中的多个对象对应的全连接图。该全连接图可以采用邻接矩阵表征，且该邻接矩阵中的每个数据表征对应的两个对象之间的关联度，通过该邻接矩阵可以表征多个对象中的任意两个对象之间的关联度。

示例性地，该邻接矩阵可以采用下述公式(1)表示：

A^f∈R^N×N＝{(f_i)|i＝1,...,N}……………(1)

其中，A^f表示邻接矩阵，i表示第i个对象(或者，也可以称为节点)，f_i表示第i个对象的多维特征，N表示多个对象的总数量。

S1032、通过对每个对象一一对应的多维特征，以及全连接图，进行图卷积处理，得到与每个对象一一对应的更新后的多维特征。

在本公开实施例中，终端在得到与该张待检测图像中的多个对象所对应的全连接图的情况下，可以对多个对象中每个对象的多维特征和全连接图进行图卷积操作，通过该图卷积操作得到每个对象的更新后的多维特征。

示例性地，终端可以将每个对象的多维特征，以及用于表示该全连接图的邻接矩阵，均输入图神经网络(Graph Convolutional Network，GCN)中，通过GCN网络进行图卷积操作，并输出每个对象的更新后的多维特征。

在一些实施例中，上述S1032可以通过以下方式实现：基于邻接矩阵和每个对象一一对应的多维特征，通过图神经网络，对每个对象的多维特征进行迭代，得到与每个对象一一对应的更新后的多维特征；其中，全连接图通过邻接矩阵表征，邻接矩阵中的每个数据表征对应的两个对象之间的关联度。

在一些实施例中，上述的两个对象包括：第一对象和第二对象；可以通过S201-S203来确定两个对象之间的关联度，将结合图4示出的步骤进行说明。

S201、确定第一对象的多维特征和第二对象的多维特征之间的相似度。

在本公开实施例中，终端可以根据第一对象的多维特征和第二对象的多维特征，确定出第一对象与第二对象之间的相似度，例如，点积相似度或余弦相似度等。

示例性地，在相似度为点积相似度的情况下，第一对象和第二对象之间的相似度可以采用下述公式(2)表示：

F_se(f_i,f_j)＝(f_i)^Tf_i (2)

其中，F_se(f_i,f_j)表示第i个对象(第一对象)和第j个对象(第二对象)之间的点积相似度，i和j均为1至N中的任意整数，且i与j不相等，f_i表示第i个对象的多维特征，f_j表示第j个对象的多维特征。

S202、基于第一对象在每张待检测图像中的位置特征，以及第二对象在每张待检测图像中的位置特征，确定第一对象与第二对象之间的距离。

在本公开实施例中，在对第一对象和第二对象所在的待检测图像进行检测的情况下，可以获得第一对象在待检测图像中的位置特征，以及第二对象在待检测图像中的位置特征，终端可以根据第一对象的位置特征和第二对象的位置特征，确定出第一对象与第二对象之间的距离。

示例性地，位置特征为标注框坐标(例如，标注框的中心点坐标，或者标注框的左上角点与右下角点的坐标等)，终端可以根据第一对象的标注框坐标和第二对象的标注框坐标，计算出第一对象与第二对象之间的距离。例如，第一对象与第二对象之间的距离可以采用下述公式(3)表示：

其中，D(b_i,b_j)表示通过标注框的坐标，计算出的第i个对象与第j个对象之间的坐标距离，F_dist(f_i,f_j)表示第i个对象与第j个对象之间的距离。

S203、基于相似度和距离，确定第一对象和第二对象之间的关联度。

本公开实施例中，终端在确定出第一对象与第二对象之间的相似度和距离的情况下，可以根据相似度和距离再计算出第一对象与第二对象之间的关联度。

在一些实施例中，可以通过下述公式(4)计算第一对象与第二对象之间的关联度：

其中，

表示第i个对象与第j个对象之间的关联度，

为0-1之间的数值；N表示多个对象的总数量，f_j表示第j个对象的多维特征，f_i表示第i个对象的多维特征，exp(.)表示以e为底的指数函数。

针对上述S1032，终端可以将邻接矩阵和所有对象的多维特征，均输入多层的图神经网络中，通过该多层的图神经网络，对每个对象的多维特征进行迭代更新，从而得到每个对象的更新后的多维特征。

在一些实施例中，终端可以基于更新参数、邻接矩阵、与迭代次数对应的第一权重参数，以及所有对象的多维特征，对每个对象所对应的多维特征进行迭代更新，并在迭代次数达到第一预设次数的情况下，将第一预设次数之后生成的特征，作为每个对象所对应的更新后的多维特征。

这里，更新参数可以是激活函数，与迭代次数对应的第一权重参数可以是与图神经网络的每一层对应的可学习权重矩阵，且迭代次数可以根据图神经网络的层数确定。例如，在图神经网络为2层的图神经网络的情况下，每一层对应有一个可学习权重，并且，可以确定出迭代次数为2；也就是说，对于图神经网络的第一层而言，输入的是邻接矩阵和每个对象的多维特征，输出的是每个对象第一次迭代后的多维特征；对于图神经网络的第二层而言，输入的是邻接矩阵和每个对象第一次迭代后的多维特征，输出的是每个对象的第二次迭代后的多维特征，并且每个对象的第二次迭代后的多维特征，是迭代结束后得到的每个对象的更新后的多维特征。

根据上述可知，采用图神经网络的每一层对每个对象的多维特征进行迭代的过程，可以采用下述公式(5)表示：

g^(l+1)＝σ(A×g^l×W^l) (5)

其中，A代表邻接矩阵。g^l∈R^N×d表示第l层输出的每个对象的迭代后的多维特征，g^(l+1)表示第l+1层输出的每个对象的迭代后的多维特征，g⁰∈f表示第0层中每个对象的特征，即表示每个对象的多维特征。W^l∈R^d×d表示第l层的可学习权重矩阵，d是输入和输出特征的大小；σ(.)表示激活函数，例如，可以是线性整流函数(Rectified Linear Unit，ReLU)。根据上述公式(5)可知，第l+1的输入是第l层的输出。

在一些实施例中l为1，也就是说，可以采用两层的图神经网络对中每个对象的多维特征进行迭代更新；如此，可以提高对每个对象的多维特征的更新效率，从而有利于提高对人物交互行为的识别效率。

S1033、根据每一组对象中每个组员对象的更新后的多维特征，得到每一组对象的关系交互特征。

在本公开实施例中，对于每一组对象，终端在获得该组对象中，每个组员对应的更新后的多维特征的情况下，可以根据该组对象中所有组员对象的更新后的多维特征，确定出该组对象的关系交互特征。

在一些实施例中，对于每一组对象，终端可以将组员对象的更新后的多维特征，在通道维度上进行叠加，并将叠加后的特征作为该组对象的关系交互特征。

在本公开的一些实施例中，上述S103中的依据关系交互特征，确定每一组对象中的组员对象之间相互关联，可以通过S1034-S1035实现，将以图5中示出的步骤进行说明。

S1034、根据关系交互特征，对每一组对象进行分类，得到每一组对象的交互结果。

在本公开实施例中，针对每一组对象，终端在获得该组对象的关系交互特征的情况下，可以将该组对象的关系交互特征输入全连接层中，通过全连接层对该组对象进行交互性分类，并将得到的该组对象的交互分类分数作为该组对象的交互结果。

示例性地，每一组对象的交互结果可以采用下述公式(6)表示：

其中，

表示每一组对象的交互结果，W_in表示全连接层的学习权重，σ(.)表示激活函数，

表示每一组对象的关系交互特征。

S1035、在交互结果大于或等于第一预设分数阈值的情况下，确定每一组对象中的组员对象之间相互关联。

在本公开实施例中，针对每一组对象，终端在得到该组对象的交互结果的情况下，可以将该交互结果与第一预设分数阈值进行比较，并在交互结果大于或等于第一预设分数阈值的情况下，确定该组对象中的组员对象之间相互关联。

需要说明的是，第一预设分数阈值可以根据实际需要设置，本公开实施例对第一预设分数阈值的取值不作限定。

在本公开的一些实施例中，上述S103中的基于空间结果和动作结果，确定每一组对象的目标结果，可以通过S1036-S1038，将以图6中示出的步骤进行说明。

S1036、基于每一组对象的关系交互特征，以及预设参数，对每个组员对象的多维特征进行更新，得到每个组员对象的细化特征，并基于细化特征，确定每一组对象的图交互特征。

在本公开的实施例中，针对每一组对象，终端可以根据该组对象的关系交互特征和预设参数，对该组对象中的每个组员对象的多维特征再进行更新，从而得到每个组员对象的细化特征，并根据该组对象中每个组员对象的细化特征，确定出该组对象的图交互特征。在一些实施例中，终端可以将该组对象中所有组员对象的细化特征，在通道维度进行叠加，从而得到该组对象的图交互特征。

在一些实施例中，预设参数包括：第二权重参数和迭代次数；上述S1036中的基于每一组对象的关系交互特征，以及预设参数，对每个组员对象的多维特征进行更新，得到每个组员对象的细化特征，可以通过下述方式实现：基于第二权重参数和每一组对象的关系交互特征，对每个组员对象的多维特征进行迭代更新，并在迭代次数达到第二预设次数的情况下，将第二预设次数之后生成的特征，作为每个组员对象的细化特征。

这里，对于每一组对象，终端可以根据第二权重参数和该组对象的关系交互特征，对该组对象中每个组员对象的多维特征进行迭代更新，例如，在第一次迭代的过程中，将该组对象中每个组员对象的多维特征作为输入，迭代后得到每个组员对象的第一次迭代后的多维特征，在第二次迭代的过程中，对于每个组员对象来说，将第一次迭代后的多维特征作为第二次迭代时的输入，如此循环迭代，直至在迭代次数达到第二预设次数的情况下，将第二预设次数对应的迭代后的多维特征作为，每个组员对象的细化特征。

示例性地，生成每个组员对象的细化特征的过程，可以采用下述公式(7)表示：

其中，

表示每一组对象的关系交互特征，

表示指示函数，

表示每一组对象的交互结果，μ_s表示第一预设分数阈值；α表示第二权重参数(加权参数)，N表示多个对象的总数量，f_i ^(t)表示第i个对象的细化特征，f_i ^(t-1)表示得到第i个对象的细化特征时输入的第i个对象的特征，

表示得到第i个对象的细化特征时输入的第j个对象的特征；t表示迭代次数；在t＝1的情况下，f_i ^(t-1)表示第i个对象的多维特征，

表示第j个对象的多维特征。

需要说明的是，第二预设次数可以根据实际需要进行设定，本公开实施例对此不作限定。

示例性地，第二预设次数可以为2，如此，可以提高得到每个组员对象的细化特征的效率，从而有利于提高对人物交互行为的识别效率。

S1037、基于图交互特征，对每一组对象进行分类，得到图关系结果。

在本公开实施例中，对于每一组对象，终端在得到该组对象的图交互特征的情况下，可以根据图交互特征，对该组对象的图关系进行分类，得到图关系结果。

在一些实施例中，终端可以将该组对象的图交互特征输入到全连接层中，通过该全连接层对该组对象的图关系进行分类，从而得到图关系分类分数，并将得到的图关系分类分数，作为该组对象的图关系结果。

示例性地，终端根据每一组对象的图交互特征，得到该组对象的图关系结果的过程，可以采用下述公式(8)表示：

其中，

表示每一组对象的图关系结果，

表示每一组对象的图交互特征，W_a表示全连接层的学习权重，σ(.)表示激活函数。

S1038基于空间结果、动作结果、交互结果、图关系结果，以及对每个组员对象进行检测时所得到的置信结果，确定每一组对象的目标结果。

在本公开实施例中，对于每一组对象，终端可以根据获得的该组对象的空间结果，每个组员对象的动作结果，该组对象的交互结果和图关系结果，以及在上述步骤中对每个组员对象进行检测时所得到的置信结果，来得到该组对象的目标结果。

在一些实施例中，对于每一组对象，终端可以确定出所有组员对象的置信结果之间的第一乘积值；确定出所有组员对象的动作结果之间的第二乘积值；确定出第一乘积值、第二乘积值、空间结果和图关系结果之间的第三乘积；确定出交互结果与第一预设分数阈值之间的指标值；以及，将第三乘积值与指标值之间的乘积，作为该组对象的目标结果。

示例性地，根据空间结果、动作结果、交互结果、图关系结果，以及每个组员对象的置信结果，确定出每一组对象的目标结果的过程，可以采用下述公式(9)表示：

其中，

表示目标结果，s_h或s_o表示组员对象的置信结果，其中，s_h表示类别为人的对象的置信结果，s_o表示类别为物体的对象的置信结果；

或

表示组员对象的动作结果，其中，

表示类别为人的对象的动作结果，

表示类别为物体的对象的动作结果；

表示图关系结果和空间结果之间的乘积，

表示交互结果，μ_s表示第一预设分数阈值，

表示指标函数。

在一些实施例中，上述S101中的对特征进行编码，得到与多个对象分别一一对应的多维特征，可以通过S1011-S1014实现，以下将结合图7中的步骤进行说明。

S1011、将与多个对象分别一一对应的位置特征进行编码，得到每个对象的第一特征；检测包括：图像检测和词向量检测。

S1012、将与多个对象分别一一对应的视觉特征进行编码，得到每个对象的第二特征；位置特征和视觉特征是对每张待检测图像进行图像检测得到的。

S1013、将与多个对象分别一一对应的词向量特征进行编码，得到每个对象的第三特征；词向量特征是对每个对象的类别信息，进行词向量检测得到的；类别信息是对每张待检测图像进行图像检测得到的。

S1014、根据第一特征、第二特征和第三特征，得到与多个对象分别一一对应的多维特征；其中，第一特征、第二特征和第三特征的维度相同。

在本公开实施例中，终端在得到对一张待检测图像进行图像检测和词向量检测后所得到的每个对象的位置特征、视觉特征和词向量特征之后，可以将这三个特征分别编码至同一特征空间中，从而对应得到维度相同的第一特征、第二特征和第三特征。

示例性地，一个对象的位置特征可以是该对象在待检测图像中的标注框的坐标，视觉特征可以是与该标注框的坐标所对应的RoI池化后的特征图，该词向量特征可以是与该对象的类别信息对应的词向量。

在本公开的一些实施例中，在上述S101中的对每张待检测图像进行检测得到多个对象的特征，可以通过S401-S403实现，以下将结合图8中的步骤进行说明。

S401、对每张待检测图像进行图像检测，得到检测出的每个目标的位置特征、视觉特征、置信结果，以及与置信结果对应的类别信息。

S402、将置信结果大于或等于第二预设分数阈值的目标，作为检测出的对象，得到与多个对象分别一一对应的位置特征、视觉特征，以及类别信息。

S403、对每个对象的类别信息进行词向量检测，得到每个对象的词向量特征。

在本公开的实施例中，对于每一张待检测图像，终端通过图像检测，可以得到该张待检测图像中每个目标的位置特征、视觉特征、置信结果，以及与置信结果对应的类别信息，之后，终端可以将每个目标的置信结果与第二预设分数阈值进行比较，根据比较结果，去掉置信结果小于第二预设分数阈值的目标，并保留置信结果大于或等于第二预设分数阈值的目标，将保留的所有目标作为上述的多个对象，从而得到每个对象所对应的位置特征、视觉特征、置信结果，以及与置信结果对应的类别信息；并且，在得到每个对象的类别信息的情况下，终端还可以对该每个对象的类别信息进行词向量检测，得到每个对象所对应的词向量特征。

这里，将置信结果大于或等于第二预设分数阈值的每个目标，作为每个对象，以用于后续进行待检测图像的行为识别，如此，可以减少对待检测图像中的人与物体之间的交互行为进行识别时的干扰因素，有利于提高对待检测图像中的人与物体之间的交互行为，进行识别时的识别准确度。

需要说明的是，第二预设分数阈值可以根据实际需要设置，本公开实施例对此不作限定。

在一些实施例中，在进行编码的情况下，终端可以采用多层感知器(MultilayerPerceptron，MLP)分别对每个对象的位置特征、视觉特征和词向量特征进行编码，从而对应得到每个对象的维度相同的第一特征、第二特征和第三特征。

示例性地，第一特征、第二特征和第三特征可以均是256维度的特征。终端在获得每个对象的256维度的第一特征、第二特征和第三特征之后，可以将第一特征、第二特征和第三特征在通道维度上进行叠加，从而对应得到该对象的768维度的多维特征。

在一些实施例中，上述S1012可以通过S301-S302实现：

S301、将与多个对象分别一一对应的视觉特征，进行维度变换处理，得到每个对象的维度变换后的视觉特征。

S302、对维度变换后的视觉特征进行编码，得到每个对象的第二特征。

在本公开实施例中，由于每个对象的视觉特征是二维特征，因而，在进行编码之前，对于每个对象的视觉特征而言，终端可以对视觉特征进行维度变换(Reshap)，得到维度变换后的一维的视觉特征，并对维度变换后的一维的视觉特征进行编码，从而得到每个对象的第二特征。

在本公开的一些实施例中，上述S102中的基于每一组对象的每个组员对象的特征中的部分特征，确定每一组对象的至少两类对象的空间结果，以及每个组员对象的动作结果，可以通过S1021-S1024实现，将结合图9中的步骤进行说明。

S1021、基于每一组对象的每个组员对象的位置特征，确定每个组员对象在每张待检测图像中的图像区域；部分特征包括：每个组员对象的位置特征和视觉特征；位置特征和视觉特征是对每张待检测图像进行图像检测得到的。

在本公开实施例中，对于每一组对象中的每个组员对象，终端可以根据该组员对象的位置特征，从对应的待检测图像中确定该组员对象对应的图像区域。

示例性地，在位置特征为标注框的坐标，且一个组员对象为摩托车的情况下，终端可以根据摩托车在待检测图像中的标注框的坐标，将该标注框所标出的摩托车的图像区域截取下来，从而得到该摩托车的图像区域。

S1022、根据每个组员对象的图像区域，得到每一组对象对应的图像区域，并对每一组对象对应的图像区域进行编码，得到二维特征数据。

在本公开实施例中，对于每一组对象，终端在得到每个组员对象的图像区域的情况下，可以将所有组员对象的图像区域进行拼接，得到该组对象的图像区域，并对该组对象的图像区域进行编码；在编码的过程中，在人通道中，人的图像区域的值为1，其他区域的值为0，在物体通道中，物体的图像区域的值为1，其他区域的值为0，由此得到该组对象的二维特征数据。

例如，在一组对象包含人和摩托车的情况下，终端可以将在S1021中得到的人的图像区域和摩托车的图像区域进行拼接，从而得到人-摩托车这组对象的图像区域，并使得在人通道中，人的图像区域的值为1，其他区域的值为0，在摩托车通道中，摩托车的图像区域的值为1，其他区域的值为0，由此得到人-摩托车这组对象的二维特征数据。

S1023、对二维特征数据，以及每个组员对象的视觉特征，分别进行特征处理，对应得到处理后的二维特征数据和处理后的视觉特征。

在本公开实施例中，对于每一组对象，终端在得到该组对象的二维特征数据，以及每个组员对象的视觉特征的情况下，可以分别对二维特征数据和视觉特征进行特征处理，从而分别得到处理后的二维特征数据和处理后的视觉特征。

示例性地，终端可以先通过卷积神经网络(Convolutional Neural Networks，CNN，简称为CNN Block)对二维特征数据进行特征提取，得到第一子特征；通过残差网络(Residual Block，简称为Res Block)对每个组员对象的视觉特征进行特征提取，得到第二子特征；之后对第一子特征和第二子特征分别进行全局平均池化(Global averagePooling，GAP)，对应得到处理后的二维特征数据和处理后的视觉特征。

示例性地，处理后的二维特征数据，以及处理后的视觉特征，可以分别通过下述公式(10)、(11)和(12)所示：

f_h＝GAP(Res(RoI(F,b_h))) (11)

f_o＝GAP(Res(RoI(F,b_o))) (12)

其中，F表示待检测图像的ROI池化后的特征图，f_h或f_o是每个组员对象的处理后的视觉特征，其中，f_h表示类别为人的对象的处理后的视觉特征，f_o表示类别为物体的对象的处理后的视觉特征；

表示处理后的二维特征数据，例如，f_h,o表示在一组对象包括类别为人和类别为物体的两个对象的情况下，人-物体这组对象的处理后的二维特征数据；F_h,o表示每一组对象对应的图像区域，b_h或b_o表示每个组员对象的位置特征，其中，b_h表示类别为人的对象的位置特征，b_o表示类别为物体的对象的位置特征；RoI(F,b_h)或RoI(F,b_o)表示每个组员对象的视觉特征，其中，RoI(F,b_h)表示类别为人的对象的视觉特征，RoI(F,b_o)表示类别为物体的对象的视觉特征。

S1024、根据处理后的二维特征数据，对每一组对象进行分类，得到每一组对象的空间结果，以及根据处理后的视觉特征，对每个组员对象进行分类，得到每个组员对象的动作结果。

在本公开实施例中，终端在得到处理后的二维特征数据，以及每个组员对象的处理后的视觉特征的情况下，可以根据处理后的二维特征数据，对该组对象进行空间分类，得到该组对象对应的空间结果；以及根据每个组员对象的处理后的视觉特征，对该组员对象进行动作分类，得到该组员对象的动作结果。

在一些实施例中，终端可以将处理后的二维特征数据输入一个全连接层中，通过该全连接层对该组对象进行分类，得到空间分类分数，并将该空间分类分数作为该组对象的空间结果；以及，终端可以将每个组员对象的处理后的视觉特征输入另一个全连接层中，通过该全连接层对该组员对象进行分类，得到动作分类分数，并将动作分类分数作为动作结果。

示例性地，终端根据处理后的二维特征数据，对每一组对象进行分类，得到每一组对象的空间结果，以及根据每个组员对象的处理后的视觉特征，对每个组员对象进行分类，得到每个组员对象的动作结果，可以通过下述公式(13)、(14)和(15)分别表示：

其中，

表示每一组对象的空间结果，

或

表示每个组员对象的动作结果，其中，

表示类别为人的组员对象的动作结果，

表示类别为物体的组员对象的动作结果；W_h表示类别为人的组员对象所对应的全连接层的学习权重，W_o表示类别为物体的组员对象所对应的全连接层的学习权重，W_h,o表示每一组对象所对应的全连接层的学习权重。

以下将结合一个具体的应用场景对本公开的技术方案进行描述；图10是本公开实施例提供的示例性地采用行为识别方法识别一张待检测图像中的对象行为的部分流程示意图。

如图10所示，终端对一张待检测图像I进行目标检测与词向量检测，得到该张待检测图像中每个对象的位置特征、置信结果、词向量特征，例如，如图10中所示，在检测出摩托车和头盔的情况下，可以采用检测器对摩托车进行词向量检测，得到摩托车对应的词向量特征，以及，可以采用检测器对头盔进行词向量检测，得到头盔对应的词向量特征；以及，终端还可以根据每个对象的位置特征，对该待检测图像在图像检测过程中得到的ROI池化后的图像，进行特征截取，得到每个对象的视觉特征。

一方面，终端在得到每个对象的位置特征、词向量特征和视觉特征后，终端可以通过语义编码模块，采用MLP分别对位置特征和词向量特征进行编码，对应得到第一特征和第三特征，同时，对每个对象的视觉特征进行维度变换处理(Reshap)，并采用MLP对维度变换处理后的视觉特征同样进行编码，得到与第一特征和第三特征的维度相同的第二特征，并将第一特征、第二特征和第三特征在通道维度进行叠加，得到该待检测图像I中的每个对象对应的多维特征。根据该待检测图像I的所有对象(即多个对象)分别一一对应的多维特征，生成与所有对象所对应的全连接图，并通过邻接矩阵表征该全连接图(图10中未示出)，将邻接矩阵和与所有对象分别一一对应的多维特征均作为GCN网络的输入，通过GCN网络的图卷积处理，得到每个对象的更新后的多维特征；根据每个对象的更新后的多维特征，得到每一组对象的关系交互特征，并将每一组对象的关系交互特征输入全连接层(FCs)中，对该组对象进行分类，得到每一组对象的交互结果

其中，对该待检测图像I中的所有对象分组可以得到多组对象。终端根据每一组对象的交互结果，保留所对应的交互结果大于或等于第一预设分数阈值的每一组对象，得到组员对象之间相互关联的多个关联对象组；并且，终端根据每个关联对象组对应的关系交互特征，以及预设参数，对该关联对象组中每个组员对象的多维特征进行更新，得到每个组员对象的细化特征(该更新过程可以通过图10中的信息传递过程表示)，针对每个关联对象组，终端将该关联对象组中所有组员对象的细化特征，在通道维度上进行叠加，得到该关联对象组的图交互特征(图10中未示出)，并将该图交互特征输入全连接层中进行分类，得到该关联对象组的图关系结果

另一方面，终端根据每个对象的位置特征，得到每个对象的图像区域，并将每一组对象的组员对象的图像区域进行拼接，得到每一组对象的图像区域，并对每一组对象的图像区域进行编码，得到二维特征数据。之后，对于每一组对象，将该组对象中的组员对象(例如，图1中的对象1和对象2)的视觉特征，分别输入残差网络中进行特征提取，得到不同的第二子特征(图10中未示出)，以及，对于每一组对象的二维特征数据，将该二维特征数据输入卷积神经网络中进行特征提取，得到第一子特征(图10中未示出)，并分别对第一子特征和每个第二子特征进行全局平均池化，得到每个组员对象的处理后的视觉特征，例如，图10中的对象1的处理后的视觉特征，以及对象2的处理后的视觉特征，并得到该组对象的处理后的二维特征数据。之后，再将对象1的处理后的视觉特征、对象2的处理后的视觉特征，以及该组对象的处理后的二维特征数据，分别输入不同的全连接层中进行分类，分别得到对象1的动作结果

对象2的动作结果

以及对象1和对象2所组成的一组对象的空间结果

最终，终端将上述过程中所得到的所有结果代入上述公式(9)中，便可计算出每个关联对象组的目标结果，从而根据得到的所有关联对象组的目标结果中，最高的目标结果所对应的一个关联对象组，便可识别出待检测图像I中的人物交互行为。

本公开还提供一种行为识别装置，图11为本公开实施例提供的行为识别装置的结构示意图；如图11所示，行为识别装置1包括：编码单元10，用于对每张待检测图像进行检测得到多个对象的特征，对所述特征进行编码，得到与所述多个对象分别一一对应的多维特征；结果确定单元20，用于基于每一组对象的每个组员对象的特征中的部分特征，确定所述每一组对象的至少两类对象的空间结果，以及每个所述组员对象的动作结果，其中，所述每一组对象至少包含：所述多个对象中类别为物体的对象，以及类别为人的对象；基于所述多维特征，确定所述每一组对象的关系交互特征，并在依据所述关系交互特征，确定所述每一组对象中的所述组员对象之间相互关联的情况下，基于所述空间结果和所述动作结果，确定所述每一组对象的目标结果，得到至少一个所述目标结果；行为确定单元30，用于基于至少一个所述目标结果，确定所述每张待检测图像中的对象行为。

在本公开的一些实施例中，所述结果确定单元20，还用于基于与所述多个对象分别一一对应的所述多维特征，生成与所述多个对象所对应的全连接图；通过对每个所述对象一一对应的所述多维特征，以及所述全连接图，进行图卷积处理，得到与每个所述对象一一对应的更新后的多维特征；根据所述每一组对象中每个组员对象的所述更新后的多维特征，得到所述每一组对象的所述关系交互特征。

在本公开的一些实施例中，所述结果确定单元20，还用于根据所述关系交互特征，对所述每一组对象进行分类，得到所述每一组对象的交互结果；在所述交互结果大于或等于第一预设分数阈值的情况下，确定所述每一组对象中的所述组员对象之间相互关联。

在本公开的一些实施例中，所述结果确定单元20，还用于基于所述每一组对象的所述关系交互特征，以及预设参数，对每个所述组员对象的所述多维特征进行更新，得到每个所述组员对象的细化特征，并基于所述细化特征，确定所述每一组对象的图交互特征；基于所述图交互特征，对所述每一组对象进行分类，得到图关系结果；基于所述空间结果、所述动作结果、所述交互结果、所述图关系结果，以及对每个所述组员对象进行所述检测时所得到的置信结果，确定所述每一组对象的所述目标结果。

在本公开的一些实施例中，所述目标结果为目标数值；所述行为确定单元30，还用于根据至少一个所述目标数值，从与至少一个所述目标数值一一对应的多个关联对象组中，选出与最高的目标数值所对应的一个关联对象组，并识别所述一个关联对象组中的所述组员对象之间的行为。

在本公开的一些实施例中，所述全连接图通过邻接矩阵表征，所述邻接矩阵中的每个数据表征对应的两个对象之间的关联度；所述结果确定单元20，还用于基于所述邻接矩阵和每个所述对象一一对应的所述多维特征，通过图神经网络，对每个所述对象的所述多维特征进行迭代，得到与每个所述对象一一对应的更新后的多维特征。

在本公开的一些实施例中，所述两个对象包括：第一对象和第二对象；所述结果确定单元20，还用于确定所述第一对象的所述多维特征和所述第二对象的所述多维特征之间的相似度；基于所述第一对象在所述每张待检测图像中的位置特征，以及所述第二对象在所述每张待检测图像中的位置特征，确定所述第一对象与所述第二对象之间的距离；基于所述相似度和所述距离，确定所述第一对象和所述第二对象之间的所述关联度。

在本公开的一些实施例中，所述结果确定单元20，还用于基于更新参数、所述邻接矩阵、与迭代次数对应的第一权重参数，以及每个所述对象一一对应的所述多维特征，对每个所述对象的所述多维特征进行迭代更新，并在迭代次数达到第一预设次数的情况下，将所述第一预设次数之后生成的特征，作为每个所述对象的所述更新后的多维特征。

在本公开的一些实施例中，所述预设参数包括：第二权重参数和迭代次数；所述结果确定单元20，还用于基于所述第二权重参数和所述每一组对象的所述关系交互特征，对每个所述组员对象的所述多维特征进行迭代更新，并在迭代次数达到第二预设次数的情况下，将所述第二预设次数之后生成的特征，作为每个所述组员对象的所述细化特征。

在本公开的一些实施例中，所述检测包括：图像检测和词向量检测；所述编码单元10，还用于将与所述多个对象分别一一对应的位置特征进行编码，得到每个对象的第一特征；将与所述多个对象分别一一对应的视觉特征进行编码，得到每个所述对象的第二特征；所述位置特征和所述视觉特征是对所述每张待检测图像进行图像检测得到的；将与所述多个对象分别一一对应的词向量特征进行编码，得到每个所述对象的第三特征；所述词向量特征是对每个所述对象的类别信息，进行词向量检测得到的；所述类别信息是对所述每张待检测图像进行图像检测得到的；根据所述第一特征、第二特征和所述第三特征，得到与所述多个对象分别一一对应的所述多维特征；其中，所述第一特征、所述第二特征和所述第三特征的维度相同。

在本公开的一些实施例中，所述编码单元10，还用于将与所述多个对象分别一一对应的视觉特征，进行维度变换处理，得到每个所述对象的维度变换后的视觉特征；对所述维度变换后的视觉特征进行编码，得到每个所述对象的所述第二特征。

在本公开的一些实施例中，所述部分特征包括：每个所述组员对象的位置特征和视觉特征；所述位置特征和所述视觉特征是对所述每张待检测图像进行图像检测得到的；所述结果确定单元20，还用于基于所述每一组对象的每个所述组员对象的所述位置特征，确定每个所述组员对象在所述每张待检测图像中的图像区域；根据每个所述组员对象的所述图像区域，得到所述每一组对象对应的图像区域，并对所述每一组对象对应的图像区域进行编码，得到二维特征数据；对所述二维特征数据，以及每个所述组员对象的所述视觉特征，分别进行特征处理，对应得到处理后的二维特征数据和处理后的视觉特征；根据所述处理后的二维特征数据，对所述每一组对象进行分类，得到所述每一组对象的所述空间结果，以及根据所述处理后的视觉特征，对每个所述组员对象进行分类，得到每个所述组员对象的所述动作结果。

在本公开的一些实施例中，所述装置还包括检测单元，用于对所述每张待检测图像进行图像检测，得到检测出的每个目标的位置特征、视觉特征、置信结果，以及与所述置信结果对应的类别信息；将所述置信结果大于或等于第二预设分数阈值的目标，作为检测出的对象，得到与所述多个对象分别一一对应的所述位置特征、所述视觉特征，以及所述类别信息；对每个对象的所述类别信息进行词向量检测，得到每个所述对象的词向量特征。

本公开实施例还提供一种电子设备，图12为本公开实施例提供的虚拟标签展示设备的结构示意图，如图12所示，包括：存储器22和处理器23，其中，存储器22和处理器23通过总线21连接；存储器22，用于存储可执行计算机程序；处理器23，用于执行存储器22中存储的可执行计算机程序时，实现本公开实施例提供的方法，例如，本公开实施例提供的行为识别方法。

本公开实施例提供一种计算机可读存储介质，存储有计算机程序，用于引起处理器23执行时，实现本公开实施例提供的方法，例如，本公开实施例提供的行为识别方法。

在本公开的一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

计算机可读存储介质还可以是保持和存储由指令执行设备使用的指令的有形设备，可为易失性存储介质或非易失性存储介质。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：U盘、磁碟、光盘、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦拭可编程只读存储器(EPROM或闪存)、静态随机存储读取器(ROM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、记性编码设备、例如其上存储有指令的打孔卡或凹槽内凹起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电池波、通过波导或其他传媒介质传播的电池波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

在本公开的一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本公开的实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本公开的保护范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

对每张待检测图像进行检测得到多个对象的特征，对所述特征进行编码，得到与所述多个对象分别一一对应的多维特征；

基于每一组对象的每个组员对象的特征中的部分特征，确定所述每一组对象的至少两类对象的空间结果，以及每个所述组员对象的动作结果，其中，所述每一组对象至少包含：所述多个对象中类别为物体的对象，以及类别为人的对象；

基于所述多维特征，确定所述每一组对象的关系交互特征，并在依据所述关系交互特征，确定所述每一组对象中的所述组员对象之间相互关联的情况下，基于所述空间结果和所述动作结果，确定所述每一组对象的目标结果，得到至少一个所述目标结果；

基于至少一个所述目标结果，确定所述每张待检测图像中的对象行为。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多维特征，确定所述每一组对象的关系交互特征，包括：

基于与所述多个对象分别一一对应的所述多维特征，生成与所述多个对象所对应的全连接图；

通过对每个所述对象一一对应的所述多维特征，以及所述全连接图，进行图卷积处理，得到与每个所述对象一一对应的更新后的多维特征；

根据所述每一组对象中每个所述组员对象的所述更新后的多维特征，得到所述每一组对象的所述关系交互特征。

3.根据权利要求1或2所述的方法，其特征在于，所述依据所述关系交互特征，确定所述每一组对象中的所述组员对象之间相互关联，包括：

根据所述关系交互特征，对所述每一组对象进行分类，得到所述每一组对象的交互结果；

在所述交互结果大于或等于第一预设分数阈值的情况下，确定所述每一组对象中的所述组员对象之间相互关联。

4.根据权利要求3所述的方法，其特征在于，所述基于所述空间结果和所述动作结果，确定所述每一组对象的目标结果，包括：

基于所述每一组对象的所述关系交互特征，以及预设参数，对每个所述组员对象的所述多维特征进行更新，得到每个所述组员对象的细化特征，并基于所述细化特征，确定所述每一组对象的图交互特征；

基于所述图交互特征，对所述每一组对象进行分类，得到图关系结果；

基于所述空间结果、所述动作结果、所述交互结果、所述图关系结果，以及对每个所述组员对象进行所述检测时所得到的置信结果，确定所述每一组对象的所述目标结果。

5.根据权利要求1所述的方法，其特征在于，所述目标结果为目标数值；所述基于至少一个所述目标结果，确定所述每张待检测图像中的对象行为，包括：

根据至少一个所述目标数值，从与至少一个所述目标数值一一对应的多个关联对象组中，选出与最高的目标数值所对应的一个关联对象组，并识别所述一个关联对象组中的所述组员对象之间的行为。

6.根据权利要求2所述的方法，其特征在于，所述全连接图通过邻接矩阵表征，所述邻接矩阵中的每个数据表征对应的两个对象之间的关联度；

所述通过对每个所述对象一一对应的所述多维特征，以及所述全连接图，进行图卷积处理，得到与每个所述对象一一对应的更新后的多维特征，包括：

基于所述邻接矩阵和每个所述对象一一对应的所述多维特征，通过图神经网络，对每个所述对象的所述多维特征进行迭代，得到与每个所述对象一一对应的更新后的多维特征。

7.根据权利要求6所述的方法，其特征在于，所述两个对象包括：第一对象和第二对象；确定所述两个对象之间的关联度的方法包括：

确定所述第一对象的所述多维特征和所述第二对象的所述多维特征之间的相似度；

基于所述第一对象在所述每张待检测图像中的位置特征，以及所述第二对象在所述每张待检测图像中的位置特征，确定所述第一对象与所述第二对象之间的距离；

基于所述相似度和所述距离，确定所述第一对象和所述第二对象之间的所述关联度。

8.根据权利要求6或7所述的方法，其特征在于，所述基于所述邻接矩阵和每个所述对象一一对应的所述多维特征，通过图神经网络，对每个所述对象的所述多维特征进行迭代，得到与每个所述对象一一对应的更新后的多维特征，包括：

基于更新参数、所述邻接矩阵、与迭代次数对应的第一权重参数，以及每个所述对象一一对应的所述多维特征，对每个所述对象的所述多维特征进行迭代更新，并在迭代次数达到第一预设次数的情况下，将所述第一预设次数之后生成的特征，作为每个所述对象的所述更新后的多维特征。

9.根据权利要求4所述的方法，其特征在于，所述预设参数包括：第二权重参数和迭代次数；所述基于所述每一组对象的所述关系交互特征，以及预设参数，对每个所述组员对象的所述多维特征进行更新，得到每个所述组员对象的细化特征，包括：

基于所述第二权重参数和所述每一组对象的所述关系交互特征，对每个所述组员对象的所述多维特征进行迭代更新，并在迭代次数达到第二预设次数的情况下，将所述第二预设次数之后生成的特征，作为每个所述组员对象的所述细化特征。

10.根据权利要求1所述的方法，其特征在于，所述检测包括：图像检测和词向量检测；所述对所述特征进行编码，得到与所述多个对象分别一一对应的多维特征，包括：

将与所述多个对象分别一一对应的位置特征进行编码，得到每个对象的第一特征；

将与所述多个对象分别一一对应的视觉特征进行编码，得到每个所述对象的第二特征；所述位置特征和所述视觉特征是对所述每张待检测图像进行图像检测得到的；

将与所述多个对象分别一一对应的词向量特征进行编码，得到每个所述对象的第三特征；所述词向量特征是对每个所述对象的类别信息，进行词向量检测得到的；所述类别信息是对所述每张待检测图像进行图像检测得到的；

根据所述第一特征、第二特征和所述第三特征，得到与所述多个对象分别一一对应的所述多维特征；其中，所述第一特征、所述第二特征和所述第三特征的维度相同。

11.根据权利要求10所述的方法，其特征在于，所述将与所述多个对象分别一一对应的视觉特征进行编码，得到每个所述对象的第二特征，包括：

将与所述多个对象分别一一对应的视觉特征，进行维度变换处理，得到每个所述对象的维度变换后的视觉特征；

对所述维度变换后的视觉特征进行编码，得到每个所述对象的所述第二特征。

12.根据权利要求1、10或11所述的方法，其特征在于，所述部分特征包括：每个所述组员对象的位置特征和视觉特征；所述位置特征和所述视觉特征是对所述每张待检测图像进行图像检测得到的；

所述基于每一组对象的每个组员对象的特征中的部分特征，确定所述每一组对象的至少两类对象的空间结果，以及每个所述组员对象的动作结果，包括：

基于所述每一组对象的每个所述组员对象的所述位置特征，确定每个所述组员对象在所述每张待检测图像中的图像区域；

根据每个所述组员对象的所述图像区域，得到所述每一组对象对应的图像区域，并对所述每一组对象对应的图像区域进行编码，得到二维特征数据；

对所述二维特征数据，以及每个所述组员对象的所述视觉特征，分别进行特征处理，对应得到处理后的二维特征数据和处理后的视觉特征；

根据所述处理后的二维特征数据，对所述每一组对象进行分类，得到所述每一组对象的所述空间结果，以及根据所述处理后的视觉特征，对每个所述组员对象进行分类，得到每个所述组员对象的所述动作结果。

13.根据权利要求1所述的方法，其特征在于，所述对每张待检测图像进行检测得到多个对象的特征，包括：

对所述每张待检测图像进行图像检测，得到检测出的每个目标的位置特征、视觉特征、置信结果，以及与所述置信结果对应的类别信息；

将所述置信结果大于或等于第二预设分数阈值的目标，作为检测出的对象，得到与所述多个对象分别一一对应的所述位置特征、所述视觉特征，以及所述类别信息；

对每个对象的所述类别信息进行词向量检测，得到每个所述对象的词向量特征。

14.一种行为识别装置，其特征在于，包括：

编码单元，用于对每张待检测图像进行检测得到多个对象的特征，对所述特征进行编码，得到与所述多个对象分别一一对应的多维特征；

结果确定单元，用于基于每一组对象的每个组员对象的特征中的部分特征，确定所述每一组对象的至少两类对象的空间结果，以及每个所述组员对象的动作结果，其中，所述每一组对象至少包含：所述多个对象中类别为物体的对象，以及类别为人的对象；基于所述多维特征，确定所述每一组对象的关系交互特征，并在依据所述关系交互特征，确定所述每一组对象中的所述组员对象之间相互关联的情况下，基于所述空间结果和所述动作结果，确定所述每一组对象的目标结果，得到至少一个所述目标结果；

行为确定单元，用于基于至少一个所述目标结果，确定所述每张待检测图像中的对象行为。

15.一种电子设备，其特征在于，包括：

存储器，用于存储可执行计算机程序；

处理器，用于执行所述存储器中存储的可执行计算机程序时，实现权利要求1至13中任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，用于引起处理器执行时，实现权利要求1至13中任一项所述的方法。