CN117743617A

CN117743617A - 人物交互检测方法、模型训练方法及装置

Info

Publication number: CN117743617A
Application number: CN202311766862.0A
Authority: CN
Inventors: 陈子亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-22

Abstract

本公开提供了一种人物交互检测方法、模型训练方法及装置，涉及人工智能技术领域，具体涉及计算机视觉、深度学习、大模型等技术领域。该方法包括以下步骤：提取待检测图像的图像特征；获取初始查询矩阵；其中，所述初始查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；基于解码器，对所述图像特征和所述初始查询矩阵进行特征融合处理，确定所述待检测图像所对应的检测结果。

Description

人物交互检测方法、模型训练方法及装置

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、深度学习、大模型等技术领域，可应用于智慧城市等场景；尤其涉及一种人物交互检测方法、模型训练方法及装置。

背景技术

人物交互检测，即定位出图片中的人、物体，并确定出人和物之间的交互行为的检测。

如何准确识别图像中的人物交互关系，是一个亟需解决的问题。

发明内容

本公开提供了一种人物交互检测方法、模型训练方法及装置，以准确识别出图像中的人物交互关系。

根据本公开的第一方面，提供了一种人物交互检测方法，其中，所述方法包括：

提取待检测图像的图像特征；

获取初始查询矩阵；其中，所述初始查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；所述人物交互关系为人与物体之间的交互关系；

基于解码器，对所述图像特征和所述初始查询矩阵进行特征融合处理，确定所述待检测图像所对应的检测结果；其中，所述检测结果表征待检测图像中的人物交互关系。

根据本公开的第二方面，提供了一种提取待训练图像的图像特征；其中，所述待训练图像具有第一人物交互关系；

获取待训练查询矩阵；其中，所述待训练查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；所述人物交互关系为人与物体之间的交互关系；

基于初始解码器，对所述待训练图像的图像特征和所述待训练查询矩阵进行特征融合处理，得到所述待训练图像所对应的第二人物交互关系；

根据所述第一人物交互关系和第二人物交互关系，对所述待训练查询矩阵和所述初始解码器进行修正，得到训练好的解码器和初始查询矩阵。

根据本公开的第三方面，提供了一种人物交互检测装置，其中，所述装置包括：

第一提取单元，用于提取待检测图像的图像特征；

第一获取单元，用于获取初始查询矩阵；其中，所述初始查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；所述人物交互关系为人与物体之间的交互关系；

第一处理单元，用于基于解码器，对所述图像特征和所述初始查询矩阵进行特征融合处理，确定所述待检测图像所对应的检测结果；其中，所述检测结果表征待检测图像中的人物交互关系。

根据本公开的第四方面，提供了一种模型训练装置，其中，所述装置包括：

第二提取单元，用于提取待训练图像的图像特征；其中，所述待训练图像具有第一人物交互关系；

第二获取单元，用于获取待训练查询矩阵；其中，所述待训练查询矩阵包括多组查询集合；所述查询集合为用于提取人物交互关系的参数集合，所述查询集合包括至少一个查询向量，所述查询向量用于提取人物交互关系中与该查询向量对应的特征；所述人物交互关系为人与物体之间的交互关系；

第二处理单元，用于基于初始解码器，对所述待训练图像的图像特征和所述待训练查询矩阵进行特征融合处理，得到所述待训练图像所对应的第二人物交互关系；

修正单元，用于根据所述第一人物交互关系和第二人物交互关系，对所述待训练查询矩阵和所述初始解码器进行修正，得到训练好的解码器和初始查询矩阵。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法，或者，以使所述至少一个处理器能够执行第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法，或者，所述计算机指令用于使所述计算机执行第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法，或者，所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种人物交互检测方法的流程示意图；

图2为本公开实施例提供的第二种人物交互检测方法的流程示意图；

图3为本公开实施例提供的一种模型结构示意图；

图4为本公开实施例提供的一种模型训练方法的流程示意图；

图5为本公开实施例提供的一种人物交互检测装置的结构示意图；

图6为本公开实施例提供的又一种人物交互检测装置的结构示意图；

图7为本公开实施例提供的一种模型训练装置的结构示意图；

图8为本公开实施例提供的第二种模型训练装置的结构示意图；

图9为本公开提供的一种电子设备的示意图；

图10是用来实现本公开实施例的人物交互检测方法、或模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，人和物体之间的交互关系检测，可以采用detr检测器进行图像检测。具体地，首先可以对需要检测的图像进行特征提取，得到图像所对应的全局特征。在基于dert模型中的解码器对全局特征进行处理时，解码器会根据接收到的多组查询向量，对全局特征进行融合处理，以便确定出图像中的人物交互关系。需要说明的是，在上述融合处理过程中，一个查询向量用于同时预测一组人和物体之间的交互关系所对应的各个特征。进而，通过上述一组查询向量对应确定一组人物交互关系所对应的所有特征，容易增加模型训练难度，导致模型预测结果较差。

为了避免上述技术问题中的至少一种，本公开的发明人经过创造性地劳动，得到了本公开的发明构思：在解码器基于初始查询矩阵进行图像特征融合处理时，一个查询向量仅用于提取一组人物交互关系中的一个特征，即将人物交互关系所对应的各个特征解耦，各查询向量仅需要关注自身所对应的一个特征，以便使得图像检测结果更加准确。

本公开提供一种人物交互检测方法、模型训练方法及装置，应用于人工智能技术领域中的计算机视觉、深度学习、大模型等技术领域。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1为本公开实施例提供的一种人物交互检测方法的流程示意图，其中，该方法包括：

S101、提取待检测图像的图像特征。

示例性地，本实施例中的执行主体可以为人物交互检测方法(以下简称为检测装置)，检测装置可以为服务器(如本地服务器，或者，云端服务器)，也可以为计算机，也可以为处理器，也可以为芯片等，本实施例不做限定。

本实施例中，人物交互关系具体用于表征人和物体之间的交互关系。在对待检测图像进行人物交互检测时，首先可以提取待检测图像所对应的图像特征。

需要说明的是，本实施例中对图像特征提取方法不做具体限制，可以采用相关技术中所提供的特征提取算子，也可以采用相关技术中所提供的模型结构，以便获取到用于描述整幅待检测图像的图像特征。

S102、获取初始查询矩阵；其中，初始查询矩阵包括多组查询集合；查询集合为用于提取人物交互关系的参数集合，查询集合包括至少一个查询向量，查询向量用于提取人物交互关系中与该查询向量对应的特征；人物交互关系为人与物体之间的交互关系。

示例性地，本实施例中的初始查询矩阵可以理解为用于提取图像中的人物交互关系的参数集合(也可以成为query)。并且，在初始查询矩阵中包括有多组查询集合。在实际应用中，一组查询集合用于提取图像中的一组人和物体之间的交互关系。并且，由于人物交互关系在实际应用中多个特征，因此，查询集合中还可以设置有多个查询向量，每一查询向量用于提取与该查询向量所对应的人物交互关系中的特征。

需要说明的是，本实施例中的初始查询矩阵为基于待训练图像、待训练图像所具有的人物交互关系对初始解码器进行训练的过程中所得到的，以便训练所得到的查询向量可以用于提取人物交互关系中的一个特征。

S103、基于解码器，对图像特征和初始查询矩阵进行特征融合处理，确定待检测图像所对应的检测结果；其中，检测结果表征待检测图像中的人物交互关系。

示例性地，在获取到初始查询矩阵之后，可以将初始查询矩阵和待检测图像所对应的图像特征输入至解码器中，并由解码器基于初始查询矩阵对图像特征进行特征融合处理，以得到待检测图像所对应的人物交互关系。

一个示例中，在解码器对初始查询矩阵和图像特征进行特征融合处理时，可以基于初始查询矩阵，对图像特征中的特征之间进行相关性的特征融合，进而得到更新后的查询矩阵，进而初始查询矩阵中所对应的各个查询向量可以基于相关性融合更新为各个参数各自所对应的特征。

可以理解的是，本实施例中，通过上述初始查询矩阵设置方式，可以对人物交互关系中所包含的各个特征进行解耦，即初始查询矩阵中的每一个查询向量用于提取人物交互关系中的一个特征，以便提高模型检测结果的准确度。

一个示例中，查询集合中至少包括第一查询向量、第二查询向量以及第三查询向量；其中，第一查询向量用于提取人物交互关系中的第一特征，第一特征为用于指示人的位置信息的特征；第二查询向量用于提取人物交互关系中的第二特征，第二特征为用于指示物体的位置信息和类别信息的特征；第三查询向量用于提取人物交互关系中的第三特征，第三特征为用于指示人与物体之间的交互动作的特征。

示例性地，本实施例中人物交互关系中的特征具体可以划分为第一特征、第二特征以及第三特征。其中，第一特征为描述人物交互关系中的人在图像中的位置信息的特征。而第二特征可以为用于描述人物交互关系中的物体在图像中所对应的位置，以及物体所对应的类别的特征。第三特征可以理解为用于表征人物交互关系中人对物体所进行的交互动作的特征。当将人物交互关系的特征细化为上述三个特征时，进一步地，在初始查询矩阵所包含的查询集合中，也可以对应设置三个查询向量(即，上述第一查询向量、第二查询向量以及第三查询向量)。以便通过上述初始查询矩阵的设置，从待检测图像中提取出各组人物各自所对应的人物交互关系，并获取到待检测图像中人物对的位置以及人所交互的物体类别、动作类别。

图2为本公开实施例提供的第二种人物交互检测方法的流程示意图，该方法包括以下步骤：

S201、基于卷积神经网络层，对待检测图像进行特征提取处理，得到待检测图像的特征图信息；特征图信息用于表征图像的局部特征。

示例性地，本实施例中，在提取待检测图像所对应的图像特征时，首先可以通过卷积神经网络层，对待检测图像进行卷积采样处理，以便获取到提取出待检测图像所对应的局部特征，即上述特征图信息。

S202、基于编码器，对特征图信息进行特征提取，得到待检测图像的图像特征。

示例性地，本实施例中，在得到待检测图像所对应的特征图信息之后，可以将特征图信息输入至预先训练好的编码器，以便基于编码器对所得到的特征图信息进行特征提取处理，已得到待检测图像所对应的图像特征。

一个示例中，上述编码器可以基于多头自注意力机制，对特征图信息进行处理，以得到待检测图像所对应的全局图像特征。

需要说明的是，本实施例中编码器的具体结构可以参见相关技术中的DETR模型中所对应的编码器的具体结构。例如，编码器中可以包括多个串联的编码层，且每一编码层中包括多头自注意力层、残差和归一化层、前馈神经网络层。

可以理解的是，本实施例中可以通过卷积神经网络层和编码器来对待检测图像进行图像特征提取，以便可以获取到表征待检测图像的全局特征的特征信息，以便后续在解码器解码的过程中可以结合待检测图像的全局特征进行特征融合处理，以提高检测结果的准确性。

S203、获取初始查询矩阵；其中，初始查询矩阵包括多组查询集合；查询集合为用于提取人物交互关系的参数集合，查询集合包括至少一个查询向量，查询向量用于提取人物交互关系中与该查询向量对应的特征；人物交互关系为人与物体之间的交互关系。

示例性地，步骤S203的技术原理可以参见步骤S102，此处不再赘述。

S204、基于解码器中的第一自注意力层，确定查询集合的组内相关性信息，并根据组内相关性信息，对查询集合中的向量进行更新，得到第一集合；组内相关性信息表征查询集合中所包含的查询向量之间的相关度；其中，查询集合中包括多个查询向量。

示例性地，本实施例中，在基于解码器，对初始查询矩阵和图像特征进行特征融合处理时，首先可以基于解码器中所包含的第一自注意力层，对初始查询矩阵中的每一查询集合分别进行自注意力处理，以便根据上述自注意力机制，对查询集合中所包含的查询向量进行更新。

具体地，针对每一查询集合进行自注意力处理，可以确定出查询集合中所包含的查询向量之间的相关度，即上述组内相关性信息。

一个示例中，在对查询集合进行自注意力处理时，针对查询集合中的每一查询向量，都可以确定该查询向量与该向量所处的查询集合之间的相关性分数，并基于所得到的相关性分数来更新该查询向量。进而，通过上述方式对每一查询集合进行更新，得到各查询集合所对应的第一集合。

一个示例中，当查询集合中包括有第一查询向量、第二查询向量以及第三查询向量时，经过自注意力处理之后，所得到的第一集合中包括有三个更新后的查询向量，且三个更新后的查询向量与查询集合中的各个查询向量一一对应。

可以理解的是，由于一个查询集合用于提取一组人和物体之间的人物交互关系，进而，通过对查询集合中所包含的多个查询向量进行集合内的自注意力处理，以便建立一组查询集合中的多个查询向量之间的相关性，进而后续在对图像特征进行特征融合过程中，可以充分结合一组人物交互关系中各个特征之间的相关性来进行特征融合处理，提高后续人物交互检测结果的准确性。

一个示例中，在步骤S204之后，还可以包括以下步骤：基于解码器中的归一化层，对各第一集合进行归一化处理，得到处理后的第一集合。

示例性地，本实施例中，在解码器中还可以设置有归一化层。并且，归一化层可用于对解码器中的第一自注意力层所输出的结果(即上述各个第一集合)进行归一化处理，以便减少后续数据处理难度。

S205、基于解码器的第二自注意力层，确定第一集合对应的组间相关性信息；并根据组间相关性信息，对第一集合进行更新，得到第二集合；其中，组间相关性信息表征第一集合与第一查询矩阵之间的相关度；第一查询矩阵由各第一集合组成。

示例性地，本实施例中，在确定检测结果时，首先会基于步骤S204所得到的多个第一集合，确定各第一集合所对应的组间相关性信息。具体地，组间相关性信息可以用于表征出第一集合之间的相关度。

一个示例中，在确定第一集合所对应的组间相关性信息时，可以根据将第一集合与由各第一集合所组成的第一查询矩阵进行矩阵点积运算，以确定出第一集合和第一查询矩阵所对应的组间相关性信息。之后，再根据第一集合所对应的组间相关性信息更新第一集合，得到各第一集合各自对应的第二集合。例如，可以直接将组间相关性信息作为更新后的第一集合。

一个示例中，S205中的“基于解码器的第二自注意力层，确定第一集合对应的组间相关性信息”包括以下步骤:

基于第二自注意力层，确定第一集合中的第四查询向量的相关性结果；相关性结果表征第四查询向量与各第一集合中的第四查询向量之间的相关性；第四查询向量为基于组内相关性信息对查询集合中用于提取目标特征的查询向量进行更新的结果；目标特征为用于指示人与物体之间的交互动作的特征、用于指示物体的位置信息和类别信息的特征、用于指示人的位置信息的特征中的任一项；确定第一集合中各第四查询向量所对应的相关性结果为第一集合对应的组间相关性信息。

示例性地，本实施例中，在第一集合中可以包括有第四查询向量，且第四查询向量为通过步骤S203对查询集合用于提取目标特征的查询向量更新所得到的，即，第四查询向量也可以看作用于提取目标特征的查询向量。在进行组间相关性信息时，可以将各第一集合中所包含的第四查询向量与当前第一集合中的第四查询向量进行相关性计算，以得到当前第一集合中的第四查询向量所对应的相关性结果。

举例来说，当查询集合中包括第一查询向量、第二查询向量以及第三查询向量时，则查询集合进行组内相关性处理(即，上述步骤S203)之后，则得到第一查询向量对应更新后的查询向量1、第二查询向量对应更新后的查询向量2以及第三查询向量对应更新后的查询向量3。查询向量1、查询向量2和查询向量3组成了查询集合所对应的第一集合。

在确定第一集合所对应的相关性结果时，可以将当前第一集合中的查询向量1，与各个第一集合中所包含的查询向量1进行组间相关性分析处理，以得到当前第一集合的查询向量1所对应的相关性结果。同样地，对于当前第一集合中的查询向量2，也需要与各第二集合中所包含的查询向量2进行组件相关性的分析处理，以得到当前第一集合的查询向量2所对应的相关性结果。查询向量3的相关性结果计算方式与上述过程类似，此处不再赘述。

可以理解的是，通过结合各个第一集合中用于提取同一特征的查询向量来用作组间相关性计算(例如，结合不同第一集合中用于提取人的位置信息的特征的参数)，以便后续在解码器对图像特征进行特征融合时，可以结合不同人物对(即，具有交互关系的人和物体)中同一特征进行特征提取，以便可以结合整个图像中所对应的信息进行特征提取，以提高特征提取的准确性。

S206、根据各第二集合和图像特征，确定待检测图像所对应的检测结果。其中，检测结果表征待检测图像中的人物交互关系。

示例性地，在得到经过组内相关性分析和组间相关性处理(即，步骤S203和S204)后的第二集合之后，可以根据所得到的各第二集合，对图像特征进行关联融合，以便确定出最终待检测图像中的人物交互特征。

举例来说，在根据各第二集合和图像特征确定检测结果时，可以根据各第二集合和图像特征进行矩阵相似性计算，并根据计算结果和图像特征以得到更新融合后的各个人物对中所对应的每一特征。之后，在根据所得到的每一特征进行预测处理，以得到最终的检测结果。

可以理解的是，本实施例中，通过结合组内相关性的分析以及组间相关性的分析，以便后续可以充分融合同一人物对内的特征，以及不同人物对内的特征，进行图像特征的融合处理，以便提高检测结果的准确性。

一个示例中，步骤S206可以通过如下步骤实现：基于解码器的交叉注意力层，对各第二集合和图像特征，进行交叉注意力处理，得到第二查询矩阵；第二查询矩阵包括各第二集合各自对应的第三集合；第三集合中包括人物交互关系中的特征；基于解码器的前馈神经网络层，对第二查询矩阵进行处理，得到待检测图像所对应的检测结果。

示例性地，本实施例中，在获取到各第二集合和图像特征之后，可以基于交叉注意力机制，对各第二集合和图像特征进行融合处理，以对各第二集合进行更新，进而得到用于指示待测图像中各人物对的人物交互关系的第三集合。具体地，第三集合中包括有该人物交互关系中的各个特征。

举例来说，若查询集合中包括第一查询向量、第二查询向量以及第三查询向量，则经过处理后所得到的第三集合中也对应人物交互关系中的第一特征、第二特征以及第三特征。

进一步地，当获取到上述第三集合之后，可以将第三集合输入至解码器中的前馈神经网络层，并基于前馈神经网络层进行检测结果预测，以得到待检测图像中的人物交互关系。

可以理解的是，本实施例中，通过结合交叉注意力机制和前馈神经网络，进行图像特征和更新后的查询向量(即，上述各个第二集合)进行特征融合以及结果预测，以便确定出待检测图像中的人物交互关系。

图3为本公开实施例提供的一种模型结构示意图。如图3所示，图中该模型中包括有卷积层、编码器、解码器；本实施例中所提供的模型用于进行人物交互检测。解码器中包括有多个依次串联的解码单元以及N个前馈神经网络层。每一解码单元中包括有依次连接的第一自注意力层、第二自注意力层以及交叉注意力层。其中，首个解码单元用于接收初始查询矩阵(其中，包括有N个查询向量，N为正整数)。解码单元中的各个层所对应的原理可参照图2所示的实施例中的描述，此处不再赘述。解码器中最后一个解码单元可输出N个特征，并且，上述每一特征输入与其对应的前馈神经网络层中，以便基于一个特征，确定出人物交互关系中的一个特征所对应的信息(例如，上述人的位置信息、或者物的位置信息、人对物的交互动作、物的类别信息等)。一种可能的实现方式中，解码单元的第一自注意力层、第二自注意力层以及交叉注意力层之后都可以设置一个残差网络和归一化层。例如，第一自注意力层和第二自注意力层之间可以设置一个残差网络和归一化层，第二自注意力层和交叉自注意力层之间可以设置一个残差网络和归一化层。需要说明的是，残差网络和归一化层的具体原理可以参见相关技术中的描述，此处不再赘述。

图4为本公开实施例提供的一种模型训练方法的流程示意图，该方法包括以下步骤：

S401、提取待训练图像的图像特征；其中，待训练图像具有第一人物交互关系。

示例性地，本实施例中所提供的训练方法用于训练一个可进行人物交互检测的模型。具体地，首先需要对待训练图像进行图像特征提取，以得到待训练图像所对应的图像特征。并且，本实施中的待训练图像具有第一人物交互关系，其中，第一人物交互关系可以看做是待训练图像所对应的标签，用于指示出待训练图像中所包含的人和物体之间的交互信息。

需要说明的是，本实施例中的图像特征提取方式可以参数步骤S101中的描述，此处不再赘述。

S402、获取待训练查询矩阵；其中，待训练查询矩阵包括多组查询集合；查询集合为用于提取人物交互关系的参数集合，查询集合包括至少一个查询向量，查询向量用于提取人物交互关系中与该查询向量对应的特征；人物交互关系为人与物体之间的交互关系。

示例性地，本实施例中在模型训练前，可以初始化生成一个待训练查询矩阵，并且，该待训练查询矩阵中设置有多组查询集合。一个查询集合用作提取图像中的一组人物(人和物体)之间的人物交互关系。并且，人物交互关系具体所对应的特征的数量与查询集合中所包含的查询向量的数量对应，以便后续查询向量可用于提取人物交互关系中的与该查询向量所对应的特征。

S403、基于初始解码器，对待训练图像的图像特征和待训练查询矩阵进行特征融合处理，得到待训练图像所对应的第二人物交互关系。

示例性地，在获取到待训练查询矩阵之后，可以将待训练查询矩阵和待训练图像的图像特征输入至初始解码器中，以便由初始解码器预测出待检测图像所对应的第二人物交互关系。

需要说明的是，步骤S403的具体原理可以参见步骤S103，本实施例中不再赘述。

S404、根据第一人物交互关系和第二人物交互关系，对待训练查询矩阵和初始解码器进行修正，得到训练好的解码器和初始查询矩阵。

示例性地，本实施例中，在获取到第一人物交互关系和预测得到的第二人物交互关系之后，可以根据第一人物交互关系和第二人物交互关系二者所构建的损失函数，来对待训练查询矩阵和初始解码器进行参数修改矫正，进而得到后续模型使用过程中所需的初始查询矩阵和解码器。

可以理解的是，本实施例中，通过将人物交互关系中的各个特征进行解耦，即由查询矩阵中的一个查询向量提取人物交互关系中与该查询向量所对应的特征，进而相比于采用一个查询向量来提取人物交互关系中的全部特征的查询矩阵的训练方式，本实施例中的方式可以降低模型训练难度，提高模型训练效率。

一个示例中，至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

其中，第一查询向量用于提取人物交互关系中的第一特征，第一特征为用于指示人的位置信息的特征；第二查询向量用于提取人物交互关系中的第二特征，第二特征为用于指示物体的位置信息和类别信息的特征；第三查询向量用于提取人物交互关系中的第三特征，第三特征为用于指示人与物体之间的交互动作的特征。

一个示例中，基于初始解码器，对待训练图像的图像特征和待训练查询矩阵进行特征融合处理，得到待训练图像所对应的第二人物交互关系，包括：

基于初始解码器中的第一自注意力层，确定查询集合的组内相关性信息，并根据组内相关性信息，对查询集合中的向量进行更新，得到第一集合；组内相关性信息表征查询集合中所包含的查询向量之间的相关度；

基于初始解码器的第二自注意力层，确定第一集合对应的组间相关性信息；并根据组间相关性信息，对第一集合进行更新，得到第二集合；其中，组间相关性信息表征第一集合与第一查询矩阵之间的相关度；第一查询矩阵由各第一集合组成；

根据各第二集合和图像特征，确定待训练图像所对应的检测结果。

一个示例中，根据各第二集合和图像特征，确定待训练图像所对应的检测结果，包括：

基于初始解码器的交叉注意力层，对各第二集合和图像特征，进行交叉注意力处理，得到第二查询矩阵；第二查询矩阵包括各第二集合各自对应的第三集合；第三集合中包括人物交互关系中的特征；

基于初始解码器的前馈神经网络层，对第二查询矩阵进行处理，得到待训练图像所对应的检测结果。

一个示例中，基于初始解码器的第二自注意力层，确定第一集合对应的组间相关性信息，包括：

基于第二自注意力层，确定第一集合中的第四查询向量的相关性结果；相关性结果表征第四查询向量与各第一集合中的第四查询向量之间的相关性；第四查询向量为基于组内相关性信息对查询集合中用于提取目标特征的查询向量进行更新的结果；目标特征为用于指示人与物体之间的交互动作的特征、用于指示物体的位置信息和类别信息的特征、用于指示人的位置信息的特征中的任一项；

确定第一集合中各第四查询向量所对应的相关性结果为第一集合对应的组间相关性信息。

一个示例中，方法还包括：

基于初始解码器中的归一化层，对各第一集合进行归一化处理，得到处理后的第一集合。

一个示例中，提取待训练图像的图像特征，包括：

基于卷积神经网络层，对待训练图像进行特征提取处理，得到待训练图像的特征图信息；特征图信息用于表征图像的局部特征；

基于编码器，对特征图信息进行特征提取，得到待训练图像的图像特征。

本实施例提供的方法，与上述图1-2中实施例所示的技术原理类似，此处不再赘述。

图5为本公开实施例提供的一种人物交互检测装置的结构示意图，其中，人物交互检测装置500包括：

第一提取单元501，用于提取待检测图像的图像特征；

第一获取单元502，用于获取初始查询矩阵；其中，初始查询矩阵包括多组查询集合；查询集合为用于提取人物交互关系的参数集合，查询集合包括至少一个查询向量，查询向量用于提取人物交互关系中与该查询向量对应的特征；人物交互关系为人与物体之间的交互关系；

第一处理单元503，用于基于解码器，对图像特征和初始查询矩阵进行特征融合处理，确定待检测图像所对应的检测结果；其中，检测结果表征待检测图像中的人物交互关系。

本实施例提供的装置，用于实现上述方法提供的技术方案，其实现原理和技术效果类似，不再赘述。

图6为本公开实施例提供的又一种人物交互检测装置的结构示意图，其中，人物交互检测装置600包括：

第一提取单元601，用于提取待检测图像的图像特征；

第一获取单元602，用于获取初始查询矩阵；其中，初始查询矩阵包括多组查询集合；查询集合为用于提取人物交互关系的参数集合，查询集合包括至少一个查询向量，查询向量用于提取人物交互关系中与该查询向量对应的特征；人物交互关系为人与物体之间的交互关系；

第一处理单元603，用于基于解码器，对图像特征和初始查询矩阵进行特征融合处理，确定待检测图像所对应的检测结果；其中，检测结果表征待检测图像中的人物交互关系。

一个示例中，第一处理单元603，包括：

第一确定模块6031，用于基于解码器中的第一自注意力层，确定查询集合的组内相关性信息；

第一更新模块6032，用于根据组内相关性信息，对查询集合中的向量进行更新，得到第一集合；组内相关性信息表征查询集合中所包含的查询向量之间的相关度；

第二确定模块6033，用于基于解码器的第二自注意力层，确定第一集合对应的组间相关性信息；

第二更新模块6034，用于根据组间相关性信息，对第一集合进行更新，得到第二集合；其中，组间相关性信息表征第一集合与第一查询矩阵之间的相关度；第一查询矩阵由各第一集合组成；

第三确定模块6035，用于根据各第二集合和图像特征，确定待检测图像所对应的检测结果。

一个示例中，第三确定模块6035，包括：

第一处理子模块，用于基于解码器的交叉注意力层，对各第二集合和图像特征，进行交叉注意力处理，得到第二查询矩阵；第二查询矩阵包括各第二集合各自对应的第三集合；第三集合中包括人物交互关系中的特征；

第二处理子模块，用于基于解码器的前馈神经网络层，对第二查询矩阵进行处理，得到待检测图像所对应的检测结果。

一个示例中，第二确定模块6033，包括：

第一确定子模块，用于基于第二自注意力层，确定第一集合中的第四查询向量的相关性结果；相关性结果表征第四查询向量与各第一集合中的第四查询向量之间的相关性；第四查询向量为基于组内相关性信息对查询集合中用于提取目标特征的查询向量进行更新的结果；目标特征为用于指示人与物体之间的交互动作的特征、用于指示物体的位置信息和类别信息的特征、用于指示人的位置信息的特征中的任一项；

第二确定子模块，用于确定第一集合中各第四查询向量所对应的相关性结果为第一集合对应的组间相关性信息。

一个示例中，装置还包括：

第一处理模块，用于基于解码器中的归一化层，对各第一集合进行归一化处理，得到处理后的第一集合。

一个示例中，第一提取单元601，包括：

第二处理模块6011，用于基于卷积神经网络层，对待检测图像进行特征提取处理，得到待检测图像的特征图信息；特征图信息用于表征图像的局部特征；

第一提取模块6012，用于基于编码器，对特征图信息进行特征提取，得到待检测图像的图像特征。

图7为本公开实施例提供的一种模型训练装置的结构示意图，其中，模型训练装置700，包括：

第二提取单元701，用于提取待训练图像的图像特征；其中，待训练图像具有第一人物交互关系；

第二获取单元702，用于获取待训练查询矩阵；其中，待训练查询矩阵包括多组查询集合；查询集合为用于提取人物交互关系的参数集合，查询集合包括至少一个查询向量，查询向量用于提取人物交互关系中与该查询向量对应的特征；人物交互关系为人与物体之间的交互关系；

第二处理单元703，用于基于初始解码器，对待训练图像的图像特征和待训练查询矩阵进行特征融合处理，得到待训练图像所对应的第二人物交互关系；

修正单元704，用于根据第一人物交互关系和第二人物交互关系，对待训练查询矩阵和初始解码器进行修正，得到训练好的解码器和初始查询矩阵。

图8为本公开实施例提供的第二种模型训练装置的结构示意图，其中，模型训练装置800包括：

第二提取单元801，用于提取待训练图像的图像特征；其中，待训练图像具有第一人物交互关系；

第二获取单元802，用于获取待训练查询矩阵；其中，待训练查询矩阵包括多组查询集合；查询集合为用于提取人物交互关系的参数集合，查询集合包括至少一个查询向量，查询向量用于提取人物交互关系中与该查询向量对应的特征；人物交互关系为人与物体之间的交互关系；

第二处理单元803，用于基于初始解码器，对待训练图像的图像特征和待训练查询矩阵进行特征融合处理，得到待训练图像所对应的第二人物交互关系；

修正单元804，用于根据第一人物交互关系和第二人物交互关系，对待训练查询矩阵和初始解码器进行修正，得到训练好的解码器和初始查询矩阵。

一个示例中，第二处理单元803，包括：

第四确定模块8031，用于基于初始解码器中的第一自注意力层，确定查询集合的组内相关性信息；

第三更新模块8032，用于根据组内相关性信息，对查询集合中的向量进行更新，得到第一集合；组内相关性信息表征查询集合中所包含的查询向量之间的相关度；

第五确定模块8033，用于基于初始解码器的第二自注意力层，确定第一集合对应的组间相关性信息；

第四更新模块8034，用于根据组间相关性信息，对第一集合进行更新，得到第二集合；其中，组间相关性信息表征第一集合与第一查询矩阵之间的相关度；第一查询矩阵由各第一集合组成；

第六确定模块8035，用于根据各第二集合和图像特征，确定待训练图像所对应的检测结果。

一个示例中，第六确定模块8035，包括：

第三处理子模块，用于基于初始解码器的交叉注意力层，对各第二集合和图像特征，进行交叉注意力处理，得到第二查询矩阵；第二查询矩阵包括各第二集合各自对应的第三集合；第三集合中包括人物交互关系中的特征；

第四处理子模块，用于基于初始解码器的前馈神经网络层，对第二查询矩阵进行处理，得到待训练图像所对应的检测结果。

一个示例中，第五确定模块8033，包括：

第三确定子模块，用于基于第二自注意力层，确定第一集合中的第四查询向量的相关性结果；相关性结果表征第四查询向量与各第一集合中的第四查询向量之间的相关性；第四查询向量为基于组内相关性信息对查询集合中用于提取目标特征的查询向量进行更新的结果；目标特征为用于指示人与物体之间的交互动作的特征、用于指示物体的位置信息和类别信息的特征、用于指示人的位置信息的特征中的任一项；

第四确定子模块，用于确定第一集合中各第四查询向量所对应的相关性结果为第一集合对应的组间相关性信息。

一个示例中，装置还包括：

第三处理模块，用于基于初始解码器中的归一化层，对各第一集合进行归一化处理，得到处理后的第一集合。

一个示例中，第二提取单元801，包括：

第四处理模块8011，用于基于卷积神经网络层，对待训练图像进行特征提取处理，得到待训练图像的特征图信息；特征图信息用于表征图像的局部特征；

第二提取模块8012，用于基于编码器，对特征图信息进行特征提取，得到待训练图像的图像特征。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一实施例所提供的方法。

图9为本公开提供的一种电子设备的示意图，如图9所示，本公开中的电子设备900可以包括：处理器901和存储器902。

存储器902，用于存储程序；存储器902，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器902用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器902中。并且上述的计算机程序、计算机指令、数据等可以被处理器901调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器902中。并且上述的计算机程序、计算机指据等可以被处理器901调用。

处理器901，用于执行存储器902存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器901和存储器902可以是独立结构，也可以是集成在一起的集成结构。当处理器901和存储器902是独立结构时，存储器902、处理器901可以通过总线903耦合连接。

本实施例的电子设备可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

本公开提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述任一实施例所提供的方法。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组间。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如人物交互检测方法或者模型训练方法。例如，在一些实施例中，人物交互检测方法、或者，模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的人物交互检测方法、或模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人物交互检测方法、或模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种人物交互检测方法，其中，所述方法包括：

提取待检测图像的图像特征；

2.根据权利要求1所述的方法，其中，所述至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

其中，所述第一查询向量用于提取人物交互关系中的第一特征，所述第一特征为用于指示人的位置信息的特征；所述第二查询向量用于提取人物交互关系中的第二特征，所述第二特征为用于指示物体的位置信息和类别信息的特征；所述第三查询向量用于提取人物交互关系中的第三特征，所述第三特征为用于指示人与物体之间的交互动作的特征。

3.根据权利要求1或2所述的方法，其中，基于解码器，对所述图像特征和所述初始查询矩阵进行特征融合处理，确定所述待检测图像所对应的检测结果，包括：

基于解码器中的第一自注意力层，确定所述查询集合的组内相关性信息，并根据所述组内相关性信息，对所述查询集合中的向量进行更新，得到第一集合；所述组内相关性信息表征查询集合中所包含的查询向量之间的相关度；

基于所述解码器的第二自注意力层，确定所述第一集合对应的组间相关性信息；并根据所述组间相关性信息，对所述第一集合进行更新，得到第二集合；其中，所述组间相关性信息表征所述第一集合与第一查询矩阵之间的相关度；所述第一查询矩阵由各第一集合组成；

根据各所述第二集合和所述图像特征，确定所述待检测图像所对应的检测结果。

4.根据权利要求3所述的方法，其中，根据各所述第二集合和所述图像特征，确定所述待检测图像所对应的检测结果，包括：

基于所述解码器的交叉注意力层，对各所述第二集合和所述图像特征，进行交叉注意力处理，得到第二查询矩阵；所述第二查询矩阵包括各所述第二集合各自对应的第三集合；所述第三集合中包括人物交互关系中的特征；

基于所述解码器的前馈神经网络层，对所述第二查询矩阵进行处理，得到所述待检测图像所对应的检测结果。

5.根据权利要求3或4所述的方法，其中，基于所述解码器的第二自注意力层，确定所述第一集合对应的组间相关性信息，包括：

基于所述第二自注意力层，确定所述第一集合中的第四查询向量的相关性结果；所述相关性结果表征所述第四查询向量与各第一集合中的第四查询向量之间的相关性；所述第四查询向量为基于组内相关性信息对查询集合中用于提取目标特征的查询向量进行更新的结果；所述目标特征为用于指示人与物体之间的交互动作的特征、用于指示物体的位置信息和类别信息的特征、用于指示人的位置信息的特征中的任一项；

确定所述第一集合中各第四查询向量所对应的相关性结果为所述第一集合对应的组间相关性信息。

6.根据权利要求3-5中任一项所述的方法，所述方法还包括：

基于解码器中的归一化层，对各所述第一集合进行归一化处理，得到处理后的第一集合。

7.根据权利要求1-6中任一项所述的方法，其中，提取待检测图像的图像特征，包括：

基于卷积神经网络层，对所述待检测图像进行特征提取处理，得到所述待检测图像的特征图信息；所述特征图信息用于表征图像的局部特征；

基于编码器，对所述特征图信息进行特征提取，得到所述待检测图像的图像特征。

8.一种模型训练方法，其中，所述方法包括：

提取待训练图像的图像特征；其中，所述待训练图像具有第一人物交互关系；

9.根据权利要求8所述的方法，其中，所述至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

10.根据权利要求8或9所述的方法，其中，基于初始解码器，对所述待训练图像的图像特征和所述待训练查询矩阵进行特征融合处理，得到所述待训练图像所对应的第二人物交互关系，包括：

基于所述初始解码器中的第一自注意力层，确定所述查询集合的组内相关性信息，并根据所述组内相关性信息，对所述查询集合中的向量进行更新，得到第一集合；所述组内相关性信息表征查询集合中所包含的查询向量之间的相关度；

基于所述初始解码器的第二自注意力层，确定所述第一集合对应的组间相关性信息；并根据所述组间相关性信息，对所述第一集合进行更新，得到第二集合；其中，所述组间相关性信息表征所述第一集合与第一查询矩阵之间的相关度；所述第一查询矩阵由各第一集合组成；

根据各所述第二集合和所述图像特征，确定所述待训练图像所对应的检测结果。

11.根据权利要求10所述的方法，其中，根据各所述第二集合和所述图像特征，确定所述待训练图像所对应的检测结果，包括：

基于所述初始解码器的交叉注意力层，对各所述第二集合和所述图像特征，进行交叉注意力处理，得到第二查询矩阵；所述第二查询矩阵包括各所述第二集合各自对应的第三集合；所述第三集合中包括人物交互关系中的特征；

基于所述初始解码器的前馈神经网络层，对所述第二查询矩阵进行处理，得到所述待训练图像所对应的检测结果。

12.根据权利要求10或11所述的方法，其中，基于所述初始解码器的第二自注意力层，确定所述第一集合对应的组间相关性信息，包括：

13.根据权利要求10-12中任一项所述的方法，所述方法还包括：

基于初始解码器中的归一化层，对各所述第一集合进行归一化处理，得到处理后的第一集合。

14.根据权利要求8-13中任一项所述的方法，其中，提取所述待训练图像所对应的图像特征，包括：

基于卷积神经网络层，对所述待训练图像进行特征提取处理，得到所述待训练图像的特征图信息；所述特征图信息用于表征图像的局部特征；

基于编码器，对所述特征图信息进行特征提取，得到所述待训练图像的图像特征。

15.一种人物交互检测装置，其中，所述装置包括：

第一提取单元，用于提取待检测图像的图像特征；

16.根据权利要求15所述的装置，其中，所述至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

17.根据权利要求15或16所述的装置，其中，第一处理单元，包括：

第一确定模块，用于基于解码器中的第一自注意力层，确定所述查询集合的组内相关性信息；

第一更新模块，用于根据所述组内相关性信息，对所述查询集合中的向量进行更新，得到第一集合；所述组内相关性信息表征查询集合中所包含的查询向量之间的相关度；

第二确定模块，用于基于所述解码器的第二自注意力层，确定所述第一集合对应的组间相关性信息；

第二更新模块，用于根据所述组间相关性信息，对所述第一集合进行更新，得到第二集合；其中，所述组间相关性信息表征所述第一集合与第一查询矩阵之间的相关度；所述第一查询矩阵由各第一集合组成；

第三确定模块，用于根据各所述第二集合和所述图像特征，确定所述待检测图像所对应的检测结果。

18.根据权利要求17所述的装置，其中，第三确定模块，包括：

第一处理子模块，用于基于所述解码器的交叉注意力层，对各所述第二集合和所述图像特征，进行交叉注意力处理，得到第二查询矩阵；所述第二查询矩阵包括各所述第二集合各自对应的第三集合；所述第三集合中包括人物交互关系中的特征；

第二处理子模块，用于基于所述解码器的前馈神经网络层，对所述第二查询矩阵进行处理，得到所述待检测图像所对应的检测结果。

19.根据权利要求17或18所述的装置，其中，第二确定模块，包括：

第一确定子模块，用于基于所述第二自注意力层，确定所述第一集合中的第四查询向量的相关性结果；所述相关性结果表征所述第四查询向量与各第一集合中的第四查询向量之间的相关性；所述第四查询向量为基于组内相关性信息对查询集合中用于提取目标特征的查询向量进行更新的结果；所述目标特征为用于指示人与物体之间的交互动作的特征、用于指示物体的位置信息和类别信息的特征、用于指示人的位置信息的特征中的任一项；

第二确定子模块，用于确定所述第一集合中各第四查询向量所对应的相关性结果为所述第一集合对应的组间相关性信息。

20.根据权利要求17-19中任一项所述的装置，所述装置还包括：

第一处理模块，用于基于解码器中的归一化层，对各所述第一集合进行归一化处理，得到处理后的第一集合。

21.根据权利要求15-20中任一项所述的装置，其中，第一提取单元，包括：

第二处理模块，用于基于卷积神经网络层，对所述待检测图像进行特征提取处理，得到所述待检测图像的特征图信息；所述特征图信息用于表征图像的局部特征；

第一提取模块，用于基于编码器，对所述特征图信息进行特征提取，得到所述待检测图像的图像特征。

22.一种模型训练装置，其中，所述装置包括：

23.根据权利要求22所述的装置，其中，所述至少一个查询向量包括第一查询向量、第二查询向量以及第三查询向量；

24.根据权利要求22或23所述的装置，其中，第二处理单元，包括：

第四确定模块，用于基于所述初始解码器中的第一自注意力层，确定所述查询集合的组内相关性信息；

第三更新模块，用于根据所述组内相关性信息，对所述查询集合中的向量进行更新，得到第一集合；所述组内相关性信息表征查询集合中所包含的查询向量之间的相关度；

第五确定模块，用于基于所述初始解码器的第二自注意力层，确定所述第一集合对应的组间相关性信息；

第四更新模块，用于根据所述组间相关性信息，对所述第一集合进行更新，得到第二集合；其中，所述组间相关性信息表征所述第一集合与第一查询矩阵之间的相关度；所述第一查询矩阵由各第一集合组成；

第六确定模块，用于根据各所述第二集合和所述图像特征，确定所述待训练图像所对应的检测结果。

25.根据权利要求24所述的装置，其中，第六确定模块，包括：

第三处理子模块，用于基于所述初始解码器的交叉注意力层，对各所述第二集合和所述图像特征，进行交叉注意力处理，得到第二查询矩阵；所述第二查询矩阵包括各所述第二集合各自对应的第三集合；所述第三集合中包括人物交互关系中的特征；

第四处理子模块，用于基于所述初始解码器的前馈神经网络层，对所述第二查询矩阵进行处理，得到所述待训练图像所对应的检测结果。

26.根据权利要求24或25所述的装置，其中，第五确定模块，包括：

第三确定子模块，用于基于所述第二自注意力层，确定所述第一集合中的第四查询向量的相关性结果；所述相关性结果表征所述第四查询向量与各第一集合中的第四查询向量之间的相关性；所述第四查询向量为基于组内相关性信息对查询集合中用于提取目标特征的查询向量进行更新的结果；所述目标特征为用于指示人与物体之间的交互动作的特征、用于指示物体的位置信息和类别信息的特征、用于指示人的位置信息的特征中的任一项；

第四确定子模块，用于确定所述第一集合中各第四查询向量所对应的相关性结果为所述第一集合对应的组间相关性信息。

27.根据权利要求24-26中任一项所述的装置，所述装置还包括：

第三处理模块，用于基于初始解码器中的归一化层，对各所述第一集合进行归一化处理，得到处理后的第一集合。

28.根据权利要求22-27中任一项所述的装置，其中，第二提取单元，包括：

第四处理模块，用于基于卷积神经网络层，对所述待训练图像进行特征提取处理，得到所述待训练图像的特征图信息；所述特征图信息用于表征图像的局部特征；

第二提取模块，用于基于编码器，对所述特征图信息进行特征提取，得到所述待训练图像的图像特征。

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-14中任一项所述方法的步骤。