CN115063640A

CN115063640A - 交互检测方法、交互检测模型的预训练方法及设备

Info

Publication number: CN115063640A
Application number: CN202210976992.6A
Authority: CN
Inventors: 袁杭杰; 蒋建文; 吕逸良; 赵德丽
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-09-16
Anticipated expiration: 2042-08-15
Also published as: CN115063640B

Abstract

本发明实施例提供了一种交互检测方法、交互检测模型的预训练方法及设备；方法包括：获取待检测图像以及用于对待检测图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签；基于待检测图像和多个标签，确定跨模态融合特征；基于跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息；基于主体检测信息和客体检测信息进行关系检测，获得主体与客体之间的至少一个预测交互关系。本实施例中，基于跨模态融合特征实现了平行主体检测，提高了主体和客体的检测准确性；并基于主体和客体的检测信息来确定预测交互关系，实现了与主体检测相互独立的交互检测，有利于提高交互检测的准确可靠性。

Description

交互检测方法、交互检测模型的预训练方法及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种交互检测方法、交互检测模型的预训练方法及设备。

背景技术

人物交互检测是指在图片或者视频等视觉数据中，通过检测算法输出得到<人物，交互动作，物体>的三元组标签，所获得的三元组标签可以实现对视觉场景进行关系描述。

目前，人物交互检测操作可以通过人物交互检测系统来实现，对于人物交互检测系统而言，可以基于人物标签和物品标签进行学习训练操作，这样用户可以利用训练完的人物交互检测系统对人物标签、物品标签和图像进行人物交互检测操作，获得人物交互检测信息。然而，在基于人物交互检测系统进行交互检测信息时，由于交互关系的检测往往需要对人体和物体两者作为条件进行推理获得关系，上述的检测过程往往涉及到人物和物体以外的全局上下文，因此，人物交互检测系统仅通过人物标签和物品标签对图像进行交互检测时，所获得的人物交互关系的准确性较低。

发明内容

本发明实施例提供了一种交互检测方法、交互检测模型的预训练方法及设备，能够提高预测交互关系的准确可靠性。

第一方面，本发明实施例提供一种交互检测方法，包括：

获取待检测图像以及用于对所述待检测图像进行交互检测的多个标签，所述多个标签包括多个主体标签、多个客体标签以及多个交互标签；

基于所述待检测图像和所述多个标签，确定跨模态融合特征；

基于所述跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息；

基于所述主体检测信息和客体检测信息进行关系检测，获得主体与客体之间的至少一个预测交互关系。

第二方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的交互检测方法。

第三方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面中的交互检测方法。

第四方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述处理器执行上述第一方面所示的交互检测方法中的步骤。

第五方面，本发明实施例提供了一种交互检测模型的预训练方法，所述交互检测模型用于执行上述第一方面所述的交互检测方法，包括：

获取样本图像以及与所述样本图像相对应的多个样本标签，所述多个样本标签包括与所述样本图像相关的多个第一样本标签以及通过对所述第一样本标签进行扩展得到的多个第二样本标签，其中，所述第一样本标签和所述第二样本标签均包括样本主体标签、样本客体标签和样本交互标签；

基于所述样本图像和所述多个样本标签，确定跨模态融合特征；

基于所述跨模态融合特征和多个样本标签进行模型的预训练，获得用于进行交互检测的交互检测模型，所述交互检测模型为机器学习模型。

第六方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的交互检测模型的预训练方法。

第七方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第五方面中的交互检测模型的预训练方法。

第八方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述处理器执行上述第五方面所示的交互检测模型的预训练方法中的步骤。

第九方面，本发明实施例提供了一种直播物品的确定方法，包括：

获取直播图像以及用于对所述直播图像进行交互检测的多个标签，所述多个标签包括多个主体标签、多个客体标签以及多个交互标签；

基于所述直播图像和所述多个标签，确定跨模态融合特征，所述跨模态融合特征用于对所述直播图像的视觉信息和文本信息进行融合表示；

基于所述跨模态融合特征分别进行主播检测和物品检测，获得主播检测信息和物品检测信息；

基于所述主播检测信息和物品检测信息进行关系检测，获得主播与物品之间的至少一个预测交互关系；

基于所述至少一个预测交互关系，确定与所述直播图像相对应的当前直播物品。

第十方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第九方面中的直播物品的确定方法。

第十一方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第九方面中的直播物品的确定方法。

第十二方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述处理器执行上述第九方面所示的直播物品的确定方法中的步骤。

第十三方面，本发明实施例提供了一种虚拟现实场景中的行为预测方法，包括：

通过虚拟现实设备获取虚拟现实图像，所述虚拟现实图像为虚拟现实设备在显示组件上已经完成渲染的图像；

确定用于对所述虚拟现实图像进行交互检测的多个标签，所述多个标签包括多个主体标签、多个客体标签以及多个交互标签；

基于所述虚拟现实图像和所述多个标签，确定跨模态融合特征，所述跨模态融合特征用于对所述虚拟现实图像的视觉信息和文本信息进行融合表示；

基于所述跨模态融合特征分别进行人物检测和对象检测，获得人物检测信息和对象检测信息；

基于所述人物检测信息和对象检测信息进行关系检测，获得人物与对象之间的至少一个预测交互关系；

基于所述至少一个预测交互关系进行行为预测，获得预测行为信息。

第十四方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第十三方面中的虚拟现实场景中的行为预测方法。

第十五方面，本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第十三方面中的虚拟现实场景中的行为预测方法。

第十六方面，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当所述计算机程序被电子设备的处理器执行时，使所述处理器执行上述第十三方面所示的虚拟现实场景中的行为预测方法中的步骤。

本实施例提供的技术方案，基于所述跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息，实现了一种平行实体检测的操作，这样能够提高对主体和客体进行检测的准确可靠性；在获取到主体检测信息和客体检测信息之后，可以基于主体检测信息和客体检测信息进行关系检测操作，获得主体与客体之间的预测交互关系，从而有效地实现了独立于实体检测操作的交互检测操作，进一步提高了该方法的实用性，有利于市场的推广与应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种交互检测方法的场景示意图；

图2为本发明实施例提供的一种交互检测方法的流程示意图；

图3为本发明实施例提供的另一种交互检测方法的流程示意图；

图4为本发明实施例提供的识别在场景信息所对应的环境中是否存在预设行为的示意图；

图5为本发明实施例提供的又一种交互检测方法的流程示意图；

图6为本发明实施例提供的一种交互检测模型的预训练方法的原理示意图；

图7为本发明实施例提供的一种交互检测模型的预训练方法的流程示意图；

图8为本发明实施例提供的获取与所述样本图像相对应的多个样本标签的流程示意图；

图9为本发明实施例提供的另一种交互检测模型的预训练方法的流程示意图；

图10为本发明应用实施例提供的一种交互检测方案的原理示意图；

图11为本发明实施例提供的一种直播物品的确定方法的流程示意图；

图12发明实施例提供的一种虚拟现实场景中的行为预测方法的流程示意图；

图13为本发明实施例提供的一种交互检测装置的结构示意图；

图14为与图13所示实施例提供的一种交互检测装置对应的电子设备的结构示意图；

图15为本发明实施例提供的一种交互检测模型的预训练装置的结构示意图；

图16为与图15所示实施例提供的一种交互检测模型的预训练装置对应的电子设备的结构示意图；

图17为本发明实施例提供的一种直播物品的确定装置的结构示意图；

图18为与图17所示实施例提供的一种直播物品的确定装置对应的电子设备的结构示意图；

图19为本发明实施例提供的一种虚拟现实场景中的行为预测装置的结构示意图；

图20为与图19所示实施例提供的一种虚拟现实场景中的行为预测装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护但是不排除包含至少一种的情况。应当理解，本文中使用的术语“和/或的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

术语定义：

人物交互检测：在图片或者视频等视觉数据中，通过算法输出得到<人物，交互动作，物体>的三元组标签，来对视觉场景进行关系描述的任务。

语言图片跨模态预训练：使用图片和语言对应的数据进行语言特征和视觉特征对齐的预训练手段。

模糊数据：在自然语言标注的视觉数据中，可能出现i) 数据标注的准确信不高；ii) 数据标注虽然正确，但是存在多种选择的情况，以上两种情况统称为模糊数据。

为了便于理解本实施例所提供的技术方案的具体实现方式和实现效果，下面对相关技术进行说明：目前，人物交互检测操作可以通过人物交互检测系统来实现，人物交互检测系统的重点在于如何设计精巧的检测结构和引入多种不同角度的信息来提高一个人物交互检测系统的能力。

但是，上述的人物交互检测系统容易忽略比较基础的问题，即检测系统的预训练操作，具体的，从人物交互检测预训练的角度来说，对于人物交互检测系统而言，人物交互检测系统的初始化检测任务可以包括目标检测任务和关系检测任务，其中，关系检测任务是通过将人体和物体两者作为条件推理得出动词，这个过程往往涉及到人体和物体以外的全局上下文，即目标检测任务和关系检测任务实际上是两个区别很大的任务，因此，对于人物交互检测系统而言，采用同样的参数初始化并不是较好的初始化方式。

此外，从模型结构的设计方面来说，在进行人物交互检测的过程中，人物交互检测系统使用了人体、物体、动词耦合的（或者部分耦合的）特征表示，因此很难实现对三者进行分离的跨模态特征对齐。此外，人物交互检测系统的工作只考虑了单张图片内的标签或者全部数据集的标签，若基于单张图片内的标签进行预训练操作，则容易出现负样本不足的情况，从而使得人物交互检测系统的性能一般；若使用全部数据集的标签进行预训练操作，由于使用自然语言标注的词库巨大，往往一般难以训练。

为了解决上述技术问题，本实施例提供了一种交互检测方法、交互检测模型的预训练方法及设备，其中，交互检测方法的执行主体可以为交互检测装置，具体实现时，该交互检测装置可以实现为云端的服务器，此时，该交互检测方法可以在云端来执行，在云端可以部署有若干计算节点（云服务器），每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包（Software Development Kit，简称SDK）、应用程序接口（Application Programming Interface，简称API）等形式。

针对本发明实施例提供的方案，云端可以提供有交互检测服务的服务接口，用户通过客户端/请求端调用该交互检测服务接口，以向云端触发调用该交互检测服务接口的请求。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行交互检测的具体处理操作。

为了能够保证交互检测信息的准确性，本实施例中的交互检测装置可以实现为一交互检测模型或者承载交互检测模型的装置，此时，交互检测装置可以先进行交互检测模型的预训练操作，具体的，可以先获取样本图像以及与样本图像相对应的多个样本标签，多个样本标签包括与样本图像相关的多个第一样本标签以及通过对第一标签进行扩展得到的多个第二样本标签，其中，第一样本标签和第二样本标签均包括样本主体标签、样本客体标签和样本交互标签；需要说明的是，对于样本图像而言，第一样本标签可以为正样本标签，第二样本标签可以包括负样本标签或者伪样本标签，其中，伪样本标签是指与正样本标签的相似度大于或等于预设阈值的标签，这样不仅可以增加负样本的数量，并且还能够增加训练后的交互检测模型的适用范围。

在获取到样本图像和多个样本标签之后，可以基于样本图像和多个样本标签确定跨模态融合特征，而后基于跨模态融合特征和多个样本标签进行模型的预训练，获得用于进行交互检测的交互检测模型，所获得的交互检测模型可以用于进行交互检测操作。

在训练完交互检测模型之后，可以基于交互检测模型进行交互检测操作，此时，交互检测装置通信连接有请求端或者客户端，具体的，参考附图1所示，客户端/请求端可以是任何具有一定数据传输能力的计算设备，客户端/请求端可以是手机、个人电脑PC、平板电脑、设定应用程序等等。此外，客户端的基本结构可以包括：至少一个处理器。处理器的数量取决于客户端的配置和类型。客户端也可以包括存储器，该存储器可以为易失性的，例如RAM，也可以为非易失性的，例如只读存储器（Read-Only Memory，简称ROM）、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作系统（Operating System，简称OS）、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，客户端还包括一些基本配置，例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地，一些外围设备可以包括，例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的，在此不做赘述。

交互检测装置是指可以在网络虚拟环境中提供交互检测服务的设备，通常是指利用网络进行信息规划以及交互检测操作的装置。在物理实现上，交互检测装置可以是任何能够提供计算服务，响应于交互检测请求，并可以基于交互检测请求进行交互检测服务的设备，例如：可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。交互检测装置的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。

在上述本实施例中，客户端/请求端可以与交互检测装置进行网络连接，该网络连接可以是无线或有线网络连接。若客户端/请求端与交互检测装置是通信连接，该移动网络的网络制式可以为2G（GSM）、2.5G（GPRS）、3G（WCDMA、TD-SCDMA、CDMA2000、UTMS）、4G（LTE）、4G+（LTE+）、WiMax、5G、6G等中的任意一种。

在本申请实施例中，客户端/请求端可以获取待检测图像和交互检测请求，其中，待检测图像的数量可以为一个或多个；具体的，本实施例对于请求端获取待检测图像和交互检测请求的具体实现方式不做限定，在一些实例中，请求端上配置有交互界面，获取用户在交互界面所输入的执行操作，基于用户输入的执行操作即可获取到交互检测请求；在获取到交互检测请求之后，可以获取待检测图像，其中，待检测图像可以存储在预设区域中，通过访问预设区域即可获取待检测图像。或者，待检测图像可以存储在第三设备中，第三设备与请求端通信连接，通过第三设备主动或者被动地获取到待检测图像。在获取到待检测图像和交互检测请求之后，可以将待检测图像和交互检测请求发送至交互检测装置，以使交互检测装置可以通过交互检测请求对待检测图像进行交互检测操作。

交互检测装置，用于获取交互检测请求和待检测图像，所获得的待检测图像的数量可以为一个或多个，为了能够实现对一个或多个待检测图像进行交互检测操作，可以获取用于对待检测图像进行交互检测的多个标签，多个标签可以包括多个主体标签、多个客体标签以及多个交互标签，上述的主体可以包括：人物、动物以及任何能够移动的主体，客体可以包括物品、动物或者植物等等，交互标签可以包括任何用于描述主体与客体之间的交互动作的标签。

在获取到待检测图像和多个标签之后，可以对待检测图像和多个标签进行分析处理，确定跨模态融合特征，该跨模态融合特征可以包括与待检测图像相对应的视觉特征和文本特征，为了能够准确地识别出待检测图像中所包括的主体检测信息和客体检测信息，可以分别基于跨模态融合特征进行主体检测操作和客体检测操作，在一些实例中，可以利用预先训练的对象检测模型对跨模态融合特征进行处理，从而可以获得主体检测信息和客体检测信息。上述的主体检测的实现过程和客体检测的实现过程相互独立，上述的客体检测信息可以包括客体类别，主体检测信息可以包括主体类别；需要注意的是，一个待检测图像可以对应有多个主体检测信息和多个客体检测信息，即一个待检测图像可以对应有多个类别的主体和多个类别的客体。

在获取到主体检测信息和客体检测信息之后，可以基于主体检测信息和客体检测信息进行关系检测操作，在一些实例中，可以利用预先训练的交互检测模型对主体检测信息和客体检测信息进行分析处理，从而可以获得主体与客体之间的至少一个预测交互关系，需要注意的是，一个主体与一个客体之间可以对应有一个或多个预测交互关系，一个待检测图像可以识别出一个或多个预测交互关系。

本实施例提供的技术方案，在预训练阶段，通过获取样本图像以及与所述样本图像相对应的多个样本标签，由于多个样本标签包括与样本图像相关的多个第一样本标签和通过对第一样本标签进行扩展得到的多个第二样本标签，第二样本标签可以包括经过扩展操作所获得的负样本标签和伪样本标签，这样有效地扩展了对交互检测模型进行训练的样本数据规模，有利于提高训练后的交互检测模型使用的泛化程度和适用程度，具体的，交互检测模型能够适用于各种场景的交互检测操作，并且能够保证人物交互检测操作的性能以及面对关系噪声时的鲁棒性，例如：能够保证零样本的人物交互检测的性能、少样本的人物交互检测的性能和全量的人物交互检测的微调性能。

在训练获得交互检测模型之后，可以基于所述跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息，实现了一种平行实体检测的操作，这样能够提高对主体和客体进行检测的准确可靠性；在获取到主体检测信息和客体检测信息之后，可以基于主体检测信息和客体检测信息进行关系检测操作，获得主体与客体之间的预测交互关系，从而有效地实现了独立与实体检测操作的交互检测操作。

下面结合附图，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合或者拆分。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图2为本发明实施例提供的一种交互检测方法的流程示意图；参考附图2所示，本实施例提供了一种交互检测方法，该方法的执行主体可以为交互检测装置，该交互检测装置可以实现为软件、或者软件和硬件的组合，具体的，在交互检测装置实现为硬件时，其具体可以是具有数据处理操作的各种电子设备，包括但不限于平板电脑、个人电脑PC、服务器等等。当交互检测装置实现为软件时，其可以安装在上述所例举的电子设备中。基于上述的交互检测装置，本实施例中的交互检测方法可以包括以下步骤：

步骤S201：获取待检测图像以及用于对待检测图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。

当用户存在交互检测需求时，可以通过交互检测装置实现交互检测操作，此时，交互检测装置可以获取到待检测图像以及用于对待检测图像进行交互检测的多个标签，需要注意的是，待检测图像的数量可以为一个或多个，在待检测图像的数量为一个时，本实施例中的交互检测方法可以实现对待检测图像中的主体、客体以及预测交互关系的检测操作，并可以实现对主体、客体以及预测交互关系进行定位操作。在待检测图像的数量为多个时，本实施例中的交互检测方法可以实现对多个待检测图像中的每个待检测图像进行预测交互关系的识别操作。

另外，本实施例对于待检测图像的具体获取方式不做限定，本领域技术人员可以根据具体的应用场景或者应用需求进行配置操作，在一些实例中，待检测图像可以存储在预设区域中，当存在交互检测需求时，则可以基于交互检测需求获得待检测图像；在一些实例中，待检测图像可以通过第三设备（请求端或者客户端）或者图像采集装置获得，此时，第三设备或者图像采集装置可以与交互检测装置通信连接，在用户存在交互检测需求时，则可以通过第三设备或者图像采集装置主动或者被动地获取到待检测图像，在一些实例中，待检测图像可以为视频帧。

对于待检测图像而言，不同应用场景中的待检测图像往往对应有不同的主体、客体或者交互动作，例如：运动场的待检测图像中可以包括运动员（篮球运动员、足球运动员、羽毛球运动员等等）、运动工具（篮球、足球、羽毛球等等）以及运动动作（打篮球、踢足球、打羽毛球等等）；街头的待检测图像中可以包括路人、物体（植物、动物、建筑物等等）以及交互动作（人拉着狗走路、人在修剪植物等等）；直播的待检测图像中可以包括主播、物品（商品）以及交互动作（讲解动作、拆开动作、试吃动作等等）。

为了能够实现交互检测操作，在获取到待检测图像之后，可以获取用于对待检测图像进行交互检测的多个标签，上述的多个标签可以包括多个主体标签、多个客体标签以及多个交互标签，例如：多个主体标签可以包括红色衣服用户、黑色头发用户、黄色头发用户、蓝色衣服用户、穿衣裙的用户、穿西装的用户、穿休闲服装的用户、男生、女生、男孩、女孩、老人等等，多个客体标签可以包括人物、动物（猫、狗、小鸟）、物品（篮球、烟品以及其他物品）、建筑物或者植物等等，多个交互标签可以包括：对话交互、拉动交互、查看交互、讲解操作等等。

另外，本实施例对于多个标签的获取方式不做限定，在一些实例中，用于对待检测图像进行交互检测的多个标签可以是预先配置的，此时，多个标签可以存储在预设区域中，通过访问预设区域即可获取用于对待检测图像进行交互检测的多个标签。在另一些实例中，用于对待检测图像进行交互检测的多个标签可以通过用户的交互操作所实现，此时，获取用于对待检测图像进行交互检测的多个标签可以包括：显示用于与用户进行交互操作的显示界面，获取用户在显示界面中输入的标签配置操作，基于标签配置操作可以获取用于对待检测图像进行交互检测的多个标签。

在又一些实例中，多个标签可以通过对待检测图像所在的图像集进行分析处理所获得，此时，获取用于对待检测图像进行交互检测的多个标签可以包括：获取待检测图像所在的图像集，图像集中包括待检测图像以及不同于待检测图像的其他图像；确定图像集中每个图像所对应的标签信息，该标签信息可以为三元组标签，即包括主体标签、客体标签以及交互标签；将图像集中所有图像对应的所有标签信息确定为多个标签，从而有效地实现了对多个标签进行获取的准确可靠性，需要注意的是，上述的标签可以为自然语言的标签，这样有利于提高交互检测的准确可靠性。

在多个标签通过对待检测图像所在的图像集进行分析处理所获得时，本实施例中的方法还可以包括：在图像集中的图像发生更新时，则可以基于更新后的图像集对多个标签进行更新操作，获得更新后的多个标签。需要注意的是，待检测图像与多个标签可以同时获取，或者，多个标签可以在待检测图像之后获取。

步骤S202：基于待检测图像和多个标签，确定跨模态融合特征。

在获取到待检测图像和多个标签之后，为了能够实现交互检测操作，可以对待检测图像和多个标签进行处理操作，获得跨模态融合特征，该跨模态融合特征用于对待检测图像的文本信息和视觉信息进行跨模态融合表示。

具体的，本实施例对于跨模态融合特征的具体获取方式不做限定，在一些实例中，可以利用预先训练好的网络模型对待检测图像和多个标签进行分析处理而获得，此时，预先配置有用于对图像和文本标签进行处理获得跨模态融合特征的网络模型，在获取到待检测图像和多个标签之后，可以将待检测图像和多个标签输入至网络模型，从而可以获得网络模型所输出的跨模态融合特征。

在另一些实例中，跨模态融合特征不仅可以通过网络模型进行自动处理所获得，还可以利用预设算法分别对待检测图像和多个标签进行处理而获得，此时，基于待检测图像和多个标签，确定跨模态融合特征可以包括：获取与待检测图像相对应的图像特征；对多个标签进行序列化处理，获得标签序列；确定与标签序列相对应的标签序列特征；基于图像特征和标签序列特征，确定跨模态融合特征。

在获取到待检测图像之后，可以利用预设算法对待检测图像进行分析处理，从而可以获得待检测图像相对应的图像特征，该图像特征可以用于进行交互检测。由于多个标签包括自然语言的标签，不同的标签可以对应有不同长度的自然语言字段，为了能够准确地获取到多个标签所对应的标签特征，在获取到多个标签之后，可以先对多个标签进行序列化处理，具体可以对多个标签进行随机组合，或者，可以将多个标签按照主体、客体以及交互信息的顺序进行排序，从而可以获得标签序列。在获取到标签序列之后，可以对标签序列进行分析处理，以获得与标签序列相对应的标签序列特征，该标签序列特征可以用于进行交互检测。

为了避免出现现有的训练操作并没有考虑图片级别的或者实体级别的视觉和语言特征的对齐，从而会降低交互检测的准确度的问题，在获取到图像特征和标签序列特征之后，可以对图像特征和标签序列特征进行对齐操作。另外，在获取到图像特征和标签序列标签之后，可以对图像特征和标签序列特征进行分析处理，以确定跨模态融合特征，在一些实例中，跨模态融合特征可以是对图像特征和标签序列特征的简单拼接所获得，此时，基于图像特征和标签序列特征，确定跨模态融合特征可以包括：对图像特征和标签序列特征进行拼接处理，获得跨模态融合特征。在又一些实例中，跨模态融合特征可以通过对图像特征和标签序列特征进行融合处理所获得，此时，基于图像特征和标签序列特征，确定跨模态融合特征可以包括：将标签序列特征和图像特征按照序列维度进行组合，获得跨模态特征；对跨模态特征进行融合处理，获得跨模态融合特征。

对于标签序列特征和图像特征而言，由于标签序列特征和图像特征均可以为二维向量表示信息，在获取到标签序列特征和图像特征之后，可以将标签序列特征和图像特征按照序列维度进行组合，例如：可以分别确定标签序列特征和图像特征相对应的行维度信息和列维度信息，而后将标签序列特征和图像特征分别按照行维度信息和列维度信息进行组合操作，从而可以获得跨模态特征。具体的，在图像特征为二维向量表示信息时，为了提高跨模态特征获取的准确可靠性，可以获取与图像特征相对应的位置编码，基于位置编码对标签序列特征和图像特征按照序列维度进行组合，获得跨模态特征。

由于跨模态特征仅是通过对标签序列特征和图像特征进行简单组合所获得的，为了能够提高对待检测图像的视觉特征和文本特征进行融合表示，在获取到跨模态特征之后，可以对跨模态进行融合处理，具体的，可以通过预训练的跨模态编码器对标签序列特征和图像特征进行分析处理，从而可以获得跨模态融合特征，此时的跨模态融合特征能够对待检测图像的视觉特征和文本特征进行融合表示，这样有利于提高交互检测的准确可靠性。

步骤S203：基于跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息。

在获取到跨模态融合特征之后，可以基于跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息，具体的，可以基于跨模态融合特征进行主体检测操作，从而可以获得主体检测信息，所获得的主体检测信息的数量可以为一个或多个，该主体检测信息可以包括主体类型、主体定位信息等等。相类似的，可以基于跨模态融合特征进行客体检测操作，从而可以获得客体检测信息，所获得的客体检测信息的数量可以为一个或多个，该客体检测信息可以包括客体类型、客体定位信息等等。

在另一些实例中，主体检测操作可以通过预设的主体查询向量对跨模态融合特征进行分析处理所获得，客体检测操作可以通过预设的客体检测向量对跨模态融合特征进行分析处理所获得；此时，基于跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息可以包括：获取用于进行主体检测操作的主体查询向量和用于进行客体检测操作的客体查询向量，主体查询向量与客体查询向量相互独立、且主体查询向量的数量与客体查询向量的数量相同；利用主体查询向量对跨模态融合特征进行主体检测操作，获得一个或多个主体检测信息；利用客体检测信息对跨模态融合特征进行主体检测操作，获得一个或多个客体检测信息，客体检测信息的数量与主体检测信息的数量相同，这样有效地保证了对主体检测信息和客体检测信息进行获取的准确可靠性。

步骤S204：基于主体检测信息和客体检测信息进行关系检测，获得主体与客体之间的至少一个预测交互关系。

对于待检测图像而言，由于一个待检测图像中可能包括一个或多个主体、一个或多个客体以及一个或多个交互操作，例如：主体可以包括人物或者动物等，客体可以包括人物、动物、物品、植物、建筑物等等；交互操作可以包括：玩耍操作、讲解操作、散步操作、拉动操作等等。此时，为了能够保证交互检测操作的准确可靠性，在获取到主体检测信息和客体检测信息之后，可以对主体检测信息和客体检测信息进行关系检测操作，从而可以获得主体与客体之间的至少一个预测交互关系，需要注意的是，一个主体与一个客体之间可以对应有一个或多个预测交互关系。

另外，本实施例对于关系检测操作的具体获取方式不做限定，在一些实例中，关系检测操作可以通过预先训练的网络模型对主体检测信息和客体检测信息进行处理所获得的，此时，基于主体检测信息和客体检测信息进行关系检测，获得主体与客体之间的至少一个预测交互关系可以包括：获取用于对主体检测信息和客体检测信息进行关系检测操作的网络模型，将主体检测信息和客体检测信息输入至网络模型中，从而可以获得网络模型输出的待检测图像中主体与客体之间的至少一个预测交互关系。

除了基于预先训练的网络模型来确定预测交互关系之外，关系检测操作还可以通过对主体表示特征和客体表示特征进行逐步的分析处理所获得的，此时，基于主体检测信息和客体检测信息进行关系检测，获得主体与客体之间的至少一个预测交互关系可以包括：获取主体检测信息相对应的主体表示特征和客体检测信息相对应的客体表示特征；对主体表示特征和客体表示特征进行融合，获得关系查询特征；对关系查询特征进行解码，获得主体和客体之间的至少一个预测交互关系。

具体的，在获取到主体检测信息和客体检测信息之后，为了能够准确地识别出交互检测操作，可以对主体检测信息进行特征表示操作，从而可以获得主体检测信息相对应的主体表示特征，相类似的，可以对客体检测信息进行特征表示操作，从而可以获得客体检测信息相对应的客体表示特征。在获取到主体表示特征和客体表示特征之后，可以对主体表示特征和客体表示特征进行融合处理，例如：可以对主体表示特征和客体表示特征进行相加、相乘、全连接等融合处理操作，获得关系查询特征。在获取到关系查询特征之后，可以对关系查询特征进行解码处理，从而可以稳定地获得主体和客体之间的至少一个预测交互关系。

本实施例提供的交互检测方法，基于跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息，实现了一种平行实体检测的操作，这样能够提高对主体和客体进行检测的准确可靠性；在获取到主体检测信息和客体检测信息之后，可以基于主体检测信息和客体检测信息进行关系检测操作，获得主体与客体之间的至少一个预测交互关系，从而有效地实现了独立于实体检测操作的交互检测操作。

图3为本发明实施例提供的另一种交互检测方法的流程示意图；在上述实施例的基础上，参考附图3所示，在获得主体与客体之间的至少一个预测交互关系之后，本实施例提供了一种基于预测交互关系进行预设行为识别操作的技术方案，具体的，本实施例中的方法还可以包括：

步骤S301：确定与待检测图像相对应的场景信息。

步骤S302：基于至少一个预测交互关系，识别在场景信息所对应的环境中是否存在预设行为。

步骤S303：若存在预设行为，则生成告警提示信息。

在获取到交互检测操作之后，可以基于预测交互关系进行预设行为检测操作，由于不同场景可以对应有不同的预设行为，预设行为可以是指预先配置的违法行为、危险行为或者不当行为等等，例如：在马路上进行跑跑跳跳是一种预设行为（即危险行为）；在餐厅中进行吸烟的行为是一种预设行为（即不当行为）等等，因此，为了能够准确地进行预设行为的检测操作，可以确定与待检测图像相对应的场景信息，具体的，可以对待检测图像进行背景识别操作，获得待检测图像所对应的背景信息，基于背景信息确定与待检测图像相对应的场景信息。

在获取到场景信息之后，可以基于至少一个预测交互关系识别在场景信息所对应的环境中是否存在预设行为，具体的，基于至少一个预测交互关系，识别在场景信息所对应的环境中是否存在预设行为可以包括：预先配置有与场景信息相对应的多个危险交互关系；将至少一个预测交互关系与多个危险交互关系进行一一对比操作，在多个危险交互关系中存在与预测交互关系相匹配的危险交互关系时，则确定场景信息所对应的环境中存在预设行为；在多个危险交互关系中不存在与预测交互关系相匹配的危险交互关系时，则确定场景信息所对应的环境中不存在预设行为。

若确定场景信息所对应的环境中存在预设行为时，为了能够及时、快速地避免预设行为的发生，则可以生成告警提示信息，该告警提示信息可以包括声音提示信息、闪光提示信息、消息提示信息等等，在获取到告警提示信息之后，可以将告警提示信息发送至相对应的终端，以使得用户可以通过终端快速查看到告警提示信息，并基于告警提示信息及时地避免预设行为的发生或者降低预设行为出现的概率。

举例来说，参考附图4所示，在待检测图像为道路图像时，可以对待检测图像进行主体检测和客体检测操作，从而可以获得主体检测信息和客体检测信息，例如：主体检测信息可以包括主体1和主体2，客体检测信息可以包括客体1和客体2，通过对主体检测信息和客体检测信息进行关系检测操作，从而可以获得至少一个预测交互关系，例如：可以获得主体1与客体1之间的预测交互关系1（用于标识用户跨越道路围栏的行为）、主体2与客体2之间的预测交互关系2（用于标识用户在马路上与路过车辆距离较近的行为）。

而后可以在道路上时，可以识别预测交互关系1和预测交互关系2进行预设行为的识别操作，具体的，在道路上时，预测交互关系1和预测交互关系2均为预设行为，因此，可以确定在道路的场景信息所对应的环境中存在预设行为，并可以生成告警提示信息，例如，可以将告警提示信息输入至道路控制器，以提示用户避免进行预设行为的进行操作。

本实施例中，通过确定与待检测图像相对应的场景信息，基于至少一个预测交互关系，识别在场景信息所对应的环境中是否存在预设行为，若存在预设行为，则生成告警提示信息，若不存在预设行为，则无需执行任何操作，这样有效地实现了预设行为的检测操作，在存在预设行为时，则可以通过告警提示信息进行告警操作，这样有利于减少或者避免预设行为的发生，进一步提高了该方法的实用性。

图5为本发明实施例提供的又一种交互检测方法的流程示意图；在上述实施例的基础上，参考附图5所示，在获得主体与客体之间的至少一个预测交互关系之后，本实施例中的方法还可以实现图像搜索或者图像匹配的技术方案，具体的，本实施例中的方法可以包括：

步骤S501：获取预设图像库，预设图像库中包括多个参考图像，每个参考图像对应有参考主体信息、参考客体信息以及主体与客体之间的参考交互关系。

步骤S502：基于待检测图像所对应的主体检测信息、客体检测信息和至少一个预测交互关系，在预设图像库中进行搜索匹配，获得与待检测图像相匹配的目标图像。

在获取到主体与客体之间的至少一个预测交互关系之后，用户可以根据需求基于至少一个预测交互关系进行图像搜索或者视频搜索操作，此时，为了能够实现图像搜索和视频搜索功能，则可以获取预设图像库，该预设图像库中可以包括多个参考图像，每个参考图像对应有参考主体信息、参考客体信息以及主体与客体之间的参考交互关系。需要注意的是，上述的预设图像库中的多个参考图像可以通过图像采集装置进行图像采集操作所获得或者通过对视频信息的关键帧进行抽取操作所获得。

在获取到预设图像库之后，可以基于待检测图像所对应的主体检测信息、客体检测信息和至少一个预测交互关系，在预设图像库中进行搜索匹配，以获得与待检测图像相匹配的目标图像，目标图像与待检测图像之间的相似度大于或等于预设阈值，从而实现了对相似图像进行准确地搜索匹配操作。

本实施例中，在获得主体与客体之间的至少一个预测交互关系之后，通过获取预设图像库，预设图像库中包括多个参考图像，而后基于待检测图像所对应的主体检测信息、客体检测信息和至少一个预测交互关系，在预设图像库中进行搜索匹配，获得与待检测图像相匹配的目标图像，有效地实现了基于预测交互关系进行图像搜索和图像匹配操作。

图6为本发明实施例提供的一种交互检测模型的预训练方法的原理示意图；图7为本发明实施例提供的一种交互检测模型的预训练方法的流程示意图；参考附图6-图7所示，本实施例提供了一种交互检测模型的预训练方法，其中，本实施例中的交互检测模型用于执行上述图1-图5所示实施例中的交互检测方法。本实施例中的交互检测模型的预训练方法可以包括以下步骤：

步骤S701：获取样本图像以及与样本图像相对应的多个样本标签，多个样本标签包括与样本图像相关的多个第一样本标签以及通过对第一样本标签进行扩展得到的多个第二样本标签，其中，第一样本标签和第二样本标签均包括样本主体标签、样本客体标签和样本交互标签。

步骤S702：基于样本图像和多个样本标签，确定跨模态融合特征。

步骤S703：基于跨模态融合特征和多个样本标签进行模型的预训练，获得用于进行交互检测的交互检测模型，交互检测模型为机器学习模型。

其中，为了能够实现对交互检测模型进行预训练操作，预训练装置可以获取样本图像以及与样本图像相对应的多个样本标签，样本图像的数量可以为一个或多个。需要注意的是，多个样本标签可以包括与样本图像相关的多个第一样本标签以及通过对第一样本标签进行扩展操作所获得的多个第二样本标签，上述的第一样本标签为与样本图像相对应的正样本标签，第二样本标签可以包括与样本标签相对应的负样本标签以及伪样本标签。并且，对于多个样本标签中的第一样本标签和第二样本标签而言，第一样本标签和第二样本标签均包括样本主体标签、样本客体标签以及样本交互标签。

需要注意的是，样本图像以及与样本图像相对应的多个样本标签的具体获取方式与上述获取待检测图像以及多个标签的具体获取方式相类似，具体可参考上述陈述内容，再次不在赘述。

在获取到样本图像和多个样本标签之后，可以对样本图像和多个样本标签进行分析处理，从而可以获得跨模态融合特征，具体的，跨模态融合特征的具体获取方式与上述实施例中的跨模态融合特征的具体获取方式不做限定，具体可参考上述陈述内容，再次不在赘述。

在获取到跨模态融合特征之后，可以基于跨模态融合特征和多个样本标签进行模型的预训练，从而可以获得用于进行交互检测的交互检测模型，所获得的交互检测模型可以为机器学习模型或者神经网络模型，即实现了针对交互检测任务搭建获得机器学习模型或者神经网络模型。在获取到交互检测模型之后，可以基于交互检测模型对图像进行交互检测操作，进一步提高了该方法的实用性。

在一些实例中，训练获得的交互检测模型可以适用于零样本的交互检测场景、少样本的交互检测场景以及全量的交互检测场景，还能够保证交互检测模型的数据处理质量和效果，具体的，上述的零样本的交互检测场景是指交互检测任务与交互检测模型的样本数据完全不同，少样本的交互检测场景是指交互检测任务与交互检测模型的样本数据部分相同，全量的交互检测场景是指交互检测任务与交互检测模型的样本数据完全相同或者相似度大于或等于预设阈值。

本实施例提供的交互检测模型的预训练方法，基于跨模态融合特征和多个样本标签进行模型的预训练，获得用于进行交互检测的交互检测模型；在预训练阶段，由于多个样本标签包括与样本图像相关的多个第一样本标签和通过对第一样本标签进行扩展得到的多个第二样本标签，第二样本标签包括经过扩展操作所获得的负样本标签和伪样本标签，这样有效地扩展了训练过程中样本数据（负样本）的规模，有利于提高交互检测模型的泛化程度和适用程度，具体的，所训练后的交互检测模型能够适用于各种场景的人物交互检测操作，并且能够保证人物交互检测操作的性能以及面对关系噪声时的鲁棒性，例如：能够保证零样本的交互检测的性能、少样本的交互检测的性能和全量的交互检测的微调性能，进一步提高了该方法的实用性。

图8为本发明实施例提供的获取与样本图像相对应的多个样本标签的流程示意图；在上述实施例的基础上，参考附图8所示，本实施例提供了一种对多个样本标签进行获取的实现方式，具体的，本实施例中的获取与样本图像相对应的多个样本标签可以包括：

步骤S801：获取样本图像所对应的图像集合，图像集合中包括多张样本图像。

步骤S802：确定与图像集合中各个样本图像的标签为第一样本标签。

步骤S803：对第一样本标签进行扩展，获得对应的第二样本标签；其中，样本图像相对应的多个样本标签包括所确定的第一样本标签及其对应的第二样本标签。

由于多个样本标签包括第一样本标签和第二样本标签，因此，可以依次通过对第一样本标签和第二样本标签进行获取而获得多个样本标签。具体的，可以先获取样本图像所对应的图像集合，图像集合中包括多个样本图像，一般情况下，图像集合中可以包括20个到30个样本图像、30个到50个图像或者成千上百个样本图像等等，为了能够提高交互检测模型的训练质量和效果，图像集合可以包括20个到30个样本图像。在获取到图像集合之后，可以分别对图像集合中所包括的各个样本图像进行分析处理，以确定图像集合中的各个样本图像相对应的标签，并将上述各个样本标签的标签确定为第一样本标签，第一样本标签的数量可以为多个，并且，多个第一样本标签可以是人为对图像进行标注操作所获得的标签或通过预设算法对图像进行标注操作所获得的标签。

为了能够提高交互检测模型的适用范围和泛化程度，在获取到第一样本标签之后，可以对第一样本标签进行扩展操作，从而可以获得与第一样本标签相对应的第二样本标签。在一些实例中，对第一样本标签进行扩展，获得对应的第二样本标签可以包括：依次对多个第一样本标签进行扩展，获得与多个第一样本标签相对应的多个第二样本标签；识别任意两个第一样本标签所对应的两个第二样本标签中是否相同；若相同，则删除两个第二样本标签中的重复标签，并重新进行扩展操作；若不相同，则保留两个第二样本标签，而后可以继续对其他第一样本标签进行扩展操作。

在又一些实例中，对第一样本标签进行扩展，获得对应的第二样本标签可以包括：获取与多个样本标签相对应的标签序列长度；分别对多个第一样本标签进行扩展，获得多个中间样本标签；在标签序列长度的限定范围内，将多个中间样本标签中的至少一部分确定为多个第二样本标签。

在另一些实例中，第二样本标签可以在预设的多个备用标签中进行选择所获得，此时，对第一样本标签进行扩展，获得对应的第二样本标签可以包括：获取预设的多个备用标签；在多个备用标签中，基于第一样本标签进行随机选择、人为选择、根据标签的使用频率进行选择等等，从而可以获得第一样本标签相对应的第二样本标签，从而有效地保证了对第二样本标签进行获取的准确可靠性。

对于样本图像而言，第二样本标签可以包括与样本图像相对应的负样本标签和伪样本标签，由于伪样本标签对于样本图像而言，并不是错误的标签信息，举例来说，对于样本交互标签“站着交谈”而言，那么英文标签“Stand up and talk”、“Walking andtalking”与上述的样本交互标签都是语义相似的标签，并不是负样本标签，因此，将上述与样本交互标签相似的标签称为伪样本标签。为了能够使得用户了解到伪样本标签的准确率，在获得多个第二样本标签之后，本实施例中的方法还可以包括：获取第二样本标签与所对应的第一样本标签之间的相似度；在相似度大于或等于预设阈值时，则将第二样本标签确定为伪样本标签。在一些实例中，在将第二样本标签确定为伪样本标签之后，还可以基于相似度对伪样本标签进行显示，即可以对伪样本标签以及所对应的相似度进行关联显示。

本实施例中，通过获取样本图像所对应的图像集合，确定与图像集合中所有图像相对应的多个第一样本标签，分别对多个第一样本标签进行扩展，获得多个第二样本标签，有效地保证了样本数据的数量，这样在基于多个样本标签进行模型的预训练操作时，可以有效地提高交互检测模型的泛化性和实用性，进一步提高了该方法使用的准确可靠性。

图9为本发明实施例提供的另一种交互检测模型的预训练方法的流程示意图；在上述实施例的基础上，参考附图9所示，在获得用于进行交互检测的交互检测模型之后，本实施例提供了一种基于交互检测模型对图像进行交互检测操作，具体的，本实施例中的方法还可以包括：

步骤S901：获取待检测图像以及用于对待检测图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。

步骤S902：利用交互检测模型对待检测图像和多个标签进行交互检测，获得待检测图像中的主体与客体之间的至少一个预测交互关系。

其中，本实施例中上述步骤的具体实现方式和实现效果与上述图2所示实施例中的具体实现方式和实现效果相类似，具体可参考上述陈述内容，在次不再赘述。

在获得待检测图像中的主体与客体之间的至少一个预测交互关系之后，本实施例中的方法还可以包括：

步骤S903：确定待检测图像中的主体与客体之间的至少一个样本交互关系，样本交互关系的数量与预测交互关系的数量相同、且一一对应。

步骤S904：基于预测交互关系对相对应的样本交互关系进行数据平滑处理，获得用于对交互检测模型进行训练的处理后交互关系，处理后交互关系的置信度低于样本交互关系的置信度。

在对交互检测模型进行预训练操作时，由于交互检测模型的训练数据（包括样本图像以及样本标签）可能会存在偏差以及误差等信息，为了能够降低样本数据所对应的数据偏差程度，则可以确定待检测图像中的主体与客体之间的至少一个样本交互关系，该样本交互关系的数量与预测交互关系的数量相同、且一一对应。在获取到预测交互关系之后，可以基于预测交互关系对相对应的样本交互关系进行数据平滑处理，从而可以获得用于对交互检测模型进行训练的处理后交互关系，该处理后交互关系的置信度低于样本交互关系的置信度，即在获取到处理后交互关系之后，可以基于处理后交互关系进行模型的预训练操作，这样可以提高模型训练的质量和效果。

在一些实例中，基于预测交互关系对相对应的样本交互关系进行数据平滑处理，获得用于对交互检测模型进行训练的处理后交互关系可以包括：获取预测交互关系与相对应的样本交互关系之间的定位准确度；将定位准确度与样本交互关系之间的乘积确定为处理后交互关系。

具体的，在获取到预测交互关系和样本交互关系之后，可以利用匈牙利匹配算法对预测交互关系和样本交互关系进行匹配，获得定位准确度，而后可以将定位准确度与样本交互关系之间的乘积确定为处理后交互关系，从而有效地实现了对样本交互关系的数据模糊处理操作。

本实施例中，通过获取待检测图像以及用于对待检测图像进行交互检测的多个标签，利用交互检测模型对待检测图像和多个标签进行交互检测，获得待检测图像中的主体与客体之间的至少一个预测交互关系，从而有效地实现了对图像进行准确地交互检测操作，进一步提高了该方法的实用性。

具体应用时，本应用实施例提供了一种交互检测系统，该交互检测系统可以通过关系嵌入的语言图片进行跨模态预训练操作而获得，预训练操作使用了自然语言和视觉关系向量的一致性作为预训练的信号，使得训练所获得的交互检测系统进行零样本检测的能力，并可以从具有丰富描述的自然语言中使得交互检测系统具有较强的扩展能力，具体的，该交互检测系统能够进行零样本检测、少样本检测操作和全样本检测操作，即交互检测系统的预训练任务与处理任务之间可以相同、部分相同或者完全不同，有效地提高了该交互检测系统具有较强的泛化程度和适用范围。

在对交互检测系统进行训练操作时，则容易出现以下问题：（1）现有的人物交互检测架构使用了人体、物体、动词耦合的（或者部分耦合的）特征表示，因此很难对三者进行分离的跨模态对齐。（2）在图片文本的对比预训练中，我们尚不可知如何去构建合理的负样本来保证一个好的对比学习的效果。（3）最后是自然语言标注的数据集天然存在噪声和语义模糊的问题，使得模型优化困难。

为了解决上述技术问题，参考附图10所示，本实施例中的技术方案提供了一种对交互检测系统的训练方法以及基于交互检测系统进行交互检测的方法，具体的，交互检测系统的训练方法可以包括以下步骤：

步骤1：获取样本图像，样本图像的数量可以为多个。

步骤2：确定与样本图像相对应的样本标签。

其中，样本图像的数量为多个，多个样本图像可以称为单批样本图像，对于单批样本图像而言，单批样本图像所对应的样本标签可以包括与样本图像相对应的关联标签以及由关联标签（批次内标签）进行扩展操作所获得的扩展标签（批次外标签），扩展标签可以包括与样本图像相对应的负标签以及伪标签（关系伪标签）。在一些实例中，可以先获取多个备用标签（例如：十万多个标签），而后可以在多个备用标签中随机选择多个扩展标签（例如：三百多个标签）。在又一些实例中，可以先获取多个备用标签，确定各个备用标签所对应的标签使用频率，基于标签使用频率按照从高到低进行排序，而后在排序后的多个备用标签选择标签使用频率比较高的多个扩展标签。在另一些实例中，可以先获取多个备用标签，对多个备用标签进行显示，获取用户一个或多个备用标签进行选择操作，从而可以获得多个扩展标签。

对于样本标签而言，样本标签可以包括主体标签（主体类别）、客体标签（客体类别）以及交互标签（交互类别），可以理解的是，同一个样本图像可以对应有多个样本标签，不同的样本图像可以对应有多个不同的样本标签。并且，样本标签可以为人为标注的或者预先配置的自然语言的标签。

在一些实例中，由于关系伪标签对于样本图像而言并不是负标签，因此，为了能够使得用户了解到伪标签的识别状态，则可以识别扩展标签中所包括的伪标签，具体的，可以计算扩展标签所对应的序列与关联标签所对应的序列进行相似度计算，获得标签相似度，在标签相似度大于或预设阈值时，则将标签相似度所对应的扩展标签确定为伪标签，并对伪标签所对应的标签相似度与伪标签进行关联显示；在标签相似度小于预设阈值时，则将标签相似度所对应的扩展标签确定为负标签。

步骤3：获取与样本图像相对应的位置编码，利用图像编码器和位置编码对样本图像进行处理，获得样本图像特征。

其中，图像编码器相对于交互检测操作而言，其为视觉处理分支，具体的，图像编码器可以由卷积神经网络所构成，在对样本图像进行处理时，可以结合位置编码并通过卷积神经网络对样本图像进行特征提取操作，从而可以稳定地获得样本图像特征。

步骤4：利用文本编码器对与样本图像相对应的样本标签（包括：主体标签、客体标签、交互标签等）进行处理，获得标签序列特征。

其中，文本编码器相对于交互检测操作而言，其为语言处理分支，具体的，文本编码器的输入可以包括样本数据（可以为单批数据）中所对应的所有标签，所有标签可以包括主体标签、客体标签以及交互标签，为了能够准确地获得标签序列特征，可以按照预设顺序（图像标签序列在前、文本标签序列在后）对所有标签进行序列化处理，获得标签序列，而后利用文本编码器对标签序列进行处理，获得标签序列特征。

需要注意的是，为了能够保证标签序列特征的准确获取和表达，对于标签序列特征而言，往往会限定一个固定的序列特征长度，此时，基于固定的序列特征长度能够对扩展标签进行有效的确定操作。具体的，在确定扩展标签时，可以包括以下步骤：依次对多个关联标签进行扩展，获得与关联标签相对应的一扩展标签；识别由关联标签所扩展的所有扩展标签中是否存在重复标签；若存在，则删除重复标签，并重新进行扩展操作；若不存在，则保留扩展标签，并继续对其他关联标签进行扩展操作，直至满足固定的序列特征长度为止。

步骤5：对样本图像特征和标签序列特征进行融合操作，获得跨模态融合特征。

在获取到样本图像特征和标签序列特征之后，可以对样本图像特征和标签序列特征进行随机组合操作，具体可以将样本图像特征和标签序列特征按照序列维度组合在一起，获得跨模态组合特征，从而实现了将视觉分支的特征和语言分支的特征按照序列维度组合到一起，形成模型最后的跨模态输入。

为了能够进一步提高视觉分支的特征和语言分支的特征进行融合的程度，在获取到跨模态组合特征之后，可以利用跨模态编码器对跨模态组合特征进行融合处理，从而可以获得跨模态融合特征，具体的，针对跨模态编码器的实现，可以使用标准Transformer的编码器结构。

步骤6：基于跨模态融合特征和多个样本标签进行模型的预训练，获得用于进行交互检测的交互检测模型，交互检测模型主要包括解码器1和解码器2，其中，解码器1用于实现平行实体检测，解码器2用于实现交互检测操作。

针对平行实体检测的解码器1而言，可以使用标准Transformer的解码器结构，与解码器1的结构相类似，解码器2也可以使用标准Transformer的解码器结构。

在又一些实例中，为了能够提高交互检测模型的实用性，在获取到交互检测模型之后，可以利用交互检测模型对图像进行交互检测操作，从而可以获得与图像相对应的预测交互关系，具体的，交互检测操作可以包括以下步骤：

步骤11：获取待检测图像以及用于对待检测图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。

其中，待检测图像可以实现为单张图像或者一图像集合，该图像集合中可以包括16个待检测图像、32个待检测图像或者64个待检测图像等等，上述的多个标签可以为与图像集合中所有图像相对应的标签信息，即集合内标签。

步骤12：基于位置编码和图像编码器对待检测图像进行处理，获得图像特征。

步骤13：基于文本编码器对多个标签进行处理，获得文本特征。

步骤14：利用图像特征和文本特征进行融合处理，获得跨模态融合特征，跨模态融合特征用于对待检测图像的视觉信息和文本信息进行融合表示。

步骤15：在获取到跨模态融合特征之后，可以利用解码器1对跨模态融合特征进行并行的主体检测操作和客体检测操作，从而可以获得主体检测信息和客体检测信息。

其中，解码器1中包括主体查询向量和客体查询向量，主体查询向量用于实现主体查询操作，客体查询向量用于实现客体查询操作，具体的，主体查询向量对跨模态融合特征进行分析处理，从而可以获得至少一个主体检测信息；客体查询向量对跨模态融合特征进行分析处理，从而可以获得至少一个客体检测信息。需要注意的是，主体查询向量的数量与客体查询向量的数量相同、且相互独立。

步骤16：在获取到主体检测信息和客体检测信息之后，可以将主体检测信息和客体检测信息输入至解码器2，从而可以获得主体与客体之间的预测交互信息。

在获取到主体检测信息和客体检测信息之后，可以对主体检测信息和客体检测信息进行组合处理，例如：可以将主体检测信息所对应的主体特征与客体检测信息所对应的客体特征进行相加操作，获得关系查询特征，而后利用解码器2对关系查询特征进行分析处理，从而可以获得预测交互信息。

在又一些实例中，针对交互检测模型而言，由于样本标签的模糊性，即在进行交互检测模型的预训练操作时，需要进行预训练操作的样本数据中存在模糊数据，为了能够降低模糊数据对预训练操作的影响程度，可以利用模糊数据抑制策略进行整个模型的训练，其中，模糊抑制策略主要包含两部分：关系质量标签和关系伪标签，具体的，此时的方法可以包括：

步骤111：利用交互检测模型对待检测图像和多个标签进行交互检测，获得待检测图像中的主体与客体之间的至少一个预测交互关系。

步骤112：确定待检测图像中的主体与客体之间的至少一个样本交互关系，样本交互关系的数量与预测交互关系的数量相同、且一一对应。

步骤113：基于预测交互关系对相对应的样本交互关系进行数据平滑处理，获得用于对交互检测模型进行训练的处理后交互关系，处理后交互关系的置信度低于样本交互关系的置信度。

考虑到样本标签的模糊性，可以先计算预测交互关系与样本交互关系之间的定位准确度，具体的，可以使用GIoU（Generalized Intersection-over-Union）算法或者匈牙利匹配算法对预测交互关系和样本交互关系进行处理，从而可以获得定位准确度，而后可以基于定位准确度对样本交互关系进行数据平滑处理，从而可以获得用于对交互检测模型进行训练的处理后交互关系。

在一些实例中，可以将定位准确度与样本交互关系之间的乘积确定为处理后交互关系，例如：在样本交互关系的标识值为1时，定位准确度为0.5时，则可以将定位准确度与样本交互关系之间的乘积值1*0.5=0.5作为处理后交互关系，从而有效地保证了数据平滑处理操作，这样有效地减少了样本数据的模糊性，在基于数据平滑处理后的样本数据进行模型预训练操作时，可以提升模型的准确程度。

在另一些实例中，对于交互检测模型而言，还可以使用跨模态的交叉熵损失来监督实体类别的训练操作，具体可以使用跨模态的Focal损失来监督动词类别的训练，此时，本实施例中的方法可以包括：

步骤200：获取与主体检测信息和客体检测信息相对应的第一损失信息、以及与至少一个预测交互关系相对应的第二损失信息。

具体的，对于主体检测信息和客体检测信息而言，可以获取样本主体信息和样本客体信息，而后利用交叉熵损失函数对主体检测信息、客体检测信息、样本主体信息和样本客体信息进行处理，可以获得第一损失信息。相类似的，在获取到至少一个预测交互关系之后，可以确定与至少一个预测交互关系相对应的样本交互关系，利用跨模态的Focal损失对样本交互关系和预测交互关系进行处理，从而可以获得第二损失信息。

步骤201：基于第一损失信息对对象检测模型进行优化。

在获取到第一损失信息之后，可以对交互检测模型中的解码器1的系数进行优化调整操作，从而可以获得在调整后的解码器1。

步骤202：基于第二损失信息对对象检测模型和关系检测模型进行优化。

在获取到第二损失信息之后，可以对交互检测模型中的解码器1的系数和解码器2的系数进行优化调整操作，从而可以获得在调整后的解码器1和调整后的解码器2，从而有效地实现了对交互检测模型进行优化调整操作。

本应用实施例所提供的技术方案，解耦了主体（人体）、客体（物体）和交互关系（动词）之间的特征表示，对于主体和客体而言，通过定义相互分离的主体查询向量和客体查询向量使得主体检测操作和客体检测操作得到一定程度的分离，对于实体（人体、物体）和交互关系而言，可以通过序列化的两个解码器进行分离；此外，在进行交互检测以及模型训练的过程中，可以使用实体级别的视觉和语言特征进行对齐以外，还可以直接对视觉和语言中关系的特征也进行了对齐，从而使得交互检测模型具备一定人物交互的零样本检测的能力。

另外，本应用实施例实现了一种关系嵌入的语言图片跨模态预训练方法，除了基于与样本图像相对应的样本标签进行预训练操作之外，还会对样本标签进行扩展操作，获得扩展标签，即除了使用批次内样本图像所对应的语言标签以外，还会通过标签序列扩展从整个数据集的标签库中按照规则采样出一定数量的新标签作为负样本，而后基于样本图像、样本标签和扩展标签进行预训练操作，获得交互检测模型，这样有效地保证了模型训练时，负样本数据的充足。此外，为了采用了两种模糊数据抑制策略，即关系质量标签和关系伪标签，从而有效地缓解了样本数据中存在的数据模糊问题，这样在基于交互检测模型进行零样本检测操作、少样本检测操作和全量样本检测操作时，均保证了人物交互检测中的零样本检测性能、少样本检测性能和全量微调性能，并且，面对关系噪声时的鲁棒性也得到了提升，进一步提高了该技术方案的实用性。

图11为本发明实施例提供的一种直播物品的确定方法的流程示意图；参考附图11所示，本实施例提供了一种直播物品的确定方法，具体可以包括以下步骤：

步骤S1101：获取直播图像以及用于对直播图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。

其中，直播图像可以通过直播终端所获得，此时，为了能够实现对直播物品进行识别操作，直播物品的确定装置可以与直播终端通信连接，因此，在用户进行直播的过程中，可以通过直播终端实时地获得直播图像，所获得的直播图像的数量可以为一个或多个。在获取到直播图像之后，可以获取用于对直播图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签等等。

步骤S1102：基于直播图像和多个标签，确定跨模态融合特征，跨模态融合特征用于对直播图像的视觉信息和文本信息进行融合表示。

步骤S1103：基于跨模态融合特征分别进行主播检测和物品检测，获得主播检测信息和物品检测信息。

步骤S1104：基于主播检测信息和物品检测信息进行关系检测，获得主播与物品之间的至少一个预测交互关系。

本实施例中步骤S1001-步骤S1004的具体实现方式和实现效果与上述步骤S201-步骤S204的具体实现方式和实现效果相类似，具体可参考上述陈述内容，在此不再赘述。

步骤S1105：基于至少一个预测交互关系，确定与直播图像相对应的当前直播物品。

在获取到至少一个预测交互关系之后，可以对至少一个预测交互关系进行处理，以确定与直播图像相对应的当前直播物品，例如：当直播图像中包括多个物品时，则可以基于主播与各个物品之间的预测交互关系，并基于预测交互关系在多个物品中确定主播当前正在讲解的当前直播物品，并可以对当前直播物品进行标记显示操作。

本实施例提供的直播物品的确定方法，有效地实现了能够基于预测交互关系进行直播物品的确定操作，进一步提高了对直播物品进行确定的准确可靠性，有效地提高了该方法的实用性，有利于市场的推广与应用。

图12发明实施例提供的一种虚拟现实场景中的行为预测方法的流程示意图；参考附图12，本实施例提供了一种虚拟现实场景中的行为预测方法，具体包括以下步骤：

步骤S1201：通过虚拟现实设备获取虚拟现实图像，虚拟现实图像为虚拟现实设备在显示组件上已经完成渲染的图像，在另一些实例中，虚拟现实图像还可以是虚拟现实设备在显示组件上渲染中的图像或者待渲染的图像等等。

步骤S1202：确定用于对虚拟现实图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。

步骤S1203：基于虚拟现实图像和多个标签，确定跨模态融合特征，跨模态融合特征用于对虚拟现实图像的视觉信息和文本信息进行融合表示。

步骤S1204：基于跨模态融合特征分别进行人物检测和对象检测，获得人物检测信息和对象检测信息。

步骤S1205：基于人物检测信息和对象检测信息进行关系检测，获得人物与对象之间的至少一个预测交互关系。

本实施例中步骤S1201-步骤S1205的具体实现方式和实现效果与上述步骤S201-步骤S204的具体实现方式和实现效果相类似，具体可参考上述陈述内容，在此不再赘述。

步骤S1206：基于至少一个预测交互关系进行行为预测，获得预测行为信息。

在获取到至少一个预测交互关系之后，可以对虚拟现实场景中所存在的交互行为进行预测操作，例如：可以对虚拟场景中人物与虚拟场景中的对象之间交互行为进行预测，从而可以获得预测行为信息，并可以基于预测行为信息在虚拟场景中生成并显示相对应的提示信息，以提高用户使用虚拟现实设备的良好体验性。

本实施例提供的虚拟现实场景中的行为预测方法，有效地实现了能够基于预测交互关系进行行为预测操作，这样实现了在虚拟现实场景中进行行为的预测操作，进一步提高了该方法的实用性，有利于市场的推广与应用。

图13为本发明实施例提供的一种交互检测装置的结构示意图；参考附图13所示，本实施例提供了一种交互检测装置，该交互检测装置用于执行上述图2所示的交互检测方法，具体的，该交互检测装置可以包括：

第一获取模块11，用于获取待检测图像以及用于对待检测图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。

第一确定模块12，用于基于待检测图像和多个标签，确定跨模态融合特征。

第一处理模块13，用于基于跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息。

第一处理模块13，用于基于主体检测信息和客体检测信息进行关系检测，获得主体与客体之间的至少一个预测交互关系。

图13所示装置可以执行图1-图5、图10所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图5、图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图5、图10所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图13所示交互检测装置的结构可实现为一电子设备，该电子设备可以是平板电脑、个人电脑PC、会议室显示设备、服务器等各种设备。如图14所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，第一存储器22用于存储相对应电子设备执行上述图1-图5、图10所示实施例中交互检测方法的程序，第一处理器21被配置为用于执行第一存储器22中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第一处理器21执行时能够实现如下步骤：获取待检测图像以及用于对待检测图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签；基于待检测图像和多个标签，确定跨模态融合特征；基于跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息；基于主体检测信息和客体检测信息进行关系检测，获得主体与客体之间的至少一个预测交互关系。

进一步的，第一处理器21还用于执行前述图1-图5、图10所示实施例中的全部或部分步骤。其中，电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图1-图5、图10所示实施例中交互检测方法的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当计算机程序被电子设备的处理器执行时，使处理器执行上述图1-图5、图10所示的交互检测方法中的步骤。

图15为本发明实施例提供的一种交互检测模型的预训练装置的结构示意图；参考附图15所示，本实施例提供了一种交互检测模型的预训练装置，该交互检测模型的预训练装置能够执行图6所示的交互检测模型的预训练方法，具体的，该交互检测模型的预训练装置可以包括：

第二获取模块31，用于获取样本图像以及与样本图像相对应的多个样本标签，多个样本标签包括与样本图像相关的多个第一样本标签以及通过对第一样本标签进行扩展得到的多个第二样本标签，其中，第一样本标签和第二样本标签均包括样本主体标签、样本客体标签和样本交互标签。

第二确定模块32，用于基于样本图像和多个样本标签，确定跨模态融合特征。

第二处理模块33，用于基于跨模态融合特征和多个样本标签进行模型的预训练，获得用于进行交互检测的交互检测模型，交互检测模型为机器学习模型。

图15所示装置可以执行图6-图10所示实施例的方法，本实施例未详细描述的部分，可参考对图6-图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图6-图10所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图15所示交互检测模型的预训练装置的结构可实现为一电子设备，该电子设备可以是个人电脑、平板电脑、服务器等各种设备。如图16所示，该电子设备可以包括：第二处理器41和第二存储器42。其中，第二存储器42用于存储相对应电子设备执行上述图6所示实施例中交互检测模型的预训练方法的程序，第二处理器41被配置为用于执行第二存储器42中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第二处理器41执行时能够实现如下步骤：获取样本图像以及与样本图像相对应的多个样本标签，多个样本标签包括与样本图像相关的多个第一样本标签以及通过对第一样本标签进行扩展得到的多个第二样本标签，其中，第一样本标签和第二样本标签均包括样本主体标签、样本客体标签和样本交互标签；基于样本图像和多个样本标签，确定跨模态融合特征；基于跨模态融合特征和多个样本标签进行模型的预训练，获得用于进行交互检测的交互检测模型，交互检测模型为机器学习模型。

进一步的，第二处理器41还用于执行前述图6所示实施例中的全部或部分步骤。其中，电子设备的结构中还可以包括第二通信接口43，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图6所示方法实施例中交互检测模型的预训练方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当计算机程序被电子设备的处理器执行时，使处理器执行上述图6所示的交互检测模型的预训练方法中的步骤。

图17为本发明实施例提供的一种直播物品的确定装置的结构示意图；参考附图17，本实施例提供了一种直播物品的确定装置，该直播物品的确定装置用于执行上述图11所示的直播物品的确定方法，具体的，直播物品的确定装置可以包括：

第三获取模块51，用于获取直播图像以及用于对直播图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。

第三确定模块52，用于基于直播图像和多个标签，确定跨模态融合特征，跨模态融合特征用于对直播图像的视觉信息和文本信息进行融合表示。

第三检测模块53，用于基于跨模态融合特征分别进行主播检测和物品检测，获得主播检测信息和物品检测信息。

第三检测模块53，用于基于主播检测信息和物品检测信息进行关系检测，获得主播与物品之间的至少一个预测交互关系。

第三处理模块54，用于基于至少一个预测交互关系，确定与直播图像相对应的当前直播物品。

图17所示装置可以执行图11所示实施例的方法，本实施例未详细描述的部分，可参考对图11所示实施例的相关说明。该技术方案的执行过程和技术效果参见图11所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图17所示直播物品的确定装置的结构可实现为一电子设备，该电子设备可以是个人电脑、平板电脑、服务器等各种设备。如图18所示，该电子设备可以包括：第三处理器61和第三存储器62。其中，第三存储器62用于存储相对应电子设备执行上述图11所示实施例中直播物品的确定方法的程序，第三处理器61被配置为用于执行第三存储器62中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第三处理器61执行时能够实现如下步骤：获取直播图像以及用于对直播图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。基于直播图像和多个标签，确定跨模态融合特征，跨模态融合特征用于对直播图像的视觉信息和文本信息进行融合表示。基于跨模态融合特征分别进行主播检测和物品检测，获得主播检测信息和物品检测信息。基于主播检测信息和物品检测信息进行关系检测，获得主播与物品之间的至少一个预测交互关系。基于至少一个预测交互关系，确定与直播图像相对应的当前直播物品。

进一步的，第三处理器61还用于执行前述图11所示实施例中的全部或部分步骤。其中，电子设备的结构中还可以包括第三通信接口63，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图11所示实施例中直播物品的确定方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当计算机程序被电子设备的处理器执行时，使处理器执行上述图11所示直播物品的确定方法中的步骤。

图19为本发明实施例提供的一种虚拟现实场景中的行为预测装置的结构示意图；参考附图19，本实施例提供了一种虚拟现实场景中的行为预测装置，该虚拟现实场景中的行为预测装置用于执行上述图12所示的虚拟现实场景中的行为预测方法，具体的，虚拟现实场景中的行为预测装置可以包括：

第四获取模块71，用于通过虚拟现实设备获取虚拟现实图像，所述虚拟现实图像为虚拟现实设备在显示组件上已经完成渲染的图像。

第四确定模块72，用于确定用于对虚拟现实图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签。

第四确定模块72，还用于基于虚拟现实图像和多个标签，确定跨模态融合特征，跨模态融合特征用于对虚拟现实图像的视觉信息和文本信息进行融合表示。

第四检测模块73，用于基于跨模态融合特征分别进行人物检测和对象检测，获得人物检测信息和对象检测信息；

该第四检测模块73，用于基于人物检测信息和对象检测信息进行关系检测，获得人物与对象之间的至少一个预测交互关系；

第四处理模块74，用于基于至少一个预测交互关系进行行为预测，获得预测行为信息。

图19所示装置可以执行图12所示实施例的方法，本实施例未详细描述的部分，可参考对图12所示实施例的相关说明。该技术方案的执行过程和技术效果参见图12所示实施例中的描述，在此不再赘述。

在一个可能的设计中，图19所示虚拟现实场景中的行为预测装置的结构可实现为一电子设备，该电子设备可以是个人电脑、平板电脑、服务器等各种设备。如图20所示，该电子设备可以包括：第四处理器81和第四存储器82。其中，第四存储器82用于存储相对应电子设备执行上述图12所示实施例中虚拟现实场景中的行为预测方法的程序，第四处理器81被配置为用于执行第四存储器82中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第四处理器81执行时能够实现如下步骤：通过虚拟现实设备获取虚拟现实图像，所述虚拟现实图像为虚拟现实设备在显示组件上已经完成渲染的图像；确定用于对虚拟现实图像进行交互检测的多个标签，多个标签包括多个主体标签、多个客体标签以及多个交互标签；基于虚拟现实图像和多个标签，确定跨模态融合特征，跨模态融合特征用于对虚拟现实图像的视觉信息和文本信息进行融合表示；基于跨模态融合特征分别进行人物检测和对象检测，获得人物检测信息和对象检测信息；基于人物检测信息和对象检测信息进行关系检测，获得人物与对象之间的至少一个预测交互关系；基于至少一个预测交互关系进行行为预测，获得预测行为信息。

进一步的，第四处理器81还用于执行前述图12所示实施例中的全部或部分步骤。其中，电子设备的结构中还可以包括第四通信接口83，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存电子设备所用的计算机软件指令，其包含用于执行上述图12所示实施例中虚拟现实场景中的行为预测方法所涉及的程序。

此外，本发明实施例提供了一种计算机程序产品，包括：计算机程序，当计算机程序被电子设备的处理器执行时，使处理器执行上述图12所示的虚拟现实场景中的行为预测方法中的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种交互检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述待检测图像和所述多个标签，确定跨模态融合特征，包括：

获取与所述待检测图像相对应的图像特征；

对所述多个标签进行序列化处理，获得标签序列；

确定与所述标签序列相对应的标签序列特征；

基于所述图像特征和标签序列特征，确定所述跨模态融合特征。

3.根据权利要求2所述的方法，其特征在于，基于所述图像特征和标签序列特征，确定所述跨模态融合特征，包括：

将所述标签序列特征和图像特征按照序列维度进行组合，获得跨模态特征；

对所述跨模态特征进行融合处理，获得所述跨模态融合特征。

4.根据权利要求1所述的方法，其特征在于，基于所述跨模态融合特征分别进行主体检测和客体检测，获得主体检测信息和客体检测信息，包括：

获取用于进行主体检测操作的主体查询向量和用于进行客体检测操作的客体查询向量；

利用所述主体查询向量对所述跨模态融合特征进行主体检测操作，获得主体检测信息；

利用所述客体检测信息对所述跨模态融合特征进行主体检测操作，获得客体检测信息。

5.根据权利要求1所述的方法，其特征在于，基于所述主体检测信息和客体检测信息进行关系检测，获得主体与客体之间的至少一个预测交互关系，包括：

获取所述主体检测信息相对应的主体表示特征和所述客体检测信息相对应的客体表示特征；

对所述主体表示特征和所述客体表示特征进行融合，获得关系查询特征；

对所述关系查询特征进行解码，获得主体和客体之间的至少一个预测交互关系。

6.根据权利要求1-5任一项所述的方法，其特征在于，在获得主体与客体之间的至少一个预测交互关系之后，所述方法还包括：

确定与所述待检测图像相对应的场景信息；

基于所述至少一个预测交互关系，识别在所述场景信息所对应的环境中是否存在预设行为；

若存在预设行为，则生成告警提示信息。

7.根据权利要求1-5任一项所述的方法，其特征在于，在获得主体与客体之间的至少一个预测交互关系之后，所述方法还包括：

获取预设图像库，所述预设图像库中包括多个参考图像，每个参考图像对应有参考主体信息、参考客体信息以及主体与客体之间的参考交互关系；

基于所述待检测图像所对应的主体检测信息、客体检测信息和至少一个预测交互关系，在所述预设图像库中进行搜索匹配，获得与所述待检测图像相匹配的目标图像。

8.一种交互检测模型的预训练方法，其特征在于，所述交互检测模型用于执行权利要求1-权利要求7中任意一项所述的交互检测方法，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，获取与所述样本图像相对应的多个样本标签，包括：

获取所述样本图像所对应的图像集合，所述图像集合中包括多张样本图像；

确定所述图像集合中各样本图像的标签为第一样本标签；

对所述第一样本标签进行扩展，获得对应的第二样本标签；

所述样本图像相对应的多个样本标签包括所确定的第一样本标签及其对应的第二样本标签。

10.根据权利要求9所述的方法，其特征在于，在获得多个第二样本标签之后，所述方法还包括：

获取所述第二样本标签与所对应的第一样本标签之间的相似度；

在相似度大于或等于预设阈值时，则将所述第二样本标签确定为伪样本标签。

11.根据权利要求8所述的方法，其特征在于，在获得用于进行交互检测的交互检测模型之后，所述方法还包括：

利用所述交互检测模型对所述待检测图像和多个标签进行交互检测，获得所述待检测图像中的主体与客体之间的至少一个预测交互关系；

确定所述待检测图像中的主体与客体之间的至少一个样本交互关系，所述样本交互关系的数量与所述预测交互关系的数量相同、且一一对应；

基于所述预测交互关系对相对应的样本交互关系进行数据平滑处理，获得用于对交互检测模型进行训练的处理后交互关系，所述处理后交互关系的置信度低于所述样本交互关系的置信度。

12.根据权利要求11所述的方法，其特征在于，基于所述预测交互关系对相对应的样本交互关系进行数据平滑处理，获得用于对交互检测模型进行训练的处理后交互关系，包括：

获取所述预测交互关系与相对应的样本交互关系之间的定位准确度；

将所述定位准确度与所述样本交互关系之间的乘积确定为所述处理后交互关系。

13.一种直播物品的确定方法，其特征在于，包括：

14.一种虚拟现实场景中的行为预测方法，其特征在于，包括：

15.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-14中任一项所述的方法。