CN112149692A

CN112149692A - 基于人工智能的视觉关系识别方法、装置及电子设备

Info

Publication number: CN112149692A
Application number: CN202011108484.3A
Authority: CN
Inventors: 杨耿聪; 张勇; 吴保元; 樊艳波; 李志锋; 杨余久; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2020-12-29
Anticipated expiration: 2040-10-16
Also published as: CN112149692B

Abstract

本申请提供了一种基于人工智能的视觉关系识别方法、装置、电子设备及计算机可读存储介质；涉及人工智能的图像识别技术；方法包括：确定待识别图像中包括多个对象的联合包围框；提取联合包围框的视觉特征，将视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布；提取每个视觉关系标签的语义特征，将语义特征转化为对应视觉关系标签的语义特征高斯分布；在与多个视觉关系标签一一对应的多个语义特征高斯分布中，确定与视觉特征高斯分布匹配的语义特征高斯分布；将匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为多个对象之间的视觉关系。通过本申请，能够提升视觉关系的检测准确率。

Description

基于人工智能的视觉关系识别方法、装置及电子设备

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的视觉关系识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

随着深度学习的发展，图像识别技术应用到越来越多的领域以及产品中，针对于图像视觉关系检测领域，通常仅采用分类的思路来进行视觉关系标签的预测，即将融合后的视觉特征输入到最大似然函数层，以输出属于各个视觉关系标签的预测概率，该预测方式无法适应于具有语义复杂性的视觉关系标签，从而导致视觉关系检测准确率较低。

发明内容

本申请实施例提供一种基于人工智能的视觉关系识别方法、装置、电子设备及计算机可读存储介质，能够提升视觉关系的检测准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的视觉关系识别方法，包括：

确定待识别图像中包括多个对象的联合包围框；

提取所述联合包围框的视觉特征，将所述视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布；

提取每个所述视觉关系标签的语义特征，将所述语义特征转化为对应所述视觉关系标签的语义特征高斯分布；

在与所述多个视觉关系标签一一对应的多个语义特征高斯分布中，确定与所述视觉特征高斯分布匹配的语义特征高斯分布；

将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为所述多个对象之间的视觉关系。

本申请实施例提供一种基于人工智能的视觉关系识别装置，包括：

联合包围框确定模块，用于确定待识别图像中包括多个对象的联合包围框；

视觉转化模块，用于提取所述联合包围框的视觉特征，将所述视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布；

语义转化模块，用于提取每个所述视觉关系标签的语义特征，将所述语义特征转化为对应所述视觉关系标签的语义特征高斯分布；

匹配模块，用于在与所述多个视觉关系标签一一对应的多个语义特征高斯分布中，确定与所述视觉特征高斯分布匹配的语义特征高斯分布；

视觉关系确定模块，将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为所述多个对象之间的视觉关系。

在上述方案中，所述联合包围框确定模块，还用于：

对所述待识别图像进行目标检测处理，得到所述待识别图像中每个对象的包围框；

将所述待识别图像中任意相邻的多个对象的包围框进行组合处理，得到包括多个对象的联合包围框。

在上述方案中，所述视觉转化模块，还用于：

对所述联合包围框进行卷积处理，得到所述联合包围框中图像的卷积特征；

对所述卷积特征进行池化处理，得到所述联合包围框的视觉特征。

在上述方案中，所述多个视觉关系标签与多个全连接层一一对应；

所述视觉转化模块，还用于：针对每个所述视觉关系标签执行以下处理：通过与所述视觉关系标签对应的全连接层对所述视觉特征进行全连接处理，得到与所述视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵；

基于与每个所述视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵，构建与每个所述视觉关系标签对应的视觉特征高斯分布。

在上述方案中，所述语义转化模块，还用于：

通过语义预测网络的输入层将每个所述视觉关系标签编码为独热向量；

将所述语义预测网络的隐层的权重矩阵与每个所述视觉关系标签对应的独热向量相乘，得到每个所述视觉关系标签的语义特征。

在上述方案中，所述语义转化模块，还用于：

对所述视觉关系标签的语义特征进行全连接处理，得到所述语义特征的均值、以及所述语义特征的对角协方差矩阵；

基于所述均值以及所述对角协方差矩阵，构建对应所述视觉关系标签的语义特征高斯分布。

在上述方案中，所述匹配模块，还用于：

针对多个视觉关系标签中的每个视觉关系标签执行以下处理：确定对应所述视觉关系标签的语义特征高斯分布与对应所述视觉关系标签的视觉特征高斯分布之间的匹配度；

将匹配度最高的视觉关系标签对应的语义特征高斯分布，作为与所述视觉特征高斯分布匹配的语义特征高斯分布。

在上述方案中，所述匹配模块，还用于：

对所述语义特征高斯分布进行多次采样处理，得到由多个采样语义特征组成的采样语义特征集合；

对所述视觉特征高斯分布进行多次采样处理，得到由多个采样视觉特征组成的采样视觉特征集合；

将所述采样语义特征集合与所述采样视觉特征集合之间的匹配度，作为所述语义特征高斯分布与所述视觉特征高斯分布之间的匹配度。

在上述方案中，所述匹配模块，还用于在将所述采样语义特征集合与所述采样视觉特征集合之间的匹配度，作为所述语义特征高斯分布与所述视觉特征高斯分布之间的匹配度之前：

将所述采样语义特征集合中任意一个采样语义特征与所述采样视觉特征集合中任意一个采样视觉特征进行组合处理，得到多个采样样本对；

确定每个所述采样样本对中采样语义特征与采样视觉特征之间的欧式距离；

确定与多个所述采样样本对的欧式距离的和成负相关的匹配度，以作为所述采样语义特征集合与所述采样视觉特征集合之间的匹配度。

在上述方案中，所述匹配模块，还用于在将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为所述多个对象之间的视觉关系之后：

获取所述待识别图像中每个联合包围框的面积，并对每个所述联合包围框进行基于面积的降序排序处理；

将排序处理结果中排序靠前的多个联合包围框进行基于匹配度的降序排序处理；

其中，所述匹配度用于确定所述联合包围框中多个对象之间的视觉关系；

将排序靠前的联合包围框中的所述多个对象之间的视觉关系，记录为所述待识别图像的元数据。

在上述方案中，用于确定所述联合包围框中多个对象之间的视觉关系的视觉关系预测网络包括：视觉预测网络、语义预测网络以及采样匹配网络；所述装置还包括：训练模块，用于在确定待识别图像中包括多个对象的联合包围框之后：

获取用于训练所述视觉关系预测网络的正样本以及负样本；

其中，所述正样本包括联合包围框样本以及所述联合包围框样本的真实视觉关系标签，所述负样本包括所述联合包围框样本以及所述联合包围框样本的虚假视觉关系标签，所述真实视觉关系标签以及所述虚假视觉关系标签组成视觉关系标签集合；

将所述联合包围框样本在所述视觉预测网络中进行第一正向传播，并将所述正样本中的真实视觉关系标签在所述语义预测网络中进行第二正向传播；

将所述第一正向传播的结果与所述第二正向传播的结果在所述采样匹配网络中进行正向传播，以确定所述联合包围框样本与所述真实视觉关系标签的第一匹配度；

将所述联合包围框样本在所述视觉预测网络中进行第三正向传播，并将所述负样本中的虚假视觉关系标签在所述语义预测网络中进行第四正向传播；

将所述第三正向传播的结果与所述第四正向传播的结果在所述采样匹配网络中进行正向传播，以确定所述联合包围框样本与所述虚假视觉关系标签的第二匹配度；

将所述第一匹配度、以及所述第二匹配度在所述视觉关系预测网络中反向传播，以确定损失函数取得最小值时所述视觉关系预测网络的参数变化值，并基于所述参数变化值更新所述视觉关系预测网络的参数。

在上述方案中，所述训练模块，还用于：

确定所述第一正向传播的结果与标准高斯分布之间的第一距离；

确定所述第二正向传播的结果与所述标准高斯分布之间的第二距离；

确定与所述第一匹配度成负相关关系，且与所述第一距离、所述第二距离、以及所述第二匹配度成正相关关系的损失函数，以在所述视觉关系预测网络中进行反向传播。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的视觉关系识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的视觉关系识别方法。

本申请实施例具有以下有益效果：

通过建立服从高斯分布的视觉特征以及服从高斯分布的视觉关系标签的语义特征，将图像中对象之间的视觉关系的不确定性约束到高斯分布中，从而将视觉特征和语义特征之间的视觉关系的匹配进行量化，进而能够基于匹配来准确检测视觉关系。

附图说明

图1是本申请实施例提供的基于人工智能的视觉关系识别系统的架构示意图；

图2是本申请实施例提供的应用基于人工智能的视觉关系识别方法的电子设备的结构示意图；

图3是本申请实施例提供的基于人工智能的视觉关系预测网络的架构示意图；

图4A-4D是本申请实施例提供的基于人工智能的视觉关系识别方法的流程示意图；

图5是本申请实施例提供的基于人工智能的视觉关系识别方法的应用示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)目标检测模型：指基于人工智能原理构建的、用于进行目标检测的模型，本申请实施例对目标检测模型的类型不做限定，例如可以是卷积神经网络(ConvolutionalNeural Networks，CNN)模型。

2)反向传播：模型的一种训练机制，以包括输入层、隐藏层和输出层的卷积神经网络模型为例，前向传播是指通过输入层-隐藏层-输出层的顺序，对输入的数据进行处理，得到处理结果；反向传播是指通过输出层-隐藏层-输入层的顺序，基于得到的处理结果对各个层的权重参数进行更新。

3)视觉关系：表征图像中不同对象之间的动作关系、位置关系等等，例如，“一个人骑自行车”和“在汽车旁边骑自行车”这样的视觉关系能为理解图像提供综合场景，也在计算机视觉和自然语言的连接上展现了其作用。

随着深度学习技术的发展，在计算机视觉领域，目标检测的相关技术已日渐成熟，已经可以实现准确检测出图像中物体的技术效果，首先利用目标检测模型提取出图像中的所有物体，接着对这些物体进行两两配对，然后预测每一对物体的视觉关系，关键过程在于对视觉关系的预测，由于视觉关系的标签候选项是确定的，相关技术采用分类的思路来进行视觉关系的候选标签项的预测，即将融合后的视觉特征输入到最大似然函数层中，进而输出一对物体属于各个标签候选项的预测概率，概率最大的标签候选项所表征的视觉关系即为模型预测的视觉关系，在进行训练时通常仅利用交叉熵损失来进行优化。

申请人在实施本申请实施例时发现上述方式忽略了视觉关系的标签候选项的语义复杂性，对此提出对视觉关系的标签候选项的语义特征进行建模，进而将建模得到的语义特征与视觉特征一同投影到共同的特征空间中，通过在特征空间中检索与视觉特征匹配度最高的候选标签项的语义特征来确定预测值，不同于相关技术中基于分类思想进行预测的方式，并且申请人在实施本申请实施例时还发现，相关技术中没有考虑视觉关系的标签候选项自身可能存在的模糊性，例如，某张被标注为“上”的图像块所反映的实际视觉关系可能是“躺在某物上”或“坐在某物上”，申请人在实施本申请实施例时发现学习到此类不确定性能够显著提升视觉关系的识别精度。

本申请实施例提供一种基于人工智能的视觉关系识别方法、装置、电子设备和计算机可读存储介质，能够建模视觉关系标签的不确定性，以明显提升了视觉关系的预测准确率，下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。

参见图1，图1是本申请实施例提供的基于人工智能的视觉关系识别系统的结构示意图，为实现支撑一个图像拍摄应用，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。终端400接收到用户拍摄的图像，终端400向服务器200发送用户所拍摄的图像，服务器200对接收到的图像进行视觉关系识别处理，得到图像中任意对象之间的视觉关系，并将识别出的视觉关系返回至终端400，终端400对图像进行存储时同时存储这些视觉关系，终端400还可以接收用户针对这些视觉关系的确认操作或者否定操作，这些确认操作以及否定操作携带有用户针对这些视觉关系的反馈信息，终端400将这些反馈信息返回至服务器200，以使服务器200结合反馈信息优化识别能力。

在图1中是以终端400和服务器200协同完成视觉关系识别为例说明，可以理解地，作为替换方案，终端400可以依赖于自身的能力完成视觉关系识别。

在一些实施例中，终端400将视觉关系直接记录为图像的元数据或者将以视觉关系为基础得到的信息记录为图像的元数据后，图像的元数据可以用于推荐系统。

例如，当待识别图像为视频封面时，终端400可以省去对视频封面进行图像识别的过程，直接依据视频封面的元数据执行召回、排序以及重排处理，从而可以加快推荐效率，并且，用户在上传视频时，通过本申请实施例提供的视觉关系识别方法可以自动得到视频封面的元数据(图像标题、关键字、说明等信息)，从而省去了用户标记的时间以及避免了标记格式不统一的现象，从而提高了后期推荐系统进行推荐的处理效率。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的应用基于人工智能的视觉关系识别方法的电子设备的结构示意图，以电子设备是依赖于自身能力独立完成视觉关系识别的终端400为例，图2所示的终端400包括：至少一个处理器410、存储器450和至少一个网络接口420。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够显示媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够显示信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的基于人工智能的视觉关系识别装置可以采用软件方式实现，图2示出了存储在存储器450中的基于人工智能的视觉关系识别装置455，包括以下软件模块：联合包围框确定模块4551、视觉转化模块4552、语义转化模块4553、匹配模块4554、视觉关系确定模块4555以及训练模块4556，模块可以是程序和插件等形式的软件，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的基于人工智能的视觉关系识别方法，本申请实施例提供的基于人工智能的视觉关系识别方法可以由上文的终端400独立完成或者由上文的终端400和服务器200协同完成。

下面详细说明本申请实施例提供的基于人工智能的视觉关系识别方法中所使用的视觉关系预测网络。

参见图3，图3是本申请实施例提供的基于人工智能的视觉关系预测网络的架构示意图，视觉关系识别网络由语义预测网络、视觉预测网络以及采样匹配网络组成，通过语义预测网络对视觉关系标签进行处理，通过视觉预测网络对联合包围框进行处理，通过采样匹配网络确定两种处理结果之间的匹配度，语义预测网络包括语义提取网络、全连接层，语义提取网络可以是word2vec的词向量模型，语义预测网络的全连接层用于将所提取的词向量转化为语义特征高斯分布，通过采样匹配网络的第一采样层对语义预测网络的全连接层输出的语义特征高斯分布进行采样得到视觉关系标签的语义特征样本，视觉预测网络包括卷积神经网络、多个并列的全连接层，卷积神经网络用于提取联合包围框的视觉特征，并列的全连接层中的每个全连接层均会将视觉特征转化为分别对应各个视觉关系标签的视觉特征高斯分布(一个全连接层对应一个视觉关系标签)，通过采样匹配网络的第二采样层对视觉预测网络的任意一个全连接层输出的视觉特征高斯分布进行采样得到对应视觉关系标签的视觉特征样本，最后通过采样匹配网络中的匹配层对来源于两个网络的采样结果进行匹配处理。

参见图3和图4A，图3是本申请实施例提供的基于人工智能的视觉关系识别网络的架构示意图，示出了通过一系列模块实现视觉关系识别的流程，图4A是本发明实施例提供的基于人工智能的视觉关系识别方法的流程示意图，将结合图3对图4A示出的步骤进行说明。

在步骤101中，确定待识别图像中包括多个对象的联合包围框。

在一些实施例中，步骤101中确定待识别图像中包括多个对象的联合包围框，可以通过以下技术方案实现：对待识别图像进行目标检测处理，得到待识别图像中每个对象的包围框；将待识别图像中任意相邻的多个对象的包围框进行组合处理，得到包括多个对象的联合包围框。

作为示例，联合包围框主要是通过目标检测模型得到的，目标检测模型可以为循环卷积神经网络，可以通过在该目标周围绘制边界框来对其进行定位，循环卷积神经网络是典型的基于深度学习的目标检测模型，首先给出一些候选区域，然后从中提取出特征，之后再根据这些特征来对这些区域进行分类，本质而言是将目标检测转化成了图像分类问题，针对目标检测模型对待识别图形进行目标检测处理，得到待识别图像中每个对象的包围框。

例如，待识别图像为人丢飞盘且狗接飞盘的图像，则待识别图像中的对象为人、飞盘以及狗，从而通过目标检测模型可以获取人、飞盘以及狗的包围框，将人、飞盘以及狗的包围框进行组合处理，组合处理的方式可以为两两组合，即将人的包围框与飞盘的包围框进行多样化的组合，将人的包围框与狗的包围框进行组合，将飞盘的包围框与狗的包围框进行组合，从而得到三个联合包围框，若两个包围框之间存在交叉，则联合包围框是两个包围框交叉所构成的包围框，若是两个包围框之间不存在交叉，则联合包围框是在两个包围框的基础上进行适应性连接所得到的包围框，上述两种方式得到的联合包围框是一个框。

在另一种方式中，可以直接将两个不存在交叉的包围框作为联合包围框，即联合包围框实际上是两个独立的包围框，进行组合的方式不局限于两两组合，可以任意自由组合，只要保证联合包围框中的对象数目大于等于2，例如，将人的包围框、飞盘的包围框以及狗的包围框进行组合处理，得到包括这三者的联合包围框。

在一些实施例中，用于确定联合包围框中多个对象之间的视觉关系的视觉关系预测网络包括：视觉预测网络、语义预测网络以及采样匹配网络；在执行步骤101中确定待识别图像中包括多个对象的联合包围框之后，还可以执行以下技术方案：获取用于训练视觉关系预测网络的正样本以及负样本；其中，正样本包括联合包围框样本以及联合包围框样本的真实视觉关系标签，负样本包括联合包围框样本以及联合包围框样本的虚假视觉关系标签，真实视觉关系标签以及虚假视觉关系标签组成视觉关系标签集合；将联合包围框样本在视觉预测网络的各个层中进行第一正向传播，并将正样本中的真实视觉关系标签在语义预测网络的各个层中进行第二正向传播；将第一正向传播的结果与第二正向传播的结果在采样匹配网络的各个层中进行正向传播，以确定联合包围框样本与真实视觉关系标签的第一匹配度；将联合包围框样本在视觉预测网络的各个层中进行第三正向传播，并将负样本中的虚假视觉关系标签在语义预测网络的各个层中进行第四正向传播；将第三正向传播的结果与第四正向传播的结果在采样匹配网络的各个层中进行正向传播，以确定联合包围框样本与虚假视觉关系标签的第二匹配度；将第一匹配度、以及第二匹配度在视觉关系预测网络中反向传播，以确定损失函数取得最小值时视觉关系预测网络的参数变化值，并基于参数变化值更新视觉关系预测网络的参数。

作为示例，在通过目标检测模型得到待识别图像中的至少一个联合包围框后，针对任意一个联合包围框，可以通过图3所示的视觉关系预测网络针对其中的多个对象进行视觉关系的预测，例如，若联合包围框中包括人与飞盘，即通过视觉关系预测网络预测人与飞盘之间的视觉关系。

作为示例，图3示出的视觉关系预测网络的训练过程是基于样本的正向传播以及反向传播进行的，样本包括正样本以及负样本，正样本为标记为真实视觉关系标签的联合包围框样本，负样本为未标记为真实视觉关系标签的联合包围框样本，例如，存在四个视觉关系标签(第一视觉关系标签至第四视觉关系标签)，人与飞盘之间的真实视觉关系标签是第一视觉关系标签，即正样本为标记为第一视觉关系标签的联合包围框，其中包括人与飞盘，负样本为标记为第二视觉关系标签至第四视觉关系标签的联合包围框，其中包括人与飞盘。将正样本以及负样本在图3所示的视觉关系预测网络中进行正向传播。

正向传播的过程是将样本中的联合包围框样本在视觉预测网络中正向传播，将样本中的标签在语义预测样本中正向传播，从而得到该样本中的联合包围框与真实视觉关系标签的第一匹配度，或者该样本中的联合包围框与不相关视觉关系标签(第二视觉关系标签至第四视觉关系标签)之间的第二匹配度，将第一匹配度与第二匹配度进行反向传播以更新视觉关系预测网络的参数，反向传播的过程中损失函数的目标是为了最大化第一匹配度且最小化第二匹配度，通过满足损失函数的目标从而得到视觉关系预测网络的参数变化值，并基于参数变化值更新视觉关系预测网络的参数。

在一些实施例中，上述将第一匹配度、以及第二匹配度在视觉关系预测网络中反向传播，可以通过以下技术方案实现：确定第一正向传播的结果与标准高斯分布之间的第一距离；确定第二正向传播的结果与标准高斯分布之间的第二距离；确定与第一匹配度成负相关关系，且与第一距离、第二距离、以及第二匹配度成正相关关系的损失函数，以在视觉关系预测网络中进行反向传播。

作为示例，申请人在实施本申请实施例时发现，若仅以第一匹配度以及第二匹配度构成的交叉熵损失训练视觉关系预测网络，所学到的高斯分布的方差容易趋近于0，使高斯分布退化为单个的“点”，难以达到针对视觉关系的不确定性进行建模的目的，于是另外加入正则项约束，以最小化训练视觉关系预测网络预测得到的高斯分布与标准高斯分布之间的KL散度(相对熵)，目的是让前者更靠近后者，最终的损失函数如公式(1)所示，第一项是交叉熵损失，第二项是基于KL散度(相对熵)的正则化约束，并通过超参数β调整该正则项在损失函数中的比重。

其中，L(x,y_i)是损失函数，p(m|x,y_i)是正样本正向传播所得到的第一匹配度，p(m|x,y_j)是负样本正向传播所得到的第二匹配度，p(z_x|x,y_i)是正样本正向传播过程中所得到的对应真实视觉关系标签的视觉特征高斯分布(第一正向传播的结果)，

是正样本正向传播过程中所得到的对应真实视觉关系标签的语义特征高斯分布(第二正向传播的结果)，正则项中包括第一正向传播的结果与标准高斯分布之间的第一距离，以及第二正向传播的结果与标准高斯分布之间的第二距离，第一距离和第二距离可以通过KL散度(相对熵)进行计算，可以在训练过程中保持建模不确定性，从而提高识别准确率。

在步骤102中，提取联合包围框的视觉特征，将视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布。

在一些实施例中，步骤102中提取联合包围框的视觉特征，可以通过以下技术方案实现：通过视觉预测网络的卷积层对联合包围框进行卷积处理，得到联合包围框中图像的卷积特征；通过视觉预测网络的池化层对卷积特征进行池化处理，得到联合包围框的视觉特征。

作为示例，通过图3中示出的视觉预测网络中的卷积层对联合包围框中的图像进行卷积处理得到卷积特征，卷积层可以为卷积神经网络的卷积层，进而通过视觉预测网络的池化层对卷积特征进行池化处理，得到联合包围框的视觉特征，池化层可以为卷积神经网络的池化层。

在一些实施例中，参见图4B，图4B是本申请实施例提供的基于人工智能的视觉关系识别方法的流程示意图，图4B示出的步骤102中将视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布可以通过步骤1021至步骤1022实现，将结合各步骤进行说明。

在步骤1021中，针对每个视觉关系标签执行以下处理：通过与视觉关系标签对应的视觉预测网络的全连接层对视觉特征进行全连接处理，得到与视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵。

在步骤1022中，基于与每个视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵，构建与每个视觉关系标签对应的视觉特征高斯分布。

在一些实施例中，为了获得更加有针对性的视觉特征，因此需要通过多个全连接层将视觉特征映射为分别对应多个视觉关系标签的多个高斯分布，多个视觉关系标签与多个全连接层一一对应。

例如，存在三个视觉关系标签a，b，c，全连接层a对应于视觉关系标签a，全连接层b对应于视觉关系标签b，全连接层c对应于视觉关系标签c，若是不经过区分，通过单一的全连接层直接针对视觉特征进行全连接处理，以映射为视觉特征的高斯分布，则所获取的视觉特征高斯分布不存在针对性，是较为概括性的视觉特征，在后期进行匹配时，即便是相互匹配的关系，由于视觉特征的概括性也会导致难以获得理想的匹配度，导致与联合包围框真实匹配的视觉关系标签无法被有效识别出来。

在一些实施例中，视觉关系标签除了包括具有实际含义的视觉关系标签之外，还包括不具有实际含义的视觉关系标签，即表征对象之间不存在视觉关系的视觉关系标签，从而将对象之间不存在视觉关系的联合包围框与该标签进行匹配，从而避免将其他标签错误匹配至不存在视觉关系的联合包围框，从而对用户产生误导。

在步骤103中，提取每个视觉关系标签的语义特征，将语义特征转化为对应视觉关系标签的语义特征高斯分布。

在一些实施例中，步骤103中提取每个视觉关系标签的语义特征，可以通过以下技术方案实现：通过语义预测网络的输入层将每个视觉关系标签编码为独热向量；将语义预测网络的隐层的权重矩阵与每个视觉关系标签对应的独热向量相乘，得到每个视觉关系标签的语义特征。

作为示例，通过图3所示出的语义预测网络的语义提取网络中的输入层将每个视觉关系标签编码为独热向量；将语义预测网络的语义提取网络中的隐层的权重矩阵与每个视觉关系标签对应的独热向量相乘，得到每个视觉关系标签的语义特征，语义预测网络可以为word2vec模型，即可以是简化的神经网络，该简化的神经网络的隐层没有激活函数，属于线性单元，输出层采用最大似然函数进行回归，当这个简化的神经网络训练好以后，并不会用这个训练好的简化的神经网络处理新的任务，真正需要的是通过训练数据所学得的参数，例如，隐层的权重矩阵，将每个视觉关系标签编码得到的独热向量与隐层的权重矩阵相乘即得到每个视觉关系标签的语义特征。

在一些实施例中，参见图4C，图4C是本申请实施例提供的基于人工智能的视觉关系识别方法的流程示意图，图4C示出的步骤103中将语义特征转化为对应视觉关系标签的语义特征高斯分布可以通过步骤1031至步骤1032实现，将结合各步骤进行说明。

在步骤1031中，通过语义预测网络中的全连接层对视觉关系标签的语义特征进行全连接处理，得到语义特征的均值、以及语义特征的对角协方差矩阵。

在步骤1032中，基于均值以及对角协方差矩阵，构建对应视觉关系标签的语义特征高斯分布。

作为示例，通过图3所示的语义预测网络中的全连接层对视觉关系标签的语义特征进行全连接处理，得到语义特征的均值、以及语义特征的对角协方差矩阵，基于均值以及对角协方差矩阵，构建对应视觉关系标签的语义特征高斯分布，例如，假设视觉关系标签是“上”，即存在多个与“上”相关的视觉关系，例如，“坐上”、“躺上”等等，这些均有可能是视觉关系标签“上”所能够表达的语义特征，若“坐上”这一语义是最接近真实情况的语义，是经常出现的语义，则“坐上”这一语义特征即为高斯分布的均值，所构成的语义特征的高斯分布即表征与视觉关系标签“上”具有联系的语义特征服从某种高斯分布，而这种高斯分布是通过训练得到的全连接层处理得到的。

在步骤104中，在与多个视觉关系标签一一对应的多个语义特征高斯分布中，确定与视觉特征高斯分布匹配的语义特征高斯分布。

在一些实施例中，参见图4D，图4D是本申请实施例提供的基于人工智能的视觉关系识别方法的流程示意图，图4D示出的步骤104中确定与视觉特征高斯分布匹配的语义特征高斯分布可以通过步骤1041至步骤1042实现，将结合各步骤进行说明。

在步骤1041中，针对多个视觉关系标签中的每个视觉关系标签执行以下处理：确定对应视觉关系标签的语义特征高斯分布与对应视觉关系标签的视觉特征高斯分布之间的匹配度。

在一些实施例中，上述确定对应视觉关系标签的语义特征高斯分布与对应视觉关系标签的视觉特征高斯分布之间的匹配度，可以通过以下技术方案实现：对语义特征高斯分布进行多次采样处理，得到由多个采样语义特征组成的采样语义特征集合；对视觉特征高斯分布进行多次采样处理，得到由多个采样视觉特征组成的采样视觉特征集合；将采样语义特征集合与采样视觉特征集合之间的匹配度，作为语义特征高斯分布与视觉特征高斯分布之间的匹配度。

作为示例，可以通过图3所示的采样匹配网络中与语义预测网络相连的第一采样层以及采样匹配网络中与视觉预测网络的第二采样层分别对语义特征高斯分布以及视觉特征高斯分布进行多次采样，例如，对语义特征高斯分布进行K次采样得到K个样本，对视觉特征高斯分布进行K次采样得到K个样本，K为大于或者等于2的整数，采样方式可以是任意一种随机采样方式，例如，拒绝采样，假设需要估计圆周率π的值，选取一个边长为1个单位长度的正方形，在正方形内作一个内切圆，那么可以计算得出圆的面积与正方形面积之比为π/4，在正方形内随机生成大量的点，落在圆形区域内的点标记为红色，在圆形区域之外的点标记为蓝色，那么圆形区域内的点的个数与所有点的个数之比，可以认为近似等于π/4，相当于是通过随机采样的方式，以频率估计概率，拒绝采样的思想与上述假设类似，给定一个概率分布p(x)，要对该分布进行拒绝采样，首先借用一个简单的参考分布，记为q(x)，该分布的采样易于实现，如均匀分布，在每次采样中，首先从q(x)采样一个数值z₀，然后在区间[0，kq(z₀)]上进行均匀采样得到u₀，若u₀<p(z₀)，则保留该数值z₀，否则舍弃该数值z₀，最后得到的数据就是对该分布的一个近似采样。

在一些实施例中，上述在将采样语义特征集合与采样视觉特征集合之间的匹配度，作为语义特征高斯分布与视觉特征高斯分布之间的匹配度之前，可以通过以下技术方案实现：将采样语义特征集合中任意一个采样语义特征与采样视觉特征集合中任意一个采样视觉特征进行组合处理，得到多个采样样本对；确定每个采样样本对中采样语义特征与采样视觉特征之间的欧式距离；确定与多个采样样本对的欧式距离的和成负相关的匹配度，以作为采样语义特征集合与采样视觉特征集合之间的匹配度。

作为示例，分别对语义特征高斯分布以及视觉特征高斯分布进行多次采样(例如，K次采样)，随后进行跨分布的完全配对，得到K*K个样本对，通过图3所示的采样匹配网络中的匹配层执行如下匹配度计算，参见公式(2)，首先计算每个样本对(

和

)的欧式距离，

是针对视觉特征高斯分布采样得到的K个样本中的第k₁个样本，

是针对语义特征高斯分布采样得到的K个样本中的第k₂个样本，由于该欧式距离与高斯分布之间的相似度是负相关的，因此进行取反操作以及归一化操作，最后将所有样本对反映的相似度进行平均化，得到了最终两个高斯分布(语义特征高斯分布以及视觉特征高斯分布)之间的匹配度。

其中，p(m|x,y_i)是两个高斯分布之间的匹配度，

是样本对的欧式距离，

是对欧式距离的取反结果进行归一化操作，K是针对每个分布采样得到的样本数目，

是视觉特征高斯分布的采样样本，

是语义特征高斯分布的采样样本。

在步骤1042中，将匹配度最高的视觉关系标签对应的语义特征高斯分布，作为与视觉特征高斯分布匹配的语义特征高斯分布。

作为示例，例如存在三个具有实际含义的视觉关系标签，以及一个表征不存在视觉关系的视觉关系标签，即共有四个视觉关系标签，针对于某一个联合包围框，将得到分别对应四个视觉关系标签的四个视觉特征高斯分布，再针对四个视觉关系标签进行遍历(第一视觉关系标签至第四视觉关系标签)。

例如，将第一视觉关系标签的语义特征高斯分布与对应第一视觉关系标签的视觉特征高斯分布进行匹配度计算得到对应第一视觉关系标签的匹配度，将第二视觉关系标签的语义特征高斯分布与对应第二视觉关系标签的视觉特征高斯分布进行匹配度计算得到对应第二视觉关系标签的匹配度，将第三视觉关系标签的语义特征高斯分布与对应第三视觉关系标签的视觉特征高斯分布进行匹配度计算得到对应第三视觉关系标签的匹配度，将第四视觉关系标签的语义特征高斯分布与对应第四视觉关系标签的视觉特征高斯分布进行匹配度计算得到对应第四视觉关系标签的匹配度，将这四个匹配度中匹配度最高的视觉关系标签对应的语义特征高斯分布，作为与视觉特征高斯分布匹配的语义特征高斯分布。例如，对应第四视觉关系标签的匹配度是最高的，则将第四视觉关系标签对应的语义特征高斯分布作为与视觉特征高斯分布匹配的语义特征高斯分布。

在步骤105中，将匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为多个对象之间的视觉关系。

承接上述示例的说明，由于将第四视觉关系标签对应的语义特征高斯分布作为与视觉特征高斯分布匹配的语义特征高斯分布，假设第四视觉关系标签所对应的视觉关系是“人丢飞盘”，则联合包围框中的多个对象，例如人和飞盘，之间的视觉关系为“人丢飞盘”。

在一些实施例中，在执行步骤105中将匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为多个对象之间的视觉关系之后，还可以执行以下技术方案：获取待识别图像中每个联合包围框的面积，并对每个联合包围框进行基于面积的降序排序处理；将排序处理结果中排序靠前的多个联合包围框进行基于匹配度的降序排序处理；其中，匹配度用于确定联合包围框中多个对象之间的视觉关系；将排序靠前的联合包围框中的多个对象之间的视觉关系，记录为待识别图像的元数据。

作为示例，由于联合包围框是通过多样化的组合得到的，从而待识别图像中会存在多个联合包围框，获取待识别图像中每个联合包围框的面积，并对每个联合包围框进行基于面积的降序排序处理，从而可以获得面积排序靠前的多个联合包围框，这里可以设定选取排序靠前的两个联合包围框，将排序处理结果中排序靠前的多个联合包围框(例如，两个联合包围框)进行基于匹配度的降序排序处理；其中，匹配度用于确定联合包围框中多个对象之间的视觉关系，匹配度即为上述实施例中的匹配度，例如，上述的联合包围框所匹配的视觉关系是第四视觉关系标签所表征的，则将上述计算得到的对应第四视觉关系标签的匹配度作为此处进行排序的匹配度，每个联合包围框均有对应的匹配度，将排序靠前的联合包围框(这里可以设定选取排序靠前的两个联合包围框)中的多个对象之间的视觉关系，记录为待识别图像的元数据，例如，最后得到了两个联合包围框，每个联合包围框中的多个对象的视觉关系被记录为待识别图像的元数据，图片元数据是嵌入到图像文件中的一些标签，比如图像标题、关键字、说明等信息，例如，直接将视觉关系记录为待识别图像的元数据(说明信息)。

在一些实施例中，可以将视觉关系进行关键字提取处理，得到待识别图像的关键字信息，记录为待识别图像的元数据(关键字信息)，或者将视觉关系进行关键字提取处理，得到待识别图像的关键字信息，再基于关键字信息进行标题抽取处理，得到待识别图像的标题，并记录为待识别图像的元数据(标题信息)。

在一些实施例中，将视觉关系直接记录为图像的元数据或者将以视觉关系为基础得到的信息记录为图像的元数据后，图像的元数据可以用于推荐系统。

例如，当待识别图像为视频封面时，推荐系统服务器可以省去对视频封面进行图像识别的过程，直接依据视频封面的元数据执行召回、排序以及重排处理，从而可以加快推荐效率，并且，用户在上传视频时，通过本申请实施例提供的视觉关系识别方法可以自动得到视频封面的元数据(图像标题、关键字、说明等信息)，从而省去了用户标记的时间以及避免了标记格式不统一的现象，从而提高了后期推荐系统进行推荐的处理效率。

下面，将说明本申请实施例提供的基于人工智能的视觉关系识别方法在一个实际的应用场景中的示例性应用。

本申请实施例提供的基于人工智能的视觉关系识别方法可以用于在互联网多媒体中识别图像中包含的视觉关系，并基于所识别出的视觉关系形成图像的元数据，图像的元数据用于后续的图像自动分析。

首先利用目标检测模型提取出图像中的所有物体(对象)，接着对这些物体进行两两配对，最后，针对每一对物体的视觉关系进行预测。

参见图5，图5是本申请实施例提供的基于人工智能的视觉关系识别方法的应用示意图，给定两个物体所在的联合边界框(联合包围框)，利用卷积神经网络提取联合边界框x中图像的视觉特征，然后通过全连接层将提取出的视觉特征转化为分别与不同视觉关系标签一一对应的高斯分布p(z_x|x,y_i)的均值μ(x,y_i)和方差Σ(x,y_i)，假设，具有实际含义的视觉关系标签的数目为|P|，则存在数目为|P|+1的高斯分布，其中，包括一个对应于“不存在视觉关系”的标签，接下来，遍历每个视觉关系标签y_i，得到每个视觉关系标签的词向量，并通过另一个全连接层将词向量转化成一个高斯分布p(z_yi|y_i)的均值μ(y_i)和方差Σ(y_i)，该视觉关系标签的高斯分布与基于视觉特征转化得到的某个高斯分布存在对应关系，通过计算这两个高斯分布之间的距离，作为当前联合边界框中图像的视觉特征与该视觉关系标签的匹配度p(m|x,y_i)，在遍历结束后可以得到当前联合边界框中图像与所有视觉关系标签的匹配度，并将匹配度最高的视觉关系标签作为图5中所示流程预测得到的视觉关系标签。

在一些实施例中，匹配度计算的过程如下：联合边界框的视觉特征与视觉关系标签的语义特征的匹配度是度量两个高斯分布之间的相似度，分别对两个高斯分布进行多次采样(例如，K次采样)，随后进行跨分布的完全配对，得到K*K个样本对，参见公式(3)，首先计算每个样本对(

和

)的欧式距离，由于该欧式距离与高斯分布之间的相似度是负相关的，因此进行取反操作以及归一化操作，最后将所有样本对反映的相似度进行平均化，得到了最终两个高斯分布之间的匹配度。

其中，p(m|x,y_i)是两个高斯分布之间的匹配度，

是样本对的欧式距离，

是视觉特征高斯分布的采样样本，

是语义特征高斯分布的采样样本。

在一些实施例中，在训练视觉关系预测网络时，优化目标是增大视觉特征与真实视觉关系标签(正样本)之间的匹配度，同时减小与其他不相关的视觉关系标签(负样本)的匹配度，在负样本的选取上，考虑到视觉关系标签个数有限，可以直接将其他所有不相关的视觉关系标签都作为负样本。

在一些实施例中，若仅以交叉熵损失来训练视觉关系预测网络，所学到的高斯分布之方差容易趋近于0，使高斯分布退化为单个的“点”，难以达到建模不确定性的目的，于是另外加入正则项约束，以最小化训练视觉关系预测网络预测得到的高斯分布与标准高斯分布之间的KL散度(相对熵)，目的是让前者更靠近后者，最终的损失函数如公式(4)所示，第一项是交叉熵损失，第二项是基于KL散度(相对熵)的正则化约束，并通过超参数β调整该正则项在损失函数中的比重。

其中，L(x,y_i)是损失函数，p(m|x,y_i)是正样本正向传播所得到的第一匹配度，p(m|x,y_j)是负样本正向传播所得到的第二匹配度，p(z_x|x,y_i)是正样本正向传播过程中所得到的对应真实视觉关系标签的视觉特征的高斯分布(第一正向传播的结果)，

是正样本正向传播过程中所得到的对应真实视觉关系标签的语义特征的高斯分布(第二正向传播的结果)。

视觉关系预测网络基于视觉关系不确定性的考虑将视觉特征和标签语义特征都建模为高斯分布而不是建模为点，因此将建模为点的网络作为基线网络，与之进行量化的对比，在大规模数据集上进行了视觉关系预测任务(物体的位置和标签都是已给定)的测试，评测指标为召回@50(匹配度计算得到的结果中降序排序靠前的50个样本中所包含的正样本比例)和召回@100(匹配度计算得到的结果中降序排序靠前的100个样本中所包含的正样本比例)，实验结果参见表1，由于区别仅在于将特征形式由点改为高斯分布，测试的性能就有了明显的提升，从而性能提升归功于不确定性的建模。

	召回@50	召回@100
			基线网络	61.57	66.19
视觉关系预测网络	63.05	67.07

表1实验对比结果

本申请实施例提供的基于人工智能的视觉关系识别方法强调建模视觉关系的不确定性，将视觉特征和视觉关系标签的语义特征分别用高斯分布进行表征，最终明显提升了视觉关系预测网络的性能，本申请实施例提供的基于人工智能的视觉关系识别方法可以用于在互联网多媒体中识别图像中包含的视觉关系，并基于所包含的视觉关系形成图像的元数据，用于后续的图像自动分析。

本申请实施例提供的基于人工智能的视觉关系识别方法的针对联合边界框的特征融合是采用卷积神经网络结构实现的，为了进一步提高视觉关系预测网络的性能，可以采用特征融合度更高的网络，例如，图卷积神经网络，另外，视觉特征与视觉关系标签的语义特征之间匹配度的计算可以采用其他距离度量方式，例如，威瑟斯特(Wasserstein)距离、相对熵等。

下面继续说明本申请实施例提供的基于人工智能的视觉关系识别装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的基于人工智能的视觉关系识别装置455中的软件模块可以包括：联合包围框确定模块4551，用于确定待识别图像中包括多个对象的联合包围框；视觉转化模块4552，用于提取联合包围框的视觉特征，将视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布；语义转化模块4553，用于提取每个视觉关系标签的语义特征，将语义特征转化为对应视觉关系标签的语义特征高斯分布；匹配模块4554，用于在与多个视觉关系标签一一对应的多个语义特征高斯分布中，确定与视觉特征高斯分布匹配的语义特征高斯分布；视觉关系确定模块4555，将匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为多个对象之间的视觉关系。

杂一些实施例中，联合包围框确定模块4551，还用于：对待识别图像进行目标检测处理，得到待识别图像中每个对象的包围框；将待识别图像中任意相邻的多个对象的包围框进行组合处理，得到包括多个对象的联合包围框。

杂一些实施例中，视觉转化模块4552，还用于：对联合包围框进行卷积处理，得到联合包围框中图像的卷积特征；对卷积特征进行池化处理，得到联合包围框的视觉特征。

杂一些实施例中，多个视觉关系标签与多个全连接层一一对应；视觉转化模块4552，还用于：针对每个视觉关系标签执行以下处理：通过与视觉关系标签对应的全连接层对视觉特征进行全连接处理，得到与视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵；基于与每个视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵，构建与每个视觉关系标签对应的视觉特征高斯分布。

杂一些实施例中，语义转化模块4553，还用于：通过语义预测网络的输入层将每个视觉关系标签编码为独热向量；将语义预测网络的隐层的权重矩阵与每个视觉关系标签对应的独热向量相乘，得到每个视觉关系标签的语义特征。

杂一些实施例中，语义转化模块4553，还用于：对视觉关系标签的语义特征进行全连接处理，得到语义特征的均值、以及语义特征的对角协方差矩阵；基于均值以及对角协方差矩阵，构建对应视觉关系标签的语义特征高斯分布。

杂一些实施例中，匹配模块4554，还用于：针对多个视觉关系标签中的每个视觉关系标签执行以下处理：确定对应视觉关系标签的语义特征高斯分布与对应视觉关系标签的视觉特征高斯分布之间的匹配度；将匹配度最高的视觉关系标签对应的语义特征高斯分布，作为与视觉特征高斯分布匹配的语义特征高斯分布。

杂一些实施例中，匹配模块4554，还用于：对语义特征高斯分布进行多次采样处理，得到由多个采样语义特征组成的采样语义特征集合；对视觉特征高斯分布进行多次采样处理，得到由多个采样视觉特征组成的采样视觉特征集合；将采样语义特征集合与采样视觉特征集合之间的匹配度，作为语义特征高斯分布与视觉特征高斯分布之间的匹配度。

杂一些实施例中，匹配模块4554，还用于在将采样语义特征集合与采样视觉特征集合之间的匹配度，作为语义特征高斯分布与视觉特征高斯分布之间的匹配度之前：将采样语义特征集合中任意一个采样语义特征与采样视觉特征集合中任意一个采样视觉特征进行组合处理，得到多个采样样本对；确定每个采样样本对中采样语义特征与采样视觉特征之间的欧式距离；确定与多个采样样本对的欧式距离的和成负相关的匹配度，以作为采样语义特征集合与采样视觉特征集合之间的匹配度。

杂一些实施例中，匹配模块4554，还用于在将匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为多个对象之间的视觉关系之后：获取待识别图像中每个联合包围框的面积，并对每个联合包围框进行基于面积的降序排序处理；将排序处理结果中排序靠前的多个联合包围框进行基于匹配度的降序排序处理；其中，匹配度用于确定联合包围框中多个对象之间的视觉关系；将排序靠前的联合包围框中的多个对象之间的视觉关系，记录为待识别图像的元数据。

杂一些实施例中，用于确定联合包围框中多个对象之间的视觉关系的视觉关系预测网络包括：视觉预测网络、语义预测网络以及采样匹配网络；装置455还包括：训练模块4556，用于在确定待识别图像中包括多个对象的联合包围框之后：获取用于训练视觉关系预测网络的正样本以及负样本；其中，正样本包括联合包围框样本以及联合包围框样本的真实视觉关系标签，负样本包括联合包围框样本以及联合包围框样本的虚假视觉关系标签，真实视觉关系标签以及虚假视觉关系标签组成视觉关系标签集合；将联合包围框样本在视觉预测网络中进行第一正向传播，并将正样本中的真实视觉关系标签在语义预测网络中进行第二正向传播；将第一正向传播的结果与第二正向传播的结果在采样匹配网络中进行正向传播，以确定联合包围框样本与真实视觉关系标签的第一匹配度；将联合包围框样本在视觉预测网络中进行第三正向传播，并将负样本中的虚假视觉关系标签在语义预测网络中进行第四正向传播；将第三正向传播的结果与第四正向传播的结果在采样匹配网络中进行正向传播，以确定联合包围框样本与虚假视觉关系标签的第二匹配度；将第一匹配度、以及第二匹配度在视觉关系预测网络中反向传播，以确定损失函数取得最小值时视觉关系预测网络的参数变化值，并基于参数变化值更新视觉关系预测网络的参数。

杂一些实施例中，训练模块4556，还用于：确定第一正向传播的结果与标准高斯分布之间的第一距离；确定第二正向传播的结果与标准高斯分布之间的第二距离；确定与第一匹配度成负相关关系，且与第一距离、第二距离、以及第二匹配度成正相关关系的损失函数，以在视觉关系预测网络中进行反向传播。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的视觉关系识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的视觉关系识别方法，例如，如图4A-4D示出的基于人工智能的视觉关系识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采样程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本申请实施例建立服从高斯分布的视觉特征以及服从高斯分布的视觉标签的语义特征，将图像中对象之间的视觉关系的不确定性约束到高斯分布中，从而将视觉特征和语义特征之间的视觉关系的匹配进行量化，进而能够基于匹配来准确检测视觉关系。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的视觉关系识别方法，其特征在于，包括：

确定待识别图像中包括多个对象的联合包围框；

2.根据权利要求1所述的方法，其特征在于，所述确定待识别图像中包括多个对象的联合包围框，包括：

将所述待识别图像中任意相邻的多个对象的包围框进行组合处理，得到包括所述多个对象的联合包围框。

3.根据权利要求1所述的方法，其特征在于，所述提取所述联合包围框的视觉特征，包括：

4.根据权利要求1所述的方法，其特征在于，

所述多个视觉关系标签与多个全连接层一一对应；

所述将所述视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布，包括：

针对每个所述视觉关系标签执行以下处理：通过与所述视觉关系标签对应的全连接层对所述视觉特征进行全连接处理，得到与所述视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵；

5.根据权利要求1所述的方法，其特征在于，所述提取每个所述视觉关系标签的语义特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述语义特征转化为对应所述视觉关系标签的语义特征高斯分布，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定与所述视觉特征高斯分布匹配的语义特征高斯分布，包括：

8.根据权利要求7所述的方法，其特征在于，所述确定对应所述视觉关系标签的语义特征高斯分布与对应所述视觉关系标签的视觉特征高斯分布之间的匹配度，包括：

9.根据权利要求8所述的方法，其特征在于，在将所述采样语义特征集合与所述采样视觉特征集合之间的匹配度，作为所述语义特征高斯分布与所述视觉特征高斯分布之间的匹配度之前，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，在将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系，确定为所述多个对象之间的视觉关系之后，所述方法还包括：

11.根据权利要求1-10任一项所述的方法，其特征在于，

用于确定所述联合包围框中多个对象之间的视觉关系的视觉关系预测网络包括：视觉预测网络、语义预测网络以及采样匹配网络；

在确定待识别图像中包括多个对象的联合包围框之后，所述方法还包括：

获取用于训练所述视觉关系预测网络的正样本以及负样本；

12.根据权利要求11所述的方法，其特征在于，所述将所述第一匹配度、以及所述第二匹配度在所述视觉关系预测网络中反向传播，包括：

13.一种基于人工智能的视觉关系识别装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的视觉关系识别方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的基于人工智能的视觉关系识别方法。