CN115471707A

CN115471707A - 物体感知方法、装置及电子设备

Info

Publication number: CN115471707A
Application number: CN202211177495.6A
Authority: CN
Inventors: 李亮奇; 石大虎
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-13

Abstract

本申请实施例提供一种物体感知方法、装置及电子设备。在本实施例中，通过目标物体感知模型从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征(非文本特征)、以及大规模视觉语言预训练模型输出的各候选类别(预先设定好的类别)对应的文本特征，来确定候选对象区域中候选对象所属的目标类别，实现了基于大规模视觉语言预训练实现物体感知；基于如上描述的大规模视觉语言预训练模型输出的各候选类别对应的文本特征，这相当于借助大规模视觉语言预训练模型的先验知识(预先设定好的候选类别对应的文本特征)，并结合大规模视觉语言预训练模型超大范围的感知能力，提高了最终物体感知结果(也即候选对象所属的目标类别)的准确度。

Description

物体感知方法、装置及电子设备

技术领域

本申请涉及机器学习技术领域，尤其涉及一种物体感知方法、装置及电子设备。

背景技术

目前，常用的物体感知方法，通常是通过对待处理图像中可能包含的对象的视觉特征比如亮度、边缘、纹理等和已得到的类别语义特征进行对齐，然后再利用已训练好的分类网络模型对待处理图像中的对象进行分类，最终得到物体感知结果。

但是，上述类别语义特征是通过无监督训练模型得到的全局词向量(GlobalVectors for Word Representation，glove)，其仅仅能够捕捉到不同类别名称之间的相似性与区别，应用于物体感知时很难精确获得物体感知结果。

发明内容

本申请实施例提供一种物体感知方法、装置及电子设备，以基于大规模视觉语言预训练实现物体感知。

根据本申请实施例的第一方面，提供一种基于大规模视觉语言预训练的物体感知方法，该方法应用于电子设备，该方法包括：

将待检测图像输入到已训练好的目标物体感知模型，以由所述目标物体感知模型从所述待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征，所述视觉特征为非文本特征；

获得经由大规模视觉语言预训练模型输出的各候选类别对应的文本特征；

利用候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征，确定所述候选对象区域中候选对象与每一候选类别之间的置信度；

利用所述候选对象区域中候选对象与每一候选类别之间的置信度，确定所述候选对象所属的目标类别。

根据本申请实施例的第二方面，提供一种基于大规模视觉语言预训练的物体感知装置，所述装置包括：

视觉特征提取模块，用于将待检测图像输入到已训练好的目标物体感知模型，以由所述目标物体感知模型从所述待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征，所述视觉特征为非文本特征；

文本特征获取模块，用于获得经由大规模视觉语言预训练模型输出的各候选类别对应的文本特征；

第一置信度确定模块，用于利用候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征，确定所述候选对象区域中候选对象与每一候选类别之间的置信度；

类别确定模块，用于利用所述候选对象区域中候选对象与每一候选类别之间的置信度，确定所述候选对象所属的目标类别。

根据本申请实施例的第三方面，提供一种电子设备，电子设备包括机器可读存储介质、处理器；所述机器可读存储介质存储有能够被处理器执行的机器可执行指令；所述处理器用于读取所述机器可执行指令，以实现如第一方面所述的物体感知方法的步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

本申请实施例中，通过目标物体感知模型从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征(非文本特征)、以及大规模视觉语言预训练模型输出的各候选类别(预先设定好的类别)对应的文本特征，来确定候选对象区域中候选对象所属的目标类别，这实现了基于大规模视觉语言预训练实现物体感知；

进一步地，基于如上描述的大规模视觉语言预训练模型输出的各候选类别(预先设定好的类别)对应的文本特征，这相当于借助大规模视觉语言预训练模型的先验知识(预先设定好的候选类别对应的文本特征)，并结合大规模视觉语言预训练模型超大范围的感知能力，这大大提高了最终的物体感知结果(也即候选对象所属的目标类别)的准确度。

附图说明

图1是本申请实施例提供的方法流程图。

图2是本申请实施例提供的目标物体感知模型训练流程图。

图3是本申请实施例提供的一目标物体感知模型框架图。

图4是本申请实施例提供的置信度确定流程图。

图5是本申请实施例提供的训练完成确定流程图。

图6是本申请实施例提供的另一目标物体感知模型框架图。

图7是本申请实施例提供的装置图。

图8是本申请实施例装置硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

接下来对本申请实施例进行详细说明。

参见图1，图1为本申请实施例提供的方法流程图。该方法应用于电子设备，作为一个实施例，这里的电子设备比如为终端、服务器等，本申请实施例并不具体限定。

如图1所示，该流程可包括以下步骤：

S110：将待检测图像输入到已训练好的目标物体感知模型，以由目标物体感知模型从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征，视觉特征为非文本特征。

示例性地，在本实施例中，上述待检测图像中包括至少一个候选对象。这里，候选对象比如为人、车、花，等等，本申请实施例并不具体限定。

示例性地，在本实施例中，上述目标物体感知模型为提前训练好的模型，比如为用于对象检测的物体检测模型、用于对象分割的实例分割模型等，本申请实施例并不具体限定。至于如何训练该目标物体感知模型，下图2所示流程进行了举例描述，这里暂不赘述。

可选地，在本实施例中，如步骤S110描述，在将待检测图像输入到已训练好的上述目标物体感知模型之后，目标物体感知模型从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征。至于目标物体感知模型如何从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征可参见下文描述，这里暂不赘述。

本步骤S110中划分出的各候选对象区域的尺寸可以相同，也可以不同。从该待检测图像中划分出的各个候选对象区域可以有重叠区域，也可以没有重叠区域。本申请实施例不作具体限定。

示例性地，在本实施例中，上述视觉特征为用于表示候选对象区域中的各候选对象的特征例如纹理特征、边缘特征等，本申请实施例并不具体限定。

S120：获得经由大规模视觉语言预训练模型输出的各候选类别对应的文本特征。

示例性地，上述候选类别是提前指定好的。在本实施例中，上述候选类别可以根据实际的物体感知任务确定，例如为：人、花、鸟，等类别，本申请实施例并不具体限定。

在本实施例中，上述任一候选类别都具有对应的候选文本。这里，候选文本可以有多种实现形式，例如可通过候选类别表示，或者用于描述候选类别的语句，本申请实施例并不具体限定。比如，候选类别为“鹿”，则该候选类别“鹿”对应的候选文本可为“一幅包含鹿的图像”，或者为“鹿”。

基于候选类别对应的候选文本，则本实施例中，上述文本特征可为候选类别对应的候选文本的编码信息。

需要说明的是，在本实施例中，上述大规模视觉语言预训练模型是提前训练好的，其在训练过程中学习了数以亿计的图像-文本对，这些图像-文本对中包含了非常庞大规模的物体-文本对，借助于训练过程中学习的这些数量庞大的图像-文本对，则最终训练出的大规模视觉语言预训练模型可实现对超大范围物体的感知能力。至于大规模视觉语言预训练模型的训练过程是目前常规的技术，在此不再赘述。

示例性地，在本实施例中，在执行本步骤S120之前，可先将各候选类别对应的候选文本输入到大规模视觉语言预训练模型中，以由该大规模视觉语言预训练模型中的文本编码器对各候选类别对应的候选文本进行编码，得到各候选类别对应的文本特征并输出，如此，执行到本步骤S120，则可直接获得规模视觉语言预训练模型输出的各候选类别对应的文本特征。

S130：利用候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征，确定候选对象区域中候选对象与每一候选类别之间的置信度。

在本实施例中，在得到候选对象区域对应的视觉特征以及各候选类别对应的文本特征后，即可利用候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征，确定候选对象区域中候选对象与每一候选类别之间的置信度。

本步骤S130中，利用候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征，确定候选对象区域中候选对象与每一候选类别之间的置信度有很多方式。作为一个实施例，可利用神经网络模型确定上述置信度，比如：将候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征输入到已训练好的神经网络模型中，以由该神经网络模型计算候选对象区域中候选对象属于每一候选类别之间的概率，并作为候选对象区域中候选对象与每一候选类别之间的置信度置信度并输出。

作为另一个实施例，也可基于该候选对象区域中候选对象与每一候选类别之间的相似度，来确定上述置信度，至于如何基于该候选对象区域中候选对象与每一候选类别之间的相似度，确定上述置信度，下文图4进行了举例描述，这里暂不赘述。

S140：利用候选对象区域中候选对象与每一候选类别之间的置信度，确定候选对象所属的目标类别。

示例性地，在本实施例中，本步骤S140中，利用候选对象区域中候选对象与每一候选类别之间的置信度，确定候选对象所属的目标类别的方式可以有很多种，比如，针对候选对象区域中每一候选对象，从该候选对象与每一候选类别之间的置信度中选择满足设定要求的候选类别，这里，满足设定要求的候选类别是指：该候选对象与该满足设定要求的候选类别之间的置信度最大、或者为预设置信度等。之后，将满足设定要求的候选类别确定为候选对象所属的目标类别。

至此，完成图1所示流程。

通过图1流程可以看出，本申请实施例中，通过目标物体感知模型从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征(非文本特征)、以及大规模视觉语言预训练模型输出的各候选类别(预先设定好的类别)对应的文本特征，来确定候选对象区域中候选对象所属的目标类别，这实现了基于大规模视觉语言预训练实现物体感知；

下面对物体感知模型如何从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征进行描述：

可选地，在本实施例中，目标物体感知模型至少包含：特征提取层、候选区域定位层、图像编码器。

特征提取层，用于对输入的待检测图像进行特征提取，得到待检测图像的图像特征。这里的图像特征可以为：图像亮度特征、图像纹理特征，等。

示例性地，上述特征提取层可通过多层感知机制、自注意力机制等实现，本实施例并不具体限定。

候选区域定位层，用于基于提取到的图像特征对各候选对象进行定位，得到各候选对象区域。针对每一个候选对象区域，提取该候选对象区域中的候选对象的对象特征。

图像编码器，用于对各候选对象的对象特征进行编码，得到各候选对象对应的各候选对象区域对应的视觉特征。

针对不同的目标物体感知模型，候选对象区域对应的视觉特征的提取实现方式不同。具体地：

当目标物体感知模型为用于对象检测的物体检测模型时，如图3所示，上述候选区域定位层通过候选区域生成器(Region Proposal Generator)实现，候选区域生成器根据提取到的图像特征对候选对象进行定位，得到各候选对象区域。针对每一个候选对象区域，利用RoIAlign算子提取该候选对象区域中候选对象的对象特征。这里，候选对象区域中的候选对象的特征例如可以为，候选对象的形状特征、外观特征等等中的至少一个。每个候选对象区域提取到的对象特征经过图像编码器得到该候选对象区域对应的视觉特征。

当目标物体感知模型为用于对象分割的实例分割模型时，如图3所示，上述候选区域定位层通过掩码建议生成器(Mask Proposal Generator)实现，掩码建议生成器根据提取到的图像特征对候选对象进行定位，得到各候选对象区域。针对每一个候选对象区域，利用Mask Crop提取该候选对象区域中候选对象的对象特征。这里，候选对象区域中的候选对象的特征例如可以为：候选对象的形状特征、外观特征等等中的至少一个。每个候选对象区域提取到的对象特征经过图像编码器得到该候选对象区域对应的视觉特征。

以上举例描述了目标物体感知模型如何从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征的描述。

参见图2，图2为本申请实施例提供的目标物体感知模型训练的流程图。如图2所示，该流程可包括如下步骤：

S210：将训练图像输入到当前物体感知模型中，由当前物体感知模型从训练图像中划分出训练对象区域并输出训练对象区域对应的视觉特征，视觉特征为非文本特征。

示例性地，在本实施例中，上述训练图像中包括至少一个训练对象。这里，训练对象可以为人、车、树等等，本申请实施例并不具体限定。

示例性地，该训练对像是提前标注好的图像，其携带有标注信息。这里，标注信息可以包括训练图像中各训练对象的位置信息、各训练对象所属的类别等等，本申请实施例并不具体限定。

在本实施例中，初始时，当前物体感知模型为初始物体感知模型，训练过程中会对该当前物体感知模型进行更新。将训练图像输入到当前物体感知模型中，由当前物体感知模型从训练图像中划分出训练对象区域并输出训练对象区域对应的视觉特征的具体实现方法参见上述步骤S110的描述，在此不再赘述。

S220：将训练图像对应的训练文本输入至大规模视觉语言预训练模型，以由大规模视觉语言预训练模型输出训练文本特征。

示例性地，上述训练图像对应的训练文本为用于描述训练图像中标定类别的语句，这里的标定类别指的是所有训练图像中包含的所有类别。

在本实施例中，每个标定类别都对应一个训练文本特征，上述训练文本特征指的是标定类别对应的训练文本的编码信息。

作为本申请一个实施例，为了使得目标物体感知模型的视觉特征和文本特征更好的对齐，使得训练的目标物体感知模型的感知性能更好，训练文本具有的文本结构与大规模视觉语言预训练模型训练时采用的训练文本的结构相同。这里的文本结构指的是训练文本的句式结构。

示例性地，在本实施例中，本步骤S220中，将训练图像对应的训练文本输入至大规模视觉语言预训练模型，以由大规模视觉语言预训练模型输出训练文本特征的实现过程参见上述步骤S120的描述，在此不再赘述。

S230：利用训练对象区域对应的视觉特征、以及各标定类别对应的训练文本特征，确定训练对象区域中训练对象与每一标定类别之间的置信度。

具体实现方式参见上述步骤S130的相关描述，在此不再赘述。

S240：将训练对象与每一标定类别之间的置信度，以及训练对象的标定类别输入至当前物体感知模型对应的损失函数，得到类别损失值。

示例性地，在本实施例中，当前物体感知模型对应的损失函数可以有多种，例如交叉熵损失函数等等，本申请实施例并不具体限定。

S250：依据类别损失值，确定当前物体感知模型是否满足设定训练完成要求，如果是，确定当前物体感知模型为目标物体感知模型，如果否，调整当前物体感知模型对应的模型参数，将调整后的当前物体感知模型更新为当前物体感知模型，返回至将训练图像输入到当前物体感知模型中的步骤。

示例性地，在本实施例中，设定训练完成要求可以仅为类别损失值小于或等于预设类别损失值阈值。这里，预设类别损失值阈值可以根据实际需要设定，本申请实施例对此不作具体限定。

当然，在本实施例中，设定训练完成要求除了类别损失值小于或等于预设类别损失值阈值外，还可以包括其他完成要求。这里，其他完成要求例如可以为，其他损失值满足其损失要求，或者迭代次数大于或等于预设迭代次数阈值。本申请实施例对其他完成要求不作具体限定。

当设定训练完成要求为类别损失值和其他损失值分别满足对应的损失要求时，如何依据类别损失值和其他损失值确定当前物体感知模型是否满足设定训练完成要求可参见下面图5举例描述的流程，这里暂不赘述。

示例性地，在本实施例中，当当前物体感知模型不满足设定训练完成要求时，基于类别损失值、利用常规的梯度反传方法调整当前物体感知模型对应的模型参数(即模型中每层网络的权重)，将调整后的当前物体感知模型更新为当前物体感知模型，返回至将训练图像输入到当前物体感知模型中的步骤，直至当前物体感知模型满足设定训练完成需求，得到目标物体感知模型。

至此，完成图2所示流程。

通过图2所示流程实现了目标物体感知模型训练。

下面对图4所示流程进行描述：

参见图4，图4为本申请实施例提供的置信度确定流程图。如图4所示，该流程可包括以下步骤：

S410：针对每一候选对象区域，将该候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征输入至设定相似度函数，得到该候选对象区域中候选对象与每一候选类别之间的相似度。

示例性地，上述设定相似度函数可以有多种，例如可以为余弦相似度函数，还可以为其他相似度函数，本申请实施例对此不作具体限定。

本申请实施例仅以该设定相似度函数为余弦相似度函数为例进行说明，当设定相似度函数为余弦相似度函数时，本步骤S410中，依据如下余弦相似度函数确定该候选对象区域中候选对象与每一候选类别之间的相似度：

其中，s表示候选对象区域中候选对象与每一候选类别之间的相似度；F_T为文本特征向量，

N表示候选类别数量；d表示文本特征的维度；F_I表示视觉特征，

M表示候选对象的数量；d表示视觉特征的维度；||F_T||表示对矩阵F_T的每一行分别进行归一化；

表示F_I的转置。

S420：依据该候选对象区域中候选对象与每一候选类别之间的相似度，确定该候选对象区域中候选对象与每一候选类别之间的置信度。

示例性地，在本实施例中，本步骤S420中，依据该候选对象区域中候选对象与每一候选类别之间的相似度，确定该候选对象区域中候选对象与每一候选类别之间的置信度可以有多种方式，例如，直接将该候选对象区域中候选对象与每一候选类别之间的相似度，作为该候选对象区域中候选对象与每一候选类别之间的置信度；或者，其他确定方法，本申请实施例并不具体限定。

至此，完成图4所示流程。

通过图4所示流程实现了如何利用候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征，确定候选对象区域中候选对象与每一候选类别之间的置信度。

参见图5，图5为本申请实施例提供的训练完成确定的流程图。如图5所示，该流程可包括如下步骤：

S510：获得特征损失值；特征损失值是将当前物体感知模型输出的第一训练对象区域对应的视觉特征、以及大规模视觉语言预训练模型输出的第二训练对象区域对应的视觉特征输入至设定损失函数得到的；第一训练对象区域和第二训练对象区域包含同一训练对象。

示例性地，在本实施例中，上述设定损失函数可以为L1损失函数。本申请实施例对此不作具体限定。

示例性地，由于大规模视觉语言预训练模型中的图像编码器输出的视觉特征与文本特征的对齐效果更好，因此，在本实施例中，如图6所示，将训练图像输入到当前物体感知模型中，得到当前物体感知模型输出的第一训练对象区域对应的视觉特征，将训练图像输入到大规模视觉语言预训练模型中，得到大规模视觉语言预训练模型输出的第二训练对象区域对应的视觉特征，利用当前物体感知模型输出的第一训练对象区域对应的视觉特征、以及大规模视觉语言预训练模型输出的第二训练对象对应的视觉特征计算损失值，利用该损失值调整当前物体感知模型的模型参数，尽可能多的保留了大规模视觉语言预训练模型中的图像编码器的知识，训练得到的目标物体感知模型的效果更好。

S520：若类别损失值和特征损失值分别满足对应的损失要求，则确定当前物体感知模型满足设定训练完成要求，否则，确定当前物体感知模型不满足设定训练完成要求。

上述类别损失值满足其对应的损失要求具体可以参见步骤S250的相关描述，在此不再赘述。

示例性地，在本实施例中，特征损失值满足其对应的损失要求可以为特征损失值小于或等于预设特征损失值阈值，这里，预设特征损失值阈值可以根据实际需求确定，本申请实施例并不作具体限定。

在本实施例中，当类别损失值和特征损失值分别满足对应的损失要求时，则确定当前物体感知模型满足设定训练完成要求，否则，确定当前物体感知模型不满足设定训练完成要求，基于类别损失值、特征损失值，利用常规的梯度反传方法调整当前物体感知模型对应的模型参数，将调整后的当前物体感知模型更新为当前物体感知模型，返回至将训练图像输入到当前物体感知模型中的步骤，直至当前物体感知模型满足设定训练完成需求，得到目标物体感知模型。

至此，完成图5所示流程。

通过图5所示流程实现了如何利用传统图像处理方法进行缺陷检测。

作为本申请实施例一个可选实施方式，在执行上述步骤S220之前，该物体感知方法还包括：

根据大规模视觉语言预训练模型所包含的词汇表对各标定类别的训练文本进行标识化和序列化处理。

示例性地，上述词汇表是训练大规模视觉语言预训练模型时使用的。标识化处理和序列化处理是自然语言处理领域的基本技术，在此不再赘述。

与前述方法的实施例相对应，本申请实施例还提供了装置及其所应用的终端的实施例。

如图7所示，图7是本申请实施例根据一示例性实施例示出的一种物体感知装置的框图，上述物体感知装置包括：

视觉特征提取模块，用于将待检测图像输入到已训练好的目标物体感知模型，以由目标物体感知模型从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征，视觉特征为非文本特征；

第一置信度确定模块，用于利用候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征，确定候选对象区域中候选对象与每一候选类别之间的置信度；

类别确定模块，用于利用候选对象区域中候选对象与每一候选类别之间的置信度，确定候选对象所属的目标类别。

作为本申请实施例一个可选实施方式，上述第一置信度确定模块具体用于：

针对每一候选对象区域，将该候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征输入至设定相似度函数，得到该候选对象区域中候选对象与每一候选类别之间的相似度；

依据该候选对象区域中候选对象与每一候选类别之间的相似度，确定该候选对象区域中候选对象与每一候选类别之间的置信度。

作为本申请实施一个可选实施方式，设定相似度函数为：余弦相似度函数；将该候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征输入至设定相似度函数，得到该候选对象区域中候选对象与每一候选类别之间的相似度，包括：

依据如下余弦相似度函数确定该候选对象区域中候选对象与每一候选类别之间的相似度：

表示F_I的转置。

作为本申请实施例一个可选实施方式，该物体感知装置还包括：

划分模块，用于将训练图像输入到当前物体感知模型中，由当前物体感知模型从训练图像中划分出训练对象区域并输出训练对象区域对应的视觉特征，视觉特征为非文本特征；

文本特征输出模块，用于将训练图像对应的训练文本输入至大规模视觉语言预训练模型，以由大规模视觉语言预训练模型输出训练文本特征；训练文本为用于描述训练图像中标定类别的语句，训练文本特征为对应标定类别的文本特征；

第二置信度确定模块，用于利用训练对象区域对应的视觉特征、以及各标定类别对应的训练文本特征，确定训练对象区域中训练对象与每一标定类别之间的置信度；

类别损失值确定模块，用于将训练对象与每一标定类别之间的置信度，以及训练对象的标定类别输入至当前物体感知模型对应的损失函数，得到类别损失值；

训练完成确定模块，用于依据类别损失值，确定当前物体感知模型是否满足设定训练完成要求，如果是，确定当前物体感知模型为目标物体感知模型，如果否，调整当前物体感知模型对应的模型参数，将调整后的当前物体感知模型更新为当前物体感知模型，返回至将训练图像输入到当前物体感知模型中的步骤。

作为本申请实施例一个可选实施方式，训练文本具有的文本结构与大规模视觉语言预训练模型训练时采用的训练文本的结构相同。

作为本申请实施例一个可选实施方式，上述训练完成确定模块具体用于：

获得特征损失值；特征损失值是将当前物体感知模型输出的第一训练对象区域对应的视觉特征、以及大规模视觉语言预训练模型输出的第二训练对象区域对应的视觉特征输入至设定损失函数得到的；第一训练对象区域和第二训练对象区域包含同一训练对象；

若类别损失值和特征损失值分别满足对应的损失要求，则确定当前物体感知模型满足设定训练完成要求，否则，确定当前物体感知模型不满足设定训练完成要求。

作为本申请实施例一个可选实施方式，目标物体感知模型为用于对象检测的物体检测模型，或者为用于对象分割的实例分割模型。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

至此，完成图7所示装置的结构描述。

对应地，本申请实施例还提供了图7所示装置的硬件结构图，具体如图8所示，该电子设备可以为上述实施方法的设备。如图8所示，该硬件结构包括：处理器和存储器。

其中，存储器，用于存储机器可执行指令；

处理器，用于读取并执行存储器存储的机器可执行指令，以实现如上所示的所对应的物体感知的方法实施例。

作为一个实施例，存储器可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，存储器可以是RAM(Radom Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

至此，完成图8所示电子设备的描述。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种物体感知方法，其特征在于，该方法应用于电子设备，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征，确定所述候选对象区域中候选对象与每一候选类别之间的置信度，包括：

3.根据权利要求2所述的方法，其特征在于，所述设定相似度函数为：余弦相似度函数；

所述将该候选对象区域对应的视觉特征、以及已获得的各候选类别对应的文本特征输入至设定相似度函数，得到该候选对象区域中候选对象与每一候选类别之间的相似度，包括：

表示F_I的转置。

4.根据权利要求1所述的方法，其特征在于，所述目标物体感知模型通过如下步骤训练得到：

将训练图像输入到当前物体感知模型中，由所述当前物体感知模型从训练图像中划分出训练对象区域并输出训练对象区域对应的视觉特征，所述视觉特征为非文本特征；

将训练图像对应的训练文本输入至大规模视觉语言预训练模型，以由大规模视觉语言预训练模型输出训练文本特征；所述训练文本为用于描述训练图像中标定类别的语句，所述训练文本特征为对应所述标定类别的文本特征；

利用训练对象区域对应的视觉特征、以及各标定类别对应的训练文本特征，确定训练对象区域中训练对象与每一标定类别之间的置信度；

将训练对象与每一标定类别之间的置信度，以及所述训练对象的标定类别输入至所述当前物体感知模型对应的损失函数，得到类别损失值；

依据所述类别损失值，确定当前物体感知模型是否满足设定训练完成要求，如果是，确定当前物体感知模型为所述目标物体感知模型，如果否，调整当前物体感知模型对应的模型参数，将调整后的当前物体感知模型更新为当前物体感知模型，返回至将训练图像输入到当前物体感知模型中的步骤。

5.根据权利要求4所述的方法，其特征在于，所述训练文本具有的文本结构，与所述大规模视觉语言预训练模型训练时采用的训练文本的结构相同。

6.根据权利要求4所述的方法，其特征在于，所述依据所述类别损失值，确定当前物体感知模型是否满足设定训练完成要求，包括：

获得特征损失值；所述特征损失值是将所述当前物体感知模型输出的第一训练对象区域对应的视觉特征、以及所述大规模视觉语言预训练模型输出的第二训练对象区域对应的视觉特征输入至设定损失函数得到的；所述第一训练对象区域和所述第二训练对象区域包含同一训练对象；

若所述类别损失值和所述特征损失值分别满足对应的损失要求，则确定当前物体感知模型满足设定训练完成要求，否则，确定当前物体感知模型不满足设定训练完成要求。

7.根据权利要求1所述的方法，其特征在于，所述目标物体感知模型为用于对象检测的物体检测模型，或者为用于对象分割的实例分割模型。

8.一种物体感知装置，其特征在于，该装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一置信度确定模块具体用于：

10.一种电子设备，其特征在于，电子设备包括机器可读存储介质、处理器；

所述机器可读存储介质存储有能够被处理器执行的机器可执行指令；

所述处理器用于读取所述机器可执行指令，以实现如权利要求1-7任一项所述的物体感知方法的步骤。