CN113837257B

CN113837257B - 一种目标检测方法及装置

Info

Publication number: CN113837257B
Application number: CN202111081576.1A
Authority: CN
Inventors: 苗书宇; 郑霖; 宫明明; 陈虹
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-05-24
Anticipated expiration: 2041-09-15
Also published as: CN113837257A

Abstract

本说明书一个或多个实施例提供一种目标检测模型的训练方法以及目标检测方法，目标检测时，不仅是基于图像本身，还将图像的描述文本同样作为目标检测时的考虑因素。在训练目标检测模型时，先获取训练样本集，任一训练样本包括：一张图像、该图像的描述文本、目标物体在图像中的位置信息、目标物体的类别信息，其中，任一图像中包含至少一种目标物体、对应的描述文本中包含对该至少一种目标物体的描述。确定初始目标检测模型，其中，目标检测模型以图像及其描述文本为输入、以目标物体在图像中的位置信息及目标物体的类别信息为输出。然后利用训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件。

Description

一种目标检测方法及装置

技术领域

本说明书一个或多个实施例涉及计算机视觉技术领域，尤其涉及一种目标检测方法及装置。

背景技术

目标检测是计算机视觉和数字图像处理的一个热门方法，一般有两个任务，检测目标物体在图片中的位置以及检测出的目标物体所属的类别，其有着非常广泛的应用，如工业检测领域、电商领域等，大大减少了人力资源成本。

目标检测常用的方法通常分为两类，一类是two-stage(两个阶段)，最具代表性的是Faster-RCNN，另外一类是one-stage(一个阶段)，最具代表的是YOLO、SSD。

现有的目标检测方法都是基于图片本身的，即，仅通过图片本身所呈现的内容进行目标检测，因此，图片的复杂程度与识别难度成正比，图片越复杂，识别难度越大，例如，背景与前景难以区分、目标被遮挡或密集、目标过小等等，这使得目标检测结果达不到预期效果。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种目标检测模型的训练方法以及目标检测方法。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种目标检测模型的训练方法，该方法包括：

获取训练样本集合，任一训练样本包括：一张图像、该图像的描述文本、目标物体在图像中的位置信息、目标物体的类别信息；其中，任一图像中包含至少一种目标物体、对应的描述文本中包含对该至少一种目标物体的描述；

确定初始目标检测模型，所述目标检测模型以图像及其描述文本为输入、以目标物体在图像中的位置信息及目标物体的类别信息为输出；

利用所述训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件。

根据本说明书一个或多个实施例的第二方面，提出了一种目标检测方法，该方法包括：

获取图像以及该图像的描述文本；

将所述图像以及所述图像的描述文本输入至目标检测模型，所述目标检测模型利用如上述的目标检测模型训练方法训练得到；

根据所述目标检测模型的输出，确定所述图像中目标物体的位置信息以及目标物体所属类别。

根据本说明书一个或多个实施例的第三方面，提出了一种目标检测模型的训练装置，所述装置包括：

训练集合获取模块，用于获取训练样本集合，任一训练样本包括：一张图像、该图像的描述文本、目标物体在图像中的位置信息、目标物体的类别信息；其中，任一图像中包含至少一种目标物体、对应的描述文本中包含对该至少一种目标物体的描述；

确定模块，用于确定初始目标检测模型，所述目标检测模型以图像及其描述文本为输入、以目标物体在图像中的位置信息及目标物体的类别信息为输出；

更新模块，用于利用所述训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件。

根据本说明书一个或多个实施例的第四方面，提出了一种目标检测装置，所述装置包括：

获取模块，获取图像以及该图像的描述文本；

输入模块，用于将所述图像以及所述图像的描述文本输入至目标检测模型，所述目标检测模型利用如上述的目标检测模型训练装置训练得到；

输出模块，用于根据所述目标检测模型的输出，确定所述图像中目标物体的位置信息以及目标物体所属类别。

根据本说明书一个或多个实施例的第五方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如上述的目标检测模型的训练方法或目标检测方法。

根据本说明书一个或多个实施例的第六方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的目标检测模型训练方法或目标检测方法的步骤。

本说明书提出一种新的目标检测方法及其对应的目标检测模型的训练方法，目标检测时，不仅是基于图像本身，还将图像的描述文本同样作为目标检测时的考虑因素。在训练目标检测模型时，先获取训练样本集，任一训练样本包括：一张图像、该图像的描述文本、目标物体在图像中的位置信息、目标物体的类别信息，其中，任一图像中包含至少一种目标物体、对应的描述文本中包含对该至少一种目标物体的描述。确定初始目标检测模型，目标检测模型以图像及其描述文本为输入、以目标物体在图像中的位置信息及目标物体的类别信息为输出。然后利用训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件。

通过本说明书的一个或多个实施例，利用图像的描述文本所包含的信息弥补图像中表现不明显的信息，使得在对图像进行目标检测时，提高目标检测结果的准确性。

附图说明

图1是一示例性实施例提供的一种目标检测模型的训练方法的流程示意图。

图2是一示例性实施例提供的一种目标检测模型的框架示意图。

图3是一示例性实施例提供的一种详细的目标检测模型的框架示意图。

图4是一示例性实施例提供的一种融合后的特征向量与图像特征向量残差连接的示意图。

图5是一示例性实施例提供的一种目标检测方法的流程示意图。

图6是一示例性实施例提供的一种目标检测模型的训练装置的框架示意图。

图7是一示例性实施例提供的一种目标检测方法的框架示意图。

图8是一示例性实施例提供的一种设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

目标检测是一项基础的计算机视觉任务，旨在自动化地检测出一张图像中包含的预定义物体实例。目标检测技术被广泛应用在不同的场景中，例如电商领域，工业检测领域等。目标检测有两个任务，目标物体的位置检测以及所属类别的识别，例如，有一张图片中有海、有山、有鸟，那么目标检测的任务不仅是检测出鸟在图片中的位置，还需要识别出这是一只鸟。而目标检测最常用的两类方法是One-stage和Two-stage：

One-stage是直接回归物体的类别概率和位置坐标，速度相对快，准确性相对低。

Two-stage是先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行样本分类。速度相对慢，准确性相对高。

上述两种目标检测方式都是基于图片本身的进行识别的，即，输入信息只需要图片本身，因此，目标检测的难度与图片本身的难度呈正相关，图片越复杂，目标检测的难度越大。换而言之，对于复杂的图片，目标检测的准确度会有所下降，如：

1)背景干扰：现实场景中的图像数据存在前景物体与背景极度相似的情形，单独的图像特征不足以突出前景物体特征。

2)物体间关系利用不足：目标检测算法大多基于全卷积神经网络，更加有利于模型关注局部的单个物体特征，无法充分利用不同物体之间的关系。

3)难以检测遮挡或密集物体：目标检测算法流程中通常使用非极大值抑制进行后处理，去掉冗余的检测框，这会导致部分遮挡的物体被误删，产生漏检。

4)小目标物体漏检：模型在下采样过程中会遇到一定程度的像素值丢失，对于小目标尤为明显，导致小目标物体特征不足，造成小目标物体漏检。

这些都是仅基于图像本身进行目标检测时所带来的问题，基于此，本说明书提出一种新的目标检测方法及其对应的目标检测模型的训练方法，目标检测时，不仅是基于图像本身，还将图像的描述文本同样作为目标检测时的考虑因素。其中，在训练目标检测模型时，先获取训练样本集，任一训练样本包括：一张图像、该图像的描述文本、目标物体在图像中的位置信息、目标物体的类别信息，其中，任一图像中包含至少一种目标物体、对应的描述文本中包含对该至少一种目标物体的描述。确定初始目标检测模型，目标检测模型以图像及其描述文本为输入、以目标物体在图像中的位置信息及目标物体的类别信息为输出，然后利用训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件。

在本说明书中的一个或多个实施例中，利用图像的描述文本所包含的信息弥补图像中表现不明显的信息，使得在对图像进行目标检测时，提高检测结果的准确性。

本说明书提供了一种目标检测模型的训练方法，并提供了使用该训练方法进行目标检测的方法，首先对目标检测模型的训练方法进行详细的说明。

首先对本说明书的目标检测模型的基本构思进行说明，很多机器学习是模仿人的学习习惯构造的模型，人在学习一个目标物体时，不仅仅接收其视觉信息，还会接收对其的语言描述信息，视觉信息与语言描述信息的互相补充，完成对一个目标物体的学习。因此，本说明书在进行目标检测时，是基于图像与图像的描述文本进行的，目标物体在图像中信息表现不足时，可以通过图像的描述文本来弥补，以提高目标物体的信息表达，从而提高目标检测的准确性。换而言之，本说明书中的目标检测是基于文本引导的目标检测，对于没有文本描述的目标检测的应用场景，不适用于本说明书示出的目标检测方法。

如图1所示，为本说明书示出的目标检测模型的训练方法的流程示意图，包括以下步骤：

步骤101、获取训练样本集合。

其中，任一训练样本包括：一张图像，该图像的描述文本，目标物体在图像中的位置信息，目标物体的类别信息。

需要说明的是，本说明书中的目标物体是指一些物体的集合，例如该训练的目标检测模型是用于识别兔子、猫、狗的模型，那么目标物体时兔子、猫、狗中的任意一个，那么训练样本集合中，任一训练样本的图像中至少有兔子、猫、狗中的一个。相应的，训练好的目标检测模型也是用于识别兔子、猫、狗的，对于其他物体，不在目标检测模型的考虑范围内，即，其不能够识别蛇、鸟这样的物体。

图像的描述文本用于描述图像中的语义，会出现相应的词汇，例如，目标检测对象是鸟，描述文本可以是“有一只鸟在天空中飞翔”，再如，目标检测对象是猫，描述文本可以是“一只猫趴在椅子上”。

目标物体在图像中的位置信息，一般是能够框住目标物体的框的位置信息，可以是两个个坐标信息(对角的两个)，也可以是四个坐标信息。

步骤103、确定初始目标检测模型。

其中，目标检测模型以图像及其描述文本为输入，以目标物体在图像中的位置信息及目标物体的类别信息为输出。换而言之，目标检测模型的输入包括两部分，图像以及对应的描述文本，输出也包括两部分，目标物体在图像中的位置信息，以及目标物体所属的类别。

如图2所示，为本说明书示出的目标检测模型的结构示意图，以图像及其描述文本为输入，以目标物体的位置信息以及类别信息为输出。

步骤105、利用所述训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件。

预设条件可以是目标检测模型的损失符合预期情况，或者迭代次数达到了预设次数，认为得到的目标检测模型达到预期的效果。

损失函数可以是基于自适应权重的损失函数，也可以是基于多任务学习的损失函数，根据实际应用情况，选取不同的损失函数，以达到最终的训练目的。

为了使训练的模型更快的投入使用，可以使用一些成熟的现有图像特征提取模型和文本特征提取模型，即，目标检测模型包括：预设的文本特征向量提取子模型、预设的图像特征向量提取子模型、待训练的语义加强子模型。此时，目标检测模型的训练目的变为了对语义加强子模型的训练。

例如，现有的任一目标检测模型中，无论是one-stage方式还是two-stage方式，都需要先对图像进行图像特征的提取，例如颜色特征的提取(颜色直方图、颜色集、颜色矩、颜色聚合向量、颜色相关图等)，纹理特征的提取(粗糙度、对比度、方向性、相似性、规则性、粗略度等)等等，然后基于提取到的特征进行进一步的推断，因此，可以基于这些已有的目标检测模型中的图像特征向量提取模型。

再如，对文本进行特征提取时，不同的算法有不同的编码方式，文本可以表示为单词、句子甚至是段落，其没有固定的结构，最基础的文本表示模型是词袋模型，就是将每篇文章看成一袋子词，并忽略每个词出现的顺序。此外，还可以基于LSTM的文本特征向量提取方式、基于Transformer的文本特征向量提取方式等，得到文本相关特征向量。

然后将图像特征向量提取子模型输出的图片特征向量，文本特征向量提取子模型输出的文本特征向量作为语义加强子模型的输入，语义加强子模型基于输入的文本特征向量对图像特征向量进行语义后，根据语义加强后的图像特征向量进行目标识别(包括目标物体位置信息的识别以及目标物体所属的类别的识别)。

如图3所示，为本说明书示出的目标检测模型的示意图，包括预设的图像特征向量提取子模型、文本特征向量提取子模型，以及待训练的语义加强子模型，其中，图像特征向量提取子模型的输入是训练样本中的图像，文本特征向量提取子模型的输入是训练样本中的描述文本。

语义加强子模型的作用包括两个部分，一部分是将文本特征向量与图像特征向量进行融合(或者说，基于本文本特征向量，对图像特征向量进行语义加强)，另外一部分是根据融合后的特征向量，进行目标检测。

需要说明的是，语义加强的过程(或者说特征融合的过程)，就是图像特征向量与文本特征向量的拼接、逐元素相加或相乘、内积、外积等的过程。具体而言，对图像与文本分别做特征处理后，映射至相同的语义空间(同一维度空间)，通过图像特征向量与文本特征向量之间的距离对两者之间的相似度进行计算，进而再对向量进行拼接、逐元素相加或相乘、内积、外积等。例如，图像为一只狗与一只猫在草地上，描述文本为“一只狗与一只猫在玩耍”，对描述文本进行特征提取后，得到关注的词“猫”与“狗”，将图像特征与关注的词的特征映射至同一语义空间，能够得到与词“猫”高度匹配的区域，以及与词“狗”高度匹配的区域，将关注的词的特征向量与高度匹配的区域的特征向量进行拼接、相加、相乘等，使得该区域对应的特征向量所表征的语义为“狗”或表征为“猫”的能力得到提升，从而再进一步对该区域进行识别时，识别出该区域为“猫”或为“狗”的概率得到提升。

因此，语义加强子模型可以具体包括语义融合层以及目标识别层，其中，语义融合层以文本特征向量提取子模型输出的文本特征向量，以及图像特征向量子模型输出的图像特征向量为输入，以语义加强后的图像特征向量为输出(或者说，以特征融合后的特征向量为输出)，目标识别层以语义加强后的图像特征向量为输入，以目标物体在图像中的位置信息及目标物体的类别信息为输出。

进行语义融合时(也即进行语义加强时)，可以使用Add进行特征融合，或者使用concat进行特征融合，又或者使用点积进行特征融合，在或者使用Bilinear进行特征融合，无论使用何种方式进行语义融合，语义融合的目的是为了将文本特征向量中的语义信息映射至图像特征向量，是图像特征向量根据文本特征向量完成语义的加强。

输入至语义融合层的特征向量不同，语义融合的算法会有所不同，以文本特征向量为词特征向量与句特征向量为例。文本特征向量提取子模型可以是一个双向GUR(GateRecurrent Unit),将图像的描述文本输入至文本特征向量提取子模型后，子模型最后一层输出层的输出为词特征向量，最后一层隐层的输出为据特征向量(GUR考虑了向量词间的前后序列信息，有利于获得全句的全部特征表示)。

一般而言，一个完整的句子中某些词语极为重要，其潜在的表明了图像中的某个物体，因此，基于得到的词特征向量，分别通过不同的非线性变换，得到键值向量与查询向量，将得到的键值向量与查询向量对应的矩阵相乘后，得到局部(词语)与全局(句子)关系的自注意力权重图，将得到的权重图与图像特征向量提取子模型输出的图像特征向量相乘，得到特征语义加强后的图像特征向量。

因此，当文本特征向量为词特征次特征向量时，使用点乘等方式，计算图像特征向量与词特征向量的相似度，换而言之，确定文本描述中的各个词语所代表的语义与图像中各个区域所代表的语义之间的匹配度，然后基于词特征，进行语义映射(通俗的讲，就是利用描述文本对图像中的目标物体进行描边，是目标物体更明显)。

例如，图像中有目标物体猫，图像的描述文本为“一只猫躺在椅子上”，那么描述文本的本身的重点在于“猫”、“椅子”等词汇，而在特征匹配时，“猫”这一词汇会对图像中猫的区域进行语义加强，“椅子”这一词汇对图像中椅子的区域进行语义加强。

当文本特征向量为句特征向量时，可以句特征向量与文本特征向量映射至相同维度，然后基于映射至相同维度的句特征向量与文本特征向量，进行全局匹配，即，直接进行语义加强，得到语义加强后的图像特征向量。

例如，图像中有目标物体鸽子，图像描述文本为“电线杆上立着一直全身雪白的鸽子”，“全身雪白”是鸽子的描述，电线杆是场景，那么只要有电线杆，全身雪白的鸟立在上面，那么可以认为这个描述文本与该图像是十分符合的，进行全局的语义加强(通俗的讲，同时对电线杆、雪白的鸽子进行描边)。

此外，进行语义融合时，可以不仅仅是基于词特征向量的语义融合，或者基于句特征向量的语义融合，可以是两者同时进行，基于词特征向量对图像特征向量进行语义加强，基于句特征向量对图像特征向量进行语义加强，然后将两者得到语义加强后的图像特征向量进行相加，得到最后的语义加强后的图像特征向量。

其中，直接基于语义加强后的图像特征向量进行目标识别时，可能会存在图像的描述文本对图像带来干扰，如图像中的描述文本有其他无关词汇，那么基于该描述文本对图像特征向量进行语义加强后，也许可能会带来反面效果，因此，在本说明书一个或多个实施例中，使用残差连接的方式，进行目标检测时，基于(图像特征向量+语义加强后的图像特征向量)进行目标检测。

如图4所示，为本说明书示出的残差连接的示意图，文本特征向量与图像特征向量进行融合后(图中的*表示特征融合，即上述的基于文本特征向量对图像特征向量进行语义加强)，再与图像特征向量进行拼接(图中的+表示拼接)，得到残差连接后的特征向量。

此时，语义融合层以文本特征向量提取子模型输出的文本特征向量，以及所述图像特征向量子模型输出的图像特征向量为输入，以语义加强后的图像特征向量为输出。而目标识别层以图像特征向量提取子模型输出的图像特征向量，以及语义加强层输出的图像特征向量(即，语义加强后的特征向量)为输入，以目标物体在图像中的位置信息及目标物体的类别信息为输出。

如此，不仅可以保持传统目标检测方式(即，上述的仅通过图像本身的目标检测方法，例如one-stage方式的目标检测方法或two-stage方式的目标检测方法)所带来的效果，还可以保持图像的描述文本对图像所带来的增益效果。

通过本说明书一个或多个实施例，由于图像特征向量提取子模型使用了传统的目标检测模型对图像的处理方法(现有的对图像的处理方法)，文本特征向量提取子模型也使用了成熟的对文本的处理方法，保持了文本特征向量提取过程与图像特征向量提取过程的独立性，通过将传统的目标检测模型与文本检测模型进行嵌合，得到本说明书的目标检测模型，使得本说明书的目标检测模型的通用性更高。

此外，实际应用中，不是任何情况下图像都有描述文本的，因此，本说明书还提供了一种目标检测方法，在接收输入之前，判断输入是只有图像，还是既有图像，又有描述文本。

在输入只有图像的情况下，可以利用传统的目标检测方法，对图像进行目标检测。在输入既有图像，又有描述文本的情况下，可以利用本说明书提供了的目标检测方法进行目标检测。

如此，在图像没有描述文本的情况下，可以利用传统的目标检测方法，根据实际应用场景进行灵活的应用。

以上是对目标检测模型的训练方法的详细说明，目标检测方法应用极为广泛，例如电商领域，本说明书还提供了一种目标检测方法，如图5所示，为本说明书示出的目标检测方法的流程示意图，包括以下步骤：

步骤501、获取图像以及该图像的描述文本。

步骤503、将所述图像以及所述图像的描述文本输入至目标检测模型。

其中，所述目标检测模型利用如上述任一所述的目标检测模型的训练方法训练得到。

步骤505、根据所述目标检测模型的输出，确定所述图像中目标物体的位置信息以及目标物体所属类别。

以上是对目标检测模型的训练方法，以及目标检测方法的详细说明，利用上述的方法，通过图像的描述文本引导的图像目标检测方法，不仅弥补了图像中目标物体特征表现不足的情况(目标物体的信息不足)，还提升了目标检测的准确性。

接下对目标检测模型的训练装置以及目标检测装置进行详细的说明。

本说明书提供了一种目标检测模型的训练装置，如图6所示，所述装置包括：

训练集合获取模块601，用于获取训练样本集合，任一训练样本包括：一张图像、该图像的描述文本、目标物体在图像中的位置信息、目标物体的类别信息；其中，任一图像中包含至少一种目标物体、对应的描述文本中包含对该至少一种目标物体的描述；

确定模块603，用于确定初始目标检测模型，所述目标检测模型以图像及其描述文本为输入、以目标物体在图像中的位置信息及目标物体的类别信息为输出；

更新模块605，用于利用所述训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件。

其中，所述目标检测模型包括：预设的文本特征向量提取子模型、预设的图像特征向量提取子模型、待训练的语义加强子模型；

文本特征向量提取子模型，用于提取输入至所述目标检测模型的文本的文本特征向量；

图像特征向量提取子模型，用于提取输入至所述目标检测模型的图像的图像特征向量；

所述语义加强子模型以所述文本特征向量提取子模型输出的文本特征向量，以及所述图像特征向量子模型输出的图像特征向量为输入，以目标物体在图像中的位置信息及目标物体的类别信息为输出；

此时，所述更新模块具体用于：利用所述训练样本集合对所述语义加强子模型进行迭代更新，直到满足预设条件。

此外，上述语义加强子模型可包括语义融合层以及目标识别层；

所述语义融合层以所述文本特征向量提取子模型输出的文本特征向量，以及所述图像特征向量子模型输出的图像特征向量为输入，以语义加强后的图像特征向量为输出；

所述目标识别层以所述语义加强后的图像特征向量为输入，以目标物体在图像中的位置信息及目标物体的类别信息为输出。

或者，上述语义加强子模型包括语义融合层以及目标识别层；

所述目标识别层以所述图像特征向量，以及所述语义加强后的图像特征向量为输入，以目标物体在图像中的位置信息及目标物体的类别信息为输出。

本说明书还提供了一种目标检测装置，如图7所示，所述装置包括：

获取模块701，获取图像以及该图像的描述文本；

输入模块703，用于将所述图像以及所述图像的描述文本输入至目标检测模型，所述目标检测模型利用上述的任一目标检测模型训练装置训练得到；

输出模块705，用于根据所述目标检测模型的输出，确定所述图像中目标物体的位置信息以及目标物体所属类别。

上述实施例阐明的装置、模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书还提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如上述任一所述的方法。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

图8示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器810、存储器820、输入/输出接口830、通信接口840和总线850。其中处理器810、存储器820、输入/输出接口830和通信接口840通过总线850实现彼此之间在设备内部的通信连接。

处理器810可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口830用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口840用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线850包括一通路，在设备的各个组件(例如处理器810、存储器820、输入/输出接口830和通信接口840)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、存储器820、输入/输出接口830、通信接口840以及总线850，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述任一所述方法的步骤。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种目标检测模型的训练方法，该方法包括：

确定初始目标检测模型，所述目标检测模型以图像及其描述文本为输入、以目标物体在图像中的位置信息及目标物体的类别信息为输出；其中，所述目标检测模型包括：预设的文本特征向量提取子模型、预设的图像特征向量提取子模型、待训练的语义加强子模型；所述文本特征向量提取子模型，用于提取输入至所述目标检测模型的文本的文本特征向量；所述图像特征向量提取子模型，用于提取输入至所述目标检测模型的图像的图像特征向量；所述语义加强子模型以所述文本特征向量提取子模型输出的文本特征向量，以及所述图像特征向量子模型输出的图像特征向量为输入，以目标物体在图像中的位置信息及目标物体的类别信息为输出；

利用所述训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件；其中，所述对所述目标检测模型进行迭代更新，具体为：对所述语义加强子模型进行迭代更新。

2.如权利要求1所述的方法，所述语义加强子模型包括语义融合层以及目标识别层；

3.如权利要求1所述的方法，所述语义加强子模型包括语义融合层以及目标识别层；

4.一种目标检测方法，该方法包括：

获取图像以及该图像的描述文本；

将所述图像以及所述图像的描述文本输入至目标检测模型，所述目标检测模型利用如权利要求1-3任一所述的训练方法训练得到；

5.一种目标检测模型的训练装置，所述装置包括：

确定模块，用于确定初始目标检测模型，所述目标检测模型以图像及其描述文本为输入、以目标物体在图像中的位置信息及目标物体的类别信息为输出；其中，所述目标检测模型包括：预设的文本特征向量提取子模型、预设的图像特征向量提取子模型、待训练的语义加强子模型；所述文本特征向量提取子模型，用于提取输入至所述目标检测模型的文本的文本特征向量；所述图像特征向量提取子模型，用于提取输入至所述目标检测模型的图像的图像特征向量；所述语义加强子模型以所述文本特征向量提取子模型输出的文本特征向量，以及所述图像特征向量子模型输出的图像特征向量为输入，以目标物体在图像中的位置信息及目标物体的类别信息为输出；

更新模块，用于利用所述训练样本集合对所述目标检测模型进行迭代更新，直到满足预设条件；其中，所述对所述目标检测模型进行迭代更新，具体为：对所述语义加强子模型进行迭代更新。

6.如权利要求5所述的装置，所述语义加强子模型包括语义融合层以及目标识别层；

7.如权利要求5所述的装置，所述语义加强子模型包括语义融合层以及目标识别层；

8.一种目标检测装置，所述装置包括：

获取模块，获取图像以及该图像的描述文本；

输入模块，用于将所述图像以及所述图像的描述文本输入至目标检测模型，所述目标检测模型利用如权利要求1-3任一所述的训练方法训练得到；

9.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。