CN113505781A

CN113505781A - 目标检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN113505781A
Application number: CN202110611225.0A
Authority: CN
Inventors: 万昭祎; 姚聪
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-10-15

Abstract

本申请提供一种目标检测方法、装置、电子设备及可读存储介质，涉及图像处理技术领域。该方法包括：提取输入图像的图像特征；基于所述图像特征获取所述输入图像中的待检测对象的对象分割图；基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图；根据所述对象分割图和所述目标掩膜图获取所述待检测对象中包含感兴趣目标的对象的信息。该方案通过获得输入图像中感兴趣目标的目标掩膜图，然后再结合待检测对象的对象分割图，从而获得对包含感兴趣目标的对象的信息，无需人工对感兴趣目标的相关信息进行检测，节省检测时间，且检测精度更高。

Description

目标检测方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种目标检测方法、装置、电子设备及可读存储介质。

背景技术

在诸多场景均存在需要对一些感兴趣目标进行检测，例如，对打印文件或打印字符中的缺陷进行检测，或者对医疗图像中的特定病变区域进行检测，或者对水果图像中存在损坏的区域进行检测等。目前对这些目标进行检测的方式一般是通过人工进行肉眼观测，以查看这些图像中是否存在感兴趣目标，但是人工检测的方式检测时间较长，且可能由于人工疏忽而没有检测出，从而造成检测不准确的问题。

发明内容

本申请实施例的目的在于提供一种目标检测方法、装置、电子设备及可读存储介质，用以改善现有技术中通过人工进行目标检测而导致检测时间较长且检测不准确的问题。

第一方面，本申请实施例提供了一种目标检测方法，所述方法包括：提取输入图像的图像特征；基于所述图像特征获取所述输入图像中的待检测对象的对象分割图；基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图；根据所述对象分割图和所述目标掩膜图获取所述待检测对象中包含感兴趣目标的对象的信息。

在上述实现过程中，通过获得输入图像中感兴趣目标的目标掩膜图，然后再结合待检测对象的对象分割图，从而获得对包含感兴趣目标的对象的信息，无需人工对感兴趣目标的相关信息进行检测，节省检测时间，且检测精度更高。

可选地，所述基于所述图像特征获取所述输入图像中的待检测对象的对象分割图，包括：

将所述图像特征输入至语义分割网络进行处理，获得针对所述待检测对象的对象掩膜图；

基于所述图像特征获取所述输入图像中所述待检测对象的对象定位图；

根据所述对象掩膜图与所述对象定位图获取所述待检测对象的对象分割图。

在上述实现过程中，通过获取对象定位图，可以消除输入图像中多余的背景信息，使得在分割待检测对象时能更准确。

可选地，所述语义分割网络包括至少一个下采样层和至少一个上采样层，所述将所述图像特征输入至语义分割网络进行处理，获得针对所述待检测对象的对象掩膜图，包括：

将所述图像特征输入至所述至少一个下采样层进行处理，获得下采样特征；

将所述下采样特征输入至所述至少一个上采样层进行处理，获得针对所述待检测对象的对象掩膜图。

在上述实现过程中，通过上采样层以及下采样层对图像特征进行处理，可以更好地提取输入图像中的全局特征和局部特征，从而可以更好地对输入图像中的待检测对象进行分割。

可选地，所述至少一个下采样层包括N层，所述至少一个上采样层包括N层，第i上采样层的输入由上一个上采样层的输出与对应的第i下采样层的输出融合得到，所述第i上采样层与第i下采样层输出的特征具有相同分辨率，N为大于等于1的整数，i取1至N。

在上述实现过程中，将具有相同分辨率的特征进行融合后可以更好地提取输入图像中的特征，以便于后续实现对待检测图像的准确分割。

可选地，所述将所述下采样特征输入至所述至少一个上采样层进行处理，获得针对所述待检测对象的对象掩膜图，包括：

将所述下采样特征输入至循环神经网络模型，通过所述循环神经网络模型获取所述输入图像的序列特征；

将所述序列特征输入至所述至少一个上采样层进行处理，获得针对所述待检测对象的对象掩膜图。

在上述实现过程中，通过循环神经网络模型获取输入图像的序列特征，从而能够更好地获取输入图像中的上下文信息，以提高对待检测对象进行分割的准确性。

可选地，所述对象掩膜图为每个待检测对象对应的对象掩膜图，所述根据所述对象掩膜图与所述对象定位图获取所述待检测对象的对象分割图，包括：

根据各个对象掩膜图与所述对象定位图获取各个待检测对象的对象分割图。

在上述实现过程中，通过每个对象掩膜图对每个待检测对象进行分割，这样可以获知包含感兴趣目标的对象具体为哪个待检测对象，从而实现感兴趣目标的准确定位。

可选地，所述包含感兴趣目标的对象的信息包括所述感兴趣目标在所述对象分割图中的位置信息。从而可以知晓包含感兴趣目标的对象在对象分割图中的位置。

可选地，所述感兴趣目标为缺陷，所述包含感兴趣目标的对象的信息包括所述感兴趣目标的缺陷类别。

可选地，所述基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图，包括：

利用卷积神经网络模型基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图，使得图像分割更准确。

可选地，所述感兴趣目标为缺陷，所述提取输入图像的图像特征之前，还包括：

获取多张训练图像，每张训练图像中标注有具有缺陷的缺陷对象；

利用所述训练图像对所述卷积神经网络模型进行训练。从而可有利于提高卷积神经网络模型的精度。

可选地，所述获取多张训练图像，包括：

获取K张初始图像，K为大于或等于1的整数；

确定每张初始图像中具有缺陷的缺陷对象所在的区域；

将每张图像中所述缺陷对象所在的区域进行擦除，获得空白区域；

获取模拟的与所述缺陷对象的缺陷类别不同的多个其他缺陷类别的缺陷对象；

将所述多个其他缺陷类别的缺陷对象分别与所述空白区域进行融合，获得J张训练图像，J为大于K的整数。

在上述实现过程中，通过对初始图像进行相应处理，即可基于少量的初始图像获得更多的训练图像，进而降低了人工采集训练图像的成本，且减少了训练图像采集时间。

可选地，所述获取模拟的与所述缺陷对象的缺陷类别不同的多个其他缺陷类别的缺陷对象，包括：

通过截断高斯分布对所述缺陷对象进行模拟，获得与所述缺陷对象的缺陷类别不同的多个其他缺陷类别的缺陷对象。

第二方面，本申请实施例提供了一种目标检测装置，所述装置包括：

特征提取模块，用于提取输入图像的图像特征；

对象分割图获取模块，用于基于所述图像特征获取所述输入图像中的待检测对象的对象分割图；

目标掩膜图获取模块，用于基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图；

信息检测模块，用于根据所述对象分割图和所述目标掩膜图获取所述待检测对象中包含感兴趣目标的对象的信息。

可选地，所述对象分割图获取模块，用于：

可选地，所述语义分割网络包括至少一个下采样层和至少一个上采样层，所述对象分割图获取模块，用于将所述图像特征输入至所述至少一个下采样层进行处理，获得下采样特征；将所述下采样特征输入至所述至少一个上采样层进行处理，获得针对所述待检测对象的对象掩膜图。

可选地，所述对象分割图获取模块，用于将所述下采样特征输入至循环神经网络模型，通过所述循环神经网络模型获取所述输入图像的序列特征；将所述序列特征输入至所述至少一个上采样层进行处理，获得针对所述待检测对象的对象掩膜图。

可选地，所述对象掩膜图为每个待检测对象对应的对象掩膜图，所述对象分割图获取模块，用于根据各个对象掩膜图与所述对象定位图获取各个待检测对象的对象分割图。

可选地，所述包含感兴趣目标的对象的信息包括所述感兴趣目标在所述对象分割图中的位置信息。

可选地，所述目标掩膜图获取模块，用于利用卷积神经网络模型基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图。

可选地，所述感兴趣目标为缺陷，所述装置还包括：

训练模块，用于获取多张训练图像，每张训练图像中标注有具有缺陷的缺陷对象；利用所述训练图像对所述卷积神经网络模型进行训练。

可选地，所述训练模块，用于：

获取K张初始图像，K为大于或等于1的整数；

确定每张初始图像中具有缺陷的缺陷对象的区域；

可选地，所述训练模块，用于通过截断高斯分布对所述缺陷对象进行模拟，获得与所述缺陷对象的缺陷类别不同的多个其他缺陷类别的缺陷对象。

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用于执行目标检测方法的电子设备的结构示意图；

图2为本申请实施例提供的一种目标检测方法的流程图；

图3为本申请实施例提供的一种特征提取网络的结构示意图；

图4为本申请实施例提供的一种语义分割网络的结构示意图；

图5为本申请实施例提供的一种模拟出的缺陷对象的示意图；

图6为本申请实施例提供的一种获得训练图像的过程示意图；

图7为本申请实施例提供的一种目标检测装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供一种目标检测方法，该方法通过获得输入图像中的感兴趣目标的目标掩膜图，然后再结合待检测对象的对象分割图，从而获得对包含感兴趣目标的对象的信息，无需人工对感兴趣目标的相关信息进行检测，节省检测时间，且检测精度更高。

请参照图1，图1为本申请实施例提供的一种用于执行目标检测方法的电子设备的结构示意图，所述电子设备可以包括：至少一个处理器110，例如CPU，至少一个通信接口120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器，也可以是非易失性的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器110执行时，电子设备执行下述图2所示方法过程，例如，存储器130可用于存储输入图像、待检测对象的对象分割图、目标掩膜图等，处理器110可用于在对输入图像中的待检测对象进行目标检测时，提取输入图像的图像特征，然后基于图像特征获取待检测对象的对象分割图以及感兴趣目标的目标掩膜图，然后结合对象分割图以及目标掩膜图来获取待检测对象中包含感兴趣目标的对象的信息。

可以理解，图1所示的结构仅为示意，所述电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本申请实施例提供的一种目标检测方法的流程图，该方法包括如下步骤：

步骤S110：提取输入图像的图像特征。

本申请可以适用于对图像中的特定类型的对象进行检测或识别，即本申请的检测方法适用于多种应用场景，如对医疗图像中的微小病变区域(如轻微炎症或细微点状分布)进行检测，这种场景下，输入图像为医疗图像，本申请所说的感兴趣目标为微小病变区域；或者对书法绘画图像中的特定着墨区域进行检测，这种场景下，输入图像为书法绘画图像，本申请所说的感兴趣目标为特定着墨区域；或者也可以对打印图像中的文字缺陷进行检测，这种场景下，输入图像为打印图像，本申请所说的感兴趣目标为具有缺陷的文字。

在打印场景下，输入图像指打印图像，本申请实施例所指的待检测对象可以为输入图像中的字符等，由于打印机打印时可能由于打印机的质量不佳或者打印文件存在一定的缺陷，如文件内的字符不清楚等，使得打印获得的打印成品也存在一定缺陷，如打印不清晰，文字未打印完全等缺陷。本申请提供的目标检测方法可以对这些打印文件进行文字缺陷检测，在这种应用场景下，电子设备可为打印机，或者与打印机连接的终端设备，如打印机在打印完文件之后，若打印文件为文档时，可先对打印文件进行扫描获得扫描图像，打印机可对扫描图像中的文字部分进行缺陷检测，或者打印机将扫描图像发送给电子设备，由电子设备对打印图像进行缺陷检测，在打印文件为图像时，打印机或电子设备可直接对打印文件进行缺陷检测。或者，也可以由终端设备对打印字符进行拍照后将获得的图像发送至电子设备(或者，也可以电子设备自己拍照)，由电子设备对获得的图像中的字符进行缺陷检测。

可以理解地，本申请实施例还可应用于其他需要进行目标检测的场景，如输入图像还可以为衣物图像，利用本申请实施例提供的目标检测方法可对衣物图像进行缺陷检测，或者输入图像还可以为食品包装图像，利用本申请实施例提供的目标检测方法还可对食品包装进行缺陷检测，或者对水果图像中水果存在损坏的区域进行检测等，对于其他应用场景在此不一一举例，为了便于描述，针对下述实施例的介绍，以输入图像为针对打印文件图像为例进行说明。

电子设备在获得输入图像后，可对输入图像进行特征提取。在一些实施方式中，可以采用相关的图像处理方法来进行图像特征的提取，如基于尺度不变特征变换法进行图像特征提取、基于方向梯度直方图法进行图像特征提取、基于神经网络模型(如卷积神经网络、循环神经网络等)进行图像特征提取等。

另外，上述的图像特征可以是指特征图、特征向量或者特征矩阵等。

步骤S120：基于所述图像特征获取所述输入图像中的待检测对象的对象分割图。

其中，对象分割图为对输入图像中的待检测对象进行分割的分割图，在输入图像中包括多个待检测对象时，则该对象分割图可以是指每个待检测对象对应的分割图，即每个对象分割图为输入图像中每个待检测对象的分割图，也就是每个对象分割图中包含一个待检测对象，如待检测对象为字符时，则每个对象分割图中包括一个字符。当然，该对象分割图也可以是包括所有待检测对象的分割图。

步骤S130：基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图。

基于图像特征进行目标检测的方法可以采用神经网络模型进行感兴趣目标检测，如卷积神经网络、长短期记忆网络模型等。在利用神经网络模型对输入图像进行感兴趣目标检测前，还可以预先对神经网络模型进行训练，如利用大量的训练图像对神经网络模型进行训练，其训练图像是指标注有大量不同包含感兴趣目标的对象的图像，如不同缺陷类别的缺陷对象的图像，这样即可利用训练好的神经网络模型对输入图像进行感兴趣目标检测，从而可获得含感兴趣目标的目标掩膜图。如可以采用图3所示的网络结构对输入图像进行图像特征的特征提取，然后通过一个检测分支输出目标掩膜图，一个检测分支用于输出感兴趣目标的预测分数，如待检测对象是否具有缺陷的预测分数，或者感兴趣目标所属的缺陷类别的预测分数等。其中，预测分数可以是指感兴趣目标所属的各个缺陷类别的预测分数，以打印缺陷为例，则预测分数包括感兴趣目标属于缺陷类别为字符不清楚的预测分数、感兴趣目标属于缺陷类别为字符缺失的预测分数等，即感兴趣属于各种打印缺陷类别的预测分数，最后可以将预测分数最高的缺陷类别作为感兴趣目标所属的最终缺陷类别，如此可确定出感兴趣目标具体属于哪一种缺陷类别。或者，检测分支输出的预测分数也可以是指感兴趣目标所属的最终缺陷类别的预测分数，如经过判断，若感兴趣目标所属的最终缺陷类别为字符不清楚，则检测分支输出的预测分数为感兴趣目标属于字符不清楚的预测分数。

可以理解地，目标掩膜图是指包含0和1像素值的二值图像，其用于对感兴趣目标进行定位，如待检测对象中具有缺陷对象所在的像素点对应在目标掩膜图中的像素值即为1，其余没有缺陷的像素点的像素值为0。

在基于所述图像特征对输入图像进行分割时，获得对象分割图和目标掩膜图，其分割的方法可以是基于图像特征对输入图像进行语义分割或实例分割，目的是将输入图像中包含待检测对象的区域分割出来。

另外，上述对输入图像进行分割的过程中，可以是对输入图像进行全图的分割，也可以是对输入图像中的局部图像做变换之后的分割，如利用放射变换或透视变换对输入图像中感兴趣的局部区域加以聚焦，然后再对局部区域进行分割，这样可以放大重点需要关注的区域，更好地将感兴趣的区域准确分割出来。

需要说明的是，步骤S120和步骤S130可以并行执行也可以串行执行，如先执行步骤S120再执行步骤S130，或者先执行步骤S130再执行步骤S120，本申请实施例中对此不作特别限定。

步骤S140：根据所述对象分割图和所述目标掩膜图获取所述待检测对象中包含感兴趣目标的对象的信息。

在获得对象分割图以及目标掩膜图后，可结合对象分割图以及目标掩膜图获取待检测对象中包含感兴趣目标的对象的信息。可以理解地，由于目标掩膜图可以定位存在感兴趣目标的对象，所以，可以将目标掩膜图与对象分割图相乘(如将两个分割图中对应像素点的像素值相乘)，例如目标掩膜图在存在缺陷的像素点的像素值为1，其他不存在缺陷的像素点的像素值为0，这样和对象分割图相乘之后，获得的图像中存在缺陷的像素点的像素值为非0，其余不存在缺陷的像素点的像素值为0，这样就可以定位出对象分割图中哪些位置存在缺陷，从而可得到对象分割图中包含缺陷的待检测对象的信息，如获得缺陷图像，缺陷图像指示了包含缺陷的对象在对象分割图中的位置信息。例如，在对打印文件图像进行缺陷检测的场景下，可以检测获得对象分割图中存在缺陷的字符，如可以识别出具体是哪个字符存在缺陷，以及具有缺陷的字符的位置信息，如其位置信息包括字符在对象分割图中所在的行号(若输入图像中包括多行字符)，以及在所在行中的位置(如第几个字)等，或者还可以包括对象分割图中哪些字符没有缺陷等信息。

所以，在感兴趣目标为缺陷时，目标掩膜图即为缺陷对应的掩膜图，这样可根据对象分割图和目标掩膜图获取待检测对象中存在缺陷的对象的信息，从而可实现对缺陷对象的检测。可以理解地，对缺陷对象的检测方式适用于下述实施例中所描述的任意一种实施方式。

如在缺陷检测场景下，在获得目标掩膜图时，该目标掩膜图携带有该感兴趣目标的缺陷类别，其是通过对感兴趣目标进行缺陷检测获得的，在感兴趣目标为缺陷时，包含感兴趣目标的对象的信息则包括感兴趣目标的缺陷类别。可以基于图像特征将输入图像中存在缺陷的对象划分为多个缺陷类别，在字符缺陷检测场景下，其缺陷类别可以包括但不限于：字符模糊、字符未显示、字符部分显示等，其中，背景可以是指非缺陷的字符，或者可以是指图像中除字符区域外的其他区域等。

在上述实现过程中，通过获得输入图像中的感兴趣目标的目标掩膜图，然后再结合待检测对象的对象分割图，从而获得对包含感兴趣目标的对象的相关信息，无需人工参与检测，节省检测时间，且检测精度更高。

在一些实施方式中，在上述步骤S120中获取待检测对象的对象分割图的方式可以为：将图像特征输入至语义分割网络进行处理，获得针对待检测对象的对象掩膜图，基于图像特征获取输入图像中待检测对象的对象定位图，然后根据对象掩膜图和对象定位图获取待检测对象的对象分割图。

其中，对象掩膜图用于对输入图像中的待检测对象进行分割，其对象掩膜图是指像素值为0和1的二值图像，在一些实施方式中，对象掩膜图可具有N个通道，每个通道可用于分割一个待检测对象，N可以理解为是预定义的最大对象数，如最大字符数。也可以理解为对象掩膜图为每个待检测对象对应的对象掩膜图，这样可以根据各个对象掩膜图与对象定位图获取各个待检测对象的对象分割图。对象掩膜图的图像尺寸不小于对象定位图的尺寸，可以和输入图像的图像尺寸一样，也可以和对象定位图的图像尺寸一样。

对象定位图是指对输入图像中的待检测对象所在的区域进行分割获得的分割图，其图像尺寸一般小于输入图像的图像尺寸，对象定位图中包含有输入图像中少部分的背景信息，对输入图像进行分割的方式也可以是基于图像特征对输入图像进行语义分割或实例分割获得的，即对输入图像中的待检测对象进行分割，其分割后获得的对象定位图包含有输入图像中的所有待检测对象。当然，对象定位图可以为一张图像，此时其对象定位图中包括输入图像中的所有待检测对象；对象定位图可以为多张图像，此时其每张对象定位图中可以包括输入图像中的部分待检测对象，也即可以将输入图像中存在待检测对象的区域划分为多个对象定位图。

这里所说的对象分割图可以是指对每个待检测对象的分割图，所以将上述的对象掩膜图与对象定位图进行相乘，即可将对象定位图中的每个待检测对象分割出来，获得每个待检测对象对应的对象分割图。例如，若待检测对象为字符，对象定位图中包括字符A、B、C，则对象分割图包括A对应的分割图、B对应的分割图以及C对应的分割图，即每个字符对应一张对象分割图。

该实施方式中的语义分割网络可以采用任意的语义分割网络结构来实现，例如，SegNet、UNet等，利用语义分割网络可以对输入图像进行语义分割，使得分割更准确。

在一些实施方式中，语义分割网络可以包括至少一个下采样层和至少一个上采样层，在获得对象掩膜图的过程中，可以将图像特征输入至至少一个下采样层进行处理，获得下采样特征，然后再将下采样特征输入至至少一个上采样层进行处理，获得针对待检测对象的对象掩膜图。

可以理解地，上采样层和下采样层之间、或上采样层之后、或下采样层之前还可以加入其它网络结构用于提取特征，不仅仅是进行上采样和下采样来提取特征。

其中，下采样层可采用插值、卷积层等方式实现，如可通对卷积层对图像特征进行卷积处理。上采样层可以利用插值、反卷积等方式实现。在一些实施方式中，下采样层和上采样层可以为一个，在这种情况中，其图像特征先输入至下采样层进行下采样处理，获得下采样特征，然后再将通过下采样层处理后获得的下采样特征输入至上采样层，再通过上采样层处理后获得对应的上采样特征，利用该上采样特征可获得针对待检测对象的对象掩膜图。

在一些实施方式中，上述实施例中的至少一个下采样层可以包括N层，至少一个上采样层也包括N层，其中，第i上采样层的输入由上一个上采样层的输出与对应的第i下采样层的输出融合得到，第i上采样层与第i下采样层输出的特征具有相同分辨率，其中N为大于等于1的整数，i取1至N。

请参照图4，图4示出了一种语义分割网络的结构示意图，其中N取4，即下采样层包括4层，上采样层也包括4层。4层下采样层均通过卷积层实现，每层卷积层的参数可以不一致，如对于下采样层中从下到上的第一下采样层的参数为16通道，卷积核大小为7*7；第二下采样层的通道为32，卷积核大小为3*3；第三下采样层的通道为64，卷积核大小为3*3；第四下采样层的通道为64，卷积核大小为3*3；其每层卷积层输出的图像特征的分辨率逐渐由大变小。其中。每个下采样层的输出均作为下一个下采样层的输入。

每层上采样层采用插值方式进行特征提取，上采样层与下采样层的层数由从上到下编号，或者从下到上编号，以从下到上编号为例，第2下采样层的输入为第1下采样层的输出，第3下采样层的输入为第2下采样层的输出，第4下采样层的输入为第3下采样层的输出，第1上采样层的输入为第1下采样层的输出与第2上采样层的输出融合得到，第2上采样层的输入为第2下采样层的输出与第3上采样层的输出融合得到，第3上采样层的输入为第3下采样层的输出与第4上采样层的输出融合得到，第4上采样层的输入为第4下采样层的输出。

第1上采样层的输出还可以通过另外两个卷积层来生成对应的对象掩膜图，基于对象掩膜图与对象定位图即可获得对象分割图。

其中，属于同一层的上采样层和下采样层的分辨率相同，所以，上述的融合可以理解为是将上采样层与下采样层中属于相同分辨率的特征相加或拼接。

在上述实现过程中，将具有相同分辨率的特征进行融合后可以更好地提取输入图像中的特征，以便于后续实现对各个待检测图像的准确分割。

在一些实施方式中，为了更好地提取输入图像中的上下文信息，以便于进行更准确的分割，在获得下采样层输出的下采样特征后，还可以将下采样特征输入至循环神经网络(Recurrent Neural Network，RNN)模型，通过循环神经网络模型获取输入图像的序列特征，然后再将序列特征输入至至少一个上采样层进行处理。可以理解地，这种实施方式也适用于上述图4所示的网络结构。

可以理解地，通过循环神经网络模型可以对下采样特征进行编码，以进行上下文建模，即获得序列特征，该序列特征可用于表征输入图像中的上下文信息。也就是说，循环神经网络模型可捕捉下采样特征中各个特征点的上下文关系，以便于可以更好地获取输入图像的语义信息，实现对输入图像的准确分割。

然后可通过至少一个上采样层对序列特征进行处理，这样在利用对象掩膜图对对象定位图中的各个待检测对象进行分割时，可以按照各个待检测对象的顺序来依次对各个待检测对象进行分割，如一个对象掩膜图分割出一个字符。此时获得的对象分割图为各个字符对应的分割图，在获得感兴趣目标的信息时，可以将每个对象分割图分别与目标掩膜图进行相乘，这样即可知晓感兴趣目标所在的对象分割图是哪个，从而可知晓包含感兴趣目标的对象的位置信息，以及所在的行号(若有多行，则每行字符可对应一个对象定位图，此时每个对象定位图分割为多个对象分割图)，以及所在行的第几个字等信息。

在以上任意一种实施方式的基础上，上述确定目标掩膜图的方式还可以为：利用卷积神经网络模型基于图像特征确定目标掩膜图。

在一些实施例中，卷积神经网络模型可以输出针对感兴趣目标的目标掩膜图作为分割结果，如目标掩膜图中包含有用于指示感兴趣目标所属的缺陷类别的信息，从而基于目标掩膜图进行相关的运算，就可以分割出输入图像中属于每个缺陷类别的特征。

如目标掩膜图可以表示为G∈R^h×w×c，R表示实数域，G表示目标掩膜图，h×w表示分辨率，c表示缺陷类别数，即针对每个缺陷类别均可输出一张目标掩膜图，换言之，每张目标掩膜图对应一种类别的缺陷，这样在预测感兴趣目标所属的缺陷类别时，可以针对每种缺陷类别均输出对应的预测分数。

这样在进行缺陷检测时，可以结合目标掩膜图以及每个对象分割图，检测出对象分割图中的存在缺陷的感兴趣目标所属的缺陷类别。例如，可以将属于每个缺陷类别的目标掩膜图与单个对象分割图进行相乘，由于单个对象分割图中只包含单个待检测对象的像素，如目标掩膜图均可以为二值图像，其目标掩膜图中像素为1的像素位置表示为存在缺陷的位置，单个对象分割图中的像素值表示对应待检测对象所在的位置。例如，若将包含字符A的单个对象分割图与目标掩膜图进行相乘，获得的结果中若字符A对应的像素位置对应的像素值为非0，则表示该字符A存在对应目标掩膜图所表示的缺陷类别，即字符A具有对应缺陷类别的缺陷，若获得的结果中字符A对应的像素位置对应的像素值为0，则表示该字符A不存在缺陷。

同理，还可以将包含字符A的单个对象分割图与属于其他缺陷类别的目标掩膜图相乘，从而可判断字符A是否还具有其他缺陷类别的缺陷。对于其他待检测对象的检测也可以按照上述方式进行缺陷检测，从而可检测出每个待检测对象是否具有缺陷，以及在待检测对象具有缺陷时，其所属的缺陷类别，从而可实现对待检测对象更精确的缺陷检测。

上述在检测出具有缺陷的缺陷对象的信息后，可输出相关的提示信息，以提示工作人员具体的缺陷对象的信息，从而可在对输入图像进行后续处理前，及时发现缺陷，进而可对缺陷进行改进，以避免无法对输入图像进行后续处理的问题。

另外，在上述任意一种实施方式的基础上，在感兴趣目标为缺陷时，为了使得卷积神经网络模型可以更加准确地确定出目标掩膜图，还可以预先对卷积神经网络模型进行训练，其训练方式可如下过程所示：获取多张训练图像，每张训练图像中标注有具有缺陷的缺陷对象，然后利用训练图像对卷积神经网络模型进行训练。

当然，在每张训练图像中还可以对缺陷对象标注对应的缺陷类别，这样获得的目标掩膜图中可包含对应的缺陷类别。

而在实际应用过程中，为了提高卷积神经网络模型的精度，需要采集大量的训练图像，而采集大量的训练图像需要人工收集大量的包含有缺陷对象的图像，人工成本较大。本申请实施例中，为了减少人工成本，可以通过人工采集少量的图像，然后基于这少量的图像获取大量的训练图像，其具体实现过程如下：

获取K张初始图像，K为大于或等于1的整数，然后确定每张初始图像中具有缺陷的缺陷对象所在的区域，将每张图像中缺陷对象所在的区域进行擦除，获得空白区域，然后可获取模拟的与缺陷对象的缺陷类别不同的多个其他缺陷类别的缺陷对象，再将多个其他缺陷类别的缺陷对象分别与空白区域进行融合，获得J张训练图像，J为大于K的整数。

其中，K张初始图像可以为人工采集的标注有缺陷的图像，电子设备在获得K张初始图像后，可基于人工标注的缺陷区域，即可确定每张初始图像中具有缺陷的缺陷对象所在的区域。然后电子设备可采用腐蚀算法将具有缺陷的缺陷对象所在的区域进行擦除，如将缺陷对象所在的区域中的字符擦除，或者也可以采用相关的擦除工具，或者其他图像处理方法对存在缺陷的区域中的对象进行擦除，其擦除的具体实现过程在此不详细介绍。

在一些实施方式中，可以通过截断高斯分布对缺陷对象进行模拟，然后获得与缺陷对象的缺陷类别不同的多个其他缺陷类别的缺陷对象。如缺陷对象为字符“O·OFF”，若其在初始图像中对应的缺陷类别为模糊不清，此时，可通过截断高斯分布对上述的字符进行模拟，即通过截断高斯分布对包括该字符的图像进行相关处理，以获得其他属于其他缺陷类别的该字符，如图5所示，其他缺陷类别可以包括该字符小部分未显示完全、大部分未显示完全等。

在获得模拟的缺陷对象后，可将模拟出的每个缺陷对象与初始图像中的空白区域进行融合，其融合的方式可以为将模拟出的字符图像渲染到空白区域，然后生成一张新的图像；或者，融合方式也可以为将模拟出的字符图像粘贴到空白区域，然后生成一张新的图像；或者融合的方式也可以为将模拟出的字符图像中的像素点与空白区域中的像素点相加，以将模拟出的字符图像的像素融合到空白区域中，然后生成一张新的图像。按照该方式，可基于一张初始图像，获得多张新的图像，这些新的图像即可作为训练图像，其获得新的图像的过程可以如图6所示。

另外，为了获得更好的图像融合效果，可以采用图像增强算法来提供图像融合的质量，包括随机背景、几何变换和图像质量增强等方法。

可以理解地，上述对卷积神经网络模型的训练过程以及训练图像的获取过程是以缺陷检测为例说明的，对于其他应用场景下也可适用，如需对书法绘画图像中的特定着墨区域进行检测，则感兴趣目标为特定着墨区域，在对卷积神经网络模型进行训练时，其训练图像中包括具有特定着墨区域，且在获得训练图像时，也可以通过截断高斯分布对包括特定着墨区域的对象进行模拟，从而获得包括不同类型的着墨区域的对象，如此可实现训练图像的扩展。当然，在其他应用场景下，只是感兴趣目标不同，对于图像中对象的处理不同而已，大致原理是相同的，进行简单变换即可得到，为了描述的简洁，在此则不针对每个应用场景进行详细说明。

请参照图7，图7为本申请实施例提供的一种目标检测装置200的结构框图，该装置200可以是电子设备上的模块、程序段或代码。应理解，该装置200与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置200具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置200包括：

特征提取模块210，用于提取输入图像的图像特征；

对象分割图获取模块220，用于基于所述图像特征获取所述输入图像中的待检测对象的对象分割图；

目标掩膜图获取模块230，用于基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图；

信息检测模块240，用于根据所述对象分割图和所述目标掩膜图获取所述待检测对象中包含感兴趣目标的对象的信息。

可选地，所述对象分割图获取模块220，用于：

可选地，所述语义分割网络包括至少一个下采样层和至少一个上采样层，所述对象分割图获取模块220，用于将所述图像特征输入至所述至少一个下采样层进行处理，获得下采样特征；将所述下采样特征输入至所述至少一个上采样层进行处理，获得针对所述待检测对象的对象掩膜图。

可选地，所述对象分割图获取模块220，用于将所述下采样特征输入至循环神经网络模型，通过所述循环神经网络模型获取所述输入图像的序列特征；将所述序列特征输入至所述至少一个上采样层进行处理，获得针对所述待检测对象的对象掩膜图。

可选地，所述对象掩膜图为每个待检测对象对应的对象掩膜图，所述对象分割图获取模块220，用于根据各个对象掩膜图与所述对象定位图获取各个待检测对象的对象分割图。

可选地，所述目标掩膜图获取模块230，用于利用卷积神经网络模型基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图。

可选地，所述感兴趣目标为缺陷，所述装置200还包括：

可选地，所述训练模块，用于：

获取K张初始图像，K为大于或等于1的整数；

确定每张初始图像中具有缺陷的缺陷对象所在的区域；

需要说明的是，本领域技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再重复描述。

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图2所示方法实施例中电子设备所执行的方法过程。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：提取输入图像的图像特征；基于所述图像特征获取所述输入图像中的待检测对象的对象分割图；基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图；根据所述对象分割图和所述目标掩膜图获取所述待检测对象中包含感兴趣目标的对象的信息。

综上所述，本申请实施例提供一种目标检测方法、装置、电子设备及可读存储介质，通过获得输入图像中感兴趣目标的目标掩膜图，然后再结合待检测对象的对象分割图，从而获得对包含感兴趣目标的对象的信息，无需人工对感兴趣目标的相关信息进行检测，节省检测时间，且检测精度更高。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

提取输入图像的图像特征；

基于所述图像特征获取所述输入图像中的待检测对象的对象分割图；

基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图；

根据所述对象分割图和所述目标掩膜图获取所述待检测对象中包含感兴趣目标的对象的信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述图像特征获取所述输入图像中的待检测对象的对象分割图，包括：

3.根据权利要求2所述的方法，其特征在于，所述语义分割网络包括至少一个下采样层和至少一个上采样层，所述将所述图像特征输入至语义分割网络进行处理，获得针对所述待检测对象的对象掩膜图，包括：

4.根据权利要求3所述的方法，其特征在于，所述至少一个下采样层包括N层，所述至少一个上采样层包括N层，第i上采样层的输入由上一个上采样层的输出与对应的第i下采样层的输出融合得到，所述第i上采样层与第i下采样层输出的特征具有相同分辨率，N为大于等于1的整数，i取1至N。

5.根据权利要求3或4所述的方法，其特征在于，所述将所述下采样特征输入至所述至少一个上采样层进行处理，获得针对所述待检测对象的对象掩膜图，包括：

6.根据权利要求2所述的方法，其特征在于，所述对象掩膜图为每个待检测对象对应的对象掩膜图，所述根据所述对象掩膜图与所述对象定位图获取所述待检测对象的对象分割图，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述包含感兴趣目标的对象的信息包括所述感兴趣目标在所述对象分割图中的位置信息。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述感兴趣目标为缺陷，所述包含感兴趣目标的对象的信息包括所述感兴趣目标的缺陷类别。

9.根据权利要求1至8任一所述的方法，其特征在于，所述基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图，包括：

利用卷积神经网络模型基于所述图像特征获取所述输入图像中的感兴趣目标的目标掩膜图。

10.根据权利要求9所述的方法，其特征在于，所述感兴趣目标为缺陷，所述提取输入图像的图像特征之前，还包括：

利用所述训练图像对所述卷积神经网络模型进行训练。

11.根据权利要求10所述的方法，其特征在于，所述获取多张训练图像，包括：

获取K张初始图像，K为大于或等于1的整数；

确定每张初始图像中具有缺陷的缺陷对象所在的区域；

12.根据权利要求11所述的方法，其特征在于，所述获取模拟的与所述缺陷对象的缺陷类别不同的多个其他缺陷类别的缺陷对象，包括：

13.一种目标检测装置，其特征在于，所述装置包括：

特征提取模块，用于提取输入图像的图像特征；

14.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-12任一所述的方法。

15.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-12任一所述的方法。