CN113947613B

CN113947613B - 目标区域检测方法、装置、设备及存储介质

Info

Publication number: CN113947613B
Application number: CN202111573140.4A
Authority: CN
Inventors: 郭双双; 龚星; 侯嘉悦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-29
Anticipated expiration: 2041-12-21
Also published as: CN113947613A

Abstract

本申请公开了一种目标区域检测方法、装置、电子设备及存储介质，方法包括：对待检测图像进行特征提取，得到目标特征，对目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率；根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；对候选区域进行连通域分析处理，得到待检测图像的目标区域。通过采用本申请的上述检测方法，可以自动且快速检测出待检测图像中的目标区域。

Description

目标区域检测方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术中的计算机视觉技术领域，更具体地，涉及一种目标区域检测方法、装置、设备及存储介质。

背景技术

随着科学技术的进步，对于物体的外观、外包装或壳体等的安全检测也愈加广泛，如对于具有瑕疵的物品（如，有脏污、有破口或异常标记的物品）而言，通常需要对物品的瑕疵位置及时进行维修，以避免影响用户使用相应的物品。

现有技术中，检物品是否有瑕疵通常需要先采物品的图像，而采集物品的图像的工作是在固定位置上完成。目前，通常是固定机位上安装有摄像头和控制盒，通过控制盒内的控制器控制摄像头进行图像采集。之后对采集的物品的图像进行传输、存储、人工视验等一系列处理以检测物品是否有瑕疵。由于人工视验较大程度上依赖检验工程师的熟练程度，因此检测过程效率过低，检测时间较长，而且存在缺陷漏检的情况。

发明内容

鉴于上述问题，本申请实施例提出了一种目标区域检测方法、装置、设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种目标区域检测方法，该方法包括：获取待检测图像；对所述待检测图像进行特征提取，得到目标特征，对所述目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率；根据所述待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；对所述候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

第二方面，本申请实施例提供了一种目标区域检测装置，该装置包括图像获取模块、图像处理模块、区域确定模块以及处理模块。图像获取模块，用于获取待检测图像；图像处理模块，用于对所述待检测图像进行特征提取，得到目标特征，对所述目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率；区域确定模块，用于根据所述待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；处理模块，用于对所述候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

在一种可实施方式中，图像处理模块包括图像分割单元、线性处理单元、特征提取单元以及特征融合单元。其中，图像分割单元，用于对所述待检测图像进行图像分割，以得到空间上连续的N×M个窗格图像，其中，N和M分别为大于或等于1的整数；线性处理单元，用于对所述N×M个窗格图像进行线性变化处理，得到包括各窗格图像的特征的第一特征矩阵；特征提取单元，用于对所述第一特征矩阵中的每个窗格图像的特征分别再次进行特征提取得到第二特征矩阵；特征融合单元，用于将所述第二特征矩阵中各窗格图像再次提取的特征进行融合处理，得到目标特征。

在一种可实施方式中，特征提取单元，还用于计算所述第一特征矩阵中每个窗格图像的特征和该窗格图像空间上连续且相邻的相邻窗格图像的特征之间的特征相似度；根据各窗格图像对应的特征相似度调整该窗格图像提取到的特征，得到各窗格图像再次提取的特征；根据各窗格图像再次提取的特征得到第二特征矩阵。

在一种可实施方式中，图像处理模块，还用于对所述目标特征进行卷积处理，得到三维特征图；利用分类函数对所述三维特征图中各像素点的通道数进行分类计算，得到所述待检测图像中各像素点为目标区域的概率。

在一种可实施方式中，图像处理模块，还用于利用目标自回归模型对所述待检测图像进行特征提取，对提取的图像特征进行处理得到所述待检测图像中的各像素点为目标区域的概率，在该种实施方式下，目标区域检测装置还包括：样本获取模块和模型训练模块。其中，样本获取模块，用于获取样本图像集合，所述样本图像集合中包括样本图像，每张样本图像分别标注有目标区域的样本标签；模型训练模块，用于将所述样本图像集合中的各样本图像输入至初始自回归模型中，基于各样本图像对初始自回归模型进行训练，得到目标自回归模型。

在一种可实施方式中，模型训练模块包括结果预测单元、损失计算单元、图像选取单元以及模型训练单元。结果预测单元，用于将所述样本图像集合中的多个样本图像输入至初始自回归模型中，进行前向计算，得到各所述样本图像的目标区域预测结果；损失计算单元，用于将各样本图像的目标区域预测结果与对应的样本图像的目标区域的样本标签进行损失计算，得到各样本图像的损失值；图像选取单元，用于根据各所述样本图像的损失值选取目标样本图像；模型训练单元，用于根据各所述目标样本图像对应的损失值反向训练所述初始自回归模型，若达到训练结束条件，将训练后的初始自回归模型作为目标自回归模型。

在一种可实施方式中，图像选取单元，还用于从各所述样本图像中选取损失值在预设损失阈值范围内的目标样本图像。

在一种可实施方式中，处理模块，还用于对所述候选区域进行膨胀处理，得到膨胀处理后的候选区域；以及对膨胀处理后的候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

在一种可实施方式中，处理模块，还用于利用连通域分析算法对候选区域进行连通域分析处理，得到连通区域；以及利用多边形拟合算法对所述连通区域进行多边形拟合，得到目标区域。

在一种可实施方式中，图像获取模块，还用于获取手持摄像设备对目标物体进行拍摄得到的待检测图像，所述目标物体包括集装箱或门板。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上述的目标区域检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如上述的目标区域检测方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质获取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。

本申请实施例提供的一种目标区域检测方法、装置、电子设备及存储介质，通过对待检测图像进行特征提取，得到目标特征，对所述目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率，根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；从而实现对待检测图像中的目标区域进行自动检测。通过对候选区域进行连通域分析处理，得到待检测图像的目标区域，可以准确确定出待检测图像中目标区域的位置。进而实现了自动且快速检测出待检测图像中的目标区域。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2是根据本申请的一个实施例示出的目标区域检测方法的流程图；

图3示出了本申请提供的一待检测图像；

图4示出了本申请实施例提供的一种自回归模型的训练流程图；

图5示出了图4中步骤S124的流程示意图；

图6示出了基于图3获得的候选破口区域的图像；

图7示出了对包括两个距离较近的候选区域膨胀进行处理前后的示意图；

图8示出了对图3中的待检测图像进行破口区域检测得到的拟合曲线围合形成的目标破口区域；

图9是根据本申请的另一实施例示出的目标区域检测方法的流程图；

图10示出了图9中步骤S240的流程示意图；

图11是根据本申请的实施例提出的一种自回归模型的模型结构示意图；

图12是根据本申请的实施例提出的一种自回归模型的另一模型结构示意图；

图13是根据本申请的另一实施例示出的目标区域检测方法的流程示意图；

图14示出了本申请提供的另一待检测图像；

图15示出了本申请提供的又一待检测图像；

图16示出了本申请提供的对图14中的待检测图像进行破口区域检测得到的检测结果；

图17示出了本申请提供的对图15中的待检测图像进行破口区域检测得到的检测结果；

图18是根据本申请的另一实施例示出的目标区域检测方法的流程示意图；

图19示出了本申请提供的另一待检测图像；

图20示出了本申请提供的对图19中的待检测图像进行损坏区域检测得到的检测结果；

图21是根据本申请的一实施例示出的目标区域检测装置的连接框图；

图22示出了适于用来实现本申请实施例的电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，并发挥越来越重要的价值。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。以人工智能应用在机器学习上为例进行说明：

其中，机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请的方案主要是机器学习对待检测图像中的目标区域进行检测识别。

在进行具体说明之前，对本申请涉及的术语进行如下解释：

待检测图像：待检测图像是指对目标物体，如车辆、集装箱、门板以及设备的壳体或外包装进行图像采集得到的图像。通过对该待检测图像进行目标区域检测，可以用于确认目标物体是否存在目标区域。目标区域可以是划痕区域、破口区域、凹陷区域、脏污区域等等。其中，上述的待检测图像为2D图像，2D图像又叫平面图形，2D图像只有X轴向与Y轴向，在本方案的实施例中，2D图像和RGB图像的含义相同。

图像特征：图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征等。其中，颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质，是基于像素点的特征。纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质，其与颜色特征不同，纹理特征不是基于像素点的特征，它需要在包含多个像素点的区域中进行统计计算。形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域。空间关系特征，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等，通常空间位置信息可以分为两类：相对空间位置信息和绝对空间位置信息。前一种关系强调的是目标之间的相对情况，如上下左右关系等，后一种关系强调的是目标之间的距离大小以及方位。

膨胀处理：其中，膨胀处理是形态学算法里的一种基本操作，即求局部最大值的操作，计算指定核覆盖的区域（体现局部）的像素点的最大值，并把这个最大值赋值给参考点指定的像素，使图像中的高亮区域逐渐增长。

连通域分析处理：连通与分析处理是非常常见的图像处理操作。连通区域分析处理一般是针对二值图像，将具有相同像素值且相邻的像素找出来并标记成一块区域，进一步的我们就可以获取这些块区域的轮廓、外接矩形、质心、不变矩等几何参数。

自回归模型：即使用当前自己预测的结果再去预测接下来的信息的模型。在本方案中，自回归模型可以是Transformer网络模型，Transformer网络模型在预测阶段（机器翻译任务）会先预测第一个结果，然后在第一个结果的基础上接下来再去预测后面的结果，是典型的自回归模型。Transformer网络模型常用于机器翻译、文本分类、看图说话、语音识别、图像分割等任务。可以通过依赖自注意力机制来计算输入和输出的表示。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图1是根据本申请一实施例示出的应用场景的示意图，如图1所示，该应用场景包括摄像设备10和通过网络与摄像设备10通信连接的服务器20，网络多可以是广域网或者局域网，或者是二者的组合。摄像设备10可以是智能手机、平板电脑或任意具有摄像头且便于采集目标物体图像的设备。图1中仅示出了摄像设备为智能手机的示意图。

智能手机用于对目标物体进行图像采集，得到待检测图像，并发送至服务器。服务器在获取到待检测图像时，对待检测图像进行特征提取，得到目标特征，对所述目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率，并根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；对候选区域进行膨胀处理，得到膨胀处理后的候选区域；对膨胀处理后的候选区域进行连通域分析处理，得到待检测图像的目标区域。服务器在获得待检测图像的目标区域之后，还可以向智能手机反馈待检测图像的目标区域。以使智能手机显示待检测图像的目标区域。从而便于用户根据智能手机显示的待检测图像的目标区域及时对该待检测图像对应的物体进行处理。

应当理解，摄像设备还可以在采集到待检测图像之后，还可以执行后续的目标区域检测过程从而得到待检测图像中的目标口区域，也即摄像设备可以执行上述服务器中的目标区域检测的方法步骤。

图2是根据本申请的一个实施例示出的目标区域检测方法的流程图，该方法可以由具备处理能力的电子设备执行，例如服务器、摄像设备、或者由服务器和摄像设备交互实现本方案等，在此不进行具体限定。参照图2所示，该方法至少包括步骤S110至S140，详细介绍如下：

步骤S110，获取待检测图像。

其中，待检测图像是指利用摄像设备对目标物体进行图像采集获得的图像。其中，目标物体可以是车辆、集装箱、门板、某设备的壳体或者外包装等。

获取待检测图像的方式可以是，从服务器中获取待检测图像，也可以是从与服务器关联的存储设备中获取待检测图像，还可以是接收摄像头或者设置有摄像头的设备采集的待检测图像。应当理解，上述的待检测图像还可以有更多的获取方式，此处不作具体限定。

摄像设备可以是手持摄像设备或安装于固定位置的摄像头，也可以是任意具有图像采集功能的设备。

在本申请的一种可实施方式中，上述步骤S110具体可以是：获取手持摄像设备对目标物体进行拍摄得到的待检测图像。

其中，上述的手持摄像设备可以是手持摄像头、移动终端、平板电脑或任意具有图像采集功能的摄像设备。只要便于用户在任意时刻使用手持摄像设备采集目标物体的图像即可。

示例性的，如图3所示，是利用手持摄像设备对集装箱进行采集得到的待检测图像，该待检测图像具有破口区域A。

步骤S120：对待检测图像进行特征提取，得到目标特征，对所述目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率。

由于对待检测图像进行特征提取得到的目标特征通常包括待检测图像的颜色特征、纹理特征、形状特征以及空间关系特征等。而目标区域和非目标区域的颜色特征和纹理特征等的表现通常各不相同。以目标区域为破口区域为例，当拍照时有光线照射在具有破口区域的物体上时，物体上的非破口区域会反射光线，而光线会射入破口区域，因此采集到的具有破口的图像中，破口区域出像素点的像素值与非破口区域的像素值差异较大。此外，采集到具有破口的图像中非破口区域的纹理是连续且具有一定规则的，而破口区域通常不具备纹理。因此，通过对目标特征进行处理，即可确定待检测图像中各像素点为破口区域的概率或者待检测图像中各像素点是否为破口区域对应的像素点。类似的，若目标区域为有脏污的区域，则光线照射在有脏污或者无脏污的区域上时，也会有与照射在破口区域和非破口区域上类似的反应，有脏污的区域和无脏污的区域纹理特征上也具有与破口区域和非破口区域上类似的情况，因此，通过对提取的目标特征进行处理，也可以确定待检测图像中各像素点是否为脏污区域的概率。

其中，对待检测图像进行特征提取，可以是利用网络模型来提取。对提取的图像特征进行处理得到待检测图像中个像素点为目标区域的概率，可以由上述提取特征的网络模型来执行，也可以是由区别于上述提取特征的网络模型的其他网络模型来执行，还可以是基于某些固定的算法或软件程序来执行。

在本申请的一种可实施例中，电子设备中可以存储有预先训练的网络模型，上述步骤S120可以是，基于预先训练的网络模型来提取目标特征以及对目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率，具体执行步骤120时，可以基于预先训练的网络模型，以待检测图像为输入参数，对待检测图像进行特征提取，得到待检测图像的目标特征。

上述预先训练的网络模型可以是训练得到的卷积网络模型、训练得到的自回归模型、训练得到的对比学习模型或者训练得到的递归神经网络模型等等。

请参阅图4，在本申请的一种可实施方式中，上述步骤S120具体可以利用训练得到的自回归模型（目标自回归模型）对待检测图像进行特征提取，对提取的图像特征进行处理得到待检测图像中的各像素点为目标区域的概率，目标自回归模型通过以下方式训练得到：

步骤S122：获取样本图像集合，样本图像集合中包括样本图像，每张样本图像分别标注有目标区域的样本标签。

其中，样本图像可以是对目标物体，如集装箱、门板、设备的外壳或包装盒等进行图像采集得到的图像。应当理解，样本图像集合中包括的样本图像的数量应当为多张。

步骤S124：将样本图像集合中的各样本图像输入至初始自回归模型中，基于各样本图像对初始自回归模型进行训练，得到目标自回归模型。

其中，上述步骤S124具体可以是，获取样本图像集合中的多张样本图像，将多张样本图像分别输入至初始自回归模型进行预测得到目标区域的预测结果，目标区域的预测结果和样本图像中标记的目标区域的样本标签得到损失值，根据损失值调整初始自回归模型的模型参数，得到调整后的初始自回归模型。若模型损失未收敛时，则返回执行从样本集合中获取多张样本图像，直至模型收敛或者对样本图像结合中的所有样本图像均进行训练后，得到目标自回归模型。

为提高目标自回归模型对于难例图像的目标区域检测（其中，难例图像是指目标区域不明显也即难以分辨是否有目标区域的图像），请参阅图5，在本实施例中，上述步骤S124可以包括：

步骤S1241：将样本图像集合中的多个样本图像输入至初始自回归模型中，进行前向计算，得到各样本图像的目标区域预测结果。

其中，将样本图像集合中的多个样本图像输入至初始自回归模型进行前向计算是指，利用初始自回归模型对上述的多个样本图像分别进行目标区域检测，得到各样本图像中的目标区域预测结果。

步骤S1242：将各样本图像的目标区域预测结果与对应的样本图像的目标区域的样本标签进行损失计算，得到各样本图像的损失值。

步骤S1243：根据各样本图像的损失值选取目标样本图像。

根据各样本图像的损失值选取目标样本图像的方式可以是：从多个样本图像中剔除损失值过大和/或损失值过小的损失函数对应的样本图像以得到目标样本图像。

具体的，在本申请的一种可实施方式中，根据各样本图像的损失值选取目标样本图像的方式可以是：从各样本图像中选取损失值在预设损失阈值范围内的目标样本图像。也即，从多个样本图像中剔除损失值过大以及损失值过小的损失函数对应的样本图像，得到目标样本图像。

其中，关于预设损失阈值范围中的最大值和最小值此处不作具体限定，根据实际需求进行限定即可。

通过采用上述目标样本图像的选取方式，可以有效降低容易样本（容易识别目标区域的样本图像）的比例，从而可以解决对初始自回归模型进行训练的过程中被大量容易样本主导的问题，也可以避免过拟合极度困难的样本（难以识别目标区域的样本），促使初始自回归模型对所有样本图像有更均衡的学习表征能力。

步骤S1244：根据各目标样本图像对应的损失值反向训练初始自回归模型。

其中，上述步骤S1244具体可以是，根据各目标样本图像对应的损失值，调整初始自回归模型的模型参数，从而实现反相训练初始自回归模型。

步骤S1245：若达到训练结束条件，将训练后的初始自回归模型作为目标自回归模型。

上述的训练结束条件可以是，对样本图像集合中的所有样本图像均完成训练时，达到训练结束条件，也可以是当初始自回归模型收敛时达到训练结束条件。

应当理解，若未达到训练结束条件，则可以返回步骤S1241，也即再次将样本图像集合中的多个样本图像输入至初始自回归模型中，进行前向计算，得到各样本图像的目标区域预测结果。

通过采用上述利用难例样本促使初始自回归模型对所有样本图像有更均衡的学习表征能力。从而可以使获得的目标自回归模型可以对待检测图像进行更精准的目标区域检测。

其中，上述的目标自回归模型具体可以包括Transformer网络。其中，Transformer网络是一类使用广泛的深度自注意力变换网络。该网络旨在处理序列到序列的任务，同时可轻松处理长期依赖问题，并可以通过依赖自注意力机制来计算输入和输出的表示。

上述的目标自回归模型除了可以包括Transformer网络之外，还可以包括还包括全连接层和Softmax层。只要能使目标自回归模型可以对待检测图像进行特征提取，以及对提取的图像特征进行处理得到待检测图像中的各像素点为目标区域的概率即可。

应当理解，上述的自回归模型还可以包括其他的网络结构，此处不作一一赘述。

在对目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率时，对目标特征进行处理得到三维特征图的方式具体可以是：对目标特征图进行卷积处理，得到三维特征图；也可以是，对目标特征图进行空间映射，得到三维特征图。

其中，待检测图像的三维特征图包括图像的宽、高以及通道数三个维度的参数。

根据三维特征图中各维度的参数，得到待检测图像中各像素点为目标区域的概率的方式可以有多种。

在一种可实施方式中，具体可以是利用分类函数对三维特征图中的通道数进行分类计算，得到待检测图像中各像素点为目标区域的概率。上述的分类函数具体可以是softmax函数或sigmoid函数等，根据实际需求进行选取即可。

在另一种可实施方式中，通过根据三维特征图的宽、高以及通道数确定待检测图像中每个像素点的像素值，根据每个像素点的像素值可以获得每个像素点为目标区域的概率。其中，电子设备中可以存储有像素值与概率之间的对应关系，该对应关系中包括不同像素值对应为目标区域的概率，通过查询该对应关系，即可获得每个像素点为目标区域的概率。

步骤S130：根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域。

在本实施例中，上述根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域的方式可以是，将待检测图像中像素点为目标区域的概率大于预设概率阈值的像素点确定为候选区域的像素点，并根据候选区域的像素点获得候选区域。

其中，根据候选区域的像素点获得候选区域的方式可以是，对空间上连续的至少预设数量的候选区域的像素点进行拟合，其中，拟合得到的区域即为候选区域。上述的预设数量具体可以是5、10、20或30等等，在本实施例中不作具体限定。

示例性的，如图6所示，是对图3采用如上述的步骤S120-S130的处理之后，获得的待检测图像中的候选破口区域B。

步骤S140：对所述候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

应当理解，为使获得的待检测图像中的目标区域更准确，还可以对进行连通域分析处理后的区域进行处理，如进行多边形拟合以得到待检测图像的目标区域。

具体的，在一种可实施方式中，上述步骤S140可以是：利用连通域分析算法对候选区域进行连通域分析处理，得到连通区域；利用多边形拟合算法对连通区域进行多边形拟合，得到待检测图像中的目标区域。

通过待检测图像中的连通域进行多边形拟合，可以获得其矢量化表达信息，也即可以得到待检测图像中目标区域的具体位置信息，便于后续业务流程使用。

为进一步使获得的目标区域更准确，在本实施例中，上述步骤S140还可以是：对所述候选区域进行膨胀处理，得到膨胀处理后的候选区域；对膨胀处理后的候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

其中，通过对候选区域进行膨胀处理，可以有效消除拍摄视角过大导致图片上的缺陷很小，甚至模糊不清的情况。

在对候选区域进行膨胀处理时，具体可以是，对候选区域利用膨胀算法进行处理，从而在待检测图像中具有多个距离较近的目标区域时（其中，距离较近是指目标区域之间的最短距离小于某一距离阈值，如几厘米或几毫米等），在利用膨胀算法进行膨胀处理后，使多个距离较近的多个目标区域连接为一个整体。

示例性的，如图7中的a所示是对待检测进行检测得到的该图像中的两个距离较近的候选区域a1和a2，通过对图7中的a所示的两个候选区域a1和a2进行膨胀处理，即可得到如图7中的b所示的膨胀处理后的候选区域b1，可以看出，通过对检测得到的候选区域进行膨胀处理，可以是距离较近的多个候选区域连接成为一个整体。

在本实施例中，膨胀处理后的候选区域中，包括多个像素点，通过利用连通与域分析算法对膨胀处理后的候选区域中具有像素值差异较小且相邻的像素找出来并标记成一块区域，进一步的我们就可以获取这些块区域的轮廓、外接矩形、质心、不变矩等几何参数，从而得到待检测图像的连通域，其中，该连通域可以表征待检测图像中的目标区域的具体位置。

应当理解，为使获得的待检测图像中的目标区域更准确，还可以对进行连通域分析处理后得到的区域进行处理，如进行多边形拟合以得到待检测图像的目标区域。

如图8所示，图8中的曲线C是对图6中的候选破口区域B采用如上述步骤S140进行处理得到的多边形拟合曲线，该多边形拟合曲线围合形成的区域即为目标破口区域。

本申请提供的目标区域检测方法，对待检测图像进行特征提取，得到目标特征，对目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率，根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；从而实现对待检测图像中的目标区域进行自动检测。通过对候选区域进行连通域分析处理，准确确定出待检测图像中目标区域的位置。进而实现了自动且快速检测出待检测图像中的目标区域。

进一步的，本申请在对待检测图像进行特征提取，对提取的图像特征进行处理得到待检测图像中的各像素点为目标区域的概率时，具体利用目标自回归模型来执行，且目标自回归模型是利用损失值在预设损失值范围内的目标样本图像训练得到，从而有效避免了对目标区域的检测受制于目标物体的颜色、目标区域的形状、目标区域的大小、目标区域在图像中的位置、拍照角度等的影响，可以使目标自回归模型能够更精准地检测待检测图像中的目标区域。更进一步的，待检测图像可以由手持摄像设备进行采集，使得申请的目标区域检测方法还可以应对复杂实际业务场景，极大提高了目标区域检测方法的使用范围和检测便利性。通过对候选区域进行膨胀处理，得到膨胀处理后的候选区域，对膨胀处理后的候选区域进行连通域分析处理，得到待检测图像的目标区域，可以实现对使待检测图像中距离较近的相邻目标区域连通后最终确定目标区域在待检测图像中的具体位置。

请参阅图9，本申请另一实施例提供的可应用于电子设备的一种目标区域检测方法，该方法包括：

步骤S210：获取待检测图像。

步骤S220：对待检测图像进行图像分割，以得到空间上连续的N×M个窗格图像。

其中，N和M分别为大于或等于1的整数；对待检测图像进行分割得到的N×M个窗格图像中，各窗格图像的形状大小可以相同，且空间上连续的多个窗格图像是指要求所划分得到的窗格图像对应的区域作为个体保持空间连续性，不可分离也不可重复。

步骤S230：对N×M个窗格图像进行线性变化处理，得到包括各窗格图像的特征的第一特征矩阵。

其中，线性变化处理，是指把线性映射写成具体而简明的2维数阵形式后，就成了一种矩阵。上述对N×M个窗格图像进行线性变化处理，得到包括各窗格图像的特征的第一特征矩阵的方面是，可以是。利用傅里叶变换、离散余弦变换或者主分量分析等方式对N×M个窗格图像进行线性变化处理，得到包括各窗格图像的特征的第一特征矩阵。

步骤S240：对第一特征矩阵中的每个窗格图像的特征分别再次进行特征提取得到第二特征矩阵。

上述对第一特征矩阵中的每个窗格图像的特征分别再次进行特征提取利用HOG特征（方向梯度直方图特征）提取方式进行特征提取，或者LBP特征（局部二值模式特征）提取方式提取特征等，本申请不作具体限定，只要能够提取到更准确且更精细的各窗格图像的特征即可。

请参阅图10，在一种可实施方式中，上述步骤S240具体可以包括：

步骤S242：计算第一特征矩阵中每个窗格图像的特征和该窗格图像空间上连续且相邻的相邻窗格图像的特征之间的特征相似度。

步骤S244：根据各窗格图像对应的特征相似度调整该窗格图像提取到的特征，得到各窗格图像再次提取的特征。

其中，根据各窗格图像对应的特征相似度调整该窗格图像提取到的特征的方式可以是，根据各窗格图像对应的特征相似度从预设相似度调整关系中获得各窗格图像对应的调整阈值、调整比例或者调整计算式，以根据获得的调整阈值、调整比例或者调整计算式调整该窗格特征。

步骤S246：根据各窗格图像再次提取的特征得到第二特征矩阵。

需要说明的是，根据各窗格图像再次提取的特征得到第二特征矩阵可以是，将各窗格图像再次提取的特征按照特征矩阵的方式进行排列即可得到第二特征矩阵，也即第二特征矩阵中的元素对应一个窗格图像再次提取的特征。

通过采用上述步骤S242-246，实现了针对每一个窗格图像，都计算了它与相邻窗格图像相似程度，然后基于该相似程度和窗格图像的特征得到新的特征（即目标特征）作为该窗格图像的特征表达，通过这样的策略，使得每个窗格图像的特征具有了全局建模的能力。避免利用局部信息进行判断，然后依赖于大量人工设计准则的情况，从而解决了窗格图像的特征提取结果易受到局部噪声影响的问题。

步骤S250：将第二特征矩阵中各窗格图像再次提取的特征进行融合处理，得到目标特征。

其中，上述的目标特征具体可以是一融合特征矩阵，且特征融合是融合不同尺度的特征是提高分割性能的一个重要手段。低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。如何将两者高效融合议提取准确的特征，是改善模型的关键。上述对特征进行融合处理时，可以采用基于贝叶斯理论的特征融合算法进行融合，也可以是采用系数标识理论的特征融合算法，还可以是基于深度学习的特征融合算法。此处不作具体限定，根据实际需求进行设置即可。

在本实施例中，为保障最终获得的目标特征（融合特征矩阵）具有更高的分辨率和更多的位置细节等信息，在执行将第二特征矩阵中各窗格图像再次提取的特征进行融合处理，得到目标特征（融合特征矩阵）之后，方法还包括，将融合特征矩阵作为新的第一特征矩阵，并返回执行步骤S240，直至融合次数达到预设次数时，执行后续步骤。从而在第二特征矩阵进行融合处理得到融合特征时，获得融合特征矩阵（也即待检测图像的目标特征）更准确。

需要说明的是，上述步骤S220-步骤S250，具体可以是由目标自回归模型执行。应当理解，上述的目标自回归模型的具体训练过程可以参阅前述实施例中的具体描述。

示例性的，当目标自回归模型包括Transformer网络和softmax层，如图11所示，是目标自回归模型的结构示意图，其中，在文本Transformer网络包括patch partition层（图像分割层）、Liner Embedding层（线性变化层）、多个Transformer Block层（也即多个转换器层）以及多个patch merging层（多个图像融合层），其中Transformer Block层与patchmerging层的数量相同，且依次间隔设置，也即每个Transformer Block层之后连接了一个patch merging层。其中，softmax层连接于最后一个patch merging层，用于输出候选区域。

当采用包括Transformer网络和softmax层的目标自回归模型执行上述步骤S220-S250时，对于输入到目标自回归模型的待检测图像，Transformer网络的patch partition层对图像进行划分得到N×M个窗格图像，使获得的N×M个窗格图像在空间上连续。在patchpartition层完成对待检测图像的分割之后，依次对第一行的窗格图像从左到右输入至Liner Embedding层后，在依次对第二行的窗格图像从左到右依次输入至Liner Embedding层，直至完成将N×M个窗格图像输入输入到Liner Embedding层，以使Liner Embedding层对输入的N×M个窗格图像进行线性变化，以增强特征表达，得到一个包括每个窗格图像的第一特征矩阵。在Liner Embedding层获得N×M个窗格图像的第一特征矩阵后，将第一特征矩阵输入至Transformer Block层，Transformer Block层对第一特征矩阵中的各窗格图像的特征再次进行特征提取，以得到第二特征矩阵，并将第二特征矩阵输入至patch merging层，patch merging 层对第二特征矩阵进行特征融合处理得到融合特征矩阵（其中，patchmerging 层将各个窗格图像的特征进行融合得到的融合后窗格图像的数量相比于融合前的窗格图像的数量会逐渐减少，类似的，patch merging 层在融合处理时可能会将相邻的每一排的几个窗格图像进行融合得到新的窗格图像，或者将每一列的某几个窗格图像进行融合得到新的窗格图像，相应的，通过融合处理，可以得到新的窗格图像的特征，也即得到融合特征矩阵），patch merging 层在获得融合特征矩阵之后，可以将融合特征矩阵输入至与其相邻的下一Transformer Block层，应当理解，Transformer Block层和patch merging层的数量有多少，就会执行多少次的融合处理，通过采用Transformer Block层和patchmerging 层交替执行特征提取和特征融合，一方面可以减少窗格图像，另一方面可以获得更高层次的目标特征（更准确且精细的目标特征）。

因此，基于上述分析可知，当Transformer Block层和patch merging 层为多层时，上述步骤S240和步骤S250会执行多次，也即，在将第二特征矩阵中各窗格图像再次提取的特征进行融合处理，得到目标特征（融合特征矩阵）之后，可以将融合特征矩阵作为新的第一特征矩阵，并返回执行步骤S240，直至执行次数达到上述Transformer Block层和patch merging 层的层数时，执行次数为最后一次获得的融合特征矩阵即为待检测图像的目标特征，也即Transforme网络的最后一层patch merging 层输出的融合特征矩阵即为待检测图像的目标特征。

还应当说明的是，当Transformer Block层和patch merging 层为多层时时，不同Transformer Block层的结构相同但不同Transformer Block层之间的参数不共享，同样的不同patch merging 层的结构相同但不同patch merging层之间的参数不共享。

此外，请参阅图12，还应当说明的是，在本实施例中，Transformer Block层中主要包含了注意力模块和与注意力模块相连的前馈神经网络，在本实施例中，注意力模块具体可以用一个multi head self attention层（多头自注意力层）来表示，前馈神经网络具体可以用一个LayerNorm层来（归一化层）来表示，其中，注意力模块中包含了三个预设的权重矩阵，三个预设的权重矩阵分别用于生成各个窗格图像的特征的查询向量、键向量和值向量。

在认知神经学中，注意力是一种人类不可或缺的复杂认知功能，指的是人们可以在关注一些信息的同时忽略另一些信息的选择能力。在日常生活中，人们可以通过视觉、听觉、触觉等方式接收大量的感觉输入，但是大脑还可以在大量外界信息的轰炸中有条不紊地工作，这是因为大脑可以有意或者无意地从大量的输入信息中选择小部分的有用信息进行重点处理，并忽略其他信息，例如，人们在阅读时，通常只有少量要的词被关注和处理。类似地，注意力机制也可以让神经网络具备专注于其输入特征的能力，即选择特定的输入特征，这样在有限的计算能力下，采用注意力机制将计算资源分配给更重要的任务，有效解决信息超载的问题。

在本申请实施例中，为了加快处理速度，LayerNorm层可以先对第一特征矩阵进行归一化处理，从而可以加速网络模型的训练过程并提高过拟合能力，之后，将归一化处理后的第一特征矩阵输入到注意力模块（多头自注意力层）中，得到每个窗格图像的特征的注意力权重，再根据每个窗格图像的特征的注意力权重，确定窗格图像的特征；若文本Transformer网络中存在多个注意力模块，将特征矩阵分别输入到各个注意力模块中，在获得各个注意力模块针对各个窗格图像对应的特征之后，将同一窗格图像的多个特征相加，将相加后得到的特征作为同一窗格图像的目标特征输出。

具体的，通过采用注意力模块，若任意一个窗格图像的特征为Q，与该窗格图像空间上连续且相邻的相邻窗格图像的特征为K，则可以计算该窗格图像的特征Q和相邻窗格图像的特征K之间的相似度V，从而正对针对任一一个窗格图像的特征Q、该窗格图像的相邻窗格图像的特征K以及Q和K之间的相似度V计算采用如下softmax分类损失函数计算式计算注意力权重，其中，计算式为：

，注意力权重为

，T是代表对相邻窗格图像的特征求取转置，

是指根据相邻窗格图像的特征计算得到的归一化值。通过采用上述获得的窗格图像的注意力权重可以调整该窗格图像的特征得到窗格图像的目标特征，从而使获得的窗格图像的目标特征更准确。也即通过采用上述过程，可以获得各窗格图像再次提取后的特征，从而可以得到第二特征矩阵。应当理解，窗格图像的相邻图像可以是一个也可以是多个，当为多个时，可以对多个相邻窗格图像分别采用上述的处理方式，并根据相邻窗格图像的数量为每个相邻窗格图像的注意力权重设置权重，从而根据设置权重后的各相邻图像的注意力权重调整窗格图像的特征，以得到更准确的窗格图像的目标特征。也即可以得到更准确的第二特征矩阵。

步骤S260：对目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率。

具体的，在本实施例中，通过将Transforme网络的最后一层patch merging 层输出的融合特征矩阵输入至softmax层，可以使softmax层对融合特征矩阵进行卷积处理，得到一个三维的特征图，该三维的特征图中，包括三维的特征图具体包括图像的宽、高以及通道数这三个维度的参数，其中，通道数维度用于确定对应的像素点的像素值，softmax层具体可以利用softmax分类函数根据待检测图像中各像素点的像素值具体确定待检测图像中各像素点为目标区域的概率。

步骤S270：根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域。

步骤S280：对候选区域进行连通域分析处理，得到待检测图像的目标区域。

本申请提供的一种目标区域检测方法，通过对所述待检测图像进行图像分割，以得到空间上连续的N×M个窗格图像，对所述N×M个窗格图像进行线性变化处理，得到包括各窗格图像的特征的第一特征矩阵；对所述第一特征矩阵中的每个窗格图像的特征分别再次进行特征提取得到第二特征矩阵；将所述第二特征矩阵中各窗格图像再次提取的特征进行融合处理，得到融合特征矩阵；的过程中，通过对待检测图像中划分得到的窗格图像进行多次特征提取，以使提取到的特征更准确，从而在对提取的特征进行融合时逐渐减小待检测图像的特征图大小（融合窗格图像以减少窗格图像的数量）同时不断获得更高层次的图像特征（也即更详细且更准确的特征），从而在对所述融合特征矩阵进行处理，得到所述待检测图像中各像素点为目标区域的概率，并根据所述待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域时，获得的候选区域更准确。通过对候选区域进行连通域分析处理，得到待检测图像的目标区域，可以实现准确确定出待检测图像中目标区域的位置。实现了自动且快速检测出待检测图像中的目标区域。

进一步的，在对第一特征矩阵中的每个窗格图像再次进行特征提取时，针对每一个窗格图像，都计算了它与相邻窗格图像相似程度，然后基于该相似程度和窗格图像的特征得到新的特征（即目标特征）作为该窗格图像的特征表达，通过这样的策略，使得每个窗格图像的特征具有了全局建模的能力。避免利用局部信息进行判断，然后依赖于大量人工设计准则的情况，从而解决了窗格图像的特征提取结果易受到局部噪声影响的问题，从而在对各窗格图像的目标特征进行融合处理得到融合特征时，获得融合特征矩阵（也即待检测图像的目标特征）更准确。

请参阅图13，以待检测图像为用户使用具有摄像功能的移动终端对集装箱进行拍摄得到的集装箱图像为包括如图14和图15所示的待检测图像，且具体需要检测的目标区域为破口区域为例，本申请提供的一种可应用于包括移动终端和服务器的目标区域检测方法，该方法包括：

S310：移动终端在采集到集装箱图像时，将集装箱图像发送至服务器。

其中，移动终端中采集的集装箱可以是如图14或如图15所示的图像，从图14和图15可以看出，采集的集装箱图像的破口区域不明显，仅在图14中的D1所指位置，以及图15中的E1所指位置可能存在破口。

其中，服务器中部署有目标自回归模型，且该目标自回归模型是基于海量的样本图像利用包括Transformer网络和softmax层的初始自回归模型训练获得，且训练过程中，是利用包括海量样本图像的样本图像集合，对初始自回归模型训练得到，各样本图像分表标注有破口区域的样本标签，训练过程中，具体是：将样本图像集合中的多个样本图像输入至初始自回归模型中，进行前向计算，得到各样本图像的破口区域预测结果，将各样本图像的破口区域预测结果与对应的样本图像的破口区域的样本标签进行损失计算，得到各样本图像的损失值，并从各样本图像中选取损失值在预设损失阈值范围内的目标样本图像，根据各目标样本图像对应的损失值反向训练初始自回归模型；以及在达到训练结束条件，将训练后的初始自回归模型作为目标自回归模型。使得获得的目标自回归模型能够对于破口不明显的图像也能准确识别，且识别结果更准确。

服务器通过部署上述的目标自回归模型，可以在利用该目标自回归模型进行破口区域检测时，有效避免因集装箱上某些破口发生的区域很小，有时候肉眼甚至都难以观察时造成的破口区域漏检的情况，以及有效消除拍摄到的集装箱图像的质量欠佳，存在光照不足、图片模糊、拍摄角度多种多样、拍摄视角过大导致图片上的缺陷很小、拍照水印等问题，造成的检测结果不准确的问题。

S320：服务器在接收到集装箱图像时，利用其部署的目标自回归模型对集装箱图像进行识别，得到集装箱图像中的各像素点为破口区域的概率。

其中，服务器在接收到集装箱图像时，具体可以是，利用目标自回归模型中的Patch Partition层对集装箱图像进行图像分割，以得到空间上连续的N×M个窗格图像，其中，N和M分别为大于或等于1的整数；以及利用目标自回归模型中的Liner Embedding层对N×M个窗格图像进行线性变化处理，得到包括各窗格图像的特征的第一特征矩阵；利用目标自回归模型中的Transformer Block层对第一特征矩阵中的每个窗格图像的特征分别再次进行特征提取得到第二特征矩阵；利用目标自回归模型中的patch merging层将第二特征矩阵中各窗格图像再次提取的特征进行融合处理，得到融合特征矩阵；以及利用目标自回归模型中的softmax层对融合特征矩阵卷积和分类计算处理（对融合特征矩阵进行卷积得到三维特征图以及对三维特征图中各像素点的通道数进行分类计算），得到集装箱图像中各像素点为破口区域的概率。

在此情况下，每个Transformer Block层具体包括一个归一化层和一个多头自注意力层，其中，归一化层用于对第一特征矩阵进行归一化处理，多头自注意力层用于计算窗格图像和该窗格图像空间上连续且相邻的相邻窗格图像再次提取到的特征之间的特征相似度；根据各窗格图像对应的特征相似度调整该窗格图像再次提取到的特征，得到各窗格图像的目标特征；将第二特征矩阵中各窗格图像的目标特征进行融合处理，得到融合特征矩阵。

步骤S330：服务器根据集装箱图像中各像素点为破口区域的概率，确定集装箱图像中的候选破口区域。

具体的，服务器可以将待检测图像中，为破口区域的概率大于目标概率的像素点确定为候选破口区域的像素点，并根据候选破口区域的像素点得到待检测图像中的候选破口区域。

步骤S340：服务器利用膨胀算法对候选破口区域进行膨胀处理，得到膨胀处理后的候选破口区域。

步骤S350：服务器利用连通域分析算法对膨胀处理后的候选破口区域进行连通域分析处理，得到集装箱图像的目标破口区域，并发送至移动终端。

具体的，服务器可以利用连通域分析算法对对膨胀处理后的候选破口区域进行连通域分析处理，得到连通区域；利用多边形拟合算法对连通区域进行多边形拟合，得到待检测图像中的目标破口区域。

如图16所示，图16是对图14采用上述步骤S310-S350进行破口区域检测，得到的与图14中的D1对应的破口区域的多边形拟合曲线D2，该拟合曲线D2围合形成的区域即为对图14进行破口检测得到的目标破口区域。

同样的，如图17所示，图17是对图15采用上述步骤S310-S350进行破口区域检测，得到的与图15中的E1对应的破口区域的多边形拟合曲线E2，该拟合曲线E2围合形成的区域即为对图15进行破口检测得到的目标破口区域。

可以看出，即便是在破口区域不明显的情况下，本方案采用上述步骤S310-S350，也可以实现对破口区域进行检测。

步骤S360：移动终端显示集装箱图像的目标破口区域。

通过在移动终端上显示集装箱图像的目标破口区域，以便用户可以查看并执行后续的集装箱更换或者集装箱维护等操作。

请参阅图18，以待检测图像为用户使用具有摄像功能的移动终端对车辆进行拍摄得到的车身图像为如图19所示的待检测图像，且具体需要检测的目标区域为车身划痕、掉漆或凹陷等损坏区域为例，本申请提供的一种可应用于包括手持摄像头和服务器的目标区域检测方法，该方法包括：

步骤S410：移动终端在采集到车身图像时，将车身图像发送至服务器。

其中，移动终端中采集的车身图像可以是如图19所示的图像，从图19可以可以看出，采集的车身图像的损坏区域（划痕）不明显，仅在图19中的F1所指位置。

其中，服务器中部署有目标自回归模型，且该目标自回归模型是基于海量的样本图像利用包括Transformer网络和softmax层的初始自回归模型训练获得，且训练过程可以参阅前文对步骤S120的具体描述或者对步骤S310。使得获得的目标自回归模型能够对于车身损坏不明显的图像也能准确识别，且识别结果更准确。

服务器通过部署上述的目标自回归模型，可以在利用该目标自回归模型进行目标区域检测时，有效避免因车辆上某些划痕、掉漆部位或者发生凹陷等的损坏区域很小，有时候肉眼甚至都难以观察时造成的损坏区域漏检的情况，以及有效消除拍摄到的车身图像的质量欠佳，存在光照不足、图片模糊、拍摄角度多种多样、拍摄视角过大导致图片上的缺陷很小、拍照水印等问题，造成的检测结果不准确的问题。

步骤S420：服务器在接收到车身图像时，利用其部署的目标自回归模型对车身图像进行识别，得到车身图像中的各像素点为损坏区域的概率。

步骤S430：服务器根据车身图像中各像素点为损坏区域的概率，确定车身图像中的候选损坏区域。

步骤S440：服务器利用膨胀算法对候选瑕疵区域进行膨胀处理，得到膨胀处理后的候选损坏区域。

步骤S450：服务器利用连通域分析算法对膨胀处理后的候选损坏区域进行连通域分析处理，得到车身图像的目标损坏区域，并发送至移动终端。

具体的，服务器可以利用连通域分析算法对对膨胀处理后的候选损坏区域进行连通域分析处理，得到连通区域；利用多边形拟合算法对连通区域进行多边形拟合，得到待检测图像中的目标损坏区域。

可以看出，即便是在车身图像中的损坏区域不明显的情况下，本方案采用上述步骤S410-S450，也可以实现对车身图像中的损坏区域进行检测。

如图20所示，图20是对图19采用上述步骤S410-S450进行损坏区域检测，得到的与图19中的F1对应的区域的多边形拟合曲线F2，该拟合曲线 F2围合形成的区域即为对图19进行检测得到的目标车身图像中的目标损坏区域。

步骤S460：移动终端显示车辆图像的目标损坏区域。

通过在移动终端上显示集装箱图像的目标损坏区域，以便用户可以查看并执行后续的车辆维护操作。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述方法实施例。

图21是根据一实施例示出的目标区域检测装置，如图21所示，该目标区域检测装置400包括：图像获取模块410、图像处理模块420、区域确定模块430以及处理模块440。

图像获取模块410，用于获取待检测图像；图像处理模块420，用于对待检测图像进行特征提取，得到目标特征，对所述目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率；区域确定模块430，用于根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；处理模块440，用于对候选区域进行连通域分析处理，得到待检测图像的目标区域。

在一种可实施方式中，图像获取模块410，还用于获取移动终端对目标物体进行拍摄得到的待检测图像，目标物体包括集装箱或门板。

在一种可实施方式中，图像处理模块420包括图像分割单元、线性处理单元、特征提取单元以及特征融合单元。其中，图像分割单元，用于对待检测图像进行图像分割，以得到空间上连续的N×M个窗格图像，其中，N和M分别为大于或等于1的整数；线性处理单元，用于对N×M个窗格图像进行线性变化处理，得到包括各窗格图像的特征的第一特征矩阵；特征提取单元，用于对第一特征矩阵中的每个窗格图像的特征分别再次进行特征提取得到第二特征矩阵；特征融合单元，用于将第二特征矩阵中各窗格图像再次提取的特征进行融合处理，得到目标特征。

在该种实施方式下，特征提取单元，还用于计算所述第一特征矩阵中每个窗格图像的特征和该窗格图像空间上连续且相邻的相邻窗格图像的特征之间的特征相似度；根据各窗格图像对应的特征相似度调整该窗格图像提取到的特征，得到各窗格图像再次提取的特征；根据各窗格图像再次提取的特征得到第二特征矩阵。

在该种实施方式下，矩阵处理单元，还用于对融合特征矩阵进行卷积处理，得到三维特征图；利用分类函数对三维特征图进行计算，得到待检测图像中各像素点为目标区域的概率。

在一种可实施方式中，图像处理模块420，还用于利用目标自回归模型对待检测图像进行特征提取，对提取的图像特征进行处理得到待检测图像中的各像素点为目标区域的概率，在该种实施方式下，目标区域检测装置400还包括：样本获取模块和模型训练模块。其中，样本获取模块，用于获取样本图像集合，样本图像集合中包括样本图像，每张样本图像分别标注有目标区域的样本标签；模型训练模块，用于将样本图像集合中的各样本图像输入至初始自回归模型中，基于各样本图像对初始自回归模型进行训练，得到目标自回归模型。

在该种实施方式下，模型训练模块包括结果预测单元、损失计算单元、图像选取单元以及模型训练单元。结果预测单元，用于将样本图像集合中的多个样本图像输入至初始自回归模型中，进行前向计算，得到各样本图像的目标区域预测结果；损失计算单元，用于将各样本图像的目标区域预测结果与对应的样本图像的目标区域的样本标签进行损失计算，得到各样本图像的损失值；图像选取单元，用于根据各样本图像的损失值选取目标样本图像；模型训练单元，用于根据各目标样本图像对应的损失值反向训练初始自回归模型，若达到训练结束条件，将训练后的初始自回归模型作为目标自回归模型。

在该种实施方式下，图像选取单元，还用于从各样本图像中选取损失值在预设损失阈值范围内的目标样本图像。

在一种可实施方式中，处理模块440，还用于对所述候选区域进行膨胀处理，得到膨胀处理后的候选区域；以及对膨胀处理后的候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

在一种可实施方式中，处理模块440，还用于利用连通域分析算法对候选区域进行连通域分析处理，得到连通区域；以及利用多边形拟合算法对连通区域进行多边形拟合，得到目标区域。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图22对本申请提供的一种电子设备100进行说明。

请参阅图22，基于上述实施例提供的目标区域检测方法，本申请实施例还提供的另一种包括可以执行前述方法的处理器102的电子设备100，该电子设备100可以为服务器10或终端设备，终端设备可以是智能手机、平板电脑、计算机或者便携式计算机等设备。

电子设备100还包括存储器104。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器102可以采用数字信号处理（DigitalSignal Processing，DSP）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器102可集成中央处理器（Central Processing Unit，CPU）、图像处理器（GraphicsProcessing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所获取的数据（如，待推荐数据以及操作方式）等。

电子设备100还可以包括网络模块以及屏幕，网络模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。网络模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块（SIM）卡、存储器等等。网络模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。屏幕可以进行界面内容的显示以及进行数据交互。

在一些实施例中，电子设备100还可以包括有：外设接口106和至少一个外围设备。处理器102、存储器104和外设接口106之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外设接口连接。具体地，外围设备包括：射频组件108、定位组件112、摄像头114、音频组件116、显示屏118以及电源122等中的至少一种

外设接口106可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器102和存储器104。在一些实施例中，处理器102、存储器104和外设接口106被集成在同一芯片或电路板上；在一些其他实施例中，处理器102、存储器104和外设接口106中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

射频组件108用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频组件108通过电磁信号与通信网络以及其他通信设备进行通信。射频组件108将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频组件108包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频组件108可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频组件108还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

定位组件112用于定位电子设备100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件112可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

摄像头114用于采集图像或视频（如采集本方案中的待检测图像）。可选地，摄像头114包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备100的前面板，后置摄像头设置在电子设备100的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(VirtualReality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头114还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频组件116可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器102进行处理，或者输入至射频组件108以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器102或射频组件108的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频组件114还可以包括耳机插孔。

显示屏118用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏118是触摸显示屏时，显示屏118还具有采集在显示屏118的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器102进行处理。此时，显示屏118还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏118可以为一个，设置电子设备100的前面板；在另一些实施例中，显示屏118可以为至少两个，分别设置在电子设备100的不同表面或呈折叠设计；在又一些实施例中，显示屏118可以是柔性显示屏，设置在电子设备100的弯曲表面上或折叠面上。甚至，显示屏118还可以设置成非矩形的不规则图形，也即异形屏。显示屏118可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，机发光二极管)等材质制备。

电源122用于为电子设备100中的各个组件进行供电。电源122可以是交流电、直流电、一次性电池或可充电电池。当电源122包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本申请实施例还提供一种计算机可读存储介质。该计算机可读介质中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读介质（non-transitory computer-readable storage medium）。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中描述的方法。

综上，本申请实施例提供的一种目标区域检测方法、装置、电子设备及存储介质，对待检测图像进行特征提取，得到目标特征，对目标特征进行处理得到三维特征图，根据三维特征图中各像素点的通道数得到待检测图像中各像素点为目标区域的概率，根据待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；从而实现对待检测图像中的目标区域进行自动检测。通过对候选区域进行膨胀处理，得到膨胀处理后的候选区域，对膨胀处理后的候选区域进行连通域分析处理，得到待检测图像的目标区域，可以实现对使待检测图像中距离较近的相邻目标区域连通后，最终准确确定出待检测图像中目标区域的位置。进而实现了自动且快速检测出待检测图像中的目标区域。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种目标区域检测方法，其特征在于，包括：

获取待检测图像；

利用自回归模型对所述待检测图像进行特征提取，得到目标特征，对所述目标特征进行处理得到三维特征图，利用分类函数对所述三维特征图中各像素点的通道数进行分类计算，得到所述待检测图像中各像素点为目标区域的概率，所述自回归模型是利用损失值在预设损失值范围内的目标样本图像训练得到；

根据所述待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；

对所述候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

2.根据权利要求1所述的方法，其特征在于，对所述待检测图像进行特征提取，得到目标特征，包括：

对所述待检测图像进行图像分割，以得到空间上连续的N×M个窗格图像，其中，N和M分别为大于或等于1的整数；

对所述N×M个窗格图像进行线性变化处理，得到包括各窗格图像的特征的第一特征矩阵；

对所述第一特征矩阵中的每个窗格图像的特征分别再次进行特征提取得到第二特征矩阵；

将所述第二特征矩阵中各窗格图像再次提取的特征进行融合处理，得到目标特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一特征矩阵中的每个窗格图像的特征分别再次进行特征提取得到第二特征矩阵，包括：

计算所述第一特征矩阵中每个窗格图像的特征和该窗格图像空间上连续且相邻的相邻窗格图像的特征之间的特征相似度；

根据各窗格图像对应的特征相似度调整该窗格图像提取到的特征，得到各窗格图像再次提取的特征；

根据各窗格图像再次提取的特征得到第二特征矩阵。

4.根据权利要求1所述的方法，其特征在于，所述对所述目标特征进行处理得到三维特征图，包括：

对所述目标特征进行卷积处理，得到三维特征图。

5.根据权利要求1所述的方法，其特征在于，利用目标自回归模型对所述待检测图像进行特征提取，所述目标自回归模型通过以下方式训练得到：

获取样本图像集合，所述样本图像集合中包括样本图像，每张样本图像分别标注有目标区域的样本标签；

将所述样本图像集合中的各样本图像输入至初始自回归模型中，基于各样本图像对初始自回归模型进行训练，得到目标自回归模型。

6.根据权利要求5所述的方法，其特征在于，所述将所述样本图像集合中的各样本图像输入至初始自回归模型中，基于各样本图像对初始自回归模型进行训练，得到目标自回归模型，包括：

将所述样本图像集合中的多个样本图像输入至初始自回归模型中，进行前向计算，得到各所述样本图像的目标区域预测结果；

将各样本图像的目标区域预测结果与对应的样本图像的目标区域的样本标签进行损失计算，得到各样本图像的损失值；

根据各所述样本图像的损失值选取目标样本图像；

根据各所述目标样本图像对应的损失值反向训练所述初始自回归模型；

若达到训练结束条件，将训练后的初始自回归模型作为目标自回归模型。

7.根据权利要求6所述的方法，其特征在于，所述根据各所述样本图像的损失值选取目标样本图像，包括：

从各所述样本图像中选取损失值在预设损失阈值范围内的目标样本图像。

8.根据权利要求1-7中任意一项所述的方法，其特征在于，对所述候选区域进行连通域分析处理，得到所述待检测图像的目标区域，包括：

对所述候选区域进行膨胀处理，得到膨胀处理后的候选区域；

对膨胀处理后的候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

9.根据权利要求1-7中任意一项所述的方法，其特征在于，对所述候选区域进行连通域分析处理，得到所述待检测图像的目标区域，包括：

利用连通域分析算法对候选区域进行连通域分析处理，得到连通区域；

利用多边形拟合算法对所述连通区域进行多边形拟合，得到目标区域。

10.根据权利要求1-7中任意一项所述的方法，其特征在于，获取待检测图像，包括：

获取手持摄像设备对目标物体进行拍摄得到的待检测图像，所述目标物体包括集装箱或门板。

11.一种目标区域检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

图像处理模块，用于利用自回归模型对所述待检测图像进行特征提取，得到目标特征，对所述目标特征进行处理得到三维特征图，利用分类函数对所述三维特征图中各像素点的通道数进行分类计算，得到所述待检测图像中各像素点为目标区域的概率，所述自回归模型是利用损失值在预设损失阈值范围内的目标样本图像训练得到；

区域确定模块，用于根据所述待检测图像中各像素点为目标区域的概率，确定待检测图像中的候选区域；

区域处理模块，用于对所述候选区域进行连通域分析处理，得到所述待检测图像的目标区域。

12.一种电子设备，其特征在于，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-10中任意一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-10中任意一项所述的方法。