CN110443242B

CN110443242B - 读数框检测方法、目标识别模型训练方法及相关装置

Info

Publication number: CN110443242B
Application number: CN201910703034.XA
Authority: CN
Inventors: 尹世豪
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-04-08
Anticipated expiration: 2039-07-31
Also published as: CN110443242A

Abstract

本公开实施例提供的一种读数框检测方法、目标识别模型训练装置及相关装置，涉及计算机视觉技术领域。其中，上述读数框检测方法包括：采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据；每组预测特征数据均包括读数框得分图及位置偏移图，根据每组所述读数框得分图及位置偏移图，构建多个预测读数框；从所述预测读数框中筛选出用于标识所述仪表读数框所属图像区域的目标读数框。通过上述方案得到的目标读数框所对应的图像区域内不包含的无关图像区域，同时，检测过程中减少了大量不必要的计算量。

Description

读数框检测方法、目标识别模型训练方法及相关装置

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及读数框检测方法、目标识别模型训练方法及相关装置。

背景技术

目标检测是一门从图像中识别感兴趣区域，并确定感兴趣区域的位置和大小的技术。虽然目标检测已经在工业、生活等众多领域广泛应用，但是，其目前依然是计算机视觉中最具有挑战性的任务之一。

现有技术中，进行目标检测需要定义不同的候选区域尺寸，并对应创建大量滑窗。然而，大量滑窗滑动检测感兴趣目标的过程中计算量较大。另外，检测出的目标框通常为指定角度的正矩形，对于倾斜或非矩形的感兴趣目标进行检测，得到的检测结果中会包含过多与感兴趣目标无关的图像区域，影响对感兴趣目标的识别精度。

发明内容

本公开实施例的目的在于提供一种读数框检测方法、目标识别模型训练方法及相关装置，用于简化目标检测的计算量，避免检测出的感兴趣区域包含无关图像区域。

为了实现上述目的，本公开实施例采用的技术方案如下：

本公开实施例第一方面提供了一种读数框检测方法，应用于电子设备，所述方法包括：采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据；其中，所述每组预测特征数据均包括读数框得分图及位置偏移图；所述读数框得分图包括预测得到的属于所述仪表读数框的像素点；所述位置偏移图包括所述读数框得分图中属于所述仪表读数框的每一个像素点与所述仪表读数框上预先确定的多个选定点之间预测偏移值；根据每组所述读数框得分图及位置偏移图，构建多个预测读数框；从所述预测读数框中筛选出用于标识所述仪表读数框所属图像区域的目标读数框。

本公开实施例第二方面提供了一种目标识别模型训练方法，应用于电子设备，所述方法包括：按照预设顺序依次接收样本图像中仪表读数框上预先确定的选定点的位置坐标；依据所述选定点构建实际读数框；将所述实际读数框按照预设比例缩小，得到位于所述实际读数框内的待处理读数框；根据所述待处理读数框及所述选定点的位置坐标，得到所述样本图像的读数框得分图及位置偏移图，并在所述样本图像中标注所述读数框得分图及所述位置偏移图；利用标注的样本图像对预设的初始模型进行训练，得到目标识别模型，其中，所述目标识别模型对包含仪表读数框的图像进行处理后，输出多组预测特征数据，所述每组预测特征数据均包括所述读数框得分图及所述位置偏移图。

本公开实施例第三方面提供了一种读数框检测装置，应用于电子设备，所述读数框检测装置包括：处理模块、构建模块及确定模块；其中，处理模块，用于采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据；其中，所述每组预测特征数据均包括读数框得分图及位置偏移图；所述读数框得分图包括预测得到的属于所述仪表读数框的像素点；所述位置偏移图包括所述读数框得分图中属于所述仪表读数框的每一个像素点与所述仪表读数框上预先确定的多个选定点之间预测偏移值；构建模块，用于根据每组所述读数框得分图及位置偏移图，构建多个预测读数框；确定模块，用于从所述预测读数框中筛选出用于标识所述仪表读数框所属图像区域的目标读数框。

本公开实施例第四方面提供了一种目标识别模型训练装置，应用于电子设备，所述装置包括：接收模块、构建模块、放缩模块、标注模块及训练模块；其中，接收模块，用于按照预设顺序接收样本图像中仪表读数框上预先确定的选定点的位置坐标；构建模块，用于依据所述选定点构建实际读数框；放缩模块，用于将所述实际读数框按照预设比例缩小，得到位于所述实际读数框内的待处理读数框；标注模块，用于根据所述待处理读数框及所述选定点的位置坐标，得到所述样本图像的读数框得分图及位置偏移图，并在所述样本图像中标注所述读数框得分图及所述位置偏移图；训练模块，用于利用标注的样本图像对预设的初始模型进行训练，得到目标识别模型，其中，所述目标识别模型对包含仪表读数框的图像进行处理后，输出多组预测特征数据，所述每组预测特征数据均包括所述读数框得分图及所述位置偏移图。

本公开实施例第五方面提供一种程序产品，例如计算机可读取存储介质，包括程序，该程序在被处理器执行时用于执行以上第一方面或者第二方面提供的方法。

相对现有技术，本公开实施例提供的一种读数框检测方法，通过利用预设的目标识别模型从包含仪表读数框的图像中得到多组预测特征数据。其中，预测特征数据包括通过语义分割得到的读数框得分图以及基于读数框得分图得到的位置偏移图。再利用每组读数框得分图和位置偏移图，构建多个预测读数框。最后，从预测读数框中筛选出接近仪表读数框真实图像区域的目标读数框。由此可知，每一个预测读数框对应的图像区域均是基于仪表读数框语义预测得到的，因此，目标读数框所对应的图像区域内不存在无关图像区域。另外，在检测仪表读数框的过程中，无需创建不同尺寸的滑窗寻找仪表读数框所属图像区域，避免了滑动滑窗检测过程中大量的计算量。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一张包含仪表读数框的图像。

图2示出了采用现有技术对图1所示的图像进行目标检测的输出结果。

图3示出了本公开实施例提供的电子设备的方框示意图。

图4示出了本公开实施例提供的目标识别模型训练方法的步骤流程图。

图5示出了本公开实施例提供的初始模型的结构示意图。

图6示出了本公开实施例提供的初始模型的一个实例。

图7示出了本公开实施例提供的读数框检测方法的步骤流程图。

图8示出了图7中步骤S201的子步骤流程图。

图9示出了采用本公开提供的读数框检测方法对图1所示的图像进行目标检测的输出结果。

图10示出了本公开实施例提供的目标识别模型训练装置的示意图。

图11示出了本公开实施例提供的读数框检测装置的示意图。

图12示出了图11中处理模块的子模块示意图。

图标：100-电子设备；101-存储器；102-通信接口；103-处理器；104-总线；200-目标识别模型训练装置；201-接收模块；202-构建模块；203-放缩模块；204-标注模块；205-训练模块；300-读数框检测装置；301-处理模块；3011-获得子模块；3012-预测子模块；302-构建模块；303-确定模块。

具体实施方式

下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。

基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

基于传统图像处理技术的目标检测算法需要对图像进行滤波、增强、方向矫正和轮廓检测等一系列操作，但是，对图像的变换不能适应所有情况下的数据样本。因此，基于传统的图像处理技术泛化能力较差，只适用于简单场景的目标检测，难以实现对复杂环境情况下的目标检测。

近年来随着深度学习技术的快速发展，涌现出了大量优秀的目标检测算法，如Faster RCNN、YOLO和SSD等。但是这些算法的检测结果均为标准的矩形框，对于倾斜或非矩形的目标区域，检测结果中会包含较多的无关区域，且无法实现对目标旋转角度的校正。例如，对图1所示的仪表盘的读数框进行检测，得到的检测结果如图2所示，其中包含过多与检测目标无关的图像，过多的无关图像将影响对检测目标内容的识别。

因此，本公开实施例提供了一种读数框检测方法、目标识别模型训练方法及相关装置，用于改善上述问题。为了方便描述，下面的实施例以检测仪表盘的读数框为例，对本方案进行说明。

可以理解地，上述读数框检测方法和目标识别模型训练方法均可以应用于图3示出的电子设备100。上述电子设备100可以是，但不限于个人电脑(personal computer，PC)、服务器、分布式部署的计算机等等。可以理解的是，电子设备100也不限于物理服务器，还可以是物理服务器上的虚拟机、基于云平台上构建的虚拟机等能提供与所述服务器或者虚拟机有相同功能的计算机。

电子设备100的操作系统可以是，但不限于，Windows系统、Linux系统等。上述电子设备100包括存储器101、通信接口102、处理器103和总线104，所述存储器101、通信接口102和处理器103通过总线104连接，处理器103用于执行存储器101中存储的可执行模块，例如计算机程序。其中，存储器101可能包含高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口102(可以是有线或者无线)实现该电子设备100与外部设备之间的通信连接。

总线104可以是ISA总线104、PCI总线104或EISA总线104等。图3中仅用一个双向箭头表示，但并不表示仅有一根总线104或一种类型的总线104。

其中，存储器101用于存储程序，例如图10所示的目标识别模型训练装置200和图11所示的读数框检测装置300。该目标识别模型训练装置200和读数框检测装置300包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述电子设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器103在接收到执行指令后，执行所述程序以实现本公开上述实施例揭示的读数框检测方法或者目标识别模型训练方法。

处理器103可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器103中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器103可以是通用处理器103，包括中央处理器103(Central Processing Unit，简称CPU)、网络处理器103(Network Processor，简称NP)等；还可以是数字信号处理器103(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

第一实施例

请参考图4，图4示出了本公开实施例提供的目标识别模型训练方法，应用于电子设备100。上述目标识别模型训练方法包括以下步骤：

步骤S101，按照预设顺序依次接收样本图像中仪表读数框上预先确定的选定点的位置坐标。

在本公开实施例中，上述样本图像可以是包含仪表读数框的图像。进一步地，可以将仪表读数框内多个能确定仪表读数框形状的点定为选定点。比如，对于长方形的仪表读数框，可以将其四个顶点定为选定点；再比如，对于三角形的仪表读数框，可以将其三个顶点确定为选定点；再比如，对于圆形的仪表读数框，可以将仪表读数框的圆心及仪表读数框的边缘上的点确定为选定点。

可选地，上述位置坐标可以是选定点在样本图像中的图像坐标。

可选地，上述预设顺序可以是从仪表读数框上指定的选定点开始，沿指定方向，依次接收各个选定点对应的位置坐标的先后顺序。为了符合用户的读数习惯，上述指定的选定点优选仪表读数框在预选角度下，位于左侧和/或上侧的选定点。需要说明的是，处于上述预选角度下的仪表读数框内读数字符之间水平排列，且读数字符中的第一个字符位于仪表读数框的左侧。上述指定方向可以选择顺时针方向，也可以选择逆时针方向。

下面以长方形的仪表读数框进行举例：选择顺时针方向为指定方向，将仪表读数框在预选角度下位于其左上角的顶点确定为指定的选定点。该指定的选定点为第一个接收位置坐标的点，将预选角度下位于仪表读数框右上角的顶点确定为第二个接收位置坐标的点，将预选角度下位于仪表读数框右下角的顶点确定为第三个接收位置坐标的点，将预选角度下位于仪表读数框左下角的顶点确定为第四个接收位置坐标的点。也就是，从第一个接收位置坐标的点到第四个接收位置坐标的点之间的顺序为预设顺序。

结合上例可以理解，预设顺序设定后，依据接收坐标位置的顺序，则可以将各个选定点在仪表读数框处于预选角度时所属的位置确定。接上例，第一个接收位置坐标的点，在仪表读数框调整到预选角度时，该点位于该仪表读数框左上角；第二个接收位置坐标的点，在仪表读数框调整到预选角度时，该点位于该仪表读数框右上角，以此类推。也就是，上述预设顺序可以展示各个选定点在指定方向的分布顺序。

步骤S102，依据选定点构建实际读数框。

在本公开实施例中，依据选定点在样本图像中勾勒出实际读数框，使仪表读数框的每一个像素点均位于实际读数框内。例如，对于四边形的仪表读数框，在指定方向上将每个选定点与相邻的另外两个选定点连接，得到实际读数框。对于圆形的仪表读数框，将位仪表读数框中间的选定点确定为圆心，将圆心和仪表读数框的边缘上的选定点之间的距离为半径，得到实际读数框。

步骤S103，将实际读数框按照预设比例缩小，得到位于实际读数框内的待处理读数框。

在本公开实施例中，通过将实际读数框按照预设比例缩小，既可以改善边缘的定位误差产生的影响，又可以一定程度上减少后续步骤的计算量。

作为一种实施方式，针对直线形(比如，三角形、四边形、六角形等)的实际读数框，可以将实际读数框的每一个边按照预设比例等比缩短，从而得到位于实际读数框内的待处理读数框。比如，将每一条边缩短0.3倍；针对圆形的实际读数框，可以将实际读数框的半径按照预设比例缩短，从而得到待处理读数框，确保待处理读数框位于实际读数框内。可选地，在缩小实际读数框时确保中心不变，使得到的待处理读数框与实际读数框呈同心。

步骤S104，根据待处理读数框及选定点的位置坐标，得到样本图像的读数框得分图及位置偏移图，并在所述样本图像中标注所述读数框得分图及所述位置偏移图。

在本公开实施例中，将待处理读数框以内每一个像素点均赋予一特定值，并将待处理读数框以外的每一像素点均赋予另外一个特定值，得到读数框得分图。比如，将待处理读数框以内的像素点均赋值1，将待处理读数框以外的像素点均赋予0，生成读数框得分图，并标注于对应的样本图像上。通过上述读数框得分图可以将待处理读数框以内和以外的像素点可以区分开，从而方便识别出属于待处理读数框内的像素点。可以理解地，属于待处理读数框内的像素点也属于仪表读数框，因此，通过对应的赋值可以从读数框得分图中识别出属于仪表读数框的像素点。

进一步地，依据读数框得分图中每一个属于仪表读数框的像素点的图像坐标和各个选定点的位置坐标，计算读数框得分图中每一个属于仪表读数框的像素点与每个选定点之间的实际偏移值，并生成用于标注的位置偏移图。使位置偏移图中包括读数框得分图中每一个属于仪表读数框的像素点与各个选定点之间的实际偏移值。比如，读数框得分图中属于仪表读数框的像素点a的图像坐标为(x₁,y₁)，选定点a的位置坐标为(x₂,y₂)，则像素点a与选定点a之间的实际偏移值为(x₁-x₂,y₁-y₂)。

可以理解地，基于深度学习的算法在训练阶段都需要大量的数据对模型进行训练，为了尽可能地充分利用已标注数据，可以通过对标注后的样本图像进行处理，实现训练数据进行了扩增。可选地，对图像的处理，可以但不限于是，随机旋转、随机亮度变换、随机对比度变换、随机缩放、随机裁剪之一或者之间的组合。

步骤S105，利用标注的样本图像对预设的初始模型进行训练，得到目标识别模型。

在本公开实施例中，上述预设的初始模型包括多个特征提取层及多个特征融合层。

可选地，上述特征提取层之间依次连接。可选地，除了位于底层的特征提取层之外，其他特征提取层的输出端与相邻下一层特征提取层的输入端连接。同时，每一个特征提取层提取到的特征图的尺寸不同。具体地，位于底层的特征提取层包括用于提取特征的稠密块；其他特征提取层包括用于提取特征的稠密块(dense block)和用于将稠密块提取到的特征图进行降维的过渡层(transition layer)。具体地，位于底层的特征提取层的稠密块输入端与相邻上一层特征提取层的过渡层连接。位于顶层的特征提取层的稠密块输入端与起始卷积层连接，其稠密块输出端与同层的过渡层输入端连接。其他特征提取层中稠密块输出端与同层的过渡层输入端连接，稠密块输入端与相邻上一个特征提取层的过渡层输出端连接。可以理解地，稠密块输入端可接收的特征图尺寸和稠密块输出端输出的特征图尺寸一致。稠密块对接收到的特征图进行特征提取，得到新的特征图后传递至过渡层进行降维处理，以使输出的特征图符合相邻下一层特征提取层可接收的特征图尺寸。作为一种实施方式，上述过渡层可以包括包含一个1x1的卷积和一个平均池化操作层。

可选地，上述特征融合层之间依次连接。上述特征融合层的数量比特征提取层的数量少一层。进一步地，位于底层的特征融合层的输入端与位于底层的特征提取层的输出端连接。其他特征融合层的输出端与相邻上一层特征融合层的输入端连接。同时，每一个特征融合层还与相同层号的特征提取层连接，具体为，特征融合层的输入端与对应特征提取层的稠密块输出端连接。

请参考图5，例如，有M个特征提取层，则有M-1个特征融合层，其中，M为大于1的整数。那么第M-1层的特征融合层的输入端分别与第M-1层的特征提取层的稠密块输出端和第M层的特征提取层的稠密块输出端连接。在M大于2时，第M-i层的特征融合层的输入端分别与第M-i层的特征提取层的稠密块输出端和第M-i+1层的特征融合层的输出端连接，i依次取2到M-1之间的整数值。

上述特征融合层用于将接收到的多个特征图进行融合，生成新的特征图。由上可知，特征融合层的输入端接收到的特征图不同尺寸，为了实现对不同尺寸的特征图进行融合，上述特征融合层包括Upsample运算模块和Concat融合模块。其中，Upsample运算模块采用最近邻上采样将接收到尺寸较小的特征图扩大预设倍数，使其尺寸与输入端接收到的另一特征图的尺寸一致。Concat模块用于将扩大尺寸后的特征图和输入端接收到的另一特征图进行融合。

进一步地，位于最底层的特征提取层的输出端还与该初始模型的输出层连接，每个特征融合层的输出端也与该初始模型的输出层连接，以使最底层特征提取层以及每一层特征融合层输出的特征图均可以通过输出层得到对应一组预测出的预测特征数据。可以理解地，由于模型的输出层输出的特征数据大小需要一致，因此，除了位于顶层的特征融合层外，其他特征融合层和位于底层的特征提取层与模型的输出层之间均设置用于转换特征图尺寸的卷积处理层。

可以理解地，上述初始模型采用了多组输出，输出的各组预测特征数据所依据的特征图尺寸不同。具体地，除了位于顶层的特征融合层输出的特征图外，其他特征图均需要经过用于转换特征图尺寸的卷积处理层处理后，再由模型的输出层进行处理，得到预测特征数据。

可以理解地，不同尺寸的特征图所包含的语义信息丰富程度不同，本申请中初始模型的最底层特征提取层和各级特征融合成输出的多张特征图可构建特征图金字塔。其中，包含较多语义信息的高层特征图更容易进行类别预测，但是目标位置信息比较粗糙；包含较少语义信息的低层特征图虽然语义信息较少，但是目标的位置信息准确。因此，对各个层次特征图进行预测，得到的预测结果更加全面，一定程度上可以提高模型预测的准确性。

图6示出以输入为3通道的RGB彩色图像，输出为4组预测特征数据为例的模型。其中，过渡层的平均池化操作层(avgpool)将接收到的特征图降维到其原尺寸的1/2，同时，特征融合层的upsample运算模块将接收到的特征图扩大到原尺寸的2倍。

进一步地，上述利用标注的样本图像对预设的初始模型进行训练可以包括以下步骤：

S1，依据所述样本图像中标注的读数框得分图对所述初始模型进行训练，直至模型收敛。

在本公开实施例中，可以是利用初始模型对所述样本图像数据进行处理，输出多组包括预测得分图的预测特征数据。将标注的读数框得分图分别与每一个预测得分图进行比较，得到多个第一比较结果；基于所述第一比较结果对所述初始模型的模型参数进行调整，直至模型收敛。进一步地，预先设计初始模型针对每一个预测得分图的损失函数均为：

其中Ls代表预测得分图的损失函数，

代表Dice系数，x代表预测得分图，y代表标注的读数框得分图。

S2，依据所述样本图像中标注的所述位置偏移图对收敛后所述初始模型进行训练，直至模型再次收敛，得到所述目标识别模型。

在本公开实施例中，利用步骤S1中训练收敛的初始模型对样本图像数据再次进行处理，输出多组包括预测位置偏移图的预测特征数据；将标注的位置偏移图分别与每一个预测位置偏移图进行比较，得到多个第二比较结果；基于第二比较结果对所述初始模型的模型参数进行调整，直至模型收敛，得到目标识别模型。

进一步地，预先设计初始模型针对每一个预测位置偏移图的损失函数均为：

其中，Lg代表预测位置偏移图的损失函数；

x_i和y_i分别代表在预测位置偏移图和标注的位置偏移图中第i个像素点的值。

可以理解地，该初始模型的总损失函数为预测特征数据的所有损失函数的总和，例如，存在2组预测特征数据输出时，初始模型的总损失函数L＝Ls₁+Ls₂+Lg₁+Lg₂，其中，Ls₁代表第一组预测特征数据中预测得分图的损失函数，Lg₁代表第一组预测特征数据中预测位置偏移图的损失函数，Ls₂代表第二组预测特征数据中预测得分图的损失函数，Lg₂代表第二组预测特征数据中预测位置偏移图的损失函数。

作为一种实施方式，在训练过程中可以将学习率设为0.0001，同时采用了L2正则化来减少模型的过拟合。

作为一种实施方式，特征提取层的初始化参数设置为预训练的DenseNet的模型参数。其他模型层的初始化参数采用He Kaiming提出的初始化方案，即依据该层输入输出的神经元数量确定一个均匀分布，然后随机从该分布中取值作为参数的初始值。

综上所述，本公开实施例提供的目标识别模型训练方法，首先，在对样本图像进行选定点位置标注过程中，按照预设顺序进行表标注，使利用该样本图像训练得到的模型在输出与选定点相关的位置偏移图时，还可以输出选定点之间的分布顺序。其次，通过缩小实际读数框得到待处理读数框，并采用待处理读数框构建用于标注样本图像的读数框得分图。从而，可以有效消除边缘误差对训练精准性的影响。最后，利用标注的样本图像对预设的具有多个输出的初始模型进行训练，得到目标识别模型。其中，目标识别模型对包含仪表读数框的图像进行处理后，输出多组预测特征数据，所述每组预测特征数据均包括所述读数框得分图及所述位置偏移图。

第二实施例

请参考图7，图7示出了本公开实施例提供的读数框检测方法，应用于电子设备100。上述读数框检测方法包括以下步骤：

步骤S201，采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据。

在本公开实施例中，上述目标识别模型可以是通过第一实施例训练得到的目标识别模型。该目标识别模型由于其自身结构特点(具体参考第一实施例，在此不再赘述)，在对图像进行处理后，可以同时输出多组预测特征数据。丰富预测结果，提供预测准确性。

上述预测特征数据可以由目标识别模型对包含仪表读数框的图像进行处理后得到。可选地，每组预测特征数据均包括读数框得分图及位置偏移图。具体地，上述读数框得分图包括模型预测得到的属于所述仪表读数框的像素点；上述位置偏移图包括读数框得分图内属于所述仪表读数框的每一个像素点与仪表读数框上预先确定的多个选定点之间预测偏移值。可以理解地，同组的读数框得分图及位置偏移图所依据的特征图相同。

在本公开实施例中，预测各组预测特征数据所依据的特征图的尺寸各不相同，可以理解地，若将目标识别模型对图像进行处理过程中得到的不同尺寸且语义丰富程度不同的特征图，按照语义丰富程度构建特征图金字塔，则位于顶层的特征图语义信息最丰富且尺寸最大，位于底层的特征图语义信息最少且尺寸小。高层的特征图更易于进行类别预测，底层的特征图对目标位置的确定更准确。因此，基于各层特征图预测多组预测特征数据，可以使预测结果结合分类准确和位置定位准确的有点。

进一步地，作为一种实施方式，如图8所示，上述步骤S201可以包括：

子步骤S2011，通过目标识别模型从图像中获得多个不同尺寸的待输出特征图。

在本公开实施例中，上述目标识别模型在处理图像数据的过程中会生成多个不同尺寸且语义信息丰富程度不同的特征图。下面以包括M个特征提取层和M-1个特征融合层的目标识别模型为例进行说明：

在M等于2(即目标识别模型包括2个特征提取层和1个特征融合层)时，上述步骤包括：利用第2层特征提取层对第1层特征提取层输出的特征图进行特征提取，得到一作为待输出特征图的特征图。同时，利用特征融合层，将所述第2层特征提取层输出的特征图与所述第1层特征提取层提取的特征图进行融合，得到一待输出特征图。

在所述M大于2时，上述步骤包括：

利用第M层特征提取层对第M-1层特征提取层输出的特征图进行特征提取，得到一待输出特征图。

利用第M-1层特征融合层，将第M层特征提取层输出的特征图与所述第M-1层特征提取层提取的特征图进行融合，得到一待输出特征图。

利用第M-i层特征融合层，将第M-i层特征提取层提取的特征图与第M-i+1层特征融合层输出的所述待输出特征图进行融合，得到一待输出特征图。其中，i依次取2到M-1之间的整数值。

需要说明的是，上述特征提取层提取到的特征图可以是特征提取层的稠密块输出端输出的特征图；特征提取层输出的特征图可以是对应的过渡层输出的特征图，当然，对于不具有过渡层的最底层特征提取层，其输出的特征图可以是稠密块输出端输出的特征图。

子步骤S2012，利用所述目标识别模型，基于每一所述待输出特征图，输出一组预测特征数据。

在本公开实施例，上述基于每一待输出特征图，输出一组预测特征数据的方式可以包括：将位于顶层的特征融合成输出的输出特征图经由模型的输出层处理，得到一组预测特征数据。将其他特征融合层和位于底层的特征提取层输出的待输出特征图，先经由用于转换特征图尺寸的卷积处理层处理后，再由模型的输出层进行处理，得到对应的预测特征数据。

步骤S202，根据每组读数框得分图及位置偏移图，构建多个预测读数框。

在本公开实施例中，上述预测读数框可以是预测得到的仪表读数框所属图像区域的范围框。可以理解地，基于每组读数框得分图及位置偏移图，均可以构建出多个预测读数框。每个预测读数框对应的图像区域可能存在差异，但都与仪表读数框在图像中所属的实际图像区域存在重叠。可以理解地，根据读数框得分图中确定的每一个属于仪表读数框的像素点，结合该读数框得分图对应的位置偏移图均能构建一个预测读数框。作为一种实施方式，构建一个预测读数框的步骤可以是：

首先，依据读数框得分图获取一个属于仪表读数框的像素点。可以理解地，在读数框得分图中，预测属于仪表读数框的像素点与预测不属于仪表读数框的像素点对应的赋值不同。因此，可以根据赋值的不同，确定出属于仪表读数框的所有像素点。

其次，从位置偏移图中获取上述像素点对应的多个预测偏移值。可以理解地，上述多个预测偏移值可以是预测得到的该像素点与每个选定点之间的偏移值。

接着，依据选定点之间分布顺序，结合所述预测偏移值，得到具有分布顺序的预测选定点。可以理解地，每一个预测偏移值都携带其所对应的选定点的信息，因此，依据每一个像素点的图像坐标与其所对应的预测偏移值，预测出各个选定点在图像中的预测位置，将位于预测位置的像素点作为预测选定点。可以理解地，上述选定点之间的分布顺序，也是预测选定点的分布顺序。

最后，依据预测选定点，构建预测读数框。例如，对于四边形的仪表读数框，按照分布顺序将每个预测选定点与相邻的另外两个预测选定点连接，得到预测读数框。对于圆形的仪表读数框，将属于圆心的预测选定点与属于边缘上的预测选定点之间的距离作为半径，得到预测读数框。

在其他实施例中，为了减少计算量，还可以在构建预测读数框时，只采用读数框得分图中属于仪表读数框且对应预测分数值大于指定值的像素点，结合对应的位置偏移图构建预测读数框。可以理解地，目标识别模型输出的读数框得分图中，每一个属于仪表读数框的像素点均有一个预测分数值。上述预测分数值可以是评估出该像素点实际属于仪表读数框的概率。

步骤S203，从预测读数框中筛选出用于标识仪表读数框所属图像区域的目标读数框。

在本公开实施例中，上述目标读数框是预测读数框中的一个。可以理解地，能够标识仪表读数框所属图像区域的目标读数框所覆盖的区域是接近仪表读数在图像中真实区域的。可选地，可以采用非极大值抑制算法从多个预测读数框中筛选出目标读数框。作为一种实施方式，上述步骤S203可以包括以下步骤：

(1)获取每一读数框得分图中属于仪表读数框的每一个像素点的预测分数值。在可能的实施例中，也可以是获取已构建的预测读数框所对应的像素点的预测分数值。

(2)按照预测读数框对应的像素点的预测分值由高到低的顺序，对预测读数框进行排列。可以理解地，每一个预测读数框均是基于一像素点构建的，因此，像素点的预测分值越高对应的预测读数框的准确性越高。

(3)依次遍历每一预测读数框。

(4)将每一个预测读数框和其他预测读数框之间的交并比与设定阈值进行比较。

(5)若遍历到的预测读数框的所述交并比大于所述设定阈值，则滤除所述预测读数框，直至得到所述目标读数框。

作为一种实施方式，上述将每一个预测读数框和其他预测读数框之间的交并比与设定阈值进行比较可以是：依次计算遍历到的预测读数框与此时还未筛除的其他预测读数框之间的交并比，并将计算得到的交并比与设定阈值进行比较。

进一步地，在其他可能的实施例中，上述读数框检测方法还可以包括步骤：对所述目标读数框对应的图像区域进行仿射变换。

在本公开实施例中，可以是基于目标读数框上的预测选定点及预测选定点的分布顺序，对所述目标读数框对应的图像区域进行仿射变换，以获得预选角度下的所述仪表读数框。可以理解地，依据预测选定点的分布顺序可以确定各个预测选定点之间的相对位置关系，将作为指定的选定点的预设选定点通过仿射变换调整至指定位置后，依据各个预测选定点之间的相对位置关系调整其他预设选定点的位置，以使目标读数框中的仪表读数框处于预选角度下。

作为一个实例，采用上述读数框检测方法对图1所示的包括仪表读数框的图像进行处理，输出检测结果如图9所示。显然，不仅可以从图像中检测出仪表读数框，还可以将检测出的仪表读数框旋转至预选角度，方便后续对内容的识别。

综上所述，本公开实施例提供的读数框检测方法，采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据。上述预测特征数据依据从图像中获得多个不同尺寸的特征图得到，不同程度的特征图语义丰富程度不同，使多个组预测特征数据中既有对属于仪表读数框的像素点分类和像素点与选定点之间的偏差值分类准确的特征数据，也有对仪表读数框位置确定准确的特征数据，增强目标识别模型的预测能力。再基于输出的多组预测特征数据构建预测读数框。其中，上述预测特征数据包括通过语义分割得到的读数框得分图以及基于读数框得分图得到的位置偏移图，上述读数框得分图和位置偏移图可以定位仪表读数框的形状、位置和大小，因此，依据预测特征数据得到的预测读数框，其形状、位置和大小与仪表读数框之间几乎相同。因此，从预测读数框中确定目标读数框内则不包含的与仪表读数框无关的图像。显然，上述目标读数框的确定过程，避免了采用滑窗滑动寻找仪表读数框，减少了大量不必要的计算量。另外，目标识别模型输出的预测特征数据中还包括位于目标读数框上的各个选定点之间的分布顺序，基于该分布顺序还可以对目标读数框进行角度校准，使目标读数框处于预选角度下。

第三实施例

请参照图10，图10示出了本公开实施例提供的一种目标识别模型训练装置200的结构框图。上述目标识别模型训练装置200包括：接收模块201、构建模块202、放缩模块203、标注模块204及训练模块205。

上述接收模块201，用于按照预设顺序依次接收样本图像中仪表读数框上预先确定的选定点的位置坐标。

在本公开实施例中，上述步骤S101可以由接收模块201执行。

上述构建模块202，用于依据所述选定点构建实际读数框。

在本公开实施例中，上述步骤S102可以由构建模块202执行。

上述放缩模块203，用于将所述实际读数框按照预设比例缩小，得到位于所述实际读数框内的待处理读数框。

在本公开实施例中，上述步骤S103可以由放缩模块203执行。

上述标注模块204，用于根据所述待处理读数框及所述选定点的位置坐标，得到所述样本图像的读数框得分图及位置偏移图，并在所述样本图像中标注所述读数框得分图及所述位置偏移图。

在本公开实施例中，上述步骤S104可以由标注模块204执行。

上述训练模块205，用于利用标注的样本图像对预设的初始模型进行训练，得到目标识别模型，其中，所述目标识别模型对包含仪表读数框的图像进行处理后，输出多组预测特征数据，所述每组预测特征数据均包括所述读数框得分图及所述位置偏移图。

在本公开实施例中，上述步骤S105可以由训练模块205执行。

第四实施例

请参照图11，图11示出了本公开实施例提供的读数框检测装置300的方框示意图。上述读数框检测装置300包括：处理模块301、构建模块302及确定模块303。

上述处理模块301，用于采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据。

在本公开实施例中，上述步骤S201可以由处理模块301执行。可以理解地，每组预测特征数据均包括读数框得分图及位置偏移图；所述读数框得分图包括预测得到的属于所述仪表读数框的像素点；所述位置偏移图包括所述读数框得分图中属于所述仪表读数框的每一个像素点与所述仪表读数框上预先确定的多个选定点之间预测偏移值。

优选地，如图12所示，所述处理模块301包括：获得子模块3011和预测子模块3012。

获得子模块3011，用于通过所述目标识别模型从所述图像中获得多个不同尺寸的待输出特征图。

在本公开实施例中，上述子步骤S2011可以由获得子模块3011执行。

预测子模块3012，用于利用所述目标识别模型，基于每一所述待输出特征图，输出一组所述预测特征数据。

在本公开实施例中，上述子步骤S2012可以由预测子模块3012执行。

上述构建模块302，用于根据每组所述读数框得分图及位置偏移图，构建多个预测读数框。

在本公开实施例中，上述步骤S202可以由构建模块302执行。

上述确定模块303，用于从所述预测读数框中筛选出用于标识所述仪表读数框所属图像区域的目标读数框。

在本公开实施例中，上述步骤S203可以由确定模块303执行。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本公开实施例还揭示了一种计算机可读取存储介质，其上存储有计算机程序，所述计算机程序被处理器103执行时实现本公开前述实施例揭示的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种读数框检测方法，其特征在于，应用于电子设备，所述方法包括：

采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据；其中，每组所述预测特征数据均包括读数框得分图及位置偏移图；所述读数框得分图包括预测得到的属于所述仪表读数框的像素点；所述位置偏移图包括所述读数框得分图中属于所述仪表读数框的每一个像素点与所述仪表读数框上预先确定的多个选定点之间预测偏移值；所述多个选定点表征所述仪表读数框内多个能确定所述仪表读数框的形状的点；

根据每组所述读数框得分图及位置偏移图，构建多个预测读数框；

从所述预测读数框中筛选出用于标识所述仪表读数框所属图像区域的目标读数框。

2.如权利要求1所述的读数框检测方法，其特征在于，所述采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据的步骤包括：

通过所述目标识别模型从所述图像中获得多个不同尺寸的待输出特征图；

利用所述目标识别模型，基于每一所述待输出特征图，输出一组所述预测特征数据。

3.如权利要求2所述的读数框检测方法，其特征在于，所述目标识别模型包括M个依次连接的特征提取层，及M-1个依次连接的特征融合层；M为大于1的整数；各个所述特征提取层提取到的特征图尺寸不同；

在M等于2时，所述利用所述目标识别模型从所述图像中获得多个不同尺寸的待输出特征图的步骤包括：

利用第M层特征提取层对第M-1层特征提取层输出的特征图进行特征提取，得到一所述待输出特征图；

利用第M-1层特征融合层，将所述第M层特征提取层输出的特征图与所述第M-1层特征提取层提取的特征图进行融合，得到一所述待输出特征图；

在M大于2时，所述利用所述目标识别模型从所述图像中获得多个不同尺寸的待输出特征图的步骤还包括：

利用第M-i层特征融合层，将第M-i层特征提取层提取的特征图与第M-i+1层特征融合层输出的所述待输出特征图进行融合，得到一所述待输出特征图；其中，i依次取2到M-1之间的整数值。

4.如权利要求1所述的读数框检测方法，其特征在于，所述根据每组所述预测特征数据中的读数框得分图及位置偏移图，构建多个预测读数框的步骤包括：

从所述位置偏移图中获取所述读数框得分图中属于所述仪表读数框的每一个像素点与每个所述选定点之间所述预测偏移值；

依据所述选定点之间分布顺序，结合所述预测偏移值，得到具有分布顺序的预测选定点；

依据所述预测选定点，构建所述预测读数框。

5.如权利要求4所述的读数框检测方法，其特征在于，所述从所述预测读数框中筛选出用于标识仪表读数框所属区域的目标读数框的步骤包括：

获取每一所述读数框得分图中属于所述仪表读数框的每一个像素点的预测分数值；

按照所述预测读数框对应的所述像素点的预测分值由高到低的顺序，对所述预测读数框进行排列；

遍历每一所述预测读数框；

将每一个所述预测读数框和其他预测读数框之间的交并比与设定阈值进行比较；

若遍历到的预测读数框的所述交并比大于所述设定阈值，则滤除所述预测读数框，直至得到所述目标读数框。

6.如权利要求4所述的读数框检测方法，其特征在于，所述方法还包括：

基于所述目标读数框上的所述预测选定点及所述预测选定点的分布顺序，对所述目标读数框对应的图像区域进行仿射变换，以获得预选角度下的所述仪表读数框。

7.一种目标识别模型训练方法，其特征在于，应用于电子设备，所述方法包括：

按照预设顺序依次接收样本图像中仪表读数框上预先确定的选定点的位置坐标；所述选定点表征所述仪表读数框内能确定所述仪表读数框的形状的点；

依据所述选定点构建实际读数框；

将所述实际读数框按照预设比例缩小，得到位于所述实际读数框内的待处理读数框；

根据所述待处理读数框及所述选定点的位置坐标，得到所述样本图像的读数框得分图及位置偏移图，并在所述样本图像中标注所述读数框得分图及所述位置偏移图；

利用标注的样本图像对预设的初始模型进行训练，得到目标识别模型，其中，所述目标识别模型对包含仪表读数框的图像进行处理后，输出多组预测特征数据，每组所述预测特征数据均包括所述读数框得分图及所述位置偏移图。

8.如权利要求7所述的目标识别模型训练方法，其特征在于，所述利用标注的样本图像对预设的初始模型进行训练的步骤包括：

依据所述样本图像中标注的所述读数框得分图对所述初始模型进行训练，直至模型收敛；

依据所述样本图像中标注的所述位置偏移图对收敛后所述初始模型进行训练，直至模型再次收敛，得到所述目标识别模型。

9.一种读数框检测装置，其特征在于，应用于电子设备，所述读数框检测装置包括：

处理模块，用于采用预设的目标识别模型对包含仪表读数框的图像进行处理，输出多组预测特征数据；其中，每组所述预测特征数据均包括读数框得分图及位置偏移图；所述读数框得分图包括预测得到的属于所述仪表读数框的像素点；所述位置偏移图包括所述读数框得分图中属于所述仪表读数框的每一个像素点与所述仪表读数框上预先确定的多个选定点之间预测偏移值；所述多个选定点表征所述仪表读数框内多个能确定所述仪表读数框的形状的点；

构建模块，用于根据每组所述读数框得分图及位置偏移图，构建多个预测读数框；

确定模块，用于从所述预测读数框中筛选出用于标识所述仪表读数框所属图像区域的目标读数框。

10.如权利要求9所述的读数框检测装置，其特征在于，所述处理模块包括：

获得子模块，用于通过所述目标识别模型从所述图像中获得多个不同尺寸的待输出特征图；

预测子模块，用于利用所述目标识别模型，基于每一所述待输出特征图，输出一组所述预测特征数据。

11.一种目标识别模型训练装置，其特征在于，应用于电子设备，所述装置包括：

接收模块，用于按照预设顺序依次接收样本图像中仪表读数框上预先确定的选定点的位置坐标；所述选定点表征所述仪表读数框内能确定所述仪表读数框的形状的点；

构建模块，用于依据所述选定点构建实际读数框；

放缩模块，用于将所述实际读数框按照预设比例缩小，得到位于所述实际读数框内的待处理读数框；

标注模块，用于根据所述待处理读数框及所述选定点的位置坐标，得到所述样本图像的读数框得分图及位置偏移图，并在所述样本图像中标注所述读数框得分图及所述位置偏移图；

训练模块，用于利用标注的样本图像对预设的初始模型进行训练，得到目标识别模型，其中，所述目标识别模型对包含仪表读数框的图像进行处理后，输出多组预测特征数据，每组所述预测特征数据均包括所述读数框得分图及所述位置偏移图。

12.一种计算机可读取存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法或者实现权利要求7-8任一项所述的方法。