CN117635688B

CN117635688B - 一种尺寸测量方法、装置、电子设备及存储介质

Info

Publication number: CN117635688B
Application number: CN202311609622.XA
Authority: CN
Inventors: 沈俊羽; 黄志青
Original assignee: Guangzhou Hengsha Digital Technology Co ltd
Current assignee: Guangzhou Hengsha Digital Technology Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-06-07
Anticipated expiration: 2043-11-28
Also published as: CN117635688A

Abstract

本发明公开了一种尺寸测量方法、装置、电子设备及存储介质，方法：获取已标注抓边框的训练图像；根据抓边框生成伪候选框，进而结合折线段，在训练图像中标注关键点，得到第二训练图像；将第二训练图像输入预测模型进行关键点预测，得到预测关键点；基于关键点和预测关键点计算损失函数得到损失函数值，根据损失值对预测模型的参数进行调整，得到训练完成的预测模型；通过训练完成的预测模型，对待测物体的目标图像进行关键点预测，进而基于预测得到的预测关键点得到待测物体的尺寸信息。本发明基于单阶段的目标检测算法YOLOV5，在其基础上添加了关键点预测分支，在检测框的同时检测框中的各种点，并且可以实现不同类型的预测狂抓取不同类型的点。

Description

一种尺寸测量方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其是一种尺寸测量方法、装置、电子设备及存储介质。

背景技术

在工业零件生产制造领域，外观尺寸检测是非常重要的一个环节。外观尺寸检测需要高昂的人工成本，且检测效率和效果难以让人满意。因此，越来越多工厂开始使用视觉检测设备来进行产品外观尺寸检测。尺寸检测是以图样为依据，检测产品尺寸是否在公差范围之内，以发现形状与尺寸的误差。尺寸检测的传统方法是人工使用千分尺、游标卡尺、塞尺等肉眼去测量，但这样的测量方法测量精度低、速度慢，不能满足大规模自动化生产的需要。

目前，基于人工智能的测量方法主要采用了一种检测与捕捉点的策略。它首先使用目标检测模型来确定待测边的位置，然后将这个检测框中的部分图像传递给关键点检测模型，以便找到线段的端点。当图像中存在多条待测边时，关键点检测模型需要多次运行，这使得在需要实时检测的高速生产环境下很具挑战性。此外，这种方法还需要维护两个不同的数据集和两个独立的人工智能模型，因此操作上也较为繁琐。尽管在某些情况下，当待测边的位置相对固定时，可以仅使用关键点模型，但在需要检测多种边的情况下，同一张图像仍需多次运行，这增加了计算负担。

发明内容

有鉴于此，本发明实施例提供一种尺寸测量方法、装置、电子设备及存储介质，能够高效准确进行尺寸测量。

一方面，本发明的实施例提供了一种尺寸测量方法，包括：

获取已标注抓边框的训练图像；其中，抓边框中的边通过折线段标注；

根据抓边框生成伪候选框，进而结合折线段，在训练图像中标注关键点，得到第二训练图像；

将第二训练图像输入预测模型进行关键点预测，得到预测关键点；

其中，预测模型基于YOLOV5配置得到，预测模型包括特征提取网络、特征金字塔网络、Roi Aline结构、框预测分支和关键点预测分支；关键点预测分支包括反卷积层、卷积层和全连接网络；

基于关键点和预测关键点计算损失函数得到损失函数值，根据损失值对预测模型的参数进行调整，得到训练完成的预测模型；

通过训练完成的预测模型，对待测物体的目标图像进行关键点预测，进而基于预测得到的预测关键点得到待测物体的尺寸信息。

可选地，根据抓边框生成伪候选框，包括：

根据抓边框的第一宽高比，结合预设的随机比例范围获得第二宽高比，进而基于第二宽高比调整抓边框的宽或高，得到第一候选框；

根据抓边框的第一面积，结合预设的随机比例范围获得第二面积，进而基于第二面积对第一候选框进行大小缩放，得到第二候选框；

基于预设方位对第二候选框进行移动，生成伪候选框。

可选地，在训练图像中标注关键点，得到第二训练图像，包括：

根据抓边框以及伪候选框与折线段的交点在训练图像中标注关键点，得到第二训练图像。

可选地，将第二训练图像输入预测模型进行关键点预测，得到预测关键点，包括：

将第二训练图像依次输入特征提取网络和特征金字塔网络进行第一特征处理，得到第一多尺度特征；

将伪候选框和第一多尺度特征输入Roi Aline结构进行第二特征处理，得到第一候选框特征；

将第一候选框特征输入关键点预测分支进行关键点预测，得到预测关键点。

可选地，将候选框特征输入关键点预测分支进行关键点预测，得到预测关键点，包括：

对候选框特征进行两次上采样率为2的反卷积，进而通过指定通道数的卷积处理得到各种类型的关键点特征；

对所有类型的关键点特征进行展平，进而分别输入三个全连接网络中得到所有伪候选框中预测关键点的横坐标位置、纵坐标位置以及可见性。

可选地，基于关键点和预测关键点计算损失函数得到损失函数值，包括：

将所有伪候选框中的关键点和预测关键点映射到两个坐标轴上，形成112维的one-hot编码，进而用离散KL散度损失函数计算每个点两个方向上的one-hot编码与网络纵坐标输出头的输出、横坐标输出头的输出的损失函数值，并用二值交叉熵损失函数计算每个点的真实可见性信息与网络可见性输出头的输出的损失函数值。

可选地，通过训练完成的预测模型，对待测物体的目标图像进行关键点预测，包括：

将待测物体的目标图像依次输入特征提取网络和特征金字塔网络进行第三特征处理，得到第二多尺度特征；

将第二多尺度特征依次输入Roi Aline结构和框预测分支进行第四特征处理，得到第二候选框特征；

将第二候选框特征输入关键点预测分支进行关键点预测，得到预测关键点。

另一方面，本发明的实施例提供了一种尺寸测量装置，包括：

第一模块，用于获取已标注抓边框的训练图像；其中，抓边框中的边通过折线段标注；

第二模块，用于根据抓边框生成伪候选框，进而结合折线段，在训练图像中标注关键点，得到第二训练图像；

第三模块，用于将第二训练图像输入预测模型进行关键点预测，得到预测关键点；

第四模块，用于基于关键点和预测关键点计算损失函数得到损失函数值，根据损失值对预测模型的参数进行调整，得到训练完成的预测模型；

第五模块，用于通过训练完成的预测模型，对待测物体的目标图像进行关键点预测，进而基于预测得到的预测关键点得到待测物体的尺寸信息。

另一方面，本发明的实施例提供了一种电子设备，包括处理器以及存储器；

存储器用于存储程序；

处理器执行程序实现如前面的方法。

另一方面，本发明的实施例提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明实施例首先获取已标注抓边框的训练图像；其中，抓边框中的边通过折线段标注；根据抓边框生成伪候选框，进而结合折线段，在训练图像中标注关键点，得到第二训练图像；将第二训练图像输入预测模型进行关键点预测，得到预测关键点；其中，预测模型基于YOLOV5配置得到，预测模型包括特征提取网络、特征金字塔网络、Roi Aline结构、框预测分支和关键点预测分支；关键点预测分支包括反卷积层、卷积层和全连接网络；基于关键点和预测关键点计算损失函数得到损失函数值，根据损失值对预测模型的参数进行调整，得到训练完成的预测模型；通过训练完成的预测模型，对待测物体的目标图像进行关键点预测，进而基于预测得到的预测关键点得到待测物体的尺寸信息。本发明实施例基于单阶段的目标检测算法YOLOV5，在其基础上添加了关键点预测分支，在检测框的同时检测框中的各种点，并且可以实现不同类型的预测狂抓取不同类型的点。解决传统检测方法测量精度低、速度慢的问题。解决先检测框再抠图检测关键点的人工智能算法耗时多、操作繁琐的问题。解决给MaskRCNN添加关键点预测分支进行抓边的算法耗时较多的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种尺寸测量方法的流程示意图；

图2为本发明实施例提供的标注信息示意图；

图3为本发明实施例提供的标注框以及生成的伪候选框的示意图；

图4为本发明实施例提供的预测模型的网络结构的示意图；

图5为本发明实施例提供的关键点预测分支的示意图；

图6为本发明实施例提供的模型预测结果示例的示意图；

图7为本发明实施例提供的一种尺寸测量装置的结构示意图；

图8为本发明实施例提供的一种电子设备的框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一方面，如图1所示，本发明的实施例提供了一种尺寸测量方法，包括：

S100、获取已标注抓边框的训练图像；其中，抓边框中的边通过折线段标注；

示例性地，一些具体实施例中，首先进行图像标注：标注抓边框，同时用折线段标注框中的边。线向两端延伸尽量长，超出框外，只标注真实边的位置，没边的位置不标，如图2所示。延长的目的是用真实框做数据增强时，增强出来的框中还能得到框中边的真实位置。

S200、根据抓边框生成伪候选框，进而结合折线段，在训练图像中标注关键点，得到第二训练图像；

需要说明的是，一些实施例中，根据抓边框生成伪候选框，包括：根据抓边框的第一宽高比，结合预设的随机比例范围获得第二宽高比，进而基于第二宽高比调整抓边框的宽或高，得到第一候选框；根据抓边框的第一面积，结合预设的随机比例范围获得第二面积，进而基于第二面积对第一候选框进行大小缩放，得到第二候选框；基于预设方位对第二候选框进行移动，生成伪候选框。

其中，一些实施例中，在训练图像中标注关键点，得到第二训练图像，包括：根据抓边框以及伪候选框与折线段的交点在训练图像中标注关键点，得到第二训练图像。

示例性地，一些具体实施例中，进行数据转换：因为要检测的是点不是线，因此训练时首先将标注的线转换成关键点，具体方法是将标注框与标注线的两个交点当做标注点，如图3所示，图3左测是标注框和标注的直线，图3右侧显示了标注框(即抓边框)或者伪候选框与直线的交点当作标注点。得到的这两个点的可见性设置为可见的，其余所有类型的点的可见性都设置为不可见的。其中，由于YOLOV5是单阶段的网络，没有二阶段目标检测网络中区域提取网络生成的候选框，因此根据真实的标注框去生成伪候选框，伪候选框包括两部分，一部分是真实标注框，另一部分是对标注框进行随机变换后生成的框。随机变换设置了三步，第一步是随机宽高比。先记录当前标注框的宽高比r＝w/h，接着r乘以0.75～1.25之间的随机数得新的宽高比r2，随机保持宽或高不变，改变另一条边大小以满足新的宽高比r2。第二步是随机大小缩放，记录当前真实框的面积，接着s乘以0.75～1.25之间的随机数得新的面积s2，保持宽高比不变改变宽和高以满足新的面积s2。第三步首先在0～360度之间选择一个随机方位，接着在此方位上平移0到当前框最小边一半的距离之间的随机值。对标注框进行随机变换大大增加了关键点预测分支的训练样本，提高关键点预测的稳定性和泛化性。标注框以及生成的伪候选框示意图如图3所示。上述随机变换的参数可在训练之前确定，以加快训练过程，提高显卡利用率。

其中，还需要说明的是，一些实施例中，方法还包括数据增强的步骤，具体包括如下步骤：训练时用到的随机翻转、随机裁剪、图像缩放、数据填充等数据增强，变换图像以及标注框的同时也相应的将关键点进行变换。

S300、将第二训练图像输入预测模型进行关键点预测，得到预测关键点；

需要说明的是，一些实施例中，将第二训练图像输入预测模型进行关键点预测，得到预测关键点，包括：将第二训练图像依次输入特征提取网络和特征金字塔网络进行第一特征处理，得到第一多尺度特征；将伪候选框和第一多尺度特征输入Roi Aline结构进行第二特征处理，得到第一候选框特征；将第一候选框特征输入关键点预测分支进行关键点预测，得到预测关键点。

其中，一些实施例中，将候选框特征输入关键点预测分支进行关键点预测，得到预测关键点，包括：对候选框特征进行两次上采样率为2的反卷积，进而通过指定通道数的卷积处理得到各种类型的关键点特征；对所有类型的关键点特征进行展平，进而分别输入三个全连接网络中得到所有伪候选框中预测关键点的横坐标位置、纵坐标位置以及可见性。

示例性地，一些具体实施例中，网络结构设计：本发明实施例的网络结构主要在YOLOV5的基础上添加了关键点预测分支。没有选择YOLOV8以及YOLOX是因为这两个网络是Anchor Free的，在待检测边的抓变框较大的场景下不适用。网络结构如图4所示，输入图像经过特征提取网络以及特征金字塔网络后得到的多尺度特征。接下来希望从多尺度特征中扣取待抓取边区域的特征去训练关键点预测分支。接下来应用MaskRCNN中的Roi Aline(Region of Interest Align)结构，将伪候选框以及多尺度特征送入Roi Aline中得到大小固定为28×28的所有伪候选框对应的特征。随机变换后的候选框特征对应的标注信息为此框与其中标注的所有线的交点(没有交点则取线的端点，有多种类型的线则都保留)，其余类型点的可见性设置为不可见。最后将所有扣取的特征以及标注信息送入关键点分支中训练。

其中，关键点预测分支：关键点预测分支如图5所示。扣取出来的大小为28×28特征首先经过两次上采样率为2的反卷积提高特征分辨率到112维以提高关键点的预测精度，再用输出通道数为n的卷积处理得到每种类型关键点的特征，n表示关键点的种数。接着对所有类型的关键点的特征进行展平后，分别送入三个全连接网络中得到所有伪候选框中所有类型点的横坐标位置、纵坐标位置以及可见性。

S400、基于关键点和预测关键点计算损失函数得到损失函数值，根据损失值对预测模型的参数进行调整，得到训练完成的预测模型；

需要说明的是，一些实施例中，基于关键点和预测关键点计算损失函数得到损失函数值，包括：将所有伪候选框中的关键点和预测关键点映射到两个坐标轴上，形成112维的one-hot编码，进而用离散KL散度损失函数计算每个点两个方向上的one-hot编码与网络纵坐标输出头的输出、横坐标输出头的输出的损失函数值，并用二值交叉熵损失函数计算每个点的真实可见性信息与网络可见性输出头的输出的损失函数值。

示例性地，一些具体实施例中，损失函数：首先将所有伪候选框中所有关键点信息映射到两个坐标轴上，形成112维的one-hot编码，用离散KL散度损失函数计算每个点两个方向上的one-hot编码与网络纵坐标输出头的输出、横坐标输出头的输出的损失函数值。用二值交叉熵损失函数计算每个点的真实可见性信息与网络可见性输出头的输出的损失函数值。其中，需要说明的是，模型总的损失函数为这三者损失函数值以及YOLOV5的前景背景置信度损失函数值、目标框损失以及类别损失的加和。

S500、通过训练完成的预测模型，对待测物体的目标图像进行关键点预测，进而基于预测得到的预测关键点得到待测物体的尺寸信息。

需要说明的是，一些实施例中，通过训练完成的预测模型，对待测物体的目标图像进行关键点预测，包括：将待测物体的目标图像依次输入特征提取网络和特征金字塔网络进行第三特征处理，得到第二多尺度特征；将第二多尺度特征依次输入Roi Aline结构和框预测分支进行第四特征处理，得到第二候选框特征；将第二候选框特征输入关键点预测分支进行关键点预测，得到预测关键点。

示例性地，一些具体实施例中，预测过程：训练时用真实标注框以及数据增强后的标注框当作伪候选框去训练，预测时因为没有标注信息了，关键点分支的输入改成网络预测框分支输出的预测框。预测时，关键点分支的输入是原来YOLOV5分支输出的预测框位置在扣出来特征上对应的特征，其输出的关键点信息也是相对预测框对应的原图区域的，因此关键点分支输出的相对原图的关键点坐标＝预测框左上角坐标+关键点分支的预测坐标。模型预测结果如图6所示。

为详细说明本发明实施例的技术原理，下面结合附图和一些具体实施例对本发明实施例的整体流程作进一步说明，应当理解的是，下述为对本发明的解释，不能看做对本发明的限制。

首先需要说明的是，本发明实施例通过将MaskRCNN的Mask分支改成关键点预测分支，这样可实现在检测框的同时检测框中的点，可在一定程度上解决上述问题。但是MaskRCNN是一个二阶段的网络，生成预测框后还要对预测框边界进行修正优化，这样即增加了检测的耗时，又对关键点的预测没有帮助，因为抓边测量算法更加关注点的位置，而不是抓边框的位置。

因此，进一步，本发明实施例基于单阶段的目标检测算法YOLOV5，在其基础上添加了关键点预测分支，在检测框的同时检测框中的各种点，并且可以实现不同类型的预测狂抓取不同类型的点。解决传统检测方法测量精度低、速度慢的问题。解决先检测框再抠图检测关键点的人工智能算法耗时多、操作繁琐的问题。解决给MaskRCNN添加关键点预测分支进行抓边的算法耗时较多的问题。

本发明实施例的方法流程如下：

1.图像标注：标注抓边框，同时用折线段标注框中的边。线向两端延伸尽量长，超出框外，只标注真实边的位置，没边的位置不标，如图2所示。延长的目的是用真实框做数据增强时，增强出来的框中还能得到框中边的真实位置。

2.数据转换：因为要检测的是点不是线，因此训练时首先将标注的线转换成关键点，具体方法是将标注框与标注线的两个交点当做标注点，如图3所示，图3左测是标注框和标注的直线，图3右侧显示了标注框(即抓边框)或者伪候选框与直线的交点当作标注点。得到的这两个点的可见性设置为可见的，其余所有类型的点的可见性都设置为不可见的。

3.数据增强：训练时用到的随机翻转、随机裁剪、图像缩放、数据填充等数据增强，变换图像以及标注框的同时也相应的将关键点进行变换。

4.网络结构设计：本发明实施例的网络结构主要在YOLOV5的基础上添加了关键点预测分支。没有选择YOLOV8以及YOLOX是因为这两个网络是Anchor Free的，在待检测边的抓变框较大的场景下不适用。网络结构如图4所示，输入图像经过特征提取网络以及特征金字塔网络后得到的多尺度特征。接下来希望从多尺度特征中扣取待抓取边区域的特征去训练关键点预测分支。由于YOLOV5是单阶段的网络，没有二阶段目标检测网络中区域提取网络生成的候选框，因此根据真实的标注框去生成伪候选框，伪候选框包括两部分，一部分是真实标注框，另一部分是对标注框进行随机变换后生成的框。随机变换设置了三步，第一步是随机宽高比。先记录当前标注框的宽高比r＝w/h，接着r乘以0.75～1.25之间的随机数得新的宽高比r2，随机保持宽或高不变，改变另一条边大小以满足新的宽高比r2。第二步是随机大小缩放，记录当前真实框的面积，接着s乘以0.75～1.25之间的随机数得新的面积s2，保持宽高比不变改变宽和高以满足新的面积s2。第三步首先在0～360度之间选择一个随机方位，接着在此方位上平移0到当前框最小边一半的距离之间的随机值。对标注框进行随机变换大大增加了关键点预测分支的训练样本，提高关键点预测的稳定性和泛化性。标注框以及生成的伪候选框示意图如图3所示。上述随机变换的参数可在训练之前确定，以加快训练过程，提高显卡利用率。接下来应用MaskRCNN中的Roi Aline(Region of InterestAlign)结构，将伪候选框以及多尺度特征送入Roi Aline中得到大小固定为28×28的所有伪候选框对应的特征。随机变换后的候选框特征对应的标注信息为此框与其中标注的所有线的交点(没有交点则取线的端点，有多种类型的线则都保留)，其余类型点的可见性设置为不可见。最后将所有扣取的特征以及标注信息送入关键点分支中训练。

5.关键点预测分支：关键点预测分支如图5所示。扣取出来的大小为28×28特征首先经过两次上采样率为2的反卷积提高特征分辨率到112维以提高关键点的预测精度，再用输出通道数为n的卷积处理得到每种类型关键点的特征，n表示关键点的种数。接着对所有类型的关键点的特征进行展平后，分别送入三个全连接网络中得到所有伪候选框中所有类型点的横坐标位置、纵坐标位置以及可见性。

6.损失函数：首先将所有伪候选框中所有关键点信息映射到两个坐标轴上，形成112维的one-hot编码，用离散KL散度损失函数计算每个点两个方向上的one-hot编码与网络纵坐标输出头的输出、横坐标输出头的输出的损失函数值。用二值交叉熵损失函数计算每个点的真实可见性信息与网络可见性输出头的输出的损失函数值。模型总的损失函数为这三者损失函数值以及YOLOV5的前景背景置信度损失函数值、目标框损失以及类别损失的加和。

7.预测过程：训练时用真实标注框以及数据增强后的标注框当作伪候选框去训练，预测时因为没有标注信息了，关键点分支的输入改成网络预测框分支输出的预测框。预测时，关键点分支的输入是原来YOLOV5分支输出的预测框位置在扣出来特征上对应的特征，其输出的关键点信息也是相对预测框对应的原图区域的，因此关键点分支输出的相对原图的关键点坐标＝预测框左上角坐标+关键点分支的预测坐标。模型预测结果如图6所示。

综上，本发明基于单阶段的目标检测算法YOLOV5，在其基础上添加了关键点预测分支，在检测框的同时检测框中的各种点，并且可以实现不同类型的预测狂抓取不同类型的点。相较于现有技术，本发明至少包括如下有益效果：1.解决传统尺寸检测方法精度低、速度慢，不能满足大规模自动化生产的需要；2.解决先检测抓边框再进行进行关键点预测的算法耗时高，操作复杂的问题；3.解决基于二阶段目标检测网络的检测抓边框同时检测框中点的算法耗时高的问题。

另一方面，如图7所示，本发明的实施例提供了一种尺寸测量装置600，包括：第一模块610，用于获取已标注抓边框的训练图像；其中，抓边框中的边通过折线段标注；第二模块620，用于根据抓边框生成伪候选框，进而结合折线段，在训练图像中标注关键点，得到第二训练图像；第三模块630，用于将第二训练图像输入预测模型进行关键点预测，得到预测关键点；其中，预测模型基于YOLOV5配置得到，预测模型包括特征提取网络、特征金字塔网络、Roi Aline结构、框预测分支和关键点预测分支；关键点预测分支包括反卷积层、卷积层和全连接网络；第四模块640，用于基于关键点和预测关键点计算损失函数得到损失函数值，根据损失值对预测模型的参数进行调整，得到训练完成的预测模型；第五模块650，用于通过训练完成的预测模型，对待测物体的目标图像进行关键点预测，进而基于预测得到的预测关键点得到待测物体的尺寸信息。

本发明方法实施例的内容均适用于本装置实施例，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

如图8所示，本发明实施例的另一方面还提供了一种电子设备700，包括处理器710以及存储器720；

存储器720用于存储程序；

处理器710执行程序实现如前面的方法。

本发明方法实施例的内容均适用于本电子设备实施例，本电子设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。

本发明方法实施例的内容均适用于本计算机可读存储介质实施例，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用，或结合这些指令执行装置、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种尺寸测量方法，其特征在于，包括：

获取已标注抓边框的训练图像；其中，所述抓边框中的边通过折线段标注；

根据所述抓边框生成伪候选框，进而结合所述折线段，在所述训练图像中标注关键点，得到第二训练图像；所述根据所述抓边框生成伪候选框，包括：

根据所述抓边框的第一宽高比，结合预设的随机比例范围获得第二宽高比，进而基于所述第二宽高比调整所述抓边框的宽或高，得到第一候选框；

根据所述抓边框的第一面积，结合预设的随机比例范围获得第二面积，进而基于所述第二面积对所述第一候选框进行大小缩放，得到第二候选框；

基于预设方位对所述第二候选框进行移动，生成伪候选框；

将所述第二训练图像输入预测模型进行关键点预测，得到预测关键点；

其中，所述预测模型基于YOLOV5配置得到，所述预测模型包括特征提取网络、特征金字塔网络、Roi Aline结构、框预测分支和关键点预测分支；所述关键点预测分支包括反卷积层、卷积层和全连接网络；所述将所述第二训练图像输入预测模型进行关键点预测，得到预测关键点，包括：

将所述第二训练图像依次输入所述特征提取网络和所述特征金字塔网络进行第一特征处理，得到第一多尺度特征；

将所述伪候选框和所述第一多尺度特征输入所述Roi Aline结构进行第二特征处理，得到第一候选框特征；

将所述第一候选框特征输入所述关键点预测分支进行关键点预测，得到预测关键点；

基于所述关键点和所述预测关键点计算损失函数得到损失函数值，根据所述损失值对所述预测模型的参数进行调整，得到训练完成的预测模型；

通过训练完成的所述预测模型，对待测物体的目标图像进行关键点预测，进而基于预测得到的预测关键点得到所述待测物体的尺寸信息。

2.根据权利要求1所述的一种尺寸测量方法，其特征在于，所述在所述训练图像中标注关键点，得到第二训练图像，包括：

根据所述抓边框以及所述伪候选框与所述折线段的交点在所述训练图像中标注关键点，得到第二训练图像。

3.根据权利要求1所述的一种尺寸测量方法，其特征在于，所述将所述候选框特征输入所述关键点预测分支进行关键点预测，得到预测关键点，包括：

对所述候选框特征进行两次上采样率为2的反卷积，进而通过指定通道数的卷积处理得到各种类型的关键点特征；

对所有类型的所述关键点特征进行展平，进而分别输入三个所述全连接网络中得到所有所述伪候选框中预测关键点的横坐标位置、纵坐标位置以及可见性。

4.根据权利要求1所述的一种尺寸测量方法，其特征在于，所述基于所述关键点和所述预测关键点计算损失函数得到损失函数值，包括：

将所有所述伪候选框中的所述关键点和所述预测关键点映射到两个坐标轴上，形成112维的one-hot编码，进而用离散KL散度损失函数计算每个点两个方向上的one-hot编码与网络纵坐标输出头的输出、横坐标输出头的输出的损失函数值，并用二值交叉熵损失函数计算每个点的真实可见性信息与网络可见性输出头的输出的损失函数值。

5.根据权利要求1所述的一种尺寸测量方法，其特征在于，所述通过训练完成的所述预测模型，对待测物体的目标图像进行关键点预测，包括：

将待测物体的目标图像依次输入所述特征提取网络和所述特征金字塔网络进行第三特征处理，得到第二多尺度特征；

将所述第二多尺度特征依次输入所述Roi Aline结构和所述框预测分支进行第四特征处理，得到第二候选框特征；

将所述第二候选框特征输入所述关键点预测分支进行关键点预测，得到预测关键点。

6.一种尺寸测量装置，其特征在于，包括：

第一模块，用于获取已标注抓边框的训练图像；其中，所述抓边框中的边通过折线段标注；

第二模块，用于根据所述抓边框生成伪候选框，进而结合所述折线段，在所述训练图像中标注关键点，得到第二训练图像；所述根据所述抓边框生成伪候选框，包括：

基于预设方位对所述第二候选框进行移动，生成伪候选框；

第三模块，用于将所述第二训练图像输入预测模型进行关键点预测，得到预测关键点；

第四模块，用于基于所述关键点和所述预测关键点计算损失函数得到损失函数值，根据所述损失值对所述预测模型的参数进行调整，得到训练完成的预测模型；

第五模块，用于通过训练完成的所述预测模型，对待测物体的目标图像进行关键点预测，进而基于预测得到的预测关键点得到所述待测物体的尺寸信息。

7.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至5中任一项所述的方法。