CN117173475A

CN117173475A - 基于机器视觉的场景预测性拟合方法和系统

Info

Publication number: CN117173475A
Application number: CN202311133417.0A
Authority: CN
Inventors: 李岩; 霍树义; 叶云鹏; 宋春初; 郭连建; 张薇; 吉庆昌
Original assignee: Hebei South Canal River Affairs Center; Hebei University of Water Resources and Electric Engineering
Current assignee: Hebei South Canal River Affairs Center; Hebei University of Water Resources and Electric Engineering
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-05

Abstract

本发明提供一种基于机器视觉的场景预测性拟合方法和系统，利用机器视觉前端，获得包含目标的场景图像；采用卷积神经网络抽取场景特征图并矢量化，并行输出场景图像中每个目标的识别类型和位置识别框；输入响应控制模块，获得针对控制目标的适应所述场景的响应控制量；本发明面向包含多类型目标和非预设类型目标且各个目标的位置和空间形态呈现高动态性变化的场景，本发明能够有效提升在以上场景下基于机器视觉实现目标识别、分析、判断的效率和准确率。

Description

基于机器视觉的场景预测性拟合方法和系统

技术领域

本发明涉及机器视觉技术领域，特别涉及一种基于机器视觉的场景预测性拟合方法和系统。

背景技术

机器视觉是以机器替代人类眼睛和大脑执行观察、测量、分析、判断的任务，其是当前人工智能技术发展的一个重要分支，在制造工业、道路交通、物流运输、建筑工程、机器人、视频安全监控乃至智慧家庭等领域都具备广泛的应用前景。

机器视觉是一项综合性工程，包括光学成像、图像信息分析处理、目标识别、自动控制等软硬件技术相互结合。当前，机器视觉系统在效率、精确度以及对各种光线环境适应性方面，都已经远远胜于人类自身。机器视觉对于单一目标或预设类型的多种目标识别，以及对目标特征的提取分析判断和自动控制响应方面，也都已经趋于成熟。

然而，在制造工厂、交通道路、物流仓储场地、建筑工地、室内空间等应用环境中，往往面临着高动态性和综合性场景，这些场景往往包含多类型目标和非预设类型目标，且面临着各个目标的位置和空间形态呈现高动态性变化的情况。

在针对这些高动态性和综合性场景应用机器视觉技术时候，往往存在目标未识别率、漏识别率或误判率高、时间延迟大的问题，进而导致对于当前场景无法做出实时、正确的判断和自动控制响应。例如，道路交通领域，基于机器视觉的自动驾驶目前比较成熟的应用仍然局限于高速公路、主干道等目标比较单一、稳定的简单场景，而在机动车、非机动车、行人、动植物、各类设施等目标混杂且高度变化的非主干道路、社区内部道路等场景下则基本无法应用。又例如，对于标准化程度高的制造工厂、物流仓储场地或建筑工地，存在类型简单、固定且分布规则有序的各类目标的场景下，各种基于机器视觉的自动化控制设备和智能机器人易于应用，但对于非标准化的场景，由于各类目标的类型多样且不明确、分布规则无序性和变化性大，则现有技术中还难以提供基于机器视觉实现自动响应控制的实用解决方案。

发明内容

本发明提供一种基于机器视觉的场景预测性拟合方法和系统。面向包含多类型目标和非预设类型目标且各个目标的位置和空间形态呈现高动态性变化的场景，本发明能够有效提升在以上场景下基于机器视觉实现目标识别、分析、判断的效率和准确率；进而，本发明执行适应以上场景特征的自主性的响应控制，提高了在以上场景下基于机器视觉实现的各种自动化功能的可靠性与稳定性。

本发明提供一种基于机器视觉的场景预测性拟合方法，包括以下步骤：

步骤S1，利用机器视觉前端，获得包含目标的场景图像；

步骤S2，对于所述场景图像，采用卷积神经网络抽取场景特征图并矢量化，进而进行场景全局特征的张量编码，将识别目标组与场景全局特征张量执行自注意力交互解码，实现场景全局多目标并行识别，并行输出场景图像中每个目标的识别类型和位置识别框；

步骤S3，将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量，输入响应控制模块，获得针对控制目标的适应所述场景的响应控制量；所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。

优选的是，所述步骤S2具体包括：

步骤S2A、构造由样本场景图像和目标标签成对组成的训练集合，并构造初始化的卷积神经网络，将所述样本场景图像输入卷积神经网络进行训练，由所述卷积神经网络抽取样本场景图像的场景特征图并矢量化；

步骤S2B、构造并初始化用于对场景全局特征进行张量编码的编码器以及将识别目标组与场景全局特征张量执行自注意力交互解码的解码器；并将场景特征图输入所述编码器，获得场景全局特征的张量编码，再将识别目标组与场景全局特征张量执行自注意力交互解码；

步骤S2C，构造并初始化进行场景全局多目标并行识别的目标类型识别模型和目标位置框识别模型；再将识别目标组的目标预测解码特征输入所述目标类型识别模型和目标位置框识别模型，并行输出场景图像中每个目标的识别类型和位置识别框；

步骤S2D、针对训练集合的样本场景图像，目标类型识别模型和目标位置框识别模型输出的N个目标识别类型和位置识别框的集合，与该训练集合的目标标签的偏差计算损失函数，并获得对模型参数的估计；

步骤S2E、完成训练后，针对机器视觉前端提供的场景图像，采用所述卷积神经网络抽取场景特征图并矢量化，进而进行场景全局特征的张量编码，将识别目标组与场景全局特征张量执行自注意力交互解码，实现场景全局多目标并行识别，并行输出场景图像中每个目标的识别类型和位置识别框。

优选的是，所述步骤S2A中，所述样本场景图像和目标标签成对组成的训练集合表示为：

其中是训练集合的训练样本总量, 是训练样本的第张样本场景图像，是该图像的图像高度，是该图像的图像宽度；是训练集合的第张样本场景图像中最多个目标类型和目标位置框定位向量共同构成的目标标签，是预先设定的一个整数，且该整数显著大于样本场景图像中可能存在的目标个数；其中，是第个样本场景图像中第个目标的目标类型，是第个样本场景图像中第个目标的目标位置框的中心点坐标、框高度值和框宽度值构成的4维向量。

优选的是，所述步骤S2A中，所述初始化的卷积神经网络是由预训练ResNet模型的卷积层结构以及全卷积网络构成的，该预训练ResNet模型的卷积层结构表示为，其中是预训练ResNet模型卷积层所有参数构成的参数张量，为输入该卷积神经网络的场景图像；该全卷积网络表示为，其中参数张量初始化为，且，表示所述卷积神经网络所生成的低分辨率的场景特征图。

优选的是，所述步骤S2A中，将样本场景图像作为场景图像，输入初始化的卷积神经网络，得到低分辨率的场景特征图；所述场景特征图进行矢量化，使用个的卷积核拼接(concate)成的，将特征图降维成通道数为的新的高水平特征图，即

符号表示图像与卷积核之间的卷积运算,；将特征图和位置编码参数相加, 该位置编码参数初始化为，然后将两者之和求出的张量中的的平面形状拉直，从而将形状更改，并转置成为的张量，作为场景全局特征张量编码的编码器的输入,记为，即

。

优选的是，步骤S2B中，初始化用于编码器和解码器的参数张量，编码器的参数和解码器的共同组成所述参数张量；并且，初始化解码器中用于识别目标组的参数张量；将矢量化后的所述输入自注意力机制的编码器，得到和同样形状的场景全局特征编码, 即,

, 是编码器的参数张量；将和识别目标组的参数张量通过交叉注意力机制的解码器，得到对识别目标组中的N个目标预测解码特征 , 即 ,

是N个目标预测解码特征所组成的张量，是解码器的参数张量。

优选的是，所述步骤S2C中，初始化用于每个目标类型识别模型中的参数张量，以及初始化目标位置框识别模型的中的参数张量；将N个目标预测解码特征分别通过目标类型识别模型和目标位置框识别模型，得到场景图像中含N个识别类型和位置识别框的集合 , 即。

优选的是，步骤S2E中，针对机器视觉前端提供的场景图像，并行输出的每个目标的识别类型和位置识别框表示为：

是该场景图像包含的第个目标属于所有可能的识别类别的概率值构成的向量，则是第个目标的位置识别框定位的向量。

优选的是，步骤S3中，所述响应控制模块通过循环滚动优化，对期望场景特征的期望场景特征向量和所述场景特征向量进行预测性拟合的比例系数赋值，从而生成拟合场景特征向量y_d：

其中，λ表示预测性拟合的预测强度，用来表示预测性拟合相对于当前场景提前的时间周期的数量，为在预测强度λ条件下的第k个周期的拟合场景特征向量输出值，为第k+1-i个周期的期望场景特征向量的参考值，为第k+1-i个周期的实际的场景特征向量；为拟合的比例系数，通过循环滚动的取值，可得、、中的比重，基于循环滚动优化后的这三个参数，获得用于计算响应控制量的拟合场景特征向量y_d。

本发明提供的一种基于机器视觉的场景预测性拟合系统，其特征在于，包括：

机器视觉前端，用于获得包含目标的场景图像；

目标识别模块，用于对于所述场景图像，采用卷积神经网络抽取场景特征图并矢量化，进而进行场景全局特征的张量编码，将识别目标组与场景全局特征张量执行自注意力交互解码，实现场景全局多目标并行识别，并行输出场景图像中每个目标的识别类型和位置识别框；

响应控制模块，用于将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量，获得针对控制目标的适应所述场景的响应控制量；所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。

本发明基于所述响应控制量，能够适应高动态性、多类型目标场景实现自主响应控制，提供对目标类型的准确识别率，提高响应的自适应性，从而，提高了在以上场景下基于机器视觉实现的各种自动化功能的可靠性与稳定性。

附图说明

下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于机器视觉的场景预测性拟合方法的总体流程图；

图2是本发明提供的一种基于机器视觉的场景预测性拟合系统的总体结构框图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行更加详细的描述。

需要说明的是：在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例，而不是全部的实施例，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面参考图1详细描述本发明公开的一种基于机器视觉的场景预测性拟合方法的具体实施例。

如图1所示，本实施例主要包括以下步骤：S1、利用机器视觉前端，获得包含目标的场景图像；S2、对于所述场景图像，采用卷积神经网络抽取场景特征图并矢量化，进而进行场景全局特征的张量编码，将识别目标组与场景全局特征张量执行自注意力交互解码，实现场景全局多目标并行识别，并行输出场景图像中每个目标的识别类型和位置识别框；S3、将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量，输入响应控制模块，获得针对控制目标的适应所述场景的响应控制量；所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。

在步骤S1中，机器视觉前端包括：至少一个摄像设备、图像处理单元、图像传输单元。摄像设备用于拍摄生成包含目标的场景图像，摄像设备一般包含成像镜头组件、CCD或CMOS传感器组件。例如，对于道路交通的应用，一个或者多个摄像设备可以安装在汽车车身，对汽车周边一定距离内的完整空间范围进行拍摄形成所述场景图像；对于制造工业、物流运输、建筑工程等方面的应用，一个或者多个摄像设备安装在工厂、仓储、工地的适当位置，并对实施生产制造、运输、施工等作业的完整空间范围进行拍摄形成所述场景图像。所述CCD或CMOS传感器组件对所述场景图像进行数字化、降噪、增强等必要的图像处理，以及对多个摄像设备拍摄的场景图像执行配准、匹配、拼接等图像处理，因属于现有技术的常规处理本申请不再具体赘述。所述图像传输单元通过通讯总线或者无线网络将图像处理之后的场景图像传递给本地或者云端的场景识别分析单元。

以上场景图像包含与机器视觉的各类具体应用相对应的目标。例如，在道路交通应用中，场景图像可能包括道路路面、标志线、交通指示牌、机动车、非机动车、行人、动植物、各类设施等各种类型的目标。本发明特别适用于高动态性和综合性场景，这些场景往往包含多类型目标和非预设类型目标，且面临着各个目标的位置和空间形态呈现高动态性变化的情况。当然，本申请提供的方法也可以适用于不具备高动态性、目标类型单一或类型固定的场景图像，本申请对此不做限定。

在步骤S2中，对于所述场景图像，基于其包含多类型目标和非预设类型目标，且各个目标的位置和空间形态呈现高动态性变化的特点，本步骤实现面向场景全局的特征提取，进而直接针对该场景下包含的目标进行集体识别，从而简化了流程，提升了目标识别效率，能够避免场景高动态变化情况下的重复识别预测、产生冗余识别框的问题，降低了先验样本和训练量且提升识别准确率。

具体来说，步骤S2具体包括以下子步骤。

步骤S2A、构造由样本场景图像和目标标签成对组成的训练集合，并构造初始化的卷积神经网络，将所述样本场景图像输入卷积神经网络进行训练，由所述卷积神经网络抽取样本场景图像的场景特征图并矢量化。

该样本场景图像和目标标签成对组成的训练集合表示为：

其中是训练集合的训练样本总量, 是训练样本的第张样本场景图像，是该图像的图像高度，是该图像的图像宽度；是训练集合的第张样本场景图像中最多个目标类型和目标位置框定位向量共同构成的目标标签，是预先设定的一个整数，且该整数显著大于样本场景图像中可能存在的目标个数；其中，是第个样本场景图像中第个目标的目标类型（当目标是场景背景时取值为），是第个样本场景图像中第个目标的目标位置框的中心点坐标、框高度值和框宽度值构成的4维向量。

所述初始化的卷积神经网络是由预训练ResNet模型的卷积层结构以及全卷积网络构成的，该预训练ResNet模型的卷积层结构表示为，其中是预训练ResNet模型卷积层所有参数构成的参数张量(tensor)，为输入该卷积神经网络的场景图像；该全卷积网络表示为，其中参数张量初始化为，且，表示所述卷积神经网络所生成的低分辨率的场景特征图；作为可选的取值，其中,。

进而，将样本场景图像作为场景图像，输入初始化的卷积神经网络，得到低分辨率的场景特征图。

所述场景特征图进行矢量化，使用个的卷积核拼接(concate)成的，将特征图降维成通道数为的新的高水平特征图，即

符号表示图像与卷积核之间的卷积运算,；将特征图和位置编码参数相加, 该位置编码参数初始化为，然后将两者之和求出的张量中的的平面形状拉直，从而将形状更改(表示为reshape)，并转置成为的张量，作为场景全局特征张量编码的编码器的输入, 记为，即

步骤S2B、构造并初始化用于对场景全局特征进行张量编码的编码器以及将识别目标组与场景全局特征张量执行自注意力交互解码的解码器；并将场景特征图输入所述编码器，获得场景全局特征的张量编码，再将识别目标组与场景全局特征张量执行自注意力交互解码。

其中，初始化用于编码器和解码器的参数张量，编码器的参数和解码器的共同组成所述参数张量。并且，初始化解码器中用于识别目标组的参数张量。

将矢量化后的所述输入自注意力机制的编码器，得到和同样形状的场景全局特征编码, 即,

其中，, 是编码器的参数张量。

将和识别目标组的参数张量通过交叉注意力机制的解码器，得到对识别目标组中的N个目标预测解码特征 , 即 ,

步骤S2C，构造并初始化进行场景全局多目标并行识别的目标类型识别模型和目标位置框识别模型；再将识别目标组的目标预测解码特征输入所述目标类型识别模型和目标位置框识别模型，并行输出场景图像中每个目标的识别类型和位置识别框。

初始化用于每个目标类型识别模型中的参数张量，以及初始化目标位置框识别模型的中的参数张量。

将N个目标预测解码特征分别通过目标类型识别模型和目标位置框识别模型，以上模型由一个前馈神经网络(Feed forward neural networks，FFN)构成，得到场景图像中含N个识别类型和位置识别框的集合 ,即。

步骤S2D、针对训练集合的样本场景图像，目标类型识别模型和目标位置框识别模型输出的N个目标识别类型和位置识别框的集合，与该训练集合的目标标签的偏差计算损失函数，并获得对模型参数的估计。

通过优化针对训练集合的样本场景图像输出的目标识别类型和位置识别框的集合与训练集合的目标标签之间的损失函数，获得对各个模型的参数估计，表示为：，,,,,, 。从而，完成利用训练集合的训练过程。

针对机器视觉前端提供的场景图像，并行输出的每个目标的识别类型和位置识别框表示为：

上述表示每个目标的识别类型和位置识别框的向量，作为场景的特征向量。在步骤S3中，将上述场景特征向量输入响应控制模块，获得针对控制目标的适应所述场景的响应控制量。

步骤S3中，所述响应控制模块通过循环滚动优化，对期望场景特征的期望场景特征向量和所述场景特征向量进行预测性拟合的比例系数赋值，从而生成拟合场景特征向量y_d。

进而，在步骤S3中，所述响应控制模块针对拟合场景特征向量y_d和场景特征向量，通过循环滚动优化对响应控制系数的实际值进行赋值，从而生成预测能够适配实际的场景特征向量的响应控制量u。

公式（八）

其中，是第k个周期的响应控制量，为第k+1-i个周期的响应控制量，为第k+1-i个周期的场景特征向量。

参见图2，本发明进而提供了一种基于机器视觉的场景预测性拟合系统，包括：

机器视觉前端301，用于获得包含目标的场景图像；

目标识别模块302，用于对于所述场景图像，采用卷积神经网络抽取场景特征图并矢量化，进而进行场景全局特征的张量编码，将识别目标组与场景全局特征张量执行自注意力交互解码，实现场景全局多目标并行识别，并行输出场景图像中每个目标的识别类型和位置识别框；

响应控制模块303，用于将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量，获得针对控制目标的适应所述场景的响应控制量；所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于机器视觉的场景预测性拟合方法，其特征在于，包括以下步骤：

步骤S1，利用机器视觉前端，获得包含目标的场景图像；

2.根据权利要求1所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求2所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤S2A中，所述样本场景图像和目标标签成对组成的训练集合表示为：

其中/>是训练集合的训练样本总量, />是训练样本的第/>张样本场景图像，/>是该图像的图像高度，/>是该图像的图像宽度；是训练集合的第/>张样本场景图像中最多/>个目标类型和目标位置框定位向量共同构成的目标标签，/>是预先设定的一个整数，且该整数显著大于样本场景图像中可能存在的目标个数；其中/> ，/>是第/>个样本场景图像中第/>个目标的目标类型，是第/>个样本场景图像中第/>个目标的目标位置框的中心点坐标、框高度值和框宽度值构成的4维向量。

4.根据权利要求3所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤S2A中，所述初始化的卷积神经网络是由预训练ResNet模型的卷积层结构以及全卷积网络构成的，该预训练ResNet模型的卷积层结构表示为，其中/>是预训练ResNet模型卷积层所有参数构成的参数张量，/>为输入该卷积神经网络的场景图像；该全卷积网络表示为/>，其中参数张量/>初始化为/>，且，/>表示所述卷积神经网络所生成的低分辨率的场景特征图。

5.根据权利要求4所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤S2A中，将样本场景图像作为场景图像/>，输入初始化的卷积神经网络，得到低分辨率的场景特征图/>；所述场景特征图/>进行矢量化，使用/>个 /> 的卷积核/>拼接(concate)成的/>，将特征图/>降维成通道数为/>的新的高水平特征图/>，即

符号表示图像/>与卷积核之间的卷积运算,/>；将特征图/>和位置编码参数/>相加, 该位置编码参数/>初始化为/>，然后将两者之和求出的张量中的/>的平面形状拉直，从而将形状更改/>，并转置成为/>的张量，作为场景全局特征张量编码的编码器的输入,记为/>，即

。

6.根据权利要求5所述的基于机器视觉的场景预测性拟合方法，其特征在于，步骤S2B中，初始化用于编码器和解码器的参数张量/>，编码器的参数/> 和解码器的/>共同组成所述参数张量 />；并且，初始化解码器中用于识别目标组的参数张量；将矢量化后的所述/>输入自注意力机制的编码器，得到和/>同样形状的场景全局特征编码/>, 即

,

, /> 是编码器的参数张量；将/> 和识别目标组的参数张量 />通过交叉注意力机制的解码器，得到对识别目标组中的N个目标预测解码特征, 即

,

是N个目标预测解码特征 />所组成的张量，/>是解码器的参数张量。

7.根据权利要求6所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤S2C中，初始化用于每个目标类型识别模型中的参数张量/>，以及初始化目标位置框识别模型/>的中的参数张量/>；将N个目标预测解码特征/>分别通过目标类型识别模型/>和目标位置框识别模型，得到场景图像中含N个识别类型和位置识别框的集合 /> , 即。

8.根据权利要求7所述的基于机器视觉的场景预测性拟合方法，其特征在于，步骤S2E中，针对机器视觉前端提供的场景图像，并行输出的每个目标的识别类型和位置识别框表示为：

是该场景图像包含的第/>个目标属于所有可能的识别类别的概率值构成的向量，/>则是第/>个目标的位置识别框定位的向量。

9.根据权利要求8所述的基于机器视觉的场景预测性拟合方法，其特征在于，步骤S3中，所述响应控制模块通过循环滚动优化，对期望场景特征的期望场景特征向量和所述场景特征向量/>进行预测性拟合的比例系数/>赋值，从而生成拟合场景特征向量y_d：

其中，λ表示预测性拟合的预测强度，用来表示预测性拟合相对于当前场景提前的时间周期的数量，为在预测强度λ条件下的第k个周期的拟合场景特征向量输出值，为第k+1-i个周期的期望场景特征向量的参考值，/>为第k+1-i个周期的实际的场景特征向量；/>为拟合的比例系数，通过循环滚动/>的取值，可得/>、/>、/>中的比重，基于循环滚动优化后的这三个参数，获得用于计算响应控制量的拟合场景特征向量y_d。

10.一种基于机器视觉的场景预测性拟合系统，其特征在于，包括：

机器视觉前端，用于获得包含目标的场景图像；