CN117173475A - 基于机器视觉的场景预测性拟合方法和系统 - Google Patents
基于机器视觉的场景预测性拟合方法和系统 Download PDFInfo
- Publication number
- CN117173475A CN117173475A CN202311133417.0A CN202311133417A CN117173475A CN 117173475 A CN117173475 A CN 117173475A CN 202311133417 A CN202311133417 A CN 202311133417A CN 117173475 A CN117173475 A CN 117173475A
- Authority
- CN
- China
- Prior art keywords
- scene
- target
- tensor
- image
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004044 response Effects 0.000 claims abstract description 43
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 37
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明提供一种基于机器视觉的场景预测性拟合方法和系统,利用机器视觉前端,获得包含目标的场景图像;采用卷积神经网络抽取场景特征图并矢量化,并行输出场景图像中每个目标的识别类型和位置识别框;输入响应控制模块,获得针对控制目标的适应所述场景的响应控制量;本发明面向包含多类型目标和非预设类型目标且各个目标的位置和空间形态呈现高动态性变化的场景,本发明能够有效提升在以上场景下基于机器视觉实现目标识别、分析、判断的效率和准确率。
Description
技术领域
本发明涉及机器视觉技术领域,特别涉及一种基于机器视觉的场景预测性拟合方法和系统。
背景技术
机器视觉是以机器替代人类眼睛和大脑执行观察、测量、分析、判断的任务,其是当前人工智能技术发展的一个重要分支,在制造工业、道路交通、物流运输、建筑工程、机器人、视频安全监控乃至智慧家庭等领域都具备广泛的应用前景。
机器视觉是一项综合性工程,包括光学成像、图像信息分析处理、目标识别、自动控制等软硬件技术相互结合。当前,机器视觉系统在效率、精确度以及对各种光线环境适应性方面,都已经远远胜于人类自身。机器视觉对于单一目标或预设类型的多种目标识别,以及对目标特征的提取分析判断和自动控制响应方面,也都已经趋于成熟。
然而,在制造工厂、交通道路、物流仓储场地、建筑工地、室内空间等应用环境中,往往面临着高动态性和综合性场景,这些场景往往包含多类型目标和非预设类型目标,且面临着各个目标的位置和空间形态呈现高动态性变化的情况。
在针对这些高动态性和综合性场景应用机器视觉技术时候,往往存在目标未识别率、漏识别率或误判率高、时间延迟大的问题,进而导致对于当前场景无法做出实时、正确的判断和自动控制响应。例如,道路交通领域,基于机器视觉的自动驾驶目前比较成熟的应用仍然局限于高速公路、主干道等目标比较单一、稳定的简单场景,而在机动车、非机动车、行人、动植物、各类设施等目标混杂且高度变化的非主干道路、社区内部道路等场景下则基本无法应用。又例如,对于标准化程度高的制造工厂、物流仓储场地或建筑工地,存在类型简单、固定且分布规则有序的各类目标的场景下,各种基于机器视觉的自动化控制设备和智能机器人易于应用,但对于非标准化的场景,由于各类目标的类型多样且不明确、分布规则无序性和变化性大,则现有技术中还难以提供基于机器视觉实现自动响应控制的实用解决方案。
发明内容
本发明提供一种基于机器视觉的场景预测性拟合方法和系统。面向包含多类型目标和非预设类型目标且各个目标的位置和空间形态呈现高动态性变化的场景,本发明能够有效提升在以上场景下基于机器视觉实现目标识别、分析、判断的效率和准确率;进而,本发明执行适应以上场景特征的自主性的响应控制,提高了在以上场景下基于机器视觉实现的各种自动化功能的可靠性与稳定性。
本发明提供一种基于机器视觉的场景预测性拟合方法,包括以下步骤:
步骤S1,利用机器视觉前端,获得包含目标的场景图像;
步骤S2,对于所述场景图像,采用卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框;
步骤S3,将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量,输入响应控制模块,获得针对控制目标的适应所述场景的响应控制量;所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。
优选的是,所述步骤S2具体包括:
步骤S2A、构造由样本场景图像和目标标签成对组成的训练集合,并构造初始化的卷积神经网络,将所述样本场景图像输入卷积神经网络进行训练,由所述卷积神经网络抽取样本场景图像的场景特征图并矢量化;
步骤S2B、构造并初始化用于对场景全局特征进行张量编码的编码器以及将识别目标组与场景全局特征张量执行自注意力交互解码的解码器;并将场景特征图输入所述编码器,获得场景全局特征的张量编码,再将识别目标组与场景全局特征张量执行自注意力交互解码;
步骤S2C,构造并初始化进行场景全局多目标并行识别的目标类型识别模型和目标位置框识别模型;再将识别目标组的目标预测解码特征输入所述目标类型识别模型和目标位置框识别模型,并行输出场景图像中每个目标的识别类型和位置识别框;
步骤S2D、针对训练集合的样本场景图像,目标类型识别模型和目标位置框识别模型输出的N个目标识别类型和位置识别框的集合,与该训练集合的目标标签的偏差计算损失函数,并获得对模型参数的估计;
步骤S2E、完成训练后,针对机器视觉前端提供的场景图像,采用所述卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框。
优选的是,所述步骤S2A中,所述样本场景图像和目标标签成对组成的训练集合表
示为:
其中是训练集合的训练样本总量, 是训练样本的第张样本场景图
像,是该图像的图像高度,是该图像的图像宽度;是训练集合的第张样本
场景图像中最多个目标类型和目标位置框定位向量共同构成的目标标签,是预先设定
的一个整数,且该整数显著大于样本场景图像中可能存在的目标个数;其中 ,
是第个样本场景图像中第个目标的目标类型,是第个样本场景图像中第个目
标的目标位置框的中心点坐标、框高度值和框宽度值构成的4维向量。
优选的是,所述步骤S2A中,所述初始化的卷积神经网络是由预训练ResNet模型的
卷积层结构以及全卷积网络构成的,该预训练ResNet模型的卷积层结构表示为,
其中是预训练ResNet模型卷积层所有参数构成的参数张量,为输入该卷积
神经网络的场景图像;该全卷积网络表示为,其中参数张量初始化
为,且 ,表示所述卷积神经网络所生成的低分辨率的场
景特征图。
优选的是,所述步骤S2A中,将样本场景图像作为场景图像,输入初
始化的卷积神经网络,得到低分辨率的场景特征图;所述场景特征图进
行矢量化,使用个 的卷积核拼接(concate)成的,将特
征图降维成通道数为的新的高水平特征图,即
符号表示图像与卷积核之间的卷积运算,;
将特征图和位置编码参数相加, 该位置编码参数初始化为,然后将
两者之和求出的张量中的的平面形状拉直,从而将形状更改,并转置成
为的张量,作为场景全局特征张量编码的编码器的输入,记为,即
。
优选的是,步骤S2B中,初始化用于编码器和解码器的参数张量,编码器的参数 和解码器的共同组成所述参数张量 ;并且,初始化解
码器中用于识别目标组的参数张量 ;将矢量化后的所述输入自注意力机制的编
码器,得到和同样形状的场景全局特征编码, 即,
, 是编码器的参数张量;将 和识别目标组的参数张量 通过交叉注意力机制的解码器,得到对识别目标组中的N个目标预测解码特征 , 即 ,
是N个目标预测解码特征 所组成的张量,是解码器的参数张
量。
优选的是,所述步骤S2C中,初始化用于每个目标类型识别模型中的
参数张量,以及初始化目标位置框识别模型的中的参数张量;将N个目标预测解码特征分别通过目标类型识别模型和目
标位置框识别模型,得到场景图像中含N个识别类型和位置识别框的集合 , 即。
优选的是,步骤S2E中,针对机器视觉前端提供的场景图像,并行输出的每个目标
的识别类型和位置识别框表示为:
是该场景图像包含的第个目标属于所有可能的识别类别的概率值构成的向
量,则是第个目标的位置识别框定位的向量。
优选的是,步骤S3中,所述响应控制模块通过循环滚动优化,对期望场景特征的期
望场景特征向量和所述场景特征向量进行预测性拟合的比例系数赋值,
从而生成拟合场景特征向量yd:
其中,λ表示预测性拟合的预测强度,用来表示预测性拟合相对于当前场景提前的
时间周期的数量,为在预测强度λ条件下的第k个周期的拟合场景特征向量输出
值,为第k+1-i个周期的期望场景特征向量的参考值,为第k+1-i个
周期的实际的场景特征向量;为拟合的比例系数,通过循环滚动
的取值,可得、、中的比重,基于循环滚动优化后的这
三个参数,获得用于计算响应控制量的拟合场景特征向量yd。
本发明提供的一种基于机器视觉的场景预测性拟合系统,其特征在于,包括:
机器视觉前端,用于获得包含目标的场景图像;
目标识别模块,用于对于所述场景图像,采用卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框;
响应控制模块,用于将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量,获得针对控制目标的适应所述场景的响应控制量;所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。
本发明基于所述响应控制量,能够适应高动态性、多类型目标场景实现自主响应控制,提供对目标类型的准确识别率,提高响应的自适应性,从而,提高了在以上场景下基于机器视觉实现的各种自动化功能的可靠性与稳定性。
附图说明
下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于机器视觉的场景预测性拟合方法的总体流程图;
图2是本发明提供的一种基于机器视觉的场景预测性拟合系统的总体结构框图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。
需要说明的是:在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参考图1详细描述本发明公开的一种基于机器视觉的场景预测性拟合方法的具体实施例。
如图1所示,本实施例主要包括以下步骤:S1、利用机器视觉前端,获得包含目标的场景图像;S2、对于所述场景图像,采用卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框;S3、将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量,输入响应控制模块,获得针对控制目标的适应所述场景的响应控制量;所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。
在步骤S1中,机器视觉前端包括:至少一个摄像设备、图像处理单元、图像传输单元。摄像设备用于拍摄生成包含目标的场景图像,摄像设备一般包含成像镜头组件、CCD或CMOS传感器组件。例如,对于道路交通的应用,一个或者多个摄像设备可以安装在汽车车身,对汽车周边一定距离内的完整空间范围进行拍摄形成所述场景图像;对于制造工业、物流运输、建筑工程等方面的应用,一个或者多个摄像设备安装在工厂、仓储、工地的适当位置,并对实施生产制造、运输、施工等作业的完整空间范围进行拍摄形成所述场景图像。所述CCD或CMOS传感器组件对所述场景图像进行数字化、降噪、增强等必要的图像处理,以及对多个摄像设备拍摄的场景图像执行配准、匹配、拼接等图像处理,因属于现有技术的常规处理本申请不再具体赘述。所述图像传输单元通过通讯总线或者无线网络将图像处理之后的场景图像传递给本地或者云端的场景识别分析单元。
以上场景图像包含与机器视觉的各类具体应用相对应的目标。例如,在道路交通应用中,场景图像可能包括道路路面、标志线、交通指示牌、机动车、非机动车、行人、动植物、各类设施等各种类型的目标。本发明特别适用于高动态性和综合性场景,这些场景往往包含多类型目标和非预设类型目标,且面临着各个目标的位置和空间形态呈现高动态性变化的情况。当然,本申请提供的方法也可以适用于不具备高动态性、目标类型单一或类型固定的场景图像,本申请对此不做限定。
在步骤S2中,对于所述场景图像,基于其包含多类型目标和非预设类型目标,且各个目标的位置和空间形态呈现高动态性变化的特点,本步骤实现面向场景全局的特征提取,进而直接针对该场景下包含的目标进行集体识别,从而简化了流程,提升了目标识别效率,能够避免场景高动态变化情况下的重复识别预测、产生冗余识别框的问题,降低了先验样本和训练量且提升识别准确率。
具体来说,步骤S2具体包括以下子步骤。
步骤S2A、构造由样本场景图像和目标标签成对组成的训练集合,并构造初始化的卷积神经网络,将所述样本场景图像输入卷积神经网络进行训练,由所述卷积神经网络抽取样本场景图像的场景特征图并矢量化。
该样本场景图像和目标标签成对组成的训练集合表示为:
其中是训练集合的训练样本总量, 是训练样本的第张样本场景图
像,是该图像的图像高度,是该图像的图像宽度;是训练集合的第张样本
场景图像中最多个目标类型和目标位置框定位向量共同构成的目标标签,是预先设定
的一个整数,且该整数显著大于样本场景图像中可能存在的目标个数;其中 ,
是第个样本场景图像中第个目标的目标类型(当目标是场景背景时取值为),是第个样本场景图像中第个目标的目标位置框的中心点坐标、框高度值和框宽
度值构成的4维向量。
所述初始化的卷积神经网络是由预训练ResNet模型的卷积层结构以及全卷积网
络构成的,该预训练ResNet模型的卷积层结构表示为,其中是预训练ResNet模
型卷积层所有参数构成的参数张量(tensor),为输入该卷积神经网络的场景
图像;该全卷积网络表示为,其中参数张量初始化为,且 ,表示所述卷积神经网络所生成的低分辨率的场景
特征图;作为可选的取值,其中,。
进而,将样本场景图像作为场景图像,输入初始化的卷积神经网
络,得到低分辨率的场景特征图。
所述场景特征图进行矢量化,使用个 的卷积核拼
接(concate)成的,将特征图降维成通道数为的新的高水平特征图,即
符号表示图像与卷积核之间的卷积运算,;
将特征图和位置编码参数相加, 该位置编码参数初始化为,然后将
两者之和求出的张量中的的平面形状拉直,从而将形状更改(表示为reshape),并转置成为的张量,作为场景全局特征张量编码的编码器的输入,
记为,即
步骤S2B、构造并初始化用于对场景全局特征进行张量编码的编码器以及将识别目标组与场景全局特征张量执行自注意力交互解码的解码器;并将场景特征图输入所述编码器,获得场景全局特征的张量编码,再将识别目标组与场景全局特征张量执行自注意力交互解码。
其中,初始化用于编码器和解码器的参数张量,编码器的参
数 和解码器的共同组成所述参数张量 。并且,初始化解码器中用于识别目标组
的参数张量 。
将矢量化后的所述输入自注意力机制的编码器,得到和同样形状的场景全
局特征编码, 即,
其中,, 是编码器的参数张量。
将 和识别目标组的参数张量 通过交叉注意力机制的解码器,得到对识别
目标组中的N个目标预测解码特征 , 即 ,
是N个目标预测解码特征 所组成的张量,是解码器的参数张
量。
步骤S2C,构造并初始化进行场景全局多目标并行识别的目标类型识别模型和目标位置框识别模型;再将识别目标组的目标预测解码特征输入所述目标类型识别模型和目标位置框识别模型,并行输出场景图像中每个目标的识别类型和位置识别框。
初始化用于每个目标类型识别模型中的参数张量,以
及初始化目标位置框识别模型的中的参数张量。
将N个目标预测解码特征分别通过目标类型识别模型和目标位
置框识别模型,以上模型由一个前馈神经网络(Feed forward neural
networks,FFN)构成,得到场景图像中含N个识别类型和位置识别框的集合 ,即。
步骤S2D、针对训练集合的样本场景图像,目标类型识别模型和目标位置框识别模型输出的N个目标识别类型和位置识别框的集合,与该训练集合的目标标签的偏差计算损失函数,并获得对模型参数的估计。
通过优化针对训练集合的样本场景图像输出的目标识别类型和位置识别框的集
合与训练集合的目标标签之间的损失函数,获得对各个模型的参数估计,表示为:,,,,,, 。从而,完成利用训练集合的训练过程。
步骤S2E、完成训练后,针对机器视觉前端提供的场景图像,采用所述卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框。
针对机器视觉前端提供的场景图像,并行输出的每个目标的识别类型和位置识别
框表示为:
是该场景图像包含的第个目标属于所有可能的识别类别的概率值构成的向
量,则是第个目标的位置识别框定位的向量。
上述表示每个目标的识别类型和位置识别框的向量,作为场景的特征向量。在
步骤S3中,将上述场景特征向量输入响应控制模块,获得针对控制目标的适应所述场景
的响应控制量。
步骤S3中,所述响应控制模块通过循环滚动优化,对期望场景特征的期望场景特
征向量和所述场景特征向量进行预测性拟合的比例系数赋值,从而生成
拟合场景特征向量yd。
其中,λ表示预测性拟合的预测强度,用来表示预测性拟合相对于当前场景提前的
时间周期的数量,为在预测强度λ条件下的第k个周期的拟合场景特征向量输出
值,为第k+1-i个周期的期望场景特征向量的参考值,为第k+1-i个
周期的实际的场景特征向量;为拟合的比例系数,通过循环滚动
的取值,可得、、中的比重,基于循环滚动优化后的这
三个参数,获得用于计算响应控制量的拟合场景特征向量yd。
进而,在步骤S3中,所述响应控制模块针对拟合场景特征向量yd和场景特征向量,
通过循环滚动优化对响应控制系数的实际值进行赋值,从而生成预测能够适
配实际的场景特征向量的响应控制量u。
公式(八)
其中,是第k个周期的响应控制量, 为第k+1-i个周期的响应控制
量,为第k+1-i个周期的场景特征向量。
参见图2,本发明进而提供了一种基于机器视觉的场景预测性拟合系统,包括:
机器视觉前端301,用于获得包含目标的场景图像;
目标识别模块302,用于对于所述场景图像,采用卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框;
响应控制模块303,用于将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量,获得针对控制目标的适应所述场景的响应控制量;所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。
本发明基于所述响应控制量,能够适应高动态性、多类型目标场景实现自主响应控制,提供对目标类型的准确识别率,提高响应的自适应性,从而,提高了在以上场景下基于机器视觉实现的各种自动化功能的可靠性与稳定性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于机器视觉的场景预测性拟合方法,其特征在于,包括以下步骤:
步骤S1,利用机器视觉前端,获得包含目标的场景图像;
步骤S2,对于所述场景图像,采用卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框;
步骤S3,将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量,输入响应控制模块,获得针对控制目标的适应所述场景的响应控制量;所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。
2.根据权利要求1所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤S2具体包括:
步骤S2A、构造由样本场景图像和目标标签成对组成的训练集合,并构造初始化的卷积神经网络,将所述样本场景图像输入卷积神经网络进行训练,由所述卷积神经网络抽取样本场景图像的场景特征图并矢量化;
步骤S2B、构造并初始化用于对场景全局特征进行张量编码的编码器以及将识别目标组与场景全局特征张量执行自注意力交互解码的解码器;并将场景特征图输入所述编码器,获得场景全局特征的张量编码,再将识别目标组与场景全局特征张量执行自注意力交互解码;
步骤S2C,构造并初始化进行场景全局多目标并行识别的目标类型识别模型和目标位置框识别模型;再将识别目标组的目标预测解码特征输入所述目标类型识别模型和目标位置框识别模型,并行输出场景图像中每个目标的识别类型和位置识别框;
步骤S2D、针对训练集合的样本场景图像,目标类型识别模型和目标位置框识别模型输出的N个目标识别类型和位置识别框的集合,与该训练集合的目标标签的偏差计算损失函数,并获得对模型参数的估计;
步骤S2E、完成训练后,针对机器视觉前端提供的场景图像,采用所述卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框。
3.根据权利要求2所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤S2A中,所述样本场景图像和目标标签成对组成的训练集合表示为:
其中/>是训练集合的训练样本总量, />是训练样本的第/>张样本场景图像,/>是该图像的图像高度,/>是该图像的图像宽度;是训练集合的第/>张样本场景图像中最多/>个目标类型和目标位置框定位向量共同构成的目标标签,/>是预先设定的一个整数,且该整数显著大于样本场景图像中可能存在的目标个数;其中/> ,/>是第/>个样本场景图像中第/>个目标的目标类型,是第/>个样本场景图像中第/>个目标的目标位置框的中心点坐标、框高度值和框宽度值构成的4维向量。
4.根据权利要求3所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤S2A中,所述初始化的卷积神经网络是由预训练ResNet模型的卷积层结构以及全卷积网络构成的,该预训练ResNet模型的卷积层结构表示为,其中/>是预训练ResNet模型卷积层所有参数构成的参数张量,/>为输入该卷积神经网络的场景图像;该全卷积网络表示为/>,其中参数张量/>初始化为/>,且 ,/>表示所述卷积神经网络所生成的低分辨率的场景特征图。
5.根据权利要求4所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤S2A中,将样本场景图像作为场景图像/>,输入初始化的卷积神经网络,得到低分辨率的场景特征图/>;所述场景特征图/>进行矢量化,使用/>个 /> 的卷积核/>拼接(concate)成的/>,将特征图/>降维成通道数为/>的新的高水平特征图/>,即
符号表示图像/>与卷积核之间的卷积运算,/>;将特征图/>和位置编码参数/>相加, 该位置编码参数/>初始化为/>,然后将两者之和求出的张量中的/>的平面形状拉直,从而将形状更改/>,并转置成为/>的张量,作为场景全局特征张量编码的编码器的输入,记为/>,即
。
6.根据权利要求5所述的基于机器视觉的场景预测性拟合方法,其特征在于,步骤S2B中,初始化用于编码器和解码器的参数张量/>,编码器的参数/> 和解码器的/>共同组成所述参数张量 />;并且,初始化解码器中用于识别目标组的参数张量;将矢量化后的所述/>输入自注意力机制的编码器,得到和/>同样形状的场景全局特征编码/>, 即
,
, /> 是编码器的参数张量;将/> 和识别目标组的参数张量 />通过交叉注意力机制的解码器,得到对识别目标组中的N个目标预测解码特征, 即
,
是N个目标预测解码特征 />所组成的张量,/>是解码器的参数张量。
7.根据权利要求6所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤S2C中,初始化用于每个目标类型识别模型中的参数张量/>,以及初始化目标位置框识别模型/>的中的参数张量/>;将N个目标预测解码特征/>分别通过目标类型识别模型/>和目标位置框识别模型,得到场景图像中含N个识别类型和位置识别框的集合 /> , 即。
8.根据权利要求7所述的基于机器视觉的场景预测性拟合方法,其特征在于,步骤S2E中,针对机器视觉前端提供的场景图像,并行输出的每个目标的识别类型和位置识别框表示为:
是该场景图像包含的第/>个目标属于所有可能的识别类别的概率值构成的向量,/>则是第/>个目标的位置识别框定位的向量。
9.根据权利要求8所述的基于机器视觉的场景预测性拟合方法,其特征在于,步骤S3中,所述响应控制模块通过循环滚动优化,对期望场景特征的期望场景特征向量和所述场景特征向量/>进行预测性拟合的比例系数/>赋值,从而生成拟合场景特征向量yd:
其中,λ表示预测性拟合的预测强度,用来表示预测性拟合相对于当前场景提前的时间周期的数量,为在预测强度λ条件下的第k个周期的拟合场景特征向量输出值,为第k+1-i个周期的期望场景特征向量的参考值,/>为第k+1-i个周期的实际的场景特征向量;/>为拟合的比例系数,通过循环滚动/>的取值,可得/>、/>、/>中的比重,基于循环滚动优化后的这三个参数,获得用于计算响应控制量的拟合场景特征向量yd。
10.一种基于机器视觉的场景预测性拟合系统,其特征在于,包括:
机器视觉前端,用于获得包含目标的场景图像;
目标识别模块,用于对于所述场景图像,采用卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框;
响应控制模块,用于将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量,获得针对控制目标的适应所述场景的响应控制量;所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311133417.0A CN117173475A (zh) | 2023-09-05 | 2023-09-05 | 基于机器视觉的场景预测性拟合方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311133417.0A CN117173475A (zh) | 2023-09-05 | 2023-09-05 | 基于机器视觉的场景预测性拟合方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117173475A true CN117173475A (zh) | 2023-12-05 |
Family
ID=88940634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311133417.0A Pending CN117173475A (zh) | 2023-09-05 | 2023-09-05 | 基于机器视觉的场景预测性拟合方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173475A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109883429A (zh) * | 2019-04-15 | 2019-06-14 | 山东建筑大学 | 基于隐马尔科夫模型的零速检测方法以及室内行人惯性导航系统 |
CN110580502A (zh) * | 2019-08-20 | 2019-12-17 | 上海纺织节能环保中心 | 基于高斯混合的因子隐马尔可夫负荷分解方法 |
CN113591546A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
CN115761390A (zh) * | 2021-09-02 | 2023-03-07 | 上海哔哩哔哩科技有限公司 | 图像场景识别方法及装置 |
-
2023
- 2023-09-05 CN CN202311133417.0A patent/CN117173475A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109883429A (zh) * | 2019-04-15 | 2019-06-14 | 山东建筑大学 | 基于隐马尔科夫模型的零速检测方法以及室内行人惯性导航系统 |
CN110580502A (zh) * | 2019-08-20 | 2019-12-17 | 上海纺织节能环保中心 | 基于高斯混合的因子隐马尔可夫负荷分解方法 |
CN113591546A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
CN115761390A (zh) * | 2021-09-02 | 2023-03-07 | 上海哔哩哔哩科技有限公司 | 图像场景识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
"机器人运动轨迹的模仿学习综述", 《HTTPS://WWW.DINGDX.COM/NEWS/202205/27/7139.HTML》, 27 May 2022 (2022-05-27), pages 1 - 14 * |
徐智勇等: "用拟合函数法准确预测运动目标的轨迹", 《HTTPS://WWW.DOCIN.COM/P-1246701023.HTML》, 29 February 2020 (2020-02-29), pages 1 - 3 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417953B (zh) | 道路状况检测和地图数据更新方法、装置、系统及设备 | |
CN110532883B (zh) | 应用离线跟踪算法对在线跟踪算法进行改进 | |
EP3499414A1 (en) | Lightweight 3d vision camera with intelligent segmentation engine for machine vision and auto identification | |
CN111523378B (zh) | 一种基于深度学习的人体行为预测方法 | |
CN115861383B (zh) | 一种拥挤空间下多信息融合的行人轨迹预测装置及方法 | |
CN112381132A (zh) | 一种基于多个摄像头融合的目标物跟踪方法和系统 | |
Wang et al. | MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection | |
CN113781519A (zh) | 目标跟踪方法和目标跟踪装置 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
CN114170304B (zh) | 一种基于多头自注意力和置换注意力的相机定位方法 | |
CN115188066A (zh) | 基于协同注意力和多尺度融合的运动目标检测系统及方法 | |
CN113804182B (zh) | 一种基于信息融合的栅格地图创建方法 | |
CN113628334A (zh) | 视觉slam方法、装置、终端设备及存储介质 | |
CN117173475A (zh) | 基于机器视觉的场景预测性拟合方法和系统 | |
Li et al. | Feature point extraction and tracking based on a local adaptive threshold | |
CN115249269A (zh) | 目标检测方法、计算机程序产品、存储介质及电子设备 | |
Shi et al. | Cobev: Elevating roadside 3d object detection with depth and height complementarity | |
Fleck et al. | Low-Power Traffic Surveillance using Multiple RGB and Event Cameras: A Survey | |
CN117197727B (zh) | 一种基于全局时空特征学习的行为检测方法与系统 | |
CN116721132B (zh) | 一种工厂化养殖的鱼类多目标跟踪方法、系统及设备 | |
CN115578246B (zh) | 基于风格迁移的非对齐可见光和红外模态融合目标检测方法 | |
Alam | Jointly Learning Spatial, Angular, and Temporal Information for Enhanced Lane Detection | |
Gao et al. | Research on multitask model of object detection and road segmentation in unstructured road scenes | |
CN116912488A (zh) | 基于多目相机的三维全景分割方法及装置 | |
CN115937797A (zh) | 基于车辆轨迹的配料预警方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |