CN116664531A - 一种基于深度学习的大变形测量方法及系统 - Google Patents
一种基于深度学习的大变形测量方法及系统 Download PDFInfo
- Publication number
- CN116664531A CN116664531A CN202310654570.1A CN202310654570A CN116664531A CN 116664531 A CN116664531 A CN 116664531A CN 202310654570 A CN202310654570 A CN 202310654570A CN 116664531 A CN116664531 A CN 116664531A
- Authority
- CN
- China
- Prior art keywords
- deformation
- image
- displacement
- measurement
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000000691 measurement method Methods 0.000 title claims abstract description 13
- 238000006073 displacement reaction Methods 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000005259 measurement Methods 0.000 claims abstract description 53
- 238000010276 construction Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 13
- 230000008859 change Effects 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000035755 proliferation Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30164—Workpiece; Machine component
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的大变形测量方法及系统,通过对参考图及变形图的特征及变形信息进行提取完成初始值估计,再利用递归迭代的思想对位移初始值进行迭代细化,完成测量模型的构建,最后对得到的测量模型进行训练优化得到最终模型,将要测量的图像输入进训练好的测量模型即可得到图像间的变形场;相比于现有深度学习数字图像相关测量方法,本方法可以完成小变形及大变形的测量,通过在低尺度特征上进行初始值估计,然后使用估计的初始值在高尺度特征上进行迭代细化,保证了模型能够同时适应于小变形以及大变形测量,同传统方法相比,解决了数字图像相关方法中计算速度慢、需人为设置参数等影响,该方法不再依赖子区大小的设置,在测量高频率变化的变形场方面具有绝对优势。
Description
技术领域
本发明属于数字图像相关技术领域,尤其涉及到一种基于深度学习的大变形测量方法及系统。
背景技术
随着社会的蓬勃发展和科技的不断进步,测量技术也在持续快速发展,现代测量手段广泛应用于各类材料、部件结构及产品性能的研究,在基础制造业,汽车工业,航空航天以及国防等领域对生产制造和研究发挥巨大的反馈修正作用,在工业发展中具有举足轻重的地位;位移和应变这两个被测量通常能直接反映材料和结构的力学特性,从而为材料的选择提供理论支撑,通常进行测量的方法主要分为接触式测量与非接触式测量两种,接触式测量主要有位移计,应变片等,这种测量方式精度较高,且稳定性较好,但由于其需接触被测物,在一定程度上会影响测量结果的准确性,而非接触式测量主要有光弹法、条纹投影法、云纹干涉法和数字图像相关方法,其中,数字图像相关方法以其测量设备简单、环境要求较低等特殊优势从众多方法中脱颖而出,是目前光测力学研究领域最为活跃的测量方法。
数字图像相关(Digital image correlation)法,这是一种用于全场运动、变形测量的非接触式光学计量技术,这种技术只需要相机作为图像采集设备,就可以完成变形的测量,过去三十年中,数字图像相关(DIC)技术越来越多地应用于许多涉及非接触式测量领域,如实验力学,细胞力学和结构健康监测,传统DIC方法核心需要将物体变形前和变形后的图像分别作为参考图像和变形图像,并在参考图像上选择几个等距的子区,通过在变形图像上匹配最大相关性子区来跟踪子区的中心。这些子区中心也被称为种子点,可以通过跟踪种子点的位置来测量物体的表面变形,但一般为了保证较高的计算效率,往往会设置较少的种子点来描述表面变形,计算出所设种子点的位移后会根据插值得到整个全场的位移,这也会导致较大插值误差,因此种子点的数量必须权衡计算效率和插值精度,显然设计一个具有高计算效率和足够种子点的DIC算法意义非凡。
DIC方法其理论的研究主要集中于整像素搜索和亚像素配准,整像素搜索的方法如傅里叶变换,SIFT,遗传算法等;关于亚像素配准,自1989年,提出Newton-Raphson偏微分迭代法以来,是DIC方法发展过程中的一个重大突破,然而,当变形图像被更新时,Newton-Raphson方法需要重新计算Hessian矩阵,这大大限制了其计算效率,但亚像素配准的整体精度很高,后续有人提出了反向组合高斯牛顿迭代法来进行图像配准,又称IC-GN(Inversecompositional Gauss-Newton algorithm)法,它避免了Hessian矩阵的重复计算,成为最高效的亚像素匹配方法,到目前为止,IC-GN算法成为当前的DIC计算中亚像素配准的主流方法。
上述提到的主流方法的计算效率很难满足实时测量的要求,尤其对于分辨率较大的图像,若想获得全场每个像素的位移则无法满足,且该方法需要人为根据变形的类型确定子区大小与迭代参数,这依赖于人为的经验,对于一些复杂的变形需要迭代更长的时间,甚至对于一些高梯度变形会失效,近期,有些学者将深度学习应用于DIC测量以获得全场位移测量,这一方法能够极大的提高计算效率,但他们的网络仅仅只是对于U-net进行简单更改,网络只能进行小位移测量,且参数量多,同时泛化能力差。
近年来,随着数码相机高速、高分辨率的快速发展,导致了图像的激增以及每张图像中需要处理的像素的激增,对高精度的高速DIC的要求越来越迫切;此外,针对某些应用中实时运动跟踪的特殊要求,DIC方法的计算效率近年来变得越来越重要,研究一种速度快,鲁棒性好,且能克服传统方法带来不足的DIC方法意义重大。
发明内容
本发明的目的在于提供一种基于深度学习的大变形测量方法及系统,以克服现有深度学习数字图像相关方法只能针对小位移测量,且参数量多,计算效率低,同时泛化能力差的问题。
一种基于深度学习的大变形测量方法,包括以下步骤:
S1,利用布尔模型渲染得到参考图,施加变形场给参考图得到变形图,通过参考图、变形图及相应的变形场构建数据集;
S2,特征提取阶段:提取S1数据集中图像的特征信息与变形信息;
初始值估计阶段:根据图像的特征信息与变形信息完成位移初始值估计;
迭代细化阶段:对位移初始值进行迭代细化得到最终位移,完成测量模型构建;
S3,对测量模型进行训练优化,得到最终测量模型;
S4,采集图像,对采集的图像进行灰度处理,对于一系列帧图像,以第一帧图像作为参考图,后续每一帧图像都作为变形图,将参考图及变形图输入训练好的模型即可得到两帧图像之间的变形场。
进一步的,S1中,所述位移随机生成,指定像素坐标系为基准,在变形帧上检索参考帧对应像素,判断更新后的索引坐标是否越界,若发生越界,则重新生成位移。
进一步的,特征提取阶段,通过特征编码器提取图像不同尺度的特征信息其中参考图特征信息为/>变形图特征信息为/>上下文编码器提取图像不同尺度的变形信息/>
进一步的,初始值估计阶段,利用已得到的位移对变形图特征信息进行特征扭曲处理得到/>利用参考图特征信息与扭曲后的变形图特征信息构建相应代价体,进而得到运动信息表达式:
其中,Deformation是变形量,Dk-1是上一层计算出的变形场,Ck代表相关代价体, 是变形图扭曲后的特征,/>描述了扭曲的特征与参考特征之间的差异,Fm,Fc,Fφ,Fδ,F1,F2表示用卷积层进行线性映射;
将得到的Deformation与图像变形信息送入更新模块,通过GRU完成更新。
进一步的,所述GRU公式为:
zt=σ(Conv3×3([ht-1,xt],Wz))
rt=σ(Conv3×3([ht-1,xt],Wr))
其中, 与/>为图像变形信息/>在C通道上分割的两部分,Conv3×3表示3×3的卷积,[]表示拼接,σ与tanh表示激活函数,Wz、Wr、Wh为不同的权重参数;
通过GRU公式最终得到ht,令Dk=Conv(ht,Wk),Mask=Conv(ht,Wm)
其中,Conv表示卷积层,Wk与Wm是权重参数,Dk表示变形场,Mask表示掩码信息用于对变形场进行上采样。
进一步的,迭代细化阶段与初始值估计阶段相同,用来估计残差位移Δd,每次迭代所得位移估计值为:dk+1=Δd+dk,由此可得一系列位移估计值。
进一步的,所述一系列位移估计值均为原图像的1/4分辨率,通过掩码信息将其上采样4倍,输出一系列位移di。
进一步的,测量模型使用PyTorch框架实现,在RTX3090上进行训练,选择AdamW作为优化方法,损失定义为:
其中,γ=0.8,N表示训练轮次,dgt表示给定真实位移,di表示模型输出的一系列位移。
进一步的,训练优化结果采用平均端点误差进行评估,训练过程中,若当前结果在测试集上达到最好的平均端点误差(EPE),则确定该组训练参数,进而确定最终测量模型。
进一步的,数据集生成模块,用于生成一系列参考图与变形图以及相应的变形场;
模型构建模块,用于提取图像生成模块信息,完成位移初始值估计并进行迭代更新细化;
模型训练优化模块,对模型构建模块得到的模型进行训练优化,确定最优训练参数,进而确定最终模型;
测量模块,用于采集图像并进行灰度处理,将图像输入进训练好的测量模型得到图像之间的变形场。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种基于深度学习的大变形测量方法,通过对参考图及变形图的特征及变形信息进行提取完成初始值估计,再利用递归迭代的思想对位移初始值进行迭代细化,完成测量模型的构建,最后对得到的测量模型进行训练优化得到最终模型;相比于现有深度学习数字图像方法,本方法可以完成小变形及大变形的测量,通过在低尺度特征上进行初始值估计,然后使用估计的初始值在高尺度特征上进行迭代细化,保证了模型能够同时适应于小变形以及大变形测量;在迭代细化阶段,每次迭代共享模型参数,在不影响模型泛化能力的情况下减少了模型参数,降低了训练成本;本申请还解决了传统方法中计算速度慢,人为设置参数等影响,同传统方法相比,该方法不再依赖子区大小的设置,在测量高频率变化的位移场方面具有绝对优势。
优选的,在制作参考图及变形图阶段,针对大变形,当位移量较大时,会产生移进,移出的像素,通过指定像素坐标系为基准,在参考帧上检索变形帧对应像素,判断更新后的索引坐标是否越界,若发生越界,则重新生成位移。
优选的,初始值估计阶段,对变形图特征信息进行特征扭曲,通过特征扭曲减少参考图与变形图特征信息之间的特征空间距离,以便于处理大位移预测。
附图说明
图1为本发明实施例中基于深度学习的大变形测量方法流程图。
图2为本发明实施例中基于深度学习的大变形测量方法变形图生成示意图。
图3为本发明实施例中基于深度学习的大变形测量方法模型构建示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明一种基于深度学习的大变形测量方法,包括以下步骤:
S1,制作散斑数据集,即利用布尔模型渲染得到参考图,施加位移(变形场)给参考图得到变形图,参考图、变形图及相应的变形场构建数据集;
与传统方法不同,深度学习的方法需要具有真实位移的标签数据,一般来说,获得这样的真实标签是很困难的,因为真实世界场景中像素对应的位移不容易确定,该数据集应由参考和变形的成对斑点图像以及它们的相关变形场组成,它必须代表真实的图像和变形,以保证其有较强的泛化能力。
具体的,首先使用布尔模型渲染了200张256×256像素的参考帧,为了生成一组丰富的位移场,涵盖尽可能广泛的位移场类型,首先生成不同间隔的网格区域,然后随机生成这些结点的位移(变形场),这些位移(变形场)即当做真实位移,然后使用线性插值将其变为256×256尺寸,施加的随机位移介于[-30,30]像素之间;此外,针对大变形,当位移量较大时,会产生移进,移出的像素,这样使得无法在变形帧找到与参考帧像素的对应关系,这会增加错误的匹配数量,但是由于位移量为在[-30,30]之间,因此只有边界30像素会产生移进,移出的问题,具体解决思路如下:
首先,指定像素坐标系(像素索引从0开始)为基准,沿X方向指定向右为正,向左为负,沿Y方向指定向上为负,向下为正,由于在变形帧上检索参考帧对应像素,需要保证变形帧上的像素都来自于参考帧,因此只需判断更新后的索引坐标是否越界即可,每当越界情况发生时,重新生成位移,为了减少生成时间,对于X方向,使左边界的位移在[0,30]之间产生,右边界的位移在[-30,0]之间产生,同样的原理也用于Y方向;生成好位移后,将位移施加给参考图得到相应的变形图。
S2:模型构建;
模型的结构主要如图3所示,模型构建引入递归残差细化的思想,主要分为三个阶段:①特征提取,②初始值估计,③迭代更新细化,将三者组成端到端可训练架构。
输入的图像需要选择计算的感兴趣区域(ROI),选择完成后,将图像转化为灰度图并进行归一化处理,输入进网络,第一阶段完成特征提取,主要提取图像信息与变形信息,第二阶段根据这两部分信息完成位移初始值估计,第三部分以上一阶段估计的粗略位移值为初始值进行迭代细化,迭代细化的次数由程序外部设定,程序一次运行可同时输出X方向与Y方向的位移。
特征提取阶段
特征提取阶段主要由特征编码器与上下文编码器构成,特征编码器与上下文编码器结构完全相同,都采用金字塔结构,具体实现使用残差块构成,定义参考图为I1,变形图为I2,其中特征编码器用于提取图像不同尺度的特征信息上下文编码器用于提取图像不同尺度的变形信息/>这里的k表示不同尺度,它们中的每一个都充当一个特征描述符,这两者共同为后续位移估计提供准备,特征网络和上下文网络只需执行一次。
初始值估计阶段
初始值估计模块主要包含运动信息融合与更新模块,上一阶段由参考图与变形图得到的不同尺度的特征在后续操作中会使用已经得到位移对/>进行特征扭曲得到/>通过特征扭曲减少/>和/>之间的特征空间距离,以便于处理大位移预测,当初始位移为0时,则不需要扭曲;扭曲后的特征/>和/>使用二者构建相应代价体,运动信息融合具体表达式为:
其中,Deformation是变形量,Dk-1是上一层计算出的变形场,Ck代表相关代价体, 是变形图扭曲后的特征,/>描述了扭曲的特征与参考特征之间的差异,Fm,Fc,Fφ,Fδ,F1,F2表示用卷积层进行线性映射;
得到的运动特征Deformation会与上下文特征送入更新模块,经过GRU完成更新,GRU(Gated Recurrent Unit)是一种循环神经网络(RNN)的变体,它在序列数据建模中广泛使用,GRU使用了一种门控机制来调控信息的流动,以帮助网络更好地捕捉长期依赖关系。
GRU的公式可以表示为:
更新门(Update Gate):
zt=σ(Conv3×3([ht-1,xt],Wz))
重置门(Reset Gate):
rt=σ(Conv3×3([ht-1,xt],Wr))
候选隐藏状态(Candidate Hidden State):
最终隐藏状态(Final Hidden State):
其中,在C通道上分割成两部分:/>与/>令/> Conv3×3表示3×3的卷积,σ是Sigmoid函数;⊙表示逐元素相乘(Hadamard乘积),[]表示拼接,tanh表示激活函数,Wz、Wr、Wh为不同的权重参数;
GRU通过更新门控制了之前的隐藏状态和当前输入的信息对于下一个时间步的影响程度,重置门则决定了之前隐藏状态的哪些信息需要被遗忘,即GRU用于决定要丢弃哪些信息和要更新那些新信息;更新后的特征体通过卷积预测位移与掩码信息,其中掩码信息主要用于上采样,初始值估计得到的位移为1/4原图像分辨率。
通过GRU公式最终得到ht,令Dk=Conv(ht,Wk),Mask=Conv(ht,Wm)其中,Conv表示卷积层,Wk与Wm是权重参数,Dk表示变形场,Mask表示掩码信息用于对变形场进行上采样。
迭代细化阶段
该模块主要接收上一阶段的初始值d0,d0为初始值估计阶段所得变形场经掩码信息上采样后的位移,变形信息与特征信息/>其模块结构如图所示,与第二阶段相同,主要由运动信息融合与更新模块组成,该模块共执行n次,用来估计残差位移Δd,每次所得到的位移估计值为:dk+1=Δd+dk,得到一系列位移估计值{d1,…,dn},由于每次得到的位移估计值仅为原图像的1/4分辨率,因此通过掩码信息将其上采样4倍,以输出一系列位移,用于后续的训练。
S3:对测量模型进行训练优化,得到最终测量模型;
模型使用PyTorch框架实现,在RTX3090上进行训练,、选择AdamW作为优化方法,weight decay设为:0.5×10-4,batchsize设为32,学习率从0.002开始,损失函数选L1损失,预测序列为{d1,…,dN},给定真实位移dgt,损失定义为
在实验中设置γ=0.8,N表示训练轮次,训练轮次设为300轮次,di表示模型输出的一系列位移,此处真实位移dgt即为S1中施加给参考图的位移(变形场),在训练时以上述训练策略为基准,可根据不同的设备进行微调,使用平均端点误差(EPE)来进行评估,训练过程中,若当前结果在测试集上达到最好的平均端点误差(EPE),则保存这组训练参数,进而确定最终测量模型。
其中假设有一个大小为W×H的图像,其中W表示图像的宽度,H表示图像的高度。
对于每个像素位置(x,y),真实位移向量和估计位移向量(ui,j,vi,j),平均端点误差:
在这个公式中,我们对图像中的每个像素位置进行求和,并将最终结果除以图像的总像素数量W×H,得到平均端点误差(EPE),这样的计算方式可以在二维图像上衡量位移估计的准确性,对每个像素位置进行误差计算,并求取平均值,较小的平均端点误差(EPE)值表示位移估计结果与真实位移近,表示算法的准确性更高。
S4:图像变形测量
在进行测量实验时使用的实验装置也较为简单,拍摄软件使用pylon Viewer,相机采用aca2440-75uc,镜头采用ML-M0822UR,试样一端固定,另一端以10mm/s的恒定速度拉动,直至断裂;设置固定采集频率,将采集的图像进行灰度处理,然后将第一帧作为参考帧,后续帧作为变形帧,输入进训练好的测量模型,就可以通过模型计算得到变形场(X,Y方向的位移),完成位移的测量。
一种基于深度学习的大变形测量系统,包括数据集生成模块,模型构建模块,模型训练优化模块及测量模块,其中图像生成模块用于参考图、变形图和相应位移(变形场)的生成以及位移量较大时产生移进、移出像素的处理;模型构建模块用于提取参考图与变形图的特征信息与变形信息,完成位移初始值的估计并进行迭代细化;模型训练优化模块用于对模型构建模块得到的模型进行训练和优化,定义好损失函数并利用平均端点误差进行评估,找出最好的一组训练参数,进而得到最终的测量模型,利用测量模块采集图像并对采集的图像进行灰度处理,将要测量的参考图与变形图输入进训练好的测量模型得到图像之间的变形场,完成测量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的大变形测量方法,其特征在于,包括以下步骤:
S1,利用布尔模型渲染得到参考图,施加变形场给参考图得到变形图,通过参考图、变形图及相应的变形场构建数据集;
S2,特征提取阶段:提取S1数据集中图像的特征信息与变形信息;
初始值估计阶段:根据图像的特征信息与变形信息完成位移初始值估计;
迭代细化阶段:对位移初始值进行迭代细化得到最终位移,完成测量模型构建;
S3,对测量模型进行训练优化,得到最终测量模型;
S4,采集图像,对采集的图像进行灰度处理,对于一系列帧图像,以第一帧图像作为参考图,后续每一帧图像都作为变形图,将参考图及变形图输入训练好的模型即可得到两帧图像之间的变形场。
2.根据权利要求1所述的一种基于深度学习的大变形测量方法,其特征在于,S1中,所述位移随机生成,指定像素坐标系为基准,在变形帧上检索参考帧对应像素,判断更新后的索引坐标是否越界,若发生越界,则重新生成位移。
3.根据权利要求1所述的一种基于深度学习的大变形测量方法,其特征在于,特征提取阶段,通过特征编码器提取图像不同尺度的特征信息其中参考图特征信息为变形图特征信息为/>上下文编码器提取图像不同尺度的变形信息/>
4.根据权利要求1所述的一种基于深度学习的大变形测量方法,其特征在于,初始值估计阶段,利用已得到的位移对变形图特征信息进行特征扭曲处理得到/>利用参考图特征信息与扭曲后的变形图特征信息构建相应代价体,进而得到运动信息表达式:
其中,Deformation是变形量,Dk-1是上一层计算出的变形场,Ck代表相关代价体, 是变形图扭曲后的特征,/>描述了扭曲的特征与参考特征之间的差异,Fm,Fc,Fφ,Fδ,F1,F2表示用卷积层进行线性映射;
将得到的Deformation与图像变形信息送入更新模块,通过GRU完成更新。
5.根据权利要求4所述的一种基于深度学习的大变形测量方法,其特征在于,所述GRU公式为:
zt=σ(Conv3×3([ht-1,xt],Wz))
rt=σ(Conv3×3([ht-1,xt],Wr))
其中, 与/>为图像变形信息/>在C通道上分割的两部分,Conv3×3表示3×3的卷积,[]表示拼接,σ与tanh表示激活函数,Wz、Wr、Wh为不同的权重参数;
通过GRU公式最终得到ht,令Dk=Conv(ht,Wk),Mask=Conv(ht,Wm)其中,Conv表示卷积层,Wk与Wm是权重参数,Dk表示变形场,Mask表示掩码信息用于对变形场进行上采样。
6.根据权利要求1所述的一种基于深度学习的大变形测量方法,其特征在于,迭代细化阶段与初始值估计阶段相同,用来估计残差位移Δd,每次迭代所得位移估计值为:dk+1=Δd+dk,由此可得一系列位移估计值。
7.根据权利要求6所述的一种基于深度学习的大变形测量方法,其特征在于,所述一系列位移估计值均为原图像的1/4分辨率,通过掩码信息将其上采样4倍,输出一系列位移di。
8.根据权利要求1所述的一种基于深度学习的大变形测量方法,其特征在于,测量模型使用PyTorch框架实现,在RTX3090上进行训练,选择AdamW作为优化方法,损失定义为:
其中,γ=0.8,N表示训练轮次,dgt表示给定真实位移,di表示模型输出的一系列位移。
9.根据权利要求1所述的一种基于深度学习的大变形测量方法,其特征在于,训练优化结果采用平均端点误差进行评估,训练过程中,若当前结果在测试集上达到最好的平均端点误差(EPE),则确定该组训练参数,进而确定最终测量模型。
10.一种基于深度学习的大变形测量系统,其特征在于,包括:
数据集生成模块,用于生成一系列参考图与变形图以及相应的变形场;
模型构建模块,用于提取图像生成模块信息,完成位移初始值估计并进行迭代更新细化;
模型训练优化模块,对模型构建模块得到的模型进行训练优化,确定最优训练参数,进而确定最终模型;
测量模块,用于采集图像并进行灰度处理,将图像输入进训练好的测量模型得到图像之间的变形场。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310654570.1A CN116664531A (zh) | 2023-06-02 | 2023-06-02 | 一种基于深度学习的大变形测量方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310654570.1A CN116664531A (zh) | 2023-06-02 | 2023-06-02 | 一种基于深度学习的大变形测量方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116664531A true CN116664531A (zh) | 2023-08-29 |
Family
ID=87725770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310654570.1A Pending CN116664531A (zh) | 2023-06-02 | 2023-06-02 | 一种基于深度学习的大变形测量方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664531A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437363A (zh) * | 2023-12-20 | 2024-01-23 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
-
2023
- 2023-06-02 CN CN202310654570.1A patent/CN116664531A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437363A (zh) * | 2023-12-20 | 2024-01-23 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
CN117437363B (zh) * | 2023-12-20 | 2024-03-22 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889343B (zh) | 基于注意力型深度神经网络的人群密度估计方法及装置 | |
CN112750148B (zh) | 一种基于孪生网络的多尺度目标感知跟踪方法 | |
CN111626176B (zh) | 一种基于动态注意力机制的遥感目标快速检测方法及系统 | |
CN109271933A (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN114663509B (zh) | 一种关键点热力图引导的自监督单目视觉里程计方法 | |
CN106355195B (zh) | 用于测量图像清晰度值的系统及其方法 | |
CN111160294B (zh) | 基于图卷积网络的步态识别方法 | |
CN107229920B (zh) | 基于整合深度典型时间规整及相关修正的行为识别方法 | |
CN109145836A (zh) | 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法 | |
CN105931273B (zh) | 基于l0正则化的局部稀疏表示目标跟踪方法 | |
CN116664531A (zh) | 一种基于深度学习的大变形测量方法及系统 | |
CN111354033A (zh) | 基于特征匹配的数字图像测量方法 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN112750198A (zh) | 一种基于非刚性点云的稠密对应预测方法 | |
CN108182694A (zh) | 一种基于插值的运动估计与自适应视频重建方法 | |
CN108335316B (zh) | 一种基于小波的稳健光流计算方法 | |
CN112212861A (zh) | 一种基于单惯性传感器的轨迹还原方法 | |
CN114882524A (zh) | 一种基于全卷积神经网络的单目三维手势估计方法 | |
CN113838058A (zh) | 一种基于小样本分割的医学图像自动标注方法及系统 | |
CN113516693A (zh) | 一种快速通用的图像配准方法 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN115578460A (zh) | 基于多模态特征提取与稠密预测的机器人抓取方法与系统 | |
CN114396877B (zh) | 面向材料力学性能的智能三维位移场及应变场测量方法 | |
CN113379788B (zh) | 一种基于三元组网络的目标跟踪稳定性方法 | |
CN111531546B (zh) | 一种机器人位姿估计方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |