CN118172769A - 一种基于双域扩散方式的不稳定水线读数方法和系统 - Google Patents
一种基于双域扩散方式的不稳定水线读数方法和系统 Download PDFInfo
- Publication number
- CN118172769A CN118172769A CN202410555352.7A CN202410555352A CN118172769A CN 118172769 A CN118172769 A CN 118172769A CN 202410555352 A CN202410555352 A CN 202410555352A CN 118172769 A CN118172769 A CN 118172769A
- Authority
- CN
- China
- Prior art keywords
- image
- waterline
- diffusion
- domain
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 194
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 78
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 69
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 101150064138 MAP1 gene Proteins 0.000 claims description 3
- 238000005452 bending Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000005303 weighing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于双域扩散方式的不稳定水线读数方法和系统,包括:收集并预处理多张船体水尺源域图像;进行整体加噪得到噪声图像,将噪声图像中对应水线、倒影以及船体部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;将各部分噪声图像和对应的分类用文本分别输入扩散引导分类器,训练输出引导分类概率;将源域图像和引导分类概率输入到基于双域扩散方式的水线生成模型,训练输出生成的水线形状图像;将水线形状图像和源域图像分别输入动态图像读数网络,训练输出最优的水线读数;将待识别水尺图像和水线文本输入训练完成的整体模型,识别输出待识别水尺图像中的水线读数。本发明可以识别输出不稳定水线的读数。
Description
技术领域
本发明涉及水尺计重技术领域,尤其涉及一种基于双域扩散方式的不稳定水线读数方法和系统。
背景技术
水尺计重是通过对承运船舶的吃水及船用物料的测定,根据船舶有关图表,测算船舶排水量和有关物料重量,以计算载运货物重量的一种方式,而精确的船舶吃水水线读数是水尺计重中最基本的要求。目前,许多港口选择依靠人力使用目视测量水位,获取吃水读数,然而,一些观测点位于偏远和危险地区,依靠人工读取水位效率低、劳动密集且不方便,难以满足高精度和高效率的要求。而使用水位传感器,如超声波、测距仪、光学传感器和压力传感器等可以代替人工进行准确读数,但这些传感器安装和维护成本高,且对环境敏感,不宜长期使用。因此采用计算机视觉来进行水位的读取将是现在的主流研究方向。
常用的机器视觉读取水位的方法有使用二值化来处理图像,从而快速获取水线和水尺字符的像素坐标,通过坐标进行读数;也有使用深度卷积神经网络来训练学习图像特征,通过图像分割和目标检测双任务模型完成读数识别。然而,在水体清澈的情况下,水中存在的倒影会导致传统方法误识别水中的字符,造成读数混乱;且在沿海地区,水线受海浪影响较大,在恶劣天气下,海平面的波动起伏过大以至于单纯使用像素值或者深度学习网络无法识别正确的水线位置和形状;且摄像机一般离船体较远,拍摄出来的图像中字符字体较小难以识别,传统的图像处理方法和深度学习方法难以适用于上述情况下水线的识别和读数。
发明内容
本发明提供了一种基于双域扩散方式的不稳定水线读数方法和系统,
用以对不稳定水线进行读数。所述技术方案如下:
一方面,提供了一种基于双域扩散方式的不稳定水线读数方法,包括:
S1、收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
S2、对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
S3、将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
S4、将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
S5、将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
S6、将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
可选地,所述扩散引导分类器由词嵌入层、全连接层和分类头构成,其中所述词嵌入层用于对输入的分类用文本编码,将所述水线、倒影以及船体部分的噪声图像和编码后的文本分别输入所述全连接层,所述全连接层用于提取噪声图像特征,分类头用于向所述基于双域扩散方式的水线生成模型传递分类结果,所述分类结果通过限制扩散生成概率来对所述基于双域扩散方式的水线生成模型的扩散生成进行引导和控制,具体实现的算式如下所示:
(1)
公式(1)中表示为源域图像,y表示部分加噪图像,/>表示无条件扩散生成概率,/>表示所述扩散引导分类器输出的引导分类概率,/>表示受引导分类控制的扩散生成概率;
根据公式(1)训练一个可以对噪声图像分类的网络,将水线、倒影以及船体部分的噪声图像和对应的分类用文本:倒影、水线和船体,输入所述扩散引导分类器中,让所述扩散引导分类器具有对噪声图像分类的能力,从而获得区分水线和其他物体的能力。
可选地,所述基于双域扩散方式的水线生成模型包括:卷积层、源域扩散模型和目标域扩散模型,通过一种双重扩散隐式桥接的方法,来对图像进行生成式编码和解码,具体包括:
首先使用所述卷积层提取输入的源域图像中的特征生成源域图像编码,所述源域图像编码作为所述源域扩散模型的约束条件,用于约束所述源域扩散模型的生成,使所述源域扩散模型生成所述源域图像的潜在编码,所述潜在编码作为所述目标域扩散模型的约束条件,使用所述目标域扩散模型生成所述水线形状图像;
由于扩散过程从单个模型作用变为双域模型共同作用,扩散模型的扩散公式也需要发生改变来适配双域模型,通过一种求解概率流常微分方程ODE的扩散公式来改变原本单个模型的扩散过程,以适配双域模型的编码解码过程,具体公式如下:
(2)
公式(2)中表示图像在初始时刻下的扩散状态;/>表示图像在扩散过程中某一时刻的状态;/>分别表示初始时刻和完成扩散的时刻,/>表示单个扩散模型下的扩散公式,其公式如下所示:
(3)
公式(3)中为可学习的参数,/>为随机噪声;
以公式(2)为基础,给定源域图像样本,源域扩散模型/>,目标域扩散模型,设中间生成的潜在编码为/>,则由双域扩散方式得到目标图像/>的公式为:
;
(4)
公式(4)中,当时,为生成潜在编码的过程;当/>时,为生成水线形状图像的过程。
可选地,所述动态图像读数网络由多个局部卷积层、第一全连接层、单阶段目标检测分支、第二全连接层和记忆单元构成;
将所述生成的水线形状图像输入所述多个局部卷积层,所述多个局部卷积层的个数可人工设置,作用为迅速定位到所述生成的水线形状图像中生成的水线位置,提取包括弯曲度、波动频率的水线特征,通过所述第一全连接层输出水线坐标;
将所述源域图像输入所述单阶段目标检测分支,对所述源域图像中的水尺字符进行检测分类,获取字符坐标;
将所述水线坐标和所述字符坐标输入所述第二全连接层,输出单张源域图像的水线读数;
通过所述记忆单元实时存储连续多帧源域图像的水线读数结果,通过学习提取它们的不稳定波动特征,输出连续多帧源域图像的最优水线读数。
可选地,所述单阶段目标检测分支以残差网络为基础,基于卷积的深度将每张所述源域图像转换为三种尺度的三张特征图,并使用一种特征金字塔算法来对所述三种尺度的特征图进行特征融合,所述特征金字塔算法如下:
将小尺度特征图上采样1倍2次,使尺寸与大尺度特征图一致;
对中尺度特征图上采样1倍1次,使尺寸也与大尺度特征图一致;
将尺寸一致的三张特征图叠加在一起形成融合后的特征图,融合的特征图包含更加丰富的语义信息;
通过分类检测头来输出结果,所述分类检测头由若干卷积层和全连接层的组合构成,这些组合根据融合的特征图分别输出目标的检测框属性和目标的类别,若有n个预测的类别,则有n+1个卷积层与全连接层的组合来构成所述分类检测头,所述目标为字符,所述目标的类别为不同字符的个数。
可选地,所述记忆单元通过捕获时间序列数据中的方差不恒定性来提取数据的波动性,其计算公式如下:
;
上式中为预测值,也就是所述记忆单元输出的最优水线读数,/>为所述记忆单元存储的连续多帧源域图像水线读数的平均值;/>为可学习的参数,/>为t时刻存储的读数与/>的差值平方。
可选地,所述训练集中的源域图像整体加噪得到的噪声图像作为所述基于双域扩散方式的水线生成模型训练用标签;
所述基于双域扩散方式的水线生成模型的训练包括:前向加噪部分和反向去噪部分;
其中源域扩散模型的前向加噪部分是向源域图像添加噪声,以源域图像编码为约束生成噪声并和噪声图像标签计算损失,并反向传播训练模型参数;反向去噪部分通过对随机高斯噪声添加源域图像编码约束进行反向去噪,生成潜在编码;
目标域扩散模型的前向加噪部分也是向源域图像添加噪声,以潜在编码为约束生成噪声并和噪声图像标签计算损失,并反向传播训练模型参数;反向去噪部分通过对随机高斯噪声添加潜在编码约束进行反向去噪,生成目标水线图像;
从所述整体加噪的噪声图像中提取出的水线、倒影以及船体部分的噪声图像作为所述扩散引导分类器训练用标签,所述训练集中的源域图像的人工读数结果作为所述动态图像读数网络训练用标签。
另一方面,提供了一种基于双域扩散方式的不稳定水线读数系统,包括:
收集预处理模块,用于收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
加噪提取模块,用于对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
第一训练模块,用于将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
第二训练模块,用于将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
第三训练模块,用于将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
识别输出模块,用于将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于双域扩散方式的不稳定水线读数方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于双域扩散方式的不稳定水线读数方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
本发明搭建基于双域扩散方式的水线识别生成模型,通过以图生图(不需要文本约束)的方式进行水线形状的生成,并结合设计扩散引导分类器,让模型在训练过程中提取水体与倒影的特征,将它们分隔开来避免混淆,并提取形变水线的特征,生成更准确的水线形状,同时,设计一种动态图像读数网络来对连续多帧图像进行识别,输出最优的水线读数,以达到动态识别不稳定水线的效果,具体的:
1)相比于传统的水线识别图像处理方法,本发明基于双域扩散方式进行图生图(不需要文本约束)的水线生成,再结合扩散引导分类器能够提取水体与倒影以及其他物体的差异性,并在实际应用阶段中避免倒影混淆问题。
2)相比于一般的扩散模型,本发明的双域扩散方式模型可以在水尺计重任务不适合传统的文本约束的情况下,不需要文本作为约束条件生成目标图像(可以认为这种不需要文本为约束条件的生成方式为以图生图的方式),同时本发明的双域方式相比单域方式,加深了模型的深度,通过先生成潜在编码再生成目标图像的方式,解决了图生图扩散模型的生成可控性差的问题。
3)相比于通常的深度学习方法,本发明通过动态图像读数网络,通过单阶段目标检测分支提高了对图像中小目标船体字符的识别精度,并对多帧动态水线图像进行连续识别,进而输出最优的读数,解决了单一图像无法得到不稳定水线准确读数的技术痛点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于双域扩散方式的不稳定水线读数方法流程图;
图2为本发明实施例提供的另一种基于双域扩散方式的不稳定水线读数方法流程图;
图3为本发明实施例提供的扩散引导分类器结构示意图;
图4为本发明实施例提供的基于双域扩散方式的水线生成模型结构示意图;
图5为本发明实施例提供的动态图像读数网络结构示意图;
图6为本发明实施例提供的真实场景单张源域图像水线读数示意图;
图7是本发明实施例提供的动态图像读数网络结构示意图;
图8为本发明实施例提供的一种基于双域扩散方式的不稳定水线读数系统框图;
图9是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于双域扩散方式的不稳定水线读数方法,包括:
S1、收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
S2、对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
S3、将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
S4、将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
S5、将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
S6、将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
针对水线存在倒影形变且不稳定难以识别的问题,本发明实施例提出了一种识别方法,不需要以文本为约束条件,结合扩散引导分类器,通过双域扩散方式生成水线形状图像,避免了水体与倒影以及其他物体混淆的问题,结合动态图像读数网络来对连续多帧水线图像进行动态识别,在解决字符小难以识别问题的同时,通过多张图片识别取最优值来降低水线读数的不稳定性,达到沿海地区不稳定水线水尺读数寻优的任务需求,下面结合图2-图7,详细说明本发明实施例提供的一种基于双域扩散方式的不稳定水线读数方法,包括:
S1、收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
本发明实施例使用RGB摄像机,在港口或者沿海地区对着船舶的船体水尺部分进行拍摄,拍摄时水体和水尺都要出现在图像中且必须保证图像不模糊。拍摄后的数据形式为多个视频流,将这些视频逐帧提取为图片,作为某一时间段的连续多帧船体水尺源域图像,并对源域图像进行预处理,包括:进行图像增强工作,进行灰度图转化、图片像素均值归一化等操作,并将所有图像收集起来作为训练测试用的数据集,按照指定的比例划分为训练集与测试集。
S2、对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
本发明实施例添加的噪声可以为随机高斯噪声。
S3、将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
可选地,如图3所示,所述扩散引导分类器由词嵌入层、全连接层和分类头构成,其中所述词嵌入层用于对输入的分类用文本(水线、倒影以及船体的文本)编码,将所述水线、倒影以及船体部分的噪声图像和编码后的文本分别输入所述全连接层,所述全连接层用于提取噪声图像特征,分类头用于向所述基于双域扩散方式的水线生成模型传递分类结果,所述分类结果通过限制扩散生成概率来对所述基于双域扩散方式的水线生成模型的扩散生成进行引导和控制,具体实现的算式如下所示:
(1)
公式(1)中表示为源域图像,y表示部分加噪图像,/>表示无条件扩散生成概率,/>表示所述扩散引导分类器输出的引导分类概率,/>表示受引导分类控制的扩散生成概率;
根据公式(1)训练一个可以对噪声图像分类的网络,将水线、倒影以及船体部分的噪声图像和对应的分类用文本:倒影、水线和船体,输入所述扩散引导分类器中,让所述扩散引导分类器具有对噪声图像分类的能力,从而获得区分水线和其他物体(尤其倒影)的能力。
S4、将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
因为文字无法精确地描述水线形状和位置,导致水线识别任务无法用传统的文本约束来做图像生成,可采用图片作为约束,即图生图的方式做水线的扩散生成。然而当前的图生图扩散方法仍是通过将图片编码成文本输入到扩散模型中以输出图像,但编码器输出的文本不可控,同时水线存在不稳定问题,进一步导致了现有图生图扩散模型的生成可控性差,不适用于不稳定水线识别任务,本发明实施例通过基于双域扩散方式的水线生成模型不需要文本为约束条件,同时本发明的双域方式相比单域方式,加深了模型的深度,通过先生成潜在编码再生成目标图像的方式,解决了图生图扩散模型的生成可控性差的问题。
可选地,如图4所示,所述基于双域扩散方式的水线生成模型包括:卷积层、源域扩散模型和目标域扩散模型,通过一种双重扩散隐式桥接的方法,来对图像进行生成式编码和解码,具体包括:
首先使用所述卷积层提取输入的源域图像中的特征生成源域图像编码,所述源域图像编码作为所述源域扩散模型的约束条件,用于约束所述源域扩散模型的生成,使所述源域扩散模型生成所述源域图像的潜在编码,所述潜在编码作为所述目标域扩散模型的约束条件,使用所述目标域扩散模型生成所述水线形状图像;
由于扩散过程从单个模型作用变为双域模型共同作用,扩散模型的扩散公式也需要发生改变来适配双域模型,通过一种求解概率流常微分方程ODE的扩散公式来改变原本单个模型的扩散过程,以适配双域模型的编码解码过程,具体公式如下:(2)
公式(2)中表示图像在初始时刻下的扩散状态;/>表示图像在扩散过程中某一时刻的状态;/>分别表示初始时刻和完成扩散的时刻,/>表示单个扩散模型下的扩散公式,其公式如下所示:/>(3)
公式(3)中为可学习的参数,/>为随机噪声;
以公式(2)为基础,给定源域图像样本,源域扩散模型/>,目标域扩散模型,设中间生成的潜在编码为/>,则由双域扩散方式得到目标图像/>的公式为:
;
(4)
公式(4)中,当时,为生成潜在编码的过程;当/>时,为生成水线形状图像的过程。
S5、将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
可选地,如图5所示,所述动态图像读数网络由多个局部卷积层、第一全连接层、单阶段目标检测分支、第二全连接层和记忆单元构成;
将所述生成的水线形状图像输入所述多个局部卷积层,所述多个局部卷积层的个数可人工设置,作用为迅速定位到所述生成的水线形状图像中生成的水线位置,提取包括弯曲度、波动频率的水线特征,通过所述第一全连接层输出水线坐标;
将所述源域图像输入所述单阶段目标检测分支,对所述源域图像中的水尺字符进行检测分类,获取字符坐标;
将所述水线坐标和所述字符坐标输入所述第二全连接层,输出单张源域图像的水线读数;
本发明实施例的真实场景单张源域图像水线读数示意图如图6所示,这个图只是示意图,因为是在模型内部的图像,实际上并看不到,只能看到模型根据连续多帧源域图像输出的水线最优读数。
通过所述记忆单元实时存储连续多帧源域图像的水线读数结果,通过学习提取它们的不稳定波动特征,输出连续多帧源域图像的最优水线读数。
可选地,如图5所示,所述单阶段目标检测分支以残差网络为基础,基于卷积的深度将每张所述源域图像转换为三种尺度的三张特征图(例如小尺度特征图:128x128;中尺度特征图:256x256;大尺度特征图:512x512),并使用一种特征金字塔算法来对所述三种尺度的特征图进行特征融合,所述特征金字塔算法如下:
将小尺度特征图上采样1倍2次,使尺寸与大尺度特征图一致;
对中尺度特征图上采样1倍1次,使尺寸也与大尺度特征图一致;
将尺寸一致的三张特征图叠加在一起形成融合后的特征图,融合的特征图包含更加丰富的语义信息(可以解决图像中船体字符较小难识别的问题);
通过分类检测头来输出结果,所述分类检测头由若干卷积层和全连接层的组合构成,这些组合根据融合的特征图分别输出目标的检测框属性和目标的类别,若有n个预测的类别,则有n+1个卷积层与全连接层的组合来构成所述分类检测头,所述目标为字符,所述目标的类别为不同字符的个数(相同字符为一类别,不同字符为不同类别),如图7所示。
可选地,所述记忆单元通过捕获时间序列数据中的方差不恒定性来提取数据的波动性,其计算公式如下:
;
上式中为预测值,也就是所述记忆单元输出的最优水线读数,/>为所述记忆单元存储的连续多帧源域图像水线读数的平均值;/>为可学习的参数,/>为t时刻存储的读数与/>的差值平方。
将所述扩散分类引导器与所述基于双域扩散方式的水线生成模型连接,然后再与所述动态图像读数网络连接,完成整体模型的搭建。
可选地,所述训练集中的源域图像整体加噪得到的噪声图像作为所述基于双域扩散方式的水线生成模型训练用标签;
所述基于双域扩散方式的水线生成模型的训练包括:前向加噪部分和反向去噪部分;
其中源域扩散模型的前向加噪部分是向源域图像添加噪声(添加的可以为随机高斯噪声),以源域图像编码为约束生成噪声并和噪声图像标签计算损失,并反向传播训练模型参数;反向去噪部分通过对随机高斯噪声添加源域图像编码约束进行反向去噪,生成潜在编码;
目标域扩散模型的前向加噪部分也是向源域图像添加噪声(添加的可以为随机高斯噪声),以潜在编码为约束生成噪声并和噪声图像标签计算损失,并反向传播训练模型参数;反向去噪部分通过对随机高斯噪声添加潜在编码约束进行反向去噪,生成目标水线图像;
从所述整体加噪的噪声图像中提取出的水线、倒影以及船体部分的噪声图像作为所述扩散引导分类器训练用标签,所述训练集中的源域图像的人工读数结果作为所述动态图像读数网络训练用标签。
S6、将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
如图8所示,本发明实施例还提供了一种基于双域扩散方式的不稳定水线读数系统,包括:
收集预处理模块810,用于收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
加噪提取模块820,用于对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
第一训练模块830,用于将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
第二训练模块840,用于将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
第三训练模块850,用于将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
识别输出模块860,用于将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
本发明实施例提供的一种基于双域扩散方式的不稳定水线读数系统,其功能结构与本发明实施例提供的一种基于双域扩散方式的不稳定水线读数方法相对应,在此不再赘述。
图9是本发明实施例提供的一种电子设备900的结构示意图,该电子设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)901和一个或一个以上的存储器902,其中,所述存储器902中存储有至少一条指令,所述至少一条指令由所述处理器901加载并执行以实现上述基于双域扩散方式的不稳定水线读数方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于双域扩散方式的不稳定水线读数方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于双域扩散方式的不稳定水线读数方法,其特征在于,包括:
S1、收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
S2、对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
S3、将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
S4、将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
S5、将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
S6、将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
2.根据权利要求1所述的方法,其特征在于,所述扩散引导分类器由词嵌入层、全连接层和分类头构成,其中所述词嵌入层用于对输入的分类用文本编码,将所述水线、倒影以及船体部分的噪声图像和编码后的文本分别输入所述全连接层,所述全连接层用于提取噪声图像特征,分类头用于向所述基于双域扩散方式的水线生成模型传递分类结果,所述分类结果通过限制扩散生成概率来对所述基于双域扩散方式的水线生成模型的扩散生成进行引导和控制,具体实现的算式如下所示:
(1)
公式(1)中表示为源域图像,y表示部分加噪图像,/>表示无条件扩散生成概率,/>表示所述扩散引导分类器输出的引导分类概率,/>表示受引导分类控制的扩散生成概率;
根据公式(1)训练一个可以对噪声图像分类的网络,将水线、倒影以及船体部分的噪声图像和对应的分类用文本:倒影、水线和船体,输入所述扩散引导分类器中,让所述扩散引导分类器具有对噪声图像分类的能力,从而获得区分水线和其他物体的能力。
3.根据权利要求1所述的方法,其特征在于,所述基于双域扩散方式的水线生成模型包括:卷积层、源域扩散模型和目标域扩散模型,通过一种双重扩散隐式桥接的方法,来对图像进行生成式编码和解码,具体包括:
首先使用所述卷积层提取输入的源域图像中的特征生成源域图像编码,所述源域图像编码作为所述源域扩散模型的约束条件,用于约束所述源域扩散模型的生成,使所述源域扩散模型生成所述源域图像的潜在编码,所述潜在编码作为所述目标域扩散模型的约束条件,使用所述目标域扩散模型生成所述水线形状图像;
由于扩散过程从单个模型作用变为双域模型共同作用,扩散模型的扩散公式也需要发生改变来适配双域模型,通过一种求解概率流常微分方程ODE的扩散公式来改变原本单个模型的扩散过程,以适配双域模型的编码解码过程,具体公式如下:
(2)
公式(2)中表示图像在初始时刻下的扩散状态;/>表示图像在扩散过程中某一时刻的状态;/>分别表示初始时刻和完成扩散的时刻,/>表示单个扩散模型下的扩散公式,其公式如下所示:
(3)
公式(3)中为可学习的参数,/>为随机噪声;
以公式(2)为基础,给定源域图像样本,源域扩散模型/>,目标域扩散模型/>,设中间生成的潜在编码为/>,则由双域扩散方式得到目标图像/>的公式为:
;
(4)
公式(4)中,当时,为生成潜在编码的过程;当/>时,为生成水线形状图像的过程。
4.根据权利要求1所述的方法,其特征在于,所述动态图像读数网络由多个局部卷积层、第一全连接层、单阶段目标检测分支、第二全连接层和记忆单元构成;
将所述生成的水线形状图像输入所述多个局部卷积层,所述多个局部卷积层的个数可人工设置,作用为迅速定位到所述生成的水线形状图像中生成的水线位置,提取包括弯曲度、波动频率的水线特征,通过所述第一全连接层输出水线坐标;
将所述源域图像输入所述单阶段目标检测分支,对所述源域图像中的水尺字符进行检测分类,获取字符坐标;
将所述水线坐标和所述字符坐标输入所述第二全连接层,输出单张源域图像的水线读数;
通过所述记忆单元实时存储连续多帧源域图像的水线读数结果,通过学习提取它们的不稳定波动特征,输出连续多帧源域图像的最优水线读数。
5.根据权利要求4所述的方法,其特征在于,所述单阶段目标检测分支以残差网络为基础,基于卷积的深度将每张所述源域图像转换为三种尺度的三张特征图,并使用一种特征金字塔算法来对所述三种尺度的特征图进行特征融合,所述特征金字塔算法如下:
将小尺度特征图上采样1倍2次,使尺寸与大尺度特征图一致;
对中尺度特征图上采样1倍1次,使尺寸也与大尺度特征图一致;
将尺寸一致的三张特征图叠加在一起形成融合后的特征图,融合的特征图包含更加丰富的语义信息;
通过分类检测头来输出结果,所述分类检测头由若干卷积层和全连接层的组合构成,这些组合根据融合的特征图分别输出目标的检测框属性和目标的类别,若有n个预测的类别,则有n+1个卷积层与全连接层的组合来构成所述分类检测头,所述目标为字符,所述目标的类别为不同字符的个数。
6.根据权利要求4所述的方法,其特征在于,所述记忆单元通过捕获时间序列数据中的方差不恒定性来提取数据的波动性,其计算公式如下:
;
上式中为预测值,也就是所述记忆单元输出的最优水线读数,/>为所述记忆单元存储的连续多帧源域图像水线读数的平均值;/>为可学习的参数,/>为t时刻存储的读数与/>的差值平方。
7.根据权利要求1所述的方法,其特征在于,所述训练集中的源域图像整体加噪得到的噪声图像作为所述基于双域扩散方式的水线生成模型训练用标签;
所述基于双域扩散方式的水线生成模型的训练包括:前向加噪部分和反向去噪部分;
其中源域扩散模型的前向加噪部分是向源域图像添加噪声,以源域图像编码为约束生成噪声并和噪声图像标签计算损失,并反向传播训练模型参数;反向去噪部分通过对随机高斯噪声添加源域图像编码约束进行反向去噪,生成潜在编码;
目标域扩散模型的前向加噪部分也是向源域图像添加噪声,以潜在编码为约束生成噪声并和噪声图像标签计算损失,并反向传播训练模型参数;反向去噪部分通过对随机高斯噪声添加潜在编码约束进行反向去噪,生成目标水线图像;
从所述整体加噪的噪声图像中提取出的水线、倒影以及船体部分的噪声图像作为所述扩散引导分类器训练用标签,所述训练集中的源域图像的人工读数结果作为所述动态图像读数网络训练用标签。
8.一种基于双域扩散方式的不稳定水线读数系统,其特征在于,包括:
收集预处理模块,用于收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
加噪提取模块,用于对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
第一训练模块,用于将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
第二训练模块,用于将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
第三训练模块,用于将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
识别输出模块,用于将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
9.一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有指令,其特征在于,所述指令由所述处理器加载并执行以实现如权利要求1-7任一项所述基于双域扩散方式的不稳定水线读数方法。
10.一种计算机可读存储介质,所述存储介质中存储有指令,其特征在于,所述指令由处理器加载并执行以实现如权利要求1-7任一项所述基于双域扩散方式的不稳定水线读数方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410555352.7A CN118172769A (zh) | 2024-05-07 | 2024-05-07 | 一种基于双域扩散方式的不稳定水线读数方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410555352.7A CN118172769A (zh) | 2024-05-07 | 2024-05-07 | 一种基于双域扩散方式的不稳定水线读数方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118172769A true CN118172769A (zh) | 2024-06-11 |
Family
ID=91350722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410555352.7A Pending CN118172769A (zh) | 2024-05-07 | 2024-05-07 | 一种基于双域扩散方式的不稳定水线读数方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118172769A (zh) |
-
2024
- 2024-05-07 CN CN202410555352.7A patent/CN118172769A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113705478B (zh) | 一种基于改进YOLOv5的红树林单木目标检测方法 | |
CN111985376A (zh) | 一种基于深度学习的遥感影像舰船轮廓提取方法 | |
CN111079683A (zh) | 基于卷积神经网络的遥感图像云雪检测方法 | |
CN114049356B (zh) | 一种结构表观裂缝检测方法、装置及系统 | |
Wang et al. | NAS-YOLOX: a SAR ship detection using neural architecture search and multi-scale attention | |
CN112949380B (zh) | 一种基于激光雷达点云数据的智能水下目标识别系统 | |
CN112561876A (zh) | 基于图像的池塘和水库的水质检测方法及系统 | |
CN112017192A (zh) | 基于改进U-Net网络的腺体细胞图像分割方法及系统 | |
CN114821229B (zh) | 基于条件生成对抗网络的水下声学数据集增广方法及系统 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN111209886B (zh) | 一种基于深度神经网络的快速行人再识别方法 | |
CN117392488A (zh) | 一种数据处理方法、神经网络及相关设备 | |
CN116844055A (zh) | 轻量级sar舰船检测方法及系统 | |
CN116704324A (zh) | 基于水下图像的目标检测方法、系统、设备以及存储介质 | |
Vankadaru et al. | Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI | |
CN118172769A (zh) | 一种基于双域扩散方式的不稳定水线读数方法和系统 | |
CN111931689B (zh) | 一种在线提取视频卫星数据鉴别特征的方法 | |
CN114627183A (zh) | 一种激光点云3d目标检测方法 | |
CN116503737B (zh) | 基于空间光学图像的船舶检测方法和装置 | |
CN117409331B (zh) | 一种油气管线周边环境隐患检测方法、装置及存储介质 | |
CN117132914B (zh) | 通用电力设备识别大模型方法及系统 | |
CN115719368B (zh) | 一种多目标船舶跟踪方法及系统 | |
CN116258970B (zh) | 一种融合遥感图像与点云数据的地理要素识别方法 | |
EP4379669A1 (en) | Processing method for image recognition model, and related product | |
CN117036982B (zh) | 海上养殖区的光学卫星图像处理方法和装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |