CN117523379B - 基于ai的水下摄影目标定位方法及系统 - Google Patents
基于ai的水下摄影目标定位方法及系统 Download PDFInfo
- Publication number
- CN117523379B CN117523379B CN202311546159.9A CN202311546159A CN117523379B CN 117523379 B CN117523379 B CN 117523379B CN 202311546159 A CN202311546159 A CN 202311546159A CN 117523379 B CN117523379 B CN 117523379B
- Authority
- CN
- China
- Prior art keywords
- target
- underwater
- photographic
- vector
- positioning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 68
- 239000013598 vector Substances 0.000 claims description 539
- 238000005065 mining Methods 0.000 claims description 75
- 230000004807 localization Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000010354 integration Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 15
- 230000003213 activating effect Effects 0.000 claims description 13
- 230000000877 morphologic effect Effects 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 10
- 230000000670 limiting effect Effects 0.000 claims description 7
- 238000011835 investigation Methods 0.000 description 18
- 238000011160 research Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 16
- 235000014653 Carica parviflora Nutrition 0.000 description 13
- 241000243321 Cnidaria Species 0.000 description 13
- 230000006399 behavior Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 238000012876 topography Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 241000258957 Asteroidea Species 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例涉及图像处理技术领域,具体涉及基于AI的水下摄影目标定位方法及系统,应用本申请实施例,通过加载目标定位框追踪标签到定位框输出网络并激活分支,得到了摄影目标动态定位框。这个定位框可以实时显示目标物体在连续的图像序列中的位置和移动轨迹,从而帮助科研人员准确地记录和分析目标物体的行为和状态。这样,可以大幅提高目标定位和识别的准确性和效率。
Description
技术领域
本申请涉及图像处理技术领域,特别涉及一种基于AI的水下摄影目标定位方法及系统。
背景技术
水下摄影调查科研通常指的是使用专业的水下摄影设备来对海洋生态、水生生物、海底地质等进行拍摄和记录,进而用于科学研究的一种方法。这种方法可以帮助科学家们了解并研究海洋生物的行为、生存环境,海底地貌以及海洋环境的变化等问题。
水下摄影不仅可以提供静态的图像数据,还可以通过视频的方式,提供动态的、连续的观察信息。这些信息对于科研人员来说非常宝贵,可以帮助他们从不同的角度、在更深层次上理解海洋生物和海洋环境。
在实际应用过程中,如何提高水下摄影目标定位的准确性和效率,是这个领域需要解决的其中一个技术问题。
发明内容
为改善相关技术中存在的技术问题,本申请提供了一种基于AI的水下摄影目标定位方法及系统。
第一方面,本申请实施例提供了一种基于AI的水下摄影目标定位方法,应用于目标定位系统,所述方法包括:
对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,所述水下摄影图像流的图像处理算力开销大于水下摄影目标定位网络的预配置算力开销;
基于所述目标定位建议向量对所述水下摄影图像流进行图像切割,得到所述水下摄影图像流对应的若干个水下摄影图像块,每一所述水下摄影图像块的图像处理算力开销不大于所述预配置算力开销;
依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
基于所述水下摄影目标描述向量,创建目标定位框追踪标签,所述目标定位框追踪标签为用作限制摄影目标动态定位框的框选区域的图像掩码信息,所述图像掩码信息包括所述水下摄影目标描述向量与参考定位框追踪掩码,所述参考定位框追踪掩码包括拟确定的水下摄影目标边缘像素集;
将所述目标定位框追踪标签加载到定位框输出网络的定位框输出分支,激活所述定位框输出分支依据所述目标定位框追踪标签对所述拟确定的水下摄影目标边缘像素集进行图像区域框选,得到图像区域框选结果;
基于所述参考定位框追踪掩码和所述图像区域框选结果,得到摄影目标动态定位框;其中,所述定位框输出分支由深度残差网络通过引导调试策略得到。
在一些方案下,所述定位框输出网络还包括检测框创建分支,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
基于所述水下摄影目标描述向量,创建目标定位框追踪标签,包括:
依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量;
基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量;
将所述水下摄影目标描述向量加载到所述检测框创建分支,得到所述目标定位框追踪标签;
其中,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量,包括:
依据所述水下摄影目标定位网络分别对每一所述水下摄影图像块进行摄影目标描述向量挖掘,得到所述水下摄影图像块中的至少一个局部目标描述向量;
挖掘每一所述局部目标描述向量的关联图像特征;
拼接各所述局部目标描述向量、以及每一所述局部目标描述向量对应的关联图像特征,得到所述目标描述向量;
其中,所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量之前,所述方法还包括针对每一所述目标描述向量实施如下处理:
识别所述目标描述向量对应的牵涉目标描述向量,所述牵涉目标描述向量为所述目标描述向量所在的水下摄影图像块中与所述目标描述向量的图像特征共性值符合设定条件的图像描述向量;
所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量,包括:
拼接各所述目标描述向量,以及各所述目标描述向量分别对应的牵涉目标描述向量,得到所述水下摄影目标描述向量。
在一些方案下,所述目标定位系统包括描述向量缓存分支和定位建议处理分支,所述对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,包括:
对所述描述向量缓存分支中记录的水下摄影图像流进行图像分类特征识别,生成目标定位建议向量;
将所述目标定位建议向量记录于所述定位建议处理分支中,所述目标定位建议向量至少包括下述一种:视觉定位建议向量、形态定位建议向量,所述形态定位建议向量包括下述至少一个:场景定位建议向量、局部定位建议向量;
其中,所述目标描述向量包括局部目标描述向量的查询特征,所述定位建议处理分支还存储每一水下摄影图像块对应的局部目标描述向量挖掘结果,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量,包括:
针对每一水下摄影图像块,依据所述水下摄影图像块对应的局部目标描述向量的查询特征,在所述描述向量缓存分支中提取局部目标描述向量;
依据所述水下摄影图像块对应的局部目标描述向量挖掘结果,在所述定位建议处理分支中进行查询,得到同一水下摄影图像块中的牵涉目标描述向量的目标定位建议向量,所述牵涉目标描述向量的挖掘结果与所述局部目标描述向量挖掘结果的特征共性值符合设定条件;
基于所述牵涉目标描述向量的目标定位建议向量,在所述描述向量缓存分支中提取局部牵涉目标描述向量;
拼接各局部目标描述向量以及各局部牵涉目标描述向量,得到水下摄影目标描述向量。
在一些方案下,所述目标定位系统中的定位框输出分支基于以下步骤调试所得:
对过往水下摄影图像流进行图像分类特征识别,得到所述过往水下摄影图像流对应的目标定位建议向量;
基于所述目标定位建议向量对所述过往水下摄影图像流进行图像切割,得到若干个过往水下摄影图像块;
依据所述水下摄影目标定位网络分别对各所述过往水下摄影图像块进行摄影目标描述向量挖掘所得到的结果,创建过往目标定位框追踪标签;
将所述过往目标定位框追踪标签加载到深度残差网络,激活所述深度残差网络依据所述过往目标定位框追踪标签输出过往摄影目标动态定位框;
基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支;
其中,所述基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支,包括:
对所述深度残差网络中预设网络变量进行锁定操作;
依据所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,确定三元组调试代价;
基于所述三元组调试代价,调整所述深度残差网络中没有被锁定的网络变量,得到所述定位框输出分支。
在一些方案下,所述方法还包括:
获取所述摄影目标动态定位框对应的置信权重,所述置信权重反映所述摄影目标动态定位框的目标定位精度;
基于所述摄影目标动态定位框和所述置信权重,生成置信权重决策网络;
基于所述置信权重决策网络对所述定位框输出分支生成的、针对同一水下摄影图像流的不同摄影目标动态定位框进行筛选,得到所述同一水下摄影图像流的最终目标动态定位框。
基于同样的发明构思,还提供一种目标定位系统,包括:
特征识别模块,用于对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,所述水下摄影图像流的图像处理算力开销大于水下摄影目标定位网络的预配置算力开销;
图像切割模块,用于基于所述目标定位建议向量对所述水下摄影图像流进行图像切割,得到所述水下摄影图像流对应的若干个水下摄影图像块,每一所述水下摄影图像块的图像处理算力开销不大于所述预配置算力开销;
向量挖掘模块,用于依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
定位追踪模块,用于基于所述水下摄影目标描述向量,创建目标定位框追踪标签,所述目标定位框追踪标签为用作限制摄影目标动态定位框的框选区域的图像掩码信息,所述图像掩码信息包括所述水下摄影目标描述向量与参考定位框追踪掩码,所述参考定位框追踪掩码包括拟确定的水下摄影目标边缘像素集;
区域框选模块,用于将所述目标定位框追踪标签加载到定位框输出网络的定位框输出分支,激活所述定位框输出分支依据所述目标定位框追踪标签对所述拟确定的水下摄影目标边缘像素集进行图像区域框选,得到图像区域框选结果;
目标定位模块,用于基于所述参考定位框追踪掩码和所述图像区域框选结果,得到摄影目标动态定位框;其中,所述定位框输出分支由深度残差网络通过引导调试策略得到。
在一些方案下,所述定位框输出网络还包括检测框创建分支,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
基于所述水下摄影目标描述向量,创建目标定位框追踪标签,包括:
依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量;
基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量;
将所述水下摄影目标描述向量加载到所述检测框创建分支,得到所述目标定位框追踪标签;
其中,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量,包括:
依据所述水下摄影目标定位网络分别对每一所述水下摄影图像块进行摄影目标描述向量挖掘,得到所述水下摄影图像块中的至少一个局部目标描述向量;
挖掘每一所述局部目标描述向量的关联图像特征;
拼接各所述局部目标描述向量、以及每一所述局部目标描述向量对应的关联图像特征,得到所述目标描述向量;
其中,所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量之前,所述目标定位系统还用于针对每一所述目标描述向量实施如下处理:识别所述目标描述向量对应的牵涉目标描述向量,所述牵涉目标描述向量为所述目标描述向量所在的水下摄影图像块中与所述目标描述向量的图像特征共性值符合设定条件的图像描述向量;则所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量,包括:拼接各所述目标描述向量,以及各所述目标描述向量分别对应的牵涉目标描述向量,得到所述水下摄影目标描述向量。
在一些方案下,所述目标定位系统包括描述向量缓存分支和定位建议处理分支,所述对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,包括:
对所述描述向量缓存分支中记录的水下摄影图像流进行图像分类特征识别,生成目标定位建议向量;
将所述目标定位建议向量记录于所述定位建议处理分支中,所述目标定位建议向量至少包括下述一种:视觉定位建议向量、形态定位建议向量,所述形态定位建议向量包括下述至少一个:场景定位建议向量、局部定位建议向量;
其中,所述目标描述向量包括局部目标描述向量的查询特征,所述定位建议处理分支还存储每一水下摄影图像块对应的局部目标描述向量挖掘结果,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量,包括:
针对每一水下摄影图像块,依据所述水下摄影图像块对应的局部目标描述向量的查询特征,在所述描述向量缓存分支中提取局部目标描述向量;
依据所述水下摄影图像块对应的局部目标描述向量挖掘结果,在所述定位建议处理分支中进行查询,得到同一水下摄影图像块中的牵涉目标描述向量的目标定位建议向量,所述牵涉目标描述向量的挖掘结果与所述局部目标描述向量挖掘结果的特征共性值符合设定条件;
基于所述牵涉目标描述向量的目标定位建议向量,在所述描述向量缓存分支中提取局部牵涉目标描述向量;
拼接各局部目标描述向量以及各局部牵涉目标描述向量,得到水下摄影目标描述向量。
在一些方案下,所述目标定位系统中的定位框输出分支基于以下步骤调试所得:
对过往水下摄影图像流进行图像分类特征识别,得到所述过往水下摄影图像流对应的目标定位建议向量;
基于所述目标定位建议向量对所述过往水下摄影图像流进行图像切割,得到若干个过往水下摄影图像块;
依据所述水下摄影目标定位网络分别对各所述过往水下摄影图像块进行摄影目标描述向量挖掘所得到的结果,创建过往目标定位框追踪标签;
将所述过往目标定位框追踪标签加载到深度残差网络,激活所述深度残差网络依据所述过往目标定位框追踪标签输出过往摄影目标动态定位框;
基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支;
其中,所述基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支,包括:
对所述深度残差网络中预设网络变量进行锁定操作;
依据所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,确定三元组调试代价;
基于所述三元组调试代价,调整所述深度残差网络中没有被锁定的网络变量,得到所述定位框输出分支。
在一些方案下,所述目标定位系统还包括定位框筛选模块,用于:
获取所述摄影目标动态定位框对应的置信权重,所述置信权重反映所述摄影目标动态定位框的目标定位精度;
基于所述摄影目标动态定位框和所述置信权重,生成置信权重决策网络;
基于所述置信权重决策网络对所述定位框输出分支生成的、针对同一水下摄影图像流的不同摄影目标动态定位框进行筛选,得到所述同一水下摄影图像流的最终目标动态定位框。
第二方面,本申请还提供了一种目标定位系统,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
第三方面,本申请还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并于说明书一起用于解释本申请的原理。
图1是本申请实施例提供的一种基于AI的水下摄影目标定位方法的流程示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与本申请的一些方面相一致的装置和方法的例子。
需要说明的是,本申请的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例所提供的方法实施例可以在目标定位系统、计算机设备或者类似的运算装置中执行。以运行在目标定位系统上为例,目标定位系统可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器,可选地,上述目标定位系统还可以包括用于通信功能的传输装置。本领域普通技术人员可以理解,上述结构仅为示意,其并不对上述目标定位系统的结构造成限定。例如,目标定位系统还可包括比上述所示更多或者更少的组件,或者具有与上述所示不同的配置。
存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的一种基于AI的水下摄影目标定位方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至目标定位系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括目标定位系统的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于此,请参阅图1,图1是本申请实施例所提供的一种基于AI的水下摄影目标定位方法的流程示意图,该方法应用于目标定位系统,进一步可以包括步骤110-步骤160。
步骤110、对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,所述水下摄影图像流的图像处理算力开销大于水下摄影目标定位网络的预配置算力开销。
在本申请实施例中,针对步骤110的相关名词解释如下。
水下摄影图像流:这是一系列连续捕获的水下图像。例如,在水下考古研究中,潜水员或者无人潜水器可能会使用专门的摄影设备在海底拍摄大量连续的图像,这些图像组成的就是水下摄影图像流。
图像分类特征识别:这是一种计算机视觉技术,它可以自动分析和识别图像中的特定特征。比如在一个珊瑚礁保护项目中,研究人员可能需要对海底的珊瑚礁种类进行分类,那么他们就需要通过图像分类特征识别来自动识别各种珊瑚礁的特征。
目标定位建议向量:这是一个指示图像中可能存在目标位置的数据结构。在的例子中,目标定位建议向量可能基于图像分类特征识别的结果,指出在哪些地方可能存在珊瑚礁。
图像处理算力开销:这是指进行图像处理所需的计算资源。在图像分类特征识别过程中,可能需要大量的计算资源来分析图像并识别其中的特征。如果项目预算有限,或者使用的设备计算能力有限,那么这个开销就需要特别关注。
水下摄影目标定位网络:这是一种机器学习模型,专门用于在水下摄影图像流中定位目标物体。比如在的例子中,水下摄影目标定位网络可能被训练用于检测和定位各种类型的珊瑚礁。
预配置算力开销:这是指为处理任务预先设定的计算资源。比如,研究团队可能根据他们的硬件设备、预算以及任务需求,预先设定一个能接受的最大计算开销。
在步骤110中,科研团队首先对从水下摄影设备(例如潜水机器人)得到的水下摄影图像流进行图像分类特征识别。假设他们的目标是识别并定位海底的珊瑚礁,他们可以利用图像分类特征识别技术来识别出图像中的珊瑚礁特征,并生成一个目标定位建议向量,指出哪些区域可能存在珊瑚礁。
然而,这个过程可能会消耗大量的计算资源,甚至超过了他们设备的预配置算力开销。为了解决这个问题,他们可以使用一个预先训练好的水下摄影目标定位网络,这个网络可以在保证精度的同时,减少计算资源的消耗,使得图像处理算力开销不超过预配置算力开销。
步骤120、基于所述目标定位建议向量对所述水下摄影图像流进行图像切割,得到所述水下摄影图像流对应的若干个水下摄影图像块,每一所述水下摄影图像块的图像处理算力开销不大于所述预配置算力开销。
在本申请实施例中,图像切割是一种图像处理方法,目的是将一个大图像分解成若干个小的图像块,每个图像块包含的信息更为集中,有助于后续进行更精确的目标定位和识别。图像切割的过程通常需要基于某种准则,例如色彩、纹理或形状等特征进行。
举例来说,步骤120在水下摄影调查科研行业中可能的应用场景如下。
假设科研人员正在进行珊瑚礁生态的研究,他们会使用专业的水下摄影设备捕捉到大量的海底图像。然而,由于海底环境复杂,单张图像中可能包含了多个研究目标(例如不同种类的珊瑚、鱼类等)。在这种情况下,如果直接对整张图像进行目标定位和识别,既计算量巨大,也难以得到准确结果。
因此,他们会首先根据前一步获得的目标定位建议向量,对原始图像进行图像切割,将其分解为若干个图像块。每个图像块都包含了一个可能的目标位置,而且其内容相对集中,大大降低了后续处理的难度和复杂性。
例如,原始图像中可能同时出现了脑珊瑚、火焰鱼和海星等多个目标,经过图像切割后,可能得到三个图像块,每个图像块分别只包含一种目标,这样就可以针对每个图像块进行更精确的目标定位和识别。
步骤130、依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量。
在本申请实施例中,摄影目标描述向量是一种数据结构,用于表示和描述图像块中目标物体的关键特征。这些特征可能包括形状、颜色、纹理等多种属性,并通过向量的形式进行表达。
例如,在水下摄影调查科研行业中,步骤130可能会如下进行:
在前一步骤中,科研人员已经根据目标定位建议向量,将水下摄影图像流切割成了若干个图像块。现在,他们需要对每个图像块进行进一步分析,以便更准确地识别和定位其中的目标物体。
假设科研人员正在研究珊瑚礁生态,他们可能会使用预先训练好的深度学习模型(即水下摄影目标定位网络),对每个图像块进行处理,从中提取出珊瑚礁的关键特征,例如其形状、颜色、纹理等,并以向量的形式进行表达。这个向量就是所谓的摄影目标描述向量。
通过这样的方式,科研人员可以获取到每个图像块中目标物体的详细信息,为后续的目标跟踪、识别和分析提供了基础。同时,摄影目标描述向量的形式也方便了数据的存储和处理,大大提高了研究效率。
步骤140、基于所述水下摄影目标描述向量,创建目标定位框追踪标签,所述目标定位框追踪标签为用作限制摄影目标动态定位框的框选区域的图像掩码信息,所述图像掩码信息包括所述水下摄影目标描述向量与参考定位框追踪掩码,所述参考定位框追踪掩码包括拟确定的水下摄影目标边缘像素集。
在本申请实施例中,步骤140的相关名词解释如下。
目标定位框追踪标签:这是一种用于表示目标物体位置和移动轨迹的数据结构。通常通过图像掩码信息来实现,使得在后续处理中能够准确地跟踪和定位目标物体。
图像掩码信息:在图像处理中,掩码是一种可以定义图像特定区域的方式,被掩码覆盖的区域将被选中进行后续处理。在此场景中,图像掩码信息是用于限制摄影目标动态定位框的框选区域。
参考定位框追踪掩码:这是一个特殊类型的图像掩码,用于确定和追踪目标物体的边缘像素集。
假设正在进行水下考古研究,使用水下摄影设备拍摄海底遗址的图像。在前面的步骤中,已经将原始图像切割成若干个图像块,并从每个图像块中提取出了摄影目标描述向量。
在步骤140中,会根据这些描述向量,创建对应的目标定位框追踪标签。这些标签可以帮助在后续步骤中准确地追踪和定位每个图像块中的目标物体。
具体来说,会首先创建一个参考定位框追踪掩码,这个掩码包含了拟确定的水下摄影目标边缘像素集,即想要追踪的目标物体的边缘信息。然后,将这个掩码与摄影目标描述向量结合,生成一个新的图像掩码信息,这就是所谓的目标定位框追踪标签。
通过这样的方式,可以有效地限制摄影目标动态定位框的框选区域,保证在后续的处理中能够准确地跟踪和定位目标物体,从而提高水下考古研究的效率和准确性。
步骤150、将所述目标定位框追踪标签加载到定位框输出网络的定位框输出分支,激活所述定位框输出分支依据所述目标定位框追踪标签对所述拟确定的水下摄影目标边缘像素集进行图像区域框选,得到图像区域框选结果。
在本申请实施例中,步骤150的相关名词解释如下。
定位框输出网络:这是一种特殊的神经网络,专门用于生成和更新目标定位框。它可以根据输入的图像和目标定位框追踪标签,自动计算出目标物体在新的图像中的位置。
定位框输出分支:这是定位框输出网络中的一个组成部分,负责处理特定的任务。在这里,它被激活来依据目标定位框追踪标签对拟确定的水下摄影目标边缘像素集进行图像区域框选。
图像区域框选:这是一种图像处理方法,通过在图像上划定一个或多个矩形区域,选择需要进一步处理或分析的图像部分。
在水下考古研究中,可能需要追踪一件正在被挖掘的遗物。在前面的步骤中,已经提取了描述这个遗物的摄影目标描述向量,并创建了相应的目标定位框追踪标签。
在步骤150中,会将这个目标定位框追踪标签加载到定位框输出网络的定位框输出分支。然后,激活这个分支,让它根据目标定位框追踪标签,对遗物的边缘像素集进行图像区域框选。
具体来说,定位框输出分支会在图像中划定一个矩形区域,这个区域就是认为遗物可能存在的位置。这个过程会生成一个图像区域框选结果,表示了遗物在新的图像中的预测位置。
这样,就可以根据图像区域框选结果,准确地追踪到遗物在连续的图像序列中的移动轨迹,从而有效地指导水下考古工作的进行。
步骤160、基于所述参考定位框追踪掩码和所述图像区域框选结果,得到摄影目标动态定位框;其中,所述定位框输出分支由深度残差网络通过引导调试策略得到。
在本申请实施例中,步骤160的相关名词解释如下。
摄影目标动态定位框:这是一个在图像上定义的矩形区域,用于跟踪和显示摄影目标在连续的图像序列中的位置和移动轨迹。
深度残差网络:这是一种深度学习模型,特点是通过引入“残差连接”来避免训练过程中的梯度消失问题。深度残差网络通常用于处理需要大量计算和复杂模型的任务,例如图像识别和目标检测等。
引导调试策略:这是一种优化神经网络性能的方法,通过分析网络输出的错误信息,对网络结构和参数进行调整。
在水下生物多样性研究中,科研人员可能需要追踪并记录特定海洋生物(如海龟或某种特定鱼类)的活动轨迹。在前面的步骤中,他们已经从水下摄影图像块中提取了摄影目标描述向量,并创建了相应的目标定位框追踪标签。
在步骤160中,科研人员会基于参考定位框追踪掩码和图像区域框选结果,得到摄影目标动态定位框。这个定位框就是在新的图像上预测出的海洋生物的位置。
具体来说,科研人员会使用一个深度残差网络作为定位框输出网络,它通过引导调试策略进行训练,以便更准确地预测出目标物体在新图像中的位置。最后,科研人员可以根据摄影目标动态定位框,准确地追踪并记录海洋生物的活动轨迹,从而获取关于其行为和习性的重要信息。
在水下摄影调查科研行业中,步骤110到步骤160的整体操作可以大幅提高目标定位和识别的准确性和效率。
首先,在步骤110中,通过对水下摄影图像流进行图像分类特征识别,得到了与图像流对应的目标定位建议向量。这为后续的图像处理工作提供了一个重要的参考,指出了可能存在目标物体的区域。然后,在步骤120中,根据目标定位建议向量对图像流进行图像切割,得到了若干个图像块。每个图像块都包含了更集中的信息,大大降低了后续处理的复杂性,并提高了目标识别的准确性。接着,在步骤130中,利用水下摄影目标定位网络对各图像块进行处理,提取出了描述目标物体的关键特征,形成了摄影目标描述向量。这为后续的目标跟踪和识别提供了详细的依据。之后,在步骤140中,基于摄影目标描述向量创建了目标定位框追踪标签。这使得在后续处理中能够精准地跟踪和定位目标物体,提高了工作效率。最后,在步骤150和160中,通过加载目标定位框追踪标签到定位框输出网络并激活分支,得到了摄影目标动态定位框。这个定位框可以实时显示目标物体在连续的图像序列中的位置和移动轨迹,从而帮助科研人员准确地记录和分析目标物体的行为和状态。
可见,步骤110到步骤160的操作流程大大提高了水下摄影调查的效率和准确性,对于各种水下科研工作(例如生物多样性研究、海底地质勘探、水下考古等)都具有重要的应用价值。
在一些可能的实施例中,所述定位框输出网络还包括检测框创建分支,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量。在此基础上,步骤140所描述的基于所述水下摄影目标描述向量,创建目标定位框追踪标签,包括步骤141-步骤143。
步骤141、依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量。
步骤142、基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量。
步骤143、将所述水下摄影目标描述向量加载到所述检测框创建分支,得到所述目标定位框追踪标签。
在上述实施例中,检测框创建分支是定位框输出网络的一个组成部分,专门用于根据输入的目标描述向量来创建目标定位框。特征集成是一种数据处理方法,通过结合多个特征向量来得到一个更全面、更准确的描述向量。
假设正在进行水下生态系统的研究,目标是记录并分析某种稀有海洋生物的活动轨迹和行为模式。首先,使用水下摄影设备获取了大量的海底图像,并按照前述步骤将其切割成若干个图像块。
接着,在步骤141中,会依据水下摄影目标定位网络对每个图像块进行处理,提取出描述目标物体(即该稀有海洋生物)的关键特征,形成各自的目标描述向量。
然后,在步骤142中,将所有图像块的目标描述向量进行特征集成,得到一个更全面、更准确的水下摄影目标描述向量。这个描述向量包含了目标物体在所有图像块中的主要特征信息,为后续的目标跟踪和识别提供了重要依据。
最后,在步骤143中,将水下摄影目标描述向量加载到定位框输出网络的检测框创建分支。这个分支会根据输入的描述向量,自动生成对应的目标定位框追踪标签。这个标签能够准确地表示出目标物体在连续的图像序列中的位置和移动轨迹,从而帮助精确地记录和分析该稀有海洋生物的活动情况。
可见,通过特征集成和检测框创建分支,进一步提高了水下摄影调查的效率和准确性,为水下生态系统的研究提供了强大的技术支持。
在一些示例性实施例中,步骤141所描述的依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量,包括步骤1411-步骤1413。
步骤1411、依据所述水下摄影目标定位网络分别对每一所述水下摄影图像块进行摄影目标描述向量挖掘,得到所述水下摄影图像块中的至少一个局部目标描述向量。
步骤1412、挖掘每一所述局部目标描述向量的关联图像特征。
步骤1413、拼接各所述局部目标描述向量、以及每一所述局部目标描述向量对应的关联图像特征,得到所述目标描述向量。
针对上述实施例的相关名词解释如下。
局部目标描述向量:这是一个包含了图像块中某一部分(或局部)的目标物体特征信息的数据结构。
关联图像特征:这是指与目标物体相关的其他图像特征,例如目标物体周围的环境特征、目标物体与其他物体的相对位置关系等。
拼接:这是一种数据处理方法,通过将多个数据单元按照一定的顺序和规则连接起来,形成一个更大的数据单元。
假设正在进行水下考古研究,使用水下摄影设备拍摄海底遗址的图像。在前述步骤中,已经将原始图像切割成若干个图像块。
接着,在步骤1411中,会依据水下摄影目标定位网络对每个图像块进行处理,从中提取出描述遗址或遗物的关键特征,形成局部目标描述向量。每个图像块可能会生成一个或多个局部目标描述向量,根据图像块中包含的目标物体数量和种类。
然后,在步骤1412中,会进一步挖掘每个局部目标描述向量的关联图像特征。这些特征可能包括遗物与周围环境的交互情况、遗物在图像中的位置等信息,这些都是对遗物进行全面理解和分析的重要依据。
最后,在步骤1413中,将所有的局部目标描述向量以及它们对应的关联图像特征进行拼接,得到一个完整的目标描述向量。这个描述向量不仅包含了遗物自身的特征信息,也包含了遗物与环境的交互信息,为后续的考古研究提供了全面且详尽的数据支持。
总的来说,此方案通过局部目标描述向量和关联图像特征的挖掘与拼接,进一步提高了水下摄影调查的准确性和效率,为水下考古研究提供了强大的技术支持。
在另一些可选的实施例中,在步骤142所描述的基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量之前,所述方法还包括针对每一所述目标描述向量实施如下处理:识别所述目标描述向量对应的牵涉目标描述向量,所述牵涉目标描述向量为所述目标描述向量所在的水下摄影图像块中与所述目标描述向量的图像特征共性值符合设定条件的图像描述向量。基于此,步骤142所描述的基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量,包括:拼接各所述目标描述向量,以及各所述目标描述向量分别对应的牵涉目标描述向量,得到所述水下摄影目标描述向量。
其中,牵涉目标描述向量是指与给定目标描述向量具有共同图像特征的其他图像描述向量。换句话说,它们都描述了图像中相似或关联的部分。图像特征共性值是一种数值,用于度量两个或多个图像描述向量之间的相似度或关联性。当共性值达到设定条件时,对应的图像描述向量就被认为是牵涉目标描述向量。
假设正在进行水下生物多样性研究,目标是记录并分析某种稀有海洋生物的活动轨迹和行为模式。在前述步骤中,已经从水下摄影图像块中提取出了局部目标描述向量,并挖掘出了每个局部目标描述向量的关联图像特征。
在步骤中,会针对每个目标描述向量识别出其对应的牵涉目标描述向量。具体来说,会计算出目标描述向量所在的水下摄影图像块中所有其他图像描述向量与目标描述向量的图像特征共性值,并根据设定条件选出牵涉目标描述向量。这些牵涉目标描述向量可能描述了与目标生物相似或关联的其他生物或环境特征,为提供了更多的研究信息。
然后,在步骤142中,将所有的目标描述向量以及它们对应的牵涉目标描述向量进行拼接,得到一个完整的水下摄影目标描述向量。这个描述向量不仅包含了目标生物自身的特征信息,也包含了与其相关的环境和生物特征信息,为后续的生物多样性研究提供了全面且详尽的数据支持。
如此设计,通过识别并利用牵涉目标描述向量,进一步丰富了水下摄影目标描述向量的信息内容,提高了水下生物多样性研究的准确性和效率。
在一些示例中,所述目标定位系统包括描述向量缓存分支和定位建议处理分支。基于此,步骤110中的对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,包括步骤111-步骤112。
步骤111、对所述描述向量缓存分支中记录的水下摄影图像流进行图像分类特征识别,生成目标定位建议向量。
步骤112、将所述目标定位建议向量记录于所述定位建议处理分支中,所述目标定位建议向量至少包括下述一种:视觉定位建议向量、形态定位建议向量,所述形态定位建议向量包括下述至少一个:场景定位建议向量、局部定位建议向量。
上述实施例中的相关名词解释如下。
描述向量缓存分支:这是目标定位系统的一个组成部分,用于存储和管理图像流的描述向量。
定位建议处理分支:这也是目标定位系统的一个组成部分,用于处理和记录目标定位建议向量。
视觉定位建议向量:这是一种基于视觉特征(例如颜色、纹理等)生成的定位建议向量。
形态定位建议向量:这是一种基于形状或结构特征生成的定位建议向量。
场景定位建议向量:这是一种基于整体场景特征生成的定位建议向量。
局部定位建议向量:这是一种基于局部特征生成的定位建议向量。
假设正在进行水下地质勘探,使用水下摄影设备拍摄海底地形的图像。在步骤111中,会对描述向量缓存分支中记录的水下摄影图像流进行图像分类特征识别,这可能包括地形的形状、颜色、纹理等各种视觉和形态特征。通过这个过程,可以生成目标定位建议向量。
然后,在步骤112中,会将这个目标定位建议向量记录在定位建议处理分支中。具体来说,这个定位建议向量可能包括视觉定位建议向量和形态定位建议向量,分别表示了地质结构的视觉特征和形态特征。而形态定位建议向量又可以进一步分为场景定位建议向量和局部定位建议向量,前者表示了整个海底地形的特征,后者则表示了地形中某一局部区域的特征。
通过这样的方式,可以从多个层面和角度对水下地形进行全面的描述和分析,为后续的地质勘探提供了详尽且准确的数据支持。总的来说,此方案通过引入描述向量缓存分支和定位建议处理分支,进一步优化了水下摄影调查的流程,提高了其效率和准确性。
在一些示例中,所述目标描述向量包括局部目标描述向量的查询特征,所述定位建议处理分支还存储每一水下摄影图像块对应的局部目标描述向量挖掘结果,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量,包括步骤201-步骤204。
步骤201、针对每一水下摄影图像块,依据所述水下摄影图像块对应的局部目标描述向量的查询特征,在所述描述向量缓存分支中提取局部目标描述向量。
步骤202、依据所述水下摄影图像块对应的局部目标描述向量挖掘结果,在所述定位建议处理分支中进行查询,得到同一水下摄影图像块中的牵涉目标描述向量的目标定位建议向量,所述牵涉目标描述向量的挖掘结果与所述局部目标描述向量挖掘结果的特征共性值符合设定条件。
步骤203、基于所述牵涉目标描述向量的目标定位建议向量,在所述描述向量缓存分支中提取局部牵涉目标描述向量。
步骤204、拼接各局部目标描述向量以及各局部牵涉目标描述向量,得到水下摄影目标描述向量。
上述实施例的相关名词解释如下。
查询特征:这是一种用于检索或查找信息的特征。在此情境下,它被用于从描述向量缓存分支中提取相应的局部目标描述向量。
牵涉目标描述向量:这是指与给定目标描述向量具有共同图像特征的其他图像描述向量。换句话说,它们都描述了图像中相似或关联的部分。
特征共性值:这是一种数值,用于度量两个或多个图像描述向量之间的相似度或关联性。当共性值达到设定条件时,对应的图像描述向量就被认为是牵涉目标描述向量。
假设正在进行水下生态系统的研究,目标是记录并分析某种稀有海洋生物的活动轨迹和行为模式。在前述步骤中,已经从水下摄影图像块中提取出了局部目标描述向量,并挖掘出了每个局部目标描述向量的查询特征。
在步骤201中,会针对每个水下摄影图像块,依据其对应的局部目标描述向量的查询特征,在描述向量缓存分支中提取相应的局部目标描述向量。接着,在步骤202中,会依据每个水下摄影图像块对应的局部目标描述向量挖掘结果,在定位建议处理分支中进行查询,得到与局部目标描述向量具有共同特征的牵涉目标描述向量的目标定位建议向量。然后,在步骤203中,会基于牵涉目标描述向量的目标定位建议向量,在描述向量缓存分支中提取出局部牵涉目标描述向量。这些牵涉目标描述向量可能描述了与目标生物相似或关联的其他生物或环境特征。最后,在步骤204中,将所有的局部目标描述向量以及所有的局部牵涉目标描述向量进行拼接,得到一个完整的水下摄影目标描述向量。这个描述向量不仅包含了目标生物自身的特征信息,也包含了与其相关的环境和生物特征信息,为后续的生物多样性研究提供了全面且详尽的数据支持。
如此设计,通过查询特征、牵涉目标描述向量和特征共性值,进一步优化了水下摄影调查的流程,提高了其效率和准确性。
在另外一些实施例中,所述目标定位系统中的定位框输出分支基于以下步骤301-步骤305调试所得。
步骤301、对过往水下摄影图像流进行图像分类特征识别,得到所述过往水下摄影图像流对应的目标定位建议向量。
步骤302、基于所述目标定位建议向量对所述过往水下摄影图像流进行图像切割,得到若干个过往水下摄影图像块。
步骤303、依据所述水下摄影目标定位网络分别对各所述过往水下摄影图像块进行摄影目标描述向量挖掘所得到的结果,创建过往目标定位框追踪标签。
步骤304、将所述过往目标定位框追踪标签加载到深度残差网络,激活所述深度残差网络依据所述过往目标定位框追踪标签输出过往摄影目标动态定位框。
步骤305、基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支。
上述实施例的相关名词解释如下。
过往水下摄影图像流:这是指以前收集和记录的水下摄影图像序列,也可以理解为样本水下摄影图像流。
过往目标定位框追踪标签:这是基于过往水下摄影图像块生成的目标定位框追踪标签。
深度残差网络:这是一种深度学习模型,能够通过捕捉输入数据中的高级特征来进行复杂的预测或分类任务。
先验摄影目标动态定位框:这是根据先前的知识或信息预先设定的摄影目标动态定位框。
假设正在进行水下生物多样性研究,目标是记录并分析某种稀有海洋生物的活动轨迹和行为模式。在步骤301中,会对过往收集的水下摄影图像流进行图像分类特征识别,得到与之对应的目标定位建议向量。然后,在步骤302中,会基于这个目标定位建议向量对过往水下摄影图像流进行图像切割,得到若干个过往水下摄影图像块。接着,在步骤303中,会依据水下摄影目标定位网络对每个过往水下摄影图像块进行处理,提取出描述目标生物的关键特征,并根据这些特征创建过往目标定位框追踪标签。在步骤304中,会将这些过往目标定位框追踪标签加载到深度残差网络中。然后,激活深度残差网络,使其依据这些标签输出过往摄影目标动态定位框。最后,在步骤305中,会基于过往摄影目标动态定位框与先验摄影目标动态定位框之间的区别,对深度残差网络的网络变量进行改进。经过这样的调试和优化,就得到了能够更准确地输出目标定位框的定位框输出分支。
总的来说,通过引入深度残差网络,并结合过往水下摄影图像流的信息,进一步优化了水下摄影调查的流程,提高了其效率和准确性。
在一些可选的实施例中,步骤305所描述的基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支,包括步骤3051-步骤3053。
步骤3051、对所述深度残差网络中预设网络变量进行锁定操作。
步骤3052、依据所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,确定三元组调试代价。
步骤3053、基于所述三元组调试代价,调整所述深度残差网络中没有被锁定的网络变量,得到所述定位框输出分支。
在上述实施例中,锁定操作是一种网络训练技术,通过锁定深度残差网络中预设的网络变量,可以保持这些变量在训练过程中不变。三元组调试代价是一个衡量值,反映了过往摄影目标动态定位框与先验摄影目标动态定位框之间的区别对深度残差网络性能的影响。通常,三元组调试代价越大,表示两者之间的区别越大,深度残差网络的性能越需要调整。
假设正在进行水下生物多样性研究,目标是记录并分析某种稀有海洋生物的活动轨迹和行为模式。在步骤3051中,会对深度残差网络中预设的网络变量进行锁定操作,以确保这些变量在后续的训练过程中保持不变。然后,在步骤3052中,会依据过往摄影目标动态定位框与先验摄影目标动态定位框之间的区别,确定三元组调试代价。这个代价反映了两个定位框之间的区别对深度残差网络性能的影响。接着,在步骤3053中,会基于这个三元组调试代价,对深度残差网络中没有被锁定的网络变量进行调整。经过这样的调试和优化,就得到了一个更准确地输出目标定位框的定位框输出分支。
可见,通过引入锁定操作和三元组调试代价,进一步优化了水下摄影调查的流程,提高了其效率和准确性。
在另外的实施例中,所述方法还包括步骤401-步骤403。
步骤401、获取所述摄影目标动态定位框对应的置信权重,所述置信权重反映所述摄影目标动态定位框的目标定位精度。
步骤402、基于所述摄影目标动态定位框和所述置信权重,生成置信权重决策网络。
步骤403、基于所述置信权重决策网络对所述定位框输出分支生成的、针对同一水下摄影图像流的不同摄影目标动态定位框进行筛选,得到所述同一水下摄影图像流的最终目标动态定位框。
在上述方案中,置信权重是一个反映摄影目标动态定位框目标定位精度的值。如果置信权重较高,则表示该定位框的准确性较高。置信权重决策网络是一种基于置信权重生成的决策网络,用于对不同的摄影目标动态定位框进行筛选和排序。
假设正在进行水下生物多样性研究,目标是记录并分析某种稀有海洋生物的活动轨迹和行为模式。在步骤401中,会获取摄影目标动态定位框对应的置信权重。这个权重反映了定位框的目标定位精度,如果权重较高,则表示定位框的准确性较高。然后,在步骤402中,会基于这个摄影目标动态定位框和其对应的置信权重,生成一个置信权重决策网络。这个网络能够根据每个定位框的权重进行排序和筛选。接着,在步骤403中,会基于这个置信权重决策网络,对定位框输出分支生成的、针对同一水下摄影图像流的不同摄影目标动态定位框进行筛选。最终,会得到一个最优的、反映了同一水下摄影图像流中目标生物位置和行为的目标动态定位框。
如此,通过引入置信权重和置信权重决策网络,进一步优化了水下摄影调查的流程,提高了其效率和准确性。
在一些可独立的实施例中,在步骤160所描述的基于所述参考定位框追踪掩码和所述图像区域框选结果,得到摄影目标动态定位框之后,所述方法还包括步骤170。
步骤170、通过所述摄影目标动态定位框获取摄影目标图像流,对所述摄影目标图像流进行描述文本生成,得到所述摄影目标图像流的描述文本,根据所述描述文本,对所述摄影目标图像流进行文本标注处理。
在上述实施例中,描述文本是对摄影目标图像流内容的文字描述。文本标注处理是一个过程,将描述文本添加到相应的摄影目标图像流中,以便进一步的分析和理解。
假设正在进行水下生物多样性研究,目标是记录并分析某种稀有海洋生物的活动轨迹和行为模式。在前述步骤中,已经基于参考定位框追踪掩码和图像区域框选结果,得到了摄影目标动态定位框。
在步骤170中,会通过这个摄影目标动态定位框获取摄影目标图像流,这个图像流包含了目标生物的连续影像。然后,会对这个摄影目标图像流进行描述文本生成。这个描述文本可能包括目标生物的种类、行为、环境等信息,为提供了更多的研究信息。最后,会根据这个描述文本,对摄影目标图像流进行文本标注处理。具体来说,会将描述文本添加到相应的图像中,以便在查看图像时能够快速理解其内容。可见,通过引入描述文本和文本标注处理,进一步丰富了水下摄影调查的信息内容,提高了水下生物多样性研究的准确性和效率。
在一些可独立的实施例中,步骤170所描述的对所述摄影目标图像流进行描述文本生成,得到所述摄影目标图像流的描述文本,包括步骤171-步骤173。
步骤171、获取摄影目标图像流的图像特征序列;所述图像特征序列包括目标物轨迹特征和基于摄影环境的环境状态描述特征。
步骤172、调用联动神经网络的图像-序列分支,并通过所述图像-序列分支对所述图像特征序列的目标物轨迹特征进行文本特征映射,得到摄影目标文本语义特征。
步骤173、基于所述摄影目标文本语义特征生成所述摄影目标图像流的描述文本。
在上述实施例中,图像特征序列是一系列从摄影目标图像流中提取出来的特征,包括目标物轨迹特征和基于摄影环境的环境状态描述特征。联动神经网络是一种深度学习模型,能够处理复杂的非线性关系,并对输入数据进行分类或预测。在此情境下,它被用于将图像特征转化为文本特征。图像-序列分支是联动神经网络的一个组成部分,专门用于处理图像数据,并将其映射到一个序列(例如文本)。摄影目标文本语义特征是一种描述摄影目标图像流内容的文字特征。
假设正在进行水下地质勘探,使用水下摄影设备拍摄海底地形的图像。在步骤171中,会获取摄影目标图像流的图像特征序列,包括目标物轨迹特征(例如海底裂缝的走向、长度等)和基于摄影环境的环境状态描述特征(例如水深、水温、海底地形等)。然后,在步骤172中,会调用联动神经网络的图像-序列分支,并通过这个分支将图像特征序列的目标物轨迹特征进行文本特征映射,得到摄影目标文本语义特征。这些特征可能包括“裂缝深入海底200米”、“水温4度”等描述性信息。最后,在步骤173中,会基于这些摄影目标文本语义特征生成摄影目标图像流的描述文本。这个文本不仅包含了对目标物(如海底裂缝)的详细描述,也包含了对摄影环境(如水深、水温)的详细描述,为后续的地质勘探提供了全面且准确的数据支持。
基于同样的发明构思,还提供一种目标定位系统,包括:
特征识别模块,用于对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,所述水下摄影图像流的图像处理算力开销大于水下摄影目标定位网络的预配置算力开销;
图像切割模块,用于基于所述目标定位建议向量对所述水下摄影图像流进行图像切割,得到所述水下摄影图像流对应的若干个水下摄影图像块,每一所述水下摄影图像块的图像处理算力开销不大于所述预配置算力开销;
向量挖掘模块,用于依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
定位追踪模块,用于基于所述水下摄影目标描述向量,创建目标定位框追踪标签,所述目标定位框追踪标签为用作限制摄影目标动态定位框的框选区域的图像掩码信息,所述图像掩码信息包括所述水下摄影目标描述向量与参考定位框追踪掩码,所述参考定位框追踪掩码包括拟确定的水下摄影目标边缘像素集;
区域框选模块,用于将所述目标定位框追踪标签加载到定位框输出网络的定位框输出分支,激活所述定位框输出分支依据所述目标定位框追踪标签对所述拟确定的水下摄影目标边缘像素集进行图像区域框选,得到图像区域框选结果;
目标定位模块,用于基于所述参考定位框追踪掩码和所述图像区域框选结果,得到摄影目标动态定位框;其中,所述定位框输出分支由深度残差网络通过引导调试策略得到。
在一些方案下,所述定位框输出网络还包括检测框创建分支,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
基于所述水下摄影目标描述向量,创建目标定位框追踪标签,包括:
依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量;
基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量;
将所述水下摄影目标描述向量加载到所述检测框创建分支,得到所述目标定位框追踪标签;
其中,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量,包括:
依据所述水下摄影目标定位网络分别对每一所述水下摄影图像块进行摄影目标描述向量挖掘,得到所述水下摄影图像块中的至少一个局部目标描述向量;
挖掘每一所述局部目标描述向量的关联图像特征;
拼接各所述局部目标描述向量、以及每一所述局部目标描述向量对应的关联图像特征,得到所述目标描述向量;
其中,所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量之前,所述目标定位系统还用于针对每一所述目标描述向量实施如下处理:识别所述目标描述向量对应的牵涉目标描述向量,所述牵涉目标描述向量为所述目标描述向量所在的水下摄影图像块中与所述目标描述向量的图像特征共性值符合设定条件的图像描述向量;则所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量,包括:拼接各所述目标描述向量,以及各所述目标描述向量分别对应的牵涉目标描述向量,得到所述水下摄影目标描述向量。
在一些方案下,所述目标定位系统包括描述向量缓存分支和定位建议处理分支,所述对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,包括:
对所述描述向量缓存分支中记录的水下摄影图像流进行图像分类特征识别,生成目标定位建议向量;
将所述目标定位建议向量记录于所述定位建议处理分支中,所述目标定位建议向量至少包括下述一种:视觉定位建议向量、形态定位建议向量,所述形态定位建议向量包括下述至少一个:场景定位建议向量、局部定位建议向量;
其中,所述目标描述向量包括局部目标描述向量的查询特征,所述定位建议处理分支还存储每一水下摄影图像块对应的局部目标描述向量挖掘结果,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量,包括:
针对每一水下摄影图像块,依据所述水下摄影图像块对应的局部目标描述向量的查询特征,在所述描述向量缓存分支中提取局部目标描述向量;
依据所述水下摄影图像块对应的局部目标描述向量挖掘结果,在所述定位建议处理分支中进行查询,得到同一水下摄影图像块中的牵涉目标描述向量的目标定位建议向量,所述牵涉目标描述向量的挖掘结果与所述局部目标描述向量挖掘结果的特征共性值符合设定条件;
基于所述牵涉目标描述向量的目标定位建议向量,在所述描述向量缓存分支中提取局部牵涉目标描述向量;
拼接各局部目标描述向量以及各局部牵涉目标描述向量,得到水下摄影目标描述向量。
在一些方案下,所述目标定位系统中的定位框输出分支基于以下步骤调试所得:
对过往水下摄影图像流进行图像分类特征识别,得到所述过往水下摄影图像流对应的目标定位建议向量;
基于所述目标定位建议向量对所述过往水下摄影图像流进行图像切割,得到若干个过往水下摄影图像块;
依据所述水下摄影目标定位网络分别对各所述过往水下摄影图像块进行摄影目标描述向量挖掘所得到的结果,创建过往目标定位框追踪标签;
将所述过往目标定位框追踪标签加载到深度残差网络,激活所述深度残差网络依据所述过往目标定位框追踪标签输出过往摄影目标动态定位框;
基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支;
其中,所述基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支,包括:
对所述深度残差网络中预设网络变量进行锁定操作;
依据所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,确定三元组调试代价;
基于所述三元组调试代价,调整所述深度残差网络中没有被锁定的网络变量,得到所述定位框输出分支。
在一些方案下,所述目标定位系统还包括定位框筛选模块,用于:
获取所述摄影目标动态定位框对应的置信权重,所述置信权重反映所述摄影目标动态定位框的目标定位精度;
基于所述摄影目标动态定位框和所述置信权重,生成置信权重决策网络;
基于所述置信权重决策网络对所述定位框输出分支生成的、针对同一水下摄影图像流的不同摄影目标动态定位框进行筛选,得到所述同一水下摄影图像流的最终目标动态定位框。
进一步地,还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于AI的水下摄影目标定位方法,其特征在于,应用于目标定位系统,所述方法包括:
对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,所述水下摄影图像流的图像处理算力开销大于水下摄影目标定位网络的预配置算力开销;
基于所述目标定位建议向量对所述水下摄影图像流进行图像切割,得到所述水下摄影图像流对应的若干个水下摄影图像块,每一所述水下摄影图像块的图像处理算力开销不大于所述预配置算力开销;
依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
基于所述水下摄影目标描述向量,创建目标定位框追踪标签,所述目标定位框追踪标签为用作限制摄影目标动态定位框的框选区域的图像掩码信息,所述图像掩码信息包括所述水下摄影目标描述向量与参考定位框追踪掩码,所述参考定位框追踪掩码包括拟确定的水下摄影目标边缘像素集;
将所述目标定位框追踪标签加载到定位框输出网络的定位框输出分支,激活所述定位框输出分支依据所述目标定位框追踪标签对所述拟确定的水下摄影目标边缘像素集进行图像区域框选,得到图像区域框选结果;
基于所述参考定位框追踪掩码和所述图像区域框选结果,得到摄影目标动态定位框;其中,所述定位框输出分支由深度残差网络通过引导调试策略得到;
其中,所述目标定位系统中的定位框输出分支基于以下步骤调试所得:
对过往水下摄影图像流进行图像分类特征识别,得到所述过往水下摄影图像流对应的目标定位建议向量;
基于所述目标定位建议向量对所述过往水下摄影图像流进行图像切割,得到若干个过往水下摄影图像块;
依据所述水下摄影目标定位网络分别对各所述过往水下摄影图像块进行摄影目标描述向量挖掘所得到的结果,创建过往目标定位框追踪标签;
将所述过往目标定位框追踪标签加载到深度残差网络,激活所述深度残差网络依据所述过往目标定位框追踪标签输出过往摄影目标动态定位框;
基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支;
其中,所述基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支,包括:
对所述深度残差网络中预设网络变量进行锁定操作;
依据所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,确定三元组调试代价;
基于所述三元组调试代价,调整所述深度残差网络中没有被锁定的网络变量,得到所述定位框输出分支。
2.如权利要求1所述的方法,其特征在于,所述定位框输出网络还包括检测框创建分支,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
基于所述水下摄影目标描述向量,创建目标定位框追踪标签,包括:
依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量;
基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量;
将所述水下摄影目标描述向量加载到所述检测框创建分支,得到所述目标定位框追踪标签;
其中,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量,包括:
依据所述水下摄影目标定位网络分别对每一所述水下摄影图像块进行摄影目标描述向量挖掘,得到所述水下摄影图像块中的至少一个局部目标描述向量;
挖掘每一所述局部目标描述向量的关联图像特征;
拼接各所述局部目标描述向量、以及每一所述局部目标描述向量对应的关联图像特征,得到所述目标描述向量;
其中,所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量之前,所述方法还包括针对每一所述目标描述向量实施如下处理:
识别所述目标描述向量对应的牵涉目标描述向量,所述牵涉目标描述向量为所述目标描述向量所在的水下摄影图像块中与所述目标描述向量的图像特征共性值符合设定条件的图像描述向量;
所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量,包括:
拼接各所述目标描述向量,以及各所述目标描述向量分别对应的牵涉目标描述向量,得到所述水下摄影目标描述向量。
3.如权利要求1所述的方法,其特征在于,所述目标定位系统包括描述向量缓存分支和定位建议处理分支,所述对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,包括:
对所述描述向量缓存分支中记录的水下摄影图像流进行图像分类特征识别,生成目标定位建议向量;
将所述目标定位建议向量记录于所述定位建议处理分支中,所述目标定位建议向量至少包括下述一种:视觉定位建议向量、形态定位建议向量,所述形态定位建议向量包括下述至少一个:场景定位建议向量、局部定位建议向量;
其中,所述目标描述向量包括局部目标描述向量的查询特征,所述定位建议处理分支还存储每一水下摄影图像块对应的局部目标描述向量挖掘结果,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量,包括:
针对每一水下摄影图像块,依据所述水下摄影图像块对应的局部目标描述向量的查询特征,在所述描述向量缓存分支中提取局部目标描述向量;
依据所述水下摄影图像块对应的局部目标描述向量挖掘结果,在所述定位建议处理分支中进行查询,得到同一水下摄影图像块中的牵涉目标描述向量的目标定位建议向量,所述牵涉目标描述向量的挖掘结果与所述局部目标描述向量挖掘结果的特征共性值符合设定条件;
基于所述牵涉目标描述向量的目标定位建议向量,在所述描述向量缓存分支中提取局部牵涉目标描述向量;
拼接各局部目标描述向量以及各局部牵涉目标描述向量,得到水下摄影目标描述向量。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述摄影目标动态定位框对应的置信权重,所述置信权重反映所述摄影目标动态定位框的目标定位精度;
基于所述摄影目标动态定位框和所述置信权重,生成置信权重决策网络;
基于所述置信权重决策网络对所述定位框输出分支生成的、针对同一水下摄影图像流的不同摄影目标动态定位框进行筛选,得到所述同一水下摄影图像流的最终目标动态定位框。
5.一种目标定位系统,其特征在于,包括:
特征识别模块,用于对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,所述水下摄影图像流的图像处理算力开销大于水下摄影目标定位网络的预配置算力开销;
图像切割模块,用于基于所述目标定位建议向量对所述水下摄影图像流进行图像切割,得到所述水下摄影图像流对应的若干个水下摄影图像块,每一所述水下摄影图像块的图像处理算力开销不大于所述预配置算力开销;
向量挖掘模块,用于依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
定位追踪模块,用于基于所述水下摄影目标描述向量,创建目标定位框追踪标签,所述目标定位框追踪标签为用作限制摄影目标动态定位框的框选区域的图像掩码信息,所述图像掩码信息包括所述水下摄影目标描述向量与参考定位框追踪掩码,所述参考定位框追踪掩码包括拟确定的水下摄影目标边缘像素集;
区域框选模块,用于将所述目标定位框追踪标签加载到定位框输出网络的定位框输出分支,激活所述定位框输出分支依据所述目标定位框追踪标签对所述拟确定的水下摄影目标边缘像素集进行图像区域框选,得到图像区域框选结果;
目标定位模块,用于基于所述参考定位框追踪掩码和所述图像区域框选结果,得到摄影目标动态定位框;其中,所述定位框输出分支由深度残差网络通过引导调试策略得到;
其中,所述目标定位系统中的定位框输出分支基于以下步骤调试所得:
对过往水下摄影图像流进行图像分类特征识别,得到所述过往水下摄影图像流对应的目标定位建议向量;
基于所述目标定位建议向量对所述过往水下摄影图像流进行图像切割,得到若干个过往水下摄影图像块;
依据所述水下摄影目标定位网络分别对各所述过往水下摄影图像块进行摄影目标描述向量挖掘所得到的结果,创建过往目标定位框追踪标签;
将所述过往目标定位框追踪标签加载到深度残差网络,激活所述深度残差网络依据所述过往目标定位框追踪标签输出过往摄影目标动态定位框;
基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支;
其中,所述基于所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,改进所述深度残差网络的网络变量,得到所述定位框输出分支,包括:
对所述深度残差网络中预设网络变量进行锁定操作;
依据所述过往摄影目标动态定位框、与所述过往水下摄影图像流对应的先验摄影目标动态定位框之间的区别,确定三元组调试代价;
基于所述三元组调试代价,调整所述深度残差网络中没有被锁定的网络变量,得到所述定位框输出分支。
6.如权利要求5所述的目标定位系统,其特征在于,所述定位框输出网络还包括检测框创建分支,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量;
基于所述水下摄影目标描述向量,创建目标定位框追踪标签,包括:
依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量;
基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量;
将所述水下摄影目标描述向量加载到所述检测框创建分支,得到所述目标定位框追踪标签;
其中,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到各所述水下摄影图像块分别对应的目标描述向量,包括:
依据所述水下摄影目标定位网络分别对每一所述水下摄影图像块进行摄影目标描述向量挖掘,得到所述水下摄影图像块中的至少一个局部目标描述向量;
挖掘每一所述局部目标描述向量的关联图像特征;
拼接各所述局部目标描述向量、以及每一所述局部目标描述向量对应的关联图像特征,得到所述目标描述向量;
其中,所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量之前,所述目标定位系统还用于针对每一所述目标描述向量实施如下处理:识别所述目标描述向量对应的牵涉目标描述向量,所述牵涉目标描述向量为所述目标描述向量所在的水下摄影图像块中与所述目标描述向量的图像特征共性值符合设定条件的图像描述向量;则所述基于各所述目标描述向量进行特征集成,得到所述水下摄影目标描述向量,包括:拼接各所述目标描述向量,以及各所述目标描述向量分别对应的牵涉目标描述向量,得到所述水下摄影目标描述向量。
7.如权利要求5所述的目标定位系统,其特征在于,所述目标定位系统包括描述向量缓存分支和定位建议处理分支,所述对水下摄影图像流进行图像分类特征识别,得到所述水下摄影图像流对应的目标定位建议向量,包括:
对所述描述向量缓存分支中记录的水下摄影图像流进行图像分类特征识别,生成目标定位建议向量;
将所述目标定位建议向量记录于所述定位建议处理分支中,所述目标定位建议向量至少包括下述一种:视觉定位建议向量、形态定位建议向量,所述形态定位建议向量包括下述至少一个:场景定位建议向量、局部定位建议向量;
其中,所述目标描述向量包括局部目标描述向量的查询特征,所述定位建议处理分支还存储每一水下摄影图像块对应的局部目标描述向量挖掘结果,所述依据所述水下摄影目标定位网络分别对各所述水下摄影图像块进行摄影目标描述向量挖掘,得到水下摄影目标描述向量,包括:
针对每一水下摄影图像块,依据所述水下摄影图像块对应的局部目标描述向量的查询特征,在所述描述向量缓存分支中提取局部目标描述向量;
依据所述水下摄影图像块对应的局部目标描述向量挖掘结果,在所述定位建议处理分支中进行查询,得到同一水下摄影图像块中的牵涉目标描述向量的目标定位建议向量,所述牵涉目标描述向量的挖掘结果与所述局部目标描述向量挖掘结果的特征共性值符合设定条件;
基于所述牵涉目标描述向量的目标定位建议向量,在所述描述向量缓存分支中提取局部牵涉目标描述向量;
拼接各局部目标描述向量以及各局部牵涉目标描述向量,得到水下摄影目标描述向量。
8.如权利要求5所述的目标定位系统,其特征在于,所述目标定位系统还包括定位框筛选模块,用于:
获取所述摄影目标动态定位框对应的置信权重,所述置信权重反映所述摄影目标动态定位框的目标定位精度;
基于所述摄影目标动态定位框和所述置信权重,生成置信权重决策网络;
基于所述置信权重决策网络对所述定位框输出分支生成的、针对同一水下摄影图像流的不同摄影目标动态定位框进行筛选,得到所述同一水下摄影图像流的最终目标动态定位框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311546159.9A CN117523379B (zh) | 2023-11-20 | 2023-11-20 | 基于ai的水下摄影目标定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311546159.9A CN117523379B (zh) | 2023-11-20 | 2023-11-20 | 基于ai的水下摄影目标定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117523379A CN117523379A (zh) | 2024-02-06 |
CN117523379B true CN117523379B (zh) | 2024-04-30 |
Family
ID=89764028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311546159.9A Active CN117523379B (zh) | 2023-11-20 | 2023-11-20 | 基于ai的水下摄影目标定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523379B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7801330B2 (en) * | 2005-06-24 | 2010-09-21 | Objectvideo, Inc. | Target detection and tracking from video streams |
CN109272036A (zh) * | 2018-09-14 | 2019-01-25 | 西南交通大学 | 一种基于深度残差网络的随机蕨目标跟踪方法 |
CN111311635A (zh) * | 2020-02-08 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种目标定位方法、装置及系统 |
CN114463440A (zh) * | 2022-01-27 | 2022-05-10 | 杭州行熠科技有限公司 | 一种单摄像头目标定位方法、系统、设备及存储介质 |
CN114511627A (zh) * | 2021-12-22 | 2022-05-17 | 山东师范大学 | 一种目标果实定位分割方法及系统 |
WO2022188663A1 (zh) * | 2021-03-09 | 2022-09-15 | 华为技术有限公司 | 一种目标检测方法及装置 |
CN115424150A (zh) * | 2022-08-09 | 2022-12-02 | 中国人民解放军国防科技大学 | 一种目标识别定位及呈现方法、装置、设备及存储介质 |
WO2023065395A1 (zh) * | 2021-10-18 | 2023-04-27 | 中车株洲电力机车研究所有限公司 | 作业车辆检测与跟踪方法和系统 |
CN116503441A (zh) * | 2023-03-16 | 2023-07-28 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种视频动态目标追踪方法、装置、设备及存储介质 |
CN116630423A (zh) * | 2023-05-29 | 2023-08-22 | 哈尔滨工业大学 | 一种基于orb特征的微小型机器人多目标双目定位方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9275300B2 (en) * | 2012-02-24 | 2016-03-01 | Canon Kabushiki Kaisha | Method and apparatus for generating image description vector, image detection method and apparatus |
US9213898B2 (en) * | 2014-04-30 | 2015-12-15 | Sony Corporation | Object detection and extraction from image sequences |
-
2023
- 2023-11-20 CN CN202311546159.9A patent/CN117523379B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7801330B2 (en) * | 2005-06-24 | 2010-09-21 | Objectvideo, Inc. | Target detection and tracking from video streams |
CN109272036A (zh) * | 2018-09-14 | 2019-01-25 | 西南交通大学 | 一种基于深度残差网络的随机蕨目标跟踪方法 |
CN111311635A (zh) * | 2020-02-08 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种目标定位方法、装置及系统 |
WO2022188663A1 (zh) * | 2021-03-09 | 2022-09-15 | 华为技术有限公司 | 一种目标检测方法及装置 |
WO2023065395A1 (zh) * | 2021-10-18 | 2023-04-27 | 中车株洲电力机车研究所有限公司 | 作业车辆检测与跟踪方法和系统 |
CN114511627A (zh) * | 2021-12-22 | 2022-05-17 | 山东师范大学 | 一种目标果实定位分割方法及系统 |
CN114463440A (zh) * | 2022-01-27 | 2022-05-10 | 杭州行熠科技有限公司 | 一种单摄像头目标定位方法、系统、设备及存储介质 |
CN115424150A (zh) * | 2022-08-09 | 2022-12-02 | 中国人民解放军国防科技大学 | 一种目标识别定位及呈现方法、装置、设备及存储介质 |
CN116503441A (zh) * | 2023-03-16 | 2023-07-28 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种视频动态目标追踪方法、装置、设备及存储介质 |
CN116630423A (zh) * | 2023-05-29 | 2023-08-22 | 哈尔滨工业大学 | 一种基于orb特征的微小型机器人多目标双目定位方法及系统 |
Non-Patent Citations (2)
Title |
---|
Semi-Autonomous Learning Algorithm for Remote Image Object Detection Based on Aggregation Area Instance Refinement;Cheng B等;《Remote Sensing》;20211214;第13卷(第24期);第1-22页 * |
动态视角下自主目标识别与跟踪;韩晓微;岳高峰;谢英红;高源;鲁正;;仪器仪表学报;20190315(第03期);第224-232页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117523379A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Islam et al. | Semantic segmentation of underwater imagery: Dataset and benchmark | |
Gomes-Pereira et al. | Current and future trends in marine image annotation software | |
Katija et al. | FathomNet: A global image database for enabling artificial intelligence in the ocean | |
Dawkins et al. | An open-source platform for underwater image and video analytics | |
Cong et al. | Novel event analysis for human-machine collaborative underwater exploration | |
Wang et al. | Robust AUV visual loop-closure detection based on variational autoencoder network | |
Piechaud et al. | Fast and accurate mapping of fine scale abundance of a VME in the deep sea with computer vision | |
Diegues et al. | Automatic habitat mapping using convolutional neural networks | |
Boulais et al. | Fathomnet: An underwater image training database for ocean exploration and discovery | |
Gobi | Towards generalized benthic species recognition and quantification using computer vision | |
CN117523379B (zh) | 基于ai的水下摄影目标定位方法及系统 | |
Zhou et al. | Underwater occlusion object recognition with fusion of significant environmental features | |
Kumar et al. | Saliency subtraction inspired automated event detection in underwater environments | |
Yu et al. | Weakly Supervised Caveline Detection For AUV Navigation Inside Underwater Caves | |
Bowden et al. | Best practice in seabed image analysis for determining taxa, habitat, or substrata distributions. | |
Shen et al. | Optical prior-based underwater object detection with active imaging | |
Zhang et al. | Novel approaches to enhance coral reefs monitoring with underwater image segmentation | |
Mbani et al. | An automated image-based workflow for detecting megabenthic fauna in optical images with examples from the Clarion–Clipperton Zone | |
Legittimo et al. | A benchmark analysis of data‐driven and geometric approaches for robot ego‐motion estimation | |
Blowers et al. | Automated identification of fish and other aquatic life in underwater video | |
Vega et al. | Convolutional neural networks for hydrothermal vents substratum classification: An introspective study | |
Pavoni et al. | A Validation Tool For Improving Semantic Segmentation of Complex Natural Structures. | |
Sangekar et al. | SquidJam: A Video Annotation Ecosystem | |
R Austin et al. | Context-Driven Detection of Invertebrate Species in Deep-Sea Video | |
Sungheetha | Optimized Deep Learning Models for AUV Seabed Image Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |