CN116935203A - 一种基于声光融合的潜水员智能监控方法和系统 - Google Patents

一种基于声光融合的潜水员智能监控方法和系统 Download PDF

Info

Publication number
CN116935203A
CN116935203A CN202311195467.1A CN202311195467A CN116935203A CN 116935203 A CN116935203 A CN 116935203A CN 202311195467 A CN202311195467 A CN 202311195467A CN 116935203 A CN116935203 A CN 116935203A
Authority
CN
China
Prior art keywords
diver
hypergraph
data
time
sonar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311195467.1A
Other languages
English (en)
Other versions
CN116935203B (zh
Inventor
姜宇
魏枫林
赵明浩
王圣钦
张永霁
王跃航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202311195467.1A priority Critical patent/CN116935203B/zh
Publication of CN116935203A publication Critical patent/CN116935203A/zh
Application granted granted Critical
Publication of CN116935203B publication Critical patent/CN116935203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/005Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 with correlation of navigation data from several sources, e.g. map or contour matching
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/86Combinations of sonar systems with lidar systems; Combinations of sonar systems with systems not using wave reflection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/539Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Automation & Control Theory (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

一种基于声光融合的潜水员智能监控方法和系统,涉及水下声呐与图像融合技术领域。解决现有水下手势识别会损失一些手势动作的细节和空间信息的问题。所述系统包括:多模态基准数据集获取单元,采集潜水员在水下的视频和声呐模态数据;数据处理单元,对视频视频和声呐模态数据进行估计处理,获取潜水员的行为关键点数据、位置和运动状态;非自然依赖超图建立单元,建立超边和非自然依赖超图;动态跨时间点超图获取单元,采用时间特征生成方法处理非自然依赖超图,获取动态跨时间点超图;综合特征模型构建单元,根据时空特征建模方法和动态跨时间点超图,构建综合特征模型;输出单元,输出潜水员的动态监控识别结果。本发明应用于水下人机交互领域。

Description

一种基于声光融合的潜水员智能监控方法和系统
技术领域
本发明涉及水下声呐与图像融合技术领域,尤其涉及一种基于声光融合的潜水员智能监控系统。
背景技术
在海情监控和岛礁安全领域,确保能够及时准确地识别潜水员或其他潜在威胁,并采取措施进行驱离,是至关重要的步骤,它直接关系到海岸线和岛礁的安全。
传统的水下监控方法主要依靠光学图像数据。但由于水下环境的种种挑战,例如浑浊的水质和光线的衰减,光学图像常常受到干扰,导致图像失真或模糊,进而影响到识别的准确性。
声呐技术,作为一种基于声波的探测和定位方法,在水下物体探测和距离测量中表现出色。但当它与计算机视觉技术结合,旨在提高潜水员动作和姿态的识别准确性时,也出现了一系列技术挑战。如何精确地融合声呐数据与光学图像数据、如何处理两者之间的性质和特性差异等问题逐渐浮现。
近期的研究尝试采用图卷积神经网络(GCN)来实现这两种数据的融合。虽然GCN在捕捉动态信息上表现出色,但在转化动作和姿态为图形式时可能会丢失一些关键细节。此外,GCN对某些边缘样本或新的动作类别的处理可能并不稳定,同时,多模态融合所需的大量标注数据也是一个实际应用中的挑战。
发明内容
本发明旨在应对水下环境中的动态识别挑战,特别是由于浑浊的水质和光线衰减而可能出现的监控细节损失,同时提高海岸与岛礁的监控能力。为此,提供了一种基于声光融合的潜水员智能监控系统。该方法结合了声呐技术与计算机视觉技术,并利用超图卷积方法实现更准确的潜水员行为和位置的监控识别。
一种基于声光融合的潜水员智能监控系统,所述系统包括:
多模态基准数据集获取单元,用于采集潜水员在水下的视频模态数据和声呐模态数据,获取多模态基准数据集;
数据处理单元,用于对视频模态数据进行姿态估计处理,获取潜水员的行为关键点数据;并对所述声呐模态数据进行特征提取,获取潜水员的位置和运动状态;
非自然依赖超图建立单元,用于根据所述潜水员的行为关键点数据和声呐特征,建立超边和非自然依赖超图;
动态跨时间点超图获取单元,用于采用时间特征生成方法处理非自然依赖超图,获取动态跨时间点超图;
综合特征模型构建单元,用于根据时空特征建模方法和所述动态跨时间点超图,构建综合特征模型;
输出单元,用于根据所述综合特征模型输出潜水员的动态监控识别结果。
进一步的,还提供一种优选方式,所述多模态基准数据集获取单元包括:
视频模态数据采集单元,用于通过摄像机采集潜水员在水下的视频模态数据;
声呐模态数据采集单元,用于采集与潜水员位置和动作相关的声呐模态数据;
时间戳划分单元,用于根据所述视频模态数据和声呐模态数据形成多模态基准数据集,并按照微秒级的时间戳进行划分;
数据集划分单元,用于将划分后的多模态基准数据集分为训练集和测试集,比例为9:1。
进一步的,还提供一种优选方式,所述数据处理单元中的姿态估计方法为MMPose姿态估计方法。
进一步的,还提供一种优选方式,所述非自然依赖超图建立单元包括:
根据所述行为关键点数据建立行为点超边:
其中,代表行为关键点不属于该超边,/>表示行为关键点属于该超边;
根据声呐模态数据特征、行为点超边和k-NN空间超图生成方法构建非自然依赖超图。
进一步的,还提供一种优选方式,所述动态跨时间点超图获取单元中的动态跨时间点超图为:
其中,表示时间特征生成方法,/>为时间超边的个数,/>为样本。
进一步的,还提供一种优选方式,所述综合特征模型构建单元包括:
时空高阶信息,用于将所述动态跨时间点超图进行超图卷积操作,获取时空高阶信息;
建模模块,用于将所述获取的时空高阶信息通过时空特征建模方法进行建模,获取综合特征模型。
基于同一发明构思,本发明还提供一种基于声光融合的潜水员智能监控方法,所述方法包括:
采集潜水员在水下的视频模态数据和声呐模态数据,获取多模态基准数据集;
对视频模态数据进行姿态估计处理,获取潜水员的行为关键点数据;并对所述声呐模态数据进行特征提取,获取潜水员的位置和运动状态;
根据所述潜水员的行为关键点数据和声呐特征,建立超边和非自然依赖超图;
采用时间特征生成方法处理非自然依赖超图,获取动态跨时间点超图;
根据时空特征建模方法和所述动态跨时间点超图,构建综合特征模型;
根据所述综合特征模型输出潜水员的动态监控识别结果。
本发明的有益之处在于:
本发明解决了现有水下潜水员监控识别由于水质浑浊和光线衰减,会损失一些监控细节和空间信息的问题。
本发明所述的一种声光融合的潜水员智能监控系统,能够根据充分挖掘时空高阶依赖信息,通过特征方法选取多种超图结构,包括多种有效的潜水员行为和位置的关联,实现更准确有效地信息提取,避免了现有水下监控识别通常采用图卷积神经网络(GCN)需要将潜水员行为和位置转化为图形式,会损失空间信息的问题。通过超图卷积操作,进行潜水员行为和位置的高阶信息聚合操作,并能够进行时空维度的特征建模,充分并行挖掘潜水员信息,能够准确识别各种相似行为和位置,以更好地实现水下监控工作。基于行为关键点和声呐特征的方法针对潜水员水下操作场景提出,不需要依赖光照、视觉角度等外在条件,具有更好的鲁棒性和适用性;通过建立行为关键点超边和声呐特征超边,并构建非自然依赖超图,更好的考虑了行为关键点和声呐特征之间的关联性和时空约束,提高了识别的准确率;基于时间特征生成方法处理非自然依赖超图,得到动态跨时间点超图,可以更直观地反映出潜水员的动态特性,识别效果更加准确;采用时空特征建模方法,能够在考虑空间信息的基础上,更好地利用时间序列的信息,得到更为细致全面的监控特征,准确识别潜水员的行为和位置;通过建立识别模型,能够快速、准确、自动完成潜水员的监控识别,提高了操作效率和工作效率。
本发明应用于水下人机交互领域。
附图说明
图1为实施方式一所述的声光融合的潜水员智能监控系统流程图;
图2为实施方式七所述的声光融合的潜水员智能监控方法流程图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。
实施方式一、参见图1说明本实施方式。本实施方式所述的一种基于声光融合的潜水员智能监控系统,所述系统包括:
多模态基准数据集获取单元,用于采集潜水员在水下的视频模态数据和声呐模态数据,获取多模态基准数据集;
数据处理单元,用于对视频模态数据进行姿态估计处理,获取潜水员的行为关键点数据;并对所述声呐模态数据进行特征提取,获取潜水员的位置和运动状态;
非自然依赖超图建立单元,用于根据所述潜水员的行为关键点数据和声呐特征,建立超边和非自然依赖超图;
动态跨时间点超图获取单元,用于采用时间特征生成方法处理非自然依赖超图,获取动态跨时间点超图;
综合特征模型构建单元,用于根据时空特征建模方法和所述动态跨时间点超图,构建综合特征模型;
输出单元,用于根据所述综合特征模型输出潜水员的动态监控识别结果。
本实施方式所述的一种基于声光融合的潜水员智能监控系统,利用多模态基准数据集获取单元采集了潜水员在水下的视频模态数据和声呐模态数据。通过融合多模态数据,系统能够在不同的环境条件下获取更丰富、全面的信息。数据处理单元对视频模态数据进行姿态估计处理,获取潜水员的行为关键点数据,同时对声呐模态数据进行特征提取,获取潜水员的位置和运动状态。这些处理和特征提取方法有助于从多个角度分析和理解潜水员的行为和动态变化。进一步的,利用非自然依赖超图建立单元,根据潜水员的行为关键点数据和声呐特征,构建超边和非自然依赖超图。这个步骤有助于建立潜水员行为的关联性和时序关系,为后续的分析提供了有力的基础。通过采用时间特征生成方法,动态跨时间点超图获取单元处理非自然依赖超图,生成动态跨时间点超图。充分考虑潜水员行为的时间演变,增强了对潜水员行为变化的感知能力。综合特征模型构建单元根据时空特征建模方法和动态跨时间点超图,构建综合特征模型。这个模型能够将不同的数据和特征进行有效融合,在模型层面提高了对潜水员行为的识别和分析能力。输出单元利用综合特征模型,根据所述综合特征模型输出潜水员的动态监控识别结果。这个过程能够及时准确地识别潜水员的行为,并根据需要采取相应的措施应对。
本实施方式所述的一种基于声光融合的潜水员智能监控系统,通过融合多模态数据、动态跨时间点超图的建立和综合特征模型的构建,提高了对潜水员行为的准确识别和分析能力。这种系统有助于弥补传统水下监控方法的局限性,提高海岸线和岛礁的安全性。
本实施方式所述的一种基于声光融合的潜水员智能监控系统,针对潜水员水下操作场景,基于行为关键点和声呐特征进行监控识别,不需要依赖光照、视觉角度等外在条件,具有更好的鲁棒性和适用性;通过建立行为关键点超边和声呐特征超边,并构建非自然依赖超图,更好的考虑了行为关键点和声呐特征之间的关联性和时空约束,提高了识别的准确率;基于时间特征生成方法处理非自然依赖超图,得到动态跨时间点超图,可以更直观地反映出潜水员行为和位置的动态特性,识别效果更加准确;采用时空特征建模方法,能够在考虑空间信息的基础上,更好地利用时间序列的信息,得到更为细致全面的监控特征,准确识别潜水员行为和位置;通过建立识别模型,能够快速、准确、自动完成潜水员的监控识别,提高了操作效率和工作效率。
实施方式二、本实施方式是对实施方式一所述的一种基于声光融合的潜水员智能监控系统的进一步限定,所述多模态基准数据集获取单元包括:
视频模态数据采集单元,用于通过摄像机采集潜水员在水下的视频模态数据;
声呐模态数据采集单元,用于采集与潜水员位置和动作相关的声呐模态数据;
时间戳划分单元,用于根据所述视频模态数据和声呐模态数据形成多模态基准数据集,并按照微秒级的时间戳进行划分;
数据集划分单元,用于将划分后的多模态基准数据集分为训练集和测试集,比例为9:1。
本实施方式通过摄像机采集潜水员水下活动视频和收集声呐数据,可以获取更真实、全面、多样的数据,可以更好地反映实际水下操作场景和实际特征,提高模型的识别准确度和鲁棒性;按照微秒级时间戳划分多模态数据序列,可以使数据更加规范、准确、易于处理,方便后续的算法处理和建模;进一步的,还将多模态数据序列分为训练集和测试集,可以在利用充分数据的同时,对模型的泛化能力和准确性进行测试和评估,提高最终的识别精度和可靠性。
本实施方式采用视频模态数据采集单元和声呐模态数据采集单元分别获取潜水员在水下的视频和声呐数据。这样可以从不同的传感器和模态中获得多样化的信息,提高对潜水员行为的感知能力。通过时间戳划分单元,根据视频模态数据和声呐模态数据的时间戳进行划分,将相关的视频和声呐数据进行组合,形成包含时间对齐的多模态基准数据集。这使得后续的数据处理和建模能够在时间上保持一致性,提供更精确和完整的数据。使用数据集划分单元将多模态基准数据集分为训练集和测试集,比例通常为9:1。这样可以提供数据集的划分,用于开发和评估潜水员智能监控系统的性能。训练集用于模型的训练和参数优化,而测试集则用于评估模型的泛化能力和性能。
本实施方式确保系统有足够的数据来源,以便进行潜水员行为分析和监控模型的训练和测试。通过采集视频模态数据和声呐模态数据,可以获取水下环境中潜水员的视频信息和位置相关的声呐信息。时间戳划分单元的目的是确保视频和声纳数据在时间上保持一致,方便后续的数据处理和特征提取。通过时间对齐,可以对多模态数据进行更准确的相互关联和组合,增强对潜水员行为的理解。数据集划分单元的目的是将多模态基准数据集划分为训练集和测试集,为模型的训练、优化和评估提供数据基础。
实施方式三、本实施方式是对实施方式一所述的一种基于声光融合的潜水员智能监控系统的进一步限定,所述数据处理单元中的姿态估计方法为MMPose姿态估计方法,对声呐模态数据采用回声定位算法和Doppler效应分析。
本实施方式为姿态估计方法和声呐特征提取提供一具体实施例。姿态估计方法为MMPose姿态估计方法,MMPose使用更深入的先进神经网络,可以更快更准确地识别潜水员的行为和位置,即使在难以处理的情况下(如遮挡、不良光照)也可以获得准确的结果;MMPose可以使用不同的关键点数,并且可以适应监控识别任务的多样性。同时,对声呐模态数据采用回声定位算法和Doppler效应分析,以准确获取潜水员的深度位置、水平移动方向和速度,进一步确定其运动状态。
实施方式四、本实施方式是对实施方式一所述的一种基于声光融合的潜水员智能监控系统的进一步限定,所述非自然依赖超图建立单元包括:
根据所述行为关键点数据建立行为点超边:
其中,代表行为关键点不属于该超边,/>表示行为关键点属于该超边;
根据声呐模态数据特征、行为点超边和k-NN空间超图生成方法构建非自然依赖超图。
本实施方式根据行为点超边和声纳模态数据特征建立行为关键点和声纳特征之间的超边关系,捕捉潜水员的动态行为和位置信息,从而提高监控识别的精度和鲁棒性;利用k-NN空间超图生成方法生成非自然依赖超图的目的是将超边的构建更加自适应和动态,不需要人为地事先确定边界,可以根据数据之间的距离和相似度构建准确的超图,进一步的,通过行为点超边和声呐模态数据特征相结合,能够在捕捉重要行为和位置信息的同时,降低噪声的影响,提高了监控识别的准确性和稳定性。且,通过行为点超边和声呐模态数据相结合,使得图像不受潜水员大小和形变的影响,克服了传统方法中可能存在的潜水员位置和大小不同而导致的误差和不稳定性问题。
本方式同时考虑了行为关键点数据和声呐模态数据,实现了多模态数据的融合。通过将两种数据源结合在一起,可以提供更全面、准确和可靠的潜水员行为描述和状态判断。通过行为关键点数据建立行为点超边,可以捕捉潜水员的动作序列和时空关系。同时,利用声呐模态数据特征,可以获取潜水员的位置、速度、加速度等运动特征。这些信息在构建非自然依赖超图时都得到了充分利用,使超图更具有信息丰富性。通过应用k-NN空间超图生成方法,可以高效地构建非自然依赖超图。该方法能够在保持超图的准确性和可靠性的前提下,有效地降低计算复杂度和存储需求,提高算法的运行效率。
本实施方式通过将行为关键点数据和声呐模态数据融合,实现对潜水员行为的全面描述。通过行为点超边的建立,可以捕捉潜水员的动作序列和时空关系,从而更准确地理解潜水员的行为模式和活动状态。通过构建非自然依赖超图,本方式旨在提供更准确和可靠的潜水员状态判断。超图中融合了多模态数据的信息,包括行为关键点数据和声呐模态数据特征,能够更全面地考虑潜水员的行为和位置特征,从而改善对潜水员状态的判断和预测。通过构建非自然依赖超图,本方式可为决策和安全监测提供支持。利用超图中的信息,可以对潜水员的行为和状态进行分析,观察其活动模式并识别异常行为。这有助于及时采取相关措施,确保潜水员的安全和减少潜在风险。
实施方式五、本实施方式是对实施方式一所述的一种基于声光融合的潜水员智能监控系统的进一步限定,所述动态跨时间点超图获取单元中的动态跨时间点超图为:
其中,表示时间特征生成方法,/>为时间超边的个数,/>为样本。
本实施方式通过聚类等多种特征距离方法对本次实验不同的监控样本进行动态建模,完成时间点超边构造,所述构造方法还包括空间和时间维度的均值操作,得到根据样本生成动态时间超图结构。
此外,为获取更好的时空依赖关联性,将生成的空间分割策略与动态时间超图结构进一步结合生成更加完备的时空依赖,以更好地进行时空并行建模完成监控识别。具体的实现方法包括两超图非线性变换后相加减等操作。
实施方式六、本实施方式是对实施方式一所述的一种基于声光融合的潜水员智能监控系统的进一步限定,所述综合特征模型构建单元包括:
时空高阶信息获取模块,用于将所述动态跨时间点超图进行超图卷积操作,获取时空高阶信息;
建模模块,用于将所述获取的时空高阶信息通过时空特征建模方法进行建模,获取综合特征模型。
本实施方式将动态跨时间点超图进行超图卷积操作的目的是利用超图卷积算法提取更高阶的时空结构信息,通过跨时间点上下文联结,获得跨越时间点的时空特征。这样可以更准确地捕捉在时间和空间上复杂的监控形态和动态特征,以及监控的时序性。通过时空特征建模方法建立识别模型的目的是利用机器学习和深度学习等算法技术,对时空高阶特征进行有效的建模,从而实现对潜水员的监控。时空特征建模方法既能全面提取监控的时空动态特征,同时结合超图卷积算法获取超图中的局部信息,提高模型的泛化能力,深入挖掘数据中的有用信息,从而更好地识别不同潜水员动作。采用超图卷积算法可以提取超图中更加复杂的时空结构信息,有利于挖掘监控的动态特征和时序性,从而提高监控识别的准确性。采用时空特征建模方法,能够更加全面、准确、深入的提取监控的动态时空特征,并且与超图卷积相结合,可以充分挖掘超图中的有用信息,提高模型的鲁棒性和泛化能力。
本实施方式的综合特征模型,可以实现潜水员的自动识别,具有高效、准确、自动的特点。
实施方式七、参见图2说明本实施方式。本实施方式所述的一种基于声光融合的潜水员智能监控方法,所述方法包括:
采集潜水员在水下的视频模态数据和声呐模态数据,获取多模态基准数据集;
对视频模态数据进行姿态估计处理,获取潜水员的行为关键点数据;并对所述声呐模态数据进行特征提取,获取潜水员的位置和运动状态;
根据所述潜水员的行为关键点数据和声呐特征,建立超边和非自然依赖超图;
采用时间特征生成方法处理非自然依赖超图,获取动态跨时间点超图;
根据时空特征建模方法和所述动态跨时间点超图,构建综合特征模型;
根据所述综合特征模型输出潜水员的动态监控识别结果。
实施方式八、本实施方式是对实施方式一所述的一种基于声光融合的潜水员智能监控系统提供一具体实施例,也用于解释实施方式二至实施方式六,具体的:
步骤1、通过专业摄像设备和声呐探测设备获取潜水员水下活动系列视频以及相关的声呐数据作为基准数据集。
其中,数据集的采集可以是不同的设备。在水下环境中搭建潜水员行为和位置采集系统,拍摄尽可能多的场景,以模拟现实情况下各种水下作业状况。视频采集部分采集潜水员的多种行为状态,每个状态20秒。声呐采集部分主要收集潜水员的位置信息和可能的运动状态。对采集的数据集进行处理操作,按照9:1划分为训练集与测试集,得到本次实例的基准数据集。
步骤2、通过姿态估计方法获取潜水员的行为关键点数据,同时,利用声呐技术获取与潜水员的位置和运动状态相关的数据,形成行为和位置序列。
根据潜水员的行为和位置都基于三维空间的特点,选取MMPose等姿态估计方法,先检测视频中的潜水员,再对每一个潜水员单独预测关键点。与此同时,采用声呐技术收集潜水员的深度、方向和速度等信息。这两种方法的计算量会随着数据的增多而上升,但对不同尺寸的潜水员和不同深度的声呐数据更加鲁棒,精度更高。对于经过姿态估计和声呐数据处理获取的行为和位置数据,经过一定的数据转换方法,最终得到潜水员行为和位置数据的最终形式:(N,C,T,V),其中N代表了实验数量,即本次实例拍摄的潜水员行为和位置的视频数量,C代表了水下数据通道,即三维空间坐标,T代表本次实验数据在时间维度的帧数,V代表了视频中每一帧的关节点数量。
步骤3、利用潜水员行为关键点数据和声呐特征,建立超边,得到非自然依赖超图。
以监控潜水员在水下的浮潜行为为例,进行超图结构划分。该行为需要多个关键点的相互作用完成。本实施方式提出一种超图结构,通过以下方式表示行为关键点是否在该行为超边中:
式中,表示由关键点构成的超边,/>表示某一个行为关键点,/>代表关键点不属于该超边,/>表示节点属于该超边。
进一步地,使用潜水员行为超边和声呐特征以及k-NN空间超图生成方法来生成空间超图结构,具体实现方式如下:
其中,为本次姿态估计提取的行为关键点拓扑结构。/>为最终该步骤得到的基于潜水员行为的超图结构,共有多种表示形式。
步骤4、利用时间特征生成方法,得到动态跨时间点超图。
以监控潜水员在水下的连续移动行为为例,通过聚类等多种特征距离方法对本次实验不同的监控样本进行动态建模,完成时间点超边构造,以下以聚类操作为例,实现方法如下所示:
其中,为时间超边的个数,/>表示时间特征超图生成方法,前期包括空间和时间维度的均值操作,得到根据样本/>生成动态时间超图结构/>
此外,为获取更好的时空依赖关联性,将生成的空间分割策略与动态时间超图结构进一步结合生成更加完备的时空依赖,以更好地进行时空并行建模完成监控识别。具体的实现方法包括两超图非线性变换后相加减等操作。
步骤5、利用超图卷积以及特征建模方法,最终输出精确的潜水员监控结果。
对于上述获得多种基于潜水员的时空超图结构,首先进行超图卷积操作以完成时空高阶信息提取,超图卷积包含考虑超边结构特征和不考虑超边特征,本次实验实现方法如下:
式中,为超图卷积操作,/>为获得的多种潜水员时空超图结构,DV为顶点度矩阵,为可学习的权重矩阵,De为超边度矩阵,/>为第 i 种潜水员时空超图结构对应的输入特征矩阵,/>为第 i 种潜水员时空超图结构的可学习参数或权重。
其次,将获取的高阶信息特征,通过时空特征建模方法进行建模,通过以下方式实现:
式中,表示为通道维度聚合,表示为/>,/>表示为拼接操作。/>分别表示为通过卷积操作得到的高阶信息特征,/>为第一组聚合特征,/>为第二组聚合特征,/>为平均聚合特征,/>为第一输入的高阶信息特征,/>为第二输入的高阶信息特征,/>为第一领域特定特征,/>为第二领域特定特征,/>为平均因子。
进一步地,将建模特征通过拼接操作后,通过多卷积相关操作,实现方式如下:
式中,为拼接后的特征向量,/>为拼接操作,/>为第一组聚合特征,/>为平均聚合特征,/>为第一输入的高阶信息特征,/>为潜水员监控特征在进行多卷积操作的结构,/>表示考虑原始潜水员特征,/>代表多尺度卷积操作,特征通过均值和卷积操作后,完成潜水员的具体监控。最终水下机器人读取相关信息完成水下作业。这样就很好的完成潜水员监控识别与水下人机交互任务。
在进行实验的具体过程中,使用了SGD梯度更新方法。在模型训练过程中,使用SGD优化器可以减少模型计算量,提高优化效率,使得训练速度更快。SGD梯度更新方法可以在不同批次中减小梯度下降的方差,有助于更好地训练模型,降低过拟合的风险。通过适当调整学习率,SGD可以在训练过程中收敛到较好的最优解,减少训练过程中的震荡和噪声,提高训练的稳定性。将batch size设置为64,共训练90 epoches,在使用训练方法中,使用了余弦退火方法。余弦退火方法可以在训练过程中自动调整学习率,避免学习率过高或过低,降低了过拟合的风险,同时可以有效平衡训练速度和优化效果。
尽管已描述了本公开的优选实施方式,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施方式以及落入本公开范围的所有变更和修改。 显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或 其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用于说明本公开的技术方案而非对其保护范围的限制,尽管参照上述实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本公开后依然可对发明的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在公开待批的权利要求保护范围之内。

Claims (7)

1.一种基于声光融合的潜水员智能监控系统,其特征在于,所述系统包括:
多模态基准数据集获取单元,用于采集潜水员在水下的视频模态数据和声呐模态数据,获取多模态基准数据集;
数据处理单元,用于对视频模态数据进行姿态估计处理,获取潜水员的行为关键点数据;并对所述声呐模态数据进行特征提取,获取潜水员的位置和运动状态;
非自然依赖超图建立单元,用于根据所述潜水员的行为关键点数据和声呐特征,建立超边和非自然依赖超图;
动态跨时间点超图获取单元,用于采用时间特征生成方法处理非自然依赖超图,获取动态跨时间点超图;
综合特征模型构建单元,用于根据时空特征建模方法和所述动态跨时间点超图,构建综合特征模型;
输出单元,用于根据所述综合特征模型输出潜水员的动态监控识别结果。
2.根据权利要求1所述的一种基于声光融合的潜水员智能监控系统,其特征在于,所述多模态基准数据集获取单元包括:
视频模态数据采集单元,用于通过摄像机采集潜水员在水下的视频模态数据;
声呐模态数据采集单元,用于采集与潜水员位置和动作相关的声呐模态数据;
时间戳划分单元,用于根据所述视频模态数据和声呐模态数据形成多模态基准数据集,并按照微秒级的时间戳进行划分;
数据集划分单元,用于将划分后的多模态基准数据集分为训练集和测试集,比例为9:1。
3.根据权利要求1所述的一种基于声光融合的潜水员智能监控系统,其特征在于,所述数据处理单元中的姿态估计方法为MMPose姿态估计方法。
4.根据权利要求1所述的一种基于声光融合的潜水员智能监控系统,其特征在于,所述非自然依赖超图建立单元包括:
根据所述行为关键点数据建立行为点超边:
其中,代表行为关键点不属于该超边,/>表示行为关键点属于该超边;
根据声呐模态数据特征、行为点超边和k-NN空间超图生成方法构建非自然依赖超图。
5.根据权利要求1所述的一种基于声光融合的潜水员智能监控系统,其特征在于,所述动态跨时间点超图获取单元中的动态跨时间点超图为:
其中,表示时间特征生成方法, />为时间超边的个数,/>为样本。
6.根据权利要求1所述的一种基于声光融合的潜水员智能监控系统,其特征在于,所述综合特征模型构建单元包括:
时空高阶信息获取模块,用于将所述动态跨时间点超图进行超图卷积操作,获取时空高阶信息;
建模模块,用于将所述获取的时空高阶信息通过时空特征建模方法进行建模,获取综合特征模型。
7.一种基于声光融合的潜水员智能监控方法,其特征在于,所述方法包括:
采集潜水员在水下的视频模态数据和声呐模态数据,获取多模态基准数据集;
对视频模态数据进行姿态估计处理,获取潜水员的行为关键点数据;并对所述声呐模态数据进行特征提取,获取潜水员的位置和运动状态;
根据所述潜水员的行为关键点数据和声呐特征,建立超边和非自然依赖超图;
采用时间特征生成方法处理非自然依赖超图,获取动态跨时间点超图;
根据时空特征建模方法和所述动态跨时间点超图,构建综合特征模型;
根据所述综合特征模型输出潜水员的动态监控识别结果。
CN202311195467.1A 2023-09-18 2023-09-18 一种基于声光融合的潜水员智能监控方法和系统 Active CN116935203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311195467.1A CN116935203B (zh) 2023-09-18 2023-09-18 一种基于声光融合的潜水员智能监控方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311195467.1A CN116935203B (zh) 2023-09-18 2023-09-18 一种基于声光融合的潜水员智能监控方法和系统

Publications (2)

Publication Number Publication Date
CN116935203A true CN116935203A (zh) 2023-10-24
CN116935203B CN116935203B (zh) 2023-11-21

Family

ID=88380732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311195467.1A Active CN116935203B (zh) 2023-09-18 2023-09-18 一种基于声光融合的潜水员智能监控方法和系统

Country Status (1)

Country Link
CN (1) CN116935203B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576784A (zh) * 2024-01-15 2024-02-20 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统
CN117932278A (zh) * 2024-03-22 2024-04-26 四川省生态环境科学研究院 一种智慧城市环保监控系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967362A (zh) * 2020-08-09 2020-11-20 电子科技大学 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法
CN112102197A (zh) * 2020-09-17 2020-12-18 哈尔滨工程大学 一种辅助潜水员的水下目标检测系统及方法
CN114944053A (zh) * 2022-03-16 2022-08-26 浙江工业大学 一种基于时空超图神经网络的交通流预测方法
US20220366657A1 (en) * 2021-06-11 2022-11-17 Shanghai Maritime University Remote Monitoring Method based on Information Fusion and Virtual Reality for Marine Engine Room
CN115359313A (zh) * 2022-08-11 2022-11-18 中国人民解放军国防科技大学 一种超图变分自编码器的多模态半监督表征学习方法
CN115761905A (zh) * 2023-01-09 2023-03-07 吉林大学 一种基于骨骼关节点的潜水员动作识别方法
CN116012950A (zh) * 2023-02-15 2023-04-25 杭州电子科技大学信息工程学院 一种基于多重心时空注意图卷积网络的骨架动作识别方法
WO2023077603A1 (zh) * 2021-11-03 2023-05-11 深圳先进技术研究院 一种异常脑连接预测系统、方法、装置及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967362A (zh) * 2020-08-09 2020-11-20 电子科技大学 面向可穿戴设备的超图特征融合和集成学习的人体行为识别方法
CN112102197A (zh) * 2020-09-17 2020-12-18 哈尔滨工程大学 一种辅助潜水员的水下目标检测系统及方法
US20220366657A1 (en) * 2021-06-11 2022-11-17 Shanghai Maritime University Remote Monitoring Method based on Information Fusion and Virtual Reality for Marine Engine Room
WO2023077603A1 (zh) * 2021-11-03 2023-05-11 深圳先进技术研究院 一种异常脑连接预测系统、方法、装置及可读存储介质
CN114944053A (zh) * 2022-03-16 2022-08-26 浙江工业大学 一种基于时空超图神经网络的交通流预测方法
CN115359313A (zh) * 2022-08-11 2022-11-18 中国人民解放军国防科技大学 一种超图变分自编码器的多模态半监督表征学习方法
CN115761905A (zh) * 2023-01-09 2023-03-07 吉林大学 一种基于骨骼关节点的潜水员动作识别方法
CN116012950A (zh) * 2023-02-15 2023-04-25 杭州电子科技大学信息工程学院 一种基于多重心时空注意图卷积网络的骨架动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHENGQIN WANG ET AL.: "Dynamic Spatial-temporal Hypergraph Convolutional Network for Skeleton-based Action Recognition", 《IEEE》, pages 2147 - 2152 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576784A (zh) * 2024-01-15 2024-02-20 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统
CN117576784B (zh) * 2024-01-15 2024-03-26 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统
CN117932278A (zh) * 2024-03-22 2024-04-26 四川省生态环境科学研究院 一种智慧城市环保监控系统及方法

Also Published As

Publication number Publication date
CN116935203B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN116935203B (zh) 一种基于声光融合的潜水员智能监控方法和系统
WO2021036059A1 (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN106952293B (zh) 一种基于非参数在线聚类的目标跟踪方法
CN116958584B (zh) 关键点检测方法、回归模型的训练方法、装置及电子设备
CN111062263A (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN114519853B (zh) 一种基于多模态融合的三维目标检测方法及系统
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN111178170B (zh) 一种手势识别方法和一种电子设备
CN112801047A (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN116249607A (zh) 用于机器人抓取三维物体的方法和装置
CN110796090A (zh) 基于循环神经网络的人机协作人体行为意图判别方法
JP2017033556A (ja) 画像処理方法及び電子機器
CN111531546B (zh) 一种机器人位姿估计方法、装置、设备及存储介质
CN102724530B (zh) 基于反馈控制的平面视频立体化方法
CN117152838A (zh) 一种基于多核动态注意力机制的手势识别方法
CN111626197A (zh) 一种人体行为识别网络模型及识别方法
JP6393495B2 (ja) 画像処理装置および物体認識方法
CN115147899A (zh) 基于标签分布和有监督空间变换网络的头部姿态估计方法
CN107993247A (zh) 追踪定位方法、系统、介质和计算设备
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
CN117576245B (zh) 一种图像的风格转换方法、装置、电子设备及存储介质
JP6282121B2 (ja) 画像認識装置、画像認識方法およびプログラム
CN112667088B (zh) 基于vr行走平台的手势应用识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant