CN115331082B - 追踪声源的路径生成方法、模型的训练方法及电子设备 - Google Patents

追踪声源的路径生成方法、模型的训练方法及电子设备 Download PDF

Info

Publication number
CN115331082B
CN115331082B CN202211250729.5A CN202211250729A CN115331082B CN 115331082 B CN115331082 B CN 115331082B CN 202211250729 A CN202211250729 A CN 202211250729A CN 115331082 B CN115331082 B CN 115331082B
Authority
CN
China
Prior art keywords
sample
sound source
data
field signal
sound field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211250729.5A
Other languages
English (en)
Other versions
CN115331082A (zh
Inventor
李醒飞
郑宇鸿
徐佳毅
李洪宇
文艺成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202211250729.5A priority Critical patent/CN115331082B/zh
Publication of CN115331082A publication Critical patent/CN115331082A/zh
Application granted granted Critical
Publication of CN115331082B publication Critical patent/CN115331082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种追踪声源的路径生成方法、模型的训练方法及电子设备。其中,深度学习模型包括编码器和解码器,编码器包括融合单元和编码单元;该追踪声源的路径生成方法包括:将目标场景图像和与声源对应的目标声场信号输入融合单元,得到融合数据,其中,目标场景图像表征声源所在场景的图像;将融合数据输入编码单元,得到编码数据;将编码数据输入解码器,得到输出结果;以及根据输出结果,生成对声源进行追踪的路径。

Description

追踪声源的路径生成方法、模型的训练方法及电子设备
技术领域
本发明涉及路径规划领域,尤其涉及一种追踪声源的路径生成方法、模型的训练方法及电子设备。
背景技术
随着机器计算和存储能力的提升,相关技术人员对水下声源的追踪技术越发重视,航行器在水下的路径规划日益成为研究重点。在相关技术中,水下路径规划技术无法同时通过障碍点信息以及声源对应的声场信息对到达目标声源进行路径规划,因此路径规划的终点一般都假设为已知。近年来,深度学习理论和技术的快速发展使得基于深度学习的航行器路径规划方法陆续出现。在深度学习领域,较多的方法都是在假设需要追踪的声源已知的情况下进行的水下避障路径规划,这些工作并未考虑在实际的水下路径规划中终点未知的情况。相关技术削弱了航行器对位置未知的目标声源进行路径规划的可行性。
发明内容
有鉴于此,本发明提供了一种追踪声源的路径生成方法、模型的训练方法及电子设备,以期部分地解决上述提及的技术问题中的至少之一。
本发明的一个方面,提供了一种追踪声源的路径生成方法,包括:
深度学习模型包括编码器和解码器,上述编码器包括融合单元和编码单元。
上述方法包括:
将目标场景图像和与声源对应的目标声场信号输入上述融合单元,得到融合数据,其中,上述目标场景图像表征上述声源所在场景的图像;将上述融合数据输入上述编码单元,得到编码数据;将上述编码数据输入上述解码器,得到输出结果;根据上述输出结果,生成对上述声源进行追踪的路径。
备选地,在上述将目标场景图像和与声源对应的目标声场信号输入上述融合单元之前,还包括:
对上述目标场景图像进行卷积和批标准归一化处理,得到归一化场景图;将上述与声源对应的目标声场信号整合为高度和宽度与上述目标场景图像一致的二维信号数据,并对上述二维信号数据进行卷积和批标准归一化处理,得到归一化特征图。
备选地,上述将目标场景图像和与声源对应的目标声场信号输入上述融合单元,得到融合数据包括:
对上述归一化特征图和上述归一化场景图进行特征融合,得到上述融合数据;其中,通过以下公式进行上述特征融合:
Figure 497753DEST_PATH_IMAGE001
其中,
Figure 759102DEST_PATH_IMAGE002
为上述融合数据,
Figure 538839DEST_PATH_IMAGE003
为拼接函数,
Figure 606152DEST_PATH_IMAGE004
为上述归一化特征图,
Figure 420524DEST_PATH_IMAGE005
为上述 归一化场景图。
备选地,还包括:
对上述声源所在场景的图像进行量化,得到上述目标场景图像;对上述声源产生的声场信号进行基带转换和低通滤波去噪,得到上述与声源对应的目标声场信号。
本发明的另一方面,提供了一种深度学习模型的训练方法,上述深度学习模型包括编码器和解码器,上述编码器包括融合单元和编码单元。
上述方法包括:
将样本场景图像和与样本声源对应的样本声场信号输入上述融合单元,得到样本融合数据,其中,上述样本场景图像是上述样本声源所在场景的图像;将上述样本融合数据输入上述编码单元,得到样本编码数据;将上述样本编码数据输入上述解码器,得到预测标签;利用上述预测标签和样本标签训练上述深度学习模型,其中,上述样本标签表征参考信息,上述参考信息包括基于上述样本场景图像中的障碍点、上述样本声源所在位置和接收上述样本声场信号所在位置得到的参考路径。
备选地,在上述将样本场景图像和与样本声源对应的样本声场信号输入上述融合单元之前,还包括:
基于预处理后的上述与样本声源对应的样本声场信号的采样时间段、上述样本声源的个数和上述样本声场信号的采样频率,得到单个上述样本声场信号的数据点数;基于预处理后的与上述样本声源对应的样本声场信号的频率分量和上述数据点数,得到单个上述样本声场信号的数据串;将上述数据串作为一个上述与样本声源对应的样本声场信号;将一个上述与样本声源对应的样本声场信号和一个上述样本场景图像作为数据集的一个样本,上述数据集包括预设数量个上述样本。
备选地,上述利用上述预测标签和样本标签训练上述深度学习模型包括:
基于上述预测标签和上述样本标签得到损失值;基于上述损失值调整上述深度学习模型的网络参数,完成上述深度学习模型的训练。
备选地,上述基于上述预测标签和上述样本标签得到损失值包括:
将上述预测标签和上述样本标签中的对应位置的矩阵点输入第一损失函数和第二损失函数中,得到第一损失函数值和第二损失函数值;基于上述第一损失函数值和上述第二损失函数值得到上述损失值。
备选地,上述基于上述损失值调整上述深度学习模型的网络参数,完成上述深度学习模型的训练包括:
基于更新前的网络参数和上述损失值,利用随机梯度下降方法对上述网络参数进行更新,完成上述深度学习模型的训练。
本发明的又一方面,提供了一种电子设备,包括:
一个或多个处理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实现上述的方法。
基于上述技术方案可以看出,本发明的实施例相对于现有技术具有如下有益效果:
航行器在实际水下路径规划中,由于待处理的与声源对应的目标声场信号会随着待处理的目标场景图像的变化而变化,因此,在生成针对声源的路径的过程中,声源的位置是变化的,由此,通过深度学习模型对获取到的目标场景图像和与声源对应的目标声场信号进行特征融合,得到包括目标场景图像数据和与声源对应的目标声场信号数据的融合数据,对融合数据进行特征提取,得到与目标场景图像数据和与声源对应的目标声场信号数据相关的编码数据,对编码数据进行解码,得到输出结果,通过对输出结果进行处理,得到了对未知位置的声源进行追踪的路径。由于编码数据是根据融合数据进行特征提取得到的,融合数据是对目标场景图像和与声源对应的目标声场信号进行特征融合得到的,因此,对编码数据进行解码得到的输出结果便与声源对应的目标声场信号相关,由此,无需对与声源对应的目标声场信号进行分析定位,得到与声源对应的位置信息,进而节省了算力。
附图说明
图1示意性示出了根据本发明实施例的追踪声源的路径生成方法流程图。
图2示意性示出了根据本发明实施例的量化操作的示意图。
图3示意性示出了根据本发明实施例的深度学习模型的训练方法流程图。
图4a示意性示出了根据本发明实施例的第一频率的目标声场信号示意图。
图4b示意性示出了根据本发明实施例的第二频率的目标声场信号示意图。
图5示意性示出了根据本发明实施例的深度学习模型的结构示意图。
图6a示意性示出了根据本发明实施例的第一频率的单个声源点对应的信号接收点选取示意图。
图6b示意性示出了根据本发明实施例的第二频率的单个声源点对应的信号接收点选取示意图。
图7a示意性示出了根据本发明实施例的样本标签表征的参考信息的路径示意图。
图7b示意性示出了根据本发明实施例的样本标签表征的量化信息的路径示意图。
图8示意性示出了根据本发明实施例的适于实现路径生成方法及训练方法的电子设备的框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在实现本发明构思的过程中,发明人发现相关技术中至少存在如下问题:
在强化学习领域,较多的方法都是在假设需要追踪的声源已知的情况下进行的水下避障路径规划,这些工作并未考虑在实际的水下路径规划中终点未知的情况。相关技术削弱了航行器对位置未知的目标声源进行路径规划的可行性。
需要一种追踪位置未知目标声源的同时规避障碍的路径生成方法。
为了至少部分地解决相关技术中存在的技术问题,本发明提供了一种追踪声源的路径生成方法、模型的训练方法及电子设备,可以应用于路径规划领域。
根据本发明实施例,一方面提供了一种追踪声源的路径生成方法。
图1示意性示出了根据本发明实施例的追踪声源的路径生成方法流程图。
根据本发明的实施例,深度学习模型包括编码器和解码器,编码器包括融合单元和编码单元。
根据本发明的实施例,该深度学习模型中的编码单元和解码器可以基于Unet深度学习网络结构得到,在编码器部分添加融合单元,以便对两种不同类型的数据进行特征融合,数据可以包括目标场景图像和与声源对应的目标声场信号。
如图1所示,利用该方法生成路径包括操作S110~操作S140。
在操作S110,将目标场景图像和与声源对应的目标声场信号输入融合单元,得到融合数据。其中,目标场景图像表征声源所在场景的图像。
在操作S120,将融合数据输入编码单元,得到编码数据。
在操作S130,将编码数据输入解码器,得到输出结果。
在操作S140,根据输出结果,生成对声源进行追踪的路径。
根据本发明的实施例,该目标场景图像可以是基于对声源进行追踪时,追踪装置所处的环境对应得到的场景图像。可以在使用路径生成方法之前通过其他数据获取设备获取目标场景图像。在实际使用情况下,追踪装置是相对场景图像进行运动的,可以将追踪装置准备进行声源的追踪时的位置设置为生成对声源进行追踪的路径的起始位置。
根据本发明的实施例,该目标声场信号可以是追踪装置中设置的数据采集设备在实际使用情况下实时接收到的需要进行追踪的声源发出的声场信号。该目标声场信号还可以是追踪装置在实际使用情况下对一段时间内获取到的需要进行追踪的声源发出的声场信号进行处理后得到的一部分声场信号。在实际使用情况下,被追踪的声源与追踪装置之间可以进行无规律的相对运动,因此声源位置未知,在实际使用情况下,利用获取的目标声场信号和目标场景图像生成对声源进行追踪的路径,因此在目标场景图像中无需包含被追踪的声源的位置。
根据本发明的实施例,该目标场景图像可以设置为在水下的场景,追踪装置可以设置为航行器,数据采集设备可以为水听器。还可以设置其他类型的场景,以及追踪装置还可以是具备运算能力的可以实现追踪功能的其他装置,数据采集设备可以基于实际需要进行设置。
根据本发明的实施例,将目标场景图像和与声源对应的目标声场信号输入融合单元,得到包括目标场景图像数据和与声源对应的目标声场信号数据的融合数据。融合数据表征了目标场景图像当前位置处对应包括的目标声场信号的数据信息,通过对融合数据进行数据提取,通过目标场景图像当前位置信息和当前位置对应的目标声场信号的数据信息进行计算,得到一条对声源进行追踪的路径。
根据本发明的实施例,在实际使用情况下,航行器在实际水下路径规划中,由于待处理的与声源对应的目标声场信号会随着待处理的目标场景图像的变化而变化,因此,在生成针对声源的路径的过程中,声源的位置是变化的,由此,通过深度学习模型对获取到的目标场景图像和与声源对应的目标声场信号进行特征融合,得到包括目标场景图像数据和与声源对应的目标声场信号数据的融合数据,对融合数据进行特征提取,得到与目标场景图像数据和与声源对应的目标声场信号数据相关的编码数据,对编码数据进行解码,得到输出结果,通过对输出结果进行处理,得到了对未知位置的声源进行追踪的路径。由于编码数据是根据融合数据进行特征提取得到的,融合数据是对目标场景图像和与声源对应的目标声场信号进行特征融合得到的,因此,对编码数据进行解码得到的输出结果便与声源对应的目标声场信号相关,由此,无需对与声源对应的目标声场信号进行分析定位,得到与声源对应的位置信息,进而节省了算力。
根据本发明的实施例,该方法还包括利用以下预处理操作得到目标场景图像和与声源对应的目标声场信号:
对声源所在场景的图像进行量化,得到目标场景图像;对声源产生的声场信号进行基带转换和低通滤波去噪,得到目标声场信号。
根据本发明的实施例,对获取的对声源所在的场景图像中的离散像素点进行分类赋值处理,得到量化的目标场景图像,在实际使用情况下,可以设置目标场景图像为分隔为多个矩形的二维图像,多个矩形中包括不同离散像素点。将声源所在的场景图像中的障碍点对应的矩形的量化值设置为1,将声源所在的场景图像中的非障碍点对应的矩形的量化值设置为2,将航行器位于声源所在的场景图像中初始位置对应的矩形的量化值设置为0。通过上述量化处理,使得原本像素值不一定统一的障碍点变为统一的量化值的障碍点。
图2示意性示出了根据本发明实施例的量化操作的示意图。
如图2所示,可以将航行器设置于场景图像的左下角,航行器的初始位置也可以作为后续得到的路径的起始位置,将航行器的初始位置对应的矩形的量化值设置为0。场景图像中标有“×”的像素点代表其为障碍点,将障碍点对应的矩形的量化值设置为1。其余空白区域的像素点代表其为非障碍点,非障碍点对应的矩形的量化值设置为2。
根据本发明的实施例,通过对声源所在的场景图像进行量化,以便该深度学习模型可以识别该目标场景图像,并将该目标场景图像的特征与目标声场信号的特征进行特征融合和特征提取,完成路径的生成。
根据本发明的实施例,可以通过以下公式(1)进行对声源产生的声场信号的基带转换:
Figure 915090DEST_PATH_IMAGE006
(1)
其中,t为时间步;
Figure 854228DEST_PATH_IMAGE007
为水听器接收的待追踪水下声源产生的声场信号;i为虚数 单位;
Figure 725232DEST_PATH_IMAGE008
为需搬移到基带的频率分量;
Figure 862952DEST_PATH_IMAGE009
为进行基带转换后的声场信号。
根据本发明的实施例,该低通滤波可以采用FIR(Finite Impulse Response,有限长单位冲激响应)滤波器滤波,在实际使用情况下,可以根据需要选择不同的滤波方法。
根据本发明的实施例,在实际使用情况下,还可以使用IIR(Infinite ImpulseResponse,无限长单位冲激响应)滤波器滤波的方法进行滤波。
可以通过以下公式(2)进行FIR滤波去噪:
Figure 528420DEST_PATH_IMAGE010
(2)
其中,*为卷积操作;
Figure 282749DEST_PATH_IMAGE011
为时域上的单位脉冲响应;
Figure 691865DEST_PATH_IMAGE012
为FIR滤波去噪后的声场 信号。
可以通过以下公式(3)表示该单位脉冲响应:
Figure 215250DEST_PATH_IMAGE013
(3)
其中,
Figure 317198DEST_PATH_IMAGE014
为窗函数;
Figure 230928DEST_PATH_IMAGE015
为理想低通滤波器的单位脉冲响应,该序列无限长。
可以通过以下公式(4)表示该理想低通滤波器的单位脉冲响应:
Figure 506051DEST_PATH_IMAGE016
(4)
其中,ω为截止频率;
Figure 821626DEST_PATH_IMAGE017
为采样延迟。
根据本发明的实施例,其中N为
Figure 563317DEST_PATH_IMAGE018
Figure 292239DEST_PATH_IMAGE014
的序列长度;根据不同类型的
Figure 43157DEST_PATH_IMAGE014
可得到 相对应FIR低通滤波器的单位脉冲响应,由此将处于基带的频率分量分离出来,并将噪声去 除。
在本发明的实施例中,将获取的第一频率和第二频率的目标声场信号输入深度学习模型进行处理,经过基带转换和低通滤波去噪的目标声场信号在后续编解码过程中可以降低噪声的干扰,提高生成的路径的准确性。
根据本发明的实施例,在将目标场景图像和与声源对应的目标声场信号输入融合单元之前,还包括:
对目标场景图像进行卷积和批标准归一化处理,得到归一化场景图;将目标声场信号整合为高度和宽度与目标场景图像一致的二维信号数据,并对二维信号数据进行卷积和批标准归一化处理,得到归一化特征图。
根据本发明的实施例,在将目标场景图像和与声源对应的目标声场信号输入融合单元之前,需要将一维的目标声场信号整合为二维信号数据,以便后续可以与目标场景图像进行特征融合处理。
可以通过以下公式(5)表示将一维的目标声场信号整合为二维信号数据的过程:
Figure 213238DEST_PATH_IMAGE019
(5)
其中,sfn为信号总合长度;H为整合后数据的高;W为整合后数据的宽;实际操作中可适当舍去sfn的信号点以使H和W取得合适的值。
可以通过以下公式(6)完成二维卷积操作:
Figure 656989DEST_PATH_IMAGE020
(6)
其中,
Figure 607627DEST_PATH_IMAGE021
为二维卷积后的特征图上的特征点;
Figure 162237DEST_PATH_IMAGE022
为输入数据对应特征 点,该输入数据为目标场景图像或二维信号数据;a为卷积核内横向的序数,A为横向总序 数;k为卷积核内纵向的序数,K为纵向总序数;
Figure 186825DEST_PATH_IMAGE023
为对应序数的卷积核权重;st为卷积步 长;i为卷积后特征图横向的序数;j为卷积后特征图纵向的序数;
Figure 129373DEST_PATH_IMAGE024
为卷积偏置;
Figure 239411DEST_PATH_IMAGE025
为 经过激活函数计算。
可以通过以下公式(7)完成批标准归一化操作:
Figure 660028DEST_PATH_IMAGE026
(7)
其中,
Figure 804702DEST_PATH_IMAGE027
为第b个样本的批标准归一化后的归一化场景图或归一化特征图;
Figure 160613DEST_PATH_IMAGE028
为特 征拉伸值,
Figure 85844DEST_PATH_IMAGE029
为特征偏移值,两者都可在网络训练过程中进行更新;
Figure 982256DEST_PATH_IMAGE030
为常数,用于防止分母 为0;
Figure 715857DEST_PATH_IMAGE031
为最小批次输入数据为第b个样本时对数据卷积后的目标场景图像或二维信号数据 的特征图;
Figure 208DEST_PATH_IMAGE032
为最小批次输入数据的平均值;
Figure 84838DEST_PATH_IMAGE033
为方差;B为 批处理样本数。
根据本发明的实施例,批标准归一化操作可以使得到的归一化特征图的数值稳定,提高后续进行融合操作时的融合效果,提高生成的对声源进行追踪的路径的准确程度。
根据本发明的实施例,在对目标场景图像和二维信号数据分别进行卷积和批标准归一化处理时,可能出现卷积操作前后的目标场景图像或二维信号数据的图像大小与后续在深度学习模型中卷积操作前后特征图的图像大小之间存在差异的问题。可以通过设置输入数据参数以及深度学习模型参数实现进行卷积操作前后的特征图的图像大小保持一致,以便不同层级间的特征图进行特征融合。
可以通过以下公式(8)完成参数的设置:
Figure 784941DEST_PATH_IMAGE034
(8)
其中,L为
Figure 966524DEST_PATH_IMAGE031
的边长,I为输入数据边长,即H或W;K为卷积核大小;P为量化后的目标 场景图像、整合后的二维信号数据或后续卷积前特征图的填充大小;设定合适的K、P和st值 可使得输入边长和L相等。
根据本发明的实施例,将目标场景图像和与声源对应的目标声场信号输入融合单元,得到融合数据包括:
对归一化特征图和归一化场景图进行特征融合,得到融合数据;
其中,通过以下公式(9)进行特征融合:
Figure 828300DEST_PATH_IMAGE035
(9)
其中
Figure 728123DEST_PATH_IMAGE036
为融合数据,
Figure 966338DEST_PATH_IMAGE037
为拼接函数,
Figure 940110DEST_PATH_IMAGE038
为归一化特征图,
Figure 300684DEST_PATH_IMAGE039
为归一化场景 图。
根据本发明的实施例,在深度学习模型中对融合数据进行后续的编码过程,通过一系列的二维卷积、批标准归一化以及最大池化操作可以得到编码数据,编码数据表征融合数据的高维特征。在解码过程中基于编码数据,通过一系列的二维卷积、批标准归一化和上采样操作得到输出结果。
根据本发明的实施例,基于深度学习模型对目标场景图像和与声源对应的目标声场信号进行特征融合后进行编解码操作,只需要对对应的编解码数据进行处理,不需要对对应的目标场景图像的所有数据进行计算,避免算力浪费。以及基于包括目标场景图像数据和与声源对应的目标声场信号数据的融合数据对融合数据得到的路径相对于先进行声源位置计算得到的路径的准确性高。
根据本发明的实施例,该方法可以在不同类型的目标场景图像的情况下,基于目标声场信号得到追踪声源的路径,适用范围广。
根据本发明实施例,另一方面提供了一种深度学习模型的训练方法。该深度学习模型包括编码器和解码器,编码器包括融合单元和编码单元。
图3示意性示出了根据本发明实施例的深度学习模型的训练方法流程图。
如图3所示,该训练方法包括操作S310~操作S340。
在操作S310,将样本场景图像和与样本声源对应的样本声场信号输入融合单元,得到样本融合数据,其中,样本场景图像是样本声源所在场景的图像。
在操作S320,将样本融合数据输入编码单元,得到样本编码数据。
在操作S330,将样本编码数据输入解码器,得到预测标签。
在操作S340,利用预测标签和样本标签训练深度学习模型。其中,样本标签表征参考信息,参考信息包括基于样本场景图像中的障碍点、样本声源所在位置和接收样本声场信号所在位置得到的参考路径。
根据本发明的实施例,将样本场景图像和与声源对应的样本声场信号输入融合单元,得到包括样本场景图像数据和与样本声源对应的样本声场信号数据的融合数据。通过对融合数据进行数据提取,通过样本场景图像当前位置信息和当前位置对应的样本声场信号的数据信息进行计算,得到预测标签,通过得到预测标签与已有样本标签之间的损失值,对深度学习模型进行训练,以便练得到的深度学习模型可以对不同类型数据进行特征融合和编解码,得到输出结果,并基于输出结果得到与数据对应的声源的追踪路径,实现对位置未知的声源的追踪。
图4a示意性示出了根据本发明实施例的第一频率的目标声场信号示意图。
图4b示意性示出了根据本发明实施例的第二频率的目标声场信号示意图。
如图4a和图4b所示,航行器对接收到的声源产生的声场信号进行基带转换和滤波 去噪后,可以得到的对应不同频率的目标声场信号。例如,通过设置公式(1)中包括的
Figure 359907DEST_PATH_IMAGE040
的 具体数值,可以将具体数值的频率的分量从声源产生的声场信号提取出来,以及去除具体 数值的频率的分量的声场信号的噪声,得到具体数值的频率的目标声场信号。可以基于不 同类型的窗函数可得到相对应FIR低通滤波器的单位脉冲响应,根据实际需要选择窗函数, 从而将需要的频率分量分离出来并对信号进行去噪操作。图4a和图4b所示的第一频率的目 标声场信号和第二频率的目标声场信号可以表征不同的声源位置,该声源位置取决于利用 用全球定位(Global Positioning System,GPS)系统设备去定位声源的次数,可以设置装 置记录利用GPS设备进行的声源定位操作的次数。定位的次数越多,可以获得越多不同的声 源位置对应的声场信号,对更多的声场信号进行分析,有利于得到更精确声源位置,以便提 高训练后的模型生成的路径的准确性。
图5示意性示出了根据本发明实施例的深度学习模型的结构示意图。
如图5所示,将样本场景图像和与样本声源对应的样本声场信号输入融合单元,得到样本融合数据,其中,一个样本可以包括一个样本声场信号和一个样本场景图像。
根据本发明的实施例,在获取预设样本声源所在的场景图像时,例如,可以对场景图像内的每个矩形生成一个随机数o,该随机数o为随机变量O的取值,其中O服从均匀分布,可以通过以下公式(10)标注障碍点的位置:
Figure 136233DEST_PATH_IMAGE041
(10)
可以通过如下方法生成障碍点在场景图内的分布情况:设置c和d的取值分别为0 和1。在生成的随机数
Figure 26829DEST_PATH_IMAGE042
的情况下,对应的矩形生成障碍点;在生成的随机数
Figure 495987DEST_PATH_IMAGE043
的情况下,对应的矩形不生成障碍点。
根据本发明的实施例,在实际操作中,由于障碍点相对于声传播的区域非常小,于是可忽略生成的障碍点对声传播的影响。通过障碍点生成方法弥补原场景图像数据量、数据多样性的不足,该障碍点生成方法可以对数据集起到数据增强的作用,加强了训练后深度学习模型的鲁棒性。
根据本发明的实施例,还可以利用上述路径生成方法中的目标场景图像,对目标场景图像进行量化,得到量化后的样本场景图像。
根据本发明的实施例,在输入融合单元之前,可以对预设样本声源所在的场景图像和预设样本声源产生的声场信号分别进行预处理,操作流程与上述路径生成方法中的将目标场景图像和与声源对应的目标声场信号输入融合单元之前的操作类似,在此不再赘述。
根据本发明的实施例,基于预处理后的与样本声源对应的样本声场信号的采样时间段、样本声源的个数和样本声场信号的采样频率,得到单个样本声场信号的数据点数。基于预处理后的与样本声源对应的样本声场信号的频率分量和数据点数,得到单个样本声场信号的数据串。将数据串作为一个样本声场信号。将一个样本声场信号和一个样本场景图像作为数据集的一个样本,数据集包括预设数量个样本。
根据本发明的实施例,对每个样本中的两类数据分别进行卷积和批标准归一化处理,操作流程与上述路径生成方法中的卷积和批标准归一化处理操作类似,在此不再赘述。
根据本发明的实施例,可以通过以下公式(11)获得与样本声源对应的样本声场信号的信号总点数:
Figure 104823DEST_PATH_IMAGE044
(11)
其中,
Figure 950419DEST_PATH_IMAGE045
为样本声场信号的信号总点数;fs为采样频率;ts为采样时间段。
可以理解的是,应该使与声源对应的目标声场信号长度与训练时输入深度学习模型的样本信号长度相等。
根据本发明的实施例,可以通过以下公式(12)获得单个样本声场信号的数据点数:
Figure 633205DEST_PATH_IMAGE046
(12)
其中,sn为单个样本声场信号的数据点数;tn为待追踪声源点总数,即设置装置记录的利用GPS设备进行的声源定位操作的次数。
图6a示意性示出了根据本发明实施例的第一频率的单个声源点对应的信号接收点选取示意图。
图6b示意性示出了根据本发明实施例的第二频率的单个声源点对应的信号接收点选取示意图。
如图6a和图6b所示,分别表示了对第一频率和第二频率的样本声场信号进行处理,获得对应的单个声源点对应的信号接收点。
根据本发明的实施例,图6a和图6b截取的信号就是对声源在记录位置的产生信号进行预处理后的信号。可以将追踪声源的路径生成方法中使用的声源对应的目标声场信号作为与样本声源对应的样本声场信号,则深度学习模型的训练方法所需的截取框在信号图里的相对位置为图6a和图6b中时间节点约为第五分钟处截取一段采样时间段,GPS设备记录到了样本声源位置。样本声源产生的样本声场信号,即两个截取框的样本声场信号,对应着一个位置相同而包含不同频率的样本声源,将样本声场信号输入深度学习模型进行训练。两个截取框中的样本声场信号长度都为sn,两个截取框的截取的信号总合长度为sfn。本发明实施例可以选择通过2个频率分量,即fn为2个,实现信号的获取,在实际操作中,可以根据实际需要选择不同频率分量个数。
根据本发明的实施例,可以通过以下公式(13)获得单个样本声场信号的数据串:
Figure 601161DEST_PATH_IMAGE047
(13)
其中,fn为样本声场信号的频率分量,在实施例中fn可以设置为2个;sfn为信号总合长度,即单个样本声场信号的数据串。
根据本发明的实施例,在航行器接收的每个样本声场信号对应的声源点处于运动状态的情况下,当tn较大时,单个样本声场信号可以较好地与声源点对应起来,可以根据实际需要设置航行器需要进行处理的频率分量个数和待追踪声源点总数。
根据本发明的实施例,对海洋声场设置随机障碍点,并对待追踪的声源点设置不同航行器出发点,将标有出发点和障碍点的场景图像与滤波去噪后的各频段信号数据作为数据集,并将该数据集进行训练集和测试集的划分。
根据本发明的实施例,对样本声场信号进行处理,并结合样本场景得到数据集,数据集中包括多个样本。可以将数据集分为训练集和测试集,利用训练集中的多个样本对待训练的深度学习模型进行训练,利用测试集验证训练完毕的深度学习模型的准确率。在实际使用情况下,可以设置训练集和测试集的划分比例,基于实际需要可以设置训练集和测试集的划分比例为8:2。在训练阶段,可以选择对多组样本的并行处理来训练深度学习模型,加快深度学习模型的推理速度,实现缩减深度学习模型的训练时长。
根据本发明的实施例,在训练过程中需对数据进行并行处理,即批处理,设批处理样本数为B,将样本序号设置为b,第b个样本通过上述方法进行处理,且多个样本并行处理,其中,B为正整数,b为属于[1,B]区间的正整数。
根据本发明的实施例,批标准归一化操作可以使批处理得到的归一化特征图的数值稳定,提高后续进行融合操作时的融合效果,还可以加快深度学习模型的训练速度。其中,归一化特征图包括归一化场景图和归一化特征图,得到归一化特征图的操作与上述通过公式(7)完成批标准归一化操作一致,在此不再赘述。
根据本发明的实施例,在将样本融合数据输入编码单元得到样本编码数据的过程中,可以基于编码器编码单元的前四层结构进行二维卷积、批标准归一化和最大池化处理。二维卷积和批标准归一化操作流程与上述路径生成方法中的卷积和批标准归一化处理操作类似。
根据本发明的实施例,可以通过以下公式(14)完成最大池化操作:
Figure 369397DEST_PATH_IMAGE048
(14)
其中,
Figure 753104DEST_PATH_IMAGE049
为最大池化前的融合数据的特征点;
Figure 290396DEST_PATH_IMAGE050
为最大池化后的融合数 据的特征点;
Figure 429253DEST_PATH_IMAGE051
为最大池化后融合数据的特征图横向的序数;m为最大池化后融合数据的特 征图纵向的序数;sp为池化步长,r为池化大小,
Figure 684785DEST_PATH_IMAGE052
Figure 934501DEST_PATH_IMAGE053
为最大池化前融 合数据的特征图横向的序数;
Figure 326299DEST_PATH_IMAGE054
为最大池化前融合数据的特征图纵向的序数。最大 池化可保持特征融合和二维卷积过程过程的平移不变性,在保留主要特征的同时减少了网 络参数量。
根据本发明的实施例,深度学习网络编码部分如图5所示,两种不同类型的数据经过二维卷积和批标准归一化后进行特征融合,并通过一系列的二维卷积、批标准归一化以及最大池化得到高维特征。
根据本发明的实施例,在将样本编码数据输入解码器得到预测标签的过程中,可以基于解码器的前四层结构进行二维卷积、批标准归一化和上采样处理。二维卷积和批标准归一化操作流程与上述路径生成方法中的卷积和批标准归一化处理操作类似,对应的参数可以在训练中进行调整,在此不再赘述。解码器用于对编码数据进行解码。
根据本发明的实施例,上采样操作可以采用以像素点进行特征图扩充的双线性插值上采样。
根据本发明的实施例,可以通过以下公式(15)实现双线性插值上采样获取上采样操作后的特征图的像素在上采样操作前的特征图的图像中的位置:
Figure 308162DEST_PATH_IMAGE055
(15)
其中,
Figure 378886DEST_PATH_IMAGE056
为上采样操作后的特征图的高度;
Figure 104397DEST_PATH_IMAGE057
为上采样操作后的特征图的宽度;
Figure 616280DEST_PATH_IMAGE058
为上采样操作前的特征图的高度;
Figure 96940DEST_PATH_IMAGE059
为上采样操作前的特征图的宽度;
Figure 61485DEST_PATH_IMAGE060
为上采样操 作前的特征图的像素坐标;xy一般为浮点数。
根据本发明的实施例,基于公式(15)找到上采样操作前的特征图的像素坐标
Figure 325108DEST_PATH_IMAGE061
处附近四个实际存在的像素点,将该四个实际存在的像素点的坐标点分别用
Figure 19394DEST_PATH_IMAGE062
Figure 343059DEST_PATH_IMAGE063
Figure 60479DEST_PATH_IMAGE064
Figure 455689DEST_PATH_IMAGE065
表示。
根据本发明的实施例,基于公式(16)实现在横向方向上的插值计算:
Figure 676586DEST_PATH_IMAGE066
(16)
其中,
Figure 436731DEST_PATH_IMAGE067
为各点对应的像素值。
Figure 703764DEST_PATH_IMAGE068
为利用
Figure 574769DEST_PATH_IMAGE069
Figure 978068DEST_PATH_IMAGE070
得到的像素值;
Figure 909115DEST_PATH_IMAGE071
为利用
Figure 69969DEST_PATH_IMAGE064
Figure 806981DEST_PATH_IMAGE065
得到的像素值。
根据本发明的实施例,基于公式(17)实现双线性插值上采样对(x,y)点的像素值的计算:
Figure 2470DEST_PATH_IMAGE072
(17)
根据本发明的实施例,预测标签包括的特征图是基于解码器的第一层中的特征图,通过一系列的二维卷积、批标准归一化和上采样得到的,预测标签包括的特征图边长为H和W,预测标签包括的特征图频道数为C。
根据本发明的实施例,对编码器的第五层结构,即图5所示的编码器中频道数为8C的最下层结构,进行二维卷积和批标准归一化处理后,即成为解码器的第一层结构。
根据本发明的实施例,在解码器输出预测标签前可以经过一层Sigmoid函数层,基于公式(18)表示Sigmoid函数:
Figure 104418DEST_PATH_IMAGE073
(18)
其中,
Figure 80464DEST_PATH_IMAGE074
为最后一层卷积层的特征点,最后一层卷积层的频道数为1;Sigmoid函数 可将特征值非线性映射至0~1之间;q为矩阵点序号;
Figure 293271DEST_PATH_IMAGE075
为预测标签中对应矩阵点,即
Figure 608846DEST_PATH_IMAGE074
经 过Sigmoid函数后的数据的特征点。将最后一层卷积层的的输出结果,输入至Sigmoid层得 到解码器最后的特征结果,该特征结果即为预测标签。
根据本发明的实施例,利用预测标签和样本标签训练深度学习模型包括:
基于预测标签和样本标签得到损失值。基于损失值调整深度学习模型的网络参数,完成深度学习模型的训练。
根据本发明的实施例,样本标签可以基于确定的出发点、障碍点和声源点,通过路径规划算法得到。
路径规划算法可以包括:A*算法、Dijkstra算法和最佳优先算法等地图搜索式的路径规划算法,这些算法可在执行过程中得到航行器绕过障碍点到达声源位置的最短规划路径。
根据本发明的实施例,基于公式(19)实现路径规划算法:
Figure 944012DEST_PATH_IMAGE076
(19)
其中,n为节点坐标序号,
Figure 345038DEST_PATH_IMAGE077
为第n个节点坐标距离起点坐标的代价,即算法的实 际代价函数;
Figure 423852DEST_PATH_IMAGE078
为欧式距离,即表征第n个节点坐标距离终点坐标的代价,即算法的启发函 数;w为调节两种函数影响程度的权重,当w为1时,
Figure 593934DEST_PATH_IMAGE079
为Dijkstra算法的代价函数,当w为0 时,
Figure 772105DEST_PATH_IMAGE080
表征最佳优先算法的代价函数,当w为0.5时,
Figure 988323DEST_PATH_IMAGE079
表征A*算法的代价函数。
根据本发明的实施例,可以基于公式(20)得到欧式距离:
Figure 542932DEST_PATH_IMAGE081
(20)
其中,
Figure 301941DEST_PATH_IMAGE082
为样本声源坐标;
Figure 244489DEST_PATH_IMAGE083
为第n个节点坐标;
Figure 354527DEST_PATH_IMAGE084
为欧式距离;基于样 本声源坐标和第n个节点坐标可以得到欧式距离。
可以理解的是,在追踪声源的路径生成方法和深度学习模型的训练方法中,对输入深度学习模型的融合数据,都需要通过一系列的二维卷积、批标准归一化以及最大池化操作可以得到编码数据,以及在解码过程中通过一系列的二维卷积、批标准归一化和上采样操作得到输出结果,以便后续追踪声源的路径生成方法生成对声源进行追踪的路径或是后续深度学习模型的训练方法得到预测标签。
图7a示意性示出了根据本发明实施例的样本标签表征的参考信息的路径示意图。
如图7a所示,样本标签表征的参考信息的路径中,航行器位于左下角,样本声源位于右上角,“×”表示障碍点。可以对航行器接收到的信号进行上述预处理,预处理后的信号为如图6a和图6b所示的声场信号图中矩形框内的信号,两个矩形框位于x轴方向上时间节点相同的位置;基于GPS设备定位得到样本声源位置;基于样本声源位置,通过公式(19)得到样本标签表征的参考信息的路径;将其设置为样本标签。
根据本发明的实施例,图7a所示的路径可以是使用A*算法得到的,其中声源位置可以是基于GPS设备定位得到的。
图7b示意性示出了根据本发明实施例的样本标签表征的量化信息的路径示意图。
如图7b所示,对图7a进行所示的路径量化,可以得到样本标签。通过将图7a中的路径点量化为1,非路径点量化为0,得到量化后的样本标签。
根据本发明的实施例,基于预测标签和样本标签得到损失值包括:
将预测标签和样本标签中的对应位置的矩阵点输入第一损失函数和第二损失函数中,得到第一损失函数值和第二损失函数值。基于第一损失函数值和第二损失函数值得到损失值。可以设置第一损失函数为Focalloss,第二损失函数为Diceloss。
在训练阶段,以包括参考信息的路径的样本标签的输出基准,采用Focalloss和Diceloss的结合形式计算预测标签和真实标签之间的损失函数。
根据本发明的实施例,基于公式(21)实现Focalloss损失值的计算:
Figure 775144DEST_PATH_IMAGE085
(21)
根据本发明的实施例,基于公式(22)实现Diceloss损失值的计算:
Figure 919818DEST_PATH_IMAGE086
(22)
其中,
Figure 439792DEST_PATH_IMAGE087
为第一预设参数;
Figure 365023DEST_PATH_IMAGE088
为第二预设参数。
其中,B为批处理样本数;Q为矩阵点总数;α为第一超参数;θ为第二超参数;
Figure 261435DEST_PATH_IMAGE089
为样 本标签上的矩阵点,
Figure 260615DEST_PATH_IMAGE090
为预测标签中对应矩阵点;
Figure 544965DEST_PATH_IMAGE091
在表征路径点时为1,表征非路径点为 0。
根据本发明的实施例,对两种损失函数选择不同权重,可以构成混合损失函数,基于公式(23)实现损失值计算:
Figure 629596DEST_PATH_IMAGE092
(23)
其中,wl为调节两种损失函数影响程度的权重;Hybridloss可在预测标签正负例数据量差距较大的情况下使得深度学习网络取得较好的训练效果。
根据本发明的实施例,基于损失值调整深度学习模型的网络参数,完成深度学习模型的训练包括:
基于更新前的网络参数和损失值,利用随机梯度下降方法对网络参数进行更新,完成深度学习模型的训练。
根据本发明的实施例,基于公式(24)实现利用随机梯度下降方法进行的深度学习网络参数更新:
Figure 64120DEST_PATH_IMAGE093
(24)
其中,
Figure 245702DEST_PATH_IMAGE094
Figure 107479DEST_PATH_IMAGE095
分别为深度学习网络中更新前后的参数值;基于损失 值更新参数为
Figure 7302DEST_PATH_IMAGE096
Figure 245516DEST_PATH_IMAGE097
Figure 953709DEST_PATH_IMAGE028
Figure 579863DEST_PATH_IMAGE098
Figure 639086DEST_PATH_IMAGE099
为学习率;D为权重衰减参数;T为总样本数;参数更新由 深度学习框架来完成,例如,深度学习框架可以为Tensorflow或Pytorch。为提高训练预测 效果,可以在编码器编码单元前四层级和解码器的后四层级的特征图之间通过跳跃连接进 行特征融合。
在损失函数值不再下降后,即参数更新趋于平稳时,训练结束。将测试集输入至训练完成的深度学习网络,基于样本输出结果得到的预测标签,可根据阈值转化为二值图。
根据本发明的实施例,基于公式(25)实现二值图转化:
Figure 391974DEST_PATH_IMAGE100
(25)
其中,
Figure 548149DEST_PATH_IMAGE101
为二值图转化;
Figure 17308DEST_PATH_IMAGE102
为预测标签中对应矩阵点;阈值为0.5,1表征预 测标签中对应矩阵点为路径点,0表征预测标签中对应矩阵点为非路径点,可以以此将追踪 过程进行还原,得到追踪路径。
预测标签的结果中,每个矩阵点为0~1之间的值,表征了矩阵点对应的位置为路径点的概率大小。对基于测试集得到的预测标签进行二值图转化,可以验证深度学习模型的可靠性,便于在实际追踪声源的路径的情况下也可以生成可靠性较高的路径。
可以理解的是,在实际追踪声源的路径的情况下,对基于目标场景图像和与声源对应的目标声场信号得到的输出结果也需要经过二值图的转化,以便根据二值图和目标场景图像生成对声源进行追踪的路径。
以及,可以理解的是,在训练过程中,对一段时间内的信号数据进行预处理,并截取一段信号与相应的场景图像组成样本数据,用训练集训练模型得到合适的参数后,用测试集验证深度学习模型可靠性;在实际追踪声源的路径过程中,由于信号卷积满足结合律,因此每接收到sn个信号点就可以对sn个信号点进行基于训练好的深度学习模型的处理,生成可靠性较高的路径。
根据本发明的实施例,本发明实施例基于标有出发点和障碍点的样本场景图像和与样本声源对应的样本声场信号对深度学习模型进行训练。通过对两种不同类型的数据进行特征融合,以样本标签作为深度学习模型的输出基准,形成了一个对不同类型数据进行编解码的深度学习模型,完成训练的深度学习模型可以提供追踪水下未知位置声源的路径,避免了规划路径前对声源定位的前置算法流程以及规划路径过程中传统算法对地图的大范围搜索造成的算力浪费。在面对实时对水下环境情况下,进行分析可以得到水下障碍点、航行器出发点和待追踪声源产生的声场信号,基于水下障碍点、航行器出发点和待追踪声源产生的声场信号,通过训练完成的深度学习模型可以实现快速准确的追踪水下声源的路径规划。
根据本发明的实施例,此方法还适用于陆空机器人追踪对应声源的路径规划任务,具有普遍适用性。
图8示意性示出了根据本发明实施例的适于实现路径生成方法及训练方法的电子设备的框图。
图8示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,根据本发明实施例的计算机电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器 801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本发明的实施例,根据本发明实施例的方法流程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
附图中的流程图和框图,示意性示出了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明本发明的目的、技术方案和有益效果,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,在本发明的精神和原则之内,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的保护范围之内。

Claims (7)

1.一种追踪声源的路径生成方法,其特征在于,深度学习模型包括编码器和解码器,所述编码器包括融合单元和编码单元;
所述方法包括:
将目标场景图像和与声源对应的目标声场信号输入所述融合单元,得到融合数据,其中,所述目标场景图像表征所述声源所在场景的图像,所述声源为进行无规律移动的声源;
将所述融合数据输入所述编码单元,得到编码数据;
将所述编码数据输入所述解码器,得到输出结果;
根据所述输出结果,生成对所述声源进行追踪的路径;
其中,在所述将目标场景图像和与声源对应的目标声场信号输入所述融合单元之前,还包括:
对所述目标场景图像进行卷积和批标准归一化处理,得到归一化场景图;
将所述与声源对应的目标声场信号整合为高度和宽度与所述目标场景图像一致的二维信号数据,并对所述二维信号数据进行卷积和批标准归一化处理,得到归一化特征图;
所述将目标场景图像和与声源对应的目标声场信号输入所述融合单元,得到融合数据包括:
对所述归一化特征图和所述归一化场景图进行特征融合,得到所述融合数据;以及
对所述声源所在场景的图像进行量化,得到所述目标场景图像;
对所述声源产生的声场信号进行基带转换和低通滤波去噪,得到所述与声源对应的目标声场信号。
2.一种深度学习模型的训练方法,以实现如权利要求1所述的追踪声源的路径生成方法,其特征在于,所述深度学习模型包括编码器和解码器,所述编码器包括融合单元和编码单元;
所述训练方法包括:
将样本场景图像和与样本声源对应的样本声场信号输入所述融合单元,得到样本融合数据,其中,所述样本场景图像是所述样本声源所在场景的图像,所述样本声源为进行无规律移动的声源;
将所述样本融合数据输入所述编码单元,得到样本编码数据;
将所述样本编码数据输入所述解码器,得到预测标签;
利用所述预测标签和样本标签训练所述深度学习模型,其中,所述样本标签表征参考信息,所述参考信息包括基于所述样本场景图像中的障碍点、所述样本声源所在位置和接收所述样本声场信号所在位置得到的参考路径。
3.如权利要求2所述的训练方法,其特征在于,在所述将样本场景图像和与样本声源对应的样本声场信号输入所述融合单元之前,还包括:
基于预处理后的所述与样本声源对应的样本声场信号的采样时间段、所述样本声源的个数和所述样本声场信号的采样频率,得到单个所述样本声场信号的数据点数;
基于预处理后的与所述样本声源对应的样本声场信号的频率分量和所述数据点数,得到单个所述样本声场信号的数据串;
将所述数据串作为一个所述与样本声源对应的样本声场信号;
将一个所述与样本声源对应的样本声场信号和一个所述样本场景图像作为数据集的一个样本,所述数据集包括预设数量个所述样本。
4.如权利要求3所述的训练方法,其特征在于,所述利用所述预测标签和样本标签训练所述深度学习模型包括:
基于所述预测标签和所述样本标签得到损失值;
基于所述损失值调整所述深度学习模型的网络参数,完成所述深度学习模型的训练。
5.如权利要求4所述的训练方法,其特征在于,所述基于所述预测标签和所述样本标签得到损失值包括:
将所述预测标签和所述样本标签中的对应位置的矩阵点输入第一损失函数和第二损失函数中,得到第一损失函数值和第二损失函数值;
基于所述第一损失函数值和所述第二损失函数值得到所述损失值。
6.如权利要求5所述的训练方法,其特征在于,所述基于所述损失值调整所述深度学习模型的网络参数,完成所述深度学习模型的训练包括:
基于更新前的网络参数和所述损失值,利用随机梯度下降函数对所述网络参数进行更新,完成所述深度学习模型的训练。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至6中任一项所述的方法。
CN202211250729.5A 2022-10-13 2022-10-13 追踪声源的路径生成方法、模型的训练方法及电子设备 Active CN115331082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211250729.5A CN115331082B (zh) 2022-10-13 2022-10-13 追踪声源的路径生成方法、模型的训练方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211250729.5A CN115331082B (zh) 2022-10-13 2022-10-13 追踪声源的路径生成方法、模型的训练方法及电子设备

Publications (2)

Publication Number Publication Date
CN115331082A CN115331082A (zh) 2022-11-11
CN115331082B true CN115331082B (zh) 2023-02-03

Family

ID=83913286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211250729.5A Active CN115331082B (zh) 2022-10-13 2022-10-13 追踪声源的路径生成方法、模型的训练方法及电子设备

Country Status (1)

Country Link
CN (1) CN115331082B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116819445A (zh) * 2023-06-30 2023-09-29 中北大学 一种水下声源定位方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132156A (zh) * 2020-08-18 2020-12-25 山东大学 多深度特征融合的图像显著性目标检测方法及系统
CN113822428A (zh) * 2021-08-06 2021-12-21 中国工商银行股份有限公司 神经网络训练方法及装置、图像分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886152A (zh) * 2019-01-30 2019-06-14 天津大学 一种基于多传感器协作的无人驾驶路径选择方法
CN110738681A (zh) * 2019-10-11 2020-01-31 北京航空航天大学 一种基于深度学习网络的椎弓根钉手术路径自动规划方法
CN114200401B (zh) * 2020-09-18 2024-09-27 中国科学院声学研究所 一种基于网格划分的水下机器人自定位系统及自定位方法
CN114926378B (zh) * 2022-04-01 2023-04-25 浙江西图盟数字科技有限公司 一种声源跟踪的方法、系统、装置和计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132156A (zh) * 2020-08-18 2020-12-25 山东大学 多深度特征融合的图像显著性目标检测方法及系统
CN113822428A (zh) * 2021-08-06 2021-12-21 中国工商银行股份有限公司 神经网络训练方法及装置、图像分割方法

Also Published As

Publication number Publication date
CN115331082A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN111126359B (zh) 基于自编码器与yolo算法的高清图像小目标检测方法
CN113780296A (zh) 基于多尺度信息融合的遥感图像语义分割方法及系统
CN111507906B (zh) 用用于容错及波动鲁棒性的神经网络除抖动的方法及装置
CN113469118B (zh) 多目标行人跟踪方法及装置、电子设备、存储介质
CN115331082B (zh) 追踪声源的路径生成方法、模型的训练方法及电子设备
CN101268475A (zh) 用于时间预测的分类滤波
CN116306790B (zh) 一种基于cnn-gru和注意力机制的近海船舶轨迹实时预测方法、系统、设备及介质
CN112464718A (zh) 一种基于YOLO-Terse网络的目标检测方法及存储介质
CN112578419A (zh) 一种基于gru网络和卡尔曼滤波的gps数据重构方法
EP3686809A1 (en) Method and device for transforming cnn layers to optimize cnn parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
CN113466839B (zh) 侧扫声呐海底线检测方法和装置
CN116861262B (zh) 一种感知模型训练方法、装置及电子设备和存储介质
CN115953652B (zh) 目标检测网络批归一化层剪枝方法、装置、设备及介质
CN114565953A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN116206195A (zh) 近海养殖物目标检测方法、系统、存储介质及计算机设备
KR102206792B1 (ko) 병렬 특징 피라미드를 이용한 네트워크 영상 내 잡음 제거 방법, 이를 수행하기 위한 기록 매체 및 장치
CN114973173A (zh) 驾驶场景数据的分类方法、装置、电子设备及存储介质
US20210190502A1 (en) Method and system for estimating the trajectory of an object on a map
CN114155495A (zh) 跨海桥梁中车辆运行的安全监控方法、装置、设备及介质
KR102215289B1 (ko) 비디오 인페인팅 동작 방법 및 이를 수행하는 장치
CN114417946A (zh) 目标检测方法及装置
CN113875228A (zh) 视频插帧方法及装置、计算机可读存储介质
JP7324792B2 (ja) 位置情報を生成するための方法及び装置
CN113782047B (zh) 语音分离方法、装置、设备和存储介质
CN110490235A (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant