CN115331082B

CN115331082B - 追踪声源的路径生成方法、模型的训练方法及电子设备

Info

Publication number: CN115331082B
Application number: CN202211250729.5A
Authority: CN
Inventors: 李醒飞; 郑宇鸿; 徐佳毅; 李洪宇; 文艺成
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-02-03
Anticipated expiration: 2042-10-13
Also published as: CN115331082A

Abstract

本发明提供了一种追踪声源的路径生成方法、模型的训练方法及电子设备。其中，深度学习模型包括编码器和解码器，编码器包括融合单元和编码单元；该追踪声源的路径生成方法包括：将目标场景图像和与声源对应的目标声场信号输入融合单元，得到融合数据，其中，目标场景图像表征声源所在场景的图像；将融合数据输入编码单元，得到编码数据；将编码数据输入解码器，得到输出结果；以及根据输出结果，生成对声源进行追踪的路径。

Description

追踪声源的路径生成方法、模型的训练方法及电子设备

技术领域

本发明涉及路径规划领域，尤其涉及一种追踪声源的路径生成方法、模型的训练方法及电子设备。

背景技术

随着机器计算和存储能力的提升，相关技术人员对水下声源的追踪技术越发重视，航行器在水下的路径规划日益成为研究重点。在相关技术中，水下路径规划技术无法同时通过障碍点信息以及声源对应的声场信息对到达目标声源进行路径规划，因此路径规划的终点一般都假设为已知。近年来，深度学习理论和技术的快速发展使得基于深度学习的航行器路径规划方法陆续出现。在深度学习领域，较多的方法都是在假设需要追踪的声源已知的情况下进行的水下避障路径规划，这些工作并未考虑在实际的水下路径规划中终点未知的情况。相关技术削弱了航行器对位置未知的目标声源进行路径规划的可行性。

发明内容

有鉴于此，本发明提供了一种追踪声源的路径生成方法、模型的训练方法及电子设备，以期部分地解决上述提及的技术问题中的至少之一。

本发明的一个方面，提供了一种追踪声源的路径生成方法，包括：

深度学习模型包括编码器和解码器，上述编码器包括融合单元和编码单元。

上述方法包括：

将目标场景图像和与声源对应的目标声场信号输入上述融合单元，得到融合数据，其中，上述目标场景图像表征上述声源所在场景的图像；将上述融合数据输入上述编码单元，得到编码数据；将上述编码数据输入上述解码器，得到输出结果；根据上述输出结果，生成对上述声源进行追踪的路径。

备选地，在上述将目标场景图像和与声源对应的目标声场信号输入上述融合单元之前，还包括：

对上述目标场景图像进行卷积和批标准归一化处理，得到归一化场景图；将上述与声源对应的目标声场信号整合为高度和宽度与上述目标场景图像一致的二维信号数据，并对上述二维信号数据进行卷积和批标准归一化处理，得到归一化特征图。

备选地，上述将目标场景图像和与声源对应的目标声场信号输入上述融合单元，得到融合数据包括：

对上述归一化特征图和上述归一化场景图进行特征融合，得到上述融合数据；其中，通过以下公式进行上述特征融合：

其中，

为上述融合数据，

为拼接函数，

为上述归一化特征图，

为上述归一化场景图。

备选地，还包括：

对上述声源所在场景的图像进行量化，得到上述目标场景图像；对上述声源产生的声场信号进行基带转换和低通滤波去噪，得到上述与声源对应的目标声场信号。

本发明的另一方面，提供了一种深度学习模型的训练方法，上述深度学习模型包括编码器和解码器，上述编码器包括融合单元和编码单元。

上述方法包括：

将样本场景图像和与样本声源对应的样本声场信号输入上述融合单元，得到样本融合数据，其中，上述样本场景图像是上述样本声源所在场景的图像；将上述样本融合数据输入上述编码单元，得到样本编码数据；将上述样本编码数据输入上述解码器，得到预测标签；利用上述预测标签和样本标签训练上述深度学习模型，其中，上述样本标签表征参考信息，上述参考信息包括基于上述样本场景图像中的障碍点、上述样本声源所在位置和接收上述样本声场信号所在位置得到的参考路径。

备选地，在上述将样本场景图像和与样本声源对应的样本声场信号输入上述融合单元之前，还包括：

基于预处理后的上述与样本声源对应的样本声场信号的采样时间段、上述样本声源的个数和上述样本声场信号的采样频率，得到单个上述样本声场信号的数据点数；基于预处理后的与上述样本声源对应的样本声场信号的频率分量和上述数据点数，得到单个上述样本声场信号的数据串；将上述数据串作为一个上述与样本声源对应的样本声场信号；将一个上述与样本声源对应的样本声场信号和一个上述样本场景图像作为数据集的一个样本，上述数据集包括预设数量个上述样本。

备选地，上述利用上述预测标签和样本标签训练上述深度学习模型包括：

基于上述预测标签和上述样本标签得到损失值；基于上述损失值调整上述深度学习模型的网络参数，完成上述深度学习模型的训练。

备选地，上述基于上述预测标签和上述样本标签得到损失值包括：

将上述预测标签和上述样本标签中的对应位置的矩阵点输入第一损失函数和第二损失函数中，得到第一损失函数值和第二损失函数值；基于上述第一损失函数值和上述第二损失函数值得到上述损失值。

备选地，上述基于上述损失值调整上述深度学习模型的网络参数，完成上述深度学习模型的训练包括：

基于更新前的网络参数和上述损失值，利用随机梯度下降方法对上述网络参数进行更新，完成上述深度学习模型的训练。

本发明的又一方面，提供了一种电子设备，包括：

一个或多个处理器；存储器，用于存储一个或多个指令，其中，当上述一个或多个指令被上述一个或多个处理器执行时，使得上述一个或多个处理器实现上述的方法。

基于上述技术方案可以看出，本发明的实施例相对于现有技术具有如下有益效果：

航行器在实际水下路径规划中，由于待处理的与声源对应的目标声场信号会随着待处理的目标场景图像的变化而变化，因此，在生成针对声源的路径的过程中，声源的位置是变化的，由此，通过深度学习模型对获取到的目标场景图像和与声源对应的目标声场信号进行特征融合，得到包括目标场景图像数据和与声源对应的目标声场信号数据的融合数据，对融合数据进行特征提取，得到与目标场景图像数据和与声源对应的目标声场信号数据相关的编码数据，对编码数据进行解码，得到输出结果，通过对输出结果进行处理，得到了对未知位置的声源进行追踪的路径。由于编码数据是根据融合数据进行特征提取得到的，融合数据是对目标场景图像和与声源对应的目标声场信号进行特征融合得到的，因此，对编码数据进行解码得到的输出结果便与声源对应的目标声场信号相关，由此，无需对与声源对应的目标声场信号进行分析定位，得到与声源对应的位置信息，进而节省了算力。

附图说明

图1示意性示出了根据本发明实施例的追踪声源的路径生成方法流程图。

图2示意性示出了根据本发明实施例的量化操作的示意图。

图3示意性示出了根据本发明实施例的深度学习模型的训练方法流程图。

图4a示意性示出了根据本发明实施例的第一频率的目标声场信号示意图。

图4b示意性示出了根据本发明实施例的第二频率的目标声场信号示意图。

图5示意性示出了根据本发明实施例的深度学习模型的结构示意图。

图6a示意性示出了根据本发明实施例的第一频率的单个声源点对应的信号接收点选取示意图。

图6b示意性示出了根据本发明实施例的第二频率的单个声源点对应的信号接收点选取示意图。

图7a示意性示出了根据本发明实施例的样本标签表征的参考信息的路径示意图。

图7b示意性示出了根据本发明实施例的样本标签表征的量化信息的路径示意图。

图8示意性示出了根据本发明实施例的适于实现路径生成方法及训练方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

在实现本发明构思的过程中，发明人发现相关技术中至少存在如下问题：

在强化学习领域，较多的方法都是在假设需要追踪的声源已知的情况下进行的水下避障路径规划，这些工作并未考虑在实际的水下路径规划中终点未知的情况。相关技术削弱了航行器对位置未知的目标声源进行路径规划的可行性。

需要一种追踪位置未知目标声源的同时规避障碍的路径生成方法。

为了至少部分地解决相关技术中存在的技术问题，本发明提供了一种追踪声源的路径生成方法、模型的训练方法及电子设备，可以应用于路径规划领域。

根据本发明实施例，一方面提供了一种追踪声源的路径生成方法。

根据本发明的实施例，深度学习模型包括编码器和解码器，编码器包括融合单元和编码单元。

根据本发明的实施例，该深度学习模型中的编码单元和解码器可以基于Unet深度学习网络结构得到，在编码器部分添加融合单元，以便对两种不同类型的数据进行特征融合，数据可以包括目标场景图像和与声源对应的目标声场信号。

如图1所示，利用该方法生成路径包括操作S110~操作S140。

在操作S110，将目标场景图像和与声源对应的目标声场信号输入融合单元，得到融合数据。其中，目标场景图像表征声源所在场景的图像。

在操作S120，将融合数据输入编码单元，得到编码数据。

在操作S130，将编码数据输入解码器，得到输出结果。

在操作S140，根据输出结果，生成对声源进行追踪的路径。

根据本发明的实施例，该目标场景图像可以是基于对声源进行追踪时，追踪装置所处的环境对应得到的场景图像。可以在使用路径生成方法之前通过其他数据获取设备获取目标场景图像。在实际使用情况下，追踪装置是相对场景图像进行运动的，可以将追踪装置准备进行声源的追踪时的位置设置为生成对声源进行追踪的路径的起始位置。

根据本发明的实施例，该目标声场信号可以是追踪装置中设置的数据采集设备在实际使用情况下实时接收到的需要进行追踪的声源发出的声场信号。该目标声场信号还可以是追踪装置在实际使用情况下对一段时间内获取到的需要进行追踪的声源发出的声场信号进行处理后得到的一部分声场信号。在实际使用情况下，被追踪的声源与追踪装置之间可以进行无规律的相对运动，因此声源位置未知，在实际使用情况下，利用获取的目标声场信号和目标场景图像生成对声源进行追踪的路径，因此在目标场景图像中无需包含被追踪的声源的位置。

根据本发明的实施例，该目标场景图像可以设置为在水下的场景，追踪装置可以设置为航行器，数据采集设备可以为水听器。还可以设置其他类型的场景，以及追踪装置还可以是具备运算能力的可以实现追踪功能的其他装置，数据采集设备可以基于实际需要进行设置。

根据本发明的实施例，将目标场景图像和与声源对应的目标声场信号输入融合单元，得到包括目标场景图像数据和与声源对应的目标声场信号数据的融合数据。融合数据表征了目标场景图像当前位置处对应包括的目标声场信号的数据信息，通过对融合数据进行数据提取，通过目标场景图像当前位置信息和当前位置对应的目标声场信号的数据信息进行计算，得到一条对声源进行追踪的路径。

根据本发明的实施例，在实际使用情况下，航行器在实际水下路径规划中，由于待处理的与声源对应的目标声场信号会随着待处理的目标场景图像的变化而变化，因此，在生成针对声源的路径的过程中，声源的位置是变化的，由此，通过深度学习模型对获取到的目标场景图像和与声源对应的目标声场信号进行特征融合，得到包括目标场景图像数据和与声源对应的目标声场信号数据的融合数据，对融合数据进行特征提取，得到与目标场景图像数据和与声源对应的目标声场信号数据相关的编码数据，对编码数据进行解码，得到输出结果，通过对输出结果进行处理，得到了对未知位置的声源进行追踪的路径。由于编码数据是根据融合数据进行特征提取得到的，融合数据是对目标场景图像和与声源对应的目标声场信号进行特征融合得到的，因此，对编码数据进行解码得到的输出结果便与声源对应的目标声场信号相关，由此，无需对与声源对应的目标声场信号进行分析定位，得到与声源对应的位置信息，进而节省了算力。

根据本发明的实施例，该方法还包括利用以下预处理操作得到目标场景图像和与声源对应的目标声场信号：

对声源所在场景的图像进行量化，得到目标场景图像；对声源产生的声场信号进行基带转换和低通滤波去噪，得到目标声场信号。

根据本发明的实施例，对获取的对声源所在的场景图像中的离散像素点进行分类赋值处理，得到量化的目标场景图像，在实际使用情况下，可以设置目标场景图像为分隔为多个矩形的二维图像，多个矩形中包括不同离散像素点。将声源所在的场景图像中的障碍点对应的矩形的量化值设置为1，将声源所在的场景图像中的非障碍点对应的矩形的量化值设置为2，将航行器位于声源所在的场景图像中初始位置对应的矩形的量化值设置为0。通过上述量化处理，使得原本像素值不一定统一的障碍点变为统一的量化值的障碍点。

图2示意性示出了根据本发明实施例的量化操作的示意图。

如图2所示，可以将航行器设置于场景图像的左下角，航行器的初始位置也可以作为后续得到的路径的起始位置，将航行器的初始位置对应的矩形的量化值设置为0。场景图像中标有“×”的像素点代表其为障碍点，将障碍点对应的矩形的量化值设置为1。其余空白区域的像素点代表其为非障碍点，非障碍点对应的矩形的量化值设置为2。

根据本发明的实施例，通过对声源所在的场景图像进行量化，以便该深度学习模型可以识别该目标场景图像，并将该目标场景图像的特征与目标声场信号的特征进行特征融合和特征提取，完成路径的生成。

根据本发明的实施例，可以通过以下公式（1）进行对声源产生的声场信号的基带转换：

（1）

其中，t为时间步；

为水听器接收的待追踪水下声源产生的声场信号；i为虚数单位；

为需搬移到基带的频率分量；

为进行基带转换后的声场信号。

根据本发明的实施例，该低通滤波可以采用FIR（Finite Impulse Response，有限长单位冲激响应）滤波器滤波，在实际使用情况下，可以根据需要选择不同的滤波方法。

根据本发明的实施例，在实际使用情况下，还可以使用IIR（Infinite ImpulseResponse，无限长单位冲激响应）滤波器滤波的方法进行滤波。

可以通过以下公式（2）进行FIR滤波去噪：

（2）

其中，*为卷积操作；

为时域上的单位脉冲响应；

为FIR滤波去噪后的声场信号。

可以通过以下公式（3）表示该单位脉冲响应：

（3）

其中，

为窗函数；

为理想低通滤波器的单位脉冲响应，该序列无限长。

可以通过以下公式（4）表示该理想低通滤波器的单位脉冲响应：

（4）

其中，ω为截止频率；

为采样延迟。

根据本发明的实施例，其中N为

或

的序列长度；根据不同类型的

可得到相对应FIR低通滤波器的单位脉冲响应，由此将处于基带的频率分量分离出来，并将噪声去除。

在本发明的实施例中，将获取的第一频率和第二频率的目标声场信号输入深度学习模型进行处理，经过基带转换和低通滤波去噪的目标声场信号在后续编解码过程中可以降低噪声的干扰，提高生成的路径的准确性。

根据本发明的实施例，在将目标场景图像和与声源对应的目标声场信号输入融合单元之前，还包括：

对目标场景图像进行卷积和批标准归一化处理，得到归一化场景图；将目标声场信号整合为高度和宽度与目标场景图像一致的二维信号数据，并对二维信号数据进行卷积和批标准归一化处理，得到归一化特征图。

根据本发明的实施例，在将目标场景图像和与声源对应的目标声场信号输入融合单元之前，需要将一维的目标声场信号整合为二维信号数据，以便后续可以与目标场景图像进行特征融合处理。

可以通过以下公式（5）表示将一维的目标声场信号整合为二维信号数据的过程：

（5）

其中，sfn为信号总合长度；H为整合后数据的高；W为整合后数据的宽；实际操作中可适当舍去sfn的信号点以使H和W取得合适的值。

可以通过以下公式（6）完成二维卷积操作：

（6）

其中，

为二维卷积后的特征图上的特征点；

为输入数据对应特征点，该输入数据为目标场景图像或二维信号数据；a为卷积核内横向的序数，A为横向总序数；k为卷积核内纵向的序数，K为纵向总序数；

为对应序数的卷积核权重；st为卷积步长；i为卷积后特征图横向的序数；j为卷积后特征图纵向的序数；

为卷积偏置；

为经过激活函数计算。

可以通过以下公式（7）完成批标准归一化操作：

（7）

其中，

为第b个样本的批标准归一化后的归一化场景图或归一化特征图；

为特征拉伸值，

为特征偏移值，两者都可在网络训练过程中进行更新；

为常数，用于防止分母为0；

为最小批次输入数据为第b个样本时对数据卷积后的目标场景图像或二维信号数据的特征图；

为最小批次输入数据的平均值；

为方差；B为批处理样本数。

根据本发明的实施例，批标准归一化操作可以使得到的归一化特征图的数值稳定，提高后续进行融合操作时的融合效果，提高生成的对声源进行追踪的路径的准确程度。

根据本发明的实施例，在对目标场景图像和二维信号数据分别进行卷积和批标准归一化处理时，可能出现卷积操作前后的目标场景图像或二维信号数据的图像大小与后续在深度学习模型中卷积操作前后特征图的图像大小之间存在差异的问题。可以通过设置输入数据参数以及深度学习模型参数实现进行卷积操作前后的特征图的图像大小保持一致，以便不同层级间的特征图进行特征融合。

可以通过以下公式（8）完成参数的设置：

（8）

其中，L为

的边长，I为输入数据边长，即H或W；K为卷积核大小；P为量化后的目标场景图像、整合后的二维信号数据或后续卷积前特征图的填充大小；设定合适的K、P和st值可使得输入边长和L相等。

根据本发明的实施例，将目标场景图像和与声源对应的目标声场信号输入融合单元，得到融合数据包括：

对归一化特征图和归一化场景图进行特征融合，得到融合数据；

其中，通过以下公式（9）进行特征融合：

（9）

其中

为融合数据，

为拼接函数，

为归一化特征图，

为归一化场景图。

根据本发明的实施例，在深度学习模型中对融合数据进行后续的编码过程，通过一系列的二维卷积、批标准归一化以及最大池化操作可以得到编码数据，编码数据表征融合数据的高维特征。在解码过程中基于编码数据，通过一系列的二维卷积、批标准归一化和上采样操作得到输出结果。

根据本发明的实施例，基于深度学习模型对目标场景图像和与声源对应的目标声场信号进行特征融合后进行编解码操作，只需要对对应的编解码数据进行处理，不需要对对应的目标场景图像的所有数据进行计算，避免算力浪费。以及基于包括目标场景图像数据和与声源对应的目标声场信号数据的融合数据对融合数据得到的路径相对于先进行声源位置计算得到的路径的准确性高。

根据本发明的实施例，该方法可以在不同类型的目标场景图像的情况下，基于目标声场信号得到追踪声源的路径，适用范围广。

根据本发明实施例，另一方面提供了一种深度学习模型的训练方法。该深度学习模型包括编码器和解码器，编码器包括融合单元和编码单元。

如图3所示，该训练方法包括操作S310~操作S340。

在操作S310，将样本场景图像和与样本声源对应的样本声场信号输入融合单元，得到样本融合数据，其中，样本场景图像是样本声源所在场景的图像。

在操作S320，将样本融合数据输入编码单元，得到样本编码数据。

在操作S330，将样本编码数据输入解码器，得到预测标签。

在操作S340，利用预测标签和样本标签训练深度学习模型。其中，样本标签表征参考信息，参考信息包括基于样本场景图像中的障碍点、样本声源所在位置和接收样本声场信号所在位置得到的参考路径。

根据本发明的实施例，将样本场景图像和与声源对应的样本声场信号输入融合单元，得到包括样本场景图像数据和与样本声源对应的样本声场信号数据的融合数据。通过对融合数据进行数据提取，通过样本场景图像当前位置信息和当前位置对应的样本声场信号的数据信息进行计算，得到预测标签，通过得到预测标签与已有样本标签之间的损失值，对深度学习模型进行训练，以便练得到的深度学习模型可以对不同类型数据进行特征融合和编解码，得到输出结果，并基于输出结果得到与数据对应的声源的追踪路径，实现对位置未知的声源的追踪。

如图4a和图4b所示，航行器对接收到的声源产生的声场信号进行基带转换和滤波去噪后，可以得到的对应不同频率的目标声场信号。例如，通过设置公式（1）中包括的

的具体数值，可以将具体数值的频率的分量从声源产生的声场信号提取出来，以及去除具体数值的频率的分量的声场信号的噪声，得到具体数值的频率的目标声场信号。可以基于不同类型的窗函数可得到相对应FIR低通滤波器的单位脉冲响应，根据实际需要选择窗函数，从而将需要的频率分量分离出来并对信号进行去噪操作。图4a和图4b所示的第一频率的目标声场信号和第二频率的目标声场信号可以表征不同的声源位置，该声源位置取决于利用用全球定位(Global Positioning System，GPS)系统设备去定位声源的次数，可以设置装置记录利用GPS设备进行的声源定位操作的次数。定位的次数越多，可以获得越多不同的声源位置对应的声场信号，对更多的声场信号进行分析，有利于得到更精确声源位置，以便提高训练后的模型生成的路径的准确性。

如图5所示，将样本场景图像和与样本声源对应的样本声场信号输入融合单元，得到样本融合数据，其中，一个样本可以包括一个样本声场信号和一个样本场景图像。

根据本发明的实施例，在获取预设样本声源所在的场景图像时，例如，可以对场景图像内的每个矩形生成一个随机数o，该随机数o为随机变量O的取值，其中O服从均匀分布，可以通过以下公式（10）标注障碍点的位置：

（10）

可以通过如下方法生成障碍点在场景图内的分布情况：设置c和d的取值分别为0 和1。在生成的随机数

的情况下，对应的矩形生成障碍点；在生成的随机数

的情况下，对应的矩形不生成障碍点。

根据本发明的实施例，在实际操作中，由于障碍点相对于声传播的区域非常小，于是可忽略生成的障碍点对声传播的影响。通过障碍点生成方法弥补原场景图像数据量、数据多样性的不足，该障碍点生成方法可以对数据集起到数据增强的作用，加强了训练后深度学习模型的鲁棒性。

根据本发明的实施例，还可以利用上述路径生成方法中的目标场景图像，对目标场景图像进行量化，得到量化后的样本场景图像。

根据本发明的实施例，在输入融合单元之前，可以对预设样本声源所在的场景图像和预设样本声源产生的声场信号分别进行预处理，操作流程与上述路径生成方法中的将目标场景图像和与声源对应的目标声场信号输入融合单元之前的操作类似，在此不再赘述。

根据本发明的实施例，基于预处理后的与样本声源对应的样本声场信号的采样时间段、样本声源的个数和样本声场信号的采样频率，得到单个样本声场信号的数据点数。基于预处理后的与样本声源对应的样本声场信号的频率分量和数据点数，得到单个样本声场信号的数据串。将数据串作为一个样本声场信号。将一个样本声场信号和一个样本场景图像作为数据集的一个样本，数据集包括预设数量个样本。

根据本发明的实施例，对每个样本中的两类数据分别进行卷积和批标准归一化处理，操作流程与上述路径生成方法中的卷积和批标准归一化处理操作类似，在此不再赘述。

根据本发明的实施例，可以通过以下公式（11）获得与样本声源对应的样本声场信号的信号总点数：

（11）

其中，

为样本声场信号的信号总点数；fs为采样频率；ts为采样时间段。

可以理解的是，应该使与声源对应的目标声场信号长度与训练时输入深度学习模型的样本信号长度相等。

根据本发明的实施例，可以通过以下公式（12）获得单个样本声场信号的数据点数：

（12）

其中，sn为单个样本声场信号的数据点数；tn为待追踪声源点总数，即设置装置记录的利用GPS设备进行的声源定位操作的次数。

如图6a和图6b所示，分别表示了对第一频率和第二频率的样本声场信号进行处理，获得对应的单个声源点对应的信号接收点。

根据本发明的实施例，图6a和图6b截取的信号就是对声源在记录位置的产生信号进行预处理后的信号。可以将追踪声源的路径生成方法中使用的声源对应的目标声场信号作为与样本声源对应的样本声场信号，则深度学习模型的训练方法所需的截取框在信号图里的相对位置为图6a和图6b中时间节点约为第五分钟处截取一段采样时间段，GPS设备记录到了样本声源位置。样本声源产生的样本声场信号，即两个截取框的样本声场信号，对应着一个位置相同而包含不同频率的样本声源，将样本声场信号输入深度学习模型进行训练。两个截取框中的样本声场信号长度都为sn，两个截取框的截取的信号总合长度为sfn。本发明实施例可以选择通过2个频率分量，即fn为2个，实现信号的获取，在实际操作中，可以根据实际需要选择不同频率分量个数。

根据本发明的实施例，可以通过以下公式（13）获得单个样本声场信号的数据串：

（13）

其中，fn为样本声场信号的频率分量，在实施例中fn可以设置为2个；sfn为信号总合长度，即单个样本声场信号的数据串。

根据本发明的实施例，在航行器接收的每个样本声场信号对应的声源点处于运动状态的情况下，当tn较大时，单个样本声场信号可以较好地与声源点对应起来，可以根据实际需要设置航行器需要进行处理的频率分量个数和待追踪声源点总数。

根据本发明的实施例，对海洋声场设置随机障碍点，并对待追踪的声源点设置不同航行器出发点，将标有出发点和障碍点的场景图像与滤波去噪后的各频段信号数据作为数据集，并将该数据集进行训练集和测试集的划分。

根据本发明的实施例，对样本声场信号进行处理，并结合样本场景得到数据集，数据集中包括多个样本。可以将数据集分为训练集和测试集，利用训练集中的多个样本对待训练的深度学习模型进行训练，利用测试集验证训练完毕的深度学习模型的准确率。在实际使用情况下，可以设置训练集和测试集的划分比例，基于实际需要可以设置训练集和测试集的划分比例为8：2。在训练阶段，可以选择对多组样本的并行处理来训练深度学习模型，加快深度学习模型的推理速度，实现缩减深度学习模型的训练时长。

根据本发明的实施例，在训练过程中需对数据进行并行处理，即批处理，设批处理样本数为B，将样本序号设置为b，第b个样本通过上述方法进行处理，且多个样本并行处理，其中，B为正整数，b为属于[1，B]区间的正整数。

根据本发明的实施例，批标准归一化操作可以使批处理得到的归一化特征图的数值稳定，提高后续进行融合操作时的融合效果，还可以加快深度学习模型的训练速度。其中，归一化特征图包括归一化场景图和归一化特征图，得到归一化特征图的操作与上述通过公式（7）完成批标准归一化操作一致，在此不再赘述。

根据本发明的实施例，在将样本融合数据输入编码单元得到样本编码数据的过程中，可以基于编码器编码单元的前四层结构进行二维卷积、批标准归一化和最大池化处理。二维卷积和批标准归一化操作流程与上述路径生成方法中的卷积和批标准归一化处理操作类似。

根据本发明的实施例，可以通过以下公式（14）完成最大池化操作：

（14）

其中，

为最大池化前的融合数据的特征点；

为最大池化后的融合数据的特征点；

为最大池化后融合数据的特征图横向的序数；m为最大池化后融合数据的特征图纵向的序数；sp为池化步长，r为池化大小，

；

为最大池化前融合数据的特征图横向的序数；

为最大池化前融合数据的特征图纵向的序数。最大池化可保持特征融合和二维卷积过程过程的平移不变性，在保留主要特征的同时减少了网络参数量。

根据本发明的实施例，深度学习网络编码部分如图5所示，两种不同类型的数据经过二维卷积和批标准归一化后进行特征融合，并通过一系列的二维卷积、批标准归一化以及最大池化得到高维特征。

根据本发明的实施例，在将样本编码数据输入解码器得到预测标签的过程中，可以基于解码器的前四层结构进行二维卷积、批标准归一化和上采样处理。二维卷积和批标准归一化操作流程与上述路径生成方法中的卷积和批标准归一化处理操作类似，对应的参数可以在训练中进行调整，在此不再赘述。解码器用于对编码数据进行解码。

根据本发明的实施例，上采样操作可以采用以像素点进行特征图扩充的双线性插值上采样。

根据本发明的实施例，可以通过以下公式（15）实现双线性插值上采样获取上采样操作后的特征图的像素在上采样操作前的特征图的图像中的位置：

（15）

其中，

为上采样操作后的特征图的高度；

为上采样操作后的特征图的宽度；

为上采样操作前的特征图的高度；

为上采样操作前的特征图的宽度；

为上采样操作前的特征图的像素坐标；x和y一般为浮点数。

根据本发明的实施例，基于公式（15）找到上采样操作前的特征图的像素坐标

处附近四个实际存在的像素点，将该四个实际存在的像素点的坐标点分别用

、

、

、

表示。

根据本发明的实施例，基于公式（16）实现在横向方向上的插值计算：

（16）

其中，

为各点对应的像素值。

为利用

和

得到的像素值；

为利用

和

得到的像素值。

根据本发明的实施例，基于公式（17）实现双线性插值上采样对(x,y)点的像素值的计算：

（17）

根据本发明的实施例，预测标签包括的特征图是基于解码器的第一层中的特征图，通过一系列的二维卷积、批标准归一化和上采样得到的，预测标签包括的特征图边长为H和W，预测标签包括的特征图频道数为C。

根据本发明的实施例，对编码器的第五层结构，即图5所示的编码器中频道数为8C的最下层结构，进行二维卷积和批标准归一化处理后，即成为解码器的第一层结构。

根据本发明的实施例，在解码器输出预测标签前可以经过一层Sigmoid函数层，基于公式（18）表示Sigmoid函数：

（18）

其中，

为最后一层卷积层的特征点，最后一层卷积层的频道数为1；Sigmoid函数可将特征值非线性映射至0~1之间；q为矩阵点序号；

为预测标签中对应矩阵点，即

经过Sigmoid函数后的数据的特征点。将最后一层卷积层的的输出结果，输入至Sigmoid层得到解码器最后的特征结果，该特征结果即为预测标签。

根据本发明的实施例，利用预测标签和样本标签训练深度学习模型包括：

基于预测标签和样本标签得到损失值。基于损失值调整深度学习模型的网络参数，完成深度学习模型的训练。

根据本发明的实施例，样本标签可以基于确定的出发点、障碍点和声源点，通过路径规划算法得到。

路径规划算法可以包括：A*算法、Dijkstra算法和最佳优先算法等地图搜索式的路径规划算法，这些算法可在执行过程中得到航行器绕过障碍点到达声源位置的最短规划路径。

根据本发明的实施例，基于公式（19）实现路径规划算法：

（19）

其中，n为节点坐标序号，

为第n个节点坐标距离起点坐标的代价，即算法的实际代价函数；

为欧式距离，即表征第n个节点坐标距离终点坐标的代价，即算法的启发函数；w为调节两种函数影响程度的权重，当w为1时，

为Dijkstra算法的代价函数，当w为0 时，

表征最佳优先算法的代价函数，当w为0.5时，

表征A*算法的代价函数。

根据本发明的实施例，可以基于公式（20）得到欧式距离：

（20）

其中，

为样本声源坐标；

为第n个节点坐标；

为欧式距离；基于样本声源坐标和第n个节点坐标可以得到欧式距离。

可以理解的是，在追踪声源的路径生成方法和深度学习模型的训练方法中，对输入深度学习模型的融合数据，都需要通过一系列的二维卷积、批标准归一化以及最大池化操作可以得到编码数据，以及在解码过程中通过一系列的二维卷积、批标准归一化和上采样操作得到输出结果，以便后续追踪声源的路径生成方法生成对声源进行追踪的路径或是后续深度学习模型的训练方法得到预测标签。

如图7a所示，样本标签表征的参考信息的路径中，航行器位于左下角，样本声源位于右上角，“×”表示障碍点。可以对航行器接收到的信号进行上述预处理，预处理后的信号为如图6a和图6b所示的声场信号图中矩形框内的信号，两个矩形框位于x轴方向上时间节点相同的位置；基于GPS设备定位得到样本声源位置；基于样本声源位置，通过公式（19）得到样本标签表征的参考信息的路径；将其设置为样本标签。

根据本发明的实施例，图7a所示的路径可以是使用A*算法得到的，其中声源位置可以是基于GPS设备定位得到的。

如图7b所示，对图7a进行所示的路径量化，可以得到样本标签。通过将图7a中的路径点量化为1，非路径点量化为0，得到量化后的样本标签。

根据本发明的实施例，基于预测标签和样本标签得到损失值包括：

将预测标签和样本标签中的对应位置的矩阵点输入第一损失函数和第二损失函数中，得到第一损失函数值和第二损失函数值。基于第一损失函数值和第二损失函数值得到损失值。可以设置第一损失函数为Focalloss，第二损失函数为Diceloss。

在训练阶段，以包括参考信息的路径的样本标签的输出基准，采用Focalloss和Diceloss的结合形式计算预测标签和真实标签之间的损失函数。

根据本发明的实施例，基于公式（21）实现Focalloss损失值的计算：

（21）

根据本发明的实施例，基于公式（22）实现Diceloss损失值的计算：

（22）

其中，

为第一预设参数；

为第二预设参数。

其中，B为批处理样本数；Q为矩阵点总数；α为第一超参数；θ为第二超参数；

为样本标签上的矩阵点，

为预测标签中对应矩阵点；

在表征路径点时为1，表征非路径点为 0。

根据本发明的实施例，对两种损失函数选择不同权重，可以构成混合损失函数，基于公式（23）实现损失值计算：

（23）

其中，wl为调节两种损失函数影响程度的权重；Hybridloss可在预测标签正负例数据量差距较大的情况下使得深度学习网络取得较好的训练效果。

根据本发明的实施例，基于损失值调整深度学习模型的网络参数，完成深度学习模型的训练包括：

基于更新前的网络参数和损失值，利用随机梯度下降方法对网络参数进行更新，完成深度学习模型的训练。

根据本发明的实施例，基于公式（24）实现利用随机梯度下降方法进行的深度学习网络参数更新：

（24）

其中，

和

分别为深度学习网络中更新前后的参数值；基于损失值更新参数为

、

、

和

；

为学习率；D为权重衰减参数；T为总样本数；参数更新由深度学习框架来完成，例如，深度学习框架可以为Tensorflow或Pytorch。为提高训练预测效果，可以在编码器编码单元前四层级和解码器的后四层级的特征图之间通过跳跃连接进行特征融合。

在损失函数值不再下降后，即参数更新趋于平稳时，训练结束。将测试集输入至训练完成的深度学习网络，基于样本输出结果得到的预测标签，可根据阈值转化为二值图。

根据本发明的实施例，基于公式（25）实现二值图转化：

（25）

其中，

为二值图转化；

为预测标签中对应矩阵点；阈值为0.5，1表征预测标签中对应矩阵点为路径点，0表征预测标签中对应矩阵点为非路径点，可以以此将追踪过程进行还原，得到追踪路径。

预测标签的结果中，每个矩阵点为0~1之间的值，表征了矩阵点对应的位置为路径点的概率大小。对基于测试集得到的预测标签进行二值图转化，可以验证深度学习模型的可靠性，便于在实际追踪声源的路径的情况下也可以生成可靠性较高的路径。

可以理解的是，在实际追踪声源的路径的情况下，对基于目标场景图像和与声源对应的目标声场信号得到的输出结果也需要经过二值图的转化，以便根据二值图和目标场景图像生成对声源进行追踪的路径。

以及，可以理解的是，在训练过程中，对一段时间内的信号数据进行预处理，并截取一段信号与相应的场景图像组成样本数据，用训练集训练模型得到合适的参数后，用测试集验证深度学习模型可靠性；在实际追踪声源的路径过程中，由于信号卷积满足结合律，因此每接收到sn个信号点就可以对sn个信号点进行基于训练好的深度学习模型的处理，生成可靠性较高的路径。

根据本发明的实施例，本发明实施例基于标有出发点和障碍点的样本场景图像和与样本声源对应的样本声场信号对深度学习模型进行训练。通过对两种不同类型的数据进行特征融合，以样本标签作为深度学习模型的输出基准，形成了一个对不同类型数据进行编解码的深度学习模型，完成训练的深度学习模型可以提供追踪水下未知位置声源的路径，避免了规划路径前对声源定位的前置算法流程以及规划路径过程中传统算法对地图的大范围搜索造成的算力浪费。在面对实时对水下环境情况下，进行分析可以得到水下障碍点、航行器出发点和待追踪声源产生的声场信号，基于水下障碍点、航行器出发点和待追踪声源产生的声场信号，通过训练完成的深度学习模型可以实现快速准确的追踪水下声源的路径规划。

根据本发明的实施例，此方法还适用于陆空机器人追踪对应声源的路径规划任务，具有普遍适用性。

图8示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，根据本发明实施例的计算机电子设备800包括处理器801，其可以根据存储在只读存储器（ROM）802中的程序或者从存储部分808加载到随机访问存储器（RAM）803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC）），等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有电子设备800操作所需的各种程序和数据。处理器 801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备800还可以包括输入/输出（I/O）接口805，输入/输出（I/O）接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本发明的实施例，根据本发明实施例的方法流程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本发明实施例的系统中限定的上述功能。根据本发明的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

附图中的流程图和框图，示意性示出了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明本发明的目的、技术方案和有益效果，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，在本发明的精神和原则之内，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的保护范围之内。

Claims

1.一种追踪声源的路径生成方法，其特征在于，深度学习模型包括编码器和解码器，所述编码器包括融合单元和编码单元；

所述方法包括：

将目标场景图像和与声源对应的目标声场信号输入所述融合单元，得到融合数据，其中，所述目标场景图像表征所述声源所在场景的图像，所述声源为进行无规律移动的声源；

将所述融合数据输入所述编码单元，得到编码数据；

将所述编码数据输入所述解码器，得到输出结果；

根据所述输出结果，生成对所述声源进行追踪的路径；

其中，在所述将目标场景图像和与声源对应的目标声场信号输入所述融合单元之前，还包括：

对所述目标场景图像进行卷积和批标准归一化处理，得到归一化场景图；

将所述与声源对应的目标声场信号整合为高度和宽度与所述目标场景图像一致的二维信号数据，并对所述二维信号数据进行卷积和批标准归一化处理，得到归一化特征图；

所述将目标场景图像和与声源对应的目标声场信号输入所述融合单元，得到融合数据包括：

对所述归一化特征图和所述归一化场景图进行特征融合，得到所述融合数据；以及

对所述声源所在场景的图像进行量化，得到所述目标场景图像；

对所述声源产生的声场信号进行基带转换和低通滤波去噪，得到所述与声源对应的目标声场信号。

2.一种深度学习模型的训练方法，以实现如权利要求1所述的追踪声源的路径生成方法，其特征在于，所述深度学习模型包括编码器和解码器，所述编码器包括融合单元和编码单元；

所述训练方法包括：

将样本场景图像和与样本声源对应的样本声场信号输入所述融合单元，得到样本融合数据，其中，所述样本场景图像是所述样本声源所在场景的图像，所述样本声源为进行无规律移动的声源；

将所述样本融合数据输入所述编码单元，得到样本编码数据；

将所述样本编码数据输入所述解码器，得到预测标签；

利用所述预测标签和样本标签训练所述深度学习模型，其中，所述样本标签表征参考信息，所述参考信息包括基于所述样本场景图像中的障碍点、所述样本声源所在位置和接收所述样本声场信号所在位置得到的参考路径。

3.如权利要求2所述的训练方法，其特征在于，在所述将样本场景图像和与样本声源对应的样本声场信号输入所述融合单元之前，还包括：

基于预处理后的所述与样本声源对应的样本声场信号的采样时间段、所述样本声源的个数和所述样本声场信号的采样频率，得到单个所述样本声场信号的数据点数；

基于预处理后的与所述样本声源对应的样本声场信号的频率分量和所述数据点数，得到单个所述样本声场信号的数据串；

将所述数据串作为一个所述与样本声源对应的样本声场信号；

将一个所述与样本声源对应的样本声场信号和一个所述样本场景图像作为数据集的一个样本，所述数据集包括预设数量个所述样本。

4.如权利要求3所述的训练方法，其特征在于，所述利用所述预测标签和样本标签训练所述深度学习模型包括：

基于所述预测标签和所述样本标签得到损失值；

基于所述损失值调整所述深度学习模型的网络参数，完成所述深度学习模型的训练。

5.如权利要求4所述的训练方法，其特征在于，所述基于所述预测标签和所述样本标签得到损失值包括：

将所述预测标签和所述样本标签中的对应位置的矩阵点输入第一损失函数和第二损失函数中，得到第一损失函数值和第二损失函数值；

基于所述第一损失函数值和所述第二损失函数值得到所述损失值。

6.如权利要求5所述的训练方法，其特征在于，所述基于所述损失值调整所述深度学习模型的网络参数，完成所述深度学习模型的训练包括：

基于更新前的网络参数和所述损失值，利用随机梯度下降函数对所述网络参数进行更新，完成所述深度学习模型的训练。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个指令，

其中，当所述一个或多个指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至6中任一项所述的方法。