CN113299298B

CN113299298B - 残差单元及网络及目标识别方法及系统及装置及介质

Info

Publication number: CN113299298B
Application number: CN202110489339.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shulian Cloud Computing Technology Co ltd
Current assignee: Chengdu Shulian Cloud Computing Technology Co ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2022-09-13
Anticipated expiration: 2041-05-06
Also published as: CN113299298A

Abstract

本发明公开了残差单元及网络及目标识别方法及系统及装置及介质，涉及水声识别、深度学习及人工智能领域，多尺度残差单元包括由批归一化层、激活层、卷积层构成的残差网络架构，其特征在于，用于处理一维原始音频波形，在所述残差网络架构中，具备至少一个卷积中间层，所述卷积中间层由多个卷积层并行而成，且在所述卷积中间层与残差网络架构末端之间，具备至少一个软阈值运算单元，用于进行软阈值计算与过滤。本发明能有效感知水声一维信号波形。

Description

残差单元及网络及目标识别方法及系统及装置及介质

技术领域

本发明涉及水声识别、深度学习及人工智能领域，具体地，涉及残差单元及网络及目标识别方法及系统及装置及介质。

背景技术

水声目标识别是利用水听器采集到的目标辐射声音信号对目标进行识别。在海洋运输、航道管理等方面有重要作用。由于海洋声音环境的复杂性，采集到的辐射信号往往伴随着大量的干扰噪声。因为这些噪音都不是显性的或语义性的，很难对其进行标注和自动分类识别。如何提高信号的自动检测和分类性能仍然是一个具有挑战性的问题。

传统的方法是从原始音频数据中提取人工设计的特征，然后利用特征工程技术对特征进行筛选和优化，最后使用支持向量机、决策树浅层分类器对目标进行分类。人工设计的特征虽然从不同角度可以描述水下目标的特性，但是设计这些特征需要大量的先验专家知识。然而，对于未知目标和复杂的水下噪声，很难获得足够的先验知识。因此，传统方法在面对复杂海洋声场时，鲁棒性不强。此外，在传统方法中，分类器的设计和特征设计与提取相对独立，因此设计的特征可能不适合分类模型。

随着深度学习在图像识别、自然语言处理和自动语音识别方面的巨大成功，建立和训练一个端到端深度神经网络，通过自动提取深度特征来识别水声目标成为可能。一种常见技术路径是对原始时域音频数据进行傅里叶变换，生成对应的时频谱图作为深度网络的输入进行识别。但是这种方法会丢失原始信号波形的精细结构信息。另外，时频图的生成通常受到傅立叶变换的窗口大小和窗口间隔步长等参数的限制。一方面，确定合适的变换参数需要先验知识，时间和频率分辨率不能同时达到最佳。另一方面，一旦参数确定，生成的谱图的分辨率也相应固定。对于具有固定输入大小的端到端模型，这会导致丢失其他分辨率信息。这成为基于频谱识别方法的瓶颈。

另一种新的思路是直接对原始音频信号进行建模，同时在整个模型中预测目标。然而，在使用深度神经网络对原始音频数据进行识别的相关方法中，有的方法只将深度神经网络作为一种有效的分类器，而另一些方法则只是在网络初始部分时使用少量的卷积层和大尺寸卷积核来学习和提取特征。

发明内容

发明人研究发现，现有技术中利用深度神经网络识别水声目标时，网络的深度没有很好地用于感知原始信号的波形，以及没有使用深度卷积堆栈网络进行特征提取与识别的相关工作。原因是缺少一个能有效感知水声一维信号波形的多尺度残差单元。不同于语音，水下声音由于声源的多样性和不确定性，更加不规则和随机。因此，一般的深度网络结构可能不适用于水声目标识别。

为了有效解决深度神经网络对基于原始水声音频波形的目标识别问题，本发明提出了一种多尺度残差基本单元用于感知一维音频波形数据，并基于这种多尺度残差单元设计了一种深层卷积堆栈网络模型，可以基于原始音频波形数据建立端到端深度神经网络。

在水声目标识别中，本发明能够使用层数较深的卷积堆栈网络实现对原始音频波形数据的自动特征学习提取与识别，充分发挥了深度神经网络的自动特征学习和提取能力。

为实现上述发明目的，本发明提供了一种处理水声原始数据的多尺度残差单元，包括由批归一化层、激活层、卷积层构成的残差网络架构，用于处理一维原始音频波形，在所述残差网络架构中，具备至少一个卷积中间层，所述卷积中间层由多个卷积层并行而成，且在所述卷积中间层与残差网络架构末端之间，具备至少一个软阈值运算单元，用于进行软阈值计算与过滤。

其中，传统方法中的深度网络结构是不平衡的，因为大内核的卷积层消耗了大部分内存资源，使得网络更依赖于初始部分的结构。同时也导致了特征提取和分类的分离，使得研究人员像传统方法一样逐渐重视网络的设计前部而忽略了整体的一致性。本发明中的多尺度残差单元基于残差网络架构并用于处理一维原始音频波形，由于本发明中的多尺度残差单元中具备至少一个卷积中间层，且所述卷积中间层由多个卷积层并行而成，因此，本发明中的多尺度残差单元具有多个并行的卷积层使用不同的卷积核对相同输入进行卷积，使得多尺度残差单元具有了多尺度感知能力，能够捕获不同尺度的目标特征。多尺度残差单元尾部的软阈值过滤激活也是针对原始信号波形设计的结构，与常用Relu激活不同的是，这种激活能够有效的保留极正与极负值。而Relu则是抑制负值，保留正值。在信号波形中，极负值与极正值具有相同的重要性，因此，通过软阈值过滤，能够有效保留信号的特征，减少信息的损失。

优选的，本方法中所述卷积中间层由多个第一卷积层并行而成，任意2个所述第一卷积层的卷积核大小不同，利用卷积核大小不同实现多尺度卷积。

优选的，本方法中任意2个所述第一卷积层的卷积输出通道数相同，任意2个所述第一卷积层的卷积步长相同。这样设计的目的是实现多尺度卷积的同时保障卷积的其他效果和作用相同。

优选的，本方法中所述卷积中间层由N个第一卷积层并行而成，所述卷积中间层的输出通道数为n，所述第一卷积层的输出通道数为n/N，n和N均为大于1的整数。这样设计的目的是使得第一卷积层的输出通道叠加后能够与卷积中间层的输出通道数匹配。

优选的，本方法中所述卷积中间层由4个第一卷积层并行组成。这样设计的目的是为了匹配成熟的卷积堆栈网络。

优选的，本方法中所述软阈值运算单元将其输入数据依次经过第一池化层、第一全连接层、第一批归一化层、第一激活层、第二全连接层和第二激活层处理得到软阈值；基于所述软阈值所述软阈值运算单元进行数据过滤处理，所述软阈值运算单元将过滤处理后的数据输入所述残差网络架构末端。

优选的，本方法中所述残差网络架构末端将所述软阈值运算单元过滤处理后的数据进行卷积处理获得第一输出数据，所述第一输出数据和所述多尺度残差单元的输入数据合并形成所述多尺度残差单元的输出数据。

优选的，本发明中软阈值的过滤公式为：

其中，τ为学习得到的软阈值，x为软阈值过滤层的输入，f(x)为软阈值过滤层过滤后的输出。

优选的，本方法中，所述卷积中间层的输出数据输入所述残差网络架构末端中的第二批归一化层，所述第二批归一化层的输出包括第二输出数据和第三输出数据，所述第二输出数据经过所述软阈值运算单元处理得到软阈值；基于所述软阈值，所述软阈值运算单元过滤所述第三输出数据，获得第四输出数据；将所述第四输出数据输入所述残差网络架构末端中的第二卷积层，所述第二卷积层输出所述第一输出数据，所述第一输出数据与所述多尺度残差单元的输入数据合并为所述多尺度残差单元的输出数据。

本发明还提供了一种处理水声原始数据的深度神经网络，所述深度神经网络包括网络前端、网络中端和网络末端，所述网络前端的输出数据输入所述网络中端，所述网络中端的输出数据输入所述网络末端，所述网络中端包括至少一个所述的多尺度残差单元；当所述网络中端包括多个所述多尺度残差单元时，多个所述多尺度残差单元依次连接。

其中，传统的网络的深度没有很好地用于感知原始信号的波形，还很少有使用深度卷积堆栈网络进行特征提取与识别的相关工作。原因可能是缺少一个能有效感知水声一维信号波形的多尺度残差单元。不同于语音，水下声音由于声源的多样性和不确定性，更加不规则和随机。因此，一般的深度网络结构可能不适用于水声目标识别，而本发明中的深度神经网络中的网络中端具有所述多尺度残差单元，利用所述多尺度残差单元能够有效感知水声一维信号波形，因此，能够良好的适用于水声目标识别。

优选的，所述网络前端用于将所述深度神经网络的输入数据依次经过卷积处理、批归一化处理、激活处理和池化处理后获得输出数据，所述网络前端的输出数据输入所述网络中端。

优选的，所述网络末端用于将所述网络中端的输出数据处理得到一维原始音频波形中的目标类型识别结果。

优选的，所述网络前端包括P个第一输入通道，所述第一输入通道将所述深度神经网络的输入数据依次经过第三卷积层、第三批归一化层、第三激活层和第二池化层处理后获得第五输出数据，P个所述第五输出数据合并后输入所述网络中端，P为大于1的整数。

优选的，任意两个所述第三卷积层的卷积核大小不同。

优选的，所述网络前端包括4个所述第一输入通道。

优选的，所述网络末端将所述网络中端的输出数据依次经过第四激活层、第三池化层和第三全连接层处理后得到目标类型识别结果，将所述目标类型识别结果输入归一化指数函数生成一维原始音频波形中目标类型的预测概率分布。

优选的，当所述网络中端包括一个多尺度残差单元d1时，所述多尺度残差单元d1的输入数据为所述网络前端的输出数据，所述多尺度残差单元d1的输出数据为所述网络末端的输入数据；当所述网络中端包括多尺度残差单元d1至多尺度残差单元dm时，m为大于1的整数；所述多尺度残差单元d1的输出数据为多尺度残差单元d2的输入数据，多尺度残差单元dm-1的输出数据为所述多尺度残差单元dm的输入数据，所述多尺度残差单元dm的输出数据为所述网络末端是输入数据。

优选的，所述多尺度残差单元dm的卷积中间层与所述多尺度残差单元dm-1的卷积中间层的卷积输出通道数不同，卷积核大小相同，卷积的步长相同。

优选的，所述多尺度残差单元dm中的卷积层与所述多尺度残差单元dm-1中同类型卷积层的卷积输出通道数不同，卷积核大小相同，卷积的步长相同。

优选的，所述网络中端包括所述多尺度残差单元d1、多尺度残差单元d2、多尺度残差单元d3和多尺度残差单元d4。

优选的，所述目标为水下目标。

本发明还提供了一种深度神经网络的训练方法，所述深度神经网络为所述的深度神经网络，所述训练方法包括：

构建所述深度神经网络，获得第一深度神经网络；

标注第一音频数据中的目标辐射声音信号，获得第一标注数据，基于所述第一标注数据获得训练集；

利用所述训练集训练所述第一深度神经网络，获得第二神经网络。

优选的，所述训练方法还包括：

基于所述第一标注数据获得测试集；

利用所述测试集测试所述第二深度神经网络。

本发明还提供了一种深度神经网络的训练系统，所述深度神经网络为所述的深度神经网络，所述训练系统包括：

构建单元，用于构建所述深度神经网络，获得第一深度神经网络；

训练集获得单元，用于标注第一音频数据中的目标辐射声音信号，获得第一标注数据，基于所述第一标注数据获得训练集；

训练单元，用于利用所述训练集训练所述第一深度神经网络，获得第二神经网络。

本发明还提供了目标识别方法，所述方法包括：

采用所述训练方法训练获得所述第二神经网络；

将第一音频波形数据输入所述第二深度神经网络，所述第二深度神经网络输出所述第一音频波形数据中各目标的类型预测概率分布。

本发明还提供了目标识别系统，所述目标识别系统包括：

网络获得单元，用于采用所述训练方法训练获得所述第二神经网络；

处理单元，用于将第一音频波形数据输入所述第二深度神经网络，所述第二深度神经网络输出所述第一音频波形数据中各目标的类型预测概率分布。

本发明还提供了一种网络训练装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述深度神经网络的训练方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述深度神经网络的训练方法的步骤。

本发明还提供了一种目标识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述目标识别方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述目标识别方法的步骤。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

相比于传统的基本残差单元，本发明提出的多尺度残差基本单元具备多尺度感知能力，通过不同卷积核尺寸的并行卷积，能够感知到一维原始音频波形的多尺度特征。多尺度卷积层(即卷积中间层)将能够增强模型的接受野。从微观层面看，和频谱计算类似，一旦确定了卷积的核大小，卷积生成的特征矩阵的分辨率也随之确定。相比之下，多尺度卷积层将能够生成多种分辨率的特征矩阵，并将它们组合起来。可以弥补小卷积核的信息丢失问题。从宏观层面上看，由于卷积层通常对前一个卷积层的输出进行处理，低分辨率的信息将被传递到深层。在正向传播过程中，通过一层一层的组合和计算，生成具有多种分辨率的特征图，模型能够捕获更多的特征信息，解决了大卷积核的不平衡结构(集中在网络前端捕捉特征)。此外，尾部的自学习软阈值结构相比于传统的激活层更适用于一维波形数据，能够更大程度的保留数据特征，传递到网络的更深层，最终将使得目标识别准确率提高。

此外，基于多尺度残差单元构建的多尺度残差深度神经网络，一方面结合了先进的深度残差网络结构，另一方面通过将传统的残差单元替换为多尺度深度残差单元，使得网络具备了更强的多尺度感知能力，能够更好的感知一维原始信号波形特征，进而更加准确识别出目标。基于多尺度残差单元构建的深卷积堆栈网络并不依赖于结构的特定部分。网络结构变得更加规则和平衡。通过在深度卷积堆栈网络上改变残差单元的数量，可以使网络在不同的环境下更容易地进行调整。例如，对于硬件资源有限的情况以及标注数据量较小的情况，可适当减少残差单元的数量，降低网络深度，避免数据过拟合。此外，深度网络本身具有一定的冗余性，如果在运行速度和识别准确率之间进行权衡，可以通过减少残差单元的数量，在适当降低识别准确率的条件下，提高模型的运行速度。由于整个网络的结构是均衡的，因此在一定范围内均匀减少残差单元的数量(如从[3,4,23,3]减少到[3,4,6,3])，将不会造成网络识别准确率的大幅下降(可参考resnet101和resnet34的识别准确率差异)。另外，不同卷积核大小和基本单元堆栈数的组合策略都可以作为网络结构搜索的入口点。

在数据集上的运行结果表明，该网络在识别准确率上不但能够超过传统针对一维信号的深度神经网络模型，还能够实现超过基于频谱识别方法的识别准确率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1为深度学习识别整体流程示意图；

图2为多尺度残差基本单元的结构示意图；

图3为多尺度残差深度神经网络的结构示意图；

图4为水声目标识别系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

实施例一

本发明实施例一提供了一种处理水声原始数据的多尺度残差单元，多尺度残差单元的结构如图2所示，包括由批归一化层、激活层、卷积层构成的残差网络架构，用于处理一维原始音频波形，在所述残差网络架构中，具备至少一个卷积中间层，所述卷积中间层由多个卷积层并行而成，且在所述卷积中间层与残差网络架构末端之间，具备至少一个软阈值运算单元，用于进行软阈值计算与过滤。

其中，在实际应用中卷积中间层的数目和软阈值运算单元的个数可以根据实际需要进行灵活调整，本发明不进行具体的限定。

其中，在本发明实施例中所述残差网络架构中除了包括上述批归一化层、激活层和卷积层外还可以根据实际需要包括其他功能层，本发明不对残差网络架构进行具体的限定。

其中，在本发明实施例中，所述卷积中间层由多个第一卷积层并行而成，任意2个所述第一卷积层的卷积核大小不同。其中，在实际应用中第一卷积层的数目可以根据实际需要进行灵活调整，本发明不进行具体的限定。

其中，在本发明实施例中，任意2个所述第一卷积层的卷积输出通道数相同，任意2个所述第一卷积层的卷积步长相同。

其中，在本发明实施例中，所述卷积中间层由N个第一卷积层并行而成，所述卷积中间层的输出通道数为n，所述第一卷积层的输出通道数为n/N，n和N均为大于1的整数。

其中，在本发明实施例中，所述软阈值运算单元将其输入数据依次经过第一池化层、第一全连接层、第一批归一化层、第一激活层、第二全连接层和第二激活层处理得到软阈值；基于所述软阈值所述软阈值运算单元进行数据过滤处理，所述软阈值运算单元将过滤处理后的数据输入所述残差网络架构末端。

其中，在本发明实施例中，所述残差网络架构末端将所述软阈值运算单元过滤处理后的数据进行卷积处理获得第一输出数据，所述第一输出数据和所述多尺度残差单元的输入数据合并形成所述多尺度残差单元的输出数据。

其中，在本发明实施例中，所述卷积中间层的输出数据输入所述残差网络架构末端中的第二批归一化层，所述第二批归一化层的输出包括第二输出数据和第三输出数据，所述第二输出数据经过所述软阈值运算单元处理得到软阈值；基于所述软阈值，所述软阈值运算单元过滤所述第三输出数据，获得第四输出数据；将所述第四输出数据输入所述残差网络架构末端中的第二卷积层，所述第二卷积层输出所述第一输出数据，所述第一输出数据与所述多尺度残差单元的输入数据合并为所述多尺度残差单元的输出数据。

本发明实施例一为解决常规深度神经网络在基于原始音频波形进行水声目标识别中的不适用问题，提出了一种多尺度残差单元用于感知一维音频波形数据，并基于这种多尺度残差单元设计了一种深层卷积堆栈网络，基于原始音频波形数据建立端到端深度神经网络用于水下目标的识别。

深度学习识别整体流程如附图1所示，首先，基于已有的标注数据，将其切分为深度模型输入形式并划分训练集与测试集，然后使用训练集对模型进行迭代训练，模型收敛后，在测试集上测试模型识别指标。最终将训练完成的模型，应用于实际采集的未标注数据进行目标识别。

本发明提出的多尺度残差单元如附图2所示，c是卷积输出通道数，k是卷积核大小，s是卷积的步长，超参数C为整个单元的处理通道数。首先输入数据通过批归一化层和激活层，然后通过一个一维卷积层，再进行一次批归一化与激活。4个并行的卷积层对激活的输出进行卷积，每个卷积层的卷积核大小不同，输出通道数为输入通道数的1/4，卷积步长可以设置为2或1，对应的填充模式为‘same’。完成并行卷积后，将输出进行通道拼接，然后送入批归一化层。批归一化层的输出分为两个分支，其中一支通过全局平均池化层(Gap)、全连接层、批归一化层、激活层、全连接层、sigmoid激活层学习得到一个软阈值。该软阈值将作用于另一个分支，软阈值过滤公式如式1所示。

其中，τ为学习得到的软阈值，x为软阈值过滤层的输入，f(x)为软阈值过滤后的输出。

其中，图2中右边的分支学习得到τ(阈值)，右边的分支输出阈值，BN层输入x。上述公式对应于图2中的Soft-Thresholding层。

软阈值激活后的输出将进行一次卷积，卷积的输出与单元的最初输入相加，形成输入信息的传输捷径，便于梯度的保持与传递。

与传统的残差结构相比，本发明设计的结构主要有两个方面的改进：

1.多尺度卷积；

核心的四个并行的卷积层使用不同的卷积核对相同输入进行卷积，使得该单元具有了多尺度感知能力，能够捕获不同尺度的目标特征。

2.软阈值激活；

单元尾部的软阈值过滤激活也是针对原始信号波形设计的结构，与常用Relu激活不同的是，这种激活能够有效的保留极正与极负值。而Relu则是抑制负值，保留正值。在信号波形中，极负值与极正值具有相同的重要性，因此，通过软阈值过滤，能够有效保留信号的特征，减少信息的损失。

实施例二

基于实施例一中的多尺度残差单元，本发明建立了一种处理水声原始数据的深度神经网络，所述深度神经网络包括网络前端、网络中端和网络末端，所述网络前端的输出数据输入所述网络中端，所述网络中端的输出数据输入所述网络末端，所述网络中端包括至少一个实施例一中所述的多尺度残差单元；当所述网络中端包括多个所述多尺度残差单元时，多个所述多尺度残差单元依次连接。

其中，在本发明实施例中，所述网络前端用于将所述深度神经网络的输入数据依次经过卷积处理、批归一化处理、激活处理和池化处理后获得输出数据，所述网络前端的输出数据输入所述网络中端。所述网络末端用于将所述网络中端的输出数据处理得到一维原始音频波形中的目标类型识别结果。

其中，在本发明实施例中，所述网络前端包括P个第一输入通道，所述第一输入通道将所述深度神经网络的输入数据依次经过第三卷积层、第三批归一化层、第三激活层和第二池化层处理后获得第五输出数据，P个所述第五输出数据合并后输入所述网络中端，P为大于1的整数。其中，在实际应用中第一输入通道的数目可以根据实际需要进行灵活调整，本发明不进行具体的限定。

其中，在本发明实施例中，任意两个所述第三卷积层的卷积核大小不同。所述网络前端包括4个所述第一输入通道。

其中，在本发明实施例中，所述网络末端将所述网络中端的输出数据依次经过第四激活层、第三池化层和第三全连接层处理后得到目标类型识别结果，将所述目标类型识别结果输入归一化指数函数生成一维原始音频波形中目标类型的预测概率分布。

其中，在本发明实施例中，当所述网络中端包括一个多尺度残差单元d1时，所述多尺度残差单元d1的输入数据为所述网络前端的输出数据，所述多尺度残差单元d1的输出数据为所述网络末端的输入数据；当所述网络中端包括多尺度残差单元d1至多尺度残差单元dm时，m为大于1的整数；所述多尺度残差单元d1的输出数据为多尺度残差单元d2的输入数据，多尺度残差单元dm-1的输出数据为所述多尺度残差单元dm的输入数据，所述多尺度残差单元dm的输出数据为所述网络末端是输入数据。

其中，在本发明实施例中，所述多尺度残差单元dm的卷积中间层与所述多尺度残差单元dm-1的卷积中间层的卷积输出通道数不同，卷积核大小相同，卷积的步长相同。所述多尺度残差单元dm中的卷积层与所述多尺度残差单元dm-1中同类型卷积层的卷积输出通道数不同，卷积核大小相同，卷积的步长相同。

其中，在本发明实施例中，所述目标为水下目标。

按照目前先进的深度卷积叠加网络结构，可以构建由多尺度残差单元叠加的多尺度残差深度神经网络，如附图3所示，c是卷积输出通道数，k是卷积核大小，s是卷积的步长，超参数C为整个单元的处理通道数。网络的整体结构是基于ResNet-101，其中每个残差单元由多尺度残差单元代替。在网络的末端，使用全局平均池化层和全连接层生成识别类型结果。最后，利用soft-max函数生成类别的预测概率分布。

其中，本发明实施例中深度神经网络中的多尺度残差单元叠加数目可以根据实际需要进行灵活调整，本发明不进行具体的限定，如按照目前先进的深度卷积叠加网络结构叠加的数量分布是与目前成熟的卷积堆栈网络相同的(如ResNet-101)，这个分布是可以变的，根据应用的不同需求和数据集。这样设计的目的是为了方便与ResNet-101网络实验对比。

与传统的深度卷积堆栈网络相比，本发明提出的多尺度残差深度神经网络主要两方面的不同：

①在网络的前端将首先进行与多尺度残差单元中多尺度卷积部分结构相同的多尺度卷积。使用这四个并行卷积层的原因是为了避免最初固定卷积核大小的限制，最大限度地保证低分辨率特征下的多尺度特征。

②使用了4种不同参数的多尺度残差单元构建深度卷积堆栈网络，自动从水声辐射信号中学习和提取特征。每种多尺度残差单元的参数差异主要体现在卷积通道数上，选择这四种通道数量是与当前主流的深度卷积堆栈网络保持一致，方便对比分析。具体实际应用时，也可以根据资源和性能表现灵活调整。

其中，本发明中的多尺度残差单元中的通道数目可以根据实际需要进行灵活调整，本发明不进行具体的限定，其中，通道数量的分布可以和ResNet101相同的，方便对比。

下面结合具体的数据对本发明中的多尺度残差深度神经网络进行介绍：

针对水声数据，构建上述多尺度残差深度神经网络模型。

输入数据维度假设为1*48000的原始音频波形，实质上是一个16kHz采样率下3s的连续音频。对于网络初始部分的四个并行多尺度卷积，采用的卷积核尺寸分别为3、9、15、21，输出通道数设置为16。卷积输出将通过批归一化层与激活层，然后经过最大池化层，该最大池化层设置池化内核长度为3，步长为2。对池化后的输出进行通道拼接，可得到通道数为16*4＝64的特征矩阵。

将特征矩阵送入第一个深度堆栈，该堆栈由3个多尺度残差单元连接组成，设置输出通道数为64*4＝256，stride参数s可以设置为2或1。如果s设为2，表示在卷积过程中对输入进行一次子采样。否则，不执行子采样。该堆栈中，每两个连续的基本单元，在前一个单元中stride参数设置为2，在后一个单元中设置为1。该堆栈输出为通道数为256的特征矩阵。

将该特征矩阵送入第二个深度堆栈，该堆栈由4个多尺度残差单元连接组成，设置输出通道数为128*4＝512，该堆栈中，每两个连续的基本单元，在前一个单元中stride参数设置为2，在后一个单元中设置为1。该堆栈输出为通道数为512的特征矩阵。

然后将该特征矩阵送入第三个深度堆栈，该堆栈由23个多尺度残差单元连接组成，设置输出通道数为256*4＝1024，该堆栈中，每三个连续的基本单元，在前1个单元中stride参数设置为2，在后2个单元中设置为1。该堆栈输出为通道数为1024的特征矩阵。

将该特征矩阵送入第四个深度堆栈，该堆栈由3个多尺度残差单元连接组成，设置输出通道数为2048，该堆栈中，每两个连续的基本单元，在前一个单元中stride参数设置为2，在后一个单元中设置为1。该堆栈输出为通道数为2048的特征矩阵。

最后输出的特征矩阵，将通过一个常规激活层，一个全局平均池化层以及一个全连接层，最后通过soft-max函数将输出转换为类别的预测概率，得到模型预测结果。

其中，本网络中的具体参数可以根据实际需要进行调整，本发明不对网络中的具体参数进行限定，如多尺度残差基本单元的个数、通道数目、卷积核大小、卷积步长、填充模式、激活函数类型、损失函数类型等等。

其中，本网络的输入数据为水声音频波形数据，可以为任意形式或方式采集的水声音频波形数据，并不局限于水听器采集到的目标辐射声音信号，可以是任意能够将声信号转换成电信号的装置或设备，本发明中的水声音频波形数据可以为任意水域中的水声音频波形数据，如海洋、河流湖泊等等。

实施例三

本发明实施例三提供了一种深度神经网络的训练方法，所述深度神经网络为所述的深度神经网络，所述训练方法包括：

构建所述深度神经网络，获得第一深度神经网络；

其中，在本发明实施例三中，所述训练方法还包括：

基于所述第一标注数据获得测试集；

利用所述测试集测试所述第二深度神经网络。

实施例四

本发明实施例四提供了一种深度神经网络的训练系统，所述深度神经网络为所述的深度神经网络，所述训练系统包括：

实施例五

本发明实施例五提供了目标识别方法，所述方法包括：

采用所述训练方法训练获得所述第二神经网络；

实施例六

请参考图4，本发明实施例六提供了目标识别系统，所述目标识别系统包括：

实施例七

本发明实施例七提供了一种网络训练装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述深度神经网络的训练方法的步骤。

实施例八

本发明实施例八提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述深度神经网络的训练方法的步骤。

实施例九

本发明实施例九提供了一种目标识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述目标识别方法的步骤。

实施例十

本发明实施例十提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述目标识别方法的步骤。

其中，上述实施例中的所述处理器可以是中央处理器(CPU，Central ProcessingUnit)，还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammable gate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现发明中网络训练装置或目标识别装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，上述实施中的所述网络训练装置或目标识别装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种处理水声原始数据的多尺度残差单元，包括由批归一化层、激活层、卷积层构成的残差网络架构，其特征在于，用于处理一维原始音频波形，在所述残差网络架构中，具备至少一个卷积中间层，所述卷积中间层由多个卷积层并行而成，且在所述卷积中间层与残差网络架构末端之间，具备至少一个软阈值运算单元，用于进行软阈值计算与过滤；

所述卷积中间层由多个第一卷积层并行而成，任意2个所述第一卷积层的卷积核大小不同；

所述软阈值运算单元将第二输出数据依次经过第一池化层、第一全连接层、第一批归一化层、第一激活层、第二全连接层和第二激活层处理得到软阈值；基于所述软阈值所述软阈值运算单元进行数据过滤处理，所述软阈值运算单元将过滤处理后的数据输入所述残差网络架构末端；

所述残差网络架构末端将所述软阈值运算单元过滤处理后的数据进行卷积处理获得第一输出数据，所述第一输出数据和所述多尺度残差单元的输入数据合并形成所述多尺度残差单元的输出数据；

所述卷积中间层的输出数据输入所述残差网络架构末端中的第二批归一化层，所述第二批归一化层的输出包括第二输出数据和第三输出数据，所述第二输出数据经过所述软阈值运算单元处理得到软阈值；基于所述软阈值，所述软阈值运算单元过滤所述第三输出数据，获得第四输出数据；将所述第四输出数据输入所述残差网络架构末端中的第二卷积层，所述第二卷积层输出所述第一输出数据，所述第一输出数据与所述多尺度残差单元的输入数据合并为所述多尺度残差单元的输出数据。

2.根据权利要求1所述的一种处理水声原始数据的多尺度残差单元，其特征在于，任意2个所述第一卷积层的卷积输出通道数相同，任意2个所述第一卷积层的卷积步长相同。

3.根据权利要求1所述的一种处理水声原始数据的多尺度残差单元，其特征在于，所述卷积中间层由N个第一卷积层并行而成，所述卷积中间层的输出通道数为n，所述第一卷积层的输出通道数为n/N，n和N均为大于1的整数。

4.根据权利要求1所述的一种处理水声原始数据的多尺度残差单元，其特征在于，所述卷积中间层由4个第一卷积层并行组成。

5.一种处理水声原始数据的深度神经网络，所述深度神经网络包括网络前端、网络中端和网络末端，所述网络前端的输出数据输入所述网络中端，所述网络中端的输出数据输入所述网络末端，其特征在于，所述网络中端包括至少一个权利要求1-4中任意一个所述的多尺度残差单元；当所述网络中端包括多个所述多尺度残差单元时，多个所述多尺度残差单元依次连接。

6.根据权利要求5所述的一种处理水声原始数据的深度神经网络，其特征在于，所述网络前端用于将所述深度神经网络的输入数据依次经过卷积处理、批归一化处理、激活处理和池化处理后获得输出数据，所述网络前端的输出数据输入所述网络中端。

7.根据权利要求5所述的一种处理水声原始数据的深度神经网络，其特征在于，所述网络末端用于将所述网络中端的输出数据处理得到一维原始音频波形中的目标类型识别结果。

8.根据权利要求6所述的一种处理水声原始数据的深度神经网络，其特征在于，所述网络前端包括P个第一输入通道，所述第一输入通道将所述深度神经网络的输入数据依次经过第三卷积层、第三批归一化层、第三激活层和第二池化层处理后获得第五输出数据，P个所述第五输出数据合并后输入所述网络中端，P为大于1的整数。

9.根据权利要求8所述的一种处理水声原始数据的深度神经网络，其特征在于，任意两个所述第三卷积层的卷积核大小不同。

10.根据权利要求8所述的一种处理水声原始数据的深度神经网络，其特征在于，所述网络前端包括4个所述第一输入通道。

11.根据权利要求7所述的一种处理水声原始数据的深度神经网络，其特征在于，所述网络末端将所述网络中端的输出数据依次经过第四激活层、第三池化层和第三全连接层处理后得到目标类型识别结果，将所述目标类型识别结果输入归一化指数函数生成一维原始音频波形中目标类型的预测概率分布。

12.根据权利要求5所述的一种处理水声原始数据的深度神经网络，其特征在于，当所述网络中端包括一个多尺度残差单元d1时，所述多尺度残差单元d1的输入数据为所述网络前端的输出数据，所述多尺度残差单元d1的输出数据为所述网络末端的输入数据；当所述网络中端包括多尺度残差单元d1至多尺度残差单元dm时，m为大于1的整数；所述多尺度残差单元d1的输出数据为多尺度残差单元d2的输入数据，多尺度残差单元dm-1的输出数据为所述多尺度残差单元dm的输入数据，所述多尺度残差单元dm的输出数据为所述网络末端是输入数据。

13.根据权利要求12所述的一种处理水声原始数据的深度神经网络，其特征在于，所述多尺度残差单元dm的卷积中间层与所述多尺度残差单元dm-1的卷积中间层的卷积输出通道数不同，卷积核大小相同，卷积的步长相同。

14.根据权利要求12所述的一种处理水声原始数据的深度神经网络，其特征在于，所述多尺度残差单元dm中的卷积层与所述多尺度残差单元dm-1中同类型卷积层的卷积输出通道数不同，卷积核大小相同，卷积的步长相同。

15.根据权利要求5所述的一种处理水声原始数据的深度神经网络，其特征在于，所述网络中端包括所述多尺度残差单元d1、多尺度残差单元d2、多尺度残差单元d3和多尺度残差单元d4。

16.根据权利要求7所述的一种处理水声原始数据的深度神经网络，其特征在于，目标为水下目标。

17.一种深度神经网络的训练方法，其特征在于，所述深度神经网络为权利要求5中所述的深度神经网络，所述训练方法包括：

构建所述深度神经网络，获得第一深度神经网络；

利用所述训练集训练所述第一深度神经网络，获得第二深度神经网络。

18.根据权利要求17所述的训练方法，其特征在于，所述方法还包括：

基于所述第一标注数据获得测试集；

利用所述测试集测试所述第二深度神经网络。

19.一种深度神经网络的训练系统，其特征在于，所述深度神经网络为权利要求5中所述的深度神经网络，所述训练系统包括：

训练单元，用于利用所述训练集训练所述第一深度神经网络，获得第二深度神经网络。

20.目标识别方法，其特征在于，所述方法包括：

采用权利要求17中的所述训练方法训练获得所述第二深度神经网络；

21.目标识别系统，其特征在于，所述目标识别系统包括：

网络获得单元，用于采用权利要求17中的所述训练方法训练获得所述第二深度神经网络；

22.一种网络训练装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求17所述深度神经网络的训练方法的步骤。

23.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求17所述深度神经网络的训练方法的步骤。

24.一种目标识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求20所述目标识别方法的步骤。

25.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求20所述目标识别方法的步骤。