CN115497492A

CN115497492A - 一种基于全卷积神经网络的实时语音增强方法

Info

Publication number: CN115497492A
Application number: CN202211023976.1A
Authority: CN
Inventors: 刘柏华; 林三朝
Original assignee: Zhuhai Freeview Science & Technology Co ltd
Current assignee: Zhuhai Freeview Science & Technology Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-12-20

Abstract

本发明公开了一种基于全卷积神经网络的实时语音增强方法，方法包括：获取带噪音语音数据和无噪音语音数据，构建训练集和测试集；对所述训练集和所述测试集进行数据标准化处理，得到标准化的语音数据；对所述标准化的语音数据进行特征提取；根据提取到的特征进行模型训练，得到目标网络模型；通过所述目标网络模型对包含噪音的目标数据进行语音增强，得到增强后的输出结果。本发明提高了实时性以及效率，可广泛应用于音频数据处理技术领域。

Description

一种基于全卷积神经网络的实时语音增强方法

技术领域

本发明涉及音频数据处理技术领域，尤其是一种基于全卷积神经网络的实时语音增强方法。

背景技术

语音增强是指当语音信号被各种各样的噪声干扰，甚至淹没后，从噪声背景中提取有用的语音信号，抑制，降低噪声干扰的信号处理技术。

语音增强技术的发展大体经历了基于无监督语音增强的传统方法，常用的方法比如维纳滤波法，谱减法。这类无监督的传统语音增强根据前面帧估计噪声，但在非平稳噪声的情况下，跟踪和估计噪声的策略失效，同时，为了推导方便，进行了对数据分布的高斯性假设是不合理的，限制了传统算法的上限。

随着深度学习技术的出现，基于有监督的语音增强方法相较于传统的语音增强方法显示了较大的优越性，这类基于人工神经网络的方法用人工神经网络在时域学习带噪语音和干净语音的非线性关系。

目前用于语音增强的神经网络模型的参数量和计算量一般比较复杂，这些模型把已知的有用的技巧融合模型中，更有一些模型基本是模块的排列组合。但实际工作中，嵌入设备端侧对算法开销要求比较苛刻，比如嵌入式设备的算法落地需要更加严格的模型选型和剪枝、量化。需要从模型的效果、参数量、计算量、占用内存大小、时延等方面均衡考虑基于神经网络的语音增强在嵌入式设备上的实现。

发明内容

有鉴于此，本发明实施例提供一种实时且高效的，基于全卷积神经网络的实时语音增强方法。

本发明实施例的一方面提供了一种基于全卷积神经网络的实时语音增强方法，包括：

获取带噪音语音数据和无噪音语音数据，构建训练集和测试集；

对所述训练集和所述测试集进行数据标准化处理，得到标准化的语音数据；

对所述标准化的语音数据进行特征提取；

根据提取到的特征进行模型训练，得到目标网络模型；

通过所述目标网络模型对包含噪音的目标数据进行语音增强，得到增强后的输出结果。

可选地，所述获取带噪音语音数据和无噪音语音数据，构建训练集和测试集，包括：

配置待混合的信噪比，所述信噪比包括-10db、-5db、0db、5db、10db、15db；

分别将所述信噪比下的带噪音语音数据和无噪音语音数据混合，生成含噪语音数据集，将所述含噪语音数据集的20％划分为所述测试集，将所述含噪语音数据集的80％划分为训练集。

可选地，所述对所述训练集和所述测试集进行数据标准化处理，得到标准化的语音数据，包括：

将所述含噪语音数据集使用8k采样率进行重采样处理；

将重采样得到的数据通过语音端点检测静音帧，去除数据中的静音帧；

去除静音帧后，将语音样本标准化，使得样本满足均值为0，标准差为1的标准正态分布。

可选地，所述对所述标准化的语音数据进行特征提取，包括：

对语音数据进行分帧处理，选取每帧为32ms数据，使用8ms帧移分帧，并对分帧后的每帧数据加32ms的汉明窗；

将分帧加窗后数据用短时傅里叶变换STFT，将变换后的256点的振幅向量减去对称的一半，得到剩下的129点振幅向量；

将所述剩下的129点振幅向量取对数得到功率谱特征的模，作为提取的特征向量。

可选地，所述根据提取到的特征进行模型训练，得到目标网络模型，包括：

将提取到的特征输入包含10层卷积层的网络结构进行训练，具体包括：

将提取到的特征输入第一层卷积层，其中，第一层卷积层为12个卷积核，大小为13x13的卷积层；

将所述第一层卷积层的输出结果通过Batch Norm处理之后，再使用ReLU函数处理；其中，所述Batch Norm处理的作用是对数据进行归一化处理；所述Batch Norm和所述ReLU函数之间加有两个跳变连接；所述两个跳变连接分别是是第六层卷积后的输出加上第四层卷积输出，以及第八层卷积后的输出加上第二层卷积输出；

其中，卷积训练过程中的损失函数采用均方误差。

可选地，所述10层卷积层的网络结构的训练过程中，

第一层的输出送入第二层的卷积网络；第二层为16个卷积核，大小为11x11的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为第二层的输出；

第二层的输出送入第三层的卷积网络；第三层为20个卷积核，大小为9x9的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为第三层的输出；

第三层的输出送入第四层的卷积网络；第四层为24个卷积核，大小为7x7的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为第四层的输出；

第四层的输出送入第五层的卷积网络；第五层为32个卷积核，大小为7x7的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为第五层的输出；

第五层的输出送入第六层的卷积网络；第六层为24个卷积核，大小为7x7的卷积层，输出加一个跳变连接，具体地：由第六层卷积后的输出加上第四层卷积之后，BatchNorm之前的输出，相加后经过Batch Norm，再使用ReLU函数处理，处理后的输出为第六层的输出；

第六层的输出送入第七层的卷积网络；第七层为20个卷积核，大小为9x9的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为第七层的输出；

第七层的输出送入第八层的卷积网络；第八层为16个卷积核，大小为11x11的卷积层，输出加一个跳变连接，具体地：由第八层卷积后的输出加上第二层卷积之后，BatchNorm之前的输出，相加后经过Batch Norm，再使用ReLU函数处理，处理后的输出为第八层的输出；

第八层的输出送入第九层的卷积网络；第九层为12个卷积核，大小为13x13的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为第九层的输出；

第九层的输出送入第十层的卷积网络；第十层为1个卷积核，大小为129x129的卷积层，最终的输出特征的大小为129x1。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例获取带噪音语音数据和无噪音语音数据，构建训练集和测试集；对所述训练集和所述测试集进行数据标准化处理，得到标准化的语音数据；对所述标准化的语音数据进行特征提取；根据提取到的特征进行模型训练，得到目标网络模型；通过所述目标网络模型对包含噪音的目标数据进行语音增强，得到增强后的输出结果。本发明提高了实时性以及效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体步骤流程图；

图2为本发明实施例提供的语音特征提取过程的步骤流程图；

图3为本发明实施例提供的波形重构流程的步骤流程图。

图4为本发明实施例提供的网络结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明实施例一方面提供了一种基于全卷积神经网络的实时语音增强方法，包括：

对所述标准化的语音数据进行特征提取；

根据提取到的特征进行模型训练，得到目标网络模型；

将所述含噪语音数据集使用8k采样率进行重采样处理；

其中，卷积训练过程中的损失函数采用均方误差。

可选地，所述10层卷积层的网络结构的训练过程中，

本发明实施例的另一方面还提供了一种基于全卷积神经网络的实时语音增强装置，包括：

第一模块，用于获取带噪音语音数据和无噪音语音数据，构建训练集和测试集；

第二模块，用于对所述训练集和所述测试集进行数据标准化处理，得到标准化的语音数据；

第三模块，用于对所述标准化的语音数据进行特征提取；

第四模块，用于根据提取到的特征进行模型训练，得到目标网络模型；

第五模块，用于通过所述目标网络模型对包含噪音的目标数据进行语音增强，得到增强后的输出结果。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

下面结合说明书附图，对本发明的具体实现过程进行详细描述：

本发明实施例提供了一种基于全卷积神经网络(Fully Convolutional NeuralNetworks,FCNN)的实时语音增强方法，包括以下步骤:

S1:数据准备。将干净语音数据加入噪音语音数据，混合后的数据分训练集和测试集。

S2:数据预处理。将含噪语音数据重采样8k，通过语音端点检测去除静音，然后进行语音数据标准化。

S3：特征提取。将标准化的语音数据，分帧加汉明窗，做短时傅里叶变换STFT，得到256点向量，因为对称性减少一半向量,取129点幅值向量,考虑到人耳对频率的感知与频率的对数成正比，再对振幅取对数得到功率谱特征的模，相位保持不变,相位训练不采用，波形重构反变换时再用相位。

S4：训练数据。训练网络由10层组成，每层包含一个卷积层，一个Batch Norm,以及激活函数ReLU,中间加两个跳变连接，分别是第六层卷积后的输出加上第四层卷积输出以及第八层卷积后的输出加上第二层卷积输出。损失函数采用均方误差，使用Adam算法优化。

S5：语音增强。利用S4得到的网络模型，预测含噪语音的输出结果，利用波形重构还原为语音。

可选地，所述步骤S1中，具体步骤包括：

在信噪比为-10db，-5db，0db，5db，10db，15db的情况下，将干净语音与噪声随机混合，生成含噪语音数据集,将其中的20％的数据集划分为测试集。剩下的80％数据集作为训练集。

可选地，所述步骤S2中，具体步骤包括：

a,将含噪语音数据样本使用8k采样率重采样。

b,重采样的样本通过语音端点检测(VAD)检测静音帧，去除静音帧。

c,静音帧去除后，将语音样本标准化，使得样本满足均值为0，标准差为1的标准正态分布。

可选地，所述步骤S3中，具体步骤包括：

a,语音训练集分帧，由于语音信号短时平稳性，选取每帧为32ms数据，使用8ms帧移分帧，分帧后的每帧加32ms的汉明窗。

b,取8帧输入，语音长度为96ms，做256点的短时傅里叶变换STFT，变换后的256点的振幅向量，减去对称的一半，剩下129点振幅向量。

c,对129点振幅取对数得到功率谱特征的模，作为提取的特征向量，输入给训练网络。相位保持不变。

可选地，所述步骤S4中，具体步骤包括：

a,训练网络结构模型包含10层卷积层。

b,每层卷积层后加Batch Norm层，以及激活函数ReLU。

c,整个网络包含2次跳变连接。分别是第六层卷积后的输出加上第四层卷积输出以及第八层卷积后的输出加上第二层卷积输出。

d，损失函数选用均方误差(mean square error,MSE)并用Adam算法进行优化，学习率设置为0.0015。

可选地，所述步骤S5中，具体步骤包括：

a,测试集重复上述S2，S3步骤，经过S3后，保留其相位为波形重构使用，幅值作为训练网络的输入。

b,经过训练网络的预测后，得到输出向量。

c,输出向量和相角对波形重构，得到语音增强后的输出。

综上所述，相较于现有技术，本发明具有以下优点：

1、本发明的全卷积网络模型只使用10层，参数小，小于一般的CNN，RNN等网络模型，充分考虑了嵌入式系统的资源有限性，并且在大多数的嵌入式系统保证了实时性。

2、本发明的全卷积网络采用了2层的跳变连接，避免了训练时的梯度消失以及语音丢失现象。

本发明使用PESQ和STOI两种方法评估语音增强的技术效果。语音质量的感知评估(Perceptual evaluation of speech quality,PESQ)是一种客观的、全参考的语音质量评估方法。短时客观可(Short-Time Objective Intelligibility,STOI)是衡量语音可懂度的重要指标之一。

为分析不同噪声对不同模型增强效果影响，在0dB信噪比条件下，对本发明的全卷积网络(FCNN)，以及Long Short Term Memory(LSTM)网络模型和WebRTC模型3种模型验证，测试阶段的带噪语音为在white、factory2、babble，machinegun噪声环境下的语音，带噪语音的增强效果如表1和表2所示。

表1 0dB时不同噪声环境对不同模型的语音增强PESQ值

网络模型	white	factory2	babble	machinegun
					FCNN	2.04	2.04	1.81	2.04
LSTM	1.88	1.89	1.78	1.92
					WebRTC	1.54	1.55	1.77	1.65

表2 0dB时不同噪声环境对不同模型的语音增强STOI值

网络模型	white	factory2	babble	machinegun
					FCNN	0.70	0.70	0.62	0.67
LSTM	0.61	0.61	0.54	0.59
					WebRTC	0.66	0.64	0.58	0.63

由表1、2可知，可以看出，在信噪比为0db时，LSTM和WebRTC增强算法对比，LSTM算法PESQ数值均高于WebRTC算法，表明经过LSTM增强后，语音的语音质量优于WebRTC算法，但通过对比LSTM和WebRTC算法的STOI值，LSTM算法的值反而低于WebRTC算法，表明含噪语音经过LSTM算法增强后的语音的质量提高了，但语音的客观可理解度却低于WebRTC算法。本发明的FCNN算法不管是PESQ还是STOI的数值都比其他两种算法的数值高说明经过FCNN增强后，在信噪比为0db时，语音的语音质量和客观可理解度均好于两种算法。

下面对本发明实施例的具体实施步骤进行详细描述：

一种基于全卷积神经网络的实时语音增强方法，见图1的流程示意图,具体过程为:

S3：特征提取。将标准化的语音数据，分帧加汉明窗，做短时傅里叶变换STFT，得到256点向量，因为对称性减少一半向量,取129点幅值向量,再对129点幅值向量取对数得到功率谱特征的模，相位角保持不变,相位角训练阶段不采用，波形重构反变换时再使用。

其中，所述S1中数据准备,具体过程为：

在信噪比为-10db，-5db，0db，5db，10db，15db的情况下，将干净语音与噪声语音随机混合，生成含噪语音数据集,将其中的20％的数据集划分为测试集。剩下的80％数据集作为训练集。

具体地，所述S2中数据预处理,具体过程为：

a,将含噪语音数据样本使用8k采样率重采样。

b,重采样的样本通过语音端点检测(VAD)检测静音帧，并且去除静音帧。

语音端点检测实现是根据人声的频谱范围，把输入的频谱分成六个子带：80Hz～250Hz，250Hz～500Hz,500Hz～1K,1K～2K,2K～3K,3K～4K。分别计算这六个子带的能量。然后使用高斯模型的概率密度函数做运算，得出一个对数似然比函数。对数似然比分为全局和局部，全局是六个子带之加权之和，而局部是指每一个子带则是局部，语音判决会先判断子带，子带判断没有时会判断全局，只要有一方过了，就算有语音。H_N和H_S假设分别表示非语音和语音。给定第k帧谱如下：X_k＝[X_k,1...X_k,L]^T

其噪声和语音的概率密度函数分别用下式表示：

其中，i是频点索引，

λ_N＝[λ_N,1...λ_N,L]^T

λ_S＝[λ_S,1...λ_S,L]^T

上式，分别是噪声和语音的方差向量

判决条件为：

logΛ≥η则认为是语音，否则认为是非语音。

标准化的公式如下：

其中，μ和σ分别为数据集的均值和标准差。

具体地，所述S3中特征提取，见图2的语音特征提取部分,具体过程为：

汉明窗的表达式如下：

b,分帧加窗后数据用短时傅里叶变换STFT，变换后的256点的振幅向量，减去对称的一半，剩下的129点振幅向量。

c,129点振幅向量取对数得到功率谱特征的模，作为提取的特征向量，输入给训练网络,相位保持不变。

以上过程可以表示为：

|Y^l|＝log₁₀|FFT(Y^t)|²

∠Y^l＝∠FFT(Y^t)

具体地，如图4所示，本发明实施例中S4中训练数据,具体过程为：

a,取8帧音频,每帧32ms，8ms帧移，语音长度为96ms,经过上述具体实施方式四的特征提取后作为训练网络的输入。

b,提取后的8帧特征送入包含10层卷积层的网络结构训练。具体步骤为：

输入送入第一层卷积层，第一层为12个卷积核，大小为13x13的卷积层，输出经过Batch Norm，再使用ReLU函数处理。Batch Norm的作用是对数据做归一化,可以加快训练速度，并且能对数据做去相关性，突出它们之间的分布相对差异。做法类似上述S2中的语音数据标准化。ReLU函数的作用就是增加了神经网络各层之间的非线性关系,不存在梯度消失问题(Vanishing Gradient Problem)，使得模型的收敛速度维持在一个稳定状态。

第一层的输出送入第二层的卷积网络；第二层为16个卷积核，大小为11x11的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为该层的输出。

第二层的输出送入第三层的卷积网络；第三层为20个卷积核，大小为9x9的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为该层的输出。

第三层的输出送入第四层的卷积网络；第四层为24个卷积核，大小为7x7的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为该层的输出。

第四层的输出送入第五层的卷积网络；第五层为32个卷积核，大小为7x7的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为该层的输出。

第五层的输出送入第六层的卷积网络；第六层为24个卷积核，大小为7x7的卷积层，输出加一个跳变连接，即这层卷积后的输出加上第四层卷积之后，Batch Norm之前的输出，相加后经过Batch Norm，再使用ReLU函数处理。

第六层的输出送入第七层的卷积网络；第七层为20个卷积核，大小为9x9的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为该层的输出。

第七层的输出送入第八层的卷积网络；第八层为16个卷积核，大小为11x11的卷积层，输出加一个跳变连接，即这层卷积后的输出加上第二层卷积之后，Batch Norm之前的输出，相加后经过Batch Norm，再使用ReLU函数处理。

第八层的输出送入第九层的卷积网络；第九层为12个卷积核，大小为13x13的卷积层，卷积输出经过Batch Norm后，再送入激活函数ReLU，处理后的输出为该层的输出。

第九层的输出送入第十层的卷积网络；第十层为1个卷积核，大小为129x129的卷积层。

最终的输出特征为129x1。

网络里增加的两个跳变连接除了学习本层的输入特征之外，又学习到了其它层的新特征，因而避免了语音丢失现象，同时，可以解决梯度消失问题。

c，训练网络的损失函数选用均方误差(mean square error,MSE)并用Adam算法进行优化。

均方误差的公式如下：

f(x)表示经过网络模型处理的去噪语音，y表示干净的原始语音。

Adam的参数设为如下：

学习率lr＝0.0015

beta1＝0.9,

beta2＝0.999,

epsilon＝1e-8

具体地，所述S5中语音增强,具体过程为：

a,含噪语音重复上述S2，S3,S4步骤，得到全卷积网络的输出结果。

b,全卷积网络的输出经过波形重构，即为语音增强后的结果。波形重构见图一的波形重构部分。

如图3所示，本发明实施例的波形重构的具体步骤如下：

将全卷积网络的输出结果，先经过指数函数Exp处理，得到1帧去噪语音频谱的模值，去噪语音频谱的相位角取特征提取的原始角度，进行傅里叶反变换(IFFT)，将频域数据映射到时域，最后通过重叠相加法恢复语音。

以上过程表示为：

其中,

表示全卷积模型输出的第i帧数据，

表示第i帧的数据的频谱幅度，

表示第i帧的数据的角度，

表示第i帧数据的时域，x(n)表示经过语音增强后得到的语音。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于全卷积神经网络的实时语音增强方法，其特征在于，包括：

对所述标准化的语音数据进行特征提取；

根据提取到的特征进行模型训练，得到目标网络模型；

2.根据权利要求1所述的一种基于全卷积神经网络的实时语音增强方法，其特征在于，所述获取带噪音语音数据和无噪音语音数据，构建训练集和测试集，包括：

3.根据权利要求2所述的一种基于全卷积神经网络的实时语音增强方法，其特征在于，所述对所述训练集和所述测试集进行数据标准化处理，得到标准化的语音数据，包括：

将所述含噪语音数据集使用8k采样率进行重采样处理；

4.根据权利要求1所述的一种基于全卷积神经网络的实时语音增强方法，其特征在于，所述对所述标准化的语音数据进行特征提取，包括：

5.根据权利要求1所述的一种基于全卷积神经网络的实时语音增强方法，其特征在于，所述根据提取到的特征进行模型训练，得到目标网络模型，包括：

其中，卷积训练过程中的损失函数采用均方误差。

6.根据权利要求5所述的一种基于全卷积神经网络的实时语音增强方法，其特征在于，所述10层卷积层的网络结构的训练过程中，

第五层的输出送入第六层的卷积网络；第六层为24个卷积核，大小为7x7的卷积层，输出加一个跳变连接，具体地：由第六层卷积后的输出加上第四层卷积之后，Batch Norm之前的输出，相加后经过Batch Norm，再使用ReLU函数处理，处理后的输出为第六层的输出；

第七层的输出送入第八层的卷积网络；第八层为16个卷积核，大小为11x11的卷积层，输出加一个跳变连接，具体地：由第八层卷积后的输出加上第二层卷积之后，Batch Norm之前的输出，相加后经过Batch Norm，再使用ReLU函数处理，处理后的输出为第八层的输出；

7.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。