CN116030793B

CN116030793B - 方言识别系统及其训练方法

Info

Publication number: CN116030793B
Application number: CN202310326168.0A
Authority: CN
Inventors: 周若华; 罗启宝; 于秋雨; 胡辰磊; 虞秋辰; 杜雨轩
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-16
Anticipated expiration: 2043-03-30
Also published as: CN116030793A

Abstract

本发明涉及一种方言识别系统及其训练方法，包括：特征提取模块，用于从方言音频中提取用于方言识别的通道特征，所述特征提取模块包括具有多核膨胀通道结构的构建模块；所述多核膨胀通道结构包括多个卷积核不同的卷积过滤器，用于提取方言音频不同尺度的通道特征；特征聚合模块，用于聚合所述特征提取模块提取的方言音频的不同尺度的通道特征，获取聚合特征；分类模块，用于通过所述特征聚合模块获取的所述聚合特征识别方言，并输出分类结果。本发明中多层构建模块中包括多个多核膨胀通道结构，每一个多核膨胀通道结构包括用于提取不同尺度的通道特征的多个卷积过滤器，通过层层通道特征提取，形成更大的更灵活的感受野，提高方言识别的精确性。

Description

方言识别系统及其训练方法

技术领域

本发明涉及一种时延神经网络，具体涉及一种方言识别系统及其训练方法。

背景技术

方言识别是指从说话人的语句中识别说话人所说的方言的类别，近年来，对口音和方言识别越来越受到语音研究者的关注。同一种语言的不同方言一般属于同一个语系，所以方言识别也可以认为是语种识别的一种特殊情况。但是，方言识别通常比语种识别更困难，这是因为相似的方言往往共享相似的特征空间。方言识别精度的高低对训练特定方言的自动语音识别、机器翻译和语音合成等声学模型有极大的影响。因此，发展方言识别的技术是语音交互智能时代必不可少的。

时延神经网络能够一次考虑多帧的信息，适合应用于语音任务并且在方言识别任务上得到了广泛的应用，现有技术中存在一种能够同时关注时间维度与通道维度的的说话人嵌入提取器（ECAPA-TDNN），在原有的x-vector架构基础上进一步强调了通道注意、传播以及聚集的问题，使得能够在少量参数的情况下提高识别性能。

但ECAPA-TDNN结构的设置更多服务于对说话人的识别，结构中没有下采样的操作，使得感受野偏小，而方言识别需受益于更大的感受野；同时ECAPA-TDNN结构网络卷积核只有一个并且固定，对上下文信息的提取不够灵活，ECAPA-TDNN提取的信息维度有限、提取不够灵活，方言识别的准确率不足。

发明内容

本发明旨在至少解决现有技术中存在的问题之一。为此，本发明提出一种方言识别系统及其训练方法，能够扩大感受野的同时，获取更多方言在多个尺度下的特征，提升方言的识别准确率和效率。

根据本发明实施例的一种方言识别系统，包括：特征提取模块，用于从方言音频中提取用于方言识别的通道特征，所述特征提取模块包括具有多核膨胀通道结构的构建模块；所述多核膨胀通道结构包括多个卷积核不同的卷积过滤器，用于提取方言音频不同尺度的通道特征；特征聚合模块，用于聚合所述特征提取模块提取的方言音频的不同尺度的通道特征，获取聚合特征；分类模块，用于通过所述特征聚合模块获取的所述聚合特征识别方言，并输出分类结果。

在一些实施例中，所述多核膨胀通道结构还包括：一维挤压激励器，用于获取所述通道特征的通道权重值；拼接器，用于将所述通道权重值与对应的所述通道特征相乘拼接，输出带有权重的特征图。

进一步地，多个所述卷积过滤器并联，所述卷积过滤器的输入端作为所述多核膨胀通道结构的输入端；所述卷积过滤器的输出端与所述一维挤压激励器的输入端一一对应连接，用于传输所述通道特征，同时所述卷积过滤器的输出端与所述拼接器输入端连接，用于向所述拼接器提供所述通道特征；所述一维挤压激励器的输出端与所述拼接器的输入端连接，用于向所述拼接器提供所述通道权重值。

在一些实施例中，所述多核膨胀通道结构还包括：校准器，用于校准各个所述卷积过滤器的输出信号的权重值。

在一些实施例中，所述构建模块中包括多个所述多核膨胀通道结构，所述多核膨胀通道结构通过分层的类残差方式连接，获取多个输出特征。

进一步地，所述特征提取模块中还包括：挤压激励器，用于获取所述多核膨胀通道结构的输出特征的特征权重值；拼接器，用于将所述多核膨胀通道结构的输出特征的特征权重值与所述多核膨胀通道结构的输出特征相乘拼接。

在一些实施例中，所述特征提取模块包括初步特征提取模块以及由多个构建模块构成的细节特征提取单元，所述初步特征提取模块的输出端与所述细节特征提取单元的输入端连接；所述多个构建模块均与所述特征聚合模块连接，同时，多个所述构建模块依次连接；所述特征聚合模块与所述分类模块连接。

本发明实施例还提供一种方言识别系统的训练方法，包括：构建第一训练数据集和第二训练数据集，其中，对方言音频进行数据增强以构建所述第一训练数据集，根据方言类型从所述第一训练数据集中选择部分数据以构建所述第二训练数据集；基于所述第一训练数据集和所述第二训练数据集训练所述方言识别系统。

在一些实施例中，所述对方言音频进行数据增强以构建所述第一训练数据集，包括：对所述方言音频进行速度扰动；根据方言类型获取各个方言类型对应的方言音频数量，若方言音频数量小于第一阈值，将方言类型确定为待调整类型，对待调整类型的方言音频做增强处理，以构建所述第一训练数据集；其中，所述增强处理至少包括混响增强。

所述根据方言类型从所述第一训练数据集中选择部分数据以构建所述第二训练数据集，包括：从所述第一训练数据集中的每种所述方言类型的方言音频中，选取相同数量的方言音频构建所述第二训练数据集。

在一些实施例中，对所述方言识别系统的识别评分进行归一化处理。

进一步地，所述归一化处理采用标准分数进行实现。

在一些实施例中，所述训练方法用于训练方言识别系统。

可以理解的，现有技术中，方言识别结构中没有下采样的操作，使得感受野偏小，而方言识别受益于更大的感受野。同时ECAPA-TDNN结构网络卷积核只有一个并且固定，对上下文信息的提取不够灵活，存在改进空间。

如图2所示，本发明中的构建模块包括多个多核膨胀通道结构，每个多核膨胀通道结构包括用于提取不同尺度的通道特征的多个卷积过滤器，每个卷积过滤器之间设置的卷积核大小不同，以适于提取不同尺度的通道特征。

多层构建模块中包括多个多核膨胀通道结构，每一个多核膨胀通道结构包括用于提取不同尺度的通道特征的多个卷积过滤器，因每个卷积过滤器的卷积核的大小不同，能够获取方言语音中更多尺寸的信息，也即对方言信息的提取更为丰富和灵活；同时多尺度卷积可以获得多个不同尺寸大小的感受野，不仅可以提取多尺度的特征，还可以增加卷积运算的接受域范围，使得对方言的识别与分类更为准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种方言识别系统结构示意图；

图2为本发明实施例提供的一种构建模块结构示意图；

图3为本发明实施例提供的一种多核膨胀通道结构示意图；

图4为本发明实施例提供的一种实验中不同数据使用方式的性能示意图；

图5为本发明实施例提供的一种实验中不同系统的性能示意图。

具体实施方式

此说明书实施方式的描述应与相应的附图相结合，附图应作为完整的说明书的一部分。在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中各结构的部分将以分别描述进行说明，值得注意的是，图中未示出或未通过文字进行说明的元件，为所属技术领域中的普通技术人员所知的形式。

此处实施例的描述，有关方向和方位的任何参考，均仅是为了便于描述，而不能理解为对本发明保护范围的任何限制。以下对于优选实施方式的说明会涉及到特征的组合，这些特征可能独立存在或者组合存在，本发明并不特别地限定于优选的实施方式。本发明的范围由权利要求书所界定。

本实施例提供根据本发明实施例的方言识别系统，包括：特征提取模块，用于从方言音频中提取用于方言识别的通道特征，特征提取模块包括具有多核膨胀通道结构的构建模块；多核膨胀通道结构包括多个卷积核不同的卷积过滤器，用于提取方言音频不同尺度的通道特征；特征聚合模块，用于聚合特征提取模块提取的方言音频的不同尺度的通道特征，获取聚合特征；分类模块，用于通过特征聚合模块获取的聚合特征识别方言，并输出分类结果。

作为一种可选的实施例，方言识别系统用于识别阿拉伯方言，阿拉伯语方言识别(arabic dialect identification, ADI)是最新的第五届多流派广播挑战 (multi-genrebroadcast 5, MGB-5)中的任务，其任务内容是从 YouTube 收集的17种阿拉伯语方言音频中识别音频类别。阿拉伯方言属于同一个语系下的不同方言，所以这与其他易于理解方言识别相比，其更加难区分，更具有挑战性。

特征提取模块用于提取方言语音中的通道特征，并将通道特征传输至特征聚合模块。

构建模块包括多核膨胀通道结构，多核膨胀通道结构包括用于提取不同尺度的通道特征的多个卷积过滤器，每个卷积过滤器之间设置的卷积核大小不同，在一些实施例中各个卷积过滤器的卷积核大小为从1开始的差为2的等差数列。

特征聚合模块包括一层卷积单元以及修正线性单元，用于对特征聚合模块中的多层通道特征进行聚合；还包括注意力池化单元与数据归一化单元，用于获取每个通道注意力的统计量、加权均值向量以及加权标准差向量，并通过将加权均值向量以及加权标准差向量连接并输出至分类模块。

分类模块包括归一化指数函数单元以及全连层分类器，通过归一化指数函数单元接收并处理特征聚合模块传输的数据，并将处理结果传输至全连层分类器进行分类，完成对方言的识别与分类。

可以理解的，现有技术中，方言识别结构中没有下采样的操作，使得感受野偏小，而方言识别受益于更大的感受野。同时ECAPA-TDNN结构网络卷积核只有一个并且固定，对上下文信息的提取不够灵活，ECAPA-TDNN提取的信息维度有限、提取不够灵活，方言识别的准确率不足。

具体地，如图1所示，方言数据在输入至方言识别系统时，先通过由一维卷积单元、修正线性单元以及数据归一化单元组成的初步提取模块，处理得到通道特征图，再将通道特征图传输至由多层构建模块，多层构建模块通过多层次输入的方式连接，多层构建模块将通道特征图处理成数量与构建模块相同的多层通道特征。通过将每层构建模块与特征聚合模块连接，将多层通道特征全部传输至特征聚合模块进行聚合处理，最后经由分类模块进行方言识别并分类。

其中，如图2所示，构建模块包括多个多核膨胀通道结构，每个多核膨胀通道结构包括用于提取不同尺度的通道特征的多个卷积过滤器，每个卷积过滤器之间设置的卷积核大小不同，以适于提取不同尺度的通道特征。

综上，多层构建模块中包括多个多核膨胀通道结构，每一个多核膨胀通道结构包括用于提取不同尺度的通道特征的多个卷积过滤器，因每个卷积过滤器的卷积核的大小不同，能够获取方言语音中更多尺寸的信息，也即对方言信息的提取更为丰富和灵活；同时多尺度卷积可以获得多个不同尺寸大小的感受野，不仅可以提取多尺度的特征，还可以增加卷积运算的接受域范围，多尺度通道注意力对提取的多尺度通道特征的权重进行重新的校正，对更细粒的通道相互依赖进行建模，强化关键方言识别特征，使得对方言的识别与分类更为准确。

在一些实施例中，多核膨胀通道结构还包括：一维挤压激励器，用于获取通道特征的通道权重值；拼接器，用于将通道权重值与对应的通道特征相乘拼接，输出带有权重的特征图。

通过一维挤压激励器获得每个通道特征的重要性，也即通道权重值，并由拼接器将每个通道特征与通道权重值拼接。其中权重值为通过一维挤压激励器通过挤压操作激励操作形成；挤压操作为将通道的时间维度的值压缩为一个实数；激励操作为将挤压操作获得的实数通过激活函数归一化为一组0-1的实数，这组0-1的实数对应了每个通道特征的重要程度，也即通道权重值。

可以理解的，可以在进行激励操作前，对实数进行先降维后升维，通过降维操作减少计算量。

进一步地，如图3所示，多个卷积过滤器并联，卷积过滤器的输入端作为多核膨胀通道结构的输入端；卷积过滤器的输出端与一维挤压激励器的输入端一一对应连接，用于传输通道特征，同时卷积过滤器的输出端与拼接器输入端连接，用于向拼接器提供通道特征；一维挤压激励器的输出端与拼接器的输入端连接，用于向拼接器提供通道权重值。

在一些实施例中，多核膨胀通道结构还包括：校准器，用于校准卷积过滤器的输出信号的权重值。

可以采用归一化指数函数单元作为校准器，将不同尺寸卷积的通道注意力向量重新校准，获得多尺度通道的重新校准权重。

在一些实施例中，构建模块中包括多个多核膨胀通道结构，多核膨胀通道结构通过分层的类残差方式连接，获取多个输出特征。

具体的，通过一维卷积对输入输出通道进行设置，并将通道特征划分为s组，每组由X_i(1 ≤i ≤ s)表示。每组特征图的通道数是输入特征图通道数的 1/s。除X₁外，每个特征图通过一个多核膨胀通道结构，用C_i（）表示多核膨胀操作，通过多核膨胀操作扩展通道特征的时间上下文；除X₁ 和X₁外，将第i组的特征图X_i添加到前一组的C_i-1（）的输出中，并对相加结果进行运算C_i（），并将运算结果Y_i输出。

进一步地，特征提取模块中还包括：挤压激励器，用于获取多核膨胀通道结构的输出特征的特征权重值；拼接器，用于将多核膨胀通道结构的输出特征的特征权重值与多核膨胀通道结构的输出特征相乘拼接。

通过一维卷积以及挤压激励器获得每个输出特征的重要性，也即特征权重值，并由拼接器将每个输出特征与特征权重值拼接。其中特征权重值为通过挤压激励器的挤压操作激励操作形成；挤压操作为将通道的时间维度的值压缩为一个实数；激励操作为将挤压操作获得的实数通过激活函数归一化为一组0-1的实数，这组0-1的实数对应了每个输出特征的重要程度，也即特征权重值。

在一些实施例中，特征提取模块包括初步特征提取模块以及由多个构建模块构成的细节特征提取单元，初步特征提取模块的输出端与细节特征提取单元的输入端连接；多个构建模块均与特征聚合模块连接，同时，多个构建模块依次连接；特征聚合模块与分类模块连接。

特征提取模块包括初步特征提取模块，初步特征提取模块由一维卷积单元、修正线性单元以及数据归一化单元组成，用于输出通道特征图。

构建模块接收到通道特征图，并提取通道特征图的深层次特征，其中，构建模块设置有多层，多层的构建模块采用多层次输入的方式，对通道特征图进行特征提取形成通道特征，多层次输入为下一个构建模块的输入包含了前面构建模块是所有通道特征的输出。上一层的构建模块的输出端分别与特征聚合模块的输入端以及下一层构建模块的输入端相连，每个构建模块均与特征聚合模块连接，同时，多个构建模块依次连接。也即通道特征图在经过多层的构建模块时，在除最后一层的构建模块外，在每层构建模块都有通向下一层构建模块或者通向特征聚合模块的两种输送路线，以此提取语音中深层次的特征，输出的深层次特征数量与构建模块的层数相等。

例如在特征提取模块拥有三层构建模块时，第一层构建模块的输入端接收到初步特征提取模块输出的通道特征图，在提取深层次特征后输出一层通道特征，并将一层通道特征传输至第二层构建模块以及特征聚合模块中；第二层构建模块将接收到的一层通道特征进行提取，输出二层通道特征，并将二层通道特征传输至第三层构建模块以及特征聚合模块中；第三层构建模块将接收到的二层通道特征进行提取，输出三层通道特征，并将三层通道特征传输至特征聚合模块中。此时特征聚合模块中包括：一层通道特征、二层通道特征以及三层通道特征。

本发明实施例还提供一种方言识别系统的训练方法，包括：构建第一训练数据集和第二训练数据集，其中，对方言音频进行数据增强以构建第一训练数据集，根据方言类型从第一训练数据集中选择部分数据以构建第二训练数据集；基于第一训练数据集和第二训练数据集训练方言识别系统。

具体地，本发明依次采用第一训练数据集以及第二训练数据集对方言识别系统进行训练。也即先通过输入第一训练数据集对方言识别系统进行训练，并将完成了训练后的模型投入到第二次训练的使用中；第二次训练采用通过输入第二训练数据集对方言识别系统进行训练。通过两次不同的训练数据集进行训练微调，用于纠正模型通过第一训练数据集训练时，因为不同方言的数据量不同而造成不公平性。提高方言识别系统对方言识别并分类的准确性。

在一些实施例中，对方言音频进行数据增强以构建第一训练数据集，包括：对方言音频进行速度扰动；根据方言类型获取各个方言类型对应的方言音频数量，若方言音频数量小于第一阈值，将方言类型确定为待调整类型，对待调整类型的方言音频做增强处理，以构建第一训练数据集；其中，增强处理至少包括混响增强。

通过进行速度扰动，也即对数据集中的语音进行一定系数上的加速或者减速，增加了方言音频数量，扩充了方言的数据集。

对数据集的速度扰动通常采用开源的SoX，以固定系数对数据集进行速度扰动，系数例如可以为0.9、1.0以及1.1，也即分别对数据集的速度调为原始的0.9、1.0以及1.1倍。

可以理解的，因为方言的分布和使用率的不同，收集到的数据集中，不同种类的方言的音频时间也存在着差异，使用率高的方言的时长较长，而使用率低的方言的时长较短，使得对方言识别系统的训练会因方言时长的不同而造成训练结果不平衡。具体地可能会出现使用率高的方言识别准确率高于使用率低的方言。为了消除因方言长短不一造成的训练数据以及结果的不平衡问题，本发明提出构建第一方言训练数据集的处理方式，通过设定第一阈值，将方言音频数量小于第一阈值的方言类型确定为待调整类型，并对所有待调整类型进行增强处理。也即将方言音频数量较少的方言类型单独提出进行增强。

增强处理还可以包括对数据集内的方言音频进行混响增强。

进一步地，根据方言类型从第一训练数据集中选择部分数据以构建第二训练数据集，包括：从第一训练数据集中的每种方言类型的方言音频中，选取相同数量的方言音频构建第二训练数据集。

从每种方言选取相同数量的语音片段输入方言识别系统进行训练，使得每种方言的训练量相同，减少训练数据不平衡的问题。

在一些实施例中，对方言识别系统的识别评分进行归一化处理。

对方言识别系统的识别评分进行归一化处理能够消除不同方言的得分分布差异，提升融合性能。可以理解的，不同的方言之间的得分分布存在差异，而相同的方言也会因为语义内容不同、收集该方言片段时所处的噪声环境不同等原因造成得分存在较大的差异，而对识别评分进行归一化处理能消除得分差异的影响。

进一步地，归一化处理采用标准分数进行实现。

标准分数为一个求取实测值与均值的差后再除以标准差的过程。通过在每种方言的原始训练集上随机选取了一定数量的语音，并用变速数据训练好的模型对其进行打分，然后求取各个模型的均值和标准差，最后就可以利用它们对评估的数据进行得分规整，消除不同方言的得分分布差异，提升融合性能。

在一些实施例中，该训练方法用于训练方言识别系统。

为了更直观地展示本发明的方言识别并分类的效果，通过下述的实验进行展示。本实验采用总体的准确度以及成本作为指标来评估模型的性能，更清晰地展示了本发明与现有的方言识别系统的效果区别。其中全连层分类器的输出可以直接作为每种方言的分数，从每个测试的方言得分中选取最大的得分来计算出准确度。而成本指标采用了LRENIST 2017中定义的每个目标/非目标对的平均性价比Cavg，Ptarget设为0.5。

本实验采用了阿拉伯语言体系中的17种方言进行识别测试，阿拉伯方言属于同一语系下的不同方言，相较于其他易于理解的方言相比，阿拉伯方言之间更加难以区分，从而更具有挑战性。

在本次实验中，数据集为数据集 ADI17 ，由 MGB5 组织提供。对数据库进行切割时，采用将方言截取为3s的语音片段，并对不满3s的语音片段进行重复补长，获得了12148293段语音片段。在进行平衡数据的训练中，对每种方言的选取20万段3s的语音作为本论文的平衡训练子集。

在本实验中，本申请使用 Kaldi平台从阿拉伯语方言音频中提取 80 维 Fbank特征和3维的pitch特征。特征提取使用 25ms 的帧长和 10ms 的帧移。最后，本申请对提取的83维特征进行倒谱均值和方差归一化（CMVN），以提高系统的鲁棒性。

本申请的模型是使用 pytorch 工具包实现的，选择Adam作为优化器，并将初始学习率设置为 0.001，学习率下降方式采用了余弦退火。本申请还在实验中提出了平衡微调和标准化得分的方法。

如图4所示，经过实验测试，本申请所提的方言识别系统的准确率相比现有技术获得了可观的提升。平衡子集虽然只用了不到全部数据集的1/3,但是整体性能显示仍然具备竞争力。以方言识别系统的测试集分析，使用变速数据进行训练比使用平衡数据相对降低13%的错误率；使用变速数据与平衡数据同时处理比变速数据相对降低7%错误率；融合三种不同数据使用方式的分数，比仅使用变速数据与平衡数据同时处理相对降低9%错误率，其结果显示，三种不同数据使用方式有一定的互补性。本申请还发现，在得分融合前使用标准分数进行得分规整可以消除方言得分分布差异的影响，其中方言识别系统得分归一化后，在测试集准确率为94.57%。

图5概述了官方的基线系统和先进系统以及本申请系统的方言识别性能。从图中各个不同系统中可以看出，不同长度的语音对测试结果有很大的影响，测试语音越长，效果一般越好。本申请还观察到官方使用Kaldi工具包为说话人提供的i-vector和x-vector系统，在方言识别上表现比较差。官方最好的系统是使用激活函数归一化层输出作为每个方言的后验概率的端到端模型，其测试集准确率达82%。DKU系统的性能是目前最好的，在测试集上准确度为93.8%。而本申请针对现有技术对方言识别任务的不足，提出方言识别系统模型的性能展示了更强大的竞争力。根据图中的对比实验，方言识别系统与目前最好系统相比，在测试集上相对改善了12%的错误率；与现有技术相比，在测试集上相对改善了17%错误率，相对改善了34%平均性价比。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种方言识别系统，其特征在于，包括：

特征提取模块，用于从方言音频中提取用于方言识别的通道特征，所述特征提取模块包括具有多核膨胀通道结构的构建模块；所述多核膨胀通道结构包括多个卷积核不同的卷积过滤器，用于提取方言音频不同尺度的通道特征；所述多核膨胀通道结构还包括：一维挤压激励器，用于获取所述不同尺度的通道特征的通道权重值；拼接器，用于将所述通道权重值与对应的所述不同尺度的通道特征相乘拼接，输出带有权重的特征图；多个所述卷积过滤器并联，所述卷积过滤器的输入端作为所述多核膨胀通道结构的输入端；所述卷积过滤器的输出端与所述一维挤压激励器的输入端一一对应连接，用于传输所述通道特征，同时所述卷积过滤器的输出端与所述拼接器输入端连接，用于向所述拼接器提供所述通道特征；所述一维挤压激励器的输出端与所述拼接器的输入端连接，用于向所述拼接器提供所述通道权重值；

所述构建模块中包括多个所述多核膨胀通道结构，所述多核膨胀通道结构通过分层的类残差方式连接，获取多个输出特征；

特征聚合模块，用于聚合所述特征提取模块提取的方言音频的不同尺度的通道特征，获取聚合特征；

分类模块，用于通过所述特征聚合模块获取的所述聚合特征识别方言，并输出分类结果。

2.根据权利要求1所述的方言识别系统，其特征在于，所述多核膨胀通道结构还包括：校准器，用于校准各个所述卷积过滤器的输出信号的权重值。

3.根据权利要求1所述的方言识别系统，其特征在于，所述特征提取模块包括初步特征提取模块以及由多个构建模块构成的细节特征提取单元，所述初步特征提取模块的输出端与所述细节特征提取单元的输入端连接；所述多个构建模块均与所述特征聚合模块连接，同时，多个所述构建模块依次连接；

所述特征聚合模块与所述分类模块连接。

4.一种方言识别系统的训练方法，其特征在于，包括：

构建第一训练数据集和第二训练数据集，其中，对方言音频进行数据增强以构建所述第一训练数据集，根据方言类型从所述第一训练数据集中选择部分数据以构建所述第二训练数据集；

所述对方言音频进行数据增强以构建所述第一训练数据集，包括：

对所述方言音频进行速度扰动；

根据方言类型获取各个方言类型对应的方言音频数量，若方言音频数量小于第一阈值，将方言类型确定为待调整类型，对待调整类型的方言音频做增强处理，以构建所述第一训练数据集；其中，所述增强处理至少包括混响增强；

所述根据方言类型从所述第一训练数据集中选择部分数据以构建所述第二训练数据集，包括：

从所述第一训练数据集中的每种所述方言类型的方言音频中，选取相同数量的方言音频构建所述第二训练数据集；

基于所述第一训练数据集和所述第二训练数据集训练所述方言识别系统。

5.根据权利要求4所述的方言识别系统的训练方法，其特征在于，对所述方言识别系统的识别评分进行归一化处理。

6.根据权利要求4所述的方言识别系统的训练方法，其特征在于，所述训练方法用于训练如权利要求1-3中任一项所述的方言识别系统。