CN112885330A

CN112885330A - 一种基于低资源音频的语种识别方法及系统

Info

Publication number: CN112885330A
Application number: CN202110105497.3A
Authority: CN
Inventors: 王旭东; 陈振标; 杜晓祥
Original assignee: Beijing Yunshang Technology Co ltd
Current assignee: Beijing Yunshang Technology Co ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-06-01

Abstract

本申请实施例公开了一种基于低资源音频的语种识别方法及系统，通过对获取的原始训练数据根据类别进行分类，得到N组原始训练数据，针对每一组原始训练数据进行数据增强处理，得到增强后的训练数据；对增强后的训练数据进行静音检测，以过滤静音；对有效帧数据提取特征；将提取出的特征输入N个语种分类模块进行训练；对测试数据进行静音检测，以过滤静音；对有效帧测试数据提取与训练数据相同的特征；将提取出的特征输入N个训练好的语种分类模型，得到N个预测结果；将N个预测结果整合为目标预测结果。结合数据增强和模型融合方法，提高了语种识别准确率。

Description

一种基于低资源音频的语种识别方法及系统

技术领域

本申请实施例涉及深度学习技术领域，具体涉及一种基于低资源音频的语种识别方法及系统。

背景技术

在语音识别、声纹识别、机器翻译等任务中，可以将语种识别作为预处理模块，从而提高任务识别准确率，因此语种识别在音频相关任务中占有重要的地位。

大数据量情况下的语种识别可以取得性能较优结果，但是实际业务场景中往往出现低资源、分布不均训练数据，短音频、高混淆测试数据，这种真实使用场景的语种识别通常达不到令人满意的效果。小数据量训练数据无法覆盖所有真实数据，也无法拟合真实数据的分布情况，同时短音频测试数据包含信息量少，增大了识别的难度。

发明内容

为此，针对现有技术上的缺陷，克服真实语种识别场景面临的低资源训练数据的困难，提出了一种基于低资源音频的语种识别方法及系统，结合数据增强和模型融合方法，提高了整套系统的识别准确率。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供了一种基于低资源音频的语种识别方法，所述方法：

对获取的原始训练数据根据类别进行分类，得到N组原始训练数据，N为大于等于一的整数；

针对每一组原始训练数据进行数据增强处理，得到增强后的训练数据；

对增强后的训练数据进行静音检测，以过滤静音；

对有效帧数据提取特征；

将提取出的特征输入N个语种分类模块进行训练；

对测试数据进行静音检测，以过滤静音；

对有效帧测试数据提取与训练数据相同的特征；

将提取出的特征输入N个训练好的语种分类模型，得到N个预测结果；若N大于2，将N个预测结果整合为目标预测结果。

可选地，所述针对每一组原始训练数据进行数据增强处理，包括：对每一组所述原始训练数据进行变速处理和调幅处理。

可选地，所述静音检测采用NN_VAD方法，其中训练数据是基于语音识别模型对齐得到的帧级别标注信息，采用4层tdnn结构训练人声和静音分类模型；特征提取采用80维fbank+3维pitch的组合方法。

可选地，所述语种分类模型采用8层tdnn结构，其中，前6层为帧级别计算，后2层为段级别计算，经过softmax输出得到预测的N个类别结果。

根据本申请实施例的第二方面，提供了一种基于低资源音频的语种识别系统，所述系统包括：

基础处理模块，用于对获取的原始训练数据根据类别进行分类，得到N组原始训练数据，N为大于等于一的整数；

训练数据增强模块，用于针对每一组原始训练数据进行数据增强处理，得到增强后的训练数据；

训练静音检测模块，用于对增强后的训练数据进行静音检测，以过滤静音；

训练特征提取模块，用于对有效帧数据提取特征；

训练模块，用于将提取出的特征输入N个语种分类模块进行训练；

测试静音检测模块，用于对测试数据进行静音检测，以过滤静音；

测试特征提取模块，用于对有效帧测试数据提取与训练数据相同的特征，将提取出的特征输入N个训练好的语种分类模型，得到N个预测结果；若N大于2，将N个预测结果整合为目标预测结果。

可选地，所述训练数据增强模块具体用于：对每一组所述原始训练数据进行变速处理和调幅处理。

根据本申请实施例的第三方面，提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行第一方面任一项所述的方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如第一方面任一项所述的方法。

综上所述，本申请实施例提供了一种基于低资源音频的语种识别方法及系统，通过对获取的原始训练数据根据类别进行分类，得到N组原始训练数据，针对每一组原始训练数据进行数据增强处理，得到增强后的训练数据；对增强后的训练数据进行静音检测，以过滤静音；对有效帧数据提取特征；将提取出的特征输入N个语种分类模块进行训练；对测试数据进行静音检测，以过滤静音；对有效帧测试数据提取与训练数据相同的特征；将提取出的特征输入N个训练好的语种分类模型，得到N个预测结果；若N大于2，将N个预测结果整合为目标预测结果。结合数据增强和模型融合方法，提高了语种识别准确率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的一种基于低资源音频的语种识别方法流程示意图；

图2为本申请实施例提供的针对低资源音频语种识别提出的系统流程图；

图3为本申请实施例提供的数据处理模块框图；

图4为本申请实施例提供的一种基于低资源音频的语种识别系统框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语种识别特指自动识别输入语音信号的语言种类的技术，在实际的应用中有不可替代的作用。语种识别可以作为语音识别、说话人识别、机器翻译等任务的前端处理模块，为以上任务的性能提升提供有效帮助。

语种识别属于人工智能领域模式识别的一项技术，主要包括数据处理、模型训练和模型判决三部分。

低资源音频的语种识别是指在实际的应用场景中，用于模型训练的数据量小，且存在各个类别分布不均衡的情况，同时测试数据有效音频时长短、各个类别相似度高。采用常规的语种识别方法在这样的实际应用场景中无法实现令人满意的性能，因此在模型训练和测试中需要进行调整，从而提高模型的判别能力。

本申请实施例提出的一种基于低资源音频的语种识别方法，如图1所示，所述方法包括如下步骤：

步骤101：对获取的原始训练数据根据类别进行分类，得到N组原始训练数据，N为大于等于一的整数。

步骤102：针对每一组原始训练数据进行数据增强处理，得到增强后的训练数据。

步骤103：对增强后的训练数据进行静音检测，以过滤静音。

步骤104：对有效帧数据提取特征。

步骤105：将提取出的特征输入N个语种分类模块进行训练。

步骤106：对测试数据进行静音检测，以过滤静音。

步骤107：对有效帧测试数据提取与训练数据相同的特征。

步骤108：将提取出的特征输入N个训练好的语种分类模型，得到N个预测结果；若N大于2，将N个预测结果整合为目标预测结果。

在一种可能的实施方式中，在步骤102中，所述针对每一组原始训练数据进行数据增强处理，包括：对每一组所述原始训练数据进行变速处理和调幅处理。

在一种可能的实施方式中，所述静音检测采用NN_VAD方法，其中训练数据是基于语音识别模型对齐得到的帧级别标注信息，采用4层tdnn结构训练人声和静音分类模型；特征提取采用80维fbank+3维pitch的组合方法。

在一种可能的实施方式中，所述语种分类模型采用8层tdnn结构，其中，前6层为帧级别计算，后2层为段级别计算，经过softmax输出得到预测的N个类别结果。

本申请实施例涉及的系统包括数据增强模块、VAD模块、特征提取模块和语种识别模块；数据增强模块通过变速、调幅方法对原始训练数据进行扰动，扩充得到更多的训练数据；再通过基于NN的VAD方法去除静音，得到只有人声的有效语音片段；然后通过特征提取模块得到fbank特征，最后送到语种识别模块用于判断对应的预测语种。本发明能够在低资源的实际应用场景中实现高识别准确率。

系统主要分为训练和测试两个阶段。如图2所示，训练阶段的步骤包括：首先对训练数据进行数据增强处理，然后送出数据处理模块，进而送入分类模型进行训练。测试阶段的步骤包括：将测试数据送入数据处理模块，然后送入训练好的模型进行预测打分，最后进行综合判断得到最终预测结果。

训练步骤具体包括：考虑到模型训练数据稀缺问题，首先在时域进行变速和调幅两种数据增强处理，其中变速幅度分别设置为0.8、0.9、1.1和1.2倍，从而增加4倍训练数据；调幅幅度给定0.125～2倍范围随机选取，每句话从中随机选取一个调整倍数，从而增加1倍训练数据。只对原始训练数据进行数据增强处理，因而扩充得到6倍训练数据。通过这两种数据增强方法，训练数据扩充为原始数据的6倍，缓解了训练数据不足的问题。

为了保证各个类别训练数据均衡，对每个类别随机挑选等量的训练数据；同时为了充分利用所有训练数据，对原始数据随机挑选五份等量的训练数据，用来分别训练五个分类模型；静音检测采用NN_VAD的方法，训练数据基于语音识别模型强制对齐得到的帧级别标注信息，采用4层tdnn结构训练人声和静音分类模型。经检测，在噪声环境下，基于NN的vad方法性能优于基于能量的vad方法。特征提取采用80维fbank+3维pitch的组合方法。语种分类模型采用8层tdnn结构，其中前6层为帧级别计算，后2层为段级别计算，最后经过softmax输出得到预测的各个类别结果。训练过程中采用spec augment的方法，进一步扩充数据。

数据处理模块，具体来讲包括端点检测、特征提取两部分，如图3所示。其中端点检测采用基于NN的方法，即依赖语音识别模型，将大批量语音识别训练数据进行强制对齐处理，从而得到帧级别的训练数据，作为NN_VAD的非人声与人声二分类训练数据，二分类模型在本申请实施例采用TDNN模型结构，可以用其他NN结构替换。模型训练完成，送入原始wav数据，即可得到有效音频段数据。

识别过程先将测试数据送入NN_VAD模型进行静音检测；然后将有效音频帧送入特征提取模块提取80维fbank+3维pitch特征；接着将特征分别送入五个训练好的模型进行预测，得到五个预测结果；最后将五个结果进行融合，得到最终预测结果。

综上所述，在数据处理方面，本申请实施例分别在时域和频域采用不同的数据增强方法，有效缓解了实际任务中训练数据稀缺的问题；采用基于NN的vad方法，解决了噪声环境下静音检测不准确的问题；采用的特征类型和模型结构，提高了各类别数据的识别准确率；最终使用五个模型结果融合的方法，进一步提升了模型识别性能。总之，搭建的语种识别系统在稀缺资源下同样能达到较高性能，解决了现有通用技术下的识别问题。

经测试，基于NN的VAD方法在噪声环境下性能远优于基于能量的VAD方法。特征提取又包括fbank和pitch两部分，其中fbank包含了音频频谱特征之间的相关性信息，在使用深度神经网络训练时更有助于找到不同类别数据的差异；pitch特征包含了说话人的基频特征，在进行语种分类时可以作为有效的补充特征。本申请实施例采用了80维fbank特征加3维pitch特征的组合方式。

为了解决各类别训练数据分布不均衡的问题，在经过数据处理模块后进行了采样处理。具体地，首先找到训练数据分布最少的类别，然后其他几类分别随机采样等量的训练数据，为了充分利用所有的训练数据，随机采样进行5遍，从而得到5份不同的等量训练数据。然后5份训练数据分别训练得到5个不同的模型。为了解决数据量不足问题，在模型训练过程中采用了频域spec augment的方法，进一步扩充了数据。语种分类模型采用了TDNN结构，可以替换为其他的NN结构。

测试步骤具体包括：首先将测试数据送入和训练数据相同的数据处理模块，即先进行NN_VAD处理，然后分别提取fbank特征与pitch特征并组合，进而将特征分别送入五个训练好的分类模型进行预测，得到五个预测结果，最后通过模型融合的方法，将五个结果进行综合判断，得到最终的预测结果。

本申请实施例涉及了信号处理领域、深度学习领域、模式识别领域等。针对语种识别在实际应用场景中经常面临的数据稀缺、易混淆等难题提出的解决方案，有实际的应用效果。

综上所述，本申请实施例提供了一种基于低资源音频的语种识别方法，通过对获取的原始训练数据根据类别进行分类，得到N组原始训练数据，针对每一组原始训练数据进行数据增强处理，得到增强后的训练数据；对增强后的训练数据进行静音检测，以过滤静音；对有效帧数据提取特征；将提取出的特征输入N个语种分类模块进行训练；对测试数据进行静音检测，以过滤静音；对有效帧测试数据提取与训练数据相同的特征；将提取出的特征输入N个训练好的语种分类模型，得到N个预测结果；若N大于2，将N个预测结果整合为目标预测结果。结合数据增强和模型融合方法，提高了语种识别准确率。

基于相同的技术构思，本申请实施例还提供了一种基于低资源音频的语种识别系统，如图4所示，所述系统包括：

基础处理模块401，用于对获取的原始训练数据根据类别进行分类，得到N组原始训练数据，N为大于等于一的整数。

训练数据增强模块402，用于针对每一组原始训练数据进行数据增强处理，得到增强后的训练数据。

训练静音检测模块403，用于对增强后的训练数据进行静音检测，以过滤静音。

训练特征提取模块404，用于对有效帧数据提取特征。

训练模块405，用于将提取出的特征输入N个语种分类模块进行训练。

测试静音检测模块406，用于对测试数据进行静音检测，以过滤静音。

测试特征提取模块407，用于对有效帧测试数据提取与训练数据相同的特征，将提取出的特征输入N个训练好的语种分类模型，得到N个预测结果；若N大于2，将N个预测结果整合为目标预测结果。

在一种可能的实施方式中，所述训练数据增强模块402具体用于：对每一组所述原始训练数据进行变速处理和调幅处理。

基于相同的技术构思，本申请实施例还提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行所述的方法。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行所述的方法。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

需要说明的是，尽管在附图中以特定顺序描述了本发明方法的操作，但这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于低资源音频的语种识别方法，其特征在于，所述方法：

对增强后的训练数据进行静音检测，以过滤静音；

对有效帧数据提取特征；

将提取出的特征输入N个语种分类模块进行训练；

对测试数据进行静音检测，以过滤静音；

对有效帧测试数据提取与训练数据相同的特征；

2.如权利要求1所述的方法，其特征在于，所述针对每一组原始训练数据进行数据增强处理，包括：

对每一组所述原始训练数据进行变速处理和调幅处理。

3.如权利要求1所述的方法，其特征在于，所述静音检测采用NN_VAD方法，其中训练数据是基于语音识别模型对齐得到的帧级别标注信息，采用4层tdnn结构训练人声和静音分类模型；

特征提取采用80维fbank+3维pitch的组合方法。

4.如权利要求1所述的方法，其特征在于，所述语种分类模型采用8层tdnn结构，其中，前6层为帧级别计算，后2层为段级别计算，经过softmax输出得到预测的N个类别结果。

5.一种基于低资源音频的语种识别系统，其特征在于，所述系统包括：

训练特征提取模块，用于对有效帧数据提取特征；

6.如权利要求5所述的系统，其特征在于，所述训练数据增强模块具体用于：

对每一组所述原始训练数据进行变速处理和调幅处理。

7.如权利要求5所述的系统，其特征在于，所述静音检测采用NN_VAD方法，其中训练数据是基于语音识别模型对齐得到的帧级别标注信息，采用4层tdnn结构训练人声和静音分类模型；

特征提取采用80维fbank+3维pitch的组合方法。

8.如权利要求5所述的系统，其特征在于，所述语种分类模型采用8层tdnn结构，其中，前6层为帧级别计算，后2层为段级别计算，经过softmax输出得到预测的N个类别结果。

9.一种设备，其特征在于，所述设备包括：数据采集装置、处理器和存储器；

所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如权利要求1-4任一项所述的方法。