CN112069354A

CN112069354A - 一种音频数据的分类方法、装置、设备和存储介质

Info

Publication number: CN112069354A
Application number: CN202010921482.XA
Authority: CN
Inventors: 熊佳; 谢欲强; 徐志坚
Original assignee: Guangzhou Quwan Network Technology Co Ltd
Current assignee: Guangzhou Quwan Network Technology Co Ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-11

Abstract

本申请公开了一种音频数据的分类方法、装置、设备和存储介质，其中方法包括：响应于音频分类指令，获取待分类音频数据；对待分类音频数据逐帧进行音频检测，得到待分类音频数据中非语音数据所占的百分比；根据百分比与特殊声音类阈值、无效声音类阈值的大小得到待分类音频数据的预分类结果；根据预分类结果对应声音分类的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果，整个分类过程中，首先将待分类音频数据预分类，然后再结合预分类的结果及对应的预设判断条件，纠正预分类结果，提高分类准确性，其中也不需要额外进行训练、标记等的操作，从而解决了现有的音频分类方法，工作量大且准确率不高的技术问题。

Description

一种音频数据的分类方法、装置、设备和存储介质

技术领域

本申请涉及语音分类技术领域，尤其涉及一种音频数据的分类方法、装置、设备和存储介质。

背景技术

在音频类APP中有用户录制音频的场景，尤其是音频社交类的APP，用户希望通过音频认识新朋友，基于音频进行社交。但用户的录音行为不可控，例如新用户仅仅只是想试一试某个功能，在录音的时候并没有说话，此时得到的音频卡片是没有有效信息的“无效”音频卡片，或APP平台中带小噪声、杂音等的特殊音频卡片，用户如果总是听到没有有效信息的音频，会影响产品体验。为了提高用户体验，APP平台需要对音频数据进行筛查，将没有有效信息的音频清除。在筛查的过程中，首先要对音频进行分类。

现有的音频分类方法为：语音活动性检测和深度学习方法。语音活动性检测是利用音频中的音频特征检测语音和非语音实现分类的；基于深度学习方法需要先训练模型，然后通过模型进行分类。语音活动性检测比较简单，且已有现有的模型可以使用，但缺点是检测准确率不高；深度学习方法需要大量的已标定数据，在清洗和标定数据、训练模型、调参等环节工作量都比较大。

因此，提供一种工作量小、准确率高的音频文件分类方法是本领域技术人员亟待解决的技术问题

发明内容

本申请提供了一种音频数据的分类方法、装置、设备和存储介质，解决了现有的音频分类方法，工作量大且准确率不高的技术问题。

有鉴于此，本申请第一方面提供了一种音频数据的分类方法，包括：响应于音频分类指令，获取待分类音频数据；

对所述待分类音频数据逐帧进行音频检测，得到所述待分类音频数据中非语音数据所占的百分比；

根据所述百分比与特殊声音类阈值、无效声音类阈值的大小得到所述待分类音频数据的预分类结果，其中，所述预分类结果的声音分类包括：正常声音类、特殊声音类和无效声音类；

根据所述预分类结果对应声音分类的预设判断条件，对所述待分类音频数据进行分类，得到所述待分类音频数据的分类结果。

可选地，根据所述百分比与特殊声音类阈值、无效声音类阈值的大小得到所述待分类音频数据的预分类结果，具体包括：

比较所述百分比与特殊声音类阈值、无效声音类阈值的大小，得到所述待分类音频数据的比较结果；

根据所述比较结果，基于所述比较结果和预分类结果的对应关系，得到所述比较结果对应的预分类结果。

可选地，所述特殊声音类阈值小于所述无效声音类阈值；

所述对应关系具体包括：

当所述比较结果为所述百分比在所述特殊声音类阈值以下时，所述预分类结果为正常声音类；

当所述比较结果为所述百分比大于所述特殊声音类阈值且小于所述无效声音类阈值时，所述预分类结果为特殊声音类；

当所述比较结果为所述百分比在所述无效声音类阈值以上时，所述预分类结果为无效声音类。

可选地，所述正常声音类对应的预设判断条件包括：

判断所述待分类音频数据的平均RMS值是否小于RMS阈值；

则根据所述正常声音类对应的预设判断条件，对所述待分类音频数据进行分类，得到所述待分类音频数据的分类结果，具体包括：

判断所述待分类音频数据的平均RMS值是否小于RMS阈值，若否，则判定所述待分类音频数据为正常声音类，若是，则判定所述待分类音频数据为特殊声音类。

可选地，所述待分类音频数据的平均RMS值的计算公式为：

式中，N为待分类音频数据中的帧数，X_RMS(j)为待分类音频数据中第j帧音频数据的RMS值，

为待分类音频数据的平均RMS值；

式中，L为第j帧音频数据的波形点数，x_i为第j帧音频数据中的第i个波形点的幅度。

可选地，所述无效声音类对应的预设判断条件包括：

判断所述待分类音频数据中的分段非语音百分比是否大于预置分段百分比阈值；

则根据所述无效声音类对应的预设判断条件，对所述待分类音频数据进行分类，得到所述待分类音频数据的分类结果，具体包括：

判断所述待分类音频数据中的分段非语音百分比是否大于预置分段百分比阈值，若否，则判定所述待分类音频数据为无效声音类，若是，则判定所述待分类音频数据为特殊声音类。

本申请第二方面提供了一种音频数据的分类装置，包括：

获取单元，用于响应于音频分类指令，获取待分类音频数据；

检测单元，用于对所述待分类音频数据逐帧进行音频检测，得到所述待分类音频数据中非语音数据所占的百分比；

预分类单元，用于根据所述百分比与特殊声音类阈值、无效声音类阈值的大小得到所述待分类音频数据的预分类结果，其中，所述预分类结果的声音分类包括：正常声音类、特殊声音类和无效声音类；

分类单元，用于根据所述预分类结果对应声音分类的预设判断条件，对所述待分类音频数据进行分类，得到所述待分类音频数据的分类结果。

可选地，所述预分类单元具体包括：

比较子单元，用于比较所述百分比与特殊声音类阈值、无效声音类阈值的大小，得到所述待分类音频数据的比较结果；

预分类子单元，用于根据所述比较结果，基于所述比较结果和预分类结果的对应关系，得到所述比较结果对应的预分类结果。

本申请第三方面提供了一种音频数据的分类设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的音频数据的分类方法。

本申请第四方面提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的音频数据的分类方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种音频数据的分类方法，包括：响应于音频分类指令，获取待分类音频数据；对待分类音频数据逐帧进行音频检测，得到待分类音频数据中非语音数据所占的百分比；根据百分比与特殊声音类阈值、无效声音类阈值的大小得到待分类音频数据的预分类结果，其中，预分类结果的声音分类包括：正常声音类、特殊声音类和无效声音类；根据预分类结果对应声音分类的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果。

本申请中，在获取到待分类音频数据后，首先对待分类音频数据进行音频检测，得到待分类音频数据中非语音数据所占的百分比，接着根据百分比与特殊声音类阈值、无效声音类阈值的大小得到待分类音频数据的预分类结果，在预分类结果的基础上，根据预分类结果对应声音分类的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果，整个分类过程中，首先将待分类音频数据预分类，然后再结合预分类的结果及对应的预设判断条件，纠正预分类结果，提高分类准确性，其中也不需要额外进行训练、标记等的操作，从而解决了现有的音频分类方法，工作量大且准确率不高的技术问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种音频数据的分类方法的实施例一的流程示意图；

图2为本申请实施例中一种音频数据的分类方法的实施例二的流程示意图；

图3为本申请实施例中一种音频数据的分类方法的具体示例说明；

图4为本申请实施例中一种音频数据的分类装置的实施例的结构示意图。

具体实施方式

本申请实施例提供了一种音频数据的分类方法、装置、设备和存储介质，解决了现有的音频分类方法，工作量大且准确率不高的技术问题。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，本申请实施例中一种音频数据的分类方法的实施例一的流程示意图。

本实施例中的一种音频数据的分类方法，包括：

步骤101、响应于音频分类指令，获取待分类音频数据。

可以理解的是，要进行音频数据分类，首先响应于音频分类指令，获取待分类音频数据。

获取待分类音频数据可以是通过麦克风整列等实现，本领域技术人员可以根据自己的需要进行选择，在此不做赘述。

步骤102、对待分类音频数据逐帧进行音频检测，得到待分类音频数据中非语音数据所占的百分比。

在获取到待分类音频数据后，对待分类音频数据进行音频检测，得到待分类音频数据中非语音数据所占的百分比。

可以理解的是，进行音频检测的方法可以是基于混合高斯模型建模的VAD算法等，本领域技术人员可以灵活选择，在此不再赘述。

在进行音频检测时，按帧检测待分类音频数据中每一帧(通常10～20毫秒时长)的音频数据，标注该帧音频数据为语音或者非语音，最后整合所有帧便可统计出待分类音频数据中非语音数据所占的百分比。

步骤103、根据百分比与特殊声音类阈值、无效声音类阈值的大小得到待分类音频数据的预分类结果，其中，预分类结果的声音分类包括：正常声音类、特殊声音类和无效声音类。

在通过上述的步骤102得到待分类音频数据中非语音数据所占的百分比后，根据百分比与特殊声音类阈值、无效声音类阈值的大小得到待分类音频数据的预分类结果。

可以理解的是，上述的特殊声音类阈值尽可能保证正常声音类不被误判为特殊声音类，具体设置本领域技术人员可以根据场景具体选择，在此不再赘述。

无效声音类阈值与无效声音类对应，具体设置本领域技术人员可以根据场景具体选择，在此不再赘述。

步骤104、根据预分类结果对应声音分类的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果。

在得到预分类结果后，根据预分类结果对应声音分类的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果，目的是在保证正常声音类不被误判的情况下，尽可能多筛选出特殊声音类和无效声音类。这样可以纠正预分类结果，提高分类准确性。

本实施例中，在获取到待分类音频数据后，首先对待分类音频数据进行音频检测，得到待分类音频数据中非语音数据所占的百分比，接着根据百分比与特殊声音类阈值、无效声音类阈值的大小得到待分类音频数据的预分类结果，在预分类结果的基础上，根据预分类结果对应声音分类的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果，整个分类过程中，首先将待分类音频数据预分类，然后再结合预分类的结果及对应的预设判断条件，纠正预分类结果，提高分类准确性，其中也不需要额外进行训练、标记等的操作，从而解决了现有的音频分类方法，工作量大且准确率不高的技术问题。

以上为本申请实施例提供的一种音频数据的分类方法的实施例一，以下为本申请实施例提供的一种音频数据的分类方法的实施例二。

请参阅图2，本申请实施例中一种音频数据的分类方法的实施例二的流程示意图。

本实施例中的一种音频数据的分类方法，包括：

步骤201、响应于音频分类指令，获取待分类音频数据。

需要说明的是，步骤201的描述与实施例一中的步骤101的描述相同，具体可以参见上述步骤101的描述，在此不再赘述。

步骤202、对待分类音频数据逐帧进行音频检测，得到待分类音频数据中非语音数据所占的百分比。

需要说明的是，步骤202的描述与实施例一中的步骤102的描述相同，具体可以参见上述步骤102的描述，在此不再赘述。

步骤203、比较百分比与特殊声音类阈值、无效声音类阈值的大小，得到待分类音频数据的比较结果。

在得到待分类音频数据中非语音数据所占的百分比进行预分类时，首先比较百分比与特殊声音类阈值、无效声音类阈值的大小，得到待分类音频数据的比较结果。

可以理解的是，本实施例中设置特殊声音类阈值(图3中的阈值1)为70％，无效声音类阈值(图3中的阈值2)为98％。

步骤204、根据比较结果，基于比较结果和预分类结果的对应关系，得到比较结果对应的预分类结果。

需要说明的是，本实施例中的特殊声音类阈值小于无效声音类阈值。

则对应的上述的对应关系具体包括：

当比较结果为百分比在特殊声音类阈值以下时，预分类结果为正常声音类；

当比较结果为百分比大于特殊声音类阈值且小于无效声音类阈值时，预分类结果为特殊声音类。

当比较结果为百分比在无效声音类阈值以上时，预分类结果为无效声音类。

步骤205、根据预分类结果对应声音分类的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果。

正常声音类对应的预设判断条件包括：

判断待分类音频数据的平均RMS值是否小于RMS阈值；

则根据正常声音类对应的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果，具体包括：

判断待分类音频数据的平均RMS值是否小于RMS阈值，若否，则判定待分类音频数据为正常声音类，若是，则判定待分类音频数据为特殊声音类。

可以理解的是，待分类音频数据的平均RMS值的计算公式为：

为待分类音频数据的平均RMS值；

无效声音类对应的预设判断条件包括：

判断待分类音频数据中的分段非语音百分比是否大于预置分段百分比阈值；

则根据无效声音类对应的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果，具体包括：

判断待分类音频数据中的分段非语音百分比是否大于预置分段百分比阈值，若否，则判定待分类音频数据为无效声音类，若是，则判定待分类音频数据为特殊声音类。

可以理解的是，平均RMS值评估和分段非语音百分比评估。前者可以将混在正常语音中的部分人声音量非常小的音频文件筛出，这些属于特殊声音类。后者可以将只有很短有效声音的音频文件，从无效声音类中筛出，改判为特殊声音类。

如图3所示，本实施例中，对于非人声比例未到达98％，即判定为正常声音类的待分类音频数据，需要做平均RMS值评估，将其中的音量非常小的待分类音频数据筛查出来。根据产品要求，我们认为平均RMS值低于103，对应为音频信号小于-50dB(20*log10(103/32768)＝-50dB)，在手机正常音量(60％～80％)播放时，声音听起来比较费力，这类待分类音频数据改判为特殊声音类。

人发音过程，正常语速每个音节占时约100ms～200ms，1s时长的音频中可能包含有5～10个字。将整个待分类音频数据按每1s窗长计算非语音比例，从文件头开始，以0.5s窗移长度滑动(具体窗长和窗移数值根据实际产品需求确定)。例如对于20s时长的声音文件，以1s窗长0.5s窗移计算，可以得到39个非语音比例。如果得到的39个非语音比例中至少有1个的非语音比例在50％以下，或者至少有2个在70％以下(具体阈值比例根据产品需求确定)，则可以认为该待分类音频数据存在部分有效信息，但可能非语音占比太大，应从无效声音类改标记为特殊声音类。

以上为本申请实施例提供的一种音频数据的分类方法的实施例二，以下为本申请实施例提供的一种音频数据的分类装置的实施例，请参阅图4。

请参阅图4，本申请实施例中一种音频数据的分类装置的实施例的结构示意图。

本实施例中的一种音频数据的分类装置，包括：

获取单元401，用于响应于音频分类指令，获取待分类音频数据；

检测单元402，用于对待分类音频数据逐帧进行音频检测，得到待分类音频数据中非语音数据所占的百分比；

预分类单元403，用于根据百分比与特殊声音类阈值、无效声音类阈值的大小得到待分类音频数据的预分类结果，其中，预分类结果的声音分类包括：正常声音类、特殊声音类和无效声音类；

分类单元404，用于根据预分类结果对应声音分类的预设判断条件，对待分类音频数据进行分类，得到待分类音频数据的分类结果。

进一步地，，预分类单元具体包括：

比较子单元，用于比较百分比与特殊声音类阈值、无效声音类阈值的大小，得到待分类音频数据的比较结果；

预分类子单元，用于根据比较结果，基于比较结果和预分类结果的对应关系，得到比较结果对应的预分类结果。

本申请实施例还提供了一种音频数据的分类设备，设备包括处理器以及存储器；存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行实施例一或实施例二的音频数据的分类方法。

本申请实施例还提供了一种存储介质，存储介质用于存储程序代码，程序代码用于执行实施例一或实施例二的音频数据的分类方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个待安装电网网络，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请个实施例中的功能单元可以集成在一个处理单元中，也可以是个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。