CN108986830B

CN108986830B - 一种音频语料筛选方法及装置

Info

Publication number: CN108986830B
Application number: CN201810986704.9A
Authority: CN
Inventors: 王晓斐; 钱云
Original assignee: Anhui Toycloud Technology Co Ltd
Current assignee: Anhui Toycloud Technology Co Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2021-02-09
Anticipated expiration: 2038-08-28
Also published as: CN108986830A

Abstract

本申请提供了一种音频语料筛选方法及装置，使用删除目标音频段的方式，从原始音频语料中删除具有统一且客观的特征的音频段，包括噪声音频段、音量异常音频段、语速异常音频段和吐字清晰度异常音频段中的至少一项，能够得到质量较高的音频语料库。

Description

一种音频语料筛选方法及装置

技术领域

本申请涉及电子信息领域，尤其涉及一种音频语料筛选方法及装置。

背景技术

随着人工智能的深入发展，语音处理技术也得到很大的发展。在语音合成或语音识别等领域中，构建合理的音频语料库是重中之重。

而目前，音频语料的筛选主要依靠人工执行，例如，由专业人员挑选音质较好、吐字清晰的录音者进行音频语料录制，并对采集的音频语料进行标注以及维护语料库等。或者，将通过终端设备获取的大量的音频，组织专业人员进行在线调听，人工将不合格的音频删除，最终得到合格音频语料。

无论采用上述哪种方式，人工筛选音频语料的方式除了效率低，最重要的是筛选缺乏统一标准且主观性强，而导致音频语料的质量不高。

发明内容

本申请提供了一种音频语料筛选方法及装置，目的在于解决如何高效地获得质量较高的音频语料的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种音频语料筛选方法，包括：

从原始音频语料中获取音频单位，任意一个所述音频单位包括至少一个音频段；

删除所述音频单位中的目标音频段，得到候选音频单位，所述目标音频段包括噪声音频段、音量异常音频段、语速异常音频段和吐字清晰度异常音频段中的至少一项；

基于所述候选音频单位，获得音频语料。

可选的，删除任意一个音频单位中的所述噪声音频段包括：

从该音频单位中选择背景音频段，所述背景音频段为不包括语音的音频段；

计算第一能量值，所述第一能量值为所述背景音频段的平均能量值；

如果所述第一能量值小于第一数值，依据所述第一能量值确定所述第一阈值；

计算该音频单位中的各个音频段的平均能量值；

删除该音频单位中平均能量值小于所述第一阈值的音频段。

可选的，从该音频单位中选择背景音频段包括：

从该音频单位中选择起始时间范围内的音频段，作为所述背景音频段，所述起始时间范围为起始时刻至预设的第一时刻的时间范围；

在所述计算第一能量值之后，还包括：

如果所述第一能量值不小于所述第一数值，从该音频单位中依次选择后续时间范围序列中的每一个时间范围内的音频段，直到选择的音频段的平均能量值小于所述第一数值，并将平均能量值小于所述第一数值的音频段作为所述背景音频段，其中，后续时间范围序列中的后一个时间范围的起始时刻晚于前一个时间范围的起始时刻，后续时间范围序列中的任意一个时间范围的起始时刻晚于所述起始时间范围的起始时刻。

可选的，还包括：

如果所述后续时间范围序列中的每一个时间范围内的音频段的平均能量值均不小于所述第一数值，则删除该音频单位。

可选的，删除任意一个音频单位中的所述噪声音频段还包括：

计算该音频单位中的各个候选语音段的能量方差值，所述候选语音段为平均能量值不小于所述第一阈值的音频段；

删除能量方差值小于预设的第二阈值的候选语音段。

可选的，在所述计算候选语音段的能量方差之后，还包括：

删除所述能量方差值大于所述第一数值的候选语音段所在的音频单位中的全部音频段。

计算该音频段中的各个候选语音段的熵值，所述候选语音段为平均能量不小于所述第一阈值的音频段；

删除熵值大于预设的第三阈值的候选语音段。

可选的，删除任意一个音频单位中的所述音量异常音频段包括：

计算该音频单位中候选音频段的组合中的两个音频段之间的平均音量变化率；

删除平均音量变化率大于对应的预设阈值的候选音频段组合；

其中，所述候选音频段为该音频单位中的音频段，或者，在所述目标音频段包括所述噪声音频段和所述音量异常音频段的情况下，所述候选音频段为语音段，所述语音段为该音频单位删除所述噪声音频段后剩余的音频段。

可选的，删除任意一个音频单位中的所述语速异常音频段包括：

计算语速参数，所述语速参数包括候选音频段的第一文本对象对应的音段特征的持续时间、第二文本对象对应的音段特征的平均停顿时间、该音频单位的持续时间与该音频单位包括的音段特征的比值中的至少一项；

删除所述语速参数不在对应的阈值范围内中的候选音频段，所述候选音频段为该音频单位中的音频段，或者，在所述目标音频段包括所述噪声音频段和所述语速异常音频段的情况下，所述候选音频段为语音段，所述语音段为该音频单位删除所述噪声音频段后剩余的音频段。

可选的，所述从原始音频语料中获取音频单位包括：

从所述原始音频语料中选择满足预设条件的音频单位，所述预设条件包括以下至少一项：包括的音段特征的个数大于预设的第四阈值、发音人数小于预设的第五阈值。

可选的，所述基于所述候选音频单位，获得音频语料包括：

计算所述候选音频单位的音段特征覆盖率；

如果所述音段特征覆盖率大于预设的第六阈值，则所述候选音频单位构成所述音频语料。

一种音频语料筛选装置，包括：

获取模块，用于从原始音频语料中获取音频单位，任意一个所述音频单位包括至少一个音频段；

删除模块，用于删除所述音频单位中的目标音频段，得到候选音频单位，所述目标音频段包括噪声音频段、音量异常音频段、语速异常音频段和吐字清晰度异常音频段中的至少一项；

筛选模块，用于基于所述候选音频单位，获得音频语料。

一种音频语料筛选设备，包括：

存储器和处理器；

所述存储器用于存储一个或多个程序；

所述处理器用于执行所述一个或多个程序，以使得所述音频语料筛选设备实现上述的字符识别方法。

一种计算机可读介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的音频语料筛选方法。

本申请所述的音频语料筛选方法及装置，使用删除目标音频段的方式，从原始音频语料中删除具有统一且客观的特征的音频段，包括噪声音频段、音量异常音频段、语速异常音频段和吐字清晰度异常音频段中的至少一项，能够得到质量较高的音频语料库。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种音频语料筛选方法的流程图；

图2为本申请实施例公开的删除任意一个音频单位中的噪声音频段的过程的流程图；

图3为本申请实施例公开的删除任意一个音频单位中的音量异常音频段的过程的流程图；

图4为本申请实施例公开的删除任意一个音频单位中的语速异常音频段的过程的流程图；

图5为本申请实施例公开的又一种音频语料筛选方法的流程图；

图6为本申请实施例公开的音频语料筛选装置的结构示意图。

具体实施方式

本申请实施例公开的音频语料筛选方法，目的在于，从原始音频语料中自动筛选出质量较高的音频语料，进一步的，使用统一且客观的筛选条件，筛选出质量较高的音频语料，构建音频语料库。

在本申请的以下实施例中，以音频单位(即一句话)为处理对象，筛选音频语料。音频单位的划分可以参见现有技术(例如，根据音频中的停顿时间划分)，这里不再赘述。

在一个音频单位(即一句话)中，包括至少一个音频段(即词)，例如，一句话由几个词构成，则一个音频单位中包括多个音频段，每一个音频段对应一个词。也有可能，一句话中的词与词之间的停顿时间过短，在此情况下，一个音频单位就是一个音频段。

从音频文件的角度而言，每个音频段由至少一个音频帧构成。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种音频语料筛选方法，包括以下步骤：

S101：从原始音频语料中获取音频单位。

通常，可以使用带有麦克风的设备收集用户的音频数据，并将收集到的音频编号，初步建立原始音频语料库。

如前所述，音频单位为一句话的音频数据构成的音频，音频单位包括至少一个词语的音频数据构成的音频段。

划分音频单位和音频段的方式均可参见现有技术，这里不再赘述。

S102：删除音频单位中的目标音频段，得到候选音频单位。

其中，目标音频段包括噪声音频段、音量异常音频段、语速异常音频段和吐字清晰度异常音频段中的至少一项。

噪声音频段包括至少平均能量值小于第一阈值的音频段。音量异常音频段包括异常音频段组合中的音频段，任意一个异常音频段组合由同一个音频单位中平均音量变化率大于对应的阈值的两个音频段组成。语速异常音频段为预设的语速参数不在对应的阈值范围内中的音频段。吐字清晰度异常音频段包括吐字清晰度小于预设的清晰度阈值的音频段。

具体的，吐字清晰度异常音频段的确定过程为：可以将音频段输入预设的声学模型，得到声学模型输出的吐字清晰度得分，得分越高，吐字越清晰，得分小于预设的清晰度阈值的音频段，即为吐字清晰度异常音频段。

删除噪声音频段、音量异常音频段和语速异常音频段的具体过程将在以下实施例中详细说明。

S103：计算候选音频单位的音段特征覆盖率。

音段特征为单个发音单元(例如音素和音节)，也可以为多个发音单元的组合。也就是说，音段特征可以为音素、音节、音素的组合以及音节的组合。对于一种语言，其中包括的所有音段特征已知或已预先设定。

候选音频单位的音段特征覆盖率为：所有候选音频单位中包括的全部音段特征的数量与预设的总的音段特征的数量的比值。其中，总的音段特征组合为，一种语言中所能涵盖的所有音段特征的总数量。

统计音频中包括的全部音段特征的数量的具体方式，可以参见现有技术，这里不再赘述。

S104：判断候选音频单位的音段特征覆盖率是否大于预设的音段特征覆盖率阈值，如果是执行S105，如果否，执行S106。

S105：使用候选音频单位构成音频语料。

S106：从原始音频语料中获取新的音频单位，并对新的音频单位执行S102，得到新的候选音频单位，并执行S103-S104。需要说明的是，这种情况下，S103中，计算的是所有的(而非仅本次筛选的)候选音频单位的音段特征覆盖率。

因为音频语料库对于音段特征的覆盖要尽量全面，所以，S103、S104和S106为基于候选音频单位，获得音段覆盖较为全面的音频语料的过程，其中，预设的音段特征覆盖率阈值可以依据需求预先设定。

需要说明的是，如果原始音频语料中已没有新的音频单位可获取，则重新收集原始音频语料。进一步的，可以统计缺失的音段特征，并针对缺失的音段特征确定目标文本语料，再收集目标文本语料对应的音频语料，作为新收集的原始音频语料。

当然，也可以跳过S103、S104和S106，即直接使用候选音频语料构成音频语料。

图1所示的音频语料筛选方法，使用删除目标音频段的方式，从原始音频语料中删除具有统一且客观的特征的音频段，能够得到质量较高且稳定的音频语料库。并且，相比对人工方式，具有更高的效率。进一步的，还可以降低人力成本。

下面将对于删除噪声音频段、音量异常音频段和语速异常音频段的具体过程进行详细的说明。

图2为删除任意一个音频单位中的噪声音频段的过程，包括以下步骤：

S201：从该音频单位中选择起始时间范围内的音频段，作为背景音频段。

其中，起始时间范围为起始时刻至预设的第一时刻的时间范围。例如，起始时间范围为0-300毫秒。

背景音频段为不包括语音的音频段，因为一段音频中的起始时间段通常不含语音，所以，使用起始时间范围获取背景音频段。当然，也可以使用其它方式，例如人为预先指定，获取背景音频段。

S202：计算背景音频段的平均能量值，得到第一能量值。

音频段的平均能量值是指，音频段中的所有音频帧的能量的平均值。计算方式可以参见现有技术，这里不再赘述。

S203：判断第一能量值是否小于第一数值Th0，如果是，依次执行S204-S206，如果否，执行S207。

S204：依据第一能量值确定第一阈值。

具体的，使用第一能量值乘以预设的经验系数得到第一阈值E0。E0作为一个能量基准值。

S205：计算该音频单位中的各个音频段的平均能量值。

即一个音频段得到一个平均能量值。任意一个音频段的平均能量值为该音频段中的音频帧的能量的平均值。

S206：删除该音频单位中平均能量值小于第一阈值E0的音频段。

本实施例中，平均能量值小于第一阈值E0的音频段视为噪声而删除，剩余未删除的音频段为候选语音段。

S207：从该音频单位中依次选择后续时间范围序列中的每一个时间范围内的音频段，在选择任意一个时间范围内的音频段后，计算该音频段的平均能量值(即新的第一能量值)，返回执行S203。

其中，后续时间范围序列中的后一个时间范围的起始时刻晚于前一个时间范围的起始时刻，后续时间范围序列中的任意一个时间范围的起始时刻晚于起始时间范围的起始时刻。例如，接上例，0-300毫秒的音频段的第一能量值不小于第一数值Th0，则选择200-500毫秒的音频段，如果该音频段的第一能量值小于第一数值Th0，则200-500毫秒的音频段即为背景音频段，否则，继续选择400-700毫秒的音频段。

需要说明的是，如果后续时间范围序列中的每一个时间范围内的音频段的平均能量值均不小于第一数值Th0，则删除该音频单位。

实际应用中，后续时间范围序列可以依据经验和需求设置。

S207反复选择背景音频段的目的在于，避免浪费原始音频语料资源，提高利用率。

经过上述流程，得到候选语音段，可选的，为了进一步分辨候选语音段是真正的语音段还是变化后的背景噪声，执行以下步骤，以提高对于噪声语音段的识别能力。

S208：计算各个候选语音段的能量方差值。

S209：删除能量方差值小于预设的第二阈值th1的候选语音段。

本实施例中，将能量方差值不小于th1的音频段认定为语音段，而将能量方差值小于th1的音频段认定为变化后的背景噪声。

S210：如果某个候选语音段的能量方差值大于第一数值Th0，删除该候选语音段所在的音频单位中的全部音频段。

即如果某个候选语音段能量方差值大于第一数值Th0，则删除该候选语音段所在的音频单位。变化后的噪声的能量方差值过大，说明变化后的噪声足以影响整个音频单位，所以删除。

S211：计算各个候选语音段的熵值。

S212：删除熵值大于预设的第三阈值th2的候选语音段。

因为实际中，语言的熵值与非语言的熵值相差非常大，有序语言的熵值相对较小，而无序噪声的熵值相对较大，因此，使用熵值分辨突发噪声和语音。如果候选语音段的熵值超过第三阈值th2，则认为该候选语音段实际上为外界突发噪声，而非真正的语音段。

经过图2所示的过程，能够将音频单位中的噪声音频段删除，得到候选音频单位。图2所示的过程中，在依据平均能量值分辨噪声的基础上，还使用能量方差值分辨平稳有序噪声、使用熵值分辨无序噪声，因此，对于噪声具有较高的识别能力，从而得到更为准确的候选音频单位。

图3为删除任意一个音频单位中的音量异常音频段的过程，包括以下步骤：

S301：计算该音频单位中的音频段组合中的两个音频段之间的平均音量变化率。

其中，两个音频段之间的平均音量变化率计算公式为：

其中，V_dB为平均音量变化率，

为第i个音频段的平均音量，

为第j个音频段的平均音量，

为整个音频段组合的平均音量。

本实施例中，音频段组合中的两个音频段可以为该音频单位中时间戳相邻的两个音频段，也可以为该音频单位中始末两端的音频段，其中，始端音频段为该音频单位中的时间戳最早的音频段，末端音频段为该音频单位中的时间戳最晚的音频段。

音频段的时间戳为音频段的起止时间范围。通常，音频段为连续的一段时间范围内的音频，所以，同一个音频单位中的不同音频段的时间戳不同，且有先后顺序。

本实施例中，为了获得更高的准确性，可以使用上述两种音频段组合。

S302：确定异常音频段组合。

任意一个异常音频段组合为组成该音频段组合的两个音频段之间的平均音量变化率大于对应的阈值。

对应阈值是指，与上述音频段组合对应的阈值。具体的，预先设定与时间戳相邻的两个音频段组成的音频段组合(简称为第一组合)对应的阈值为th3。预先设定与始末两端的音频段组成的音频段组合(简称为第二组合)对应的阈值为th4。

如果音频段组合为第一组合的形式，则使用th3判定其是否为异常音频段组合，如果音频段组合为第二组合的形式，则使用th4判定其是否为异常音频段组合.

S303：删除异常音频段组合。

因为在音频语料录制的过程中，录音人的音量不会发生突变，所以，正常的音频语料的平均音量变化率小于一定阈值，如果发生突变则说明音频语料不适用于后续的模型训练，因此，图3所示的过程，以平均音量变化率作为依据，删除音量突变的音频段，以提高音频语料的质量。

需要说明的是，也可以删除异常音频段组合所在的音频单位中的全部音频段，即删除整个音频单位。

图4为删除任意一个音频单位中的语速异常音频段的过程，包括以下步骤：

S401：计算该音频单位中各个音频段的语速参数。

其中，语速参数包括以下至少一项：

1、第一文本对象对应的音段特征的持续时间。

文本对象为音频段对应的文本语料中的文本对象，文本对象可以为字、词、短语等。本实施例中，以第一文本对象为字举例，获取任意一个字的音段特征(例如音素)的持续时间。

以音素为例，文本对象的获取方式可以为：使用现有的声学模型提取音频段中的音素序列，再使用现有的语言模型对音素序列进行处理，获取最佳文本结果，并利用现有的字词切分技术，切分确定文本结果中的文本对象。

2、第二文本对象对应的音段特征的停顿时间。

本实施例中，以第二文本对象为词和短语举例，获取词对应的音段特征的平均停顿时间和短语对应的音段特征的平均停顿时间。

词对应的音段特征的平均停顿时间为：词中的字对应的音段特征的停顿时间之和的均值。短语对应的音段特征的平均停顿时间为：短语之间或短语与词之间对应的音段特征的停顿时间之和的均值。例如，文本“我们的祖国”，“我们”、“祖国”为词，“的”为短语。该文本对应的音段特征的停顿为“我#们*的*祖#国”，其中，#为词对应的音段特征的停顿，*为短语对应的音段特征的停顿。所以，词对应的音段特征的平均停顿时间为两次#停顿的时间之和的均值，短语对应的音段特征的平均停顿时间为两次*停顿的时间之和的均值。

3、该音频单位的持续时间与该音频单位包括的音段特征的比值。

例如，该音频单位的持续时间与音素数的比值。

S402：删除语速参数不在对应的阈值范围内中的音频段。

接上例，设置任意一个字的音段特征(例如音素)的持续时间的阈值范围为(minth5，maxth5)，词对应的音段特征的平均停顿时间的阈值范围为(minth6，maxth6)，短语对应的音段特征的平均停顿时间的阈值范围为(minth7，maxth7)。音频单位的持续时间与音频单位包括的音段特征的比值的阈值范围为(minth8，maxth8)。

语速参数可选择上述1、2、3中的至少一项，并与对应的阈值范围相比，不在阈值范围内的删除。

图4所示的过程，将字的持续时间、词级和短语级的停顿时间、句子持续时间与音素数的比值作为依据，能够准确识别出语速不正常的音频段。

如前所述，图1中所述的目标音频段包括噪声音频段、音量异常音频段和语速异常音频段的至少一项，在包括任意一项的情况下，删除该项的过程如图2-图4中相应的过程。

需要说明的是，因为语速和音量能够反映录音人的情绪，所以，在筛选儿童语料的情况下，依据语速和音量筛选能够更为准确地删除儿童情绪异常情况下的音频语料。又因为噪声对于模型的训练的影响较大，所以有必要删除噪声。综上所述，删除噪声音频段、音量异常音频段和语速异常音频段的筛选方法尤其适用于对于儿童语料的筛选。

图5为本申请实施例公开的又一种音频语料筛选方法，包括以下步骤：

S501：从原始音频语料中选择满足预设条件的音频单位。

预设条件包括以下至少一项：包括的音段特征(例如音素)的个数大于预设的音段特征数量阈值、发音人数大于预设的人数阈值。

其中，根据声纹识别发音人数：当检测出多种声纹特征时，确定有多人说话，则将这种多人交谈的音频单位删除。

或者，也可以，在已知目标发音人的声纹特征的情况下，只保留目标发音人的音频段，删除其他人发音的音频段。

S501为可选步骤，可以看作初选，先删除不满足预设条件的音频语料，以减小后续的计算量。

S502：按照图2所示的过程，删除各个音频单位中的噪声音频段，得到剩余语音段的音频单位。

各个删除噪声音频段后的音频单位中剩余的为语音段。

S503：按照图3所示的过程，删除各个剩余语音段中的音量异常音频段。

即对于任意一个音频单位，计算该音频单位中的语音段组合中的两个音频段之间的平均音量变化率，并删除平均音量变化率大于对应的预设阈值的语音段组合。

S504：按照图4所示的过程，删除执行S503后的各个剩余的语音段中的语速异常音频段。

即计算执行S503后的各个剩余的各个语音段的语速参数，并删除语速参数不在对应的阈值单位的语音段。

S505：删除执行S504后的各个剩余的语音段中吐字清晰度小于预设的清晰度阈值的音频段。

需要说明的是，S502-S505的执行顺序并不作限定，后一个步骤均以前一个步骤的结果作为执行对象。

S506：计算经过上述步骤后的音频单位的音段特征覆盖率，并使用音段特征覆盖率大于预设的音段特征覆盖率阈值的音频单位构成音频语料库。

可见，图5所示的过程采用递进的执行方式，删除噪声音频段、音量异常音频段和语速异常音频段，除了节省计算资源之外，还能识别出儿童录音过程中的情绪变化，删除情绪变化过大的音频语料，因此，更加适用于儿童音频语料的筛选。

需要说明的是，以上实施例中所使用的阈值，也可以使用“第一”、“第二”……“第三”的编号进行区分。

图6为本申请实施例公开的一种音频语料筛选装置，包括：获取模块、删除模块和筛选模块。

其中，获取模块用于从原始音频语料中获取音频单位，任意一个所述音频单位包括至少一个音频段。删除模块用于删除所述音频单位中的目标音频段，得到候选音频单位，所述目标音频段包括噪声音频段、音量异常音频段、语速异常音频段和吐字清晰度异常音频段中的至少一项。筛选模块用于基于所述候选音频单位，获得音频语料。

具体的，删除模块用于删除任意一个音频单位中的所述噪声音频段包括：删除模块具体用于，从该音频单位中选择背景音频段，所述背景音频段为不包括语音的音频段；计算第一能量值，所述第一能量值为所述背景音频段的平均能量值；如果所述第一能量值小于第一数值，依据所述第一能量值确定所述第一阈值；计算该音频单位中的各个音频段的平均能量值；删除该音频单位中平均能量值小于所述第一阈值的音频段。

进一步的，从该音频单位中选择背景音频段的具体实现方式为：从该音频单位中选择起始时间范围内的音频段，作为所述背景音频段，所述起始时间范围为起始时刻至预设的第一时刻的时间范围。

删除模块还用于：在所述计算第一能量值之后，如果所述第一能量值不小于所述第一数值，从该音频单位中依次选择后续时间范围序列中的每一个时间范围内的音频段，直到选择的音频段的平均能量值小于所述第一数值，并将平均能量值小于所述第一数值的音频段作为所述背景音频段，其中，后续时间范围序列中的后一个时间范围的起始时刻晚于前一个时间范围的起始时刻，后续时间范围序列中的任意一个时间范围的起始时刻晚于所述起始时间范围的起始时刻。如果所述后续时间范围序列中的每一个时间范围内的音频段的平均能量值均不小于所述第一数值，则删除该音频单位。

删除模块删除任意一个音频单位中的所述噪声音频段的过程中还包括：计算该音频单位中的各个候选语音段的能量方差值，所述候选语音段为平均能量值不小于所述第一阈值的音频段；删除能量方差值小于预设的第二阈值的候选语音段。

进一步的，在所述计算候选语音段的能量方差之后，删除模块还用于：删除所述能量方差值大于所述第一数值的候选语音段所在的音频单位中的全部音频段。

删除模块删除任意一个音频单位中的所述噪声音频段的过程中还包括：计算该音频段中的各个候选语音段的熵值，所述候选语音段为平均能量不小于所述第一阈值的音频段；删除熵值大于预设的第三阈值的候选语音段。

删除模块用于删除任意一个音频单位中的所述音量异常音频段包括：计算该音频单位中候选音频段的组合中的两个音频段之间的平均音量变化率；删除平均音量变化率大于对应的预设阈值的候选音频段组合；其中，所述候选音频段为该音频单位中的音频段，或者，在所述目标音频段包括所述噪声音频段和所述音量异常音频段的情况下，所述候选音频段为语音段，所述语音段为该音频单位删除所述噪声音频段后剩余的音频段。

删除模块用于删除任意一个音频单位中的所述语速异常音频段包括：计算语速参数，所述语速参数包括候选音频段的第一文本对象对应的音段特征的持续时间、第二文本对象对应的音段特征的平均停顿时间、该音频单位的持续时间与该音频单位包括的音段特征的比值中的至少一项；删除所述语速参数不在对应的阈值范围内中的候选音频段，所述候选音频段为该音频单位中的音频段，或者，在所述目标音频段包括所述噪声音频段和所述语速异常音频段的情况下，所述候选音频段为语音段，所述语音段为该音频单位删除所述噪声音频段后剩余的音频段。

获取模块用于从原始音频语料中获取音频单位包括：从所述原始音频语料中选择满足预设条件的音频单位，所述预设条件包括以下至少一项：包括的音段特征的个数大于预设的第四阈值、发音人数小于预设的第五阈值。

筛选模块用于基于所述候选音频单位，获得音频语料包括：计算所述候选音频单位的音段特征覆盖率；如果所述音段特征覆盖率大于预设的第六阈值，则所述候选音频单位构成所述音频语料。

图6所示的音频语料筛选装置，能够获得高质量的音频语料，且能够提高音频语料的获取效率。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频语料筛选方法，其特征在于，包括：

删除所述音频单位中的目标音频段，得到候选音频单位，所述目标音频段包括噪声音频段、音量异常音频段、语速异常音频段和吐字清晰度异常音频段中的至少一项；所述噪声音频段包括至少平均能量值小于第一阈值的音频段；

计算所述候选音频单位的音段特征覆盖率；其中，所述候选音频单位的音段特征覆盖率为：所有候选音频单位中包括的全部音段特征的数量与预设的总的音段特征的数量的比值；

如果所述音段特征覆盖率大于预设的第六阈值，则所述候选音频单位构成音频语料；

如果所述音段特征覆盖率不大于预设的第六阈值，则从所述原始音频语料中获取新的音频单位，或者重新收集原始音频语料，并重新执行上述处理，直至得到的所有候选音频单位的音段特征覆盖率大于预设的第六阈值，并利用得到的所有候选音频单位构成音频语料。

2.根据权利要求1所述的方法，其特征在于，删除任意一个音频单位中的所述噪声音频段包括：

计算该音频单位中的各个音频段的平均能量值；

删除该音频单位中平均能量值小于所述第一阈值的音频段。

3.根据权利要求2所述的方法，其特征在于，从该音频单位中选择背景音频段包括：

在所述计算第一能量值之后，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求2所述的方法，其特征在于，删除任意一个音频单位中的所述噪声音频段还包括：

删除能量方差值小于预设的第二阈值的候选语音段。

6.根据权利要求5所述的方法，其特征在于，在所述计算候选语音段的能量方差之后，还包括：

7.根据权利要求2所述的方法，其特征在于，删除任意一个音频单位中的所述噪声音频段还包括：

删除熵值大于预设的第三阈值的候选语音段。

8.根据权利要求1所述的方法，其特征在于，删除任意一个音频单位中的所述音量异常音频段包括：

9.根据权利要求1所述的方法，其特征在于，删除任意一个音频单位中的所述语速异常音频段包括：

10.根据权利要求1所述的方法，其特征在于，所述从原始音频语料中获取音频单位包括：

11.一种音频语料筛选装置，其特征在于，包括：

删除模块，用于删除所述音频单位中的目标音频段，得到候选音频单位，所述目标音频段包括噪声音频段、音量异常音频段、语速异常音频段和吐字清晰度异常音频段中的至少一项；所述噪声音频段包括至少平均能量值小于第一阈值的音频段；

筛选模块，计算所述候选音频单位的音段特征覆盖率；其中，所述候选音频单位的音段特征覆盖率为：所有候选音频单位中包括的全部音段特征的数量与预设的总的音段特征的数量的比值；

如果所述音段特征覆盖率不大于预设的第六阈值，则控制所述获取模块从所述原始音频语料中获取新的音频单位，或者重新收集原始音频语料，并重新执行上述处理，直至得到的所有候选音频单位的音段特征覆盖率大于预设的第六阈值，并利用得到的所有候选音频单位构成音频语料。

12.一种音频语料筛选设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储一个或多个程序；

所述处理器用于执行所述一个或多个程序，以使得所述音频语料筛选设备实现权利要求1-10中任一项所述的音频语料筛选方法。

13.一种计算机可读介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1-10中任一项所述的音频语料筛选方法。