CN110264999B

CN110264999B - 一种音频处理方法、设备及计算机可读介质

Info

Publication number: CN110264999B
Application number: CN201910693845.6A
Authority: CN
Inventors: 张晴晴; 刘天宇; 杨金富; 罗磊; 马光谦; 汪洋
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2019-03-27
Filing date: 2019-07-30
Publication date: 2021-08-03
Anticipated expiration: 2039-07-30
Also published as: CN109859745A; CN110264999A

Abstract

本申请涉及一种音频处理方法、设备及计算机可读介质，所述方法包括：接收待处理的音频文件；对所述音频文件中的音频信号进行完整性检测；若所述音频信号完整，对所述音频信号进行音频质量检测；若所述音频信号的音频质量满足预设条件，则确定所述音频文件为待识别音频文件。本申请实施例可以从音频信号层面确定音频完整性及音频质量，进而筛选出音频完整且音频质量满足预设条件的音频文件作为待识别音频文件，减少待识别音频文件的数据量，提高效率、降低服务器资源消耗。

Description

一种音频处理方法、设备及计算机可读介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种音频处理方法、设备及计算机可读介质。

背景技术

目前，目前语音识别技术所遇到的挑战：在低信噪比、有混响等真实条件下的识别性能；多人会话中的声源分离和识别；对方言或有口音语音的识别等。

在改进算法的同时，更需要大量的数据来支撑研究工作、提高模型性能。在语音采集中，如何筛选出符合要求的合格语音会极大的影响到采集系统的效率和成本。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种音频处理方法、设备及计算机可读介质。

第一方面，本申请提供了一种音频处理方法，包括：

接收待处理的音频文件；

对所述音频文件中的音频信号进行完整性检测；

若所述音频信号完整，对所述音频信号进行音频质量检测；

若所述音频信号的音频质量满足预设条件，则确定所述音频文件为待识别音频文件。

可选地，所述对所述音频文件中的音频信号进行完整性检测,包括:

对所述音频信号进行切音检测；

若所述音频信号不为切音，则对所述音频信号进行丢帧检测；

若所述音频信号未丢帧，则确定所述音频信号完整。

可选地，所述对所述音频信号进行切音检测，包括：

对所述音频信号进行端点检测；

若所述音频信号的起始端点或截止端点与所述音频信号中语音部分的时间差小于预设切音阈值，确定所述音频信号为切音；否则，不为切音。

可选地，所述对所述音频信号进行丢帧检测，包括：

对所述音频信号中的多个采样点进行二进制编码转换，得到音频编码；

若所述音频编码中多个编码位的编码值为0且编码位的数量超过1个语音帧的长度，则确定所述音频信号丢帧。

可选地，所述对所述音频信号进行音频质量检测，包括：

对所述音频信号进行截幅检测；

若所述音频信号未截幅，则对所述音频信号进行信噪比检测；

若所述音频信号的信噪比超过预设合格阈值，则确定所述音频信号的音频质量满足预设条件。

可选地，所述对所述音频信号进行截幅检测，包括：

计算所述音频信号中幅值最大的N个采样点的均方差，所述N大于或者等于2；

若所述均方差大于或者等于预设截幅阈值，则确定所述音频信号未截幅。

可选地，所述对所述音频信号进行信噪比检测，包括：

计算所述音频信号中语音部分的语音功率和噪音部分的噪音功率；

基于所述语音功率和所述噪音功率计算所述音频信号的信噪比。

可选地，所述方法还包括：

对所述待识别音频文件进行语音识别,得到识别文本及置信度；

计算所述识别文本和所述音频信号中录音文本的相似度；

基于所述相似度和所述置信度计算所述音频文件的分数；

将分数大于预设合格分数阈值的音频文件存入数据库。

第二方面，本申请提供了一种音频处理设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。

第三方面，本申请提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行所述第一方面所述的方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例可以从音频信号层面确定音频完整性及音频质量，进而筛选出音频完整且音频质量满足预设条件的音频文件作为待识别音频文件(也即将存在切音、丢帧、截幅、信噪比过低等问题的音频筛除掉)，减少待识别音频文件的数据量，提高效率、降低服务器资源消耗。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音频处理方法的流程图；

图2为本申请实施例提供的步骤S102的流程图；

图3为本申请实施例提供的步骤S103的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于在语音采集中，如何筛选出符合要求的合格语音会极大的影响到采集系统的效率和成本。所以需要一种能够在语音采集的过程中，高效自动化的筛选语音的方案。为此，本申请实施例提供一种音频处理方法、设备及计算机可读介质，如图1所示，所述音频处理方法可以包括以下步骤：

步骤S101，接收待处理的音频文件；

步骤S102，对所述音频文件中的音频信号进行完整性检测；

在步骤S102中，如图2所示，可以包括以下步骤：

步骤S201，对所述音频信号进行切音检测；

在该步骤中，可以首先对所述音频信号进行端点检测；若所述音频信号的起始端点或截止端点与所述音频信号中语音部分的时间差小于预设切音阈值，确定所述音频信号为切音；否则，不为切音。

步骤S202，若所述音频信号不为切音,则对所述音频信号进行丢帧检测；

在该步骤中，可以对所述音频信号中的多个采样点进行二进制编码转换，得到音频编码；若所述音频编码中多个连续采样点的编码值为0且所述多个连续采样点的数量超过1个语音帧的长度，则确定所述音频信号丢帧，否则，不丢帧。

步骤S203，若所述音频信号未丢帧,则确定所述音频信号完整。

步骤S103，若所述音频信号完整,对所述音频信号进行音频质量检测；

在步骤S103中，如图3所示，可以包括以下步骤：

步骤S301，对所述音频信号进行截幅检测；

在该步骤中，可以计算所述音频信号中幅值最大的N个采样点的均方差，所述N大于或者等于40；若所述均方差大于或者等于预设截幅阈值，则确定所述音频信号未截幅。

步骤S302，若所述音频信号未截幅，则对所述音频信号进行信噪比检测；

在该步骤中，可以计算所述音频信号中语音部分的语音功率和噪音部分的噪音功率；

计算功率的公式为：

其中，X_i是每个采样点的数值，n是采样点个数。

计算信噪比SNR(dB)可以使用如下公式：

其中，Psignal为语音功率，Pnoise为噪音功率。

步骤S303，若所述音频信号的信噪比超过预设合格阈值，则确定所述音频信号的音频质量满足预设条件。

步骤S104，若所述音频信号的音频质量满足预设条件,则确定所述音频文件为待识别音频文件。

在步骤S104之后，所述方法还包括：

计算所述识别文本和所述音频信号中录音文本的相似度；

基于所述相似度和所述置信度计算所述音频文件的分数；

将分数大于预设合格分数阈值的音频文件存入数据库。

本申请还可以将通过前一步筛选的音频做语音识别，把识别过程中得到的置信度、贝叶斯风险，与识别文本相似度一并记录下来，作为语音内容的打分；进而根据上一步的打分，将语音分为三部分：不合格(舍弃)，达标(保存)，完全合格(保存，并且用于更新模型以继续提高识别率)。

基于以上，本申请使用快速信号检测的方法，于识别前筛除掉一部分不合格音频，提高了约15％的识别效率；信号检测+识别检测的方法，提高了采集到的音频的整体质量；将系统判断完全合格的数据自动用于模型更新，迭代地提高模型识别率和系统的整体效率。

在本申请的又一实施例中，还提供一种音频处理设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法实施例所述的方法的步骤。

在本申请的又一实施例中，还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行所述方法实施例所述的方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

接收待处理的音频文件；

对所述音频文件中的音频信号进行完整性检测；

所述对所述音频文件中的音频信号进行完整性检测，包括：

对所述音频信号进行切音检测；

若所述音频信号未丢帧，则确定所述音频信号完整；

其中，所述对所述音频信号进行切音检测，包括：

对所述音频信号进行端点检测；

若所述音频信号的起始端点或截止端点与所述音频信号中语音部分的时间差小于预设切音阈值，确定所述音频信号为切音；否则，不为切音；

其中，所述对所述音频信号进行丢帧检测，包括：

若所述音频编码中多个编码位的编码值为0且编码位的数量超过1个语音帧的长度，则确定所述音频信号丢帧；

若所述音频信号完整，对所述音频信号进行音频质量检测；

2.根据权利要求1所述的音频处理方法，其特征在于，所述对所述音频信号进行音频质量检测，包括：

对所述音频信号进行截幅检测；

3.根据权利要求1所述的音频处理方法，其特征在于，所述对所述音频信号进行截幅检测，包括：

计算所述音频信号中幅值最大的N个采样点的均方差，所述N大于或者等于40；

4.根据权利要求1所述的音频处理方法，其特征在于，所述对所述音频信号进行信噪比检测，包括：

5.根据权利要求1所述的音频处理方法，其特征在于，所述方法还包括：

对所述待识别音频文件进行语音识别，得到识别文本及置信度；

计算所述识别文本和所述音频信号中录音文本的相似度；

基于所述相似度和所述置信度计算所述音频文件的分数；

将分数大于预设合格分数阈值的音频文件存入数据库。

6.一种音频处理设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。

7.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1-5任一所述方法。