CN108010539A

CN108010539A - 一种基于语音激活检测的语音质量评估方法及装置

Info

Publication number: CN108010539A
Application number: CN201711266177.6A
Authority: CN
Inventors: 晏青
Original assignee: Guangzhou Speakin Network Technology Co Ltd
Current assignee: Guangzhou Speakin Network Technology Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-05-08

Abstract

本发明提供了一种基于语音激活检测的语音质量评估方法及装置，对录入的样本音频文件进行分帧处理，得到短时平稳音频信号，对短时平稳音频信号进行语音激活检测，判断短时平稳音频信号对应的帧为语音帧或非语音帧，以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，仅保留质量合格的片段音频文件，舍弃不合格的片段音频文件，解决了只结合语音激活检测的方式，除了区分开语音和噪声以外，无法对语音的质量做评估，导致的不能量化控制录入语音质量的技术问题。

Description

一种基于语音激活检测的语音质量评估方法及装置

技术领域

本发明涉及语音检测领域，尤其涉及一种基于语音激活检测的语音质量评估方法及装置。

背景技术

大数据时代的到来带来了海量的多媒体信息，在音频领域中，人们对现场录制的音频的要求越来越高，希望能够听到更加清晰以及完整的音频。

现在的常规录音方式多数是通过麦克风(数字麦克风或模拟麦克风)采集声源信号，配合录音软件在电脑端或移动终端直接录入音频的方式。但在实际的语音会话中，有效语音时长一般不超过总时长的40％，其中包括了大量的无意义片段，如静音、噪声或者停顿等。现有技术大多只结合了VAD(Voice Activty Detection，语音激活检测)算法，做了语音和噪声的区分，采集语音过程中只保留语音部分，剔除噪声部分。但实际录音环境千差万别，单靠语音激活检测来区分语音和噪声是不够的，客观因素和主观因素都会对最后的录音质量造成不同的影响。影响录音的客观因素包括使用场景(噪声类型不同)，不同的录音硬件配置(如麦克风的类型)和主观因素包括录音距离等，这些都会对录音的语音质量带来不同程度的影响。

只结合语音激活检测的方式，除了区分开语音和噪声以外，无法对语音的质量做评估，导致了不能量化控制录入语音质量的技术问题。

发明内容

本发明提供了一种基于语音激活检测的语音质量评估方法及装置，解决了只结合语音激活检测的方式，除了区分开语音和噪声以外，无法对语音的质量做评估，导致的不能量化控制录入语音质量的技术问题。

本发明提供了一种基于语音激活检测的语音质量评估方法，包括：

S1、获取样本音频文件的PCM二进制数据；

S2、对样本音频文件的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

S3、依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

S4、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，确定不存在削顶失真的片段音频，并计算片段音频文件的信噪比、有效时间占比和平均能量值，并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较，若信噪比、有效时间占比和平均能量值均高于对应的预设阈值，则确定片段音频文件质量合格，并保存片段音频文件；

S5、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

作为优选，步骤S4中语音质量检测为：

S401、对片段音频文件进行削顶检测，并判断片段音频文件是否存在削顶失真，若是，则将片段音频文件舍弃，若否，则执行步骤S402；

S402、计算片段音频文件的信噪比，并判断片段音频文件的信噪比是否高于预置信噪比阈值，若是，则执行步骤S403，若否，则将片段音频文件舍弃；

S403、计算片段音频文件的有效时间占比，并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值，若是，则执行步骤S404，若否，则将片段音频文件舍弃；

S404、计算片段音频文件的平均能量值，并判断片段音频文件的平均能量值是否高于预置平均能量值阈值，若是，则确定片段音频质量合格，并保存片段音频文件，若否，则将片段音频文件舍弃。

作为优选，步骤S402中计算片段音频文件的信噪比具体为：

获取片段音频文件的语音平均幅值；

获取片段音频文件的噪声平均幅值；

以语音平均幅值与噪声平均幅值相除得到的比值为底数，e为对数进行对数运算，将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比。

作为优选，步骤S403中计算片段音频文件的有效时间占比具体为：

获取片段音频文件中语音帧的总时长；

获取片段音频文件中所有帧的总时长；

将语音帧的总时长与所有帧的总时长相除，得到片段音频文件的有效时间占比。

作为优选，步骤S404中计算片段音频文件的平均能量值具体为：

获取片段音频文件中每帧语音帧的能量值的幅值；

将每帧语音帧的能量值的幅值进行加权计算，得到片段音频文件的能量值加权值；

获取片段音频文件中语音帧的帧数；

将能量值的加权值与语音帧的帧数相除，得到片段音频文件的平均能量值。

本发明提供了一种基于语音激活检测的语音质量评估装置，包括：

获取单元，用于获取样本音频文件的PCM二进制数据；

分帧单元，用于对样本音频文件的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

语音激活检测单元，用于依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

质量检测单元，用于以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，确定不存在削顶失真的片段音频，并计算片段音频文件的信噪比、有效时间占比和平均能量值，并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较，若信噪比、有效时间占比和平均能量值均高于对应的预设阈值，则确定片段音频文件质量合格，并保存片段音频文件；

音频拼接合成单元，用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

作为优选，质量检测单元包括：

削顶检测单元，用于对片段音频文件进行削顶检测，并判断片段音频文件是否存在削顶失真，若是，则将片段音频文件舍弃，若否，则跳转至信噪比计算判断单元；

信噪比计算判断单元，用于计算片段音频文件的信噪比，并判断片段音频文件的信噪比是否高于预置信噪比阈值，若是，则跳转至有效时间占比计算判断单元，若否，则将片段音频文件舍弃；

有效时间占比计算判断单元，用于计算片段音频文件的有效时间占比，并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值，若是，则跳转至平均能量值计算判断单元，若否，则将片段音频文件舍弃；

平均能量值计算判断单元，计算片段音频文件的平均能量值，并判断片段音频文件的平均能量值是否高于预置平均能量值阈值，若是，则确定片段音频质量合格，并保存片段音频文件，若否，则将片段音频文件舍弃。

作为优选，信噪比计算判断单元包括：

第一获取子单元，用于获取片段音频文件的语音平均幅值；

第二获取子单元，用于获取片段音频文件的噪声平均幅值；

信噪比计算子单元，用于以语音平均幅值与噪声平均幅值相除得到的比值为底数，e为对数进行对数运算，将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比。

作为优选，有效时间占比计算判断单元包括：

第三获取子单元，用于获取片段音频文件中语音帧的总时长；

第四获取子单元，用于获取片段音频文件中所有帧的总时长；

有效时间占比计算子单元，用于将语音帧的总时长与所有帧的总时长相除，得到片段音频文件的有效时间占比。

作为优选，平均能量值计算判断单元包括：

第五获取子单元，用于获取片段音频文件中每帧语音帧的能量值的幅值；

加权计算子单元，用于将每帧语音帧的能量值的幅值进行加权计算，得到片段音频文件的能量值加权值；

第六获取子单元，用于获取片段音频文件中语音帧的帧数；

平均能量值计算子单元，用于将能量值的加权值与语音帧的帧数相除，得到片段音频文件的平均能量值。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种基于语音激活检测的语音质量评估方法，包括：S1、获取样本音频文件的PCM二进制数据；S2、对样本音频文件的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；S3、依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；S4、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，确定不存在削顶失真的片段音频，并计算片段音频文件的信噪比、有效时间占比和平均能量值，并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较，若信噪比、有效时间占比和平均能量值均高于对应的预设阈值，则确定片段音频文件质量合格，并保存片段音频文件；S5、将保存的质量合格的片段音频文件合成为完整的音频文件。

本发明中，对录入的样本音频文件进行分帧处理，得到短时平稳音频信号，对短时平稳音频信号进行语音激活检测，判断短时平稳音频信号对应的帧为语音帧或非语音帧，以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，仅保留质量合格的片段音频文件，舍弃不合格的片段音频文件，解决了只结合语音激活检测的方式，除了区分开语音和噪声以外，无法对语音的质量做评估，导致的不能量化控制录入语音质量的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于语音激活检测的语音质量评估方法的一个实施例的流程示意图；

图2为本发明提供的一种基于语音激活检测的语音质量评估方法的另一个实施例的流程示意图；

图3为本发明提供的一种基于语音激活检测的语音质量评估装置的一个实施例的结构示意图；

图4为本发明提供的一种基于语音激活检测的语音质量评估装置的另一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种基于语音激活检测的语音质量评估方法及装置，解决了只结合语音激活检测的方式，除了区分开语音和噪声以外，无法对语音的质量做评估，导致的不能量化控制录入语音质量的技术问题。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种基于语音激活检测的语音质量评估方法的一个实施例，包括：

101、获取样本音频文件的PCM二进制数据；

需要说明的是，缓存音频采集装置(麦克风)采集得到的样本音频文件，获得样本音频文件的PCM二进制数据。

102、对样本音频文件的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

需要说明的是，对获取到的样本音频文件的PCM二进制数据进行分帧处理，得到每帧的短时平稳音频信号，用于后续的检测。

103、依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

需要说明的是，依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧。

104、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，确定不存在削顶失真的片段音频，并计算片段音频文件的信噪比、有效时间占比和平均能量值，并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较，若信噪比、有效时间占比和平均能量值均高于对应的预设阈值，则确定片段音频文件质量合格，并保存片段音频文件；

需要说明的是，以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，满足不存在削顶失真，且片段音频文件的信噪比、有效时间占比和平均能量值均高于对应的预设阈值，则确定片段音频文件质量合格，保存该片段音频文件。

105、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

需要说明的是，将确定质量合格的片段音频文件，按顺序拼接合成为完整的音频文件输出。

本发明实施例中，对录入的样本音频文件进行分帧处理，得到短时平稳音频信号，对短时平稳音频信号进行语音激活检测，判断短时平稳音频信号对应的帧为语音帧或非语音帧，以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，仅保留质量合格的片段音频文件，舍弃不合格的片段音频文件，解决了只结合语音激活检测的方式，除了区分开语音和噪声以外，无法对语音的质量做评估，导致的不能量化控制录入语音质量的技术问题。

以上是本发明提供的一种基于语音激活检测的语音质量评估方法的一个实施例进行说明，以下将说明本发明提供的一种基于语音激活检测的语音质量评估方法的另一个实施例进行说明。

请参阅图2，本发明实施例提供了一种基于语音激活检测的语音质量评估方法的另一个实施例，包括：

201、获取样本音频文件的PCM二进制数据；

202、对样本音频文件的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

203、依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

204、以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测；

语音质量检测为：

2041、对片段音频文件进行削顶检测，并判断片段音频文件是否存在削顶失真，若是，则将片段音频文件舍弃，若否，则执行步骤2042；

2042、计算片段音频文件的信噪比，并判断片段音频文件的信噪比是否高于预置信噪比阈值，若是，则执行步骤2043，若否，则将片段音频文件舍弃；

其中，计算片段音频文件的信噪比具体为：

20421、获取片段音频文件的语音平均幅值；

20422、获取片段音频文件的噪声平均幅值；

20423、以语音平均幅值与噪声平均幅值相除得到的比值为底数，e为对数进行对数运算，将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比；

2043、计算片段音频文件的有效时间占比，并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值，若是，则执行步骤2044，若否，则将片段音频文件舍弃；

其中，计算片段音频文件的有效时间占比具体为：

20431、获取片段音频文件中语音帧的总时长；

20432、获取片段音频文件中所有帧的总时长；

20433、将语音帧的总时长与所有帧的总时长相除，得到片段音频文件的有效时间占比；

2044、计算片段音频文件的平均能量值，并判断片段音频文件的平均能量值是否高于预置平均能量值阈值，若是，则确定片段音频质量合格，并保存片段音频文件，若否，则将片段音频文件舍弃；

其中，计算片段音频文件的平均能量值具体为：

20441、获取片段音频文件中每帧语音帧的能量值的幅值；

20442、将每帧语音帧的能量值的幅值进行加权计算，得到片段音频文件的能量值加权值；

20443、获取片段音频文件中语音帧的帧数；

20444、将能量值的加权值与语音帧的帧数相除，得到片段音频文件的平均能量值。

205、将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

以上是对本发明提供的一种基于语音激活检测的语音质量评估方法的另一个实施例进行说明，以下将对本发明提供的一种基于语音激活检测的语音质量评估装置的一个实施例进行说明。

请参阅图3，本发明提供了一种基于语音激活检测的语音质量评估装置的一个实施例，包括：

获取单元301，用于获取样本音频文件的PCM二进制数据；

分帧单元302，用于对样本音频文件的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

语音激活检测单元303，用于依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

质量检测单元304，用于以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，确定不存在削顶失真的片段音频，并计算片段音频文件的信噪比、有效时间占比和平均能量值，并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较，若信噪比、有效时间占比和平均能量值均高于对应的预设阈值，则确定片段音频文件质量合格，并保存片段音频文件；

音频拼接合成单元305，用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

以上是对本发明提供的一种基于语音激活检测的语音质量评估装置的一个实施例进行说明，以下将对本发明提供的一种基于语音激活检测的语音质量评估装置的另一个实施例进行说明。

请参阅图4，本发明提供了一种基于语音激活检测的语音质量评估装置的另一个实施例，包括：

获取单元401，用于获取样本音频文件的PCM二进制数据；

分帧单元402，用于对样本音频文件的PCM二进制数据进行分帧处理，得到每帧PCM二进制数据对应的短时平稳音频信号；

语音激活检测单元403，用于依次按帧对短时平稳音频信号进行语音激活检测，确定短时平稳音频信号对应的帧为语音帧或非语音帧；

质量检测单元404，用于以预置帧数为步长对样本音频文件的片段音频文件进行语音质量检测，确定不存在削顶失真的片段音频，并计算片段音频文件的信噪比、有效时间占比和平均能量值，并依次将信噪比、有效时间占比和平均能量值与对应的预设阈值进行比较，若信噪比、有效时间占比和平均能量值均高于对应的预设阈值，则确定片段音频文件质量合格，并保存片段音频文件；

质量检测单元404包括：

削顶检测单元4041，用于对片段音频文件进行削顶检测，并判断片段音频文件是否存在削顶失真，若是，则将片段音频文件舍弃，若否，则跳转至信噪比计算判断单元4042；

信噪比计算判断单元4042，用于计算片段音频文件的信噪比，并判断片段音频文件的信噪比是否高于预置信噪比阈值，若是，则跳转至有效时间占比计算判断单元4043，若否，则将片段音频文件舍弃；

信噪比计算判断单元4042包括：

第一获取子单元40421，用于获取片段音频文件的语音平均幅值；

第二获取子单元40422，用于获取片段音频文件的噪声平均幅值；

信噪比计算子单元40423，用于以语音平均幅值与噪声平均幅值相除得到的比值为底数，e为对数进行对数运算，将得到的对数运算结果乘以倍数20得到片段音频文件的信噪比；

有效时间占比计算判断单元4043，用于计算片段音频文件的有效时间占比，并判断片段音频文件的有效时间占比是否高于预置有效时间占比阈值，若是，则跳转至平均能量值计算判断单元4044，若否，则将片段音频文件舍弃；

有效时间占比计算判断单元4043包括：

第三获取子单元40431，用于获取片段音频文件中语音帧的总时长；

第四获取子单元40432，用于获取片段音频文件中所有帧的总时长；

有效时间占比计算子单元40433，用于将语音帧的总时长与所有帧的总时长相除，得到片段音频文件的有效时间占比；

平均能量值计算判断单元4044，计算片段音频文件的平均能量值，并判断片段音频文件的平均能量值是否高于预置平均能量值阈值，若是，则确定片段音频质量合格，并保存片段音频文件，若否，则将片段音频文件舍弃；

平均能量值计算判断单元4044包括：

第五获取子单元40441，用于获取片段音频文件中每帧语音帧的能量值的幅值；

加权计算子单元40442，用于将每帧语音帧的能量值的幅值进行加权计算，得到片段音频文件的能量值加权值；

第六获取子单元40443，用于获取片段音频文件中语音帧的帧数；

平均能量值计算子单元40444，用于将能量值的加权值与语音帧的帧数相除，得到片段音频文件的平均能量值；

音频拼接合成单元405，用于将保存的质量合格的片段音频文件拼接合成为完整的音频文件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音激活检测的语音质量评估方法，其特征在于，包括：

S1、获取样本音频文件的PCM二进制数据；

2.根据权利要求1所述的基于语音激活检测的语音质量评估方法，其特征在于，步骤S4中语音质量检测为：

3.根据权利要求2所述的基于语音激活检测的语音质量评估方法，其特征在于，步骤S402中计算片段音频文件的信噪比具体为：

获取片段音频文件的语音平均幅值；

获取片段音频文件的噪声平均幅值；

4.根据权利要求2所述的基于语音激活检测的语音质量评估方法，其特征在于，步骤S403中计算片段音频文件的有效时间占比具体为：

获取片段音频文件中语音帧的总时长；

获取片段音频文件中所有帧的总时长；

5.根据权利要求2所述的基于语音激活检测的语音质量评估方法，其特征在于，步骤S404中计算片段音频文件的平均能量值具体为：

获取片段音频文件中每帧语音帧的能量值的幅值；

获取片段音频文件中语音帧的帧数；

6.一种基于语音激活检测的语音质量评估装置，其特征在于，包括：

获取单元，用于获取样本音频文件的PCM二进制数据；

7.根据权利要求6所述的基于语音激活检测的语音质量评估装置，其特征在于，质量检测单元包括：

8.根据权利要求7所述的基于语音激活检测的语音质量评估装置，其特征在于，信噪比计算判断单元包括：

第一获取子单元，用于获取片段音频文件的语音平均幅值；

第二获取子单元，用于获取片段音频文件的噪声平均幅值；

9.根据权利要求7所述的基于语音激活检测的语音质量评估装置，其特征在于，有效时间占比计算判断单元包括：

10.根据权利要求7所述的基于语音激活检测的语音质量评估装置，其特征在于，平均能量值计算判断单元包括：

第六获取子单元，用于获取片段音频文件中语音帧的帧数；