CN104282315B

CN104282315B - 音频信号分类处理方法、装置及设备

Info

Publication number: CN104282315B
Application number: CN201310274580.9A
Authority: CN
Inventors: 许丽净
Original assignee: Huawei Technologies Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2013-07-02
Filing date: 2013-07-02
Publication date: 2017-11-24
Anticipated expiration: 2033-07-02
Also published as: CN104282315A; WO2015000401A1

Abstract

本发明提供一种音频信号分类处理方法、装置及设备，其中方法包括：获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。本发明提供的技术方案，能够提高音频信号的分类正确率。

Description

音频信号分类处理方法、装置及设备

技术领域

本发明实施例涉及信号处理技术领域，尤其涉及一种音频信号分类处理方法、装置及设备。

背景技术

在移动通信系统的语音质量评估中，现有的语音质量评估模型不适用于音乐信号。但是，实际应用中的待分析信号中可能会包括音乐信号，比如彩铃等。语音质量评估模型会将其视为语音信号，给出错误的质量评估结果。针对该问题，在将待分析信号输入至语音质量评估模块之前，应先对其进行信号分类。如果识别出该段信号为语音信号，将其送入语音质量评估模块进行质量评估；如果识别出该段信号为音乐信号，则不送入语音质量评估模块。

现有技术提供有应用于语音音乐联合编码器的音频信号分类方法，但是该分类方法是针对具有高采样率的语音音乐联合编码器，对于语音质量评估模型而言，其中存在的音乐信号普遍缺少高频信息，利用现有的应用于语音音乐联合编码器的音频信号分类方法，仅能识别出少数的音乐信号，且分类正确率低，不能够满足语音质量评估的要求。

发明内容

本发明提供一种音频信号分类处理方法、装置及设备，用于提高音频信号的分类正确率。

本发明的第一个方面是提供一种音频信号分类处理方法，包括：

获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

根据获取的所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

在上述第一个方面的第一种可能中，在所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前N帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；

所述获取所述音频信号中待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数包括：

获取所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数，N1为正整数；

所述根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号包括：

在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

结合上述第一个方面的第一种可能的第二种可能中，上述获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧和待分类帧前N1帧进行快速傅里叶变换，获取功率密度谱；

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧作为待分类帧的音调分布参数，以及待分类帧前N1帧的音调分量的频域分布信息作为待分类帧前N1帧的音调分布参数；

所述根据待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧和待分类帧前N1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

结合上述第一个方面的第一种可能的第三种可能中，上述获取所音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，以及待分类帧前N1帧的高频能量分布比和声压级作为待分类帧前N1帧的能量分布参数；

所述根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧和待分类帧前N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数；

所述根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧和待分类帧前N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

在结合上述第一个方面或第一个方面的任一种可能的第四种可能中，在延时L1帧获取所述待分类帧的分类结果时，L1为正整数，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧，待分类帧前N2帧，以及待分类帧后L1帧的音调分布参数，并根据所述待分类帧，待分类帧前N2帧以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N2为正整数；

获取所述音频信号中待分类帧，以及待分类帧前N2帧以及待分类帧后L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N2帧以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；

在结合上述第一个方面的第四种可能的第五种可能中，所述获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前N2帧和待分类帧帧后L1帧进行快速傅里叶变换，获取功率密度谱；

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N2帧的音调分量的频域分布信息作为待分类帧前N2帧的音调分布参数，以及待分类帧帧后L1帧的音调分量的频域分布信息作为待分类帧帧后L1帧的音调分布参数；

所述根据待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧、待分类帧前N2帧和待分类帧帧后L1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

在结合上述第一个方面的第四种可能的第六种可能中，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前N2帧的高频能量分布比和声压级作为待分类帧前N2帧的能量分布参数和待分类帧后L1帧的高频能量分布比和声压级作为待分类帧后L1帧的能量分布参数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前N2帧和待分类帧后L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前N2帧和待分类帧后L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

在结合上述第一个方面、第一个方面的上述任一种可能的第七种可能中，在延时L2+L3帧获取所述待分类帧的分类结果时，L2和L3为正整数，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧，待分类帧前N3帧，以及待分类帧后L2帧的音调分布参数，并根据所述待分类帧，待分类帧前N3帧以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N3为正整数；

获取所述音频信号中待分类帧，以及待分类帧前N3帧以及待分类帧后L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N3帧以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；

在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；

若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前N4帧和待分类帧后L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号，N4为正整数；

若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前N4帧和待分类帧后L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

在结合上述第一个方面的第七中可能的第八种可能中，所述获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前N3帧和待分类帧帧后L2帧进行快速傅里叶变换，获取功率密度谱；

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N3的音调分量的频域分布信息作为待分类帧前N3帧的音调分布参数帧和待分类帧帧后L2帧的音调分量的频域分布信息作为待分类帧帧后L2帧的音调分布参数；

所述根据待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧、待分类帧前N3帧和待分类帧帧后L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

在结合上述第一个方面的第七中可能的第九种可能中，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前N3帧的高频能量分布比和声压级作为待分类帧前N3帧的能量分布参数，以及待分类帧帧后L2帧的高频能量分布比和声压级作为待分类帧前N3帧的能量分布参数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前N3帧和待分类帧后L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数；

所述根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前N3帧和待分类帧后L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

在结合上述第一个方面的第二种可能、第五种可能或第八种可能的第十种可能中，所述待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

本发明的第二个方面是提供一种音频信号分类处理装置，包括：

第一获取模块，用于获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

分类确定模块，用于根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧的高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

在结合上述第二个方面的第一种可能中，所述第一获取模块具体用于获取音频信号中待分类帧，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；或，

具体用于获取所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

所述分类确定模块具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

结合上述第二个方面第一种可能的第二种可能中，所述第一获取模块获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，以及待分类帧前N1帧的音调分量的频域分布信息作为待分类帧前N1帧的音调分布参数；

所述分类确定模块根据待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

结合上述第二个方面第一种可能的第三种可能中，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

所述分类确定模块根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述分类确定模块根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合上述第二个方面或第二个方面的任一种可能的第四种可能中，在延时L1帧获取所述待分类帧的分类结果时，L1为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前N2帧，以及待分类帧后L1帧的音调分布参数，并根据所述待分类帧，待分类帧前N2帧以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N2为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前N2帧以及待分类帧后L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N2帧以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；

结合上述第二个方面第四种可能的第五种可能中，所述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

所述分类确定模块根据待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

在结合上述第二个方面第四种可能的第六种可能中，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前N2帧的高频能量分布比和声压级作为待分类帧前N2帧的能量分布参数和待分类帧帧后L1帧的高频能量分布比和声压级作为待分类帧后L1帧的能量分布参数；

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合上述第二个方面和第二个方面的上述任一种可能的第七种可能中，在延时L2+L3帧获取所述待分类帧的分类结果时，L2和L3为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前N3帧，以及待分类帧后L2帧的音调分布参数，并根据所述待分类帧，待分类帧前N3帧以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N3为正整数；或，

具体用于获取所述音频信号中待分类帧，以及待分类帧前N3帧以及待分类帧后L3帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N3帧以及待分类帧后L3帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

所述分类处理模块具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前N4帧和待分类帧中后L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前N4帧和待分类帧中后L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号，N4为正整数。

在结合上述第二个方面的第七种可能的第八种可能中，所述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N3帧的音调分量的频域分布信息作为待分类帧前N3帧的音调分布参数，以及待分类帧帧后L2帧的音调分量的频域分布信息作为待分类帧后L2帧的音调分布参数；

所述分类确定模块根据待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧、待分类帧前N3帧和待分类帧后L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

在结合上述第二个方面的第七种可能的第九种可能中，所述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前N3帧的高频能量分布比和声压级作为待分类帧前N3帧的能量分布参数，以及待分类帧帧后L2帧的高频能量分布比和声压级作为待分类帧后L2帧的能量分布参数；

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

在结合上述第二个方面的第二种可能、第五种可能或第八种可能的第十种可能中，所述第一获取模块获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。满足连续性约束条件的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

结合上述第二个方面的第一种可能、第二种可能或第三中可能的第六种可能中，上述第一获取模块具体用于获取接收到的音频信号中的各帧的高频能量分布比和声压级；以及根据所述接收到的音频信号中的各帧的高频能量分布比和声压级，获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数，或，根据所述接收到的音频信号中的各帧的高频能量分布比和声压级，获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

本发明的第三个方面是提供一种音频信号分类处理设备，包括：

接收器，用于接收音频信号；

处理器，与所述接收器连接，用于获取接收器接收到的音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

在第三个方面的第一种可能中，所述处理器具体用于获取音频信号中待分类帧，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前N帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；获取所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数，N1为正整数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

结合上述第第三个方面的第一种可能的第二种可能中，所述处理器获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，以及和待分类帧前N1帧的音调分量的频域分布信息作为待分类帧前N1帧的音调分布参数；

所述处理器根据待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

结合上述第第三个方面的第一种可能的第三种可能中，所述处理器获取所音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合第三个方面或第三个方面的上述任一种可能的第四种可能中，在延时L1帧获取所述待分类帧的分类结果时，L1为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前N2帧，以及待分类帧后L1帧的音调分布参数，并根据所述待分类帧，待分类帧前N2帧以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N2为正整数；获取所述音频信号中待分类帧，以及待分类帧前N2帧以及待分类帧后L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N2帧以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

在结合第三个方面的第四种可能的第五种可能中，所述处理器获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N2帧的音调分量的频域分布信息作为待分类帧前N2帧的音调分布参数，以及待分类帧帧后L1帧的音调分量的频域分布信息作为待分类帧帧后L1帧的音调分布参数；

所述处理器根据待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

在结合第三个方面的第四种可能的第六种可能中，所述处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合第三个方面、第三个方面的上述任一种可能的第七种可能中，在延时L2+L3帧获取所述待分类帧的分类结果时，L2和L3为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前N3帧，以及待分类帧后L2帧的音调分布参数，并根据所述待分类帧，待分类帧前N3帧以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N3为正整数；获取所述音频信号中待分类帧，以及待分类帧前N3帧以及待分类帧后L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N3帧以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前N4帧和待分类帧后L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号，N4为正整数；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前N4帧和待分类帧后L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

结合上述第三个方面的第七种可能的第八种可能中，所述处理器获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N3帧的音调分量的频域分布信息作为待分类帧前N3帧的音调分布参数和待分类帧帧后L2帧的音调分量的频域分布信息作为待分类帧后L2帧的音调分布参数；

所述处理器根据待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

结合上述第三个方面的第七种可能的第九种可能中，所述处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前N3帧作为待分类帧前N3帧的能量分布参数，以及待分类帧帧后L2帧的高频能量分布比和声压级作为待分类帧后L2帧的能量分布参数；

所述处理器根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

所述处理器根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

结合上述第三个方面的第二种可能、第五种可能或第八种可能的第十种可能中，所述处理器获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。满足连续性约束条件的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

本发明提供的技术方案，主要是考虑到音乐信号的特性，例如音乐信号的音调持续时间较长，而语音信号的音调持续时间较短，音乐信号的能量可以持续分布在高频区域或低频区域，而语音信号通常不能持续分布在高频区域或低频区域，在考虑音乐信号上述特点的基础上，本发明实施例提供的技术方案中，首先获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量，以及音频信号中待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数，并根据上述信息确认待分类帧的类型是音乐信号，还是语音信号，上述技术方案提供的音频信号分类处理方法，能够提高音频信号分类的正确率，满足语音质量评估的要求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中音频信号分类处理方法的流程示意图一；

图2为本发明具体实施例中的流程示意图一；

图3a为输入信号“法语男声+笙”的波形图一；

图3b为与图3a对应的语谱图；

图4a为音频信号“京胡+法语男声的信号”的输入信号的波形图；

图4b为与图4a对应的语谱图；

图5a为输入信号“韩语男声+合奏”的波形图；

图5b为与图5a对应的语谱图；

图6a为输入信号“法语男声+笙”的波形图二；

图6b为图6a所示输入信号的初始音调检测结果；

图6c为图6a所示输入信号筛选后的音调检测结果；

图7a为输入信号“法语男声+笙”的波形图三；

图7b为图7a对应的音调特征num_tonal_flag的曲线图；

图8a为输入信号“京胡+法语男声”的波形图；

图8b为与图8a对应的高频能量分布比值ratio_energy_hf(k)的曲线图；

图9a为输入信号“韩语男声+合奏”的波形图；

图9b为与图9a对应的高频能量分布比值ratio_energy_hf(k)的曲线图；

图10为本发明实施例中音频信号分类规则流程示意图一；

图11a为输入信号“中文女声+合奏+英语男声+塤+德语男声+响板”的波形图一；

图11b为图11a对应的分类结果示意图；

图12a为输入信号“中文女声+合奏+英语男声+塤+德语男声+响板”的波形图二；

图12b为图12a对应的平滑后的分类结果示意图；

图13为本发明实施例中音频信号分类规则流程示意图二；

图14a为输入信号“中文女声+合奏+英语男声+塤+德语男声+响板”的波形图三；

图14b为图14a对应的实时分类结果示意图；

图15为本发明实施例中输出延时不固定的情况下语音分类方法流程图；

图16a为输入信号“中文女声+合奏+英语男声+塤+德语男声+响板”的波形图四；

图16b为图16a对应的三种分类方式的分类结果示意图；

图17为本发明实施例中音频信号分类处理装置的结构示意图；

图18为本发明实施例中音频信号分类处理设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中的缺陷，本发明实施例提供了一种音频信号分类处理方法，图1为本发明实施例中音频信号分类处理方法的流程示意图一，如图1所示，该方法包括如下步骤：

步骤101、获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

步骤102、根据获取的所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

本发明实施例提供的音频信号分类处理方法，在进行音频信号中的各帧进行分类时，既可以无输出延时的输出分类结果，即对于接收到的音频信号帧，实时输出分类结果，也可以存在一定的输出延时，即对于接收到的音频信号帧，延迟一段时间给出分类结果。

本发明上述实施例提供的技术方案，主要是考虑到音乐信号的特性，例如音乐信号的音调持续时间较长，而语音信号的音调持续时间较短，音乐信号的能量可以持续分布在高频区域或低频区域，而语音信号通常不能持续分布在高频区域或低频区域，在考虑音乐信号上述特点的基础上，本发明实施例提供的技术方案中，首先获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量，以及音频信号中待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数，并根据上述信息确认待分类帧的类型是音乐信号，还是语音信号，上述技术方案提供的音频信号分类处理方法，能够提高音频信号分类的正确率，满足语音质量评估的要求。

本发明上述实施例中，其中根据输出延时要求的不同，可以分为三种情况，一是在实时获取所述待分类帧的分类结果时，需要根据待分类帧，以及待分类帧之前的N帧的信息进行判断，二是在允许较小的分类结果输出延时，即输出延时为L1帧时，L1为正整数，可以根据待分类帧，待分类帧前L1帧，以及待分类帧后L1帧进行判断；三是允许较大分类结果输出延时，即输出延时为L2+L3帧时，L2和L3为正整数，先根据待分类帧，待分类帧前L2帧，以及待分类帧后L2帧进行判断，获取初步的待分类帧的分类结果，然后再根据待分类帧前L3帧和待分类帧中后L3帧进行修改。其中，在无输出延时时，对于最先接收到的音频信号中的帧无法进行分类，可以将最先接收到的帧设置默认值，默认其为语音信号或音乐信号。

具体的，在无输出延时，即实时获取所述待分类帧的分类结果时，图1所示实施例中的步骤101获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量具体包括：

获取音频信号中待分类帧，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；

图1所示实施例的步骤101中获取所述音频信号中待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数包括：

图1所示实施例的步骤102中根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号包括：

上述实施例中，其中获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧作为待分类帧的音调分布参数，以及待分类帧前N1帧的音调分量的频域分布信息作为待分类帧前N1帧的音调分布参数。

而上述的根据待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，上述获取所音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，以及待分类帧前N1帧的高频能量分布比和声压级作为待分类帧前N1帧的能量分布参数。

而上述根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

上述根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

在允许L1帧分类结果输出延时，即延时L1帧获取所述待分类帧的分类结果时，图1所示实施例的步骤101中获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

在上述实施例中，其中获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

另外，上述获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

在允许分类结果输出延时为L2+L3帧，即延时L2+L3帧获取所述待分类帧的分类结果时，图1所示实施例的步骤101中获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取所述音频信号中待分类帧，以及待分类帧前N3帧以及待分类帧后L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N3帧以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数。

若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前L3帧和待分类帧中后L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号；

若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前L3帧和待分类帧中后L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

在上述实施例中，所述获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N3帧的音调分量的频域分布信息作为待分类帧前N3帧的音调分布参数，以及待分类帧帧后L2帧的音调分量的频域分布信息作为待分类帧帧后L2帧的音调分布参数；

另外，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

上述针对是否允许输出延时的三种情形下，其中待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

以下分别针对上述允许分类结果输出延时等情况进行详细说明。首先，以允许L1帧的少量固定输出延时为例，本实施例中L1取值为15。图2为本发明具体实施例中的流程示意图一，如图2所示，包括如下的步骤：

步骤201、对当前帧第i帧进行FFT变换，本步骤中是针对接收到的每帧都进行FFT变换；

步骤202、基于FFT变换结果，获取第i帧的音调分布参数，及其能量分布参数；

步骤203、判断i>L1是否成立，即当前帧之前是否已存在L1个帧，如果是执行步骤204，否则结束本流程，继续执行针对后续的各帧执行上述步骤201和步骤202的操作；

步骤204、在i>L1时，则可以获取第i-L1帧的音频信号分类结果，具体的可以过去的信息，即按照上述步骤201和步骤202获取的第i-L1帧之前的若干帧的音调分布参数和能量分布参数，现在的信息，即第i-L1帧的音调分布参数和能量分布参数，以及未来的信息，即第i-L1帧之后的L1帧的音调分布参数和能量分布参数，获取第i-L1帧的音频信号分类结果；

步骤205，输出第i-L1帧的音频信号分类结果。

具体的，对于音乐信号和语音信号的音调分布情况，可以参照图3a和图3b，图3a为输入信号“法语男声+笙”的波形图一，图3b为与图3a对应的语谱图。在图3a的输入信号波形中，采样率为8kHz，其中，横轴为样本点，纵轴为归一化幅值；图3b的语谱图，对应的采样率也为8kHz，频率分析范围为0～4kHz。其中，横轴为帧，与图3a横轴的样本点相对应；纵轴为频率(Hz)。在语谱图中，某个频率范围内的亮度越高，表示信号在该频段的能量越大。如果信号在某频段持续保持较大的能量，在语谱图上就会形成一条“亮带”，也就是音调。通过图3b的音调分布情况可知，在前半段的语音信号中，除了基频处的音调持续时间稍长一些，更高频率处的音调持续时间都是很短的。在语音信号中，能够检测出音调的地方为浊音。由于浊音的长度通常较短，与之相对应的音调持续时间也较短；而在后半段的音乐信号中，音调持续时间明显较长。

对于音乐信号和语音信号的能量分布情况，可以参照图4a和图4b，图4a为音频信号“京胡+法语男声的信号”的输入信号的波形图，图4b为与图4a对应的语谱图。在图4a的波形图中，其中，横轴为样本点；纵轴为归一化幅值；图4b的语谱图中，横轴为帧；纵轴为频率(Hz)。通过图4b的能量分布情况可知：在前半段的音乐信号中，能量基本分布在1kHz以上，在1kHz至4kHz均有分布；在后半段的语音信号中，大部分浊音的能量主要分布在1kHz以下；清音的能量在低频至较高频率范围内均有分布。因此，语音信号的能量不可能持续分布在相对较高的频率范围内。

另外，部分音乐信号的能量能够持续分布在低频区域；相比之下，语音信号的能量不可能持续分布在低频区域。以图5a和图5b所示的“韩语男声+合奏”的音频信号为例说明，图5a为输入信号“韩语男声+合奏”的波形图，其中，横轴为样本点；纵轴为归一化幅值；图5b为与图5a对应的语谱图，其中，横轴为帧；纵轴为频率(Hz)。通过可以看出如下的能量分布情况：图5b前半段的语音信号的能量分布情况与图4b的语音信号类似。由于浊音和清音的能量分布特性不同，造成语音信号的能量分布具有较大的波动。因此，语音信号的能量既不可能持续分布在相对较高的频率范围内，也不可能持续分布在低频范围内；在后半段的音乐信号中，能量主要分布在1kHz以下。

综上所述，音乐信号与语音信号的不同之处主要有：一是部分音乐信号的音调持续时间较长，语音信号的音调持续时间通常较短；二是部分音乐信号的能量能够持续分布在相对较高的频率范围内；语音信号的能量不能持续分布在相对较高的频率范围内；三是部分音乐信号的能量能够持续分布在低频区域；语音信号的能量不能持续分布在低频区域。本发明各实施例中的低频和高频的划分，可以根据语音信号的分布区域确定，将语音信号主要分布的区域定义为低频区域，例如将1kHz以下定义为低频区域，而将1kHz定义为高频区域，当然其具体取值也可以根据具体的应用场景的不同，针对的具体语音信号的不同而有所区别。

基于上述分类原理，需要提取的特征主要有音调特征及能量特征。

具体的，提取音调特征可以分为三个步骤：

A、获取初始音调检测结果，即各帧的音调分布参数；

B、通过连续性分析，对初始音调检测结果进行筛选，确定待分类帧中满足连续性约束条件的音调分量，该音调分量是指能量在频域上的一种分布形式；

C、基于筛选后的音调检测结果，提取音调特征，即待分类帧的满足连续性约束条件的音调分量的数量。

其中，上述获取初始音调检测结果可以包括：首先，对各个帧的数据进行FFT变换，获取功率密度谱；其次，确定功率密度谱中的局部极大点；最后，针对以局部极大点为中心的若干功率密度谱系数进行分析，进一步确定局部极大点是否为真正的音调分量。

本实施例中，设输入信号的采样率为8kHz，有效带宽为4kHz，FFT变换大小为F，其取值为1024，功率密度谱的局部极大点为

本实施例中，如何选取以局部极大点为中心的若干功率密度谱系数进行分析，是比较灵活的，可以根据算法需要设定。例如可以采用如下方式实现：

如果局部极大点P_f满足以下条件：

p_f-p_(f±i)≥7dB，其中i＝2,3,…,10

即判断局部极大点与相邻的其他点的数值差异较大时，本实施例中差异为7dB，则说明该局部极大点是真正的音调分量。

对于上述音调连续性分析的步骤，可以设tonal_flag_original[k][f](0≤f＜F/2)表示初始音调检测结果，取值为1表示第k帧数据在f处存在音调分量，取值为0表示第k帧数据在f处不存在音调分量。相对于第k帧，位于第k帧之前的L1帧数据被称为过去帧，位于第k帧之后的L1数据被称为未来帧。设第k帧数据在fx处存在音调分量，即tonal_flag_original[k][fx]＝1。针对位于第k帧fx处的音调分量，音调连续性分析的步骤为：

步骤1、统计该音调分量与过去多少帧的音调分量具有连续性，表示为num_left，初始化变量num_left为0，不具有连续性的帧数用num_non_tonal标识，初始化变量num_non_tonal为0，并记录待分析音调分量所处的位置：pos_cur＝fx；

检查tonal_flag_original[k-1][f]((pos_cur-3)≤f≤(pos_cur+3))的取值：

如果取值全为0，说明第(k-1)帧数据在(pos_cur-3)≤f≤(pos_cur+3)区间不存在音调分量，即位于第k帧fx处的音调分量与第(k-1)帧的音调分量之间出现间断，记录下本次不连续性事件：num_non_tonal＝num_non_tonal+1；

如果tonal_flag_original[k-1][pos_cur+x]＝1(-3≤x≤3)，说明第(k-1)帧数据在(pos_cur-3)≤f≤(pos_cur+3)区间存在音调分量，即位于第k帧fx处的音调分量与第(k-1)帧的音调分量之间具有连续性：

记录第(k-1)帧音调分量所处的位置：pos_cur＝pos_cur+x；

统计出现连续性的帧数：num_left＝num_left+1；

设置变量num_non_tonal为0；

依次检测第(k-1)帧、第(k-2)帧等与前一帧的音调分量之间是否存在连续性。在每次检测之前，首先需要判断num_non_tonal的大小：

如果num_non_tonal≥a1，说明待分析音调分量与过去帧音调分量之间的间断已经超过预设的范围，已不再具有连续性。不必继续检测下去，输出num_left；

如果num_non_tonal＜a1，说明待分析音调分量与过去帧音调分量之间的间断还在预设的范围内，继续检测下去。直到检测完过去L1帧数据，输出num_left。

步骤2、统计该音调分量与未来多少帧的音调分量具有连续性，表示为num_right；

类似于上述步骤1，依次检测第k帧、第(k+1)帧等与后一帧的音调分量之间是否存在连续性，输出num_right。

步骤3：根据num_left及num_right，对初始音调检测结果进行筛选，如果满足以下两个条件之一：

(num_left+num_right)≥a2；

num_right≥a3。

说明位于第k帧fx处的音调分量具有一定的连续性，保留初始音调检测结果，否则不保留。在本实施例中，可以设a1＝5；a2＝10；a3＝8。

以图3a和图3b给出的法语男声+笙的音频信号为例，给出音调连续性分析的实例，如图6a和6b所示，图6a为输入信号“法语男声+笙”的波形图二；图6b为图6a所示输入信号的初始音调检测结果。其中，横轴为帧，与图6a横轴的样本点相对应；纵轴取值为0～511，每点对应的频域分辨率为4000Hz/512＝7.8125Hz。如果某帧数据在纵轴某点对应的频率范围内存在音调分量，将其标识为白色，否则为黑色。如果连续若干帧信号在某个频率范围内存在音调分量，会形成“白线”。该“白线”与图3b语谱图中的“亮带”是相对应的；图6c为图6a所示输入信号筛选后的音调检测结果。与图6b的初始音调检测结果相比，在前半段的语音信号中，仅保留了基频及其附近的音调持续时间稍长的少量音调分量，其余的音调分量均已去掉；在后半段的音乐信号中，绝大部分的音调分量均被保留下来。

最后进行音调特征提取，其中针对筛选后的音调检测结果，统计较低频率至高频范围(对应于a4≤f＜F/2)的每帧音调分量的数量，表示为num_tonal_flag。如果num_tonal_flag越大，说明对应信号中音调分量持续时间越长，该信号是音乐信号的可能性越大。

如上述图6c所示，语音信号在基频及其附近频率范围内可能会存在少许音调持续时间稍长的音调分量。因此，统计每帧音调分量的数量的范围不是从f＝0开始的，而是从f＝a4开始的，这样可以避免将某些基频音调分量持续时间较长的语音信号误判为音乐信号。即上述统计的满足连续性约束条件的音调分量的数量为在频域上大于第七阈值的音调分量的数量。在本实施例中，可以设a4＝40。

仍以图3a和图3b给出的“法语男声+笙”的音频信号为例说明，如图7a和图7b所示，图7a为输入信号“法语男声+笙”的波形图三；图7b为图7a对应的音调特征num_tonal_flag的曲线图。其中，横轴为帧，与图7a横轴的样本点相对应；纵轴为音调分量的数量。由图7a和图7b可见，在前半段的语音信号中，num_tonal_flag始终为0，与后半段笙的音调特征具有明显区别。

本发明上述实施例中的能量特征提取方式如下，在提取能量特征之前，首先需要计算各帧的高频能量分布比值ratio_energy_hf(k)及声压级spl(k)，其中k表示帧数。

其中，高频能量分布比值可表示为：

其中，Re_fft(f)表示第k帧的FFT变换的实部，Im_fft(f)表示第k帧的FFT变换的虚部。分母表示第k帧的总能量；分子表示第k帧在f＝a5～(F/2-1)所对应的较高频率范围内的能量总和。如果ratio_energy_hf(k)较小，说明第k帧能量主要分布在低频；反之，说明第k帧能量主要分布在较高频率范围内。

声压级可以表示为：

其中，pow_spec(f)表示第k帧的功率密度谱。如果spl(k)较小，说明第k帧总能量较小，如果spl(k)较大，则说明第k帧总能量较大。

基于高频能量分布比值及声压级，进一步分析能量在高频的分布特性及能量在低频的分布特性。

在获取能量在高频的分布特性时，仍以图4给出的“京胡+法语男声”的音频信号为例，其中图8a为输入信号“京胡+法语男声”的波形图，图8b为与图8a对应的高频能量分布比值ratio_energy_hf(k)的曲线图，其中，横轴为帧，与图8a横轴的样本点相对应；纵轴为高频能量分布比值。通过图8b可知高频能量分布比值曲线的变化情况：

在前半段的音乐信号中，除了演奏间隙的短暂停顿处，高频能量分布比值基本上大于0.8，说明该段京胡信号的能量能够持续分布在较高频率范围内；

在后半段的语音信号中，少量的浊音以及部分清音的高频能量分布比值较大，大部分浊音以及部分清音的高频能量分布比值都是比较小的，导致高频能量分布比值曲线的波动较大，说明语音信号的能量是无法持续分布在较高频率范围内的。

针对第k帧，为了表示能量在高频的分布特性，基于高频能量分布比值ratio_energy_hf(k)及声压级spl(k)，提取以下特征：

num_big_ratio_energy_left：表示位于第k帧之前的L1帧数据中，能量能够持续分布在高频的过去帧的帧数；

num_big_ratio_energy_right：表示位于第k帧之后的L1帧数据中，能量能够持续分布在高频的未来帧的帧数。

在提取上述特征之前，首先检查高频能量分布比值ratio_energy_hf(k)及声压级spl(k)是否满足以下条件：(ratio_energy_hf(k)＞a6)&&(spl(k)＞a7)。如果满足该条件，进一步分析第k帧能量是否能够持续分布在较高频率范围内。

获取num_big_ratio_energy_left的步骤为：

步骤1、初始化变量num_big_ratio_energy_left为0；

步骤2、初始化变量num_non_big_ratio为0；

步骤3、检查ratio_energy_hf(k-1)及spl(k-1)是否满足以下条件：

(ratio_energy_hf(k-1)＞a6)&&(spl(k-1)＞a7)

如果不满足上述条件，说明第(k-1)帧数据的能量没有分布在较高频率范围内，记录下本次事件：num_non_big_ratio＝num_non_big_ratio+1；

如果满足上述条件，说明第(k-1)帧数据的能量持续分布在较高频率范围内，统计能量能够持续分布在高频的过去帧的帧数：

num_big_ratio_energy_left＝num_big_ratio_energy_left+1；

设置变量num_non_big_ratio为0。

类似于步骤3，依次检测第(k-2)帧、第(k-1)帧等数据的能量能否持续分布在较高频率范围内。在每次检测之前，首先需要判断num_non_big_ratio的大小，如果num_non_big_ratio≥a8，说明能量无法持续分布在较高频率范围内的状态已经超过预设的范围，不必继续检测下去，输出num_big_ratio_energy_left；如果num_non_big_ratio＜a8，说明能量无法持续分布在较高频率范围内的状态还在预设的范围内，继续检测下去，直到检测完过去L1帧数据，输出num_big_ratio_energy_left。

获取num_big_ratio_energy_right的步骤是类似的。依次检测第(k+1)帧、第(k+2)帧等数据的能量能否持续分布在较高频率范围内，输出num_big_ratio_energy_right。

对于低频能量的分布特性获取，以图5a给出的“韩语男声+合奏”的输入信号为例，观察能量在低频的分布特性，如图9a和图9b所示，图9a为输入信号“韩语男声+合奏”的波形图，图9b为与图9a对应的高频能量分布比值ratio_energy_hf(k)的曲线图。其中，横轴为帧；纵轴为高频能量分布比值。通过观察图9b所示的在高频能量分布比值曲线的变化情况，可知，在前半段的语音信号中，高频能量分布比值曲线的波动较大，说明语音信号的能量是无法持续分布在低频的；在后半段的音乐信号中，高频能量分布比值基本上小于0.1，说明该段合奏信号的能量能够持续分布在低频。

针对第k帧，为了表示能量在低频的分布特性，基于高频能量分布比值ratio_energy_hf(k)及声压级spl(k)，提取以下特征：

num_small_ratio_energy_left：表示能量能够持续分布在低频的过去帧的帧数；

num_small_ratio_energy_right：表示位于第k帧之后的L1帧数据中，能量能够持续分布在低频的未来帧的帧数；

与num_big_ratio_energy_left等参数的获取过程不同，num_small_ratio_energy_left并不是仅仅针对过去L1帧数据分析得出的，而是每计算出一帧ratio_energy_hf(i)(i≥0)，就会更新一次num_small_ratio_energy_left。

其中，获取num_small_ratio_energy_left的步骤为：

步骤1、当i＝0时，初始化num_small_ratio_energy_left为0；

步骤2、检查每一帧ratio_energy_hf(i)(i≥0)是否满足条件：ratio_energy_hf(i)＜a9；

如果满足上述条件，则num_small_ratio_energy_left＝num_small_ratio_energy_left+1；如果不满足上述条件，则num_small_ratio_energy_left＝0。

在提取特征num_small_ratio_energy_right之前，首先检查ratio_energy_hf(k)是否满足条件：ratio_energy_hf(k)＜a9。如果满足该条件，进一步分析第k帧能量是否能够持续分布在低频范围内。

其中，获取num_small_ratio_energy_right的步骤为：

步骤1、初始化num_small_ratio_energy_right为0；

步骤2、依次检测第(k+1)帧、第(k+2)帧等的高频能量分布比值ratio_energy_hf(i)(k＜i≤(k+L2))是否满足条件：ratio_energy_hf(i)＜a9。如果不满足上述条件，不必继续检测下去，输出num_small_ratio_energy_right；如果满足上述条件，num_small_ratio_energy_right＝num_small_ratio_energy_right+1，继续检测下去，直到检测完未来L1帧数据，输出num_small_ratio_energy_right。

在本实施例中，可以设置a5＝150；a6＝0.4；a7＝30；a8＝5；a9＝0.1。

如上述分类原理分析所述，绝大多数音乐信号具有不同于语音信号的特性；相比之下，语音信号缺乏独有的特性，很难100％确定某段信号就是语音信号。因此，在分类时将明显不同于语音信号的音乐信号识别出来，其余则判为语音信号。

具体的，分类规则可以如图10所示，对于第k帧数据，其可以包括如下的步骤：

步骤301、判断音调分量的数量是否大于0，即num_tonal_flag＞0。如果满足条件，则可以输出初始分类结果为音乐信号；否则继续分析能量特征；

步骤302、分析能量在较高频率范围内的分布特性，首先判断(ratio_energy_hf(k)＞a6)&&(spl(k)＞a7)。若是，执行步骤303，否则执行步骤304；

步骤303、判断是否满足num_big_ratio_energy_right≥a11，或者满足num_big_ratio_energy_left+num_big_ratio_energy_right≥a10，或者num_big_ratio_energy_left≥a11，如果满足，则输出初始分类结果为音乐信号，否则，执行步骤304；

步骤304、判断高频能量分布比值是否小于a9，即ratio_energy_hf(k)≤a9，如果是，则执行步骤305，否则输出初始分类结果为语音信号；

步骤305、判断是否满足num_small_ratio_energy_left≥a13，或者满足num_small_ratio_energy_left+num_small_ratio_energy_right≥a12，或者num_small_ratio_energy_right≥a11，如果满足，则输出初始分类结果为音乐信号，否则输出初始分类结果为语音信号。

在本实施例中，可以设置a10＝15；a11＝10；a12＝30；a13＝30。

参见图11a和图11b所示的，图11a为输入信号“中文女声+合奏+英语男声+塤+德语男声+响板”的波形图，其中的三种音乐信号：合奏、塤及响板，在音调特征或是能量特征方面，均具有一定的典型性；图11b为图11a对应的分类结果示意图一，其中，横轴为样本点；纵轴为分类结果，取值为0对应语音信号，取值不为0对应音乐信号。由下至上，纵轴给出四类分类结果：

MUSIC_音调特征：仅使用音调特征得到的分类结果，表示为实线。由此可以看出，图11a中的哪些信号是适用于有关音调特征的分类规则的；

MUSIC_能量特征_1：仅使用“能量特征_1”得到的分类结果，表示为虚线。这里的“能量特征_1”指的是能量是否能够持续分布在较高频率范围内。由此可以看出，图11a中的哪些信号是适用于有关能量高频分布特性的分类规则的；

MUSIC_能量特征_2：仅使用“能量特征_2”得到的分类结果，表示为点划线。这里的“能量特征_2”指的是能量是否能够持续分布在低频。由此可以看出，图11a中的哪些信号是适用于有关能量低频分布特性的分类规则的；

MUSIC_初始分类结果：将MUSIC_音调特征、MUSIC_能量特征_1及MUSIC_能量特征_2的分类结果综合起来，就可以得到初始分类结果，表示为点线。

通过观察图11b，可以看出，针对不同类型的音乐信号，不同的分类规则是如何发挥作用的：

位于100000-300000点之间的合奏信号：该段音乐信号在能量上的波动是很大的，仅有少数帧的能量能够持续分布在较高频率范围内，能量特征_1/2基本不起作用。但是，该段信号的音调具有较好的持续性，可以利用音调特征检测出来；

位于400000-550000点之间的塤信号：音调特征能够起到一定的作用，但是仅依靠音调特征是无法把完整的塤信号检测出来的，如图断续分布的实线所示。该段信号的能量主要分布在低频，可以利用能量特征_2检测出来；

位于600000点之后的响板信号：该段信号几乎检测不出音调分量，音调特征不起作用。该段信号的能量主要分布在高频，可以利用能量特征_1检测出来。

本发明实施例提供的技术方案，还可以适应于输出延时较大的应用场景，例如当输出延时为L2+L3时，设当前帧为第i帧，则可以首先按照上述实施例提供的技术方案，当i>L2时，根据过去的信息，第i-L2帧之前的若干帧的音调分布参数和能量分布参数，现在的信息，即第i-L2帧的音调分布参数和能量分布参数，以及未来的信息，即第i-L2帧之后的L2帧的音调分布参数和能量分布参数，获取第i-L2帧的音频信号分类结果，其具体的实现方式可以参见上述的实施例，进一步当i>(L2+L3)时，可以进行平滑处理，即根据待分类帧第i-L2-L3帧前N4帧和待分类帧第i-L2-L3帧后L3帧的初始分类结果进行修正。

具体的，上述的前N4帧可以为前L3帧，针对第k帧，此时上述修正处理的过程为：

首先，对位于第k帧之前的L3帧及位于第k帧之后的L3帧的初始分类结果进行统计，获取被分类为音乐信号的帧数num_music，以及被分类为语音信号的帧数num_non_music；

其次，如果第k帧的初始分类结果为语音信号，并且num_music≥a14，将第k帧的分类结果修正为音乐信号；如果第k帧的初始分类结果为音乐信号，并且num_non_music≥a14，将第k帧的分类结果修正为语音信号。

在本实施例中，可以设置a14＝16。

图12a为输入信号“中文女声+合奏+英语男声+塤+德语男声+响板”的波形示意图，同图11a所示，图12b进一步给出平滑后的结果，如图12b所示，由下至上，纵轴给出两类分类结果：

MUSIC_初始分类结果：表示为实线；

MUSIC_平滑后结果：对初始分类结果进行平滑，得到平滑后结果，表示为虚线。

观察图12可知，位于100000-300000点之间的合奏信号：初始分类结果在250000-300000点之间存在一处误判，将音乐信号误判为语音信号；位于400000-550000点之间的塤信号，初始分类结果在该信号结尾部分存在一处误判，将音乐信号误判为语音信号。通过平滑处理，对上述误判进行了修正。

另外，对于不能够引入输出延时的应用场景，其中获取音调分布参数，获取能量分布参数的原理和步骤与上述技术方案类似，不同之前仅在于，在进行分类时参考的是过去的信息和现在的信息，由于无输出延时，需要实时获取分类结果，无法参考未来的信息。

具体的，提取音调特征可以参照上述实施例，可以分为三个步骤：

A、获取初始音调检测结果，即各帧的音调分布参数；

B、通过连续性分析，对初始音调检测结果进行筛选；

C、基于筛选后的音调检测结果，提取音调特征，即待分类帧的音调分量的数量。

其中上述步骤A，可以参照上述实施例，以下主要对步骤B和步骤C进行详细说明。

在进行连续性分析时，设tonal_flag_original[k][f](0≤f＜F/2)表示初始音调检测结果，取值为1表示第k帧数据在f处存在音调分量，取值为0表示第k帧数据在f处不存在音调分量。相对于第k帧，位于第k帧之前的L1帧数据被称为过去帧。

设第k帧数据在fx处存在音调分量，即tonal_flag_original[k][fx]＝1。针对位于第k帧fx处的音调分量，音调连续性分析的步骤为：

步骤1：统计该音调分量与过去多少帧的音调分量具有连续性，表示为num_left，初始化变量num_left为0，初始化表示不连续的变量num_non_tonal为0，并记录待分析音调分量所处的位置：pos_cur＝fx；

检查tonal_flag_original[k-1][f]((pos_cur-3)≤f≤(pos_cur+3))的取值：

记录第(k-1)帧音调分量所处的位置：pos_cur＝pos_cur+x；

统计出现连续性的帧数：num_left＝num_left+1；

设置变量num_non_tonal为0。

类似于步骤2，依次检测第(k-1)帧、第(k-2)帧等与前一帧的音调分量之间是否存在连续性。在每次检测之前，首先需要判断num_non_tonal的大小：

如果num_non_tonal≥b1，说明待分析音调分量与过去帧音调分量之间的间断已经超过预设的范围，已不再具有连续性。不必继续检测下去，输出num_left；

如果num_non_tonal＜b1，说明待分析音调分量与过去帧音调分量之间的间断还在预设的范围内，继续检测下去。直到检测完过去L1帧数据，输出num_left。

步骤2：根据num_left，对初始音调检测结果进行筛选；

如果满足条件：num_left≥b2，说明位于第k帧fx处的音调分量具有一定的连续性，保留初始音调检测结果，否则不保留。

在本实施例中，可以设置b1＝5，b2＝5。

进一步的，类似上述实施例，针对筛选后的音调检测结果，统计较低频率至高频范围(对应于b3≤f＜F/2)的待分类帧的帧音调分量的数量，表示为num_tonal_flag。如果num_tonal_flag越大，说明对应信号中音调分量持续时间越长，该信号是音乐信号的可能性越大。在本实施例中，设置b3＝40。

对于能量特征提取，在提取能量特征之前，首先需要计算每帧高频能量分布比值ratio_energy_hf(k)及声压级spl(k)，其中k表示帧数。计算每帧高频能量分布比值ratio_energy_hf(k)及声压级spl(k)的公式与上述是相同的。

基于高频能量分布比值及声压级，进一步分析能量在高频及低频的分布特性。

具体的，针对第k帧，为了表示能量在高频的分布特性，基于高频能量分布比值ratio_energy_hf(k)及声压级spl(k)，提取特征num_big_ratio_energy_left。该特征是指，位于第k帧之前的L1帧数据中，能量能够持续分布在高频的过去帧的帧数。

在提取该特征之前，首先检查高频能量分布比值ratio_energy_hf(k)及声压级spl(k)是否满足以下条件：(ratio_energy_hf(k)＞b4)&&(spl(k)＞b5)。如果满足该条件，进一步分析第k帧能量是否能够持续分布在较高频率范围内。

获取num_big_ratio_energy_left的步骤为：

步骤1、初始化变量num_big_ratio_energy_left为0；

步骤2初始化变量num_non_big_ratio为0；

步骤3、检查ratio_energy_hf(k-1)及spl(k-1)是否满足以下条件：

(ratio_energy_hf(k-1)＞b4)&&(spl(k-1)＞b5)

如果不满足上述条件，说明第(k-1)帧数据的能量没有分布在较高频率范围内，记录下本次事件：num_non_big_ratio＝num_non_big_ratio+1

如果满足上述条件，说明第(k-1)帧数据的能量持续分布在较高频率范围内：

统计能量能够持续分布在高频的过去帧的帧数：

num_big_ratio_energy_left＝num_big_ratio_energy_left+1

设置变量num_non_big_ratio为0

类似于步骤3，依次检测第(k-2)帧、第(k-1)帧等数据的能量能否持续分布在较高频率范围内。在每次检测之前，首先需要判断num_non_big_ratio的大小：

如果num_non_big_ratio≥b6，说明能量无法持续分布在较高频率范围内的状态已经超过预设的范围，不必继续检测下去，输出num_big_ratio_energy_left；

如果num_non_big_ratio＜b6，说明能量无法持续分布在较高频率范围内的状态还在预设的范围内，继续检测下去，直到检测完过去L1帧数据，输出num_big_ratio_energy_left。

另外，针对第k帧，为了表示能量在低频的分布特性，基于高频能量分布比值ratio_energy_hf(k)及声压级spl(k)，提取特征num_small_ratio_energy_left。该特征是指能量能够持续分布在低频的过去帧的帧数。

与num_big_ratio_energy_left参数的获取过程不同，num_small_ratio_energy_left并不是仅仅针对过去L1帧数据分析得出的，而是每计算出一帧ratio_energy_hf(i)(i≥0)，就会更新一次num_small_ratio_energy_left。

获取num_small_ratio_energy_left的步骤为：

当i＝0时，初始化num_small_ratio_energy_left为0；

检查每一帧ratio_energy_hf(i)(i≥0)是否满足条件：ratio_energy_hf(i)＜b7；

如果满足上述条件，num_small_ratio_energy_left＝num_small_ratio_energy_left+1；

如果不满足上述条件，num_small_ratio_energy_left＝0；

在本实施例中，设置b4＝0.3；b5＝30；b6＝5；b7＝0.1。

具体的，分类规则可以如图13所示，对于第k帧数据，其可以包括如下的步骤：

步骤401、判断音调分量的数量是否大于0，即num_tonal_flag＞0。如果满足条件，则可以输出初始分类结果为音乐信号；否则继续分析能量特征；

步骤402、分析能量在较高频率范围内的分布特性，首先判断(ratio_energy_hf(k)＞b4)&&(spl(k)＞b5)。若是，执行步骤403，否则执行步骤404；

步骤403、判断是否满足num_big_ratio_energy_left≥b8，如果满足，则输出初始分类结果为音乐信号，否则，执行步骤404；

步骤404、判断高频能量分布比值是否小于b7，即ratio_energy_hf(k)≤b7，如果是，则执行步骤405，否则输出初始分类结果为语音信号；

步骤405、判断是否满足num_small_ratio_energy_left≥b9，如果满足，则输出初始分类结果为音乐信号，否则输出初始分类结果为语音信号。在本实施例中，可以设置b8＝10,b9＝30。

图14a为输入信号“中文女声+合奏+英语男声+塤+德语男声+响板”的波形图三，同图11a所示，其中的三种音乐信号：合奏、埙及响板，在音调特征或是能量特征方面，均具有一定的典型性，图14b进一步给出实时分类结果的实例，其中，横轴为样本点；纵轴为分类结果，取值为0对应语音信号，取值不为0对应音乐信号，由图14a和图14b可见，由于没有未来的信息可供参考，会将少许音乐信号误判为语音信号。

本发明上述实施例提供的技术方案，针对无输出延时、少量输出延时和大量输出延时三种情况进行了说明，使得在对输出延时要求不固定的场景中，例如语音质量评估应用中，可以根据实际需要提供上述三种情况下的分类结果，且随着输出延时时间的增长，不仅可以参照待分类帧过去的信息，而且可以参照待分类帧未来的信息，参考信息越多分类的正确率也会随之提高。具体的，图15为本发明实施例中输出延时不固定的情况下语音分类方法流程图，如图15所示，包括如下的步骤：

步骤501、对当前帧第i帧进行FFT变换；

步骤502、基于FFT变换结果，获取第i帧的音调分布参数并缓存；

步骤503、基于FFT变换结果，获取第i帧的能量分布参数并缓存；

上述的步骤501-503中，不仅针对第i帧，而且针对第i帧之前接收到的各个帧的，都进行了相应处理，获取了其音调分布参数和能量分布参数。

步骤504、生成并缓存第i帧的实时分类结果，具体的，本步骤中基于步骤502和步骤503中生成并缓存的过去的信息，即第i帧之前的各个帧的音调分布参数和能量分布参数，获取第i帧的音调特征和能量特征，生成并缓存实时分类结果，具体实现方式可以参照上述的实施例；

步骤505、当i>L1时，其中L1为允许的少量输出延时，除了获取接收的各个帧的实时的分类结果，还可以生成并缓存第i-L1帧的初始分类结果，具体的，在生成第i-L1帧的初始分类结果时，可以参考过去的信息，即第i-L1帧之前的若干帧的音调分布参数和能量分布参数，现在的信息，即第i-L1帧的音调分布参数和能量分布参数，未来的信息，即第i-L1帧之后L1帧帧音调分布参数和能量分布参数，获取更为准确的第i-L1帧的初始分类结果，具体实现方式可以参见上述实施例。

步骤506，当i>(L2+L3)时，生成并缓存第(i-L2-L3)帧修正后的分类结果，具体的，即可以参照过去的信息，即位于第(i-L2-L3)帧之前若干帧的初始分类结果，未来的信息，即位于第(i-L2-L3)帧之后的L3帧的初始分类结果，对第(i-L2-L3)帧的初始分类结果进行修正，具体的实现方式可以参见上述的实施例。

步骤507、根据允许的输出延时的不同，选择上述步骤504、步骤505和步骤506的分类结果，作为待分类帧第j帧的分类结果：

如果输出延时满足条件：(i-j)>＝(L2+L3)，输出最优结果，即第j帧修正后的分类结果；

如果输出延时满足条件：(L2+L3)>(i-j)>＝L1，输出次优结果，即第j帧的初始分类结果；

如果输出延时满足条件：(i-j)<L1，输出零延时结果，即第j帧的实时分类结果。

本发明上述实施例中可以将L2的取值设为与L1相等。

图16a为输入信号“中文女声+合奏+英语男声+塤+德语男声+响板”的波形图四，同图11a所示，其中的三种音乐信号：合奏、塤及响板，在音调特征或是能量特征方面，均具有一定的典型性，图16b给出了三种分类方法得到的分类结果，如图16b所示，其中纵轴上给出的三种分类结果，依次是MUSIC_实时分类结果，用实线表示，MUSIC_初始分类结果，用点线表示，MUSIC_修正后的分类结果，用虚线表示。

如图16b所示，根据分类结果的正确率，修正后的分类结果>初始分类结果>实时分类结果。因此，在输出延时允许的情况下，用户可以充分利用尽可能多的未来信息，输出当前条件下可以得到的最好的分类结果。

本发明实施例提供的技术方案，其提取的特征能够反映出音乐信号不同于语音信号的更为本质的特征，使得在低采样率下的分类正确率明显提高。由于本发明实施例的技术方案提取特征的方法并不受限于采样率，因此其不仅适用于低采样率，也适用于高采样率下的信号分类。在确保较低的算法复杂度的前提下，用户可以根据需求灵活选择实时分类结果、次优分类结果或是最优分类结果。

本发明实施例还提供了一种与上述方法对应的音频信号分类处理装置，图17为本发明实施例中音频信号分类处理装置的结构示意图，如图17所示，该装置包括第一获取模块11和分类确定模块12，其中第一获取模块11用于获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；分类确定模块12用于根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧的高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

本发明上述实施例中，其中根据有无输出延时和输出延时长度的不同，其中的各个模块的执行的步骤也会有所不同，具体包括如下几种情况：

一是在实时获取所述待分类帧的分类结果时，所述第一获取模块具体用于获取音频信号中待分类帧，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

所述分类确定模块12具体用于在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

具体的，上述的第一获取模块获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧和待分类帧前N1帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，以及待分类帧前N1帧的音调分量的频域分布信息作为待分类帧前N1帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，上述的第一获取模块获取所音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

上述分类确定模块根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧和待分类帧前N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数。

上述分类确定模块根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧和待分类帧前N1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。二是在延时L1帧获取所述待分类帧的分类结果时，L1为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前N2帧，以及待分类帧后L1帧的音调分布参数，并根据所述待分类帧，待分类帧前N2帧以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N2为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前N2帧以及待分类帧后L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N2帧以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

其中，上述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前N2帧和待分类帧帧后L1帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N2帧的音调分量的频域分布信息作为待分类帧前N2帧的音调分布参数，以及待分类帧帧后L1帧的音调分量的频域分布信息作为待分类帧帧后L1帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，上述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前N2帧的高频能量分布比和声压级作为待分类帧前N2帧的能量分布参数和待分类帧帧后L1帧的高频能量分布比和声压级作为待分类帧后L1帧的能量分布参数。

上述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前N2帧和待分类帧后L1帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数。

上述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

三是在延时L2+L3帧获取所述待分类帧的分类结果时，L2和L3为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前N3帧，以及待分类帧后L2帧的音调分布参数，并根据所述待分类帧，待分类帧前N3帧以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N3为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前N3帧以及待分类帧后L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N3帧以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

其中，上述的第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前N3帧和待分类帧帧后L2帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N3帧的音调分量的频域分布信息作为待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分量的频域分布信息作为待分类帧后L2帧的音调分布参数。

上述分类确定模块根据待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，上述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前N3帧的高频能量分布比和声压级作为待分类帧前N3帧的能量分布参数，以及待分类帧帧后L2帧的高频能量分布比和声压级作为待分类帧后L2帧的能量分布参数。

上述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

上述分类确定模块根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

上述三种情况下，第一获取模块获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

本发明实施例还提供了一种音频信号分类处理设备，图18为本发明实施例中音频信号分类处理设备的结构示意图，如图18所示，该设备包括接收器21和处理器22，其中的接收器21用于接收音频信号；处理器22与所述接收器21连接，用于获取接收器接收到的音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

本发明上述实施例中，其中的处理器可以由软件流程实现，也可以通过使用数字信号处理(Digital Signal Processing，以下简称：DSP)芯片等硬件实体设备实现。

本发明上述实施例中，其中根据有实时获取所述待分类帧的分类结果，或者是允许分类结果输出延时的长短，处理器可以包括如下几种情况：

一是在实时获取所述待分类帧的分类结果时，所述处理器具体用于获取音频信号中待分类帧，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧，以及待分类帧前N帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；获取所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数，并根据所述音频信号中待分类帧，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数，N1为正整数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

其中，处理器获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

处理器根据待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，处理器获取所音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

处理器根据音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

二是在延时L1帧获取所述待分类帧的分类结果时，L1为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前N2帧，以及待分类帧后L1帧的音调分布参数，并根据所述待分类帧，待分类帧前N2帧以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N2为正整数；获取所述音频信号中待分类帧，以及待分类帧前N2帧以及待分类帧后L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N2帧以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

其中，处理器获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

对接收到的音频信号中的待分类帧、待分类帧前N2帧和待分类帧帧后L1帧进行快速傅里叶变换，获取功率密度谱；根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N2帧的音调分量的频域分布信息作为待分类帧前N2帧的音调分布参数，以及待分类帧帧后L1帧的音调分量的频域分布信息。

处理器根据待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

根据接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N2帧的音调分量的频域分布信息作为待分类帧前N2帧的音调分布参数，以及待分类帧帧后L1帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

另外，处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

获取接收到的音频信号中待分类帧的高频能量分布比和声压级作为待分类帧的能量分布参数，待分类帧前N2帧的高频能量分布比和声压级作为待分类帧前N2帧的能量分布参数，以及待分类帧帧后L1帧的高频能量分布比和声压级作为待分类帧后L1帧的能量分布参数。

处理器根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

处理器根据音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

三是在分类结果输出延时为L2+L3帧时，L2和L3为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前N3帧，以及待分类帧后L2帧的音调分布参数，并根据所述待分类帧，待分类帧前N3帧以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N3为正整数；获取所述音频信号中待分类帧，以及待分类帧前N3帧以及待分类帧后L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N3帧以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前N4帧和待分类帧后L3帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号，N4为正整数；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前N4帧和待分类帧后L3帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

其中，处理器获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

处理器根据待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量包括：

另外，处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

处理器根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前N3帧和待分类帧后L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比小于第八阈值的持续帧数。

处理器根据音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

上述三种情况下，处理器获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音频信号分类处理方法，其特征在于，包括：

获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项；

所述连续性约束条件包括：(num_left+num_right)≥a2或者num_right≥a3，其中，num_left为待分类帧的帧前具有连续性的帧数，num_right为待分类帧的帧后具有连续性的帧数，a2和a3为自然数；

所述待分类帧在低频区域的持续帧数是能量分布的持续帧数；所述待分类帧在高频区域的持续帧数是能量分布的持续帧数；

根据获取的所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号。

2.根据权利要求1所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；

获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数，并根据所述音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数，N1为正整数；

所述根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号包括：

3.根据权利要求2所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

4.根据权利要求2所述的音频信号分类处理方法，其特征在于，所述获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

5.根据权利要求1所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数，并根据所述待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，L1为正整数，N2为正整数；

获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数，并根据所述音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；

6.根据权利要求5所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

7.根据权利要求5所述的音频信号分类处理方法，其特征在于，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

8.根据权利要求1-7任一所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧中满足连续性约束条件的音调分量的数量包括：

获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数，并根据所述待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，L2为正整数，N3为正整数；

获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数，并根据所述音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；

9.根据权利要求8所述的音频信号分类处理方法，其特征在于，所述获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

根据接收到的音频信号中的待分类帧的音调分量的频域分布信息、待分类帧前N3帧的音调分量的频域分布信息和待分类帧帧后L2帧的音调分量的频域分布信息获取待分类帧中持续帧数大于第六阈值的音调分量的数量。

10.根据权利要求8所述的音频信号分类处理方法，其特征在于，所述获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

根据所述接收到的音频信号中待分类帧、待分类帧前N3帧的能量分布参数和待分类帧后L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

11.根据权利要求3、6或9所述的音频信号分类处理方法，其特征在于，所述待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

12.一种音频信号分类处理装置，其特征在于，包括：

13.根据权利要求12所述的音频信号分类处理装置，其特征在于，所述第一获取模块具体用于获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；或具体用于获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数，并根据所述音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

14.根据权利要求13所述的音频信号分类处理装置，其特征在于，

所述第一获取模块获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

15.根据权利要求13所述的音频信号分类处理装置，其特征在于，

所述第一获取模块获取所音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

16.根据权利要求12所述的音频信号分类处理装置，其特征在于，在延时L1帧获取所述待分类帧的分类结果时，L1为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前N2帧，以及待分类帧后L1帧的音调分布参数，并根据所述待分类帧，待分类帧前N2帧以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N2为正整数；或，具体用于获取所述音频信号中待分类帧，以及待分类帧前N2帧以及待分类帧后L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N2帧以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

17.根据权利要求16所述的音频信号分类处理装置，其特征在于，

所述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

18.根据权利要求16所述的音频信号分类处理装置，其特征在于，

所述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

19.根据权利要求12-18任一所述的音频信号分类处理装置，其特征在于，

在延时L2+L3帧获取所述待分类帧的分类结果时，L2和L3为正整数，所述第一获取模块具体用于获取音频信号中待分类帧，待分类帧前N3帧，以及待分类帧后L2帧的音调分布参数，并根据所述待分类帧，待分类帧前N3帧以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N3为正整数；或，

具体用于获取所述音频信号中待分类帧，以及待分类帧前N3帧以及待分类帧后L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N3帧以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数或所述待分类帧在高频区域的持续帧数；

20.根据权利要求19所述的音频信号分类处理装置，其特征在于，

所述第一获取模块获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

根据所述功率密度谱获取所述接收到的音频信号中的待分类帧的音调分量的频域分布信息作为待分类帧的音调分布参数，待分类帧前N3帧的音调分量的频域分布信息作为待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分量的频域分布信息作为待分类帧后L2帧的音调分布参数；

21.根据权利要求19所述的音频信号分类处理装置，其特征在于，

所述第一获取模块获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

所述分类确定模块根据音频信号中待分类帧、待分类帧前N3帧和待分类帧后L2帧的能量分布参数获取所述待分类帧在高频区域的持续帧数包括：

根据所述接收到的音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的高频能量分布比和声压级获取包括所述待分类帧在内的高频能量分布比大于第九阈值、声压级大于第十阈值的持续帧数。

22.根据权利要求14、17或20所述的音频信号分类处理装置，其特征在于，所述第一获取模块获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。

23.一种音频信号分类处理设备，其特征在于，包括：

接收器，用于接收音频信号；

处理器，与所述接收器连接，用于获取接收器接收到的音频信号中待分类帧中满足连续性约束条件的音调分量的数量、所述音频信号中待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，根据所述待分类帧中满足连续性约束条件的音调分量的数量、所述待分类帧在低频区域的持续帧数和所述待分类帧在高频区域的持续帧数中的至少一项，确定所述音频信号中待分类帧为音乐信号，或确定所述音频信号中待分类帧为语音信号；

所述待分类帧在低频区域的持续帧数是能量分布的持续帧数；所述待分类帧在高频区域的持续帧数是能量分布的持续帧数。

24.根据权利要求23所述的音频信号分类处理设备，其特征在于，所述处理器具体用于获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数，并根据所述待分类帧的音调分布参数，以及待分类帧前N帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N1为正整数；获取所述音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数，并根据所述音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数，N1为正整数；

25.根据权利要求24所述的音频信号分类处理设备，其特征在于，

所述处理器获取音频信号中待分类帧的音调分布参数，以及待分类帧前N1帧的音调分布参数包括：

26.根据权利要求24所述的音频信号分类处理设备，其特征在于，

所述处理器获取所音频信号中待分类帧的能量分布参数，以及待分类帧前N1帧的能量分布参数包括：

27.根据权利要求23所述的音频信号分类处理设备，其特征在于，在延时L1帧获取所述待分类帧的分类结果时，L1为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前N2帧，以及待分类帧后L1帧的音调分布参数，并根据所述待分类帧，待分类帧前N2帧以及待分类帧后L1帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N2为正整数；获取所述音频信号中待分类帧，以及待分类帧前N2帧以及待分类帧后L1帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N2帧以及待分类帧后L1帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号。

28.根据权利要求27所述的音频信号分类处理设备，其特征在于，

所述处理器获取音频信号中待分类帧的音调分布参数，待分类帧前N2帧的音调分布参数，以及待分类帧后L1帧的音调分布参数包括：

29.根据权利要求27所述的音频信号分类处理设备，其特征在于，

所述处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前N2帧的能量分布参数以及待分类帧后L1帧的能量分布参数包括：

30.根据权利要求23-29任一所述的音频信号分类处理设备，其特征在于，在延时L2+L3帧获取所述待分类帧的分类结果时，L2和L3为正整数，所述处理器具体用于获取音频信号中待分类帧，待分类帧前N3帧，以及待分类帧后L2帧的音调分布参数，并根据所述待分类帧，待分类帧前N3帧以及待分类帧后L2帧的音调分布参数获取待分类帧中满足连续性约束条件的音调分量的数量，N3为正整数；获取所述音频信号中待分类帧，以及待分类帧前N3帧以及待分类帧后L2帧的能量分布参数，并根据所述音频信号中待分类帧，待分类帧前N3帧以及待分类帧后L2帧的能量分布参数获取所述待分类帧在低频区域的持续帧数和/或所述待分类帧在高频区域的持续帧数；在所述待分类帧中满足连续性约束条件的音调分量的数量大于第一阈值、所述待分类帧在低频区域的持续帧数大于第二阈值或所述待分类帧在高频区域的持续帧数大于第三阈值时，确定所述音频信号中待分类帧为音乐信号，否则确定所述音频信号中待分类帧为语音信号；若确定所述音频信号中待分类帧为音乐信号，则确定所述待分类帧前N4帧和待分类帧后L4帧中确定为语音信号的帧数目是否大于第四阈值，若超过，则将所述音频信号中待分类帧修正为语音信号，N4为正整数；若确定所述音频信号中待分类帧为语音信号，则确定所述待分类帧前N4帧和待分类帧后L4帧中确定为音乐信号的帧数目是否大于第五阈值，若大于，则将所述音频信号中待分类帧修正为音乐信号。

31.根据权利要求30所述的音频信号分类处理设备，其特征在于，

所述处理器获取音频信号中待分类帧的音调分布参数，待分类帧前N3帧的音调分布参数，以及待分类帧后L2帧的音调分布参数包括：

32.根据权利要求30所述的音频信号分类处理设备，其特征在于，

所述处理器获取所音频信号中待分类帧的能量分布参数，待分类帧前N3帧的能量分布参数以及待分类帧后L2帧的能量分布参数包括：

33.根据权利要求25、28或31所述的音频信号分类处理设备，其特征在于，所述处理器获取的待分类帧中持续帧数大于第六阈值的音调分量的数量为在频域上大于第七阈值的音调分量的数量。