CN103117063A

CN103117063A - 一种基于软件实现的音乐内容截幅检测方法

Info

Publication number: CN103117063A
Application number: CN201210578700XA
Authority: CN
Inventors: 梅林海; 刘丹; 路雪玲; 史峰; 张磊; 聂小林; 江涛
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2013-05-22

Abstract

本发明涉及一种基于软件实现的音乐内容截幅检测方法，用于实现对运营商提供的音乐内容的质量检测，具体为：解析现有的音频文件，将音频文件转化成单通道；对音频数据进行加窗，通常直接使用矩形窗；统计加载的音频信号中超过某一个特定幅度值F_δ的采样点的个数,使用变量sum对个数进行累加统计；计算sum与步骤二中的矩形窗的窗宽M，求出它们的比值ξ，将ξ与选定的阈值α进行比较，判断音频文件是否存在截幅；通过不断的重复加窗、统计频率、计算比值并与阈值比较，最终完成整个音频文件的检测。本发明能够实现快速检测音频截幅问题，检测过程中不需要人工参与，节约人力、提高审核效率，且降低审核出错几率。

Description

一种基于软件实现的音乐内容截幅检测方法

技术领域

本发明涉及一种基于软件实现的音乐内容截幅检测方法，用于实现对运营商提供的音乐内容的质量检测，属于音频技术领域，主要涉及频率频谱的检测技术。

背景技术

在竞争激烈的手机无线音乐市场上，提升用户满意度显得尤为重要，保障音乐内容的质量也成了提升用户满意度的非常重要的手段。音乐内容多为各个CP制作，制作质量层次不齐，传统的人工检测方法已经无法保证所有音乐内容的质量合格，因此，需要使用自动化的检测方法解决人工审核效率低、质量无法保证的问题。运营商现有的音乐内容截幅检查，主要采用音频工具+人工检测的方式完成。人工检测时，一般借助于cooledit工具，查看音频的波形是否正常，然后试听音频，结合人工试听和人眼观测确定音频文件是否存在截幅问题。随着手机音乐业务的不断壮大，音乐内容数量快速增长，人工审核的方法已经无法满足大量音乐内容上线的需要，现有审核手段无法完全保证音频质量合格。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于软件实现的音乐内容截幅检测方法，能够实现快速检测音频截幅问题，检测过程中不需要人工参与，节约人力、提高审核效率，且降低审核出错几率。

本发明技术解决方案为：一种基于软件实现的音乐内容截幅检测方法，包含音频文件的提取、音频文件的加窗处理以及音频截幅的计算方法，步骤如下：

第一步：解析现有的音频文件，将音频文件转化成单通道、采样率为16kbps的WAVE（WAVE是录音时用的标准的WINDOWS文件格式，文件的扩展名为“WAV”）文件WavFile（如果为立体声信号，可取双通道平均值合并为单通道）。

第二步：对音频数据进行加窗（矩形窗），主要是对步骤一中生成的WavFile进行加窗处理，通常可以直接使用矩形窗，矩形窗的定义如下：

其中n指矩形窗的长度，M为矩形窗的窗宽，R_M(m)为矩形窗信号，“其他”为(-∞,0)与(M-1,+∞)区间中的整数。

第三步：统计第一步中加载的音频信号中超过某一个特定幅度值F_δ的采样点的个数（通常可以取截幅值32767的95%）,使用一个变量sum对个数进行累加统计。

第四步：计算步骤三中的统计值sum与步骤二中的矩形窗的窗宽M，求出它们的比值ξ，ξ＝sum/W

第五步：通过以上四步计算出的数据比值ξ与选定的阈值α进行比较，判断音频文件是否存在截幅，判断方法为：倘若ξ大于阈值α，则存在截幅，

result = \{\begin{matrix} 1, & if (ξ > α) \\ 0, & else \end{matrix} .

通过不断的重复加窗、统计频率、计算比值并与阈值比较，最终完成整个音频文件的检测。

本发明与现有技术相比的优点在于：本发明用于实现对运营商提供的音乐内容的质量检测,使用本发明，能够快速的完成大批量音频文件的截幅问题检测，与传统的人工审核方法相比，检测过程中不需要人工参与，节约人力、提高审核效率，且降低审核出错几率，在效率和效果上有绝大的优势。

附图说明

图1为本发明的截幅检测方法流程图。

具体实施方式

如图1所示，本发明是一种基于软件实现的音乐内容截幅检测方法，包含音频文件的提取、音频文件的加窗处理以及音频截幅的计算方法。

本实施方式将介绍传统的歌曲音频解析和检测过程：

第一步：获取到待解析的音频文件，通过音频解析算法对音频文件进行解析处理，最终将音频文件转化成单声道、采样率为16kbps、WAVE格式的文件WavFile（格式后缀为.wav）（如果为立体声信号，可取双通道平均值合并为单通道）。

本实施案仅介绍了将音频转换为单声道、固定采样率的wave文件进行处理的方式。对于传统的高质量、双声道歌曲，也可使用其他解析方式，将音频处理为两个单声道音频分别进行截幅检测，任何一个音频出现截幅均认为音频是有问题的。

第三步：统计第一步中加载的音频信号中超过某一个特定幅度值f_δ的采样点的个数,使用一个变量sum对个数进行累加统计；

F_δ通常可取32767的95%。

F_δ的取值也可通过统计大量的常规歌曲音频数据的80%的最高、最低幅值，统计这些幅值的平均值，得出特定幅度值F_δ。

第四步：计算步骤三中的统计值sum与步骤二中的矩形窗的窗宽M，求出它们的比值ξ。ξ＝sum/W。

第五步：通过以上四步计算出的数据比值ξ与选定的阈值α进行比较，判断音频文件是否存在截幅。判断方法为：倘若ξ大于阈值α，则存在截幅。

result = \{\begin{matrix} 1, & if (ξ > α) \\ 0, & else \end{matrix} .

阈值α的取值范围通常取[0.3-0.8]之间。

此取值范围可通过对大量的存在截幅问题的音频文件进行取值计算，得出截幅的音频特征库，从而计算得出阈值α。

在本实施方案中，当α取值为0.3表示：在矩形窗窗框取值为10000时，存在3000个以上幅值大于F_δ的采样点时，则认为该音频文件存在截幅问题。

对于不同类型的音频数据，截幅测算的阈值α是有差别的，具体阈值大小都需要根据大量行业数据的测算结果得出，传统的歌曲音频和专业的播音文件，截幅检测的阈值肯定不一样。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于软件实现的音乐内容截幅检测方法，其特征在于包括：音频文件的提取、音频文件的加窗处理以及音频截幅的计算方法，实现步骤如下：

第一步：解析现有的音频文件，将音频文件转化成单通道、采样率为16kbps的WAVE文件；如果为立体声信号，取双通道平均值合并为单通道；

第二步：对音频数据进行加窗，即对步骤一中生成的WavFile进行加窗处理，通常直接使用矩形窗，矩形窗的定义如下：

其中n指矩形窗的长度，M为矩形窗的窗宽，R_M(m)为矩形窗信号，“其他”为(-∞,0)与(M-1,+∞)区间中的整数；

第三步：统计第一步中加载的音频信号中超过某一个特定幅度值F_δ的采样点的个数,使用变量sum对个数进行累加统计；

第四步：计算步骤三中的sum与步骤二中的矩形窗的窗宽M，求出它们的比值ξ：

ξ＝sum/W

第五步：将第四步计算出的数据比值ξ与选定的阈值α进行比较，判断音频文件是否存在截幅，判断截幅的方法为：倘若ξ大于阈值α，则存在截幅，

result = \{\begin{matrix} 1, & if (ξ > α) \\ 0, & else \end{matrix}

2.根据权利要求1所述的一种基于软件实现的音乐内容截幅检测方法，其特征在于：所述阈值α的取值范围在[0.3-0.8]之间。