CN111312287B

CN111312287B - 一种音频信息的检测方法、装置及存储介质

Info

Publication number: CN111312287B
Application number: CN202010106528.2A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2023-05-02
Anticipated expiration: 2040-02-21
Also published as: CN111312287A

Abstract

本申请实施例公开了一种音频信息的检测方法、装置及存储介质，本申请实施例通过获取待处理音频，并生成所述待处理音频的频谱信息；对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。可以节省人力，加快音频信息频谱高度的检测速度，极大的降低了成本和提升了音频信息的检测效率。

Description

一种音频信息的检测方法、装置及存储介质

技术领域

本申请涉及音频处理技术领域，具体涉及一种音频信息的检测方法、装置及存储介质。

背景技术

数字音频，顾名思义就是以数字信号的方式存储于网络服务器中的音频，在网络空间中流动传输，具有速度快的优点，可以根据人们的需求即时进行下载音频，数字音频不依赖传统的音乐载体，如磁带或CD等，可以避免磨损，能保证音频品质。

现有技术中，数字音频在生成的过程中，由于录制环境或转码方式等方法的不同，产生了大量的内容相似但品质参差不齐的数字音频，甚至有一些低品质的数字音频具有无调性、节拍错乱、和声连续不和谐或旋律突然中断等情况，低品质的数字音频在网络空间中传播会对用户造成干扰，严重影响音频体验。

在对现有技术的研究和实践过程中，本申请的发明人发现，现有技术中，虽然提供有人工对数字音频的品质进行检测的方法，但是对于数量巨大的数字音频来说，人工检测的速度过慢以及花费成本过大，检测的效率较低。

发明内容

本申请实施例提供一种音频信息的检测方法、装置及存储介质，旨在降低成本和提升音频信息的检测效率。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种音频信息的检测方法，包括：

获取待处理音频，并生成所述待处理音频的频谱信息；

对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；

从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；

将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。

一种音频信息的检测装置，包括：

获取单元，用于获取待处理音频，并生成所述待处理音频的频谱信息；

检测单元，用于对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；

选取单元，用于从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；

确定单元，用于将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。

在一些实施方式中，所述获取单元，包括：

第一生成单元，用于生成所述待处理音频的频谱矩阵；

第二生成单元，用于基于所述频谱矩阵生成所述待处理音频的语谱图；

检测单元，具体用于对所述语谱图进行图像边缘检测，得到所述语谱图的边缘像素信息。

在一些实施方式中，所述获取单元，还包括：

转换单元，用于将所述频谱矩阵通过预设映射关系转换为像素矩阵；

所述检测单元，具体还用于对所述像素矩阵进行图像边缘检测，得到所述像素矩阵的边缘像素信息。

在一些实施方式中，所述检测单元，包括：

第一确定单元，用于从所述像素矩阵的多个像素点中确定出多个轮廓像素点；

第二确定单元，用于将所述多个轮廓像素点确定为所述像素矩阵的边缘像素信息。

在一些实施方式中，所述选取单元，包括：

第一选取单元，用于从预设单位时间内的多个轮廓像素点中确定出像素值大于阈值的多个目标轮廓像素点，每个目标轮廓像素点对应一个频率值，得到多个频率值；

第二选取单元，用于从所述多个频率值中确定出数值最大的目标频率值，得到所述频谱信息的多个目标频率值的集合。

在一些实施方式中，所述确定单元，包括：

第三确定单元，用于从所述集合中确定出频率值最大的第一峰值，将所述第一峰值对应的目标频率值确定为所述待处理音频的频谱高度。

第四确定单元，用于从所述集合中确定出现概率最大的第二峰值，并将所述第二峰值对应的目标频率值确定为所述待处理音频的第二频谱高度。

第五确定单元，用于将所述第一频谱高度或所述第二频谱高度确定为所述待处理音频的频谱高度。

在一些实施方式中，所述音频信息的检测装置还包括：

比较单元，用于将所述第一频谱高度和所述第二频谱高度进行比较，根据比较结果确定出待处理音频的检测结果。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的音频信息的检测方法。

本申请实施例通过获取待处理音频，并为获取待处理音频，并生成所述待处理音频的频谱信息；对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。相对于需要人工对的音频信息进行频谱高度检测的方案而言，在需要检测大量音频信息的情况下，极大的降低了检测成本和提升了音频信息检测的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频信息的检测系统的场景示意图；

图2是本申请实施例提供的音频信息的检测方法的流程示意图；

图3是本申请实施例提供的音频信息的检测方法的另一流程示意图；

图4是本申请实施例提供的音频信息的检测方法的场景示意图；

图5a是本申请实施例提供的音频信息的检测装置的结构示意图；

图5b是本申请实施例提供的音频信息的检测装置的另一结构示意图；

图6是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种音频信息的检测方法、装置、及存储介质。

请参阅图1，图1为本申请实施例所提供的音频信息的检测系统的场景示意图，包括：终端A、和服务器(该检测系统还可以包括除终端A之外的其他终端，终端具体个数在此处不作限定)，终端A与服务器之间可以通过通信网络连接，该通信网络，可以包括无线网络以及有线网络，其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体，图中并未示意出。终端A可以通过通信网络与服务器进行信息交互，比如终端A在对某个音频进行检测时，会自动生成音频检测指令，该音频检测指令指示相应的音频信息，如音频名“小苹果”，然后将该音频检测指令上传到服务中，该音频检测指令还可以包括终端A上传的待检测音频信息，服务器可以根据该音频检测指令指示的音频信息进行检测。

该音频信息的检测系统可以包括音频信息的检测装置，该音频信息的检测装置具体可以集成在服务器中，需要说明的是，在本申请的实施例中，以音频信息的检测装置集成在服务器中进行说明，在另一种实施方式中，该音频信息的检测装置还可以集成在终端中。在图1中，该服务器主要用于接收终端A发送的音频检测指令，获取音频检测指令指示的音频信息，其中，音频信息可以为终端A发送的待检测音频文件信息，还可以为根据用户输入的音频名从服务器搜索得到的待检测音频信息，通过本实施例提供的音频信息检测装置对待检测音频信息进行检测，得到待检测音频信息的频谱高度，可以快速知道待检测音频的频谱高度，相对于需要人工对音频信息进行频谱高度检测而言，极大的降低了成本和提升了音频信息检测的效率。其中，频谱高度指的是音频的时域波形在经过傅里叶变换后得到的频谱上，能够达到的最高有效频率。例如，采样率为44.1kHz的音频信号，在频谱上有一个最高10kHz的音频信号，在10kHz以上都是没有能量的静音区域，那么这个音频信号的频谱高度就是10kHz，而频谱高度往往反映出音频的质量。

该音频信息的检测系统还可以包括终端A，该终端A可以安装各种用户需要的应用，比如音乐应用、浏览器应用以及即时通讯应用等，在用户通过音乐应用进行音乐音频的检测时，会生成音频检测指令上传至服务器中。

需要说明的是，图1所示的音频信息的检测系统的场景示意图仅仅是一个示例，本申请实施例描述的音频信息的检测系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着音频信息的检测系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

实施例一、

在本实施例中，将从音频信息的检测装置的角度进行描述，该音频信息的检测装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。

一种音频信息的检测方法，包括：获取待处理音频，并生成所述待处理音频的频谱信息；对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。

请参阅图2，图2是本申请实施例提供的音频信息的检测方法的流程示意图。该音频信息的检测方法包括：

在步骤101中，获取待处理音频，并生成待处理音频的频谱信息。

其中，待处理音频可以是终端发送的音频文件，还可以是根据终端发送的音频检测指令获取的音频文件，音频检测指令可以为根据音频名生成的音频检测指令，根据音频检测指令获取与音频名匹配的音频文件。其中，音频的格式可以为mp3格式、wav格式、无损音频压缩编码(Free Lossless Audio Codec，flac)格式、音频压缩编码(OGGVobis，Ogg)格式或ape格式等，音频的通道数可以为单通道，双通道或多通道，对待处理音频进行预处理，得到时域波形，后经过傅里叶变换，生成待处理音频的频谱信息。

在一些实施方式中，在生成待处理音频的频谱信息之前需要对待处理音频进行预处理，可以包括：

(1)将待处理音频格式进行转换；

其中，可以将待处理音频的格式转化为wav格式，得到音频的波形文件，便于后续的频谱矩阵的生成，其中转码的精度可以采用32位浮点型，可以在一定程度上减少频谱泄露。采用较低的精度进行转码时，数据可能会有损失，从而造成频谱泄漏，对最终的频谱高度检测造成干扰。

(2)静音裁剪；

其中，从待处理音频的多帧音频信息中确定出静音的部分，将静音的部分进行裁剪，减少待处理音频中静音部分带来的干扰。

(3)削波失真检测；

其中，对每帧音频信息进行削波失真检测，其中，削波失真是由于波形振幅过大而超出量程导致的，在波形上表现为振幅持续一个较大的值，在频域上表现为高频能量泄漏，产生高频的伪峰，对真实的频谱高度检测会有干扰，通过检测削波失真，剔除有失真的音频帧，有助于提升检测的准确率。

(4)分帧得到各帧的时域波形；

其中，对音频信息按照一定帧长和帧移进行分帧，获得多帧的时域波形，例如帧长为20毫秒，帧移为50％，还可以为其它值，如帧长为30毫秒，帧移25％等。分帧用于防止两帧音频信号之间的不连续。

通过以上四个步骤，对待处理音频进行预处理，得到待处理音频的各帧信号的时域波形。

在一实施方式中，在得到待处理音频的各帧信号的时域波形之后，通过傅里叶变换得到频谱信息，可以包括：

(1)对各帧信号的时域波形加窗函数；

其中，窗函数可以为汉宁窗函数(Hanning window)、哈布斯窗函数(Blackman–Harris window)或者其它类型的窗函数。

其中，汉宁窗函数可以看成是升余弦窗的一个特例，汉宁窗可以看作是3个矩形时间窗的频谱之和，适用于非周期性的连续信号，不同类型的窗函数的处理特性不同，窗函数用于防止频谱信息的泄露。

(2)傅里叶变换；

将加窗后的各帧时域波形进行傅里叶变换，得到各帧音频信号的频谱，然后将每帧音频信号的频谱组成频谱矩阵，频谱矩阵的长和宽分别对应输入音频的时间维度和频率维度。

在一些实施方式中，对加窗函数后的各帧时域波形进行傅里叶变换，得到各帧音频信号的频谱，然后将每帧音频信号的频谱组成频谱矩阵之后，将频谱矩阵进行滤波，得到待处理音频的语谱图，其中，滤波方式可以采用双边滤波的方式，双边滤波是图像处理中的一种非线性滤波方法，可以有效的保护语谱图图像的边缘，又能去除语谱图图像内的噪声。具有简单、非迭代、局部的特性，还可以根据需求使用其他滤波方式。

在步骤102中，对频谱信息进行图像边缘检测，将频谱信息转化为边缘像素信息。

其中，根据频谱矩阵生成语谱图后，对语谱图进行图像边缘检测，得到语谱图的边缘像素信息，其中，图像边缘检测可以在滤波过后针对滤波方式对应选择边缘检测算法，边缘检测算法可以包括Sobel算法、Laplace算法或Canny算法等，对语谱图进行边缘检测。

可选的，对于Sobel算法，常用的一种模板是Sobel算子，Sobel算子有两个，一个是检测水平边缘的，另一个是检测垂直边缘的。Sobel算子对于像素位置的影响做了加权，可以降低边缘模糊程度。Sobel算子另一种形式是各向同性Sobel算子，也有两个，一个是检测水平边缘的，另一个是检测垂直边缘的。各向同性Sobel算子和普通Sobel算子相比，它的位置加权系数更为准确，在检测不同方向的边沿时梯度的幅度一致。由于Sobel算子是滤波算子的形式，用于提取边缘，可以利用快速卷积函数，简单有效，因此应用广泛。

可选的，对于Laplace算法，是一种各向同性算子，二阶微分算子，在只关心边缘的位置而不考虑其周围的象素灰度差值时比较适用。Laplace算子对孤立象素的响应要比对边缘或线的响应要更强烈，因此只适用于无噪声的待检测图像。存在噪声情况下，使用Laplacian算子检测边缘之前需要先进行滤波。用来改善因扩散效应的模糊特别有效，因为它符合降制模型。扩散效应是成像过程中经常发生的现象。Laplacian算子一般不以其原始形式用于边缘检测，因为其作为一个二阶导数，Laplacian算子对噪声具有无法接受的敏感性；同时其幅值产生算边缘，这是复杂的分割不希望有的结果，最后Laplacian算子不能检测边缘的方向，所以Laplacian在分割中所起的作用包括：

(1)利用它的零交叉性质进行边缘定位；

(2)确定一个像素是在一条边缘暗的一面还是亮的一面；一般使用的是高斯型拉普拉斯算子(Laplacian of a Gaussian,LoG)，由于二阶导数是线性运算，利用LoG卷积一幅图像与首先使用高斯型平滑函数卷积改图像，然后计算所得结果的拉普拉斯是一样的。所以在LoG公式中使用高斯函数的目的就是对图像进行平滑处理，使用Laplacian算子的目的是提供一幅用零交叉确定边缘位置的图像；图像的平滑处理减少了噪声的影响并且它的主要作用还是抵消由Laplacian算子的二阶导数引起的逐渐增加的噪声影响。

可选的，对于Canny算法，Canny的目标是找到一个最优的边缘检测算法，最优边缘检测的含义是：

(1)最优检测：算法能够尽可能多地标识出图像中的实际边缘，漏检真实边缘的概率和误检非边缘的概率都尽可能小；

(2)最优定位准则：检测到的边缘点的位置距离实际边缘点的位置最近，或者是由于噪声影响引起检测出的边缘偏离物体的真实边缘的程度最小；

(3)检测点与边缘点一一对应：算子检测的边缘点与实际边缘点应该是一一对应。

其中，用Canny算法对语谱图进行图像边缘检测，不容易受到语谱图中图像噪声的干扰，还能够检测到语谱图中边缘较弱的边缘信息，可以理解的是，可以根据待检测音频生成的语谱图的特性选择一种或多种边缘检测算法。

在通过以上任一图像边缘检测算法对语谱图进行图像边缘检测，得到所述语谱图的边缘像素信息。

在一些实施方式中，在生成待处理音频的频谱矩阵后不生成待处理音频的语谱图，直接将频谱矩阵通过预设映射关系转换为像素矩阵，再对像素矩阵进行图像边缘检测，得到像素矩阵的边缘像素信息。

在一实施方式中，将频谱矩阵通过预设映射关系转换为像素矩阵具体为：

(1)获取频谱矩阵中的各点的音频强度值；

(2)从各点的音频强度值中确定出强度值最小的第一强度值以及强度值最大的第二强度值；

(3)将每点音频强度值减去第一强度值得到对应的第一差值，将第二强度值减去第一强度值得到第二差值，将第一差值除以第二差值再乘以预设像素值得到每点音频强度值对应的像素值，得到对应的像素矩阵。

其中，得到像素矩阵后再通过以上示例的一种或多种图像边缘检测算法对像素矩阵进行边缘检测，得到像素矩阵的边缘像素信息。通过该实施例中直接将频谱矩阵转化为像素矩阵，而不保存为图像文件的方法能减少图像边框对于频谱高度检测的影响。

在步骤103中，从边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到频谱信息的目标频率值的集合。

边缘像素信息包含有音频信号的强度值信息、时间信息以及频率信息，将音频信号的时间信息划分为多段预设单位时间，获取预设单位时间内的多个边缘像素，从多个边缘像素对应的多个频率值中选取最大目标频率值，得到频谱信息的目标频率值的集合。

在步骤104中，将集合中的目标频率值的峰值确定为待处理音频的频谱高度。

其中，集合中包含有从多段预设单位时间内确定出多个目标频率值，经过统计分析，确定出频率值最大的第一峰值，将第一峰值对应的目标频率值确定为待处理音频的频谱高度。

在一些实施方式中，集合中包含有从多段预设单位时间内确定出多个目标频率值，经过统计分析，确定出现概率最大的第二峰值，将第二峰值对应的目标频率值确定为待处理音频的频谱高度。

由上述可知，本申请实施例通过获取待处理音频，并生成所述待处理音频的频谱信息；对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。相对于需要人工对大量的音频信息进行频谱高度检测的方案而言，极大的降低了成本和提升了音频信息检测的效率。

实施例二、

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该音频信息的检测装置具体集成在服务器中为例进行说明。

请参阅图3，图3为本申请实施例提供的音频信息的检测方法的另一流程示意图。该方法流程可以包括：

在步骤201中，服务器获取待处理音频，并生成待处理音频的频谱矩阵。

服务器接收终端发送的音频检测指令，获取音频检测指令指示的音频信息，其中，音频信息可以为终端A发送的待检测音频，还可以为根据用户输入的音频名从服务器搜索得到的待检测音频，生成待处理音频的频谱矩阵的方法与以上步骤101类似，在此不再赘述。

在步骤202中，服务器将频谱矩阵通过预设映射关系转换为像素矩阵。

具体为：

(1)服务器获取频谱矩阵中的各点的音频强度值；

(2)服务器从各点的音频强度值中确定出强度值最小的第一强度值以及强度值最大的第二强度值；

(3)服务器将每点音频强度值减去第一强度值得到对应的第一差值，将第二强度值减去第一强度值得到第二差值，将第一差值除以第二差值再乘以预设像素值得到每点音频强度值对应的像素值，得到对应的像素矩阵。

例如，服务器将频谱矩阵上的音频强度值(单位为分贝)根据值域范围线性映射到像素值，即，频谱矩阵内各点的音频强度值的值域是m1 dB至m2 dB，即第一强度值为m1，第二强度值为m2，以其中一点音频强度值为例，该点的音频强度值为x dB，像素的范围为0至255，即预设像素值为255，根据预设线性映射关系，y＝(x–m1)/(m2-m1)*255可以得到该点信号强度值转换后对应的像素值。如，音频强度值的值域为-150dB至0dB，则第一强度值为-150dB，第二强度值为0dB，其中一点的音频强度值为-50dB，将以上数据带入预设线性映射关系中，可以计算得到-50dB的音频强度值经过预设线性映射关系转换得到的像素值为170，将每点音频信号的强度值对应的像素值组合成像素矩阵。

得到像素矩阵后再通过以上示例的一种或多种图像边缘检测算法对像素矩阵进行边缘检测，得到像素矩阵的边缘像素信息。通过该实施例中直接将频谱矩阵转化为像素矩阵，而不保存为图像文件的方法能减少图像边框对于频谱高度检测的影响。

在步骤203中，服务器从像素矩阵的多个像素点中确定出多个轮廓像素点。

服务器通过图像边缘检测算法，从像素矩阵的多个像素点中，确定多个轮廓像素点，可以理解的是，轮廓像素点包含有音频信号的强度值信息、时间信息以及频率信息，可以理解的是，不同的图像边缘检测算法确定出轮廓像素点的方式不同。

在步骤204中，服务器将多个轮廓像素点确定为像素矩阵的边缘像素信息。

轮廓像素点反映像素矩阵的边缘轮廓，可以理解为将像素矩阵转化为语谱图后的图像边缘轮廓。

在步骤205中，从预设单位时间内的多个轮廓像素点中确定出像素值大于阈值的多个目标轮廓像素点，每个目标轮廓像素点对应一个频率值，得到多个频率值。

例如，将音频信号的时间信息划分为多段预设单位时间，每段预设单位之间内对应多个轮廓像素点，获取预设单位时间内的多个目标轮廓像素点，每个目标轮廓像素点均对应一个频率值，即得到多个频率值。

在步骤206中，从多个频率值中确定出数值最大的目标频率值，得到频谱信息的多个目标频率值的集合。

将得到的多个频率值一一进行比较，得到数值最大的目标频率值，该目标频率值为预设单位时间内的目标频率值，即一个预设单位时间确定出一个目标频率值，对于多段预设单位时间，则得到多个目标频率值，即得到目标频率值得集合。

具体的：获取的轮廓像素值记为M(t,f)，其中t是指时刻，f指频率，M指在时间t和频率f处的轮廓像素值。如在时间t＝10秒这一单位时间段，第10秒包括多帧信号，根据音频信号的格式不同，每秒包含的帧数也不同，在该预设单位时间段中，检测到在f＝1000HZ的位置，M的像素值为255，f＝3000HZ的位置，M的像素值为0，在f＝20000HZ的位置，M的像素值为255，可以从频率最大值处开始遍历频率值，获取第一个像素值大于0的M值，获取M值对应的频率值F0，F0即为第10秒这一预设单位时间内的频谱高度，还可以对像素值M进行统计，确定出大于0的M值，再比较M值对应的频率值的大小，从大于0的像素值M中确定出最大频率值F0,在时间上依次对预设单位时间内的像素值进行处理，获得每个预设时间内的目标频率值，记为H(F0,F1,F2,…)，其中F0,F1,F2分别指预设单位时间t0,t1,t2的目标频率值，H为这些目标频率值的集合。

在步骤207中，从集合中确定出频率值最大的第一峰值，并将第一峰值对应的目标频率值确定为待处理音频的第一频谱高度。

在步骤208中，从集合中确定出现概率最大的第二峰值，并将第二峰值对应的目标频率值确定为待处理音频的第二频谱高度。

在步骤209中，将第一频谱高度和第二频谱高度进行比较，根据比较结果确定出待处理音频的检测结果。

为了更好描述本实施例，对于步骤207～步骤209进行统一描述，如下：

由于输入的待检测音频的频谱高度是所有音频帧的汇总结果，而不是其中某一音频帧的频谱高度，需要对集合H进行统计分析，获得基于音频频率数值和出现概率的分布结果，从集合H中确定出频率值最大的第一峰值，并将第一峰值对应的目标频率值确定为待处理音频的第一频谱高度F1，从集合H中确定出现概率最大的第二峰值，并将第二峰值对应的目标频率值确定为待处理音频的第二频谱高度F2，第一频率值F1和第二频率值F2为不同统计条件下的频谱高度，将第一频谱高度F1和第二频谱高度F2进行比较，当第一频谱高度F1和第二频谱高度F2之间的差值在预设差值范围内时，说明第一频谱高度F1与第二频谱高度F2比较接近，输入的音频具有整齐划一的频谱高度，频谱高度的稳定性高，若第一频谱高度F1与第二频谱高度F2之间的差值不再预设差值范围内时，说明输入的音频有一些音频帧的频谱高度为F1，但频谱高度为F1的音频帧数量较少，大部分的音频帧的频谱高度还是F2。则输入的音频的频谱高度稳定性较弱。

在一些实施方式中，在得到第一频谱高度F1和第二频谱高度F2后，根据需求将第一频谱高度F1和第二频谱高度F2反馈至终端，如打印到屏幕或者存储至磁盘等。

在一些实施方式中，在得到第一频谱高度F1和第二频谱高度F2比较结果后，根据需求将比较结果反馈至终端，其中，若第一频谱高度F1与第二频谱高度F2的差值在预设范围内，则将音频频谱高度的稳定性高的比较结果反馈至终端；若第一频谱高度F1与第二频谱高度F2的差值不在预设范围内时，则将音频频谱高度的稳定性弱的比较结果反馈至终端，以向终端提供音频品质划定的参考。

在一些实施方式中，可以根据需求将得到的第一频谱高度F1和/或第二频谱高度F2在音频的语谱图中标记，将标记后的音频的语谱图反馈至终端。

在一些实施方式中，当服务器接收到的音频检测指令为用户输入的音频名时，从服务器得到与该音频名对应的预设数量的待检测音频，对预设数量的待检测音频进行频谱高度的检测，检测方法如以上所述的音频检测方法，得到预设数量的待检测音频的检测结果，将检测结果与待检测音频一并反馈至终端，并在终端根据待检测音频频谱高度的稳定性按照降序显示。

为了更好描述本实施例，请参阅图4，图4是本申请实施例提供的音频信息的检测方法的场景示意图。

如图4显示界面10所示，用户可以在显示界面上输入音频名“小苹果”，现有技术中，如显示界面11所示，当用户点击检索后，服务器会直接将该音频名“小苹果”相应的搜索结果，反馈到终端的显示界面上，该检索结果只是根据提供方名字进行排序，用户只能随机点击其中的一个音频进行播放，由于音质不确定，用户可能点播到音质非常差的音频，给用户带来极差的体验。

因此，服务器需要提前对音频进行一个检测，将音质极差的音频筛选掉，避免造成存储空间、人力管理成本的浪费，所以，如图4的所示，服务器在接收到音频名“小苹果”后，可以先确定该音频名“小苹果”相应的3个待检测音频，分别得到该3个待检测音频对应的第一频谱高度和第二频谱高度，通过比较得到检测结果，将检测结果反馈与显示界面，如显示界面12所示，通过对与用户输入的音频名相关的三首待检测音频进行频谱高度检测，得到，提供方3的提供的音频的第一频谱高度为10.1KHZ，第二频谱高度为10.1KHZ，通过比较得出，提供方3提供的音频频谱高度稳定，音质相对较好。提供方1的提供的音频的第一频谱高度为9KHZ，第二频谱高度为8KHZ，通过比较得出，提供方1提供的音频频谱高度较稳定，音质一般。提供方2的提供的音频的第一频谱高度为10KHZ，第二频谱高度为5KHZ，通过比较得出，提供方2提供的音频频谱高度不稳定，音质较差。服务器将上述检测结果反馈给终端，终端可以按照音频的稳定性高度降序排列于显示界面12，便于用于了解音频的音质好坏。

可以理解的是，如图4所示，用户还可以通过音频输入按键“输入本地音频”将用户选取的待检测音频发送至服务器，其中用户选取的待检测音频可以为终端本地的音频文件，也可以为音频文件的链接等，通过上述音频检测方法对用户输入的待检测音频进行频谱高度的检测。

由上述可知，本申请实施例通过服务器获取待处理音频，并生成待处理音频的频谱矩阵，将频谱矩阵通过预设映射关系转换为像素矩阵，从像素矩阵的多个像素点中确定出多个轮廓像素点，将多个轮廓像素点确定为像素矩阵的边缘像素信息，从预设单位时间内的多个轮廓像素点中确定出像素值大于阈值的多个目标轮廓像素点，每个目标轮廓像素点对应一个频率值，得到多个频率值，从多个频率值中确定出数值最大的目标频率值，得到频谱信息的多个目标频率值的集合，从集合中确定出频率值最大的第一峰值，并将第一峰值对应的目标频率值确定为待处理音频的第一频谱高度，从集合中确定出现概率最大的第二峰值，并将第二峰值对应的目标频率值确定为待处理音频的第二频谱高度，将第一频谱高度和第二频谱高度进行比较，根据比较结果确定出待处理音频的检测结果，可以对海量音频进行快速准确的频谱高度检测，并输出音频的频谱高度信息，这些信息将有助于人们对于音频质量的分类、管理和使用，相比于人工筛选这种耗时耗力的方式，通过图像边缘检测对音频信号处理获得检测结果的方式处理效率高，运行速度快，极大的降低了检测成本和提升了音频信息检测的效率。

实施例三、

为便于更好的实施本申请实施例提供的音频信息的检测方法，本申请实施例还提供一种基于上述音频信息的检测方法的装置。其中名词的含义与上述音频信息的检测方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5a，图5a为本申请实施例提供的音频信息的检测装置的结构示意图，其中该音频信息的检测装置可以包括获取单元301、检测单元302、选取单元303、确定单元304等。

获取单元301，用于获取待处理音频，并生成所述待处理音频的频谱信息；

检测单元302，对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；

其中，根据频谱矩阵生成语谱图后，对语谱图进行图像边缘检测，得到语谱图的边缘像素信息，其中，图像边缘检测可以在滤波过后针对滤波方式对应选择边缘检测算法，边缘检测算法可以包括Sobel算法、Laplace算法或Canny算法等，对语谱图进行边缘检测。在通过以上任一图像边缘检测算法对语谱图进行图像边缘检测，得到所述语谱图的边缘像素信息。

在一些实施方式中，在生成待处理音频的频谱矩阵后不生成待处理音频的语谱图，直接将频谱矩阵通过预设映射关系转换为像素矩阵，其中，将频谱矩阵通过预设映射关系转换为像素矩阵具体为：

(1)获取频谱矩阵中的各点的音频强度值；

(3)将每点音频强度值减去第一强度值得到对应的第一差值，将第二强度值减去第一强度值得到第二差值，将第一差值除以第二差值再乘以预设像素值得到每点音频强度值对应的像素值，得到对应的像素矩阵。得到像素矩阵后再通过以上示例的一种或多种图像边缘检测算法对像素矩阵进行边缘检测，得到像素矩阵的边缘像素信息。通过该实施例中直接将频谱矩阵转化为像素矩阵，而不保存为图像文件的方法能减少图像边框对于频谱高度检测的影响。

选取单元303，用于从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；

确定单元304，用于将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。

在一些实施方式中，如图5b所示，图5b是本申请实施例提供的音频信息的检测装置的另一结构示意图，其中，获取单元301包括：第一生成单元3011、第二生成单元3012以及转换单元3013，检测单元302包括：第一确定单元3021以及第二确定单元3022，选取单元303包括：第一选取单元3031以及第二选取单元3032，确定单元304包括：第三确定单元3041、第四确定单元3042以及第五确定单元3045，比较单元305。

在一些实施方式中，获取单元301包括：

第一生成单元3011，用于生成所述待处理音频的频谱矩阵；

第二生成单元3012，用于基于所述频谱矩阵生成所述待处理音频的语谱图；

检测单元302，具体用于对所述语谱图进行图像边缘检测，得到所述语谱图的边缘像素信息。

在一些实施方式中，获取单元301还包括：

转换单元3013，用于将所述频谱矩阵通过预设映射关系转换为像素矩阵；

检测单元302，具体还用于对所述像素矩阵进行图像边缘检测，得到所述像素矩阵的边缘像素信息。

在一些实施方式中，检测单元302包括：

第一确定单元3021，用于从所述像素矩阵的多个像素点中确定出多个轮廓像素点；

第二确定单元3022，用于将所述多个轮廓像素点确定为所述像素矩阵的边缘像素信息。

在一些实施方式中，选取单元303包括：

第一选取单元3031，用于从预设单位时间内的多个轮廓像素点中确定出像素值大于阈值的多个目标轮廓像素点，每个目标轮廓像素点对应一个频率值，得到多个频率值；

第二选取单元3032，用于从所述多个频率值中确定出数值最大的目标频率值，得到所述频谱信息的多个目标频率值的集合。

在一些实施方式中，确定单元304包括：

第三确定单元3041，用于从所述集合中确定出频率值最大的第一峰值，将所述第一峰值对应的目标频率值确定为所述待处理音频的频谱高度。

第四确定单元3042，用于从所述集合中确定出现概率最大的第二峰值，并将所述第二峰值对应的目标频率值确定为所述待处理音频的第二频谱高度。

第五确定单元3043，用于将所述第一频谱高度或所述第二频谱高度确定为所述待处理音频的频谱高度。

在一些实施方式中，比较单元305，具体用于将所述第一频谱高度和所述第二频谱高度进行比较，根据比较结果确定出待处理音频的检测结果。

以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

由上述可知，本申请实施例通过获取单元301获取待处理音频，并生成所述待处理音频的频谱信息；检测单元302对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；选取单元303，用于从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；确定单元304，用于将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。相对于需要人工对的音频信息进行频谱高度检测的方案而言，在需要检测大量音频信息的情况下，极大的降低了检测成本和提升了音频信息检测的效率。

实施例四、

本申请实施例还提供一种服务器，如图6所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图6中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待处理音频，并生成所述待处理音频的频谱信息；对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频信息的检测方法的详细描述，此处不再赘述。

由上述可知，本申请实施例的服务器可以获取待处理音频，并生成所述待处理音频的频谱信息；对所述频谱信息进行图像边缘检测，将所述频谱信息转化为边缘像素信息；从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合；将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度。相对于需要人工对的音频信息进行频谱高度检测的方案而言，在需要检测大量音频信息的情况下，极大的降低了检测成本和提升了音频信息检测的效率。

实施例五、

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种音频信息的检测方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种音频信息的检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频信息的检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频信息的检测方法、装置、存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频信息的检测方法，其特征在于，包括：

获取待处理音频，并生成所述待处理音频的频谱矩阵；

将所述频谱矩阵通过预设映射关系转换为像素矩阵或语谱图；

对像素矩阵或语谱图进行图像边缘检测，得到所述像素矩阵或语谱图的边缘像素信息；

2.根据权利要求1所述的检测方法，其特征在于，所述对所述像素矩阵进行图像边缘检测，得到所述像素矩阵的边缘像素信息的步骤，包括：

从所述像素矩阵的多个像素点中确定出多个轮廓像素点；

将所述多个轮廓像素点确定为所述像素矩阵的边缘像素信息。

3.根据权利要求2所述的检测方法，其特征在于，所述从所述边缘像素信息的每一预设单位时间内的多个频率值中选取最大的目标频率值，得到所述频谱信息的目标频率值的集合的步骤，包括：

从预设单位时间内的多个轮廓像素点中确定出像素值大于阈值的多个目标轮廓像素点，每个目标轮廓像素点对应一个频率值，得到多个频率值；

从所述多个频率值中确定出数值最大的目标频率值，得到所述频谱信息的多个目标频率值的集合。

4.根据权利要求1-3任一项所述的检测方法，其特征在于，所述将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度的步骤，包括：

从所述集合中确定出频率值最大的第一峰值，将所述第一峰值对应的目标频率值确定为所述待处理音频的频谱高度。

5.根据权利要求1-3任一项所述的检测方法，其特征在于，所述将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度的步骤，包括：

从所述集合中确定出频率值最大的第一峰值，并将所述第一峰值对应的目标频率值确定为所述待处理音频的第一频谱高度；

从所述集合中确定出现概率最大的第二峰值，并将所述第二峰值对应的目标频率值确定为所述待处理音频的第二频谱高度；

将所述第一频谱高度或所述第二频谱高度确定为所述待处理音频的频谱高度。

6.根据权利要求5所述的检测方法，其特征在于，在将所述集合中的目标频率值的峰值确定为所述待处理音频的频谱高度的步骤之后，还包括：

将所述第一频谱高度和所述第二频谱高度进行比较，根据比较结果确定出待处理音频的检测结果。

7.一种音频信息的检测装置，其特征在于，包括：

获取单元，用于获取待处理音频，并生成所述待处理音频的频谱矩阵,将所述频谱矩阵通过预设映射关系转换为像素矩阵或语谱图；

检测单元，用于对所述像素矩阵或语谱图进行图像边缘检测，得到所述像素矩阵或语谱图的边缘像素信息；

8.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至6任一项所述的音频信息的检测方法。