CN113488068B

CN113488068B - 音频异常检测方法、装置及计算机可读存储介质

Info

Publication number: CN113488068B
Application number: CN202110816561.9A
Authority: CN
Inventors: 苗田
Original assignee: Goertek Techology Co Ltd
Current assignee: Goertek Techology Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2024-03-08
Anticipated expiration: 2041-07-19
Also published as: CN113488068A

Abstract

本发明公开了一种音频异常检测方法、装置及计算机可读存储介质，所述音频异常检测方法包括：根据目标音频信号对应的预设采样频率确定所述目标音频信号的采样点和采样时长；将所述目标音频信号从频域信号转换为时域信号，并根据所述时域信号确定所述采样点对应的采样值；根据所述采样值、所述采样点以及所述采样时长对所述目标音频信号进行异常值分析，以确定所述目标音频信号的丢帧位置和丢帧时间。本发明能够提高音频异常检测的准确率。

Description

音频异常检测方法、装置及计算机可读存储介质

技术领域

本发明涉及音频异常检测技术领域，尤其涉及一种音频异常检测方法、装置及计算机可读存储介质。

背景技术

许多智能设备，例如耳机、智能手环、AR以及VR等，都无法直接检测获取到的音频信号的丢帧情况。若要检测音频信号中是否存在丢帧情况，现有技术通常采用Audacity+MATLAB进行检测。但这种检测方式对音频信号的自身条件要求较高，需要严格控制音频信号的音频时长和音频格式，而对于一般音频信号的丢帧情况，这种检测方式的检测准确率较低。

发明内容

本发明的主要目的在于提供一种音频异常检测方法、装置及计算机可读存储介质，旨在提高音频异常检测的准确率。

为实现上述目的，本发明提供一种音频异常检测方法，所述音频异常检测方法包括：

根据目标音频信号对应的预设采样频率确定所述目标音频信号的采样点和采样时长；

将所述目标音频信号从频域信号转换为时域信号，并根据所述时域信号确定所述采样点对应的采样值；

根据所述采样值、所述采样点以及所述采样时长对所述目标音频信号进行异常值分析，以确定所述目标音频信号的丢帧位置和丢帧时间。

在一实施例中，所述根据所述采样值、所述采样点以及所述采样时长对所述目标音频信号进行异常值分析，以确定所述目标音频信号的丢帧位置和丢帧时间的步骤包括：

在所述采样值中获取预设数量的目标采样值；

采用异常值分析算法对预设数量的所述目标采样值进行异常值分析得到分析结果；

根据所述分析结果确定所述目标音频信号的异常采样点；

根据所述异常采样点以及所述采样时长确定所述目标音频信号的丢帧位置和丢帧时间。

在一实施例中，所述根据所述异常采样点以及所述采样时长确定所述目标音频信号的丢帧位置和丢帧时间的步骤包括：

获取所述采样时长内各个采样点的采样位置；

根据各个所述采样点的采样位置确定所述异常采样点的目标采样位置；

根据所述目标采样位置确定所述目标音频信号的丢帧位置；

根据所述丢帧位置和所述采样时长确定所述目标音频信号的丢帧时间。

在一实施例中，所述根据所述丢帧位置和所述采样时长确定所述目标音频信号的丢帧时间的步骤包括：

获取所述采样时长对应的采样起始时间和采样结束时间；

根据所述采样起始时间、采样结束时间以及丢帧位置确定所述目标音频信号的丢帧时间。

在一实施例中，所述在所述采样值中获取预设数量的目标采样值的步骤包括：

将所述采样值按照升序或者降序排序；

根据排序结果确定预设数量的所述目标采样值。

在一实施例中，所述根据目标音频信号对应的预设采样频率确定所述目标音频信号的采样点和采样时长的步骤之前还包括：

获取原始音频信号；

解析所述原始音频信号得到所述原始音频信号的声道数量；

根据所述原始音频信号的声道数量确定目标音频信号。

在一实施例中，所述根据所述原始音频信号的声道数量确定目标音频信号的步骤包括：

在所述原始音频信号只有一个声道时，获取所述声道的音频信号；

将所述声道的音频信号的音频位深度调整为预设比特深度，以得到目标音频信号。

在所述原始音频信号存在多个声道时，获取每一个声道的音量；

将音量最大的所述声道的音频信号的音频位深度调整为预设比特深度，以得到目标音频信号。

此外，为实现上述目的，本发明还提供一种音频异常检测装置，所述音频异常检测装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频异常检测程序，所述音频异常检测程序被所述处理器执行时实现上述任一项所述的音频异常检测方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音频异常检测程序，所述音频异常检测程序被处理器执行时实现上述任一项所述的音频异常检测方法的步骤。

本发明提出了一种音频异常检测方法、装置及计算机可读存储介质，根据目标音频信号对应的预设采样频率确定目标音频信号的采样点和采样时长，将目标音频信号从频域信号转换为时域信号，并根据时域信号确定采样点对应的采样值，根据采样值、采样点以及采样时长对目标音频信号进行异常值分析，以确定目标音频信号的丢帧位置和丢帧时间。本方案通过对音频信号的采样点的采样值进行异常值分析，音频异常检测过程中对音频信号的音频时长和音频格式并无要求，因而可以有效提高音频异常检测的准确率。

附图说明

图1为本发明实施例方案涉及的音频异常检测装置的硬件架构示意图；

图2为本发明音频异常检测方法的第一实施例的流程示意图；

图3为本发明音频异常检测方法的第二实施例的流程示意图；

图4为本发明音频异常检测方法的第三实施例的流程示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：根据目标音频信号对应的预设采样频率确定所述目标音频信号的采样点和采样时长；将所述目标音频信号从频域信号转换为时域信号，并根据所述时域信号确定所述采样点对应的采样值；根据所述采样值、所述采样点以及所述采样时长对所述目标音频信号进行异常值分析，以确定所述目标音频信号的丢帧位置和丢帧时间。本方案通过对音频信号的采样点的采样值进行异常值分析，音频异常检测过程中对音频信号的音频时长和音频格式并无要求，因而可以有效提高音频异常检测的准确率。

作为一种实现方案，参照图1，图1为本发明实施例方案涉及的音频异常检测装置的硬件架构示意图，如图1所示，该音频异常检测装置可以包括处理器101，例如CPU，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。

存储器102可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括音频异常检测程序；而处理器101可以用于调用存储器102中存储的音频异常检测程序，并执行以下操作：

在一实施例中，处理器101可以用于调用存储器102中存储的音频异常检测程序，并执行以下操作：

在所述采样值中获取预设数量的目标采样值；

根据所述分析结果确定所述目标音频信号的异常采样点；

获取所述采样时长内各个采样点的采样位置；

根据所述目标采样位置确定所述目标音频信号的丢帧位置；

获取所述采样时长对应的采样起始时间和采样结束时间；

将所述采样值按照升序或者降序排序；

根据排序结果确定预设数量的所述目标采样值。

获取原始音频信号；

解析所述原始音频信号得到所述原始音频信号的声道数量；

根据所述原始音频信号的声道数量确定目标音频信号。

参照图2，图2为本发明音频异常检测方法的第一实施例的流程示意图，所述音频异常检测方法包括：

步骤S10，根据目标音频信号对应的预设采样频率确定所述目标音频信号的采样点和采样时长；

在本实施例中，执行主体是音频异常检测装置，其中，音频异常是指音频信号存在丢帧情况，音频异常检测装置是指可以用于检测音频信号是否存在丢帧并在存在丢帧时可以分析音频信号丢帧位置和丢帧时间的装置或者设备，音频异常检测装置可以对录制好的音频文件进行音频异常检测，也可以在音频录制或传输过程中对音频信号进行音频异常检测。音频异常检测装置可以是终端设备，例如PC、平板电脑、手机或者便携式计算机等，当然，在其他实施例中，音频异常检测装置也可以根据实际应用场景的需要确定，本实施例对此不作限定。

在本实施例中，音频异常检测装置根据目标音频信号对应的预设采样频率确定目标音频信号的采样点和采样时长，其中，目标音频信号是指存在丢帧的音频信号，例如，目标音频信号可以是录制的且存在丢帧的音频文件，目标音频信号也可以是录制的且存在丢帧的音频文件中某一个声道的音频信号；采样频率是指目标音频信号的采样速度，其中，预设采样频率可以根据实际需要设定，本实施例对此不作限定；目标音频信号由多个采样点组成，目标音频信号的采样时长是指目标音频信号的第一个采样点到最后一个采样点的总时长。

具体地，音频异常检测装置获取录制好的音频文件，根据录制好的音频文件确定目标音频信号，或者，在音频录制过程中，音频异常检测装置实时获取录制或传输过程中的音频信号，根据获取到的音频信号确定目标音频信号，音频异常检测装置根据目标音频信号对应的预设采样频率确定目标音频信号的采样点和采样时长。

步骤S20，将所述目标音频信号从频域信号转换为时域信号，并根据所述时域信号确定所述采样点对应的采样值；

具体地，音频异常检测装置在确定目标音频信号的采样点和采样时长后，将目标音频信号从频域信号转换为时域信号，并根据时域信号确定采样点对应的采样值，其中，采样值为采样点对应的数值，采样值用于表征目标音频信号中采样点所在位置对应的音频信号的音频细节。音频异常检测装置可以采用小波变换法将目标音频信号从频域信号转换为时域信号，当然，在其他实施例中，也可以通过其他可以实现频域信号到时域信号转换的方法将目标音频信号从频域信号转换为时域信号。其中，频域信号反映音频信号在频域上的特性，时域信号反映音频信号在时域上的特征，通过将音频信号从频域信号转换为时域信号可以对音频信号的时间特性进行分析，进而可以确定音频信号的丢帧位置和丢帧时间。

步骤S30，根据所述采样值、所述采样点以及所述采样时长对所述目标音频信号进行异常值分析，以确定所述目标音频信号的丢帧位置和丢帧时间。

在本实施例中，音频异常检测装置获取到音频信号的采样值后，根据采样值、采样点以及采样时长对目标音频信号进行异常值分析，根据异常值分析的分析结果确定目标音频信号的丢帧位置以及丢帧的具体时间，其中，异常值分析是指对目标音频信号的采样值进行异常分析，通过对采样值进行异常分析可以判断目标音频信号是否存在丢帧情况。

具体地，采用异常值分析算法对目标音频信号的采样值进行异常值分析，通过对采样值的分析可以确定目标音频信号存在丢帧的采样点所在的位置，根据存在丢帧的采样点所在的位置即可确定目标音频信号的丢帧位置，同时根据存在丢帧的采样点所在的位置与目标音频信号的采样时长可以计算出目标音频信号丢帧的具体时间。需要说明的是，异常值分析算法可以是箱型图算法，当然，在其他实施例中，异常值分析算法可以根据实际需要确定，本实施例对此不作限定。

本实施例提供的技术方案中，根据目标音频信号对应的预设采样频率确定目标音频信号的采样点和采样时长，将目标音频信号从频域信号转换为时域信号，并根据时域信号确定采样点对应的采样值，根据采样值、采样点以及采样时长对目标音频信号进行异常值分析，以确定目标音频信号的丢帧位置和丢帧时间。本方案通过对音频信号的采样点的采样值进行异常值分析，音频异常检测过程中对音频信号的音频时长和音频格式并无要求，因而可以有效提高音频异常检测的准确率。

参照图3，图3为本发明音频异常检测方法的第二实施例的流程示意图，基于第一实施例，上述S30的步骤包括：

步骤S31，在所述采样值中获取预设数量的目标采样值；

在本实施例中，音频异常检测装置在获取到目标音频信号的采样值后，在所述采样值中获取预设数量的目标采样值，其中，目标采样值是指在目标音频信号的采样值中选取的预设数量的采样值，预设数量可以是150个，当然，在其他实施例中预设数量可以根据实际需要设定，本实施例对此不作限定。

具体地，音频异常检测装置在获取到目标音频信号的采样值后，将采样值按照升序或者降序排序，根据排序结果确定预设数量的目标采样值。

可选地，音频异常检测装置将获取到的目标音频信号的采样值从大到小作降序排序，得到排序结果，选取排序的前150个采样值得到预设数量的目标采样值。

可选地，音频异常检测装置将获取到的目标音频信号的采样值从小到大作升序排序，得到排序结果，选取排序的后150个采样值得到预设数量的目标采样值。

步骤S32，采用异常值分析算法对预设数量的所述目标采样值进行异常值分析得到分析结果；

在本实施例中，音频异常检测装置采用异常值分析算法对获取的预设数量的目标采样值进行异常值分析，其中，异常值分析算法可以是箱型图算法。

在本实施例中，以箱型图算法为例进行说明，箱型图算法是指用于分析显示一组数据分散情况的统计算法，箱型图算法可以分析一组数据中是否存在异常数据。

具体地，基于箱型图算法，音频异常检测装置获取目标采样值对应的上边缘、下边缘、上四分位数Q₃、下四分位数Q₁以及中位数X_m，然后根据目标采样值对应的上边缘、下边缘、上四分位数Q₃、下四分位数Q₁以及中位数X_m构造一个矩形盒，其中，矩形盒两端边的位置分别对应目标采样值的上四分位数Q₃和下四分位数Q₁，矩形盒内部为目标采样值的中位数X_m，目标采样值的上边缘和下边缘与矩形盒连接。

进一步地，在目标采样值的中位数X_m位置画一条线段为中位线，在Q₃+1.5IQR和Q₁－1.5IQR处画两条与中位线一样的线段，这两条线段为异常值截断点，也叫内限；在Q₃+3IQR和Q₁－3IQR处画两条线段，也叫外限。处于内限以外位置的点表示的目标采样值都是异常值，其中在内限与外限之间的异常值为温和的异常值，在外限以外的为极端的异常值，其中IQR为四分位距，四分距IQR＝Q₃-Q₁。

进一步地，从矩形盒两端边向外各画一条线段直到不是异常值的最远点，表示该批数据正常值的分布区间。

在本实施例中，采用箱型图算法对目标采样值进行异常值分析可以提高对异常采样值的检测准确率，进而提高音频异常的检测准确率。

步骤S33，根据所述分析结果确定所述目标音频信号的异常采样点；

步骤S34，根据所述异常采样点以及所述采样时长确定所述目标音频信号的丢帧位置和丢帧时间。

在本实施例中，音频异常检测装置对目标采样值异常值分析得到异常采样值，将异常采样值对应的采样点确定为异常采样点，其中，异常采样点是指存在音频丢帧的采样点。

在本实施例中，音频异常检测装置采用箱型图算法对目标音频信号的采样值进行异常值分析，通过对目标采样值的分析可以确定目标音频信号存在丢帧的采样点所在的位置，根据存在丢帧的采样点所在的位置即可确定目标音频信号的丢帧位置，同时根据存在丢帧的采样点所在的位置与目标音频信号的采样时长可以计算出目标音频信号丢帧的具体时间。

具体地，音频异常检测装置通过获取采样时长内各个采样点的采样位置，根据各个采样点的采样位置确定异常采样点的目标采样位置，根据目标采样位置确定目标音频信号的丢帧位置，其中，采样位置是指目标音频信号中采样点所在的位置，目标采样位置是指目标音频信号中异常采样点所在的位置，音频异常检测装置在确定目标采样位置后，将目标采样位置确定为目标音频信号的丢帧位置。

进一步地，音频异常检测装置在确定目标音频信号的丢帧位置后，根据目标音频信号的丢帧位置和采样时长确定目标音频信号的丢帧时间。具体地，音频异常检测装置通过获取采样时长对应的采样起始时间和采样结束时间，根据采样起始时间、采样结束时间以及丢帧位置计算目标音频信号的丢帧时间。

本实施例提供的技术方案中，通过在采样值中获取预设数量的目标采样值，采用异常值分析算法对预设数量的目标采样值进行异常值分析得到分析结果，根据分析结果确定目标音频信号的异常采样点，根据异常采样点以及采样时长确定目标音频信号的丢帧位置以及丢帧时间。本方案通过异常值分析算法对音频信号的采样点的采样值进行异常值分析来确定音频信号的丢帧位置和丢帧时间，异常检测过程中对音频信号的音频时长和音频格式并无要求，因而可以有效提高音频异常检测的准确率。

参照图4，图4为本发明音频异常检测方法的第三实施例的流程示意图，基于第一实施例，上述S10的步骤之前还包括：

步骤S40，获取原始音频信号；

具体地，音频检测装置根据目标音频信号对应的预设采样频率确定目标音频信号的采样点和采样时长之前，获取原始音频信号，其中，原始音频信号可以是事先录制好并存储在音频检测装置的音频文件，原始音频文件也可以是从其他终端设备导入的音频文件，原始音频文件还可以是音频录制或者传输过程中的音频文件。

步骤S50，解析所述原始音频信号得到所述原始音频信号的声道数量；

步骤S60，根据所述原始音频信号的声道数量确定目标音频信号。

在本实施例中，音频异常检测装置在获取到原始音频信号之后，解析该原始音频信号，得到原始音频信号的声道数量，其中，声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，声道数量也就是声音录制时的音源数量或回放时相应的扬声器数量。声道数量可以是1个、2个、4个以及8个等。

在本实施例中，音频异常检测装置解析获取到的原始音频信号以分离原始音频信号的声道，得到原始音频信号的声道数量，根据原始音频信号的声道数量确定目标音频信号。

具体地，在原始音频信号只有一个声道时，获取该声道的音频信号，将该声道的音频信号的音频的位深度调整为预设比特深度，以得到目标音频信号，其中，音频的位深度是指音频的采样位深，音频的位深度决定音频的动态范围，音频的位深度的单位为比特(bit)，每一个比特大约可以记录6分贝(dB)的声音，例如，20bit可记录的动态范围是120dB；24bit就大概是144dB,一般来说，音频的位深度越高，音频的动态范围越大，可以记录的音频细节越丰富；预设比特深度可以是16bit，当然，在其他实施例中，预设比特深度可以根据实际需要设定，本实施例对此不作限定。可以采用第三方处理工具sox将声道的音频位深度统一处理为16bit。

进一步地，在原始音频信号存在多个声道时，比较各个声道的音量，选取音量最大的声道对应的音频信号，将音量最大的声道的音频信号的音频的位深度调整为预设比特深度，以得到目标音频信号。由于音量越大，获取的音频特征会更加明显，声道数据更完整，更容易检测到异常点的位置，通过选取音量最大的声道对应的音频信号作为目标音频信号进行音频异常检测，可以提高音频异常检测的准确性。

本实施例提供的技术方案中，通过获取原始音频信号，解析原始音频信号得到原始音频信号的声道数量，根据原始音频信号的声道数量确定目标音频信号。本方案通过声道数量确定目标音频信号，确保目标音频信号是音频特征较明显的音频信号，有利于提高音频异常检测的准确率。

基于上述实施例，本发明还提供了一种音频异常检测装置，上述音频异常检测装置可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的音频异常检测程序，上述处理器执行上述音频异常检测程序时，实现如上述任一实施例所述的音频异常检测方法的步骤。

基于上述实施例，本发明还提供一种计算机可读存储介质，其上存储有音频异常检测程序，上述音频异常检测程序被处理器执行时实现如上述任一实施例所述的音频异常检测方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是智能电视、手机、计算机等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频异常检测方法，其特征在于，所述音频异常检测方法包括：

在所述采样值中获取预设数量的目标采样值；

根据所述分析结果确定所述目标音频信号的异常采样点；

2.如权利要求1所述的音频异常检测方法，其特征在于，所述根据所述异常采样点以及所述采样时长确定所述目标音频信号的丢帧位置和丢帧时间的步骤包括：

获取所述采样时长内各个采样点的采样位置；

根据所述目标采样位置确定所述目标音频信号的丢帧位置；

3.如权利要求2所述的音频异常检测方法，其特征在于，所述根据所述丢帧位置和所述采样时长确定所述目标音频信号的丢帧时间的步骤包括：

获取所述采样时长对应的采样起始时间和采样结束时间；

4.如权利要求1所述的音频异常检测方法，其特征在于，所述在所述采样值中获取预设数量的目标采样值的步骤包括：

将所述采样值按照升序或者降序排序；

根据排序结果确定预设数量的所述目标采样值。

5.如权利要求1所述的音频异常检测方法，其特征在于，所述根据目标音频信号对应的预设采样频率确定所述目标音频信号的采样点和采样时长的步骤之前还包括：

获取原始音频信号；

解析所述原始音频信号得到所述原始音频信号的声道数量；

根据所述原始音频信号的声道数量确定目标音频信号。

6.如权利要求5所述的音频异常检测方法，其特征在于，所述根据所述原始音频信号的声道数量确定目标音频信号的步骤包括：

7.如权利要求5所述的音频异常检测方法，其特征在于，所述根据所述原始音频信号的声道数量确定目标音频信号的步骤包括：

8.一种音频异常检测装置，其特征在于，所述音频异常检测装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频异常检测程序，所述音频异常检测程序被所述处理器执行时实现如权利要求1-7中任一项所述的音频异常检测方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音频异常检测程序，所述音频异常检测程序被处理器执行时实现如权利要求1-7中任一项所述的音频异常检测方法的步骤。