CN108694937A

CN108694937A - 一种数字视音频监控系统中音频可视化监控的方法

Info

Publication number: CN108694937A
Application number: CN201710216097.3A
Authority: CN
Inventors: 陈荣伟
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-04-05
Filing date: 2017-04-05
Publication date: 2018-10-23

Abstract

一种数字视音频监控系统中音频可视化监控的方法。方法包括：对实时解码后的每帧音频数据提取音频短时能量，归一化处后顺序存储到循环音频短时能量队列中;对每帧音频数据提取短时过门限率；根据音频短时过门限率和短时能量判断声音起点和终点,从声音起点开始提取音频特征向量并进行存储,当检测到声音终点后结束存储；根据所存储的若干音频特征向量提取声纹模型，将声纹模型与已存储的多个样本声纹模型进行比对和分类；对声音短时能量队列中各帧的能量值、各帧与最新帧的距离分别进行换算，在视频图像上从右至左连线各坐标点，画出一段时间内的音频波形曲线，并将音频分类名称叠加在相应曲线段的上方,实现音频监控的可视化。

Description

一种数字视音频监控系统中音频可视化监控的方法

技术领域

本发明涉及一种数字视音频监控系统中音频可视化监控的方法。

背景技术

视音频监控系统从模拟发展到了数字化，视频和音频在模数转换后，以不同的编码方式分别进行编码、封装、存储、传输、解码和播放。

视音频监控系统的规模从单路到上万路不等，视频和音频往往需要同时进行监视和监听。多路视频可以通过画面分割的方法或多个监视器的方式同时播放，但是音频则大多由用户主动选择某一路进行单路的监听。采用混音技术在单台设备上实现多路音频的同时播放，或者多个监视器同时播放声音，则存在同时监听的音频路数有限、各路声音混在一起无法听清、音频和视频不易于相互一一对应的问题。

大规模集中监控系统中，视频电视墙的建设非常普遍，成百上千路视频可以同时在电视墙上同时显示，但各路视频对应的音频监听和监控却难以同时实现。

发明内容

本发明的目的在于提供一种数字视音频监控系统中音频可视化监控的方法,能够实现在对各路视频监控的同时也能直观看到一段时间内各路音频的变化及异常声响发生的情况，填补音频监控的空白。本发明包括。

从音频解码后得到的音频波形数据帧提取声音短时能量，归一化处后存储到有限长度(大于等于图像宽度值,以像素为单位)的声音短时能量循环队列; 提取音频短时过门限率。

比较当前帧短期能量和短期能量阈值的大小，以及当前帧过门限率和过门限率阈值的大小，如果两者分别都比阈值大，表示为声音起点，两者分别都比阈值小，表示为声音终点;从声音起点开始对每个音频帧提取MFCC特征向量，存储于有限长度的队列中，当检测到声音终点时，该队列构成了即时声纹特征向量表。

从即时声纹特征向量表中提取即时声纹模型，此处采用高斯混合模型；将即时声纹模型与已存储的各个样本声纹模型进行比对，确定声音分类。

对于即将播放的每帧视频图像，取图像高度减去图像高度的1/N(N>1,建议取4)乘以声音短时能量表中各帧能量值的差作为Y坐标, 图像宽度减去差各帧与最新帧距离的差作为X坐标，在图像上从右至左逐点连线形成声纹曲线。

对于即将播放的每帧视频图像，将短期能量表中各段音频的分类名称叠加在视频图像上对应点的曲线上方,实现一段时间内音频变化及异常声响发生情况的可视化显示。

【专利附图】

图1为本发明一种数字视音频监控系统中音频可视化监控方法的流程图。

图2为本发明一种数字视音频监控系统中音频可视化监控方法的音频短时能量和过门限率提取子模块流程图。

图3为本发明一种数字视音频监控系统中音频可视化监控方法的音频波形绘制子模块流程图。

图4为本发明一种数字视音频监控系统中音频可视化监控方法的音频帧特征向量提取子模块流程图。

图5为本发明一种数字视音频监控系统中音频可视化监控方法的声纹建模和分类子模块流程图。

【具体实施方式】

下面结合附图对本发明的具体实施方式做详细的说明。

一种数字视音频监控系统中音频可视化监控的方法100，如图1所示，包括如下子模块：

音频短时能量和过门限率提取子模块101，对每帧音频数据提取短期能量和过门限率。

音频波形绘制子模块102，用于在视频图像上绘制音频波形和显示音频区段声音类型。

音频特征向量提取子模块103，用于提取音频MFCC特征向量。

声纹建模和分类子模块104，用于对一段时间的音频MFCC特征向量表提取即时声纹模型，并与预先加载到系统中的样本声纹模型进行比对，判定声音类别。

具体地,方法100判定输入数据为音频时，调用子模块 101。

具体地,子模块101提取音频的短期能量，并顺序存入固定长度的音频短期能量循环队列，队列的长度应大于等于视频图像宽度值(以像素为单位)；提取音频的过门限率。

具体地，方法100判断是否设置了声音起点标志帧，如未设置，比较当前短期能量和短期能量阈值的大小，以及当前过门限率和过门限率阈值的大小，如果两者分别都比阈值小，表示为无声状态；如果是无声状态，缓存当前帧音频数据，方法100直接返回；反之，判断为有声状态，设置声音起点标志帧号为当前帧，调用子模块103，缓存当前帧音频数据，方法100返回; 如方法100判断前一帧为有声音状态，比较当前短期能量和短期能量阈值的大小，以及当前过门限率和过门限率阈值的大小，如果存在大于的情况，表示为非声音终点，调用子模块103, 缓存当前帧音频数据，方法100返回;否则为声音终点，调用模块104，复位音频起点标志帧，缓存当前帧音频数据，方法100返回；

具体地，子模块103参考前帧和本帧音频数据，提取MFCC特征向量，保存到特征向量表中。

具体地，子模块104针对即时声纹MFCC特征向量表，提取即时声纹高斯混合模型，然后与已存储的样本声纹模型进行比对，判断即时声纹的类别，并将音频短期能量队列中音频起点帧和终点帧之间的所有帧标注为此类别。

具体地，方法100判定输入数据为视频时，调用子模块 102,然后返回。

具体地，子模块102取图像高度减去图像高度1/N(N>1,建议取4)乘以音频短时能量表中每个帧短期能量值的差作为其Y坐标, 图像宽度减去每帧与最新音频帧距离的差为其X坐标，在图像上从右至左逐点连线形成一段时间内的声纹曲线,然后将短期能量队列中各段音频的分类名称叠加在图像上对应点的曲线上方。

具体地，如果图像宽度为W,每秒的音频解码帧数为N，则在图像上可以显示最近W/N秒的音频变化情况，实现音频监控的可视化。

具体地，每路音频的短期能量阈值和过门限率阈值通过动态计算获得。即每路音频开始的时候，计算每帧的短期能量和动态门限率，直至出现当前帧比前一帧的短期能量有较大幅度的提高，此时，设置前一帧的短期能量乘以一个系数（本文取2）为短期能量阈值，前一帧的动态门限率乘以一个系数（本文为2）为动态门限率阈值。

Claims

1.一种数字视音频监控系统中音频可视化监控的方法，其特征在于,包括：计算每帧音频短时能量、归一化以后存入有限长度的循环队列, 计算每帧音频过门限率；判断声音起点和终点，提取并存储起点和终点之间每帧音频的特征向量；提取即时声纹模型，和已存储的样本声纹模型进行比对,判断声音类别；根据音频短期能量队列中各帧的能量值、各帧与最新帧的距离，在视频图像上绘制音频波形纹曲线并标注每个线段的声音类型，实现一段时间内的音频响度变化和音频类型变化监控的可视化。

2.如权利要求1所述的数字视音频监控系统中音频可视化监控的方法，其特征在于，所述计算每帧音频短时能量，归一化以后存入有限长度的循环队列的步骤包括: 根据音频通道个数和音频样本的比特数，计算每帧音频数据中每个样本的数值平方和，然后除以归一化系数得到归一化短期能量值，并存储于有限长度的循环队列中, 该长度需大于等于与该音频对应的视频图像宽度值(以像素为单位)；计算每帧音频的过门限率。

3.如权利要求1所述的数字视音频监控系统中音频可视化监控的方法，其特征在于，所述判断声音起点和终点，提取并存储起点和终点之间每帧音频特征向量的步骤包括:比较当前帧短期能量和短期能量阈值的大小，当前帧过门限率和过门限率阈值的大小，如果两者分别都比阈值大，表示为声音起点，两者分别都比阈值小，表示为声音终点;从声音起点开始对每个音频帧提取MFCC特征向量，存储于有限长度的队列中，当检测到声音终点时，该队列就成为了即时声纹特征向量表。

4.如权利要求1所述的多路音视频监控系统中音频可视化监控的方法，其特征在于，所述根据音频短期能量表的值在视频图像上绘制声纹曲线并标注声音类型的步骤包括取图像高度减去图像高度的1/N(N>1,建议取4)乘以音频短时能量表中每帧能量值的差作为其Y坐标,视频图像宽度减去各帧与最新帧距离的差作为其X坐标，在视频图像上从右至左逐点连线形成一段时间内的声纹曲线,然后将短期能量表中各段音频的分类名称叠加在图像上对应的曲线上方。