CN108694937A - 一种数字视音频监控系统中音频可视化监控的方法 - Google Patents
一种数字视音频监控系统中音频可视化监控的方法 Download PDFInfo
- Publication number
- CN108694937A CN108694937A CN201710216097.3A CN201710216097A CN108694937A CN 108694937 A CN108694937 A CN 108694937A CN 201710216097 A CN201710216097 A CN 201710216097A CN 108694937 A CN108694937 A CN 108694937A
- Authority
- CN
- China
- Prior art keywords
- audio
- sound
- frame
- short
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000000007 visual effect Effects 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 238000012800 visualization Methods 0.000 claims abstract description 4
- 230000001755 vocal effect Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
一种数字视音频监控系统中音频可视化监控的方法。方法包括:对实时解码后的每帧音频数据提取音频短时能量,归一化处后顺序存储到循环音频短时能量队列中;对每帧音频数据提取短时过门限率;根据音频短时过门限率和短时能量判断声音起点和终点,从声音起点开始提取音频特征向量并进行存储,当检测到声音终点后结束存储;根据所存储的若干音频特征向量提取声纹模型,将声纹模型与已存储的多个样本声纹模型进行比对和分类;对声音短时能量队列中各帧的能量值、各帧与最新帧的距离分别进行换算,在视频图像上从右至左连线各坐标点,画出一段时间内的音频波形曲线,并将音频分类名称叠加在相应曲线段的上方,实现音频监控的可视化。
Description
技术领域
本发明涉及一种数字视音频监控系统中音频可视化监控的方法。
背景技术
视音频监控系统从模拟发展到了数字化,视频和音频在模数转换后,以不同的编码方式分别进行编码、封装、存储、传输、解码和播放。
视音频监控系统的规模从单路到上万路不等,视频和音频往往需要同时进行监视和监听。多路视频可以通过画面分割的方法或多个监视器的方式同时播放,但是音频则大多由用户主动选择某一路进行单路的监听。采用混音技术在单台设备上实现多路音频的同时播放,或者多个监视器同时播放声音,则存在同时监听的音频路数有限、各路声音混在一起无法听清、音频和视频不易于相互一一对应的问题。
大规模集中监控系统中,视频电视墙的建设非常普遍,成百上千路视频可以同时在电视墙上同时显示,但各路视频对应的音频监听和监控却难以同时实现。
发明内容
本发明的目的在于提供一种数字视音频监控系统中音频可视化监控的方法,能够实现在对各路视频监控的同时也能直观看到一段时间内各路音频的变化及异常声响发生的情况,填补音频监控的空白。本发明包括。
从音频解码后得到的音频波形数据帧提取声音短时能量,归一化处后存储到有限长度(大于等于图像宽度值,以像素为单位)的声音短时能量循环队列; 提取音频短时过门限率。
比较当前帧短期能量和短期能量阈值的大小,以及当前帧过门限率和过门限率阈值的大小,如果两者分别都比阈值大,表示为声音起点,两者分别都比阈值小,表示为声音终点;从声音起点开始对每个音频帧提取MFCC特征向量,存储于有限长度的队列中,当检测到声音终点时,该队列构成了即时声纹特征向量表。
从即时声纹特征向量表中提取即时声纹模型,此处采用高斯混合模型;将即时声纹模型与已存储的各个样本声纹模型进行比对,确定声音分类。
对于即将播放的每帧视频图像,取图像高度减去图像高度的1/N(N>1,建议取4)乘以声音短时能量表中各帧能量值的差作为Y坐标, 图像宽度减去差各帧与最新帧距离的差作为X坐标,在图像上从右至左逐点连线形成声纹曲线。
对于即将播放的每帧视频图像,将短期能量表中各段音频的分类名称叠加在视频图像上对应点的曲线上方,实现一段时间内音频变化及异常声响发生情况的可视化显示。
【专利附图】
图1为本发明一种数字视音频监控系统中音频可视化监控方法的流程图。
图2为本发明一种数字视音频监控系统中音频可视化监控方法的音频短时能量和过门限率提取子模块流程图。
图3为本发明一种数字视音频监控系统中音频可视化监控方法的音频波形绘制子模块流程图。
图4为本发明一种数字视音频监控系统中音频可视化监控方法的音频帧特征向量提取子模块流程图。
图5为本发明一种数字视音频监控系统中音频可视化监控方法的声纹建模和分类子模块流程图。
【具体实施方式】
下面结合附图对本发明的具体实施方式做详细的说明。
一种数字视音频监控系统中音频可视化监控的方法100,如图1所示,包括如下子模块:
音频短时能量和过门限率提取子模块101,对每帧音频数据提取短期能量和过门限率。
音频波形绘制子模块102,用于在视频图像上绘制音频波形和显示音频区段声音类型。
音频特征向量提取子模块103,用于提取音频MFCC特征向量。
声纹建模和分类子模块104,用于对一段时间的音频MFCC特征向量表提取即时声纹模型,并与预先加载到系统中的样本声纹模型进行比对,判定声音类别。
具体地,方法100判定输入数据为音频时,调用子模块 101。
具体地,子模块101提取音频的短期能量,并顺序存入固定长度的音频短期能量循环队列,队列的长度应大于等于视频图像宽度值(以像素为单位);提取音频的过门限率。
具体地,方法100判断是否设置了声音起点标志帧,如未设置,比较当前短期能量和短期能量阈值的大小,以及当前过门限率和过门限率阈值的大小,如果两者分别都比阈值小,表示为无声状态;如果是无声状态,缓存当前帧音频数据,方法100直接返回;反之,判断为有声状态,设置声音起点标志帧号为当前帧,调用子模块103,缓存当前帧音频数据,方法100返回; 如方法100判断前一帧为有声音状态,比较当前短期能量和短期能量阈值的大小,以及当前过门限率和过门限率阈值的大小,如果存在大于的情况,表示为非声音终点,调用子模块103, 缓存当前帧音频数据,方法100返回;否则为声音终点,调用模块104,复位音频起点标志帧,缓存当前帧音频数据,方法100返回;
具体地,子模块103参考前帧和本帧音频数据,提取MFCC特征向量,保存到特征向量表中。
具体地,子模块104针对即时声纹MFCC特征向量表,提取即时声纹高斯混合模型,然后与已存储的样本声纹模型进行比对,判断即时声纹的类别,并将音频短期能量队列中音频起点帧和终点帧之间的所有帧标注为此类别。
具体地,方法100判定输入数据为视频时,调用子模块 102,然后返回。
具体地,子模块102取图像高度减去图像高度1/N(N>1,建议取4)乘以音频短时能量表中每个帧短期能量值的差作为其Y坐标, 图像宽度减去每帧与最新音频帧距离的差为其X坐标,在图像上从右至左逐点连线形成一段时间内的声纹曲线,然后将短期能量队列中各段音频的分类名称叠加在图像上对应点的曲线上方。
具体地,如果图像宽度为W,每秒的音频解码帧数为N,则在图像上可以显示最近W/N秒的音频变化情况,实现音频监控的可视化。
具体地,每路音频的短期能量阈值和过门限率阈值通过动态计算获得。即每路音频开始的时候,计算每帧的短期能量和动态门限率,直至出现当前帧比前一帧的短期能量有较大幅度的提高,此时,设置前一帧的短期能量乘以一个系数(本文取2)为短期能量阈值,前一帧的动态门限率乘以一个系数(本文为2)为动态门限率阈值。
Claims (4)
1.一种数字视音频监控系统中音频可视化监控的方法,其特征在于,包括:计算每帧音频短时能量、归一化以后存入有限长度的循环队列, 计算每帧音频过门限率;判断声音起点和终点,提取并存储起点和终点之间每帧音频的特征向量;提取即时声纹模型,和已存储的样本声纹模型进行比对,判断声音类别;根据音频短期能量队列中各帧的能量值、各帧与最新帧的距离,在视频图像上绘制音频波形纹曲线并标注每个线段的声音类型,实现一段时间内的音频响度变化和音频类型变化监控的可视化。
2.如权利要求1所述的数字视音频监控系统中音频可视化监控的方法,其特征在于,所述计算每帧音频短时能量,归一化以后存入有限长度的循环队列的步骤包括: 根据音频通道个数和音频样本的比特数,计算每帧音频数据中每个样本的数值平方和,然后除以归一化系数得到归一化短期能量值,并存储于有限长度的循环队列中, 该长度需大于等于与该音频对应的视频图像宽度值(以像素为单位);计算每帧音频的过门限率。
3.如权利要求1所述的数字视音频监控系统中音频可视化监控的方法,其特征在于,所述判断声音起点和终点,提取并存储起点和终点之间每帧音频特征向量的步骤包括:比较当前帧短期能量和短期能量阈值的大小,当前帧过门限率和过门限率阈值的大小,如果两者分别都比阈值大,表示为声音起点,两者分别都比阈值小,表示为声音终点;从声音起点开始对每个音频帧提取MFCC特征向量,存储于有限长度的队列中,当检测到声音终点时,该队列就成为了即时声纹特征向量表。
4.如权利要求1所述的多路音视频监控系统中音频可视化监控的方法,其特征在于,所述根据音频短期能量表的值在视频图像上绘制声纹曲线并标注声音类型的步骤包括取图像高度减去图像高度的1/N(N>1,建议取4)乘以音频短时能量表中每帧能量值的差作为其Y坐标,视频图像宽度减去各帧与最新帧距离的差作为其X坐标,在视频图像上从右至左逐点连线形成一段时间内的声纹曲线,然后将短期能量表中各段音频的分类名称叠加在图像上对应的曲线上方。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710216097.3A CN108694937A (zh) | 2017-04-05 | 2017-04-05 | 一种数字视音频监控系统中音频可视化监控的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710216097.3A CN108694937A (zh) | 2017-04-05 | 2017-04-05 | 一种数字视音频监控系统中音频可视化监控的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108694937A true CN108694937A (zh) | 2018-10-23 |
Family
ID=63842611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710216097.3A Pending CN108694937A (zh) | 2017-04-05 | 2017-04-05 | 一种数字视音频监控系统中音频可视化监控的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108694937A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198838A (zh) * | 2013-03-29 | 2013-07-10 | 苏州皓泰视频技术有限公司 | 一种用于嵌入式系统的异常声音监控方法和监控装置 |
CN105915831A (zh) * | 2015-02-25 | 2016-08-31 | 卡西欧计算机株式会社 | 声音记录装置以及声音记录方法 |
CN106124040A (zh) * | 2016-05-18 | 2016-11-16 | 萨姆株式会社 | 噪声源可视化数据累积显示方法、数据处理装置及声学照相机系统 |
CN106328161A (zh) * | 2016-08-22 | 2017-01-11 | 维沃移动通信有限公司 | 一种音频数据处理方法及移动终端 |
CN106463120A (zh) * | 2014-02-20 | 2017-02-22 | F·吉斯特斯 | 一种通过动态声音性的安全信息以辨识或认证人和/或物的方法及装置 |
-
2017
- 2017-04-05 CN CN201710216097.3A patent/CN108694937A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198838A (zh) * | 2013-03-29 | 2013-07-10 | 苏州皓泰视频技术有限公司 | 一种用于嵌入式系统的异常声音监控方法和监控装置 |
CN106463120A (zh) * | 2014-02-20 | 2017-02-22 | F·吉斯特斯 | 一种通过动态声音性的安全信息以辨识或认证人和/或物的方法及装置 |
CN105915831A (zh) * | 2015-02-25 | 2016-08-31 | 卡西欧计算机株式会社 | 声音记录装置以及声音记录方法 |
CN106124040A (zh) * | 2016-05-18 | 2016-11-16 | 萨姆株式会社 | 噪声源可视化数据累积显示方法、数据处理装置及声学照相机系统 |
CN106328161A (zh) * | 2016-08-22 | 2017-01-11 | 维沃移动通信有限公司 | 一种音频数据处理方法及移动终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9786326B2 (en) | Method and device of playing multimedia and medium | |
CN110557678B (zh) | 视频处理方法、装置及设备 | |
KR102197098B1 (ko) | 콘텐츠 추천 방법 및 장치 | |
EP2960905A1 (en) | Method and device of displaying a neutral facial expression in a paused video | |
CN104104952B (zh) | 一种适应于移动设备存储与播放的音视频处理方法与系统 | |
CN110335590B (zh) | 语音识别测试方法、装置及系统 | |
CN111508531B (zh) | 音频处理方法及装置 | |
CN107770598B (zh) | 一种同步播放的检测方法、移动终端 | |
EP3889804A1 (en) | Video quality evaluation method, apparatus and device, and storage medium | |
JP6557592B2 (ja) | 映像シーン分割装置及び映像シーン分割プログラム | |
US20230188794A1 (en) | Systems and methods for displaying subjects of a video portion of content | |
CN104469487B (zh) | 一种场景切换点的检测方法及装置 | |
CN103873919B (zh) | 一种信息处理方法及电子设备 | |
US9165182B2 (en) | Method and apparatus for using face detection information to improve speaker segmentation | |
US9542976B2 (en) | Synchronizing videos with frame-based metadata using video content | |
CN103945140A (zh) | 视频字幕的生成方法及系统 | |
CN113992972A (zh) | 一种字幕显示方法、装置、电子设备和可读存储介质 | |
JP2020135029A (ja) | 検出装置、検出方法およびプログラム | |
US8437611B2 (en) | Reproduction control apparatus, reproduction control method, and program | |
CN103475912A (zh) | 基于视频特征及用户信息的收视分析方法及系统 | |
CN108694937A (zh) | 一种数字视音频监控系统中音频可视化监控的方法 | |
CN106571108A (zh) | 一种具备语音交互功能的广告机 | |
KR101340340B1 (ko) | 오디오 콘텐츠 연동 데이터 제공 장치, 그 시스템 및 제공 방법 | |
CN109327760B (zh) | 一种智能音响及其播放控制方法 | |
US20200204856A1 (en) | Systems and methods for displaying subjects of an audio portion of content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181023 |