CN109547695A - 基于声音分类算法定向捕捉画面的全息视频监控系统及方法 - Google Patents

基于声音分类算法定向捕捉画面的全息视频监控系统及方法 Download PDF

Info

Publication number
CN109547695A
CN109547695A CN201811514137.3A CN201811514137A CN109547695A CN 109547695 A CN109547695 A CN 109547695A CN 201811514137 A CN201811514137 A CN 201811514137A CN 109547695 A CN109547695 A CN 109547695A
Authority
CN
China
Prior art keywords
audio
sound
monitoring system
data
control platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811514137.3A
Other languages
English (en)
Inventor
张立东
张萌萌
陈翠娇
钱光宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jiaotong University
Original Assignee
Shandong Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jiaotong University filed Critical Shandong Jiaotong University
Priority to CN201811514137.3A priority Critical patent/CN109547695A/zh
Publication of CN109547695A publication Critical patent/CN109547695A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/025Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本公开提供了一种基于声音分类算法定向捕捉画面的全息视频监控系统及方法,包括前端采集系统、传输设备、中心控制平台和显示记录设备;所述前端采集系统,被配置为采集现场的音频数据和视频数据并通过传输设备传输至中心控制平台;所述中心控制平台,被配置为通过梅尔频率倒谱系数的支持向量机识别算法对音频数据进行降噪处理及声音分类,分段提取用户所需的音频数据,并将用户所需的音频数据和对应的视频数据发送至显示记录设备;和通过对特定声音的选择,定向捕捉放大相应的视频画面;所述显示记录设备,被配置为同步实时播放监控系统的监控数据,并可实时调取任一时段的监控数据,及播放对特定的声音定向捕捉及放大的相对应的视频画面。

Description

基于声音分类算法定向捕捉画面的全息视频监控系统及方法
技术领域
本公开涉及一种基于声音分类算法定向捕捉画面的全息视频监控系统及方法。
背景技术
目前,随着计算机技术和图像处理技术的飞速发展,视频监控无处不在,小到应用在单个家庭,大到应用在各类超市,以及交通领域的违章抓拍等随处可见,可谓构筑了一张广大的视频监控网络。但综合分析当前的道路视频监控系统及技术,均以图像传输和存储为主,在声音的提取技术上很难做到准确去噪,不能将声音准确分类,不利于对现场画面的真实取证。因此有必要研究一种识别技术将声音快速去噪,并且准确分辨出声音来源,摄像头根据用户对声音捕捉对象的设定,能够定向聚焦和放大相对应的画面,促进视频监控系统技术应用领域。
现有视频监控系统涵盖的技术,一般包括图像数据采集技术、通信技术和数据库技术,分析现有技术成果,可知本公开涉及的主要技术发展如下:申请号CN200910311226.2,一种基于视频监控图像自动判别道路交通状态的方法,公开了一种混合高斯模型建立视频监控图像的时空域背景模型路的道路视频监控技术,申请号CN201110087473.6,一种数字图像处理技术领域的基于图像透视投影变换的车辆道路交通视频测速方法,其利用透视投影成像原理,通过必要的摄像机畸变校正、透视投影平面转换、以及车辆投影特征识别和跟踪等技术获取车辆真实运动轨迹,同时测量车辆的运动速度和行驶方向;申请号CN200520098729.3,交通路况视频监控系统,其利用图像分析技术,自动判别兴趣区内运动车辆的数量、运动状态和车辆覆盖率;申请号CN201610453774.9,基于改进遗传算法的夜晚安防监控视频分割方法及装置,其通过对待处理的夜晚安防监控视频的每一帧图像进行小波去噪处理,采用改进的遗传算法对去噪后的图像进行分割,以改善夜晚安防监控视频的分割效果;申请号CN201310340468.0,基于监控应用的视频缩放算法及其实现方案,通过利用最近邻域插值算法和双线性插值算法实现视频图像的缩放功能;申请号CN201210509481.X,一种基于组合跟踪算法的对地视频监控识别系统,通过添加一个场景锁定跟踪算法的视频处理单元,对地面目标进行背景分离和分析;申请号CN201010228633.X,基于全RFID车牌的路边停车场智能监控系统,通过信息采集、网络和移动通信技术、视频图像处理技术、人工智能和数据融合技术、数据库等技术,实现无人值守的路边停车位监控;申请号CN201410491092.8,基于道路交通监控的智能摄像头自主协同跟踪方法及其监控系统,其采用前端分布式摄像头自主控制模式,以减缓监控系统中大量异常事件并发所引起的后端服务的工作压力,并降低大量实时视频数据在路网中传输对道路信息网络带宽的要求。
综合分析,上述专利涉及的视频监控系统,从组成来看,前端装置利用摄像头进行数据采集,中间通过有线或无线进行数据传输,后台由计算机进行数据处理,由LED显示屏或手机进行数据显示,存在不足主要在于:一是前端采集的数据只涉及图像数据,音频数据不能准确采集,导致对视频监控的判断存在偏差;二是视频监控系统的各组成部分协调性比较差,存在数据传输过程中缺失现象,不利于现场画面的复原,难以获取真实的证据。
发明内容
为了解决现有技术的不足,本公开提供了一种基于声音分类算法定向捕捉画面的全息视频监控系统及方法,该系统基于梅尔频率倒谱系数(Mel Frequency CepstralCoefficents,MFCCs)的支持向量机(SVM)识别算法对声音降噪处理,将声音准确识别并分类,全息视频监控能够凭借对指定声音的需要定向捕捉放大相应的画面。
为了实现上述目的,本公开的技术方案如下:
一种基于声音分类算法定向捕捉画面的全息视频监控系统,包括前端采集系统、传输设备、中心控制平台和显示记录设备,
所述前端采集系统,被配置为采集现场的音频数据和视频数据并通过传输设备传输至中心控制平台或显示记录设备;
所述中心控制平台,被配置为通过梅尔频率倒谱系数的支持向量机识别算法对音频数据进行降噪处理及声音分类,分段提取用户所需的音频数据,并将用户所需的音频数据和对应的视频数据发送至显示记录设备;和
通过对特定声音的选择,定向捕捉放大相应的视频画面;
所述显示记录设备,被配置为同步实时播放监控系统的监控视频及音频,并可实时调取任一时段的监控视频及音频,及播放对特定的声音定向捕捉及放大的相对应的视频画面。
进一步的,所述前端采集系统包括云台、麦克风、集音盘、高清网络摄像头和红外辐射检测器,所述高清网络摄像头通过摄像头固定支架连接于云台上,所述麦克风分别与集音盘和高清网络摄像头相连,所述麦克风和集音盘通过一水平支架连接于云台上,所述云台与中心控制平台通信连接,所述红外辐射检测器与中心控制平台通信连接。
进一步的,所述云台包括远程通讯模块和云台控制模块,所述远程通讯模块用于与中心控制平台通信连接,所述云台控制模块用于对接收到的中心控制台指令进行解码,将其转换为控制电机运行的控制信号,并根据控制信号,驱动云台上的电机进行相应动作。
进一步的,所述麦克风为一有线动圈式拾音器,所述集音盘为一声波收集罩,所述集音盘上设有一通信接口,所述通信接口用于与拾音器信号放大电路的另一端相连。
进一步的,所述高清网络摄像头包括内置WEB服务器和音频扩展接口,所述音频扩展接口与麦克风的音频信号输出线相连,所述内置WEB服务器用于将所采集的音频与视频数据通过以太网接口经数据传输设备传输到后台的中心控制平台。
进一步的,所述红外辐射检测器包括红外线发射器、红外线接收器以及信号处理器,所述信号处理器的信号输入端经红外线接收电路与红外线接收器连接,所述信号处理器的信号输出端经红外线发射电路与红外线发射器连接,所述信号处理器的反馈信号输出端与外围控制电路连接,所述红外线接收器用于检测是否有人或车辆热源进入检测区域,当检测到热源信号后,所述红外线发射器用于将红外检测信号发送至中心控制平台,由中心控制平台控制前端采集系统进行音频和视频数据采集。
进一步的,所述中心控制平台包括人机交互界面、控制系统和数据库,所述人机交互界面上设有包括但不限于音频分析选项、音频提取选项和某时间段内的音视频回放选项,所述控制系统内设有梅尔频率倒谱系数的支持向量机识别算法,用于对音频数据进行降噪分类处理,所述数据库用于存储传输设备发送过来的音频和视频数据,以及存储中心控制平台的控制系统处理后的音频特征数据。
一种基于声音分类算法定向捕捉画面的全息视频监控系统的工作方法,包括如上所述的全息视频监控系统,具体包括:
初始化程序,获取中心控制平台的IP;
设置监听端口并启动监听;
当有链路连接请求时,建立新的通讯链路,如果已经建立了通讯链路,则接收传输设备发送过来的音频和视频数据,并将其数据存储到数据库中;
接收用户指令,根据用户指令对音频和视频数据进行处理,并将处理后的视频数据发送至显示记录设备。
进一步的,所述显示记录设备可直接接收传输设备发送的音频和视频数据并进行显示。
进一步的,所述用户指令包括调取查看任一时刻监控数据及特定声音选取,当用户选取特定声音时,采用梅尔频率倒谱系数的支持向量机识别算法对音频数据进行降噪处理及声音分类,分频段提取用户所需的声音,并定向放大相应的视频画面。
与现有技术相比,本公开的有益效果是:
系统以高清网络摄像头和集音器为数据采集源,避免了传统采集设备智能采集图像画面的不足,实现了“声图”并存的全息视频监控系统。不仅可以查看现场所发生的图像场景,还可以根据中心控制平台通过基于MFCCs的SVM算法对声音进行降噪处理及声音分类,摄像头通过人们对特定声音的需要,将定向捕捉并放大相对应的画面。
本公开能较完整的复原监控现场的原貌,有利于对现场画面和声音的真实取证。易于使用者轻松理解并掌握全息视频监控的结构组成及原理,为深入学习传感器原理及检测技术、计算机通信网络、自动控制技术等专业知识奠定基础。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开全息视频监控系统整体结构图;
图2为本公开全息视频监控系统前端采集系统的装置结构示意图;
图3为本公开音频分类提取模块MFCCs特征的提取过程图;
图4为本公开音频分类提取模块SVM分类器的工作流程图;
图5为本公开全息视频监控系统中心控制平台工作流程图;
图6为本公开全息视频监控系统的音频分类系统体系结构的过程图;
图中:1、云台;2、高清网络摄像头;3、红外辐射检测器;4、麦克风;5、集音盘;6、摄像头固定支架;7、保护罩。
具体实施方式
下面结合附图与具体实施例对本公开做进一步的说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。
本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。
作为一种或多种实施例,如图1所示,一种基于声音分类算法定向捕捉画面的全息视频监控系统,包括前端采集系统、传输设备、中心控制平台和显示记录设备四部分,其中:
前端采集系统包括视频采集模块和音频采集模块,传输设备包括数据传输模块,中心控制平台内设有存储模块和音频提取模块,显示记录设备包括播放模块和显示模块;
具体实施中,前端采集系统、传输设备、中心控制平台和显示记录设备,各组成部分按照如图1所示的逻辑关系连接后,前端采集系统可实时将采集到的声音和图像数据通过传输设备传输到中心控制平台或显示记录平台,中心控制平台中集成了基于MFCCs的SVM算法,实现声音降噪处理并分类,中心控制平台通过人机交互界面选择特定的声音,通过可视化界面可对数据库内的视频数据进行捕捉放大,以保证监控系统的高效准确性。
前端采集系统的整体装置结构如图2所示,包括球型电动云台1、麦克风4、集音盘5、高清网络摄像头2和红外辐射检测器3,其中,高清网络摄像头2为前端采集系统的视频采集模块,麦克风4和集音盘5为前端采集系统的音频采集模块。
具体的,球型电动云台1由远程通讯模块和云台控制模块组成,远程通讯模块用于实现云台1和中心控制平台之间的通信,一方面将中心控制平台发出的指令,传输到云台1;另一方面也将云台1的数据反馈到中心控制平台。云台控制模块是云台最核心的模块,云台控制模块将接收到的中心控制台指令进行解码,转换为控制电机运行的控制信号;根据控制信号,驱动云台上的电机进行相应动作。
具体实施中,电动云台高速姿态是由两台直流电动机来完成,电动机接受来自中心控制平台的信号精确地运行定位。在控制信号的作用下,云台上的摄像机既可自动水平旋转360°扫描监视区域,也可在监控中心值班人员的操纵下定向捕捉并放大画面。
麦克风4可选用有线动圈式拾音器,拾音器的音圈处在磁铁的磁场中,当有声波作用在音膜使其产生振动时,音膜便带动音圈相应震动,使音圈切割磁力线而产生感应电压,从而完成声电的转换,拾音器的信号放大电路的另一端连接到集音盘的中心位置。
集音盘5为一声波收集罩,形状类似一个抛物面式圆盘,圆盘中间开有一个圆孔,插有一个通信接口,连接拾音器的信号放大电路的另一端,集音盘5的放置方向可选择与地面成45°角,朝向道路中间,以便加强声源处的音效。
麦克风4和集音盘5通过一水平支架与云台内部相连接,水平支架是一根钢材做成的圆柱形细杆,直径有2cm。
高清网络摄像头2由镜头、图像传感器和数字信号处理器组成,并具有音频扩展功能,即AUDIO IN接口。把拾音器的音频信号输出线接入高清网络摄像头2AUDIO IN接口,且音频信号正负极性不能接反,否则主机无法获取信号,同时打开拾音器供电电源,经过中心控制平台对声音降噪处理后,在全息视频监控系统的显示记录设备上即可听到现场所指定的声音并看到相对应的画面,还可以将画面放大。
高清网络摄像头2通过摄像头固定支架6固定于云台1上,其外还设有保护罩7。
红外辐射检测器3是将入射的红外辐射信号转变成电信号输出的器件,该红外线探测器包括红外线发射器、红外线接收器以及信号处理器,信号处理器的信号输出端经红外线发射电路与红外线发射器连接,信号输入端经红外线接收电路与红外线接收器连接,反馈信号输出端与外围控制电路连接。红外辐射是波长介于可见光与微波之间的电磁波,当有人或车辆进入探测器的探测范围内时,探测器报警指示灯点亮,同时发射出无线信号来检测是否有人或车辆等热源进入检测区域。只在有人员、车辆进入监控区域时,前端采集系统才进入声音图像采集、处理和传输。
中心控制平台是基于声音定向捕捉画面的全息视频监控系统最核心的部分,中心控制平台的前端是面向对象编程语言实现人机交互的界面,在界面上有音频分析选项、音频提取选项和某时间段内的音视频回放选项,中心控制平台的后端是由通过基于MFCCs的SVM识别算法对声音降噪处理的程序编写以及后台由数据库组成。如图5所示,当打开软件平台时,首先进行初始化,获取中心控制平台的IP,设置监听端口并启动监听,当有链路连接请求时,中心控制平台建立新的通讯链路,如果已经建立了通讯链路,则接收传输设备发送过来的音频和视频数据,将其数据存储到数据库中,当用户需要查看监控时,可在中心控制平台根据界面上的选项进行选择,中心控制平台接收到指令后对用户提出的指令做出相应的处理,当用户选择音频提取选项时,中心控制平台将会对音频进行降噪分析和处理,分频段提取用户所需的声音。
如图6所示,本公开数据库包括音频特征库和原始数据库,音频分类系统通过对原始数据库中的音频数据进行特征提取,基于中心控制平台的识别分类运算,将小汽车、货车、客车、动物及人的声音分别分类,分类后的数据存储在音频特征库中,同时发送至显示设备显示。
本公开监控系统的具体工作过程为:
在车辆进入前端采集设备的红外辐射检测器3采集范围后,触发红外辐射检测器3。红外辐射检测器3启动各个设备开始运转,视频采集模块的高清网络摄像头2开始采集实时图像,同时,声音采集模块的麦克风4与集音盘5开始采集检测范围内的实时音频。所采集的音频与视频通过高清网络摄像头2自带的内置WEB服务器,通过以太网接口传输到后台的中心控制平台。中心控制平台通过有线或无线将所采集的音频与视频,通过基于MFCCs的SVM识别算法对数据进行降噪分析处理以及音频不同频段的提取发送到远程的固定显示设备与移动显示设备。显示设备实时地反映当前的视频,播放器实时同步播放当前的音频。智能手机与平板可以实时调取任意时段的视频以及同步的视频作为现场调解的处理依据。还可对特定的声音相对应的画面定向捕捉及放大,当交通事故处理完毕或者车辆驶出前端采集设备的采集范围后,各个设备模块暂时停止运转,红外辐射检测器仍保持工作状态。此时,一个工作循环结束。这样可以大大缩减小型交通事故、轻微擦碰以及类似讹人事件对交通状况的影响,同样也极大的提高了交通事故的处理效率和处理质量。尤其是在交通高峰期以及交通易拥堵路段的路况缓解极为明显。
梅尔频率倒谱的频带(MFCCs)划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。基于MFCCs特征空间建立SVM声音分类算法对交通环境的声音进行分类,MFCCs从人耳对频率高低的非线性心理感觉角度进行分析,采用了一种非线性的Mel频率尺度来模拟人耳的听觉系统。Mel频率尺度的值大体上与线性频率呈对数关系,MFCCs的计算是基于Mel刻度上均匀分布的一系列三角形的滤波器系列来做频谱分析的。Mel频率与一般频率f的关系为:Mel(f)=2595*lg(1+f/700),可以将不统一的频率转化为统一的频率,也就是统一的滤波器组。它并不只是针对语音进行分类,而是针对所有可听声音的,包括车声、语音、音乐、动物声等。
SVM采用将数据从低维空间映射到高维空间的思维,由支持向量来决定最优分割线,SVM先自动找出对分类有较好区分能力的支持矢量,然后构造出分类器来最大化类与类的间隔,因此有较好的适应能力和较高的分准率。
基于上述声音分类算法定向捕捉画面的全息视频监控系统,本公开还提供了该系统的音频分类提取模块MFCCs特征的提取过程,如图3所示,包括:
步骤1:利用前端采集系统对图像数据和音频数据进行采集;
步骤2:传输设备通过无线传输或有线传输方式将采集到的音频和图像数据发送到中心控制平台上,此原始数据存储在数据库中;
步骤3:中心控制平台通过集成的声音分类算法,实现不同声音的分类。
事实上,如果音频数据在低频的强度大于高频,将不利于处理,因此需要通过一个传递函数为s[n]-α*s[n]的高通滤波器,滤去数据中的低频成分,使高频特性更加突现,经过预加重后的信号为s(n)=s[n]-α*s[n-1](α一般取0.95左右);
步骤4:将采集到的音频信号划分解成一系列连续的帧,即将N个采样点集合成一个观测单位,称为帧。帧的大小N可根据需要设定为64、128等,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为128个采样点,则对应的时间长度是128/8000 1000=16ms。
步骤5:将每一帧乘上汉明窗,以增加帧左端和右端的连续性;
假定每帧的信号为s(n),n=0,…,N-1,乘上汉明窗w(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1,得到s’(n)=s(n)×w(n)。
步骤6:对声音谱求快速傅里叶变换(FFT),取模的平方得到离散功率谱P(n),以得到在频率域上的能量分布;
步骤7:将FFT变换后得到的能量频谱乘上一组M个Mel滤波器的三角形滤波器组,然后对每个频带计算对数能量。这样做可对频谱进行平滑化,并消除谐波的作用,凸显原先声音的共振峰。根据以下公式,计算滤波器的输出,其中取M=24为滤波器的个数:
同时还满足
其中,Hm(κ)表示三角滤波器的输出;
f(m)表示中心频率,m=1,2,...,M;
k表示指在频域中的谱线的索引值。
步骤8:将求得的24个能量对数EK作离散余弦变换(DCT),求出12阶的Mel-scale倒谱系数,将信号再转换回时域。
步骤9:提取信号的基音周期作为第14维特征,基音周期提取方法采用基于幅度差平方和函数的算法,帧的大小N一般取为128点,帧之间重叠的部分为64点,帧长度约11.6ms。
步骤10:在基于MFCCs的基础上,设计SVM分类器,实现特征提取和特征选择模块。
如图4所示,音频分类提取模块SVM分类器的工作流程具体包括,首先提取出基于音频帧和片段的各类特征,构建相应的特征集。选用上述MFCCs的均值和方差作为基本特征集,并且分别在基本特征集的基础上加上部分基于片段的特征组成新的特征向量集,并依次进行训练、测试,寻找最优特征向量集合。
将数据进行归一化,归一化后的特征数据可以避免向量集中数值过大的某些特征在分类过程中起到决定性作用,还可以减小分类过程中的计算复杂度。核函数选择模块首选RBF核函数。RBF核函数具有很多优点:相对于线性核函数而言,RBF核函数可以有效解决非线性问题;相对于多项式核函数,RBF核函数的参数较少,因此计算的复杂性较低;另外,与多项式核函数及Sigmoid核函数相比,RBF核函数计算方便,其公式为K(x,y)=exp(-|x-y|^2/d^2)。参数选择子模块主要用来选择合适的聚类中心数C和σ,以提高分类精度。训练模块将特征向量集输入SVM分类器,根据不同的C和σ分别训练SVM分类器,最终得到满足目标的分类器。测试模块利用训练好的SVM分类器测试未分类的音频信号,得到分类结果,并计算正确率。
本公开设计的支持向量机分类系统用来区分小汽车、货车、客车、动物及人的声音,选择MFCCs作为特征参数,因为其有良好的识别性能和抗噪能力。道路上自然环境的声音分类是个多类分类问题,设有A个样本,SVM选用“一对多”的判别策略,逐次将每类从众多类样本中分离出来,对于A类样本共需要A个SVM分类器。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种基于声音分类算法定向捕捉画面的全息视频监控系统,其特征在于:包括前端采集系统、传输设备、中心控制平台和显示记录设备;
所述前端采集系统,被配置为采集现场的音频数据和视频数据并通过传输设备传输至中心控制平台或显示记录设备;
所述中心控制平台,被配置为通过梅尔频率倒谱系数的支持向量机识别算法对音频数据进行降噪处理及声音分类,分段提取用户所需的音频数据,并将用户所需的音频数据和对应的视频数据发送至显示记录设备;和
通过对特定声音的选择,定向捕捉放大相应的视频画面;
所述显示记录设备,被配置为同步实时播放监控系统的监控视频及音频,并可实时调取任一时段的监控视频及音频,及播放对特定的声音定向捕捉及放大的相对应的视频画面。
2.如权利要求1所述的一种基于声音分类算法定向捕捉画面的全息视频监控系统,其特征在于,所述前端采集系统包括云台、麦克风、集音盘、高清网络摄像头和红外辐射检测器,所述高清网络摄像头通过摄像头固定支架连接于云台上,所述麦克风分别与集音盘和高清网络摄像头相连,所述麦克风和集音盘通过一水平支架连接于云台上,所述云台与中心控制平台通信连接,所述红外辐射检测器与中心控制平台通信连接。
3.如权利要求2所述的一种基于声音分类算法定向捕捉画面的全息视频监控系统,其特征在于,所述云台包括远程通讯模块和云台控制模块,所述远程通讯模块用于与中心控制平台通信连接,所述云台控制模块用于对接收到的中心控制台指令进行解码,将其转换为控制电机运行的控制信号,并根据控制信号,驱动云台上的电机进行相应动作。
4.如权利要求2所述的一种基于声音分类算法定向捕捉画面的全息视频监控系统,其特征在于,所述麦克风为一有线动圈式拾音器,所述集音盘为一声波收集罩,所述集音盘上设有一通信接口,所述通信接口用于与拾音器信号放大电路的另一端相连。
5.如权利要求2所述的一种基于声音分类算法定向捕捉画面的全息视频监控系统,其特征在于,所述高清网络摄像头包括内置WEB服务器和音频扩展接口,所述音频扩展接口与麦克风的音频信号输出线相连,所述内置WEB服务器用于将所采集的音频与视频数据通过以太网接口经数据传输设备传输到后台的中心控制平台。
6.如权利要求2所述的一种基于声音分类算法定向捕捉画面的全息视频监控系统,其特征在于,所述红外辐射检测器包括红外线发射器、红外线接收器以及信号处理器,所述信号处理器的信号输入端经红外线接收电路与红外线接收器连接,所述信号处理器的信号输出端经红外线发射电路与红外线发射器连接,所述信号处理器的反馈信号输出端与外围控制电路连接,所述红外线接收器用于检测是否有人或车辆热源进入检测区域,当检测到热源信号后,所述红外线发射器用于将红外检测信号发送至中心控制平台,由中心控制平台控制前端采集系统进行音频和视频数据采集。
7.如权利要求1所述的一种基于声音分类算法定向捕捉画面的全息视频监控系统,其特征在于,所述中心控制平台包括人机交互界面、控制系统和数据库,所述人机交互界面上设有包括但不限于音频分析选项、音频提取选项和某时间段内的音视频回放选项,所述控制系统内设有梅尔频率倒谱系数的支持向量机识别算法,用于对音频数据进行降噪分类处理,所述数据库用于存储传输设备发送过来的音频和视频数据,以及存储中心控制平台的控制系统处理后的音频特征数据。
8.一种基于声音分类算法定向捕捉画面的全息视频监控系统的工作方法,包括如权利要求1-7任一所述的全息视频监控系统,其特征在于,包括:
初始化程序,获取中心控制平台的IP;
设置监听端口并启动监听;
当有链路连接请求时,建立新的通讯链路,如果已经建立了通讯链路,则接收传输设备发送过来的音频和视频数据,并将其数据存储到数据库中;
接收用户指令,根据用户指令对音频和视频数据进行处理,并将处理后的视频数据发送至显示记录设备。
9.如权利要求8所述的一种基于声音分类算法定向捕捉画面的全息视频监控系统的工作方法,其特征在于,所述显示记录设备可直接接收传输设备发送的音频和视频数据并进行显示。
10.如权利要求8所述的一种基于声音分类算法定向捕捉画面的全息视频监控系统的工作方法,其特征在于,所述用户指令包括调取查看任一时刻监控数据及特定声音选取;
当用户选取特定声音时,采用梅尔频率倒谱系数的支持向量机识别算法对音频数据进行降噪处理及声音分类,分频段提取用户所需的声音,并定向放大相应的视频画面。
CN201811514137.3A 2018-12-12 2018-12-12 基于声音分类算法定向捕捉画面的全息视频监控系统及方法 Pending CN109547695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811514137.3A CN109547695A (zh) 2018-12-12 2018-12-12 基于声音分类算法定向捕捉画面的全息视频监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811514137.3A CN109547695A (zh) 2018-12-12 2018-12-12 基于声音分类算法定向捕捉画面的全息视频监控系统及方法

Publications (1)

Publication Number Publication Date
CN109547695A true CN109547695A (zh) 2019-03-29

Family

ID=65854657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811514137.3A Pending CN109547695A (zh) 2018-12-12 2018-12-12 基于声音分类算法定向捕捉画面的全息视频监控系统及方法

Country Status (1)

Country Link
CN (1) CN109547695A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948739A (zh) * 2019-04-22 2019-06-28 桂林电子科技大学 基于支持向量机的环境声音事件采集与传输系统
CN110412547A (zh) * 2019-07-24 2019-11-05 中国电子科技集团公司第三十六研究所 基于旋翼无人机载设备和地面设备的目标信号识别系统
CN110797011A (zh) * 2019-11-15 2020-02-14 天津光电通信技术有限公司 基于支持向量机的语音识别方法、装置、设备及存储介质
CN110909603A (zh) * 2019-10-23 2020-03-24 阜阳师范大学 一种基于支持向量机的智能监控系统
CN111392562A (zh) * 2020-03-25 2020-07-10 日立电梯(广州)自动扶梯有限公司 扶梯的运行速度确定方法、装置、计算机设备和存储介质
CN111787285A (zh) * 2020-07-20 2020-10-16 南京暴走团电子商务有限公司 一种基于商务软件平台的可视化监控系统
CN111813700A (zh) * 2020-09-03 2020-10-23 武汉中科通达高新技术股份有限公司 监控数据展示方法和装置
CN111833892A (zh) * 2019-04-22 2020-10-27 浙江宇视科技有限公司 音视频数据处理方法及装置
CN112235705A (zh) * 2020-10-13 2021-01-15 恒玄科技(上海)股份有限公司 双耳助听器
CN113873180A (zh) * 2021-08-25 2021-12-31 广东飞达交通工程有限公司 一种多视频检测器同一事件重复发现归并处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1261181A (zh) * 1999-01-19 2000-07-26 国际商业机器公司 自动进行音频内容分析的系统和方法
CN1917631A (zh) * 2006-08-28 2007-02-21 王亚盛 一种被动/主动式兼容的远程无线视频智能监控系统
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及系统
CN102067589A (zh) * 2009-05-18 2011-05-18 尹在敏 数字录像机系统及其应用方法
CN106534793A (zh) * 2016-11-29 2017-03-22 努比亚技术有限公司 一种监控录像方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1261181A (zh) * 1999-01-19 2000-07-26 国际商业机器公司 自动进行音频内容分析的系统和方法
CN1917631A (zh) * 2006-08-28 2007-02-21 王亚盛 一种被动/主动式兼容的远程无线视频智能监控系统
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及系统
CN102067589A (zh) * 2009-05-18 2011-05-18 尹在敏 数字录像机系统及其应用方法
CN106534793A (zh) * 2016-11-29 2017-03-22 努比亚技术有限公司 一种监控录像方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEBORAHCAO,顾宪红: "《科学视角下的农场动物福利》", 31 August 2018 *
赵刚: "《教育数字媒体内容服务技术与系统设计》", 30 June 2011 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948739A (zh) * 2019-04-22 2019-06-28 桂林电子科技大学 基于支持向量机的环境声音事件采集与传输系统
CN111833892A (zh) * 2019-04-22 2020-10-27 浙江宇视科技有限公司 音视频数据处理方法及装置
CN110412547A (zh) * 2019-07-24 2019-11-05 中国电子科技集团公司第三十六研究所 基于旋翼无人机载设备和地面设备的目标信号识别系统
CN110412547B (zh) * 2019-07-24 2021-02-26 中国电子科技集团公司第三十六研究所 基于旋翼无人机载设备和地面设备的目标信号识别系统
CN110909603A (zh) * 2019-10-23 2020-03-24 阜阳师范大学 一种基于支持向量机的智能监控系统
CN110797011A (zh) * 2019-11-15 2020-02-14 天津光电通信技术有限公司 基于支持向量机的语音识别方法、装置、设备及存储介质
CN111392562A (zh) * 2020-03-25 2020-07-10 日立电梯(广州)自动扶梯有限公司 扶梯的运行速度确定方法、装置、计算机设备和存储介质
CN111787285A (zh) * 2020-07-20 2020-10-16 南京暴走团电子商务有限公司 一种基于商务软件平台的可视化监控系统
CN111813700A (zh) * 2020-09-03 2020-10-23 武汉中科通达高新技术股份有限公司 监控数据展示方法和装置
CN112235705A (zh) * 2020-10-13 2021-01-15 恒玄科技(上海)股份有限公司 双耳助听器
CN112235705B (zh) * 2020-10-13 2022-05-10 恒玄科技(上海)股份有限公司 双耳助听器
CN113873180A (zh) * 2021-08-25 2021-12-31 广东飞达交通工程有限公司 一种多视频检测器同一事件重复发现归并处理方法

Similar Documents

Publication Publication Date Title
CN109547695A (zh) 基于声音分类算法定向捕捉画面的全息视频监控系统及方法
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US8174932B2 (en) Multimodal object localization
CN103984315A (zh) 一种家用多功能智能机器人
Sawhney et al. Situational awareness from environmental sounds
CN103295221B (zh) 模拟复眼视觉机制和偏振成像的水面目标运动检测方法
CN106851087A (zh) 信息处理装置和信息处理方法
KR101281129B1 (ko) 음장표시 디지털 비디오 레코더 시스템 및 그것의 운용 방법
CN113099031A (zh) 声音录制方法及相关设备
CN106439656A (zh) 人面识别系统及智能路灯
CN108418865A (zh) 基于无人机的信息采集方法及装置
CN110148418B (zh) 一种场景记录分析系统、方法及其装置
CN109186752A (zh) 基于图形处理器的水下声学信号采集、传输和检测系统
Du et al. Feeding intensity assessment of aquaculture fish using Mel Spectrogram and deep learning algorithms
CN207235008U (zh) 警用声源立体呈现与追溯系统
CN109309790A (zh) 一种会议幻灯片智能记录方法及系统
CN117692588A (zh) 一种智能可视化噪声监测及溯源装置
CN210502948U (zh) 一种多功能探测小车
KR102092475B1 (ko) 동물 종 식별 방법 및 장치
CN109104667A (zh) 一种智能音响的控制方法、系统及智能音响
CN109686032A (zh) 一种水产养殖生物防盗监测方法及系统
CN113539298B (zh) 一种基于云边端的声音大数据分析计算图像化系统
Bear et al. An evaluation of data augmentation methods for sound scene geotagging
JP5907487B2 (ja) 情報伝送システム、送信装置、受信装置、情報伝送方法、およびプログラム
Luthuli et al. Smart Walk: A Smart Stick for the Visually Impaired

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190329