CN111091073A - 一种将视频和音频联合的异常事件监控设备及方法 - Google Patents
一种将视频和音频联合的异常事件监控设备及方法 Download PDFInfo
- Publication number
- CN111091073A CN111091073A CN201911204850.2A CN201911204850A CN111091073A CN 111091073 A CN111091073 A CN 111091073A CN 201911204850 A CN201911204850 A CN 201911204850A CN 111091073 A CN111091073 A CN 111091073A
- Authority
- CN
- China
- Prior art keywords
- audio
- abnormal
- video
- processing module
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 365
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012544 monitoring process Methods 0.000 title claims description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 143
- 238000012545 processing Methods 0.000 claims abstract description 142
- 238000003384 imaging method Methods 0.000 claims abstract description 18
- 238000012806 monitoring device Methods 0.000 claims abstract description 12
- 230000005856 abnormality Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 238000012502 risk assessment Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000010009 beating Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Alarm Systems (AREA)
Abstract
本发明实施例提供一种将视频和音频联合的异常事件监控设备及方法,设备包括:相机成像模块,用于采集和发送视频信号;麦克风阵列收音模块,用于采集和发送音频信号;视频处理模块,用于确定视频信号异常情况;音频处理模块,用于确定音频信号异常情况;音频视频联合处理模块,用于异常事件判断。本发明实施例融合视频信号和音频信号,根据视频处理模块的异常事件判断的结果和音频处理模块的异常事件判断的结果,综合判断是否发生了异常事件。
Description
技术领域
本发明涉及异常事件监控技术领域,尤其涉及一种将视频和音频联合的异常事件监控设备及方法。
背景技术
随着科学技术的进步和社会不断向前发展,异常事件监控在社会的各个方面扮演着越来越重要的角色。
目前,监控可以是视频监控系统,也可以是音频监控系统。在视频监控系统中,摄像头很难覆盖所有位置,即有些位置不在摄像头视野范围内。针对不在摄像头视野范围内的位置,采集不到图像。因此,难以判断摄像头视野范围外是否发生异常事件。而在音频监控系统中,虽然能采集到声音,但是仅根据采集到的声音,很难判断现场是否发生异常事件。
因此,现有技术中的单一的视频监控系统或单一的音频监控系统在异常事件监控中存在缺陷。
发明内容
本发明实施例提供一种将视频和音频联合的异常事件监控设备及方法,用以解决现有技术中的单一的视频监控系统或单一的音频监控系统在异常事件监控中存在缺陷这一技术问题。
本发明实施例提供一种将视频和音频联合的异常事件监控设备,包括:
相机成像模块、麦克风阵列收音模块、视频处理模块、音频处理模块和音频视频联合处理模块;
所述相机成像模块,用于采集视频信号,并将采集的视频信号发送至所述视频处理模块;
所述麦克风阵列收音模块,用于采集音频信号,并将采集的音频信号发送至所述音频处理模块;
所述视频处理模块,用于接收所述视频信号;基于所述视频信号确定所述视频信号的第一异常情况;并将所述视频信号的第一异常情况发送至所述音频视频联合处理模块;
所述音频处理模块,用于接收所述音频信号;基于所述音频信号确定所述音频信号的第一异常情况;并将所述音频信号的第一异常情况发送至所述音频视频联合处理模块;
所述音频视频联合处理模块,用于接收所述视频信号的第一异常情况和所述音频信号的第一异常情况,并根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。
可选地,所述视频处理模块,还用于将所述视频信号的第一异常情况发送至所述音频处理模块;接收所述音频处理模块发送的音频信号的第一异常情况;基于所述音频信号的第一异常情况中的相关信息,确定与所述音频信号的第一异常情况中的相关信息对应的视频信号的第二异常情况;将所述视频信号的第二异常情况发送至所述音频视频联合处理模块;接收所述音频视频联合处理模块发送的异常事件判断结果,以确定在所述异常事件判断结果是异常的情况下,用定焦摄像头录像或拍照特定位置的异常事件,或用变焦摄像头放大异常事件场景,并对放大后的异常事件进行录像或拍照。
可选地,所述音频处理模块,还用于将所述音频信号的第一异常情况发送至所述视频处理模块;接收所述视频处理模块发送的视频信号的第一异常情况;基于所述视频信号的第一异常情况中的相关信息,确定与所述视频信号的第一异常情况中的相关信息对应的音频信号的第二异常情况;将所述音频信号的第二异常情况发送至所述音频视频联合处理模块;接收所述音频视频联合处理模块发送的异常事件判断结果,以确定在所述异常事件判断结果是异常的情况下,对异常事件进行录音或存储关键词。
可选地,所述音频视频联合处理模块,还用于接收所述视频信号的第二异常情况和所述音频信号的第二异常情况;
所述根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断,包括:根据所述视频信号的第一异常情况、所述音频信号的第一异常情况、所述视频信号的第二异常情况和所述音频信号的第二异常情况进行异常事件判断,得到异常事件判断结果。
可选地,所述音频视频联合处理模块,还用于根据所述视频信号的第一异常情况、所述视频信号的第二异常情况、所述音频信号的第一异常情况和所述音频信号的第二异常情况进行异常事件预测与风险评估。
可选地,所述将视频和音频联合的异常事件监控设备,还包括:处理异常监测结果模块;
所述处理异常监测结果模块,用于在所述异常事件判断结果是异常的情况下,启动报警功能和/或呼叫功能;在所述异常事件判断结果是非异常且异常事件预测与风险评估的结果大于预设概率的情况下,启动提示功能。
可选地,所述将视频和音频联合的异常事件监控设备,还包括:定位模块;
所述定位模块,用于在所述麦克风阵列收音模块采集到人说话的声音和/或所述相机成像模块采集到人脸图像的情况下,对人进行定位。
本发明实施例提供一种将视频和音频联合的异常事件监控方法,包括:
采集视频信号和音频信号;
基于所述视频信号确定所述视频信号的第一异常情况,并基于所述音频信号确定所述音频信号的第一异常情况;
根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。
本发明实施例还提出一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。
本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。
本发明实施例融合视频信号和音频信号,根据视频处理模块的异常事件判断结果、音频处理模块的异常事件判断结果以及两个模块互相交互后的异常事件判断结果,综合判断是否发生了异常事件以及在异常事件发生之前可以提前预测异常事件。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控设备的结构示意图;
图2示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控设备的另一结构示意图;
图3示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控方法的流程示意图;
图4示出了本发明一实施例提供的电子设备的逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控设备的结构示意图,包括:相机成像模块11、麦克风阵列收音模块12、视频处理模块13、音频处理模块14和音频视频联合处理模块15。
所述相机成像模块11,用于采集视频信号,并将采集的视频信号发送至所述视频处理模块13。
在本发明实施例中,所述相机成像模块11与所述视频处理模块13相连。所述相机成像模块11用于采集视频信号,并将采集的视频信号发送至所述视频处理模块13。需要说明的是,在所述相机成像模块11采集到视频信号后,可以对采集到的视频信号进行图像信号处理,并将图像信号处理后的视频信号发送至所述视频处理模块13。
所述麦克风阵列收音模块12,用于采集音频信号,并将采集的音频信号发送至所述音频处理模块14。
在本发明实施例中,所述麦克风阵列收音模块12与所述音频处理模块14相连。所述麦克风阵列收音模块12用于采集音频信号,并将采集的音频信号发送至所述音频处理模块14。需要说明的是,在所述麦克风阵列收音模块12采集到音频信号后,可以对采集到的音频信号进行语音信号处理,并将语音信号处理后的音频信号发送至所述音频处理模块14。
所述视频处理模块13,用于接收所述视频信号;基于所述视频信号确定所述视频信号的第一异常情况;并将所述视频信号的第一异常情况发送至所述音频视频联合处理模块15。
在本发明实施例中,所述视频处理模块13与所述相机成像模块11相连。所述视频处理模块13用于接收所述相机成像模块11发送的视频信号。在此需要说明的是,所述视频处理模块13具有视频信号异常判断功能。可以针对接收的所述视频信号,判断其异常情况,得到所述视频信号的第一异常情况;其中,所述视频信号的第一异常情况是对所述视频信号进行异常事件判断的结果。具体地,在本发明实施例中,有预设视频信号异常特征库。所述预设视频信号异常特征库包括不同类型视频信号异常特征集合。每个不同类型视频信号异常特征集合包括该类型视频信号异常特征。提取所述视频信号特征;将提取的所述视频信号特征与不同类型视频信号异常特征集合中的视频信号异常特征进行匹配,得到所述视频信号的第一异常情况。所述视频信号的第一异常情况可以用0至100中的整数表示。例如,不同类型视频信号异常特征集合包括老人摔倒视频信号异常特征集合、殴打老人视频信号异常特征集合和机器故障视频信号异常特征集合。将提取的视频信号特征分别与上述三个异常特征集合中的异常特征进行匹配,得到三个数值分别为66、69、75。这三个数值即是所述视频信号的第一异常情况。且这三个数值会作为所述音频视频联合处理模块15的输入。
所述视频处理模块13还与所述音频视频联合处理模块15相连。所述视频处理模块13将所述视频信号的第一异常情况发送至所述音频视频联合处理模块15。
所述音频处理模块14,用于接收所述音频信号;基于所述音频信号确定所述音频信号的第一异常情况;并将所述音频信号的第一异常情况发送至所述音频视频联合处理模块15;
在本发明实施例中,所述音频处理模块14与所述麦克风阵列收音模块12相连。所述音频处理模块14用于接收所述麦克风阵列收音模块12发送的音频信号。可以针对接收的所述音频信号,判断其异常情况,得到所述音频信号的第一异常情况。其中,所述音频信号的第一异常情况是对所述音频信号进行异常事件判断的结果。具体地,在本发明实施例中,有预设音频信号异常特征库。所述预设音频信号异常特征库包括不同类型音频信号异常特征集合。每个不同类型音频信号异常特征集合包括该类型音频信号异常特征。提取所述音频信号特征;将提取的所述音频信号特征与不同类型音频信号异常特征集合中的音频信号异常特征进行匹配,得到所述音频信号的第一异常情况。所述音频信号的第一异常情况可以用0至100中的整数表示。例如,不同类型音频信号异常特征集合包括老人摔倒音频信号异常特征集合、殴打老人音频信号异常特征集合和机器故障音频信号异常特征集合。将提取的音频信号特征分别与上述三个异常特征集合中的异常特征进行匹配,得到三个数值分别为72、75、69。这三个数值即是所述音频信号的第一异常情况。且这三个数值会作为所述音频视频联合处理模块15的输入。所述音频处理模块14还与所述音频视频联合处理模块15相连。所述音频处理模块14将所述音频信号的第一异常情况发送至所述音频视频联合处理模块15。
所述音频视频联合处理模块15,用于接收所述视频信号的第一异常情况和所述音频信号的第一异常情况,并根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。
在本发明实施例中,以训练好的第一卷积神经网络为例,所述音频视频联合处理模块15接收所述视频信号的第一异常情况和所述音频信号的第一异常情况,并将所述视频信号的第一异常情况和所述音频信号的第一异常情况输入训练好的第一卷积神经网络中,进行异常事件判断。训练好的第一卷积神经网络的输出是1或0。1代表异常事件判断的结果是异常,0代表异常事件判断的结果是非异常。
本发明实施例融合视频信号和音频信号,根据视频处理模块13的异常事件判断的结果和音频处理模块14的异常事件判断的结果,综合判断是否发生了异常事件。
进一步地,在上述设备实施例的基础上,所述视频处理模块13,还用于将所述视频信号的第一异常情况发送至所述音频处理模块14;接收所述音频处理模块14发送的音频信号的第一异常情况;基于所述音频信号的第一异常情况中的相关信息,确定与所述音频信号的第一异常情况中的相关信息对应的视频信号的第二异常情况;将所述视频信号的第二异常情况发送至所述音频视频联合处理模块15;接收所述音频视频联合处理模块15发送的异常事件判断结果,以确定在所述异常事件判断结果是异常的情况下,用定焦摄像头录像或拍照特定位置的异常事件,或用变焦摄像头放大异常事件场景,并对放大后的异常事件进行录像或拍照。
在本发明实施例中,所述视频处理模块13除了与所述相机成像模块11和所述音频视频联合处理模块15相连之外,还可以与所述音频处理模块14相连。其中,如图2所示,所述视频处理模块13与所述音频处理模块14存在交互过程。具体地,所述视频处理模块13除了将所述视频信号的第一异常情况发送至所述音频处理模块14之外,还接收所述音频处理模块14发送的音频信号的第一异常情况;并基于所述音频信号的第一异常情况中的相关信息,包括但不限于时间和位置信息,确定与所述音频信号的第一异常情况中的相关信息对应的视频信号的第二异常情况;其中,所述视频信号的第二异常情况是对与所述音频信号的第一异常情况中的相关信息对应的视频信号进行异常事件判断的结果。具体地,确定出与所述音频信号的第一异常情况中的某一时刻对应的视频信号。提取所述与所述音频信号的第一异常情况中的某一时刻对应的视频信号特征。将提取的所述与所述音频信号的第一异常情况中的某一时刻对应的视频信号特征与不同类型视频信号异常特征集合中的视频信号异常特征进行匹配,得到所述与所述音频信号的第一异常情况中的某一时刻对应的视频信号的第二异常情况。所述视频信号的第二异常情况可以用0至100中的整数表示。例如,不同类型视频信号异常特征集合包括老人摔倒视频信号异常特征集合、殴打老人视频信号异常特征集合和机器故障视频信号异常特征集合。将提取的所述与所述音频信号的第一异常情况中的某一时刻对应的视频信号特征分别与上述三个异常特征集合中的异常特征进行匹配,得到三个数值分别为78、87、47。这三个数值即是所述视频信号的第二异常情况。且这三个数值会作为所述音频视频联合处理模块15的输入。将所述视频信号的第二异常情况发送至所述音频视频联合处理模块15。所述视频处理模块13接收所述音频视频联合处理模块15发送的异常事件判断结果,其中,所述异常事件判断结果有两种情况,一种是异常,一种是非异常。在异常事件判断结果是异常的情况下,相机成像模块11用定焦摄像头录像或拍照特定位置的异常事件,或用变焦摄像头放大异常事件场景,并对放大后的异常事件进行录像或拍照,以捕捉异常事件细节。
在此需要说明的是,本发明实施例中的第一异常情况中的“第一”和第二异常情况中的“第二”不表示顺序关系,而是用来区分两种异常情况。
进一步地,在上述设备实施例的基础上,所述音频处理模块14,还用于将所述音频信号的第一异常情况发送至所述视频处理模块13;接收所述视频处理模块13块发送的视频信号的第一异常情况;基于所述视频信号的第一异常情况中的相关信息,确定与所述视频信号的第一异常情况中的相关信息对应的音频信号的第二异常情况;将所述音频信号的第二异常情况发送至所述音频视频联合处理模块15;接收所述音频视频联合处理模块15发送的异常事件判断结果,以确定在所述异常事件判断结果是异常的情况下,对异常事件进行录音或存储关键词。
在本发明实施例中,所述音频处理模块14除了与所述麦克风阵列收音模块12和所述音频视频联合处理模块15相连之外,还可以与所述视频模块13相连。其中,如图2所示,所述音频处理模块14与所述视频处理模块14存在交互过程。具体地,所述音频处理模块14除了将所述音频信号的第一异常情况发送至所述视频处理模块13之外,还接收所述视频处理模块13发送的视频信号的第一异常情况;并基于所述视频信号的第一异常情况中的相关信息,包括但不限于时间和位置信息,确定与所述视频信号的第一异常情况中的相关信息对应的音频信号的第二异常情况;其中,所述音频信号的第二异常情况是对与所述视频信号的第一异常情况中的相关信息对应的音频信号进行异常事件判断的结果。具体地,确定出与所述视频信号的第一异常情况中的某一时刻对应的音频信号。提取所述与所述视频信号的第一异常情况中的某一时刻对应的音频信号特征。将提取的所述与所述视频信号的第一异常情况中的某一时刻对应的音频信号特征与不同类型音频信号异常特征集合中的音频信号异常特征进行匹配,得到所述与所述视频信号的第一异常情况中的某一时刻对应的音频信号的第二异常情况。所述音频信号的第二异常情况可以用0至100中的整数表示。例如,不同类型音频信号异常特征集合包括老人摔倒音频信号异常特征集合、殴打老人音频信号异常特征集合和机器故障音频信号异常特征集合。将提取的所述与所述视频信号的第一异常情况中的某一时刻对应的音频信号特征分别与上述三个异常特征集合中的异常特征进行匹配,得到三个数值分别为68、69、56。这三个数值即是所述音频信号的第二异常情况。且这三个数值会作为所述音频视频联合处理模块15的输入。将所述音频信号的第二异常情况发送至所述音频视频联合处理模块15。所述音频处理模块14接收所述音频视频联合处理模块15发送的异常事件判断结果,其中,所述异常事件判断结果有两种情况,一种是异常,一种是非异常。在确定出所述异常事件判断结果是异常的情况下,麦克风阵列收音模块12对异常事件进行录音或存储关键词
在此需要说明的是,本发明实施例中的第一异常情况中的“第一”和第二异常情况中的“第二”不表示顺序关系,而是用来区分两种异常情况。
进一步地,在上述设备实施例的基础上,所述音频视频联合处理模块15,还用于接收所述视频信号的第二异常情况和所述音频信号的第二异常情况;
所述根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断,包括:根据所述视频信号的第一异常情况、所述音频信号的第一异常情况、所述视频信号的第二异常情况和所述音频信号的第二异常情况进行异常事件判断,得到异常事件判断结果。
在本发明实施例中,所述视频信号的第二异常情况和所述音频信号的第二异常情况是所述视频处理模块13与所述音频处理模块14交互后的异常事件判断的结果。所述音频视频联合处理模块15可以根据所述视频处理模13的异常事件判断的结果、所述音频处理模块14的异常事件判断的结果以及两个模块交互后的异常事件判断的结果,进行异常事件判断。以训练好的第二卷积神经网络为例。将所述视频信号的第一异常情况67、所述音频信号的第一异常情况72、所述视频信号的第二异常情况56和所述音频信号的第二异常情况87输入训练好的第二卷积神经网络中进行异常事件判断。训练好的第二卷积神经网络的输出结果是1或0,1是代表异常判断结果是异常,0是代表异常判断结果是非异常。
本发明实施例融合视频信号和音频信号,根据视频处理模块13的异常事件判断的结果、音频处理模块14的异常事件判断结果以及两个模块互相交互后的异常事件判断的结果,综合判断是否发生了异常事件。
进一步地,在上述设备实施例的基础上,所述音频视频联合处理模块15,还用于根据所述视频信号的第一异常情况、所述视频信号的第二异常情况、所述音频信号的第一异常情况和所述音频信号的第二异常情况进行异常事件预测与风险评估。
在本发明实施例中,所述异常事件预测与风险评估指的是在异常事件发生之前就可以提前预测异常事件发生的概率。以训练好的第三卷积神经网络为例。将所述视频信号的第一异常情况67、所述视频信号的第二异常情况56、所述音频信号的第一异常情况72和所述音频信号的第二异常情况87输入训练好的第三卷积神经网络中,进行异常事件预测与风险评估。训练好的第三卷积神经网络的输出是一个概率值。所述概率值代表异常事件发生的概率。
本发明实施例融合视频信号和音频信号,根据视频处理模块13的异常事件判断的结果、音频处理模块14的异常事件判断结果以及两个模块互相交互后的异常事件判断的结果,在异常事件发生之前可以提前预测异常事件。
在此需要说明的是,本发明实施例中的训练好的第一卷积神经网络中的“第一”、训练好的第二卷积神经网络中的“第二”和训练好的第三卷积神经网络中的“第三”不代表顺序关系,而是用来区分不同的训练好的卷积神经网络。上述训练好的卷积神经网络都是通过训练样本对卷积神经网络进行训练,再用测试样本对训练后的卷积神经网络进行测试得到的。
进一步地,在上述设备实施例的基础上,所述将视频和音频联合的异常事件监控设备,还包括:处理异常监测结果模块21,如图2所示;
所述处理异常监测结果模块21,用于在所述异常事件判断结果是异常的情况下,启动报警功能和/或呼叫功能;在所述异常事件判断结果是非异常且异常事件预测与风险评估的结果大于预设概率的情况下,启动提示功能。
在本发明实施例中,若所述异常事件判断结果是异常,则所述处理异常监测结果模块21启动报警功能和/或呼叫功能。并将报警信息和/或呼叫信息实时传输至云平台进行处理。若所述异常事件判断结果是非异常且异常事件预测与风险评估的结果大于预设概率,则所述处理异常监测结果模块21启动提示功能。并将提示信息实时传输至云平台进行处理。
在此需要说明的是,实时传输包括实时有线传输和实时无线传输。在本发明实施例中,采用实时有线传输和实时无线传输的双保险传输模式,保证信息能够及时传输。
本发明实施例针对异常事件判断结果是异常的情况,启动不同的功能,以提示用户不同的信息。
进一步地,在上述设备实施例的基础上,所述将视频和音频联合的异常事件监控设备,还包括:定位模块;
所述定位模块,用于在所述麦克风阵列收音模块采集到人说话的声音和/或所述相机成像模块采集到人脸图像的情况下,对人进行定位。
在本发明实施例中,所述定位模块可以对具体应用场景中的人进行定位。具体地,在所述麦克风阵列收音模块采集到人说话的声音的情况下,所述定位模块对人进行定位;和/或在所述相机成像模块采集到人脸图像的情况下,所述定位模块对人进行定位。
在此需说明的是,在实施本发明时,可以对诸如老人摔倒、打骂老人、设备故障和管道检修等异常事件进行监控。在安装监控设备时,要使音频信号和视频信号能够全面覆盖待监控区域。如将监控设备安装于居家养老居室之内时,可以将监控设备安装在烟感位置、灯具位置和/或棚顶WiFi路由器位置,尽量使视频信号和音频信号覆盖整个居室范围。
图3示出了本发明一实施例提供的一种将视频和音频联合的异常事件监控方法的流程示意图,包括:
S31,采集视频信号和音频信号;
S32,基于所述视频信号确定所述视频信号的第一异常情况,并基于所述音频信号确定所述音频信号的第一异常情况;
S33,根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。
上述方法实施例可以由上述将视频和音频联合的异常事件监控设备执行。其实现原理和效果类似,在此不再赘述。
图4为本发明一实施例提供的电子设备的逻辑框图;所述电子设备,包括:处理器(processor)41、存储器(memory)42和总线43;
其中,所述处理器41和存储器42通过所述总线43完成相互间的通信;所述处理器41用于调用所述存储器42中的程序指令,以执行上述方法实施例所提供的方法。
本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种将视频和音频联合的异常事件监控设备,其特征在于,包括:
相机成像模块、麦克风阵列收音模块、视频处理模块、音频处理模块和音频视频联合处理模块;
所述相机成像模块,用于采集视频信号,并将采集的视频信号发送至所述视频处理模块;
所述麦克风阵列收音模块,用于采集音频信号,并将采集的音频信号发送至所述音频处理模块;
所述视频处理模块,用于接收所述视频信号;基于所述视频信号确定所述视频信号的第一异常情况;并将所述视频信号的第一异常情况发送至所述音频视频联合处理模块;
所述音频处理模块,用于接收所述音频信号;基于所述音频信号确定所述音频信号的第一异常情况;并将所述音频信号的第一异常情况发送至所述音频视频联合处理模块;
所述音频视频联合处理模块,用于接收所述视频信号的第一异常情况和所述音频信号的第一异常情况,并根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。
2.根据权利要求1所述的将视频和音频联合的异常事件监控设备,其特征在于,所述视频处理模块,还用于将所述视频信号的第一异常情况发送至所述音频处理模块;接收所述音频处理模块发送的音频信号的第一异常情况;基于所述音频信号的第一异常情况中的相关信息,确定与所述音频信号的第一异常情况中的相关信息对应的视频信号的第二异常情况;将所述视频信号的第二异常情况发送至所述音频视频联合处理模块;接收所述音频视频联合处理模块发送的异常事件判断结果,以确定在所述异常事件判断结果是异常的情况下,用定焦摄像头录像或拍照特定位置的异常事件,或用变焦摄像头放大异常事件场景,并对放大后的异常事件进行录像或拍照。
3.根据权利要求2所述的将视频和音频联合的异常事件监控设备,其特征在于,所述音频处理模块,还用于将所述音频信号的第一异常情况发送至所述视频处理模块;接收所述视频处理模块发送的视频信号的第一异常情况;基于所述视频信号的第一异常情况中的相关信息,确定与所述视频信号的第一异常情况中的相关信息对应的音频信号的第二异常情况;将所述音频信号的第二异常情况发送至所述音频视频联合处理模块;接收所述音频视频联合处理模块发送的异常事件判断结果,以确定在所述异常事件判断结果是异常的情况下,对异常事件进行录音或存储关键词。
4.根据权利要求3所述的将视频和音频联合的异常事件监控设备,其特征在于,所述音频视频联合处理模块,还用于接收所述视频信号的第二异常情况和所述音频信号的第二异常情况;
所述根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断,包括:根据所述视频信号的第一异常情况、所述音频信号的第一异常情况、所述视频信号的第二异常情况和所述音频信号的第二异常情况进行异常事件判断,得到异常事件判断结果。
5.根据权利要求4所述的将视频和音频联合的异常事件监控设备,其特征在于,所述音频视频联合处理模块,还用于根据所述视频信号的第一异常情况、所述视频信号的第二异常情况、所述音频信号的第一异常情况和所述音频信号的第二异常情况进行异常事件预测与风险评估。
6.根据权利要求5所述的将视频和音频联合的异常事件监控设备,其特征在于,所述将视频和音频联合的异常事件监控设备,还包括:处理异常监测结果模块;
所述处理异常监测结果模块,用于在所述异常事件判断结果是异常的情况下,启动报警功能和/或呼叫功能;在所述异常事件判断结果是非异常且异常事件预测与风险评估的结果大于预设概率的情况下,启动提示功能。
7.根据权利要求1所述的将视频和音频联合的异常事件监控设备,其特征在于,所述将视频和音频联合的异常事件监控设备,还包括:定位模块;
所述定位模块,用于在所述麦克风阵列收音模块采集到人说话的声音和/或所述相机成像模块采集到人脸图像的情况下,对人进行定位。
8.一种将视频和音频联合的异常事件监控方法,其特征在于,包括:
采集视频信号和音频信号;
基于所述视频信号确定所述视频信号的第一异常情况,并基于所述音频信号确定所述音频信号的第一异常情况;
根据所述视频信号的第一异常情况和所述音频信号的第一异常情况进行异常事件判断。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求8所述的将视频和音频联合的异常事件监控方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求8所述的将视频和音频联合的异常事件监控方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911204850.2A CN111091073A (zh) | 2019-11-29 | 2019-11-29 | 一种将视频和音频联合的异常事件监控设备及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911204850.2A CN111091073A (zh) | 2019-11-29 | 2019-11-29 | 一种将视频和音频联合的异常事件监控设备及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091073A true CN111091073A (zh) | 2020-05-01 |
Family
ID=70393221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911204850.2A Pending CN111091073A (zh) | 2019-11-29 | 2019-11-29 | 一种将视频和音频联合的异常事件监控设备及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091073A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112729389A (zh) * | 2020-12-22 | 2021-04-30 | 合肥阿格德信息科技有限公司 | 一种机器视觉系统 |
CN112908356A (zh) * | 2021-01-19 | 2021-06-04 | 昆明理工大学 | 一种基于bse和gmm-hmm的埋地排水管道声纹识别方法 |
CN114299743A (zh) * | 2021-12-30 | 2022-04-08 | 交控科技股份有限公司 | 用于城市轨道交通的三维运行监控系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101501564A (zh) * | 2006-08-03 | 2009-08-05 | 国际商业机器公司 | 具有组合视频和音频识别的视频监视系统和方法 |
CN101753992A (zh) * | 2008-12-17 | 2010-06-23 | 深圳市先进智能技术研究所 | 一种多模态智能监控系统和方法 |
US20140055610A1 (en) * | 2012-08-27 | 2014-02-27 | Korea University Research And Business Foundation | Indoor surveillance system and indoor surveillance method |
CN108540757A (zh) * | 2017-03-01 | 2018-09-14 | 中国电信股份有限公司 | 监控系统及监控方法 |
CN109714572A (zh) * | 2018-12-28 | 2019-05-03 | 深圳市微纳感知计算技术有限公司 | 一种音视联动的智能安防系统 |
-
2019
- 2019-11-29 CN CN201911204850.2A patent/CN111091073A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101501564A (zh) * | 2006-08-03 | 2009-08-05 | 国际商业机器公司 | 具有组合视频和音频识别的视频监视系统和方法 |
CN101753992A (zh) * | 2008-12-17 | 2010-06-23 | 深圳市先进智能技术研究所 | 一种多模态智能监控系统和方法 |
US20140055610A1 (en) * | 2012-08-27 | 2014-02-27 | Korea University Research And Business Foundation | Indoor surveillance system and indoor surveillance method |
CN108540757A (zh) * | 2017-03-01 | 2018-09-14 | 中国电信股份有限公司 | 监控系统及监控方法 |
CN109714572A (zh) * | 2018-12-28 | 2019-05-03 | 深圳市微纳感知计算技术有限公司 | 一种音视联动的智能安防系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112729389A (zh) * | 2020-12-22 | 2021-04-30 | 合肥阿格德信息科技有限公司 | 一种机器视觉系统 |
CN112908356A (zh) * | 2021-01-19 | 2021-06-04 | 昆明理工大学 | 一种基于bse和gmm-hmm的埋地排水管道声纹识别方法 |
CN112908356B (zh) * | 2021-01-19 | 2022-08-05 | 昆明理工大学 | 一种基于bse和gmm-hmm的埋地排水管道声纹识别方法 |
CN114299743A (zh) * | 2021-12-30 | 2022-04-08 | 交控科技股份有限公司 | 用于城市轨道交通的三维运行监控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091073A (zh) | 一种将视频和音频联合的异常事件监控设备及方法 | |
CN110659397B (zh) | 一种行为检测方法、装置、电子设备和存储介质 | |
CN112291520B (zh) | 异常事件识别方法、装置、存储介质及电子装置 | |
KR101445367B1 (ko) | 이상 음원에 대한 인식율 향상을 통하여 긴급상황 판별 성능을 개선한 지능형 영상감시 시스템 및 이를 이용한 긴급상황 판별방법 | |
JP4912184B2 (ja) | 映像監視システムおよび映像監視方法 | |
BRPI0621897B1 (pt) | sistema de vigilância utilizando reconhecimento de vídeo e áudio, método de vigilância e dispositivo de armazenamento legível por uma máquina | |
KR101987241B1 (ko) | 복합 이벤트 처리 및 상황 인지 기반 지능형 관제 플랫폼 및 지능형 관제 방법 | |
CN108391147B (zh) | 显示控制装置和显示控制方法 | |
CN108540757B (zh) | 监控系统及监控方法 | |
KR101321447B1 (ko) | 네트워크를 통한 현장 모니터링 방법, 및 이에 사용되는 관리 서버 | |
CN103577273B (zh) | 用于捕获诊断跟踪信息的方法和计算机系统 | |
CN112419639A (zh) | 一种视频信息的获取方法及装置 | |
JP4985742B2 (ja) | 撮影システム、方法及びプログラム | |
CN103945049A (zh) | 用于在移动终端中收集证据和自动报警的装置和方法 | |
WO2017049474A1 (zh) | 一种拍摄方法以及智能手环 | |
JP4859130B2 (ja) | 監視システム | |
CN112419638B (zh) | 一种告警视频的获取方法及装置 | |
US11398091B1 (en) | Repairing missing frames in recorded video with machine learning | |
JP5993414B2 (ja) | 監視システム及び監視方法 | |
JP2017139637A (ja) | 監視システム及び監視方法 | |
CN107481249A (zh) | 一种计算机监控系统的数据处理方法 | |
US20240153526A1 (en) | Audio event analysis, classification, and detection system | |
JP3402856B2 (ja) | プラント異常検出装置 | |
KR102587499B1 (ko) | 저장기간을 연장하며 상황을 용이하게 파악할 수 있도록 할 수 있는 촬영영상 저장장치 및 그 저장방법 | |
WO2017134793A1 (ja) | 監視システム及び監視方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |
|
RJ01 | Rejection of invention patent application after publication |