CN117409517B - 基于视频ai行为分析的语音告警系统及方法 - Google Patents
基于视频ai行为分析的语音告警系统及方法 Download PDFInfo
- Publication number
- CN117409517B CN117409517B CN202311354444.0A CN202311354444A CN117409517B CN 117409517 B CN117409517 B CN 117409517B CN 202311354444 A CN202311354444 A CN 202311354444A CN 117409517 B CN117409517 B CN 117409517B
- Authority
- CN
- China
- Prior art keywords
- human body
- video
- action
- layer
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000009471 action Effects 0.000 claims abstract description 122
- 230000006399 behavior Effects 0.000 claims abstract description 56
- 238000012544 monitoring process Methods 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 230000002787 reinforcement Effects 0.000 claims abstract description 29
- 238000004088 simulation Methods 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000013461 design Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 35
- 230000007613 environmental effect Effects 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012546 transfer Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 15
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 210000000746 body region Anatomy 0.000 claims description 5
- 230000009916 joint effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B3/00—Audible signalling systems; Audible personal calling systems
- G08B3/10—Audible signalling systems; Audible personal calling systems using electric transmission; using electromagnetic transmission
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Electromagnetism (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了基于视频AI行为分析的语音告警系统及方法,包括:前端数据层接入常规摄像机、视频监控平台、高清卡口监控系统并拍摄视频数据;基础互联网服务层将拍摄的视频数据进行接入、管理、分发、存储、回放和检索;视频智能分析服务层内设有智能分析算法对视频数据进行智能化分析处理,获得的标准化数据供上层业务应用层使用;业务应用层设有语音报警模块,根据所述标准化数据执行报警指令;用户层根据不同行业用户的业务差异,制定使用报警指令的使用规则;该系统和方法综合应用了视频处理、AI分析、强化学习和人体动作模拟等多种技术,具有高效、精准的特点,能够在各种环境下对人体行为进行实时监控和分析,及时发出警报,提高安全性。
Description
技术领域
本发明涉及行为分析技术领域,特别涉及基于视频AI行为分析的语音告警系统及方法。
背景技术
目前大多数视频监控系统还处于传统模式,即“只记录不判断”,因此只能通过事后的视频回放来调查异常情况及取证,存在无法实时判断异常行为及报警的缺点,且需要工作人员不间断地监视场景内的活动,日夜值守,工作量繁重,易受人体感官疲劳影响从而出现漏检和误检的情况,失去了监控系统进行现场实时监控的意义。另一方面,随着监控系统规模的扩大,视频数量海量增大,从中获取有用的信息或者情报越来越难,查找效率低,难以满足监控系统的需求。
公开号CN202310364849.6的中国专利文件就公开了了一种公共场所异常行为与隐患检测装置,包括遮阳罩、摄像机、红外模块、异常声音检测模块、处理器、人机交互模块、是语音模块、后台监视模块、警报模块;所述的红外模块置于摄像头右侧、所述的异常声音检测模块设置于摄像机的的尾部,所述的语音模块置于摄像机下端以及中控室。对当前公共场所的异常行为和安全隐患进行检测,通过处理器对人们的行为和周围环境进行分析,当发现异常行为和隐患时,对在公共场所的不文明行为进行及时劝阻,对公共场所的安全问题能第一时间采取相应措施。本发明提高公共场所的安全性、有序性和公共性,有效的保障了公共场所居民的满意度与舒适度,减少人为差错,减少人力、物力和时间成本,提高监视效率该装置可满足不同公共场所的各种需求;但是其缺乏具体行为分析的技术方案,为此,本发明提出基于视频AI行为分析的语音告警系统及方法。
发明内容
有鉴于此,本发明实施例希望提供基于视频AI行为分析的语音告警系统及方法,以解决或缓解现有技术中存在的技术问题,至少提供一种有益的选择;
本发明实施例的技术方案是这样实现的:基于视频AI行为分析的语音告警系统,包括:前端数据层、基础互联网服务层、视频智能分析层、业务应用层和用户层;
前端数据层接入常规摄像机、视频监控平台、高清卡口监控系统并拍摄视频数据;基础互联网服务层将拍摄的视频数据进行接入、管理、分发、存储、回放和检索;视频智能分析服务层内设有智能分析算法对视频数据进行智能化分析处理,获得的标准化数据供上层业务应用层使用;业务应用层设有语音报警模块,根据所述标准化数据执行报警指令;用户层根据不同行业用户的业务差异,制定使用报警指令的使用规则;
所述视频智能分析层内设有决策神经网络,所述决策神经网络中设有强化学习算法,所述强化学习算法包括状态空间设计、动作空间设计和趋势函数设计,所述状态空间设计构建被监控人的环境信息,所述动作空间设计内包括通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹,计算出下一个环境的更新函数,判断所述被监控人的行动轨迹是否匹配报警预设条件,若符合,将此段监控视频保存并上传业务应用层。
进一步的,所述的基于视频AI行为分析的语音告警系统,所述视频智能分析层还包括人脸识别模块,所述人脸识别模块通过卷积神经网络对进行特征提取,同时采用多模态生物识别技术结合其他特征对被监控人的身份进行核对。
另一方面,提供基于视频AI行为分析的语音告警方法,应用所述的基于视频AI行为分析的语音告警系统实现基于视频AI行为分析的语音告警方法,所述语音告警方法包括:
构建仿真人体建模,根据雅克比矩阵和人体关节活动度构建人体行为动作;
构建决策神经网络,所述决策神经网络中设有强化学习算法,所述强化学习算法包括状态空间设计、动作空间设计和趋势函数设计,所述状态空间设计构建被监控人的环境信息,所述动作空间设计内包括通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹,计算出下一个行动轨迹的趋势函数;
S1:通过前端数据层获取人体动作视频集合,在所述人体动作视频集合中提取人体区域图像集和环境图像集;
S2:将视频集合内的人体动作进行仿真人体建模,判断在状态空间内人体动作是否受环境信息的影响,并计算人体动作的更新度;
S3:若在状态空间内人体动作不受环境信息的影响,为正常行为,若在状态空间内人体动作受环境信息的影响,为异常行为,且更新度大于预设值时,应发出语音告警。
进一步的,所述的基于视频AI行为分析的语音告警方法,所述雅克比矩阵可以表示人体动作速度和关节速度之间的数学关系,雅克比矩阵J,表示为关节速度向人体动作速度的映射:
V=Jθ;
θ是人体动作角度,V是的人体动作速度矢量,为矢量,包括了人体动作速度的线速度矢量v和角速度矢量ω;
进一步的,所述的基于视频AI行为分析的语音告警方法,雅克比矩阵J也可以实现关节空间力矩和人体动作的力和力矩的映射,根据虚功原理,在末端施加一个力F来推动实现人体动作,使其位移x所做的功,它等于各个关节的力矩τ=[τ1 … τn]所驱动机器人各个关节运动相应的关节转动θ=[θ1 … θn],根据虚功原理:
Fx=τθ;
又有雅克比矩阵的定义:
x=Jθ;
联立两式可得:
τ=JF。
进一步的,所述的基于视频AI行为分析的语音告警方法,在强化学习算法内,{S,A,P,R},S表示环境信息,A表示人体动作,P表示状态转移函数,R表示执行该状态转移函数得到的更新度,
假设t时刻人体动作为At,在环境信息S下进入下一个人体动作At+1,状态转移函数表示:PS(A,A')=(At+1=A'丨At=A,St=S);A'是环境S下变化的人体动作,St是在t时刻的环境信息;
所述更新度R表示为:
R=RS(A,A')。
进一步的,所述的基于视频AI行为分析的语音告警方法,所述环境信息和人体动作是相互影响的关系,根据监控规则的不同,强化学习算法计算的目标不同;
假设t时刻环境信息为St,执行a动作后进入下一个环境信息St+1,状态转移函数表示为:
Pa(S,S')=(St+1=S'丨St=S,at=a);
S'是动作a下变化最大的环境信息,at是在t时刻实现的动作;
所述更新度R表示为:
R=Ra(S,S')。
进一步的,所述的基于视频AI行为分析的语音告警方法,根据更新度可以判断所述人体动作对环境信息的影响和/或所述环境信息对人体动作的影响,预设有更新度预设值,与计算的更新度R对比,若大于更新度预设值,判断是异常行为且触发语音告警。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述的基于视频AI行为分析的语音告警方法的步骤。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述的基于视频AI行为分析的语音告警方法的步骤。
与现有技术相比,本发明的有益效果是:
一、该系统和方法综合应用了视频处理、AI分析、强化学习和人体动作模拟等多种技术,具有高效、精准的特点,能够在各种环境下对人体行为进行实时监控和分析,及时发出警报,提高安全性;
二、提高安全性:通过实时监控和分析人体行为,及时发出警报,有效防止了可能发生的不良事件,大大提高了个人和公共场所的安全性;
三、提高准确性:该系统利用强化学习算法、卷积神经网络和多模态生物识别技术等先进技术,能够精准地分析和判断异常行为,从而提高报警的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于视频AI行为分析的语音告警系统的模块化示意图;
图2为本发明的基于视频AI行为分析的语音告警方法的流程示意图;
图3为本发明的实现基于视频AI行为分析的语音告警方法的计算机设备事结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制;
需要注意的是,术语“第一”、“第二”、“对称”、“阵列”等仅用于区分描述与位置描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“对称”等特征的可以明示或者隐含地包括一个或者更多个该特征;同样,对于未以“两个”、“三只”等文字形式对某些特征进行数量限制时,应注意到该特征同样属于明示或者隐含地包括一个或者更多个特征数量;
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征;同时,所有的轴向描述例如X轴向、Y轴向、Z轴向、X轴向的一端、Y轴向的另一端或Z轴向的另一端等,均基于笛卡尔坐标系。
在本发明中,除非另有明确的规定和限定,“安装”、“连接”、“固定”等术语应做广义理解;例如,可以是固定连接,也可以是可拆卸连接,或一体成型;可以是机械连接,可以是直接相连,可以是焊接,也可以是通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据说明书附图结合具体情况理解上述术语在本发明中的具体含义。
在现有技术中,目前大多数视频监控系统还处于传统模式,即“只记录不判断”,因此只能通过事后的视频回放来调查异常情况及取证,存在无法实时判断异常行为及报警的缺点,且需要工作人员不间断地监视场景内的活动,日夜值守,工作量繁重,易受人体感官疲劳影响从而出现漏检和误检的情况,失去了监控系统进行现场实时监控的意义。另一方面,随着监控系统规模的扩大,视频数量海量增大,从中获取有用的信息或者情报越来越难,查找效率低,难以满足监控系统的需求;为此,请参阅图1,本发明提供一种技术方案以解决上述技术问题:
其中,在本申请一些具体实施方式中,请结合参阅图1:
在一个实施例中,基于视频AI行为分析的语音告警系统,包括:前端数据层、基础互联网服务层、视频智能分析层、业务应用层和用户层;
前端数据层接入常规摄像机、视频监控平台、高清卡口监控系统并拍摄视频数据;基础互联网服务层将拍摄的视频数据进行接入、管理、分发、存储、回放和检索;视频智能分析服务层内设有智能分析算法对视频数据进行智能化分析处理,获得的标准化数据供上层业务应用层使用;业务应用层设有语音报警模块,根据所述标准化数据执行报警指令;用户层根据不同行业用户的业务差异,制定使用报警指令的使用规则;
所述视频智能分析层内设有决策神经网络,所述决策神经网络中设有强化学习算法,所述强化学习算法包括状态空间设计、动作空间设计和趋势函数设计,所述状态空间设计构建被监控人的环境信息,所述动作空间设计内包括通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹,计算出下一个环境的更新函数,判断所述被监控人的行动轨迹是否匹配报警预设条件,若符合,将此段监控视频保存并上传业务应用层。
进一步的,所述视频智能分析层还包括人脸识别模块,所述人脸识别模块通过卷积神经网络对进行特征提取,同时采用多模态生物识别技术结合其他特征对被监控人的身份进行核对。
在本实施例中,前端数据层:这个层面负责接入各种视频设备,例如常规摄像机、视频监控平台和高清卡口监控系统等,并拍摄视频数据。这些视频数据将作为后续智能分析的原始输入;基础互联网服务层:此层的职责是对从前端数据层获取的视频数据进行管理,包括数据的接入、分发、存储、回放和检索等操作,保证数据可以安全有效地被后续的服务使用;视频智能分析层:在这个层面,利用内置的智能分析算法对视频数据进行处理,这些算法可能包括图像识别、动作识别等多种AI技术。其中有一个重要的组成部分是决策神经网络,它使用强化学习算法,包括状态空间设计(构建被监控人的环境信息)、动作空间设计(通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹)和趋势函数设计(计算下一个环境的更新函数)。当被监控人的行动轨迹符合预设的报警条件时,会将此段监控视频保存并上传至业务应用层;业务应用层:在这一层,主要是执行具体的业务操作。例如,设有语音报警模块,根据从智能分析层得到的标准化数据(如行动轨迹等信息),判断是否满足报警条件,如果满足则执行报警指令;用户层:这个层面主要是与用户交互的接口,根据不同行业用户的业务差异,制定使用报警指令的使用规则,使得系统可以灵活适应各种不同的使用场景;总的来说,这是一个由视频输入到AI分析,再到报警输出的完整系统,通过多层次的设计,有效地提高了视频监控的智能程度和实用性。
在一个实施例中,如图1所示:前端数据层可以接入常规摄像机、视频监控平台、高清卡口监控系统、数据库以及地图信息系统,实现各类视图信息的接入;基础联网服务为整个平台提供底层数据(原始数据)接入、管理、分发、存储、回放检索等基础服务;视频智能分析服务层或称核心服务层,所有的智能分析算法及算法计算都包含在本模块中。分析服务层针对底层数据(原始数据)进行各类智能化分析处理,获得标准化数据(目标图片、报警图片、结构化信息、报警信息等)供上层业务应用使用;业务应用层包含实时监控、报警中心、视图库、人员轨迹、统计报表等各类直接面向使用者的功能,主要将标准化数据进行分类存储、展现、查询、统计分析等。同时平台具备完善的运维管理机制;根据不同行业用户的业务差异,平台可以满足监管、治安、园区、楼宇、轨道交通、教育、社区等不同用户的深度业务应用需求。
在一个实施例中,提供基于视频AI行为分析的语音告警方法,应用所述的基于视频AI行为分析的语音告警系统实现基于视频AI行为分析的语音告警方法,所述语音告警方法包括:
构建仿真人体建模,根据雅克比矩阵和人体关节活动度构建人体行为动作;
构建决策神经网络,所述决策神经网络中设有强化学习算法,所述强化学习算法包括状态空间设计、动作空间设计和趋势函数设计,所述状态空间设计构建被监控人的环境信息,所述动作空间设计内包括通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹,计算出下一个行动轨迹的趋势函数;
S1:通过前端数据层获取人体动作视频集合,在所述人体动作视频集合中提取人体区域图像集和环境图像集;
S2:将视频集合内的人体动作进行仿真人体建模,判断在状态空间内人体动作是否受环境信息的影响,并计算人体动作的更新度;
S3:若在状态空间内人体动作不受环境信息的影响,为正常行为,若在状态空间内人体动作受环境信息的影响,为异常行为,且更新度大于预设值时,应发出语音告警。
进一步的,所述雅克比矩阵可以表示人体动作速度和关节速度之间的数学关系,雅克比矩阵J,表示为关节速度向人体动作速度的映射:
V=Jθ;
θ是人体动作角度,V是的人体动作速度矢量,为矢量,包括了人体动作速度的线速度矢量v和角速度矢量ω;
雅克比矩阵J也可以实现关节空间力矩和人体动作的力和力矩的映射,根据虚功原理,在末端施加一个力F来推动实现人体动作,使其位移x所做的功,它等于各个关节的力矩τ=[τ1 … τn]所驱动机器人各个关节运动相应的关节转动θ=[θ1 … θn],根据虚功原理:
Fx=τθ;
又有雅克比矩阵的定义:
x=Jθ;
联立两式可得:
τ=JF;因此,通过计算雅克比矩阵,可以很方便地在关节空间和任务空间(即人体动作空间)之间进行转换。
进一步的,在强化学习算法内,{S,A,P,R},S表示环境信息,A表示人体动作,P表示状态转移函数,R表示执行该状态转移函数得到的更新度,
假设t时刻人体动作为At,在环境信息S下进入下一个人体动作At+1,状态转移函数表示:PS(A,A')=(At+1=A'丨At=A,St=S);A'是环境S下变化的人体动作,St是在t时刻的环境信息;
所述更新度R表示为:
R=RS(A,A')。
进一步的,所述环境信息和人体动作是相互影响的关系,根据监控规则的不同,强化学习算法计算的目标不同;
假设t时刻环境信息为St,执行a动作后进入下一个环境信息St+1,状态转移函数表示为:
Pa(S,S')=(St+1=S'丨St=S,at=a);
S'是动作a下变化最大的环境信息,at是在t时刻实现的动作;
所述更新度R表示为:
R=Ra(S,S')。
进一步的,根据更新度可以判断所述人体动作对环境信息的影响和/或所述环境信息对人体动作的影响,预设有更新度预设值,与计算的更新度R对比,若大于更新度预设值,判断是异常行为且触发语音告警。
举一个具体的实施例:假设我们正在监控一个跑步的运动员,为了确保安全,我们使用基于视频AI行为分析的语音告警系统来实时监控跑步运动员的行动;构建仿真人体建模:首先,我们通过对人体的结构和运动特性进行深入理解,根据雅克比矩阵和人体关节的活动度(例如人体腿部关节的抬升角度等),构建一个仿真模型,这个模型能够准确地描述运动员的动作;构建决策神经网络:然后,设计并训练一个决策神经网络,使其能够根据环境信息(如路上的障碍等)和运动员的动作来相关联,具体来说,我们使用强化学习算法,对环境信息和运动员动作进行观察,获取人体动作视频集合:在前端数据层,安装了一系列的摄像头,用来实时收集运动员中的视频数据。这些视频数据包含了运动员的动作以及环境信息,此时的人体动作视频集合应当是正常的跑步姿态;在一视频帧中,运动员踩到了障碍,此时的跑步动作是异常姿态,其后续的状态可以通过决策神经网络进行计算,得到运动动作的更新值。
在另一个实施例中,假设在监控地铁的闸门,正常的流程是闸门打开,人从闸门进去,但是监控视频显示,人从闸门上跨过去了,在此,通过计算该人的跨步动作,是在闸门之上的,可以认定其是入侵动作,触发语音告警,从而制止该行动。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于视频AI行为分析的语音告警方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于视频AI行为分析的语音告警方法的步骤,具体为:
构建仿真人体建模,根据雅克比矩阵和人体关节活动度构建人体行为动作;
构建决策神经网络,所述决策神经网络中设有强化学习算法,所述强化学习算法包括状态空间设计、动作空间设计和趋势函数设计,所述状态空间设计构建被监控人的环境信息,所述动作空间设计内包括通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹,计算出下一个行动轨迹的趋势函数;
S1:通过前端数据层获取人体动作视频集合,在所述人体动作视频集合中提取人体区域图像集和环境图像集;
S2:将视频集合内的人体动作进行仿真人体建模,判断在状态空间内人体动作是否受环境信息的影响,并计算人体动作的更新度;
S3:若在状态空间内人体动作不受环境信息的影响,为正常行为,若在状态空间内人体动作受环境信息的影响,为异常行为,且更新度大于预设值时,应发出语音告警。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
尽管已经示出和描述了本申请的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由所附权利要求及其等同物限定。
当然,本发明还可有其它多种实施方式,基于本实施方式,本领域的普通技术人员在没有做出任何创造性劳动的前提下所获得其他实施方式,都属于本发明所保护的范围。
Claims (9)
1.基于视频AI行为分析的语音告警系统,其特征在于,包括:前端数据层、基础互联网服务层、视频智能分析层、业务应用层和用户层;
前端数据层接入常规摄像机、视频监控平台、高清卡口监控系统并拍摄视频数据;基础互联网服务层将拍摄的视频数据进行接入、管理、分发、存储、回放和检索;视频智能分析服务层内设有智能分析算法对视频数据进行智能化分析处理,获得的标准化数据供上层业务应用层使用;业务应用层设有语音报警模块,根据所述标准化数据执行报警指令;用户层根据不同行业用户的业务差异,制定使用报警指令的使用规则;
所述视频智能分析层内设有决策神经网络,所述决策神经网络中设有强化学习算法,所述强化学习算法包括状态空间设计、动作空间设计和趋势函数设计,所述状态空间设计构建被监控人的环境信息,所述动作空间设计内包括通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹,计算出下一个环境的更新函数,判断所述被监控人的行动轨迹是否匹配报警预设条件,若符合,将此段监控视频保存并上传业务应用层;
所述的基于视频AI行为分析的语音告警系统实现基于视频AI行为分析的语音告警方法,所述语音告警方法包括:
构建仿真人体建模,根据雅克比矩阵和人体关节活动度构建人体行为动作;
构建决策神经网络,所述决策神经网络中设有强化学习算法,所述强化学习算法包括状态空间设计、动作空间设计和趋势函数设计,所述状态空间设计构建被监控人的环境信息,所述动作空间设计内包括通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹,计算出下一个行动轨迹的趋势函数;
S1:通过前端数据层获取人体动作视频集合,在所述人体动作视频集合中提取人体区域图像集和环境图像集;
S2:将视频集合内的人体动作进行仿真人体建模,判断在状态空间内人体动作是否受环境信息的影响,并计算人体动作的更新度;
S3:若在状态空间内人体动作不受环境信息的影响,为正常行为,若在状态空间内人体动作受环境信息的影响,为异常行为,且更新度大于预设值时,应发出语音告警;
所述雅克比矩阵可以表示人体动作速度和关节速度之间的数学关系,雅克比矩阵J,表示为关节速度向人体动作速度的映射:
V=Jθ;
θ是关节速度,V是的人体动作速度矢量,为矢量,包括了人体动作速度的线速度矢量v和角速度矢量ω;
在强化学习算法内,{S,A,P,R},S表示环境信息,A表示人体动作,P表示状态转移函数,R表示执行该状态转移函数得到的更新度,
假设t时刻人体动作为At,在环境信息S下进入下一个人体动作At+1,状态转移函数表示:PS(A,A')=(At+1=A'丨At=A,St=S);A'是环境S下变化的人体动作,St是在t时刻的环境信息;
所述更新度R表示为:
R=RS(A,A');
所述环境信息和人体动作是相互影响的关系,根据监控规则的不同,强化学习算法计算的目标不同;
假设t时刻环境信息为St,执行a动作后进入下一个环境信息St+1,状态转移函数表示为:
Pa(S,S')=(St+1=S'丨St=S,at=a);
S'是动作a下变化最大的环境信息,at是在t时刻实现的动作;
所述更新度R表示为:
R=Ra(S,S');
根据更新度可以判断所述人体动作对环境信息的影响和/或所述环境信息对人体动作的影响,预设有更新度预设值,与计算的更新度R对比,若大于更新度预设值,判断是异常行为且触发语音告警。
2.根据权利要求1所述的基于视频AI行为分析的语音告警系统,其特征在于:所述视频智能分析层还包括人脸识别模块,所述人脸识别模块通过卷积神经网络对进行特征提取,同时采用多模态生物识别技术结合其他特征对被监控人的身份进行核对。
3.基于视频AI行为分析的语音告警方法,其特征在于,应用权利要求1-2任一项所述的基于视频AI行为分析的语音告警系统实现基于视频AI行为分析的语音告警方法,所述语音告警方法包括:
构建仿真人体建模,根据雅克比矩阵和人体关节活动度构建人体行为动作;
构建决策神经网络,所述决策神经网络中设有强化学习算法,所述强化学习算法包括状态空间设计、动作空间设计和趋势函数设计,所述状态空间设计构建被监控人的环境信息,所述动作空间设计内包括通过仿真人体建模映射出被监控人的关节动态并形成行动轨迹,计算出下一个行动轨迹的趋势函数;
S1:通过前端数据层获取人体动作视频集合,在所述人体动作视频集合中提取人体区域图像集和环境图像集;
S2:将视频集合内的人体动作进行仿真人体建模,判断在状态空间内人体动作是否受环境信息的影响,并计算人体动作的更新度;
S3:若在状态空间内人体动作不受环境信息的影响,为正常行为,若在状态空间内人体动作受环境信息的影响,为异常行为,且更新度大于预设值时,应发出语音告警。
4.根据权利要求3所述的基于视频AI行为分析的语音告警方法,其特征在于:所述雅克比矩阵可以表示人体动作速度和关节速度之间的数学关系,雅克比矩阵J,表示为关节速度向人体动作速度的映射:
V=Jθ;
θ是关节速度,V是的人体动作速度矢量,为矢量,包括了人体动作速度的线速度矢量v和角速度矢量ω;
5.根据权利要求3所述的基于视频AI行为分析的语音告警方法,其特征在于:在强化学习算法内,{S,A,P,R},S表示环境信息,A表示人体动作,P表示状态转移函数,R表示执行该状态转移函数得到的更新度,
假设t时刻人体动作为At,在环境信息S下进入下一个人体动作At+1,状态转移函数表示:PS(A,A')=(At+1=A'丨At=A,St=S);A'是环境S下变化的人体动作,St是在t时刻的环境信息;
所述更新度R表示为:
R=RS(A,A')。
6.根据权利要求5所述的基于视频AI行为分析的语音告警方法,其特征在于:所述环境信息和人体动作是相互影响的关系,根据监控规则的不同,强化学习算法计算的目标不同;
假设t时刻环境信息为St,执行a动作后进入下一个环境信息St+1,状态转移函数表示为:
Pa(S,S')=(St+1=S'丨St=S,at=a);
S'是动作a下变化最大的环境信息,at是在t时刻实现的动作;
所述更新度R表示为:
R=Ra(S,S')。
7.根据权利要求6所述的基于视频AI行为分析的语音告警方法,其特征在于:根据更新度可以判断所述人体动作对环境信息的影响和/或所述环境信息对人体动作的影响,预设有更新度预设值,与计算的更新度R对比,若大于更新度预设值,判断是异常行为且触发语音告警。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求3-7任一项所述的基于视频AI行为分析的语音告警方法的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求3-7任一项所述的基于视频AI行为分析的语音告警方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311354444.0A CN117409517B (zh) | 2023-10-19 | 2023-10-19 | 基于视频ai行为分析的语音告警系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311354444.0A CN117409517B (zh) | 2023-10-19 | 2023-10-19 | 基于视频ai行为分析的语音告警系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409517A CN117409517A (zh) | 2024-01-16 |
CN117409517B true CN117409517B (zh) | 2024-05-07 |
Family
ID=89495653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311354444.0A Active CN117409517B (zh) | 2023-10-19 | 2023-10-19 | 基于视频ai行为分析的语音告警系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409517B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110497405A (zh) * | 2019-08-14 | 2019-11-26 | 深圳市烨嘉为技术有限公司 | 用于驱控一体化控制系统的力反馈人机协作防碰撞检测方法及模块 |
CN110705482A (zh) * | 2019-10-08 | 2020-01-17 | 中兴飞流信息科技有限公司 | 一种基于视频ai智能分析的人员行为告警提示系统 |
CN111552301A (zh) * | 2020-06-21 | 2020-08-18 | 南开大学 | 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法 |
CN112052804A (zh) * | 2020-09-10 | 2020-12-08 | 公安部第三研究所 | 实现安全管理的视频智能分析及报警系统及其方法 |
CN112784805A (zh) * | 2021-02-02 | 2021-05-11 | 郑州地铁集团有限公司 | 一种基于图像识别的弓网视频分析系统及方法 |
CN112927475A (zh) * | 2021-01-27 | 2021-06-08 | 浙江理工大学 | 一种基于深度学习的跌倒检测系统 |
WO2022083029A1 (zh) * | 2020-10-19 | 2022-04-28 | 深圳大学 | 一种基于深度强化学习的决策方法 |
CN114694075A (zh) * | 2022-04-07 | 2022-07-01 | 合肥工业大学 | 一种基于深度强化学习的危险行为识别方法 |
CN116403377A (zh) * | 2023-04-06 | 2023-07-07 | 湘潭大学 | 一种公共场所异常行为与隐患检测装置 |
CN116627041A (zh) * | 2023-07-19 | 2023-08-22 | 江西机电职业技术学院 | 一种基于深度学习的四足机器人运动的控制方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751800B (zh) * | 2019-10-08 | 2021-06-29 | 中兴飞流信息科技有限公司 | 一种基于视频ai智能分析的语音告警提示系统 |
CN112297005B (zh) * | 2020-10-10 | 2021-10-22 | 杭州电子科技大学 | 一种基于图神经网络强化学习的机器人自主控制方法 |
CN114815591A (zh) * | 2021-01-28 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 机器人运动控制方法、装置、机器人及存储介质 |
-
2023
- 2023-10-19 CN CN202311354444.0A patent/CN117409517B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110497405A (zh) * | 2019-08-14 | 2019-11-26 | 深圳市烨嘉为技术有限公司 | 用于驱控一体化控制系统的力反馈人机协作防碰撞检测方法及模块 |
CN110705482A (zh) * | 2019-10-08 | 2020-01-17 | 中兴飞流信息科技有限公司 | 一种基于视频ai智能分析的人员行为告警提示系统 |
CN111552301A (zh) * | 2020-06-21 | 2020-08-18 | 南开大学 | 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法 |
CN112052804A (zh) * | 2020-09-10 | 2020-12-08 | 公安部第三研究所 | 实现安全管理的视频智能分析及报警系统及其方法 |
WO2022083029A1 (zh) * | 2020-10-19 | 2022-04-28 | 深圳大学 | 一种基于深度强化学习的决策方法 |
CN112927475A (zh) * | 2021-01-27 | 2021-06-08 | 浙江理工大学 | 一种基于深度学习的跌倒检测系统 |
CN112784805A (zh) * | 2021-02-02 | 2021-05-11 | 郑州地铁集团有限公司 | 一种基于图像识别的弓网视频分析系统及方法 |
CN114694075A (zh) * | 2022-04-07 | 2022-07-01 | 合肥工业大学 | 一种基于深度强化学习的危险行为识别方法 |
CN116403377A (zh) * | 2023-04-06 | 2023-07-07 | 湘潭大学 | 一种公共场所异常行为与隐患检测装置 |
CN116627041A (zh) * | 2023-07-19 | 2023-08-22 | 江西机电职业技术学院 | 一种基于深度学习的四足机器人运动的控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117409517A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | A deep hybrid learning model to detect unsafe behavior: Integrating convolution neural networks and long short-term memory | |
CN109684916B (zh) | 基于路径轨迹数据异常检测方法、系统、设备及存储介质 | |
Dee et al. | How close are we to solving the problem of automated visual surveillance? A review of real-world surveillance, scientific progress and evaluative mechanisms | |
US20180124423A1 (en) | Dynamic scene prediction with multiple interacting agents | |
Lim et al. | iSurveillance: Intelligent framework for multiple events detection in surveillance videos | |
Ferryman et al. | Robust abandoned object detection integrating wide area visual surveillance and social context | |
US20200125923A1 (en) | System and Method for Detecting Anomalies in Video using a Similarity Function Trained by Machine Learning | |
Rezaee et al. | Deep-Transfer-learning-based abnormal behavior recognition using internet of drones for crowded scenes | |
Van Rest et al. | Requirements for multimedia metadata schemes in surveillance applications for security | |
CN117409517B (zh) | 基于视频ai行为分析的语音告警系统及方法 | |
Brax et al. | Finding behavioural anomalies in public areas using video surveillance data | |
Pramanik et al. | Video surveillance-based fall detection system using object-level feature thresholding and Z− numbers | |
Girhepunje et al. | Proposed Crowd Counting system and Social Distance Analyzer for Pandemic Situation | |
CN113592902A (zh) | 目标跟踪方法、装置、计算机设备和存储介质 | |
Dee et al. | On the feasibility of using a cognitive model to filter surveillance data | |
Karpagam et al. | Leveraging CNN Deep Learning Model for Smart Parking | |
Schuster et al. | Multi-cue learning and visualization of unusual events | |
Lefter et al. | Automated safety control by video cameras | |
Halboob et al. | Crowd Management Intelligence Framework: Umrah Use Case | |
Mishra et al. | Use of Hierarchical Temporal Memory to Assess Reactive and Proactive Dissonance for Anomaly Signal Management | |
Nazari et al. | The Contribution of Deep Learning for Future Smart Cities | |
US20230360402A1 (en) | Video-based public safety incident prediction system and method therefor | |
CN116935074B (zh) | 基于深度亲和网络自适应关联的多目标跟踪方法及装置 | |
Abdel-Samee | Abnormal behavior forecasting in smart homes using hierarchical hidden markov models | |
Agarwal et al. | Solving the Jigsaw Puzzle: An Analytics Framework for |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |