CN111898452A - 一种视频监控联网系统 - Google Patents
一种视频监控联网系统 Download PDFInfo
- Publication number
- CN111898452A CN111898452A CN202010621977.0A CN202010621977A CN111898452A CN 111898452 A CN111898452 A CN 111898452A CN 202010621977 A CN202010621977 A CN 202010621977A CN 111898452 A CN111898452 A CN 111898452A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- pedestrian
- gradient
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 18
- 230000006855 networking Effects 0.000 title claims abstract description 17
- 238000001514 detection method Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011161 development Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种视频监控联网系统,包括:采集系统,用于对语音和图像进行采集,获取语音频数据集及图像数据集;语音识别系统,用于将语音频数据集转成文字,实现对话技巧的辅助提升;图像识别系统,用于将学习图像数据集中图像的特征,便于对待识别的图像进行识别,通过本发明的技术方案,实现了对人员的有效识别。
Description
技术领域
本发明涉及视频监控领域,具体为一种视频监控联网系统。
背景技术
视频监控是安全防范系统的重要组成部分,传统的监控系统包括前端摄像机、传输线缆、视频监控平台。摄像机可分为网络数字摄像机和模拟摄像机,可作为前端视频图像信号的采集,它是一种防范能力较强的综合系统。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来,随着计算机、网络以及图像处理、传输技术的飞速发展,视频监控技术也有了长足的发展。
发明内容
本发明旨在提供一种能够对人员进行快速、有效识别的视频监控联网系统。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明提出了一种视频监控联网系统,其特征在于,包括:
采集系统,用于对语音和图像进行采集,获取语音频数据集及图像数据集;
语音识别系统,用于将语音频数据集转成文字,实现对话技巧的辅助提升;
图像识别系统,用于将学习图像数据集中图像的特征,便于对待识别的图像进行识别。
优选的,所述语音识别系统包括:
输入模块,用于接收来自一个传声器的输入信号;
第一缓存模块,用于存储所述输入信号;
降噪模块,用于接收所述输入信号并且生成降噪输入信号;
语音识别引擎,用于接收从所述第一缓存模块输出的输入信号或来自所述降噪模块输入信号,进行语音识别。
优选的,所述图像识别系统包括:
预处理模块,用于确定图像中的行人位置,获取包含人员的矩形区域;
特征提取模块,用于在包含人员的矩形区域中进行外观特征提取;
训练模块,用于训练YOLO检测模型,所述YOLO检测模型中包含俩个bounding box,用于将所述检测的图像与数据库中的图像进行对比并完成相似度计算,获取训练后的YOLO检测模型;
再识别模块,通过训练好的YOLO检测模型进行识别所述待识别图像数据集中的图像;
评价模块,用于衡量所述YOLO检测模型的性能优异度;
部署模块,用于将YOLO检测模型部署至开发板上,移植到终端设备中。
优选的,所述预处理模块进行图像预处理包括图像增强,图像数据归一化,提高图像的对比度及曝光度一类或多类。
优选的,所述特征提取模块具体步骤如下:
步骤A1,利用多尺度滑窗的方式分割图像区域,滑窗在整个图像区域内等距离滑动采样;
步骤A2,对于给定窗口,计算水平和垂直方向的梯度,梯度方向角度取值0~360°;
步骤A3,对梯度方向进行方向量化,统计所有梯度点得到梯度方向直方图;
步骤A4,对图像梯度方向直方图进行特征编码得到二进制串,统计个梯度方向空间分布特征;
步骤A5,综合梯度方向直方图和梯度方向空间分布特征,得到每个窗口特征块的空间位置信息和方向信息。
优选的,所述步骤A2的计算方法为[Gh,Gv]=gradient(F),采用方向模板[-1,0,1],计算当前像素点的水平梯度Gh和垂直梯度Gv,方向角度θ=arctan(Gv/Gh):
Gh(x,y)=f(x+1,y)-f(x-1,y)
Gv(x,y)=f(x,y+1)-f(x,y-1)
其中,Gh(x,y),Gv(x,y)分别代表水平方向的梯度,垂直方向的梯度,x,y分别代表图像横坐标和纵坐标,f(x,y)代表在像素点(x,y)横坐标为x纵坐标为y点上的像素值。
优选的,所述YOLO检测模型中包括了24个卷积层和2个全连接层,所述训练模块的具体步骤如下:
步骤A1,YOLO检测模型中包括了24个卷积层和2个全连接层,根据以下公式计算模型的损失值:
其中,s2代表每张图像被分成s*s个网格;B表示每个网格预测的可能包含行人的矩形框个数,B=2;表示第i个网格中第j个矩形框是否负责本网格中的行人;表示行人是否存在于第i个网格中;λcoord代表矩形框中的w,h,x,y四个参数的损失权重;λnoobj代表不负责的矩形框所预测行人信息损失权重;xi,yi,分别代表数据库中行人矩形框和模型预测的矩形框的左上角对应第i个网格中心在两个方向上的偏移量;wi,hi,分别代表第i个网格中数据库中行人矩形框和模型预测的矩形框的宽与高,ci,分别代表第i个网格中数据库中行人信息和模型预测行人信息;pi(c),分别代表第i个网格中数据库中行人信息和模型预测的行人信息为c的概率,J代表求出的模型的损失值;
步骤A2,通过不断的训练迭代YOLO检测模型,直到损失值J<0.01后,停止训练,获取训练好的YOLO检测模型。
优选的,所述再识别模块的具体步骤如下:
步骤A1,将待识别的图像数据集中的图像统一为标准尺寸448*448的标准图像;
步骤A2,将标准图像输入已经训练好的YOLO检测模型,识别所述图像信息及图像中行人位置;
步骤A3,根据以下公式更精确的找出行人位置:
其中,a代表数据库中行人位置矩形框,bk代表模型预测的行人位置第k个矩形框,k=1,2,3,...,98,q为预设阈值,L代表通过筛选后得到的待识别图像精确的行人位置;
步骤A4,根据以下公式计算步骤A3中的预设阈值:
其中,m(f,g)代表邻域内每一张图像像素值的均值,z(f,g)代表每一张图像像素值的标准方差,R是代表每一张图像像素值标准方差的动态范围,t代表定义的一个修正参数,t的取值为0<t<1,(f,g)是其对应的坐标点,Q代表预设阈值;
步骤A5,回到步骤A2,重复执行步骤A2到步骤A4,对,每一张待识别的图像进行识别,直到识别结束。
优选的,所述评估模块通过mAP评估指标进行评估,mAP值代表召回率和精确率的比值。
优选的,所述终端设备包括智能手机、平板电脑或笔记本电脑。
本发明提出了一种视频监控联网系统,包括:采集系统,用于对语音和图像进行采集,获取语音频数据集及图像数据集;语音识别系统,用于将语音频数据集转成文字,实现对话技巧的辅助提升;图像识别系统,用于将学习图像数据集中图像的特征,便于对待识别的图像进行识别,通过本发明的技术方案,实现了对人员的有效识别。
附图说明
图1为本发明所述系统的模块结构图;
图2为本发明所述系统的模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出一种视频监控联网系统,如图1所示,所述系统包括:
采集系统S1,用于对语音和图像进行采集,获取语音频数据集及图像数据集;
语音识别系统S2,用于将语音频数据集转成文字,实现对话技巧的辅助提升;
图像识别系统S3,用于将学习图像数据集中图像的特征,便于对待识别的图像进行识别。
上述技术方案的工作原理为:本实施例中,视频监控联网系统包括采集系统,用于对语音和图像进行采集,获取语音频数据集及图像数据集;语音识别系统,用于将语音频数据集转成文字,实现对话技巧的辅助提升,将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列;图像识别系统,用于将学习图像数据集中图像的特征,便于对待识别的图像进行识别。
上述技术方案的效果为:所述系统为视频监控联网系统,将其分成3个子系统进行协作工作,采集系统负责进行图像和语音频采集,获取高画质的图像及音频,语音识别系统负责进行语音识别,使人机用户界面更加自然和容易使用,图像识别系统负责进行图像识别,通过特征提取,训练模型优化模型,调整精度,使准确率能够大幅度提升,从而更精准的识别。
在本实施例中,如图2所示,所述语音识别系统S2包括:
输入模块S201,第一缓存模块S202,降噪模块S203,语音识别引擎S204,其中:
输入模块S201,用于接收来自一个传声器的输入信号;
第一缓存模块S202,用于存储所述输入信号;
降噪模块S203,用于接收所述输入信号并且生成降噪输入信号;
语音识别引擎S204,用于接收从所述第一缓存模块输出的输入信号或来自所述降噪模块输入信号,进行语音识别。
上述技术方案的工作原理为:在本实施例中,所述通过传声器将语音频转换成信号传输到输入模块,输入模块用于接收来自一个传声器的输入信号,第一缓存模块将其输入信号进行存储,降噪模块将输入信号进行降噪处理,其中降噪处理的方法有高通滤波去噪法,中值滤波去噪法及连通域降噪法,最后通过语音识别引擎用于用于接收从所述第一缓存模块输出的输入信号或来自所述降噪模块输入信号,进行语音识别。
上述技术方案的效果为:语音频通过语音识别系统的4个模块,输入模块将其获取所述语音频转换成的信号,可以将语音转换成信号处理模式,可以更简单更快速的解决,通过第一缓存模块对输入的信号进行存储,然后通过降噪模块进行降噪处理,噪声越少,说明信号的质量越好;相反,信噪比越低,信号中的噪声越多,说明信号质量越差,通过降噪处理提高信号的质量,最终导入到语音识别引擎,进行语音识别,做到更精确更有效更快速的识别。
在本实施例中,如图2所示,所述图像识别系统S3包括:
预处理模块S301,特征提取模块S302,训练模块S303,再识别模块S304,评价模块S305,部署模块S306,其中:
预处理模块S301,用于确定图像中的行人位置,获取包含人员的矩形区域;
特征提取模块S302,用于在包含人员的矩形区域中进行外观特征提取;
训练模块S303,用于训练YOLO检测模型,所述YOLO检测模型中包含俩个boundingbox,用于将所述检测的图像与数据库中的图像进行对比并完成相似度计算,获取训练后的YOLO检测模型;
再识别模块S304,通过训练好的YOLO检测模型进行识别所述待识别图像数据集中的图像;
评价模块S305,用于衡量所述YOLO检测模型的性能优异度;
部署模块S306,用于将YOLO检测模型部署至开发板上,移植到终端设备中。
上述技术方案的工作原理为:本系统中的图像识别系统分为6个模块,预处理模块,特征提取模块,训练模块,再识别模块,评价模块,部署模块,通过采集系统收集的图像,通过预处理模块进行图像预处理,所述图像预处理包括图像增强,图像数据归一化,提高图像的对比度及曝光度一类或多类,获取预处理后的图像进行其特征提取,利用多尺度滑窗的方式分割图像区域,滑窗在整个图像区域内等距离滑动采样;对于给定窗口,计算水平和垂直方向的梯度,梯度方向角度取值0~360°;所述计算水平和垂直方向的梯度的计算方法为[Gh(x,y),Gv(x,y)]=gradient(F),采用方向模板[-1,0,1],计算当前像素点的水平梯度Gh和垂直梯度Gv,方向角度θ=arctan(Gv/Gh),对梯度方向进行方向量化,统计所有梯度点得到梯度方向直方图;对图像梯度方向直方图进行特征编码得到二进制串,统计个梯度方向空间分布特征;综合梯度方向直方图和梯度方向空间分布特征,得到每个窗口特征块的空间位置信息和方向信息,将每个窗口特征块的空间位置信息和方向信息输入YOLO模型进行训练,当模型训练好之后,进行再识别模块,对其待识别的图像进行识别,通过mAP值来评价所述模型识别的准确率,mAP值代表召回率和精确率的比值,最后将模型部署到开发板上,移植终端设备上进行图像识别,所述终端设备包括智能手机、平板电脑或笔记本电脑。
上述技术方案的效果为:通过上述技术,图像识别技术作为辅助工具存在,为人类视觉提供了强有力的辅助和增强,带给了一种全新的与外部世界进行交互的方式,可以通过搜索找到图片中的关键信息;可以随手拍下一件陌生物体而迅速找到与之相关的各类信息;也可以将人脸识别作为主要的身份认证方式,这些应用虽然看起来很普通,但当图像识别技术渗透到人类行为习惯的方方面面时,就相当于把一部分视力外包给了机器,就像已经把部分记忆外包给了搜索引擎一样,达到实时高效的识别。
在本实施例中,所述YOLO检测模型中包括了24个卷积层和2个全连接层,所述训练模块的具体步骤如下:
步骤A1,YOLO检测模型中包括了24个卷积层和2个全连接层,根据以下公式计算模型的损失值:
其中,s2代表每张图像被分成s*s个网格;B表示每个网格预测的可能包含行人的矩形框个数,B=2;表示第i个网格中第j个矩形框是否负责本网格中的行人;表示行人是否存在于第i个网格中;λcoord代表矩形框中的w,h,x,y四个参数的损失权重;λnoobj代表不负责的矩形框所预测行人信息损失权重;xi,yi,分别代表数据库中行人矩形框和模型预测的矩形框的左上角对应第i个网格中心在两个方向上的偏移量;wi,hi,分别代表第i个网格中数据库中行人矩形框和模型预测的矩形框的宽与高,ci,分别代表第i个网格中数据库中行人信息和模型预测行人信息;pi(c),分别代表第i个网格中数据库中行人信息和模型预测的行人信息为c的概率,J代表求出的模型的损失值;
步骤A2,通过不断的训练迭代YOLO检测模型,直到损失值J<0.01后,停止训练,获取训练好的YOLO检测模型。
上述技术方案的工作原理为:在本实施例中模型训练采用的YOLO检测模型,所述YOLO检测模型中包括了24个卷积层和2个全连接层,所述卷积层用于提取特征,进行多层卷积,所述全连接层用于分类,划分人物信息,通过构建损失函数,根据损失函数来决定是否继续训练,损失函数是根据数据库中真实的标准矩形框位置和图像信息与模型预测的进行差距的减小,直至当差距训练到小于0.01后可以停止训练,进行模型的评估。
上述技术方案的效果为:所述损失函数是为了衡量模型是否训练好,当J<0.01模型可以停止训练,进行模型评估,通过模型训练将其损失值打印出来,起到可视化的效果,可以直观的观察模型的训练过程及观察数据。
本实施例中,所述再识别模块的具体步骤如下:
步骤A1,将待识别的图像数据集中的图像统一为标准尺寸448*448的标准图像;
步骤A2,将标准图像输入已经训练好的YOLO检测模型,识别所述图像信息及图像中行人位置;
步骤A3,根据以下公式更精确的找出行人位置:
其中,a代表数据库中行人位置矩形框,bk代表模型预测的行人位置第k个矩形框,k=1,2,3,...,98,q为预设阈值,L代表通过筛选后得到的待识别图像精确的行人位置;
步骤A4,根据以下公式计算步骤A3中的预设阈值:
其中,m(f,g)代表邻域内每一张图像像素值的均值,z(f,g)代表每一张图像像素值的标准方差,R是代表每一张图像像素值标准方差的动态范围,t代表定义的一个修正参数,t的取值为0<t<1,(f,g)是其对应的坐标点,Q代表预设阈值;
步骤A5,回到步骤A2,重复执行步骤A2到步骤A4,对,每一张待识别的图像进行识别,直到识别结束。
有益效果:以上算法采用深度学习技术,通过对预测的矩形框与真实的矩形框的精准校对,使预测的矩形框逼近与真实的矩形框,大大提升了检测效果的精确度,通过对其阈值的确定,将预测的多个矩形框中小于阈值的直接不考虑计算,提高了检测的速度,达到了对人物的定位,为后期深度学习项目打下了基础。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种视频监控联网系统,其特征在于,包括:
采集系统,用于对语音和图像进行采集,获取语音频数据集及图像数据集,将语音频数据集分别分成语音频训练集及语音频待识别数据集,将图像数据集分别分成图像训练集及待识别图像数据集;
语音识别系统,用于将语音频数据集转成文字,实现对话技巧的辅助提升;
图像识别系统,用于将学习图像训练集中图像的特征,便于对待识别图像数据集进行识别。
2.根据权利要求1所述的一种视频监控联网系统,其特征在于,所述语音识别系统包括:
输入模块,用于接收来自一个传声器的输入信号;
第一缓存模块,用于存储所述输入信号;
降噪模块,用于接收所述输入信号并且生成降噪输入信号;
语音识别引擎,用于接收从所述第一缓存模块输出的输入信号或来自所述降噪模块输入信号,进行语音识别。
3.根据权利要求1所述的一种视频监控联网系统,其特征在于,所述图像识别系统包括:
预处理模块,用于确定图像中的行人位置,获取包含人员的矩形区域;
特征提取模块,用于在包含人员的矩形区域中进行外观特征提取;
训练模块,用于训练YOLO检测模型,所述YOLO检测模型中包含俩个bounding box,用于将所述检测的图像与数据库中的图像进行对比并完成相似度计算,获取训练后的YOLO检测模型;
再识别模块,通过训练好的YOLO检测模型进行识别所述待识别图像数据集中的图像;
评价模块,用于衡量所述YOLO检测模型的性能优异度;
部署模块,用于将YOLO检测模型部署至开发板上,移植到终端设备中。
4.根据权利要求3所述的一种视频监控联网系统,其特征在于,所述预处理模块进行图像预处理包括图像增强,图像数据归一化,提高图像的对比度及曝光度一类或多类。
5.根据权利要求3所述的一种视频监控联网系统,其特征在于,所述特征提取模块进行特征提取的具体步骤如下:
步骤A1,利用多尺度滑窗的方式分割图像区域,滑窗在整个图像区域内等距离滑动采样;
步骤A2,对于给定窗口,计算水平和垂直方向的梯度,梯度方向角度取值0~360°;
步骤A3,对梯度方向进行方向量化,统计所有梯度点得到梯度方向直方图;
步骤A4,对图像梯度方向直方图进行特征编码得到二进制串,统计个梯度方向空间分布特征;
步骤A5,综合梯度方向直方图和梯度方向空间分布特征,得到每个窗口特征块的空间位置信息和方向信息。
6.根据权利要求5所述的一种视频监控联网系统,其特征在于,所述步骤A2的计算方法为[Gh(x,y),Gv(x,y)]=gradient(F),采用方向模板[-1,0,1],计算当前像素点的水平梯度Gh和垂直梯度Gv,方向角度θ=arctan(Gv/Gh):
Gh(x,y)=f(x+1,y)-f(x-1,y)
Gv(x,y)=f(x,y+1)-f(x,y-1)
其中,Gh(x,y),Gv(x,y)分别代表水平方向的梯度,垂直方向的梯度,x,y分别代表图像的横坐标和纵坐标,f(x,y)代表在像素点(x,y)横坐标为x纵坐标为y点上的像素值。
7.根据权利要求3所述的一种视频监控联网系统,其特征在于,所述YOLO检测模型中包括了24个卷积层和2个全连接层,所述训练模块进行模型训练的具体步骤如下:
步骤A1,YOLO检测模型中包括了24个卷积层和2个全连接层,根据以下公式计算模型的损失值:
其中,s2代表每张图像被分成s*s个网格;B表示每个网格预测的可能包含行人的矩形框个数,B=2;表示第i个网格中第j个矩形框是否负责本网格中的行人;表示行人是否存在于第i个网格中;λcoord代表矩形框中的w,h,x,y四个参数的损失权重;λnoobj代表不负责的矩形框所预测行人信息损失权重;xi,yi,分别代表数据库中行人矩形框和模型预测的矩形框的左上角对应第i个网格中心在两个方向上的偏移量;wi,hi,分别代表第i个网格中数据库中行人矩形框和模型预测的矩形框的宽与高,ci,分别代表第i个网格中数据库中行人信息和模型预测行人信息;pi(c),分别代表第i个网格中数据库中行人信息和模型预测的行人信息为c的概率,J代表求出的模型的损失值;
步骤A2,通过不断的训练迭代YOLO检测模型,直到损失值J<0.01后,停止训练,获取训练好的YOLO检测模型。
8.根据权利要求3所述的一种视频监控联网系统,其特征在于,所述再识别模块进行图像识别的具体步骤如下:
步骤A1,将待识别的图像数据集中的图像统一为标准尺寸448*448的标准图像;
步骤A2,将标准图像输入已经训练好的YOLO检测模型,识别所述图像信息及图像中行人位置;
步骤A3,根据以下公式更精确的找出行人位置:
其中,a代表数据库中行人位置矩形框,bk代表模型预测的行人位置第k个矩形框,k=1,2,3,...,98,q为预设阈值,L代表通过筛选后得到的待识别图像精确的行人位置;
步骤A4,根据以下公式计算步骤A3中的预设阈值:
其中,m(f,g)代表邻域内每一张图像像素值的均值,z(f,g)代表每一张图像像素值的标准方差,R是代表每一张图像像素值标准方差的动态范围,t代表定义的一个修正参数,t的取值为0<t<1,(f,g)是其对应的坐标点,Q代表预设阈值;
步骤A5,回到步骤A2,重复执行步骤A2到步骤A4,对,每一张待识别的图像进行识别,直到识别结束。
9.根据权利要求3所述的一种视频监控联网系统,其特征在于,所述评估模块通过mAP评估指标进行评估,mAP值代表召回率和精确率的比值。
10.根据权利要求1所述的视频监控系统,其特征在于,所述终端设备包括智能手机、平板电脑或笔记本电脑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010621977.0A CN111898452A (zh) | 2020-06-30 | 2020-06-30 | 一种视频监控联网系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010621977.0A CN111898452A (zh) | 2020-06-30 | 2020-06-30 | 一种视频监控联网系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898452A true CN111898452A (zh) | 2020-11-06 |
Family
ID=73191959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010621977.0A Pending CN111898452A (zh) | 2020-06-30 | 2020-06-30 | 一种视频监控联网系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898452A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558035A (zh) * | 2024-01-11 | 2024-02-13 | 中国刑事警察学院 | 一种基于图像技术的人物身份识别系统及方法 |
-
2020
- 2020-06-30 CN CN202010621977.0A patent/CN111898452A/zh active Pending
Non-Patent Citations (1)
Title |
---|
胡德文等: "《生物特征识别技术与方法》", 31 August 2013 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558035A (zh) * | 2024-01-11 | 2024-02-13 | 中国刑事警察学院 | 一种基于图像技术的人物身份识别系统及方法 |
CN117558035B (zh) * | 2024-01-11 | 2024-04-16 | 中国刑事警察学院 | 一种基于图像技术的人物身份识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
CN105022835B (zh) | 一种群智感知大数据公共安全识别方法及系统 | |
CN111353395B (zh) | 一种基于长短期记忆网络的换脸视频检测方法 | |
CN110659582A (zh) | 图像转换模型训练方法、异质人脸识别方法、装置及设备 | |
CN110890102A (zh) | 一种基于rnn声纹识别的发动机缺陷检测算法 | |
CN105678213B (zh) | 基于视频特征统计的双模式蒙面人事件自动检测方法 | |
CN110110580B (zh) | 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法 | |
CN110232564A (zh) | 一种基于多模态数据的交通事故法律自动决策方法 | |
CN115083394B (zh) | 一种融合时空属性的实时环境噪声识别方法、系统及设备 | |
CN111611849A (zh) | 一种用于门禁设备的人脸识别系统 | |
CN110738163A (zh) | 一种矿井人员违规动作识别系统 | |
CN112052730B (zh) | 一种3d动态人像识别监控设备及方法 | |
CN115132201A (zh) | 唇语识别方法、计算机设备及存储介质 | |
KR20080079798A (ko) | 얼굴 검출 및 인식을 위한 방법 | |
CN111898452A (zh) | 一种视频监控联网系统 | |
CN113707175A (zh) | 基于特征分解分类器与自适应后处理的声学事件检测系统 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN113486712A (zh) | 一种基于深度学习的多人脸识别方法、系统和介质 | |
CN113052234A (zh) | 一种基于图像特征和深度学习技术的玉石分类方法 | |
CN110555406B (zh) | 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法 | |
CN115797970B (zh) | 基于YOLOv5模型的密集行人目标检测方法及系统 | |
CN111582195A (zh) | 一种汉语唇语单音节识别分类器构建方法 | |
CN116704585A (zh) | 一种基于质量感知的人脸识别方法 | |
CN116612542A (zh) | 基于多模态生物特征一致性的音视频人物识别方法及系统 | |
CN111127355A (zh) | 一种对缺损光流图进行精细补全的方法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201106 |