CN106686377B - 一种基于深层神经网络的视频重点区域确定方法 - Google Patents

一种基于深层神经网络的视频重点区域确定方法 Download PDF

Info

Publication number
CN106686377B
CN106686377B CN201611251748.4A CN201611251748A CN106686377B CN 106686377 B CN106686377 B CN 106686377B CN 201611251748 A CN201611251748 A CN 201611251748A CN 106686377 B CN106686377 B CN 106686377B
Authority
CN
China
Prior art keywords
network
feature
video
layers
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611251748.4A
Other languages
English (en)
Other versions
CN106686377A (zh
Inventor
曾旺环
冯琰
冯琰一
徐天适
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PCI Technology Group Co Ltd
Original Assignee
PCI Suntek Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PCI Suntek Technology Co Ltd filed Critical PCI Suntek Technology Co Ltd
Priority to CN201611251748.4A priority Critical patent/CN106686377B/zh
Publication of CN106686377A publication Critical patent/CN106686377A/zh
Application granted granted Critical
Publication of CN106686377B publication Critical patent/CN106686377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/02Diagnosis, testing or measuring for television systems or their details for colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/002Diagnosis, testing or measuring for television systems or their details for television cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深层神经网络的视频重点区域确定方法,该基于深层神经网络的视频重点区域确定方法具体步骤如下:S1:使用一种端到端的网络模型,确定视频图像中的显著性区域,S2:利用深层神经网络提取的重点区域特征进行自适应特征提取,S3:利用基于多层金字塔的特征提取算法提取到的特征。本发明提供了一种基于深层神经网络的视频质量诊断算法及其在智能安防中的应用,该方法可以有效正确检测视频中重要的参考区域,对视频图像存在的问题进行分类,并能实现自动区分质量问题的严重程度,从而实现视频图像质量的分级告警。

Description

一种基于深层神经网络的视频重点区域确定方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种基于深层神经网络的视频重点区域确定方法。
背景技术
随着科学技术与信息化社会的发展,目前我国的视频监控应用行业非常普遍,除了交通、治安、金融、银行、军队和口岸等特殊领域外,社区、写字楼、酒店、公共场所、工厂和商场都已应用了或正在建设视频监控系统。同时网络化、智能化等新技术使得这些监控点不再是简单的单机监控,监控的时间周期也逐渐从每天8小时延长至24小时。2008年北京奥运会的举行、平安城市的建设、国内城市化的发展、快速的城市扩展、部分应用领域安全事故频发等因素,都促进视频监控领域在最近几年更加快速度发展。监控摄像机数量的不断增加,监控的时间不断延长,推动了平安城市,但也给系统维护工作带来了新的挑战,因此针对以上原因就衍生出关于视频诊断方面的产品。
视频诊断系统是一种智能化视频故障分析与预警系统。系统采用国际先进的计算机视觉算法,对视频图像出现的雪花、滚屏、模糊、偏色、画面冻结、增益失衡和云台失控等常见摄像头故障做出准确判断并发出报警信息。该系统还可以检测视频信号有无和前端云台摄像机的运行情况,有效预防因硬件导致的图像质量问题及所带来的不必要的损失,并及时检测破坏监控设备的不法行为。
发明内容
本发明的目的在于提供一种基于深层神经网络的视频重点区域确定方法,该基于深层神经网络的视频重点区域确定算法具体步骤如下:
S1:使用一种端到端的网络模型,确定视频图像中的显著性区域,
(1)区域提取的网络结构包括十二层:五个卷积层、两个池化层、两个dropout层与三个全连接层,输入图片的大小为任意大小,最后两个卷积层后面均分别包含一个池化层与一个dropout层,本网络包括四个输出神经元,分别代表左上角点的坐标与右下角点的坐标;训练样本表示为I={I1,12…,In},将有效的前景表示为Y={Y1,…,Yn},对于每一个Yi若为前景则表示为1,若为背景则表示为0,通过对样本的标记,将目标区域表示为L={L1,..,Ln},L是一个四维的向量用来表示区域的坐标{x1,y1,x2,y2},对于每一个样本,都有一个变量ΔL用来调整L的值,因此,区域定位问题转化为最大似然估计:对于定位网络,通过最优化输出与标定的欧氏距离来实现;将样本输入到显著性区域定位模块得到定位的区域与相应概率,若区域置信度大于0.8则选择显著性区域,反之则取全图;
(2)特征提取的网络利用步骤(1)中输出的坐标位置与最后一个卷积层的参数作为输入,利用感受野与特征值之间的对应关系,提取出重点区域的卷积层参数,得到特征图;
S2:利用深层神经网络提取的重点区域特征进行自适应特征提取,最终得到数据与特征长度均归一化的特征,对于步骤S1中得到的显著区域的特征图,利用三层金字塔的网格结构,由粗到细分别计算出16*256d、4*256d、1*256d的三层特征,将三层特征进行组合,使得任意尺度的特征图都得到归一化大小的特征,组合后的特征经过两个结构相同的全连接层与dropout层的组合,得到最终的特征;
S3:利用基于多层金字塔的特征提取算法提取到的特征,通过联合训练网络结构,最终的到质量评判的效果,视频质量评分网络单元包含三个结构相同的全连接层、池化层与dropout层的组合,最后连接一个softmax层输出范围在[0,1]之间的分数,视频质量问题分类网络单元包括两个结构相同的全连接层、池化层与dropout层的组合,最后连接一个softmax层输出视频质量问题所属类别的标签与概率。
与现有技术相比,本发明的有益效果是:本发明提供了一种基于深层神经网络的视频质量诊断算法及其在智能安防中的应用,该方法可以有效正确检测视频中重要的参考区域,对视频图像存在的问题进行分类,并能实现自动区分质量问题的严重程度,从而实现视频图像质量的分级告警。该方法通过深层神经网络对视频图像进行特征提取,进行重点区域确定,其次对重点区域的视频质量进行打分;最后对视频质量问题所属的类别进行分类,从而得到视频质量问题类别。
附图说明
图1为本发明视频图像质量诊断算法系统流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种基于深层神经网络的视频重点区域确定方法,该基于深层神经网络的视频重点区域确定算法具体步骤如下:
S1:使用一种端到端的网络模型,确定视频图像中的显著性区域,
(1)区域提取的网络结构包括十二层:五个卷积层、两个池化层、两个dropout层与三个全连接层,输入图片的大小为任意大小,最后两个卷积层后面均分别包含一个池化层与一个dropout层,本网络包括四个输出神经元,分别代表左上角点的坐标与右下角点的坐标;训练样本表示为I={I1,I2…,In},将有效的前景表示为Y={Y1,…,Yn},对于每一个Yi若为前景则表示为1,若为背景则表示为0,通过对样本的标记,将目标区域表示为L={L1,..,Ln},L是一个四维的向量用来表示区域的坐标{x1,y1,x2,y2},对于每一个样本,都有一个变量ΔL用来调整L的值,因此,区域定位问题转化为最大似然估计:对于定位网络,通过最优化输出与标定的欧氏距离来实现;
(2)特征提取的网络利用步骤(1)中输出的坐标位置与最后一个卷积层的参数作为输入,利用感受野与特征值之间的对应关系,提取出重点区域的卷积层参数,得到特征图;将样本输入到显著性区域定位模块得到定位的区域与相应概率,若区域置信度大于0.8则选择显著性区域,反之则取全图;
S2:利用深层神经网络提取的重点区域特征进行自适应特征提取,最终得到数据与特征长度均归一化的特征,对于步骤S1中得到的显著区域的特征图,利用三层金字塔的网格结构,由粗到细分别计算出16*256d、4*256d、1*256d的三层特征,将三层特征进行组合,使得任意尺度的特征图都得到归一化大小的特征,组合后的特征经过两个结构相同的全连接层与dropout层的组合,得到最终的特征;
S3:利用基于多层金字塔的特征提取算法提取到的特征,通过联合训练网络结构,最终的到质量评判的效果,视频质量评分网络单元包含三个结构相同的全连接层、池化层与dropout层的组合,最后连接一个softmax层输出范围在[0,1]之间的分数,视频质量问题分类网络单元包括两个结构相同的全连接层、池化层与dropout层的组合,最后连接一个softmax层输出视频质量问题所属类别的标签与概率。
视频图像质量诊断算法系统流程图如图1所示。该算法的实现主要分为三大模块,分别为:显著性区域定位模块、区域特征的提取与归一化模块、视频图片评分与质量问题分类模块。下面分别详细介绍。
1、显著性区域定位模块:
该模块主要用于选择合适的区域用来评价图像的质量。随着经济的发展,监控摄像头数目呈指数级别的增长。巨大的基数带来的多种多样的场景,传统的基于全图的质量评价算法只能用来评估整体的图片质量,例如偏亮,有很多现实场景是主要关注的区域亮度处于正常的水平,但周围无关紧要的区域可能处于过暗,或者有些摄像头为了保证重点关注区域正常曝光,导致其他区域产生过曝。对于用户来说这些场景都属于正常,但传统算法都难以区分。监控摄像头又属于可变可调整的设备,提前手动配置显得不可行而且工作量巨大,因此找到一种自动确定显著性区域的方法显得迫在眉睫。本发明提出了一种定位显著性区域的方法用以解决这个问题。
假设一系列训练样本表示为I={I1,I2…,In},将有效的前景表示为Y={Y1,…,Yn},对于每一个Yi若为前景则表示为1,若为背景则表示为0.通过对样本的标记,我们将目标区域表示为L={L1,..,Ln},L是一个四维的向量用来表示区域的坐标{x1,y1,x2,y2}。对于每一个样本,都有一个变量ΔL用来调整L的值。因此,区域定位问题可以转化为最大似然估计:
对于定位网络,我们通过最优化输出与标定的欧氏距离来实现。
2、区域特征的提取与归一化模块:
本发明中使用了显著性区域提取算法,提取的区域大小是不一致的。为了将不同大小的区域提取特征,并归一化到相同大小的特征向量,需要有一种特征提取与归一化模块。传统利用深度神经网络进行特征提取需要保证用于训练的样本尺寸一致,并且进行预测是输入样本尺寸也必须与训练样本一致。通常的算法中,进行不同的任务需要不同的特征,每个任务都必须有自己独立的网络层。由于卷积计算的计算量大,而且单独的网络往往带来参数的级数的提升,因此本发明提出了一种共享部分权重,并进行特征归一化的方法来解决以上存在的问题。
首先,通过第一步最后一个卷积层得到与样本尺寸相关个数的特征图,根据感受野的映射关系与上一步中得到的有效区域,得到有效区域的特征,而不需要进行新的卷积计算。
其次,构建三层金字塔,根据利用三个不同尺度并且自适应大小的网格进行提取三层特征,并进行组合,组合成为一个特征向量。这里的自适应大小的网格调整主要遵循以下原则,第一层网格得到16个特征,第二层得到4个特征,第三次得到1个特征,提取特征是对每个网格内的特征图使用Averagepooling运算。最终得到一个21*256维的特征向量。
最后,在训练时对样本使用多尺度策略进行输入,这样可以解决输入样本尺度多样化的问题。
3、视频图片评分与质量问题分类模块:
本发明的最终目的是为了减少场景的多样性与特殊场景对视频质量诊断结果的影响,并且通过图像质量评分机制来准确判断出视频质量问题的严重程度与种类,从而为用户提供处理的参考。本模块就是解决视频质量问题的严重程度判定与种类的。首先进行图像质量的打分,若得分小于0.5,则为正常的场景,若得分大于0.5小于0.8则为警告场景,若得分大于0.8则属于质量有严重问题。只要是大于0.5的场景经过视频质量种类的分类,最终得出不同的问题种类,雪花,条纹,偏暗,偏亮,偏色或者无视频信号。并按照得分的高低向用户进行推送。
本发明输入数据源:一路视频解码后的连续十帧BGR格式的图片。
输出的结果:此路视频状态与得分。
结束标志:无。
将输入样本的最短边归一化到大小为240像素。十二层:五个卷积层、两个池化层、两个dropout层与三个全连接层。
将样本输入到显著性区域定位模块得到定位的区域与相应概率,若概率小于0.6则取整幅图片。第一层:3x3卷积,stride=1,pad=1,滤波器个数128,激活函数RELU,接2x2的池化,stride=2,pad=0;第二层:3x3卷积,stride=1,pad=1,滤波器个数256,激活函数RELU;第三层:3x3卷积核,stride=1,pad=1,滤波器个数512,激活函数RELU;第四层:3x3卷积核,stride=1,pad=1,滤波器个数1024,激活函数RELU;第五层:1x1卷积核,stride=1,pad=1,滤波器个数1024,激活函数RELU接2x2的池化,stride=2,pad=0;最后通过全连接层,dropout层,全连接层,dropout层,全连接层的结构取得区域的坐标值。若区域置信度大于0.8则选择显著性区域,反之则取全图。
将显著性区域定位模块中的到的特征图与输入区域的大小,输入到区域特征的提取与归一化模块,得到归一化后的特征。利用上述步骤的5层卷积神经网络的到的特征与显著性区域的坐标值,得到显著性区域的特征值,利用三层金字塔,分别将特征区域,分为16个、4个、1个区域,并利用averagePooling的方式提取,21*256维的特征向量,作为区域特征。
将特征输入到视频图片评分与质量问题分类模块得到最终的打分与视频图片质量问题的种类。将上一步骤提取的特征输入多任务模块:两个输出为1*1024大小向量的fc层,分别连接两个不同的softmax,一个用于处理图像评分问题,一个用来处理质量问题种类分类问题。
网络输出的逻辑处理。图像评分分为5个等级,很好、好、一般、较差、很差。首先对输出的图像评分进行判断,根据用户设定的告警级别,进行告警判断。若用户设置的值为一般,则对一般、较差、很差类的样本进行问题种类判断。问题种类分为偏色、偏暗、偏亮、信号缺失、条纹噪声、雪花噪声。结果中会分别输出每类问题的概率。
按照问题样本每类问题的概率由大到小排序并推送给用户。
本发明提供了一种基于深层神经网络的视频质量诊断方法及其在智能安防中的应用,该方法可以有效正确检测视频中重要的参考区域,对视频图像存在的问题进行分类,并能实现自动区分质量问题的严重程度,从而实现视频图像质量的分级告警。该方法通过深层神经网络对视频图像进行特征提取,进行重点区域确定,其次对重点区域的视频质量进行打分;最后对视频质量问题所属的类别进行分类,从而得到视频质量问题类别。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种基于深层神经网络的视频重点区域确定方法,其特征在于:该基于深层神经网络的视频重点区域确定方法具体步骤如下:
S1:使用一种端到端的网络模型,确定视频图像中的显著性区域,
(1)区域提取的网络结构包括十二层:五个卷积层、两个池化层、两个dropout层与三个全连接层,输入图片的大小为任意大小,最后两个卷积层后面均分别包含一个池化层与一个dropout层,本网络包括四个输出神经元,分别代表左上角点的坐标与右下角点的坐标;训练样本表示为I={I1,I2…,In},将有效的前景表示为Y={Y1,…,Yn},对于每一个Yi若为前景则表示为1,若为背景则表示为0,通过对样本的标记,将目标区域表示为L={L1,..,Ln},L是一个四维的向量用来表示区域的坐标{x1,y1,x2,y2},对于每一个样本,都有一个变量ΔL用来调整L的值,因此,区域定位问题转化为最大似然估计:对于定位网络,通过最优化输出与标定的欧氏距离来实现;
(2)特征提取的网络利用步骤(1)中输出的坐标位置与最后一个卷积层的参数作为输入,利用感受野与特征值之间的对应关系,提取出重点区域的卷积层参数,得到特征图;将样本输入到显著性区域定位模块得到定位的区域与相应概率,若区域置信度大于0.8则选择显著性区域,反之则取全图;
S2:利用深层神经网络提取的重点区域特征进行自适应特征提取,最终得到数据与特征长度均归一化的特征,对于步骤S1中得到的显著区域的特征图,利用三层金字塔的网格结构,由粗到细分别计算出16*256d、4*256d、1*256d的三层特征,将三层特征进行组合,使得任意尺度的特征图都得到归一化大小的特征,组合后的特征经过两个结构相同的全连接层与dropout层的组合,得到最终的特征;
S3:利用基于多层金字塔的特征提取算法提取到的特征,通过联合训练网络结构,最终的到质量评判的效果,视频质量评分网络单元包含三个结构相同的全连接层、池化层与dropout层的组合,最后连接一个softmax层输出范围在[0,1]之间的分数,视频质量问题分类网络单元包括两个结构相同的全连接层、池化层与dropout层的组合,最后连接一个softmax层输出视频质量问题所属类别的标签与概率。
CN201611251748.4A 2016-12-30 2016-12-30 一种基于深层神经网络的视频重点区域确定方法 Active CN106686377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611251748.4A CN106686377B (zh) 2016-12-30 2016-12-30 一种基于深层神经网络的视频重点区域确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611251748.4A CN106686377B (zh) 2016-12-30 2016-12-30 一种基于深层神经网络的视频重点区域确定方法

Publications (2)

Publication Number Publication Date
CN106686377A CN106686377A (zh) 2017-05-17
CN106686377B true CN106686377B (zh) 2018-09-04

Family

ID=58872177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611251748.4A Active CN106686377B (zh) 2016-12-30 2016-12-30 一种基于深层神经网络的视频重点区域确定方法

Country Status (1)

Country Link
CN (1) CN106686377B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107396094B (zh) * 2017-08-17 2019-02-22 上海大学 面向多摄像头监控系统中单个摄像头损坏的自动检测方法
CN107481238A (zh) * 2017-09-20 2017-12-15 众安信息技术服务有限公司 图像质量评估方法及装置
CN107743225B (zh) * 2017-10-16 2019-08-06 杭州电子科技大学 一种利用多层深度表征进行无参考图像质量预测的方法
CN108665769B (zh) * 2018-05-11 2021-04-06 深圳市鹰硕技术有限公司 基于卷积神经网络的网络教学方法以及装置
CN109194446B (zh) * 2018-09-14 2020-05-12 北京邮电大学 基于神经网络的极化码盲检测方法和装置
CN110852295B (zh) * 2019-10-15 2023-08-25 深圳龙岗智能视听研究院 一种基于多任务监督学习的视频行为识别方法
CN113055666B (zh) * 2019-12-26 2022-08-09 武汉Tcl集团工业研究院有限公司 一种视频质量评估方法及装置
CN112669270A (zh) * 2020-12-21 2021-04-16 北京金山云网络技术有限公司 视频质量的预测方法、装置及服务器
KR20230035721A (ko) 2021-09-06 2023-03-14 한국전자통신연구원 임의 시점의 다중평면영상을 생성하는 전자 장치 및 그것의 동작 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140300758A1 (en) * 2013-04-04 2014-10-09 Bao Tran Video processing systems and methods
CN103347196B (zh) * 2013-06-27 2015-04-29 宁波大学 一种基于机器学习的立体图像视觉舒适度评价方法
CN105205504B (zh) * 2015-10-04 2018-09-18 北京航空航天大学 一种基于数据驱动的图像关注区域质量评价指标学习方法
CN105574885B (zh) * 2016-01-13 2017-03-08 福州大学 基于机器学习并融合视觉特征的全参考图像质量评估方法
CN105931255A (zh) * 2016-05-18 2016-09-07 天津工业大学 基于显著性和深度卷积神经网络的图像中目标定位方法

Also Published As

Publication number Publication date
CN106686377A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106686377B (zh) 一种基于深层神经网络的视频重点区域确定方法
CN110135269B (zh) 一种基于混合颜色模型与神经网络的火灾图像检测方法
Gong et al. A real-time fire detection method from video with multifeature fusion
CN105404847B (zh) 一种遗留物实时检测方法
CN108764085A (zh) 基于生成对抗网络的人群计数方法
CN107229548B (zh) 一种基于红外图像的服务器热故障监测及诊断方法
CN109377703A (zh) 一种基于机器视觉的森林防火预警系统及其方法
CN107145851A (zh) 建筑作业区危险源智能识别系统
Khalil et al. Fire detection using multi color space and background modeling
CN106897720A (zh) 一种基于视频分析的烟火检测方法及装置
CN107016357A (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN108537215A (zh) 一种基于图像目标检测的火焰检测方法
CN108764186A (zh) 基于旋转深度学习的人物遮挡轮廓检测方法
CN107833221A (zh) 一种基于多通道特征融合和机器学习的漏水监测方法
CN108416250A (zh) 人数统计方法及装置
CN108985169A (zh) 基于深度学习目标检测与动态背景建模的商店跨门经营检测方法
CN100565557C (zh) 基于粒子动态采样模型的红外人体目标跟踪系统
Wang et al. Investigation into recognition algorithm of helmet violation based on YOLOv5-CBAM-DCN
CN105208325B (zh) 基于图像定点抓拍及比对分析的国土资源监控预警方法
CN108229524A (zh) 一种基于遥感图像的烟囱和冷凝塔检测方法
JP7143174B2 (ja) 煙検出装置及び煙識別方法
CN108052865A (zh) 一种基于卷积神经网络和支持向量机的火焰检测方法
CN105469427B (zh) 一种用于视频中目标跟踪方法
CN112183472A (zh) 一种基于改进RetinaNet的试验现场人员是否穿着工作服检测方法
CN108038510A (zh) 一种基于疑似火焰区域特征的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 306, area 2, building 1, Fanshan Venture Center, Panyu energy saving science and Technology Park, 832 Yingbin Road, Donghuan street, Panyu District, Guangzhou, Guangdong 510000

Patentee after: Jiadu Technology Group Co.,Ltd.

Address before: Room 306, area 2, building 1, Fanshan Venture Center, Panyu energy saving science and Technology Park, 832 Yingbin Road, Donghuan street, Panyu District, Guangzhou, Guangdong 510000

Patentee before: PCI-SUNTEKTECH Co.,Ltd.

CP01 Change in the name or title of a patent holder