CN113989630A - 一种基于语义分析的镜头遮挡判别方法 - Google Patents

一种基于语义分析的镜头遮挡判别方法 Download PDF

Info

Publication number
CN113989630A
CN113989630A CN202111008629.7A CN202111008629A CN113989630A CN 113989630 A CN113989630 A CN 113989630A CN 202111008629 A CN202111008629 A CN 202111008629A CN 113989630 A CN113989630 A CN 113989630A
Authority
CN
China
Prior art keywords
relation
semantic
detection
monitoring area
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111008629.7A
Other languages
English (en)
Other versions
CN113989630B (zh
Inventor
蒋海军
马新成
张宝石
权秀琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinaccs Information Industry Co ltd
Original Assignee
Chinaccs Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinaccs Information Industry Co ltd filed Critical Chinaccs Information Industry Co ltd
Priority to CN202111008629.7A priority Critical patent/CN113989630B/zh
Publication of CN113989630A publication Critical patent/CN113989630A/zh
Application granted granted Critical
Publication of CN113989630B publication Critical patent/CN113989630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于语义分析的镜头遮挡判别方法,属于图像识别技术领域。其技术方案为:一种基于语义分析的镜头遮挡判别方法,训练一个深度卷积检测网络,实现对监控区和遮挡物的检测,将“监控区”和多个“遮挡物”一对多的配对成多个语义关系对,将主语和宾语组合成的“关系对”检测框的并为关系外接框,映射到骨干卷积神经网络的顶部特征图,采用ROIAlign算法扣取特征图并映射到固定尺寸,将其送入语义判别全连接层进行关系预测。最后,根据预测结果是否含有遮挡预测判定当前镜头是否遮挡。本发明的有益效果为:本发明用于将镜头遮挡这类分类问题分解为检测/关系预测问题,可解释性更强,能够准确的判断遮挡物与监控区的位置关系。

Description

一种基于语义分析的镜头遮挡判别方法
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于语义分析的镜头遮挡判别方法。
背景技术
目前,控摄像头是平安城市和平安社区建设过程中使用的核心器件,随着时间的流逝,早年安装摄像头的环境可能发生了很大的变化,有些甚至被(如茂密的树枝树叶)遮挡。成千上万的摄像头逐一人工巡查既费事费力又可能由于人员的疲劳而漏检。普通的分类或者检测算法,摄像头镜头遮挡检测相关算法非常少,说明让计算机判断这个问题不是件容易的事。目前只有少数的算法通过检测树叶的存在来判断镜头是否遮挡。这种方法有两方面局限:首先,镜头关注区域与是否有树叶没有必然的联系;再者,树叶是城市街道及其常见的,通过树叶的存在判断遮挡极大的限制了算法的适用场景。
以卷积神经网络为代表的机器视觉算法在图像模式识别领域如目标检测、图像分类等大放异彩,采用深度学习算法来解决视频镜头遮挡成为一个自然选项。但是单靠目标检测和图像分类还难以做到镜头遮挡判别。
发明内容
针对上述现有技术中的问题,本发明的目的在于提供一种基于语义分析的镜头遮挡判别方法,采用目标检测算法检测监控区及可能的遮挡物(如树枝、树叶、电线等),从目标检测网络中抽取特征图,融合语义信息,送入一个关系网络进行关系预测,最终根据概率最大的关系分类决定是否出现镜头遮挡。
三元组的语义关系中的主体、关系谓词和客体之间存在很强的统计关系,因此,为了准确的识别上述视觉关系,找出一种方案来揭示这些信息是很重要的,尤其是当某些视觉线索模棱两可的时候。
本发明是通过如下技术方案实现的:一种基于语义分析的镜头遮挡判别方法,包括如下步骤:
S1,搜集遮挡数据集,标注监控摄像头的监控区和遮挡物,根据所述遮挡数据集训练目标检测网络;
具体如下:首先标注一批监控场景图像数据集,标注摄像头的主监控区域,训练目标检测网络,使之能够鲁棒的检测住监控区;
在上述数据集中加入遮挡物标签,继续训练,使模型能够检测到遮挡物;
S2,利用训练好的所述目标检测网络对监控画面进行检测;采用目标检测算法Faster-RCNN检测出“监控区”和遮挡物的位置、尺寸和表观特征,并匹配到相应的检测框上,并生成检测框特征图,根据检测框特征图映射到固定尺寸获得相应的固定尺寸检测特征图;将所述固定尺寸检测特征图送入目标检测全连接层进行检测;
S3,以监控区为宾语构建一个(主语-关系谓词-宾语)的三元关系组列表,将所述监控区分别与相邻的各个所述遮挡物一一配对形成若干关系对;其中主语是与监控区相邻的遮挡物;关系谓词是描述主语与谓语之间关系的词,包括上临、下临、左邻、右临、覆盖;
S4、将所述语义关系对中主语和宾语所对应的检测框并为关系外接框;
S5、将所述语义关系外接框映射到所述目标监测网络中的骨干卷积神经网络中的顶部特征图,获得语义关系外接框特征图;
S6、提取语义关系外接框特征图并映射到固定尺寸获得固定尺寸语义特征图,将其送入语义判别全连接层进行关系预测;
S7、语义判别全连接层对所有输入的关系对进行分类,预测出关系谓词,最终根据关系谓词概率是否达到一定的值判别监控区与其相邻物体间的关系,进而判别是否有遮挡关系的存在。
进一步,所述S4具体为:S41、获取监控区的检测框box;
S42、选择监控区的检测框box之外的所有检测框
Figure BDA0003237997310000021
计算box与
Figure BDA0003237997310000022
的交并比IOU:
Figure BDA0003237997310000023
S43、对所有IOU>0的检测框求关系外接框:
监控区的检测框box:(xtopleft,ytopleft;xbottomright,ybottomright);
遮挡物的检测框
Figure BDA0003237997310000024
则相应的关系外接框Ubox
Figure BDA0003237997310000025
记Ubox
Figure BDA0003237997310000026
则有:
Figure BDA0003237997310000027
Figure BDA0003237997310000028
Figure BDA0003237997310000031
Figure BDA0003237997310000032
进一步,所有特征图均采用ROIAlign算法提取。
进一步,所述S7具体为语义判别全连接层进行关系谓词预测,并对所有语义关系的概率值进行排序,当遮挡关系的概率大于一定阈值,该场景就被判定为镜头遮挡。
本发明的有益效果为:本发明用于监控摄像头视线遮挡判别,能够准确的判断遮挡物与监控区的位置关系,将镜头遮挡这类分类问题分解为检测/关系预测问题,使得神经网络的可解释性更强,当出现收敛问题时可针对问题快速定位到发生问题的具体方位,易于进一步改进算法;本发明先训练镜头监控区,能够缩小神经网络的搜索空间,减少使模型对数据量的需求;通过骨干网络共享,减少计算资源的消耗,同时提高模型的推理速度;本发明采用多阶段分布训练方式,其意义在于使关系推理网络聚焦于关系主、客体之上,消除无意义特征干扰,使模型收敛速度更快、模型精度更高。
附图说明
图1为本发明的算法框架。
图2为三元组表示镜头遮挡示意图。
其中,附图标记为:1、骨干卷积神经网络;2、检测框特征图;3、固定尺寸检测特征图;4、目标检测全连接层;5、关系对匹配及选择;6、语义关系外接框特征图;7、固定尺寸语义特征图;8语义判别全连接层。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,对本方案进行阐述。
实施例一,参见图1-图2,本发明是通过如下技术方案实现的:一种基于语义分析的镜头遮挡判别方法,包括如下步骤:
S1,搜集遮挡数据集,标注监控摄像头的监控区和遮挡物,根据所述遮挡数据集训练目标检测网络;
具体如下:首先标注一批监控场景图像数据集,标注摄像头的主监控区域,训练目标检测网络,使之能够鲁棒的检测住监控区;
在上述数据集中加入遮挡物标签,继续训练,使模型能够检测到遮挡物;
S2,利用训练好的所述目标检测网络对监控画面进行检测;采用目标检测算法Faster-RCNN检测出“监控区”和遮挡物的位置、尺寸和表观特征,并匹配到相应的检测框上,并生成检测框特征图2,根据检测框特征图2映射到固定尺寸获得相应的固定尺寸检测特征图3;将所述固定尺寸检测特征图3送入目标检测全连接层4进行运算;
S3,以监控区为宾语构建一个(主语-关系谓词-宾语)的三元关系组列表,将所述监控区分别与相邻的各个所述遮挡物一一配对形成若干关系对;其中主语是与监控区相邻的遮挡物;关系谓词是描述主语与谓语之间关系的词,包括上临、下临、左邻、右临、覆盖;
S4、将所述语义关系对中主语和宾语所对应的检测框并为关系外接框;
S5、将所述语义关系外接框映射到所述目标监测网络中的骨干卷积神经网络1中的顶部特征图,获得语义关系外接框特征图6;
S6、提取所述语义关系外接框特征图6并映射到固定尺寸获得固定尺寸语义特征图7,将其送入语义判别全连接层8进行关系预测;采用ROIAlign算法提取特征图。采用ROIAlign的好处在于,一方面它可以使后续关系网络输入不受外接框尺寸的大小影响,另一方面它较ROI Pooling映射更加精确,从而更精确的剔除关系判别无关特征,提高神经网络的准确率。
S7、语义判别全连接层8对所有输入的关系对进行分类,预测出关系谓词,最终根据关系谓词概率是否达到一定的值判别监控区与其相邻物体间的关系,进而判别是否有遮挡关系的存在。
进一步,所述S4具体为:S41、获取监控区的检测框box;
S42、选择监控区的检测框box之外的所有检测框
Figure BDA0003237997310000041
计算box与
Figure BDA0003237997310000042
的交并比IOU:
Figure BDA0003237997310000043
S43、对所有IOU>0的检测框求关系外接框:
监控区的检测框box:(xtopleft,ytopleft;xbottomright,ybottomright);
遮挡物的检测框
Figure BDA0003237997310000044
则相应的关系外接框Ubox
Figure BDA0003237997310000045
记Ubox
Figure BDA0003237997310000046
则有:
Figure BDA0003237997310000051
Figure BDA0003237997310000052
Figure BDA0003237997310000053
Figure BDA0003237997310000054
如图1所示,将一幅图像送入检测网络,将分别经过目标监测和关系判别两个阶段,目标检测网络和关系判别网络共享同一组网络特征图,而不必单独训练额外的特征图,从而达到节省计算资源和计算时间的目的;
如图1中目标检测网络部分所示,检测网络首先扫描图像,检测出“监控区”和“遮挡物”,并生成检测框特征图2并映射生成固定尺寸检测特征图3,对监控区和遮挡物进行关系对匹配及选择5---即方法中的步骤S4-S5;
下一步如图1中关系判别网络所示,获取监控区和遮挡物的语义关系外接框特征图6,在骨干卷积神经网络的顶层扣取顶部特征图,通过ROIAlign运算,得到固定尺寸语义特征图7,将所述固定尺寸语义特征图7送入关系判别网络,经过语义全连接层进行关系预测,最后,语义判别全连接层8预测出语义关系谓词,可能的关系如图2所示。
在本发明创造的描述中,前面的详细描述已经通过使用框图、流程图和/或示例阐述了装置和/或过程的各种实施例。在这样的框图、流程图和/或示例包含一个或多个功能和/或操作的程度上,本领域技术人员将理解的是,这样的框图、流程图或示例内的每个功能和/或操作可通过许多各种不同的硬件、软件、固件或实际上它们的任何组合被单独地和/或集体地实现。
在系统的各方面的硬件和软件实施方式之间几乎没有差别;硬件或软件的使用通常是(但并不总是,因为在某些情景中在硬件和软件之间的选择可能变得重要)代表成本与效率折衷的设计选择。存在本文中所述的过程和/或系统和/或其它技术可借以被实现的各种手段(例如,硬件、软件和/或固件),并且优选的手段将随着其中过程和/或系统和/或其它技术被部署的情景的不同而改变。例如,如果实施者确定速度和准确性是极为重要的,那么实施者可选择主要为硬件和/或固件的手段;如果灵活性是极为重要的,那么实施者可选择主要为软件的实施方式;或者,但同样可替换地,实施者可选择硬件、软件和/或固件的某组合。
术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述,当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“设置”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。

Claims (4)

1.一种基于语义分析的镜头遮挡判别方法,其特征在于,包括如下步骤:
S1,搜集遮挡数据集,标注监控摄像头的监控区和遮挡物,根据所述遮挡数据集训练目标检测网络;
S2,利用所述目标检测网络对监控画面进行检测,检测出所述监控区和所述遮挡物以及相应的检测框;
S3,以监控区为宾语构建一个(主语-关系谓词-宾语)的三元关系组列表,将所述监控区分别与相邻的各个所述遮挡物一一配对形成若干语义关系对;其中主语是与监控区相邻的遮挡物;关系谓词是描述主语与谓语之间关系的词,包括上临、下临、左邻、右临、覆盖;
S4、将所述语义关系对中主语和宾语所对应的检测框并为语义关系外接框;
S5、将所述语义关系外接框映射到所述目标监测网络中的骨干卷积神经网络中的顶部特征图,获得语义关系外接框特征图;
S6、提取语义关系外接框特征图并映射到固定尺寸获得固定尺寸语义特征图,将其送入语义判别全连接层进行关系预测;
S7、语义判别全连接层对所有输入的语义关系对进行分类,预测出关系谓词,最终根据关系谓词概率是否达到一定的值判别监控区与其相邻物体间的关系,进而判别是否有遮挡关系的存在。
2.根据权利要求1所述的基于语义分析的镜头遮挡判别方法,其特征在于,所述S4具体为:S41、获取监控区的检测框box;
S42、选择监控区的检测框box之外的所有检测框
Figure FDA0003237997300000011
计算box与
Figure FDA0003237997300000012
的交并比IOU:
Figure FDA0003237997300000013
S43、对所有IOU>0的检测框求其并的外接框,
监控区的检测框box:(xtopleft,ytopleft;xbottomright,ybottomright);
遮挡物的检测框
Figure FDA0003237997300000014
则相应的关系外接框Ubox
Figure FDA0003237997300000015
记Ubox
Figure FDA0003237997300000016
则有:
Figure FDA0003237997300000017
Figure FDA0003237997300000018
Figure FDA0003237997300000021
Figure FDA0003237997300000022
3.根据权利要求1所述的基于语义分析的镜头遮挡判别方法,其特征在于,所有特征图均采用ROIAlign算法提取。
4.根据权利要求1所述的基于语义分析的镜头遮挡判别方法,其特征在于,所述目标监测网络采用目标检测算法为Faster-RCNN。
CN202111008629.7A 2021-08-31 2021-08-31 一种基于语义分析的镜头遮挡判别方法 Active CN113989630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111008629.7A CN113989630B (zh) 2021-08-31 2021-08-31 一种基于语义分析的镜头遮挡判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111008629.7A CN113989630B (zh) 2021-08-31 2021-08-31 一种基于语义分析的镜头遮挡判别方法

Publications (2)

Publication Number Publication Date
CN113989630A true CN113989630A (zh) 2022-01-28
CN113989630B CN113989630B (zh) 2024-04-23

Family

ID=79735255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111008629.7A Active CN113989630B (zh) 2021-08-31 2021-08-31 一种基于语义分析的镜头遮挡判别方法

Country Status (1)

Country Link
CN (1) CN113989630B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522930A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于遮挡类型预测的物体检测方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
US20200034959A1 (en) * 2018-07-24 2020-01-30 The Regents Of The University Of Michigan Detection Of Near-Field Occlusions In Images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
US20200034959A1 (en) * 2018-07-24 2020-01-30 The Regents Of The University Of Michigan Detection Of Near-Field Occlusions In Images
CN109522930A (zh) * 2018-10-17 2019-03-26 天津大学 一种基于遮挡类型预测的物体检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06, 16 June 2020 (2020-06-16) *

Also Published As

Publication number Publication date
CN113989630B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
US10762376B2 (en) Method and apparatus for detecting text
US10452893B2 (en) Method, terminal, and storage medium for tracking facial critical area
WO2022121039A1 (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
WO2019033574A1 (zh) 电子装置、动态视频人脸识别的方法、系统及存储介质
EP2833288A1 (en) Face calibration method and system, and computer storage medium
CN111931864B (zh) 基于顶点距离与交并比多重优化目标检测器的方法与系统
CN113095263B (zh) 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置
CN115049954B (zh) 目标识别方法、装置、电子设备和介质
CN111783665A (zh) 一种动作识别方法、装置、存储介质和电子设备
CN116168351B (zh) 电力设备巡检方法及装置
CN116630608A (zh) 一种用于复杂场景下的多模态目标检测方法
CN111950345B (zh) 摄像头的识别方法、装置、电子设备和存储介质
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
JP2016099835A (ja) 画像処理装置、画像処理方法、及びプログラム
US20170053172A1 (en) Image processing apparatus, and image processing method
CN114005140A (zh) 一种人员识别方法、装置、设备、行人监控系统及存储介质
CN111860498A (zh) 一种车牌的对抗性样本生成方法、装置及存储介质
Diaz-Escobar et al. Natural Scene Text Detection and Segmentation Using Phase‐Based Regions and Character Retrieval
CN115861210A (zh) 一种基于孪生网络的变电站设备异常检测方法和系统
JP2010117952A (ja) 物体判別方法および物体判別装置
CN109657577B (zh) 一种基于熵和运动偏移量的动物检测方法
CN116630801A (zh) 基于伪实例软标签的遥感图像弱监督目标检测方法
CN113989630A (zh) 一种基于语义分析的镜头遮挡判别方法
CN115984546A (zh) 一种针对固定场景的异常检测用的样本底库生成方法
CN115798008A (zh) 一种基于关键点矫正的快速人脸检测识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant