CN113989630A - 一种基于语义分析的镜头遮挡判别方法 - Google Patents
一种基于语义分析的镜头遮挡判别方法 Download PDFInfo
- Publication number
- CN113989630A CN113989630A CN202111008629.7A CN202111008629A CN113989630A CN 113989630 A CN113989630 A CN 113989630A CN 202111008629 A CN202111008629 A CN 202111008629A CN 113989630 A CN113989630 A CN 113989630A
- Authority
- CN
- China
- Prior art keywords
- relation
- semantic
- detection
- monitoring area
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 65
- 238000012544 monitoring process Methods 0.000 claims abstract description 54
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012850 discrimination method Methods 0.000 claims 3
- 238000010586 diagram Methods 0.000 abstract description 15
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于语义分析的镜头遮挡判别方法,属于图像识别技术领域。其技术方案为:一种基于语义分析的镜头遮挡判别方法,训练一个深度卷积检测网络,实现对监控区和遮挡物的检测,将“监控区”和多个“遮挡物”一对多的配对成多个语义关系对,将主语和宾语组合成的“关系对”检测框的并为关系外接框,映射到骨干卷积神经网络的顶部特征图,采用ROIAlign算法扣取特征图并映射到固定尺寸,将其送入语义判别全连接层进行关系预测。最后,根据预测结果是否含有遮挡预测判定当前镜头是否遮挡。本发明的有益效果为:本发明用于将镜头遮挡这类分类问题分解为检测/关系预测问题,可解释性更强,能够准确的判断遮挡物与监控区的位置关系。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于语义分析的镜头遮挡判别方法。
背景技术
目前,控摄像头是平安城市和平安社区建设过程中使用的核心器件,随着时间的流逝,早年安装摄像头的环境可能发生了很大的变化,有些甚至被(如茂密的树枝树叶)遮挡。成千上万的摄像头逐一人工巡查既费事费力又可能由于人员的疲劳而漏检。普通的分类或者检测算法,摄像头镜头遮挡检测相关算法非常少,说明让计算机判断这个问题不是件容易的事。目前只有少数的算法通过检测树叶的存在来判断镜头是否遮挡。这种方法有两方面局限:首先,镜头关注区域与是否有树叶没有必然的联系;再者,树叶是城市街道及其常见的,通过树叶的存在判断遮挡极大的限制了算法的适用场景。
以卷积神经网络为代表的机器视觉算法在图像模式识别领域如目标检测、图像分类等大放异彩,采用深度学习算法来解决视频镜头遮挡成为一个自然选项。但是单靠目标检测和图像分类还难以做到镜头遮挡判别。
发明内容
针对上述现有技术中的问题,本发明的目的在于提供一种基于语义分析的镜头遮挡判别方法,采用目标检测算法检测监控区及可能的遮挡物(如树枝、树叶、电线等),从目标检测网络中抽取特征图,融合语义信息,送入一个关系网络进行关系预测,最终根据概率最大的关系分类决定是否出现镜头遮挡。
三元组的语义关系中的主体、关系谓词和客体之间存在很强的统计关系,因此,为了准确的识别上述视觉关系,找出一种方案来揭示这些信息是很重要的,尤其是当某些视觉线索模棱两可的时候。
本发明是通过如下技术方案实现的:一种基于语义分析的镜头遮挡判别方法,包括如下步骤:
S1,搜集遮挡数据集,标注监控摄像头的监控区和遮挡物,根据所述遮挡数据集训练目标检测网络;
具体如下:首先标注一批监控场景图像数据集,标注摄像头的主监控区域,训练目标检测网络,使之能够鲁棒的检测住监控区;
在上述数据集中加入遮挡物标签,继续训练,使模型能够检测到遮挡物;
S2,利用训练好的所述目标检测网络对监控画面进行检测;采用目标检测算法Faster-RCNN检测出“监控区”和遮挡物的位置、尺寸和表观特征,并匹配到相应的检测框上,并生成检测框特征图,根据检测框特征图映射到固定尺寸获得相应的固定尺寸检测特征图;将所述固定尺寸检测特征图送入目标检测全连接层进行检测;
S3,以监控区为宾语构建一个(主语-关系谓词-宾语)的三元关系组列表,将所述监控区分别与相邻的各个所述遮挡物一一配对形成若干关系对;其中主语是与监控区相邻的遮挡物;关系谓词是描述主语与谓语之间关系的词,包括上临、下临、左邻、右临、覆盖;
S4、将所述语义关系对中主语和宾语所对应的检测框并为关系外接框;
S5、将所述语义关系外接框映射到所述目标监测网络中的骨干卷积神经网络中的顶部特征图,获得语义关系外接框特征图;
S6、提取语义关系外接框特征图并映射到固定尺寸获得固定尺寸语义特征图,将其送入语义判别全连接层进行关系预测;
S7、语义判别全连接层对所有输入的关系对进行分类,预测出关系谓词,最终根据关系谓词概率是否达到一定的值判别监控区与其相邻物体间的关系,进而判别是否有遮挡关系的存在。
进一步,所述S4具体为:S41、获取监控区的检测框box;
S43、对所有IOU>0的检测框求关系外接框:
监控区的检测框box:(xtopleft,ytopleft;xbottomright,ybottomright);
进一步,所有特征图均采用ROIAlign算法提取。
进一步,所述S7具体为语义判别全连接层进行关系谓词预测,并对所有语义关系的概率值进行排序,当遮挡关系的概率大于一定阈值,该场景就被判定为镜头遮挡。
本发明的有益效果为:本发明用于监控摄像头视线遮挡判别,能够准确的判断遮挡物与监控区的位置关系,将镜头遮挡这类分类问题分解为检测/关系预测问题,使得神经网络的可解释性更强,当出现收敛问题时可针对问题快速定位到发生问题的具体方位,易于进一步改进算法;本发明先训练镜头监控区,能够缩小神经网络的搜索空间,减少使模型对数据量的需求;通过骨干网络共享,减少计算资源的消耗,同时提高模型的推理速度;本发明采用多阶段分布训练方式,其意义在于使关系推理网络聚焦于关系主、客体之上,消除无意义特征干扰,使模型收敛速度更快、模型精度更高。
附图说明
图1为本发明的算法框架。
图2为三元组表示镜头遮挡示意图。
其中,附图标记为:1、骨干卷积神经网络;2、检测框特征图;3、固定尺寸检测特征图;4、目标检测全连接层;5、关系对匹配及选择;6、语义关系外接框特征图;7、固定尺寸语义特征图;8语义判别全连接层。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,对本方案进行阐述。
实施例一,参见图1-图2,本发明是通过如下技术方案实现的:一种基于语义分析的镜头遮挡判别方法,包括如下步骤:
S1,搜集遮挡数据集,标注监控摄像头的监控区和遮挡物,根据所述遮挡数据集训练目标检测网络;
具体如下:首先标注一批监控场景图像数据集,标注摄像头的主监控区域,训练目标检测网络,使之能够鲁棒的检测住监控区;
在上述数据集中加入遮挡物标签,继续训练,使模型能够检测到遮挡物;
S2,利用训练好的所述目标检测网络对监控画面进行检测;采用目标检测算法Faster-RCNN检测出“监控区”和遮挡物的位置、尺寸和表观特征,并匹配到相应的检测框上,并生成检测框特征图2,根据检测框特征图2映射到固定尺寸获得相应的固定尺寸检测特征图3;将所述固定尺寸检测特征图3送入目标检测全连接层4进行运算;
S3,以监控区为宾语构建一个(主语-关系谓词-宾语)的三元关系组列表,将所述监控区分别与相邻的各个所述遮挡物一一配对形成若干关系对;其中主语是与监控区相邻的遮挡物;关系谓词是描述主语与谓语之间关系的词,包括上临、下临、左邻、右临、覆盖;
S4、将所述语义关系对中主语和宾语所对应的检测框并为关系外接框;
S5、将所述语义关系外接框映射到所述目标监测网络中的骨干卷积神经网络1中的顶部特征图,获得语义关系外接框特征图6;
S6、提取所述语义关系外接框特征图6并映射到固定尺寸获得固定尺寸语义特征图7,将其送入语义判别全连接层8进行关系预测;采用ROIAlign算法提取特征图。采用ROIAlign的好处在于,一方面它可以使后续关系网络输入不受外接框尺寸的大小影响,另一方面它较ROI Pooling映射更加精确,从而更精确的剔除关系判别无关特征,提高神经网络的准确率。
S7、语义判别全连接层8对所有输入的关系对进行分类,预测出关系谓词,最终根据关系谓词概率是否达到一定的值判别监控区与其相邻物体间的关系,进而判别是否有遮挡关系的存在。
进一步,所述S4具体为:S41、获取监控区的检测框box;
S43、对所有IOU>0的检测框求关系外接框:
监控区的检测框box:(xtopleft,ytopleft;xbottomright,ybottomright);
如图1所示,将一幅图像送入检测网络,将分别经过目标监测和关系判别两个阶段,目标检测网络和关系判别网络共享同一组网络特征图,而不必单独训练额外的特征图,从而达到节省计算资源和计算时间的目的;
如图1中目标检测网络部分所示,检测网络首先扫描图像,检测出“监控区”和“遮挡物”,并生成检测框特征图2并映射生成固定尺寸检测特征图3,对监控区和遮挡物进行关系对匹配及选择5---即方法中的步骤S4-S5;
下一步如图1中关系判别网络所示,获取监控区和遮挡物的语义关系外接框特征图6,在骨干卷积神经网络的顶层扣取顶部特征图,通过ROIAlign运算,得到固定尺寸语义特征图7,将所述固定尺寸语义特征图7送入关系判别网络,经过语义全连接层进行关系预测,最后,语义判别全连接层8预测出语义关系谓词,可能的关系如图2所示。
在本发明创造的描述中,前面的详细描述已经通过使用框图、流程图和/或示例阐述了装置和/或过程的各种实施例。在这样的框图、流程图和/或示例包含一个或多个功能和/或操作的程度上,本领域技术人员将理解的是,这样的框图、流程图或示例内的每个功能和/或操作可通过许多各种不同的硬件、软件、固件或实际上它们的任何组合被单独地和/或集体地实现。
在系统的各方面的硬件和软件实施方式之间几乎没有差别;硬件或软件的使用通常是(但并不总是,因为在某些情景中在硬件和软件之间的选择可能变得重要)代表成本与效率折衷的设计选择。存在本文中所述的过程和/或系统和/或其它技术可借以被实现的各种手段(例如,硬件、软件和/或固件),并且优选的手段将随着其中过程和/或系统和/或其它技术被部署的情景的不同而改变。例如,如果实施者确定速度和准确性是极为重要的,那么实施者可选择主要为硬件和/或固件的手段;如果灵活性是极为重要的,那么实施者可选择主要为软件的实施方式;或者,但同样可替换地,实施者可选择硬件、软件和/或固件的某组合。
术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述,当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“设置”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。
Claims (4)
1.一种基于语义分析的镜头遮挡判别方法,其特征在于,包括如下步骤:
S1,搜集遮挡数据集,标注监控摄像头的监控区和遮挡物,根据所述遮挡数据集训练目标检测网络;
S2,利用所述目标检测网络对监控画面进行检测,检测出所述监控区和所述遮挡物以及相应的检测框;
S3,以监控区为宾语构建一个(主语-关系谓词-宾语)的三元关系组列表,将所述监控区分别与相邻的各个所述遮挡物一一配对形成若干语义关系对;其中主语是与监控区相邻的遮挡物;关系谓词是描述主语与谓语之间关系的词,包括上临、下临、左邻、右临、覆盖;
S4、将所述语义关系对中主语和宾语所对应的检测框并为语义关系外接框;
S5、将所述语义关系外接框映射到所述目标监测网络中的骨干卷积神经网络中的顶部特征图,获得语义关系外接框特征图;
S6、提取语义关系外接框特征图并映射到固定尺寸获得固定尺寸语义特征图,将其送入语义判别全连接层进行关系预测;
S7、语义判别全连接层对所有输入的语义关系对进行分类,预测出关系谓词,最终根据关系谓词概率是否达到一定的值判别监控区与其相邻物体间的关系,进而判别是否有遮挡关系的存在。
3.根据权利要求1所述的基于语义分析的镜头遮挡判别方法,其特征在于,所有特征图均采用ROIAlign算法提取。
4.根据权利要求1所述的基于语义分析的镜头遮挡判别方法,其特征在于,所述目标监测网络采用目标检测算法为Faster-RCNN。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111008629.7A CN113989630B (zh) | 2021-08-31 | 2021-08-31 | 一种基于语义分析的镜头遮挡判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111008629.7A CN113989630B (zh) | 2021-08-31 | 2021-08-31 | 一种基于语义分析的镜头遮挡判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113989630A true CN113989630A (zh) | 2022-01-28 |
CN113989630B CN113989630B (zh) | 2024-04-23 |
Family
ID=79735255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111008629.7A Active CN113989630B (zh) | 2021-08-31 | 2021-08-31 | 一种基于语义分析的镜头遮挡判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989630B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522930A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于遮挡类型预测的物体检测方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
US20200034959A1 (en) * | 2018-07-24 | 2020-01-30 | The Regents Of The University Of Michigan | Detection Of Near-Field Occlusions In Images |
-
2021
- 2021-08-31 CN CN202111008629.7A patent/CN113989630B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
US20200034959A1 (en) * | 2018-07-24 | 2020-01-30 | The Regents Of The University Of Michigan | Detection Of Near-Field Occlusions In Images |
CN109522930A (zh) * | 2018-10-17 | 2019-03-26 | 天津大学 | 一种基于遮挡类型预测的物体检测方法 |
Non-Patent Citations (1)
Title |
---|
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06, 16 June 2020 (2020-06-16) * |
Also Published As
Publication number | Publication date |
---|---|
CN113989630B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10762376B2 (en) | Method and apparatus for detecting text | |
US10452893B2 (en) | Method, terminal, and storage medium for tracking facial critical area | |
WO2022121039A1 (zh) | 银行卡倾斜矫正检测方法、装置、可读存储介质和终端 | |
WO2019033574A1 (zh) | 电子装置、动态视频人脸识别的方法、系统及存储介质 | |
EP2833288A1 (en) | Face calibration method and system, and computer storage medium | |
CN111931864B (zh) | 基于顶点距离与交并比多重优化目标检测器的方法与系统 | |
CN113095263B (zh) | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 | |
CN115049954B (zh) | 目标识别方法、装置、电子设备和介质 | |
CN111783665A (zh) | 一种动作识别方法、装置、存储介质和电子设备 | |
CN116168351B (zh) | 电力设备巡检方法及装置 | |
CN116630608A (zh) | 一种用于复杂场景下的多模态目标检测方法 | |
CN111950345B (zh) | 摄像头的识别方法、装置、电子设备和存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
JP2016099835A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US20170053172A1 (en) | Image processing apparatus, and image processing method | |
CN114005140A (zh) | 一种人员识别方法、装置、设备、行人监控系统及存储介质 | |
CN111860498A (zh) | 一种车牌的对抗性样本生成方法、装置及存储介质 | |
Diaz-Escobar et al. | Natural Scene Text Detection and Segmentation Using Phase‐Based Regions and Character Retrieval | |
CN115861210A (zh) | 一种基于孪生网络的变电站设备异常检测方法和系统 | |
JP2010117952A (ja) | 物体判別方法および物体判別装置 | |
CN109657577B (zh) | 一种基于熵和运动偏移量的动物检测方法 | |
CN116630801A (zh) | 基于伪实例软标签的遥感图像弱监督目标检测方法 | |
CN113989630A (zh) | 一种基于语义分析的镜头遮挡判别方法 | |
CN115984546A (zh) | 一种针对固定场景的异常检测用的样本底库生成方法 | |
CN115798008A (zh) | 一种基于关键点矫正的快速人脸检测识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |