CN116912890B - 变电站鸟类检测方法和装置 - Google Patents
变电站鸟类检测方法和装置 Download PDFInfo
- Publication number
- CN116912890B CN116912890B CN202311181446.4A CN202311181446A CN116912890B CN 116912890 B CN116912890 B CN 116912890B CN 202311181446 A CN202311181446 A CN 202311181446A CN 116912890 B CN116912890 B CN 116912890B
- Authority
- CN
- China
- Prior art keywords
- features
- frame
- term
- feature
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007774 longterm Effects 0.000 claims abstract description 112
- 238000001514 detection method Methods 0.000 claims abstract description 87
- 230000002776 aggregation Effects 0.000 claims abstract description 76
- 238000004220 aggregation Methods 0.000 claims abstract description 76
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000002708 enhancing effect Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000010354 integration Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 18
- 230000004297 night vision Effects 0.000 description 14
- 241000271566 Aves Species 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 230000004927 fusion Effects 0.000 description 10
- 241000282326 Felis catus Species 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007634 remodeling Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及变电站治理技术领域,提供一种变电站鸟类检测方法和装置,所述方法包括以下步骤:采集变电站区域的视频数据并从视频数据中截取帧图像,其中,帧图像包括当前帧、短期帧和长期帧;对帧图像进行图像增强,获得相应的超分辨率图像;采用检测器网络对超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于聚合特征进行鸟类检测。本发明能够有效解决视频数据噪声较多、分辨率较低、细节模糊等问题,从而提高鸟类检测的精度。
Description
技术领域
本发明涉及变电站治理技术领域,具体涉及一种变电站鸟类检测方法和一种变电站鸟类检测装置。
背景技术
鸟类的精确识别是变电站开展鸟害防治的主要难题。鸟类具有较高复杂性,鸟类飞行路线不定、落点不定、时间不定,监测区域多样,部分鸟类习性、形体、颜色具有极高相似度,这些因素使得对鸟类监测识别技术的要求极高。目前大都凭借红外和雷达等技术进行鸟类检测,精准程度和检测速率较好,然而它的设备比较昂贵,有较大的成本,学习门槛高,不利于检测技术的普及与广泛应用。
利用图像技术的检测方案,只需要在设备上安装摄像头与图像处理器,成本较低,有利于技术的应用与普及。但是,鸟类作为一种极小目标,在图像中的占比相对较小,一般图像检测方法可能会忽略图像中的鸟类目标,降低鸟类检测的精度。视频检测相比单张图像中的目标检测增加了背景上下文信息,有利于在一定程度上提高鸟类检测的精度,但由于视频数据存在噪声较多、分辨率较低、细节模糊等问题,使得鸟类检测精度依然有待进一步提高。
发明内容
本发明为解决上述技术问题,提供了一种变电站鸟类检测方法和一种变电站鸟类检测装置,能够有效解决视频数据噪声较多、分辨率较低、细节模糊等问题,从而提高鸟类检测的精度。
本发明采用的技术方案如下:
一种变电站鸟类检测方法,包括以下步骤:S1,采集变电站区域的视频数据并从所述视频数据中截取帧图像,其中,所述帧图像包括当前帧、短期帧和长期帧;S2,对所述帧图像进行图像增强,获得相应的超分辨率图像;S3,采用检测器网络对所述超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于所述聚合特征进行鸟类检测。
另外,根据本发明上述提出的变电站鸟类检测方法还可以具有如下附加技术特征:
根据本发明的一个实施例,在步骤S2中,采用超分辨率重建网络对所述帧图像进行图像增强,其中,所述超分辨率重建网络包括生成器网络和进化神经网络。
具体地,步骤S2具体包括:S21,采用所述生成器网络对所述帧图像进行图像增强,生成中间超分辨率图像;S22,采用所述进化神经网络对所述中间超分辨率图像进行进一步的图像增强,获得超分辨率图像。
进一步地,步骤S21具体包括:对所述帧图像进行浅层特征信息的提取;将残差密集块作为所述生成器网络的基本块,基于所述基本块从所述浅层特征信息中抽取局部密集特征;在抽取到预设数量的局部密集特征之后,基于局部密集特征和所述浅层特征信息进行全局信息整合,生成所述中间超分辨率图像。
进一步地,基于局部密集特征和所述浅层特征信息进行全局信息整合,具体包括:对所有残差密集块抽取的局部密集特征进行融合,以获得全局特征;结合所述浅层特征信息和所述全局特征,生成所述中间超分辨率图像。
根据本发明的一个实施例,所述进化神经网络包括所述残差密集块、上采样块和卷积块,其中,所述残差密集块用于提取所述中间超分辨率图像的特征获得特征图,所述上采样块用于通过上采样操作以提高所述特征图的空间分辨率,所述卷积块用于将所述特征图转换为超分辨率图像。
根据本发明的一个实施例,在步骤S2之前,还包括:采集所述变电站区域的鸟类图像。
进一步地,在步骤S21之后,步骤S22之前还包括:采用鉴别器对所述鸟类图像和所述中间超分辨率图像进行检测,并将检测过程中获得的生成器损失反馈给所述残差密集块,以便所述残差密集块提取所述中间超分辨率图像的特征获得特征图。
根据本发明的一个实施例,在步骤S21之后,步骤S22之前还包括:对所述中间超分辨率图像进行边缘信息的增强。
具体地,对所述中间超分辨率图像进行边缘信息的增强,具体包括:采用拉普拉斯算子提取边缘信息;采用所述进化神经网络对所述边缘信息进行增强;将增强的边缘信息替换到所述中间超分辨率图像中。
根据本发明的一个实施例,所述检测器网络为长短帧特征增强网络,步骤S3具体包括:S31,从所述当前帧、所述短期帧和所述长期帧对应的超分辨率图像中分别提取当前帧特征、短期帧特征和长期帧特征;S32,对所述当前帧特征和所述短期帧特征进行特征对齐,获得短期框架特征,并将所述短期框架特征集成到所述当前帧特征中,实现对所述当前帧特征的特征增强;S33,根据所述当前帧特征在所述长期帧中选择出具有最明显特征的长期帧并提取对应的长期帧特征作为长期框架特征;S34,根据所述当前帧特征生成候选区域,其中,所述候选区域为可能出现鸟类目标的区域;S35,对所述长期框架特征、所述短期框架特征、所述当前帧特征进行进一步的特征提取,得到提案级当前帧特征、提案级长期框架特征和提案级短期框架特征;S36,对所述提案级长期框架特征、所述提案级短期框架特征和所述提案级当前帧特征进行特征聚合,得到所述聚合特征;S37,根据所述聚合特征对所述候选区域进行检测。
根据本发明的一个实施例,步骤S36具体包括:对所述提案级短期框架特征和所述提案级长期框架特征进行长期帧特征聚合,将所述提案级长期框架特征的高级语义信息集成到所述提案级短期框架特征中;对所述提案级短期框架特征和所述提案级当前帧特征进行短期帧特征聚合,将所述提案级短期框架特征的高级语义信息和位置信息集成到所述提案级当前帧特征中,获得所述聚合特征。
一种变电站鸟类检测装置,包括:第一采集模块,图像增强模块和检测模块,其中,所述第一采集模块用于采集变电站区域的视频数据并从所述视频数据中截取帧图像,其中,所述帧图像包括当前帧、短期帧和长期帧;所述图像增强模块用于对所述帧图像进行图像增强,获得相应的超分辨率图像;所述检测模块用于基于检测器网络对所述超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于所述聚合特征进行鸟类检测。
本发明的有益效果:
本发明通过对视频数据中截取的当前帧、短期帧和长期帧等帧图像进行图像增强,获得了更高分辨率的超分辨率图像,通过采用检测器网络对各帧图像对应的超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于聚合特征进行鸟类检测,能够有效解决视频数据噪声较多、分辨率较低、细节模糊等问题,从而提高鸟类检测的精度。
附图说明
图1为本发明实施例的变电站鸟类检测方法的流程图;
图2为本发明一个实施例的长短帧特征增强网络的示意图;
图3为本发明一个具体实施例的变电站鸟类检测方法的工作流程图;
图4为本发明实施例的变电站鸟类检测装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的变电站鸟类检测方法,包括以下步骤:
S1,采集变电站区域的视频数据并从视频数据中截取帧图像,其中,帧图像包括当前帧、短期帧和长期帧。
需要说明的是,短期帧(Short-term frams,ST-frames)为在当前帧(Current-frame,Cur-frame)附近的帧图像,与当前帧同步采样,而长期帧(Long-term frams,LT-frames)通常从整个视频数据中采样。
在本发明的一个实施例中,采集视频数据的设备可以为摄像机,例如红外夜视摄像机。
优选地,可采用星光夜视摄像机采集变电站区域的视频数据。星光夜视摄像机因其夜视的功能被应用于实现鸟类的全天候检测,其在夜晚微光情况即星光环境,无任何辅助光源仍然可以进行拍摄。与红外夜视摄像机相比,星光夜视摄像机在相同低照度的环境下,可以拍摄清晰不拖尾的彩色视频,因此,采用星光夜视摄像机进行变电站区域的视频数据采集,有利于精准检测变电站区域的鸟类目标。
S2,对帧图像进行图像增强,获得相应的超分辨率图像。
在本发明的一个实施例中,可采用超分辨率重建网络对帧图像进行图像增强,其中,超分辨率重建网络包括生成器网络(Generator,G)和进化神经网络(EvolutionaryNeural Networks,ENN)。
需要说明的是,超分辨率重建网络通过对帧图像进行图像增强,能够在低分辨率的视频数据中截取出的低分辨率帧图像的基础上获得超分辨率图像,从而有效提高帧图像的分辨率,有利于提高变电站鸟类检测的精度。
在本发明的一个实施例中,步骤S2具体可包括下述的S21和S22:
S21,采用生成器网络对帧图像进行图像增强,生成中间超分辨率图像。
需要说明的是,生成器网络使用具有密集连接的多级残差网络,这些密集连接能够增加网络容量。为了防止训练阶段出现不稳定情况还可以在生成器网络中使用残差缩放;同时,还可以在生成器网络中引入参数整流线性单元(Parametric Rectified LinearUnit,PReLU),PReLU可以通过反向传播与其他参数同时训练。
在本发明的一个实施例中,步骤S21具体可包括:
S211,对帧图像进行浅层特征信息的提取。
具体地,可使用一层卷积提取帧图像I λ 的浅层特征信息F 0,计算公式如下:
其中,H SFE1表示卷积操作,可以利用一层浅层特征提取网络进行卷积操作。
在本发明的一个实施例中,也可以使用两层卷积提取帧图像的浅层特征信息。
S212,将残差密集块作为生成器网络的基本块,基于基本块从浅层特征信息中抽取局部密集特征。
经过D个基本块输出的局部密集特征F d 的计算公式可以表示为:
其中,H RRDB,d 为对第d个RRDB的操作,H RRDB,d 可以是复合函数,例如卷积和整流线性单元(Rectified Linear Unit,ReLU),F d ,F d-1均为残差密集块进行局部特征融合(LocalFeature Fusion,LLF)与局部残差学习(Local Residual Learing,LRL)之后的结果。
S213,在抽取到预设数量的局部密集特征之后,基于局部密集特征和浅层特征信息进行全局信息整合,生成中间超分辨率图像,其中,预设数量为根据实际情况设定的大量的值。
具体地,步骤S213可包括:
S2131,对所有残差密集块抽取的局部密集特征进行融合,以获得全局特征。
具体地,可以通过全局特征融合(Global Feature Fusion,GFF)对所有残差密集块抽取的局部密集特征进行融合,以获得全局特征。假设D为预设数量,那么全局特征F GF 的计算公式可以表示为:
其中,为第1个到第D个残差密集块抽取的所有局部密集特征生成的特征图,H GFF 为用于GFF的复合函数。
S2132,结合浅层特征信息和全局特征,生成中间超分辨率图像。
具体地,可以通过全局残差学习结合浅层特征信息和全局特征,获得密集特征图F DF ,然后对F DF 进行上采样操作生成高分辨率特征图,并使用卷积操作将高分辨率特征图映射生成高分辨率图像即中间超分辨率图像。其中,全局残差学习可以表示为:
S22,采用进化神经网络对中间超分辨率图像进行进一步的图像增强,获得超分辨率图像。
在本发明的一个实施例中,进化神经网络可以包括残差密集块、上采样块和卷积块,其中,残差密集块用于提取中间超分辨率图像的特征获得特征图,上采样块用于通过上采样操作以提高特征图的空间分辨率,卷积块用于将特征图转换为超分辨率图像。
在本发明的一个实施例中,在步骤S21之后,步骤S22之前还包括:对中间超分辨率图像进行边缘信息的增强。
具体地,对中间超分辨率图像进行边缘信息的增强,包括以下步骤:
S2141,采用拉普拉斯算子提取边缘信息。
中间超分辨率图像I ISR 的拉普拉斯算子L(x,y)可以定义为其二阶导数,计算公式如下:
由于拉普拉斯算子具有各向同性和旋转不变性,使得中间超分辨率图像在二阶导数后在边缘出产生一个零交叉点,根据零交叉点可以确定边缘信息E(x,y)。提取公式如下所示:
其中,I ISR (x,y)表示中间超分辨率图像,E(x,y)表示提取的边缘信息,表示卷积运算符,L(x,y)表示离散卷积掩码,可以为。
S2142,采用进化神经网络对边缘信息进行增强。
S2143,将增强的边缘信息替换到中间超分辨率图像中。
在本发明的一个实施例中,在步骤S2之前,还可以采集变电站区域的鸟类图像。
需要说明的是,鸟类图像可以为人工从相机拍摄的变电站区域的高分辨率图像中标定的含有鸟类目标的图像,也可以是从图像数据库中采集的变电站区域的高分辨率的含有鸟类目标的图像,采集的鸟类图像可以作为鸟类检测的参考图像。
在本发明的一个实施例中,在步骤S21之后,步骤S22之前还包括:采用鉴别器对鸟类图像和中间超分辨率图像进行检测,并将检测过程中获得的生成器损失反馈给残差密集块,以便残差密集块用于提取中间超分辨率图像的特征获得特征图。
鉴别器对鸟类图像I HR 和中间超分辨率图像I ISR 进行检测的判断公式如下:
其中,、C()和E ISR 表示sigmoid函数、鉴别器输出和计算小批量所有生成的中间图像的均值操作,该判断公式能判断鸟类图像I HR 比生成的中间图像I ISR 相对更真实的概率。
生成器网络的对抗损失包含I HR 和I ISR ,由于其在训练过程中受益于生成的中间超分辨率图像I ISR 和鸟类图像I HR 的梯度,生成器损失和鉴别器损失计算公式如下所示:
需要说明的是,进化神经网络和生成器网络可以共用残差密集块,因此生成器损失反馈给残差密集块后,进化神经网络可以用接受了生成器损失反馈的残差密集块提取中间超分辨率图像的特征,获得允许精确鸟类检测的特征图。
S3,采用检测器网络对超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于聚合特征进行鸟类检测。
具体地,检测器网络可为长短帧特征增强网络(如图2所示),步骤S3具体包括下述的S31至S37:
S31,从当前帧、短期帧和长期帧对应的超分辨率图像中分别提取当前帧特征、短期帧特征和长期帧特征。
具体地,可采用特征提取网络提取当前帧特征、短期帧特征和长期帧特征。
S32,对当前帧特征和短期帧特征进行特征对齐,获得短期框架特征,并将短期框架特征集成到当前帧特征中,实现对当前帧特征的特征增强。
具体地,可采用基于可变形卷积的时空特征对齐块来学习偏移量并在当前帧特征和短期帧特征之间进行特征对齐,采用时空特征聚合块来对当前帧进行像素级特征增强。
给定时间t的当前帧I t 和附近的短期帧I s ,让当前帧特征f t 和短期帧特征f s 为I t 和I s 的通过特征提取网络提取的空间特征。
假设f t 或f s 的尺寸为[C,W,H],其中,C代表通道,H代表标量的高度,W代表标量的宽度。f cat 为融合特征,将f t 和f s 连接起来即可得到f cat ,将f cat 反馈至可变形卷积块,该块使用3×3的卷积生成偏移量,其中9表示内核大小3×3;2代表两个方向上的偏移量:x和y。将m 1和f cat 被馈送到可变形的卷积层以获得对齐的特征。可变形卷积块是即插即用和级联的,这意味着多个块可以串联使用以进行多次特征对齐。最后一个块输出最终偏移量m o ,并且m o 和短期帧特征f s 被馈送到可变形卷积层以获得短期框架特征f t+s 。通常,当前帧和短期帧之间的时间信息用于估计对象特征之间的空间偏移,进一步用于使短期帧特征与当前帧特征对齐。
为了有效地将短期框架特征集成到当前帧特征中,采用时空特征聚合块来使自适应信息融合。自适应权重可以用如下公式表示:
其中,l是描述f t 和f t+s 之间时空联系的时空函数,是用于计算自适应权重的掩码函数。为了充分利用不同帧之间的时间信息,在引入了帧差分方法,它将f t - f t+s ,f t+s - f t ,f t 和f t+s 连接成f multi ,f multi 被馈送到掩码函数。它通过两个卷积层来压缩通道数量并完全融合信息。
为了提高模型的泛化能力,可以使用softmax函数生成最终的自适应权重。最后,增强的当前帧特征f由下式计算:
其中,表示表示在f t 附近对齐的短期框架特征的集合,表示逐元素乘法。在本发明中,可以有多个短期帧被采样,与当前帧对齐,并自适应地集成到当前帧中,以在像素级上对当前帧特征进行特征增强。
S33,根据当前帧特征在长期帧中选择出具有最明显特征的长期帧并提取对应的长期帧特征作为长期框架特征。
具体地,可采用帧选择块根据当前帧特征在长期帧中选择出具有最明显特征的长期帧并提取对应的长期帧特征作为长期框架特征,长期框架特征可以进一步为当前帧特征提供重要的背景上下文信息。
S34,根据当前帧特征生成候选区域,其中,候选区域为可能出现鸟类目标的区域。
具体地,可以采用区域生成网络(Region Proposal Network,RPN)根据当前帧特征生成候选区域。RPN的本质是基于滑窗的无类别物体检测器,输入是任意尺度的图像,输出是一系列矩形候选区域,即可能出现鸟类目标的区域。
S35,对长期框架特征、短期框架特征、当前帧特征进行进一步的特征提取,得到提案级当前帧特征、提案级长期框架特征和提案级短期框架特征。
具体地,可以采用ROI特征提取网络(Region of Interest feature extraction,ROI feature extraction)对长期框架特征、短期框架特征、当前帧特征进行进一步的特征提取,得到提案级当前帧特征、提案级长期框架特征和提案级短期框架特征。
S36,对提案级长期框架特征、提案级短期框架特征和提案级当前帧特征进行特征聚合,得到聚合特征。
步骤S36具体可包括:
S361,对提案级短期框架特征和提案级长期框架特征进行长期帧特征聚合,将提案级长期框架特征的高级语义信息集成到提案级短期框架特征中。
在长期帧特征聚合的过程中,输入变量为提案级短期框架特征和提案级长期框架特征,其中,N 1和N 2表示保留的特征数,C表示特征的通道数。
为组合来自不同通道和子空间的信息,首先将输入的特征分为K组,分组后的特征可以表示为:
其中,X可以是提案级长期框架特征X g 或者提案级短期框架特征X s ,C代表特征的通道,K是组数,k表示第k组,并且X k 表示通道维度上第k组的段。
然后,可以根据下式对每个组进行时空聚合并相互连接:
其中,X g+s 表示增强的提案级短期框架特征,concat表示连接,时空聚合函数能够有效地聚合提案级长期框架特征和提案级短期框架特征。可以表示为:
其中,注意力参数作为相关权重,由两部分组成:提案级短期框架特征和提案级长期框架特征之间的余弦相似度来关联短期框架和长期框架,以及提案级长期框架特征与一组可学习权重μ之间的余弦相似度来关联长期框架的不同通道,和是线性变换矩阵,也是全连接层。余弦相似度Sim的定义如下:
dim表示表示输入特征的维度。
S362,对提案级短期框架特征和提案级当前帧特征进行短期帧特征聚合,将提案级短期框架特征的高级语义信息和位置信息集成到提案级当前帧特征中,获得聚合特征。
在长期特征聚合过程中,只有长期框架的高级语义信息被集成到短期框架中。在短期特征聚合的过程中,考虑到短期帧与当前帧之间的时间连续性强,可以将提案级短期框架特征的位置信息也融合到提案级当前帧特征中,令为短期框架中的感兴趣区域(Region of Interests,RoIs)的位置信息,包括中心点x s ,y s 以及每个区域的高度和宽度h s ,w s 。令r c 为当前帧中RoI的位置信息。位置相关权重可以表示为:
其中,非线性函数relu用于减少冗余信息,为线性变换矩阵,同时也是全连接层,利用对提案级当前帧特征和提案级短期框架特征的位置信息进行编码。
因此,短期特征聚合的自适应权重可以表示为:
其中,表示分组后的提案级当前帧特征,、为全连接层,用于重塑特征,为自适应权重,包括三部分:增强之间的余弦相似度提案级短期框架特征和提案级当前帧特征,增强的提案级短期框架特征与一组可学习权重之间的余弦相似度,以及分组后提案级短期框架特征和提案级短期框架特征之间的位置相关权重。短期特征聚合的其他步骤与长期特征聚合相同,不再赘述。
S37,根据聚合特征对候选区域进行检测。
需要说明的是,检测器网络采用时空特征对齐子模块来对短期帧特征和当前帧特征之间的时间信息进行建模并进行特征对齐,实现了当前帧特征在像素级别上的特征增强;考虑到目标的背景上下文信息单一,采用帧选择模块根据当前帧特征在长期帧中选择具有最明显特征的长期帧,进一步用于丰富重要的背景上下文信息用于鸟类检测,能够提高鸟类检测的精度。
在本发明的一个实施例中,可以采用鉴别器根据采集到的鸟类图像对候选区域进行检测。
在本发明的一个具体实施例中,如图3所示,变电站鸟类检测方法包括以下流程:采集变电站区域的视频数据并从视频数据中截取低分辨率的帧图像LR;帧图像LR经过生成器G生成中间超分辨率图像ISR;采用鉴别器区分变电站区域的高分辨率的鸟类图像HR和中间超分辨率图像ISR,并反馈生成器损失和鉴别器损失;将生成器G生成的中间超分辨率图像ISR输入到进化神经网络ENN,生成超分辨率图像SR;采用检测器网络对超分辨率图像SR进行特征提取、增强和聚合,得到聚合特征,并基于聚合特征进行鸟类检测。
根据本发明实施例的变电站鸟类检测方法,通过对视频数据中截取的当前帧、短期帧和长期帧等帧图像进行图像增强,获得了更高分辨率的超分辨率图像,通过采用检测器网络对各帧图像对应的超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于聚合特征进行鸟类检测,能够有效解决视频数据噪声较多、分辨率较低、细节模糊等问题,从而提高鸟类检测的精度。
对应上述实施例的变电站鸟类检测方法,本发明还提出一种变电站鸟类检测装置。
如图4所示,本发明实施例的变电站鸟类检测装置,包括:第一采集模块10、图像增强模块20和检测模块30,其中,第一采集模块10用于采集变电站区域的视频数据并从视频数据中截取帧图像,其中,帧图像包括当前帧、短期帧和长期帧;图像增强模块20用于对帧图像进行图像增强,获得相应的超分辨率图像;检测模块30用于基于检测器网络对超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于聚合特征进行鸟类检测。
需要说明的是,短期帧(Short-term frams,ST-frames)为在当前帧(Current-frame,Cur-frame)附近的帧图像,与当前帧同步采样,而长期帧(Long-term frams,LT-frames)通常从整个视频数据中采样。
在本发明的一个实施例中,采集视频数据的设备可使用摄像机,例如红外夜视摄像机。
优选地,可采用星光夜视摄像机采集变电站区域的视频数据。星光夜视摄像因其夜视的功能被应用于实现鸟类的全天候检测,其在夜晚微光情况即星光环境,无任何辅助光源仍然可以进行拍摄。与红外夜视摄像机相比,星光夜视摄像机在相同低照度的环境下,可以拍摄清晰不拖尾的彩色视频,因此,采用星光夜视摄像机进行变电站区域的视频数据采集,有利于精准检测变电站区域的鸟类目标。
在本发明的一个实施例中,图像增强模块20可采用超分辨率重建网络对帧图像进行图像增强,其中,超分辨率重建网络包括生成器网络(Generator,G)和进化神经网络(Evolutionary Neural Networks,ENN)。
需要说明的是,超分辨率重建网络通过对帧图像进行图像增强,能够在低分辨率的视频数据中截取出的低分辨率帧图像的基础上获得超分辨率图像,从而有效提高帧图像的分辨率,有利于提高变电站鸟类检测的精度。
在本发明的一个实施例中,图像增强模块20具体可包括:第一图像增强子模块和第二图像增强子模块,其中,第一图像增强子模块用于基于生成器网络对帧图像进行图像增强,生成中间超分辨率图像;第二图像增强子模块用于基于进化神经网络对中间超分辨率图像进行进一步的图像增强,获得超分辨率图像。
需要说明的是,生成器网络使用具有密集连接的多级残差网络,这些密集连接能够增加网络容量。为了防止训练阶段出现不稳定情况还可以在生成器网络中使用残差缩放;同时,还可以在生成器网络中引入参数整流线性单元(Parametric Rectified LinearUnit,PReLU),PReLU可以通过反向传播与其他参数同时训练。
在本发明的一个实施例中,第一图像增强子模块具体可包括:浅层特征信息提取单元、特征抽取单元和全局信息整合单元,其中,浅层特征信息提取单元用于对帧图像进行浅层特征信息的提取;特征抽取单元用于将残差密集块作为生成器网络的基本块,基于基本块从浅层特征信息中抽取局部密集特征;全局信息整合单元用于在抽取到预设数量的局部密集特征之后,基于局部密集特征和浅层特征信息进行全局信息整合,生成中间超分辨率图像,其中,预设数量为根据实际情况设定的大量的值。
在本发明的一个实施例中,浅层特征信息提取单元可使用一层卷积提取帧图像I λ 的浅层特征信息F 0,计算公式如下:
其中,H SFE1表示卷积操作,可以利用一层浅层特征提取网络进行卷积操作。
在本发明的一个实施例中,浅层特征信息提取单元也可以使用两层卷积提取帧图像的浅层特征信息。
在本发明的一个实施例中,特征抽取单元经过D个基本块输出的局部密集特征F d 的计算公式可以表示为:
其中,H RRDB,d 为对第d个RRDB的操作,H RRDB,d 可以是复合函数,例如卷积和整流线性单元(Rectified Linear Unit,ReLU),F d ,F d-1均为残差密集块进行局部特征融合(LocalFeature Fusion,LLF)与局部残差学习(Local Residual Learing,LRL)之后的结果。
在本发明的一个实施例中,全局信息整合单元具体可包括:全局特征融合子单元和全局残差学习子单元,其中,全局特征融合子单元用于对所有残差密集块抽取的局部密集特征进行融合,以获得全局特征;全局残差学习子单元用于结合浅层特征信息和全局特征,生成中间超分辨率图像。
在本发明的一个实施例中,全局特征融合子单元可以通过全局特征融合(GlobalFeature Fusion,GFF)对所有残差密集块抽取的局部密集特征进行融合,以获得全局特征。假设D为预设数量,那么全局特征F GF 的计算公式可以表示为:
其中,为第1个到第D个残差密集块抽取的所有局部密集特征生成的特征图,H GFF 为用于GFF的复合函数。
在本发明的一个实施例中,全局残差学习子单元可以通过全局残差学习结合浅层特征信息和全局特征,获得密集特征图F DF ,然后对F DF 进行上采样操作生成高分辨率特征图,并使用卷积操作将高分辨率特征图映射生成高分辨率图像即中间超分辨率图像。其中,全局残差学习可以表示为:
在本发明的一个实施例中,在第二图像增强子模块中,进化神经网络可以包括残差密集块、上采样块和卷积块,其中,残差密集块用于提取中间超分辨率图像的特征获得特征图,上采样块用于通过上采样操作以提高特征图的空间分辨率,卷积块用于将特征图转换为超分辨率图像。
在本发明的一个实施例中,图像增强模块20还可包括边缘信息处理子模块,用于对中间超分辨率图像进行边缘信息的增强,其中,边缘信息处理子模块具体可包括:边缘信息提取单元、边缘信息增强单元和边缘信息替换单元,其中,边缘信息提取单元用于基于拉普拉斯算子提取边缘信息;边缘信息增强单元用于基于进化神经网络对边缘信息进行增强;边缘信息替换单元用于将增强的边缘信息替换到中间超分辨率图像中。
在本发明的一个实施例中,边缘信息提取单元在提取边缘信息时,中间超分辨率图像I ISR 的拉普拉斯算子L(x,y)可以定义为其二阶导数,计算公式如下:
由于拉普拉斯算子具有各向同性和旋转不变性,使得中间超分辨率图像在二阶导数后在边缘出产生一个零交叉点,根据零交叉点可以确定边缘信息E(x,y)。提取公式如下所示:
其中,I ISR (x,y)表示中间超分辨率图像,E(x,y)表示提取的边缘信息,表示卷积运算符,L(x,y)表示离散卷积掩码,可以为。
在本发明的一个实施例中,变电站鸟类检测装置还可包括第二采集模块用于采集变电站区域的鸟类图像。
需要说明的是,鸟类图像可以为人工从相机拍摄的变电站区域的高分辨率图像中标定的含有鸟类目标的图像,也可以是从图像数据库中采集的变电站区域的高分辨率的含有鸟类目标的图像,采集的鸟类图像可以作为鸟类检测的参考图像。
在本发明的一个实施例中,图像增强模块20还可包括损失反馈子模块,用于基于鉴别器对鸟类图像和中间超分辨率图像进行检测,并将检测过程中获得的生成器损失反馈给残差密集块,以便残差密集块用于提取中间超分辨率图像的特征获得特征图。
鉴别器对鸟类图像I HR 和中间超分辨率图像I ISR 进行检测的判断公式如下:
其中,、C()和E ISR 表示sigmoid函数、鉴别器输出和计算小批量所有生成的中间图像的均值操作,该判断公式能判断鸟类图像I HR 比生成的中间图像I ISR 相对更真实的概率。
生成器网络的对抗损失包含I HR 和I ISR ,由于其在训练过程中受益于生成的中间超分辨率图像I ISR 和鸟类图像I HR 的梯度,生成器损失和鉴别器损失计算公式如下所示:
需要说明的是,进化神经网络和生成器网络可以共用残差密集块,因此生成器损失反馈给残差密集块后,进化神经网络可以用接受了生成器损失反馈的残差密集块提取中间超分辨率图像的特征,获得适用于更加精确的鸟类检测的特征图。
在本发明的一个实施例中,检测器网络为长短帧特征增强网络(如图2所示),检测模块30具体可包括:第一特征提取子模块、时空特征对齐子模块、帧选择子模块、候选区域生成子模块、第二特征提取子模块、特征聚合子模块、候选区域检测子模块,其中,第一特征提取子模块用于从当前帧、短期帧和长期帧对应的超分辨率图像中分别提取当前帧特征、短期帧特征和长期帧特征;时空特征对齐子模块用于基于可变形卷积对当前帧特征和短期帧特征进行特征对齐,获得短期框架特征,并将短期框架特征集成到当前帧特征中,实现对当前帧特征的特征增强;帧选择子模块用于根据当前帧特征在长期帧中选择出具有最明显特征的长期帧并提取对应的长期帧特征作为长期框架特征;候选区域生产子模块用于根据当前帧特征生成候选区域,其中,候选区域为可能出现鸟类目标的区域;第二特征提取子模块用于对长期框架特征、短期框架特征、当前帧特征进行进一步的特征提取,得到提案级当前帧特征、提案级长期框架特征和提案级短期框架特征;特征聚合子模块用于对提案级长期框架特征、提案级短期框架特征和提案级当前帧特征进行特征聚合,得到聚合特征;候选区域检测子模块用于根据聚合特征对候选区域进行检测。
需要说明的是,检测模块30基于检测器网络采用时空特征对齐子模块来对短期帧特征和当前帧特征之间的时间信息进行建模并进行特征对齐,实现了当前帧特征在像素级别上的特征增强;考虑到目标的背景上下文信息单一,采用帧选择模块根据当前帧特征在长期帧中选择具有最明显特征的长期帧,进一步用于丰富重要的背景上下文信息用于鸟类检测,能够提高鸟类检测的精度。
在本发明的一个实施例中,第一特征提取子模块可采用特征提取网络提取当前帧特征、短期帧特征和长期帧特征。
在本发明的一个实施例中,时空特征对齐子模块可采用基于可变形卷积的时空特征对齐块来学习偏移量并在当前帧特征和短期帧特征之间进行特征对齐,采用时空特征聚合块来对当前帧进行像素级特征增强。
给定时间t的当前帧I t 和附近的短期帧I s ,让当前帧特征f t 和短期帧特征f s 为I t 和I s 的通过特征提取网络提取的空间特征。
假设f t 或f s 的尺寸为[C,W,H],其中,C代表通道,H代表标量的高度,W代表标量的宽度。f cat 为融合特征,将f t 和f s 连接起来即可得到f cat ,将f cat 反馈至可变形卷积块,该块使用3×3的卷积生成偏移量,其中9表示内核大小3×3;2代表两个方向上的偏移量:x和y。将m 1和f cat 被馈送到可变形的卷积层以获得对齐的特征。可变形卷积块是即插即用和级联的,这意味着多个块可以串联使用以进行多次特征对齐。最后一个块输出最终偏移量m o ,并且m o 和短期帧特征f s 被馈送到可变形卷积层以获得短期框架特征f t+s 。通常,当前帧和短期帧之间的时间信息用于估计对象特征之间的空间偏移,进一步用于使短期帧特征与当前帧特征对齐。
为了有效地将短期框架特征集成到当前帧特征中,采用时空特征聚合块来使自适应信息融合。自适应权重可以用如下公式表示:
其中,l是描述f t 和f t+s 之间时空联系的时空函数,是用于计算自适应权重的掩码函数。为了充分利用不同帧之间的时间信息,在引入了帧差分方法,它将f t - f t+s ,f t+s - f t ,f t 和f t+s 连接成f multi ,f multi 被馈送到掩码函数。它通过两个卷积层来压缩通道数量并完全融合信息。
为了提高模型的泛化能力,可以使用softmax函数生成最终的自适应权重。最后,增强的当前帧特征f由下式计算:
其中,表示表示在f t 附近对齐的短期框架特征的集合,表示逐元素乘法。
在本发明中,可以有多个短期帧被采样,与当前帧对齐,并自适应地集成到当前帧中,以在像素级上对当前帧特征进行特征增强。
在本发明的一个实施例中,帧选择子模块可采用帧选择块根据当前帧特征在长期帧中选择出具有最明显特征的长期帧并提取对应的长期帧特征作为长期框架特征,长期框架特征可以进一步为当前帧特征提供重要的背景上下文信息。
在本发明的一个实施例中,候选区域生成子模块可以采用区域生成网络(RegionProposal Network,RPN)根据当前帧特征生成候选区域。RPN的本质是基于滑窗的无类别物体检测器,输入是任意尺度的图像,输出是一系列矩形候选区域,即可能出现鸟类目标的区域。
在本发明的一个实施例中,第二特征提取子模块可以采用ROI特征提取网络(Region of Interest feature extraction,ROI feature extraction)对长期框架特征、短期框架特征、当前帧特征进行进一步的特征提取,得到提案级当前帧特征、提案级长期框架特征和提案级短期框架特征。
在本发明的一个实施例中,特征聚合子模块具体可包括:长期帧聚合单元和短期帧聚合单元,其中,长期帧聚合单元用于对提案级短期框架特征和提案级长期框架特征进行长期帧特征聚合,将提案级长期框架特征的高级语义信息集成到提案级短期框架特征中;短期帧聚合单元用于对提案级短期框架特征和提案级当前帧特征进行短期帧特征聚合,将提案级短期框架特征的高级语义信息和位置信息集成到提案级当前帧特征中,获得聚合特征。
在长期帧聚合单元进行长期帧特征聚合的过程中,输入变量为提案级短期框架特征和提案级长期框架特征,其中,N 1和N 2表示保留的特征数,C表示特征的通道数。
为组合来自不同通道和子空间的信息,首先将输入的特征分为K组,分组后的特征可以表示为:
其中,X可以是提案级长期框架特征X g 或者提案级短期框架特征X s ,C代表特征的通道,K是组数,k表示第k组,并且X k 表示通道维度上第k组的段。
然后,可以根据下式对每个组进行时空聚合并相互连接:
其中,X g+s 表示增强的提案级短期框架特征,concat表示连接,时空聚合函数能够有效地聚合提案级长期框架特征和提案级短期框架特征。可以表示为:
其中,注意力参数作为相关权重,由两部分组成:提案级短期框架特征和提案级长期框架特征之间的余弦相似度来关联短期框架和长期框架,以及提案级长期框架特征与一组可学习权重μ之间的余弦相似度来关联长期框架的不同通道,和是线性变换矩阵,也是全连接层。余弦相似度Sim的定义如下:
dim表示表示输入特征的维度。
在长期特征聚合过程中,只有长期框架的高级语义信息被集成到短期框架中。在短期帧聚合单元进行短期特征聚合的过程中,考虑到短期帧与当前帧之间的时间连续性强,可以将提案级短期框架特征的位置信息也融合到提案级当前帧特征中,令为短期框架中的感兴趣区域(Region of Interest s,RoIs)的位置信息,包括中心点x s ,y s 以及每个区域的高度和宽度h s ,w s 。令r c 为当前帧中RoI的位置信息。位置相关权重可以表示为:
其中,非线性函数relu用于减少冗余信息,为线性变换矩阵,同时也是全连接层,利用对提案级当前帧特征和提案级短期框架特征的位置信息进行编码。
因此,短期特征聚合的自适应权重可以表示为:
其中,表示分组后的提案级当前帧特征,、为全连接层,用于重塑特征,为自适应权重,包括三部分:增强之间的余弦相似度提案级短期框架特征和提案级当前帧特征,增强的提案级短期框架特征与一组可学习权重之间的余弦相似度,以及分组后提案级短期框架特征和提案级短期框架特征之间的位置相关权重。短期特征聚合的其他步骤与长期特征聚合相同,不再赘述。
在本发明的一个实施例中,检测模块30可以采用鉴别器根据采集到的鸟类图像对候选区域进行检测。
根据本发明实施例的变电站鸟类检测装置,通过对视频数据中截取的当前帧、短期帧和长期帧等帧图像进行图像增强,获得了更高分辨率的超分辨率图像,通过采用检测器网络对各帧图像对应的超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于聚合特征进行鸟类检测,能够有效解决视频数据噪声较多、分辨率较低、细节模糊等问题,从而提高鸟类检测的精度。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种变电站鸟类检测方法,其特征在于,包括以下步骤:
S1,采集变电站区域的视频数据并从所述视频数据中截取帧图像,其中,所述帧图像包括当前帧、短期帧和长期帧;
S2,对所述帧图像进行图像增强,获得相应的超分辨率图像;
S3,采用检测器网络对所述超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于所述聚合特征进行鸟类检测,
所述检测器网络为长短帧特征增强网络,步骤S3具体包括:S31,从所述当前帧、所述短期帧和所述长期帧对应的超分辨率图像中分别提取当前帧特征、短期帧特征和长期帧特征;S32,对所述当前帧特征和所述短期帧特征进行特征对齐,获得短期框架特征,并将所述短期框架特征集成到所述当前帧特征中,实现对所述当前帧特征的特征增强;S33,根据所述当前帧特征在所述长期帧中选择出具有最明显特征的长期帧并提取对应的长期帧特征作为长期框架特征;S34,根据所述当前帧特征生成候选区域,其中,所述候选区域为可能出现鸟类目标的区域;S35,对所述长期框架特征、所述短期框架特征、所述当前帧特征进行进一步的特征提取,得到提案级当前帧特征、提案级长期框架特征和提案级短期框架特征;S36,对所述提案级长期框架特征、所述提案级短期框架特征和所述提案级当前帧特征进行特征聚合,得到所述聚合特征;S37,根据所述聚合特征对所述候选区域进行检测。
2.根据权利要求1所述的变电站鸟类检测方法,其特征在于,在步骤S2中,采用超分辨率重建网络对所述帧图像进行图像增强,其中,所述超分辨率重建网络包括生成器网络和进化神经网络。
3.根据权利要求2所述的变电站鸟类检测方法,其特征在于,步骤S2具体包括:
S21,采用所述生成器网络对所述帧图像进行图像增强,生成中间超分辨率图像;
S22,采用所述进化神经网络对所述中间超分辨率图像进行进一步的图像增强,获得超分辨率图像。
4.根据权利要求3所述的变电站鸟类检测方法,其特征在于,步骤S21具体包括:
对所述帧图像进行浅层特征信息的提取;
将残差密集块作为所述生成器网络的基本块,基于所述基本块从所述浅层特征信息中抽取局部密集特征;
在抽取到预设数量的局部密集特征之后,基于局部密集特征和所述浅层特征信息进行全局信息整合,生成所述中间超分辨率图像。
5.根据权利要求4所述的变电站鸟类检测方法,其特征在于,基于局部密集特征和所述浅层特征信息进行全局信息整合,具体包括:
对所有残差密集块抽取的局部密集特征进行融合,以获得全局特征;
结合所述浅层特征信息和所述全局特征,生成所述中间超分辨率图像。
6.根据权利要求4所述的变电站鸟类检测方法,其特征在于,所述进化神经网络包括所述残差密集块、上采样块和卷积块,其中,所述残差密集块用于提取所述中间超分辨率图像的特征获得特征图,所述上采样块用于通过上采样操作以提高所述特征图的空间分辨率,所述卷积块用于将所述特征图转换为超分辨率图像。
7.根据权利要求6所述的变电站鸟类检测方法,其特征在于,在步骤S2之前,还包括:
采集所述变电站区域的鸟类图像。
8.根据权利要求7所述的变电站鸟类检测方法,其特征在于,在步骤S21之后,步骤S22之前还包括:
采用鉴别器对所述鸟类图像和所述中间超分辨率图像进行检测,并将检测过程中获得的生成器损失反馈给所述残差密集块,以便所述残差密集块提取所述中间超分辨率图像的特征获得特征图。
9.根据权利要求6所述的变电站鸟类检测方法,其特征在于,在步骤S21之后,步骤S22之前还包括:
对所述中间超分辨率图像进行边缘信息的增强。
10.根据权利要求9所述的变电站鸟类检测方法,其特征在于,对所述中间超分辨率图像进行边缘信息的增强,具体包括:
采用拉普拉斯算子提取边缘信息;
采用所述进化神经网络对所述边缘信息进行增强;
将增强的边缘信息替换到所述中间超分辨率图像中。
11.根据权利要求1所述的变电站鸟类检测方法,其特征在于,步骤S36具体包括:
对所述提案级短期框架特征和所述提案级长期框架特征进行长期帧特征聚合,将所述提案级长期框架特征的高级语义信息集成到所述提案级短期框架特征中;
对所述提案级短期框架特征和所述提案级当前帧特征进行短期帧特征聚合,将所述提案级短期框架特征的高级语义信息和位置信息集成到所述提案级当前帧特征中,获得所述聚合特征。
12.一种变电站鸟类检测装置,其特征在于,包括:
第一采集模块,所述第一采集模块用于采集变电站区域的视频数据并从所述视频数据中截取帧图像,其中,所述帧图像包括当前帧、短期帧和长期帧;
图像增强模块,所述图像增强模块用于对所述帧图像进行图像增强,获得相应的超分辨率图像;
检测模块,所述检测模块用于基于检测器网络对所述超分辨率图像进行特征提取、增强和聚合,得到聚合特征,并基于所述聚合特征进行鸟类检测,
检测器网络为长短帧特征增强网络,检测模块具体包括:第一特征提取子模块、时空特征对齐子模块、帧选择子模块、候选区域生成子模块、第二特征提取子模块、特征聚合子模块、候选区域检测子模块,其中,第一特征提取子模块用于从当前帧、短期帧和长期帧对应的超分辨率图像中分别提取当前帧特征、短期帧特征和长期帧特征;时空特征对齐子模块用于基于可变形卷积对当前帧特征和短期帧特征进行特征对齐,获得短期框架特征,并将短期框架特征集成到当前帧特征中,实现对当前帧特征的特征增强;帧选择子模块用于根据当前帧特征在长期帧中选择出具有最明显特征的长期帧并提取对应的长期帧特征作为长期框架特征;候选区域生产子模块用于根据当前帧特征生成候选区域,其中,候选区域为可能出现鸟类目标的区域;第二特征提取子模块用于对长期框架特征、短期框架特征、当前帧特征进行进一步的特征提取,得到提案级当前帧特征、提案级长期框架特征和提案级短期框架特征;特征聚合子模块用于对提案级长期框架特征、提案级短期框架特征和提案级当前帧特征进行特征聚合,得到聚合特征;候选区域检测子模块用于根据聚合特征对候选区域进行检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181446.4A CN116912890B (zh) | 2023-09-14 | 2023-09-14 | 变电站鸟类检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311181446.4A CN116912890B (zh) | 2023-09-14 | 2023-09-14 | 变电站鸟类检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912890A CN116912890A (zh) | 2023-10-20 |
CN116912890B true CN116912890B (zh) | 2023-11-24 |
Family
ID=88355104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311181446.4A Active CN116912890B (zh) | 2023-09-14 | 2023-09-14 | 变电站鸟类检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912890B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309856A (zh) * | 2019-05-30 | 2019-10-08 | 华为技术有限公司 | 图像分类方法、神经网络的训练方法及装置 |
CN110570353A (zh) * | 2019-08-27 | 2019-12-13 | 天津大学 | 密集连接生成对抗网络单幅图像超分辨率重建方法 |
CN110889841A (zh) * | 2019-11-28 | 2020-03-17 | 江苏电力信息技术有限公司 | 一种基于YOLOv3的输电线路鸟类检测算法 |
CN113065558A (zh) * | 2021-04-21 | 2021-07-02 | 浙江工业大学 | 一种结合注意力机制的轻量级小目标检测方法 |
CN114612790A (zh) * | 2022-03-30 | 2022-06-10 | 北京市测绘设计研究院 | 图像处理方法及装置、电子设备和存储介质 |
CN115620107A (zh) * | 2022-11-07 | 2023-01-17 | 国网江西省电力有限公司电力科学研究院 | 一种基于深度学习的变电站涉鸟故障相关鸟种识别方法 |
CN115862073A (zh) * | 2023-02-27 | 2023-03-28 | 国网江西省电力有限公司电力科学研究院 | 一种基于机器视觉的变电站危害鸟种目标检测和识别方法 |
CN116052206A (zh) * | 2022-12-05 | 2023-05-02 | 广州辰创科技发展有限公司 | 融合视觉显著性的鸟类识别方法和系统 |
CN116109922A (zh) * | 2022-12-21 | 2023-05-12 | 杭州睿胜软件有限公司 | 鸟类识别方法、鸟类识别设备和鸟类识别系统 |
CN116466320A (zh) * | 2023-03-17 | 2023-07-21 | 华为技术有限公司 | 目标检测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016048108A1 (en) * | 2014-09-26 | 2016-03-31 | Samsung Electronics Co., Ltd. | Image processing apparatus and image processing method |
US11442464B2 (en) * | 2020-03-25 | 2022-09-13 | Mitsubishi Electric Research Laboratories, Inc. | Bird's eye view map based recognition and motion prediction for autonomous systems |
-
2023
- 2023-09-14 CN CN202311181446.4A patent/CN116912890B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309856A (zh) * | 2019-05-30 | 2019-10-08 | 华为技术有限公司 | 图像分类方法、神经网络的训练方法及装置 |
CN110570353A (zh) * | 2019-08-27 | 2019-12-13 | 天津大学 | 密集连接生成对抗网络单幅图像超分辨率重建方法 |
CN110889841A (zh) * | 2019-11-28 | 2020-03-17 | 江苏电力信息技术有限公司 | 一种基于YOLOv3的输电线路鸟类检测算法 |
CN113065558A (zh) * | 2021-04-21 | 2021-07-02 | 浙江工业大学 | 一种结合注意力机制的轻量级小目标检测方法 |
CN114612790A (zh) * | 2022-03-30 | 2022-06-10 | 北京市测绘设计研究院 | 图像处理方法及装置、电子设备和存储介质 |
CN115620107A (zh) * | 2022-11-07 | 2023-01-17 | 国网江西省电力有限公司电力科学研究院 | 一种基于深度学习的变电站涉鸟故障相关鸟种识别方法 |
CN116052206A (zh) * | 2022-12-05 | 2023-05-02 | 广州辰创科技发展有限公司 | 融合视觉显著性的鸟类识别方法和系统 |
CN116109922A (zh) * | 2022-12-21 | 2023-05-12 | 杭州睿胜软件有限公司 | 鸟类识别方法、鸟类识别设备和鸟类识别系统 |
CN115862073A (zh) * | 2023-02-27 | 2023-03-28 | 国网江西省电力有限公司电力科学研究院 | 一种基于机器视觉的变电站危害鸟种目标检测和识别方法 |
CN116466320A (zh) * | 2023-03-17 | 2023-07-21 | 华为技术有限公司 | 目标检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
enhanced bird detection from low-resolution aerial image using deep neural networks;Li Ce 等;《Nerual Processing Letters》(第3期);1021-1039 * |
基于运动信息先验的变电站鸟类检测;朱文明 等;《信息技术》(第12期);43-48,54 * |
Also Published As
Publication number | Publication date |
---|---|
CN116912890A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Spatiotemporal satellite image fusion using deep convolutional neural networks | |
CN110598610B (zh) | 一种基于神经选择注意的目标显著性检测方法 | |
Zhang et al. | Understanding traffic density from large-scale web camera data | |
US10565684B2 (en) | Super-resolution method and system, server, user device and method therefor | |
CN112733950A (zh) | 一种基于图像融合与目标检测结合的电力设备故障诊断方法 | |
Zhang et al. | LR-Net: Low-rank spatial-spectral network for hyperspectral image denoising | |
CN107273870A (zh) | 一种监控场景下融合上下文信息的行人位置检测方法 | |
CN113724379B (zh) | 融合图像与激光点云的三维重建方法及装置 | |
Wang et al. | Background subtraction on depth videos with convolutional neural networks | |
CN111079807A (zh) | 一种地物分类方法及装置 | |
Wang et al. | Hyperspectral image super-resolution meets deep learning: A survey and perspective | |
CN115546610A (zh) | 基于多机制注意力协同融合对比的红外小目标检测方法 | |
Wang et al. | Intrusion detection for high-speed railways based on unsupervised anomaly detection models | |
Huang et al. | Change detection with absolute difference of multiscale deep features | |
Wang et al. | Object counting in video surveillance using multi-scale density map regression | |
Sustika et al. | Generative adversarial network with residual dense generator for remote sensing image super resolution | |
Li et al. | Two‐stage single image dehazing network using swin‐transformer | |
Vakalopoulou et al. | Simultaneous registration, segmentation and change detection from multisensor, multitemporal satellite image pairs | |
CN116912890B (zh) | 变电站鸟类检测方法和装置 | |
CN116612430A (zh) | 一种基于深度学习利用视频监控系统估计水位的方法 | |
Cao et al. | Super-resolution algorithm through neighbor embedding with new feature selection and example training | |
CN114648736B (zh) | 基于目标检测的鲁棒工程车辆识别方法及系统 | |
CN116563103A (zh) | 一种基于自适应神经网络的遥感图像时空融合方法 | |
Chaki | Shadow detection from images using fuzzy logic and PCPerturNet | |
Shen et al. | Graph-Represented Distribution Similarity Index for Full-Reference Image Quality Assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |