CN116246209B - 基于偏移卷积核的广角镜头生物目标检测方法 - Google Patents
基于偏移卷积核的广角镜头生物目标检测方法 Download PDFInfo
- Publication number
- CN116246209B CN116246209B CN202310221671.XA CN202310221671A CN116246209B CN 116246209 B CN116246209 B CN 116246209B CN 202310221671 A CN202310221671 A CN 202310221671A CN 116246209 B CN116246209 B CN 116246209B
- Authority
- CN
- China
- Prior art keywords
- target
- detected
- convolution kernel
- images
- offset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 238000013461 design Methods 0.000 claims abstract description 8
- 238000009432 framing Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000005286 illumination Methods 0.000 claims description 4
- 238000003709 image segmentation Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种基于偏移卷积核的广角镜头生物目标检测方法,包括:基于广角镜头获取待检测视频,对待检测视频进行分帧处理,得到若干帧待检测图像;根据若干帧待检测图像确定目标场景检测模型;构造偏移卷积核并添加至目标场景检测模型中,得到识别模型;从若干帧待检测图像中确定目标图像,并将目标图像输入识别模型中进行生物目标检测处理。针对广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据,首先确定目标场景检测模型,便于根据不同的场景进行模型的调整,其次基于偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响,便于提高了识别的准确性。
Description
技术领域
本发明涉及生物目标检测技术领域,特别涉及一种基于偏移卷积核的广角镜头生物目标检测方法。
背景技术
目前,环境与生态保护是现代经济社会可持续发展的重要议题,因此对于制造行业、能源行业以及其他人类生产活动场所的生态影响评估成为重要需求。使用技术手段监测场所当地生态目标情况是一种广泛应用的实践,其中,图像和视频数据中生物目标检测是一种重要手段。随着人工智能技术的发展,以机器学习模型替代人类专家进行监测成为一种趋势。经典的神经网络构架在普通的图像或视频数据上能够实现良好的效果,但是在广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据上,经典卷积神经网络构架所使用的固定形状卷积核基于平移不变性的先验导致其在大畸变部分失效。同时在进行识别时,均使用同一场景识别模型,无法根据场景的不同进行调整,导致识别的不准确。因此,本发明提出一种基于偏移卷积核的广角镜头生物目标检测方法,以解决该问题。
发明内容
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的目的在于提出一种基于偏移卷积核的广角镜头生物目标检测方法,针对广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据,首先确定目标场景检测模型,便于根据不同的场景进行模型的调整,其次基于偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响,便于提高了识别的准确性。
为达到上述目的,本发明实施例提出了一种基于偏移卷积核的广角镜头生物目标检测方法,包括:
基于广角镜头获取待检测视频,对待检测视频进行分帧处理,得到若干帧待检测图像;
根据若干帧待检测图像确定目标场景检测模型;
构造偏移卷积核并添加至目标场景检测模型中,得到识别模型;
从若干帧待检测图像中确定目标图像,并将目标图像输入识别模型中进行生物目标检测处理。
根据本发明的一些实施例,根据若干帧待检测图像确定目标场景检测模型,包括:
基于训练好的神经网络分别对若干帧待检测图像进行特征提取,确定每帧待检测图像对应的特征信息,所述特征信息包括各个特征元素及各个特征元素的位置;
统计若干帧待检测图像中包括的特征元素的种类及每种特征元素对应的待检测图像的数量,并根据数量从大到小进行排序;
在排序队列中,选取前预设数量个特征元素,作为目标特征元素;
根据目标特征元素确定目标场景检测模型。
根据本发明的一些实施例,根据目标特征元素确定目标场景检测模型,包括:
确定目标特征元素包括的特征像素点,将特征像素点与场景总图中的像素点进行匹配,在匹配一致时,激活场景总图中的像素点;在匹配不一致时,将不匹配的特征像素点作为待构造像素点;
根据场景总图中的像素点确定第一场景检测模型;
对待构造像素点进行解析,确定场景信息,并对构建的初始模型进行训练,直至初始模型输出的信息与场景信息一致,得到第二场景检测模型;
将第一场景检测模型与第二场景检测模型进行融合,得到目标场景检测模型。
根据本发明的一些实施例,基于训练好的神经网络分别对若干帧待检测图像进行特征提取,确定每帧待检测图像对应的特征信息,包括:
确定待检测图像的整体卷积特征,
对整体卷积特征进行池化处理,对池化处理后的整体卷积特征进行多个层次的残差处理后再次进行池化处理,得到待检测图像的整体特征;
根据整体特征进行图像分割,确定若干个局部特征,将若干个局部特征作为每帧待检测图像对应的特征信息。
根据本发明的一些实施例,构造偏移卷积核的方法,包括:
设定经典卷积核某一点Wi,j的采样位置为(xi,yi);
确定偏移卷积核采样点位置偏移(Δxi,Δyi),则偏移卷积核中点Wij的采样位置为(xi+Δxi,yi+Δyi);
根据采样位置设计卷积层,得到偏移卷积核。
根据本发明的一些实施例,所述目标图像为包含特征元素数量最多的待检测图像。
根据本发明的一些实施例,在将目标图像输入识别模型中进行生物目标检测处理前,还包括:对目标图像进行去除背景非均匀性噪声处理及光照归一化处理。
根据本发明的一些实施例,将目标图像输入识别模型中进行生物目标检测处理,包括:
基于识别模型在目标图像中标注各个识别框,并基于识别模型中的偏移卷积核对各个识别框进行卷积处理,得到多个中间特征图;
对多个中间特征图进行通道连接处理,确定多个输出特征图;
将输出特征图与数据库中的预设特征图进行匹配,根据匹配结果确定各个识别框对应的物体类别的概率,并选出概率最高的物体类别作为对应识别框的物体类别。
根据本发明的一些实施例,在将目标图像输入识别模型中进行生物目标检测处理后,还包括:
基于处理结果,选取特定目标;
在若干帧待检测图像中选择包括特定目标的待检测图像,作为处理图像;
确定处理图像中特定目标的位置信息,并基于拍摄顺序进行组合,确定特定目标的移动轨迹。
根据本发明的一些实施例,确定偏移卷积核采样点位置偏移(Δxi,Δyi),包括:
基于广角镜头所引起的图像桶形畸变进行经验性设计或多组随机参数,在数据集上进行训练验证后优选。
本发明提出的基于偏移卷积核的广角镜头生物目标检测方法,针对广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据,首先确定目标场景检测模型,便于根据不同的场景进行模型的调整,其次基于偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响,便于提高了识别的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一个实施例的一种基于偏移卷积核的广角镜头生物目标检测方法的流程图;
图2是现有技术及根据本发明一个实施例的偏移卷积核的示意图;
图3是根据本发明一个实施例的偏移卷积核的卷积层设计的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提出了一种基于偏移卷积核的广角镜头生物目标检测方法,包括步骤S1-S4:
S1、基于广角镜头获取待检测视频,对待检测视频进行分帧处理,得到若干帧待检测图像;
S2、根据若干帧待检测图像确定目标场景检测模型;
S3、构造偏移卷积核并添加至目标场景检测模型中,得到识别模型;
S4、从若干帧待检测图像中确定目标图像,并将目标图像输入识别模型中进行生物目标检测处理。
上述技术方案的工作原理:基于广角镜头获取待检测视频,对待检测视频进行分帧处理,得到若干帧待检测图像;根据若干帧待检测图像确定目标场景检测模型;目标场景检测模型为适合若干帧待检测图像对应场景的检测模型。构造偏移卷积核并添加至目标场景检测模型中,得到识别模型;从若干帧待检测图像中确定目标图像,并将目标图像输入识别模型中进行生物目标检测处理。目标图像为包含特征元素数量最多的待检测图像。
上述技术方案的有益效果:针对广角镜头或鱼眼镜头拍摄的大畸变图像或视频数据,首先确定目标场景检测模型,便于根据不同的场景进行模型的调整,其次基于偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响,便于提高了识别的准确性。
根据本发明的一些实施例,根据若干帧待检测图像确定目标场景检测模型,包括:
基于训练好的神经网络分别对若干帧待检测图像进行特征提取,确定每帧待检测图像对应的特征信息,所述特征信息包括各个特征元素及各个特征元素的位置;
统计若干帧待检测图像中包括的特征元素的种类及每种特征元素对应的待检测图像的数量,并根据数量从大到小进行排序;
在排序队列中,选取前预设数量个特征元素,作为目标特征元素;
根据目标特征元素确定目标场景检测模型。
上述技术方案的工作原理:基于训练好的神经网络分别对若干帧待检测图像进行特征提取,确定每帧待检测图像对应的特征信息,所述特征信息包括各个特征元素及各个特征元素的位置;统计若干帧待检测图像中包括的特征元素的种类及每种特征元素对应的待检测图像的数量,并根据数量从大到小进行排序;在排序队列中,选取前预设数量个特征元素,作为目标特征元素;预设数量可以为排序队列的数量的一半。根据目标特征元素确定目标场景检测模型。
上述技术方案的有益效果:统计出若干帧待检测图像包括的所有特征元素的种类及每种特征元素对应的待检测图像的数量,便于准确筛选出关键的特征元素,即目标特征元素,并根据目标特征元素准确确定目标场景检测模型。
根据本发明的一些实施例,根据目标特征元素确定目标场景检测模型,包括:
确定目标特征元素包括的特征像素点,将特征像素点与场景总图中的像素点进行匹配,在匹配一致时,激活场景总图中的像素点;在匹配不一致时,将不匹配的特征像素点作为待构造像素点;
根据场景总图中的像素点确定第一场景检测模型;
对待构造像素点进行解析,确定场景信息,并对构建的初始模型进行训练,直至初始模型输出的信息与场景信息一致,得到第二场景检测模型;
将第一场景检测模型与第二场景检测模型进行融合,得到目标场景检测模型。
上述技术方案的工作原理:确定目标特征元素包括的特征像素点,将特征像素点与场景总图中的像素点进行匹配,在匹配一致时,激活场景总图中的像素点;在匹配不一致时,将不匹配的特征像素点作为待构造像素点;根据场景总图中的像素点确定第一场景检测模型;场景总图可以根据激活的像素点大致确定场景,并根据确定的场景确定第一场景检测模型。对待构造像素点进行解析,确定场景信息,并对构建的初始模型进行训练,直至初始模型输出的信息与场景信息一致,得到第二场景检测模型;对于不匹配的像素点,需要增加新的场景检测模型,即第二场景检测模型。将第一场景检测模型与第二场景检测模型进行融合,得到目标场景检测模型。
上述技术方案的有益效果:对目标特征元素包括的特征像素点进行全面的场景识别,基于确定的第一场景检测模型与第二场景检测模型,便于准确的获取目标场景检测模型。
根据本发明的一些实施例,基于训练好的神经网络分别对若干帧待检测图像进行特征提取,确定每帧待检测图像对应的特征信息,包括:
确定待检测图像的整体卷积特征,
对整体卷积特征进行池化处理,对池化处理后的整体卷积特征进行多个层次的残差处理后再次进行池化处理,得到待检测图像的整体特征;
根据整体特征进行图像分割,确定若干个局部特征,将若干个局部特征作为每帧待检测图像对应的特征信息。
上述技术方案的工作原理:确定待检测图像的整体卷积特征,对整体卷积特征进行池化处理,对池化处理后的整体卷积特征进行多个层次的残差处理后再次进行池化处理,得到待检测图像的整体特征;根据整体特征进行图像分割,确定若干个局部特征,将若干个局部特征作为每帧待检测图像对应的特征信息。
上述技术方案的有益效果:从整体再到局部,便于准确的确定每帧待检测图像对应的特征信息。
根据本发明的一些实施例,构造偏移卷积核的方法,包括:
设定经典卷积核某一点Wi,j的采样位置为(xi,yi);
确定偏移卷积核采样点位置偏移(Δxi,Δyi),则偏移卷积核中点wij的采样位置为(xi+Δxi,yi+Δyi);
根据采样位置设计卷积层,得到偏移卷积核。
上述技术方案的工作原理及有益效果:以3×3大小卷积核为例,经典卷积核的采样点排布形式为图2左侧所示,为等间距规则采样。本发明提出的偏移卷积核为图2右侧两列所示,采样点排布形式非等间距规则采样。对于本发明提出的偏移卷积核,设经典卷积核某一点wi,j的采样位置为(xi,yi),偏移卷积核中点wij的采样位置(xi+Δxi,yi+Δyi)。其中,偏移卷积核采样点位置偏移(Δxi,Δyi),其具体值的确定方法,包含但不限于遵循广角镜头或鱼眼镜头所引起的图像桶形畸变进行经验性设计或多组随机参数,在数据集上进行训练验证后优选。
基于偏移卷积核的卷积层如图3所示。不失一般性地,以原图像或某一中间特征为输入f0,图中为了表示简洁,忽略f0,f1与f1′中空间维度(x与y方向维度),仅展示通道维度。f0与一组(c个)偏移卷积核(包括0偏移的经典卷积核)进行卷积操作,得到通道数为c的特征f1。由于在图像中各处畸变程度不同,每个卷积核的表示能力也不同。因此,将f1输入全连接层形式的自注意力模块(图中未展示),得到注意力结果A。f1与注意力A逐位相乘后,得到输出特征f1′。
根据本发明的一些实施例,所述目标图像为包含特征元素数量最多的待检测图像。
根据本发明的一些实施例,在将目标图像输入识别模型中进行生物目标检测处理前,还包括:对目标图像进行去除背景非均匀性噪声处理及光照归一化处理。
上述技术方案的有益效果:对目标图像进行去除背景非均匀性噪声处理,便于去除噪声,避免噪声的影响导致的识别不准确。光照归一化处理便于消除目标图像上亮度的变化。
根据本发明的一些实施例,将目标图像输入识别模型中进行生物目标检测处理,包括:
基于识别模型在目标图像中标注各个识别框,并基于识别模型中的偏移卷积核对各个识别框进行卷积处理,得到多个中间特征图;
对多个中间特征图进行通道连接处理,确定多个输出特征图;
将输出特征图与数据库中的预设特征图进行匹配,根据匹配结果确定各个识别框对应的物体类别的概率,并选出概率最高的物体类别作为对应识别框的物体类别。
上述技术方案的工作原理:基于识别模型在目标图像中标注各个识别框,并基于识别模型中的偏移卷积核对各个识别框进行卷积处理,得到多个中间特征图;对多个中间特征图进行通道连接处理,确定多个输出特征图;将输出特征图与数据库中的预设特征图进行匹配,根据匹配结果确定各个识别框对应的物体类别的概率,并选出概率最高的物体类别作为对应识别框的物体类别。
上述技术方案的有益效果:基于分割的思想,便于准确目标图像上各个识别框,减少识别量,基于匹配算法,将输出特征图中的像素点与数据库中的预设特征图的像素点进行匹配,进而准确确定识别框的物体类别。
根据本发明的一些实施例,在将目标图像输入识别模型中进行生物目标检测处理后,还包括:
基于处理结果,选取特定目标;
在若干帧待检测图像中选择包括特定目标的待检测图像,作为处理图像;
确定处理图像中特定目标的位置信息,并基于拍摄顺序进行组合,确定特定目标的移动轨迹。
上述技术方案的工作原理:基于处理结果,选取特定目标;在若干帧待检测图像中选择包括特定目标的待检测图像,作为处理图像;确定处理图像中特定目标的位置信息,并基于拍摄顺序进行组合,确定特定目标的移动轨迹。
上述技术方案的有益效果:便于准确确定特定目标的移动轨迹,实现对整个待检测视频的识别。
在一具体实施例中,使用广角镜头采集海洋鸟类图像数据,进行人工标注创建广角图像海鸟检测数据集,使用YOLOv3在该数据集上进行训练。使用4张GTX3090Ti GPU,使用Adam优化器,学习率1e-4,训练50轮次,测试集上准确率73.5%。使用基于偏移卷积核的卷积层替换YOLOv3中的Conv1_2和Conv2_2层,采用相同配置训练后,测试集上准确率提升至89.4%。
基于本发明提出的一种基于偏移卷积核的广角镜头生物目标检测方法,偏移卷积核设计可以模拟广角图像中的畸变现象并抵消其影响。自注意力模块可以自适应地表征各卷积核的表达能力。替换现有较成功的经典卷积神经网络模型中的卷积层为基于偏移卷积核的卷积层,即可实现在广角视觉数据上的较好效果。偏移卷积核与自注意力模块的所有参数均可以通过梯度下降法进行端到端的优化,不需另外设计网络训练方法。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,包括:
基于广角镜头获取待检测视频,对待检测视频进行分帧处理,得到若干帧待检测图像;
根据若干帧待检测图像确定目标场景检测模型;
构造偏移卷积核并添加至目标场景检测模型中,得到识别模型;
从若干帧待检测图像中确定目标图像,并将目标图像输入识别模型中进行生物目标检测处理;
构造偏移卷积核的方法,包括:
设定经典卷积核某一点wi,j的采样位置为(xi,yi);
确定偏移卷积核采样点位置偏移(Δxi,Δyi),则偏移卷积核中点wij的采样位置为(xi+Δxi,yi+Δyi);
根据采样位置设计卷积层,得到偏移卷积核。
2.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,根据若干帧待检测图像确定目标场景检测模型,包括:
基于训练好的神经网络分别对若干帧待检测图像进行特征提取,确定每帧待检测图像对应的特征信息,所述特征信息包括各个特征元素及各个特征元素的位置;
统计若干帧待检测图像中包括的特征元素的种类及每种特征元素对应的待检测图像的数量,并根据数量从大到小进行排序;
在排序队列中,选取前预设数量个特征元素,作为目标特征元素;
根据目标特征元素确定目标场景检测模型。
3.如权利要求2所述的基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,根据目标特征元素确定目标场景检测模型,包括:
确定目标特征元素包括的特征像素点,将特征像素点与场景总图中的像素点进行匹配,在匹配一致时,激活场景总图中的像素点;在匹配不一致时,将不匹配的特征像素点作为待构造像素点;
根据场景总图中的像素点确定第一场景检测模型;
对待构造像素点进行解析,确定场景信息,并对构建的初始模型进行训练,直至初始模型输出的信息与场景信息一致,得到第二场景检测模型;
将第一场景检测模型与第二场景检测模型进行融合,得到目标场景检测模型。
4.如权利要求2所述的基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,基于训练好的神经网络分别对若干帧待检测图像进行特征提取,确定每帧待检测图像对应的特征信息,包括:
确定待检测图像的整体卷积特征,
对整体卷积特征进行池化处理,对池化处理后的整体卷积特征进行多个层次的残差处理后再次进行池化处理,得到待检测图像的整体特征;
根据整体特征进行图像分割,确定若干个局部特征,将若干个局部特征作为每帧待检测图像对应的特征信息。
5.如权利要求2所述的基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,所述目标图像为包含特征元素数量最多的待检测图像。
6.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,在将目标图像输入识别模型中进行生物目标检测处理前,还包括:对目标图像进行去除背景非均匀性噪声处理及光照归一化处理。
7.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,将目标图像输入识别模型中进行生物目标检测处理,包括:
基于识别模型在目标图像中标注各个识别框,并基于识别模型中的偏移卷积核对各个识别框进行卷积处理,得到多个中间特征图;
对多个中间特征图进行通道连接处理,确定多个输出特征图;
将输出特征图与数据库中的预设特征图进行匹配,根据匹配结果确定各个识别框对应的物体类别的概率,并选出概率最高的物体类别作为对应识别框的物体类别。
8.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,在将目标图像输入识别模型中进行生物目标检测处理后,还包括:
基于处理结果,选取特定目标;
在若干帧待检测图像中选择包括特定目标的待检测图像,作为处理图像;
确定处理图像中特定目标的位置信息,并基于拍摄顺序进行组合,确定特定目标的移动轨迹。
9.如权利要求1所述的基于偏移卷积核的广角镜头生物目标检测方法,其特征在于,确定偏移卷积核采样点位置偏移(Δxi,Δyi),包括:
基于广角镜头所引起的图像桶形畸变进行经验性设计或多组随机参数,在数据集上进行训练验证后确定偏移卷积核采样点位置偏移(Δxi,Δyi)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310221671.XA CN116246209B (zh) | 2023-03-09 | 2023-03-09 | 基于偏移卷积核的广角镜头生物目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310221671.XA CN116246209B (zh) | 2023-03-09 | 2023-03-09 | 基于偏移卷积核的广角镜头生物目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116246209A CN116246209A (zh) | 2023-06-09 |
CN116246209B true CN116246209B (zh) | 2024-02-13 |
Family
ID=86631092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310221671.XA Active CN116246209B (zh) | 2023-03-09 | 2023-03-09 | 基于偏移卷积核的广角镜头生物目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246209B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108833833A (zh) * | 2018-06-20 | 2018-11-16 | 长安大学 | 面向智能网联汽车场景图像数据感知与协同处理系统 |
CN109377449A (zh) * | 2018-08-01 | 2019-02-22 | 安徽森力汽车电子有限公司 | 一种基于数学形态边缘线检测的鱼眼镜头畸变校正方法 |
CN109993031A (zh) * | 2017-12-29 | 2019-07-09 | 杭州海康威视数字技术股份有限公司 | 一种畜力车目标违章行驶行为检测方法、装置及相机 |
CN111369466A (zh) * | 2020-03-05 | 2020-07-03 | 福建帝视信息科技有限公司 | 一种基于可变形卷积的卷积神经网络的图像畸变矫正增强方法 |
CN111738045A (zh) * | 2020-01-19 | 2020-10-02 | 中国科学院上海微系统与信息技术研究所 | 一种图像检测方法、装置、电子设备及存储介质 |
CN112396053A (zh) * | 2020-11-25 | 2021-02-23 | 北京联合大学 | 一种基于级联神经网络的环视鱼眼图像目标检测方法 |
CN113034384A (zh) * | 2021-02-26 | 2021-06-25 | Oppo广东移动通信有限公司 | 视频处理方法、装置、电子设备以及存储介质 |
CN113052170A (zh) * | 2021-03-22 | 2021-06-29 | 江苏东大金智信息系统有限公司 | 一种无约束场景下的小目标车牌识别方法 |
KR20220089602A (ko) * | 2020-12-21 | 2022-06-28 | 주식회사 인피닉스 | 무보정 광각 이미지 기반 가변 합성곱 신경망 학습 방법 및 장치 |
WO2022180479A1 (en) * | 2021-02-24 | 2022-09-01 | Thales Canada Inc. | Method of and system for performing object recognition in data acquired by ultrawide field of view sensors |
CN115410014A (zh) * | 2022-08-25 | 2022-11-29 | 同济大学 | 一种鱼眼图像的自监督特征点匹配方法及其存储介质 |
CN115731126A (zh) * | 2022-11-16 | 2023-03-03 | 东南大学 | 面向顶视鱼眼视觉任务的双曲空间可变形卷积方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880349A (zh) * | 2021-08-16 | 2023-03-31 | 安霸国际有限合伙企业 | 使用卷积技术将自适应偏移项添加到局部自适应二值化表达式 |
-
2023
- 2023-03-09 CN CN202310221671.XA patent/CN116246209B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993031A (zh) * | 2017-12-29 | 2019-07-09 | 杭州海康威视数字技术股份有限公司 | 一种畜力车目标违章行驶行为检测方法、装置及相机 |
CN108833833A (zh) * | 2018-06-20 | 2018-11-16 | 长安大学 | 面向智能网联汽车场景图像数据感知与协同处理系统 |
CN109377449A (zh) * | 2018-08-01 | 2019-02-22 | 安徽森力汽车电子有限公司 | 一种基于数学形态边缘线检测的鱼眼镜头畸变校正方法 |
CN111738045A (zh) * | 2020-01-19 | 2020-10-02 | 中国科学院上海微系统与信息技术研究所 | 一种图像检测方法、装置、电子设备及存储介质 |
CN111369466A (zh) * | 2020-03-05 | 2020-07-03 | 福建帝视信息科技有限公司 | 一种基于可变形卷积的卷积神经网络的图像畸变矫正增强方法 |
CN112396053A (zh) * | 2020-11-25 | 2021-02-23 | 北京联合大学 | 一种基于级联神经网络的环视鱼眼图像目标检测方法 |
KR20220089602A (ko) * | 2020-12-21 | 2022-06-28 | 주식회사 인피닉스 | 무보정 광각 이미지 기반 가변 합성곱 신경망 학습 방법 및 장치 |
WO2022180479A1 (en) * | 2021-02-24 | 2022-09-01 | Thales Canada Inc. | Method of and system for performing object recognition in data acquired by ultrawide field of view sensors |
CN113034384A (zh) * | 2021-02-26 | 2021-06-25 | Oppo广东移动通信有限公司 | 视频处理方法、装置、电子设备以及存储介质 |
CN113052170A (zh) * | 2021-03-22 | 2021-06-29 | 江苏东大金智信息系统有限公司 | 一种无约束场景下的小目标车牌识别方法 |
CN115410014A (zh) * | 2022-08-25 | 2022-11-29 | 同济大学 | 一种鱼眼图像的自监督特征点匹配方法及其存储介质 |
CN115731126A (zh) * | 2022-11-16 | 2023-03-03 | 东南大学 | 面向顶视鱼眼视觉任务的双曲空间可变形卷积方法 |
Non-Patent Citations (2)
Title |
---|
基于卷积神经网络的交通路标识别;陈柏立;林楠;;计算机与现代化(第07期);全文 * |
基于插值的共焦显微镜非线性畸变失真图像校正;鲍雪晶;戴仕杰;郭澄;吕寿丹;沈成;刘正君;;红外与激光工程(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116246209A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325713B (zh) | 基于神经网络的木材缺陷检测方法、系统及存储介质 | |
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN108960245B (zh) | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 | |
CN106875373B (zh) | 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法 | |
CN111611847B (zh) | 基于尺度注意力空洞卷积网络的视频动作检测方法 | |
CN109509187B (zh) | 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法 | |
CN111310862A (zh) | 复杂环境下基于图像增强的深度神经网络车牌定位方法 | |
CN111178120B (zh) | 一种基于作物识别级联技术的害虫图像检测方法 | |
CN109740679B (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN111680705B (zh) | 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 | |
CN109902662B (zh) | 一种行人重识别方法、系统、装置和存储介质 | |
CN111832484A (zh) | 一种基于卷积感知哈希算法的回环检测方法 | |
CN111104830A (zh) | 用于图像识别的深度学习模型、该模型的训练装置及方法 | |
CN114581456B (zh) | 一种多图像分割模型的构建方法、图像检测方法及装置 | |
CN112364747B (zh) | 一种有限样本下的目标检测方法 | |
CN111797760A (zh) | 基于Retinanet改进的农作物病虫害识别方法 | |
CN114663769B (zh) | 一种基于YOLO v5的水果识别方法 | |
CN113362277A (zh) | 一种基于深度学习的工件表面缺陷检测和分割方法 | |
CN111027555A (zh) | 一种车牌识别方法、装置及电子设备 | |
CN115147418A (zh) | 缺陷检测模型的压缩训练方法和装置 | |
CN111310516B (zh) | 一种行为识别方法和装置 | |
CN111178405A (zh) | 一种融合多种神经网络的相似物体识别方法 | |
CN117274702B (zh) | 一种基于机器视觉的手机钢化玻璃膜裂纹自动分类方法和系统 | |
CN116246209B (zh) | 基于偏移卷积核的广角镜头生物目标检测方法 | |
CN116977844A (zh) | 一种轻量级水下目标实时检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |