CN111738070A - 一种多个小目标的自动准确检测方法 - Google Patents

一种多个小目标的自动准确检测方法 Download PDF

Info

Publication number
CN111738070A
CN111738070A CN202010407732.8A CN202010407732A CN111738070A CN 111738070 A CN111738070 A CN 111738070A CN 202010407732 A CN202010407732 A CN 202010407732A CN 111738070 A CN111738070 A CN 111738070A
Authority
CN
China
Prior art keywords
image
training
network
data
small
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010407732.8A
Other languages
English (en)
Inventor
黄翰
黄黎龙
李刚
徐杨
郝志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010407732.8A priority Critical patent/CN111738070A/zh
Publication of CN111738070A publication Critical patent/CN111738070A/zh
Priority to PCT/CN2020/122677 priority patent/WO2021227366A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多个小目标的自动准确检测方法,用户输入视频流或者多张图像,通过使用训练好的网络模型进行前向传播运算,计算出物体预测最大的概率得到分类类别和在图像中的X,Y值坐标。本方法具有较好的检测性能,并且借鉴了卷积神经网络自动抽取特征的特性,能够进行多物体检测。通过图像分块与非极大值抑制算法,能够准确检测小目标物体。

Description

一种多个小目标的自动准确检测方法
技术领域
本发明涉及智能监控视频处理领域,具体涉及一种多个小目标的自动准确检测方法。
背景技术
近年来,随着全国各地平安城市、国家安防等需求日益增进,国家大力发展相关行业技术的研究和实施,视频图像监控技术在其中起着越来越核心的作用,同时大量数据的产生以及如何高效利用大数据带来的信息和内容成为行业前进的关键,智慧监控的图像视频大数据是获取大量有效信息的源头,也为深度学习算法等模型训练验证提供了数据支撑。自2006年以来,深度学习在学术界和工业界持续升温,在语音识别、自然语言处理、图像识别等领域取得了惊人进展,从而推动了人工智能和人机交互的大踏步前进。深度学习成为了新世纪以来最具有技术性和突破性的研究方向,为科技新时代的建立提供了整体的技术框架和核心思路。
传统来说,视频图像中的物体识别可以划分成三个步骤,一个是图像分割,即将图像主体,待识别检测的前景,与背景进行分离,二是通过主体前景进行图像特征的提取,使用数学向量或张量的形式进行简化和特征突出,三是将提取好的图像特征进行机器学习的分类迭代,得到最终物体的类别最大释然估计,预测物体的类别。其中,图像预处理负责降低图像中的噪声并使图像格式符合后续程序需求;图像分割负责找出图像中感兴趣的内容送入后续步骤处理;特征提取负责抽取像素图像的特征(feature),用某种模式描述图像的主要信息;预测物体的类别是根据目标图像的特征和前期训练好的分类器模型,对图像的类别进行判定;最后输出结果。可以看出,在传统的图像识别算法中,特征提取占据了非常重要的位置。由于分类器接收的输入信号不是原始像素图像而是图像的特征,因此分类器效果的好坏非常依赖于特征提取的质量。在实践中,图像特征的提取是与具体应用领域紧密相关的,比如在人脸识别中的特征脸等。即使在应用领域很小的图像,也需要通过人为进行分析,是否需要使用角点特征,是否需要具有尺寸不变性,旋转不变性,或是其他符合相关类别的特征表示,通过筛选这些不同计算方式得到的特征信息组成共同表示该类别的特征集进行后续机器学习的操作。
物体检测相比较与物体识别,具有更高等级的技术难度和不确定性因素,物体检测不提供前景主体的位置信息,需要进行前景的判断和提取,很大可能一张监控图像包含了多个物体,需要同时确定每个物体的位置和类别,同时因为物体识别中人为判断前景具有人为意识的辅助,物体检测更具有智能化的要求,难度维度要更高一层。DeformableParts Model是物体检测经典的检测方法,具体做法是先进行方向梯度统计,一般是直方图统计的方式,然后使用支持向量机进行参数的训练得到最后的物体网络模型,通过对应的模型进行物体的分类检测。
发明内容
本发明针对当前智能图像分类中需要人工设计特征的繁重任务,且准确率相对不高的现状,本发明提供一种多个小目标的自动准确检测方法。本发明可以快速准确检测出小目标物体中的位置和类别。
本发明采用如下技术方案:
一种多个小目标的自动准确检测方法,基于caffe深度学习框架、VGGNet深度学习网络的多物体检测方法。用户输入视频流或者多张图像,通过使用训练好的网络模型进行前向传播运算,计算出物体预测最大的概率得到分类类别和在图像中的X,Y值坐标。在物体检测网络进行迭代训练之前,需要提供大量的物体图像数据及标定好的xml文件,并且按照4:1的比例随机划分为训练集和验证集。训练集作为学习的部分进行网络的迭代和更新参数,测试集作为检测网络模型是否更新有效。深度学习网络层次越深,模型越复杂,泛化能力也就越强,能够较好的拟合复杂多样的类别。
本方法具体包括如下步骤:
S1生成多类别的训练集和测试数据集,随机划分为4:1,对图像数据进行标定,记录类别序号及位置信息,具体为:
S1.1为每个类别指定类别名;
S1.2对所有的图像文件进行标定,标定出图像中出现的物体信息,包括类别和位置信息(xmin,ymin,xmax,ymax);
S1.3根据标定的xml文件和图片文件生成训练数据和测试数据描述文件;
S2对图像数据进行关键帧图像的提取,对提取后的图像数据进行预处理,所述预处理包括标准化和归一化处理,标准化是将数据通过去均值实现中心化的处理,更容易取得训练之后的泛化效果;归一化是将取值空间统一映射到同一个空间,避免奇异样本数据造成的影响,具体为:
S2.1对视频数据进行关键帧中训练图像的提取,对训练图像进行标准化,公式如下:
Figure BDA0002492015430000031
其中μ是该图像均值,x是图像的二阶张量,xstandardization是归一化后的图像,其中:
Figure BDA0002492015430000032
σ表示标准差,N表示像素总量;
S2.2对训练图像进行归一化,公式如下:
Figure BDA0002492015430000033
其中xi表示图像x的i通道像素值,max(xi)和min(xi)分别表示图像x的i通道像素值的最大值和最小值。
所述S2还包括对预处理后的图像数据进行压缩,然后重叠分块,然后得到多张小图像,并对其图像序列进行编号,由于输入图像会统一进行压缩,因此针对待检测物体中目标过小的类别,将图像进行重叠分块后进行多张小图像的检测;
具体为:
根据小目标物体的大小将整张图像进行n*n的分割,分配序列号1至n*n;
对于长宽分别为l和w的图像,截取图像长从l/2n到l-l/2n,宽从w/2n到w-w/2n的部分,将该图像进行(n-1)*(n-1)的分割,分配序列号n*n+1至n*n+(n-1)*(n-1);
将分割后的n*n+(n-1)*(n-1)张序列图像和原图一同作为对应的训练集和测试集进行物体检测。
S3采用基于caffe框架的VGGNet模型作为基础网络,在基础网络中添加从大到小的卷积层用于预测图像中物体的位置信息,通过迭代训练数据集,不断迭代优化损失函数,得到物体检测模型;
具体,删除基于caffe框架的VGGNet模型中VGG-16的最后两个FC层和softmax,然后增加五个由大到小的卷积层。
网络训练需要数据集,数据集为图像数据及其类别和位置信息。其中图像数据传入最底层通过卷积网络抽取特征,类别数据集位置信息在网络结构中后面的卷积层通过与网络的预测值构造损失函数,不断优化得到最优的网络模型;
该最优网络模型的损失函数为:
Figure BDA0002492015430000041
损失函数由位置损失Lloc(x,l,g)和类别置信度损失Lconf(x,c)加权而得。其中α表示权重项,根据交叉验证求出为1。其中l为前向传播后网络输出的位置坐标,g为真实训练数据框选的物体位置坐标。Lloc(x,c)为通过预测类别和真实类别计算得到的损失函数。
在网络结构后面的从大到小的卷积层中,每次迭代选用6个待预测的候选框。其中每一个特征图对应的候选框的面积计算公式如下:
Figure BDA0002492015430000042
其中,Smin取值为0.2,Smax取值为0.95,k∈[1,m],再选择不同比例的default box,用αr表示不同长宽比的参数:
Figure BDA0002492015430000043
则每一个default boxe的长宽即可被计算出来。
Figure BDA0002492015430000044
S3中的前置VGG16网络的卷积层大小分别是224*224,112*112,56*56,28*28,通过3*3大小的卷积核,2*2大小的max pooling池化运算进行连接,将VGG16的最后一层卷积层、最后两个FC层和softmax删去,后置增加14*14,14*14,7*7,5*5,3*3,1*1的卷积层,通过3*3和1*1大小的卷积核进行连接,通道数如图3所示,从VGG的第四层通道数为512,后置卷积层的通道数和卷积核的通道数一致,通过多尺度的候选框进行物体位置和类别的预测,最后通过NMS进行预测框的定位。
图2是现有技术中VGG-16的结构示意图。
S4在物体检测模型中添加dropout结构,对dropout结构输出的特征向量进行rescale操作,来保证数据归一化后数据的分布相同;
S3步骤得到物体检测模型中的网络计算公式为:
Figure BDA0002492015430000045
Figure BDA0002492015430000046
添加dropout结构后网络计算公式为:
Figure BDA0002492015430000051
Figure BDA0002492015430000052
Figure BDA0002492015430000053
Figure BDA0002492015430000054
上述公式中Bernoulli函数是伯努利分布,指的是对于随机变量r,有参数为p(0<p<1),分别以概率p和1-p取1和0为值。
模型使用了dropout结构后,训练时只有占比为p的隐藏层单元参与训练,在预测时所有的隐藏层单元都参与进来,则得到的结果相比训练时平均要大1/p,为了避免这种情况,需要测试的时候将输出结果乘以p使下一层的输入规模保持不变
Figure BDA0002492015430000055
也可以在训练的时候直接将dropout后留下的权重扩大1/p倍,这样就可以使结果的scale保持不变,而在预测的时候也不用做额外的操作了,更方便一些。
S5将caffe深度学习工具编译成linux环境下的.so文件,将训练得到的算法模型caffemodel文件和网络结构描述文件prototxt共同打包成Jar包。
通过对传入的图像文件或传入的JPG对象进行识别得到图像中物体的类别和位置信息;
S6对分割后的n*n+(n-1)*(n-1)张序列图像进行合并,并对检测框进行非极大值抑制(NMS),输出该图的检测框结果;
将n*n+(n-1)*(n-1)张序列图合成为原图,相应的检测框在原图位置标出,这样会形成大量有重合的检测框,这时候使用非极大值抑制算法(Non-maximum suppression,NMS)进行去重。按照检测框的置信度进行排序,置信度最高的框作为候选框,其它所有与它的IOU(交并比Intersection-over-Union)高于某个阈值的检测框其置信度置为0。然后在剩余的框里寻找置信度第二大的框,其它所有与它的IOU高于这个阈值的框其概率被置为0。重复以上操作。最终所有的框相互之间的IOU都是小于该阈值的,或者置信度被置为0了。剩下的所有置信度非0的框就是最终的检测框。
本发明的有益效果:
本发明利用卷积网络能够自动学习物体的特征,省去了现有技术中人工设计提取图像的工作,且网络模型优秀,更容易取得训练之后的泛化效果,避免奇异样本数据造成的影响,防止过拟合,对小物体识别的准确率提升,具有较高的分类准确率。此外,相比于之前R-CNN系统的算法,需要生成大量的region proposals,极大地提高了检测的速度。
附图说明
图1是本发明的工作流程图;
图2是本发明的VGG-16示意图;
图3是本发明的VGG-16作为前置网络的网络结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,本发明采用VGGNet作为卷积神经网络提取特征,机器学习进行分类,其中每层的数据后连接一下softmax激活层,损失函数采用的是比较两个概率分布差异的交叉熵函数,整体网络结构为维数逐渐降低的卷积算子,最后的卷积层连接全连接层,输出物体位置的最大释然估计值,最后总的损失函数由位置损失和类别损失加权得到,通过对训练数据不断优化损失函数,得到最优的网络模型,对数据进行了标准化和归一化的预处理,网络结构中采用了dropout操作,防止过拟合,图像采用交叉分块检测,并使用NMS使得检测框的准确性。
在多目标物体检测应用中,我们选取三种物体:人体、机动车和文字。从网上爬取一些图片数据,经人工标定得到人体11678张图片、机动车7214张图片和5523张图片。
一种多个小目标的自动准确检测方法,包括如下步骤:
S1使用标定软件或脚本代码进行图像数据标定,生成训练集train.txt和测试集val.txt。随机按照4:1比例划分。其中,类别名定义如下表1:
表1
class_name 备注
vehicle 机动车
person 人体
text 文字
图片文件和xml标签文件分别放在train和val文件夹中,编写create_train_txt.py和create_val_txt.py脚本,在data主文件夹下生成训练数据和测试数据描述的txt文件,两个txt文件分别声明了进行迭代训练和进行测试需要的训练数据和测试数据,并分别在其中写入对应的文件名。
S2安装caffe并成功编译,为了高效读取数据集,在/caffe/build/tools/目录下一个convert_imagenet.bin文件可以将图像格式的数据集转换成数据库格式的LMDB。在/caffe/examples/imagenet/目录下有一个shell脚本:create_imagenet.sh,将图像数据文件夹和create_imagenet.sh放至/caffe/models/vggnet/目录下,将create_imagenet.sh重命名为create_lmdb.sh并执行,生成vgg_train_lmdb文件和vgg_val_lmdb文件。
S3使用pip命令安装opencv,编写python代码读取训练图片,编写后续图像预处理代码,包括图像分块模块代码,图像块的标准化和归一化模块代码,对图像进行处理输出多张处理后的图像块。
S4准备好VGGNet的网络结构文件(.prototxt)和训练求解器文件(solver.prototxt)。编写train_vggnet.sh模型训练脚本文件,配置好caffe-GPU环境,将以上文件放在/caffe/models/vggnet/目录中。
S5在caffe/目录下打开bash,执行命令bash./models/vggnet/train_vggnet.sh,通过训练得到caffemodel模型文件,训练过程中从打印出的Accuracy结果可以查看每500次迭代的准确率。
S6将caffe深度学习工具编译成linux环境下的.so文件,将训练得到的算法模型caffemodel文件和网络结构描述文件prototxt共同打包成Jar包。在VS2017中创建解决方案ImageRecognition,提供detectObject方法进行视频图像物体检测,参数可以分别输视频路径String videoPath或者输入图片字节数组byte[]imgFile,方法返回JSONObject结构,其中存储了视频图像中物体检测对应的包括类别、位置信息(xmin,ymin,xmax,ymax)和置信度,使用非极大值抑制将重复框选的目标合并。
S7传入视频或多张图片数据进行检测,可以传入文件的路径或者视频流文件的字节数组,支持MP4,JPEG格式。使用opencv的rectangle和putText函数对视频流中关键帧图像进行数据框和类别的标注,用imshow函数进行图像的效果显示。
本发明采用VGGNet作为卷积神经网络提取特征,机器学习进行分类,其中每层的数据后连接一下softmax激活层,损失函数采用的是比较两个概率分布差异的交叉熵函数,整体网络结构为维数逐渐降低的卷积算子,最后的卷积层连接全连接层,输出物体位置的最大释然估计值,最后总的损失函数由位置损失和类别损失加权得到,通过对训练数据不断优化损失函数,得到最优的网络模型,对数据进行了标准化和归一化的预处理,网络结构中采用了dropout操作,防止过拟合,图像采用交叉分块检测,并使用NMS使得检测框的准确性。
本发明采用VGGNet作为基础网络,修改网络卷积层结构,优化训练模型更新策略,对小目标检测具有更好的效果。实验证明,本方法具有较好的准确率及检测速度。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种多个小目标的自动准确检测方法,其特征在于,包括如下步骤:
S1生成多类别的训练集和测试数据集,对图像数据进行标定,记录类别序号及位置信息;
S2对图像数据进行预处理,所述预处理包括标准化和归一化处理,对预处理后的图像数据进行压缩,然后重叠分块,得到多张小图像,对其序列进行编号;
S3采用基于caffe框架的VGGNet模型作为基础网络,在基础网络中添加从大到小的卷积层用于预测图像中物体的位置信息,通过迭代训练数据集,不断迭代优化损失函数,得到物体检测模型;
S4在物体检测模型中添加dropout结构,对dropout结构输出的特征向量进行rescale操作,来保证数据归一化后数据的分布相同;
S5将训练得到的caffemodel文件和网络结构描述文件共同打包成Jar包,封装成SDK;
S6对分块后的序列图像进行合并,并进行非极大值抑制,输出该图的检测框结果。
2.根据权利要求1所述的自动准确检测方法,其特征在于,所述S1生成多类别的训练集和测试数据集,对图像数据进行标定,记录类别序号及位置信息,具体为:
S1.1每个类别制定类别名;
S1.2对所有的图像文件进行标定,标定出图像中出现的物体信息,包括类别和位置信息;
S1.3根据标定的xml文件和图片文件生成训练数据和测试数据描述文件。
3.根据权利要求1所述的自动准确检测方法,其特征在于,所述S2重叠分块,得到多张小图像的检测,具体为:
S2.1根据小目标物体的大小将整张图像进行n*n的分块,分配序列号1至n*n;
S2.2对于长宽分别为l和w的图像,截取图像长从l/2n到l-l/2n,宽从w/2n到w-w/2n的部分,将该图像进行(n-1)*(n-1)的分块,分配序列号n*n+1至n*n+(n-1)*(n-1);
S2.3将分块后的n*n+(n-1)*(n-1)张序列图像和原图一同作为对应的训练集和测试集进行物体检测。
4.根据权利要求1所述的自动准确检测方法,其特征在于,所述S3采用基于caffe框架的VGGNet模型作为基础网络,在基础网络中添加从大到小的卷积层用于预测图像中物体的位置信息,通过迭代训练数据集,不断迭代优化损失函数,得到物体检测模型,具体为:
物体检测模型的损失函数为:
Figure FDA0002492015420000021
损失函数由位置损失Lloc(x,l,g)和类别置信度损失Lconf(x,c)加权而得,其中α表示权重项,根据交叉验证求出为1,其中l为前向传播后网络输出的位置坐标,g为真实训练数据框选的物体位置坐标,Lloc(x,c)为通过预测类别和真实类别计算得到的损失函数;
在网络结构后面的从大到小的卷积层中,每次迭代选用6个待预测的候选框,其中每一个特征图对应的候选框的面积计算公式如下:
Figure FDA0002492015420000022
其中,Smin取值为0.2,Smax取值为0.95,k∈[1,m],再选择不同比例的default box,用αr表示不同长宽比的参数:
Figure FDA0002492015420000023
则每一个default boxe的长宽即可被计算出来:
Figure FDA0002492015420000024
5.根据权利要求1所述的自动准确检测方法,其特征在于,添加dropout结构后网络节点计算公式为:
Figure FDA0002492015420000025
Bernoulli(p)
Figure FDA0002492015420000026
Figure FDA0002492015420000027
Figure FDA0002492015420000028
上述公式中Bernoulli函数是伯努利分布,指的是对于随机变量r,有参数为p(0<p<1),分别以概率p和1-p取1和0为值。
6.根据权利要求1所述的自动准确检测方法,其特征在于,所述S3中的前置VGG16网络的卷积层大小分别是224*224,112*112,56*56,28*28,通过3*3大小的卷积核,2*2大小的max pooling池化运算进行连接,将VGG16的最后一层卷积层、最后两个FC层和softmax删去,后置增加14*14,14*14,7*7,5*5,3*3,1*1的卷积层,通过3*3和1*1大小的卷积核进行连接,从VGG的第四层通道数为512,后置卷积层的通道数和卷积核的通道数一致,通过多尺度的候选框进行物体位置和类别的预测,最后通过NMS进行预测框的定位。
7.根据权利要求1所述的自动准确检测方法,其特征在于,在S5步骤之前,还包括将Caffe/examples/cpp_classification/目录下的classification.cpp编译成linux环境下的.so文件。
CN202010407732.8A 2020-05-14 2020-05-14 一种多个小目标的自动准确检测方法 Pending CN111738070A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010407732.8A CN111738070A (zh) 2020-05-14 2020-05-14 一种多个小目标的自动准确检测方法
PCT/CN2020/122677 WO2021227366A1 (zh) 2020-05-14 2020-10-22 一种多个小目标的自动准确检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010407732.8A CN111738070A (zh) 2020-05-14 2020-05-14 一种多个小目标的自动准确检测方法

Publications (1)

Publication Number Publication Date
CN111738070A true CN111738070A (zh) 2020-10-02

Family

ID=72647222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010407732.8A Pending CN111738070A (zh) 2020-05-14 2020-05-14 一种多个小目标的自动准确检测方法

Country Status (2)

Country Link
CN (1) CN111738070A (zh)
WO (1) WO2021227366A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537342A (zh) * 2021-07-14 2021-10-22 浙江智慧视频安防创新中心有限公司 一种图像中物体检测方法、装置、存储介质及终端
WO2021227366A1 (zh) * 2020-05-14 2021-11-18 华南理工大学 一种多个小目标的自动准确检测方法
CN114146283A (zh) * 2021-08-26 2022-03-08 上海大学 一种基于目标检测和ssvep的注意力训练系统及方法
CN115601363A (zh) * 2022-12-14 2023-01-13 中建科技集团有限公司(Cn) 一种基于小目标检测算法的装配式建筑产品缺陷检测方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266824A (zh) * 2021-12-10 2022-04-01 北京理工大学 一种基于深度学习的非合作目标相对位姿测量方法、系统
CN114299375B (zh) * 2021-12-20 2024-04-05 大连海洋大学 融合YOLOv4与可变形卷积的水下群体目标检测方法
CN114120077B (zh) * 2022-01-27 2022-05-03 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法
CN114596429B (zh) * 2022-02-28 2024-04-19 安徽大学 一种基于自定义旋转框的麦穗检测方法
CN114863198B (zh) * 2022-03-02 2024-08-06 湖北工业大学 一种基于神经网络的小龙虾质量分级方法
CN114926780A (zh) * 2022-05-13 2022-08-19 合肥中盛水务发展有限公司 一种污水厂生化池运行状况视觉识别及智能分析算法
CN114842470B (zh) * 2022-05-25 2024-05-31 南京农业大学 层叠式笼养模式下的鸡蛋计数及定位系统
CN115187941A (zh) * 2022-06-20 2022-10-14 中国电信股份有限公司 目标检测定位方法、系统、设备及存储介质
CN115905767B (zh) * 2023-01-07 2023-06-02 珠海金智维信息科技有限公司 基于固定候选框目标检测算法的网页登录方法及系统
CN116824467B (zh) * 2023-08-30 2023-11-07 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种排水管道流量智能测量方法
CN117392379B (zh) * 2023-12-13 2024-03-15 深圳须弥云图空间科技有限公司 目标检测的方法和装置
CN118070748B (zh) * 2024-04-16 2024-07-23 中南民族大学 基于目标检测的电路板器件热分析方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611162A (zh) * 2016-12-20 2017-05-03 西安电子科技大学 基于深度学习ssd框架的道路车辆实时检测方法
CN106778833A (zh) * 2016-11-28 2017-05-31 北京航天控制仪器研究所 一种复杂背景下小目标丢失故障的自动识别方法
CN107423760A (zh) * 2017-07-21 2017-12-01 西安电子科技大学 基于预分割和回归的深度学习目标检测方法
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN109325438A (zh) * 2018-09-18 2019-02-12 桂林电子科技大学 实况全景交通标志的实时识别方法
CN109409365A (zh) * 2018-10-25 2019-03-01 江苏德劭信息科技有限公司 一种基于深度目标检测的待采摘水果识别和定位方法
CN109635666A (zh) * 2018-11-16 2019-04-16 南京航空航天大学 一种基于深度学习的图像目标快速检测方法
CN109800716A (zh) * 2019-01-22 2019-05-24 华中科技大学 一种基于特征金字塔的海面遥感图像船舶检测方法
CN109800628A (zh) * 2018-12-04 2019-05-24 华南理工大学 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN110287806A (zh) * 2019-05-30 2019-09-27 华南师范大学 一种基于改进ssd网络的交通标志识别方法
CN110310278A (zh) * 2019-07-08 2019-10-08 国网山东省电力公司建设公司 基于余量切割法的滑动窗口扫描方法
CN110674778A (zh) * 2019-09-30 2020-01-10 安徽创世科技股份有限公司 一种高分辨视频图像目标检测方法及装置
CN110781839A (zh) * 2019-10-29 2020-02-11 北京环境特性研究所 一种基于滑窗的大尺寸图像中小目标识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108281183A (zh) * 2018-01-30 2018-07-13 重庆大学 基于卷积神经网络和迁移学习的宫颈涂片图像诊断系统
CN108460382B (zh) * 2018-03-26 2021-04-06 西安电子科技大学 基于深度学习单步检测器的光学遥感图像舰船检测方法
CN109886359B (zh) * 2019-03-25 2021-03-16 西安电子科技大学 基于卷积神经网络的小目标检测方法及检测系统
CN111126399B (zh) * 2019-12-28 2022-07-26 苏州科达科技股份有限公司 一种图像检测方法、装置、设备及可读存储介质
CN111738070A (zh) * 2020-05-14 2020-10-02 华南理工大学 一种多个小目标的自动准确检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778833A (zh) * 2016-11-28 2017-05-31 北京航天控制仪器研究所 一种复杂背景下小目标丢失故障的自动识别方法
CN106611162A (zh) * 2016-12-20 2017-05-03 西安电子科技大学 基于深度学习ssd框架的道路车辆实时检测方法
CN107423760A (zh) * 2017-07-21 2017-12-01 西安电子科技大学 基于预分割和回归的深度学习目标检测方法
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN109325438A (zh) * 2018-09-18 2019-02-12 桂林电子科技大学 实况全景交通标志的实时识别方法
CN109409365A (zh) * 2018-10-25 2019-03-01 江苏德劭信息科技有限公司 一种基于深度目标检测的待采摘水果识别和定位方法
CN109635666A (zh) * 2018-11-16 2019-04-16 南京航空航天大学 一种基于深度学习的图像目标快速检测方法
CN109800628A (zh) * 2018-12-04 2019-05-24 华南理工大学 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN109800716A (zh) * 2019-01-22 2019-05-24 华中科技大学 一种基于特征金字塔的海面遥感图像船舶检测方法
CN110287806A (zh) * 2019-05-30 2019-09-27 华南师范大学 一种基于改进ssd网络的交通标志识别方法
CN110310278A (zh) * 2019-07-08 2019-10-08 国网山东省电力公司建设公司 基于余量切割法的滑动窗口扫描方法
CN110674778A (zh) * 2019-09-30 2020-01-10 安徽创世科技股份有限公司 一种高分辨视频图像目标检测方法及装置
CN110781839A (zh) * 2019-10-29 2020-02-11 北京环境特性研究所 一种基于滑窗的大尺寸图像中小目标识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
布芳: "基于卷积神经网络的小目标检测与分割算法研究" *
王伟锋 等: "基于感受野的快速小目标检测算法" *
王冬丽 等: "基于特征融合的SSD视觉小目标检测" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021227366A1 (zh) * 2020-05-14 2021-11-18 华南理工大学 一种多个小目标的自动准确检测方法
CN113537342A (zh) * 2021-07-14 2021-10-22 浙江智慧视频安防创新中心有限公司 一种图像中物体检测方法、装置、存储介质及终端
CN114146283A (zh) * 2021-08-26 2022-03-08 上海大学 一种基于目标检测和ssvep的注意力训练系统及方法
CN115601363A (zh) * 2022-12-14 2023-01-13 中建科技集团有限公司(Cn) 一种基于小目标检测算法的装配式建筑产品缺陷检测方法
CN115601363B (zh) * 2022-12-14 2023-05-23 中建科技集团有限公司 一种基于小目标检测算法的装配式建筑产品缺陷检测方法

Also Published As

Publication number Publication date
WO2021227366A1 (zh) 2021-11-18

Similar Documents

Publication Publication Date Title
CN111738070A (zh) 一种多个小目标的自动准确检测方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
US8379994B2 (en) Digital image analysis utilizing multiple human labels
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
US11720789B2 (en) Fast nearest neighbor search for output generation of convolutional neural networks
CN111061889A (zh) 图片多标签的自动识别方法和装置
US11600088B2 (en) Utilizing machine learning and image filtering techniques to detect and analyze handwritten text
CN112861785B (zh) 一种基于实例分割和图像修复的带遮挡行人重识别方法
CN114998220A (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115203408A (zh) 一种多模态试验数据智能标注方法
CN111401309A (zh) 基于小波变换的cnn训练和遥感图像目标识别方法
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN111275694A (zh) 一种注意力机制引导的递进式划分人体解析模型及方法
CN113837015A (zh) 一种基于特征金字塔的人脸检测方法及系统
CN108960005B (zh) 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
CN116228623B (zh) 一种基于等变正则化自监督注意力网络的金属表面缺陷检测方法、设备和储存介质
CN115953584A (zh) 一种具有可学习稀疏性的端到端目标检测方法及系统
Nayak et al. Effective PCB Defect Detection Using Stacked Autoencoder with Bi-LSTM Network.
Wang et al. Oil tank detection via target-driven learning saliency model
CN113591680B (zh) 对地质图片钻井经纬度进行识别的方法和系统
CN114359698B (zh) 一种基于双向跨跃反馈循环结构声纳图像识别方法及系统
CN117593755B (zh) 一种基于骨架模型预训练的金文图像识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201002

WD01 Invention patent application deemed withdrawn after publication