CN114756755A - 一种快速准确的图片检测与语义分类系统及方法 - Google Patents

一种快速准确的图片检测与语义分类系统及方法 Download PDF

Info

Publication number
CN114756755A
CN114756755A CN202210434188.5A CN202210434188A CN114756755A CN 114756755 A CN114756755 A CN 114756755A CN 202210434188 A CN202210434188 A CN 202210434188A CN 114756755 A CN114756755 A CN 114756755A
Authority
CN
China
Prior art keywords
picture
value
prediction
corner point
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210434188.5A
Other languages
English (en)
Inventor
周铖君
陈炜峰
胡凯
尚光涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210434188.5A priority Critical patent/CN114756755A/zh
Publication of CN114756755A publication Critical patent/CN114756755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了图片检测与语义分类技术领域的一种快速准确的图片检测与语义分类系统及方法,包括:读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框。本发明可应用在对于图片的处理,提取图片特征,并将大量的图片进行语义分类,提高检测效率的同时提高处理结果的准确度。

Description

一种快速准确的图片检测与语义分类系统及方法
技术领域
本发明涉及一种快速准确的图片检测与语义分类系统及方法,属于图片检测与语义分类技术领域。
背景技术
伴随着移动互联网、智能手机和社交网络的飞速发展,带来了海量的图片信息,根据2021年移动互联网行业数据研究报告,微信每天所发送的图片为6^7亿张,移动网民每天使用手机的时间约为6^7小时,浏览图片,短视频APP的时间约占50%,图片成为了互联网信息交流主要媒介。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑,而当信息是由图片记载时,我们却无法对图片中的内容进行检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的图像检测技术就显得尤为重要。目前基于深度学习的图片检测方法主要是通过圈出预测矩形框来标定目标物体,来描述图像在图片中的位置。但当两个图像相距很近或重叠的时候,就会导致匹配混乱,准确率也大幅下降,而且会增加优化所需的时间。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种快速准确的图片检测与语义分类系统及方法,可以精确的确定图片中图像的位置,减少搜索图像信息的时间,同时选用神经网络进行迭代优化,可大幅度降低误差。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种快速准确的图片检测与语义分类方法,包括:
读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;
根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;
读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;
基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;
采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;
通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;
根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;
将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;
同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;
将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。
进一步的,若目标图像的所有特征均位于该预测矩形框中,则划分为最佳预测矩形框;若目标图像的超过指定比重的特征均不位于该预测矩形框中或全部特征都不在该预测矩形框中,则划分为无效预测矩形框。
进一步的,所述预测矩形框通过调用ImageDraw模块,直接读取图片文本信息中的Bbox值,使用retangle模块根据Bbox值精确的读取图片中图像的位置的方式构建得到。
进一步的,所述VGG19神经网络模型:
通过Conv2d模块进行卷积,在由多个输入平面组成的输入信号上应用二维卷积,表达式为:
Figure BDA0003612312070000031
其中,*代表2维互相关运算符,out表示输出值,input表示输入值,
Figure BDA0003612312070000032
表示输出通道数,bias表示偏差值,weight表示权重,Ni表示第i张图片最小批量处理的图片数量,Cm表示第m张图片的通道数,k表示卷积核大小,必须为正整数;
通过MaxPool2d模块进行最大池化,在由几个输入平面组成的输入信号上应用一个2D max池,表达式为:
Figure BDA0003612312070000033
input(Ni,Ci,stride[0]×h+m,stride[1]×w+n)
Ni表示第i张图片最小批量处理的图片数量,Ci表示第i张图片的通道数,h表示输入平面的高度,以像素为单位;w表示输入平面的宽度,以像素为单位;m、n表示图片数量,kH为池化核高度,kW为池化核宽度。如果填充非零,则输入在两边隐式填充负无穷大的填充数,stride表示图像在卷积时每一步的步长;
通过Flatten模块进行展成,将连续的灰度范围变平为张量;
通过Linear模块进行线性化处理,对输入数据应用线性转换,表达式为:
Y=XAT+B
Y表示输出值,X表示输入值,A是输入矩阵,T表示对矩阵进行转置,B表示偏差值。
进一步的,所述第一损失函数为CrossEntropyLoss,表达式为:
R(x,y)=L={R1,.Rn..,RN}T
Figure BDA0003612312070000041
{yn≠忽略索引值}
式中,x为输入值,y是目标值,L表示这个矩阵集合的整体,C是类的数量,Rn表示数量为n时的矩阵,N是最小批量处理的图片数量,T表示对矩阵进行转置,yn表示第n个目标值,wyn表示第n个目标值的权重,xn,yn表示数量为n,第n个目标值的权重时的输入值;xn,c表示数量为n,图片种类为C时的输入值;
当给定了忽略索引的值,未减少的损失值描述为:
Figure BDA0003612312070000042
上式取平均值,下式求和;
每一类的概率:适用于每个小批产品需要一个类别以上的标签,未减少的损失描述为:
R(x,y)=L={R1,.Rn..,RN}T
Figure BDA0003612312070000043
式中,x为输入值,y是目标值,C是类的数量,wc表示类的数量为C时的权重,N是最少尺寸的批量处理的图片,yn,c表示类的数量为C时的目标值;
所述第二损失函数为MSELoss,表达式为:
R(x,y)=L={R1,.Rn..,RN}T
Rn=(xn-yn)2
其中,xn表示数量为n时的输入值,yn表示数量为n时的输出值,L表示这个矩阵集合的整体。
进一步的,所述softmax函数通过将多维的特征向量通过对纵向或横向的对比,判断出两个图片的相似程度,以进行回归归类。
进一步的,所述图片文本信息包括像素值的大小、图片的格式和整张图片内容所对应的坐标值。
第二方面,本发明提供了一种快速准确的图片检测与语义分类系统,包括:
图片获取模块:用于读取图片以及图片文本信息;
图片处理模块:用于,基于图片以及图片数据集信息,预测出图片的左上角点与右下角点的坐标;根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;
图片分析模块:用于采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;
优化模块:用于将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;
训练模块:用于同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;
结果输出模块:用于将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。
第三方面,本发明提供了一种快速准确的图片检测与语义分类装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供的一种快速准确的图片检测与语义分类方法在一般的Anchor-Free(一种目标检测网络)目标检测基础上进行了改进和优化,相比较与目前对于图片检测和语义分类的方法,可以直接读取图片文本信息中的Bbox值,精确的框出图片中图像的位置,使用VGG19神经网络模型,对图片尺寸进一步压缩,加快了图片检测与语义分类的速度;将图片输入经过两个损失函数,选择优化器进行反复的迭代优化,并且可以根据输出结果的误差值和正确率大小选择增加整体迭代的轮数或者降低学习速率,得到最佳的图片检测与语义分类的模型,提高了检测结果的准确率。
附图说明
图1是本发明实施例一提供的图片检测与语义分类方法的流程图;
图2是本发明实施例一提供的在Bbox中左上角和右下角坐标的示意图;
图3是本发明实施例一提供的输入图像在VGG19神经网络的流程图;
图4是本发明实施例一提供的训练误差模型图;
图5是本发明实施例一提供的图片检测与语义分类技术方案的流程图。
图6是本发明实施例一提供的目标检测方法的拓扑结构示意图;
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本实施例提供的一种快速准确的图片检测与语义分类方法,包括对图片以及各种图片数据集的读取,加载,并且获取图片的文本信息,我们可以通过构建模型,对整个图片集合进行聚类,将聚类分为一个个更小的子类,为这些子类设计标签,并直接读取图片文本信息中的Bbox值(它表示了图片中各个图像在该图片中的坐标值),精确的框出图像在图片中的具体位置,再通过神经网络进行卷积,最大池化,展成和线性化等步骤,提取出图片的主要特征,同时对模型进行训练优化,从而大大提升对图片的处理速度。这样整个杂乱无章的图片数据集就能够被分为更小的,语义信息更加明确,更精细化的类别,从而提高图片检测的准确率,加快处理速度。
本方法在算法中的具体流程包括:
加载图片数据集,创建图片训练数据集与图片测试数据集两个类别;获取训练数据集与测试数据集的长度,设置参数batch_size(批量处理的图片数量)的值为64;采用VGG19神经网络模型,设置输入图片的像素尺寸,本发明所使用的图片尺寸为32*32像素,输入通道数为3,输出通道数为32,卷积核大小为5,步长为1,进行卷积层1,池化层1,卷积层2,池化层2,展成和线性化处理,提取特征点并压缩图片尺寸大小,得到的图片尺寸为10*10像素,可减少对储存空间的使用;选用损失函数CrossEntropyLoss(交叉熵)和MSELoss(平方差),设置参数学习速率为0.01,调用RMSprop(一种用于深度学习梯度计算的方法)优化器对输入图片进行处理;分别记录训练和测试的次数,设置进行训练的次数;此时训练步骤开始,当需要清除网络模型的默认参数后,测试步骤开始;通过神经网络模型中的softmax(归一化指数函数)函数将所述的多维的特征向量回归归类到对应的图片类型下,将得到的概率值最大的图片类型确定为所述图片的当前图片类型;此时整体测试集上的正确率就可以通过正确的图片类型数量/测试数据集或训练数据集的长度所得出;并且可以根据输出结果的误差值和正确率大小选择增加整体迭代的轮数或者降低学习速率以提高精度。经过成千上万次对于该模型的迭代优化,此时便可以获取最优的图片检测与语义分类模型,在上述训练好的最优模型中调用ImageDraw(图片绘画)模块,直接读取图片文本信息中的Bbox值,使用retangle(矩阵)模块根据Bbox值精确的读取图片中图像的位置,此时能进一步加快图片检测与语义分类的速度和准确度。
请参阅图1,实现上述技术方案的具体步骤包括:
S1.获取各种图片以及图片数据集信息,预测出待处理图片的左上角点与右下角点的坐标。本实施例中可通过在PyTorch-Torchvision-Datasets中下载一些预训练好的,带有标签的大型图片数据集,如COCO,ImageNet等,或者在CVAT在线制作自己的图片数据集,并对图片制作标签,进行分类,导出图片数据集后,采用VGG19神经网络模型,设置训练模型和测试模型,选择RMSprop优化器优化Loss后,再将该模型进行成百上千次的训练,得到正确率更高的网络模型,此模型就可以用来进行图片检测。
S2.根据左上角点与右下角点的图片坐标值,可以框选出目标图片的范围,在此范围内判断目标图像是否在选中的预测矩形框中,如果目标图像的所有特征均位于该预测矩形框中,则划分为最佳预测矩形框;若目标图像的大部分特征位于该预测矩形框中,则划分为有效预测矩形框;反之,若目标图像的小部分特征或全部特征都不在该预测矩形框中,则划分为无效预测矩形框;
S3.通过图片信息中的Bbox值,它表示了图片中各个图像在该图片中的坐标值,分析图片中各个图像在该图片中的具体位置,我们可以使用draw_bounding_boxes(绘制Bbox值边界模块)在图像上绘制方框。框的格式为(Xmin,Ymin,Xmax,Ymax)。X轴与Y轴初始的Bbox值为图像的左上角点,X轴与Y轴初始的Bbox值分别加上高度和宽度信息得到为图像的右下角点;
例如,在coco标注中的Bbox信息给的是(x,y,w,h),分别代表在x轴坐标,y轴坐标,宽度和高度,在算法中,需要把其转化为(x1,x2,y1,y2)。
将一个图片上的左上角坐标设置为(0,0),这样转换格式就不容易出问题,同时,如果图片水平翻转,坐标将会发生变化,因为(x1,y1)总是代表Bbox的左上角,那么转化的时候,看看转换后那个是新的左上角,那个是新的原点,然后在新的坐标系中计算坐标,图2所代表的就是在Bbox中左上角和右下角坐标的示意图。
S4.采用VGG19神经网络模型,并通过神经网络模型计算得到多维的特征向量,请参阅图3,将图片在神经网络中进行卷积,最大池化,再将图片进行展成和线性化处理,最大程度上对图片容量进行压缩,提取主要特征点,可大幅度加快识别相同类型图片的速度;
示例性地,VGG19神经网络模型中的Conv2d模块是指在由多个输入平面组成的输入信号上应用二维卷积。
Figure BDA0003612312070000101
其中,*代表2维互相关运算符,out表示输出值,input表示输入值,
Figure BDA0003612312070000102
表示输出通道数,bias表示偏差值,weight表示权重,Ni表示第i张图片最小批量处理的图片数量,Cm表示第m张图片的通道数,k表示卷积核大小,必须为正整数;
VGG19神经网络模型中的MaxPool2d模块是指在由几个输入平面组成的输入信号上应用一个2D max池。
Figure BDA0003612312070000103
input(Ni,Ci,stride[0]×h+m,stride[1]×w+n)
Ni表示第i张图片最小批量处理的图片数量,Ci表示第i张图片的通道数,h表示输入平面的高度,以像素为单位;w表示输入平面的宽度,以像素为单位;m、n表示图片数量,kH为池化核高度,kW为池化核宽度。如果填充非零,则输入在两边隐式填充负无穷大的填充数,stride表示图像在卷积时每一步的步长;
VGG19神经网络模型中的Flatten模块是指将连续的灰度范围变平为张量;
VGG19神经网络模型中的Linear模块是指对输入数据应用线性转换,该模型只支持TensorFloat32;
y=XAT+B
Y表示输出值,X表示输入值,A是输入矩阵,T表示对矩阵进行转置,B表示偏差值。
S5.通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;
S6.根据图片的Bbox值构建左上角点与右下角点的第一损失函数,同时,在经过一轮所构建的第二损失函数;
S6中的第一损失函数为CrossEntropyLoss,输入应该包含每个类的原始的、未标准化的分数。对于未批处理的输入,输入必须是一个大小为(C)的张量。
R(x,y)=L={R1,.Rn..,RN}T
Figure BDA0003612312070000111
{yn≠忽略索引值}
式中,x为输入值,y是目标值,L表示这个矩阵集合的整体,C是类的数量,Rn表示数量为n时的矩阵,N是最小批量处理的图片数量,T表示对矩阵进行转置,yn表示第n个目标值,wyn表示第n个目标值的权重,xn,yn表示数量为n,第n个目标值的权重时的输入值;xn,c表示数量为n,图片种类为C时的输入值;如果给定了忽略索引的值,这个损失函数也将按照这个类的索引值。这种情况下未减少的损失值可以描述为:
Figure BDA0003612312070000112
上式取平均值,下式求和。
每一类的概率:适用于每个小批产品需要一个类别以上的标签,如混合标签、标签平滑等。这种情况下未减少的损失可以描述为:
R(x,y)=L={R1,.Rn..,RN}T
Figure BDA0003612312070000121
式中x为输入值,y是目标值,C是类的数量,wc表示类的数量为C时的权重,N是最少尺寸的批量处理的图片,yn,c表示类的数量为C时的目标值。
S6中的第二损失函数为MSELoss,输入值X与目标y每个元素的平均平方误差。
R(x,y)=L={R1,.Rn..,RN}T
Rn=(xn-yn)2
xn表示数量为n时的输入值,yn表示数量为n时的输出值,L表示这个矩阵集合的整体。
S7.根据所述第一损失函数对有效预测框的识别结果进行优化,同时再将优化结果导入第二损失函数对上述有效预测框的识别结果进行第二轮优化;同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代,将得到的概率值最大的图片类型确定为所述图片的当前图片类型,提高了输出结果的准确率。在一种实施方式中,可以使用softmax函数,计算神经网络模型得到的多维的特征向量,通过对纵向或横向的对比,可以判断出两个图片的相似程度,将得到的概率值最大的图片类型确定为所述图片的当前图片类型。
S8.将优化后得到的输出值与设定阈值进行对比,将大于设定阈值的输出值作为结果输出。例如,此时可设置一个相似程度的阈值(≧0.6),当组成有效预测矩形框的左上角点与右下角点的匹配度大于该阈值时,保留该有效预测矩形框,否则舍弃,将有效的值作为输出值。图4是在78000次迭代后所得到的优化模型,该模型的误差只有0.02,具有非常高的精度,可以极大的提高目标检测与图片分类的准确度,且处理一张图片所需时间只有13ms,准确率接近70%。达到了快速、准确的目的。
图5为本发明实施例中的图片检测与语义分类技术方案的流程图。
将准备好的图片数据集导入后,可通过调用ImageDraw模块,直接读取图片文本信息中的Bbox值,使用retangle模块根据Bbox值精确的读取图片中图像的位置,构建预测矩形框;创建图片训练数据集与图片测试数据集两个类别;获取训练数据集与测试数据集的长度;采用VGG19神经网络模型,对图片进行卷积,最大池化,展成和线性化处理,提取特征点并压缩图片尺寸大小;选用损失函数,调整学习速率,选用RMSprop优化器对输入图片进行处理;分别记录训练和测试的次数,设置进行训练的次数;此时训练步骤开始,当需要清除网络模型的默认参数后,测试步骤开始;通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,将得到的概率值最大的图片类型确定为所述图片的当前图片类型;此时整体测试集上的正确率就可以通过正确的图片类型数量/测试数据集或训练数据集的长度所得出,将优化后得到的输出值与设定阈值进行对比,将大于设定阈值的输出值作为结果输出。
实施例二:
请参阅图6,一种快速准确的图片检测与语义分类系统,可实现实施例一所述的一种快速准确的图片检测与语义分类方法,主要包含六个模块:图片获取模块,图片处理模块,图片分析模块,优化模块,训练模块和结果输出模块,其中:
图片获取模块:用于读取图片以及图片文本信息;
图片处理模块:用于,基于图片以及图片数据集信息,预测出图片的左上角点与右下角点的坐标;根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;
图片分析模块:用于采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;
优化模块:用于将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;
训练模块:用于同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;
结果输出模块:用于将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。
本模型的构建,可在集成开发环境中准备数据,加载数据,构建网络模型,设置损失函数,设置优化器,开始训练,开始测试,输出正确率,展示成果,并保存模型。
实施例三:
本发明实施例还提供了一种快速准确的图片检测与语义分类装置,可实现实施例一所述的一种快速准确的图片检测与语义分类方法,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行下述方法的步骤:
读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;
根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;
读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;
基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;
采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;
通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;
根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;
将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;
同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;
将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。
实施例四:
本发明实施例还提供了一种计算机可读存储介质,可实现实施例一所述的一种快速准确的图片检测与语义分类方法,其上存储有计算机程序,该程序被处理器执行时实现下述方法的步骤:
读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;
根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;
读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;
基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;
采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;
通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;
根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;
将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;
同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;
将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种快速准确的图片检测与语义分类方法,其特征是,包括:
读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;
根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;
读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;
基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;
采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;
通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;
根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;
将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;
同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;
将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。
2.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,若目标图像的所有特征均位于该预测矩形框中,则划分为最佳预测矩形框;若目标图像的超过指定比重的特征均不位于该预测矩形框中或全部特征都不在该预测矩形框中,则划分为无效预测矩形框。
3.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述预测矩形框通过调用ImageDraw模块,直接读取图片文本信息中的Bbox值,使用retangle模块根据Bbox值精确的读取图片中图像的位置的方式构建得到。
4.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述VGG19神经网络模型:
通过Conv2d模块进行卷积,在由多个输入平面组成的输入信号上应用二维卷积,表达式为:
Figure FDA0003612312060000021
其中,*代表2维互相关运算符,out表示输出值,input表示输入值,
Figure FDA0003612312060000022
表示输出通道数,bias表示偏差值,weight表示权重,Ni表示第i张图片最小批量处理的图片数量,Cm表示第m张图片的通道数,k表示卷积核大小,必须为正整数;
通过MaxPool2d模块进行最大池化,在由几个输入平面组成的输入信号上应用一个2Dmax池,表达式为:
Figure FDA0003612312060000023
input(Ni,Ci,stride[0]×h+m,stride[1]×w+n)
Ni表示第i张图片最小批量处理的图片数量,Ci表示第i张图片的通道数,h表示输入平面的高度,以像素为单位;w表示输入平面的宽度,以像素为单位;m、n表示图片数量,kH为池化核高度,kW为池化核宽度。如果填充非零,则输入在两边隐式填充负无穷大的填充数,stride表示图像在卷积时每一步的步长;
通过Flatten模块进行展成,将连续的灰度范围变平为张量;
通过Linear模块进行线性化处理,对输入数据应用线性转换,表达式为:
Y=XAT+B
Y表示输出值,X表示输入值,A是输入矩阵,T表示对矩阵进行转置,B表示偏差值。
5.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述第一损失函数为CrossEntropyLoss,表达式为:
R(x,y)=L={R1,.Rn..,RN}T
Figure FDA0003612312060000031
{yn≠忽略索引值}
式中,x为输入值,y是目标值,L表示这个矩阵集合的整体,C是类的数量,Rn表示数量为n时的矩阵,N是最小批量处理的图片数量,T表示对矩阵进行转置,yn表示第n个目标值,wyn表示第n个目标值的权重,xn,yn表示数量为n,第n个目标值的权重时的输入值;xn,c表示数量为n,图片种类为C时的输入值;
当给定了忽略索引的值,未减少的损失值描述为:
Figure FDA0003612312060000032
上式取平均值,下式求和;
每一类的概率:适用于每个小批产品需要一个类别以上的标签,未减少的损失描述为:
R(x,y)=L={R1,.Rn..,RN}T
Figure FDA0003612312060000041
式中,x为输入值,y是目标值,C是类的数量,wc表示类的数量为C时的权重,N是最少尺寸的批量处理的图片,yn,c表示类的数量为C时的目标值;
所述第二损失函数为MSELoss,表达式为:
R(x,y)=L={R1,.Rn..,RN}T
Rn=(xn-yn)2
其中,xn表示数量为n时的输入值,yn表示数量为n时的输出值,L表示这个矩阵集合的整体。
6.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述softmax函数通过将多维的特征向量通过对纵向或横向的对比,判断出两个图片的相似程度,以进行回归归类。
7.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述图片文本信息包括像素值的大小、图片的格式和整张图片内容所对应的坐标值。
8.一种快速准确的图片检测与语义分类系统,其特征是,包括:
图片获取模块:用于读取图片以及图片文本信息;
图片处理模块:用于,基于图片以及图片数据集信息,预测出图片的左上角点与右下角点的坐标;根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;
图片分析模块:用于采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;
优化模块:用于将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;
训练模块:用于同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;
结果输出模块:用于将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。
9.一种快速准确的图片检测与语义分类装置,其特征是,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
CN202210434188.5A 2022-04-24 2022-04-24 一种快速准确的图片检测与语义分类系统及方法 Pending CN114756755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210434188.5A CN114756755A (zh) 2022-04-24 2022-04-24 一种快速准确的图片检测与语义分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210434188.5A CN114756755A (zh) 2022-04-24 2022-04-24 一种快速准确的图片检测与语义分类系统及方法

Publications (1)

Publication Number Publication Date
CN114756755A true CN114756755A (zh) 2022-07-15

Family

ID=82333728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210434188.5A Pending CN114756755A (zh) 2022-04-24 2022-04-24 一种快速准确的图片检测与语义分类系统及方法

Country Status (1)

Country Link
CN (1) CN114756755A (zh)

Similar Documents

Publication Publication Date Title
CN110597878B (zh) 一种多模态数据的跨模态检索方法、装置、设备及介质
CN112115291B (zh) 一种基于深度学习的三维室内模型检索方法
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN117557872B (zh) 一种优化存储模式的无监督异常检测方法及装置
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
Ouf Leguminous seeds detection based on convolutional neural networks: Comparison of faster R-CNN and YOLOv4 on a small custom dataset
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN117312594A (zh) 一种融合双尺度特征的草图化机械零件库检索方法
CN114998647B (zh) 基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法
CN116883740A (zh) 相似图片识别方法、装置、电子设备和存储介质
CN117036897A (zh) 一种基于Meta RCNN的少样本目标检测方法
CN110717405A (zh) 人脸特征点定位方法、装置、介质及电子设备
CN114756755A (zh) 一种快速准确的图片检测与语义分类系统及方法
CN110717068A (zh) 一种基于深度学习的视频检索方法
CN115035408A (zh) 基于迁移学习和注意力机制的无人机影像树种分类方法
CN114782983A (zh) 基于改进特征金字塔和边界损失的道路场景行人检测方法
CN113627522A (zh) 基于关系网络的图像分类方法、装置、设备及存储介质
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、系统及应用
CN117830601B (zh) 一种基于弱监督的三维视觉定位方法、装置、设备及介质
CN117830537A (zh) 一种弱监督的3d场景图生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination