CN113420745B - 基于图像的目标识别方法、系统、存储介质及终端设备 - Google Patents
基于图像的目标识别方法、系统、存储介质及终端设备 Download PDFInfo
- Publication number
- CN113420745B CN113420745B CN202110978339.9A CN202110978339A CN113420745B CN 113420745 B CN113420745 B CN 113420745B CN 202110978339 A CN202110978339 A CN 202110978339A CN 113420745 B CN113420745 B CN 113420745B
- Authority
- CN
- China
- Prior art keywords
- target
- image
- images
- identification
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 55
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 27
- 238000012795 verification Methods 0.000 claims description 9
- 238000013434 data augmentation Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010191 image analysis Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000003321 amplification Effects 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于图像的目标识别方法、系统、存储介质及终端设备,该方法包括:获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试;获取输入图像,并将所述输入图像分割成预设份数的待识别图像,且每两相邻所述待识别图像之间均有重叠区域;将每份超分辨率重建后的待识别图像输入到所述最终目标识别模型当中进行目标检测识别;将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果。本发明提出的基于图像的目标识别方法,模型泛化能力强,能够极大的提高对小目标的识别精度。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于图像的目标识别方法、系统、存储介质及终端设备。
背景技术
随着科技的不断发展,目标识别逐渐成为计算机视觉和数字图像处理的一个非常热门的方向,被广泛应用于机器人、无人机、智能视频监控、工业检测及航空航天等诸多领域,利用目标识别技术,在减少人力资源成本的消耗方面表现出了非常重要的现实意义。
然而,现有技术中,基于hand-made feature的传统算法,例如HOG、SIFT、图像金字塔等,由于难以同时考虑到浅层特征包含的空间信息和深层特征包含的语义信息,且一般不会从数据源头对目标区域做处理,从而导致在对小目标的检测识别过程中,容易出现人工操作复杂度高,模型泛化能力差以及精确度较低的缺点。
发明内容
基于此,本发明的目的是提出一种基于图像的目标识别方法、系统、存储介质及终端设备,以解决上述问题。
根据本发明提出的基于图像的目标识别方法,所述方法包括:
获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型;
获取输入图像,并将所述输入图像分割成预设份数的待识别图像,且每两相邻所述待识别图像之间均有重叠区域,并对每份所述待识别图像进行超分辨率重建,得到多份超分辨率重建后的待识别图像;
将每份超分辨率重建后的待识别图像输入到所述最终目标识别模型当中进行目标检测识别,得到多份目标检测识别后的图像;
将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果。
综上,根据上述的基于图像的目标识别方法,通过获取数据集对预设初始目标识别模型进行训练、验证以及测试,以构建最终目标识别模型,从而提高模型的检测精度以及泛化能力,通过将输入图像分割成多份,并对分割后的每份图像进行超分辨率重建,而后再输入到最终目标识别模型中,以使最终目标检测模型能够更容易学习到输入图像上的目标,从而极大地提高对小目标识别的精确度。
进一步地,所述获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型的步骤之前还包括:
获取多张含有多种已知目标的图像;
对已知目标的图像中含有所述目标的目标区域进行标注,并根据标注结果生成与已知目标的图像一一对应的xml格式的标注文件,所述标注文件至少包括已知目标的图像的名称、路径、尺寸、目标类别、标注框位置信息。
进一步地,所述获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型的步骤包括:
对所述标注文件进行编号,并按所述编号依次获取所述标注文件中每张图像的所述标注框的坐标;
根据所述标注框的坐标计算出所述标注框的尺寸和中点坐标;
从标注文件内的图像中分离出感兴趣区域,所述感兴趣区域包含所述目标区域;
从所述感兴趣区域中提取出所述目标区域,并对所述目标区域进行超分辨率上采样以获取重建后的目标区域,重建后的目标区域与所述感兴趣区域的尺寸相等;
将重建后的目标区域放回到图像的感兴趣区域位置上,以使重建后的目标区域完全覆盖图像中的感兴趣区域,更新所有的标注文件内的图像,并汇总所有更新后的图像以获取所述数据集。
进一步地,所述获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型的步骤还包括:
按所述目标类别将所述数据集分成多组图像样本,并统计每组图像样本的数据量;
判断每组图像样本的数据量是否低于预设阀值,若是则获取数据量偏少的一组或多组图像样本;
将数据量偏少的每组图像样本进行数据增广以获取均衡化的数据集;
将均衡化的数据集按预设比例制成训练集、验证集以及测试集,并根据所述训练集、验证集以及测试集对所述预设目标模型分别进行训练、验证以及测试,以得到最终目标识别模型。
进一步地,所述将数据量偏少的每组图像样本进行数据增广以获取均衡化的数据集的步骤包括:
将数据量偏少的图像样本中的所有图像进行编号,并依次提取出图像中的目标;
从所述数据集中随机取出预设数量的图像;
将获取的目标分别插入随机取出的所有图像之中,以合成新图像;
根据获取的新图像更新所述数据集,得到均衡化的数据集。
进一步地,所述将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果的步骤之后还包括:
根据输出的识别结果获取对应的结果词向量;
加载预置的语音内容的关键词词向量列表,并计算所述关键词词向量与所述结果词向量的相似度以获取相似度列表;
根据所述相似度列表中最大的相似度值获取对应的所述语音内容,并播报所述语音内容。
进一步地,所述最终目标识别模型包括输入端、Backbone、Neck、Prediction,其中:
输入端采用数据增强后制作的数据集,并自适应锚框计算;
Backbone采用Focus和CSP结构以提升提取底层特征的能力;
最终目标识别模型的Prediction包括4个不同的尺度特征,其中:
第21层的输出为第1个尺度,第24层的输出为第2个尺度,第27层的输出为第3个尺度,第30层的输出为第4个尺度,且4个尺度的感受野依次增大。
根据本发明实施例的一种图像的目标识别系统,所述图像的目标识别系统包括:
模型构建模块:用于获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型;
图像分析模块:获取输入图像,并将所述输入图像分割成预设份数的待识别图像,且每两相邻所述待识别图像之间均有重叠区域,并对每份所述待识别图像进行超分辨率重建,得到多份超分辨率重建后的待识别图像;
检测识别模块:用于将每份超分辨率重建后的待识别图像输入到所述最终目标识别模型当中进行目标检测识别,得到多份目标检测识别后的图像;
输出模块:将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果。
本发明另一方面还提供一种存储介质,包括所述存储介质存储一个或多个程序,该程序被执行时实现如上述的基于图像的目标识别方法。
本发明另一方面还提供一种终端设备,所述终端设备包括存储器和处理器,其中:
所述存储器用于存放计算机程序;
所述处理器用于执行所述存储器上所存放的计算机程序时,实现如上述的基于图像的目标识别方法。
附图说明
图1为本发明第一实施例提出的基于图像的目标识别方法的流程图;
图2为本发明第二实施例提出的基于图像的目标识别方法的流程图;
图3为本发明第二实施例中步骤S13的流程图;
图4为本发明第二实施例中的像素与亚像素示意图;
图5为本发明第二实施例中的ESPCN网络算法模型示意图;
图6为本发明第三实施例中提出的图像的目标识别系统的结构示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干个实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1,所示为本发明第一实施例中的基于图像的目标识别方法的流程图,该方法包括步骤S01至步骤S04,其中:
步骤S01:获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型。
可以理解的,数据集中含有的均为已确认存在目标的真实图像,利用这些真实图像对预设初始目标识别模型进行训练,可以起到拟合数据的作用,从而有利于调整预设初始目标识别模型的参数,通过对该预设初始目标识别模型进行验证,有利于评估模型的超参数,最后对该预设初始目标识别模型进行测试,以测试该模型的泛化能力,防止出现过拟合的情况,从而得到用于识别图像的最终目标识别模型。
步骤S02:获取输入图像,将所述输入图像分割成预设份数的待识别图像,且每相邻两份所述待识别图像之间均有重叠区域,并对每份所述待识别图像进行超分辨率重建,得到多份超分辨率重建后的待识别图像。
可以理解的是,成功构建最终目标识别模型后,获取输入图像,该输入图像即为需要进行识别检测的图像,通过将输入图像分割成多份,能够避免出现漏检的情况,使得最终目标识别模型更容易发现待识别图像中的目标。
需要指出的是,在本实施例中,预设份数具体设置为4份,且每相邻两份待识别图像之间有15%的重叠区域,可以理解的,在本发明的其他实施例中,预设份数还可以设置成其他数值,但若份数偏低,会导致最终目标识别模型对待识别图像中进行推理时难以发现小目标,影响识别精确度,若份数偏高,会导致最终目标识别模型的推理时间过长。
进一步的,对输入图像按预设份数分割完成后,将得到的多份待识别图像进行超分辨率重建,以得到高像素的待识别图像,有利于最终目标识别模型在对待识别图像进行推理时,更容易识别待识别图像中的目标。
步骤S03:将每份超分辨率重建后的待识别图像输入到所述最终目标识别模型当中进行目标检测识别,得到多份目标检测识别后的图像。
可以理解的,将多份重建后的高像素的待识别图像输入到最终目标识别模型中进行推理,并依次得到与每份待识别图像对应的识别后的图像。
需要说明的是,最终目标识别模型共包括四部分,分别为输入端、Backbone、Neck、Prediction,其中输入端采用数据增强后制作的数据集,并自适应锚框计算;Backbone为最终目标识别模型的骨干网络,用于提取目标的特征,常用的有resnet、mobilenet等网络,在本实施例中Backbone采用Focus和CSP结构以提升提取底层特征的能力;Neck为最终目标识别模型的颈部,常采用FPN和PAN结构;Prediction为最终目标识别模型的输出端,用于输出识别结果,最终目标识别模型的Prediction包括4个不同的尺度特征,其中第21层的输出为第1个尺度,第24层的输出为第2个尺度,第27层的输出为第3个尺度,第30层的输出为第4个尺度,且4个尺度的感受野依次增大,小的感受野负责检测小的目标,该最终目标识别模型通过融合4个不同的尺度,可以检测到小于8*8的目标。
步骤S04:将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果。
可以理解的,将多份目标检测识别后的图像进行拼接由于在对输入图像进行分割时,每两份相邻待识别图像之间均有重叠区域,因此在对待识别图像分别进行检测识别后,得到的多份目标检测识别后的图像之间仍然会存在重叠区域,基于此,判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标是非常有必要的,若存在则过滤掉其中一个目标,以获取结果图像,最后输出识别结果。
综上,根据上述的基于图像的目标识别方法,通过获取数据集对预设初始目标识别模型进行训练、验证以及测试,以构建最终目标识别模型,从而提高模型的检测精度以及泛化能力,通过将输入图像分割成多份,并对分割后的每份图像进行超分辨率重建,而后再输入到最终目标识别模型中,以使最终目标检测模型能够更容易学习到输入图像上的目标,从而极大地提高对小目标识别的精确度。
请参阅图2,所示为本发明第二实施例中的基于图像的目标识别方法,该方法包括步骤S11至步骤S19,其中:
步骤S11:获取多张含有多种已知目标的图像;
步骤S12:对已知目标的图像中含有所述目标的目标区域进行标注,并根据标注结果生成与已知目标的图像一一对应的xml格式的标注文件。
需要说明的是,在获取数据集之前,需要输入多张含有多种已知目标的图像,这些图像相当于原始数据,由于在现实中采集到的原始图像数据不可避免地会存在一些模糊的、不含目标的图片,因此对原始图像数据进行预处理是十分有必要的。
具体的,对采集到的原始图像进行手动标注,以标注出含有目标的目标区域,并根据该标注结果生成与已知目标的图像一一对应的xml格式的标注文件,所述标注文件包括已知目标的图像的名称、路径、尺寸、目标类别、标注框位置等信息。
步骤S13:获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试;
进一步的,请参阅图3,步骤S13包括步骤S131至步骤S139,其中:
步骤S131:对所述标注文件进行编号,并按所述编号依次获取所述标注文件中每张图像的所述标注框的坐标;
步骤S132:根据所述标注框的坐标计算出所述标注框的尺寸和中点坐标;
步骤S133:从标注文件内的图像中分离出感兴趣区域,所述感兴趣区域包含所述目标区域;
在本实施例中,感兴趣区域为目标区域尺寸的两倍,且目标区域位于感兴趣区域的中心位置;
步骤S134:从所述感兴趣区域中提取出所述目标区域,并对所述目标区域进行超分辨率上采样以获取重建后的目标区域,重建后的目标区域与所述感兴趣区域的尺寸相等;
步骤S135:将重建后的目标区域放回到图像的感兴趣区域位置上,以使重建后的目标区域完全覆盖图像中的感兴趣区域,更新所有的标注文件内的图像,并汇总所有更新后的图像以获取所述数据集。
需要指出的是,标注文件中的图像一般为低分辨率图像,同理,包括目标的感兴趣区域的分辨率也较低,在对感兴趣区域进行超分辨率重建时,采用的是ESPCN网络算法模型,基于该算法模型,通过在低分辨率图像上提取特征,并采用亚像素卷积方法得到高分辨率图片,通过对感兴趣区域进行超分辨率重建,能够极大地提高感兴趣区域中的目标的像素,以使最终目标识别模型的检测识别更准确。
具体的,请参阅图4,两个感官原件上的像素之间存在4.5um的距离,宏观上两像素是紧密连接在一起的,微观上看两者之间还有无数微小的东西存在,这些存在于两个物理像素之间的像素就叫做亚像素,每4个点围成的矩形区域可视为实际原件上的像素点,黑色点可视为亚像素点。
示例而非限定,请参阅图5,所示为ESPCN网络算法模型,输入一张1*w*h图片,其中w表示宽度,h表示高度,先经过步长为1的正常卷积计算,再经过亚像素卷积层得到高分辨率图像。模型前部分仅对低分辨率部分操作计算,并没有涉及高分辨率先验信息;模型末端通过亚像素卷积层实现从低分辨率LR映射到高分辨率HR。例如,若原始输入图片为1*w*h,倍率r为3,通过亚像素卷积重新排列,得到1*rh*rw。由于卷积计算都是在低分辨率空间中进行,所以会显著提升计算速率,对于图像的处理可以达到实时处理。
步骤S136:按所述目标类别将所述数据集分成多组图像样本,并统计每组图像样本的数据量;
可以理解的,数据集中包含多种目标类别的图像,例如需要识别三个目标类别,该三个目标类别分别为枪型摄像头、球形摄像头、箱形摄像头,由于数据集是采集现实中的图像制成的,因此数据集中关于这三个目标的图像样本的数据量一般难以保持平衡,那么对于数据量偏少的图像样本,在训练预设初始目标识别模型时由于数据量过低产生的误差很高,为了使最终目标识别模型更加理想化,在对预设初始目标识别模型训练前还需统计各组图像样本的数据量,以对数据量偏少的图像样本进行数据增广。
步骤S137:判断每组图像样本的数据量是否低于预设阀值,若是则获取数据量偏少的一组或多组图像样本;
可以理解的,数据量偏少的图像样本可能是一组,也可能是多组,在出现多组图像样本的数据量偏少的情况下,需要分别对每组数据量偏少的图像样本进行数据增广。
步骤S138:将数据量偏少的每组图像样本进行数据增广以获取均衡化的数据集;
具体的,首先统计每组数据量偏少的图像样本,数量记为n张,并将数据量偏少的图像样本中的所有图像进行编号,再按照编号依次提取出图像中的目标,从所述数据集中随机取出预设数量的图像,并将获取的目标分别插入随机取出的所有图像之中,以合成新图像;根据获取的所有新图像更新所述数据集,得到均衡化的数据集在本实施例中,由于预设数量跟目标识别需求有关,不作具体限定,预设数量记为m,则数据增广后的图像样本的数据量为m*n张。
步骤S139:将均衡化的数据集按预设比例制成训练集、验证集以及测试集,并根据所述训练集、验证集以及测试集对所述预设目标模型分别进行训练、验证以及测试,以得到最终目标识别模型。
需要说明的是,在本实施例中,将均衡化的数据集按照8:1:1划分为训练集、验证集以及测试集,通过对数据集进行数据增广,从而增加图像中的目标数量,以使在用该数据集对预设初始目标识别模型进行训练、验证以及测试后,得到的最终目标识别模型更容易注意到目标,有利于提高最终目标识别模型对小目标识别的精确度。
步骤S14:获取输入图像,并将所述输入图像分割成预设份数的待识别图像,且每两相邻所述待识别图像之间均有重叠区域,并对每份所述待识别图像进行超分辨率重建,得到多份超分辨率重建后的待识别图像。
步骤S15:将每份超分辨率重建后的待识别图像输入到所述最终目标识别模型当中进行目标检测识别,得到多份目标检测识别后的图像。
步骤S16:将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果。
可以理解的,对于任意两份相邻的目标检测识别后的图像,它们之间由于存在重叠区域,若在重叠区域内存在目标,则经过目标检测识别处理,在这两份识别后的图像中均会有对应的锚框,通过判断重叠区域内的两个锚框的重合面积是否大于预设面积阀值,在本实施例中,预设面积阀值设置为0.5,当这两份识别后的图像中的锚框的重合面积大于0.5时,即判断这两个锚框对应的目标是重复的,此时需要舍弃其中一个置信度得分较低的目标,即实现了对拼接图像时重叠区域的目标检测结果的过滤。
具体的,在本实施例中,过滤掉结果图像中多余的锚框需经过soft-NMS算法进行处理,NMS算法应用于目标检测任务的后期,用于过滤掉繁杂的锚框,具体操作为,首先将锚框按照置信度得分进行排序,以保留得分高的锚框,同时删除与之重叠面积,即iou(两个锚框的交集与两者的并集的比值)大于设定阈值的其他锚框,该方式会把置信度得分不高,但是框选位置比较准确的锚给过滤掉。
进一步的,soft-NMS算法即软化非极大值抑制算法,在一定程度上缓解了NMS算法的缺陷,soft-nms算法不仅按照置信度得分排序后粗鲁地把iou大于阈值的anchor(锚框)直接删除,同时借助一个加权因子来削弱置信度得分,具体计算方式有两种,分别为线性加权和高斯加权,其中:
采用线性加权的方式得到置信度得分的计算速度较快,具体公式为:
其中:bi表示标注框,Si表示置信度得分,M表示置信度得分最高的框,iou(M,bi)表示得分最高的框与其他框的iou值,Nt表示阈值。
采用高斯加权得到置信度得分的过滤效果较好,更加符合正态分布,具体公式为:
其中:bi表示标注框,Si表示置信度得分,M表示置信度得分最高的框,iou(M,bi)表示得分最高的框与其他框的iou值,σ表示方差,D表示自定义的数据集。
步骤S17:根据输出的识别结果获取对应的结果词向量;
可以理解的,词向量又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。
步骤S18:加载预置的语音内容的关键词词向量列表,并计算所述关键词词向量与所述结果词向量的相似度以获取相似度列表;
可以理解的,在获取到与识别结果对应的结果词向量后,需要将该结果词向量与关键词词向量列表中的所有关键词词向量进行相似度计算,以得到相似度列表。
步骤S19:根据所述相似度列表中最大的相似度值获取对应的所述语音内容,并播报所述语音内容。
可以理解的,当获取到相似度列表后,对其中的相似度进行大小比较,以筛选出最大的相似度值,并根据最大的相似度值提取对应的语音内容,同时播报该语音内容,以告知用户识别结果。
综上,根据上述的基于图像的目标识别方法,通过对感兴趣区域进行超分辨率重建,能够极大地提高感兴趣区域中的目标的像素,从而制成数据集,获取的数据集再对预设初始目标识别模型进行训练、验证以及测试,以构建最终目标识别模型,从而提高模型的检测精度以及泛化能力,通过将输入图像分割成多份,并对分割后的每份图像进行超分辨率重建,而后再输入到最终目标识别模型中,以使最终目标检测模型能够更容易学习到输入图像上的目标,从而极大地提高对小目标识别的精确度;此外,根据图像识别结果与预置关键词词向量建立词向量相似度列表的获取语音播报方法,能够使得语音播报内容更加丰富,并能够及时将识别结果告知用户。
请参阅图6,所示为本发明第三实施例中的图像的目标识别系统,所述图像的目标识别系统包括:
图像采集模块10:用于获取多张含有多种已知目标的图像。
图像标注模块20:用于对已知目标的图像中含有所述目标的目标区域进行标注,并根据标注结果生成与已知目标的图像一一对应的xml格式的标注文件,所述标注文件至少包括已知目标的图像的名称、路径、尺寸、目标类别、标注框位置信息。
模型构建模块30:用于获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型。
进一步的,模型构建模块30还包括:
编号执行单元:用于对所述标注文件进行编号,并按所述编号依次获取所述标注文件中每张图像的所述标注框的坐标;
第一计算单元:用于根据所述标注框的坐标计算出所述标注框的尺寸和中点坐标;
剪切单元:用于从标注文件内的图像中分离出感兴趣区域,所述感兴趣区域包含所述目标区域;
超分辨率执行单元:用于从所述感兴趣区域中提取出所述目标区域,并对所述目标区域进行超分辨率上采样以获取重建后的目标区域,重建后的目标区域与所述感兴趣区域的尺寸相等;
粘贴单元:用于将重建后的目标区域放回到图像的感兴趣区域位置上,以使重建后的目标区域完全覆盖图像中的感兴趣区域,更新所有的标注文件内的图像,并汇总所有更新后的图像以获取所述数据集;
统计单元:用于按所述目标类别将所述数据集分成多组图像样本,并统计每组图像样本的数据量;
数据增广识别单元:用于判断每组图像样本的数据量是否低于预设阀值,若是则获取数据量偏少的一组或多组图像样本;
数据增广执行单元:用于将数据量偏少的每组图像样本进行数据增广以获取均衡化的数据集;
模型构建单元:用于将均衡化的数据集按预设比例制成训练集、验证集以及测试集,并根据所述训练集、验证集以及测试集对所述预设目标模型分别进行训练、验证以及测试,以得到最终目标识别模型。
图像分析模块40:用于获取输入图像,并将所述输入图像分割成预设份数的待识别图像,且每两相邻所述待识别图像之间均有重叠区域,并对每份所述待识别图像进行超分辨率重建,得到多份超分辨率重建后的待识别图像。
检测识别模块50:用于将每份超分辨率重建后的待识别图像输入到所述最终目标识别模型当中进行目标检测识别,得到多份目标检测识别后的图像。
输出模块60:用于将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果。
结果词向量获取模块70:用于根据输出的识别结果获取对应的结果词向量。
相似度获取模块80:用于加载预置的语音内容的关键词词向量列表,并计算所述关键词词向量与所述结果词向量的相似度以获取相似度列表。
语音播报模块90:用于根据所述相似度列表中最大的相似度值获取对应的所述语音内容,并播报所述语音内容。
根据上述的基于图像的目标识别方法,通过对感兴趣区域进行超分辨率重建,能够极大地提高感兴趣区域中的目标的像素,从而制成数据集,获取的数据集再对预设初始目标识别模型进行训练、验证以及测试,以构建最终目标识别模型,从而提高模型的检测精度以及泛化能力,通过将输入图像分割成多份,并对分割后的每份图像进行超分辨率重建,而后再输入到最终目标识别模型中,以使最终目标检测模型能够更容易学习到输入图像上的目标,从而极大地提高对小目标识别的精确度;此外,根据图像识别结果与预置关键词词向量建立词向量相似度列表的获取语音播报方法,能够使得语音播报内容更加丰富,并能够及时将识别结果告知用户。
本发明另一方面还提出计算机存储介质,其上存储有一个或多个程序,该程序被处理器执行时实现上述的基于图像的目标识别方法。
本发明另一方面还提出一种终端设备,包括存储器和处理器,其中存储器用于存放计算机程序,处理器用于执行存储器上所存放的计算机程序,以实现上述的基于图像的目标识别方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于图像的目标识别方法,其特征在于,所述方法包括:
获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型;
获取输入图像,并将所述输入图像分割成预设份数的待识别图像,且每两相邻所述待识别图像之间均有重叠区域,并对每份所述待识别图像进行超分辨率重建,得到多份超分辨率重建后的待识别图像;
将每份超分辨率重建后的待识别图像输入到所述最终目标识别模型当中进行目标检测识别,得到多份目标检测识别后的图像;
将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果。
2.根据权利要求1所述的基于图像的目标识别方法,其特征在于,所述获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型的步骤之前还包括:
获取多张含有多种已知目标的图像;
对已知目标的图像中含有所述目标的目标区域进行标注,并根据标注结果生成与已知目标的图像一一对应的xml格式的标注文件,所述标注文件至少包括已知目标的图像的名称、路径、尺寸、目标类别、标注框位置信息。
3.根据权利要求2所述的基于图像的目标识别方法,其特征在于,所述获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型的步骤包括:
对所述标注文件进行编号,并按所述编号依次获取所述标注文件中每张图像的所述标注框的坐标;
根据所述标注框的坐标计算出所述标注框的尺寸和中点坐标;
从标注文件内的图像中分离出感兴趣区域,所述感兴趣区域包含所述目标区域;
从所述感兴趣区域中提取出所述目标区域,并对所述目标区域进行超分辨率上采样以获取重建后的目标区域,重建后的目标区域与所述感兴趣区域的尺寸相等;
将重建后的目标区域放回到图像的感兴趣区域位置上,以使重建后的目标区域完全覆盖图像中的感兴趣区域,更新所有的标注文件内的图像,并汇总所有更新后的图像以获取所述数据集。
4.根据权利要求3所述的基于图像的目标识别方法,其特征在于,所述获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型的步骤还包括:
按所述目标类别将所述数据集分成多组图像样本,并统计每组图像样本的数据量;
判断每组图像样本的数据量是否低于预设阀值,若是则获取数据量偏少的一组或多组图像样本;
将数据量偏少的每组图像样本进行数据增广以获取均衡化的数据集;
将均衡化的数据集按预设比例制成训练集、验证集以及测试集,并根据所述训练集、验证集以及测试集对所述预设初始目标识别模型分别进行训练、验证以及测试,以得到最终目标识别模型。
5.根据权利要求4所述的基于图像的目标识别方法,其特征在于,所述将数据量偏少的每组图像样本进行数据增广以获取均衡化的数据集的步骤包括:
将数据量偏少的图像样本中的所有图像进行编号,并依次提取出图像中的目标;
从所述数据集中随机取出预设数量的图像;
将获取的目标分别插入随机取出的所有图像之中,以合成新图像;
根据获取的新图像更新所述数据集,得到均衡化的数据集。
6.根据权利要求1所述的基于图像的目标识别方法,其特征在于,所述将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果的步骤之后还包括:
根据输出的识别结果获取对应的结果词向量;
加载预置的语音内容的关键词词向量列表,并计算所述关键词词向量与所述结果词向量的相似度以获取相似度列表;
根据所述相似度列表中最大的相似度值获取对应的所述语音内容,并播报所述语音内容。
7.一种图像的目标识别系统,其特征在于,所述图像的目标识别系统包括:
模型构建模块:用于获取数据集,并根据所述数据集对预设初始目标识别模型进行训练、验证以及测试,以得到最终目标识别模型;
图像分析模块:获取输入图像,并将所述输入图像分割成预设份数的待识别图像,且每两相邻所述待识别图像之间均有重叠区域,并对每份所述待识别图像进行超分辨率重建,得到多份超分辨率重建后的待识别图像;
检测识别模块:用于将每份超分辨率重建后的待识别图像输入到所述最终目标识别模型当中进行目标检测识别,得到多份目标检测识别后的图像;
输出模块:将所述多份目标检测识别后的图像进行拼接,并判断每两相邻目标检测识别后的图像之间的重叠区域是否存在重复目标,若是则过滤掉其中一个目标,以获取结果图像,并根据所述结果图像输出识别结果。
8.一种存储介质,其特征在于,包括:所述存储介质存储一个或多个程序,该程序被处理器执行时实现如权利要求1-6任一所述的基于图像的目标识别方法。
9.一种终端设备,其特征在于,所述终端设备包括存储器和处理器,其中:
所述存储器用于存放计算机程序;
所述处理器用于执行存储器上所存放的计算机程序时,实现权利要求1-6任一所述的基于图像的目标识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110978339.9A CN113420745B (zh) | 2021-08-25 | 2021-08-25 | 基于图像的目标识别方法、系统、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110978339.9A CN113420745B (zh) | 2021-08-25 | 2021-08-25 | 基于图像的目标识别方法、系统、存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420745A CN113420745A (zh) | 2021-09-21 |
CN113420745B true CN113420745B (zh) | 2021-12-24 |
Family
ID=77719369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110978339.9A Active CN113420745B (zh) | 2021-08-25 | 2021-08-25 | 基于图像的目标识别方法、系统、存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420745B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763383B (zh) * | 2021-11-09 | 2022-02-11 | 常州微亿智造科技有限公司 | 钢筋延伸率测量方法和装置 |
CN114418901B (zh) * | 2022-03-30 | 2022-08-09 | 江西中业智能科技有限公司 | 基于Retinaface算法的图像美颜处理方法、系统、存储介质及设备 |
CN115830025B (zh) * | 2023-02-16 | 2023-05-09 | 南昌大学 | 白细胞分类计数方法、系统、存储介质及计算机设备 |
CN116912621B (zh) * | 2023-07-14 | 2024-02-20 | 浙江大华技术股份有限公司 | 图像样本构建方法、目标识别模型的训练方法及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3258415A1 (en) * | 2015-02-13 | 2017-12-20 | BYD Company Limited | Fingerprint identification method and apparatus |
CN110516605A (zh) * | 2019-08-28 | 2019-11-29 | 北京观微科技有限公司 | 基于级联神经网络的任意方向舰船目标检测方法 |
CN110956126A (zh) * | 2019-11-27 | 2020-04-03 | 云南电网有限责任公司电力科学研究院 | 一种联合超分辨率重建的小目标检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009037460A (ja) * | 2007-08-02 | 2009-02-19 | Sanyo Electric Co Ltd | 画像処理方法、画像処理装置、及びこの画像処理装置を備えた電子機器 |
CN110321913B (zh) * | 2018-03-30 | 2023-07-25 | 杭州海康威视数字技术股份有限公司 | 一种文本识别方法及装置 |
CN111095284B (zh) * | 2019-08-23 | 2023-09-22 | 深圳市汇顶科技股份有限公司 | 指纹检测装置、方法和电子设备 |
CN113139896A (zh) * | 2020-01-17 | 2021-07-20 | 波音公司 | 基于超分辨重建的目标检测系统及方法 |
CN111709307B (zh) * | 2020-05-22 | 2022-08-30 | 哈尔滨工业大学 | 一种基于分辨率增强的遥感图像小目标检测方法 |
CN112541483B (zh) * | 2020-12-25 | 2024-05-17 | 深圳市富浩鹏电子有限公司 | Yolo和分块-融合策略结合的稠密人脸检测方法 |
-
2021
- 2021-08-25 CN CN202110978339.9A patent/CN113420745B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3258415A1 (en) * | 2015-02-13 | 2017-12-20 | BYD Company Limited | Fingerprint identification method and apparatus |
CN110516605A (zh) * | 2019-08-28 | 2019-11-29 | 北京观微科技有限公司 | 基于级联神经网络的任意方向舰船目标检测方法 |
CN110956126A (zh) * | 2019-11-27 | 2020-04-03 | 云南电网有限责任公司电力科学研究院 | 一种联合超分辨率重建的小目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113420745A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113420745B (zh) | 基于图像的目标识别方法、系统、存储介质及终端设备 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN111178120B (zh) | 一种基于作物识别级联技术的害虫图像检测方法 | |
CN112489092B (zh) | 细粒度工业运动模态分类方法、存储介质、设备和装置 | |
CN102385592B (zh) | 图像概念的检测方法和装置 | |
US20130070997A1 (en) | Systems, methods, and media for on-line boosting of a classifier | |
CN107622280B (zh) | 基于场景分类的模块化处方式图像显著性检测方法 | |
CN113870254B (zh) | 目标对象的检测方法、装置、电子设备及存储介质 | |
CN111881731A (zh) | 基于人体骨架的行为识别方法、系统、装置及介质 | |
CN113762326A (zh) | 一种数据识别方法、装置、设备及可读存储介质 | |
CN116452966A (zh) | 一种水下图像的目标检测方法、装置、设备及存储介质 | |
CN113283334B (zh) | 一种课堂专注度分析方法、装置和存储介质 | |
CN115147644A (zh) | 图像描述模型的训练和描述方法、系统、设备及存储介质 | |
CN114882204A (zh) | 船名自动识别方法 | |
CN112070181B (zh) | 一种基于图像流的协同检测方法及装置、存储介质 | |
CN111753618A (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN115659221A (zh) | 一种教学质量的评估方法、装置及计算机可读存储介质 | |
CN114927236A (zh) | 一种面向多重目标图像的检测方法及系统 | |
CN115358981A (zh) | 胶水缺陷的确定方法、装置、设备及存储介质 | |
CN116415019A (zh) | 虚拟现实vr图像识别方法及装置、电子设备、存储介质 | |
CN114387489A (zh) | 电力设备识别方法、装置和终端设备 | |
CN114511702A (zh) | 一种基于多尺度分权注意力的遥感图像分割方法和系统 | |
CN113239931A (zh) | 一种物流站车牌识别的方法 | |
CN113408356A (zh) | 基于深度学习的行人重识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |