CN111476271B - 图标识别的方法、装置、系统、计算机设备和存储介质 - Google Patents
图标识别的方法、装置、系统、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111476271B CN111476271B CN202010161055.6A CN202010161055A CN111476271B CN 111476271 B CN111476271 B CN 111476271B CN 202010161055 A CN202010161055 A CN 202010161055A CN 111476271 B CN111476271 B CN 111476271B
- Authority
- CN
- China
- Prior art keywords
- icon
- offset
- identification result
- svm model
- fhog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000001514 detection method Methods 0.000 claims abstract description 58
- 230000010354 integration Effects 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000002372 labelling Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 241000270708 Testudinidae Species 0.000 description 2
- 235000021016 apples Nutrition 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012776 robust process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种图标识别的方法、装置、系统、计算机设备及存储介质,其中,所述方法包括:获取SVM模型和待识别图标,确定该待识别图标中的检测区域;根据该检测区域获取第一偏移截取区域,并根据该第一偏移截取区域获取第一尺度截取区域;计算该第一偏移截取区域的第一FHOG特征和该第一尺度截取区域的第二FHOG特征;将该第一FHOG特征输入该SVM模型得到第一识别结果,并将该第二FHOG特征输入该SVM模型得到第二识别结果;对该第一识别结果和该第二识别结果进行投票整合,根据该投票整合的结果获取图标识别结果,从而解决了在AR投影系统中图标识别方法的鲁棒性和效率较低的问题。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种图标识别的方法、装置、系统、计算机设备和存储介质。
背景技术
借助交互式增强现实(Augmented Reality,简称为AR)投影系统,实现卡片类图标识别是一种非常受欢迎的教育形式,基于图标识别算法可以开发多类应用程序(Application,简称为APP),幼儿可以通过与实体卡片的交互完成相应的学习,具体包括动物识别、颜色形状识别等等;相比于ipad或手机等纯粹的点击交互,与图标卡片等物体进行实体交互,其形式更为丰富也更受幼儿欢迎。
然而,在相关技术中,AR投影系统的光影条件复杂,采集得到的图标图像可能过亮或过暗,并且因为所需要识别的图标种类繁多,识别时的背景环境复杂,没有类似明确的前景特征用于粗定位,使得图标识别结果的误差较大;同时AR投影系统延时要求较高,即使提供大致的图标识别区域,也会由于需要兼容尺度不变性与位置偏差,导致直接使用滑动窗匹配等方案耗时严重。
针对相关技术中,在AR投影系统中图标识别方法的鲁棒性和效率较低的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中,在AR投影系统中图标识别方法的鲁棒性和效率较低的问题,本发明提供了一种图标识别的方法、装置、系统、计算机设备及存储介质,以至少解决上述问题。
根据本发明的一个方面,提供了一种图标识别的方法,所述方法包括:
获取支持向量机(Support Vector Machine,简称为SVM)模型和待识别图标,确定投影到所述待识别图标中的检测区域;
根据所述检测区域获取第一偏移截取区域,并根据所述第一偏移截取区域获取第一尺度截取区域;
计算所述第一偏移截取区域的第一构成融合的方向梯度直方图(FHOG)特征和所述尺度截取区域的第二FHOG特征;
将所述第一FHOG特征输入所述SVM模型得到第一识别结果,并将所述第二FHOG特征输入所述SVM模型得到第二识别结果;
对所述第一识别结果和所述第二识别结果进行投票整合,根据所述投票整合的结果获取图标识别结果。
在其中一个实施例中,所述获取SVM模型和待识别图标之前,所述方法还包括:
对预设图标进行矩形框标注;根据所述矩形框标注,采集所述预设图标中不同尺度、不同偏移的区域生成正样本,并生成与所述正样本数量相同的负样本;
计算所述正样本和所述负样本的特征向量;将所述特征向量输入预设SVM模型进行训练,根据所述训练结果获取所述SVM模型。
在其中一个实施例中,所述计算所述正样本和所述负样本的特征向量包括:
对所述正样本和负样本进行梯度计算,得到每个样品的27维度特征;
对所述27维度特征进行归一化和截断,得到方向梯度直方图(Histogram ofGradient,简称为HOG)特征矩阵;根据所述HOG特征矩阵,获取FHOG特征向量。
在其中一个实施例中,所述将所述特征向量输入预设SVM模型进行训练之后,所述方法还包括:
根据所述训练结果,筛选出误分类的样本并提供正确标签;
计算所述样本的特征向量,并与所述正样本和所述负样本进行整合,二次训练获取所述SVM模型。
在其中一个实施例中,所述二次训练获取所述SVM模型之后,所述方法还包括:
将所述SVM模型保存为xml格式;或者,
将所述SVM模型封装为bin文件,并提供与所述SVM模型匹配的加密文件和解析脚本。
在其中一个实施例中,所述确定投影到所述待识别图标中的检测区域之后,所述根据所述检测区域获取第一偏移截取区域之前,所述方法还包括:
在所述检测区域包含N个图标的情况下,对所述检测区域进行分割,并提供单个图标的区域列表;其中N为大于1的正整数。
在其中一个实施例中,所述对所述第一识别结果和所述第二识别结果进行投票整合之后,所述方法还包括:
在所述投票中出现票数相差小于或者等于预设差值的情况下,根据所述检测区域获取第二偏移截取区域和第二尺度截取区域,并再次进行识别,获取所述图标识别结果;
其中,所述第二偏移截取区域的密度大于所述第一偏移截取区域的密度,所述第二尺度截取区域的数量大于所述第二尺度截取区域的数量。
在其中一个实施例中,所述根据所述投票整合的结果获取图标识别结果之后,所述方法还包括:
根据所述图标识别结果,通过光机投影播放与所述待识别图标对应的动画或声音效果。
根据本发明的另一个方面,提供了一种图标识别的装置,其特征在于,所述装置包括:
获取模块,用于获取SVM模型和待识别图标,确定所述投影到待识别图标中的检测区域;
计算模块,用于根据所述检测区域获取第一偏移截取区域,并根据所述第一偏移截取区域获取第一尺度截取区域;
识别模块,用于计算所述第一偏移截取区域的第一FHOG特征和所述第一尺度截取区域的第二FHOG特征;所述识别模块将所述第一FHOG特征输入所述SVM模型得到第一识别结果,并将所述第二FHOG特征输入所述SVM模型得到第二识别结果;所述识别模块对所述第一识别结果和所述第二识别结果进行投票整合,根据所述投票整合的结果获取图标识别结果。
根据本发明的另一个方面,提供了一种图标识别的系统,所述系统包括:投影仪、终端和摄像装置;其中,所述终端分别和所述投影仪、所述摄像装置连接;
所述摄像装置获取待识别图标,确定投影到所述待识别图标中的检测区域,并将所述检测区域发送至所述终端;
所述终端根据所述检测区域获取第一偏移截取区域,并根据所述第一偏移截取区域获取第一尺度截取区域;
所述终端计算所述第一偏移截取区域的第一FHOG特征和所述第一尺度截取区域的第二FHOG特征;
所述终端将所述第一FHOG特征输入SVM模型得到第一识别结果,并将所述第二FHOG特征输入所述SVM模型得到第二识别结果;
所述终端对所述第一识别结果和所述第二识别结果进行投票整合,根据所述投票整合的结果获取图标识别结果;
所述终端根据所述图标识别结果,指示所述投影仪播放识别结果动效。
根据本发明的另一个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
根据本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述方法的步骤。
通过本发明,采用一种图标识别的方法、装置、系统、计算机设备及存储介质,获取SVM模型和待识别图标,确定该投影到待识别图标中的检测区域;根据该检测区域获取第一偏移截取区域,并根据该第一偏移截取区域获取第一尺度截取区域;计算该第一偏移截取区域的第一FHOG特征和该第一尺度截取区域的第二FHOG特征;将该第一FHOG特征输入该SVM模型得到第一识别结果,并将该第二FHOG特征输入该SVM模型得到第二识别结果;对该第一识别结果和该第二识别结果进行投票整合,根据该投票整合的结果获取图标识别结果,从而解决了在AR投影系统中图标识别方法的鲁棒性和效率较低的问题。
附图说明
图1为根据本发明实施例中一种图标识别方法应用场景的示意图;
图2为根据本发明实施例的一种图标识别的方法的流程图一;
图3为根据本发明实施例的一种区域检测的示意图;
图4为根据本发明实施例的一种图标识别的方法的流程图二;
图5为根据本发明实施例的一种正样本采集的示意图;
图6为根据本发明实施例的一种识别结果动效的示意图;
图7为根据本发明实施例的一种图标识别的装置的结构框图一;
图8为根据本发明实施例的一种图标识别的装置的结构框图二;
图9为根据本发明实施例的一种图标识别的装置的结构框图三;
图10为根据本发明实施例的一种图标识别的装置的结构框图四;
图11为根据本发明实施例的一种计算机设备内部的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本实施例中,提供了一种图标识别方法的应用场景,图1为根据本发明实施例中一种图标识别方法应用场景的示意图,如图1所示,在该应用环境中,摄像装置16获取待识别图标并发送给终端12;其中,通过摄像装置16实时识别用户在桌面上的点击或手势等操作,实现对终端12的控制。终端12根据该检测区域获取第一偏移截取区域和第一尺度截取区域,并计算该第一偏移截取区域的第一FHOG特征和该第一尺度截取区域的第二FHOG特征;终端12将该第一FHOG特征和该第二FHOG特征输入该SVM模型,识别结果进行投票整合,根据该投票整合的结果获取图标识别结果;终端12根据该图标识别结果,指示所述投影仪14播放识别结果动效。其中,终端12可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在本实施例中,提供了一种图标识别的方法,图2为根据本发明实施例的一种图标识别的方法的流程图一,如图2所示,该方法包括如下步骤:
步骤S202,载入SVM模型,通过深度相机获取待识别图标,并确定投影到该待识别图标中的检测区域;其中,AR投影系统载入SVM模型,并获取待识别图标,该待识别图标可以为640×480像素的高分辨率彩色图;终端12接收识别指令,该识别指令可以通过将待识别图标放置在目标区域附近,并点击终端12APP中的识别按钮触发;AR投影系统根据先验截取待识别的检测区域的图像。
步骤S204,根据该检测区域获取第一偏移截取区域,并根据该第一偏移截取区域获取第一尺度截取区域;其中,在各个检测区域中提取多尺度与不同位置的子区域,截取方法与数据生成方法相似,图3为根据本发明实施例的一种区域检测的示意图,如图3所示,从检测区域中截取大小为0.9倍且等距分布的第一偏移截取区域,该偏移截取区域的总数为4x4;从偏移截取区域中进一步截取大小为0.9倍的第一尺度截取区域,具体的倍率与位置偏移数量均可根据实际情况调整。其中多尺度是为了适应AR投影系统中不同的挂高情况,不同位置是为了适应图标放置的偏移,从而保证子区域可以包含与训练数据中正样本相似的图标中心区域。
步骤S206,计算该第一偏移截取区域的第一FHOG特征和该第一尺度截取区域的第二FHOG特征;将该第一FHOG特征输入该SVM模型得到第一识别结果,并将该第二FHOG特征输入该SVM模型得到第二识别结果;对该第一识别结果和该第二识别结果进行投票整合,根据该投票整合的结果获取图标识别结果;其中,返回票数最多的非背景类识别结果,即为该检测区域最终的图标识别结果。
此外,在实际测试中有形状匹配、特征点+匹配器以及梯度特征+分类器的多种组合方案用于分类,详细组合如表1所示:
表1测试方案罗列表
通过发明人实际测试发现,相比于形状匹配类方案与特征点+匹配器方案,使用梯度特征+分类器的组合对光影变化更为鲁棒,并且,使用FHOG特征相比于HOG特征计算速度更快,实测效果更为稳定;同时,进一步将FHOG与SVM结合,即使在训练集中没有出现与待识别图标对应的光照数据,AR投影系统也可以凭借SVM的分类特性获得正确的结果。
在相关技术中,相机拍摄得到的图标可能由于投影存在过曝或过暗等情况,从而影响图标识别结果;而本发明实施例通过上述步骤S202至步骤S206,通过对区域内部进行预设的偏移与多尺度识别,并综合投票完成整体识别,算法对AR投影系统挂高所带来的尺度变化和图标的摆放位置变化都有更好地适应性,可以确保图标识别方法的鲁棒性;图标的实际摆放位置与目标摆放位置在目标区域边长的1/3以内,算法均可稳定准确识别。此外,相比于多尺度滑窗检测算法,本专利所提出的多尺度与多位置投票算法计算效率更高、效果鲁棒、扩展性能更好,在AR投影系统上实测延时可以从滑动窗检测的数秒降低到500ms以内,从而解决了在AR投影系统中图标识别方法的鲁棒性和效率较低的问题。
在一个实施例中,提供了一种图标识别的方法,图4为根据本发明实施例的一种图标识别的方法的流程图二,如图4所示,该方法包括如下步骤:
步骤S402,对预设图标进行矩形框标注;其中,通过AR投影系统采集预设图标,该预设图标的原始标注图像大小可以为640×480像素,该预设图标中可能包含有多个待识别的图标,需要对所有的图标提供矩形框进行标注,该标注工具可以为labelme等标注软件。
根据矩形框标注生成正样本,生成方法为以矩形框为基础,截取不同尺度、不同偏移的子区域作为正样本,并添加旋转、透视变换等几何变换增强;其中,图5为根据本发明实施例的一种正样本采集的示意图,如图5所示,通过尺度与偏移增强可以获得完整图标与局部图标,该截取框大小为矩形框的0.9倍且等距分布,总数为3×3;也可以根据实际情况增加不同大小的截取框,并且始终在该矩形框内部截取以保证正样本的数据鲁棒性。随机生成bbox用于提供负样本数据,包括桌面等环境,以及与bbox的重叠度(Intersection overUnion,简称为IOU)阈值小于0.3的区域;此外,正、负样本的尺寸统一缩放到48×48像素,以保证正样本与负样本比例相同;
步骤S404,计算该正样本和该负样本的特征向量;将该特征向量输入预设SVM模型进行训练,根据该训练结果获取该SVM模型;其中,由于AR投影系统对光照的需求较高,因此特征向量的提取方法限定为梯度类特征,例如通过HOG提取特征向量,或者通过FHOG提取特征向量;此外,该预设SVM模型可以使用分类效果较好且计算速度更快的线性SVM分类器。
根据教育场景的不同,不同的APP对应不同的识别内容,例如动物图标识别、植物图标识别或形状图标识别等;通过步骤S402至步骤S404,根据矩形框标注生成正、负样本,并将样本的特征向量输入预设SVM模型进行训练,构建乐通用且鲁棒的从数据生成到模型训练的流程,实现了根据不同的场景提供不同的识别分类模型,进一步提高了图标识别方法的鲁棒性和效率。
在一个实施例中,该方法包括如下步骤:
步骤S502,对该正样本和负样本进行梯度计算,得到每个样本的27维度特征;其中,将正、负样本中的BGR图像转换为灰度图像;计算每个样本的梯度,统计梯度直方图,分别得到18维的方向敏感特征向量和9维的方向不敏感特征向量,特征向量记为C(i,j),其中,w,h分别表示图像宽度和图像高度,k表示所定义样本的大小;9维的方向不敏感特征向量由18维的方向敏感向量计算得到。
步骤S504,对该27维度特征进行归一化和截断,得到HOG特征矩阵;根据该HOG特征矩阵,获取FHOG特征向量;其中,归一化因子定义如公式1所示:
其中,Nδ,γ(i,j)表示梯度能量,δ,γ∈{-1,1};对每个(i,j)样本单元特征进行归一化并截断,实际可以得到4×(18+9)维的HOG特征矩阵,如公式2所示:
对该HOG矩阵分别计算列和与行和,得到18+9+4=27维特征,其中18维对方向敏感,9维对方向不敏感,4维分别捕获了当前样本周围4个样本组成的梯度能量,即为FHOG特征。
通过步骤S502至步骤S504,使用FHOG算法所提取的特征对图标形状信息有较好的描述能力,同时对光照、投影等干扰因素鲁棒,进一步提高了图标识别方法的鲁棒性。
在一个实施例中,该方法还包括如下步骤:
步骤S602,对该训练数据进行多尺度检测,根据该检测的结果筛选出误分类的样本并提供正确标签;计算该样本的特征向量,并与该正样本和该负样本进行整合,二次训练获取该SVM模型,以保证图标识别方法的准确性。
在一个实施例中,该方法还包括如下步骤:
步骤S702,将该SVM模型保存为xml格式用于后续部署;或者,在开发有模型加密与解密脚本的情况下,将该SVM模型封装为bin文件,并提供与该SVM模型匹配的加密文件和解析脚本。
在一个实施例中,该方法还包括如下步骤:
步骤S802,检测区域可以包含一个图标或多个图标,在该检测区域包含多个图标的情况下,可以根据先验知识对该检测区域进行分割,并提供单个图标的区域列表,从而提高图标识别方法的效率。
在一个实施例中,该方法还包括如下步骤:
步骤S902,在该投票中出现票数相差小于或者等于预设差值的情况下,根据该检测区域获取第二偏移截取区域和第二尺度截取区域,并再次进行识别,获取该图标识别结果;其中,该第二偏移截取区域的密度大于该第一偏移截取区域的密度,该第二尺度截取区域的数量大于该第二尺度截取区域的数量,也就是说,再次截取的区域相比于前次截取更为稠密;通过步骤S902,确保了在投票结果相近的情况下准确识别图标,从而进一步提高了图标识别方法的准确性。
在一个实施例中,该方法还包括如下步骤:
步骤S1002,根据该图标识别结果,在AR投影系统中,通过光机投影播放与该待识别图标对应的动画或声音效果;其中,光机为投影仪14中集成了数字微反射器(DMD)显示核心、光源、镜头光路以及散热装置的机构。例如,图6为根据本发明实施例的一种识别结果动效的示意图,如图6所示,投影画面内包括小乌龟吃苹果的跑道和三角形的开始图标,检测区域内包括三个摆放在桌面上的待识别图标的实体模型;摄像装置16实时拍摄桌面图像,用户点击开始图标时会通过摄像装置16被终端检测到,并触发识别任务,对检测区域内的待识别图标并进行识别,最后根据图标识别结果指示投影仪播放小乌龟从左走到右吃掉苹果的动效。通过步骤S1002,在识别出的图标播放对应的动画/图片/声音,达到增强现实的目的,从而提高了用户体验。
应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在本实施例中,提供了一种图标识别的装置,图7为根据本发明实施例的一种图标识别的装置的结构框图一,如图7所示,该装置包括:
获取模块72,用于获取SVM模型和待识别图标,确定投影到该待识别图标中的检测区域;
计算模块74,用于根据该检测区域获取第一偏移截取区域,并根据该偏移截取区域获取第一尺度截取区域;
识别模块76,用于计算该第一偏移截取区域的第一FHOG特征和该第一尺度截取区域的第二FHOG特征;该识别模块76将该第一FHOG特征输入该SVM模型得到第一识别结果,并将该第二FHOG特征输入该SVM模型得到第二识别结果;该识别模块76对该第一识别结果和该第二识别结果进行投票整合,根据该投票整合的结果获取图标识别结果。
在上述实施例中,计算模块74对区域内部进行预设的偏移与多尺度识别,识别模块76综合投票完成整体识别,算法对AR投影系统挂高所带来的尺度变化和图标的摆放位置变化都有更好地适应性,可以确保图标识别方法的鲁棒性;图标的实际摆放位置与目标摆放位置在目标区域边长的1/3以内,算法均可稳定准确识别。此外,相比于多尺度滑窗检测算法,本专利所提出的多尺度与多位置投票算法计算效率更高、效果鲁棒、扩展性能更好,在AR投影系统上实测延时可以从滑动窗检测的数秒降低到500ms以内,从而解决了在AR投影系统中图标识别方法的鲁棒性和效率较低的问题。
在一个实施例中,提供了一种图标识别的装置,图8为根据本发明实施例的一种图标识别的装置的结构框图二,如图8所示,该装置还包括标注模块82和训练模块84;
该标注模块82用于对预设图标进行矩形框标注;该标注模块82根据该矩形框标注,采集该预设图标中不同尺度、不同偏移的区域生成正样本,并生成与该正样本数量相同的负样本;
该训练模块84用于计算该正样本和该负样本的特征向量;将该特征向量输入预设SVM模型进行训练,根据该训练结果获取该SVM模型。
在一个实施例中,该训练模块84还用于对该正样本和负样本进行梯度计算,得到每个样品的27维度特征;该训练模块84对该27维度特征进行归一化和截断,得到HOG特征矩阵;根据该HOG特征矩阵,获取FHOG特征向量。
在一个实施例中,该训练模块84还用于根据该训练结果,筛选出误分类的样本并提供正确标签;该训练模块84计算该样本的特征向量,并与该正样本和该负样本进行整合,二次训练获取该SVM模型。
在一个实施例中,该训练模块84还用于将该SVM模型保存为xml格式;或者,该训练模块84将该SVM模型封装为bin文件,并提供与该SVM模型匹配的加密文件和解析脚本。
在一个实施例中,提供了一种图标识别的装置,图9为根据本发明实施例的一种图标识别的装置的结构框图三,如图9所示,该装置还包括分割模块92;
该分割模块92还用于在该检测区域包含N个图标的情况下,对该检测区域进行分割,并提供单个图标的区域列表;其中N为大于1的正整数。
在一个实施例中,该识别模块76还用于在该投票中出现票数相差小于或者等于预设差值的情况下,再次获取该偏移截取区域和该尺度截取区域进行识别,并获取该图标识别结果。
在一个实施例中,提供了一种图标识别的装置,图10为根据本发明实施例的一种图标识别的装置的结构框图四,如图10所示,该装置还包括播放模块102;
该播放模块102用于根据该图标识别结果,通过光机投影播放与该待识别图标对应的动画或声音效果。
关于图标识别装置的具体限定可以参见上文中对于图标识别方法的限定,在此不再赘述。上述图标识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本实施例中,提供了一种图标识别的系统,该系统包括:投影仪14、终端12和摄像装置16;其中,该终端12分别和该投影仪14、该摄像装置16连接;
该摄像装置16获取待识别图标,确定投影到该待识别图标中的检测区域,并将该检测区域发送至该终端;
该终端12根据该检测区域获取第一偏移截取区域,并根据该第一偏移截取区域获取第一尺度截取区域;
该终端12计算该第一偏移截取区域的第一FHOG特征和该第一尺度截取区域的第二FHOG特征;
该终端12将该第一FHOG特征输入SVM模型得到第一识别结果,并将该第二FHOG特征输入该SVM模型得到第二识别结果;
该终端12对该第一识别结果和该第二识别结果进行投票整合,根据该投票整合的结果获取图标识别结果;
该终端12根据该图标识别结果,指示该投影仪14播放识别结果动效。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其图11为根据本发明实施例的一种计算机设备内部的结构图,如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图标识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例提供的图标识别方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例提供的图标识别方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种图标识别的方法,其特征在于,所述方法包括:
获取SVM模型和待识别图标,确定投影到所述待识别图标中的检测区域;
根据所述检测区域获取第一偏移截取区域,并根据所述第一偏移截取区域获取第一尺度截取区域;所述第一偏移截取区域包括多个子区域,所述子区域是从所述检测区域提取且等距分布的,所述第一尺度截取区域包括从所述第一偏移截取区域提取的多个子区域;
计算所述第一偏移截取区域的第一FHOG特征和所述第一尺度截取区域的第二FHOG特征;
将所述第一FHOG特征输入所述SVM模型得到第一识别结果,并将所述第二FHOG特征输入所述SVM模型得到第二识别结果;
对所述第一识别结果和所述第二识别结果进行投票整合,根据所述投票整合的结果获取图标识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取SVM模型和待识别图标之前,所述方法还包括:
对预设图标进行矩形框标注;根据所述矩形框标注,采集所述预设图标中不同尺度、不同偏移的区域生成正样本,并生成与所述正样本数量相同的负样本;所述预设图标包括多个所述待识别图标;
计算所述正样本和所述负样本的特征向量;将所述特征向量输入预设SVM模型进行训练,根据所述训练结果获取所述SVM模型;所述特征向量为梯度特征向量。
3.根据权利要求2所述的方法,其特征在于,所述计算所述正样本和所述负样本的特征向量包括:
对所述正样本和负样本进行梯度计算,得到每个样品的27维度特征;所述27维度特征包括18维的方向敏感特征向量以及9维的方向不敏感特征向量;
对所述27维度特征进行归一化和截断,得到HOG特征矩阵;根据所述HOG特征矩阵,获取FHOG特征向量。
4.根据权利要求2所述的方法,其特征在于,所述将所述特征向量输入预设SVM模型进行训练之后,所述方法还包括:
根据所述训练结果,筛选出误分类的样本并提供正确标签;
计算所述样本的特征向量,并与所述正样本和所述负样本进行整合,二次训练获取所述SVM模型。
5.根据权利要求4所述的方法,其特征在于,所述二次训练获取所述SVM模型之后,所述方法还包括:
将所述SVM模型保存为xml格式;或者,
将所述SVM模型封装为bin文件,并提供与所述SVM模型匹配的加密文件和解析脚本。
6.根据权利要求1所述的方法,其特征在于,所述确定投影到所述待识别图标中的检测区域之后,所述根据所述检测区域获取第一偏移截取区域之前,所述方法还包括:
在所述检测区域包含N个图标的情况下,对所述检测区域进行分割,并提供单个图标的区域列表;其中N为大于1的正整数。
7.根据权利要求1所述的方法,其特征在于,所述对所述第一识别结果和所述第二识别结果进行投票整合之后,所述方法还包括:
在所述投票中出现票数相差小于或者等于预设差值的情况下,根据所述检测区域获取第二偏移截取区域和第二尺度截取区域,并再次进行识别,获取所述图标识别结果;
其中,所述第二偏移截取区域的密度大于所述第一偏移截取区域的密度,所述第二尺度截取区域的数量大于所述第二尺度截取区域的数量。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述投票整合的结果获取图标识别结果之后,所述方法还包括:
根据所述图标识别结果,通过光机投影播放与所述待识别图标对应的动画或声音效果。
9.一种图标识别的装置,其特征在于,所述装置包括:
获取模块,用于获取SVM模型和待识别图标,确定投影到所述待识别图标中的检测区域;
计算模块,用于根据所述检测区域获取第一偏移截取区域,并根据所述第一偏移截取区域获取第一尺度截取区域;所述第一偏移截取区域包括多个子区域,所述子区域是从所述检测区域提取且等距分布的,所述第一尺度截取区域包括从所述第一偏移截取区域提取的多个子区域;
识别模块,用于计算所述第一偏移截取区域的第一FHOG特征和所述第一尺度截取区域的第二FHOG特征;所述识别模块将所述第一FHOG特征输入所述SVM模型得到第一识别结果,并将所述第二FHOG特征输入所述SVM模型得到第二识别结果;所述识别模块对所述第一识别结果和所述第二识别结果进行投票整合,根据所述投票整合的结果获取图标识别结果。
10.一种图标识别的系统,其特征在于,所述系统包括:投影仪、终端和摄像装置;其中,所述终端分别和所述投影仪、所述摄像装置连接;
所述摄像装置获取待识别图标,确定投影到所述待识别图标中的检测区域,并将所述检测区域发送至所述终端;
所述终端根据所述检测区域获取第一偏移截取区域,并根据所述第一偏移截取区域获取第一尺度截取区域;所述第一偏移截取区域包括多个子区域,所述子区域是从所述检测区域提取且等距分布的,所述第一尺度截取区域包括从所述第一偏移截取区域提取的多个子区域;
所述终端计算所述第一偏移截取区域的第一FHOG特征和所述第一尺度截取区域的第二FHOG特征;
所述终端将所述第一FHOG特征输入SVM模型得到第一识别结果,并将所述第二FHOG特征输入所述SVM模型得到第二识别结果;
所述终端对所述第一识别结果和所述第二识别结果进行投票整合,根据所述投票整合的结果获取图标识别结果;
所述终端根据所述图标识别结果,指示所述投影仪播放识别结果动效。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010161055.6A CN111476271B (zh) | 2020-03-10 | 2020-03-10 | 图标识别的方法、装置、系统、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010161055.6A CN111476271B (zh) | 2020-03-10 | 2020-03-10 | 图标识别的方法、装置、系统、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476271A CN111476271A (zh) | 2020-07-31 |
CN111476271B true CN111476271B (zh) | 2023-07-21 |
Family
ID=71748131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010161055.6A Active CN111476271B (zh) | 2020-03-10 | 2020-03-10 | 图标识别的方法、装置、系统、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476271B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034585B (zh) * | 2021-04-25 | 2023-02-28 | 歌尔光学科技有限公司 | 偏移状态测试方法、测试设备及存储介质 |
CN113240376A (zh) * | 2021-05-31 | 2021-08-10 | 中邮信息科技(北京)有限公司 | 物品信息确定方法、装置、电子设备及介质 |
CN113409033B (zh) * | 2021-08-19 | 2021-11-02 | 国网浙江省电力有限公司 | 一种基于中台的培训进度补偿方法、装置及中台 |
CN114067369B (zh) * | 2022-01-17 | 2022-05-24 | 深圳爱莫科技有限公司 | 基于图像识别的餐桌状态识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971097A (zh) * | 2014-05-15 | 2014-08-06 | 武汉睿智视讯科技有限公司 | 一种基于多尺度笔画模型的车牌识别方法与系统 |
CN106682641A (zh) * | 2017-01-05 | 2017-05-17 | 北京细推科技有限公司 | 基于fhog‑lbph特征的图像行人识别方法 |
CN106778560A (zh) * | 2016-12-01 | 2017-05-31 | 中科唯实科技(北京)有限公司 | 一种基于FHOG特征和Linear SVM的车型识别方法 |
JP2018128955A (ja) * | 2017-02-10 | 2018-08-16 | サイジニア株式会社 | スクリーンショット画像解析装置、スクリーンショット画像解析方法、およびプログラム |
CN109815960A (zh) * | 2018-12-21 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于深度学习的翻拍图像识别方法、装置、设备及介质 |
WO2019232862A1 (zh) * | 2018-06-06 | 2019-12-12 | 平安科技(深圳)有限公司 | 嘴巴模型训练方法、嘴巴识别方法、装置、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8447139B2 (en) * | 2010-04-13 | 2013-05-21 | International Business Machines Corporation | Object recognition using Haar features and histograms of oriented gradients |
US9053367B2 (en) * | 2012-11-09 | 2015-06-09 | Seiko Epson Corporation | Detector evolution with multi-order contextual co-occurrence |
-
2020
- 2020-03-10 CN CN202010161055.6A patent/CN111476271B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971097A (zh) * | 2014-05-15 | 2014-08-06 | 武汉睿智视讯科技有限公司 | 一种基于多尺度笔画模型的车牌识别方法与系统 |
CN106778560A (zh) * | 2016-12-01 | 2017-05-31 | 中科唯实科技(北京)有限公司 | 一种基于FHOG特征和Linear SVM的车型识别方法 |
CN106682641A (zh) * | 2017-01-05 | 2017-05-17 | 北京细推科技有限公司 | 基于fhog‑lbph特征的图像行人识别方法 |
JP2018128955A (ja) * | 2017-02-10 | 2018-08-16 | サイジニア株式会社 | スクリーンショット画像解析装置、スクリーンショット画像解析方法、およびプログラム |
WO2019232862A1 (zh) * | 2018-06-06 | 2019-12-12 | 平安科技(深圳)有限公司 | 嘴巴模型训练方法、嘴巴识别方法、装置、设备及介质 |
CN109815960A (zh) * | 2018-12-21 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于深度学习的翻拍图像识别方法、装置、设备及介质 |
Non-Patent Citations (6)
Title |
---|
M. Ramanan, et.al.A hybrid decision tree for printed tamil character recognition using SVMs.《2015 Fifteenth international conference on advances in ICT for emerging regions》.2016,第176-181页. * |
S. Lafuente-Arroyo, et.al.Traffic sign shape classification evaluation I: SVM using distance to borders.《IEEE proceedings, Intelligent vehicles symposium》.2005,第1-6页. * |
Yawar Rehman, et.al.D-patches:effective traffic sign detection with occlusion handling.《IET computer vision》.2017,第1-10页. * |
张凯兵等.基于HOG特征和SVM的日常运动行为识别.《湖北工程学院学报》.2019,第38卷(第6期),第55-61页. * |
徐笑宇等.基于HOG与改进的SVM的手掌静脉识别算法.《计算机工程与应用》.2016,第52卷(第11期),第175-180页. * |
王蒙等.多传感器人体检测的FHOG图像特征融合.《北京理工大学学报》.2015,第35卷(第2期),第1-6页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111476271A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961009B (zh) | 基于深度学习的行人检测方法、系统、装置及存储介质 | |
CN111476271B (zh) | 图标识别的方法、装置、系统、计算机设备和存储介质 | |
Luo et al. | Moran: A multi-object rectified attention network for scene text recognition | |
US12019675B2 (en) | Recognizing text in image data | |
CN110689037B (zh) | 用于使用深度网络的自动对象注释的方法和系统 | |
CN111476227B (zh) | 基于ocr的目标字段识别方法、装置及存储介质 | |
US10936911B2 (en) | Logo detection | |
EP2864933B1 (en) | Method, apparatus and computer program product for human-face features extraction | |
US10424072B2 (en) | Leveraging multi cues for fine-grained object classification | |
CN112052186B (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN110136198B (zh) | 图像处理方法及其装置、设备和存储介质 | |
CN109614983A (zh) | 训练数据的生成方法、装置及系统 | |
CN112183296B (zh) | 模拟票据图像生成、票据图像识别方法和装置 | |
CN112396047B (zh) | 训练样本生成方法、装置、计算机设备和存储介质 | |
Martinel et al. | Robust painting recognition and registration for mobile augmented reality | |
CN115830604A (zh) | 面单图像矫正方法、装置、电子设备及可读存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
Hofmann et al. | Efficiently annotating object images with absolute size information using mobile devices | |
CN105913024B (zh) | 基于lap算子的抵抗重放攻击的安卓手机终端检测方法 | |
CN114821062A (zh) | 基于图像分割的商品识别方法及装置 | |
CN114494856A (zh) | 设备机型检测模型训练方法及设备机型检测方法 | |
CN113538291A (zh) | 卡证图像倾斜校正方法、装置、计算机设备和存储介质 | |
JP2022510963A (ja) | 人体向き検出方法、装置、電子機器及びコンピュータ記憶媒体 | |
CN109241943A (zh) | 非对齐人脸特征提取方法、装置、计算机设备及存储介质 | |
Feng et al. | Robust hand gesture recognition based on enhanced depth projection maps (eDPM) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |