CN109753981A - 一种图像识别的方法及装置 - Google Patents

一种图像识别的方法及装置 Download PDF

Info

Publication number
CN109753981A
CN109753981A CN201711080946.3A CN201711080946A CN109753981A CN 109753981 A CN109753981 A CN 109753981A CN 201711080946 A CN201711080946 A CN 201711080946A CN 109753981 A CN109753981 A CN 109753981A
Authority
CN
China
Prior art keywords
frame
image
described image
content regions
polygon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711080946.3A
Other languages
English (en)
Other versions
CN109753981B (zh
Inventor
葛凯麟
宋卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Joy Wisdom Technology (beijing) Co Ltd
Original Assignee
Joy Wisdom Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Joy Wisdom Technology (beijing) Co Ltd filed Critical Joy Wisdom Technology (beijing) Co Ltd
Priority to CN201711080946.3A priority Critical patent/CN109753981B/zh
Publication of CN109753981A publication Critical patent/CN109753981A/zh
Application granted granted Critical
Publication of CN109753981B publication Critical patent/CN109753981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种图像识别方法,包括:图像识别装置通过摄像头采集图像,所述图像包括多边形边框及位于所述边框内的内容区;所述图像识别装置通过几何形态分析识别出所述图像中的边框区域;确定所述边框及所述内容区的位置信息,并通过机器学习法对所述边框区域内的内容区进行识别;输出所述内容区中识别出的内容信息。本发明还提供了一种图像识别装置。解决了现有技术中识别速度慢及识别精度低的问题,并能够准确识别出任意摆放图像中的内容。

Description

一种图像识别的方法及装置
技术领域
本发明属于信息技术领域,具体地,涉及一种图像识别的方法及装置。
背景技术
增强现实(Augmented Reality,AR)也被称之为混合现实。它通过电脑技术,将虚拟的信息应用到真实世界,真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。AR技术具备以下特点:一.虚实结合。它可以使计算机窗口与图表叠印于现实对象。二.实时交互。它可以使从简单的人面对屏幕交流发展到将自己融合于周围的空间与对象中。
现有技术中,AR应用涉及到方方面面,例如针对屏幕印刷品的(图案、字符、绘本等)AR应用,普遍采用了机器学习的方法来进行AR图像识别,而目前的AR图像识别中,识别速度和识别精度始终是限制目前应用的瓶颈,AR图像需要先识别定位出待识别的内容精确位置,再通过机器学习的方法进行识别,先识别定位出内容的精确位置需要大量的处理时间,并且,机器学习本身也需要分析成百上千甚至上万个样本数据,识别速度会大打折扣,而如果识别位置不准确,其识别准度也会受到很大影响。此外,目前的AR图像识别,只能针对特定方向,特定位置的图像识别,例如,该图像如果摆放位置偏一些斜了一点,则有可能造成识别精度率直线降低,用户体验低。
发明内容
有鉴于此,本发明提供了一种图像识别的方法及装置,通过深度优化目前的AR识别算法,解决了现有技术中识别速度慢及识别精度低的问题,并能够准确识别出任意摆放图像中的内容。
为了实现上述目的,本发明提供了一种图像识别的方法,所述方法包括:
图像识别装置通过摄像头采集图像,所述图像包括多边形边框及位于所述边框内的内容区;
所述图像识别装置通过几何形态分析识别出所述图像中的边框区域;
所述图像识别装置确定所述边框及所述边框内内容区的位置信息,并通过机器学习法对所述边框区域内的内容区进行识别;
所述图像识别装置输出所述内容区中识别出的内容信息。
可选地,在本发明提供的另一实施例中,所述图像还包括方向标识,则所述图像识别装置通过几何形态分析识别出所述图像中的边框区域之后,所述方法还包括:
所述图像识别装置检测到所述方向标识,根据所述方向标识旋转所述图像中的边框及所述边框内的内容区,以使所述旋转后的边框及边框内的内容区处于水平位置。
可选地,在本发明提供的另一实施例中,所述图像识别装置通过几何形态分析识别出所述图像中的边框区域,包括:
对所述图像进行二值化处理,并对所述二值化处理后的图像的连通区域进行扫描;
对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数。
可选地,在本发明提供的另一实施例中,所述对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数,包括:
利用局部平均算法对轮廓线进行一次平滑,并使用近邻差分法计算轮廓线上每一点的切向量;
利用分级聚类法对所述轮廓线中所有切向量坐标进行分析,获取分析后的显性聚类数据;
将所述显性聚类对应的轮廓点提取到对应的数据集合中,该数据集合为所述多边形边框的拟合数据;
对所述数据集合中的数据进行直线拟合,并获取所述多边形边框的几何参数。
可选地,在本发明提供的另一实施例中,在获取所述多边形边框的几何参数之后,所述方法还包括:
当检测到所述图像发生形变时,基于所述直线拟合后的边框信息对所述图像进行邻近区域图像矫正。
所述通过机器学习法对所述边框区域内的内容区进行识别,包括:
对预先设置的样本数据库中样本提取方向梯度直方图特征,利用深度神经网络进行分类器分类训练;
利用所述分类器对所述内容区进行判别,并将所述判别结果与所述样本进行比对,根据比对结果识别所述内容区。
本发明实施例还提供一种图像识别装置,所述装置包括处理器、存储器、数据总线、输入接口及输出接口,所述处理器、存储器、输入接口与输出接口分别连接于所述数据总线,并通过所述数据总线实现数据交互,其中,所述输入接口连接一个或多个摄像头,用于接收摄像头采集的图像,所述图像包括多边形边框及位于所述边框内的内容区;所述处理器所述处理器用于通过几何形态分析识别出所述图像中的边框区域,确定所述边框及所述边框内内容区的位置信息,并对所述边框区域内的内容区进行识别;所述输出接口用于输出所述内容区中识别出的内容信息。
可选地,在本发明提供的另一实施例中,所述图像还包括方向标识,则所述处理器还用于:
检测到所述方向标识,根据所述方向标识旋转所述图像中的边框及所述边框内的内容区,以使所述旋转后的边框及边框内的内容区处于水平位置。
可选地,在本发明提供的另一实施例中,所述处理器用于通过几何形态分析识别出所述图像中的边框区域,包括:
所述处理器用于对所述图像进行二值化处理,并对所述二值化处理后的图像的连通区域进行扫描;
对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数。
可选地,在本发明提供的另一实施例中,所述处理器用于对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数,包括:
利用局部平均算法对轮廓线进行一次平滑,并使用近邻差分法计算轮廓线上每一点的切向量;
利用分级聚类法对所述轮廓线中所有切向量坐标进行分析,获取分析后的显性聚类数据;
将所述显性聚类对应的轮廓点提取到对应的数据集合中,该数据集合为所述多边形边框的拟合数据;
对所述数据集合中的数据进行直线拟合,并获取所述多边形边框的几何参数。
本发明实施例的方法及系统具有下列优点:
本发明实施例中,针对特定的带有多边形边框的图像AR识别,通过深度优化的AR识别算法,本发明实施例可快速高精度的识别图像中的内容。本发明实施例提供的方法及装置适用于普通的卡片形式的图像识别,无需在卡片中加入二维码/视频芯片等辅助识别,不仅节省了成本,更解决了目前AR识别率低及速度慢的问题,提高了用户体验。同时,通过识别方向标识,本发明实施例可360度识别二维平面上的图像,识别精度高,用户体验好
附图说明
图1是本发明实施例1中图像识别方法流程图;
图2a是本发明实施例1中教学工具边框及内容区示意图;
图2b是本发明实施例1中教学工具带方向标识的边框及内容区示意图;
图2c是本发明实施例1中教学工具边框及内容区另一示意图;
图3是本发明实施例1中采集的原图像示意图;
图4是本发明实施例1中二值化图像示意图;
图5是本发明实施例1中轮廓提取图像示意图;
图6是本发明实施例1中轮廓分析示意图;
图7是本发明实施例1中轮廓筛选图像示意图;
图8是本发明实施例1中形变矫正及方向矫正示意图;
图9是本发明实施例2中图像识别方法流程图;
图10是本发明实施例3中图像识别装置结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1
为达到以上目的,如图1所示,本发明提供了一种图像识别的方法,所述方法包括:
S101、图像识别装置通过摄像头采集图像,所述图像包括多边形边框及位于所述边框内的内容区;
需要说明的是,该边框可以呈封闭式且具备一定宽度,边框颜色与内容区的底色区别明显,例如边框颜色可以是黑色,内容区底色可以是白色,或者,边框颜色为白色,内容区颜色为黑色(如图2a所示)。边框为多边形,如三角形、矩形、菱形和梯形等。为了方便说明,本发明实施例以四边形教学卡为例,如图2a所示,该四边形可以为方形或近似方形,如正方形、长方形、圆角矩形等,且边框与内容区间隔一定的宽度。边框这一特征具备如下技术效果:可通过AR技术快速定位并识别出边框,从而快读识别出边框内的内容区。与现有的增强现实识别技术相比,本发明实施例中先识别边框后识别内容的方案,保证了识别图像的时间更短,识别准度更高。可选地,为方便能从任意角度采集到教学道具中的教学内容,对于一些不同方向看起来有歧义的内容(如6和9,u和n),该图像中还包括方向标识,所述方向标识位于所述内容区域内,或置于所述边框上。如图2b所示,方向标识可以是较厚的其中一边的边框(即一边厚,其余三边窄),也可以是一个点,两个矩形边角,一条横线等。方向标识具备如下技术效果:可快速定位到边框及内容区的方向,从而快速定位并识别内容信息,提高了识别的准确率及速度。图2c是本发明实施例中采集到的图像的一个组成示例,图2c是一张卡片,卡内具备一圆角矩形的封闭式边框,边框具备一定的宽度(可分为内边框及外边框),且边框与内容区有一定的间隔。此外,该边框满足底边厚其余三边薄的特征,底边即为该卡片的方向标识。本发明实施例可快速定位并识别边框,并根据方向标识识别出该卡片的旋转角度,从而快速识别出边框内内容区中的内容信息。
S102、所述图像识别装置通过几何形态分析识别出所述图像中的边框区域;
可选地,如前所述,所述图像还可以包括方向标识,则S102之后,该方法还包括:
所述图像识别装置检测到所述方向标识,根据所述方向标识旋转所述图像中的边框及所述边框内的内容区,以使所述旋转后的边框及边框内的内容区处于水平位置。
上述方法具体为:利用机器学习方法对该方向标识进行检测与识别,通过采集不同朝向的卡片图像,并进行标注,例如标注信息可以是5个类别,分别是0度、90度、180度、270度及无方向标识。标注之后,可通过神经网络进行训练,得到一个方向标识分类器,从而可使用该分类器识别边框及边框内的内容区的方向。使用本发明实施例训练得到的分类器对方向标识的识别准确率可达到99.6%以上。识别出该方向标识后,可基于该方向标识将边框及边框内的内容区转正,可旋转所述图像中的边框及所述边框内的内容区,以使所述旋转后的边框及边框内的内容区处于水平位置。
可选地,若没有检测到方向标识,在本发明实施例中,还可以直接生成4个不同方向(如0度、90度、180度、270度)的内容供后续内容识别算法分析。
可选地,所述图像识别装置通过几何形态分析识别出所述图像中的边框区域,具体为:
S1021、对所述图像进行二值化处理,并对所述二值化处理后的图像的连通区域进行扫描;
其中,图像二值化可使用自适应阈值算法将输入图像转换为黑白二值图像,以突显出标准化卡片的边框。自适应阈值算法的判断依据为:
其中
式中v为像素的灰度值,N(v)为v附近的像素集合,C为自定义阈值。图3是摄像头拍摄的图像画面,图4是二值化处理后的图像画面,可看出,二值化处理之后的图像,其像素呈现出非黑即白。
连通区域定义如下:若两个相邻(上下相邻或左右相邻)像素颜色相同(都是白色或都是黑色),则认为这两个像素是连通的,它们处于一个连通区域。
此外,本发明实施例中,还可以针对扫描结果进行轮廓提取,即将扫描后的轮廓区域进行提取。其效果如图5所示。
S1022、对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数。
为了方便说明,本发明实施例用四边形作为具体示例(本领域技术人员可知,本发明实施例提供的算法也可以用于三角形、梯形等多边形)。为了减少后续步骤的处理时间,本发明实施例仅保留形似四边形的轮廓,以减少后续步骤的处理时间。具体而言,首先使用局部平均的方法对轮廓线进行一次平滑,然后使用近邻差分法计算轮廓线上每个点的切向量,最后使用分级聚类方法对所有的切向量坐标进行分析,若形成的显著聚类恰好为4个,则认为该轮廓形似四边形。图6是轮廓分析的示意图,其中,左边图表示轮廓线及点的切向量,右边图表示对所有切向量的坐标进行聚类分析。图6则是轮廓筛选后的效果图。如图7所示,S1022可将不同的边框筛选出来。
可选地,轮廓筛选之后,本发明还可以进行四边拆分,即获取分析后的显性聚类数据;将所述显性聚类对应的轮廓点坐标提取到对应的数据集合中,该数据集合为所述多边形边框的拟合数据。
同时,针对该拟合数据,可对所述数据集合中的数据进行直线拟合,并最终获取S1022中的所述多边形边框的几何参数。几何参数包括多边形边框的轮廓线条、区域的面积、周长、坐标定位等数据。具体而言,可使用最小二乘法进行直线拟合。其优化目标为:
完成四条边的拟合之后即可确定标准化卡片的边框在图像中的具体位置。
可选地,由于拍摄角度多种多样,图像会发生一些形变。因此,在四边拆分步骤之后,当检测到所述图像发生形变时,可基于所述直线拟合后的边框信息对所述图像进行邻近区域图像矫正。图8是矫正前图像与校正后图像的对比,第一列为矫正前图像,第二列为矫正后的图像。此外,该图像还可以包含不同角度的朝向,例如0度、90度、180度、270度四种不同的朝向。而图8的第三列则是根据方向标识旋转后得到的水平位置图,需要说明的是,第三列最后一行由于未能检测出方向标识,故直接生成4个不同方向角度的图片,供后续算法分析。
S103、所述图像识别装置确定所述边框及所述边框内的内容区的位置信息,并通过机器学习法对所述边框区域内的内容区进行识别;
可选地,所述通过机器学习法对所述边框区域内的内容区进行识别,具体为:
对预先设置的样本数据库中样本提取方向梯度直方图特征(HOG),若样本数据非常多,则可以利用深度神经网络进行分类器(例如SVM多类别分类器)分类训练;
利用所述分类器对所述内容区进行判别,并将所述判别结果与所述样本进行比对,根据比对结果识别所述内容区。若比对成功则输出识别出的内容信息。
S104、所述图像识别装置输出所述内容区中识别出的内容信息。
图像识别装置可通过内置的显示屏进行内容信息的显示,也可以通过外置的显示设备进行显示,还可以根据该内容信息,与用户进行后续的人机交互。
本发明实施例提供了一种图像识别的方法,通过对特定的边框及边框内容区进行处理与识别,通过深度优化及定制化的AR识别算法,相比于传统的机器学习识别方法而言,本发明实施例可快速高精度的识别图像中的内容。同时,本发明实施例还可适用于普通的卡片形式的图像识别,无需在卡片中加入二维码/视频芯片等辅助识别,不仅节省了成本,更解决了目前AR识别率低及速度慢的问题,提高了用户体验,容易带来商业上的成功。同时,通过识别方向标识,本发明实施例可360度识别二维平面上的图像,识别精度高,用户体验好。
实施例2
图9是本发明实施例2的方法流程图。如图8所示,本发明实施例提供一种图像识别的方法,包括:
S201.图像二值化。使用自适应阈值算法将摄像头采集的图像转换为黑白二值图像,以突显出教学道具的边框。自适应阈值算法的判断依据为:
其中
其中,v为像素的灰度值,N(v)为v附近的像素集合,C是预先设置的的阈值,v’代表领域N(v)里面的像素点。
S202.对该结果进行二值轮廓提取,对二值图像中的连通区域进行扫描,得到区域的轮廓线条、区域的面积、周长等数据。
S203.进行轮廓筛选,即对上一步提取的轮廓进行快速几何形态分析,仅保留形似四边形(本发明实施例使用场景包括但不限于四边形,仅以四边形为例进行说明)的轮廓,以减少后续步骤的处理时间。具体而言,首先使用局部平均的方法对轮廓线进行一次平滑,然后使用近邻差分法计算轮廓线上每个点的切向量,最后使用分级聚类方法对所有的切向量坐标进行分析,若形成的显著聚类恰好为4个,则认为该轮廓形似四边形。
S204.对S203的处理结果进行四边拆分。基于上一步的聚类分析结果,将4个显著聚类对应的轮廓点坐标提取到4个集合中,对应为四边形4条边的拟合数据。
S205.对S204的拟合数据进行最小二乘拟合。上一步生成的四条边的数据可分别进行直线拟合从而得到四条边的方程,本发明中使用最小二乘算法来进行直线拟合,优化目标为:
完成四条边的拟合之后即可确定教学道具101的边框在图像中的具体位置。
S206.对邻近区域图像矫正。以教学道具101为教学卡片为例,由于拍摄角度多种多样,卡片在图像中会产生形变。使用上一步得到的边框可对卡片的形变进行矫正,此时卡片内容还可能有0度、90度、180度、270度这四种不同的朝向。
S207.对方向标识进行检测。本发明实施例使用机器学习方法对卡片中的方向标识进行检测与识别,通过采集上千张不同朝向的卡片图像,并进行标注(例如,可以进行5个类别,分别是0度、90度、180度、270度、无方向标识),之后使用深度神经网络进行训练,可得到一个方向标识分类器,可对上一步得到的结果进行方向标识检测与判别。该方案训练得到的分类器对方向标识的识别准确率可达到99.6%以上。
S208a.按标识旋转图像。对于检测到方向标识的卡片,可按方向标记将卡片转正。转正即将该卡片转至水平位置。
S208b.获取所有方向图像。对于没有检测到方向标记的卡片,本发明实施例直接生成4个不同方向的图像供后续内容识别算法分析。
S209.对卡片内容进行识别。本发明使用机器学习方法对卡片内容进行识别,首先在样本数据库中有数百至上千张已定义的卡片,对这些样本提取方向梯度直方图特征(HOG)之后,训练SVM多类别分类器;若数据库中的样本非常多(超过一千),也可直接使用深度神经网络进行训练。使用分类器对上一步得到的图像进行判别(若前面没有检测到方向标识,则对4个方向的图像都进行判别,只要其中一个有效即可),判别之后根据结果再与数据库中的标准样本进行一次比对(验算),验算通过之后认为成功检测到结果。
S210.输出识别结果。若上一步成功识别到卡片,则将卡片的类别、位置、方向信息输出。
本发明实施例提供了一种图像识别的方法,通过对特定的边框及边框内容区进行处理与识别,通过深度优化及定制化的AR识别算法,相比于传统的机器学习识别方法而言,本发明实施例可快速高精度的识别图像中的内容。同时,本发明实施例还可适用于普通的卡片形式的图像识别,无需在卡片中加入二维码/视频芯片等辅助识别,不仅节省了成本,更解决了目前AR识别率低及速度慢的问题,提高了用户体验,容易带来商业上的成功。同时,通过识别方向标识,本发明实施例可360度识别二维平面上的图像,识别精度高,用户体验好
实施例3
如图10所示,本发明实施例提供了处理器301、存储器302、数据总线303、输入接口304及输出接口305,所述处理器301、存储器302、输入接口304与输出接口305分别连接于所述数据总线303,并通过所述数据总线303实现数据交互,其中,所述输入接口304连接一个或多个摄像头,用于接收摄像头采集的图像,所述图像包括多边形边框及位于所述边框内的内容区;所述处理器301用于通过几何形态分析识别出所述图像中的边框区域,确定所述边框及所述边框内内容区的位置信息,并对所述边框区域内的内容区进行识别;所述输出接口305用于输出所述内容区中识别出的内容信息,所述存储器302用于存储各类数据,包括但不限于图像数据、处理算法程序及处理后的图像结果等。
需要说明的是,该边框可以呈封闭式且具备一定宽度,边框颜色与内容区的底色区别明显,例如边框颜色可以是黑色,内容区底色可以是白色,或者,边框颜色为白色,内容区颜色为黑色(如图2a所示)。边框为多边形,如三角形、矩形、菱形和梯形等。为了方便说明,本发明实施例以四边形教学卡为例,如图2a所示,该四边形可以为方形或近似方形,如正方形、长方形、圆角矩形等,且边框与内容区间隔一定的宽度。边框这一特征具备如下技术效果:可通过AR技术快速定位并识别出边框,从而快读识别出边框内的内容区。与现有的增强现实识别技术相比,本发明实施例中先识别边框后识别内容的方案,保证了识别图像的时间更短,识别准度更高。可选地,为方便能从任意角度采集到教学道具中的教学内容,对于一些不同方向看起来有歧义的内容(如6和9,u和n),该图像中还包括方向标识,所述方向标识位于所述内容区域内,或置于所述边框上。如图2b所示,方向标识可以是较厚的其中一边的边框(即一边厚,其余三边窄),也可以是一个点,两个矩形边角,一条横线等。方向标识具备如下技术效果:可快速定位到边框及内容区的方向,从而快速定位并识别内容信息,提高了识别的准确率及速度。图2c是本发明实施例中采集到的图像的一个组成示例,图2c是一张卡片,卡内具备一圆角矩形的封闭式边框,边框具备一定的宽度(可分为内边框及外边框),且边框与内容区有一定的间隔。此外,该边框满足底边厚其余三边薄的特征,底边即为该卡片的方向标识。本发明实施例可快速定位并识别边框,并根据方向标识识别出该卡片的旋转角度,从而快速识别出边框内内容区中的内容信息。
可选地,所述图像还可以包括方向标识,则所述处理器301还用于:
检测到所述方向标识,根据所述方向标识旋转所述图像中的边框及所述边框内的内容区,以使所述旋转后的边框及边框内的内容区处于水平位置。
具体地,该处理器201用于利用机器学习方法对该方向标识进行检测与识别,通过采集不同朝向的卡片图像,并进行标注,例如标注信息可以是5个类别,分别是0度、90度、180度、270度及无方向标识。标注之后,可通过神经网络进行训练,得到一个方向标识分类器,从而可使用该分类器识别边框及边框内的内容区的方向。使用本发明实施例训练得到的分类器对方向标识的识别准确率可达到99.6%以上。识别出该方向标识后,可基于该方向标识将边框及边框内的内容区转正,可旋转所述图像中的边框及所述边框内的内容区,以使所述旋转后的边框及边框内的内容区处于水平位置。
可选地,若没有检测到方向标识,在本发明实施例中,处理器301还用于直接生成4个不同方向(如0度、90度、180度、270度)的内容供后续内容识别算法分析。
可选地,处理器301用于通过几何形态分析识别出所述图像中的边框区域,具体为:
对所述图像进行二值化处理,并对所述二值化处理后的图像的连通区域进行扫描;
其中,图像二值化可使用自适应阈值算法将输入图像转换为黑白二值图像,以突显出标准化卡片的边框。自适应阈值算法的判断依据为:
其中
式中v为像素的灰度值,N(v)为v附近的像素集合,C为自定义阈值。图3是摄像头拍摄的图像画面,图4是二值化处理后的图像画面,可看出,二值化处理之后的图像,其像素呈现出非黑即白。
连通区域定义如下:若两个相邻(上下相邻或左右相邻)像素颜色相同(都是白色或都是黑色),则认为这两个像素是连通的,它们处于一个连通区域。
为了方便说明,本发明实施例用四边形作为具体示例(本领域技术人员可知,本发明实施例提供的算法也可以用于三角形、梯形等多边形)。为了减少后续步骤的处理时间,本发明实施例仅保留形似四边形的轮廓,以减少后续步骤的处理时间。具体而言,处理器301首先使用局部平均的方法对轮廓线进行一次平滑,然后使用近邻差分法计算轮廓线上每个点的切向量,最后使用分级聚类方法对所有的切向量坐标进行分析,若形成的显著聚类恰好为4个,则认为该轮廓形似四边形。
可选地,轮廓筛选之后,本发明还可以进行四边拆分,即获取分析后的显性聚类数据;将所述显性聚类对应的轮廓点坐标提取到对应的数据集合中,该数据集合为所述多边形边框的拟合数据。
同时,针对该拟合数据,可对所述数据集合中的数据进行直线拟合,并最终获取所述多边形边框的几何参数。几何参数包括多边形边框的轮廓线条、区域的面积、周长、坐标定位等数据。具体而言,可使用最小二乘法进行直线拟合。其优化目标为:
完成四条边的拟合之后即可确定标准化卡片的边框在图像中的具体位置。
可选地,由于拍摄角度多种多样,图像会发生一些形变。因此,在四边拆分步骤之后,当检测到所述图像发生形变时,处理器301可基于所述直线拟合后的边框信息对所述图像进行邻近区域图像矫正。
可选地,所述处理器301用于通过机器学习法对所述边框区域内的内容区进行识别,具体为:
对预先设置的样本数据库中样本提取方向梯度直方图特征(HOG),若样本数据非常多,则可以利用深度神经网络进行分类器(例如SVM多类别分类器)分类训练;
利用所述分类器对所述内容区进行判别,并将所述判别结果与所述样本进行比对,根据比对结果识别所述内容区。若比对成功则输出识别出的内容信息。
本发明实施例提供的图像识别装置,通过对特定的边框及边框内容区进行处理与识别,相比于传统的机器学习识别方法而言,该图像识别装置可快速高精度的识别图像中的内容。同时,本发明实施例还可适用于普通的卡片形式的图像识别,无需在卡片中加入二维码/视频芯片等辅助识别,不仅节省了成本,更解决了目前AR识别率低及速度慢的问题,提高了用户体验,容易带来商业上的成功。同时,通过识别方向标识,本发明实施例可360度识别二维平面上的图像,识别精度高,用户体验好。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例部分的说明即可。
最后,需要说明的是:以上所述仅为本申请技术方案的较佳实施例而已,并非用于限定本申请的保护范围。显然,本领域技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种图像识别的方法,其特征在于,所述方法包括:
图像识别装置通过摄像头采集图像,所述图像包括多边形边框及位于所述边框内的内容区;
所述图像识别装置通过几何形态分析识别出所述图像中的边框区域;
所述图像识别装置确定所述边框及所述内容区的位置信息,并通过机器学习法对所述边框区域内的内容区进行识别;
所述图像识别装置输出所述内容区中识别出的内容信息。
2.根据权利要求1所述的方法,其特征在于,所述图像还包括方向标识,则所述图像识别装置通过几何形态分析识别出所述图像中的边框区域之后,所述方法还包括:
所述图像识别装置检测到所述方向标识,根据所述方向标识旋转所述图像中的边框及所述边框内的内容区,以使所述旋转后的边框及边框内的内容区处于水平位置。
3.根据权利要求1所述的方法,其特征在于,所述图像识别装置通过几何形态分析识别出所述图像中的边框区域,包括:
对所述图像进行二值化处理,并对所述二值化处理后的图像的连通区域进行扫描;
对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数。
4.根据权利要求3所述的方法,其特征在于,所述对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数,包括:
利用局部平均算法对轮廓线进行一次平滑,并使用近邻差分法计算轮廓线上每一点的切向量;
利用分级聚类法对所述轮廓线中所有切向量坐标进行分析,获取分析后的显性聚类数据;
将所述显性聚类对应的轮廓点提取到对应的数据集合中,该数据集合为所述多边形边框的拟合数据;
对所述数据集合中的数据进行直线拟合,并获取所述多边形边框的几何参数。
5.根据权利要求4所述的方法,其特征在于,在获取所述多边形边框的几何参数之后,所述方法还包括:
当检测到所述图像发生形变时,基于所述直线拟合后的边框信息对所述图像进行邻近区域图像矫正。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述通过机器学习法对所述边框区域内的内容区进行识别,包括:
对预先设置的样本数据库中样本提取方向梯度直方图特征,利用深度神经网络进行分类器分类训练;
利用所述分类器对所述内容区进行判别,并将所述判别结果与所述样本进行比对,根据比对结果识别所述内容区。
7.一种图像识别装置,其特征在于,所述装置包括处理器、存储器、数据总线、输入接口及输出接口,所述处理器、存储器、输入接口与输出接口分别连接于所述数据总线,并通过所述数据总线实现数据交互,其中,所述输入接口连接一个或多个摄像头,用于接收摄像头采集的图像,所述图像包括多边形边框及位于所述边框内的内容区;所述处理器用于通过几何形态分析识别出所述图像中的边框区域,确定所述边框及所述边框内内容区的位置信息,并对所述边框区域内的内容区进行识别;所述输出接口用于输出所述内容区中识别出的内容信息。
8.根据权利要求7所述的装置,其特征在于,所述图像还包括方向标识,则所述处理器还用于:
检测到所述方向标识,根据所述方向标识旋转所述图像中的边框及所述边框内的内容区,以使所述旋转后的边框及边框内的内容区处于水平位置。
9.根据权利要求7所述的装置,其特征在于,所述处理器用于通过几何形态分析识别出所述图像中的边框区域,包括:
所述处理器用于对所述图像进行二值化处理,并对所述二值化处理后的图像的连通区域进行扫描;
对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数。
10.根据权利要求9所述的装置,其特征在于,所述处理器用于对所述扫描后的图像进行轮廓筛选,保留所述多边形边框的轮廓,并获取所述多边形边框的几何参数,包括:
利用局部平均算法对轮廓线进行一次平滑,并使用近邻差分法计算轮廓线上每一点的切向量;
利用分级聚类法对所述轮廓线中所有切向量坐标进行分析,获取分析后的显性聚类数据;
将所述显性聚类对应的轮廓点提取到对应的数据集合中,该数据集合为所述多边形边框的拟合数据;
对所述数据集合中的数据进行直线拟合,并获取所述多边形边框的几何参数。
CN201711080946.3A 2017-11-06 2017-11-06 一种图像识别的方法及装置 Active CN109753981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711080946.3A CN109753981B (zh) 2017-11-06 2017-11-06 一种图像识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711080946.3A CN109753981B (zh) 2017-11-06 2017-11-06 一种图像识别的方法及装置

Publications (2)

Publication Number Publication Date
CN109753981A true CN109753981A (zh) 2019-05-14
CN109753981B CN109753981B (zh) 2020-12-22

Family

ID=66400364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711080946.3A Active CN109753981B (zh) 2017-11-06 2017-11-06 一种图像识别的方法及装置

Country Status (1)

Country Link
CN (1) CN109753981B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339331A (zh) * 2020-02-18 2020-06-26 深圳信可通讯技术有限公司 一种以图搜文的方法、智能终端及计算机可读介质
CN112052723A (zh) * 2020-07-23 2020-12-08 深圳市玩瞳科技有限公司 识字卡片、基于图像识别的桌面场景的str方法及装置
CN113393418A (zh) * 2021-04-19 2021-09-14 北京沃东天骏信息技术有限公司 一种用户界面组件检索方法及装置、设备、存储介质
CN114743018A (zh) * 2022-04-21 2022-07-12 平安科技(深圳)有限公司 图像描述生成方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000098871A (ja) * 1998-09-28 2000-04-07 Sony Corp 仮想画像立体合成装置、仮想画像立体合成方法、ゲーム装置及び記録媒体
CN101387700A (zh) * 2008-10-12 2009-03-18 北京大学 基于多激光扫描仪的数据融合方法及系统
US20110096093A1 (en) * 2009-10-27 2011-04-28 Sony Corporation Image processing device, image processing method and program
CN105046213A (zh) * 2015-06-30 2015-11-11 成都微力互动科技有限公司 一种增强现实的方法
CN105528614A (zh) * 2015-12-02 2016-04-27 北京大学 一种漫画图像版面的识别方法和自动识别系统
CN106250894A (zh) * 2016-07-26 2016-12-21 北京小米移动软件有限公司 卡片信息识别方法及装置
CN106485273A (zh) * 2016-10-09 2017-03-08 湖南穗富眼电子科技有限公司 一种基于hog特征与dnn分类器的人脸检测方法
CN106570483A (zh) * 2016-11-07 2017-04-19 厦门市妖猫网络有限公司 图像定位方法及其系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000098871A (ja) * 1998-09-28 2000-04-07 Sony Corp 仮想画像立体合成装置、仮想画像立体合成方法、ゲーム装置及び記録媒体
CN101387700A (zh) * 2008-10-12 2009-03-18 北京大学 基于多激光扫描仪的数据融合方法及系统
US20110096093A1 (en) * 2009-10-27 2011-04-28 Sony Corporation Image processing device, image processing method and program
CN105046213A (zh) * 2015-06-30 2015-11-11 成都微力互动科技有限公司 一种增强现实的方法
CN105528614A (zh) * 2015-12-02 2016-04-27 北京大学 一种漫画图像版面的识别方法和自动识别系统
CN106250894A (zh) * 2016-07-26 2016-12-21 北京小米移动软件有限公司 卡片信息识别方法及装置
CN106485273A (zh) * 2016-10-09 2017-03-08 湖南穗富眼电子科技有限公司 一种基于hog特征与dnn分类器的人脸检测方法
CN106570483A (zh) * 2016-11-07 2017-04-19 厦门市妖猫网络有限公司 图像定位方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
N. BARNES: "Improved Signal To Noise Ratio And Computational Speed For Gradient-Based Detection Algorithms", 《PROCEEDINGS OF THE 2005 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION》 *
赵苑: "一种道路视野盲区的会车辅助设计", 《电子设计工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339331A (zh) * 2020-02-18 2020-06-26 深圳信可通讯技术有限公司 一种以图搜文的方法、智能终端及计算机可读介质
CN112052723A (zh) * 2020-07-23 2020-12-08 深圳市玩瞳科技有限公司 识字卡片、基于图像识别的桌面场景的str方法及装置
CN113393418A (zh) * 2021-04-19 2021-09-14 北京沃东天骏信息技术有限公司 一种用户界面组件检索方法及装置、设备、存储介质
CN114743018A (zh) * 2022-04-21 2022-07-12 平安科技(深圳)有限公司 图像描述生成方法、装置、设备及介质
CN114743018B (zh) * 2022-04-21 2024-05-31 平安科技(深圳)有限公司 图像描述生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109753981B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN110232311B (zh) 手部图像的分割方法、装置及计算机设备
CN109426814B (zh) 一种发票图片特定板块的定位、识别方法、系统、设备
WO2019061658A1 (zh) 眼镜定位方法、装置及存储介质
CN107316333B (zh) 一种自动生成日漫肖像的方法
CN109344724A (zh) 一种证件照自动背景替换方法、系统及服务器
CN109753981A (zh) 一种图像识别的方法及装置
Abate et al. BIRD: Watershed based iris detection for mobile devices
CN109902541B (zh) 一种图像识别的方法及系统
US20130202159A1 (en) Apparatus for real-time face recognition
CN110826408B (zh) 一种分区域特征提取人脸识别方法
CN104794693B (zh) 一种人脸关键区域自动检测蒙版的人像优化方法
JP6351243B2 (ja) 画像処理装置、画像処理方法
CN108154132A (zh) 一种身份证文字提取方法、系统及设备和存储介质
Gu et al. A fast multi-object extraction algorithm based on cell-based connected components labeling
CN108090485A (zh) 基于多视角融合的图像前景自动提取方法
Hartl et al. Real-time detection and recognition of machine-readable zones with mobile devices.
CN111161281A (zh) 一种人脸区域识别方法、装置及存储介质
JP5201184B2 (ja) 画像処理装置及びプログラム
Youlian et al. Face detection method using template feature and skin color feature in rgb color space
CN110276260B (zh) 一种基于深度摄像头的商品检测方法
CN108288024A (zh) 人脸识别方法及装置
TWI536280B (zh) 街景影像之文字區域偵測系統及裝置
Sablatnig et al. Structural analysis of paintings based on brush strokes
Yi et al. Face detection method based on skin color segmentation and facial component localization
CN116420176A (zh) 基于对象的图像表示来区分对象的不同配置状态的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant