CN114419144A - 基于外部轮廓形状分析的卡片定位方法 - Google Patents
基于外部轮廓形状分析的卡片定位方法 Download PDFInfo
- Publication number
- CN114419144A CN114419144A CN202210069187.5A CN202210069187A CN114419144A CN 114419144 A CN114419144 A CN 114419144A CN 202210069187 A CN202210069187 A CN 202210069187A CN 114419144 A CN114419144 A CN 114419144A
- Authority
- CN
- China
- Prior art keywords
- card
- frame
- contour
- connected domain
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000012937 correction Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 7
- 240000004282 Grewia occidentalis Species 0.000 claims description 6
- 244000269722 Thea sinensis Species 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000004438 eyesight Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Image Analysis (AREA)
Abstract
基于外部轮廓形状分析的卡片定位方法,它包含如下步骤:一、智能设备的放置;二、开启APP;三、持卡方式及识别触发;四、卡片模板信息的存储;五、视频帧的运动信息检测;六、基于色差信息的外框连通域提取;七、去掉四角不能分占四个象限的连通域;八、无遮挡情形下带状外框的定位;九、手部遮挡外框情形下的处理;十、外框四角的定位:利用四条边对应的直线,计算交点,得到四角;十一、DLT校正;十二、数字编码位置框的确定和裁剪;十三、卡片方向不正确时的处理。本发明既可以解决老人发音不标准的问题,又可以保护幼儿的视力,在幼儿能够熟练使用之后,还可以自己单独学习,节约更多的人力。
Description
技术领域
本发明涉及一种有声卡片的定位方法,具体涉及一种基于外部轮廓形状分析的卡片定位方法。
背景技术
面向儿童的卡片识字,是幼儿教育中很重要的方式。但是,由于广大用户,尤其是农村地区的老年人,普遍存在的口音问题,包括汉语与英语,导致很难提高教学质量。老人在对幼儿进行识字教育时,如何读英语单词、英语句子,如何把普通话中的字词准确读出来,是一个难度较大的问题。此外,如果利用手机上的app直接进行识字教育,对幼儿视力有严重损害。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于外部轮廓形状分析的卡片定位方法,既可以解决老人发音不标准的问题,又可以保护幼儿的视力;在幼儿能够熟练使用之后,还可以自己单独学习,节约更多的人力。
为实现上述目的,本发明采用的技术方案是:它包含如下步骤:
一、智能设备的放置:使用卡片的时候,将智能设备放置于用户前方的桌子上或者茶几上,智能设备背部的摄像头正对用户;智能设备到用户的距离为30-40cm;智能设备以支撑架的方式固定,使其屏幕表面方向与桌面保持垂直;智能设备内预先装有与卡片配套APP;
二、开启APP:打开APP,通过APP控制智能设备打开摄像头,启动实时摄像、扫卡过程;
三、持卡方式及识别触发:用户将卡片放置于智能设备摄像头前方10-20cm的距离,保持静止,触发app的自动识别与读卡流程;
四、卡片模板信息的存储:将卡片的模板图以及相关信息事先存储起来;
五、视频帧的运动信息检测:通过设计算法,将处于运动模糊状态的视频帧过滤,不进行检测,以防止错误识别;
六、基于色差信息的外框连通域提取:
(1)候选连通域提取:通过对图像中像素的RGB值的差异分析来实现候选连通域提取;
(2)对所有的连通域进行分析,得到外框连通域;将不符合要求的连通域去掉,最终保留的就是外框;
(3)连通域各处的宽度值的差别小于20个像素;
七、去掉四角不能分占四个象限的连通域:根据图像的水平中线、垂直中线将图像划分为左上、右上、左下、右下四个象限,然后通过分析外框连通域是否同时出现在这四个象限来判断此时卡片的位置是否合适,对于没有同时出现在四个象限的卡片,认为其位置不合理,将其过滤掉,不进行后续处理;
八、无遮挡情形下带状外框的定位:
(1)从外框连通域中提取外侧轮廓序列;
(2)从轮廓序列中提取处于直线段中的轮廓点片段;
(3)直线拟合,将上一步骤保留下来的直线子轮廓段,拼接成四条边;
九、手部遮挡外框情形下的处理:
(1)从连通域的中心点发出射线,射线的总数是360条;
(2)记录下每条射线与连通域的外侧交点坐标;
(3)将所有的射线的外侧交点按照逆时针顺序,形成一个新的点序列;
(4)遍历连通域原轮廓序列的每一个点,将每两条射线外侧交点之间的轮廓点,对应性加入到新的点序列之中,形成连通域的外部轮廓;
(5)利用步骤八中的方法,处理新的轮廓,得到四条边的直线;
十、外框四角的定位:利用四条边对应的直线,计算交点,得到四角;
十一、DLT校正:将四角坐标,与模板图中存储的四角坐标,进行对应。然后,利用DLT变换,计算映射关系,实现手机拍摄的图像的视角校正;
十二、数字编码位置框的确定和裁剪:在校正之后的图像中,利用模板图中存储的数字串的位置,进行裁剪,得到数字串的子图;有了子图,就可以进行后续的数字识别过程了;
十三、卡片方向不正确时的处理:
(1)前帧图像不存在运动模糊,且没有检测到数字编码,则假设当前图向左倾倒;将该图右向旋转90度,继续检测;
(2)若上述步骤(1)没有检测到数字编码,则假设当前图向右倾倒,将原图左向旋转90度,继续检测;
(3)若上述步骤(2)没有检测到数字编码,则假设当前图上下倾倒;将原图旋转180度,继续检测;
(4)若上述步骤(3)依然没有检测到数字编码,则说明此时确实不存在卡片;
(5)为了降低计算量,如果前一帧在某个方向上检测到了数字编码,则后续帧沿用该方向,不需要再往其余三个方向旋转尝试,以节约算力。
进一步地,所述的卡片的整体结构为长方形、正方形或梯形结构;卡片的底色为白色;卡片的上部设有一串由6个黑色数字构成的数字编码串,用于识别该卡片的ID;数字编码串中的字符为等间距、等尺寸,排列成一条水平线;卡片上设有彩色定位框;彩色定位框的颜色为红色、绿色、蓝色、粉色或紫色;彩色定位框为圆角矩形结构;彩色定位框与卡片边界之间设有空隙留白,用于将卡片要素与背景隔开;彩色定位框的内部设有正文内容部分;正文内容部分包含单词、图形或句子;
进一步地,步骤五中视频帧的运动信息检测的具体方法如下:
a、将当前图像帧,与前一帧图像帧计算帧差图:两张图相同位置的像素,逐一比较RGB值的差值;
b、设定阈值为20,比较帧差图中的每一个像素值,将RGB同时比较,是否高于该阈值;如果高于阈值,则将该像素作为前景,否则作为背景,得到帧差前景图;
c、设定面积阈值为30,对前景图提取连通域,过滤掉小面积连通域;
d、过滤掉小面积连通域之后,依然存在大面积连通域,说明此时存在较大的运动,不适合进行卡片识别,应该忽略当前帧;
e、过滤掉小面积连通域之后,前景图中不存在大面积连通域,说明前后两帧不存在运动,此时的图像帧处于用户已经将卡片本体正确放置、并且手部静止下来的情形,此时的图片帧可以用于进行后续步骤;
进一步地,步骤六中外部轮廓提取的具体方法如下:
a、外框的面积是图像所有连通域中最大的;
b、外形上,外框连通域的宽高比例在0-8-1.2之间;
c、连通域呈现环状矩形,即未断裂的情形;或者是带状,即断裂的情形,具体依据如下:
外框连通域的内部,如果还存在一个空心区域,且其面积占据外框连通域总面积的70%以上,则判断为环状;
如果不是环状,则分析该连通域每一处的宽度值,都大致接近,则可以判断该图形是带状;
对于既不是环状,也不是带状的情形,则应该丢弃;
进一步地,步骤六中连通域各处的宽度值比较一致,且在经验范围以内的具体方法如下:
a、得到连通域的中心点坐标,也就是通域最小外接矩形的中心;
b、从中心点向四周发射射线;射线总计40条,角度上均匀分布;
c、记录下每条射线遇到外框内侧边界、外侧边界时的坐标;
d、根据射线与外框内外侧交点的坐标,得到该射线对应的宽度值;
e、分析40个宽度值,最大的和最小的宽度值差值小于20个像素,则认为宽度值一致,否则不一致;
f、对于宽度值不一致的连通域,不能判断为卡片外框;
进一步地,步骤七中去掉四角不能分占四个象限的连通域的具体方法如下:
a、将当前图像划分为四个象限;
b、对前述步骤得到的卡片外框连通域进行分析,只有到该连通域同时出现在4个象限中的时候,才认为是卡片位置摆放正确了;
c、对于卡片位置摆放不正确的情形,将该视频帧过滤掉,不进行处理;
进一步地,步骤八中从外框连通域中提取外侧轮廓序列的具体方法为:利用代码工具,实现连通域的外侧轮廓序列提取;轮廓序列是一个点的集合,按照逆时针的顺序将外侧轮廓全部存储下来;每两个点在图像上都是像素相邻的;
进一步地,步骤八中从轮廓序列中提取处于直线段中的轮廓点片段的具体方法为:
a、在外部轮廓中间隔性选择20个关键点;
b、每两个关键点连接起来,形成一条子线段;
c、判断这两个关键点之间的所有其他轮廓点到该子线段的距离,大于距离阈值的删除;
d、统计不在子线段上的被删除的轮廓点的数目,如果其比例超过子线段长度的10%,则说明这两个关键点之前的轮廓不是直线;
e、20个关键点,总共形成20个子线段,逐一判断每一个子线段之间的轮廓是否为直线。将是直线的子线段保留下;
进一步地,步骤八中直线拟合,将上一步骤保留下来的直线子轮廓段,拼接成四条边的具体方法为:
a、相邻的直线子轮廓段,如果斜率接近,则合并;
b、不相邻的直线子轮廓段,斜率接近,则合并,连带其中的其他轮廓点一起合并进来;
c、上述步骤不停地循环,直到不能再合并为止,此时可以得到四条直线段;
d、四条直线段,各自在两端延展,将轮廓点距离直线段的距离小于3像素的能够加入的轮廓点增加进来;
e、对最终的四条直线段所包含的轮廓序列点,利用最小二乘法进行拟合,得到直线方程。
采用上述方案后,本发明所述的基于外部轮廓形状分析的卡片定位方法,具有以下优点:
(1)与识字卡片配套的App,包含了读音信息,解决了老年人发音不标准的问题;
(2)幼儿不需要直视手机等各种电子屏,不会损伤眼睛;
(3)使用便捷,只需要将卡片对准手机摄像头,就能播放声音,幼儿可以独立使用;
(4)卡片识别率高,识别速度快。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明卡片的结构示意图;
图2是本发明用星射线统计外框的宽度分布示意图;
图3是本发明外框外侧轮廓的直线拟合示意图;
图4是本发明步骤六中对当前帧提取前景后得到的外壳的连通域的前景图;
图5是本发明中外框断裂时的连通域外部轮廓示意图。
附图标记说明:
1、卡片;2、数字编码串;3、彩色定位框;4、正文内容部分;5、空隙留白。
具体实施方式
下面结合附图,对本发明作进一步的说明。
参看图1所示,本具体实施方式采用的技术方案是:基于外部轮廓形状分析的卡片定位方法,它包含如下步骤:
一、智能设备的放置:使用卡片的时候,将智能设备放置于用户前方的桌子上或者茶几上,智能设备背部的摄像头正对用户;智能设备到用户的距离为30-40cm;智能设备以支撑架的方式固定,使其屏幕表面方向与桌面保持垂直;智能设备内预先装有与卡片配套阿卜丁听听APP;
如图1所示,所述的卡片1的整体为长方形、正方形或梯形结构;卡片1的底色为白色;卡片1的上部设有一串由6个黑色数字构成的数字编码串2,用于识别该卡片的ID;数字编码串2中的字符为等间距、等尺寸,排列成一条水平线;卡片1上设有彩色定位框3;彩色定位框3的颜色为红色、绿色、蓝色、粉色或紫色等等;彩色定位框3为圆角矩形结构,用于进行卡片的检测定位;彩色定位框3与卡片边界之间设有空隙留白5,用于将卡片要素与背景隔开,利于检测算法;彩色定位框3的内部设有正文内容部分4;正文内容部分4包含单词、图形或句子等;
二、开启APP:打开APP,通过APP控制智能设备打开摄像头,启动实时摄像、扫卡过程;阿卜丁听听APP通过实时读取摄像头的每一帧画面,然后利用相关图像处理算法在画面中检测是否存在识字卡片,利用光学字符识别算法(OCR)检测是否存在卡片对应的数字编号,然后根据编号播放对应的音频文件;
三、持卡方式及识别触发:用户将卡片放置于智能设备摄像头前方10-20cm的距离,保持静止,触发app的自动识别与读卡流程;持卡时,尽量保证不要遮挡顶部长椭圆区域,握住卡片底部的方式是最好的,保证数字编码串在卡片的顶部,尽量不要出现倒置、左右侧翻的现象;
四、卡片模板信息的存储:将卡片的模板图以及相关信息事先存储起来;即将外框外侧的四条边的坐标值、四边形成的四个交角的位置、外框内侧的四条边的坐标值、内侧四边形成的四个交角的位置、顶部数字编码串对应的外框等均存储下来;
五、视频帧的运动信息检测:
在用户将卡片放到摄像头前的过程中,在手部急速运动时,很容易导致手机拍摄的图像出现运动模糊,尤其是拍摄图像质量偏低的智能设备,更加容易出现这种现象;当运动模糊出现时,卡片上的数字编码将无法看清、无法识别,因此需要通过设计算法,将处于运动模糊状态的视频帧过滤,不进行检测,以防止错误识别,具体方法如下:
a、将当前图像帧,与前一帧图像帧计算帧差图:两张图相同位置的像素,逐一比较RGB值的差值;
b、设定阈值为20,比较帧差图中的每一个像素值,将RGB同时比较,是否高于该阈值;如果高于阈值,则将该像素作为前景,否则作为背景,得到帧差前景图;
c、设定面积阈值为30,对前景图提取连通域,过滤掉小面积连通域;
d、过滤掉小面积连通域之后,依然存在大面积连通域,说明此时存在较大的运动,不适合进行卡片识别,应该忽略当前帧;
e、过滤掉小面积连通域之后,前景图中不存在大面积连通域,说明前后两帧不存在运动,此时的图像帧处于用户已经将卡片本体正确放置、并且手部静止下来的情形,此时的图片帧可以用于进行后续步骤;
六、基于色差信息的外框连通域提取:
(1)候选连通域提取:通过对图像中像素的RGB值的差异分析来实现候选连通域提取,具体方法如下:
a、对图像中每一个像素点的,分析其RGB的值,如果满足如下条件,则判断为前景,提取出来;前景图如图4所示;
具体条件为:abs(R-G)>th或者abs(G-B)>th或者abs(B-R)>th;其中,th为阈值,th=20;
b、对前景图进行连通域提取,去掉尺寸较小的连通域;
(2)对所有的连通域进行分析,得到外框连通域;将不符合要求的连通域去掉,最终保留的就是外框,判定方法如下:
a、外框的面积是图像所有连通域中最大的;
b、外形上,外框连通域的宽高比例在0-8-1.2之间;
c、连通域呈现环状矩形,即未断裂的情形;或者是带状,即断裂的情形,具体依据如下:
外框连通域的内部,如果还存在一个空心区域,且其面积占据外框连通域总面积的70%以上,则判断为环状;
如果不是环状,则分析该连通域每一处的宽度值,都大致接近,则可以判断该图形是带状;
对于既不是环状,也不是带状的情形,则应该丢弃;
(3)连通域各处的宽度值比较一致,且在经验范围以内的具体方法如下:
a、得到连通域的中心点坐标,也就是通域最小外接矩形的中心;
b、从中心点向四周发射射线,如图2所示;射线总计40条,角度上均匀分布;
c、记录下每条射线遇到外框内侧边界、外侧边界时的坐标;
d、根据射线与外框内外侧交点的坐标,得到该射线对应的宽度值;
e、分析40个宽度值,最大的和最小的宽度值差值小于20个像素,则认为宽度值一致,否则不一致;
f、对于宽度值不一致的连通域,不能判断为卡片外框;
七、去掉四角不能分占四个象限的连通域:根据图像的水平中线、垂直中线将图像划分为左上、右上、左下、右下四个象限,然后通过分析外框连通域是否同时出现在这四个象限来判断此时卡片的位置是否合适,对于没有同时出现在四个象限的卡片,认为其位置不合理,将其过滤掉,不进行后续处理,具体方法如下:
a、将当前图像划分为四个象限;
b、对前述步骤得到的卡片外框连通域进行分析,只有到该连通域同时出现在4个象限中的时候,才认为是卡片位置摆放正确了;
c、对于卡片位置摆放不正确的情形,将该视频帧过滤掉,不进行处理;
八、无遮挡情形下带状外框的定位:
(1)从外框连通域中提取外侧轮廓序列:利用代码工具,实现连通域的外侧轮廓序列提取;代码工具可采用开源代码库OpenCV;轮廓序列是一个点的集合,按照逆时针的顺序将外侧轮廓全部存储下来;每两个点在图像上都是像素相邻的;
(2)从轮廓序列中提取处于直线段中的轮廓点片段,具体方法为:
a、在外部轮廓中间隔性选择20个关键点;
b、每两个关键点连接起来,形成一条子线段;
c、判断这两个关键点之间的所有其他轮廓点到该子线段的距离,大于距离阈值的删除;
d、统计不在子线段上的被删除的轮廓点的数目,如果其比例超过子线段长度的10%,则说明这两个关键点之前的轮廓不是直线;
e、20个关键点,总共形成20个子线段,逐一判断每一个子线段之间的轮廓是否为直线。将是直线的子线段保留下;
(3)直线拟合,将上一步骤保留下来的直线子轮廓段,拼接成四条边,具体方法为:
a、相邻的直线子轮廓段,如果斜率接近,则合并;
b、不相邻的直线子轮廓段,斜率接近,则合并,连带其中的其他轮廓点一起合并进来;
c、上述步骤不停地循环,直到不能再合并为止,此时可以得到四条直线段;
d、四条直线段,各自在两端延展,将轮廓点距离直线段的距离小于3像素的能够加入的轮廓点增加进来;
e、对最终的四条直线段所包含的轮廓序列点,利用最小二乘法进行拟合,得到直线方程,最终结果如图3所示;
九、手部遮挡外框情形下的处理,具体方法如下:
(1)从连通域的中心点发出射线(与图2的操作类似),射线的总数是360条;
(2)记录下每条射线与连通域的外侧交点坐标;
(3)将所有的射线的外侧交点按照逆时针顺序,形成一个新的点序列;
(4)遍历连通域原轮廓序列的每一个点,将每两条射线外侧交点之间的轮廓点,对应性加入到新的点序列之中,形成连通域的外部轮廓,如图5所示;
(5)利用步骤八中的方法,处理新的轮廓,得到四条边的直线,参看图3所示;
十、外框四角的定位:利用四条边对应的直线,计算交点,得到四角;
十一、DLT校正:将四角坐标,与模板图中存储的四角坐标,进行对应。然后,利用DLT变换,计算映射关系,实现手机拍摄的图像的视角校正;
十二、数字编码位置框的确定和裁剪:在校正之后的图像中,利用模板图中存储的数字串的位置,进行裁剪,得到数字串的子图;有了子图,就可以进行后续的数字识别过程了;
十三、卡片方向不正确时的处理,具体方法如下:
(1)前帧图像不存在运动模糊,且没有检测到数字编码,则假设当前图向左倾倒;将该图右向旋转90度,继续检测;
(2)若上述步骤(1)没有检测到数字编码,则假设当前图向右倾倒,将原图左向旋转90度,继续检测;
(3)若上述步骤(2)没有检测到数字编码,则假设当前图上下倾倒;将原图旋转180度,继续检测;
(4)若上述步骤(3)依然没有检测到数字编码,则说明此时确实不存在卡片;
(5)为了降低计算量,如果前一帧在某个方向上检测到了数字编码,则后续帧沿用该方向,不需要再往其余三个方向旋转尝试,以节约算力。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.基于外部轮廓形状分析的卡片定位方法,其特征在于它包含如下步骤:
一、智能设备的放置:使用卡片的时候,将智能设备放置于用户前方的桌子上或者茶几上,智能设备背部的摄像头正对用户;智能设备到用户的距离为30-40cm;智能设备以支撑架的方式固定,使其屏幕表面方向与桌面保持垂直;智能设备内预先装有与卡片配套APP;
二、开启APP:打开APP,通过APP控制智能设备打开摄像头,启动实时摄像、扫卡过程;
三、持卡方式及识别触发:用户将卡片放置于智能设备摄像头前方10-20cm的距离,保持静止,触发app的自动识别与读卡流程;
四、卡片模板信息的存储:将卡片的模板图以及相关信息事先存储起来;
五、视频帧的运动信息检测:通过设计算法,将处于运动模糊状态的视频帧过滤,不进行检测,以防止错误识别;
六、基于色差信息的外框连通域提取:
(1)候选连通域提取:通过对图像中像素的RGB值的差异分析来实现候选连通域提取;
(2)对所有的连通域进行分析,得到外框连通域;将不符合要求的连通域去掉,最终保留的就是外框;
(3)连通域各处的宽度值的差别小于20个像素;
七、去掉四角不能分占四个象限的连通域:根据图像的水平中线、垂直中线将图像划分为左上、右上、左下、右下四个象限,然后通过分析外框连通域是否同时出现在这四个象限来判断此时卡片的位置是否合适,对于没有同时出现在四个象限的卡片,认为其位置不合理,将其过滤掉,不进行后续处理;
八、无遮挡情形下带状外框的定位:
(1)从外框连通域中提取外侧轮廓序列;
(2)从轮廓序列中提取处于直线段中的轮廓点片段;
(3)直线拟合,将上一步骤保留下来的直线子轮廓段,拼接成四条边;
九、手部遮挡外框情形下的处理:
(1)从连通域的中心点发出射线,射线的总数是360条;
(2)记录下每条射线与连通域的外侧交点坐标;
(3)将所有的射线的外侧交点按照逆时针顺序,形成一个新的点序列;
(4)遍历连通域原轮廓序列的每一个点,将每两条射线外侧交点之间的轮廓点,对应性加入到新的点序列之中,形成连通域的外部轮廓;
(5)利用步骤八中的方法,处理新的轮廓,得到四条边的直线;
十、外框四角的定位:利用四条边对应的直线,计算交点,得到四角;
十一、DLT校正:将四角坐标,与模板图中存储的四角坐标,进行对应。然后,利用DLT变换,计算映射关系,实现手机拍摄的图像的视角校正;
十二、数字编码位置框的确定和裁剪:在校正之后的图像中,利用模板图中存储的数字串的位置,进行裁剪,得到数字串的子图;有了子图,就可以进行后续的数字识别过程了;
十三、卡片方向不正确时的处理:
(1)前帧图像不存在运动模糊,且没有检测到数字编码,则假设当前图向左倾倒;将该图右向旋转90度,继续检测;
(2)若上述步骤(1)没有检测到数字编码,则假设当前图向右倾倒,将原图左向旋转90度,继续检测;
(3)若上述步骤(2)没有检测到数字编码,则假设当前图上下倾倒;将原图旋转180度,继续检测;
(4)若上述步骤(3)依然没有检测到数字编码,则说明此时确实不存在卡片;
(5)为了降低计算量,如果前一帧在某个方向上检测到了数字编码,则后续帧沿用该方向,不需要再往其余三个方向旋转尝试,以节约算力。
2.根据权利要求1所述的基于外部轮廓形状分析的卡片定位方法,其特征在于所述的卡片的整体结构为长方形、正方形或梯形结构;卡片的底色为白色;卡片的上部设有一串由6个黑色数字构成的数字编码串,用于识别该卡片的ID;数字编码串中的字符为等间距、等尺寸,排列成一条水平线;卡片上设有彩色定位框;彩色定位框的颜色为红色、绿色、蓝色、粉色或紫色;彩色定位框为圆角矩形结构;彩色定位框与卡片边界之间设有空隙留白,用于将卡片要素与背景隔开;彩色定位框的内部设有正文内容部分;正文内容部分包含单词、图形或句子。
3.根据权利要求1或2所述的基于外部轮廓形状分析的卡片定位方法,其特征在于步骤五中视频帧的运动信息检测的具体方法如下:
a、将当前图像帧,与前一帧图像帧计算帧差图:两张图相同位置的像素,逐一比较RGB值的差值;
b、设定阈值为20,比较帧差图中的每一个像素值,将RGB同时比较,是否高于该阈值;如果高于阈值,则将该像素作为前景,否则作为背景,得到帧差前景图;
c、设定面积阈值为30,对前景图提取连通域,过滤掉小面积连通域;
d、过滤掉小面积连通域之后,依然存在大面积连通域,说明此时存在较大的运动,不适合进行卡片识别,应该忽略当前帧;
e、过滤掉小面积连通域之后,前景图中不存在大面积连通域,说明前后两帧不存在运动,此时的图像帧处于用户已经将卡片本体正确放置、并且手部静止下来的情形,此时的图片帧可以用于进行后续步骤。
4.根据权利要求1或2所述的基于外部轮廓形状分析的卡片定位方法,其特征在于步骤六中外部轮廓提取的具体方法如下:
a、对图像中每一个像素点的,分析其RGB的值,如果满足如下条件,则判断为前景,提取出来;
具体条件为:abs(R-G)>th或者abs(G-B)>th或者abs(B-R)>th;其中,th为阈值,th=20;
b、对前景图进行连通域提取,去掉尺寸较小的连通域。
5.根据权利要求1或2所述的基于外部轮廓形状分析的卡片定位方法,其特征在于步骤六中外框连通域的判定方法如下:
a、外框的面积是图像所有连通域中最大的;
b、外形上,外框连通域的宽高比例在0-8-1.2之间;
c、连通域呈现环状矩形,即未断裂的情形;或者是带状,即断裂的情形,具体依据如下:
外框连通域的内部,如果还存在一个空心区域,且其面积占据外框连通域总面积的70%以上,则判断为环状;
如果不是环状,则分析该连通域每一处的宽度值,都大致接近,则可以判断该图形是带状;
对于既不是环状,也不是带状的情形,则应该丢弃。
6.根据权利要求1或2所述的基于外部轮廓形状分析的卡片定位方法,其特征在于步骤六中连通域各处的宽度值比较一致,且在经验范围以内的具体方法如下:
a、得到连通域的中心点坐标,也就是通域最小外接矩形的中心;
b、从中心点向四周发射射线;射线总计40条,角度上均匀分布;
c、记录下每条射线遇到外框内侧边界、外侧边界时的坐标;
d、根据射线与外框内外侧交点的坐标,得到该射线对应的宽度值;
e、分析40个宽度值,最大的和最小的宽度值差值小于20个像素,则认为宽度值一致,否则不一致;
f、对于宽度值不一致的连通域,不能判断为卡片外框。
7.根据权利要求1或2所述的基于外部轮廓形状分析的卡片定位方法,其特征在于步骤七中去掉四角不能分占四个象限的连通域的具体方法如下:
a、将当前图像划分为四个象限;
b、对前述步骤得到的卡片外框连通域进行分析,只有到该连通域同时出现在4个象限中的时候,才认为是卡片位置摆放正确了;
c、对于卡片位置摆放不正确的情形,将该视频帧过滤掉,不进行处理。
8.根据权利要求1或2所述的基于外部轮廓形状分析的卡片定位方法,其特征在于步骤八中从外框连通域中提取外侧轮廓序列的具体方法为:利用代码工具,实现连通域的外侧轮廓序列提取;轮廓序列是一个点的集合,按照逆时针的顺序将外侧轮廓全部存储下来;每两个点在图像上都是像素相邻的。
9.根据权利要求1或2所述的基于外部轮廓形状分析的卡片定位方法,其特征在于步骤八中从轮廓序列中提取处于直线段中的轮廓点片段的具体方法为:
a、在外部轮廓中间隔性选择20个关键点;
b、每两个关键点连接起来,形成一条子线段;
c、判断这两个关键点之间的所有其他轮廓点到该子线段的距离,大于距离阈值的删除;
d、统计不在子线段上的被删除的轮廓点的数目,如果其比例超过子线段长度的10%,则说明这两个关键点之前的轮廓不是直线;
e、20个关键点,总共形成20个子线段,逐一判断每一个子线段之间的轮廓是否为直线。将是直线的子线段保留下。
10.根据权利要求1或2所述的基于外部轮廓形状分析的卡片定位方法,其特征在于步骤八中直线拟合,将上一步骤保留下来的直线子轮廓段,拼接成四条边的具体方法为:
a、相邻的直线子轮廓段,如果斜率接近,则合并;
b、不相邻的直线子轮廓段,斜率接近,则合并,连带其中的其他轮廓点一起合并进来;
c、上述步骤不停地循环,直到不能再合并为止,此时可以得到四条直线段;
d、四条直线段,各自在两端延展,将轮廓点距离直线段的距离小于3像素的能够加入的轮廓点增加进来;
e、对最终的四条直线段所包含的轮廓序列点,利用最小二乘法进行拟合,得到直线方程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210069187.5A CN114419144A (zh) | 2022-01-20 | 2022-01-20 | 基于外部轮廓形状分析的卡片定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210069187.5A CN114419144A (zh) | 2022-01-20 | 2022-01-20 | 基于外部轮廓形状分析的卡片定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114419144A true CN114419144A (zh) | 2022-04-29 |
Family
ID=81275594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210069187.5A Pending CN114419144A (zh) | 2022-01-20 | 2022-01-20 | 基于外部轮廓形状分析的卡片定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114419144A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2783950A1 (fr) * | 1998-09-28 | 2000-03-31 | Arts Video Interactive | Procede et systeme de traitement d'une image numerique pour en extraire des objets numeriques |
CN106250894A (zh) * | 2016-07-26 | 2016-12-21 | 北京小米移动软件有限公司 | 卡片信息识别方法及装置 |
CN107527353A (zh) * | 2017-08-15 | 2017-12-29 | 安徽慧视金瞳科技有限公司 | 一种基于视觉处理的投影画面外框检测方法 |
CN110097039A (zh) * | 2019-05-30 | 2019-08-06 | 东北电力大学 | 一种基于深度学习图像识别的睡眠状态监测节能助老系统 |
CN110119741A (zh) * | 2019-04-08 | 2019-08-13 | 浙江大学宁波理工学院 | 一种有背景的卡证图像信息识别方法 |
CN110458158A (zh) * | 2019-06-11 | 2019-11-15 | 中南大学 | 一种针对盲人辅助阅读的文本检测与识别方法 |
CN110738676A (zh) * | 2019-09-17 | 2020-01-31 | 湖南大学 | 一种结合RGBD数据的GrabCut自动分割算法 |
CN111178210A (zh) * | 2019-12-21 | 2020-05-19 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种十字标记的图像识别及对准方法 |
CN111539927A (zh) * | 2020-04-20 | 2020-08-14 | 南通大学 | 汽车塑料组合件紧固卡扣缺装检测装置的检测过程及算法 |
CN111695565A (zh) * | 2020-06-14 | 2020-09-22 | 荆门汇易佳信息科技有限公司 | 基于道路关卡模糊图像的汽车标志精准定位方法 |
CN112052723A (zh) * | 2020-07-23 | 2020-12-08 | 深圳市玩瞳科技有限公司 | 识字卡片、基于图像识别的桌面场景的str方法及装置 |
CN113762216A (zh) * | 2021-10-14 | 2021-12-07 | 珠海市一杯米科技有限公司 | 一种结合形状与颜色信息的英语有声卡及其使用方法 |
-
2022
- 2022-01-20 CN CN202210069187.5A patent/CN114419144A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2783950A1 (fr) * | 1998-09-28 | 2000-03-31 | Arts Video Interactive | Procede et systeme de traitement d'une image numerique pour en extraire des objets numeriques |
CN106250894A (zh) * | 2016-07-26 | 2016-12-21 | 北京小米移动软件有限公司 | 卡片信息识别方法及装置 |
CN107527353A (zh) * | 2017-08-15 | 2017-12-29 | 安徽慧视金瞳科技有限公司 | 一种基于视觉处理的投影画面外框检测方法 |
CN110119741A (zh) * | 2019-04-08 | 2019-08-13 | 浙江大学宁波理工学院 | 一种有背景的卡证图像信息识别方法 |
CN110097039A (zh) * | 2019-05-30 | 2019-08-06 | 东北电力大学 | 一种基于深度学习图像识别的睡眠状态监测节能助老系统 |
CN110458158A (zh) * | 2019-06-11 | 2019-11-15 | 中南大学 | 一种针对盲人辅助阅读的文本检测与识别方法 |
CN110738676A (zh) * | 2019-09-17 | 2020-01-31 | 湖南大学 | 一种结合RGBD数据的GrabCut自动分割算法 |
CN111178210A (zh) * | 2019-12-21 | 2020-05-19 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种十字标记的图像识别及对准方法 |
CN111539927A (zh) * | 2020-04-20 | 2020-08-14 | 南通大学 | 汽车塑料组合件紧固卡扣缺装检测装置的检测过程及算法 |
CN111695565A (zh) * | 2020-06-14 | 2020-09-22 | 荆门汇易佳信息科技有限公司 | 基于道路关卡模糊图像的汽车标志精准定位方法 |
CN112052723A (zh) * | 2020-07-23 | 2020-12-08 | 深圳市玩瞳科技有限公司 | 识字卡片、基于图像识别的桌面场景的str方法及装置 |
CN113762216A (zh) * | 2021-10-14 | 2021-12-07 | 珠海市一杯米科技有限公司 | 一种结合形状与颜色信息的英语有声卡及其使用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106960208B (zh) | 一种仪表液晶数字自动切分和识别的方法及系统 | |
WO2019085971A1 (zh) | 图像中定位文本的方法、装置、电子设备和存储介质 | |
CN107729899A (zh) | 一种车牌号码识别方法及装置 | |
KR20010110416A (ko) | 비디오 스트림 분류가능 심볼 고립 방법 및 시스템 | |
WO2006051482A1 (en) | Detection and modification of text in a image | |
CN104598907B (zh) | 一种基于笔画宽度图的图像中文字数据提取方法 | |
CN104463134B (zh) | 一种车牌检测方法和系统 | |
CN109409356B (zh) | 一种基于swt的多方向中文印刷体文字检测方法 | |
CN110647882A (zh) | 图像校正方法、装置、设备及存储介质 | |
US20090245625A1 (en) | Image trimming device and program | |
CN111832476A (zh) | 版面分析方法、阅读辅助设备、电路和介质 | |
CN110569907B (zh) | 拼接图形的识别方法及装置、计算机存储介质、电子设备 | |
CN107992483A (zh) | 用于手势指点翻译的方法、装置及电子设备 | |
CN112686265A (zh) | 一种基于层级轮廓提取的象形文字分割方法 | |
CN109359652A (zh) | 一种从数码照片中快速自动提取矩形扫描件的方法 | |
CN114419144A (zh) | 基于外部轮廓形状分析的卡片定位方法 | |
CN113762216A (zh) | 一种结合形状与颜色信息的英语有声卡及其使用方法 | |
CN110619331A (zh) | 一种基于颜色距离的彩色影像字段定位方法 | |
JPH0950527A (ja) | 枠抽出装置及び矩形抽出装置 | |
CN110084117A (zh) | 基于二值图分段投影的文档表格线检测方法、系统 | |
CN114782975A (zh) | 一种电子卷宗表格式ocr识别的方法 | |
KR20050051029A (ko) | 코드이미지 검출 방법 및 장치 | |
Ma et al. | Mobile camera based text detection and translation | |
JPH06187489A (ja) | 文字認識装置 | |
CN112613355B (zh) | 一种基于寻岛算法的手势分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |