CN111914829A - 一种基于ocr的智能盲人手杖及其图像识别方法 - Google Patents

一种基于ocr的智能盲人手杖及其图像识别方法 Download PDF

Info

Publication number
CN111914829A
CN111914829A CN202010735652.5A CN202010735652A CN111914829A CN 111914829 A CN111914829 A CN 111914829A CN 202010735652 A CN202010735652 A CN 202010735652A CN 111914829 A CN111914829 A CN 111914829A
Authority
CN
China
Prior art keywords
region
image
cane
text
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010735652.5A
Other languages
English (en)
Inventor
贾小云
潘德燃
邵帆
王丽艳
杜晓旭
曾奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi University of Science and Technology
Original Assignee
Shaanxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi University of Science and Technology filed Critical Shaanxi University of Science and Technology
Priority to CN202010735652.5A priority Critical patent/CN111914829A/zh
Publication of CN111914829A publication Critical patent/CN111914829A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/02Crutches
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/068Sticks for blind persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Pain & Pain Management (AREA)
  • Epidemiology (AREA)
  • Rehabilitation Therapy (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于OCR技术的智能手杖及其图像识别方法,包括有杖头,杖头连接有杖体,杖头内部设有空腔,空腔内部设置有隔板,隔板一侧设置有嵌入式系统,隔板另一侧设置有电池,杖头的一端端部设置有前摄像头,前摄像头电性连接有前摄像头触发按钮,前摄像头触发按钮设置在杖头的侧壁,杖头的侧壁设置有副摄像头,副摄像头电性连接有副摄像头触发按钮。嵌入式系统中含有用于场景图像的文本定位算法,该算法首先对图像进行预处理。然后,利用MSER算法提取字符连通域并利用面积、长宽比、区域内边缘长度等特征进行过滤。接着,利用连通域的分布、形态以及DRLBP纹理特征对字符连通域进行合并;最后,得到文本行图像区域。

Description

一种基于OCR的智能盲人手杖及其图像识别方法
技术领域
本发明属于盲人用具技术领域,涉及一种基于OCR的智能盲人手杖,还涉及该手杖所使用的图像识别方法。
背景技术
我国是拥有较多盲障人士的国家之一,盲人作为社会中的弱势群体,在生活中存在着诸多不便。目前已有不少用于辅助盲人工作生活的工具,其中盲人手杖是使用率较高的工具之一。随着科学技术的进步,尤其是计算机视觉、模式识别领域的快速发展,盲人智能手杖的出现将会给盲障人士带来更多的便利。
盲障人士的主要障碍为无法看见周围环境,智能化手杖的主要实现途径之一是使用摄像机获取数字图像并以其他方式代替视觉使得盲人能够感知到周围环境,如语音等形式。如何对图像进行解读是该方法实施的关键。利用神经网络进行目标识别是图像解读的方法之一,将识别的结果通过语音的方式告知使用者,从而使得使用者得知周围环境。但这种方法存在神经网络模型难以训练,且需要设备拥有一定的计算能力,难以运用于实际场景。由于图像中的文字信息是图像中的高层语义,且目前社会中存在大量文字性的标语、提示。通过获取生活中的这些文字对其识别并语音播报给使用者,能够给使用者的生活带来极大的便利。
发明内容
本发明的第一个目的是提供一种基于OCR的智能盲人手杖,具有通过识别获取到的文字信息并把文字信息语音播报给使用者的特点。
本发明的另一个目的是提供一种基于OCR的智能盲人手杖的图像识别方法,同样具有通过识别获取到的文字信息并把文字信息语音播报给使用者的特点。
本发明所采用第一个的技术方案是,一种基于OCR的智能盲人手杖,包括有杖头,杖头连接有杖体,杖头内部设有空腔,空腔内部设置有隔板,隔板一侧设置有嵌入式系统,隔板另一侧设置有电池,杖头的一端端部设置有前摄像头,前摄像头电性连接有前摄像头触发按钮,前摄像头触发按钮设置在杖头的侧壁,杖头的另一端端部设置有充电口、开关按钮及扬声器,充电口电性连接电池,杖头的侧壁设置有副摄像头,副摄像头电性连接有副摄像头触发按钮,副摄像头触发按钮设置在杖头的侧壁且在副摄像头的相对面。
本发明所采用另一个的技术方案是,一种基于OCR的智能盲人手杖的图像识别方法,具体包括以下步骤:
步骤1:图像预处理;
步骤2:字符连通区域提取;
步骤3:邻近连通域计算;
步骤4:文本行合并判断;
步骤5:对所合并的文本连通区域进行纹理判断。
步骤1具体按照以下步骤实施:
本发明的特点还在于:
嵌入式系统包括有嵌入式开发板,嵌入式开发板上设置有单片机与若干个接口,接口连接电池、前摄像头、前摄像头触发按钮、副摄像头、副摄像头触发按钮、开关按钮及扬声器,前摄像头与前摄像头触发按钮串联在前摄像头控制电路,副摄像头与副摄像头触发按钮串联在副摄像头控制电路,单片机、开关按钮及电池串联在主控制电路,前摄像头控制电路、副摄像头控制电路及扬声器并联接入主控制电路。
杖体为多节伸缩杆,杖头与杖体连接处的侧壁设置有凸块,杖体设置有配合凸块工作的凹槽,凸块在凹槽内旋转,杖头往复旋转,手杖整体切换直线形和“T”形。步骤1具体按照以下步骤实施:
步骤1.1、将前摄像头或副摄像头获得的图像I等比缩放到400,000像素大小,将缩放后的彩色图像进行灰度化,获得灰度图像G,缩放倍数z的计算公式如下:
Figure BDA0002604939330000021
式中,Iw为图像I的宽,Ih为图像I的高;
步骤1.2、对步骤1.1所得的灰度图G进行双边滤波,并对滤波后的图像计算对应的高反差保留图CG,高反差保留图CG的计算方法为灰度图G减去灰度图G的高斯模糊图,并将得到的结果线性映射到0到255之间,从而得到高反差保留图CG
步骤1.3、计算步骤1.2所得的高反差保留图CG的平均灰度值,并以此为阈值将对应的高反差保留图CG分为两部分,令像素灰度值大于等于阈值的像素灰度值全部等于阈值,并将图像线性映射到0到255之间得到灰度图LG;令像素灰度值小于阈值的像素灰度值全部等于阈值,并将图像线性映射到0到255之间得到灰度图HG
步骤2具体按照以下步骤实施:
利用MSER算法从步骤1.3所得的灰度图LG、HG中提取候选字符连通域集合RS, RS包括有灰度图LG的候选字符连通域集合RSLG与灰度图HG的候选字符连通域集合RSHG,并利用连通区域R的面积RS、宽度Rw、高度RH、区域内边缘长度Rp、占用率Ko、高宽比Ka、紧密度Kc这七个特征来进行区域过滤;
其中,RS是区域中的像素总量,Rw和RH是区域R的最小外接矩形的宽和高,Rp是用Canny算子提取区域中的边缘像素的总数量,Ko、Ka、Kc的计算公式如下:
Figure BDA0002604939330000031
Figure BDA0002604939330000032
Figure BDA0002604939330000033
步骤3具体按照以下步骤实施:
步骤3.1、在RS中选择某一尚未选择过的连通区域作为中心连通区域Rc∈RS,如果RS中所有的连通域均被选择过,那么将RS标记为已完成处理并转至步骤4,否则计算中心连通区域Rc的邻近连通区域集合Ra;
邻近连通区域集合Ra计算方法如下:
1)将RS中所有连通区域的最小外接矩形的顶点按x轴和y轴的大小进行排序,得到两个序列xSeq,ySeq
2)计算中心连通区域Rc的最小外接正矩形M,保持中心点坐标(xm,ym)不变将该矩形的高Mh、宽Mw各增加A一段像素宽度J,J为算法中视不同的场景图像而定的参数,所增加的像素宽度J即为邻近距离,所得矩形即为邻近范围矩形M’,矩形内的区域即为邻近范围;然后,计算出xSeq中,x坐标位于[xm-Mw/2-J,xm+Mw/2+J]范围内的坐标点集合Px,同样计算出ySeq中,y坐标位于[ym-Mh/2-J,ym+Mh/2+J]范围内的坐标点Py;最后,计算出Px,Py的并集,该并集中的点所属的连通区域即为邻近区域;
步骤3.2、令RS等于RSLG,若RSLG已完成处理,则令RS等于RSHG,如果RSHG也已完成处理,那么转至步骤5。
步骤4具体按照以下步骤实施:
将中心连通区域Rc,和其相应的Ra中每一个邻近连通区域进行合并评估操作,合并评估操作的步骤如下:
按照判断条件及判断判断标准中心连通区域R和其相应的Ra中每一个邻近连通区域是否能够合并;如果能够合并则进行合并,合并后RS中将减少2个旧的连通域并增加1 个新合并的连通域,该步骤完成后返回第3步;
合并评估操作判断条件如下:
条件1:重叠率α,如果中心连通区域a与某一邻近候选区域b的重叠率大于某一阈值,那么这两个连通区域就可以直接合并;重叠率α的值为区域与区域交集部分的面积除以a、b中面积较小的面积,计算公式如下:
Figure BDA0002604939330000041
条件2:位置比率β,位置比率β用于评估中心候选连通区域a与某一邻近连通区域b的相似性和邻近度,β的值为区域a和区域b的最小外接矩形Ea、Eb的面积除以包含Ea、 Eb的最小外接矩形Eab的面积,若要使得区域a、b满足合并条件,则需要值β大于一定阈值,位置比率β的计算方法如下所示:
Figure BDA0002604939330000042
条件3:方向,一个区域的方向为该区域最小外接矩形的较长边的方向,该方向的弧度值小于等于π,方向判断主要是判断两个方向是否满足水平条件,即两个方向的最小夹角是否小于某一阈值,阈值的大小为较大面积区域最小外接矩形对角线较小夹角的一半,在方向判断中需要将连通区域分为单字符区域和多字符区域,若候选连通区域的面积、长宽小于一定阈值,那么连通区域即为单字符连通区域,方向判断的具体规则如下:
1)如果区域a、b都不是单个字符区域,那么区域a、b的方向需要满足平行条件,并且区域a、b的方向也分别需要与区域a、b中心点连线的方向满足平行条件;
2)如果区域a、b中只有一个是单个字符区域,只需要其中多字符区域的方向与两区域中心点连线的方向满足平行条件即可;
3)如果区域a、b都是单字符区域,那么忽略方向判断;
条件4:距离L,距离L是对位置比率的一个补充,判断方法为两区域的最近距离需小于某一阈值,该阈值的取值为两区域面积较小区域面积开方的k倍;
合并评估操作的判断标准如下:
若条件1满足,或条件2、条件3、条件4同时满足则可以合并,否则不能合并。
步骤5具体按照以下步骤实施:
步骤5.1、分别提取RSLG和RSHG中的文本行连通区域的DRLBP特征,结合预先建立的SVM模型完成文本连通区域的判断,筛选排除其中的非文本连通区域,最后将RSLG和RSGH中的本文行连通域进行合并;
步骤5.2、令RSG=RSLG∪RSLG,若Ri∈RSG,Rj∈RSG并且αRi,Rj超过某一阈值则将两个文本行连通域进行合并,合并后RSG中所剩的文本行连通域即为最终的文本定位结果。
本发明的有益效果是:
(1)本发明可以将周围环境中的文字信息语音播报给盲障人士,使得使用者能够在一定程度上感知到周围环境,为使用者的生活提供便利。
(2)本发明将OCR技术与传统盲人手杖相结合,手杖作为传统盲障人士的辅助设备,免去额外携带电子设备的麻烦且使得传统设备更加智能化。
(3)本发明中杖头与杖体可以90度旋转活动,使得杖体与杖体能够呈现“T”字型与直线型,且杖体为伸缩杆结构。当杖头与杖体为直线型且杖体收缩时,整个设备为收纳状态,便于携带。
(4)本发明中的主摄像用于识别场景中较远处文本信息,如路标、警示牌等,当杖头与杖体成“T”字型时,主摄像头正对使用者正前方。
(5)本发明中的副摄像头用于识别近处的本文信息,如纸币面额、书籍报纸等,当杖头与杖体成直线型时,方便使用者将本发明作为阅读器手持使用。
附图说明
图1是本发明一种基于OCR的智能盲人手杖的结构示意图;
图2是本发明一种基于OCR的智能盲人手杖的杖头结构示意图;
图3是本发明一种基于OCR的智能盲人手杖的杖头内部结构示意图;
图4是本发明一种基于OCR的智能盲人手杖的电子设备连接示意图;
图5是本发明一种基于OCR的智能盲人手杖的电路图;
图6是本发明一种基于OCR的智能盲人手杖的图像识别方法功能实现的总体流程图;
图7是本发明一种基于OCR的智能盲人手杖的图像识别方法图像预处理算法流程图;
图8是本发明一种基于OCR的智能盲人手杖的图像识别方法用于计算中心连通域的邻近连通域算法流程;
图9是本发明一种基于OCR的智能盲人手杖用于定位图像中文本行的算法流程图;
图10a是本发明一种基于OCR的智能盲人手杖的图像识别方法图像预处理的灰度图G;
图10b是本发明一种基于OCR的智能盲人手杖的图像识别方法图像预处理的灰度图 HG
图10c是本发明一种基于OCR的智能盲人手杖的图像识别方法图像预处理的灰度图 LG
图11a是本发明一种基于OCR的智能盲人手杖的图像识别方法文本定位算法的HG所提取的字符连通域结果图;
图11b是本发明一种基于OCR的智能盲人手杖的图像识别方法文本定位算法的LG所提取的字符连通域结果图;
图11c是本发明一种基于OCR的智能盲人手杖的图像识别方法文本定位算法的HG字符连通域的文本合并以及纹理检测结果图;
图11d是本发明一种基于OCR的智能盲人手杖的图像识别方法文本定位算法的LG字符连通域的文本合并以及纹理检测结果图;
图12是本发明一种基于OCR的智能盲人手杖的图像识别方法主摄像头用于检测远景中图像文本的结果示意图;
图13是本发明一种基于OCR的智能盲人手杖的图像识别方法副摄像头用于检测近景中图像文本的结果示意图;
图中,1.杖头,2.杖体,3.前摄像头触发按钮,4.副摄像头触发按钮,5.凸块,6.副摄像头,7.充电口,8.开关按钮,9.扬声器,10.前摄像头,11.电池,12.嵌入式系统,12-1.单片机。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于OCR的智能盲人手杖,结构如图1所示,包括有杖头,杖头1连接有杖体 2,如图2、3所示,杖头1内部设有空腔,空腔内部设置有隔板,隔板一侧设置有嵌入式系统12,隔板另一侧设置有电池11,杖头1的一端端部设置有前摄像头10,前摄像头 10电性连接有前摄像头触发按钮3,前摄像头触发按钮3设置在杖头1的侧壁,杖头1 的另一端端部设置有充电口7、开关按钮8及扬声器9,充电口7电性连接电池11,杖头 1的侧壁设置有副摄像头6,副摄像头6电性连接有副摄像头触发按钮4,副摄像头触发按钮4设置在杖头1的侧壁且在副摄像头6的相对面。
如图4所示,嵌入式系统12包括有嵌入式开发板,嵌入式开发板上设置有单片机12-1 与若干个接口,接口连接电池11、前摄像头10、前摄像头触发按钮3、副摄像头6、副摄像头触发按钮4、开关按钮8及扬声器9,如图5所示,前摄像头10与前摄像头触发按钮3串联在前摄像头控制电路,副摄像头6与副摄像头触发按钮4串联在副摄像头控制电路,单片机12-1、开关按钮8及电池11串联在主控制电路,前摄像头控制电路、副摄像头控制电路及扬声器并联接入主控制电路。
杖体2为三节伸缩杆,杖头1与杖体2连接处的侧壁设置有凸块5,杖体2设置有配合凸块5工作的凹槽,凸块5在凹槽内旋转,杖头1与杖体2连接处可90度旋转,可使得手杖整体呈现直线形和“T”字形,直线型便于收纳。
副摄像头触发按钮4控制副摄像头6。前摄像头触发按钮3控制前摄像头10。主摄像头10主要用于识别远景图像中的文字,如提示牌、店铺名等,副摄像头6主要用于识别近景中的文字,如纸币面额,字条等。所述杖身为三节可伸缩杆,并与杖头相连。
通过按下两个触发按钮,摄像头将采集到的环境图像传输到嵌入式系统12中。嵌入式系统12首先通过文本检测算法提取出图像中的文字,然后对所提取的文字进行字符识别,最后以语音形式通过扬声器9进行播报,从而使得使用者能够得到所拍摄场景图像中的文字信息。
嵌入式系统12所使用的预处理方法将一幅输入图像处理为白底黑字灰度图以及黑底白字灰度图两幅预处理后图像。
嵌入式系统12所包含的文本检测方法为基于连通域分析的方法,对计算资源要求较低。对图像预处理后采用MSER算法提取候选连通域,对连通域形态分布特征进行分析处理完成文本连通域的合并过程,并通过DRLBP纹理特征确定最终的文本连通域。
嵌入式系统12使用Tesseract字符识别框架以及pyttsx3文本转语音框架来完成对字符的字符和播报。
嵌入式系统会对预处理后的图像LG和HG进行文本行检测,本发明所设计的一种基于OCR的智能盲人手杖的图像识别方法,具体包括以下步骤:
步骤1:图像预处理;
步骤2:字符连通区域提取;
步骤3:邻近连通域计算;
步骤4:文本行合并判断;
步骤5:对所合并的文本连通区域进行纹理判断。
步骤1具体按照以下步骤实施:
步骤1.1、将前摄像头或副摄像头获得的图像I等比缩放到400,000像素大小,将缩放后的彩色图像进行灰度化,获得灰度图像G,缩放倍数z的计算公式如下:
Figure BDA0002604939330000081
式中,Iw为图像I的宽,Ih为图像I的高;
步骤1.2、对步骤1.1所得的灰度图G进行双边滤波,并对滤波后的图像计算对应的高反差保留图CG,高反差保留图CG的计算方法为灰度图G减去灰度图G的高斯模糊图,并将得到的结果线性映射到0到255之间,从而得到高反差保留图CG
步骤1.3、计算步骤1.2所得的高反差保留图CG的平均灰度值,并以此为阈值将对应的高反差保留图CG分为两部分,令像素灰度值大于等于阈值的像素灰度值全部等于阈值,并将图像线性映射到0到255之间得到灰度图LG;令像素灰度值小于阈值的像素灰度值全部等于阈值,并将图像线性映射到0到255之间得到灰度图HG
步骤2具体按照以下步骤实施:
利用MSER算法从步骤1.3所得的灰度图LG、HG中提取候选字符连通域集合RS, RS包括有灰度图LG的候选字符连通域集合RSLG与灰度图HG的候选字符连通域集合RSHG,并利用连通区域R的面积RS、宽度Rw、高度RH、区域内边缘长度Rp、占用率Ko、高宽比Ka、紧密度Kc这七个特征来进行区域过滤;
其中,RS是区域中的像素总量,Rw和RH是区域R的最小外接矩形的宽和高,Rp是用Canny算子提取区域中的边缘像素的总数量,Ko、Ka、Kc的计算公式如下:
Figure BDA0002604939330000082
Figure BDA0002604939330000083
Figure BDA0002604939330000084
步骤3具体按照以下步骤实施,其流程如图8所示:
步骤3.1、在RS中选择某一尚未选择过的连通区域作为中心连通区域Rc∈RS,如果RS中所有的连通域均被选择过,那么将RS标记为已完成处理并转至步骤4,否则计算中心连通区域Rc的邻近连通区域集合Ra;
邻近连通区域集合Ra计算方法如下:
1)将RS中所有连通区域的最小外接矩形的顶点按x轴和y轴的大小进行排序,得到两个序列xSeq,ySeq
2)计算中心连通区域Rc的最小外接正矩形M,保持中心点坐标(xm,ym)不变将该矩形的高(Mh)宽(Mw)各增加一段像素宽度J,所述J为算法中视不同的场景图像而定的参数,所增加的像素宽度J即为邻近距离,所得矩形即为邻近范围矩形M’,矩形内的区域即为邻近范围;然后,计算出xSeq中,x坐标位于[xm-Mw/2-J,xm+Mw/2+J]范围内的坐标点集合Px,同样计算出ySeq中,y坐标位于[ym-Mh/2-J,ym+Mh/2+J]范围内的坐标点 Py;最后,计算出Px,Py的并集,该并集中的点所属的连通区域即为邻近区域;
步骤3.2、令RS等于RSLG,若RSLG已完成处理,则令RS等于RSHG,如果RSHG也已完成处理,那么转至步骤5。
步骤4具体按照以下步骤实施:
将中心连通区域Rc,和其相应的Ra中每一个邻近连通区域进行合并评估操作,所述合并评估操作的步骤如下:
按照判断条件及判断判断标准中心连通区域R和其相应的Ra中每一个邻近连通区域是否能够合并;如果能够合并则进行合并,合并后RS中将减少2个旧的连通域并增加1 个新合并的连通域,该步骤完成后返回第3步;
合并评估操作判断条件如下:
条件1:重叠率α,如果中心连通区域a与某一邻近候选区域b的重叠率大于某一阈值,那么这两个连通区域就可以直接合并;重叠率α的值为区域与区域交集部分的面积除以a、b中面积较小的面积,计算公式如下:
Figure BDA0002604939330000091
条件2:位置比率β,位置比率β用于评估中心候选连通区域a与某一邻近连通区域b的相似性和邻近度,β的值为区域a和区域b的最小外接矩形Ea、Eb的面积除以包含Ea、 Eb的最小外接矩形Eab的面积,若要使得区域a、b满足合并条件,则需要值β大于一定阈值,位置比率β的计算方法如下所示:
Figure BDA0002604939330000092
条件3:方向,一个区域的方向为该区域最小外接矩形的较长边的方向,该方向的弧度值小于等于π,方向判断主要是判断两个方向是否满足水平条件,即两个方向的最小夹角是否小于某一阈值,所述阈值的大小为较大面积区域最小外接矩形对角线较小夹角的一半,在方向判断中需要将连通区域分为单字符区域和多字符区域,若候选连通区域的面积、长宽小于一定阈值,那么所述连通区域即为单字符连通区域,方向判断的具体规则如下:
1)如果区域a、b都不是单个字符区域,那么区域a、b的方向需要满足平行条件,并且区域a、b的方向也分别需要与区域a、b中心点连线的方向满足平行条件;
2)如果区域a、b中只有一个是单个字符区域,只需要其中多字符区域的方向与两区域中心点连线的方向满足平行条件即可;
3)如果区域a、b都是单字符区域,那么忽略方向判断;
条件4:距离L,距离L是对位置比率的一个补充,判断方法为两区域的最近距离需小于某一阈值,该阈值的取值为两区域面积较小区域面积开方的k倍;
合并评估操作的判断标准如下:
若条件1满足,或条件2、条件3、条件4同时满足则可以合并,否则不能合并。
步骤5具体按照以下步骤实施:
步骤5.1、分别提取RSLG和RSHG中的文本行连通区域的DRLBP特征,结合预先建立的SVM模型完成文本连通区域的判断,筛选排除其中的非文本连通区域,最后将RSLG和RSGH中的本文行连通域进行合并;
步骤5.2、令RSG=RSLG∪RSLG,若Ri∈RSG,Rj∈RSG并且αRi,Rj超过某一阈值则将两个文本行连通域进行合并,合并后RSG中所剩的文本行连通域即为最终的文本定位结果。
本发明一种基于OCR的智能盲人手杖,其工作过程如下:
当杖头1与杖体2成“T”字形且杖体2的伸缩杆展开时便于盲人探路使用,此时按动前摄像头触发按钮3将调用前摄像头10获取场景图像(远景)。杖头1与杖体2成直线形且杖体2的伸缩杆收缩时,便于收纳且可作为阅读器使用,此时按动副摄像头触发按钮4将调用副摄像头6获取场景图像(近景)。所获取的图像将发送至位于杖头1内部的嵌入式系统12中进行处理,最终将处理结果通过扬声器9播放。
当智能手杖作为探路使用时,按动前摄像头触发按钮3,由前摄像头10获取的图像并传输给嵌入式系统12。嵌入式系统对输入图像的总体处理流程如图6所示。其中文本定位步骤由所述文本检测算法完成,所述文本检测算法首先对输入图像I进行灰度化得到灰度图G,然后进行预处理,得到预处理图LG和HG,其流程如图7所示,示意图如图10a~c所示。然后利用MSER算法对图LG和HG提取字符连通域。接着对字符连通域分布、形态、纹理特征进行分析合并,并得到最终文本行连通域,流程如图9所示,示意图如图11a~d所示,灰色方框为定位得到的文本连通域,白色方框为非文本连通域。最终结果如图12所示,图中灰色方框内的“禁止通行”即为最终文本连通区域。利用 Tesseract对标记出的文字进行字符识别得到“前方施工”文本。最后利用pyttsx3将“前方施工”合成语音,并通过扬声器9语音播报给盲人使用者。使用者通过语音信息和手杖的方向从而得到前方道路情况。
当智能手杖作为阅读器时,按动副摄像头按钮4,由副摄像头6获取图像并传输给嵌入式系统12。嵌入式系统12对输入图像的处理方法与智能手杖作为探路使用时的处理方法一致。文本定位算法对药盒文本定位的结果如图13所示,识别出“蛇胆川贝液”,经由Tesseract字符识别,pyttsx3语音合成,最后通过扬声器9播报给盲人使用者。使用者由此得到所拿药物的名称。
本发明的一种基于OCR的智能导盲手杖,其有益效果在于:
(1)本发明可以将周围环境中的文字信息语音播报给盲障人士,使得使用者能够在一定程度上感知到周围环境,为使用者的生活提供便利。
(2)本发明将OCR技术与传统盲人手杖相结合,手杖作为传统盲障人士的辅助设备,免去额外携带电子设备的麻烦且使得传统设备更加智能化。
(3)本发明中杖头与杖体可以90度旋转活动,使得杖体与杖体能够呈现“T”字型与直线型,且杖体为伸缩杆结构。当杖头与杖体为直线型且杖体收缩时,整个设备为收纳状态,便于携带。
(4)本发明中的主摄像用于识别场景中较远处文本信息,如路标、警示牌等,当杖头与杖体成“T”字型时,主摄像头正对使用者正前方。
(5)本发明中的副摄像头用于识别近处的本文信息,如纸币面额、书籍报纸等,当杖头与杖体成直线型时,方便使用者将本发明作为阅读器手持使用。

Claims (9)

1.一种基于OCR的智能盲人手杖,包括有杖头(1),所述杖头(1)连接有杖体(2),其特征在于,所述杖头(1)内部设有空腔,空腔内部设置有隔板,隔板一侧设置有嵌入式系统(12),隔板另一侧设置有电池(11),杖头(1)的一端端部设置有前摄像头(10),所述前摄像头(10)电性连接有前摄像头触发按钮(3),所述前摄像头触发按钮(3)设置在杖头(1)的侧壁,杖头(1)的另一端端部设置有充电口(7)、开关按钮(8)及扬声器(9),所述充电口(7)电性连接电池(11),杖头(1)的侧壁设置有副摄像头(6),所述副摄像头(6)电性连接有副摄像头触发按钮(4),所述副摄像头触发按钮(4)设置在杖头(1)的侧壁且在副摄像头(6)的相对面。
2.根据权利要求1所述的一种基于OCR的智能盲人手杖,其特征在于,所述嵌入式系统(12)包括有嵌入式开发板,所述嵌入式开发板上设置有单片机(12-1)与若干个接口,所述接口连接电池(11)、前摄像头(10)、前摄像头触发按钮(3)、副摄像头(6)、副摄像头触发按钮(4)、开关按钮(8)及扬声器(9),前摄像头(10)与前摄像头触发按钮(3)串联在前摄像头控制电路,副摄像头(6)与副摄像头触发按钮(4)串联在副摄像头控制电路,单片机(12-1)、开关按钮(8)及电池(11)串联在主控制电路,所述前摄像头控制电路、副摄像头控制电路及扬声器并联接入主控制电路。
3.根据权利要求1所述的一种基于OCR的智能盲人手杖,其特征在于,所述杖体(2)为多节伸缩杆,杖头(1)与杖体(2)连接处的侧壁设置有凸块(5),杖体(2)设置有配合凸块(5)工作的凹槽,凸块(5)在凹槽内旋转,杖头(1)往复旋转,手杖整体切换直线形和“T”形。
4.一种基于OCR的智能盲人手杖的图像识别方法,其特征在于,使用如权利要求1~3所述的一种基于OCR的智能盲人手杖,具体包括以下步骤:
步骤1:图像预处理;
步骤2:字符连通区域提取;
步骤3:邻近连通域计算;
步骤4:文本行合并判断;
步骤5:对所合并的文本连通区域进行纹理判断。
5.根据权利要求4所述一种基于OCR的智能盲人手杖的图像识别方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、将前摄像头或副摄像头获得的图像I等比缩放到400,000像素大小,将缩放后的彩色图像进行灰度化,获得灰度图像G,缩放倍数z的计算公式如下:
Figure FDA0002604939320000021
式中,Iw为图像I的宽,Ih为图像I的高;
步骤1.2、对步骤1.1所得的灰度图G进行双边滤波,并对滤波后的图像计算对应的高反差保留图CG,所述高反差保留图CG的计算方法为所述灰度图G减去灰度图G的高斯模糊图,并将得到的结果线性映射到0到255之间,从而得到高反差保留图CG
步骤1.3、计算步骤1.2所得的高反差保留图CG的平均灰度值,并以此为阈值将对应的高反差保留图CG分为两部分,令像素灰度值大于等于阈值的像素灰度值全部等于阈值,并将图像线性映射到0到255之间得到灰度图LG;令像素灰度值小于阈值的像素灰度值全部等于阈值,并将图像线性映射到0到255之间得到灰度图HG
6.根据权利要求5所述一种基于OCR的智能盲人手杖的图像识别方法,其特征在于,所述步骤2具体按照以下步骤实施:
利用MSER算法从步骤1.3所得的灰度图LG、HG中提取候选字符连通域集合RS,所述RS包括有灰度图LG的候选字符连通域集合RSLG与灰度图HG的候选字符连通域集合RSHG,并利用连通区域R的面积RS、宽度Rw、高度RH、区域内边缘长度Rp、占用率Ko、高宽比Ka、紧密度Kc这七个特征来进行区域过滤;
其中,RS是区域中的像素总量,Rw和RH是区域R的最小外接矩形的宽和高,Rp是用Canny算子提取区域中的边缘像素的总数量,Ko、Ka、Kc的计算公式如下:
Figure FDA0002604939320000022
Figure FDA0002604939320000023
Figure FDA0002604939320000024
7.根据权利要求6所述一种基于OCR的智能盲人手杖的图像识别方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、在RS中选择某一尚未选择过的连通区域作为中心连通区域Rc∈RS,如果RS中所有的连通域均被选择过,那么将RS标记为已完成处理并转至步骤4,否则计算中心连通区域Rc的邻近连通区域集合Ra;
所述邻近连通区域集合Ra计算方法如下:
1)将RS中所有连通区域的最小外接矩形的顶点按x轴和y轴的大小进行排序,得到两个序列xSeq,ySeq
2)计算中心连通区域Rc的最小外接正矩形M,保持中心点坐标(xm,ym)不变将该矩形的高(Mh)宽(Mw)各增加一段像素宽度J,所述J为算法中视不同的场景图像而定的参数,所增加的像素宽度J即为邻近距离,所得矩形即为邻近范围矩形M’,矩形内的区域即为邻近范围;然后,计算出xSeq中,x坐标位于[xm-Mw/2-J,xm+Mw/2+J]范围内的坐标点集合Px,同样计算出ySeq中,y坐标位于[ym-Mh/2-J,ym+Mh/2+J]范围内的坐标点Py;最后,计算出Px,Py的并集,该并集中的点所属的连通区域即为邻近区域;
步骤3.2、令RS等于RSLG,若RSLG已完成处理,则令RS等于RSHG,如果RSHG也已完成处理,那么转至步骤5。
8.根据权利要求7所述一种基于OCR的智能盲人手杖的图像识别方法,其特征在于,所述步骤4具体按照以下步骤实施:
将中心连通区域Rc,和其相应的Ra中每一个邻近连通区域进行合并评估操作,所述合并评估操作的步骤如下:
按照判断条件及判断判断标准中心连通区域R和其相应的Ra中每一个邻近连通区域是否能够合并;如果能够合并则进行合并,合并后RS中将减少2个旧的连通域并增加1个新合并的连通域,该步骤完成后返回第3步;
所述合并评估操作判断条件如下:
条件1:重叠率α,如果中心连通区域a与某一邻近候选区域b的重叠率大于某一阈值,那么这两个连通区域就可以直接合并;所述重叠率α的值为区域与区域交集部分的面积除以a、b中面积较小的面积,计算公式如下:
Figure FDA0002604939320000031
条件2:位置比率β,位置比率β用于评估中心候选连通区域a与某一邻近连通区域b的相似性和邻近度,β的值为区域a和区域b的最小外接矩形Ea、Eb的面积除以包含Ea、Eb的最小外接矩形Eab的面积,若要使得区域a、b满足合并条件,则需要值β大于一定阈值,所述位置比率β的计算方法如下所示:
Figure FDA0002604939320000032
条件3:方向,一个区域的方向为该区域最小外接矩形的较长边的方向,该方向的弧度值小于等于π,方向判断主要是判断两个方向是否满足水平条件,即两个方向的最小夹角是否小于某一阈值,所述阈值的大小为较大面积区域最小外接矩形对角线较小夹角的一半,在方向判断中需要将连通区域分为单字符区域和多字符区域,若候选连通区域的面积、长宽小于一定阈值,那么所述连通区域即为单字符连通区域,方向判断的具体规则如下:
1)如果区域a、b都不是单个字符区域,那么区域a、b的方向需要满足平行条件,并且区域a、b的方向也分别需要与区域a、b中心点连线的方向满足平行条件;
2)如果区域a、b中只有一个是单个字符区域,只需要其中多字符区域的方向与两区域中心点连线的方向满足平行条件即可;
3)如果区域a、b都是单字符区域,那么忽略方向判断;
条件4:距离L,距离L是对位置比率的一个补充,判断方法为两区域的最近距离需小于某一阈值,该阈值的取值为两区域面积较小区域面积开方的k倍;
所述合并评估操作的判断标准如下:
若条件1满足,或条件2、条件3、条件4同时满足则可以合并,否则不能合并。
9.根据权利要求8所述一种基于OCR的智能盲人手杖的图像识别方法,其特征在于,所述步骤5具体按照以下步骤实施:
步骤5.1、分别提取RSLG和RSHG中的文本行连通区域的DRLBP特征,结合预先建立的SVM模型完成文本连通区域的判断,筛选排除其中的非文本连通区域,最后将RSLG和RSGH中的本文行连通域进行合并;
步骤5.2、令RSG=RSLG∪RSLG,若Ri∈RSG,Rj∈RSG并且αRi,Rj超过某一阈值则将两个文本行连通域进行合并,合并后RSG中所剩的文本行连通域即为最终的文本定位结果。
CN202010735652.5A 2020-07-28 2020-07-28 一种基于ocr的智能盲人手杖及其图像识别方法 Pending CN111914829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010735652.5A CN111914829A (zh) 2020-07-28 2020-07-28 一种基于ocr的智能盲人手杖及其图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010735652.5A CN111914829A (zh) 2020-07-28 2020-07-28 一种基于ocr的智能盲人手杖及其图像识别方法

Publications (1)

Publication Number Publication Date
CN111914829A true CN111914829A (zh) 2020-11-10

Family

ID=73280201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010735652.5A Pending CN111914829A (zh) 2020-07-28 2020-07-28 一种基于ocr的智能盲人手杖及其图像识别方法

Country Status (1)

Country Link
CN (1) CN111914829A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2371339A1 (en) * 2010-04-02 2011-10-05 POZOR 360 d.o.o. Surroundings recognition & describing device for blind people
CN203986471U (zh) * 2014-07-30 2014-12-10 郑州一诺工业产品设计有限公司 便携式拐杖
KR20170134009A (ko) * 2016-05-27 2017-12-06 정충길 휴대용 문자 리더기를 구비하는 지팡이
CN206895966U (zh) * 2017-06-30 2018-01-19 常州工程职业技术学院 一种可收纳式拐杖
CN207575415U (zh) * 2017-03-14 2018-07-06 南京信息工程大学 一种智能导盲拐杖
CN207898643U (zh) * 2017-09-17 2018-09-25 王嘉鋆 智能导盲杖
CN210094877U (zh) * 2019-06-13 2020-02-21 滨州市技师学院 折叠式登山杖

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2371339A1 (en) * 2010-04-02 2011-10-05 POZOR 360 d.o.o. Surroundings recognition & describing device for blind people
CN203986471U (zh) * 2014-07-30 2014-12-10 郑州一诺工业产品设计有限公司 便携式拐杖
KR20170134009A (ko) * 2016-05-27 2017-12-06 정충길 휴대용 문자 리더기를 구비하는 지팡이
CN207575415U (zh) * 2017-03-14 2018-07-06 南京信息工程大学 一种智能导盲拐杖
CN206895966U (zh) * 2017-06-30 2018-01-19 常州工程职业技术学院 一种可收纳式拐杖
CN207898643U (zh) * 2017-09-17 2018-09-25 王嘉鋆 智能导盲杖
CN210094877U (zh) * 2019-06-13 2020-02-21 滨州市技师学院 折叠式登山杖

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾小云; 潘德燃; 赵晓: "应用MSER与DLBP的证件文本定位方法", 《陕西科技大学学报》, pages 166 - 171 *

Similar Documents

Publication Publication Date Title
CN110175576B (zh) 一种结合激光点云数据的行驶车辆视觉检测方法
CN105809138B (zh) 一种基于分块识别的道路警告标志检测与识别方法
Wu et al. A practical system for road marking detection and recognition
CN103646249B (zh) 一种温室智能移动机器人视觉导航路径识别方法
Weidner Contribution to the assessment of segmentation quality for remote sensing applications
CN108961400B (zh) 一种文物智能辅助引导方法和引导系统
CN104951940B (zh) 一种基于掌纹识别的移动支付验证方法
CN106709518A (zh) 基于Android平台的盲道识别系统
Tsai et al. Road sign detection using eigen colour
CN105069466A (zh) 基于数字图像处理的行人服饰颜色识别方法
CN103473551A (zh) 基于sift算子的台标识别方法及系统
JPH0877334A (ja) 顔画像の特徴点自動抽出方法
CN101266654A (zh) 基于连通分量和支持向量机的图像文本定位方法和装置
CN103927511A (zh) 基于差异特征描述的图像识别方法
CN109902585A (zh) 一种基于图模型的手指三模态融合识别方法
CN112101208A (zh) 高龄老人特征串联融合手势识别方法及装置
CN107122775A (zh) 一种基于特征匹配的安卓手机身份证字符识别方法
CN105975906B (zh) 一种基于面积特征的pca静态手势识别方法
Zang et al. Traffic lane detection using fully convolutional neural network
CN113688821A (zh) 一种基于深度学习的ocr文字识别方法
CN112101108A (zh) 一种基于图形极点位置特征的左右转交通标志识别方法
Schreiber et al. Detecting symbols on road surface for mapping and localization using OCR
CN113343927B (zh) 一种适用于面瘫患者的智能化人脸识别方法和系统
CN111914829A (zh) 一种基于ocr的智能盲人手杖及其图像识别方法
CN105955473A (zh) 一种基于计算机的静态手势图像识别交互系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination