CN108062548A - 一种盲文方自适应定位方法及系统 - Google Patents

一种盲文方自适应定位方法及系统 Download PDF

Info

Publication number
CN108062548A
CN108062548A CN201711071082.9A CN201711071082A CN108062548A CN 108062548 A CN108062548 A CN 108062548A CN 201711071082 A CN201711071082 A CN 201711071082A CN 108062548 A CN108062548 A CN 108062548A
Authority
CN
China
Prior art keywords
braille
point
image
horizontal line
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711071082.9A
Other languages
English (en)
Other versions
CN108062548B (zh
Inventor
刘宏
黎仁强
王向东
钱跃良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201711071082.9A priority Critical patent/CN108062548B/zh
Publication of CN108062548A publication Critical patent/CN108062548A/zh
Application granted granted Critical
Publication of CN108062548B publication Critical patent/CN108062548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/003Teaching or communicating with blind persons using tactile presentation of the information, e.g. Braille displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种盲文方自适应定位方法及系统,包括:获取盲文图像的盲文点位置信息;对盲文点位置信息进行纵坐标的聚类,以得到多条预选盲文方水平行线的位置;根据各预选盲文方水平行线的纵坐标,从上往下判断是否存在符合标准的水平行线,若存在,则从三条水平行线开始,根据统计得到的盲文方点距、行距等信息分别向上、向下拓展,且拓展的过程中生成以最新拓展的一组三条水平行线为基准,同时剔除位置错误的水平行线,直到达到盲文图像上下两端,得到包含多组以三条水平行线为一组的盲文方水平线;同理得到盲文方竖直线;以盲文方竖直线和盲文方竖直线的相交点,构成盲文方网格。

Description

一种盲文方自适应定位方法及系统
技术领域
本发明涉及盲文识别领域,特别涉及一种盲文方自适应定位方法及系统。
背景技术
视力残疾人士由于视觉障碍,无法像明眼人一样获取明文信息,主要通过触摸盲文点字符号来阅读盲文获取信息。目前流通的盲文图书数量还较少,无法满足盲人朋友的阅读需求。另一方面,盲文图书馆典藏了很多早期有价值的盲文图书和文献,这些图书由于缺乏盲文的数字化信息,导致再版的人工成本昂贵。而且,在特殊教育领域,盲生试卷的编制和阅卷,还是采用盲文老师手工翻译的方式,耗时费力,缺乏客观性。因此,针对纸质盲文图像的盲文点字自动检测和识别技术具有重要意义。
盲文俗称“点字”或“凸字”,由法国人路易·布莱尔于1824年发明,是一种依靠触觉感知的文字。盲文图书的一页大概有1000到2000个盲文凸点。盲文的基本组成单位是盲方或者盲符,每个盲方有6个点位,分布在三行两列的矩阵上,根据相应的点位上是否有凸点来代表不同的盲方。盲方根据“国家盲文标准”,按照一定的方距和行距进行排列,组成盲文。
为了节约纸张,盲文图书一般采用双面打印方式,即我们得到的盲文图像即含有当前页的凸点区域,又包含凹点区域。凸点和凹点区域会有一定的错位现象,但是在双面盲文的点字密集区域,凸点和凹点往往交错在一起,导致盲文点字的图像表观呈现多样性特点,凹凸点的外观形态也会发生极大的变化,这给双面盲文的盲方定位和盲文识别带来极大的困难和挑战。盲方定位是盲文识别的基础,目前还缺乏鲁棒的盲文方定位方法。
发明内容
为了解决上述问题,本发明提出了一种盲文点检测方法及系统。
具体地说,本发明公开了一种盲文方自适应定位方法,其中包括:
步骤1、利用采集设备获取纸版盲文的数字化图像;
步骤2、对该数字化图像的盲文进行盲文点标注,获得盲文图像;
步骤3、对该盲文图像内的盲文方进行定位,生成该盲文图像的盲文方网格;
其中该步骤3包括:
步骤31、获取该盲文图像的盲文点位置信息;
步骤32、根据预先设置的阈值范围,对该盲文点位置信息进行纵坐标的聚类,将盲文点纵坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的纵坐标均值,根据该纵坐标均值得到多条预选盲文方水平行线的位置;
步骤33、根据各预选盲文方水平行线的纵坐标,从上往下判断是否存在符合标准的三条水平行线,其中该标准为相邻两条水平行线间距离符合统计信息中盲文方点距的范围,若存在,则从该三条水平行线开始,根据统计得到的盲文方点距、行距等信息分别向上、向下拓展,且拓展的过程中生成以最新拓展的一组三条水平行线为基准,同时剔除位置错误的水平行线,直到达到该盲文图像上下两端,得到包含多组以三条水平行线为一组的盲文方水平线;
步骤34、对该盲文点位置信息进行横坐标的聚类,将盲文点横坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的横坐标均值,根据该横坐标均值得到多条预选盲文方竖直列线的位置;
步骤35、根据各预选盲文方竖直列线的横坐标,从左到右判断是否存在符合标准的两条竖直列线,其中该标准为相邻两条竖直列线间距离符合统计信息中盲文方点距的范围,若存在,则从该两条竖直列线开始,根据统计得到的盲文方点距、行距等信息分别向左、向右拓展,且拓展的过程中生成以最新拓展的一组两条竖直列线为基准,同时剔除位置错误的竖直列线,直到达到该盲文图像左右两端,得到包含多组以两条竖直列线为一组的盲文方竖直线;
步骤36、以该盲文方竖直线和该盲文方竖直线的相交点,构成该盲文方网格。
该盲文方自适应定位方法,其中步骤1中该采集设备包括扫描仪、摄像机或盲文图像采集仪器;该纸版盲文包括凸点和/或凹点形式的盲文点。
该盲文方自适应定位方法,其中该步骤31还包括:对该盲文图像进行倾斜校正处理,获取斜校正处理完成后盲文图像的该盲文点位置信息。
该盲文方自适应定位方法,其中该步骤2具体为:以盲文方为单位对该数字化图像进行交互式盲文点标注,以获得该盲文图像。
该盲文方自适应定位方法,其中该倾斜校正处理包括:
在该盲文图像上放置或粘贴一个矩形框,其中该矩形框的水平线和竖直线与盲文方的行和列平行,通过校正该矩形框对该盲文图像的倾斜校正处理;或
根据该盲文图像边缘上的盲文点,使用最小二乘法拟合直线对该盲文图像的倾斜校正处理;或检测该盲文图像的纸张边缘直线,根据该纸张边缘直线的倾斜角度对该盲文图像的倾斜校正处理。
本发明还提出了一种盲文方自适应定位系统,其中包括:
采集模块,用于通过采集设备获取纸版盲文的数字化图像;
标注模块,用于对该数字化图像的盲文进行盲文点标注,获得盲文图像;
定位模块,用于对该盲文图像内的盲文方进行定位,生成该盲文图像的盲文方网格;
其中该定位模块包括:
纵坐标聚类模块,用于获取该盲文图像的盲文点位置信息,根据预先设置的阈值范围,对该盲文点位置信息进行纵坐标的聚类,将盲文点纵坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的纵坐标均值,根据该纵坐标均值得到多条预选盲文方水平行线的位置;
水平行线生成模块,用于根据各预选盲文方水平行线的纵坐标,从上往下判断是否存在符合标准的三条水平行线,其中该标准为相邻两条水平行线间距离符合统计信息中盲文方点距的范围,若存在,则从该三条水平行线开始,根据统计得到的盲文方点距、行距等信息分别向上、向下拓展,且拓展的过程中生成以最新拓展的一组三条水平行线为基准,同时剔除位置错误的水平行线,直到达到该盲文图像上下两端,得到包含多组以三条水平行线为一组的盲文方水平线;
横坐标聚类模块,用于对该盲文点位置信息进行横坐标的聚类,将盲文点横坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的横坐标均值,根据该横坐标均值得到多条预选盲文方竖直列线的位置;
竖直列线生成模块,用于根据各预选盲文方竖直列线的横坐标,从左到右判断是否存在符合标准的两条竖直列线,其中该标准为相邻两条竖直列线间距离符合统计信息中盲文方点距的范围,若存在,则从该两条竖直列线开始,根据统计得到的盲文方点距、行距等信息分别向左、向右拓展,且拓展的过程中生成以最新拓展的一组两条竖直列线为基准,同时剔除位置错误的竖直列线,直到达到该盲文图像左右两端,得到包含多组以两条竖直列线为一组的盲文方竖直线;
盲文方网格构成模块,用于以该盲文方竖直线和该盲文方竖直线的相交点,构成该盲文方网格。
该盲文方自适应定位系统,其中该采集设备包括扫描仪、摄像机或盲文图像采集仪器;该纸版盲文包括凸点和/或凹点形式的盲文点。
该盲文方自适应定位系统,其中该纵坐标聚类模块还包括:对该盲文图像进行倾斜校正处理,获取斜校正处理完成后盲文图像的该盲文点位置信息。
该盲文方自适应定位系统,其中该标注模块具体包括:以盲文方为单位对该数字化图像进行交互式盲文点标注,以获得该盲文图像。
该盲文方自适应定位方法,其中该倾斜校正处理包括:
在该盲文图像上放置或粘贴一个矩形框,其中该矩形框的水平线和竖直线与盲文方的行和列平行,通过校正该矩形框对该盲文图像的倾斜校正处理;或
根据该盲文图像边缘上的盲文点,使用最小二乘法拟合直线对该盲文图像的倾斜校正处理;或检测该盲文图像的纸张边缘直线,根据该纸张边缘直线的倾斜角度对该盲文图像的倾斜校正处理。
附图说明
图1为双面盲文图像截图;
图2为以点的形式在屏幕上显示盲文方对应盲文点位置的示意图;
图3为以“日”字的交叉点形式在屏幕上显示盲文方对应盲文点位置的示意图;
图4为已标注完成的盲文方示意图;
图5为选择盲文方进行删除的示意图;
图6为凸点和凹点的标注结果展示图;
图7为基于级联分类器的凸点检测结果展示图;
图8为盲文方定位结果示意图;
图9为初始的计算机盲文点检测结果图;
图10为本发明主要步骤框图。
具体实施方式
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例对上述各步骤进行展开描述,并配合说明书附图作详细说明如下。
如图10所示,本发明包括:步骤1,盲文图像采集。利用采集设备获取纸版盲文的数字化图像。采集方式可以包括扫描仪扫描,摄像机拍照,或者特殊的盲文图像采集仪器等方式。该纸版盲文包括凸点和/或凹点形式的盲文点,纸版盲文可以包括盲文图书或者盲文试卷等,可以是单面印刷或者双面印刷的盲文。单面印刷的盲文每页只包含凸点或者凹点一种形式的盲文点,双面印刷的盲文每页包含凸点和凹点两种形式的盲文点。例如,图1显示了采用扫描仪扫描得到的双面盲文图像的截图,既有凸点又有凹点,在文字密集区,凸点和凹点交互在一起。
步骤2,以盲文方为单位对该数字化图像进行交互式盲文点标注。
步骤3,盲文方自适应定位:
盲文方自适应定位是盲文识别的关键步骤。现有的盲文方定位算法大多利用规则方法,认为盲文方行列线的排列十分规范,采用标准的盲文方网格即可实现盲文方定位。但在实际处理盲文图像时我们发现,由于生产工艺、扫描设备等原因盲文图像中盲文方行列线排列存在着微小误差,其盲文方行距、方距也并不完全一致。
盲文方自适应定位具体步骤如下:
步骤31,获取该盲文图像的盲文点信息。为表述方便本实施例以凸点为例,但不以此为限。得到凸点的初步检测结果以及倾斜校正后的盲文图像。或者利用传统的图像分割方法,得到凸点的检测结果,和倾斜校正后的盲文图像。
步骤32,根据预先设置的阈值范围,对该盲文点位置信息进行纵坐标的聚类,将盲文点纵坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的纵坐标均值,根据该纵坐标均值得到多条预选盲文方水平行线的位置。针对倾斜校正后的图像,利用盲文方三行两列的特点,对凸点位置信息进行纵坐标的聚类,将凸点纵坐标接近的盲文点划分为一组,求其纵坐标均值得到多条预选盲文方水平行线的位置。
步骤33,从上往下找出符合标准的三条水平行线,即相邻两条水平线之间距离符合统计信息中盲文方点距的范围,其中中国盲文打印有一定的规则,盲方内盲点之间的距离是固定的,称为盲文方点距。横向的盲方之间的距离叫方距,纵向的盲方之间的距离叫行距,如果找不到则生成一个默认的盲文方网格,算法结束。如果找到了,则从这三条水平线位置开始,根据统计得到的盲文方点距、行距等信息分别向上、向下拓展,且拓展的过程中生成以最新拓展的一组三条水平线为基准,同时剔除位置错误的水平线直到达到盲文图像两端,即可得到多组三条水平线为一组的盲文方水平线。
步骤34,同上述方法可得到多组两条竖直线一组的盲文方竖直线。具体包括,对该盲文点位置信息进行横坐标的聚类,将盲文点横坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的横坐标均值,根据该横坐标均值得到多条预选盲文方竖直列线的位置;
步骤35、根据各预选盲文方竖直列线的横坐标,从左到右判断是否存在符合标准的两条竖直列线,其中该标准为相邻两条竖直列线间距离符合统计信息中盲文方点距的范围,若存在,则从该两条竖直列线开始,根据统计得到的盲文方点距、行距等信息分别向左、向右拓展,且拓展的过程中生成以最新拓展的一组两条竖直列线为基准,同时剔除位置错误的竖直列线,直到达到该盲文图像左右两端,得到包含多组以两条竖直列线为一组的盲文方竖直线;
步骤36、以该盲文方竖直线和该盲文方竖直线的相交点,构成该盲文方网格。每组中三条水平线和两条竖直线的交叉点即为盲文点可能存在的位置,六个交叉点组成一个盲文方,最终生成整个盲文方网格。
其中该步骤31还包括:对该盲文图像进行倾斜校正处理,获取斜校正处理完成后盲文图像的该盲文点位置信息。该倾斜校正处理包括:
在该盲文图像上放置或粘贴一个矩形框,其中该矩形框的水平线和竖直线与盲文方的行和列平行,通过校正该矩形框对该盲文图像的倾斜校正处理;或
根据该盲文图像边缘上的盲文点,使用最小二乘法拟合直线对该盲文图像的倾斜校正处理;或
检测该盲文图像的纸张边缘直线,根据该纸张边缘直线的倾斜角度对该盲文图像的倾斜校正处理。
该步骤2具体为:以盲文方为单位对该数字化图像进行交互式盲文点标注,以获得该盲文图像。
根据上述算法得到的盲文方定位效果如图2所示,可见在凸点检测基础上进行盲文方定位,消除了凹点带来的影响,算法速度快鲁棒性高。
本发明特举以下实施例,进一步详细对上述各步骤进行展开描述。
步骤2具体包括:
步骤21,将该数字化图像作为待标注的盲文图像显示在屏幕上。例如,图1显示了一个盲文图像的截图。
步骤22,通过交互式设备的在该数字化图像上选取某一个盲文的盲文方位置,例如通过交互式设备鼠标点击盲文方的左上角来确定该盲文方位置。
步骤23,将属于该盲文方位置的盲文方标识显示在屏幕上。其中盲文方标识可为盲文方对应的6个盲文点,或者盲文方对应的“日”字形方格,例如将所选择的盲文方对应的6个盲文点位置显示在屏幕上,可以直接采用6个点来显示盲文方(如图2所示,其中盲文方对应的盲文点位置以浅灰色点标识),也可以采用“日”字形方格来表示盲文方标识(如图3所示,其中盲文方对应的盲文点位置以浅灰色矩形框标识),每个交叉点代表一个盲文点位置。盲文方标识对应的盲文点间距信息,可以参考中国盲文书写规范以及扫描图像的分辨率大小,通过统计的方法提前得到盲文点间距、盲文方间距和行距信息。并且在以上在点选盲文方时,可通过鼠标快捷键来区分是标注凸点盲文方还是凹点盲文方,例如点击鼠标左键代表标注凸点盲文方,点击鼠标右键代表标注凹点盲文方;可通过键盘快捷键进行盲文方位置,大小的微调,从而更精确的匹配盲文图像上的某一个盲文方,例如通过“I”、“K”、“J”、“L”四个键进行盲文方位置上下左右的微调,每次移动一个像素或者多个像素,具体移动的像素数课根据图像采集的分辨率决定。
步骤24,通过交互设备为该盲文方标识内的盲文点进行标注(填充),并在屏幕上实时显示已填充好的盲文点。以标注凸点为例,用交互设备例如是键盘快捷键进行盲文方内盲文点的快速填充,并在屏幕上实时显示已填充好的凸点。凹点盲文方的标注方法类似。例如,根据中国盲文要求,“日”字左边三个点代表1、2、3,右边三个点代表4、5、6。在实际标注时,可采用小键盘的数字键,仅选择某个位置上有凸点的数字。例如,如果该盲文方中仅有1、2、5三个位置有凸点,则仅利用数字键选择1、2、5三个键即可完成该盲文方凸点的填充。同时在屏幕上显示已经填充好的凸点,例如采用黑色点进行标识。图4显示了一个标注好的盲文方,例如左侧盲文方的黑点信息,右侧6个灰色点为移动到的下一个盲文方位置。
步骤25,该盲文方标注完之后,可以采用快捷键进行盲文方位置的移动,移动到下一个盲文方位置。由于中国盲文的排列遵循了国家标准,盲文方行间距和列间距有固定的范围,可以结合盲文图像采集的分辨率,提前统计该盲文图像中对应的盲文方行间距和列间距,方便在交互式操作时直接进行行列的移动。例如,利用键盘上的“上下左右”方向键进行盲文方位置的单步移动,每次移动距离可以提前根据盲文图像进行统计和确定。也可以采用步骤22,直接点选的方式,选取下一个需要标注的盲文方。这里也可以进一步用快捷键微调盲文方的位置,方法同上步骤23,并在屏幕上显示盲文方。
也可以对选取的盲文方进行标注信息的修改。例如选择了已经标注好的盲文方,可以重新通过数字快捷键进行重新标注。
也可以删除盲文方。例如,如图5所示,利用鼠标在屏幕上画矩形框的方式来圈定某一盲文方区域,按快捷键,例如DEL进行盲文方删除。或者直接点选某一盲文方,采用Del等键进行盲文方标注信息的删除。
重复步骤22,到步骤25,完成对整张盲文图像盲文点的交互式标注。实际标注时,可以根据需要仅标注凸点,或者仅标注凹点,或者凸点和凹点都进行标注。图6用不同的颜色信息展示了凸点和凹点的标注结果,其中凸点采用黑色,凹点采用白色。
标注结束之后,按快捷键保存该盲文图像的标注信息。例如,点击“S“键进行标注信息的保存,以盲文方的形式,保存盲文方位置信息,以及填充的盲文点的位置信息等。
本发明除上述步骤外还包括:
步骤4盲文点快速检测、步骤5盲文图像自动倾斜校正、步骤6盲文点计算机辅助标注和步骤7高精度盲文点和盲文方识别。
步骤4盲文点快速检测,提出了基于级联分类器的盲文点快速检测方法,包括:
步骤S1、基于以上步骤1和步骤2,得到了盲文图像的标注信息,包含凸点的位置信息。本发明下面将以凸点检测为例,凹点的检测方法类似。
步骤S2、利用标注信息,截取图像得到正负样本。比如以标注的凸点为中心的周围的区域图像作为正例样本,同样大小的背景和凹点区域作为反例样本。
步骤S3、提取样本的特征向量,训练分类器。优选的可以提取样本的Haar小波特征,训练Adaboost级联分类器。在待检测的盲文图像上,采用滑动窗口方式,提取窗口内图像的相应特征,比如haar特征,利用训练好的Adaboost分类器进行是否是凸点的分类判别。
步骤S4、经过步骤S1和步骤S2可以得到初步检测的凸点位置信息,保存整个盲文图像的凸点信息。比如保存文件名,以及对应的凸点坐标信息。本发明针对扫描仪得到的200dpi的盲文图像,利用优选的Haar+Adaboost的方法,检测一张图像在0.5秒以内。同时凸点的平均识别准确率达到99.74%,召回率94.01%。图7展示了一个利用级联分类器检测的凸点识别结果。
其他可选的方案,可以提取样本的灰度特征,或者HOG方向直方图特征,或者LBP二值纹理特征等特征向量,训练SVM或者随机森林等分类器,同样采用滑动窗口方式进行凸点检测。
其他可选的方式,可以通过图像分割方法,将盲文点进行前景和背景的分割,从而得到盲文点位置。如果是单面图像就可以直接到的凸点或者凹点信息。如果是双面图像,需要进一步利用特征进行区分凸点还是凹点,从而得到盲文图像上的凸点位置信息。
步骤5盲文图像倾斜校正。盲文点字倾斜可能有两种情况,一种是由于采集过程造成的,比如盲文纸张放置倾斜,一种是盲文在初期打印时本身就是倾斜的,导致盲文对应的盲文方行和列不是水平和垂直的,为后期盲文方定位和标注带来很大的误差。因此首先需要进行盲文图像倾斜校正。具体步骤如下:
步骤S5、基于步骤1、2、3,得到了盲文图像中的凸点位置信息。
步骤S6、较优的,首先利用前面得到的凸点位置信息将凸点和背景二值化。比如,在凸点位置使用一个黑色小正方形代替,背景等则设为全白。或者使用黑色的小圆点表示凸点,背景设为全白。
步骤S7、将该二值化图像以1°为间隔,进行多次旋转,统计每次旋转后水平投影行像素值和为0的行数和竖直投影列像素和为0的列数总和。空白行列数越多则意味着该旋转角度越接近真实倾斜角度,将空白行列数总和最大对应的旋转角度记为α°。比如,从-5°到5°进行多次旋转。
步骤S8、为了得到更新的角度,再次旋转步骤S7所得的二值化图像,以0.1°为间隔,从(α-0.5)°到(α+0.5)°进行多次旋转。同步骤S7的方法,将投影空白行列数总和最大对应的旋转角度记为β°。
步骤S9、角度β°即为所求得的盲文图像倾斜角度,反方向旋转原盲文图像可得到校正后的盲文图像。
通过以上由粗到细的旋转图像,可以快速的获取图像的倾斜角度,误差精细到0.1°。
其他可选的倾斜校正方法包括,在盲文图像上放置或粘贴一个黑色矩形框,假设该方框的水平线和竖直线与盲文方的行和列平行,通过校正该矩形框进行盲文图像的倾斜校正。
其他可选的倾斜校正方法包括,则提取上盲文图像边缘上的凸点,使用最小二乘法拟合直线来进行倾斜校正。可选的还有,人工交互式的标注出某盲文方行的第一行凸点所在位置,或者其他同一行的凸点位置,利用直线拟合的方式,求出直线的倾斜角度,从而进行盲文图像倾斜校正。
其他可选的倾斜校正方法包括,检测盲文图像的纸张边缘直线,利用直线的倾斜来校正盲文图像。
步骤6、盲文点计算机辅助标注。当需要标注新的盲文书籍,或者盲文试卷的时候。如果我们已经有了一个盲文点检测的分类器,该分类器可以辅助我们进行新盲文图像的快速标注,即由机器先进行标注,人工再进行修正,从而提升标注效率,减少人工标注劳动量。具体步骤如下。
步骤S10、基于以上步骤1、2、3、4、5,得到具有盲文方定位的凸点检测结果。如图9所示,将该图显示在屏幕上。
步骤S11、利用鼠标点选需要修改的盲文方位置,获取该盲文方的信息。
步骤S12、按快捷键删除该盲文方的标注信息。比如DEL进行盲文方标注的删除。
步骤S13、用键盘快捷键进行盲文方内盲文点的快速填充,并在屏幕上实时显示已填充好的凸点。在实际标注时,可采用小键盘的数字键,仅选择某个位置上有凸点的数字。比如,如果该盲文方中仅有1、2、5三个位置有凸点,则仅利用数字键选择1、2、5三个键即可完成该盲文方凸点的填充。同时在屏幕上显示已经填充好的凸点。
步骤S14、也可通过键盘快捷键进行盲文方位置微调,从而更精确的匹配盲文图像上的某一个盲文方。
步骤S15、该盲文方标注完之后,可以采用快捷键进行盲文方位置的移动,移动到下一个盲文方位置。由于中国盲文的排列遵循了国家标准,盲文方行间距和列间距有固定的范围,可以结合盲文图像采集的分辨率,提前统计该盲文图像中对应的盲文方行间距和列间距,方便在交互式操作时直接进行行列的移动。比如,利用键盘上的“上下左右”方向键进行盲文方位置的单步移动,每次移动距离可以提前根据盲文图像进行统计和确定。也可以采用步骤S11,直接点选的方式,选取下一个需要标注的盲文方。这里也可以进一步用快捷键微调盲文方的位置,方法同上步骤S14。
步骤S16、重复步骤S11到步骤S15,完成对整张盲文图像盲文点的交互式辅助修改。
步骤S17、标注结束之后,按快捷键保存该盲文图像的标注信息。比如,点击“S“键进行标注信息的保存,以盲文方的形式,保存盲文方位置信息,以及填充的盲文点的位置信息等。
步骤7、高精度盲文点和盲文方识别。通过以上步骤1到步骤5,得到盲文方的定位结果,可以利用盲文方位置信息,去除Adaboost级联分类器带来的部分误报,因为凸点基本上会出现在盲文方的六个盲文点位置,从而可以提升基于Adaboost分类器的识别效果。更重要的是在盲文方定位基础上,可以仅针对每个盲文方对应的6个盲文点区域,利用更复杂的分类器来提升凸点识别的准确性。具体步骤如下:
步骤S18、优选的,基于步骤1、2得到凸点标注信息,或者利用步骤1、2、3、4、5、6得到凸点标注信息。
步骤S19、截取以凸点为中心点的图像作为正例样本,以凹点和背景的中心点的图像作为反例样本。比如采用24*24的样本大小。
步骤S20、提取样本的多种特征,分别训练多个分类器。优选的,可以提取灰度特征,可以提取HOG梯度直方图特征,可以提取LBP局部二值特征,或者将HOG和LBP进一步串联的特征,并采用支持向量机SVM或者随机森林或者其他的分类器,训练凸点的分类器,同时得到多个分类器。
步骤S21、基于步骤5得到盲文方定位信息。
步骤S22、截取以每个盲文方对应的6个盲文点为中心的小图,将这些小图分别提取多种特征,利用训练好的分类器分别进行凸点的分类判别。优选的,可以提取HOG,LBP,串联的HOG_LBP特征,然后使用三个对应的SVM分类器进行识别,包括HOG-SVM,LBP-SVM,HOG_LBP+SVM。
步骤S23、将多个SVM分类器分类结果,与级联分类器进行结果融合。最终的融合结果为不同分类器的结果与其对应的权值的乘积。如果最终的融合结果超过某阈值,说明大多数分类器的输出是凸点,则认为其存在凸点。凹点的检测方法同凸点。
步骤S24、可以进一步将盲文方内的凸点信息转化为盲文方信息,从而完成基于盲文方的检测和识别。
步骤S25、可以融合正反面的盲文点的识别结果,来提高盲文点和盲文方的识别性能。
步骤S26、还可以将盲文方的信息翻译为汉语文字和句子,根据句子分析来排查检测错误的盲方,从而提高盲文编辑人员的工作效率。
基于以上步骤,基于组合分类器的方法,对盲文图像的凸点平均识别性能,达到了准确率99.75%,召回率99.58%。对盲文方的平均识别性能,达到了准确率98.27%,召回率98.84%。本发明针对扫描仪得到的200dpi的盲文图像,利用以上步骤1至步骤7得到盲文点和盲文方检测结果,检测一张图像平均在1.8秒以内。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种盲文方自适应定位系统,其中包括:
采集模块,用于通过采集设备获取纸版盲文的数字化图像;
标注模块,用于对该数字化图像的盲文进行盲文点标注,获得盲文图像;
定位模块,用于对该盲文图像内的盲文方进行定位,生成该盲文图像的盲文方网格;
其中该定位模块包括:
纵坐标聚类模块,用于获取该盲文图像的盲文点位置信息,根据预先设置的阈值范围,对该盲文点位置信息进行纵坐标的聚类,将盲文点纵坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的纵坐标均值,根据该纵坐标均值得到多条预选盲文方水平行线的位置;
水平行线生成模块,用于根据各预选盲文方水平行线的纵坐标,从上往下判断是否存在符合标准的三条水平行线,其中该标准为相邻两条水平行线间距离符合统计信息中盲文方点距的范围,若存在,则从该三条水平行线开始,根据统计得到的盲文方点距、行距等信息分别向上、向下拓展,且拓展的过程中生成以最新拓展的一组三条水平行线为基准,同时剔除位置错误的水平行线,直到达到该盲文图像上下两端,得到包含多组以三条水平行线为一组的盲文方水平线;
横坐标聚类模块,用于对该盲文点位置信息进行横坐标的聚类,将盲文点横坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的横坐标均值,根据该横坐标均值得到多条预选盲文方竖直列线的位置;
竖直列线生成模块,用于根据各预选盲文方竖直列线的横坐标,从左到右判断是否存在符合标准的两条竖直列线,其中该标准为相邻两条竖直列线间距离符合统计信息中盲文方点距的范围,若存在,则从该两条竖直列线开始,根据统计得到的盲文方点距、行距等信息分别向左、向右拓展,且拓展的过程中生成以最新拓展的一组两条竖直列线为基准,同时剔除位置错误的竖直列线,直到达到该盲文图像左右两端,得到包含多组以两条竖直列线为一组的盲文方竖直线;
盲文方网格构成模块,用于以该盲文方竖直线和该盲文方竖直线的相交点,构成该盲文方网格。
该盲文方自适应定位系统,其中该采集设备包括扫描仪、摄像机或盲文图像采集仪器;该纸版盲文包括凸点和/或凹点形式的盲文点。
该盲文方自适应定位系统,其中该纵坐标聚类模块还包括:对该盲文图像进行倾斜校正处理,获取斜校正处理完成后盲文图像的该盲文点位置信息。
该盲文方自适应定位系统,其中该标注模块具体包括:以盲文方为单位对该数字化图像进行交互式盲文点标注,以获得该盲文图像。
该盲文方自适应定位方法,其中该倾斜校正处理包括:
在该盲文图像上放置或粘贴一个矩形框,其中该矩形框的水平线和竖直线与盲文方的行和列平行,通过校正该矩形框对该盲文图像的倾斜校正处理;或
根据该盲文图像边缘上的盲文点,使用最小二乘法拟合直线对该盲文图像的倾斜校正处理;或检测该盲文图像的纸张边缘直线,根据该纸张边缘直线的倾斜角度对该盲文图像的倾斜校正处理。
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。

Claims (10)

1.一种盲文方自适应定位方法,其特征在于,包括:
步骤1、利用采集设备获取纸版盲文的数字化图像;
步骤2、对该数字化图像的盲文进行盲文点标注,获得盲文图像;
步骤3、对该盲文图像内的盲文方进行定位,生成该盲文图像的盲文方网格;
其中该步骤3包括:
步骤31、获取该盲文图像的盲文点位置信息;
步骤32、根据预先设置的阈值范围,对该盲文点位置信息进行纵坐标的聚类,将盲文点纵坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的纵坐标均值,根据该纵坐标均值得到多条预选盲文方水平行线的位置;
步骤33、根据各预选盲文方水平行线的纵坐标,从上往下判断是否存在符合标准的三条水平行线,其中该标准为相邻两条水平行线间距离符合统计信息中盲文方点距的范围,若存在,则从该三条水平行线开始,根据统计得到的盲文方点距、行距等信息分别向上、向下拓展,且拓展的过程中生成以最新拓展的一组三条水平行线为基准,同时剔除位置错误的水平行线,直到达到该盲文图像上下两端,得到包含多组以三条水平行线为一组的盲文方水平线;
步骤34、对该盲文点位置信息进行横坐标的聚类,将盲文点横坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的横坐标均值,根据该横坐标均值得到多条预选盲文方竖直列线的位置;
步骤35、根据各预选盲文方竖直列线的横坐标,从左到右判断是否存在符合标准的两条竖直列线,其中该标准为相邻两条竖直列线间距离符合统计信息中盲文方点距的范围,若存在,则从该两条竖直列线开始,根据统计得到的盲文方点距、行距等信息分别向左、向右拓展,且拓展的过程中生成以最新拓展的一组两条竖直列线为基准,同时剔除位置错误的竖直列线,直到达到该盲文图像左右两端,得到包含多组以两条竖直列线为一组的盲文方竖直线;
步骤36、以该盲文方竖直线和该盲文方竖直线的相交点,构成该盲文方网格。
2.如权利要求1所述的盲文方自适应定位方法,其特征在于,步骤1中该采集设备包括扫描仪、摄像机或盲文图像采集仪器;该纸版盲文包括凸点和/或凹点形式的盲文点。
3.如权利要求1所述的盲文方自适应定位方法,其特征在于,该步骤31还包括:对该盲文图像进行倾斜校正处理,获取斜校正处理完成后盲文图像的该盲文点位置信息。
4.如权利要求1所述的盲文方自适应定位方法,其特征在于,该步骤2具体为:以盲文方为单位对该数字化图像进行交互式盲文点标注,以获得该盲文图像。
5.如权利要求3所述的盲文方自适应定位方法,其特征在于,该倾斜校正处理包括:
在该盲文图像上放置或粘贴一个矩形框,其中该矩形框的水平线和竖直线与盲文方的行和列平行,通过校正该矩形框对该盲文图像的倾斜校正处理;或根据该盲文图像边缘上的盲文点,使用最小二乘法拟合直线对该盲文图像的倾斜校正处理;或检测该盲文图像的纸张边缘直线,根据该纸张边缘直线的倾斜角度对该盲文图像的倾斜校正处理。
6.一种盲文方自适应定位系统,其特征在于,包括:
采集模块,用于通过采集设备获取纸版盲文的数字化图像;
标注模块,用于对该数字化图像的盲文进行盲文点标注,获得盲文图像;
定位模块,用于对该盲文图像内的盲文方进行定位,生成该盲文图像的盲文方网格;
其中该定位模块包括:
纵坐标聚类模块,用于获取该盲文图像的盲文点位置信息,根据预先设置的阈值范围,对该盲文点位置信息进行纵坐标的聚类,将盲文点纵坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的纵坐标均值,根据该纵坐标均值得到多条预选盲文方水平行线的位置;
水平行线生成模块,用于根据各预选盲文方水平行线的纵坐标,从上往下判断是否存在符合标准的三条水平行线,其中该标准为相邻两条水平行线间距离符合统计信息中盲文方点距的范围,若存在,则从该三条水平行线开始,根据统计得到的盲文方点距、行距等信息分别向上、向下拓展,且拓展的过程中生成以最新拓展的一组三条水平行线为基准,同时剔除位置错误的水平行线,直到达到该盲文图像上下两端,得到包含多组以三条水平行线为一组的盲文方水平线;
横坐标聚类模块,用于对该盲文点位置信息进行横坐标的聚类,将盲文点横坐标在该阈值范围内的盲文点划分为同一类别,并计算各类别中盲文点的横坐标均值,根据该横坐标均值得到多条预选盲文方竖直列线的位置;
竖直列线生成模块,用于根据各预选盲文方竖直列线的横坐标,从左到右判断是否存在符合标准的两条竖直列线,其中该标准为相邻两条竖直列线间距离符合统计信息中盲文方点距的范围,若存在,则从该两条竖直列线开始,根据统计得到的盲文方点距、行距等信息分别向左、向右拓展,且拓展的过程中生成以最新拓展的一组两条竖直列线为基准,同时剔除位置错误的竖直列线,直到达到该盲文图像左右两端,得到包含多组以两条竖直列线为一组的盲文方竖直线;
盲文方网格构成模块,用于以该盲文方竖直线和该盲文方竖直线的相交点,构成该盲文方网格。
7.如权利要求6所述的盲文方自适应定位系统,其特征在于,该采集设备包括扫描仪、摄像机或盲文图像采集仪器;该纸版盲文包括凸点和/或凹点形式的盲文点。
8.如权利要求6所述的盲文方自适应定位系统,其特征在于,该纵坐标聚类模块还包括:对该盲文图像进行倾斜校正处理,获取斜校正处理完成后盲文图像的该盲文点位置信息。
9.如权利要求6所述的盲文方自适应定位系统,其特征在于,该标注模块具体包括:以盲文方为单位对该数字化图像进行交互式盲文点标注,以获得该盲文图像。
10.如权利要求8所述的盲文方自适应定位方法,其特征在于,该倾斜校正处理包括:
在该盲文图像上放置或粘贴一个矩形框,其中该矩形框的水平线和竖直线与盲文方的行和列平行,通过校正该矩形框对该盲文图像的倾斜校正处理;或根据该盲文图像边缘上的盲文点,使用最小二乘法拟合直线对该盲文图像的倾斜校正处理;或检测该盲文图像的纸张边缘直线,根据该纸张边缘直线的倾斜角度对该盲文图像的倾斜校正处理。
CN201711071082.9A 2017-11-03 2017-11-03 一种盲文方自适应定位方法及系统 Active CN108062548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711071082.9A CN108062548B (zh) 2017-11-03 2017-11-03 一种盲文方自适应定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711071082.9A CN108062548B (zh) 2017-11-03 2017-11-03 一种盲文方自适应定位方法及系统

Publications (2)

Publication Number Publication Date
CN108062548A true CN108062548A (zh) 2018-05-22
CN108062548B CN108062548B (zh) 2020-11-03

Family

ID=62135628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711071082.9A Active CN108062548B (zh) 2017-11-03 2017-11-03 一种盲文方自适应定位方法及系统

Country Status (1)

Country Link
CN (1) CN108062548B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287907A (zh) * 2019-06-28 2019-09-27 北京海益同展信息科技有限公司 一种对象检测方法和装置
CN110298236A (zh) * 2019-05-20 2019-10-01 中国科学院计算技术研究所 一种基于深度学习的盲文图像自动识别方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1664881A (zh) * 2005-02-28 2005-09-07 深圳市王菱科技开发有限公司 多功能盲文点字模板装置
CN200947262Y (zh) * 2006-09-07 2007-09-12 励印龙 盲文教具
CN101526987A (zh) * 2008-03-06 2009-09-09 财团法人工业技术研究院 利用盲文编码图案的区域识别系统
CN106446885A (zh) * 2016-09-21 2017-02-22 北京联合大学 纸介盲文识别方法和系统
CN107261476A (zh) * 2017-06-16 2017-10-20 王亿刚 电子化盲人象棋及其控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1664881A (zh) * 2005-02-28 2005-09-07 深圳市王菱科技开发有限公司 多功能盲文点字模板装置
CN200947262Y (zh) * 2006-09-07 2007-09-12 励印龙 盲文教具
CN101526987A (zh) * 2008-03-06 2009-09-09 财团法人工业技术研究院 利用盲文编码图案的区域识别系统
CN106446885A (zh) * 2016-09-21 2017-02-22 北京联合大学 纸介盲文识别方法和系统
CN107261476A (zh) * 2017-06-16 2017-10-20 王亿刚 电子化盲人象棋及其控制方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298236A (zh) * 2019-05-20 2019-10-01 中国科学院计算技术研究所 一种基于深度学习的盲文图像自动识别方法和系统
CN110298236B (zh) * 2019-05-20 2021-11-30 中国科学院计算技术研究所 一种基于深度学习的盲文图像自动识别方法和系统
CN110287907A (zh) * 2019-06-28 2019-09-27 北京海益同展信息科技有限公司 一种对象检测方法和装置

Also Published As

Publication number Publication date
CN108062548B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN100576233C (zh) 检测文档图像中的字符的方向
US6628832B2 (en) Table recognition method and apparatus, and storage medium
CN108052955A (zh) 一种高精度盲文识别方法及系统
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN108052936A (zh) 一种盲文图像自动倾斜校正方法及系统
CN102567300A (zh) 图片文档的处理方法及装置
CN114005123A (zh) 一种印刷体文本版面数字化重建系统及方法
CN110443235B (zh) 一种智能纸质试卷总分识别方法及系统
CN113191309A (zh) 一种手写汉字的识别、评分、纠错方法及系统
CN108564079A (zh) 一种便携式字符识别装置及方法
CN109598185A (zh) 图像识别翻译方法、装置、设备及可读存储介质
CN107958261A (zh) 一种盲文点检测方法及系统
CN114463770A (zh) 一种用于普遍试卷题目的智能切题方法
CN111814576A (zh) 一种基于深度学习的购物小票图片识别方法
CN110298236B (zh) 一种基于深度学习的盲文图像自动识别方法和系统
CN114119949A (zh) 一种增强文本合成图像的生成方法和系统
CN109685061A (zh) 适用于结构化的数学公式的识别方法
CN108062548A (zh) 一种盲文方自适应定位方法及系统
CN109858383A (zh) 笔画识别方法及装置
CN109284702A (zh) 一种基于图像模式的答题卷给分及阅卷系统
CN113657162A (zh) 一种基于深度学习的票据ocr识别方法
CN108062886A (zh) 盲文点交互式标注方法及系统
CN107886808B (zh) 一种盲文方辅助标注方法及系统
CN109522892A (zh) 神经网络辅助的文字图像信息标注方法
CN110489933B (zh) 一种平面设计框架的生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant