CN110298236B - 一种基于深度学习的盲文图像自动识别方法和系统 - Google Patents

一种基于深度学习的盲文图像自动识别方法和系统 Download PDF

Info

Publication number
CN110298236B
CN110298236B CN201910419983.5A CN201910419983A CN110298236B CN 110298236 B CN110298236 B CN 110298236B CN 201910419983 A CN201910419983 A CN 201910419983A CN 110298236 B CN110298236 B CN 110298236B
Authority
CN
China
Prior art keywords
braille
blind
image
semantic segmentation
square
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910419983.5A
Other languages
English (en)
Other versions
CN110298236A (zh
Inventor
刘宏
黎仁强
王向东
钱跃良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910419983.5A priority Critical patent/CN110298236B/zh
Publication of CN110298236A publication Critical patent/CN110298236A/zh
Application granted granted Critical
Publication of CN110298236B publication Critical patent/CN110298236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于深度学习的盲文图像自动识别方法和系统,包括:获取多张盲文点字图像作为训练集,并获取其对应的标注图像,标注图像中每个像素均已标注为对应的盲方类别;以训练集中的盲文点字图像为输入,并以对应的盲方标注图像为标准答案,使用卷积神经网络训练语义分割模型,直到语义分割模型输出的语义分割结果图中每个像素的盲方类别和标准答案之间的差异低于阈值,保持当前语义分割模型作为盲方语义分割模型;将待识别的盲文点字图像输入盲方语义分割模型,得到待识别盲文点字图像的语义分割结果图,作为识别结果,识别结果中每个像素均对应其所属的盲方类别。

Description

一种基于深度学习的盲文图像自动识别方法和系统
技术领域
本发明涉及该发明创造涉及一种面向盲文点字图像的基于深度学习的盲文自动识别方法和系统。
背景技术
视力残疾人士由于视觉障碍,无法像明眼人一样获取明文信息,主要通过触摸盲文点字符号来阅读盲文获取信息。目前流通的盲文图书数量还较少,无法满足盲人朋友的阅读需求。另一方面,盲文图书馆典藏了很多早期有价值的盲文图书和文献,这些图书由于缺乏盲文的数字化信息,导致再版的人工成本高昂。而且,在特殊教育领域,盲生试卷的编制和阅卷,还是采用盲文老师手工翻译的方式,耗时费力,且缺乏客观性。
盲文俗称“点字”或“凸字”,由法国人路易·布莱尔于1824年发明,是一种依靠触觉感知的文字。盲文图书的一页大概有1000到2000个盲文凸点,300到500个左右的盲方。盲文的基本组成单位是盲方或者盲符,每个盲方有6个点位,分布在三行两列的矩阵上,根据相应的点位上是否有凸点来代表不同的盲方。盲方根据“国家盲文标准”,按照一定的方距和行距进行排列,组成中国盲文。盲文图像识别就是利用当前先进的计算机视觉处理和分析技术,对纸质盲文采集到的盲文图像中的盲点或盲方进行自动检测和识别,具有重要的实际应用价值。每个盲方包含三行两列的6个盲文点,根据6个点的不同凸起和平滑的组合,组成64种盲方类别。
为了节约纸张,盲文图书一般采用双面打印方式,即得到的盲文图像即含有当前页的凸点区域,又包含凹点区域。凸点和凹点区域会有一定的错位现象,但是在双面盲文的点字密集区域,凸点和凹点往往交错在一起,导致盲文点字的图像表观呈现多样性特点,凹凸点的外观形态也会发生极大的变化,这给双面盲文图像中的盲方检测和识别带来极大的困难和挑战。另外,盲文试卷或者盲文笔记是盲人朋友利用盲文书写板和盲文笔,通过把盲文纸固定并卡在书写板中,利用尖头的盲文笔扎出来的盲文,这类盲文一般是单面形式。但是相对于排列较为规则的盲文书籍,手写盲文存在较大的差异性,比如盲点扎的深浅不一,有较多的盲点破损现象,更重要的是书写板一般包含4行或者9行盲方行,在用完当前书写板,在盲文纸上向下移动书写板的过程中,盲人朋友往往根据板子在盲文纸上的卡点进行书写板的定位和移动,经常存在向下移动后的书写板和前面书写板的倾斜角度不一样的情况,导致同一张手写的盲文纸可能存在多个不同的盲方行倾斜角度,这给盲文自动识别和盲方行列定位带来极大的难度。另外,在盲文图像采集过程中,人为引入的图像变形,导致盲方行和列的排列不可能存在不规则情况,现有的盲方自动检测算法和基于规则的盲方行列定位算法不能很好地解决这一问题,急需提出新的解决方案。
早期的盲文识别主要采用图像分割方法,结合凸凹点的形态,利用规则进行判别。比如,针对双面盲文,将盲文图像区域分割为阴影,明亮和背景区域,再根据明亮和阴影的不同组合识别为凹点或凸点。或者针对单面盲文图像,采用中值滤波,以及全局阈值和局部阀值的方式,对盲文点和背景区域进行分割,对单面盲文凸点进行检测。以上方法容易受采集图像中盲点形变、盲文图像颜色差异等因素的影响,算法不够鲁棒。
基于机器学习和深度学习的方法则通过提取图像特征,训练分类器来进行盲点检测和识别。比如,针对高分辨率600dpi下的双面盲文图像,截取凸点区域作为正样本,凹点和背景区域作为负样本,将样本的灰度值作为特征向量训练SVM分类器,采用滑动窗口进行凸点检测。或者针对已经人工切分好的盲方区域图像进行基于盲方的盲文识别,利用深度模型—堆叠去噪自动编码器自动学习盲文点字图片特征,使用Softmax分类器进行识别。但该方法仅针对单面盲文图像,而且对已切分好的每个盲方小图进行分类,没有给出针对整张盲文图像进行盲方检测和识别的结果。
另外,盲文图像在打印、扫描或者拍摄过程中,会产生畸变以及位置的倾斜,导致盲文行列的倾斜。现有技术采用在纸质盲文右上角贴一个矩形黑框,利用哈夫算法检测矩形框边缘的倾斜角度进行盲文图像的倾斜校正。该方法增加了额外的人力成本,可能引入人工误差,很难在大规模盲文图像识别上应用。
近来也有学者提出了基于机器学习的盲点检测方法,以凸点检测为例,首先提出了基于Haar特征和级联分类器的盲点快速检测方法,在双面盲文图像上快速定位和识别凸点位置。现有技术中基于盲点检测的盲文图像倾斜校正方法,利用盲点的水平和垂直投影的最大累计空白行和空白列,进行由粗到细的盲文图像倾斜校正。提出了基于统计信息的盲方自适应定位方法,基于统计信息,结合盲方三行两列的特点,先分割盲方的水平行,再分割盲方的垂直列,采用自适应方式动态生成盲方网格。
综上所述,早期的盲文图像识别主要采用图像分割方法,进行盲文凸点检测,并基于规则进行盲方定位,并将盲文点组成盲文方,实现盲方识别。这类方法容易受采集图像中盲点形变、盲文图像颜色差异等因素的影响。基于机器学习的方法则通过提取图像特征,训练分类器来进行盲点检测或盲方分类。但现有方法,都是将整张盲文图像的盲方识别,分成几个独立的步骤,每个步骤完成一个任务,比如盲点检测,盲文倾斜角度检测,盲文图像倾斜矫正,生成盲方网格,盲文点组成盲文方等等步骤,导致识别效率较低,复杂情况下识别效果差的问题。而且现有方法对盲方形变,或者行列倾斜角度不一致的整张盲文识别效果较差,目前还缺乏一个鲁棒便捷的盲文图像识别方法。如何对输入的盲文图像,简化中间处理步骤,直接进行基于盲方的定位和识别还缺乏有效的解决方案。
发明内容
本发明的目的是解决由于上述盲文图像中的盲文点字排列不规则导致的盲方检测和识别性能不高的问题,提出了一种基于深度学习的盲文点字鲁棒检测和识别方法及系统。
具体来说,本发明提供了一种基于深度学习的盲文图像自动识别方法,其中包括:
步骤1、获取多张盲文点字图像作为训练集,并获取其对应的标注图像,该标注图像中每个像素均已标注为对应的盲方类别;
步骤2、以训练集中的盲文点字图像为输入,并以对应的盲方标注图像为标准答案,使用卷积神经网络训练语义分割模型,直到该语义分割模型输出的语义分割结果图中每个像素的盲方类别和该标准答案之间的差异低于阈值,保持当前该语义分割模型作为盲方语义分割模型;
步骤3、将待识别的盲文点字图像输入该盲方语义分割模型,得到该待识别盲文点字图像的语义分割结果图,作为识别结果,该识别结果中每个像素均对应其所属的盲方类别。
该基于深度学习的盲文图像自动识别方法,其中步骤3还包括:生成该识别结果的二值图,并进行形态学处理,通过删除该二值图中小于预设值的连通区域,并利用外接矩形表示每个连通区域,将连在一起的连通区域根据所属类别进行再次分割,标识每个盲方区域的类别信息,基于盲方区域生成盲方行列信息,并将该盲方行列信息转成包含格式信息的电子盲文。
该基于深度学习的盲文图像自动识别方法,其中利用盲汉转化技术,将识别得到的该电子盲文转化为中文信息。
该基于深度学习的盲文图像自动识别方法,其中该语义分割结果图为具有0到63灰度值的灰度图像或64种灰度值的灰度图像。
该基于深度学习的盲文图像自动识别方法,其中该步骤1包括:以矩形框等方式在盲文点字图像上标注出每个盲方位置和大小,并赋予其对应的类别信息,以得到该盲文点字图像对应的盲方标注图像。
本发明还提供了一种基于深度学习的盲文图像自动识别系统,其中包括:
模块1、获取多张盲文点字图像作为训练集,并获取其对应的标注图像,该标注图像中每个像素均已标注为对应的盲方类别;
模块2、以训练集中的盲文点字图像为输入,并以对应的盲方标注图像为标准答案,使用卷积神经网络训练语义分割模型,直到该语义分割模型输出的语义分割结果图中每个像素的盲方类别和该标准答案之间的差异低于阈值,保持当前该语义分割模型作为盲方语义分割模型;
模块3、将待识别的盲文点字图像输入该盲方语义分割模型,得到该待识别盲文点字图像的语义分割结果图,作为识别结果,该识别结果中每个像素均对应有其所属的盲方类别。
该基于深度学习的盲文图像自动识别系统,其中模块3还包括:生成该识别结果的二值图,并进行形态学处理,通过删除该二值图中小于预设值的连通区域,并利用外接矩形表示每个连通区域,将连在一起的连通区域根据所属类别进行再次分割,标识每个盲方区域的类别信息,基于盲方区域生成盲方行列信息,并将该盲方行列信息转成包含格式信息的电子盲文。
该基于深度学习的盲文图像自动识别系统,其中利用盲汉转化技术,将识别得到的该电子盲文转化为中文信息。
该基于深度学习的盲文图像自动识别系统,其中该语义分割结果图为具有0到63灰度值的灰度图像或64种灰度值的灰度图像。
该基于深度学习的盲文图像自动识别系统,其中该模块1包括:以矩形框等方式在盲文点字图像上标注出每个盲方位置和大小,并赋予其对应的类别信息,以得到该盲文点字图像对应的盲方标注图像。
由以上方案可知,本发明的优点在于:直接对盲文图像中的盲方进行分割和识别,不需要前期的盲文点检测和盲方定位等步骤。
本发明直接利用深度卷积网络模型,学习原始盲文图像和盲方标注图像之间的相关性,进行端到端的训练,直接得到盲文图像中每个像素的盲方类别信息。该方法不需要对盲文图像进行前期的倾斜矫正,盲点检测,以及行列定位等步骤,该发明可以直接识别和分割出盲文图像中具有一定倾斜角度,一定形变的盲方。也适用于手写盲文试卷这类盲文图像中存在盲方行具有不同倾斜角度的情况。该发明极大的提升了盲方分割和识别效率,准确率和鲁棒性。
附图说明
图1为基于语义分割的盲文图像识别框架图;
图2为扫描得到的盲文试卷图像展示;
图3为盲文试卷对应的盲方像素级标注图像;
图4为语义分割结果图像的后处理;
图5为语义分割得到的像素级盲方识别结果图;
图6为后处理之后的盲方识别结果图。
具体实施方式
发明人在进行盲文试卷识别研究时,发现基于盲点检测,以及基于行列投影统计的盲方行列定位方法,存在较大的缺陷。现有技术中盲文倾斜矫正是将整张盲文图像进行多次整体旋转,并计算最佳倾斜角度。该方法无法解决盲文图像采集过程中的盲方形变,还有不同盲方行之间倾斜角度不一致的现象,导致盲方定位和识别的失败。本发明创新性的采用自然图像分析中的语义分割技术,即将不同的盲方看做不同的目标或者物体,通过图像语义分割技术,为盲文图像中每个像素进行像素级的分类,给出其所属的盲方类别信息,然后进行图像后处理得到盲方识别结果。因此,本发明提出了一种全新的解决思路,采用基于深度卷积网络的图像语义分割技术,直接为盲文图像中的每个像素进行属于某一盲方类别的分类,并结合后处理步骤,得到盲方框和类别信息,从而减少盲方形变,盲方视觉多样性,以及盲方行列倾斜角度不一致的问题。
因此,本发明直接对盲文图像中的盲方进行分割和识别,不依赖前期的盲文点检测和盲方定位等步骤。
本发明将盲文点字图像识别问题转化为自然图像的语义分割问题,将每个盲方看做需要检测的物体或者目标,利用深度学习方法训练语义分割模型,利用该模型对待识别的盲文图像进行像素级的盲方分类和分割。由于盲文点字由盲方组成,每个盲方包含三行两列的6个盲文点,根据6个点的不同凸起和平滑的组合,组成64种盲方类别。其中包含空盲方,即6个点都不是凸点的情况,背景也可以看做空盲方。因此,根据盲文点字图像中盲方的位置和类别,进行像素级的64类盲方的标注文件的制作,生成一个对应的标准答案,用于语义分割模型的训练。下面结合附图1来说明本发明的发明点:
1、盲文点字图像采集器。可以采用扫描仪扫描,摄像机拍照等方式,获取纸质盲文图像,可以包括单面打印或者双面打印的盲文图像,或者来自手写盲文试卷的盲文点字图像,来自盲文笔记的盲文点字图像等。将采集到的图像分为训练集和测试集两部分。
2、盲文点字图像对应的标注图像制作器。制作盲文图像对应的盲方标注图像,该图像中每个像素的取值对应原始图像中相应位置像素所属的盲方类别。
3、盲文点字图像语义分割模型训练器。将训练集中的盲文点字图像作为输入数据送入语义分割模型进行前向传播及梯度反传,训练过程是常规技术,直到模型输出和标注图像及标准答案之间的差异或者损失值越来越小,即训练到模型收敛为止。该发明可以对采集的整张盲文图像进行盲方语义分割的训练。
4、盲文点字图像盲方检测和识别器。将待识别的盲文点字图像输入训练好的语义分割模型,得到对应的盲方分割结果图像,该图像中的每个像素值代表了该像素属于某个盲方类。该发明可以对采集的整张盲文图像进行基于语义分割的盲方位置和类别的识别。
5、分割结果图像后处理。通过图像形态学处理,以及连通区域检测等步骤,利用外接矩形表示每个连通区域,并标识每个连通区域的类别信息。
以上是将每个盲方看做一个目标进行语义分割,也可以将盲点看做目标,进行凸点,凹点和背景的语义分割,直接得到盲文图像中每个像素属于不同盲点的概率。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
以附图1说明本发明的内容,并以盲文图像中盲方的语义分割为实施例进行说明,本发明也可以用于盲点的语义分割任务。基于深度学习的盲方语义分割技术包含如下步骤:
步骤1:利用采集设备获取纸版盲文的数字化图像。
采集方式可以包括扫描仪扫描,摄像机拍照,或者特殊的盲文图像采集仪器等方式。该纸版盲文包括凸点和/或凹点形式的盲文点,纸版盲文可以包括盲文图书或者盲文试卷等,可以是单面印刷或者双面印刷的盲文。单面印刷的盲文每页只包含凸点或者凹点一种形式的盲文点,双面印刷的盲文每页包含凸点和凹点两种形式的盲文点。本实施例以单面盲文试卷为例进行说明,本实施例以扫描仪采集为例,可以选择100dpi来扫描得到盲文图像,即按1:1的比例进行盲文纸版的扫描得到对应的盲文点字图像。采集到的盲文图像可以分为两个集合,一个是训练集用于模型训练,一个是测试集用于模型测试。
步骤2:制作盲文点字图像对应的标注图像。该图像和对应的盲文点字图像具有同样的尺寸,该标注图像中的每个像素代表其所属的盲方类别信息。由于每个盲方由三行两列,共6盲点组成,根据盲点的凸起或者平整,可以分为64种不同的盲方类型,其中不包含凸盲点的盲方是空盲方或者背景像素,所以每个像素可以是0到63之间的一个整数。具体的图像语义分割标注方法,可以采用当前网上常用的交互式标注工具,或者自行开发一个交互式标注软件,以矩形框等方式在盲文点字图像上标注出每个盲方位置和大小,并赋予其对应的类别信息,标注完包含的盲方区域和类别之后,可以存贮为具有0到63灰度值的灰度图像作为标注图像。
为了更清楚的说明该实施例,附图2展示了一张完整的盲文试卷采集到的盲文图像,附图3展示了其对应的盲方位置和类别的像素级标注信息,为了盲方显示的视觉可区分性,这里采用了64种有灰度变化的像素值来区分不同的盲方类别。对步骤1采集到的所有盲文图像都进行盲方的标注,并转化为像素级的标注图像。
步骤3:训练盲文图像的盲方语义分割深度卷积网络模型。可以选择当前比较流行的用于图像语义分割的深度卷积神经网络模型,本实施例选择网络较为简洁和训练效率较高的U-Net语义分割网络。可以将整张盲文点字图像和对应的标注图像进行端到端的训练。具体的,将训练集中的盲文点字图像作为网络左侧的输入数据,对应的盲方标注图像作为网络右侧的类别标准答案,使用U-Net网络来训练盲方语义分割模型,训练过程是常规技术,直到模型输出和标准答案之间的差异或者损失值越来越小,即训练到模型收敛为止。U-Net的网络参数可以选择Adam作为优化器,学习率设为0.001,学习率调整策略可以选择poly。损失函数选择交叉熵损失,或进一步结合Dice损失。模型训练的硬件环境可以选择带GPU的电脑,本实施例可以选择GPU为Tesla K40型号,具有12G显存,电脑内存选择64G,CPU为E5-2620 v2。以盲文试卷为例,本实施例选择了80张盲文图像用于训练,20张用于测试。模型训练了70个Epoch得到满足收敛要求的语义分割模型。
步骤4:盲文点字图像的盲方检测和识别。将新的盲文点字图像,或者测试集中的盲文图像,作为输入数据输入训练好的语义分割模型,模型经过一系列计算将自动生成该盲文点字图像对应的语义分割结果,其中每个像素对应一个64维的向量,代表属于某个盲方类别的概率值,取该向量中概率值最大的盲方类别作为该像素的类别。附图5给出了测试集中的一张盲文试卷图像经过语义分割模型得到的盲方语义分割结果图,其中不同的灰度值代表了不同类的盲方。
步骤5:分割结果后处理。以上得到的是每个像素的类别值,需要进一步处理得到以盲方为单位的盲方位置和类别信息,以及盲方的行列等信息。如附图4所示,该步骤又可以包括,生成语义分割图像的二值图,即将背景像素值变为0,所有盲方所在的像素值变为1。由于语义分割是像素级的分类,个别相邻的盲方之间可能会有像素的粘连,需要采用形态学处理方法,本实施例采用先腐蚀再膨胀的方法,进行粘连盲方的分割。然后进行连通区域提取,去掉较小的连通区域,最后利用外接矩形表示每个连通区域。由于盲方的尺寸相对规范,可以根据连通区域的尺寸来判断是否还有粘连的盲方,如果还有粘连的盲方区域,则可以根据之前的语义分割结果,结合盲方宽度等信息,进一步分割粘连的盲方区域。最终结合之前的语义分割结果,标识出每个盲方区域对应的盲方类别,具体的可以核查每个连通区域内部包含的像素盲方类别信息,取面积最大的类别作为该连通区域的盲方类别。然后基于得到的盲方区域,生成盲方行列信息,并最终转成包含格式信息的电子盲文。这里的盲方行列定位,可以根据每个盲方区域的中点位置的纵坐标进行聚类,先进行盲方行的提取,得到整张盲文图像中的盲方行信息,然后对每个盲方行进行盲方列的提取。还可以进一步利用盲汉转化技术,将识别得到的电子盲文转化为中文信息。附图6给出了附图5对应的后处理后的盲方识别结果。
以上实施例以单面盲文试卷中的盲方语义分割为例进行说明,该发明也可以用于双面盲文图像中的盲方语义分割,双面盲文图像中凸盲方为正面盲文,凹盲方为反面的盲文。可以将双面盲文图像中凸点对应的盲方进行位置和类别的标注,然后训练盲方语义分割模型。另一实施例,可以用于双面盲文图像中凹盲方的识别,将双面盲文图像中凹点对应的盲方进行位置和类别的标注,然后训练盲方语义分割模型,可以得到反面的盲文识别结果。另一实施例,除了以上盲方分割和识别外,可以针对单面或者双面盲文图像进行盲文凸点的语义分割,即将凸点区域标注为凸点类别,剩余区域标注为背景,进行盲文图像中凸点和背景的语义分割训练和识别。另一实施例,也可以针对凹点进行语义分割,将凹点区域标注为凹点类别,剩余像素标注为背景,进行盲文图像中凹点和背景的语义分割训练和识别。另一实施例,可以直接针对双面盲文,进行背景区域,凸点区域和凹点区域的三分类语义分割,即将凸点区域标注为凸点类别,凹点区域标注为凹点类别,其他像素位置为背景,进行三类的语义分割模型训练和识别。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提供了一种基于深度学习的盲文图像自动识别系统,其中包括:
模块1、获取多张盲文点字图像作为训练集,并获取其对应的标注图像,该标注图像中每个像素均已标注为对应的盲方类别;
模块2、以训练集中的盲文点字图像为输入,并以对应的盲方标注图像为标准答案,使用卷积神经网络训练语义分割模型,直到该语义分割模型输出的语义分割结果图中每个像素的盲方类别和该标准答案之间的差异低于阈值,保持当前该语义分割模型作为盲方语义分割模型;
模块3、将待识别的盲文点字图像输入该盲方语义分割模型,得到该待识别盲文点字图像的语义分割结果图,作为识别结果,该识别结果中每个像素均对应有其所属的盲方类别。
该基于深度学习的盲文图像自动识别系统,其中模块3还包括:生成该识别结果的二值图,并进行形态学后处理,通过删除该二值图中小于预设值的连通区域,并利用外接矩形表示每个连通区域,将连在一起的连通区域根据所属类别进行再次分割,标识每个盲方区域的类别信息,基于盲方区域生成盲方行列信息,并将该盲方行列信息转成包含格式信息的电子盲文。
该基于深度学习的盲文图像自动识别系统,其中利用盲汉转化技术,将识别得到的该电子盲文转化为中文信息。
该基于深度学习的盲文图像自动识别系统,其中该语义分割结果图为具有0到63灰度值的灰度图像或64种灰度值的灰度图像。
该基于深度学习的盲文图像自动识别系统,其中该模块1包括:以矩形框等方式在盲文点字图像上标注出每个盲方位置和大小,并赋予其对应的类别信息,以得到该盲文点字图像对应的盲方标注图像。

Claims (8)

1.一种基于深度学习的盲文图像自动识别方法,其特征在于,包括:
步骤1、获取多张盲文点字图像作为训练集,并获取其对应的标注图像,该标注图像中每个像素均已标注为对应的盲方类别;
步骤2、以训练集中的盲文点字图像为输入,并以对应的盲方标注图像为标准答案,使用卷积神经网络训练语义分割模型,直到该语义分割模型输出的语义分割结果图中每个像素的盲方类别和该标准答案之间的差异低于阈值,保持当前该语义分割模型作为盲方语义分割模型;
步骤3、将待识别的盲文点字图像输入该盲方语义分割模型,直接为待识别的盲文点字图像中的每个像素进行属于某一盲方类别的分类,得到该待识别盲文点字图像的语义分割结果图,作为识别结果,该识别结果中每个像素均对应其所属的盲方类别;
其中该步骤3还包括:生成该识别结果的二值图,并进行形态学处理,通过删除该二值图中小于预设值的连通区域,并利用外接矩形表示每个连通区域,将连在一起的连通区域根据所属类别进行再次分割,标识每个盲方区域的类别信息,基于盲方区域生成盲方行列信息,并将该盲方行列信息转成包含格式信息的电子盲文。
2.如权利要求1所述的基于深度学习的盲文图像自动识别方法,其特征在于,利用盲汉转化技术,将识别得到的该电子盲文转化为中文信息。
3.如权利要求1所述的基于深度学习的盲文图像自动识别方法,其特征在于,该语义分割结果图为具有0到63灰度值的灰度图像或64种灰度值的灰度图像。
4.如权利要求1所述的基于深度学习的盲文图像自动识别方法,其特征在于,该步骤1包括:以矩形框的方式在盲文点字图像上标注出每个盲方位置和大小,并赋予其对应的类别信息,以得到该盲文点字图像对应的盲方标注图像。
5.一种基于深度学习的盲文图像自动识别系统,其特征在于,包括:
模块1、获取多张盲文点字图像作为训练集,并获取其对应的标注图像,该标注图像中每个像素均已标注为对应的盲方类别;
模块2、以训练集中的盲文点字图像为输入,并以对应的盲方标注图像为标准答案,使用卷积神经网络训练语义分割模型,直到该语义分割模型输出的语义分割结果图中每个像素的盲方类别和该标准答案之间的差异低于阈值,保持当前该语义分割模型作为盲方语义分割模型;
模块3、将待识别的盲文点字图像输入该盲方语义分割模型,直接为待识别的盲文点字图像中的每个像素进行属于某一盲方类别的分类,得到该待识别盲文点字图像的语义分割结果图,作为识别结果,该识别结果中每个像素均对应其所属的盲方类别;
其中该模块3还包括:生成该识别结果的二值图,并进行形态学处理,通过删除该二值图中小于预设值的连通区域,并利用外接矩形表示每个连通区域,将连在一起的连通区域根据所属类别进行再次分割,标识每个盲方区域的类别信息,基于盲方区域生成盲方行列信息,并将该盲方行列信息转成包含格式信息的电子盲文。
6.如权利要求5所述的基于深度学习的盲文图像自动识别系统,其特征在于,利用盲汉转化技术,将识别得到的该电子盲文转化为中文信息。
7.如权利要求5所述的基于深度学习的盲文图像自动识别系统,其特征在于,该语义分割结果图为具有0到63灰度值的灰度图像或64种灰度值的灰度图像。
8.如权利要求5所述的基于深度学习的盲文图像自动识别系统,其特征在于,该模块1包括:以矩形框的方式在盲文点字图像上标注出每个盲方位置和大小,并赋予其对应的类别信息,以得到该盲文点字图像对应的盲方标注图像。
CN201910419983.5A 2019-05-20 2019-05-20 一种基于深度学习的盲文图像自动识别方法和系统 Active CN110298236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910419983.5A CN110298236B (zh) 2019-05-20 2019-05-20 一种基于深度学习的盲文图像自动识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910419983.5A CN110298236B (zh) 2019-05-20 2019-05-20 一种基于深度学习的盲文图像自动识别方法和系统

Publications (2)

Publication Number Publication Date
CN110298236A CN110298236A (zh) 2019-10-01
CN110298236B true CN110298236B (zh) 2021-11-30

Family

ID=68026956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910419983.5A Active CN110298236B (zh) 2019-05-20 2019-05-20 一种基于深度学习的盲文图像自动识别方法和系统

Country Status (1)

Country Link
CN (1) CN110298236B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008594B (zh) * 2019-12-04 2024-04-19 科大讯飞股份有限公司 改错题评阅方法、相关设备及可读存储介质
US11393361B1 (en) 2021-12-10 2022-07-19 Prince Mohammad Bin Fahd University Braille reader system using deep learning framework

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062548A (zh) * 2017-11-03 2018-05-22 中国科学院计算技术研究所 一种盲文方自适应定位方法及系统
CN108062886A (zh) * 2017-11-03 2018-05-22 中国科学院计算技术研究所 盲文点交互式标注方法及系统
CN108427951A (zh) * 2018-02-08 2018-08-21 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062548A (zh) * 2017-11-03 2018-05-22 中国科学院计算技术研究所 一种盲文方自适应定位方法及系统
CN108062886A (zh) * 2017-11-03 2018-05-22 中国科学院计算技术研究所 盲文点交互式标注方法及系统
CN108427951A (zh) * 2018-02-08 2018-08-21 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的盲文自动识别系统;李荣瑞等;《电子科技》;20181231;第31卷(第09期);第45-49页 *

Also Published As

Publication number Publication date
CN110298236A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN109543777B (zh) 手写汉字书写质量评价方法及系统
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
CN110619326B (zh) 一种基于扫描的英语试卷作文检测识别系统及方法
CN105046200B (zh) 基于直线检测的电子阅卷方法
CN105095892A (zh) 基于图像处理的学生文档管理系统
CN108052936B (zh) 一种盲文图像自动倾斜校正方法及系统
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN108052955B (zh) 一种高精度盲文识别方法及系统
CN108564079A (zh) 一种便携式字符识别装置及方法
CN110298236B (zh) 一种基于深度学习的盲文图像自动识别方法和系统
CN112507758A (zh) 答题卡字符串识别方法、装置、终端和计算机存储介质
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
CN106033534B (zh) 基于直线检测的电子阅卷方法
CN107958261B (zh) 一种盲文点检测方法及系统
Singh et al. Identification of Devnagari and Roman scripts from multi-script handwritten documents
CN103377379A (zh) 文本检测设备、文本信息提取系统及其方法
CN114463770A (zh) 一种用于普遍试卷题目的智能切题方法
CN112926571A (zh) 一种基于深度学习的公式图片识别判题系统
CN108062548B (zh) 一种盲文方自适应定位方法及系统
CN110766001B (zh) 基于cnn和rnn的银行卡卡号定位与端到端识别方法
CN111814606A (zh) 一种技术图像处理和模式识别的自动阅卷系统及实现方法
CN115880566A (zh) 一种基于视觉分析的智能阅卷系统
CN114550176A (zh) 基于深度学习的试卷批改方法
CN107886808B (zh) 一种盲文方辅助标注方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant