CN116189213A

CN116189213A - 一种盲人辅助阅读设备和方法

Info

Publication number: CN116189213A
Application number: CN202211604274.2A
Authority: CN
Inventors: 何恩兴; 胡凯丰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-05-30

Abstract

本发明公开了一种盲人辅助阅读设备和方法。本发明利用摄像头采集获得原始文字图像或者图像流，记为原始图像数据；接着对原始图像数据进行预处理，处理中如果检测到图像残缺，则通过语音播报芯片和喇叭播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像，最终输出完整文字图像对应的文字连通区域信息；然后根据文字连通区域信息对原始图像数据进行文字识别，获得文字识别结果；最后将文字识别结果通过语音播报芯片和喇叭进行文字的语音播报。本发明实现便捷性、准确性、快速识别于一体。同时采用成本低廉的模块，在保证功能的高效完整的情况下实现了产品的成本的降低。

Description

一种盲人辅助阅读设备和方法

技术领域

本发明属于嵌入式系统设计以及计算机文字识别领域的盲人阅读设备，尤其涉及一种盲人辅助阅读设备和方法。

背景技术

中国有世界数量最大的盲人群体，盲人数超800万，占世界失明人口的20％。但与庞大的盲人群体形成对照的是长期存在的无障碍建设规范化不足，尤其是盲人对于现代社会新技术新科技以及各种信息的获取的困难。

盲人在日常生活中的主要阅读方式是盲文，虽然对于学习了盲文阅读方式的盲人来说，阅读盲文也可以很便捷，但是阅读盲文的前提是有专门位盲文配套的书籍。就目前来看，我国对于盲文书记的配套仍然十分缺乏，盲人的可阅读的读物相对于视力健全的人来说仍十分匮乏，同时盲文书籍具有体积大、重量重和不易制作等缺点，让盲人在阅读上更加困难。

目前盲人群体获取知识阅读书籍的一个方法是听书机，由政府发放并且与各大图书馆的电子馆藏相连通，读者通过听书机的语音提示可以收听来自电子图书馆录制好的馆藏图书，其数量十分丰富。这种方法一定程度上满足了盲人群体对于阅读图书的需求但同时也存在缺点，那就是听书的范围局限于图书馆已经录制好的馆藏图书，虽然内容已经十分庞大，但对于日常生活中的文字，比如文件、产品包装、广告牌等等都无法阅读，具有一定的局限性。

另一种将纸面文字转换成声音的方法是点读笔，其能够将笔尖点到的位置的文字进行朗读，但是这种设备需要准确地将文字放在扫描区域内，每次只能扫描一行，造成盲人无法确定扫描的位置是否正确的问题，可能会出现扫描偏离、重复扫描等问题，同时这类产品也存在价格昂贵的缺点。

现有专利技术已经存在针对于盲人的文字朗读技术，其中接近本发明的现有专利技术之一是申请号CN202021018989.6的中国专利。其公开了盲人辅助阅读戒指，与上位机连接，盲人通过手指佩戴戒指采集文本信息发往上位机，上位机进行文本的朗读。该方法存在的缺陷是：1)产品虽然本身小巧，但是图像采集器通过USB数据线连接上位机，并且自身不配备电池，只能围绕上位机周围进行阅读，上位机相对笨重因此无法随意移动，这造成了阅读的困难；2)产品采用逐行图像采集识别的方法，用户食指戴上该盲人辅助阅读戒指，用指尖从左到右扫指每一行文本，指尖指中词汇时，用户可听到上位机的语音播报，当指尖偏离文本向上或向下时，用户可感受到手指上方或手指下方的周期性振动，此时需要将手指些许上移或下移至振动停止；当指尖指向文本行末尾时，可感受到手指上下方同时周期性振动，此时需要换行。虽然此方法可以保证盲人在阅读某一行时不偏离，但是由于盲人看不到每一行的位置，所以在寻找要读的字行是有很大的困难，可能会造成很长时间都找不到正确的位置的情况。

发明内容

为了解决背景技术中存在的问题，本发明所提供一种盲人辅助阅读设备和方法，用以帮助盲人等视障人士阅读生活中的传统纸质书籍、文件、商品包装以及其他文字，并且具有使用便捷性、高性价比以及高识别率。

本发明采用的技术方案是：

一、一种盲人辅助阅读设备

盲人辅助阅读设备包括外壳、电源、单片机处理器、语音播报芯片、喇叭、连接电路板、摄像头和上位机；

外壳内固定安装有连接电路板、喇叭、电源和摄像头，连接电路板上固定安装有单片机处理器和语音播报芯片，电源分别与单片机处理器、语音播报芯片、喇叭和摄像头相连，单片机处理器分别与摄像头和语音播报芯片相连，喇叭与语音播报芯片相连，单片机处理器与上位机相连。

所述外壳中还开设有摄像头开口，摄像头的镜头设置在摄像头开口处，外壳外还安装有拍照按键，拍照按键与摄像头相连。

所述外壳外还安装有电源开机按键，电源开机按键与电源相连。

所述外壳中还开设有喇叭开口，喇叭设置在喇叭开口处。

二、一种盲人辅助阅读方法

1)盲人控制摄像头采集获得原始文字图像或者图像流，记为原始图像数据；

2)对原始图像数据进行预处理，处理中如果检测到图像残缺，则通过语音播报芯片和喇叭播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像，最终输出完整文字图像对应的文字连通区域信息；

3)根据文字连通区域信息对原始图像数据进行文字识别，获得文字识别结果；

4)将文字识别结果通过语音播报芯片和喇叭进行文字的语音播报。

所述2)具体为：

2.1)如果原始图像数据为图像流，则进行图像拼接，获得各张初始文本图像，否则，则直接将原始图像数据记为初始文本图像；

2.2)对每张初始文本图像进行边缘提取，获得对应的文字边缘图像；

2.3)对文字边缘图像进行掩膜处理和初步筛选，获得初始筛选后的行区域图像；

2.4)对初始筛选后的行区域图像进行纵向掩膜处理和二次筛选，获得对应二次筛选后的各页连通行区域图像，如果二次筛选后的各页连通行区域图像的边缘与初始文本图像的边缘重合时，则表示初始文本图像残缺，通过语音播报芯片和喇叭播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像以及处理获得对应的二次筛选后的各页连通行区域图像后再执行下一步；

2.5)根据初始筛选后的行区域图像计算得到的页或分栏的区域坐标，计算二次筛选后的各页连通行区域图像中各个行连通域的行高，根据最多的行高确定行高范围，选择行高范围中的行连通域，将选择的多个行连通域分别与页或分栏的区域坐标进行比较，获得对应的缩进位置并记为段首，由二次筛选后的各页连通行区域图像以及段首组成文字连通区域信息。

所述2.3)具体为：

利用宽高比为3:1的掩模对文字边缘图像做闭操作获得初始行区域图像，再用横向掩模膨胀对初始行区域图像进行处理，获得处理后的行区域图像；再根据处理后的行区域图像中各个行区域的面积以及所有行区域的总长宽比对行区域进行筛选，获得初始筛选后的行区域图像。

所述2.4)具体为：

用纵向掩模膨胀对初始筛选后的行区域图像进行处理，获得当前初始完整文本图像中各页对应连通行区域图；再根据各页对应连通行区域图中各连通行区域的面积和横坐标进行连通行区域筛选，获得二次筛选后的各页连通行区域图像，如果二次筛选后的各页连通行区域图像的边缘与初始文本图像的边缘重合时，则表示初始文本图像残缺，通过语音播报芯片和喇叭播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像以及处理获得对应的二次筛选后的各页连通行区域图像后再执行下一步。

所述2.5)中，各个行连通域的行高是通过以下方法计算获得：

提取每个行连通域的轮廓，根据行连通域的轮廓找到最小外接矩形，将最小外接矩形的左上起始点的横坐标和右下结束点的横坐标作差，获得当前行连通域的行高。

所述2.2)中，还对初始完整文本图像进行透视变形页面的仿射变换到平面操作。

本发明的有益效果是：

本发明能够对大范围的本文文字进行采集，通过高效的通信传输可以瞬时地将其发往服务器进行图像的预处理，分割出其中需要进行文字识别的区域并将采集错误的页面和文字区域去除。通过开源的文字识别程序将识别到的大量文本传输回客户端进行语音的播报。本发明突出地将大范围拍照采集与便携性相结合，因结构简单、配有电源并且大部分计算都在服务器上进行，因此可以实现便捷性、准确性、快速识别于一体。同时采用成本低廉的模块，在保证功能的高效完整的情况下实现了产品的成本的降低。

附图说明

图1为盲人辅助阅读设备识别文本并语音播报的流程图。

图2为盲人辅助阅读设备的总体外观示意图。

图3为外壳部分的内部示意图。

图4为外壳部分的内部示意图。

图5为文本图片经过预处理和文字识别后得到的结果示意图。

图中：1、外壳，11、摄像头开口，12、电源开机按键，13、喇叭开口，14、固定螺丝孔，2、拍照按键，3、电源，4、单片机处理器，5、语音播报芯片，6、喇叭，7、连接电路板，8、摄像头。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图2-图4所示，本发明包括外壳1、电源3、单片机处理器4、语音播报芯片5、喇叭6、连接电路板7、摄像头8和上位机；

外壳1一分为二，两个外壳1中均开设有固定螺丝孔14，通过固定螺丝进行固定连接。外壳1内固定安装有连接电路板7、喇叭6、电源3和摄像头8，连接电路板7上固定安装有单片机处理器4和语音播报芯片5，电源3分别与单片机处理器4、语音播报芯片5、喇叭6和摄像头8相连，单片机处理器4分别与摄像头8和语音播报芯片5相连，喇叭6与语音播报芯片5相连，单片机处理器4与上位机相连；如图1所示，盲人利用摄像头8拍摄并采集文字图像，文字图像通过单片机处理器4发送给上位机，上位机对单片机处理器4发送的文字图像进行预处理和文字识别，再将文字识别结果通过单片机处理器4发送给语音播报芯片5，语音播报芯片5将文字识别结果通过喇叭6播报给盲人。

外壳1中还开设有摄像头开口11，摄像头8的镜头设置在摄像头开口11处，外壳1外还安装有拍照按键2，拍照按键2穿过外壳1后与摄像头8相连。

外壳1外还安装有电源开机按键12，电源开机按键12穿过外壳1后与电源3相连。

外壳1中还开设有喇叭开口13，喇叭6设置在喇叭开口13处。

盲人辅助阅读方法包括以下步骤：

1)盲人通过拍照按键2控制摄像头8采集获得原始文字图像或者图像流，记为原始图像数据并发送给单片机处理器4；摄像头8为广角摄像头。

2)单片机处理器4将原始图像数据转换为二进制格式，获得二进制数据流；建立socket通信传输，使用WiFi连接单片机处理器以及服务器，通过WiFi将二进制数据流发送给上位机(即计算机，就是服务器)，服务器将二进制数据流还原成完整文字图像。

计算机对原始图像数据进行预处理，处理中如果检测到图像残缺，则通过单片机处理器4向语音播报芯片5发送摄像头调整指令，通过语音播报芯片5和喇叭6播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像，最终输出完整文字图像对应的文字连通区域信息；

2)具体为：

2.3)具体为：

利用宽高比为3:1的掩模对文字边缘图像做闭操作，目的是连接边缘图上横向的较窄间断，同时尽量断开纵向的连接，以达成每一行文字区域连通一片，但行间互不连通的效果，获得初始行区域图像，此时得到的行区域可能由于标点符号或面积较小字符存在而断开。再用横向掩模膨胀对初始行区域图像进行处理，获得处理后的行区域图像；再根据处理后的行区域图像中各个行区域的面积以及所有行区域的总长宽比对行区域进行筛选，面积大于预设面积阈值，所有行区域的总长宽比在预设范围中，获得初始筛选后的行区域图像，这样可以初步排除一些错误边缘；

2.4)对初始筛选后的行区域图像进行纵向掩膜处理和二次筛选，获得对应二次筛选后的各页连通行区域图像，如果二次筛选后的各页连通行区域图像的边缘与初始文本图像的边缘重合时，则表示初始文本图像残缺，需要重新采集，通过单片机处理器4向语音播报芯片5发送摄像头调整指令，通过语音播报芯片5和喇叭6播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像后再执行下一步；

2.4)具体为：照片中某一页中内容残缺不全会导致识别结果语义不通顺，造成听众的困惑，这样的区域不可以进行文字识别，因此采用页或分栏的识别为分析错误做准备。用纵向掩模膨胀对初始筛选后的行区域图像进行处理，获得当前初始完整文本图像中各页对应连通行区域图，连通行区域图中包含大片的连通区域，其中纵向掩模高度为预设行高；再根据各页对应连通行区域图中各连通行区域的面积和横坐标进行连通行区域筛选，每页对应的连通行区域图中，每个连通行区域的行起始坐标在图像中是否位于最左端、行末尾坐标在图像中是否位于最右端以及连通行区域的面积是否在预设范围中，获得二次筛选后的各页连通行区域图像，二次筛选后的连通行区域图中的连通区域行起始坐标在图像中位于最左端、行末尾坐标在图像中位于最右端。如果二次筛选后的各页连通行区域图像的边缘与初始文本图像的边缘重合时，即某一分页的轮廓贴近图片边缘时，则表示初始文本图像残缺，认为拍照不全，拒绝为此页文字识别；需要重新采集，通过单片机处理器4向语音播报芯片5发送摄像头调整指令，提醒用户重新拍照，具体是通过语音播报芯片5和喇叭6播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像以及处理获得对应的二次筛选后的各页连通行区域图像后再执行下一步；

2.5)段落是语义上的停顿，不带感情的文字识别很难做到从文字中识别段落，但依靠缩进与行结束的位置可以形成初步判断。根据初始筛选后的行区域图像计算得到的页或分栏的区域坐标，计算二次筛选后的各页连通行区域图像中各个行连通域的行高，根据最多的行高确定行高范围，选择行高范围中的行连通域，将选择的多个行连通域分别与页或分栏的区域坐标进行比较，获得对应的缩进位置并记为段首，由二次筛选后的各页连通行区域图像以及段首组成文字连通区域信息。

2.5)中，各个行连通域的行高是通过以下方法计算获得：

2.2)中，在边缘提取前或后，还对初始完整文本图像进行透视变形页面的仿射变换到平面操作，即进行图像变形校正。

4)将文字识别结果经单片机处理器4发送给语音播报芯片5，最后通过语音播报芯片5和喇叭6进行文字的语音播报。

具体实施中，在一台配置Intel Core i7-9750H中央处理器，NVIDIA GTX1650图形处理器及1T内存，16GB运行内存的机器上实现服务器的搭建，单片机处理器使用安信可esp-32cam，摄像头模块采用ov2640摄像头，语音播报模块使用syn6288语音芯片，两者通过电路板相连接。通过识别图5的(a)所示书本文字来实现本发明的实施实例。

在使用摄像头拍摄此文本图像后，处理器将此图像发往服务器，服务器通过采集到的图像进行边缘的获取、文字区域的分割与筛选、页(栏、篇幅)区域的分割与筛选、每行的文字区域与段落及页区域的匹配之后得到图5的(b)所示文字分割结果，然后通过开源的文字识别方法对此文字进行识别，得到图5的(c)所示的文字识别结果。

此时服务器将得到的识别结果传回客户端，客户端将文字的编码信息发往syn6288语音播报模块通过喇叭实现文本的播报。

Claims

1.一种盲人辅助阅读设备，其特征在于，包括外壳(1)、电源(3)、单片机处理器(4)、语音播报芯片(5)、喇叭(6)、连接电路板(7)、摄像头(8)和上位机；

外壳(1)内固定安装有连接电路板(7)、喇叭(6)、电源(3)和摄像头(8)，连接电路板(7)上固定安装有单片机处理器(4)和语音播报芯片(5)，电源(3)分别与单片机处理器(4)、语音播报芯片(5)、喇叭(6)和摄像头(8)相连，单片机处理器(4)分别与摄像头(8)和语音播报芯片(5)相连，喇叭(6)与语音播报芯片(5)相连，单片机处理器(4)与上位机相连。

2.根据权利要求1所述的一种盲人辅助阅读设备，其特征在于，所述外壳(1)中还开设有摄像头开口(11)，摄像头(8)的镜头设置在摄像头开口(11)处，外壳(1)外还安装有拍照按键(2)，拍照按键(2)与摄像头(8)相连。

3.根据权利要求1所述的一种盲人辅助阅读设备，其特征在于，所述外壳(1)外还安装有电源开机按键(12)，电源开机按键(12)与电源(3)相连。

4.根据权利要求1所述的一种盲人辅助阅读设备，其特征在于，所述外壳(1)中还开设有喇叭开口(13)，喇叭(6)设置在喇叭开口(13)处。

5.一种盲人辅助阅读方法，其特征在于，包括以下步骤：

1)盲人控制摄像头(8)采集获得原始文字图像或者图像流，记为原始图像数据；

2)对原始图像数据进行预处理，处理中如果检测到图像残缺，则通过语音播报芯片(5)和喇叭(6)播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像，最终输出完整文字图像对应的文字连通区域信息；

4)将文字识别结果通过语音播报芯片(5)和喇叭(6)进行文字的语音播报。

6.根据权利要求1所述的一种盲人辅助阅读方法，其特征在于，所述2)具体为：

2.4)对初始筛选后的行区域图像进行纵向掩膜处理和二次筛选，获得对应二次筛选后的各页连通行区域图像，如果二次筛选后的各页连通行区域图像的边缘与初始文本图像的边缘重合时，则表示初始文本图像残缺，通过语音播报芯片(5)和喇叭(6)播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像以及处理获得对应的二次筛选后的各页连通行区域图像后再执行下一步；

7.根据权利要求6所述的一种盲人辅助阅读方法，其特征在于，所述2.3)具体为：

8.根据权利要求6所述的一种盲人辅助阅读方法，其特征在于，所述2.4)具体为：

用纵向掩模膨胀对初始筛选后的行区域图像进行处理，获得当前初始完整文本图像中各页对应连通行区域图；再根据各页对应连通行区域图中各连通行区域的面积和横坐标进行连通行区域筛选，获得二次筛选后的各页连通行区域图像，如果二次筛选后的各页连通行区域图像的边缘与初始文本图像的边缘重合时，则表示初始文本图像残缺，通过语音播报芯片(5)和喇叭(6)播放摄像头调整指令并指示重新采集文字图像，直至获得完整文字图像以及处理获得对应的二次筛选后的各页连通行区域图像后再执行下一步。

9.根据权利要求6所述的一种盲人辅助阅读方法，其特征在于，所述2.5)中，各个行连通域的行高是通过以下方法计算获得：

10.根据权利要求6所述的一种盲人辅助阅读方法，其特征在于，所述2.2)中，还对初始完整文本图像进行透视变形页面的仿射变换到平面操作。