CN112329563A

CN112329563A - 一种基于树莓派的智能阅读辅助方法及系统

Info

Publication number: CN112329563A
Application number: CN202011150493.9A
Authority: CN
Inventors: 王天依; 高伟峻; 陈敏; 王德豫; 赵怀锐; 邹卓
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-02-05

Abstract

本发明属于智能阅读辅助技术领域，具体为一种基于树莓派的智能阅读辅助方法及系统。本发明方法包括：按照5张/秒的频率拍摄使用者正在阅读的页面，将照片存入树莓派的内部储存；判断树莓派内部储存的上述图片中是否有图片达到清晰度阈值；降低拍摄频率；对内部储存的图片进行分区操作；利用手势识别判断使用者选取了哪一段文字；对使用者选择的文字进行光学字符识别和文字转语音操作；播放转换后的音频文件；利用手势控制音频的播放，并判断是否翻页。本发明依靠云服务可以更精确地识别正在阅读的文字，并且识别多种语言，拓展其应用场景；通过手势选取文字，控制音频的播放，操作更加简单；对语音进行个性化设置，可以提升产品的用户体验。

Description

一种基于树莓派的智能阅读辅助方法及系统

技术领域

本发明属于智能阅读辅助技术领域，具体涉及到一种基于树莓派的智能阅读辅助方法及系统。

背景技术

随着技术的不断进步，智能阅读辅助设备逐渐进入大众视野。目前市场上的智能阅读辅助设备多为以下两种工作方式：一种是在设备中储存固定的文字内容，在设备识别到特定的信号或标志后播放实现储存好的录音，例如常见的点读机，另一种是使用手持设备对纸张进行扫描，然后识别图像中的文字，例如扫描笔等。前者的局限在于可以识别、朗读的文字内容是固定的，需要对设备内储存的内容进行手动更新，应用的范围十分有限。后者避免了前者的弊端，但是一方面使用起来较为麻烦，手持操作对老年人和儿童不友好，另一方面该类设备大多在离线状态工作，识别的准确率受限于本地库和算法，可以识别的语言较少，只适用于单一或是某几种语言的应用场景，同时缺少声音音色等人性化设置，因此难以提供良好的用户体验。

发明内容

针对上述存在的缺陷，本发明的目的在于提出一种智能阅读辅助方法及系统，用于解决现有智能阅读辅助产品中存在的手持操作麻烦、缺少声音人性化设置等问题，同时提高文字识别准确率，拓展智能阅读辅助的应用场景。

本发明提出的智能阅读辅助方法，是基于树莓派技术的，具体步骤如下：

S1：按照5张/秒的频率拍摄使用者正在阅读的页面，将照片存入树莓派的内部储存；

S2：判断树莓派内部储存的上述图片中是否有图片达到清晰度阈值；是，进入S3；否，返回S1；

S3：降低拍摄频率；对内部储存的图片进行分区操作；

S4：利用手势识别判断使用者选取了哪一段文字；

S5：对使用者选择的文字进行光学字符识别和文字转语音操作；

S6：播放转换后的音频文件；

S7：利用手势控制音频的播放，并判断是否翻页；是，返回S1；否，进入S6。

其中，步骤S2中，所述判断树莓派内部储存的上述图片中是否有图片达到清晰度阈值；是，进入S3；否，返回S1，包括以下步骤：

S21：树莓派利用本地光学字符识别模块对内部储存内的图片进行处理；

S22：判断清晰度，清晰度阈值设置为95%，如果处理后的文字结果可辨认度高于95%，则认定超出清晰度阈值，进入S3，否则，返回S1；

S23：仅保留一张超出清晰度阈值的图片（若有多张图片超出阈值，保留最后一张），删除其他图片。

其中，步骤S3中，所述降低拍摄频率，对内部储存的图片进行分区操作，包括以下步骤：

S31：将拍摄频率降低至1张/秒，图片储存在内部储存中；

S32：利用图片分区模块，根据段落分割内部储存的图片，为每一个段落编号；

S33：将分割后的各个段落单独保存为一张图片，其名称为对应的编号；

S34：在未分割的图片上建立坐标轴，保存分割后每个段落区域的顶点坐标。

其中，步骤S4和S7中，所述手势识别控制，树莓派利用手势识别模块，包括以下4种手势：

右手（或左手）伸出食指，其他手指握紧，用于选取某一段文字；

右手（或左手）握拳，手心向下，用于暂停音频播放；

右手（或左手）五指张开伸直，手心向下，用于指示翻页；

右手（或左手）五指并拢伸直，手心向下，用于停止音频播放并删除该音频。

其中，步骤S4中，所述利用手势识别判断使用者选取了哪一段文字，包括以下步骤：

S41：利用手势识别模块实时对摄像模块拍摄到的内容进行检测；

S42：当检测到选取文字的手势时，确定食指指尖与页面重合位置；

S43：将该位置下段落对应的图片传输给光学字符识别模块等待处理。

其中，步骤S5中，所述对使用者选择的文字进行光学字符识别和文字转语音操作，包括以下步骤：

S51：光学字符识别模块接收步骤S4中选择的图片；

S52：利用光学字符识别模块对上述图片进行处理，提取图片内的文字，将文本内容发送回树莓派；

S53：树莓派利用文字转语音模块对上述文字进行处理，按照预设的声音选项，将其转换成Base64编码；

S54：树莓派在本地将Base64编码转换成MP3音频文件；

S55：在转换成语音之前可以添加利用云服务添加翻译操作，将提取出的文字转换成使用者想要的语言。

本发明还提出一种基于树莓派的阅读辅助系统，包括摄像模块、树莓派模块、扬声器模块和云服务模块；所述摄像模块通过USB与树莓派模块连接，模块带有夹子可以固定在镜框或帽檐等位置，用于对看到的东西进行照片拍摄或者视频录制；所述树莓派模块包括一块树莓派4B微型电脑，其上装载光学字符识别模块、图片分区模块、手势识别模块和文字转语音模块；所述扬声器模块包括两个微型扬声器和一个调节音量的旋钮，通过USB与树莓派模块相连接，用于播放音频；所述云服务模块通过互联网与树莓派模块连接，用于提供云服务API实现光学字符识别功能和文字转语音功能。

其中，所述光学字符识别模块，分为本地和云服务两部分，前者基于计算机视觉，用于判断图片的清晰度，后者基于云服务API，用于提取图片中的文字。

其中，所述图片分区模块，基于计算机视觉，用于检测页面上的段落并将图片按照段落进行分割。

其中，所述手势识别模块，基于计算机视觉和机器学习，用于检测4种不同的手势并对系统进行操作。

其中，所述文字转语音模块，基于云服务API，用于将文字转换成音频文件，由扬声器模块播放。

其中，所述树莓派4B微型电脑还包括WiFi蓝牙一体模块，用于连接云服务API和连接蓝牙耳机或音响。

其中，所述树莓派4B微型电脑还包括专用的树莓派电池一块，用于为整个系统供电。

本发明提供的技术方案可以包含以下有益效果：

利用树莓派本身的性能和通信能力以及网络服务供应商提供的云服务，改进了现有产品的工作流程。网络云服务提高了文字的识别精度、准确性和识别速度，在无需手动更新的前提下大幅度扩展了可以识别的语种，从而扩大了该系统的适用范围。摄像头模块可以直接架设在镜框或者帽檐上，以第一视角拍摄使用者正在阅读的页面，通过手势识别完成所有控制操作，避免了手持设备操作的复杂性和不便利。可以对播放的语音进行个性化设置，对于老人、儿童等需要特别关照的使用者更加友好。

附图说明

图1为基于树莓派的智能阅读辅助方法步骤流程示意图。

图2为步骤S2的方法步骤流程示意图。

图3为步骤S3的方法步骤流程示意图。

图4为步骤S4的方法步骤流程示意图。

图5为步骤S5的方法步骤流程示意图。

图6为基于树莓派的智能阅读辅助系统的组成模块示意图。

图7为树莓派模块的组成模块示意图。

具体实施方式

下面将结合实施例和附图，对本发明的技术方案作进一步描述。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

请参阅附图1，一个实施例中，一种基于树莓派的智能阅读辅助方法，包括以下步骤：

S3：降低拍摄频率；对内部储存的图片进行分区操作；

S4：利用手势识别判断使用者选取了哪一段文字；

S6：播放转换后的音频文件；

进一步的，请参阅附图2，步骤S2中，判断树莓派内部储存的上述图片中是否有图片达到清晰度阈值；是，进入S3；否，返回S1，包括以下步骤：

进一步的，请参阅附图3，步骤S3中，降低拍摄频率，对内部储存的图片进行分区操作，包括以下步骤：

S31：将拍摄频率降低至1张/秒，图片储存在内部储存中；

进一步的，步骤S4和S7中，手势识别控制，树莓派利用手势识别模块，包括以下4种手势：

右手（或左手）握拳，手心向下，用于暂停\开始音频播放；

右手（或左手）五指张开伸直，手心向下，用于指示翻页；

进一步的，请参阅附图4，步骤S4中，利用手势识别判断使用者选取了哪一段文字，包括以下步骤：

进一步的，请参阅附图5，步骤S5中，对使用者选择的文字进行光学字符识别和文字转语音操作，包括以下步骤：

S51：光学字符识别模块接收步骤S4中选择的图片；

S54：树莓派在本地将Base64编码转换成MP3音频文件；

请参阅附图6和附图7，本发明还提出一种基于树莓派的阅读辅助系统，包括摄像模块10、树莓派模块20、扬声器模块30和云服务模块40。

进一步的，所述摄像模块10通过USB与所述树莓派模块20连接，模块带有夹子可以固定在镜框或帽檐等位置，用于对看到的东西进行照片拍摄或者视频录制，系统开关打开后，所述树莓派模块20会自动启动摄像模块10，待摄像模块10对焦成功后开始以预设的速度拍摄使用者正在阅读的页面内容，在系统运行过程中，根据所述树莓派20的指令调节拍摄速度；

进一步的，所述树莓派模块20包括一块树莓派4B微型电脑200，其上装载光学字符识别模块201、图片分区模块202、手势识别模块203和文字转语音模块204。

进一步的，所述扬声器模块30包括两个微型扬声器和一个调节音量的旋钮，通过USB与所述树莓派模块20相连接，用于播放音频，旋钮直接调节树莓派的音量，若使用者连接了外置耳机或者外置音箱，旋钮也可以调节器音量。

进一步的，所述云服务模块40通过互联网与所述树莓派模块20连接，用于提供云服务API实现光学字符识别功能和文字转语音功能，所述云服务模块40基于网络服务商提供的相应功能，可以在所述树莓派模块20上调用这些功能，将需要处理的信息、文件上传至云服务器，待处理完成后，将处理结果下载到所述树莓派模块20上。

进一步的，所述光学字符识别模块201，分为本地和云服务两部分，本地部分基于计算机视觉，对内部储存的图片进行简易识别，根据识别的结果判断图片的清晰度，后者基于云服务API，将使用者选取的段落图片上传至云服务器，调用云服务模块40，提取图片中的文字；光学字符识别(Optical Character Recognition，OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

进一步的，所述图片分区模块202，基于计算机视觉，用于检测页面上的段落并将图片按照段落进行分割，具体方法为：将图片转换为黑白图像，使用计算机视觉扫描图像上形状的边缘，由此确定一段文字，并将该段文字单独截取出来，保存为一张图片；同时在未经处理的图片上建立坐标系，存储每段文字所对应的坐标范围。

进一步的，所述手势识别模块203，基于计算机视觉和机器学习，用于检测4种不同的手势并对系统进行操作；手势分析是手势识别的关键技术之一，本发明使用边缘轮廓提取法，通过识别手型特有的外形从而与其他物体区分开；在识别选取手势时，同时获取食指指尖处的坐标，在图片分区模块202内建立的坐标系上找到指尖对应的点，根据该点落在的区域判断使用者选取的段落，并将对应的图片传输至光学字符识别模块201；其他3种手势的判断结果直接与音频的播放相关联，是指上是将判断结果映射到控制播放的播放/暂停键和停止键上。

进一步的，所述文字转语音模块204，基于云服务API，将光学字符识别模块201得到的文字以及对于语音的相关个性化设置上传至云服务器，调用云服务模块40，用于将文字转换成Base64编码文件，在树莓派模块20上将其转换成MP3音频文件，由扬声器模块30播放。

进一步的，所述树莓派4B微型电脑200还包括WiFi-蓝牙一体模块205。所述WiFi蓝牙一体模块205，既包括WiFi功能，又包括蓝牙功能。WiFi用于连接互联网，建立和云服务模块40之间的通信，以使用云服务API。蓝牙用于连接蓝牙耳机或蓝牙音响，可以替代扬声器模块30作为另一种播放音频的方式。

进一步的，所述树莓派微型4B电脑200还包括专用的树莓派电池206一块，用于为整个系统供电。

除此之外，本发明的一种基于树莓派的智能阅读辅助方法及系统，还提供如下使用场景：

优选的，本发明的一种基于树莓派的智能阅读辅助方法及系统的一个应用场景为：老年人读报，老年人的视力一般较差，他们可以将摄像头置于眼镜上，在阅读报纸时通过指点的方式选择要阅读的段落，用听报的方式取代读报。当他（她）们觉得对于这段内容不感兴趣的时候，可以握拳暂停播放或者五指并拢停止播放，选取另一段文字。整体操作简单，无需额外的按钮或者触屏控制。

优选的，本发明的一种基于树莓派的智能阅读辅助方法及系统的又一个应用场景为：阅读英文读物，可以在语音转文字的操作之前，设置添加翻译操作，将书本上的英文直接翻译成中文转换成语音播放。

上述内容，仅为本发明的较佳实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通和修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于树莓派的智能阅读辅助方法，其特征在于，具体步骤如下：

S3：降低拍摄频率；对内部储存的图片进行分区操作；

S4：利用手势识别判断使用者选取了哪一段文字；

S6：播放转换后的音频文件；

2.根据权利要求1所述的基于树莓派的阅读辅助方法，其特征在于，步骤S2中，判断树莓派内部储存的上述图片中是否有图片达到清晰度阈值；是，进入S3；否，返回S1，包括以下步骤：

S21：树莓派利用本地光学字符识别模块对内部储存内的图片进行处理，清晰度阈值设置为95%，如果处理后的文字结果可辨认度高于95%，则认定超出清晰度阈值，进入S3，否则，返回S1；

S22：仅保留一张超出清晰度阈值的图片，删除其他图片。

3.根据权利要求1所述的基于树莓派的阅读辅助方法，其特征在于，步骤S3中，降低拍摄频率，对内部储存的图片进行分区操作，包括以下步骤：

S31：将拍摄频率降低至1张/秒，图片储存在内部储存中；

4.根据权利要求1所述的基于树莓派的阅读辅助方法，其特征在于，步骤S4和S7中，手势识别控制，树莓派利用手势识别模块，包括以下4种手势：

右手或左手伸出食指，其他手指握紧，用于选取某一段文字；

右手或左手握拳，手心向下，用于暂停音频播放；

右手或左手五指张开伸直，手心向下，用于指示翻页；

右手或左手五指并拢伸直，手心向下，用于停止音频播放并删除该音频。

5.根据权利要求1所述的基于树莓派的阅读辅助方法，其特征在于，步骤S4中，利用手势识别判断使用者选取了哪一段文字，包括以下步骤：

6.根据权利要求1所述的基于树莓派的阅读辅助方法，其特征在于，步骤S5中，对使用者选择的文字进行光学字符识别和文字转语音操作，包括以下步骤：

S51：光学字符识别模块接收步骤S4中选择的图片；

S54：树莓派在本地将Base64编码转换成MP3音频文件；

7.一种基于树莓派的阅读辅助系统，其特征在于，包括摄像模块、树莓派模块、扬声器模块和云服务模块；所述摄像模块通过USB与树莓派模块连接，模块带有夹子可以固定在镜框或帽檐等位置，用于对看到的东西进行照片拍摄或者视频录制；所述树莓派模块包括一块树莓派4B微型电脑，其上装载光学字符识别模块、图片分区模块、手势识别模块和文字转语音模块；所述扬声器模块包括两个微型扬声器和一个调节音量的旋钮，通过USB与树莓派模块相连接，用于播放音频；所述云服务模块通过互联网与树莓派模块连接，用于提供云服务API实现光学字符识别功能和文字转语音功能；

所述光学字符识别模块，分为本地和云服务两部分，前者基于计算机视觉，用于判断图片的清晰度，后者基于云服务API，用于提取图片中的文字；

所述图片分区模块，基于计算机视觉，用于检测页面上的段落并将图片按照段落进行分割；

所述手势识别模块，基于计算机视觉和机器学习，用于检测4种不同的手势并对系统进行操作；

所述文字转语音模块，基于云服务API，用于将文字转换成音频文件，由扬声器模块播放。

8.根据权利要求7所述的基于树莓派的阅读辅助系统，其特征在于，所述树莓派4B微型电脑还包括WiFi蓝牙一体模块，用于连接云服务API和连接蓝牙耳机或音响。

9.根据权利要求7所述的基于树莓派的阅读辅助系统，其特征在于，所述树莓派4B微型电脑还包括专用的树莓派电池一块，用于为整个系统供电。