CN104966084A

CN104966084A - 一种基于ocr和tts的低视力阅读助视系统

Info

Publication number: CN104966084A
Application number: CN201510395339.0A
Authority: CN
Inventors: 高铁塔
Original assignee: BEIJING AUMED GROUP CORP
Current assignee: BEIJING AUMED GROUP CORP
Priority date: 2015-07-07
Filing date: 2015-07-07
Publication date: 2015-10-07
Also published as: US20170011732A1

Abstract

本发明提供一种基于OCR和TTS的低视力阅读助视系统，包括：图像采集模块，用于扫描阅读对象，采集并输出图像；处理模块，包括：OCR文字识别单元，与图像采集模块连接，用于接收图像，对图像进行图像预处理和单字识别，得到图像对应的文本文件；TTS引擎单元，与OCR文字识别单元连接，用于将文本文件转换为音频文件；输出模块，与处理模块连接，用于同步输出文本文件和音频文件。本发明结合了OCR和TTS技术，通过图像采集模块对阅读对象进行扫描并采集图像，通过处理模块对采集的图像进行处理并最终通过输出模块同步输出文本和对应的音频，从而为用户实现了听读为主、目视辅助的阅读方式，具有使用便捷、缓解眼部疲劳等优点。

Description

一种基于OCR和TTS的低视力阅读助视系统

技术领域

本发明涉及电子阅读设备技术领域，尤其涉及一种基于OCR和TTS的低视力阅读助视系统。

背景技术

低视力患者及老年人在阅读书报、文件、说明书等图文时存在不同程度的障碍，传统方式是借助放大镜，但因其仅为光学放大，存在放大倍数有限、边缘变形等问题，因此在欧美等发达国家，基本已淘汰了放大镜，普遍使用电子助视装置等改善低视力人群阅读障碍的高科技产品，但是低视力人群在长时间使用眼睛的状况下会引起视力恶化。

随着终端技术、软件技术的发展，特别是智能终端技术、OCR技术与TTS技术的发展，为OCR技术与TTS技术的结合提供了可行性。

文字识别技术(Optical Character Recognition，简称OCR)即通过光学技术对文字进行识别,是自动识别技术研究和应用领域中的一种重要技术。它能够将文字自动识别录入到电脑中，适用于建立网络图书馆，将纸质书籍扫描，以文件的形式存入电脑然后通过OCR文字识别软件识别需要的文字就可以文本文件的形式显示。

语音合成技术(Text To Speech，简称TTS)，涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术，是中文信息处理领域的一项前沿技术。

与一些用预先录制的声音文件实现发声的应用程序相比，TTS的发声引擎只有几兆大小，不需要大量的声音文件支持，因此可以节省很大的储存空间，并且可以朗读预先未知的任何语句。现在已经有许多应用软件应用TTS技术实现语音功能，例如一些播音软件可以用来读小说或作校对工作，还可以朗读电子邮件，一些电子词典可以读出单词，还可以用于查询中心自动播放服务信息等。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明提供一种降低眼部使用频率、同时实现阅读的基于OCR和TTS的低视力阅读助视系统。

本发明提供一种基于OCR和TTS的低视力阅读助视系统，包括：

图像采集模块，用于扫描阅读对象，采集并输出图像；

处理模块，包括：

OCR文字识别单元，与所述图像采集模块连接，用于接收所述图像，对所述图像进行图像预处理和单字识别，得到所述图像对应的文本文件；

TTS引擎单元，与所述OCR文字识别单元连接，用于将所述文本文件转换为音频文件；

输出模块，与所述处理模块连接，用于同步输出所述文本文件和所述音频文件。

本发明提供的基于OCR和TTS的低视力阅读助视系统结合了OCR文字识别技术和TTS语音识别技术，通过图像采集模块对阅读对象进行扫描并采集图像，通过处理模块对采集的图像进行处理并最终通过输出模块同步显示阅读文本和输出对应的音频，从而为用户实现了听读为主、目视辅助的阅读方式。用户还可通过键盘或触摸屏设置显示模式，例如黑底白字、白底黑字、护眼模式等显示模式，进一步缓解眼部疲劳，实现了辅助低视力患者、老视人群及盲人用户进行阅读的作用。综上所述，本发明具有使用便捷、缓解眼部疲劳等优点。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1为本发明一种基于OCR和TTS的低视力阅读助视系统的一种实施方式的系统结构示意图。

图2为本发明一种基于OCR和TTS的低视力阅读助视系统的一种优选实施方式的系统结构示意图。

图3为本发明一种基于OCR和TTS的低视力阅读助视系统的另一种优选实施方式的系统结构示意图。

附图标记说明：

10 图像采集模块

20 用户输入模块

30 处理模块

50 输出模块

301 OCR文字识别单元

303 TTS引擎单元

501 显示单元

503 音频输出单元

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

如图1所示，在本实施方式中，本发明的基于OCR和TTS的低视力阅读助视系统包括：

图像采集模块10，用于扫描阅读对象，采集并输出图像；

处理模块30，包括：

OCR文字识别单元301，与图像采集模块10连接，用于接收所述图像，对所述图像进行图像预处理和单字识别，得到所述图像对应的文本文件；

TTS引擎单元303，与OCR文字识别单元301连接，用于将所述文本文件转换为音频文件；

输出模块50，与处理模块30连接，用于同步输出所述文本文件和所述音频文件。

具体地，图像采集模块10通常为扫描仪、摄像头或其它具有相同功效的扫描/拍摄设备，通过图像采集模块10将报纸、书籍等阅读对象采集并输入到计算机中，从而实现原稿数字化。OCR识别正确率的前提条件是文档图像的扫描质量较高。恰当地选择扫描分辨率及相关参数、较高的摄像头分辨率，是保证文字图像清楚、特征不丢失的关键。此外，待扫描的阅读对象尽可能地放置端正，以保证预处理检测的倾斜角较小，在进行倾斜校正后，文字图像的变形就较小。这些简单的操作，会使OCR识别正确率有所提高。反之，由于扫描设置不当，文字的断笔过多可能会分检出半个文字的图像，文字断笔和笔画粘连会造成部分特征丢失，在将文字图像的特征与特征库比较时，会使其特征距离加大，识别错误率上升。

图像预处理即分检所述接收的图像中的每一个文字图像，以及进行单字识别之前的一些准备工作，包括图像净化处理，即去掉原始图像中的噪声(干扰)，测量文档放置的倾斜角，对文档进行版面分析，对选出的文字域进行排版确认，对横、竖排版的文字行进行切分，每一行的文字图像的分离，标点符号的判别等。这一阶段的预处理步骤非常重要，处理的效果直接影响到文字识别的准确率。

单字识别即由计算机将所述文字图像转变成文字的标准代码，即所谓的识别技术。系统中预存有文字的结构、笔画等特征信息，根据文字的笔画、特征点、投影信息、点的区域分布等进行分析，并对识别出的文字或多个识别结果采用词组方式进行上下匹配，将单字识别的结果进行分词，与词库中的词组进行比较，以提高系统的识别率，减少误识率，最终得到由文字组成的文本文件。

TTS引擎单元303将文本文件转化为音频文件输出,这个过程的工作主要是将文本文件中的文字按字或词分解为音素，并且对文本文件中的数字、货币单位、单词变形以及标点等要特殊处理的符号进行分析，以及将音素生成数字音频，得到音频文件。

图2为图1所示实施方式的优选实施方式的系统结构示意图。

如图2所示，相较图1所示实施方式，在图2所示实施方式中，输出模块50包括：

显示单元501，与OCR文字识别单元301连接，用于输出所述文本文件；

音频输出单元503，与TTS引擎单元303、显示单元501连接，用于输出所述音频文件。

具体地，输出模块50的输出方式包括VGA和音频同步输出，或HDMI输出。

显示单元501通常为显示屏，音频输出单元503通常为音响、喇叭等音频输出设备。

图3为图2所示实施方式的优选实施方式的系统结构示意图。

如图3所示，相较图2所示实施方式，在图3所示实施方式中，本发明的基于OCR和TTS的低视力阅读助视系统还包括：

用户输入模块20，与处理模块30连接，用于输入系统启动指令、系统关闭指令、输出模式设置指令和输出参数设置指令。

具体地，用户输入模块20通常为设备上的按键、外接键盘、鼠标或触摸屏。

优选地，图像采集模块10还用于采集所述阅读对象的视频并输出。

优选地，OCR文字识别单元301还用于按照预设参数采集所述视频中的图像。

优选地，输出模块50还用于输出所述视频。

优选地，OCR文字识别单元301在进行图像预处理时对所述图像所包含的文字的语言种类进行判断，调用相应的语言库进行单字识别，并将语言种类信息发送至TTS引擎单元303。

优选地，TTS引擎单元303根据所述语言种类信息调用对应语言的语音库进行文字语音转换。

综上所述，本发明提供的基于OCR和TTS的低视力阅读助视系统结合了OCR文字识别技术和TTS语音识别技术，通过图像采集模块对阅读对象进行扫描并采集图像，通过处理模块对采集的图像进行处理并最终通过输出模块同步显示阅读文本和输出对应的音频，从而为用户实现了听读为主、目视辅助的阅读方式。用户还可通过键盘或触摸屏设置显示模式，例如黑底白字、白底黑字、护眼模式等显示模式，进一步缓解眼部疲劳，实现了辅助低视力患者、老视人群及盲人用户进行阅读的作用。本发明具有使用便捷、缓解眼部疲劳等优点。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于OCR和TTS的低视力阅读助视系统，其特征在于，包括：

图像采集模块，用于扫描阅读对象，采集并输出图像；

处理模块，包括：

2.根据权利要求1所述的低视力阅读助视系统，其特征在于，所述输出模块包括：

显示单元，与所述OCR文字识别单元连接，用于输出所述文本文件；

音频输出单元，与所述TTS引擎单元、所述显示单元连接，用于输出所述音频文件。

3.根据权利要求1所述的低视力阅读助视系统，其特征在于，还包括：

用户输入模块，与所述处理模块连接，用于输入系统启动指令、系统关闭指令、输出模式设置指令和输出参数设置指令。

4.根据权利要求1所述的低视力阅读助视系统，其特征在于，所述图像采集模块还用于采集所述阅读对象的视频并输出。

5.根据权利要求4所述的低视力阅读助视系统，其特征在于，所述OCR文字识别单元还用于按照预设参数采集所述视频中的图像。

6.根据权利要求4所述的低视力阅读助视系统，其特征在于，所述输出模块还用于输出所述视频。

7.根据权利要求1所述的低视力阅读助视系统，其特征在于，所述OCR文字识别单元在进行图像预处理时对所述图像所包含的文字的语言种类进行判断，调用相应的语言库进行单字识别，并将语言种类信息发送至所述TTS引擎单元。

8.根据权利要求7所述的低视力阅读助视系统，其特征在于，所述TTS引擎单元根据所述语言种类信息调用对应语言的语音库进行文字语音转换。

9.根据权利要求1所述的低视力阅读助视系统，其特征在于，所述输出模块的输出方式包括VGA和音频同步输出，或HDMI输出。