CN105027142A

CN105027142A - 文本阅读辅助工具

Info

Publication number: CN105027142A
Application number: CN201380063768.7A
Authority: CN
Inventors: N·阿奇代尔; A·尤恩
Original assignee: Heinze Gray Te Er Pc Co
Current assignee: Heinze Gray Te Er Pc Co
Priority date: 2012-10-16
Filing date: 2013-10-16
Publication date: 2015-11-04
Also published as: EP2909791A1; WO2014062841A1; US20150261740A1

Abstract

描述了阅读辅助工具，其用于在不需要光学字符识别的情况下按阅读顺序放大和重新布置文本。

Description

文本阅读辅助工具

相关申请

本申请要求于2012年10月16日提交的临时专利申请61/714,335的优先权。

技术领域

本发明一般涉及用于放大印刷或其它出版文件或物体上的文本的装置，尤其涉及一种重新布置文本以方便阅读的系统，而不需要字符识别—光学地或其它方式。

背景技术

众所周知，使用放大器和透镜放大文本能够便于阅读。这有助于那些视力不那么优秀的人，或有助于在不好的光线环境中阅读非常小的印刷体的人。特别地一些视力不佳的人可以使用简单透镜帮助他们阅读书、报纸、杂志和物体或包装上的标签。近年来已经可使用这些设备的更复杂版本，其中数字相机扫描文本区域或为文本区域拍照然后在显示屏上将其放大。用户能够选择他们需要放多大并且可以享受增强对比度的较大版本。这种系统可以使用连接至运行有定制软件的电脑的小相机，例如网络摄像机，或可以在带有集成相机和合适应用程序的智能手机或平板电脑中建立全部功能。然而，这种系统的缺点是：它需要靠用户沿着和横穿文本移动相机以横向纵向地阅读页面，用户还必须识别文本中的栏并相应地改变扫描模式。当执行这种扫描时很难保持相机平稳，最终结果是不理想的。现有技术中的一种可替代的，更复杂的技术是将文本的整个页面拍照或扫描在一张图像中，然后使用光学字符识别(OCR)技术通过文本的字符表现将该图像转换成数字字符。然后像任何文本符号文件那样处理文本的数字副本，能够格式化和显示该文本的数字副本以适合于放大的屏幕布局。这种技术的缺点是OCR处理的处理时间和复杂性代价较大，并且OCR技术能够可靠识别的字体类型还有很大的局限和限制。手写体和手书特别容易出错。此外，OCR通常限制在特定字符设置或语言，并且在特殊或专业符号和/或字形方面有困难。

图1、2、3示出了典型的现有技术的文本放大系统的示例。图1示出了带有文本12的页面10。图2示出了来自图1的页面10，其中使用覆盖的虚线长方形示出的相机或扫描设备的可视区域14。

图3示出了最终结果，显示设备16示出表示图2中的扫描区域14的放大的内容18。注意到尽管放大的文本18容易阅读，但是单词/字(word)和行17被切断从而导致不能从静止图像-行完整地阅读文件并且不能从一行到下一行。反而，图2中，当阅读整个页面10时，用户必须采用扫描模式从左到右再向下移动查看区域14。位置的唯一线索是文本内容和文本切断的位置。很难平滑和准确地移动，以致给用户带来了失望、冗长沮丧的经历。

提出一种文本放大系统是有利地，其能够在没有识别文本能力的情况下格式化用于放大阅读的文本页面，并且不受文本的字体、类型和布局限制。

附图说明

为了更完整地理解本发明及其优势，现结合附图参照下面的说明，附图中的相同的附图标记表示相同的特征，其中：

图1示出了文本的页面；

图2示出了现有技术的文本放大系统；

图3示出了现有技术的文本放大系统的输出；

图4示出了改进的文本放大系统的实施方案；

图5示出了图4中的系统选择用于放大的文本；

图6示出了图4和图5中的文本放大系统的实施方案的输出；

图7示出了在两栏文本文件上操作的文本放大系统的实施方案；

图8示出了图7中的系统选择的用于放大的文本；

图9示出了图7和8中的文本放大系统的实施方案的输出；

图10示出了现有技术的文本放大系统的流程图，以及；

图11示出了改进的文本放大系统的实施方案的流程图。

具体实施方式

附图中示出了本发明的优选的实施方案，相同的附图标记用于表示不同附图中的相同的和相应的部分。

本发明一般涉及用于放大在印刷的或其它出版的文件或物体上的文本的设备，尤其涉及在不需要光学字符识别的情况下重新布置文本以方便阅读的系统。

图1示出了带有文本12的文本页面10。图4示出了相同的页面10，其中通过虚线长方形示出了覆盖页面10的本发明的相机或扫描设备的可视区域20。注意到可视区域可以包括整个文本页面或根据用户的兴趣只包括文件的部分。

图5示出了本发明过程的识别阶段。本发明检查包含有文本12的文本页面20的扫描件或图像。本发明不试图识别个别字符或执行任何类型的光学字符识别(OCR)。反而本发明的系统将扫描区域作为位图检查，并且搜索单词/字之间的间隔、行和格式间断之间的间隔。这些将以带背景颜色的连续区域显示，并且容易从包含文本的对照块中识别。这是本发明的关键点：绝不试图解析文本块，只查询它们之间的间隙或间断。因此文本可以是任何语言、任何字体、任何字迹，并且能够以任何方向书写。从左到右，从右到左，从上到下，从下到上。系统将对手写文本和任何类型的符号或字形有用。只需要在单词/字或字形之间有间隙。图5示出了系统具有包含有被间隙隔开的文本块的识别区域21(为简明起见反相示出)。然后系统可以放大、重新布置以及四处移动识别块以将其格式化24以适合于输出显示器22(如图6所示)。

注意到，与现有技术的OCR系统不同，文本不是重新生成的，而是包含文本的块采用位图的方式被简单放大。该系统既不具有也不需要知道每个文本块的实际内容，因为它们被作为图像处理。本系统的另一优势是它可以对图像的角度或扭曲不敏感。相机/扫描设备不需要精确对准文本页面，并且文本可以倾斜，不会影响系统。在用户已经阅读显示器22上的内容24后，他们将通过用户控制指示系统移动到下一“页面”，并且系统将采用相同方式格式化文本的下一图像块并在屏幕22上将其显示。这个过程能够持续直到整个文本页面已经以其放大的重新格式化的状态进行显示。

本发明的另一实施例中，也可以为用户正确地放大和布置多栏文本。图7示出了文本32的页面30，其中通过覆盖的虚线长方形示出了本发明的相机或扫描设备的可视区域34。

图8示出了本发明过程的识别阶段。本发明检查包含文本32的文本页面30的扫描件或图像34。在这个实施方案中，本系统识别字块(wordblock)和行之间的间隙，也识别栏之间的间隙，并且因此能够将字块与阅读顺序相关联，并且因此选择哪些字块图像应当依次一起显示，因此恰当地布置文本块。

图8中，系统识别用于依次一起显示的区域31中的字块(出于清楚原因反相示出)。然后系统可以放大、重新布置以及四处移动识别的块以便将其格式化38以适合输出显示器36(如图9所示)。

如前所述，本发明的系统把扫描区域当作位图检查并且搜索单词/字之间的间距以及行之间的间距。这些以带有背景颜色的连续区域显示，并且能够方便地从包含文本的对照块识别。不执行文本块的OCR或相似处理；文本块被视作简单图像处理。尽管文中示出了两栏，但是本发明不限于此并且可以相似地处理任何数量的栏。如前面单个栏的实施方案所述的，当用户阅读文本的每个屏幕时系统将正确地格式化页面，并且将向下移动一栏，然后转到第二栏并且向下移动，当系统如此工作时，重新格式化并向用户显示文本块。最终结果是用户将看见以阅读页面的正确顺序放大呈现给他们的全部文本，而不需要手动扫描或移动。

图10示出了使用OCR的现有技术的文本放大系统的流程图。其遵循以下步骤：52，扫描文本的页面(文本必须良好明度、正确对齐、有良好对比度)，在下一步骤54中，使用OCR处理图像以识别和提取字的文本格式。然后在步骤56完整地重新生成该文本以适合新的放大的布局。最后步骤58是显示新的文本。这个最终文本与初始文本没有直接关系，很可能字体将改变，并且文本上的任何重点、标记或其它标识将丢失。

图11示出了根据本发明的实施方案的文本放大系统的流程图。在步骤62中，扫描文本的页面(相对于现有技术，不要求良好对齐，并减少了对于良好对比度和明度的需要)。步骤64是由将图像解析成文本块图像的解析器执行。在一个实施方案中，通过查询背景的连续区域识别文本块。解析器也使用连续背景区域以阅读顺序将块彼此相关联。这是非常简单并且运算量不大的过程。不试图转换或识别文本本身。文本块保持成位图。基于在识别步骤中确定的文本块的确定的关系，然后可以放大和布置66识别的文本块以适合显示器68。

不同于OCR方案，不要求文本再生。最终文本是初始文本的精确复制，因此将保留文本上的任何重点、标记、手写注释或任何其它细节或标识。

在本发明的另一实施方案中，扫描、识别、重新布置和放大文本的显示的过程可以实时完成。与现有技术的使用OCR的方案不同，处理要求简单并且可以由便宜的设备(例如智能手机或平板电脑)快速执行。例如，可以将书或杂志支撑在一个位置，同时将智能手机或平板电脑支撑在指向书或杂志的第二位置。一旦对准，用户能够在智能手机或平板电脑的屏幕上直接阅读立即放大的文本，并且能够在设备的屏幕上向上和向下滚动以阅读书或杂志的整个页面。然后用户可以翻书或杂志的页，在智能手机或平板电脑上继续阅读。这是立刻就能够完成的简单过程，不需要预先扫描或提前准备材料。智能手机或平板电脑可以定向到肖像或风景从而适合于要放大的材料。

本发明还提供了图像的改善以助于易读性。可以针对视觉参数调节图像，包括但不限于焦距、亮度、对比度、灰度系数、清晰度和颜色饱和度。这种调节可以在不需要理解文本内容的情况下完成。如上所述，不使用OCR，将文本块处理成位图。

本发明也可以放大页面上嵌入文本的或文本栏中的图像或照片。扫描后，软件可以识别页面中没有文本中可见的间隔或行间断的区域。然后软件可以将该块归类成图像并将其作为不需要重新布置的单个区域进行放大和显示。用户可以根据需求滚动这些图像或照片。

虽然本公开已经描述了有限数量的实施方案，从本公开获益的本领域的技术人员将理解在不背离本文所公开的公开范围的情况下可以设计其它实施方案。已经详细地描述了本公开，应当理解的是在不背离本公开的精神和范围的情况下可以进行多种变化、替代和改变。

Claims

1.一种文本阅读辅助工具，包括：

解析器，其识别包含有文本的图像中的字块，并且创建字块图像，并且按阅读顺序将所述字块相关联；

放大器，其改变所述字块图像的尺寸；以及

格式器，其根据所述阅读顺序布置所述放大器改变的字块图像。

2.根据权利要求1所述的文本阅读辅助工具，还包括：

成像器，其将文本文件转换成电子图像文件，以及

显示器，其显示所述格式器布置的所述放大器改变的字块图像。