CN1172997A

CN1172997A - 印刷体文字阅读机

Info

Publication number: CN1172997A
Application number: CN 97115080
Authority: CN
Inventors: 张博
Original assignee: Individual
Current assignee: Individual
Priority date: 1997-07-31
Filing date: 1997-07-31
Publication date: 1998-02-11

Abstract

印刷体文字阅读机利用模式识别、语音合成和人工智能等技术对纸张等介质上的印刷体文字进行辨识和阅读,经过对文字的扫描输入、图象处理、文字识别和语音合成等一系列过程,直接发出文字的读音,其主要技术特征是实现了从文字到其读音的“字－音”转换,可被广泛应用于各种可以直接听取印刷体文字内容的学习、工作和生活场合中,能够发挥人耳感知能力,有效地保护人类的视力健康,同时为盲人或在没有光线的情况下获取书本知识提供了一条有效途径。

Description

印刷体文字阅读机

本发明系一种用于印刷体文字识别及其语音阅读的装置，是以现代高科技电子技术为主体的一种“光、机、电、声”一体化新型电声设备，完成从文字到声音的转换过程，可以将纸张等介质上的印刷体文字直接以语音方式连续阅读出来，属于模式识别、语音合成和人工智能的技术领域。

目前，印刷体文字的识别技术已经成熟，以简体汉字识别为例，各种市面上的汉字识别软件均能达到下列指标：

①识别字数： 3755～6763 (国标GB-2312汉字库)

②识别率：＞98％ (中等印刷质量)

③识别速度：＞12字/秒 (486/33Hz 4MRAM)

④识别字体：宋、仿宋、楷、黑及其多体中英文混排

⑤识别字号： 1～6号字 (用高精度扫描仪，可识别7号字)

同时，这些软件还具有较强的抗噪能力，对油印、复印、铅印、针式打印机和各种有磨损的稿件，均有较理想的识别率。

另一方面，语音合成技术也在日趋完善。同样以汉字发音为例，市场上流行的固体电子语音电路已经可以进行声音的记录和再现。另外，汉字虽有六千余个，但其基本读音却只有四百个左右(不含声调)，至于同音字，可以在语句上下文中加以判别。因此，要存储所有汉字的语音数据库已不成问题，有些汉字发音系统已经可以用普通话完整、连贯地读出(文字编辑器中的)汉字语句及标点符号，并能准确地区分多音字。

然而，目前还不存在将以上两种技术相结合的产品，即本发明所指的产品，但是这两种技术的结合却十分必要，这是因为：

(1)人类有80％以上的信息由眼睛摄取，在知识爆炸的今天通过印刷传递的文字信息给人的眼睛带来了日益沉重的压力，而这种结合则充分地发挥人耳的感知能力。

(2)这种结合有理利于人类尤其是青少年的视力保护。众所周知，青少年今天所面临的学习负担日益加重，严重地危害着他们的视力健康。

(3)还可以使人们在没有光线的条件下继续获取文字信息。

(4)还可以为盲人获取书本知识提供帮助，甚至可以替代盲人以盲文传递和获取信息的方式。

本发明正是基于以上考虑，目的在于发掘人耳获取文字信息的感知能力，减轻人眼放的使用负担。

各种语言文字都有特定的结构和读音规则，但汉字“方块结构”和“单字单音(不存在拼读问题)”的特点在印刷体文字识读方面却有着其独特的优势。因此，本发明主要针对汉字提供实施方案(下文中的文字特指汉字)。当然，其他语言的识读可以以汉字识读装置的构造原理依此类推，只是因存在拼读等问题，而略显得复杂些。随着科技的不断进步，它们的实现将不成问题。

一个印刷文字的识读装置的原理结构如图1所示，它由扫描输入设备(1)和主机设备(2)两大部分组成，前者将印刷体文字由光信号转换为电信号，后者则对这些电信号进行处理、识别和诵读。

整个文字的识读过程由文字的扫描输入开始，采取逐字扫描识读的工作方式，即边扫描边识读，逐字、逐句地对每一页进行阅读。扫描输入设备(1)的主要功能是实现光电转换，即在光源的照射下，它能够将纸张等介质上印刷体文字所反射的光信号转变为电信号，从而形成具有一定灰度值的图象信息，送入主机设备(10)中的图象缓冲RAM(11)中以备处理。主机设备(10)中的图象预处理电路(12)对图象缓冲RAM(11)存贮的图象信息进行切分、二值化处理，形成单个文字的数字化点阵信息，再经平滑、尺寸大小变换、笔划粗细变换，将之规范化为一个具有一定大小，一定粗细的二值化文字点阵，然后交由文字识别电路(13)识别。文字识别电路(13)通过一定的识别算法和文字特征与词组库(14)对文字点阵进行匹配和模糊识别。如果识别成功，则给出该文字的内部表示，如：国际变换码；否则，根据图象质量及其可识程度，分别对预处理电路(12)和扫描控制电路(21)进行信号反馈，对扫描输入设备(1)中的纵横二向步进电机(3)实行闭环控制，间接地控制扫描输入设备(1)中扫描头(2)的运动，直到能识别出文字来为至。文字识别电路(13)还以人工智能的方法(如：提供上下文词组匹配、自动侦错和纠错等)来进一步提高文字的识别率。扫描控制电路(21)也具有一定的智能，它能够逐步确定文字的字间距离和行间步进距离，控制扫描头(2)合理工作。语音定位电路(15)根据文字识别电路(13)输出的文字内部表示对该文字在语音数据库(16)中的地址进行定位。这里同样需要引入智能化方法，对多音字进行鉴别，并对标点符号的读或停顿作出智能判断，从而保证能够正确地找到文字(含标点符号)的语音数据。语音数据库(16)中存放着所有文字及标点符号等的语音数据，从语音数据库(16)中解读出来的文字语音数据被暂时存放在语音缓冲RAM(17)中。语音平滑电路(18)用以保证文字发音之间的连贯性、数/模语音电路(19)则和语音平滑电路(18)一起，将语音缓冲RAM(17)中的语音数据还原成文字对应的模拟声音信号，然后通过音频电路(20)的放大供使用者收听。至此，文字识读从“字”到其“音”的全部转换过程已经完成，其中包括“光-电”和“电-声”转换、“数-模”和“模-数”转换等。在同步电路(30)的协调下，这一过程重复进行，从而实现了印刷体文字连续的识别和阅读。

为了便于使用者识读不同版面的印刷文字，主机设备中还设有以下部件，

●扫描预置电路(22)

它通过扫描控制电路(19)设置扫描输入设备中的扫描头(2)的运动参数，这些输入参数包括：移动方向(上、下、前、后)、移动速度、移动距离(字数、行数、段数、页数)等。

●识别预置电路(23)

用于对文字识别电路(13)进行辅助控制，输入的参数包括：文字的字体、字号及所要搜索的字串等。

●语音预置电路(24)

用于对语音定位电路(15)的参数进行设置，可以包括：标点符号读取开关、行/段/页/书尾提示开关、语音选择(男声或女声、国语或方言)等。

●声音控制电路(25)

用于调节发出声音的质量，如：音量、音色等，控制音频电路(20)工作。

●识别显示电路(26)

它与文字识别电路(13)和扫描跟踪电路(7)相连，用于显示当前所识别的文字、搜索字串的计数、字/行/段/页的计数等。

此外，主机设备还可以附加以下电路，以提高本发明的应用范围。

●识别附加接口电路(27)

用来和外界数字设备(如：计算机、磁盘、磁带等)相连，将文字识别电路(13)识别出的文字预以输出，以便存储、显示和打印。

●语音附加接口电路(28)

可与外部数字设备(如：计算机、磁盘、光盘、磁带等)相连，将外部设备中输出或存储的文字信息转换为文字的内部表示方式，输入到语音定位电路(15)中，从而达到阅读这些文字的目的。

●音频附加接口电路(29)

与外界模拟式音频设备连接，主要用于将语音信息以模拟量的形式存储在外部介质(如：磁带)中。

扫描输入设备(1)由扫描头(2)、纵横二向步进电机(3)和机械手(4)组成，它们协同工作以保证纸上的文字能够被连续不断地扫描成数字图象信息，供主机设备(10)处理。图2以常规版面(自左至右，自上至下)文字的识读说明了扫描输入设备的工作过程，即纸张保持不动，扫描头(2)在步进电机(3)的驱动下，沿文字的排版方向(先沿x方向，后沿y方向)逐字、逐行地对它下方的文字进行扫描，扫描结果被送入图象缓冲RAM(11)以等待主机处理。扫描头(2)的运动由扫描跟踪电路(7)监督，当它运动到行尾(即页的右端)时，扫描跟踪电路(7)就会通知步进电机(3)换行，如果此时恰好处于页尾(即页的右下角)，则扫描跟踪电路(7)还会通知机械手(4)进行换页和压纸操作，从而为下一页的阅读工作做好准备。这样，扫描输入设备(1)就可以逐页地完成对所有文字的连续扫描。

扫描头(2)代替人眼来摄取文字图象，其主要部件包括照明电路(5)、图象摄取电路(6)和扫描跟踪电路(7)。照明电路(5)可由发光二极管阵列或荧光灯电路构成，对纸上的文字实施照明。扫描跟踪电路(7)主要监督扫描头(2)的运动轨迹，以通知步进电机(3)和机械手(4)进行换行和换页压纸操作，并通知识别显示电路(26)进行段、页计数。

图象摄取电路(6)是由光学透镜和图象传感器组成的光电转换电路。光学透镜完成聚焦功能，将文字反射的光聚焦给图象传感器。为防止图象畸变，可采用棒状光学透镜。图象传感器(如：电荷耦合器件CCD和接触图象传感器件CIS)具有光电转换效应，可以使一幅光学图象转变为一幅电图象。CIS价格便宜，但其分辨率难以达到小字体识别的要求。由棒状光学透镜和图象传感器可以组成线列式或面阵式的光电转换器件，这种器件可以紧贴或非常接近纸面进行图象扫描，并具有扫描速度快、精确度高的优点。面阵式光电转换器件比线列式的扫描速度要快，这是因为面阵式可以一次扫描一个或几个文字，而线列式则需要逐列(横式版面)或逐行(竖式版面)地扫入一个文字的图象。图3是一个由棒状光学透镜(8)和CCD元件(9)组成的光电转换头，为扫描仪和传真机所广泛采用。为了减小体积和降低成本，本发明的具体实施可以采取长度较短的线列式或面阵式光电转换器件。因为采取逐字扫描识读的原则，所以该长度(线列式)或边长(面阵式)应大于常用最大印刷字号的边长，即L＞1。

逐字扫描的原则具有以下优点：

(1)减少了扫描头的尺寸，从而可以减小整机尺寸和降低成本；

(2)扫描头可以在步进电机的带动下在整个页面范围内移动，因而不受纸张大小的限制；

(3)每次扫描的信息量减少，使得图象缓存的容量减小；

(4)容易实现读音连贯，一次整页扫描后再识读的方法则难以实现页间连读。

本发明不仅可以推广到其他语言文字的识读应用，而且还可以适用于不同介质(一般报纸和书刊、油印、复印、铅印和打印稿)上文字的识读，加上透射适配器TMA还可以识读透明稿(如：胶片)，这些都可以在具体实施中不断优化。

本发明的实现技术目前都已成熟，如：OCR软件、语音合成电路、CCD元件、棒状透镜等，笔式扫描仪也已经问世(如：Primax公司的Datapen)，而且电子器件价格的逐日下降使得本发明的实现成本不断下降，有利于专利成果的转化，因而，本发明潜在的经济效应和社会效应较大。进一步，随着手写体文字识别技术的不断进步，本专利还可用于手写稿件的阅读，使本专利的应用面进一步拓宽。

Claims

1.一种用于印刷体文字的识别及其语音阅读装置，其特征是用模式识别、语音合成和人工智能的方法，以光、电、声三种信号依次转换的形式实现印刷体文字识别和阅读的装置，包括扫描输入设备(1)和主机设备(10)两大部分。

2.根据权利要求1所述的扫描输入设备(1)，其特征是将静止纸张等介质上的印刷体文字图象逐个连续地扫描输入给主机设备(10)的设备，其关键部件是扫描头(2)。

3.根据权利要求2所述的扫描头(2)，其特征是在纵横二向步进电机(3)的带动下，将它所对文字图象的模拟量光信号逐个转换成数字量电信号的装置，其核心是由具有聚焦功能的棒状光学透镜(8)和具有光电转换效应的电荷耦合器件CCD(9)组成的图象摄取电路(6)，其跟踪扫描电路(7)跟踪扫描头(2)的运动位置，并对纵横二向步进电机(3)和机械手(4)进行辅助控制。

4.根据权利要求所述的1主机设备(10)，其特征是控制扫描输入设备(1)连续输入文字图象，对图象进行识别处理，并连贯地发出文字读音的设备。控制扫描输入的功能由扫描控制电路(21)完成。图象预处理电路(12)将文字图象处理成文字点阵，文字识别电路(13)则对文字点阵进识别，为语音定位电路(15)提供文字的内部表示，以便从语音数据库(16)中读出文字对应的语音数据，后经语音平滑电路(18)、数/模语音电路(19)及音频电路(20)的处理和放大予以输出。上述工作过程由同步电路(30)进行协调控制。

5.根据权利要求4所述的扫描控制电路(21)，其特征是接收扫描预置电路(22)设置和文字识别电路(13)反馈信号，对纵横二向步进电机(3)实施闭环控制以保证扫描头(2)以一定的速度和步进间距稳态运动的电路。

6.根据权利要求5所述的文字识别电路(13)，其特征是通过一定的识别算法和文字特征与词组库(14)将文字点阵识别为文字内部某种标准表示(如国际交换码)的电路，它以人工智能的方法进一步提高文字识别率，并对扫描控制电路(21)进行信号反馈。

7.根据权利要求5所述的语音定位电路(15)，其特征是根据文字识别电路(13)输出的文字内部表示对该文字在语音数据库(16)中的地址进行定位，并对多音字和标点符号读或停顿进行鉴别和判断的电路。