CN109344817A

CN109344817A - 一种智能语音文字识别放大镜及其识别放大方法

Info

Publication number: CN109344817A
Application number: CN201811071659.0A
Authority: CN
Inventors: 郭纪源; 刘跃
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-02-15

Abstract

本发明公开了一种智能语音文字识别放大镜及其识别放大方法，其中，放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元，OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元，且均与中央处理单元进行数据交互；识别放大的具体步骤为：S1、由所述成像模块获取待处理的图像，并对获取的待处理图像做预处理和清晰化处理；S2、通过所述语音识别模块输入语音控制指令；S3、判断所述语音控制指令的类型，控制所述OCR模块，或控制所述成像模块，或控制所述照明单元；S4，由所述显示单元显示放大镜的放大效果；本发明实现了放大镜与用户之间的智能交互，且运用电子显示代替了传统的凸透镜成像。

Description

一种智能语音文字识别放大镜及其识别放大方法

技术领域

本发明属于图像识别处理技术领域，尤其涉及一种智能语音文字识别放大镜及其识别放大方法。

背景技术

放大镜是指用来观察物体微小细节的简单目视光学器件，是焦距比眼的明视距离小得多的会聚透镜；放大镜的用途很广，如观察辨认细小物体、工件、细小文字和图形的行业作专门使用，还可以提供给老年视力人士、弱视人士作阅读等使用；虽然放大镜的应用比较广泛，但是还是仅限于对图片或者文字的放大，且放大的过程仅能实现光学倍数的放大；同时，在放大镜的操作使用过程中，还是主要通过人工手动实现操作，导致放大镜的功能比较单一，很多时候都无法满足人们的使用需求。

发明内容

本发明的主要目的在于提供了一种智能语音文字识别放大镜及其识别放大方法，该放大镜具有丰富的功能，实现了放大镜的智能化和机械化，操作方便而简单；解决了现有技术中放大镜功能单一、放大倍数仅限于光学放大的问题，具体技术方案如下：

一方面，提供一种智能语音文字识别放大镜，所述放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元，所述OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元，且均与所述中央处理单元进行数据交互，其中：

成像模块，用于获取待处理的图像并对图像做预处理操作；

OCR模块，用于识别所述成像模块处理后的图像中文字，并将所述文字输出为文本格式；

TTS及语音识别模块，用于用户控制放大镜，并实现用户与放大镜的交互，并将所述OCR模块输出的文本格式转换成语音格式；

显示单元，用于显示所述放大镜的放大成像；

照明单元，用于为放大镜提供充足放大光源，且所述照明单元可通过所述TTS及语音识别模块控制；

中央处理单元，作为放大镜的控制和交互中心，实现OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元两两之间的协调合作。

进一步的，所述成像模块包括采集单元、预处理单元和处理单元，所述采集单元用于图像采集，并将采集得到的图像传输至所述预处理单元，由所述预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理；所述处理单元用于对图像做清晰化处理。

进一步的，所述OCR模块包括轮廓检测单元和OCR单字识别单元，所述轮廓检测单元用于检测图形中文字和背景的边界，并找出图像中文字所在位置并截取形成图片；所述OCR单字识别单元用于将所述图片内容识别为汉字并进行排序以形成文本。

进一步的，所述OCR模块包括图片切割单元，所述图片切割单元用于按行切割图像中的文字形成单字。

进一步的，所述OCR模块内设置有所述轮廓检测单元和所述图片切割单元中的一种或两种。

进一步的，所述TTS及语音识别模块包括TTS和语音识别模块，且所述TTS和所述语音识别模块集成与同一芯片上；所述TTS用于将所述OCR模块输出的文本格式转换成语音，所述语音识别模块用于接收用户的语音控制指令，实现放大镜与用户之间的交互和控制。

另一方面，提供一种智能语音文字识别放大镜的识别放大方法，应用于上述的智能语音文字识别放大镜，所述方法包括步骤：

S1、由所述成像模块获取待处理的图像，并对获取的待处理图像做预处理和清晰化处理；

S2、通过所述语音识别模块输入语音控制指令；

S3、判断所述语音控制指令的类型，控制所述OCR模块，或控制所述成像模块，或控制所述照明单元；

S4，由所述显示单元显示放大镜的放大效果。

进一步的，在步骤S3中，若所述语音控制指令用于控制所述OCR模块，则所述OCR模块响应于所述语音控制指令并输出文本格式，并由所述TTS将所述文本格式转换成语音输出；

若所述语音控制命令用于控制所述成像模块，则所述成像模块响应于所述语音控制指令处理图像并输出；

若所述语音控制命令用于控制所述照明单元，则所述照明单元响应于所述语音控制指令实现照明的开启和断开。

本发明的智能语音文字识别放大镜及其识别放大方法，放大镜由与中央处理单元连接的OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均构成，通过成像模块获取待处理的图像并对图像做预处理操作；OCR模块识别成像模块处理后的图像中文字，并将文字输出为文本格式；TTS及语音识别模块控制放大镜，并实现用户与放大镜的交互，并将OCR模块输出的文本格式转换成语音格式；由显示单元显示放大镜的放大成像；照明单元，用于为放大镜提供充足放大光源，且照明单元由TTS及语音识别模块控制；中央处理单元，作为放大镜的控制和交互中心，实现放大镜各组成部分的协调合作；与现有技术相比，本发明实现了放大镜与用户之间的智能交互，放大镜的缩放更加简单快捷，同时由电子显示代替传统的凸透镜成像，拓展了放大镜的适用范围；且整个放大镜整体结构简单，操作方便灵活。

附图说明

图1为本发明实施例中所述智能语音文字识别放大镜的组成结构框图示意；

图2为本发明实施例中所述智能语音文字识别放大镜的识别放大方法流程图示意；

图3为本发明实施例中所述智能语音文字识别放大镜的机械结构组成图。

标识说明：1-中央处理器、2-OCR模块、3-成像模块、4-TTS及语音识别模块、5-显示单元、6-照明单元；100-显示屏、200-摄像头、300-麦克风、400-LED灯、500-手持杆、600-开关、700-芯片、800-电池、900-连接口。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

结合图1~图3，对本发明的一种智能语音文字识别放大镜及其识别放大方法进行具体说明，其中，智能语音文字识别放大镜包括中央处理单元1、OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6，OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6均连接中央处理单元1，且均与中央处理单元1进行数据交互，其中，成像模块3用于获取待处理的图像并对图像做预处理操作；OCR模块2用于识别成像模块3处理后的图像中文字，并将文字输出为文本格式；TTS及语音识别模块4用于用户控制放大镜，并实现用户与放大镜的交互，并将OCR模块2输出的文本格式转换成语音格式；显示单元5用于显示放大镜的放大成像；照明单元6用于为放大镜提供充足放大光源，且照明单元6可通过TTS及语音识别模块4控制；中央处理单元1作为放大镜的控制和交互中心，实现OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6两两之间的协调合作。

在具体实施例中，成像模块3包括采集单元、预处理单元和处理单元，采集单元用于图像采集，并将采集得到的图像传输至预处理单元，由预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理；处理单元用于对图像做清晰化处理；OCR模块2包括轮廓检测单元和OCR单字识别单元，轮廓检测单元用于检测图形中文字和背景的边界，并找出图像中文字所在位置，并截取文字所在位置构成对应图片；随后通过OCR单字识别单元用于将上述截取的图片内容识别为汉字并进行排序以形成文本；进一步的，OCR模块2还可包括一图片切割单元，图片切割单元用于按行切割图像中的文字形成单字；在实际运用中，OCR模块2内可设置有轮廓检测单元和图片切割单元中的一种或两种，具体可根据实际情况进行设定，本发明对此并不进行限制和固定。

本发明的具体实施例中，TTS及语音识别模块4包括TTS和语音识别模块，且TTS和语音识别模块集成与同一芯片上；TTS用于将OCR模块2输出的文本格式转换成语音，语音识别模块用于接收用户的语音控制指令，实现放大镜与用户之间的交互和控制。

基于上述的智能语音文字识别放大镜，本发明提供了一种智能语音文字识别放大镜的识别放大方法，其识别放大方法具体过程为，首先，由成像模块3获取待处理的图像，并对获取的待处理图像做预处理和清晰化处理；然后，通过语音识别模块输入语音控制指令；随后，判断语音控制指令的类型，控制所述OCR模块2，或控制所述成像模块，或控制所述照明单元；其中，若语音控制指令用于控制OCR模块2，则所述OCR模块2响应于语音控制指令并输出文本格式，并由TTS将文本格式转换成语音输出；若语音控制命令用于控制成像模块3，则成像模块3响应于语音控制指令处理图像并输出；若语音控制命令用于控制照明单元6，则照明单元6响应于语音控制指令实现照明的开启和断开；最后，由显示单元显示放大镜的放大效果，即最后的放大识别效果。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种智能语音文字识别放大镜，其特征在于，所述放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元，所述OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元，且均与所述中央处理单元进行数据交互，其中：

成像模块，用于获取待处理的图像并对图像做预处理操作；

显示单元，用于显示所述放大镜的放大成像；

2.根据权利要求1所述的一种智能语音文字识别放大镜，其特征在于，所述成像模块包括采集单元、预处理单元和处理单元，所述采集单元用于图像采集，并将采集得到的图像传输至所述预处理单元，由所述预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理；所述处理单元用于对图像做清晰化处理。

3.根据权利要求1所述的一种智能语音文字识别放大镜，其特征在于，所述OCR模块包括轮廓检测单元和OCR单字识别单元，所述轮廓检测单元用于检测图形中文字和背景的边界，找出图像中文字所在位置并截取形成图片；所述OCR单字识别单元用于将所述图片内容识别为汉字并进行排序以形成文本。

4.根据权利要求3所述的一种智能语音文字识别放大镜，其特征在于，所述OCR模块包括图片切割单元，所述图片切割单元用于按行切割图像中的文字形成单字。

5.根据权利要求4所述的一种智能语音文字识别放大镜，其特征在于，所述OCR模块内设置有所述轮廓检测单元和所述图片切割单元中的一种或两种。

6.根据权利要求1所述的一种智能语音文字识别放大镜，其特征在于，所述TTS及语音识别模块包括TTS和语音识别模块，且所述TTS和所述语音识别模块集成与同一芯片上；所述TTS用于将所述OCR模块输出的文本格式转换成语音，所述语音识别模块用于接收用户的语音控制指令，实现放大镜与用户之间的交互和控制。

7.一种智能语音文字识别放大镜的识别放大方法，应用于权利要求1~6任一项所述的智能语音文字识别放大镜，其特征在于，所述方法包括步骤：

S2、通过所述语音识别模块输入语音控制指令；

S4，由所述显示单元显示放大镜的放大效果。

8.根据权利要求7所述的一种智能语音文字识别放大镜的识别放大方法，其特征在于，在步骤S3中，若所述语音控制指令用于控制所述OCR模块，则所述OCR模块响应于所述语音控制指令并输出文本格式，并由所述TTS将所述文本格式转换成语音输出；