CN109344817A - 一种智能语音文字识别放大镜及其识别放大方法 - Google Patents

一种智能语音文字识别放大镜及其识别放大方法 Download PDF

Info

Publication number
CN109344817A
CN109344817A CN201811071659.0A CN201811071659A CN109344817A CN 109344817 A CN109344817 A CN 109344817A CN 201811071659 A CN201811071659 A CN 201811071659A CN 109344817 A CN109344817 A CN 109344817A
Authority
CN
China
Prior art keywords
image
module
magnifying glass
unit
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811071659.0A
Other languages
English (en)
Inventor
郭纪源
刘跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201811071659.0A priority Critical patent/CN109344817A/zh
Publication of CN109344817A publication Critical patent/CN109344817A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/141Control of illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种智能语音文字识别放大镜及其识别放大方法,其中,放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元,OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元,且均与中央处理单元进行数据交互;识别放大的具体步骤为:S1、由所述成像模块获取待处理的图像,并对获取的待处理图像做预处理和清晰化处理;S2、通过所述语音识别模块输入语音控制指令;S3、判断所述语音控制指令的类型,控制所述OCR模块,或控制所述成像模块,或控制所述照明单元;S4,由所述显示单元显示放大镜的放大效果;本发明实现了放大镜与用户之间的智能交互,且运用电子显示代替了传统的凸透镜成像。

Description

一种智能语音文字识别放大镜及其识别放大方法
技术领域
本发明属于图像识别处理技术领域,尤其涉及一种智能语音文字识别放大镜及其识别放大方法。
背景技术
放大镜是指用来观察物体微小细节的简单目视光学器件,是焦距比眼的明视距离小得多的会聚透镜;放大镜的用途很广,如观察辨认细小物体、工件、细小文字和图形的行业作专门使用,还可以提供给老年视力人士、弱视人士作阅读等使用;虽然放大镜的应用比较广泛,但是还是仅限于对图片或者文字的放大,且放大的过程仅能实现光学倍数的放大;同时,在放大镜的操作使用过程中,还是主要通过人工手动实现操作,导致放大镜的功能比较单一,很多时候都无法满足人们的使用需求。
发明内容
本发明的主要目的在于提供了一种智能语音文字识别放大镜及其识别放大方法,该放大镜具有丰富的功能,实现了放大镜的智能化和机械化,操作方便而简单;解决了现有技术中放大镜功能单一、放大倍数仅限于光学放大的问题,具体技术方案如下:
一方面,提供一种智能语音文字识别放大镜,所述放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元,所述OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元,且均与所述中央处理单元进行数据交互,其中:
成像模块,用于获取待处理的图像并对图像做预处理操作;
OCR模块,用于识别所述成像模块处理后的图像中文字,并将所述文字输出为文本格式;
TTS及语音识别模块,用于用户控制放大镜,并实现用户与放大镜的交互,并将所述OCR模块输出的文本格式转换成语音格式;
显示单元,用于显示所述放大镜的放大成像;
照明单元,用于为放大镜提供充足放大光源,且所述照明单元可通过所述TTS及语音识别模块控制;
中央处理单元,作为放大镜的控制和交互中心,实现OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元两两之间的协调合作。
进一步的,所述成像模块包括采集单元、预处理单元和处理单元,所述采集单元用于图像采集,并将采集得到的图像传输至所述预处理单元,由所述预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理;所述处理单元用于对图像做清晰化处理。
进一步的,所述OCR模块包括轮廓检测单元和OCR单字识别单元,所述轮廓检测单元用于检测图形中文字和背景的边界,并找出图像中文字所在位置并截取形成图片;所述OCR单字识别单元用于将所述图片内容识别为汉字并进行排序以形成文本。
进一步的,所述OCR模块包括图片切割单元,所述图片切割单元用于按行切割图像中的文字形成单字。
进一步的,所述OCR模块内设置有所述轮廓检测单元和所述图片切割单元中的一种或两种。
进一步的,所述TTS及语音识别模块包括TTS和语音识别模块,且所述TTS和所述语音识别模块集成与同一芯片上;所述TTS用于将所述OCR模块输出的文本格式转换成语音,所述语音识别模块用于接收用户的语音控制指令,实现放大镜与用户之间的交互和控制。
另一方面,提供一种智能语音文字识别放大镜的识别放大方法,应用于上述的智能语音文字识别放大镜,所述方法包括步骤:
S1、由所述成像模块获取待处理的图像,并对获取的待处理图像做预处理和清晰化处理;
S2、通过所述语音识别模块输入语音控制指令;
S3、判断所述语音控制指令的类型,控制所述OCR模块,或控制所述成像模块,或控制所述照明单元;
S4,由所述显示单元显示放大镜的放大效果。
进一步的,在步骤S3中,若所述语音控制指令用于控制所述OCR模块,则所述OCR模块响应于所述语音控制指令并输出文本格式,并由所述TTS将所述文本格式转换成语音输出;
若所述语音控制命令用于控制所述成像模块,则所述成像模块响应于所述语音控制指令处理图像并输出;
若所述语音控制命令用于控制所述照明单元,则所述照明单元响应于所述语音控制指令实现照明的开启和断开。
本发明的智能语音文字识别放大镜及其识别放大方法,放大镜由与中央处理单元连接的OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均构成,通过成像模块获取待处理的图像并对图像做预处理操作;OCR模块识别成像模块处理后的图像中文字,并将文字输出为文本格式;TTS及语音识别模块控制放大镜,并实现用户与放大镜的交互,并将OCR模块输出的文本格式转换成语音格式;由显示单元显示放大镜的放大成像;照明单元,用于为放大镜提供充足放大光源,且照明单元由TTS及语音识别模块控制;中央处理单元,作为放大镜的控制和交互中心,实现放大镜各组成部分的协调合作;与现有技术相比,本发明实现了放大镜与用户之间的智能交互,放大镜的缩放更加简单快捷,同时由电子显示代替传统的凸透镜成像,拓展了放大镜的适用范围;且整个放大镜整体结构简单,操作方便灵活。
附图说明
图1为本发明实施例中所述智能语音文字识别放大镜的组成结构框图示意;
图2为本发明实施例中所述智能语音文字识别放大镜的识别放大方法流程图示意;
图3为本发明实施例中所述智能语音文字识别放大镜的机械结构组成图。
标识说明:1-中央处理器、2-OCR模块、3-成像模块、4-TTS及语音识别模块、5-显示单元、6-照明单元;100-显示屏、200-摄像头、300-麦克风、400-LED灯、500-手持杆、600-开关、700-芯片、800-电池、900-连接口。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
结合图1~图3,对本发明的一种智能语音文字识别放大镜及其识别放大方法进行具体说明,其中,智能语音文字识别放大镜包括中央处理单元1、OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6,OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6均连接中央处理单元1,且均与中央处理单元1进行数据交互,其中,成像模块3用于获取待处理的图像并对图像做预处理操作;OCR模块2用于识别成像模块3处理后的图像中文字,并将文字输出为文本格式;TTS及语音识别模块4用于用户控制放大镜,并实现用户与放大镜的交互,并将OCR模块2输出的文本格式转换成语音格式;显示单元5用于显示放大镜的放大成像;照明单元6用于为放大镜提供充足放大光源,且照明单元6可通过TTS及语音识别模块4控制;中央处理单元1作为放大镜的控制和交互中心,实现OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6两两之间的协调合作。
在具体实施例中,成像模块3包括采集单元、预处理单元和处理单元,采集单元用于图像采集,并将采集得到的图像传输至预处理单元,由预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理;处理单元用于对图像做清晰化处理;OCR模块2包括轮廓检测单元和OCR单字识别单元,轮廓检测单元用于检测图形中文字和背景的边界,并找出图像中文字所在位置,并截取文字所在位置构成对应图片;随后通过OCR单字识别单元用于将上述截取的图片内容识别为汉字并进行排序以形成文本;进一步的,OCR模块2还可包括一图片切割单元,图片切割单元用于按行切割图像中的文字形成单字;在实际运用中,OCR模块2内可设置有轮廓检测单元和图片切割单元中的一种或两种,具体可根据实际情况进行设定,本发明对此并不进行限制和固定。
本发明的具体实施例中,TTS及语音识别模块4包括TTS和语音识别模块,且TTS和语音识别模块集成与同一芯片上;TTS用于将OCR模块2输出的文本格式转换成语音,语音识别模块用于接收用户的语音控制指令,实现放大镜与用户之间的交互和控制。
基于上述的智能语音文字识别放大镜,本发明提供了一种智能语音文字识别放大镜的识别放大方法,其识别放大方法具体过程为,首先,由成像模块3获取待处理的图像,并对获取的待处理图像做预处理和清晰化处理;然后,通过语音识别模块输入语音控制指令;随后,判断语音控制指令的类型,控制所述OCR模块2,或控制所述成像模块,或控制所述照明单元;其中,若语音控制指令用于控制OCR模块2,则所述OCR模块2响应于语音控制指令并输出文本格式,并由TTS将文本格式转换成语音输出;若语音控制命令用于控制成像模块3,则成像模块3响应于语音控制指令处理图像并输出;若语音控制命令用于控制照明单元6,则照明单元6响应于语音控制指令实现照明的开启和断开;最后,由显示单元显示放大镜的放大效果,即最后的放大识别效果。
本发明的智能语音文字识别放大镜及其识别放大方法,放大镜由与中央处理单元连接的OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均构成,通过成像模块获取待处理的图像并对图像做预处理操作;OCR模块识别成像模块处理后的图像中文字,并将文字输出为文本格式;TTS及语音识别模块控制放大镜,并实现用户与放大镜的交互,并将OCR模块输出的文本格式转换成语音格式;由显示单元显示放大镜的放大成像;照明单元,用于为放大镜提供充足放大光源,且照明单元由TTS及语音识别模块控制;中央处理单元,作为放大镜的控制和交互中心,实现放大镜各组成部分的协调合作;与现有技术相比,本发明实现了放大镜与用户之间的智能交互,放大镜的缩放更加简单快捷,同时由电子显示代替传统的凸透镜成像,拓展了放大镜的适用范围;且整个放大镜整体结构简单,操作方便灵活。
以上仅为本发明的较佳实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (8)

1.一种智能语音文字识别放大镜,其特征在于,所述放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元,所述OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元,且均与所述中央处理单元进行数据交互,其中:
成像模块,用于获取待处理的图像并对图像做预处理操作;
OCR模块,用于识别所述成像模块处理后的图像中文字,并将所述文字输出为文本格式;
TTS及语音识别模块,用于用户控制放大镜,并实现用户与放大镜的交互,并将所述OCR模块输出的文本格式转换成语音格式;
显示单元,用于显示所述放大镜的放大成像;
照明单元,用于为放大镜提供充足放大光源,且所述照明单元可通过所述TTS及语音识别模块控制;
中央处理单元,作为放大镜的控制和交互中心,实现OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元两两之间的协调合作。
2.根据权利要求1所述的一种智能语音文字识别放大镜,其特征在于,所述成像模块包括采集单元、预处理单元和处理单元,所述采集单元用于图像采集,并将采集得到的图像传输至所述预处理单元,由所述预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理;所述处理单元用于对图像做清晰化处理。
3.根据权利要求1所述的一种智能语音文字识别放大镜,其特征在于,所述OCR模块包括轮廓检测单元和OCR单字识别单元,所述轮廓检测单元用于检测图形中文字和背景的边界,找出图像中文字所在位置并截取形成图片;所述OCR单字识别单元用于将所述图片内容识别为汉字并进行排序以形成文本。
4.根据权利要求3所述的一种智能语音文字识别放大镜,其特征在于,所述OCR模块包括图片切割单元,所述图片切割单元用于按行切割图像中的文字形成单字。
5.根据权利要求4所述的一种智能语音文字识别放大镜,其特征在于,所述OCR模块内设置有所述轮廓检测单元和所述图片切割单元中的一种或两种。
6.根据权利要求1所述的一种智能语音文字识别放大镜,其特征在于,所述TTS及语音识别模块包括TTS和语音识别模块,且所述TTS和所述语音识别模块集成与同一芯片上;所述TTS用于将所述OCR模块输出的文本格式转换成语音,所述语音识别模块用于接收用户的语音控制指令,实现放大镜与用户之间的交互和控制。
7.一种智能语音文字识别放大镜的识别放大方法,应用于权利要求1~6任一项所述的智能语音文字识别放大镜,其特征在于,所述方法包括步骤:
S1、由所述成像模块获取待处理的图像,并对获取的待处理图像做预处理和清晰化处理;
S2、通过所述语音识别模块输入语音控制指令;
S3、判断所述语音控制指令的类型,控制所述OCR模块,或控制所述成像模块,或控制所述照明单元;
S4,由所述显示单元显示放大镜的放大效果。
8.根据权利要求7所述的一种智能语音文字识别放大镜的识别放大方法,其特征在于,在步骤S3中,若所述语音控制指令用于控制所述OCR模块,则所述OCR模块响应于所述语音控制指令并输出文本格式,并由所述TTS将所述文本格式转换成语音输出;
若所述语音控制命令用于控制所述成像模块,则所述成像模块响应于所述语音控制指令处理图像并输出;
若所述语音控制命令用于控制所述照明单元,则所述照明单元响应于所述语音控制指令实现照明的开启和断开。
CN201811071659.0A 2018-09-14 2018-09-14 一种智能语音文字识别放大镜及其识别放大方法 Pending CN109344817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811071659.0A CN109344817A (zh) 2018-09-14 2018-09-14 一种智能语音文字识别放大镜及其识别放大方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811071659.0A CN109344817A (zh) 2018-09-14 2018-09-14 一种智能语音文字识别放大镜及其识别放大方法

Publications (1)

Publication Number Publication Date
CN109344817A true CN109344817A (zh) 2019-02-15

Family

ID=65305543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811071659.0A Pending CN109344817A (zh) 2018-09-14 2018-09-14 一种智能语音文字识别放大镜及其识别放大方法

Country Status (1)

Country Link
CN (1) CN109344817A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493996A (zh) * 2009-01-15 2009-07-29 北方工业大学 一种智能阅读器及其实现方法
CN103885704A (zh) * 2012-12-21 2014-06-25 三星电子株式会社 文本放大显示方法
CN104813219A (zh) * 2012-11-19 2015-07-29 橙子牙科有限两合公司 具有显示系统的放大镜

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493996A (zh) * 2009-01-15 2009-07-29 北方工业大学 一种智能阅读器及其实现方法
CN104813219A (zh) * 2012-11-19 2015-07-29 橙子牙科有限两合公司 具有显示系统的放大镜
CN103885704A (zh) * 2012-12-21 2014-06-25 三星电子株式会社 文本放大显示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王泽军等: "《秘书工作实用全书》", 30 June 1996 *

Similar Documents

Publication Publication Date Title
CN106210520B (zh) 一种自动调焦电子目镜及系统
CN205720871U (zh) 一种智能抬头显示系统
CN104036270B (zh) 一种即时自动翻译装置及方法
CN107003823A (zh) 头戴式显示系统和头戴式显示装置
CN105677206A (zh) 一种基于视觉的抬头显示器控制系统及方法
Yuan et al. Large scale sign language interpretation
CN108830216A (zh) 一种视场可调的连续变焦目标识别系统及方法
CN107300762A (zh) 一种相衬显微成像装置及方法
CN103955051B (zh) 一种面向活体组织的实时自动对焦显微成像装置和方法
CN106249866B (zh) 视觉辅助眼镜及其图像识别方法
CN109344817A (zh) 一种智能语音文字识别放大镜及其识别放大方法
CN108508634A (zh) 一种智能语音眼镜及其智能识别方法
CN107620996A (zh) 一种智能吸油烟机及其使用方法
US4274092A (en) Display system for microscopic optical instruments
CN101499131A (zh) 影像校正装置及影像校正方法
TWM648987U (zh) 影像轉語音之視障輔助裝置
CN104777602A (zh) 一种用空心光纤锥光镊分类和收集大气pm2.5粒子的装置
CN110291441A (zh) 一种适用于扫描振镜像源的投影物镜及使用其的显示装置
Nafisi et al. Sperm identification using elliptic model and tail detection
CN111242062B (zh) 一种斑马鱼幼鱼表皮位置检测的图像处理方法及系统
CN203838404U (zh) 一种面向活体组织的实时自动对焦显微成像装置
CN106097243A (zh) 一种利用摄像头拍摄的3d地图快速成型方法
CN107290856A (zh) 一种基于眼部动作控制摄像的方法、系统和智能眼镜
CN206848286U (zh) 一种全自动荧光显微分析仪
KR20160004561A (ko) 수화 자동 인식 스마트 글라스 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215

RJ01 Rejection of invention patent application after publication