CN109344817A - 一种智能语音文字识别放大镜及其识别放大方法 - Google Patents
一种智能语音文字识别放大镜及其识别放大方法 Download PDFInfo
- Publication number
- CN109344817A CN109344817A CN201811071659.0A CN201811071659A CN109344817A CN 109344817 A CN109344817 A CN 109344817A CN 201811071659 A CN201811071659 A CN 201811071659A CN 109344817 A CN109344817 A CN 109344817A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- magnifying glass
- unit
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011521 glass Substances 0.000 title claims abstract description 80
- 230000003321 amplification Effects 0.000 title claims abstract description 34
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 5
- 230000004044 response Effects 0.000 claims description 9
- 238000005286 illumination Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000003628 erosive effect Effects 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 201000009487 Amblyopia Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/141—Control of illumination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种智能语音文字识别放大镜及其识别放大方法,其中,放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元,OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元,且均与中央处理单元进行数据交互;识别放大的具体步骤为:S1、由所述成像模块获取待处理的图像,并对获取的待处理图像做预处理和清晰化处理;S2、通过所述语音识别模块输入语音控制指令;S3、判断所述语音控制指令的类型,控制所述OCR模块,或控制所述成像模块,或控制所述照明单元;S4,由所述显示单元显示放大镜的放大效果;本发明实现了放大镜与用户之间的智能交互,且运用电子显示代替了传统的凸透镜成像。
Description
技术领域
本发明属于图像识别处理技术领域,尤其涉及一种智能语音文字识别放大镜及其识别放大方法。
背景技术
放大镜是指用来观察物体微小细节的简单目视光学器件,是焦距比眼的明视距离小得多的会聚透镜;放大镜的用途很广,如观察辨认细小物体、工件、细小文字和图形的行业作专门使用,还可以提供给老年视力人士、弱视人士作阅读等使用;虽然放大镜的应用比较广泛,但是还是仅限于对图片或者文字的放大,且放大的过程仅能实现光学倍数的放大;同时,在放大镜的操作使用过程中,还是主要通过人工手动实现操作,导致放大镜的功能比较单一,很多时候都无法满足人们的使用需求。
发明内容
本发明的主要目的在于提供了一种智能语音文字识别放大镜及其识别放大方法,该放大镜具有丰富的功能,实现了放大镜的智能化和机械化,操作方便而简单;解决了现有技术中放大镜功能单一、放大倍数仅限于光学放大的问题,具体技术方案如下:
一方面,提供一种智能语音文字识别放大镜,所述放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元,所述OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元,且均与所述中央处理单元进行数据交互,其中:
成像模块,用于获取待处理的图像并对图像做预处理操作;
OCR模块,用于识别所述成像模块处理后的图像中文字,并将所述文字输出为文本格式;
TTS及语音识别模块,用于用户控制放大镜,并实现用户与放大镜的交互,并将所述OCR模块输出的文本格式转换成语音格式;
显示单元,用于显示所述放大镜的放大成像;
照明单元,用于为放大镜提供充足放大光源,且所述照明单元可通过所述TTS及语音识别模块控制;
中央处理单元,作为放大镜的控制和交互中心,实现OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元两两之间的协调合作。
进一步的,所述成像模块包括采集单元、预处理单元和处理单元,所述采集单元用于图像采集,并将采集得到的图像传输至所述预处理单元,由所述预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理;所述处理单元用于对图像做清晰化处理。
进一步的,所述OCR模块包括轮廓检测单元和OCR单字识别单元,所述轮廓检测单元用于检测图形中文字和背景的边界,并找出图像中文字所在位置并截取形成图片;所述OCR单字识别单元用于将所述图片内容识别为汉字并进行排序以形成文本。
进一步的,所述OCR模块包括图片切割单元,所述图片切割单元用于按行切割图像中的文字形成单字。
进一步的,所述OCR模块内设置有所述轮廓检测单元和所述图片切割单元中的一种或两种。
进一步的,所述TTS及语音识别模块包括TTS和语音识别模块,且所述TTS和所述语音识别模块集成与同一芯片上;所述TTS用于将所述OCR模块输出的文本格式转换成语音,所述语音识别模块用于接收用户的语音控制指令,实现放大镜与用户之间的交互和控制。
另一方面,提供一种智能语音文字识别放大镜的识别放大方法,应用于上述的智能语音文字识别放大镜,所述方法包括步骤:
S1、由所述成像模块获取待处理的图像,并对获取的待处理图像做预处理和清晰化处理;
S2、通过所述语音识别模块输入语音控制指令;
S3、判断所述语音控制指令的类型,控制所述OCR模块,或控制所述成像模块,或控制所述照明单元;
S4,由所述显示单元显示放大镜的放大效果。
进一步的,在步骤S3中,若所述语音控制指令用于控制所述OCR模块,则所述OCR模块响应于所述语音控制指令并输出文本格式,并由所述TTS将所述文本格式转换成语音输出;
若所述语音控制命令用于控制所述成像模块,则所述成像模块响应于所述语音控制指令处理图像并输出;
若所述语音控制命令用于控制所述照明单元,则所述照明单元响应于所述语音控制指令实现照明的开启和断开。
本发明的智能语音文字识别放大镜及其识别放大方法,放大镜由与中央处理单元连接的OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均构成,通过成像模块获取待处理的图像并对图像做预处理操作;OCR模块识别成像模块处理后的图像中文字,并将文字输出为文本格式;TTS及语音识别模块控制放大镜,并实现用户与放大镜的交互,并将OCR模块输出的文本格式转换成语音格式;由显示单元显示放大镜的放大成像;照明单元,用于为放大镜提供充足放大光源,且照明单元由TTS及语音识别模块控制;中央处理单元,作为放大镜的控制和交互中心,实现放大镜各组成部分的协调合作;与现有技术相比,本发明实现了放大镜与用户之间的智能交互,放大镜的缩放更加简单快捷,同时由电子显示代替传统的凸透镜成像,拓展了放大镜的适用范围;且整个放大镜整体结构简单,操作方便灵活。
附图说明
图1为本发明实施例中所述智能语音文字识别放大镜的组成结构框图示意;
图2为本发明实施例中所述智能语音文字识别放大镜的识别放大方法流程图示意;
图3为本发明实施例中所述智能语音文字识别放大镜的机械结构组成图。
标识说明:1-中央处理器、2-OCR模块、3-成像模块、4-TTS及语音识别模块、5-显示单元、6-照明单元;100-显示屏、200-摄像头、300-麦克风、400-LED灯、500-手持杆、600-开关、700-芯片、800-电池、900-连接口。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
结合图1~图3,对本发明的一种智能语音文字识别放大镜及其识别放大方法进行具体说明,其中,智能语音文字识别放大镜包括中央处理单元1、OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6,OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6均连接中央处理单元1,且均与中央处理单元1进行数据交互,其中,成像模块3用于获取待处理的图像并对图像做预处理操作;OCR模块2用于识别成像模块3处理后的图像中文字,并将文字输出为文本格式;TTS及语音识别模块4用于用户控制放大镜,并实现用户与放大镜的交互,并将OCR模块2输出的文本格式转换成语音格式;显示单元5用于显示放大镜的放大成像;照明单元6用于为放大镜提供充足放大光源,且照明单元6可通过TTS及语音识别模块4控制;中央处理单元1作为放大镜的控制和交互中心,实现OCR模块2、成像模块3、TTS及语音识别模块4、显示单元5和照明单元6两两之间的协调合作。
在具体实施例中,成像模块3包括采集单元、预处理单元和处理单元,采集单元用于图像采集,并将采集得到的图像传输至预处理单元,由预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理;处理单元用于对图像做清晰化处理;OCR模块2包括轮廓检测单元和OCR单字识别单元,轮廓检测单元用于检测图形中文字和背景的边界,并找出图像中文字所在位置,并截取文字所在位置构成对应图片;随后通过OCR单字识别单元用于将上述截取的图片内容识别为汉字并进行排序以形成文本;进一步的,OCR模块2还可包括一图片切割单元,图片切割单元用于按行切割图像中的文字形成单字;在实际运用中,OCR模块2内可设置有轮廓检测单元和图片切割单元中的一种或两种,具体可根据实际情况进行设定,本发明对此并不进行限制和固定。
本发明的具体实施例中,TTS及语音识别模块4包括TTS和语音识别模块,且TTS和语音识别模块集成与同一芯片上;TTS用于将OCR模块2输出的文本格式转换成语音,语音识别模块用于接收用户的语音控制指令,实现放大镜与用户之间的交互和控制。
基于上述的智能语音文字识别放大镜,本发明提供了一种智能语音文字识别放大镜的识别放大方法,其识别放大方法具体过程为,首先,由成像模块3获取待处理的图像,并对获取的待处理图像做预处理和清晰化处理;然后,通过语音识别模块输入语音控制指令;随后,判断语音控制指令的类型,控制所述OCR模块2,或控制所述成像模块,或控制所述照明单元;其中,若语音控制指令用于控制OCR模块2,则所述OCR模块2响应于语音控制指令并输出文本格式,并由TTS将文本格式转换成语音输出;若语音控制命令用于控制成像模块3,则成像模块3响应于语音控制指令处理图像并输出;若语音控制命令用于控制照明单元6,则照明单元6响应于语音控制指令实现照明的开启和断开;最后,由显示单元显示放大镜的放大效果,即最后的放大识别效果。
本发明的智能语音文字识别放大镜及其识别放大方法,放大镜由与中央处理单元连接的OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均构成,通过成像模块获取待处理的图像并对图像做预处理操作;OCR模块识别成像模块处理后的图像中文字,并将文字输出为文本格式;TTS及语音识别模块控制放大镜,并实现用户与放大镜的交互,并将OCR模块输出的文本格式转换成语音格式;由显示单元显示放大镜的放大成像;照明单元,用于为放大镜提供充足放大光源,且照明单元由TTS及语音识别模块控制;中央处理单元,作为放大镜的控制和交互中心,实现放大镜各组成部分的协调合作;与现有技术相比,本发明实现了放大镜与用户之间的智能交互,放大镜的缩放更加简单快捷,同时由电子显示代替传统的凸透镜成像,拓展了放大镜的适用范围;且整个放大镜整体结构简单,操作方便灵活。
以上仅为本发明的较佳实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。
Claims (8)
1.一种智能语音文字识别放大镜,其特征在于,所述放大镜包括中央处理单元、OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元,所述OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元均连接所述中央处理单元,且均与所述中央处理单元进行数据交互,其中:
成像模块,用于获取待处理的图像并对图像做预处理操作;
OCR模块,用于识别所述成像模块处理后的图像中文字,并将所述文字输出为文本格式;
TTS及语音识别模块,用于用户控制放大镜,并实现用户与放大镜的交互,并将所述OCR模块输出的文本格式转换成语音格式;
显示单元,用于显示所述放大镜的放大成像;
照明单元,用于为放大镜提供充足放大光源,且所述照明单元可通过所述TTS及语音识别模块控制;
中央处理单元,作为放大镜的控制和交互中心,实现OCR模块、成像模块、TTS及语音识别模块、显示单元和照明单元两两之间的协调合作。
2.根据权利要求1所述的一种智能语音文字识别放大镜,其特征在于,所述成像模块包括采集单元、预处理单元和处理单元,所述采集单元用于图像采集,并将采集得到的图像传输至所述预处理单元,由所述预处理单元对图像做灰度预处理、形态学腐蚀和膨胀预处理以及二值化处理;所述处理单元用于对图像做清晰化处理。
3.根据权利要求1所述的一种智能语音文字识别放大镜,其特征在于,所述OCR模块包括轮廓检测单元和OCR单字识别单元,所述轮廓检测单元用于检测图形中文字和背景的边界,找出图像中文字所在位置并截取形成图片;所述OCR单字识别单元用于将所述图片内容识别为汉字并进行排序以形成文本。
4.根据权利要求3所述的一种智能语音文字识别放大镜,其特征在于,所述OCR模块包括图片切割单元,所述图片切割单元用于按行切割图像中的文字形成单字。
5.根据权利要求4所述的一种智能语音文字识别放大镜,其特征在于,所述OCR模块内设置有所述轮廓检测单元和所述图片切割单元中的一种或两种。
6.根据权利要求1所述的一种智能语音文字识别放大镜,其特征在于,所述TTS及语音识别模块包括TTS和语音识别模块,且所述TTS和所述语音识别模块集成与同一芯片上;所述TTS用于将所述OCR模块输出的文本格式转换成语音,所述语音识别模块用于接收用户的语音控制指令,实现放大镜与用户之间的交互和控制。
7.一种智能语音文字识别放大镜的识别放大方法,应用于权利要求1~6任一项所述的智能语音文字识别放大镜,其特征在于,所述方法包括步骤:
S1、由所述成像模块获取待处理的图像,并对获取的待处理图像做预处理和清晰化处理;
S2、通过所述语音识别模块输入语音控制指令;
S3、判断所述语音控制指令的类型,控制所述OCR模块,或控制所述成像模块,或控制所述照明单元;
S4,由所述显示单元显示放大镜的放大效果。
8.根据权利要求7所述的一种智能语音文字识别放大镜的识别放大方法,其特征在于,在步骤S3中,若所述语音控制指令用于控制所述OCR模块,则所述OCR模块响应于所述语音控制指令并输出文本格式,并由所述TTS将所述文本格式转换成语音输出;
若所述语音控制命令用于控制所述成像模块,则所述成像模块响应于所述语音控制指令处理图像并输出;
若所述语音控制命令用于控制所述照明单元,则所述照明单元响应于所述语音控制指令实现照明的开启和断开。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811071659.0A CN109344817A (zh) | 2018-09-14 | 2018-09-14 | 一种智能语音文字识别放大镜及其识别放大方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811071659.0A CN109344817A (zh) | 2018-09-14 | 2018-09-14 | 一种智能语音文字识别放大镜及其识别放大方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109344817A true CN109344817A (zh) | 2019-02-15 |
Family
ID=65305543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811071659.0A Pending CN109344817A (zh) | 2018-09-14 | 2018-09-14 | 一种智能语音文字识别放大镜及其识别放大方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344817A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493996A (zh) * | 2009-01-15 | 2009-07-29 | 北方工业大学 | 一种智能阅读器及其实现方法 |
CN103885704A (zh) * | 2012-12-21 | 2014-06-25 | 三星电子株式会社 | 文本放大显示方法 |
CN104813219A (zh) * | 2012-11-19 | 2015-07-29 | 橙子牙科有限两合公司 | 具有显示系统的放大镜 |
-
2018
- 2018-09-14 CN CN201811071659.0A patent/CN109344817A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101493996A (zh) * | 2009-01-15 | 2009-07-29 | 北方工业大学 | 一种智能阅读器及其实现方法 |
CN104813219A (zh) * | 2012-11-19 | 2015-07-29 | 橙子牙科有限两合公司 | 具有显示系统的放大镜 |
CN103885704A (zh) * | 2012-12-21 | 2014-06-25 | 三星电子株式会社 | 文本放大显示方法 |
Non-Patent Citations (1)
Title |
---|
王泽军等: "《秘书工作实用全书》", 30 June 1996 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106210520B (zh) | 一种自动调焦电子目镜及系统 | |
CN205720871U (zh) | 一种智能抬头显示系统 | |
CN104036270B (zh) | 一种即时自动翻译装置及方法 | |
CN107003823A (zh) | 头戴式显示系统和头戴式显示装置 | |
CN105677206A (zh) | 一种基于视觉的抬头显示器控制系统及方法 | |
Yuan et al. | Large scale sign language interpretation | |
CN108830216A (zh) | 一种视场可调的连续变焦目标识别系统及方法 | |
CN107300762A (zh) | 一种相衬显微成像装置及方法 | |
CN103955051B (zh) | 一种面向活体组织的实时自动对焦显微成像装置和方法 | |
CN106249866B (zh) | 视觉辅助眼镜及其图像识别方法 | |
CN109344817A (zh) | 一种智能语音文字识别放大镜及其识别放大方法 | |
CN108508634A (zh) | 一种智能语音眼镜及其智能识别方法 | |
CN107620996A (zh) | 一种智能吸油烟机及其使用方法 | |
US4274092A (en) | Display system for microscopic optical instruments | |
CN101499131A (zh) | 影像校正装置及影像校正方法 | |
TWM648987U (zh) | 影像轉語音之視障輔助裝置 | |
CN104777602A (zh) | 一种用空心光纤锥光镊分类和收集大气pm2.5粒子的装置 | |
CN110291441A (zh) | 一种适用于扫描振镜像源的投影物镜及使用其的显示装置 | |
Nafisi et al. | Sperm identification using elliptic model and tail detection | |
CN111242062B (zh) | 一种斑马鱼幼鱼表皮位置检测的图像处理方法及系统 | |
CN203838404U (zh) | 一种面向活体组织的实时自动对焦显微成像装置 | |
CN106097243A (zh) | 一种利用摄像头拍摄的3d地图快速成型方法 | |
CN107290856A (zh) | 一种基于眼部动作控制摄像的方法、系统和智能眼镜 | |
CN206848286U (zh) | 一种全自动荧光显微分析仪 | |
KR20160004561A (ko) | 수화 자동 인식 스마트 글라스 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |
|
RJ01 | Rejection of invention patent application after publication |