CN204537126U - 一种图像文本识别翻译眼镜 - Google Patents

一种图像文本识别翻译眼镜 Download PDF

Info

Publication number
CN204537126U
CN204537126U CN201520233870.3U CN201520233870U CN204537126U CN 204537126 U CN204537126 U CN 204537126U CN 201520233870 U CN201520233870 U CN 201520233870U CN 204537126 U CN204537126 U CN 204537126U
Authority
CN
China
Prior art keywords
text
image
text identification
character
glasses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201520233870.3U
Other languages
English (en)
Inventor
王学庆
乔晋兴
乔豪男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201520233870.3U priority Critical patent/CN204537126U/zh
Application granted granted Critical
Publication of CN204537126U publication Critical patent/CN204537126U/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本实用新型涉及图像文本识别翻译领域,尤其涉及一种图像文本识别翻译眼镜,包括:在图像文本识别翻译眼镜的框架上安装的ARM11处理器的硬件电路(T1);在图像文本识别翻译眼镜中安装的高精度微型摄像头(T2),高精度微型摄像头(T2)与硬件电路(T1)相连接;在图像文本识别翻译眼镜中安装的透明视像镜片(T3),在图像文本识别翻译眼镜中安装的语音输出耳机(T4和T5);带有高精度摄像头的智能手机。各自独立实现在现场实现可视翻译方法,把待识别有文本图像中的文本区域文本信息,输出到图像文本识别翻译眼镜视像镜片或带有高精度摄像头的智能手机屏幕并可以输出翻译语音信息。用户能够获取到对应的翻译文本知识信息和语音信息,而无需进一步通过手工的方式获得知识信息,显然更加方便省力。

Description

一种图像文本识别翻译眼镜
技术领域
    本实用新型涉及图像文本识别翻译领域,尤其涉及一种图像文本识别翻译眼镜。
背景技术
   目前,用户有很高的翻译请求,即使是学术非常高的医生、教授专家,在长时间不接触外文知识和年龄高的情况下,看一些外文资料和文献,或是观光于国内外景区和酒店等众多场合,都会遇到不认识的中文文本或外文文本资料信息及带有文本的图片信息,采用摄像头拍摄带有中文文本或外文文本的资料信息和带有文本图片图像信息,采集到有文本的资料和图片图像的应用越来越广泛,图像文本识别技术将图像中的文本进行识别,转换为文本,减轻了用户输入对应文本信息的负担,通过翻译处理,输出中文文本或外文文本的翻译结果,显示在屏幕上。
   最接近的图像文本识别翻译技术是借助谷歌眼镜,用语音输入待翻译的文本,由谷歌眼镜输出翻译文本于屏幕或文本语音输出信息;还有日本的NEC翻译眼镜和百度眼镜依靠后台的服务器系统,根据语音输入、摄像、定位、自学习输出最接近的文本语音信息。
     但是,在需要翻译的现场,上述两种翻译方法存在的问题是:(1)面对有文本的资料和文本的图片图像,若没有语音文本输入信息时,谷歌眼镜便无法输出翻译后的文本信息;(2)在不能连接到互联网和局域网环境下,日本的NEC翻译眼镜和百度眼镜便不能输出翻译后的文本信息;有文本的资料和带文本的图片图像资料,摄像头提取的文本信息图像,很难在现场看到翻译后的文本信息。
实用新型内容
     本实用新型旨在至少解决上述技术问题之一。
     为此,本实用新型的第一个目的在于提出一种图像文本识别翻译眼镜。包括:在图像文本识别翻译眼镜的框架上安装的ARM11处理器的硬件电路T1;在图像文本识别翻译眼镜中安装的高精度微型摄像头T2,高精度微型摄像头T2与硬件电路T1相连接;在图像文本识别翻译眼镜中安装的透明视像镜片T3,在图像文本识别翻译眼镜中安装的语音输出耳机T4和T5;带有高精度摄像头的智能手机。该眼镜在两个镜片中央安装了一个高精度微型摄像头,两个镜片是透明视像镜片,在眼镜框架上安装有ARM11处理器的硬件电路,高精度微型摄像头与硬件电路相连接,透明视像镜片与硬件电路相连接,硬件电路具有操作系统和大容量存储器,大容量存储器下载存储有本地知识库和在线网络知识库的译文数据库,通过高精度微型摄像头提取有文本的资料图片或带有文本的图像信息,经具有操作系统硬件电路的功能软件获取待识别图像中的文本区域、利用识别结果查询知识库获得识别结果对应的知识信息、在返回所述识别结果时,推送包含所述知识信息的知识拓展词包,知识拓展词包是英译汉、汉译英、多语言翻译、中文解释等词包,输出翻译结果文本信息到视像镜片,让用户从视像镜片中看到翻译结果的文本信息,还可以语音输出翻译信息。
本实用新型的第二个目的在于提出一种翻译方法。为了实现上述目的,本实用新型第一个目的实施的翻译方法,适合于带有高精度摄像头的智能手机,在现场实现可视翻译方法,具体实现是:高精度摄像头提取有文本的资料图片或带有文本的图像信息,智能手机屏幕看到翻译结果文本信息,智能手机具有大容量存储器下载存储有本地知识库和在线网络知识库的译文数据库,智能手机操作系统具有功能软件获取待识别图像中的文本区域、利用识别结果查询知识库获得识别结果对应的知识信息、在返回所述识别结果时,推送包含所述知识信息的知识拓展词包,知识拓展词包是英译汉、汉译英、多语言翻译、中文解释等词包,输出翻译结果文本信息到智能手机屏幕,让用户从智能手机屏幕中看到翻译结果的文本信息,还可以语音输出翻译信息。
     由以上技术方案可以看出,本实用新型利用文本识别的结果查询知识库获得识别结果对应的翻译文本知识信息,并包含在翻译文本知识拓展词包中连同识别结果一起返回给用户的图像文本识别翻译眼镜视像镜片上或从智能手机屏幕中看到翻译结果的文本信息,使得用户在现场获取图像中文本识别结果的同时,能够获取到对应的翻译文本知识信息和语音信息,而无需进一步通过手工的方式获得知识信息,显然更加方便和省力。
附图说明
图1为本实用新型实施例提供的图像文本识别翻译眼镜示意图。
 图2为本实用新型实施例提供的图像文本识别翻译的方法流程图。
具体实施方式
为了使本实用新型的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本实用新型进行详细描述。
如图1所示,本实用新型实施例提供的图像文本识别翻译眼镜示意图。包括:在图像文本识别翻译眼镜的框架上安装的ARM11处理器的硬件电路T1;在图像文本识别翻译眼镜中安装的高精度微型摄像头T2,高精度微型摄像头T2与硬件电路T1相连接;在图像文本识别翻译眼镜中安装的透明视像镜片T3,在图像文本识别翻译眼镜中安装的语音输出耳机T4和T5;带有高精度摄像头的智能手机。
为了顺利实现图1所示的图像文本识别翻译眼镜和使用带有高精度摄像头的智能手机实现现场可视翻译方法,采用了图2所示的图像文本识别翻译的方法流程图。
包括如下步骤:
步骤S1,翻译眼镜存储器下载存储有本地知识库和在线的网络知识库译文数据库,优选地,在本实用新型的一个实施例中,下载存储有本地知识数据库和在线的网络数据库可包括海量的生物、物理、化学、计算机、医疗、文史、经济、政治、新闻、综合等方面的英译汉、汉译英、多语言翻译、中文解释等词包信息数据库。
步骤S2,翻译眼镜摄像头根据人体视线获取待识别有文本图像中的文本区域获取文本图像。成熟的技术是获取待识别文本图像的灰度图,其中图像中用灰度表示的图像称作灰度图。
步骤S3,使用多种图像预处理方法来处理文本图像,以获得多组二值图像 ,包括:二值化计算纵横比,畸变校正,校正补偿 。
在一般的文本图像识别系统中,对图像仅进行一次二值化处理。即使该二值化处理中所使用的阈值对文本图像中的文本整体识别率是最优的,使用不同的图像预处理方法来处理文本图像,获得不同的两组或两组以上的二值图像,以保证待识别的文本图像中的每个字符都能有较佳的识别结果。
具体地,文本图像通过二值化处理将彩色图像转化为黑白图像。二值化包括两部分, A 、图形转为黑白, 一般通过使用一个判别函数, 接收一个色值,返回真/假的布尔结果. 分别表示黑(字符)和白(背景). 因为不同验证码这部分不同, 一般使用配置的方法. 常见的如以下几种中根据情况具体选一种: 1、直接取 黑色为黑, 非黑色(包括灰色)为白. (这种在部分图片中可能让字体变细并出现断掉的问题);2、直接取白色为白, 非白色(包括灰)为黑,(这种在一些情况下会让原本不相连的两个字符连在一起了);3、亮度超过某个临界值的颜色为白, 其他为黑(这种相当于上面两种的折中,关键在于这个临界值到底取多少,取决于具体验证码);4、前述第3种会产生的问题是如果背景和字符亮度一样就会失效(比如相同亮度的蓝色背景和红色字符). 所以不用亮度而是取一个色彩通道(比如红/绿/兰其中一个)的值,跟一个临界值比较.至于取哪个值只要按照图片的颜色来定一个区分度高的即可;5、混合使用亮度,灰度,色度等值, 通过加权运算后与临界值比较, 效果好,通用性高但运算量较大,以上1-4都不能实现时用这种方法。B 、去除噪点. 其实转黑白的过程已经有一定的去除噪点的作用(这就是为什么把转黑白放在第一步而去噪点放第二步)剩下的噪点可通过对每个黑点判断周围8个位置(上,下,左,右,左上,右上,左下,右下)的黑点数,如果小于某个值(比如3, (1-7)这个数越小,去除的点越少, 越大则被去除的点越多, 需要根据具体噪点情况设置, 一般为2-4合适)则这个点为噪点。C、 例外情况,有些情况下噪点会造成步骤A无法进行或者难度变大,(比如噪点颜色和字符,背景都不同,并且干扰了A使用的函数的返回值) 这个时候可以先进行B再进行A。
对二值化处理过的图片畸变校正和校正补偿方法,对二值化处理过的图片验证垂直的方向做垂直投影,并计算垂直投影的每个像素宽度上的黑点。计算黑点数,最简单的办法是直接按列遍历累加, 把加法结果作为黑点数. 这种是最简单的,但是有些情况下这种办法不能奏效(比如两个字符离得很近, 并且向相同方向倾斜, 两个字符虽然不相连但是垂直方向重合不少)这个时候直接做加法会导致算出来的数偏大,有时候会影响结果. 所以可以引入一个判别函数,接收一个点的坐标和颜色(因为已经二值化了,所以只有黑或白),返回一个真/假布尔值, 表示这个点 该不该在这个步骤被算为黑点. 然后通过具体配置这个判别函数来解决。
步骤S4,采用单个识别核心来识别多组二值图像,得到多组文本识别结果。采用同一个识别核心来识别所述多组二值图像,得到多组文本识别结果。在本实用新型的一个实施例中,使用同一个光学字符识别(OCR)核心来进行识别,得到多组文本识别结果。
文本识别结果包括对文本图像中的各个字符的识别结果和与各个字符相对应的识别距离。识别距离指的是系统对输入的字符图像所提取的属性参数与识别字符模板中的与该字符相对应的属性参数之间的差距。识别字符模板是系统中预设的字符模板,其中记录了各种字符的相关属性参数,字符的字形、字符的字体、字符的结构等信息。字符图像“X”被输入到识别系统中,系统提取字符图像“X”的属性参数,将提取的属性参数与预设的字符模板中的字符“X”的属性参数进行比较,得出它们之间的差距,然后系统输出比较结果,即与字符图像“X”相对应的识别距离。因此,识别距离可以反映识别出的字符与原本输入的字符图像之间的差距,识别距离是表征识别可信度的参量,它的值越小,相应字符图像的识别结果就越可信。该识别距离可以在识别核心中计算得出。
步骤S5,多组文本识别结果进行融合,获得文本图像的最终文本识别结果。
根据文本识别结果中各个字符的字符特征和识别距离,来对文本识别结果进行融合,获得最终识别结果。具体而言,在所述多组文本识别结果中逐个字符块地比较识别得到的内容,保留内容相同的第一字符块对应的识别结果作为所述第一字符块对应的最终识别结果;如果所述多组文本识别结果中存在多种内容的第二字符块,则根据所述第二字符块中各个字符的字符特征和识别距离,将所述多种内容的第二字符块对应的识别结果进行融合,获得所述第二字符块的最终识别结果。如此,获得文本图像的最终识别结果。在此需要说明的是,上述字符块指的是字符图像切分之后用来识别的最小单元,其有可能是单独完整的一个字符,有可能是被切碎的一个字符的一部分,也有可能是没被切开的多个字符。一个字符块在某种识别结果中可能被识别为多个字符,而在另一种识别结果中可能被识别为一个字符。
提及的字符特征是指字符的外形特征。这里,每个字符都有两个相对应的字符特征,一个是系统从文本识别结果中提取字符的特征或计算字符的特征而得到的;而另一个是系统中所预设的预定特征。后面将具体描述基于所述字符特征可以判断识别结果的合理性。  对于英文字符而言,其字符特征可以是任何可用的特征,然而优选的是使用字符基线属性,字符基线属性指的是字符与基线的位置关系。根据英文字符的书写,英文文本行可以分为上区域、中区域、下区域三个区域,它们分别由顶基线、上基线、下基线、底基线所限定。根据英文字符的上下边界位于哪两条基线来对字符的基线属性进行分类。
系统中预设的所有英文字符的基线属性表,它记录了各种英文字符的基线属性分类。
类似地 ,针对其他类型的字符,同样可以采用相同的方法来对其特征进行分类,并在系统中具有相应的预设的特征属性表。另外,对于同样的字符而言,可能具有不同的字体,对具有相同字体的各个字符,同样可以采用本实用新型相同的方法来对其特征进行分类并具有相应的预设的属性表。
对于中文字符而言,同样可以使用任何合适的特征作为字符特征,然而优选的是使用字符的宽高比,即字符的宽度与高度的比值。同样地,每个中文字符都有两个相对应的字符特征,一个是系统从文本识别结果中提取字符的特征或计算字符的特征而得到的;而另一个是系统中所预设的预定特征。中文近似为方块字,字符宽与字符高的比值应该接近于1,考虑到图像处理中噪声的影响,在本实用新型的一个实施例中,系统中所预设的预定特征可以是中文字符的预定宽高比为2/3。当然,可以理解的是,当中文字符字体不同时,针对不同的字体系统可以有不同的预定特征,即不同的预定宽高比。获得文本图像的最终文本识别结果。
步骤S6,利用文本识别结果查询文本知识库获得识别结果对应的文本知识信息。文本特征和预设传统特征模型获取待文本识别的文本正文。
步骤S7,在返回所述识别结果时,推送包含所述文本信息的知识拓展词包。
步骤S8,从识别文本信息的知识拓展词包获取待翻译词汇,并根据翻译模型对待翻译词汇进行翻译生成多个译文。翻译词汇是本地知识数据库和在线的网络数据库的翻译词汇。
步骤S9,根据用户模型对多个译文进行筛选以生成对应的译文及译文语音信息。用户根据预先设置,从识别文本信息的知识拓展词包翻译词汇数据库中,筛选最优翻译结果输出对应的译文及译文语音信息。
步骤S10,把译文输出到图像文本识别翻译眼镜视像镜片或带有高精度摄像头的智能手机屏幕并可以输出翻译语音信息。图像文本识别翻译眼镜的T4和T5耳机输出翻译语音信息,带有高精度摄像头的智能手机喇叭也可以输出翻译语音信息。

Claims (1)

1.一种图像文本识别翻译眼镜,其特征在于,包括:在图像文本识别翻译眼镜的框架上安装的ARM11处理器的硬件电路(T1);在图像文本识别翻译眼镜中安装的高精度微型摄像头(T2),高精度微型摄像头(T2)与硬件电路(T1)相连接;在图像文本识别翻译眼镜中安装的透明视像镜片(T3),在图像文本识别翻译眼镜中安装的语音输出耳机(T4和T5);带有高精度摄像头的智能手机。
CN201520233870.3U 2015-04-18 2015-04-18 一种图像文本识别翻译眼镜 Expired - Fee Related CN204537126U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201520233870.3U CN204537126U (zh) 2015-04-18 2015-04-18 一种图像文本识别翻译眼镜

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201520233870.3U CN204537126U (zh) 2015-04-18 2015-04-18 一种图像文本识别翻译眼镜

Publications (1)

Publication Number Publication Date
CN204537126U true CN204537126U (zh) 2015-08-05

Family

ID=53751099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201520233870.3U Expired - Fee Related CN204537126U (zh) 2015-04-18 2015-04-18 一种图像文本识别翻译眼镜

Country Status (1)

Country Link
CN (1) CN204537126U (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750678A (zh) * 2015-04-19 2015-07-01 王学庆 一种图像文本识别翻译眼镜及方法
CN107273895A (zh) * 2017-06-15 2017-10-20 幻视互动(北京)科技有限公司 用于头戴式智能设备的视频流实时文本识别及翻译的方法
WO2018133717A1 (zh) * 2017-01-17 2018-07-26 腾讯科技(深圳)有限公司 图片的二值化方法、装置及终端
CN108415905A (zh) * 2018-03-06 2018-08-17 喻海联 实时翻译方法、智能眼镜及计算机可读存储介质
CN110133872A (zh) * 2019-05-24 2019-08-16 中国人民解放军东部战区总医院 一种能够实现多语言互译的智能眼镜

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750678A (zh) * 2015-04-19 2015-07-01 王学庆 一种图像文本识别翻译眼镜及方法
WO2018133717A1 (zh) * 2017-01-17 2018-07-26 腾讯科技(深圳)有限公司 图片的二值化方法、装置及终端
CN107273895A (zh) * 2017-06-15 2017-10-20 幻视互动(北京)科技有限公司 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN107273895B (zh) * 2017-06-15 2020-07-14 幻视互动(北京)科技有限公司 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN108415905A (zh) * 2018-03-06 2018-08-17 喻海联 实时翻译方法、智能眼镜及计算机可读存储介质
CN110133872A (zh) * 2019-05-24 2019-08-16 中国人民解放军东部战区总医院 一种能够实现多语言互译的智能眼镜

Similar Documents

Publication Publication Date Title
CN104750678A (zh) 一种图像文本识别翻译眼镜及方法
US10699111B2 (en) Page segmentation of vector graphics documents
CN204537126U (zh) 一种图像文本识别翻译眼镜
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN110705583A (zh) 细胞检测模型训练方法、装置、计算机设备及存储介质
CN108830780A (zh) 图像处理方法及装置、电子设备、存储介质
CN103093228A (zh) 一种在自然场景图像中基于连通域的中文检测方法
CN104182750A (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN112749696B (zh) 一种文本检测方法及装置
KR20210125955A (ko) 정보 처리 방법, 정보 처리 장치, 전자 기기 및 저장 매체
US9658991B2 (en) Reordering text from unstructured sources to intended reading flow
KR20200059993A (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
CN112395834B (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN115393872B (zh) 一种训练文本分类模型的方法、装置、设备及存储介质
EP2959429A1 (en) Parsing and rendering structured images
CN110019749B (zh) 生成vqa训练数据的方法、装置、设备和计算机可读介质
CN114972847A (zh) 图像处理方法及装置
CN110737687A (zh) 数据查询方法、装置、设备及存储介质
Xu et al. License plate recognition system based on deep learning
CN118097688A (zh) 一种基于大语言模型的通用证件识别方法
CN113822521A (zh) 题库题目的质量检测方法、装置及存储介质
CN108877030A (zh) 图像处理方法、装置、终端和计算机可读存储介质
US20230377225A1 (en) Method and apparatus for editing an image and method and apparatus for training an image editing model, device and medium
CN109800758A (zh) 一种极大值区域检测的自然场景文字检测方法
CN113221649B (zh) 一种解决有线表格识别与解析的方法

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150805

Termination date: 20160418

CF01 Termination of patent right due to non-payment of annual fee