CN106570502A - 基于安卓平台图像文字识别及播放方法 - Google Patents

基于安卓平台图像文字识别及播放方法 Download PDF

Info

Publication number
CN106570502A
CN106570502A CN201610998659.XA CN201610998659A CN106570502A CN 106570502 A CN106570502 A CN 106570502A CN 201610998659 A CN201610998659 A CN 201610998659A CN 106570502 A CN106570502 A CN 106570502A
Authority
CN
China
Prior art keywords
image
word
identification
android platform
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610998659.XA
Other languages
English (en)
Inventor
洪涛龙
邱晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610998659.XA priority Critical patent/CN106570502A/zh
Publication of CN106570502A publication Critical patent/CN106570502A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于安卓平台图像文字识别及播放方法,包括以下步骤:对选取的图像进行预处理操作,其中包括根据文字的文本的特征进行剪切仅获取图像中包含文字的部分、图像的灰度化和二值化;对预处理后的图像进行图像转文字识别操作,得到只包含文字的文本信息;对文本信息进行文字转音频操作得到相应的音频信息,最终将音频信息播放。图像预处理操作包括如下步骤:图像剪切,根据图像中文字的特征和其他内容的特征不同,只保留文字部分的内容;使每个像素点只用一个字节来保存;二值化,将图像上的像素点灰度值设置为两种,使图像中的文字信息更加明显。本发明的可以能帮助患有眼疾的患者获取图像中的文字达到学习和生活的目的。

Description

基于安卓平台图像文字识别及播放方法
技术领域
本发明是应用在安卓系统上的一款应用,涉及到图像处理、识别技术及安卓应用开发技术,属于软件开发领域。
背景技术
据市场调查发现,现有的图像处理及图像文字识别技术较多出现在电脑应用软件中,而基于终端的图像处理和图像文字识别技术相对比较匮乏。如今,智能手机越来越普及,随之而来的大量手机APP应用层出不穷,迭代速度也较快。但调查发现,尽管如此,基于图像处理的相关软件和识别相关的软件还较少,无法满足用户想要通过手机端处理和识别图片的大量需求。所以开发基于终端的图像处理和图像识别的软件显得愈发迫切。“有需求,就有市场”。有资料显示,安卓市场份额占到70%以上,占总用户比例较大,所以,满足市场上占比较大的这部分用户的需求就显得更加重要,也就是开发基于安卓平台的图像处理和图像识别技术的软件为当下重中之重。
发明内容
针对现有技术中存在的上述问题,本发明提供一种基于安卓平台图像文字识别及播放方法。根据本发明提出的基于安卓平台图像文字识别及播放方法,可以在一定程度上帮助患有眼疾的患者获取图像中的文字达到学习和生活的目的。
为达到上述目的,本发明提供一种基于安卓平台图像文字识别及播放方法,包括以下步骤:对选取的图像进行预处理操作,其中包括根据文字的文本的特征进行剪切仅获取图像中包含文字的部分、图像的灰度化和二值化使图像变得简单,使文字信息更明显;对预处理后的图像进行图像转文字识别操作,得到包含文字的文本;以及对文本进行转音频操作得到相应的音频信息,最终将音频信息播放。
在本发明的基于安卓平台图像文字识别及播放方法中,所述图像预处理包括如下步骤:
(1)图像剪切:根据图像中文字的特征和其他内容的特征不同,只保留文字部分的内容
(2)灰度化:为了加快图像信息的处理速度,对图像进行灰度化处理,使得每个像素点只用一个字节来保存,相比24位真彩色图像大大节省空间,并且
(3)二值化:对图像进行二值化处理能够减少识别过程中的时间开销,即将图像上的像素点灰度值设置为两种:0或者255,这样可以是图像变得简单而且数据量较少,使图像中的文字信息更加明显。
在本发明的基于安卓平台图像文字识别及播放方法中,对所述图像信息进行图像转文字识别操作,包括如下步骤:
根据所述安卓平台中图像转文字识别库对预处理图像进行图像转文字识别操作。
在本发明的基于安卓平台图像文字识别及播放方法中,对所述文本信息进行文字转音频识别操作,包括如下步骤:
根据所述安卓平台中图像转文字识别库对预处理图像进行图像转文字识别操作。
本发明的有益效果如下:
本发明的可以在一定程度上帮助患有眼疾的患者获取图像中的文字达到学习和生活的目的。
附图说明
图1为基于安卓平台图像文字识别及播放方法的图像处理的流程图。
图2为本发明的方法所对应的系统的界面布局。
图3为本发明的方法的图像选取处理结果图。
图4为本发明的方法的图像预处理流程图。
图5为本发明的方法的图像预处理结果图。
图6为本发明的方法的文字识别处理结果图。
具体实施方式
下面结合附图对基于安卓平台图像文字识别及播放方法做进一步的详细说明:
如图1所述,基于安卓图像文字识别播放方法包括如下三个步骤:
1、对选取的图像进行预处理,使文字信息更明显,去除不需要的图像信息;
2、对预处理后的图像信息进行图像转文字识别操作,得到只包含文字的文本信息;
3、对只包含文字的文本信息进行文字转音频识别操作得到相应的音频信息,并将音频信息进行播放。
如图2所述,包含了基于安卓平台图像文字识别及播放方法的操作和功能
当用户点击“图像选取”按钮会弹出“相机”和“相册”,点击“相机”会调用安卓系统的“相机”应用,点击相册会调用安卓系统的“相册”应用选择待处理的图像设置到安卓视图(view)中如图3所述是从相册中选取的图片。
当用户点击“预处理”时,处理的流程如图4所述:首先会根据图像中文字部分的特征不同于其他的特征只保留文字部分的特征,出去其他无用的特征达到剪切的效果。其次会对剪切后的图像进行灰度处理和二值化处理使文字信息更明显,去除不需要的图像信息,处理结果如图5所述。
当用户点击“文字识别”时,对预处理的图像信息进行图像转文字识别操作:根据上传到安卓系统内的图像转文字识别库对预处理后的图像信息进行图像转文字操作。具体的,将预处理后的图像信息和系统内的图像转文字识别库进行比较,并转成由识别的文字组成相应的文本信息,将文本信息显示在安卓系统的视图中,处理结果如图6所述。
当用户点击“播放”时,对文本信息进行文字转音频识别操作:根据上传到安卓系统内的文字转音频识别库对文本信息进行文本转音频操作。具体的,将上一步得到的文本信息和系统内的文字转音频识别库进行比较,得到识别结果并将其播放出来。
综上所述,本发明提出一种基于安卓平台的图像文字识别及播放的方法,对图像识别和播放的方法包括如下步骤:对所选取的图像进行预处理,其中包括根据文字的特征截取图像中文字部分、图像的灰度化、二值化等来达到减少图像的信息同时又不影响后续的操作;对预处理后的图像进行图像转文字识别操作得到图像中的文字信息;对文字信息进行文字转换成音频识别操作得到相应的音频信息,并将音频播放。本发明可以在一定程度上帮助视力模糊、远视及老花眼患者学习和生活。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于安卓平台图像文字识别及播放方法,包括以下步骤:
步骤1:对选取的图像进行预处理操作,其中包括根据文字的文本的特征进行剪切仅获取图像中包含文字的部分、图像的灰度化和二值化使图像变得简单,使文字信息更明显;
步骤2:对预处理后的图像进行图像转文字识别操作,得到只包含文字的文本信息;
步骤3:对文本信息进行文字转音频操作得到相应的音频信息,最终将音频信息播放。
2.如权利要求1所述的基于安卓平台图像文字识别及播放方法,其特征在于,所述图像预处理操作包括如下步骤:
步骤1-1:图像剪切:根据图像中文字的特征和其他内容的特征不同,只保留文字部分的内容;
步骤1-2:灰度化:为了加快图像信息的处理速度,对图像进行灰度化处理,使得每个像素点只用一个字节来保存,相比24位真彩色图像大大节省空间,并且在后期也会提高图像处理的速度;
步骤1-3:二值化:对图像进行二值化处理,减少识别过程中的时间开销,即将图像上的像素点灰度值设置为两种:0或者255,使图像变得简单而且数据量较少,使图像中的文字信息更加明显。
3.如权利要求1所述的基于安卓平台图像文字识别及播放方法,其特征在于,步骤2中所述图像转文字识别操作,是根据所述安卓平台中图像转文字识别库对预处理图像进行图像转文字识别操作。
4.如权利要求1所述的基于安卓平台图像文字识别及播放方法,其特征在于,步骤3中所述对文本信息进行文字转音频操作,是根据所述安卓平台中图像转音频识别库对所述文本信息进行文字转音频识别操作。
CN201610998659.XA 2016-11-14 2016-11-14 基于安卓平台图像文字识别及播放方法 Pending CN106570502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610998659.XA CN106570502A (zh) 2016-11-14 2016-11-14 基于安卓平台图像文字识别及播放方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610998659.XA CN106570502A (zh) 2016-11-14 2016-11-14 基于安卓平台图像文字识别及播放方法

Publications (1)

Publication Number Publication Date
CN106570502A true CN106570502A (zh) 2017-04-19

Family

ID=58541908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610998659.XA Pending CN106570502A (zh) 2016-11-14 2016-11-14 基于安卓平台图像文字识别及播放方法

Country Status (1)

Country Link
CN (1) CN106570502A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120120444A1 (en) * 2010-11-12 2012-05-17 Sharp Kabushiki Kaisha Image processing apparatus, image reading apparatus, image forming apparatus, and image processing method
CN103365988A (zh) * 2013-07-05 2013-10-23 百度在线网络技术(北京)有限公司 对移动终端的图片文字朗读的方法、装置和移动终端
CN104239313A (zh) * 2013-06-09 2014-12-24 百度在线网络技术(北京)有限公司 基于移动终端的屏幕中显示文字的搜索方法与移动终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120120444A1 (en) * 2010-11-12 2012-05-17 Sharp Kabushiki Kaisha Image processing apparatus, image reading apparatus, image forming apparatus, and image processing method
CN104239313A (zh) * 2013-06-09 2014-12-24 百度在线网络技术(北京)有限公司 基于移动终端的屏幕中显示文字的搜索方法与移动终端
CN103365988A (zh) * 2013-07-05 2013-10-23 百度在线网络技术(北京)有限公司 对移动终端的图片文字朗读的方法、装置和移动终端

Similar Documents

Publication Publication Date Title
CN110781784A (zh) 基于双路注意力机制的人脸识别方法、装置及设备
JP6011938B2 (ja) センサベースのモバイル検索、関連方法及びシステム
JP5843207B2 (ja) 直観的コンピューティング方法及びシステム
US20150006148A1 (en) Automatically Creating Training Data For Language Identifiers
CN108874356A (zh) 语音播报方法、装置、移动终端和存储介质
CN107333071A (zh) 视频处理方法、装置、电子设备及存储介质
CN109992781B (zh) 文本特征的处理方法、装置和存储介质
CN107977928A (zh) 表情生成方法、装置、终端及存储介质
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN111428485A (zh) 司法文书段落分类方法、装置、计算机设备及存储介质
CN111753551A (zh) 基于词向量生成模型的信息生成方法和装置
CN112839223B (zh) 图像压缩方法、装置、存储介质及电子设备
US20240022532A1 (en) Multimodal named entity recognition
CN107578272A (zh) 一种为家庭成员画像的方法及装置
CN110096701A (zh) 消息转换处理方法、装置、存储介质及电子设备
CN114708443A (zh) 截图处理方法及装置、电子设备和计算机可读介质
CN110708423A (zh) 消息内容展示方法、装置及存储介质
CN111611505B (zh) 电子书中多媒体资源的访问方法、计算设备及存储介质
CN111444321A (zh) 问答方法、装置、电子设备和存储介质
CN113704508A (zh) 多媒体信息识别方法、装置、电子设备及存储介质
CN106570502A (zh) 基于安卓平台图像文字识别及播放方法
CN110347807B (zh) 问题信息处理方法及装置
CN111046223A (zh) 一种视觉障碍者语音辅助方法、终端、服务器及系统
CN113761281B (zh) 虚拟资源处理方法、装置、介质及电子设备
CN107844549A (zh) 信息保存方法、装置、计算机装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419