CN103365988A

CN103365988A - 对移动终端的图片文字朗读的方法、装置和移动终端

Info

Publication number: CN103365988A
Application number: CN2013102825305A
Authority: CN
Inventors: 秦银; 朱振宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-07-05
Filing date: 2013-07-05
Publication date: 2013-10-23

Abstract

本发明提出一种对移动终端的图片文字朗读的方法、对移动终端的图片文字朗读的装置及具有该对图片文字朗读的装置的移动终端，所述对移动终端的图片文字朗读的方法包括以下步骤：设置取图工具，其中，取图工具的窗口层级高于移动终端的应用程序的层级；当检测到用户的触发指令时，取图工具根据用户的手势截取屏幕上的图片信息；对图片信息进行图像转文字识别操作以得到多个文字；对多个文字进行文字转音频识别操作以得到相应的音频信息，并将音频信息进行播放。根据本发明的对移动终端的图片文字朗读的方法和装置，可以为移动终端的应用程序提供一种通用的朗读服务，更加方便，提升了用户体验。

Description

对移动终端的图片文字朗读的方法、装置和移动终端

技术领域

本发明涉及移动终端技术领域，特别涉及一种对移动终端的图片文字朗读的方法、图片文字朗读的装置，及一种具有该图片文字朗读的装置的移动终端。

背景技术

现有TTS（Text to Speech，文本转语音）技术只能将文本直接转化成语音。移动终端如果需要朗读功能，一般是由单个应用程序直接集成TTS模块，在获取程序自身的文本数据之后，TTS模块将其转化成语音朗读出来的。获取的文本数据往往是程序私有的数据，存在于移动终端的数据库或者磁盘上，而且各自编码方式不尽相同，对于其他应用或者系统是不可见的。例如手机浏览器或者一些新闻类的应用程序中的文字显示在屏幕上，其他的应用程序或者系统获取不到，此类文字是以图片的形式显示在屏幕上的。因此，移动终端的单个应用能够通过TTS（Text to Speech）技术，将其内部的文本数据转化为语音播放出来，但是，单纯地采用TTS技术无法在移动终端设备上为所有的应用程序提供朗读的服务，使用场景有限，且不能作为一种系统的通用朗读服务存在。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的一个目的在于提出一种对移动终端的图片文字朗读的方法，根据本发明提出的对移动终端的图片文字朗读的方法，可以为移动终端上的应用程序提供一种通用的朗读服务，更加方便。

本发明的另一个目的在于提出一种对移动终端的图片文字朗读的装置。

本发明的再一个目的在于提出一种移动终端，该装置包括上述对移动终端的图片文字朗读的装置。

为达到上述目的，本发明第一方面实施例提出一种对移动终端的图片文字朗读的方法，包括以下步骤：设置取图工具，其中，所述取图工具的窗口层级高于所述移动终端的应用程序的层级；当检测到用户的触发指令时，所述取图工具根据所述用户的手势截取屏幕上的图片信息；对所述图片信息进行图像转文字识别操作以得到多个文字；以及对所述多个文字进行文字转音频识别操作以得到相应的音频信息，并将所述音频信息进行播放。

根据本发明实施例的对移动终端的图片文字朗读的方法，通过将图片文字转成文字信息，进而将文字信息转成音频信息进行播放，可以为移动终端的应用程序提供一种通用的朗读服务，更加方便，提升了用户体验。

在本发明的一个实施例中，所述设置取图工具包括如下步骤：

开启一个后台服务，所述后台服务向窗口管理器申请窗口，并设置窗口层级高于所述移动终端的应用程序的层级，则所述窗口内设置视图以得到所述取词工具。

在本发明的一些实施例中，对所述图片信息进行图像转文字识别操作，包括如下步骤：

根据所述移动终端内的图像转文字识别库对所述图片信息进行图像转文字识别操作。

在本发明的另一个实施例中，对所述图片信息进行图像转文字识别操作，包括如下步骤：

将所述图片信息上传至图像转文字服务器，所述图像转文字服务器根据内部的图像转文字识别库所述图片信息进行图像转文字识别操作，并将识别结果发送至所述移动终端。

在本发明的一个实施例中，对所述多个文字进行文字转音频识别操作，包括以下步骤：

根据所述移动终端内的文字转音频识别库对所述多个文字进行图像转文字识别操作。

在本发明的一些实施例中，对所述多个文字进行文字转音频识别操作，包括以下步骤：

将所述多个文字上传至文字转音频服务器，所述文字转音频服务器根据内部的文字转音频识别库所述词组信息进行文字转音频识别操作，并将识别结果发送至所述移动终端。

为达到上述目的，本发明的第二方面实施例提出一种对移动终端的图片文字朗读的装置，包括：取图工具，当检测到用户的触发指令时，所述取图工具根据所述用户的手势截取屏幕上的图片信息，其中，所述取图工具的窗口层级高于所述移动终端的应用程序的层级；图像转文字模块，所述图像转文字模块用于对所述图片信息进行图像转文字识别操作以得到多个文字；文字转音频模块，所述文字转音频模块用于对所述多个文字进行文字转音频识别操作以得到相应的音频信息；以及播放模块，所述播放模块用于将所述音频信息进行播放。

根据本发明实施例的对移动终端的图片文字朗读的装置，通过取图工具获取图片，并通过图片转文字模块将图片转成文字，进而通过文字转音频模块将文字转成音频进行播放，可以为移动终端上的应用程序提供一种通用的朗读服务，更加方便，提升了用户体验。

在本发明的一些实施例中，上述对移动终端的图片文字朗读的装置还包括：识别模块，所述识别模块根据所述移动终端内的图像转文字识别库对所述图片信息进行图像转文字识别，所述识别模块还用于根据所述移动终端内的词组转音频识别库对所述词组进行图像转文字识别。

在本发明的另一个实施例中，上述对移动终端的图片文字朗读的装置还包括：

接收模块，所述接收模块用于接收服务器发送的文字信息和音频信息；

上传模块，所述上传模块将所述图片信息上传至图像转文字服务器，所述图像转文字服务器根据内部的图像转文字识别库所述图片信息进行图像转文字识别操作，并将识别结果发送至所述移动终端。

在本发明的一个实施例中，所述上传模块还用于将所述文字上传至文字转音频服务器，以便所述文字转音频服务器根据内部的词组转音频识别库所述文字信息进行文字转音频识别操作，并将识别结果发送至所述移动终端。

为达到上述目的，本发明再一方面实施例提出一种移动终端，该移动终端包括本发明上述实施例提出的对移动终端的图片文字朗读的装置。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的对移动终端的图片文字朗读的方法的流程图；

图2为根据本发明一个具体实施例的对图片文字朗读的方法的流程图；

图3为根据本发明实施例的对移动终端的图片文字朗读的装置的模块示意图；

图4为根据本发明一个实施例的对移动终端的图片文字朗读的模块示意图；

图5为根据本发明实施例的移动终端的方框示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。另外，以下描述的第一特征在第二特征之“上”的结构可以包括第一和第二特征形成为直接接触的实施例，也可以包括另外的特征形成在第一和第二特征之间的实施例，这样第一和第二特征可能不是直接接触。

在本发明的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

下面参照附图描述根据本发明实施例的对移动终端的图片文字朗读的方法。

如图1所示，本发明实施例的对移动终端的图片文字朗读的方法，包括以下步骤：

S101，设置取图工具。

在本发明的一个实施例中，取图工具可以根据不同的移动终端操作系统平台调用不同的接口实现，并且取图工具窗口可移动，其中，取图工具的窗口层级高于移动终端的应用程序的层级。具体地，取图工具的设置可以包括：开启一个后台服务，后台服务向窗口管理器申请窗口，并设置窗口层级高于移动终端的应用程序的层级，则窗口内设置视图以得到取词工具。例如，以android系统为例，只需要开启一个后台的服务（service）直接向窗口管理器（window manager）申请窗口，并将该窗口层级设置为高于普通的应用程序层级，并且，在分配的窗口内设置自定义的视图（view）即可实现浮动窗口，该浮动窗口即为取图工具。取图工具的视图（view）获取焦点后，响应用户的触发例如对移动终端触屏的按下，移动，抬起等常见操作，根据触发移动的距离可以重新设置取图工具在整个移动终端屏幕中的位置，可以实现移动的效果。

S102，当检测到用户的触发指令时，取图工具根据用户的手势截取屏幕上的图片信息。

根据步骤S101设置的取图工具的起始和终止位置，可以截取相应大小的图片。另外，当检测到用户的触发指令，例如对移动终端触屏的按下，移动，抬起等常见操作，根据触发移动的距离重新设置取图工具在整个移动终端屏幕中的位置，则取图工具可以根据用户的手势即根据重新设定的取图工具的位置截取移动终端屏幕上的图片信息。实际应用中，取图工具截取屏幕图片的方式可依据不同的操作系统平台调用不同接口实现。例如，android系统最新版本android4.0，可以通过添加系统签名的方式直接调用系统提供的接口将移动终端屏幕上的图片保存下来，并根据取图工具的位置进行截取。再例如，在其他系统上，如在存在root权限的移动终端上，可以直接抓取frame buffer的原始数据获取图片。

S103，对图片信息进行图像转文字识别操作以得到多个文字。

通过步骤S102截取图片信息后，对图片信息进行图像转文字识别操作。

在本发明的一些实施例中，对图片信息进行图像转文字识别操作可以为：根据移动终端内的图像转文字识别库对图片信息进行图像转文字识别操作。具体地，在截取图片信息后，将图片信息与移动终端内的图像转文字识别库里的图片信息进行比较，并将相符的图片信息根据移动终端内的图片转文字识别库转成对应的文字信息，以获得多个文字。

在本发明的另一个实施例中，对图片信息进行图像转文字识别操作可以为：将图片信息上传至图像转文字服务器，图像转文字服务器根据内部的图像转文字识别库图片信息进行图像转文字识别操作，并将识别结果发送至移动终端。具体地，在截取图片信息后，将图片信息上传至图片转文字服务器，图片转文字服务器接收到的图片信息与其内的图片转文字识别库的图片信息进行比较，并将相符的图片信息根据服务器内的图片转文字识别库转成相应的文字信息，并将转成的文字信息再发送至移动终端，从而使移动终端得到多个文字。

S104，对多个文字进行文字转音频识别操作以得到相应的音频信息，并将音频信息进行播放。

通过步骤S103得到多个文字后，对多个文字进行文字转音频识别操作。

在本发明的一些实施例中，对多个文字进行文字转音频识别操作可以为：根据移动终端内的文字转音频识别库对多个文字进行文字转音频识别操作。具体地，移动终端在得到多个文字后，将多个文字与移动终端内的文字转音频识别库里的文字信息进行比较，并将相符的文字信息根据移动终端内的文字转音频识别库转成对应的音频信息，以获得音频信息。在得到音频信息后，移动终端将银屏信息进行播放，例如可以采用TTS模块进行播放。

在本发明的另一个实施例中，对多个文字进行文字转音频识别操作可以为：将多个文字上传至文字转音频服务器，文字转音频服务器根据其内部的文字转音频识别库文字信息进行文字转音频识别操作，并将识别结果发送至移动终端。具体地，在得到多个文字后，将多个文字上传至文字转音频服务器，文字转音频服务器接收到的多个文字与其内的文字转音频识别库的文字信息进行比较，并将相符的文字信息根据服务器内的文字转音频识别库转成相对应的音频信息，并将转成的音频信息再发送至移动终端，从而使移动终端得到音频信息。在得到音频信息后，移动终端将银屏信息进行播放，例如可以采用TTS模块进行播放。

综上所述，在本发明的一个具体实施例中，如图2所示，对移动终端的图片文字朗读的具体操作过程如下：

S201，移动终端的屏幕显示图片文字及取图工具。

S202，触发取图工具。

S203，截取图片。

S204，得到图片信息后，屏幕可以自动生成朗读按钮。

在本实施例中移动终端根据其内的图片转文字库将图片文字进行图片转文字识别并在移动终端屏幕自动生成朗读按钮。

S205，触发朗读按钮，对截取的图片文字进行朗读。

在本发明的一些实施例中，上述的对移动终端的图片文字朗读的方法，可以通过交互的方式进行图片文字的截取，将移动终端屏幕上对应区域的图片截取后，通过图像转文字技术例如OCR（Optical Character Recognition，光学字符识别）技术转化为文字以后，再调用文字转音频模块例如TTS模块将识别的文字转化为语音，进而进行朗读。

综上所述，根据本发明实施例的对移动终端的图片文字朗读的方法，通过将图片文字转成文字信息，进而将文字信息转成音频信息进行播放，可以为移动终端的应用程序提供一种通用的朗读服务，更加方便，提升了用户体验。

下面参照附图描述根据本发明实施例的对移动终端的图片文字朗读的装置。

如图3所示，本发明实施例的对移动终端的图片文字朗读的装置包括：取图工具301、图片转文字模块302、文字转音频模块303和播放模块304。其中，当检测到用户的触发指令时，取图工具301根据用户的手势截取屏幕上的图片信息，其中，取图工具301的窗口层级高于移动终端的应用程序的层级。图像转文字模块302用于对图片信息进行图像转文字识别操作以得到多个文字。文字转音频模块303用于对多个文字进行文字转音频识别操作以得到相应的音频信息。播放模块304用于将音频信息进行播放。

在本发明的一些实施例中，取图工具301可以根据不同的移动终端操作系统平台调用不同的接口实现，并且取图工具301窗口可移动，其中，取图工具301的窗口层级高于移动终端的应用程序的层级。具体地，取图工具301的设置可以包括：开启一个后台服务，后台服务向窗口管理器申请窗口，并设置窗口层级高于移动终端的应用程序的层级，则窗口内设置视图以得到取词工具301。例如，以android系统为例，只需要开启一个后台的服务（service）直接向窗口管理器（window manager）申请窗口，并将该窗口层级设置为高于普通的应用程序层级，并且，在分配的窗口内设置自定义的视图（view）即可实现浮动窗口，该浮动窗口即为取图工具301。取图工具301的视图（view）获取焦点后，响应用户的触发例如对移动终端触屏的按下，移动，抬起等常见操作，根据触发移动的距离可以重新设置取图工具301在整个移动终端屏幕中的位置，可以实现移动的效果。取图工具301可以根据用户的手势即根据重新设定的取图工具301的位置截取移动终端屏幕上的图片信息。实际应用中，取图工具301截取屏幕图片的方式可依据不同的操作系统平台调用不同接口实现。例如，android系统最新版本android4.0，可以通过添加系统签名的方式直接调用系统提供的接口将移动终端屏幕上的图片保存下来，并根据取图工具301的位置进行截取。再例如，在其他系统上，如在存在root权限的移动终端上，可以直接抓取frame buffer的原始数据获取图片。

在本发明的一些实施例中，在取图工具301截取图片文字后，将图片文字发送给图片转文字模块302，图片转文字模块302将图片转成文字。图片转文字模块302可以根据移动终端内的图像转文字识别库对图片信息进行图像转文字识别。具体地，在取图工具301截取图片信息后发送至图片转文字模块302，图片转文字模块302例如OCR模块将图片信息与移动终端内的图像转文字识别库里的图片信息进行比较，并将相符的图片信息根据移动终端内的图片转文字识别库转成对应的文字信息，以获得多个文字，并将多个文字发送至文字转音频模块303。

在本发明的另一个实施例中，如图4所示，上述对移动终端的图片文字朗读的装置还包括上传模块401和接收模块402。其中，接收模块402用于接收服务器发送的文字信息和音频信息。上传模块401可以将图片信息上传至图像转文字服务器，图像转文字服务器根据内部的图像转文字识别库图片信息进行图像转文字识别操作，并将识别结果发送至移动终端的接收模块402。具体地，在取图工具301截取图片信息后，并将图片信息发送到上传模块401，上传模块401将图片信息上传至图片转文字服务器，图片转文字服务器接收到的图片信息与其内的图片转文字识别库的图片信息进行比较，并将相符的图片信息根据服务器内的图片转文字识别库转成相应的文字信息，并将转成的文字信息再发送至移动终端的接收模块402，接收模块402将文字信息发送到文字转音频模块303。

在文字转音频模块303接收到文字信息之后，对文字信息进行文字转音频识别。在本发明的一个实施例中，文字转音频模块303可以根据移动终端内的文字转音频识别库对多个文字进行文字转音频识别操作。具体地，文字转音频模块303得到多个文字后，将多个文字与移动终端内的文字转音频识别库里的文字信息进行比较，并将相符的文字信息根据移动终端内的文字转音频识别库转成对应的音频信息，以获得音频信息。并将音频信息发送至播放模块304，播放模块304例如TTS模块对音频信息进行朗读。

在本发明的另一个实施例中，可以通过上传模块401将多个文字上传至文字转音频服务器，文字转音频服务器根据其内部的文字转音频识别库文字信息进行文字转音频识别操作，并将识别结果发送至移动终端的播放模块304。具体地，上传模块401在得到多个文字后，将多个文字上传至文字转音频服务器，文字转音频服务器接收到的多个文字与其内的文字转音频识别库的文字信息进行比较，并将相符的文字信息根据服务器内的文字转音频识别库转成相对应的音频信息，并将转成的音频信息再发送至移动终端的接收模块402，接收模块402将音频信息发送至播放模块304，播放模块304例如TTS模块对音频信息进行朗读。

综上所述，根据本发明实施例的对移动终端的图片文字朗读的装置，通过获取文字图片，并通过图片转文字模块将图片转成文字，进而通过文字转音频模块将文字转成音频进行播放，可以为移动终端上的应用程序提供一种通用的朗读工具，更加方便，提升了用户体验。

下面参照附图描述根据本发明实施例提出的一种移动终端。

如图5所示，本发明实施例的移动终端501包括本发明上述实施例的对移动中的图片文字朗读的装置502。

根据本发明实施例的移动终端，通过图片文字朗读装置可以实现对获取的图片文字进行朗读，为用户提供了方便，提升了用户体验。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种对移动终端的图片文字朗读的方法，其特征在于，包括以下步骤：

设置取图工具，其中，所述取图工具的窗口层级高于所述移动终端的应用程序的层级；

当检测到用户的触发指令时，所述取图工具根据所述用户的手势截取屏幕上的图片信息；

对所述图片信息进行图像转文字识别操作以得到多个文字；以及

对所述多个文字进行文字转音频识别操作以得到相应的音频信息，并将所述音频信息进行播放。

2.如权利要求1所述的对移动终端的图片文字朗读的方法，其特征在于，所述设置取图工具包括如下步骤：

3.如权利要求1所述的对移动终端的图片文字朗读的方法，其特征在于，对所述图片信息进行图像转文字识别操作，包括如下步骤：

4.如权利要求1所述的对移动终端的图片文字朗读的方法，其特征在于，对所述图片信息进行图像转文字识别操作，包括如下步骤：

5.如权利要求1所述的对移动终端的图片文字朗读的方法，其特征在于，对所述多个文字进行文字转音频识别操作，包括以下步骤：

6.如权利要求1所述的对移动终端的图片文字朗读的方法，其特征在于，对所述多个文字进行文字转音频识别操作，包括以下步骤：

7.一种对移动终端的图片文字朗读的装置，其特征在于，包括：

取图工具，当检测到用户的触发指令时，所述取图工具根据所述用户的手势截取屏幕上的图片信息，其中，所述取图工具的窗口层级高于所述移动终端的应用程序的层级；

图像转文字模块，所述图像转文字模块用于对所述图片信息进行图像转文字识别操作以得到多个文字；

文字转音频模块，所述文字转音频模块用于对所述多个文字进行文字转音频识别操作以得到相应的音频信息；以及

播放模块，所述播放模块用于将所述音频信息进行播放。

8.如权利要求7所述的对移动终端的图片文字朗读的装置，其特征在于，所述图片转文字模块还用于根据所述移动终端内的图像转文字识别库对所述图片信息进行图像转文字识别。

9.如权利要求7所述的对移动终端的图片文字朗读的装置，其特征在于，所述文字转音频模块还用于根据所述移动终端内的文字转音频识别库对所述文字进行文字转音频识别。

10.如权利要求7所述的对移动终端的图片文字朗读的装置，其特征在于，还包括：

11.如权利要求7所述的对移动终端的图片文字朗读的装置，其特征在于，所述上传模块还用于将所述文字上传至文字转音频服务器，以便所述文字转音频服务器根据内部的文字转音频识别库所述文字信息进行文字转音频识别操作，并将识别结果发送至所述移动终端。

12.一种移动终端，其特征在于，包括7-11任一项所述的对移动终端的图片文字朗读的装置。