CN110970011A

CN110970011A - 图片处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110970011A
Application number: CN201911182220.XA
Authority: CN
Inventors: 袁佳平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-07

Abstract

本申请的实施例揭示了一种图片处理方法、装置、设备以及计算机可读存储介质。该方法包括：获取待进行文本识别的图片；识别所述图片中含有的文本信息，获得识别文本，所述文本信息包括文字、数字、字母、标点符号中的至少一种，所述识别文本由所述文本信息拼接构成；对所述识别文本进行语音转换，获得所述识别文本对应的语音数据；播放所述识别文本对应的语音数据。本申请实施例的技术方案解决了现有技术无法以有声读物的形式进行图片中文字的语音播报的技术问题。

Description

图片处理方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种图片处理方法、装置、设备和计算机可读存储介质。

背景技术

随着知识、信息获取方式的多元化发展，尤其是数字化媒介不断冲击传统的纸质报刊书籍，社会阅读习惯逐渐发生着改变，例如人们更加地倾向于通过数字化的有声读物来达到阅读目的。

目前，有声读物是预先对朗读书籍的音频进行录制和存储，有声读物的阅读过程则为相应音频的播放过程。在实际的应用场景中，图片中文本内容的阅读性较差，人们希望可以将图片作为一种有声读物，通过对图片中文字内容进行语音播报，以更加方便地获取图片所要传达的信息，但由于人们浏览图片的随机性，无法针对人们可能浏览的图片进行相应音频的预先录制和存储。

因此，现有技术中存在无法以有声读物的形式对图片中的文字内容进行语音播报的技术问题。

发明内容

为解决上述技术问题，本申请的实施例提供了一种图片处理方法、装置、设备以及计算机可读存储介质，基于本申请实施例进行的图片处理，便于实现图片中文字内容的语音播报。

其中，本申请所采用的技术方案为：

一种图片处理方法，包括：获取待进行文本识别的图片；识别所述图片中含有的文本信息，获得识别文本，所述文本信息包括文字、数字、字母、标点符号中的至少一种，所述识别文本由所述文本信息拼接构成；对所述识别文本进行语音转换，获得所述识别文本对应的语音数据；播放所述识别文本对应的语音数据。

一种图片处理装置，包括：图片获取模块，用于获取待进行文本识别的图片；文本识别模块，用于识别所述图片中含有的文本信息，获得识别文本，所述文本信息包括文字、数字、字母、标点符号中的至少一种，所述识别文本由所述文本信息拼接构成；语音转换模块，用于对所述识别文本进行语音转换，获得所述识别文本对应的语音数据；语音播放模块，用于播放所述识别文本对应的语音数据。

一种图片处理设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的图片处理方法。

一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的图片处理方法。

在上述技术方案中，获取待进行文字识别的图片后，通过识别图片中含有的文本信息，获得图片对应的识别文本，然后通过对该识别文本进行语音转换，得到该识别文本对应的语音数据，通过播放该语音数据，即可实现图片所含有文本信息的语音播放。可以看出，本申请的技术方案无需预先针对图片中的文字内容进行音频录制和存储，而是通过对图片中文本信息进行实时识别和语音转换，并针对转换得到的音频数据实现语音播报，从而解决了现有技术无法以有声读物的形式进行图片中文字的语音播报的技术问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明涉及的一种实施环境的示意图；

图2是根据一示例性实施例示出的一种图片处理方法的流程图；

图3是图2所示实施例中的步骤120在一个实施例的流程图；

图4是图3所示实施例中的步骤123在一个实施例的流程图；

图5是图3所示实施例中的步骤121在一个实施例的流程图；

图6是图2所示实施例中的步骤130在一个实施例的流程图；

图7是根据一示例性实施例示出的一种用户交互界面的示意图；

图8是一示例性的应用场景中示出一种图片处理方法的流程图；

图9是根据一示例性实施例示出的一种图片处理装置的框图；

图10是根据一示例性实施例示出的一种图片处理设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

请参阅图1，图1是本发明涉及的一种实施环境的示意图，该实施环境由终端设备100、文本识别服务器200和语音转换服务器300构成。

其中，终端设备100用于提供一用户交互界面，用户可以在用户交互界面中进行相应操作，例如确定一张待进行文本识别的图片，然后触发终端设备100进行图片所含有文本信息的语音播报，便于用户获取图片所表达信息。终端100可以是智能手机、平板、或者其它任意能够触发进行图片所含有文本信息识别的电子设备，本处不进行限制。

终端设备100预先与文本识别服务器200建立通信连接，以在处理图片所含有文本信息的语音播报过程中，从文本识别服务器200中获取相关服务，对图片所含有文本信息进行识别。

终端设备100还预先与语音转换服务器300建立通信连接，以通过语音转换服务器300对识别的文本信息进行语音转换，得到图片所含有文本信息对应的语音数据。终端设备100通过对所得语音数据进行播放，即可实现图片所含有文本信息的语音播报。

如前所述，在现有技术中，有声读物是通过预先对朗读书籍的音频进行录制和存储，有声读物的阅读过程即为音频的播放过程。为更加方便地获取图片中含有的文字内容，人们希望可以将图片作为一种有声读物，通过进行图片中文本内容的播报，而进行相关信息的获取。

由于浏览图片的随机性，人们针对图片中文字信息的获取需求往往是多方面的，例如需要获取互联网上的图片含有的文字信息，或者需要获取拍摄的某张图片含有的文字信息，无法针对人们可能浏览的图片都进行相应音频的录制和存储，因此，采用现有的技术方案无法满足人们对于图片所含有文字内容的获取需求。

为解决此技术问题，本发明一方面提供一种图片处理方法，另一方面还相应提供了一种图片处理装置，以针对任意的图片实时进行图片所含有文字内容的识别和语音转换，并进行相应语音数据的播放，实现图片所含有文本信息的方便获取。

图2是根据一示例性实施例示出的一种图片处理方法的流程图，该方法可以被配置为由图1所示实施环境中的终端设备100具体执行，或者被配置为由其他设备执行，本实施例不进行限制。

如图2所示，在一示例性实施例中，该图片处理方法可以包括以下步骤：

步骤110，获取待进行文本识别的图片。

在本实施例中，待进行文本识别的图片可以是任意图片，例如可以是通过摄像头实时拍摄的图片，也可以是存储介质中存储的图片，例如电子相册，还可以是互联网上的网络图片，本处不进行限制。

针对不同的图片类型，获取图片的方式也相应不同，例如可以通过摄像头拍照获得图片，可以从电子相册中选择一张或者多张图片，或者通URL(Uniform ResourceLocator，统一资源定位符)获取图片。

对终端设备来说，在获取摄像头拍摄的图片或者电子相册中存储的图片之前，需检测终端设备是否授予相应的用户权限，例如终端设备中摄像头的拍摄权限，或者终端设备中电子相册的获取权限等。

如果检测到未授予相关用户权限，则需触发终端设备进行用户权限的获取。例如，触发终端设备的用户交互界面中弹出用户权限授予指引，引导用户完成用户权限的授予。

步骤120，识别图片中含有的文本信息，获得识别文本，文本信息包括文字、数字、字母、标点符号中的至少一种，识别文本由识别到的文本信息拼接构成。

其中，图片中含有的文字内容通常包括文字、数字和字母中的至少一种，为全面且准确地获取图片所要表达的信息，对于步骤110中获取的待进行文本识别的图片，需进行图片中所含有文字、数字以及字母的识别。

此外，如果针对图片所含有文字内容进行的语音播报具有断句效果，将有利于提升这些文字内容的可接收性，并使得人们更加容易地针对这些文字内容进行语义理解。

由此，为使得图片中含有的文字内容在语音播报的过程中具有断句效果，还有必要对图片中含有的标点符号进行识别。

通过将识别得到的文字、数字、字母、标点符号等图片所含有的文本信息进行拼接，得到图片所对应的识别文本。应当理解，图片中含有的文本信息可以是文字、数字、字母、标点符号中的一种或者多种，不同图片含有的文本信息可能不同。

步骤130，对识别文本进行语音转换，获得识别文本对应的语音数据。

其中，对识别文本进行语音转换是指，针对识别文本中的文字内容和标点符合进行语音合成，得到识别文本对应的拟人化语音表达，即得到识别文本对应的语音数据。

由此，在识别文本对应的语音数据中，既包括对于图片中的文字内容的语音处理，也包括了对于文字内容之间的标点符号的语音处理。在后续进行语音数据的播放过程中，能够实现识别文本的自动断句。

步骤140，播放识别文本对应的语音数据。

终端设备通常仅支持播放mp3(是一种动态影像专家压缩标准)格式的音频文件，或者通过HTML5(是一种HTML(Hypertext Marked Language，超文本标记语言)标准)标准所规定的Audio(一种HTML标签)元素实现声音播放。

因此，如果步骤130转换所得的音频数据的文件格式为非mp3格式，则需将音频数据转换为mp3格式后再进行音频数据的播放。如果步骤130转换所得的音频数据中含有HTML5标准所规定的Audio标签，则通过Audio标签播放音频数据中含有的语音。

因此，在本实施例的技术方案中，无需预先针对图片中的文字内容进行音频录制和存储，而是通过对图片中的文本信息进行实时识别和语音转换，并针对转换得到的音频数据实现语音播报，解决了现有技术无法以有声读物的形式进行图片中文字的语音播报的技术问题，便于人们通过播放的音频数据进行图片所表达语义的理解。

本实施例的技术方案也可以作为一项生僻字识别技术，通过播放的语音数据进行生僻字语音的获取。示例性的，用户在与阅读传统书籍的过程中，如遇生僻字，则可以通过智能终端对该生僻字或者该生僻字所在句子、段落进行拍摄，得到含有生僻字的图片，通过对该图片中含有的文本信息进行识别和语音转换，并进行相应语音数据的播放，从而可以方便地得到该生僻字的读音。

图3是图2所示实施例中步骤120在一实施例中的流程图。如图3所示，在一示例性实施例中，识别图片中含有的文本信息，获得识别文本，可以包括如下步骤：

步骤121，将图片的图片格式转换为设定编码格式。

其中，摄像头拍摄的图片以及电子相册所存储图片的图片格式通常为jpeg(JointPhotographic Experts Group的简称，表示由联合图像专家组制定的一种图像格式，各类浏览器都支持，广泛应用在网络和光盘读物上，具有文件尺寸较小，下载速度快等优点)，图片在网络传输的过程中，每张图片都相当于一次http(Hyper Text Transfer Protocol，超文本传输协议)请求，较多图片的传输则会导致相关处理设备的性能耗费严重，引发设备性能异常。

因此，有必要将步骤110获取的图片进行格式转换，以得到一种有利于进行网络传输的设定编码格式，例如，可以将图片转换为base64(一种基于64个可打印字符来表示二进制数据的编码方式)编码格式。

步骤122，调用文本识别服务对应的文本识别接口，将设定编码格式的图片传入文本识别服务中，使文本识别服务进行图片中文本信息的识别。

首先需要说明的是，本实施例所称的文本识别服务是指具有文本识别功能的网络服务，具体是指在网络上运行的、面向服务的软件模块，不同的终端设备可以通过访问文本识别服务中的数据实现相关文本的识别。示例性的，文本识别服务可以被配置在文本识别服务器上。

文本识别接口则为文本识别服务所提供的API(Application ProgrammingInterface，应用程序接口)接口，通过调用文本识别接口，将设定编码格式的图片传入文本识别服务中，即可调用文本识别服务对自文本识别接口传入的图片中含有的文本信息进行识别。

如下所示，调用一示例性的文本识别接口的代码可以为：

https://ocr.tencentcloudapi.com/？Action＝GeneralEfficientOCR&ImageBase64＝base64。

步骤123，获取文本识别服务所识别得到的文本信息，由文本信息拼接得到识别文本。

文本识别服务还将通过文本识别接口返回针对图片进行识别得到的文本信息，通过获取文本识别服务所返回文本信息，则可以由这些文本信息拼接得到识别文本。

需要说明的是，文本识别服务所识别得到的文本信息应当包括文字、数字、字母以及标点符合中的至少一种。

如图4所示，在一个示例性的实施例中，步骤123可以包括如下步骤：

步骤1231，接收文本识别服务返回的文本识别接口数据，文本识别服务识别得到的文本信息按照设定的数据结构在文本识别接口数据中排布；

步骤1232，根据文本信息对应的排布顺序，依次从接口数据中提取文本信息；

步骤1233，按照文本信息的提取顺序进行文本信息的拼接，得到识别文本。

如前所述，文本识别服务将通过文本识别接口返回识别得到的文本信息，文本信息需按照设定的数据格式排布并封装在文本识别接口数据中进行传输，由此需要从文本识别服务所返回的文本识别接口数据中进行相关文本信息的提取。

示例性的，文本信息可以按照JSON(JavaScript Object Notation,JS对象简谱)数据结构在文本识别接口数据中排布，不同的文本信息分别体现为不同的检测文本字段中，例如图片中隶属于相同行的文本信息分别体现在同一检测文本字段中，并且不同的检测文本字段按照图片中的文本信息的行排序相应排布在文本识别接口数据中。

因此，根据文本信息对应的排布顺序，依次地从文本识别接口数据中提取得到文本信息，并按照文本信息的提取顺序进行文本信息的拼接，从而得到完整的识别文本。例如，所得到的识别文本为完整的段落或者句子。

由此，本实施例提供的方法通过对待进行文本识别的图片进行图片格式转换，然后将转换得到的图片通过文本识别服务进行图片中文本信息的识别，无需单独针对文本信息的识别设计相关程序，充分利用网络资源，实现图片中文本信息的便捷识别。

如图5所示，在一示例性实施例中，步骤121可以包括以下步骤：

步骤1211，根据图片的高度和宽度创建设定编码格式的画布，画布的高度和宽度与图片相匹配；

步骤1212，将图片绘制在画布上，获得设定编码格式的图片。

其中，针对根据图片的高度和宽度所创建画布，该画布的高度和宽度与图片相匹配是指，该画布的高度大于或者等于图片的高度，该画布的宽度也大于或者等于图片的宽度。

通过进行设定编码格式的画布的创建，将图片绘制在画布上，即可得到设定编码格式的图片，并且该画布可以容纳图片所含有的全部内容。

示例性的，将待进行文本识别的图片转换为base64编码格式的过程为：首先需要通过canvas(是指一种画布绘制插件)插件创建base64编码格式的画布，然后根据的高度和宽度设置画布的高度和高度，通过将图片绘制到所创建画布上，即可得到base64编码格式的图片。

此外，在步骤1211之前，还需要判断图片的质量超过预设的质量阈值，质量阈值可以对应于文字识别服务能够处理图片的最大质量。如果图片的质量超过质量阈值，则需对图片进行压缩处理，使图片的质量低于质量阈值。

仍以上述将待进行文本识别的图片转换为base64编码格式为示例，可以通过设置canvas插件的to Data URL方法中的压缩参数来调节图片质量，然后再将图片转换为base64编码格式。

由此，本实施例通过将待进行文本识别的图片转换为base64编码格式，并且同时控制图片质量，使得进行格式转换所得的图片能够与文本识别服务的处理能力相匹配。

在另一示例性实施例中，对识别文本进行语音转换，也是通过调用语音转换服务所实现的。如图6所示，在一示例性实施例中，步骤130针对识别文本进行运行语音转换，得到识别文本对应的语音数据，可以具体包括以下步骤：

步骤131，通过调用语音转换服务对应的语音转换接口，将识别文本传入语音转换服务中，使语音转换服务针对识别文本进行语音合成处理，得到识别文本对应的语音数据；

步骤132，接收语音转换服务返回的语音数据。

与文本识别服务相似，语音转换服务是指具有语音转换功能的网络服务，语音转换接口是语音转换服务所提供的API接口，通过调用语音转换接口，将识别文本传入语音转换服务中，以使语音转换服务针对识别文本进行语音合成处理。

如下所示，调用一示例性的语音转换接口的代码可以为：

https://aai.tencentcloudapi.com/？Action＝TextToVoice&Text＝识别文本。

语音转换服务会将语音转换得到的语音数据封装在语音转换接口数据中，因此接收到语音转换服务所返回的语音转换接口数据后，从中提取得到特定的音频字段，即得到识别文本所对应语音的音频数据。

此外，由于语音转换服务的语音转换能力有限，在对识别文本进行运行语音转换之前，还需要对识别文本的字符数量进行判断，如果识别文本的字符数量大于预设的字符阈值，例如该字符阈值为语音转换服务所能够处理的最大字符数量，则需根据识别文本含有的标点符号对识别文本进行分段，获得若干文本段。

在后续针对识别文本进行语音转换时，则分别针对每一个文本段进行语音转换，得到各个文本段对应的语音数据，并由各个文本段对应的语音数据构成识别文本对应的语音数据。

在另一示例性实施例中，由于对识别文本进行语音转换的过程较为繁杂，为提升语音转换的效率，语音转换过程中通常仅针对识别文本进行语音合成，而不会考虑音色、音量、语速等较多因素，因此对识别文本进行语音转换得到的语音数据通常只是单一的音频数据。

为丰富识别文本对应的语音数据的播放效果，可以预先设置待进行语音播放的播放参数，播放参数可以包括音色、音量、语速中的至少一种，通过按照预先设置的播放参数进行识别文本对应的语音数据的播放，即可实现个性化的语音播放效果。

语音数据的播放可以是在监听到语音播放指令之后执行的，例如监听到用户在终端设备的用户交互界面中触发了指定的音频播放按钮，则视为监听到了识别文本对应的语音播放指令。

此外，步骤120中识别得到的识别文本可用于进行编辑，并在步骤130中针对编辑后的识别文本进行语音转换，得到相应的语音数据，并进行该语音数据的播放。

如图7所示，图7是一示例性的应用场景所提供的一种用户交互界面的示意图，示例性的，该用户交互界面可以由图1所示实施环境中的终端设备100提供。

在图7所示的应用场景中，用户点击用户交互界面a中的“上传”按钮，可以获取终端设备存储的图片，并将获取的图片展示在图片展示区，以及将针对图片进行识别得到的文本信息相应显示在文本展示区。如果用户点击“复制”按钮，则跳转至用户交互界面b，图片所含有的文本信息将以可编辑的文本形式显示在文本编辑区，以供用户进行个性化编辑，同时，用户可以设置对文本信息进行播放的音色和语速，点击“播放”按钮则使得终端设备对文本编辑区中的文本内容进行相应播放。

由此，本实施例的方法提供了一种识别文本可供编辑的形式，通过针对识别文本进行编辑得到的文本内容进行语音转换，得到相应的语音数据，同时通过选择相应的播放参数执行语音数据的播放，提升了本申请针对图片所含有文本信息进行语音播放的个性化程度。

为便于理解本申请的技术方案，下面将以一个具体的应用场景来对本申请提供的图片处理方法进行详细描述。

如图8所示，针对待进行文本识别的图片的获取，需先获取摄像头或者电子相册的用户权限，在用户授权的情况下，可以通过摄像头拍照获得图片，或者从电子相册中选择一张图片。

针对获取的待进行文本识别的图片，需将图片转换为Base64格式，以满足文本识别服务进行文本识别所需的基本要求。此外，还需要判断转换得到的图片的质量是否超过质量阈值，例如3M(兆，一种数据单位)，若为是，则需对图片进行压缩后再将图片转换为Base64格式，若为否，则调用文本识别服务提供的文本识别接口，将Base64格式的图片传入文本识别服务中，使文本识别服务进行图片中文本信息的识别，并获取文本识别接口返回的接口数据，从接口数据中提取相应的文本信息。

为获得完整的识别文本，还需将从接口数据中提取的文本信息进行拼接，得到图片对应的识别文本。

并且，为满足语音转换服务进行语音合成的基本要求，需判断识别文本的字符数量是否超过预设的字符阈值，如果是，则需对识别文本进行分段，得到若干文本段，然后针对各个文本段依次调用语音转换服务提供的语音转换接口，得到各个文本段对应的语音数据，通过将各个语音数据进行拼接，即可得到识别文本对应的语音数据。

如果识别文本的字符数量未超过字符阈值，则直接调用语音转换接口，使语音转换服务针对识别文本进行语音转换，得到语音数据。

由此，通过播放得到的语音数据，即可将图片作为一种有声读物，实现图片中文本信息的语音播报。

图9是根据一示例性实施例示出的一种图片处理装置的框图，相应的，该装置可以被配置在图1所示实施环境中的终端设备100上，也可以被配置在其它设备上。

如图9所示，在一示例性实施例中，该装置包括图片获取模块310、文本识别模块320、语音转换模块330和语音播放模块340。

图片获取模块310用于获取待进行文本识别的图片。

文本识别模块320用于识别图片中含有的文本信息，获得识别文本，文本信息包括文字、数字、字母、标点符号中的至少一种，识别文本由文本信息拼接构成。

语音转换模块330用于对识别文本进行语音转换，获得识别文本对应的语音数据。

语音播放模块340用于播放识别文本对应的语音数据。

在另一示例性实施例中，文本识别模块320包括图片格式转换单元、第一接口调用单元和文本信息获取单元。

图片格式转换单元用于将图片的图片格式转换为设定编码格式。

第一接口调用单元用于调用文本识别服务对应的文本识别接口，将设定编码格式的图片传入文本识别服务中，使文本识别服务进行图片中文本信息的识别。

文本信息获取单元用于获取文本识别服务所识别得到的文本信息，由文本信息拼接得到识别文本。

在另一示例性实施例中，图片格式转换单元包括画布创建子单元和图片绘制子单元。

画布创建子单元用于根据图片的高度和宽度创建设定编码格式的画布，画布的高度和宽度与图片相匹配。

图片绘制子单元用于将图片绘制在所述画布上，获得设定格式的图片。

在另一示例性实施例中，图片格式转换单元还包括图片压缩子单元，用于在图片的质量超过预设的质量阈值时，对图片进行压缩处理，使图片的质量低于质量阈值。

在另一示例性实施例中，文本信息获取单元包括接口数据获取子单元、文本信息提取子单元和文本信息拼接子单元。

接口数据获取子单元用于接收文本识别服务返回的文本识别接口数据，文本识别服务识别得到的文本信息按照设定的数据结构在文本识别接口数据中排布。

文本信息提取子单元用于根据文本信息对应的排布顺序，依次从文本识别接口数据中提取文本信息。

文本信息拼接子单元用于按照文本信息的提取顺序进行文本信息的拼接，得到识别文本。

在另一示例性实施例中，语音转换模块330包括第二接口调用单元和语音数据接收单元。

第二接口调用单元用于通过调用语音转换服务对应的语音转换接口，将识别文本传入语音转换服务中，使语音转换服务针对识别文本进行语音合成处理，得到识别文本对应的语音数据。

语音数据接收单元用于接收语音转换服务返回的语音数据。

在另一示例性实施例中，该图片处理装置还包括文本分段模块，用于在识别文本的字符数量大于预设的字符阈值时，根据识别文本含有的标点符号对识别文本进行分段，获得若干文本段。相应的，语音转换模块330则分别对各个文本段进行语音转换，获得各个文本段对应的语音数据，并由各个文本段对应的语音数据构成识别文本对应的语音数据。

在另一示例性实施例中，该图片处理装置还包括用户权限检测模块，用于检测终端设备是否针对图片的获取授予用户权限，用户权限包括终端设备中摄像头的拍摄权限或者终端设备中电子相册的获取权限，如果检测到未授予用户权限，则触发终端设备进行用户权限的获取。

在另一示例性实施例中，语音播放模块340包括播放参数获取单元和播放单元。

播放参数获取单元用于确定待进行语音播放的播放参数，播放参数包括音色、音量、语速中的至少一种。

播放单元用于按照确定的播放参数进行语音数据的播放。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

本申请的另一方面还提供了一种图片处理设备，包括处理器和存储器，其中，存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时实现如前所述的图片处理方法。

需要说明的是，该图片处理设备只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该图片处理设备也不能解释为需要依赖于或者必须具有图10中示出的示例性的图片处理设备中的一个或者多个组件。

如图10所示，在一示例性实施例中，图片处理设备包括处理组件401、存储器402、电源组件403、多媒体组件404、音频组件405、传感器组件407和通信组件408。其中，上述组件并不全是必须的，图片处理设备可以根据自身功能需求增加其他组件或减少某些组件，本实施例不作限定。

处理组件401通常控制图片处理设备的整体操作，诸如与显示、数据通信以及日志数据处理相关联的操作等。处理组件401可以包括一个或多个处理器409来执行指令，以完成上述操作的全部或部分步骤。此外，处理组件401可以包括一个或多个模块，便于处理组件401和其他组件之间的交互。例如，处理组件401可以包括多媒体模块，以方便多媒体组件404和处理组件401之间的交互。

存储器402被配置为存储各种类型的数据以支持在图片处理设备的操作，这些数据的示例包括用于在图片处理设备上操作的任何应用程序或方法的指令。存储器402中存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器409执行，以完成上述实施例中所描述的图片处理方法中的全部或者部分步骤。

电源组件403为图片处理设备的各种组件提供电力。电源组件403可以包括电源管理系统，一个或多个电源，及其他与为图片处理设备生成、管理和分配电力相关联的组件。

多媒体组件404包括在图片处理设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括TP(Touch Panel，触摸面板)和LCD(Liquid CrystalDisplay，液晶显示器)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件405被配置为输出和/或输入音频信号。例如，音频组件405包括一个麦克风，当图片处理设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。在一些实施例中，音频组件405还包括一个扬声器，用于输出音频信号。

传感器组件407包括一个或多个传感器，用于为图片处理设备提供各个方面的状态评估。例如，传感器组件407可以检测到图片处理设备的打开/关闭状态，还可以检测图片处理设备的温度变化。

通信组件408被配置为便于图片处理设备和其他设备之间有线或无线方式的通信。图片处理设备可以接入基于通信标准的无线网络，例如Wi-Fi(Wireless-Fidelity，无线网络)。

可以理解，图10所示的结构仅为示意，图片处理设备该可以包括比图10中所示更多或更少的组件，或者具有与图10所示不同的组件。图10中所示的各组件均可以采用硬件、软件或者其组合来实现。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的图片处理方法。该计算机可读存储介质可以是上述实施例中描述的图片处理设备中所包含的，也可以是单独存在，而未装配入该图片处理设备中。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种图片处理方法，其特征在于，包括：

获取待进行文本识别的图片；

识别所述图片中含有的文本信息，获得识别文本，所述文本信息包括文字、数字、字母、标点符号中的至少一种，所述识别文本由所述文本信息拼接构成；

对所述识别文本进行语音转换，获得所述识别文本对应的语音数据；

播放所述识别文本对应的语音数据。

2.根据权利要求1所述的方法，其特征在于，所述识别所述图片中含有的文本信息，获得识别文本，包括：

将所述图片的图片格式转换为设定格式；

调用文本识别服务对应的文本识别接口，将所述设定格式的图片传入所述文本识别服务中，使所述文本识别服务进行所述图片中文本信息的识别；

获取所述文本识别服务所识别得到的文本信息，由所述文本信息拼接得到所述识别文本。

3.根据权利要求2所述的方法，其特征在于，所述将所述图片的图片格式转换为设定格式，包括：

根据所述图片的高度和宽度创建所述设定格式的画布，所述画布的高度和宽度与所述图片相匹配；

将所述图片绘制在所述画布上，获得所述设定格式的图片。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

如果所述设定格式的图片的质量超过预设的质量阈值，则通过调整所述画布的质量参数，使所述图片的质量低于所述质量阈值。

5.根据权利要求2所述的方法，其特征在于，所述获取所述文本识别服务所识别得到的文本信息，由所述文本信息拼接得到所述识别文本，包括：

接收所述文本识别服务返回的文本识别接口数据，所述文本识别服务识别得到的文本信息按照设定的数据结构在所述文本识别接口数据中排布；

根据所述文本信息对应的排布顺序，依次从所述接口数据中提取所述文本信息；

按照所述文本信息的提取顺序进行所述文本信息的拼接，得到所述识别文本。

6.根据权利要求1所述的方法，其特征在于，所述对所述识别文本进行语音转换，获得所述识别文本对应的语音数据，包括：

通过调用语音转换服务对应的语音转换接口，将所述识别文本传入所述语音转换服务中，使所述语音转换服务针对所述识别文本进行语音合成处理，得到所述识别文本对应的语音数据；

接收所述语音转换服务返回的所述语音数据。

7.根据权利要求1所述的方法，其特征在于，在对所述识别文本进行语音转换，获得所述识别文本对应的语音数据之前，所述方法还包括：

如果所述识别文本的字符数量大于预设的字符阈值，则根据所述识别文本含有的标点符号对所述识别文本进行分段，获得若干文本段；

所述对所述识别文本进行语音转换，获得所述识别文本对应的语音数据，包括：

分别对各个所述文本段进行语音转换，获得各个所述文本段对应的语音数据，由各个文本段对应的语音数据构成所述识别文本对应的语音数据。

8.根据权利要求1所述的方法，其特征在于，在获取待进行文本识别的图片之前，所述方法还包括：

检测用户终端是否针对所述图片的获取授予用户权限，所述用户权限包括所述用户终端中摄像头的拍摄权限或者所述用户终端中相册的获取权限；

如果检测到未授予所述用户权限，则触发所述用户终端进行所述用户权限的获取。

9.根据权利要求1所述的方法，其特征在于，所述播放识别文本对应的语音数据，包括：

确定待进行语音播放的播放参数，所述播放参数包括音色、音量、语速中的至少一种；

按照确定的所述播放参数进行所述语音数据的播放。

10.一种图片处理装置，其特征在于，包括：

图片获取模块，用于获取待进行文本识别的图片；

文本识别模块，用于识别所述图片中含有的文本信息，获得识别文本，所述文本信息包括文字、数字、字母、标点符号中的至少一种，所述识别文本由所述文本信息拼接构成；

语音转换模块，用于对所述识别文本进行语音转换，获得所述识别文本对应的语音数据；

语音播放模块，用于播放所述识别文本对应的语音数据。