CN110895924B

CN110895924B - 一种文档内容朗读方法、装置、电子设备及可读存储介质

Info

Publication number: CN110895924B
Application number: CN201810967181.3A
Authority: CN
Inventors: 冷志峰; 宁廷泽
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2023-01-03
Anticipated expiration: 2038-08-23
Also published as: CN110895924A

Abstract

本发明实施例提供了一种文档内容朗读方法、装置、电子设备及可读存储介质。该方法包括：判断待朗读的目标文档中是否存在图片；若存在，将目标文档中的图片输入至预先构建的图片文字识别模型，得到图片中记录的文字内容；获得图片中记录的文字内容和目标文档中的文本内容对应的发音数据；对发音数据进行播放。应用本发明实施例，能够对目标文档中的图片所记录文字内容进行朗读，提高了用户的文档阅读体验。

Description

一种文档内容朗读方法、装置、电子设备及可读存储介质

技术领域

本发明涉及文档处理技术领域，特别是涉及一种文档内容朗读方法、装置、电子设备及可读存储介质。

背景技术

为了工作和学习，用户常常需要阅读各种各样的文档。并且在阅读过程中，常常需要通过电子设备来朗读文档中的内容。例如，常常需要对word文档、PDF(PortableDocument Format，便携式文档格式)文档和PPT(PowerPoint，演示文稿)文档等文档中的内容进行朗读。

但是，这些文档中常常会存储有一些记录有文字内容的图片，而电子设备无法对图片中的文字内容进行朗读，影响了用户的阅读体验。

发明内容

本发明实施例的目的在于提供一种文档内容朗读方法、装置、电子设备及可读存储介质，以能够对图片中的文字内容进行朗读，提高用户的文档阅读体验。

第一方面，本发明实施例提供了一种文档内容朗读方法，应用于电子设备，该方法可以包括：

判断待朗读的目标文档中是否存在图片；

若存在，将目标文档中的图片输入至预先构建的图片文字识别模型，得到图片中记录的文字内容；

获得图片中记录的文字内容和目标文档中的文本内容对应的发音数据；

对发音数据进行播放。

可选地，在将目标文档中的图片输入至预先构建的图片文字识别模型的步骤之前，该方法还可以包括：

获得记录有文字内容的多张预设图片；

利用基于长短期记忆网络LSTM的循环神经网络RNN对训练样本进行训练，得到图片文字识别模型；其中，一个训练样本中包括：一张预设图片和该预设图片中所记录的文字内容。

可选地，在本发明的一个实施例中，获得图片中记录的文字内容和目标文档中的文本内容对应的发音数据的步骤，可以包括：

查找电子设备中的语音数据库，得到图片中记录的文字内容和目标文档中的文本内容对应的发音数据。

可选地，在本发明的另一个实施例中，获得图片中记录的文字内容和目标文档中的文本内容对应的发音数据的步骤，可以包括：

将图片中记录的文字内容和目标文档中的文本内容发送给预设的服务器，以使服务器生成图片中记录的文字内容和目标文档中的文本内容对应的发音数据，并将发音数据发送至电子设备。

可选地，在本发明实施例中，对发音数据进行播放的步骤可以包括：

在获得发音数据后，确定发音数据中的、图片中记录的文字内容对应的图片发音数据，并确定发音数据中的、目标文档中的文本内容对应的文本发音数据；

根据预设的发音顺序，对图片发音数据和文本发音数据进行播放。

可选地，在本发明实施例中，预设的发音顺序可以包括：

播放文本发音数据后再播放图片发音数据的顺序、播放图片发音数据后再播放文本发音数据的顺序，或，文本和图片在目标文档中的出现顺序。

第二方面，本发明实施例提供了一种文档内容朗读装置，应用于电子设备，该装置可以包括：

判断模块，用于判断待朗读的目标文档中是否存在图片；

输入模块，用于当目标文档中存在图片时，将目标文档中的图片输入至预先构建的图片文字识别模型，得到图片中记录的文字内容；

第一获得模块，用于获得图片中记录的文字内容和目标文档中的文本内容对应的发音数据；

播放模块，用于对发音数据进行播放。

可选地，在本发明实施例中，该装置还可以包括：

第二获得模块，用于在将目标文档中的图片输入至预先构建的图片文字识别模型之前，获得记录有文字内容的多张预设图片；

训练模块，用于利用基于长短期记忆网络LSTM的循环神经网络RNN对训练样本进行训练，得到图片文字识别模型；其中，一个训练样本中包括：一张预设图片和该预设图片中所记录的文字内容。

可选地，在本发明的一个实施例中，第一获得模块可以包括：

查找单元，用于查找电子设备中的语音数据库，得到图片中记录的文字内容和目标文档中的文本内容对应的发音数据。

可选地，在本发明的另一个实施例中，第一获得模块可以包括：

发送单元，用于将图片中记录的文字内容和目标文档中的文本内容发送给预设的服务器，以使服务器生成图片中记录的文字内容和目标文档中的文本内容对应的发音数据，并将发音数据发送至电子设备。

可选地，在本发明实施例中，播放模块可以包括：

确定单元，用于在获得发音数据后，确定发音数据中的、图片中记录的文字内容对应的图片发音数据，并确定发音数据中的、目标文档中的文本内容对应的文本发音数据；

播放单元，用于根据预设的发音顺序，对图片发音数据和文本发音数据进行播放。

可选地，在本发明实施例中，预设的发音顺序可以包括：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一项文档内容朗读方法的方法步骤。

第四方面，本发明实施例提供了一种可读存储介质，可读存储介质内存储有计算机程序，计算机程序被电子设备的处理器执行时实现上述任一项文档内容朗读方法的方法步骤。

第五方面，本发明实施例提供了一种应用程序，当其在电子设备上运行时，使得所述协处理器执行：上述任一项文档内容朗读方法的方法步骤。

在本发明实施例中，当需要对目标文档中的内容进行朗读时，可以判断该目标文档中是否存在图片。若该目标文档中存在图片，则可以将该目标文档中的图片输入至预先构建的图片文字识别模型，从而获得该图片文字识别模型输出的、该图片中记录的文字内容。然后，可以获得该图片中记录的文字内容和该目标文档中的文本内容对应的发音数据。之后，对该发音数据进行播放。这样，可以对目标文档中的文本内容，以及目标文档中图片所记录的文字内容进行朗读，提高了用户的文档阅读体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文档内容朗读方法的流程图；

图2为本发明实施例提供的一种文档内容朗读装置的结构示意图；

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中存在的问题，本发明实施例提供了一种文档内容朗读方法、装置、电子设备及可读存储介质。

下面首先对本发明实施例提供的文档内容朗读方法进行说明。

本发明实施例提供的文档内容朗读方法可以应用于安装有办公软件的电子设备。该电子设备包括但并不局限于电脑和手机。

其中，办公软件包括但并不局限于：WPS(WPS software，WPS软件)办公软件、PPT(PowerPoint，演示文稿)办公软件和PDF(Portable Document Format，便携式文档格式)办公软件，当然并不局限于此。

相应地，本发明实施例中的目标文档包括但并不局限于：WPS文档、PPT文档和PDF文档，当然并不局限于此。

参见图1，该方法可以包括如下步骤：

S101：判断待朗读的目标文档中是否存在图片；若存在，执行步骤S102；

S102：将目标文档中的图片输入至预先构建的图片文字识别模型，得到图片中记录的文字内容；

S103：获得图片中记录的文字内容和目标文档中的文本内容对应的发音数据；

S104：对发音数据进行播放。

在本发明实施例中，当需要对目标文档中的内容进行朗读时，可以判断该目标文档中是否存在图片。若该目标文档中存在图片，则可以将该目标文档中的图片输入至预先构建的图片文字识别模型，从而获得该图片文字识别模型输出的、该图片中记录的文字内容。然后，可以获得该图片中记录的文字内容和该目标文档中的文本内容对应的发音数据。之后，对该发音数据进行播放。这样，可以对目标文档中的文本内容，以及目标文档中图片所记录的文字内容进行朗读，解决了现有技术中不能对图片所记录的文字内容进行朗读的问题，提高了用户的文档阅读体验。

下面以PDF文档为示例，对本发明实施例提供的文档内容朗读方法进行说明。

假设电子设备中安装有PDF办公软件，并且通过该PDF办公软件打开有PDF文档。当电子设备检测到针对该PDF文档的内容朗读指令时，为了使用户获得较佳的文档阅读体验，电子设备可以通过该PDF文档的文档结构，确定该PDF文档的文档内容中是否存在图片对象(即图片标识)。若存在图片对象，则可以确定该PDF文档中存在图片。若不存在图片对象，则可以确定该PDF文档中不存在图片。

当该PDF文档中存在图片时，例如该PDF文档中存在图片a和b。此时，可以将该PDF文档中的图片a和b输入至预先构建的图片文字识别模型。

由于该图片文字识别模型可以对输入至该模型的图像中文字内容进行识别。因而，该电子设备可以获得该图片文字识别模型输出的、该图片a中记录的文字内容和该图片b中记录的文字内容。其中，该图片文字识别模型可以是存储在电子设备中的模型，也可以是存储在除电子设备之外的电子设备中的模型，这都是合理的。为了清晰布局，后续对该图片文字识别模型的构建方式进行说明。

其中，该图片a和b中记录的文字内容包括但并不局限于：汉字、英文单词、英文字母、阿拉伯数字和符号。其中，符号包括但并不局限于：！、#、＝、￥和％。

另外，也可以让用户来确定该PDF文档中哪些图片需要进行朗读。例如，在确定PDF文档中存在的图片之后，可以通过一个提示框来询问用户该PDF文档中哪张图片需要进行朗读。当用户在该提示框中某一图片标识后的选择框打钩后，电子设备可以将用户选中的图片输入至图片文字识别模型。这样，可以减少图片文字识别模型的识别工作量。

假设将该PDF文档中的图片a和b均输入至图片文字识别模型。那么，该图片文字识别模型在接收到图片a和b后，可以按照接收图片的先后顺序，依次识别图片a和b中所记录的文字内容。

当然，该图片文字识别模型在接收到图片a和b后，也可以分别给图片a和b设置图片标识01和10。然后，同时对图片a和b中所记录的文字内容进行识别，这也是合理的。

举例而言，图片a中记录有：阳光正好。那么，在将图片a输入至预先构建的图片文字识别模型后，该图片文字识别模型可以识别得到图片a所记录的文字内容为：阳光正好。

在图片文字识别模型输出图片a和b所记录的文字内容之后，电子设备可以获得图片a和b所记录的文字内容以及该PDF文档中的文本内容。然后，可以将该查找电子设备中所存储的语音数据库，从而可以得到图片a和b所记录的文字内容以及该PDF文档中的文本内容对应的发音数据。

当然，电子设备也可以将图片a和b所记录的文字内容以及该PDF文档中的文本内容发送给预设的服务器。这样，该服务器在接收到电子设备发送的数据后，可以生成图片a和b中记录的文字内容和目标文档中的文本内容对应的发音数据，并将发音数据发送至电子设备。

其中，电子设备还可以将图片a和b所记录的文字内容、该PDF文档中的文本内容，以及发音类型(例如男声类型、女声类型和变声类型等)发送给该预设的服务器，这也是合理的。当然并不局限于此。

电子设备在获得发音数据后，可以对发音数据进行播放。从而，可以实现对PDF文档中的文本内容，以及PDF文档中图片a和b所记录的文字内容的朗读，提高了用户的文档阅读体验。

另外，电子设备在获得发音数据后，还可以确定发音数据中的、图片a和b中记录的文字内容对应的图片发音数据。还可以确定发音数据中的、该PDF文档中的文本内容对应的文本发音数据。然后，根据预设的发音顺序，对该图片发音数据和文本发音数据进行播放。这样，使用户可以根据具体需求来对PDF文档进行朗读，提高用户体验。

该预设的发音顺序可以为：播放文本发音数据后再播放图片发音数据的顺序。也可以为：播放图片发音数据后再播放文本发音数据的顺序。还可以为：文本和图片在PDF文档中的出现顺序。当然并不局限于此。

可以理解的是，当该PDF文档中不存在图片时，电子设备可以获得该PDF文档中的文本内容。然后，可以在电子设备中所存储的语音数据库查找该PDF文档中的文本内容所对应的发音数据。当然，也可以该PDF文档中的文本内容发送给预设的服务器。这样，该服务器在接收到电子设备发送的数据后，可以生成该PDF文档中的文本内容对应的发音数据，并将发音数据发送至电子设备。这都是合理的。

需要说明的是，对word文档、WPS文档和PPT文档等文档的朗读方式可以参考上述PDF文档的朗读方式，在此不做详述。

下面对本发明实施例提供的图片文字识别模型的构建方式进行说明。

其中，在将PDF文档中的图片a和b输入至预先构建的图片文字识别模型之前，可以获得记录有文字内容的多张预设图片。然后，可以利用基于LSTM(Long Short-TermMemory，长短期记忆网络)的RNN(Recurrent Neural Network，循环神经网络)对训练样本进行训练，得到图片文字识别模型。其中，一个训练样本中可以包括：一张预设图片和该预设图片中所记录的文字内容。

可以理解的是，可以获得记录有文字内容的多张预设图片。然后，利用一张预设图片来构建一个训练样本。进而，利用基于长短期记忆网络LSTM的循环神经网络RNN对训练样本进行训练，从而得到图片文字识别模型。

举例而言，构建得到的一个训练样本中包括：预设图片k、预设图片k中所记录的文字内容“阳光正好”。

其中，由于用于训练该图片文字识别模型的训练样本越多，则训练得到的图片文字识别模型的识别结果就越准确，因而可以采用尽量多的训练样本来训练该图片文字识别模型。

另外，为了提高图片文字识别模型识别文字内容的准确性，在训练得到图片文字识别模型之后，还可以利用多个优化样本对该图片文字识别模型进行调优。其中，一个优化样本中包括：用于优化模型的图片和该图片所记录的文字内容。这样，可以对图片文字识别模型中的参数进行优化，从而使得该模型的输出的识别结果更准确。

其中，本发明实施例中的图片文字识别模型属于AI(Artificial Intelligence，人工智能)中的模型。为了减少电子设备的计算量，可以将该图片文字识别模型可以设置在服务器中，电子设备可以通过图片文字识别模型接口，将待识别文字内容的图片输入至该图片文字识别模型，并可以通过图片文字识别模型接口获得该模型输出的文字内容。

以上，可以对目标文档中的文本内容，以及目标文档中图片所记录的文字内容进行朗读，提高了用户的文档阅读体验。

相应于上述方法实施例，本发明实施例还提供了一种文档内容朗读装置，应用于电子设备，参见图2，该装置可以包括：

判断模块201，用于判断待朗读的目标文档中是否存在图片；

输入模块202，用于当目标文档中存在图片时，将目标文档中的图片输入至预先构建的图片文字识别模型，得到图片中记录的文字内容；

第一获得模块203，用于获得图片中记录的文字内容和目标文档中的文本内容对应的发音数据；

播放模块204，用于对发音数据进行播放。

应用本发明实施例提供的装置，当电子设备需要对目标文档中的内容进行朗读时，可以判断该目标文档中是否存在图片。若该目标文档中存在图片，则可以将该目标文档中的图片输入至预先构建的图片文字识别模型，从而获得该图片文字识别模型输出的、该图片中记录的文字内容。然后，可以获得该图片中记录的文字内容和该目标文档中的文本内容对应的发音数据。之后，对该发音数据进行播放。这样，可以对目标文档中的文本内容，以及目标文档中图片所记录的文字内容进行朗读，提高了用户的文档阅读体验。

可选地，在本发明实施例中，该装置还可以包括：

可选地，在一种实现方式中，第一获得模块203可以包括：

可选地，在另一种实现方式中，第一获得模块203可以包括：

可选地，在本发明实施例中，播放模块204可以包括：

可选地，在本发明实施例中，预设的发音顺序可以包括：

相应于上述方法实施例，本发明实施例还提供了一种电子设备，参见图3，该电子设备包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现上述任一项文档内容朗读方法的方法步骤。

在本发明实施例中，当电子设备需要对目标文档中的内容进行朗读时，电子设备可以判断该目标文档中是否存在图片。若该目标文档中存在图片，则可以将该目标文档中的图片输入至预先构建的图片文字识别模型，从而获得该图片文字识别模型输出的、该图片中记录的文字内容。然后，可以获得该图片中记录的文字内容和该目标文档中的文本内容对应的发音数据。之后，对该发音数据进行播放。这样，可以对目标文档中的文本内容，以及目标文档中图片所记录的文字内容进行朗读，提高了用户的文档阅读体验。

相应于上述方法实施例，本发明实施例还提供了一种可读存储介质，该可读存储介质内存储有计算机程序，计算机程序被电子设备的处理器执行时实现上述任一项文档内容朗读方法的方法步骤。

本发明实施例提供的可读存储介质中存储的计算机程序被电子设备的处理器执行后，且当电子设备需要对目标文档中的内容进行朗读时，电子设备可以判断该目标文档中是否存在图片。若该目标文档中存在图片，则可以将该目标文档中的图片输入至预先构建的图片文字识别模型，从而获得该图片文字识别模型输出的、该图片中记录的文字内容。然后，可以获得该图片中记录的文字内容和该目标文档中的文本内容对应的发音数据。之后，对该发音数据进行播放。这样，可以对目标文档中的文本内容，以及目标文档中图片所记录的文字内容进行朗读，提高了用户的文档阅读体验。

相应于上述方法实施例，本发明实施例还提供了一种应用程序，当其在电子设备上运行时，使得所述协处理器执行：上述任一项文档内容朗读方法的方法步骤。

本发明实施例提供的应用程序被电子设备的处理器执行后，且当电子设备需要对目标文档中的内容进行朗读时，电子设备可以判断该目标文档中是否存在图片。若该目标文档中存在图片，则可以将该目标文档中的图片输入至预先构建的图片文字识别模型，从而获得该图片文字识别模型输出的、该图片中记录的文字内容。然后，可以获得该图片中记录的文字内容和该目标文档中的文本内容对应的发音数据。之后，对该发音数据进行播放。这样，可以对目标文档中的文本内容，以及目标文档中图片所记录的文字内容进行朗读，提高了用户的文档阅读体验。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备和可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文档内容朗读方法，其特征在于，应用于电子设备，所述方法包括：

判断待朗读的目标文档中是否存在图片；

若存在，展示针对所述目标文档中的图片的提示框，并将用户从所述提示框中展示的图片中选择的图片输入至预先构建的图片文字识别模型，得到所述图片中记录的文字内容；

获得所述图片中记录的文字内容和所述目标文档中的文本内容对应的发音数据；

对所述发音数据进行播放；

其中，所述获得所述图片中记录的文字内容和所述目标文档中的文本内容对应的发音数据的步骤，包括：

将所述图片中记录的文字内容、所述目标文档中的文本内容以及发音类型发送给预设的服务器，以使所述服务器生成所述图片中记录的文字内容和所述目标文档中的文本内容对应的发音数据，并将所述发音数据发送至所述电子设备。

2.根据权利要求1所述的方法，其特征在于，在将用户从所述提示框中展示的图片中选择的图片输入至预先构建的图片文字识别模型的步骤之前，所述方法还包括：

获得记录有文字内容的多张预设图片；

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述对所述发音数据进行播放的步骤，包括：

在获得所述发音数据后，确定所述发音数据中的、所述图片中记录的文字内容对应的图片发音数据，并确定所述发音数据中的、所述目标文档中的文本内容对应的文本发音数据；

根据预设的发音顺序，对所述图片发音数据和所述文本发音数据进行播放。

4.根据权利要求3所述的方法，其特征在于，所述预设的发音顺序包括：

5.一种文档内容朗读装置，其特征在于，应用于电子设备，所述装置包括：

判断模块，用于判断待朗读的目标文档中是否存在图片；

输入模块，用于当目标文档中存在图片时，展示针对所述目标文档中的图片的提示框，并将用户从所述提示框中展示的图片中选择的图片输入至预先构建的图片文字识别模型，得到所述图片中记录的文字内容；

第一获得模块，用于获得所述图片中记录的文字内容和所述目标文档中的文本内容对应的发音数据；

播放模块，用于对所述发音数据进行播放；

其中，所述第一获得模块包括：

发送单元，用于将所述图片中记录的文字内容、所述目标文档中的文本内容以及发音类型发送给预设的服务器，以使所述服务器生成所述图片中记录的文字内容和所述目标文档中的文本内容对应的发音数据，并将所述发音数据发送至所述电子设备。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第二获得模块，用于在将所述目标文档中的图片输入至预先构建的图片文字识别模型之前，获得记录有文字内容的多张预设图片；

7.根据权利要求5-6中任一项所述的装置，其特征在于，所述播放模块包括：

确定单元，用于在获得所述发音数据后，确定所述发音数据中的、所述图片中记录的文字内容对应的图片发音数据，并确定所述发音数据中的、所述目标文档中的文本内容对应的文本发音数据；

播放单元，用于根据预设的发音顺序，对所述图片发音数据和所述文本发音数据进行播放。

8.根据权利要求7所述的装置，其特征在于，所述预设的发音顺序包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4中任一所述的方法步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质内存储有计算机程序，所述计算机程序被电子设备的处理器执行时实现权利要求1-4中任一所述的方法步骤。