CN106991083A

CN106991083A - 一种电子文档处理的方法及装置

Info

Publication number: CN106991083A
Application number: CN201710165668.5A
Authority: CN
Inventors: 甘俊源
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2017-03-20
Filing date: 2017-03-20
Publication date: 2017-07-28

Abstract

本发明公开一种电子文档处理的方法及装置，所述方法包括：将电子文档转换为HTML文件，读取所述HTML文件，获得每个字符串；根据每个字符串的字体大小确定每个标题对应的字符串、正文对应的字符串，根据读取所述HTML文件的顺序，确定标题间的关联关系；将每个字符串写入文本文档TXT文件。由于在本发明实施例中，将电子文档转换为HTML文件，获得每个字符串，根据每个字符串的字体大小确定每个标题对应的字符串、正文对应的字符串，并将每个字符串写入TXT文件，目前很多工具都能方便的读取TXT文件。因此，可以实现在不使用第三方软件的情况下，获取电子文档的内容。

Description

一种电子文档处理的方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种电子文档处理的方法及装置。

背景技术

随着社会信息化的快速发展，电子文档已经成为了各个企业内的一种通用的文件媒介。我们经常需要通过电子文档传输信息，从而保障正常的工作。我们工作中经常用到的电子文档有文字处理器Word、演示文稿PowerPoint、办公软件Excel和便携式文档格式(Portable Document Format、PDF)等等。现如今，我们使用的电子文档，必须使用第三方软件打开，才能获取电子文档的内容，从而限制了电子文档的传播方式。

然而，如何在不使用第三方软件的情况下，获取电子文档的内容，目前还没有解决方案。

发明内容

本发明实施例提供一种电子文档处理的方法及装置，用以解决在不使用第三方软件的情况下，无法获取电子文档的内容的问题

为达到上述目的，本发明实施例公开了一种电子文档处理的方法，应用于电子设备，包括：

将电子文档转换为超文本标记语言HTML文件，读取所述HTML文件，获得所述HTML文件中包含的每个字符串；

根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，确定每个标题对应的字符串、每个标题中的正文对应的字符串；根据读取所述HTML文件的顺序，确定标题间的关联关系；

根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件。

进一步地，所述将每个字符串写入文本文档TXT文件之前，所述方法还包括：

根据每个字符串的内容，识别目录标题对应的字符串；并

根据预先保存的正文对应的字体大小，确定目录标题中的正文对应的字符串；

所述根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件包括：

根据每个标题对应的字符串、每个标题中的正文对应的字符串、标题间的关联关系，及目录标题对应的字符串和目录标题中的正文对应的字符串，将每个字符串写入文本文档TXT文件。

进一步地，所述标题间的关联关系包括：

同一等级的标题间的前后关系及不同等级的标题间的归属关系。

进一步地，所述确定每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系之后，将每个字符串写入文本文档TXT文件之前，所述方法还包括：

确定每个标题的标识信息及每个标题的等级，在数据库中针对每个标题，记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串；

所述将每个字符串写入文本文档TXT文件包括：

根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件。

进一步地，所述根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件之前，所述方法还包括：

判断所述HTML文件中是否还存在未被识别的字符串；

若存在，将所述字符串作为封面字符串并记录在数据库中；

所述根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件包括：

根据数据库中记录的封面字符串和针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入文本文档TXT文件。

进一步地，所述根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件包括：

将每个字符串转换为对象表示法JSON数据；

根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将对应的JSON数据写入TXT文件。

进一步地，如果电子文档中存在图片，所述方法还包括：

将所述电子文档中的图片保存为图片文件，其中所述HTML文件中记录有图片文件中的每个图片在所述HTML文件中的位置；

所述将每个字符串写入文本文档TXT文件之后，所述方法还包括：

将所述图片文件与所述TXT文件保存在同一文件夹中，其中，所述TXT文件中记录有图片文件中的每个图片在所述TXT文件中的位置。

另一方面，本发明实施例提供了一种电子文档处理的装置，所述装置包括：

获得模块，用于将电子文档转换为超文本标记语言HTML文件，读取所述HTML文件，获得所述HTML文件中包含的每个字符串；

确定模块，用于根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，确定每个标题对应的字符串、每个标题中的正文对应的字符串；根据读取所述HTML文件的顺序，确定标题间的关联关系；

写入模块，用于根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件。

进一步地，所述装置还包括：

识别确定模块，用于根据每个字符串的内容，识别目录标题对应的字符串；并根据预先保存的正文对应的字体大小，确定目录标题中的正文对应的字符串；

所述写入模块，具体用于根据每个标题对应的字符串、每个标题中的正文对应的字符串、标题间的关联关系，及目录标题对应的字符串和目录标题中的正文对应的字符串，将每个字符串写入文本文档TXT文件。

进一步地，所述装置还包括：

记录模块，用于确定每个标题的标识信息及每个标题的等级，在数据库中针对每个标题，记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串；

所述写入模块，具体用于根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件。

进一步地，所述装置还包括：

判断记录模块，用于判断所述HTML文件中是否还存在未被识别的字符串；若存在，将所述字符串作为封面字符串并记录在数据库中；

所述写入模块，具体用于根据数据库中记录的封面字符串和针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入文本文档TXT文件。

进一步地，所述写入模块，还用于将每个字符串转换为对象表示法JSON数据；根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将对应的JSON数据写入TXT文件。

进一步地，所述装置还包括：

保存模块，用于如果电子文档中存在图片，将所述电子文档中的图片保存为图片文件，其中所述HTML文件中记录有图片文件中的每个图片在所述HTML文件中的位置；

所述保存模块，还用于将所述图片文件与所述TXT文件保存在同一文件夹中，其中，所述TXT文件中记录有图片文件中的每个图片在所述TXT文件中的位置。

本发明实施例提供了一种电子文档处理的方法及装置，所述方法包括：将电子文档转换为超文本标记语言HTML文件，读取所述HTML文件，获得所述HTML文件中包含的每个字符串；根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，确定每个标题对应的字符串、每个标题中的正文对应的字符串；根据读取所述HTML文件的顺序，确定标题间的关联关系；根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件。由于在本发明实施例中，将电子文档转换为HTML文件，获得所述HTML文件中包含的每个字符串，根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，可以确定每个标题对应的字符串、每个标题中的正文对应的字符串，根据读取所述HTML文件的顺序，确定标题间的关联关系，并将每个字符串写入TXT文件，目前很多工具都能方便的读取TXT文件，通过数据间的关系能还原出电子文档中的内容。因此，可以实现在不使用第三方软件的情况下，获取电子文档的内容。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种电子文档处理的过程示意图；

图2为本发明实施例提供的在数据库中记录信息的示意图；

图3为本发明实施例提供的一种电子文档处理的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的一种电子文档处理的过程示意图，该过程包括以下步骤：

S101：将电子文档转换为超文本标记语言HTML文件，读取所述HTML文件，获得所述HTML文件中包含的每个字符串。

本发明实施例提供的电子文档处理的方法应用于电子设备，所述电子设备包括：手机、电脑等设备。

现有的在获取电子文档的内容时，都需要用到第三方软件，所述电子文档包括Word、PowerPoint、Excel和PDF等等，获取电子文档的内容时用到的第三方软件例如可以为微软办公软件Microsoft Office。为了实现在不使用第三方软件的情况下，获取电子文档中的内容，在本发明实施例中，首先将电子文档转换为HTML文件。具体的，在将电子文档转换为HTML文件时，可以直接将电子文档另存为HTML文件，也可以通过现有的文件转换器实现将电子文档转换为HTML文件，在此不对将电子文档转换为HTML文件的方法进行限制。

将电子文档转换为HTML文件后，进行HTML文件的读取，例如，可以通过计算机编程语言JAVA程序读取HTML文件，进而获得所述HTML文件中包含的每个字符串。

S102：根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，确定每个标题对应的字符串、每个标题中的正文对应的字符串；根据读取所述HTML文件的顺序，确定标题间的关联关系。

由于电子文档中，标题和标题中的正文对应的字体大小是不同的，因此，可以根据字体大小确定每个标题和每个标题中的正文。

具体的，电子设备通过JAVA程序读取HTML文件，获得所述HTML文件中包含的每个字符串，其中，每个字符串中包括HTML标签，HTML标签指明了每个字符串的字体大小。在电子设备中预先保存有文档标题及正文对应的字体大小，根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，确定每个标题对应的字符串及每个标题中的正文对应的字符串。由于在读取所述HTML文件时是按照一定的顺序读取的，例如从前往后，或者从后往前，因此可以根据读取所述HTML文件的顺序，确定标题间的关联关系。

所述标题间的关联关系包括：

在本发明实施例中，根据读取所述HTML文件的顺序，可以确定同一等级的标题间的前后关系，另外电子文档中的标题分为不同的等级，标题的等级可以根据字符串的字体大小确定，根据每个字符串的字体大小以及读取所述HTML文件的顺序，可以确定不同等级的标题间的归属关系。

根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，确定每个标题对应的字符串、每个标题中的正文对应的字符串，下面以一个例子进行说明。

例如，预先保存的文档标题及正文对应的字体大小为：文档标题对应的字体大小为三号字体、小三号字体和四号字体；文档正文对应的字体大小为五号字体。根据每个字符串中包括的HTML标签指明的每个字符串的字体大小，将字体大小为三号字体、小三号字体和四号字体的字符串确定为标题对应的字符串，将字体大小为五号字体的字符串确定为标题中的正文对应的字符串。

在本发明实施例中，在确定出每个标题对应的字符串及每个标题中的正文对应的字符串时，当确定出了标题字符串后，则位于该标题字符串后，且与该标题字符串相邻的正文字符串为该标题中的正文对应的字符串。

S103：根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件。

目前很多工具都能方便的读取TXT文件，获取TXT文件中的内容，因此，在确定出每个标题对应的字符串及每个标题中的正文对应的字符串后，可以新建一个TXT文件，将每个字符串写入所述TXT文件。由于根据读取所述HTML文件的顺序，确定了标题间的关联关系，因此可以保证按照电子文档中内容的顺序将每个字符串写入TXT文件。

具体的，在将每个字符串写入所述TXT文件中时，针对每个标题，根据确定的标题对应的字符串、每个标题中的正文对应的字符串，及标题间的关联关系，可以判断当前已经写入的TXT文件中的是否存在与该待写入的标题存在关联关系的标题，如果存在，根据记录的所述标题间的关联关系，确定该待写入的标题的位置，将该标题对应的字符串写入所述TXT文件，然后将该标题中的正文对应的字符串写入所述TXT文件中该标题对应的字符串的下方；如果当前已经写入的TXT文件中的不存在与该待写入的标题存在关联关系的标题，则可以确定一个任意位置，将该标题对应的字符串写入所述TXT文件，然后将该标题中的正文对应的字符串写入所述TXT文件中该标题对应的字符串的下方。

不过为了方便电子文档的转换，一般在将字符串写入TXT文件时，也是按照一定的顺序写入的，例如可以先查找位于文档的开始的标题，然后根据其他标题与该标题的关联关系，依次在TXT文件写入每个标题对应的字符串及其正文对应的字符串。

由于在本发明实施例中，将电子文档转换为HTML文件，通过读取所述HTML文件，获得所述HTML文件中包含的每个字符串，根据根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，可以确定每个标题对应的字符串、每个标题中的正文对应的字符串；根据读取所述HTML文件的顺序，确定标题间的关联关系，将每个标题对应的字符串及每个标题中的正文对应的字符串写入TXT文件，目前很多工具都能方便的读取TXT文件，通过数据间的关系能还原出电子文档中的内容。因此，可以实现在不使用第三方软件的情况下，获取电子文档的内容。

实施例2：

为了使获取的电子文档的内容更加完整，在上述实施例的基础上，在本发明实施例中，所述将每个字符串写入文本文档TXT文件之前，所述方法还包括：

根据每个字符串的内容，识别目录标题对应的字符串；并

针对电子文档中的内容，一般只有目录标题包括“目录”这两个字，因此可以根据每个字符串的内容，识别目录标题对应的字符串。

具体的，电子设备获得所述HTML文件中包含的每个字符串，因为每个字符串中包括内容，因此根据每个字符串的内容，通过逐次匹配的方法识别目录标题对应的字符串。即针对字符串中的内容，逐次判断字符串的内容是否为“目录”这两个字，如果是，将该字符串识别为目录标题对应的字符串。

另外，电子文档中的正文，有可能也包括“目录”这两个字，但是正文中的“目录”和目录标题中的“目录”字体大小是不同的，因此为了使识别的目录标题更准确，可以预先保存目录标题的字体大小，在识别出内容为“目录”这两个字的字符串后，判断该字符串的字体大小是否为预先保存的目录标题的字体大小，如果是，将该字符串识别为目录标题对应的字符串。

在本发明实施例中，根据每个字符串的内容，识别目录标题对应的字符串，并且，在电子设备中预先保存有正文对应的字体大小，因此根据每个字符串的字体大小和预先保存的正文对应的字体大小，可以确定目录标题中的正文对应的字符串，其中可以将位于目录标题之后且与目录标题相邻的正文对应的字符串确定为目录标题中的正文对应的字符串。

根据本发明实施例公开的内容，不仅可以确定每个标题对应的字符串及每个标题中的正文对应的字符串，还可以确定目录标题对应的字符串和目录标题中的正文对应的字符串，为了使获取的电子文档的内容更加完整，在本发明实施例中，根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，及目录标题对应的字符串和目录标题中的正文对应的字符串，将每个字符串写入文本文档TXT文件。

由于在本发明实施例中，根据每个字符串的内容，识别目录标题对应的字符串，并且根据预先保存的正文对应的字体大小，确定目录标题中的正文对应的字符串，根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，及目录标题对应的字符串和目录标题中的正文对应的字符串，将每个字符串写入文本文档TXT文件，因此，使得获取的电子文档的内容更加完整。

实施例3：

在本发明实施例中当识别出每个字符串后，可以将该字符串写入文本文档TXT文件，为了提高电子文档的转换效率，并且保证电子文档中的每部分内容都能被完整的转换，在上述各实施例的基础上，在本发明实施例中，所述确定每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系之后，将每个字符串写入文本文档TXT文件之前，所述方法还包括：

所述将每个字符串写入文本文档TXT文件包括：

根据字体大小确定出每个标题后，可以确定该标题的标识信息，该标题的标识信息在该电子文档中唯一，并且因为在对HTML文件中的字符串进行识别时是按照一定的顺序识别的，例如从前往后，或者从后往前，因此标题的前后顺序可知，因此根据标题的等级，以及读取HTML文件的顺序，可以确定同一等级的标题间的前后关系，以及不同等级的标题间的归属关系，根据标题间的关联关系，可以保证每个字符串可以按照与电子文档相同的格式被写入TXT文件。

在电子设备中可以预先保存标题对应的字体大小的范围，也可以预先保存每种等级的标题对应的字体大小，从而可以准确的确定标题等级。

在本发明实施例中，在电子设备中预先保存有文档标题等级对应的字体大小，根据每个字符串的字体大小及预先保存的文档标题等级对应的字体大小，可以确定每个标题的等级。在确定每个标题的等级之后，可以根据标题的等级和读取所述HTML文件的顺序，确定同一等级的标题间的前后关系及不同等级的标题间的归属关系。为了提高电子文档的转换效率，并且保证电子文档中的每部分内容都能被完整的转换，可以在数据库中针对每个标题，记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题、及该标题对应的标题字符串、标题中的正文对应的字符串。

在数据库中针对每个标题记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题、及该标题对应的标题字符串、标题中的正文对应的字符串后，根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件。

较佳的，为了防止数据冗余，如图2所示，在数据库中记录每个标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串时，可以将每个标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串分别记录在数据库中的标题记录表entrytitle和记录表entry。

具体的，可以在entrytitle中记录标题的标题信息、标题对应的标题字符串和标题等级，由于确定了标题间的关联关系，因此可以在entrytitle中记录与该标识信息的标题存在关联关系的其他标题的标识信息，其中该其他标题的标识信息可以包括该标识的信息的标题所归属的上一等级的标题的标识信息，与该标识信息的标题存在前后关系的其同一等级的标题的标识信息。例如该标题为等级为二级的第一个标题，则在与该标识信息的标题存在关联关系的其他标题的标识信息中，记录有该二级的标题归属的一级标题的标识信息，位于该二级标题之后的同为二级标题的第二个标题的标识信息。

因为一般在进行HTML文件读取时是按照一定的顺序来的，例如从前往后，或者从后往前的顺序，因此一般在记录与该标识信息的标题存在前后关系的其同一等级的标题的标识信息时，如果是从前往后的顺序读取的HTML文件，则记录有位于该标识信息的标题之前的与该标识信息的标题同一等级的标题的标识信息；如果是从后往前的顺序读取的HTML文件，则记录有位于该标识信息的标题之后的与该标识信息的标题同一等级的标题的标识信息。

另外为了能够清楚的知道entrytitle中记录的是哪个电子文档对应的字符串，还可以将电子文档的标识信息记录在entrytitle中。

可以在entry中记录标题中的正文对应的字符串，为了对每个正文进行区分，可以确定每个正文的标识信息，其中正文的标识信息在整个电子文档中唯一，另外为了使后续能够正确的获取电子文档中的内容，还可以在entry中记录该正文对应的的标题的标识信息及该正文对应的字符串。

在将每个字符串写入TXT文件时，根据每个标题对应的字符串和每个标题中的正文对应的字符串的关联关系，将entrytitle中的每个标题对应的标题字符串，entry中的每个标题中的正文对应的字符串写入TXT文件。由于确定了每个标题对应的字符串和每个标题中的正文对应的字符串的关联关系，因此可以保证后续正确的获取电子文档中的内容。

在本发明实施例中，根据每个字符串的字体大小及预先保存的文档标题等级对应的字体大小，可以确定每个标题的等级。下面以一个例子进行说明。

例如，预先保存的文档标题等级对应的字体大小为：文档一级标题对应的字体大小为三号字体，文档二级标题对应的字体大小为小三号字体，文档三级标题对应的字体大小为四号字体。根据每个字符串中包括的HTML标签指明的每个字符串的字体大小，确定每个标题的等级，即将字体大小为三号字体的字符串确定为一级标题对应的字符串，将字体大小为小三号字体的字符串确定为二级标题对应的字符串，将字体大小为四号字体的字符串确定为三级标题对应的字符串。

由于在本发明实施例中，确定每个标题对应的字符串及每个标题中的正文对应的字符串之后，确定每个标题的标识信息及每个标题的等级，在数据库中针对每个标题记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件，提高了电子文档的转换效率，并且保证电子文档中的每部分内容都能被完整的转换。

实施例4：

为了进一步使获取的电子文档的内容更加完整，在上述各实施例的基础上，在本发明实施例中，所述根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件之前，所述方法还包括：

判断所述HTML文件中是否还存在未被识别的字符串；

若存在，将所述字符串作为封面字符串并记录在数据库中；

所述根据数据库中记录的针对每个标题记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件包括：

电子文档中一般都包括目录标题、目录标题中的正文、标题和标题中的正文，有的电子文档中还可能包括封面。

根据上述各实施例公开的内容，可以识别出每个标题对应的字符串及每个标题中的正文对应的字符串，及目录标题对应的字符串和目录标题中的正文对应的字符串，因此，采用上述实施例当识别完相应的字符串后，通过判断所述HTML文件中是否还存在未被识别的字符串，即可确定所述HTML文件中是否包括封面字符串，即如果存在未被识别的字符串，所述未被识别的字符串即为封面字符串，并将封面字符串记录在数据库中。

根据上述实施例公开的内容，确定了每个标题对应的字符串及每个标题中的正文对应的字符串，在本发明实施例中，确定了封面字符串，为了使获取的电子文档的内容更加完整，在本发明实施例中，根据数据库中记录的封面字符串和针对每个标题记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件。

由于在本发明实施例中，通过判断所述HTML文件中是否还存在未被识别的字符串，将所述存在的未被识别的字符串作为封面字符串并记录在数据库中，根据数据库中记录的封面字符串和针对每个标题记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件，因此，进一步使得获取的电子文档的内容更加完整。

实施例5：

为了实现在不使用第三方软件的情况下，能够通过互联网工具获取电子文档中的内容，在上述各实施例的基础上，在本发明实施例中，所述根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件包括：

将每个字符串转换为对象表示法JSON数据；

由于目前的互联网工具都可以读取JSON数据，因此在本发明实施例中，为了实现在不使用第三方软件的情况下，能够通过互联网工具获取电子文档中的内容，从而使得电子文档能够通过互联网传播，在确定每个标题对应的字符串及每个标题中的正文对应的字符串之后，将每个字符串转换为JSON数据，并根据每个标题对应的字符串及每个标题中的正文对应的字符串，将对应的JSON数据写入TXT文件。其中，可以通过JAVA语言将每个字符串转换为JSON数据，也可以通过其他计算机程序语言将每个字符串转换为JSON数据，在此不对将每个字符串转换为JSON数据的方法进行限制。

将每个字符串转换为JSON数据的过程属于现有技术，在本发明实施例中，不再对此过程进行赘述。

由于在本发明实施例中，将每个字符串转换为JSON数据；根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将对应的JSON数据写入TXT文件，目前的互联网工具都可以读取JSON数据，通过数据间的关系能简单的获取电子文档中的内容，因此，保证了在不使用第三方软件的情况下，能够获取电子文档中的内容，并且使得电子文档能够通过互联网传播。

实施例6：

如果电子文档中存在图片时，为了使获取的电子文档的内容更加完整，在上述各实施例的基础上，在本发明实施例中，如果电子文档中存在图片，所述方法还包括：

针对于存在图片的电子文档，可以将所述电子文档中的图片保存为图片文件，其中，在将电子文档转换为HTML文件时，一般会自动生成图片文件，所述图片文件中保存有电子文档中的图片，在所述HTML文件中记录有所述图片文件中每个图片在所述HTML文件中的位置。

具体的，如果电子文档中存在图片，在将所述电子文档转换为HTML文件时，针对电子文档中的图片，会在所述HTML文件中生成对应的字符串，该字符串指明了所述图片在所述HTML文件中的位置。例如，电子文档的正文内容之间存在一个图片，则在所述电子文档转换后的HTML文件中，所述正文对应的字符串之间会生成所述图片对应的字符串，该字符串指明了所述图片在所述HTML文件中的位置。

由于通过读取所述HTML文件，获得所述HTML文件中包含的每个字符串，因此在将每个字符串写入TXT文件之后，所述TXT文件中记录有图片文件中的每个图片在所述TXT文件中的位置。为了能够获取电子文档中的图片，可以将所述图片文件与所述TXT文件保存在同一文件夹中，由于所述TXT文件中记录有图片文件中的每个图片在所述TXT文件中的位置，并且所述图片文件与TXT文件在同一文件夹中，因此可以保证能够获取电子文档中的图片内容。

由于在本发明实施例中，如果电子文档中存在图片，则将所述电子文档中的图片保存为图片文件，将所述图片文件与所述TXT文件保存在同一文件夹中，其中，所述TXT文件中记录有图片文件中的每个图片在所述TXT文件中的位置，从而使得获取的电子文档的内容更加完整。

图3为本发明实施例提供的一种电子文档处理的装置结构示意图，该装置包括：

获得模块31，用于将电子文档转换为超文本标记语言HTML文件，读取所述HTML文件，获得所述HTML文件中包含的每个字符串；

确定模块32，用于根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，确定每个标题对应的字符串、每个标题中的正文对应的字符串；根据读取所述HTML文件的顺序，确定标题间的关联关系；

写入模块33，用于根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件。

所述装置还包括：

识别确定模块34，用于根据每个字符串的内容，识别目录标题对应的字符串；并根据预先保存的正文对应的字体大小，确定目录标题中的正文对应的字符串；

所述写入模块33，具体用于根据每个标题对应的字符串、每个标题中的正文对应的字符串、标题间的关联关系，及目录标题对应的字符串和目录标题中的正文对应的字符串，将每个字符串写入文本文档TXT文件。

所述装置还包括：

记录模块35，用于确定每个标题的标识信息及每个标题的等级，在数据库中针对每个标题，记录标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串；

所述写入模块33，具体用于根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件。

所述装置还包括：

判断记录模块36，用于判断所述HTML文件中是否还存在未被识别的字符串；若存在，将所述字符串作为封面字符串并记录在数据库中；

所述写入模块33，具体用于根据数据库中记录的封面字符串和针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入文本文档TXT文件。

所述写入模块33，还用于将每个字符串转换为对象表示法JSON数据；根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将对应的JSON数据写入TXT文件。

所述装置还包括：

保存模块37，用于如果电子文档中存在图片，将所述电子文档中的图片保存为图片文件，其中所述HTML文件中记录有图片文件中的每个图片在所述HTML文件中的位置；

所述保存模块37，还用于将所述图片文件与所述TXT文件保存在同一文件夹中，其中，所述TXT文件中记录有图片文件中的每个图片在所述TXT文件中的位置。

本发明实施例提供了一种电子文档处理的方法及装置，所述方法包括：将电子文档转换为超文本标记语言HTML文件，读取所述HTML文件，获得所述HTML文件中包含的每个字符串；根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，确定每个标题对应的字符串、每个标题中的正文对应的字符串，根据读取所述HTML文件的顺序，确定标题间的关联关系；根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件。由于在本发明实施例中，将电子文档转换为HTML文件，获得所述HTML文件中包含的每个字符串，根据每个字符串的字体大小及预先保存的文档标题及正文对应的字体大小，可以确定每个标题对应的字符串、每个标题中的正文对应的字符串；根据读取所述HTML文件的顺序，确定标题间的关联关系，并将每个字符串写入TXT文件，目前很多工具都能方便的读取TXT文件，通过数据间的关系能还原出电子文档中的内容。因此，可以实现在不使用第三方软件的情况下，获取电子文档的内容。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种电子文档处理的方法，其特征在于，应用于电子设备，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将每个字符串写入文本文档TXT文件之前，所述方法还包括：

根据每个字符串的内容，识别目录标题对应的字符串；并

3.如权利要求1所述的方法，其特征在于，所述标题间的关联关系包括：

4.如权利要求3所述的方法，其特征在于，所述确定每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系之后，将每个字符串写入文本文档TXT文件之前，所述方法还包括：

所述将每个字符串写入文本文档TXT文件包括：

5.如权利要求4所述的方法，其特征在于，所述根据数据库中针对每个标题记录的标题的标识信息、与该标识信息的标题存在关联关系的其他标题的标识信息、及该标题对应的标题字符串、标题中的正文对应的字符串，将每个字符串写入TXT文件之前，所述方法还包括：

判断所述HTML文件中是否还存在未被识别的字符串；

若存在，将所述字符串作为封面字符串并记录在数据库中；

6.如权利要求1所述的方法，其特征在于，所述根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将每个字符串写入文本文档TXT文件包括：

将每个字符串转换为对象表示法JSON数据；

7.如权利要求1所述的方法，其特征在于，如果电子文档中存在图片，所述方法还包括：

8.一种电子文档处理的装置，其特征在于，所述装置包括：

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

10.如权利要求8所述的装置，其特征在于，所述装置还包括：

11.如权利要求10所述的装置，其特征在于，所述装置还包括：

12.如权利要求8所述的装置，其特征在于，所述写入模块，还用于将每个字符串转换为对象表示法JSON数据；根据每个标题对应的字符串、每个标题中的正文对应的字符串及标题间的关联关系，将对应的JSON数据写入TXT文件。

13.如权利要求8所述的装置，其特征在于，所述装置还包括：