CN102841886A

CN102841886A - 拆分文档的方法和装置

Info

Publication number: CN102841886A
Application number: CN2011101682413A
Authority: CN
Inventors: 岳永强
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2011-06-21
Filing date: 2011-06-21
Publication date: 2012-12-26
Anticipated expiration: 2031-06-21
Also published as: CN102841886B

Abstract

本发明提供了一种拆分文档的方法和装置，其方法包括：解析出原始文档的xml格式的内容文件和段落样式文件；在所述内容文件中，查找应用所述段落样式文件中的每个段落样式的段落位置；将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。本发明提供了一种拆分文档的装置。本发明的实施例通过解析原始文档的内容文件和段落样式文件，通过段落样式文件中段落样式对内容文件中的内容进行拆分，提取出的内容存储到新的文档中。所以克服了人工直接从文档中提取内容，拆分成新的文档效率较低的问题，达到了高效、快捷的效果。

Description

拆分文档的方法和装置

技术领域

本发明涉及印刷领域，具体而言，涉及一种拆分文档的方法和装置。

背景技术

图书通常由主书名页、文前辅文、正文、文中辅文和文后辅文这几个部分组成。其中，正文由篇、章和节组成。通过对图书数字化处理，可将图书以电子文档的形式保存。

在图书出版前，需要对图书进行编纂。由于图书是由多个部分组成，在编纂过程中，可将各个部分由不同的作者编纂。例如，将含有一本图书内容的文档进行拆分，拆分为三个文档，再将三个文档交给三个不同的作者处理，如审校、修改或排版等。

目前对文档进行拆分的过程，采用人工的方式进行拆分。这种拆分方式存在效率低、时间长的问题，影响了图书的出版时间。

发明内容

本发明旨在提供一种拆分文档的方法和装置，以解决上述人工拆分文档效率低、时间长的问题。

在本发明的实施例中，提供了一种拆分文档的方法，包括：解析出原始文档的xml格式的内容文件和段落样式文件；在所述内容文件中，查找应用所述段落样式文件中的每个段落样式的段落位置；将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。

在本发明的实施例中，提供了一种拆分文档的装置，包括：解析模块，用于解析出原始文档的xml格式的内容文件和段落样式文件；查找模块，用于在所述内容文件中，查找应用所述段落样式文件中的每个段落样式的段落位置；拆分模块，用于将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。

本发明的实施例通过解析原始文档的内容文件和段落样式文件，通过段落样式文件中段落样式对内容文件中的内容进行拆分，提取出的内容存储到新的文档中。所以克服了人工直接从文档中提取内容，拆分成新的文档效率较低的问题，达到了高效、快捷的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例一的流程图；

图2示出了本发明实施例二的流程图；

图3示出了本发明实施例中所显示的内容文件的屏幕截图；

图4示出了本发明实施例中所显示的段落样式文件的屏幕截图；

图5示出了本发明实施例三的流程图；

图6示出了本发明实施例中所显示的实例文件的屏幕截图；

图7示出了本发明实施例中所显示的大纲文件的屏幕截图；

图8示出了本发明实施例四的装置结构框图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。参见图1，实施例一包括以下步骤：

步骤S11：解析出原始文档的xml格式的内容文件和段落样式文件。

原始文档是由多个文件组成，至少包括记录原始文档中存储的字数数据的xml格式的内容文件，规定字符数据显示的段落结构样式存储在xml格式的段落样式文件中。如word格式的文档，通过压缩/解压算法，可提取出xml格式的内容文件和段落样式文件。

步骤S12：在所述内容文件中，查找应用所述段落样式文件中的每个段落样式的段落位置。

步骤S13：将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。

通过在内容文件中按照各个段落样式查找的段落位置，将原始文档分为各个不同的新的文档。由于不同的段落样式体现了文档的结构，通过段落样式拆分文档，可将原始文档规范的拆分为多个文档，且处理时间短，效率高。

各个不同的新文档采用不同的段落样式结构，以便于后续的处理、编纂。

在内容文件中查找段落样式文件中的各个段落样式、以及输出文档的过程，可有多种不同的方式，下面给出优选的方式并通过实施例二说明，参见图2，包括以下步骤：

S21：解析出原始文档的xml格式的内容文件和段落样式文件。

S22：在所述内容文件中遍历所述段落样式文件中的每个段落样式所对应的段落样式ID。

内容文件存在的段落样式ID与段落样式文件中的段落样式具有对应关系。

参见图3、图4所示的内容文件、段落样式文件的屏幕截图，图3中所示的ID为<w：P style w：val＝“1”/>，说明段落样式ID为“1”，该段落样式ID对应图4中的段落样式名称为“章标题”的段落样式。参见图4的屏幕截图上所示的命令参数：

<w：style w：type ＝“paragraph”w：styleid＝“1”/>，

<w：name w：val＝“章标题”/>

该命令参数为段落样式ID为“1”，段落样式的名称为“章标题”。通过这种对应关系，可在内容文件中找到对应段落样式文件中各个段落样式的段落样式ID。

S23：查找当前的所述段落样式ID在所述内容文件中所对应的所有标识段落的段落标记作为所述段落位置。

在内容文件中找到段落样式ID后，可查找到应用该段落样式ID所对应的段落样式的各个段落。参见图3，遍历与段落样式ID为“1”对应的段落标记<w：p>，统计遍历到的段落标记数量。

S24：为所述段落标记排序并记录序号。

在内容文件中，会有多个段落样式ID，每个段落样式ID又分别与段落标记相对应，为这些段落标记排序并记录序号后，可区别出应用不同段落样式的各个段落。序号包括起始序号和结束序号，例如：在内容文件中应用段落样式名称为“章标题”的段落样式共有5段，对应的起始序号为3，结束序号为7。

S25：将所述记录的序号与所述不同的新文档的标识建立关联关系。

创建新文档，将记录的起始序号、结束序号与新文档的标识建立关联关系。

S26：在所述内容文件中提取所述起始序号和结束序号之间的段落内容，存储到对应的所述新文档中。

在本实施例中，将起始序号为3、结束序号为7之间的段落的内容存储到新的文档中。

通过上述的过程，将内容文件中应用各个不同段落样式的各个段落的内容，存储到相应的各个不同的新文档中。

为便于对内容文件和段落样式文件进行处理，本发明的实施例还创建用于存储原始文档的段落样式的结构的大纲文件。大纲文件采用xml格式，其每个节点对应一种段落样式，将为每个段落样式ID记录的序号与不同的新文档的标识建立关联关系，并存储到大纲文件的相应节点内。使用大纲文件，按照记录的序号，从内容文件中提取各个段落的内容存储到相关联的文档内。下面通过实施例三详细说明，参见图5，包括以下步骤：

S31：预先通过schema文件生成树形实例文件；

schema文件定义了构成原始文档的各个元素的之间的结构关系，将元素的名称作为所述实例文件的节点的名称。

通过schema文件，可定义多种不同段落样式结构的多个原始文档。如在其中一个原始文档中的“章标题”的段落样式下添加“节标题”的段落样式；在另一个原始文档的“正文”段落样式下添加“文前辅文”的段落样式。

由于各个原始文档的各个元素之间的结构关系，都是通过schema文件定义，通过schema文件生成的实例文件，包含最全的文档的段落样式的结构关系，这些结构关系通过文档的各个元素之间的关系体现。实例文件的体现各个段落样式之间结构的屏幕截图可参见图6。

S32：在所述段落样式文件中查找到与段落样式ID对应的段落样式的名称。

原始文档的段落样式文件中包括多个段落样式，每个段落样式的名称也存在于段落样式文件中，如图4中的段落样式名称“章标题”。

S33：使用所述查找的段落样式的名称，遍历所述实例文件中具有相同名称的节点，采用遍历到的节点构建所述大纲文件。

原始文档通过schema文件定义生成的，通schema文件生成的实施文件的各个节点的名称包括原始文档的段落样式文件中的段落样式名称。通过在实例文件中遍历原始文档的段落样式文件中的段落样式名称，可映射出原始文档的段落样式之间的结构。

S34：解析出原始文档的xml格式的内容文件和段落样式文件。

S35：在所述内容文件中遍历所述段落样式文件中的每个段落样式所对应的段落样式ID。

S36：查找当前的所述段落样式ID在所述内容文件中所对应的所有标识段落的段落标记作为所述段落位置。

S37：为所述段落标记排序并记录序号。

S38：将所述记录的序号与所述不同的新文档的标识建立关联关系，将关联关系存储到大纲文件中。

存储关联关系的大纲文件可参见图7，大纲文件中，段落样式的名称为“一级标题”，段落样式的ID为“3”，起始序号paraIndex和结束序号paraEnd均为“2”，关联的新文档的标识为“template＝1747”。将这些作为属性值存储在该节点中。

S39：在所述内容文件中提取所述起始序号和结束序号之间的段落内容，存储到对应的所述新文档中。

提取内容文件中相应段落的内容，通过大纲文件存储的关联关系，将提取的内容存储到新的文档中。

在提取过程中，可创建以下的命令形式：

上述命令中，Name值为SplitDocument表示自动拆分命名；TaskId值表示当前任务的GUID值；命令参数：DocumentId表示图书主文档的资源ID，如定义原始文档的schema文件和实例文件。用于拆分后的各个新的子文档关联原始的主文档；命令参数：Word表示当前主文档的GUID值，用于从数据库里获取原始文档；命令参数：xml表示当前的原始文档的大纲文件和GUID值，用于拆分原始文档，并输出到新的文档。

调用该command机制后，从原始文档的大纲文件中得到paraIndex和paraEnd属性值，在原始文档的内容文件中确定需要拆分的文档区域；利用word的API函数获取段数大于paraEnd的内容区域、段数小于paraIndex的内容区域将其删除，或者提取段数在paraIndex和paraEnd之间的区域的内容，存储到新的文档，实现对文档的拆分。

上述的实施例详细说明了本发明拆分文档的过程，本发明还提供一种拆分文档的装置，该装置可集成在计算机、服务器等电子设备中，该装置的内部可采用多种形式的结构，下面通过实施例四详细说明一种优选的方式。参见图8，该装置包括：

解析模块41，用于解析出原始文档的xml格式的内容文件和段落样式文件；

查找模块42，用于在所述解析模块41解析出的内容文件中，查找应用所述段落样式文件中的每个段落样式的段落位置；

拆分模块43，用于将所述查找模块42查找到的各个段落位置处的段落内容分别输出到不同的新文档中。

优选地，所述查找模块42包括：

段落样式查找模块421，用于在所述解析模块41解析出的内容文件中遍历所述段落样式文件中的每个段落样式所对应的段落样式ID；

段落标记查找模块422，用于根据段落样式查找模块421查找到的段落样式ID，查找当前的所述段落样式ID在所述内容文件中所对应的所有标识段落的段落标记作为所述段落位置；

排序模块423，用于为所述段落标记查找模块422查找的段落标记排序并记录序号。

优选地，所述拆分模块43包括：

创建模块431，用于创建所述不同的新文档；

关联模块432，用于将所述排序模块423记录的序号与所述创建模块431创建的不同的新文档的标识建立关联关系；所述序号包括起始序号和结束序号；

提取模块433，用于按照所述关联模块432建立的关联关系，在所述内容文件中提取所述起始序号和结束序号之间的段落内容，存储到对应的所述新文档中。

优选地，该装置还包括：

大纲创建模块44，用于建立含有所述原始文档的段落样式的结构的大纲文件，其中，所述大纲文件为xml格式，其节点的名称来自所述段落样式文件中各个段落样式的名称；

属性模块45，用于将所述关联模块432建立的关联关系作为属性值存储在所述大纲创建模块44创建的大纲文件的各个节点中。

优选地，所述大纲创建模块44包括：

实例文件模块441，用于预先通过schema文件生成树形实例文件；其中，所述schema文件定义了构成所述原始文档的各个元素的之间的结构关系，将所述元素的名称作为所述实例文件的节点的名称；

段落样式名称匹配模块442，用于在所述解析模块41解析出的段落样式文件中查找到与所述段落样式ID对应的段落样式的名称；

节点匹配模块443，用于使用所述段落样式名称匹配模块442查找的段落样式的名称，遍历所述实例文件模块441创建的实例文件中具有相同名称的节点；

映射模块444，用于采用节点匹配模块443遍历到的节点构建所述大纲文件。

从以上的描述中可以看出，本发明上述的实施例通过段落样式对文档进行拆分，可按照文档的段落结构，将文档拆分为多个文档，时间短，效率高。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种拆分文档的方法，其特征在于，包括：

解析出原始文档的xml格式的内容文件和段落样式文件；

在所述内容文件中，查找应用所述段落样式文件中的每个段落样式的段落位置；

将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。

2.根据权利要求1所述的方法，其特征在于，所述查找的过程包括：

在所述内容文件中遍历所述段落样式文件中的每个段落样式所对应的段落样式ID；

查找当前的所述段落样式ID在所述内容文件中所对应的所有标识段落的段落标记作为所述段落位置；

为所述段落标记排序并记录序号。

3.根据权利要求2所述的方法，其特征在于，所述输出的过程包括：

创建所述不同的新文档；

将所述记录的序号与所述不同的新文档的标识建立关联关系；

所述序号包括起始序号和结束序号；

在所述内容文件中提取所述起始序号和结束序号之间的段落内容，存储到对应的所述新文档中。

4.根据权利要求3所述的方法，其特征在于，还包括：

建立含有所述原始文档的段落样式的结构的大纲文件，其中，所述大纲文件为xml格式，其节点的名称来自所述段落样式文件中各个段落样式的名称；

将所述建立的关联关系作为属性值存储在所述各个节点中。

5.根据权利要求4所述的方法，其特征在于，所述建立含有文档的段落样式的结构的大纲文件包括：

预先通过schema文件生成树形实例文件；其中，所述schema文件定义了构成所述原始文档的各个元素的之间的结构关系，将所述元素的名称作为所述实例文件的节点的名称；

在所述段落样式文件中查找到与所述段落样式ID对应的段落样式的名称；

使用所述查找的段落样式的名称，遍历所述实例文件中具有相同名称的节点；

采用遍历到的节点构建所述大纲文件。

6.一种拆分文档的装置，其特征在于，包括：

解析模块，用于解析出原始文档的xml格式的内容文件和段落样式文件；

查找模块，用于在所述内容文件中，查找应用所述段落样式文件中的每个段落样式的段落位置；

拆分模块，用于将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。

7.根据权利要求6所述的装置，其特征在于，所述查找模块包括：

段落样式查找模块，用于在所述内容文件中遍历所述段落样式文件中的每个段落样式所对应的段落样式ID；

段落标记查找模块，用于查找当前的所述段落样式ID在所述内容文件中所对应的所有标识段落的段落标记作为所述段落位置；

排序模块，用于为所述段落标记排序并记录序号。

8.根据权利要求7所述的方法，其特征在于，所述拆分模块包括：

创建模块，用于创建所述不同的新文档；

关联模块，用于将所述记录的序号与所述不同的新文档的标识建立关联关系；所述序号包括起始序号和结束序号；

提取模块，用于在所述内容文件中提取所述起始序号和结束序号之间的段落内容，存储到对应的所述新文档中。

9.根据权利要求8所述的装置，其特征在于，还包括：

大纲创建模块，用于建立含有所述原始文档的段落样式的结构的大纲文件，其中，所述大纲文件为xml格式，其节点的名称来自所述段落样式文件中各个段落样式的名称；

属性模块，用于将所述建立的关联关系作为属性值存储在所述各个节点中。

10.根据权利要求9所述的装置，其特征在于，所述大纲创建模块包括：

实例文件模块，用于预先通过schema文件生成树形实例文件；其中，所述schema文件定义了构成所述原始文档的各个元素的之间的结构关系，将所述元素的名称作为所述实例文件的节点的名称；

段落样式名称匹配模块，用于在所述段落样式文件中查找到与所述段落样式ID对应的段落样式的名称；

节点匹配模块，用于使用所述查找的段落样式的名称，遍历所述实例文件中具有相同名称的节点；

映射模块，用于采用遍历到的节点构建所述大纲文件。