CN104063386B

CN104063386B - 一种内容对象复用的方法和装置

Info

Publication number: CN104063386B
Application number: CN201310089432.XA
Authority: CN
Inventors: 钱保鑫
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Beijing Founder Electronics Co Ltd
Priority date: 2013-03-20
Filing date: 2013-03-20
Publication date: 2018-10-09
Anticipated expiration: 2033-03-20
Also published as: CN104063386A

Abstract

本发明公开了一种内容对象复用的方法，应用于第一文档撰写平台中，其特征在于，包括：获得一基于第二文档撰写平台匹配的第一文档；对所述第一文档进行标引，获得标第三文档；对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容；将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。

Description

一种内容对象复用的方法和装置

技术领域

本发明涉及数字出版技术领域，尤其涉及一种内容对象复用的方法和装置。

背景技术

目前，在教育出版行业中，出版社会对现有的资料进行分类存储以便复用，通常是利用特定的工具将现有的资料进行采集分类存储到数据库中。但由于在存储时通常未采用统一的数据格式进行存储，因此，当更换文档撰写平台后，会出现原有的内容对象无法复用的情况。因此，如何提高内容对象的复用效率，减少编辑的工作量，成为当前教育出版行业的重要问题。

当前解决内容对象无法复用的方法主要是通过人工干预的方法。该方法的实现基本过程如下：

首先，用户在数据库中检索到需要的内容；然后，将检索到的内容拷贝到一处理平台上；然后，根据需要将检索到的内容进行手动修改；最后，将修改好的内容拷贝到当前用户的撰写平台。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

由于在内容对象复用的过程中，只能通过人工干预的手段来实现，所以存在不能自动修改内容对象的技术问题，进而使用户在修改内容对象时费时费力，出错率高。

由于在内容对象复用的过程中，只能通过人工干预的手段来实现，而人工在进行复用时，准确性就得不到保证，所以，现有技术中存在内容对象复用的准确性低的技术问题。

发明内容

本申请实施例通过提供一种内容对象复用的方法和装置，解决了现有技术中不能自动修改内容对象的技术问题，实现了内容对象复用效率高且不需要修改的技术效果。

为解决上述技术问题，本申请实施例一方面提供了一种内容对象复用的方法，应用于第一文档撰写平台中，所述方法包括：

获得一基于第二文档撰写平台匹配的第一文档；

对所述第一文档进行标引，获得第三文档；

对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容；

将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。

进一步地，所述对所述第一文档进行标引，获得第三文档，具体包括：

生成符合一预设规范的Schema文件；

基于所述schema文件，通过自动化标引工具或手工标引方式对所述第一文档进行标引，获得所述第三文档。

进一步地，所述将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容，具体包括：

获得所述第三文档的第一开放源数据；

基于一预设样式表及所述第一开放源数据，将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。

进一步地，在所述将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容之后，所述方法还包括：

将所述至少一个XML数据内容分类保存到所述中心数据库。

进一步地，所述将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，具体包括：

基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象；

通过所述第一内容对象对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。

进一步地，所述通过所述第一内容对象对应的转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，具体包括：

将所述第一文档的类型及所述第一开放源数据，插入所述第一转换引擎，获得所述第一转换引擎能够识别的内容对象；

将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。

另一方面，本申请实例还提供一种容对象复用装置，应用于第一文档撰写平台中，包括：

获得模块，用于获得一基于第二文档撰写平台匹配的第一文档；

标引模块，用于对所述第一文档进行标引，获得第三文档；

拆分模块，用于对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容；

转换模块，用于将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。

其中所述标引模块，具体包括：

生成单元，用于生成符合一预设规范的Schema文件；

标引单元，用于基于所述schema文件，通过自动化标引工具或手工标引方式对所述第一文档进行标引，获得所述第三文档。

其中所述拆分模块，具体包括：

获得单元，用于获得所述第三文档的第一开放源数据；

转换单元，用于基于一预设样式表及所述第一开放源数据，将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。

其中所述标引模块，具体还包括：

数据库单元，用于分类保存所述至少一个XML数据内容。

其中所述转换模块包括：

检索单元，用于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象；

内容转换单元，用于通过所述第一内容对应的第一对象转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。

其中所述内容转换单元包括：

插入单元，用于将所述第一文档的类型及所述第一开放源数据，插入所述第一转换引擎，获得所述第一转换引擎能够识别的内容对象；

内容转换子单元，用于将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、由于在本申请提供的技术方案中，采用了首先获得一基于第二文档撰写平台匹配的第一文档；然后对所述第一文档进行标引，获得第三文档；然后对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容；最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案，即，能够根据不同的文档在复用时自动的修改内容对象，所以有效的解决了现有技术中存在不能自动修改内容对象的技术问题，进而实现了高效的复用内容对象的技术效果。

2、由于在本申请提供的技术方案中，采用了首先获得一基于第二文档撰写平台匹配的第一文档；然后对所述第一文档进行标引，获得第三文档；然后对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容；最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案，即在内容对象复用时，都是自动进行的，进而能够有效避免现有技术中因人工干预进行复用而导致的不准确性，所以有效的解决了现有技术中存在内容对象复用的准确性低的技术问题，进而实现了准确的复用内容对象的技术效果。

附图说明

图1为本申请实施例中一种内容对象复用方法的流程图；

图2为本申请实施例中内容对象复用置的结构图；

图3为本申请实施例中内容对象复用装置中标引模块的结构图；

图4为本申请实施例中内容对象复用装置中拆分模块的结构图；

图5为本申请实施例中内容对象复用装置中转换模块的结构图；

图6为本申请实施例中内容对象复用装置中转换模块中内容转换单元的结构图。

具体实施方式

本申请实施例通过提供一种内容对象复用的方法和装置，解决了现有技术中不能自动修改内容对象且内容对象复用的准确性低的技术问题，实现了高效且准确的复用内容对象的技术效果。

本申请实施中的技术方案为解决上述技术问题。总体思路如下：

首先，获得一基于第二文档撰写平台匹配的第一文档；然后，对所述第一文档进行标引，获得第三文档；然后，对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容；最后，将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术手段，所以，能够解决现有技术中不能自动修改内容对象且内容对象复用的准确性低的技术问题，实现了内容对象复用效率高且不需要修改的问题的技术效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

在本申请实施例中，提供了一种内容对象复用方法，应用于第一文档撰写平台中，请参考图1，本申请实施例中的内容对象复用方法具体包括：

S10，获得一基于与第二文档撰写平台匹配的第一文档。

在本申请实施例中，所述第一文档撰写平台具体可以是word、wps等程序，也可以是记事本等文本编辑工具，在具体实施例中，所述第二文档撰写平台可以与所述第一文档撰写平台相同，如：都为word程序，也可以不同，如：所述第一文档撰写平台为word程序，所述第二文档撰写平台为wps程序，在本申请实施例中，所述第一文档具体可以是文本文档，也可以是图片，在具体实现过程中，对于文档撰写平台及第一文档的具体类型，本申请不做具体限制。

在本申请实施例中，对于步骤S10的实现方式有两种：

第一种方式：

首先，电子设备检测到用户的从所述第二文档撰写平台中将所述第一文档拷贝到所述第一文档撰写平台的拷贝操作；

然后，电子设备响应所述拷贝操作，获得所述第一文档。

第二种方式：

首先，电子设备检测到用户的电子设备中的数据库提取第一文档的提取操作；

然后，响应所述提取操作，将所述第一文档从电子设备中的数据库中提取出来，以便能够应用到所述第一文档撰写平台。

在步骤S10之后，本申请实施例的方法便进入步骤S20，即：对所述第一文档进行标引，获得第三文档。

其中步骤S20中所述对所述第一文档进行标引，获得第三文档，具体包括：

首先，生成符合一预设规范的Schema文件；

然后，基于所述schema文件，通过自动化标引工具或手工标引方式对所述第一文档进行标引，获得第三文档。

在本实施例中，要生成符合一预设规范的Schema文件，需要定义Schema基本元素类型，基本元素类型包括：

结构元素：用于标识标引体系Schema的结构，在具体实施例中，如：文档的头目、文档的头条、文档的作者，本申请不做具体限制；

属性元素：用于标识标引体系Schema包含哪些属性及属性的显示方式，其中attValueFileds节点用于标识属性值域的显示方式，attrGroup节点用于标识标引体系Schema包含哪些属性，在具体实施例中，如：文档的百科分类、文档的来源，文档的关键词。

在本实施例中，所述基于所述schema文件，通过自动化标引工具或手工标引方式对所述第一文档进行标引，获得第三文档，具体实施过程为：

首先，以所设计的Schema基本元素类型为基础，制定出所需要的文档Schema；

然后，基于所述schema文件，通过自动化标引工具或手工标引方式对所述第一文档进行标引，获得第三文档。其中，在具体实施例中，自动化标引工具可以是自动标引程序或者自动标引软件，在此，本申请不做具体限制。

在步骤S20之后，本申请实施例的方法便进入步骤S30，即：

对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。

其中，S30中的将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容，在具体实现过程中包括：

首先，获得所述第三文档的第一开放源数据；

然后，基于一预设样式表及所述第一开放源数据，将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。

在本申请实施例中，为了便于对所述至少一个XML数据内容的重复使用，本申请实施例的方法在步骤S30之后，还包括步骤：

将所述至少一个XML数据内容分类保存到所述中心数据库。

在具体实施例中，在假设所述第一文档为第一新闻报告，标引结果为第一新闻报告的第一文本内容或第一新闻报告的第一图片内容时，S30的实现过程如下：

首先，对所述标引后的所述第一新闻报告进行拆分，获得至少一个第一子新闻报告，第一子新闻报告具体可以为第一文本内容子新闻报告或第一图片内容子新闻报告；

然后，获得一个或多个第一文本内容子新闻报告和/或一个或多个第一图片内容子新闻报告的第一开放源数据；

最后，基于一预设用户自定义的样式表及所述第一开放源数据，将一个或多个第一文本内容子新闻报告和/或一个或多个第一图片内容子新闻报告转换为符合预设条件的至少一个XML新闻报告内容，其中，所述预设条件具体可以为第一文本内容子新闻报告的主题，也可以为第一文本内容子新闻报告的作者；在本申请实施例中，自定义样式表即xslt文件，通过定义xslt将文档的开放源格式转换为其它文档，比如xhtml。在转换过程中，XSLT使用XPath来定义源文档中可匹配一个或多个预定义模板的部分。一旦匹配被找到，XSLT就会把源文档的匹配部分转换为结果文档。在xslt文件中，包括如下元素：

<xsl:template>元素：<xsl:template>元素用于构建模板。match属性用于关联XML元素和模板。match属性也可用来为整个文档定义模板。match属性的值是XPath表达式（举例，match="/"定义整个文档）。

<xsl:value-of>元素：<xsl:value-of>元素用于提取某个选定节点的值，并把值添加到转换的输出流中。

<xsl:for-each>元素：<xsl:for-each>元素可用于选取指定的节点集中的每个XML元素。

<xsl:sort>元素：用于对结果进行排序。

<xsl:if>元素：如需放置针对XML文件内容的条件测试，请向XSL文档添加<xsl:if>元素。

<xsl:choose>元素：用于结合<xsl:when>和<xsl:otherwise>来表达多重条件测试。

<xsl:apply-templates>元素：可把一个模板应用于当前的元素或者当前元素的子节点。

进一步地，为了便于对所述至少一个XML新闻报告内容进行重复使用，还将所述至少一个XML新闻报告内容保存到所述中心数据库。在具体实施例中，所述中心数据库可以是实时数据库，也可以是关系数据库，具体为何种数据库，本申请不做具体限制。

在步骤S30之后，本申请实施例的方法便进入步骤S40，即：将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。

其中步骤S40中所述将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，具体包括：

首先，基于与所述第三文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象；

然后，通过所述第一内容对象对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。

其中，对于步骤：通过所述第一内容对象对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，具体包括：

首先，将所述第三文档的类型及所述第一开放源数据，插入所述第一转换引擎，获得所述第一转换引擎能够识别的内容对象；

然后，将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。

在具体实施例中，在假设所述第一文档为第一新闻报告，第一条件为第一新闻报告中的第一文本内容子新闻报告。其中，转换引擎包括：文本内容对象转换引擎、和/或图片内容对象转换引擎时，步骤S40的具体实现过程如下：

首先，从所述第一文档撰写平台中检索到与第一文本内容子新闻报告对应的文本内容对象；

然后，通过与检索到的文本内容对象对应的文本内容转换引擎将与所述第一文本内容子新闻报告对应的至少一个XML数据内容转换为所述第一文档撰写平台能识别的第一文本内容子新闻报告。

进一步地，对于步骤：通过与检索到的文本内容对象对应的文本内容转换引擎将与所述第一文本内容子新闻报告对应的至少一个XML数据内容转换为所述第一文档撰写平台能识别的第一文本内容子新闻报告，在具体实现过程中包括：

首先，获得文本内容子新闻报告的类型和开放源数据；

然后，将所述文本内容子新闻报告的类型和开放源数据插入所述文本内容转换引擎，获得所述文本内容转换引擎能够识别的内容对象，这时，所述第一文本内容转换引擎中包括所述文本内容子新闻报告的类型和开放源数据；

然后，所述第一文本内容对象转换引擎根据插入其中的文档的类型和第一开放源数据将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，至少一个内容即为：所述第一文档撰写平台能识别的文本内容子新闻报告。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

2、由于在本申请提供的技术方案中，采用了首先获得一基于第二文档撰写平台匹配的第一文档；然后对所述第一文档进行标引，获得标第三文档；然后对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容；最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案，即在内容对象复用时，都是自动进行的，进而能够有效避免现有技术中因人工干预进行复用而导致的不准确性，所以有效的解决了现有技术中存在内容对象复用的准确性低的技术问题，进而实现了准确的复用内容对象的技术效果。

对应实施例一中的一种内容对象复用方法，实施例一还提供一种对应内容对象复用的装置，其中，所述装置可以是电脑，也可以是印刷机，在本申请实施例中，在此就不再一一举例了，请参考图2，图3，图4，图5，以及图6，本申请实施例中的装置包括：

获得模块101，用于获得一基于第二文档撰写平台匹配的第一文档。

在本申请实施例中，所述获得模块101获得所述第一文档的方式有两种：

第一种方式：

然后，电子设备响应所述拷贝操作，获得所述第一文档。

第二种方式：

标引模块102，用于对所述第一文档进行标引，获得第三文档。

本申请实施例中，所述标引模块102包括：

生成单元1021，用于生成符合一预设规范的Schema文件；

标引单元1022，用于基于所述schema文件，通过自动化标引工具或手工标引方式对所述第一文档进行标引，获得第三文档。

拆分模块103，用于对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。

其中，所述拆分模块103包括：

获得单元1031，用于获得所述第三文档的第一开放源数据，如在实施例中获得所述新闻报告的第一开放源数据；

转换单元1032，用于基于一预设样式表及所述第一开放源数据，将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。

在本申请实施例中，为了便于对所述至少一个XML数据内容的重复使用，所述装置还包括：

数据库单元1033，所述数据库单元1033用于将所述至少一个XML数据内容分类保存到所述中心数据库。

转换模块104，用于将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。

本申请实施例中，所述转换模块104包括：

检索单元1041，用于基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象；

内容转换单元1042，用于通过所述第一内容对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。

其中所述内容转换单元1042包括：

插入单元10421，用于将所述第三文档的类型及所述第一开放源数据，插入所述第一转换引擎，获得所述第一转换引擎能够识别的内容对象；

内容转换子单元10422，用于将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。

在存储介质上，本发明采用了XML文件进行数据存储，能够对数据存取格式进行统一的管理管理，便于维护和使用。由于以XML格式存储的数据不仅有良好的内在结构，而且由于它是W3C提出的国际标准，因此易于进行数据交流和开发。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种内容对象复用方法，应用于第一文档撰写平台中，其特征在于，包括：

获得一基于第二文档撰写平台匹配的第一文档；

对所述第一文档进行标引，获得第三文档；

对所述第三文档进行拆分，获得至少一个第三子文档；并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容；在所述将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容之后，还包括：将所述至少一个XML数据内容分类保存到中心数据库；

将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置；

其中，

所述对所述第一文档进行标引，获得第三文档，具体包括：

生成符合一预设规范的Schema文件；

2.如权利要求1所述的方法，其特征在于，所述将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容，具体包括：

获得所述第三文档的第一开放源数据；

3.如权利要求1所述的方法，其特征在于，所述将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，具体包括：

4.如权利要求2所述的方法，其特征在于，所述将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，具体包括：

5.如权利要求4所述的方法，其特征在于，所述通过所述第一内容对象对应的转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，具体包括：

6.一种内容对象复用装置，应用于第一文档撰写平台中，其特征在于，包括：

标引模块，用于对所述第一文档进行标引，获得第三文档；

转换模块，用于将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容，并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置；其中，所述标引模块，具体包括：

生成单元，用于生成符合一预设规范的Schema文件；

标引单元，用于基于所述schema文件，通过自动化标引工具或手工标引方式对所述第一文档进行标引，获得所述第三文档；

所述标引模块，具体还包括：

数据库单元，用于分类保存所述至少一个XML数据内容。

7.如权利要求6所述的装置，其特征在于，所述拆分模块，具体包括：

获得单元，用于获得所述第三文档的第一开放源数据；

8.如权利要求6所述的装置，其特征在于，所述转换模块包括：

检索单元，用于基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象；

内容转换单元，用于通过所述第一内容对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。

9.如权利要求7所述的装置，其特征在于，所述转换模块包括：

10.如权利要求9所述的装置，其特征在于，所述内容转换单元包括：