CN104063386B - 一种内容对象复用的方法和装置 - Google Patents

一种内容对象复用的方法和装置 Download PDF

Info

Publication number
CN104063386B
CN104063386B CN201310089432.XA CN201310089432A CN104063386B CN 104063386 B CN104063386 B CN 104063386B CN 201310089432 A CN201310089432 A CN 201310089432A CN 104063386 B CN104063386 B CN 104063386B
Authority
CN
China
Prior art keywords
document
content
platform
xml data
identify
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310089432.XA
Other languages
English (en)
Other versions
CN104063386A (zh
Inventor
钱保鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310089432.XA priority Critical patent/CN104063386B/zh
Publication of CN104063386A publication Critical patent/CN104063386A/zh
Application granted granted Critical
Publication of CN104063386B publication Critical patent/CN104063386B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/88Mark-up to mark-up conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种内容对象复用的方法,应用于第一文档撰写平台中,其特征在于,包括:获得一基于第二文档撰写平台匹配的第一文档;对所述第一文档进行标引,获得标第三文档;对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。

Description

一种内容对象复用的方法和装置
技术领域
本发明涉及数字出版技术领域,尤其涉及一种内容对象复用的方法和装置。
背景技术
目前,在教育出版行业中,出版社会对现有的资料进行分类存储以便复用,通常是利用特定的工具将现有的资料进行采集分类存储到数据库中。但由于在存储时通常未采用统一的数据格式进行存储,因此,当更换文档撰写平台后,会出现原有的内容对象无法复用的情况。因此,如何提高内容对象的复用效率,减少编辑的工作量,成为当前教育出版行业的重要问题。
当前解决内容对象无法复用的方法主要是通过人工干预的方法。该方法的实现基本过程如下:
首先,用户在数据库中检索到需要的内容;然后,将检索到的内容拷贝到一处理平台上;然后,根据需要将检索到的内容进行手动修改;最后,将修改好的内容拷贝到当前用户的撰写平台。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
由于在内容对象复用的过程中,只能通过人工干预的手段来实现,所以存在不能自动修改内容对象的技术问题,进而使用户在修改内容对象时费时费力,出错率高。
由于在内容对象复用的过程中,只能通过人工干预的手段来实现,而人工在进行复用时,准确性就得不到保证,所以,现有技术中存在内容对象复用的准确性低的技术问题。
发明内容
本申请实施例通过提供一种内容对象复用的方法和装置,解决了现有技术中不能自动修改内容对象的技术问题,实现了内容对象复用效率高且不需要修改的技术效果。
为解决上述技术问题,本申请实施例一方面提供了一种内容对象复用的方法,应用于第一文档撰写平台中,所述方法包括:
获得一基于第二文档撰写平台匹配的第一文档;
对所述第一文档进行标引,获得第三文档;
对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;
将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。
进一步地,所述对所述第一文档进行标引,获得第三文档,具体包括:
生成符合一预设规范的Schema文件;
基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得所述第三文档。
进一步地,所述将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容,具体包括:
获得所述第三文档的第一开放源数据;
基于一预设样式表及所述第一开放源数据,将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。
进一步地,在所述将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容之后,所述方法还包括:
将所述至少一个XML数据内容分类保存到所述中心数据库。
进一步地,所述将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,具体包括:
基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象;
通过所述第一内容对象对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。
进一步地,所述通过所述第一内容对象对应的转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,具体包括:
将所述第一文档的类型及所述第一开放源数据,插入所述第一转换引擎,获得所述第一转换引擎能够识别的内容对象;
将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。
另一方面,本申请实例还提供一种容对象复用装置,应用于第一文档撰写平台中,包括:
获得模块,用于获得一基于第二文档撰写平台匹配的第一文档;
标引模块,用于对所述第一文档进行标引,获得第三文档;
拆分模块,用于对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;
转换模块,用于将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。
其中所述标引模块,具体包括:
生成单元,用于生成符合一预设规范的Schema文件;
标引单元,用于基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得所述第三文档。
其中所述拆分模块,具体包括:
获得单元,用于获得所述第三文档的第一开放源数据;
转换单元,用于基于一预设样式表及所述第一开放源数据,将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。
其中所述标引模块,具体还包括:
数据库单元,用于分类保存所述至少一个XML数据内容。
其中所述转换模块包括:
检索单元,用于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象;
内容转换单元,用于通过所述第一内容对应的第一对象转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。
其中所述内容转换单元包括:
插入单元,用于将所述第一文档的类型及所述第一开放源数据,插入所述第一转换引擎,获得所述第一转换引擎能够识别的内容对象;
内容转换子单元,用于将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、由于在本申请提供的技术方案中,采用了首先获得一基于第二文档撰写平台匹配的第一文档;然后对所述第一文档进行标引,获得第三文档;然后对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案,即,能够根据不同的文档在复用时自动的修改内容对象,所以有效的解决了现有技术中存在不能自动修改内容对象的技术问题,进而实现了高效的复用内容对象的技术效果。
2、由于在本申请提供的技术方案中,采用了首先获得一基于第二文档撰写平台匹配的第一文档;然后对所述第一文档进行标引,获得第三文档;然后对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案,即在内容对象复用时,都是自动进行的,进而能够有效避免现有技术中因人工干预进行复用而导致的不准确性,所以有效的解决了现有技术中存在内容对象复用的准确性低的技术问题,进而实现了准确的复用内容对象的技术效果。
附图说明
图1为本申请实施例中一种内容对象复用方法的流程图;
图2为本申请实施例中内容对象复用置的结构图;
图3为本申请实施例中内容对象复用装置中标引模块的结构图;
图4为本申请实施例中内容对象复用装置中拆分模块的结构图;
图5为本申请实施例中内容对象复用装置中转换模块的结构图;
图6为本申请实施例中内容对象复用装置中转换模块中内容转换单元的结构图。
具体实施方式
本申请实施例通过提供一种内容对象复用的方法和装置,解决了现有技术中不能自动修改内容对象且内容对象复用的准确性低的技术问题,实现了高效且准确的复用内容对象的技术效果。
本申请实施中的技术方案为解决上述技术问题。总体思路如下:
首先,获得一基于第二文档撰写平台匹配的第一文档;然后,对所述第一文档进行标引,获得第三文档;然后,对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;最后,将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术手段,所以,能够解决现有技术中不能自动修改内容对象且内容对象复用的准确性低的技术问题,实现了内容对象复用效率高且不需要修改的问题的技术效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
在本申请实施例中,提供了一种内容对象复用方法,应用于第一文档撰写平台中,请参考图1,本申请实施例中的内容对象复用方法具体包括:
S10,获得一基于与第二文档撰写平台匹配的第一文档。
在本申请实施例中,所述第一文档撰写平台具体可以是word、wps等程序,也可以是记事本等文本编辑工具,在具体实施例中,所述第二文档撰写平台可以与所述第一文档撰写平台相同,如:都为word程序,也可以不同,如:所述第一文档撰写平台为word程序,所述第二文档撰写平台为wps程序,在本申请实施例中,所述第一文档具体可以是文本文档,也可以是图片,在具体实现过程中,对于文档撰写平台及第一文档的具体类型,本申请不做具体限制。
在本申请实施例中,对于步骤S10的实现方式有两种:
第一种方式:
首先,电子设备检测到用户的从所述第二文档撰写平台中将所述第一文档拷贝到所述第一文档撰写平台的拷贝操作;
然后,电子设备响应所述拷贝操作,获得所述第一文档。
第二种方式:
首先,电子设备检测到用户的电子设备中的数据库提取第一文档的提取操作;
然后,响应所述提取操作,将所述第一文档从电子设备中的数据库中提取出来,以便能够应用到所述第一文档撰写平台。
在步骤S10之后,本申请实施例的方法便进入步骤S20,即:对所述第一文档进行标引,获得第三文档。
其中步骤S20中所述对所述第一文档进行标引,获得第三文档,具体包括:
首先,生成符合一预设规范的Schema文件;
然后,基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得第三文档。
在本实施例中,要生成符合一预设规范的Schema文件,需要定义Schema基本元素类型,基本元素类型包括:
结构元素:用于标识标引体系Schema的结构,在具体实施例中,如:文档的头目、文档的头条、文档的作者,本申请不做具体限制;
属性元素:用于标识标引体系Schema包含哪些属性及属性的显示方式,其中attValueFileds节点用于标识属性值域的显示方式,attrGroup节点用于标识标引体系Schema包含哪些属性,在具体实施例中,如:文档的百科分类、文档的来源,文档的关键词。
在本实施例中,所述基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得第三文档,具体实施过程为:
首先,以所设计的Schema基本元素类型为基础,制定出所需要的文档Schema;
然后,基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得第三文档。其中,在具体实施例中,自动化标引工具可以是自动标引程序或者自动标引软件,在此,本申请不做具体限制。
在步骤S20之后,本申请实施例的方法便进入步骤S30,即:
对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。
其中,S30中的将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容,在具体实现过程中包括:
首先,获得所述第三文档的第一开放源数据;
然后,基于一预设样式表及所述第一开放源数据,将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。
在本申请实施例中,为了便于对所述至少一个XML数据内容的重复使用,本申请实施例的方法在步骤S30之后,还包括步骤:
将所述至少一个XML数据内容分类保存到所述中心数据库。
在具体实施例中,在假设所述第一文档为第一新闻报告,标引结果为第一新闻报告的第一文本内容或第一新闻报告的第一图片内容时,S30的实现过程如下:
首先,对所述标引后的所述第一新闻报告进行拆分,获得至少一个第一子新闻报告,第一子新闻报告具体可以为第一文本内容子新闻报告或第一图片内容子新闻报告;
然后,获得一个或多个第一文本内容子新闻报告和/或一个或多个第一图片内容子新闻报告的第一开放源数据;
最后,基于一预设用户自定义的样式表及所述第一开放源数据,将一个或多个第一文本内容子新闻报告和/或一个或多个第一图片内容子新闻报告转换为符合预设条件的至少一个XML新闻报告内容,其中,所述预设条件具体可以为第一文本内容子新闻报告的主题,也可以为第一文本内容子新闻报告的作者;在本申请实施例中,自定义样式表即xslt文件,通过定义xslt将文档的开放源格式转换为其它文档,比如xhtml。在转换过程中,XSLT使用XPath来定义源文档中可匹配一个或多个预定义模板的部分。一旦匹配被找到,XSLT就会把源文档的匹配部分转换为结果文档。在xslt文件中,包括如下元素:
<xsl:template>元素:<xsl:template>元素用于构建模板。match属性用于关联XML元素和模板。match属性也可用来为整个文档定义模板。match属性的值是XPath表达式(举例,match="/"定义整个文档)。
<xsl:value-of>元素:<xsl:value-of>元素用于提取某个选定节点的值,并把值添加到转换的输出流中。
<xsl:for-each>元素:<xsl:for-each>元素可用于选取指定的节点集中的每个XML元素。
<xsl:sort>元素:用于对结果进行排序。
<xsl:if>元素:如需放置针对XML文件内容的条件测试,请向XSL文档添加<xsl:if>元素。
<xsl:choose>元素:用于结合<xsl:when>和<xsl:otherwise>来表达多重条件测试。
<xsl:apply-templates>元素:可把一个模板应用于当前的元素或者当前元素的子节点。
进一步地,为了便于对所述至少一个XML新闻报告内容进行重复使用,还将所述至少一个XML新闻报告内容保存到所述中心数据库。在具体实施例中,所述中心数据库可以是实时数据库,也可以是关系数据库,具体为何种数据库,本申请不做具体限制。
在步骤S30之后,本申请实施例的方法便进入步骤S40,即:将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。
其中步骤S40中所述将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,具体包括:
首先,基于与所述第三文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象;
然后,通过所述第一内容对象对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。
其中,对于步骤:通过所述第一内容对象对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,具体包括:
首先,将所述第三文档的类型及所述第一开放源数据,插入所述第一转换引擎,获得所述第一转换引擎能够识别的内容对象;
然后,将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。
在具体实施例中,在假设所述第一文档为第一新闻报告,第一条件为第一新闻报告中的第一文本内容子新闻报告。其中,转换引擎包括:文本内容对象转换引擎、和/或图片内容对象转换引擎时,步骤S40的具体实现过程如下:
首先,从所述第一文档撰写平台中检索到与第一文本内容子新闻报告对应的文本内容对象;
然后,通过与检索到的文本内容对象对应的文本内容转换引擎将与所述第一文本内容子新闻报告对应的至少一个XML数据内容转换为所述第一文档撰写平台能识别的第一文本内容子新闻报告。
进一步地,对于步骤:通过与检索到的文本内容对象对应的文本内容转换引擎将与所述第一文本内容子新闻报告对应的至少一个XML数据内容转换为所述第一文档撰写平台能识别的第一文本内容子新闻报告,在具体实现过程中包括:
首先,获得文本内容子新闻报告的类型和开放源数据;
然后,将所述文本内容子新闻报告的类型和开放源数据插入所述文本内容转换引擎,获得所述文本内容转换引擎能够识别的内容对象,这时,所述第一文本内容转换引擎中包括所述文本内容子新闻报告的类型和开放源数据;
然后,所述第一文本内容对象转换引擎根据插入其中的文档的类型和第一开放源数据将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,至少一个内容即为:所述第一文档撰写平台能识别的文本内容子新闻报告。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、由于在本申请提供的技术方案中,采用了首先获得一基于第二文档撰写平台匹配的第一文档;然后对所述第一文档进行标引,获得第三文档;然后对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案,即,能够根据不同的文档在复用时自动的修改内容对象,所以有效的解决了现有技术中存在不能自动修改内容对象的技术问题,进而实现了高效的复用内容对象的技术效果。
2、由于在本申请提供的技术方案中,采用了首先获得一基于第二文档撰写平台匹配的第一文档;然后对所述第一文档进行标引,获得标第三文档;然后对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案,即在内容对象复用时,都是自动进行的,进而能够有效避免现有技术中因人工干预进行复用而导致的不准确性,所以有效的解决了现有技术中存在内容对象复用的准确性低的技术问题,进而实现了准确的复用内容对象的技术效果。
对应实施例一中的一种内容对象复用方法,实施例一还提供一种对应内容对象复用的装置,其中,所述装置可以是电脑,也可以是印刷机,在本申请实施例中,在此就不再一一举例了,请参考图2,图3,图4,图5,以及图6,本申请实施例中的装置包括:
获得模块101,用于获得一基于第二文档撰写平台匹配的第一文档。
在本申请实施例中,所述获得模块101获得所述第一文档的方式有两种:
第一种方式:
首先,电子设备检测到用户的从所述第二文档撰写平台中将所述第一文档拷贝到所述第一文档撰写平台的拷贝操作;
然后,电子设备响应所述拷贝操作,获得所述第一文档。
第二种方式:
首先,电子设备检测到用户的电子设备中的数据库提取第一文档的提取操作;
然后,响应所述提取操作,将所述第一文档从电子设备中的数据库中提取出来,以便能够应用到所述第一文档撰写平台。
标引模块102,用于对所述第一文档进行标引,获得第三文档。
本申请实施例中,所述标引模块102包括:
生成单元1021,用于生成符合一预设规范的Schema文件;
标引单元1022,用于基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得第三文档。
在本实施例中,要生成符合一预设规范的Schema文件,需要定义Schema基本元素类型,基本元素类型包括:
结构元素:用于标识标引体系Schema的结构,在具体实施例中,如:文档的头目、文档的头条、文档的作者,本申请不做具体限制;
属性元素:用于标识标引体系Schema包含哪些属性及属性的显示方式,其中attValueFileds节点用于标识属性值域的显示方式,attrGroup节点用于标识标引体系Schema包含哪些属性,在具体实施例中,如:文档的百科分类、文档的来源,文档的关键词。
在本实施例中,所述基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得第三文档,具体实施过程为:
首先,以所设计的Schema基本元素类型为基础,制定出所需要的文档Schema;
然后,基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得第三文档。其中,在具体实施例中,自动化标引工具可以是自动标引程序或者自动标引软件,在此,本申请不做具体限制。
拆分模块103,用于对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。
其中,所述拆分模块103包括:
获得单元1031,用于获得所述第三文档的第一开放源数据,如在实施例中获得所述新闻报告的第一开放源数据;
转换单元1032,用于基于一预设样式表及所述第一开放源数据,将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。
在本申请实施例中,为了便于对所述至少一个XML数据内容的重复使用,所述装置还包括:
数据库单元1033,所述数据库单元1033用于将所述至少一个XML数据内容分类保存到所述中心数据库。
转换模块104,用于将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置。
本申请实施例中,所述转换模块104包括:
检索单元1041,用于基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象;
内容转换单元1042,用于通过所述第一内容对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。
其中所述内容转换单元1042包括:
插入单元10421,用于将所述第三文档的类型及所述第一开放源数据,插入所述第一转换引擎,获得所述第一转换引擎能够识别的内容对象;
内容转换子单元10422,用于将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、由于在本申请提供的技术方案中,采用了首先获得一基于第二文档撰写平台匹配的第一文档;然后对所述第一文档进行标引,获得第三文档;然后对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案,即,能够根据不同的文档在复用时自动的修改内容对象,所以有效的解决了现有技术中存在不能自动修改内容对象的技术问题,进而实现了高效的复用内容对象的技术效果。
2、由于在本申请提供的技术方案中,采用了首先获得一基于第二文档撰写平台匹配的第一文档;然后对所述第一文档进行标引,获得第三文档;然后对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;最后将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置的技术方案,即在内容对象复用时,都是自动进行的,进而能够有效避免现有技术中因人工干预进行复用而导致的不准确性,所以有效的解决了现有技术中存在内容对象复用的准确性低的技术问题,进而实现了准确的复用内容对象的技术效果。
在存储介质上,本发明采用了XML文件进行数据存储,能够对数据存取格式进行统一的管理管理,便于维护和使用。由于以XML格式存储的数据不仅有良好的内在结构,而且由于它是W3C提出的国际标准,因此易于进行数据交流和开发。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种内容对象复用方法,应用于第一文档撰写平台中,其特征在于,包括:
获得一基于第二文档撰写平台匹配的第一文档;
对所述第一文档进行标引,获得第三文档;
对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;在所述将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容之后,还包括:将所述至少一个XML数据内容分类保存到中心数据库;
将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置;
其中,
所述对所述第一文档进行标引,获得第三文档,具体包括:
生成符合一预设规范的Schema文件;
基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得所述第三文档。
2.如权利要求1所述的方法,其特征在于,所述将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容,具体包括:
获得所述第三文档的第一开放源数据;
基于一预设样式表及所述第一开放源数据,将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。
3.如权利要求1所述的方法,其特征在于,所述将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,具体包括:
基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象;
通过所述第一内容对象对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。
4.如权利要求2所述的方法,其特征在于,所述将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,具体包括:
基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象;
通过所述第一内容对象对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。
5.如权利要求4所述的方法,其特征在于,所述通过所述第一内容对象对应的转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,具体包括:
将所述第一文档的类型及所述第一开放源数据,插入所述第一转换引擎,获得所述第一转换引擎能够识别的内容对象;
将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。
6.一种内容对象复用装置,应用于第一文档撰写平台中,其特征在于,包括:
获得模块,用于获得一基于第二文档撰写平台匹配的第一文档;
标引模块,用于对所述第一文档进行标引,获得第三文档;
拆分模块,用于对所述第三文档进行拆分,获得至少一个第三子文档;并将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容;
转换模块,用于将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容,并保存所述至少一个内容至所述第一文档撰写平台中的预设存储位置;其中,所述标引模块,具体包括:
生成单元,用于生成符合一预设规范的Schema文件;
标引单元,用于基于所述schema文件,通过自动化标引工具或手工标引方式对所述第一文档进行标引,获得所述第三文档;
所述标引模块,具体还包括:
数据库单元,用于分类保存所述至少一个XML数据内容。
7.如权利要求6所述的装置,其特征在于,所述拆分模块,具体包括:
获得单元,用于获得所述第三文档的第一开放源数据;
转换单元,用于基于一预设样式表及所述第一开放源数据,将所述至少一个第三子文档转换为符合预设条件的至少一个XML数据内容。
8.如权利要求6所述的装置,其特征在于,所述转换模块包括:
检索单元,用于基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象;
内容转换单元,用于通过所述第一内容对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。
9.如权利要求7所述的装置,其特征在于,所述转换模块包括:
检索单元,用于基于与所述第一文档对应的第一条件从所述第一文档撰写平台的至少一个内容对象中检索获得第一内容对象;
内容转换单元,用于通过所述第一内容对应的第一转换引擎将所述至少一个XML数据内容转换为所述第一文档撰写平台能识别的至少一个内容。
10.如权利要求9所述的装置,其特征在于,所述内容转换单元包括:
插入单元,用于将所述第一文档的类型及所述第一开放源数据,插入所述第一转换引擎,获得所述第一转换引擎能够识别的内容对象;
内容转换子单元,用于将所述第一转换引擎能够识别的内容对象通过所述第一转换引擎转换成为所述第一文档撰写平台能够识别的至少一个内容。
CN201310089432.XA 2013-03-20 2013-03-20 一种内容对象复用的方法和装置 Expired - Fee Related CN104063386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310089432.XA CN104063386B (zh) 2013-03-20 2013-03-20 一种内容对象复用的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310089432.XA CN104063386B (zh) 2013-03-20 2013-03-20 一种内容对象复用的方法和装置

Publications (2)

Publication Number Publication Date
CN104063386A CN104063386A (zh) 2014-09-24
CN104063386B true CN104063386B (zh) 2018-10-09

Family

ID=51551102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310089432.XA Expired - Fee Related CN104063386B (zh) 2013-03-20 2013-03-20 一种内容对象复用的方法和装置

Country Status (1)

Country Link
CN (1) CN104063386B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767207B (zh) * 2016-08-23 2021-08-17 阿里巴巴集团控股有限公司 一种处理对象数据集合的方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101272543A (zh) * 2008-04-25 2008-09-24 巴别塔(北京)科技有限公司 一种无线数据传输方法
CN101436185A (zh) * 2007-11-12 2009-05-20 北大方正集团有限公司 一种利用xml内存树实现多种文件兼容的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040172584A1 (en) * 2003-02-28 2004-09-02 Microsoft Corporation Method and system for enhancing paste functionality of a computer software application
US7437666B2 (en) * 2003-10-22 2008-10-14 Intel Corporation Expression grouping and evaluation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436185A (zh) * 2007-11-12 2009-05-20 北大方正集团有限公司 一种利用xml内存树实现多种文件兼容的方法
CN101272543A (zh) * 2008-04-25 2008-09-24 巴别塔(北京)科技有限公司 一种无线数据传输方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于XML的可扩展文档转换系统的设计与实现;薛红军 等;《http://www.paper.edu.cn/html/releasepaper/2008/01/367/》;20080111;1-9页 *

Also Published As

Publication number Publication date
CN104063386A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN104408078B (zh) 一种基于关键词的中英双语平行语料库构建方法
US20110178981A1 (en) Collecting community feedback for collaborative document development
CN104699714B (zh) 将书版格式文件转换为epub格式文件的方法及装置
CN104035754A (zh) 一种基于xml的自定义代码生成方法及生成器
CN105701091B (zh) 一种基于语义的pdf文档的处理方法及处理装置
CN104035993B (zh) 电子书的存储检索方法、电子书管理系统、阅读系统
CN103279454A (zh) 文档自动生成方法、装置及系统
CN110083580B (zh) 一种Word文档向PowerPoint文档转换的方法及系统
Felicetti et al. CIDOC CRM and Epigraphy: a Hermeneutic Challenge.
CN105808775A (zh) 版式文件信息同步入数据库方法与装置
CN103309849B (zh) 一种基于OpenXML的docx文档创建和修改方法
CN104298705A (zh) 一种关系型数据和非结构化数据的转换方法
CN108241658A (zh) 一种日志模式发现方法及系统
CN104063386B (zh) 一种内容对象复用的方法和装置
US8032521B2 (en) Managing structured content stored as a binary large object (BLOB)
CN106326306A (zh) Pdf文件自动识别生成数字报刊技术
Sirsat et al. Pattern matching for extraction of core contents from news web pages
CN109582928B (zh) Pdf报表数据提取方法及装置
CN103136314A (zh) 一种舆情监控中剪报生成方法及系统
CN106649219B (zh) 一种通信卫星设计文件自动生成方法
US8719693B2 (en) Method for storing localized XML document values
Dipper et al. Challenges in modelling a richly annotated diachronic corpus of German
CN105447027A (zh) 一种pdf文档目录的获取方法及装置
CN104462045B (zh) 一种文档处理方法和装置
CN110069516A (zh) 一种基于标准文献的服务内容智能管理技术实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220623

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181009

CF01 Termination of patent right due to non-payment of annual fee