CN102880653A - 一种文档合并方法和系统 - Google Patents

一种文档合并方法和系统 Download PDF

Info

Publication number
CN102880653A
CN102880653A CN2012103091925A CN201210309192A CN102880653A CN 102880653 A CN102880653 A CN 102880653A CN 2012103091925 A CN2012103091925 A CN 2012103091925A CN 201210309192 A CN201210309192 A CN 201210309192A CN 102880653 A CN102880653 A CN 102880653A
Authority
CN
China
Prior art keywords
document
reading unit
original document
dividing elements
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103091925A
Other languages
English (en)
Inventor
原野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wondershare Software Co Ltd
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN2012103091925A priority Critical patent/CN102880653A/zh
Publication of CN102880653A publication Critical patent/CN102880653A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文档合并方法,包括:根据预设的单元划分规则将每个原始文档分别划分为至少一个读取单元;根据预设的单元读取规则依次从每个原始文档中提取对应的读取单元放入预置的存储空间中;根据所述存储空间中的读取单元生成合成文档。本发明实施例还公开了一种文档合并系统。采用本发明,可以方便用户在一个文档中对照浏览相似内容的不同版本,提升了用户体验。

Description

一种文档合并方法和系统
技术领域
本发明涉及文档处理技术,尤其涉及一种文档合并方法和系统。
背景技术
随着计算机应用的普及,电子文档逐渐取代了原始的纸质文档,成为人们生活和工作中必不可少的文件获取渠道。的在实际使用中,有时用户可能需要对比阅读相似内容的不同版本,例如不同语言版本的同一文件、不同人填写的同一报表等。但是不同版本通常用不同的文档进行存储,当用户需要对比阅览时,通常采用以下两种方式:1、在多个不同文档间进行切换,这需要同时打开多个窗口,或者不停的开启关闭阅读软件,不仅给操作系统造成较重负担,而且不便于用户操作,影响了用户体验;2、将多个文档进行合并,但是现有的文档处理软件在合并文档时,只能按照整体顺序依次进行合并,即按照第1个文档、第2个文档……第n个文档的顺序合并,当用户需要浏览第1个文档的第一页在第2个文档上的对应内容时,可能需要将浏览页面跳至较远的位置,甚至用户可能无法知晓确切位置,只能慢慢查找,这无疑是一项较为繁琐的工作,会影响用户的阅读体验。 
发明内容
本发明实施例所要解决的技术问题在于,提供一种文档合并方法和系统。可使用户在一个合成的文档中方便地对照浏览相似内容的不同版本。
为了解决上述技术问题,本发明实施例提供了一种文档合并方法,包括:
根据预设的单元划分规则将每个原始文档分别划分为至少一个读取单元;
根据预设的单元读取规则依次从每个原始文档中提取对应的读取单元放入预置的存储空间中;
根据所述存储空间中的读取单元生成合成文档。
其中,所述单元划分规则包括:每个原始文档的一页为一个读取单元;
所述单元读取规则包括:按照页码顺序读取。
其中,所述单元划分规则包括:每个原始文档的偶数页为一个读取单元,奇数页为另一个读取单元。
其中,所述单元划分规则包括:不同原始文档的读取单元的大小是根据所述原始文档的语言类型确定的。 
其中,所述单元划分规则包括:每个原始文档包含的读取单元的数目相同。
相应地,本发明还提供一种文档合并系统,包括:
读取单元划分模块,用于根据预设的单元划分规则将每个原始文档分别划分为至少一个读取单元;
读取单元排列模块,用于根据预设的单元读取规则依次从每个原始文档中提取对应的读取单元放入预置的存储空间中;
合成文档生成模块,用于根据所述存储空间中的读取单元生成合成文档。
其中,所述单元划分规则包括:每个原始文档的一页为一个读取单元;
所述单元读取规则包括:按照页码顺序读取。
其中,所述单元划分规则包括:每个原始文档的偶数页为一个读取单元,奇数页为另一个读取单元。
其中,所述单元划分规则包括:不同原始文档的读取单元的大小是根据所述原始文档的语言类型确定的。 
其中,所述单元划分规则包括:每个原始文档包含的读取单元的数目相同。
实施本发明实施例,具有如下有益效果:通过将每个原始文档划分为至少一个读取单元,按照一定的规则将不同原始文档中对应的读取单元排列在一起,然后生成合并后的文档,可以方便用户在一个文档中对照浏览相似内容的不同版本,解决了现有技术的文档处理软件在合并文档时,只能按照整体顺序依次进行合并导致的浏览繁琐问题,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文档合并方法的第一实施例流程图;
图2是本发明提供的文档合并方法的第二实施例流程图;
图3是本发明提供的文档合并系统的第一实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明提供的文档合并方法的第一实施例流程图,该方法包括: 
在步骤S100,根据预设的单元划分规则将每个原始文档分别划分为至少一个读取单元。单元划分规则可以是系统默认的或由用户预先根据自己的需求进行设置的任意合适规则。例如,单元划分规则可以是:每个原始文档的一页为一个读取单元。又例如,单元划分规则可以是:每个原始文档的偶数页为一个读取单元,奇数页为另一个读取单元。
在步骤S101,根据预设的单元读取规则依次从每个原始文档中提取对应的读取单元放入预置的存储空间中。单元读取规则同样可以是系统默认的或由用户预先根据自己的需求进行设置的任意合适规则。例如,单元读取规则可以是:按照页码顺序读取。又例如,单元读取规则还可以是:先读取奇数页码,再读取偶数页码。
在步骤S102,根据所述存储空间中的读取单元生成合成文档。
需要说明的是,本发明实施例提供的文档合并方法中的文档是只是针对PDF文档而言的,那么在进行PDF文档合并时,要从PDF文档和其他文档的属性来说,PDF文档有“页”的概念,而其他文档是没有“页”的概念的,这里的“页”和我们在Word里的看到的页是有区别的。首先,PDF文档中的页和页上的内容是独立的,而word等其他文档中的页和内容是互相依赖的,PDF文档删除掉页上的内容,页面依然存在。而Word删除掉了页上的内容,页也就被删除掉了,所以Word里没有删除页面这个功能。其次,在进行PDF文档合并时,需要提取每个文档中每一页的信息结构然后重新写到合并后文档的数据结构中,而其他文档的合并只是内容上的一个追加而已。
本发明实施例提供的文档合并方法,通过将每个原始文档划分为至少一个读取单元,按照一定的规则将不同原始文档中对应的读取单元排列在一起,然后生成合并后的文档,可以方便用户在一个文档中对照浏览相似内容的不同版本,提升了用户体验。
请参见图2,是本发明提供的文档合并方法的第二实施例流程图。在该实施例中,假设有n个原始文档,每个原始文档都有m页。下面将以每个读取单元为原始页码的一页为例进行说明。该方法包括:
在步骤S200,将每个原始文档的每一页作为一个提取单元。
在步骤S201,初始化x0的值,令x0=1。
在步骤S202,判断x0的值是否大于m。
若步骤S202的判断结果为否,则执行步骤S203。在步骤S203,按照原始文档1~原始文档n的顺序依次提取每个原始文档的第x0页,作为合成文档的第n*(x0-1)+1页至第n*x0页,放入预置的存储空间中。
在步骤S204,将x0的值增加1。然后返回执行步骤S202。
若步骤S202的判断结果为是,则执行步骤S205。在步骤S205,根据存储空间中的读取单元生成合成文档。
图2仅仅是本发明的一个实施例,当每个原始文档的页码相同,且需要每页对照时较常使用,因为它实现简单,处理速度较快,有利于提高效率。但是当原始文档的页码不同,每页的内容并不完全对应时,这种方法可能存在影响阅读效果。例如,若原始文档是同一文件的不同语言版本,由于相同内容以不同语言表示时长度可能不一样,例如同样的内容用中文表示需要2页,用英文表示可能需要3页,用日文表示可能需要4页,若仍然以1页为读取单元,很可能造成内容上的不对应。这时,可以采取其他单元划分方法,例如,使每个原始文档包含的读取单元的数目相同。又例如,可以根据原始文档的语言类型来确定该原始文档中选取的读取单元的大小,将中文的读取单元设为2页,英文的读取单元设为3页,日文的读取单元设为4页等。
请参见图3,是本发明提供的文档合并系统的第一实施例结构示意图,该系统包括: 
读取单元划分模块310,用于根据预设的单元划分规则将每个原始文档分别划分为至少一个读取单元。单元划分规则可以是系统默认的或由用户预先根据自己的需求进行设置的任意合适规则。例如,单元划分规则可以是:每个原始文档的一页为一个读取单元。又例如,单元划分规则可以是:每个原始文档的偶数页为一个读取单元,奇数页为另一个读取单元。
读取单元排列模块320,用于根据预设的单元读取规则依次从每个原始文档中提取对应的读取单元放入预置的存储空间中。单元读取规则同样可以是系统默认的或由用户预先根据自己的需求进行设置的任意合适规则。例如,单元读取规则可以是:按照页码顺序读取。又例如,单元读取规则还可以是:先读取奇数页码,再读取偶数页码。
合成文档生成模块330,用于根据所述存储空间中的读取单元生成合成文档。
本发明实施例提供的文档合并系统,通过将每个原始文档划分为至少一个读取单元,按照一定的规则将不同原始文档中对应的读取单元排列在一起,然后生成合并后的文档,可以方便用户在一个文档中对照浏览相似内容的不同版本,提升了用户体验。
以读取单元划分模块310取原始文档的一页为读取单元来举例说明,假设有n个原始文档,每个原始文档有m页。读取单元排列模块320可以按照原始文档1~原始文档n的顺序依次提取每个原始文档的第1页,作为合成文档的第1至n页,放入预置的存储空间;然后按照原始文档1~原始文档n的顺序依次提取每个原始文档的第2页,作为合成文档的第n+1至2n页,放入该存储空间;以此类推,按照原始文档1~原始文档n的顺序依次提取每个原始文档的第m页,作为合成文档的第n(m-1)+1至nm页,放入该存储空间。最后,合成文档生成模块330根据该存储空间中存储的读取单元合并生成合成文档。当然,这仅仅是本发明的一个实施例,当每个原始文档的页码相同,且需要每页对照时较常使用,因为它实现简单,处理速度较快,有利于提高效率。但是当原始文档的页码不同,每页的内容并不完全对应时,这种方法可能存在影响阅读效果。例如,若原始文档是同一文件的不同语言版本,由于相同内容以不同语言表示时长度可能不一样,例如同样的内容用中文表示需要2页,用英文表示可能需要3页,用日文表示可能需要4页,若仍然以1页为读取单元,很可能造成内容上的不对应。这时,可以采取其他单元划分方法,例如,使每个原始文档包含的读取单元的数目相同。又例如,可以根据原始文档的语言类型来确定该原始文档中选取的读取单元的大小,将中文的读取单元设为2页,英文的读取单元设为3页,日文的读取单元设为4页等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种文档合并方法,其特征在于,包括:
根据预设的单元划分规则将每个原始文档分别划分为至少一个读取单元;
根据预设的单元读取规则依次从每个原始文档中提取对应的读取单元放入预置的存储空间中;
根据所述存储空间中的读取单元生成合成文档。
2.根据权利要求1所述的文档合并方法,其特征在于,所述单元划分规则包括:每个原始文档的一页为一个读取单元;
所述单元读取规则包括:按照页码顺序读取。
3.根据权利要求1所述的文档合并方法,其特征在于,所述单元划分规则包括:每个原始文档的偶数页为一个读取单元,奇数页为另一个读取单元。
4.根据权利要求1所述的文档合并方法,其特征在于,所述单元划分规则包括:不同原始文档的读取单元的大小是根据所述原始文档的语言类型确定的。
5.根据权利要求1所述的文档合并方法,其特征在于,所述单元划分规则包括:每个原始文档包含的读取单元的数目相同。
6.一种文档合并系统,其特征在于,包括:
读取单元划分模块,用于根据预设的单元划分规则将每个原始文档分别划分为至少一个读取单元;
读取单元排列模块,用于根据预设的单元读取规则依次从每个原始文档中提取对应的读取单元放入预置的存储空间中;
合成文档生成模块,用于根据所述存储空间中的读取单元生成合成文档。
7.根据权利要求6所述的文档合并系统,其特征在于,所述单元划分规则包括:每个原始文档的一页为一个读取单元;
所述单元读取规则包括:按照页码顺序读取。
8.根据权利要求6所述的文档合并系统,其特征在于,所述单元划分规则包括:每个原始文档的偶数页为一个读取单元,奇数页为另一个读取单元。
9.根据权利要求6所述的文档合并系统,其特征在于,所述单元划分规则包括:不同原始文档的读取单元的大小是根据所述原始文档的语言类型确定的。
10.根据权利要求6所述的文档合并系统,其特征在于,所述单元划分规则包括:每个原始文档包含的读取单元的数目相同。
CN2012103091925A 2012-08-28 2012-08-28 一种文档合并方法和系统 Pending CN102880653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103091925A CN102880653A (zh) 2012-08-28 2012-08-28 一种文档合并方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103091925A CN102880653A (zh) 2012-08-28 2012-08-28 一种文档合并方法和系统

Publications (1)

Publication Number Publication Date
CN102880653A true CN102880653A (zh) 2013-01-16

Family

ID=47481979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103091925A Pending CN102880653A (zh) 2012-08-28 2012-08-28 一种文档合并方法和系统

Country Status (1)

Country Link
CN (1) CN102880653A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279889A (zh) * 2013-05-17 2013-09-04 上海市计量测试技术研究院 利用vb实现水晶报表与word文档合并的方法
CN105302506A (zh) * 2015-11-10 2016-02-03 武汉启明泰和软件服务有限公司 一种基于数据自动调用的分拣批量打印方法
CN105468570A (zh) * 2015-12-24 2016-04-06 北京中电普华信息技术有限公司 一种文档合成展示方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319649A1 (en) * 2007-06-20 2008-12-25 Amadeus S.A.S. System and method for integrating and displaying travel advices gathered from a plurality of reliable sources
CN102096660A (zh) * 2009-12-15 2011-06-15 北大方正集团有限公司 一种文档并行处理方法及系统
CN102323927A (zh) * 2011-07-29 2012-01-18 无锡永中软件有限公司 一种文档合并方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319649A1 (en) * 2007-06-20 2008-12-25 Amadeus S.A.S. System and method for integrating and displaying travel advices gathered from a plurality of reliable sources
CN102096660A (zh) * 2009-12-15 2011-06-15 北大方正集团有限公司 一种文档并行处理方法及系统
CN102323927A (zh) * 2011-07-29 2012-01-18 无锡永中软件有限公司 一种文档合并方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279889A (zh) * 2013-05-17 2013-09-04 上海市计量测试技术研究院 利用vb实现水晶报表与word文档合并的方法
CN103279889B (zh) * 2013-05-17 2016-04-06 上海市计量测试技术研究院 利用vb实现水晶报表与word文档合并的方法
CN105302506A (zh) * 2015-11-10 2016-02-03 武汉启明泰和软件服务有限公司 一种基于数据自动调用的分拣批量打印方法
CN105302506B (zh) * 2015-11-10 2018-03-20 武汉启明泰和软件服务有限公司 一种基于数据自动调用的分拣批量打印方法
CN105468570A (zh) * 2015-12-24 2016-04-06 北京中电普华信息技术有限公司 一种文档合成展示方法及装置
CN105468570B (zh) * 2015-12-24 2019-03-12 北京中电普华信息技术有限公司 一种文档合成展示方法及装置

Similar Documents

Publication Publication Date Title
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US10417348B2 (en) Method for processing and loading web pages supporting multiple languages and system thereof
CN108763591B (zh) 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN101271463B (zh) 版式文件的结构处理方法和系统
CN102855244B (zh) 文档目录处理方法和装置
CN107291949B (zh) 信息搜索方法及装置
JP2012518836A5 (zh)
CN104111922A (zh) 一种流式文档的处理方法及装置
CN103150359B (zh) 微博信息显示方法和装置
CN109522390B (zh) 一种搜索结果展示方法和装置
CN107885715B (zh) 代码信息的排版方法、电子设备及计算机存储介质
CN102880653A (zh) 一种文档合并方法和系统
CN101008940A (zh) 自动处理字体缺失的方法与装置
KR102175227B1 (ko) Xml 파일 축약
CN102193873A (zh) 快速读写海量数据文件的方法
CN102722456A (zh) 闪存存储设备的数据写入方法和闪存存储设备
US9817913B2 (en) Method and apparatus for collecting, merging and presenting content
CN104317955A (zh) 一种移动终端存储空间中的文件扫描方法和装置
CN107301180A (zh) 一种文档结构的分析方法和装置
CN106156314B (zh) 一种数据操作方法及装置、数据查找方法及装置
CN115935928A (zh) 文档信息的提取方法和装置
CN101819739A (zh) 一种电子书内插播广告的方法
CN102456037A (zh) 移动终端中读取电子书的方法及装置
CN108073646B (zh) 目录提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road, room 9 building on the north side of block A901 No. 006 TCL Industry Research Institute building A A Building 8 floor

Applicant after: Shenzhen Wondershare Information Technology Co., Ltd.

Address before: 518057 Guangdong city of Shenzhen province Nanshan District Gao Xin Road Building A block 8 Building TCL

Applicant before: Shenzhen Wondershare Software Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SHENZHEN WONDERSHARE SOFTWARE CO., LTD. TO: SHENZHEN WONDERSHARE INFORMATION TECHNOLOGY CO., LTD.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130116

RJ01 Rejection of invention patent application after publication