CN101140563A - 可移植文档格式文件的合并方法及装置 - Google Patents
可移植文档格式文件的合并方法及装置 Download PDFInfo
- Publication number
- CN101140563A CN101140563A CNA2007101763147A CN200710176314A CN101140563A CN 101140563 A CN101140563 A CN 101140563A CN A2007101763147 A CNA2007101763147 A CN A2007101763147A CN 200710176314 A CN200710176314 A CN 200710176314A CN 101140563 A CN101140563 A CN 101140563A
- Authority
- CN
- China
- Prior art keywords
- merged
- file
- page
- leaf
- combined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000006870 function Effects 0.000 description 11
- 230000001737 promoting effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 101100351299 Caenorhabditis elegans pdf-1 gene Proteins 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/12—Digital output to print unit, e.g. line printer, chain printer
- G06F3/1201—Dedicated interfaces to print systems
- G06F3/1202—Dedicated interfaces to print systems specifically adapted to achieve a particular effect
- G06F3/1203—Improving or facilitating administration, e.g. print management
- G06F3/1204—Improving or facilitating administration, e.g. print management resulting in reduced user or operator actions, e.g. presetting, automatic actions, using hardware token storing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/12—Digital output to print unit, e.g. line printer, chain printer
- G06F3/1201—Dedicated interfaces to print systems
- G06F3/1223—Dedicated interfaces to print systems specifically adapted to use a particular technique
- G06F3/1237—Print job management
- G06F3/1244—Job translation or job parsing, e.g. page banding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了印刷领域中可移植文档格式文件的合并方法,以提高可移植文档格式文件的合并效率,包括:基于预先确定的关键字类型组合的优先级,按照优先级从高到低的顺序,对各优先级执行如下处理,直至确定完所有待合并文件的合并页和被合并页:根据位于当前优先级的关键字类型组合,获取其对应的关键字组合;依据所述获取的每个关键字组合执行如下处理,直至确定完所有待合并文件的合并页与被合并页,或者处理完所述获取的关键字组合:在剩余的待合并文件内,选择文件名中包含当前关键字组合的待合并文件;在判断出选择的文件内包含合并文件与被合并文件时,确定出合并页与被合并页;将所述确定出的合并页与被合并页合并。
Description
技术领域
本发明涉及印刷领域的印前技术,尤其涉及可移植文档格式文件的合并方法及装置。
背景技术
目前在报刊、书籍等印前计算机领域中,以可移植文档格式(PDF,PortableDocument Format)为核心的工作流程得到广泛推广。该流程主要包括步骤:
(1)将版面描述文件,例如PS(PostScript Language)文件等,转化为版面PDF文件,这一步骤称为规范化。
版面描述文件一般由排版软件生成。
(2)将规范化后得到的PDF文件进行预飞、陷印、折手和拼版等相应处理。
(3)将处理后的PDF文件转化为点阵文件,然后发送给输出设备(例如打印机、照排机等硬件设备)进行输出。
由于在报刊的版面中通常包含新闻和广告,而在排版时,新闻和广告一般是分别制作成新闻版面描述文件和广告版面描述文件,因此就需要将新闻和广告内容合并在一个版面。
现有技术提供了两种合并方法:
1)在排版阶段,通过专业排版人员对版面描述文件进行手工编辑,逐个将新闻和广告版面描述文件合并,生成新的版面描述文件,再进行规范化,得到包含新闻和广告的版面PDF文件;
2)分别对新闻和广告版面描述文件进行规范化,再对规范化后的PDF文件逐个进行人工合并,以获得包含新闻和广告的版面PDF文件。
由于上述两种方法都是利用手工操作,因此不可避免的存在效率低的缺点,尤其当待处理文件较多时,上述合并方法更加不能保证较高的效率。
发明内容
本发明提供一种可移植文档格式文件的合并方法及装置,以提高可移植文档格式文件的合并效率。
本发明提供了一种可移植文档格式文件的合并方法,包括:合并页和被合并页确定步骤:基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,对各优先级执行如下处理过程,直至确定完所有待合并可移植文档格式文件的合并页和被合并页:根据位于当前优先级的关键字类型组合,获取该关键字类型组合对应的关键字组合;依据所述获取的每个关键字组合执行如下处理,直至确定完所有待合并可移植文档格式文件的合并页与被合并页,或者处理完所有所述获取的关键字组合:在剩余的待合并可移植文档格式文件内,选择文件名中包含当前关键字组合的待合并可移植文档格式文件;在判断出所述选择的待合并可移植文档格式文件内包含合并文件与被合并文件时,确定出所述合并文件的合并页与被合并文件的被合并页;文件合并步骤:将所述合并页确定步骤中确定出的合并页与被合并页合并。
本发明还提供了一种可移植文档格式文件的合并装置,包括:关键字组合获取单元,用于基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,获取位于各优先级的关键字类型组合对应的关键字组合,直至确定完所有待合并可移植文档格式文件的合并页和被合并页;文件选择单元,用于依据所述关键字组合获取单元获取的每个关键字组合,在剩余的待合并可移植文档格式文件内,选择文件名中包含当前关键字组合的待合并可移植文档格式文件,直至确定完所有待合并可移植文档格式文件的合并页与被合并页,或者直至处理完所有所述获取的关键字组合;页确定单元,用于在判断出所述文件选择单元选择的待合并可移植文档格式文件内,包含合并文件与被合并文件时,确定出所述合并文件的合并页与被合并文件的被合并页;合并单元,用于将所述页确定单元确定出的合并页与被合并页合并。
本发明还提供了一种可移植文档格式文件的合并方法,包括:基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,对各优先级执行如下处理过程,直至合并完所有待合并可移植文档格式文件:根据位于当前优先级的关键字类型组合,获取该关键字类型组合对应的关键字组合;依据所述获取的每个关键字组合执行如下处理,直至合并完所有待合并可移植文档格式文件,或者处理完所有所述获取的关键字组合:在剩余的待合并可移植文档格式文件内,选择文件名中包含当前关键字组合的待合并可移植文档格式文件;在判断出所述选择的待合并可移植文档格式文件内包含合并文件与被合并文件时,合并所述合并文件与被合并文件。
本发明还提供了一种可移植文档格式文件的合并装置,包括:关键字组合获取单元,用于基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,获取位于当前优先级的关键字类型组合对应的关键字组合,直至合并完所有待合并可移植文档格式文件;文件选择单元,用于依据所述关键字组合获取单元获取的每个关键字组合,在剩余的待合并可移植文档格式文件内,选择文件名中包含当前关键字组合的待合并可移植文档格式文件,直至合并完所有待合并可移植文档格式文件,或者处理完所有所述关键字获取单元获取的关键字组合;文件合并单元,用于在判断出所述文件选择单元选择的待合并可移植文档格式文件内,包含合并文件与被合并文件时,合并所述合并文件与被合并文件。
本发明实施例通过选择待合并PDF文件名的关键字,组成优先级组合,不重复、不遗漏地在待合并PDF文件内选取出可以合并的匹配文件,进而根据选择的合并方式,将匹配文件进行合并,实现了PDF文件的自动合并,避免了现有技术利用人工方式进行合并,导致效率较低的问题,从而提高了规范化后PDF文件合并的效率。
附图说明
图1为本发明实施例中自动合并PDF文件的流程图;
图2为本发明实施例提出的第一种PDF文件合并装置的结构示意图;
图3为本发明实施例提出的页确定单元的结构示意图;
图4为本发明实施例提出的第一种合并单元的结构示意图;
图5为本发明实施例提出的第二种合并单元的结构示意图;
图6为本发明实施例提出的第二种PDF文件合并装置的结构示意图。
具体实施方式
针对背景技术提及的问题,本发明实施例提出:先将新闻版面描述文件和广告版面描述文件分别规范化,再自动合并规范化后得到的新闻版面PDF文件(简称新闻版面文件)和相应的广告版面PDF文件(简称广告版面文件)。
由于在现有技术中,出现了可以合并两个指定PDF文件的函数(称为合并函数),例如光栅化图像处理器(RIP,Raster Image Processor)内核的CopyAPage函数,因此本发明实施例的设计思路就是:在待合并PDF文件(可以是规范化后的新闻版面文件和相应广告版面文件)内,选定可以合并的匹配文件,再依据合并方式,循环调用合并函数,合并所述匹配文件。
通过规范化得到的PDF文件的文件名,通常具有如下统一形式:“处理器标识(ID,Identity)+主文件名+文件识别标识+源文件类型+序号.pdf”。其中处理器ID是指规范化器的编号,规范化器是属于流程软件中的程序模块,对于不同的规范化器,处理器ID不同;主文件名是用户命名的,用户在命名时,一般会为待合并的PDF文件命制相同的主文件名;文件识别标识用于识别该PDF文件是哪一种PDF文件,例如如果是新闻PDF文件,该标识通常为content,如果是广告PDF文件,该标识通常为ad;源文件类型是指规范化以前的文件类型,通常是指版面描述文件的类型,例如PS等;序号代表PDF文件的页码,由于规范化得到的文件是单页文件,例如共10页的PS文件,通过同一规范化器处理以后,获得10个PDF文件,每一个文件只有一页,且主文件名和文件识别标识相同,那么规范化后PDF文件名中,序号用于标识这10个PDF文件。
匹配文件包括合并文件和被合并文件,只有同时包括合并文件和被合并文件,才能称为匹配文件,即只有在待合并文件中,选择出了合并文件和被合并文件,才能称为选择出了匹配文件。其中如果将新闻版面文件作为合并文件,那么广告版面文件就是被合并文件,反之,如果将广告版面文件作为合并文件,新闻版面文件就是被合并文件。
基于待合并PDF文件名的统一形式,下面阐述实现所述设计思路的过程:
1、根据待合并PDF文件名选择关键字,组合选择出的关键字,并确定优先级及每一优先级对应的关键字组合;
根据规范化后PDF文件名的各组成部分的含义,本发明实施例选择处理器ID、主文件名和源文件类型作为关键字,进行组合,形成如下优先级:
第一优先级:“处理器ID+主文件名+源文件类型”;
第二优先级:“处理器ID+主文件名”;
第三优先级:“主文件名+源文件类型”;
第四优先级:“主文件名”。
其中第二和第三优先级对应的关键字组合可以互换。
实施本步骤的目的在于使后续步骤能够依据划分的优先级及其对应的关键字组合,从待合并PDF文件中,不遗漏,不重复的依次选取出可以合并的PDF匹配文件进行合并,因此凡是能够达到该目的的划分方式都是可行的,也即划分优先级及每一优先级对应的关键字组合是以达到该目的为原则的,例如当待合并PDF文件的主文件名相同时,还可以形成如下优先级:
第一优先级:“处理器ID+源文件类型”;
第二优先级:“处理器ID”;
第三优先级:“源文件类型”。
2、按照优先级及其对应的关键字组合,在待合并PDF文件中选取可以合并的匹配文件,再依据合并方式,合并所述匹配文件。
图1为本发明实施例中自动合并PDF文件的流程图,由该图可知,本发明实施例中自动合并PDF文件的流程为:
步骤10,在待合并PDF文件内,选取文件名中包含当前优先级对应的关键字组合的PDF文件;
步骤20,在所述选取出的PDF文件内包含可以合并的匹配文件时,依据合并方式,合并所述匹配文件。
其中可以通过如下方式获知所述选取出的PDF文件内是否包含可以合并的匹配文件:
计算所述选取出的PDF文件内包含的合并文件数和被合并文件数,如果两个均不为零,那么所述选取出的PDF文件内包含可以合并的匹配文件。其中如果合并文件数和被合并文件数有且只有一个为零,那么进行下一优先级处理过程,如果两者都为零,那么可以开始匹配文件的合并过程。
所述合并方式是指依据所述可以合并的匹配文件内包含的合并文件数与被合并文件数来进行文件合并的方式,分成如下几种:
1)合并第一页,是指将合并文件的第一页与被合并文件的第一页进行合并,适用于合并文件数以及被合并文件数均大于等于1的情况;
2)合并对应页,是指依次将合并文件的第i页与被合并文件的第i页合并,适用于合并文件数与被合并文件数均大于1的情况;其中i的取值为1到N,N的值为合并文件数与被合并文件数中较小的那个值;
例如合并文件有两页,被合并文件有三页,那么合并对应页是指:将合并文件的第一页与被合并文件的第一页合并,以及将合并文件的第二页与被合并文件的第二页合并。
3)合并所有页,适用于合并文件数或者被合并文件数有且仅有一个等于1的情况,那么将文件数为1的文件分别与另一个文件的所有页合并。
上述划分方式仅仅是较佳方式,由于划分上述三种合并方式的目的仅仅在于根据合并文件数与被合并文件数,灵活确定出合并文件与被合并文件的具体合并页,因此合并方式必然可以存在多种形式。例如还可以在合并文件数与被合并文件数均大于1时,设置将被合并文件的每一页分别合并到合并文件的第一页的合并方式。
如上所述,由于将源文件进行规范化后,得到的每一个PDF文件只有1页,因此所述合并文件与被合并文件的第几页并非指一个PDF文件内的第几页,而是代表该PDF文件名中的序号值,例如合并文件第2页代表的是合并文件内文件名序号为“p0002”的PDF文件。
在根据合并方式合并PDF文件时,可能还需要确认合并文件与被合并文件的相对位置。
下面提出可以调整相对位置的两种方式,第一种方式分成初步调整和进一步调整两个步骤,第二种方式只包含一个步骤。
第一种方式:
将PDF文件页面按照9点定位法,划分为:左上、左中、左下、右上、右中、右下、正中、上中、下中九个位置定义点,以合并文件页面的正中为原点,正中指向右中的方向为X轴方向,正中指向上中的方向为Y轴方向,那么首先确定被合并文件与合并文件的基准点,即选取上述九个位置定义点之一作为基准点,较佳的,合并文件与被合并文件的基准点相同,例如都将左下那个位置定义点作为基准点。
设置选择基准点这一步骤的目的是通过基准点的选择,初步调整合并文件与被合并文件的相对位置,例如在被合并文件的页面只有合并文件页面的一半大小,且默认合并文件与被合并文件基准点重合时,可以通过将左上的那个位置定义点作为基准点,实现将被合并文件合并在合并文件的上半部分;或者可以通过将左下的那个位置定义点作为基准点,实现将被合并文件合并在合并文件的下半部分。
在初步确定了合并文件与被合并文件的相对位置以后,接着可以通过确定被合并文件的基准点相对于合并文件基准点的坐标(dx,dy),对相对位置进行进一步调整。
当dx大于零时,代表被合并文件的基准点位于合并文件基准点的右侧,反之在左侧;
当dy大于零时,代表被合并文件的基准点位于合并文件基准点的上侧,反之在下侧。
第二种方式:
默认将合并文件与被合并文件的某一特定位置作为基准点,较佳的,合并文件与被合并文件的基准点都选定在页面的正中位置;然后通过确定被合并文件的基准点相对于合并文件基准点的坐标(dx,dy),直接对相对位置进行调整,当然此时dx,dy的值一般较大。
上述仅仅调整合并文件与被合并文件的相对位置,其实还可以通过确定合并文件X轴与被合并文件X轴的角度(可以通过被合并文件X轴沿逆时针旋转方向计量该角度),来对被合并文件进行旋转,以获得更好的合并效果。
在根据合并方式合并PDF文件时,可能还需要确认合并文件与被合并文件的合并区域,所述合并区域可以通过确定合并文件或者被合并文件的裁切区域来确定,所述裁切区域是指裁切掉文件的部分区域后剩余的区域。
在通常情况下,可以默认被合并文件的裁切区域为整个页面,如果需要确定新的裁切区域,那么可以但不限于以一矩形作为裁切区域,该矩形区域可以通过如下方法确定:
将被合并文件页面的左下角坐标定义为(0,0),然后设置该裁切区域右上角坐标(x,y),即可确定出该矩形区域。
在调用合并函数将被合并文件的该裁切区域合并到合并文件时,由于合并函数一般是将裁切区域默认为整个页面,即将坐标(x,y)作为常量值,固定为被合并文件的右上角坐标,因此可以通过将(x,y)修改为变量,由用户自行设置(x,y)的坐标值,以调整被合并文件的裁切区域。
下面结合实施例来阐述上述方案的具体实现过程。
假设要将两页新闻版面与一页广告版面合并,那么其实现过程为:
先将文件类型均为PS文件的新闻版面描述文件和广告版面描述文件分别进行规范化处理。其中处理新闻版面描述文件的处理器ID为400,处理广告版面描述文件的处理器ID为401,并将主文件名命制为“bjrb”,那么规范化以后,将得到两个单页新闻PDF文件以及一个单页广告PDF文件,其文件名分别为:400_bjrb_content_ps_p0001.pdf(新闻内容第1页)、400_bjrb_content_ps_p0002.pdf(新闻内容第2页)和401_bjrb_ad_ps_p0001.pdf(广告内容第1页)。
优先级 | 键名 | 键值 | 广告文件数 | 新闻文件数 | 决策 |
1 | 400_bjrb_ps | 400_bjrb_content_ps_p0001.pdf | 0 | 2 | 第2优先处理用 |
400_bjrb_content_ps_p0002.pdf | |||||
401_bjrb_ps | 401_bjrb_ad_ps_p0001.pdf | 1 | 0 | 第2优先处理用 | |
2 | 400_bjrb | 400_bjrb_content_ps_p0001.pdf | 0 | 2 | 第3优先处理用 |
400_bjrb_content_ps_p0002.pdf | |||||
401_bjrb | 401_bjrb_ad_ps_p0001.pdf | 1 | 0 | 第3优先处理用 | |
3 | bjrb_ps | 400_bjrb_content_ps_p0001.pdf | 1 | 2 | 已匹配,存至合版文件列表 |
400_bjrb_content_ps_p0002.pdf | |||||
401_bjrb_ad_ps_p0001.pdf | |||||
4 | bjrb | 无 | 0 | 0 | 合并合版文件列表对应的PDF文件 |
表1
上述表1为本发明实施例依据优先级处理PDF文件的过程统计表,结合该表可知,依次依据优先级处理PDF文件的具体过程为:
第一优先级处理:
第一优先级对应的关键字组合为“处理器ID+主文件名+源文件类型”,对应了两个关键字组合:“400_bjrb_ps”和“401_bjrb_ps”。
因此首先在上述三个待合并PDF文件内,选取出文件名中包含“400_bjrb_ps”的PDF文件,即400_bjrb_content_ps_p0001.pdf和400_bjrb_content_ps_p0002.pdf;
接着根据文件标识计算出选取出的文件内包含的新闻文件数为2和广告文件数为0,因此可知选取出的文件内不包含可以合并的匹配文件,于是不对这两个进行处理,留待第二优先级处理。
然后依据关键字组合“401_bjrb_ps”,在上述三个待合并PDF文件内选取出文件名中包含“401_bjrb_ps”的PDF文件,即401_bjrb_ad_ps_p0001.pdf,再根据文件标识计算出选取出的文件内包含的新闻文件数为0,广告文件数为1,因此选取出的文件内仍然没有包含可以合并的匹配文件,于是不对这两个进行处理,留待第二优先级处理。
至此,第一优先级处理过程结束,进入第二优先处理过程。
第二优先级处理:
第二优先级对应的关键字组合为“处理器ID+主文件名”,对应了两个关键字组合:“400_bjrb”和“401_bjrb”。依据上述类似处理过程,依据这两个关键字组合,选取出的PDF文件内仍然没有包含可以合并的匹配文件,因此进入第三优先级的处理过程。
第三优先级处理:
第三优先级对应的关键字组合为“主文件名+文件类型”,对应了一个关键字组合:“bjrb_ps”。在上述三个待合并PDF文件内,选取出文件名中包含“bjrb_ps”的PDF文件,即400_bjrb_content_ps_p0001.pdf、400_bjrb_content_ps_p0002.pdf和401_bjrb_ad_ps_p0001.pdf。然后根据文件标识计算出选取的文件内包含的新闻文件数为2和广告文件数为1,可知选取出的PDF文件内包含了可以合并的匹配文件,接着生成用户交互界面,并在该界面上显示出匹配文件的合并方式,其中用户能够通过该用户交互界面,选择合适的合并方式。其中合并方式也可以预先选择,即在进行优先级处理之前或规范化过程之前生成所述用户交互界面,由用户选定合并方式。
假设用户选择的合并方式为合并所有页,由于新闻文件数为2,广告文件数为1,根据前文介绍的合并方式,此时合并所有页的合并方式是指将该页广告文件与每一页新闻文件合并,即将400_bjrb_content_ps_p0001.pdf与401_bjrb_ad_ps_p0001.pdf合并,以及将400_bjrb_content_ps_p0002.pdf与401_bjrb_ad_ps_p0001.pdf合并。
接着将上述即将合并的PDF文件的存储路径,分别添加到合并文件列表,表2为本发明实施例提供的合并文件列表,结合该表可知,将400_bjrb_content_ps_p0001.pdf的存储路径放入第1行,将401_bjrb_ad_ps_p0001.pdf的存储路径放入第2行,再在第三行放入400_bjrb_content_ps_p0002.pdf的存储路径,第四行放入401_bjrb_ad_ps_p0001.pdf的存储路径。再进入下一优先级的处理过程。
1 | 400_bjrb_content_ps_p0001.pdf的存储路径 |
2 | 401_bjrb_ad_ps_p0001.pdf的存储路径 |
3 | 400_bjrb_content_ps_p0002.pdf的存储路径 |
4 | 401_bjrb_ad_ps_p0001.pdf的存储路径 |
表2
上述过程还有另外一种实施方式:
仍然假设合并方式为合并所有页,由于新闻文件数为2,广告文件数为1,根据前文介绍的合并方式,首先可以确定出将400_bjrb_content_ps_p0001.pdf与401_bjrb_ad_ps_p0001.pdf合并,接着就调用合并函数合并这两个PDF文件,而非将这两个PDF文件的存储路径存入合并文件列表,待以后进行合并;然后确定出将400_bjrb_content_ps_p0002.pdf与401_bjrb_ad_ps_p0001.pdf合并,并调用合并函数合并这两个PDF文件,然后进入下一优先级处理过程。这种实施方式可以不必建立合并文件列表,就实现合并过程。
第四优先级处理过程:
第四优先级对应的关键字组合为“主文件名”,对应了一个关键字组合:“bjrb”。由于此时已经没有待合并文件,因此合并文件数和被合并文件数均为零,于是开始调用合并函数,对合并文件列表内的文件进行合并:
第一次将合并文件列表内第一行与第二行中文件路径指向的文件进行合并;
第二次将合并文件列表内第三行与第四行中文件路径指向的文件进行合并。
当然如果对应上述不必建立合并文件列表的实施方式,由于在第三优先级已经调用合并函数,将匹配文件进行了合并,因此在计算出合并文件数与被合并文件数均为零时,就可以直接退出程序。
上述实施例提出的PDF文件合并方法,通过在待合并PDF文件内,依据优先级的高低,自动合并了待合并PDF文件,解决了现有技术中人工合并规范化后的PDF文件时,导致耗时耗力,增加人工成本,效率低下的问题,提高了所述PDF文件的合并效率,加快了印前处理过程,而且节约了人工成本。
如果需要调整相对位置或者裁切区域,那么可以在调用合并函数合并匹配文件时,依据前文所述的方法确定相对位置或者裁切区域,以更加灵活的合并所述PDF文件,达到更好的合并效果,进而满足客户的不同需求,提高客户满意度。例如合并400_bjrb_content_ps_p0001.pdf与401_bjrb_ad_ps_p0001.pdf时,如果某一广告位于401_bjrb_content_ps_p0001.pdf页面的下半部分,要求在合并以后,将该广告置于合并后的文件的上半部分,这时就可以设置一个大于零的dy值,使得合并时,将该广告合并到合并后文件的上半部分。
针对上述实施例提出的合并方法,本发明实施例还提出了两种PDF文件合并装置。
图2为本发明实施例提出的第一种PDF文件合并装置的结构示意图,由该图可知,所述第一种PDF文件合并装置30包括:
关键字组合获取单元31,用于基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,获取位于各优先级的关键字类型组合对应的关键字组合,直至确定完所有待合并PDF文件的合并页和被合并页;
文件选择单元32,用于依据所述关键字组合获取单元31获取的每个关键字组合,在剩余的待合并PDF文件内,选择文件名中包含当前关键字组合的待合并PDF文件,直至确定完所有待合并PDF文件的合并页与被合并页,或者直至处理完所有所述获取的关键字组合;
页确定单元33,用于在判断出所述文件选择单元32选择的待合并PDF文件内,包含合并文件与被合并文件时,确定出所述合并文件的合并页与被合并文件的被合并页;
合并单元34,用于将所述页确定单元33确定出的合并页与被合并页合并。
图3为本发明实施例提出的页确定单元的结构示意图,由该图可知,基于上述实施例在判断所述文件选择单元32选择的文件是否包含合并文件与被合并文件时采用的判断方式,所述页确定单元33可以具体包括:
计算子单元331,用于计算所述选择的待合并可移植文档格式文件内包含的合并文件数与被合并文件数;
判断子单元332,用于判断所述合并文件数与被合并文件数是否均不为零,以及在均不为零时,判断出包含合并文件与被合并文件;以及
确定子单元333,用于在判断子单元判断出包含合并文件与被合并文件时,确定出所述合并文件的合并页与被合并文件的被合并页。
图4为本发明实施例提出的第一种合并单元的结构示意图,由该图可知,如果在合并待合并PDF文件时,需要调整待合并PDF的相对位置,所述合并单元34可以具体包括:
相对位置调整子单元341,用于调整合并页与被合并页相对位置;以及
合并子单元342,用于依据所述相对位置调整子单元调整的相对位置,合并所述合并页与被合并页。
图5为本发明实施例提出的第二种合并单元的结构示意图,由该图可知,如果在合并待合并PDF文件时,还需要调整合并文件与被合并文件的合并区域,所述合并单元34可以具体包括:
合并区域调整子单元343,用于调整合并页与被合并页的合并区域;以及
合并子单元344,用于依据所述合并区域调整子单元调整的合并区域,合并所述合并页与被合并页。
针对上述提出的在每一优先级内就合并PDF文件的方法,本发明实施例提出第二种PDF文件的合并装置。
图6为本发明实施例提出的第二种PDF文件合并装置的结构示意图,由该图可知,所述第二种PDF文件合并装置40包括:
关键字组合获取单元41,用于基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,获取位于当前优先级的关键字类型组合对应的关键字组合,直至合并完所有待合并PDF文件;
文件选择单元42,用于依据所述关键字组合获取单元41获取的每个关键字组合,在剩余的待合并PDF文件内,选择文件名中包含当前关键字组合的待合并PDF文件,直至合并完所有待合并PDF文件,或者处理完所有所述关键字获取单元获取的关键字组合;
文件合并单元43,用于在判断出所述文件选择单元42选择的待合并PDF文件内,包含合并文件与被合并文件时,合并所述合并文件与被合并文件。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (15)
1.一种可移植文档格式文件的合并方法,其特征在于,包括:
合并页和被合并页确定步骤:
基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,对各优先级执行如下处理过程,直至确定完所有待合并可移植文档格式文件的合并页和被合并页:
根据位于当前优先级的关键字类型组合,获取该关键字类型组合对应的关键字组合;
依据所述获取的每个关键字组合执行如下处理,直至确定完所有待合并可移植文档格式文件的合并页与被合并页,或者处理完所有所述获取的关键字组合:
在剩余的待合并可移植文档格式文件内,选择文件名中包含当前关键字组合的待合并可移植文档格式文件;
在判断出所述选择的待合并可移植文档格式文件内包含合并文件与被合并文件时,确定出所述合并文件的合并页与被合并文件的被合并页;文件合并步骤:
将所述合并页确定步骤中确定出的合并页与被合并页合并。
2.如权利要求1所述的方法,其特征在于,判断所述选择的待合并可移植文档格式文件内包含合并文件与被合并文件的过程为:
计算所述选择的待合并可移植文档格式文件内包含的合并文件数与被合并文件数;
判断所述合并文件数与被合并文件数是否均不为零;以及
在均不为零时,判断出包含合并文件与被合并文件。
3.如权利要求1所述的方法,其特征在于,所述确认确定完所有待合并可移植文档格式文件的合并页与被合并页的过程为:
计算所述选择的待合并可移植文档格式文件内包含的合并文件数与被合并文件数;
判断所述合并文件数与被合并文件数是否均为零;以及
在均为零时,确认已经确定完所有待合并可移植文档格式文件的合并页与被合并页。
4.如权利要求1所述的方法,其特征在于,按照预先确定的合并方式,确定所述待合并可移植文档格式文件的合并页与被合并页。
5.如权利要求1所述的方法,其特征在于,确定所述合并页与被合并页的步骤包括:
生成用于显示各个合并方式的用户交互界面,以及
获取用户在所述用户交互界面上选择的合并方式;
基于用户选择的合并方式,确定所述待合并可移植文档格式文件的合并页与被合并页。
6.如权利要求4或5所述的方法,其特征在于,所述合并方式包括:
将合并文件的第一页与被合并文件的第一页合并;
将合并文件的第一页与被合并文件的每一页合并;以及
将合并文件与被合并文件页码相同的页合并。
7.如1至5任一项权利要求所述的方法,其特征在于,还包括调整合并页与被合并页相对位置的步骤。
8.如权利要求7所述的方法,其特征在于,所述调整步骤具体包括:
生成显示合并页基准点与被合并页基准点,以及被合并页基准点相对于合并页基准点的坐标的用户交互界面;
获取用户在所述用户交互界面上选择的所述两个基准点,以及用户确定的所述坐标;
依据所述获取的两个基准点及所述坐标,在合并合并页和被合并页时,调整合并页与被合并页的相对位置。
9.如1至5任一项权利要求所述的方法,其特征在于,还包括调整合并页与被合并页的合并区域的步骤。
10.一种可移植文档格式文件的合并装置,其特征在于,包括:
关键字组合获取单元,用于基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,获取位于各优先级的关键字类型组合对应的关键字组合,直至确定完所有待合并可移植文档格式文件的合并页和被合并页;
文件选择单元,用于依据所述关键字组合获取单元获取的每个关键字组合,在剩余的待合并可移植文档格式文件内,选择文件名中包含当前关键字组合的待合并可移植文档格式文件,直至确定完所有待合并可移植文档格式文件的合并页与被合并页,或者直至处理完所有所述获取的关键字组合;
页确定单元,用于在判断出所述文件选择单元选择的待合并可移植文档格式文件内,包含合并文件与被合并文件时,确定出所述合并文件的合并页与被合并文件的被合并页;
合并单元,用于将所述页确定单元确定出的合并页与被合并页合并。
11.如权利要求10所述的装置,其特征在于,所述页确定单元具体包括:
计算子单元,用于计算所述选择的待合并可移植文档格式文件内包含的合并文件数与被合并文件数;
判断子单元,用于判断所述合并文件数与被合并文件数是否均不为零,以及在均不为零时,判断出包含合并文件与被合并文件;以及
确定子单元,用于在判断子单元判断出包含合并文件与被合并文件时,确定出所述合并文件的合并页与被合并文件的被合并页。
12.如权利要求10或11所述的装置,其特征在于,所述合并单元具体包括:
相对位置调整子单元,用于调整合并页与被合并页相对位置;以及
合并子单元,用于依据所述相对位置调整子单元调整的相对位置,合并所述合并页与被合并页。
13.如权利要求10或11所述的装置,其特征在于,所述合并单元具体包括:
合并区域调整子单元,用于调整合并页与被合并页的合并区域;以及
合并子单元,用于依据所述合并区域调整子单元调整的合并区域,合并所述合并页与被合并页。
14.一种可移植文档格式文件的合并方法,其特征在于,基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,对各优先级执行如下处理过程,直至合并完所有待合并可移植文档格式文件:
根据位于当前优先级的关键字类型组合,获取该关键字类型组合对应的关键字组合;
依据所述获取的每个关键字组合执行如下处理,直至合并完所有待合并可移植文档格式文件,或者处理完所有所述获取的关键字组合:
在剩余的待合并可移植文档格式文件内,选择文件名中包含当前关键字组合的待合并可移植文档格式文件;
在判断出所述选择的待合并可移植文档格式文件内包含合并文件与被合并文件时,合并所述合并文件与被合并文件。
15.一种可移植文档格式文件的合并装置,其特征在于,包括:
关键字组合获取单元,用于基于预先确定的关键字类型组合及每一关键字类型组合的优先级,按照优先级从高到低的顺序,获取位于当前优先级的关键字类型组合对应的关键字组合,直至合并完所有待合并可移植文档格式文件;
文件选择单元,用于依据所述关键字组合获取单元获取的每个关键字组合,在剩余的待合并可移植文档格式文件内,选择文件名中包含当前关键字组合的待合并可移植文档格式文件,直至合并完所有待合并可移植文档格式文件,或者处理完所有所述关键字获取单元获取的关键字组合;
文件合并单元,用于在判断出所述文件选择单元选择的待合并可移植文档格式文件内,包含合并文件与被合并文件时,合并所述合并文件与被合并文件。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007101763147A CN100527122C (zh) | 2007-10-24 | 2007-10-24 | 可移植文档格式文件的合并方法及装置 |
JP2010530259A JP5330399B2 (ja) | 2007-10-24 | 2008-10-24 | Pdfファイル統合方法及びpdfファイル統合装置 |
US12/739,904 US20100299375A1 (en) | 2007-10-24 | 2008-10-24 | Methods and Devices for Incorporating PDF Files |
PCT/CN2008/072828 WO2009056067A1 (fr) | 2007-10-24 | 2008-10-24 | Méthode et dispositif permettant de combiner des fichiers de formats de documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2007101763147A CN100527122C (zh) | 2007-10-24 | 2007-10-24 | 可移植文档格式文件的合并方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101140563A true CN101140563A (zh) | 2008-03-12 |
CN100527122C CN100527122C (zh) | 2009-08-12 |
Family
ID=39192518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007101763147A Expired - Fee Related CN100527122C (zh) | 2007-10-24 | 2007-10-24 | 可移植文档格式文件的合并方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20100299375A1 (zh) |
JP (1) | JP5330399B2 (zh) |
CN (1) | CN100527122C (zh) |
WO (1) | WO2009056067A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009056067A1 (fr) * | 2007-10-24 | 2009-05-07 | Peking University Founder Group Co., Ltd. | Méthode et dispositif permettant de combiner des fichiers de formats de documents |
CN102521218A (zh) * | 2011-12-15 | 2012-06-27 | 方正国际软件有限公司 | 文件合成方法及装置 |
CN104866463A (zh) * | 2014-02-20 | 2015-08-26 | 陈时军 | 一种信息整理方法及装置 |
CN107766315A (zh) * | 2017-10-30 | 2018-03-06 | 山东浪潮通软信息科技有限公司 | 一种文档合并方法及装置 |
CN110716901A (zh) * | 2019-09-25 | 2020-01-21 | 苏宁云计算有限公司 | 性能测试数据的处理方法、装置、计算机设备和存储介质 |
CN113297140A (zh) * | 2020-11-20 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 文件处理方法、信息显示方法、装置及设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885762B (zh) * | 2012-12-21 | 2017-05-31 | 中国银联股份有限公司 | 一种基于文件字典元素拼装的文件开发装置以及方法 |
CN108563618A (zh) * | 2018-03-15 | 2018-09-21 | 链家网(北京)科技有限公司 | 一种纸质文件线上化方法和系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208557A (ja) * | 1993-01-08 | 1994-07-26 | Fuji Xerox Co Ltd | 構造化文書処理装置 |
JP2000500887A (ja) * | 1995-09-25 | 2000-01-25 | アドビ システムズ インコーポレイテッド | 電子文書への最適アクセス |
US6298446B1 (en) * | 1998-06-14 | 2001-10-02 | Alchemedia Ltd. | Method and system for copyright protection of digital images transmitted over networks |
JP2001297248A (ja) * | 2000-04-12 | 2001-10-26 | Planet Computer:Kk | 広告入り電子文書の配信システム |
US20060174123A1 (en) * | 2005-01-28 | 2006-08-03 | Hackett Ronald D | System and method for detecting, analyzing and controlling hidden data embedded in computer files |
JP2007109180A (ja) * | 2005-10-17 | 2007-04-26 | Canon Inc | 文書処理装置及び方法 |
US20070226604A1 (en) * | 2006-03-22 | 2007-09-27 | Chalasani Nanchariah R | System and method for merging a sub-document into a collaboratively authored master document |
US20080288341A1 (en) * | 2007-05-14 | 2008-11-20 | Kurt Garbe | Authored-in advertisements for documents |
CN100527122C (zh) * | 2007-10-24 | 2009-08-12 | 北大方正集团有限公司 | 可移植文档格式文件的合并方法及装置 |
-
2007
- 2007-10-24 CN CNB2007101763147A patent/CN100527122C/zh not_active Expired - Fee Related
-
2008
- 2008-10-24 US US12/739,904 patent/US20100299375A1/en not_active Abandoned
- 2008-10-24 JP JP2010530259A patent/JP5330399B2/ja not_active Expired - Fee Related
- 2008-10-24 WO PCT/CN2008/072828 patent/WO2009056067A1/zh active Application Filing
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009056067A1 (fr) * | 2007-10-24 | 2009-05-07 | Peking University Founder Group Co., Ltd. | Méthode et dispositif permettant de combiner des fichiers de formats de documents |
CN102521218A (zh) * | 2011-12-15 | 2012-06-27 | 方正国际软件有限公司 | 文件合成方法及装置 |
CN102521218B (zh) * | 2011-12-15 | 2014-07-23 | 方正国际软件有限公司 | 文件合成方法及装置 |
CN104866463A (zh) * | 2014-02-20 | 2015-08-26 | 陈时军 | 一种信息整理方法及装置 |
CN107766315A (zh) * | 2017-10-30 | 2018-03-06 | 山东浪潮通软信息科技有限公司 | 一种文档合并方法及装置 |
CN110716901A (zh) * | 2019-09-25 | 2020-01-21 | 苏宁云计算有限公司 | 性能测试数据的处理方法、装置、计算机设备和存储介质 |
CN113297140A (zh) * | 2020-11-20 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 文件处理方法、信息显示方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2009056067A1 (fr) | 2009-05-07 |
CN100527122C (zh) | 2009-08-12 |
US20100299375A1 (en) | 2010-11-25 |
JP2011501305A (ja) | 2011-01-06 |
JP5330399B2 (ja) | 2013-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100527122C (zh) | 可移植文档格式文件的合并方法及装置 | |
CN109858453B (zh) | 一种通用的多引擎票据识别系统及方法 | |
CN100555275C (zh) | 一种拼版的方法及装置 | |
US6243501B1 (en) | Adaptive recognition of documents using layout attributes | |
JP2003167709A (ja) | 印刷制御方法および印刷システム | |
EP3018592A1 (en) | A computer implemented system and method for managing a stack containing a plurality of documents | |
CN105335453B (zh) | 图像分文档方法 | |
CN105930109A (zh) | 一种单据打印的方法、系统及终端 | |
CN111259882B (zh) | 票据识别的方法、装置及计算机设备 | |
JP6127597B2 (ja) | 情報処理装置、その制御方法及びプログラム | |
CN111178365A (zh) | 图片文字的识别方法、装置、电子设备及存储介质 | |
US20090100426A1 (en) | Methods and systems of reconciling sources of print job processing information in a print processing environment | |
US7202977B2 (en) | Methods for positioning a print integrity image capture device | |
EP2506540B1 (en) | Enhanced contact information | |
CN111160827A (zh) | 快递揽收方法、手持终端的快件揽收方法及存储介质 | |
CN113239893A (zh) | 一种文档录入复核方法、系统、电子设备及介质 | |
JPH0792648A (ja) | 製版用工程管理装置および方法 | |
RU2661327C1 (ru) | Способ обеспечения конфиденциальности при поточной операторской электронной обработке бумажных документов и программное обеспечение для его реализации | |
CN110083794B (zh) | 三重积分信息的模式变换方法、设备、存储介质及装置 | |
CN111814876A (zh) | 一种票据识别方法、装置、设备及存储介质 | |
CN117520421B (zh) | 快递的分拣方法、装置、电子设备以及存储介质 | |
KR20210026695A (ko) | 수주 입찰 제안서 생성을 위한 ocr 기반의 정량자료 가공 시스템 및 방법 | |
CN102306151A (zh) | 一种分布式传真接收方法、系统及相应设备 | |
CN101227541B (zh) | 对传真数据进行归类发送的方法及装置 | |
CN114118475A (zh) | 工单处理方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090812 Termination date: 20191024 |