CN101046808A - 一种文档处理系统和方法 - Google Patents

一种文档处理系统和方法 Download PDF

Info

Publication number
CN101046808A
CN101046808A CN 200610067065 CN200610067065A CN101046808A CN 101046808 A CN101046808 A CN 101046808A CN 200610067065 CN200610067065 CN 200610067065 CN 200610067065 A CN200610067065 A CN 200610067065A CN 101046808 A CN101046808 A CN 101046808A
Authority
CN
China
Prior art keywords
template
input
document
module
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610067065
Other languages
English (en)
Other versions
CN100578497C (zh
Inventor
欧文武
张睿
杜成
李滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Study on Ricoh software (Beijing) Co., Ltd.
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN200610067065A priority Critical patent/CN100578497C/zh
Publication of CN101046808A publication Critical patent/CN101046808A/zh
Application granted granted Critical
Publication of CN100578497C publication Critical patent/CN100578497C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种文档处理系统和方法,该系统包括:模板存储模块,用于存储输入模板和输出模板;模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块选取相应的输入和/或输出模板;文档自动处理模块,用于根据模板匹配模块选择的输入模板提取输入文档的信息,并用于将提取出的输入文档的信息利用输出模板进行保存。本发明可以把指定的输入文档单元以指定的格式输出,很大地方便了文档处理的个性化需求;通过将输入文档每个单元的位置和属性记录在输入模板中,极大的提高了文档自动处理效率,同时也可以用来文档的分类。

Description

一种文档处理系统和方法
技术领域
本发明涉及文档处理系统和方法,特别是对文档进行识别并对识别后的文档进行处理的系统和方法。
背景技术
文档格式的识别一直是文档自动处理中的一个难题,因为文档的格式变化多样,没有固定的形式可言。
现实工作生活中却常常遇到要对同一种格式的文档反复进行处理的情况,因为同一种格式的文档往往被不同的人在不同的时间反复使用,比如某公司的职位申请表,不同的应聘者总是在不同的时间填写相同格式的申请表。对于同一种格式文档(如上面提到的申请表)的反复处理,可以预先把需要处理的文档的格式保存起来,通过保存文档的格式信息可极大的提高同一格式文档自动处理的效率并且用户还可以通过指定该类型文档的输出格式完成用户的特定需求。
专利号为US6,886,136,发明名称为“在表格处理中模板的自动生成和区域定义(Automatic template and field definition in form processing)”的发明专利中给出了一种模板自动生成的方法,目的是通过对图像文档的分析把相似的文档聚为一组,并为类似的文档创建模板。通过自动创建模板的方式虽然可以提高模板创建的效率,这种处理其主要对象是图像文件,同时其自动创建的模板信息非常有限,对文档自动处理的帮助非常有限,也无法完成用户指定的输出格式。
专利号为US6,785,420,发明名称为“表格识别、字符识别的方法、设备和计算机产品(Method and apparatus for table recognition,apparatus forcharacter recognition,and computer product)”中公开了一种表格处理的方法,通过连通域分析找出表格,字符串和线条的位置,然后通过这些信息做表格识别,然而该方法中没有用到文档的模板信息。
发明内容
本发明的目的在于提供一种文档处理系统和方法,对输入文档进行识别,并对识别后的文档进行自动处理,提高文档处理的效率,方便用户,同时满足特定的文档处理的输出要求。
为了实现上述目的,本发明提供了一种文档处理系统,包括:
模板存储模块,用于存储输入模板和输出模板,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;
模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块选取输入模板;
文档自动处理模块,用于根据模板匹配模块选择的模板进行输入文档的自动处理。
上述的系统,其中,文档自动处理模块还用于输出利用输出模板保存的输出文档。
上述的系统,其中,文档自动处理模块具体用于利用输入模板提取输入文档的信息,并用于将提取出的输入文档的信息利用输出模板进行保存,和/或用于根据模板匹配模块选择的模板对输入文档进行分类。
上述的系统,其中,还包括一用户界面模块,用于提供用户对输入模板或输出模板进行管理操作的界面,还用于提供用户对模板匹配模块进行管理操作的界面。
上述的系统,其中,用户界面模块具体包括:
模板手动生成模块,用于根据用户输入生成输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或
模板自动生成模块,用于通过对输入文档和/或输出模板进行分析并产生相应的输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或
模板编辑校正模块,用于提供对输入模板或输出模板进行编辑校正的界面,并将编辑校正后的输入模板或输出模板存储到模板存储模块;和/或
模板添加删除模块,用于根据用户指示添加、删除输入模板或输出模板;和/或
可视化模块,用于将模板、文档及对模板和/或文档的处理以图形或图象形式显示;和/或
模板匹配运行管理模块,用于在模板匹配模块无法为当前输入文档匹配到相应的输入模板、找到多个相应输入模板或无法获取输入模板对应的输出模板时,提供用户选择输入模板或输出模板的界面,并将用户选择结果发送给模板匹配模块;和/或
文档处理编辑模块,用于提供用户对文档处理结果进行校正和/或对中间结果进行编辑,和/或对系统的参数进行修正的界面。
为了更好的实现上述目的,本发明还提供了一种文档处理方法,包括:
步骤A,将输入模板和输出模板保存到模板存储模块,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;
步骤B,模板匹配模块接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块中选取对应的输入模板;
步骤C,文档自动处理模块根据模板匹配模块选择的模板进行输入文档的自动处理。
上述的方法,其中,还包括:
步骤D,文档自动处理模块输出利用输出模板保存的输出文档。
上述的方法,其中,所述步骤C具体为:
步骤C1,文档自动处理模块利用输入模板提取输入文档的信息,并将提取出的输入文档的信息利用输出模板进行保存;和/或
步骤C2,文档自动处理模块根据模板匹配模块选择的模板对输入文档进行分类。
上述的方法,其中,步骤A具体包括:
步骤A11,创建输入模板,记录输入文档的格式信息;
步骤A12,创建输出模板,记录输出文档的格式信息,同时记录输出模板单元和输入模板单元之间的对应关系;
步骤A13,将输入模板和输出模板保存到模板存储模块。
上述的方法,其中,步骤A还可以是具体包括:
步骤A21,模板匹配模块接收到输入文档;
步骤A22,模板匹配模块根据该输入文档的格式信息和/或模板的特定信息无法从模板存储模块中选取匹配的输入模板;
步骤A23,模板匹配模块指示模板自动生成模块根据该输入文档的格式信息创建输入模板,并保存到模板存储模块。
上述的方法,其中,步骤B具体包括:
步骤B1,模板匹配模块接收输入文档,并根据输入文档的格式信息和/或模板的特定信息从模板存储模块查找匹配的输入模板;
步骤B2,模板匹配模块判断是否有匹配的输入模板,如果否进入步骤B3,否则进入步骤B4;
步骤B3,模板匹配模块指示模板自动生成模块根据该输入文档的格式信息创建输入模板,并保存到模板存储模块并返回步骤B1;
步骤B4,模板匹配模块判断是否有多个匹配的输入模板,如果是进入步骤B5,否则进入步骤C;
步骤B5,由用户通过模板匹配运行管理模块选择一个输入模板作为匹配的输入模板后进入步骤C,或由模板匹配模块产生候选输入模板后由用户通过模板匹配运行管理模块选择一个输入模板作为匹配的输入模板后进入步骤C。
上述的方法,其中,步骤C具体包括:
步骤C1,文档自动处理模块分析输入文档找出输入文档对应于输入模板的每个单元,并提取输入文档对应单元的信息;
步骤C2,文档自动处理模块根据输入模板单元和输出模板单元的对应关系,将从输入文档中提取的信息保存在由输出模板定义的输出文档中。
本发明的文档处理系统和方法通过在模板存储模块存储输入模板和输出模板,并利用模板匹配模块对输入文档和模板之间进行匹配,然后由文档自动处理模块基于匹配模板进行自动处理,通过建立输入模板单元与输出模板单元的对应关系,可以把指定的输入文档以指定的格式输出,很大地方便了文档处理的个性化需求;通过建立输入模板,将输入文档每个单元的位置和属性记录在系统中,极大的提高了该类型文档自动处理效率,同时也为该类文档的分类提供了依据。
附图说明
图1为本发明的文档处理系统的结构示意图;
图2a为输入模板的具体实例示意图;
图2b为对应于图2a所示输入模板的输出模板的具体实例示意图;
图3为本发明的第一种模板配置方式的流程示意图;
图4为本发明的第二种模板配置方式的流程示意图;
图5为本发明的文档处理方法的文档处理步骤的流程示意图;
图6为文档处理步骤中步骤52的具体流程示意图。
具体实施方式
本发明的文档处理系统如图1所示,包括模板存储模块11、模板匹配模块12、文档自动处理模块13和用户界面模块14,其中:
模板存储模块11,用于存储模板,该模板包括输入模板和输出模板,该输入模板用于记录输入文档的格式信息,该输出模板用于记录对应于输入文档的输出文档的格式信息,其中该格式信息包括文档单元的数量、每个文档单元的相对位置和文档单元的属性等信息;
模板匹配模块12,用于接收输入文档,并通过输入文档格式信息和/或模板的特定信息从模板存储模块11选取匹配的输入模板或根据用户指示从模板库存储模块11选取输入模板,通常,该模板匹配模块12可以处理输入文档的倾斜、缩放、扭曲和噪音等情况,其通过输入文档向模板的规一化完成的,通过对输入文档的处理,使输入文档尽可能的和输入模板匹配,其具体步骤包括:输入文档的倾斜校正来处理倾斜;通过输入文档单元和模板单元的匹配关系来处理文档的缩放、扭曲和相对位移,比如先选取可能的匹配单元,然后通过这些匹配单元来处理文档的缩放、扭曲和相对位移;通过对输入文档的去噪和引入抗噪的模板匹配策略来处理输入文档噪音,比如模板匹配方法允许输入文档单元的冗余和遗漏;
文档自动处理模块13,用于通过输入文档和模板匹配模块12选择的输入模板提取输入文档的信息,并将信息保存在对应的输出文档中,同时还可用于根据模板匹配模块选择的模板对输入文档进行分类;
用户界面模块14,用于实现用户对模板的管理操作,还用于实现用户对模板匹配模块12的运行管理操作,具体包括:
模板手动生成模块,用于根据用户输入生成模板并存储到模板存储模块11;
模板自动生成模块,用于通过对输入文档/输出文档进行分析并产生相应的输入模板/输出模板,并将输入模板/输出模板存储到模板存储模块11;
模板编辑校正模块,用于提供对输入模板/输出模板进行编辑校正的界面,并将编辑校正后的输入模板/输出模板存储到模板存储模块11;
模板添加删除模块,用于根据用户指示添加或删除输入模板/输出模板;
可视化模块,用于将模板和文档以图形或图象形式显示,便于用户理解文档和模板的格式;
模板匹配运行管理模块,用于在模板匹配模块12无法为当前输入文档匹配到相应的输入模板、找到多个相应输入模板或无法获取输入模板对应的输出模板时,提供用户选择输入模板或输出模板的界面,并将用户选择结果发送给模板匹配模块12,用户在选择输入文档匹配的输入模板或输出模板时,输入模板、输出模板和文档会以图像图形的形式显示出来,以便于用户选择;
文档处理编辑模块,用于提供用户对文档处理结果进行校正和/或对中间结果进行编辑,和/或对系统的参数进行修正的界面,可以通过图像图形的形式实现。
图2a和图2b为本发明的输入模板和输出模板的具体实例。
图2a是为了收集某公司的员工个人信息而设计的一个文档,图2b是指定的输出文档格式,假设公司员工已经将个人信息填入如图2a所示的文档中,而现在要求将这些个人信息以图2b所示的格式保存为电子化文档。
对比图2a和图2b可以看出:只有部分包含在图2a所示的输入模板中的信息被包含在图2b所示的输出模板中,并且输出模板的格式与输入模板格式不一样,因此,模板不仅包含图2a和图2b文档中的每个单元的信息,还应包含输入模板和输出模板的相应的单元的关系,比如图2a的姓名和对应图2b的姓名,通常而言,模板包含以下信息:
文档单元的相对位置,文档单元包括文档上每个文本块、线条、图片、表格及表格内的线条、单元格等;
文档单元的属性,比如每个单元的唯一标识,单元的类型等,如果为字符串,还包括字符串的语言语种、字体等;
输入模板单元和输出模板单元的对应关系。
图2a所示的输入模板可以定义为下面形式(仅例举了部分文档单元):{
Label:1,position:(Xs1,Yx1,Xe1,Ye1),Type:constant string(员工个人信息登记表(表20060303)),Language:Chinese,Font:宋体,etc;
Label:2,position:(Xs2,Yx2,Xe2,Ye2),Type:constant string and digits(员工唯一号:digits),Language:Chinese+Digit,Font:宋体,etc;
Label:3,position:(Xs3,Yx3,Xe3,Ye3),Type:constant string and string(单位名称:string),Language:Chinese,Font:宋体,etc;
Label:4,position:(Xs4,Yx4,Xe4,Ye4),Type:table,etc;
Label:5,position:(Xs5,Yx5,Xe5,Ye5),Type:constant string(姓名),Language:Chinese,Font:宋体,etc;
Label:6,position:(Xs6,Yx6,Xe6,Ye6),Type:string(string),Language:Chinese,etc;
Label:7,position:(Xs7,Yx7,Xe7,Ye7),Type:constant string(公民身份号码),Language:Chinese,Font:宋体,etc;
Label:8,position:(Xs8,Yx8,Xe8,Ye8),Type:digits(digits,length=18),etc;
Label:9,position:(Xs9,Yx9,Xe9,Ye9),Type:photograph,etc;..................}
在上面的输入模板中,Label用来为每个单元指定一个唯一的标识,标识可由系统生成也可由用户指定,position用来表示单元的相对位置,可以系统生成或用户指定,Type表示单元的属性,比如字符串,数字图片等;同时还定义了每个单位属性的类型,比如是字符串还是数字等。
图2b所示的输出模板可以定义为下面的形式:{
Mark:1,Label:9,position:(Xs1,Yx1,Xe1,Ye1),Type:photograph etc;
Mark:2,position:(Xs2,Yx2,Xe2,Ye2),Type:table,etc;
Mark:3,label:5,position:(Xs3,Yx3,Xe3,Ye3),font:宋体,size:10;
Mark:4,label:6,position:(Xs4,Yx4,Xe4,Ye4),font:宋体,size:10;..................}
该输出模板与输入模板类似,其不同之处在于输出模板中定义了输入模板单元和输出模板单元的相互关系,其中,Mark为输出模板单元的唯一标识,Label为输出模板单元在输入模板中对应单元的唯一标识号,通过它可以建立输入模板单元与输出模板单元的对应关系,比如标识号为Mark1的输出模板单元对应标识号为Labe9的输入模板单元。通过建立这这种对应关系,用户可以把指定的输入模板单元以指定的格式输出,很大地方便了文档处理的个性化需求。
通过建立输入模板,可将输入文档每个单元的位置和属性记录在系统中,这极大的提高了该类型文档自动处理效率,同时也为该类文档的分类提供了依据,如,如果发现员工个人信息登记表(表200603031)字段,则可以将其分类到员工信息类别;通过建立输出文档,可以指定输出文档的格式和内容,很大程度上满足了用户个性化的需要,极大地方便的用户。
本发明的文档处理方法包括模板配置步骤和文档处理步骤,下面分别进行详细描述。
模板配置步骤中,通过用户界面模块将需要处理的输入文档和对应的输出文档的格式信息以模板的形式保存在模板存储模块中,图3和图4所示为分别为本发明的模板配置的2种方式的流程示意图。
如图3所示,本发明中第一种模板配置方式是在文档处理系统运行前,用户预先把将要处理的文档格式以模板的形式保存到模板存储模块中,具体包括如下步骤:
步骤31,创建输入模板,该输入模板记录了输入文档的格式信息,输入模板可由用户界面模块中的模板自动生成模块根据输入文档创建,也可以由用户界面模块中的模板手动生成模块根据用户输入创建,该用户输入可以是用户通过可视化模块手动绘制的模板或通过模板编辑校正模块处理后的模板;
步骤32,创建输出模板,该输出模板记录了输出文档的格式信息,同时包括输出模板单元和输入模板单元之间的对应关系,输出模板可由模板手动生成模块结合输出文档和输入模板创建,也可以由模板手动生成模块根据输入模板和用户输入创建;
步骤33,模板手动生成模块或模板自动生成模块将输入模板和输出模板保存到模板存储模块。
如图4所示,本发明中第二种模板配置方式是在系统运行过程中遇到新的文档时根据该新的文档形成新的输入模板加入到模板存储模块中,具体包括如下步骤:
步骤41,模板匹配模块接收到输入文档;
步骤42,模板匹配模块根据输入文档的格式信息和/或模板的特定信息从模板存储模块选取匹配的输入模板,但无法找到匹配的输入模板;
步骤43,模板匹配模块指示模板自动生成模块根据该输入文档的格式信息创建输入模板,并保存到模板存储模块。
在步骤43中,还可以由用户通过模板编辑校正模块对创建的输入模板进行校对后才保存到模板存储模块。
当根据该输入文档的格式信息创建输入模板后,文档处理系统以后就具备了处理该格式文档的能力。
本发明文档处理方法中的文档处理步骤针对接收到的输入文档,通过模板匹配,从模板存储模块查找输入文档匹配的输入模板以及和该输入模板对应的输出模板,并基于模板进行文档的自动处理,如图5所示,文档处理步骤具体包括如下步骤:
步骤51,模板匹配模块收到输入文档;
步骤52,模板匹配模块根据输入文档从模板存储模块查找输入模板,即为输入文档选择相应的输入模板;
步骤53,文档自动处理模块根据模板匹配模块选择的输入模板提取输入文档的信息,并根据该输入模板对应的输出模板将提取出的信息保存在对应的输出文档中;输入文档的信息提取是通过输入文档和输入模板完成的,通过对输入文档的分析找出输入文档对应于输入模板的每个单元,然后提取输入文档对应单元的信息;提取信息的保存就是将从输入文档中提取的信息,通过输入模板单元和输出模板单元的对应关系,保存在由输出模板定义的输出文档中,上述的分析包括对输入文档各单元的检测和各单元与模板单元的匹配。
同时,上述的步骤也可以是根据文档自动处理模块根据模板匹配模块选择的输入模板对输入文档进行文档分类的处理。
由于在文档自动处理时,系统通过输入模板已经知道输入文档的格式,系统在自动处理输入文档时就是根据输入模板找出输入文档与输入模板相对应的每个单元,由于输入文档每个单元的属性已经在模板中指定,这大大提高了输入文档的处理效率,比如文档版面分析,OCR识别结果等。
其中,步骤52如图6所示,具体包括如下步骤:
步骤521,模板匹配模块根据输入文档格式信息从模板存储模块查找匹配的输入模板,通常用于模板匹配的特征有输入文档的格式信息和/或模板的特定信息,如输入文档的格式信息包括文档单元的数量、相对位置、属性等,模板的特定信息比如图2a中表头的字符串“员工个人信息登记表(表200603031)”就可以作模板匹配的标准之一,通常在模板匹配中要通过对输入文档向输入模板的规一化以处理输入文档的倾斜,缩放,扭曲,噪音,和单元的相对位移等情况;输入文档向模板的规一化是指通过对输入文档的处理,使输入文档尽可能的和输入模板匹配,其具体步骤包括:输入文档的倾斜校正来处理倾斜;通过输入文档单元和模板单元的匹配关系来处理文档的缩放、扭曲和相对位移,比如先选取可能的匹配单元,然后通过这些匹配单元来处理文档的缩放、扭曲和相对位移;通过对输入文档的去噪和引入抗噪的模板匹配策略来处理输入文档噪音,比如模板匹配方法允许输入文档单元的冗余和遗漏;
步骤522,模板匹配模块判断是否有匹配的输入模板,如果否进入步骤523,否则进入步骤524;
步骤523,模板匹配模块指示模板自动生成模块根据该输入文档的格式信息创建输入模板,并保存到模板存储模块并返回步骤521;
步骤524,模板匹配模块判断是否有多个匹配的输入模板,如果是进入步骤525,否则进入步骤53;
步骤525,由用户通过模板匹配运行管理模块选择一个输入模板作为匹配的输入模板后进入步骤53。
步骤525也可以是先由模板匹配模块产生候选输入模板后由用户通过模板匹配运行管理模块选择一个输入模板作为匹配的输入模板后进入步骤53。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (21)

1.一种文档处理系统,其特征在于,包括:
模板存储模块,用于存储输入模板和输出模板,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;
模板匹配模块,用于接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块选取相应的输入模板和/或输出模板;
文档自动处理模块,用于根据模板匹配模块选择的模板进行输入文档的自动处理。
2.根据权利要求1所述的系统,其特征在于,文档自动处理模块具体用于利用输入模板提取输入文档的信息,并用于将提取出的输入文档的信息利用输出模板进行保存,和/或用于根据模板匹配模块选择的模板对输入文档进行分类。
3.根据权利要求2所述的系统,其特征在于,所述文档自动处理模块还用于输出利用输出模板保存的输出文档。
4.根据权利要求1所述的系统,其特征在于,还包括一用户界面模块,用于提供用户对输入模板或输出模板进行管理操作的界面,还用于提供用户对模板匹配模块进行管理操作的界面。
5.根据权利要求4所述的系统,其特征在于,所述用户界面模块具体包括:
模板手动生成模块,用于根据用户输入生成输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或
模板自动生成模块,用于通过对输入文档和/或输出模板进行分析并产生相应的输入模板或输出模板,并将生成的输入模板或输出模板存储到模板存储模块;和/或
模板编辑校正模块,用于提供对输入模板或输出模板进行编辑校正的界面,并将编辑校正后的输入模板或输出模板存储到模板存储模块;和/或
模板添加删除模块,用于根据用户指示添加、删除输入模板或输出模板;和/或
可视化模块,用于将模板、文档及对模板和/或文档的处理以图形或图象形式显示;和/或
模板匹配运行管理模块,用于在模板匹配模块无法为当前输入文档匹配到相应的输入模板、找到多个相应输入模板或无法获取输入模板对应的输出模板时,提供用户选择输入模板或输出模板的界面,并将用户选择结果发送给模板匹配模块;和/或
文档处理编辑模块,用于提供用户对文档处理结果进行校正和/或对中间结果进行编辑,和/或对系统的参数进行修正的界面。
6.根据权利要求1所述的系统,其特征在于,所述模板匹配模块,还用于根据用户指示从模板库存储模块选取输入模板。
7.根据权利要求1所述的系统,其特征在于,所述格式信息包括文档单元的数量、每个文档单元的相对位置和文档单元的属性。
8.根据权利要求7所述的系统,其特征在于,输入模板和输出模板通过文档单元属性中的标识建立输入模板单元与输出模板单元之间的对应关系。
9.一种文档处理方法,包括如下步骤:
步骤A,将输入模板和输出模板保存到模板存储模块,输入模板用于记录输入文档的格式信息,输出模板用于记录对应于输入文档的输出文档的格式信息;
步骤B,模板匹配模块接收输入文档,并通过输入文档的格式信息和/或输入模板的特定信息从模板存储模块中选取对应的输入模板;
步骤C,文档自动处理模块根据模板匹配模块选择的模板进行输入文档的自动处理。
10.根据权利要求9所述的方法,其特征在于,所述步骤C具体为:
步骤C1,文档自动处理模块利用输入模板提取输入文档的信息,并将提取出的输入文档的信息利用输出模板进行保存;和/或
步骤C2,文档自动处理模块根据模板匹配模块选择的模板对输入文档进行分类。
11.根据权利要求10所述的方法,其特征在于,步骤C1具体包括:
步骤C1,文档自动处理模块分析输入文档找出输入文档对应于输入模板的每个单元,并提取输入文档对应单元的信息;
步骤C2,文档自动处理模块根据输入模板单元和输出模板单元的对应关系,将从输入文档中提取的信息保存在由输出模板定义的输出文档中。
12.根据权利要求9所述的方法,其特征在于,还包括:
步骤D,文档自动处理模块输出利用输出模板保存的输出文档。
13.根据权利要求9所述的方法,其特征在于,步骤A具体包括:
步骤A11,创建输入模板,记录输入文档的格式信息;
步骤A12,创建输出模板,记录输出文档的格式信息,同时记录输出模板单元和输入模板单元之间的对应关系;
步骤A13,将输入模板和输出模板保存到模板存储模块。
14.根据权利要求13所述的方法,其特征在于,所述步骤A1中,输入模板可由用户界面模块中的模板自动生成模块根据输入文档创建,或由用户界面模块中的模板手动生成模块根据用户输入创建。
15.根据权利要求14所述的方法,其特征在于,所述步骤A2中,输出模板可由模板手动生成模块根据输出文档和输入模板创建,或由模板手动生成模块根据输入模板和用户输入创建。
16.根据权利要求9所述的方法,其特征在于,步骤A具体包括:
步骤A21,模板匹配模块接收到输入文档;
步骤A22,模板匹配模块根据该输入文档的格式信息和/或模板的特定信息无法从模板存储模块中选取匹配的输入模板;
步骤A23,模板匹配模块指示模板自动生成模块根据该输入文档的格式信息创建输入模板,并保存到模板存储模块。
17.根据权利要求16所述的方法,其特征在于,步骤A23中,还由用户通过模板编辑校正模块对创建的输入模板进行校对后保存到模板存储模块。
18.根据权利要求9所述的方法,其特征在于,步骤B具体包括:
步骤B1,模板匹配模块接收输入文档,并根据输入文档的格式信息和/或模板的特定信息从模板存储模块查找匹配的输入模板;
步骤B2,模板匹配模块判断是否有匹配的输入模板,如果否进入步骤B3,否则进入步骤B4;
步骤B3,模板匹配模块指示模板自动生成模块根据该输入文档的格式信息创建输入模板,并保存到模板存储模块并返回步骤B1;
步骤B4,模板匹配模块判断是否有多个匹配的输入模板,如果是进入步骤B5,否则进入步骤C;
步骤B5,由用户通过模板匹配运行管理模块选择一个输入模板作为匹配的输入模板后进入步骤C,或由模板匹配模块产生候选输入模板后由用户通过模板匹配运行管理模块选择一个输入模板作为匹配的输入模板后进入步骤C。
19.根据权利要求18所述的方法,其特征在于,所述步骤B1中,还对输入文档向输入模板作规一化处理。
20.根据权利要求9所述的方法,其特征在于,所述格式信息包括文档单元的数量、每个文档单元的相对位置和文档单元的属性。
21.根据权利要求20所述的方法,其特征在于,输入模板和输出模板通过文档单元属性中的标识建立输入模板单元与输出模板单元之间的对应关系。
CN200610067065A 2006-03-31 2006-03-31 一种文档处理系统和方法 Expired - Fee Related CN100578497C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610067065A CN100578497C (zh) 2006-03-31 2006-03-31 一种文档处理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610067065A CN100578497C (zh) 2006-03-31 2006-03-31 一种文档处理系统和方法

Publications (2)

Publication Number Publication Date
CN101046808A true CN101046808A (zh) 2007-10-03
CN100578497C CN100578497C (zh) 2010-01-06

Family

ID=38771424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610067065A Expired - Fee Related CN100578497C (zh) 2006-03-31 2006-03-31 一种文档处理系统和方法

Country Status (1)

Country Link
CN (1) CN100578497C (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043796A (zh) * 2009-10-14 2011-05-04 无锡华润上华半导体有限公司 基于互联网的信息收集方法及装置
CN102118439A (zh) * 2011-01-19 2011-07-06 百度在线网络技术(北京)有限公司 一种文档内容的自动处理方法、自动处理装置及编辑器
CN102144227A (zh) * 2008-09-23 2011-08-03 杰夫·施托尔曼 与基于文档类型的文档处理相关的方法及设备
CN102194156A (zh) * 2010-03-01 2011-09-21 国网信息通信有限公司 一种科技查新方法及系统
CN103177064A (zh) * 2012-12-05 2013-06-26 师建中 一种自动取录电子文档中指定内容的方法
CN104298727A (zh) * 2014-09-26 2015-01-21 广州金山移动科技有限公司 一种基于文档的模板匹配方法及装置
CN104679742A (zh) * 2013-11-26 2015-06-03 富士通株式会社 信息处理方法及装置
CN105141857A (zh) * 2015-09-21 2015-12-09 广东欧珀移动通信有限公司 图像处理方法和装置
CN105740213A (zh) * 2014-12-10 2016-07-06 珠海金山办公软件有限公司 一种演示文稿模板提供方法及装置
CN105786784A (zh) * 2014-12-23 2016-07-20 珠海金山办公软件有限公司 一种演示文稿模板更换方法及装置
CN106447295A (zh) * 2016-09-29 2017-02-22 广州鹤互联网科技有限公司 一种签核文件模板生成方法及装置
CN106651288A (zh) * 2016-09-29 2017-05-10 广州鹤互联网科技有限公司 签核文件管理方法及装置
CN106681739A (zh) * 2017-01-11 2017-05-17 杭州云象网络技术有限公司 一种智能合约的自动化生成方法
CN108121693A (zh) * 2016-11-29 2018-06-05 珠海金山办公软件有限公司 一种幻灯片美化方法及装置
CN109658062A (zh) * 2018-12-13 2019-04-19 广州华资软件技术有限公司 一种基于深度学习的电子档案智能处理方法
CN110390079A (zh) * 2018-04-19 2019-10-29 广东电网有限责任公司 一种处理文档方法
CN111209488A (zh) * 2020-01-06 2020-05-29 腾讯科技(深圳)有限公司 信息分享方法以及装置
CN112464907A (zh) * 2020-12-17 2021-03-09 广东电网有限责任公司 一种文档处理系统及方法
CN113805709A (zh) * 2021-09-24 2021-12-17 维沃移动通信有限公司 信息输入方法、装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102144227A (zh) * 2008-09-23 2011-08-03 杰夫·施托尔曼 与基于文档类型的文档处理相关的方法及设备
US9715491B2 (en) 2008-09-23 2017-07-25 Jeff STOLLMAN Methods and apparatus related to document processing based on a document type
CN102043796A (zh) * 2009-10-14 2011-05-04 无锡华润上华半导体有限公司 基于互联网的信息收集方法及装置
CN102194156A (zh) * 2010-03-01 2011-09-21 国网信息通信有限公司 一种科技查新方法及系统
CN102118439A (zh) * 2011-01-19 2011-07-06 百度在线网络技术(北京)有限公司 一种文档内容的自动处理方法、自动处理装置及编辑器
CN103177064B (zh) * 2012-12-05 2016-10-05 师建中 一种自动取录电子文档中指定内容的方法
CN103177064A (zh) * 2012-12-05 2013-06-26 师建中 一种自动取录电子文档中指定内容的方法
CN104679742A (zh) * 2013-11-26 2015-06-03 富士通株式会社 信息处理方法及装置
CN104298727B (zh) * 2014-09-26 2018-11-16 广州金山移动科技有限公司 一种基于文档的模板匹配方法及装置
CN104298727A (zh) * 2014-09-26 2015-01-21 广州金山移动科技有限公司 一种基于文档的模板匹配方法及装置
CN105740213A (zh) * 2014-12-10 2016-07-06 珠海金山办公软件有限公司 一种演示文稿模板提供方法及装置
CN105740213B (zh) * 2014-12-10 2018-11-16 珠海金山办公软件有限公司 一种演示文稿模板提供方法及装置
CN105786784A (zh) * 2014-12-23 2016-07-20 珠海金山办公软件有限公司 一种演示文稿模板更换方法及装置
CN105786784B (zh) * 2014-12-23 2018-10-16 珠海金山办公软件有限公司 一种演示文稿模板更换方法及装置
CN105141857A (zh) * 2015-09-21 2015-12-09 广东欧珀移动通信有限公司 图像处理方法和装置
CN106447295A (zh) * 2016-09-29 2017-02-22 广州鹤互联网科技有限公司 一种签核文件模板生成方法及装置
CN106651288A (zh) * 2016-09-29 2017-05-10 广州鹤互联网科技有限公司 签核文件管理方法及装置
CN108121693A (zh) * 2016-11-29 2018-06-05 珠海金山办公软件有限公司 一种幻灯片美化方法及装置
CN106681739A (zh) * 2017-01-11 2017-05-17 杭州云象网络技术有限公司 一种智能合约的自动化生成方法
CN106681739B (zh) * 2017-01-11 2020-06-19 杭州云象网络技术有限公司 一种智能合约的自动化生成方法
CN110390079A (zh) * 2018-04-19 2019-10-29 广东电网有限责任公司 一种处理文档方法
CN109658062A (zh) * 2018-12-13 2019-04-19 广州华资软件技术有限公司 一种基于深度学习的电子档案智能处理方法
CN111209488A (zh) * 2020-01-06 2020-05-29 腾讯科技(深圳)有限公司 信息分享方法以及装置
CN112464907A (zh) * 2020-12-17 2021-03-09 广东电网有限责任公司 一种文档处理系统及方法
CN113805709A (zh) * 2021-09-24 2021-12-17 维沃移动通信有限公司 信息输入方法、装置
WO2023045922A1 (zh) * 2021-09-24 2023-03-30 维沃移动通信有限公司 信息输入方法、装置

Also Published As

Publication number Publication date
CN100578497C (zh) 2010-01-06

Similar Documents

Publication Publication Date Title
CN101046808A (zh) 一种文档处理系统和方法
CN1248138C (zh) 图像处理方法与图像处理系统
CN1218274C (zh) 在线手写文字模式识别编辑装置及方法
CN1215415C (zh) 文件管理方法和存储信息记录重放装置
CN1145872C (zh) 手写汉字自动分割和识别方法以及使用该方法的系统
CN1806220A (zh) 使用数字笔的编辑系统,编辑方法及其程序
CN1783933A (zh) 图像处理装置及其方法
CN1190053C (zh) 一种通信设备的数据离线配置方法
CN1149737A (zh) 信息处理方法和装置及存储实施该方法程序的存储介质
CN1609846A (zh) 用于识别,锚定和回流数字墨水注释的数字墨水注释方法和系统
CN1912874A (zh) 一种提取见报资料数据信息的方法
CN1744077A (zh) 文档处理装置以及方法
CN1787591A (zh) 图像处理方法和图像处理设备
CN1841373A (zh) 电子手册显示装置
CN1908931A (zh) 一种文字的可变数据排版的方法
CN1908935A (zh) 一种自然语言的搜索方法及系统
CN1163836C (zh) 图象信息检索系统和方法
CN1374623A (zh) 图像处理设备
CN101833545B (zh) 数字资源加工过程中的数据标引方法
CN1922857A (zh) 文档处理方法和系统
CN101030230A (zh) 一种图像检索方法及系统
CN1077757C (zh) 字符发生方法及装置
CN1248113C (zh) 一种源代码中硬编码字符串的提取和集中方法
CN1065639C (zh) 计算机辅助设计与网上出版系统及其出版方法
CN1713140A (zh) 计算机界面生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: RICOH SOFTWARE RESEARCH INSTITUTE (BEIJING) CO., L

Effective date: 20120119

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120119

Address after: Tokyo, Japan, Japan

Co-patentee after: Study on Ricoh software (Beijing) Co., Ltd.

Patentee after: Ricoh Co., Ltd.

Address before: Tokyo, Japan, Japan

Patentee before: Ricoh Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100106

Termination date: 20160331

CF01 Termination of patent right due to non-payment of annual fee