CN1713171A - 文档处理装置、文档处理方法及记录其程序的存储介质 - Google Patents

文档处理装置、文档处理方法及记录其程序的存储介质 Download PDF

Info

Publication number
CN1713171A
CN1713171A CNA2005100557355A CN200510055735A CN1713171A CN 1713171 A CN1713171 A CN 1713171A CN A2005100557355 A CNA2005100557355 A CN A2005100557355A CN 200510055735 A CN200510055735 A CN 200510055735A CN 1713171 A CN1713171 A CN 1713171A
Authority
CN
China
Prior art keywords
character string
document processing
document
rewritten
filename
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100557355A
Other languages
English (en)
Other versions
CN100378720C (zh
Inventor
伊藤笃
田宗道弘
田川昌俊
佐藤直子
刘绍明
增市博
田代洁
石川恭辅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN1713171A publication Critical patent/CN1713171A/zh
Application granted granted Critical
Publication of CN100378720C publication Critical patent/CN100378720C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

文档处理装置、文档处理方法及记录其程序的存储介质。本发明所提供的文档处理装置包括:指定单元,用于从包括在由多个相应的文档数据表示的多个文档中的字符串中指定对于文档具有公共属性的字符串;和重写单元,用于将所述指定单元指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限定格式表示的字符串。

Description

文档处理装置、文档处理方法及记录其程序的存储介质
技术领域
本发明涉及对多个文档数据文件进行分类的技术。
背景技术
已知有这样一种技术,其使用扫描仪或图像读取装置读取手写文档、通过应用OCR(光学字符识别)对所读取的文档数据文件处理来识别字符、并提取识别的字符作为文本数据。根据该技术,通过将手写文档中所述的信息转换成文本数据,计算机可使用手写文档中所述的信息用于各种目的。例如,计算机可根据文本数据中包括的字符串对多个文档数据文件进行排序,或根据多个文档数据文件进行统计。
然而,根据文档创作者的喜好,可以以不同形式的字符串在不同的文档中表现相同的含义,所有形式的这些字符串都具有共同的属性。例如,当考虑在一篇文档中写入具有“日期”属性的字符串这样一种情况时,例如表示“2004年5月15日”的字符串,用户可以“2004.05.15”的格式书写字符串,或者以“May 15,2004”的格式书写字符串。这也就是说,虽然字符串表达相同的含义,但由于它们是以不同的格式书写的,所以计算机不能将所述字符串识别为相同的文本数据。
因此,如果在“日期”这样的共同属性的基础上对文本数据“2004.05.15”和“May 15,2004”进行排序,则计算机不能通过简单地比较文本数据中的第一个字符,即“2”和“M”,将日期识别为这两个字符串的共同属性。因此,其不能获取与表示一特定含义的所有格式的字符串相匹配的共同属性。
发明内容
本发明就是考虑了上面讨论的问题做出的,并提供了一种对虽然以不同格式表示但具有一个共同属性的多个文档数据进行适当分类的技术。
为了解决上述问题,本发明提供了一种文档处理装置,其包括:指定单元,用于从包括在由多个相应的文档数据表示的多个文档内的字符串中指定对于文档具有公共属性的字符串;和重写单元,用于将指定单元指定的字符串中的以不同于限定的格式的格式表示的字符串重写为以所限定的格式表示的字符串。
根据该文档处理装置,由指定单元指定的具有公共属性的字符串被重写单元重写为一限定格式。结果,包括以不同格式表达的字符串的多个文档数据能够被适当地分类。
附图说明
下面将根据以下附图详细说明本发明的实施例,附图包括:
图1为表示根据本发明第一实施例的文档处理系统的方框图;
图2为表示根据相同实施例的在HDD中存储的文档数据文件的示意图;
图3为表示根据同一实施例的字符串重写列表的示意图;
图4为表示根据同一实施例的在操作单元中显示的屏幕的示意图;
图5为表示由根据同一实施例的文档处理装置执行的重写处理的流程图;
图6为表示根据同一实施例的在一操作示例中使用的文档数据文件的示意图;
图7为表示在本发明的第二实施例的说明中使用的文档数据文件中的项目的文本数据的示意图;
图8为表示由根据同一实施例的文档处理装置执行的重写处理的流程图。
具体实施方式
第一实施例
图1为表示根据本发明第一实施例的文档处理系统100的方框图。如该图所示,文档处理系统100包括一文档处理装置1和一图像读取装置2。文档处理装置1包括控制单元11、HDD 12、输入接口13和操作单元14。
控制单元11(例如)包括CPU(中央处理单元)111、ROM(只读存储器)112和RAM(随机存取存储器)113,并且对图像读取装置2提供的图像数据执行各种操作,用于执行下述的OCR处理和重写处理。HDD 12为存储装置并用于存储OCR处理执行程序PRG 1、重写处理执行程序PRG2、图像读取装置2提供的多个文档数据文件DOC、日本日历变换表TBL和字符串重写列表LST。输入接口13与图像读取装置2连接并接收由图像读取装置2输入的文档图像数据。操作单元14(例如)包括LCD显示器(未示出)、和各种按扭,并用于接收来自用户的指令。用户在观看操作单元14中显示的屏幕的同时,通过按压按钮或类似装置来输入指令。
图2为表示在HDD 12中存储的文档数据文件DOC的示意图。该文档数据文件DOC是通过对图像读取装置2提供的文档图像数据进行OCR处理获得的。
如图所示,所述文档数据文件DOC包括两个项目:“创建者ID”和“创建日期”,其表示文档数据文件DOC的属性。分别在文本字段TXT1和TXT2中输入表示上述项目“创建者ID”和“创建日期”的文本数据。
对文档数据文件DOC中的所有项定义了基准格式。“创建者ID”具有“NNNNN”或五个数位的基准格式,并且对于其中“创建者ID”不是由五个数位表示的任何文档数据文件DOC来说,其通过执行重写处理而将其重写为五个数位。“创建日期”具有“YYYY-MM-DD”的基准格式。这里,YYYY表示年,MM表示月,DD表示日。换句话说,“创建日期”的基准格式分别以四位、两位和两位数字的格式表示年、月、日,其中年、月和日由连字号(-)隔开。
图3为表示字符串重写列表LST的示意图。字符串重写列表LST预先存储在文档处理装置1中。当对“创建日期”执行重写处理时,如果一字符串与字符串重写列表LST中的“将被重写的字符串”相匹配,那么就将所述字符串重写为“重写字符串”。例如,如果“创建日期”包含(例如)字符“January”,则文档处理装置1的控制单元11就将其重写为“01”。此外,如果“创建日期”项包含(例如)字符串“8*”或“9*”(星号(*)表示任意的整数),则控制单元11将这些字符重写为“198*”和“199*”。
图4为表示在操作单元14中显示的屏幕的示意图。如该图所示,在该屏幕上显示有重写选择按扭BTN1和BTN2,文件名重写按扭BTN 3和重写处理执行按钮BTN 4。下面将对该按扭进行说明。
重写选择按钮BTN1和BTN2为用于选择在下述的重写处理中将进行重写的数据的按钮。重写选择按扭BTN1和BTN2分别与“创建者ID”和“创建日期”对应。因此,当重写选择按扭BTN1为“ON”状态时,设置控制单元11以对表示“创建者ID”的文本数据执行重写处理,当选择按钮BTN2为“ON”状态时,设定控制单元11以对表示“创建日期”的文本数据执行重写处理。文件名重写按扭BTN 3为用于选择在执行重写处理时是否重写文档数据的文件名的按钮,并且当该按扭为“ON”状态时,当执行重写处理时重写文件名。重写处理执行按扭BTN 4为用于指令执行重写处理的按钮,当该按扭为“ON”状态时,就开始重写处理。
图像读取装置2为扫描仪。图像读取装置2包括压纸卷筒板(platen)、光源、光学系统、光接收元件和信号处理单元,它们都未示出。光源将光照在放置在压纸卷筒压纸板上的文档上,光接收元件通过光学系统接收反射的光并输出图像信号。由信号处理单元对该被输出的图像信号进行各种信号处理例如AD转换和黑点明暗校正(shadingcorrection),并将所得的文档图像数据提供给文档处理装置1。
在上述的文档处理系统100中,图像读取装置2读取手写文档并将文档图像数据提供给文档处理装置1。已经输入了文档图像数据的文档处理装置1通过执行程序PRG 1对所述文档图像数据应用众所周知的OCR处理并获得一文档数据文件,其中可从该文档图像数据中提取与例如“创建者ID”和“创建日期”的项目对应的文本数据。文档处理装置1按照用户的指令通过执行程序PRG 2对包括在文档数据文件中的文本数据执行重写处理。
图5为表示由根据本实施例的文档处理装置1执行的重写处理的流程图。如该图所示,首先,文档处理装置1的控制单元11接收用户通过操作单元14输入的指令(步骤Sa1)。更加具体地说,用户在观看如图4所示的屏幕的同时,使用重写选择按钮BTN1和BTN2指定将进行重写的项目,使用文件名重写按钮BTN 3选择是否重写文件名,并使用重写处理执行按钮BTN 4指令开始重写处理。
当接收到用户的指令时,控制单元11根据所述指令指定与多个文档数据文件中的将被重写的项目对应的文本数据(步骤Sa2)。具体地,控制单元11搜索这些文档数据文件中的与被重写选择按扭BTN1和BTN2指定的项目对应的文本数据。
控制单元11将一个文档数据文件读入到RAM 113中并确定是否需要重写文档数据文件(步骤Sa3)。如果该文档数据文件包含将被书写写的文本数据,并且该文本数据是以不同于基准格式的格式记述的(步骤Sa3:是),则控制单元11以基准格式重写文本数据(步骤Sa4)。另一方面,如果文本数据是以基准格式记述的(步骤Sa3:否),则控制单元11跳过上述的步骤Sa4中的处理。
控制单元11根据指令确定是否重写文档数据文件的文件名(Sa5)。如果用户已经指令开始重写处理并且文件名重写按扭BTN 3为“ON”状态(步骤Sa5:是),则控制单元11重写文档数据文件的文件名(步骤Sa6)。具体地说,控制单元11将已经在步骤Sa4重写的文本数据的项目名添加到文件名的末尾。例如,如果文档数据文件的文件名为“ABC”,并且已经写入了与项目“创建日期”相应的文本数据,则文件名被重写为“ABC_创建日期”。
如果用户已经指令开始重写处理,并且文件名重写按钮BTN 3为“OFF”状态(步骤Sa5:否),则控制单元11跳过步骤Sa6中的处理。
当完成所述处理时,控制单元11在HDD 12中存储在RAM 113中处理的文档数据文件(步骤Sa7)。控制单元11可重写存储在HDD 12上的未处理文档数据文件,或者可以将其存储为新的文档数据文件。
控制单元11对在步骤Sa2中指定的所有文档数据执行步骤Sa3到Sa7中的处理。如果还有将被重写的文档数据文件(步骤Sa8:否),则控制单元11重复步骤Sa3到Sa7中的处理。当对所有将被重写的文档数据文件的处理都完成了(步骤Sa8:是),则控制单元11终止重写处理。
根据重写处理,项目“创建者ID”和“创建日期”的格式在多个文档数据文件中被标准化。因此,可根据该项目对所述多个文档数据文件进行排序。另外,如果文件名已经被重写,则用户能容易的识别哪个文档数据文件已经被重写。
为了便于理解本实施例,下面将参照特定的实施例更详细地说明重写处理。
图6为表示在下述的操作示例中所涉及的文档数据文件DOC1、DOC2和DOC3的示意图。如该图所示,文档数据文件DOC1的创建者ID为“20”,其创建日期为“04.1.3”。类似地,文档数据文件DOC2的创建者ID和创建日期分别为“00089”和“October 2,2003”,文档数据文件DOC3的创建者ID和创建日期分别为“107”和“2004-05-15”。文档数据文件DOC1、DOC2和DOC3的文件名分别被假定为是“DOC1”、“DOC2”和“DOC3”。
如果通过创建者ID对文档数据文件DOC1、DOC2和DOC3进行排序,则确定创建者ID的值以DOC2、DOC3和DOC1的顺序增大。然而,如果将创建者ID的实际值相比较,则创建者ID按照DOC1、DOC2和DOC3的顺序增大。换句话说,图76中所示的文档数据文件DOC1、DOC2和DOC3不能根据创建者ID进行适当地排序。
此外,如果以创建日期对文档数据文件DOC1、DOC2和DOC3进行排序,则确定创建日期按照顺序DOC1、DOC3和DOC2变新。然而,创建日期的实际顺序按照DOC2、DOC1和DOC3的顺序从最旧变成最新。因此,与上述的创建者ID的情况相同,文档数据文件DOC1、DOC2和DOC3不能根据创建日期进行适当地排序。
在下面的操作示例1中,描述了对于文档数据文件DOC1、DOC2和DOC3的项目“创建者ID”进行的重写处理。在下面的操作示例2中,描述了对项目“创建日期”进行的重写处理。在操作示例2中,还介绍了修改文件名的处理。
操作示例1
本操作示例描述了文档处理装置1重写创建者ID但不修改文件名这样一种情况。换句话说,该操作示例示意说明了在重写选择按钮BTN1为“ON”状态和文件名重写按扭为BTN 3为“OFF”状态下执行重写处理这样一种情况下所执行的操作。
现在说明对文档数据文件DOC1的创建者ID所进行的重写处理。在本示例中,创建者ID为20,而创建者ID的基准格式为“NNNNN”。因此,控制单元11通过添加三个“0”而将创建者ID重写为“00020”。
类似地,在重写文档数据文件DOC3的创建者ID时,创建者ID“107”被重写为“00107”
相反,文档数据文件DOC2的创建者ID为“00089”,其与创建者ID的基准格式相匹配。因此,控制单元11并不重写文档数据文件DOC2的创建者ID。
根据重写处理,文档数据文件DOC1、DOC2和DOC3的创建者ID分别被重写为“00020”、“00107”和“00089”。因此,如果通过创建者ID对重写的文档数据文件DOC1、DOC2和DOC3进行排序,则确定创建者ID按照DOC1、DOC3和DOC2的顺序变大。即,可以利用创建者ID对文档数据文件DOC1、DOC2和DOC3进行正确排序。
操作示例2
本操作示例描述了这样一种情况,其中文档处理装置1重写创建日期并修改文件名。换句话说,该操作示例描述了在重写选择按扭BTN2为“ON”状态、文件名重写按扭BTN 3为“ON”状态而执行重写处理这样一种情况下所执行的操作。
现在将说明对文档数据文件DOC1的创建日期所进行的重写处理。文档数据文件DOC1的创建日期为“04.1.3”,且创建日期的基准格式是“YYYY-MM-DD”。控制单元11查阅字符串重写列表LST并重写与列表中的“将被重写的字符串”相匹配的字符串。具体地说,控制单元11将“04”重写为“2004”,并将句点(.)重写为连字号(-)。作为重写操作的结果,文档数据文件DOC1的创建日期变为“2004-1-3”。然而,该格式在月和日的数位方面仍然与基准格式不同。因此,控制单元11通过分别对月和日添加一个“0”而将文档数据文件DOC1的创建日期重写为“2004-01-03”。
当完成创建日期的重写时,控制单元11重写文档数据文件DOC1的文件名。在这种情况下,文档数据文件DOC1的文件名被修改为例如“DOC1_创建日期”。
现在说明对文档数据文件DOC2的创建日期所进行的重写处理。文档数据文件DOC2的创建日期为“October 2,2003”,而创建日期的基准格式是“YYYY-MM-DD”。控制单元11查阅字符串重写列表LST并重写与列表中的“将被重写的字符串”相匹配的字符串。具体地说,控制单元11将“October”重写为“10”。控制单元11将字符“,2003”识别为年,并对日添加一个“0”以使日的数位与基准格式的一致。随后,控制单元11改变这些字符的顺序以使它们与基准格式相匹配。结果,文档数据文件DOC2的创建日期变为“2003-10-02”。
当完成创建日期的重写时,控制单元11重写文档数据文件DOC2的文件名。在这种情况下,文档数据文件DOC2的文件名被修改为(例如)“DOC2_创建日期”。
文档数据文件DOC3的创建日期为“2004-05-15”,其与创建日期的基准格式“YYYY-MM-DD”相匹配。因此,控制单元11在没有重写文档数据文件DOC3的创建日期的情况下结束重写处理。
作为重写处理的结果,文档数据文件DOC1、DOC2和DOC3的创建日期分别被重写为“2004-01-03”、“2003-10-02”和“2004-05-15”。如果利用创建日期对重写过的文档数据文件DOC1、DOC2和DOC3进行排序,则确定创建日期按照DOC2、DOC1、DOC3的顺序变新。即,能够通过创建日期正确地排序文档数据文件DOC1、DOC2和DOC3。
另外,因为文档数据文件DOC1和DOC2的文件名被重写为“DOC1_创建日期”和“DOC2_创建日期”,所以用户能够容易地理解文档数据文件DOC1和DOC2的创建日期已经被重写。
(2)第二实施例
下面说明根据本发明的第二实施例。
本实施例与第一实施例的不同之处仅在于:项目“创建者ID”和“创建日期”的基准格式未提前限定,而是根据将被重写处理的文档数据文件的分类结果进行限定。因此,本实施例主要说明与第一实施例之间的差异,与第一实施例重复的那些说明将被省略。与第一实施例共用的元件由相同的数字表示,而与第一实施例不同的那些元件用撇号(’)来区分。
根据本实施例的文档处理装置1’在HDD 12’中存储用于执行与第一实施例不同的重写处理的程序PRG 2’。因此,将在下面详细说明由控制单元11使用程序PRG 2’执行的重写处理。
图7为表示在本实施例的下述说明中涉及的文档数据文件DOCa,DOCb,…,DOCe中的项目的文本数据的示意图。例如,文档数据文件DOCa的创建者ID为“00016”,其创建日期为“2003-12-10”。
在下面说明的情况中,对文档数据文件DOCa至DOCe中的每一个的项目“创建日期”所进行的重写处理由控制单元11来执行。
图8为表示由根据本发明的文档处理装置1’执行的重写处理的流程图。如该图所示,首先,文档处理装置1’的控制单元11接收由使用者通过操作单元14输入的指令(步骤Sb1)。具体地说,用户在观看如图4中所示的屏幕的同时,使用重写选择按钮BTN2指令项目“创建日期”的重写,使用重写处理执行按扭BTN 4指令开始重写处理。
当接收到用户的指令时,控制单元11根据所述指令指定与多个文档数据文件中的将被重写的项目对应的文本数据(步骤Sb2)。具体地说,控制单元11搜索这些文档数据文件中的与由重写选择按扭BTN2指定的项目对应的文本数据。
控制单元11读取在步骤Sb2指定的文本数据并按格式对它们进行分类(步骤Sb3)。下面将参照图7的文档数据文件DOCa至DOCe说明该处理。
首先,控制单元11读取文档数据文件DOCa的与项目“创建日期”相应的文本数据。文档数据文件DOCa的创建日期为“2003-12-10”,因而控制单元11将这种“YYYY-MM-DD”格式限定为“格式A”。另外,控制单元11将值“1”存储为格式A的出现频率。
接着控制单元11读取文档数据文件DOCb的与项目“创建日期”相应的文本数据。文档数据文件DOCb的创建日期为“2004.02.02”,其格式与格式A不同,所以控制单元11将该格式限定为“格式B”,将值“1”存储为该格式B的出现频率。
接着,控制单元11读取文档数据文件DOCc的与项目“创建日期”相应的文本数据。文档数据文件DOCc的创建日期为“2004-03-29”,该格式与格式A相配。控制单元11对该格式A的出现频率加“1”,并将值“2”存储为该格式A的出现频率。因为文档数据文件DOCd的创建日期为“2004-01-23”,与文档数据文件DOCc的情况相同,格式为“格式A”,所以控制单元11再次对所述存储的格式A的出现频率加“1”,并将值“3”存储为该格式A的出现频率。
接着,控制单元11读取与项目“创建日期”相应的文档数据文件DOCe的文本数据。文档数据文件DOCe的创建日期为“October 7,2003”,所以该格式与格式A或格式B都不匹配。控制单元11将该格式限定为“格式C”,将值“1”存储为该格式C的出现频率。
当所有文档数据文件的格式都被指定并分类时,控制单元11识别最频繁出现的格式并将该格式设定为基准格式(步骤Sb4)。在上述例子中,“格式A”的出现频率为“3”次,“格式B”的出现频率为“1”次,“格式C”的出现频率为“1”次,所以控制单元11将“格式A”限定为基准格式。
控制单元11将一个文档数据文件读入到RAM 113中并确定是否需要重写文档数据文件(步骤Sb5)。如果该文档数据文件包含将被书写写的文本数据,并且该文本数据是以不同于基准格式的格式记述的(步骤Sb5:是),则控制单元11以基准格式重写文本数据(步骤Sb6)。另一方面,如果文本数据是以基准格式记述的(步骤Sb5:否),则控制单元11跳过上述的步骤Sb6中的处理。以图7的文档数据文件DOCa至DOCe为例,在创建日期是以基准格式记述的文档数据文件DOCa、DOCb和DOCd的情况下,步骤Sb6中的处理被跳过。另一方面,在创建日期是以不同于基准格式的格式记述的文档数据文件DOCb和DOCe的情况下,所述文本数据被分别重写为“2004-02-02”和“2003-10-07”。
然后,控制单元11根据指令确定是否重写文档数据文件的文件名(Sb7)。如果用户已经指令开始重写处理,并使文件名重写按扭BTN 3为“ON”状态(步骤Sb7:是),则控制单元11重写文档数据文件的文件名(步骤Sb8)。具体地说,控制单元11将在步骤Sb6已经被重写的文本数据的项目名添加到文件名的末尾。
如果用户已经指令开始重写处理,并使文件名重写按钮BTN 3为“OFF”状态(步骤Sb7:否),则控制单元11跳过步骤Sb8中的处理。
当完成所述处理时,控制单元11在HDD 12’中存储在RAM 113中处理过的的文档数据文件(步骤Sb9)。控制单元11可重写存储在HDD 12’上的未处理的文档数据文件,或者可以将其存储为新文档数据文件。
控制单元11对在步骤Sb2中指定的所有文档数据文件执行步骤Sb5到Sb9中的处理。如果还有将被重写的文档数据文件(步骤Sb10:否),则控制单元11重复步骤Sb5到Sb9中的处理。当对所有将被重写的文档数据文件的处理都完成了(步骤Sb10:是),则控制单元11终止重写处理。
如上所述,根据本实施例的文档处理装置1’,即使在基准格式未预先限定的情况下,也能够为重写处理分类对文档数据文件进行分类、识别最频繁出现的格式、并使用该识别出的格式作为基准格式执行重写处理。因此,不再需要提前限定基准格式,并能够使将被重写的文档数据文件的数量最小化。
(3)变型例
能够以例如上述实施例之外的下述其它实施例来实施本发明。
在上面的实施例中,通过文档处理装置对其进行重写处理的文档数据文件可以是通过对图像读取装置提供的文档图像数据进行OCR处理获得的文档数据文件之外的文档数据文件。本质上,能够提取文本数据的任何文件格式都是适合的,例如CSV(逗号分割值)格式或HTML(超文本链接标记语言)格式。
在上面的实施例中,文档数据文件中的文本数据可以是由用户使用键盘或其它输入装置输入的文本数据。在该情况下,存在这样一种可能性,即由用户键入的字符可包括单字节和双字节字符,所以执行重写处理是这些字符的格式标准化是有利的。
在上面的实施例中,可以对其文本数据文件已经被重写的文档数据文件之外的文档数据文件执行文件名的重写。
在上面的实施例中,当文档数据文件的文件名被重写时,可将项目名附加至文件名的头部,而不是文件名的末尾。另选地,可代替项目名将文本数据附加至文件名中。例如,文档数据文件的文件名为“DOCA”并且其创建日期为“2004-02-27”,则文件名被修改为“2004-02-27_DOCA”。在该情况下,因为其格式已经被标准化的文本数据被附加至文件名的头部,所以当通过文件名排序时,可按照创建日期的顺序来列举文档数据文件。
在所述第二实施例中,文档处理装置的控制单元可不将最频繁出现的格式设置为基准格式,而是使操作单元的LCD显示器显示文档数据文件的分类结果,由此允许用户选择基准格式。
可通过各种存储介质来提供根据本发明的程序PRG 2和PRG 2’,例如磁盘、软盘、CD(光盘)、DVD(数字万用盘)或RAM。
如上所述,本发明提供一种文档处理装置,其包括:指定单元,用于指定包括在由多个相应的文档数据表示的多个文档中的字符串中对于这些文档具有公共属性的字符串;和重写单元,用于将所述指定单元指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限定格式表示的字符串。
根据所述文档处理装置,由指定单元指定的具有公共属性的字符串被重写单元重写为一限定格式。结果,包括以不同格式表达的字符串的多个文档数据能够被适当地分类。
根据本发明的一个实施例,所述文档处理装置还包括分类单元,用于对所述指定单元指定的字符串的格式进行分类;和限定单元,用于根据所述分类装置提供的分类结果限定一基准格式;并且重写单元将由所述指定单元指定的字符串中的不同于由所述限定单元限定的基准格式的格式表示的字符串重写为以所述基准格式表示的字符串。
根据本发明的另一实施例,所述限定单元将由分类单元分类出的格式中的具有最高出现频率的格式限定为基准格式。
在所述实施例中,多个文档数据被分类,并且其中的字符串以根据分类结果限定的基准格式进行重写,从而能够使用一更适当的格式。
根据本发明的另一实施例,所述文档处理装置还包括显示器,用于显示多种格式的列表,所述多种格式为分类单元的分类结果;和选择单元,用于依据操作者的操作从所述显示装置显示的多种格式的列表中选择一种格式,并且所述重写单元将所述指定单元指定的字符串中的以与所述选择单元选择的格式不同的格式表示的字符串重写为以所述选择格式表示的字符串。
在所述实施例中,用户能够选择用于重写的格式。
根据本发明的另一实施例,所述文档处理装置还包括文件名重写单元,用于将其字符串已经被重写单元重写的文档数据的文件名重写为至少包括所述被重写的字符串的一部分的文件名。
在该实施例中,操作者仅通过查看文档数据的文件名就能够看出文档数据是如何被重写的。
根据本发明的另一实施例,所述文档处理装置还包括文件名重写单元,用于将其字符串已经被重写单元重写的文档数据的文件名重写为至少包括表示所述被重写的字符串的属性的名称的一部分的文件名。
在该实施例中,操作者仅通过查看文档数据的文件名就能够看出文档数据是如何被重写的。
根据本发明的另一实施例,所述文档处理装置还包括重写选择单元,用于使操作者选择是否重写文件名,并且当重写选择单元从操作者接收到重写文件名的指令时,所述文件名重写单元对其字符串已经被重写单元重写的文档数据的文件名进行重写。
在该实施例中,操作者能够确定是否重写文件名。
根据本发明的另一实施例,所述文档数据是通过对光学读取的文档应用OCR(光学字符识别)处理获得的。
在该实施例中,即使多个文档数据是以不同的格式书写的,也可对它们进行适当地分类。
此外,本发明提供一种由文档处理装置执行的文档处理方法,其包括:指定包括在由多个相应的文档数据表示的多个文档中的字符串中的对于文档具有公共属性的字符串;和将所述指定步骤指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限定格式表示的字符串。
根据本发明的一个实施例,所述文档处理方法还包括对所述指定步骤指定的字符串的格式进行分类;和根据所述分类步骤的分类结果限定基准格式;并且所述字符串重写步骤包括将所述指定步骤指定的字符串中的以不同于由所述限定步骤限定的基准格式的格式表示的字符串重写为以所述基准格式表示的字符串。
根据本发明的另一实施例,所述限定步骤将所述分类步骤中分类出的格式中的具有最高出现频率的格式限定为基准格式。
根据本发明的另一实施例,所述文档处理方法还包括:显示作为分类步骤的分类结果的多种格式的列表;和依据操作者的操作从所述显示步骤显示的多种格式的列表中选择一种格式,并且所述字符串重写步骤包括将所述指定步骤指定的字符串中的以与所述选择步骤选择的格式不同的格式表示的字符串重写为以所述选择格式表示的字符串。
根据本发明的另一实施例,所述文档处理方法还包括将其字符串已经在字符串重写步骤中重写过的文档数据的文件名重写为至少包括所述被重写的字符串的一部分的文件名。
根据本发明的另一实施例,所述文档处理方法还包括将其字符串已经在所述字符串重写步骤中重写过的文档数据的文件名重写为至少包括表示所述被重写的字符串的属性的名称的一部分的文件名。
根据本发明的另一实施例,所述文档处理方法还包括使操作者选择是否重写文件名的步骤,并且所述文件名重写步骤包括在所述重写选择步骤中接收到来自操作者的重写文件名的指令时,对其字符串已经在字符串重写步骤中重写过了的文档数据的文件名进行重写。
根据本发明的另一实施例,所述文档数据是通过对光学读取的文档应用OCR(光学字符识别)处理获得的。
此外,本发明还提供了一种记录程序的计算机可读存储介质,所述程序用于使计算机执行:指定由多个相应的文档数据表示的多个文档中所包括的字符串中的对于文档具有公共属性的字符串;和将指定处理所指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限定格式表示的字符串。
前面对本发明的实施例的说明是出于解释和说明的目的给出的。其并不是穷举性的,也不是为了将本发明限制在所公开的精确形式。很明显,许多变型和变化对于本领域技术人员将是显而易见的。所述各实施例是被选择说明的,以最佳解释本发明的原理及其实际应用,以便由此能够使本领域技术人员理解能够针对特定的预期应用的其他实施例或变型例。本发明的范围由下述的权利要求及其等同内容限定。
本申请要求2004年6月15日提交的日本专利申请第2004-177447号的优先权。

Claims (19)

1.一种文档处理装置,包括:
指定单元,用于从包括在由多个相应的文档数据表示的多个文档中的字符串中指定对于这些文档具有公共属性的字符串;和
重写单元,用于将所述指定单元指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限定格式表示的字符串。
2.根据权利要求1所述的文档处理装置,还包括:
分类单元,用于对由所述指定单元指定的字符串的格式进行分类;和
限定单元,用于根据所述分类单元提供的分类结果限定基准格式;
其中,所述重写单元将所述指定单元指定的字符串中的以不同于由所述限定单元限定的基准格式的格式表示的字符串重写为以所述基准格式表示的字符串。
3.根据权利要求2所述的文档处理装置,其中所述限定单元将所述分类单元分类的格式中的具有最高出现频率的格式限定为基准格式。
4.根据权利要求2所述的文档处理装置,还包括:
显示器,用于显示作为所述分类单元的分类结果的多种格式的列表;和
选择单元,用于依据操作者的操作从由所述显示器显示的多种格式的列表中选择一种格式;
其中,所述重写单元将所述指定单元指定的字符串中的以与所述选择单元所选择的格式不同的格式表示的字符串重写为以所述所选择的格式表示的字符串。
5.根据权利要求1所述的文档处理装置,还包括:
文件名重写单元,用于将其字符串已经被所述重写单元重写过的文档数据的文件名重写为至少包括所述重写过的字符串的一部分的文件名。
6.根据权利要求1所述的文档处理装置,还包括:
文件名重写单元,用于将其字符串已经被所述重写单元重写过的文档数据的文件名重写为至少包括一个名称的一部分的文件名,所述名称表示所述重写过的字符串的属性。
7.根据权利要求5所述的文档处理装置,还包括:
重写选择单元,用于使操作者选择是否重写文件名,
其中,当重写选择单元接收到来自操作者的重写文件名的指令时,所述文件名重写单元对其字符串已经被所述重写单元重写过的文档数据的文件名进行重写。
8.根据权利要求6所述的文档处理装置,还包括:
重写选择单元,用于使操作者选择是否重写文件名,
其中,当重写选择单元接收到来自操作者的重写文件名的指令时,所述文件名重写单元对其字符串已经被所述重写单元重写过的文档数据的文件名进行重写。
9.根据权利要求1所述的文档处理装置,其中所述文档数据是通过对光学读取的文档进行光学字符识别处理而获得的。
10.一种由文档处理装置执行的文档处理方法,其包括:
从包括在由多个相应的文档数据表示的多个文档中的字符串中指定对于这些文档具有公共属性的字符串;和
将所述指定步骤指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限定格式表示的字符串。
11.根据权利要求10所述的文档处理方法,还包括:
对所述指定步骤指定的字符串的格式进行分类;和
根据所述分类步骤的分类结果限定基准格式;
其中,所述字符串重写步骤包括将所述指定步骤指定的字符串中的以不同于由所述限定步骤限定的基准格式的格式表示的字符串重写为以所述基准格式表示的字符串。
12.根据权利要求11所述的文档处理方法,其中,所述限定步骤包括将所述分类步骤中分类出的格式中的具有最高出现频率的格式限定为基准格式。
13.根据权利要求11所述的文档处理方法,还包括:
显示作为分类步骤的分类结果的多种格式的列表;和
依据操作者的操作从所述显示步骤显示的多种格式的列表中选择一种格式,
其中,所述字符串重写步骤包括将所述指定步骤指定的字符串中的以与所述选择步骤选择的格式不同的格式表示的字符串重写为以所选择格式表示的字符串。
14.根据权利要求10所述的文档处理方法,还包括:
将其字符串已经在字符串重写步骤中重写过的文档数据的文件名重写为至少包括所述被重写的字符串的一部分的文件名。
15.根据权利要求10所述的文档处理方法,还包括:
将其字符串已经在所述字符串重写步骤中重写过的文档数据的文件名重写为至少包括一个名称的一部分的文件名,所述名称表示所述被重写的字符串的属性。
16.根据权利要求14所述的文档处理方法,还包括:
使操作者选择是否重写文件名,
其中,所述文件名重写步骤包括在所述重写选择步骤中接收到来自操作者的重写文件名的指令时,对其字符串已经在字符串重写步骤中重写过了的文档数据的文件名进行重写。
17.根据权利要求15所述的文档处理方法,还包括:
使操作者选择是否重写文件名,
其中,所述文件名重写步骤包括在所述重写选择步骤中接收到来自操作者的重写文件名的指令时,对其字符串已经在字符串重写步骤中重写过了的文档数据的文件名进行重写。
18.根据权利要求10所述的文档处理方法,其中所述文档数据是通过对光学读取的文档进行光学字符识别处理而获得的。
19.一种记录程序的计算机可读存储介质,所述程序用于使计算机执行:
从包括在由多个相应的文档数据表示的多个文档中的字符串中指定对于这些文档具有公共属性的字符串;和
将所述指定处理所指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限定格式表示的字符串。
CNB2005100557355A 2004-06-15 2005-03-18 文档处理装置和文档处理方法 Expired - Fee Related CN100378720C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004177447 2004-06-15
JP2004177447A JP2006004005A (ja) 2004-06-15 2004-06-15 文書処理装置、文書処理方法及びプログラム

Publications (2)

Publication Number Publication Date
CN1713171A true CN1713171A (zh) 2005-12-28
CN100378720C CN100378720C (zh) 2008-04-02

Family

ID=35461951

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100557355A Expired - Fee Related CN100378720C (zh) 2004-06-15 2005-03-18 文档处理装置和文档处理方法

Country Status (3)

Country Link
US (1) US7458024B2 (zh)
JP (1) JP2006004005A (zh)
CN (1) CN100378720C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222093A (zh) * 2011-06-09 2011-10-19 中国工程物理研究院计算机应用研究所 一种获取字符串最长公共子串的方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4998220B2 (ja) * 2007-11-09 2012-08-15 富士通株式会社 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
US9165262B2 (en) * 2009-01-29 2015-10-20 International Business Machines Corporation Automatic generation of assent indication in a document approval function for collaborative document editing
JP5992404B2 (ja) 2010-06-15 2016-09-14 トムソン ルーターズ (サイエンティフィック) エルエルシー 参考文献検証のための引用処理、提示および移送用のシステムおよび方法
JP5870783B2 (ja) * 2012-03-15 2016-03-01 コニカミノルタ株式会社 画像形成システム、情報機器、画像形成装置、コンピュータープログラムおよびドキュメントの印刷方法
JP2018136292A (ja) * 2017-06-09 2018-08-30 琉球インタラクティブ株式会社 便状態の特定方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US5671067A (en) * 1994-09-26 1997-09-23 Matsushita Graphic Communication Systems, Inc. Facsimile apparatus for optically recognizing characters and transmitting the recognized characters and communication system for transmitting the recognized characters between a terminal and a center
JPH08339418A (ja) 1995-06-12 1996-12-24 Hitachi Electron Eng Co Ltd Ocr読取りデータの処理方法
JPH1011343A (ja) * 1996-06-19 1998-01-16 Canon Inc 情報処理装置及び方法
US7239406B1 (en) * 1999-09-30 2007-07-03 Ricoh Co., Ltd System for capturing facsimile data in an electronic document management system
EP1156430A2 (en) * 2000-05-17 2001-11-21 Matsushita Electric Industrial Co., Ltd. Information retrieval system
US20050071283A1 (en) * 2000-05-25 2005-03-31 Randle William M. Quality assured secure and coordinated transmission of separate image and data records representing a transaction
US20020103834A1 (en) * 2000-06-27 2002-08-01 Thompson James C. Method and apparatus for analyzing documents in electronic form
US6792145B2 (en) * 2001-04-20 2004-09-14 Robert W. Gay Pattern recognition process for text document interpretation
CN1400517A (zh) * 2001-08-02 2003-03-05 北京汇冠科技有限公司 桌面显示和输入的简洁系统
JP2003157191A (ja) 2001-11-19 2003-05-30 Hidenori Takahashi コンピューターのファイルに関する改ざん防止方法
US20030212688A1 (en) * 2002-05-07 2003-11-13 Kristin Smith Stacking and unstacking documents
CN2577349Y (zh) 2002-06-27 2003-10-01 力捷电脑股份有限公司 读字扫描器
US7069240B2 (en) * 2002-10-21 2006-06-27 Raphael Spero System and method for capture, storage and processing of receipts and related data
US20040103367A1 (en) * 2002-11-26 2004-05-27 Larry Riss Facsimile/machine readable document processing and form generation apparatus and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222093A (zh) * 2011-06-09 2011-10-19 中国工程物理研究院计算机应用研究所 一种获取字符串最长公共子串的方法
CN102222093B (zh) * 2011-06-09 2013-02-27 中国工程物理研究院计算机应用研究所 一种获取字符串最长公共子串的方法

Also Published As

Publication number Publication date
CN100378720C (zh) 2008-04-02
US7458024B2 (en) 2008-11-25
JP2006004005A (ja) 2006-01-05
US20050278628A1 (en) 2005-12-15

Similar Documents

Publication Publication Date Title
CN1249577C (zh) 用于遗留软件与屏幕朗读器程序之间的互操作的方法和装置
CN1120442C (zh) 文件图象处理设备及其方法
CN1215415C (zh) 文件管理方法和存储信息记录重放装置
CN1230730C (zh) 文档处理装置和方法
CN100340985C (zh) 提高计算机软件应用程序粘贴功能的方法和系统
CN1653448A (zh) 搜索数据源的系统和方法
CN1272728C (zh) 信息处理装置、文件处理方法、存储媒体及程序
CN1811771A (zh) 利用文档的物理表现的自适应文档管理系统
CN1167014C (zh) 文件处理方法和数据处理装置
CN1199123C (zh) 信息处理装置、信息处理方法
CN1900933A (zh) 图像搜索系统、图像搜索方法和存储介质
CN1517904A (zh) 墨水划分器及关联的应用编程接口
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1315017A (zh) 包含内部引用的两种版本数据表格之间的差别提取
CN1713171A (zh) 文档处理装置、文档处理方法及记录其程序的存储介质
CN1290901A (zh) 用于提供随机输入源生成的文本的替换方式的方法和系统
CN1838061A (zh) 打印装置,图像处理装置,以及相关控制方法
CN1773508A (zh) 把源文档转换成目标网页文件的方法
CN1186287A (zh) 用于字符识别的方法和装置
CN1527225A (zh) 信息关联性显示方法、程序、存储介质和装置
CN1415096A (zh) 语言翻译系统
CN1748215A (zh) 信息处理设备、和信息处理方法以及计算机程序
CN1185610A (zh) 图象信息检索装置、图象数据库装置、图象信息存储装置
CN1270680A (zh) 一种电脑化的编制报告的方法
CN1106614C (zh) 数据处理设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080402

Termination date: 20180318