CN1312610C - 文档信息处理方法,文档信息处理装置,通信系统和存储器产品 - Google Patents

文档信息处理方法,文档信息处理装置,通信系统和存储器产品 Download PDF

Info

Publication number
CN1312610C
CN1312610C CNB021598444A CN02159844A CN1312610C CN 1312610 C CN1312610 C CN 1312610C CN B021598444 A CNB021598444 A CN B021598444A CN 02159844 A CN02159844 A CN 02159844A CN 1312610 C CN1312610 C CN 1312610C
Authority
CN
China
Prior art keywords
information
document
document information
word
minimizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB021598444A
Other languages
English (en)
Other versions
CN1438589A (zh
Inventor
永田义典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN1438589A publication Critical patent/CN1438589A/zh
Application granted granted Critical
Publication of CN1312610C publication Critical patent/CN1312610C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

在文档信息处理装置中,中间信息含有与文档生成应用程序产生的文档信息相同的字符信息,并用于减少文档信息量,它是根据文档信息产生的。抽取包含在文档信息中或中间信息中的字信息,并通过将抽取的字信息加到。根据需要减少信息量的中间信息上来产生归纳信息。产生的归纳信息不仅具有小的数据量,而且含有所有的字信息,因此能够用于使用字符信息的搜索处理,如全文搜索。

Description

文档信息处理方法,文档信息处理装置, 通信系统和存储器产品
技术领域
本发明涉及处理含有字符信息的文档信息处理方法,采用这个方法的文档信息处理装置,以及使用这个装置的通信系统和存储实现这个装置的计算机程序的存储器产品;特别涉及,产生容易理解大量页数或大量数据等的文档信息的内容的文档信息处理方法,文档信息处理装置,通信系统和存储器产品。
背景技术
市场上提供了生成作为电子信息的文档信息的各种文档生成应用程序(下面称为“文档生成应用程序),并且使用这样的文档生成应用程序,生成了含有,诸如各种格式的字符信息、图像信息和图形信息各种信息的文档信息。随着使用文档生成应用程序生成不断增加的文档信息,需要有效使用和管理生成的文档信息的系统。
例如,日本专利申请未决公开No.8-241306(1996)公开了文档信息处理装置,它生成含有诸如生成日期和文档信息的字符信息的属性信息,并通过使用生成的属性信息管理文档信息。在日本专利申请未决公开No.8-241304(1996)中公开的文档信息处理装置生成的属性信息,不具有对文档生成应用程序的依赖性,因为属性信息含有字符信息提供了一种诸如关键字的搜索的处理,因此,它具有提高管理文档信息的效率的效果。
但是,因为在上述专利申请No.8-241306(1996)中公开的文档信息处理装置生成的属性信息倾向于保持在原始文档信息中含有的诸如格式的所有的信息,所以问题是,数据量大。在属性信息的数据量大时,因为必须抛弃对应于文档信息后面页数的信息,在抛弃页中的字符信息也将被删除,结果问题是,使用字符信息的搜索处理,如全文搜索,不能实行。
发明内容
本发明的目标在于解决上述问题,本发明的目的在于提供一种文档信息处理方法,它产生含有与原始文档信息中的相同字符信息的中间信息,从文档信息或中间信息抽取字信息,通过将抽取的字信息加到中间信息上产生归纳信息,并且特别是,当中间信息的数据量大于预先设定的预定值时,从中间信息中减少诸如颜色数目、字体和格式等信息,以致通过将字信息加到中间信息获得的归纳信息不仅具有小的数据量,而且含有所有的字信息,并且能够使用字符信息进行搜索处理,诸如全文搜索,从而能够有效地使用和管理文档信息。并且本发明提供采用所述方法的文档信息处理装置,和使用所述装置的通信系统以及存储实现所述装置的计算机程序的存储器产品。
根据第一方面的文档处理方法是文档信息处理方法,用于处理含有字符信息的文档信息,根据文档信息,产生含有与文档信息相同的字符信息的中间信息,该中间信息不依赖于在其产生中所用的文档生成应用程序,从文档信息或中间信息抽取代表字的字信息,并将抽取的字信息加到中间信息上产生归纳信息。在第一方面的文档信息处理方法中,由于通过将字信息加到数据量小的中间信息上产生归纳信息,产生的归纳信息不仅具有小的数据量,而且含有所有字信息,因此,归纳信息能够用于使用字符信息的搜索处理,如全文搜索。因此,能够有效地使用和管理归纳信息源的文档信息。
根据本发明第二方面的文档信息处理装置是这样的文档信息处理装置,用于处理含有字符信息的文档信息,并且包括:产生中间信息的装置,它根据文档信息,产生含有与文档信息相同的字符信息的中间信息;抽取字信息的装置,它从包含在文档信息,或产生的中间信息中的字符信息中,抽取代表字的字信息;以及产生归纳信息的装置,它通过将抽取的字信息加到中间信息上产生归纳信息。在第二方面的文档信息处理装置中,因为归纳信息是通过将字信息加到中间信息上产生的,产生的归纳信息含有所有的字信息,并因此所述归纳信息能够用于使用字符信息的搜索处理,如全文搜索。因此,能够有效地使用和管理归纳信息源的文档信息。
根据第三方面的文档信息处理装置是基于第二方面,并包括:测量装置,它测量中间信息量;比较装置,它将测量的中间信息量与预先设定的预定值比较;和减少装置,当判断中间信息量大于预定值时,它将中间数据量减少。因为包含在诸如中间信息的数据量大于预定值时,减少在中间信息中含有的信息,所以能够防止归纳信息数据量的增加。
在第四方面的文档信息处理装置中,在第三方面的减少装置包括,删除部分中间信息的减少装置。因为部分中间信息被删除,所以能够减小归纳信息的数据量。
在第五方面的文档信息处理装置中,通过留下文档的引导部分的顶部作为中间信息,在第四方面的部分中间信息是关于,中间信息示出的文档的后面页的信息,并且能够从显示中间信息的部分归纳信息有效地确认文档信息的内容。
在第六方面的文档信息处理装置中,第三到第五方面任何一个的减少装置包括转换颜色信息的减少方法。通过减少关于颜色的信息,诸如色数和色调,例如,将24位彩色图像转换成灰度级图像,能够减小归纳信息的数据量。
在第七方面的文档信息处理装置中,第三到第六方面的任何一个分减少装置包括转换关于字符信息的字体信息的减少方法。通过减少与诸如Mincho和Gothic(黑体)字体的信息,能够减小归纳信息的数据量。
在第八方面的文档信息处理装置中,第三到第七方面的任何一个的减少装置包括转换文档的格式信息的减少方法。通过减少例于线数目,图形和边缘数目的格式信息,能够减小归纳信息的数据量。
在第九方面的文档信息处理装置中,所述装置基于第三到第八方面的任何一个,其中文档信息含有关于图形的信息,并且所述减少装置包括转换关于图形信息的减少方法。通过减少关于图形的信息,特别是线图的线宽度和线类型,能够减小归纳信息的数据量。
在第十方面的文档信息处理装置中,在第三到第九方面任何一个的减少装置包括步骤:通过第一减少方法,减少中间信息的数据量;将在减少后的中间信息的量与预定值比较;当通过比较判断中间信息的量大于预定值时,用与第一减少方法不同的第二减少方法进一步减少中间信息的量。在文档信息处理装置包括多个减少方法时,顺序执行各减少方法,因此能够防止归纳信息的数据量的增加。
根据第十一方面的文档信息处理装置,还包括接受装置,它接受第十方面的各减少方法的优先级;并且减少装置根据接受的优先级减少中间信息的量。通过设定执行多个减少方法的执行顺序,并根据需要限制执行特定的减少方法,能够根据用户的使用情况产生归纳信息。
第十二方面的文档信息处理装置基于第二到第十一方面的任何一个,并包括:产生装置,它通过不可逆压缩文档信息产生图像信息;比较装置,它将产生的图像信息量与中间信息量比较;和代替装置,在比较判断图像信息量小于中间信息量时,将图像信息作为新的中间信息。通过基于文档信息,产生显示大小减小的,和如JPEG和GIF等格式中不可逆压缩的诸如缩略图(thumbnail)等的图像信息,并在产生的图像信息数据量小于中间信息的数据量时,用所述图像信息作为中间信息,并能够减少归纳信息。
第十三方面的文档信息处理装置是这样的,它处理含有字符信息的文档信息,并包括:产生装置,它通过不可逆压缩文档信息产生图像信息;抽取装置,它从在文档信息中含有的字符信息抽取代表字的字信息;和产生装置,它通过将抽取的字信息加到产生的图像信息,产生归纳信息。在第十三方面的文档信息处理装置中,因为基于文档信息产生在显示大小减小的和如JPEG和GIF等格式中不可逆压缩的诸如缩略图等的图像信息,并且通过将字信息加到产生的图像信息产生归纳信息,所以,产生的归纳信息不仅基于小的数据量,而且含有所有的字信息,因此,归纳信息能够用于使用字符信息的搜索处理,如全文搜索。因此,能够有效地使用和管理归纳信息源的文档信息。
根据第十四方面的文档信息处理装置,在第二到第十三方面的任何一个的抽取装置通过词态分析抽取的独立的字,作为字符信息的字信息。通过用词态分析抽取的字信息,能够抽取相对于语言中生成的文档信息的有效搜索中使用的字信息。
根据第十五方面的文档信息处理装置以第二到第十四任何一个方面为基础,并包括可逆压缩装置,它可逆压缩产生的归纳信息。通过进行在诸如ZIP,LZH和CAB中的可逆压缩格式,能够减小归纳信息的数据量。
根据第十六方面的通信系统,包括:第二到第十五示意的任何一个方面的文档信息处理装置;通信装置,用于与所述文档信息处理装置通信;和记录装置,用于与所述文档信息处理装置和通信装置通信,其中文档信息处理装置包括:在所述记录装置中记录文档信息的装置;和向通信装置传输指定记录文档信息的位置的指示信息和归纳信息的装置。在第十六方面的通信系统中,通过用服务器计算机在记录装置中记录原始文档信息和用客户计算机向通信装置传输归纳信息,操作通信装置的操作员能够确认归纳信息,并在判断文档信息是需要的时,从记录装置排序(order)文档信息,从而能够减少在通信装置中的通信负荷和容量负荷。特别是,通过同时向多个通信装置传输归纳信息,通信负荷的减少是有效的。
根据第十七方面的计算机可读存储器产品是,存储使得计算机处理含有字符信息的文档信息的计算机程序的,计算机可读存储器产品,其中存储器产品存储计算机程序,所述计算机程序包括步骤:使得计算机根据文档信息,产生含有与文档信息相同字符信息的中间信息;使得计算机从文档信息或中间信息抽取代表字的字信息;和使得计算机通过将抽取的字加到中间信息产生归纳信息。用第十七方面的存储器产品,通过诸如通用的客户计算机等的计算机执行存储的计算机程序,计算机起文档信息处理装置的作用。因此,通过将字信息加到中间信息产生的归纳信息,产生的归纳信息含有所有字信息,因此它能够用于用字符信息的搜索处理,如全文搜索。因此,能够有效地使用和管理归纳信息源的文档信息。
根据本发明的另一方面,一种处理含有字符信息的文档信息的文档信息处理方法,包括:第四产生步骤,通过不可逆压缩文档信息产生图像信息;第二抽取步骤,从包含在文档信息中的字符信息抽取代表字的字信息;和第五产生步骤,通过将抽取的字信息加到产生的图像信息来产生归纳信息。
根据本发明的另一方面,一种用于通信系统的通信方法,该系统包括:文档信息处理装置,用于与所述文档信息处理装置通信的通信装置,和用于与所述文档信息处理装置和通信装置通信的记录装置,其中所述文档信息处理装置包括记录设备和传输设备,所述通信方法包括:根据文档信息产生含有与文档信息相同的字符信息的中间信息,该中间信息不依赖于在其产生中所用的文档生成应用程序;从包含在文档信息或产生的中间信息中的字符信息抽取代表字的字信息;通过将抽取的字信息加到中间信息上产生归纳信息;在所述记录装置中记录文档信息;和向所述通信装置传输指定其记录文档信息位置的指示信息和归纳信息。
根据本发明的另一方面,一种用于通信系统的通信方法,该通信系统包括:文档信息处理装置,用于与所述文档信息处理装置通信的通信装置,和用于与所述文档信息处理装置和通信装置通信的记录装置,其中所述文档信息处理装置包括记录设备和传输设备,该通信方法包括:通过不可逆压缩文档信息产生图像信息;从包含在文档信息中的字符信息抽取代表字的字信息;通过将抽取的字信息加到产生的图像信息来产生归纳信息;在所述记录装置中记录文档信息;和向所述通信装置传输指定记录文档信息位置的指示信息和归纳信息。
通过下面的参照附图的详细说明,将会明了本发明的上述和其他目的和特征。
附图说明
图1是本发明文档信息处理装置的结构方框图;
图2是本发明文档信息处理装置的归纳信息产生过程的流程图;
图3是本发明文档信息处理装置产生的中间信息的结构原理图;
图4是本发明文档信息处理装置输出的图像的示意图;
图5是本发明文档信息处理装置的归纳信息产生过程流程图;
图6是本发明文档信息处理装置的归纳信息产生过程的流程图;
图7是本发明文档信息处理装置的归纳信息产生过程的流程图;
图8是本发明文档信息处理装置产生的归纳信息的结构原理图;
图9是基于本发明文档信息处理装置的图像信息的归纳信息产生过程流程图;
图10本发明第一实施例的通信系统的原理图;
图11是本发明第一实施例的通信系统的结构方框图;
图12是在本发明第一实施例的通信系统中使用的文档信息处理装置、记录装置和通信装置的文档信息记录过程流程图;
图13是在本发明第一实施例的通信系统中使用的记录装置和通信装置的文档信息处理过程流程图;
图14是本发明第一实施例的通信系统中使用的通信装置输出的图像的示意图;
图15是本发明第一实施例的通信系统中使用的通信装置输出的图像的示意图;
图16是本发明第一实施例的图像系统中使用的通信装置输出的图像的示意图;和
图17是本发明第二实施例的通信系统的原理图。
具体实施方式
下面根据本发明实施例的附图详细说明本发明。
图1是本发明文档信息处理装置的结构方框图。在图1中,数字10表示使用客户计算机的本发明文档信息处理装置。文档信息处理装置10连接到如互联网(LAN)等的网络NW。文档信息处理装置10包括:辅助存储器设备12,它从记录计算机程序PG和数据等各种信息的CD-ROM驱动器的存储器产品REC读出各种记录的信息;和记录设备13,诸如硬盘,它记录从辅助存储器设备12读出的各种信息。通过从记录设备13读出诸如计算机程序PG和数据的各种信息,在暂时存储信息的RAM14中存储信息,并通过CPU11执行所述信息,客户计算机起本发明的文档信息处理装置10的作用。
另外,文档信息处理装置10包括诸如鼠标和键盘等的收入设备15;诸如监视器和打印机等的输出设备16;以及诸如LAN板等的通信设备17。而且,记录设备13不仅存储本发明的计算机程序PG,而且也存储各种计算机程序,如生成电子文档的文档生成应用程序、和如后面说明的文档信息转换所需的虚拟打印机驱动器。
接下来,下面的说明将解释通过本发明的文档信息处理装置10产生的归纳信息。基于使用文档生成应用程序生成的电子文档,本发明的文档信息处理装置10具有通过下面说明的方法产生归纳信息的功能,所述归纳信息使得能够理解文档的概要和能够用于使用字符信息进行搜索处理,如全文搜索。
图2是本发明的文档信息处理装置10的归纳信息产生过程流程图。在文档信息处理装置10中,基于如上所述的文档生成应用程序生成的文档信息,产生含有与文档信息相同的字符信息并且用于减少文档信息数据量的中间信息(S101)。应注意,中间信息根据需要减少了信息数据量。而且,抽取在文档信息中含有的字信息(S102),通过将抽取的字信息加到根据需要减少信息量的中间信息上产生归纳信息(S103)。
在步骤S101中产生的中间信息是这样的信息,它包括:构建文档信息的内容,并与使用的文档生成应用程序无关。在日本专利公报No.8-241306(1996)中公开的属性信息等的信息与这样的中间信息相对应。换句话说,存在着各种文档生成应用程序,作为用一种文档生成应用程序生成的电子文档的文档信息,极大地依赖于生成所述文档所用的这种文档生成应用程序,并且常常不能够由其他种的文档生成应用程序输出。因此,在此执行一种处理,根据用一种文档生成应用程序生成的电子文档的文档信息,产生中间信息,所述中间信息不依赖与特定的文档生成应用程序,并且能够由其他种文档生成应用程序输出。在信息要从打印机的输出设备16输出的情况下,作为产生不依赖特定文档生成应用程序的中间信息的一种方法,存在的方法是使用这样的功能,即,将文档信息转换成能够从输出设备16输出的格式。
图3是本发明文档信息处理装置10的产生的中间信息的结构原理图。如图3所示的基于文档信息产生的中间信息由代表页数M的信息,和示出从页1到页M的每个页的内容的每页的信息组成。作为显示每页内容的信息示出的是:指示对象数目N的信息,所述对象诸如是构成每页文档的元素的字符串、线图和图像;和信息,诸如每个对象的类型、位置和固有(inherent)信息和指示所述对象内容的数据。作为固有信息,例如,当对象是线图时,示出诸如线宽度的和线类型的信息。
在使用将文档转换成能够从输出设备16输出的格式的功能,产生图3所示的结构的中间信息的情况中,作为操作文档信息处理装置10的一个方法,进行向设定为接口的虚拟打印机输出,在记录设备13中记录的虚拟打印机驱动器的操作,然后文档信息处理装置10接受所述操作,根据虚拟打印机驱动器的各项处理,产生基于文档信息的中间信息。
应注意,通过虚拟打印机驱动器,假设虚拟打印机进行的转换方法仅是一个例子,和也能够通过其他方法进行所述转换。但是,不依赖于特定的文档生成应用程序的中间信息的产生的用途是,产生不依赖特定文档生成应用程序的归纳信息。因此,如果对特定文档生成应用程序的高度依赖性是可接受的,具体地说,仅在使用特定文档生成应用程序的状态下,如产生仅在特定文档信息处理装置10上使用的归纳信息的情况,和使用标准化的文档生成应用程序的情况,则能够产生作为暂时信息(暂存文件)的,具有与文档信息相同的内容的中间信息,并用这个信息,作为基于文档信息的中间信息。
接下来,详细说明本发明文档信息处理装置10的归纳信息产生过程。希望通过操作文档信息处理装置10产生基于文档信息的归纳信息的操作员,选择减少中间信息数据量的减少方法,并输入选择的各减少方法的优先级。
图4是本发明文档信息处理装置10的输出的图像示意图。图4中示出选择减少方法和指定优先级的图像。通过从在左窗口示出的减少方法表中选择希望的减少方法,单击表示附加的箭头,减少方法被选择,它向右窗口移动,成为采用的减少方法。另一方面,在删除选择的减少方法时,希望被删除的减少方法从在右窗口示出的采用的减少方法的表中被选择,并单击表示删除的箭头,使得选择的减少方法被移动到左窗口。在右窗口中示出的采用的减少方法的表中,减少方法被顺序地列在,从最高优先级的减少方法到最低优先级的减少方法的降低顺序中,并且能够通过单击表示“提升优先级”的箭头或表示“降低优先级”的箭头,改变所述优先级。然后,通过单击用OK指示的区段(section),文档信息处理装置10完成减少方法选择和指定优先级,并开始产生归纳信息。
应注意,在下面的说明中,颜色信息的减少,字体信息的减少,格式信息的减少和图形信息的减少被选择作为减少的方法,对于颜色信息的减少,字体信息的减少和格式信息的减少和图形信息的减少,依这个次序指定优先级,使得颜色信息的减少有最高优先。但是,本发明的文档信息处理装置10的减少方法不一定被限制在上述方法中,并且也不必选择所有的减少方法。
图5到图7是本发明的文档信息处理装置10的归纳信息产生过程的流程图。文档信息处理装置10接受各选择减少方法和指定优先级的输入(S201),根据文档信息产生含有与文档信息中相同字符信息的中间信息(S202),从文档信息或在步骤S202(S203)产生的中间信息抽取字符信息,并通过词态分析,从抽取的字符信息抽取独立地字作为字信息(S204)。通过这个词态分析,带有共轭形式的字,如动词,被转换成它们的基本形。
当在步骤S203中抽取字符信息作为源信息时,基本使用文档信息。但是,也能够把含有与文档信息相同字符信息的在步骤S202产生中间信息当作文档信息,并从中间信息抽取字符信息。但是,如后面所说明的,因为在信息减少后的中间信息不一定含有与文档信息相同的字符信息,所以必须在信息减少前从中间信息抽取字符信息。
然后,产生的中间信息量,如页数是和数据量,与预先设定的预定值比较(S205)。在通过步骤S205比较判断这个量大于预定值时(S206YES),通过第一优先级的减少方法减少中间信息量,在此是诸如色数和色调之类的关于颜色的信息的转换,例如将24位颜色图像转换成灰度级图形的减少方法(S207),并且在信息量减少后的中间信息量与预定的值比较(S208)。
当在步骤S208通过比较判断中间信息量是大于预定值值时(S209:YES),根据指定的优先级,在步骤S207被减少信息量的中间信息量进一步通过第二优先级的减少方法减少,在此,转换关于诸如Mincho和Gothic型字体的信息的减少方法,然后在信息量减少后的中间信息量的减少方法是与预定值比较(S211)。
在通过步骤S211的比较,判断中间信息量是大于预定值时(S212YES),根据指定的优先级,在步骤S210中被减少信息量的中间信息量进一步被第三优先级的减少方法减少,在此转换诸如线数目、图形和边缘数目格式的信息的减少方法(S213),以及在减少信息量后的中间信息量的减少方法是与预定值比较(S214)。
在步骤S214的比较,判断中间信息量大于预定值时(S215:YES),根据指定的优先级,在步骤S213减少信息量的中间信息量被第四优先级的减少方法进一步减少,在此转换图形、特定地线宽度和线类型的信息的减少方法,以及在减少信息量后的中间信息量的减少方法是与预定值比较(S217)。应注意,此时,虽然关于在文档中的隔线(rules)和图形的线宽度和线类型的信息也被减少,但是在关于格式信息中也能够包括隔线(rules)的线宽度和线类型信息,并且排列将被另一处理删除的图形。
通过步骤S217的比较,判断中间信息量大于预定值时(S28:YES),在步骤S216被减少信息量的中间信息量进一步被减少,其减少方法是,删除中间信息所表示的文档的一部分的后面页的信息(S219),并然后在记录设备13或RAM14中暂时记录所述中间信息(S220)。执行在步骤S219中删除后面页的信息的处理,即使是预先没有选择这个处理。但是,相反,即使中间信息的最后量超过预定值,通过设定不进行减少关于前面页的信息,也能够不进行步骤S219的处理。
通过步骤S205的比较步骤,判断中间信息量小于预定值时(S206:NO),通过步骤S208的比较步骤,判断中间信息量小于预定值时(S209:NO),通过步骤S211的比较步骤,判断中间信息量小于预定值时(S212:NO),通过步骤S214的比较步骤,判断中间信息量小于预定值时(S215:NO),或通过步骤S217的比较步骤,判断中间信息量小于预定值时(S218:NO),中间信息被暂时记录,而不进行随后的减少处理(S220)。
然后,根据文档信息,产生在显示尺寸上减少和在格式JPEG和GIF中不可逆压缩的图像信息,诸如略图(thumbnail)图像的图像信息(S221),将产生的图像信息量和在步骤S220中记录的中间信息量比较。应注意,也可能基于在步骤S202中产生的中间信息产生图像信息,而不是基于文档信息产生所述图像信息,并且将产生的信息用于量比较。
通过在步骤S222的比较,判断图像信息量是小于中间信息量时(S223:YES),将图像信息替换为新的中间信息(S224),并且暂时记录所述图像信息。应注意,在步骤S222的比较判断图像信息量大于中间信息量时(S223:NO),则不进行中间信息的替换。然后,将在步骤S204的抽取的字信息加到暂时存储的中间信息上,以产生归纳信息(S225)。这样一来,就产生归纳信息。
图8是本发明文档信息处理装置10产生的归纳信息结构原理图。归纳信息含有表示从文档信息抽取的字数目M和从字1到字M的各字的信息而作为字信息,并且还含有根据需要被减少信息量的中间信息。应注意,产生的归纳信息是以诸如ZIP、LZH和CAB格式被可逆地压缩,以便进一步减少数据量(S226)。
在上述方式中,虽然说明的方式是,使用包括文档信息的诸如颜色、字体、格式和图形之类的各种对象的中间信息,但是本发明不限于这种方式,并可以用于这样的方式,其中根据从文档信息产生的诸如略图图像的图像信息产生归纳信息,不进行相对于各对象的减少处理。
接下来,下面说明将解释在相对于各种对象不进行减少处理的情况下,产生归纳信息的处理。图9是本发明文档信息处理装置10的,基于图像信息的归纳信息产生过程的流程图。
在文档信息处理装置10中,根据文档信息产生诸如略图图像的图像信息(S301)。而且,从文档信息抽取字符信息(S302),以及通过词态分析从抽取的字符信息抽取作为字信息的独立的字(S303)。随后,将抽取的字信息加到在步骤S301产生的图像信息上,产生归纳信息(S304),并进一步可逆压缩归纳信息(S305)。应注意,也能够不是基于文档信息产生图像信息,而通过与归纳信息产生处理的步骤S202相同的处理产生中间信息,并基于产生的中间信息产生图像信息。
接下来,说明使用本发明文档信息处理装置10的通信系统的一些
实施例。
第一实施例
图10是本发明第一实施例的通信系统的原理图。将文档信息处理装置10连接到网络NW,例如公司的局域网(LAN)。连接到网络NW的是用作服务器计算机的记录装置20和各个用作客户计算机的通信装置30。
图11是本发明第一实施例通信系统的结构方框图。因为文档信息处理装置10的结构与使用图1说明的结构相同,所以通过参考图1和那个结构的扩展省略它的说明。记录装置20包括CPU21;记录设备22;RAM23;和通信设备24。通信装置30包括CPU31;记录设备32;RAM33;输入设备34;输出设备35;和通信设备36。
接下来,参照图12的流程图,说明在本发明第一实施例的通信系统中使用的文档信息处理装置10、记录装置20和通信装置30的文档信息记录处理。
在文档信息处理装置10中,基于用文档生成应用程序生成的文档信息产生归纳信息(S401)。然后,通过指定记录位置,将文档信息传输到记录装置20,以便在记录装置20的预定记录位置中记录文档信息(S402),并且通过诸如电子邮件的通信方法,指示记录位置的诸如网络路径的指示信息,并将归纳信息同时传输到多个通信装置30(S403)。
在记录装置20中,接收文档信息(S404),并且将接收的文档信息记录在指定的记录位置(S405)。同时,在每个通信装置30中接收指示信息和归纳信息(S406),并且将接收的指示信息和归纳信息在记录设备32中记录(S407),并从输出设备35(S408)输出。在归纳信息以格式例如ZIP,LZH和CAB进行可逆压缩的情况下,在输出时将归纳信息展开。操作通信装置的操作员能够通过确认输出的归纳信息理解文档信息的内容,并且也能够使用归纳信息进行在文档信息上的全文搜索。
接下来,见图13的流程图,下面说明本发明第一实施例的通信系统中使用的记录装置20和通信装置30的文档信息请求处理。
在操作通信装置30的操作员想要请求与输出的归纳信息相对应的文档信息时,操作员访问由指示信息指定的记录装置20的记录位置(S501)。记录装置20接受访问(S502),并向通信装置30传输在在指定的记录位置中记录的文档信息(S503)。通信装置30接收文档信息(S504),记录接收的文档信息(S505),并且也从输出设备35输出文档信息(S506)。应注意,根据需要,在记录装置20中记录并向通信装置30传输的信息,能够使用中间信息来代替文档信息。
接下来,下面参照图14到图16说明,在本发明第一实施例的通信系统中使用的通信装置30的工作,图14—图16示出从通信装置30输出的图像。
图14示出一种状态,其中将在记录设备32中记录的归纳信息输出,并且指示,包括未示出的归纳信息的多件归纳信息被记录在通信装置30中。图15示出一种状态,其中字“specification”作为全文搜索的关键字被输入并将执行搜索的结果输出,因此能够确认抽取了具有含字“specification”的字信息的两件归纳信息。
通过一个输入,指定在左侧示出的代表归纳信息的图像,在归纳信息中含有的中间信息在以放大方式被显示,因此能够确认被显示的中间信息。此外,通过一个输入。指定在右侧显示的指定信息(网络路径),能够访问由指示信息指定的记录装置20的记录位置。另外,图16示出的状态是,从记录装置20接收的文档信息被输出。
第二实施例
图17是本发明第二实施例的通信系统原理图。第二实施例是,使用诸如PDA(个人数字助理)和移动电话等移动通信终端装置40,代替第一实施例的通信装置30,另外将用作客户计算机的接收装置50连接到网络。由于从文档信息处理装置10向记录装置20传输文档信息,和向代替通信装置30的移动通信终端装置40传输归纳信息的文档信息记录处理,因此该处理与第一实施例的处理相似。
但是,从移动通信终端装置40访问记录装置20,请求文档信息传输的文档信息请求处理没有进行,并且从移动通信终端装置40进行向记录装置20传输诸如接收装置50的网络路径等目的地信息的传送请求,然后记录装置20向由目的地信息指定的接收装置50传送文档信息。因此,在接收装置50中,它能够确认文档信息。
虽然第一实施例和第二实施例说明了从文档信息处理装置10向通信装置30或移动通信终端装置40通过电子邮件传输归纳信息的例子,但是也能够以这种方式实现,其中,在诸如CD-ROM、柔性光盘和存储卡等存储器产品上记录归纳信息,并通过通信装置30或移动通信终端装置40读出记录在存储器产品上的归纳信息,而不是通过网络NW的在线通信。另外,网络NW不限于LAN等内部网络,也可以是因特网等的外部网络。
虽然上述说明的方式是,在中间信息量大时,进行信息量的减少,但是本发明没有必要限定于这种方式,也可以在不比较中间信息量的情况下减少信息量。
如上所述,根据本发明,产生含有与原始文档信息相同字符的中间信息,从文档信息或中间信息抽取字信息,通过将抽取的字信息加到中间信息上产生归纳信息,并且特别是,在中间信息量大于预先设定的预定值时,从中间信息减少诸如色数、字体和格式等信息,使得通过将字信息加到中间信息获得的归纳信息不仅具有小的数据量,而且含有所有字信息,因此能够用于使用字符信息的搜索处理,诸如全文搜索。因此,能够提供有益效果,例如能够有效使用和管理文档信息等。
而且,根据本发明,因为对于多个减少方法能够指定要采用的方法和优先级,所以,能够提供重要效果,诸如根据使用者的使用情况产生归纳信息。
另外,根据本发明,通过根据文档信息产生图像信息,如在显示尺寸中减小以格式JPEG和GIF格式中不可逆压缩的图像信息的略图图像,并且通过将字信息加到产生的图像信信息上产生归纳信息,所以,产生的归纳信息不仅具有小的数据量,而且含有所有字信息,因此能够用于使用字符信息的搜索处理,如全文搜索。因此,能够通过重要的效果,诸如能够有效地使用和管理归纳信息源的文档信息。
因为不偏离本发明的本质特征可以以各种形式实施本发明,因此,上述实施例仅是说明而不是限定,由于本发明的范围由权利要求限定,而不是由前述的说明来定义。在权利要求内的所有改变属于本发明。

Claims (18)

1.一种处理含有字符信息的文档信息的文档信息处理方法,包括:
第一产生步骤,根据文档信息产生含有与文档信息相同的字符信息的中间信息,该中间信息不依赖于在其产生中所用的文档生成应用程序;
第一抽取步骤,从包含在文档信息或产生的中间信息中的字符信息抽取代表字的字信息;和
第二产生步骤,通过将抽取的字信息加到中间信息上产生归纳信息。
2.如权利要求1所述的文档信息处理方法,进一步包括:
数据量测量步骤,测量中间信息的数据量;
第一比较步骤,比较测量的中间信息的数据量与预先设定的预定值;和
减少步骤,在判断中间信息的数据量大于预定值时,减少中间信息的数据量。
3.如权利要求2所述的文档信息处理方法,其中所述减少步骤执行删除部分中间信息的减少方法。
4.如权利要求3所述的文档信息处理方法,其中所述部分中间信息是关于由中间信息表示的文档的最后页的信息。
5.如权利要求2所述的文档信息处理方法,其中所述减少步骤执行转换关于颜色信息的减少方法。
6.如权利要求2所述的文档信息处理方法,其中所述减少步骤执行转换关于字符信息的字体信息的减少方法。
7.如权利要求2所述的文档信息处理方法,其中所述减少步骤执行转换关于文档格式的信息的减少方法。
8.如权利要求2所述的文档信息处理方法,其中文档信息含有关于图形的信息,和
所述减少步骤执行转换关于图形信息的减少方法。
9.如权利要求2所述的文档信息处理方法,其中所述减少步骤执行的步骤包括:
通过第一减少方法,减少中间信息的数据量;
将减少后的中间信息的数据量与预定值比较;
在通过比较判断中间信息的数据量大于预定值时,用与第一减少方法不同的第二减少方法进一步减少中间信息的数据量。
10.如权利要求9所述的文档信息处理方法,其中进一步包括接受减少方法的优先级的接收步骤,
其中所述减少步骤根据接受的优先级减少中间信息的数据量。
11.如权利要求1所述的文档信息处理方法,进一步包括:
第三产生步骤,通过不可逆压缩文档信息产生图像信息;
第二比较步骤,将产生的图像信息的数据量与中间信息的数据量比较;和
替换步骤,通过比较判断图像信息的数据量小于中间信息的数据量时,将图像信息替换为中间信息。
12.如权利要求1所述的文档信息处理方法,其中所述第一抽取步骤通过词态分析从字符信息抽取独立的字,作为字信息。
13.如权利要求1所述的文档信息处理方法,其中进一步包括压缩步骤,用于可逆地压缩产生的归纳信息。
14.一种处理含有字符信息的文档信息的文档信息处理方法,包括:
第四产生步骤,通过不可逆压缩文档信息产生图像信息;
第二抽取步骤,从包含在文档信息中的字符信息抽取代表字的字信息;和
第五产生步骤,通过将抽取的字信息加到产生的图像信息来产生归纳信息。
15.如权利要求14所述的文档信息处理方法,其中所述第二抽取步骤通过词态分析从字符信息抽取独立的字,作为字信息。
16.如权利要求14所述的文档信息处理方法,其中进一步包括压缩步骤,用于可逆地压缩产生的归纳信息。
17.一种用于通信系统的通信方法,该系统包括:文档信息处理装置,用于与所述文档信息处理装置通信的通信装置,和用于与所述文档信息处理装置和通信装置通信的记录装置,其中所述文档信息处理装置包括记录设备和传输设备,所述通信方法包括:
根据文档信息产生含有与文档信息相同的字符信息的中间信息,该中间信息不依赖于在其产生中所用的文档生成应用程序;
从包含在文档信息或产生的中间信息中的字符信息抽取代表字的字信息;
通过将抽取的字信息加到中间信息上产生归纳信息;
在所述记录装置中记录文档信息;和
向所述通信装置传输指定其记录文档信息位置的指示信息和归纳信息。
18.一种用于通信系统的通信方法,该通信系统包括:文档信息处理装置,用于与所述文档信息处理装置通信的通信装置,和用于与所述文档信息处理装置和通信装置通信的记录装置,其中所述文档信息处理装置包括记录设备和传输设备,该通信方法包括:
通过不可逆压缩文档信息产生图像信息;
从包含在文档信息中的字符信息抽取代表字的字信息;
通过将抽取的字信息加到产生的图像信息来产生归纳信息;
在所述记录装置中记录文档信息;和
向所述通信装置传输指定记录文档信息位置的指示信息和归纳信息。
CNB021598444A 2001-12-27 2002-12-27 文档信息处理方法,文档信息处理装置,通信系统和存储器产品 Expired - Fee Related CN1312610C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001398405A JP2003196270A (ja) 2001-12-27 2001-12-27 文書情報処理方法、文書情報処理装置、通信システム、コンピュータプログラム、及び記録媒体
JP398405/2001 2001-12-27

Publications (2)

Publication Number Publication Date
CN1438589A CN1438589A (zh) 2003-08-27
CN1312610C true CN1312610C (zh) 2007-04-25

Family

ID=19189346

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021598444A Expired - Fee Related CN1312610C (zh) 2001-12-27 2002-12-27 文档信息处理方法,文档信息处理装置,通信系统和存储器产品

Country Status (3)

Country Link
US (1) US20030126553A1 (zh)
JP (1) JP2003196270A (zh)
CN (1) CN1312610C (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4135659B2 (ja) * 2004-03-09 2008-08-20 コニカミノルタビジネステクノロジーズ株式会社 フォーマット変換装置およびファイル検索装置
EP1603072A1 (de) * 2004-06-02 2005-12-07 CCS Content Conversion Specialists GmbH Verfahren und Einrichtung zur Strukturanalyse eines Dokuments
JP4491777B2 (ja) 2004-06-04 2010-06-30 富士ゼロックス株式会社 画像表示装置、画像表示方法及びそのプログラム
JP4160548B2 (ja) * 2004-09-29 2008-10-01 株式会社東芝 文書要約作成システム、方法、及びプログラム
US7685136B2 (en) * 2005-01-12 2010-03-23 International Business Machines Corporation Method, system and program product for managing document summary information
JP2010140459A (ja) * 2008-02-22 2010-06-24 Ricoh Co Ltd プログラムと印刷データ変換装置とコンピュータ読み取り可能な記録媒体
JP2010224358A (ja) * 2009-03-25 2010-10-07 Konica Minolta Holdings Inc 情報表示装置
JP2010244388A (ja) * 2009-04-08 2010-10-28 Pioneer Electronic Corp 情報提供装置、情報提供方法、及び情報提供用プログラム
JP2014036691A (ja) * 2012-08-10 2014-02-27 Hoya Corp 内視鏡装置
JP2014117890A (ja) * 2012-12-18 2014-06-30 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241306A (ja) * 1994-11-01 1996-09-17 Fuji Xerox Co Ltd 文書処理装置
CN1206883A (zh) * 1997-07-01 1999-02-03 株式会社日立制作所 结构化文档检索显示方法和装置
CN1247348A (zh) * 1998-07-27 2000-03-15 夏普株式会社 数据处理装置和包含有控制该数据处理装置程序的记录媒体
WO2000077677A2 (en) * 1999-06-15 2000-12-21 Koninklijke Philips Electronics N.V. Invisible encoding of attribute data in character based documents and files
US6182090B1 (en) * 1995-04-28 2001-01-30 Ricoh Company, Ltd. Method and apparatus for pointing to documents electronically using features extracted from a scanned icon representing a destination
CN1326290A (zh) * 2000-05-31 2001-12-12 网信有限公司 用于在便携式终端中发送与接收文本数据的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
JPH08204967A (ja) * 1995-01-20 1996-08-09 Nec Corp データ符号化装置
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
JP3612125B2 (ja) * 1995-12-14 2005-01-19 株式会社東芝 情報フィルタリング方法および情報フィルタリング装置
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP3001047B2 (ja) * 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US6857102B1 (en) * 1998-04-07 2005-02-15 Fuji Xerox Co., Ltd. Document re-authoring systems and methods for providing device-independent access to the world wide web
US6336124B1 (en) * 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
JP2001051997A (ja) * 1999-08-11 2001-02-23 Sony Corp 文書データ作成装置、文書データ作成方法、及び記録媒体
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US6934909B2 (en) * 2000-12-20 2005-08-23 Adobe Systems Incorporated Identifying logical elements by modifying a source document using marker attribute values
US20030229850A1 (en) * 2002-06-07 2003-12-11 Calvin Lue Web browser

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241306A (ja) * 1994-11-01 1996-09-17 Fuji Xerox Co Ltd 文書処理装置
US6182090B1 (en) * 1995-04-28 2001-01-30 Ricoh Company, Ltd. Method and apparatus for pointing to documents electronically using features extracted from a scanned icon representing a destination
CN1206883A (zh) * 1997-07-01 1999-02-03 株式会社日立制作所 结构化文档检索显示方法和装置
CN1247348A (zh) * 1998-07-27 2000-03-15 夏普株式会社 数据处理装置和包含有控制该数据处理装置程序的记录媒体
WO2000077677A2 (en) * 1999-06-15 2000-12-21 Koninklijke Philips Electronics N.V. Invisible encoding of attribute data in character based documents and files
CN1326290A (zh) * 2000-05-31 2001-12-12 网信有限公司 用于在便携式终端中发送与接收文本数据的方法

Also Published As

Publication number Publication date
CN1438589A (zh) 2003-08-27
JP2003196270A (ja) 2003-07-11
US20030126553A1 (en) 2003-07-03

Similar Documents

Publication Publication Date Title
CN111753500B (zh) 版式化后的电子表单与ofd合并展现及目录生成的方法
US20030210428A1 (en) Non-OCR method for capture of computer filled-in forms
CN100458773C (zh) 信息处理装置和信息处理方法
RU2405204C2 (ru) Создание диаграмм с использованием фигур
Hendley Comparison of Methods of Digital Preservation: A Consultancy Study Conducted By Tony Hendley, Technical Director, Cimtech Ltd, University of Hertfordshire
US10642925B2 (en) System and method to facilitate content distribution
US8201076B2 (en) Capturing symbolic information from documents upon printing
US20130073942A1 (en) Method, System, and Computer-Readable Medium To Uniformly Render Document Annotation Across Different Comuter Platforms
CN101739224A (zh) 略图创建方法以及图像形成装置
US20050234843A1 (en) Computer program for storing electronic files and associated attachments in a single searchable database
CN1794225A (zh) 用于表示文档的文件格式、方法和计算机程序产品
CN101038650B (zh) 网络线上即时印刷服务系统与方法以及编辑器
CN1794224A (zh) 用于表示工作簿的文件格式、方法和计算机程序产品
JPH10228468A (ja) 文書情報管理システム
CN1312610C (zh) 文档信息处理方法,文档信息处理装置,通信系统和存储器产品
US20060112332A1 (en) System and method for design checking
CN105760501A (zh) 一种文档格式转换方法及装置
JP2004527822A (ja) コンピュータ生成文書をクリエータソフトウェアに独立に編集するためのシステムおよび方法
JP4135659B2 (ja) フォーマット変換装置およびファイル検索装置
CN110941947A (zh) 一种文档编辑的方法、装置、计算机存储介质及终端
US20050069364A1 (en) Printer, print instruction terminal, printing system, printing program, and printing method
US20030154252A1 (en) Data processing method, program, and information processor
JP3480890B2 (ja) 文書情報管理システム
Rowberry Digitizing the USPTO patent backfile
JP5465279B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070425

Termination date: 20201227

CF01 Termination of patent right due to non-payment of annual fee