CN1734453A - 文档信息处理设备及文档信息处理方法 - Google Patents

文档信息处理设备及文档信息处理方法 Download PDF

Info

Publication number
CN1734453A
CN1734453A CNA2005100877940A CN200510087794A CN1734453A CN 1734453 A CN1734453 A CN 1734453A CN A2005100877940 A CNA2005100877940 A CN A2005100877940A CN 200510087794 A CN200510087794 A CN 200510087794A CN 1734453 A CN1734453 A CN 1734453A
Authority
CN
China
Prior art keywords
metadata
document
information processing
data
document information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100877940A
Other languages
English (en)
Other versions
CN100478947C (zh
Inventor
藤原彰彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba TEC Corp
Original Assignee
Toshiba Corp
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba TEC Corp filed Critical Toshiba Corp
Publication of CN1734453A publication Critical patent/CN1734453A/zh
Application granted granted Critical
Publication of CN100478947C publication Critical patent/CN100478947C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/44Secrecy systems
    • H04N1/4406Restricting access, e.g. according to user identity
    • H04N1/4413Restricting access, e.g. according to user identity involving the use of passwords, ID codes or the like, e.g. PIN
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32128Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title attached to the image data, e.g. file header, transmitted message header, information on the same page or in the same computer file as the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/44Secrecy systems
    • H04N1/4406Restricting access, e.g. according to user identity
    • H04N1/444Restricting access, e.g. according to user identity to a particular document or image or part thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3204Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a user, sender, addressee, machine or electronic recording medium
    • H04N2201/3205Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a user, sender, addressee, machine or electronic recording medium of identification information, e.g. name or ID code
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3214Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of a date
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3215Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of a time or duration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3226Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of identification information or the like, e.g. ID code, index, title, part of an image, reduced-size image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3233Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of authentication information, e.g. digital signature, watermark
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3253Position information, e.g. geographical position at time of capture, GPS data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/328Processing of the additional information
    • H04N2201/3281Encryption; Ciphering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种文档信息处理设备,其中,不需要提供在文档的实例与它们的元数据之间管理的一致性,即,不需要担心可能引起管理中的不一致,从而消除了加载需要提供管理一致性的系统的可能性,还使改进它们的通用性成为可能。该装置包括:文档输入和输出部,能够至少输入或输出作为图像数据的文档;操作时间检测部,检测用于文档的预定操作时间;元数据获取部,根据操作时间获取文档的元数据;以及元数据记述部,基于文档的实例数据,在关于文档的输入或输出的预定时间,以预定格式记述元数据。

Description

文档信息处理设备及文档信息处理方法
技术领域
本发明涉及一种文档信息处理设备以及文档信息处理方法,可通过将关于文档的信息形式的元数据写到或记述到图像数据形式的文档文件中来管理文档。
此处,要注意文档是指应用程序的文档或文本文件,以及例如图像格式、或音频格式等格式的数据文件。
另外,文档信息处理设备是指用于处理、记录、和管理文档以及它们的元数据的设备,关于将被管理的文档的信息包括:关于存在于系统上的文档的位置信息(例如,在Microsoft Windows的浏览器、文件阅读器中,其被作为取决于Windows文件系统的文件夹结构的路径来管理)、链接(例如,到各个应用程序形式的企业门户的链接)、以及根据内容的布局或布置结构(例如,Yahoo的分类)等。而且,该设备还可以包括提供管理结构以保存或储存文档本身的系统(例如,文档管理系统)。该设备可以由多个用户使用,并具有用户认证功能以及网络共享功能。此外,该设备可以与上述文档输入输出系统的各种装置配合,以扩展执行在纸张数据和电子数据之间的介质转换的功能,以及与外部通信设备(例如传真装置)配合。
背景技术
过去,普通文档输入输出系统中执行的文档管理是通过将文档与该文档具有的元数据相关联来执行的(例如,参见日本专利申请公开出版物第2002-245064号)。
此处,要注意每个文档的元数据都包括属性和/或性质信息,例如文档的作者或创建者、创建者所属的组、创建者主要居住位置、文档的用户、用户所属的组或组群、用户主要(或多个)居住位置、创建的日期和时间、创建时的天气、创建时创建者周围的环境、使用的日期及时间、使用时的天气、用户周围的环境、创建所用的应用程序等。
特别地,在将关于创建文档的用户的信息与文档信息一起被作为元数据管理的情况下,文档和用户信息被彼此分开地分别保存或储存在数据库中。在此情况下,以用户表格等形式将该用户信息与多段其他用户信息一起储存。另外,使文档与用户信息彼此一致,以使它们彼此关联。
然而,在这样的系统中,随着要管理的文档量不断增加,必须使用用于搜索或检索想要的文档的检索方法。在这种情况下,传统的系统通常提供以下功能,以帮助用户进行搜索或检索操作:
(1)为将被检索的文档设置存储文件夹或分类,以使文档可以通过使用这样的管理结构被适当地安排和组织;(2)可以通过全文搜索,根据文档的内容来检索文档;以及(3)使用文档的元数据,通过能够显示文档列表的用户视图对文档进行分类。这些功能可以被相互独立地使用,也可以使用它们的适当组合。
在上述传统技术中,在管理元数据的情况下,提供了一种用于以汇总方式管理与文档实例对应的标识符的模块,并且该模块用于通过使元数据与文档实例相关联,来执行对相关文档的元数据的管理。在此情况下,元数据不被附着至文档实例本身,所以当对与相关文档对应的元数据进行查阅时,需要访问汇总管理元数据的模块。
此处,要注意该应用中的文档实例是取决于用于记述文档的样式或格式的实际实例。例如,在Windows文件系统中,文档实例是在其上管理的文件,在文件管理系统中,文档实例是储存在管理其上图像的数据库中的数据记录等。并且,样式或格式是指专用于TIF文件操作模块、PDF文件操作模块、和文档管理系统等的存储形式。此处,模块是指文档信息处理设备的各个组件装置或文档输入输出系统的组件具有的软件模块。
在这样的管理方法中,相关文档的实例与由模块汇总管理的标识符之间的对应关系(链接关系)可能会破坏或中断,并且可能会将阻止在模块中发生这种情况的处理加载到整个系统中。另外,由于文档的实例及它们的元数据的管理必须一致,这样的管理取决于系统,所以将丧失文档管理与未采用相关文档管理系统的其他系统的通用性,因而产生了一个问题,即,还丧失了这些文档到其他系统的可移植性。
发明内容
本发明用于解决上述问题,其目的在于提供一种文档信息处理设备和一种文档信息处理方法,其中,不需要提供在文档的实例与它们的元数据之间管理的一致性,即,不需要担心可能导致在管理中的不一致性,从而消除了加载需要提供管理一致性的系统的可能性,还使改进它们的通用性成为可能。
为了解决上述问题,一种根据本发明的文档信息处理设备,包括:文档输入和输出部,能够至少输入或输出作为图像数据的文档;操作时间检测部,检测用于文档的预定操作时间(timing);元数据获取部,基于操作时间获取文档的元数据;以及元数据记述部,基于文档的实例数据,在关于文档的输入或输出的预定时间,以预定格式记述元数据。
另外,一种根据本发明的文档信息处理方法使计算机执行:操作时间检测步骤,检测在作为图像数据的文档的输入和输出中的至少一个上执行的操作的时间;元数据获取步骤,基于操作时间获取文档的元数据;以及元数据记述步骤,基于文档的实例数据,在关于文档的输入或输出的预定时间,以预定格式记述元数据。
附图说明
图1是示出根据本发明的一个实施例的系统的基本结构的框图。
图2是示出该实施例中使用的文档及其元数据的一个实例的视图。
图3是示出第一实施例中的文档信息处理设备的功能框图。
图4是示出第一实施例的操作的流程图。
图5是示概念性地示出在第一实施例中获得的文档的视图。
图6是示出根据本发明的第二实施例的文档信息处理设备的功能框图。
图7是示出第二实施例的操作的流程图。
图8是示概念性地示出在第二实施例中获得的文档的视图。
图9是示出根据本发明的第三实施例的文档信息处理设备的功能框图。
图10是示出第三实施例的操作的流程图。
图11是概念性地示出在第三实施例中获得的文档的视图。
图12是示出根据本发明的第四实施例的文档信息处理设备的功能框图。
图13是示出第四实施例的操作的流程图。
图14是概念性地示出在第四实施例中获得的文档的一个实例的视图。
图15是示意性地示出在第四实施例中获得的文档的另一个实例的视图。
图16是示出根据本发明的第五实施例的文档信息处理设备的功能框图。
图17是示出第五实施例的操作的流程图。
图18是示出根据本发明的第六实施例的文档信息处理设备的功能框图。
图19是概念性地示出在第六实施例中获得的文档的视图。
图20是示出根据本发明的第七实施例的文档信息处理设备的元数据获取部分的功能框图。
图21是示出第七实施例的操作的流程图。
图22是概念性地示出在第七实施例中获得的文档的视图。
图23是示出根据本发明的第八实施例的文档信息处理设备的功能框图。
图24是示出第八实施例的操作的流程图。
图25是概念性地示出在第八实施例中获得的文档的视图。
具体实施方式
下面将结合附图对本发明的优选实施例进行详细描述。
图1是示出根据本发明的一个实施例的文档信息处理设备的基本结构的框图。
该文档信息处理设备100包括:图像读取部(图像读取装置)1,例如用于读取片状(例如,纸张)文档的扫描器,用于通过电子处理获取图像数据;图像打印部(打印装置)2,例如用于在纸张上打印电子格式(PDF、TIFF等)的图像文件、以及由应用程序创建的文档的内容(由字处理器应用程序等创建的文档文件),其中,文档的内容已经被转换成位图格式等;图像通信部3,用于通过利用网络通信线路(例如电话线、LAN等)与外界(例如传真传输、附有图像文件的电子邮件等)进行通信,来发送和接收图像信息;CPU 4,构成控制部;ROM(Read Only Memory,只读存储器)5和RAM(随机存取存储器)6,它们一起构成存储部;以及接口7。
图像读取部1、图像打印部2、以及图像通信部3一起构成了根据本发明的文档输入和输出部。
图2示出了该实施例中将要处理的文档信息的基本结构,其中文档是指文档的实例,并且包括应用程序文档文件、网页等。另外,如上所述,元数据是伴随文档的属性,包括如分别具有例如“XXXTaro”、“2004年6月19日,16:18”这样的值的【创建者】、【创建日期】等属性。根据元数据的特征或性质,某些元数据可以具有依赖关系,例如一旦确定了【创建者】是“XXX第三部门”,就相应地确定了【创建者所属的组】。
实施例1
接下来,将详细地描述本发明的第一实施例。
图3示出了本发明的第一实施例中文档信息处理设备的功能框图。通过举例的方式,按照图1中所示的基本结构构成该功能框图。
如图3所示,文档信息管理装置100A包括图像读取部1、图像打印部2、以及图像通信部3,同时还包括:文档操作管理部11,用于通过监控由文档(图像数据)处理部(例如,图像读取部1、图像打印部2、以及图像通信部3等)执行的操作或处理,或通过接收文档处理部的操作事件,来管理与文档操作相关的时间信息或与操作环境的状态相关的信息等;元数据收集部12(对应于本发明中的元数据获取部),用于识别和获得(获取)与文档操作管理部11中管理的与文档操作相关的信息,将其作为关于相关文档(pertinent document)的属性信息;以及文件操作部13(对应于本发明中的元数据记述部),用于将由图像读取部1或图像通信部3获得的图像数据转换成更多通用格式的文件(PDF等),并将由元数据收集部12收集的元数据写到相关文件中,从而创建每个都具有相关元数据的记述的文件。
此处,文档操作管理部11可由软件模块构成,该软件模块通过监控文档的扫描、来自应用程序的文档的打印、接收到的传真文档的传送、以及由PC(个人计算机)20形成的文档输入和输出部分的操作或处理环境中的文档的操作或处理(例如,通过利用PC上的应用程序来打开、保存、或打印文档文件,或发送或编辑电子邮件),或通过接收操作或处理事件,来监控和管理与文档的操作或处理相关的时间信息和/或与操作或处理环境(操作或处理的历史)的状态相关的信息。另外,文档操作管理部11包括本发明的操作时间检测部11a。
元数据收集部12收集与在文档操作管理部11中管理的文档相关的信息,并将其作为与相关文档有关的属性信息。例如,元数据收集部12可由软件模块构成,该软件模块用于基于对图像的扫描,将已经执行扫描操作的人员“XXX Taro”作为扫描图像文件的【创建者】。
(操作描述)
下面,参照第一实施例的一个操作实例,同时参照图4的流程图,描述将由扫描器(图像读取部1)扫描的文档转换成文档文件,以及将【创建者】和【创建日期和时间】的元数据写到或记述到如此创建的文当实例中的情况。
当开始文档读取处理时(步骤S1-1),图像读取部1具有接受来自用户的指令的机构。例如,在复印机的触摸面板上显示用于用户操作的GUI(图形用户界面),以等待来自用户的指令(步骤S1-2),从而通过用户的操作可以设置文档读取处理的开始和用于读取的参数。此处,假定为了认证处理,用户首先通过使用触摸面板来请求联机,以执行文档读取处理。用户可以通过输入用户自己的名字和用于认证的口令来请求联机,从而执行用于开始文档读取处理和设置参数的操作。此时,图像读取部1接收来自用户的用户名和口令用于认证(步骤S1-3),并且基于该信息确定是否允许登录。文档操作管理部11检测到已经在图像读取部1中进行登录,以读取文档(即,用于文档的输入/输出的预定操作已被执行)(步骤S1-4)。
元数据收集部12确定进行登录的用户是“通过该读取创建的文档实例的创建者”。当接收到从文档操作管理部11已经检测到认证处理的事件时,元数据收集部12通过应用确定执行登录的用户的口令是“通过该读取创建的文档实例的创建者的口令”的规则,来收集例如用户名、口令等信息(步骤S1-5)。此处所收集的信息被一次储存或临时保存,以便在随后的时间记述文档实例。对于这样的储存,可以使用在由元数据收集部12使用的存储器中的临时数据区域或为工作区的文件系统上的文件,其中,工作区用于将读取的图像转换成文档实例。
当完成用户认证和用于读取等的参数设置时,用户实际上指示开始读取文档。根据该指令,图像读取部1使用例如扫描器顺序读取复印机的自动输送筒或输稿器上的文档,并且获取它们作为图像数据(步骤S1-6)。此时,文档操作管理部11检测到在图像读取部1中已经执行了的文档读取处理(步骤S1-7)。当接收到从文档操作管理部11已经执行读取处理的事件时,元数据收集部12通过应用确定开始登录的日期和时间是“通过该读取创建的文档实例的创建日期和时间”的规则,来收集当时的日期和时间(步骤S1-8)。
将在此收集的信息与【创建者】和【创建者口令】相关的信息一样被临时保存或储存在元数据收集部12中。将由图像读取部1读取的图像数据传送至文件操作部13,并在那里转换成将要创建的格式的文档实例的文件。此处,将在文档读取操作过程中从元数据收集部12收集的元数据传送至文件操作部13。文件操作部13从图像数据和元数据创建具有符合将要创建的目标格式的形成的文件,将元数据写到或记述到文件中(步骤S1-9),并随后完成该处理(步骤S1-10)。
此处,要注意在步骤S1-9中,在元数据的记述中,如果将被记述的元数据的对象是例如PDF格式的文件,则将图像数据记述为用于所读取的文档的每个页面的流对象,并且元数据被进一步记述成PDF格式,并写成PDF格式,作为用于每个页面的通用XMP格式的XML流对象。
因而,用于扫描器如此读入的图像数据的元数据(诸如【创建者】、【创建者口令】、【创建日期和时间】等)可以被嵌入文档实例中,并被设置为文档文件的属性。此处,尽管已经将图像读取部1(例如,扫描器)作为文档输入和输出部的实例作为参考,但也可以将由图像通信部3(例如,传真机)接收的图像数据作为图像输入。将被收集的元数据可以根据不同输入源而变化。例如,如果输入源是通过传真机接收的图像数据,则该传真发送者的名字可以被收集为【发送者名称】,或者如果其是接收的电子邮件附带的图像数据文件,则其发送者的电子邮件地址可以被收集为【发送者地址】。
在将这样收集的元数据写到或记述到文档实例中的情况下,可以在装置或系统上定义以例如PDF记述的XML的标签(tag),根据该标签,可以将元数据嵌入文档实例中。
图5中示出了以该方式创建的文档实例。例如,当将读取的图像转换成PDF文件时,其被写到或记述到文件中作为块(block)以判别其格式,或作为具有页面附带的图像的流数据的块,或作为不用例如Acrobat Reader(注册商标)的阅读器显示但被嵌入文件中作为数据的块。在图像流中记述所读取的文档的每个页面上的图像,作为PDF文件的一个页面,这样重复所读取的页面的数量。如此收集的元数据被记述为用于未显示为图像的数据区的XML流。
此处,为了文档读取而请求联机的用户的名称“XXX Taro”被给定为【创建者】的值;为了文档读取而请求联机的用户的口令“pass”,被给定为【创建者口令】的值;以及执行读取处理的日期和时间“2004/6/19 14:30:10”被给定为【创建日期和时间】的值。出于安全考虑,在例如口令等重要值的情况下,可以通过加密来记述。
实施例2
图6是示出本发明的第二实施例的功能框图。在根据第二实施例的文档信息处理设备100B中,除图3中所示的第一实施例的功能块以外,还提供了图像分析部14。通过分析图像文件(JPEG、位图等),该图像分析部14获取包含在其内容中的布局信息,例如图表区、文本或字符区等,并进一步通过利用光学字符读取器等,在被识别为文本或字符区的区域中执行对文本消息的读取。图像分析部14可由软件模块构成,其用于获取包括在相关图像的内容中的图表信息、颜色信息、以及文本信息。
(操作的描述)
下面,将参照第二实施例的一个操作实例,同时参照图7的流程图,描述将由扫描器读取的文档转换成文档文件,并通过分析获取的图像数据来进一步提取图像内容的【标题】,另外,将用于【标题】的元数据嵌入到如此创建的文档实例中的情况。此处,要注意在图7中步骤S1-1到步骤S1-8的操作与第一实施例中的图4中所示的步骤相同,因此,在此不作赘述。
首先,图像分析部14对图像读取部1获取的图像数据进行分析。例如,首先对图像数据执行布局分析,从而从文档的页面图像中识别出对应于图表区的部分与对应于文本区的部分。一般认为,位于第一页面的图像的上部中心的文本或字符区是重要部分(例如文档的【标题】、主题、题目、或文档的标头)。根据这样的确定规则,图像分析部14对已经进行布局分析的相关部分执行OCR处理,以提取文本或字符信息(步骤S2-1)。此时,文档操作管理部11检测到在图像分析部14中已经执行了图像分析(步骤S2-2)。
当从文档操作管理部11接收到已经执行了图像分析的事件时,元数据收集部12通过应用确定被认为是如此读取的文档的【标题】的部分中的字符串是“通过该读取创建的文档实例的【标题】”的规则,来收集文本或字符信息(步骤S2-3)。类似于第一实施例,将如此获得的元数据记述到和嵌入到文档实例中(步骤S1-9),随后结束该处理(步骤S1-10)。
图8中示出了以此方式创建的文档实例。例如,当在所读取图像的第一页面的上部中心作出对“特许建议”的记述时,通过OCR装置对与该记述对应的文本区的布局进行分析,并且提取该记述作为字符串信息。将由OCR如此提取的字符串“特许建议”给定为数据区的【标题】,用于文档实例的元数据。
实施例3
图9是示出本发明的第三实施例的功能框图。在根据第三实施例的文档信息处理设备100B中,除图6中所示的第二实施例的功能块以外,还提供了打印格式管理部13a。该打印格式管理部13a可由例如软件模块构成,用于管理作为格式数据(例如,图像数据被转换成的位图)的将被打印的图像数据,以使当通过打印机驱动器由应用程序给出用于在复制文档时打印被扫描文档的图像数据或被读取文档的图像数据的指令时,能够通过图像打印部2进行打印。将相关格式的数据保存在打印格式等的文件中,以使可以根据用户的请求通过图像打印部2进行打印。尽管在图9中打印格式管理部13a构成文件操作部13的一部分,但无需多说的是,可分离并独立于文件操作部13提供打印格式管理部13a。
(操作描述)
下面,将参照第三实施例的一个操作实例,描述用户通过打印机驱动程序从PC应用程序发出打印请求,从而通过图像打印部2将打印格式的文件打印到纸张上,同时通过打印格式管理部13a进行保存的情况。
如果用户稍后发出重新打印的请求,则可以从由打印格式管理部13a保存的打印格式文件中选择相关文件,以使其通过图像打印部2被打印到纸张上。当将图像数据等发送至图像打印部2时,通常会根据从应用程序发出的打印请求,放弃例如状态等信息(以下称之为上下文信息),并且不经常通过例如打印格式管理部13a等的打印格式保存模块进行管理。而且,会通过打印机驱动程序等获取一部分上下文信息,但在很多情况下仍然会将其放弃并且不对其进行管理。因而,图10的流程图示出了以下情况:由应用程序作出打印请求的文档文件被转换成打印格式,以及由应用程序或打印机驱动程序获取的上下文信息被收集作为元数据,以使如此收集的元数据被嵌入由打印格式管理部13a管理的文档实例中。
在图10中,用户指示通过图像打印部2打印由PC应用程序20操作或处理的应用程序文档。此时,用户可以给出同时通过打印格式管理部13a将用于要被打印的文档的图像数据保存为打印格式的图像数据的指令,以使用户可以用简单的方式指示重新打印相关文档。
基于上述用户操作的时间,开始将元数据写到打印格式文件中的处理(步骤S3-1)。首先,文档操作管理部11检测到用户已经对图像打印部2指示打印应用程序文档(步骤S3-2)。另外,此时文档操作管理部11从指令的内容来确定图像数据是由打印格式管理部13a保存和管理为打印格式的图像数据,还是仅简单地由图像打印部2打印到纸张上(步骤S3-3)。在这种情况下,当指示由打印格式管理部13a管理图像数据时,元数据收集部12开始收集与该打印指令相关的元数据。
元数据收集部12收集作为关于该应用程序此时的上下文信息的应用程序的名称、应用程序文档保存或储存在文件系统中的路径名称等。而且,还从打印机驱动程序收集与PC应用程序20运行的个人计算机名称(例如,在Windows操作系统中管理的机器名称)、及其网络IP地址等相关的信息。这些信息可以通过元数据收集部12专门收集,或根据打印指令发送到图像打印部2的打印任务描述语言(PostScript、PCL等)来描述。元数据收集部12收集作为元数据的、可根据这些情况获取的上下文信息(步骤S3-4)。
图像打印部2通过分析已经发送到它的打印任务描述语言,来创建可以由其本身打印的打印格式的图像数据(步骤S3-5)。打印格式管理部13a将由元数据收集部12收集的元数据写到或记述到可打印格式的文件中,并且管理那里的文档实例(步骤S3-6)。图像打印部2通过利用打印格式的图像数据执行打印(步骤S3-7),然后终止该处理(步骤S3-8)。
在此实例中,描述了提供由打印格式管理部13a管理打印格式的图像数据的指令和给图像打印部2的打印指令的情况,但在一些情况下,用户可以给出通过打印格式管理部13a简单地管理打印格式的图像数据的指令,而不用在图像打印部2中执行打印。另一方面,存在可以通过打印格式管理部13a将输入图像数据转换成可打印格式,并由打印格式管理部13a来保存和管理,即,通过打印格式管理部13a以打印格式管理由图像读取部1读取的图像数据(包括复印文档的目的等),或通过打印格式管理部13a以打印格式管理由图像通信部3接收到的图像数据。在这些情况下,由元数据收集部12收集的元数据变成了在第一或第二实施例中所示的那些数据,并且它们被记述到和嵌入文档实例中。
图11中示出了以此方式创建的文档实例。例如,通过监控用户控制PC应用程序20的环境(操作系统的桌面等),文档操作管理部11检测到已经通过相关应用程序给出打印指令。然后,元数据收集部12收集作为元数据的相关应用程序的名称(其可以被预先登记,或可以从附加至操作系统桌面上的窗口的名称中提取)。
实施例4
图12是示出本发明的第四实施例的功能框图。在根据第四实施例的文档信息处理设备100D中,除图6中所示第二实施例的功能块以外,还提供了处理部15。处理部15包括:操作指令部(目的地位置指令部)16,用于指示文档对象的目的地位置;以及操作响应处理部(保存处理部)17,用于执行保存处理,作为对来自操作指令部16的指令的响应。此处,要注意操作指令部16可以由软件模块构成,用于基于由操作添加的元数据,将用于更具体操作的指令提供至文档。而且,操作响应处理部17可以由软件模块构成,从对文档的操作或处理的指令之中,获取关于文档实例的位置或布置的信息(例如,文件系统中的文件夹路径、在文档管理系统中所保存或储存文档实例的保存器的名称等),并且确定或判别关于文档实例的位置的目的地或布置的信息(例如,可以保存或储存文档实例的保留区的大小、压缩格式或非压缩格式、例如访问权限制的存在或不存在等)。
(操作的描述)
下面,参照图13的流程图,描述作为第四实施例的一个操作实例的以下情况,通过仅将相对简单的指令,“扫描和分类”被给定为文档的操作,操作指令部16指示进行判别或确定文档实例的位置的目的地或布置的具体操作,并且通过利用图像分析部14等分析文档的图像,在那里自动放置或布置文档实例的具体操作,并且利用操作响应处理部17,在目的地位置的区域中设置每个用户的访问权,以使仅当认证其保存时,才可以放置或布置文档实例。
此处,假定在图像读取部1中,用户已经发出结果为“文档被扫描,并且文档实例由其内容被自动分类”的指示,并且文档操作管理部11掌握了这样的操作正在被执行。最初执行使步骤S1-2至S1-8的处理(步骤S4-1)开始的操作,以及步骤S2-1至步骤S2-3与第一实施例和第二实施例分别相同,因此在此不再赘述。
在步骤S4-2中,文档操作管理部11掌握了用户的以上操作是用于“自动分类”,因此将指令给至操作指令部16,以使用通过分析获取【标题】的字符串。
操作指令部16根据字符串“特许建议”来确定文档实例(例如,“特许文件”)的位置的目的地或布置,其中字符串“特许建议”是已被收集为【标题】的元数据的值(步骤S4-3)。当不存在与该字符串匹配的合适的位置目的地时(步骤S4-4),操作响应处理部17将文档实例放置到或放到默认设置的目的地位置(例如,由于不存在匹配或不能够作出认证,当未发现合适的目的地时,输入文档实例的其它文件夹等地点或位置)(步骤S4-9)。
操作响应处理部17获取关于由操作指令部16确定的位置的目的地的信息。此处,确定是否将访问权设置至“特许文件”(步骤S4-5)。如果不设置,则将相关文档实例按照原状放置到或放到“特许文件”,反之,如果设置了访问权,则操作响应处理部17尝试使用已经收集到的元数据、【创建者】和“创建者口令”,来执行认证(步骤S4-6)。当认证成功时(步骤S4-7),确定可以对位置的目的地进行访问,从而将文档实例放置到或放到该处(步骤S4-8)。在这种情况下,图14中概念性地示出了该文档实例和目的地位置。
然而,当认证失败时,文档实例被放到默认的“其他文件”中(步骤S4-9)。如果在步骤S4-2中根本不需要进行“分类”,则将文档实例放到默认的“其他文件”中。
在上述情况中,操作指令部16可以使用字符串“特许建议”、在存储器上的元数据的值,该值通过用于该处理的图像分析部14或元数据收集部12获取。另外,例如,如图12中的虚线所示,在一旦被实体化成或处理成文档实例的情况下,可以在操作指令部中提供元数据提取部16a,以使文档实例中记述的元数据的内容可以被提取,以获取和使用字符串,其中字符串为内容的值。
在后面情况下,可以执行关于整个文档实例的更加具体的操作(分类、设置压缩率、改变排版或打印版面等),作为与通过上述图像读取部1扫描文档和对文档进行分类的处理分开的处理。
图15中示出了如此创建的文档实例及其位置的目的地。例如,即使确定了具有【标题】为“设备申请”的文档放到“设备文件”中,也不会使用户名为“XXX Taro”和口令为“pass”的文件夹实际通过访问认证,所以将该文档实例放入“其他文件”中。
实施例5
下面,将描述一个实例作为本发明的第五实施例,该种情况为,为了特定目的管理和使用创建的文档实例(此处的目的为“从文档实例中搜索满足特定条件的文档实例),它们还可以用于正被操作的多个装置和多个系统。第五实施例描述了管理文档的实例的文档实例管理部中的一个服务的实例。尽管在文档实例管理部中,文档实例被管理以向用户提供例如搜索、分类、推荐等服务,这里将描述通过文档管理部,特别是使用预定元数据进行搜索的情况。
图16是示出本发明的第五实施例的功能框图。除图3的第一实施例所示的配置以外,根据第五实施例的文档信息处理设备100E包括:文档实例管理部18;元数据提取和分析部(元数据提取和处理部)19,具有元数据提取部和处理部形式的功能;外部通信部21;以及搜索频率管理部22,用于管理搜索的频率。设置文件操作部13,以将由搜索频率管理部22管理的搜索频率写到或记述到由元数据提取和分析部提取的元数据中。
元数据提取和分析部19可由软件模块构成,其通过从其中嵌入元数据的文档实例中读取并分析它们的内容,来提取元数据段及它们的值。
此处,值得注意的是,文档实例管理部18也可以由软件模块构成,其管理对具有在其中嵌入并记述的元数据的文档实例进行诸如搜索、编辑、复制、删除等操作。
接下来,参照图17中所示的流程图,描述本发明的第五实施例的操作。
首先,用户通过对文档实例管理部18指示搜索具有【创建者】为“XXX Taro”的文档实例,开始该实施例的操作(步骤S5-1),并且文档实例管理部18接收用户的请求(步骤S5-2)。此处,假定在文档实例中内部记述元数据【创建者】“XXX Taro”的值,作为低优先级的搜索对象。例如,根据被搜索对象的频率,来确定该搜索对象的优先级。在该文档信息处理设备100E中,通常对【标题】和【创建应用程序】进行搜索,而不对【创建者】进行搜索。而且,经常对【创建者】“XXX Hanako”进行搜索,而不对“XXX Taro”进行搜索。在这种情况下,当通过搜索频率管理部22将元数据段写到或记述到文档实例中时,搜索时将具有低频率的元数据的优先级确定为低,并进行相应地记述。
元数据提取和分析部19读取较高优先级的元数据,并且提取它们的值(步骤S5-3),在它们之间进行相互比较,以找到与指定值“XXX Taro”匹配的元数据(步骤S5-4)。此处,将“XXX Taro”形式的元数据设置为低频率,并进行相应地记述,所以在搜索高优先级的元数据的过程中,不存在与该元数据的匹配(步骤S5-4,否)。因此,元数据提取和分析部19还读取较低优先级的元数据,并且提取它们的值(步骤S5-5)。此处,文档实例管理部18可以向用户报告不存在与该高优先级的元数据的匹配,并询问用户是否搜索更低优先级的元数据。当存在其较低优先级的元数据与“XXX Taro”匹配的任何文档实例时,文档实例管理部18向用户报告已经找到了相关文档(步骤S5-6,是),并向用户呈现该文档实例被管理的位置等,以使用户能够访问该文档实例(步骤S5-10)。
如果此处在该设备和系统中未搜索到匹配的文档实例,则元数据提取和分析部19还可以通过使用外部通信部21搜索其他设备和系统(步骤S5-7)。例如,这可以如下进行。即,用于该搜索的接口用于每个设备和系统的网络服务,以使用户利用接口,可以通过外部通信部21,请求对其他装置和系统进行搜索。此处,文档实例管理部18可以向用户报告以下情况,在相关设备和系统上,不对该文档实例的元数据进行匹配,并且询问用户是否还在其他设备和系统上搜索该文档实例的元数据。
另一方面,如果未找到匹配文档(步骤S5-8,否),则文档实例管理部18向用户报告以下情况,在相关设备和系统上或在用户通过外部通信部21可以访问的设备和系统上,不存在用户想要的具有创建者为“XXX Taro”的文档(步骤S5-9),并且终止该处理(步骤S5-11)。
实施例6
图18是示出本发明的第六实施例的功能框图。在根据第六实施例的文档信息处理设备100F中,除图3所示的第一实施例的功能块以外,提供了对应于本发明的判别部的组成元素管理部23。
组成元素管理部23可以由软件模块构成,其判别和掌握构成文档内容(用于整个文档的页面图像等)的各个元素(页面、段落、字符区、图表区等),并且分别管理这些元素。可以分别通过判别组成元素的内容,分别由组成元素实现第一实施例中所述的功能。例如,可以为扫描文档“特许建议”的特定图表“系统图A”设置【创建者】、【创建者口令】、以及【创建日期和时间】。即,可使这些数据段作为用于其组成元素“系统图A图像读取装置”的元数据,以使当通过一些应用程序将图“系统图B”复制并粘贴到另一文档“设计说明书”时,可以将这些元数据段和它们的值设置为文档“设计说明书”的相关组成元素“系统图B”。因此,可以确定存在于“设计说明书”中的图表“系统图B”是由人员“XXX Taro”在“2004年6月19日,14:30:10”的日期和时间从原稿扫描的图表。类似地,还可以分别通过组成元素实现第三和第四实施例中所述的功能。
在图19中示出以该方式创建的文档实例。尽管复制到目的地位置的文档B-1、F-1在【创建者】、【创建者口令】、【创建日期和时间】以及【标题】方面彼此不同,但为复制的组成元素保存或储存被给予以前组成元素的元数据
实施例7
本发明的第七实施例描述了从一次获取的元数据(临时元数据)中获取与其相关的次级元数据,然后将该次级元数据作为元数据写到和记述到文件中。
图20是示出根据第七实施例的文档信息处理设备的元数据获取部的详情的功能框图。在第七实施例中,除元数据获取部以外,其结构可以与第一至第六实施例中所示的结构相同,所以此处不作赘述。
该元数据获取部12A包括:初级元数据获取部121,其对应于第一至第六实施例中所述的元数据获取部,并且用于获取初级元数据;以及次级元数据获取部122,用于通过利用初级元数据来获取次级元数据。次级元数据获取部122包括:次级元数据提取部123、根据(grounds)管理部124、以及根据设置部125。
该次级元数据获取部122根据由文档的操作或处理收集的单段元数据或多段元数据,来确定和获取新的元数据(例如,从【创建者】和【创建日期和时间】来判别诸如会议的【创建事件】)。次级元数据提取部123基于来自外部信息管理部126的信息和由根据管理部124提供的规则,来提取次级元数据。根据管理部124管理当次级元数据由次级元数据获取部122获取时作出确定的根据(例如,储存在文件或数据库中的规则)。根据设置部125设置由根据管理部124管理的确定根据的添加、删除、编辑等。这些部分中的每个都可以由例如软件模块构成。
(操作描述)
下面,参照图21的流程图,并参照第七实施例的一个操作实例,描述当由扫描器读取的文档被转换成文档文件时,由登录到图像读取部1的用户的名称确定对应事件(此处为会议),以读取文档、执行操作的日期和时间、以及由外部调度程序管理的日程信息(从日历和时间表中找到的关于日期和时间的日程表)等的情况。
此处,要注意在图21的操作中,步骤S1-2至步骤S1-8与图4中所示的第一实施例的步骤相同,因此在此不作赘述。次级元数据提取部123获取由元数据收集部12获得的一组元数据,并且开始确定是否可以根据该组如此获得的元数据来获取任何次级元数据(步骤S6-1)。当作出该确定时,次级元数据提取部123将询问与该组元数据一起发送至根据管理部124(步骤S6-2)。此处,要注意根据管理部124具有以下规则,当将文档的【创建者】和【创建日期和时间】的元数据的值作为关键词时,可以通过询问外部调度程序获取与文档相关的日程信息,并确定是否能够找到这样的规则(或是否可以应用这样的规则)(步骤S6-3)。
当未找到任何可应用的规则时(步骤S6-3,否),确定不能够获取次级元数据,从而基于由初级元数据获取部(图3中的元数据收集部12)获取的元数据,创建该文档的实例(步骤S1-9),然后该处理被终止(步骤S6-7)。另一方面,当已经找到可应用的规则时(步骤S6-3,是),次级元数据提取部123根据可应用的规则向具有日程信息的外部调度程序等进行询问(步骤S6-4)。当存在与元数据值对应的日程信息时(步骤S6-5,是),日程信息被获取和保存或储存为称作【事件】的次级元数据;而当不存在对应日程信息时(步骤S6-5,否),则不设置次级元数据,并且终止处理(步骤S6-7)。
图22中示出了以此方式创建的文档实例。此处,已经由调度者“XXX Taro”先生管理“2004年6月19日从13:00到14:30将举行2004年上半年的特许审查会议。”的日程信息。因此,次级元数据提取部123获取该日程信息作为与该文档相关的事件,设置事件的值为“2004年上半年的特许审查会议”,并将该值嵌入文档实例中。
实施例8
图23是示出本发明的第八实施例的功能框图。在根据第八实施例的文档信息处理设备100G中,描述除图3中所示的第一实施例的功能块以外,提供组成元素管理部23和已记述的或存在的元数据提取部31的情况,并且组成元素管理部23、已记述的元数据提取部31、以及元数据收集部12一起构成了可用多级方式管理元数据的多级管理部。
该多级管理部用于根据文档实例的变化,以多级方式来管理元数据,并由例如软件模块构成。
接下来,将参照图24中所示的流程图描述本发明的第八实施例的操作。如第六实施例中所述的,当操作或处理文档的组成元素(页面或图表)时,文档的每个组成单位还沿用(succeed)以文档实例为单位的元数据,但对于新文档实例,组成元素需要沿用以各文档实例为单位的元数据。因此,通过多级管理部来以多级方式管理这些元数据段,以同时可满足原始文档的可跟踪性和在现有元数据中所进行的搜索。
在图24中,基于文档的操作或处理来开始多级管理(步骤S8-1)。组成元素管理部23确定或判别各个组成元素,已记述的元数据提取部31确定在每个组成元素中是否存在任何已记述的元数据(步骤S8-2)。当确定已经存在一些已记述的元数据时,则已记述的元数据提取部31提取已记述的元数据,并通过使其与各自的组成元素关联,来将其提供给元数据收集部12。元数据收集部12将新元数据记述区保存在已记述的元数据记述部分的后部,将由新操作或处理所获得的元数据(新元数据)附加至新元数据区,并将如此形成的整个元数据提供给文件操作部13。
图25中示出了以此方式创建的文档实例。在图25中,组成元素被复制在其中的目的地位置处的文档与在其【创建者】、【创建者口令】、【创建日期和时间】、以及【标题】的元数据的值中复制的组成元素不相同,因此,给至当前组成元素的元数据被保存或储存为与在该处复制的组成元素分开的不同方案V2。
尽管在上述实施例中,描述了将用于执行各个流程图中所示的程序的功能预先记录在各个装置中的情况,但是本发明并不限制于此,经由网络可将类似的功能或程序下载到该装置中。可选地,可将储存在计算机可读记录介质中的类似的功能或程序安装在这些装置或系统中。由此,值得注意的是,记录介质可以是任何形式,例如ROM,其可储存程序,并且其可由装置读出。另外,在装置的内部可通过结合OS(操作系统)等来实现由如此预安装或下载获取的功能。
如上所述,根据该实施例,可通过根据操作时间(例如文档的输入、输出、或编辑等)收集元数据,以及通过向文档实例本身添加元数据,来防止管理中不匹配的发生。另外,通过根据文档内容收集元数据,以及通过向文档实例本身添加元数据,从文档实例的内容中可很容易地以自动方式执行搜索和分类。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种文档信息处理设备,包括:
文档输入和输出部,能够至少输入或输出作为图像数据的文档;
操作时间检测部,检测用于所述文档的预定操作时间;
元数据获取部,基于所述操作时间获取所述文档的元数据;以及
元数据记述部,基于所述文档的实例数据,在关于所述文档的输入或输出的预定时间,以预定格式记述所述元数据。
2.根据权利要求1所述的文档信息处理设备,其中,所述元数据获取部设置有图像数据分析部,所述图像数据分析部通过分析所述图像数据获取所述元数据。
3.根据权利要求1所述的文档信息处理设备,其中
所述元数据记述部基于所述文档的实例数据将所述文档转换成预定格式的文件,并且同时将所述元数据记述到所述文件中。
4.根据权利要求1所述的文档信息处理设备,其中
所述文档输入和输出部包括图像打印部,所述图像打印部将所述文档的实例数据转换成适于打印的格式;
所述元数据记述部以所述适于打印的格式将所述元数据记述到所述文档的实例数据中;以及
文件保持部被设置以保持记述有所述元数据的所述文档的实例数据。
5.根据权利要求1所述的文档信息处理设备,还包括:元数据提取和处理部,用于提取在所述文档的实例数据中记述的元数据,并且基于如此提取的元数据来执行规定处理。
6.根据权利要求1所述的文档信息处理设备,还包括:文档操作管理部,用于掌握和管理关于所述文档的预定操作,其中
所述处理部基于所述元数据和由所述文档操作管理部掌握的操作,执行关于所述文档的规定处理。
7.根据权利要求1所述的文档信息处理设备,还包括:判别部,用于将所述文档的内容判别为各组成元素,其中
所述元数据获取部获取以所述各组成元素为单位识别的元数据;以及
所述元数据记述部以所述各组成元素为单位记述那些已经以所述各组成元素为单位识别出的元数据。
8.根据权利要求1所述的文档信息处理设备,还包括:次级元数据获取部,基于由所述元数据获取部获取的元数据,来获取与所述元数据相关的次级元数据,其中
所述元数据记述部将由所述次级元数据获取部获取的元数据记述到所述文档的实例数据中。
9.根据权利要求8所述的文档信息处理设备,其中
所述次级元数据获取部设置有根据确定部,所述根据确定部用于确定根据,所述根据用于通过将规定规则应用到单段元数据或多段元数据,以确定在单段元数据或多段元数据和所述次级元数据之间是否有关系,来从所述单段元数据或所述多段元数据获取与其相关的次级元数据,所述根据确定部还用于基于由所述根据确定部确定的次级元数据获取根据,来提取次级元数据。
10.根据权利要求1所述的文档信息处理设备,其中
所述元数据获取部根据所述文档的实例数据的变化来获取元数据;以及
所述元数据记述部根据所述文档的实例数据的变化,以多级方式将由所述元数据获取部获取的元数据记述到所述文档的实例数据中。
11.一种文档信息处理方法,使计算机执行:
操作时间检测步骤,用于检测对作为图像数据的文档的输入和输出中的至少一个执行操作的时间;
元数据获取步骤,用于基于所述操作时间获取所述文档的元数据;以及
元数据记述步骤,用于基于所述文档的实例数据,在关于所述文档的输入或输出的预定时间,以预定格式记述所述元数据。
12.根据权利要求11所述的文档信息处理方法,其中
所述元数据获取步骤包括图像数据分析步骤,所述图像数据分析步骤用于通过分析图像数据获取所述元数据,所述图像数据分析步骤通过所述计算机执行。
13.根据权利要求11所述的文档信息处理方法,其中
所述文档输入和输出步骤包括图像打印步骤,所述图像打印步骤用于将所述文档的实例数据转换成适于打印的格式;
所述元数据记述步骤包括以所述适于打印的格式将所述元数据记述到所述文档的实例数据中的步骤;以及
文件保持步骤被设置以保持记述所述元数据的所述数据,所述文件保持步骤通过所述计算机执行。
14.根据权利要求11所述的文档信息处理方法,其中
所述计算机被用于执行元数据提取和处理步骤,所述元数据提取和处理步骤用于提取在所述文档的实例数据中记述的元数据,并且所述计算机被用于基于如此提取的元数据来执行规定处理。
15.根据权利要求11所述的文档信息处理方法,其中
文档操作管理步骤用于掌握和管理关于所述文档的预定操作;以及
在所述处理步骤中,所述计算机被用于:基于所述元数据和在所述文档操作管理步骤中掌握的操作,来执行关于所述文档的规定处理。
16.根据权利要求11所述的文档信息处理方法,其中
判别步骤被设置以将所述文档的内容判别为各组成元素;以及
所述计算机被用于执行:获取在所述元数据获取步骤中以所述各组成元素为单位识别的元数据;以所述各组成元素为单位记述那些已经以所述各组成元素为单位识别出的元数据。
17.根据权利要求11所述的文档信息处理方法,其中
次级元数据获取步骤用于:基于在所述元数据获取步骤中获取的元数据,来获取与所述元数据相关的次级元数据;以及
在所述元数据记述步骤中,所述计算机被用于执行:将在所述次级元数据获取步骤中获取的元数据记述到所述文档的实例数据中。
18.根据权利要求11所述的文档信息处理方法,其中
所述计算机被用于执行:根据在所述元数据获取步骤中所述文档的实例数据的变化来获取元数据,以及根据在所述元数据记述步骤中所述文档的实例数据的变化,以多级方式,将在所述元数据获取步骤中获取的元数据记述到所述文档的实例数据中。
CNB2005100877940A 2004-08-11 2005-08-08 文档信息处理设备及文档信息处理方法 Active CN100478947C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/915,361 US7475336B2 (en) 2004-08-11 2004-08-11 Document information processing apparatus and document information processing program
US10/915,361 2004-08-11

Publications (2)

Publication Number Publication Date
CN1734453A true CN1734453A (zh) 2006-02-15
CN100478947C CN100478947C (zh) 2009-04-15

Family

ID=35801431

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100877940A Active CN100478947C (zh) 2004-08-11 2005-08-08 文档信息处理设备及文档信息处理方法

Country Status (3)

Country Link
US (3) US7475336B2 (zh)
JP (1) JP2006053889A (zh)
CN (1) CN100478947C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567287A (zh) * 2010-12-25 2012-07-11 上海量明科技发展有限公司 记录字符时间信息量的方法及系统
CN102959538A (zh) * 2009-12-21 2013-03-06 国际商业机器公司 给文档编索引
CN108629160A (zh) * 2017-03-17 2018-10-09 富士施乐株式会社 文档管理系统和处理设备
CN110737629A (zh) * 2019-08-30 2020-01-31 华迪计算机集团有限公司 一种用于归档电子文件的方法及系统
CN112181779A (zh) * 2020-09-28 2021-01-05 北京云歌科技有限责任公司 一种ai元数据的综合处理方法和系统

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7085755B2 (en) * 2002-11-07 2006-08-01 Thomson Global Resources Ag Electronic document repository management and access system
US8495061B1 (en) * 2004-09-29 2013-07-23 Google Inc. Automatic metadata identification
JP2006135671A (ja) * 2004-11-05 2006-05-25 Fuji Xerox Co Ltd 文書スキャンシステム
JP4095639B2 (ja) * 2004-12-22 2008-06-04 キヤノン株式会社 画像処理装置及び画像処理装置の制御方法
JP2006260481A (ja) * 2005-03-18 2006-09-28 Canon Inc 文書管理装置及びその制御方法、コンピュータプログラム、記憶媒体
US7571486B2 (en) * 2005-03-29 2009-08-04 Microsoft Corporation System and method for password protecting an attribute of content transmitted over a network
US9378099B2 (en) * 2005-06-24 2016-06-28 Catalogic Software, Inc. Instant data center recovery
KR100648926B1 (ko) * 2005-07-11 2006-11-27 삼성전자주식회사 사용자 식별 정보 부가기능을 갖는 복합기 및 그 방법
US7996439B2 (en) * 2006-01-18 2011-08-09 Echosign, Inc. Automatic document exchange and execution management
US7996367B2 (en) 2006-01-18 2011-08-09 Echosign, Inc. Automatic document exchange with document searching capability
US7895166B2 (en) * 2006-01-18 2011-02-22 Echosign, Inc. Automatic document exchange with archiving capability
US20070211293A1 (en) * 2006-03-10 2007-09-13 Kabushiki Kaisha Toshiba Document management system, method and program therefor
JP4645498B2 (ja) * 2006-03-27 2011-03-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2008052712A (ja) * 2006-07-27 2008-03-06 Ricoh Co Ltd スキャン文書管理方法
US20080027949A1 (en) * 2006-07-27 2008-01-31 Jun Kawada Scanned document management system
US7756865B2 (en) * 2006-08-09 2010-07-13 Infoprint Solutions Company, Llc Extendable meta-data support in final form presentation datastream print enterprises
JP2008077487A (ja) * 2006-09-22 2008-04-03 Oki Data Corp ドライバインストール制御方法、ドライバインストールプログラム、ドライブ制御方法、ドライバプログラム、プログラム記憶媒体及び端末装置
US7937663B2 (en) * 2007-06-29 2011-05-03 Microsoft Corporation Integrated collaborative user interface for a document editor program
US8627403B1 (en) * 2007-07-31 2014-01-07 Hewlett-Packard Development Company, L.P. Policy applicability determination
JP4591553B2 (ja) * 2008-06-11 2010-12-01 コニカミノルタビジネステクノロジーズ株式会社 データ処理装置及び同処理方法並びに同処理プログラム
JP2009301335A (ja) * 2008-06-13 2009-12-24 Ricoh Co Ltd 画像処理装置、画像処理方法及びコンピュータプログラム
JP2010033269A (ja) * 2008-07-28 2010-02-12 Canon Inc 文書管理システム、文書管理方法、及びコンピュータプログラム
JP5266992B2 (ja) * 2008-09-11 2013-08-21 株式会社リコー 電子ドキュメント管理システム、電子ドキュメント管理方法およびそのプログラム
US8233180B2 (en) * 2009-02-05 2012-07-31 Xerox Corporation Methods for automatically determining workflow for print jobs
JP5586970B2 (ja) * 2010-01-25 2014-09-10 キヤノン株式会社 情報処理装置および制御方法およびプログラム
JP5724286B2 (ja) * 2010-10-22 2015-05-27 富士通株式会社 帳票作成装置、帳票作成方法、プログラム
JP5620786B2 (ja) * 2010-10-26 2014-11-05 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理方法および情報処理システム
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
US8798366B1 (en) 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9811673B2 (en) * 2011-01-11 2017-11-07 International Business Machines Corporation Content object encapsulating content items for accessing content and access authorization information
US9881009B1 (en) * 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
JP2012247918A (ja) * 2011-05-26 2012-12-13 Konica Minolta Business Technologies Inc ファイル名作成装置およびファイル名作成プログラム
US8782519B1 (en) * 2011-10-27 2014-07-15 Symantec Corporation Systems and methods for archiving and displaying lengthy documents based on content priority levels
WO2015004645A2 (en) * 2013-07-12 2015-01-15 Capital Warren (Pty) Ltd Business networking
JP6485150B2 (ja) * 2015-03-20 2019-03-20 株式会社リコー 情報処理装置、出力システム、出力方法およびプログラム
KR101790594B1 (ko) * 2016-06-10 2017-10-27 주식회사 지어소프트 파일의 속성 정보를 관리하는 방법 및 컴퓨팅 장치
WO2018180023A1 (ja) * 2017-03-31 2018-10-04 株式会社ミロク情報サービス ファイル管理装置、ファイル管理方法、及びファイル管理プログラム
JP7182022B2 (ja) * 2017-09-11 2022-12-01 株式会社日立システムズ コンピュータ装置および文書処理プログラム
JP7011912B2 (ja) * 2017-09-11 2022-01-27 株式会社日立システムズ 文書処理システム、処理システムおよび文書処理プログラム
US11080808B2 (en) 2017-12-05 2021-08-03 Lendingclub Corporation Automatically attaching optical character recognition data to images
JP2020065193A (ja) * 2018-10-18 2020-04-23 シャープ株式会社 画像形成装置、画像処理方法及び画像処理プログラム
KR20210064860A (ko) * 2019-11-26 2021-06-03 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 메타데이터 태그 입력에 기초한 화상 형성 작업의 처리
US20220405417A1 (en) * 2021-06-17 2022-12-22 International Business Machines Corporation Sensitive data classification in non-relational databases

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6427032B1 (en) * 1997-12-30 2002-07-30 Imagetag, Inc. Apparatus and method for digital filing
JP3832077B2 (ja) * 1998-03-06 2006-10-11 富士ゼロックス株式会社 文書管理装置
JP2002041552A (ja) * 2000-07-27 2002-02-08 Canon Inc 文書格納システム及びその方法並びにスキャナ装置及びその制御方法
JP2002055985A (ja) * 2000-08-07 2002-02-20 Ntt Data Corp 文書属性識別装置及び方法
US7031033B2 (en) * 2000-08-31 2006-04-18 Canon Kabushiki Kaisha Data communication apparatus
JP2002116946A (ja) 2000-10-11 2002-04-19 Canon Inc マルチメディアデータ蓄積方法及び装置及び記憶媒体
JP2002245064A (ja) 2001-02-13 2002-08-30 Fuji Xerox Co Ltd 検索支援装置、検索支援方法、及びプログラム
US6988093B2 (en) * 2001-10-12 2006-01-17 Commissariat A L'energie Atomique Process for indexing, storage and comparison of multimedia documents
US7272610B2 (en) * 2001-11-02 2007-09-18 Medrecon, Ltd. Knowledge management system
US7209599B2 (en) * 2002-07-12 2007-04-24 Hewlett-Packard Development Company, L.P. System and method for scanned image bleedthrough processing
JP2004078343A (ja) * 2002-08-12 2004-03-11 Konica Minolta Holdings Inc 文書管理システム
KR20050094041A (ko) 2003-01-21 2005-09-26 코닌클리케 필립스 일렉트로닉스 엔.브이. 화상들에 대한 메타데이터 부가
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
US8014557B2 (en) * 2003-06-23 2011-09-06 Digimarc Corporation Watermarking electronic text documents
WO2005006138A2 (en) * 2003-06-30 2005-01-20 Idocuments, Llc Worker and document management system
CN100382096C (zh) * 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US7561310B2 (en) * 2003-12-17 2009-07-14 Market Hatch Co., Inc. Method and apparatus for digital scanning and archiving
US7581028B2 (en) * 2004-01-22 2009-08-25 The United States Of America As Represented By The Secretary Of The Air Force Method for efficient image distribution and management
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US20050210009A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for intellectual property management
US20070300142A1 (en) * 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US7672543B2 (en) * 2005-08-23 2010-03-02 Ricoh Co., Ltd. Triggering applications based on a captured text in a mixed media environment
AU2005201758B2 (en) * 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
US20080183650A1 (en) * 2007-01-29 2008-07-31 Kabushiki Kaisha Toshiba Document management apparatus and document management method
CA2629930A1 (en) * 2007-04-26 2008-10-26 Bowe Bell + Howell Company Document processing system control using document feature analysis for identification

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959538A (zh) * 2009-12-21 2013-03-06 国际商业机器公司 给文档编索引
CN102959538B (zh) * 2009-12-21 2016-10-12 国际商业机器公司 给文档编索引
CN102567287A (zh) * 2010-12-25 2012-07-11 上海量明科技发展有限公司 记录字符时间信息量的方法及系统
CN102567287B (zh) * 2010-12-25 2016-08-03 上海量明科技发展有限公司 记录字符时间信息量的方法及系统
CN108629160A (zh) * 2017-03-17 2018-10-09 富士施乐株式会社 文档管理系统和处理设备
CN108629160B (zh) * 2017-03-17 2023-08-11 富士胶片商业创新有限公司 文档管理系统和处理设备
CN110737629A (zh) * 2019-08-30 2020-01-31 华迪计算机集团有限公司 一种用于归档电子文件的方法及系统
CN112181779A (zh) * 2020-09-28 2021-01-05 北京云歌科技有限责任公司 一种ai元数据的综合处理方法和系统
CN112181779B (zh) * 2020-09-28 2024-06-04 北京云歌科技有限责任公司 一种ai元数据的综合处理方法和系统

Also Published As

Publication number Publication date
JP2006053889A (ja) 2006-02-23
US20090100327A1 (en) 2009-04-16
US20060036934A1 (en) 2006-02-16
US7475336B2 (en) 2009-01-06
CN100478947C (zh) 2009-04-15
US20090154815A1 (en) 2009-06-18

Similar Documents

Publication Publication Date Title
CN1734453A (zh) 文档信息处理设备及文档信息处理方法
US8326090B2 (en) Search apparatus and search method
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
US8166382B2 (en) Data processing apparatus, method of registering electronic document, and computer program
EP1583348B1 (en) Check boxes for identifying and processing stored documents
US8203740B2 (en) Image processing apparatus, distribution management method, and recording medium
KR101814120B1 (ko) 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치
CN101998016B (zh) 图像形成设备及图像处理设备、系统和方法
US20060206498A1 (en) Document information management apparatus, document information management method, and document information management program
CN101064760A (zh) 扫描文档管理系统
US8250103B2 (en) Image log management device, image log management method, image log management program
CN1713172A (zh) 文件处理装置和方法
JP6127597B2 (ja) 情報処理装置、その制御方法及びプログラム
US20070214177A1 (en) Document management system, program and method
JP2005018603A (ja) 文書管理方法、文書管理プログラム、記録媒体及び文書管理装置
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP2011139363A (ja) 画像形成装置、情報処理装置、データ処理サーバ及び情報処理方法
JP2009134580A (ja) 文書データベースシステムおよび画像入力装置
JP2023053602A (ja) 装置、情報処理方法、及びプログラム
JP2011028503A (ja) 画像処理装置、画像処理方法、およびプログラム
JP2007158507A (ja) 画像処理装置、情報処理装置、データ処理方法、記憶媒体およびプログラム
JP7364998B2 (ja) 文書分類システムおよび文書分類プログラム
US20240273067A1 (en) Information processing apparatus, method for controlling information processing apparatus, and storage medium
JP2006285581A (ja) 文書管理装置
JP2005049982A (ja) 文書管理方法、文書管理プログラム、記録媒体及び文書管理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant