JP2009134580A - 文書データベースシステムおよび画像入力装置 - Google Patents

文書データベースシステムおよび画像入力装置 Download PDF

Info

Publication number
JP2009134580A
JP2009134580A JP2007310956A JP2007310956A JP2009134580A JP 2009134580 A JP2009134580 A JP 2009134580A JP 2007310956 A JP2007310956 A JP 2007310956A JP 2007310956 A JP2007310956 A JP 2007310956A JP 2009134580 A JP2009134580 A JP 2009134580A
Authority
JP
Japan
Prior art keywords
document
image
search
document data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007310956A
Other languages
English (en)
Inventor
Masahito Yamamoto
雅仁 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2007310956A priority Critical patent/JP2009134580A/ja
Publication of JP2009134580A publication Critical patent/JP2009134580A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 入力文書に関連するストレージ上の文書のメタデータをも活用することによって、意味的で高度な検索を可能とする。
【解決手段】 オフラインでラスタ画像志向の文書のデータとその文書に対して施された処理のメタデータを、ストレージ上の文書とメタデータとそれらの関連から構成される意味的ネットワークの適切な位置に再結合できる文書データベースシステムとする。
【選択図】 図13

Description

本発明は、文書データベースシステム、ならびに文書データベースと接続され画像データを入力する画像入力装置に関する。
ストレージ技術の進化および低コスト化が進み、従来では考えられないほど大量の文書データを蓄積管理することが可能となっている。ファイルサーバ、文書管理システム、およびグループウェアなどが普及し、また、高機能化および高性能化が進んでいる。またPCなどの情報処理装置が進化する一方で、コピー機、プリンタ、イメージスキャナ、ファクス、デジタルカメラ、文書ストレージや画像の送受信機能を備えた複合機(MFP)などの各種の映像事務機器がネットワーク対応している。顧客のネットワーク環境においては、情報処理装置や各種映像事務機器群の間で大量の文書データの交換が常時行われているが、オフィスのネットワークを流通する文書トラフィックを積極的にストアするストレージインフラストラクチャが実用化されつつある。
特許3486452号公報では、操作者の手を煩わすことなく確実に、必要な画像の控えを残す複合画像処理装置を提供するために、少なくとも2つの画像データ出力装置が接続できる複合画像処理装置であって、画像処理ジョブの処理パラメータを監視し起動されたジョブが所定の条件を満たしているかどうかを判定するジョブ条件判定手段と条件を満足すると判定されたジョブの実行に際して、処理本来の画像データ出力先に加えて、所定の第2の画像データ出力装置(画像ファイルなど)にも画像データを送る制御手段と、を備える画像処理装置を開示している。
ユーザがこれらの装置群において文書を取り扱う処理を行うたびにその文書をストアする理由は、機密漏えいの抑止などセキュリティを目的とする監査のためや、以前に作成した文書や以前に実施した処理に類似した無駄な二度手間をできるだけ省き既存の資産をうまく再利用することでより創造的なナレッジワークを促進するため、などの理由が挙げられる。セキュリティを目的に、文書を処理する都度その文書の控え画像をストアするシステムとして、キヤノン株式会社はジョブアーカイブシステム(Job Archive System)と呼ぶシステムを製品化している。
このようなオフィスのネットワークを流通する文書トラフィックを積極的にストアするストレージインフラストラクチャでは、文書の内容データをストアするだけでなく、文書に関連する各種の付加情報、すなわちメタデータもストアする。たとえば、文書と他の文書の関連情報や文書のライフサイクルにまつわる履歴情報がメタデータとして、当該の文書と関連づけられてストアされる。文書間の関連には、たとえば同一カテゴリに属する文書のグルーピング、旧版と改訂版、アプリケーションデータとプリント時に収集されたスナップショット文書、類似文書、同一ページ含む文書、類似画像を含む文書、などがある。文書のライフサイクルにまつわるメタデータには、たとえば文書に対して施された処理の内容、パラメータ、時刻、用いた装置、場所、および処理の操作者の情報などが含まれる。
特開2004-78735では、文書を扱う装置(プリンタ、スキャナ、コピー機、FAX、プロジェクタ、デジタルカメラなど)に文書管理機能の一部を実装し、文書を扱うごとに、文書情報と、文書を扱った関係者に関する付加情報とを、文書管理サーバへ送信するファイリングシステムが開示されている。
電子的な文書データファイル形式の分野では、文書の内容データに付随するメタデータを文書データに関連づけて表現するファイル形式が使われている。OpenDocument Format (ISO/IEC 26300) やOffice Open XML (Ecma-376) では、文書ファイル形式の中に、XML文書によるメタデータの表現を含んでいる。
特開平09-091301では、コンピュータなどのデジタルの世界と紙の文書の間に情報の連続性・関連性を構築して、紙の文書をデジタルの世界の文書情報管理システム内に組み込むとともに、紙の文書を媒体としてデジタルの世界に直接アクセス可能とし、さらに紙の文書を用いたハイパーテキストを実現することを目的とした文書情報管理システムおよび方法として「紙ハイパーテキスト」が開示されている。このシステムおよび技術では、媒体用紙上の任意の位置に記録した記載情報に選択情報を付与することにより、ファイル手段から所望の関連情報ファイル(電子化した文書)を検索し出力する。関連情報ファイルを検索するための連結情報も媒体用紙に記録されている。
特許3486452号公報 特開2004-78735号公報 特開平09-091301号公報
オフィスなどにおける最重要資源のひとつである文書は、今後、膨大な容量がストアされることになると予想される。また、文書の生成と処理はオフィスの基本活動なので、その容量は増え続け、高いダイナミズムで変化しつづける。このような膨大でダイナミックに文書が蓄積される空間を、カテゴリーなどの木構造の分類で整理することは難しい。ちょうどインターネットにおけるポータルサイトの主軸が従来のカテゴリーによって整理されたリンク集のサービスから強力な全文検索(full-text search)に基づく検索サービスへと移行したように、膨大で未整理の文書ストレージから効率よく検索する手段を充実させる必要がある。インターネットにおける検索サービスだけでなく、エンタープライズサーチと呼ばれる企業ネットワーク内での全文検索やコンテンツ検索の活用が普及しつつある。
ストアされた膨大な文書の中から所望の文書を効率的に検索するためには、文書の内容データだけでなく文書に付随する各種メタデータや、他の文書との関連を活用することが重要である。たとえば、ユーザが文書に対して行った処理のような、ユーザのオフィスにおけるアクティビティを反映するメタデータをキーとして検索できるようになれば、より高度で意味的な検索機能が提供できる。
また、複数の文書とメタデータをノードとし、文書間、メタデータ間の関連から構成される意味的なネットワークを一種の知識表現として活用することで、さまざまな応用の可能性が広がる。文書とメタデータのネットワークを、分類、分析、加工することによって、いわゆるデータマイニングやビジネスインテリジェンスのために用いることができる。また、このネットワークは、文書や文書をめぐるオフィスワーカの行動を表現しているので、統計処理などによる統合を施すことにより、いわゆる「群集の叡智」あるいは「集合知」を引き出し活用できる。なお「群集の叡智」はインターネットにおいて「Web 2.0」の潮流を特徴づけるひとつの要素として注目を集めている。今後はイントラネットにおいても活用することで、オフィス全体の生産性を著しく高めることが期待できる。
ところが、この意味的なネットワークと電子的にリンクされているオンライン文書やメタデータを内包するファイル形式の電子文書は、ひとたび紙媒体へプリント、またはファクス送信されると、そのメタデータや他の文書との関連データを失ってしまうという問題があった。すなわち紙媒体文書やファクス文書のような、ネットワーク的にオフラインでありラスタ画像志向な文書は、前記のメタデータや意味的な関連のネットワークから切り離されてしまうという問題があった。
特許文献3の先行技術では、紙媒体上にデジタルの世界の関連情報ファイルを検索するための連結情報が記録されている。しかし、紙のスキャンやファクス受信といった処理に際して、そのオフラインなラスタ画像文書およびその処理に関するメタデータを、オンラインの意味的なネットワーク中に再結合することはできないという問題があった。すなわち、ストレージインフラストラクチャ内に存在するオンライン文書と、それらの処理の対象となったオフラインラスタ画像文書(およびその処理に関するメタデータ)を関連づけてストアすることはできない。
本発明はこのような問題点に鑑みてなされたものであって、オフラインでラスタ画像志向の文書のデータとその文書に対して施された処理のメタデータを、ストレージ上の文書とメタデータとそれらの関連から構成される意味的ネットワークの適切な位置に再結合できる文書データベースシステムならびに画像入力装置を提供することを目的とする。
これにより、オフラインでラスタ画像志向の文書の検索に際して、その文書に関連するストレージ上の文書のメタデータをも活用することによって、意味的で高度な検索ができる文書データベースシステムならびに画像入力装置を提供することを目的とする。
また、これにより、文書とメタデータとそれらの関連から構成される意味的ネットワークから「群集の叡智」を導き出す際に、オフラインでラスタ画像志向の文書に対して施したユーザの行動をも活用できる文書データベースシステムならびに画像入力装置を提供することを目的とする。
上記目的を達成するために、請求項1記載の発明によれば、複数の文書データと、文書データに関連づけられたメタデータを格納するデータベース手段と、前記メタデータは少なくとも、前記複数の文書間の関連を示す関連メタデータと、文書に対する操作の履歴を示す操作履歴メタデータとを含み、ラスタ画像文書データを入力するラスタ画像文書データ入力手段と、入力されたラスタ画像文書データと関連する文書データを、前記データベース手段によって格納されている前記文書データの中から特定するための関連文書特定手段と、ラスタ画像文書データ入力手段によって処理された入力処理の履歴を、前記特定された文書データに関連づけられたメタデータとして蓄積するストア手段を備えることを特徴とする。
請求項2記載の発明によれば、さらに、前記ラスタ画像文書データ入力手段は、ラスタ画像がプリントされた媒体をスキャンまたは撮影する画像入力手段であることを特徴とする。
請求項3記載の発明によれば、さらに、前記ラスタ画像文書データ入力手段は、他の装置から送信されたラスタ画像文書データを受信する受信手段であることを特徴とする。
請求項4記載の発明によれば、さらに、前記関連文書特定手段は、前記入力されたラスタ画像文書と、前記データベース手段によって格納されている前記文書データとの類似度に基づいて、前記関連する文書データを特定することを特徴とする。
請求項5記載の発明によれば、さらに、前記関連文書特定手段は、前記入力されたラスタ画像文書に画像として符号化されて埋め込まれた文書識別のための情報に基づいて、前記関連する文書データを特定することを特徴とする。
請求項6記載の発明によれば、さらに、前記データベース手段に格納された操作履歴メタデータのいくつかは、関連する文書データを媒体へプリントした処理に関するプリント操作履歴メタデータを含み、前記プリント操作履歴メタデータは、当該の操作に際してプリントした媒体を特徴づける媒体特徴データを含み、前記関連文書特定手段は、前記画像入力手段がスキャンまたは撮影した印字媒体の特徴に基づいて、前記関連する文書データを特定することを特徴とする。
請求項7記載の発明によれば、複数の文書データと、文書データに関連づけられたメタデータを格納するデータベースに接続され、前記メタデータは少なくとも、前記複数の文書間の関連を示す関連メタデータと、文書に対する操作の履歴を示す操作履歴メタデータとを含み、ラスタ画像文書データを入力するラスタ画像文書データ入力手段と、入力されたラスタ画像文書データと関連する文書データを、前記データベースによって格納されている前記文書データの中から特定するための関連文書特定手段と、ラスタ画像文書データ入力手段によって処理された入力処理の履歴を、前記特定された文書データに関連づけられたメタデータとして前記データベースへ蓄積するストア手段を備えることを特徴とする。
さらに、上記をコンピュータに実行させるためのプログラムが提供される。
本発明によれば、文書データベースシステムにおいて、オフラインでラスタ画像志向の文書のデータとその文書に対して施された処理のメタデータを、文書とメタデータとそれらの関連から構成されるストレージ上の意味的ネットワークの適切な位置に再結合することが可能となる。
以下、本発明を実施するための最良の形態について、図面を参照して説明する。
図1は、本発明の一実施の形態に係る画像処理システムの全体構成を示すブロック図である。
図1において、画像処理システムは、互いにネットワークを介して接続された画像処理装置110,120,130とパーソナルコンピュータ101、102とサーバシステム140とから構成される。ネットワークは、例えばLAN(Local Area Network)100で構成される。
画像処理装置110は、画像入力デバイスであるスキャナ113、画像出力デバイスであるプリンタ114、制御ユニット(Controller Unit)111、ユーザインタフェースである操作部112から構成される。
スキャナ113、プリンタ114、操作部112はそれぞれ、制御ユニット111に接続されて、制御ユニット111からの命令によって制御される。制御ユニット111は、LAN100に接続されている。
また、画像処理装置120、130は、画像処理装置110と同様の構成となっている。
パーソナルコンピュータ101は、複数のユーザのそれぞれが主に個人的に使用する情報処理装置であり、ユーザが利用するアプリケーションプログラムやユーザのデータ等を格納している。
サーバシステム140は、サーバコンピュータ141と大規模ストレージ装置142から構成される。
サーバコンピュータ141は、複数のユーザやクライアントシステムに対してサービスを提供するサーバアプリケーションや共有データ等を格納している。大規模ストレージ装置142は、高性能で信頼性が高い大規模な二次記憶装置であり、主にサーバコンピュータ141上で稼動するデータベース管理システム(DBMS)のデータ等を格納している。
サーバシステム140によってサービスされるサーバアプリケーションのひとつは、ネットワーク全域に渡って流通するジョブ文書をアーカイブ(すなわち蓄積管理)するデータベース(DB)アプリケーションである(以下「ジョブアーカイブアプリケーション」と呼ぶ)。ジョブアーカイブアプリケーションは、ネットワークに接続された他の装置群にそれぞれ組み込まれたソフトウェアと連携して、ジョブアーカイブシステムと呼ばれる分散アプリケーションを構成する。
図1のシステムにおいて、パーソナルコンピュータ101は、画像処理装置110、120、130や、サーバシステム140などとLAN100を介して連携する。たとえばパーソナルコンピュータ101は、画像処理装置110に対して文書を送信および受信して、プリント、スキャン、ファクス送信と受信、ボックス(画像処理装置110に組み込みの文書管理システム)への蓄積とリトリーブ、などのジョブを実行する。文書を処理するジョブを実行するとき、サーバシステム140上で稼動するジョブアーカイブアプリケーションが、ジョブ情報とジョブの処理対象文書データの控えをアーカイブする。たとえば、プリントジョブの場合、パーソナルコンピュータ101のプリンタドライバが画像処理装置110へジョブを投入するとともに、サーバシステム140へもそのジョブに関連する情報と処理対象文書のデータを送信することで、アーカイブが達成される。
また、図1のシステムにおいて、画像処理装置110は、他の画像処理装置120、130や、パーソナルコンピュータ101、102や、サーバシステム140などとLAN100を介して連携する。たとえば、画像処理装置110は、原稿の画像をスキャンしてデジタルデータ化し他の装置へ送信したり、他の装置が保有しているデータをリトリーブしてプリントしたりローカルのボックスへ蓄積したり更に他の装置へ転送したりするジョブを実行する。これらの文書を処理するジョブを実行するときにも、サーバシステム140上で稼動するジョブアーカイブアプリケーションが、ジョブ情報とジョブの処理対象文書データの控えをアーカイブする。たとえば、プッシュスキャンジョブの場合、画像処理装置110の「送信」アプリケーションが、原稿文書をスキャナで読み取ったデジタル文書データを本来の送信宛先に送信するとともに、サーバシステム140へもそのジョブに関連する情報と処理対象文書のデータを送信することで、アーカイブが達成される。
このようにして、ネットワーク全域に渡り流通するジョブ文書はジョブアーカイブアプリケーションにアーカイブされている。
図2は、サーバシステム140において稼動するジョブアーカイブアプリケーションのソフトウェア構成を示すブロック図である。
DB管理システム201は、データベース管理システムであり、大量のレコードを含む大容量のデータを、レコード間の関連とともに構造化したデータベースとして格納する。また、SQLなどの問い合わせ言語による問い合わせに応じて、条件に合致するレコードをデータベースから高速にリトリーブする。DB管理システム201は、文書DB202、ジョブDB203、インデクスDB204を含む。DB管理システムはよく知られたリレーショナルデータベースやオブジェクト指向データベースなどの実装によって実現できる。
文書DB202は、ジョブアーカイブシステムが蓄積管理する文書データを格納するデータベースである。文書の内容データと文書に関連するメタデータとを文書レコードとして格納している。文書DB202とジョブDB203とは、格納されるレコード間で相互に関連している。
ジョブDB203は、ジョブアーカイブシステムが蓄積管理するジョブデータをジョブレコードとして格納するデータベースである。ジョブDB203と文書DB202とは、格納されるレコード間で相互に関連している。
インデクスDB204は、ジョブアーカイブシステムが蓄積管理する文書データやジョブデータから、所望のデータを高速に検索するためのインデクスレコードを格納するデータベースである。インデクスDB204に格納されるインデクスレコードは、文書DB202およびジョブDB203内のレコードを参照している。
ストア部205は、画像処理装置110やパーソナルコンピュータ101などのクライアント装置から文書データおよびジョブデータを受信して、DB管理システム201に格納する格納要求受け付けモジュールである。ストア部205は、受信した文書データとジョブデータをDB管理システム201に格納する。また、ストア部205は、受信した文書データのデータ形式に応じてメタデータを生成するための処理を切り替える。受信した文書データが、画像スキャナで読み取ったりデジタルカメラで撮影したりファクスで受信したりして生成されるラスタ画像文書データである場合、文書データをラスタが増ページ処理部206に送る。受信した文書データがコード化された文書データであった場合、すなわち、ページ記述言語やベクタ表現された各種文書フォーマットであったり、デスクトップパブリッシングやワードプロセッサや表計算やプレゼンテーションやドローイングやペインティングなどの各種アプリケーションの文書フォーマットであったりした場合には、展開部210に送る。
ラスタ画像ページ処理部206は、ラスタ画像文書から文書を構成するページを切り分けてページごとに処理するモジュールである。ラスタ画像ページ処理部206は、切り分けたページ画像を画像特徴抽出部207および画像構造解析部208に送る。
画像特徴抽出部207は、ラスタ画像データを解析して画像間の類似性判定の基準として用いる特徴を抽出するモジュールである。抽出した特徴はDB管理システム201に送り格納する。類似画像検索に有効な特徴抽出の手法は数多く知られている。本実施例では、特定のアルゴリズムには依存せず有効な手法を複数併用する。採用可能な手法には、たとえば以下のものを含む。画像中のエッジなどからオブジェクトを抽出し形状を判定し形状やその配置や配色や複数のオブジェクト間の位置関係などを用いるものや、画像全体を構成する支配的な色の組み合わせや配色パターンをヒストグラムなどで抽出して用いるものや、認知的な類似性判定に近い特性を持つ特徴量を導き出す各種の数学処理(たとえばフーリエ・メリン変換 Fourier Mellin Transforms)を用いるものがある。特開2006-065866のアプローチも好適な手法である。
画像構造解析部208は、ラスタ画像データからその構造を解析するモジュールである。ブロックセレクションあるいは像域分離などの手法を用いて、ひとかたまりの画像領域(ページ)から、それを構成する特性の異なる複数の領域(文字領域、画像領域、写真領域、グラフィクス領域、白黒領域、カラー領域など)に分解し、領域構造に関する解析と分類を行う。また、背景などの下地バターンとその上に配置された文字や形状などのオブジェクトとの、レイヤ構造に関する解析と分類も行う。解析の結果得られた画像領域(あるいは画像レイヤ)のラスタ画像データを画像特徴抽出部207に送る。また、解析の結果得られたテキスト領域(またはテキストレイヤ)のラスタ画像データをOCR209に送る。また、解析の結果得られた構造情報はDB管理システム201に送り格納する。
OCR209は、文字が描画されたラスタ画像データを解析して文字認識するモジュールである。文字認識したテキストデータ(すなわち、Unicodeなどによってコード化されたデータ)をDB管理システム201に送り格納する。
インデクス生成部211は、文書DB202やジョブDB203から高速にデータを検索するためのインデクス情報を生成するモジュールである。インデクスは、検索キーとして与えられる画像に類似した画像を含む文書レコードを高速に検索したり、検索キーとして与えられるテキストを文書内容データやページ内容データの中に含む文書レコードを高速に全文検索したり、検索キーとして与えられる条件に合致するメタデータを持つ文書レコードやジョブレコードを高速に検索したりするために、予め生成される。インデクス生成もまた、知られている複数の手法を併用できる。全文検索のためのインデクス生成には、たとえばN−グラム(N-gram)の手法を用いる。類似画像検索のためのインデクス生成のためには、画像の特徴を表現する特徴ベクトルを予め分類(クラスタリング)したりハッシュ関数などによって順序づけたりしておく。インデクス生成211によるインデクス生成は、文書データやジョブデータの追加登録や編集などによって文書DB202やジョブDB203が更新されたときに行われる。また、各DBの更新とは非同期に、バッチ処理としてインデクス生成することもできる。生成したインデクスはDB管理システム201のインデクスDB204に格納する。
リトリーブ部212は、画像処理装置110やパーソナルコンピュータ101などのクライアント装置から検索キー画像または検索キーテキストとその検索要求を受け付けて、これに応じてDB管理システム201から文書データを検索し、ヒットした文書データや文書に関連するサムネール画像やジョブデータなどのメタデータをクライアント装置に返信するモジュールである。
文書検索部213は、文書検索要求に合致する文書を検索するモジュールである。検索要求と与えられた検索キーの型に応じて、文書の内容データに基づく検索や文書に含まれるページデータに基づく検索や文書のメタデータに基づく検索や文書に関連するジョブに基づく検索を組み合わせて、検索要求に合致する文書レコードの候補を複数探し出す。
ページ検索部214は、文書に含まれるページデータに基づく検索の要求に応じて、文書DB202から、検索要求の条件に合致するページレコードの候補(およびそのページを含む文書)を複数探し出す。
類似画像検索部215は、検索キーとして与えられた画像に基づく類似画像検索の要求に応じて、検索キー画像に類似する画像を含むページ内容データを持つページレコード(およびそのページを含む文書)を複数探し出す。類似画像検索は、画像特徴抽出部207と同様の画像特徴抽出を検索キー画像に対して行い、特徴間の類似性をもとに類似画像を検索する。
ここでは、多く知られている画像を検索キーとして類似画像を検索する類似画像検索の手法を組み合わせて適用する。画像中のエッジなどからオブジェクトを抽出し形状を判定し形状やその配置や配色や複数のオブジェクト間の位置関係などを用いるものや、画像全体を構成する支配的な色の組み合わせや配色パターンをヒストグラムなどで抽出して用いるものなどがある。また、特開2006-065866で開示されているような、認知的な類似性判定に近い特性を持つ特徴量を導き出す数学処理を用いる類似画像検索も好適な手法である。
DB操作部215は、サーバコンピュータ141の管理コンソールまたは画像処理装置110やパーソナルコンピュータ101などのクライアント装置から、データベースに対する操作や各データベース内のレコードに対する操作要求を受け付けて処理し結果を返送するデータベース操作モジュールである。レコードに対する操作は、たとえば、メタデータ(タグなど)の追加や編集といった操作を含む。
図3は、画像処理装置110のハードウェア構成を示すブロック図である。画像処理装置120,130も同じ構成を備える。
制御ユニット111は、画像入力デバイスであるスキャナ113や画像出力デバイスであるプリンタ114と接続し、一方ではLAN100や公衆回線(WAN)と接続することで、画像情報やデバイス情報の入出力を行なうコントローラである。
CPU301は、制御ユニット111全体を制御するコントローラである。RAM302は、CPU301が動作するために使用するシステムワークメモリである。また、RAM302は、画像データを一時記憶するための画像メモリでもある。ROM303は、ブートROMであり、システムのブートプログラムが格納されている。HDD304は、ハードディスクドライブであり、システムソフトウェア、画像データを格納する。
操作部I/F306は、操作部(UI)112との間のインタフェースを司り、操作部112に表示すべき画像データを操作部112に対して出力する。また、使用者が操作部112を介して入力した情報を、CPU301に伝える役割を果たす。
ネットワークインタフェース(Network)308は、LAN100との接続を司り、LAN100に対して情報の入出力を行なう。モデム(MODEM)309は、公衆回線との接続を司り、公衆回線に対して情報の入出力を行なう。以上のデバイスがシステムバス307上に配置される。
イメージバスインターフェース(Image Bus I/F)305は、システムバス307と画像データを高速で転送する画像バス310とを接続し、データ構造を変換するバスブリッジである。画像バス310は、PCIバスまたはIEEE1394で構成される。
画像バス310には以下のデバイスが配置される。ラスタイメージプロセッサ(RIP)311は、ネットワークから送信されたPDLコードをビットマップイメージに展開する。デバイスI/F部312は、画像入出力デバイスであるスキャナ113やプリンタ114と制御ユニット111とを接続し、画像データの同期系/非同期系の変換を行なう。
スキャナ画像処理部313は、入力画像データに対し補正、加工、編集を行なう。プリンタ画像処理部314は、プリント出力画像データに対して、プリンタ114の性能に応じた補正、解像度変換等を行なう。画像回転部315は画像データの回転を行なう。画像圧縮部316は、多値画像データに対してはJPEG圧縮伸長処理を行い、2値画像データに対してはJBIG、MMR、MHの圧縮伸長処理を行なう。
図4は、画像処理装置110の外観を示す斜視図である。画像処理装置120,130も同等の外観を備える。なお、これ以降では、画像処理装置110について説明するが、画像処理装置120,130でも同じ構成が備えられ、同じ動作が行なわれる。
画像入力デバイスであるスキャナ113は、原稿となる紙上の画像を照明し、CCDラインセンサ(図示せず)を走査することによって、ラスターイメージデータを生成する。
使用者が原稿用紙を原稿フィーダ405のトレイ406にセットして、操作部112において読み取りの起動を指示すると、制御ユニット111のCPU301がスキャナ113に指示を与え、トレイ406にセットされた原稿用紙は1枚ずつフィードされ、スキャナ113が原稿画像の読み取り動作を行なう。
画像出力デバイスであるプリンタ114は、ラスターイメージデータを用紙に印刷する部分である。その方式は、感光体ドラムや感光体ベルトを用いた電子写真方式、微少ノズルアレイからインクを吐出して用紙上に直接画像を印字するインクジェット方式等があるが、どの方式であってもよい。なお、プリント動作は、CPU301からの指示によって起動される。
プリンタ114は、異なる用紙サイズまたは異なる用紙向きを選択できるように複数の給紙段を持ち、それに対応した用紙カセット401、402、403がある。また、排紙トレイ404は、印字し終わった用紙を受けるものである。
図5は、画像処理装置110の操作部112の構成を示す平面図である。なお、画像処理装置120,130の操作部も同等の構成を備える。
LCD表示部501は、LCD(液晶表示装置)上にタッチパネルシート502が貼られた構成になっており、画像処理装置110の操作画面およびソフトキーを表示するとともに、表示してあるキーが押された場合には、押された位置を示す位置情報が制御ユニット111のCPU301に伝える。
スタートキー505は、原稿画像の読み取り動作を開始する場合等に操作されるキーである。スタートキー505の中央部には、緑と赤の2色LED表示部506があり、その色によってスタートキー505を操作できる状態であるか否かを示す。ストップキー503は、稼働中の画像処理装置110の動作を止めたい場合に操作されるキーである。IDキー507は、使用者のユーザIDを入力するときに操作されるキーである。また、リセットキー504は、操作部112からの設定を初期化するときに操作されるキーである。
図6は、画像処理装置110の操作部112及び操作部I/F306の内部構成を制御ユニット111の内部構成と対応させて示すブロック図である。なお、これ以降では、画像処理装置110について説明するが、画像処理装置110を画像処理装置120または画像処理装置130と読み替えても何ら支障は無い。
上述したように、操作部112は、操作部I/F306を介してシステムバス307に接続される。システムバス307には、CPU301、RAM302、ROM303、HDD304が接続されている。CPU301は、ROM303とHDD304に記憶された制御プログラム等に基づいて、システムバス307に接続される各種デバイスとのアクセスを総括的に制御する。また、CPU301は、デバイスI/F312を介して接続されるスキャナ113から入力情報を読み込み、またデバイスI/F312を介して接続されるプリンタ114に出力情報としての画像信号を出力する。RAM302はCPU301の主メモリ、ワークエリア等として機能する。
タッチパネル502や各種ハードキー503、504、505、507からのユーザ入力情報は、入力ポート601を介してCPU301に渡される。CPU301は、ユーザ入力情報の内容と制御プログラムとに基づいて表示画面データを生成し、画面出力デバイスを制御する出力ポート602を介して、LCD表示部501に表示画面データを出力する。また、必要に応じて2色LED表示部506を制御する。
図7は、画像処理装置110の操作部112に表示される標準的な操作画面の一例を示す図である。
図7の最上部701に並んでいるボタン群は、画像処理装置110が提供する各種機能から1つを選択するためのボタン群である。コピー機能は、スキャナ113でスキャンし読み取った原稿画像データをプリンタ114でプリントして原稿の複写物を得るための機能である。
送信機能は、スキャナ113で読み取った原稿画像データやHDD304に蓄積されている画像データを各種出力先に送信するための機能である。出力先としては、ネットワークインタフェース308経由で各種のプロトコルによって送信可能な各種の出力先、および、モデム309経由でファクシミリなどのプロトコルによって送信可能な各種の出力先があり、それらの中から複数の出力先を選択して送信することができる。
ボックス機能は、HDD304に蓄積されている画像データやコードデータなどの文書ファイルを閲覧、編集、プリント、および送信するための機能である。HDD304に蓄積される文書ファイルは、スキャナ113によって読み取った原稿画像データ、ネットワークインタフェース308経由でダウンロードしたデータ、ネットワークインタフェース308経由で他の装置から受信したプリントデータを蓄積したデータ、モデム309経由で他の装置から受信したファクシミリデータなどを含む。ボックス機能は、ユーザのオフィス環境において電子的なメールボックスとして利用できる。また、パスワードを入力するまで用紙へのプリント出力を遅延することによって、PDLプリントジョブの守秘性を高めるセキュアドプリントとして利用することもできる。ボックス機能は、画像処理装置110のHDD304だけでなく、他の画像処理装置120、130のHDDや、情報処理装置101、102が公開する共有ファイルシステムや、サーバシステム140がサービスする共有ファイルシステムやデータベースシステムなどに蓄積されている画像データやコードデータなどの文書ファイルにネットワーク100を介してアクセスし、閲覧、編集、プリント、および送信することもできる。
拡張機能は、スキャナ113を外部装置から利用するためにロックするなど、各種の拡張機能を呼び出すための機能である。
検索機能は、画像処理装置110のボックス機能や、他の画像処理装置のボックス機能や、情報処理装置が公開する共有ファイルシステムや、サーバシステム140がサービスする共有ファイルシステムやデータベースシステムから、所望の文書を検索するための機能である。
図7の中間部分702では、コピー機能が選択された場合の操作画面を表示している。
図7の最下部703はステータス表示領域であり、最上部701で選択された機能の如何に関わらず、画像処理装置110の各機能や装置自体の情報などの各種のメッセージをユーザに対して表示する。
図8は、DB管理システム201に格納される各データベースの抽象的なデータ構造を示す模式図である。
文書DB202は、複数の文書レコード801、複数の関連レコード811を含む。
文書レコード801は、ユーザが取り扱う紙文書や電子的な文書ファイルに対応するレコードである。文書レコード801は、文書メタデータ802、文書内容データ803、および複数のページレコード804を含む。
文書メタデータ802は、文書レコードに対応する文書に関連する各種のメタデータを格納するレコードである。文書メタデータ802は、対応する文書に関して、文書名、作者、作成日付、データ形式、データサイズ、ページ数、タグ、関連文書、ジョブ履歴、検索履歴などを含む。
タグとは、文書にユーザがつけた任意の文字列からなるキーワードのようなものである。ユーザはひとつの文書に対して複数のタグを自由につけることができるので、文書をさまざまな基準で分類したり検索しやすくしたりするために役立つ。共有の文書に対して、その文書をあとで参照したり利用したりする複数のユーザがあとからタグを追加していくこともできる。これによって文書を分類や検索するための意味的なメタデータを飛躍的に充実させることが期待できる。このアプローチをフォークソノミー folksonomy と呼ぶ場合がある。Folksonomy とは folks と taxonomy を組み合わせた用語である。
ジョブ履歴は、この文書を処理対象として実行された一連のジョブを特定する参照情報のリストである。1つの文書レコードは複数のジョブレコードへの参照を保持する場合がある。たとえば、明らかに同一と特定できる文書を複数のジョブが処理対象とした場合である。
文書内容データ803は、文書そのものの内容に対応するデータである。コード化された文書データが格納された場合における、テキストやアプリケーションプログラムのデータなどが相当する。紙の原稿に対応し画像スキャナで読み取られたラスタ画像データのように、文書を構成するページが明確に分離している場合は、ページレコード804内部に内容データを含める。
ページレコード804は、文書を構成するページのそれぞれに対応するレコードである。画像スキャナで紙原稿の表面と裏面をそれぞれ読み取ったラスタ画像データ群や、アプリケーションプログラムのデータを展開部210で展開してページ単位に分割した画像データや構造情報やテキストやメタデータ群などが、それぞれのページレコードに対応する。ページレコードは、ページメタデータ805とページ内容データ806などを含む。
ページメタデータ805は、ページレコードに対応するページに関連する各種のメタデータを格納するレコードである。ページメタデータ805は、構造情報、特徴、サムネール、検索履歴、媒体IDなどを含む。
構造情報は、画像構造解析部208や展開部210が解析して格納したページの構造に関する情報である。
特徴は、画像特徴抽出部208が抽出して格納したページを構成する画像の特徴を表現する情報である。
サムネールは、ページ全体の画像やページに含まれる画像要素を、解像度変換(または縮小変倍)して、比較的小さくて扱いやすいいくつかのサイズにした画像である。サムネール画像はページメタデータ805の生成時に生成してもよいし、外部からのリトリーブに応えるために必要となったときオンデマンドに生成してもよい。また、スケジューリングされたバッチ処理によって、まだ生成されていないサムネール画像群をまとめて生成するタスクを非同期に実行してもよい。
検索履歴は、対応するページに関する検索が行われた履歴情報を表現するデータである。
媒体IDは、対応するページに関連する紙などの記録媒体を識別する情報である。たとえば、媒体IDは、紙に埋め込まれた超小型無線ICチップの識別情報を用いて構成する。また、ペーパーフィンガープリント(紙指紋)技術などに基づき、用紙ごとに固有な紙の繊維パターンを識別情報として用いて構成する。また、用紙にプリントされる可視または不可視の画像パターンを識別情報として用いて構成する。画像パターンによって媒体識別情報を符号化する技術として、1次元ならびに2次元バーコード技術や、透明インクや透明トナー技術、磁性インクや磁性トナー技術、などの技術を用いることが好適である。
プリントジョブに伴って文書レコードを生成する場合、プリントに用いる媒体が超小型無線ICチップの埋め込まれた用紙ならば、用紙カセット401、402、403または出力用紙の搬送経路に配備された受信機(不図示)によって識別情報を読み取って、ページレコード804のページメタデータ805中の媒体IDにストアする。スキャンジョブに伴って文書レコードを生成する場合、スキャンした媒体が超小型無線ICチップの埋め込まれた用紙ならば、原稿フィーダ405の用紙搬送経路に配備された受信機(不図示)によって識別情報を読み取って、ページレコード804のページメタデータ805中の媒体IDにストアする。
用紙ごとに固有な紙の繊維パターンを識別情報として用いる構成では、プリントジョブに伴って文書レコードを生成する場合、用紙カセット401、402、403または出力用紙の搬送経路に配備された受信機(不図示)によって出力用紙の繊維パターンを読み取って符号化し、ページレコード804のページメタデータ805中の媒体IDにストアする。スキャンジョブに伴って文書レコードを生成する場合、スキャナ113、または原稿フィーダ405の用紙搬送経路に配備された繊維パターン読み取り専用スキャナ(不図示)によって、入力用紙の繊維パターンを読み取って符号化し、ページレコード804のページメタデータ805中の媒体IDにストアする。
用紙にプリントされる可視または不可視の画像パターンを識別情報として用いて構成では、プリントジョブに際して、まずページごとに、または、文書ごとにユニークな値をUUIDなどの技術を用いて生成する。そして、UUIDを符号化して画像パターンを生成する。さらに、画像パターンとプリントジョブの出力画像データ(ページ内容データ)とをオーバレイした画像データをプリンタ114によって出力用紙上にプリントする。出力用紙が正常に排紙されると、UUIDをページレコード804のページメタデータ805中の媒体IDにストアする。一方、スキャンジョブに伴って文書レコードを生成する場合、スキャナ113によって入力用紙の画像データ中に埋め込まれた画像パターンを読み取って復号化する。次に、得られたUUIDをページレコード804のページメタデータ805中の媒体IDにストアする。
ページ内容データ806は、ページそのものの内容に対応するデータである。紙原稿のページを画像スキャナで読み取ったラスタ画像データや、ファクスで受信した各ページのラスタ画像データや、コード文書を展開部210でページにレンダリングした画像データなどページ単位の画像データが、ページ内容データ806に格納される。また、ページ画像をOCR209で文字認識して得たテキストデータや、コード文書を展開部210が展開して得たページ単位のテキスト情報なども、ページ内容データ806に格納される。
関連レコード811は、複数の文書レコード801の組に関連づけられ、文書とその関連文書の間の関連を表現するためのレコードである。関連レコード811は、文書レコード801からみると付随するメタデータの一種である。関連レコード811は関連文書リストおよび関連情報などを含む。
関連文書リストは、関連レコード811によって関連を記述する複数の文書レコードを表現するデータである。
関連情報は、関連文書リストによって結合される複数の文書間の関連を表現するデータである。
ジョブDB203は、複数のジョブレコード808を含む。ジョブレコード808は、ユーザが実行した文書処理ジョブの各々に対応するレコードである。ジョブレコード808は、文書レコード801からみると付随するメタデータの一種である。ジョブレコード808は、日時、操作者、要求した装置、処理した装置、処理内容、および、処理文書などを含む。
日時は、ジョブを実行した日時を表現するデータである。
操作者は、ジョブを実行したユーザを特定するデータである。
要求した装置は、ジョブ実行の要求元になった装置である(たとえば、パーソナルコンピュータ101から画像処理装置110にプリントした場合、要求した装置はパーソナルコンピュータ101である)。
処理した装置は、ジョブを実質的に処理した装置である(たとえば、パーソナルコンピュータ101から画像処理装置110にプリントした場合、処理した装置は画像処理装置110である)。
処理内容は、ジョブの処理内容を特定する情報である。ジョブの種別、およびそれぞれのジョブ種別において選択可能な各種オプションと設定可能な各種パラメータをどのように選択・設定して処理したか特定する情報を含む。
処理文書は、このジョブが処理対象とした文書を特定する参照情報のリストである。1つのジョブレコードが複数の文書レコードを参照する場合がある。たとえば、1つのジョブが複数の文書を処理対象として実行された場合である。
インデクスDB204は、複数のインデクスレコード809を含む。インデクスレコード809は、文書DB202やジョブDB203から高速にデータを検索するためのインデクス情報であり複数の文書レコード801および複数のジョブレコード808を参照している。インデクスは、検索キーとして与えられる画像に類似した画像を含む文書レコードを高速に検索したり、検索キーとして与えられるテキストを文書内容データやページ内容データの中に含む文書レコードを高速に全文検索したり、検索キーとして与えられる条件に合致するメタデータを持つ文書レコードやジョブレコードを高速に検索したりするために、インデクス生成部211によって生成される。
図9は、検索処理の手順を説明するフローチャートである。
本実施例において、図の手順は画像処理装置110のCPU301において実行される組み込みアプリケーションプログラムによって達成される。この組み込みアプリケーションを文書検索アプリケーションと呼ぶ。
本フローチャートの一連の手順は、ユーザが操作部112の表示領域701中の「検索」ボタンを選択したときなどに開始する。
ステップ901で、文書検索機能の基本画面(検索画面)を操作部112の表示領域702に表示する。検索画面では、検索条件の設定、検索キーの入力、検索スタートなどができる。検索画面の構成は、図10によって説明する。
ステップ902で、ユーザの指示に応じて、検索キー画像を入力する。
ステップ903で、ユーザの指示に応じて、他の検索条件設定を入力する。
ステップ904で、ユーザからの検索開始指示を待つ。ユーザから検索開始が指示されるまでの間、ステップ902に戻り検索キー画像や他の検索条件設定の入力を繰り返す。ユーザから検索開始が指示されると、ステップ905に進む。
ステップ905で、検索処理を行う。文書検索アプリケーションは、サーバシステム140上で稼動するジョブアーカイブアプリケーションに接続し、リトリーブ部212に対して検索キーと検索条件を送信する。そして、リトリーブ部212による検索の結果ヒットした複数の文書に関して、検索結果リストの表示に必要なデータを受信する。類似画像検索や全文検索の特徴上、相当数の文書が検索にヒットする場合が多い。検索結果リストを表示するために必要なデータは、ヒットした文書に対応する文書レコードに含まれるメタデータおよび文書レコードに関連付けられたジョブレコードに含まれるデータの一部である。
ステップ906で、ジョブアーカイブアプリケーションから受信した情報に基づいて検索結果リストを表示する。検索結果リスト表示の構成は、図11によって説明する。
ステップ907で、ユーザがサムネール表示設定変更を指示したか判定する。指示を受けた場合は、ステップ908に進み、サムネール表示設定を変更し、次いでステップ906に戻り検索結果リストを再表示する。
ステップ909で、ユーザが文書レコードフィルタ変更を指示したか判定する。指示を受けた場合は、ステップ910に進み、文書レコードフィルタを変更し、次いでステップ906に戻り検索結果リストを再表示する。
ステップ911で、ユーザが文書やページの詳細項目表示を指示したか判定する。指示を受けた場合は、ステップ912に進み、選択された文書やページやジョブに関する詳細情報を示すウィンドウを表示する。ユーザが詳細項目表示ウィンドウを閉じるとステップ906に戻り検索結果リストを再表示する。
ステップ913で、ユーザが文書レコードに対する操作を指示したか判定する。リスト中に示された文書レコードに対して可能な操作は、印刷、保存、送信、タグ付け、関連文書の検索表示、マーク付け、などがある。指示を受けた場合は、ステップ914に進み選択された指示に対応する文書レコード操作を実行する。次いで、ステップ906に戻り検索結果リストを再表示する。
ステップ915で、ユーザが再検索を指示したか判定する。指示を受けていない場合、ステップ906に戻り検索結果リストを再表示する。再検索の指示を受けた場合は、ステップ901に戻り、再度一連の検索処理を実行する。
なお、この手順の一連の処理は情報処理装置101で実行してもよい。あるいは、一連の処理を部分に分割してそれぞれの処理を担当するソフトウェアを複数の装置上に配備して実行する分散アプリケーションとして構成することもできる。たとえば、検索画面や検索結果リストの表示とユーザからの指示入力を画像処理装置110上で実行し、それ以外の処理を情報処理装置101やサーバシステム140や他の画像処理装置120、130などの上で実行するように構成してもよい。逆に、検索画面や検索結果リストの表示とユーザからの指示入力を情報処理装置101上で実行し、それ以外の処理を画像処理装置110やサーバシステム140の上で実行するように構成してもよい。情報処理装置101において文書検索アプリケーションを操作する場合、手元に画像スキャナ113を備える画像処理装置110において操作する場合よりも紙原稿の画像を検索キー画像として入力する操作は不便になる。あらかじめ画像処理装置110のボックス機能などに蓄えた画像を、情報処理装置101や他の画像処理装置120などからも操作できるので、ボックスから選択した画像を検索キー画像として用いることは容易である。
なお、分散アプリケーションを構成する方法の1つとして、WebブラウザとWebサーバの組み合わせによって実現するWebアプリケーションの形態がよく知られている。
図10は、文書検索アプリケーションの基本画面である文書検索画面の構成例を表す図である。
文書検索画面1000は、文書検索アプリケーションの基本画面である。本実施例における文書検索アプリケーションは文書検索画面を操作部112の表示領域702に表示する。文書検索画面1000は、検索条件設定領域1001、検索キー画像入力領域1002、および、検索スタート指示領域1015から構成される。
検索条件設定領域1001は、検索条件を設定したり確認したりするための領域である。
検索条件ラジオボタン1004は、基本的な検索条件を選択し選択されている設定を確認するためのラジオボタンである。選択肢の「すべてのキーを含む」は、セットしたすべての検索キーにヒットする文書を検索することを示す。「いくつかのキーを含む」は、セットした検索キーのうちのいずれかにヒットする文書を検索することを示す。「高度な検索」は、検索オプションボタン1005によって設定したより詳細な検索条件の設定に基づいて、ヒットする文書を検索することを示す。
検索オプションボタン1005は、詳細な検索条件を設定するウィンドウを開くためのボタンである。詳細な検索条件の設定は、高度な検索モードで検索が実行されたときヒットする文書を判定する基準として用いる高度な検索条件の設定を含む。詳細な検索のオプションとして、メタデータ検索や全文検索を併用する条件を、類似画像検索と併用して設定できる。
メタデータ検索は、文書に対応する文書レコード801に関して、その文書メタデータやページメタデータ805群や対応するジョブレコード808にそれぞれ格納されているデータ項目ごとに検索条件を指定する検索方法である。メタデータ検索によって、タグ、文書名、所有者、作成日付、データ形式、ページ数、タグ、関連文書、ジョブ履歴(日時、操作者、要求した装置、処理した装置、処理内容、このジョブにおいて処理した他の処理対象文書)、ページの構造情報、などに基づく検索条件を指定できる。したがって、文書名や所有者や作成日時やタグなどに基づく一般的な検索に加えて、関連文書や過去にその文書が検索された履歴に基づいて検索することもできる。文書を構成するページに関して、方向がポートレート(縦長)かランドスケープ(横長)か、用紙のサイズ、ページ数がnページ以上mページ未満、カラーかモノクロか、画像とテキストの割合はどの程度か、などの基準に基づいて検索することもできる。また、いつ、どこで、誰が、どのように処理した文書であるかという、ジョブに関連する基準に基づいて検索することもできる。
全文検索は、検索キーとしてテキスト(文字列)を設定し、文書の全テキスト中に設定された文字列を含む文書を検索する。文書のテキストは、文書レコード801に含まれる文書内容データ803、ページレコード804のいずれかに含まれるページ内容データに含まれているテキストである。また、文書メタデータ802やページメタデータ805に含まれているテキスト形式のデータを全文検索の対象に加えることもできる。また、文書と関連するジョブレコード808に含まれているテキスト形式のデータを全文検索の対象に加え、ジョブレコード808がヒットした場合は対応する文書レコード801がヒットするように設定することもできる。
検索キー画像入力領域1002は、類似画像検索の検索キーとする画像を設定したり確認したりするための領域である。
原稿画像スキャンボタン1006は、画像処理装置のスキャナ113を用いて紙原稿を読み取り、類似画像検索の検索キーとして入力するためのボタンである。原稿画像スキャンボタン1006が押されると、画像スキャンウィンドウを開く。画像スキャンウィンドウでは、画像処理装置110のコピー機能や送信機能における原稿読み取り設定や、TWAINなどのよく知られたインタフェースに基づく一般的なスキャナデバイスドライバの原稿読み取り設定などと同様に、原稿読み取りのパラメータを設定できる。スタートキー505が押されると、設定されている原稿読み取りパラメータにしたがって原稿画像をスキャンし読み取った画像データを検索キー画像として入力する。原稿画像のスキャンが完了したとき画像スキャンウィンドウが開かれていれば閉じる。原稿画像スキャンボタン1006を押さず、スタートキー505が押された場合、デフォルトの原稿読み取りパラメータ、または、その時点までに設定されている原稿読み取りパラメータにしたがって原稿画像をスキャンする。
ボックス画像選択ボタン1007は、画像処理装置110のボックス機能を利用して、あらかじめ格納されている文書群の中から検索キー画像を選択するためのボタンである。ボックス機能によって、画像処理装置110のHDD304を閲覧して、検索キー画像として利用したい画像を含む文書を選択できる。また、他の画像処理装置120、130のHDDや、情報処理装置101、102が公開する共有ファイルシステムや、サーバシステム140がサービスする共有ファイルシステムやデータベースシステムなどに蓄積されている画像データやコードデータなどの文書ファイルにネットワーク100を介してアクセスし、閲覧して、検索キー画像として利用したい画像を含む文書を選択できる。
検索キー画像設定領域1008は、セットされている検索キー画像の組を確認し操作するための領域である。
検索キー画像設定状況メッセージ1009は、検索キー画像のセット状況を示すメッセージであり、セットされている検索キー画像の個数などを表示する。
検索キー画像表示領域1010は、セットされている検索キー画像群をブラウズする領域である。この領域に、検索キーとしてセットされた画像に対応する検索キーアイコンの組が並べて表示される。原稿画像スキャンボタン1006やボックス画像選択ボタン1007を用いて検索キー画像を入力すると、対応する検索キーアイコンがこの領域に追加される。原稿画像スキャンボタン1006を用いて紙原稿の表面と裏面や複数の紙原稿をまとめてスキャンした場合、および、ボックス画像選択ボタン1007を用いて複数ページから構成される文書を選択した場合、それぞれのページを読み取った画像データに対応する複数の検索キーアイコンを追加することを選択できるし、また、複数ページ画像を含む文書に対応する1つの検索キーアイコンを追加することも選択できる。
検索キーアイコン1011は、1つの検索キー画像に対応するアイコンである。このアイコンを介して、検索キーに対する各種の操作を指示できる。
検索キーID1012は、この検索キーを特定するための識別子である。
検索キーサムネール1013は、この検索キーのサムネール画像である。検索キーサムネール1013が押されると、画像ビューアウィンドウを開きサムネールよりも大きなサイズで検索キー画像を表示する。画像ビューアウィンドウによって、ユーザは検索キー画像の詳細を確認できる。
検索キー概要1014は、この検索キーに関する簡単な説明である。
検索キー詳細ボタン1015は、この検索キーに関する詳細情報を確認するためのボタンである。検索キー概要1014よりも詳細に検索キーに関する情報を表示する検索キー詳細ウィンドウを開く。検索キー詳細ウィンドウでは、この検索キーに固有の検索条件を設定することもできる。今後の検索するときこの検索キーを再利用するために、検索キーをボックスに保存することもできる。
検索キー編集ボタン1016は、この検索キーを編集するためのボタンである。検索キーを編集するための検索キー編集ウィンドウを開く。検索キー編集ウィンドウでは、検索キー画像に対してトリミング、マスキング、ノイズ除去などの各種画像処理を施して、所望の検索キー画像へと編集できる。また、検索キー画像を切り分けて、複数の検索キー画像に分割できる。また、複数ページ画像を含む文書に対応する1つの検索キーをページ画像単位に切り分けて、それぞれのページ画像に対応する検索キー画像に分割できる。
検索キー削除ボタン1017は、この検索キを検索キーの組から取り除くためのボタンである。
検索スタート指示領域1015は、検索処理を起動するための領域である。
検索開始ボタン1018は、検索処理を開始するためのボタンである。検索開始ボタン1018が押されると、検索条件設定領域1001で設定した検索条件と、検索キー画像入力領域1002でセットした検索キーとを用いて、サーバシステム140がサービスするジョブアーカイブアプリケーションに対して検索処理要求を発行する。
図11は、文書検索アプリケーションの文書検索結果リスト画面の構成例を表す図である。
文書検索結果リスト画面1100は、文書検索アプリケーションがジョブアーカイブアプリケーションから検索処理要求の応答を受信したときその検索結果を表示する画面の一例である。本実施例における文書検索アプリケーションは文書検索結果リスト画面を操作部112の表示領域702に表示する。文書検索結果リスト画面1100は、検索リスト操作領域1101、検索リスト表示領域1102、スクロールバー1103から構成される。
検索リスト操作領域1101は、検索結果リストの表示制御などを操作するための領域である。
表示フィルタリング状態1104は、検索リスト表示領域1102に表示されている文書群が、検索の結果ヒットした複数の文書群に対してどのような表示フィルタを施した結果残った文書群であるかを示す表示である。サーバシステム140のリトリーブ部212から受信したヒット文書の組をすべて表示することもできるし(すなわちフィルタなし)、またヒットした文書の中から表示フィルタ設定した条件に従い選別して表示することもできる。
表示フィルタ設定ボタン1105は、表示フィルタ条件を設定するためのボタンである。表示フィルタ設定ボタン1105が押されると、表示フィルタ設定ウィンドウを開き、ユーザに所望のフィルタ条件を設定させる。ヒットした文書群の文書レコード801に含まれる各種の情報に基づく条件をフィルタ条件に設定できる。すなわち、文書メタデータ802、ヒットしたページのページレコード804のページメタデータ805、文書に関連づけられたジョブレコード808、などに格納された各情報に対するパターンマッチングとして条件を設定できる。言い換えると、検索オプションボタン1005で設定できる詳細な検索のオプションと同様のフィルタ条件を設定できる。たとえば、文書名や作成日時やタグなどに基づく一般的なフィルタリングに加えて、関連文書や過去にその文書が検索された履歴に基づいてフィルタリングすることもできる。文書を構成するページに関して、方向がポートレート(縦長)かランドスケープ(横長)か、用紙のサイズ、ページ数がnページ以上mページ未満、カラーかグレースケール(連続階調画像)か白黒二値画像か、画像とテキストの割合はどの程度か、などの基準に基づいてフィルタリングすることもできる。また、いつ、どこで、誰が、どのように処理した文書であるかという、ジョブに関連する基準に基づいてフィルタリングすることもできる。
表示項目設定領域1106は、検索でヒットした文書の組を検索リスト表示領域1102に表示する際に、文書ごとに表示する項目を制御する領域である。チェックボックスの矩形またはチェックボックスにつけられたラベル文字列を押すたびに、チェックボックスの選択状態と非選択状態とが交互に切り替わる。「属性情報を表示」チェックボックスが選択されている場合、文書名、データ形式、ページ数、文書の所在情報、などの文書に関するメタデータ群を検索リスト表示領域1102に表示する。「サムネールを表示」チェックボックスが選択されている場合、検索条件にヒットしたページのサムネール画像を検索リスト表示領域1102に表示する。
文書サマリーサムネール設定領域1107は、検索でヒットした文書の組を検索リスト表示領域1102に表示する際に、文書ごとに表示する文書サマリーサムネールの表示形式を制御する領域である。表示項目設定領域1106の「サムネールを表示」チェックボックスが選択されており、かつ、「文書サマリーサムネールを表示」チェックボックスが選択されている場合、文書サマリーサムネールを表示する。文書サマリーサムネールとは、その文書の概要を視覚的に把握しやすくするために、文書を構成するページに対応する一組のサムネールを並べたものである。
文書サマリーサムネール構成設定領域1108は、文書サマリーサムネールを構成するサムネール群の構成を設定する慮域である。文書サマリーサムネール構成設定領域1108には4つの数値入力用のテキスト入力フィールドが並べてあり、それぞれに「先頭」、「前」、「後」、「末尾」のラベル文字列をつけてある。「先頭」の数値によって、文書の先頭ページから何ページ分のサムネールを表示するか設定する。「前」の数値によって、検索でヒットしたページに先行するページのサムネールを何ページ分表示するか設定する。「後」の数値によって、検索でヒットしたページに後続するページのサムネールを何ページ分表示するか設定する。「末尾」の数値によって、文書の末尾ページから何ページ分のサムネールを表示するか設定する。
文書サマリーサムネールアニメーション表示チェックボックス1109は、文書サマリーサムネールをアニメーション表示するか否かを設定するためのチェックボックスである。
再検索ボタン1110は、文書検索画面1000に戻るためのボタンである。
絞り込み検索ボタン1111は、文書検索画面1000に戻って絞り込み再検索を行うためのボタンである。検索リスト表示領域1102に表示された文書の中から検索キーとして追加したい文書(検索キーとして追加したい画像を含む文書)をマークしてから、絞り込み検索ボタン1111を押すと、マークをつけられた文書が検索キーとして検索キー画像表示領域1010に追加された状態で文書検索画面1000に戻り、絞込み再検索を続行できる。
的確な検索キー画像をできるだけ多く簡便に追加することによって、所望の文書の検索ヒット率を向上し、見つけ出しやすくできる。また、追加された検索キー画像の特徴量を分析し、類似度の判定における各種特徴量の配点を調整することによって、よりユーザの意図に即した類似画像検索を行うことが可能となる。すなわち、ユーザが絞り込み検索によってあえて追加した検索キー画像は、検索を行うユーザの観点からみても主観的に類似度が高いサンプル画像であると判断できる。したがって、この検索キー画像の類似度がより高く評価されるように、複数の特徴量と類似度判定アルゴリズムを組み合わせる配点を調整する。たとえば、元の検索キー画像と追加された検索キー画像の間で、形状に基づく類似度が高く色合いに基づく類似度が低かった場合は、絞り込み再検索では形状ベースの類似度を色合いよりも優先する。同様にして、色合い優先、配色パターン優先、オブジェクト構造木の類似度優先など、適切な調整を行う。
検索リスト表示領域1102は、検索した結果、検索条件に合致した文書の一覧を表示する領域である。検索ヒット文書表示1112、1113、1114、1115は、それぞれ検索条件に合致した文書に対応する情報を表示している。デフォルトの設定では、ヒット率が高い文書ほどリストの上位に表示する。同等のヒット率の場合、文書の価値を数値化した文書ランクが高い文書ほど上位に表示する。フィルタボタン1105を押して、デフォルト以外の順序で並べ替えて文書リストを表示しなおすこともできる。たとえば、文書の作成日、最終参照日、文書名、データ形式、ページ数、文書の所在情報、その文書を対象として行われたジョブの日時や操作者や装置や処理内容など、文書に関連づけられた各種のメタデータに基づいて、昇順または降順に表示できる。文書リストの表示順序を設定しなおすと、即時にリスト表示が更新される。
デフォルトの表示順序のよりどころとなる文書のヒット率について簡単に説明する。類似画像検索は、アルゴリズムごとに固有の類似度に基づくが、一般に類似度は「似ている程度」を表現する連続量であり、「似ているか、または、似ていない」の二値ではない。ただし本実施例の実装上は、類似度が所定の閾値よりも低い画像は似ていないものとして切り捨てる。類似度が所定の閾値よりも高かった画像に関して、相対的に類似度の高い画像と低い画像とを区別することができる。与えられた検索キー画像との類似度が高い画像を含む文書の方が、比較的低い画像を含む文書よりも、ヒット率を高く算出する。
また、検索キーは複数指定できるので、より多くの検索条件に合致する文書の方がより少ない検索条件だけに合致する文書よりもヒット率を高く算出する。類似画像検索の検索キー画像が複数指定される場合、類似度の高い画像を多く含めばヒット率を高くする。なお、「すべてのキーを含む」ラジオボタンが選択されて検索された場合、与えられた検索キーのすべてに合致しなければヒットしない。
次にデフォルトの表示順序のよりどころとなる文書ランクについて説明する。文書ランクは文書の意味的な重要度を表す指標として算出される。文書ランクは、文書のメタデータとして明示的に割り付けられた重要度に基づく。また、機密度、所有者、作者、保管場所、ページ数、などの文書の属性に基づいて文書ランクを算出する。さらに、その文書に後からつけられたタグの数や種類、参照された回数、関連文書の参照関係のネットワークなどに基づいて文書ランクを算出する。関連文書の相互参照関係のネットワークに基づく文書ランクとは、文書ランクの高い文書から多く参照されている文書は比較的ランクが高い、文書ランクの高い文書と同時に処理(すなわち、同時にプリント、送信、保存、リトリーブ、ジョブ結合など)された履歴を持つ文書は比較的文書ランクが高い、などの基準によって、算出する。
なお、検索リスト表示領域1102に表示される文書群のうち、リストの下位に配置される文書は上位に配置される文書よりも、検索ヒット文書表示をより簡略化したり縮小したりすることによって、一画面の中に表示可能な文書の総件数を増やすように構成してもよい。
スクロールバー1103は、文書検索結果リスト画面1100をスクロールするためのスクロールバーである。多くの場合、検索リスト表示領域1102には大量の文書が表示されるので、操作部112のディスプレイ502の表示領域に納まらない場合が普通である。ユーザは画面をスクロールしながら文書を一覧してその中から所望の文書を見つけ出す。なお、検索リスト表示領域1102の最下部などにページ送りのためのボタンなど(不図示)を配置して、検索結果文書のリストを複数のページに分割して表示してもよい。
なお、検索リスト表示領域1102の最下部などに配置したリストプリントボタン(不図示)を押すと、文書検索結果リストをプリント出力するように構成してもよい
図12は、検索ヒット文書表示の一例を示す図である。
検索ヒット文書表示1112、1113、1114、1115は、みな同様に構成されている。斜体の文字列は、実際の画面表示においては文書が持つ対応するメタデータの実際の値が表示されることを示している。下線が付してある文字列は、その表示領域を押すと対応する詳細情報表示ウィンドウが開き、それぞれの情報のより詳細な情報を確認できる。
データ形式アイコン1201は、対応する文書のデータ形式を表現するためのアイコンである。
文書名1202は、対応する文書の文書名を表現するための文字列である。
ページ数1204は、対応する文書のページ数を表現するための文字列である。
文書の所在情報1205は、対応する文書が保存されているファイルサーバなどの格納位置を特定するための文字列である。文書の所在情報は、URIや、またはファイルサーバとそのファイルシステム中のファイルパス文字列などによって、識別される。ジョブアーカイブシステムがアーカイブした文書の場合、当該のジョブにおいて収集された処理対象文書の控えデータが保存されている位置を表示してもよいし、あるいは、処理対象文書のオリジナルデータが保存されている位置が特定できる場合はその位置を表示してもよい。
履歴情報1206は、対応する文書を処理対象として過去に施されたジョブ処理や検索などの履歴を表現するための文字列である。いつ、誰が、どんな処理を、どの装置において、この文書に対して施したかといった履歴情報を確認できる。
ページ1207は、対応する文書を構成するページのうち、検索キーの条件にヒットしたページのページ番号を表現するための文字列である。
ヒットページサムネール1208は、対応する文書を構成するページのうち、検索キーの条件にヒットしたページの概観を表現するためのサムネール画像である。
先頭ページサムネール1209は、対応する文書の先頭のページの概観を表現するためのサムネール画像である。文書サマリーサムネール構成設定領域1108において設定されたページ数分のサムネール画像を並べて表示する。
前ページサムネール1210は、検索キーにヒットしたページに先行するページの概観を表現するためのサムネール画像である。文書サマリーサムネール構成設定領域1108において設定されたページ数分のサムネール画像を並べて表示する。
後ページサムネール1211は、検索キーにヒットしたページに後続するページの概観を表現するためのサムネール画像である。文書サマリーサムネール構成設定領域1108において設定されたページ数分のサムネール画像を並べて表示する。
末尾ページサムネール1212は、対応する文書の末尾のページの概観を表現するためのサムネール画像である。文書サマリーサムネール構成設定領域1108において設定されたページ数分のサムネール画像を並べて表示する。
なお、非常に多くのページを文書サマリーサムネールに表示しようとした場合、より縮小率の高い小さなサムネールを表示して、限られた表示領域の中に収まるように調整する。あるいは、比較的優先度の低いページのサムネールをより小さく縮小して表示したり、先行するページの裏側に重ね合わせページの一部が隠れるように配置して表示したり、あるいは、表示を省略したりすることによって、限られた表示領域の中に収まるように調整する。
なお、表示領域が不十分なとき、文書サマリーサムネール中に優先的に表示する優先度の高いページは、次のようなアルゴリズムに従って選択する。たとえば、文書の前の方のページをより優先する、先に指定された検索キーに対応してヒットしたページをより優先する、類似画像検索の条件にヒットした場合は類似度の高いページを優先する、など。
印刷ボタン1213は、対応する文書をプリント機能によってプリント出力するためのボタンである。
保存ボタン1214は、対応する文書をボックス機能に保存するためのボタンである。
送信ボタン1215は、対応する文書を送信機能によって送信するためのボタンである。
タグ付けボタン1216は、対応する文書のタグを操作するためのボタンである。タグ付けボタン1216を押すと、文書タグウィンドウが開き、既に当該文書に設定されているタグを閲覧および編集するとともに、任意のタグを新たに追加登録できる。
関連文書ボタン1217は、対応する文書の関連文書を操作するためのボタンである。関連文書ボタン1217を押すと、関連文書ウィンドウが開き、当該文書に関連付けられている文書を閲覧および編集したり、当該文書と他の文書の関連を追加登録したりできる。
マーク付けチェックボックス1218は、対応する文書をマークするためのチェックボックスである。リストに表示された文書群のうちいくつかの文書に選択的に働く操作を行うと、このチェックボックスが選択状態にある文書が対象となる。たとえば、マーク付けチェックボックス1218を選択状態にしてから、絞り込み再検索ボタン1111を押すと、マークされた文書群が検索キーに追加された状態で再検索を続けられる。
図13は、ラスタ画像文書入力処理の手順を説明するフローチャートである。
本実施例において、図の手順は画像処理装置110のCPU301において実行される組み込みアプリケーションプログラムよって処理される。
本フローチャートの一連の手順は、ユーザが操作部112の表示領域701のコピー、送信、ボックスなど、スキャナ113によって原稿文書の画像データを読み取る処理を選択し、スタートボタン505によって読み取り動作を起動したときに開始する。この場合、ラスタ画像文書入力処理とは原稿文書をスキャンして画像文書データを読み取る処理を表す。また、本フローチャートの一連の手順は、画像処理装置110のファクス受信機能によって、MODEMユニット309が公衆回線からラスタ画像文書データを受信する際に開始する。この場合、ラスタ画像文書入力処理とはファクス受信処理を表す。
ステップ1301で、ラスタ画像文書入力処理を行う。すなわち、ラスタ画像文書入力処理とは原稿文書をスキャンして画像文書データ読み取る。または、公衆回線から画像文書データを受信する。
ステップ1302で、ステップ1301において行ったジョブ処理に対応するジョブレコード808を生成しジョブDB203にストアする。
ステップ1303で、ステップ1301において行ったジョブ処理で入力した文書データに対応する文書レコード801を生成し、文書DB202にストアする。前ステップで生成したジョブレコード808を、生成した文書レコード801に対するメタデータのひとつとして関連づける。文書に付随する他のメタデータも同様に文書メタデータ802として、文書DB202にストアする。
ステップ1304で、入力文書と関連する文書をジョブアーカイブアプリケーションから検索する。ここで関連する文書とは、入力文書に対して以下に説明するような関連を持つ文書のことである。まず、文書レコード801の類似度が高い文書、すなわち、文書内容データ803の類似度が高い文書、文書メタデータの類似度が高い文書などを関連文書とする。また、ページレコード804の類似度が高いページ(類似ページ)を含む文書、すなわち、ページ内容データ806の類似度が高いページ、ページメタデータ805の類似度が高いページを含む文書も関連文書とする。特に、ページメタデータ805の構造情報データと特徴データを用いて、画像を構成する複数の領域の構造と特徴が類似しているページや、類似の領域要素を含むページを、類似度が高いページであると判定する。
また特に、ページメタデータ805の媒体IDデータが同一または類似しているページレコード804を探す。見つかった場合、そのページレコード804を含む文書レコード801は、その入力文書の物理的なページ媒体(紙)を過去に扱った際にストアした文書レコードである。すなわち、その紙にプリントしたときに生成した文書レコード804や、過去にその紙をスキャンして、コピーしたり送信したりボックス蓄積したり紙をキーとした画像検索をしたときなどに生成した文書レコード801である。この文書も入力文書と関連する関連文書とする。
ステップ1305で、関連文書の検索結果を判定し、1つ以上の関連文書の検索に成功した場合、ステップ1306に進み、失敗した場合は復帰する。
ステップ1306で、ステップ1303において生成した文書レコード801と、ステップ1304で検索した関連文書の文書レコード801とを、相互に関連づける関連レコード811を関連の数だけ生成し文書DB202にストアする。それぞれの関連レコード811の関連文書リストデータには、入力文書および関連文書に対応する2つの文書レコード801への参照を記録する。関連情報データにはステップ1304で説明した各種の関連を識別する情報を記録する。類似度に基づく関連については、その類似度の程度を表現する値もここに記録する。
ステップ1307で、関連文書情報ユーザインタフェース表示をするべきか否か判定する。ユーザが操作部112を操作中で、関連文書情報ユーザインタフェースを表示するように設定されていれば、ステップ1308に進む。それ以外の場合は復帰する。
ステップ1308で、関連文書情報を表示し、関連文書を操作するためのユーザインタフェース(図14)を操作部112に表示する。
図14は、画像処理装置110の操作部112に表示される入力文書の関連文書に関する情報を表示し操作するための画面の一例を示す図である。
この画面例は、図7のコピー操作画面において、コピーのためのスキャン処理後にステップ1308の結果として表示される。図7と同様の構成は同一の符号をつけて説明を省略する。
スキャン完了ダイアログウィンドウ1401はコピーのためのスキャン処理が完了したことを示すダイアログウィンドウである。
関連文書情報1402は、スキャンしおわった入力文書の関連文書に関する情報を表示し、関連文書を操作するためのユーザインタフェース領域である。
関連文書サマリ情報1403は、入力文書に関連づけられた文書レコード801群の自動的な解析と統計処理によって導かれる各種のサマリ情報を示すメッセージ文字列である。たとえば、入力文書に関連づけられた文書レコード801群の解析によって、入力文書のオリジナルに相当する文書の、より新しいバージョンのオリジナル文書が検索された場合、スキャンした文書の改訂版が存在することを示唆するメッセージを表示する。また、入力文書に関連づけられた文書レコード801群の解析によって、より多くの関連文書から参照されていたり、より多くジョブ処理(スキャン、プリント、送信、蓄積、検索など)の対象となっていたり、より多くのめたデータ(タグなど)が付与されている文書レコード801が検索された場合、スキャンした文書よりも重要度が高い可能性がある文書の存在を示唆する。また、入力文書に関連づけられた文書レコード801群の解析によって、関連文書を対象とするジョブが最近いつ行われていたかを示す情報を表示する。また、入力文書に関連づけられた文書レコード801群の解析によって、関連文書を対象とするジョブが最近の一定期間の間にどの程度頻繁に行われているかを示す情報を表示する。
関連文書表示ボタン1404は、入力文書に関連づけられた文書レコード801群の情報を表示するための関連文書表示ウィンドウを開くためのボタンである。関連文書表示ウィンドウ(不図示)は、図11に示した文書検索アプリケーションの文書検索結果リスト画面と同様に構成され、関連文書のリストを表示する。また、関連文書の関連の意味的なネットワークを、文書をノードとし関連をアークとしてグラフ表現したネットワーク図としてグラフィカルに表示することによって、ユーザによるブラウズの利便性を高めることもできる。
「閉じる」ボタン1405は、スキャン完了ダイアログウィンドウ1401を閉じて元の画面表示に復帰するためのボタンである。
なお、入力文書に対する関連文書の検索と関連づけは、入力処理の直後にすべて完了する必要はなく、後で十分な時間をかけて行うバッチ処理をスケジューリングするように構成してもよい。
なお、ジョブアーカイブシステムのデータベース管理システム201は、大規模ストレージ装置142に集中して配備しなくてもよい。ストレージおよびデータベース管理システムが複数の装置に分散した分散データベースとして配備し、分散検索できるように構成してもよい。たとえば、パーソナルコンピュータ101、102が備えるストレージや画像処理装置110、120、130が備えるHDD304に基づく分散データベースシステムとして構成することもできる。
以上説明したように、本実施例では、スキャンやファクス受信といったラスタ画像文書入力処理において、ストレージ上の膨大な文書レコード群の中から関連文書を検索し、入力文書を検索された関連文書レコードと関連づけてアーカイブするように構成した。したがって本実施例の文書データベースシステムによれば、入力文書に関連するストレージ上の文書のメタデータをも活用することによって、意味的で高度な検索が可能になった。すなわち、文書の意味的なネットワーク中で、各種メタデータに基づく意味的な検索が適用可能な文書とラスタ画像文書が関連づけられてさえいれば、前者の文書がヒットする検索結果から後者の文書をたどれるようになった。後者の文書レコードは、その文書を誰がいつどこで処理したかといったジョブ処理の履歴情報も保持するため、この情報をもとに紙の形態でどこかに存在するはずの文書を探すことも容易となった。
また、本実施例によれば、さらに、ある文書を対象として行われた処理に基づいて、また、関連文書の相互参照関係のネットワークに基づいて、文書の文書ランクが高まるように構成したため、群集の叡智をより活用できるようになった。すなわち、紙のスキャンやファクス受信といったオフラインでラスタ画像志向な文書に対するユーザの行動によって、関連するオンラインな関連文書の文書ランクも自動的に高まるようになった。したがって、電子的な形態ばかりでなく紙などの形態においても、頻繁に処理されている文書(および関連する電子文書)はユーザにとって重要な文書であるという、現実世界の傾向をより反映した優先度判定が可能となった。この文書ランクに基づいて、検索結果リストの表示順序などを制御することによって、ユーザが求める文書をよりすばやく見つけ出しやすいシステムを提供できるようになった。
また、本実施例によれば、さらに、紙などのオフラインでラスタ画像文書の入力処理を行った後で、その文書に関連づけられたストレージ上の関連文書群に関する情報をユーザに提示するように構成したため、群集の叡智を活用しやすくなった。すなわち、その文書に関する他のユーザの行動を簡単に把握できるようになった。たとえば入力文書に対応するより新しいバージョンや、より注目をあつめている文書があること、入力文書に対する他のユーザからの注目の度合いなどを容易に把握できるようになった。
〔他の実施の形態〕
なお、本発明の目的は、前述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPU、MPU等)が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。
この場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体およびプログラムは本発明を構成することになる。
また、プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
本発明の一実施の形態に係る画像処理システムの全体構成を示すブロック図である。 サーバシステムにおいて稼動するジョブアーカイブアプリケーションのソフトウェア構成を示すブロック図である。 画像処理装置のハードウェア構成を示すブロック図である。 画像処理装置の外観を示す斜視図である。 画像処理装置の操作部の構成を示す平面図である。 画像処理装置の操作部及び操作部I/Fの内部構成を制御ユニットの内部構成と対応させて示すブロック図である。 画像処理装置の操作部に表示される標準的な操作画面の一例を示す図である。 DB管理システムに格納される各データベースの抽象的なデータ構造を示す模式図である。 検索処理の手順を説明するフローチャートである。 文書検索アプリケーションの基本画面である文書検索画面の構成例を表す図である。 文書検索アプリケーションの文書検索結果リスト画面の構成例を表す図である。 検索ヒット文書表示の一例を示す図である。 ラスタ画像文書入力処理の手順を説明するフローチャートである。 画像処理装置110の操作部112に表示される入力文書の関連文書に関する情報を表示し操作するための画面の一例を示す図である。
符号の説明
100 LAN(ネットワーク)
101 デスクトップコンピュータ(外部の装置、情報処理装置)
110,120,130 画像処理装置
111,121,131 制御ユニット(遠隔操作手段、遠隔操作要求受信手段、遠隔操作開始確認手段、ユーザ認証手段)
112,122,132 操作部(操作手段)
113,123、133 スキャナ
114,124,134 プリンタ
301 CPU
302 RAM
303 ROM
304 HDD
305 イメージバスインターフェース(Image Bus I/F)
306 操作部I/F
307 システムバス
308 ネットワークインタフェース(Network、通信手段)
309 モデム(MODEM)
310 画像バス
311 ラスタイメージプロセッサ(RIP)
312 デバイスI/F部
313 スキャナ画像処理部
314 プリンタ画像処理部
315 画像回転部
316 画像圧縮部

Claims (7)

  1. 複数の文書データと、文書データに関連づけられたメタデータを格納するデータベース手段と、
    前記メタデータは少なくとも、前記複数の文書間の関連を示す関連メタデータと、文書に対する操作の履歴を示す操作履歴メタデータとを含み、
    ラスタ画像文書データを入力するラスタ画像文書データ入力手段と、
    入力されたラスタ画像文書データと関連する文書データを、前記データベース手段によって格納されている前記文書データの中から特定するための関連文書特定手段と、
    ラスタ画像文書データ入力手段によって処理された入力処理の履歴を、前記特定された文書データに関連づけられたメタデータとして蓄積するストア手段
    を備えることを特徴とする文書データベースシステム。
  2. 前記ラスタ画像文書データ入力手段は、ラスタ画像がプリントされた媒体をスキャンまたは撮影する画像入力手段であることを特徴とする、請求項1に記載の文書データベースシステム。
  3. 前記ラスタ画像文書データ入力手段は、他の装置から送信されたラスタ画像文書データを受信する受信手段であることを特徴とする、請求項1に記載の文書データベースシステム。
  4. 前記関連文書特定手段は、前記入力されたラスタ画像文書と、前記データベース手段によって格納されている前記文書データとの類似度に基づいて、前記関連する文書データを特定することを特徴とする、請求項1に記載の文書データベースシステム。
  5. 前記関連文書特定手段は、前記入力されたラスタ画像文書に画像として符号化されて埋め込まれた文書識別のための情報に基づいて、前記関連する文書データを特定することを特徴とする、請求項1に記載の文書データベースシステム。
  6. 前記データベース手段に格納された操作履歴メタデータのいくつかは、関連する文書データを媒体へプリントした処理に関するプリント操作履歴メタデータを含み、
    前記プリント操作履歴メタデータは、当該の操作に際してプリントした媒体を特徴づける媒体特徴データを含み、
    前記関連文書特定手段は、前記画像入力手段がスキャンまたは撮影した印字媒体の特徴に基づいて、前記関連する文書データを特定することを特徴とする、請求項2に記載の文書データベースシステム。
  7. 複数の文書データと、文書データに関連づけられたメタデータを格納するデータベースに接続され、
    前記メタデータは少なくとも、前記複数の文書間の関連を示す関連メタデータと、文書に対する操作の履歴を示す操作履歴メタデータとを含み、
    ラスタ画像文書データを入力するラスタ画像文書データ入力手段と、
    入力されたラスタ画像文書データと関連する文書データを、前記データベースによって格納されている前記文書データの中から特定するための関連文書特定手段と、
    ラスタ画像文書データ入力手段によって処理された入力処理の履歴を、前記特定された文書データに関連づけられたメタデータとして前記データベースへ蓄積するストア手段
    を備えることを特徴とする画像入力装置。
JP2007310956A 2007-11-30 2007-11-30 文書データベースシステムおよび画像入力装置 Pending JP2009134580A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007310956A JP2009134580A (ja) 2007-11-30 2007-11-30 文書データベースシステムおよび画像入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007310956A JP2009134580A (ja) 2007-11-30 2007-11-30 文書データベースシステムおよび画像入力装置

Publications (1)

Publication Number Publication Date
JP2009134580A true JP2009134580A (ja) 2009-06-18

Family

ID=40866394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007310956A Pending JP2009134580A (ja) 2007-11-30 2007-11-30 文書データベースシステムおよび画像入力装置

Country Status (1)

Country Link
JP (1) JP2009134580A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093691A2 (en) * 2010-01-27 2011-08-04 Mimos Berhad A semantic organization and retrieval system and methods thereof
JP2014016779A (ja) * 2012-07-09 2014-01-30 Fuji Xerox Co Ltd 画像形成装置及びプログラム
CN115129825A (zh) * 2022-08-25 2022-09-30 广东知得失网络科技有限公司 一种专利信息推送方法及系统
JP7456137B2 (ja) 2019-12-05 2024-03-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093691A2 (en) * 2010-01-27 2011-08-04 Mimos Berhad A semantic organization and retrieval system and methods thereof
WO2011093691A3 (en) * 2010-01-27 2011-11-24 Mimos Berhad A semantic organization and retrieval system and methods thereof
JP2014016779A (ja) * 2012-07-09 2014-01-30 Fuji Xerox Co Ltd 画像形成装置及びプログラム
JP7456137B2 (ja) 2019-12-05 2024-03-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN115129825A (zh) * 2022-08-25 2022-09-30 广东知得失网络科技有限公司 一种专利信息推送方法及系统
CN115129825B (zh) * 2022-08-25 2022-12-20 广东知得失网络科技有限公司 一种专利信息推送方法及系统

Similar Documents

Publication Publication Date Title
JP5173721B2 (ja) 文書処理システム及びその制御方法、プログラム、記憶媒体
JP5415736B2 (ja) 文書処理システム及びその制御方法、プログラム、記憶媒体
KR100972241B1 (ko) 문서 검색 장치 및 문서 검색 방법
JP2008146603A (ja) 文書検索装置、文書検索方法、プログラム及び記憶媒体
US8326090B2 (en) Search apparatus and search method
US7475336B2 (en) Document information processing apparatus and document information processing program
EP1837782B1 (en) Document search apparatus, document management system, document search system and document search method
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
US20080243818A1 (en) Content-based accounting method implemented in image reproduction devices
US20090150359A1 (en) Document processing apparatus and search method
US8867091B2 (en) Image processing system, image processing apparatus, image scanning apparatus, and control method and program for image processing system
JP2009134580A (ja) 文書データベースシステムおよび画像入力装置
JP5318233B2 (ja) 文書検索装置、文書検索方法、プログラム及び記憶媒体
US8339622B2 (en) Image processing apparatus and integrated document generating method
JP2013101643A (ja) 文書処理システム及び文書処理方法、プログラム
JP4281719B2 (ja) ファイル処理装置、ファイル処理方法、およびファイル処理プログラム
JP2014211884A (ja) 文書処理システムおよび文書処理システムの制御方法
JP2011028503A (ja) 画像処理装置、画像処理方法、およびプログラム
JP2013042436A (ja) 画像処理装置、ファイルの保存先フォルダ決定方法及び同決定プログラム
US8279472B2 (en) Image processing apparatus and control method therefor
JP2007172234A (ja) 画像処理履歴管理装置
JP2007172233A (ja) 画像処理履歴管理装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630