JP2005352783A

JP2005352783A - 画像処理システム、方法、プログラム及び記憶媒体

Info

Publication number: JP2005352783A
Application number: JP2004173014A
Authority: JP
Inventors: Kazuyo Ikeda; 和世池田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-06-10
Filing date: 2004-06-10
Publication date: 2005-12-22

Abstract

【課題】紙文書からオリジナルの電子文書を検索するために必要とされる文書画像やその特徴量を記憶するために必要な記憶容量を好適に削減することができる画像処理システム、方法、プログラム及び記憶媒体を提供する。
【解決手段】データベース１０６等の記憶装置には、複数の電子データをオブジェクト単位で記憶するが、その際それぞれのオブジェクトの情報とその特徴量とを対応付けて記憶する。また、複数の電子データに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及びその特徴量を共有して記憶する。ＭＦＰ１００の画像読み取り装置１１０から読み取られた紙文書は検索対象情報として入力され、その構成要素であるオブジェクトが抽出されて特徴量が算出される。次に、その特徴量と記憶装置に記憶されているオブジェクトの特徴量とを比較し、検索対象情報に対応する電子データが記憶装置から検索される。
【選択図】図１

Description

本発明は、複写機等の画像入力装置で読み取られた紙文書から対応するオリジナルの電子データを検索し、検索されたオリジナルの電子データを印刷、配信、蓄積及び編集等に活用する画像処理システム、方法、プログラム及び記憶媒体に関する。

近年、オフィスのペーパレス化が唱えられており、紙文書の電子化が進められている。しかし、紙文書には、目が疲れにくい、全体を概観しやすい、書き込める等の電子文書にはないメリットがある。従って、現状のオフィスでは、電子文書と紙文書のそれぞれのメリットを生かし、電子文書と紙文書が併用されている状況にある。このような状況では、紙文書と電子文書との扱いの差異を軽減するために、電子文書から紙文書へ、紙文書から電子文書への相互の移行が容易にできるような環境が求められている。

電子文書から紙文書への移行は、電子文書をプリンタを用いて印刷することで容易に達成できる。それに対して、紙文書から電子文書への移行は、紙文書をスキャナを用いて読み取り、画像データとして電子化する方法が一般的に行われている。

しかしながら、紙文書に対して、オリジナルの電子文書がある場合は、画像データ等に移行するよりも、紙文書に対してオリジナルの電子文書に移行するほうが望ましい。これを実現する方法として、電子文書をラスター画像に変換して電子文書と対応付けて保存しておき、紙文書をスキャンして得られたラスター画像データと、電子文書に対するラスター画像データとを、その特徴量の類似性を比較することにより、オリジナルの電子文書を検索することを可能にすることが知られている（例えば、特許文献１参照。）。

例えば、会議で発表する時に用いた資料を紙文書として出席者に配布されることは一般的に行われているが、上記特許文献１に記載されたような方法を用いることで、配布された紙文書からオリジナルの電子文書を取り出すことが可能になり、会議の出席者は、オリジナルの電子文書を編集したり、会議に出席していない人に配布したりすることが可能になる。

一方、近年、情報に対するセキュリティを厳格に運用しようという機運が高まり、文書の構成要素（テキスト、表、図形、写真等）ごとに、アクセスできる人を切り替える技術が提案されている。ここで、文書画像を送信する際に、文書画像の構成要素（オブジェクト）ごとに、ある受信者には文字領域のみを、他の受信者には文字領域と写真領域を閲覧させるようにするために、文書画像をオブジェクト単位に分割し、オブジェクトごとに暗号化を施す技術が提案されている（例えば、特許文献２参照。）。

また、インターネットとＷＥＢブラウザの普及により、現在作成されている文書として、ＨＴＭＬ文書が増加している。そして、ＨＴＭＬ文書の中には、ＣＧＩ等のプログラムによって動的に生成する文書があり、このような文書では、アクセスする人によって、表示するオブジェクトを切り替えることも行われている。

このような動的に生成される文書に対して、紙文書からオリジナルの文書を生成しようとした場合に特許文献１で提案された技術を用いると、動的に生成される全てのパターンのラスター画像に変換して、動的に生成される電子文書と対応付けて保存しておく必要がある。
特開２００１−２５６２５６号公報特開２００２−３１８５３５号公報

しかしながら、動的に生成される文書に対して、オリジナルの電子文書を検索するためには、上述したような従来技術を用いた場合は、動的に生成される文書画像、若しくはその特徴量を全て保存しておく必要があり、必要とされる記憶容量が非常に大きくなるという欠点があった。また、動的に生成されない文書においても改版を重ねた文書等は、内容がほとんど同じであるにもかかわらず、文書画像、若しくはその特徴量を全て保存しておく必要があったので、必要な記憶容量が非常に大きくなるという欠点があった。

本発明は、このような事情を考慮してなされたものであり、紙文書からオリジナルの電子文書を検索するために必要とされる文書画像やその特徴量を記憶するために必要な記憶容量を好適に削減することができる画像処理システム、方法、プログラム及び記憶媒体を提供することを目的とする。

上記課題を解決するために、本発明に係る画像処理システムは、
複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶手段と、
検索対象情報を入力する入力手段と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手段と、
前記抽出手段により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手段と、
前記算出手段によって算出されたそれぞれのオブジェクトの特徴量と前記記憶手段に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶手段から検索する検索手段とを備え、
前記記憶手段は、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶することを特徴とする。

また、本発明は、複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶装置であって、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶する記憶装置から電子データを検索する画像処理方法であって、
検索対象情報を入力する入力工程と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出工程と、
前記抽出工程により抽出されたそれぞれのオブジェクトの特徴量を算出する算出工程と、
前記算出工程によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索工程と
を有することを特徴とする。

さらにまた、本発明は、コンピュータに、複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶装置であって、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶する記憶装置から電子データを検索させるためのプログラムであって、
検索対象情報を入力する入力手順と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手順と、
前記抽出手順により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手順と、
前記算出手順によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索手順と
を実行させることを特徴とする。

さらにまた、本発明は、上記プログラムを格納したコンピュータ読み取り可能な記憶媒体であることを特徴とする。

以下、本発明の一実施形態に係る画像処理システムの構成及び動作について詳細に説明する。

図１は、本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。図１において、ＬＡＮ１０３には、マルチ・ファンクション・プリンタ（ＭＦＰ）１００、ＭＦＰ１００を制御するマネージメントＰＣ１０１、クライアントＰＣ１０２、文書管理サーバ１０６が接続されている。文書管理サーバ１０６には、文書を格納するデータベース１０５が接続されている。文書管理サーバ１０６は、ＷＥＢアプリケーションにより、データベース１０５に格納されている文書をクライアントＰＣ１０２に送信する。クライアントＰＣ１０２は、ＷＥＢブラウザを用いて、送信された当該文書をユーザに閲覧させることができるとともに、必要に応じて印刷を行うことも可能である。

ＭＦＰ１００は、本実施形態において紙文書の画像読み取り処理と読み取った画像信号に対する画像処理の一部を担当し、それらの処理後の画像信号は、ＬＡＮ１０３を介してマネージメントＰＣ１０１に入力される。マネージメントＰＣ１０１は通常のＰＣで実現可能であり、内部に画像記憶部、画像処理部、表示部、入力部等を有する。尚、マネージメントＰＣ１０１の一部をＭＦＰ１００と一体化して構成するようにしてもよい。

図２は、本実施形態に係るＭＦＰ１００の構成を示すブロック図である。図２において、オートドキュメントフィーダー（ＡＤＦ）を含む画像読み取り装置１１０は、束状の或いは１枚の原稿画像を図示しない光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読み取り信号を６００ＤＰＩ等の密度のラスタ画像として得る。通常の複写機能は、この画像信号をデータ処理装置１１５で記録信号へ画像処理し、複数毎複写の場合は記憶装置１１１に一旦１ページ分の記録データを記憶保持した後、印刷装置１１２に順次出力して紙上に画像を形成する。

一方クライアントＰＣ１０２から出力されるプリントデータは、ＬＡＮ１０３からネットワークＩ／Ｆ１１４を経てデータ処理装置１１５で記録可能なラスターデータに変換される。そして、一旦、記憶装置１１１に１ページ分の記録データが記憶保持された後、印刷装置１１２で紙上に記録画像として形成される。

ＭＦＰ１００への操作者の指示は、ＭＦＰ１００に装備されたキー操作部、マネージメントＰＣ１０１に入力されるキーボード及びマウス等からなる入力装置１１３から行われる。そして、入力装置１１３で行われた一連の動作は、データ処理装置１１５内の図示しない制御部で制御される。

一方、操作入力の状態表示及び処理中の画像データの表示は、表示装置１１６で行われる。尚、記憶装置１１１は、マネージメントＰＣ１０１からも制御可能である。そして、上述したＭＦＰ１００とマネージメントＰＣ１０１とのデータの授受及び制御は、ネットワークＩ／Ｆ１１７及び直結したＬＡＮ１０３を用いて行われる。

上述した構成の画像処理システムにおいて、文書管理サーバ１０６で管理されている文書は、その文書を構成する要素（テキストブロック、画像ブロック、表ブロック、グラフブロック等）毎に、ユーザのアクセスレベルごとに管理されている。そして、クライアントＰＣ１０２のＷＥＢブラウザから文書を閲覧する際に、ユーザのアクセスレベルによって、同じ文書に対して表示される要素が異なる。

また、マネージメントＰＣ１０１から指示することにより、文書管理サーバ１０６で管理されている文書を印刷した紙文書を、ＭＦＰ１００の画像読み取り装置１１０から読み取る。そして、読み込まれた紙文書のオリジナルの文書を検索し、文書管理サーバ１０６からオリジナルの文書を取得することができる。

以下、本実施形態に係る画像処理システムの動作について詳細に説明する。図３は、本実施形態に係る画像処理システムにおいてデータベース１０５に格納されている文書をクライアントＰＣ１０２から閲覧して印刷する処理手順を説明するためのフローチャートである。

まず、クライアントＰＣ１０２でＷＥＢブラウザを立ち上げ、文書管理サーバ１０６のＷＥＢアプリケーションのＴＯＰページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を指定し、ブラウザから文書管理システム１０６にログインする（ステップＳ３０１）。次いで、ユーザがＴＯＰページのＵＲＬを指定すると、ユーザ名とパスワードを入力するページがＷＥＢブラウザに表示される。そこで、ユーザは、キーボードを用いてユーザ名とパスワードを入力する。そして、入力されたユーザ名に基づいて、ユーザ情報を参照し、入力されたパスワードをチェックする（ステップＳ３０２）。図４は、パスワードのチェックの際に参照されるユーザ情報の一例を示す図である。

ステップＳ３０２のチェックの結果、入力されたパスワードが正当である場合（Ｙｅｓ）はステップＳ３０３へ進み、正当でない場合（Ｎｏ）は処理を終了する。尚、正当である場合は、セッションＩＤを発行し、以降の処理ではセッション管理が行われる。ＷＥＢアプリケーションにおけるセッション管理は、Ｃｏｏｋｉｅを用いる方法等が知られており、広く一般的に行われているので詳細な説明は省略する。

パスワードのチェックの結果、正当であると判定された場合は、図４に示すユーザ情報からユーザ名に対応したアクセスレベルを取得する（ステップＳ３０３）。以降、ここで取得したアクセスレベルを、「ユーザアクセスレベル」と呼ぶことにする。

続いて、文書の一覧が表示される（ステップＳ３０４）。図５は、ステップＳ３０４で一覧表示される文書情報の一例を示す図である。本実施形態では、図５に示される文書情報に基づいてＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）文書が生成される。図５に示されるように、文書情報には、個々の文書に関する情報を、文書の識別子である文書ＩＤと、その文書を閲覧できるレベルを示すアクセスレベル（以降、「文書アクセスレベル」と呼ぶ。）と、その文書の名前である文書名と、その文書の管理者とを対応させて格納している。

そこで、ステップＳ３０４では、ステップＳ３０３で求めたユーザアクセスレベルと比較し、ユーザアクセスレベルと等しいか、又は、小さい文書アクセスレベルに対応した文書のリストを、文書名のリストとして生成する。図２９は、文書の一覧を表示した一例を示す図である。図２９に示すように、各文書名の左側にラジオボタンをそれぞれ配置し、生成する文書のアクセスレベルをリストボックスから選択できるようになっている。このリストボックスの中に表示されるアクセスレベルの最大値は、ステップＳ３０３で取得したユーザアクセスレベルの値となるようにする。さらに、当該一覧内には、閲覧ボタンが表示されている。

続いて、ユーザは、所望の文書名を図２９に表示されている一覧中のラジオボタンをマウスでクリックすることによって選択し、取得したい文書のアクセスレベルをリストボックスを用いて選択し、閲覧ボタンをマウスでクリックする（ステップＳ３０５）。これにより、ラジオボタンに対応付けられた文書ＩＤ、選択されたアクセスレベルが、文書管理サーバ１０６上の文書生成プログラムに送信される。また、選択された文書ＩＤとアクセスレベルに対応した文書が生成される（ステップＳ３０６）。例えば、ＨＴＭＬのＦＯＲＭタグを用いることで、このような動作を行うＨＴＭＬ文書は容易に作成することができる。尚、ステップＳ３０６の文書生成処理の詳細については、図９を用いて後述する。

ステップＳ３０６の処理によって生成された文書はＨＴＭＬ文書であり、クライアントＰＣ１０２のＷＥＢブラウザに表示される（ステップＳ３０７）。続いて、ユーザは、クライアントＰＣ１０２のＷＥＢブラウザに表示されているＨＴＭＬ文書をＭＦＰ１００に出力して印刷する（ステップＳ３０８）。

図５、図６及び図７は、文書管理サーバ１０６で管理され、データベース１０５に格納されている文書情報、文書ブロック情報及びオブジェクト情報を説明するための図である。尚、説明を簡単にするために、本実施形態において各文書は１ページから構成されているものとしているが、複数ページから構成される文書を扱う拡張であっても容易に行うことができる。

図５に示されるように、各文書には、文書を識別するための文書ＩＤと、文書の名前である文書名と、文書の管理者が対応付けられている。また、各文書にはアクセスレベルが設定されており、文書に対するアクセスの制限がかけられている。図５では、アクセスレベルの値が大きいほど、アクセスできる人が少なくなることを意味している。このアクセスレベルの値は、後述する文書内のブロックに対するアクセスレベルから求めることができる。

また、図６に示されるように、各文書のページは、複数のブロック（矩形領域）から構成されており、図６の文書ブロック情報には、文書ＩＤに対するブロックの情報が格納されている。文書ブロック情報の中では、１つのブロックの情報が、その識別子であるブロックＩＤと、そのブロックが含まれる文書の文書ＩＤと、ブロックの位置（文書のページの左上を原点として、ブロックの左上の点の座標）と、ブロックのサイズ（たて、横の長さ）とを対応させて格納している。

各ブロックの内容は、図７のオブジェクト情報で定義される。オブジェクト情報では、各ブロックの内容が、その識別子であるオブジェクトＩＤと、内容が格納されているファイルのアドレスを示すブロック内容と、内容の属性（画像、テキスト、表等）と、その内容を含むブロックのブロックＩＤと、そのブロックが含まれる文書ＩＤと、その内容に対するアクセスを制限するアクセスレベル（以降では、「オブジェクトアクセスレベル」と呼ぶ。）とが対応させて格納されている。

図７に示されるように、各ブロックの内容は、アクセスレベルによって異なっている。すなわち、一つのブロックに対してアクセスレベルが変わると、内容を変更する場合や、アクセスレベルによってブロックの内容がなくなる場合等がある。図８は、図７のオブジェクト情報の例に基づいて文書ＩＤが０００１の文書に対してアクセスレベルによって文書の内容が異なる例を示す図である。図８では、文書ＩＤが０００１の文書に対して、アクセスレベルが４の場合には、「ｄｏｇ」、「ｃａｒ」、「ａａａ」、「ｂｂｂ」の４つの内容が含まれる。また、アクセスレベルが３と２の場合には、「ｄｏｇ」、「ｃａｒ」、「ｂｂｂ」の３つの内容が含まれる。そして、アクセスレベルが１の場合には、「ｃａｔ」及び「ｂｂｂ」の２つの内容が含まれる。このように、アクセスレベルの大きさによって、含まれる内容がなくなったり、別のオブジェクトに変更されている。

このように、文書管理サーバ１０６で管理される文書は、同じ文書ＩＤを持つ文書でも、アクセスレベルによって含まれる内容が異なる。図５に示される文書情報における文書アクセスレベルは、図７のオブジェクト情報に格納されているブロックアクセスレベルから求めることができる。尚、オブジェクト情報の中で文書ＩＤに対して最も小さいブロックアクセスレベルが、その文書の文書アクセスレベルになる。

次に、図９を用いて、ステップＳ３０６の文書生成処理を説明する。図９は、ステップＳ３０６の文書生成処理の細部手順を説明するためのフローチャートである。まず、文書ブロック情報から、ステップＳ３０５で指定された文書の文書ＩＤに対応したブロックＩＤを一つずつ取り出す（ステップＳ９０１）。そして、すべてのブロックＩＤを取り出したか否かが判定される（ステップＳ９０２）。その結果、すべてのブロックＩＤを取り出していない場合（Ｎｏ）は、ステップＳ９０３へ進み、すべてのブロックＩＤを取り出し終えた場合（Ｙｅｓ）は、ステップＳ９０６へ進む。

ステップＳ９０３においては、オブジェクト情報から対象の文書ＩＤ及びブロックＩＤに対して、ステップＳ３０５で指定されたアクセスレベルに対応したブロック内容を取り出す。例えば、ステップＳ３０５で指定されたアクセスレベルの値と同じ値のオブジェクトアクセスレベルがあれば、そのオブジェクトアクセスレベルに対応したブロック内容を取り出す。一方、そうでなければ、指定されたアクセスレベルよりも小さく、最大の値を持つオブジェクトアクセスレベルを探し、そのオブジェクトアクセスレベルに対応したブロック内容を取り出す。

そして、ステップＳ９０３でブロック内容を取り出すことができたか否かが判定される（ステップＳ９０４）。その結果、ブロック内容が取り出すことができた場合（Ｙｅｓ）はステップＳ９０５へ進み、取り出すことができなかった場合（Ｎｏ）はステップＳ９０１へ戻って上記処理を繰り返す。

ステップＳ９０５においては、ステップＳ３０５で指定された文書の文書ＩＤとステップＳ９０１で取り出したブロックＩＤとステップＳ９０３で取り出したブロック内容とを対応させて一時記憶する。そして、処理を終えるとステップＳ９０１へ戻って上記処理を繰り返す。

一方、ステップＳ９０２でＹｅｓと判定された場合はステップＳ９０６に進むが、ここではステップＳ９０５で一時記憶されたブロックとオブジェクトの内容に基づいて文書が生成される。生成される文書はＨＴＭＬ文書であり、ＣＳＳ（ＣａｓｃａｄｉｎｇＳｔｙｌｅｓｈｅｅｔｓ）を用いて、ブロック情報に格納されているブロックの位置サイズ情報に基づいて、ブロックの内容がレイアウトされる。

次に、ＭＦＰ１００を用いて文書管理サーバ１０６で管理されている文書を検索するための前準備として、マネージメントＰＣ１０１の制御のもとに、文書をＭＦＰ１００内のデータベース１１８に登録する処理の概要について図１０を用いて説明する。図１０は、本実施形態に係る画像処理システムにおいて、検索のために文書を登録する処理手順を説明するためのフローチャートである。

まず、文書管理サーバ１０６から取得して得られる文書情報に基づいて、文書ＩＤを一つずつ取り出す（ステップＳ１００１）。そして、すべての文書ＩＤが取り出されたか否かが判定される（ステップＳ１００２）。その結果、文書ＩＤを取り出すことができた場合は、まだすべての文書が取り出されていなかった（Ｎｏ）として、ステップＳ１００３へ進む。一方、全ての文書ＩＤを取り出し終えた場合（Ｙｅｓ）はステップＳ１００９へ進む。

ステップＳ１００３においては、アクセスレベルの最大値から順番に設定する。次いで、すべて設定し終えたか否かを判定する（ステップＳ１００４）。その結果、すべてのアクセスレベルを設定し終えた場合は、ステップＳ１００１へ戻る。一方、ステップＳ１００４において、すべてのアクセスレベルを設定し終えていない場合（Ｎｏ）は、ステップＳ１００５に進む。

ステップＳ１００５においては、ステップＳ３０６と同様にして、文書管理サーバ１０６から取得して得られる文書ブロック情報とオブジェクト情報に基づいて、ステップＳ１００１で取得した文書ＩＤとステップＳ１００３で設定したアクセスレベルに対する文書を生成する。

そして、ステップＳ１００５で生成された文書と同一の文書が、すでに、図１１に示される生成文書情報と図１２に示される生成文書ブロック情報に登録されているか否かを判断する（ステップＳ１００６）。図１１は、本実施形態の生成文書情報の一例を示す図である。また、図１２は、本実施形態に係る生成文書ブロック情報の一例を示す図である。

ここで、生成文書情報と生成文書ブロック情報は、文書ＩＤに対して、異なるアクセスレベルごとに生成される文書の情報を格納する情報（データベース１１８上の格納領域）である。生成文書情報は、文書管理サーバ１０６で管理されている全ての文書に対して、アクセスレベルによって生成される文書のバリエーションを格納する情報であり、図に示されるように、文書管理サーバ１０６で管理されている全ての文書ＩＤに対して、アクセスレベルごとに生成される文書のＩＤである生成文書ＩＤが対応付けて格納される。異なるアクセスレベルでも、生成される文書が同一の場合は、同じ生成文書ＩＤが付与される。生成文書ブロック情報は、生成文書ＩＤに対して、その文書に含まれるブロック、およびそのブロックの内容であるオブジェクトＩＤが対応されて格納される。登録されていない場合は、ステップＳ１００７へ進み、登録されている場合は、ステップＳ１００８へ進む。

ステップＳ１００７では、図１２に示されるように、生成文書ＩＤを新たに発行し、ステップＳ１００５で生成された文書のブロックの情報（属性、位置、サイズ）とブロックの内容を示すオブジェクトＩＤとを生成文書ＩＤに対応させて、データベース１１８上の生成文書ブロック情報に格納する。また、図１１に示されるように、生成文書ＩＤと文書ＩＤとアクセスレベルを対応させて、データベース１１８上の生成文書情報に格納する。また、生成文書情報には、生成された文書に対して、ラスタ画像を作成して縮小することでサムネイル画像を作成し、サムネイル画像のアドレスを格納する。処理を終えるとステップＳ１００１へ進む。

ステップＳ１００８では、生成文書情報の同一の生成文書の生成文書ＩＤに対して、ステップＳ１００３で設定したアクセスレベルを追加する。そして、当該処理を終えるとステップＳ１００１へ戻って上記処理を繰り返す。

一方、ステップＳ１００９においては、文書管理サーバ１０６から取得して得られるオブジェクト情報に基づいて、各オブジェクトの種別に応じて特徴量情報の抽出を行う。尚、テキストブロックについては、テキストの文字列を文字特徴量とする。また、画像ブロックについては、色に関する画像特徴量を抽出する。抽出された特徴量は、データベース１１８上の色特徴量情報及びテキスト特徴量情報へそれぞれ登録される。尚、図１３及び図１４は、それぞれデータベース１１８に登録される色特徴量及びテキスト特徴量の一例を示す図である。そして、当該処理を終えると、文書をデータベース１１８へ登録する処理を終了する。

次に、紙文書から対応するオリジナルの文書を検索し、印刷等を行う処理の概要について説明する。図１５は、本実施形態に係る画像処理システムにおいて検索して取得した文書を印刷／配信／編集する処理手順を説明するためのフローチャートである。

まず、マネージメントＰＣ１０１からオリジナル文書検索のログインを行う（ステップＳ１５０１）。次いで、ユーザは、ステップＳ３０１と同様に、キーボードからユーザ名とパスワードを入力する。入力されたユーザ名とパスワードは、文書管理サーバ１０６へ送信され、ステップＳ３０１と同様に当該ユーザ名とパスワードの正当性が判定され、正当性が確認されるとセッションが開始される。そして、ステップＳ３０３と同様にして、文書管理サーバ１０６においてユーザのアクセスレベルが取得される（ステップＳ１５０２）。

ステップＳ１５０２でアクセスレベルが取得されると、ユーザ名とパスワードの正当性の判定結果が文書管理サーバ１０６から返信される。その結果、正当である場合、マネージメントＰＣ１０１は、ＭＦＰ１００のＡＤＦを含む画像読み取り装置１１０を動作させ、紙文書をラスタ状に走査してラスタ画像を記憶装置１１１に読み込む（ステップＳ１５０３）。

次いで、記憶装置１１１に格納されている１ページ分のラスタ画像に対して、ブロックセレクション処理が行われる（ステップＳ１５０４）。そこで、マネージメントＰＣ１０１のＣＰＵは、格納されたラスタ画像からまず、文字／線画部分とハーフトーンの画像部分とに領域を分離する。そして、文字部はさらに段落で塊として纏まっているブロック毎に、或いは、線で構成された表、図形に分離し、おのおのセグメント化する。一方、ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等、いわゆるブロック毎に独立したオブジェクトに分割する。図１６は、ブロックセレクション処理を行う前のラスタ画像とブロックセレクション処理後の結果を対応させた一例を示す図である。

次に、各ブロックの種別に応じて、ブロック毎に特徴量情報の抽出を行う（ステップＳ１５０５）。テキストブロックに対しては、その位置とサイズを対応させ、さらにＯＣＲ処理を行って抽出された文字コードをテキスト特徴量として対応させる。図１８は、テキスト特徴量情報の一例を示す図である。また、画像ブロックについては、その位置とサイズを対応させ、さらに色に関する画像特徴量を対応させて画像特徴量情報とする。図１７は、画像特徴量情報の一例を示す図である。これらの紙文書テキスト特徴量情報と紙文書画像特徴量情報は、記憶装置１１１内に一時的に記憶される。

次に、比較処理が行われる（ステップＳ１５０６）。すなわち、データベース１１８に格納されている生成文書ブロック情報を元に、生成文書ＩＤをひとつずつ順番に処理し、生成文書ＩＤに対応したブロック情報（位置、サイズ、属性）と、そのブロック（オブジェクトＩＤ）に対応したデータベース１１８中の色特徴量情報とテキスト特徴量情報を、記憶装置１１１内に格納されている紙文書画像特徴量情報と紙文書テキスト特徴量情報から類似度を算出し、所定のしきい値よりも高い文書を文書候補リストに登録する。文書候補リストは、生成文書ＩＤと類似度を対応させたリストである。図１９は、文書候補リストの一例を示す図である。文書候補リストの中では、類似度の値によって、生成文書ＩＤが降順にソーティングされる。

次いで、候補表示／選択を行う（ステップＳ１５０７）。すなわち、前述した文書候補リストに格納されている生成文書ＩＤに対してサムネイル等を表示し、複数の候補の中からオペレータがオリジナル文書の生成文書ＩＤの特定を行う。サムネイルは、データベース１１８中に格納された生成文書情報から生成文書ＩＤに対応したサムネイル画像を得ることができる。例えば、マネージメントＰＣ１０１のディスプレイに生成文書ＩＤに対応したサムネイル画像の一覧を表示する。そして、オペレータは、その中からサムネイル画像の一つを選択すると、選択されたサムネイル画像に対応した生成文書ＩＤが選択されたことになる。

続いて、ステップＳ１５０７で選択された生成文書ＩＤに対して、取得する文書ＩＤを求め、さらに、取得する際に必要となるアクセスレベルの設定を行う（ステップＳ１５０８）。

さらに、ステップＳ１５０８で設定された文書ＩＤに対して、設定されたアクセスレベルに対応した文書を文書管理サーバ１０６から取得する（ステップＳ１５０９）。文書管理サーバ１０６の文書生成プログラムに、ステップＳ１５０１でログインしたセッションで、文書ＩＤとアクセスレベルを送付し、文書ＩＤとアクセスレベルに対応した文書を生成させて取得する。この処理は、ステップＳ３０６と同様である。

そして、ステップＳ１５０９で取得した文書に対して、オペレータの指示に基づいて、印刷、配信、編集のいずれかの処理を行う（ステップＳ１５１０）。

以下各処理の詳細について説明する。まず、ステップＳ１５０４で示すブロックセレクション処理の詳細について説明する。

ブロックセレクション処理とは、図１６の左側に示すラスタ画像を右側に示すように、各オブジェクト毎の塊として認識し、それぞれの塊であるブロックを文字／図画／写真／線／表等の属性に判定し、異なる属性を持つ領域に分割する処理である。ブロックセレクション処理の一例を以下に説明する。

まず、入力画像を白黒に２値化し、輪郭線追跡を行って黒画素輪郭で囲まれている画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出する。さらに、一定面積以上の白画素の塊の内部からは、再帰的に黒画素の塊を抽出する。

このようにして得られた黒画素の塊を大きさ及び形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が１に近く、大きさが一定の範囲のものを文字相当の画素塊とする。また、近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素塊を線領域、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域、などとする。

次に、ステップＳ１５０５で示す特徴量抽出処理の詳細について説明する。特徴量抽出は、画像と文字で処理方法が異なるため、それぞれ別に説明する。

まず、画像ブロックに対する特徴量情報抽出処理について述べる。尚、１つの文書に複数の画像ブロックが存在する場合は、その総数分だけ以下の処理を繰り返すようにする。

以下では、一例として色特徴抽出処理を行う。まず、１つの画像ブロックを複数の領域に分割したそれぞれの領域における色ヒストグラムによる最頻色を持つ色ビンのＩＤを代表色として、それぞれ領域の位置と対応付けた特徴を抽出する。図２０は、本実施形態に係る色特徴抽出処理の動作手順を説明するためのフローチャートである。また、図２１は、画像ブロックを分割したメッシュ領域例を示す図である。さらに、図２２は、ＲＧＢ色空間を３×３×３＝２７ビンへ均等階級化する例を示す図である。尚、実際には、６×６×６＝２１６程度の色ビンがある方が好ましいが、説明を容易にするために以下では２７ビンとして説明する。

まず、図２１に示すように、画像ブロックを縦横複数のグリッド領域に分割する（ステップＳ２０２０）。本実施形態では、９×９＝８１メッシュ領域であるが、実際には、１５×１５＝２２５メッシュ領域程度であることが好ましい。

そして、着目するメッシュ領域を左上端に設定する（ステップＳ２０３０）。尚、この際に、図２３に示すように、予め対象とする分割メッシュ領域の順番を決定しておくと良い。図２３は、対象とするメッシュ領域の順番を示す図である。図２３に示す例では、３×３＝９メッシュ領域において、左上端から右へ走査し、その行を終えると次の行の左端から右へスキャンする走査例を示している。

そして、未処理のメッシュ領域があるか否かを判定する（ステップＳ２０４０）。その結果、未処理のメッシュ領域が無い場合（Ｎｏ）は処理を終了する。一方、未処理のメッシュ領域が有る場合（Ｙｅｓ）は、処理対象メッシュ領域の全画素の値を図２２に示す色空間を分割して作った部分空間である色ビンへ射影し、色ビンに対するヒストグラムを取る（ステップＳ２０５０）。

そして、最も頻度の高い色ビンに対応する色ビンＩＤをそのメッシュ領域の代表色と決定する（ステップＳ２０６０）。さらに、処理対処メッシュ領域を図２３に示す並び順に従って次のメッシュ領域へ移し（ステップＳ２０７０）、再びステップＳ２０４０の処理を再帰的に行って、未処理のメッシュ領域が無くなるまで繰り返す。上記処理により、着目画像の色特徴量情報を得ることができる。

次に、文字ブロックに対する特徴量情報抽出処理について述べる。文字ブロックに対する特徴量情報として、本実施形態ではＯＣＲ（文字認識）処理を行い、文字コード列を抽出する。

ＯＣＲ（文字認識）は、文字単位で切り出された画像に対し、パターンマッチングの一手法を用いて認識を行って、対応する文字コードを得るものである。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。

ブロックセレクション処理（ステップＳ１５０４）で抽出された文字領域に対して文字認識を行う場合は、まず該当する領域に対して横書き又は縦書きの判定を行う。そして、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き又は縦書きの判定は、当該領域内で画素値に対する水平／垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。そして、文字列及び文字への分解は、横書きの場合は水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことで行う。また、縦書きの文字領域に対しては、水平と垂直を逆にすればよい。

次に、ステップＳ１５０６に示す比較処理の詳細について、図２４を用いて説明する。図２４は、本実施形態における比較処理全体の動作例を説明するためのフローチャートである。

まず、生成文書情報の先頭から生成文書ＩＤを順番に取り出していく（ステップＳ２４１０）。次に、ステップＳ２４１０で生成文書ＩＤを取り出すことができたか否かを、比較先文書画像の取得が終了しているか否かを判断することによって判定する（ステップＳ２４２０）。その結果、終了したと判定された場合（Ｙｅｓ）はステップＳ２４３０へ進み、生成文書情報から全ての生成文書ＩＤを取り出し終えた場合（Ｎｏ）、すなわち全ての文書が終了していなかった場合はステップＳ２４７０へ進む。

ステップＳ２４３０では、レイアウトの比較を行う。ここでレイアウトと呼ぶのは、ブロックの属性、サイズ、位置のことである。ステップＳ１５０４で抽出したブロックセレクション処理で得られたレイアウトの情報について、属性が画像であるブロックのサイズと位置は、紙文書画像特徴量情報に格納されている。また、属性がテキストであるブロックのサイズと位置は、紙文書テキスト特徴量情報に格納されている。そこで、これらのレイアウトの情報と、ステップＳ２４１０で取り出した生成文書ＩＤに対応した生成文書ブロック情報に格納されているレイアウトの情報が同じであるかどうかを判定する。

その結果、比較元と比較先のページのレイアウトが同じである場合（Ｙｅｓ）は次のステップＳ２４４０へ進み、同じでない場合（Ｎｏ）はステップＳ２４１０へ進む。ステップＳ２４４０では特徴量の比較を行う。これはブロックの属性に合わせ、テキスト、画像それぞれに応じた特徴量を用いて複合的に比較を行い、ページの類似度を算出する処理である。尚、当該処理の詳細については後述する。

次に、ステップＳ２４４０で算出された類似度を所定の閾値と比較する（ステップＳ２４５０）。その結果、所定の閾値よりも大きい場合（Ｙｅｓ）はステップＳ２４６０へ進み、そうでない場合（Ｎｏ）はステップＳ２４１０へ戻って上記処理を繰り返す。ステップＳ２４６０では、現在処理中の生成文書ＩＤとステップＳ２４４０で算出された類似度を文書候補リストに追加する。そして、ステップＳ２４１０へ戻って次の生成文書ＩＤを取り出す。

一方、ステップＳ２４７０では、前述した文書候補リストに格納されている生成文書ＩＤを対応する類似度の値によって降順にソートし、比較処理を終了する。

次に、特徴量の比較（ステップＳ２４４０）の処理の詳細について説明する。図２５は、ステップＳ２４４０の特徴量の比較の詳細な処理手順を説明するためのフローチャートである。

まず、未知のブロックがあるか否かの終了判定を行う（ステップＳ２５１０）。すなわち、上記生成文書ブロック情報を参照して、現在対象となる生成文書ＩＤの中で未比較のブロックがあるか否かを判定する。その結果、未知のブロックがある場合（Ｙｅｓ）はステップＳ２５２０へ進み、未知のブロックがない場合（Ｎｏ）はステップＳ２５７０へ進む。

ステップＳ２５２０では、比較対象のブロックの属性をチェックする。その結果、画像ブロックであると判定された場合はステップＳ２５４０へ進み、テキストブロックであると判定された場合はステップＳ２５６０へ進む。

画像ブロックに対しては、色に関する特徴量情報で比較先ブロックとの類似比較を行い、ブロックの類似度を算出する（ステップＳ２５４０）。尚、算出した類似度は、オブジェクトＩＤに対応させて一時記憶する。また、テキストブロックに対しては、テキストの特徴を用いて比較を行い、ブロックの類似度を算出する（ステップＳ２５６０）。尚、算出した類似度は、オブジェクトＩＤに対応させて一時記憶する。

次に、全てのブロックについて比較を終えた場合（ステップＳ２５１０でＮｏの場合）、比較先のページに含まれる全てのブロックの類似度を統合し、ページについての類似度を求める（ステップＳ２５７０）。

図２６は、図２５のステップＳ２５４０の色情報比較処理の詳細を説明するためのフローチャートである。まず、検索先と検索元の色特徴量を色特徴量情報から読み出す（ステップＳ２６１０）。次に、着目する分割メッシュ領域を先頭に設定し（ステップＳ２６２０）、類似距離を０にリセットしておく（ステップＳ２６３０）。

次いで、未比較の画像分割メッシュ領域があるか否かを判定する（ステップＳ２６４０）。その結果、未比較の画像分割メッシュ領域がある場合（Ｙｅｓ）は、比較先と比較元のブロックで対応する着目メッシュ領域の色ビンＩＤを取り出す（ステップＳ２６５０）。図２７は、色ビン同士の色の類似具合を表す色ビンＩＤ間のペナルティマトリックスを示す図である。図２７に示すように、同一色ビンＩＤでは０、似ていないものほど大きな値を持つマトリックスであり、同じ色ビンＩＤの対角位置は全て０でそれを境に対象性を持っている。すなわち、２つの色ビンの類似度がテーブル参照だけで済むので、処理の高速化が可能である。

ステップＳ２６５０で色ビンＩＤを取り出した後、色ビンＩＤ間のペナルティマトリックスをステップＳ２６５０で取り出した２つの色ビンＩＤを用いて参照し、着目メッシュ領域の局所的類似距離を得て、これを類似距離に加算する（ステップＳ２６６０）。そして、着目するメッシュ領域を次のメッシュ領域へシフトする（ステップＳ２６７０）。

一方、ステップＳ２６４０において未比較のメッシュ領域がないと判定された場合（Ｎｏ）は、算出した類似距離を類似度に変換してブロックＩＤと対にして出力する（ステップＳ２６８０）。尚、類似度への変換は、類似距離が０のときを１００％、類似距離が最大値のときを０％となるようにすればよい。

次に、図２５のステップＳ２５６０のテキスト特徴比較処理の詳細について説明する。この処理は、ブロック内の各文字コード同士の比較を行い、その一致度から類似度を算出する。尚、オリジナルとの比較であれば、類似度は１００％となるのが理想的である。しかし、実際にはＯＣＲで誤認識が発生する場合があるので、オリジナルとの比較であっても１００％に近い値であればよいものとする。

図２５のステップＳ２５７０の画像及び文字それぞれの比較処理の結果を統合する処理の詳細について述べる。ここでは、ページ内で占めている割合の大きいブロックの類似度が、ページ全体の類似度へより大きく反映されるように、統合を行う。例えば、ブロックＢ１〜Ｂ６に対して、ブロック毎の類似度がｎ１〜ｎ６と算出されたとする。このときページの総合類似度Ｎは、以下の式で表現される。

Ｎ＝w1*n1 + w2*n2 + w3*n3 + … + w6*n6 ・・・（１）
ここで、w1〜w6は、各ブロックの類似率を評価する重み係数である。重み係数w1〜w6は、ブロックのファイル内占有率により求める。例えば、ブロックＢ１〜Ｂ６のサイズをS1〜S6とすると、ブロックＢ１の占有率w1は、
w1 = S1／(S1+S2+…+S6) ・・・（２）
として算出できる。このような占有率を用いた重み付け処理により、ページ内で大きな領域を占めるブロックの類似度がよりページ全体の類似度に反映されるようになる。

次に、ステップＳ１５０８のアクセスレベル設定処理の詳細について説明する。図２８は、ステップＳ１５０８のアクセスレベル設定処理の詳細を説明するためのフローチャートである。まず、ステップＳ１５０７で選択した生成文書ＩＤに対する文書アクセスレベルを取得して、ステップＳ１５０２で取得したユーザアクセスレベルと比較する（ステップＳ２８０１）。文書アクセスレベルは、前記生成文書情報から生成文書ＩＤに対応したアクセスレベルを取得でき、一つの生成文書ＩＤに対して複数のアクセスレベルが存在する可能性がある。

その結果、ユーザアクセスレベルと同じ値が生成文書情報から得られるアクセスレベルに含まれている場合（ユーザ＝文書）は、文書アクセスレベルを変更せずに、アクセスレベル設定処理を終了する。また、ユーザアクセスレベルが生成文書情報から得られる文書アクセスレベルの最大値よりも大きい場合（ユーザ＞文書）は、ステップＳ２８０２へ進む。さらに、ユーザアクセスレベルが生成文書情報から得られる文書アクセスレベルの最小値よりも小さい場合（ユーザ＜文書）は、ステップＳ２８０３へ進む。

ステップＳ２８０２では、ユーザに取得する文書のアクセスレベルを指定させる。これは、ステップＳ１５０３で読み込んだ紙文書のアクセスレベルが、ユーザのアクセスレベルよりも低い場合であり、ユーザが欲しい文書として、スキャンした文書と同じアクセスレベルの文書の場合と、自分のアクセスレベルに応じた文書の場合の両方があり、その両方に対応するためである。また、この場合、読み込んだ紙文書よりも低いアクセスレベルの文書を選択することも、読み込んだ紙文書よりも高く、ユーザよりも低いアクセスレベルの文書を選択することも可能である。但し、ユーザよりも高いアクセスレベルの文書を選択することはできない。選択可能なアクセスレベルをユーザに提示し、ユーザはその中からアクセスレベルを選択することにより、必要に応じてステップＳ２８０１で得た文書アクセスレベルを変更する。処理を終えるとアクセスレベル設定処理を終了する。

一方、ステップＳ２８０３では、ステップステップＳ１５０７で選択した生成文書ＩＤから対応する文書ＩＤを求め、その文書を管理している管理者にその文書にアクセスできないユーザが紙文書を利用しようとしていることを通知する。これにより、生成文書情報から選択された生成文書ＩＤに対する文書ＩＤを求め、文書情報から文書ＩＤに対応した管理者を求めることができる。尚、管理者への通知は、管理者に対して電子メールアドレスを対応付けておき、電子メールを用いてステップＳ１５０１でスキャンしたユーザ名とアクセスレベルと文書名、文書ＩＤ等の必要な情報を通知する。

次いで、ステップＳ２８０４において、ステップＳ２８０１で取得した文書アクセスレベルの値をユーザアクセスレベルに変更し、アクセスレベル設定処理を終了する。

このように本実施形態においては、紙文書からオリジナルの電子文書を検索する画像処理装置において、検索のために登録されている文書の特徴量の重複する特徴量を一つにまとめて記憶するため、特徴量を記憶するために必要な記憶容量を削減することができる。

＜その他の実施形態＞
上述した実施形態において、図１０を用いて説明した文書をＭＦＰ１００内のデータベース１１８に登録する処理では、特徴量を共用して使用するメモリを削減するためにオブジェクト毎に特徴量登録していたが、実際の特徴量を比較して、同一の特徴量を共用するようにしてもよい。このようにした場合、例えば、前述した生成文書ブロック情報、色特徴量情報、テキスト特徴量情報は、図３１、図３２、図３３に示されるように、オブジェクトＩＤの代わりに特徴量を識別するための特徴量ＩＤが格納される。すなわち、図３１、図３２及び図３３は、それぞれ生成文書ブロック情報、色特徴量情報及びテキスト特徴量情報の別の実施形態を示す図である。

また、図３０は、図１０を用いて説明した文書登録処理の別の手順を説明するためのフローチャートである。すなわち、別の実施形態では、図１０に示した処理の流れは図３０に示すように変更される。尚、図３０において、ステップＳ１００１からステップＳ１００６までの間の処理の流れと、ステップＳ１００８は図１０に示す処理と変更がないため、その説明は省略する。

図１０に示す処理ではステップＳ１００７でオブジェクトＩＤを生成文書ブロック情報に格納していたが、ステップＳ３００７では、その格納を行わない。そして、ステップＳ１００９で特徴量登録を行っていた代わりに、ステップＳ３００９において特徴量を登録する。

まず、ステップＳ１００５で生成された文書の各ブロックに対して、その属性に応じて特徴量の抽出処理を切り替え、画像ブロックに対しては、色に関する特徴量を抽出し、テキストブロックに関しては文字列を特徴量とする。そして、抽出された各特徴量に対し、画像ブロックは、図３２に示す色特徴量情報の中から同じ特徴量を探し、同じ特徴量が存在すれば対応する特徴量ＩＤを図３１に示す生成文書ブロック情報の対象のブロックに対応した特徴量ＩＤに格納する。一方、同じ特徴量が存在しなければ、新たに特徴量ＩＤを発行して、色特徴量情報に特徴量ＩＤと色特徴量を対応させて追加する。

同様に、テキストブロックは、図３３に示すテキスト特徴量情報の中から同じ特徴量を探し、同じ特徴量が存在すれば対応する特徴量ＩＤを図３１に示す生成文書ブロック情報の対象のブロックに対応した特徴量ＩＤに格納する。一方、同じ特徴量が存在しなければ、新たに特徴量ＩＤを発行して、テキスト特徴量情報に特徴量ＩＤとテキスト特徴量を対応させて追加する。このようにすることで、同一の特徴量が共用されるようになる。

また、前述した実施形態では、生成文書ブロック情報において、ブロックの情報（属性、位置、サイズ）を生成文書ＩＤに対してブロック毎に直接記述していた。しかし、図３１等から明らかなように、生成文書ブロック情報の中には、ブロックの属性、位置、サイズが同じものが存在する。従って、これらのブロックの情報にＩＤを付与し、生成文書ブロック情報にはこのＩＤを格納するようにし、ブロックの情報を別テーブルで管理するようにすれば、ブロックの情報の重複を避けることができ、記憶容量を削減することができる。

また同様に、画像特徴量やテキスト特徴量を除いたブロックのレイアウト情報（ページ内のブロック数、各ブロックの属性、位置、サイズ）を、別テーブルで管理するように知れば、レイアウト情報の重複も避けることができ、記憶容量を削減することができる。

さらに、上述した実施形態において、色特徴抽出処理は最頻色を用いる方法を述べたが、もちろんこれに限られるものではない。例えば、平均色を用いても構わない。

さらにまた、上述した実施形態においては、画像の特徴量として色特徴量を用いたが、これに限定されるものではない。例えば、最頻輝度、平均輝度、共起行列、コントラスト、エントロピ、Ｇａｂｏｒ変換等で表現されるテクスチャ特徴量、エッジ、フーリエ記述子等の形状特徴量等複数挙げられ、かつ、このような複数の特徴量のうち最適な組み合わせを用いてもよい。

さらにまた、上述した実施形態においては、文書管理サーバ１０６で管理されている文書をＭＦＰ１００内のデータベース１１８に登録する際に、電子ファイルから直接、ブロックの情報や文字コード画像を抜き出していた。それ以外にも、電子ファイルについて、一旦ラスタ画像に変換した後、ラスタ画像に対してステップＳ１５０４からステップＳ１５０５と同様にして、ブロックの情報、テキスト特徴量、及び画像特徴量を取り出すようにしても良い。

さらにまた、上述した実施形態における文字情報比較では、文字コードを単純に比較した。それ以外にも、例えば、単語辞書とのマッチングを予め行って単語の品詞を求めておき、名詞である単語のみを比較するという方法でも良い。

さらにまた、上述した実施形態では、ステップＳ３０６で生成される文書はＨＴＭＬ文書とした。しかし、それ以外にも、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）等の画像やテキスト等の生成する文書内のオブジェクトの位置をレイアウトできるフォーマットであればどのようなものを用いてもよい。

さらにまた、上述した実施形態では、文書に対するアクセス制御を行うために、アクセスレベルという概念を用いて、レベルの上下によってアクセスできるオブジェクトが増減した。それ以外にも、オブジェクトごとにアクセスできる個人やグループを記述するようにして、個人単位や所属するグループ単位で、個別にアクセス制御を行ってもよい。

さらにまた、上述した実施形態では、スキャナとプリンタが一体型のＭＦＰを用いたが、スキャナとプリンタをそれぞれ個別の機器としてＬＡＮやＰＣ等に接続して構成するようにしても良い。また、検索対象情報として、上述した実施形態では文書データを用いたが、マルチメディアデータ等の各種データを対象としても同様にして処理が可能である。この場合、図２における画像読み取り装置１１０がスキャナに相当し、印刷装置１１２がプリンタに相当することになる。また、それ以外の構成要素はＰＣに含まれることになり、スキャナやプリンタとＰＣとの接続は、ネットワークＩ／Ｆを介して、ＬＡＮ経由で接続されることになる。

以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体（記録媒体）等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。本実施形態に係るＭＦＰ１００の構成を示すブロック図である。本実施形態に係る画像処理システムにおいてデータベース１０５に格納されている文書をクライアントＰＣ１０２から閲覧して印刷する処理手順を説明するためのフローチャートである。パスワードのチェックの際に参照されるユーザ情報の一例を示す図である。文書管理サーバ１０６で管理され、データベース１０５に格納されている文書情報を説明するための図である。文書管理サーバ１０６で管理され、データベース１０５に格納されている文書ブロック情報を説明するための図である。文書管理サーバ１０６で管理され、データベース１０５に格納されているオブジェクト情報を説明するための図である。図７のオブジェクト情報の例に基づいて文書ＩＤが０００１の文書に対してアクセスレベルによって文書の内容が異なる例を示す図である。ステップＳ３０６の文書生成処理の細部手順を説明するためのフローチャートである。本実施形態に係る画像処理システムにおいて検索のために文書を登録する処理手順を説明するためのフローチャートである。本実施形態の生成文書情報の一例を示す図である。本実施形態に係る生成文書ブロック情報の一例を示す図である。データベース１１８に登録される色特徴量の一例を示す図である。データベース１１８に登録されるテキスト特徴量の一例を示す図である。本実施形態に係る画像処理システムにおいて検索して取得した文書を印刷／配信／編集する処理手順を説明するためのフローチャートである。ブロックセレクション処理を行う前のラスタ画像とブロックセレクション処理後の結果を対応させた一例を示す図である。画像特徴量情報の一例を示す図である。テキスト特徴量情報の一例を示す図である。文書候補リストの一例を示す図である。本実施形態に係る色特徴抽出処理の動作手順を説明するためのフローチャートである。画像ブロックを分割したメッシュ領域例を示す図である。ＲＧＢ色空間を３×３×３＝２７ビンへ均等階級化する例を示す図である。対象とするメッシュ領域の順番を示す図である。本実施形態における比較処理全体の動作例を説明するためのフローチャートである。ステップＳ２４４０の特徴量の比較の詳細な処理手順を説明するためのフローチャートである。図２５のステップＳ２５４０の色情報比較処理の詳細を説明するためのフローチャートである。色ビン同士の色の類似具合を表す色ビンＩＤ間のペナルティマトリックスを示す図である。ステップＳ１５０８のアクセスレベル設定処理の詳細を説明するためのフローチャートである。文書の一覧を表示した一例を示す図である。図１０を用いて説明した文書登録処理の別の手順を説明するためのフローチャートである。生成文書ブロック情報の別の実施形態を示す図である。色特徴量情報の別の実施形態を示す図である。テキスト特徴量情報の別の実施形態を示す図である。

符号の説明

１００ＭＦＰ
１０１マネージメントＰＣ
１０２クライアントＰＣ
１０３ＬＡＮ
１０５、１１８データベース
１０６文書管理サーバ
１１０画像読み取り装置
１１１記憶装置
１１２印刷装置
１１３入力装置
１１４、１１７ネットワークＩ／Ｆ
１１５データ処理装置
１１６表示装置

Claims

複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶手段と、
検索対象情報を入力する入力手段と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手段と、
前記抽出手段により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手段と、
前記算出手段によって算出されたそれぞれのオブジェクトの特徴量と前記記憶手段に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶手段から検索する検索手段とを備える画像処理システムであって、
前記記憶手段は、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶することを特徴とする画像処理システム。
前記検索手段が、前記算出手段によって算出されたそれぞれのオブジェクトの特徴量と前記記憶手段に記憶されているオブジェクトの特徴量との類似度を判定し、所定の類似度を満たすオブジェクトを前記検索対象情報に対応する電子データを構成するオブジェクトとして検索し、検索された一又は複数のオブジェクトを配置して電子データを生成することを特徴とする請求項１に記載の画像処理システム。
ユーザのアクセスレベル情報を取得する取得手段をさらに備え、
前記記憶手段が、前記オブジェクトの情報と該オブジェクトへのアクセスを許可するアクセス許可情報とを対応付けて記憶し、
前記検索手段は、前記取得手段により取得された前記アクセスレベル情報が該オブジェクトのアクセス許可情報を満たすか否かをオブジェクト単位に判定し、該アクセス許可情報を満たすと判定されたオブジェクトのみを配置して電子データを生成する
ことを特徴とする請求項２に記載の画像処理システム。
ユーザを認証する認証手段をさらに備え、
前記取得手段は、前記認証手段によって認証されたユーザのアクセスレベル情報を取得する
ことを特徴とする請求項３に記載の画像処理システム。
前記検索手段によって検索された一又は複数のオブジェクトを配置して生成された前記電子データを印刷、配信又は編集する出力手段をさらに備えることを特徴とする請求項２又は３に記載の画像処理システム。
前記電子データがマルチメディアデータ、又は紙文書から光学的に読み取られてベクトル化されたベクトルデータであることを特徴とする請求項１から５までのいずれか１項に記載の画像処理システム。
前記検索手段が、画像オブジェクトの色特徴量、又は文字オブジェクトの文字特徴量を比較することを特徴とする請求項１から６までのいずれか１項に記載の画像処理システム。
複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶装置であって、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶する記憶装置から電子データを検索する画像処理方法であって、
検索対象情報を入力する入力工程と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出工程と、
前記抽出工程により抽出されたそれぞれのオブジェクトの特徴量を算出する算出工程と、
前記算出工程によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索工程と
を有することを特徴とする画像処理方法。
コンピュータに、複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶装置であって、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶する記憶装置から電子データを検索させるためのプログラムであって、
検索対象情報を入力する入力手順と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手順と、
前記抽出手順により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手順と、
前記算出手順によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索手順と
を実行させるためのプログラム。
請求項９に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。