JP2005352783A - 画像処理システム、方法、プログラム及び記憶媒体 - Google Patents
画像処理システム、方法、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP2005352783A JP2005352783A JP2004173014A JP2004173014A JP2005352783A JP 2005352783 A JP2005352783 A JP 2005352783A JP 2004173014 A JP2004173014 A JP 2004173014A JP 2004173014 A JP2004173014 A JP 2004173014A JP 2005352783 A JP2005352783 A JP 2005352783A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- feature amount
- electronic data
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 紙文書からオリジナルの電子文書を検索するために必要とされる文書画像やその特徴量を記憶するために必要な記憶容量を好適に削減することができる画像処理システム、方法、プログラム及び記憶媒体を提供する。
【解決手段】 データベース106等の記憶装置には、複数の電子データをオブジェクト単位で記憶するが、その際それぞれのオブジェクトの情報とその特徴量とを対応付けて記憶する。また、複数の電子データに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及びその特徴量を共有して記憶する。MFP100の画像読み取り装置110から読み取られた紙文書は検索対象情報として入力され、その構成要素であるオブジェクトが抽出されて特徴量が算出される。次に、その特徴量と記憶装置に記憶されているオブジェクトの特徴量とを比較し、検索対象情報に対応する電子データが記憶装置から検索される。
【選択図】 図1
【解決手段】 データベース106等の記憶装置には、複数の電子データをオブジェクト単位で記憶するが、その際それぞれのオブジェクトの情報とその特徴量とを対応付けて記憶する。また、複数の電子データに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及びその特徴量を共有して記憶する。MFP100の画像読み取り装置110から読み取られた紙文書は検索対象情報として入力され、その構成要素であるオブジェクトが抽出されて特徴量が算出される。次に、その特徴量と記憶装置に記憶されているオブジェクトの特徴量とを比較し、検索対象情報に対応する電子データが記憶装置から検索される。
【選択図】 図1
Description
本発明は、複写機等の画像入力装置で読み取られた紙文書から対応するオリジナルの電子データを検索し、検索されたオリジナルの電子データを印刷、配信、蓄積及び編集等に活用する画像処理システム、方法、プログラム及び記憶媒体に関する。
近年、オフィスのペーパレス化が唱えられており、紙文書の電子化が進められている。しかし、紙文書には、目が疲れにくい、全体を概観しやすい、書き込める等の電子文書にはないメリットがある。従って、現状のオフィスでは、電子文書と紙文書のそれぞれのメリットを生かし、電子文書と紙文書が併用されている状況にある。このような状況では、紙文書と電子文書との扱いの差異を軽減するために、電子文書から紙文書へ、紙文書から電子文書への相互の移行が容易にできるような環境が求められている。
電子文書から紙文書への移行は、電子文書をプリンタを用いて印刷することで容易に達成できる。それに対して、紙文書から電子文書への移行は、紙文書をスキャナを用いて読み取り、画像データとして電子化する方法が一般的に行われている。
しかしながら、紙文書に対して、オリジナルの電子文書がある場合は、画像データ等に移行するよりも、紙文書に対してオリジナルの電子文書に移行するほうが望ましい。これを実現する方法として、電子文書をラスター画像に変換して電子文書と対応付けて保存しておき、紙文書をスキャンして得られたラスター画像データと、電子文書に対するラスター画像データとを、その特徴量の類似性を比較することにより、オリジナルの電子文書を検索することを可能にすることが知られている(例えば、特許文献1参照。)。
例えば、会議で発表する時に用いた資料を紙文書として出席者に配布されることは一般的に行われているが、上記特許文献1に記載されたような方法を用いることで、配布された紙文書からオリジナルの電子文書を取り出すことが可能になり、会議の出席者は、オリジナルの電子文書を編集したり、会議に出席していない人に配布したりすることが可能になる。
一方、近年、情報に対するセキュリティを厳格に運用しようという機運が高まり、文書の構成要素(テキスト、表、図形、写真等)ごとに、アクセスできる人を切り替える技術が提案されている。ここで、文書画像を送信する際に、文書画像の構成要素(オブジェクト)ごとに、ある受信者には文字領域のみを、他の受信者には文字領域と写真領域を閲覧させるようにするために、文書画像をオブジェクト単位に分割し、オブジェクトごとに暗号化を施す技術が提案されている(例えば、特許文献2参照。)。
また、インターネットとWEBブラウザの普及により、現在作成されている文書として、HTML文書が増加している。そして、HTML文書の中には、CGI等のプログラムによって動的に生成する文書があり、このような文書では、アクセスする人によって、表示するオブジェクトを切り替えることも行われている。
このような動的に生成される文書に対して、紙文書からオリジナルの文書を生成しようとした場合に特許文献1で提案された技術を用いると、動的に生成される全てのパターンのラスター画像に変換して、動的に生成される電子文書と対応付けて保存しておく必要がある。
特開2001−256256号公報
特開2002−318535号公報
しかしながら、動的に生成される文書に対して、オリジナルの電子文書を検索するためには、上述したような従来技術を用いた場合は、動的に生成される文書画像、若しくはその特徴量を全て保存しておく必要があり、必要とされる記憶容量が非常に大きくなるという欠点があった。また、動的に生成されない文書においても改版を重ねた文書等は、内容がほとんど同じであるにもかかわらず、文書画像、若しくはその特徴量を全て保存しておく必要があったので、必要な記憶容量が非常に大きくなるという欠点があった。
本発明は、このような事情を考慮してなされたものであり、紙文書からオリジナルの電子文書を検索するために必要とされる文書画像やその特徴量を記憶するために必要な記憶容量を好適に削減することができる画像処理システム、方法、プログラム及び記憶媒体を提供することを目的とする。
上記課題を解決するために、本発明に係る画像処理システムは、
複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶手段と、
検索対象情報を入力する入力手段と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手段と、
前記抽出手段により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手段と、
前記算出手段によって算出されたそれぞれのオブジェクトの特徴量と前記記憶手段に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶手段から検索する検索手段とを備え、
前記記憶手段は、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶することを特徴とする。
複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶手段と、
検索対象情報を入力する入力手段と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手段と、
前記抽出手段により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手段と、
前記算出手段によって算出されたそれぞれのオブジェクトの特徴量と前記記憶手段に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶手段から検索する検索手段とを備え、
前記記憶手段は、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶することを特徴とする。
また、本発明は、複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶装置であって、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶する記憶装置から電子データを検索する画像処理方法であって、
検索対象情報を入力する入力工程と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出工程と、
前記抽出工程により抽出されたそれぞれのオブジェクトの特徴量を算出する算出工程と、
前記算出工程によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索工程と
を有することを特徴とする。
検索対象情報を入力する入力工程と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出工程と、
前記抽出工程により抽出されたそれぞれのオブジェクトの特徴量を算出する算出工程と、
前記算出工程によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索工程と
を有することを特徴とする。
さらにまた、本発明は、コンピュータに、複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶装置であって、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶する記憶装置から電子データを検索させるためのプログラムであって、
検索対象情報を入力する入力手順と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手順と、
前記抽出手順により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手順と、
前記算出手順によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索手順と
を実行させることを特徴とする。
検索対象情報を入力する入力手順と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手順と、
前記抽出手順により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手順と、
前記算出手順によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索手順と
を実行させることを特徴とする。
さらにまた、本発明は、上記プログラムを格納したコンピュータ読み取り可能な記憶媒体であることを特徴とする。
以下、本発明の一実施形態に係る画像処理システムの構成及び動作について詳細に説明する。
図1は、本発明の一実施形態に係る画像処理システムの構成を示すブロック図である。図1において、LAN103には、マルチ・ファンクション・プリンタ(MFP)100、MFP100を制御するマネージメントPC101、クライアントPC102、文書管理サーバ106が接続されている。文書管理サーバ106には、文書を格納するデータベース105が接続されている。文書管理サーバ106は、WEBアプリケーションにより、データベース105に格納されている文書をクライアントPC102に送信する。クライアントPC102は、WEBブラウザを用いて、送信された当該文書をユーザに閲覧させることができるとともに、必要に応じて印刷を行うことも可能である。
MFP100は、本実施形態において紙文書の画像読み取り処理と読み取った画像信号に対する画像処理の一部を担当し、それらの処理後の画像信号は、LAN103を介してマネージメントPC101に入力される。マネージメントPC101は通常のPCで実現可能であり、内部に画像記憶部、画像処理部、表示部、入力部等を有する。尚、マネージメントPC101の一部をMFP100と一体化して構成するようにしてもよい。
図2は、本実施形態に係るMFP100の構成を示すブロック図である。図2において、オートドキュメントフィーダー(ADF)を含む画像読み取り装置110は、束状の或いは1枚の原稿画像を図示しない光源で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読み取り信号を600DPI等の密度のラスタ画像として得る。通常の複写機能は、この画像信号をデータ処理装置115で記録信号へ画像処理し、複数毎複写の場合は記憶装置111に一旦1ページ分の記録データを記憶保持した後、印刷装置112に順次出力して紙上に画像を形成する。
一方クライアントPC102から出力されるプリントデータは、LAN103からネットワークI/F114を経てデータ処理装置115で記録可能なラスターデータに変換される。そして、一旦、記憶装置111に1ページ分の記録データが記憶保持された後、印刷装置112で紙上に記録画像として形成される。
MFP100への操作者の指示は、MFP100に装備されたキー操作部、マネージメントPC101に入力されるキーボード及びマウス等からなる入力装置113から行われる。そして、入力装置113で行われた一連の動作は、データ処理装置115内の図示しない制御部で制御される。
一方、操作入力の状態表示及び処理中の画像データの表示は、表示装置116で行われる。尚、記憶装置111は、マネージメントPC101からも制御可能である。そして、上述したMFP100とマネージメントPC101とのデータの授受及び制御は、ネットワークI/F117及び直結したLAN103を用いて行われる。
上述した構成の画像処理システムにおいて、文書管理サーバ106で管理されている文書は、その文書を構成する要素(テキストブロック、画像ブロック、表ブロック、グラフブロック等)毎に、ユーザのアクセスレベルごとに管理されている。そして、クライアントPC102のWEBブラウザから文書を閲覧する際に、ユーザのアクセスレベルによって、同じ文書に対して表示される要素が異なる。
また、マネージメントPC101から指示することにより、文書管理サーバ106で管理されている文書を印刷した紙文書を、MFP100の画像読み取り装置110から読み取る。そして、読み込まれた紙文書のオリジナルの文書を検索し、文書管理サーバ106からオリジナルの文書を取得することができる。
以下、本実施形態に係る画像処理システムの動作について詳細に説明する。図3は、本実施形態に係る画像処理システムにおいてデータベース105に格納されている文書をクライアントPC102から閲覧して印刷する処理手順を説明するためのフローチャートである。
まず、クライアントPC102でWEBブラウザを立ち上げ、文書管理サーバ106のWEBアプリケーションのTOPページのURL(Uniform Resource Locator)を指定し、ブラウザから文書管理システム106にログインする(ステップS301)。次いで、ユーザがTOPページのURLを指定すると、ユーザ名とパスワードを入力するページがWEBブラウザに表示される。そこで、ユーザは、キーボードを用いてユーザ名とパスワードを入力する。そして、入力されたユーザ名に基づいて、ユーザ情報を参照し、入力されたパスワードをチェックする(ステップS302)。図4は、パスワードのチェックの際に参照されるユーザ情報の一例を示す図である。
ステップS302のチェックの結果、入力されたパスワードが正当である場合(Yes)はステップS303へ進み、正当でない場合(No)は処理を終了する。尚、正当である場合は、セッションIDを発行し、以降の処理ではセッション管理が行われる。WEBアプリケーションにおけるセッション管理は、Cookieを用いる方法等が知られており、広く一般的に行われているので詳細な説明は省略する。
パスワードのチェックの結果、正当であると判定された場合は、図4に示すユーザ情報からユーザ名に対応したアクセスレベルを取得する(ステップS303)。以降、ここで取得したアクセスレベルを、「ユーザアクセスレベル」と呼ぶことにする。
続いて、文書の一覧が表示される(ステップS304)。図5は、ステップS304で一覧表示される文書情報の一例を示す図である。本実施形態では、図5に示される文書情報に基づいてHTML(Hyper Text Markup Language)文書が生成される。図5に示されるように、文書情報には、個々の文書に関する情報を、文書の識別子である文書IDと、その文書を閲覧できるレベルを示すアクセスレベル(以降、「文書アクセスレベル」と呼ぶ。)と、その文書の名前である文書名と、その文書の管理者とを対応させて格納している。
そこで、ステップS304では、ステップS303で求めたユーザアクセスレベルと比較し、ユーザアクセスレベルと等しいか、又は、小さい文書アクセスレベルに対応した文書のリストを、文書名のリストとして生成する。図29は、文書の一覧を表示した一例を示す図である。図29に示すように、各文書名の左側にラジオボタンをそれぞれ配置し、生成する文書のアクセスレベルをリストボックスから選択できるようになっている。このリストボックスの中に表示されるアクセスレベルの最大値は、ステップS303で取得したユーザアクセスレベルの値となるようにする。さらに、当該一覧内には、閲覧ボタンが表示されている。
続いて、ユーザは、所望の文書名を図29に表示されている一覧中のラジオボタンをマウスでクリックすることによって選択し、取得したい文書のアクセスレベルをリストボックスを用いて選択し、閲覧ボタンをマウスでクリックする(ステップS305)。これにより、ラジオボタンに対応付けられた文書ID、選択されたアクセスレベルが、文書管理サーバ106上の文書生成プログラムに送信される。また、選択された文書IDとアクセスレベルに対応した文書が生成される(ステップS306)。例えば、HTMLのFORMタグを用いることで、このような動作を行うHTML文書は容易に作成することができる。尚、ステップS306の文書生成処理の詳細については、図9を用いて後述する。
ステップS306の処理によって生成された文書はHTML文書であり、クライアントPC102のWEBブラウザに表示される(ステップS307)。続いて、ユーザは、クライアントPC102のWEBブラウザに表示されているHTML文書をMFP100に出力して印刷する(ステップS308)。
図5、図6及び図7は、文書管理サーバ106で管理され、データベース105に格納されている文書情報、文書ブロック情報及びオブジェクト情報を説明するための図である。尚、説明を簡単にするために、本実施形態において各文書は1ページから構成されているものとしているが、複数ページから構成される文書を扱う拡張であっても容易に行うことができる。
図5に示されるように、各文書には、文書を識別するための文書IDと、文書の名前である文書名と、文書の管理者が対応付けられている。また、各文書にはアクセスレベルが設定されており、文書に対するアクセスの制限がかけられている。図5では、アクセスレベルの値が大きいほど、アクセスできる人が少なくなることを意味している。このアクセスレベルの値は、後述する文書内のブロックに対するアクセスレベルから求めることができる。
また、図6に示されるように、各文書のページは、複数のブロック(矩形領域)から構成されており、図6の文書ブロック情報には、文書IDに対するブロックの情報が格納されている。文書ブロック情報の中では、1つのブロックの情報が、その識別子であるブロックIDと、そのブロックが含まれる文書の文書IDと、ブロックの位置(文書のページの左上を原点として、ブロックの左上の点の座標)と、ブロックのサイズ(たて、横の長さ)とを対応させて格納している。
各ブロックの内容は、図7のオブジェクト情報で定義される。オブジェクト情報では、各ブロックの内容が、その識別子であるオブジェクトIDと、内容が格納されているファイルのアドレスを示すブロック内容と、内容の属性(画像、テキスト、表等)と、その内容を含むブロックのブロックIDと、そのブロックが含まれる文書IDと、その内容に対するアクセスを制限するアクセスレベル(以降では、「オブジェクトアクセスレベル」と呼ぶ。)とが対応させて格納されている。
図7に示されるように、各ブロックの内容は、アクセスレベルによって異なっている。すなわち、一つのブロックに対してアクセスレベルが変わると、内容を変更する場合や、アクセスレベルによってブロックの内容がなくなる場合等がある。図8は、図7のオブジェクト情報の例に基づいて文書IDが0001の文書に対してアクセスレベルによって文書の内容が異なる例を示す図である。図8では、文書IDが0001の文書に対して、アクセスレベルが4の場合には、「dog」、「car」、「aaa」、「bbb」の4つの内容が含まれる。また、アクセスレベルが3と2の場合には、「dog」、「car」、「bbb」の3つの内容が含まれる。そして、アクセスレベルが1の場合には、「cat」及び「bbb」の2つの内容が含まれる。このように、アクセスレベルの大きさによって、含まれる内容がなくなったり、別のオブジェクトに変更されている。
このように、文書管理サーバ106で管理される文書は、同じ文書IDを持つ文書でも、アクセスレベルによって含まれる内容が異なる。図5に示される文書情報における文書アクセスレベルは、図7のオブジェクト情報に格納されているブロックアクセスレベルから求めることができる。尚、オブジェクト情報の中で文書IDに対して最も小さいブロックアクセスレベルが、その文書の文書アクセスレベルになる。
次に、図9を用いて、ステップS306の文書生成処理を説明する。図9は、ステップS306の文書生成処理の細部手順を説明するためのフローチャートである。まず、文書ブロック情報から、ステップS305で指定された文書の文書IDに対応したブロックIDを一つずつ取り出す(ステップS901)。そして、すべてのブロックIDを取り出したか否かが判定される(ステップS902)。その結果、すべてのブロックIDを取り出していない場合(No)は、ステップS903へ進み、すべてのブロックIDを取り出し終えた場合(Yes)は、ステップS906へ進む。
ステップS903においては、オブジェクト情報から対象の文書ID及びブロックIDに対して、ステップS305で指定されたアクセスレベルに対応したブロック内容を取り出す。例えば、ステップS305で指定されたアクセスレベルの値と同じ値のオブジェクトアクセスレベルがあれば、そのオブジェクトアクセスレベルに対応したブロック内容を取り出す。一方、そうでなければ、指定されたアクセスレベルよりも小さく、最大の値を持つオブジェクトアクセスレベルを探し、そのオブジェクトアクセスレベルに対応したブロック内容を取り出す。
そして、ステップS903でブロック内容を取り出すことができたか否かが判定される(ステップS904)。その結果、ブロック内容が取り出すことができた場合(Yes)はステップS905へ進み、取り出すことができなかった場合(No)はステップS901へ戻って上記処理を繰り返す。
ステップS905においては、ステップS305で指定された文書の文書IDとステップS901で取り出したブロックIDとステップS903で取り出したブロック内容とを対応させて一時記憶する。そして、処理を終えるとステップS901へ戻って上記処理を繰り返す。
一方、ステップS902でYesと判定された場合はステップS906に進むが、ここではステップS905で一時記憶されたブロックとオブジェクトの内容に基づいて文書が生成される。生成される文書はHTML文書であり、CSS(Cascading Style sheets)を用いて、ブロック情報に格納されているブロックの位置サイズ情報に基づいて、ブロックの内容がレイアウトされる。
次に、MFP100を用いて文書管理サーバ106で管理されている文書を検索するための前準備として、マネージメントPC101の制御のもとに、文書をMFP100内のデータベース118に登録する処理の概要について図10を用いて説明する。図10は、本実施形態に係る画像処理システムにおいて、検索のために文書を登録する処理手順を説明するためのフローチャートである。
まず、文書管理サーバ106から取得して得られる文書情報に基づいて、文書IDを一つずつ取り出す(ステップS1001)。そして、すべての文書IDが取り出されたか否かが判定される(ステップS1002)。その結果、文書IDを取り出すことができた場合は、まだすべての文書が取り出されていなかった(No)として、ステップS1003へ進む。一方、全ての文書IDを取り出し終えた場合(Yes)はステップS1009へ進む。
ステップS1003においては、アクセスレベルの最大値から順番に設定する。次いで、すべて設定し終えたか否かを判定する(ステップS1004)。その結果、すべてのアクセスレベルを設定し終えた場合は、ステップS1001へ戻る。一方、ステップS1004において、すべてのアクセスレベルを設定し終えていない場合(No)は、ステップS1005に進む。
ステップS1005においては、ステップS306と同様にして、文書管理サーバ106から取得して得られる文書ブロック情報とオブジェクト情報に基づいて、ステップS1001で取得した文書IDとステップS1003で設定したアクセスレベルに対する文書を生成する。
そして、ステップS1005で生成された文書と同一の文書が、すでに、図11に示される生成文書情報と図12に示される生成文書ブロック情報に登録されているか否かを判断する(ステップS1006)。図11は、本実施形態の生成文書情報の一例を示す図である。また、図12は、本実施形態に係る生成文書ブロック情報の一例を示す図である。
ここで、生成文書情報と生成文書ブロック情報は、文書IDに対して、異なるアクセスレベルごとに生成される文書の情報を格納する情報(データベース118上の格納領域)である。生成文書情報は、文書管理サーバ106で管理されている全ての文書に対して、アクセスレベルによって生成される文書のバリエーションを格納する情報であり、図に示されるように、文書管理サーバ106で管理されている全ての文書IDに対して、アクセスレベルごとに生成される文書のIDである生成文書IDが対応付けて格納される。異なるアクセスレベルでも、生成される文書が同一の場合は、同じ生成文書IDが付与される。生成文書ブロック情報は、生成文書IDに対して、その文書に含まれるブロック、およびそのブロックの内容であるオブジェクトIDが対応されて格納される。登録されていない場合は、ステップS1007へ進み、登録されている場合は、ステップS1008へ進む。
ステップS1007では、図12に示されるように、生成文書IDを新たに発行し、ステップS1005で生成された文書のブロックの情報(属性、位置、サイズ)とブロックの内容を示すオブジェクトIDとを生成文書IDに対応させて、データベース118上の生成文書ブロック情報に格納する。また、図11に示されるように、生成文書IDと文書IDとアクセスレベルを対応させて、データベース118上の生成文書情報に格納する。また、生成文書情報には、生成された文書に対して、ラスタ画像を作成して縮小することでサムネイル画像を作成し、サムネイル画像のアドレスを格納する。処理を終えるとステップS1001へ進む。
ステップS1008では、生成文書情報の同一の生成文書の生成文書IDに対して、ステップS1003で設定したアクセスレベルを追加する。そして、当該処理を終えるとステップS1001へ戻って上記処理を繰り返す。
一方、ステップS1009においては、文書管理サーバ106から取得して得られるオブジェクト情報に基づいて、各オブジェクトの種別に応じて特徴量情報の抽出を行う。尚、テキストブロックについては、テキストの文字列を文字特徴量とする。また、画像ブロックについては、色に関する画像特徴量を抽出する。抽出された特徴量は、データベース118上の色特徴量情報及びテキスト特徴量情報へそれぞれ登録される。尚、図13及び図14は、それぞれデータベース118に登録される色特徴量及びテキスト特徴量の一例を示す図である。そして、当該処理を終えると、文書をデータベース118へ登録する処理を終了する。
次に、紙文書から対応するオリジナルの文書を検索し、印刷等を行う処理の概要について説明する。図15は、本実施形態に係る画像処理システムにおいて検索して取得した文書を印刷/配信/編集する処理手順を説明するためのフローチャートである。
まず、マネージメントPC101からオリジナル文書検索のログインを行う(ステップS1501)。次いで、ユーザは、ステップS301と同様に、キーボードからユーザ名とパスワードを入力する。入力されたユーザ名とパスワードは、文書管理サーバ106へ送信され、ステップS301と同様に当該ユーザ名とパスワードの正当性が判定され、正当性が確認されるとセッションが開始される。そして、ステップS303と同様にして、文書管理サーバ106においてユーザのアクセスレベルが取得される(ステップS1502)。
ステップS1502でアクセスレベルが取得されると、ユーザ名とパスワードの正当性の判定結果が文書管理サーバ106から返信される。その結果、正当である場合、マネージメントPC101は、MFP100のADFを含む画像読み取り装置110を動作させ、紙文書をラスタ状に走査してラスタ画像を記憶装置111に読み込む(ステップS1503)。
次いで、記憶装置111に格納されている1ページ分のラスタ画像に対して、ブロックセレクション処理が行われる(ステップS1504)。そこで、マネージメントPC101のCPUは、格納されたラスタ画像からまず、文字/線画部分とハーフトーンの画像部分とに領域を分離する。そして、文字部はさらに段落で塊として纏まっているブロック毎に、或いは、線で構成された表、図形に分離し、おのおのセグメント化する。一方、ハーフトーンで表現される画像部分は、矩形に分離されたブロックの画像部分、背景部等、いわゆるブロック毎に独立したオブジェクトに分割する。図16は、ブロックセレクション処理を行う前のラスタ画像とブロックセレクション処理後の結果を対応させた一例を示す図である。
次に、各ブロックの種別に応じて、ブロック毎に特徴量情報の抽出を行う(ステップS1505)。テキストブロックに対しては、その位置とサイズを対応させ、さらにOCR処理を行って抽出された文字コードをテキスト特徴量として対応させる。図18は、テキスト特徴量情報の一例を示す図である。また、画像ブロックについては、その位置とサイズを対応させ、さらに色に関する画像特徴量を対応させて画像特徴量情報とする。図17は、画像特徴量情報の一例を示す図である。これらの紙文書テキスト特徴量情報と紙文書画像特徴量情報は、記憶装置111内に一時的に記憶される。
次に、比較処理が行われる(ステップS1506)。すなわち、データベース118に格納されている生成文書ブロック情報を元に、生成文書IDをひとつずつ順番に処理し、生成文書IDに対応したブロック情報(位置、サイズ、属性)と、そのブロック(オブジェクトID)に対応したデータベース118中の色特徴量情報とテキスト特徴量情報を、記憶装置111内に格納されている紙文書画像特徴量情報と紙文書テキスト特徴量情報から類似度を算出し、所定のしきい値よりも高い文書を文書候補リストに登録する。文書候補リストは、生成文書IDと類似度を対応させたリストである。図19は、文書候補リストの一例を示す図である。文書候補リストの中では、類似度の値によって、生成文書IDが降順にソーティングされる。
次いで、候補表示/選択を行う(ステップS1507)。すなわち、前述した文書候補リストに格納されている生成文書IDに対してサムネイル等を表示し、複数の候補の中からオペレータがオリジナル文書の生成文書IDの特定を行う。サムネイルは、データベース118中に格納された生成文書情報から生成文書IDに対応したサムネイル画像を得ることができる。例えば、マネージメントPC101のディスプレイに生成文書IDに対応したサムネイル画像の一覧を表示する。そして、オペレータは、その中からサムネイル画像の一つを選択すると、選択されたサムネイル画像に対応した生成文書IDが選択されたことになる。
続いて、ステップS1507で選択された生成文書IDに対して、取得する文書IDを求め、さらに、取得する際に必要となるアクセスレベルの設定を行う(ステップS1508)。
さらに、ステップS1508で設定された文書IDに対して、設定されたアクセスレベルに対応した文書を文書管理サーバ106から取得する(ステップS1509)。文書管理サーバ106の文書生成プログラムに、ステップS1501でログインしたセッションで、文書IDとアクセスレベルを送付し、文書IDとアクセスレベルに対応した文書を生成させて取得する。この処理は、ステップS306と同様である。
そして、ステップS1509で取得した文書に対して、オペレータの指示に基づいて、印刷、配信、編集のいずれかの処理を行う(ステップS1510)。
以下 各処理の詳細について説明する。まず、ステップS1504で示すブロックセレクション処理の詳細について説明する。
ブロックセレクション処理とは、図16の左側に示すラスタ画像を右側に示すように、各オブジェクト毎の塊として認識し、それぞれの塊であるブロックを文字/図画/写真/線/表等の属性に判定し、異なる属性を持つ領域に分割する処理である。ブロックセレクション処理の一例を以下に説明する。
まず、入力画像を白黒に2値化し、輪郭線追跡を行って黒画素輪郭で囲まれている画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出する。さらに、一定面積以上の白画素の塊の内部からは、再帰的に黒画素の塊を抽出する。
このようにして得られた黒画素の塊を大きさ及び形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とする。また、近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素塊を線領域、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域、などとする。
次に、ステップS1505で示す特徴量抽出処理の詳細について説明する。特徴量抽出は、画像と文字で処理方法が異なるため、それぞれ別に説明する。
まず、画像ブロックに対する特徴量情報抽出処理について述べる。尚、1つの文書に複数の画像ブロックが存在する場合は、その総数分だけ以下の処理を繰り返すようにする。
以下では、一例として色特徴抽出処理を行う。まず、1つの画像ブロックを複数の領域に分割したそれぞれの領域における色ヒストグラムによる最頻色を持つ色ビンのIDを代表色として、それぞれ領域の位置と対応付けた特徴を抽出する。図20は、本実施形態に係る色特徴抽出処理の動作手順を説明するためのフローチャートである。また、図21は、画像ブロックを分割したメッシュ領域例を示す図である。さらに、図22は、RGB色空間を3×3×3=27ビンへ均等階級化する例を示す図である。尚、実際には、6×6×6=216程度の色ビンがある方が好ましいが、説明を容易にするために以下では27ビンとして説明する。
まず、図21に示すように、画像ブロックを縦横複数のグリッド領域に分割する(ステップS2020)。本実施形態では、9×9=81メッシュ領域であるが、実際には、15×15=225メッシュ領域程度であることが好ましい。
そして、着目するメッシュ領域を左上端に設定する(ステップS2030)。尚、この際に、図23に示すように、予め対象とする分割メッシュ領域の順番を決定しておくと良い。図23は、対象とするメッシュ領域の順番を示す図である。図23に示す例では、3×3=9メッシュ領域において、左上端から右へ走査し、その行を終えると次の行の左端から右へスキャンする走査例を示している。
そして、未処理のメッシュ領域があるか否かを判定する(ステップS2040)。その結果、未処理のメッシュ領域が無い場合(No)は処理を終了する。一方、未処理のメッシュ領域が有る場合(Yes)は、処理対象メッシュ領域の全画素の値を図22に示す色空間を分割して作った部分空間である色ビンへ射影し、色ビンに対するヒストグラムを取る(ステップS2050)。
そして、最も頻度の高い色ビンに対応する色ビンIDをそのメッシュ領域の代表色と決定する(ステップS2060)。さらに、処理対処メッシュ領域を図23に示す並び順に従って次のメッシュ領域へ移し(ステップS2070)、再びステップS2040の処理を再帰的に行って、未処理のメッシュ領域が無くなるまで繰り返す。上記処理により、着目画像の色特徴量情報を得ることができる。
次に、文字ブロックに対する特徴量情報抽出処理について述べる。文字ブロックに対する特徴量情報として、本実施形態ではOCR(文字認識)処理を行い、文字コード列を抽出する。
OCR(文字認識)は、文字単位で切り出された画像に対し、パターンマッチングの一手法を用いて認識を行って、対応する文字コードを得るものである。この認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
ブロックセレクション処理(ステップS1504)で抽出された文字領域に対して文字認識を行う場合は、まず該当する領域に対して横書き又は縦書きの判定を行う。そして、各々対応する方向に行を切り出し、その後文字を切り出して文字画像を得る。横書き又は縦書きの判定は、当該領域内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き領域、垂直射影の分散が大きい場合は縦書き領域と判断すればよい。そして、文字列及び文字への分解は、横書きの場合は水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことで行う。また、縦書きの文字領域に対しては、水平と垂直を逆にすればよい。
次に、ステップS1506に示す比較処理の詳細について、図24を用いて説明する。図24は、本実施形態における比較処理全体の動作例を説明するためのフローチャートである。
まず、生成文書情報の先頭から生成文書IDを順番に取り出していく(ステップS2410)。次に、ステップS2410で生成文書IDを取り出すことができたか否かを、比較先文書画像の取得が終了しているか否かを判断することによって判定する(ステップS2420)。その結果、終了したと判定された場合(Yes)はステップS2430へ進み、生成文書情報から全ての生成文書IDを取り出し終えた場合(No)、すなわち全ての文書が終了していなかった場合はステップS2470へ進む。
ステップS2430では、レイアウトの比較を行う。ここでレイアウトと呼ぶのは、ブロックの属性、サイズ、位置のことである。ステップS1504で抽出したブロックセレクション処理で得られたレイアウトの情報について、属性が画像であるブロックのサイズと位置は、紙文書画像特徴量情報に格納されている。また、属性がテキストであるブロックのサイズと位置は、紙文書テキスト特徴量情報に格納されている。そこで、これらのレイアウトの情報と、ステップS2410で取り出した生成文書IDに対応した生成文書ブロック情報に格納されているレイアウトの情報が同じであるかどうかを判定する。
その結果、比較元と比較先のページのレイアウトが同じである場合(Yes)は次のステップS2440へ進み、同じでない場合(No)はステップS2410へ進む。ステップS2440では特徴量の比較を行う。これはブロックの属性に合わせ、テキスト、画像それぞれに応じた特徴量を用いて複合的に比較を行い、ページの類似度を算出する処理である。尚、当該処理の詳細については後述する。
次に、ステップS2440で算出された類似度を所定の閾値と比較する(ステップS2450)。その結果、所定の閾値よりも大きい場合(Yes)はステップS2460へ進み、そうでない場合(No)はステップS2410へ戻って上記処理を繰り返す。ステップS2460では、現在処理中の生成文書IDとステップS2440で算出された類似度を文書候補リストに追加する。そして、ステップS2410へ戻って次の生成文書IDを取り出す。
一方、ステップS2470では、前述した文書候補リストに格納されている生成文書IDを対応する類似度の値によって降順にソートし、比較処理を終了する。
次に、特徴量の比較(ステップS2440)の処理の詳細について説明する。図25は、ステップS2440の特徴量の比較の詳細な処理手順を説明するためのフローチャートである。
まず、未知のブロックがあるか否かの終了判定を行う(ステップS2510)。すなわち、上記生成文書ブロック情報を参照して、現在対象となる生成文書IDの中で未比較のブロックがあるか否かを判定する。その結果、未知のブロックがある場合(Yes)はステップS2520へ進み、未知のブロックがない場合(No)はステップS2570へ進む。
ステップS2520では、比較対象のブロックの属性をチェックする。その結果、画像ブロックであると判定された場合はステップS2540へ進み、テキストブロックであると判定された場合はステップS2560へ進む。
画像ブロックに対しては、色に関する特徴量情報で比較先ブロックとの類似比較を行い、ブロックの類似度を算出する(ステップS2540)。尚、算出した類似度は、オブジェクトIDに対応させて一時記憶する。また、テキストブロックに対しては、テキストの特徴を用いて比較を行い、ブロックの類似度を算出する(ステップS2560)。尚、算出した類似度は、オブジェクトIDに対応させて一時記憶する。
次に、全てのブロックについて比較を終えた場合(ステップS2510でNoの場合)、比較先のページに含まれる全てのブロックの類似度を統合し、ページについての類似度を求める(ステップS2570)。
図26は、図25のステップS2540の色情報比較処理の詳細を説明するためのフローチャートである。まず、検索先と検索元の色特徴量を色特徴量情報から読み出す(ステップS2610)。次に、着目する分割メッシュ領域を先頭に設定し(ステップS2620)、類似距離を0にリセットしておく(ステップS2630)。
次いで、未比較の画像分割メッシュ領域があるか否かを判定する(ステップS2640)。その結果、未比較の画像分割メッシュ領域がある場合(Yes)は、比較先と比較元のブロックで対応する着目メッシュ領域の色ビンIDを取り出す(ステップS2650)。図27は、色ビン同士の色の類似具合を表す色ビンID間のペナルティマトリックスを示す図である。図27に示すように、同一色ビンIDでは0、似ていないものほど大きな値を持つマトリックスであり、同じ色ビンIDの対角位置は全て0でそれを境に対象性を持っている。すなわち、2つの色ビンの類似度がテーブル参照だけで済むので、処理の高速化が可能である。
ステップS2650で色ビンIDを取り出した後、色ビンID間のペナルティマトリックスをステップS2650で取り出した2つの色ビンIDを用いて参照し、着目メッシュ領域の局所的類似距離を得て、これを類似距離に加算する(ステップS2660)。そして、着目するメッシュ領域を次のメッシュ領域へシフトする(ステップS2670)。
一方、ステップS2640において未比較のメッシュ領域がないと判定された場合(No)は、算出した類似距離を類似度に変換してブロックIDと対にして出力する(ステップS2680)。尚、類似度への変換は、類似距離が0のときを100%、類似距離が最大値のときを0%となるようにすればよい。
次に、図25のステップS2560のテキスト特徴比較処理の詳細について説明する。この処理は、ブロック内の各文字コード同士の比較を行い、その一致度から類似度を算出する。尚、オリジナルとの比較であれば、類似度は100%となるのが理想的である。しかし、実際にはOCRで誤認識が発生する場合があるので、オリジナルとの比較であっても100%に近い値であればよいものとする。
図25のステップS2570の画像及び文字それぞれの比較処理の結果を統合する処理の詳細について述べる。ここでは、ページ内で占めている割合の大きいブロックの類似度が、ページ全体の類似度へより大きく反映されるように、統合を行う。例えば、ブロックB1〜B6に対して、ブロック毎の類似度がn1〜n6と算出されたとする。このときページの総合類似度Nは、以下の式で表現される。
N=w1*n1 + w2*n2 + w3*n3 + … + w6*n6 ・・・(1)
ここで、w1〜w6は、各ブロックの類似率を評価する重み係数である。重み係数w1〜w6は、ブロックのファイル内占有率により求める。例えば、ブロックB1〜B6のサイズをS1〜S6とすると、ブロックB1の占有率w1は、
w1 = S1/(S1+S2+…+S6) ・・・(2)
として算出できる。このような占有率を用いた重み付け処理により、ページ内で大きな領域を占めるブロックの類似度がよりページ全体の類似度に反映されるようになる。
ここで、w1〜w6は、各ブロックの類似率を評価する重み係数である。重み係数w1〜w6は、ブロックのファイル内占有率により求める。例えば、ブロックB1〜B6のサイズをS1〜S6とすると、ブロックB1の占有率w1は、
w1 = S1/(S1+S2+…+S6) ・・・(2)
として算出できる。このような占有率を用いた重み付け処理により、ページ内で大きな領域を占めるブロックの類似度がよりページ全体の類似度に反映されるようになる。
次に、ステップS1508のアクセスレベル設定処理の詳細について説明する。図28は、ステップS1508のアクセスレベル設定処理の詳細を説明するためのフローチャートである。まず、ステップS1507で選択した生成文書IDに対する文書アクセスレベルを取得して、ステップS1502で取得したユーザアクセスレベルと比較する(ステップS2801)。文書アクセスレベルは、前記生成文書情報から生成文書IDに対応したアクセスレベルを取得でき、一つの生成文書IDに対して複数のアクセスレベルが存在する可能性がある。
その結果、ユーザアクセスレベルと同じ値が生成文書情報から得られるアクセスレベルに含まれている場合(ユーザ=文書)は、文書アクセスレベルを変更せずに、アクセスレベル設定処理を終了する。また、ユーザアクセスレベルが生成文書情報から得られる文書アクセスレベルの最大値よりも大きい場合(ユーザ>文書)は、ステップS2802へ進む。さらに、ユーザアクセスレベルが生成文書情報から得られる文書アクセスレベルの最小値よりも小さい場合(ユーザ<文書)は、ステップS2803へ進む。
ステップS2802では、ユーザに取得する文書のアクセスレベルを指定させる。これは、ステップS1503で読み込んだ紙文書のアクセスレベルが、ユーザのアクセスレベルよりも低い場合であり、ユーザが欲しい文書として、スキャンした文書と同じアクセスレベルの文書の場合と、自分のアクセスレベルに応じた文書の場合の両方があり、その両方に対応するためである。また、この場合、読み込んだ紙文書よりも低いアクセスレベルの文書を選択することも、読み込んだ紙文書よりも高く、ユーザよりも低いアクセスレベルの文書を選択することも可能である。但し、ユーザよりも高いアクセスレベルの文書を選択することはできない。選択可能なアクセスレベルをユーザに提示し、ユーザはその中からアクセスレベルを選択することにより、必要に応じてステップS2801で得た文書アクセスレベルを変更する。処理を終えるとアクセスレベル設定処理を終了する。
一方、ステップS2803では、ステップステップS1507で選択した生成文書IDから対応する文書IDを求め、その文書を管理している管理者にその文書にアクセスできないユーザが紙文書を利用しようとしていることを通知する。これにより、生成文書情報から選択された生成文書IDに対する文書IDを求め、文書情報から文書IDに対応した管理者を求めることができる。尚、管理者への通知は、管理者に対して電子メールアドレスを対応付けておき、電子メールを用いてステップS1501でスキャンしたユーザ名とアクセスレベルと文書名、文書ID等の必要な情報を通知する。
次いで、ステップS2804において、ステップS2801で取得した文書アクセスレベルの値をユーザアクセスレベルに変更し、アクセスレベル設定処理を終了する。
このように本実施形態においては、紙文書からオリジナルの電子文書を検索する画像処理装置において、検索のために登録されている文書の特徴量の重複する特徴量を一つにまとめて記憶するため、特徴量を記憶するために必要な記憶容量を削減することができる。
<その他の実施形態>
上述した実施形態において、図10を用いて説明した文書をMFP100内のデータベース118に登録する処理では、特徴量を共用して使用するメモリを削減するためにオブジェクト毎に特徴量登録していたが、実際の特徴量を比較して、同一の特徴量を共用するようにしてもよい。このようにした場合、例えば、前述した生成文書ブロック情報、色特徴量情報、テキスト特徴量情報は、図31、図32、図33に示されるように、オブジェクトIDの代わりに特徴量を識別するための特徴量IDが格納される。すなわち、図31、図32及び図33は、それぞれ生成文書ブロック情報、色特徴量情報及びテキスト特徴量情報の別の実施形態を示す図である。
上述した実施形態において、図10を用いて説明した文書をMFP100内のデータベース118に登録する処理では、特徴量を共用して使用するメモリを削減するためにオブジェクト毎に特徴量登録していたが、実際の特徴量を比較して、同一の特徴量を共用するようにしてもよい。このようにした場合、例えば、前述した生成文書ブロック情報、色特徴量情報、テキスト特徴量情報は、図31、図32、図33に示されるように、オブジェクトIDの代わりに特徴量を識別するための特徴量IDが格納される。すなわち、図31、図32及び図33は、それぞれ生成文書ブロック情報、色特徴量情報及びテキスト特徴量情報の別の実施形態を示す図である。
また、図30は、図10を用いて説明した文書登録処理の別の手順を説明するためのフローチャートである。すなわち、別の実施形態では、図10に示した処理の流れは図30に示すように変更される。尚、図30において、ステップS1001からステップS1006までの間の処理の流れと、ステップS1008は図10に示す処理と変更がないため、その説明は省略する。
図10に示す処理ではステップS1007でオブジェクトIDを生成文書ブロック情報に格納していたが、ステップS3007では、その格納を行わない。そして、ステップS1009で特徴量登録を行っていた代わりに、ステップS3009において特徴量を登録する。
まず、ステップS1005で生成された文書の各ブロックに対して、その属性に応じて特徴量の抽出処理を切り替え、画像ブロックに対しては、色に関する特徴量を抽出し、テキストブロックに関しては文字列を特徴量とする。そして、抽出された各特徴量に対し、画像ブロックは、図32に示す色特徴量情報の中から同じ特徴量を探し、同じ特徴量が存在すれば対応する特徴量IDを図31に示す生成文書ブロック情報の対象のブロックに対応した特徴量IDに格納する。一方、同じ特徴量が存在しなければ、新たに特徴量IDを発行して、色特徴量情報に特徴量IDと色特徴量を対応させて追加する。
同様に、テキストブロックは、図33に示すテキスト特徴量情報の中から同じ特徴量を探し、同じ特徴量が存在すれば対応する特徴量IDを図31に示す生成文書ブロック情報の対象のブロックに対応した特徴量IDに格納する。一方、同じ特徴量が存在しなければ、新たに特徴量IDを発行して、テキスト特徴量情報に特徴量IDとテキスト特徴量を対応させて追加する。このようにすることで、同一の特徴量が共用されるようになる。
また、前述した実施形態では、生成文書ブロック情報において、ブロックの情報(属性、位置、サイズ)を生成文書IDに対してブロック毎に直接記述していた。しかし、図31等から明らかなように、生成文書ブロック情報の中には、ブロックの属性、位置、サイズが同じものが存在する。従って、これらのブロックの情報にIDを付与し、生成文書ブロック情報にはこのIDを格納するようにし、ブロックの情報を別テーブルで管理するようにすれば、ブロックの情報の重複を避けることができ、記憶容量を削減することができる。
また同様に、画像特徴量やテキスト特徴量を除いたブロックのレイアウト情報(ページ内のブロック数、各ブロックの属性、位置、サイズ)を、別テーブルで管理するように知れば、レイアウト情報の重複も避けることができ、記憶容量を削減することができる。
さらに、上述した実施形態において、色特徴抽出処理は最頻色を用いる方法を述べたが、もちろんこれに限られるものではない。例えば、平均色を用いても構わない。
さらにまた、上述した実施形態においては、画像の特徴量として色特徴量を用いたが、これに限定されるものではない。例えば、最頻輝度、平均輝度、共起行列、コントラスト、エントロピ、Gabor変換等で表現されるテクスチャ特徴量、エッジ、フーリエ記述子等の形状特徴量等複数挙げられ、かつ、このような複数の特徴量のうち最適な組み合わせを用いてもよい。
さらにまた、上述した実施形態においては、文書管理サーバ106で管理されている文書をMFP100内のデータベース118に登録する際に、電子ファイルから直接、ブロックの情報や文字コード画像を抜き出していた。それ以外にも、電子ファイルについて、一旦ラスタ画像に変換した後、ラスタ画像に対してステップS1504からステップS1505と同様にして、ブロックの情報、テキスト特徴量、及び画像特徴量を取り出すようにしても良い。
さらにまた、上述した実施形態における文字情報比較では、文字コードを単純に比較した。それ以外にも、例えば、単語辞書とのマッチングを予め行って単語の品詞を求めておき、名詞である単語のみを比較するという方法でも良い。
さらにまた、上述した実施形態では、ステップS306で生成される文書はHTML文書とした。しかし、それ以外にも、PDF(Portable Document Format)等の画像やテキスト等の生成する文書内のオブジェクトの位置をレイアウトできるフォーマットであればどのようなものを用いてもよい。
さらにまた、上述した実施形態では、文書に対するアクセス制御を行うために、アクセスレベルという概念を用いて、レベルの上下によってアクセスできるオブジェクトが増減した。それ以外にも、オブジェクトごとにアクセスできる個人やグループを記述するようにして、個人単位や所属するグループ単位で、個別にアクセス制御を行ってもよい。
さらにまた、上述した実施形態では、スキャナとプリンタが一体型のMFPを用いたが、スキャナとプリンタをそれぞれ個別の機器としてLANやPC等に接続して構成するようにしても良い。また、検索対象情報として、上述した実施形態では文書データを用いたが、マルチメディアデータ等の各種データを対象としても同様にして処理が可能である。この場合、図2における画像読み取り装置110がスキャナに相当し、印刷装置112がプリンタに相当することになる。また、それ以外の構成要素はPCに含まれることになり、スキャナやプリンタとPCとの接続は、ネットワークI/Fを介して、LAN経由で接続されることになる。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
100 MFP
101 マネージメントPC
102 クライアントPC
103 LAN
105、118 データベース
106 文書管理サーバ
110 画像読み取り装置
111 記憶装置
112 印刷装置
113 入力装置
114、117 ネットワークI/F
115 データ処理装置
116 表示装置
101 マネージメントPC
102 クライアントPC
103 LAN
105、118 データベース
106 文書管理サーバ
110 画像読み取り装置
111 記憶装置
112 印刷装置
113 入力装置
114、117 ネットワークI/F
115 データ処理装置
116 表示装置
Claims (10)
- 複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶手段と、
検索対象情報を入力する入力手段と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手段と、
前記抽出手段により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手段と、
前記算出手段によって算出されたそれぞれのオブジェクトの特徴量と前記記憶手段に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶手段から検索する検索手段とを備える画像処理システムであって、
前記記憶手段は、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶することを特徴とする画像処理システム。 - 前記検索手段が、前記算出手段によって算出されたそれぞれのオブジェクトの特徴量と前記記憶手段に記憶されているオブジェクトの特徴量との類似度を判定し、所定の類似度を満たすオブジェクトを前記検索対象情報に対応する電子データを構成するオブジェクトとして検索し、検索された一又は複数のオブジェクトを配置して電子データを生成することを特徴とする請求項1に記載の画像処理システム。
- ユーザのアクセスレベル情報を取得する取得手段をさらに備え、
前記記憶手段が、前記オブジェクトの情報と該オブジェクトへのアクセスを許可するアクセス許可情報とを対応付けて記憶し、
前記検索手段は、前記取得手段により取得された前記アクセスレベル情報が該オブジェクトのアクセス許可情報を満たすか否かをオブジェクト単位に判定し、該アクセス許可情報を満たすと判定されたオブジェクトのみを配置して電子データを生成する
ことを特徴とする請求項2に記載の画像処理システム。 - ユーザを認証する認証手段をさらに備え、
前記取得手段は、前記認証手段によって認証されたユーザのアクセスレベル情報を取得する
ことを特徴とする請求項3に記載の画像処理システム。 - 前記検索手段によって検索された一又は複数のオブジェクトを配置して生成された前記電子データを印刷、配信又は編集する出力手段をさらに備えることを特徴とする請求項2又は3に記載の画像処理システム。
- 前記電子データがマルチメディアデータ、又は紙文書から光学的に読み取られてベクトル化されたベクトルデータであることを特徴とする請求項1から5までのいずれか1項に記載の画像処理システム。
- 前記検索手段が、画像オブジェクトの色特徴量、又は文字オブジェクトの文字特徴量を比較することを特徴とする請求項1から6までのいずれか1項に記載の画像処理システム。
- 複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶装置であって、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶する記憶装置から電子データを検索する画像処理方法であって、
検索対象情報を入力する入力工程と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出工程と、
前記抽出工程により抽出されたそれぞれのオブジェクトの特徴量を算出する算出工程と、
前記算出工程によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索工程と
を有することを特徴とする画像処理方法。 - コンピュータに、複数の電子データをそれぞれの電子データに含まれるオブジェクト単位で記憶するに際して、それぞれのオブジェクトの情報と該オブジェクトの特徴量とを対応付けて記憶する記憶装置であって、前記複数の電子データのそれぞれに含まれるオブジェクトのうち、同一の特徴量を有するオブジェクトの情報及び該オブジェクトの特徴量を共有して記憶する記憶装置から電子データを検索させるためのプログラムであって、
検索対象情報を入力する入力手順と、
前記検索対象情報に含まれる一又は複数のオブジェクトを抽出する抽出手順と、
前記抽出手順により抽出されたそれぞれのオブジェクトの特徴量を算出する算出手順と、
前記算出手順によって算出されたそれぞれのオブジェクトの特徴量と前記記憶装置に記憶されているオブジェクトの特徴量とを比較して、前記検索対象情報に対応する電子データを前記記憶装置から検索する検索手順と
を実行させるためのプログラム。 - 請求項9に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004173014A JP2005352783A (ja) | 2004-06-10 | 2004-06-10 | 画像処理システム、方法、プログラム及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004173014A JP2005352783A (ja) | 2004-06-10 | 2004-06-10 | 画像処理システム、方法、プログラム及び記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005352783A true JP2005352783A (ja) | 2005-12-22 |
Family
ID=35587215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004173014A Withdrawn JP2005352783A (ja) | 2004-06-10 | 2004-06-10 | 画像処理システム、方法、プログラム及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005352783A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046796A (ja) * | 2006-08-14 | 2008-02-28 | Fuji Xerox Co Ltd | 画像処理装置、画像処理方法及びプログラム |
JP2009069933A (ja) * | 2007-09-11 | 2009-04-02 | Konica Minolta Business Technologies Inc | 画像処理装置、画像処理方法および画像処理プログラム |
JP2009282844A (ja) * | 2008-05-23 | 2009-12-03 | Ntt Docomo Inc | 情報提供システム及び情報提供方法並びに情報提供装置 |
-
2004
- 2004-06-10 JP JP2004173014A patent/JP2005352783A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046796A (ja) * | 2006-08-14 | 2008-02-28 | Fuji Xerox Co Ltd | 画像処理装置、画像処理方法及びプログラム |
JP2009069933A (ja) * | 2007-09-11 | 2009-04-02 | Konica Minolta Business Technologies Inc | 画像処理装置、画像処理方法および画像処理プログラム |
JP2009282844A (ja) * | 2008-05-23 | 2009-12-03 | Ntt Docomo Inc | 情報提供システム及び情報提供方法並びに情報提供装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4266784B2 (ja) | 画像処理システム及び画像処理方法 | |
JP4405831B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
US7640269B2 (en) | Image processing system and image processing method | |
US7681121B2 (en) | Image processing apparatus, control method therefor, and program | |
US7593961B2 (en) | Information processing apparatus for retrieving image data similar to an entered image | |
JP4181892B2 (ja) | 画像処理方法 | |
JP4533273B2 (ja) | 画像処理装置及び画像処理方法、プログラム | |
JP4920928B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
JP4393161B2 (ja) | 画像処理装置及び画像処理方法 | |
JP3997198B2 (ja) | 画像処理システム及び画像処理方法 | |
JP2004265384A (ja) | 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP4502385B2 (ja) | 画像処理装置およびその制御方法 | |
JP2006085298A (ja) | 画像処理装置、画像処理方法 | |
JP4338189B2 (ja) | 画像処理システム及び画像処理方法 | |
JP2022092917A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP4261988B2 (ja) | 画像処理装置及び方法 | |
JP2006025129A (ja) | 画像処理システム及び画像処理方法 | |
JP2006023944A (ja) | 画像処理システム及び画像処理方法 | |
JP2005352783A (ja) | 画像処理システム、方法、プログラム及び記憶媒体 | |
JP2006333248A (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
JP2006023946A (ja) | 画像処理装置及びその制御方法、プログラム | |
JP2005149097A (ja) | 画像処理システム及び画像処理方法 | |
JP2005149210A (ja) | 画像処理装置及びその制御方法、プログラム | |
JP4047222B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
JP2024034778A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070904 |