以下、本発明の実施の形態について図面を参照しつつ説明する。
(第1の実施の形態)
まず、本発明の第1の実施の形態について説明する。
図1は、本発明の第1の実施の形態による画像処理システムS1について説明するための機能ブロック図である。
本実施の形態による画像処理システムS1は、画像データ取得部101、ドキュメント領域解析モジュール102、領域意味解析モジュール104、領域意味提示モジュール108、領域意味設定モジュール110、表示部111、操作入力部112、文字認識モジュール113、意味情報保管モジュール114、テキスト意味解析モジュール115、CPU801およびメモリ802を備えてなる構成となっている。画像処理システムS1は、例えば、これらの構成を備えたMFP(Multi Function Peripheral)により実現することができる。
画像データ取得部101は、画像処理システムS1における処理対象となる画像データを取得する。以下、一例として、原稿からスキャンして得られる画像データを取得する場合を例に挙げるが、これに限られるものではなく、結果として電子化された画像データであれば画像データ取得部101におけるデータ取得の対象となる。また、
ドキュメント領域解析モジュール(オブジェクト抽出部に相当)102は、画像データ取得部101にて取得される画像データの画像中に含まれるオブジェクトを抽出する。具体的には、ドキュメント領域解析モジュール102は、例えば、画像データの画像中における、文字列を囲む矩形領域の位置とサイズ(あるいは、矩形領域の左上の位置座標、および右下の位置座標)の解析を行い、画像データの画像中に含まれる文字領域等のオブジェクトを抽出する。
領域意味解析モジュール(意味判定部に相当)104は、例えばメモリ802等の記憶領域に格納されている所定の判定ルールに基づいて、オブジェクト抽出部102にて抽出されるオブジェクトの画像データのレイアウト中における意味(例えば、「タイトル」、「ヘッダ」、「フッタ」、「段落」等)を解析(判定)する。領域意味解析モジュール104における解析結果(各オブジェクトの意味)は、各オブジェクトに対応づけられて意味情報保管モジュール114に格納される。
領域意味提示モジュール(通知部に相当)108は、意味情報保管モジュール114に格納されている各種情報に基づいて、領域意味解析モジュール104にて複数のオブジェクトが同一の意味を有すると判定された場合(例えば、複数のオブジェクトが「タイトル」であると判定された場合等)に、該意味を有すると判定された複数のオブジェクトに関する情報を、該意味に関する情報に関連付けて表示部111にてリスト表示させる。これにより、ユーザは、画像中に含まれるオブジェクトが、どのような意味を有するものとして判定されているか(解析結果)を容易に把握することができる。
領域意味設定モジュール(候補選択部および意味設定部に相当)110は、ユーザの操作入力部112への操作入力に基づいて、領域意味提示モジュール108からの命令により表示部111にてリスト表示させるオブジェクトの内のいずれかを選択する。そして、領域意味設定モジュール110は、上述のようにして選択されたオブジェクトを、該オブジェクトについて領域意味解析モジュール104にて判定された意味を有するものとして設定する。
表示部111は、例えば液晶ディスプレイやCRTディスプレイから構成されており、画像処理システムS1における処理結果等を画面表示する役割を有している。表示部111は、具体的には、例えば、MFPのコントロールパネルのGUI画面や、PCのGUI画面などにより実現することができる。
操作入力部112は、例えば、キーボードやマウス等から構成されており、ユーザの操作入力を受け付ける役割を有している。もちろん、表示部111および操作入力部112の機能を例えばタッチパネルディスプレイ等によって一体的に実現してもよい。
文字認識モジュール113は、画像データの画像中に含まれる文字画像から文字をテキスト情報として認識する機能を有している。
意味情報保管モジュール114は、例えばHDD等の記憶装置から構成されており、ドキュメント領域解析モジュール102、領域意味解析モジュール104および文字認識モジュール113における処理結果を統合して保管する役割を有している。また、以下説明する他の保管モジュールも同様にHDD等の記憶装置から構成されており、データベースとしての役割を有しているものとする。
テキスト意味解析モジュール115は、ドキュメント領域解析モジュール102にて抽出された文字領域の中の文字あるいは文字列に対し、文字認識モジュール113にて求めたテキスト情報を基にして、その文字あるいは文字列のテキスト意味(すなわち、「日付」、「社名」、「人名」などの属性)を解析する。
具体的に、テキスト意味解析モジュール115では、画像中から抽出されたある文字領域のテキスト情報に含まれている「2006/01/25」という文字列の属性は「日付」であるというように解析を行う。
CPU801は、本実施の形態による画像処理システムにおける各種処理を行う役割を有しており、またメモリ802に格納されているプログラムを実行することにより種々の機能を実現する役割も有している。メモリ802は、例えばROMやRAM等から構成されており、画像処理システムにおいて利用される種々の情報やプログラムを格納する役割を有している。
以下、本実施の形態による画像処理システムS1による処理の詳細について説明する。ここでは、一例として、図2に示すようなドキュメントをスキャンして得られる画像データに対して所定の処理を行う場合について説明する。図3は、本発明の第1の実施の形態における処理の流れについて説明するための図である。
まず、ドキュメント領域解析モジュール102は、図2に示すようなレイアウトで文字列等のオブジェクトが配置されているドキュメント画像における「2006/01/25」という文字領域や、「申し込み案内」といった文字領域を、それぞれ文字領域1、文字領域2として抽出する。
具体的に、ドキュメント領域解析モジュール102は、例えば文字領域のようなオブジェクトを抽出する場合、ドキュメント画像の左上を座標の原点として、文字領域1が座標(80,10)から座標(120、20)の矩形領域であると認識する、といった処理を行う。なお、ドキュメント領域解析モジュール102による画像中からのオブジェクトの抽出処理は、そのオブジェクトがドキュメント画像中においてどのような位置にあるかを特定することができればよい。例えば、「文字領域1を包囲する矩形領域の左上の座標が(80,10)であり、矩形の幅が40、高さが10である」といった表現方法を採用することもできる。
次に、領域意味解析モジュール104によって、ドキュメント領域解析モジュール102により抽出された文字領域の意味を解析する。
例えば、領域意味解析モジュール104は、文字領域1は「ヘッダ」であり、文字領域2は処理対象となっているドキュメント画像における「タイトル」であるといった解析を行う。
次に、文字認識モジュール113によって、ドキュメント領域解析モジュール102にて抽出された文字領域の画像を解析し、テキスト情報を取得する。例えば、文字認識モジュール113は、文字領域1のテキスト情報は「2006/01/25」であるといった解析を行う。
上述のようにして、ドキュメント領域解析モジュール102、領域意味解析モジュール104および文字認識モジュール113により取得される各種情報および解析結果は、意味情報保管モジュール114にて保管される。
ここで、図3で示されるように、文字領域を包囲する矩形領域の位置、領域の意味、テキスト情報の他に、テキスト意味解析モジュール115にて、当該テキスト情報内の文字列からテキスト意味を抽出可能である場合、その文字列の矩形領域の位置、その文字列のテキスト意味およびその文字列のテキスト情報が保持される。なお、意味情報保管モジュール114は、1つの文字領域に含まれるいくつかの文字列が、それぞれ個別にテキスト意味を持っているならば、それらの情報をすべて保持することができる。図4は、意味情報保管モジュール114にて統合的に保管される各種情報それぞれの関わり合いを示す図である。
このようにすることで、ユーザは、ある意味を有するオブジェクトの設定を、リスト表示されるオブジェクトの中から選択することにより行うことができ、オブジェクトの修正候補の入力負担を大幅に軽減することができる。
また、画像中のオブジェクトへの意味付けの仕方の修正を、あらかじめ所定のアルゴリズムによる意味判定処理を経て行う構成とすることにより、既存の意味判定処理を実行させるためのプログラムに大幅な変更を加えることなく、オブジェクトへの意味付けに対して柔軟な変更を加えることができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
図5は、本発明の第2の実施の形態による画像処理システムS2について説明するための機能ブロック図である。
本実施の形態は、上述の第1の実施の形態の変形例である。以下、すでに第1の実施の形態にて説明した部分と同様な機能を有する部分には同一符号を付し、説明は割愛する。本実施の形態と第1の実施の形態とは、表示部111におけるオブジェクトと意味の関連付けの表示方法が異なっている。
本実施の形態による画像処理システムS2は、第1の実施の形態による画像処理システムS1に加え、領域意味属性保管モジュール116、領域意味属性提示モジュール117および領域意味属性設定モジュール118を備えている。また、本実施の形態における領域意味解析モジュール104は、第1の実施の形態にて示した機能に加え、領域意味解析モジュール104にて行うオブジェクトの意味解析処理(意味判定処理)の確からしさ(信頼度)を判定する機能(信頼度判定部の機能に相当)を有している。
領域意味属性保管モジュール116は、領域意味解析モジュール104にて実行される領域意味判定処理の結果の信頼度等の属性情報を取得し、その情報を保管する役割を有している。
領域意味属性提示モジュール117は、領域意味属性保管モジュール116にて保管されている属性の値に応じて、意味情報保管モジュール114で保管されている情報を提示する。よって、本実施の形態では、領域意味提示モジュール108および領域意味属性提示モジュール117が、通知部に相当する機能を有している。
本実施の形態における領域意味提示モジュール108および領域意味属性提示モジュール117は、互いに協働して、領域意味解析モジュール104にて複数のオブジェクトが同一の意味を有すると判定された場合に、該意味を有すると判定された複数のオブジェクトを、該意味に関連付けて、領域意味解析モジュール104にて判定される信頼度が高い順に表示部111にてリスト表示させる。
領域意味属性設定モジュール118は、領域意味属性保管モジュール116にて保管されている属性の値を手動で設定する手段をユーザに与える。よって、本実施の形態では、領域意味設定モジュール110および領域意味属性設定モジュール118が、候補選択部および意味設定部に相当する機能を有している。
以下、本実施の形態による画像処理システムS2における処理の詳細について説明する。
ここでは、画像処理システムS2における処理対象となるドキュメントの画像データから、領域意味が「タイトル」である文字領域のテキスト情報を抽出し、当該テキスト情報に基づいて、上記処理対象であるドキュメントの画像データを所定の記憶装置に保存する際のファイル名を生成する処理について説明する。
例えば、図2に示したようなドキュメントの画像データが処理対象データとして画像処理システムS2に入力される場合、「タイトル」として抽出されたテキスト情報(例えば、「申し込み案内」や「提出先」といった文字列など)から、「申し込み案内−提出先.pdf」といったファイル名を生成し、ユーザに提示する。そして、ユーザが上述のようにして生成されたファイル名に対する確認を促し、ユーザにより修正が加えられた場合、当該修正されたファイル名を画像データファイルに付与して保存する。図6は、本発明の第2の実施の形態における処理の流れについて説明するためのフローチャートである。
まず、画像データ取得部101にて、ドキュメント処理システムS2における処理対象となるドキュメントの画像データを取得する(S101)。
次に、ドキュメント領域解析モジュール102により、ドキュメント画像中の文字領域を解析し、文字領域を囲む矩形の座標(位置とサイズなど)を取得する。ドキュメント領域解析モジュール102にて取得される情報は、意味情報保管モジュール114に通知され、保管される(S102)。
次に、領域意味解析モジュール104により、例えばメモリ802等の記憶領域に格納されている所定の判定ルールに基づいて、ドキュメント領域解析モジュール102にて抽出された文字領域の領域意味(抽出されるオブジェクトの当該画像データのレイアウト中における意味)を解析する。また、領域意味解析モジュール104は、上記画像データ中に含まれるオブジェクトの意味判定処理と共に、当該意味判定処理の信頼度の判定も行う。
具体的に、領域意味解析モジュール104における意味判定処理の信頼度(確からしさ)の判定処理は、例えば、意味が「タイトル」である文字領域の判定では、ある文字領域がドキュメントのレイアウト中における上側寄りに位置している場合は10点、文字領域が大きい場合には20点というような得点付けを行ない、この得点付けの結果得られる合計点を意味判定処理の確からしさの指標とする。上記得点付けの結果得られる合計点は、意味情報保管モジュール114に格納される。
このようにして領域意味解析モジュール104にて取得された領域意味の情報は、意味情報保管モジュール114に通知され、保管される。このとき、領域意味解析モジュール104は、解析結果が正解である確からしさ(信頼度)に基づいて、各文字領域の候補順位を得て、この候補順位を属性として領域意味属性保管モジュール116に通知し、保管させる(S103)。
図2に例示したドキュメントの画像データについて、領域意味解析モジュール104は、例えば「申し込み案内」というテキスト情報を持つ文字領域2と、「提出先」というテキスト情報を持つ文字領域3の領域意味を「タイトル」として解釈した場合、これら解析結果を意味情報保管モジュール114に通知し保管させる。具体的に、領域意味解析モジュール104は、領域意味を解析する際に得られる、文字領域2が最も「タイトル」である可能性が高く、文字領域3が2番目に「タイトル」である可能性が高い、という解析結果の確からしさの順位を、領域意味属性保管モジュール116に通知し、図7に示すようなデータテーブル等の形式で保管させる(S103)。
次に、文字認識モジュール113は、ドキュメント領域解析モジュール102で解析された文字領域のテキスト情報を取得する。文字認識モジュール113にて取得されるテキスト情報は、意味情報保管モジュール114に通知され、保管される(S104)。例えば、文字認識モジュール113は、「申し込み案内」という文字領域2のテキスト情報を取得した場合、当該テキスト情報を意味情報保管モジュール114に通知して保管させる。
次に、領域意味属性提示モジュール117によって、意味情報保管モジュール114にて保管されている文字領域を、領域意味属性保管モジュール116にて保管されている解析結果の確からしさの順に並べ、表示部111にて画面表示させてユーザに提示させる(S105)。このような領域意味属性提示モジュール117による情報の提示は、例えば、図8に示すようなGUI画面上で行われる。
表示部111に表示されるGUI画面上では、プレビューウィンドウであるウィンドウ201において、入力されたドキュメントの画像に加え、ドキュメント領域解析モジュール102にて抽出された文字領域を囲む矩形が表示される。さらに、領域意味解析モジュール104にて領域意味が「タイトル」であると解析された文字領域を囲む矩形の枠線は、赤色で強調表示されている。リストボックス202には、この「タイトル」と意味をもつと解釈された複数の文字領域のテキスト情報が、領域意味解析モジュール104にて解析された際の確からしさ(信頼度)の順に並べられ、「タイトル」という意味に関連付けてリスト表示されている。具体的に、図8に示す例では、「申し込み案内」という文字領域が1番「タイトル」らしいと解析され、「提出先」という文字領域が2番目に「タイトル」らしいと解析されているため、この順で(信頼度が高い順に)リストボックス202にリスト表示されている。
次に、ユーザに提示されている領域意味が「タイトル」と解析された文字領域のリストの中に、ユーザが判断して「タイトル」ではないと考える候補が存在する場合(S106,Yes)、領域意味設定モジュール110は操作入力部112へのユーザの操作入力に基づいて、当該「タイトル」でない候補をリストから除外する(S107)。
このとき、リストから削除された文字領域の領域意味は[タイトル]ではないという情報を、意味情報保管モジュール114に通知する。ユーザに操作インタフェースを与え、その操作の結果を意味情報保管モジュール114に通知する機能は、領域意味設定モジュール110により提供される。例えば、図8に示すGUI画面にてリストボックス202に表示されている文字領域のリストから、領域意味が「タイトル」ではないとユーザが判断する候補があった場合、ユーザは、リストボックス202にてその候補の項目を選択し、削除ボタンであるコマンドボタン205を押下することにより、選択した項目をリストから削除することができる。
次に、表示部111にてユーザに提示されている領域意味が「タイトル」らしい順に並べられている文字領域のリストボックス202において、ユーザが判断して、それら文字領域が「タイトル」らしい順に配列されていないと判断した場合(S108,Yes)、領域意味属性設定モジュール118は、操作入力部112へのユーザの操作入力に基づいて、リストにおける文字領域の候補の順位を修正する(S109)。
このようにして順位が変更されたリストの変更後の文字領域の配列順位([タイトル]らしい順位)に関する情報は、領域意味属性設定モジュール118によって領域意味属性保管モジュール116に通知される。ユーザに操作インタフェースを与え、その操作の結果を領域意味属性保管モジュール116に通知する機能は、領域意味属性設定モジュール118により提供される。
例えば、図8に示すGUI画面上にてリストボックス202に表示されている「タイトル」と判定された文字領域のリスト中からある項目を選択し、コマンドボタン203を押下すると、選択した項目よりも1つ上位の項目と順位が入れ替わり、コマンドボタン204を押下すると、選択した項目よりも1つ下位の項目と順位が入れ替わる。
また、コマンドボタン205や、コマンドボタン203および204により編集されたリストボックス202は、コマンドボタン206を押下することにより、最初に提示された状態に戻すことができる。
次に、「タイトル」らしい順に並べられている文字領域の順に、そのテキスト情報を“‐”(ハイフン)などで連結し、拡張子などを付与してファイル名を生成する(S110)。図8では、一例として、リストボックス1‐2に表示されている項目の順に、そのテキスト情報を“‐”で連結し、拡張子“.pdf”を付与して生成したファイル名がテキストボックス207に表示されている。
最後に、処理対象である画像データは、S110で生成されたファイル名を付与されて記憶装置(例えば、メモリ802)に保存される。具体的な動作としては、例えば、コマンドボタン209の保存ボタンを押すと、テキストボックス207に表示されているテキスト情報がファイル名に設定されて画像データが保存される。
なお、図8に示すGUI画面では、テキストボックス207には「タイトル」として抽出された文字領域のテキスト情報が表示されるが、文字認識モジュール113の認識結果が誤っており、表示されるテキスト情報が誤ったものになってしまう場合もあり得る。このような場合、ユーザは、操作入力部112への操作入力により、テキストボックス207に直接テキストを入力することにより、文字認識モジュール113の誤認識を修正することが可能である。
本実施の形態では、領域意味が「タイトル」である文字領域のテキスト情報のみを利用してファイル名を生成しているが、これに限られるものではなく、領域意味が「ヘッダ」である文字領域のテキスト情報をファイル名に利用する等、その他さまざまな領域意味のテキスト情報を利用することが可能である。また、処理対象である画像データに対する所定の処理として、特定の領域意味のテキスト情報に基づいてファイル名を生成する例を示したが、この他、ユーザによる修正が施された領域意味やテキスト情報を、ドキュメントの画像データの検索のキーワードとして利用することもできる。
以上、本実施の形態のような構成とすることにより、ユーザは特定の意味を有すると思われるオブジェクトを、リスト表示されている複数のオブジェクトの中で上位にランキングされているオブジェクト(その意味を有する可能性が高いオブジェクト)から確認してゆくことができる。これにより、ユーザは、ある意味を有する可能性があると判定されたオブジェクト群の中から最もその意味に適合するオブジェクトを探索する作業を少ない負担で行うことができる。
(第3の実施の形態)
次に、本発明の第3の実施の形態について説明する。
図9は、本発明の第3の実施の形態による画像処理システムS3について説明するための機能ブロック図である。
本実施の形態は、上述の第1および第2の実施の形態の変形例である。以下、すでに第1および第2の実施の形態にて説明した部分と同様な機能を有する部分には同一符号を付し、説明は割愛する。本実施の形態による画像処理システムS3は、画像データから抽出されるオブジェクト領域に対する意味付けの修正方法が、上述の各実施の形態とは異なる。
具体的に、本実施の形態による画像処理システムS3は、第2の実施の形態による画像処理システムS2に加え、領域意味設定傾向解析モジュール(履歴情報取得部および識別情報取得部に相当)119、領域意味ドキュメント傾向比較モジュール(画像種別判別部に相当)120、領域意味設定傾向保管モジュール121および領域意味定型設定モジュール(意味設定部、履歴情報取得部および識別情報取得部に相当)122を備えてなる構成となっている。
領域意味設定傾向解析モジュール(履歴情報取得部および識別情報取得部に相当)119は、意味情報保管モジュール114で保管されているドキュメントの情報に対し、領域意味設定モジュール110および領域意味属性設定モジュール118を介して設定されるユーザの修正(オブジェクトの選択)操作に関する情報(選択履歴)を取得し、当該ユーザの修正の仕方に傾向があるかどうかを解析する。ここで、領域意味設定傾向解析モジュール119は、領域意味設定モジュール110および領域意味属性設定モジュール118を介して行なわれる修正操作の内容をユーザ毎に特定するために、新規に処理対象となっているドキュメントに対して、操作入力部112を用いて領域意味設定モジュール110および領域意味属性設定モジュール118を操作するユーザを識別するための情報(パスワード認証の際に入力されるID情報やパスワード、バイオメトリクス認証の際に取得される指紋、瞳孔、声紋等に関する情報など)を取得する。このようにして取得されるユーザ識別情報は、過去に処理対象となったドキュメントについて修正操作を行なった場合を含め、その処理内容(選択、設定、修正など)と対応付けて意味情報保管モジュール114に格納されている。
領域意味設定傾向保管モジュール121は、領域意味設定傾向解析モジュール119にて解析された、あるドキュメントに対して行われるユーザの修正内容を当該ドキュメントと対応づけて保管する。
領域意味ドキュメント傾向比較モジュール(画像種別判別部)120は、画像データ取得部101にて取得される処理対象であるドキュメントの画像が、領域意味設定傾向保管モジュール121に保管されているドキュメントの画像に類似しているかどうかを比較することにより、当該処理対象である画像データの種別を判別する。
領域意味定型設定モジュール(意味設定部、履歴情報取得部および識別情報取得部に相当)122は、領域意味ドキュメント傾向比較モジュール120にて、処理対象であるドキュメントの画像データに類似する画像データが領域意味設定傾向保管モジュール121にて保管されている場合、その傾向を持ったドキュメントに対しユーザが行った過去の修正操作(オブジェクトの選択履歴など)に関する情報を、領域意味設定傾向解析モジュール119に取得されるユーザ識別情報に基づいて領域意味設定傾向保管モジュール121から取得し、その修正操作と同様な内容の修正を意味情報保管モジュール114あるいは領域意味属性保管モジュール116に保管されている情報に施す。このように、領域意味定型設定モジュール122は、領域意味ドキュメント傾向比較モジュール120にて判別された種別の画像データに対する領域意味設定モジュール110でのオブジェクトの選択履歴に関する情報を取得する。
このような構成とすることにより、ある種別の画像(例えば、あるフォーマットの文書画像など)中のオブジェクトに対してどのような意味付けがされることが多いかを履歴情報から把握し、その意味付けの傾向をオブジェクトへの意味付けに反映させることができる。
本実施の形態では、入力された画像データに含まれる各オブジェクトの領域意味の解析結果および領域意味の属性の解析結果についての、ユーザの過去の修正操作の傾向を解析し、新たに入力されたドキュメントが過去に入力されたドキュメントに類似していれば、過去にユーザが行った修正操作を、入力されたドキュメントにあらかじめ施した後、結果をユーザに提示する構成となっている。
本実施の形態による画像処理システムS3において、図2に例示するようなドキュメントの画像データが入力され、領域意味が「タイトル」であると判定される文字領域が2つある場合、当該「タイトル」であると判定された文字領域のテキスト情報が、その確からしさの順に表示部111にリスト表示される。ここでユーザが、表示部111にて提示された結果から、「タイトル」の候補として挙がった文字領域の2番目の候補を、領域意味が「タイトル」ではないと判断し、領域意味設定モジュール110にて候補から削除する操作を行ったとする。
このとき、入力された画像データの情報とユーザの修正操作を、領域意味設定傾向保管モジュール121にて記録させておく。次に、新たな処理対象としての画像データが入力された場合、過去に処理済の画像データとレイアウト等が類似したものであれば、当該画像データに対して過去に行われたユーザの修正操作を、新たに入力された画像データに対して自動的に施す。つまり、この場合では、「タイトル」の候補として判定された2つの文字領域のうち、2番目の候補を削除する。このようにして、2番目の候補が削除された結果をユーザに提示することで、ユーザは過去に類似する画像データに対して行った、「タイトル」と判定された2番目の文字領域候補を削除するという操作を、新たに入力された類似ドキュメントでは省略することができる。
図10は、ドキュメント処理システムS3に入力されたドキュメントの画像データに対し、ユーザが行う修正操作の傾向を取得する処理について説明するためのフローチャートである。
まず、画像データ取得部101にて、ドキュメント処理システム13に入力されるドキュメントの画像を取得する(S201)。
次に、ドキュメントの画像の解析を行う。ドキュメント領域解析モジュール102により、ドキュメント画像中の文字領域を解析し、文字領域を囲む矩形の座標(位置、サイズなど)の情報と、領域意味解析モジュール104により取得される、文字領域の領域意味と、文字認識モジュール113により取得されるテキスト情報と、を意味情報保管モジュール114に通知し、保管させる(S202)。
次に、領域意味解析モジュール104にて解析された領域意味の解析結果の確からしさ(信頼度の高さ)の順位を領域意味属性保管モジュール116に通知し、保管させる(S203)。
次に、意味情報保管モジュール114および領域意味属性保管モジュール116にて保管されている情報を、領域意味属性提示モジュール117により、ユーザに提示する(S204)。
次に、ユーザは表示部111に提示された解析結果を確認し、必要があれば領域意味の修正、または領域意味属性の修正を、それぞれ、領域意味設定モジュール110、または領域意味属性設定モジュール118により行う(S205)。
S205における処理にて、ユーザが、領域意味設定モジュール110あるいは領域意味属性設定モジュール118を用いて修正を行った場合(S205,Yes)は、領域意味設定傾向解析モジュール119により、領域意味設定モジュール110あるいは領域意味属性設定モジュール118に指示されたユーザの修正操作と、入力されたドキュメントに関する情報(意味情報保管モジュール114にて保管されている情報)と、上記修正操作を行なったユーザを識別するための情報とを関連付け、領域意味設定傾向保管モジュール121に通知し、保管させる(S206)。
例えば、入力されたドキュメントの画像データに関する情報として、ドキュメント領域解析モジュール102にて解析された全文字領域の座標と、その画像データのドキュメントのレイアウトに類似する画像に対してユーザが過去に行った、「タイトル」として判定された文字領域の候補の内の2番目を候補から除外する、という修正作業とを関連付けて領域意味設定傾向保管モジュール121にて保管させる。図11は、ドキュメントの画像データに含まれる各文字領域の座標と、当該ドキュメントと類似するドキュメント画像に対してユーザが過去行った修正操作の内容とが対応付けられて領域意味設定傾向保管モジュール121に保管されている状況を示す図である。
図12は、本実施の形態による画像処理システムS3における処理の詳細について説明するためのフローチャートである。
本実施の形態による画像処理システムS3では、入力されたドキュメントの画像データが、領域意味設定傾向保管モジュール121に保管されている(以前、入力された)ドキュメントのレイアウトに類似している場合に、以前のドキュメントに対して行ったユーザの修正操作を、新たに入力されたドキュメントの画像データに対して施しておき、ユーザに提示する。
まず、画像データ取得部101にて、ドキュメント処理システム13に入力されたドキュメントの画像を取得する(S301)。
次に、入力されたドキュメントの画像の解析を行う。ドキュメント領域解析モジュール102によりドキュメント画像中の文字領域を解析して得られる文字領域を囲む矩形の座標(位置、サイズなど)の情報と、領域意味解析モジュール104により取得される文字領域の領域意味と、文字認識モジュール113により取得されるテキスト情報と、を対応づけて意味情報保管モジュール114に通知し、保管させる(S302)。
次に、領域意味解析モジュール104にて解析された領域意味の解析結果の確からしさの順位を、領域意味属性保管モジュール116に通知し、保管させる(S303)。
次に、入力されたドキュメントに類似するレイアウトを有するドキュメントが、領域意味設定傾向保管モジュール121にて保管されているかどうか、領域意味ドキュメント傾向比較モジュール120により比較、判定を行う(S304)。ドキュメントの比較については、例えば、図11に示すように、領域意味設定傾向保管モジュール121に以前入力されたドキュメントから抽出されるすべての文字領域の座標情報が保管されている場合には、ドキュメント領域解析モジュール102にて新たに取得されたドキュメントの画像データから抽出される文字領域の座標と比較し、その値の差が小さければ、2つのドキュメントは類似していると判断する。
なお、ここでは、ドキュメント画像中に含まれる文字領域の座標のみを用いてドキュメントの類似を判定する例を示すが、これに限られるものではない。例えば、ドキュメント画像から抽出されるテキスト情報を利用し、2つのドキュメントにおいて共通する単語が多い場合は類似していると判断するなど、意味情報保管モジュール114および領域意味属性保管モジュール116にて保存される種々の情報を用いて、ドキュメントの比較を行うことができる。
次に、入力されたドキュメントに類似したドキュメントが領域意味設定傾向保管モジュール121に保管されている場合(S304,Yes)、新たに入力されたドキュメントの画像データに対し、領域意味設定傾向保管モジュール121に保管されている、類似したドキュメントに対して過去にユーザが行った修正操作を、領域意味定型設定モジュール122により実行させる(S305)。
例えば、領域意味ドキュメント傾向比較モジュール120が、入力されたドキュメントが、図11に示すように領域意味設定傾向保管モジュール121に情報が保管されているドキュメントAに類似していると判定した場合、領域意味定型設定モジュール122は、領域意味設定傾向保管モジュール121にて保管されている、ドキュメントAに対してユーザが行った修正操作、“2番目の[タイトル]文字領域候補を除外する”という操作を実行する。すなわち、領域意味設定モジュール110に、領域意味が2番目に[タイトル]らしいと解析された文字領域の領域意味を、[タイトル]ではないと修正するよう指示を出す。
次に、S304にて、入力されたドキュメントに類似したドキュメントが領域意味設定傾向保管モジュール121に保管されている場合(S304,Yes)にはS305で修正を施した結果を、類似したドキュメントがない場合(S304,No)にはS302およびS303における解析結果を、領域意味属性提示モジュール117により、ユーザに提示する(S306)。
次に、提示された内容をユーザが修正した場合(S307,Yes)は、S308にて、図10にて示したS206と同様に、領域意味設定傾向解析モジュール119により、入力されたドキュメントとユーザの修正操作を領域意味設定傾向保管モジュール121に保管した後(S308)、処理を終了する。一方、提示された内容をユーザが修正していなければ(S307,No)処理を終了する。
なお、本実施の形態では、処理対象の画像データと類似する処理済みの画像データがあった場合に、当該処理済みの画像データに加えたのと同様な修正を加える構成を示したが、これに限られるものではない。例えば、処理対象の画像データとレイアウト等が類似する処理済の画像データが複数あるような場合には、領域意味定型設定モジュール122は、領域意味解析モジュール104にて複数のオブジェクトが同一の意味を有すると判定された場合に、領域意味設定傾向解析モジュール119にて取得される履歴情報に基づいて、領域意味提示モジュール108によりリスト表示されるオブジェクトの内の過去に選択された頻度が最も高いオブジェクトを、該オブジェクトについて領域意味解析モジュール104にて判定された意味を有するものとして設定するようにしてもよい。このように、過去の選択操作の履歴(傾向)を、画像中に含まれるオブジェクトに対する意味設定処理に自動的に反映させることにより、ユーザは類似したドキュメントに対し毎回同じ修正を行う必要がなく、利便性の向上に寄与することができる。
また、本実施の形態では、過去の修正履歴に基づく修正処理を、処理対象の画像データと類似する処理済みの画像データがあるか否かに基づいて行う構成を示したが、これに限られるものではない。例えば、領域意味設定傾向解析モジュール119において、オブジェクトの選択を行うユーザを識別するための識別情報を取得し、当該取得された識別情報に対応するユーザによるオブジェクトの選択履歴に関する情報を取得する構成としてもよい。このような構成とすることにより、あるユーザが画像中のオブジェクトに対してどのような意味付けをしているかを履歴情報から把握し、その意味付けの選択の仕方の傾向をオブジェクトへの意味付けに反映させることができる。
また、あるレイアウトを有するドキュメントに対して過去に行なわれた修正内容等を、過去に入力されたドキュメントと類似するレイアウトを有する新規入力ドキュメントに対して自動反映させる構成する場合において、取得する修正操作の履歴情報は、必ずしも1人のユーザのものに限定する必要はなく、所定のグループに属する複数ユーザの操作履歴を取得したり、ユーザに関係なくドキュメントのレイアウトが類似するドキュメントに対して過去に行なわれた修正操作の履歴を全て取得したりすることもできる。
(第4の実施の形態)
次に、本発明の第4の実施の形態について説明する。
図13は、本発明の第4の実施の形態による画像処理システムS4の構成を示す機能ブロック図である。本実施の形態は、第1の実施の形態の変形例である。本実施の形態による画像処理システムS4は、第1の実施の形態における画像処理システムS1における領域意味提示モジュール108および領域意味設定モジュール110を、テキスト意味提示モジュール123およびテキスト意味設定モジュール124に変更した構成となっている。
テキスト意味提示モジュール123は、意味情報保管モジュール114で保管されているテキスト意味を表示部111に画面表示させることによりユーザに提示する。
テキスト意味設定モジュール124は、意味情報保管モジュール114で保管されているテキスト意味を、操作入力部112への操作入力により手動で設定する手段をユーザに与える。
このような構成により、意味情報保管モジュール114にて保管されているテキスト意味の解析結果を、テキスト意味提示モジュール123によってユーザに提示する。ユーザは提示された解析結果を自身で確認することができ、誤って解析されている箇所を確認することができる。
さらに、テキスト意味情報設定モジュール124によって、ユーザはテキスト意味解析モジュール115が出力したテキスト意味の解析結果を設定または修正することができる。
(第5の実施の形態)
次に、本発明の第5の実施の形態について説明する。
図14は、本発明の第5の実施の形態による画像処理システムS5の構成を示す機能ブロック図である。本実施の形態は、上述の第4の実施の形態の変形例である。本実施の形態による画像処理システムS5は、第4の実施の形態による画像処理システムS4の構成に加え、テキスト意味属性保管モジュール125、テキスト意味属性提示モジュール126およびテキスト意味属性設定モジュール127を備えてなる構成となっている。
テキスト意味属性保管モジュール125は、テキスト意味解析モジュール(文字属性判定部に相当)115にて解析されるテキスト意味の結果が正解である確からしさなどの属性を取得し、その情報を保管する。テキスト意味解析モジュール115は、ドキュメント領域解析モジュール102にて抽出されるオブジェクトが文字領域である場合に、当該文字領域に含まれる文字の属性を判定する。テキスト意味解析モジュール115にて判定された文字の属性に関する情報は、テキスト意味属性保管モジュール125に格納される。
なお、テキスト意味解析モジュール115におけるテキスト意味の結果が正解である確からしさの判定は、例えば「人名」であるか否かの判定においては、判定対象となるテキスト情報の近隣に「殿」あるいは「様」といった文字があれば10点とする、といった所定のルールによる得点付けを行ない、この得点付けの結果得られる得点が高いもの程「人名」である可能性が高いテキストであると判定する。テキスト意味解析モジュール115におけるテキスト意味判定の結果が正解である確からしさの判定を行なうための所定のルールは、例えばメモリ802に格納される。
テキスト意味属性提示モジュール(入力候補表示部)126は、テキスト意味属性保管モジュール125にて保管されているテキストの属性の値に応じて、意味情報保管モジュール114で保管されている情報を表示部111に画面表示させる。
テキスト意味属性設定モジュール127は、操作入力部112への操作入力に基づいて、テキスト意味属性保管モジュール125にて保管されている属性の値を手動で設定する手段をユーザに与える。
本実施の形態では、画像処理システムS5に入力されたドキュメントの画像データから、テキストの意味が「人名」である文字領域のテキスト情報を抽出する。入力されたドキュメントの画像データから複数の「人名」が検出される場合は、ユーザが所望する順序もしくはテキスト意味の判定結果が正解である可能性が高いものほど上位になるような順序で「人名」を並べたリストを生成する。この「人名」リストに挙げられた項目や順序にしたがい、入力されたドキュメント画像を保存する際の送信先が変化する。
例えば、ドキュメントから“東京太郎”という「人名」のテキスト情報が取得されたら当該ドキュメントを送信先Aに送信し、“東京太郎”、“大阪次郎”の順のリストが取得されたら当該ドキュメントを送信先Bに送信し、“大阪次郎”、“東京太郎”という順であれば当該ドキュメントを送信先Cに送信する、といった処理を行うことができる。
図15は、本発明の第5の実施の形態による画像処理システムS5の処理の詳細について説明するためのフローチャートである。以下、一例として、自動でドキュメントから取得した結果に対し、ユーザが適切な修正を加え、修正された情報に基づいて生成された「人名」リストにしたがってドキュメントを送信する処理について説明する。ここでの「人名」リストの生成処理では、ユーザが所望する順序で並べられたものを作成するものとする。
まず、画像データ取得部101にて、画像処理システムS5に入力されるドキュメントの画像データを取得する(S401)。
次に、ドキュメント領域解析モジュール102によりドキュメント画像中の文字領域を解析し、文字領域を囲む矩形の座標(位置とサイズなど)を取得する(S402)。このようにして取得した情報は意味情報保管モジュール114に通知され、保管される。
次に、文字認識モジュール113にて、文字領域のテキスト情報を取得する。取得されたテキスト情報は、意味情報保管モジュール114に保管される。例えば、文字領域2について“申し込み案内”というテキスト情報が取得された場合、当該テキスト情報は意味情報保管モジュール114に保管される(S403)。
次に、抽出された文字領域内におけるテキスト情報のテキスト意味をテキスト意味解析モジュール115によって取得する。そして、取得されたテキスト意味に関する情報を意味情報保管モジュール114にて保管させる。さらに、このとき、テキスト意味が付与されたすべてのテキスト情報に対し、ユーザが所望しているテキスト情報の順に順位を付与する。この順位を属性としてテキスト意味属性保管モジュール125に通知し、保管させる(S404)。
例えば、図2に例示したようなレイアウトのドキュメントの画像データでは、“東京太郎”や“大阪次郎”というテキスト情報のテキスト意味が「人名」として解析され、この解析結果が意味情報保管モジュール114に保管される。さらに、テキスト意味解析モジュール115にてテキスト意味が付与されたテキスト情報に対し、“東京太郎”が1番ユーザの所望する「人名」であり、“大阪次郎”が2番目に所望する「人名」である、というユーザの所望する順位を属性としてテキスト意味属性保管モジュール125に保管させる。図16は、テキスト意味属性保管モジュール125に保管されるテキスト意味属性を示すデータテーブルの一例である。
次に、テキスト意味属性提示モジュール126によって、意味情報保管モジュール114にて保管されているテキスト情報を、テキスト意味属性保管モジュール125にて保管されているユーザの所望する順に並べ、表示部111にて画面表示させる(S405)。図17は、テキスト意味属性提示モジュール126により表示部111にて表示させるGUIの表示例を示す図である。このように、テキスト意味属性提示モジュール126は、抽出されるオブジェクトが文字である場合に、当該文字の属性を判定し、属性が判定された文字を、該文字について判定された属性の文字を入力とすべき所定の処理における入力文字候補として表示させる。
図17に示すGUI画面では、プレビューウィンドウであるウィンドウ301において、入力されたドキュメントの画像に加え、ドキュメント領域解析モジュール102にて抽出された文字領域を囲む矩形が表示されている。さらに、テキスト意味解析モジュール115にてテキスト意味が「人名」と解析された文字領域の矩形の枠線は、赤色で強調表示されている。リストボックス302には、領域意味解析モジュール104にて意味が「タイトル」であると解析されたテキスト情報が、テキスト意味解析モジュール115にて付与されたユーザの所望の順に並べられ、リスト表示されている。
例えば、図17に示す例では、“東京太郎”という文字領域がユーザが1番所望する「人名」であると解析され、“大阪次郎”という文字領域がユーザが2番目に所望する「人名」であると解析されたため、この順序でリストボックス302にリスト表示されている。
次に、表示部111にてユーザに提示しているテキスト意味が「人名」と解析されたテキスト情報のリストの中に、ユーザが判断して所望する「人名」ではないと思われる候補がある場合(S406,Yes)、操作入力部112への操作入力に基づいてテキスト意味設定モジュール124により除外する。
このとき、テキスト意味設定モジュール124は、リストから削除されたテキスト情報のテキスト意味は「人名」ではないという情報を、意味情報保管モジュール114に通知する(S407)。
例えば、GUI画面上にてリストボックス302に表示されているリストから、テキスト意味が「人名」ではないと判断される候補があった場合(S408,Yes)、リストボックス302にてその候補の項目を選択し、削除ボタンであるコマンドボタン305を押下する。これにより、選択した項目がリストから削除される。
次に、ユーザの所望する順に並べられたテキスト意味が「人名」であるテキスト情報のリストから、ユーザが判断して所望する「人名」順ではないと思われる候補の順位を、操作入力部112への操作入力に基づいて、テキスト意味属性設定モジュール127により修正する操作を行う(S409)。
このとき、ユーザの所望する「人名」の順位の変更に関する情報を、テキスト意味属性保管モジュール125に通知する。
例えば、GUI画面上にてリストボックス302に表示されている「人名」のリストから任意の項目を選択し、コマンドボタン303を押下すると、選択した項目よりも1つ上位の項目と順位が入れ替わり、コマンドボタン304を押すと、選択した項目よりも1つ下位の項目と順位が入れ替わる。
また、コマンドボタン305や、コマンドボタン303および304により編集されたリストボックス302は、コマンドボタン306を押すことにより、最初に提示された表示状態に戻すことができる。
次に、ユーザの所望する「人名」の順に並べられているリストに基づき、ドキュメントの送信先を決定する(S410)。送信先は事前に定義されており、リストの内容に従って送信先が決定される。
最後に、S410の処理で決定した送信先に、入力されたドキュメントを送信する(S411)。例えば、コマンドボタン307の送信ボタンを押すと、ドキュメントの送信を開始する。
なお、図17に示すGUI画面では、テキストボックス302には「人名」として抽出された文字領域のテキスト情報が表示されるが、文字認識モジュール113の認識結果が誤っており、表示されるテキスト情報が誤ったものになってしまう場合もあり得る。このような場合には、テキストボックス302に、操作入力部112を利用してユーザが直接テキストを入力することにより、文字認識モジュール113における認識ミスを修正することができる。
なお、本実施の形態では、テキスト意味が「人名」であるテキスト情報をドキュメントデータの送信先の選定に利用する例を示したが、これに限られるものではない。例えば、テキスト意味が「日付」であるテキスト情報等、さまざまなテキスト意味を有するテキスト情報を利用することも可能である。
また、取得されたテキスト意味の情報の利用方法についても、送信先の選定に限らず、例えば、取得されたテキスト意味に対してユーザの修正を促し、修正されたテキスト意味情報を、当該テキスト意味が抽出されたドキュメントの検索に利用することもできる。
このように、本実施の形態におけるテキスト意味属性提示モジュール126は、テキスト意味解析モジュール115により属性が判定された文字を、該文字について判定された属性の文字を入力とすべき所定の処理における入力文字候補として表示させる。このようにすることで、ユーザは、ある属性(例えば、人名、電話番号、住所など)を有する文字を、その属性をもつ文字を入力とする処理における文字入力を、入力文字候補の中から選択することにより行うことができ、文字入力の負担を大幅に軽減することができる。
(第6の実施の形態)
次に、本発明の第6の実施の形態について説明する。
本実施の形態は、上述の第5の実施の形態の変形例である。以下、すでに第5の実施の形態にて説明した部分と同様な機能を有する部分には同一符号を付し、説明は割愛する。本実施の形態による画像処理システムS6は、画像データから抽出されるテキスト情報に付与する属性の修正方法が、上述の第5の実施の形態とは異なる。図18は、本発明の第6の実施の形態による画像処理システムS6の構成を示す機能ブロック図である。
具体的に、本実施の形態による画像処理システムS6は、第5の実施の形態による画像処理システムS5に加え、テキスト意味設定傾向解析モジュール(履歴情報取得部および識別情報取得部に相当)128、テキスト意味ドキュメント傾向比較モジュール(画像種別判別部に相当)130、テキスト意味設定傾向保管モジュール129およびテキスト意味定型設定モジュール(意味設定部、履歴情報取得部および識別情報取得部に相当)131を備えてなる構成となっている。
テキスト意味設定傾向解析モジュール128は、意味情報保管モジュール114で保管されているドキュメントの情報に対し、テキスト意味設定モジュール124およびテキスト意味属性設定モジュール127を介して設定されるユーザの修正内容に傾向があるかどうかを解析する。
テキスト意味設定傾向保管モジュール129は、テキスト意味設定傾向解析モジュール128によって解析された、あるドキュメントに対して行われるユーザの修正操作の内容と、当該ドキュメントを識別するための情報とを組にして保管する。
テキスト意味ドキュメント傾向比較モジュール130は、処理対象となる画像データのドキュメントが、テキスト意味設定傾向保管モジュール129に保管されているドキュメントのレイアウトに類似しているかどうかを比較する。
テキスト意味定型設定モジュール131は、テキスト意味ドキュメント傾向比較モジュール130にて、処理対象であるドキュメントに類似したドキュメントがテキスト意味設定傾向保管モジュール129にて保管されている場合、テキスト意味設定傾向保管モジュール129より、その傾向を持ったドキュメントに対しユーザが行った過去の修正操作に関する情報を取得し、その操作内容を意味情報保管モジュール114あるいはテキスト意味属性保管モジュール125に格納されている処理対象ドキュメントに関する情報に反映させる。
本実施の形態では、入力される処理対象であるドキュメントに対するテキスト意味解析結果およびテキスト意味属性解析結果についての、ユーザの修正操作の傾向を解析する。そして、新たに入力されるドキュメントのレイアウト等が過去に処理対象となったドキュメントに類似していれば、当該過去に入力されたドキュメント画像に対してユーザが行った修正操作を、新たに入力されたドキュメントにあらかじめ自動的に施した後、当該自動修正した結果をユーザに提示する構成となっている。
例えば、本実施の形態による画像処理システムS6では、図2に例示したようなレイアウトで配置されたオブジェクトを含むドキュメント画像を取得すると、テキスト意味が「人名」である2つの文字領域のテキスト情報が、ユーザの所望の順序で表示部111にリスト表示される。ここでは、ユーザが、表示部111にてリスト表示された結果から、「人名」としてリスト表示されている項目の内の2番目の項目を、テキスト意味が「人名」ではないものと判断し、リストから削除する操作を行ったものとする。このとき、入力されたドキュメント画像1の情報と、ユーザの修正操作を履歴情報として記録しておく。次に、新たに処理対象となるドキュメントの画像データが画像処理システムS6に入力された場合、過去に処理対象となったドキュメントの画像データとレイアウト等が類似したものであれば、当該過去に処理したドキュメント画像に対して行ったユーザの修正操作を、新たに入力されたドキュメントの画像データに対してあらかじめ自動的に反映させる。つまり、この場合、新たに入力されたドキュメントの画像データについての解析の結果得られる「人名」リストの項目の内の2番目の項目を自動的に削除する。このようにして2番目の項目が削除された「人名」リストをユーザに提示することで、ユーザは過去に類似するドキュメントの画像データに対して行った修正操作を、新たに処理対象となるドキュメントでは省略することができる。
図19は、本発明の第6の実施の形態による画像処理システムS6における処理の詳細を示すフローチャートである。
まず、画像処理システムS6に入力されたドキュメントに対し、ユーザが行う修正操作の傾向を取得する処理について記述する。
はじめに、画像データ取得部101にて、ドキュメント処理システム23に入力されるドキュメントの画像データを取得する(S501)。
次に、ドキュメント領域解析モジュール102により、ドキュメント画像中の文字領域を解析し、文字領域を囲む矩形の座標(位置、サイズなど)の情報を取得する。また、文字認識モジュール113により、ドキュメント領域解析モジュール102にて抽出された文字領域のテキスト情報を認識する。そして、テキスト意味解析モジュール115にて、文字認識モジュール113にて認識されたテキスト情報のテキスト意味を認識する。このようにして、ドキュメント領域解析モジュール102、文字認識モジュール113およびテキスト意味解析モジュール115にて取得される各種情報は、意味情報保管モジュール114に保管される(S502)。
次に、テキスト意味解析モジュール115にて解析されたテキスト意味のリスト表示における、ユーザの所望の表示順序を、属性としてテキスト意味属性保管モジュール125に保管させる(S503)。
次に、意味情報保管モジュール114およびテキスト意味属性保管モジュール125にて保管されている情報を、テキスト意味属性提示モジュール126により表示部111に画面表示させ、ユーザに提示する(S504)。
次に、ユーザが表示部111に提示された解析結果を確認した結果、テキスト意味設定モジュール124またはテキスト意味属性設定モジュール127を用いて、テキスト意味またはテキスト意味属性の修正を行った場合(S505,Yes)、S506の処理を実行させる。具体的には、入力されたドキュメントの画像データに関する情報(つまり、意味情報保管モジュール114にて保管されている情報)と、テキスト意味設定傾向解析モジュール128により、テキスト意味設定モジュールあるいはテキスト意味属性設定モジュール127を介して該ドキュメントについて行われたユーザの修正操作内容を示す情報とを関連付けて、テキスト意味設定傾向保管モジュール129に保管させる(S506)。
例えば、入力されたドキュメントの情報として、ドキュメント領域解析モジュール102にて解析された全文字領域の位置(座標など)を示す情報と、そのドキュメントに類似するレイアウトのドキュメントに対して過去にユーザが行った修正作業の内容に関する情報とが、関連付けてテキスト意味設定傾向保管モジュール129に保管される。
図20では、ドキュメントの画像データの画像中に含まれる文字領域等のオブジェクトのドキュメント中における座標情報と、これら文字領域について判定された属性情報等に対してユーザが過去に行った修正操作の内容とが組になりテキスト意味設定傾向保管モジュール129に保管されている状況を示す。
次に、本実施の形態による画像処理システムS6に処理対象として新たに入力されたドキュメントのレイアウトが、テキスト意味設定傾向保管モジュール129に保管されている(過去に入力された)ドキュメントのレイアウトと類似している場合に、当該過去に入力されたドキュメントに対して行われたユーザの修正操作と同様の内容の修正を上記新たに入力されたドキュメントに対して自動的に施しておき、ユーザに提示する処理について説明する。図21は、本発明の第6の実施の形態における、新規に入力されるドキュメントへの過去の修正操作の反映処理の詳細について説明するためのフローチャートである。
まず、画像データ取得部101にて、ドキュメント処理システムS6に入力されるドキュメントの画像データを取得する(S601)。
次に、ドキュメント領域解析モジュール102により、ドキュメントの画像データの画像中の文字領域等のオブジェクトを解析し、各文字領域を囲む矩形の座標(位置、サイズなど)に関する情報を取得する。また、文字認識モジュール113により、ドキュメント領域解析モジュール102にて画像中から抽出される文字領域からテキスト情報を認識する。そして、テキスト意味解析モジュール115により、文字認識モジュール113にて認識されたテキスト情報のテキスト意味を認識する。このようにして、ドキュメント領域解析モジュール102、文字認識モジュール113およびテキスト意味解析モジュール115にて取得される各種情報は、意味情報保管モジュール114に保管される(S602)。
次に、テキスト意味解析モジュール115にて解析されたテキスト意味のリスト表示における、ユーザの所望の表示順序を、属性としてテキスト意味属性保管モジュール125に保管させる(S603)。
次に、処理対象として新たに入力されたドキュメントに類似するレイアウトを有するドキュメントに関する情報が、テキスト意味設定傾向保管モジュール129にて保管されているかどうか、テキスト意味ドキュメント傾向比較モジュール128による比較判定処理を行う(S604)。
テキスト意味ドキュメント傾向比較モジュール128におけるドキュメントの比較については、例えば図20に示すように、テキスト意味設定傾向保管モジュール129に過去に入力されたドキュメントから抽出された全ての文字領域の座標値に関する情報が保管されている場合、ドキュメント領域解析モジュール102にて取得された、新たに入力されたドキュメントの画像データから抽出される文字領域の座標値と比較し、その値の差が小さければ、2つのドキュメントは類似していると判断する。
なお、ここでは、ドキュメント画像中に含まれる文字領域の座標(ドキュメントにおけるオブジェクトのレイアウトに関する情報)のみを用いてドキュメントの類似を判定する構成を例示したが、これに限られるものではない。例えば、ドキュメントの画像中に含まれる文字領域のテキスト情報を利用し、類比の対象となる2つのドキュメント間で共通して含む単語が多い場合には類似するドキュメントであると判断するなど、意味情報保管モジュール114および領域意味属性保管モジュール125にて保存されている種々の情報を用いて、ドキュメントの比較を行うこともできる。
次に、画像処理システムS6に入力されたドキュメントに類似するレイアウトを有するドキュメントに関する情報がテキスト意味設定傾向保管モジュール129に保管されている場合(S604,Yes)、新たに入力されたドキュメントの画像データに対し、テキスト意味設定傾向保管モジュール129に保管されている、当該新たに入力されたドキュメントに類似するドキュメントに対して過去にユーザが行った修正操作と同様の内容の修正処理を、テキスト意味定型設定モジュール131により自動的に施す。
具体的には、S604にて、テキスト意味ドキュメント傾向比較モジュール130が、新規に画像処理システムS6に入力されたドキュメントが、図20に示すようにテキスト意味設定傾向保管モジュール129に情報が保管されているドキュメントAに類似していると判定した場合(S604,Yes)、テキスト意味定型設定モジュール131は、テキスト意味設定傾向保管モジュール129にて保管されている、ドキュメントAに対してユーザが行った修正操作と同様の内容の修正処理を当該新規に入力されたドキュメントの画像データに対して実行する。すなわち、ここでは、テキスト意味が「人名」であり、ユーザが所望する順位が2番目のテキスト情報である、と解析されたテキスト情報を、テキスト意味が「人名」ではないと修正するようにテキスト意味設定モジュール124に指示を出す。
テキスト意味属性提示モジュール126は、新規に画像処理システムS6に入力されたドキュメントとレイアウトが類似するドキュメントに関する情報が、テキスト意味設定傾向保管モジュール129にある場合(S604,Yes)には、S605で修正を施した結果を表示部111にてユーザに提示させ(S605)、類似したドキュメントに関する情報がない場合(S604,No)にはS602およびS603における解析結果を表示部111にてユーザに提示させる(S606)。
次に、表示部111にて提示されたテキスト意味もしくはテキスト意味属性の内容をユーザが修正した場合(S607,Yes)には、テキスト意味設定傾向解析モジュール128により、当該意味および属性の判定内容が修正された新規入力ドキュメントとユーザの修正操作を対応付けて、テキスト意味設定傾向保管モジュール129に保管し(S608)、処理を終了する。一方、表示部111にて提示された内容をユーザが修正していなければ(S607,No)処理を終了する。
また、上述の各実施の形態では、ドキュメントの画像データの画像中から抽出されるオブジェクトが主に文字領域である例を示したが、これに限られるものではなく、通常のドキュメントに含まれ得る図形や写真画像等のオブジェクトも抽出の対象となり得ることは言うまでもない。
なお、上述の各実施の形態では、オブジェクトと当該オブジェクトについての意味判定結果を画面表示することにより、ユーザへの通知を行う構成を例に挙げたが、これに限られるものではなく、例えば、音声によって上記と同様な内容の通知を行うようにしてもよい。
なお、上述の実施の形態では、スキャンした画像データに対して所定のルールに基づく意味判定処理を施し、当該判定処理の処理結果に対し、候補選択部による選択や、意味設定部によるユーザや文書種別に応じた意味設定を行う構成を例示したが、これに限られるものではなく、例えば、スキャンした画像データに対してユーザや文書種別に応じて予め決定されているルールに基づいて、意味判定処理を行うようにしてもよい。
このような処理アルゴリズムとすることにより、上述の実施の形態におけるオブジェクトへの適切な意味付けの選択を行う処理ステップを削減することができる。
上述の画像処理システムでの処理における各ステップは、メモリ802に格納されている画像処理プログラムをCPU801に実行させることにより実現されるものである。
本実施の形態では装置内部に発明を実施する機能が予め記録されている場合で説明をしたが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしてもよい。記録媒体としては、CD−ROM等プログラムを記憶でき、かつ装置が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように予めインストールやダウンロードにより得る機能は装置内部のOS(オペレーティング・システム)等と共働してその機能を実現させるものであってもよい。
本発明を特定の態様により詳細に説明したが、本発明の精神および範囲を逸脱しないかぎり、様々な変更および改質がなされ得ることは、当業者には自明であろう。
S1〜S6 画像処理システム、101 画像データ取得部、102 ドキュメント領域解析モジュール、104 領域意味解析モジュール、108 領域意味提示モジュール、110 領域意味設定モジュール、111 表示部、112 操作入力部、113 文字認識モジュール、114 意味情報保管モジュール、115 テキスト意味解析モジュール、116 領域意味属性保管モジュール、117 領域意味属性提示モジュール、118 領域意味属性設定モジュール、119 領域意味設定傾向解析モジュール、120 領域意味ドキュメント傾向比較モジュール、121 領域意味設定傾向保管モジュール、122 領域意味定型設定モジュール、123 テキスト意味提示モジュール、124 テキスト意味設定モジュール、125 テキスト意味属性保管モジュール、126 テキスト意味属性提示モジュール、127 テキスト意味属性設定モジュール、128 テキスト意味設定傾向解析モジュール、130 テキスト意味ドキュメント傾向比較モジュール、129 テキスト意味設定傾向保管モジュール、131 テキスト意味定型設定モジュール、801 CPU、802 メモリ。