以下、図面を参考にして本発明の好適な実施形態を詳細に説明する。
図1は、本発明の実施の一形態である画像文書処理装置10の主要部の構成を示すブロック図である。本実施の形態の画像文書処理装置10は、文書を画像として入力して蓄積し、蓄積された画像文書を検索して閲覧するために用いられる。
画像文書処理装置10は、画像文書データベース(画像文書DB)19と、見出し領域格納部であるインデックス情報データベース(インデックス情報DB)17と、キーワード入力部24と、見出し領域抽出部301と、順位設定部302と、表示部303と、順位変更指令入力部304と、表示態様設定部305と含む。
画像文書DB19は、画像文書を、識別のための文書IDを付けて保存する。インデックス情報DB17は、画像文書中にある複数の見出し領域に関する情報であるインデックス情報を保存する。キーワード入力部24は、検索キーワードが入力される。
見出し領域抽出部301は、インデックス情報DB17を検索し、検索キーワードを含む見出し領域を抽出する。順位設定部302は、見出し領域抽出部301にて抽出される見出し領域に対して、予め定める規則に従って順位を設定する。このような見出し領域抽出部301および順位設定部302を含んで、検索部22が構成される。
表示部303は、画像文書DB19に格納される画像文書を表示するとともに、表示される画像文書上で、見出し領域抽出部301にて抽出される見出し領域を、順位設定部302にて設定される順位に応じて強調表示する。
順位変更指令入力部304は、見出し領域抽出部301にて抽出される見出し領域に対して順位の設定を変更するための順位変更指令が入力される。表示態様設定部305は、表示部303による強調表示の表示態様を設定するための指令が入力される。
図2は、画像文書処理装置10の構成を大略的に示すブロック図である。画像文書処理装置10は、プロセッサ4と、プロセッサ4が実際の処理を行うためのソフトウエアなどを格納する外部記憶装置5とを含む。
プロセッサ4は、画像文書から検索の要となる見出し領域を抽出する画像文書特徴抽出処理、画像文書に対する検索を可能にするインデックス情報を生成するインデックス情報生成処理、インデックス情報を用いた検索処理、およびインデックス情報を用いて後述する意味のある文書名を作成して画像文書を管理する画像文書管理処理などを実際に行う。
プロセッサ4における実際の処理は、外部記憶装置5に格納されるソフトウエアによって実行される。プロセッサ4は、たとえば通常のコンピュータ本体などで構成される。本実施の形態では、プロセッサ4は、インデックス情報生成処理に用いる後述する字形特徴辞書15(図10参照)を作成する字形特徴辞書作成処理も実行するようになっている。
外部記憶装置5は、たとえば高速アクセスが可能なハードディスクなどで構成することができる。外部記憶装置5は、画像文書を大量に保持するために光ディスクなどの大容量デバイスを用いるような構成をとっても構わない。後述する字形特徴辞書15、インデックス情報DB17、画像文書DB19、字形見本データベース(字形見本DB)13などは、外部記憶装置5にて構成される。
画像文書処理装置10には、キーボード1が接続されるとともに、表示装置3が接続される。キーボード1は、検索キーワードの入力に用いられる。またキーボード1は、画像文書を閲覧する際の指示入力にも用いられる。さらにキーボード1は、後述する候補文字数、相関値、および行の相関度加重因子Qなどの設定値変更にも用いられる。表示装置3は、画像文書などを出力して表示する。表示装置3に表示される内容には、相関度の情報、および画像名称などの情報も含まれる。
画像文書処理装置10には、イメージスキャナ2またはデジタルカメラ6がさらに接続される。イメージスキャナ2およびデジタルカメラ6は、画像文書を取得するために用いられる。画像文書の取得は、イメージスキャナ2およびデジタルカメラ6に限られるものではなく、ネットワークなどを介して通信を行うことによって取得してもよい。また、イメージスキャナ2またはデジタルカメラ6を用いた検索キーワードの入力も可能である。
図3は、画像文書処理装置10による検索動作を簡単に説明するための図である。画像文書DB19には、複数の画像文書が蓄積される。インデックス情報DB17には、画像文書DB19に蓄積される各画像文書について、インデックス情報が格納される。
キーワード入力部24から検索キーワードが入力されて検索が実行されると、検索部22にてインデックス情報DB17が検索され、検索キーワードに適合する画像文書が抽出される。表示部303には、抽出された画像文書の文書名が列挙されて表示される。
表示部303に表示された画像文書の文書名が選択されて、1つの画像文書が選択されると、検索部22の見出し領域抽出部301にて、インデックス情報DB17が検索され、選択された前記1つの画像文書について、検索キーワードを含む見出し領域が抽出される。そして検索部22の順位設定部302は、見出し領域抽出部301にて抽出された見出し領域に対して、予め定める規則に従って順位を設定する。
この後、表示部303では、選択された前記1つの画像文書が表示されるとともに、表示される画像文書上で、見出し領域抽出部301にて抽出された見出し領域が、順位設定部302にて設定された順位に応じて強調表示される。したがって画像文書から所望の見出しを探し出すことに要する手間を軽減することができる。
順位変更指令入力部304から順位変更指令が入力されると、順位設定部302は、入力された順位変更指令に応じて、見出し領域抽出部301にて抽出された見出し領域に対して、順位の設定を変更する。そして表示部303には、表示される画像文書上で、見出し領域抽出部301にて抽出された見出し領域が、順位設定部302にて変更された順位に応じて強調表示される。このような順位の設定変更に関する情報は、インデックス情報DB17に格納され、次回の検索での順位設定の際に、その情報が用いられるように構成されてもよい。
表示態様設定部305から、表示部303による強調表示の表示態様を設定するための指令が入力されると、表示部303では、入力された指令に応じて、表示部303による強調表示の表示態様が設定される。表示部303では、表示される画像文書上で、見出し領域抽出部301にて抽出された見出し領域が、順位設定部302にて設定された順位に応じて、設定された表示態様で強調表示される。
図4は、表示部303に表示される表示画面310の一例を示す図である。表示画面310は、画像文書の文書名313を列挙して表示する文書名表示領域311と、画像文書を表示する画像文書表示領域312とを有する。文書名表示領域311は、表示画面310の左寄りに配置され、画像文書表示領域312は、表示画面の右寄りに配置される。文書名表示領域311に表示される画像文書の文書名313を選択することによって、選択された文書名に対応する画像文書が選択される。そして画像文書表示領域312には、選択された画像文書314が表示される。順位が最上位の見出し領域316は、画像文書表示領域312内の予め定める設定位置に配置される。設定位置は、たとえば画像文書表示領域312内の左上位置315に設定される。
順位が最上位の見出し領域(以下「主領域」という)316は、第1表示態様で強調表示され、順位が2位以下の見出し領域(以下「副領域」という)317は、第1表示態様とは異なる第2表示態様で強調表示される。本実施の形態では、主領域316は、第1の色の囲み線318によって囲まれ、副領域317は、第1の色とは異なる第2の色の囲み線319によって囲まれる。このようにして主領域316と副領域317とが区別されて強調表示される。強調表示の表示態様は、主領域316および副領域317に対してそれぞれ個別に設定される。
前述の表示態様は、一例であり、これに限定されるものではない。たとえば、色の違いではなく、線の種類の違いまたは線の幅の違いによって、主領域316および副領域317が区別されてもよい。さらに囲み線に代えて、下線などが用いられてもよい。
図5Aは、順位設定部302による順位設定動作の第1の例を説明するためのフローチャートである。文書名表示領域311に表示される画像文書の文書名313の1つが選択されて、1つの画像文書が選択されると、見出し領域抽出部301にて、インデックス情報DB17が検索され、選択された前記1つの画像文書について、検索キーワードを含む見出し領域が抽出される。選択された前記1つの画像文書について、検索キーワードを含む見出し領域が抽出されると、順位設定部302による順位設定動作が開始される。
順位設定動作を開始すると、まず、ステップa1において、検索式中の検索キーワードの個数が複数であるか否かを判定する。検索式中の検索キーワードの個数が複数であるときは、ステップa2に進み、検索式中の検索キーワードの個数が1つであるときは、ステップa5に進む。
ステップa2では、抽出された全ての見出し領域について、検索キーワードの個数を計数する。次にステップa3では、最多の検索キーワードを含む見出し領域が1つか否かを判定する。最多の検索キーワードを含む見出し領域が1つであるときは、ステップa4に進み、最多の検索キーワードを含む見出し領域が複数であるときは、ステップa9に進む。
ステップa5では、抽出された全ての見出し領域について、画像文書における位置情報を分析する。次にステップa6では、画像文書の最上部の左寄りに位置し、かつ、その他の見出し領域との距離が予め定める閾値Thを超える見出し領域があるか否かを判定する。前述のような見出し領域があると判定すると、ステップa7に進み、前述のような見出し領域がないと判定すると、ステップa8に進む。
ステップa9では、最多の検索キーワードを含む複数の見出し領域について、画像文書における位置情報を分析し、ステップa6に進む。
ステップa4では、最多の検索キーワードを含む見出し領域を、主領域と判定する。ステップa7では、画像文書の最上部の左寄りに位置し、かつ、その他の見出し領域との距離が予め定める閾値Thを超える見出し領域を、主領域と判定する。ステップa8では、抽出された全ての見出し領域のうちで最も上にある見出し領域を、主領域と判定する。
主領域を判定した後、ステップa10では、抽出された見出し領域のうちで主領域を除く残余の見出し領域について、同様の処理方法で順位を設定する。前記残余の見出し領域は、副領域と判定する。この後、順位設定動作を終了する。
このように順位設定部302は、見出し領域抽出部301にて抽出される見出し領域に対して、画像文書における見出し領域の位置情報に基づいて順位を設定する。これによって順位を的確に設定することができ、画像文書から所望の見出しを探し出すことに要する手間をさらに軽減することができる。
また順位設定部302は、入力される検索式中の検索キーワードの個数が複数である場合、見出し領域抽出部301にて抽出される見出し領域に対して、見出し領域に含まれる検索キーワードの個数に基づいて順位を設定する。これによって順位を的確に設定することができ、画像文書から所望の見出しを探し出すことに要する手間をさらに軽減することができる。
図5Bは、順位設定部302による順位設定動作の第2の例を説明するためのフローチャートである。第2の例の順位設定動作は、第1の例の順位設定動作に類似するので、同様の点については説明を省略する。第2の例では、第1の例と同様にして、順位設定部302による順位設定動作が開始される。
順位設定動作を開始すると、まず、ステップa11において、検索キーワードの文字数は複数であるか否かを判定する。検索キーワードの文字数が複数であるときは、ステップa12に進み、検索キーワードの文字数が1つであるときは、ステップa15に進む。
ステップa12では、抽出された全ての見出し領域について、検索キーワードの一部または全部と一致する文字列部分の文字数である一致文字数を計数する。次にステップa13では、最多の一致文字数を有する見出し領域が1つか否かを判定する。最多の一致文字数を有する見出し領域が1つであるときは、ステップa14に進み、最多の一致文字数を有する見出し領域が複数であるときは、ステップa19に進む。
ステップa14では、最多の一致文字数を有する見出し領域を、主領域と判定する。ステップa15〜a18は、第1の例におけるステップa5〜a8と同様である。ステップa19では、最多の一致文字数を有する複数の見出し領域について、画像文書における位置情報を分析し、ステップa16に進む。
主領域を判定した後、ステップa20に進む。ステップa20は、第1の例におけるステップa10と同様である。この後、順位設定動作を終了する。
このように第2の例では、第1の例と同様、順位設定部302は、見出し領域抽出部301にて抽出される見出し領域に対して、画像文書における見出し領域の位置情報に基づいて順位を設定する。これによって順位を的確に設定することができ、画像文書から所望の見出しを探し出すことに要する手間をさらに軽減することができる。
また第2の例では、順位設定部302は、見出し領域抽出部301にて抽出される見出し領域に対して、検索キーワードの一部または全部と一致する文字列部分の文字数に基づいて順位を設定する。これによって順位を的確に設定することができ、画像文書から所望の見出しを探し出すことに要する手間をさらに軽減することができる。
図5Cは、順位設定部302による順位設定動作の第3の例を説明するためのフローチャートである。第3の例の順位設定動作は、第1の例の順位設定動作に類似するので、同様の点については説明を省略する。第3の例では、第1の例と同様にして、順位設定部302による順位設定動作が開始される。
順位設定動作を開始すると、まず、ステップa21において、検索キーワードの文字数は複数であるか否かを判定する。検索キーワードの文字数が複数であるときは、ステップa22に進み、検索キーワードの文字数が1つであるときは、ステップa25に進む。
ステップa22では、抽出された全ての見出し領域について、検索キーワードの一部または全部と一致する文字列部分の文字数である一致文字数を計数する。次にステップa23では、最多の一致文字数を有する見出し領域が1つか否かを判定する。最多の一致文字数を有する見出し領域が1つであるときは、ステップa24に進み、最多の一致文字数を有する見出し領域が複数であるときは、ステップa25に進む。
ステップa24では、最多の一致文字数を有する見出し領域を、主領域と判定する。ステップa25では、サイズが最大の文字画像を含む見出し領域について、画像文書における位置情報を分析する。文字画像のサイズは、文字画像の、文字の高さ方向に関する寸法であってもよく、あるいは文字画像の、文字の幅方向に関する寸法であってもよい。また文字画像のサイズは、文字画像の対角線の寸法であってもよい。さらに文字画像のサイズは、文字画像の面積であってもよい。次にステップa26に進む。ステップa26〜a28は、第1の例におけるステップa6〜a8と同様である。
主領域を判定した後、ステップa29に進む。ステップa29は、第1の例におけるステップa10と同様である。この後、順位設定動作を終了する。
このように第3の例では、第1の例と同様、順位設定部302は、見出し領域抽出部301にて抽出される見出し領域に対して、画像文書における見出し領域の位置情報に基づいて順位を設定する。これによって順位を的確に設定することができ、画像文書から所望の見出しを探し出すことに要する手間をさらに軽減することができる。
また第3の例では、順位設定部302は、見出し領域抽出部301にて抽出される見出し領域に対して、検索キーワードの一部または全部と一致する文字列部分の文字数に基づいて順位を設定する。これによって順位を的確に設定することができ、画像文書から所望の見出しを探し出すことに要する手間をさらに軽減することができる。
さらに第3の例では、順位設定部302は、見出し領域抽出部301にて抽出される見出し領域に対して、見出し領域に含まれる文字画像のサイズに基づいて順位を設定する。これによっても順位を的確に設定することができ、画像文書から所望の見出しを探し出すことに要する手間をさらに軽減することができる。
図6は、順位の設定を変更するときの表示画面320の一例を示す図である。前記図4に示す表示画面310が表示された状態で、副領域317の1つが選択されると、ダイアログボックス321が表示される。このダイアログボックス321を利用して、選択された1つの副領域を主領域に設定するか否かが指定される。
図7は、順位設定部302による順位変更動作を説明するためのフローチャートである。順位設定部302による順位変更動作は、抽出された見出し領域に対して順位が設定されると、開始される。
順位変更動作を開始すると、ステップb1で、順位変更指令入力部304から順位変更指令が入力されたか否かを判定する。順位変更指令は、図6に示すダイアログボックス321を利用して、選択された1つの副領域を主領域に設定すると指定されると、順位変更指令入力部304から入力される。
順位変更指令が入力されるまで、ステップb1の動作を繰り返し実行し、順位変更指令が入力されたと判定すると、ステップb2に進む。ステップb2では、入力された順位変更指令に応じて、見出し領域に対して順位の設定を変更する。具体的には、選択された1つの副領域の順位を最上位として、前記1つの副領域を主領域とする。また設定変更前の主領域の順位を2位として、前記主領域を副領域とする。さらに残余の見出し領域についても、適宜に順位をずらす。各見出し領域に対して順位の設定を変更した後、ステップb1に戻る。
このように順位設定部302は、入力される順位変更指令に応じて、見出し領域抽出部301にて抽出される見出し領域に対して、順位の設定を変更する。これによって順位を適宜に設定し直すことができ、順位の設定に対して、融通性を向上することができる。
図8は、順位設定部302による順序設定動作の第4の例を説明するためのフローチャートである。第4の例の順位設定動作は、第1の例の順位設定動作に類似するので、同様の点については説明を省略する。第4の例では、第1の例と同様にして、順位設定部302による順位設定動作が開始される。
順序設定動作を開始すると、ステップc1で、見出し領域を再度、抽出し直す必要があるか否かを判定する。具体的には、抽出された見出し領域の個数が所定の範囲か否かを判定する。換言すれば、抽出された見出し領域の個数が、多すぎる場合および少なすぎる場合に、再抽出の必要があると判定する。再抽出の必要があるとき、ステップc2に進み、再抽出の必要がないとき、ステップc3に進む。
ステップc2では、前記図5Aに示す第1の例の順序設定動作を実行する。ステップc3では、検索式を変更させる。次にステップc4では、ステップc3で変更された検索式を用いて、再度、見出し領域を抽出し直し、ステップc1に戻る。
このような順序設定動作が行われることによって、適度の個数の見出し領域が強調表示され、これによっても、画像文書から所望の見出しを探し出すことに要する手間を軽減することができる。
前記ステップc1の判定は、ユーザが行うように構成されてもよい。このような場合でも、画像文書から所望の見出しを探し出すことに要する手間を軽減することができる。
図9は、強調表示の表示態様を変更するためのダイアログボックス330の一例を示す図である。ダイアログボックス330には、主領域の表示態様を設定するための主領域設定領域331と、副領域の表示態様を設定するための副領域設定領域332とを有する。主領域設定領域331は、ダイアログボックス330の左寄りに配置され、副領域設定領域332は、ダイアログボックス330の右寄りに配置される。
主領域設定領域331の構成および副領域設定領域332の構成は、類似するので、対応する部分には同一の符号を付し、主領域設定領域331の構成についてだけ説明し、副領域設定領域332の構成については説明を省略する。主領域設定領域331は、線の色を選択するための領域333と、線の種類を選択するための領域334と、線の幅を選択するための領域335とを有する。図9に示す一例では、線の種類として、直線の下線および波線の下線のいずれか一方が選択される。このようなダイアログボックス330を利用して、主領域の表示態様および副領域の表示態様が設定される。
このように表示部303は、強調表示の表示態様を設定可能であるので、個性化に対する要求を満たすことができる。
図10は、画像文書処理装置10の構成を詳細に示すブロック図である。画像文書処理装置10は、文字データベース入力部(文字DB入力部)11、字体正規化処理部12、字形見本DB13、文字画像特徴抽出部(画像特徴抽出部)14、字形特徴辞書15、特徴マッチング部16、インデックス情報DB17、見出し領域初期処理部18、画像文書DB19、画像文書特徴データベース(画像文書特徴DB)20、画像文書入力部21、検索部22、語彙解析部23、キーワード入力部24、検索結果表示部25、文書名作成部51、画像文書DB管理部52、画像文書表示部53、指示入力部54を含んでいる。
このうち、文字DB入力部11、字体正規化処理部12、字形見本DB13、文字画像特徴抽出部14、字形特徴辞書15にて、上記した字形特徴辞書作成処理を実施する字形特徴辞書生成部30が構成される。
まず、字形特徴辞書生成部30を構成する、上記機能ブロック11、12、13、14、15について説明する。
文字DB入力部11は、字形特徴辞書15を作成するために必要な、基本となる文字データベースを入力するためのものである。本装置が、たとえば、中国語対応の装置であれば、中華人民共和国におけるGB2312の6763個の全文字などが入力される。また、本装置が、日本語対応の装置であれば、JIS第一水準の約3,000字種などが入力される。つまり、ここで言う文字には、符号が含まれる。このような文字DB入力部11は、プロセッサ4にて構成され、文字データベースは、記録媒体を介して、或いはネットワークなどを通じて供給される。
字体正規化処理部12は、文字DB入力部11より入力された文字データベースに含まれる全ての文字について、異なるフォントとサイズの文字画像を作成するものである。異なるフォントとサイズの文字画像は、字形見本DB13に格納される。
図11に、字体正規化処理部12が字形見本DB13を作成する処理を示す。字体正規化処理部12には、本装置が中国語対応の装置であれば、たとえば、宋体、倣宋体、黒体、楷体などの字形見本12aが具備されている。また、本装置が日本語対応の装置であれば、MS明朝、MSゴシック…などの字形見本が具備されている。
字体正規化処理部12における変形処理部12bが、文字データベースの文字を画像化し、文字画像を標準化処理する。次に、変形処理部12bは、字形見本12aを参照して、標準化処理した文字画像に対し、変形処理を施し、さらに異なるフォントとサイズの文字画像にする。変形処理には、たとえば、曖昧化処理、拡大・縮小化処理、微細化処理などがある。このように変形処理された文字画像を、字体基準部12cは、基準文字画像として字形見本DB13に格納する。
字形見本DB13には、文字データベースの全ての文字に対して、同じ文字であっても、フォント、サイズによって決まる字形毎に基準文字画像が格納されている。例をあげると、文字種は同じ「中」であっても、定められているフォントの数だけ形状の異なる基準文字画像の「中」があり、また、定められているサイズの数だけ大きさの異なる基準文字画像の「中」が格納されている。
文字画像特徴抽出部14は、文字画像の特徴(画像特徴)を抽出して、字形特徴辞書15に格納するものでもある。本実施の形態では、文字画像特徴抽出部14は、文字画像外囲特徴と網格方向との組合せによって文字画像の特徴を抽出し、特徴ベクトルとする。なお、文字画像の特徴は、これらに限られるものではなく、他の特徴を抽出して特徴ベクトルを形成してもよい。
ここで、文字画像外囲特徴及び網格方向特徴について説明しておく。図12は、文字画像外囲特徴の説明図である。文字画像外囲特徴とは、文字画像の外部からみた輪郭の特徴である。図12に示すように、文字画像の外接矩形の4辺から走査し、白画素から黒画素に変化する点までの距離を特徴とし、最初に変化する位置と2度目に変化する位置を取り出す。
たとえば、外接矩形をX行Y列に分割した場合、行を単位として左方向と右方向からそれぞれ画像を走査し、列を単位として上方向と下方向からそれぞれ走査する。なお、図12は、行を単位に左から走査している図である。
また、図12において、実線の矢印F1にて、最初に白画素から黒画素に変化する点までの走査軌跡を示している。破線の矢印F2は、2回目に白画素から黒画素に変化する点までの走査軌を示している。実線の矢印F3は、最後まで白画素から黒画素に変化する点を検出することができなかった走査軌跡を示しており、このような場合、距離値は0となる。
一方、図13(a)(b)は、網格方向特徴の説明図である。文字画像を粗い網格に分割し、各格子領域内の黒画素についてあらかじめ定めた複数方向に触手を伸ばす。そして、各方向に連結する黒画素の画素数を計数し、該黒画素の各方向成分別の分布状況を表す方向寄与度を、識別関数としてユークリッド距離を用いて黒画素数の差に応じた値により距離値を除算して距離値を算出する。
図13(a)では、文字画像を4×4の16個の格子に分割し、格子の交点からX軸方向に最も近い黒画素から白画素になる点を中心に、X軸方向(0°)、45°方向、Y軸方向(90°)の3方向に触手を伸ばしている。
本実施例では、文字画像を8×8の4角の網に分割し、図13(b)に示すように、0°,45°,90°,135°,180°,225°,270°,315°の8方向に触手を伸ばすようになっている。
なお、網格方向の特徴の抽出方法としては、触手の伸ばす方向や、触手を伸ばす中心点を置き方など、様々な手法があり、たとえば、特開2000−181994号公報などに記載されている。
文字画像特徴抽出部14は、このような文字画像の特徴の抽出を、字形見本DB13に格納されている、基準文字画像の全部に対して行う。そして、文字画像特徴抽出部14は、字形見本DB13に格納されている基準文字画像の抽出結果については字形特徴辞書15に格納し、字形特徴辞書15を生成する。
図14に、文字画像特徴抽出部14による字形特徴辞書15を作成する処理を示す。文字画像特徴抽出部14における字形基準化部14aが、字形見本DB13から基準文字画像を取り出し、文字画像特徴取出部14bは、字形基準化部14aが取り出した基準文字画像に対してその特徴を取り出す。そして、特徴分類部14cが、字形見本DB13を参照して、基準文字画像毎に抽出した特徴を分類して、字形特徴辞書15に格納する。
文字画像特徴取出部14bにおいては、上述したように、単文字ごと、加重付けによる異なる基準文字画像の特徴の適値を求め、基準文字画像の標準特徴を取得する。
文字画像特徴取出部14bが、異なる字体字号を加重させることによって、異なる字形特徴辞書を作成することができる。多字体の画像特徴を融合し、単文字画像特徴を単位で字形特徴辞書を作成することで、多字体・字号画像文書の自動インデックスと管理を満足できる。
次に、画像文書特徴抽出処理を実施する画像文書特徴抽出部31を構成する、画像文書DB19、画像文書特徴DB20、見出し領域初期処理部18、文字画像特徴抽出部14について説明する。
画像文書DB19は、画像文書入力部21より画像文書が入力されると、識別のための文書IDを付けて保存するものである。
見出し領域初期処理部18は、画像文書DB19に新しい画像文書が保存されると、そのイメージデータより画像文書における見出し領域を定位して抽出して、文字画像を前述した文字画像特徴抽出部14に送るものである。
図17に、画像文書50に対して、T1,T2,T3の3領域を見出し領域として定位した様子を示す。この図17からも分かるように、画像文書50におけるタイトル部分を見出し領域Tとして抽出する。
見出し領域初期処理部18にて抽出されて文字画像特徴抽出部14に送られる文字画像は、通常は複数の文字を含んだ文字列の画像である。したがって、これ以降は、見出し領域初期処理部18より送られる文字画像は文字列の画像であるとして説明する。
本実施の形態では、見出し領域初期処理部18は射影法と連通域統計分析により、見出し領域Tの定位及び抽出を行う。なお、このような見出し領域Tは、主にタイトル部分が相当し、たとえば、特開平9−319747号公報、特開平8−153110号公報などに記載されている方法など、従来ある様々な手法を用いることができる。
画像文書の全ての文字領域(テキスト領域)を対象とすることなく、このように見出し領域Tのみを定位し抽出しているため、検索の対象となる情報量を少なくして検索時間を短くできる。
但し、全てのテキスト領域を定位することなく、見出し領域Tのみを定位することは、検索に関して言えば必須の構成要素でなく、全文テキスト領域を定位して抽出することも可能である。ただし、後述する意味のある文書名の作成に関して言えば、見出し領域Tのみを定位することは必須の構成要素である。
文字画像特徴抽出部14は、見出し領域初期処理部18から入力される文字列の画像については、1文字の文字画像に分割した上で、字形特徴辞書15の作成時と同様、各文字画像の特徴を抽出する。そして、抽出した特徴は、画像文書特徴DB20に画像文書ごとに格納する。
画像文書特徴DB20には、見出し領域初期処理部18にて抽出された見出し領域Tに含まれる文字列の画像の特徴情報が、文字列を構成する各文字それぞれの特徴(特徴ベクトル)として格納される。
図17に示ように、1つの画像文書50に対して、抽出された全ての見出し領域T1、T2、T3…に含まれる文字列の文字画像の特徴、つまり文字列を構成する各文字の文字画像の特徴が、画像文書50の文書IDと共に格納される。
次に、インデックス情報作成処理を実施するインデックス情報生成部32を構成する、文字画像特徴抽出部14、字形特徴辞書15、特徴マッチング部16、インデックス情報DB17、画像文書特徴DB20について説明する。
文字画像特徴抽出部14、字形特徴辞書15、画像文書特徴DB20の機能は既に説明したとおりである。
特徴マッチング部16は、画像文書特徴DB20より画像文書の見出し領域Tに含まれる文字画像の特徴を読み出し、該読み出した特徴に基づいて、字形特徴辞書15を参照して後述するようにインデックス行列を作成して、画像文書のインデックス情報を生成するものである。
ここで、インデックス情報が1つの画像文書に対して1つ生成され、インデックス情報に含まれるインデックス行列は、見出し領域T毎に作成される。したがって、1つの画像文書内に見出し領域Tが複数ある場合は、当該画像文書のインデックス情報の中に複数のインデックス行列が含まれることとなる。
図15に、インデックス情報DB17を作成する処理を示す。上述したように、ある画像文書が入力されて画像文書DB19に格納されると、文字画像特徴取出部14bが、各見出し領域Tに含まれる文字列の文字画像の特徴を抽出して、画像文書特徴DB20に格納する。
特徴マッチング部16は、画像文書特徴DB20より、各見出し領域Tに含まれる文字列の画像の特徴を読み出し、単文字ごとに字形特徴辞書15内の基準文字画像と適合を行って、見出し領域Tそれぞれのインデックス行列を作成する。
そして、特徴マッチング部16は、これらインデックス行列に、当該画像文書のその他の情報である、文書IDや画像文書DB19内における該当する画像文書の保存位置の情報などを含めてインデックス情報とし、インデックス情報DB17に格納する。
図16に、特徴マッチング部16によるインデックス行列を作成する処理の一例を示す。図16は、図17における見出し領域T3に含まれる文字列「去神仙居住的地方」の8つの文字画像について、インデックス行列を作成する説明図である。
文字列『去神仙居住的地方』は、「去」「神」「仙」「居」「住」「的」「地」「方」の1文字画像に分割される。このような文字列の画像を1文字ずつの画像に分割する処理は、従来よくある方法を利用できる。
「去」…「地」の8文字には、並び順に従い、「去」には1、「神」には2、…「方」には8というように、1〜8までの番号が付される。この番号は、インデックス行列の行番号に相当する。
このような8つの文字画像全てに対して、図16に参照符号Aにて示す、画像文書特徴DB20より格納されている文字画像「去」に対する特徴を取り出し(S1)、字形特徴辞書15を参照して特徴が近い(適合度が高い)順に、N個の候補文字を選択する(S2)といった処理が実施される。
適合度の高い順に抽出されるN個の候補文字には、抽出順序に応じた番号が付され、これがインデックス行列の列番号に相当する。そして、検索キーワードに含まれる各検索文字と候補文字との適合度を示す文字相関値(相関値)は、この列番号に応じて設定されている。
図16に、参照符号100にて示すテーブルは、文字列『去神仙居住的地方』のインデックス行列の内容を示している。たとえば、5文字目の「住」の文字画像に対しては、行番号5の行に適合度の高い1列目から順に、「任」,「佳」,「住」,…「仁」の候補文字が抽出されている。テーブル100において、たとえば候補文字「去」のインデックス行列内の位置は[1,1]、候補文字「屑」の位置は[4,2]、候補文字「仁」の位置は[5,N]となる。
なお、図16のテーブル100では、理解を助けるために、文字列の各文字に対応する候補文字に対しては○を付して示している。
このようなインデックス行列の行数Mは、見出し領域初期処理部18が見出し領域Tとして抽出した文字列の画像の文字数にて決まる。また、列数Nは、1文字について選出する候補文字数にて決まる。したがって、本発明によれば、インデックス行列の次元数(列数)を変えることで、インデックス行列内の要素数、つまり、候補文字数量を柔軟に設定することができる。そのため、画像文書の検索において、正確でほぼ漏れのない検索を行うことができる。
インデックス行列において、選択された候補文字の情報の持たせ方は、検索キーワードの入力方法に応じて適宜設定することができる。たとえば、検索キーワードをキーボード1より入力する構成であれば、キーボード1から入力された検索キーワードに対して検索を掛けることができるように、候補文字を文字コードなどの情報で格納する。
また、イメージスキャナ2などを用いて検索キーワードをイメージデータにて入力する構成であれば、検索キーワードの特徴(特徴ベクトル)を抽出し、特徴ベクトル同士を比べて掛けることができるように、候補文字を特徴(特徴ベクトル)の情報で格納すればよい。
図17に、インデックス情報DB17におけるインデックス情報のデータ配置例を示す。複数の見出し領域T1,T2,T3…Tnが存在する画像文書50のインデックス情報では、複数の見出し領域T1,T2,T3…Tnに対して作成されたインデックス行列が線形に配置される。図17の例では、文書IDが先頭に配置され、続いて、複数のインデックス行列が配列され、最後に保存位置の情報が配置されている。ここで、5×Nは、インデックス行列のサイズを示しており5行N列であることを示している。
インデックス情報をこのようなデータ配置としておくことで、画像文書DB19内の画像文書の格納位置と、画像文書中の見出し領域Tの位置を迅速に定位して、検索結果の表示に用いることができる。
またインデックス情報は、複数の見出し領域T1,T2,T3…Tnの位置の情報を含む。これらの位置の情報は、前記図5Aのステップa5,a9での位置情報の分析、前記図5Bのステップa15,a19での位置情報の分析、および前記図5Cのステップa25での位置情報の分析に利用される。また、実際の要求に従って、インデックス情報に画像文書の他の属性、たとえば文字画像のサイズを追加することもできる。
次に、インデックス情報を用いた検索処理を実施する検索部22について説明する。図18は、検索部22の機能と検索処理とを示す説明図である。検索部22は、インデックス行列検索処理部22a、文字相関値保存部(保存部)22b、相関度算出部22c、表示順序決定部(順序決定部)22d、及び画像文書抽出部22eを含む。
インデックス行列検索処理部22aには、キーワード入力部24より検索キーワードが入力される。キーワード入力部24としては、前述したキーボード1或いはイメージスキャナ2などが相当する。
インデックス行列検索処理部22aは、インデックス情報DB17に対して検索を行い、入力された検索キーワードを含むインデックス行列を検出するものである。インデックス行列検索処理部22aは、検索キーワードを1文字ごとに分割し、各検索文字を含むインデックス行列を探し、検索文字が含まれている場合は、当該検索文字のインデックス行列内の適合位置の情報を取得する。なお、インデックス行列の抽出手順例については、図19のフローチャートを用いて後述する。
文字相関値保存部22bは、インデックス行列検索処理部22aにて取得された適合位置の情報と、該適合位置の列番号に応じた文字相関値を保存するものである。
相関度算出部22cは、インデックス行列検索処理部22aにおける全てのインデックス行列に対する検出が完了すると、検出されたインデックス行列と検索キーワードとの相関度を算出するものである。
相関度の算出は、文字相関値保存部22bに保存されている適合位置及び文字相関値の情報を用い、予め設定されている相関度算出方法に従うことで算出する。相関度の算出については、図20、図21を用いて後述する。
なお、ここでは、文字相関値保存部22bが、適合位置の情報と、該適合位置の列番号に応じた文字相関値を保存する構成としていたが、文字相関値保存部22bは、適合位置のみを保存し、相関度算出部22cが、適合位置の情報より文字相関値を取得する構成としてもよい。
表示順序決定部22dは、相関度算出部22cにて算出された相関度の情報を基に、表示順序を決定するものである。表示順序決定部22dは、相関度の高いインデックス行列を含む画像文書より順に、画像文書の内容が検索結果表示部25に表示されるように表示順序を決定する。
画像文書抽出部22eは、表示順序決定部22dにて決定された順序に従い画像文書が表示されるように、画像文書DB19より画像文書のイメージデータを読み出し、検索結果表示部25に出力して表示させるものである。
検索結果表示部25は、表示順序に従い画像文書を表示する。サムネイル表示などであってもよい。検索結果表示部25としては、前述した表示装置3などが相当する。
ここで、検索手順について説明する。図19は、検索部22における検索手順を示すフローチャートである。R個の文字列よりなる検索キーワードが入力され、検索が指示されると、インデックス行列検索処理部22aは、まず、検索キーワードの第1番目の検索文字を取り出す(S11)。
次に、インデックス行列検索処理部22aは、インデックス情報DB17内の全てのインデックス行列に対して、第1番目の検索文字を検索する(S12)。
全てのインデックス行列に対する検索が完了すると、第1番目の検索文字を検索できたかどうかを判断し、1つも検索できなかった場合はS10に移行し、検索できた場合はS14に進む。
S14においては、インデックス行列検索処理部22aが、第1番目の検索文字が含まれていたインデックス行列における適合位置と文字相関値とを、文字相関値保存部22bに保存する。
続いて、インデックス行列検索処理部22aは、第1番目の検索文字が含まれていた全てのインデックス行列を取り出す(S15)。そして、検索キーワードの次の文字である第2番目の検索文字を取り出し、S15で取り出した第1番目の検索文字を含んでいたインデックス行列に対して検索する(S16)。
S15で取り出した全てのインデックス行列に対する検索が完了すると、第2番目の検索文字を検索できたかどうかを判断し(S17)、1つも検索できなかった場合は上記と同様にS19に移行し、検索できた場合はS18に進む。
S18においては、インデックス行列検索処理部22aが、第2番目の検索文字が含まれていたインデックス行列における適合位置と文字相関値とを、文字相関値保存部22bに保存する。
続いて、インデックス行列検索処理部22aは、再度S16に戻り、検索キーワードのさらに次の文字である第3番目の検索文字を取り出し、S15で取り出した第1番目の検索文字を含んでいたインデックス行列に対して検索する。
そして、ここでも、検索が完了すると、インデックス行列検索処理部22aは、第3番目の検索文字を検索できたかどうかを判断し(S17)、1つも検索できなかった場合はS19に移行し、検索できた場合は再度S18に進み、検索キーワードのさらなる次の検索文字についての検索を行う。
このようなS16〜S18までの処理、つまり、S15にて抽出した、第1番目の検索文字が含まれているインデックス行列を対象とした、第2番目以降の各検索文字の絞り込み検索を、インデックス行列検索処理部22aは、S17で文字を1つも検出できなかったと判断するか、検索キーワード内の全検索文字に対しての検索が完了したと判断するまで行い、その後、S19に移行する。
S19では、検索キーワードにおける次の文字である第2番目の検索文字を取り出す。次いで、検索文字が終わりか、つまり、全ての検索文字に対して検索を終えたかどうを判断し(S20)、終わっていない場合は、S12に戻る。
そして、上記と同様にして、インデックス行列検索処理部22aは、インデックス情報DB17内の全てのインデックス行列に対して、第2番目の検索文字を検索する。検索できた場合は、インデックス行列の適合位置と文字相関値を保存した上でS15に進み、第2番目の検索文字を含んでいる全てのインデックス行列に対して、検索キーワードの次の文字、つまり、第2番目の次である第3番目以降の各検索文字に対して、S16〜S18を繰り返し行って絞り込み検索を行う。
インデックス行列検索処理部22aは、上記のような検索を、S19で検索文字を一つ進め、進めた検索文字を含むインデックス行列を取り出し、それ以降の検索文字にて絞り込みを掛けるといった処理を、第3番目以降の各検索文字についても順次行う。
そして、S19にて検索キーワード内の全ての検索文字について取り出しを終え、S20にて、全ての検索文字に対して検索を終了したと判断した場合は、S21に進む。
S21では、相関度算出部22cが、検索キーワードと各インデックス行列との相関度を、後述するように相関度基準にしたがって算出する。
そして、表示順序決定部22dが相関度の高いインデックス行列を含む画像文書より表示されるように表示順序を決定し、画像文書抽出部22eが画像文書DB19より画像文書のイメージデータを取得し、検索結果表示部25が相関度の高い順に画像文書を表示する(S22)。
続いて、図20、図21を用いて、相関度算出部22cにおける相関度基準にしたがった、インデックス行列と検索キーワードとの相関度算出方法について説明する。
図20の参照符号101のブロックには、検索条件を記載している。そして、参照符号102のブロックには、相関度を計算するためのある仮定の検索キーワードとインデックス行列との相対関係を記載している。ブロック101に示した検索条件で、検索キーワードとインデックス行列とが、ブロック102に示すような相対関係であった場合、検索キーワードとインデックス行列の相関度は、ブロック103にて示されるような計算式にて算出されることとなる。
まず、ブロック101の検索条件について説明する。検索キーワードの文字数はR個であり、第1番目の検索文字がC1、第2番目がC2、…、第R番目がCrである。
検索対照となるインデックス行列はM×N次行列である。つまり、見出し領域Tとして切り出された文字列画像の文字数がM個であり、文字列の各文字それぞれの候補として選択された候補文字数がN個である。
検索文字と各候補文字との相関値である文字相関値は、インデックス行列の各位置に応じて定められているので、インデックス行列と同じ次数の行列となる。つまり、文字相関値行列Weightは、M×N次行列である。たとえば、Weight[i][j]は、インデックス行列における位置[i,j](=Index[i][j])にある候補文字が適合された場合の文字相関値を表している。本実施の形態では、インデックス行列の列番号[j]が同じであれば、行番号[i]に関わらず、文字相関値は同じである。
行の相関度加重因子Qは、インデックス行列における隣接する2行にわたって、検索文字が適合した場合に、それら2行の文字相関値に加えられる加重である。隣接する2行にわたって検索文字が適合する場合、検索キーワードの連続する2文字を含んでいる可能性が高い。
行の相関度加重因子Qを高く設定すると、相関度算出部22cが算出する相関度への貢献度が、連続的に適合された2行の文字相関値では大きくなるが、隣接しない各行の文字相関値では小さくなる。つまり、行の相関度加重因子Qを高く設定することで、語彙を一つの単位として検索した結果に近づくようになり、逆に行の相関度加重因子Qを小さくすることで、字を1つの単位として検索した結果に近づくようになる。
検索文字C1が適合した文字相関値はW1、検索文字C2が適合した文字相関値はW2,…、検索文字Crが適合した文字相関値はWrとして表す。
続いて、ブロック102に示す、相関度を計算するために仮定した、検索キーワードとインデックス行列との相対関係について説明する。
検索キーワードとインデックス行列とは、全ての検索文字C1,C2,…Crがインデックス行列内の何れかの候補文字と適合する関係にある。検索文字C1,C2,…Crが適合した各候補文字のインデックス行列内の位置、つまり適合位置を、[C1i,C1j],[C2i,C2j],…[Cri,Crj]として表す。
そして、さらなる相対関係として、ブロック102に示す式(1)、
C(k+1)i=Cki+1,C(m+1)i=Cmi+1(m>k)…(1)
の関係にある。
該式において、k,mは、検索キーワードを構成する各検索文字の相対位置を表している。また、C(k+1)iは、検索キーワードの第k+1番目の検索文字が適合した候補文字のインデックス行列内の行番号を示し、Ckiは、検索キーワードの第k番目の検索文字が適合した候補文字のインデックス行列内の行番号を示している。
したがって、C(k+1)i=Cki+1は、検索キーワードの第k+1番目の検索文字が適合した候補文字のインデックス行列内の行番号が、検索キーワードの第k番目の検索文字が適合した候補文字のインデックス行列内の行番号に1を加算したものと同じであることを示している。換言すると、C(k+1)i=Cki+1は、検索キーワードの第k+1番目の検索文字と第k番目の検索文字とが、インデックス行列における隣接した2行にそれぞれ適合する関係にあることを示している。
C(m+1)i=Cmi+1も同様であり、検索キーワードの第m+1番目の検索文字と第m番目の検索文字とが、インデックス行列における隣接した2行にそれぞれ適合する関係にあることを示している。
検索キーワードとインデックス行列とが、このような相対関係にある場合、検索キーワードとインデックス行列との相関度は、ブロック103に示す式(2)にて算出される。
SimDegree=W1+W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+Wr …(2)
該式において、W1は、第1番目の検索文字C1が適合した文字相関値であり、W2は第2番目の検索文字C2が適合した文字相関値、W(k−1)は、第(k−1)番目の検索文字C(k−1)が適合した文字相関値である。同様にして、W(k)は、第k番目の検索文字Ckが適合した文字相関値であり、W(k+1)は、第(k+1)番目の検索文字C(k+1)が適合した文字相関値である。また、W(m−1)は、第(m−1)番目の検索文字C(m−1)が適合した文字相関値である。同様にして、W(m)は、第m番目の検索文字Cmが適合した文字相関値であり、W(m+1)は、第(m+1)番目の検索文字C(m+1)が適合した文字相関値である。そして、最後のWrは、第r番目の最後の検索文字C1が適合した文字相関値である。
このように、相関度の算出においては、検索キーワードを構成する全検索文字の文字相関値Wが積算(累計)される。
そして、式(2)におけるQ*(Wk+W(k+1))は、検索キーワードにおける第k番目の検索文字Ckと第(k+1)番目の検索文字C(k+1)とが、インデックス行列における隣接した2行にそれぞれ適合しているので、文字相関値Wkと文字相関値W(k+1)とに行の相関度加重因子Qが掛け合わされていることを示している。Q*(Wm+W(m+1))についても同様である。
なお、検索キーワードの第k−1番目の検索文字と第k番目の検索文字は、隣接した2行に適合する関係にはないため、W(k−1)とWkとの両方に対して相関度加重因子Qを掛け合わせてはいない。W(m−1)とWmについても同様である。
ところで、図20のブロック102に示した検索キーワードとインデックス行列との相対関係では、全ての検索文字C1、C2、…Crがインデックス行列内の何れかの候補文字と適合する関係にあるとしたので、式(2)においては、W1〜Wrまでの全ての検索文字の文字相関値が累積されている。
しかしながら、これは一例であり、たとえば、式(1)の相対関係を有するものの、検索文字C1と検索文字Crとがインデックス行列内の何れの候補文字にも適合しなかった場合の相関度を算出する式は、次式のようになり、累積項が少ない分、当然その相関度は低くなる。
SimDegree=W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+W(r−1)
また、全ての検索文字C1、C2、…Crがインデックス行列内の何れかの候補文字と適合する関係にあり、かつ、検索キーワードの第k+1番目の検索文字と第k番目の検索文字、及び、第k+2番目の検索文字と第k+1番目の検索文字とが、それぞれ隣接した2行に適合する関係にある場合、相関度を算出する式は次式のようになるであろう。
SimDegree=W1+W2+…+W(k−1)
+Q*(Wk+W(k+1)+W(k+2))…+WR
この場合も、検索キーワードの第k−1番目の検索文字と第k番目の検索文字は、隣接した2行に適合する関係にはないため、W(k−1)とWkとの両方に対して相関度加重因子Qを掛け合わせてはいない。
次に、図21を用いて、相関度計算の具体例を説明する。ここでは、図16に示した、文字列『去神仙居住的地方』のインデックス行列(テーブル100参照)と、検索キーワード『神仙』との相関度を求める。
図21のブロック104に検索条件を示す。相関値行列WeightはM×N次,文字相関値はWeight[i]=[1,1−1/N,1−2/N,…,1/N](i=0,1,…,M−1),行の相関度加重因子Qである。
検索キーワード『神仙』は、それぞれ、第1番目の検索文字である『神』と第2番目の検索文字である『仙』とに分割され、それぞれに対してインデックス行列内の候補文字に対して検索される。
図16のテーブル100を参照すると分かるように、検索文字である『神』は、インデックス行列における位置[i,j]の[2,2]に適合し、検索文字である『仙』は、インデックス行列における[3,1]に適合する。
したがって、ブロック105に示すように、検索文字『神』の文字相関値は(1−1/N)、検索文字『仙』の文字相関値は1となる。
そして、検索文字『神』の行番号は[2]であり、検索文字『仙』の行番号は[3]であり、図16のテーブル100に示すように、これら2つの検索文字は、インデックス行列における隣接した2行にそれぞれ適合している。
したがって、ブロック106に示すように、検索文字『神』の文字相関値(1−1/N)と検索文字『仙』の文字相関値1には、行の相関度加重因子Qが掛け合わされ、検索キーワードの『神仙』と文字列『去神仙居住的地方』のインデックス行列との相関度は、 SimDegree=Q*((1−1/N)+1)となる。
検索キーワードとインデックス行列との相関度は、相関値行列における加重(文字相関値)と行の相関度加重因子Qなどのパラメータを、ユーザの要望にしたがって柔軟に調整することで、より理想的な検索結果を得ることができる。
ユーザは、キーボード1などを用いて、相関値行列における加重(文字相関値)と行の相関度加重因子Qなどのパラメータを必要に応じて適宜設定することができる。
そして、このような画像特徴によるインデックスと適合方式は、多言語の画像文書のインデックスと検索を満足できる、文字認識を行わず、計算量が少ない。本発明は中国語に限らず各種言語の画像文書に応用できる。
続いて、語彙解析機能(語義分析機能)付き検索処理について説明する。図10にも示すように、本実施の形態の画像文書処理装置10では、キーワード入力部24と検索部22との間に、語彙解析部23が設けられている。図22に語彙解析機能付きの検索処理を示す。
語彙解析部23は、語義分析処理部23aと語義辞典23bとから構成される。語義分析処理部23aは、キーワード入力部24から検索キーワードが入力されると、語義辞典23bを参照して、検索キーワードの語彙を分析する。
たとえば、検索キーワードとして「中日関係」が入力されると、語義分析処理部23aは、「中日関係」に関連する単語として、たとえば「中国」,「日本」,「関係」の3つを検索部22の入力する。これら「中国」,「日本」,「関係」はorの関係にあり、検索式は、「中国」or「日本」or「関係」となる。
検索部22には、該検索式「中国」or「日本」or「関係」が入力され、検索部22は、インデックス情報DB17に対して検索を掛け、「中国」を含む画像文書、「日本」を含む画像文書、及び「関係」を含む画像文書を抽出する。
これにより、入力された検索キーワードが直接的に含まれている画像文書だけでなく、関連の画像文書も検索できる。
次に、画像文書管理処理を実施する画像文書管理部57について説明する。画像文書管理部57は、文字画像特徴抽出部14、字形特徴辞書15、特徴マッチング部16、見出し領域初期処理部18、画像文書DB19、画像文書特徴DB20、文書名作成部51、画像文書DB管理部52、画像文書表示部53、指示入力部54により構成されており、これらについて説明する。
文字画像特徴抽出部14、字形特徴辞書15、特徴マッチング部16、見出し領域初期処理部18、画像文書DB19、画像文書特徴DB20の機能については既に説明している。ここでは、意味のある文書名を作成して画像文書特徴DB20の画像文書を管理する画像文書管理処理を実施するためにさらに必要な機能のみ、適宜説明する。
図23を用いて画像文書管理処理を説明する。イメージスキャナ2やデジタルカメラ6にて構成される画像文書入力部21より、第1画像文書〜第N画像文書が入力される。
入力された第1画像文書〜第N画像文書に対し、見出し領域初期処理部18が、それぞれの画像文書の内容を分析して、見出し領域を切出して文字列を取得する。続いて、図示してはいないが、文字画像特徴抽出部14が、前記と同様に、切出された見出し領域に含まれる文字列の文字画像を1文字ごとに分割して各文字画像の画像特徴を抽出する。
そして、このように抽出された文字列画像の画像特徴を基に、字形特徴辞書15および特徴マッチング部16からなる候補文字列生成部55が、画像特徴の適合度が高い文字画像を候補文字として選択して、切出された見出し領域に含まれる文字列に応じた候補文字列を作成するとともに、語彙解析法を用いて該候補文字列を構成する各候補文字を調整して意味のある候補文字列とする。
より具体的に言うと、候補文字列生成部55は、文字画像特徴抽出部14によって抽出された文字画像の画像特徴を基に、字形特徴辞書15により、画像特徴の適合度が近い順にN個(N>1の整数)の文字画像を候補文字として選択し、前記文字列の文字数をM個(M>1の整数)とした場合に、M×N次のインデックス行列を作成する。これは、前述した特徴マッチング部16の処理である。
次に、特徴マッチング部16は、作成したインデックス行列に基づいて、該インデックス行列における第1列目に位置する各行の候補文字を順に連ねた候補文字列を作成する。そして、この候補文字列を構成する連続する各行の候補文字によりなる単語の語義を解析し、候補文字列が意味をなすように各行の第1列目の候補文字を調整する。
図24に、作成したインデックス行列を調整して第1列目の文字列が意味のある文字列となるように、語彙解析法を用いて調整した具体例を示す説明図である。
図24の上部に示す調整前のインデックス行列109は、図16にテーブル100にて示したインデックス行列と同じである。インデックス情報DB17にはこの状態で格納されている。このようなインデックス行列109により作成される候補文字列は「去伸仙居任酌地方」となり意味を成さない。
意味ある文書名として利用する候補文字列は、主語、述語、および目的語の接続詞関係等が意味的に正しくなければならない。そこで、語彙解析により、意味のある候補文字列に変換する。具体例には、複数のエラー候補文字に対し、概念辞書を使用し、複数のエラー候補文字と、候補テキストの他の単語との間の意味情報を分析し、候補文字列を意味ある文字列に修正する。
このような語彙解析に用いられる言語モデル61は、大規模のコーパスには、中国語新聞、ネットページ、及び各種メディアの関連データが含まれる。たとえば、実装例として、Bi−gramモデル(言語モデル)を使用することができる。Bi−gramは、2つの文字、2つの音節、または2つの単語のグループであり、テキストの簡単な統計分析の基礎として非常に一般的に使用される。シンボル系列で示した場合、各シンボルの外観を、独立事象とし、上記シンボル系列の確率を、以下のとおり定義する。
なお、上記の機能の分解に、確率の連鎖法則を使用できる。中国語を、(N−1)オーダマルコフ連鎖とする(シンボルの確率は、N−1オーダシンボルの前出を条件とする)。この言語文字はN−gramモデルと称される。
確立的なN−gramモデルの使用は、長く好結果をもたらす統計的な自然言語処理を含んでいる。N−gramは、テキストの大きい文書全般(コーパス)中の文字および単語の共起を用いて得られる統計から通常構成され、文字連鎖または単語連鎖の確立を規定する。N−gramには、通常、直接、コーパスから抽出する場合より、はるかに大きい言語をカバーできるという利点がある。言語モデルへのアプリケーションでは、コンピュータの制限と制限のない言語の特性(文字、単語は無限に存在する)のため、N=2と設定し、bi−gramモデルとする。
図24の下部に、調整後のインデックス行列110を示す。第2行目の第1列目の「伸」がエラー候補文字として、第2列目の「神」に置き換えられている。同様に、第5行目の第1列目の「任」が第3列目の「住」に置き換えられている。そして、第6行目の第1列目の「酌」が、その前後の「居住」と「地方」との関連性から鑑みてエラー候補文字であるとして、第2列目の「的」に置き換えられている。
このようなインデックス行列110の第1列目に含まれる候補文字列は、「去神仙居住的地方」となり、意味を成す。なお、特徴マッチング部16は、このような調整後のインデックス行列110をインデックス情報DB17に格納するようにしてもよい。
再び、図23に戻り、候補文字列生成部55にてこのように生成された意味のある候補文字列は、文書名作成部51に送られる。
文書名作成部51は、入力された画像文書に対して、候補文字列生成部55にて生成された意味のある候補文字列を含めた文書名を作成する。この意味のある候補文字列が含まれた文書名を、以下においては「意味のある文書名」と称する。
文書名作成部51には、時間データ等発生部60から、画像文書が入力された時間および入力経路を示すデータ等のその他のデータも入力されるようになっている。文書名作成部51は、時間データ等発生部60から入力される時間データを少なくとも含むその他のデータを用いて、書類名を生成することもできる。
たとえば、時間データ等のその他のデータのうち、時間データを意味のある文書名に含め、意味のある文書名を、時間データと意味のある候補文字列よりなる構成としてもよい。
あるいは、時間データ等のその他のデータを用いて、同じ画像文書に、別の文書名を作成してもよい。時間データ等のその他のデータ等にて構成された文書名を、以下、オリジナル文書名と称する。
このような構成とすることで、1つの画像文書を、意味のある文書名と、時間データ等のその他のデータ等にて構成されたオリジナル文書名とで管理することが可能となる。
個々の画像文書に対して生成された意味のある文書名、およびオリジナル文書名は、画像文書DB管理部52に送られ、画像文書DB19に、画像文書のイメージデータに対応させて格納される。
画像文書DB管理部52は、キーボード1等により構成される図10に示す指示入力部54を用いて、画像文書DB19に蓄積されている画像文書の閲覧指示等がユーザよりなされると、表示装置3等より構成される図10の画像文書表示部53に、閲覧画面を表示する。
図25に、画像文書表示部53に表示される、画像文書DB19に格納されている画像文書の閲覧画面の一例を示す。
図において、左側に示されている画面201は、蓄積されている画像文書がオリジナル文書名にて一覧表示されている状態を示す。画面201の上には、各画像文書の入力順を示している。紙面一番手前にある「AR C262M 20060803 103140」とのオリジナル文書名が付されている画像文書が、この画面にて、最も先に入力された画像文書となる。「20060803」は入力日(2006年8月3日)を表し、「103140」は時間(10時31分40秒)を表している。
このような表示状態において、画面に表示されている「意味のある文書名」のタグを選択するなどの操作にて、閲覧画面の表示は、図において、右側に示されている画面202へと遷移する。画面202は、蓄積されている画像文書が意味のある文書名にて一覧表示されている状態を示す。
この画面202は、画面201に対応しており、ここでも、画面201の上部に示す、紙面一番手前にある「定格惠州西湖」との意味のある文書名が付されている画像文書が、この画面にて、最も先に入力された画像文書である。
このように、意味のある文書名にて閲覧できることにより、ユーザによる蓄積された画像文書の管理やサーチが容易に実施できるようになる。また、オリジナル文書名も併せて作成されることで、時間データ等の情報も、書類名と同時にみることができる。
なお、本画像文書処理装置10においては、作成したインデックス行列を用いてインデックス情報を作成し、検索処理に用いる。そのため、見出し領域初期処理部18は、画像文書に含まれる複数の見出し領域Tを抽出し、それぞれにインデックス行列を作成するようになっている。しかしながら、画像文書に意味のある文書名を作成することのみを目的とするのであれば、画像文書に含まれる複数の見出しを抽出してそれぞれにインデックス行列を作成する必要はない。
つまり、画像文書を最もよく表す見出し領域に含まれる見出しの文字列(文字画像列)に対してインデックス行列を作成し、これに基づき、特徴がマッチする文字列を使用して、意味の持つ名称を作成するように構成すればよい。
画像文書を最もよく表す見出し領域としては、たとえば、抽出された複数の見出し領域のうち、画像文書の一番上の行に存在するものとすることができる。これは、重要な見出しは、画像文書の一番上の行に配されることが多いためである。
また、見出し領域に含まれる文字のサイズが、ある閾値より大きく、抽出された他の見出し領域のものよりも大きいものとすることもできる。これは、重要な見出しは、他の見出しよりも大きな文字のサイズにて記載されることが多いためである。
あるいは、見出し領域に含まれる文字のフォント(字形)タイプが、抽出された他の見出し領域のものと異なるものとすることもできる。これは、重要な見出しは、他の見出しとは異なるフォント(字形)にて記載されることが多いためである。なお、これら以外の基準を付加することもでき、また、各基準は、個々に用いてもよいし、組合わせて用いてもよい。
また、本画像文書処理装置10のように、1つの画像文書について、複数の見出し領域を抽出し、それぞれにインデックス行列を作成する構成では、見出し領域の配置位置や、文字サイズ、あるいはフォントにて、最も重要な見出し領域のインデックス行列を特定するようにすればよい。また、特に、このような場合であれば、抽出された複数の見出し領域のインデックス行列より、最も頻出する単語が候補文字列に含まれるように作成することも好ましい。
最後に、画像文書処理装置10の各ブロック、特に、字体正規化処理部12、文字画像特徴抽出部14、特徴マッチング部16、見出し領域初期処理部18、検索部22、語彙解析部23、文書名作成部51、画像文書DB管理部52等は、ハードウエアロジックによって構成してもよいし、次のようにCPUを用いてソフトウエアによって実現してもよい。
すなわち、画像文書処理装置10は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリなどの記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである画像文書処理装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像文書処理装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、たとえば、磁気テープやカセットテープなどのテープ系、フロッピー(登録商標)ディスク/ハードディスクなどの磁気ディスクやCD−ROM/MO/MD/DVD/CD−Rなどの光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カードなどのカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROMなどの半導体メモリ系などを用いることができる。
また、画像文書処理装置10を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、たとえば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網などが利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、たとえば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線などの有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形態で実施できる。したがって、前述の実施形態はあらゆる点で単なる例示に過ぎず、本発明の範囲は特許請求の範囲に示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲に属する変形や変更は全て本発明の範囲内のものである。