JP3979288B2 - 文書検索装置および文書検索プログラム - Google Patents

文書検索装置および文書検索プログラム Download PDF

Info

Publication number
JP3979288B2
JP3979288B2 JP2002376261A JP2002376261A JP3979288B2 JP 3979288 B2 JP3979288 B2 JP 3979288B2 JP 2002376261 A JP2002376261 A JP 2002376261A JP 2002376261 A JP2002376261 A JP 2002376261A JP 3979288 B2 JP3979288 B2 JP 3979288B2
Authority
JP
Japan
Prior art keywords
character
image data
candidate
document
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002376261A
Other languages
English (en)
Other versions
JP2004206521A (ja
Inventor
英俊 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002376261A priority Critical patent/JP3979288B2/ja
Publication of JP2004206521A publication Critical patent/JP2004206521A/ja
Application granted granted Critical
Publication of JP3979288B2 publication Critical patent/JP3979288B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書検索装置および文書検索プログラムに関し、特に特定のキーワードを含む文書画像を検索して出力する文書検索装置および文書検索プログラムに関する。
【0002】
【従来の技術】
書籍に代表される紙等に書かれた情報から、必要な情報を抽出する方法の1つにOCR(光学式文字読み取り装置)を用いた方法がある。この方法では、紙等に書かれた画像に、OCRを用いて文字部分の抽出処理と抽出した文字部分の文字認識処理とを行ってテキストデータに変換する。このテキストデータを用いて文字列を検索することができる。
【0003】
また、変換したテキストデータと元の画像とを関連付けて記憶する場合もある。この場合、変換したテキストデータにコンピュータを用いてキーワード検索を行い、キーワードに応じて画像を出力することができる。
【0004】
しかし、OCRによる文字認識処理の精度は、文字情報が書かれた紙等の印刷の汚れ等にも左右されるため、文字認識処理に誤りが発生することが多い。文字認識処理に誤りが発生すると、コンピュータを用いたキーワード検索において、ユーザが必要な情報を検索できなかったり、誤った情報を検索してしまうことがある。
【0005】
そこで、文字認識処理結果の文字候補を複数個用意して、キーワード検索の漏れを防ぐ検索方法がある(例えば特許文献1。)。
【0006】
また、文書の文字認識処理結果と、検索に用いるキーワードとの照合を、文字認識処理結果の文字とキーワードの文字とについて行うことに加えて、文字認識処理結果の文字とキーワードの文字に誤認識しやすい文字とについても行い、そのいずれかに該当すれば、検索結果として文字認識処理結果の文字を抽出する文書検索方法および装置がある(例えば特許文献2。)。
【0007】
【特許文献1】
特開平8−069477号公報 (第4−6頁、第1図)
【特許文献2】
特開平7−152774号公報 (第4−9頁、第1図)
【0008】
【発明が解決しようとする課題】
特許文献1に記載されている方法は、文字認識処理の誤りによる情報の抽出漏れを防ぐ方法について開示している。しかし、文字認識処理の誤りによって、誤った情報を抽出してしまう。また、誤った検索結果を出力した場合であっても第一文字候補をそのまま保持するため、次回の検索でも誤った情報を抽出してしまう。
【0009】
特許文献2に記載されている方法も、文字認識処理の誤りによる情報の抽出漏れを防ぐ方法について開示しているが、文字認識処理の誤りによって、誤った情報を抽出してしまうという課題には触れられていない。
【0010】
そこで本発明は、入力されるキーワードに対応する文書画像の出力の精度を向上させることができる文書検索装置および文書検索プログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
本発明による文書検索装置は、文書を読み取って文書の画像データを生成する画像生成手段と、画像生成手段が生成した文書の画像データから文字を認識する文字認識処理を行って、画像データに対応するテキストデータを生成するテキストデータ生成手段と、テキストデータ生成手段が生成したテキストデータ内の文字のそれぞれに対して、文字との類似度が高い文字である文字候補を1つ以上特定して関連付けるとともに、テキストデータにおける文字と一致する度合を示す確信度が高い順に各文字候補を順位付ける文字候補特定手段と、画像生成手段が生成した画像データを、その画像データに対応するテキストデータ、およびテキストデータに含まれる各文字に関連付けられた各文字候補とともに格納する文書画像格納手段と、画像データの提供を希望するユーザによって入力された検索キーワードを構成する各文字と一致する文字候補からなる文字列候補を作成し、作成した文字列候補における各文字候補に関連付けられた各文字からなる文字列を含むテキストデータを文書画像格納手段から検索し、検索されたテキストデータに対応する画像データを文書画像格納手段から抽出する抽出手段と、抽出手段が抽出した画像データの出力順序を、テキストデータを抽出したときに使用した文字列候補の確信度にもとづいて決定し、決定した出力順序に従って、抽出手段が抽出した画像データをユーザに対して提供する画像データ出力手段と、ユーザに提供された画像データに含まれる文字列(具体的には、画像データに対応するテキストデータを検索する際に用いられた文字列候補に関連付けられた文字列)と検索キーワードとの合致度に関する情報をユーザから受け付ける誤認識情報受付手段と、合致度に関する情報に対応する画像データを抽出する際に用いられた文字候補(具体的には、画像データに対応するテキストデータを検索する際に用いられた文字列候補を構成する文字候補)の順位を変更する変更手段とを備えたことを特徴とする。
【0012】
変更手段は、合致度に関する情報によって検索キーワード内の文字と異なっていることが示された画像データに含まれる文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補の順位を下げてもよい。ここで、検索キーワード内の文字と異なっている文字候補は、文字認識処理結果が誤りであると考えられる。そのため、このような構成によれば、誤った文字認識処理結果による画像データの出力される順序が遅くなる。そのため他の画像データの出力される順序が早くなる。従って検索を繰り返すと、正しい文字認識処理結果の画像データが出力される順序が早くなり、検索精度を向上させることができる。
【0013】
変更手段は、合致度に関する情報によって検索キーワード内の文字と異なっていることが示された画像データに含まれる文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補を削除してもよい。ここで、検索キーワード内の文字と異なっている文字候補は、文字認識処理結果が誤りであると考えられる。そのため、そのような構成によれば、誤った文字認識処理結果による文字候補が削除されるため、次回同じ検索キーワードが入力された場合に、誤った文字認識処理結果による今回の画像データは出力されない。従って、検索精度を向上させることができる。
【0014】
変更手段は、合致度に関する情報によって検索キーワード内の文字と合致していることが示された画像データに含まれる文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補の順位を上げてもよい。ここで、この画像データの抽出時に用いられた文字候補は正しい文字認識処理の結果であると考えられる。そのため、そのような正しい文字認識処理結果による文字候補の順位を上げることにより、正しい文字認識処理結果による画像データの出力される順序は早くなる。従って、検索精度を向上させることができる。
【0015】
変更手段は、合致度に関する情報によって検索キーワード内の文字と合致していることが示された画像データに含まれる文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補以外の文字候補を削除してもよい。ここで、この画像データの抽出する際に用いられた文字候補は正しい文字認識処理の結果であり、同じ文字の他の文字候補は誤った文字認識処理の結果であると考えられる。そのため、そのような構成によれば、検索キーワード内の文字と異なる文字候補は、誤った文字認識処理結果であると判断でき、そのような誤った文字認識処理結果による文字候補を削除することにより、誤った文字認識処理結果による画像データは出力されなくなる。従って、検索精度を向上させることができる。
【0016】
変更手段は、合致度に関する情報によって検索キーワードと合致していることが示された画像データに含まれる文字列におけるそれぞれの文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補の順位を上げてもよい。ここで、画像データに含まれる文字列が検索キーワードと一致しているということは、検索キーワードと一致する文字候補の文字認識結果は正しいと考えられる。そのような構成によれば、検索キーワード内の文字は、正しい文字認識処理結果であると判断でき、そのような正しい文字認識処理結果による文字候補の順位を上げることにより、正しい文字認識処理結果による画像データの出力される順序は早くなる。従って、検索精度を向上させることができる。
【0017】
変更手段は、合致度に関する情報によって検索キーワードと合致していることが示された画像データに含まれる文字列におけるそれぞれの文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補以外の文字候補を削除してもよい。ここで、画像データに含まれる文字列が検索キーワードと一致しているということは、検索キーワードと一致する文字候補の文字認識結果は正しく、検索キーワードと一致しない文字候補の文字認識結果は誤りであると考えられる。そのため、そのような構成によれば、検索キーワード内の文字と異なる文字候補は、誤った文字認識処理結果であると判断でき、そのような誤った文字認識処理結果による文字候補を削除することにより、誤った文字認識処理結果による画像データは出力されなくなる。従って、検索精度を向上させることができる。
【0018】
画像データ出力手段は、検索キーワードにもとづいて抽出された複数の画像データのそれぞれを抽出する際に用いられた各文字列候補を構成する各文字候補の順位の平均値を文字列候補の平均値として算出してもよく、文字列候補の平均値の低い順に出力順序を定めてもよい。そのような構成によれば、テキストデータ内の文字と一致する確からしさの度合が高い文字列の順に画像データが出力され、検索精度を高くすることができる。
【0019】
画像データ出力手段は、通信回線を介して接続された情報処理端末に画像データを提供してもよい。そのような構成によれば、文書検索装置から遠隔地にある情報処理端末においても、通信回線で接続すれば画像データを表示することができ、文書内の文字と一致する確からしさの度合が高い文字列の順に画像データが表示される。
【0020】
画像データ出力手段は、画像データ上の、文字列候補における各文字候補に関連付けられた各文字からなる文字列の部分を、他の部分とは異なる形態にして出力してもよい。そのような構成によれば、ユーザは、画像データを検索する際に用いられた文字列を直ちに認識することができる。
【0021】
本発明による文書検索プログラムは、コンピュータに、文書を読み取って文書の画像データを生成する処理と、生成した文書の画像データから文字を認識する文字認識処理を行って、画像データに対応するテキストデータを生成する処理と、生成したテキストデータ内の文字のそれぞれに対して、文字との類似度が高い文字である文字候補を1つ以上特定して関連付けるとともに、テキストデータにおける文字と一致する度合を示す確信度が高い順に各文字候補を順位付ける処理と、生成した画像データを、その画像データに対応するテキストデータ、およびテキストデータに含まれる各文字に関連付けられた各文字候補とともに記憶装置に格納させる処理と、画像データの提供を希望するユーザによって入力された検索キーワードを構成する各文字と一致する文字候補からなる文字列候補を作成し、作成した文字列候補における各文字候補に関連付けられた各文字からなる文字列を含むテキストデータを記憶装置から検索し、検索されたテキストデータに対応する画像データを記憶装置から抽出する処理と、抽出した画像データの出力順序を、テキストデータを抽出したときに使用した文字列候補の確信度にもとづいて決定し、決定した出力順序に従って、抽出した画像データをユーザに対して提供する処理と、ユーザに提供された画像データに含まれる文字列と検索キーワードとの合致度に関する情報をユーザから受け付ける処理と、合致度に関する情報に対応する画像データを抽出する際に用いられた文字候補の順位を変更する処理とを実行させることを特徴とする。
【0022】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
【0023】
図1は本発明による実施の形態を示すブロック図である。本発明による文書検索装置8は、例えばサーバ等の情報処理装置である。文書検索装置8は、インターネット等の通信回線6を介して、クライアント端末7に接続される。画像データとその画像データに対応するテキストデータとを文書検索装置8内部のデータ記憶部5が保持する。文書検索装置8は、クライアント端末7から検索キーワードを受信すると検索キーワードに応じたテキストデータを検索し、そのテキストデータに対応する画像データを、データ記憶部5からクライアント端末7に送信する。
【0024】
クライアント端末7は、例えばパーソナルコンピュータ等の情報処理端末である。クライアント端末7は、ユーザが入力した検索キーワードを文書検索装置8に送信し、文書検索装置8から受信した画像データを表示する。また、クライアント端末7は、表示した画像データが検索キーワードに対応していない場合には、画像データとして表示した文字のうちどの文字が検索キーワードと合致していないのかを文書検索装置8に通知する。クライアント端末7は、ユーザの操作に従ってこの通知処理を行う。
【0025】
文書検索装置8において、スキャナ1は、紙等の媒体に記載された情報を読み取る入力装置である。プログラム記憶部3は、本発明による文書検索プログラムを記憶する記憶装置である。通信インタフェース4は、通信回線6を介してクライアント端末7と情報の送受信を行う。データ記憶部5は、制御部2が作成するデータを記憶する記憶装置である。またデータ記憶部5は、文字認識処理で用いられる文字認識辞書を記憶する。
【0026】
制御部2は、プログラム記憶部3が記憶する文書検索プログラムに従って処理を実行する。制御部2は、スキャナ1が読み取った情報の画像データを作成する。また、スキャナ1が読み取った情報に対して文字認識処理を行い、テキストデータを作成する。このとき、制御部2は、スキャナ1が読み取った情報が縦書きであるか横書きであるかを判断し、一文字毎にそのページの何文字目であるかを示す番号である文字番号を設定する。さらに、制御部2は、一文字毎に、その文字であろうと考えられる文字(類似度が高い文字)を文字候補として1つ以上特定する。また、特定時に、文書内の各文字が各文字候補と一致する度合いを示す確信度を示した文字認識評価情報を生成する。さらに、制御部2は、各文字候補が、各ページにおけるどの位置の文字の文字候補であるかを示す画像表示位置情報を生成する。なお、確信度は、例えば、1つの文字部分を構成する複数の画素における一致画素数(スキャナ1が読み取った情報にもとづく文字と文字候補との間の一致画素数)の全体画素数に対する比率で表すことができる。
【0027】
制御部2は、文字番号と、画像データと、文字候補と、各文字候補の文字認識評価情報と、画像表示位置情報とを、データ記憶部5に出力して記憶させる。このとき制御部2は、文字認識評価情報に基づいて、文書内の各文字が各文字候補と一致する度合いを示す確信度の順位を付けてデータ記憶部5に記憶させる。なお、各文字候補が文字番号とともに記憶されることによって、文字候補が文書内の文字に関連付けられたことになる。
【0028】
制御部2は、クライアント端末7から検索キーワードを受信すると、その検索キーワードと一致する文字列候補の有無を確認する。ここで文字列候補とは、各文字毎に定められた文字候補の文字列であって、検索キーワードと一致する文字列である。検索キーワードと一致する文字列である文字列候補が存在した場合、その文字列候補の元となった文字列が含まれるページの画像データをデータ記憶部5から取り出す。文字列候補の元となった文字列が含まれるページは、文字列候補がどのページについてのものかを示す情報を用いて判断することができる。制御部2はこの画像データを、通信回線6を介してクライアント端末7に出力する。
【0029】
さらに制御部2は、検索された文字列(例えば、画像データ内でマーキングされている文字列)が、入力した検索キーワードと一致していないとユーザが判断し、画像データに含まれている検索された文字列のうち、どの文字が検索キーワードと不一致かを示す合致度の情報をクライアント端末7から受信した場合には、データ記憶部5が記憶している内容を変更する。
【0030】
本実施の形態において、画像生成手段はスキャナ1によって実現される。テキストデータ生成手段と、文字候補特定手段と、抽出手段と、画像データ出力手段と、変更手段と、誤認識情報受付手段とは、制御部2によって実現される。文書画像格納手段は、データ記憶部5によって実現される。制御部2は、プログラム記憶部3に記憶される文書検索プログラムによって各手段として機能する。
【0031】
文書検索プログラムは、コンピュータに、文書を読み取って文書の画像データを生成する処理と、生成した文書の画像データから文字を認識する文字認識処理を行って、画像データに対応するテキストデータを生成する処理と、生成したテキストデータ内の文字のそれぞれに対して、文字との類似度が高い文字である文字候補を1つ以上特定して関連付けるとともに、テキストデータにおける文字と一致する度合を示す確信度が高い順に各文字候補を順位付ける処理と、生成した画像データを、その画像データに対応するテキストデータ、およびテキストデータに含まれる各文字に関連付けられた各文字候補とともに記憶装置に格納させる処理と、画像データの提供を希望するユーザによって入力された検索キーワードを構成する各文字と一致する文字候補からなる文字列候補を作成し、作成した文字列候補における各文字候補に関連付けられた各文字からなる文字列を含むテキストデータを記憶装置から検索し、検索されたテキストデータに対応する画像データを記憶装置から抽出する処理と、抽出した画像データの出力順序を、テキストデータを抽出したときに使用した文字列候補の確信度にもとづいて決定し、決定した出力順序に従って、抽出した画像データをユーザに対して提供する処理と、ユーザに提供された画像データに含まれる文字列と検索キーワードとの合致度に関する情報をユーザから受け付ける処理と、合致度に関する情報に対応する画像データを抽出する際に用いられた文字候補の順位を変更する処理とを実行させる。
【0032】
次に本実施の形態の動作について説明する。まず、紙等の媒体に書かれた情報が、データ記憶部5に記憶されるまでについて説明する。一例として10ページからなる文書のうち、3ページ目に「35」が記載されていた場合、具体的には、3ページ目のn文字目に「3」、n+1文字目に「5」が記載されていた場合を例にする。
【0033】
スキャナ1は、文書に書かれている文字を読み取り、読み取った情報を制御部2に出力する。制御部2は、スキャナ1が読み取った情報の画像データを生成する。このとき「35」を含む紙面上の情報は、画像データに変換される。そして制御部2は、画像データを、何ページ目の画像データであるかを示す情報とともにデータ記憶部5に出力する。データ記憶部5は、画像データを、何ページ目の画像データであるかを示す情報とともに記憶する。また制御部2は、スキャナ1が読み取った情報に文字認識処理を行う。制御部2は、スキャナ1が読み取った情報に基づいて、縦書きであるか横書きであるか判断し、個々の文字がそのページの何文字目の文字であるのかを特定して、何文字目であるのかを示す文字番号を設定する。そして個々の文字に対して、文字認識処理結果の候補となりうる文字候補を特定する。
【0034】
例えば「35」と記述された文書を読み取った場合、この2文字をそれぞれ取りだし、この2文字それぞれに対して文字候補を特定する。文書内の個々の文字に対する文字候補はひとつに限らない。また、各文字候補が文書内の実際の文字と一致する確からしさは、文書内の文字の記載状態によって変化する。従って、文書内の文字「3」の文字候補として「8」、「3」等が挙げられ、文字候補「8」の確からしさのほうが高いと判断される場合もある。また、以下の説明では、文書内に実際に記載されたある文字Xのことを、『文書内文字「X」』と記すことにする。
【0035】
制御部2は、一文字単位に読み取った文字を、あらかじめデータ記憶部5が記憶する文字認識辞書の文字と照合する。そして一致要素の大きい文字を文字認識辞書から選択して文字候補とする。各文字候補の数に制限はなく、各画像データの文字ごとに文字候補の数が違っていてもよい。例えば、文書内文字「3」の文字候補は「8」、「3」、「ろ」、「9」の4個であったとし、文書内文字「5」の文字候補は「6」、「5」、「ち」、「8」、「3」の5個であったとする。このように、文書内の各文字について候補である文字候補を1つ以上特定する。
【0036】
また、制御部2は、各文字候補が、文書内の各文字と同一文字であることの確からしさの度合を示した文字認識評価情報を生成する。文字認識評価情報は、あらかじめデータ記憶部5が記憶する文字認識辞書の文字と、スキャナ1が読み取って制御部2が切り出した文字とを照合して、一致の度合に基づいて決定する。ここで、文字認識評価情報の一例として数値で表した文字認識評価値による評価例を図2に示す。図2において、n行目には文書内文字「3」の各文字候補の文字認識評価値の例が示され、n+1行目には文書内文字「5」の各文字候補の文字認識評価値の例が示されている。文字認識評価値を用いると各文字候補に候補順位を付けることができる。例えば、文書内文字「3」の候補順位1位の文字候補は「8」であり、候補順位2位の文字候補は「3」である。このように、テキストデータにおける文字と一致する度合いを示す確信度が高い順に各文字の文字候補を順位付ける。
【0037】
さらに制御部2は、各文字候補が、各ページにおけるどの位置の文字の文字候補であるかを示す画像表示位置情報を生成する。この例では、画像表示位置情報は、X座標(例えば文字領域の左上の位置のX座標)、文字幅、Y座標(例えば文字領域の左上の位置のY座標)および文字高により示されているが、ページ内すなわち画像データ内の文字の位置が分かるものであればどのような情報により示してもよい。
【0038】
そして制御部2は、文字番号と、各文字候補と、各文字認識評価値と、各画像表示位置情報とをデータ記憶部5に出力する。データ記憶部5は、それらのデータを、どのページについてのデータであるかが分かるような形で、すなわち、どの画像データについてのデータであるかが分かるような形で記憶する。
【0039】
次にユーザが検索したい検索キーワードを入力して、検索キーワードを含む画像データの出力を行う検索動作について図3を参照して説明する。図3はこのときの動作を説明するフローチャートである。
【0040】
クライアント端末7はユーザから検索キーワードの入力を受け付ける(ステップS101)。例としてユーザが「35」と入力したとする。クライアント端末7は、ユーザが入力した文字列である検索キーワード「35」を通信回線6を介して文書検索装置8に送信する(ステップS102)。文書検索装置8において、通信インタフェース4が受信して制御部2に出力する。
【0041】
制御部2は、すべてのページについてデータ記憶部5が記憶している文字候補を組み合わせて、検索キーワードと一致する文字列である文字列候補を特定する(ステップS103)。このとき制御部2は検索漏れをなくすため、データ記憶部5が記憶している各文字について1つずつ文字候補を取りだし、それらを文字番号の順に組み合わせて文字列を生成し、検索キーワードと一致するか否かの判定を行う。その結果、文字候補「3」と文字候補「5」との組み合わせが検索キーワードと一致し、文字列候補「35」となる。このように、文字候補を組み合わせて検索キーワードと一致する文字候補からなる文字列候補を特定する。
【0042】
ここで、組み合わせに用いられる文字候補を、文字識別評価値による閾値で制限してもよい。例えば、文字識別評価値が50以上の文字候補の組み合わせによって文字列候補が特定されるとする。すると、文書内文字「3」の文字候補のうち文字識別評価値が50以上の文字候補は、「8」と「3」とであり、文書内文字「5」の文字候補のうち文字識別評価値が50以上の文字候補は、「6」と「5」とである。従って検索キーワードと一致するか否かの判定を行う文字候補の組み合わせは、「85」と「86」と「35」と「36」との4個に特定される。制限しなかった場合の文字候補の組み合わせは20個であるので、演算処理の負担を軽減することができる。
【0043】
制御部2は、データ記憶部5に記憶されている情報をもとに、文字列候補がどのページに存在するか判断する(ステップS104)。この例では、文字列候補「35」は3ページ目に存在していることが分かるので、制御部2は、データ記憶部5から3ページ目の画像データを取りだし、通信インタフェース4と、通信回線6とを介して、クライアント端末7に出力する(ステップS105)。結果、出力した画像データには「35」が書かれている。このように、検索されたテキストデータに対応する画像データを抽出する。なお、画像データにおいて、その画像データに対応するページ(テキストデータ)を特定するために用いられた文字列候補に対応する文字列の部分にマーキングを施したり反転させたりすることにより、画像データ内のどの文字列が、検索された文字列であるかを容易に分かるようにすることができる。
【0044】
また、制御部2は、文字列候補が複数存在した場合には、すべての文字列候補について検索された各画像データを、クライアント端末7に出力する。ここで、検索された画像データが複数あったときの画像データを出力する順序について説明する。
【0045】
文字列候補が複数存在した場合に、制御部2は、例えば、文字列候補を構成する文字候補(すなわち検索キーワード内の文字と一致する文字候補)の候補順位に着目して、候補順位の平均値の少ない順に画像データを出力する。このとき制御部2は、データ記憶部5が記憶している各文字候補の文字認識評価値を読み出し、文字認識評価値による候補順位を用いて、文字列候補毎に分析する。
【0046】
具体的には、3ページ目の文字候補「3」の候補順位は2位、文字候補「5」の候補順位は2位であり、候補順位の平均値は2.0である。例えば7ページ目に候補順位1位の文字候補「3」と、候補順位2位の文字候補「5」があった場合、候補順位の平均値は1.5である。また、9ページ目に候補順位3位の文字候補「3」と、候補順位2位の文字候補「5」があった場合、候補順位の平均値は2.5である。これら3個の文字列候補「35」のうち、候補順位の平均値が少ない順序に画像データが出力される。このように各文字列候補に対して出力順序が定められる。ここで、候補順位の平均値の最も少ない7ページ目の画像データが最初に出力される。次に3ページ目の画像データが、最後に9ページ目の画像データが出力される。このように、定められた出力順序に従って文字列候補を構成する文字候補に関連付けられた文書内の文字を表示する画像データを出力する。クライアント端末7は、制御部2が出力した順序に画像データを受信して表示する。
【0047】
制御部2は文字列候補が複数存在した場合、画像データをクライアント端末7に連続的に出力する。ここでは制御部2は、候補順位の平均値の少ない順に画像データを出力したが、これに限らず、文字認識評価情報等を用いて、各文字候補の文字認識処理の確からしさの度合の高い順に出力すればよい。すると、クライアント端末7では、文字認識処理の確からしさの度合の高い順に表示される。
【0048】
ユーザは、クライアント端末7が表示した画像データを見て、検索された文字列が、入力した検索キーワードと一致しているか否か判断する(ステップS106)。この例では、入力した検索キーワードが「35」であり、検索された文字列も「35」である。すなわち、検索された文字列は、入力した検索キーワードと一致している。検索された文字列が、入力した検索キーワードと一致していた場合、ユーザは、クライアント端末7によって、正しい画像データを受信したことを示す合致度に関する情報を文書検索装置8に通知する。制御部2は、クライアント端末7が出力した通知を受信し、送った画像データが正しかったことを認識する。
【0049】
すると、制御部2は、画像データに書かれていた「35」は、テキストデータ「3」とテキストデータ「5」とであると判断して、データ記憶部5が記憶している内容を変更する(ステップS108)。
【0050】
データ記憶部5の記憶している内容の変更について説明する。制御部2はデータ記憶部5が記憶している文書内文字「3」と文書内文字「5」との文字候補の文字認識評価値を変更する。図2を参照すると文書内文字「3」の文字候補「3」の文字認識評価値は75で、候補順位は2位である。文書内文字「3」は、文字候補「3」を候補順位1位とすべきことが確認できたので、例えば文字候補「3」の文字認識評価値を100として、候補順位を1位とする。同様に文書内文字「5」は、文字候補「5」を候補順位1位とすべきことが確認できたので、文字候補「5」の文字認識評価値を100として、候補順位を1位とする。すると文字列候補「35」の候補順位の平均値は1.0となり、次に検索キーワード「35」が入力された時には、正しい画像データである3ページ目の画像データが最初に出力される。このように、検索キーワードの文字と一致する文字候補の順位を上げる。
【0051】
また、データ記憶部5が記憶している他の文字候補を削除してもよい。すなわち文書内文字「3」の文字候補「8」と「ろ」と「9」とを削除する。同様に文書内文字「5」の文字候補「6」と「ち」と「8」と「3」とを削除する。すると文書内文字「3」の文字候補「3」と、文書内文字「5」の文字候補「5」との候補順位は、いずれも1位となる。そのため、文字列候補「35」の候補順位の平均値は1.0となり、次に検索キーワード「35」が入力された時には、3ページ目の画像データが最初に出力される。このように各文字の文字候補のうち、検索キーワードの文字と異なる文字候補を削除する。
【0052】
クライアント端末7が受信した画像データに検索キーワードが書かれていなかった場合について説明する。例えば入力された検索キーワードが「85」で、3ページ目に「85」が書かれていなかったとする。しかし、3ページ目の文書内文字「35」の文字候補の組み合わせに「85」があるので、3ページ目の画像データがクライアント端末7に送信される。ユーザは、クライアント端末7が受信した画像データを見て、検索された文字列が、入力した検索キーワード「85」と一致しているか否か判断する。
【0053】
この場合、検索された文字列が「85」ではないため、クライアント端末7は、誤った画像データを受信し、1文字目が「8」ではないことを示す合致度に関する情報を文書検索装置8に送信する。文書検索装置8では、通信インタフェース4を介して制御部2が受信し、データ記憶部5が記憶している内容を変更する(ステップS107)。
【0054】
データ記憶部5の記憶している内容の変更について説明する。まず、クライアント端末7の通知により文書内文字「3」の文字候補として「8」は不適当であるということが確認できたので、文字候補「8」の文字認識評価値を変更する。
【0055】
例えば文字候補「8」の文字認識評価値を90から10に変更したとすると、「8」の候補順位は4位となり、「85」の候補順位の平均値は3.0である。変更前の「8」の候補順位は1位で、「85」の候補順位の平均値は1.5であった。文字候補「8」の文字認識評価値を下げることで、候補順位の平均値が上がる。従って、誤った文字認識の結果に基づく3ページ目の画像データのクライアント端末7に出力される順序が遅くなり、そのため他のページの画像データのクライアント端末7に出力される順序が早くなる。従って検索を繰り返すと、誤った文字認識の結果に基づく画像データの出力される順序が遅くなるため、結果的に正しい文字認識の結果の画像データが出力される順序が早くなる。このように、検索キーワードの文字と異なっていると指定された文字を含む画像データを抽出する際に用いられた文字候補の順位を下げる。
【0056】
また、クライアント端末7の通知により文書内文字「3」は「8」ではないということが確認できたので、データ記憶部5にある文書内文字「3」の文字候補「8」を削除してもよい。すると文書内文字「35」による文字列の組み合わせ「85」は存在しないため、次に同じ検索キーワード「85」が入力された時には、誤った文字認識の結果に基づいて3ページ目の画像データが出力されることがなくなる。このように、検索キーワードの文字と異なっていると指定された文書内の文字候補のうち、検索キーワードの文字と一致する文字候補を削除する。
【0057】
入力された検索キーワードと、検索されて表示された文字とが異なっている場合、制御部2は実際に表示されている文字の入力を受け付け、入力された文字(実際に表示されている文字)以外の文字候補を削除してもよい。例えば、検索キーワードが「85」であって、3ページ目の文書内文字「35」が検索されて表示されたとする。そして、ユーザが3ページ目の文書内文字「35」を見て、クライアント端末7に文書内文字「35」の1文字目が「3」であることを示す合致度に関する情報をキーボード等を用いて入力して、クライアント端末7が文書検索装置8に通知してもよい。そして、制御部2がデータ記憶部5が記憶している文書内文字「3」の文字候補の「3」以外の「8」と「ろ」と「9」とを削除してもよい。
【0058】
すると文書内文字「35」のうち、文書内文字「3」の誤った文字認識処理結果の文字候補「8」の組み合わせ「85」は存在しなくなる。そのため、次に同じ検索キーワード「85」が入力された時には、「85」によって3ページ目の画像データが出力されることがなくなる。さらに、次に検索キーワード「35」が入力された時には、3ページ目の画像データが最初に出力される。
【0059】
また制御部2は、実際に表示されている文字の入力を受け付け、入力した文字(実際に表示されている文字)と一致する文字候補の文字認識評価値を変更して候補順位を上げてもよい。例えば、検索キーワードが「85」であって、3ページ目の文書内文字「35」が検索されて表示されたとする。そのとき、ユーザが3ページ目の文書内文字「35」を見て、クライアント端末7に文書内文字「35」の1文字目が「3」であるという情報をキーボード等を用いて入力して、クライアント端末7が文書検索装置8に通知してもよい。そして、制御部2がデータ記憶部5が記憶している文書内文字「3」の文字候補「3」の文字認識評価値を100に変更して、文字候補「3」の候補順位を1位に上げてもよい。このように、入力された文字と一致する文字候補の順位を上げる。
【0060】
上記した、データ記憶部5が記憶している内容の変更である、文字候補の削除や文字認識評価値の変更等は、変更権限のある管理者が通信回線6を介して文書検索装置8と接続された管理者の情報処理端末である管理端末(図示せず)を操作して行ってもよい。この場合、クライアント端末7において画像データの出力結果に対して入力された各情報は、管理端末へ送信される。管理者は、管理端末で受信した各情報を確認して、データ記憶部5の記憶内容の変更の是非を判断する。変更を行う場合は、管理端末から変更要求を文書検索装置8に出力し、文書検索装置8では、制御部2が変更要求に基づき、データ記憶部5の記憶している内容の変更を行う。
【0061】
【発明の効果】
以上のように本発明によれば、同じ検索キーワードが繰り返し入力された場合に、検索結果の正誤を、文字候補の記憶内容に反映していくことで、検索精度を向上させることができる。また、文字候補の記憶方法を変更するだけなので、検索ログや、メタ情報等の付加情報が不要になり、文書検索装置および文書検索プログラムを複雑にすることなく検索精度を高めることができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態の一例を示すブロック図である。
【図2】 本発明の実施の形態における各情報の一例を示した説明図である。
【図3】 本発明の動作を説明するフローチャートである。
【符号の説明】
1 スキャナ
2 制御部
3 プログラム記憶部
4 通信インタフェース
5 データ記憶部
6 通信回線
7 クライアント端末
8 文書検索装置

Claims (11)

  1. 文書を読み取って文書の画像データを生成する画像生成手段と、
    前記画像生成手段が生成した文書の画像データから文字を認識する文字認識処理を行って、画像データに対応するテキストデータを生成するテキストデータ生成手段と、
    前記テキストデータ生成手段が生成したテキストデータ内の文字のそれぞれに対して、文字との類似度が高い文字である文字候補を1つ以上特定して関連付けるとともに、テキストデータにおける文字と一致する度合を示す確信度が高い順に各文字候補を順位付ける文字候補特定手段と、
    前記画像生成手段が生成した画像データを、その画像データに対応するテキストデータ、およびテキストデータに含まれる各文字に関連付けられた各文字候補とともに格納する文書画像格納手段と、
    画像データの提供を希望するユーザによって入力された検索キーワードを構成する各文字と一致する文字候補からなる文字列候補を作成し、作成した文字列候補における各文字候補に関連付けられた各文字からなる文字列を含むテキストデータを前記文書画像格納手段から検索し、検索されたテキストデータに対応する画像データを前記文書画像格納手段から抽出する抽出手段と、
    前記抽出手段が抽出した画像データの出力順序を、テキストデータを抽出したときに使用した文字列候補の確信度にもとづいて決定し、決定した出力順序に従って、前記抽出手段が抽出した画像データを前記ユーザに対して提供する画像データ出力手段と、
    前記ユーザに提供された画像データに含まれる前記文字列と前記検索キーワードとの合致度に関する情報を前記ユーザから受け付ける誤認識情報受付手段と、前記合致度に関する情報に対応する画像データを抽出する際に用いられた文字候補の順位を変更する変更手段と
    を備えたことを特徴とする文書検索装置。
  2. 変更手段は、合致度に関する情報によって検索キーワード内の文字と異なっていることが示された画像データに含まれる文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補の順位を下げる
    請求項1に記載の文書検索装置。
  3. 変更手段は、合致度に関する情報によって検索キーワード内の文字と異なっていることが示された画像データに含まれる文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補を削除する
    請求項1に記載の文書検索装置。
  4. 変更手段は、合致度に関する情報によって検索キーワード内の文字と合致していることが示された画像データに含まれる文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補の順位を上げる
    請求項1から請求項3のうちいずれか1項に記載の文書検索装置。
  5. 変更手段は、合致度に関する情報によって検索キーワード内の文字と合致していることが示された画像データに含まれる文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補以外の文字候補を削除する
    請求項1から請求項3のうちいずれか1項に記載の文書検索装置。
  6. 変更手段は、合致度に関する情報によって検索キーワードと合致していることが示された画像データに含まれる文字列におけるそれぞれの文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補の順位を上げる
    請求項1から請求項5のうちいずれか1項に記載の文書検索装置。
  7. 変更手段は、合致度に関する情報によって検索キーワードと合致していることが示された画像データに含まれる文字列におけるそれぞれの文字に対応する各文字候補のうち、画像データを抽出する際に用いられた文字候補以外の文字候補を削除する
    請求項1から請求項5のうちいずれか1項に記載の文書検索装置。
  8. 画像データ出力手段は、検索キーワードにもとづいて抽出された複数の画像データのそれぞれを抽出する際に用いられた各文字列候補を構成する各文字候補の順位の平均値を文字列候補の平均値として算出し、文字列候補の平均値の低い順に出力順序を定める
    請求項1から請求項7のうちいずれか1項に記載の文書検索装置。
  9. 画像データ出力手段は、通信回線を介して接続された情報処理端末に画像データを提供する
    請求項1から請求項8のうちいずれか1項に記載の文書検索装置。
  10. 画像データ出力手段は、画像データ上の、文字列候補における各文字候補に関連付けられた各文字からなる文字列の部分を、他の部分とは異なる形態にして出力する
    請求項1から請求項9のうちいずれか1項に記載の文書検索装置。
  11. コンピュータに、
    文書を読み取って文書の画像データを生成する処理と、
    生成した文書の画像データから文字を認識する文字認識処理を行って、画像データに対応するテキストデータを生成する処理と、
    生成したテキストデータ内の文字のそれぞれに対して、文字との類似度が高い文字である文字候補を1つ以上特定して関連付けるとともに、テキストデータにおける文字と一致する度合を示す確信度が高い順に各文字候補を順位付ける処理と、
    生成した画像データを、その画像データに対応するテキストデータ、およびテキストデータに含まれる各文字に関連付けられた各文字候補とともに記憶装置に格納させる処理と、
    画像データの提供を希望するユーザによって入力された検索キーワードを構成する各文字と一致する文字候補からなる文字列候補を作成し、作成した文字列候補における各文字候補に関連付けられた各文字からなる文字列を含むテキストデータを前記記憶装置から検索し、検索されたテキストデータに対応する画像データを前記記憶装置から抽出する処理と、
    抽出した画像データの出力順序を、テキストデータを抽出したときに使用した文字列候補の確信度にもとづいて決定し、決定した出力順序に従って、抽出した画像データを前記ユーザに対して提供する処理と、
    前記ユーザに提供された画像データに含まれる前記文字列と前記検索キーワードとの合致度に関する情報を前記ユーザから受け付ける処理と、
    前記合致度に関する情報に対応する画像データを抽出する際に用いられた文字候補の順位を変更する処理と
    を実行させるための文書検索プログラム。
JP2002376261A 2002-12-26 2002-12-26 文書検索装置および文書検索プログラム Expired - Lifetime JP3979288B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002376261A JP3979288B2 (ja) 2002-12-26 2002-12-26 文書検索装置および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002376261A JP3979288B2 (ja) 2002-12-26 2002-12-26 文書検索装置および文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2004206521A JP2004206521A (ja) 2004-07-22
JP3979288B2 true JP3979288B2 (ja) 2007-09-19

Family

ID=32813764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002376261A Expired - Lifetime JP3979288B2 (ja) 2002-12-26 2002-12-26 文書検索装置および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP3979288B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
JP4667823B2 (ja) * 2004-10-25 2011-04-13 Kddi株式会社 テーブル監視装置、Webページモニタリングシステム、コンピュータプログラム
JP4744317B2 (ja) * 2006-02-16 2011-08-10 富士通株式会社 単語検索装置、単語検索方法、及びコンピュータプログラム
JP2008217054A (ja) * 2007-02-28 2008-09-18 Disco Inc 情報提供システム
US8261200B2 (en) * 2007-04-26 2012-09-04 Fuji Xerox Co., Ltd. Increasing retrieval performance of images by providing relevance feedback on word images contained in the images

Also Published As

Publication number Publication date
JP2004206521A (ja) 2004-07-22

Similar Documents

Publication Publication Date Title
JP2973944B2 (ja) 文書処理装置および文書処理方法
JP3427692B2 (ja) 文字認識方法および文字認識装置
US20080150910A1 (en) Handwritten charater input device
US20080170786A1 (en) Image processing system, image processing method, and image processing program
JP4780169B2 (ja) データ生成装置、スキャナ、及びコンピュータプログラム
US20060045340A1 (en) Character recognition apparatus and character recognition method
AU2005201758A1 (en) Method of learning associations between documents and data sets
EA003619B1 (ru) Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2014182477A (ja) プログラム及び帳票処理装置
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
US11755659B2 (en) Document search device, document search program, and document search method
JP3599180B2 (ja) 検索方法、検索装置および記録媒体
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
WO1997004409A1 (fr) Dispositif de recherche de fichiers
JP5752073B2 (ja) データ修正装置
JPH10187751A (ja) 認識データ処理装置およびそのプログラム記録媒体
JP3870672B2 (ja) 文書ファイリング装置
JPH0757040A (ja) Ocr付きファイリング装置
KR102601932B1 (ko) 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법
JP7421384B2 (ja) 情報処理装置、修正候補表示方法、及びプログラム
JP4130429B2 (ja) 文字読取装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040427

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051117

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070618

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100706

Year of fee payment: 3