JP2002063197A - 検索装置、記録媒体およびプログラム - Google Patents

検索装置、記録媒体およびプログラム

Info

Publication number
JP2002063197A
JP2002063197A JP2001168888A JP2001168888A JP2002063197A JP 2002063197 A JP2002063197 A JP 2002063197A JP 2001168888 A JP2001168888 A JP 2001168888A JP 2001168888 A JP2001168888 A JP 2001168888A JP 2002063197 A JP2002063197 A JP 2002063197A
Authority
JP
Japan
Prior art keywords
character
keyword
index
recognition result
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001168888A
Other languages
English (en)
Other versions
JP3669626B2 (ja
Inventor
Taro Imagawa
太郎 今川
Kenji Kondo
堅司 近藤
Yoshihiko Matsukawa
善彦 松川
Tsuyoshi Megata
強司 目片
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001168888A priority Critical patent/JP3669626B2/ja
Publication of JP2002063197A publication Critical patent/JP2002063197A/ja
Application granted granted Critical
Publication of JP3669626B2 publication Critical patent/JP3669626B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索結果の正当性を容易に判定することが可
能な検索装置を提供する。 【解決手段】 インデックステーブル190を用いて、
文字認識結果140からキーワードを検索する検索装置
1が提供される。インデックステーブル190は、イン
デックス文字列1610と、インデックス文字列161
0に一致する文字認識結果140中の部分の位置161
1と、インデックス文字列に含まれる各文字がオリジナ
ル文書中の部分に存在する確率を示す確信度1612と
を含む。検索装置1は、インデックステーブル190に
基づいて、キーワードが文字認識結果140中の部分に
一致するか否かを判定し、もし一致する場合には、キー
ワードに一致する文字認識結果140中の部分の位置を
特定する位置特定部と、インデックステーブル190に
基づいて、対応するオリジナル文書中の位置にキーワー
ドが存在する確率を示すキーワード確信度Kcを算出す
る算出部とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】インデックステーブルを用い
て、オリジナル文書中の文字を認識することによって得
られる文字認識結果からキーワードを検索する検索装
置、記録媒体およびプログラムに関する。
【0002】
【従来の技術】近年、インターネットの普及に伴い、ネ
ットワーク上に存在する大量の情報から必要な情報を取
り出す検索技術が重要視されている。特に、テキストデ
ータから特定のキーワードを検索するシステムは、既に
数多く提供されている。このような検索においては、大
量のテキスト文書から正確で、高速な検索を行うことが
求められている。
【0003】高速な検索を行うために、インデックステ
ーブルを用いてテキストデータから特定のキーワードを
検索する技術が知られている。インデックステーブル
は、所定の数の文字(例えば、2文字)を含むインデッ
クス文字列と、その文字列に一致するテキストデータ中
の部分の位置とを定義する。
【0004】オリジナル文書(紙の形態の文書)中の文
字を文字認識することによって得られる文字コードの集
合(文字認識結果)からキーワードを検索する場合に
は、文字認識の誤り(誤認識)を考慮しなければならな
い。文字認識において誤りがある場合、文字コードが表
す文字はオリジナル文書に書かれている文字と異なり得
るからである。誤認識とは、オリジナル文書に書かれた
文字が、正しく文字コードに変換されないことをいう。
このような誤認識は、例えば、紙面に印字された文字の
かすれや傾き、汚れ等に起因して発生する。
【0005】例えば、オリジナル文書のある位置に、
「イヌ」という文字列が存在し、この文字列中の文字
「ヌ」が「ス」と誤認識された場合、文字列「イヌ」に
対応する文字認識結果中の部分の位置には、文字列「イ
ス」が存在する。その結果、この文字認識結果から作成
されたインデックステーブルには、インデックス文字列
「イス」とその位置とが登録される。従って、このイン
デックステーブルを用いてキーワード「イヌ」を検索し
ても、文字認識結果中のその位置にキーワードを検出す
ることができない。このように、オリジナル文書中のあ
る位置にキーワードが存在するにもかかわらず、その位
置においてキーワードが検出できないという、「検索漏
れ」の問題が発生する。
【0006】検索漏れの問題に対処する従来技術とし
て、オリジナル文書中の1つの文字に対する文字認識結
果として複数の候補文字を用意し、その複数の候補文字
に基づいて、オリジナル文書中に存在する可能性のある
複数の文字列をインデックス文字列としてインデックス
テーブルに登録する技術が知られている。キーワードの
検索は、このインデックステーブルを用いて行なわれ
る。このような技術は、例えば、特開平9−16619
号公報「情報処理方法および装置」に開示されている。
【0007】図11は、従来技術によって、オリジナル
文書中に存在する可能性のある複数の文字列をインデッ
クス文字列とてし登録したインデックステーブル190
1の一例を示す。図11に示される例では、インデック
ステーブル1901は、「インデックスを用いた・・
・」という文字列を含むオリジナル文書を文字認識する
ことによって得られる。インデックステーブル1901
には、インデックス文字列「イシ」とインデックス文字
列「イン」とがいずれも文字認識結果中の同じ位置であ
る文字位置「1」に存在するものとして登録されている
(行1911および行1912)。
【0008】図11に示されるインデックステーブル1
901を使用することにより、「インデックス」という
キーワードを検出することができる。以下、従来技術に
従って、図11に示されるインデックステーブル190
1を使用してキーワード「インデックス」を検索する処
理を説明する。
【0009】まず、キーワード中に含まれる、互いに隣
り合う2文字からなる文字列が生成される。キーワード
「インデックス」から、「イン」、「ンデ」、「デ
ッ」、「ック」および「クス」という5個の文字列が生
成される。
【0010】次に、これらの文字列がインデックステー
ブル1901から検索される。文字列「イン」、「ン
デ」、「デッ」、「ック」および「クス」は、それぞ
れ、文字認識結果中の文字位置「1」、「2」、
「3」、「4」および「5」に存在することが示されて
いる(行1912、行1919、行1915、行191
4および行1913)。
【0011】これらの文字位置の位置関係から、キーワ
ード「インデックス」が文字認識結果中に存在している
ことが判断される。
【0012】このようにして、オリジナル文書中に存在
する可能性のある複数の文字列をインデックス文字列と
てし登録したインデックステーブルを用いた従来技術に
よれば、検索漏れの問題が回避され得る。
【0013】
【発明が解決しようとする課題】このような従来技術に
よれば、検索ノイズが増加してしまうという問題点があ
る。検索ノイズとは、オリジナル文書中にキーワードが
存在しないにもかかわらず、キーワードが検出されるこ
とをいう。例えば、図11に示されるインデックステー
ブル1901を使用して、「デンワ」および「フック」
というキーワードを検索した場合に、それらのキーワー
ドが文字位置「3」において検出される。検索結果が正
当であるかどうかを判断するためには、ユーザがオリジ
ナル文書と検索結果を比較しなければならない。
【0014】検索漏れの問題を防ぐために、1つの文字
に対する文字認識結果として得られる候補文字の数を多
くするほど、このような検索ノイズが多くなり、ユーザ
が検索結果が正当であるかどうかを判断する負担が増加
する。
【0015】本発明は、このような問題点に鑑みてなさ
れたものであって、高速な検索を行い、かつ、検索結果
の正当性を容易に判定することが可能な検索装置、記録
媒体およびプログラムを提供することを目的とする。
【0016】
【課題を解決するための手段】本発明の検索装置は、イ
ンデックステーブルを用いて、オリジナル文書中の文字
を認識することによって得られる文字認識結果からキー
ワードを検索する検索装置であって、前記インデックス
テーブルは、インデックス文字列と、前記インデックス
文字列に一致する前記文字認識結果中の部分の位置と、
前記インデックス文字列に含まれる各文字について定義
され、前記文字に一致する前記文字認識結果中の部分に
対応する前記オリジナル文書中の部分に前記文字が存在
する確率を示す確信度とを含み、前記検索装置は、前記
インデックステーブルに含まれる前記インデックス文字
列と前記インデックス文字列に一致する前記文字認識結
果中の部分の位置とに基づいて、前記キーワードが前記
文字認識結果中の部分に一致するか否かを判定し、もし
一致する場合には、前記キーワードに一致する前記文字
認識結果中の部分の位置を特定する位置特定部と、前記
インデックステーブルに含まれる前記確信度に基づい
て、前記キーワードに一致する前記文字認識結果中の部
分の位置に対応する前記オリジナル文書中の位置に前記
キーワードが存在する確率を示すキーワード確信度を算
出する算出部とを備えており、これにより、上記目的が
達成される。
【0017】前記検索装置は、前記キーワード確信度に
基づいて検索結果の正当性を判定する判定部をさらに含
んでもよい。
【0018】前記判定部は、前記キーワード確信度が所
定の値以上である場合に、前記検索結果を正当であると
判定してもよい。
【0019】前記所定の値は、前記キーワードに含まれ
る文字の数および前記キーワードに含まれる文字の種類
の少なくとも一方に応じて設定されてもよい。
【0020】前記検索装置は、前記インデックステーブ
ルを作成するインデックステーブル作成部をさらに含
み、前記文字認識結果は、前記オリジナル文書の文字の
それぞれに対応する複数の部分を含み、前記複数の部分
のそれぞれは、少なくとも1つの文字を含み、前記イン
デックステーブル作成部は、前記複数の部分のうち、連
続した複数の部分のそれぞれに含まれる前記少なくとも
1つの文字を組み合わせることにより、前記インデック
ス文字列を生成してもよい。
【0021】前記検索装置は、前記インデックステーブ
ルを作成するインデックステーブル作成部をさらに含
み、前記文字認識結果は、前記オリジナル文書の文字の
それぞれに対応する複数の部分を含み、前記複数の部分
のそれぞれは、文字を含み、前記インデックステーブル
作成部は、前記複数の部分のうち、連続した複数の部分
のそれぞれに含まれる前記文字に予め対応付けられた少
なくとも1つの文字を組み合わせることにより、前記イ
ンデックス文字列を生成してもよい。
【0022】本発明の記録媒体は、インデックステーブ
ルを用いて、オリジナル文書中の文字を認識することに
よって得られる文字認識結果からキーワードを検索する
検索処理を実行させるためのプログラムを記録したコン
ピュータ読み取り可能な記録媒体であって、前記インデ
ックステーブルは、インデックス文字列と、前記インデ
ックス文字列に一致する前記文字認識結果中の部分の位
置と、前記インデックス文字列に含まれる各文字につい
て定義され、前記文字に一致する前記文字認識結果中の
部分に対応する前記オリジナル文書中の部分に前記文字
が存在する確率を示す確信度とを含み、前記検索処理
は、前記インデックステーブルに含まれる前記インデッ
クス文字列と前記インデックス文字列に一致する前記文
字認識結果中の部分の位置とに基づいて、前記キーワー
ドが前記文字認識結果中の部分に一致するか否かを判定
し、もし一致する場合には、前記キーワードに一致する
前記文字認識結果中の部分の位置を特定するステップ
と、前記インデックステーブルに含まれる前記確信度に
基づいて、前記キーワードに一致する前記文字認識結果
中の部分の位置に対応する前記オリジナル文書中の位置
に前記キーワードが存在する確率を示すキーワード確信
度を算出するステップとを包含し、これにより、上記目
的が達成される。
【0023】本発明のプログラムは、インデックステー
ブルを用いて、オリジナル文書中の文字を認識すること
によって得られる文字認識結果からキーワードを検索す
る検索処理を実行させるためのプログラムであって、前
記インデックステーブルは、インデックス文字列と、前
記インデックス文字列に一致する前記文字認識結果中の
部分の位置と、前記インデックス文字列に含まれる各文
字について定義され、前記文字に一致する前記文字認識
結果中の部分に対応する前記オリジナル文書中の部分に
前記文字が存在する確率を示す確信度とを含み、前記検
索処理は、前記インデックステーブルに含まれる前記イ
ンデックス文字列と前記インデックス文字列に一致する
前記文字認識結果中の部分の位置とに基づいて、前記キ
ーワードが前記文字認識結果中の部分に一致するか否か
を判定し、もし一致する場合には、前記キーワードに一
致する前記文字認識結果中の部分の位置を特定するステ
ップと、前記インデックステーブルに含まれる前記確信
度に基づいて、前記キーワードに一致する前記文字認識
結果中の部分の位置に対応する前記オリジナル文書中の
位置に前記キーワードが存在する確率を示すキーワード
確信度を算出するステップとを包含し、これにより、上
記目的が達成される。
【0024】
【発明の実施の形態】本明細書中で、文字とは、特定の
言語体系において使用される文字に限定されず、数字、
記号(例えば、「)」や「◎」)を含むあらゆるシンボ
ルをいう。このようなシンボルには、そのシンボルを電
子的に表現するためのコード(文字コード)が割り当て
られている。
【0025】図1は、本発明の検索装置1の構成を示
す。検索装置1は、オリジナル文書中の文字を認識する
ことによって得られる文字認識結果からキーワードを検
索する。
【0026】検索装置1は、その構成要素として、端末
100と、文書登録処理および文書検索処理を実行する
CPU100と、文書を画像データとして入力する画像
入力機器120と、ワークメモリ180と、ハードディ
スク(HDD)170とを備える。これらの構成要素
は、内部バス1101を介して互いに接続されている。
あるいは、これらの構成要素は、任意のタイプのネット
ワークを介して互いに接続されていてもよい。
【0027】端末100は、例えば、キーボードとCR
Tとを備えた入出力デバイスである。端末100は、例
えば、検索装置1が実行する処理をユーザが指定した
り、検索装置1が実行した検索処理結果をユーザに表示
するために用いられる。
【0028】HDD170には、文書登録プログラム1
103と、文書検索プログラム1104と、文字認識パ
ターン辞書160と、確信度テーブル150と、文書デ
ータ1102とが格納されている。HDD170とし
て、任意のタイプのメモリが使用されてもよい。
【0029】文書登録プログラム1103および文書検
索プログラム1104の全体または一部は、任意のタイ
プの通信回線(図示せず)または放送を介して検索装置
1に提供されてもよいし、任意のタイプのコンピュータ
読み取り可能な記録媒体に記録された形態で検索装置1
に提供されてもよい。そのような記録媒体は、例えば、
DVD−ROM、CD−ROM、フレキシブルディスク
等である。そのような記録媒体に記録された文書登録プ
ログラム1103および文書検索プログラム1104
は、ディスクドライブ等の読み取りデバイスによって検
索装置1にインストールされ得る。
【0030】図2は、オリジナル文書中の文字を認識す
ることによって得られる文字認識結果からキーワードを
検索するために、検索装置1によって実行される処理の
流れを示す。
【0031】ユーザが端末100(図1)から文書登録
処理の開始を指示すると、HDD170に格納された文
書登録プログラム1103がワークメモリ180にロー
ドされる。CPU110は、ワークメモリ180に高速
にアクセスすることができる。CPU110が文書登録
プログラム1103を実行することにより、文書登録処
理が行なわれる。
【0032】文書登録処理は、文字認識処理と、インデ
ックステーブル作成処理とを含む。文字認識処理と、イ
ンデックステーブル作成処理とはそれぞれ、文書登録プ
ログラムの一部である文字認識プログラム(図示せず)
と、インデックステーブル作成プログラム(図示せず)
とをCPU110が実行することによって行なわれる。
【0033】文字認識処理では、画像入力機器120に
よってオリジナル文書が読み取られ、オリジナル文書の
画像データ(文書画像データ)130が生成される。文
書画像データ130は、HDD170(図1)に格納さ
れる。文書画像データ130中の部分領域によって表さ
れる形状と文字認識パターン辞書160(図1)に登録
されている文字の形状の類似性に基づいて、文字認識処
理が行なわれる。文字認識処理の結果は、文字認識結果
140としてHDD170に格納される。
【0034】次に、インデックステーブル作成処理で
は、文字認識結果140からインデックステーブル19
0が作成される。インデックステーブル190は、HD
D170に格納される。インデックステーブル作成処理
において、確信度テーブル150(図1)が参照され得
る。
【0035】HDD170に格納された文書画像データ
130と、文字認識結果140と、インデックステーブ
ル190とは、文書データ1102(図1)の少なくと
も一部を構成する。
【0036】ユーザが端末100からキーワードを入力
し、文書検索処理の開始を指示すると、HDD170に
格納された文書検索プログラム1104がワークメモリ
180にロードされる。CPU110が文書検索プログ
ラム1104を実行することにより、文書検索処理が行
なわれる。文書検索処理では、インデックステーブル1
90を用いて、文字認識結果からキーワードが検索され
る。
【0037】文書登録処理によってインデックステーブ
ル190がいったん生成されると、キーワードの検索
は、インデックステーブル190を参照して行なわれ
る。検索すべきキーワードが変わっても、新たなインデ
ックステーブル190を作成する必要はない。
【0038】なお、図2に示される全ての処理が検索装
置1によって行われることは必須ではない。例えば、文
書登録処理が検索装置1とは別の機器によって行なわ
れ、生成されたインデックステーブル190を用いた文
書検索処理のみが検索装置1によって行なわれてもよ
い。
【0039】図3は、オリジナル文書1310の一例を
示す。オリジナル文書1310は、「インデックスを用
いた検索方法。文書データからの」という文字列を含
む。オリジナル文書は、例えば、文字列が印刷された紙
の形態の文書である。オリジナル文書は、あるいは、標
識、看板、掲示板等に書かれた形態の文書であってもよ
い。
【0040】図4は、オリジナル文書1310に対して
文字認識処理を行うことにより得られる文字認識結果1
40の一例を示す。文字認識結果140は、文字位置1
042と、候補文字1043とを含む。図4において、
各候補文字に添えられたカッコ内の数字は、各候補文字
についての信頼度Rrを示す。文字認識結果140は、
オリジナル文書1310(図3)に含まれる「イ」、
「ン」、「デ」、「ッ」、「ク」、「ス」という各文字
の文字認識結果として、最大の信頼度Rrが得られた候
補文字が、それぞれ、「イ」、「シ」、「テ」、
「ソ」、「タ」、「ス」であることを示す。
【0041】文字認識処理は、任意のアルゴリズムに従
って実行され得る。文字認識処理は、例えば、1文字単
位に文書画像データ130を切り出し、その切り出され
た1文字単位の画像データ(部分領域)を文字コードに
変換していくというアルゴリズムに従って実行され得
る。
【0042】部分領域から文字コードへの変換の際に
は、部分領域によって表される形状と、文字認識パター
ン辞書160(図1)に登録されている文字の形状とが
比較される。所定の判定基準に基づいて形状が類似して
いると判定された文字が、候補文字として得られる。こ
のようにして、部分領域が、候補文字の文字コードへと
変換されていく。1つの部分領域に対応する候補文字が
複数得られてもよい。
【0043】候補文字は、その形状と部分領域によって
表される形状とが類似しているために、オリジナル文書
のその部分領域に対応する部分に書かれている文字と一
致する可能性が高いとみなし得る文字を意味する。
【0044】文字認識結果140における各欄(例え
ば、欄1044)は、文書画像データ130中の部分領
域に対応している。すなわち、オリジナル文書1310
の部分(例えば、図3に示される部分1311)に対応
している。また、文書画像データ130中の部分領域
は、文書画像データから1文字単位に切り出されるの
で、部分領域は、オリジナル文書1310の1文字(例
えば、図3に示される部分1311に書かれている文字
「ク」)に対応している。
【0045】欄1044に示される候補文字「タ」、
「ウ」、「ワ」および「ク」は、対応するオリジナル文
書1310の部分(図3に示される部分1311)に書
かれている文字と一致する可能性が高いとみなし得る文
字である。
【0046】文字位置1042は、文字認識結果140
における、その候補文字の位置を示す。例えば、欄10
44に示される文字位置「5」は、文字認識結果140
における欄1044(文字認識結果中の部分)の位置
が、「5番目」の位置であることを示す。
【0047】文字位置1042の表現方法としては、候
補文字に対応するオリジナル文書1310中の部分が特
定できさえすれば、どのような表現方法を使用してもよ
い。上述したように、文字認識結果中の各欄は文書画像
データ130の部分領域に対応する。従って、文字位置
1042は、候補文字が含まれる欄の文字認識結果中の
位置によって表されてもよいし、その欄が対応する文書
画像データ130の部分領域の文書画像データ130中
の位置によって表されてもよい。
【0048】例えば、文字位置1042は、オリジナル
文書の文書名と、ページ番号と、行番号と、その行にお
ける先頭からの位置(何文字目であるか)によって表さ
れてもよいし、文書画像データにおける座標やアドレス
によって表されてもよい。
【0049】信頼度Rrは、文字認識の確からしさ、す
なわち、正解確率を示す。信頼度Rrは、0以上1以下
の値をとり、値が大きいほど確からしさが大きいものと
する。文字認識には、例えば、ニューラルネットワーク
やベクトル量子化やテンプレートマッチングの手法を採
用することができる。
【0050】文字認識にニューラルネットワークの手法
を採用する場合には、文字認識パターン辞書160に登
録されている文字のうち、出力値がある基準以上である
少なくとも1つのニューロンに対応する文字が候補文字
として得られる。ニューロンの出力値と正解確率との対
応関係を予め求めておき、その対応関係に基づいて、各
候補文字に対応するニューロンの出力値から、信頼度R
rを求めることができる。
【0051】ベクトル量子化やテンプレートマッチング
の手法は、いずれも、文書画像データ130の部分領域
によって表される形状と、文字認識パターン辞書160
に登録されている文字の形状との特徴量空間における距
離を求めることにより、文字認識を行う手法である。1
つの形状は、特徴量空間における1つの代表点として表
される。これらの手法が採用される場合には、文字認識
パターン辞書160に登録されている文字のうち、特徴
量空間における距離がある基準以下である少なくとも1
つの文字が候補文字として得られる。特徴量空間におけ
る距離と正解確率との対応関係を予め求めておき、その
対応関係に基づいて、各候補文字に対応する特徴量空間
における距離から、信頼度Rrを求めることができる。
【0052】文字認識にいずれの手法を用いた場合で
も、信頼度Rrは、文書画像データ130の部分領域に
よって表される形状と、文字認識パターン辞書160に
登録されている文字の形状との類似性を反映する。
【0053】信頼度Rrとしては、形状の類似性以外の
情報が考慮されてもよい。例えば、文書画像データ13
0中の文字認識の対象となる部分領域の大きさの偏差S
Rや、行におけるその部分領域の相対的位置の偏差LR
などが考慮されてもよい。
【0054】部分領域の大きさの偏差SRは、例えば、
文書画像データ130におけるすべての部分領域(それ
ぞれが1つの文字に対応する)の大きさの平均値から
の、その部分領域の大きさの偏差として定義され得る。
予め、偏差SRと文字認識の正解確率との対応関係を求
めておくことにより、偏差SRが大きい場合に信頼度R
rが小さくなるように、信頼度Rrを修正することがで
きる。
【0055】部分領域の相対位置の偏差LRは、例え
ば、文書画像データにおける同一の行のすべての部分領
域(それぞれが1つの文字に対応する)について、行に
垂直な方向の位置の平均値を求め、その部分領域の行に
垂直な方向の位置のこの平均値からの偏差として定義さ
れ得る。予め、偏差LRと文字認識の正解確率との対応
関係を求めておくことにより、偏差LRが大きい場合に
信頼度Rrが小さくなるように、信頼度Rrを修正する
ことができる。
【0056】このように、信頼度Rrを偏差SRおよび
/または偏差LRに応じて修正することにより、信頼度
Rrをより適切に設定することができる。
【0057】図4に示される文字認識結果140から、
インデックステーブル190が作成される(インデック
ステーブル作成処理)。
【0058】図5Aは、インデックステーブル作成処理
の手順を示す。以下、インデックステーブル作成処理の
手順を詳しく説明する。
【0059】ステップS401:文字認識結果140中
の注目している候補文字の信頼度Rrが基準値以上であ
るか否かが判定される。基準値は、例えば、「0.0
5」であり得る。ステップS401における判定結果が
「Yes」である場合には、処理はステップS402に
進む。ステップS401における判定結果が「No」で
ある場合には、処理はステップS404に進む。
【0060】なお、文字認識処理によって文字認識結果
140(図4)を得る際に、信頼度Rrが基準値以上で
ある候補文字のみを文字認識結果140に含むようにし
てもよい。その場合には、ステップS401における処
理は省略され得る。
【0061】ステップS402:候補文字の確信度Cr
が計算される。確信度Crは、例えば、各候補文字につ
いての信頼度Rrに基づいて、(数1)により計算され
る。
【0062】
【数1】確信度Cr = 候補文字ついての信頼度Rr
×文字別係数Kr 文字別係数Krは、予め、1つの文字(例えば、
「イ」)ごとに定義されている。文字別係数Krは、通
常の文書中におけるその文字の出現確率に依存する。文
字は、その種類ごとに通常の文書中における出現確率が
異なる。例えば、一般の日本語の文書では、文字「ゐ」
は、文字「る」よりも出現確率が低い。このように、出
現確率が低い文字については、文字別係数Krが低く設
定される。逆に、出現確率が高い文字については、文字
別係数Krが高く設定される。文字ごとの出現確率は、
予め、大量の一般的な文書を対象として統計的に求める
ことができる。
【0063】各候補文字についての確信度Crは、その
候補文字についての信頼度Rrに候補文字と同一の文字
(文字コードが一致する文字)についての文字別係数K
rを掛けることによって求められる。このようにして計
算された確信度Crは、候補文字と同一の文字がオリジ
ナル文書中の特定の部分に存在する確率を示す。そのよ
うな特定の部分とは、文字認識結果140(図4)にお
いて、その候補文字が含まれる欄(文字認識結果中の部
分)が対応するオリジナル文書中の部分である。
【0064】ただし、確信度Crが必ずしも統計学的な
確率そのものである必要はない。確信度Crは、統計学
的な確率を所定の基準に従って正規化した値であり得
る。このような所定の基準は、候補文字の確信度Cr
が、候補文字と同一の文字がオリジナル文書中の特定の
部分に存在する確率を示すという性質を保持する限り、
任意の基準であり得る。確信度Crは、実数表現でなく
整数表現によって表されてもよい。あるいは、確信度C
rは、確信度Crのレベルを段階的に示す記号によって
表されてもよい(例えば、○:高、△:中、×:低)。
【0065】なお、文字ごとの出現確率が不明である場
合には、文字別係数Krをすべての文字について一定と
してもよい。また、字種(漢字、カタカナ、ひらがな)
ごとに文字別係数Krを設定してもよい。
【0066】ステップS403:候補文字と、ステップ
S402で求められた確信度Crとが候補文字−確信度
テーブルに登録される。
【0067】図5Bは、候補文字−確信度テーブル15
01の一例を示す。候補文字と確信度Crとは、文字位
置1042(図4)ごとに、候補文字−確信度テーブル
1501に登録される。
【0068】図5Aを再び参照して、インデックステー
ブル作成処理の説明を続ける。
【0069】ステップS404:すべての文字位置のす
べての候補文字について、ステップS401〜ステップ
S403の処理が行なわれたか否かが判定される。ステ
ップS404における判定結果が「Yes」である場合
には、処理はステップS405に進む。ステップS40
4における判定結果が「No」である場合には、他の候
補文字について、ステップS401からの処理が行なわ
れる。
【0070】ステップS405:候補文字−確信度テー
ブル1501(図5B)の隣接した文字位置に登録され
た候補文字からインデックステーブルが作成される。イ
ンデックステーブルは、インデックス文字列と、文字位
置と、確信度Crとを定義する。
【0071】インデックス文字列は、候補文字−確信度
テーブル1501(図5B)の隣接した文字位置に登録
された候補文字を組み合わせることによって生成され
る。例えば、候補文字−確信度テーブル1501の文字
位置「1」に登録された候補文字「イ」と、隣接した文
字位置「2」に登録された候補文字「シ」とを組み合わ
せることによって、インデックス文字列「イシ」が生成
される。
【0072】図6は、インデックステーブル作成処理に
よって作成されたインデックステーブルの一例を示す。
インデックステーブル190の欄1610は、インデッ
クス文字列を示す。欄1611は、インデックス文字列
に含まれる先頭の候補文字の文字位置を示す。欄161
2はインデックス文字列に含まれる候補文字のそれぞれ
について定義される確信度Crの組を示す。
【0073】インデックステーブル190に含まれる行
1602は、インデックス文字列「イシ」に一致する文
字認識結果140中の部分の位置が「1」であり、イン
デックス文字列「イシ」の文字「イ」について定義され
た確信度Crが0.9であり、インデックス文字列「イ
シ」の文字「シ」について定義された確信度Crが0.
8であることを示す。
【0074】インデックス文字列「イシ」(行160
2)に含まれる候補文字のそれぞれについて定義される
確信度Crの組は、各候補文字についてステップS40
2(図5A)で算出された確信度Crの組として得られ
る。なお、確信度Crの組として、各候補文字について
ステップS402(図5A)で算出された確信度Crに
インデックス文字列ごとの係数を掛けた値の組が用いら
れてもよい。インデックス文字列ごとの係数は、例え
ば、一般の文書中に出現する確率が小さいインデックス
文字列については、低く設定され得る。例えば、文字列
「ヲヲ」や文字列「ヰヰ」は、一般の日本語の文書中に
出現する確率は小さい。このようなインデックス文字列
に対しては、インデックス文字列ごとの係数は低く設定
され得る。
【0075】候補文字−確信度テーブル1501(図5
B)の隣接した文字位置に登録された候補文字を組み合
わせることによってインデックス文字列を生成すること
は、文字認識結果140(図4)に示される複数の欄の
うち、隣接した(連続した)複数の欄(例えば、欄10
45と欄1046)のそれぞれに含まれる候補文字を組
み合わせることと等価である。
【0076】このように、図5Aに示されるステップS
401〜ステップS405において、CPU110(図
1)は、インデックステーブル190を作成するインデ
ックステーブル作成部として機能する。
【0077】インデックステーブル190は、図5Bに
示される候補文字−確信度テーブル1501の隣接した
文字位置に登録された候補文字のすべての組み合わせを
インデックス文字列として登録することによって作成さ
れる。
【0078】ただし、候補文字−確信度テーブル150
1の隣接した文字位置に登録された候補文字のすべての
組み合わせに重複する組み合わせがある場合には、イン
デックステーブル190には、1つのインデックス文字
列について複数の文字位置と確信度Crの組とが登録さ
れる。例えば、候補文字−確信度テーブル1501の文
字位置「2」および「3」に登録された候補文字「ン」
および「ワ」からインデックス文字列「ンワ」が生成さ
れ、文字位置「4」および「5」に登録された候補文字
「ン」および「ワ」からもインデックス文字列「ンワ」
が生成される。この場合、1つのインデックス文字列
「ンワ」について、文字位置2、確信度Cr(0.7,
0.2)と文字位置4、確信度Cr(0.1,0.2)
とがインデックステーブル190に登録される(行16
04)。
【0079】インデックス文字列に含まれる文字数は、
予め定められている。図6に示される例では、インデッ
クス文字列に含まれる文字数は、「2」である。インデ
ックス文字列に含まれる文字数は、任意の自然数であり
得る。しかし、一般に、インデックス文字列に含まれる
文字数は2以上であることが好ましい。インデックス文
字列に含まれる文字数が1であると、1つのインデック
ス文字列について登録される文字位置と確信度Crとの
数が多くなり、検索を高速に行なうことができなくなる
からである。
【0080】インデックステーブル190中のインデッ
クス文字列は、検索を容易にするために所定の順序に従
って順序付けられていることが好ましい。
【0081】インデックステーブル190は、図4に示
される文字認識結果140中の1つの文字位置に対する
複数の候補文字を用いて作成されている。その結果、イ
ンデックステーブル190は、同一の文字位置に対応す
る複数のインデックス文字列を含む。従って、複数のイ
ンデックス文字列が、文字認識結果の1つの部分に一致
し得る。例えば、インデックステーブル190の行16
02に示されるインデックス文字列「イシ」と、インデ
ックステーブル190の行1603に示されるインデッ
クス文字列「イン」とは、いずれも、文字位置「1」に
よって示される文字認識結果140中の部分(欄104
5と欄1046とを包含する部分)に一致する。これに
よって、検索漏れを減らすことが可能になる。
【0082】このように、インデックス文字列と、文字
認識結果の部分とが一致するとは、インデックス文字列
に含まれる各文字が、文字認識結果の連続した部分(図
4に示される隣接した欄)の1つに含まれる少なくとも
1つの候補文字の1つと同一である(文字コードが等し
い)という概念を含む。
【0083】インデックステーブル190のような、同
一の文字位置に対応する複数のインデックス文字列を含
むインデックステーブルは、1つの文字位置に対する候
補文字が1つであるような文字認識結果からも作成する
ことができる。
【0084】図7は、1つの文字位置に対する候補文字
が1つである文字認識結果140aの一例を示す。文字
認識結果140aは、図4に示される文字認識結果14
0と比較して、1つの文字位置に対する候補文字が1つ
であるという点が異なる。文字認識結果140aは、オ
リジナル文書1310(図3)に含まれる「イ」、
「ン」、「デ」、「ッ」、「ク」、「ス」という各文字
が、それぞれ、「イ」、「シ」、「テ」、「ソ」、
「タ」、「ス」と認識されたことを示す。オリジナル文
書1310に含まれる文字「ン」、「デ」、「ッ」、
「ク」は、誤って認識されている。
【0085】図8Aは、図7に示される文字認識結果1
40aからインデックステーブルを作成する処理(イン
デックステーブル作成処理)の手順を示す。
【0086】ステップS501:確信度テーブルを参照
して、文字認識結果140aの1つの文字位置に対する
候補文字と信頼度Rrとの1つの組から、類似文字と確
信度Crとの組が求められる。類似文字と確信度Crと
の組は、複数得られてもよい。ステップS501の処理
は、各文字位置について行なわれる。確信度テーブル
は、図9を参照して後述される。
【0087】ステップS502:類似文字の確信度Cr
が、所定の基準値以上であるか否かが判定される。所定
の基準値とは、例えば、0.05である。ステップS5
02における判定結果が「Yes」である場合には、処
理はステップS503に進む。ステップS502におけ
る判定結果が「No」である場合には、処理はステップ
S504に進む。
【0088】ステップS503:類似文字と、ステップ
S501で求められた確信度Crとが類似文字−確信度
テーブルに登録される。
【0089】図8Bは、類似文字−確信度テーブル18
01の例を示す。類似文字と確信度Crとは、文字位置
1042(図7)ごとに、類似文字−確信度テーブル1
801に登録される。
【0090】図8Aを再び参照して、インデックステー
ブル作成処理の説明を続ける。
【0091】ステップS504:すべての文字位置の候
補文字について、ステップS502〜ステップS503
の処理が行なわれたか否かが判定される。ステップS5
04における判定結果が「Yes」である場合には、処
理はステップS505に進む。ステップS504におけ
る判定結果が「No」である場合には、他の類似文字に
ついて、ステップS502からの処理が行なわれる。
【0092】ステップS505:類似文字−確信度テー
ブル1801(図8B)の隣接した文字位置に登録され
た類似文字からインデックステーブルが作成される。イ
ンデックス文字列は、類似文字−確信度テーブル180
1(図8B)の隣接した文字位置に登録された類似文字
を組み合わせることによって生成される。この処理は、
図5Aに示されるステップS405において、候補文字
−確信度テーブル1501(図5B)からインデックス
テーブル190(図6)を作成した処理と同様である。
【0093】生成されるインデックステーブルは、図6
に示されるインデックステーブル190と同様である。
例えば、インデックステーブル190の行1602にお
いて、欄1611は、インデックス文字列「イシ」に含
まれる先頭の類似文字「イ」の文字位置を示す。欄16
12はインデックス文字列「イシ」に含まれる類似文字
のそれぞれについて定義される確信度Crの組(0.
9,0.8)を示す。
【0094】図9は、確信度テーブル150の一例を示
す。図9には、確信度テーブル150のうち、候補文字
「シ」に関する部分のみを示す。
【0095】確信度テーブル150は、例えば、文字認
識結果として1つの候補文字「シ」および信頼度Rr
「0.9」が得られた場合に、類似文字「ン」および確
信度Cr「0.2」と、類似文字「シ」および確信度C
r「0.8」とが得られることを示す。類似文字「ン」
および類似文字「シ」は、候補文字「シ」と文字の形状
が類似しているか、同一である文字である。
【0096】候補文字「シ」についての類似文字が
「ン」および「シ」であることは、文字認識結果として
1つの候補文字「シ」が得られた場合に、オリジナルの
文書中には類似文字「ン」または類似文字「シ」が書か
れている可能性が高いことを示す。
【0097】確信度テーブル150は、予め、多種多数
の文字が書かれたオリジナル文書に対して文字認識を行
い、それによって得られる文字認識結果および信頼度R
rと、オリジナル文書に実際に存在する文字とを比較す
ることによって作成され得る。例えば、確信度テーブル
150の部分1811に示される確信度Crの「0.
2」は、様々なフォントや様々な印字品質で書かれた文
字「ン」に対して文字認識を行った場合に、候補文字
「シ」および信頼度Rr0.9が得られる確率から求め
られ得る。
【0098】確信度テーブル150は、全ての文字の組
み合わせに対して用意される。ただし、確信度Crが所
定の基準よりも小さくなるような類似文字については、
確信度テーブル150に登録する必要はない。従って、
1つの候補文字について得られる類似文字の個数を限定
することができる。
【0099】文字認識によって得られる信頼度Rrが図
9に示される確信度テーブル150に定義される信頼度
Rrと一致しない場合(例えば、文字認識によって得ら
れる信頼度Rrが0.8)である場合には、適切な方法
により類似文字の確信度Crが計算される。例えば、文
字認識によって得られる信頼度Rrが0.5よりも小さ
い場合には、確信度テーブル150中の信頼度Rr
「0.5」の行が参照される。また、文字認識によって
得られる信頼度Rrが0.9よりも大きい場合には、確
信度テーブル150中の信頼度Rr「0.9」の行が参
照される。文字認識によって得られる信頼度Rrが確信
度テーブル150に定義される2つの信頼度Rrの間の
値である場合には、確信度テーブル150に定義される
2つの信頼度Rrのうち、文字認識によって得られる信
頼度Rrに近い値の行が参照される。
【0100】なお、確信度テーブル150の構造は、図
9に示される構造に限定されない。確信度テーブル15
0は、候補文字と信頼度Rrとの組から、類似文字と確
信度Crの組とが少なくとも1つ得られる限り、任意の
構造を有し得る。例えば、確信度Crの信頼度Rrに対
する分布を一様分布であると仮定して、その分布範囲を
確信度の上限および下限、信頼度Rrの上限および下限
により表し、これらの上限値および下限値が確信度テー
ブル150に定義されてもよい。あるいは、確信度Cr
の信頼度Rrに対する分布をガウス分布であると仮定し
て、その分布の平均値と分散値とが確信度テーブル15
0に定義されてもよい。
【0101】このような確信度テーブル150を用いて
図8Aに示されるインデックステーブル作成処理を実行
することにより、1つの文字位置に対する候補文字が1
つである文字認識結果140a(図7)からでも、同一
の文字位置に対応する複数のインデックス文字列を含む
インデックステーブル190(図6)を作成することが
できる。
【0102】確信度テーブル150は、検索装置1がイ
ンデックステーブル作成処理を図5Aに示される手順に
従って実行する場合には、省略され得る。
【0103】このように、インデックステーブル190
はまた、図7に示される文字認識結果140a中の1つ
の文字位置に対する1つの候補文字に予め対応付けられ
た複数の類似文字を用いて作成され得る。その結果、イ
ンデックステーブル190は、同一の文字位置に対応す
る複数のインデックス文字列を含む。従って、複数のイ
ンデックス文字列が、文字認識結果の1つの部分に一致
し得る。これによって、文字認識処理において誤認識が
生じた場合にも検索漏れを減らすことが可能になる。
【0104】但し、インデックス文字列に含まれる各文
字が、文字認識結果の連続した部分(図7に示される隣
接した欄)の1つに含まれる1つの候補文字と同一であ
るとは限らない。例えば、インデックステーブル190
の行1603に示されるインデックス文字列「イン」に
含まれる文字「ン」は、文字認識結果140a(図7)
の欄1046aに含まれる1つの候補文字「シ」と同一
ではない。しかし、インデックス文字列「イン」に含ま
れる文字「ン」は、その候補文字「シ」に予め確信度テ
ーブル150(図9)により対応付けられた類似文字
「ン」と同一である。
【0105】このように、インデックス文字列と、文字
認識結果の部分とが一致するとは、インデックス文字列
に含まれる各文字が、文字認識結果の連続した部分(図
4に示される隣接した欄)の1つに含まれる1つの候補
文字に予め対応付けられた少なくとも1つの文字の1つ
と同一である(文字コードが等しい)という概念を含
む。
【0106】次に、インデックステーブル190(図
6)を用いて文字認識結果からキーワードを検索する処
理(文書検索処理)を説明する。
【0107】図10は、文書検索処理の手順を示す。以
下、文書検索処理の各ステップを詳しく説明する。
【0108】ステップS301:キーワードが入力され
る。以下、キーワードが「インデックス」という文字列
である場合を例として説明する。
【0109】ステップS302:キーワードから、連続
する2文字の組(長さが2の文字列)が抽出される。こ
の例では、2文字の組「イン」、「ンデ」、「デッ」、
「ック」、「クス」が抽出される。なお、抽出される文
字列の長さは、インデックステーブルに定義されるイン
デックス文字列の長さと等くなるように設定される。従
って、インデックス文字列の長さがn(nは自然数)で
ある場合には、キーワードからn文字の組(長さがnの
文字列)が抽出される。以下の説明では、n=2である
ものとする。
【0110】抽出された複数の2文字の組は、互いのそ
の一部がオーバーラップしている。しかし、オーバーラ
ップしないようにキーワードから2文字の組を抽出して
もよい。例えば、キーワード「インデックス」から2文
字の組「イン」、「デッ」、「クス」が抽出されてもよ
い。ただし、キーワードに含まれるそれぞれの文字は、
抽出された2文字の組の少なくとも1つに含まれるよう
に、キーワードから2文字の組が抽出される。
【0111】ステップS303:インデックステーブル
190(図6)を参照し、2文字の組に対応する文字位
置と確信度Crとが抽出される。この例では、2文字の
組「イン」に対応する文字位置「1」、確信度Crの組
(0.9,0.7)(行1603)、2文字の組「ン
デ」に対応する文字位置「2」、確信度Crの組(0.
7,0.8)(行1605)、2文字の組「デッ」に対
応する文字位置「3」、確信度Crの組(0.8,0.
3)(行1606)、2文字の組「ック」に対応する文
字位置「4」、確信度Crの組(0.3,0.1)(行
1607)、および、2文字の組「クス」に対応する文
字位置「5」、確信度Crの組(0.1,0.9)(行
1608)が得られる。
【0112】なお、図6に示されるインデックステーブ
ル190から各文字列に対応する文字位置および確信度
Crを効率的に取り出すために、インデックス文字列に
含まれる文字の文字コードと、インデックス文字列を含
む行が格納されているアドレス(例えば、HDD170
上のアドレス)との対応表を用いてもよい。また、この
ようなアドレスは、2分木探索法を用いて求められても
よい。
【0113】ステップS304:すべての2文字の組に
ついて、ステップS303の処理が行なわれたか否かが
判定される。ステップS304における判定結果が「N
o」である場合には、他の2文字の組についてステップ
S303の処理が行なわれる。ステップS304におけ
る判定結果が「Yes」である場合には、処理はステッ
プS305に進む。
【0114】ステップS305:すべての2文字の組が
所定の順序で並んでいるか否かが判定される。この判定
は、ステップS304でそれぞれの2文字の組について
得られた文字位置に基づいて行なわれる。具体的には、
キーワードのk文字目(kは自然数)を先頭とする2文
字の組について得られた文字位置m(mは自然数)が、
すべての2文字の組について、「m−k=一定」という
関係を満たすならば、すべての2文字の組が所定の順序
で並んでいると判定される。
【0115】すべての2文字の組が所定の順序で並んで
いることは、キーワードが文字認識結果中の特定の部分
に一致することを示す。その特定の部分とは、キーワー
ドに含まれる各文字が一致する文字認識結果中の部分を
包含する部分である。
【0116】この例では、キーワード「インデックス」
が、文字認識結果140(図4)の部分1047または
文字認識結果140a(図7)の部分1047aに一致
する。
【0117】このような部分1047または部分104
7aの位置は、その部分の先頭の欄の文字位置「1」と
して特定される。
【0118】この例では、キーワード「インデックス」
から抽出されたすべての2文字の組は、上述した関係を
満たすために、「所定の順序で並んでいる」と判定され
る。
【0119】ステップS305における判定が「Ye
s」である場合には、処理はステップS306に進む。
ステップS305における判定が「No」である場合に
は、処理はステップS308に進む。
【0120】このように、ステップS302〜ステップ
S305において、CPU110(図1)は、インデッ
クステーブル190(図6)に含まれるインデックス文
字列とインデックス文字列に一致する文字認識結果中の
部分の位置とに基づいて、キーワードがその文字認識結
果中の部分に一致するか否かを判定し、もし一致する場
合には、キーワードに一致するその文字認識結果中の部
分の位置を特定する位置特定部として機能する。
【0121】ステップS306:キーワード確信度Kc
が算出される。キーワード確信度Kcは、例えば、キー
ワード「インデックス」から抽出された2文字の組「イ
ン」、「ンデ」、「デッ」、「ック」、「クス」のそれ
ぞれに対応する確信度Crの組の左側の値と、キーワー
ド「インデックス」を構成する最後の2文字の組「ク
ス」に対応する確信度Crの組の右側の値との相加平均
として求められる。これは、キーワードに含まれる各文
字について定義された確信度の相加平均を求めることと
等価である。この例では、キーワード確信度Kc=
(0.9+0.7+0.8+0.3+0.1+0.9)
/6=0.61となる。
【0122】なお、キーワード確信度Kcは、相乗平
均、メディアン値、または最頻値によって算出されても
よい。キーワード確信度Kcは、2文字の組のそれぞれ
に対応する確信度Crの組のうち、小さくない方の値だ
けを用いて算出されてもよい。確信度Crが予め定めら
れた基準値未満の場合には、その確信度Crをキーワー
ド確信度Kcの算出に用いないようにしてもよい。
【0123】このように、キーワード確信度Kcは、キ
ーワードに含まれる各文字について定義された確信度C
rに基づいて算出される。
【0124】算出されたキーワード確信度Kcは、文字
認識結果中の文字位置に対応するオリジナル文書中の位
置に、そのキーワードが存在する確率を示す。
【0125】例えば、ステップS305で、キーワード
「インデックス」が、文字認識結果140(図4)の部
分1047または文字認識結果140a(図7)の部分
1047aに一致すると判定され、このような部分10
47または部分1047aの位置が文字位置「1」と特
定された場合、文字位置「1」に対応するオリジナル文
書中の位置(すなわち、オリジナル文書の先頭)にキー
ワード「インデックス」が存在する確率は、0.61で
ある。
【0126】このように、ステップS306において、
CPU110は、インデックステーブル190(図6)
に含まれる確信度Crに基づいて、キーワードに一致す
る文字認識結果中の部分の位置に対応するオリジナル文
書中の位置にキーワードが存在する確率を示すキーワー
ド確信度Kcを算出する算出部として機能する。
【0127】ステップS307:キーワード確信度Kc
が基準値(所定の値)以上であるか否かが判定される。
基準値は、例えば、0.5であり得る。この基準値は、
固定値であってもよいし、キーワードに応じて設定され
てもよい。例えば、キーワードの文字数に応じて基準値
を変更してもよい。
【0128】この基準値を高くすると、検索ノイズを減
らすことができるが、高くしすぎると検索漏れが起こり
やすくなる。一般に、キーワードの文字数が多い場合に
は、基準値を低く設定することにより、誤認識が多い場
合にも検索漏れを減らすことが好ましい。キーワードの
文字数(キーワードに含まれる文字の数)が多い場合に
は、基準値を低く設定することによっても検索ノイズは
あまり増加しないからである。
【0129】キーワードに含まれる文字の種類(字種)
に応じて基準値を変更してもよい。例えば、キーワード
の各文字がカタカナである場合、漢字である場合、漢字
とカタカナとの混合である場合、ひらがなである場合の
それぞれについて、基準値を最適に設定することによ
り、より効果的な検索を行うことができる。
【0130】あるいは、この基準値は、ユーザによって
指定されてもよい。ユーザは、検索漏れを防ぐか、検索
ノイズを減少させるかという目的に応じて、適切な基準
値を設定し得る。
【0131】ステップS307における判定が「Ye
s」である場合には、処理はステップS309に進む。
ステップS307における判定が「No」である場合に
は、処理はステップS308に進む。
【0132】このように、ステップS305においてキ
ーワードが文字認識結果140または文字認識結果14
0aの部分に一致するという検索結果が得られた後に、
ステップS307が実行され、実際のオリジナル文書に
キーワードがあるか否か(検索結果が正当であるか否
か)がキーワード確信度Kcに基づいて判定される。ス
テップS307において、CPU110は、キーワード
確信度Kcに基づいて検索結果の正当性を判定する判定
部として機能する。
【0133】ステップS308:キーワードがオリジナ
ル文書中に存在しないと判断される。端末100(図
1)のディスプレイには、例えば、「キーワードが見つ
かりませんでした」というメッセージが表示される。
【0134】ステップS309:キーワードが検出され
たと判断される。検索結果として、検出箇所を示す文字
位置と、キーワード確信度Kcとが得られる。検出箇所
が複数である場合には、文字位置とキーワード確信度K
cとの組が複数得られる。
【0135】上述した、キーワードが「インデックス」
である例では、検索結果として、文字位置「1」と、キ
ーワード確信度Kc「0.61」とが得られる。
【0136】検索結果は、例えば、端末100に表示さ
れる。検索装置1は、例えば、HDD170に格納され
た文書画像データ130(および/または、文字認識結
果140、140a)を端末100のディスプレイに表
示し、そのディスプレイに表示された文書画像データ1
30(および/または、文字認識結果140、140
a)の領域のうちキーワードに対応する領域を強調表示
する。強調表示は、例えば、表示される文字の属性(例
えば、文字の色や濃度、文字背景の色や濃度、文字の大
きさ、文字の太さ、フォント等)を変更することによっ
てなされる。このような属性は、キーワード確信度Kc
に応じて変化させてもよい。例えば、キーワード確信度
Kcが0.5〜1.0の間を0.1の刻み幅で区分し、
各区分に異なる属性を設定して強調表示を行ってもよ
い。この場合には、ユーザがキーワード確信度Kcの大
小を視覚的に把握することができるので、ユーザが検索
結果の正当性のさらなる判定を視覚的に、容易に行うこ
とができるという利点が得られる。
【0137】あるいは、キーワード確信度Kcが高い検
出箇所から順に、キーワードに対応する領域を表示して
もよい。
【0138】このようにして、ユーザが検索結果の正当
性のさらなる判定を行う場合には、ステップS307に
おいて用いられる基準値を低く設定してもよい。
【0139】あるいは、ステップS307が省略されて
もよい。この場合、検索結果の正当性の判定はすべてユ
ーザにより行なわれる。ユーザは、キーワード確信度K
cに基づいて、検索結果の正当性の判定を容易に行うこ
とが可能である。
【0140】以下、図10に示される文書検索処理によ
り、検索ノイズが抑制される例を説明する。
【0141】キーワード「ワックス」を指定して、図6
に示されるインデックステーブル190を用いて図10
に示される文書検索処理を行った場合、ステップS30
5における判定は「Yes」となり、文字位置「3」が
特定される。
【0142】ステップS306において、キーワード確
信度Kc=(0.2+0.3+0.1+0.9)/4=
0.38と算出される。
【0143】キーワード確信度Kcが基準値0.5より
も小さいので、キーワードが存在しないと判断される。
【0144】キーワード「デンワ」を指定した場合、ス
テップS305における判定は「Yes」となり、文字
位置「3」が特定される。
【0145】ステップS306において、キーワード確
信度Kc=(0.8+0.1+0.2)/3=0.37
と算出される。
【0146】キーワード確信度Kcが基準値0.5より
も小さいので、キーワードが存在しないと判断される。
【0147】同様に、キーワード「フック」を指定した
場合、ステップS305における判定は「Yes」とな
り、文字位置「3」が特定される。
【0148】ステップS306において、キーワード確
信度Kc=(0.2+0.3+0.1)/3=0.2と
算出される。
【0149】キーワード確信度Kcが基準値0.5より
も小さいので、キーワードが存在しないと判断される。
【0150】このように、本発明の検索装置1によれ
ば、オリジナル文書中にキーワードが存在しないにもか
かわらず、キーワードが検出されることを抑制する、す
なわち、検索ノイズを抑制することが可能になる。
【0151】本発明の文書検索処理は、コンピュータ上
のソフトウェアによって実現されることに限定されな
い。本発明の文書検索処理をハードウェアによって実現
してもよいし、ソフトウェアとハードウェアの組み合わ
せによって実現してもよい。
【0152】なお、上述した実施の形態では、日本語の
文書を例に取り説明した。しかし、本発明の適用は、日
本語の文書に限定されない。他の任意の文書(例えば、
中国語の文書、英語の文書、韓国語の文書)に本発明を
適用することも可能である。
【0153】
【発明の効果】本発明によれば、インデックステーブル
に含まれる確信度に基づいて、キーワードに一致する文
字認識結果中の部分の位置に対応するオリジナル文書中
の位置にキーワードが存在する確率を示すキーワード確
信度が算出される。従って、キーワード確信度に基づい
て、検索結果の正当性を判定することが容易になる。
【0154】本発明の検索装置は、インデックステーブ
ルを用いるので、高速な検索を行うことが可能である。
【図面の簡単な説明】
【図1】本発明の検索装置1の構成を示すブロック図
【図2】オリジナル文書中の文字を認識することによっ
て得られる文字認識結果からキーワードを検索するため
に、検索装置1によって実行される処理の流れを示す図
【図3】オリジナル文書1310の一例を示す図
【図4】オリジナル文書1310に対して文字認識処理
を行うことにより得られる文字認識結果140の一例を
示す図
【図5A】インデックステーブル作成処理の手順を示す
フローチャート
【図5B】候補文字−確信度テーブル1501の例を示
す図
【図6】インデックステーブル作成処理によって作成さ
れたインデックステーブル190の一例を示す図
【図7】1つの文字位置に対する候補文字が1つである
文字認識結果140aの一例を示す図
【図8A】図7に示される文字認識結果140aからイ
ンデックステーブルを作成する処理の手順を示すフロー
チャート
【図8B】類似文字−確信度テーブル1801の例を示
す図
【図9】確信度テーブル150の一例を示す図
【図10】文書検索処理の手順を示すフローチャート
【図11】従来技術によって、オリジナル文書中に存在
する可能性のある複数の文字列をインデックス文字列と
てし登録したインデックステーブル1901の一例を示
す図
【符号の説明】
1 検索装置 100 端末 110 CPU 120 画像入力機器 130 文書画像データ 140 文字認識結果 170 HDD 180 ワークメモリ 190 インデックステーブル
フロントページの続き (72)発明者 松川 善彦 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 目片 強司 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B064 AA07 BA01 EA19 5B075 ND02 NK02 PR06 QM08

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 インデックステーブルを用いて、オリジ
    ナル文書中の文字を認識することによって得られる文字
    認識結果からキーワードを検索する検索装置であって、 前記インデックステーブルは、インデックス文字列と、
    前記インデックス文字列に一致する前記文字認識結果中
    の部分の位置と、前記インデックス文字列に含まれる各
    文字について定義され、前記文字に一致する前記文字認
    識結果中の部分に対応する前記オリジナル文書中の部分
    に前記文字が存在する確率を示す確信度とを含み、 前記検索装置は、 前記インデックステーブルに含まれる前記インデックス
    文字列と前記インデックス文字列に一致する前記文字認
    識結果中の部分の位置とに基づいて、前記キーワードが
    前記文字認識結果中の部分に一致するか否かを判定し、
    もし一致する場合には、前記キーワードに一致する前記
    文字認識結果中の部分の位置を特定する位置特定部と、 前記インデックステーブルに含まれる前記確信度に基づ
    いて、前記キーワードに一致する前記文字認識結果中の
    部分の位置に対応する前記オリジナル文書中の位置に前
    記キーワードが存在する確率を示すキーワード確信度を
    算出する算出部とを備えた、検索装置。
  2. 【請求項2】 前記キーワード確信度に基づいて検索結
    果の正当性を判定する判定部をさらに含む、請求項1に
    記載の検索装置。
  3. 【請求項3】 前記判定部は、前記キーワード確信度が
    所定の値以上である場合に、前記検索結果を正当である
    と判定する、請求項2に記載の検索装置。
  4. 【請求項4】 前記所定の値は、前記キーワードに含ま
    れる文字の数および前記キーワードに含まれる文字の種
    類の少なくとも一方に応じて設定される、請求項3に記
    載の検索装置。
  5. 【請求項5】 前記検索装置は、前記インデックステー
    ブルを作成するインデックステーブル作成部をさらに含
    み、 前記文字認識結果は、前記オリジナル文書の文字のそれ
    ぞれに対応する複数の部分を含み、 前記複数の部分のそれぞれは、少なくとも1つの文字を
    含み、 前記インデックステーブル作成部は、前記複数の部分の
    うち、連続した複数の部分のそれぞれに含まれる前記少
    なくとも1つの文字を組み合わせることにより、前記イ
    ンデックス文字列を生成する、請求項1に記載の検索装
    置。
  6. 【請求項6】 前記検索装置は、前記インデックステー
    ブルを作成するインデックステーブル作成部をさらに含
    み、 前記文字認識結果は、前記オリジナル文書の文字のそれ
    ぞれに対応する複数の部分を含み、 前記複数の部分のそれぞれは、文字を含み、 前記インデックステーブル作成部は、前記複数の部分の
    うち、連続した複数の部分のそれぞれに含まれる前記文
    字に予め対応付けられた少なくとも1つの文字を組み合
    わせることにより、前記インデックス文字列を生成す
    る、請求項1に記載の検索装置。
  7. 【請求項7】 インデックステーブルを用いて、オリジ
    ナル文書中の文字を認識することによって得られる文字
    認識結果からキーワードを検索する検索処理を実行させ
    るためのプログラムを記録したコンピュータ読み取り可
    能な記録媒体であって、 前記インデックステーブルは、インデックス文字列と、
    前記インデックス文字列に一致する前記文字認識結果中
    の部分の位置と、前記インデックス文字列に含まれる各
    文字について定義され、前記文字に一致する前記文字認
    識結果中の部分に対応する前記オリジナル文書中の部分
    に前記文字が存在する確率を示す確信度とを含み、 前記検索処理は、 前記インデックステーブルに含まれる前記インデックス
    文字列と前記インデックス文字列に一致する前記文字認
    識結果中の部分の位置とに基づいて、前記キーワードが
    前記文字認識結果中の部分に一致するか否かを判定し、
    もし一致する場合には、前記キーワードに一致する前記
    文字認識結果中の部分の位置を特定するステップと、 前記インデックステーブルに含まれる前記確信度に基づ
    いて、前記キーワードに一致する前記文字認識結果中の
    部分の位置に対応する前記オリジナル文書中の位置に前
    記キーワードが存在する確率を示すキーワード確信度を
    算出するステップとを包含する、記録媒体。
  8. 【請求項8】 インデックステーブルを用いて、オリジ
    ナル文書中の文字を認識することによって得られる文字
    認識結果からキーワードを検索する検索処理を実行させ
    るためのプログラムであって、 前記インデックステーブルは、インデックス文字列と、
    前記インデックス文字列に一致する前記文字認識結果中
    の部分の位置と、前記インデックス文字列に含まれる各
    文字について定義され、前記文字に一致する前記文字認
    識結果中の部分に対応する前記オリジナル文書中の部分
    に前記文字が存在する確率を示す確信度とを含み、 前記検索処理は、 前記インデックステーブルに含まれる前記インデックス
    文字列と前記インデックス文字列に一致する前記文字認
    識結果中の部分の位置とに基づいて、前記キーワードが
    前記文字認識結果中の部分に一致するか否かを判定し、
    もし一致する場合には、前記キーワードに一致する前記
    文字認識結果中の部分の位置を特定するステップと、 前記インデックステーブルに含まれる前記確信度に基づ
    いて、前記キーワードに一致する前記文字認識結果中の
    部分の位置に対応する前記オリジナル文書中の位置に前
    記キーワードが存在する確率を示すキーワード確信度を
    算出するステップとを包含する、プログラム。
JP2001168888A 2000-06-06 2001-06-04 検索装置、記録媒体およびプログラム Expired - Lifetime JP3669626B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001168888A JP3669626B2 (ja) 2000-06-06 2001-06-04 検索装置、記録媒体およびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-168547 2000-06-06
JP2000168547 2000-06-06
JP2001168888A JP3669626B2 (ja) 2000-06-06 2001-06-04 検索装置、記録媒体およびプログラム

Publications (2)

Publication Number Publication Date
JP2002063197A true JP2002063197A (ja) 2002-02-28
JP3669626B2 JP3669626B2 (ja) 2005-07-13

Family

ID=26593382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001168888A Expired - Lifetime JP3669626B2 (ja) 2000-06-06 2001-06-04 検索装置、記録媒体およびプログラム

Country Status (1)

Country Link
JP (1) JP3669626B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241482A (ja) * 2006-03-06 2007-09-20 National Institute Of Information & Communication Technology デ−タ表示装置及び方法
JP2009020567A (ja) * 2007-07-10 2009-01-29 Mitsubishi Electric Corp 文書検索装置
JP2011034232A (ja) * 2009-07-30 2011-02-17 Rakuten Inc インデックス生成方法
WO2011105607A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
JPWO2010044123A1 (ja) * 2008-10-14 2012-03-08 三菱電機株式会社 検索装置、検索用索引作成装置、および検索システム
US11755659B2 (en) 2018-10-04 2023-09-12 Resonac Corporation Document search device, document search program, and document search method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180064A (ja) * 1994-12-22 1996-07-12 Canon Inc 文書検索方法及び文書ファイリング装置
JPH0934903A (ja) * 1995-07-18 1997-02-07 Nri & Ncc Co Ltd ファイル検索装置
JPH10187751A (ja) * 1996-12-24 1998-07-21 Casio Comput Co Ltd 認識データ処理装置およびそのプログラム記録媒体
JPH11143893A (ja) * 1997-11-07 1999-05-28 Matsushita Electric Ind Co Ltd 単語照合装置
JPH11232296A (ja) * 1998-02-18 1999-08-27 Mitsubishi Electric Corp 文書ファイリングシステムおよび文書ファイリング方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180064A (ja) * 1994-12-22 1996-07-12 Canon Inc 文書検索方法及び文書ファイリング装置
JPH0934903A (ja) * 1995-07-18 1997-02-07 Nri & Ncc Co Ltd ファイル検索装置
JPH10187751A (ja) * 1996-12-24 1998-07-21 Casio Comput Co Ltd 認識データ処理装置およびそのプログラム記録媒体
JPH11143893A (ja) * 1997-11-07 1999-05-28 Matsushita Electric Ind Co Ltd 単語照合装置
JPH11232296A (ja) * 1998-02-18 1999-08-27 Mitsubishi Electric Corp 文書ファイリングシステムおよび文書ファイリング方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241482A (ja) * 2006-03-06 2007-09-20 National Institute Of Information & Communication Technology デ−タ表示装置及び方法
JP2009020567A (ja) * 2007-07-10 2009-01-29 Mitsubishi Electric Corp 文書検索装置
JPWO2010044123A1 (ja) * 2008-10-14 2012-03-08 三菱電機株式会社 検索装置、検索用索引作成装置、および検索システム
JP2011034232A (ja) * 2009-07-30 2011-02-17 Rakuten Inc インデックス生成方法
WO2011105607A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
JP5075291B2 (ja) * 2010-02-26 2012-11-21 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
US8825670B2 (en) 2010-02-26 2014-09-02 Rakuten, Inc. Information processing device, information processing method, and recording medium that has recorded information processing program
US8949267B2 (en) 2010-02-26 2015-02-03 Rakuten, Inc. Information processing device, information processing method, and recording medium that has recorded information processing program
US11755659B2 (en) 2018-10-04 2023-09-12 Resonac Corporation Document search device, document search program, and document search method

Also Published As

Publication number Publication date
JP3669626B2 (ja) 2005-07-13

Similar Documents

Publication Publication Date Title
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
JP3427692B2 (ja) 文字認識方法および文字認識装置
US7610193B2 (en) Document based character ambiguity resolution
US7162086B2 (en) Character recognition apparatus and method
JP3452774B2 (ja) 文字認識方法
JP2713622B2 (ja) 表形式文書読取装置
JPS61502495A (ja) 暗号解析装置
US10963717B1 (en) Auto-correction of pattern defined strings
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
US20030156754A1 (en) Method and system for extracting title from document image
JP3599180B2 (ja) 検索方法、検索装置および記録媒体
JP3669626B2 (ja) 検索装置、記録媒体およびプログラム
JP3467437B2 (ja) 文字認識装置及びその方法とプログラム記録媒体
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
US20170249299A1 (en) Non-transitory computer readable medium and information processing apparatus and method
JPH08263587A (ja) 文書入力方法および文書入力装置
JPH07271921A (ja) 文字認識装置および文字認識方法
JPH06223121A (ja) 情報検索装置
JPH07319880A (ja) キーワード抽出・検索装置
JPH11120294A (ja) 文字認識装置および媒体
JP2976990B2 (ja) 文字認識装置
JP2024003769A (ja) 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム
JP2022148922A (ja) 情報処理装置及びプログラム
JP2931485B2 (ja) 文字切出し装置及び方法
JPH07120396B2 (ja) 文書読み取り装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050408

R150 Certificate of patent or registration of utility model

Ref document number: 3669626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080422

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090422

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100422

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110422

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120422

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130422

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130422

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term