JPH08272811A - 文書管理方法及びその装置 - Google Patents

文書管理方法及びその装置

Info

Publication number
JPH08272811A
JPH08272811A JP7073185A JP7318595A JPH08272811A JP H08272811 A JPH08272811 A JP H08272811A JP 7073185 A JP7073185 A JP 7073185A JP 7318595 A JP7318595 A JP 7318595A JP H08272811 A JPH08272811 A JP H08272811A
Authority
JP
Japan
Prior art keywords
text data
character
document
search
predetermined threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7073185A
Other languages
English (en)
Inventor
Kazuyuki Saito
和之 齋藤
Toru Futaki
徹 二木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP7073185A priority Critical patent/JPH08272811A/ja
Publication of JPH08272811A publication Critical patent/JPH08272811A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 検索キーワードとテキストデータとの照合の
ヒット率を向上させる文書管理方法及びその装置を提供
する。具体的には、文書の登録方法及び検索方法を提供
する。 【構成】 文書登録時には、文書画像からテキスト領域
を取り出して文字認識処理を行い、複数のテキストデー
タ候補からなるテキストデータ群を前記文書画像と共に
登録し(図2)、文書検索時には、前記テキストデータ
群の組合せと検索キーワードとを照合することにより検
索を行う(S203)。登録される前記テキストデータ
の数は、文字認識確率のテキストデータ分の累積が大き
い順に所定数であり、前記テキストデータ群の組合せ
は、文字認識確率のテキストデータ分の累積が大きい順
に所定数のテキストデータ(図11)、あるいはヒット
確率が所定の閾値より大きい文字(図12,図18,図
20)に限定される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書管理方法及びその装
置、特に文書画像を入力し、画像中の認識した文字列に
対して検索を行う文書管理方法及びその装置に関するも
のである。
【0002】
【従来の技術】従来、この種の文書管理装置における文
書の登録と検索は、次のように行っている。登録では、
まず登録したい文書画像をスキャナで読み取り、2値の
画像データに変換する。次に、テキスト領域と画像領域
とに領域分離を行い、テキスト(文字)領域を抽出す
る。続いて、テキスト領域に対して文字認識を行い、テ
キストデータを得る。一方、文書全体の画像データを圧
縮する。次に、前記テキストデータと文書全体の圧縮画
像データを併せて保存登録する。同様にして、多くの文
書を各々読み取って登録する。
【0003】又、検索では、入力された検索キーワード
を保存されているファイルのテキストデータと照合し、
検索キーワードと一致したテキストデータに対応する圧
縮画像データを伸長し、ディスプレイに表示する。全て
のテキストデータとの照合が終了した所で、検索処理を
終了する。次に、従来の検索時の処理の流れの一例を、
図9のフローチャートを用いて説明する。
【0004】まず、ステップS901で検索キーワード
を入力すると、ステップS902で検索データの数を記
憶しておくカウンタiに“1”をセットする。次にステ
ップS903で、保存されているi件目のデータのテキ
ストデータと入力された検索キーワードとの照合を行
う。この照合はいわゆる全文検索を行い、テキストデー
タに検索キーワードがそのまま含まれているかどうかを
調べる。ステップS904で検索キーワードを含まれて
いた場合はステップS905へ進み、発見されたテキス
トデータに対応する文書の画像データを伸長してディス
プレイに表示し、ステップS906へ進む。なお、検索
キーワードがテキストデータに含まれていた場合を「ヒ
ットした」と呼ぶことにする。一方、ステップS904
で検索キーワードが含まれていなかったいなかった場合
は、ステップS906へ進む。ステップS906ではも
うデータがなければ終了し、そうでなければステップS
907でカウンタiをひとつ増やして、ステップS90
3へ戻る。以上のようにして、検索キーワードがテキス
トとして含まれている文書画像を全て捜し出し、ディス
プレイ上に表示する。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来例では検索キーワードをそのままテキストデータと照
合していたため、テキストデータ中に文字の誤認識等に
起因して誤った文字が含まれていた場合、照合がヒット
せずに検索不能となったり、正しいデータが検索されな
いという欠点があった。
【0006】本発明は、前記従来の欠点を除去し、検索
キーワードとテキストデータとの照合のヒット率を向上
させる文書管理方法及びその装置を提供する。具体的に
は、文書の登録方法及び検索方法を提供する。
【0007】
【課題を解決するための手段】この課題を解決するため
に、本発明の文書管理方法は、文書登録時には、文書画
像からテキスト領域を取り出して文字認識処理を行い、
複数のテキストデータ候補からなるテキストデータ群を
前記文書画像と共に登録し、文書検索時には、前記テキ
ストデータ群の組合せと検索キーワードとを照合するこ
とにより検索を行うことを特徴とする。
【0008】ここで、登録される前記テキストデータの
数は、文字認識確率のテキストデータ分の累積が大きい
順に所定数である。また、登録される前記テキストデー
タは、文字認識確率のテキストデータ分の累積が所定の
閾値より大きいものである。また、登録される前記テキ
ストデータの文字は、該文字のヒット確率が所定の閾値
より大きい文字である。また、前記テキストデータ群の
組合せは、文字認識確率のテキストデータ分の累積が大
きい順に所定数のテキストデータに限定される。また、
前記テキストデータ群の組合せは、ヒット確率が所定の
閾値より大きい文字に限定される。また、前記ヒット確
率が所定の閾値より大きい文字の限定は、検索によりヒ
ットした文字の中で、テキストデータ群中での出現確率
が所定の閾値より小さい文字を検索結果から除外するこ
とで実現する。また、前記ヒット確率が所定の閾値より
大きい文字の限定は、前記テキストデータ群中の出現確
率が所定の閾値より大きい文字との比較に限定すること
より実現する。また、前記ヒット確率が所定の閾値より
大きい文字の限定は、前記テキストデータ群中の的中率
が所定の閾値より大きい文字との比較に限定することよ
り実現する。また、前記的中率は文字認識の相違度で表
される。
【0009】又、本発明の文書管理方法は、文書画像か
らテキスト領域を取り出して文字認識処理を行い、複数
のテキストデータ候補からなるテキストデータ群を前記
文書画像と共に登録することを特徴とする。又、本発明
の文書管理装置は、文書登録時に、文書画像からテキス
ト領域を取り出して文字認識処理を行い、複数のテキス
トデータ候補からなるテキストデータ群を前記文書画像
と共に登録する登録手段と、文書検索時に、前記テキス
トデータ群の組合せと検索キーワードとを照合すること
により検索を行う検索手段とを備えることを特徴とす
る。
【0010】ここで、前記登録手段は、1つの文書画像
に対して、文字認識確率のテキストデータ分の累積が大
きい順に所定数のテキストデータを登録する。また、前
記登録手段は、1つの文書画像に対して、文字認識確率
のテキストデータ分の累積が所定の閾値より大きいテキ
ストデータを登録する。また、前記登録手段は、1つの
文書画像に対して、文字のヒット確率が所定の閾値より
大きい文字を登録する。また、前記検索手段は、前記テ
キストデータ群の組合せを、文字認識確率のテキストデ
ータ分の累積が大きい順に所定数のテキストデータに限
定する第1の限定手段を備える。また、前記検索手段
は、前記テキストデータ群の組合せを、ヒット確率が所
定の閾値より大きい文字に限定する第2の限定手段を備
える。また、前記ヒット確率が所定の閾値より大きい文
字の限定は、検索によりヒットした文字の中で、テキス
トデータ群中での出現確率が所定の閾値より小さい文字
を検索結果から除外することで実現する。また、前記ヒ
ット確率が所定の閾値より大きい文字の限定は、前記テ
キストデータ群中の出現確率が所定の閾値より大きい文
字との比較に限定することより実現する。また、前記ヒ
ット確率が所定の閾値より大きい文字の限定は、前記テ
キストデータ群中の的中率が所定の閾値より大きい文字
との比較に限定することより実現する。また、前記的中
率は文字認識の相違度で表される。
【0011】又、本発明の文書管理装置は、検索キーワ
ードと一致するテキストデータを含む文書画像を検索し
て表示する文書管理装置において、文書画像からテキス
ト領域を取り出して文字認識処理を行うテキストデータ
認識手段と、認識により得られた複数のテキストデータ
候補からなるテキストデータ群を前記文書画像と共に登
録する登録手段とを備えることを特徴とする。
【0012】
【実施例】以下、本発明の実施例を添付図面を用いて詳
細に説明する。 <文書管理装置の構成例>図1は本実施例の文書管理装
置の構成例を表すブロック図である。図1において、1
01は画像原稿に光を照射し、その反射光を読み取り電
気信号に変換するスキャナ、102はスキャナ101で
得られた電気信号を2値のデジタル電気信号に変換し、
他の装置構成要素に伝送するためのスキャナインタフェ
ース回路、103はディスプレイのウインドウ上で所望
とする座標を入力するためのポインティングデバイス
(マウス等)、104はポインティングデバイス103
からの信号を受け、それを他の装置構成要素に伝送する
ためのインターフェース回路、105は装置全体の制御
及び文字切り出し処理や認識処理を実行するためのCP
U、106はCPU105が実行する制御プログラム1
06a,各種処理プログラム106bやフォントデータ
106cなどを格納しているROM、107は文字画像
の展開や文字認識処理のための作業領域107aなどと
して用いられるRAMである。また、108は入力イメ
ージや認識結果を表示するためのディスプレイ、109
はディスプレイインターフェース回路である。ディスプ
レイ108には、RAM107の所定アドレスエリアに
格納されているVRAM領域107bのイメージを表示
する。110は、登録されたデータ110aが格納され
るハードディスク(HD)やフロッピーディスク(F
D)等の外部記憶装置で、111はそのインターフェー
ス回路である。そして112は各装置構成要素を接続す
るバスである。
【0013】<文書管理装置の動作例> (文書登録処理例1)文書をスキャナで読み取り、その
テキスト領域を文字認識して圧縮した画像領域と共に格
納する、本実施例の文書管理装置の登録の動作手順を、
図2〜図6を用いて説明する。
【0014】図2は登録時の処理の流れを表すフローチ
ャートである。ステップS601で、登録しようとする
文書をスキャナで読込み2値の画像データに変換する。
ステップS602で、得られた入力画像に対してテキス
ト領域と画像領域の領域分離を行い、文字画像が存在す
るテキスト領域だけを抽出する。テキスト領域だけの抽
出は、例えば2値の画像データにおいて黒画素の連結成
分を抽出し文字と推定されるものだけを結合することに
より達成される。次にステップS603で、テキスト領
域に対して文字認識処理を行い、テキストデータを得
る。このテキストデータは検索時に検索キーワードとの
照合に用いるためのものである。本実施例では、ステッ
プS603の文字認識処理で1つのテキストデータを選
択するのでなく、文字認識処理で候補となった複数のテ
キストデータを得る。以下本例では、第1候補から第4
候補までをテキストデータとする。
【0015】ステップS604で文書全体の画像データ
を圧縮する。本実施例では2値画像に最適な例えばMM
Rを用いる。ステップS605で、圧縮した画像データ
とテキストデータとを結合し、さらに日付や登録者名,
データサイズ等を記述したヘッダを付加して外部記憶装
置110に保存する。図3は領域分離の様子を模式的に
表した図である。
【0016】701という入力画像に対して領域分離を
行い、702のようなテキスト領域だけを得る。このテ
キスト領域に対して文字認識してテキストデータ703
bを得る。一方、元の画像データを圧縮した圧縮画像デ
ータ703cを前記テキストデータ703bとペアに
し、さらにヘッダ703aが付加され、703のような
1件のデータとして保存される。
【0017】図4は保存されるデータを表した図であ
る。1件目のデータが領域801に保存され、2番目以
降のデータは領域802から順に格納される。図5にテ
キスト領域の文章の一例を、図6に図5の文章を文字認
識した場合に保存される複数のテキストデータの候補例
を示す。 (文書検索処理例1)次に、実施例1の検索時の処理の
流れを、図7のフローチャートを用いて説明する。
【0018】まず、ステップS201で検索キーワード
を入力すると、ステップS202で検索データの数を記
憶しておくカウンタiに“1”をセットする。次にステ
ップS203で、保存されているi件目のデータの複数
のテキストデータ候補からなるテキストデータ群と入力
された検索キーワードとの照合を行う。この照合はいわ
ゆる全文検索を行い、テキストデータ群の組み合わせの
中に検索キーワードが含まれているかどうかを調べる。
ステップS204で、検索キーワードを含まれていた場
合にはステップS205へ進み、発見されたテキストデ
ータ群に対応する画像データを伸長してディスプレイに
表示し、ステップS206へ進む。
【0019】一方、ステップS204で検索キーワード
が含まれていなかったいなかった場合は、ステップS2
06へ進む。ステップS206ではもうデータがなけれ
ば終了し、そうでなければステップS207でカウンタ
iをひとつ増やし、ステップS203へ戻る。以上のよ
うにして、検索キーワードが文書領域に含まれている文
書画像を全て捜し出し、ディスプレイ上に表示する。
【0020】図8は、図7のステップS203の処理を
更に詳細に示したフローチャートである。前記図6のよ
うに、第1候補から第4候補までがテキストデータ群と
して保存されているとし、検索キーワードとして「内部
処理統合型」という文字列が入力されたとする。まず、
図8のステップS301〜S309で、検索キーワード
の先頭構成文字「内」が一致する個所、すなわち、図5
に示すP1(501)をテキストデータの全候補から検
索する。
【0021】図3において、ステップS301では、テ
キストデータの文字位置を表すカウンタnを“1”にす
る。次のステップS302では、検索キーワードの構成
文字位置を表すカウンタjを“1”にする。次のステッ
プS303では、候補文字順を表すカウンタkを“1”
にする。次のステップS304では、保存されているi
件目の画像データに対応するテキストデータ群の、n文
字目(最初はn=1)の第k候補(最初はk=1)、こ
の文字候補文字をX(n,k)とすると、最初はX
(1,1)と検索キーワードの第j構成文字(最初はj
=1)(この構成文字をY(j)とすると、Y(1))
との照合を行う。
【0022】一致しない場合はステップS305へ進
み、候補文字が終了したかをチェックする。終了してい
なければステップS306へ進み、候補文字順位kを1
つ進め(k=k+1を行う)ステップS304へ進む。
ステップS305で候補文字が終了した場合は、次にス
テップS309へ進んでテキストデータの全候補が終了
したかをチェックする。テキストデータの全候補が終了
していない場合はステップS308へ進み、テキストデ
ータのn文字目の次の文字へ進め(n=n+1を行
う)、ステップS303へ進む。テキストデータ群の全
ての文字とのマッチングが終了した場合はステップS3
09へ進み、テキストワードに検索キーワードを含まな
いとして、処理を終了する。
【0023】以上のようにして、P1を見つけたなら
ば、次にjを次に進め、第2構成文字「部」がP1の次
の位置の第1候補から第4候補にあるかを検索する。こ
れが、図8のステップS310〜S319である。も
し、第2構成文字「部」と一致する候補がP1の次の位
置のどの候補にもなければ、テキストデータのP1の次
の位置から先頭構成文字「内」に一致する個所を再度検
索し、一致すればこれを新しいP1とする。本実施例1
では、図5に502で示すように、第2候補に「部」の
文字があり検索文字と一致するので、第3構成文字
「処」の検索に移る。同様な処理を繰り返して検索キー
ワードの全構成文字のマッチングを行い、全構成文字に
対して一致する文字が候補内にあれば、そのテキストデ
ータ群は検索キーワードを含んでいるとして検索を終了
する。
【0024】図3のステップS310〜S319では、
具体的に次の様に処理を行う。ステップS310で検索
キーワードが終了かをチェックし、終了ならばステップ
S311へ進み、テキストデータ群に検索キーワードを
含むとして処理を終える。ステップS310で検索キー
ワードが終了していない場合は、ステップS312へ進
んで構成文字を次へ進め(j=j+1を行う)、次のス
テップS313へ行く。ステップS313では、テキス
トデータ群の全ての文字とのマッチングが終了したか否
かをチェックし、終了ならばステップS319へ進み、
ステップS309と同様に、テキストに検索キーワード
を含まないとして終了する。
【0025】ステップS313でテキストデータ群の全
ての文字とのマッチングが終了していない場合は、ステ
ップS314へ進んでテキストデータ群の次の文字へ進
め(n=n+1を行う)、ステップS315へ進んで候
補文字順位kを“1”とする(k=1とする)。次に、
ステップS316で、X(n,k)(テキストデータ群
の第k候補のn文字目)とY(j)(検索キーワードの
j番目の文字)とが一致するかをチェックする。一致し
たならばステップS310へ戻り、検索キーワードの更
に次の文字の比較に進む。一致しなかった場合はステッ
プS317へ進み、候補文字が終了してなければステッ
プS318へ進み、候補文字順位kを“1”進め(k=
k+1とする)、ステップS316へ行く。ステップS
317で候補文字が終了した場合はステップS302へ
戻り、検索キーワードの構成文字位置を“1”にして
(j=1とする)、テキストデータ群の次の文字から再
度「内」を検索してP1を探す。
【0026】以上のようにすると、図5のテキストデー
タの例では、文字認識の誤りにより、図6に示すよう
に、本来「内部処理統合型」であるべきところが第1候
補では「内都処理統合型」になってしまっているが、第
2構成文字「部」が候補内にあるので、テキストデータ
群の組み合わせから「内部処理統合型」の照合が可能に
なるので、入力された検索キーワードに対してヒットす
るので、正しい検索をすることができる。
【0027】(文書検索処理例2)本実施例では、図1
1に示すように、予め文字認識手段自体の正解文字を出
力する認識確率を求め、認識確率の高い順に並べ認識候
補順位とし、最も確率の高いものを第1候補とする。更
に、第1候補より各順位までの認識確率の累積を累積認
識率として求め、その累積認識率より、どの認識候補の
順位までを検索対象とするかを所定の値と比較して決定
する。その結果から、検索対象を全体の認識候補のうち
任意の順位候補までに限定する処理である。
【0028】図11の例を用いて説明すると、文字認識
手段での第1候補の平均認識率は98. 0%となり、第
2候補以上の平均累積認識率は98. 5%,第3候補以
上の平均累積認識率は99. 0%,第4候補以上の平均
累積認識率は99. 5%である。ここで、閾値を99.
0%以上と定めると、第4候補以下の候補は検索対象外
とし、全体の認識候補のうちの上位3つの候補のみに限
定できる。尚、閾値を外部より変更できるようにしても
良い。
【0029】本実施例の文書検索処理のフローチャート
を図10に示す。ここで、図10のステップS160
1,S1602およびステップS1605〜S1608
は、図7のステップS201,S202およびステップ
S204〜S207と同じなので、説明を省略する。ス
テップS1603では、予め上記手順で求めた検索対象
候補順位kにより、テキストデータの第k候補までを検
索対象として限定する。ステップS1604では、保存
されているi件目のデータのテキストデータ群の第k位
候補までを対象として検索キーワードとの照合マッチン
グを行う。
【0030】以上のように、本実施例2によれば、認識
候補のうち検索を行う範囲を限定することにより、ヒッ
ト率を高めると共に検索時間を節約することができる。 (文書検索処理例3)本実施例では、予め多数の学習デ
ータに対する認識実験の結果から各文字ごとにテキスト
データの候補として各順位以上の候補に出力される確率
(累積認識率)を求め、次に、各文字ごとに、例えば累
積認識率が100%になる順位を順位テーブルに記憶
し、この順位テーブルを参照して検索対象を限定しなが
ら検索を行う。
【0031】例えば、認識実験の結果、図14のよう
に、「之」という文字は、候補順位1位になる確率は9
2. 1%,第1位または第2位になる確率は95. 3
%,第1位または第2位または第3位になる確率は9
7. 5%,第1位または第2位または第3位または第4
位になる確率は100%となったとする。図15は、各
文字の累積認識率が100%になる最初の順位を記憶し
ておく順位テーブルの例である。
【0032】図15より、「之」という文字の累積認識
率が100%になる最初の順位は4位だということがわ
かる。しかし、「之」の認識結果は図13の1101に
示すように第3候補にあるので、検索対象として残して
おく。「介」という文字の累積認識率が100%になる
最初の順位が2位だとすると、本実施例の認識結果では
図13の1102に示すように第3候補にあるので、検
索対象として残す必要はない。すなわち、図13のよう
に、反転部を検索対象除外部分として除外し、検索対象
文字を限定できる。尚、上記例では100%になる順位
を示したが、これには限定されず、又、外部より変更で
きるようにしても良い。
【0033】本実施例の文書検索処理のフローチャート
を図12に示す。ここで、図12のステップS170
1,S1702およびステップS1705〜S1708
は、図7のステップS201,S202およびステップ
S204〜S207と同じなので、説明を省略する。ス
テップS1703では、予め求めた図15の順位テーブ
ルを用いて、図13に示すように、テキストデータ群の
検索対象文字を限定する。ステップS1704では、保
存されているi件目のデータに対して、前記ステップS
1703で検索対象を限定されたテキストデータ群と検
索キーワードとのマッチングを行う。
【0034】以上のように、実施例3によれば、検索対
象文字を限定することができ、ヒット率を高めると共
に、更に検索時間を節約することができる。 (文書検索処理例4)本実施例は、前記実施例3と逆
に、作成した順位テーブルから、検索時に検索キーワー
ドの構成文字ごとに検索する候補順位を限定する実施例
である。
【0035】例えば、図17のように予め作成した順位
テーブルから、検索キーワードの各構成文字ごとの検索
時に限定する順位が求まったとすると、図18に示すよ
うに、検索キーワードの「内」の検索時には上位2候補
に限定して処理を行うことになる。図18上部の第1候
補が「な」の列にはヒットする文字がないので、隣の第
1候補が「え」の列に移り、同様に検索キーワードの
「内」と上位2候補のマッチングを行う。
【0036】このように、検索キーワードの同じ構成文
字に対しては、候補の文字によらず常に一定数の候補と
マッチングを行うことになる。見方を変えると、「え」
の行は検索キーワードの「内」との間では上位2候補の
マッチングを行うが、検索キーワードの「部」との間で
は上位4候補のマッチングを行う。従って、検索キーワ
ードの構成文字によって同じ候補文字でも、検索対象文
字の限定が異なることになる。
【0037】本実施例の文書検索処理のフローチャート
を図16に示す。ここで、図16のステップS180
1,S1802およびステップS1804〜1807
は、図7のステップS201,S202およびステップ
S204〜S207と同じなので省略する。ステップS
1803では、保存されているi件目のデータのテキス
トデータ群と、検索キーワードの各構成文字ごとに対応
する順位テーブル(例えば、図17)から、文字候補の
検索対象を図18のような検索対象文字候補に限定しな
がらマッチング処理を行う。
【0038】従って、実施例4の場合、前記実施例3の
ように、テキストデータ全ての文字ごとに順位テーブル
を用いて検索対象文字を限定することに比べ、処理時間
を更に節約することができる。 (文書検索処理例5)本実施例は、文字認識結果に対し
て不確実な候補文字の判定を行い、不確実候補文字のみ
複数個の認識候補を保持し、他は検索対象を限定した認
識候補を残したものをテキストデータ群とし、検索キー
ワードとそれらの組合せを照合する実施例である。
【0039】例えば図20に示す例では、文字認識手段
が図21に示すように入力文字と認識候補の特徴データ
の相違度を算出し、予め定めた閾値80よりも相違度が
大きい認識結果の第1候補「都」(1401)および
「統」(1402)の認識候補を不確実な候補文字と判
定し、これらの全認識候補を検索対象として保持してい
る。また、相違度が閾値80以下の他の認識候補に対し
ては、第1認識候補のみを検索対象文字として限定す
る。従って、ヒット率を高めると共に、更に検索時間を
節約することができる。尚、上記例では80を閾値とし
た例を示したが、これには限定されず、又、外部より変
更できるようにしても良い。
【0040】本実施例の文書検索処理のフローチャート
を図19に示す。ここで、図19のステツプS190
1,S1902及び、ステツプS1905〜S1908
は、図7のステツプS201,S202及び、ステツプ
S204〜S207と同じなので、説明は省略する。ス
テツプS1903では不確実候補文字を判定し、図21
に示すように、入力文字と認識候補の特徴データの相違
度を算出し、予め定めた閾値より相違度が大きい認識結
果の第1位候補の認識候補を不確実な候補文字と判定
し、不確実候補文字以外の検索対象を限定する(図2
0)。ステツプS1904では、保存されているi件目
のデータのステツプS1903で限定されたテキストデ
ータ群と検索キーワードとのマッチングを行う。
【0041】従って、実施例5の場合、処理時間を更に
節約することができる。尚、上記実施例2〜5では登録
処理を変えずに、検索処理における処理時間の節約を考
慮したが、登録処理において検索対象を除外される候補
あるいは文字を登録しないようにすれば、記憶容量の削
減をも達成できる。これは、検索対象の除外を登録時に
するか検索時にするかの違いだけであって、その変更は
容易である。又、累積認識率,順位テーブルあるいは相
違度等は、登録処理及び検索処理において更新されるよ
うにしてもよい。更に、本発明は、複数の機器から構成
されるシステムに適用しても、1つの機器から成る装置
に適用しても良い。また、本発明はシステム或は装置に
プログラムを供給することによって達成される場合にも
適用できることはいうまでもない。
【0042】
【発明の効果】本発明により、検索キーワードとテキス
トデータとの照合のヒット率を向上させる文書管理方法
及びその装置を提供できる。具体的には、その文書の登
録方法及び検索方法を提供できる。すなわち、文書画像
データの登録時に文字認識が100%正しくなくとも、
各認識対象が持つ複数個の認識候補の全てをテキストデ
ータとして保持し、それらの複数個の認識候補を組合
せ、検索キーワードとそれらの組合せを照合することに
より、高い精度で検索キーワードの含まれた画像データ
を捜し出すことができるという効果がある。
【図面の簡単な説明】
【図1】本実施例の文書管理装置の構成例を示すブロッ
ク図である。
【図2】本実施例の登録時の処理手順を示すフローチャ
ートである。
【図3】本実施例の領域分離の様子を模式的に表した図
である。
【図4】本実施例で保存されるデータの例を表した図で
ある。
【図5】本実施例の入力画像のうちのテキスト領域の一
例を示す図である。
【図6】本実施例のテキストデータ群の一例を示す図で
ある。
【図7】検索処理手順の一例を示すフローチャートであ
る。
【図8】図7のフローチャートのステップS203の処
理を詳細に示したフローチャートである。
【図9】従来の検索時の処理手順を示すフローチャート
である。
【図10】検索処理手順の他の例を示すフローチャート
である。
【図11】図10の検索処理手順での認識例と検索対象
除外部分を示す図である。
【図12】検索処理手順の更に他の例を示すフローチャ
ートである。
【図13】図12の検索処理手順での認識例と検索対象
除外部分を示す図である。
【図14】図12の検索処理手順での各文字に対する認
識確率の順位を示す図である。
【図15】図12の検索処理手順での各文字に対する確
率100%になる順位を示す順位テーブルの図である。
【図16】検索処理手順の更に他の例を示すフローチャ
ートである。
【図17】図16の検索処理手順での順位テーブルを示
す図である。
【図18】図16の検索処理手順での認識例と検索時の
検索対象文字候補を示す図である。
【図19】検索処理手順の更に他の例を示すフローチャ
ートである。
【図20】図19の検索処理手順での認識例と検索対象
外を示す図である。
【図21】図19の検索処理手順での入力文字と認識候
補の特徴データの相違度を示す図である。
【符号の説明】
101 スキャナ 102 スキャナインターフェース回路 103 ポインティングデバイス(マウス等) 104 インターフェース回路 105 CPU 106 ROM 106a 制御プログラム 106b 各種処理プログラム 106c フォントデータ 107 RAM 107a 作業領域 107b VRAM領域 108 ディスプレイ 109 ディスプレイインターフェース 110 外部記憶装置(HD,FD等) 110a 登録データ 111 インターフェース回路 112 バス

Claims (22)

    【特許請求の範囲】
  1. 【請求項1】 文書登録時には、文書画像からテキスト
    領域を取り出して文字認識処理を行い、複数のテキスト
    データ候補からなるテキストデータ群を前記文書画像と
    共に登録し、 文書検索時には、前記テキストデータ群の組合せと検索
    キーワードとを照合することにより検索を行うことを特
    徴とする文書管理方法。
  2. 【請求項2】 登録される前記テキストデータの数は、
    文字認識確率のテキストデータ分の累積が大きい順に所
    定数であることを特徴とする請求項1記載の文書管理方
    法。
  3. 【請求項3】 登録される前記テキストデータは、文字
    認識確率のテキストデータ分の累積が所定の閾値より大
    きいものであることを特徴とする請求項1記載の文書管
    理方法。
  4. 【請求項4】 登録される前記テキストデータの文字
    は、該文字のヒット確率が所定の閾値より大きい文字で
    あることを特徴とする請求項1記載の文書管理方法。
  5. 【請求項5】 前記テキストデータ群の組合せは、文字
    認識確率のテキストデータ分の累積が大きい順に所定数
    のテキストデータに限定されることを特徴とする請求項
    1または2記載の文書管理方法。
  6. 【請求項6】 前記テキストデータ群の組合せは、ヒッ
    ト確率が所定の閾値より大きい文字に限定されることを
    特徴とする請求項1または2記載の文書管理方法。
  7. 【請求項7】 前記ヒット確率が所定の閾値より大きい
    文字の限定は、検索によりヒットした文字の中で、テキ
    ストデータ群中での出現確率が所定の閾値より小さい文
    字を検索結果から除外することで実現することを特徴と
    する請求項6記載の文書管理方法。
  8. 【請求項8】 前記ヒット確率が所定の閾値より大きい
    文字の限定は、前記テキストデータ群中の出現確率が所
    定の閾値より大きい文字との比較に限定することより実
    現することを特徴とする請求項6記載の文書管理方法。
  9. 【請求項9】 前記ヒット確率が所定の閾値より大きい
    文字の限定は、前記テキストデータ群中の的中率が所定
    の閾値より大きい文字との比較に限定することより実現
    することを特徴とする請求項6記載の文書管理方法。
  10. 【請求項10】 前記的中率は文字認識の相違度で表さ
    れることを特徴とする請求項9記載の文書管理方法。
  11. 【請求項11】 文書画像からテキスト領域を取り出し
    て文字認識処理を行い、 複数のテキストデータ候補からなるテキストデータ群を
    前記文書画像と共に登録することを特徴とする文書登録
    方法。
  12. 【請求項12】 文書登録時に、文書画像からテキスト
    領域を取り出して文字認識処理を行い、複数のテキスト
    データ候補からなるテキストデータ群を前記文書画像と
    共に登録する登録手段と、 文書検索時に、前記テキストデータ群の組合せと検索キ
    ーワードとを照合することにより検索を行う検索手段と
    を備えることを特徴とする文書管理装置。
  13. 【請求項13】 前記登録手段は、1つの文書画像に対
    して、文字認識確率のテキストデータ分の累積が大きい
    順に所定数のテキストデータを登録することを特徴とす
    る請求項12記載の文書管理装置。
  14. 【請求項14】 前記登録手段は、1つの文書画像に対
    して、文字認識確率のテキストデータ分の累積が所定の
    閾値より大きいテキストデータを登録することを特徴と
    する請求項12記載の文書管理装置。
  15. 【請求項15】 前記登録手段は、1つの文書画像に対
    して、文字のヒット確率が所定の閾値より大きい文字を
    登録することを特徴とする請求項12記載の文書管理装
    置。
  16. 【請求項16】 前記検索手段は、前記テキストデータ
    群の組合せを、文字認識確率のテキストデータ分の累積
    が大きい順に所定数のテキストデータに限定する第1の
    限定手段を備えることを特徴とする請求項12または1
    3記載の文書管理装置。
  17. 【請求項17】 前記検索手段は、前記テキストデータ
    群の組合せを、ヒット確率が所定の閾値より大きい文字
    に限定する第2の限定手段を備えることを特徴とする請
    求項12または13記載の文書管理装置。
  18. 【請求項18】 前記ヒット確率が所定の閾値より大き
    い文字の限定は、検索によりヒットした文字の中で、テ
    キストデータ群中での出現確率が所定の閾値より小さい
    文字を検索結果から除外することで実現することを特徴
    とする請求項17記載の文書管理装置。
  19. 【請求項19】 前記ヒット確率が所定の閾値より大き
    い文字の限定は、前記テキストデータ群中の出現確率が
    所定の閾値より大きい文字との比較に限定することより
    実現することを特徴とする請求項17記載の文書管理装
    置。
  20. 【請求項20】 前記ヒット確率が所定の閾値より大き
    い文字の限定は、前記テキストデータ群中の的中率が所
    定の閾値より大きい文字との比較に限定することより実
    現することを特徴とする請求項17記載の文書管理装
    置。
  21. 【請求項21】 前記的中率は文字認識の相違度で表さ
    れることを特徴とする請求項20記載の文書管理装置。
  22. 【請求項22】 検索キーワードと一致するテキストデ
    ータを含む文書画像を検索して表示する文書管理装置に
    おいて、 文書画像からテキスト領域を取り出して文字認識処理を
    行うテキストデータ認識手段と、 認識により得られた複数のテキストデータ候補からなる
    テキストデータ群を前記文書画像と共に登録する登録手
    段とを備えることを特徴とする文書登録装置。
JP7073185A 1995-03-30 1995-03-30 文書管理方法及びその装置 Withdrawn JPH08272811A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7073185A JPH08272811A (ja) 1995-03-30 1995-03-30 文書管理方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7073185A JPH08272811A (ja) 1995-03-30 1995-03-30 文書管理方法及びその装置

Publications (1)

Publication Number Publication Date
JPH08272811A true JPH08272811A (ja) 1996-10-18

Family

ID=13510836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7073185A Withdrawn JPH08272811A (ja) 1995-03-30 1995-03-30 文書管理方法及びその装置

Country Status (1)

Country Link
JP (1) JPH08272811A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1186013A (ja) * 1997-09-05 1999-03-30 Nippon Saitetsukusu Kk 編集装置
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP2009176264A (ja) * 2008-01-24 2009-08-06 Sharp Corp 画像文書処理装置および画像文書処理方法
JP2009230671A (ja) * 2008-03-25 2009-10-08 Sharp Corp 情報処理装置、情報処理方法、情報処理プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
JP2014060761A (ja) * 2013-10-31 2014-04-03 Fuji Xerox Co Ltd サービス処理システム
CN109840276A (zh) * 2019-02-12 2019-06-04 北京健康有益科技有限公司 基于文本意图识别的智能对话方法、装置和存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1186013A (ja) * 1997-09-05 1999-03-30 Nippon Saitetsukusu Kk 編集装置
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP2009176264A (ja) * 2008-01-24 2009-08-06 Sharp Corp 画像文書処理装置および画像文書処理方法
JP2009230671A (ja) * 2008-03-25 2009-10-08 Sharp Corp 情報処理装置、情報処理方法、情報処理プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体
JP2014060761A (ja) * 2013-10-31 2014-04-03 Fuji Xerox Co Ltd サービス処理システム
CN109840276A (zh) * 2019-02-12 2019-06-04 北京健康有益科技有限公司 基于文本意图识别的智能对话方法、装置和存储介质

Similar Documents

Publication Publication Date Title
US8577882B2 (en) Method and system for searching multilingual documents
CN110196901B (zh) 对话系统的构建方法、装置、计算机设备和存储介质
CN105824959B (zh) 舆情监控方法及系统
US8290269B2 (en) Image document processing device, image document processing method, program, and storage medium
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN110909122B (zh) 一种信息处理方法及相关设备
CN1894685A (zh) 翻译工具
JPH0773190A (ja) ペンベースコンピューターシステム用絵文字ネーミング
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN102968987A (zh) 一种语音识别方法及系统
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
CN110659346A (zh) 表格提取方法、装置、终端及计算机可读存储介质
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN116340502A (zh) 基于语义理解的信息检索方法和装置
CN106570196B (zh) 视频节目的搜索方法和装置
JPH08272811A (ja) 文書管理方法及びその装置
US11755659B2 (en) Document search device, document search program, and document search method
JP2007025939A (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质
CN114430832A (zh) 数据处理方法、装置、电子设备和存储介质
CN109727591B (zh) 一种语音搜索的方法及装置
JP3673553B2 (ja) ファイリング装置
CN118069905B (zh) 一种交互式电子手册数据转化系统
CN113722447B (zh) 一种基于多策略匹配的语音搜索方法
CN111414459A (zh) 人物关系获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020604