JPH08272813A - ファイリング装置 - Google Patents

ファイリング装置

Info

Publication number
JPH08272813A
JPH08272813A JP7076513A JP7651395A JPH08272813A JP H08272813 A JPH08272813 A JP H08272813A JP 7076513 A JP7076513 A JP 7076513A JP 7651395 A JP7651395 A JP 7651395A JP H08272813 A JPH08272813 A JP H08272813A
Authority
JP
Japan
Prior art keywords
data
candidate
search keyword
degree
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7076513A
Other languages
English (en)
Other versions
JP3673553B2 (ja
Inventor
Kazuyuki Saito
和之 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP07651395A priority Critical patent/JP3673553B2/ja
Publication of JPH08272813A publication Critical patent/JPH08272813A/ja
Application granted granted Critical
Publication of JP3673553B2 publication Critical patent/JP3673553B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【目的】 文書画像中の文字を認識し、検索可能にファ
イリングする装置において、文字認識が完全ではないこ
とを考慮し、検索キーワードに基づく検索率を向上させ
ることを可能にする。 【構成】 スキャナ101より読み取られた文書画像は
文字認識処理され、第1候補はもとよりそれ以降の候補
をもデータとして外部記憶装置110に蓄積する。そし
て、検索キーワードでもって検索する際には、候補文字
の組み合わせをも参考にして検索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書画像中の文字を認識
し、蓄積するファイリング装置およびその制御方法に関
するものである。
【0002】
【従来の技術】印刷された文書をスキャナで取り込み画
像データとして蓄積する文書ファイリング装置におい
て、画像データ内のテキスト領域を文字認識し、得られ
た文字コードを検索時の照合用のデータとして用いる構
成の文書ファイリング装置が存在する。その構成及び動
作について以下説明する。
【0003】図6は登録時の処理の流れを表すフローチ
ャートである。ステップS601で登録しようとする文
書をスキャナで読み込み2値の画像データに変換する。
ステップS02では、得られた入力画像に対して領域分
離を行い、文字画像が存在するテキスト領域だけを抽出
する。テキスト領域だけを抽出するのは2値の画像デー
タにおいて黒画素の連結成分を抽出し文字と推定される
ものだけを結合することにより可能であり既存の技術で
ある。次にステップS603では、テキスト領域に対し
て文字認識処理を行い、テキストデータを得る。このテ
キストデータは検索時に検索キーワードとの照合に用い
るためのものである。ステップS604で画像データ全
体を圧縮する。本実施例では2値画像に最適な例えばM
MRを用いる。ステップS605で圧縮した画像データ
とテキストデータを統合し、さらに日付や登録者名、デ
ータサイズ等を記述したヘッダを付加して外部記憶装置
に保存する。
【0004】図7は領域分離の模式図である。図示にお
いて、入力画像701に対して領域分離を行いテキスト
領域のみの画像702を得る。このテキスト領域に対し
て文字認識しテキストデータを得る。一方、元の画像デ
ータを圧縮したものを前記テキストデータとペアにし、
さらにヘッダが付加され703のような1件のデータと
して保持される。
【0005】図8に保存されるデータ形式を示す。1件
目のデータが符号801で示される領域に保存され、2
番目以降のデータは802から順に格納される。
【0006】次に検索時の処理の流れについて図9のフ
ローチャートを用いて説明する。
【0007】ステップS901で検索キーワードを入力
する。ステップS902では、検索データの数を記憶し
ておくカウンタiに1をセットする。次にステップS9
03で保存されているi件目のデータのテキストデータ
部と入力された検索キーワードとの照合を行う。この照
合はいわゆる全文検索を行い、テキストデータ部に検索
キーワードがそのまま含まれているかどうかを調べる。
【0008】ステップS904では、検索キーワードを
含まれていたかどうかを判断する。この判断で、検索キ
ーワードが含まれていたと判断した場合、ステップS9
05へ進み、発見されたデータの全画像データを伸長し
ディスプレイに表示し、ステップS906へ進む。な
お、検索キーワードがテキストデータ部に含まれていた
ことを検出することを「ヒットした」と呼ぶことにす
る。
【0009】一方、ステップS904で検索キーワード
が含まれていなかったと判断した場合には、ステップS
906へ進む。
【0010】ステップS906では、検索する対象の最
後に到達したか否かを判断する。もし、未だ、最終デー
タにまで到達していないと判断したら、カウンタiを1
つ増やしステップS903へ戻る。
【0011】以上のようにして検索キーワードが文字画
像として含まれているデータの画像を捜し出しディスプ
レイ上に表示することが可能である。
【0012】
【発明が解決しようとしている課題】しかしながら、上
記従来例では検索キーワードをそのままテキストデータ
と照合していたため、テキストデータ中に文字認識の誤
認識に起因する誤った文字が含まれていて、その誤認識
文字が検索キーワードに対応する文字列に存在する場
合、ヒットするはずのデータの検索ができないという問
題が発生する。
【0013】
【発明が解決するための手段】本発明はかかる問題点に
鑑みなされたものであり、文字認識が完全ではないこと
を考慮し、検索キーワードに基づく検索率を向上させる
ことを可能にするファイリング装置およびその制御方法
を提供しようとするものである。
【0014】この課題を解決するため、例えば本発明の
ファイリング装置は以下の構成を備える。すなわち、文
書画像中の文字を認識して蓄積し、検索キーワードに従
って蓄積されたデータを検索するファイリング装置であ
って、入力文書画像中の文字の認識結果得られた候補群
を蓄積する蓄積手段と、与えられた検索キーワードを構
成する個々の文字と前記蓄積されたデータ中の候補群の
組み合わせによる照合する照合手段とを備える。
【0015】また、本発明の好適な実施態様に従えば、
照合手段は、検索キーワードに対応する候補文字の組み
合わせの一致度を算出する算出手段を含み、当該一致度
が所定値以上の場合、注目データが検索対象として判断
することが望ましい。これによって、たとえ文字認識結
果である候補文字に検索キーワードの文字が含まれてい
なくても、検索キーワード全体にほぼ一致している場合
には検索対象として判断されるようになる。
【0016】更に、前記一致度と、対応するデータのリ
スト一覧を表示する表示手段と、表示されたリスト中の
所望とするデータを指示する指示手段と、指示されたデ
ータを表示する表示手段とを備えることが望ましい。こ
の結果、ユーザは検索されたデータの確からしさを判断
できるようになり、その判断結果に基づいてデータを表
示することが可能になる。
【0017】また、前記照合手段は、認識結果の第1候
補文字と検索キーワードとの第1の一致度を算出する第
1の算出手段と、算出された第1の一致度が所定の第1
の閾値以上の場合、当該認識文字の第2候補以降の文字
との組み合わせによる照合を行ない、検索キーワードと
の第2の一致度を算出する第2の算出手段と、該第2の
一致度と、少なくとも前記第1の閾値より大きい第2の
閾値以上の場合、当該注目データを検索対象として判断
することが望ましい。この結果、検索処理がより高速に
行えるようになる。
【0018】前記照合手段は、検索キーワードを構成す
る個々の文字と、蓄積されている文字とを比較すると
き、各候補文字群の類似度でもって照合範囲を決定し、
その照合範囲内で候補文字の組み合わせを決定するが望
ましい。この結果、照合する文字列の組み合わせを少な
くでき、検索が高速になる。
【0019】
【実施例】以下、添付図面に従って本発明に係る実施例
を詳細に説明する。
【0020】<第1の実施例の説明>図1は第1の実施
例をファイリング装置のブロック構成図である。図1に
おいて、101は画像原稿に光を照射し、その反射光を
読み取り電気信号に変換するスキャナ、102はスキャ
ナ101で得られた電子信号を2値のデジタル電気信号
に変換し他の装置構成要素に伝送するためのスキャナイ
ンターフェース回路、103はディスプレイのウィンド
ウ上で所望とする座標を入力するためのポインティング
デバイス(例えばマウス等)、104はポインティング
デバイス103からの信号を受け、それを他の装置構成
要素に伝送するためのインターフェース回路、105は
装置全体の制御及び文字切り出し処理や認識処理を実行
するためのCPU、106はCPU105が実行する制
御プログラム、各種処理プログラムやフォントデータな
どを格納しているROM、107は文字画像の展開や文
字認識処理のための作業領域などとして用いられるRA
Mである。また、108は入力イメージや認識結果を表
示するためのディスプレイ、109はディスプレイイン
ターフェース回路である。ディスプレイ108には、R
AM107の所定アドレスエリアに格納されているVR
AM領域のイメージを表示する。110は、登録された
データが格納されるハードディスク等の外部記憶装置
で、データの蓄積はもとより、文字認識用の辞書が格納
されている。111はそのインターフェースである。そ
して112は各装置構成要素を接続するバスである。
【0021】入力文書画像を登録する処理及び格納され
るデータのデータ構造に関しては先に説明した図6、図
7と略同じであるので省略する。但し、入力文書画像を
ファイリングするとき、文字認識処理で得られた文字の
第1候補のみを文字コードをテキストデータとして登録
するのではなく、第4候補までの文字コードを登録す
る。
【0022】次に検索時の処理の流れについて図2,図
3のフローチャート、図4、及び図5に従って説明す
る。
【0023】検索キーワードとして、例えば「内部処理
統合型」という文字列が入力されたとする。
【0024】まず、ステップS201において、キーワ
ードを入力し、検索データの数を示すカウンタiに初期
値として“1”を代入する。
【0025】次いで、処理はステップS203に進み、
保存されているi番目のデータのテキストデータ部の全
候補を対象に検索キーワードとのマッチングを行う。
【0026】そして、ステップS204において、ステ
ップS203の処理結果に基づいて、検索キーワードに
対応する文字列が存在するか否かを判断する。一致す
る、もしくはほぼ一致すると判定した場合には、ステッ
プS205に写って、概要するデータのイメージ部分を
伸長し、文字列と共に表示する。そして、ユーザから次
のデータの検索の指示があった場合には、ステップS2
06に進み、データ終了と判断した場合には、検索処理
を終了し、そうでなければステップS207で変数iを
インクリメントし、次のデータの検索を行う。
【0027】上記処理におけるステップS203の処理
手順を図3に示す。以下、同処理の内容を説明する。
【0028】尚、以下の説明における変数n、c,j,
kはRAM107に確保されているものである。変数n
は、テキストデータの文字位置を示すカウンタ(ポイン
タ)、変数cはキーワードと一致する文字数を示すカウ
ンタ、変数jはキーワードの文字列中の1つの文字位置
を示すカウンタ、変数kは候補文字順序を表わすカウン
タである。
【0029】ステップS301〜304では、各変数に
初期値として“1”を与える。
【0030】ステップS305では、注目しているデー
タ(i番目のデータ)のテキストデータのn文字目を第
k候補X(n,k)と、検索キーワードの第j番目の文
字Y(j)とのマッチングがとれるかどうかを判断す
る。すなわち、X(n,k)とY(j)が等しいか否か
を判断する。
【0031】この判断で等しくないと判断したら、ステ
ップS306に進んで、テキストデータ中の第n番目の
文字に対する全ての候補に対して照合を行ったか否かを
判断する。未照合の候補があると判断した場合には、ス
テップS307で注目文字位置の次の候補を参照すべ
く、変数kを“1”だけインクメントし、ステップS3
05の処理を行う。この結果、図5に示すごとく、各認
識候補の組み合わせに対して順次照合が行われることに
なる。
【0032】一方、キーワード文字列の第j番目の文字
と等しい文字が発見されたら、ステップS308に進
み、一致した文字数を係数するカウンタcをインクメン
トする。
【0033】ステップS309に処理が進むと、検索キ
ーワードの最後の文字に対する照合処理が完了したかど
うかを判断する。検索キーワードの最後の文字に対する
照合が完了していないと判断した場合には、ステップS
310に進み、変数jをインクリメントする。そして、
ステップS311で、次のテキストデータ中の文字が存
在するかどうかを判断し、あればステップS312で照
合対象の文字位置を次の文字位置に進めるべく、変数n
をインクメントし、ステップS304に戻る。
【0034】一方、ステップS311の判断で、テキス
トデータの終了であると判断した場合には、ステップS
316でテキストデータに検索キーワードはないと判断
し、本処理を終了し、図2の処理に復帰する。
【0035】さて、ステップS309において、検索キ
ーワードの最後の文字に対する照合が完了したと判断し
た場合には、ステップS313に進み、一致度mの計算
を行う。
【0036】ここで、実施例における一致度mの算出
は、例えば次式によるものとする。
【0037】m=(一致した文字数)/(全構成文字
数)×100[%] すなわち、検索キーワードの文字列のうち、何文字が一
致したかを割合で示した(mの値が大きいほど検索キー
ワードに一致している可能性が高いことを示す)。
【0038】ステップS314に処理が進むと、上記の
ようにして算出した一致度mと予め設定された値Mとを
比較し、それ以下の場合には、テキストデータ部のn文
字目からはじめる文字列は、検索キーワードとは照合し
ないと判断し、ステップS317に進む。ステップS3
17では、テキストデータ部の最後まで到達したか否か
を判断する。ここで、テキストデータの終了ではないと
判断した場合には、変数nを1つ進め、テキストデータ
部の次の文字位置を切り出し位置として設定し、ステッ
プS302以下の処理を行う。
【0039】また、ステップS317において、テキス
トデータ部の終了であると判断した場合には、ステップ
S319に進み、注目しているい番目のテキストデータ
には検索キーワードに相当する文字列がないと判断し、
本処理を終了し、図2の処理に復帰する。
【0040】そして、ステップS314の判断で、一致
度m>Mであると判断した場合、処理はステップS31
5に進み、注目データのテキストデータ部には、検索キ
ーワードと一致する(m=100のとき)、もしくは、
一致する可能性が高いと文字列があると判断し、その結
果を上位ルーチンに返し、本処理を終える。
【0041】尚、上記処理の中で、例えば検索キーワー
ドとして、「内部処理統合型」を入力し、検索を行った
とき、例えばある注目データ中のi番目のテキストデー
タ部が図4の如く、「内」「処」「理」「合」「型」の
各文字が認識結果の第1候補にあり、「統」の文字が第
3候補にあって、「部」の文字は候補にも無かったとす
る。このとき、一致度mは、 6/7×100=85.7[%] となる。
【0042】例えば閾値が50%と設定してあれば、先
の一致では閾値を越えているのでテキストデータに検索
キーワードと「一致する部分が有る」と判断し、画像デ
ータ部を伸長して表示することができる。
【0043】以上説明した様に本実施例によれば、原稿
画像を読み取って文字認識し、その結果をデータベース
として登録する場合において、その文字認識の第1候補
のみではなく複数の候補も登録対象になり、その候補の
組み合わせでもってキーワードを検索するので、検索キ
ーワードによる検索が意図した通りになる率を高めるこ
とが可能になる。
【0044】更に、検索キーワードそのものがなくて
も、そのキーワードの文字列に対して一部が異なる場合
であっても、全体としての一致度がある程度であれば、
検索対象になるので、文字認識による候補にもならない
文字があっても検索される可能性を高めることが可能に
なる。
【0045】尚、上記説明によれば、検索キーワードの
文字数が多ければ多いほど、その判定結果に対する確か
らしさが高くなる。従って、検索キーワードの文字列の
文字数がn以上の場合に、一致度に基づく判定を行うよ
うにしても良い。また、場合によっては、一致度の判定
の閾値をユーザから設定できるようにしても良い。例え
ば、その閾値を高くすると、少ない文字の場合には、全
体として完全一致しなければならなくなり、逆に多けれ
ば数文字が不一致であってもそのキーワードをもってい
ると判定できるであろう。
【0046】<第2の実施例の説明>次に第2の実施例
を説明する。本実施例では、第1段階として、検索キー
ワードを構成する個々の文字と、検索対象のテキストデ
ータ部にあるテキストデータの第1候補とを照合し、そ
の一致度が第1の閾値M1以上であるかどうかを判断
し、閾値M1以上であると判断した場合、その文字列が
検索キーワードと一致する可能性が高いと判断する。そ
して、該当する文字の第2候補以下(不一致であると判
定された文字の第2候補以下)の組み合わせでもって一
致度を再計算し、それが第2の閾値M2より大きいと判
断した場合には、そのテキストデータに検索キーワード
に対応する文字列があると判断する。
【0047】従って、閾値M1、M2の関係は、M1<
M2である。すなわち、第1段階では、検索キーワード
になり得る可能性がある文字列があるかどうかを判断
し、もしその可能性があると判断した場合には、第1の
実施例で説明した照合を行うものである。
【0048】以下、第2の実施例における動作処理内容
を図10のフローチャート(図3のフローチャートに対
応する)に従って説明する。尚、装置構成は第1の実施
例と同じものする。従って、図10に基づくプログラム
はROM106に格納されている。
【0049】まず、ステップS1001、1002、1
003では、各変数を初期化する。次いで、ステップS
1004〜S1006およびステップS1013〜S1
014で、検索キーワードで与えられた文字数文の照合
処理を行なう。この過程で、検索キーワードの文字数の
照合中、注目しているデータのテキストデータの最後に
到達した場合には、一致する文字列がないと判断して本
処理を終了する(ステップS1015)。
【0050】また、検索キーワードの文字数文の照合が
完了したら、ステップS1007で第1段階の一致度m
1を算出し、次のステップS1008で、予め設定され
た閾値M1と比較する。
【0051】ここで、m1<M1であると判断した場
合、テキストデータ部における切り出し位置(変数nで
与えられる)からの文字列は、検索キーワードになり得
る可能性が低いことになるから、処理はステップS10
17に進んで、テキストデータ部の最後に到達したか否
かを判断し、未到達であると判断した場合には、切り出
し位置を1つ進めて、ステップS1002に戻る。尚、
ステップS1017の判断は、テキストデータ部の文字
数から検索キーワードの文字数を引いた位置になったか
どうかを判断すれば十分である。なぜなら、それ以降に
対しては、検索キーワードの文字数より小さいので、必
ず、ステップS1014の判断結果がyesになるから
である。
【0052】さて、第1段階における一致度m1と閾値
M1との関係が、m1>M1であると判断した場合、処
理はステップS1009に進み、一致しなかった第1候
補の文字の第2候補文字以降をも参照して照合処理を行
う。この照合処理は第1の実施例と同じであるので、そ
の説明は省略する。
【0053】こうして、第2候補以降の文字を含めての
照合処理が完了すると、最終の一致度m2を計算し(ス
テップS1010)、m2と閾値M2との比較判断を行
う(S1011)。
【0054】この結果、m2>M2であると判断した場
合、注目データのテキストデータ部には検索キーワード
があるものとして、判断し本処理を終える(ステップS
1012)。
【0055】一方、m2≦M2であると判断した場合に
は、ステップS1017に進む。
【0056】以上の結果、検索キーワードに一致する可
能性があるかどうかを判断し、一致する可能性があると
判断した場合にのみ更なる照合処理を行うことで、先の
第1の実施例と比較して、検索処理を高速に行うことが
可能になる。
【0057】<第3の実施例の説明>図11は、画像デ
ータ部を伸長して表示する際、一致度も同時に表示する
例を示したものである。複数の文書ファイルにおいてキ
ーワードとの照合がヒットした場合、所望の文書ファイ
ルであるか否かの判断を容易にすることが可能となる。
尚、一致した、もしくは一致すると判断した文字列に対
しては、その部分を他の文字列とは区別して表示するこ
とが望ましい。例えば、表示色を換える、或いは反転表
示する等で良いであろう。
【0058】<第4の実施例の説明>図12は、一致度
と文書ファイルのリストを、一致度の高い順に表示しユ
ーザが選択可能とすることを示したものである。本実施
例では、検索キーワードとして「内部処理統合型」が入
力されており、その検索結果が一致度の高い順に一致度
と共にリストが表示されている。そのリストから所望の
文書ファイルを選択し、“オープン”ボタンをポインテ
ィング・デバイスでクリックすることで画像データ部を
伸長して表示する。その結果、文書ファイリングの見逃
しを防ぎ、不要な画像データ部を伸長する時間緒無駄を
省き、使い勝手を向上させることが可能となる。
【0059】尚、本第4の実施例を実現するためには、
検索結果、一致すると判断した場合に、その時に該当す
るデータの読み出し、および伸長処理を行うのではな
く、全体に対して行ったのち(一致度とデータ番号リス
トのファイルを一時的に作成する等で対処できる)、そ
れに基づいて図示のリストを表示すれば良い。従って、
この場合には、一致度と閾値との比較は行わず、もじく
は、閾値は低い値に設定して、ユーザに判断させること
になる。
【0060】<第5の実施例の説明>第5の実施例を説
明する。図13は第5の実施例における処理内容を示す
フローチャートである。また、図14は、その動作を説
明するための図である。また図15は保存されるデータ
を表したものであり、テキストデータ、イメージデータ
の他に類似度データも格納されている。
【0061】本第5の実施例では、類似度を用いて、照
合範囲を限定する。第1位候補の類似度が予め定めた閾
値X1以上であれば第2位候補の類似度が(X1−α)
(αはあらかじめ定めた第1照合範囲)までを照合範囲
とし、第1位候補の類似度がX1未満であれば第2位候
補の類似度が(X1−β)(βはあらかじめ定めた第2
照合範囲、α>β)までを照合範囲とすることで、認識
結果の第1位候補の確からしさが高い時は出来るだけ誤
った文字候補を照合範囲から除外し、逆に認識結果の第
1位候補の確からしさが低い時は正しい認識候補を除外
せぬように照合範囲を広げるという照合範囲の限定方法
がある。
【0062】図14の例では、閾値類似度X1を90、
第1照合範囲αを10、第2照合範囲βを20としてお
り、認識結果の第1位候補「内」(S1401)の類似
度は95であるので、照合範囲は85以上の類似度を持
つ認識候補までとなり、「肉」までが照合範囲となる。
また、認識結果の第1位候補「縦」(S1402)の類
似度は78であるので、照合範囲となる。また、認識結
果の第1位候補「縦」(S1402)の類似度は78で
あるので、照合範囲は58以上の類似度を持つ認識候補
までとなり、「統」までが照合範囲となる。その結果、
処理の無駄を省き、処理時間を短縮することが可能とな
る。
【0063】一般に、文字認識処理では、認識しようと
している文字画像から特徴量を抽出し、その特徴量と認
識辞書に記憶されている特徴量に一番近い文字を第1候
補として認識している。ここで、言う、類似度とは、そ
の認識処理で得られた候補文字の順位を判定するために
用いられた値である。
【0064】尚、上記各実施例では、原稿画像を光学的
に読み取る装置について説明したが、本発明はこれに限
定されるものではなく、通信回線を介して画像を入力し
たり、記憶媒体に格納されている画像を入力しても良
い。また、単体の装置に適応することも可能であるし、
複数の機器で構成するシステムであっても良い。また、
各処理プログラムはROMに格納されているとして説明
したが、外部から供給することで実現する(RAMにロ
ードする)ことも可能であるので、本願発明は上記実施
例でもって限定されるものではない。
【0065】以上説明したように本実施例によれば、文
書画像データの登録時に文字認識が100%正しくなく
とも、各認識対象が持つ1つまたは複数個の認識候補を
テキストデータとして保持し、それらテキストデータの
認識候補と検索キーワードとを照合し、検索キーワード
との一致度を求め、一致度が閾値を越えた時は一致した
と判断することにより、高い精度で検索キーワードの含
まれた画像データを捜し出すことが出来るという効果が
ある。
【0066】
【発明の効果】以上説明したように本発明によれば、文
字認識が完全ではないことを考慮し、検索キーワードに
基づく検索率を向上させることが可能になる。
【0067】
【図面の簡単な説明】
【図1】実施例の装置のブロック構成図である。
【図2】第1の実施例の検索のフローチャートである。
【図3】第1の実施例の検索の詳細フローチャートであ
る。
【図4】第1の実施例のテキストデータの例である。
【図5】第1の実施例のテキストデータの候補の例であ
る。
【図6】従来の登録のフローチャートである。
【図7】従来の登録の模式図である。
【図8】従来の登録データの構造である。
【図9】従来の検索のフローチャートである。
【図10】第2の実施例の検索の詳細フローチャートで
ある。
【図11】第3の実施例の文書ファイルの表示の例であ
る。
【図12】第4の実施例の文書ファイルリストの表示の
例である。
【図13】第5の実施例の検索のフローチャートであ
る。
【図14】第5の実施例の認識結果の類似度と検索対象
限定の例である。
【図15】第5の実施例の登録データの構造である。
【符号の説明】
101 スキャナ 102、104、109、111 インターフェース
(I/F) 103 ポインティングデバイス 105 CPU 106 ROM 107 RAM 108 ディスプレイ 110 外部記憶装置

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 文書画像中の文字を認識して蓄積し、検
    索キーワードに従って蓄積されたデータを検索するファ
    イリング装置であって、 入力文書画像中の文字の認識結果得られた候補群を蓄積
    する蓄積手段と、 与えられた検索キーワードを構成する個々の文字と前記
    蓄積されたデータ中の候補群の組み合わせによる照合す
    る照合手段とを備えることを特徴とするファイリング装
    置。
  2. 【請求項2】 前記照合手段は、検索キーワードに対応
    する候補文字の組み合わせの一致度を算出する算出手段
    を含み、当該一致度が所定値以上の場合、注目データが
    検索対象として判断することを特徴とする請求項第1項
    に記載のファイリング装置。
  3. 【請求項3】 更に、前記一致度と、対応するデータの
    リスト一覧を表示する表示手段と、 表示されたリスト中の所望とするデータを指示する指示
    手段と、 指示されたデータを表示する表示手段とを備えることを
    特徴とする請求項第2項に記載のファイリング装置。
  4. 【請求項4】 前記照合手段は、認識結果の第1候補文
    字と検索キーワードとの第1の一致度を算出する第1の
    算出手段と、 算出された第1の一致度が所定の第1の閾値以上の場
    合、当該認識文字の第2候補以降の文字との組み合わせ
    による照合を行ない、検索キーワードとの第2の一致度
    を算出する第2の算出手段と、 該第2の一致度と、少なくとも前記第1の閾値より大き
    い第2の閾値以上の場合、当該注目データを検索対象と
    して判断することを特徴とする請求項第1項に記載のフ
    ァイリング装置。
  5. 【請求項5】 前記照合手段は、検索キーワードを構成
    する個々の文字と、蓄積されている文字とを比較すると
    き、各候補文字群の類似度でもって照合範囲を決定し、
    その照合範囲内で候補文字の組み合わせを決定すること
    を特徴とする請求項第1項に記載のファイリング装置。
  6. 【請求項6】 文書画像中の文字を認識して蓄積し、検
    索キーワードに従って蓄積されたデータを検索するファ
    イリング装置の制御方法であって、 入力文書画像中の文字の認識結果得られた候補群を蓄積
    する蓄積工程と、 与えられた検索キーワードを構成する個々の文字と前記
    蓄積されたデータ中の候補群の組み合わせによる照合す
    る照合工程とを備えることを特徴とするファイリング装
    置の制御方法。
  7. 【請求項7】 前記照合工程は、検索キーワードに対応
    する候補文字の組み合わせの一致度を算出する算出工程
    を含み、当該一致度が所定値以上の場合、注目データが
    検索対象として判断することを特徴とする請求項第6項
    に記載のファイリング装置の制御方法。
  8. 【請求項8】 更に、前記一致度と、対応するデータの
    リスト一覧を表示する表示工程と、 表示されたリスト中の所望とするデータを指示する指示
    工程と、 指示されたデータを表示する表示工程とを備えることを
    特徴とする請求項第7項に記載のファイリング装置の制
    御方法。
  9. 【請求項9】 前記照合工程は、認識結果の第1候補文
    字と検索キーワードとの第1の一致度を算出する第1の
    算出工程と、 算出された第1の一致度が所定の第1の閾値以上の場
    合、当該認識文字の第2候補以降の文字との組み合わせ
    による照合を行ない、検索キーワードとの第2の一致度
    を算出する第2の算出工程と、 該第2の一致度と、少なくとも前記第1の閾値より大き
    い第2の閾値以上の場合、当該注目データを検索対象と
    して判断することを特徴とする請求項第6項に記載のフ
    ァイリング装置の制御方法。
  10. 【請求項10】 前記照合工程は、検索キーワードを構
    成する個々の文字と、蓄積されている文字とを比較する
    とき、各候補文字群の類似度でもって照合範囲を決定
    し、その照合範囲内で候補文字の組み合わせを決定する
    ことを特徴とする請求項第6項に記載のファイリング装
    置の制御方法。
JP07651395A 1995-03-31 1995-03-31 ファイリング装置 Expired - Fee Related JP3673553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07651395A JP3673553B2 (ja) 1995-03-31 1995-03-31 ファイリング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07651395A JP3673553B2 (ja) 1995-03-31 1995-03-31 ファイリング装置

Publications (2)

Publication Number Publication Date
JPH08272813A true JPH08272813A (ja) 1996-10-18
JP3673553B2 JP3673553B2 (ja) 2005-07-20

Family

ID=13607359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07651395A Expired - Fee Related JP3673553B2 (ja) 1995-03-31 1995-03-31 ファイリング装置

Country Status (1)

Country Link
JP (1) JP3673553B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057315A (ja) * 1998-08-06 2000-02-25 Mitsubishi Electric Corp 文書ファイリング装置及び文書ファイリング方法
JP2002510090A (ja) * 1998-03-31 2002-04-02 ドラゴン・システムズ・インコーポレーテッド 対話型探索法
US6826354B2 (en) 1998-10-15 2004-11-30 Fujitsu Limited Buffer control method and buffer control device
WO2008032780A1 (fr) * 2006-09-14 2008-03-20 Nec Corporation Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci
JP2011034231A (ja) * 2009-07-30 2011-02-17 Rakuten Inc 画像検索エンジン

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6116383A (ja) * 1984-07-03 1986-01-24 Mitsubishi Electric Corp 単語読取方式
JPH0217573A (ja) * 1988-07-06 1990-01-22 Mitsubishi Electric Corp フアイル装置
JPH04104367A (ja) * 1990-08-23 1992-04-06 Mitsubishi Electric Corp ファイルシステム
JPH05298493A (ja) * 1992-04-16 1993-11-12 Oki Electric Ind Co Ltd 文字認識結果の後処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6116383A (ja) * 1984-07-03 1986-01-24 Mitsubishi Electric Corp 単語読取方式
JPH0217573A (ja) * 1988-07-06 1990-01-22 Mitsubishi Electric Corp フアイル装置
JPH04104367A (ja) * 1990-08-23 1992-04-06 Mitsubishi Electric Corp ファイルシステム
JPH05298493A (ja) * 1992-04-16 1993-11-12 Oki Electric Ind Co Ltd 文字認識結果の後処理方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002510090A (ja) * 1998-03-31 2002-04-02 ドラゴン・システムズ・インコーポレーテッド 対話型探索法
JP2000057315A (ja) * 1998-08-06 2000-02-25 Mitsubishi Electric Corp 文書ファイリング装置及び文書ファイリング方法
US6826354B2 (en) 1998-10-15 2004-11-30 Fujitsu Limited Buffer control method and buffer control device
WO2008032780A1 (fr) * 2006-09-14 2008-03-20 Nec Corporation Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci
JP2012230713A (ja) * 2006-09-14 2012-11-22 Nec Corp 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
JP5115741B2 (ja) * 2006-09-14 2013-01-09 日本電気株式会社 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
US8606779B2 (en) 2006-09-14 2013-12-10 Nec Corporation Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP2011034231A (ja) * 2009-07-30 2011-02-17 Rakuten Inc 画像検索エンジン

Also Published As

Publication number Publication date
JP3673553B2 (ja) 2005-07-20

Similar Documents

Publication Publication Date Title
KR100292098B1 (ko) 문자 인식 장치 및 방법
EP0834138B1 (en) System and method for reducing the search scope in a lexicon
JP4533920B2 (ja) 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JPH0797373B2 (ja) 文書フアイリングシステム
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
CN1106620C (zh) 信息处理方法和设备
EP2806336A1 (en) Text prediction in a text input associated with an image
US8411958B2 (en) Apparatus and method for handwriting recognition
JP3673553B2 (ja) ファイリング装置
JP3589007B2 (ja) 文書ファイリングシステムおよび文書ファイリング方法
JP3727995B2 (ja) 文書処理方法及び装置
JPH08272811A (ja) 文書管理方法及びその装置
JPS61248160A (ja) 文書情報登録方式
JP2560656B2 (ja) 文書ファイリングシステム
JPH07302306A (ja) 文字入力装置
JPH06223121A (ja) 情報検索装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH113401A (ja) 情報処理装置及びその方法
JPH08180064A (ja) 文書検索方法及び文書ファイリング装置
JPH09245051A (ja) 自然言語事例検索装置及び自然言語事例検索方法
JPH0635971A (ja) 文書検索装置
JPH0736926A (ja) 不完全文字列と文字列の照合方法および装置
JPH0954781A (ja) 文書検索システム
JPH0797369B2 (ja) 仮名漢字変換装置
JP2537991B2 (ja) 文字入力装置および方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050425

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees