JPH0916619A - 情報処理方法及び装置 - Google Patents

情報処理方法及び装置

Info

Publication number
JPH0916619A
JPH0916619A JP7167378A JP16737895A JPH0916619A JP H0916619 A JPH0916619 A JP H0916619A JP 7167378 A JP7167378 A JP 7167378A JP 16737895 A JP16737895 A JP 16737895A JP H0916619 A JPH0916619 A JP H0916619A
Authority
JP
Japan
Prior art keywords
character
character string
information processing
information
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7167378A
Other languages
English (en)
Other versions
JP3689455B2 (ja
Inventor
Hirotaka Shiiyama
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP16737895A priority Critical patent/JP3689455B2/ja
Priority to US08/671,681 priority patent/US6310971B1/en
Priority to EP96304824A priority patent/EP0752673B1/en
Priority to DE69637025T priority patent/DE69637025T2/de
Priority to CNB961085835A priority patent/CN1139884C/zh
Publication of JPH0916619A publication Critical patent/JPH0916619A/ja
Application granted granted Critical
Publication of JP3689455B2 publication Critical patent/JP3689455B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 入力画像を文字認識した結果を検索の為のテ
キストデータとして利用する場合に、文字認識処理の際
に生ずる文字切り出しエラーが原因で実際の文字画像と
異なる文字がテキストデータとして格納されてしまった
場合にも正しく検索が行えるようにすること。 【構成】 画像情報を入力するイメージスキャナ1と、
入力画像を認識するOCRソフトウェア2と、この認識
結果を格納するテキスト情報格納部4−2と、指定され
た検索語に余分な文字が挿入されることを仮定したり、
検索語から文字を間引いたパターンを作成してそのパタ
ーンを用いて検索を行う文書検索ソフトウェア3とを有
する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、指定された検索語を含
む画像情報或はテキスト情報を検索することの可能な情
報処理方法及び装置に関するものである。
【0002】
【従来技術】従来、OCR等により入力画像を認識した
結果を用いて、画像の検索、データベース化を可能にし
たものがあった。
【0003】このような検索、データベースを行う装置
において、OCRでの認識処理時に誤認識されることに
よる検索の不完全さを克服する為に、従来は認識結果を
登録する前にユーザに確認させる工程を設け、この確認
工程では認識結果の類似度がある程度低いものをも含め
て候補文字としてユーザに示し、その中から正しい文字
を選択させるか、その候補文字の中に正しい文字がなけ
れば手入力により正しい文字を入力させる等、ユーザの
負担により登録するテキストを訂正した後登録するもの
であった。
【0004】また、このように訂正作業をユーザの負担
により行うのではなく、単語辞書や知識ベースを用いて
機械的に訂正する技術もある。
【0005】
【発明が解決する課題】上記従来の技術では、ユーザに
よる訂正作業を要するものはユーザの負担が大きく、登
録作業の度に多くの時間と手間を要求され、また、全自
動化を阻むものであった。
【0006】また、単語辞書や知識ベースを用いて機械
的に訂正するものは、この方法により全自動化を図る為
には高い計算能力を有するコンピュータを用いなければ
実用化に絶えず、また、自動訂正の信頼性にもまだ問題
がある。
【0007】また、1入力文字画像に対応する認識結果
を1文字に絞る訂正工程で誤訂正がなされてしまうと、
元に戻せないという危険性もある。
【0008】
【目的】本発明は、誤認識訂正の為のユーザが行う作業
を排除することを目的とする。
【0009】また、OCR後の既にテキスト化された文
字に対する単語辞書や知識ベースを用いたコンピュータ
にとって付加の重い誤認識訂正ではなく、OCRの認識
プロセス内の情報を有効活用し、その後に続く処理にな
るべく負担をかけないアルゴリズムで全自動化を図るこ
とを目的とする。
【0010】また、OCRの際に文字きり出しの時点で
誤った切り出しを行ってしまった場合に、ユーザによる
訂正作業を不要とし、目的の検索が正しく行われるよう
にすることを目的とする。
【0011】また、OCRの結果得られた候補文字の中
に正しい文字が含まれていない場合に、ユーザによる訂
正作業を不要とし、目的の検索が正しく行われるように
することを目的とする。
【0012】
【課題を解決するための手段】上記課題を解決する為
に、本発明はテキスト情報に、指定された文字列が含ま
れているか否かを判断する情報処理方法及び装置におい
て、前記指定された文字列に他の文字が挿入されること
を仮定して前記判断を行う情報処理方法及び装置を提供
する。
【0013】上記課題を解決する為に、本発明はテキス
ト情報に、指定された文字列が含まれているか否かを判
断する情報処理方法及び装置において、前記指定された
文字列から少なくとも1文字を除いたパターンを作成
し、前記作成されたパターンを用いて前記判断を行う情
報処理方法及び装置を提供する。
【0014】上記課題を解決する為に、本発明はテキス
ト情報に、指定された文字列が含まれているか否かを判
断する情報処理方法及び装置において、前記指定された
文字列から所定文字数の文字列に分解し、前記分解して
得た所定文字数の文字列を用いて前記判断を行う情報処
理方法及び装置を提供する。
【0015】上記課題を解決する為に、本発明はテキス
ト情報に、指定された文字列が含まれているか否かを判
断する情報処理方法及び装置において、前記指定された
文字列から少なくとも1文字を除いたパターンを作成
し、前記作成されたパターンにおける文字が除かれた位
置に他の文字が挿入されることを仮定して前記判断を行
う情報処理方法及び装置を提供する。
【0016】上記課題を解決する為に、本発明は好まし
くは前記テキスト情報は、入力した画像情報を文字認識
した結果とする。
【0017】上記課題を解決する為に、本発明は好まし
くは前記指定された文字列から除く文字は、予め定めら
れている文字に該当する文字とする。
【0018】上記課題を解決する為に、本発明は好まし
くは前記指定された文字列から除く文字は、予め定めら
れている文字に該当しない文字とする。
【0019】上記課題を解決する為に、本発明は好まし
くは前記指定された文字列から除く文字は、予め記憶さ
れているテーブルに従って決定する。
【0020】上記課題を解決する為に、本発明は好まし
くは前記判断は、前記文字列と前記テキスト情報を1文
字ずつ同じ文字であるか否かを判定することにより行
う。
【0021】上記課題を解決する為に、本発明は好まし
くは前記指定された文字列が含まれていると判断された
テキスト情報を出力する。
【0022】上記課題を解決する為に、本発明は好まし
くは前記指定された文字列が含まれていると判断された
テキスト情報に対応する画像情報を出力する。
【0023】上記課題を解決する為に、本発明は好まし
くは前記指定された文字列から1文字を除いたパターン
を複数種類作成し、前記判断を行う。
【0024】上記課題を解決する為に、本発明は好まし
くは前記作成されたパターンを所定文字数の文字列に分
解し、前記分解して得た文字列が前記テキスト情報に含
まれているか否かに従って前記判断を行う。
【0025】上記課題を解決する為に、本発明は好まし
くは前記判断は、前記文字列と前記テキスト情報を1文
字ずつ同じ文字であるか否かを判定することにより行
う。
【0026】上記課題を解決する為に、本発明は好まし
くは前記判断は、前記分解して得た文字列と前記テキス
ト情報を1文字ずつ同じ文字であるか否かを判定するこ
とにより行う。
【0027】
【実施例】本発明を実施する為の情報処理装置の構成の
一例を図4に示し、この各構成について説明する。
【0028】図4において、1はコンピュータ10に直
接接続あるいは通信手段を介して接続されたイメージス
キャナであって、ドキュメント(原稿)の画像をスキャ
ンして光学的に読み取る。2はコンピュータ10内に含
まれるOCR(光学的文字認識)処理ソフトウェアであ
って、イメージスキャナ等から入力された画像情報を文
字認識し、テキスト情報を得る。3はコンピュータ10
内に含まれる文書検索ソフトウェアであって、イメージ
スキャナ1等から入力された画像情報からOCR処理し
て得たテキスト情報から検索用ファイルを作成し、検索
処理も行う。
【0029】尚、OCR処理ソフトウェア2及び文書検
索ソフトウェア3は、コンピュータ10内のメモリに格
納された制御プログラムに従って、コンピュータ10の
CPUの制御のもと実行される。また、後述するフロー
チャートに示す処理も同様に、コンピュータ10内のメ
モリに格納された制御プログラムに従って、コンピュー
タ10のCPUの制御のもと実行される。
【0030】4は外部記憶装置であって、イメージスキ
ャナ等から入力された画像情報格納部(4−1)、テキ
スト情報格納部(4−2)および検索用ファイル格納部
(4−3)を有する。検索用ファイル格納部の中には、
更にインデックス、文書管理情報(DB)等が格納され
る。5は検索語や検索条件の入力を行うキーボードであ
り、6は検索語や検索条件の入力のための表示および画
像情報等を表示する表示装置である。10はコンピュー
タであって、先にも述べたように、本実施例で説明する
各種処理を行う為の制御プログラムを格納するメモリ
や、その制御プログラムに従って処理を実行するCPU
等を備える。
【0031】この図4に示した画像処理装置における蓄
積処理は、イメージスキャナ1から入力された画像情報
を外部記憶装置4に記憶し、その外部記憶装置4に記憶
された画像情報をOCR処理ソフトウエア2によりテキ
スト情報化して外部記憶装置4に記憶し、更にテキスト
情報から文書検索ソフトウエア3により作成された検索
用ファイルを外部記憶装置4に記憶する工程を含む。
【0032】又、検索処理は、キーボード5から入力さ
れた検索語を文書検索ソフトウエア3により検索用ファ
イルと照合して検索条件にあう文書を検索し、その文書
の文書アドレス情報を取り出し、表示装置6に該当文書
のイメージデータを表示する工程を含む。
【0033】以上説明した蓄積処理及び検索処理により
実現される検索システムにおいて、OCRの際に生じた
誤認識による検索漏れを防ぐ為の主たる方法を以下に説
明する。
【0034】検索漏れを防ぐ為には、主として以下の3
つの方法がある。 1.文字画の切り出しは成功したと仮定し、複数候補文
字およびそれらの認識尤度を用いた検索インデックスを
作成し、それらを用いて検索を行う。 2.文字画像の切り出しにエラーがあるか、または1文
字入力画像に対応する複数の候補文字の中に正解がない
場合を考慮し、指定された検索語と検索ファイルとの照
合に際し、検索語に余分な文字が入ることを許した検索
を行う。 3.文字画像の切り出しにエラーがあるか、または1文
字入力画像に対応する複数の候補文字の中に正解がない
場合を考慮し、指定された検索語から文字を間引いた文
字列パターン群を作成し、更にこれらの文字列パターン
群に余分な文字が入ることを許した検索を行う。
【0035】以上の方法1については、図2のフローチ
ャートに、方法2及び方法3については図3及び図5〜
図7のフローチャートにより詳細に説明する。これらの
説明に先立ち、先ず画像を登録する際に行われるOCR
処理について図1のフローチャートに従って説明する。
【0036】(OCR処理)登録する画像情報をイメー
ジスキャナ1により入力する(S101)。入力した画
像情報は外部記憶装置4の画像情報格納部4−1に記憶
する。画像情報の入力は、イメージスキャナから直接入
力する方法の他に、通信手段を介して他のコンピュータ
やFAXにより入力する等しても良い。
【0037】入力した画像情報を解析し、文字データが
存在するか否かを判断する(S102)。文字データが
存在しない場合は、OCR処理へは進まず、通常の画像
情報の登録処理を行う。
【0038】一方、文字データが存在すると判断された
場合は、1文字分の画像情報を切り出し(S103)、
その切り出された1文字を認識し(S104)、この認
識結果(認識尤度の情報を含む)に基づいて以下のS1
05〜S111のテキスト情報として格納する文字情報
の形態を決定する処理を行う。
【0039】このテキスト情報として格納する文字情報
の形態の決定処理は、認識尤度が予め定められた有意尤
度判定閾値Thlに達すると判断される(S105)認
識候補は、その候補文字を認識結果として出力し(S1
06)、認識尤度が有意尤度判定閾値Th1に達しない
と判断される(S105)認識対象文字に対しては、複
数候補を識別する為の複数候補始端位置を表わすデリミ
ターを出力し(S107)、複数の認識候補各々の認識
尤度を考慮して適応的に(S108)下記のa(S10
9)またはb(S110)の場合に分岐して処理を行
う。 a.予め定められた低認識尤度判定閾値Th2(Th1
>Th2)以上の候補文字と、その個数を出力する。 b.尤度の高いものから予め定められた個数Nmaxの
認識候補文字とその個数を出力する。
【0040】S107〜S111により出力される結果
の形態は、”@〔候補の数〕〔候補文字1〕〔候補文字
2〕〔候補文字3〕・・・@”とする。
【0041】S108における分岐の判断は、複数の認
識候補の各認識尤度が全てTh2以下であり、どの認識
尤度も同程度であった場合にはS110に進み、それ以
外の場合はS109に進むものとする。
【0042】これらの処理に用いるパラメータTh1は
認識結果に自信を持てるか否かを判断するための閾値で
あり、候補文字をその1文字に絞り込んで良いか否かを
判断する。次のパラメータTh2は認識尤度がそれ以下
のものは認識結果として正しくないであろうと判断する
ための閾値である。パラメータTh1,Th2、及び最
大認識候補数Nmaxはコンピュータ10のメモリに予
め格納されている値とする。
【0043】S109或はS110のステップにより候
補が出力されたら、複数候補終端位置を表わすデリミタ
ーを出力する(S111)。
【0044】1文字の認識結果の出力が終了したら、S
102に戻り、次の文字の認識処理に移る。S102〜
S111までの処理は、認識する文字がないとS102
で判断されるまで繰り返される。
【0045】以上、図1に示したOCR処理を、原稿上
に「アメリカ」という文字が存在していた場合を例に、
具体的に説明する。
【0046】S103で「ア」の文字画像が切り出さ
れ、S104で認識した結果、第1位の候補文字「ア」
が認識尤度Th1以上の値で得られたとする。この場
合、S106で認識結果「ア」が出力される。
【0047】次にS103で「メ」の文字画像が切り出
され、S104で認識した結果、この文字に対する複数
の認識結果の全てが認識尤度が低Th1以下となり(S
105)、どの認識候補もTh2以下の同じ位の尤度で
あったと判断されたとする(108)。よって、S10
7でデリミターを出力し、S110でNmax個の候補
文字を尤度の高いものから出力し、S111で更にデリ
ミターを出力する。
【0048】S110で出力される候補文字が”
x”、”X”、”メ”、”キ”の4候補であったとし、
デリミターとして例えば”@”を用いたとすると、S1
07〜S111の処理により出力される結果は、”@4
xXメキ@”のようになる。
【0049】更に認識を続け、S103で「リ」の文字
画像が切り出され、S104で認識した結果、第1位の
候補文字「リ」が認識尤度Th1以上の値で得られたと
する。この場合、S106で認識結果「リ」が出力され
る。
【0050】S103で「カ」の文字画像が切り出さ
れ、S104で認識した結果、第1位の候補文字「カ」
が認識尤度Th1以上の値で得られたとする。この場
合、S106で認識結果「カ」が出力される。
【0051】以上の処理により出力される結果は、”ア
@4xXメキ@リカ”となり、この結果がテキスト情報
格納部4−2に記憶される。
【0052】尚、認識結果の出力形態はこのようなデリ
ミターを使用し、文字キーを区分する方法について説明
したが、これは一例であって、他の方法、例えば1文字
入力画像から得た候補ごとにテキスト情報格納部におけ
る格納場所を区別し、1文字入力画像ごとに格納アドレ
スを管理するなど、文字キーを区分する方法であれば良
い。
【0053】図1のフローチャートに示したOCR処理
により作成されたテキスト情報に基づいて行われる、そ
の画像情報に付加する検索インデックスの作成処理を図
2のフローチャートに従って詳細に説明する。
【0054】(検索インデックスの作成)まず、キーボ
ード5により入力される、インデックス用の文字キー種
類の指定情報を入力する(S201)。以後、この指定
された文字キー種類に該当する文字からインデックスを
作成する。
【0055】テキスト情報格納部4−2に記憶されてい
る、インデックス作成対象となっている画像情報に対応
するテキスト情報をロードする(S202)。
【0056】そのロードされたテキスト情報からS20
1で入力した種類に該当する1文字データを読み込む
(204)。その読み込んだ文字がデリミターであるか
判断し(S205)、デリミターでない場合は作成中の
インデックスの最後にその文字を付加する(S20
6)。一方、デリミターであると判断される場合は、作
成中のインデックスの最後に次のデリミターまでの候補
文字を付加して複数のインデックスを作成する(S20
7)。
【0057】S206或はS207により作成中のイン
デックスの文字数により、インデックスとして完成した
か否かを判断し(S208)、完成したと判断される場
合はその作成中のインデックスを検索用ファイル格納部
4−3に格納する。S208で完成していないと判断さ
れる場合は、S204に戻り、次の文字を読み込んでイ
ンデックスの作成を続ける。
【0058】S208で完成したか否か判断する際の基
準となる文字数のパラメータは、予めコンピュータのメ
モリに記憶されているものとする。
【0059】一つのインデックスの作成が完了したら、
S203に戻り、残りの文字データがある場合は続けて
インデックスを作成する。
【0060】このような処理により、OCR処理後のテ
キスト情報から、認識候補文字群の前後の文字と組み合
わせ、指定された文字キー種類に合わせて文字列展開を
行い、検索の漏れを少なくすることの可能なインデック
スを作成することができる。
【0061】先に図1において説明した、”ア@4xX
メキ@リカ”というテキスト情報から上述の図2のフロ
ーチャートに示す処理によってインデックスを作成した
場合、”アx””アX””アメ””アキ””xリ””X
リ””メリ””キリ””リカ”という合計9個のキーが
作成されて、インデックスに反映され、検索用ファイル
格納部4−3に記憶される。
【0062】図2のフローチャートに示した処理により
作成された検索インデックスを用いて行う文書の検索処
理を図3のフローチャートに従って詳細に説明する。
【0063】(インデックスによる文書検索)キーボー
ド5により検索語が入力され、検索の実行が指示される
(S301)。この実行が指示された際に設定されてい
る検索のレベル或は仕様により、OCR処理時の文字切
り出しエラー対策を行う検索処理が指定されているか否
かを判断し(S302)、文字切り出しエラー対策が指
定されていないと判断される場合は、S301で入力さ
れた検索語を検索キーに分解し、この検索キーを検索フ
ァイル格納部に格納されているインデックスと照合する
(S304)。この照合処理により一致すると判断され
る文書のアドレスを出力検索の結果として出力する(S
307)。
【0064】S302で文字切り出しエラー対策が指定
されていないと判断される場合は、S301で入力され
た検索語から文字を欠いたパターンを作成した後、検索
キーに分解し(S305)、この検索キーを検索ファイ
ル格納部に格納されているインデックスと照合する(S
306)。S306では、それぞれの作成されたパター
ンに対する検索キー群に対応するインデックス情報を検
索ファイルから取り出し、パターン毎に検索キー群に対
応するインデックス情報の論理積演算を行なった後、こ
れら全パターンに対しそれらの論理積演算結果を更に論
理和演算を行なう。このような文字切り出しエラー対策
を行うことにより、多少ノイズは乗るものの、文字切り
出しエラーが起こった画像情報でも検索が可能となるも
のである。
【0065】この照合処理により一致すると判断される
文書のアドレスを出力検索の結果として出力する(S3
07)。
【0066】S303及びS305で分解される検索キ
ーは、インデックスの文字数と同じ文字数であり、図2
のフローチャートにより説明したインデックス作成の方
法と同様の方法により分解される。
【0067】S307で出力された文書アドレスに従っ
て、文書の画像情報を画像情報格納部4−1より読み出
し、表示装置6に表示する。この表示する際に、検索さ
れた文書が複数ある場合は、先ず検索された文書のタイ
トル等を一覧表示し、その後画像情報の表示の指示に応
じて画像を表示するようにしても良い。
【0068】ここで、S301においてキーボード5か
ら「アメリカ」という検索語が入力された場合を例にイ
ンデックスによる文書検索を説明する。
【0069】S301で入力された検索語「アメリカ」
は、S303において「アメ」「メリ」「リカ」という
検索キーに分解され、S305においてこれらの検索キ
ー全てと検索用ファイル格納部に記憶されているインデ
ックスを照合する。この照合処理により、「アメ」「メ
リ」「リカ」というインデックスの全てが付加されてい
る文書が検索され、S307において出力される。
【0070】しかし、例えば画像の登録時になされたO
CR処理において、「リ」の文字で文字画像の切り出し
エラーが起き、「リ」が二つのパターンであるとして切
り出され、「アメリカ」という文字列から”アメ@2’
1@@21|@カ”という認識結果が得られてテキスト
情報として記憶されている場合がある。このような認識
結果からは、”アメ””メ’””メ1””’1””’
|””11””1|””1カ””|カ”というインデッ
クスしか作成されていない為、「アメリカ」という検索
語からS303で作成された「アメ」「メリ」「リカ」
ではこの文書は検索できない。
【0071】このような場合にも画像に「アメリカ」を
含む文書が検索できるような検索処理が文字切り出しエ
ラー対策を行うS305とS306の処理である。
【0072】S305において「アメリカ」から1文字
を間引いた「アメカ」「アメリ」「アリカ」「メリカ」
の4パターンを作成し、この4パターン各々から検索キ
ーを分解する。パターン「アメカ」からは検索キーとし
て「アメ」「メカ」が得られる。パターン「アメリ」か
らは検索キーとして「アメ」「メリ」が得られる。パタ
ーン「アリカ」からは検索キーとして「アリ」「リカ」
が得られる。パターン「メリカ」からは検索キーとして
「メリ」「リカ」が得られる。
【0073】このように、得られた検索キーをS306
において検索ファイル格納部4−3に記憶されているイ
ンデックスと照合する。
【0074】更に、図3のフローチャートに示したイン
デックスによる文書検索処理時に、アプリケーションか
ら文字切り出しエラーを考慮した検索を行なう指示がさ
れている場合は、S305の処理において、更に図7〜
図9のフローチャートに示すような方法で文字の間引処
理を行う。図7〜図9のフローチャートに示す処理は、
各種文字切り出しエラーを考慮した間引の方法であり、
以下に各々説明する。
【0075】図7のフローチャートに示す処理は、間引
く文字数がオペレータにより指定され(S701)、そ
の指定文字数に従って組み合わせ可能なパターンを全て
作成する(S702)例である。
【0076】図8のフローチャートに示す処理は、S8
01で指定された検索語の長さに従って、間引く文字数
を決定し(S802)、その決定された文字数に従って
組み合わせ可能なパターンを全て作成する(S80
3)。S802における間引く文字数の決定は、指定検
索語の文字数に従って、予め記憶されている計算式に従
って演算により決定する。この計算式はコンピュータ1
0内のメモリに記憶しておく。
【0077】図9のフローチャートに示す処理は、S9
01で指定された検索語の中に、OCRが誤認識し易い
文字が含まれているか否かを判断し(S902)、含ま
れていると判断される場合はその文字を間引(S90
3)き、含まれていないと判断される場合は検索語から
の間引処理は行わず、その文字列を検索用のパターンと
する。OCRが誤認識し易い文字は、コンピュータ10
内のメモリに例えばテーブルの形態で予め記憶してお
き、これらの文字と検索語とを照合してS902におけ
る判断を行うものとする。間引く文字を限定するので、
間引きパターン数を減少させることが可能となる。例え
ば、先に述べた具体例の場合、検索語「アメリカ」にお
ける「リ」は切り出しエラーが起こり易く、縦の2本の
線を別々の文字と切り出しエラーを起こし易いので、文
字切り出しエラーの起こり易い候補として登録しておけ
ば、「リ」のみを間引いたパターン「アメカ」に限定し
て検索すれば良く、検索処理を効率的に行うことができ
る。
【0078】また、S902及びS903の処理では、
OCRが誤認識し易い文字を間引くのではなく、逆にO
CRが誤認識しにくく、確実な文字をコンピュータ10
内のメモリに例えばテーブルの形態で予め記憶してお
き、これらに含まれていない文字を間引くようにしても
良い。
【0079】また、この処理において、予め記憶された
誤認識し易い文字のみを間引くのではなく、図7や図8
のフローチャートに示した処理において誤認識し易い文
字を間引く文字の第一優先文字とするようにしても検索
処理を効率的に行なうことのできるパターンの作成がで
きる。
【0080】尚、図7〜図9のフローチャートの処理に
おいて、生成パターン数が多過ぎる場合に備えて生成パ
ターン数の制限値を設けることも考えられる。
【0081】これらの図7〜図9のフローチャートに示
す処理を行った後S305では検索キーの分解が行わ
れ、更にS306での検索ファイルとの照合の処理に進
むことにより、文字切り出しエラーを考慮した、より、
漏れの少ない検索が行える。
【0082】次に、文書全体をサーチする検索処理につ
いて説明する。
【0083】この処理は、図3のフローチャートに示し
た、インデックスによる文書検索の処理が、検索語を検
索キーに分解して検索することにより、検索漏れは少な
いが、指定された検索語の文字列を含まない文書が含ま
れているのに対し、検索キーは含むが、検索語そのもの
を含まない文書を排除することの可能な処理である。
【0084】このような処理をする為に、本実施例で
は、文書全体に対して検索語との一致判断を行うが、こ
の際に、OCR処理での文字切り出しエラーを考慮した
処理を行う。詳細を、図5のフローチャートに従って説
明する。
【0085】尚、この処理は、テキスト情報格納部4−
2に記憶されている全テキスト情報に対して行っても良
いが、図3の検索処理により絞り込まれた文書に対応す
るテキスト情報に対してのみ行うことにより、処理の能
率を向上させることができる。
【0086】(文書全体検索処理)この処理において、
OCR処理での文字切り出しエラーを考慮する為に、検
索語から文字を間引いて作成された検索候補語に、冗長
な文字列が入ることを許して全文をサーチする処理を行
なう。
【0087】S501で、検索語及び余分文字数Xを入
力する。検索語は、ユーザによりキーボード5より入力
したものであり、余分文字数Xは、その検索語に入るこ
とを許す文字の数であって、この値は検索語の文字数に
従って、予め記憶されている計算式に従って演算により
決定する。この計算式はコンピュータ10内のメモリに
記憶しておく。また、検索レベルをユーザにより指定で
きるようにし、この指定されたレベルを、Xを求める計
算において反映させることにより、ユーザの求めるレベ
ルでの検索処理が行えるようになる。
【0088】検索語及び余分文字数Xが入力されたら、
先に述べたレベルにより、文字間引処理を行うことが指
定されているレベルであるか否か判断し(S502)、
指定されていると判断される場合はS501で入力され
た検索語から文字の間引を行い、更に検索語における間
引が行われた位置を記憶する(S503)。この、間引
を行って作成された文字列を検索候補語と呼ぶ。S50
2で指定がされていないと判断されている場合は、S5
02で入力した検索語がすなわち検索候補語となる。
【0089】S504では、比較対照文字列を検索候補
語の一つ目に設定し、比較対照文字をテキスト情報の1
文字目に設定し、更にカウンターCを0に設定する。こ
こで、比較対照文字列とは、その時点でテキスト情報と
照合する検索語であり、順次検索候補語内で対象を更新
する(S520)。比較対照文字とは、その時点で比較
対照となっている比較対照文字列内の文字であり、順次
比較対照文字列内で対象を更新する(S515)。カウ
ンターCは、余分文字列がXの範囲を超えないように管
理する為のカウンターであり、余分文字列と判断される
毎にインクリメントする(S517)。
【0090】S505では、テキスト情報格納部4−2
より、検索語との照合を行うテキスト全体をロードす
る。S507では、そのロードされたテキストから比較
対照とする文字を1文字読み込む。S508ではその読
み込んだ文字がデリミターであるか否か判断し、デリミ
ターでなければS507で読み込んだ文字と比較対照文
字を比較する(S509)。S508で読み込んだ文字
がデリミターであると判断された場合は、S505でロ
ードしたテキストより、次のデリミターまでの文字を読
み込み、各々の読み込んだ文字と比較対照文字とを比較
する(S510)。S509或はS510で比較された
結果、同じ文字であれば(S511)、カウンターCを
0にリセットし(S512)、比較対照文字が比較対照
文字列の最後の文字であれば(S513)、S505で
ロードしたテキストに比較対照文字列と一致する文字列
があると判断してそのテキストの、画像情報格納部4−
1における文書アドレスを出力する(S514)。
【0091】S513で比較対照文字が比較対照文字列
の最後の文字でないと判断される場合は、S515に移
って比較対照文字を次の文字にシフトした後、S506
に戻って照合処理を続ける。
【0092】S509或はS510で比較した結果が同
じ文字でないと判断された場合は(S511)、比較対
照文字の位置がS503で記憶した文字間引位置であっ
てかつC≦(X−1)であるか判断する(S516)。
S516で肯定判断された場合は、カウンターCをイン
クリメントして(S517)S506に戻り、照合処理
を続ける。一方S516で否定判断された場合は、比較
対照文字を比較対照文字列の先頭に設定し、カウンター
Cを0に設定した(S518)後、S506に戻って照
合処理を続ける。
【0093】S506においてS505でロードしたテ
キストに残りの文字がないと判断された場合は、検索候
補語に残りがあるか判断し(S519)、なければその
文書は検索語と一致する文字列を含んでいないと判断
し、その文書の照合処理を終了する(S522)。一
方、S519で検索候補語の残りがあると判断された場
合は、次の検索候補語を比較対照文字列に設定し、カウ
ンターCを0に設定し(S520)、文字データの文字
込み位置をS505で読み込んだテキスト情報の先頭に
設定した(S521)後、S506に戻って照合処理を
続ける。
【0094】図5のフローチャートには、1つのテキス
ト情報と検索語との照合処理について説明したが、S5
05におけるテキスト情報のロードを順次複数のテキス
ト情報について行い、S505〜S522の処理を繰り
返すことによって、照合の対象となる文書が複数ある場
合に対応できる。
【0095】このように、指定された検索語に一致する
と思われる文字列を、OCR処理の際に文字切り出しエ
ラーが発声していることを考慮して文書全文をサーチす
ることにより、間引いた文字の位置に他の文字列があっ
ても検索語に一致すると判断することができるので、先
にあげた例のように、検索語「アメリカ」から作成され
たパターン「アメカ」で、間引した文字の「リ」の位置
に文字画像切り出しエラーで得られた誤認識文字列「’
|」がある場合にもその「アメ’|カ」というテキスト
中の文字列を検索語と一致すると判断でき、文字画像切
り出しエラーが発生していても正しく検索することがで
きる。
【0096】また、図5のフローチャートに示した文書
全体検索処理では、検索語に文字列が入ることを許す処
理をしたが、その文字列が入る位置は文字を間引いた位
置に限定した処理を説明した。
【0097】ここで文字列が入る位置を間引きした位置
に限定せず、検索語の個々の文字間に余分な文字が入る
ことを許して文書全体をサーチすることにより、更にあ
いまいな検索処理を行なうことが可能であり、その処理
を図6のフローチャートに示す。
【0098】この処理において、図5のフローチャート
の処理と同様のステップは同一ステップ番号を付し、こ
こでの説明は省略する。
【0099】図6の特徴的な処理ステップは、S603
において文字を間引いた位置を記憶していない点と、S
616における判断がC≦(X−1)だけとした点にあ
る。これにより、余分文字はどの位置にも挿入が許され
る。
【0100】このように、指定された一つの検索語から
複数のパターンに展開してこれらの複数パターンにより
検索することや、文字間引き位置或はそれ以外の位置に
余分な文字が入ることを許して検索を行うことで、本来
検索文字列が存在しない文書を検索してしまう可能性も
存在するが、漏れがないという点では検索処理にとって
重大な効果があると言える。例えば、「オーストラリ
ア」を本発明による方法で検索すると、「オーストラリ
ア」と良く混同され易い「オーストリア」等の文字列を
含む文書も検索され、あいまいな検索を可能にすること
ができる。
【0101】又、以上の実施例で説明した処理と同様に
して、データーベースに関しても、複数のレコードを作
成し、これを用いて洩れの少ない検索を行うことも可能
である。
【0102】又、本実施例は、OCRによる文書キーワ
ード、頁キーワード抽出等の応用も可能である。
【0103】更に、OMRやバーコードによる光学読み
取り装置の二部情報の認識尤度が低い場合への応用も同
様の手法で行える。
【0104】本実施例では検索ファイルのインデックス
として重複2文字キーを用いたが、単語キーでインデッ
クスを作成する場合も考えられる。
【0105】また、本実施例では検索されたテキスト情
報に対応する画像情報を出力する例について説明した
が、画像情報のみならず、テキスト情報をテキスト情報
格納部4−2から読み出して検索結果として出力するよ
うにしても良い。
【0106】また、本実施例では文字キー区分としてデ
リミター(@)を用いたが、文字キーが区分できれば他
の文字キー区分手段を用いたアルゴリズムに変更しても
その効力は失われない。
【0107】また、キーに関し、本実施例では文字キー
を用いて説明したが、単語キーを用いても良い。
【0108】
【発明の効果】以上説明したように本発明によれば、O
CR認識尤度が低く、認識に自信がない場合に1つに絞
る事を避け、上記の方法により、認識尤度に応じた最適
な複数の認識候補を選び、有効な認識候補情報を捨てな
いでこれを蓄積・活用することにより文字認識時点での
有効な情報を捨てずに済む。
【0109】また、以上説明したように本発明によれ
ば、文字画像の切り出しの段階のエラーにより複数候補
中に正しい文字が存在しなくても検索語から文字間引き
パターンを作成し検索することにより、漏れの少ない検
索が可能となる。
【0110】また、以上説明したように本発明によれ
ば、人手による訂正作業を無くし、イメージ入力からO
CRを経てイメージデータ・テキストデータ蓄積まで無
人で行えるシステムを構築でき、且つコンピュータに対
し負荷を掛けず、処理速度の低下の心配が無く、比較的
安価なシステムを実現できる。
【0111】また、以上説明したように本発明によれ
ば、OCR認識尤度が低く、認識に自信がない場合に1
つに絞る事を避けることにより、認識尤度に応じた最適
な複数の認識候補を選び、有効な認識候補情報を捨てな
いでこれを蓄積・活用することにより人手による訂正作
業を無くし、且つコンピュータに対し負荷を掛けず、処
理速度の向上させることができる。
【0112】また、以上説明したように本発明によれ
ば、指定された文字列から除く文字は、予め定められて
いる文字に該当する文字とすることにより、効率の良い
パターン作成が行なえる。
【0113】また、以上説明したように本発明によれ
ば、指定された文字列から除く文字は、予め定められて
いる文字に該当しない文字とすることにより、効率の良
いパターン作成が行なえる。
【0114】また、以上説明したように本発明によれ
ば、指定された文字列から除く文字は、予め記憶されて
いるテーブルに従って決定することにより、効率の良い
パターンの作成処理が更に高速に行なえる。
【図面の簡単な説明】
【図1】OCR処理を示すフローチャート
【図2】画像情報に付加する検索インデックスの作成処
理を示すフローチャート
【図3】検索インデックスを用いて行う文書の検索処理
を示すフローチャート
【図4】本実施例における情報処理装置の構成を示すブ
ロック図
【図5】第一の文書全体検索処理を示すフローチャート
【図6】第二の文書全体検索処理を示すフローチャート
【図7】第一の文字の間引処理を示すフローチャート
【図8】第二の文字の間引処理を示すフローチャート
【図9】第三の文字の間引処理を示すフローチャート

Claims (56)

    【特許請求の範囲】
  1. 【請求項1】 テキスト情報に、指定された文字列が含
    まれているか否かを判断する情報処理方法において、 前記指定された文字列に他の文字が挿入されることを仮
    定して前記判断を行うことを特徴とする情報処理方法。
  2. 【請求項2】 前記テキスト情報は、入力した画像情報
    を文字認識した結果とすることを特徴とする請求項1に
    記載の情報処理方法。
  3. 【請求項3】 前記判断は、前記文字列と前記テキスト
    情報を1文字ずつ同じ文字であるか否かを判定すること
    により行うことを特徴とする請求項1に記載の情報処理
    方法。
  4. 【請求項4】 前記指定された文字列が含まれていると
    判断されたテキスト情報を出力することを特徴とする請
    求項1に記載の情報処理方法。
  5. 【請求項5】 前記指定された文字列が含まれていると
    判断されたテキスト情報に対応する画像情報を出力する
    ことを特徴とする請求項2に記載の情報処理方法。
  6. 【請求項6】 テキスト情報に、指定された文字列が含
    まれているか否かを判断する情報処理方法において、 前記指定された文字列から少なくとも1文字を除いたパ
    ターンを作成し、 前記作成されたパターンを用いて前記判断を行うことを
    特徴とする情報処理方法。
  7. 【請求項7】 前記指定された文字列から1文字を除い
    たパターンを複数種類作成し、前記判断を行うことを特
    徴とする請求項6に記載の情報処理方法。
  8. 【請求項8】 前記指定された文字列から除く文字は、
    予め定められている文字に該当する文字とすることを特
    徴とする請求項6に記載の情報処理方法。
  9. 【請求項9】 前記指定された文字列から除く文字は、
    予め定められている文字に該当しない文字とすることを
    特徴とする請求項6に記載の情報処理方法。
  10. 【請求項10】 前記指定された文字列から除く文字
    は、予め記憶されているテーブルに従って決定すること
    を特徴とする請求項6に記載の情報処理方法。
  11. 【請求項11】 前記テキスト情報は、入力した画像情
    報を文字認識した結果とすることを特徴とする請求項6
    に記載の情報処理方法。
  12. 【請求項12】 前記作成されたパターンを所定文字数
    の文字列に分解し、 前記分解して得た文字列が前記テキスト情報に含まれて
    いるか否かに従って前記判断を行うことを特徴とする請
    求項6に記載の情報処理方法。
  13. 【請求項13】 前記判断は、前記文字列と前記テキス
    ト情報を1文字ずつ同じ文字であるか否かを判定するこ
    とにより行うことを特徴とする請求項6に記載の情報処
    理方法。
  14. 【請求項14】 前記指定された文字列が含まれている
    と判断されたテキスト情報を出力することを特徴とする
    請求項6に記載の情報処理方法。
  15. 【請求項15】 前記指定された文字列が含まれている
    と判断されたテキスト情報に対応する画像情報を出力す
    ることを特徴とする請求項11に記載の情報処理方法。
  16. 【請求項16】 テキスト情報に、指定された文字列が
    含まれているか否かを判断する情報処理方法において、 前記指定された文字列から所定文字数の文字列に分解
    し、 前記分解して得た所定文字数の文字列を用いて前記判断
    を行うことを特徴とする情報処理方法。
  17. 【請求項17】 前記テキスト情報は、入力した画像情
    報を文字認識した結果とすることを特徴とする請求項1
    6に記載の情報処理方法。
  18. 【請求項18】 前記判断は、前記分解して得た文字列
    と前記テキスト情報を1文字ずつ同じ文字であるか否か
    を判定することにより行うことを特徴とする請求項16
    に記載の情報処理方法。
  19. 【請求項19】 前記指定された文字列が含まれている
    と判断されたテキスト情報を出力することを特徴とする
    請求項16に記載の情報処理方法。
  20. 【請求項20】 前記指定された文字列が含まれている
    と判断されたテキスト情報に対応する画像情報を出力す
    ることを特徴とする請求項17に記載の情報処理方法。
  21. 【請求項21】 テキスト情報に、指定された文字列が
    含まれているか否かを判断する情報処理方法において、 前記指定された文字列から少なくとも1文字を除いたパ
    ターンを作成し、 前記作成されたパターンにおける文字が除かれた位置に
    他の文字が挿入されることを仮定して前記判断を行うこ
    とを特徴とする情報処理方法。
  22. 【請求項22】 前記テキスト情報は、入力した画像情
    報を文字認識した結果とすることを特徴とする請求項2
    1に記載の情報処理方法。
  23. 【請求項23】 前記指定された文字列から除く文字
    は、予め定められている文字に該当する文字とすること
    を特徴とする請求項21に記載の情報処理方法。
  24. 【請求項24】 前記指定された文字列から除く文字
    は、予め定められている文字に該当しない文字とするこ
    とを特徴とする請求項21に記載の情報処理方法。
  25. 【請求項25】 前記指定された文字列から除く文字
    は、予め記憶されているテーブルに従って決定すること
    を特徴とする請求項21に記載の情報処理方法。
  26. 【請求項26】 前記判断は、前記作成されたパターン
    と前記テキスト情報を1文字ずつ同じ文字であるか否か
    を判定することにより行うことを特徴とする請求項21
    に記載の情報処理方法。
  27. 【請求項27】 前記指定された文字列が含まれている
    と判断されたテキスト情報を出力することを特徴とする
    請求項21に記載の情報処理方法。
  28. 【請求項28】 前記指定された文字列が含まれている
    と判断されたテキスト情報に対応する画像情報を出力す
    ることを特徴とする請求項22に記載の情報処理方法。
  29. 【請求項29】 テキスト情報を記憶するテキスト情報
    記憶手段と、指定された文字列が含まれているか否かを
    判断する判断手段とを有する情報処理装置において、 前記判断手段は、前記指定された文字列に他の文字が挿
    入されることを仮定して前記判断を行うことを特徴とす
    る情報処理装置。
  30. 【請求項30】 前記テキスト情報記憶手段に記憶され
    ているテキスト情報は、入力した画像情報を文字認識し
    た結果とすることを特徴とする請求項29に記載の情報
    処理装置。
  31. 【請求項31】 前記判断は、前記文字列と前記テキス
    ト情報を1文字ずつ同じ文字であるか否かを判定するこ
    とにより行うことを特徴とする請求項29に記載の情報
    処理方法。
  32. 【請求項32】 前記判断手段により前記指定された文
    字列が含まれていると判断されたテキスト情報を出力す
    るテキスト情報出力手段を有することを特徴とする請求
    項29記載の情報処理装置。
  33. 【請求項33】 前記判断手段により前記指定された文
    字列が含まれていると判断されたテキスト情報に対応す
    る画像情報を出力する画像情報出力手段を有することを
    特徴とする請求項30に記載の情報処理装置。
  34. 【請求項34】 テキスト情報を記憶するテキスト情報
    記憶手段と、指定された文字列が含まれているか否かを
    判断する判断手段とを有する情報処理装置において、 前記指定された文字列から少なくとも1文字を除いたパ
    ターンを作成するパターン作成手段を備え、 前記判断手段は前記作成されたパターンを用いて前記判
    断を行うことを特徴とする情報処理装置。
  35. 【請求項35】 前記パターン作成手段は、前記指定さ
    れた文字列から1文字を除いたパターンを複数種類作成
    し、 前記判断手段は前記作成された複数種のパターンについ
    て前記判断を行うことを特徴とする請求項34に記載の
    情報処理装置。
  36. 【請求項36】 前記パターン作成手段が文字列から除
    く文字は、予め定められている文字に該当する文字とす
    ることを特徴とする請求項34に記載の情報処理装置。
  37. 【請求項37】 前記パターン作成手段が文字列から除
    く文字は、予め定められている文字に該当しない文字と
    することを特徴とする請求項34に記載の情報処理装
    置。
  38. 【請求項38】 前記パターン作成手段が文字列から除
    く文字は、予め記憶されているテーブルに従って決定す
    ることを特徴とする請求項34に記載の情報処理装置。
  39. 【請求項39】 前記テキスト情報は、入力した画像情
    報を文字認識した結果とすることを特徴とする請求項3
    4に記載の情報処理装置。
  40. 【請求項40】 前記作成されたパターンを所定文字数
    の文字列に分解するパターン分解手段と、 前記判断手段は前記分解して得た文字列が前記テキスト
    情報に含まれているか否かに従って前記判断を行うこと
    を特徴とする請求項34に記載の情報処理装置。
  41. 【請求項41】 前記判断手段は、前記文字列と前記テ
    キスト情報を1文字ずつ同じ文字であるか否かを判定す
    ることにより行うことを特徴とする請求項34に記載の
    情報処理装置。
  42. 【請求項42】 前記判断手段により前記指定された文
    字列が含まれていると判断されたテキスト情報を出力す
    るテキスト情報出力手段を有することを特徴とする請求
    項34に記載の情報処理装置。
  43. 【請求項43】 前記判断手段により前記指定された文
    字列が含まれていると判断されたテキスト情報に対応す
    る画像情報を出力する画像情報出力手段を有することを
    特徴とする請求項39に記載の情報処理装置。
  44. 【請求項44】 テキスト情報を記憶するテキスト情報
    記憶手段と、指定された文字列が含まれているか否かを
    判断する判断手段とを有する情報処理装置において、 前記指定された文字列から所定文字数の文字列に分解す
    る文字列分解手段と、 前記判断手段は前記分解して得た所定文字数の文字列を
    用いて前記判断を行うことを特徴とする情報処理装置。
  45. 【請求項45】 前記テキスト情報は、入力した画像情
    報を文字認識した結果とすることを特徴とする請求項4
    4に記載の情報処理装置。
  46. 【請求項46】 前記判断手段は、前記分解して得た文
    字列と前記テキスト情報を1文字ずつ同じ文字であるか
    否かを判定することにより判断することを特徴とする請
    求項44に記載の情報処理装置。
  47. 【請求項47】 前記判断手段により前記指定された文
    字列が含まれていると判断されたテキスト情報を出力す
    るテキスト情報出力手段を有することを特徴とする請求
    項44に記載の情報処理装置。
  48. 【請求項48】 前記判断手段により前記指定された文
    字列が含まれていると判断されたテキスト情報に対応す
    る画像情報を出力する画像情報出力手段を有することを
    特徴とする請求項45に記載の情報処理装置。
  49. 【請求項49】 テキスト情報を記憶するテキスト情報
    記憶手段と、指定された文字列が含まれているか否かを
    判断する判断手段とを有する情報処理装置において、 前記指定された文字列から少なくとも1文字を除いたパ
    ターンを作成するパターン作成手段を有し、 前記判断手段は、前記作成されたパターンにおける文字
    が除かれた位置に他の文字が挿入されることを仮定して
    前記判断を行うことを特徴とする情報処理装置。
  50. 【請求項50】 前記テキスト情報は、入力した画像情
    報を文字認識した結果とすることを特徴とする請求項4
    9に記載の情報処理装置。
  51. 【請求項51】 前記パターン作成手段が文字列から除
    く文字は、予め定められている文字に該当する文字とす
    ることを特徴とする請求項49に記載の情報処理装置。
  52. 【請求項52】 前記パターン作成手段が文字列から除
    く文字は、予め定められている文字に該当しない文字と
    することを特徴とする請求項49に記載の情報処理装
    置。
  53. 【請求項53】 前記パターン作成手段が文字列から除
    く文字は、予め記憶されているテーブルに従って決定す
    ることを特徴とする請求項49に記載の情報処理装置。
  54. 【請求項54】 前記判断手段は、前記作成されたパタ
    ーンと前記テキスト情報を1文字ずつ同じ文字であるか
    否かを判定することにより判断することを特徴とする請
    求項49に記載の情報処理装置。
  55. 【請求項55】 前記判断手段により前記指定された文
    字列が含まれていると判断されたテキスト情報を出力す
    るテキスト情報出力手段を有することを特徴とする請求
    項49に記載の情報処理装置。
  56. 【請求項56】 前記判断手段により前記指定された文
    字列が含まれていると判断されたテキスト情報に対応す
    る画像情報を出力するテキスト情報出力手段を有するこ
    とを特徴とする請求項50に記載の情報処理装置。
JP16737895A 1995-07-03 1995-07-03 情報処理方法及び装置 Expired - Fee Related JP3689455B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP16737895A JP3689455B2 (ja) 1995-07-03 1995-07-03 情報処理方法及び装置
US08/671,681 US6310971B1 (en) 1995-07-03 1996-06-28 Information processing method and apparatus, and storage medium storing medium storing program for practicing this method
EP96304824A EP0752673B1 (en) 1995-07-03 1996-06-28 Information processing method and apparatus for searching image or text information
DE69637025T DE69637025T2 (de) 1995-07-03 1996-06-28 Informationsverarbeitungsverfahren und -vorrichtung zum Suchen von Bild- oder Textinformation
CNB961085835A CN1139884C (zh) 1995-07-03 1996-07-03 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16737895A JP3689455B2 (ja) 1995-07-03 1995-07-03 情報処理方法及び装置

Publications (2)

Publication Number Publication Date
JPH0916619A true JPH0916619A (ja) 1997-01-17
JP3689455B2 JP3689455B2 (ja) 2005-08-31

Family

ID=15848612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16737895A Expired - Fee Related JP3689455B2 (ja) 1995-07-03 1995-07-03 情報処理方法及び装置

Country Status (5)

Country Link
US (1) US6310971B1 (ja)
EP (1) EP0752673B1 (ja)
JP (1) JP3689455B2 (ja)
CN (1) CN1139884C (ja)
DE (1) DE69637025T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944344B2 (en) 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
JP4054398B2 (ja) * 1997-03-24 2008-02-27 キヤノン株式会社 情報処理装置及びその方法
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
WO2000062243A1 (fr) * 1999-04-14 2000-10-19 Fujitsu Limited Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document
US6556841B2 (en) * 1999-05-03 2003-04-29 Openwave Systems Inc. Spelling correction for two-way mobile communication devices
US6999636B1 (en) * 1999-11-09 2006-02-14 Canon Kabushiki Kaisha Image search method and apparatus
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US7151864B2 (en) 2002-09-18 2006-12-19 Hewlett-Packard Development Company, L.P. Information research initiated from a scanned image media
US20060167935A1 (en) * 2002-10-15 2006-07-27 Yoshitaka Atarashi Input support method and apparatus in communication-type navigation system
JP2004171316A (ja) * 2002-11-21 2004-06-17 Hitachi Ltd Ocr装置及び文書検索システム及び文書検索プログラム
US20040223648A1 (en) * 2003-05-05 2004-11-11 Keith Hoene Determining differences between documents
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
JP4645498B2 (ja) * 2006-03-27 2011-03-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
DE102006050347A1 (de) 2006-10-25 2008-04-30 Siemens Ag Verfahren zum Prüfen eines Aufdrucks und Aufdruckprüfvorrichtung
US20090144327A1 (en) * 2007-11-29 2009-06-04 At&T Delaware Intellectual Property, Inc. Methods, systems, and computer program products for extracting data from a visual image
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
EP2363702B1 (en) 2010-03-05 2016-09-28 Nordson Corporation Bond strength tester with switchable backlash control
JP5716328B2 (ja) * 2010-09-14 2015-05-13 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
JP5906843B2 (ja) * 2012-03-14 2016-04-20 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
CN103377199B (zh) * 2012-04-16 2016-06-29 富士通株式会社 信息处理装置和信息处理方法
US10073884B2 (en) * 2014-12-18 2018-09-11 Excalibur Ip, Llc Method and system for enhanced search term suggestion
GB201620548D0 (en) 2016-12-02 2017-01-18 Nordson Corp Bond test apparatus and method
GB201702162D0 (en) 2017-02-09 2017-03-29 Nordson Corp Bond test apparatus and bond test cartridge with integrated illumination system
US10970481B2 (en) * 2017-06-28 2021-04-06 Apple Inc. Intelligently deleting back to a typographical error
US10887487B2 (en) * 2017-07-24 2021-01-05 Kyocera Document Solutions Inc. Image processing apparatus
GB201713169D0 (en) 2017-08-16 2017-09-27 Nordson Corp Bond test apparatus and method
EP3864690A1 (en) 2018-10-10 2021-08-18 Nordson Corporation Vacuum clamping apparatus and method

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6435627A (en) * 1987-07-31 1989-02-06 Fujitsu Ltd Data retrieving system
JPH0492971A (ja) * 1990-08-06 1992-03-25 Canon Inc 画像検索方法及び装置
JPH04158478A (ja) * 1990-10-22 1992-06-01 Matsushita Electric Ind Co Ltd 情報の検索方法および情報蓄積装置
JPH06149812A (ja) * 1992-11-06 1994-05-31 Sharp Corp 文書データ検索機能付き文書処理装置
JPH06195387A (ja) * 1992-12-22 1994-07-15 Matsushita Electric Ind Co Ltd 文書検索装置
JPH07121547A (ja) * 1993-10-21 1995-05-12 Matsushita Electric Ind Co Ltd 情報検索装置
JPH07152774A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
JPH07160730A (ja) * 1993-12-07 1995-06-23 Toshiba Corp 全文検索装置
JPH0863487A (ja) * 1994-08-25 1996-03-08 Toshiba Corp 文書検索方法及び文書検索装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3213420A (en) * 1960-12-29 1965-10-19 Jr Alton B Eckert Missing character detection
US4556951A (en) * 1982-06-06 1985-12-03 Digital Equipment Corporation Central processor with instructions for processing sequences of characters
JP2662035B2 (ja) * 1989-07-05 1997-10-08 キヤノン株式会社 文字処理装置
EP0424803B1 (de) * 1989-10-24 1997-07-16 FROESSL, Horst Verfahren zur mindestens teilweisen Umsetzung von Bilddaten in Text mit Vorbereitung für nachfolgende Speicherung oder Weiterverarbeitung
JP2865210B2 (ja) * 1989-12-04 1999-03-08 ソニー株式会社 文字認識装置
US5276741A (en) * 1991-05-16 1994-01-04 Trw Financial Systems & Services, Inc. Fuzzy string matcher
JP2925359B2 (ja) * 1991-06-19 1999-07-28 キヤノン株式会社 文字処理方法及び装置
US5319721A (en) * 1992-04-14 1994-06-07 International Business Machines Corporation Methods and apparatus for evolving a starter set of handwriting prototypes into a user-specific set
US5329598A (en) * 1992-07-10 1994-07-12 The United States Of America As Represented By The Secretary Of Commerce Method and apparatus for analyzing character strings
JP3220886B2 (ja) * 1993-06-23 2001-10-22 株式会社日立製作所 文書検索方法および装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6435627A (en) * 1987-07-31 1989-02-06 Fujitsu Ltd Data retrieving system
JPH0492971A (ja) * 1990-08-06 1992-03-25 Canon Inc 画像検索方法及び装置
JPH04158478A (ja) * 1990-10-22 1992-06-01 Matsushita Electric Ind Co Ltd 情報の検索方法および情報蓄積装置
JPH06149812A (ja) * 1992-11-06 1994-05-31 Sharp Corp 文書データ検索機能付き文書処理装置
JPH06195387A (ja) * 1992-12-22 1994-07-15 Matsushita Electric Ind Co Ltd 文書検索装置
JPH07121547A (ja) * 1993-10-21 1995-05-12 Matsushita Electric Ind Co Ltd 情報検索装置
JPH07152774A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
JPH07160730A (ja) * 1993-12-07 1995-06-23 Toshiba Corp 全文検索装置
JPH0863487A (ja) * 1994-08-25 1996-03-08 Toshiba Corp 文書検索方法及び文書検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944344B2 (en) 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program

Also Published As

Publication number Publication date
JP3689455B2 (ja) 2005-08-31
DE69637025D1 (de) 2007-05-31
CN1149737A (zh) 1997-05-14
US6310971B1 (en) 2001-10-30
EP0752673A1 (en) 1997-01-08
DE69637025T2 (de) 2008-01-03
EP0752673B1 (en) 2007-04-18
CN1139884C (zh) 2004-02-25

Similar Documents

Publication Publication Date Title
JPH0916619A (ja) 情報処理方法及び装置
US6687697B2 (en) System and method for improved string matching under noisy channel conditions
US20030099399A1 (en) Automated search on cursive records not having an ASCII index
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
JP2000182064A (ja) ドキュメント処理システム及びインデックス情報獲得方法
JP4891013B2 (ja) タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
JPH087033A (ja) 情報処理方法及び装置
JPH0772906B2 (ja) 文書認識装置
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
US11755659B2 (en) Document search device, document search program, and document search method
CN117171331A (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
JP2001175661A (ja) 全文検索装置及び全文検索方法
JP3589007B2 (ja) 文書ファイリングシステムおよび文書ファイリング方法
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JPH0785080A (ja) 全文書検索システム
JP3673553B2 (ja) ファイリング装置
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
US7623714B2 (en) Form recognition system, method, program, and storage medium
JP2000259847A (ja) 情報検索方法、装置および記録媒体
JPH113401A (ja) 情報処理装置及びその方法
JP2004038944A (ja) 意味論的スナップショットの決定
JP2004206521A (ja) 文書検索装置および文書検索プログラム
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム
JP4936635B2 (ja) 文字列検索装置、文字列検索方法およびその方法をコンピュータに実行させるためのプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050613

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080617

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees