JPH0916619A - 情報処理方法及び装置 - Google Patents
情報処理方法及び装置Info
- Publication number
- JPH0916619A JPH0916619A JP7167378A JP16737895A JPH0916619A JP H0916619 A JPH0916619 A JP H0916619A JP 7167378 A JP7167378 A JP 7167378A JP 16737895 A JP16737895 A JP 16737895A JP H0916619 A JPH0916619 A JP H0916619A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- information processing
- information
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
キストデータとして利用する場合に、文字認識処理の際
に生ずる文字切り出しエラーが原因で実際の文字画像と
異なる文字がテキストデータとして格納されてしまった
場合にも正しく検索が行えるようにすること。 【構成】 画像情報を入力するイメージスキャナ1と、
入力画像を認識するOCRソフトウェア2と、この認識
結果を格納するテキスト情報格納部4−2と、指定され
た検索語に余分な文字が挿入されることを仮定したり、
検索語から文字を間引いたパターンを作成してそのパタ
ーンを用いて検索を行う文書検索ソフトウェア3とを有
する。
Description
む画像情報或はテキスト情報を検索することの可能な情
報処理方法及び装置に関するものである。
結果を用いて、画像の検索、データベース化を可能にし
たものがあった。
において、OCRでの認識処理時に誤認識されることに
よる検索の不完全さを克服する為に、従来は認識結果を
登録する前にユーザに確認させる工程を設け、この確認
工程では認識結果の類似度がある程度低いものをも含め
て候補文字としてユーザに示し、その中から正しい文字
を選択させるか、その候補文字の中に正しい文字がなけ
れば手入力により正しい文字を入力させる等、ユーザの
負担により登録するテキストを訂正した後登録するもの
であった。
により行うのではなく、単語辞書や知識ベースを用いて
機械的に訂正する技術もある。
よる訂正作業を要するものはユーザの負担が大きく、登
録作業の度に多くの時間と手間を要求され、また、全自
動化を阻むものであった。
的に訂正するものは、この方法により全自動化を図る為
には高い計算能力を有するコンピュータを用いなければ
実用化に絶えず、また、自動訂正の信頼性にもまだ問題
がある。
を1文字に絞る訂正工程で誤訂正がなされてしまうと、
元に戻せないという危険性もある。
を排除することを目的とする。
字に対する単語辞書や知識ベースを用いたコンピュータ
にとって付加の重い誤認識訂正ではなく、OCRの認識
プロセス内の情報を有効活用し、その後に続く処理にな
るべく負担をかけないアルゴリズムで全自動化を図るこ
とを目的とする。
誤った切り出しを行ってしまった場合に、ユーザによる
訂正作業を不要とし、目的の検索が正しく行われるよう
にすることを目的とする。
に正しい文字が含まれていない場合に、ユーザによる訂
正作業を不要とし、目的の検索が正しく行われるように
することを目的とする。
に、本発明はテキスト情報に、指定された文字列が含ま
れているか否かを判断する情報処理方法及び装置におい
て、前記指定された文字列に他の文字が挿入されること
を仮定して前記判断を行う情報処理方法及び装置を提供
する。
ト情報に、指定された文字列が含まれているか否かを判
断する情報処理方法及び装置において、前記指定された
文字列から少なくとも1文字を除いたパターンを作成
し、前記作成されたパターンを用いて前記判断を行う情
報処理方法及び装置を提供する。
ト情報に、指定された文字列が含まれているか否かを判
断する情報処理方法及び装置において、前記指定された
文字列から所定文字数の文字列に分解し、前記分解して
得た所定文字数の文字列を用いて前記判断を行う情報処
理方法及び装置を提供する。
ト情報に、指定された文字列が含まれているか否かを判
断する情報処理方法及び装置において、前記指定された
文字列から少なくとも1文字を除いたパターンを作成
し、前記作成されたパターンにおける文字が除かれた位
置に他の文字が挿入されることを仮定して前記判断を行
う情報処理方法及び装置を提供する。
くは前記テキスト情報は、入力した画像情報を文字認識
した結果とする。
くは前記指定された文字列から除く文字は、予め定めら
れている文字に該当する文字とする。
くは前記指定された文字列から除く文字は、予め定めら
れている文字に該当しない文字とする。
くは前記指定された文字列から除く文字は、予め記憶さ
れているテーブルに従って決定する。
くは前記判断は、前記文字列と前記テキスト情報を1文
字ずつ同じ文字であるか否かを判定することにより行
う。
くは前記指定された文字列が含まれていると判断された
テキスト情報を出力する。
くは前記指定された文字列が含まれていると判断された
テキスト情報に対応する画像情報を出力する。
くは前記指定された文字列から1文字を除いたパターン
を複数種類作成し、前記判断を行う。
くは前記作成されたパターンを所定文字数の文字列に分
解し、前記分解して得た文字列が前記テキスト情報に含
まれているか否かに従って前記判断を行う。
くは前記判断は、前記文字列と前記テキスト情報を1文
字ずつ同じ文字であるか否かを判定することにより行
う。
くは前記判断は、前記分解して得た文字列と前記テキス
ト情報を1文字ずつ同じ文字であるか否かを判定するこ
とにより行う。
一例を図4に示し、この各構成について説明する。
接接続あるいは通信手段を介して接続されたイメージス
キャナであって、ドキュメント(原稿)の画像をスキャ
ンして光学的に読み取る。2はコンピュータ10内に含
まれるOCR(光学的文字認識)処理ソフトウェアであ
って、イメージスキャナ等から入力された画像情報を文
字認識し、テキスト情報を得る。3はコンピュータ10
内に含まれる文書検索ソフトウェアであって、イメージ
スキャナ1等から入力された画像情報からOCR処理し
て得たテキスト情報から検索用ファイルを作成し、検索
処理も行う。
索ソフトウェア3は、コンピュータ10内のメモリに格
納された制御プログラムに従って、コンピュータ10の
CPUの制御のもと実行される。また、後述するフロー
チャートに示す処理も同様に、コンピュータ10内のメ
モリに格納された制御プログラムに従って、コンピュー
タ10のCPUの制御のもと実行される。
ャナ等から入力された画像情報格納部(4−1)、テキ
スト情報格納部(4−2)および検索用ファイル格納部
(4−3)を有する。検索用ファイル格納部の中には、
更にインデックス、文書管理情報(DB)等が格納され
る。5は検索語や検索条件の入力を行うキーボードであ
り、6は検索語や検索条件の入力のための表示および画
像情報等を表示する表示装置である。10はコンピュー
タであって、先にも述べたように、本実施例で説明する
各種処理を行う為の制御プログラムを格納するメモリ
や、その制御プログラムに従って処理を実行するCPU
等を備える。
積処理は、イメージスキャナ1から入力された画像情報
を外部記憶装置4に記憶し、その外部記憶装置4に記憶
された画像情報をOCR処理ソフトウエア2によりテキ
スト情報化して外部記憶装置4に記憶し、更にテキスト
情報から文書検索ソフトウエア3により作成された検索
用ファイルを外部記憶装置4に記憶する工程を含む。
れた検索語を文書検索ソフトウエア3により検索用ファ
イルと照合して検索条件にあう文書を検索し、その文書
の文書アドレス情報を取り出し、表示装置6に該当文書
のイメージデータを表示する工程を含む。
実現される検索システムにおいて、OCRの際に生じた
誤認識による検索漏れを防ぐ為の主たる方法を以下に説
明する。
つの方法がある。 1.文字画の切り出しは成功したと仮定し、複数候補文
字およびそれらの認識尤度を用いた検索インデックスを
作成し、それらを用いて検索を行う。 2.文字画像の切り出しにエラーがあるか、または1文
字入力画像に対応する複数の候補文字の中に正解がない
場合を考慮し、指定された検索語と検索ファイルとの照
合に際し、検索語に余分な文字が入ることを許した検索
を行う。 3.文字画像の切り出しにエラーがあるか、または1文
字入力画像に対応する複数の候補文字の中に正解がない
場合を考慮し、指定された検索語から文字を間引いた文
字列パターン群を作成し、更にこれらの文字列パターン
群に余分な文字が入ることを許した検索を行う。
ャートに、方法2及び方法3については図3及び図5〜
図7のフローチャートにより詳細に説明する。これらの
説明に先立ち、先ず画像を登録する際に行われるOCR
処理について図1のフローチャートに従って説明する。
ジスキャナ1により入力する(S101)。入力した画
像情報は外部記憶装置4の画像情報格納部4−1に記憶
する。画像情報の入力は、イメージスキャナから直接入
力する方法の他に、通信手段を介して他のコンピュータ
やFAXにより入力する等しても良い。
存在するか否かを判断する(S102)。文字データが
存在しない場合は、OCR処理へは進まず、通常の画像
情報の登録処理を行う。
場合は、1文字分の画像情報を切り出し(S103)、
その切り出された1文字を認識し(S104)、この認
識結果(認識尤度の情報を含む)に基づいて以下のS1
05〜S111のテキスト情報として格納する文字情報
の形態を決定する処理を行う。
の形態の決定処理は、認識尤度が予め定められた有意尤
度判定閾値Thlに達すると判断される(S105)認
識候補は、その候補文字を認識結果として出力し(S1
06)、認識尤度が有意尤度判定閾値Th1に達しない
と判断される(S105)認識対象文字に対しては、複
数候補を識別する為の複数候補始端位置を表わすデリミ
ターを出力し(S107)、複数の認識候補各々の認識
尤度を考慮して適応的に(S108)下記のa(S10
9)またはb(S110)の場合に分岐して処理を行
う。 a.予め定められた低認識尤度判定閾値Th2(Th1
>Th2)以上の候補文字と、その個数を出力する。 b.尤度の高いものから予め定められた個数Nmaxの
認識候補文字とその個数を出力する。
の形態は、”@〔候補の数〕〔候補文字1〕〔候補文字
2〕〔候補文字3〕・・・@”とする。
識候補の各認識尤度が全てTh2以下であり、どの認識
尤度も同程度であった場合にはS110に進み、それ以
外の場合はS109に進むものとする。
認識結果に自信を持てるか否かを判断するための閾値で
あり、候補文字をその1文字に絞り込んで良いか否かを
判断する。次のパラメータTh2は認識尤度がそれ以下
のものは認識結果として正しくないであろうと判断する
ための閾値である。パラメータTh1,Th2、及び最
大認識候補数Nmaxはコンピュータ10のメモリに予
め格納されている値とする。
補が出力されたら、複数候補終端位置を表わすデリミタ
ーを出力する(S111)。
102に戻り、次の文字の認識処理に移る。S102〜
S111までの処理は、認識する文字がないとS102
で判断されるまで繰り返される。
に「アメリカ」という文字が存在していた場合を例に、
具体的に説明する。
れ、S104で認識した結果、第1位の候補文字「ア」
が認識尤度Th1以上の値で得られたとする。この場
合、S106で認識結果「ア」が出力される。
され、S104で認識した結果、この文字に対する複数
の認識結果の全てが認識尤度が低Th1以下となり(S
105)、どの認識候補もTh2以下の同じ位の尤度で
あったと判断されたとする(108)。よって、S10
7でデリミターを出力し、S110でNmax個の候補
文字を尤度の高いものから出力し、S111で更にデリ
ミターを出力する。
x”、”X”、”メ”、”キ”の4候補であったとし、
デリミターとして例えば”@”を用いたとすると、S1
07〜S111の処理により出力される結果は、”@4
xXメキ@”のようになる。
画像が切り出され、S104で認識した結果、第1位の
候補文字「リ」が認識尤度Th1以上の値で得られたと
する。この場合、S106で認識結果「リ」が出力され
る。
れ、S104で認識した結果、第1位の候補文字「カ」
が認識尤度Th1以上の値で得られたとする。この場
合、S106で認識結果「カ」が出力される。
@4xXメキ@リカ”となり、この結果がテキスト情報
格納部4−2に記憶される。
ミターを使用し、文字キーを区分する方法について説明
したが、これは一例であって、他の方法、例えば1文字
入力画像から得た候補ごとにテキスト情報格納部におけ
る格納場所を区別し、1文字入力画像ごとに格納アドレ
スを管理するなど、文字キーを区分する方法であれば良
い。
により作成されたテキスト情報に基づいて行われる、そ
の画像情報に付加する検索インデックスの作成処理を図
2のフローチャートに従って詳細に説明する。
ード5により入力される、インデックス用の文字キー種
類の指定情報を入力する(S201)。以後、この指定
された文字キー種類に該当する文字からインデックスを
作成する。
る、インデックス作成対象となっている画像情報に対応
するテキスト情報をロードする(S202)。
1で入力した種類に該当する1文字データを読み込む
(204)。その読み込んだ文字がデリミターであるか
判断し(S205)、デリミターでない場合は作成中の
インデックスの最後にその文字を付加する(S20
6)。一方、デリミターであると判断される場合は、作
成中のインデックスの最後に次のデリミターまでの候補
文字を付加して複数のインデックスを作成する(S20
7)。
デックスの文字数により、インデックスとして完成した
か否かを判断し(S208)、完成したと判断される場
合はその作成中のインデックスを検索用ファイル格納部
4−3に格納する。S208で完成していないと判断さ
れる場合は、S204に戻り、次の文字を読み込んでイ
ンデックスの作成を続ける。
準となる文字数のパラメータは、予めコンピュータのメ
モリに記憶されているものとする。
S203に戻り、残りの文字データがある場合は続けて
インデックスを作成する。
キスト情報から、認識候補文字群の前後の文字と組み合
わせ、指定された文字キー種類に合わせて文字列展開を
行い、検索の漏れを少なくすることの可能なインデック
スを作成することができる。
メキ@リカ”というテキスト情報から上述の図2のフロ
ーチャートに示す処理によってインデックスを作成した
場合、”アx””アX””アメ””アキ””xリ””X
リ””メリ””キリ””リカ”という合計9個のキーが
作成されて、インデックスに反映され、検索用ファイル
格納部4−3に記憶される。
作成された検索インデックスを用いて行う文書の検索処
理を図3のフローチャートに従って詳細に説明する。
ド5により検索語が入力され、検索の実行が指示される
(S301)。この実行が指示された際に設定されてい
る検索のレベル或は仕様により、OCR処理時の文字切
り出しエラー対策を行う検索処理が指定されているか否
かを判断し(S302)、文字切り出しエラー対策が指
定されていないと判断される場合は、S301で入力さ
れた検索語を検索キーに分解し、この検索キーを検索フ
ァイル格納部に格納されているインデックスと照合する
(S304)。この照合処理により一致すると判断され
る文書のアドレスを出力検索の結果として出力する(S
307)。
されていないと判断される場合は、S301で入力され
た検索語から文字を欠いたパターンを作成した後、検索
キーに分解し(S305)、この検索キーを検索ファイ
ル格納部に格納されているインデックスと照合する(S
306)。S306では、それぞれの作成されたパター
ンに対する検索キー群に対応するインデックス情報を検
索ファイルから取り出し、パターン毎に検索キー群に対
応するインデックス情報の論理積演算を行なった後、こ
れら全パターンに対しそれらの論理積演算結果を更に論
理和演算を行なう。このような文字切り出しエラー対策
を行うことにより、多少ノイズは乗るものの、文字切り
出しエラーが起こった画像情報でも検索が可能となるも
のである。
文書のアドレスを出力検索の結果として出力する(S3
07)。
ーは、インデックスの文字数と同じ文字数であり、図2
のフローチャートにより説明したインデックス作成の方
法と同様の方法により分解される。
て、文書の画像情報を画像情報格納部4−1より読み出
し、表示装置6に表示する。この表示する際に、検索さ
れた文書が複数ある場合は、先ず検索された文書のタイ
トル等を一覧表示し、その後画像情報の表示の指示に応
じて画像を表示するようにしても良い。
ら「アメリカ」という検索語が入力された場合を例にイ
ンデックスによる文書検索を説明する。
は、S303において「アメ」「メリ」「リカ」という
検索キーに分解され、S305においてこれらの検索キ
ー全てと検索用ファイル格納部に記憶されているインデ
ックスを照合する。この照合処理により、「アメ」「メ
リ」「リカ」というインデックスの全てが付加されてい
る文書が検索され、S307において出力される。
CR処理において、「リ」の文字で文字画像の切り出し
エラーが起き、「リ」が二つのパターンであるとして切
り出され、「アメリカ」という文字列から”アメ@2’
1@@21|@カ”という認識結果が得られてテキスト
情報として記憶されている場合がある。このような認識
結果からは、”アメ””メ’””メ1””’1””’
|””11””1|””1カ””|カ”というインデッ
クスしか作成されていない為、「アメリカ」という検索
語からS303で作成された「アメ」「メリ」「リカ」
ではこの文書は検索できない。
含む文書が検索できるような検索処理が文字切り出しエ
ラー対策を行うS305とS306の処理である。
を間引いた「アメカ」「アメリ」「アリカ」「メリカ」
の4パターンを作成し、この4パターン各々から検索キ
ーを分解する。パターン「アメカ」からは検索キーとし
て「アメ」「メカ」が得られる。パターン「アメリ」か
らは検索キーとして「アメ」「メリ」が得られる。パタ
ーン「アリカ」からは検索キーとして「アリ」「リカ」
が得られる。パターン「メリカ」からは検索キーとして
「メリ」「リカ」が得られる。
において検索ファイル格納部4−3に記憶されているイ
ンデックスと照合する。
デックスによる文書検索処理時に、アプリケーションか
ら文字切り出しエラーを考慮した検索を行なう指示がさ
れている場合は、S305の処理において、更に図7〜
図9のフローチャートに示すような方法で文字の間引処
理を行う。図7〜図9のフローチャートに示す処理は、
各種文字切り出しエラーを考慮した間引の方法であり、
以下に各々説明する。
く文字数がオペレータにより指定され(S701)、そ
の指定文字数に従って組み合わせ可能なパターンを全て
作成する(S702)例である。
01で指定された検索語の長さに従って、間引く文字数
を決定し(S802)、その決定された文字数に従って
組み合わせ可能なパターンを全て作成する(S80
3)。S802における間引く文字数の決定は、指定検
索語の文字数に従って、予め記憶されている計算式に従
って演算により決定する。この計算式はコンピュータ1
0内のメモリに記憶しておく。
01で指定された検索語の中に、OCRが誤認識し易い
文字が含まれているか否かを判断し(S902)、含ま
れていると判断される場合はその文字を間引(S90
3)き、含まれていないと判断される場合は検索語から
の間引処理は行わず、その文字列を検索用のパターンと
する。OCRが誤認識し易い文字は、コンピュータ10
内のメモリに例えばテーブルの形態で予め記憶してお
き、これらの文字と検索語とを照合してS902におけ
る判断を行うものとする。間引く文字を限定するので、
間引きパターン数を減少させることが可能となる。例え
ば、先に述べた具体例の場合、検索語「アメリカ」にお
ける「リ」は切り出しエラーが起こり易く、縦の2本の
線を別々の文字と切り出しエラーを起こし易いので、文
字切り出しエラーの起こり易い候補として登録しておけ
ば、「リ」のみを間引いたパターン「アメカ」に限定し
て検索すれば良く、検索処理を効率的に行うことができ
る。
OCRが誤認識し易い文字を間引くのではなく、逆にO
CRが誤認識しにくく、確実な文字をコンピュータ10
内のメモリに例えばテーブルの形態で予め記憶してお
き、これらに含まれていない文字を間引くようにしても
良い。
誤認識し易い文字のみを間引くのではなく、図7や図8
のフローチャートに示した処理において誤認識し易い文
字を間引く文字の第一優先文字とするようにしても検索
処理を効率的に行なうことのできるパターンの作成がで
きる。
おいて、生成パターン数が多過ぎる場合に備えて生成パ
ターン数の制限値を設けることも考えられる。
す処理を行った後S305では検索キーの分解が行わ
れ、更にS306での検索ファイルとの照合の処理に進
むことにより、文字切り出しエラーを考慮した、より、
漏れの少ない検索が行える。
いて説明する。
た、インデックスによる文書検索の処理が、検索語を検
索キーに分解して検索することにより、検索漏れは少な
いが、指定された検索語の文字列を含まない文書が含ま
れているのに対し、検索キーは含むが、検索語そのもの
を含まない文書を排除することの可能な処理である。
は、文書全体に対して検索語との一致判断を行うが、こ
の際に、OCR処理での文字切り出しエラーを考慮した
処理を行う。詳細を、図5のフローチャートに従って説
明する。
2に記憶されている全テキスト情報に対して行っても良
いが、図3の検索処理により絞り込まれた文書に対応す
るテキスト情報に対してのみ行うことにより、処理の能
率を向上させることができる。
OCR処理での文字切り出しエラーを考慮する為に、検
索語から文字を間引いて作成された検索候補語に、冗長
な文字列が入ることを許して全文をサーチする処理を行
なう。
力する。検索語は、ユーザによりキーボード5より入力
したものであり、余分文字数Xは、その検索語に入るこ
とを許す文字の数であって、この値は検索語の文字数に
従って、予め記憶されている計算式に従って演算により
決定する。この計算式はコンピュータ10内のメモリに
記憶しておく。また、検索レベルをユーザにより指定で
きるようにし、この指定されたレベルを、Xを求める計
算において反映させることにより、ユーザの求めるレベ
ルでの検索処理が行えるようになる。
先に述べたレベルにより、文字間引処理を行うことが指
定されているレベルであるか否か判断し(S502)、
指定されていると判断される場合はS501で入力され
た検索語から文字の間引を行い、更に検索語における間
引が行われた位置を記憶する(S503)。この、間引
を行って作成された文字列を検索候補語と呼ぶ。S50
2で指定がされていないと判断されている場合は、S5
02で入力した検索語がすなわち検索候補語となる。
語の一つ目に設定し、比較対照文字をテキスト情報の1
文字目に設定し、更にカウンターCを0に設定する。こ
こで、比較対照文字列とは、その時点でテキスト情報と
照合する検索語であり、順次検索候補語内で対象を更新
する(S520)。比較対照文字とは、その時点で比較
対照となっている比較対照文字列内の文字であり、順次
比較対照文字列内で対象を更新する(S515)。カウ
ンターCは、余分文字列がXの範囲を超えないように管
理する為のカウンターであり、余分文字列と判断される
毎にインクリメントする(S517)。
より、検索語との照合を行うテキスト全体をロードす
る。S507では、そのロードされたテキストから比較
対照とする文字を1文字読み込む。S508ではその読
み込んだ文字がデリミターであるか否か判断し、デリミ
ターでなければS507で読み込んだ文字と比較対照文
字を比較する(S509)。S508で読み込んだ文字
がデリミターであると判断された場合は、S505でロ
ードしたテキストより、次のデリミターまでの文字を読
み込み、各々の読み込んだ文字と比較対照文字とを比較
する(S510)。S509或はS510で比較された
結果、同じ文字であれば(S511)、カウンターCを
0にリセットし(S512)、比較対照文字が比較対照
文字列の最後の文字であれば(S513)、S505で
ロードしたテキストに比較対照文字列と一致する文字列
があると判断してそのテキストの、画像情報格納部4−
1における文書アドレスを出力する(S514)。
の最後の文字でないと判断される場合は、S515に移
って比較対照文字を次の文字にシフトした後、S506
に戻って照合処理を続ける。
じ文字でないと判断された場合は(S511)、比較対
照文字の位置がS503で記憶した文字間引位置であっ
てかつC≦(X−1)であるか判断する(S516)。
S516で肯定判断された場合は、カウンターCをイン
クリメントして(S517)S506に戻り、照合処理
を続ける。一方S516で否定判断された場合は、比較
対照文字を比較対照文字列の先頭に設定し、カウンター
Cを0に設定した(S518)後、S506に戻って照
合処理を続ける。
キストに残りの文字がないと判断された場合は、検索候
補語に残りがあるか判断し(S519)、なければその
文書は検索語と一致する文字列を含んでいないと判断
し、その文書の照合処理を終了する(S522)。一
方、S519で検索候補語の残りがあると判断された場
合は、次の検索候補語を比較対照文字列に設定し、カウ
ンターCを0に設定し(S520)、文字データの文字
込み位置をS505で読み込んだテキスト情報の先頭に
設定した(S521)後、S506に戻って照合処理を
続ける。
ト情報と検索語との照合処理について説明したが、S5
05におけるテキスト情報のロードを順次複数のテキス
ト情報について行い、S505〜S522の処理を繰り
返すことによって、照合の対象となる文書が複数ある場
合に対応できる。
と思われる文字列を、OCR処理の際に文字切り出しエ
ラーが発声していることを考慮して文書全文をサーチす
ることにより、間引いた文字の位置に他の文字列があっ
ても検索語に一致すると判断することができるので、先
にあげた例のように、検索語「アメリカ」から作成され
たパターン「アメカ」で、間引した文字の「リ」の位置
に文字画像切り出しエラーで得られた誤認識文字列「’
|」がある場合にもその「アメ’|カ」というテキスト
中の文字列を検索語と一致すると判断でき、文字画像切
り出しエラーが発生していても正しく検索することがで
きる。
全体検索処理では、検索語に文字列が入ることを許す処
理をしたが、その文字列が入る位置は文字を間引いた位
置に限定した処理を説明した。
に限定せず、検索語の個々の文字間に余分な文字が入る
ことを許して文書全体をサーチすることにより、更にあ
いまいな検索処理を行なうことが可能であり、その処理
を図6のフローチャートに示す。
の処理と同様のステップは同一ステップ番号を付し、こ
こでの説明は省略する。
において文字を間引いた位置を記憶していない点と、S
616における判断がC≦(X−1)だけとした点にあ
る。これにより、余分文字はどの位置にも挿入が許され
る。
複数のパターンに展開してこれらの複数パターンにより
検索することや、文字間引き位置或はそれ以外の位置に
余分な文字が入ることを許して検索を行うことで、本来
検索文字列が存在しない文書を検索してしまう可能性も
存在するが、漏れがないという点では検索処理にとって
重大な効果があると言える。例えば、「オーストラリ
ア」を本発明による方法で検索すると、「オーストラリ
ア」と良く混同され易い「オーストリア」等の文字列を
含む文書も検索され、あいまいな検索を可能にすること
ができる。
して、データーベースに関しても、複数のレコードを作
成し、これを用いて洩れの少ない検索を行うことも可能
である。
ード、頁キーワード抽出等の応用も可能である。
取り装置の二部情報の認識尤度が低い場合への応用も同
様の手法で行える。
として重複2文字キーを用いたが、単語キーでインデッ
クスを作成する場合も考えられる。
報に対応する画像情報を出力する例について説明した
が、画像情報のみならず、テキスト情報をテキスト情報
格納部4−2から読み出して検索結果として出力するよ
うにしても良い。
リミター(@)を用いたが、文字キーが区分できれば他
の文字キー区分手段を用いたアルゴリズムに変更しても
その効力は失われない。
を用いて説明したが、単語キーを用いても良い。
CR認識尤度が低く、認識に自信がない場合に1つに絞
る事を避け、上記の方法により、認識尤度に応じた最適
な複数の認識候補を選び、有効な認識候補情報を捨てな
いでこれを蓄積・活用することにより文字認識時点での
有効な情報を捨てずに済む。
ば、文字画像の切り出しの段階のエラーにより複数候補
中に正しい文字が存在しなくても検索語から文字間引き
パターンを作成し検索することにより、漏れの少ない検
索が可能となる。
ば、人手による訂正作業を無くし、イメージ入力からO
CRを経てイメージデータ・テキストデータ蓄積まで無
人で行えるシステムを構築でき、且つコンピュータに対
し負荷を掛けず、処理速度の低下の心配が無く、比較的
安価なシステムを実現できる。
ば、OCR認識尤度が低く、認識に自信がない場合に1
つに絞る事を避けることにより、認識尤度に応じた最適
な複数の認識候補を選び、有効な認識候補情報を捨てな
いでこれを蓄積・活用することにより人手による訂正作
業を無くし、且つコンピュータに対し負荷を掛けず、処
理速度の向上させることができる。
ば、指定された文字列から除く文字は、予め定められて
いる文字に該当する文字とすることにより、効率の良い
パターン作成が行なえる。
ば、指定された文字列から除く文字は、予め定められて
いる文字に該当しない文字とすることにより、効率の良
いパターン作成が行なえる。
ば、指定された文字列から除く文字は、予め記憶されて
いるテーブルに従って決定することにより、効率の良い
パターンの作成処理が更に高速に行なえる。
理を示すフローチャート
を示すフローチャート
ロック図
Claims (56)
- 【請求項1】 テキスト情報に、指定された文字列が含
まれているか否かを判断する情報処理方法において、 前記指定された文字列に他の文字が挿入されることを仮
定して前記判断を行うことを特徴とする情報処理方法。 - 【請求項2】 前記テキスト情報は、入力した画像情報
を文字認識した結果とすることを特徴とする請求項1に
記載の情報処理方法。 - 【請求項3】 前記判断は、前記文字列と前記テキスト
情報を1文字ずつ同じ文字であるか否かを判定すること
により行うことを特徴とする請求項1に記載の情報処理
方法。 - 【請求項4】 前記指定された文字列が含まれていると
判断されたテキスト情報を出力することを特徴とする請
求項1に記載の情報処理方法。 - 【請求項5】 前記指定された文字列が含まれていると
判断されたテキスト情報に対応する画像情報を出力する
ことを特徴とする請求項2に記載の情報処理方法。 - 【請求項6】 テキスト情報に、指定された文字列が含
まれているか否かを判断する情報処理方法において、 前記指定された文字列から少なくとも1文字を除いたパ
ターンを作成し、 前記作成されたパターンを用いて前記判断を行うことを
特徴とする情報処理方法。 - 【請求項7】 前記指定された文字列から1文字を除い
たパターンを複数種類作成し、前記判断を行うことを特
徴とする請求項6に記載の情報処理方法。 - 【請求項8】 前記指定された文字列から除く文字は、
予め定められている文字に該当する文字とすることを特
徴とする請求項6に記載の情報処理方法。 - 【請求項9】 前記指定された文字列から除く文字は、
予め定められている文字に該当しない文字とすることを
特徴とする請求項6に記載の情報処理方法。 - 【請求項10】 前記指定された文字列から除く文字
は、予め記憶されているテーブルに従って決定すること
を特徴とする請求項6に記載の情報処理方法。 - 【請求項11】 前記テキスト情報は、入力した画像情
報を文字認識した結果とすることを特徴とする請求項6
に記載の情報処理方法。 - 【請求項12】 前記作成されたパターンを所定文字数
の文字列に分解し、 前記分解して得た文字列が前記テキスト情報に含まれて
いるか否かに従って前記判断を行うことを特徴とする請
求項6に記載の情報処理方法。 - 【請求項13】 前記判断は、前記文字列と前記テキス
ト情報を1文字ずつ同じ文字であるか否かを判定するこ
とにより行うことを特徴とする請求項6に記載の情報処
理方法。 - 【請求項14】 前記指定された文字列が含まれている
と判断されたテキスト情報を出力することを特徴とする
請求項6に記載の情報処理方法。 - 【請求項15】 前記指定された文字列が含まれている
と判断されたテキスト情報に対応する画像情報を出力す
ることを特徴とする請求項11に記載の情報処理方法。 - 【請求項16】 テキスト情報に、指定された文字列が
含まれているか否かを判断する情報処理方法において、 前記指定された文字列から所定文字数の文字列に分解
し、 前記分解して得た所定文字数の文字列を用いて前記判断
を行うことを特徴とする情報処理方法。 - 【請求項17】 前記テキスト情報は、入力した画像情
報を文字認識した結果とすることを特徴とする請求項1
6に記載の情報処理方法。 - 【請求項18】 前記判断は、前記分解して得た文字列
と前記テキスト情報を1文字ずつ同じ文字であるか否か
を判定することにより行うことを特徴とする請求項16
に記載の情報処理方法。 - 【請求項19】 前記指定された文字列が含まれている
と判断されたテキスト情報を出力することを特徴とする
請求項16に記載の情報処理方法。 - 【請求項20】 前記指定された文字列が含まれている
と判断されたテキスト情報に対応する画像情報を出力す
ることを特徴とする請求項17に記載の情報処理方法。 - 【請求項21】 テキスト情報に、指定された文字列が
含まれているか否かを判断する情報処理方法において、 前記指定された文字列から少なくとも1文字を除いたパ
ターンを作成し、 前記作成されたパターンにおける文字が除かれた位置に
他の文字が挿入されることを仮定して前記判断を行うこ
とを特徴とする情報処理方法。 - 【請求項22】 前記テキスト情報は、入力した画像情
報を文字認識した結果とすることを特徴とする請求項2
1に記載の情報処理方法。 - 【請求項23】 前記指定された文字列から除く文字
は、予め定められている文字に該当する文字とすること
を特徴とする請求項21に記載の情報処理方法。 - 【請求項24】 前記指定された文字列から除く文字
は、予め定められている文字に該当しない文字とするこ
とを特徴とする請求項21に記載の情報処理方法。 - 【請求項25】 前記指定された文字列から除く文字
は、予め記憶されているテーブルに従って決定すること
を特徴とする請求項21に記載の情報処理方法。 - 【請求項26】 前記判断は、前記作成されたパターン
と前記テキスト情報を1文字ずつ同じ文字であるか否か
を判定することにより行うことを特徴とする請求項21
に記載の情報処理方法。 - 【請求項27】 前記指定された文字列が含まれている
と判断されたテキスト情報を出力することを特徴とする
請求項21に記載の情報処理方法。 - 【請求項28】 前記指定された文字列が含まれている
と判断されたテキスト情報に対応する画像情報を出力す
ることを特徴とする請求項22に記載の情報処理方法。 - 【請求項29】 テキスト情報を記憶するテキスト情報
記憶手段と、指定された文字列が含まれているか否かを
判断する判断手段とを有する情報処理装置において、 前記判断手段は、前記指定された文字列に他の文字が挿
入されることを仮定して前記判断を行うことを特徴とす
る情報処理装置。 - 【請求項30】 前記テキスト情報記憶手段に記憶され
ているテキスト情報は、入力した画像情報を文字認識し
た結果とすることを特徴とする請求項29に記載の情報
処理装置。 - 【請求項31】 前記判断は、前記文字列と前記テキス
ト情報を1文字ずつ同じ文字であるか否かを判定するこ
とにより行うことを特徴とする請求項29に記載の情報
処理方法。 - 【請求項32】 前記判断手段により前記指定された文
字列が含まれていると判断されたテキスト情報を出力す
るテキスト情報出力手段を有することを特徴とする請求
項29記載の情報処理装置。 - 【請求項33】 前記判断手段により前記指定された文
字列が含まれていると判断されたテキスト情報に対応す
る画像情報を出力する画像情報出力手段を有することを
特徴とする請求項30に記載の情報処理装置。 - 【請求項34】 テキスト情報を記憶するテキスト情報
記憶手段と、指定された文字列が含まれているか否かを
判断する判断手段とを有する情報処理装置において、 前記指定された文字列から少なくとも1文字を除いたパ
ターンを作成するパターン作成手段を備え、 前記判断手段は前記作成されたパターンを用いて前記判
断を行うことを特徴とする情報処理装置。 - 【請求項35】 前記パターン作成手段は、前記指定さ
れた文字列から1文字を除いたパターンを複数種類作成
し、 前記判断手段は前記作成された複数種のパターンについ
て前記判断を行うことを特徴とする請求項34に記載の
情報処理装置。 - 【請求項36】 前記パターン作成手段が文字列から除
く文字は、予め定められている文字に該当する文字とす
ることを特徴とする請求項34に記載の情報処理装置。 - 【請求項37】 前記パターン作成手段が文字列から除
く文字は、予め定められている文字に該当しない文字と
することを特徴とする請求項34に記載の情報処理装
置。 - 【請求項38】 前記パターン作成手段が文字列から除
く文字は、予め記憶されているテーブルに従って決定す
ることを特徴とする請求項34に記載の情報処理装置。 - 【請求項39】 前記テキスト情報は、入力した画像情
報を文字認識した結果とすることを特徴とする請求項3
4に記載の情報処理装置。 - 【請求項40】 前記作成されたパターンを所定文字数
の文字列に分解するパターン分解手段と、 前記判断手段は前記分解して得た文字列が前記テキスト
情報に含まれているか否かに従って前記判断を行うこと
を特徴とする請求項34に記載の情報処理装置。 - 【請求項41】 前記判断手段は、前記文字列と前記テ
キスト情報を1文字ずつ同じ文字であるか否かを判定す
ることにより行うことを特徴とする請求項34に記載の
情報処理装置。 - 【請求項42】 前記判断手段により前記指定された文
字列が含まれていると判断されたテキスト情報を出力す
るテキスト情報出力手段を有することを特徴とする請求
項34に記載の情報処理装置。 - 【請求項43】 前記判断手段により前記指定された文
字列が含まれていると判断されたテキスト情報に対応す
る画像情報を出力する画像情報出力手段を有することを
特徴とする請求項39に記載の情報処理装置。 - 【請求項44】 テキスト情報を記憶するテキスト情報
記憶手段と、指定された文字列が含まれているか否かを
判断する判断手段とを有する情報処理装置において、 前記指定された文字列から所定文字数の文字列に分解す
る文字列分解手段と、 前記判断手段は前記分解して得た所定文字数の文字列を
用いて前記判断を行うことを特徴とする情報処理装置。 - 【請求項45】 前記テキスト情報は、入力した画像情
報を文字認識した結果とすることを特徴とする請求項4
4に記載の情報処理装置。 - 【請求項46】 前記判断手段は、前記分解して得た文
字列と前記テキスト情報を1文字ずつ同じ文字であるか
否かを判定することにより判断することを特徴とする請
求項44に記載の情報処理装置。 - 【請求項47】 前記判断手段により前記指定された文
字列が含まれていると判断されたテキスト情報を出力す
るテキスト情報出力手段を有することを特徴とする請求
項44に記載の情報処理装置。 - 【請求項48】 前記判断手段により前記指定された文
字列が含まれていると判断されたテキスト情報に対応す
る画像情報を出力する画像情報出力手段を有することを
特徴とする請求項45に記載の情報処理装置。 - 【請求項49】 テキスト情報を記憶するテキスト情報
記憶手段と、指定された文字列が含まれているか否かを
判断する判断手段とを有する情報処理装置において、 前記指定された文字列から少なくとも1文字を除いたパ
ターンを作成するパターン作成手段を有し、 前記判断手段は、前記作成されたパターンにおける文字
が除かれた位置に他の文字が挿入されることを仮定して
前記判断を行うことを特徴とする情報処理装置。 - 【請求項50】 前記テキスト情報は、入力した画像情
報を文字認識した結果とすることを特徴とする請求項4
9に記載の情報処理装置。 - 【請求項51】 前記パターン作成手段が文字列から除
く文字は、予め定められている文字に該当する文字とす
ることを特徴とする請求項49に記載の情報処理装置。 - 【請求項52】 前記パターン作成手段が文字列から除
く文字は、予め定められている文字に該当しない文字と
することを特徴とする請求項49に記載の情報処理装
置。 - 【請求項53】 前記パターン作成手段が文字列から除
く文字は、予め記憶されているテーブルに従って決定す
ることを特徴とする請求項49に記載の情報処理装置。 - 【請求項54】 前記判断手段は、前記作成されたパタ
ーンと前記テキスト情報を1文字ずつ同じ文字であるか
否かを判定することにより判断することを特徴とする請
求項49に記載の情報処理装置。 - 【請求項55】 前記判断手段により前記指定された文
字列が含まれていると判断されたテキスト情報を出力す
るテキスト情報出力手段を有することを特徴とする請求
項49に記載の情報処理装置。 - 【請求項56】 前記判断手段により前記指定された文
字列が含まれていると判断されたテキスト情報に対応す
る画像情報を出力するテキスト情報出力手段を有するこ
とを特徴とする請求項50に記載の情報処理装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16737895A JP3689455B2 (ja) | 1995-07-03 | 1995-07-03 | 情報処理方法及び装置 |
US08/671,681 US6310971B1 (en) | 1995-07-03 | 1996-06-28 | Information processing method and apparatus, and storage medium storing medium storing program for practicing this method |
EP96304824A EP0752673B1 (en) | 1995-07-03 | 1996-06-28 | Information processing method and apparatus for searching image or text information |
DE69637025T DE69637025T2 (de) | 1995-07-03 | 1996-06-28 | Informationsverarbeitungsverfahren und -vorrichtung zum Suchen von Bild- oder Textinformation |
CNB961085835A CN1139884C (zh) | 1995-07-03 | 1996-07-03 | 信息处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16737895A JP3689455B2 (ja) | 1995-07-03 | 1995-07-03 | 情報処理方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0916619A true JPH0916619A (ja) | 1997-01-17 |
JP3689455B2 JP3689455B2 (ja) | 2005-08-31 |
Family
ID=15848612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16737895A Expired - Fee Related JP3689455B2 (ja) | 1995-07-03 | 1995-07-03 | 情報処理方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6310971B1 (ja) |
EP (1) | EP0752673B1 (ja) |
JP (1) | JP3689455B2 (ja) |
CN (1) | CN1139884C (ja) |
DE (1) | DE69637025T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6944344B2 (en) | 2000-06-06 | 2005-09-13 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval apparatus, recording medium and program |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
JP4054398B2 (ja) * | 1997-03-24 | 2008-02-27 | キヤノン株式会社 | 情報処理装置及びその方法 |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
WO2000062243A1 (fr) * | 1999-04-14 | 2000-10-19 | Fujitsu Limited | Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document |
US6556841B2 (en) * | 1999-05-03 | 2003-04-29 | Openwave Systems Inc. | Spelling correction for two-way mobile communication devices |
US6999636B1 (en) * | 1999-11-09 | 2006-02-14 | Canon Kabushiki Kaisha | Image search method and apparatus |
JP4421134B2 (ja) * | 2001-04-18 | 2010-02-24 | 富士通株式会社 | 文書画像検索装置 |
US7151864B2 (en) | 2002-09-18 | 2006-12-19 | Hewlett-Packard Development Company, L.P. | Information research initiated from a scanned image media |
US20060167935A1 (en) * | 2002-10-15 | 2006-07-27 | Yoshitaka Atarashi | Input support method and apparatus in communication-type navigation system |
JP2004171316A (ja) * | 2002-11-21 | 2004-06-17 | Hitachi Ltd | Ocr装置及び文書検索システム及び文書検索プログラム |
US20040223648A1 (en) * | 2003-05-05 | 2004-11-11 | Keith Hoene | Determining differences between documents |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US8081849B2 (en) | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
JP4645498B2 (ja) * | 2006-03-27 | 2011-03-09 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
DE102006050347A1 (de) | 2006-10-25 | 2008-04-30 | Siemens Ag | Verfahren zum Prüfen eines Aufdrucks und Aufdruckprüfvorrichtung |
US20090144327A1 (en) * | 2007-11-29 | 2009-06-04 | At&T Delaware Intellectual Property, Inc. | Methods, systems, and computer program products for extracting data from a visual image |
WO2010096193A2 (en) | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Identifying a document by performing spectral analysis on the contents of the document |
WO2010105246A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
EP2363702B1 (en) | 2010-03-05 | 2016-09-28 | Nordson Corporation | Bond strength tester with switchable backlash control |
JP5716328B2 (ja) * | 2010-09-14 | 2015-05-13 | 株式会社リコー | 情報処理装置、情報処理方法、および情報処理プログラム |
JP5906843B2 (ja) * | 2012-03-14 | 2016-04-20 | オムロン株式会社 | キーワード検出装置、その制御方法および制御プログラム、並びに表示機器 |
CN103377199B (zh) * | 2012-04-16 | 2016-06-29 | 富士通株式会社 | 信息处理装置和信息处理方法 |
US10073884B2 (en) * | 2014-12-18 | 2018-09-11 | Excalibur Ip, Llc | Method and system for enhanced search term suggestion |
GB201620548D0 (en) | 2016-12-02 | 2017-01-18 | Nordson Corp | Bond test apparatus and method |
GB201702162D0 (en) | 2017-02-09 | 2017-03-29 | Nordson Corp | Bond test apparatus and bond test cartridge with integrated illumination system |
US10970481B2 (en) * | 2017-06-28 | 2021-04-06 | Apple Inc. | Intelligently deleting back to a typographical error |
US10887487B2 (en) * | 2017-07-24 | 2021-01-05 | Kyocera Document Solutions Inc. | Image processing apparatus |
GB201713169D0 (en) | 2017-08-16 | 2017-09-27 | Nordson Corp | Bond test apparatus and method |
EP3864690A1 (en) | 2018-10-10 | 2021-08-18 | Nordson Corporation | Vacuum clamping apparatus and method |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6435627A (en) * | 1987-07-31 | 1989-02-06 | Fujitsu Ltd | Data retrieving system |
JPH0492971A (ja) * | 1990-08-06 | 1992-03-25 | Canon Inc | 画像検索方法及び装置 |
JPH04158478A (ja) * | 1990-10-22 | 1992-06-01 | Matsushita Electric Ind Co Ltd | 情報の検索方法および情報蓄積装置 |
JPH06149812A (ja) * | 1992-11-06 | 1994-05-31 | Sharp Corp | 文書データ検索機能付き文書処理装置 |
JPH06195387A (ja) * | 1992-12-22 | 1994-07-15 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JPH07121547A (ja) * | 1993-10-21 | 1995-05-12 | Matsushita Electric Ind Co Ltd | 情報検索装置 |
JPH07152774A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 文書検索方法および装置 |
JPH07160730A (ja) * | 1993-12-07 | 1995-06-23 | Toshiba Corp | 全文検索装置 |
JPH0863487A (ja) * | 1994-08-25 | 1996-03-08 | Toshiba Corp | 文書検索方法及び文書検索装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3213420A (en) * | 1960-12-29 | 1965-10-19 | Jr Alton B Eckert | Missing character detection |
US4556951A (en) * | 1982-06-06 | 1985-12-03 | Digital Equipment Corporation | Central processor with instructions for processing sequences of characters |
JP2662035B2 (ja) * | 1989-07-05 | 1997-10-08 | キヤノン株式会社 | 文字処理装置 |
EP0424803B1 (de) * | 1989-10-24 | 1997-07-16 | FROESSL, Horst | Verfahren zur mindestens teilweisen Umsetzung von Bilddaten in Text mit Vorbereitung für nachfolgende Speicherung oder Weiterverarbeitung |
JP2865210B2 (ja) * | 1989-12-04 | 1999-03-08 | ソニー株式会社 | 文字認識装置 |
US5276741A (en) * | 1991-05-16 | 1994-01-04 | Trw Financial Systems & Services, Inc. | Fuzzy string matcher |
JP2925359B2 (ja) * | 1991-06-19 | 1999-07-28 | キヤノン株式会社 | 文字処理方法及び装置 |
US5319721A (en) * | 1992-04-14 | 1994-06-07 | International Business Machines Corporation | Methods and apparatus for evolving a starter set of handwriting prototypes into a user-specific set |
US5329598A (en) * | 1992-07-10 | 1994-07-12 | The United States Of America As Represented By The Secretary Of Commerce | Method and apparatus for analyzing character strings |
JP3220886B2 (ja) * | 1993-06-23 | 2001-10-22 | 株式会社日立製作所 | 文書検索方法および装置 |
-
1995
- 1995-07-03 JP JP16737895A patent/JP3689455B2/ja not_active Expired - Fee Related
-
1996
- 1996-06-28 US US08/671,681 patent/US6310971B1/en not_active Expired - Fee Related
- 1996-06-28 DE DE69637025T patent/DE69637025T2/de not_active Expired - Fee Related
- 1996-06-28 EP EP96304824A patent/EP0752673B1/en not_active Expired - Lifetime
- 1996-07-03 CN CNB961085835A patent/CN1139884C/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6435627A (en) * | 1987-07-31 | 1989-02-06 | Fujitsu Ltd | Data retrieving system |
JPH0492971A (ja) * | 1990-08-06 | 1992-03-25 | Canon Inc | 画像検索方法及び装置 |
JPH04158478A (ja) * | 1990-10-22 | 1992-06-01 | Matsushita Electric Ind Co Ltd | 情報の検索方法および情報蓄積装置 |
JPH06149812A (ja) * | 1992-11-06 | 1994-05-31 | Sharp Corp | 文書データ検索機能付き文書処理装置 |
JPH06195387A (ja) * | 1992-12-22 | 1994-07-15 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
JPH07121547A (ja) * | 1993-10-21 | 1995-05-12 | Matsushita Electric Ind Co Ltd | 情報検索装置 |
JPH07152774A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 文書検索方法および装置 |
JPH07160730A (ja) * | 1993-12-07 | 1995-06-23 | Toshiba Corp | 全文検索装置 |
JPH0863487A (ja) * | 1994-08-25 | 1996-03-08 | Toshiba Corp | 文書検索方法及び文書検索装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6944344B2 (en) | 2000-06-06 | 2005-09-13 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval apparatus, recording medium and program |
Also Published As
Publication number | Publication date |
---|---|
JP3689455B2 (ja) | 2005-08-31 |
DE69637025D1 (de) | 2007-05-31 |
CN1149737A (zh) | 1997-05-14 |
US6310971B1 (en) | 2001-10-30 |
EP0752673A1 (en) | 1997-01-08 |
DE69637025T2 (de) | 2008-01-03 |
EP0752673B1 (en) | 2007-04-18 |
CN1139884C (zh) | 2004-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0916619A (ja) | 情報処理方法及び装置 | |
US6687697B2 (en) | System and method for improved string matching under noisy channel conditions | |
US20030099399A1 (en) | Automated search on cursive records not having an ASCII index | |
JP2005018678A (ja) | 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム | |
JP2000182064A (ja) | ドキュメント処理システム及びインデックス情報獲得方法 | |
JP4891013B2 (ja) | タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム | |
JP7149721B2 (ja) | 情報処理装置、文字認識エンジン最適化方法及びプログラム | |
JPH087033A (ja) | 情報処理方法及び装置 | |
JPH0772906B2 (ja) | 文書認識装置 | |
US20110229036A1 (en) | Method and apparatus for text and error profiling of historical documents | |
US11755659B2 (en) | Document search device, document search program, and document search method | |
CN117171331A (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
JP2001175661A (ja) | 全文検索装置及び全文検索方法 | |
JP3589007B2 (ja) | 文書ファイリングシステムおよび文書ファイリング方法 | |
JP2586372B2 (ja) | 情報検索装置及び情報検索方法 | |
JPH0785080A (ja) | 全文書検索システム | |
JP3673553B2 (ja) | ファイリング装置 | |
JP4677750B2 (ja) | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 | |
US7623714B2 (en) | Form recognition system, method, program, and storage medium | |
JP2000259847A (ja) | 情報検索方法、装置および記録媒体 | |
JPH113401A (ja) | 情報処理装置及びその方法 | |
JP2004038944A (ja) | 意味論的スナップショットの決定 | |
JP2004206521A (ja) | 文書検索装置および文書検索プログラム | |
JP4584507B2 (ja) | 住所認識装置、記録媒体及びプログラム | |
JP4936635B2 (ja) | 文字列検索装置、文字列検索方法およびその方法をコンピュータに実行させるためのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050613 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080617 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090617 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |