JPH09198404A - 文書処理方法及び装置 - Google Patents

文書処理方法及び装置

Info

Publication number
JPH09198404A
JPH09198404A JP8009550A JP955096A JPH09198404A JP H09198404 A JPH09198404 A JP H09198404A JP 8009550 A JP8009550 A JP 8009550A JP 955096 A JP955096 A JP 955096A JP H09198404 A JPH09198404 A JP H09198404A
Authority
JP
Japan
Prior art keywords
character
candidate
image data
registered
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8009550A
Other languages
English (en)
Other versions
JP3727995B2 (ja
Inventor
Tadashi Kimura
正 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP00955096A priority Critical patent/JP3727995B2/ja
Publication of JPH09198404A publication Critical patent/JPH09198404A/ja
Application granted granted Critical
Publication of JP3727995B2 publication Critical patent/JP3727995B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文字認識機能によって画像データより得られた
複数の候補文字の中から、文書検索等に必要となる文字
列を抽出して当該画像データと対応づけて登録すること
を可能とし、文書ファイリングの操作性を向上する。 【解決手段】OCR部10は画像データに対して文字認
識処理を施し、各文字画像毎に1つ又は複数の文字候補
を獲得し、これを第1次候補記憶部11が記憶する。次
に、文字接続部判定部14、最終候補決定部16によっ
て、獲得された複数の文字候補の夫々について、接続関
係テーブル13を参照することにより、近接する文字画
像の文字候補との接続状態に基づいて採用すべき候補文
字を決定する。そして、キーワード生成部19は単語辞
書18を参照することにより、採用すべきとされた候補
文字に基づいて当該画像データの検索用のキーワードと
すべき文字列(単語)を生成し、これを格納する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は検索キーワードを指
示して文書を検索する文書ファイリング装置に好適な文
書処理方法及び装置に関する。
【0002】
【従来の技術】従来、検索キーワードを指示して文書を
検索するこの種の文書ファイリング装置では、画像デー
タを読み込むことにより文書を登録することが可能であ
ると共に、文書を検索するためのキーワードを登録する
ことができるものが存在する。また、読み込んだ画像デ
ータからOCR認識機能をつかって、画像データから文
字列を抽出する装置も存在する。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
装置では、画像データからOCR認識機能をつかって得
られる文字列には複数の候補文字が含まれており、その
ままでは上記文書ファイリング装置における検索用キー
ワードとして用いることはできなかった。このため、従
来の文書ファイリング装置では、検索用キーワードを別
途入力する必要があり、操作が煩わしかった。
【0004】本発明は上記の問題に鑑みてなされたもの
であり、文字認識機能によって画像データより得られた
複数の候補文字の中から、文書検索等に必要となる文字
列を抽出して当該画像データと対応づけて登録すること
を可能とし、文書ファイリングの操作性を向上する文書
処理方法及び装置を提供することを目的とする。
【0005】
【課題を解決するための手段】上記の目的を達成するた
めの本発明の文書処理装置は以下の構成を備える。即
ち、画像データに文字認識処理を施し、各文字画像につ
いて1つ又は複数の文字候補を獲得する獲得手段と、前
記複数の文字候補の夫々について、近接する文字画像の
文字候補との接続状態に基づいて採用すべき候補文字を
決定する決定手段と、前記採用すべき候補文字に基づい
て格納すべき文字列を生成する生成手段と、前記画像デ
ータと前記生成手段で生成された文字列とを対応づけて
格納する格納手段とを備える。
【0006】また、上記の目的を達成するため、本発明
の文書処理方法は以下の工程を備えている。
【0007】画像データに文字認識処理を施し、各文字
画像について1つ又は複数の文字候補を獲得する獲得工
程と、前記複数の文字候補の夫々について、近接する文
字画像の文字候補との接続状態に基づいて採用すべき候
補文字を決定する決定工程と、前記採用すべき候補文字
に基づいて格納すべき文字列を生成する生成工程と、前
記画像データと前記生成工程で生成された文字列とを対
応づけて格納する格納工程とを備える。
【0008】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態の一例を説明する。
【0009】図1は、本発明の一実施形態例による機能
構成を表すブロック図である。図1において、1は文書
ファイリング装置である。この文書ファイリング装置1
は、OCR部10、第1次候補記憶部11、文字接続関
係生成部12、接続関係テーブル13、文字接続判定部
14、第2次候補記憶部15、最終候補決定部16、最
終候補記憶部17、単語辞書18、キーワード生成部1
9とを備えている。
【0010】OCR部10はスキャナやフロッピーディ
スクなどから画像データを読み込み、これをパターン認
識によって得られる複数の候補文字列を出力する文字認
識処理を行う。第1次候補記憶部11は、OCR部10
によって得られた複数の候補文字を後続の処理のために
保持する記憶部である。
【0011】文字接続関係生成部12は単語辞書18の
すべての表記文字列から得られる2文字の組み合わせを
生成し、接続関係テーブル13に出力する。接続関係テ
ーブル13は上記の文字接続関係生成部12によって生
成された2文字の接続関係を記憶するテーブルである。
【0012】文字接続判別部14は、第1次候補記憶部
11に格納されている複数の候補文字から、接続関係テ
ーブル13を参照して複数候補の文字の組み合わせによ
る一致頻度を求め、その結果を第2次候補記憶部15に
出力する。最終候補決定部16は第2次候補記憶部15
に格納されている複数の候補文字と、各候補文字に対応
する一致頻度から、もっとも一致頻度の高い候補文字を
最終候補記憶部17に出力する。
【0013】単語辞書18は複数の単語を登録し、接続
関係テーブル13を生成するために利用されるととも
に、最終候補記憶部17に格納された文字列との照合に
よりキーワードを抽出するために使用される辞書であ
る。キーワード生成部19は、最終候補記憶部17に格
納されている文字列のなかから単語辞書18に登録され
た単語と一致する文字列を抽出してキーワードリストを
生成する。
【0014】以上のような構成の文書ファイリング装置
1により、画像データとして読み込まれた文書から文字
認識機能により複数の候補文字を含む認識結果を得て、
この認識結果の中から、かな漢字変換等にも使われる単
語辞書18との照合により、最終候補の決定が行われ
る。この結果、検索キーワードの生成、登録を自動化す
ることができる。
【0015】図2は本実施形態における文書ファイリン
グ装置の概略の構成を表すブロック図である。図2にお
いて、41はマイクロプロセッサを備えたCPUであ
り、文書の登録、キーワード登録、縮小キーワードによ
る文書検索などの各種制御を行う。なお、縮小キーワー
ドとは、通常のキーワードを部分的に分解して得られる
文字列をキーワードとしたもので、一般に文字インデッ
クスと呼ばれるものである。例えば縮小キーワードを2
文字で構成した場合、「内閣総理」は「内閣」「閣総」
「総理」の3つの縮小キーワードで構成される。これ
は、後述の図4で示す接続関係テーブルと同様のもので
ある。CPU41は、上記のような制御を行うため、バ
ス42を介して以下の各構成要素を制御するものであ
る。なお、BUS42はアドレスバス、コントロールバ
ス、およびデータバスからなる共通バスである。このB
US42を利用して、BUS42に接続された各機器相
互間のアドレス信号、制御信号および各種データの転送
がおこなわれる。
【0016】43は入力部であり、キーボードやマウス
などから構成され、当該文書ファイリング装置における
文書の登録、検索作業にかかわる動作を指示するための
選択機能をもったSWが設けられている。44はスキャ
ナであり、紙面等に記録された文書を光学的に読み込
む。スキャナ44で読み取られた画像は、画像データと
して本装置内に取り込まれる。そして、取り込まれた画
像データから、OCR部10により、複数の候補文字が
得られる。
【0017】45はROM(読み出し専用メモリ)であ
り、CPU41が実行するための制御プログラムを記憶
する。CPU41はこの制御プログラムを実行すること
により、文書の登録、検索、画像データからの文字認
識、複数の候補文字からの最終候補文字の決定など本実
施形態にかかわる処理を行うことができる。46はRA
M(ランダムアクセスメモリ)であり、CPU41が文
書の登録、検索、文字認識、最終候補文字の決定などを
実行する際のワークメモリとして、或は、各構成要素の
制御のための一時記憶装置として用いられる。47は電
源をきっても記憶内容が保存される外部記憶装置であ
り、画像データとして読み込まれた文書の登録、文書検
索のためのキーワード等が格納される。なお、外部記憶
装置47は、例えばハードディスク装置、フロッピーデ
ィスク装置によって構成される。
【0018】48はキャラクタジェネレータであり、表
示器51等へ表示すべき文字パターンを生成するために
用いられる。単語辞書18には、読みと表記文字列が対
応して登録されており、文書入力時のかな漢字変換処理
や、OCR部10によって得られた複数の候補文字から
最終候補文字を決定するための接続関係テーブル13の
生成等に使われる。50は表示制御部で、ランダムアク
セスメモリ46に保持された表示データを、表示器51
に表示する制御をおこなう。51は表示器であり、陰極
線管や液晶などで構成される。
【0019】図3は本実施形態における単語辞書のデー
タ構成例を示す図である。単語辞書18は、単語の読み
とそれに対応する表記文字列から構成されている。読み
は文書入力時に入力された読みに対応する漢字を検索す
るために用いられる。また、表記文字列は接続関係テー
ブル13を生成するために利用されるとともに、最終候
補文字列のなかから単語を抽出してキーワードを生成す
るために使われる。
【0020】図4は本実施形態の接続関係テーブルのデ
ータ構成例を示す図である。接続関係テーブル13に
は、単語辞書18の表記文字列から2文字の接続する組
み合わせすべてを抽出して登録したもので、複数の候補
文字から最終候補文字列を決定するための前処理に使わ
れる。なお、接続関係テーブル13はサイズが大きくな
るため、文字種早見表を作成して、照合時に該当する文
字列のブロックを高速に探し出せるようにしている。文
字種早見表には、漢字等の2バイトで構成される文字の
場合は、1バイト目が同じもののアドレスが格納され
る。
【0021】以上のような構成を備える本実施形態の文
書ファイリング装置における動作について以下に説明す
る。
【0022】図5は入力画像データ例を示す図である。
以下の説明において、図5に示した入力画像データを用
いて説明を行う。なお、画像データは文書として保管さ
れるとともに、OCR部10の文字認識機能により、各
文字部分に対して複数の候補文字が得られる。
【0023】図6は、本実施形態において図5に示す画
像データを処理した場合の第1次候補記憶部11におけ
るデータ格納状態を説明する図である。図6において、
元の画像データの文字列に対応する複数の候補文字が最
大3文字出力されている。OCRによる文字認識では、
文字の形状に近い文字を出力するため、図に示すように
数字の「0」と英文字の「O」、漢字の「度」と「皮」
など複数の候補文字が通常出力されている。
【0024】図7は、本実施形態において図5に示す画
像データを処理した場合の第2次候補記憶部15におけ
るデータ格納状態を説明する図である。図7に示される
ように、第2次候補記憶部15では、複数の候補文字の
それぞれについて文字接続テーブル13との照合により
一致した回数が記憶される。
【0025】例えば、画像データの文字列「OCR」の
部分について説明すると、複数の候補文字として「O」
には「O、0」が得られている。また、「C」に対応す
る候補文字としては「し、C」、Rに対応する候補文字
としては「尺、R」が出力されている。これらの複数の
候補文字の組み合わせとして、「Oし」、「OC」、
「0し」、「0C」の順に接続関係テーブル13を参照
すると、「OC」のみが一致したので、「O」と「C」
の回数にそれぞれ1が加えられる。同様にして次の「C
R」に対応する文字列の組み合わせとして、「し尺」、
「しR」、「C尺」、「CR」の順に接続関係テーブル
を参照すると、「CR」が一致することがわかり、
「C」と「R」の回数にそれぞれ1が加えられる。この
ようにして順次接続テーブル13を参照比較することに
より、各候補文字が使用頻度の高い文字かどうかを一致
回数で求めることができる。
【0026】図8は図7に示した第2次記憶部の各候補
文字を一致回数の大きい順に並び変えた状態を示す図で
ある。同図では、候補文字を一致回数の大きい順に並び
かえることにより、画像データの文字にもっとも近い文
字が先頭の候補として得られることを示している。尚、
文字接続テーブルとの比較照合で一度も一致していない
文字の場合は一致回数が0になっているため、後の最終
候補決定処理により無効な文字として無視される。
【0027】図9は、最終候補記憶部17の内容を示す
図である。本実施形態では文字接続テーブル13との比
較照合結果により、一致回数のもっとも大きい文字を出
力し、一度も一致しない文字は無効文字として「・」に
変換されて出力されている。更に、図10は最終候補記
憶部17の文字列からキーワードを抽出してキーワード
リストに登録する状態を説明する図である。最終候補記
憶部17の内容と単語辞書18との照合によりキーワー
ドリストとして有効な単語が得られ、これがキーワード
リスト70に登録される。なお、キーワードリスト70
は画像データを検索するためのキーワードとして、当該
画像データに付属して登録される。
【0028】以上説明した本実施形態の動作について、
図11を参照して更に説明する。図11は本実施形態に
よる文書ファイリング装置の動作手順を説明するフロー
チャートである。
【0029】本文書ファイリング装置に電源が投入され
ると、入力部43、スキャナ44、外部記憶装置47、
表示制御部50、RAM46などが初期設定され、文書
の登録、検索が可能な状態となる(ステップS1)。次
に、入力部43のキーボード等からの指示により、単語
辞書18などの辞書関係の更新操作を行うか、またはO
CR機能を使った文書登録操作を行うかを選択する(ス
テップS2)。
【0030】ステップS2において、単語辞書18等の
更新操作が選択されると、ステップS3に進み、読みお
よび表記文字列を入力して新たな単語の登録をしたり、
単語一覧を表示して不要となった単語の削除を行ったり
する。次にステップS4では、更新された単語辞書18
の表記文字列から、2文字毎に分割した文字列を抽出す
る。抽出された2文字ずつのリストとして内容は外部記
憶装置47に一時的に格納される。
【0031】続いてステップS5では、ステップS4で
作成された2文字のリストを外部記憶装置47から読み
出し、重複のない接続関係テーブル13を作成する。接
続関係テーブル13の構成例は図4に示した通りであ
る。更に、次のステップS6では、作成された接続関係
テーブルを高速に検索するための文字種早見表を作成す
る。文字種早見表は作成された接続関係テーブルを適当
に分割し、複数の候補文字との照合を高速に行うために
利用される。
【0032】以上のステップS3からステップS6に示
したように、単語辞書18への単語の登録/削除が行わ
れるとともに、該単語辞書18の更新に伴って接続関係
テーブル13の更新処理が行われる。この結果、単語辞
書18と接続関係テーブルの整合性が保たれる。
【0033】一方、ステップS2において文書登録の操
作が指示された場合には、ステップS7からステップS
12の一連の登録処理が実行される。
【0034】ステップS7ではスキャナ44により画像
データが入力される。ここで、入力された画像データに
は、図5で示したように、OCR機能によって認識され
るべき文字列が含まれているものとする。入力された画
像データは、外部記憶装置47に格納される。次のステ
ップS8では、入力された画像データにたいしてOCR
処理が実行され、複数の候補文字が出力される。本実施
形態では図6に示すように、画像データに含まれる各文
字に対応する複数の候補文字が出力されるものとする。
出力された候補文字は図6に示すごとく第1候補記憶部
11によって記憶される。
【0035】次のステップS9では、ステップS8で出
力された複数の候補文字を、前後の文字との接続関係に
より優先度の高い文字であるかどうかを判断する。ここ
では、文字接続判別部16が複数の候補文字の夫々につ
いて、前後の2文字の組み合わせと図4に示す接続関係
テーブルとの比較照合を行い、一致した回数がそれぞれ
の候補文字に対応する領域に記録される。この結果は、
第2次候補記憶部15によって、図7に示されるごとく
記憶される。ここで、単語辞書18に登録されている
「OCR」、「認識率」、「程度」に対応する候補文字
の一致回数が記録されていることがわかる。なお、3文
字単語の中の文字(例えばOCRのC)は、前後の2文
字との比較照合で2回一致するため、一致回数が2とな
っている。また、例えば、「率」という文字は、「識
率」と「確率」で2回一致するので、一致回数が2とな
っている。
【0036】次のステップS10において、最終候補決
定部16は、各文字のグループ毎に候補文字を接続関係
テーブル13との比較照合によって得られた一致回数順
にならべ変える。そして、それぞれの先頭の候補文字を
最終候補文字として最終候補記憶部17へ出力する。こ
のとき、先頭の候補であっても一致回数が0の文字はキ
ーワードとしては無効なので「・」に置き換えて出力さ
れる。出力結果は図9に示すようにキーワードとして必
要な文字のみが出力されている。最終候補記憶部17は
入力した最終候補文字列を図9の如く記憶する。
【0037】次に、ステップS11では、キーワード生
成部19が、最終候補文字列に格納されている文字列と
単語辞書の表示文字列との照合を行い、一致する文字列
のみをキーワードリスト70に出力する。本実施形態で
は単語辞書に登録されている「OCR」、「認識率」、
「程度」の3つの単語がキーワードとして出力されるこ
とになる。
【0038】そして、ステップS12では、スキャナー
から入力され、外部記憶装置47に格納された画像デー
タに、キーワードリスト70に記憶されたキーワードを
対応付けし、画像データとキーワードとの関係を登録す
る。この結果、本実施形態では、上記3つのキーワード
のうちのいずれかを指示して検索することにより、当該
画像データを呼び出すことができる。
【0039】このように、画像データを登録するとき
に、OCR機能によって得られた複数の候補文字から適
切な文字を自動的に決定し、文書検索のためのキーワー
ドとして利用することができるようになった。
【0040】なお、上記実施形態ではOCR機能によっ
て得られた複数の候補文字の中からもっとも一致回数の
多いものを選択する様にしたが、一致回数が同じものが
複数得られた場合は最終候補決定時に複数のキーワード
を出力することも可能である。この場合、例えば、後処
理で構文解析などを行って精度を向上することができ
る。即ち、同じ優先順位の複数候補はそのまま残し、後
処理で精度向上を図ることができる。
【0041】以上説明したように、本実施形態によれ
ば、スキャナやフロッピーディスクなどからの画像デー
タを登録するに際して、OCR機能により得られる複数
の候補文字の中から適切な文字を検索用キーワードとし
て自動的に決定することができる。このため、文書画像
データに検索用のキーワードを付与して登録する文書フ
ァイリング装置における、文書画像データと検索キーワ
ードの自動登録が可能になる。即ち、検索用キーワード
の登録作業が不要となり、操作性が著しく向上する。
【0042】また、接続関係テーブルは文字の組み合わ
せのみをテーブルとして作成されているが、単語追加時
に登録済みの場合は出現回数をカウントして単語辞書に
出現する頻度を考慮したテーブルにすることによってよ
り精度を上げることも可能である。
【0043】また、上記実施形態によれば、単語辞書1
8と仮名漢字変換処理に用いられる辞書とを共用するこ
とにより、辞書メモリの容量を低減することができる。
【0044】また、OCR認識機能により画像として読
み込まれた文書の中からすべての文字が検索用キーワー
ドとして得られるため、キーワード登録が不要な全文検
索システムを構成することが可能となる。
【0045】なお、本発明は、複数の機器(例えばホス
トコンピュータ,インタフェイス機器,リーダ,プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機,ファクシミリ装置
など)に適用してもよい。
【0046】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0047】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0048】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
【0049】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0050】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0051】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図12のメモリマップ例に示す各モジュール
を記憶媒体に格納することになる。
【0052】すなわち、少なくとも「獲得処理モジュー
ル」「決定処理モジュール」「生成処理モジュール」及
び「格納処理モジュール」の各モジュールのプログラム
コードを記憶媒体に格納すればよい。
【0053】ここで、獲得処理モジュールは、画像デー
タに対して文字認識処理を施し、各文字画像毎に1つ又
は複数の文字候補を獲得する獲得処理を実現するプログ
ラムモジュールである。また、決定処理モジュールは、
獲得処理で獲得された複数の文字候補の夫々について、
近接する文字画像の文字候補との接続状態に基づいて採
用すべき候補文字を決定する決定処理を実現するプログ
ラムモジュールである。また、生成処理モジュールは、
決定処理で採用すべきとされた候補文字に基づいて格納
すべき文字列(検索用のキーワードとなる)を生成する
生成処理を実現するプログラムモジュールである。更
に、格納処理モジュールは、上記画像データと、生成処
理で生成された格納すべき文字列とを対応づけて格納す
る格納処理を実現するプログラムモジュールである。
【0054】なお、上記実施形態で説明したように、決
定処理モジュールには接続関係テーブルを、生成処理モ
ジュールには単語辞書を含ませてもよい。更に、単語辞
書に対して新たな単語の追加や、不要な単語の削除を行
う等の更新操作を可能とするプログラムモジュールがあ
っても良い。この場合、上記実施形態で説明したよう
に、単語辞書の更新に伴って接続関係テーブルを更新す
るようにし、両者のせい合成が常に保たれるようにする
ことが望ましい。
【0055】
【発明の効果】以上説明したように、本発明によれば、
文字認識機能によって画像データより得られた複数の候
補文字の中から、文書検索等に必要となる文字列(単
語)を抽出して当該画像データと対応づけて登録するこ
とが可能となる。このため、抽出された文字列を検索用
キーワードとして用いることが可能となる。即ち、画像
データに検索用キーワードを付与して登録するファイリ
ングシステムにおいて、検索用キーワードの登録作業が
不要となり、操作性が著しく向上する。
【0056】また、本発明の他の構成によれば、文書検
索等に必要となる文字列の抽出に際して複数文字の接続
関係を登録した接続表、複数の単語を登録した単語辞書
を用いるので、例えば検索用キーワードを自動生成する
際の参照データの更新によるカスタマイズ等のメンテナ
ンスが容易となる。
【0057】また、本発明の他の構成によれば、上記単
語辞書に登録された単語に含まれる文字列に基づいて上
記接続表を自動的に生成することが可能となる。このた
め、単語辞書を更新した場合等において、更新語の単語
辞書から接続表が自動的に生成される。このため、単語
辞書と接続表との整合性が常時保たれる。
【0058】また、本発明の他の構成によれば、単語辞
書に登録された全ての単語より抽出され得る2文字の文
字列の全てを接続表として登録するので、2文字以上で
構成される単語を検出することが可能となる。
【0059】
【図面の簡単な説明】
【図1】本発明の一実施形態例による機能構成を表すブ
ロック図である。
【図2】本実施形態における文書ファイリング装置の概
略の構成を表すブロック図である。
【図3】本実施形態における単語辞書のデータ構成例を
示す図である。
【図4】本実施形態の接続関係テーブルのデータ構成例
を示す図である。
【図5】入力画像データ例を示す図である。
【図6】本実施形態において図5に示す画像データを処
理した場合の第1次候補記憶部11におけるデータ格納
状態を説明する図である。
【図7】本実施形態において図5に示す画像データを処
理した場合の第2次候補記憶部15におけるデータ格納
状態を説明する図である。
【図8】図7に示した第2次記憶部の各候補文字を一致
回数の大きい順に並び変えた状態を示す図である。
【図9】最終候補記憶部17の内容を示す図である。
【図10】最終候補記憶部17の文字列からキーワード
を抽出してキーワードリストに登録する状態を説明する
図である。
【図11】本実施形態による文書ファイリング装置の動
作手順を説明するフローチャートである。
【図12】本発明にかかるプログラムの構造的特徴を示
す図である。
【符号の説明】
1 文書ファイリング装置 10 OCR部 11 第1次候補記憶部 12 文字接続関係生成部 13 接続関係テーブル 14 文字接続判別部 15 第2次候補記憶部 16 最終候補決定部 17 最終候補記憶部 18 単語辞書 19 キーワード生成部

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 画像データに文字認識処理を施し、各文
    字画像について1つ又は複数の文字候補を獲得する獲得
    手段と、 前記複数の文字候補の夫々について、近接する文字画像
    の文字候補との接続状態に基づいて採用すべき候補文字
    を決定する決定手段と、 前記採用すべき候補文字を用いて格納すべき文字列を生
    成する生成手段と、 前記画像データと前記生成手段で生成された文字列とを
    対応づけて格納する格納手段とを備えることを特徴とす
    る文書処理装置。
  2. 【請求項2】 前記格納手段によって格納された文字列
    を検索のキーワードとして用いて、格納されている画像
    データの検索を行う検索手段を更に備えることを特徴と
    する請求項1に記載の文書処理装置。
  3. 【請求項3】 前記決定手段は、複数文字の接続関係を
    登録した接続表に存在する接続に一致する接続状態を有
    する候補文字を採用すべき候補文字に決定することを特
    徴とする請求項1に記載の文書処理装置。
  4. 【請求項4】 前記生成手段は、複数の単語を登録した
    単語辞書に存在する単語が前記採用すべき候補文字によ
    って生成された場合、当該単語を格納すべき文字列とす
    ることを特徴とする請求項3に記載の文書処理装置。
  5. 【請求項5】 前記接続表には、前記単語辞書に登録さ
    れた単語に含まれる文字列が登録されていることを特徴
    とする請求項4に記載の文書処理装置。
  6. 【請求項6】 前記単語辞書に登録された単語に含まれ
    る文字列に基づいて前記接続表を生成する接続表生成手
    段を更に備えることを特徴とする請求項4に記載の文書
    処理装置。
  7. 【請求項7】 前記接続表生成手段は、前記単語辞書に
    登録された全ての単語より抽出され得る2文字の文字列
    の全てを接続表として登録することを特徴とする請求項
    6に記載の文書処理装置。
  8. 【請求項8】 画像データに文字認識処理を施し、各文
    字画像について1つ又は複数の文字候補を獲得する獲得
    工程と、 前記複数の文字候補の夫々について、近接する文字画像
    の文字候補との接続状態に基づいて採用すべき候補文字
    を決定する決定工程と、 前記採用すべき候補文字を用いて格納すべき文字列を生
    成する生成工程と、 前記画像データと前記生成工程で生成された文字列とを
    対応づけて格納する格納工程とを備えることを特徴とす
    る文書処理方法。
  9. 【請求項9】 前記格納工程によって格納された文字列
    を検索のキーワードとして用いて、格納されている画像
    データの検索を行う検索工程を更に備えることを特徴と
    する請求項8に記載の文書処理方法。
  10. 【請求項10】 前記決定工程は、複数文字の接続関係
    を登録した接続表に存在する接続に一致する接続状態を
    有する候補文字を採用すべき候補文字に決定することを
    特徴とする請求項8に記載の文書処理方法。
  11. 【請求項11】 前記生成工程は、複数の単語を登録し
    た単語辞書に存在する単語が前記採用すべき候補文字に
    よって生成された場合、当該単語を格納すべき文字列と
    することを特徴とする請求項10に記載の文書処理方
    法。
  12. 【請求項12】 前記接続表には、前記単語辞書に登録
    された単語に含まれる文字列が登録されていることを特
    徴とする請求項11に記載の文書処理方法。
  13. 【請求項13】 前記単語辞書に登録された単語に含ま
    れる文字列に基づいて前記接続表を生成する接続表生成
    工程を更に備えることを特徴とする請求項11に記載の
    文書処理方法。
  14. 【請求項14】 前記接続表生成工程は、前記単語辞書
    に登録された全ての単語より抽出され得る2文字の文字
    列の全てを接続表として登録することを特徴とする請求
    項13に記載の文書処理方法。
  15. 【請求項15】 文書処理のためのプログラムコードが
    格納されたコンピュータ可読メモリであって、 画像データに文字認識処理を施し、各文字画像について
    1つ又は複数の文字候補を獲得する獲得工程のコード
    と、 前記複数の文字候補の夫々について、近接する文字画像
    の文字候補との接続状態に基づいて採用すべき候補文字
    を決定する決定工程のコードと、 前記採用すべき候補文字に基づいて格納すべき文字列を
    生成する生成工程のコードと、 前記画像データと前記生成工程で生成された文字列とを
    対応づけて格納する格納工程のコードとを備えることを
    特徴とするコンピュータ可読メモリ。
JP00955096A 1996-01-23 1996-01-23 文書処理方法及び装置 Expired - Lifetime JP3727995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00955096A JP3727995B2 (ja) 1996-01-23 1996-01-23 文書処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00955096A JP3727995B2 (ja) 1996-01-23 1996-01-23 文書処理方法及び装置

Publications (2)

Publication Number Publication Date
JPH09198404A true JPH09198404A (ja) 1997-07-31
JP3727995B2 JP3727995B2 (ja) 2005-12-21

Family

ID=11723396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00955096A Expired - Lifetime JP3727995B2 (ja) 1996-01-23 1996-01-23 文書処理方法及び装置

Country Status (1)

Country Link
JP (1) JP3727995B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057315A (ja) * 1998-08-06 2000-02-25 Mitsubishi Electric Corp 文書ファイリング装置及び文書ファイリング方法
WO2007034651A1 (ja) * 2005-09-26 2007-03-29 Access Co., Ltd. 放送受信装置、文字入力方法、およびコンピュータプログラム
CN100351847C (zh) * 2002-11-21 2007-11-28 株式会社日立制作所 Ocr装置、文件检索系统
JP2009176264A (ja) * 2008-01-24 2009-08-06 Sharp Corp 画像文書処理装置および画像文書処理方法
US7835037B2 (en) 2006-01-17 2010-11-16 Ricoh Company, Ltd. Image processing apparatus and image processing method
JP2011513849A (ja) * 2008-03-07 2011-04-28 ジェイエル ホールディングス エーピーエス スキャンの方法
JP2015207069A (ja) * 2014-04-18 2015-11-19 富士通株式会社 キーワード決定装置、キーワード決定プログラム及びキーワード決定方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057315A (ja) * 1998-08-06 2000-02-25 Mitsubishi Electric Corp 文書ファイリング装置及び文書ファイリング方法
CN100351847C (zh) * 2002-11-21 2007-11-28 株式会社日立制作所 Ocr装置、文件检索系统
WO2007034651A1 (ja) * 2005-09-26 2007-03-29 Access Co., Ltd. 放送受信装置、文字入力方法、およびコンピュータプログラム
US7835037B2 (en) 2006-01-17 2010-11-16 Ricoh Company, Ltd. Image processing apparatus and image processing method
JP2009176264A (ja) * 2008-01-24 2009-08-06 Sharp Corp 画像文書処理装置および画像文書処理方法
JP2011513849A (ja) * 2008-03-07 2011-04-28 ジェイエル ホールディングス エーピーエス スキャンの方法
JP2015207069A (ja) * 2014-04-18 2015-11-19 富士通株式会社 キーワード決定装置、キーワード決定プログラム及びキーワード決定方法

Also Published As

Publication number Publication date
JP3727995B2 (ja) 2005-12-21

Similar Documents

Publication Publication Date Title
US6363179B1 (en) Methodology for displaying search results using character recognition
US5768451A (en) Character recognition method and apparatus
US20100268724A1 (en) Method and system for approximate string matching
JPH0797373B2 (ja) 文書フアイリングシステム
US20020169763A1 (en) Method and system for expanding document retrieval information
JPH087033A (ja) 情報処理方法及び装置
JP3727995B2 (ja) 文書処理方法及び装置
JPH07152774A (ja) 文書検索方法および装置
JP7172343B2 (ja) 文書検索用プログラム
JPH1011431A (ja) 漢字検索装置および方法
JP2000029901A (ja) 画像検索装置及び方法
JP2002132789A (ja) 文書検索方法
JP3787384B2 (ja) 文書検索装置及びその方法
JP2560656B2 (ja) 文書ファイリングシステム
JPH10283368A (ja) 情報処理装置及びその方法
JPH08272813A (ja) ファイリング装置
JPH113401A (ja) 情報処理装置及びその方法
JPH0492973A (ja) イメージ情報登録検索装置
JPH10307839A (ja) テキスト検索装置及び方法
JP4255253B2 (ja) 文書検索システム及び方法
JPH0954781A (ja) 文書検索システム
JPH11191107A (ja) 文書処理方法とその装置
JPH09269952A (ja) 文書検索装置及びその方法
JPH1069494A (ja) 画像検索方法とその装置
JPH08263508A (ja) 文書検索方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050922

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050930

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121007

Year of fee payment: 7