JPH0869455A - 文書検索方法,文書検索装置及び文書記憶装置 - Google Patents

文書検索方法,文書検索装置及び文書記憶装置

Info

Publication number
JPH0869455A
JPH0869455A JP6204912A JP20491294A JPH0869455A JP H0869455 A JPH0869455 A JP H0869455A JP 6204912 A JP6204912 A JP 6204912A JP 20491294 A JP20491294 A JP 20491294A JP H0869455 A JPH0869455 A JP H0869455A
Authority
JP
Japan
Prior art keywords
character
document
keyword
character codes
searched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6204912A
Other languages
English (en)
Inventor
Eisuke Miyoshi
英輔 三由
Yasuo Tanosaki
康雄 田野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP6204912A priority Critical patent/JPH0869455A/ja
Publication of JPH0869455A publication Critical patent/JPH0869455A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字コードに置き換えることのできない記
号、図形及び文字を検索し得るようにすること。 【構成】 文字認識部12は読取部11から入力された
文書内の一意的に文字コードに置き換えることのできな
い記号、図形又は文字に対して得られる複数の文字コー
ドを制御部2に認識結果として渡す。文書格納部23は
前記文書の文字認識結果を文書記憶部3に格納する。次
に文字認識部12は読取部11から入力されたキーワー
ド内の前記と同種の記号、図形又は文字に対して得られ
る複数の文字コードを制御部2に認識結果として渡す。
その後検索部22は前記キーワードを含む文書を文書記
憶部3内から検索するが、この際キーワードと検索対象
文書側の前記両複数の文字コードが一致した際に、これ
ら複数の文字コードに対応する記号、図形又は文字もキ
ーワードと検索対象文書間で一致したと判定し、上記の
ような記号、図形及び文字に対しても検索を行ない得
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、記憶装置内に記憶され
ている文書を検索する文書検索装置に係わり、特に文字
コードに置き換えることのできない文字や記号を含んだ
文書の検索を行う文書検索方法及び装置と、前記文字コ
ードに置き換えることのできない文字や記号を含んだ文
書を前記記憶装置に記憶する文書記憶装置に関する。
【0002】
【従来の技術】従来この種の文書検索装置における文書
検索方法として、データベース作成時に予め文書に対し
てキーワードを付加しておき、検索時にこのキーワード
を利用して目的の文書を検索する方法が用いられてい
た。この方法では、検索速度は比較的高速であるが、デ
ータベース作成時に各文書に対してキーワードを付加す
る作業が必要で、これが作成者に負担になると共に、適
当なキーワードを付加することが必ずしも容易でなく、
検索時に検索者の目的とする文書が得られない場合もあ
った。
【0003】これに対して近年、計算機の処理速度の高
速化・大容量化に伴い、全文検索による文書検索方法が
実用化されつつある。この方法では、文書中の全ての文
字列が検索可能となるため、予めキーワードを付加する
必要がなく、検索時に検索者の指定した語句(キーワー
ド)を含む全ての文書を得ることができる。
【0004】しかし、このように全文検索を行なうこと
ができるようになっても、文字コードに置き換えること
のできる文字しか検索対象とならないため、文書中に含
まれる任意の記号や図形に対して検索を行なうことがで
きなかった。
【0005】更に、手書き入力技術の進展に伴い、ペン
等を用いて、利用者独自の文字・記号等をタブレットと
表示装置が一体となった入力表示装置等から入力するこ
とができるようになってきているが、これらの文字や記
号に対しても、対応する文字コードがないため、検索を
行なうことができず、この分、文書の検索効率が悪化す
るという欠点があった。
【0006】又、文字コードに置き換えることができな
い記号、図形及び文字を含んだ文書を記憶装置に記憶す
る場合、従来では前記記号、図形及び文字をコード化す
ることができず、検索以前の問題として、文字コードに
置き換えることのできない記号、図形及び文字を含んだ
文書の全内容を全て文字コード化してデータベースを作
ることができないという欠点があった。
【0007】
【発明が解決しようとする課題】上記のように、従来の
文書検索装置では、文字コードに置き換えることのでき
ない記号、図形又は文字は検索の対象にされておらず、
これら記号や図形又は文字を検索することができなかっ
たため、この分、上記した記号や図形を含む文書の検索
効率が悪化するという欠点があった。又、文字コードに
置き換えることのできる記号、図形又は文字を含んだ文
書の全内容を全て文字コード化してデータベースを作る
ことができないという欠点があった。
【0008】本発明はこのような事情を考慮してなされ
たもので、文字コードに置き換えることのできない記号
や図形又は文字に対しても、キーワードを用いた検索を
行なえるようにして、これら記号、図形又は文字を含む
文書の検索効率を向上させることができる文書検索方法
及びこの方法を用いた文書検索装置を提供すると共に、
文字コードに置き換えることのできない記号、図形及び
文字を含んだ文書の全内容を全て文字コード化して記憶
することができる文書記憶装置を提供することを目的と
している。
【0009】
【課題を解決するための手段】請求項1の発明は、文字
コード化して記憶している複数の文書の中から別途入力
されるキーワードを含む文書を検索する文書検索装置に
おける文書検索方法にあって、前記文書を記憶するため
に、文書中の記号、図形又は文字を辞書に登録されてい
る文字パターン情報との類似度により文字認識する際
に、本来ならばリジェクトされる類似度の低い記号、図
形又は文字に対して得られる複数の文字コードを認識結
果として記憶することにより、被検索対象である文書群
を作成しておき、その後、入力される前記キーワード内
の記号、図形又は文字を文字認識する際に、本来ならば
リジェクトされる類似度の低い記号、図形又は文字に対
して得られる複数の文字コードを認識結果として保持し
ておき、その後、前記文書を検索する際に、被検索文書
内の類似度の低い記号、図形又は文字に対して得られる
複数の文字コードと前記キーワード内の類似度の低い記
号、図形又は文字に対して得られる複数の文字コードと
を比較して、前記キーワード側と被検索文書側の複数の
文字コードの各文字コードが一致した場合に、これら複
数の文字コードに対応する元の記号、図形又は文字が前
記キーワード側と被検索文書側で同一であると見做すこ
とによって、文書の検索を行う方法を有する。
【0010】請求項2の発明は、前記文書を検索するた
めに、被検索文書内の類似度の低い記号、図形又は文字
に対して得られる複数の文字コードと前記キーワード内
の類似度の低い記号、図形又は文字に対して得られる複
数の文字コードとを比較する際に、前記キーワード側と
被検索文書側の複数の文字コードの各文字コードが一致
し且つ前記両複数の文字コードの出現順序も一致した場
合に、これら複数の文字コードに対応する元の記号、図
形又は文字が前記キーワード側と被検索文書側で同一で
あると見做す方法を有する。
【0011】請求項3の発明は、前記文書を検索するた
めに、被検索文書内の類似度の低い記号、図形又は文字
に対して得られる複数の文字コードと前記キーワード内
の類似度の低い記号、図形又は文字に対して得られる複
数の文字コードとを比較する際に、前記キーワード側と
被検索文書側の複数の文字コードの中で予め決められた
所定数以上の文字コードが一致した場合に、これら複数
の文字コードに対応する元の記号、図形又は文字が前記
キーワード側と被検索文書側で同一であると見做す方法
を有する。
【0012】請求項4の発明は、前記キーワードを含む
被検索文書を検索する際に、本来ならばリジェクトされ
る類似度の低い記号、図形又は文字に対して得られる複
数の文字コードと、これ以外の文字コードを一意的に定
められる記号、図形又は文字に対して得られる文字コー
ドとを区別し、前記キーワード側と被検索文書側で同一
の記号、図形又は文字があるかをそれぞれ別々に検索す
る方法を有する。
【0013】請求項5の発明は、文書を画像データ化す
る読取手段と、この読取手段により得られた画像データ
を文字認識する文字認識手段と、この文字認識手段によ
る文字認識結果を被検索文書として記憶する記憶手段
と、この記憶手段に記憶されている複数の文書の中か
ら、前記読取手段により画像データ化された後前記文字
認識手段により文字認識されたキーワードを含む文書を
検索する文書検索装置において、前記文字認識手段によ
って文書中の文字を認識する際に、文書中の記号、図形
又は文字を辞書に登録されている文字パターン情報との
類似度に基づいて文字認識し、且つ本来ならばリジェク
トされる類似度の低い記号、図形又は文字に対して得ら
れる複数の文字コードを文字認識結果として得る認識ル
ールを前記文字認識手段内に具備し、且つ前記キーワー
ドを前記文字認識手段によって文字認識して得た認識結
果を保持する保持手段と、前記記憶手段内の被検索文書
内の類似度の低い記号、図形又は文字に対して得られる
複数の文字コードと前記保存手段内の前記キーワードの
認識結果である類似度の低い記号、図形又は文字に対し
て得られる複数の文字コードとを比較する比較手段と、
この比較手段によって前記キーワード側と被検索文書側
の複数の文字コードの各文字コードが一致したと判定さ
れた場合に、これら複数の文字コードに対応する元の記
号、図形又は文字が前記キーワード側と被検索文書側で
同一であると見做して前記キーワードを含む文書を検索
する検索手段とを具備した構成を有する。
【0014】請求項6の発明は、前記比較手段は被検索
文書内の類似度の低い記号、図形又は文字に対して得ら
れる複数の文字コードと前記キーワード内の類似度の低
い記号、図形又は文字に対して得られる複数の文字コー
ドとを比較する際に、前記キーワード側と被検索文書側
の複数の文字コードの各文字コードが一致し且つ前記両
複数の文字コードの出現順序も一致したかどうかを判定
し、更に前記検索手段はこの比較手段によって前記文字
コードが一致したと判定された場合に、前記複数の文字
コードに対応する元の記号、図形又は文字が前記キーワ
ード側と被検索文書側で同一であると見做す構成を有す
る。
【0015】請求項7の発明は、前記比較手段は被検索
文書内の前記文書内の類似度の低い記号、図形又は文字
に対して得られる複数の文字コードと前記キーワード内
の類似度の低い記号、図形又は文字に対して得られる複
数の文字コードとを比較する際に、前記キーワード側と
被検索文書側の複数の文字コードの中で予め決められた
所定数以上の文字コードが一致したかどうかを判定し、
更に前記検索手段はこの比較手段によって前記文字コー
ドが一致したと判定された場合に、前記複数の文字コー
ドに対応する元の記号、図形又は文字が前記キーワード
側と被検索文書側で同一であると見做す構成を有する。
【0016】請求項8の発明は、前記検索手段は前記キ
ーワードを含む被検索文書を検索する際に、本来ならば
リジェクトされる類似度の低い記号、図形又は文字に対
して得られる複数の文字コードと、これ以外の文字コー
ドを一意的に定められる記号、図形又は文字に対して得
られる文字コードとを区別し、前記キーワード側と被検
索文書側で同一の記号、図形又は文字があるかどうかを
それぞれ別々に検索する構成を有する。
【0017】請求項9の発明は、複数の文書を文字コー
ド化して記憶する文書記憶装置において、前記文書を画
像データ化する読取手段と、この読取手段から出力され
る画像データを辞書に登録されている文字パターン情報
との類似度により文字認識する際に、本来ならばリジェ
クトされる類似度の低い記号、図形又は文字に対して得
られる複数の文字コードを文字認識結果として出力する
文字認識手段と、この文字認識手段から出力される認識
結果を記憶する記憶手段とを具備した構成を有する。
【0018】
【作用】請求項1の発明の文書検索方法にあって、前記
文書を記憶するために、文書中の記号、図形又は文字を
辞書に登録されている文字パターン情報との類似度によ
り文字認識する際に、本来ならばリジェクトされる類似
度の低い記号、図形又は文字に対して得られる複数の文
字コードを認識結果として記憶することにより、被検索
対象である文書群を作成しておき、その後、入力される
前記キーワード内の記号、図形又は文字を文字認識する
際に、本来ならばリジェクトされる類似度の低い記号、
図形又は文字に対して得られる複数の文字コードを認識
結果として保持しておき、その後、前記文書を検索する
際に、被検索文書内の類似度の低い記号、図形又は文字
に対して得られる複数の文字コードと前記キーワード内
の類似度の低い記号、図形又は文字に対して得られる複
数の文字コードとを比較して、前記キーワード側と被検
索文書側の複数の文字コードの各文字コードが一致した
場合に、これら複数の文字コードに対応する元の記号、
図形又は文字が前記キーワード側と被検索文書側で同一
であると見做すことによって、文書の検索を行ので、文
字コードに置き換えることのできない記号、図形又は文
字に対してもキーワードを使用した検索を行うことがで
きる。
【0019】請求項2の発明の文書検索方法にあって、
前記文書を検索するために、被検索文書内の類似度の低
い記号、図形又は文字に対して得られる複数の文字コー
ドと前記キーワード内の類似度の低い記号、図形又は文
字に対して得られる複数の文字コードとを比較する際
に、前記キーワード側と被検索文書側の複数の文字コー
ドの各文字コードが一致し且つ前記両複数の文字コード
の出現順序も一致した場合に、これら複数の文字コード
に対応する元の記号、図形又は文字が前記キーワード側
と被検索文書側で同一であると見做すので、文字コード
に置き換えることのできない記号、図形又は文字に対す
る一致条件を厳しくすることができる。
【0020】請求項3の発明の文書検索方法にあって、
前記文書を検索するために、被検索文書内の類似度の低
い記号、図形又は文字に対して得られる複数の文字コー
ドと前記キーワード内の類似度の低い記号、図形又は文
字に対して得られる複数の文字コードとを比較する際
に、前記キーワード側と被検索文書側の複数の文字コー
ドの中で予め決められた所定数以上の文字コードが一致
した場合に、これら複数の文字コードに対応する元の記
号、図形又は文字が前記キーワード側と被検索文書側で
同一であると見做ので、文字コードに置き換えることの
できない記号、図形又は文字に対する一致条件を緩やか
にすることができる。
【0021】請求項4の発明の文書検索方法にあって、
前記キーワードを含む被検索文書を検索する際に、本来
ならばリジェクトされる類似度の低い記号、図形又は文
字に対して得られる複数の文字コードと、これ以外の文
字コードを一意的に定められる記号、図形又は文字に対
して得られる文字コードとを区別し、前記キーワード側
と被検索文書側で同一の記号、図形又は文字があるかを
それぞれ別々に検索するので、本来ならばリジェクトさ
れる類似度の低い記号、図形又は文字のみを最初に検索
してから、次に残りの文字コードを一意的に定められる
記号、図形又は文字の検索を行うというように、検索を
順序だてて、効率良く行うことができる。
【0022】請求項5の発明の文書検索装置において、
文字認識手段内の認識ルールは前記文字認識手段によっ
て文書中の文字を認識する際に、文書中の記号、図形又
は文字を辞書に登録されている文字パターン情報との類
似度に基づいて文字認識し、且つ本来ならばリジェクト
される類似度の低い記号、図形又は文字に対して得られ
る複数の文字コードを文字認識結果として得る。保持手
段は前記キーワードを前記文字認識手段によって文字認
識して得た認識結果を保持する。比較手段は前記記憶手
段内の被検索文書内の類似度の低い記号、図形又は文字
に対して得られる複数の文字コードと前記保存手段内の
前記キーワードの認識結果である類似度の低い記号、図
形又は文字に対して得られる複数の文字コードとを比較
する。検索手段は前記比較手段によって前記キーワード
側と被検索文書側の複数の文字コードの各文字コードが
一致したと判定された場合に、これら複数の文字コード
に対応する元の記号、図形又は文字が前記キーワード側
と被検索文書側で同一であると見做して前記キーワード
を含む文書を検索する。これにより、文字コードに置き
換えることのできない記号、図形又は文字に対してもキ
ーワードを使用した検索を行うことができる。
【0023】請求項6の発明の文書検索装置において、
前記比較手段は被検索文書内の類似度の低い記号、図形
又は文字に対して得られる複数の文字コードと前記キー
ワード内の類似度の低い記号、図形又は文字に対して得
られる複数の文字コードとを比較する際に、前記キーワ
ード側と被検索文書側の複数の文字コードの各文字コー
ドが一致し且つ前記両複数の文字コードの出現順序も一
致したかどうかを判定し、更に前記検索手段はこの比較
手段によって前記文字コードが一致したと判定された場
合に、前記複数の文字コードに対応する元の記号、図形
又は文字が前記キーワード側と被検索文書側で同一であ
ると見做す。これにより、文字コードに置き換えること
のできない記号、図形又は文字に対する一致条件を厳し
くすることができる。
【0024】請求項7の発明の文書検索装置において、
前記比較手段は被検索文書内の前記文書内の類似度の低
い記号、図形又は文字に対して得られる複数の文字コー
ドと前記キーワード内の類似度の低い記号、図形又は文
字に対して得られる複数の文字コードとを比較する際
に、前記キーワード側と被検索文書側の複数の文字コー
ドの中で予め決められた所定数以上の文字コードが一致
したかどうかを判定し、更に前記検索手段はこの比較手
段によって前記文字コードが一致したと判定された場合
に、前記複数の文字コードに対応する元の記号、図形又
は文字が前記キーワード側と被検索文書側で同一である
と見做す。これにより、文字コードに置き換えることの
できない記号、図形又は文字に対する一致条件を緩やか
にすることができる。
【0025】請求項8の発明の文書検索装置において、
前記検索手段は前記キーワードを含む被検索文書を検索
する際に、本来ならばリジェクトされる類似度の低い記
号、図形又は文字に対して得られる複数の文字コード
と、これ以外の文字コードを一意的に定められる記号、
図形又は文字に対して得られる文字コードとを区別し、
前記キーワード側と被検索文書側で同一の記号、図形又
は文字があるかどうかをそれぞれ別々に検索する。これ
により、本来ならばリジェクトされる類似度の低い記
号、図形又は文字のみを最初に検索してから、次に残り
の文字コードを一意的に定められる記号、図形又は文字
の検索を行うというように、検索を順序だてて、効率良
く行うことができる。
【0026】請求項9の発明の文書記憶装置において、
読取手段は前記文書を画像データ化する。文字認識手段
は前記読取手段から出力される画像データを辞書に登録
されている文字パターン情報との類似度により文字認識
する際に、本来ならばリジェクトされる類似度の低い記
号、図形又は文字に対して得られる複数の文字コードを
文字認識結果として出力する。記憶手段は前記文字認識
手段から出力される認識結果を記憶する。これにより、
本来文字コードに置き換えることのできない記号、図形
又は文字をコード化して記憶することができる。
【0027】
【実施例】以下、本発明の一実施例を図面を参照して説
明する。図1は本発明の文書記憶装置を含んだ本発明の
文書検索装置の一実施例を示したブロック図である。1
は文書記憶部3に記憶する文書を入力したり、或いは検
索のためのキーワード(検索文字列と称することもあ
る)を入力する入力部、2は文書記憶部3に記憶されて
いる文書を入力部1から入力されたキーワードに基づい
て検索を行ったり、或いは入力部1から入力される文書
を文書記憶部3に記憶する制御部、3は文書を記憶する
HDD等から成る文書記憶部、4は検索結果等を出力す
るCRT等から成る出力部である。尚、入力部1、制御
部2の文書格納部23及び文書記憶部3は文書記憶装置
を構成する。
【0028】ここで、入力部1は文書を読み取って画像
データとして入力するOCR等の読取部11と、この読
取部11により得られた画像データを文字認識して対応
する文字コードに変換する文字認識部12から成る。制
御部2は入力部1からの認識結果を導入する入力インタ
フェース21、入力されたキーワードに基づいて文書記
憶部3内の該当する文書を検索する等の処理を行う検索
部22、入力された文書を文書記憶部3内に格納する文
書格納部23、検索文字列の認識結果や文書の検索結果
等を一時的に記憶する一時記憶部24、一時記憶部24
に記憶されている検索結果等を出力部4に出力する出力
インタフェース25から成る。
【0029】次に本実施例の動作について説明する。文
書記憶部3に文書を格納してデータベースを作成する場
合、格納する文書を入力部1の読取部11に読み込ませ
る。読取部11は文書を画像データとして読み込む。こ
こで、前記読取部11による文書の入力方法としては、
本例のようにスキャナなどを備えた光学的な入力方法の
他に、タブレット及びスタイラスペンによる手書きによ
る入力方法等がある。文字認識部12は読取部11によ
って読み込まれた画像データに文字認識を施して、文書
を構成する文字や図形並びに記号を文字コードに変換
し、これを制御部2に送る。
【0030】この時、前記文字認識部12では、画像デ
ータから一文字を切り出した後、この文字と図示されな
い認識辞書内の登録文字パターンとの類似度を求め、こ
の類似度によって前記画像データを文字(次候補を含む
場合もある)として認識して、対応する文字コードに置
き換えるが、この際、文字コードに置き換えることので
きる文字については文字コードを一意的に定め、文字コ
ードに置き換えることのできない記号、図形又は文字等
については、リジェクトせずに、類似度の低い複数の候
補文字コードを文字認識結果として出力するルールを設
けることにより、上記した記号、図形又は文字について
も文字認識によって複数の文字コードに置き換えること
ができる。ここで、本例の文字認識部12の文字認識に
おけるルール例を説明しておく。
【0031】図2は上記したルール例を一覧とした図で
ある。上記した類似度を1000点満点とした場合、類
似度が900以上であった場合、第1候補の文字のみを
第2候補の文字の類似度の値に拘らず、無条件で認識結
果とする。類似度が900〜500の間であった場合
で、且つ第1候補、第2候補の類似度の差が200以下
であった場合、第1候補から第4候補までの文字を認識
結果とする。類似度が900〜500の間であった場合
で、第1候補、第2候補の類似度の差が200以上であ
った場合、第1項補の文字のみを認識結果とする。類似
度が500以下であった場合で、第1候補〜第5候補ま
での文字を無条件で認識結果とする。
【0032】尚、類似度500以下の候補文字しか出て
来なかった場合は、通常であると、認識対象となった記
号、図形又は文字等はリジェクトされてしまうが、本例
の文字認識部12はこのような場合も、リジェクトせず
に上記した候補文字コードを認識結果として出力する。
【0033】制御部2の文書格納部23は入力部1から
入力された文字コード化された文書を入力インタフェー
ス21を介して渡されると、この文書に文書番号を施し
た後、この文書を文書タイトルにリンクして文書記憶部
3に記憶する。ここで、文書格納部23は、記憶する文
字列のうち上記した文字認識により一意的に文字コード
を定めることができなかった文字に関して、複数の候補
文字列を図3(A)に示すような形式にして、文書記憶
部3に記憶する。例えば、図3(A)に示す記号(以降
この記号を温泉記号と称する)を含む図3(B)に示す
文字列は、文字記憶部3に図4(A)に示すような形式
で記憶される。
【0034】次に文書記憶部3に記憶されている文書を
検索する場合、まず、キーワードとなる検索文字列を入
力部1の読取部11から読み込ませる。文字認識部12
は読取部11により読み込まれた前記検索文字列の画像
データに文字認識を施し、制御部2に送る。この場合
も、文字認識部12は前述したのと同様に、文字コード
に置き換えることのできる文字については文字コードを
一意的に定め、文字コードに置き換えることのできない
記号、図形又は文字等については、文字認識による複数
候補文字を得て出力する。例えば、上記した検索文字列
が図3(C)に示すような文字列の場合、文字認識部1
2による文字認識結果は図4(B)に示すような文字列
となる。
【0035】制御部2は入力インタフェース21から上
記した検索文字列の認識結果を得ると、これを一時記憶
部24に図4(B)に示すように記憶する。その後、検
索部22が起動されて文書記憶部3に記憶されている文
書中から、一時記憶部24に記憶された検索文字列を含
む文書の検索を行ない、その検索結果を出力インタフェ
ース25から出力部4に送る。
【0036】図5は上記した制御部2の文書検索処理の
流れを示したフローチャートである。まず、制御部2は
ステップ501にて入力部1より送られてくる検索文字
列を入力インタフェース21を介して入力した後、これ
を一旦一時記憶部24に格納する。次に検索部22が起
動し、ステップ502にて前記検索文字列中に複数候補
(文字認識の結果複数の文字コードに相当)を持つ文
字、例えば温泉マークのような文字が存在するか否かを
判定し、存在しない場合はステップ519の通常の検索
処理に進む。
【0037】ステップ502にて、入力文字列中に複数
候補を持つ文字が存在したならば、ステップ503に進
み、検索部22は文書記憶部3に記憶されている最初の
文書を参照する。検索部22はステップ504にて、検
索文字列中にある最初の複数候補を持つ文字より前の部
分の単一候補しか持たない文字のみから成る文字列(例
えば検索文字列が図3(B)に示すような文字列であっ
た場合、「設備:」の部分がこの文字列に当たる)と同
じ文字列を前記文書の中から検索する。この結果、検索
部22はステップ505にて同じ文字列が存在しないと
判定したならば、ステップ516に跳び、存在したと判
定したならば、ステップ506に進む。
【0038】検索部22はステップ506にて、ステッ
プ505の処理により文書中から検索された同じ文字列
の次の文字が複数候補を持つ文字であるかどうかを判定
し、複数候補を持つ文字でなかった場合は、ステップ5
04に戻って、検索対象文書内の他の場所を検索する。
しかし、複数候補を持つ文字であった場合、検索部22
はステップ507に進み、検索文字列中の対象としてい
る複数候補文字(例えば温泉マークのような記号)の候
補のうち、最初の候補(図4(B)の例では「ザ」)に
ついて、これと同じ候補を前記参照文書内の検索対象複
数候補文字中に存在するかどうかを検索する。その結
果、検索部22はステップ508にて、同じ候補が存在
するか否かを判定し、存在しなかった場合はステップ5
04に戻って、現在参照中の文書内の他の場所を検索
し、存在した場合は、ステップ509に進む。
【0039】検索部22はステップ509にて、検索文
字列中の検索対象複数候補文字に次の候補(図4(B)
の例では「代」)が存在するか否かを判定し、次の候補
が存在する場合はステップ510に進み、存在しない場
合はステップ511に進む。検索部22はステップ51
0にて上記した次の候補と同じ候補を現在参照している
文書中の検索対象複数候補文字の候補中に存在するか否
かを検索し、その結果をステップ508に戻って判定
し、以降、上記した検索文字列中の対象複数候補文字の
全ての候補について上記ステップ508〜510の処理
を繰り返す。
【0040】一方、検索部22はステップ511に進ん
だ場合、検索文字列内に他にも複数候補を持つ文字列が
存在するか否かを判定し、存在するならばステップ51
2に進み、存在しない場合はステップ514に進む。検
索部22はステップ512にて、検索文字列中の複数候
補を持つ次の文字の前の単一候補しか持たない文字のみ
から成る文字列と、参照中の検索対象文書の次の文字列
とを比較し、その結果、上記両文字列がステップ513
にて同一の文字列であると判定されたら、ステップ50
6に戻り、以降、検索文字列中の全ての対象複数候補文
字について、上記ステップ506〜513の処理を繰り
返す。しかし、ステップ513にて同一文字列でないと
判定された場合はステップ504の処理に戻って、現在
参照中の文書内の他の場所を検索する。
【0041】一方、検索部22はステップ514に進ん
だ場合、検索文字列の残りの文字列も現在参照中の文書
の検索対象文字列の残りの文字列と一致するかどうかを
判定し、一致しなかったならばステップ504に戻っ
て、検索対象文書中の他の場所を検索する。しかし、前
記両文字列が一致した場合、検索部22はステップ51
5にて現在参照している文書に関する必要は情報(文書
タイトルや文書番号等)を得て、これを一時記憶部24
内に格納した後、ステップ516に進み、文書記憶部3
に検索対象になる次の文書が存在するかどうかを判定す
る。
【0042】その結果、次の文書が存在する場合、検索
部22はステップ517に進んで、文書記憶部3内の次
の文書の参照を開始し、ステップ504に戻って、以降
の処理を文書記憶部3内の残りの全ての文書について繰
り返す。検索部22はステップ516にて次の文書が存
在しないと判定した場合、ステップ518に進んで、一
時記憶部24内の検索結果を読み出し、これを出力イン
タフェース25から出力部4に送って、処理を終了す
る。出力部4は制御部2から送られてくる検索結果を画
面に表示して出力する。
【0043】次に上記した本例の検索処理について具体
例を用いてその動作を説明する。例えば、入力部1から
図3(C)に示すような検索文字列を入力した場合、文
字認識部12はこの文字列に文字認識を施し、「有り」
の部分に関してはそのまま文字コードに変換し、文字コ
ードの存在しない温泉記号に関しては、それを文字認識
した際に得られる複数の候補「ザ」「代」「件」「げ」
「可」として扱う。そして、この文字列を図4(B)に
示すような情報として、制御部2に送る。この時、文書
記憶部3には、図4(A)に示すような情報を持つ文書
1が存在するとする。
【0044】制御部2は、入力部1から送られてくる文
字列が複数候補を持つ文字を含むものであると判断し、
前記文字列を含む文書が文書記憶部3内にあるかどうか
を検索する。この時、文書1内に複数候補「ザ」「代」
「件」「げ」「可」を持つ文字と、その直後に「有り」
という文字列の存在する文書1を得、この検索結果を出
力部4に送る。出力部4の画面に検索結果として、文書
1が表示される。
【0045】本実施例によれば、文書記憶部3に格納す
る文書に含まれている一意的に文字コードを定めること
ができない記号、図形又は文字に対して文字認識した際
に得られる本来ならばリジェクトされてしまうような類
似度500以下の複数の文字コードを、前記記号、図形
又は文字等の認識結果として文書記憶部3に格納してお
き、一方、キーワード(検索文字列)の文字認識に際し
ても上記と同様に前記記号、図形及び文字に対して本来
ならばリジェクトされてしまうような類似度500以下
の複数の文字コードを認識結果として得ることとし、前
記キーワードと検索対象文書の類似度500以下の複数
の文字コードが一致した際に、検索文字列と被検索文書
の前記記号、図形及び文字とが一致したと判定すること
により、任意の記号や図形又は利用者独自の文字や記号
を含んだ文書を効率よく検索することができる。又、入
力部1、制御部2の文書格納部23及び文書記憶部3か
ら成る文書記憶装置に着目すると、文字認識部12の上
記した作用により文字コードに置き換えることのできな
い記号、図形及び文字を含んだ文書の全内容を全て文字
コード化して記憶することができる。
【0046】尚、本発明は上述した実施例に限定される
ものではない。実施例では日本語を使用しているが、他
の言語を用いた場合でも同様な方法又は構成にて、同様
な効果を得ることができる。又、文字コードに置き換え
られないものとしては、記号、図形又は文字だけでな
く、写真等、文書中に含まれ得るものであれば、どのよ
うなものでも検索対象とすることができる。更に、上記
実施例では、文字コードを一意的に定めることのできる
ものについては一意的に定めているが、全ての文字・記
号等を複数候補をもつものとして扱っても、検索部22
の負荷は増大するが、同様な効果を得ることができる。
【0047】又、文書中の文字列から検索語を捜し出す
方法については、単語の照合を行なう方法(フルテキス
ト・サーチ)や、文書入力時に予め検索表を作っておく
方法等、様々な方法があるが、ここではどのような方法
を用いても上記効果を得ることができる。更に、文字認
識の方法は様々な方法が提案されているが、複数の候補
が得られる方法であれば、どのような方法を用いても上
記効果を得ることができる。
【0048】更に、複数候補を持つ文字列を同じもので
あると判断する条件として、上記実施例では、全く、同
じ候補群を持つ文字列としてきたが、他の方法を採用す
ることもできる。例えば、3つ以上一致する候補がある
時、同じものであると見做すとした場合は、「ザ」
「代」「件」「可」という候補を持つ記号や図形と、
「ザ」「代」「げ」「幻」「幼」という候補を持つ記号
や図形は、同じ記号や図形であると判断して、同様の効
果を得ることができる。
【0049】又、文字認識部12の文字認識方法とし
て、認識候補にその類似度の高いものから優先順位を持
たせられるものもある。このような文字認識の方法を用
いた場合、候補の順序の並びが同じものを、同じ文字
(記号・図)と見做すという方法も採用できる。例え
ば、温泉記号に対して文字認識を施し、第1候補:
「ザ」、第2候補:「代」、第3候補:「げ」という候
補とその順序が得られたならば、この候補と順序が同じ
物を検索することができ、上記実施例と同様の効果を得
ることができる。
【0050】
【発明の効果】以上記述した如く請求項1又は5の発明
によれば、文字コードの存在しない記号や図形又文字を
含んだ文書に対しても、キーワードを用いて目的の文書
を効率よく検索することができる。
【0051】請求項2又は6の発明によれば、文字コー
ドに置き換えることのできない記号、図形又は文字に対
する一致条件を厳しくすることができる。
【0052】請求項3又は7の発明によれば、文字コー
ドに置き換えることのできない記号、図形又は文字に対
する一致条件を緩やかにすることができる。
【0053】請求項4又は8の発明によれば、本来なら
ばリジェクトされる類似度の低い記号、図形又は文字の
みを最初に検索してから、次に残りの文字コードを一意
的に定められる記号、図形又は文字の検索を行うという
ように、検索を順序だてて、効率良く行うことができ
る。
【0054】請求項9の発明によれば、本来文字コード
に置き換えることのできない記号、図形又は文字をコー
ド化して記憶することができる。
【図面の簡単な説明】
【図1】本発明の文書記憶装置を含んだ本発明の文書検
索装置の一実施例を示したブロック図。
【図2】図1に示した文字認識部の文字認識のルール例
を示した図。
【図3】図1に示した読取部から入力される文字列例を
示した図。
【図4】図1に示した文字認識部の認識結果例を示した
図。
【図5】図1に示した制御部による文書検索の処理の流
れを示したフローチャート。
【符号の説明】
1…入力部 2…制御部 3…文書記憶部 4…出力部 11…読取部 12…文字認識
部 21…入力インタフェース 22…検索部 23…文書格納部 24…一時記憶
部 25…出力インタフェース
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9194−5L G06F 15/403 310 Z

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文字コード化して記憶している複数の文
    書の中から別途入力されるキーワードを含む文書を検索
    する文書検索装置における文書検索方法にあって、前記
    文書を記憶するために、文書中の記号、図形又は文字を
    辞書に登録されている文字パターン情報との類似度によ
    り文字認識する際に、本来ならばリジェクトされる類似
    度の低い記号、図形又は文字に対して得られる複数の文
    字コードを認識結果として記憶することにより、被検索
    対象である文書群を作成しておき、その後、入力される
    前記キーワード内の記号、図形又は文字を文字認識する
    際に、本来ならばリジェクトされる類似度の低い記号、
    図形又は文字に対して得られる複数の文字コードを認識
    結果として保持しておき、その後、前記文書を検索する
    際に、被検索文書内の類似度の低い記号、図形又は文字
    に対して得られる複数の文字コードと前記キーワード内
    の類似度の低い記号、図形又は文字に対して得られる複
    数の文字コードとを比較して、前記キーワード側と被検
    索文書側の複数の文字コードの各文字コードが一致した
    場合に、これら複数の文字コードに対応する元の記号、
    図形又は文字が前記キーワード側と被検索文書側で同一
    であると見做すことによって、文書の検索を行うことを
    特徴とする文書検索方法。
  2. 【請求項2】 前記文書を検索するために、被検索文書
    内の類似度の低い記号、図形又は文字に対して得られる
    複数の文字コードと前記キーワード内の類似度の低い記
    号、図形又は文字に対して得られる複数の文字コードと
    を比較する際に、前記キーワード側と被検索文書側の複
    数の文字コードの各文字コードが一致し且つ前記両複数
    の文字コードの出現順序も一致した場合に、これら複数
    の文字コードに対応する元の記号、図形又は文字が前記
    キーワード側と被検索文書側で同一であると見做すこと
    を特徴とする請求項1記載の文書検索方法。
  3. 【請求項3】 前記文書を検索するために、被検索文書
    内の類似度の低い記号、図形又は文字に対して得られる
    複数の文字コードと前記キーワード内の類似度の低い記
    号、図形又は文字に対して得られる複数の文字コードと
    を比較する際に、前記キーワード側と被検索文書側の複
    数の文字コードの中で予め決められた所定数以上の文字
    コードが一致した場合に、これら複数の文字コードに対
    応する元の記号、図形又は文字が前記キーワード側と被
    検索文書側で同一であると見做すことを特徴とする請求
    項1記載の文書検索方法。
  4. 【請求項4】 前記キーワードを含む被検索文書を検索
    する際に、本来ならばリジェクトされる類似度の低い記
    号、図形又は文字に対して得られる複数の文字コード
    と、これ以外の文字コードを一意的に定められる記号、
    図形又は文字に対して得られる文字コードとを区別し、
    前記キーワード側と被検索文書側で同一の記号、図形又
    は文字があるかをそれぞれ別々に検索することを特徴と
    する請求項1乃至3いずれにか記載の文書検索方法。
  5. 【請求項5】 文書を画像データ化する読取手段と、こ
    の読取手段により得られた画像データを文字認識する文
    字認識手段と、この文字認識手段による文字認識結果を
    被検索文書として記憶する記憶手段と、この記憶手段に
    記憶されている複数の文書の中から、前記読取手段によ
    り画像データ化された後前記文字認識手段により文字認
    識されたキーワードを含む文書を検索する文書検索装置
    において、前記文字認識手段によって文書中の文字を認
    識する際に、文書中の記号、図形又は文字を辞書に登録
    されている文字パターン情報との類似度に基づいて文字
    認識し、且つ本来ならばリジェクトされる類似度の低い
    記号、図形又は文字に対して得られる複数の文字コード
    を文字認識結果として得る認識ルールを前記文字認識手
    段内に具備し、且つ前記キーワードを前記文字認識手段
    によって文字認識して得た認識結果を保持する保持手段
    と、前記記憶手段内の被検索文書内の類似度の低い記
    号、図形又は文字に対して得られる複数の文字コードと
    前記保存手段内の前記キーワードの認識結果である類似
    度の低い記号、図形又は文字に対して得られる複数の文
    字コードとを比較する比較手段と、この比較手段によっ
    て前記キーワード側と被検索文書側の複数の文字コード
    の各文字コードが一致したと判定された場合に、これら
    複数の文字コードに対応する元の記号、図形又は文字が
    前記キーワード側と被検索文書側で同一であると見做し
    て前記キーワードを含む文書を検索する検索手段とを具
    備したことを特徴とする文書検索装置。
  6. 【請求項6】 前記比較手段は被検索文書内の類似度の
    低い記号、図形又は文字に対して得られる複数の文字コ
    ードと前記キーワード内の類似度の低い記号、図形又は
    文字に対して得られる複数の文字コードとを比較する際
    に、前記キーワード側と被検索文書側の複数の文字コー
    ドの各文字コードが一致し且つ前記両複数の文字コード
    の出現順序も一致したかどうかを判定し、更に前記検索
    手段はこの比較手段によって前記文字コードが一致した
    と判定された場合に、前記複数の文字コードに対応する
    元の記号、図形又は文字が前記キーワード側と被検索文
    書側で同一であると見做すことを特徴とする請求項5記
    載の文書検索装置。
  7. 【請求項7】 前記比較手段は被検索文書内の前記文書
    内の類似度の低い記号、図形又は文字に対して得られる
    複数の文字コードと前記キーワード内の類似度の低い記
    号、図形又は文字に対して得られる複数の文字コードと
    を比較する際に、前記キーワード側と被検索文書側の複
    数の文字コードの中で予め決められた所定数以上の文字
    コードが一致したかどうかを判定し、更に前記検索手段
    はこの比較手段によって前記文字コードが一致したと判
    定された場合に、前記複数の文字コードに対応する元の
    記号、図形又は文字が前記キーワード側と被検索文書側
    で同一であると見做すことを特徴とする請求項5記載の
    文書検索装置。
  8. 【請求項8】 前記検索手段は前記キーワードを含む被
    検索文書を検索する際に、本来ならばリジェクトされる
    類似度の低い記号、図形又は文字に対して得られる複数
    の文字コードと、これ以外の文字コードを一意的に定め
    られる記号、図形又は文字に対して得られる文字コード
    とを区別し、前記キーワード側と被検索文書側で同一の
    記号、図形又は文字があるかどうかをそれぞれ別々に検
    索することを特徴とする請求項5乃至7いずれにか記載
    の文書検索方法。
  9. 【請求項9】 複数の文書を文字コード化して記憶する
    文書記憶装置において、前記文書を画像データ化する読
    取手段と、この読取手段から出力される画像データを辞
    書に登録されている文字パターン情報との類似度により
    文字認識する際に、本来ならばリジェクトされる類似度
    の低い記号、図形又は文字に対して得られる複数の文字
    コードを文字認識結果として出力する文字認識手段と、
    この文字認識手段から出力される認識結果を記憶する記
    憶手段とを具備したことを特徴とする文書記憶装置。
JP6204912A 1994-08-30 1994-08-30 文書検索方法,文書検索装置及び文書記憶装置 Withdrawn JPH0869455A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6204912A JPH0869455A (ja) 1994-08-30 1994-08-30 文書検索方法,文書検索装置及び文書記憶装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6204912A JPH0869455A (ja) 1994-08-30 1994-08-30 文書検索方法,文書検索装置及び文書記憶装置

Publications (1)

Publication Number Publication Date
JPH0869455A true JPH0869455A (ja) 1996-03-12

Family

ID=16498443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6204912A Withdrawn JPH0869455A (ja) 1994-08-30 1994-08-30 文書検索方法,文書検索装置及び文書記憶装置

Country Status (1)

Country Link
JP (1) JPH0869455A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7929770B2 (en) 2006-05-26 2011-04-19 Canon Kabushiki Kaisha Handwriting processing apparatus and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7929770B2 (en) 2006-05-26 2011-04-19 Canon Kabushiki Kaisha Handwriting processing apparatus and method

Similar Documents

Publication Publication Date Title
JP3689455B2 (ja) 情報処理方法及び装置
US5544049A (en) Method for performing a search of a plurality of documents for similarity to a plurality of query words
US9195738B2 (en) Tokenization platform
US4862408A (en) Paradigm-based morphological text analysis for natural languages
US7096218B2 (en) Search refinement graphical user interface
JPS63198154A (ja) つづり誤り訂正装置
JP2002510089A (ja) 光学的文字認識により作成された電子的文書を検索するためのシステムおよび方法
JP2006251935A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JPH0785080A (ja) 全文書検索システム
JPH0869455A (ja) 文書検索方法,文書検索装置及び文書記憶装置
JP3902825B2 (ja) 文書検索システムおよび方法
JP2002132789A (ja) 文書検索方法
JP3210842B2 (ja) 情報処理装置
JPH11195041A (ja) 文書検索装置、方法及び記録媒体
JPH06223121A (ja) 情報検索装置
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP2001092830A (ja) 文字列の照合装置およびその方法
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH11143904A (ja) データベース検索方法,装置およびデータベース検索プログラムを記録した記録媒体
JPS62159223A (ja) 文書情報検索方式
JPH0954781A (ja) 文書検索システム
JP2004199282A (ja) 文書検索装置および文書登録装置
JPH07160730A (ja) 全文検索装置
JP3104893B2 (ja) 情報検索方式

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20011106