JPH10307839A - テキスト検索装置及び方法 - Google Patents

テキスト検索装置及び方法

Info

Publication number
JPH10307839A
JPH10307839A JP9119868A JP11986897A JPH10307839A JP H10307839 A JPH10307839 A JP H10307839A JP 9119868 A JP9119868 A JP 9119868A JP 11986897 A JP11986897 A JP 11986897A JP H10307839 A JPH10307839 A JP H10307839A
Authority
JP
Japan
Prior art keywords
search
character string
character
similar
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9119868A
Other languages
English (en)
Inventor
Shogo Shibata
昇吾 柴田
Shiro Ito
史朗 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9119868A priority Critical patent/JPH10307839A/ja
Publication of JPH10307839A publication Critical patent/JPH10307839A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】あいまい検索によって検出された文字列から、
検索に適当な文字列をユーザに選択させることを可能と
し、適切なあいまい検索を容易に実現する。 【解決手段】あいまい検索部104は、被検索文書から
与えられた検索文字列及びこれに類似する文字列を検索
し、その検索結果を保持する。類似パタン選択部105
は、あいまい検索部104に保持された検索結果から重
複無しに文字列を取得し、当該検索に採用すべき文字列
として選択できるように提示する。ユーザが採用すべき
文字列を選択すると、選択された文字列に対応する検索
結果が、当該検索処理の検索結果として、検索結果保持
部106に保持される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータか
ら文字列を高速に検索するテキスト検索装置及び方法に
関する。特に、指定する文字列に表層的に類似する文字
列を検索するあいまい検索を行なうテキスト検索装置及
び方法に関する。
【0002】
【従来の技術】文書中の全てのテキストを対象として与
えられた検索語を含む文書を検索する全文検索装置など
のテキスト検索装置では、大量のテキストを高速に検索
するために、被検索テキストのインデックスを予め作成
して、インデックスを用いて検索を行なうインデックス
技術が利用されている。
【0003】インデックス技術の一例として、特開平4
−205560号公報では、文字位置インデックス技術
について述べられている。このインデックス技術におい
ては、ある検索文字列を被検索テキストから検索する場
合に、当該検索文字列をインデックスのキーとなってい
る文字および文字列に分解し、分解した文字および文字
列の位置関係が、当該検索文字列における位置関係に一
致する組合せを探すことで検索を行なう。文字位置イン
デックス技術は、検索文字列と完全に一致する文字列を
検索する技術である。
【0004】一方、テキスト検索装置では、検索文字列
として語が与えられた場合に、その異表記語や同義語な
どをも検索する必要性が高い。これを実現する技術の一
つとして、与えられる検索文字列に表層的に類似する文
字列を検索するあいまい検索技術がある。例えば、「エ
ー・ピー・エス」という検索語に対して、「エイ・ピー
・エス」や「エー・ピィ・エス」というパタンも検索す
ることが有効な場合が多い。
【0005】あいまい検索技術の一例として、特開平0
8−235212号公報には、上述の完全一致する検索
とあいまい検索とを同一のインデックスで効率よく実行
できる方式が記載されている。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来例の装置では、検索のあいまいさを許すために、ユー
ザが予想しなかった不適当なパタンが合致して、その結
果、本当に必要な情報が大量の検索結果の中に埋もれて
しまうという問題があった。例えば、「エー・ピー・エ
ス」という検索語に対して、「エー・ピー・エム」(A
PS→APM)が検索されるのは好ましくない。
【0007】本発明は、上述した問題に鑑みてなされた
ものであり、あいまい検索によって検出された文字列か
ら、検索に適当な文字列をユーザに選択させることを可
能とし、適切なあいまい検索を容易に実行可能なテキス
ト検索装置及び方法を提供することを目的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めの本発明のテキスト検索装置は以下の構成を備える。
すなわち、被検索文書から与えられた検索文字列及びこ
れに類似する文字列を検索する検索手段と、前記検索手
段による検索結果を保持する保持する保持手段と、前記
保持手段で保持された検索結果から文字列を取得し、当
該検索に採用すべき文字列を選択可能に提示する提示手
段と、前記提示手段で提示された文字列の中から選択さ
れた文字列に対応する検索結果を前記保持手段より抽出
し、検索結果として出力する出力手段とを備える。
【0009】また、上記の目的を達成する本発明の他の
構成のテキスト検索装置は、与えられた検索文字列に類
似する文字列が類似語記憶部に記憶されているか否かを
判定する判定手段と、前記判定手段で、前記類似語記憶
部に前記あたられた検索文字列に類似する文字列が記憶
されていないと判定された場合、被検索文書より、与え
られた検索文字列及びこれに類似する文字列を検索する
検索手段と、前記検索手段による検索結果を保持する保
持する保持手段と、前記保持手段で保持された検索結果
から文字列を取得し、当該検索に採用すべき文字列を選
択可能に提示する提示手段と、前記提示手段で提示され
た文字列の中から選択された文字列に対応する検索結果
を前記保持手段より抽出し、検索結果として出力する出
力手段と、前記提示手段によって提示された文字列の中
から選択された文字列を前記与えられた検索文字列の類
似語として前記類似語記憶部に記憶する記憶手段と前記
判定手段で前記類似語記憶部に前記与えられた検索文字
列に類似する文字列が記憶されていると判定された場
合、該与えられた検索文字列と前記類似語記憶部に記憶
された該与えられた検索文字列に対応する類似語とを用
いて被検索文書を検索して出力する第2検索手段とを備
える。
【0010】また、上記の目的を達成するための本発明
のテキスト検索方法は以下の工程を備える。すなわち、
被検索文書から与えられた検索文字列及びこれに類似す
る文字列を検索する検索工程と、前記検索工程によって
得られた検索結果から文字列を取得し、当該検索に採用
すべき文字列を選択可能に提示する提示工程と、前記提
示工程で提示された文字列の中から選択された文字列に
対応する検索結果を前記検索工程の検索結果より抽出
し、検索結果として出力する出力工程とを備える。
【0011】また、上記の目的を達成する本発明の他の
構成のテキスト検索方法は、与えられた検索文字列に類
似する文字列が類似語記憶部に記憶されているか否かを
判定する判定工程と、前記判定工程で、前記類似語記憶
部に前記あたられた検索文字列に類似する文字列が記憶
されていないと判定された場合、被検索文書より、与え
られた検索文字列及びこれに類似する文字列を検索する
検索工程と、前記検索工程による検索結果を保持する保
持する保持工程と、前記保持工程で保持された検索結果
から文字列を取得し、当該検索に採用すべき文字列を選
択可能に提示する提示工程と、前記提示工程で提示され
た文字列の中から選択された文字列に対応する検索結果
を前記保持工程より抽出し、検索結果として出力する出
力工程と、前記提示工程によって提示された文字列の中
から選択された文字列を前記与えられた検索文字列の類
似語として前記類似語記憶部に記憶する記憶工程と前記
判定工程で前記類似語記憶部に前記与えられた検索文字
列に類似する文字列が記憶されていると判定された場
合、該与えられた検索文字列と前記類似語記憶部に記憶
された該与えられた検索文字列に対応する類似語とを用
いて被検索文書を検索して出力する第2検索工程とを備
える。
【0012】
【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な実施形態を詳細に説明する。
【0013】<第1の実施形態>図1は、本発明の第1
の実施形態に係る文書処理装置の構成を示すブロック図
である。同図において、101は、被検索テキスト中の
文字および文字列をキーとして、被検索テキスト中での
当該文字の位置を保持したインデックスを保持する文字
位置インデックス保持部である。102は検索を行なう
文字列を保持する検索語保持部である。103は、検索
文字列と被検索文字列との表層的な類似度がこの値より
高い場合に検索結果とするための閾値である、類似度閾
値を保持する類似度閾値保持部である。104は、文字
位置インデックス保持部101に保持されている文字位
置インデックスを用いて、検索文字列保持部102に保
持されている検索文字列と被検索テキスト中の任意の文
字列との表層的な類似度を計算し、類似度閾値保持部1
03に保持されている類似度閾値を越える類似度を持つ
文字列を検索するあいまい検索部である。105は、あ
いまい検索部104により得られた類似パタンを整理し
て、ユーザに提示し、ユーザが適当/不適当を入力する
類似パタン選択部である。106は、類似パタン選択部
105により選択されたパタンを含む検索結果を保持す
る検索結果保持部である。
【0014】図2は本実施形態の文書処理装置のハード
ウェア構成を示す図である。同図において、201はC
PUであり、後述する手順を実現するプログラムに従っ
て動作する。202はRAMであり、検索語保持部10
2、類似度閾値保持部103、検索結果保持部106と
上記プログラムの動作に必要な記憶領域とを提供する。
203はROMであり、後述する手順を実現するプログ
ラムを保持する。204はディスク装置であり、文字位
置インデックス保持部101を実現する。
【0015】また,206はキーボードやポインティン
グデバイスで構成される入力部であり、検索文字列の入
力や、類似パタン選択部105における類似パタンの選
択指示等の各種入力を行なう。207はディスプレイで
あり、類似パタン選択部105における類似パタンの表
示等、各種表示を行なう。205はバスであり、上述の
各構成を接続する。
【0016】なお、後述する各フローチャートで示され
る制御手順を実現するための制御プログラムは、ROM
203に格納されているものとする。但し、それら制御
プログラムの全てもしくは一部をディスク装置204等
の外部記憶装置に格納しておき、CPU203がそれら
の制御プログラムを実行するに際してRAM202にロ
ードするように構成しても良いことは明らかである。
【0017】あいまい検索部104における類似度の計
算方法には、様々なものが考えられるが、ここではその
一例を示す。検索文字列の長さをLとした場合、類似度
の閾値aを0<a<Lの範囲で設定し、仮想位置pを設
定した場合に、検索文字列を分解した各文字の位置pi
(1≦i≦L)で、 −(L−a)≦(pi−i)−p≦(L−a) を満足する個数を類似度とする。仮想位置pに対する類
似度が、a以上であれば、その仮想位置近辺にある文字
列を検索結果とする。
【0018】次に、文字位置インデックス保持部101
に保持されている文字位置インデックスについて説明す
る。図3は文書の一例を表す図である。また、図4は図
3に示された文書に対して生成された文字位置インデッ
クスを表す図である。図4に示された文字位置インデッ
クスの各行は、それぞれの文字が現れる位置を列挙した
ものである。例えば、文字「高」は、位置0,…,0x
02a74c5f,0x02a74c65,…に現れて
いることがわかる。
【0019】ここで、本実施形態におけるあいまい検索
の手順を説明しておく。図5は本実施形態の文書処理装
置によるあいまい検索の手順を説明するフローチャート
である。なお、本フローチャートで示される制御をCP
U201に実現させるための制御プログラムはROM2
03に保持されている。以下、図5のフローチャートを
参照して、上記のあいまい検索部104による処理を説
明する。
【0020】ステップS201では、検索語保持部10
2に保持されている検索文字列の長さをLに代入する。
また、nには初期値として1を代入する。例えば、検索
文字列が「高速探索」である場合は、L=4,n=1と
なる。また、類似度閾値保持部103に保持されている
類似度の閾値をaに代入する。そしてステップS202
に移る。なお、検索語保持部102への検索文字列の入
力や、類似度閾値保持部103への閾値の設定は入力部
206を用いて行なわれる。
【0021】ステップS202では、検索文字列保持部
102に保持されている検索文字列の1番目の文字(例
えば「高速検索」であれば「高」)について、その全出
現位置を文字位置インデックス保持部101に保持され
ている文字位置インデックスより読み込む。読み込まれ
た文字位置は、全て第1配列に格納される。図6は第1
配列のデータ格納状態を示す図である。ここで、第1配
列の列1001には各文字位置を格納し、列1002に
は全て1が格納される。図6においては、図3に示した
文字位置インデックスを用いて検索文字列「高速探索」
を検索しているときの、ステップS202の終了時点に
おける第1配列のデータ格納状態が示されている。
【0022】次に、ステップS203では、変数Lとn
を比較し、n<Lである場合には、ステップS204に
移る。一方、n≧Lである場合には、ステップS207
に移る。
【0023】ステップS204ではnの値を1増やす。
そして、ステップS205では、検索語保持部102に
保持されている検索文字列のn番目の文字の文字位置に
ついて、文字位置インデックスよりの読み込みを行な
い、第2配列に格納する。このとき、文字位置インデッ
クスより得られた当該文字の全ての文字位置から(n−
1)を減じた値を第2配列に格納する。なお、第2配列
は、例えば図6に示した列1001のみで構成されるよ
うな配列である。
【0024】次に、ステップS206では、第2配列中
の各値piについて、次の処理を行なう。即ち、 第1配列の列1001にpiと同じ値が存在する場
合は、第1配列の当該値を有する行の列1002の値を
1増やす。 第1配列の列1001にpiとの差がL−a以内で
ある値がある場合は、第1配列の当該値を有する行の列
1002の値を1増やすと共に、第1配列に新たな行を
追加し、この追加された行の列1001の値をpiに、
列1002の値を1に夫々セットする。 上記の何れでもない場合は、第1配列に新たに行を
加え、当該行の列1001の値をpiに、列1002の
値を1にする。
【0025】以上のステップS206の処理を終了する
とステップS203に戻り、n<Lを満足しなくなるま
で(即ち、検索文字列の全ての文字について上述の処理
が実行されるまで)上述の処理を繰り返す。本例ではn
=4となった時点で処理がステップS203からステッ
プS207へ分岐する。図7は、類似度閾値を3とした
場合の本例の検索処理において、n=4のときの第1配
列の格納状態を示す図である。
【0026】ステップS207では、第1配列の列10
02の値がa以上である行の列1001の値を、被検索
テキスト中の検索文字列の先頭文字の位置として、検索
結果保持部105に保持する。例えば、a=3とした場
合、図7の例では、02a74c65が検索文字列の先
頭文字の位置として検索結果保持部105に保持される
ことになる。なお、完全一致した場合は列1002の値
がnとなる。
【0027】次に、本実施形態の文書処理装置における
テキスト検索処理について詳細に説明する。図8は本実
施形態の文書処理装置におけるテキスト検索処理の手順
を示すフローチャートである。なお、以下の説明では、
検索文字列として、「エー・ピー・エス」という語を用
いて説明する。図9は本実施形態のあいまい検索による
検索結果の一部を示す図である。また、図10は、類似
パタン選択部105によってディスプレイ207上に表
示される類似パタン選択表示を示す図である。以下、図
8のフローチャートを参照し、図9、図10の例を用い
て本実施形態のテキスト検索処理の手順を説明すること
とする。
【0028】まず、ステップS301において、あいま
い検索部104によるあいまい検索を行なう。あいまい
検索の手順は図5を参照して上述したとおりである。あ
いまい検索の結果は、完全一致したものを最上位とし
て、類似したパタンがいくつか得られることになる。例
えば、「エー」を「エイ」と書いた「エイ・ピー・エ
ス」や「ピー」を「ピィ」と書いた「エー・ピィ・エ
ス」などが検索される。
【0029】ステップS302では、あらかじめ設定し
ていた数Nと検索結果の個数を比較する。検索結果の個
数がNより多い場合には、以下のステップS303以降
の処理を行なう。なお、検索結果の個数がNより少ない
場合には、ステップS310へ進み、得られた検索結果
をそのまま検索結果保持部106に保持する。
【0030】図9に、ステップS301であいまい検索
され、N個以上の個数がある検索結果を示す。401は
各パタンの出現位置を示し、402は検索語に対応する
検索結果である。また、403は検索語とパタンとの類
似度であり、完全一致した場合を1とする0から1の範
囲の数である。すなわち、類似度は図6の列1002に
最終的に格納された値を検索文字列の文字数で割った値
となる。例えば、図9の場合、8文字中、7文字が合致
しているので(7÷8=)0.875という数値になっ
ている。ここで、類似度閾値保持部103には、一例と
して0.8という数値を入れてあるものとし、この数値
と比較して小さいものは、検索結果から除外されてい
る。なお、この検索結果は、一時的にRAM202に保
持されことになる。
【0031】ステップS303では、図9の検索結果か
ら、重複するパタンを取り除く。すなわち、図9の検索
結果から同一パタンが2つ以上含まれないように各パタ
ンを抽出する。なお、このとき、ステップS301にお
けるあいまい検索で得られた検索結果(図9)は、その
まま残しておく。そして、ステップS304では、重複
が取り除かれたパタン群を、ユーザがわかりやすいよう
に並べ換える。並べ換えの優先度の一例としては、
(1)類似度が高いもの、(2)異なるパタンが後ろの
ものがあげられる。図10はこの優先度に従って並べ換
えた結果を示している。
【0032】ステップS305では、ステップS304
で作成したパタンのリストをユーザに提示し、ユーザが
適当/不適当を選択する。図10に、ステップS304
で提示されるパタンのリストの一例を示す。検索語「エ
ー・ピー・エス」に対して、合致しない部分を灰色のボ
ックス503で明示し、各検索語の右側には選択を指示
するためのチェックボックスを有する。ここで、ユーザ
は、検索語として適当なら右のチェックボックス502
をチェックし、不適当ならばチェックしないようにす
る。そして、「再検索ボタン」504を押すことによ
り、ステップS306へ進み、適当なパタンだけを含ん
だ検索結果を図9の検索結果より抽出し、これを検索結
果保持部106へ格納して処理を終了する。
【0033】以上説明したように、第1の実施形態によ
れば、あいまい検索によって検出された文字列をピック
アップし、ユーザにわかりやすく列挙するので、ユーザ
は類似パタンとしての適当/不適当を容易に判断でき
る。また、このようにして選択されたた類似パタンにつ
いての検索結果が得られるので所望の検索結果を容易に
得ることが可能となる。
【0034】<第2の実施形態>次に第2の実施形態に
ついて説明する。図11は、第2の実施形態に係る文書
処理装置の構成を示すブロック図である。同図において
601は、被検索テキスト中の文字および文字列をキー
として、被検索テキスト中での当該文字の位置を保持し
たインデックスを保持する文字位置インデックス保持部
である。602は検索を行なう文字列を保持する検索語
保持部である。603は、過去にあいまい検索をした際
に類似パタンを選択した結果を保持する類似パタン保持
部である。604は、検索語保持部602が保持する検
索語と、類似パタン保持部603が保持するパタンとを
比較し、合致するパタンがあれば、類似パタン保持部6
03に保持されている類似パタンを選択する類似パタン
選択部である。605は、文字位置インデックス保持部
601に保持されている文字位置インデックスを用いて
あいまい検索もしくは完全一致検索を選択的に実行す
る。ここで、完全一致検索とは、検索文字列保持部10
2に保持されている検索文字列と被検索テキスト中の任
意の文字列とを比較して、完全に一致する文字列を検索
するものである。また、あいまい検索は蒸気第1の実施
形態において説明したとおりである。606は、完全一
致検索部605の検索結果を保持する検索結果保持部で
ある。
【0035】なお、第2の実施形態のハードウエア構成
は第1の実施形態(図2)と同様であり、説明を省略す
る。
【0036】図12は、第2の実施形態によるテキスト
検索処理の手順を説明するフローチャートである。な
お、図12において、点線の枠内は、第1の実施形態
(図8)と同一のフローである。従って、第2の実施形
態では、第1の実施形態の処理に、枠外の部分の処理が
付加されたものである。以下、第1の実施形態と同一の
例を用いて、第2の実施形態の処理を説明する。
【0037】まず、ステップS701で、検索語が類似
パタン保持部603に登録されているかをチェックす
る。登録されていない場合には、まず、第1の実施形態
と同一の処理(ステップS301〜S306)を行な
う。そして、これらの処理の終了後、ステップS705
において、ステップS305で検索語と選択されたパタ
ンを類似パタン保持部603に登録する。
【0038】類似パタン保持部603の登録例を図13
に示す。801が登録された見出しであり、その類似パ
タンとして登録された文字列が802に書かれている。
なお、見出し801には、検索語として指定された文字
列と、類似パタンとして選択された文字列の全てが用い
られる。図13の例では、例えば1行目の登録が出来れ
ば、後の行については自動作成される。
【0039】さて、ステップS701で、検索語が類似
パタン保持部603に登録されており、類似パタンがあ
ると判定された場合には、ステップS702へ進む。ス
テップS702では、類似パタン選択部604が、検索
語の類似パタンを類似パタン保持部603より取り出
す。そして、類似パタン選択部604は、取り出した類
似パタンを検索語保持部602に追加する。ステップS
703では、検索語保持部602に登録された検索語を
もとに、検索部605においてで完全一致検索を行な
う。
【0040】なお、完全一致検索は、図5に示したあい
まい検索の手順と同様の手順で行なうことができる。但
し、ステップS206において第2配列の値を第1配列
にマージする際に、第1配列と第2配列の両方に含まれ
る値のみを抽出して第1配列に格納するようにする。そ
して、ステップS207では、最終的に第1配列に格納
されている文字位置を検索結果として保持するようにす
る。従って、完全一致検索では、第1配列においても図
6や図7で示す列1002が不要となる。
【0041】以上の完全一致検索を、検索語保持部60
2に保持された、類似パタンを含む検索語の全てについ
て行ない、ステップS704において、その検索結果を
検索結果保持部605に登録する。
【0042】以上説明したように第2の実施形態によれ
ば、ある検索語についてユーザが一度類似パタンを選択
すると、以降はその選択された類似パタンで検索される
ようになる。従って、同じ検索語に対して類似パタンの
選択を繰り返す必要が無くなり、操作性が向上する。
【0043】以上説明したように、上記各実施形態によ
れば、あいまい検索の結果のうち、不適当なものを排除
し、適当なものだけを取り出すことができるようにな
り、効率的な検索を可能とするだけでなく、見落としを
無くすという効果も得ることができる。
【0044】<他の実施形態> (1)上記実施形態では、あいまい検索方式として、文
字位置インデックスを用いた方式を用いていたが、被検
索文書のすべての文字列と比較する検索方式や、他のイ
ンデックスを用いる検索方式など、あいまい検索ができ
ればどのような方式であっても良い。
【0045】(2)また、上記実施形態では、あいまい
検索結果から適当な類似表現を取り出していたが、あら
かじめ辞書として類似パタンを用意しておくようにして
もよい。この場合、図8のステップS301のあいまい
検索において、辞書から得られる類似パタンを完全一致
で検索する事になる。
【0046】(3)また、上記実施形態では、文字列の
比較を一致する/しないの2値で判定していた。しか
し、「エー」に対して「エィ」は近いが「エス」は遠い
というように、一致しない場合でも一致する度合いを考
慮するように構成してもよい。このような考慮を実現す
る際には、例えば、音で聞いて近い表現をルール化して
持ち、完全に異なる場合には1、近い場合には0から1
までの間の値を取るようにすればよい。評価方法の一例
としては、音声合成処理で、文字列から音声波形を作成
し、スペクトル時系列に変換してスペクトル間距離を比
較すればよい。
【0047】(4)また、上記(3)では、一致する度
合いとして、音で聞いて近いものを考慮するとしたが、
タイプ入力で文書を入力する場合を想定して、キーボー
ドの押し間違いを考慮しても良いものとする。例えば、
NとMのキーは隣同士であることから、「ナ行」と「マ
行」の違いなどについては近い(一致の度合を高くす
る)とすることがあげられる。
【0048】(5)また、文書の光学式読み取り装置
(OCR)での読み取りを想定して、外見が似ている文
字の違いを考慮するのも良いものとする。例えば、マイ
ナス記号「−」と長音記号「ー」や、カタカナの「カ」
と漢字の「力(ちから)」の違いなどは近いとすることが
あげられる。
【0049】(6)また、上記実施形態では、日本語の
文字列を例としてあげたが、日本語以外の言語の文字列
についても同様な処理が可能であり、これらの言語を対
象とするのも良いものとする。
【0050】なお、本発明は、複数の機器(例えばホス
トコンピュータ,インタフェイス機器,リーダ,プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機,ファクシミリ装置
など)に適用してもよい。
【0051】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0052】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0053】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
【0054】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0055】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0056】
【発明の効果】以上説明したように、本発明によれば、
あいまい検索によって検出された文字列から、検索に適
当な文字列をユーザに選択させることが可能となり、適
切なあいまい検索を容易に実現しうるという効果があ
る。
【0057】
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る文書処理装置の
構成を示すブロック図である。
【図2】本実施形態の文書処理装置のハードウェア構成
を示す図である。
【図3】文書の一例を表す図である。
【図4】図3に示された文書に対して生成された文字位
置インデックスを表す図である。
【図5】本実施形態の文書処理装置によるあいまい検索
の手順を説明するフローチャートである。
【図6】第1配列のデータ格納状態を示す図である。
【図7】類似度閾値を3とした場合の本例の検索処理に
おいて、n=4のときの第1配列の格納状態を示す図で
ある。
【図8】本実施形態の文書処理装置におけるテキスト検
索処理の手順を示すフローチャートである。
【図9】ステップS301であいまい検索された検索結
果を示す図である。
【図10】ステップS304で提示されるパタンのリス
トの一例を示す図である。
【図11】第2の実施形態に係る文書処理装置の構成を
示すブロック図である。
【図12】第2の実施形態によるテキスト検索処理の手
順を説明するフローチャートである。
【図13】類似パタン保持部603の登録例を示す図で
ある。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 被検索文書から与えられた検索文字列及
    びこれに類似する文字列を検索する検索手段と、 前記検索手段による検索結果を保持する保持する保持手
    段と、 前記保持手段で保持された検索結果から文字列を取得
    し、当該検索に採用すべき文字列を選択可能に提示する
    提示手段と、 前記提示手段で提示された文字列の中から選択された文
    字列に対応する検索結果を前記保持手段より抽出し、検
    索結果として出力する出力手段とを備えることを特徴と
    するテキスト検索装置。
  2. 【請求項2】 与えられた検索文字列に類似する文字列
    が類似語記憶部に記憶されているか否かを判定する判定
    手段と、 前記判定手段で、前記類似語記憶部に前記あたられた検
    索文字列に類似する文字列が記憶されていないと判定さ
    れた場合、被検索文書より、与えられた検索文字列及び
    これに類似する文字列を検索する検索手段と、 前記検索手段による検索結果を保持する保持する保持手
    段と、 前記保持手段で保持された検索結果から文字列を取得
    し、当該検索に採用すべき文字列を選択可能に提示する
    提示手段と、 前記提示手段で提示された文字列の中から選択された文
    字列に対応する検索結果を前記保持手段より抽出し、検
    索結果として出力する出力手段と、 前記提示手段によって提示された文字列の中から選択さ
    れた文字列を前記与えられた検索文字列の類似語として
    前記類似語記憶部に記憶する記憶手段と前記判定手段で
    前記類似語記憶部に前記与えられた検索文字列に類似す
    る文字列が記憶されていると判定された場合、該与えら
    れた検索文字列と前記類似語記憶部に記憶された該与え
    られた検索文字列に対応する類似語とを用いて被検索文
    書を検索して出力する第2検索手段と、 を備えることを特徴とするテキスト検索装置。
  3. 【請求項3】 前記提示手段は、前記検索手段による検
    索結果として、所定数以上の文字列が得られた場合に実
    行されることを特徴とする請求項1または2に記載のテ
    キスト検索装置。
  4. 【請求項4】 前記提示手段は、前記検索手段による検
    索結果として得られた文字列を重複無しに抽出し、これ
    らを類似度の高い順に並べて提示することを特徴とする
    請求項1または2に記載のテキスト検索装置。
  5. 【請求項5】 前記提示手段は、前記検索手段による検
    索結果として得られた文字列を重複無しに抽出し、与え
    られた検索文字列と異なる文字の存在する文字位置が文
    字列の末尾にあるものから順に並べて提示することを特
    徴とする請求項1または2に記載のテキスト検索装置。
  6. 【請求項6】 前記検索手段は、 被検索文書中の文字あるいは文字列をキーとして、被検
    索文書中での各文字の位置を保持したインデックスを保
    持するインデックス保持手段と、 前記インデックス保持手段に保持されているインデック
    スを用いて前記与えられた検索文字列と被検索テキスト
    中の任意の文字列との表層的な類似度を計算し、所定の
    閾値を越える類似度を持つ文字列を検索するあいまい検
    索手段とを備えることを特徴とする請求項1または2に
    記載のテキスト検索装置。
  7. 【請求項7】 前記第2検索手段は、被検索テキスト中
    の文字および文字列をキーとして被検索テキスト中での
    各文字の位置を保持したインデックスを用いて、検索文
    字列と被検索テキスト中の任意の文字列とを比較し、一
    致する文字列を検索する完全一致検索手段を備え、前記
    完全一致検索手段を、前記与えられた検索文字列と前記
    類似語記憶部に記憶された該与えられた検索文字列に対
    応する類似語を検索文字列として実行することを特徴と
    する請求項2に記載のテキスト検索装置。
  8. 【請求項8】 被検索文書から与えられた検索文字列及
    びこれに類似する文字列を検索する検索工程と、 前記検索工程によって得られた検索結果から文字列を取
    得し、当該検索に採用すべき文字列を選択可能に提示す
    る提示工程と、 前記提示工程で提示された文字列の中から選択された文
    字列に対応する検索結果を前記検索工程の検索結果より
    抽出し、検索結果として出力する出力工程とを備えるこ
    とを特徴とするテキスト検索方法。
  9. 【請求項9】 与えられた検索文字列に類似する文字列
    が類似語記憶部に記憶されているか否かを判定する判定
    工程と、 前記判定工程で、前記類似語記憶部に前記あたられた検
    索文字列に類似する文字列が記憶されていないと判定さ
    れた場合、被検索文書より、与えられた検索文字列及び
    これに類似する文字列を検索する検索工程と、 前記検索工程による検索結果を保持する保持する保持工
    程と、 前記保持工程で保持された検索結果から文字列を取得
    し、当該検索に採用すべき文字列を選択可能に提示する
    提示工程と、 前記提示工程で提示された文字列の中から選択された文
    字列に対応する検索結果を前記保持工程より抽出し、検
    索結果として出力する出力工程と、 前記提示工程によって提示された文字列の中から選択さ
    れた文字列を前記与えられた検索文字列の類似語として
    前記類似語記憶部に記憶する記憶工程と前記判定工程で
    前記類似語記憶部に前記与えられた検索文字列に類似す
    る文字列が記憶されていると判定された場合、該与えら
    れた検索文字列と前記類似語記憶部に記憶された該与え
    られた検索文字列に対応する類似語とを用いて被検索文
    書を検索して出力する第2検索工程と、 を備えることを特徴とするテキスト検索方法。
  10. 【請求項10】 前記提示工程は、前記検索工程による
    検索結果として、所定数以上の文字列が得られた場合に
    実行されることを特徴とする請求項8または9に記載の
    テキスト検索方法。
  11. 【請求項11】 前記提示工程は、前記検索工程による
    検索結果として得られた文字列を重複無しに抽出し、こ
    れらを類似度の高い順に並べて提示することを特徴とす
    る請求項8または9に記載のテキスト検索方法。
  12. 【請求項12】 前記提示工程は、前記検索工程による
    検索結果として得られた文字列を重複無しに抽出し、与
    えられた検索文字列と異なる文字の存在する文字位置が
    文字列の末尾にあるものから順に並べて提示することを
    特徴とする請求項8または9に記載のテキスト検索方
    法。
  13. 【請求項13】 前記検索工程は、 被検索文書中の文字あるいは文字列をキーとして、被検
    索文書中での各文字の位置を保持したインデックスを生
    成するインデックス生成工程と、 前記インデックス生成工程で生成されたインデックスを
    用いて前記与えられた検索文字列と被検索テキスト中の
    任意の文字列との表層的な類似度を計算し、所定の閾値
    を越える類似度を持つ文字列を検索するあいまい検索工
    程とを備えることを特徴とする請求項8または9に記載
    のテキスト検索方法。
  14. 【請求項14】 前記第2検索工程は、被検索テキスト
    中の文字および文字列をキーとして被検索テキスト中で
    の各文字の位置を保持したインデックスを用いて、検索
    文字列と被検索テキスト中の任意の文字列とを比較し、
    一致する文字列を検索する完全一致検索工程を備え、前
    記完全一致検索工程を、前記与えられた検索文字列と前
    記類似語記憶部に記憶された該与えられた検索文字列に
    対応する類似語とを検索文字列として実行することを特
    徴とする請求項9に記載のテキスト検索方法。
  15. 【請求項15】 テキスト検索のための制御プログラム
    を格納するコンピュータ可読メモリであって、該制御プ
    ログラムが、 被検索文書から与えられた検索文字列及びこれに類似す
    る文字列を検索する検索工程のコードと、 前記検索工程によって得られた検索結果から文字列を取
    得し、当該検索に採用すべき文字列を選択可能に提示す
    る提示工程のコードと、 前記提示工程で提示された文字列の中から選択された文
    字列に対応する検索結果を前記検索工程の検索結果より
    抽出し、検索結果として出力する出力工程のコードとを
    備えることを特徴とするコンピュータ可読メモリ。
  16. 【請求項16】 テキスト検索のための制御プログラム
    を格納するコンピュータ可読メモリであって、該制御プ
    ログラムが、 与えられた検索文字列に類似する文字列が類似語記憶部
    に記憶されているか否かを判定する判定工程のコード
    と、 前記判定工程で、前記類似語記憶部に前記あたられた検
    索文字列に類似する文字列が記憶されていないと判定さ
    れた場合、被検索文書より、与えられた検索文字列及び
    これに類似する文字列を検索する検索工程のコードと、 前記検索工程による検索結果を保持する保持する保持工
    程のコードと、 前記保持工程で保持された検索結果から文字列を取得
    し、当該検索に採用すべき文字列を選択可能に提示する
    提示工程のコードと、 前記提示工程で提示された文字列の中から選択された文
    字列に対応する検索結果を前記保持工程より抽出し、検
    索結果として出力する出力工程のコードと、 前記提示工程によって提示された文字列の中から選択さ
    れた文字列を前記与えられた検索文字列の類似語として
    前記類似語記憶部に記憶する記憶工程のコードと前記判
    定工程で前記類似語記憶部に前記与えられた検索文字列
    に類似する文字列が記憶されていると判定された場合、
    該与えられた検索文字列と前記類似語記憶部に記憶され
    た該与えられた検索文字列に対応する類似語とを用いて
    被検索文書を検索して出力する第2検索工程のコードと
    を備えることを特徴とするテキスト検索方法。
JP9119868A 1997-05-09 1997-05-09 テキスト検索装置及び方法 Withdrawn JPH10307839A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9119868A JPH10307839A (ja) 1997-05-09 1997-05-09 テキスト検索装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9119868A JPH10307839A (ja) 1997-05-09 1997-05-09 テキスト検索装置及び方法

Publications (1)

Publication Number Publication Date
JPH10307839A true JPH10307839A (ja) 1998-11-17

Family

ID=14772262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9119868A Withdrawn JPH10307839A (ja) 1997-05-09 1997-05-09 テキスト検索装置及び方法

Country Status (1)

Country Link
JP (1) JPH10307839A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304397A (ja) * 2001-04-06 2002-10-18 Toppan Forms Co Ltd コード検索処理システム
JP2006195575A (ja) * 2005-01-11 2006-07-27 Canon Inc 情報処理装置及びその方法
US9881001B2 (en) 2012-06-18 2018-01-30 Konica Minolta, Inc. Image processing device, image processing method and non-transitory computer readable recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304397A (ja) * 2001-04-06 2002-10-18 Toppan Forms Co Ltd コード検索処理システム
JP4614568B2 (ja) * 2001-04-06 2011-01-19 トッパン・フォームズ株式会社 コード検索処理システム
JP2006195575A (ja) * 2005-01-11 2006-07-27 Canon Inc 情報処理装置及びその方法
US9881001B2 (en) 2012-06-18 2018-01-30 Konica Minolta, Inc. Image processing device, image processing method and non-transitory computer readable recording medium

Similar Documents

Publication Publication Date Title
JP3132738B2 (ja) テキスト検索方法
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JPH10307839A (ja) テキスト検索装置及び方法
JPH09198404A (ja) 文書処理方法及び装置
JP4682627B2 (ja) 文書検索装置および方法
JPH10307835A (ja) 情報処理装置及びその方法
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2002132789A (ja) 文書検索方法
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JPH0869474A (ja) 類似文字列検索装置
JP3233803B2 (ja) 難読漢字検索装置
JP3955410B2 (ja) 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体
JPH10283368A (ja) 情報処理装置及びその方法
JPH05181912A (ja) 文書検索装置
JP3585944B2 (ja) データ処理方法及びその装置
JPH05225248A (ja) データベース検索システム
JP2842271B2 (ja) 手書き文字列入力装置
JP2744241B2 (ja) 文字処理装置
JP2001325292A (ja) 複合語の類似度判定システム、類似度判定方法及び記録媒体
JPH11203289A (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10240743A (ja) 情報蓄積・検索方法及びシステム
JP2006107070A (ja) 異表記語生成プログラムおよび装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040803