JPH11232303A - テキスト検索装置 - Google Patents

テキスト検索装置

Info

Publication number
JPH11232303A
JPH11232303A JP10037019A JP3701998A JPH11232303A JP H11232303 A JPH11232303 A JP H11232303A JP 10037019 A JP10037019 A JP 10037019A JP 3701998 A JP3701998 A JP 3701998A JP H11232303 A JPH11232303 A JP H11232303A
Authority
JP
Japan
Prior art keywords
search
character string
display
text
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10037019A
Other languages
English (en)
Inventor
Fukumi Yamaura
富久美 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP10037019A priority Critical patent/JPH11232303A/ja
Publication of JPH11232303A publication Critical patent/JPH11232303A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 曖昧検索を行うテキスト検索装置において、
検索結果の精度や誤りの把握が容易でない。 【解決手段】 検索文字列展開部12が、検索指示入力
部10から入力された検索文字列を展開して、不完全検
索文字列を生成する。文字列検索部16は、予め登録さ
れた検索対象テキストをテキスト記憶部4から取り出
し、不完全検索文字列等の検索を行い、それに合致する
文字列(候補文字列)を検知する。候補文字列は、それ
ぞれ検索文字列との一致度を定義される。表示属性値付
与部18は、この表示属性値に、一致度に応じた値を付
与する。例えば表示属性は表示色や文字フォントのサイ
ズ、スタイルである。表示処理部24は、表示属性値を
付与された検索対象テキストから、その表示属性値が反
映された例えば画面信号を生成してCRTディスプレイ
26に供給する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列が不正確で
あり得るテキストを対象とするテキスト検索装置であっ
て、特にその検索結果の表示におけるユーザインターフ
ェースの向上に関する。
【0002】
【従来の技術】従来より、検索文字列を指定し、文書や
文字列に含まれる当該検索文字列を探索するテキスト検
索装置があった。ワードプロセッサに搭載されている文
字列検索機能は、そのようなものの一例である。また、
多数の文書を検索対象とし、それらの中から、関心のあ
る文字列を含むものをリストアップするテキスト検索装
置も、文献データベース等の検索に用いられている。
【0003】これらの検索対象である文書、文字列は、
基本的には誤りがないことが前提とされる。そしてその
検索においては、検索対象テキスト中に含まれる文字列
が検索文字列と完全に一致した場合のみ、関心のある文
字列が検索対象テキスト中に存在すると判断されてい
た。
【0004】これに対し、検索対象テキストが光学文字
読取り装置(OCR)で読み取られたテキストデータで
ある場合には、その読み取りにおける認識誤りにより、
不正確な文字列を含んだ不完全なテキストとなる確率が
高い。この不完全テキストに対し、上述のような検索文
字列との完全一致による検索を行うと検索漏れが発生す
るおそれがある。つまり、検索対象テキストが正しく読
み取られたものであるならばヒットしたはずである文字
列部分が、認識誤りによりヒットしないことが起こりう
る。
【0005】そのような検索漏れを防止するために、検
索対象の曖昧さをある程度許容して検索を行う技術(以
下、曖昧検索という。)が存在する。特開平7−369
26号公報や特開平9−16619号公報に開示される
曖昧検索の技術は、検索文字列のうち何文字かが一致し
た場合には、ヒットしたとみなすというものである。ま
た、特開平7−160730号公報に開示される曖昧検
索技術は、検索文字列中の誤って認識されやすい部分
を、誤認識の可能性のある文字で置き換えた不完全検索
文字列を作成し、正しい検索文字列だけでなく、不完全
検索文字列によっても探索を行うものである。曖昧検索
を行うことにより、検索漏れの減少を図ることができる
メリットがある一方、逆に本来、検索文字列とは異なる
文字列が検索文字列と一致するとされる検索誤りが含ま
れる可能性もある。
【0006】さて、従来の曖昧検索の結果表示において
は、検索処理における検索文字列として指定された文字
列と検索対象に含まれる文字列との一致の程度が評価さ
れ、その一致度が所定の閾値以上の検索対象テキストの
例えば文書名が、例えば一覧形式で画面に表示された
り、印刷出力されることが行われていた。また、検索対
象文書がすべて示された一覧において、検索文字列を含
むと判断された文書名に対しては例えば「☆」印を付す
などして、ヒットした文書とそれ以外の文書とを区別し
て表示する方法も行われていた。また、一致度を数値表
示することも行われていた。
【0007】
【発明が解決しようとする課題】しかし、上記曖昧検索
の結果表示手法の多くは、基本的には検索文字列を含む
文書であるか否かの二値的な表示であり、一致度がどの
程度であるかは示されない。そのため、ユーザは、曖昧
検索の精度がどの程度であるのかを検索結果表示から認
識することができない。そのため、例えばリストアップ
された文書のいずれを優先して検討すべきかといった判
断を行うことができず不便であるという問題があった。
【0008】この点、上記従来手法のうち、一致度の数
値を文書名とともに表示するものは、この問題点を幾分
緩和するものであるということができる。しかし、表示
結果上の一致度を表す数字を文書毎に確認する作業は、
例えば検索対象テキストが大量である場合などに顕著に
認識されるように、思いの外、ユーザにとって負担であ
る。また、検索対象テキストの内容を表示して、曖昧検
索にてヒットした文字列が正しいか否かを確認するユー
ザ作業においては、ヒットした文字列がどの程度の一致
度でヒットしたものであるかを示すことが、作業効率の
向上の観点から望まれる。しかし、上述した一致度の数
字を表示するという手法では、当該数字をテキストとと
もにユーザに認識しやすく表示することは困難であると
いう問題があった。
【0009】本発明は上記問題点を解消するためになさ
れたもので、曖昧検索の結果表示において、その検索精
度がどの程度であるかをユーザに認識しやすくし、検索
誤りの排除を容易とするテキスト検索装置を提供するこ
とを目的とする。
【0010】
【課題を解決するための手段】第一の本発明に係るテキ
スト検索装置は、少なくとも部分的に検索文字列と一致
する候補文字列を検索対象テキスト中に探索する候補探
索手段と、前記検索文字列と前記候補文字列との一致度
に応じた所定の表示属性値を、前記候補文字列に対応付
ける表示属性値付与手段と、前記検索対象テキスト中に
見出された前記候補文字列を当該候補文字列の前記表示
属性値に基づいて表示する表示手段とを有するものであ
る。
【0011】本発明によれば、候補探索手段が、目的と
する検索文字列と一部が一致する文字列を本来は検索文
字列であった可能性がある文字列(候補文字列)として
検知する。候補文字列が検索文字列と相違することとな
る原因としては、例えば検索対象テキストを光学文字読
取りにより生成する際における読み取り誤りがある。こ
こで一致度は、検索文字列と候補文字列との一致の程度
を表す尺度であり、一般には数値にて表現される。本装
置は、検索対象テキスト中に見出された候補文字列を、
画面出力又は印刷出力により表示する表示手段を有す
る。表示属性値付与手段は、表示手段により表示される
際の候補文字列の表示属性に対して、一致度に応じた値
を付与し、ユーザがその一致度の差異を容易に識別でき
るようにする。例えば、表示属性は文字の色、サイズ、
字体、網掛け、下線などがある。また、画面表示におい
ては、さらに文字のブリンクのオン/オフや輝度などの
表示属性も用いることができる。
【0012】本発明の好適な態様は、さらに前記一致度
の閾値を指定する手段を有し、前記表示手段が、前記検
索対象テキストの内容を表示する手段と、その内容の表
示において、前記閾値以上の前記一致度を有する前記候
補文字列にのみ、前記表示属性値付与手段により与えら
れた前記表示属性値を反映させる手段とを有するもので
ある。
【0013】本態様では、検索対象テキストの内容が表
示される。ユーザは一致度の閾値を指定することができ
る。この場合、まず候補文字列の表示属性が他のテキス
ト部分と異なるように表示可能であるので、ユーザにと
って検索対象テキスト中のどの文字列が候補文字列であ
り、それがどの程度の一致度を有するかが一目しただけ
で認識可能に表示される。さらに表示手段は、指定され
た閾値以上の一致度を有する候補文字列についてのみ、
表示属性値付与手段により与えられた表示属性値を表示
に反映させることができ、これにより表示属性による区
別表示を、ユーザにとって関心のある一致度範囲の候補
文字列に絞り込んで行うことができる。
【0014】第二の本発明に係るテキスト検索装置は、
少なくとも部分的に検索文字列と一致する候補文字列を
検索対象テキスト内にて探索する候補探索手段と、前記
検索文字列と前記候補文字列との一致度に応じた所定の
表示属性値を、前記検索対象テキストに対応付ける表示
属性値付与手段と、前記検索対象テキストに応じた文書
情報を当該検索対象テキストの前記表示属性値に基づい
て表示する表示手段とを有するものである。
【0015】本発明によれば、表示手段により、検索対
象テキストに応じた文書情報が表示される。文書情報
は、例えば、文書名、文書の管理番号、発行日付、作成
者、その他、複数文書を互いに識別することができる情
報である。表示属性値付与手段は、この文書情報を表示
手段により表示する際の表示属性に対して、当該文書情
報に対応する検索対象テキスト内に見出された候補文字
列の一致度に応じた値を付与し、ユーザが検索対象テキ
ストがどの程度の一致度の候補文字列を含んでいるかを
容易に識別できるようにする。検索対象テキストに複数
の候補文字列が含まれる場合に、検索対象テキストを代
表する一致度として、例えば当該検索対象テキストに含
まれる候補文字列の一致度のうち最大の値を採用した
り、複数の候補文字列の一致度の平均値を採用したりす
ることができる。
【0016】本発明の好適な態様は、前記表示属性値付
与手段が、前記検索対象テキストに含まれる複数の前記
候補文字列の前記一致度のうちの最大値に基づいて、当
該検索対象テキストを代表する代表一致度を定め、前記
代表一致度に応じて当該検索対象テキストの前記表示属
性値を定めるというものである。
【0017】本発明のさらに好適な態様は、さらに前記
代表一致度の閾値を指定する手段と、前記閾値以上の前
記代表一致度を有する前記検索対象テキストのみの前記
文書情報を表示する手段とを有するものである。
【0018】第三の本発明に係るテキスト検索装置は、
上記第一の発明においてさらに前記一致度の範囲を指定
する手段を有し、前記表示手段は、前記検索対象テキス
ト中に見出された前記候補文字列のうち、前記範囲内の
前記一致度を有するものを前記検索対象テキストから取
り出して表示する手段と、その取り出された前記候補文
字列の表示において、前記表示属性値付与手段により与
えられた前記表示属性値を反映させる手段とを有するも
のである。
【0019】本発明によれば、指定された範囲内の一致
度を有する候補文字列が検索対象テキストから取り出さ
れ、それらが画面等に、例えば一覧形式にて表示され
る。このとき、表示される候補文字列は、その一致度に
応じた表示属性値で表示される。
【0020】上記本発明の好適な態様は、前記表示属性
値が、表示媒体上での色を指定するものである。また他
の好適な態様は前記表示属性値が、表示媒体上での文字
サイズを指定するものである。また、他の好適な態様は
前記表示属性値が、表示媒体上でのフォント種別を指定
するものである。
【0021】第四の本発明に係るテキスト検索装置は、
少なくとも部分的に検索文字列と一致する候補文字列を
検索対象テキスト中に探索する候補探索手段と、前記検
索文字列と前記候補文字列との一致度を求める一致度決
定手段と、前記一致度の範囲を指定する範囲指定手段
と、前記検索対象テキスト中に見出された前記候補文字
列のうち、前記範囲内の前記一致度を有するもののみを
表示する表示手段とを有するものである。
【0022】以上の本発明の好適な態様は、前記候補探
索手段が、部分的に前記検索文字列と一致する不完全検
索文字列を生成する手段と、前記不完全検索文字列と前
記検索文字列との前記一致度を決定する手段と、前記検
索文字列又は前記不完全検索文字列と前記検索対象テキ
ストとの照合を行い、前記検索対象テキストに含まれる
前記候補文字列を探索する手段とを有するものである。
【0023】
【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。
【0024】図1は、本発明の実施形態であるテキスト
検索装置の概略のブロック構成図である。本装置は、テ
キスト登録部2によってテキスト記憶部4に予め登録さ
れた検索対象テキストに含まれる検索文字列を検索し、
その検索結果を表示出力する。
【0025】テキスト登録部2は、帳票上に記載された
テキストを、例えば光学文字読取りといった方法を用い
て読み取り、テキストデータに変換し、テキスト記憶部
4に登録する。テキスト記憶部4は、例えばメモリや磁
気ディスクなどの記憶装置を用いて構成される。ここ
で、テキスト記憶部4に登録される検索対象テキスト
は、その中に不正確な文字列を含む場合がある。特に例
えば、検索対象テキストが文字認識に基づいて生成され
るような場合には、そのおそれが高いといえる。本装置
は、そのような不完全な文字列を含んだテキストをも対
象として検索処理を行うものである。
【0026】検索文字列は、ユーザによって検索指示入
力部10から入力される。検索指示入力部10は、検索
文字列の組み合わせなどの形で表された検索条件式の入
力も行うことができる。
【0027】検索文字列展開部12は、検索指示入力部
10から検索文字列または検索条件式を受け取る。検索
条件式により検索を指示された場合には、検索文字列展
開部12は当該式から検索文字列を抽出する。そして、
検索文字列展開部12は検索文字列を不完全検索文字列
に展開する処理を行う。
【0028】ここで不完全文字列とは、検索文字列と部
分的にしか一致しない文字列である。例えば、「グルー
プウェア」という文字列の一部をワイルドカード「*」
で置き換え、例えば「グル*プウェア」、「グループウ
**」といった文字列が不完全文字列として生成され
る。前者によれば、「グル〜プウェア」という不正確な
文字列が、光学読取りを行う前の元の帳票上では検索文
字列と一致していた可能性がある候補文字列として検知
される。同様に、後者によれば、「グループウエア」、
「グループウエワ」という不正確な文字列が候補文字列
として検知される。また、光学読取りにおいては、ある
一つの文字が2つの文字として認識されたり、逆に2つ
の文字が一つの文字として認識されることが起こる。不
完全検索文字列として、そのようなケースを想定したも
のも生成されうる。そのような誤認識に対する考慮は、
当該誤認識が生じやすい文字、又は文字列かどうかに応
じて、適宜行うように構成することができる。例えば、
「化」という文字は、「イヒ」という2文字として認識
されやすく、よって、検索文字列が「化」を含む場合に
は、その部分を「イヒ」で置き換えた文字列を不完全検
索文字列として生成するといったことが行われる。どの
ような文字(文字列)がどのように誤認識されやすいか
は、経験に基づいて予め登録しておくこともできるし、
必要に応じて装置に登録する構成をとることもできる。
【0029】検索文字列展開部12は、不完全検索文字
列を生成すると同時に、個々の不完全検索文字列に対し
て、それが検索文字列とどの程度一致するかを示す指標
である一致度を算定する。
【0030】一致度は、例えば、長さL0の検索文字列
に対し、不完全検索文字列がL文字一致した場合には、
L/L0と定義することができる。また、文字列パター
ンを比較して似ている度合いを数値化する技術も知られ
ており(特開平8−147320号公報)、そのような
数値を用いて一致度を定義することもできる。また、例
えば、一致しない文字が2文字含まれる場合において、
それら不一致文字が文字列中に分離して存在する場合に
は、2つの不一致文字が隣接する場合よりも所定値だ
け、例えば0.02だけ、一致度を低くすることが適当
であろう。また、一致しない元の文字が認識誤りを生じ
やすい特定文字の文字である場合には、所定値だけ、例
えば0.05だけ、一致度を上乗せすることも妥当であ
ろう。
【0031】検索文字列記憶部14は、ユーザが検索指
示入力部10にて指定した検索文字列のほか、検索文字
列展開部12にて生成された不完全検索文字列を一致度
とともに格納する。
【0032】文字列検索部16は、テキスト記憶部4か
ら検索対象テキストを取り出し、当該検索対象テキスト
に、検索文字列記憶部14に格納されている検索文字列
又は不完全検索文字列が含まれるかどうかを探索する。
【0033】文字列検索部16が、検索文字列又は不完
全検索文字列に合致すると判断する文字列、すなわち候
補文字列を検知した場合には、表示属性値付与部18に
通知する。通知される情報には、検索を行った文字列、
検索対象テキスト中での当該文字列の位置、及びその一
致度が含まれる。
【0034】表示属性値付与部18は、検知された文字
列の所定の表示属性に対して、一致度に応じた値を付与
する。例えば、表示属性値付与部18は、文字列の色
や、フォントサイズ、フォント種別に対して一致度に応
じた値を付与する。後述するように、一致度に応じた表
示属性値を用いて画面表示等を行うことにより、ユーザ
に目的とする文字列の有無、そのマッチング精度の認識
を容易にさせることができる。よって、一致度があまり
低いマッチングの場合は、ユーザが目的とする文字列で
ある可能性が低く、そのような場合まで表示属性値を他
の部分と異ならせて表示することは必要性が低い。その
ため、表示属性値付与部18は、例えば、通常の部分が
有するデフォルト値と異なる表示属性値を文字列に与え
る処理を、所定の一致度以上の候補文字列に対してのみ
行うように構成することができる。
【0035】本装置では、表示属性値付与部18は、例
えば一致度が0.7以上の場合にのみ候補文字列の表示
色を設定し直す処理を行う。なお、この一致度の閾値
を、必要に応じてユーザが変更可能に構成することもで
きる。表示属性値付与部18は、例えば、一致度が0.
7未満の場合にはデフォルト値として表示色を黒のまま
とし、一致度が0.7以上0.8未満である場合には表
示色を緑とし、0.8以上0.9未満である場合には表
示色を黄とし、0.9以上1.0未満である場合には表
示色を橙とし、一致度が1.0の場合には表示色を赤に
設定する。表示属性値付与部18は、候補文字列に対し
て表示色が付与された検索対象テキストを検索結果記憶
部20に格納する。
【0036】検索の結果、どのテキストが探しているテ
キストである可能性が高いかを、検索対象テキストの一
覧形式において示すことは、本装置のようなテキスト検
索装置においてユーザの利便上、非常に重要な機能であ
る。さて一般には、検索対象テキストは複数の候補文字
列を含み得る。また、複数の検索文字列を含んだ検索条
件式に基づいて検索が行われる場合もある。よって、上
記機能を実現するためには、テキストに含まれる個々の
候補文字列の一致度に基づいて、各テキストが所望のテ
キストである可能性の指標を定める必要がある。本装置
では、その指標として各検索テキストを代表する一致度
を定める。表示属性値付与部18は、この代表一致度を
定める機能をも有している。そして決定された代表一致
度は、検索対象テキストの所定の文書情報と関係付けら
れ、その文書情報の表示色が代表一致度に応じた値に設
定される。文書情報は、例えば文書名、文書番号、発行
日付、作成者、そのほか複数文書を互いに識別すること
ができる情報である。
【0037】代表一致度の定め方として、例えば以下の
ような方法がある。検索が単一の検索文字列に基づいて
行われるという単純な場合には、例えば、各検索対象テ
キストに含まれる候補文字列の一致度のうち最大値を代
表一致度に採用する。複数の検索文字列を用いた検索条
件式による検索の場合は、検索条件式中の各検索文字列
をそれぞれに対応する候補文字列の一致度で置き換え
て、当該検索条件式の「値」を評価する。検索条件式が
論理和(OR)検索である場合には、検索条件式の評価
値の最大値を代表一致度に採用する。一方、検索条件式
が論理積(AND)検索である場合には、検索条件式の
評価値の最小値を代表一致度に採用する。
【0038】表示指示入力部22、表示処理部24及
び、CRTディスプレイ26又はプリンタ28等の表示
出力装置が表示手段を構成し、検索結果記憶部20に格
納された検索結果を実際にユーザの目に見える形式で表
示する。
【0039】ユーザは表示指示入力部22によって、表
示処理部24に対して表示形式等の指示を行う。例え
ば、検索対象テキストの一覧形式の表示を行うか、個別
の検索対象テキストの内容の表示を行うか、または個別
の検索対象テキストにおいて検知された候補文字列を抽
出して表示させるかといった表示モードの選択を行うこ
とが可能である。また、表示指示入力部22は、検索結
果記憶部20に格納された表示属性値を表示に反映させ
る一致度(又は代表一致度)の範囲を指定する範囲指定
手段としての機能も有している。
【0040】表示処理部24は表示指示入力部22から
の指示に従って、検索結果記憶部20に格納された検索
結果を表示可能な信号に変換する。例えば、検索結果を
CRTディスプレイ26に表示させる場合は、表示処理
部24は、指定された範囲の一致度を有する候補文字列
や文書情報の表示色として、デフォルトの表示色の代わ
りに表示属性値付与部18で与えられた表示色を用いて
画像信号を生成する。同様に、検索結果をプリンタ28
に印刷出力させる場合には、表示処理部24はプリンタ
用の信号を生成して出力する。
【0041】次に、本装置における処理について説明す
る。図2は、検索結果を反映させた検索対象テキストの
内容表示(以下、テキスト内容表示モードと呼ぶ。)を
行う場合の検索処理のフロー図である。ユーザが検索指
示入力部10に対して、テキスト内容表示モードを行う
旨の指示、検索文字列(又は検索条件式)の指定、及び
候補文字列の表示色をデフォルトの色から変更させる処
理を行う一致度の閾値の指定を行う(S60)。検索条
件式により検索を指示された場合には、検索文字列展開
部12は当該式から検索文字列を抽出する(S65)。
次いで、検索文字列展開部12は、検索指示入力部10
にて指定された閾値以上の一致度を有する不完全検索文
字列を、検索文字列に基づいて生成し(S70)、生成
された不完全検索文字列とそれに対応する一致度を検索
文字列記憶部14に格納する(S75)。
【0042】文字列検索部16は、予めテキスト記憶部
4に登録された検索対象テキストを取り込む(S8
0)。また文字列検索部16は、検索文字列記憶部14
から検索文字列又は不完全検索文字列と、それに対応す
る一致度を、例えば一組ずつ取り出し、検索対象テキス
トの先頭から順に、取り出した検索文字列又は不完全検
索文字列とのマッチングを行う(S85)。この場合
は、検索文字列記憶部14に格納された検索文字列及び
不完全検索文字列の個数に応じた回数だけ、検索対象テ
キストの先頭から末尾までの検索が繰り返されることに
なる。なお、検索文字列記憶部14から取り出した複数
組の完全文字列及び不完全検索文字列に対して並列にマ
ッチングを行うように、文字列検索部16を構成するこ
とも可能である。
【0043】文字列検索部16は、候補文字列を検知す
ると(S90)、例えば当該文字列の位置及びその一致
度を表示属性値付与部18へ通知する。表示属性値付与
部18は、候補文字列に対して、一致度に応じて予め定
義されている色を対応付ける(S95)。表示属性値付
与部18は、候補文字列に対して表示色を付与された検
索対象テキストを検索結果記憶部20に格納する(S1
00)。
【0044】表示処理部24は、検索結果記憶部20に
格納された検索結果が反映された検索対象テキストを例
えばCRTディスプレイ26に表示する。図3は、検索
結果が反映された検索対象テキストの内容の画面表示例
である。この例は、検索文字列が「グループウェア」で
あり、一致度の閾値は0.6に設定されている場合を示
す。以上説明したテキスト内容表示モードでは、画面上
に検索対象テキスト150が表示される。検索対象テキ
スト150は、基本的にはデフォルトの表示色である黒
色で表示されるが、その中に検知された候補文字列15
2〜156はその一致度に応じた他の色で表示される。
【0045】候補文字列「グループウエア」(候補文字
列152)及び候補文字列「グループウニア」(候補文
字列154)は、検索文字列(L0=7)と1文字だけ
相違する文字列であり、L/L0で一致度を定義する
と、一致度=0.86となる。表示属性値付与部18
は、予め、一致度が0.8以上0.9未満の候補文字列
に対しては黄色、一致度が0.7以上0.8未満の候補
文字列に対しては緑色を付与するように設定されてい
る。よって、これらの候補文字列152、154に対し
ては表示色として黄色が付与され、表示指示入力部22
から特別に指示がない限り当該色で画面表示される。
【0046】一方、候補文字列「グループエリア」(候
補文字列156)は、検索文字列(L0=7)と2文字
相違する文字列であり、L/L0で一致度を定義する
と、一致度=0.71となる。よって、候補文字列15
6は表示色として緑色を付与され、表示指示入力部22
から特別に指示がない限り当該色で画面表示される。
【0047】例えば、表示指示入力部22において、表
示属性値付与部18により付与された表示色の画面表示
への反映を一致度0.8以上の場合に行うようにユーザ
が指定した場合には、候補文字列156は黒色で表示さ
れ、候補文字列152、154のみが表示属性値付与部
18が付与した表示色「黄色」で表示される。
【0048】このように、画面上、又は印刷結果におい
て、候補文字列の色を一致度に応じて変えて表示するこ
とにより、ユーザは一見しただけで、候補文字列の位
置、及びその文字列がどのような文字列であり、一致度
がどの程度であるかを認識することができる。そして、
ユーザはどのような文字列が候補文字列として検知され
たかを容易に認識することができる結果、検索誤りの排
除が容易になる。特に一致度がその値のランクに応じた
色で表示され、それを目安とすることによりユーザの検
索誤り排除の作業負担が軽減される。
【0049】次に、本装置における2つ目の表示モード
の処理について説明する。図4は、検索結果を検索対象
テキストの文書情報に反映させ、当該文書情報を一覧形
式で表示する場合(以下、文書情報一覧表示モードと呼
ぶ。)を行う場合の検索処理のフロー図である。ユーザ
が検索指示入力部10に対して、文書情報一覧表示モー
ドを行う旨の指示、検索文字列(又は検索条件式)の指
定、及び文書情報の表示色をデフォルトの色から変更さ
せる処理を行う代表一致度の閾値の指定(S210)を
行う。以下、検索文字列展開部12は図2にて説明した
処理S65〜S75を行う。また文字列検索部16は、
図2にて説明した処理S80〜S95を各検索対象テキ
ストに対して行う。
【0050】表示属性値付与部18は、検索指示入力部
10から得られる検索条件式に応じて、各検索対象テキ
ストごとに一致度の最大値又は最小値を求め、それを代
表一致度とする(S215)。例えば、上述したよう
に、検索条件式が論理和形式であれば、各検索対象テキ
ストの一致度の最大値が当該テキストの代表一致度とさ
れる。そして表示属性値付与部18は、代表一致度に応
じて予め定義されている色を、各テキストの文書情報に
対応付ける(S220)。表示属性値付与部18は、表
示色を付与された文書情報を検索結果記憶部20に格納
する(S225)。
【0051】表示処理部24は、検索結果記憶部20に
格納された検索結果が反映された文書情報を例えばCR
Tディスプレイ26に表示する。図5は、検索結果が反
映された文書情報一覧の画面表示例である。この例は、
検索対象テキストが特許出願の公開公報であり、文書情
報として公開番号、発明の名称、及び出願人からなる組
を一覧表示したものである。図示される文書情報250
〜260は、それが対応する検索対象テキストの代表一
致度に応じた表示色を付与され、当該色で画面表示され
る。表示色は、例えば、代表一致度が0.7未満の場
合、デフォルト色の黒色、0.7以上0.8未満の場合
は緑色、0.8以上0.9未満の場合は黄色、0.9以
上1.0未満の場合は橙色、1.0の場合は赤色を付与
される。例えば、図示する例では、文書情報250、2
60が0.9以上1.0未満の代表一致度を有し、橙色
で表示され、文書情報254が0.8以上0.9未満の
代表一致度を有し、黄色で表示され、文書情報252が
0.7以上0.8未満の代表一致度を有し、緑色で表示
され、残りの文書情報256、258が0.7未満の代
表一致度を有し、黒色で表示される。
【0052】このように、画面上、又は印刷結果におい
て、文書情報の色を代表一致度に応じて変えて表示する
ことにより、ユーザは一見しただけで、各検索対象テキ
スト内における検索結果の大体の見当を付けることがで
きる。つまりユーザにとって、代表一致度が高く表示さ
れている検索対象テキストから優先的にその内容を検討
することが可能となり、多数のテキストを対象とする検
索を効率よく進めることができる。
【0053】図5は、すべての検索対象テキストの文書
情報を一覧表示したが、所定の代表一致度を有するもの
のみ一覧表示するように、表示処理部24を構成するこ
ともできる。例えば図6は、表示指示入力部22から表
示を行う代表一致度の閾値を0.8に指定した場合の画
面表示例である。この場合、表示処理部24は、図5に
示すような文書情報250〜260を検索結果記憶部2
0から取り出して、それらの代表一致度、又は表示色を
検査し、その値が0.8以上に対応するものを選択し
て、画像信号を生成する。
【0054】また、本装置は、検索結果を反映され検索
結果記憶部20に格納された検索対象テキストから、所
定の一致度を有する候補文字列を抽出して表示する候補
文字列抽出表示モードも備えている。ユーザは、表示指
示入力部22によって画面表示される、例えば図7に示
すメニューを例えばマウス操作することにより、当該モ
ードの選択及び抽出する一致度範囲の指定を行う。図示
する例では、メニュー「パターン」にマウスカーソルを
移動させると、プルダウンメニュー300が展開する。
さらにその中のメニュー「一致文字列」にカーソルを移
動させると、一致度範囲を示すプルダウンメニュー30
5が開く。そして、例えば、範囲「0.7〜0.8」を
選択すると、検索対象テキストに含まれる候補文字列の
うち、一致度0.7〜0.8を有するものの一覧が画面
表示される。図8は、候補文字列抽出表示モードの画面
表示例である。この場合は、表示される候補文字列はす
べて同一の表示色を付与されたものであり、それらの間
での色による区別は特に必要ない。よって、この場合
は、敢えてそれらをその表示色で表示する必要性は低
い。
【0055】なお、一致度範囲を指定するプルダウンメ
ニュー305において、複数の表示色に対応する範囲を
用意することもできる。例えば、ある閾値以上の一致度
を有する候補文字列を表示させるような場合がこれに該
当する。その場合の候補文字列の一覧表示は、それぞれ
の候補文字列に付与された表示色で当該候補文字列を画
面表示するように構成することができる。
【0056】
【発明の効果】本発明のテキスト検索装置によれば、検
索文字列だけでなく検索文字列と部分的に一致する候補
文字列も検索対象テキスト中に検索され、各候補文字列
にはその一致度に応じた表示属性値が付与され、その表
示属性値に基づいて画面表示や印刷出力といった検索結
果の表示が行われる。よって、ユーザは、検索結果の表
示から候補文字列の位置やその一致度の程度を容易に把
握することができ、曖昧検索の精度の把握やその誤り排
除を容易に行うことができるという効果が得られる。
【0057】また、本発明のテキスト検索装置によれ
ば、複数の検索対象テキストごとにそれらがそれぞれ含
む候補文字列の一致度に応じた代表一致度が求められ
る。そして、各検索対象テキストに対応する文書情報
に、代表一致度に応じた表示属性値が付与され、その表
示属性値に基づいて文書情報の画面表示や印刷出力とい
った検索結果の表示が行われる。よって、ユーザは、文
書情報の表示から、それらにそれぞれ対応する検索対象
テキストに含まれる候補文字列の一致度の程度を容易に
把握することができ、どの検索対象テキストを優先して
詳細に検討すべきかの判断が容易になり、検索作業の効
率が向上するという効果が得られる。
【0058】また、本発明のテキスト検索装置によれ
ば、一致度の範囲を指定して、その範囲の一致度を有す
る候補文字列が検索対象テキストから抽出され、表示さ
れる。これにより、ユーザには所定の一致度を有する候
補文字列がまとめて提示されるので、ユーザが検索の精
度やどのような検索誤りが生じているかの認識が容易に
行われ、検索作業の精度及び効率が向上するという効果
が得られる。
【図面の簡単な説明】
【図1】 本発明の実施形態であるテキスト検索装置の
概略のブロック構成図である。
【図2】 検索結果を反映させた検索対象テキストの内
容表示(テキスト内容表示モードによる表示)を行う場
合の検索処理のフロー図である。
【図3】 テキスト内容表示モードによる画面表示例で
ある。
【図4】 検索結果を検索対象テキストの文書情報に反
映させ、当該文書情報を一覧形式で表示する場合(文書
情報一覧表示モード)を行う場合の検索処理のフロー図
である。
【図5】 文書情報一覧表示モードによる画面表示例で
ある。
【図6】 代表一致度の閾値を変えた場合の文書情報一
覧表示モードによる画面表示例である。
【図7】 表示指示入力部が画面上に提供する操作メニ
ューの一例を示す模式図である。
【図8】 候補文字列抽出表示モードの画面表示例を示
す図である。
【符号の説明】
2 テキスト登録部、4 テキスト記憶部、10 検索
指示入力部、12 検索文字列展開部、14 検索文字
列記憶部、16 文字列検索部、18 表示属性付与
部、20 検索結果記憶部、22 表示指示入力部、2
4 表示処理部、26 CRTディスプレイ、28 プ
リンタ。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 検索対象テキストに対し、検索文字列に
    基づいて検索処理を行うテキスト検索装置において、 少なくとも部分的に前記検索文字列と一致する候補文字
    列を前記検索対象テキスト中に探索する候補探索手段
    と、 前記検索文字列と前記候補文字列との一致度に応じた所
    定の表示属性値を、前記候補文字列に対応付ける表示属
    性値付与手段と、 前記検索対象テキスト中に見出された前記候補文字列
    を、当該候補文字列の前記表示属性値に基づいて表示す
    る表示手段と、 を有することを特徴とするテキスト検索装置。
  2. 【請求項2】 前記一致度の閾値を指定する手段を有
    し、 前記表示手段は、 前記検索対象テキストの内容を表示する手段と、 その内容の表示において、前記閾値以上の前記一致度を
    有する前記候補文字列にのみ、前記表示属性値付与手段
    により与えられた前記表示属性値を反映させる手段と、 を有することを特徴とする請求項1記載のテキスト検索
    装置。
  3. 【請求項3】 検索対象テキストに対し、検索文字列に
    基づいて検索処理を行うテキスト検索装置において、 少なくとも部分的に前記検索文字列と一致する候補文字
    列を前記検索対象テキスト内にて探索する候補探索手段
    と、 前記検索文字列と前記候補文字列との一致度に応じた所
    定の表示属性値を、前記検索対象テキストに対応付ける
    表示属性値付与手段と、 前記検索対象テキストに応じた文書情報を当該検索対象
    テキストの前記表示属性値に基づいて表示する表示手段
    と、 を有することを特徴とするテキスト検索装置。
  4. 【請求項4】 前記表示属性値付与手段は、前記検索対
    象テキストに含まれる複数の前記候補文字列の前記一致
    度のうちの最大値に基づいて、当該検索対象テキストを
    代表する代表一致度を定め、前記代表一致度に応じて当
    該検索対象テキストの前記表示属性値を定めることを特
    徴とする請求項3記載のテキスト検索装置。
  5. 【請求項5】 前記代表一致度の閾値を指定する手段
    と、 前記閾値以上の前記代表一致度を有する前記検索対象テ
    キストのみの前記文書情報を表示する手段と、 を有することを特徴とする請求項4記載のテキスト検索
    装置。
  6. 【請求項6】 前記一致度の範囲を指定する手段を有
    し、 前記表示手段は、 前記検索対象テキスト中に見出された前記候補文字列の
    うち、前記範囲内の前記一致度を有するものを前記検索
    対象テキストから取り出して表示する手段と、 その取り出された前記候補文字列の表示において、前記
    表示属性値付与手段により与えられた前記表示属性値を
    反映させる手段と、 を有することを特徴とする請求項1記載のテキスト検索
    装置。
  7. 【請求項7】 検索対象テキストに対し、検索文字列に
    基づいて検索処理を行うテキスト検索装置において、 少なくとも部分的に前記検索文字列と一致する候補文字
    列を前記検索対象テキスト中に探索する候補探索手段
    と、 前記検索文字列と前記候補文字列との一致度を求める一
    致度決定手段と、 前記一致度の範囲を指定する範囲指定手段と、 前記検索対象テキスト中に見出された前記候補文字列の
    うち、前記範囲内の前記一致度を有するもののみを表示
    する表示手段と、 を有することを特徴とするテキスト検索装置。
  8. 【請求項8】 前記候補探索手段は、 部分的に前記検索文字列と一致する不完全検索文字列を
    生成する手段と、 前記不完全検索文字列と前記検索文字列との前記一致度
    を決定する手段と、 前記検索文字列又は前記不完全検索文字列と前記検索対
    象テキストとの照合を行い、前記検索対象テキストに含
    まれる前記候補文字列を探索する手段と、 を有することを特徴とする請求項1から請求項7のいず
    れかに記載のテキスト検索装置。
JP10037019A 1998-02-19 1998-02-19 テキスト検索装置 Pending JPH11232303A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10037019A JPH11232303A (ja) 1998-02-19 1998-02-19 テキスト検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10037019A JPH11232303A (ja) 1998-02-19 1998-02-19 テキスト検索装置

Publications (1)

Publication Number Publication Date
JPH11232303A true JPH11232303A (ja) 1999-08-27

Family

ID=12485958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10037019A Pending JPH11232303A (ja) 1998-02-19 1998-02-19 テキスト検索装置

Country Status (1)

Country Link
JP (1) JPH11232303A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175668A (ja) * 1999-12-17 2001-06-29 Fujitsu Ltd 色彩を用いた情報比較表示装置および比較表示方法
JP2001318987A (ja) * 2000-05-11 2001-11-16 Sanyo Electric Co Ltd 処方データ入力装置
JP2006309453A (ja) * 2005-04-27 2006-11-09 Toyota Motor Corp データレコードの検索方法とそのためのプログラム
US7512602B2 (en) 2003-05-30 2009-03-31 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a weighted and (WAND)
JP2015165435A (ja) * 2008-10-23 2015-09-17 アビニシオ テクノロジー エルエルシー グラフベース計算におけるデータ記録
JP2020154975A (ja) * 2019-03-22 2020-09-24 Necソリューションイノベータ株式会社 振込データ入力支援装置、振込データ入力支援方法、及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175668A (ja) * 1999-12-17 2001-06-29 Fujitsu Ltd 色彩を用いた情報比較表示装置および比較表示方法
JP2001318987A (ja) * 2000-05-11 2001-11-16 Sanyo Electric Co Ltd 処方データ入力装置
US7512602B2 (en) 2003-05-30 2009-03-31 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a weighted and (WAND)
US8280903B2 (en) 2003-05-30 2012-10-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
JP2006309453A (ja) * 2005-04-27 2006-11-09 Toyota Motor Corp データレコードの検索方法とそのためのプログラム
JP2015165435A (ja) * 2008-10-23 2015-09-17 アビニシオ テクノロジー エルエルシー グラフベース計算におけるデータ記録
JP2020154975A (ja) * 2019-03-22 2020-09-24 Necソリューションイノベータ株式会社 振込データ入力支援装置、振込データ入力支援方法、及びプログラム

Similar Documents

Publication Publication Date Title
KR100292098B1 (ko) 문자 인식 장치 및 방법
US5276616A (en) Apparatus for automatically generating index
JP2987099B2 (ja) 文書作成支援システム及び用語辞書
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
JP2726568B2 (ja) 文字認識方法及び装置
JP4356847B2 (ja) フィールド定義情報生成方法、ならびび、フィールド定義情報生成装置
US20030042319A1 (en) Automatic and semi-automatic index generation for raster documents
US5845305A (en) Index creating apparatus
EP2312459A1 (en) Information processing device and information processing method
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
JPH11161681A (ja) 検索結果を表示するための装置および方法、並びに、検索結果を出力するために一連の命令を記録したコンピュータ読み取り可能な記録媒体
Higuchi KH Coder 2. x reference manual
JP2007213416A (ja) 手書き文字列検索装置、手書き文字列検索方法及びプログラム
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
Hoffswell et al. Interactive repair of tables extracted from pdf documents on mobile devices
JPH11232303A (ja) テキスト検索装置
JP2007279978A (ja) 文書検索装置及び文書検索方法
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
JPH11232296A (ja) 文書ファイリングシステムおよび文書ファイリング方法
JPH1011443A (ja) 文書符号検査システム
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JP3958722B2 (ja) イメージデータ文書検索システム
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061024