JPH0496176A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH0496176A
JPH0496176A JP2211179A JP21117990A JPH0496176A JP H0496176 A JPH0496176 A JP H0496176A JP 2211179 A JP2211179 A JP 2211179A JP 21117990 A JP21117990 A JP 21117990A JP H0496176 A JPH0496176 A JP H0496176A
Authority
JP
Japan
Prior art keywords
keyword
similar
keywords
document
detection means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2211179A
Other languages
English (en)
Other versions
JP2935877B2 (ja
Inventor
Masako Bosu
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2211179A priority Critical patent/JP2935877B2/ja
Publication of JPH0496176A publication Critical patent/JPH0496176A/ja
Application granted granted Critical
Publication of JP2935877B2 publication Critical patent/JP2935877B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文書や画像などの情報を自由キーワードと対
応して蓄積しておき、自由キーワードを指定することに
より、必要な情報を取り出すようにした文書検索装置に
関する。
従来の技術 大量の情報から希望する情報を検索する場合、予め個々
の情報に対してキーワードを付与しておき、検索時にキ
ーワードを指定してそのキーワードと一致する語をキー
ワードとする情報を取り出してくる方法が一般的である
。キーワード付与については、予めキーワードを指定し
ておく統制キーワード方式と、キーワードを前もって指
定せずに登録したい情報に自由に付与する自由キーワー
ド方式とがある。自由キーワード方式の場合、情報を取
り呂す時に指定するキーワードと情報に既に付いている
キーワードとの登録の仕方の違いから、欲しい文書を取
り出すことができないことがある。これは、個人で使用
する場合もさることながら、複数の人間によって使用さ
れる場合には顕著である。
このような点を改良したものとして、例えば特開昭62
−247462号公報に示されるものがある。これは、
登録・検索時に入力されたキーワードが既に記憶されて
いるキーワードの部分連糸である場合にそれを抽出し、
ソーティングして表示させるようにしたものである。こ
れによれば、部分連糸である場合には抽出され、ユーザ
は抽出結果に基づき、キーワードを訂正することでキー
ワードのばらつきを防ぐことができる。しかし、指定キ
ーワードが部分連糸でなければ検出されない。例えば、
[高速画像処理プロセッサー」と入力した場合、記憶済
みのキーワードに「画像処理プロセッサー」があっても
検出されないことになる。つまり、入力キーワードの登
録単位がより短くないと検出できないものである。また
、単に部分連糸の一致によるので、構成単語の順番が違
う場合も検出できない。
また、登録の違いによる検索漏れはキーワードが複合語
である場合に起こりやすい。これは、複合語が漢字、片
仮名、英字を比較的自由に組合せたものであり、同じよ
うな意味のことを表現するにもその組合せの順番や構成
単語に若干の違いを生ずることが多い。このような複合
語などの登録単位の違いによる検索漏れを解消するため
に、キーワード登録時に複合語の部分文字列も同様にキ
ーワードとして登録するようにしたものが情報処理学会
第35回(昭和62年後期)全国大会の論文集中の「日
本語文章からのキーワード自動抽出」(p、1277〜
1278)により報告されている。これは、複合語の構
成単語を組合せて複合語を生成するものである。この方
法によれば、登録単位の違いによる検索漏れをかなり解
消し得るものの、逆に、新たに生成した複合語によって
、本来欲しいと思う文書以外のものが検索されてしまう
というノイズが増える。例えば、「高速マイクロプロセ
ッサ−」というキーワードを指定すると「高速Jという
語もキーワードとして登録され、他の文書で「高速」を
含む語をキーワードとしている場合(例えば、「高速移
動装置」や「高速ミニコンピユータ」などの語)は、こ
れも検索されてしまう。
発明が解決しようとする課題 即ち、従来方式によると、登録単位の違いにより検索で
きないことがある。また、登録単位の違いを部分文字列
の一致で検出するものでは、入力キーワードのほうが短
い場合でないと検出できず、かつ、構成順序が同じでな
いと検出できない。
方、登録単位の違いを解消する部分単語により生成した
複合語キーワードでは所望の文書以外のものも取り出し
てしまい、ノイズが増え、適合率を下げる一因となる。
課題を解決するための手段 文書ファイルに文書情報を登録する際に前記文書にキー
ワードを関連付けて記憶させ、関連するキーワードを指
定することにより登録した情報を検索するようにした文
書検索装置において、入力されたキーワードに対して記
憶されたキーワード中から類似するキーワードを検出す
る類似キーワード検出手段を設けた。
この場合、キーワードの構成単語の比較により類似する
キーワードを検出する類似キーワード検出手段とし、又
は、キーワードの構成単語と構成単語の性質と構成位置
とに基づき類似するキーワードを検出する類似キーワー
ド検出手段とした。
作用 キーワード入力時に類似キーワード検出手段により登録
済みのキーワード中から類似するキーワードが検出され
るので、入力キーワードを適切に訂正でき、検索漏れや
登録単位の違いによる検索漏れを防ぐことができる。
特に、キーワードの構成単語の比較によれば、入力キー
ワードと登録済みキーワードとの登録単位、長さ、順序
に関係なく類似するキーワードを抽出でき、より適切な
キーワードの訂正入力が可能となる。
これは、構成単語の比較のみならず、構成単語の性質と
構成位置も考慮することにより、より適切な類似判断と
なり、適切なキーワード訂正入力が可能となる。
実施例 本発明の一実施例を図面に基づいて説明する。
第2図はキーワードにより検索を行う文書検索システム
の構成を示すもので、文書情報を格納した文書ファイル
lと、登録又は検索のためにキーワードを入力する入力
部2と、文書情報に関連付けてキーワードを付与するキ
ーワード登録部3と、入力されたキーワードに基づいて
文書ファイル1から文書情報を検索する検索部4とより
なる。
前記文書ファイル1にはキーワード登録部3によって文
書に付けられたキーワードリスト5がある。キーワード
リスト5は文書ファイルlに登録された文書に関連付け
て登録されたキーワードのリストであり、例えば第3図
に示すようなものである。ここに、キーワードは単語分
割され、各単語にその構成位置を考慮した評価値が付与
されている。
しかして、本実施例では、検索部4中に類似キーワード
検出部(類似キーワード検出手段)6が設けられている
。この類似キーワード検出部6は、例えば第1図に示す
ようにキーワード単語分割部7と構成単語比較部8と類
似度算出部9と類似キーワード抽出部10とよりなる。
まず、入力されたキーワードはキーワード単語分割部7
により単語辞書l]を用いて構成単語に分割され、構成
単語の位置に応じた評価値が付与される。このため、単
語辞書11は第4図しこ示すように、単語表記と類似度
を算出するための語毎の評価値を格納したものである。
評価値はその語の構成位置、即ち、複合語の末に位置下
るときと(後)、そうでないとき(前)とで、数値を変
えである。また、キーワードとして本質的でない語(例
えば、「高速」)には低い評価値が付与されている。つ
いで、このように分割された構成単語を基に構成単語比
較部8でキーワードリスト5中に登録済みのキーワード
構成単語と比較される。さらには、類似度算出部9で入
力キーワードとキーワードリスト5中のキーワードとの
各構成単語との類似度を、付与された評価値を用いて算
出する。即ち、各構成単語が一致していれば評価値を加
算し、所定の評価式に基づき算出する。このように算出
された類似度が所定値以上のものを類似キーワード抽出
部10により類似キーワードと判定して抽出する。
いま、具体例をもって類似キーワードの抽出を説明する
具体例1 人力キーワードを「高速画像処理プロセッサー」とする
。まず、単語辞書11を用いて単語分割すると、構成単
語の区切りは「高速 画像 処理プロセッサー」で、各
々の評価値はOll、0゜5.0.5となる。ついで、
キーワードリスト5中の語と比較する。すると、「画像
 処理 プロセッサー」は全て一致している。また、類
似度算出部9では評価式を、例えば(一致した語の評価
値の和)/(各単語の評価値の和)とすると、4/4で
1となる。また、「高速1移動lシステム」は一致する
語が「高速」だけであり、評価値が0なので、類似度は
Oとなる。類似キーワード抽出部1oでは評価値からあ
る一定値のものだけを類似キーワードとして抽出する。
ここでは、閾値を0.8とすると、[画像処理プロセッ
サー」が類似キーワードとして抽出される。
具体例2 人力キーワードを「画像プロセッサー」とする。
まず、単語辞書11を用いて単語分割すると、構成単語
の区切りは[画像1プロセツサー」で、各々の評価値は
l、0.5となる。ついで、キーワードリスト55中の
語と比較する。すると、[画像1処理1プロセツサーJ
は「画像」と「プロセッサーJとが一致している。また
、類似度算出部9では前述した評価式により3/3.5
で0. 85となる6類似キ一ワード抽出部10では閾
値0゜8以上である[画像処理プロセッサー」を類似キ
ーワードとして抽出する。
何れにしても、入力キーワードに対して類似するキーワ
ードが検出されるので、ユーザとしては登録されている
キーワードの状態に適切に訂正することかできる。
発明の効果 本発明は、上述したようにキーワード入力時に類似キー
ワード検8手段により登録済みのキーワード中から類似
するキーワードを検出するようにしたので、入力キーワ
ードを適切に訂正でき、検索漏れや登録単位の違いによ
る影響を防ぐことができ、特に、キーワードの構成単語
の比較を行う類似キーワード検出手段によれば、入力キ
ーワードと登録済みキーワードとの登録単位、長さ、順
序に関係なく類似するキーワードを抽出でき、よi)適
切なキーワードの訂正入力が可能となり、また、構成単
語の比較のみならず、構成単語の性質と構成位置も考慮
する類似キーワード検出手段によれば、より適切な類似
判断となり、適切なキーワード訂正入力が可能となるも
のである。
【図面の簡単な説明】
図面は本発明の一実施例を示すもので、第1図は類似キ
ーワード検出部の構成を示すブロック図、第2図は検索
装置全体の構成を示すブロック図、第3図はキーワード
リストの構造図、第4図は単語辞書の構造図である。 6・・・類似キーワード検出手段

Claims (1)

  1. 【特許請求の範囲】 1、文書ファイルに文書情報を登録する際に前記文書に
    キーワードを関連付けて記憶させ、関連するキーワード
    を指定することにより登録した情報を検索するようにし
    た文書検索装置において、入力されたキーワードに対し
    て記憶されたキーワード中から類似するキーワードを検
    出する類似キーワード検出手段を設けたことを特徴とす
    る文書検索装置。 2、キーワードの構成単語の比較により類似するキーワ
    ードを検出する類似キーワード検出手段としたことを特
    徴とする請求項1記載の文書検索装置。 3、キーワードの構成単語と構成単語の性質と構成位置
    とに基づき類似するキーワードを検出する類似キーワー
    ド検出手段としたことを特徴とする請求項1記載の文書
    検索装置。
JP2211179A 1990-08-08 1990-08-08 文書検索装置 Expired - Fee Related JP2935877B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2211179A JP2935877B2 (ja) 1990-08-08 1990-08-08 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2211179A JP2935877B2 (ja) 1990-08-08 1990-08-08 文書検索装置

Publications (2)

Publication Number Publication Date
JPH0496176A true JPH0496176A (ja) 1992-03-27
JP2935877B2 JP2935877B2 (ja) 1999-08-16

Family

ID=16601723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2211179A Expired - Fee Related JP2935877B2 (ja) 1990-08-08 1990-08-08 文書検索装置

Country Status (1)

Country Link
JP (1) JP2935877B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765193B2 (en) 2004-03-15 2010-07-27 Ricoh Company, Ltd. Control of document disclosure according to affiliation or document type
JP2012527028A (ja) * 2009-05-12 2012-11-01 アリババ グループ ホールディング リミテッド 検索方法、装置およびシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH02129756A (ja) * 1988-11-10 1990-05-17 Nippon Telegr & Teleph Corp <Ntt> 単語照合装置
JPH02158873A (ja) * 1988-12-12 1990-06-19 Ricoh Co Ltd キーワード・マッチング装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH02129756A (ja) * 1988-11-10 1990-05-17 Nippon Telegr & Teleph Corp <Ntt> 単語照合装置
JPH02158873A (ja) * 1988-12-12 1990-06-19 Ricoh Co Ltd キーワード・マッチング装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765193B2 (en) 2004-03-15 2010-07-27 Ricoh Company, Ltd. Control of document disclosure according to affiliation or document type
JP2012527028A (ja) * 2009-05-12 2012-11-01 アリババ グループ ホールディング リミテッド 検索方法、装置およびシステム
US9576054B2 (en) 2009-05-12 2017-02-21 Alibaba Group Holding Limited Search method, apparatus and system based on rewritten search term

Also Published As

Publication number Publication date
JP2935877B2 (ja) 1999-08-16

Similar Documents

Publication Publication Date Title
JP3041268B2 (ja) 中国語誤り検査(cec)システム
US8855998B2 (en) Parsing culturally diverse names
US5701469A (en) Method and system for generating accurate search results using a content-index
US20080065607A1 (en) System and Method for Building and Retrieving a Full Text Index
US20140298168A1 (en) System and method for spelling correction of misspelled keyword
JPH09198398A (ja) パターン検索装置
JP3803219B2 (ja) 全文検索装置及び全文検索方法
JPH0496176A (ja) 文書検索装置
JPH08314947A (ja) キーワード自動抽出装置
JPH06325091A (ja) 類似度評価型データベース検索装置
JPH03116376A (ja) キーワード・マッチング装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH03127176A (ja) キーワード抽出装置
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
US12093292B2 (en) Document retrieval device
JP2013196091A (ja) データ修正装置
JPH05128159A (ja) キーワード抽出方法及び装置
JP3241854B2 (ja) 単語スペル自動補正装置
JPH0736926A (ja) 不完全文字列と文字列の照合方法および装置
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH01193928A (ja) 推論機構付き情報検索システム
JPH06195390A (ja) 日本語情報検索法及びそのための日本語情報蓄積法
JPH05189485A (ja) キーワード検索方式
JP3123181B2 (ja) 文字認識装置
JPS59221732A (ja) カナ漢字変換処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees