JP2935877B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP2935877B2
JP2935877B2 JP2211179A JP21117990A JP2935877B2 JP 2935877 B2 JP2935877 B2 JP 2935877B2 JP 2211179 A JP2211179 A JP 2211179A JP 21117990 A JP21117990 A JP 21117990A JP 2935877 B2 JP2935877 B2 JP 2935877B2
Authority
JP
Japan
Prior art keywords
keyword
word
constituent
document
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2211179A
Other languages
English (en)
Other versions
JPH0496176A (ja
Inventor
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2211179A priority Critical patent/JP2935877B2/ja
Publication of JPH0496176A publication Critical patent/JPH0496176A/ja
Application granted granted Critical
Publication of JP2935877B2 publication Critical patent/JP2935877B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文書や画像などの情報を自由キーワードと
対応して蓄積しておき、自由キーワードを指定すること
により、必要な情報を取り出すようにした文書検索装置
に関する。
従来の技術 大量の情報から希望する情報を検索する場合、予め個
々の情報に対してキーワードを付与しておき、検索時に
キーワードを指定してそのキーワードと一致する語をキ
ーワードとする情報を取り出してくる方法が一般的であ
る。キーワード付与については、予めキーワードを指定
しておく統制キーワード方式と、キーワードを前もって
指定せずに登録したい情報に自由に付与する自由キーワ
ード方式とがある。自由キーワード方式の場合、情報を
取り出す時に指定するキーワードと情報に既に付いてい
るキーワードとの登録の仕方の違いから、欲しい文書を
取り出すことができないことがある。これは、個人で使
用する場合もさることながら、複数の人間によって使用
される場合には顕著である。
このような点を改良したものとして、例えば特開昭62
−247462号公報に示されるものがある。これは、登録・
検索時に入力されたキーワードが既に記憶されているキ
ーワードの部分連糸である場合にそれを抽出し、ソーテ
ィングして表示させるようにしたものである。これによ
れば、部分連糸である場合には抽出され、ユーザは抽出
結果に基づき、キーワードを訂正することでキーワード
のばらつきを防ぐことができる。しかし、指定キーワー
ドが部分連糸でなければ検出されない。例えば、「高速
画像処理プロセッサー」と入力した場合、記憶済みのキ
ーワードに「画像処理プロセッサー」があっても検出さ
れないことになる。つまり、入力キーワードの登録単位
がより短くないと検出できないものである。また、単に
部分連糸の一致によるので、構成単語の順番が違う場合
も検出できない。
また、登録の違いによる検索漏れはキーワードが複合
語である場合に起こりやすい。これは、複合語が漢字、
片仮名、英字を比較的自由に組合せたものであり、同じ
ような意味のことを表現するにもその組合せの順番や構
成単語に若干の違いを生ずることが多い。このような複
合語などの登録単位の違いによる検索漏れを解消するた
めに、キーワード登録時に複合語の部分文字列も同様に
キーワードとして登録するようにしたものが情報処理学
会第35回(昭和62年後期)全国大会の論文集中の「日本
語文章からのキーワード自動抽出」(p.1277〜1278)に
より報告されている。これは、複合語の構成単語を組合
せて複合語を生成するものである。この方法によれば、
登録単位の違いによる検索漏れをかなり解消し得るもの
の、逆に、新たに生成した複合語によって、本来欲しい
と思う文書以外のものが検索されてしまうというノイズ
が増える。例えば、「高速マイクロプロセッサー」とい
うキーワードを指定すると「高速」という語もキーワー
ドとして登録され、他の文書で「高速」を含む語をキー
ワードとしている場合(例えば、「高速移動装置」や
「高速ミニコンピュータ」などの語)は、これも検索さ
れてしまう。
発明が解決しようとする課題 即ち、従来方式によると、登録単位の違いにより検索
できないことがある。また、登録単位の違いを部分文字
列の一致で検出するものでは、入力キーワードのほうが
短い場合でないと検出できず、かつ、構成順序が同じで
ないと検出できない。一方、登録単位の違いを解消する
部分単語により生成した複合語キーワードでは所望の文
書以外のものも取り出してしまい、ノイズが増え、適合
率を下げる一因となる。
課題を解決するための手段 文書ファイルに文書情報を登録する際に前記文書ファ
イルにキーワードを関連付けて記憶させ、関連するキー
ワードを指定することにより登録した情報を検索するよ
うにした文書検索装置において、 文書に関連付けられたキーワードからなり、各キーワ
ードは構成単語に分割され、この各構成単語には評価値
を付与してなるキーワードリストと、 少なくとも単語の表記とその単語がキーワードの構成
要素であるときキーワードの構成位置又はキーワードの
本質的な構成要素となるかどうかに応じた重みをあらわ
す評価値とを記憶した単語辞書と、 この単語辞書を用いて、指定されたキーワードを構成
単語に分割し、各構成単語が該キーワードのどの位置に
あるかをもとに該構成単語の評価値を決定するキーワー
ド単語分割部と、 該キーワード単語分割部によって得た構成単語と前記
文書に付与されているキーワードリストの構成単語とを
比較する構成単語比較部と、 前記構成単語比較部の比較で用いた指定されたキーワ
ードと文書に付与されたキーワードリストの中のキーワ
ードとの各構成単語の評価値と、一致した構成単語の評
価値とから類似度を計算する類似度算出部と、 を備え、前記類似度算出部で計算された類似度があらか
じめ与えられた閾値より大きい場合、該文書は指定され
たキーワードを有するものとするようにした。
作用 キーワード入力時に類似キーワード検出手段により登
録済みのキーワード中から類似するキーワードが検出さ
れるので、入力キーワードを適切に訂正でき、検索漏れ
や登録単位の違いによる検索漏れを防ぐことができる。
特に、キーワードの構成単語の比較によれば、入力キ
ーワードと登録済みキーワードとの登録単位、長さ、順
序に関係なく類似するキーワードを抽出でき、より適切
なキーワードの訂正入力が可能となる。
これは、構成単語の比較のみならず、構成単語の性質
と構成位置も考慮することにより、より適切な類似判断
となり、適切なキーワード訂正入力が可能となる。
実施例 本発明の一実施例を図面に基づいて説明する。第2図
はキーワードにより検索を行う文書検索システムの構成
を示すもので、文書情報を格納した文書ファイル1と、
登録又は検索のためにキーワードを入力する入力部2
と、文書情報に関連付けてキーワードを付与するキーワ
ード登録部3と、入力されたキーワードに基づいて文書
ファイル1から文書情報を検索する検索部4とよりな
る。
前記文書ファイル1にはキーワード登録部3によって
文書に付けられたキーワードリスト5がある。キーワー
ドリスト5は文書ファイル1に登録された文書に関連付
けて登録されたキーワードのリストであり、例えば第3
図に示すようなものである。ここに、キーワードは単語
分割され、各単語にその構成位置を考慮した評価値が付
与されている。
しかして、本実施例では、検索部4中に類似キーワー
ド検出部(類似キーワード検出手段)6が設けられてい
る。この類似キーワード検出部6は、例えば第1図に示
すようにキーワード単語分割部7と構成単語比較部8と
類似度算出部9と類似キーワード抽出部10とよりなる。
まず、入力されたキーワードはキーワード単語分割部7
により単語辞書11を用いて構成単語に分割され、構成単
語の位置に応じた評価値が付与される。このため、単語
辞書11は第4図に示すように、単語表記と類似度を算出
するための語毎の評価値を格納したものである。評価値
はその語の構成位置、即ち、複合語の末に位置するとき
と(後)、そうでないとき(前)とで、数値を変えてあ
る。また、キーワードとして本質的でない語(例えば、
「高速」)には低い評価値が付与されている。ついで、
このように分割された構成単語を基に構成単語比較部8
でキーワードリスト5中に登録済みのキーワード構成単
語と比較される。さらには、類似度算出部9で入力キー
ワードとキーワードリスト5中のキーワードとの各構成
単語との類似度を、付与された評価値を用いて算出す
る。即ち、各構成単語が一致していれば評価値を加算
し、所定の評価式に基づき算出する。このように算出さ
れた類似度が所定値以上のものを類似キーワード抽出部
10により類似キーワードと判定して抽出する。
いま、具体例をもって類似キーワードの抽出を説明す
る。
具体例1 入力キーワードを「高速画像処理プロセッサー」とす
る。まず、単語辞書11を用いて単語分割すると、構成単
語の区切りは「高速|画像|処理|プロセッサー」で、
各々の評価値は0、1、0.5、0.5となる。ついで、キー
ワードリスト5中の語と比較する。すると、「画像|処
理|プロセッサー」は全て一致している。また、類似度
算出部9では評価式を、例えば(一致した語の評価値の
和)/(各単語の評価値の和)とすると、4/4で1とな
る。また、「高速|移動|システム」は一致する語が
「高速」だけであり、評価値が0なので、類似度は0と
なる。類似キーワード抽出部10では評価値からある一定
値のものだけを類似キーワードとして抽出する。ここで
は、閾値を0.8とすると、「画像処理プロセッサー」が
類似キーワードとして抽出される。
具体例2 入力キーワードを「画像プロセッサー」とする。ま
ず、単語辞書11を用いて単語分割すると、構成単語の区
切りは「画像|プロセッサー」で、各々の評価値は1、
0.5となる。ついで、キーワードリスト55中の語と比較
する。すると、「画像|処理|プロセッサー」は「画
像」と「プロセッサー」とが一致している。また、類似
度算出部9では前述した評価式により3/3.5で0.85とな
る。類似キーワード抽出部10では閾値0.8以上である
「画像処理プロセッサー」を類似キーワードとして抽出
する。
何れにしても、入力キーワードに対して類似するキー
ワードが検出されるので、ユーザとしては登録されてい
るキーワードの状態に適切に訂正することができる。
発明の効果 本発明は、上述したようにキーワード入力時に類似キ
ーワード検出手段により登録済みのキーワード中から類
似するキーワードを検出するようにしたので、入力キー
ワードを適切に訂正でき、検索漏れや登録単位の違いに
よる影響を防ぐことができ、特に、キーワードの構成単
語の比較を行う類似キーワード検出手段によれば、入力
キーワードと登録済みキーワードとの登録単位、長さ、
順序に関係なく類似するキーワードを抽出でき、より適
切なキーワードの訂正入力が可能となるものである。
【図面の簡単な説明】
図面は本発明の一実施例を示すもので、第1図は類似キ
ーワード検出部の構成を示すブロック図、第2図は検索
装置全体の構成を示すブロック図、第3図はキーワード
リストの構造図、第4図は単語辞書の構造図である。 6……類似キーワード検出手段

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書ファイルに文書情報を登録する際に前
    記文書ファイルにキーワードを関連付けて記憶させ、関
    連するキーワードを指定することにより登録した情報を
    検索するようにした文書検索装置において、 文書に関連付けられたキーワードからなり、各キーワー
    ドは構成単語に分割され、この各構成単語には評価値を
    付与してなるキーワードリストと、 少なくとも単語の表記とその単語がキーワードの構成要
    素であるときキーワードの構成位置又はキーワードの本
    質的な構成要素となるかどうかに応じた重みをあらわす
    評価値とを記憶した単語辞書と、 この単語辞書を用いて、指定されたキーワードを構成単
    語に分割し、各構成単語が該キーワードのどの位置にあ
    るかをもとに該構成単語の評価値を決定するキーワード
    単語分割部と、 該キーワード単語分割部によって得た構成単語と前記文
    書に付与されているキーワードリストの構成単語とを比
    較する構成単語比較部と、 前記構成単語比較部の比較で用いた指定されたキーワー
    ドと文書に付与されたキーワードリストの中のキーワー
    ドとの各構成単語の評価値と、一致した構成単語の評価
    値とから類似度を計算する類似度算出部と、 を備え、前記類似度算出部で計算された類似度があらか
    じめ与えられた閾値より大きい場合、該文書は指定され
    たキーワードを有するものとすることを特徴とする文書
    検索装置。
JP2211179A 1990-08-08 1990-08-08 文書検索装置 Expired - Fee Related JP2935877B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2211179A JP2935877B2 (ja) 1990-08-08 1990-08-08 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2211179A JP2935877B2 (ja) 1990-08-08 1990-08-08 文書検索装置

Publications (2)

Publication Number Publication Date
JPH0496176A JPH0496176A (ja) 1992-03-27
JP2935877B2 true JP2935877B2 (ja) 1999-08-16

Family

ID=16601723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2211179A Expired - Fee Related JP2935877B2 (ja) 1990-08-08 1990-08-08 文書検索装置

Country Status (1)

Country Link
JP (1) JP2935877B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005259015A (ja) 2004-03-15 2005-09-22 Ricoh Co Ltd 文書開示装置、文書開示システム、プログラム及び記憶媒体
CN101887436B (zh) 2009-05-12 2013-08-21 阿里巴巴集团控股有限公司 一种检索方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217623A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> キーワード自動生成装置
JPH02129756A (ja) * 1988-11-10 1990-05-17 Nippon Telegr & Teleph Corp <Ntt> 単語照合装置
JPH02158873A (ja) * 1988-12-12 1990-06-19 Ricoh Co Ltd キーワード・マッチング装置

Also Published As

Publication number Publication date
JPH0496176A (ja) 1992-03-27

Similar Documents

Publication Publication Date Title
US7752193B2 (en) System and method for building and retrieving a full text index
JP3041268B2 (ja) 中国語誤り検査(cec)システム
JPH09198398A (ja) パターン検索装置
US8645363B2 (en) Spreading comments to other documents
US20130185284A1 (en) Grouping search results into a profile page
JP2935877B2 (ja) 文書検索装置
US11755659B2 (en) Document search device, document search program, and document search method
JP5443788B2 (ja) 正式名称判定システム及び正式名称判定プログラム
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
CN107577657B (zh) 邮箱作者对应方法和装置
JPH06325091A (ja) 類似度評価型データベース検索装置
JP3464055B2 (ja) キーワード抽出装置
JP3371983B2 (ja) 不完全文字列と文字列の照合方法および装置
JP4281899B2 (ja) 質問文書要約装置、質問応答検索装置、質問文書要約プログラム
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
Muliadi et al. Comparison of String Similarity Algorithm in post-processing OCR
JP3350127B2 (ja) 文字認識装置
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH03116376A (ja) キーワード・マッチング装置
JPH03127176A (ja) キーワード抽出装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JPH05128159A (ja) キーワード抽出方法及び装置
US20230096564A1 (en) Chunking execution system, chunking execution method, and information storage medium
JP3241854B2 (ja) 単語スペル自動補正装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees