JPH03116377A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JPH03116377A
JPH03116377A JP1254578A JP25457889A JPH03116377A JP H03116377 A JPH03116377 A JP H03116377A JP 1254578 A JP1254578 A JP 1254578A JP 25457889 A JP25457889 A JP 25457889A JP H03116377 A JPH03116377 A JP H03116377A
Authority
JP
Japan
Prior art keywords
word
matching
keywords
keyword
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1254578A
Other languages
English (en)
Other versions
JP2872706B2 (ja
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1254578A priority Critical patent/JP2872706B2/ja
Publication of JPH03116377A publication Critical patent/JPH03116377A/ja
Application granted granted Critical
Publication of JP2872706B2 publication Critical patent/JP2872706B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、文書や画像などの情報をフリー・キーワード
と対応付けて蓄積させておき、フリー・キーワードの入
力により対応する情報を取り出すようなキーワード・マ
ツチング方式の情報検索装置に関する。
従来の技術 大量の情報から希望する情報を検索する場合、予め個々
の情報に対してキーワードを付けて蓄積しておき、検索
時にキーワードを入力し、これにマツチングするキーワ
ードを持つ情報を出力する、というのが−膜内である。
この方式はキーワードの与え方により2通りに分けられ
る。一つは、統制キーワード方式と称され、利用できる
キーワードを限定しておく方式である。もう一つは、フ
リー・キーワード方式と称され、利用できるキーワード
を限定しない方式である。両者には長所・短所が各々あ
るが、フリー・キーワード方式には入力したキーワード
と情報に付けられているキーワ−ドとのマツチングの問
題がある。
例えば、「公開特許情報」というキーワードが情報に付
けられていて、利用者が表記の異なる「公開特許」とい
うキーワードを入力した場合を考える。この場合、単純
に2つのキーワードが一致するかどうかを調べるだけで
はマツチングするとは判定できない。この問題を解決す
るために、従来、例えば「新聞記事データベースにおけ
るキーワード自動抽出」 (情報管理Vo1.32  
徹4゜July  1989)に示される方法がある。
この方法では、まず、登録すべきキーワードを単語に分
割し、隣合った複数の単語を組合せて新しい語を作成し
、それを登録する。例えば、あるキーワードがA、B、
C,Dの4つの単語からなっている場合、登録する語は
、 ABCD (即ち、そのキーワード自身)。
ABC,BCD、AB、BC,CD、A、B。
C,D の10個となる。具体的に、「公開特許情報」をキーワ
ードとする場合は、「公開特許情報」 「公開特許」 
「特許情報」 r公開」 「特許」 r情報」の6語を
登録する。こうしておけば、利用者が「公開特許」と検
索条件を指定してもマツチングをとることができる。
発明が解決しようとする課題 ところが、このような方法によっても、キーワードとし
て与えられた語に含まれない単語を含む語を利用者が指
定した場合にはマツチングをとることができない。例え
ば、「音声合成」というキーワードが登録されている文
書に対して、「音声合成システム」という検索条件を入
力した場合を考える。文書に登録されているのは「音声
合成j「音声」 「合成」の3語であり、「音声合成シ
ステム」に一致する語は登録されていない。従って、利
用者はこの文書を検索することができない。
このような場合、利用者のためには検索できたほうが望
ましいといえる。しかし、この場合でも、「音声合成シ
ステム」というキーワードが登録されている文書のほう
が、「音声合成」というキーワードが登録されている文
書よりも利用者の検索要求に近いと考えられることから
、検索要求に対する一致の度合いを表現するような指標
が必要といえる。
課題を解決するための手段 各々の単語にキーワードとしての重要性を表現する重み
値を付加して各単語を格納した単語辞書と、複合語によ
るキーワードを個々の構成単語に分割する複合語分割手
段と、2つのキーワードの一致度を双方の構成単語の数
、各構成単語の重み値及び一致する構成単語の数と位置
と順序の情報に基づいて算出する一致度算出手段と、所
定の閾値以上の一致度を持つキーワード同士をマツチン
グすると判定するマツチング判定手段とにより構成した
作用 2つのキーワード双方の構成単語の数、各構成単語のキ
ーワードとしての重要性を表現した重み値及び一致する
構成単語の数と位置と順序の情報に基づいて算出された
キーワード間の一致度により両者がマツチングするか判
定するので、文書に付けられているキーワードと検索要
求のキーワードとが全く同じ表記でなくても、特に、文
書に付けられたキーワードには含まれていない単語を含
む検索要求のキーワードであっても、一致単語の位置や
順序の他、単語のキーワードとしての重要性も考慮され
ているので、柔軟にして適切なマツチング判定が可能と
なる。よって、利用者は自分の検索したい語を検索要求
のキーワードとして入力するだけで済み、同じような語
をいくつも入力したり、ワイルド・カード文字を使った
りする必要のないものとなる。また、上記各情報に基づ
いて一致度を算出しているので、検索結果を一致度順に
並べて利用者に提示することも可能となる。
実施例 本発明の一実施例を図面に基づいて説明する。
本システムは、第1図に示すように、単語辞書lと、こ
の単語辞書1を用いて複合語を個々の構成単語に分割す
る複合語分割手段2と、分割結果を用いて2つのキーワ
ード間の一致度を後述するように算出する一致度算出手
段3と、算出された一致度を予め設定された所定の閾値
と比較してマツチングするか否かを判定するマツ、チン
グ判定手段4とよりなる。
まず、単語辞書1はキーワードとなり得る単語を格納し
た辞書であり、第2図に示すように各単語に対して表記
、品詞とともに重み値が記録されている。品詞には、名
詞、接頭辞、接尾辞の3種類がある。接頭辞は単独で用
いられることがなく必ず名詞か接頭辞が後続する。接尾
辞も単独で用いられることがなく、必ず名詞か接尾辞に
後続する。
重み値は、その単語が複合語中に出現したとき、その単
語の存在が複合語全体の意味にどの程度影響を与えるか
、即ち、キーワードとしての重要性を数値で表したもの
で、「1」と「0」との間の値、具体的にはrlJ  
ro、5J  roJなる3段階の数値をとる。重み値
=「1」はその単語が大きな影響を与えることを表し、
通常の名詞に付与される。重み値=「O」はその単語が
あってもなくても複合語全体の意味は全く変らず影響の
小さいことを表す。接辞もあまり重要性を持たないため
、重み値は中間のro、5Jとされている。また、この
ような重み値は、その単語の複合語内での出現位置によ
り重み値12重み値2の2種類が設定されている。重み
値2はその単語が複合語の末尾に出現した場合の重要性
を示すもので、重み値lは複合語内で末尾以外の位置に
出現した場合の重要性を示すものである。例えば、「情
報」の場合、名詞であり、通常は重み値=「l」である
が(重み値1の欄が該当する)、複合語の末尾に出現す
ると、重み値2の欄に示すように重み値;「0.5」に
重要性が減じられる。これは、例えば「映画情報」など
という場合は、「情報収集」などという語に比べて、「
情報」という単語が付加的な色合いが濃く、その存在が
複合語全体の意味に影響を与える度合いが少ないことを
反映したものであり、より適切な一致度算出に供される
次に、検索要求に含まれるキーワードなる複合語を複合
語分割手段2により単語単位に分割する。
この場合、分割すべき複合語の制限として、■ 複合語
の先頭は名詞が接頭辞である■ 複合語の末尾は名詞が
接尾辞である■ 接頭辞の直後には接尾辞が続かないと
いう規則がある。分割パターンが複数ある場合は、構成
単語数が最少となる分割パターンが採用される。また、
分割の際には、単語辞書1に記録されている重み値を複
合語内での単語の出現位置によって各単語に付与してお
く。
一致度算出手段3では、複合語分割手段2による分割結
果及び単語辞書lがら取出された重み値を用いて、2つ
のキーワードの一致度を算出する。
この場合、双方の構成単語の数、各々の構成単語の重み
値及び一致する構成単語の数と位置と順序の情報に基づ
いて算出される。2つのキーワードが完全に一致する場
合の一致度を「l」、全く一致しない場合の一致度をr
QJとする。
今、文書に付けられているキーワードをKW検索要求に
現れるキーワードをKW、とする。また、キーワードK
W、はm個の単語から構成され、キーワードKW、はn
個の単語から構成されているとする。iを単語の順序(
キーワードの末尾の単語を1番目として先頭側に数える
)、キーワードKW、の単語をWll、キーワードKW
、の単語をW、、とすると、各々のキーワードは次のよ
うに表せる。
K W+  =(J +m+ W’+ +、、−11+
  ”’ + w+ t r V”+ + )K We
 = (W*n+ Wm f−11+ ”’+ W**
+ W++ )また、キーワードKW、の単語W1.の
重み値をα1□とし、キーワードKW、の単I W t
 +の重み値をα、とする。
次に、各々の単語を比較し、互いに一致する単語の組の
数を数え、その数をCとする。ついで、一致した単語の
組の中で順位の逆転がないがどうかをチエツクする。順
位の逆転とは、Wl、とw、p%W1.とW、、が各々
一致したとすると、a ) b、がっ、p<q、又はa
 (b、かつ、p>qとなる場合である。順位の逆転が
あれば一致度をrQJとし、以降の処理は行わない。順
位の逆転がなければ、次式により一致度を計算する。
Σ α1 Σ αま ただし、jは互いに一致する単語の位置を表す。
例えば、キーワードKW、 が「音声合成」、キーワー
ドKW、が「音声合成システム」の場合の一致度を計算
する。m=2、n=3である。また、単語辞書1から、
「音声」と「合成」の重み値は何れも「1」、「システ
ム」は複合語の末尾にあり重み値がro、5Jであるこ
とが分かる。互いに一致する単語は、「音声」と「合成
」であるので、W、、とW l l、Wl、とW、とが
一致することになり、順位の逆転もない。従って、一致
度は、上式より、 (1+1)/ (1+1+0.5)
=0゜8となる。
マツチング判定手段4では一致度算出手段3により算出
された一致度が、ある一つのキーワードに対して予め定
められた閾値を越えると、もう一つのキーワードがマツ
チングすると判定する。例えば、一致度が0.7以上で
あればマツチすると判定するもので、上側のような「音
声合成システム」の場合もr音声合成Jにマツチすると
いう判定結果となる。
一致度の算出、閾値との比較・判定は全ての文書につい
て同様に行われる。最後に、マツチングした文書が、そ
の一致度の高い順に並べられ、利用者に提示される。
第3図はこのような処理の流れを示すフローチャートで
ある。
発明の効果 本発明は、上述したように構成し、2つのキーワード双
方の構成単語の数、各構成単語のキーワードとしての重
要性を表現した重み値及び一致する構成単語の数と位置
と順序の情報に基づいて算出されたキーワード間の一致
度により両者がマツチングするか判定するようにしたの
で、文書に付けられているキーワードと検索要求のキー
ワードとが全く同じ表記でなくても、特に、文書に付け
られたキーワードには含まれていない単語を含む検索要
求のキーワードであっても、一致単語の位置や順序の他
、単語のキーワードとしての重要性の考慮により、柔軟
にして適切なマツチング判定が可能となり、よって、利
用者は自分の検索したい語を入力するだけで済み、同じ
ような語をいくつも入力したり、ワイルド・カード文字
を使ったりするという煩わしさを要しないものとなり、
さらには、マツチング結果を一致度という数値で表現で
きるので、検索結果を一政変順に並べて利用者に分かり
やすく提示することも可能となるものである。
【図面の簡単な説明】
図面は本発明の一実施例を示し、第1図はブロック図、
第2図は単語辞書の構成図、第3図はフローチャートで
ある。

Claims (1)

    【特許請求の範囲】
  1. 各々の単語にキーワードとしての重要性を表現する重み
    値を付加して各単語を格納した単語辞書と、複合語によ
    るキーワードを個々の構成単語に分割する複合語分割手
    段と、2つのキーワードの一致度を双方の構成単語の数
    、各構成単語の重み値及び一致する構成単語の数と位置
    と順序の情報に基づいて算出する一致度算出手段と、所
    定の閾値以上の一致度を持つキーワード同士をマッチン
    グすると判定するマッチング判定手段とよりなることを
    特徴とする情報検索装置。
JP1254578A 1989-09-29 1989-09-29 情報検索装置 Expired - Lifetime JP2872706B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1254578A JP2872706B2 (ja) 1989-09-29 1989-09-29 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1254578A JP2872706B2 (ja) 1989-09-29 1989-09-29 情報検索装置

Publications (2)

Publication Number Publication Date
JPH03116377A true JPH03116377A (ja) 1991-05-17
JP2872706B2 JP2872706B2 (ja) 1999-03-24

Family

ID=17266986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1254578A Expired - Lifetime JP2872706B2 (ja) 1989-09-29 1989-09-29 情報検索装置

Country Status (1)

Country Link
JP (1) JP2872706B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635974A (ja) * 1992-07-16 1994-02-10 Sony Corp 単語検索装置
JPH06208588A (ja) * 1992-08-14 1994-07-26 Ricoh Co Ltd 文書検索方式
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0736926A (ja) * 1993-06-28 1995-02-07 Nippon Telegr & Teleph Corp <Ntt> 不完全文字列と文字列の照合方法および装置
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JP2003259243A (ja) * 2002-03-06 2003-09-12 Funai Electric Co Ltd 番組検索方法、ディジタルテレビ、ディジタル放送受信システム及びディジタル放送チューナ
JP2012059126A (ja) * 2010-09-10 2012-03-22 Mitsubishi Electric Corp 検索装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635974A (ja) * 1992-07-16 1994-02-10 Sony Corp 単語検索装置
JPH06208588A (ja) * 1992-08-14 1994-07-26 Ricoh Co Ltd 文書検索方式
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0736926A (ja) * 1993-06-28 1995-02-07 Nippon Telegr & Teleph Corp <Ntt> 不完全文字列と文字列の照合方法および装置
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JPH10134077A (ja) * 1996-11-05 1998-05-22 Tokkyo Joho Shuppan:Kk ワード処理システムおよび記憶媒体
JP2003259243A (ja) * 2002-03-06 2003-09-12 Funai Electric Co Ltd 番組検索方法、ディジタルテレビ、ディジタル放送受信システム及びディジタル放送チューナ
JP2012059126A (ja) * 2010-09-10 2012-03-22 Mitsubishi Electric Corp 検索装置

Also Published As

Publication number Publication date
JP2872706B2 (ja) 1999-03-24

Similar Documents

Publication Publication Date Title
US20190147000A1 (en) Systems and methods for performing search and retrieval of electronic documents using a big index
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
EP2643770A2 (en) Text segmentation with multiple granularity levels
EP2788896B1 (en) Fuzzy full text search
JPH03116377A (ja) 情報検索装置
EP1341098A2 (en) Getpage - Workload based Index Optimizer
JPH05151271A (ja) 情報検索装置
TWI480742B (zh) 基於動態語言模型之推薦方法與推薦系統
KR102150908B1 (ko) 자연어 질의해석 방법 및 시스템
US5742706A (en) Method and apparatus for comparison of data strings
US20220318318A1 (en) Systems and methods for automated information retrieval
JPH02158873A (ja) キーワード・マッチング装置
KR930000593B1 (ko) 입력문자열과 키워드와의 근사적 합치(Match)를 이용한 정보 검색 시스템 및 그 합치 방법
JP3418876B2 (ja) データ・ベース検索装置および方法
JPH08212234A (ja) データベース検索装置及びデータベース検索方法
KR102117281B1 (ko) 빈도 테이블을 이용한 챗봇 발언 생성 방법
JPH02129756A (ja) 単語照合装置
JP4281899B2 (ja) 質問文書要約装置、質問応答検索装置、質問文書要約プログラム
JP2732661B2 (ja) テキスト型データベース装置
JPH03116376A (ja) キーワード・マッチング装置
JPH03116375A (ja) 情報検索装置
Pawar et al. Extracting N-ary Cross-sentence Relations using Constrained Subsequence Kernel
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법
US20060129376A1 (en) Identifying a document&#39;s meaning by using how words influence and are influenced by one another
JPS59221732A (ja) カナ漢字変換処理装置