JPH0232469A - 情報検索方式 - Google Patents

情報検索方式

Info

Publication number
JPH0232469A
JPH0232469A JP63181608A JP18160888A JPH0232469A JP H0232469 A JPH0232469 A JP H0232469A JP 63181608 A JP63181608 A JP 63181608A JP 18160888 A JP18160888 A JP 18160888A JP H0232469 A JPH0232469 A JP H0232469A
Authority
JP
Japan
Prior art keywords
information
clause
sequence
key word
modifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63181608A
Other languages
English (en)
Inventor
Kiyoshi Kabetani
壁谷 喜義
Hiroto Inagaki
博人 稲垣
Fumihiko Kobashi
小橋 史彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63181608A priority Critical patent/JPH0232469A/ja
Publication of JPH0232469A publication Critical patent/JPH0232469A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、文章情報を検索対象とした情報検索方式に
関するものである。
〔従来の技術〕
企業における情報活動を効率よく行うためには、収集さ
れた情報を目的に応じて的確に検索することが必要であ
る。
従来、文書自動分類・検索の立場から種々のアプローチ
がなされている。
漢字の頻度情報をもとに日本語の科学技術文献を分類す
る方法が細野ら(細野、後藤、守屋、原田、諸橋、梅田
:漢字の出現頻度情報を用いた日本語文献の自動分類、
情報処理学会自然言語処理研究会、47−7.1985
.1)により提案されている。まず、J I CST理
工学文献ファイルのうち、電気工掌編の論文スタイルか
ら述べ25万字の漢字を抽出し、各分野(12分野)ご
との漢字の出現率を求めている。第3図に求めた漢字の
出現率の一部を示す。次に、各分野ごとに45文献ずつ
、計540文献を実験データとし、タイトルの漢字の累
積出現率が最も高くなる分野に文献を分類する。第4図
に分類実験の結果を示す。
さらに、カタカナ例については、単語単位の分野別精度
を加味したものを漢字と同様な方法で求め、漢字とカタ
カナを併用した場合に、1200文献で実験した結果、
約54%の分類精度を得ている。
別の方法として、新聞記事の階層構造を積極的に利用す
ることにより、キーワードとテーマの両観点から記事を
分類・検索する方法が藤崎ら(藤崎、亀田、河井:新間
記事情報の階層構造に基づく記事分類・検索システム、
情報処理学会自然言語処理研究会、44−4.1984
.7)により提案されている。第5図に示す通り、新聞
記事の情報構造をテーマ、キー概念、キーワード、記事
、出来事の5階層で構成する。
第6図に記事分類・検索システムの処理の流れを示す。
まず、あらかじめ人間により分類されているデータに対
して各テーマごとにキーワード候補の自動抽出を行い、
次いでキーワードとキー概念を決定し、これらに基づい
て「テーマ・キー概念の対応表」および「キー概念・キ
ーワードの対応表」を人手で作成する。次に、入力記事
データに対してそれがどのテーマに属しているかを判定
するため、各データごとにそのテーマに関するキー概念
を「テーマ・キー概念の対応表」を利用して取り出し、
そのキー概念を「キー概念・キーワードの対応表」を利
用してキーワードに変更し、最後にこれらのキーワード
が記事文中に含まれているか否かを文字列照合によりチ
エツクする。
また、他の方法として、単語の出現頻度を利用した方法
が竹内ら(行内、岩坪、西野:判別分析による文献の自
動分類、情報処理学会第30口金国大会、5G−8,1
985,3)により提案されている。
〔発明が解決しようとする課題〕
上述した細野らの方法では、漢字およびカタカナの出現
率という簡易な手法で自動分類しようとするものである
が、12分類という少ない分類数にもかかわらず、十分
な精度を得るに至っていない。
藤崎らの方法は、従来のキーワードによる分類をより高
度化しようとするものと言えるが、「テーマ・キー概念
の対応表」および「キー概念・キーワードの対応表」の
作成に膨大な作業が必要となり機械化が困難なこと、ま
たそれでも精度が十分ではない。
また、竹内らの方法では、特別な辞書を必要とせず、与
えられた文献データだけから必要な情報を抽出し、文献
を自動分類できるものであるが、分類数を増加すると急
激に精度が悪くなることが予想される。
そして、情報検索の立場から現在の文章情報データベー
スをみると、各文章データに付与されているキーワード
には重み付けがなされておらず、キーワードの数も少な
いため、検索要求に適合する情報のみを漏れなく抽出し
、かつより適合する文章情報から順次出力することがで
きないという欠点がある。
この発明は、上記の問題点を解決するためになされたも
ので、効率的で、適確な検索ができる情報検索方式を提
供することを目的とする。
〔課題を解決するための手段〕
この発明は、検索対象文章の係り受け解析結果から得ら
れる係り受け構造の深さにより重み付けされたキーワー
ドと、検索要求に含まれる語との一致回数に重み係数を
かけた値の大きい文章情報を適合文章として出力するよ
うにしたものである。このとき、適合文章を一致回数に
重み係数をかけた値の大きい順序に並びかえて出力する
ようにしてもよい。
〔作用〕
この発明においては、検索要求をキーワード論理式また
は自然言語文により入力すると、適合文章が出力される
さらに、出力される適合文章は、順序付けされて出力さ
れる。
〔実施例〕 以下、この発明の一実施例を図面について説明する。
第1図は、特許文を対象に係り受け解析(例えば、稲垣
、小橋:係り受け解析方法、特願昭62−173011
号)によって得られた係り文節と受け文節の関係を階層
的に表示した例を示す。第1図において、受け文節は対
応する係り文節のすぐ右側のレベルに位置しており、係
りが深いほど受け文節は右寄りのレベルに位置する。ま
た、同一文節を受ける複数の係り文節(第1図では、例
えば「対応する」 「表示画面上の」はともに「位置と
」に係る)または、並列文節(同図では、例えば「文章
情報記憶手段」 「範囲指定手段」 「かな列抽出手段
」 「かな漢字変換手段」 「表示手段」)は同一レベ
ルに位置する。
ここで得られた文章の階層表示から、キーワードとなり
得ないストップワードを取り除いた各自立語に対して、
右側のレベルにある文節中の自立語はど高く、左側のレ
ベルにある文節中の自立語はど低い重みを付与したキー
ワードとして抽出する。自立語Tに対する重み係数をW
 (T)とすると第1図の例では、W(日本語入力装置
)>W(文章情報記録)=W(範囲指定)=W(かな列
抽出)=W(かな漢字変換) =W (表示)・・・な
る大小関係よりなる重み係数が付与される。具体的な重
みの値は、階層化レベルの幅1文章の長さなどを考慮し
て適宜室める。なお、「手段」「及び」 「備えたこと
を」 「特徴とする」などはストップワードである。
以上により付与された重み付きキーワードを用いた情報
検索手順を以降で説明する。
いま、「子音キー」 「母音キー」 「配置」 「日本
語人力」 「キーボード」を検索要求キーワードとして
適合する特許を検索する。第2図(a)。
(b)、(c)は検索された類似特許3件の階層表示例
を示す。下線を付した語は重み付きキーワードを示す。
ここでストップワードを含む文節は、独立した階層をも
たず、キーワードを含む前後の文節に接続した。
検索要求キーワードと対象文章内の重み付きキーワード
の一致回数に重み係数をかけた値は、第2図の3件につ
いて(1)= (2)> (3)の順序となる。第2図
(a)〜(C)で二重下線で示した語が検索要求と一致
した語である。ここで検索要求中のキーワード「キーボ
ード」に対してはその同義語「鍵盤」 「けん盤」も含
めて照合する。また、対象文章中に同一キーワードが複
数出現する場合は、その最も重み係数の大きい(最も右
側に出現する)語のみを対象とする。
以上の処理により、前記検索要求に適合する特許は第2
図(a)、(b)、(c)の3件については、(a)、
(b)、(c)の順序に出力される。ここで示した例は
、類似特許3件のみの例であるが一般には大量のデータ
が適合度合に応じて順次付けされた出力される。
なお、この発明は文書自動分類にも適用可能であること
は言うまでもない。また、上記実施例では自然言語文に
より入力した場合を示したが、この他キーワード論理、
例えば「母音キー」 「配置」 「日本語入力」等のキ
ーワードのオアやアンドを入力するようにしてもよい。
(発明の効果) この発明は以上説明した通り、検索対象文章の係り受け
解析結果から得られる係り受け構造の深さにより重み付
けされたキーワードと、検索要求に含まれる語との一致
回数に重み係数をかけた値の大きい順序に並べて出力す
ることにより、検索要求に適合する情報を重要度順に得
ることができ、大量の検索結果のチエツクの効率化が計
れるという利点がある。
また、係り受け解析によりキーワードを抽出することに
より、入手により抽出するキーワードに比べて質の高い
・均一化したキーワードが多く抽出されるため、検索要
求に対して適合する情報を漏れなく的確に出力できると
いう利点がある。
【図面の簡単な説明】
第1図はこの発明なる検索方法で用いる係りと受けの階
層関係を表示した例を示す図、第2図(a)、(b)、
(C)は重み付きキーワードの一致回数により検索要求
と適合した対象文章の階層表示結果を示す図、第3図は
従来の文書自動分類法により求めた漢字の出現率の一部
を示す図、第4図はその実験結果を示す図、第5図は従
来の別の文書自動分類法により求めた新聞記事の階層構
造分類を示す図、第6図はその記事分類・検索システム
を示す図である。 第5図 千−ワードの例 : 首相

Claims (2)

    【特許請求の範囲】
  1. (1)キーワード論理式または自然言語文により入力さ
    れた検索要求に適合する文章情報を検索する情報検索方
    式において、検索対象文章の係り受け解析結果から得ら
    れる係り受け構造の深さにより重み付けされたキーワー
    ドと、前記検索要求に含まれる語との一致回数に重み係
    数をかけた値の大きい文章情報を適合文章として出力す
    ることを特徴とする情報検索方式。
  2. (2)検索された適合文章を前記一致回数に前記重み係
    数をかけた値の大きい順序に並びかえて出力することを
    特徴とする請求項(1)に記載の情報検索方式。
JP63181608A 1988-07-22 1988-07-22 情報検索方式 Pending JPH0232469A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63181608A JPH0232469A (ja) 1988-07-22 1988-07-22 情報検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63181608A JPH0232469A (ja) 1988-07-22 1988-07-22 情報検索方式

Publications (1)

Publication Number Publication Date
JPH0232469A true JPH0232469A (ja) 1990-02-02

Family

ID=16103783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63181608A Pending JPH0232469A (ja) 1988-07-22 1988-07-22 情報検索方式

Country Status (1)

Country Link
JP (1) JPH0232469A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03263177A (ja) * 1990-03-13 1991-11-22 Pioneer Electron Corp 情報検索装置
JP2004030697A (ja) * 2003-10-14 2004-01-29 Fujitsu Ltd 文分類装置
US8375022B2 (en) 2010-11-02 2013-02-12 Hewlett-Packard Development Company, L.P. Keyword determination based on a weight of meaningfulness
US10380554B2 (en) 2012-06-20 2019-08-13 Hewlett-Packard Development Company, L.P. Extracting data from email attachments

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03263177A (ja) * 1990-03-13 1991-11-22 Pioneer Electron Corp 情報検索装置
JP2004030697A (ja) * 2003-10-14 2004-01-29 Fujitsu Ltd 文分類装置
US8375022B2 (en) 2010-11-02 2013-02-12 Hewlett-Packard Development Company, L.P. Keyword determination based on a weight of meaningfulness
US10380554B2 (en) 2012-06-20 2019-08-13 Hewlett-Packard Development Company, L.P. Extracting data from email attachments

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH0424869A (ja) 文書処理システム
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
Dahab et al. A comparative study on Arabic stemmers
Samir et al. Stemming and lemmatization for information retrieval systems in amazigh language
JP3596210B2 (ja) 関連語辞書作成装置
Subhashini et al. Shallow NLP techniques for noun phrase extraction
Kilgarriff Linguistic search engine
Thangarasu et al. Design and development of stemmer for Tamil language: cluster analysis
JPH0232469A (ja) 情報検索方式
Ali et al. Empirical evaluation of compounds indexing for turkish texts
JP5491446B2 (ja) 話題語獲得装置、方法、及びプログラム
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
Mukherjee et al. Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach
Al-Taani et al. Searching concepts and keywords in the Holy Quran
Al-Zoghby et al. Mining Arabic text using soft-matching association rules
Baisa et al. Turkic language support in Sketch Engine
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites
Bessou et al. An accuracy-enhanced stemming algorithm for Arabic information retrieval
JPS63228326A (ja) キ−ワ−ド自動抽出方式
Litkowski The Preposition Corpus in Sketch Engine
Yahia et al. An intelligent algorithm for Arabic soundex function using intuitionistic fuzzy logic
Kaur et al. Methods for key phrase extraction from documents
Sathianesan et al. Personalized semantic based blog retrieval
Futrelle et al. Corpus linguistics for establishing the natural language content of digital library documents