JPH03123971A - 索引付け支援装置 - Google Patents

索引付け支援装置

Info

Publication number
JPH03123971A
JPH03123971A JP1262499A JP26249989A JPH03123971A JP H03123971 A JPH03123971 A JP H03123971A JP 1262499 A JP1262499 A JP 1262499A JP 26249989 A JP26249989 A JP 26249989A JP H03123971 A JPH03123971 A JP H03123971A
Authority
JP
Japan
Prior art keywords
index
word
index word
extracted
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1262499A
Other languages
English (en)
Inventor
Tetsuya Morita
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1262499A priority Critical patent/JPH03123971A/ja
Publication of JPH03123971A publication Critical patent/JPH03123971A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、データベースに登録しようとする文献から自
動的に抽出された索引語の候補の中から、利用者が索引
語として適切と思われるものを選択し、その文献ととも
にデータベースに登録を行うようにした索引付は支援装
置に関する。
従来の技術 従来の文書検索装置では、多数の標準文書に対するイン
デックスファイルから索引語間の関連の強さを予め計算
しキーワードコネクションと呼ばれるキーワード集(索
引語集)を作成し、これを文書検索に適用するようにし
たものがある。しかし、多数の標準文書に対して適切な
索引付けを行うのは作業量的に大変である。
これに対して、自動索引付けの研究は、文献或いは文献
集合の内容をよく表現し、かつ、文献或いは文献集合間
の識別が十分に行える単語列を索例語として個々の文献
に付与することを目的としている。
例えば、文献■「自動索引付は研究の動向」(情報処理
学会誌、Vol、25.N19,1984)や、文献■
「日本語文献における重要語の自動抽出」 (情報処理
学会誌、Vol、17.No、2.1976)に示され
るように、IBM社のSTA I R8、米国DDCの
機械補助索引、J 、I C,S TのJAKAS、京
都大学のSMARTシステム等は、文献中から単語を切
り出し、不要語除去や文法規則等を適用して幾つかの索
引語候補を利用者に提示するシステムである。
第2図はこのような従来の自動索引抽出装置のシステム
構成を示すもので、文書ファイルlを索引自動抽出部2
により解析して索引語候補(抽出索引語)を自動抽出し
、その結果を結果表示・選択部3において利用者に対し
て表示させ、登録作業者に表示されている候補中から適
切と思われる索引語を選択させることにより、各文書に
対する索引付けを行い、データベースとしてインデック
スファイル4を作成するものである。
発明が解決しようとする課題 ところが、これらの従来システムでは、登録しようとす
る文献に付与できる索引語なる語句は、その文献内に現
れた語句のみである。厳密には、表記のゆれや同義語処
理によって文献内の索引語候補と同一でない表記のもの
が付与される場合もあるが、これらは同一語として認識
されて登録されるため、本質的には文献内の語句のみが
索引として付与されることには変りない。
このような限られた索引語の付与によると、検索時にも
これらの索引語を厳密に入力して検索しなければならず
、検索の再現率が低く、或いは検索洩れが多発しやすい
一因となる。
課題を解決するための手段 予め多数の標準文書から抽出された索引語を用いて算出
された各索引語間の関連の強さを各索引語とともに保持
したキーワードコネクションと、データベースに登録し
ようとする文献から抽出された抽出索引語に関連する関
連索引語を前記キーワードコネクションより検索し所定
の計算式によりその文献に対する関連索引語の重要度を
計算する関連索引語検索部と、結果表示・選択部とより
なり、抽出索引語と関連索引語の重要度とを結果表示・
選択部に表示させて、この結果表示・選択部により選択
された索引語を、登録しようとする前記文献とともに前
記データベースに格納させるように構成した。
作用 結果表示・選択部による索引語の選択時に、登録しよう
とする文献から抽出された抽出索引語とともに、関連索
引語検索部によりキーワードコネクションから検索され
た関連索引語がその重要度も表示されて選択に供される
ため、文献中以外の語句であっても関連するものを適宜
索引語としてその文献に付与してデータベース化させる
ことができる。よって、利用者は文献の持つ概念をより
適切に表現でき、文献検索に際しての索引語の選択の余
地が広がり、検索の再現率が向上するものとなる。特に
、関連索引語の重要度が表示されて選択に供されるので
、関連の大きい関連索引語について落ちのない登録が可
能となり、より適切な索引語付与ができる。よって、従
来方式では検索条件の不完全性により検索洩れとなって
いたような文献についても検索可能となる。
実施例 本発明の一実施例を第1図に基づいて説明する。
第2図で示した部分と同一部分は同一符号を用い、説明
も省略する。本実施例は、第2図のシステム構成に加え
、まず、既存の全ての索引語とともに、各索引語間の関
係の強さの情報を保持したキーワードコネクション5が
設けられている。このキ−ワードコネクション5なる知
識ベースの保持する関係の強さ、標準となる多数の文書
から抽出された索引語を用いて予め算出されたものであ
る。この場合の計算式は、例えば、W(i、j)を索引
語l+ Jの関連度(関係の強さ)、N(i、j)を索
引語’+Jを同時に含む文書数、N(i)を索引語lを
含む文書数とすると、 となる。即ち、索引語対(i、j)の同一文書における
同時出現頻度値を索引語l及びjの延べ出現頻度値で正
規化するものである。
また、索引自動抽出部2により文書ファイルを解析して
得られる索引語候補(抽出索引語)についてこのキーワ
ードコネクション5を参照して関連する関連索引語を検
索して所定の計算式によりその重要度を計算する関連索
引語抽出部6が設けられている。
このような構成において、登録すべき文書が索引自動抽
出部2に入ツノされると、形態素解析が行われ各文章が
単語単位に分割される。これらの単語群に対して表記の
ゆれの除去/同義語の統一表記への変換/不要語の除去
が行われ、索引語候補(抽出索引語)が生成される。つ
いで、関連索引語検索部6はキーワードコネクション5
を参照して、まず、抽出索引語に対して関連する関連索
弓語を検索する。ついで、キーワードコネクション5中
の関連の強さの情報を用いて、登録しようとする文書に
対するこれらの関連索引語の重要度を所定の計算式によ
り算出する。重要度は、例えば下記のような計算式によ
り求ぬれる。今、検索条件式に使用される索引語の集合
をQとすると、このQと任意の索引語iとの間の関係の
強さを示す重要度Rd(i、Q)は、 Rd(i、Q)=  Σ W(i、j)EQ により求められる。ここに、Σは索引語集合Qに含まれ
る全ての索引語JについてW(i、j)の総和を計算す
ることを意味する。また、和演算して一般化和演算を使
用する。即ち、aとbの一般化和は、a+b−a−bで
与えられる。
このような重要度の計算後、関連索引語について例えば
関速度順−覧が作成され、結果表示・選択部3では、抽
出索引語の一覧とと、もにこの関連索引語の関速度順−
覧が利用者に表示され、選択に供される。
発明の効果 本発明は、上述したように予め多数の標準文書からの抽
出索引語を用いて算出された各索引語間の関連の強さを
各索引語とともに保持したキーワードコネクションと、
データベースに登録しようとする文献からの抽出索引語
に関連する関連索引語をキーワードコネクションより検
索して所定の計算式によりその文献に対する関連索引語
の重要度を計算する関連索引語検索部と、結果表示・選
択部とを設けたので、結果表示・選択部による索引語の
選択時に、文献中からの抽出索引語とともに、関連索引
語がその重要度も表示されて選択に供されるため、文献
中身外の語句であっても関連するものを適宜索引語とし
てその文献に付与してデータベース化させることができ
、よって、利用者は文献の持つ概念をより適切に表現で
き、文献検索に際しての索引語の選択の余地が広がり、
検索の再現率が向上するものとなり、特に、関連索引語
の重要度も表示されて選択に供されるので、その文献に
対して関連の大きい関連索引語について落ちのない登録
が可能となり、より適切な索引語付与ができ、よって、
従来方式では検索条件の不完全性により検索洩れとなっ
ていたような文献についても検索可能となるものである
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
従来例を示すブロック図である。 3・・・結果表示・選択部、4・・・データベース、5
・・・キーワードコネクション、6・・・関連索引語検
索部

Claims (1)

    【特許請求の範囲】
  1.  予め多数の標準文書から抽出された索引語を用いて算
    出された各索引語間の関連の強さを各索引語とともに保
    持したキーワードコネクシヨンと、データベースに登録
    しようとする文献から抽出された抽出索引語に関連する
    関連索引語を前記キーワードコネクシヨンより検索して
    所定の計算式によりその文献に対する関連索引語の重要
    度を計算する関連索引語検索部と、結果表示・選択部と
    よりなり、抽出索引語と関連索引語の重要度とを結果表
    示・選択部に表示させて、この結果表示・選択部により
    選択された索引語を、登録しようとする前記文献ととも
    に前記データベースに格納させるようにしたことを特徴
    とする索引付け支援装置。
JP1262499A 1989-10-06 1989-10-06 索引付け支援装置 Pending JPH03123971A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1262499A JPH03123971A (ja) 1989-10-06 1989-10-06 索引付け支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1262499A JPH03123971A (ja) 1989-10-06 1989-10-06 索引付け支援装置

Publications (1)

Publication Number Publication Date
JPH03123971A true JPH03123971A (ja) 1991-05-27

Family

ID=17376653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1262499A Pending JPH03123971A (ja) 1989-10-06 1989-10-06 索引付け支援装置

Country Status (1)

Country Link
JP (1) JPH03123971A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250693A (ja) * 2004-03-02 2005-09-15 Tsubasa System Co Ltd 文字情報分類プログラム
JP2007255386A (ja) * 2006-03-24 2007-10-04 Fuji Heavy Ind Ltd 燃料タンクキャップの燃料蒸散防止構造
JP2008027104A (ja) * 2006-07-20 2008-02-07 Sharp Corp 端末装置およびコンテンツ記録方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250693A (ja) * 2004-03-02 2005-09-15 Tsubasa System Co Ltd 文字情報分類プログラム
JP2007255386A (ja) * 2006-03-24 2007-10-04 Fuji Heavy Ind Ltd 燃料タンクキャップの燃料蒸散防止構造
JP2008027104A (ja) * 2006-07-20 2008-02-07 Sharp Corp 端末装置およびコンテンツ記録方法

Similar Documents

Publication Publication Date Title
CN110413734B (zh) 一种医疗服务的智能搜索系统及方法
US6263329B1 (en) Method and apparatus for cross-linguistic database retrieval
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
JP3735335B2 (ja) 類似性判断のための例題ベース検索方法及び検索システム
US6298343B1 (en) Methods for intelligent universal database search engines
JPH03172966A (ja) 類似文書検索装置
JPH0525138B2 (ja)
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JPH05151253A (ja) 文書検索装置
US7761286B1 (en) Natural language database searching using morphological query term expansion
KR20020072092A (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2960936B2 (ja) 係り受け解析装置
JPH05324719A (ja) 文書検索システム
JPH03123971A (ja) 索引付け支援装置
JP2519121B2 (ja) 情報検索装置
JPH09101969A (ja) 適合フィードバックを用いた全文検索方法および装置
JPH03122768A (ja) 索引付け支援装置
JPS61248160A (ja) 文書情報登録方式
JPH08305695A (ja) 文書処理装置
JP3187671B2 (ja) 電子辞書表示装置
JPH09101951A (ja) 文書検索装置
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体