JPH03132872A - 索引情報生成装置 - Google Patents

索引情報生成装置

Info

Publication number
JPH03132872A
JPH03132872A JP1270321A JP27032189A JPH03132872A JP H03132872 A JPH03132872 A JP H03132872A JP 1270321 A JP1270321 A JP 1270321A JP 27032189 A JP27032189 A JP 27032189A JP H03132872 A JPH03132872 A JP H03132872A
Authority
JP
Japan
Prior art keywords
index
sentence
information
unit
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1270321A
Other languages
English (en)
Inventor
Hiroto Inagaki
博人 稲垣
Fumihiko Kobashi
小橋 史彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1270321A priority Critical patent/JPH03132872A/ja
Publication of JPH03132872A publication Critical patent/JPH03132872A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、自然言語のデータベース検索等において必
要とされる高精度の索引情報を自動的に抽出、生成する
索引情報生成装置に関するものである。
〔従来の技術] 従来から情報検索システム等の自動化を目指して、自動
索引抽出手法が開発されている。検索側の立場に立った
場合、検索時に入力することが可能なキーワードがフリ
ーキーワードであるか、統制キーワードであるかによっ
て、索引抽出処理も分類される。フリーキーワードの抽
出を行う場合、不要語辞書法がよ(使用される。不要語
辞書法では、不要語辞書に記述されたキーワードになり
えない単語群(例えば「場合」、「図3−3」、「同様
」など)を排除し、それ以外の単語をキーワードとして
抽出する方法である。また、統制キーワードを抽出する
方法としては、統制語辞書法がある。統制語辞書法では
、文章中に出現した語句と統制語辞書とのマツチングを
とり、辞書中に存在する単語をキーワードとする方法で
ある。
キーワードを抽出する手法で分類した場合、統計的手法
と言語処理的手法の2種類に大分類できる。
統計処理を用いた手法は、単語の出現頻度の傾向が第1
2図(Van Rijsbergen、 C,J、 :
InformationRetrieval、5eco
nd Edition、Butter Worths、
Lond−on、 1979)のようになっていると仮
定し、単語の出現頻度が高くも低(もない中間的単語を
キーワードとするというルールに基づいてキーワードを
選定する。なお、縦軸は出現頻度f、横軸はランクr、
L、は上限線、L2は下限線、Aはキーワード領域、B
はキーワード分布曲線である。
しかし、単語の出現頻度にのみ着目しているため、不要
な語をキーワードとして抽出したり、抽出した以後を取
りこぼす等の欠点がある。
言語処理を用いた手法では、格辞書や世界知識を用いた
係り受け解析処理を基本とする場合が多い。前者の例と
しては、絹用ら(絹用、木村二日本語文構造解析による
自動インデクランク方式、vol、21.No、3.1
980)が行ったように、文を1個以上の名詞と動詞と
の関係と捉え、格解析によって得られた名詞と動詞群を
キーワードとする処理である。また、後者の手法として
、斉藤ら(斉藤。
針寄:日本語文解析によるキーワド抽出、電子通信学会
技術研究会報告、vol、81.No、90.pp、4
1−48゜1981)の場合、係り受け解析結果に基づ
き、係り受け関係のある単語を結合して複合語とし、生
成した複合語の中でシソーラスの用語と一致し、かつシ
ソーラスで最も下位の語をキーワードとして出力する処
理である。この処理でのキーワード抽出例を第13図に
示す。第13図において、アンダーラインで示した語が
抽出されたキーワードである。矢印で示される右側の語
は単語を結合して複合語とした例である。
これらの手法の欠点としては、文章中に陽に表現されて
いない、文章の主題に適したキーワードを生成すること
ができない点と、抽出したキーワードをその主題に対す
る重要度の点から重み付けしていない点である。
[発明が解決しようとする課題1 上述したように、統計処理や構文解析手法を用いても、
対象文章の主題を表す索引を抽出するには至っていない
。また、抽出される索引について見れば、従来のシステ
ムでは文章中に出現した単語であるか、シソーラスにあ
る単語でなければならず、文章の主題を表現するのに適
した索引を生成することが難しいなどの欠点がある。
この発明では、係り受け解析および文接続関係判定処理
により文章構造に基づく索引の重み付けをするとともに
、自動学習した索引生成規定に基づき、文章中に陽には
表現されていない索引を生成する索引生成方法を提供す
ることを目的とする。
[課題を解決するための手段1 この発明に係る索引情報生成装置は、対象とする文章を
分かち書きし、形態素情報(読み情報。
品詞情報、活用形情報等)を抽出するとともに、その形
態素情報から文節間の係り受け関係を解析する係り受け
解析部と、接続詞相当語句および文の主格を追跡するこ
とにより又聞の接続関係を明示する文接続関係判定部と
、係り受け解析結果および文接続関係判定部の結果から
文章構造を決定し、文章構造に基づいて索引の重要度を
付与する索引抽出部と、索引生成規則より文章中には出
現していないが、対象文章から想起される索引を生成す
る索引生成部と、索引抽出部の索引結果と索引生成部の
索引結果の両方を表示する索引情報出力部と、出力した
索引を編集して最も適した索引を付与する索引編集部と
、編集された結果を記憶し、さらに索引生成規則を生成
、記憶する索引情報記憶部とを具備したものである。
〔作用1 この発明においては、索引抽出部では係り受け構造や又
聞の接続関係から得た文章構造から索引の重要度を付与
するため、この発明で作成した索引を検索に利用した場
合、従来に比ベヒット率の高い検索が可能となる。また
、索引生成部では、文章中で陽には表現されていない索
引を生成するため、従来の索引抽出装置にはない主題に
適した索引を生成することが可能となる。また、索引情
報編集部では、索引の編集結果から適した索引を抽出、
生成する索引生成規定の更新を随時自動的に行うため、
索引付与回数が増えれば増えるほど精度の高い索引を自
動的に生成する。
〔実施例1 以下、この発明の実施例について説明するヶまず、この
発明の索引情報性性装置の全体の構成について述べ、次
に格構成部の詳細を説明する。
第1図はこの発明の一実施例の構成を示すブロック図で
ある。1は係り受け解析部で、入力文Sを分かち書きし
単語単位に分割する。さらに、品詞情報、活用形、形態
素の情報を個々の単語に付与して係り受け解析を行う。
2は文接続関係判定部で、文中に存在する接続詞相当語
句および文の主格の変化により又聞の接続関係を判定す
る。3は索引抽出部で、索引を抽出するとともに、抽出
した索引に重要度を付与する。まず、係り受け解析部1
で得られた文節間の係り受け関係と、文接続関係判定部
2で得られた又聞の接続関係を用いて索引を文章中から
抽出する。さらに、文章構造に基づいて索引の重要度を
付与する。4は索引生成部で、文字連鎖とその文字連鎖
から想起される索引の組み合わせが記述されている索引
生成規則を用いて、同様な文字連鎖が文章中に出現した
場合、その文字連鎖から想起される索引を生成する。ま
た、生成された索引は、索引抽出部3と同様に文章構造
に基づいて重要度付けされる。5は索引情報出力部で、
索引抽出部3と索引生成部4によって抽出された索引情
報を出力する。6は索引情報編集部で、索引情報出力部
5の索引出力結果を見て、索引に適していない語につい
ては削除し、索引に適している語が出力されていない場
合には登録するなどの索引削除、索引登録機能を有する
。7は索引情報記憶部で、索引情報編集部6の編集結果
を記憶するとともに、編集結果を基に索引生成規則を自
動的に変更、生成し記憶する。
係り受け解析部1では、例えば稲垣ら(稲垣。
小橋:係り受け解析方法、特開昭64−17152号公
報参照)の発明を用いた文節間の係り受け関係を第2図
のように求める。
人力として「カナ文字列および同音語選択指示信号を入
力するための入力手段と、・・・・・・」の文を考えた
場合、形態素情報を取得し文節単位に分割すると、「カ
ナ文字列 および 同音語選択指示信号を 入力するた
めの 入力手段と、 ・・・・・・」と分割される。次
に、文節単位に分割された単語群の係り受け関係を求め
る。この入力では、第2図に示すように、「カナ文字列
Jと「同音を選択指示信号」は並列構文を形成しており
、共に「入力するための」に係り、文節「入力するため
の」は「入力手段」に係ることになる。係り受け解析部
1では、このような文節間の係り受け関係を求める処理
を受け持つ。
文接続関係判定部2では、又聞の接続関係を接続詞相当
語句および主客の変化で決定し、各文℃文章内における
重要度を求める。文接続関係判定部2の処理の流れを第
3図に示す。なお、2A〜2Gは各ステップを示す。
まず、文章の先頭文である場合(ステップ2A)、重要
度の基準値を与える(ステップ2B)。
先頭文以外の文では対象とする文に接続詞相当語句が含
まれている場合(ステップ2C)、第4図の接続詞相当
語句と又聞接続ポイントの対応表により又聞接続ポイン
トを取得して、前の文の重要度に又聞接続ポイントを加
えた値をその文の重要度とする(ステップ2D)。交円
に接続詞相当語句がなければ、ステップ2Eを実行する
。ステップ2Eでは対象とする文に主格となる名詞(句
)が存在するかどうかを判断する。ステップ2Fでは主
格の名詞が存在する場合、文中に含まれる名詞の照応関
係から文の重要度を算出する。文重要度は第5図に示す
文重要度判定規則テーブルFに記述されているI F−
THEN規則に基づいて判断される。以上の処理で文の
重要度を決定できない場合、ステップ2Cを実行して文
の重要度を決定する。ステップ2Gでは文章の起承転結
パターンや章・節・段落の配置から文の重要度を決定す
る。
第6図にステップ2Gの文重要度判定規則テーブルGを
示す。これは、先のテーブルFと同じようにI F−T
HEN規則から構成される。
索引抽出部3では、形態素に分割されている単語の中か
ら索引を抽出するとともに、抽出した索引を重み付けす
る。
索引の抽出に不要語辞書法を用いた場合、まず、形態素
情報の中で各単語の品詞に着目し、品詞として名詞相当
語句(固有名詞、す変名側なども含む)を抽出する。抽
出した名詞相当語句の中で、第7図に示すような不要語
を除いた単語を索引として抽出する。
索引の重み付けは、係り受け解析結果から算出される文
構造ポイントを利用する。文構造ポイントは、文節間の
係り受けとその係り受け関係の属性により決定する。文
末の文節に文構造ポイントの基準値を与え、各文節の文
構造ポイントは、文末の文節から対象とする文節にたど
り着くまでに通る係り受けのリンクポイントの合計値を
与える。
第8図に係り文節の付属語とリンクポイントの対応を示
す。第9図に例を示すが、「信号を 入力するための 
入力手段。」という入力文章では「入力手段。」には文
構造ポイントの基準値(0)を与え、文節「入力するた
めの」は助詞の「の」で係り受け関係を持っているため
、リンクポイントが2となり、文構造ボンドも2となる
同様にして、文節「信号をjはリンクポイントが0であ
るため「入力するための」と同じ文構造ポイント2とな
る。同様にしてすべての文節の文構造ポイントを求める
次に、最終的な文節の重要度は、先に求めた文の重要度
に文構造ポイント乗じたポイントとする。この文節重要
度は、値が小さいほど文章中での重要度が高いことを示
す。
索引生成部4では、索引生成規則に基づき新たな索引を
生成する。索引生成規則の例を第10図に示す。
例えば(取締り)+(の、が)+(強化)=(監視強化
)は「取締りの強化」または「取締りが強化」という文
字連鎖の持つ概念が「監視強化」という概念と一致して
いることを意味し、索引を生成する場合「取締り」や「
強化」という単語をキーワードとするだけでな(、「監
視強化」というキーワードも生成する。生成規則の適用
方法は、文中に索引生成規則に記述されている文字連鎖
と同様な文字連鎖がある場合、文字連鎖想起語を索引と
して生成する。例えば文中に「取締りの強化」という文
字連鎖がある場合、「監視強化」という索引を生成する
。この場合、索引生成規則に基づいて索引を生成するだ
けでなく、先の索引抽出部3で作成した文節の重要度を
索引に付与する。
索引情報出力部5では、索引抽出部3と索引生成部4で
作られた索引を重要度順に並べ変えして出力する。
索引情報編集部6では、索引情報出力部5で出力した索
引の編集を行うと同時に、索引生成規則を自動的に生成
し、索引生成部4へ組み込む。例えば、第9図を入力文
章と考えた場合、この装置では、索引として第11図の
索引を抽出する。索引情報の編集プロセスとしては、索
引情報の変更、追加、削除の3つのプロセスからなり、
メニューにより作業を選択する。索引情報の変更は、装
置側が作成した索引を異なる索引に変更したり、索引に
付与されている重要度を変更したりする機能である。索
引の追加は、装置側が作成した索引以外に、付与したい
索引をユーザが登録する機能である。文章中に出現して
いる単語は直接マウスで単語を選択した時点で追加索引
として登録される。文章中に出現していない単語はキー
ボードから直接人力する。索引の削除は、装置側が作成
した索引をユーザが削除する機能である。
索引情報記憶部7は、索引情報編集部6で編集された索
引情報を記憶するとともに、索引生成規則を生成し、登
録する。
索引生成規則は、索引情報の編集作業中にユーザ側が索
引を登録した時点で自動的に生成される。第11図の索
引が表示されている時、索引としてユーザが「信号入出
力」という索引を追加した場合の処理を下記に示す。
まず、追加した索引語を単語に分解する。この場合、「
信号」と「入出力」に単語を分解する。
さらに、各単語に類似した単語群を類義語辞書などから
抽出する。「信号」の場合「シグナル」。
「信号線」が類義語群。「入出力」の場合「入力」、「
出力」、「インプット」等が類似した語群なる。このよ
うに単語の概念を拡張した後、これらの文字連鎖を対象
文章中から索引する。この例では以下に示す検査パター
ンを探索する。
検索パターン (信号)+(入出力) or (入出力)+(信号)(
信号)+(入力)or(入力)+(信号)(シグナル)
+(インプット) or (インプット)+(シグナル) 検索例 「入力された信号を・・・・・・」 「信号の入力」、「信号が入力」 「シグナルインプット」 対象文章中に検索パターンがあった場合、その検索パタ
ーンを索引生成規則に登録する。複数の検索パターンが
一致する場合、文節の重要度が最も高い検索パターンを
索引生成規則に登録する。
検索パターンは、単語と単語の連鎖だけが表示されてい
るので、一致した検索結果から付属語情報、助詞情報も
抽出して索引生成規則に登録する。「入出力された信号
を・・・・・・」の検索例では、(入出力)+(された
)+(信号)というパターンが文字連鎖語として登録さ
れる。「信号の入力」の例では(信号)+(の)+(入
力)が登録される。
以上説明したように、第1図に示す1〜7までの各部の
処理により索引が抽出生成される。なお、この発明は日
本語の文章に限らず、英文等に対しても適用可能である
〔発明の効果〕
この発明は以上説明したように、文章中から抽出、生成
された索引は、ただ単に索引として抽出するだけでなく
、文の係り受け解析結果から得た文構造情報と接続詞相
当語句や文の主格の推移から決定した文章の構造情報を
用いて、索引の重み付けを行う。そのため、機械処理等
で作成する索引群に比べ、この発明で作成した索引を検
索に利用した場合、高いヒツト率を得ることが可能とな
る。また、索引に重要度が付与されているため、検索者
は索引から容易に文章の内容をつかむことができる。
以前から自動索引システムでの問題となっていたが、索
引としてただ単に文章中から語句を抽出した場合、文章
の概念を表すのに適していないこともある。この発明で
は、文章中の文字連鎖と索引のとの関係を索引生成規則
として保持し、その索引生成規則から文章を表現するの
に適した索引を自動的に生成する機能を有する。また、
索引生成規則は索引編集過程で自動的に収集するために
、索引生成規則をあらかじめ人手で収集する必要はない
。この索引生成機能により検索の高精度化、索引付与作
業の省力化が可能となる。
【図面の簡単な説明】
第1図はこの発明を実施するための装置の構成を示すブ
ロック図、第2図は係り受け解析部の係り受け解析例を
示す図、第3図は文接続関係判定部の処理の流れ図、第
4図は接続詞と又聞接続ポイントのテーブルを示す図、
第5図は文重要度判定規則テーブルFを示す図、第6図
は文重要度判定規則テーブルGを示す図、第7図は不要
語辞書の内容を示す図、第8図は係り文節の属性とリン
クポイントのテーブルを示す図、第9図は文構造ポイン
ト計算例を示す図、第10図は索引生成規則を示す図、
第11図は抽出される索引の例を示す図、第12図は索
引の出現頻度傾向を示す図、第13図は従来の索引抽出
例を示す図である。 図中、1は係り受け解析部、2は文接続関係判足部、3
は索引抽出部、4は索引生成部、5は索引情報出力部、
6は索引情報編集部、7は索引情報記憶部を示す。 第 3 図 第 図 第 図 第 図 第 9 図 リンクIインド 文構造ポイント 第 0 図 第 1 図 第 2 図

Claims (1)

    【特許請求の範囲】
  1. 文章を入力し、入力された文字列を分かち書きし、形態
    素情報を付与するとともに、前記形態素情報を基にして
    文節間の係り受け関係を判定する係り受け解析部と、前
    記文章中の文間の接続関係を判定する文接続関係判定部
    と、前記係り受け解析部の係り受け解析結果と前記文接
    続関係判定部の結果に基づき、前記文章中の重要語を索
    引として抽出するとともに、文章構造に基づき該索引の
    重要度を付与する索引抽出部と、索引生成規則を基に索
    引を生成する索引生成部と、前記索引抽出部と前記索引
    生成部の索引結果を表示する索引情報出力部と、この索
    引情報出力部の索引を編集する索引情報編集部と、この
    索引情報編集部の編集結果およびこの編集結果から作成
    された索引生成規則とを記憶する索引情報記憶部とを具
    備することを特徴とする索引情報生成装置。
JP1270321A 1989-10-19 1989-10-19 索引情報生成装置 Pending JPH03132872A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1270321A JPH03132872A (ja) 1989-10-19 1989-10-19 索引情報生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1270321A JPH03132872A (ja) 1989-10-19 1989-10-19 索引情報生成装置

Publications (1)

Publication Number Publication Date
JPH03132872A true JPH03132872A (ja) 1991-06-06

Family

ID=17484641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1270321A Pending JPH03132872A (ja) 1989-10-19 1989-10-19 索引情報生成装置

Country Status (1)

Country Link
JP (1) JPH03132872A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
JPH11250097A (ja) * 1998-03-05 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
US5983171A (en) * 1996-01-11 1999-11-09 Hitachi, Ltd. Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
JP2000231569A (ja) * 1999-02-09 2000-08-22 Just Syst Corp インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2011080926A1 (ja) * 2009-12-30 2011-07-07 株式会社Taggy コンテンツ構成方法
JP2011138478A (ja) * 2010-08-19 2011-07-14 Taggy Inc 関連するウェブページ内コンテンツを分類・整理し自由自在に再構成して表示する方法
JP2012008648A (ja) * 2010-06-22 2012-01-12 Fuji Xerox Co Ltd プログラム及び同義語生成装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251072A (ja) * 1993-02-27 1994-09-09 Omron Corp 文書処理装置および方法
US5983171A (en) * 1996-01-11 1999-11-09 Hitachi, Ltd. Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
JPH11250097A (ja) * 1998-03-05 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
JP2000231569A (ja) * 1999-02-09 2000-08-22 Just Syst Corp インターネット情報検索装置、インターネット情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2011080926A1 (ja) * 2009-12-30 2011-07-07 株式会社Taggy コンテンツ構成方法
JP2011138441A (ja) * 2009-12-30 2011-07-14 Taggy Inc 関連するウェブページ内コンテンツを分類・整理し自由自在に再構成して表示する方法
JP2012008648A (ja) * 2010-06-22 2012-01-12 Fuji Xerox Co Ltd プログラム及び同義語生成装置
JP2011138478A (ja) * 2010-08-19 2011-07-14 Taggy Inc 関連するウェブページ内コンテンツを分類・整理し自由自在に再構成して表示する方法

Similar Documents

Publication Publication Date Title
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
JP3691844B2 (ja) 文書処理方法
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2742115B2 (ja) 類似文書検索装置
US20070106499A1 (en) Natural language search system
Saggion et al. Robust generic and query-based summarization
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
JP3353829B2 (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH03132872A (ja) 索引情報生成装置
JPH0844771A (ja) 情報検索装置
JPH0944523A (ja) 関連語提示装置
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JPS5856071A (ja) 日本語による検索システム
JP3486406B2 (ja) 特許情報検索装置
Schwarz The TINA Project: text content analysis at the Corporate Research Laboratories at Siemens
JP2812511B2 (ja) キーワード抽出装置
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体