JPH09146955A

JPH09146955A - 単語間概念関係の抽出方法及びシステム

Info

Publication number: JPH09146955A
Application number: JP7299640A
Authority: JP
Inventors: Hiroshi Sasaki; 佐々木　　寛
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1995-11-17
Filing date: 1995-11-17
Publication date: 1997-06-06

Abstract

(57)【要約】【課題】類似度を計数する文献数が少ない場合でも、
従って、グループ内共起関係が比較的少ない新語・造語
・合成語等の未知語についても、正確に単語間の概念関
係を抽出できる単語間概念関係の抽出方法及びシステム
を提供する。【解決手段】文書データベース１０には複数の文書が
記憶されている。処理部２０では、文書データベース１
０から特定の文書を取り出し、単語の切り出し、及び概
念関係の抽出を行なう。表示画面３０は、文書、切り出
された単語、あるいは連接パス等を表示する。抽出デー
タ記憶部４０には、抽出された単語ファイル、連接パス
表、概念関係を示す単語関係表などが記憶される。プリ
ンタ５０では、文書等の抽出結果を適宜に印字する。キ
ーボード６０からは、キーワードなど検索対象となる単
語を入力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、予め文書データ
から切り出された単語表から、単語内部に存在する構成
文字の連接情報を利用することで単語の階層関係を抽出
し、抽出された単語関係によって単語間概念関係を抽出
する単語間概念関係の抽出方法及びシステムに関する。

【０００２】

【従来の技術】今日、大量の論文、特許など文献を記録
したデータベースにアプローチして、その中から探索要
求を満たす文献だけを漏れなく抽出する技術が必要とさ
れている。この場合に、検索者がキーワードを指定し
て、そのキーワードが含まれている文献を電子的に抽出
するのであるが、その際に、キーワード間の同義語、及
び上位下位関係にある語彙を集めた辞書、いわゆるシソ
ーラスを予め構築しておくことが、効率的な抽出を行な
ううえで望ましい。

【０００３】一般にシソーラスの構築技術は、（Α）人
手により構築する方法、（Ｂ）文書中における単語の共
起分布を用いて構築する方法、及び（Ｃ）辞書を用いて
構築する方法、の大きく３つのアプローチに分類され
る。

【０００４】従来は、上記（Α）の方法が主流であっ
た。しかし、この方法では、人手による作成の為、完
成するシソーラスが偏りのあるものになりやすい。膨
大な作成時間が必要となる。非常に一般的な用語だけ
に限ったものであるため、専門用語に関するものはな
い。造語に対応できない等の問題点があった。これに
対して、上記（Β）のアプローチでは、ＣＤ−ＲＯΜに
焼かれた辞書を読み、定義語と語義の情報から意味ネッ
トワークを作成するので、人手によらず偏りのないシソ
ーラスを自動的に構築することが可能である。よって、
上記〜の問題を解決している。しかし、辞書にない
専門用語や造語及び合成語を取り扱うことは非常に困難
であるため、上記問題点の〜は解決できなかった。

【０００５】更に、上記（Ｃ）のアプローチによると、
データである１文書内に出現する単語の共起頻度を計数
しておき、その計数結果を全文書について大小比較する
ことにより単語間の概念関係を抽出する。このアプロー
チによると、上記問題の〜に対応することが可能と
なる。しかし、このアプローチでは、同義語関係にあ
る単語間では、一方が出現すれば他方は出現する必要が
少なくなるので、類似性の高い単語間であってもその類
似度が低下する場合がある。総出現数が大きい単語ほ
ど、上位語になりやすいので、単語間の上位、下位関係
を正確に決定できないという問題があった。

【０００６】このような１文献内での共起関係を利用し
てキーワード間の類似度を計算する場合の問題を解決す
べく、グループ内共起関係を利用してキーワード間の類
似度を計算する方法が提案されている（「グループ内共
起関係を利用したキーワード間類似度計算法」（情報学
基礎研究会、３４−２（１９９４）））。

【０００７】上記提案の手法によると、予め共起関係を
計数する複数の文書データをその内容毎にグループ分け
をしておくことで、上記問題点〜の解決できるとさ
れている。

【０００８】

【発明が解決しようとする課題】しかし、上記文献のシ
ソーラス構築の方法では、単語間の類似度又は同義語の
関係は共起関係を有するグループ内の類似度の計算を基
本としており、上記問題点を完全に解決するに至って
ない。なぜなら、新語・造語・合成語等の未知語を使用
した文献の場合には、グループ内共起関係が比較的少な
いため、類似度の計算に際してグループ利用の意義が小
さくなり、不自然な上位下位関係をとる可能性が生じる
からである。

【０００９】この発明は、上述のような課題を解決する
ためになされたもので、その目的は類似度を計数する文
献数が少ない場合でも、グループ内共起関係が比較的少
ない新語・造語・合成語等の未知語についても、正確に
単語間の概念関係を抽出できる単語間概念関係の抽出方
法及びシステムを提供することである。

【００１０】

【課題を解決するための手段】請求項１に係る単語間概
念関係の抽出方法は、単語内部に存在する構成文字間の
連接情報を利用することで単語の階層関係を抽出してシ
ソーラスを作成する単語間概念関係の抽出方法におい
て、文書データから単語を切り出すステップと、切り出
された単語から前記連接情報となる連接パスを抽出する
ステップと、前記連接パスの上位下位関係を抽出するス
テップとを含むことを特徴とする。

【００１１】請求項２に係る単語間概念関係の抽出シス
テムは、単語内部に存在する構成文字間の連接情報を利
用することで単語の階層関係を抽出してシソーラスを作
成する単語間概念関係の抽出システムにおいて、文書デ
ータを格納する文書データベースと、前記文書データベ
ース中の文書データから単語を切り出す手段と、切り出
された単語を格納する単語ファイルと、前記単語ファイ
ルから前記連接情報となる連接パスを抽出する手段と、
前記連接パスを記録するパスファイルと、前記連接パス
の上位下位関係から単語関係を抽出する手段と、前記単
語関係を記録する関係ファイルとを備えたことを特徴と
する。

【００１２】

【発明の実施の形態】以下、添付した図面を参照して、
この発明の実施の形態を詳細に説明する。

【００１３】図１は、単語間概念関係の抽出方法の一例
を示す流れ図であり、図２は、単語間概念関係の抽出シ
ステムの一例を示すシステム構成図である。

【００１４】文書データベース１０には複数の文書が記
憶されている。処理部２０では、文書データベース１０
から特定の文書を取り出し、単語の切り出し、及び概念
関係の抽出を行なう。表示画面３０は、文書、切り出さ
れた単語、あるいは連接パス等を表示する。抽出データ
記憶部４０には、抽出された単語ファイル、連接パス
表、概念関係を示す単語関係表などが記憶される。プリ
ンタ５０では、文書等の抽出結果を適宜に印字する。キ
ーボード６０からは、キーワードなど検索対象となる単
語を入力する。

【００１５】次に、図１の流れ図にしたがって、上記単
語間概念関係の抽出システムの動作を説明する。ステッ
プ１００では、所定の文書データがデータベースに格納
される。ステップ２００では、文書データベース１０か
ら特定の文書ａを１個取り出す。ステップ３００では、
文書ａの中の文から文字種の変化と句読点を利用するこ
とで単語を切り出し、一文字だけからなるものと平仮名
だけからなるものを除外する。

【００１６】図３は、単語を切り出す方法を説明するた
めの図である。ここに示すように、句読点により文書が
区切れる所と、アルファベットから平仮名、平仮名から
漢字、漢字から平仮名等のように文字種が変化する所で
文書を区切る。

【００１７】図４には、単語ファイルに登録された単語
の例を示している。ステップ４００では、切り出した単
語を抽出データ記憶部４０の単語ファイルに登録する。
以上のステップ１００〜４００を文書データベース１０
中に存在する全文書データがなくなるまで繰り返すこと
で、単語の切り出しが完了する。

【００１８】次に、切り出された単語に内在する構成文
字の連接情報を連接パスとして抽出する。ステップ５０
０では、抽出データ記憶部４０の単語ファイルから処理
部２０に単語を読み出して、読み出された単語の構成文
字の連接情報である連接バスを抽出する。そして、ステ
ップ６００では、それらを抽出データ記憶部４０の連接
パスファイルに記録する。

【００１９】図５には、抽出された連接パスの一例を示
している。これは、単語の連接順序を木構造の連結グラ
フで示した情報であり、グラフの根部分を先頭の意味で
ＮＵＬＬとし、各節点に構成文字を記す。枝上の数字
は、そのパスを辿った単語数を示している（以下、この
数字を連接数と呼ぶ）。この結果、グラフの枝部分を辿
ることで、単語内の構成文字の出現頻度と順序とを明記
することが可能となる。

【００２０】図５では、図４のように切り出された８つ
の単語から作られる連接パスの一部分を示している。例
えぱ、文字「ｍ」から「ａ」への枝上の数字が８である
ことは、単語の始まりから見て「ｍａ」となる単語が８
個あることを意味する。

【００２１】次に、ステップ７００における単語間の概
念関係を抽出する具体的な手順を以下に示す。まず、抽
出データ記憶部４０の連接パスファイルに記録されてい
る連接パス表を処理部２０に読み出す。そして、ＮＵＬ
Ｌ節点から全連接パスについて、以下のサブステップ７
０１〜７０５を繰り返す。ステップ７０１では、連接パ
ス表から第ｎ番目の連接パスを選択する。ステップ７０
２では、ＮＵＬＬ節点から順に辿り、連接数が変化する
節点を探す。ステップ７０３では、ＮＵＬＬ節点から連
接数が変化する節点までを部分単語として切り出し、次
の連接数が変化する節点を探す。ステップ７０４では、
切り出された全部分単語の連接数の大小比較を行い、大
きい方の部分単語を小さい方の部分単語の上位語とする
関係を張る。

【００２２】図６は、図５の連接パス表から抽出された
単語間の概念関係を示す単語関係表である。ステップ８
００では、上位の部分単語と下位の部分単語の対を、抽
出データ記憶部４０の単語関係表に記録する。その後、
必要に応じてこの単語関係表を表示画面３０に呼び出
し、抽出されている概念関係に基づいて情報検索や情報
生成を容易に行なうことができる。

【００２３】たとえば、情報検索時においては、データ
ベースから特定の文書を検索する場合を考えると、検策
キーワードの入力がユーザーの負担になるという問題が
ある。すなわち、「ユーザーがキーワードを思い付きに
くい」という問題や「キーワードの組み合わせにより検
索結果が異なるため、その組み合わせが非常に難しい」
という問題である。この問題に対して、本発明の単語関
係表による単語間の概念関係の抽出結果を利用すること
により、ユーザーから入力されたキーワードの語数を増
加することが可能となるだけでなく、上位概念からの検
索も容易になるため、検索効率が向上する。

【００２４】また、情報生成時においては、例えば新た
な文書の作成の場合でも、本発明による抽出結果を利用
することにより、しつこい言い回しや、同一単語のくど
い繰り返しを避けて、読みやすい文書の作成が可能とな
る。

【００２５】上記実施の形態によると、実際のテキスト
データから実際に使用されている単語を切り出し、これ
まで不完全にしか取り出すことのできなかった未知語・
造語・合成語の概念関係を抽出することが可能となる。
さらに、人手によらず単語間の概念関係を抽出すること
が可能となるため、先に指摘した従来の問題点〜を
すべて解決できる。とりわけ、これまで困難であった未
知語や造語及び合成語に対して、単語を構成する文字の
連接情報を考慮した関係を抽出することが、本発明によ
り初めて可能となった。

【００２６】

【発明の効果】この発明は、以上に説明したように構成
されているので、共起関係のある文献数を計数する方法
ではなしに、単語に内在する情報、具体的には単語を構
成する文字の連接情報を利用することによって、計数す
る文献数に左右されず単語間の概念関係を抽出できる。
したがって、比較的共起文献数の少ない新語・造語・合
成語等の未知語の概念関係をも、正確に抽出することが
できる。

【図面の簡単な説明】

【図１】この発明の単語間概念関係の抽出方法の一例
を示す流れ図である。

【図２】単語間概念関係の抽出システムの一例を示す
ブロック図である。

【図３】単語を切り出す方法を説明するための図であ
る。

【図４】単語ファイルに登録された単語の例を示して
いる。

【図５】抽出された連接パスの一例を示している。

【図６】連接パス表から抽出された単語間の概念関係
を示す単語関係表である。

【符号の説明】

１０文書データベース、２０処理部、３０表示画
面、４０抽出データ記憶部、５０プリンタ、６０
キーボード。

Claims

【特許請求の範囲】

【請求項１】単語内部に存在する構成文字間の連接情
報を利用することで単語の階層関係を抽出してシソーラ
スを作成する単語間概念関係の抽出方法において、文書データから単語を切り出すステップと、切り出された単語から前記連接情報となる連接パスを抽
出するステップと、前記連接パスの上位下位関係を抽出するステップとを含
むことを特徴とする単語間概念関係の抽出方法。
【請求項２】単語内部に存在する構成文字間の連接情
報を利用することで単語の階層関係を抽出してシソーラ
スを作成する単語間概念関係の抽出システムにおいて、文書データを格納する文書データベースと、前記文書データベース中の文書データから単語を切り出
す手段と、切り出された単語を格納する単語ファイルと、前記単語ファイルから前記連接情報となる連接パスを抽
出する手段と、前記連接パスを記録するパスファイルと、前記連接パスの上位下位関係から単語関係を抽出する手
段と、前記単語関係を記録する関係ファイルとを備えたことを
特徴とする単語間概念関係の抽出システム。