JPH09146955A - 単語間概念関係の抽出方法及びシステム - Google Patents

単語間概念関係の抽出方法及びシステム

Info

Publication number
JPH09146955A
JPH09146955A JP7299640A JP29964095A JPH09146955A JP H09146955 A JPH09146955 A JP H09146955A JP 7299640 A JP7299640 A JP 7299640A JP 29964095 A JP29964095 A JP 29964095A JP H09146955 A JPH09146955 A JP H09146955A
Authority
JP
Japan
Prior art keywords
word
words
extracting
relation
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7299640A
Other languages
English (en)
Inventor
Hiroshi Sasaki
佐々木  寛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7299640A priority Critical patent/JPH09146955A/ja
Publication of JPH09146955A publication Critical patent/JPH09146955A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 類似度を計数する文献数が少ない場合でも、
従って、グループ内共起関係が比較的少ない新語・造語
・合成語等の未知語についても、正確に単語間の概念関
係を抽出できる単語間概念関係の抽出方法及びシステム
を提供する。 【解決手段】 文書データベース10には複数の文書が
記憶されている。処理部20では、文書データベース1
0から特定の文書を取り出し、単語の切り出し、及び概
念関係の抽出を行なう。表示画面30は、文書、切り出
された単語、あるいは連接パス等を表示する。抽出デー
タ記憶部40には、抽出された単語ファイル、連接パス
表、概念関係を示す単語関係表などが記憶される。プリ
ンタ50では、文書等の抽出結果を適宜に印字する。キ
ーボード60からは、キーワードなど検索対象となる単
語を入力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、予め文書データ
から切り出された単語表から、単語内部に存在する構成
文字の連接情報を利用することで単語の階層関係を抽出
し、抽出された単語関係によって単語間概念関係を抽出
する単語間概念関係の抽出方法及びシステムに関する。
【0002】
【従来の技術】今日、大量の論文、特許など文献を記録
したデータベースにアプローチして、その中から探索要
求を満たす文献だけを漏れなく抽出する技術が必要とさ
れている。この場合に、検索者がキーワードを指定し
て、そのキーワードが含まれている文献を電子的に抽出
するのであるが、その際に、キーワード間の同義語、及
び上位下位関係にある語彙を集めた辞書、いわゆるシソ
ーラスを予め構築しておくことが、効率的な抽出を行な
ううえで望ましい。
【0003】一般にシソーラスの構築技術は、(Α)人
手により構築する方法、(B)文書中における単語の共
起分布を用いて構築する方法、及び(C)辞書を用いて
構築する方法、の大きく3つのアプローチに分類され
る。
【0004】従来は、上記(Α)の方法が主流であっ
た。しかし、この方法では、人手による作成の為、完
成するシソーラスが偏りのあるものになりやすい。膨
大な作成時間が必要となる。非常に一般的な用語だけ
に限ったものであるため、専門用語に関するものはな
い。造語に対応できない等の問題点があった。これに
対して、上記(Β)のアプローチでは、CD−ROΜに
焼かれた辞書を読み、定義語と語義の情報から意味ネッ
トワークを作成するので、人手によらず偏りのないシソ
ーラスを自動的に構築することが可能である。よって、
上記〜の問題を解決している。しかし、辞書にない
専門用語や造語及び合成語を取り扱うことは非常に困難
であるため、上記問題点の〜は解決できなかった。
【0005】更に、上記(C)のアプローチによると、
データである1文書内に出現する単語の共起頻度を計数
しておき、その計数結果を全文書について大小比較する
ことにより単語間の概念関係を抽出する。このアプロー
チによると、上記問題の〜に対応することが可能と
なる。しかし、このアプローチでは、同義語関係にあ
る単語間では、一方が出現すれば他方は出現する必要が
少なくなるので、類似性の高い単語間であってもその類
似度が低下する場合がある。総出現数が大きい単語ほ
ど、上位語になりやすいので、単語間の上位、下位関係
を正確に決定できないという問題があった。
【0006】このような1文献内での共起関係を利用し
てキーワード間の類似度を計算する場合の問題を解決す
べく、グループ内共起関係を利用してキーワード間の類
似度を計算する方法が提案されている(「グループ内共
起関係を利用したキーワード間類似度計算法」(情報学
基礎研究会、34−2(1994)))。
【0007】上記提案の手法によると、予め共起関係を
計数する複数の文書データをその内容毎にグループ分け
をしておくことで、上記問題点〜の解決できるとさ
れている。
【0008】
【発明が解決しようとする課題】しかし、上記文献のシ
ソーラス構築の方法では、単語間の類似度又は同義語の
関係は共起関係を有するグループ内の類似度の計算を基
本としており、上記問題点を完全に解決するに至って
ない。なぜなら、新語・造語・合成語等の未知語を使用
した文献の場合には、グループ内共起関係が比較的少な
いため、類似度の計算に際してグループ利用の意義が小
さくなり、不自然な上位下位関係をとる可能性が生じる
からである。
【0009】この発明は、上述のような課題を解決する
ためになされたもので、その目的は類似度を計数する文
献数が少ない場合でも、グループ内共起関係が比較的少
ない新語・造語・合成語等の未知語についても、正確に
単語間の概念関係を抽出できる単語間概念関係の抽出方
法及びシステムを提供することである。
【0010】
【課題を解決するための手段】請求項1に係る単語間概
念関係の抽出方法は、単語内部に存在する構成文字間の
連接情報を利用することで単語の階層関係を抽出してシ
ソーラスを作成する単語間概念関係の抽出方法におい
て、文書データから単語を切り出すステップと、切り出
された単語から前記連接情報となる連接パスを抽出する
ステップと、前記連接パスの上位下位関係を抽出するス
テップとを含むことを特徴とする。
【0011】請求項2に係る単語間概念関係の抽出シス
テムは、単語内部に存在する構成文字間の連接情報を利
用することで単語の階層関係を抽出してシソーラスを作
成する単語間概念関係の抽出システムにおいて、文書デ
ータを格納する文書データベースと、前記文書データベ
ース中の文書データから単語を切り出す手段と、切り出
された単語を格納する単語ファイルと、前記単語ファイ
ルから前記連接情報となる連接パスを抽出する手段と、
前記連接パスを記録するパスファイルと、前記連接パス
の上位下位関係から単語関係を抽出する手段と、前記単
語関係を記録する関係ファイルとを備えたことを特徴と
する。
【0012】
【発明の実施の形態】以下、添付した図面を参照して、
この発明の実施の形態を詳細に説明する。
【0013】図1は、単語間概念関係の抽出方法の一例
を示す流れ図であり、図2は、単語間概念関係の抽出シ
ステムの一例を示すシステム構成図である。
【0014】文書データベース10には複数の文書が記
憶されている。処理部20では、文書データベース10
から特定の文書を取り出し、単語の切り出し、及び概念
関係の抽出を行なう。表示画面30は、文書、切り出さ
れた単語、あるいは連接パス等を表示する。抽出データ
記憶部40には、抽出された単語ファイル、連接パス
表、概念関係を示す単語関係表などが記憶される。プリ
ンタ50では、文書等の抽出結果を適宜に印字する。キ
ーボード60からは、キーワードなど検索対象となる単
語を入力する。
【0015】次に、図1の流れ図にしたがって、上記単
語間概念関係の抽出システムの動作を説明する。ステッ
プ100では、所定の文書データがデータベースに格納
される。ステップ200では、文書データベース10か
ら特定の文書aを1個取り出す。ステップ300では、
文書aの中の文から文字種の変化と句読点を利用するこ
とで単語を切り出し、一文字だけからなるものと平仮名
だけからなるものを除外する。
【0016】図3は、単語を切り出す方法を説明するた
めの図である。ここに示すように、句読点により文書が
区切れる所と、アルファベットから平仮名、平仮名から
漢字、漢字から平仮名等のように文字種が変化する所で
文書を区切る。
【0017】図4には、単語ファイルに登録された単語
の例を示している。ステップ400では、切り出した単
語を抽出データ記憶部40の単語ファイルに登録する。
以上のステップ100〜400を文書データベース10
中に存在する全文書データがなくなるまで繰り返すこと
で、単語の切り出しが完了する。
【0018】次に、切り出された単語に内在する構成文
字の連接情報を連接パスとして抽出する。ステップ50
0では、抽出データ記憶部40の単語ファイルから処理
部20に単語を読み出して、読み出された単語の構成文
字の連接情報である連接バスを抽出する。そして、ステ
ップ600では、それらを抽出データ記憶部40の連接
パスファイルに記録する。
【0019】図5には、抽出された連接パスの一例を示
している。これは、単語の連接順序を木構造の連結グラ
フで示した情報であり、グラフの根部分を先頭の意味で
NULLとし、各節点に構成文字を記す。枝上の数字
は、そのパスを辿った単語数を示している(以下、この
数字を連接数と呼ぶ)。この結果、グラフの枝部分を辿
ることで、単語内の構成文字の出現頻度と順序とを明記
することが可能となる。
【0020】図5では、図4のように切り出された8つ
の単語から作られる連接パスの一部分を示している。例
えぱ、文字「m」から「a」への枝上の数字が8である
ことは、単語の始まりから見て「ma」となる単語が8
個あることを意味する。
【0021】次に、ステップ700における単語間の概
念関係を抽出する具体的な手順を以下に示す。まず、抽
出データ記憶部40の連接パスファイルに記録されてい
る連接パス表を処理部20に読み出す。そして、NUL
L節点から全連接パスについて、以下のサブステップ7
01〜705を繰り返す。ステップ701では、連接パ
ス表から第n番目の連接パスを選択する。ステップ70
2では、NULL節点から順に辿り、連接数が変化する
節点を探す。ステップ703では、NULL節点から連
接数が変化する節点までを部分単語として切り出し、次
の連接数が変化する節点を探す。ステップ704では、
切り出された全部分単語の連接数の大小比較を行い、大
きい方の部分単語を小さい方の部分単語の上位語とする
関係を張る。
【0022】図6は、図5の連接パス表から抽出された
単語間の概念関係を示す単語関係表である。ステップ8
00では、上位の部分単語と下位の部分単語の対を、抽
出データ記憶部40の単語関係表に記録する。その後、
必要に応じてこの単語関係表を表示画面30に呼び出
し、抽出されている概念関係に基づいて情報検索や情報
生成を容易に行なうことができる。
【0023】たとえば、情報検索時においては、データ
ベースから特定の文書を検索する場合を考えると、検策
キーワードの入力がユーザーの負担になるという問題が
ある。すなわち、「ユーザーがキーワードを思い付きに
くい」という問題や「キーワードの組み合わせにより検
索結果が異なるため、その組み合わせが非常に難しい」
という問題である。この問題に対して、本発明の単語関
係表による単語間の概念関係の抽出結果を利用すること
により、ユーザーから入力されたキーワードの語数を増
加することが可能となるだけでなく、上位概念からの検
索も容易になるため、検索効率が向上する。
【0024】また、情報生成時においては、例えば新た
な文書の作成の場合でも、本発明による抽出結果を利用
することにより、しつこい言い回しや、同一単語のくど
い繰り返しを避けて、読みやすい文書の作成が可能とな
る。
【0025】上記実施の形態によると、実際のテキスト
データから実際に使用されている単語を切り出し、これ
まで不完全にしか取り出すことのできなかった未知語・
造語・合成語の概念関係を抽出することが可能となる。
さらに、人手によらず単語間の概念関係を抽出すること
が可能となるため、先に指摘した従来の問題点〜を
すべて解決できる。とりわけ、これまで困難であった未
知語や造語及び合成語に対して、単語を構成する文字の
連接情報を考慮した関係を抽出することが、本発明によ
り初めて可能となった。
【0026】
【発明の効果】この発明は、以上に説明したように構成
されているので、共起関係のある文献数を計数する方法
ではなしに、単語に内在する情報、具体的には単語を構
成する文字の連接情報を利用することによって、計数す
る文献数に左右されず単語間の概念関係を抽出できる。
したがって、比較的共起文献数の少ない新語・造語・合
成語等の未知語の概念関係をも、正確に抽出することが
できる。
【図面の簡単な説明】
【図1】 この発明の単語間概念関係の抽出方法の一例
を示す流れ図である。
【図2】 単語間概念関係の抽出システムの一例を示す
ブロック図である。
【図3】 単語を切り出す方法を説明するための図であ
る。
【図4】 単語ファイルに登録された単語の例を示して
いる。
【図5】 抽出された連接パスの一例を示している。
【図6】 連接パス表から抽出された単語間の概念関係
を示す単語関係表である。
【符号の説明】
10 文書データベース、20 処理部、30 表示画
面、40 抽出データ記憶部、50 プリンタ、60
キーボード。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 単語内部に存在する構成文字間の連接情
    報を利用することで単語の階層関係を抽出してシソーラ
    スを作成する単語間概念関係の抽出方法において、 文書データから単語を切り出すステップと、 切り出された単語から前記連接情報となる連接パスを抽
    出するステップと、 前記連接パスの上位下位関係を抽出するステップとを含
    むことを特徴とする単語間概念関係の抽出方法。
  2. 【請求項2】 単語内部に存在する構成文字間の連接情
    報を利用することで単語の階層関係を抽出してシソーラ
    スを作成する単語間概念関係の抽出システムにおいて、 文書データを格納する文書データベースと、 前記文書データベース中の文書データから単語を切り出
    す手段と、 切り出された単語を格納する単語ファイルと、 前記単語ファイルから前記連接情報となる連接パスを抽
    出する手段と、 前記連接パスを記録するパスファイルと、 前記連接パスの上位下位関係から単語関係を抽出する手
    段と、 前記単語関係を記録する関係ファイルとを備えたことを
    特徴とする単語間概念関係の抽出システム。
JP7299640A 1995-11-17 1995-11-17 単語間概念関係の抽出方法及びシステム Withdrawn JPH09146955A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7299640A JPH09146955A (ja) 1995-11-17 1995-11-17 単語間概念関係の抽出方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7299640A JPH09146955A (ja) 1995-11-17 1995-11-17 単語間概念関係の抽出方法及びシステム

Publications (1)

Publication Number Publication Date
JPH09146955A true JPH09146955A (ja) 1997-06-06

Family

ID=17875211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7299640A Withdrawn JPH09146955A (ja) 1995-11-17 1995-11-17 単語間概念関係の抽出方法及びシステム

Country Status (1)

Country Link
JP (1) JPH09146955A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243230A (ja) * 2000-02-25 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 類似性判別方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243230A (ja) * 2000-02-25 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 類似性判別方法

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
JP2783558B2 (ja) 要約生成方法および要約生成装置
CN100511215C (zh) 多语种翻译存储器和翻译方法
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6470347B1 (en) Method, system, program, and data structure for a dense array storing character strings
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP5038939B2 (ja) 情報検索システム、方法及びプログラム
JP2007323671A (ja) 中国語テキストにおける単語分割
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
Kallimani et al. Summarizing news paper articles: experiments with ontology-based, customized, extractive text summary and word scoring
JP2000200287A (ja) 文書検索装置
JP2000020537A (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0944523A (ja) 関連語提示装置
JPH0344343B2 (ja)
JPH09319767A (ja) 類義語辞書登録方法
JPH09146955A (ja) 単語間概念関係の抽出方法及びシステム
Luong et al. Word graph-based multi-sentence compression: Re-ranking candidates using frequent words
JP3079844B2 (ja) 全文データベースシステム
JP3022079B2 (ja) 全文データベースシステム
JPH08115330A (ja) 類似文書検索方法および装置
JP2821143B2 (ja) 形態素分解装置
JPH0810452B2 (ja) 日本語対象文固有用語抽出処理装置
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030204