JPH11328182A

JPH11328182A - 関連語自動抽出装置及び方法並びに情報記憶媒体

Info

Publication number: JPH11328182A
Application number: JP10137832A
Authority: JP
Inventors: Hiroko Yamagata; 寛子山形
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1998-05-20
Filing date: 1998-05-20
Publication date: 1999-11-30
Anticipated expiration: 2018-05-20
Also published as: JP3788864B2

Abstract

(57)【要約】【課題】不完全な現状レベルで最も高精度さを出せる
単位で単語、特に複合語の抽出・認定を行うことができ
る関連語自動抽出装置等を提供する。【解決手段】複合語の認定等は、用いる辞書等の影響
を非常に強く受けるが、文節の認定は機械処理でもその
揺らぎは少ない。よって、現状レベルでは、文節を自立
語と付属語とに分けた場合の自立語部分全体を１単語
（＝最長単位）とするのが、最も安定した単位といえ
る。従って、単語認定部３による単語認定を最長単位生
成部４により最長単位で行うことで、現状レベルで、極
めて精度よく安定した単語の抽出が可能となる。もっと
も、最長単位を用いると、頻度の分散を生ずるが、複合
語内頻度／識別情報調整部７による処理で、長い関連語
用単語に含まれる頻度情報等を短い関連語用単語に付加
させることで、実際に最長単位で使用された単語であれ
ば、短い単語でも長い単語でも漏れなく情報が得られ、
頻度情報等の分散を回避できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書検索支援装置
等に応用可能であり、或る文書群から所定のキーワード
に対する関連語を自動的に抽出する関連語自動抽出装置
及び方法並びに情報記憶媒体に関する。

【０００２】

【従来の技術】大規模コーパスから単語の共起関係に基
づいて当該コーパスから関連語をリアルタイムで得るた
めの手法が最近検討されている。日本語に関しては、例
えば、「動的な共起解析を用いた対話的文書検索支援」
（日立丹羽芳樹自然言語処理115-14 情報学基礎43
-6 1996.9.13 pp.41〜48）（以下、文献１という）によ
り報告されている。

【０００３】この文献１等に示される手法の基本的な考
え方は、各文書からキーワードを抽出して各キーワード
の共起文書頻度などから或るキーワードＡとキーワード
Ｂとの関連度を求めるものである。関連度の求め方とし
ては、統計的な手法を用いるのが一般的であり、具体的
には、様々な手法が考えられる。

【０００４】問題は、キーワードの取り出し方である。
キーワードは、一般に、文書内頻度や文書出現頻度など
から決定されるが、以下に説明する本発明では、それ以
前の問題として、単語の認定の仕方に関わる部分を取り
上げるものである。

【０００５】まず、日本語文書は分かち書きされない言
語文書であるため、英文等と異なり、単語の認定の仕方
に関しては、古くから諸説あり、現在においても統一見
解はない。この問題が顕著に現われるのは複合語を扱う
場合である。複合語は、例えば図７に例示するように意
味をなす最小単位が複数個結合して構成された語であ
り、その結合は１回とは限らない。このような複合語に
ついての単語認定の仕方には、例えば、複合語を短い単
位で認定するもの（例えば、国立国語研究所の語彙調査
β単位系）や複合語を長い単位のままで認定するもの
（例えば、国立国語研究所の語彙調査α単位系）があ
る。

【０００６】図７中にも例示するように、何次結合まで
を単語として認めるかで様々な見解が存在する。国立国
語研究所の語彙調査では時代とともに変遷があったもの
の、近年では、基本語彙の把握や用字用語調査といった
目的には前述したβ単位系を用い、専門語や日本語の語
構成の調査には前述したα単位系を用いる方向で統一さ
れつつある。このように、単語の認定方法は唯一に確立
しておらず、目的にあった方法を採用することになる。
もっとも、β単位系、α単位系の何れにしても、国立国
語研究所の語彙調査では、人手チェックが介在すること
が条件となる。

【０００７】ところで、文書中の単語の機械処理による
自動認定に関しては、一般には、形態素解析が用いられ
る。形態素解析には、解析用の辞書を用いる方法と、辞
書を用いない方法とがあるが、何れの方法にしても不十
分である。例えば、辞書を用いる方法の場合、辞書を用
いない方法よりは精度が高いと思われるが、辞書に未登
録の単語を如何に扱うかの問題や、辞書自体の精度によ
って解析精度が大きく左右されるという問題がある。

【０００８】

【発明が解決しようとする課題】このような状況下に、
大量の文書データを処理するためには、単語認定は、人
手ではなく、全て機械処理、例えば形態素解析処理を行
うことが前提といえる。従って、単語の意味や単語知識
を必要とする高度な単語認定は不可能であり、人手の介
在が必要となる国立国語研究所の語彙調査方法は不適と
なる。

【０００９】加えて、全て機械処理する上でも、極力曖
昧さや矛盾がなく、一義的にその単位の単語を切り出す
ことができること、即ち、抽出される単語の単位が統一
されていることが大切であり、かつ、そのような切り出
しとなったという事柄が誰でも容易に理解できること、
が大切であると考えられる。換言すれば、不完全な現状
レベルで最も高精度さを出せる単語認定を行えることが
望ましい。つまり、単に高度な単語認定を前提とするよ
りも、現状における如何なる形態素解析システムを用い
ても結果にあまり大きな変動（差）がなく、安定した単
位でユーザが容易に納得し得る内容であれば十分効果が
あると考えられる。

【００１０】そこで、本発明は、不完全な現状レベルで
最も高精度さを出せる単位で単語、特に複合語の抽出・
認定を極力漏れなく行うことができ、入力されたキーワ
ードに対する適正な関連語の抽出に供することができる
関連語自動抽出装置及び方法並びに情報記憶媒体を提供
することを目的とする。

【００１１】加えて、本発明は、“最長単位”という考
えの下に１単語を認定する場合に、非本質的な差異によ
る頻度情報や出現文書識別情報等の情報の分散を避け
て、適正に関連語の抽出に供することができる関連語自
動抽出装置及び方法並びに情報記憶媒体を提供すること
を目的とする。

【００１２】

【課題を解決するための手段】請求項１記載の発明の関
連語自動抽出装置は、電子化された文書群を格納する文
書データベースと、文書中に出現する文節を自立語と付
属語とに分けた場合の自立語部分全体を１単語とする最
長単位生成部を有して、前記文書データベースに格納さ
れた文書群中で単語認定を行う単語認定手段と、この単
語認定手段により認定された単語中から所定条件の関連
語用単語を抽出する関連語用単語抽出手段と、この関連
語用単語抽出手段により抽出された或る関連語用単語が
当該関連語用単語よりも長い他の関連語用単語中に含ま
れていた場合に当該他の関連語用単語の出現文書識別情
報、頻度情報等の情報を前記或る関連語用単語に付加す
る複合語内頻度／識別情報調整手段と、各文書毎に抽出
され該当する場合には前記複合語内頻度／識別情報調整
手段により付加された関連語用単語を所定の記憶装置に
格納する関連語用単語格納手段と、入力されたキーワー
ドと前記記憶装置に格納された前記関連語用単語との間
の関連度を計算する関連度計算手段と、この関連度計算
手段による関連度の計算結果を出力する結果出力手段と
を備える。請求項３記載の発明の関連語自動抽出方法
は、文書データベースに電子化されて格納されている文
書群に対して、文書中に出現する文節を自立語と付属語
とに分けた場合の自立語部分全体を１単語とする最長単
位生成工程を含み、前記文書データベースに格納された
文書群中で単語認定を行う単語認定工程と、この単語認
定工程により認定された単語中から所定条件の関連語用
単語を抽出する関連語用単語抽出工程と、この関連語用
単語抽出工程により抽出された或る関連語用単語が当該
関連語用単語よりも長い他の関連語用単語中に含まれて
いた場合に当該他の関連語用単語の出現文書識別情報、
頻度情報等の情報を前記或る関連語用単語に付加する複
合語内頻度／識別情報調整工程と、各文書毎に抽出され
該当する場合には前記複合語内頻度／識別情報調整工程
により付加された関連語用単語を所定の記憶装置に格納
する関連語用単語格納工程と、入力されたキーワードと
前記記憶装置に格納された前記関連語用単語との間の関
連度を計算する関連度計算工程と、この関連度計算工程
による関連度の計算結果を出力装置に出力する結果出力
工程とよりなる。

【００１３】一般に、複合語の認定やその内部構成の認
定は、搭載されている辞書や文法の影響を非常に強く受
けて揺らぎが大きいが、文節の認定は機械処理によって
もその揺らぎは少ないといえる。特に、助動詞相当表現
や接続詞的表現についてはまだ揺らぎがあるものの、助
詞についてはほぼ統一見解が得られているといってよ
い。よって、現状レベルでは、文節を自立語と助詞、助
動詞等の付属語とに分けた場合の自立語部分全体を１単
語（＝最長単位）とするのが、最も安定した単位として
考えられる。従って、請求項１記載の発明の関連語自動
抽出装置又は請求項３記載の発明の関連語自動抽出方法
によれば、単語認定に関して最長単位生成部又は最長単
位生成工程を有して上記の処理を行うので、現状レベル
で、極めて精度よく安定した単語（関連語用単語）の抽
出が可能となる。この場合、最長単位なる概念を用いて
処理すると、頻度の分散を生ずるが、複合語内頻度／識
別情報調整手段又は複合語内頻度／識別情報調整工程に
よる処理で、長い関連語用単語に含まれる頻度情報等を
短い関連語用単語に付加させることで、実際に最長単位
で使用された単語であれば、短い単語であっても長い単
語であっても漏れなく情報を得ることができ、頻度情報
等の分散を回避し、良好なる関連語抽出処理に供するこ
とができる。

【００１４】このような請求項１記載の発明の関連語自
動抽出装置又は請求項３記載の発明の関連語自動抽出方
法は、請求項５記載の発明の情報記憶媒体に記憶された
プログラムをコンピュータに読み取らせることによって
も実行される。即ち、請求項５記載の発明の情報記憶媒
体は、コンピュータに読み取り可能なプログラムを記憶
しており、このプログラムは文書データベースに電子化
されて格納されている文書群中から入力された所定のキ
ーワードに対する関連語を抽出する処理を前記コンピュ
ータに実行させるものであり、前記関連語を抽出する処
理は、文書データベースに電子化されて格納されている
文書群に対して、文書中に出現する文節を自立語と付属
語とに分けた場合の自立語部分全体を１単語とする最長
単位生成処理を含み、前記文書データベースに格納され
た文書群中で単語認定を行う単語認定処理と、この単語
認定処理により認定された単語中から所定条件の関連語
用単語を抽出する関連語用単語抽出処理と、この関連語
用単語抽出処理により抽出された或る関連語用単語が当
該関連語用単語よりも長い他の関連語用単語中に含まれ
ていた場合に当該他の関連語用単語の出現文書識別情
報、頻度情報等の情報を前記或る関連語用単語に付加す
る複合語内頻度／識別情報調整処理と、各文書毎に抽出
され該当する場合には前記複合語内頻度／識別情報調整
処理により付加された関連語用単語を所定の記憶装置に
格納する関連語用単語格納処理と、入力されたキーワー
ドと前記記憶装置に格納された前記関連語用単語との間
の関連度を計算する関連度計算処理と、この関連度計算
処理による関連度の計算結果を出力装置に出力する結果
出力処理とよりなる。

【００１５】請求項２記載の発明は、請求項１記載の関
連語自動抽出装置における前記単語認定手段は、前記最
長単位生成部により生成された最長単位の単語に対して
所定条件に基づき縮退処理を行う縮退処理部を有する。
請求項４記載の発明は、請求項３記載の関連語自動抽出
方法における前記単語認定工程は、前記最長単位生成工
程により生成された最長単位の単語に対して所定条件に
基づき縮退処理を行う縮退処理工程を含む。

【００１６】前述した請求項１，３又は５記載の発明に
よる場合、文書データベースに格納された文書中に実際
に最長単位として出現した単語は全てフォローされる
が、現実には、期待される文字列がなかなか現われない
場合がある。例えば、人名等に関して、“○○○○○”
という単語が一度でも最長単位で現われればその複合語
“○○○○○大統領”“○○○○○陣営”の情報を“○
○○○○”に付加することができるが、実際には、“○
○○○○が…した”と呼び捨て形で表現されることは少
なく、“○○○○○氏が…”“○○○○○さんが…”と
いうように人名接尾辞がついて表現されることが多い。
このままでは、“○○○○○氏”と“○○○○○大統
領”とは関係付けができないので、“○○○○○”を得
るための処理が必要となる。ここに、請求項２記載の発
明の関連語自動抽出装置又は請求項４記載の発明の関連
語自動抽出方法によれば、縮退処理部又は縮退処理工程
を有して、人名接尾辞などを所定条件の下に削除（縮
退）することで、最長単位相当の単語を生成してやるこ
とにより、非本質的な差異による頻度情報や出現文書識
別情報の分散を避けることができる。

【００１７】このような請求項２記載の発明の関連語自
動抽出装置又は請求項４記載の発明の関連語自動抽出方
法は、請求項６記載の発明の情報記憶媒体に記憶された
プログラムをコンピュータに読み取らせることによって
も実行される。即ち、請求項６記載の発明は、請求項５
記載の情報記憶媒体において、前記単語認定処理には、
前記最長単位生成処理により生成された最長単位の単語
に対して所定条件に基づき縮退処理を行う縮退処理を含
む。

【００１８】

【発明の実施の形態】本発明の一実施の形態を図１ない
し図６に基づいて説明する。図１は、本実施の形態の関
連語自動抽出装置１の構成を機能ブロックで示すブロッ
ク図である。まず、文書データベース２には電子化され
た文書群が格納されている。単語認定部３は、本発明に
おける単語認定手段、或いは、単語認定工程の処理機能
を有して、文書データベース２中に格納されている文書
群に関して単語認定処理を行う。この単語認定を機械処
理で自動的に行うため、形態素解析法などが用いられる
が、本実施の形態では、文書中の文節を認定できればよ
いので、形態素解析よりも浅い解析法によるものであっ
てもよい。ここに、本実施の形態においては、この単語
認定部３中に最長単位生成部４と縮退処理部５とが含ま
れている。最長単位生成部４は、本発明における最長単
位生成部、或いは、最長単位生成工程の処理機能を有
し、基本的には、文書中に出現する文節を自立語と付属
語とに分けた場合の自立語部分全体を１単語とする処理
を実行する。即ち、接辞や名詞連続を一つの単語として
まとめ上げる等の処理を通じて最長単位を生成するもの
である。縮退処理部５は、本発明における縮退処理部、
或いは、縮退処理工程の処理機能を有し、基本的には、
人名接尾辞など非本質的な差異によって得たい単語が得
られない不具合をなくすために所定条件に適合する接辞
の削除（縮退）処理を実行する。所定条件の具体例とし
ては、例えば、人名部分が２文字以上であれば接尾辞の
“さん”“たち（達）”“ら（等）”などを削除するこ
とが挙げられる。ちなみに、人名部分が１文字だけの場
合には、接尾辞をとると１文字となり単語として不都合
な場合があるため、対象外としている。また、単語によ
っては、“さん”付けで熟しているものもあるので、例
外として縮退処理を実行しないように条件付けられてい
る。

【００１９】関連語用単語抽出部６は、本発明における
関連語用単語抽出手段、或いは、関連語用単語抽出工程
の処理機能を有し、単語認定部３により認定された単語
中から所定条件の関連語用単語を抽出する処理を実行す
る。関連語用単語の抽出条件は、各システム毎に任意に
設定される。複合語内頻度／ＩＤ調整部７は、本発明に
おける複合語内頻度／識別情報調整手段、或いは、複合
語内頻度／識別情報調整工程の処理機能を有する。この
複合語内頻度／ＩＤ調整部７は、関連語用単語抽出部６
により抽出された或る関連語用単語Ｘが当該関連語用単
語Ｘよりも長い他の関連語用単語Ｙ中に含まれていた場
合には、当該他の関連語用単語Ｙの出現文書ＩＤ情報、
頻度情報等の情報を関連語用単語Ｘに付加する処理を実
行する。

【００２０】文書別関連語用単語情報格納部８は、本発
明における関連語用単語格納手段、或いは、関連語用単
語格納工程の処理機能を有し、関連語用単語抽出部６及
び複合語内頻度／ＩＤ調整部７の処理を経て各文書毎に
抽出された単語（関連語用単語）をインデックスファイ
ル、例えば転置ファイル等の所定の記憶装置に格納する
処理を実行する。

【００２１】関連度計算部９は、本発明における関連度
計算手段、或いは、関連度計算工程の処理機能を有し、
キーボード等の入力部１０を通じてユーザにより入力さ
れたキーワードと、文書別関連語用単語情報格納部８に
より記憶装置に格納された関連語用単語との間の関連度
を計算する処理を実行する。関連度の計算には、例え
ば、共起頻度などの情報が用いられる。

【００２２】関連語表示部１１は、本発明における結果
出力手段、或いは、結果出力工程の処理機能を有し、関
連度計算部９による関連度の計算結果をディスプレイ等
の表示装置（出力装置）に表示出力する処理を実行す
る。即ち、文書群中から抽出された関連語用単語群から
ユーザにより入力されたキーワードに関係の深い関連語
用単語を関連語として表示させる。もっとも、結果出力
の形態はディスプレイ表示に限らず、プリンタ等を通じ
た印字出力形態であってもよい。

【００２３】ここで、文書別関連語用単語情報格納部８
により単語情報が格納されて関連度計算に使用される記
憶装置なるインデックスファイルとしては、例えば、転
置ファイル１２ａ、ダイレクトファイル１２ｂ、或い
は、頻度ファイル１２ｃ等を想定できる。転置ファイル
１２ａとは、図２（ａ）にそのイメージを示す図示の如
く、単語が第１フィールドに来て、その単語に対応する
出現文書ＩＤが第２フィールドに記されるようなイメー
ジで情報を格納するものである。文書別関連語用単語情
報格納部８において本ファイルは作成されるが、検索シ
ステムなどに応用される場合には検索エンジンの転置フ
ァイルを流用するようにしてもよい。ダイレクトファイ
ル１２ｂとは、図２（ｂ）にそのイメージを示す如く、
文書ＩＤが第１フィールドに来て、各文書毎に抽出した
関連語用単語（保有単語）情報が第２フィールドに格納
されるような形態のものである。文書別関連語用単語情
報格納部８において本ファイルは作成される。頻度ファ
イル１２ｃは、図（ｃ）にそのイメージを示す如く、各
単語（関連語用単語）の出現文書頻度を記したようなも
ので、文書別関連語用単語情報格納部８において本ファ
イルは作成される。

【００２４】従って、文書データベース２やファイル１
２ａ〜１２ｃとツールとの関係で表現すれば、図１に機
能ブロックで図示した本実施の形態の関連語自動抽出装
置１は、実際には、図３（ａ）又は（ｂ）に示すような
形態として表現することができる。即ち、文書データベ
ース２に格納された文書群について、単語認定部３、関
連語用単語抽出部６、複合語内頻度／ＩＤ調整部７によ
る処理をインデックスファイルの作成処理として実行
し、その結果を何れかのファイル１２ａ〜１２ｃにイン
デックスファイルとして保有し、保有した情報を関連度
計算部９による関連度計算に供する形態となる。或い
は、ファイル１２ａ〜１２ｃの何れかにインデックスフ
ァイルとして保有された情報とユーザから指定された単
語情報（キーワード）とを用いて、関連度付きで関連語
を抽出する処理を実行する形態となる。

【００２５】次に、関連語自動抽出装置１による関連語
用単語抽出処理の具体例について図４及び図５を参照し
て説明する。図４は文書データベース２に格納された文
書群を〔文書１〕〜〔文書６〕としてその具体例を新聞
からの抜粋例として示すものである（本明細書におい
て、記事内容は意味を有しない）。もっとも、この抜粋
例はポイント個所を示すだけであり、極めて短い文書例
となっているが、現実的には、１文書が新聞における１
記事相当と考えるのが妥当である。このような具体的な
文書群に対して、単語認定部３の最長単位生成部４及び
縮退処理部５の処理を経ることで最長単位での切り出し
を行った結果を示すと、図５（ａ）のようになる。即
ち、各文書について文節認定の下にその文節中の自立語
部分全体が１単語＝最長単位として抽出されている。加
えて、〔文書６〕の例では、縮退処理部５による縮退処
理を経ることにより“クリントンさん”が“クリント
ン”とされて最長単位の単語と認定されている。このよ
うな認定結果に対して、複合語内頻度／ＩＤ調整部７に
よる情報の調整処理を経た結果を示すと、図５（ｂ）の
ようになる。即ち、各単語（関連語用単語）は自己より
長い単語（関連語用単語）に含有されていれば、頻度情
報と文書出現ＩＤ情報とが付加される。例えば、“クリ
ントン”には“クリントン大統領””米クリントン政
権”等の関連語用単語の頻度情報と文書出現ＩＤ情報と
が付加される如く処理される。よって、単語認定部３で
の最長単位による単語認定だけでは頻度の分散を生ずる
が、このように長い関連語用単語に含まれる頻度情報等
を短い関連語用単語に付加させることにより、実際に最
長単位で使用された単語であれば、短い単語であっても
長い単語であっても漏れなく情報を得ることができ、頻
度情報の分散を回避することができる。この結果、適正
な関連語抽出処理を行えるものとなる。

【００２６】ところで、本実施の形態の関連語自動抽出
装置１は、そのハードウェア構成としては、１個のコン
ピュータシステムを利用することにより実現される。こ
のコンピュータシステムは、図６に示すように、コンピ
ュータの主体としてＣＰＵ（Ｃentral Ｐrocessing Ｕn
it）２１を有しており、このＣＰＵ２１には、バスライ
ン２２により、ＲＯＭ（Ｒead Ｏnly Ｍemory）２３、
ＲＡＭ（Ｒandom Ａccess Ｍemory）２４、ＨＤＤ（Ｈa
rd Ｄisc Ｄrive）２５、ＦＤ（Ｆloppy Ｄisc）２６が
装填されるＦＤＤ（ＦＤＤrive）２７、ＣＤ‐ＲＯＭ
２８が装填されるＣＤ‐ＲＯＭドライブ２９、マウス３
０が接続されたキーボード３１、ディスプレイ３２、通
信Ｉ／Ｆ（Ｉnterface）３３等が接続されている。３４
はファイル１２ａ〜１２ｃ等を含むファイル（メモリ）
である。

【００２７】従って、本実施の形態のコンピュータシス
テムでは、予め記憶されたソフトウェアをＣＰＵ２１に
提供できる情報記憶媒体としては、ＲＯＭ２３、ＲＡＭ
２４、ＨＤＤ２５、ＦＤ２６、ＣＤ‐ＲＯＭ２８等を有
している。具体例としては、ＣＯＵ２１に各種の処理動
作を実行させるための制御プログラムがソフトウェアと
して予め設定されており、このような制御プログラム
は、例えば、ＣＤ‐ＲＯＭ２８に予め格納されている。
このようなソフトウェアはＨＤＤ２５に予めインストー
ルされており、コンピュータシステムの起動時にＲＡＭ
２４に複写されて動作時にＣＰＵ２１に読み取られる。
このようにＣＰＵ２１が各種のプログラムを読み取って
対応する処理を実行することにより、各種の手段或いは
工程の処理機能が実現されるので、当該コンピュータシ
ステムが前述したような関連語自動抽出装置１として動
作することになる。

【００２８】もっとも、ソフトウェアをＣＰＵ２１に提
供する情報記憶媒体としては、ＣＰＵ２１がアクセスで
きるものであればよく、例えば、このようなソフトウェ
アをＣＤ‐ＲＯＭ２８からＣＰＵ２１に利用させる形態
であってもよく、或いは、予めＲＯＭ２３に固定的に格
納しておくようにしてよく、さらには、複数の情報記憶
媒体に分散させておいてもよい。

【００２９】

【発明の効果】請求項１，３及び５記載の発明によれ
ば、文書中からの単語認定に機械処理を行っても認定の
揺らぎの少ない最長単位を利用するようにしたので、現
状レベルで、極めて精度よく安定した関連語用単語の抽
出が可能となり、かつ、複合語内頻度／識別情報調整処
理を行うので、実際に最長単位で使用された単語であれ
ば、短い単語であっても長い単語であっても漏れなくそ
の情報を得ることができ、よって、頻度情報等の分散を
回避し、良好なる関連語抽出処理を行わせることができ
る。

【００３０】請求項２，４及び６記載の発明によれば、
請求項１，３及び５記載の発明に加えて、縮退処理を通
じて、人名接尾辞などを所定条件の下に削除すること
で、最長単位相当の単語を生成するようにしたので、非
本質的な差異による頻度情報や出現文書識別情報の分散
を避けることができ、良好なる関連語抽出処理を行わせ
ることができる。

【図面の簡単な説明】

【図１】本発明の一実施の形態の関連語自動抽出装置の
構成を機能ブロックで示すブロック図である。

【図２】インデックスファイルの構成例をイメージ的に
示す模式図である。

【図３】関連語自動抽出装置の構成をツールとファイル
との関係で表現して示す模式的なブロック図である。

【図４】具体的な文書例を示す説明図である。

【図５】（ａ）は最長単位生成及び縮退処理後の単語切
り出し例を示す説明図、（ｂ）は複合語内頻度／ＩＤ調
整処理後の単語例を示す説明図である。

【図６】コンピュータシステムとしての構成例を示すブ
ロック図である。

【図７】従来の複合語の扱い例を示す説明図である。

【符号の説明】

２文書データベース３単語抽出手段、単語抽出工程４最長単位生成部、最長単位生成工程５縮退処理部、縮退処理工程６関連語用単語抽出手段、関連語用単語抽出工程７複合語内頻度／識別情報調整手段、複合語内頻
度／識別情報調整工程８関連語用単語格納手段、関連語用単語格納工程１０関連度計算手段、関連度計算工程１１結果出力手段、結果出力工程１２ａ〜１２ｃ記憶装置２１コンピュータ２３〜２６，２８情報記憶媒体

Claims

【特許請求の範囲】

【請求項１】電子化された文書群を格納する文書デー
タベースと、文書中に出現する文節を自立語と付属語とに分けた場合
の自立語部分全体を１単語とする最長単位生成部を有し
て、前記文書データベースに格納された文書群中で単語
認定を行う単語認定手段と、この単語認定手段により認定された単語中から所定条件
の関連語用単語を抽出する関連語用単語抽出手段と、この関連語用単語抽出手段により抽出された或る関連語
用単語が当該関連語用単語よりも長い他の関連語用単語
中に含まれていた場合に当該他の関連語用単語の出現文
書識別情報、頻度情報等の情報を前記或る関連語用単語
に付加する複合語内頻度／識別情報調整手段と、各文書毎に抽出され該当する場合には前記複合語内頻度
／識別情報調整手段により付加された関連語用単語を所
定の記憶装置に格納する関連語用単語格納手段と、入力されたキーワードと前記記憶装置に格納された前記
関連語用単語との間の関連度を計算する関連度計算手段
と、この関連度計算手段による関連度の計算結果を出力する
結果出力手段と、を備える関連語自動抽出装置。
【請求項２】前記単語認定手段は、前記最長単位生成
部により生成された最長単位の単語に対して所定条件に
基づき縮退処理を行う縮退処理部を有する請求項１記載
の関連語自動抽出装置。
【請求項３】文書データベースに電子化されて格納さ
れている文書群に対して、文書中に出現する文節を自立
語と付属語とに分けた場合の自立語部分全体を１単語と
する最長単位生成工程を含み、前記文書データベースに
格納された文書群中で単語認定を行う単語認定工程と、この単語認定工程により認定された単語中から所定条件
の関連語用単語を抽出する関連語用単語抽出工程と、この関連語用単語抽出工程により抽出された或る関連語
用単語が当該関連語用単語よりも長い他の関連語用単語
中に含まれていた場合に当該他の関連語用単語の出現文
書識別情報、頻度情報等の情報を前記或る関連語用単語
に付加する複合語内頻度／識別情報調整工程と、各文書毎に抽出され該当する場合には前記複合語内頻度
／識別情報調整工程により付加された関連語用単語を所
定の記憶装置に格納する関連語用単語格納工程と、入力されたキーワードと前記記憶装置に格納された前記
関連語用単語との間の関連度を計算する関連度計算工程
と、この関連度計算工程による関連度の計算結果を出力装置
に出力する結果出力工程と、よりなる関連語自動抽出方
法。
【請求項４】前記単語認定工程は、前記最長単位生成
工程により生成された最長単位の単語に対して所定条件
に基づき縮退処理を行う縮退処理工程を含む請求項３記
載の関連語自動抽出方法。
【請求項５】コンピュータに読み取り可能なプログラ
ムを記憶しており、このプログラムは文書データベース
に電子化されて格納されている文書群中から入力された
所定のキーワードに対する関連語を抽出する処理を前記
コンピュータに実行させるものであり、前記関連語を抽出する処理は、文書データベースに電子化されて格納されている文書群
に対して、文書中に出現する文節を自立語と付属語とに
分けた場合の自立語部分全体を１単語とする最長単位生
成処理を含み、前記文書データベースに格納された文書
群中で単語認定を行う単語認定処理と、この単語認定処理により認定された単語中から所定条件
の関連語用単語を抽出する関連語用単語抽出処理と、この関連語用単語抽出処理により抽出された或る関連語
用単語が当該関連語用単語よりも長い他の関連語用単語
中に含まれていた場合に当該他の関連語用単語の出現文
書識別情報、頻度情報等の情報を前記或る関連語用単語
に付加する複合語内頻度／識別情報調整処理と、各文書毎に抽出され該当する場合には前記複合語内頻度
／識別情報調整処理により付加された関連語用単語を所
定の記憶装置に格納する関連語用単語格納処理と、入力されたキーワードと前記記憶装置に格納された前記
関連語用単語との間の関連度を計算する関連度計算処理
と、この関連度計算処理による関連度の計算結果を出力装置
に出力する結果出力処理と、よりなる情報記憶媒体。
【請求項６】前記単語認定処理は、前記最長単位生成
処理により生成された最長単位の単語に対して所定条件
に基づき縮退処理を行う縮退処理を含む請求項５記載の
情報記憶媒体。