JP3788864B2

JP3788864B2 - 関連語自動抽出装置及び方法並びに情報記憶媒体

Info

Publication number: JP3788864B2
Application number: JP13783298A
Authority: JP
Inventors: 寛子山形
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1998-05-20
Filing date: 1998-05-20
Publication date: 2006-06-21
Anticipated expiration: 2018-05-20
Also published as: JPH11328182A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書検索支援装置等に応用可能であり、或る文書群から所定のキーワードに対する関連語を自動的に抽出する関連語自動抽出装置及び方法並びに情報記憶媒体に関する。
【０００２】
【従来の技術】
大規模コーパスから単語の共起関係に基づいて当該コーパスから関連語をリアルタイムで得るための手法が最近検討されている。日本語に関しては、例えば、「動的な共起解析を用いた対話的文書検索支援」（日立丹羽芳樹自然言語処理115-14 情報学基礎43-6 1996.9.13 pp.41〜48）（以下、文献１という）により報告されている。
【０００３】
この文献１等に示される手法の基本的な考え方は、各文書からキーワードを抽出して各キーワードの共起文書頻度などから或るキーワードＡとキーワードＢとの関連度を求めるものである。関連度の求め方としては、統計的な手法を用いるのが一般的であり、具体的には、様々な手法が考えられる。
【０００４】
問題は、キーワードの取り出し方である。キーワードは、一般に、文書内頻度や文書出現頻度などから決定されるが、以下に説明する本発明では、それ以前の問題として、単語の認定の仕方に関わる部分を取り上げるものである。
【０００５】
まず、日本語文書は分かち書きされない言語文書であるため、英文等と異なり、単語の認定の仕方に関しては、古くから諸説あり、現在においても統一見解はない。この問題が顕著に現われるのは複合語を扱う場合である。複合語は、例えば図７に例示するように意味をなす最小単位が複数個結合して構成された語であり、その結合は１回とは限らない。このような複合語についての単語認定の仕方には、例えば、複合語を短い単位で認定するもの（例えば、国立国語研究所の語彙調査β単位系）や複合語を長い単位のままで認定するもの（例えば、国立国語研究所の語彙調査α単位系）がある。
【０００６】
図７中にも例示するように、何次結合までを単語として認めるかで様々な見解が存在する。国立国語研究所の語彙調査では時代とともに変遷があったものの、近年では、基本語彙の把握や用字用語調査といった目的には前述したβ単位系を用い、専門語や日本語の語構成の調査には前述したα単位系を用いる方向で統一されつつある。このように、単語の認定方法は唯一に確立しておらず、目的にあった方法を採用することになる。もっとも、β単位系、α単位系の何れにしても、国立国語研究所の語彙調査では、人手チェックが介在することが条件となる。
【０００７】
ところで、文書中の単語の機械処理による自動認定に関しては、一般には、形態素解析が用いられる。形態素解析には、解析用の辞書を用いる方法と、辞書を用いない方法とがあるが、何れの方法にしても不十分である。例えば、辞書を用いる方法の場合、辞書を用いない方法よりは精度が高いと思われるが、辞書に未登録の単語を如何に扱うかの問題や、辞書自体の精度によって解析精度が大きく左右されるという問題がある。
【０００８】
【発明が解決しようとする課題】
このような状況下に、大量の文書データを処理するためには、単語認定は、人手ではなく、全て機械処理、例えば形態素解析処理を行うことが前提といえる。従って、単語の意味や単語知識を必要とする高度な単語認定は不可能であり、人手の介在が必要となる国立国語研究所の語彙調査方法は不適となる。
【０００９】
加えて、全て機械処理する上でも、極力曖昧さや矛盾がなく、一義的にその単位の単語を切り出すことができること、即ち、抽出される単語の単位が統一されていることが大切であり、かつ、そのような切り出しとなったという事柄が誰でも容易に理解できること、が大切であると考えられる。換言すれば、不完全な現状レベルで最も高精度さを出せる単語認定を行えることが望ましい。つまり、単に高度な単語認定を前提とするよりも、現状における如何なる形態素解析システムを用いても結果にあまり大きな変動（差）がなく、安定した単位でユーザが容易に納得し得る内容であれば十分効果があると考えられる。
【００１０】
そこで、本発明は、不完全な現状レベルで最も高精度さを出せる単位で単語、特に複合語の抽出・認定を極力漏れなく行うことができ、入力されたキーワードに対する適正な関連語の抽出に供することができる関連語自動抽出装置及び方法並びに情報記憶媒体を提供することを目的とする。
【００１１】
加えて、本発明は、“最長単位”という考えの下に１単語を認定する場合に、非本質的な差異による頻度情報や出現文書識別情報等の情報の分散を避けて、適正に関連語の抽出に供することができる関連語自動抽出装置及び方法並びに情報記憶媒体を提供することを目的とする。
【００１２】
【課題を解決するための手段】
請求項１記載の発明の関連語自動抽出装置は、入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する関連語自動抽出装置において、文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納手段と、前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を１単語として切り出して前記関連語用単語を生成する単語認定手段と、この単語認定手段により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度／識別情報調整手段と、を備え、前記関連語用単語格納手段は、前記複合語内頻度／識別情報調整手段で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する。請求項３記載の発明の関連語自動抽出方法は、入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する関連語自動抽出装置による関連語自動抽出方法において、前記関連語自動抽出装置が備える関連語用単語格納手段が、文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納工程と、前記関連語自動抽出装置が備える単語認定手段が、前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を１単語として切り出して前記関連語用単語を生成する単語認定工程と、前記関連語自動抽出装置が備える複合語内頻度／識別情報調整手段が、前記単語認定工程により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度／識別情報調整工程と、よりなり、前記関連語用単語格納工程は、前記複合語内頻度／識別情報調整工程で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する。
【００１３】
一般に、複合語の認定やその内部構成の認定は、搭載されている辞書や文法の影響を非常に強く受けて揺らぎが大きいが、文節の認定は機械処理によってもその揺らぎは少ないといえる。特に、助動詞相当表現や接続詞的表現についてはまだ揺らぎがあるものの、助詞についてはほぼ統一見解が得られているといってよい。よって、現状レベルでは、文節を自立語と助詞、助動詞等の付属語とに分けた場合の自立語部分全体を１単語（＝最長単位）とするのが、最も安定した単位として考えられる。従って、請求項１記載の発明の関連語自動抽出装置又は請求項３記載の発明の関連語自動抽出方法によれば、単語認定に関して最長単位生成部又は最長単位生成工程を有して上記の処理を行うので、現状レベルで、極めて精度よく安定した単語（関連語用単語）の抽出が可能となる。この場合、最長単位なる概念を用いて処理すると、頻度の分散を生ずるが、複合語内頻度／識別情報調整手段又は複合語内頻度／識別情報調整工程による処理で、長い関連語用単語に含まれる頻度情報等を短い関連語用単語に付加させることで、実際に最長単位で使用された単語であれば、短い単語であっても長い単語であっても漏れなく情報を得ることができ、頻度情報等の分散を回避し、良好なる関連語抽出処理に供することができる。
【００１４】
このような請求項１記載の発明の関連語自動抽出装置又は請求項３記載の発明の関連語自動抽出方法は、請求項５記載の発明の情報記憶媒体に記憶されたプログラムをコンピュータに読み取らせることによっても実行される。即ち、請求項５記載の発明の情報記憶媒体は、入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する処理をコンピュータに実行させるプログラムを記憶しているコンピュータに読み取り可能な情報記憶媒体において、文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納処理と、前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を１単語として切り出して前記関連語用単語を生成する単語認定処理と、この単語認定処理により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度／識別情報調整処理と、を前記コンピュータに実行させるプログラムを記憶していて、前記関連語用単語格納処理は、前記複合語内頻度／識別情報調整処理で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する。
【００１５】
請求項２記載の発明は、請求項１記載の関連語自動抽出装置における前記単語認定手段は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理部を有する。請求項４記載の発明は、請求項３記載の関連語自動抽出方法における前記単語認定工程は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理工程を含む。
【００１６】
前述した請求項１，３又は５記載の発明による場合、文書データベースに格納された文書中に実際に最長単位として出現した単語は全てフォローされるが、現実には、期待される文字列がなかなか現われない場合がある。例えば、人名等に関して、“○○○○○”という単語が一度でも最長単位で現われればその複合語“○○○○○大統領”“○○○○○陣営”の情報を“○○○○○”に付加することができるが、実際には、“○○○○○が…した”と呼び捨て形で表現されることは少なく、“○○○○○氏が…”“○○○○○さんが…”というように人名接尾辞がついて表現されることが多い。このままでは、“○○○○○氏”と“○○○○○大統領”とは関係付けができないので、“○○○○○”を得るための処理が必要となる。ここに、請求項２記載の発明の関連語自動抽出装置又は請求項４記載の発明の関連語自動抽出方法によれば、縮退処理部又は縮退処理工程を有して、人名接尾辞などを所定条件の下に削除（縮退）することで、最長単位相当の単語を生成してやることにより、非本質的な差異による頻度情報や出現文書識別情報の分散を避けることができる。
【００１７】
このような請求項２記載の発明の関連語自動抽出装置又は請求項４記載の発明の関連語自動抽出方法は、請求項６記載の発明の情報記憶媒体に記憶されたプログラムをコンピュータに読み取らせることによっても実行される。即ち、請求項６記載の発明は、請求項５記載の情報記憶媒体において、前記単語認定処理は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理を含む。
【００１８】
【発明の実施の形態】
本発明の一実施の形態を図１ないし図６に基づいて説明する。図１は、本実施の形態の関連語自動抽出装置１の構成を機能ブロックで示すブロック図である。まず、文書データベース２には電子化された文書群が格納されている。単語認定部３は、本発明における単語認定手段、或いは、単語認定工程の処理機能を有して、文書データベース２中に格納されている文書群に関して単語認定処理を行う。この単語認定を機械処理で自動的に行うため、形態素解析法などが用いられるが、本実施の形態では、文書中の文節を認定できればよいので、形態素解析よりも浅い解析法によるものであってもよい。ここに、本実施の形態においては、この単語認定部３中に最長単位生成部４と縮退処理部５とが含まれている。最長単位生成部４は、本発明における最長単位生成部、或いは、最長単位生成工程の処理機能を有し、基本的には、文書中に出現する文節を自立語と付属語とに分けた場合の自立語部分全体を１単語とする処理を実行する。即ち、接辞や名詞連続を一つの単語としてまとめ上げる等の処理を通じて最長単位を生成するものである。縮退処理部５は、本発明における縮退処理部、或いは、縮退処理工程の処理機能を有し、基本的には、人名接尾辞など非本質的な差異によって得たい単語が得られない不具合をなくすために所定条件に適合する接辞の削除（縮退）処理を実行する。所定条件の具体例としては、例えば、人名部分が２文字以上であれば接尾辞の“さん”“たち（達）”“ら（等）”などを削除することが挙げられる。ちなみに、人名部分が１文字だけの場合には、接尾辞をとると１文字となり単語として不都合な場合があるため、対象外としている。また、単語によっては、“さん”付けで熟しているものもあるので、例外として縮退処理を実行しないように条件付けられている。
【００１９】
関連語用単語抽出部６は、本発明における関連語用単語抽出手段、或いは、関連語用単語抽出工程の処理機能を有し、単語認定部３により認定された単語中から所定条件の関連語用単語を抽出する処理を実行する。関連語用単語の抽出条件は、各システム毎に任意に設定される。複合語内頻度／ＩＤ調整部７は、本発明における複合語内頻度／識別情報調整手段、或いは、複合語内頻度／識別情報調整工程の処理機能を有する。この複合語内頻度／ＩＤ調整部７は、関連語用単語抽出部６により抽出された或る関連語用単語Ｘが当該関連語用単語Ｘよりも長い他の関連語用単語Ｙ中に含まれていた場合には、当該他の関連語用単語Ｙの出現文書ＩＤ情報、頻度情報等の情報を関連語用単語Ｘに付加する処理を実行する。
【００２０】
文書別関連語用単語情報格納部８は、本発明における関連語用単語格納手段、或いは、関連語用単語格納工程の処理機能を有し、関連語用単語抽出部６及び複合語内頻度／ＩＤ調整部７の処理を経て各文書毎に抽出された単語（関連語用単語）をインデックスファイル、例えば転置ファイル等の所定の記憶装置に格納する処理を実行する。
【００２１】
関連度計算部９は、本発明における関連度計算手段、或いは、関連度計算工程の処理機能を有し、キーボード等の入力部１０を通じてユーザにより入力されたキーワードと、文書別関連語用単語情報格納部８により記憶装置に格納された関連語用単語との間の関連度を計算する処理を実行する。関連度の計算には、例えば、共起頻度などの情報が用いられる。
【００２２】
関連語表示部１１は、本発明における結果出力手段、或いは、結果出力工程の処理機能を有し、関連度計算部９による関連度の計算結果をディスプレイ等の表示装置（出力装置）に表示出力する処理を実行する。即ち、文書群中から抽出された関連語用単語群からユーザにより入力されたキーワードに関係の深い関連語用単語を関連語として表示させる。もっとも、結果出力の形態はディスプレイ表示に限らず、プリンタ等を通じた印字出力形態であってもよい。
【００２３】
ここで、文書別関連語用単語情報格納部８により単語情報が格納されて関連度計算に使用される記憶装置なるインデックスファイルとしては、例えば、転置ファイル１２ａ、ダイレクトファイル１２ｂ、或いは、頻度ファイル１２ｃ等を想定できる。転置ファイル１２ａとは、図２（ａ）にそのイメージを示す図示の如く、単語が第１フィールドに来て、その単語に対応する出現文書ＩＤが第２フィールドに記されるようなイメージで情報を格納するものである。文書別関連語用単語情報格納部８において本ファイルは作成されるが、検索システムなどに応用される場合には検索エンジンの転置ファイルを流用するようにしてもよい。ダイレクトファイル１２ｂとは、図２（ｂ）にそのイメージを示す如く、文書ＩＤが第１フィールドに来て、各文書毎に抽出した関連語用単語（保有単語）情報が第２フィールドに格納されるような形態のものである。文書別関連語用単語情報格納部８において本ファイルは作成される。頻度ファイル１２ｃは、図（ｃ）にそのイメージを示す如く、各単語（関連語用単語）の出現文書頻度を記したようなもので、文書別関連語用単語情報格納部８において本ファイルは作成される。
【００２４】
従って、文書データベース２やファイル１２ａ〜１２ｃとツールとの関係で表現すれば、図１に機能ブロックで図示した本実施の形態の関連語自動抽出装置１は、実際には、図３（ａ）又は（ｂ）に示すような形態として表現することができる。即ち、文書データベース２に格納された文書群について、単語認定部３、関連語用単語抽出部６、複合語内頻度／ＩＤ調整部７による処理をインデックスファイルの作成処理として実行し、その結果を何れかのファイル１２ａ〜１２ｃにインデックスファイルとして保有し、保有した情報を関連度計算部９による関連度計算に供する形態となる。或いは、ファイル１２ａ〜１２ｃの何れかにインデックスファイルとして保有された情報とユーザから指定された単語情報（キーワード）とを用いて、関連度付きで関連語を抽出する処理を実行する形態となる。
【００２５】
次に、関連語自動抽出装置１による関連語用単語抽出処理の具体例について図４及び図５を参照して説明する。図４は文書データベース２に格納された文書群を〔文書１〕〜〔文書６〕としてその具体例を新聞からの抜粋例として示すものである（本明細書において、記事内容は意味を有しない）。もっとも、この抜粋例はポイント個所を示すだけであり、極めて短い文書例となっているが、現実的には、１文書が新聞における１記事相当と考えるのが妥当である。このような具体的な文書群に対して、単語認定部３の最長単位生成部４及び縮退処理部５の処理を経ることで最長単位での切り出しを行った結果を示すと、図５（ａ）のようになる。即ち、各文書について文節認定の下にその文節中の自立語部分全体が１単語＝最長単位として抽出されている。加えて、〔文書６〕の例では、縮退処理部５による縮退処理を経ることにより“クリントンさん”が“クリントン”とされて最長単位の単語と認定されている。このような認定結果に対して、複合語内頻度／ＩＤ調整部７による情報の調整処理を経た結果を示すと、図５（ｂ）のようになる。即ち、各単語（関連語用単語）は自己より長い単語（関連語用単語）に含有されていれば、頻度情報と文書出現ＩＤ情報とが付加される。例えば、“クリントン”には“クリントン大統領””米クリントン政権”等の関連語用単語の頻度情報と文書出現ＩＤ情報とが付加される如く処理される。よって、単語認定部３での最長単位による単語認定だけでは頻度の分散を生ずるが、このように長い関連語用単語に含まれる頻度情報等を短い関連語用単語に付加させることにより、実際に最長単位で使用された単語であれば、短い単語であっても長い単語であっても漏れなく情報を得ることができ、頻度情報の分散を回避することができる。この結果、適正な関連語抽出処理を行えるものとなる。
【００２６】
ところで、本実施の形態の関連語自動抽出装置１は、そのハードウェア構成としては、１個のコンピュータシステムを利用することにより実現される。このコンピュータシステムは、図６に示すように、コンピュータの主体としてＣＰＵ（Ｃentral Ｐrocessing Ｕnit）２１を有しており、このＣＰＵ２１には、バスライン２２により、ＲＯＭ（Ｒead Ｏnly Ｍemory）２３、ＲＡＭ（Ｒandom Ａccess Ｍemory）２４、ＨＤＤ（Ｈard Ｄisc Ｄrive）２５、ＦＤ（Ｆloppy Ｄisc）２６が装填されるＦＤＤ（ＦＤＤrive）２７、ＣＤ‐ＲＯＭ２８が装填されるＣＤ‐ＲＯＭドライブ２９、マウス３０が接続されたキーボード３１、ディスプレイ３２、通信Ｉ／Ｆ（Ｉnterface）３３等が接続されている。３４はファイル１２ａ〜１２ｃ等を含むファイル（メモリ）である。
【００２７】
従って、本実施の形態のコンピュータシステムでは、予め記憶されたソフトウェアをＣＰＵ２１に提供できる情報記憶媒体としては、ＲＯＭ２３、ＲＡＭ２４、ＨＤＤ２５、ＦＤ２６、ＣＤ‐ＲＯＭ２８等を有している。具体例としては、ＣＯＵ２１に各種の処理動作を実行させるための制御プログラムがソフトウェアとして予め設定されており、このような制御プログラムは、例えば、ＣＤ‐ＲＯＭ２８に予め格納されている。このようなソフトウェアはＨＤＤ２５に予めインストールされており、コンピュータシステムの起動時にＲＡＭ２４に複写されて動作時にＣＰＵ２１に読み取られる。このようにＣＰＵ２１が各種のプログラムを読み取って対応する処理を実行することにより、各種の手段或いは工程の処理機能が実現されるので、当該コンピュータシステムが前述したような関連語自動抽出装置１として動作することになる。
【００２８】
もっとも、ソフトウェアをＣＰＵ２１に提供する情報記憶媒体としては、ＣＰＵ２１がアクセスできるものであればよく、例えば、このようなソフトウェアをＣＤ‐ＲＯＭ２８からＣＰＵ２１に利用させる形態であってもよく、或いは、予めＲＯＭ２３に固定的に格納しておくようにしてよく、さらには、複数の情報記憶媒体に分散させておいてもよい。
【００２９】
【発明の効果】
請求項１，３及び５記載の発明によれば、文書中からの単語認定に機械処理を行っても認定の揺らぎの少ない最長単位を利用するようにしたので、現状レベルで、極めて精度よく安定した関連語用単語の抽出が可能となり、かつ、複合語内頻度／識別情報調整処理を行うので、実際に最長単位で使用された単語であれば、短い単語であっても長い単語であっても漏れなくその情報を得ることができ、よって、頻度情報等の分散を回避し、良好なる関連語抽出処理を行わせることができる。
【００３０】
請求項２，４及び６記載の発明によれば、請求項１，３及び５記載の発明に加えて、縮退処理を通じて、人名接尾辞などを所定条件の下に削除することで、最長単位相当の単語を生成するようにしたので、非本質的な差異による頻度情報や出現文書識別情報の分散を避けることができ、良好なる関連語抽出処理を行わせることができる。
【図面の簡単な説明】
【図１】本発明の一実施の形態の関連語自動抽出装置の構成を機能ブロックで示すブロック図である。
【図２】インデックスファイルの構成例をイメージ的に示す模式図である。
【図３】関連語自動抽出装置の構成をツールとファイルとの関係で表現して示す模式的なブロック図である。
【図４】具体的な文書例を示す説明図である。
【図５】（ａ）は最長単位生成及び縮退処理後の単語切り出し例を示す説明図、（ｂ）は複合語内頻度／ＩＤ調整処理後の単語例を示す説明図である。
【図６】コンピュータシステムとしての構成例を示すブロック図である。
【図７】従来の複合語の扱い例を示す説明図である。
【符号の説明】
２文書データベース
３単語抽出手段、単語抽出工程
４最長単位生成部、最長単位生成工程
５縮退処理部、縮退処理工程
６関連語用単語抽出手段、関連語用単語抽出工程
７複合語内頻度／識別情報調整手段、複合語内頻度／識別情報調整工程
８関連語用単語格納手段、関連語用単語格納工程
１０関連度計算手段、関連度計算工程
１１結果出力手段、結果出力工程
１２ａ〜１２ｃ記憶装置
２１コンピュータ
２３〜２６，２８情報記憶媒体

Claims

入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する関連語自動抽出装置において、
文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納手段と、
前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を１単語として切り出して前記関連語用単語を生成する単語認定手段と、
この単語認定手段により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度／識別情報調整手段と、
を備え、
前記関連語用単語格納手段は、前記複合語内頻度／識別情報調整手段で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する、
ことを特徴とする関連語自動抽出装置。
前記単語認定手段は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理部を有する請求項１記載の関連語自動抽出装置。
入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する関連語自動抽出装置による関連語自動抽出方法において、
前記関連語自動抽出装置が備える関連語用単語格納手段が、文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納工程と、
前記関連語自動抽出装置が備える単語認定手段が、前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を１単語として切り出して前記関連語用単語を生成する単語認定工程と、
前記関連語自動抽出装置が備える複合語内頻度／識別情報調整手段が、前記単語認定工程により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度／識別情報調整工程と、
よりなり、
前記関連語用単語格納工程は、前記複合語内頻度／識別情報調整工程で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する、
ことを特徴とする関連語自動抽出方法。
前記単語認定工程は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理工程を含む請求項３記載の関連語自動抽出方法。
入力部を通じて入力されたキーワードと文書データベースに電子化されて格納されている文書群中の関連語用単語との間の関連度を計算する処理を実行し、入力されたキーワードに関係の深い関連語用単語を前記関連度の計算結果に基づいて前記文書群中から抽出して関連語として出力する処理をコンピュータに実行させるプログラムを記憶しているコンピュータに読み取り可能な情報記憶媒体において、
文書識別情報及び頻度情報を付加された前記関連語用単語を所定の記憶装置に格納する関連語用単語格納処理と、
前記文書群の各文書について文節認定の下にその文節中の最長単位である自立語部分全体を１単語として切り出して前記関連語用単語を生成する単語認定処理と、
この単語認定処理により生成された或る関連語用単語が当該関連語用単語よりも長い他の関連語用単語中に含まれていた場合に、当該他の関連語用単語の数を示す頻度情報を生成するとともに、当該他の関連語用単語に対応する文書識別情報を前記所定の記憶装置から取得し、前記文書識別情報及び前記頻度情報を前記或る関連語用単語に付加する処理を実行する複合語内頻度／識別情報調整処理と、
を前記コンピュータに実行させるプログラムを記憶していて、
前記関連語用単語格納処理は、前記複合語内頻度／識別情報調整処理で処理されて前記文書識別情報及び前記頻度情報を付加された前記或る関連語用単語を前記所定の記憶装置に格納する、
ことを特徴とする情報記憶媒体。
前記単語認定処理は、関連語用単語に対して所定条件に基づき縮退処理を行う縮退処理を含む請求項５記載の情報記憶媒体。