JP2005025555A

JP2005025555A - シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体

Info

Publication number: JP2005025555A
Application number: JP2003191036A
Authority: JP
Inventors: Naoko Sato; 奈穂子佐藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-07-03
Filing date: 2003-07-03
Publication date: 2005-01-27

Abstract

【課題】シソーラス構築のためのデータと処理対象テキストとの親和性を確保し、処理対象テキストの係り受け関係も反映させて、精度の高い単語クラスタを生成し、シソーラスを構築できるシソーラス構築技術を提供する。
【解決手段】対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築システムにおいて、文節を生成し文節間の係り受け関係を同定する係り受け解析を含む言語解析を行う言語解析部２、その係り受け解析の結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成するテキストデータ構造生成部４、そのテキストデータ構造を記憶するテキストデータ構造記憶部５、記憶されているテキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成する単語クラスタ生成部７、前記言語要素に基づいて単語クラスタ間の関係を同定し、その関係を用いてシソーラスを構築するシソーラス生成部８を備えた。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、パーソナルコンピュータなど情報処理装置や専用装置上で実現される文書処理システムなどにおいてシソーラスを構築するシソーラス構築技術に係わり、特に、単語クラスタリング技術を用いたシソーラス構築技術に関する。
【０００２】
【従来の技術】
シソーラスとは、単語を意味によって整理し、体系化したものであり、連想支援や用語統制に利用されるほか、文書分類システムにおいて単語の類似度を求める際に利用されたり、機械翻訳システムにおいて表層表現の多義解消に利用されるなど、自然言語で書かれたテキストに高度な処理にするために有用な辞書である。既存の汎用シソーラスとしては「分類語彙表」「日本語語彙大系」が代表に挙げられるが、汎用シソーラスの構築には、専門知識と人手による単語への意味コード付与に非常な労力を要するので、新規の構築は困難であった。
そのため、シソーラスを用いる文書処理システムにおいては、シソーラスは既存のものとして扱われ、シソーラスそのものの構築方法に関する提案は数少ない。杉村らによる「意味コード体系の自動生成」（非特許文献１）は、意味コード体系を自動生成する試みであるが、人手によって収集された用例からの自動生成であり、用例収集者の観点の偏りや、網羅性に課題が残る。また、専門性の高い文書や資料を扱う場合、汎用シソーラスを用いた場合にはその専用性が反映できず、有効な処理結果が得にくい場合が考えられる。しかしながら、専門用語シソーラスを専門分野毎に用意するのは困難である。
そのようななかで、近年、人手を介さないテキストからのシソーラス自動作成の試みとして、特開平９−１２０４０１号公報記載の「シソーラス作成装置」、および特開２００１−３３１５１５公報記載の「単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品」が提案された。
【０００３】
前者（特開平９−１２０４０１号公報）では、対象テキストを特定の文献や資料とし、３単語の並びを名詞−助詞−動詞というように品詞で限定して共起データとして抽出する。その実施形態によれば、名詞−動詞間の共起、名詞−名詞間の共起、名詞−形容詞間の共起について頻度を計量することが可能であり、例えば名詞−形容詞間の共起を計量した場合、同じ形容詞と共起する名詞の頻度に基づき名詞のグループを生成し、統計処理によって単語間の意味的距離を算出し、グループを分割して対象テキスト内の頻出単語のシソーラスを構築する。
この方法では、対象テキスト内におけるシソーラス構築であるので、対象テキストと構築されたシソーラスとの整合性が高いという効果がある。しかしながら、その構築方法において、共起データの抽出が特定の品詞並びの単語の共起情報のみに基づくので、例えば「値段に高い付加価値をつけている」という表現があった場合、「値段が高い」という意の記述でないにもかかわらず、「値段」−「高い」が共起データとして抽出されてしまう。さらに、「高い値段がつく」という連体修飾表現では、この公報に示されている共起抽出部で規定している特定の品詞並び、この場合であれば「名詞−助詞−形容詞」の並びに合致せず、「値段」−「高い」の共起データが採れない、という問題が生じる。
【０００４】
一方、後者（特開２００１−３３１５１５公報）は、対象テキストを、例えば新聞１年分などの大量コーパスとし、これを言語解析し、動詞格関係基礎データを作成し、名詞−動詞間の共起頻度に基づき名詞クラスタを生成し、名詞間距離を計算してクラスタツリーを生成する。さらに、動詞＋格の情報を用いて多義性を判断し、共起データを修正することにより精度の高いシソーラスを得ることを図っている。
この方法では、言語解析に係り受け解析を用いており、前者で問題として挙げている「値段に高い付加価値をつけている」については「値段」と「高い」に係り受け関係がないので、共起関係データとして採られることはないが、動詞格関係基礎データを用いて共起関係データを生成するので、前者同様、「高い値段がつく」という連体修飾表現にある共起データは採られないという問題はなお残る。また、対象テキストが新聞などの大量コーパスであり、したがって、構築されるシソーラスは汎用的なものとなる可能性が高く、利用者がこのシソーラスを用いた文書処理システムで専門性の高い文書を処理しようとした場合、不具合が出る可能性が高い。
さらに、動詞や形容詞などの活用語は、表記が変化するので、同じ単語でも表記上は異なった表記になり、そのまま統計処理をおこなうのは問題がある。例えば、「高い」は「高い」「高く」「高（すぎる）」などの表記バリエーションが、「運ぶ」は「運ぶ」「運び」「運べば」などの表記バリエーションがある。この点について、両者とも表記変換などの方策についての言及がなく、公報どおりに統計処理をおこなうと、同じ活用語の共起データが、活用の種類分のバリエーションで存在してしまい、シソーラスの精度を著しく低下させる懸念がある。
【特許文献１】特開平９−１２０４０１号公報
【特許文献２】特開２００１−３３１５１５公報
【非特許文献１】杉村領一、柿ヶ原康二、石川雅彦、川越睦、青山昇一「意味コード体系の自動生成」情報処理学会自然言語処理７８−４（１９９０）
【０００５】
【発明が解決しようとする課題】
前記したように、特開平９−１２０４０１号公報記載の従来技術では、共起データの抽出が特定の品詞並びの単語の共起情報のみに基づくので、精度の高い共起データが採れないという問題がある。また、特開２００１−３３１５１５公報記載の従来技術では、精度の高い共起データが採れないという問題が残るし、構築されるシソーラスが汎用的なものとなる可能性が高いので、専門性の高い文書を処理しようとした場合に不具合が出る可能性が高いし、同じ活用語の共起データが活用の種類分のバリエーションで存在してしまい、シソーラスの精度を著しく低下させる懸念がある。
本発明の目的は、このような従来技術の問題を解決することにあり、具体的には、処理対象テキストをシソーラス構築のための入力テキストとすることにより処理対象テキストとの親和性を確保し、テキスト解析処理に係り受け解析を導入することにより係り受け関係も反映でき、さらに、活用語は所定の活用形に表記変換することにより、精度の高い単語クラスタを生成してシソーラスを構築できるシソーラス構築技術、すなわちシソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体を提供することにある。
【０００６】
【課題を解決するための手段】
前記の課題を解決するために、請求項１記載の発明では、対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築システムにおいて、文節生成をおこない文節間の係り受け関係を同定する係り受け解析手段と、その係り受け解析手段による係り受け解析の結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成するテキストデータ構造生成手段と、生成された前記テキストデータ構造を記憶するテキストデータ構造記憶手段と、そのテキストデータ構造記憶手段に記憶されている前記テキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成する単語クラスタ生成手段と、前記言語要素に基づいて前記単語クラスタ間の関係を同定する単語クラスタ間同定手段とを備え、同定した単語クラスタ間の関係を用いてシソーラスを構築する構成にした。
【０００７】
また、請求項２記載の発明では、対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築方法において、文節生成をおこなって文節間の係り受け関係を同定し、その係り受け関係の同定結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成し、生成されたそのテキストデータ構造を記憶しておき、記憶されているそのテキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成してその単語クラスタ間の関係を同定し、同定した単語クラスタ間の関係を用いてシソーラスを構築する構成にした。
また、請求項３記載の発明では、請求項２記載の発明において、前記テキストデータ構造中から言語要素を抽出する際には、各文節のテキストデータ構造から自立語とその自立語と係り受け関係にある自立語とから成る自立語対を抽出する構成にした。
また、請求項４記載の発明では、請求項２または請求項３記載の発明において、前記テキストデータ構造中から取り出した自立語が活用語であれば、特定の活用形に変換する構成にした。
【０００８】
また、請求項５記載の発明では、請求項２または請求項３記載の発明において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節を抽出し、抽出された文節の自立語群をひとつの単語クラスタとして同定する構成にした。
また、請求項６記載の発明では、請求項２または請求項３記載の発明において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節、および前記係り受け関係の種類情報を抽出し、抽出された文節の自立語を係り受け関係の種類毎に単語クラスタとして同定する構成にした。
また、請求項７記載の発明では、請求項２または請求項３記載の発明において、単語クラスタを生成する際、全ての文節の自立語に対して出現頻度を計量し、各自立語とその出現頻度の対を記憶しておき、その記憶結果を用いてクラスタを生成する構成にした。
また、請求項８記載の発明では、情報処理装置上で実行されるプログラムにおいて、請求項２乃至請求項７のいずれか１項に記載のシソーラス構築方法によったシソーラス構築を実行させるようにプログラミングされている構成にした。
また、請求項９記載の発明では、プログラムを記憶した記憶媒体において、請求項８記載のプログラムを記憶した。
【０００９】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図１は本発明の一実施形態であるシソーラス構築システムの構成例であり、図示したように、処理対象のテキストを入力する入力部１、そのテキストを構成している言語を解析し、文節情報を付加する言語解析部２、言語解析の際に用いる言語解析用辞書データベース３、テキストデータ構造生成部４、テキストデータ構造記憶部５、テキストデータ構造検索部６、単語クラスタ生成部７、シソーラス生成部８、自立語頻度記憶部９、クラスタ記憶部１０、シソーラス記憶部１１、構築したシソーラスを出力する出力部１２、および全体を制御・管理する制御部１３などを備えている。なお、この実施の形態では、請求項１に記載されている文節生成をおこない文節間の係り受け関係を同定する係り受け解析手段、係り受け解析の結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成するテキストデータ構造生成手段、生成されたテキストデータ構造を記憶するテキストデータ構造記憶手段、テキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成する単語クラスタ生成手段、および言語要素に基づいて単語クラスタ間の関係を同定する単語クラスタ間同定手段がそれぞれ、言語解析部２、テキストデータ構造生成部４、テキストデータ構造記憶部５、単語クラスタ生成部７、およびシソーラス生成部８により実現される。
【００１０】
また、前記入力部１、言語解析部２、テキストデータ構造生成部４、テキストデータ構造検索部６、単語クラスタ生成部７、シソーラス生成部８、出力部１２、および制御部１３はプログラムを記憶したメモリ（例えばＲＡＭ）およびそのプログラムに従って動作するＣＰＵなどにより実現され、言語解析用辞書データベース３、テキストデータ構造記憶部５、自立語頻度記憶部９、クラスタ記憶部１０、およびシソーラス記憶部１１はハードディスク記憶装置およびＲＡＭなどの一部記憶領域を用いて実現される。
このような構成で、制御部１３は、シソーラス構築システムの各部を制御し動作させる。入力部１は入力装置として例えば着脱可能な記憶媒体からテキストを読み込む読取装置やキーボードや音声入力装置を用いてテキストを入力し、出力部１２は出力装置として例えば表示装置や音声出力装置などを用いてシソーラスなどを出力する。
【００１１】
また、言語解析部２は、少なくとも形態素解析および係り受け解析をおこなう。形態素解析処理は、テキストを単語毎に区切り、品詞など、各単語の属性を付加する処理であり、原理は日本語情報処理・第４章「形態素解析」に詳しく、その処理方法としては、最長一致法、コスト最小法、用例検索法など、既存の手法を用いる。
この言語解析部２は、形態素解析に続いて係り受け解析も実施する。係り受け解析は、係り受け処理の１単位である文節を生成し、文節と文節がどのような関係にあるかを同定する処理であり、原理は日本語情報処理・第５章「構文解析」や、「二文節間の係り受けを基礎とした日本語の構文分析」（吉田）に詳しく、ここでは、これらの文献記載の既存の手法を用いる。一般に、文節は１つの自立語と、０個以上の付属語で構成され、解析方法によっては、１文節に複数個の自立語が含まれるような結果を出す定義の仕方もあるが、ここでは、文節にはかならず１つだけしか自立語を含まないように文節を生成する解析方法を用いる。
また、テキストデータ構造生成部４は、言語解析によって得られた情報をテキストデータ構造に変換し、テキストデータ構造記憶部５へ送り、テキストデータ構造記憶部５は、送られてきた情報を検索可能な形式で管理し、記憶する。
図２はテキストデータ構造の構造例であり、図３はテキストデータ構造の各構成要素が管理する情報例である。図２に示した各文節に対応づけられた情報である文節情報には、図３に示したように、文節を構成する単語情報の他、当該文節へ係る係り文節情報、当該文節が係る先の受け文節情報、係り受け関係の種類を示す情報などを含む。
【００１２】
図４および図５に、図１に示したシソーラス構築システムの動作フローの一例を示す。以下、図４および図５に従って、この動作フローを説明する。
この例の動作フローでは、最初は入力待ち状態にあり、入力部１にシソーラス構築指示が入ると（Ｓ１でＹ）、入力部１はシソーラス構築対象テキストの有無をチェックし（Ｓ２）、入力済みの対象テキストがあったならば（Ｓ２でＹ）、先頭のテキストから順にバッファに格納する（Ｓ３）。そして、言語解析部２が言語解析用辞書データベース３を用いてバッファ中のテキストに対して形態素解析を実施し（Ｓ４）、さらに、係り受け解析を実施する（Ｓ５）。こうして、バッファにあるテキストの係り受け解析処理が終わったならば（Ｓ６でＹ）、テキストデータ構造生成部４が解析結果をテキストデータ構造に変換する。解析結果を用いて図３に示したようなテキスト情報、文情報、および文節情報を持つテキストデータ構造を生成するのである（Ｓ７）。さらに、そのテキストデータ構造をテキストデータ構造記憶部５に記憶する（Ｓ８）。
【００１３】
一方、テキストデータ構造検索部６はテキストデータ構造記憶部５にテキストデータ構造が格納されたか否かを監視しており（Ｓ９）、格納されたことを知ると（Ｓ９でＹ）、テキストデータ構造中の全ての文節の自立語を検索し（Ｓ１０）、検索された自立語が活用語であれば（Ｓ１１でＹ）、その自立語の表記を特定の活用形に変換する（Ｓ１２）。図６に、活用形の表記変換の一例を示す。さらに、各自立語の出現頻度を計算し、自立語表記と出現頻度の対を自立語頻度記憶部９に記憶する（Ｓ１３）。
続いて、テキストデータ構造検索部６は自立語頻度記憶部９の先頭から自立語を順に読み出し（Ｓ１４）、特定の自立語となり得るかどうかを判断し（Ｓ１５）、特定の自立語の条件を満たしていない場合は（Ｓ１５でＮ）、その自立語が処理対象の最後の自立語でない限り（Ｓ１６でＮ）、次の自立語についてステップＳ１４から繰り返す。それに対して、特定の自立語の条件を満たしている場合は（Ｓ１５でＹ）、その自立語を特定自立語バッファに格納する（Ｓ１７）。なお、特定の自立語の条件は、例えば所定の閾値以上の出現頻度を持つ自立語とする。さらに、必要に応じて特定の品詞に限定することも可能である。
【００１４】
次に、テキストデータ構造検索部６は、特定の自立語が含まれている文節と係り受け関係にある文節の自立語およびその係り受け情報（係り受け関係を示す情報）を検索する（Ｓ１８）。そして、そのような自立語があれば（Ｓ１９でＹ）、単語クラスタ生成部７が、その自立語が活用形か否かを判定し（Ｓ２０）、活用形でなければ（Ｓ２０でＮ）そのまま、活用形であれば（Ｓ２０でＹ）表記を特定の活用形に変換して（Ｓ２１）、その自立語を単語バッファへ格納する（Ｓ２２）。つまり、特定の自立語を含む文節と係り受け関係にある全ての文節を抽出し、抽出された文節の自立語群をひとつの単語クラスタとして同定するのである。なお、このとき、後述する係り受け関係の種類毎に、複数の単語バッファへ自立語を振り分け、格納する。これにより、係り受け関係の種類を考慮しない単語クラスタ生成よりも細分化した単語クラスタを生成できる。
このあと、ステップＳ１８から繰り返し、その際、ステップＳ１９において係り受け関係にある文節がこれ以上ないと判定されたならば（Ｓ１９でＮ）、単語クラスタ生成部７は単語バッファ内の自立語（単語）と特定自立語バッファ内の特定自立語とを１つの単語クラスタとしてクラスタ記憶部１０へ格納し、単語バッファを空にする（Ｓ２３）。さらに、特定自立語バッファも空にし（Ｓ２４）、自立語頻度記憶部９に次の自立語が記憶されているならば（Ｓ１６でＮ）、ステップＳ１４から繰り返す。
【００１５】
こうして、自立語頻度記憶部９に記憶されている全ての自立語について、特定自立語か否かの判断と、特定自立語であった場合の係り受け関係にある単語のクラスタ生成が完了したならば（Ｓ１６でＹ）、シソーラス生成部８が実行するクラスタ統合によるシソーラス生成へ進む。
そこでは、まず、係り受け情報によってまとめられた各単語クラスタについて、特定自立語が同じである単語クラスタをその特定自立語のクラスタとして統合し、単語クラスタの上位クラスタとして位置づける。特定自立語を含む文節と係り受け関係にある全ての文節の自立語群をひとつの単語クラスタとして同定するのである。これにより、ルートが特定自立語の数だけ存在する２階層のシソーラスを自動生成することができる。図７はこの２階層シソーラスの一例（部分）である。前記において、特定の自立語を含む文節と係り受け関係にある全ての文節の自立語群を、係り受け関係の種類毎に単語クラスタとして同定してもよい。
【００１６】
また、特開平９−１２０４０１号公報記載の単語間の意味距離計算方法や、特開２００１−３３１５１５公報記載の名詞間距離計算方法など公知の技術を用いて、前者の場合は単語を、後者の場合は名詞を、それぞれこの実施の形態の単語クラスタや特定自立語クラスタに置き換えれば、クラスタ間の距離を算出でき、距離の近いものを統合して上位クラスタとし、この処理を上位クラスタが一つになるまで繰り返すことにより、一つのクラスタをルートとする多階層のシソーラスを自動生成し、各層の各クラスタにクラスタコードを付与し、シソーラスの階層毎に階層コードを付与する（Ｓ２５）。これにより、シソーラス出力時に、さまざまな出力バリエーションを設けることが可能になる。
こうして、クラスタ統合処理が完了したならば（Ｓ２６でＹ）、生成したシソーラスをシソーラス記憶部１１へ記憶しておき（Ｓ２７）、出力指示の有無をチェックし（Ｓ２８）、出力指示があったならば（Ｓ２８でＹ）、シソーラス記憶部１１にシソーラスが記憶されている限り（Ｓ２９でＹ）、そのシソーラスを出力部１２により出力する（Ｓ３０）。出力部１２により、表示装置や音声出力装置などへ出力するのである。
【００１７】
次に、テキストが、ある製品に関する複数のアンケート自由記述文書であり、利用者がこれらに基づく製品評価の分析をおこなう場合について本発明の実施例を説明する。利用者は、このようなテキストに特化したシソーラスを自動作成し、分析に利用する。
まず、前記したシソーラス構築システムを起動し、シソーラス構築指示を出す。これにより、シソーラス構築システムは文書の有無をチェックし、あれば先頭の文書から順に文書バッファに格納し、文書バッファ中のテキストに対し、形態素解析をおこない、テキストを単語に区切る。続いて、係り受け解析を実施し、テキスト中の文節同士の係り受け文節対を同定する。例えば「価格がまだ高すぎて、買わない。」という記述文がある場合、以下のような解析結果が得られる。なお、以下において、記号は次の通りである。◆印が同定された係り受け関係の種類、［］内が文節、（）内が行頭文節の構成単語とその品詞属性、＞印の前の文節が係り文節、後ろの文節が受け文節である。
【００１８】
◆主述関係
［価格が］（価格名詞）（が格助詞）
＞［高すぎて、］（高形容詞．語幹）（すぎ補助動詞）（て接続助詞）（、読点）
◆連用修飾関係
［まだ］（まだ副詞）
＞［高すぎて、］（高形容詞．語幹）（すぎ補助動詞）（て接続助詞）（、読点）
◆連用修飾関係
［高すぎて、］（高形容詞．語幹）（すぎ補助動詞）（て接続助詞）（、読点）
＞［買わない］（買わ動詞．未然）（ない助動詞）（。句点）
文書バッファにあるテキストの係り受け解析処理が終わったならば、解析結果をテキストデータ構造記憶部５に記憶し、次の文書を文書バッファに格納し、入力された全てのテキストに対して、このような言語解析をおこなう。そして、言語解析が終了したならば、テキストデータ構造記憶部５に記憶されている係り受け文節対データの有無をチェックする。この例では、前記したように、複数のアンケート自由記述文書が言語解析され、テキストデータ構造に変換されて、記憶されている。
そこで、テキストデータ構造記憶部５に記憶されている全ての文節の自立語を検索し、その自立語が活用語であれば、終止形に活用形を表記変換し、自立語の出現頻度を計量し、自立語頻度記憶部９に記憶する。図８に、この例の場合で、記憶データの先頭部分を示す。
【００１９】
次に、先頭の自立語（この例では図８に示した「思う」）から順に読み出し、特定の自立語となり得るかどうかを判断する。この例では、製品評価の分析が目的であるので、特定の自立語を、頻度１００以上の形容詞とすると、「思う」は品詞が動詞であるので条件に合致せず、したがって特定の自立語とならず、次の自立語（この例では図８に示した「欲しい」）を読み込む。「欲しい」は条件に合致するので、特定自立語バッファに格納する。そして、「欲しい」が含まれている文節と係り受け関係にある文節の自立語、さらにその係り受け情報をテキストデータ構造検索部６が検索する。これにより、「欲しい」と係り受け関係のある自立語として「デジカメ」「カメラ」「製品」「商品」などが得られるので、単語バッファに格納する。このとき、単なる共起や、連続する共起情報ではなく、係り受け関係を利用するので、「カメラが欲しい」という表現の他に、「カメラがとても欲しい」「欲しいカメラが見つからない」など、「欲しい」と助詞を介して連続しない自立語も、正しく採ることができる。また、その自立語が活用形であれば、特定の活用形に変換し、単語バッファへ格納する。
さらに、このとき、係り受け関係の種類毎に、複数の単語バッファへ単語を振り分け、格納することもできる。例えば、「カメラが欲しい」というガ格の格修飾関係にある「欲しい」と「カメラ」の対と、「欲しいカメラが見つからない」という連体修飾関係にある「欲しい」と「カメラ」の対を区別し、カメラを「ガ格格修飾関係」の単語バッファと、「連体修飾関係」の単語バッファに分けて格納する。
【００２０】
図８に示した例では、特定自立語は、「欲しい」「良い」「安い」「高い」となる。これらの自立語と係り受け関係にある単語を検索して単語バッファへ蓄積し、必要に応じて活用形の表記変換をして、クラスタ記憶部１０に記憶する。そして、全ての特定自立語に対応するクラスタ生成が完了したならば、クラスタの統合によるシソーラス生成をおこない、シソーラス生成が終了したならば、シソーラス記憶部１１に記憶し、出力指示の有無をチェックする。こうして、この例では、シソーラスが記憶されているので、そのシソーラスを例えば表示装置に図７に示したように表示する。
以上、図１に示したシステム構成の場合で説明したが、説明したようなシソーラス構築方法に従ってプログラミングしたプログラムを着脱可能な記憶媒体に記憶し、その記憶媒体をこれまで本発明によったシソーラス構築をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、または、そのようなプログラムをネットワークを介してそのような情報処理装置へ転送することにより、そのような情報処理装置においても本発明によったシソーラス構築をおこなうことができる。
【００２１】
【発明の効果】
以上説明したように、本発明によれば、請求項１および請求項２記載の発明では、対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築する際、文節生成をおこなって文節間の係り受け関係を同定し、その係り受け関係の同定結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成し、生成されたそのテキストデータ構造を記憶しておき、記憶されているそのテキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成してその単語クラスタ間の関係を同定し、同定した単語クラスタ間の関係を用いてシソーラスを構築することができるので、シソーラス構築のためのテキストと処理対象テキストとの親和性を確保でき、精度の高いシソーラスを構築することが可能となる。
また、請求項３記載の発明では、請求項２記載の発明において、テキストデータ構造中から言語要素を抽出する際、各文節のテキストデータ構造から自立語とその自立語と係り受け関係にある自立語とから成る自立語対を抽出することができるので、その後の統計処理を簡略化でき、したがって、シソーラス構築の処理速度を向上させることができる。
【００２２】
また、請求項４記載の発明では、請求項２または請求項３記載の発明において、テキストデータ構造中から取り出した自立語が活用語であれば、特定の活用形に変換することができるので、単語対のバリエーションの爆発を押さえ統計処理の速度を向上させることができるし、単語クラスタリングの精度も向上させることができる。
また、請求項５記載の発明では、請求項２または請求項３記載の発明において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節を抽出し、抽出された文節の自立語群をひとつの単語クラスタとして同定することができるので、共起関係にある単語よりも意味的に関係の深い単語でクラスタを生成することが可能となり、したがって、精度の高い単語クラスタが得られる。
また、請求項６記載の発明では、請求項２または請求項３記載の発明において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節、およびその係り受け関係の種類情報を抽出し、抽出された文節の自立語を係り受け関係の種類毎に単語クラスタとして同定することができるので、意味的に関係が深く、さらに、言語運用上も関係が一致する単語クラスタを生成することができ、したがって、より精度の高いシソーラスの構築が可能となる。
【００２３】
また、請求項７記載の発明では、請求項２または請求項３記載の発明において、単語クラスタを生成する際、全ての文節の自立語に対して出現頻度を計量し、各自立語とその出現頻度の対を記憶しておき、その記憶結果を用いて単語クラスタを生成することができるので、単語クラスタ生成の精度が向上する。
また、請求項８記載の発明では、請求項２乃至請求項７のいずれか１項に記載のシソーラス構築方法によったシソーラス構築を実行させるようにプログラミングされているプログラムを情報処理装置上で実行させることができるので、情報処理装置を用いて請求項２乃至請求項７のいずれか１項に記載の発明の効果を得ることができる。
また、請求項９記載の発明では、請求項８記載のプログラムを着脱可能な記憶媒体に記憶することができるので、その記憶媒体をこれまで請求項２乃至請求項７のいずれか１項に記載の発明によったシソーラス構築をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、そのような情報処理装置においても請求項２乃至請求項７のいずれか１項に記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図１】本発明の一実施形態を示す、シソーラス構築システムの構成ブロック図。
【図２】本発明の一実施形態を示す、シソーラス構築システム要部のデータ構造図。
【図３】本発明の一実施形態を示す、シソーラス構築システム要部の説明図。
【図４】本発明の一実施形態を示す、シソーラス構築方法の動作フロー図。
【図５】本発明の一実施形態を示す、シソーラス構築方法の他の動作フロー図。
【図６】本発明の一実施形態を示す、シソーラス構築方法の説明図。
【図７】本発明の一実施形態を示す、シソーラス構築方法の他の説明図。
【図８】本発明の一実施例を示す、シソーラス構築システム要部のデータ構成図。
【符号の説明】
１入力部
２言語解析部
３言語解析用辞書データデース
４テキストデータ構造生成部
５テキストデータ構造記憶部
６テキストデータ構造検索部
７単語クラスタ生成部
８シソーラス生成部
１０クラスタ記憶部
１１シソーラス記憶部
１２出力部

Claims

対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築システムにおいて、文節生成をおこない文節間の係り受け関係を同定する係り受け解析手段と、その係り受け解析手段による係り受け解析の結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成するテキストデータ構造生成手段と、生成された前記テキストデータ構造を記憶するテキストデータ構造記憶手段と、そのテキストデータ構造記憶手段に記憶されている前記テキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成する単語クラスタ生成手段と、前記言語要素に基づいて前記単語クラスタ間の関係を同定する単語クラスタ間同定手段とを備え、同定した単語クラスタ間の関係を用いてシソーラスを構築することを特徴とするシソーラス構築システム。
対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築方法において、文節生成をおこなって文節間の係り受け関係を同定し、その係り受け関係の同定結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成し、生成されたそのテキストデータ構造を記憶しておき、記憶されているそのテキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成してその単語クラスタ間の関係を同定し、同定した単語クラスタ間の関係を用いてシソーラスを構築することを特徴とするシソーラス構築方法。
請求項２記載のシソーラス構築方法において、前記テキストデータ構造中から言語要素を抽出する際には、各文節のテキストデータ構造から自立語とその自立語と係り受け関係にある自立語とから成る自立語対を抽出することを特徴とするシソーラス構築方法。
請求項２または請求項３記載のシソーラス構築方法において、前記テキストデータ構造中から取り出した自立語が活用語であれば、特定の活用形に変換することを特徴とするシソーラス構築方法。
請求項２または請求項３記載のシソーラス構築方法において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節を抽出し、抽出された文節の自立語群をひとつの単語クラスタとして同定することを特徴とするシソーラス構築方法。
請求項２または請求項３記載のシソーラス構築方法において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節、および前記係り受け関係の種類情報を抽出し、抽出された文節の自立語を係り受け関係の種類毎に単語クラスタとして同定することを特徴とするシソーラス構築方法。
請求項２または請求項３記載のシソーラス構築方法において、単語クラスタを生成する際、全ての文節の自立語に対して出現頻度を計量し、各自立語とその出現頻度の対を記憶しておき、その記憶結果を用いてクラスタを生成することを特徴とするシソーラス構築方法。
情報処理装置上で実行されるプログラムにおいて、請求項２乃至請求項７のいずれか１項に記載のシソーラス構築方法によるシソーラス構築を実行させるようにプログラミングされていることを特徴とするプログラム。
プログラムを記憶した記憶媒体において、請求項８記載のプログラムを記憶したことを特徴とする記憶媒体。