JP2005025555A - シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 - Google Patents

シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 Download PDF

Info

Publication number
JP2005025555A
JP2005025555A JP2003191036A JP2003191036A JP2005025555A JP 2005025555 A JP2005025555 A JP 2005025555A JP 2003191036 A JP2003191036 A JP 2003191036A JP 2003191036 A JP2003191036 A JP 2003191036A JP 2005025555 A JP2005025555 A JP 2005025555A
Authority
JP
Japan
Prior art keywords
word
thesaurus
data structure
text data
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003191036A
Other languages
English (en)
Inventor
Naoko Sato
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003191036A priority Critical patent/JP2005025555A/ja
Publication of JP2005025555A publication Critical patent/JP2005025555A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】シソーラス構築のためのデータと処理対象テキストとの親和性を確保し、処理対象テキストの係り受け関係も反映させて、精度の高い単語クラスタを生成し、シソーラスを構築できるシソーラス構築技術を提供する。
【解決手段】対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築システムにおいて、文節を生成し文節間の係り受け関係を同定する係り受け解析を含む言語解析を行う言語解析部2、その係り受け解析の結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成するテキストデータ構造生成部4、そのテキストデータ構造を記憶するテキストデータ構造記憶部5、記憶されているテキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成する単語クラスタ生成部7、前記言語要素に基づいて単語クラスタ間の関係を同定し、その関係を用いてシソーラスを構築するシソーラス生成部8を備えた。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、パーソナルコンピュータなど情報処理装置や専用装置上で実現される文書処理システムなどにおいてシソーラスを構築するシソーラス構築技術に係わり、特に、単語クラスタリング技術を用いたシソーラス構築技術に関する。
【0002】
【従来の技術】
シソーラスとは、単語を意味によって整理し、体系化したものであり、連想支援や用語統制に利用されるほか、文書分類システムにおいて単語の類似度を求める際に利用されたり、機械翻訳システムにおいて表層表現の多義解消に利用されるなど、自然言語で書かれたテキストに高度な処理にするために有用な辞書である。既存の汎用シソーラスとしては「分類語彙表」「日本語語彙大系」が代表に挙げられるが、汎用シソーラスの構築には、専門知識と人手による単語への意味コード付与に非常な労力を要するので、新規の構築は困難であった。
そのため、シソーラスを用いる文書処理システムにおいては、シソーラスは既存のものとして扱われ、シソーラスそのものの構築方法に関する提案は数少ない。杉村らによる「意味コード体系の自動生成」(非特許文献1)は、意味コード体系を自動生成する試みであるが、人手によって収集された用例からの自動生成であり、用例収集者の観点の偏りや、網羅性に課題が残る。また、専門性の高い文書や資料を扱う場合、汎用シソーラスを用いた場合にはその専用性が反映できず、有効な処理結果が得にくい場合が考えられる。しかしながら、専門用語シソーラスを専門分野毎に用意するのは困難である。
そのようななかで、近年、人手を介さないテキストからのシソーラス自動作成の試みとして、特開平9−120401号公報記載の「シソーラス作成装置」、および特開2001−331515公報記載の「単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品」が提案された。
【0003】
前者(特開平9−120401号公報)では、対象テキストを特定の文献や資料とし、3単語の並びを名詞−助詞−動詞というように品詞で限定して共起データとして抽出する。その実施形態によれば、名詞−動詞間の共起、名詞−名詞間の共起、名詞−形容詞間の共起について頻度を計量することが可能であり、例えば名詞−形容詞間の共起を計量した場合、同じ形容詞と共起する名詞の頻度に基づき名詞のグループを生成し、統計処理によって単語間の意味的距離を算出し、グループを分割して対象テキスト内の頻出単語のシソーラスを構築する。
この方法では、対象テキスト内におけるシソーラス構築であるので、対象テキストと構築されたシソーラスとの整合性が高いという効果がある。しかしながら、その構築方法において、共起データの抽出が特定の品詞並びの単語の共起情報のみに基づくので、例えば「値段に高い付加価値をつけている」という表現があった場合、「値段が高い」という意の記述でないにもかかわらず、「値段」−「高い」が共起データとして抽出されてしまう。さらに、「高い値段がつく」という連体修飾表現では、この公報に示されている共起抽出部で規定している特定の品詞並び、この場合であれば「名詞−助詞−形容詞」の並びに合致せず、「値段」−「高い」の共起データが採れない、という問題が生じる。
【0004】
一方、後者(特開2001−331515公報)は、対象テキストを、例えば新聞1年分などの大量コーパスとし、これを言語解析し、動詞格関係基礎データを作成し、名詞−動詞間の共起頻度に基づき名詞クラスタを生成し、名詞間距離を計算してクラスタツリーを生成する。さらに、動詞+格の情報を用いて多義性を判断し、共起データを修正することにより精度の高いシソーラスを得ることを図っている。
この方法では、言語解析に係り受け解析を用いており、前者で問題として挙げている「値段に高い付加価値をつけている」については「値段」と「高い」に係り受け関係がないので、共起関係データとして採られることはないが、動詞格関係基礎データを用いて共起関係データを生成するので、前者同様、「高い値段がつく」という連体修飾表現にある共起データは採られないという問題はなお残る。また、対象テキストが新聞などの大量コーパスであり、したがって、構築されるシソーラスは汎用的なものとなる可能性が高く、利用者がこのシソーラスを用いた文書処理システムで専門性の高い文書を処理しようとした場合、不具合が出る可能性が高い。
さらに、動詞や形容詞などの活用語は、表記が変化するので、同じ単語でも表記上は異なった表記になり、そのまま統計処理をおこなうのは問題がある。例えば、「高い」は「高い」「高く」「高(すぎる)」などの表記バリエーションが、「運ぶ」は「運ぶ」「運び」「運べば」などの表記バリエーションがある。この点について、両者とも表記変換などの方策についての言及がなく、公報どおりに統計処理をおこなうと、同じ活用語の共起データが、活用の種類分のバリエーションで存在してしまい、シソーラスの精度を著しく低下させる懸念がある。
【特許文献1】特開平9−120401号公報
【特許文献2】特開2001−331515公報
【非特許文献1】杉村領一、柿ヶ原康二、石川雅彦、川越睦、青山昇一「意味コード体系の自動生成」情報処理学会自然言語処理78−4(1990)
【0005】
【発明が解決しようとする課題】
前記したように、特開平9−120401号公報記載の従来技術では、共起データの抽出が特定の品詞並びの単語の共起情報のみに基づくので、精度の高い共起データが採れないという問題がある。また、特開2001−331515公報記載の従来技術では、精度の高い共起データが採れないという問題が残るし、構築されるシソーラスが汎用的なものとなる可能性が高いので、専門性の高い文書を処理しようとした場合に不具合が出る可能性が高いし、同じ活用語の共起データが活用の種類分のバリエーションで存在してしまい、シソーラスの精度を著しく低下させる懸念がある。
本発明の目的は、このような従来技術の問題を解決することにあり、具体的には、処理対象テキストをシソーラス構築のための入力テキストとすることにより処理対象テキストとの親和性を確保し、テキスト解析処理に係り受け解析を導入することにより係り受け関係も反映でき、さらに、活用語は所定の活用形に表記変換することにより、精度の高い単語クラスタを生成してシソーラスを構築できるシソーラス構築技術、すなわちシソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体を提供することにある。
【0006】
【課題を解決するための手段】
前記の課題を解決するために、請求項1記載の発明では、対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築システムにおいて、文節生成をおこない文節間の係り受け関係を同定する係り受け解析手段と、その係り受け解析手段による係り受け解析の結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成するテキストデータ構造生成手段と、生成された前記テキストデータ構造を記憶するテキストデータ構造記憶手段と、そのテキストデータ構造記憶手段に記憶されている前記テキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成する単語クラスタ生成手段と、前記言語要素に基づいて前記単語クラスタ間の関係を同定する単語クラスタ間同定手段とを備え、同定した単語クラスタ間の関係を用いてシソーラスを構築する構成にした。
【0007】
また、請求項2記載の発明では、対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築方法において、文節生成をおこなって文節間の係り受け関係を同定し、その係り受け関係の同定結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成し、生成されたそのテキストデータ構造を記憶しておき、記憶されているそのテキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成してその単語クラスタ間の関係を同定し、同定した単語クラスタ間の関係を用いてシソーラスを構築する構成にした。
また、請求項3記載の発明では、請求項2記載の発明において、前記テキストデータ構造中から言語要素を抽出する際には、各文節のテキストデータ構造から自立語とその自立語と係り受け関係にある自立語とから成る自立語対を抽出する構成にした。
また、請求項4記載の発明では、請求項2または請求項3記載の発明において、前記テキストデータ構造中から取り出した自立語が活用語であれば、特定の活用形に変換する構成にした。
【0008】
また、請求項5記載の発明では、請求項2または請求項3記載の発明において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節を抽出し、抽出された文節の自立語群をひとつの単語クラスタとして同定する構成にした。
また、請求項6記載の発明では、請求項2または請求項3記載の発明において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節、および前記係り受け関係の種類情報を抽出し、抽出された文節の自立語を係り受け関係の種類毎に単語クラスタとして同定する構成にした。
また、請求項7記載の発明では、請求項2または請求項3記載の発明において、単語クラスタを生成する際、全ての文節の自立語に対して出現頻度を計量し、各自立語とその出現頻度の対を記憶しておき、その記憶結果を用いてクラスタを生成する構成にした。
また、請求項8記載の発明では、情報処理装置上で実行されるプログラムにおいて、請求項2乃至請求項7のいずれか1項に記載のシソーラス構築方法によったシソーラス構築を実行させるようにプログラミングされている構成にした。
また、請求項9記載の発明では、プログラムを記憶した記憶媒体において、請求項8記載のプログラムを記憶した。
【0009】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図1は本発明の一実施形態であるシソーラス構築システムの構成例であり、図示したように、処理対象のテキストを入力する入力部1、そのテキストを構成している言語を解析し、文節情報を付加する言語解析部2、言語解析の際に用いる言語解析用辞書データベース3、テキストデータ構造生成部4、テキストデータ構造記憶部5、テキストデータ構造検索部6、単語クラスタ生成部7、シソーラス生成部8、自立語頻度記憶部9、クラスタ記憶部10、シソーラス記憶部11、構築したシソーラスを出力する出力部12、および全体を制御・管理する制御部13などを備えている。なお、この実施の形態では、請求項1に記載されている文節生成をおこない文節間の係り受け関係を同定する係り受け解析手段、係り受け解析の結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成するテキストデータ構造生成手段、生成されたテキストデータ構造を記憶するテキストデータ構造記憶手段、テキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成する単語クラスタ生成手段、および言語要素に基づいて単語クラスタ間の関係を同定する単語クラスタ間同定手段がそれぞれ、言語解析部2、テキストデータ構造生成部4、テキストデータ構造記憶部5、単語クラスタ生成部7、およびシソーラス生成部8により実現される。
【0010】
また、前記入力部1、言語解析部2、テキストデータ構造生成部4、テキストデータ構造検索部6、単語クラスタ生成部7、シソーラス生成部8、出力部12、および制御部13はプログラムを記憶したメモリ(例えばRAM)およびそのプログラムに従って動作するCPUなどにより実現され、言語解析用辞書データベース3、テキストデータ構造記憶部5、自立語頻度記憶部9、クラスタ記憶部10、およびシソーラス記憶部11はハードディスク記憶装置およびRAMなどの一部記憶領域を用いて実現される。
このような構成で、制御部13は、シソーラス構築システムの各部を制御し動作させる。入力部1は入力装置として例えば着脱可能な記憶媒体からテキストを読み込む読取装置やキーボードや音声入力装置を用いてテキストを入力し、出力部12は出力装置として例えば表示装置や音声出力装置などを用いてシソーラスなどを出力する。
【0011】
また、言語解析部2は、少なくとも形態素解析および係り受け解析をおこなう。形態素解析処理は、テキストを単語毎に区切り、品詞など、各単語の属性を付加する処理であり、原理は日本語情報処理・第4章「形態素解析」に詳しく、その処理方法としては、最長一致法、コスト最小法、用例検索法など、既存の手法を用いる。
この言語解析部2は、形態素解析に続いて係り受け解析も実施する。係り受け解析は、係り受け処理の1単位である文節を生成し、文節と文節がどのような関係にあるかを同定する処理であり、原理は日本語情報処理・第5章「構文解析」や、「二文節間の係り受けを基礎とした日本語の構文分析」(吉田)に詳しく、ここでは、これらの文献記載の既存の手法を用いる。一般に、文節は1つの自立語と、0個以上の付属語で構成され、解析方法によっては、1文節に複数個の自立語が含まれるような結果を出す定義の仕方もあるが、ここでは、文節にはかならず1つだけしか自立語を含まないように文節を生成する解析方法を用いる。
また、テキストデータ構造生成部4は、言語解析によって得られた情報をテキストデータ構造に変換し、テキストデータ構造記憶部5へ送り、テキストデータ構造記憶部5は、送られてきた情報を検索可能な形式で管理し、記憶する。
図2はテキストデータ構造の構造例であり、図3はテキストデータ構造の各構成要素が管理する情報例である。図2に示した各文節に対応づけられた情報である文節情報には、図3に示したように、文節を構成する単語情報の他、当該文節へ係る係り文節情報、当該文節が係る先の受け文節情報、係り受け関係の種類を示す情報などを含む。
【0012】
図4および図5に、図1に示したシソーラス構築システムの動作フローの一例を示す。以下、図4および図5に従って、この動作フローを説明する。
この例の動作フローでは、最初は入力待ち状態にあり、入力部1にシソーラス構築指示が入ると(S1でY)、入力部1はシソーラス構築対象テキストの有無をチェックし(S2)、入力済みの対象テキストがあったならば(S2でY)、先頭のテキストから順にバッファに格納する(S3)。そして、言語解析部2が言語解析用辞書データベース3を用いてバッファ中のテキストに対して形態素解析を実施し(S4)、さらに、係り受け解析を実施する(S5)。こうして、バッファにあるテキストの係り受け解析処理が終わったならば(S6でY)、テキストデータ構造生成部4が解析結果をテキストデータ構造に変換する。解析結果を用いて図3に示したようなテキスト情報、文情報、および文節情報を持つテキストデータ構造を生成するのである(S7)。さらに、そのテキストデータ構造をテキストデータ構造記憶部5に記憶する(S8)。
【0013】
一方、テキストデータ構造検索部6はテキストデータ構造記憶部5にテキストデータ構造が格納されたか否かを監視しており(S9)、格納されたことを知ると(S9でY)、テキストデータ構造中の全ての文節の自立語を検索し(S10)、検索された自立語が活用語であれば(S11でY)、その自立語の表記を特定の活用形に変換する(S12)。図6に、活用形の表記変換の一例を示す。さらに、各自立語の出現頻度を計算し、自立語表記と出現頻度の対を自立語頻度記憶部9に記憶する(S13)。
続いて、テキストデータ構造検索部6は自立語頻度記憶部9の先頭から自立語を順に読み出し(S14)、特定の自立語となり得るかどうかを判断し(S15)、特定の自立語の条件を満たしていない場合は(S15でN)、その自立語が処理対象の最後の自立語でない限り(S16でN)、次の自立語についてステップS14から繰り返す。それに対して、特定の自立語の条件を満たしている場合は(S15でY)、その自立語を特定自立語バッファに格納する(S17)。なお、特定の自立語の条件は、例えば所定の閾値以上の出現頻度を持つ自立語とする。さらに、必要に応じて特定の品詞に限定することも可能である。
【0014】
次に、テキストデータ構造検索部6は、特定の自立語が含まれている文節と係り受け関係にある文節の自立語およびその係り受け情報(係り受け関係を示す情報)を検索する(S18)。そして、そのような自立語があれば(S19でY)、単語クラスタ生成部7が、その自立語が活用形か否かを判定し(S20)、活用形でなければ(S20でN)そのまま、活用形であれば(S20でY)表記を特定の活用形に変換して(S21)、その自立語を単語バッファへ格納する(S22)。つまり、特定の自立語を含む文節と係り受け関係にある全ての文節を抽出し、抽出された文節の自立語群をひとつの単語クラスタとして同定するのである。なお、このとき、後述する係り受け関係の種類毎に、複数の単語バッファへ自立語を振り分け、格納する。これにより、係り受け関係の種類を考慮しない単語クラスタ生成よりも細分化した単語クラスタを生成できる。
このあと、ステップS18から繰り返し、その際、ステップS19において係り受け関係にある文節がこれ以上ないと判定されたならば(S19でN)、単語クラスタ生成部7は単語バッファ内の自立語(単語)と特定自立語バッファ内の特定自立語とを1つの単語クラスタとしてクラスタ記憶部10へ格納し、単語バッファを空にする(S23)。さらに、特定自立語バッファも空にし(S24)、自立語頻度記憶部9に次の自立語が記憶されているならば(S16でN)、ステップS14から繰り返す。
【0015】
こうして、自立語頻度記憶部9に記憶されている全ての自立語について、特定自立語か否かの判断と、特定自立語であった場合の係り受け関係にある単語のクラスタ生成が完了したならば(S16でY)、シソーラス生成部8が実行するクラスタ統合によるシソーラス生成へ進む。
そこでは、まず、係り受け情報によってまとめられた各単語クラスタについて、特定自立語が同じである単語クラスタをその特定自立語のクラスタとして統合し、単語クラスタの上位クラスタとして位置づける。特定自立語を含む文節と係り受け関係にある全ての文節の自立語群をひとつの単語クラスタとして同定するのである。これにより、ルートが特定自立語の数だけ存在する2階層のシソーラスを自動生成することができる。図7はこの2階層シソーラスの一例(部分)である。前記において、特定の自立語を含む文節と係り受け関係にある全ての文節の自立語群を、係り受け関係の種類毎に単語クラスタとして同定してもよい。
【0016】
また、特開平9−120401号公報記載の単語間の意味距離計算方法や、特開2001−331515公報記載の名詞間距離計算方法など公知の技術を用いて、前者の場合は単語を、後者の場合は名詞を、それぞれこの実施の形態の単語クラスタや特定自立語クラスタに置き換えれば、クラスタ間の距離を算出でき、距離の近いものを統合して上位クラスタとし、この処理を上位クラスタが一つになるまで繰り返すことにより、一つのクラスタをルートとする多階層のシソーラスを自動生成し、各層の各クラスタにクラスタコードを付与し、シソーラスの階層毎に階層コードを付与する(S25)。これにより、シソーラス出力時に、さまざまな出力バリエーションを設けることが可能になる。
こうして、クラスタ統合処理が完了したならば(S26でY)、生成したシソーラスをシソーラス記憶部11へ記憶しておき(S27)、出力指示の有無をチェックし(S28)、出力指示があったならば(S28でY)、シソーラス記憶部11にシソーラスが記憶されている限り(S29でY)、そのシソーラスを出力部12により出力する(S30)。出力部12により、表示装置や音声出力装置などへ出力するのである。
【0017】
次に、テキストが、ある製品に関する複数のアンケート自由記述文書であり、利用者がこれらに基づく製品評価の分析をおこなう場合について本発明の実施例を説明する。利用者は、このようなテキストに特化したシソーラスを自動作成し、分析に利用する。
まず、前記したシソーラス構築システムを起動し、シソーラス構築指示を出す。これにより、シソーラス構築システムは文書の有無をチェックし、あれば先頭の文書から順に文書バッファに格納し、文書バッファ中のテキストに対し、形態素解析をおこない、テキストを単語に区切る。続いて、係り受け解析を実施し、テキスト中の文節同士の係り受け文節対を同定する。例えば「価格がまだ高すぎて、買わない。」という記述文がある場合、以下のような解析結果が得られる。なお、以下において、記号は次の通りである。◆印が同定された係り受け関係の種類、[ ]内が文節、( )内が行頭文節の構成単語とその品詞属性、>印の前の文節が係り文節、後ろの文節が受け文節である。
【0018】
◆主述関係
[価格が] (価格 名詞) (が 格助詞)
> [高すぎて、] (高 形容詞.語幹)(すぎ 補助動詞)(て 接続助詞)(、 読点)
◆連用修飾関係
[まだ] (まだ 副詞)
> [高すぎて、] (高 形容詞.語幹)(すぎ 補助動詞)(て 接続助詞)(、 読点)
◆連用修飾関係
[高すぎて、] (高 形容詞.語幹)(すぎ 補助動詞)(て 接続助詞)(、 読点)
> [買わない] (買わ 動詞.未然)(ない 助動詞) (。 句点)
文書バッファにあるテキストの係り受け解析処理が終わったならば、解析結果をテキストデータ構造記憶部5に記憶し、次の文書を文書バッファに格納し、入力された全てのテキストに対して、このような言語解析をおこなう。そして、言語解析が終了したならば、テキストデータ構造記憶部5に記憶されている係り受け文節対データの有無をチェックする。この例では、前記したように、複数のアンケート自由記述文書が言語解析され、テキストデータ構造に変換されて、記憶されている。
そこで、テキストデータ構造記憶部5に記憶されている全ての文節の自立語を検索し、その自立語が活用語であれば、終止形に活用形を表記変換し、自立語の出現頻度を計量し、自立語頻度記憶部9に記憶する。図8に、この例の場合で、記憶データの先頭部分を示す。
【0019】
次に、先頭の自立語(この例では図8に示した「思う」)から順に読み出し、特定の自立語となり得るかどうかを判断する。この例では、製品評価の分析が目的であるので、特定の自立語を、頻度100以上の形容詞とすると、「思う」は品詞が動詞であるので条件に合致せず、したがって特定の自立語とならず、次の自立語(この例では図8に示した「欲しい」)を読み込む。「欲しい」は条件に合致するので、特定自立語バッファに格納する。そして、「欲しい」が含まれている文節と係り受け関係にある文節の自立語、さらにその係り受け情報をテキストデータ構造検索部6が検索する。これにより、「欲しい」と係り受け関係のある自立語として「デジカメ」「カメラ」「製品」「商品」などが得られるので、単語バッファに格納する。このとき、単なる共起や、連続する共起情報ではなく、係り受け関係を利用するので、「カメラが欲しい」という表現の他に、「カメラがとても欲しい」「欲しいカメラが見つからない」など、「欲しい」と助詞を介して連続しない自立語も、正しく採ることができる。また、その自立語が活用形であれば、特定の活用形に変換し、単語バッファへ格納する。
さらに、このとき、係り受け関係の種類毎に、複数の単語バッファへ単語を振り分け、格納することもできる。例えば、「カメラが欲しい」というガ格の格修飾関係にある「欲しい」と「カメラ」の対と、「欲しいカメラが見つからない」という連体修飾関係にある「欲しい」と「カメラ」の対を区別し、カメラを「ガ格格修飾関係」の単語バッファと、「連体修飾関係」の単語バッファに分けて格納する。
【0020】
図8に示した例では、特定自立語は、「欲しい」「良い」「安い」「高い」となる。これらの自立語と係り受け関係にある単語を検索して単語バッファへ蓄積し、必要に応じて活用形の表記変換をして、クラスタ記憶部10に記憶する。そして、全ての特定自立語に対応するクラスタ生成が完了したならば、クラスタの統合によるシソーラス生成をおこない、シソーラス生成が終了したならば、シソーラス記憶部11に記憶し、出力指示の有無をチェックする。こうして、この例では、シソーラスが記憶されているので、そのシソーラスを例えば表示装置に図7に示したように表示する。
以上、図1に示したシステム構成の場合で説明したが、説明したようなシソーラス構築方法に従ってプログラミングしたプログラムを着脱可能な記憶媒体に記憶し、その記憶媒体をこれまで本発明によったシソーラス構築をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、または、そのようなプログラムをネットワークを介してそのような情報処理装置へ転送することにより、そのような情報処理装置においても本発明によったシソーラス構築をおこなうことができる。
【0021】
【発明の効果】
以上説明したように、本発明によれば、請求項1および請求項2記載の発明では、対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築する際、文節生成をおこなって文節間の係り受け関係を同定し、その係り受け関係の同定結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成し、生成されたそのテキストデータ構造を記憶しておき、記憶されているそのテキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成してその単語クラスタ間の関係を同定し、同定した単語クラスタ間の関係を用いてシソーラスを構築することができるので、シソーラス構築のためのテキストと処理対象テキストとの親和性を確保でき、精度の高いシソーラスを構築することが可能となる。
また、請求項3記載の発明では、請求項2記載の発明において、テキストデータ構造中から言語要素を抽出する際、各文節のテキストデータ構造から自立語とその自立語と係り受け関係にある自立語とから成る自立語対を抽出することができるので、その後の統計処理を簡略化でき、したがって、シソーラス構築の処理速度を向上させることができる。
【0022】
また、請求項4記載の発明では、請求項2または請求項3記載の発明において、テキストデータ構造中から取り出した自立語が活用語であれば、特定の活用形に変換することができるので、単語対のバリエーションの爆発を押さえ統計処理の速度を向上させることができるし、単語クラスタリングの精度も向上させることができる。
また、請求項5記載の発明では、請求項2または請求項3記載の発明において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節を抽出し、抽出された文節の自立語群をひとつの単語クラスタとして同定することができるので、共起関係にある単語よりも意味的に関係の深い単語でクラスタを生成することが可能となり、したがって、精度の高い単語クラスタが得られる。
また、請求項6記載の発明では、請求項2または請求項3記載の発明において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節、およびその係り受け関係の種類情報を抽出し、抽出された文節の自立語を係り受け関係の種類毎に単語クラスタとして同定することができるので、意味的に関係が深く、さらに、言語運用上も関係が一致する単語クラスタを生成することができ、したがって、より精度の高いシソーラスの構築が可能となる。
【0023】
また、請求項7記載の発明では、請求項2または請求項3記載の発明において、単語クラスタを生成する際、全ての文節の自立語に対して出現頻度を計量し、各自立語とその出現頻度の対を記憶しておき、その記憶結果を用いて単語クラスタを生成することができるので、単語クラスタ生成の精度が向上する。
また、請求項8記載の発明では、請求項2乃至請求項7のいずれか1項に記載のシソーラス構築方法によったシソーラス構築を実行させるようにプログラミングされているプログラムを情報処理装置上で実行させることができるので、情報処理装置を用いて請求項2乃至請求項7のいずれか1項に記載の発明の効果を得ることができる。
また、請求項9記載の発明では、請求項8記載のプログラムを着脱可能な記憶媒体に記憶することができるので、その記憶媒体をこれまで請求項2乃至請求項7のいずれか1項に記載の発明によったシソーラス構築をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、そのような情報処理装置においても請求項2乃至請求項7のいずれか1項に記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態を示す、シソーラス構築システムの構成ブロック図。
【図2】本発明の一実施形態を示す、シソーラス構築システム要部のデータ構造図。
【図3】本発明の一実施形態を示す、シソーラス構築システム要部の説明図。
【図4】本発明の一実施形態を示す、シソーラス構築方法の動作フロー図。
【図5】本発明の一実施形態を示す、シソーラス構築方法の他の動作フロー図。
【図6】本発明の一実施形態を示す、シソーラス構築方法の説明図。
【図7】本発明の一実施形態を示す、シソーラス構築方法の他の説明図。
【図8】本発明の一実施例を示す、シソーラス構築システム要部のデータ構成図。
【符号の説明】
1 入力部
2 言語解析部
3 言語解析用辞書データデース
4 テキストデータ構造生成部
5 テキストデータ構造記憶部
6 テキストデータ構造検索部
7 単語クラスタ生成部
8 シソーラス生成部
10 クラスタ記憶部
11 シソーラス記憶部
12 出力部

Claims (9)

  1. 対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築システムにおいて、文節生成をおこない文節間の係り受け関係を同定する係り受け解析手段と、その係り受け解析手段による係り受け解析の結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成するテキストデータ構造生成手段と、生成された前記テキストデータ構造を記憶するテキストデータ構造記憶手段と、そのテキストデータ構造記憶手段に記憶されている前記テキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成する単語クラスタ生成手段と、前記言語要素に基づいて前記単語クラスタ間の関係を同定する単語クラスタ間同定手段とを備え、同定した単語クラスタ間の関係を用いてシソーラスを構築することを特徴とするシソーラス構築システム。
  2. 対象テキストについて言語解析をおこなうことにより得られる対象テキスト中の単語を自動的にクラスタリングして対象テキストのシソーラスを構築するシソーラス構築方法において、文節生成をおこなって文節間の係り受け関係を同定し、その係り受け関係の同定結果を用いて、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するデータ構造を生成し、生成されたそのテキストデータ構造を記憶しておき、記憶されているそのテキストデータ構造中から抽出した言語要素に基づいて単語クラスタを生成してその単語クラスタ間の関係を同定し、同定した単語クラスタ間の関係を用いてシソーラスを構築することを特徴とするシソーラス構築方法。
  3. 請求項2記載のシソーラス構築方法において、前記テキストデータ構造中から言語要素を抽出する際には、各文節のテキストデータ構造から自立語とその自立語と係り受け関係にある自立語とから成る自立語対を抽出することを特徴とするシソーラス構築方法。
  4. 請求項2または請求項3記載のシソーラス構築方法において、前記テキストデータ構造中から取り出した自立語が活用語であれば、特定の活用形に変換することを特徴とするシソーラス構築方法。
  5. 請求項2または請求項3記載のシソーラス構築方法において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節を抽出し、抽出された文節の自立語群をひとつの単語クラスタとして同定することを特徴とするシソーラス構築方法。
  6. 請求項2または請求項3記載のシソーラス構築方法において、単語クラスタを生成する際、特定の自立語を含む文節と係り受け関係にある全ての文節、および前記係り受け関係の種類情報を抽出し、抽出された文節の自立語を係り受け関係の種類毎に単語クラスタとして同定することを特徴とするシソーラス構築方法。
  7. 請求項2または請求項3記載のシソーラス構築方法において、単語クラスタを生成する際、全ての文節の自立語に対して出現頻度を計量し、各自立語とその出現頻度の対を記憶しておき、その記憶結果を用いてクラスタを生成することを特徴とするシソーラス構築方法。
  8. 情報処理装置上で実行されるプログラムにおいて、請求項2乃至請求項7のいずれか1項に記載のシソーラス構築方法によるシソーラス構築を実行させるようにプログラミングされていることを特徴とするプログラム。
  9. プログラムを記憶した記憶媒体において、請求項8記載のプログラムを記憶したことを特徴とする記憶媒体。
JP2003191036A 2003-07-03 2003-07-03 シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 Pending JP2005025555A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003191036A JP2005025555A (ja) 2003-07-03 2003-07-03 シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003191036A JP2005025555A (ja) 2003-07-03 2003-07-03 シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JP2005025555A true JP2005025555A (ja) 2005-01-27

Family

ID=34188760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003191036A Pending JP2005025555A (ja) 2003-07-03 2003-07-03 シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP2005025555A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048291A (ja) * 2010-08-24 2012-03-08 Dainippon Printing Co Ltd 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム
JP2013020431A (ja) * 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム
JP2017187898A (ja) * 2016-04-04 2017-10-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN109388801A (zh) * 2018-09-30 2019-02-26 阿里巴巴集团控股有限公司 相似词集合的确定方法、装置和电子设备
CN112289398A (zh) * 2020-08-17 2021-01-29 上海柯林布瑞信息技术有限公司 病理报告解析方法及装置、存储介质、终端
CN113111150A (zh) * 2021-04-14 2021-07-13 科大讯飞股份有限公司 一种文档检索方法、装置、存储介质及设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048291A (ja) * 2010-08-24 2012-03-08 Dainippon Printing Co Ltd 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム
JP2013020431A (ja) * 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム
JP2017187898A (ja) * 2016-04-04 2017-10-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN109388801A (zh) * 2018-09-30 2019-02-26 阿里巴巴集团控股有限公司 相似词集合的确定方法、装置和电子设备
CN109388801B (zh) * 2018-09-30 2023-07-14 创新先进技术有限公司 相似词集合的确定方法、装置和电子设备
CN112289398A (zh) * 2020-08-17 2021-01-29 上海柯林布瑞信息技术有限公司 病理报告解析方法及装置、存储介质、终端
CN113111150A (zh) * 2021-04-14 2021-07-13 科大讯飞股份有限公司 一种文档检索方法、装置、存储介质及设备
CN113111150B (zh) * 2021-04-14 2024-02-13 科大讯飞股份有限公司 一种文档检索方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
US5878386A (en) Natural language parser with dictionary-based part-of-speech probabilities
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP2640793B2 (ja) 共起辞書構築装置及びこの共起辞書を用いた文解析装置
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
US20080040095A1 (en) System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0242572A (ja) 共起関係辞書生成保守方法
Krizhanovsky et al. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR950013129B1 (ko) 기계번역장치 및 방법
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4308543B2 (ja) キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム
JPH0561902A (ja) 機械翻訳システム
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
JP3892227B2 (ja) 機械翻訳システム
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP3388393B2 (ja) データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JPH0320866A (ja) テキストベース検索方式
Asubiaro An Analysis of the Structure of Index Terms for Yoruba Texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060323

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071211

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080226