JP3934586B2

JP3934586B2 - 情報分類システム及びプログラム

Info

Publication number: JP3934586B2
Application number: JP2003318368A
Authority: JP
Inventors: 光一笹氣
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-09-10
Filing date: 2003-09-10
Publication date: 2007-06-20
Anticipated expiration: 2023-09-10
Also published as: JP2005085112A

Description

本発明は、複数の文書等の情報に出現する複数の形態素から分類分けをする情報分類システム及びプログラムに関する。

一般に、文書管理システムでは、時間の経過とともに大量の文書が発生し、効率的に文書を管理するのが難しくなってくる。

そこで、以上のように大量に発生する文書を管理する場合、おおよそ次の２通りの情報分類方法が用いられている。

その１つの情報分類方法は、文書の分類階層と各分類階層に属する文書のプロファイルとを定義しておき、新規に管理すべき文書が発生したとき、当該文書が何れの分類階層のプロファイルに類似しているか否かを判断し、最も類似しているプロファイルの分類階層に該当文書を加えていく方法である。

他の１つの情報分類方法は、複数の文書内に含まれるキーワードの出現頻度と共起関係とに基づいて文書の類似度を算出し、類似度の高い文書同士をグループ化するとともに、同一グループ内の各文書の階層関係を生成し、文書を分類していく方法である。

本願発明における分類方法は、どちらかと言えば後者に属すると判断できるので、以下、後者に属する従来技術について説明する。

従来技術の１つは、文書中の単語同士の共起関係データに基づいて単語間の意味的距離を求め、意味的に近い距離にある単語を同じクラスに分類するクラスタリング方法である（特許文献１）。

従来技術の他の１つは、各文書データに対して形態素解析などを行い、不要語処理などを行ってキーワードを抽出する。そして、各文書データに対するキーワードの特徴ベクトルを生成し、これら特徴ベクトル間の類似度を計算し、各文書データを分類していく方法である（特許文献２）。
特開２００１−３３１５１５特開２００２−２４５０６７

しかしながら、以上のような技術のうち、特に前者の従来技術では、各単語間の共起関係だけに着目して単語の分類分けを行っているので、例えば複数の形態素から成る合成語を分類分けする際、形態素同士が離れた位置に共起している場合と合成語の一部として存在している場合とを区別することが困難である。その結果、分類分けされたグループがユーザの意図するグループと異なる結果となる可能性があること。また、単語単位で共起関係を判断している限り、合成語を構成する形態素同士の位置関係について、必ず隣接している場合と途中に何単語か存在して隣接している場合とを区別できないので、複数の形態素から成る複数の合成語を同一の合成語として扱うことができず、適切な分類分けができない問題がある。

一方、後者の従来技術では、各文書を形態素解析した結果の形態素をキーワードとして用い、これらキーワードの特徴ベクトルの類似度から各文書を分類分けするが、新たに管理すべき文書が発生した時、過去に遡って既に管理されているキーワードから過去のキーワードをそのまま用いるか、新たなキーワードを付けるかを判断する必要があり、どうしてもキーワードが増えてしまう問題がある。キーワードが増えれば、大量に発生し続ける文書の分類には管理コストが大きくなる問題がある。

また、複数の形態素から成る合成語の分類分けについては、前者の従来技術と同様の問題が生ずる。

さらに、２つの従来技術に共通して言えることは、新しい概念として合成語が発生し場合、何れの時期から発生した文書に基づいて合成語の分類分け処理を行うのか不明である。

本発明は上記事情にかんがみてなされたもので、複数の文書間の複数の形態素から成る合成語に対して、ユーザの意図に即した精度の高い分類分け処理を実行する情報分類システム及びプログラムを提供することを目的とする。

（１）上記課題を解決するために、複数の文書に含まれる形態素から複数のグループにグループ分けする本発明に係る情報分類システムは、複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、これら選定された索引語候補要素の２個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在し、かつ、当該辞書語を構成する複数の形態素についての共起関係判定条件を満たす場合、前記合成語辞書記憶手段に記憶される該当辞書語に属するグループとするクラスタ生成処理部とを設けた構成である。

この発明は以上のような構成とすることにより、合成語辞書記憶手段には予めグループ分けの単位となる複数の形態素からなる辞書語及びこれら各辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件が規定されており、一方、文書記憶手段には複数の文書及び各文書に含まれる形態素が記憶されている。

この状態において、クラスタ生成処理部は、情報分類時、文書記憶手段から記憶される形態素ごとに各文書に出現する数が予め設定される数を超える形態素を索引語候補要素として選定する。そして、これら選定された索引語候補要素の２個以上連なる形態素で構成される索引語が前記辞書語の中に存在し、かつ、当該辞書語に対応して規定されている例えば索引語と辞書語とを構成する形態素の関係が隣接する場合のみとか、同一フレーズに存在するとか、さらに有効年月日以降にグループ分けするなどの共起関係判定条件を満たす場合、前記合成語辞記憶手段に記憶される該当辞書語のグループに連なるようにグループ分けすることが可能となり、文書に含まれる複数の形態素からなる合成語であっても、同一の合成語として取り扱うことができる。

（２）また、本発明に係る情報分類システムは、複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、索引語候補要素の集合を作成する索引語候補選定手段と、この索引語候補選定手段で選定された集合の索引語候補要素の２個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在する場合、当該索引語が前記辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成するターム集合作成手段と、このターム集合作成手段で作成された索引語の組の集合の各要素同士の出現相関を計算する出現相関処理手段と、この出現相関処理手段で得られた出現相関に基づいて前記索引語の階層関係を作成する階層関係作成手段とを設けた構成である。

この発明は以上のような構成とすることにより、索引語候補選定手段では、文書記憶手段に記憶される形態素ごとに各文書に出現する数から索引語候補要素を選定し、索引語候補要素の集合を作成し、ターム集合作成手段に渡す。このターム集合作成手段は、選定された集合の索引語候補要素の２個以上連なる形態素で構成される索引語が合成語辞書記憶手段に記憶される辞書語の中に存在するか否かを判断し、存在すると判定された場合、引き続き、当該索引語が辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成する。そして、ターム集合作成手段で作成された索引語の組の集合の各要素同士の出現相関を計算し、索引語の階層関係を決定するので、２個以上連なる形態素からなる索引語であっても、共起関係判定条件の条件設定内容に応じて、例えば形態素同士が文書内の離れた位置に共起している場合でも、途中に何単語か存在して隣接する場合でも、ユーザの意図するグループに連なるようにすることが可能である。

なお、情報分類システムによる前記（２）による実現手段は、記録媒体に記憶されるプログラムによっても同様に実現できる。

本発明は、複数の文書間の複数の形態素から成る合成語に対しても、ユーザの意図に即した精度の高い分類分け処理を行うことができる情報分類システム及びプログラムを提供できる。

以下、本発明の実施の形態について図面を参照して説明する。

図１は本発明に係る情報分類システムの一実施の形態を示す構成図である。

この情報分類システムは、分類対象とする文書や各種制御指示情報を入力する情報入力手段１、形態素インデックス記憶部２ａ及び本文データ記憶部２ｂを有する文書蓄積用データベース２及び情報入力手段１から入力される文書から形態素インデックスを抽出し、この抽出された形態素インデックス及び入力文書である本文データを文書蓄積用データベース２に格納し管理する文書データ管理部３とが設けられている。

情報入力手段１は、キーボード、ポインティングデバイスであるマウスなどが用いられ、ユーザが複数の文書を入力する他、所要の処理を実行する制御指示情報を入力する。なお、ここでいう文書とは、キーボードから入力する文書だけでなく、ＯＣＲ（Optical Character Reader）で読み取った文書、フロッピー（登録商標）ディスク、磁気テープ、磁気ディスクなどに格納されている電子化文書、インターネット上から取り込んだ電子化文書などを含むものである。

文書データ管理部３は、入力される文書に対して、図示していない形態素解析用辞書に記憶される単語情報及び文法規則を用いて、形態素解析を実施し、当該文書の形態素及び各形態素に係る位置情報を取り出し、この形態素及び位置情報からなる形態素インデックスを作成して形態素インデックス記憶部２ａに格納する一方、当該形態素解析の対象となった文書を本文データ記憶部２ｂに記憶する機能をもっている。

また、情報分類システムは、ユーザが予め分類の見出し語としたい複数の形態素からなる合成語（辞書語）及び当該合成語を構成する複数の形態素についての共起関係を判定する共起関係判定条件を登録する合成語辞書記憶部４（図２参照）と、文書蓄積用データベース２に蓄積される複数の文書について合成語辞書記憶部４に規定する共起関係判定条件を用いてクラスタ生成処理及びクラスタ編集処理を行うクラスタ情報処理管理部５と、このクラスタ情報処理管理部５によるクラスタ生成処理などの過程で一時的に必要なデータを記憶するバッフアメモリ６と、クラスタ情報処理管理部５で生成されたクラスタリング情報を記憶するクラスタリング情報記憶部７と、クラスタ情報処理管理部５によるクラスタ編集処理時などの際にクラスタリング情報を表示したり、プリントアウトする出力手段８と、クラスタ情報処理管理部５がＣＰＵで構成されている場合、当該ＣＰＵにクラスタ生成処理を実行させるためのクラスタ生成処理用プログラムを格納する記録媒体９とが設けられている。

前記合成語辞書記憶部４は、図２に示すように合成語である辞書語，例えば「国土交通省」、「浮動小数点演算」、…等々が登録され、これら辞書語「国土交通省」、「浮動小数点演算」、…ごとにクラスタリングする基本単位となっている。この辞書語に対するフィールドには、形態素区切り情報、隣接判定条件、有効年月日などが規定されている。つまり、辞書語である「国土交通省」は、国土／交通／省の３つの形態素区切り情報で構成され、これら形態素区切り情報が隣接判定条件として隣接の場合のみ共起関係が成立するように規定されている。この辞書語である「国土交通省」の有効年月日は、２０００年１月１日から有効と規定されている。つまり、辞書語「国土交通省」に対するクラスタリング処理は、２０００年１月１日以降に発生する文書に適用することを意味する。

また、例えば辞書語である「浮動小数点演算」については、浮動／小数／点／演算の４つの形態素区切り情報で構成され、この場合の隣接判定条件は同一フレーズに存在すれば共起関係が成立するように規定されている。この辞書語の有効年月日はなしと規定され、何時でも複数の文書に対するクラスタ生成処理を行うことが可能であることを意味する。

なお、隣接判定条件としては、辞書語に応じて種々の取決めが可能であり、前述する「隣接の場合のみ」、「同一フレーズに存在する」、「○語以内に存在する」、「何語ごとに存在する」などが規定されるものである。

前記クラスタ情報処理管理部５は、文書蓄積用データベース２に格納される全文書に含まれる形態素に基づいて前記合成語辞書記憶部４に規定する共起関係判定条件のもとに共起関係を判定し、各文書に対するクラスタを生成し、クラスタリング結果としてクラスタリング情報記憶部７に記憶するクラスタ生成処理部５１と、このクラスタ生成処理部５１によって生成されたクラスタリング結果を読み出して出力手段８に表示し、生成されたクラスタの編集処理を実行するクラスタ編集処理部５２とによって構成されている。

このクラスタ生成処理部５１は、機能的には図３に示すように、文書蓄積用データベース２に格納される全文書に含まれる形態素インデックスに含む形態素から索引語候補を選定する索引語候補選定手段５１Ａ、この索引語候補選定手段５１Ａにより選定された索引語候補の集合から、ある文書の形態素をもとに他の文書の形態素（自文書の他の形態素も含む）の間に共起関係が成立するか否かを判断し、共起関係が成立すれば当該共起関係にある各文書の形態素の組，つまりターム集合を作成するターム集合作成手段５１Ｂ、このターム集合作成手段５１Ｂで作成されたターム集合の中の各要素である形態素同士の出現相関を計算する出現相関処理手段５１Ｃ及びこの出現相関処理手段５１Ｃによって得られる形態素同士の出現相関に基づいて索引語の階層関係を作成し、クラスタリング情報記憶部７に記憶する階層関係作成手段５１Ｄが設けられている。

次に、以上のような情報分類システムの動作及び本発明に係るプログラムによる一連の処理例について図４ないし図７を参照して説明する。

先ず、ユーザが情報入力手段１から分類対象とする複数の文書を入力すると、文書データ管理部３は、入力される文書に基づき、形態素解析用辞書（図示せず）の辞書引きを行い、各文書の形態素、当該形態素に係る位置情報を取り出し、形態素及び位置情報よりなる形態素インデックスを形態素インデックス記憶部２ａに格納し、また形態素解析対象となった文書を本文データ記憶部２ｂに格納する。従って、文書蓄積用データベース２には多数の形態素インデックス及び本文データが蓄積されている。

この状態において、ユーザが情報入力手段１からクラスタ生成制御指示を入力すると、クラスタ情報処理管理部５のクラスタ生成処理部５１は例えば記録媒体９に記憶されるクラスタ処理用プログラムに基づいて図４に示す処理を実行する。

すなわち、クラスタ生成処理部５１の索引語候補選定手段５１Ａは、文書蓄積用データベース２から全文書に含まれる形態素の集合の中から、出現頻度がある範囲内にある形態素を索引語の候補として選定し、索引語候補集合Ｅ＝｛ｅｌ，…，ｅｋ｝を作成するものである（Ｓ１：索引語候補選定機能）。

この索引語候補選定手段５１Ａないし索引語候補選定機能Ｓ１は、具体的には、図５に示すように全文書に含まれる形態素の集合Ｍ＝｛ｍｌ，…，ｍｋｋ｝を読出してバッフアメモリ６に記憶した後（Ｓ１０１）、第1のカウンタ（図示せず）にｉ＝１を設定した後（Ｓ１０２）、ある１つの文書の形態素ｍｉに対する出現文書の数Ｎｉを計数する（Ｓ１０３）。

そして、形態素ｍｉの出現文書数Ｎｉが予め設定されているパラメータＰｌ個以上出現しているか否かを判断し（Ｓ１０４）、形態素ｍｉがＰｌ個以上出現している場合にはその出現した文書数ｃｉを算出し、該当形態素ｍｉ及び出現文書数ｃｉをバッフアメモリ６などに格納する（Ｓ１０５）。

ステップＳ１０４において形態素ｍｉがＰｌ個以上でない場合もしくはステップＳ１０５にてバッフアメモリ６に該当形態素ｍｉ及び出現文書数ｃｉ（＝ｃｌ）を格納した後、最後の形態素ｍｋｋまで出現文書数を調べたか否かを判断し（Ｓ１０６）、未だ未処理の形態素が残っている場合には、第1のカウンタに＋１をインクリメントし（Ｓ１０７）、ステップＳ１０３に戻り、同様の処理を繰り返し実行する。

以上のようにして最後の形態素ｍｋｋについて各文書の出現文書数ｃｉ（＝ｃｋｋ）を計算し終了すると、これら文書出現数ｃｌ，…，ｃｋｋの平均値Ａを算出し（Ｓ１０８）、バッフアメモリ６に格納する。

さらに、第２のカウンタにｉ＝１を設定した後（Ｓ１０９）、前記ステップＳ１０３で計数された形態素ｍｉ（＝ｍｉ）の文書出現数Ｎｉが予め設定されるパラメータＰ２とＰ３との範囲内に有り、かつ、パラメータＰ１個以上の文書出現数ｃｉ（＝ｃｌ）が平均値Ａよりも大きいか否か，つまり索引語の候補として選定条件を満たしているか否かを判断し（Ｓ１１０）、満たしていると判断された場合には形態素ｍｉ（＝ｍｌ）を索引語候補として選定し、索引語候補集合Ｅに追加する（Ｓ１１１）。

さらに、索引語候補を追加した後もしくはステップＳ１１０による選定条件を満たしていない場合、次のステップＳ１１２に移行し、全ての形態素の処理が終了したか否かを判断し（Ｓ１１２）、未処理の形態素があれば、第２のカウンタに＋１をインクリメントし（Ｓ１１３）、ステップＳ１１０に戻って同様の処理を繰り返し実行し、最終的に索引語候補集合Ｅ＝｛ｅｌ，…，ｅｋ｝を作成する。

以上のようにして索引語候補集合Ｅ＝｛ｅｌ，…，ｅｋ｝を作成した後、クラスタ生成処理部５１のターム集合作成手段５１Ｂを実行する。このターム集合作成手段５１Ｂは、図４のステップＳ２に示すように、索引語の候補から文書中に共起関係をもつ形態素の組を作成する機能をもっている（ターム集合作成機能に相当する）。この作成された結果をターム集合と呼ぶ。このターム集合がクラスタリング結果の見出し，つまりラベル語となる。

このターム集合作成手段５１Ｂないしターム集合作成機能Ｓ２について図６を用いて更に詳しく説明する。

先ず、索引語候補集合Ｅの要素である形態素のうち、予め設定されるパラメータＰ４個以上の文書に出現する形態素を抽出し、これら抽出された形態素の集合をＣ１とし（Ｓ２０１）、これをＬ１＝Ｃ１とする（Ｓ２０２）。ここでは、比較的多数の文書に出現する１つの形態素集合Ｃ１を作成できる。

引き続き、第３のカウンタｉに「２」を設定する（Ｓ２０３）。このｉ＝「２」とは２つ連なる形態素の共起関係を判定し、２つの形態素の組の集合Ｃｉ（＝Ｃ２）を作成することを意味する。そこで、先ず、２つ連なる形態素に関する集合Ｃｉを空にした後（Ｓ２０４）、ステップＳ２０１においてＰ４以上となった出現文書の全ての形態素に索引語候補集合Ｅの要素である各形態素を１つ加え、２つ連なる形態素Ｌｉを順次作成する（Ｓ２０５）。従って、２つの形態素Ｌｉの要素数をｑとすると、ｑ＝Ｌｉ＝｛ｌ１，…，ｌｑ｝を作成することができる（Ｓ２０６）。ここでは、２つ連なる形態素Ｌｉである要素が多数作成されることになる。

このようにして２つの形態素からなる多数の要素ｌ１，…，ｌｑを作成した後、第４のカウンタｊ＝１を設定し（Ｓ２０７）、最初の２つの形態素からなる要素ｌj（＝ｌ１）を構成する索引語（２つの形態素）を含む全ての文書集合Ｄｊを作成し、バッフアメモリ６などに格納する（Ｓ２０８）。そして、この要素ｌj（＝ｌ１）を構成する索引語，つまり２つの形態素が合成語辞書記憶部４に規定する辞書語の中に登録されているか否かを判断し（Ｓ２０９）、登録されていない場合にはステップＳ２１０に移行し、ここで文書集合Ｄｊの数が予め定めるパラメータＰ４以上かを判断し、Ｐ４以上であれば２つの形態素で構成する索引語ｌｊをステップＳ２０４で空にした集合Ｃｉ＝｛｝の１つの要素として加える（Ｓ２１１）。

一方、ステップＳ２０９において、要素ｌjで構成する索引語が辞書語の中に登録されている場合にはその登録されている辞書語Ｗをバッフアメモリ６などに記憶する（Ｓ２１２）。そして、複数の文書集合Ｄｊのうち、当該辞書語Ｗに対応する有効年月日より新しい文書の集合Ｄｊ'を順次抽出し（Ｓ２１３）、これら文書集合Ｄｊ'の要素のうち、合成語辞書記憶部４に規定する隣接判定条件を満たす文書が予め設定されるＰ５以上存在するか否かを判断する（Ｓ２１４）。ここで、隣接判定条件を満たす文書が存在する場合、前述同様に２つの形態素からなる索引語ｌｊをステップＳ２０４で空にした集合の要素として加える（Ｓ２１１）。

以上のようにして要素ｌj（＝ｌ１）を構成する索引語の集合要素の抽出処理が終了すると、第４のカウンタｊに＋１をインクリメントし（Ｓ２１５）、リスト要素のｑまで処理が終了したかを判断し（Ｓ２１６）、未処理の要素が存在する場合にはステップＳ２０８に戻り、次の要素ｌjで構成する索引語について同様の処理を繰り返し実行する。

従って、以上のような一連の処理により、２つ連なる形態素の組の集合を作成することができる。

一方、要素ｑまで処理が終了している場合、ｉが予め定める最大形態素数Ｐ６に達したかを判断し（Ｓ２１７）、Ｐ６に達していなければ、集合Ｃ１をＣｉにインクリメントしてＬｉ＝Ｃｉとし（Ｓ２１８）、第３のカウンタｉに＋１をインクリメントし（Ｓ２１９）、ステップＳ２０４に移行する。ここでは、Ｐ４以上となった出現文書の全ての形態素に索引語候補集合Ｅの要素である各形態素をさらに１つ加え、３つの形態素からなる要素Ｌｉを作成し（Ｓ２０５）、形態素数Ｐ６となるまで繰り返し実行し、１つの形態素から６つ連なる形態素の組の集合，つまりターム集合Ｔ＝｛Ｃ１ＵＣ２，…，ＣＰ６｝を作成することができる（Ｓ２２０）。なお、各形態素の組の集合Ｃ１，Ｃ２，…，ＣＰ６はそれぞれ｛Ｔ１、…，Ｔｎを構成している。

引き続き、クラスタ生成処理部５１は出現相関処理手段５１Ｃを実行する。この出現相関処理手段５１Ｃは、ターム集合Ｔである各形態素の組の集合Ｃ１，Ｃ２，…，ＣＰ６ごとに各要素Ｔｉ同士の出現相関を計算する（Ｓ３）。具体的には、例えば図７に示すような処理を実行する（出現相関処理機能に相当する）。

すなわち、出現相関処理手段５１Ｃないし出現相関処理機能Ｓ３は、ターム集合Ｔの要素Ｔｉを構成するｎ個の要素の中から任意の３個の要素Ｔｘ，Ｔｙ，Ｔｚを取り出し、これら要素Ｔｘ，Ｔｙ，Ｔｚが|Ｔｘ|＋|Ｔｙ|＝|Ｔｚ|であり、かつＴｘＵＴｙ＝Ｔｚの関係が成立するかどうかを評価する（Ｓ３０１）。ここで、|Ｔｘ|とはＴｘを構成する形態素の数を意味し、またｘ，ｙ，ｚは｛１，…，ｎ｝の任意の要素である。つまり、以上のような２つの条件を満たすＴｘ，Ｔｙ，Ｔｘの３項組を探し出し、集合Ｒに順次追加していく。従って、３項組の集合Ｒ＝｛Ｒ１,…，Ｒｍ｝を作成できる。なお、３項組の集合はＲ＝｛Ｒ１,…，Ｒｍ｝ですが、Ｒの要素Ｒｉ＝（Ｔｘｉ，Ｔｙｉ，Ｔｚｉ）というように集合Ｔの要素３つの組となる。このｘｉ，ｙｉ，ｚｉはそれぞれ｛１，…，ｎ｝の任意の数である。

以上のようにして３項組の集合Ｒ＝｛Ｒ１,…，Ｒｍ｝を作成した後、この集合Ｒの要素から１つのＲｉ＝｛Ｔｘｉ，Ｔｙｉ，Ｔｚｉ｝を取り出した後（Ｓ３０２）、Ｒｉ＝｛Ｔｘｉ，Ｔｙｉ，Ｔｚｉ｝というＴの要素３つの組に対して、特定の条件が成り立つ場合、出現相関有りの処理を行う（Ｓ３０３）。具体的には、Ｎｘｉ＝Ｔｘｉの要素を含む文書の数、Ｎｙｉ＝Ｔｙｉの要素を含む文書の数、Ｎｚｉ＝Ｔｚｉの要素を含む文書の数とすると、
Ｎｚｉ／Ｎｘｉ＞Ｐ８かつＮｚｉ／Ｎｙｉ≦Ｐ８ならば、Ｎｘｉ→Ｎｙｉ
Ｎｚｉ／Ｎｘｉ≦Ｐ８かつＮｚｉ／Ｎｙｉ＞Ｐ８ならば、Ｎｘｉ←Ｎｙｉ
の出現相関有りとする。

引き続き、要素Ｔに未処理の要素が存在するか否かを調べ（Ｓ３０４）、存在する場合にはステップＳ３０２に戻り、３項組の集合Ｒから未処理の１つの要素を取り出し、同様の処理を実施し、出現相関を判断していく。

さらに、クラスタ生成処理部５１は階層関係作成手段５１Ｄを実行する。この階層関係作成手段５１Ｄは、ターム集合Ｔの要素Ｔｉ同士の出現相関に基づき、索引語の階層関係を作成処理する（Ｓ４：階層関係作成機能）。

この階層関係作成手段５１Ｄは、図４に示すように要素Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５がステップＳ３にてＴ１←Ｔ２、Ｔ１←Ｔ３、Ｔ４←Ｔ５の出現相関を有する場合、索引語の階層関係は図４の右図に示すように作成され、クラスタリング情報記憶部７に格納される。なお、このときＴ１が親クラスタである場合、当該親クラスタＩＤ、ラベル語、文書ＩＤなどにより管理され、例えばＴ２のごとく子クラスタの場合には文書ＩＤ、親クラスタＩＤなどにより管理される。

さらに、クラスタ編集処理部５２では、クラスタ生成処理部５１によって生成されたクラスタリング結果をクラスタリング情報記憶部７に記憶した後、その生成されたクラスタリング結果をクラスタリング情報記憶部７から読出し、出力手段８に表示し、ユーザが必要に応じて修正するなどの編集処理を実施し、クラスタリング情報記憶部７に再度記憶するものである。

従って、以上のような実施の形態によれば、複数の文書に含まれる形態素ごとに各文書に出現する数に基づいて当該形態素である索引語候補要素を選定し、これら選定された索引語候補要素の２個以上連なる形態素で構成される索引語が合成語辞書記憶部４に規定する辞書語に存在し、かつ、当該辞書語に対応して規定される共起関係判定条件を満たすことを前提とし、該当辞書語に属するグループとして扱うグループ分け処理を行うので、文書に含まれる複数の形態素からなる合成語であっても、同一の合成語として取り扱うことができる。

また、合成語辞書記憶部４に隣接する場合のみ有効とする共起関係判定条件が規定されている場合、合成語を構成する形態素と該当辞書語を構成する形態素区切り情報とが隣接する関係とも同一である時、当該合成語が該当辞書語のグループに属すると判断でき、また同一フレーズに存在すれば有効とする場合には合成語の一部として存在する場合とか、中間に何単語か存在して隣接している場合でも、合成語が該当辞書語のグループに属すると判断することができる。

さらに、合成語辞書記憶部４に有効年月日に関する共起関係判定条件が規定されている場合、有効年月日以降のグループ分けのみ有効となるので、ユーザの要求に応じたグループ分け処理を実施できる。

その他、本願発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変形して実施できる。また、各実施の形態は可能な限り組み合わせて実施することが可能であり、その場合には組み合わせによる効果が得られる。さらに、上記各実施の形態には種々の上位，下位段階の発明が含まれており、開示された複数の構成要素の適宜な組み合わせにより種々の発明が抽出され得るものである。例えば問題点を解決するための手段に記載される全構成要件から幾つかの構成要件が省略されうることで発明が抽出された場合には、その抽出された発明を実施する場合には省略部分が周知慣用技術で適宜補われるものである。

本発明に係る情報分類システムの一実施の形態を示す構成図。合成語辞書記憶部に規定される辞書語と共起関係判定条件との対応関係を示す図。図１に示すクラスタ生成処理部の機能ブロック図。図１に示クラスタ生成処理部の一連の処理例を説明する図。図３に示す索引語候補選定手段における処理の一具体例を説明するフローチャート。図３に示すターム集合作成手段における処理の一具体例を説明するフローチャート。図３に示す出現相関処理手段における処理の一具体例を説明するフローチャート。

符号の説明

１…情報入力手段、２…文書蓄積用データベース、２ａ…形態素インデックス記憶部、２ｂ…本文データ記憶部、３…文書データ管理部、４…合成語辞書記憶部、５…クラスタ情報処理管理部、７…クラスタリング情報記憶部、９…記録媒体、５１…クラスタ生成処理部、５２…クラスタ編集処理部、５１Ａ…索引語候補選定手段、５１Ｂ…ターム集合作成手段、５１Ｃ…出現相関処理手段、５１Ｄ…階層関係作成手段。

Claims

複数の文書に含まれる形態素から複数のグループにグループ分けする情報分類システムにおいて、
複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、
予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、
前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、これら選定された索引語候補要素の２個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在し、かつ、当該辞書語を構成する複数の形態素についての共起関係判定条件を満たす場合、前記合成語辞書記憶手段に記憶される該当辞書語に属するグループとするクラスタ生成処理部とを備えたことを特徴とする情報分類システム。
請求項１に記載の情報分類システムにおいて、
前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として隣接する場合のみを有効であると規定されている場合、２個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、当該索引語と当該辞書語の形態素区切り情報とが隣接する関係まで同一のときに共起関係判定条件を満たすと判定することを特徴とする情報分類システム。
請求項１に記載の情報分類システムにおいて、
前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として隣接する場合だけでなく、同一フレーズに存在する場合も有効である規定されている場合、２個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、当該索引語と当該辞書語の形態素区切り情報とが隣接する関係が同一であるか、同一フレーズに存在するときに共起関係判定条件を満たすと判定することを特徴とする情報分類システム。
請求項１ないし請求項３の何れか一項に記載の情報分類システムにおいて、
前記クラスタ生成処理部は、前記合成語辞書記憶手段に共起関係判定条件として有効年月日が規定されている場合、２個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在することを条件とし、前記有効年月日以降の索引語に対して前記共起関係判定条件を満たすと判定することを特徴とする情報分類システム。
複数の文書に含まれる形態素から複数のグループにグループ分けし、階層関係を作成する情報分類システムにおいて、
複数の文書及び各文書に含まれる形態素を記憶する文書記憶手段と、
予め複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素についての共起関係判定条件を規定する合成語辞書記憶手段と、
前記文書記憶手段に記憶される形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、索引語候補要素の集合を作成する索引語候補選定手段と、
この索引語候補選定手段で選定された集合の索引語候補要素の２個以上連なる形態素で構成される索引語が前記合成語辞書記憶手段に記憶される辞書語に存在する場合、当該索引語が前記辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成するターム集合作成手段と、
このターム集合作成手段で作成された索引語の組の集合の各要素同士の出現相関を計算する出現相関処理手段と、
この出現相関処理手段で得られた出現相関に基づいて前記索引語の階層関係を作成する階層関係作成手段とを備えたことを特徴とする情報分類システム。
複数の文書、各文書に含まれる形態素及び複数の形態素からなる辞書語ごとに当該辞書語を構成する複数の形態素間についての共起関係判定条件が記憶され、前記複数の文書に含まれる形態素から複数のグループにグループ分けし、階層関係を作成するコンピュータに、
情報分類時、前記複数の文書にそれぞれ含まれる形態素ごとに各文書に出現する数から当該形態素である索引語候補要素を選定し、索引語候補要素の集合を作成する索引語候補選定機能と、この機能によって選定された集合の索引語候補要素の１個以上連なる形態素で構成される索引語が前記辞書語に存在する場合、当該索引語が前記辞書語を構成する複数の形態素についての共起関係判定条件を満たすかを判定し、満たすと判定された場合に前記連なる形態素個数ごとの索引語の組の集合を作成するターム集合作成機能と、この作成された索引語の組の集合の各要素同士の出現相関を計算する出現相関処理機能と、この処理機能によって得られた出現相関に基づいて前記索引語の階層関係を作成する階層関係作成機能とを実現させることを特徴とするプログラム。