JP2006139518A

JP2006139518A - 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Info

Publication number: JP2006139518A
Application number: JP2004328202A
Authority: JP
Inventors: Hidenori Kawai; 英紀河合
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-11-11
Filing date: 2004-11-11
Publication date: 2006-06-01
Anticipated expiration: 2024-11-11
Also published as: JP4671164B2

Abstract

【課題】分類対象の文書データの傾向に応じた特徴表現抽出ルールを自動的に獲得し、自動抽出した分類軸からユーザが所望の分類軸を選択できる文書クラスタリング装置を提供する。
【解決手段】本発明による文書クラスタリング装置は、分類対象となる文書データから、高確率で遷移する品詞又は形態素列を特徴表現抽出ルールとして決定する特徴表現抽出ルール決定部３１と、文書データ内において特徴表現抽出ルールに対応する特徴表現を抽出する特徴表現抽出部３２と、特徴表現の長さ、特徴表現を構成する品詞、分類対象文書内出現確率のうち１つ以上の要素から計算される分類軸スコアを計算し、その分類軸スコアに応じてランク付けした分類軸を出力する分類軸抽出部を備え、出力装置２に表示される分類軸の中から、ユーザが所望の分類軸が入力装置１により選択されクラスタリングが実行される。
【選択図】図１

Description

本発明は、文書クラスタリング装置、クラスタリング方法、クラスタリングプログラム及び特徴表現抽出方法に関し、文書の内容の傾向にあった分類条件よって文書を分類する文書クラスタリング装置、クラスタリング方法、クラスタリングプログラム及び特徴表現抽出方法に関する。

近年、電子的に利用可能な文書の増大に伴って、文書の自動分類へのニーズが高まっている。特に、新しいサービスや商品に関する文書が次々と蓄積されるような文書データベースにおいては、あらかじめ固定した分類軸に沿って分類するクラシフィケーションタスクよりも、データの傾向に応じて文書を分類するクラスタリングタスクが重要である。

開示例１として、特開２００２−１８３１７１号公報に、文書の類似性に着目してクラスタリングを行う従来技術が開示されている。特開２００２−１８３１７１号公報の方法によれば、文書を単語に分割して特徴ベクトルに変換し、特徴ベクトル同士の類似性を基準に、似ている文書をまとめあげることによって文書のクラスタリングを行う（特許文献１）。しかしながら、文書の類似性に着目したクラスタリングでは、分類軸は自動的に決定されるが、ユーザの想定しない分類軸でもクラスタリングされてしまう。このため、ユーザの所望の分類軸で分類することは困難である。

開示例２として、特開２０００−３１５２０７号公報に、ユーザがあらかじめ分類軸を与えてクラスタリングを行う従来技術が開示されている。特開２０００−３１５２０７号公報の方法によれば、視点プロファイルとして、あらかじめ「好景気」「不景気」のような複数の分類軸を設定し、さらに、分類軸「好景気」の関連語として「好調、堅調、増収」などのキーワードを、分類軸「不景気」の関連語として「不調、不振、減益」などのキーワードを登録している。この視点プロファイルを用いて、（ａ）好景気の関連語がｍ回以上出現し、不景気の関連語がｎ回以上出現した文書、（ｂ）好景気の関連語がｍ回未満出現し、不景気の関連語がｎ回出現した文書、（ｃ）好景気の関連語がｍ回以上出現し、不景気の関連語がｎ回未満出現した文書、（ｄ）好景気の関連語がｍ回未満出現し、不景気の関連語がｎ回未満出現した文書の４つのグループにクラスタリングを行う。複数の視点プロファイルを用意することにより、複数の視点によるクラスタリングが可能である（特許文献２）。

開示例１では、ユーザがあらかじめ分類軸を与えることによって、所望の分類軸でクラスタリングを行うことができる。しかし、この場合、どのキーワードがどの分類軸に属するかを視点プロファイルとして分類軸毎に構築する必要があり、メンテナンスコストがかかってしまう。

又、従来のクラスタリング装置では、文書データとは関係なくあらかじめクラスタリングに用いる特徴表現の抽出ルールが固定されているため、文書データの傾向は反映されない。例えば、開示例１、２におけるクラスタリングに用いる特徴表現は、「単語１語ずつ」や、「名詞の連続した複合語」等、文書データによらず固定である。例えば、分類対象データがレストランの紹介文である場合、「静かな雰囲気」などの特徴表現は分類に有効に活用できると考えられる。ところが、従来のクラスタリング装置では、「静かな雰囲気」を形態素で分割した「静か」「な」「雰囲気」をそれぞれ独立の特徴表現として扱うか、または名詞である「静か」と「雰囲気」のみを特徴表現として扱うことしかできなかった。これに対して、分類対象文書の分野に応じて特徴表現となりうる品詞や形態素のパターンを特徴表現抽出ルールとしてあらかじめ決定する方法も考えられる。しかし、分類対象文書の分野が変わると、それぞれ分野に対する特徴表現抽出ルールを記述する必要があり、現実的な解決方法ではない。

開示例３として、特開２００１−０６０１９９号公報に、文書内のキーワードおよび文書に付随する属性情報のうちの１つ以上からなる所定の組み合わせを記述した分類ルールに基づいて文書分類処理を行ない、対象文書内で省略されている場合は、そのキーワードを補完する技術が開示されている（特許文献３）。

特開２００１−０６０１９９号公報の方法によれば、文書を分類するため使用するキーワードや属性情報を予め登録しておかなければならず、分類対象の傾向に応じた分類をすることはできない。
特開平７−１７６６３１号公報特開２００４−０７１１１８号公報特開昭６１−２１４５５９号公報

本発明の目的は、自動抽出した分類軸からユーザが所望の分類軸を選択できる文書クラスタリング装置を提供することにある。

本発明の他の目的は、分類対象の文書データの傾向に応じた特徴表現抽出ルールを自動的に獲得できる文書クラスタリング装置を提供することにある。

以下に、［発明を実施するための最良の形態］で使用される番号・符号を括弧付きで用いて、［課題を解決するための手段］を説明する。この番号・符号は、［特許請求の範囲］の記載と［発明を実施するための最良の形態］の記載との対応関係を明らかにするために付加されたものであるが、［特許請求の範囲］に記載されている発明の技術的範囲の解釈に用いてはならない。

本発明による文書クラスタリング装置（１００）は、分類対象である複数の文書を文書データ（１０）として保持する分類対象文書記憶部（４１）と、文書データ（１０）内において、出現回数が所定の閾値以上である品詞又は文字列に基づいて、文書データ（１０）を分類するための分類軸を決定するデータ処理装置（３、３’）とを具備する。

データ処理装置（３、３’）は、文書データ（１０）の形態素解析を行ない、文書データ（１０）内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせを、特徴表現抽出ルール（１１）として決定する特徴表現抽出ルール決定部（３１、３１’）と、文書データ（１０）内において、特徴表現抽出ルール（１０）と一致する形態素列に対応する言語表現を、特徴表現（１２）として分類対象文書記憶部（４１）から抽出し、文書データ（１０）内の文書数に対する特徴表現（１２）が出現する文書数の割合である分類対象文書内出現確率（１７）を算出する特徴表現抽出部（３２）と、分類対象文書内出現確率（１７）と特徴表現（１２）を関連付けて記憶する特徴表現記憶部（４３）と、分類対象文書内出現確率（１７）に基づく分類軸スコア（１４）が第１の閾値（ｚ）以上である特徴表現（１２）を、分類軸（１５）として特徴表現記憶部（４３）から抽出する分類軸抽出部（３３）とを備える。

特徴表現ルール決定部（３１）は、文書データ（１０）内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数し、出現回数から算出される第１の遷移スコア（１３）が、第２の閾値（ｙ）以上である組み合わせを特徴表現抽出ルール（１１）として決定する。

又、
対象文書に対して比較の対象となる複数の文書を比較対照文書データとして保持する比較対照文書記憶部を更に具備し、
前記特徴表現ルール決定部は、
前記文書データの形態素解析を行ない、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第１の遷移スコアが、第２の閾値以上である前記組み合わせを第１の特徴表現抽出ルールとして決定し、前記文書データ内の文書数に対する前記第１の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出し、
前記比較対照文書データの形態素解析を行ない、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第２の遷移スコアが、第２の閾値以上である前記組み合わせを第２の特徴表現抽出ルールとして決定し、前記比較対照文書データ内の文書数に対する前記第２の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出し、
前記第１及び第２の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第３の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定する
文書クラスタリング装置。
又、本発明による文書クラスタリング装置（１００）は、出力装置（２）と、入力装置（１）と、関連表現抽出部（３５）と、クラスタリング部（３６）とクラスタ情報記憶部（４５）とを更に備える。分類軸抽出部（３３）は、分類軸（１５）と、分類軸（１５）に対応する分類軸スコア（１４）とを出力装置（２）に出力し、出力装置（２）は、分類軸（１５）を分類軸スコア（１４）の降順に表示する。ユーザの操作により入力装置（１）は、表示された分類軸（１５）から任意の分類軸（１５）を選択する。関連表現抽出部（３５）は、選択された分類軸（１５）を含む特徴表現（１２）を、分類軸（１５）に関連する関連表現（１６）として特徴表現記憶部（４３）から抽出する。更に、クラスタリング部（３６）は、分類軸（１５）と、関連表現（１６）を識別するクラスタＩＤと、関連表現（１６）を含む文書を識別する文書ＩＤとを関連付けて、クラスタ情報記憶部（３６）に記憶する。

以上のような構成により、本発明による文書クラスタリング装置（１００）は、分類対象である文書データ（１０）の傾向に応じた分類軸（１５）が自動的に抽出され、分類軸スコア（１４）順に表示することで、ユーザが所望の分類軸を選択することができる。

本発明の文書クラスタリング装置によれば、自動抽出した分類軸からユーザが所望の分類軸を選択して文書のクラスタリングができる。

又、分類対象の文書データの傾向に応じた特徴表現抽出ルールを自動的に獲得して文書のクラスタリングができる。

以下、添付図面を参照して、本発明による文書クラスタリング装置１００の実施の形態が説明される。本発明による文書クラスタリング装置１００は、レストラン、商品、あるいはサービスの紹介文の自動分類といった用途に好適に使用される。又、アンケートの自由記述文の傾向分析や、コールセンターに寄せられる苦情の傾向分析といった用途に好適に使用される。

（第１の実施の形態）
図１から図１０を参照して、本発明による文書クラスタリング装置１００の第１の実施の形態が説明される。

図１を参照して、本発明による文書クラスタリング装置１００の第１の実施の形態における構成は、キーボードやマウス等の入力装置１と、ディスプレイやプリンタ等の出力装置２と、コンピュータに搭載され、クラスタリングプログラムによりクラスタリング処理を実行するデータ処理装置３と、クラスタリングに使用する文書や、データが記憶されるハードディスクやメモリあるいは、ＭＯやＣＤ−Ｒ等の記憶媒体である記憶装置４とを具備する。

記憶装置４は、分類対象文書記憶部４１、特徴表現抽出ルール記憶部４２、特徴表現記憶部４３、分類軸記憶部４４、クラスタ情報記憶部４５とを含む。

分類対象文書記憶部４１は、分類対象となる複数の文書を含む文書データ１０を格納する。図２（ａ）を参照して、文書データ１０とは、文書を識別する文書ＩＤと、文書本体の本文が関連付けられて記憶されている。尚、文書データ１０として、文書ＩＤと本文の他に、文書本体を示すアドレスや、作成日や作成者などのメタ情報、あるいは、人手であらかじめ付与したカテゴリ情報などを含んでいてもよい。例えば、図２（ｂ）を参照して、文書データ１０は、文書ＩＤや本文の他に、本文の内容に関連する住所や、料理のジャンルが付与されても構わない。

特徴表現抽出ルール記憶部４２は、特徴表現抽出ルール決定部３１から出力された特徴表現抽出ルール１１と、特徴表現抽出ルール１１を識別するルール識別子とを関連付けられて格納する。図３を参照して、特徴表現ルールとは、品詞又は形態素列で記述される。例えば、図３におけるルール１の特徴表現抽出ルール１１は、品詞が「名詞−固有名詞−地域」の単語に続いて「名詞−サ変接続−料理」という形態素が現れるパターンであり、「フランス料理」や「イタリア料理」などの表現はこのルール１を満たす。又、ルール２の特徴表現抽出ルール１１は、品詞が「名詞−形容動詞語幹」の次に「助動詞−な」が続き、さらに「雰囲気」という単語が続くパターンであり、「にぎやかな雰囲気」「静かな雰囲気」などの表現がルール２を満たす。同様に、ルール３の特徴表現抽出ルール１１は、品詞が「名詞」の形態素であり、「料理」や「雰囲気」などの表現がルール３を満たす。

特徴表現記憶部４３は、特徴表現抽出部３２によって抽出された特徴表現１２と、その特徴表現１２の形態素列の解析結果と、分類対象文書内出現確率１７と、出現した文書ＩＤの組が関連付けられて格納する。ここで、分類対象文書内出現確率１７とは、ある特徴表現１２が出現した文書数を、分類対象文書の文書数で割ることによって求められる。図４を参照して、特徴表現記憶部４３に格納される特徴表現１２の例が示される。特徴表現１２「イタリア料理」の分類対象文書内出現確率１７は５％で、それが出現した文書はＤ２、Ｄ３、Ｄ６である。又、形態素列の解析結果は、名詞数が２、全体の形態素数が２である。

図５を参照して、分類軸記憶部４４は、分類軸選択部３４で選択された分類軸と、その分類軸スコア１４を関連付けて格納する。

クラスタ情報記憶部４５には、クラスタリング部３６によって生成されたクラスタと、そのクラスタに属する文書ＩＤが関連付けられて格納される。図６を参照して、クラスタ情報記憶部４５に格納されるクラスタ情報の例が示される。分類軸１５が「料理」である場合、ＣＬ１１とＣＬ１２の２つのクラスタが生成されており、クラスタＣＬ１１のラベルは「イタリア料理」で、文書Ｄ２、Ｄ３、Ｄ６が含まれる。

データ処理装置３は、文書のクラスタリング処理を行うクラスタリングプログラム３０と、このクラスタリング処理を実行するＣＰＵ３７と、クラスタリング処理に関わる信号やデータを一時的に記憶するＲＡＭ３８とを具備する。

クラスタリングプログラム３０は、特徴表現抽出ルール決定部３１、特徴表現抽出部３２、分類軸抽出部３３、分類軸選択部３４、関連表現抽出部３５、クラスタリング部３６とを備えている。

特徴表現抽出ルール決定部３１は、分類対象文書記憶部４１から分類対象となる文書データ１０を読み出し、本文を形態素解析し、高確率で遷移する品詞または形態素列を特徴表現抽出ルール１１として決定し、その結果を特徴表現抽出ルール記憶部４２に格納する。

特徴表現抽出部３２は、分類対象文書記憶部４１から分類対象となる文書データ１０を読み出し、特徴表現抽出ルール記憶部４２に格納されている特徴表現抽出ルール１１に一致する表現とその対象文書内出現確率、及びその表現が出現する文書ＩＤとの対応表を作成し、特徴表現記憶部４３に格納する。

分類軸抽出部３３は、特徴表現記憶部４３に格納されている特徴表現１２について、特徴表現１２の長さ、特徴表現１２を構成する品詞、分類対象文書内出現確率１７のうちいずれか１つ、又は複数の要素から分類軸スコア１４を計算し、あらかじめ定められた分類軸スコア１４の閾値を越えたものを分類軸候補として分類軸１５を抽出し、その分類軸スコア１４とともに分類軸記憶部４４に格納し、出力装置２に表示させる。

分類軸選択部３４は、出力装置２に表示された分類軸候補のうち、ユーザが指定した分類軸１５を分類軸記憶部４４から抽出し、関連表現決定部３５に入力する。

関連表現抽出部３５は、特徴表現記憶部４３の中から、分類軸選択部３４によって指定された分類軸１５を含む特徴表現１２をその分類軸１５に関する関連表現１６として抽出し、クラスタリング部３６に入力する。

クラスタリング部３６は、関連表現決定部３５によって入力された関連表現１６を含む文書を、それぞれ個別のクラスタとしてクラスタ情報記憶部４５に格納する。

次に、図１から図７を参照して本実施の形態の動作について詳細に説明する。図７は、第１の実施の形態における文書クラスタリング装置のクラスタリング処理の動作を示す流れ図である。

ユーザは、入力装置１を操作して、対象文書記憶部４１内の分類対象となる文書データ１０を選択し、クラスタリングを開始する。特徴表現抽出ルール決定部３１は、分類対象文書記憶部４１から分類対象となる文書データ１０を読み出し、本文を形態素解析し、高確率で遷移する品詞または形態素列を特徴表現抽出ルール１１として決定し、その結果を特徴表現抽出ルール記憶部４２に格納する（ステップＳ１１）。

図８（ａ）を参照して、特徴表現抽出ルール決定部３１における特徴表現抽出ルール１１の決定処理の動作が示される。特徴表現抽出ルール決定部３１は、分類対象文書記憶部４１に格納されている文書データ１０の本文を形態素解析し、品詞情報を付与した形態素列に変換し、抽象度を１に設定する（ステップＳ１１１）。例えば、本文が「静かな雰囲気、季節感あふれるフランス料理」である場合、品詞情報を付与した形態素列は「［名詞−形容動詞語幹−静か］［助動詞−な］［名詞−一般−雰囲気］［記号−読点−、］［名詞−一般−季節］［名詞−接尾−一般−感］［動詞−自立−あふれる］［名詞−固有名詞−地域−フランス］［名詞−サ変接続−料理］」のようになる。抽象度とは、品詞情報を付与した形態素がどの程度抽象化されているかを示す指標であり、「［名詞−サ変接続−料理］」のように形態素そのものの表記を含む場合の抽象度を１として、抽象度を１段階上げる毎に形態素表記の最右項を省略するものとする。例えば、形態素「［名詞−サ変接続−料理］」の抽象度を１段階上げた表記（抽象度２）は「［名詞−サ変接続］」、更に１段階上げた表記（抽象度３）は「［名詞］」である。形態素「［名詞−固有名詞−地域−フランス］」のように、品詞の分類が細かく分かれている場合は、抽象度１では「［名詞−固有名詞−地域−フランス］」、抽象度２では「［名詞−固有名詞−地域］」、抽象度３では「［名詞−固有名詞］」、抽象度４では「［名詞］」とする。

次に、特徴表現抽出ルール決定部３１は、形態素列の中に連続して出現する２つの形態素（以後、２−ｇｒａｍと呼ぶ）の文書データ１０における出現頻度を計数し、各２−ｇｒａｍの遷移スコア１３を求める（ステップＳ１１２）。例えば、形態素列が「［名詞−形容動詞語幹−静か］［助動詞−な］［名詞−一般−雰囲気］」である場合、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞−な］」の出現頻度に１回加算し、２−ｇｒａｍ「［助動詞−な］［名詞−一般−雰囲気］」の出現頻度に１回加算する。各２−ｇｒａｍの遷移スコア１３とは、各２−ｇｒａｍの出現頻度、出現確率、右方向遷移確率、左方向遷移確率、のうちいずれか１つまたは複数から計算されるスコアである。

ここで、２−ｇｒａｍの出現確率とは、当該２−ｇｒａｍの文書データ１０における出現頻度を、文書データ１０内のすべての２−ｇｒａｍの出現頻度の合計で割ったものである。又、２−ｇｒａｍの右方向遷移確率とは、ある２−ｇｒａｍの先頭の形態素が単独で文書データ１０に出現した回数に対する、その２−ｇｒａｍの出現頻度の割合である。また、左方向遷移確率とは、ある２−ｇｒａｍの後方の形態素が単独で文書データ１０に出現した回数に対する、その２−ｇｒａｍの出現頻度の割合である。

例えば、分類対象の文書データ１０全体で、２−ｇｒａｍが１００万回出現し、形態素「［名詞−形容動詞語幹−静か］」の出現頻度が５００回、形態素「［助動詞−な］」の出現回数が１００００回、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞−な］」の出現頻度が２００回であった場合、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞−な］」の出現確率は２００／１，０００，０００＝０．０００２、右方向遷移確率は２００／５００＝０．４、左方向遷移確率は２００／１００００＝０．０２である。この場合、形態素「［名詞−形容動詞語幹−静か］」の後方に形態素「［助動詞−な］」が比較的多くの割合（４０％）で出現するのに対し、形態素「［助動詞−な］」の前方には様々な形態素が出現することが多く、前方に形態素「［名詞−形容動詞語幹−静か］」が出現する割合は２％程度に過ぎないことがわかる。２−ｇｒａｍの遷移スコア１３は、例えば、次式で求められる。
（遷移スコア１３）＝（出現確率）×（右方向遷移確率）×（左方向遷移確率）
従って、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞−な］」の遷移スコア１３は、０．０００２×０．４×０．２＝１．６×１０＾（−５）となる。

次に、特徴表現抽出ルール決定部３１は抽象度があらかじめ定められた閾値ｘ以上か否かを判定する（ステップＳ１１３）。抽象度がｘ以上であればステップＳ１１５へ進み、ｘ未満であればステップＳ１１４に進む。例えば、ｘが２に設定されている場合、最初にステップＳ１１３を実行した時点では抽象度は１であるので、ステップＳ１１４に進む。

抽象度がｘ未満である場合、特徴表現抽出ルール決定部３１は、遷移スコア１３があらかじめ定められた閾値ｙ未満の２−ｇｒａｍについて、前方および後方の形態素を１段階抽象化した２−ｇｒａｍの出現頻度を計数する（ステップＳ１１４）。例えば、ｙが１０＾（−４）と指定されていて、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞−な］」の遷移スコア１３が１．６＊１０＾（−５）であった場合、遷移スコア１３がｙ未満であるので、形態素の抽象度を１段階増加する。２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞−な］」の、前方の形態素の抽象度を２にした２−ｇｒａｍは「［名詞−形容動詞語幹］［助動詞−な］」、後方の形態素の抽象度を２にした２−ｇｒａｍは「［名詞−形容動詞語幹−静か］［助動詞］」となる。２−ｇｒａｍ「［名詞−形容動詞語幹］［助動詞−な］」には、「静かな」や「にぎやかな」などの一般的な表現が該当するため、出現頻度が大幅に増加する。一方、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞］」には「静かだろう」、「静かなり」などの表現が該当するが、バリエーションは少なく、出現頻度はあまり増加しない。

ステップＳ１１４の後、特徴表現抽出ルール決定部３１は、抽象度の上がった２−ｇｒａｍについて再度遷移スコア１３を計算する（ステップＳ１１２）。例えば、分類対象の文書データ１０全体で、２−ｇｒａｍが１００万回出現し、形態素「［名詞−形容動詞語幹−静か］」の出現頻度が５００回、形態素「［助動詞−な］」の出現回数が１００００回、抽象度２の形態素「［名詞−形容動詞語幹］」の出現回数が５０００回、抽象度２の形態素「［助動詞］」の出現回数が２００００回、２−ｇｒａｍ「［名詞−形容動詞語幹］［助動詞−な］」の出現頻度が３０００回、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞］」の出現回数が４００回であった場合、２−ｇｒａｍ「［名詞−形容動詞語幹］［助動詞−な］」の出現確率は３０００／１，０００，０００＝０．００３、右方向遷移確率は３０００／５０００＝０．６、左方向遷移確率は３０００／１００００＝０．３となり、遷移スコア１３は、０．００３＊０．６＊０．３＝５．４＊１０＾（−４）となる。一方、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞］」の出現確率は、４００／１，０００，０００＝０．０００４、右方向遷移確率は４００／５００＝０．８、左方向遷移確率は４００／２００００＝０．０２となり、遷移スコア１３は、０．０００４＊０．８＊０．０２＝６．４＊１０＾（−６）となる。さらに、再度ステップＳ１１３で現在の抽象度をチェックし、閾値ｘ以上であればステップＳ１１５に進む。

抽象度が閾値ｘ以上である場合、特徴表現抽出ルール決定部３１は、生成されたすべての２−ｇｒａｍについて、遷移スコア１３があらかじめ定められた閾値ｙ以上の２−ｇｒａｍを連結し、特徴表現抽出ルール記憶部４２に図３に示すような特徴表現抽出ルール１１を出力する（ステップＳ１１５）。例えば、ｙが１０＾（−４）と設定されており、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞−な］」の遷移スコア１３が１．６＊１０＾（−５）、２−ｇｒａｍ「［名詞−形容動詞語幹］［助動詞−な］」の遷移スコア１３が５．４＊１０＾（−４）、２−ｇｒａｍ「［名詞−形容動詞語幹−静か］［助動詞］」の遷移スコア１３が６．４＊１０＾（−６）、２−ｇｒａｍ「［助動詞−な］［名詞−一般−雰囲気］」の遷移スコア１３が１．２＊１０＾（−４）、２−ｇｒａｍ「［名詞−固有名詞−地域］［名詞−サ変接続−料理］」の遷移スコア１３が１．１＊１０＾（−３）であった場合、遷移スコア１３がｙ以上である２−ｇｒａｍは、「［名詞−形容動詞語幹］［助動詞−な］」、「［助動詞−な］［名詞−一般−雰囲気］」、「［名詞−固有名詞−地域］［名詞−サ変接続−料理］」の３種類である。このうち、２つの２−ｇｒａｍ「［名詞−形容動詞語幹］［助動詞−な］」と「［助動詞−な］［名詞−一般−雰囲気］」は、形態素「［助動詞−な］」を共通に持つため、連結されて特徴表現抽出ルール１１「［名詞−形容動詞語幹］［助動詞−な］［名詞−一般−雰囲気］」として出力され、「［名詞−固有名詞−地域］［名詞−サ変接続−料理］」はそのまま特徴表現抽出ルール１１として出力される。

尚、本実施の形態では、抽象度が１段階上がる毎に形態素表記の最右項を省略するとしたが、他にも、品詞の分類を大・中・小分類の３段階とし、抽象度１では品詞の大・中・小分類に加えて形態素そのものの表記を用い、抽象度２では品詞の大・中・小分類を用い、抽象度３では品詞の大・中分類を用い、抽象度４では品詞の大分類のみを用いることにしてもよく、本発明の実施の形態に述べた方法に限定されない。

又、遷移スコア１３の算出方法は、
（遷移スコア１３）＝（出現確率）×ＭＡＸ｛（右方向遷移確率）、（左方向遷移確率）｝
としても、出現確率、又は右方向遷移確率、又は左方向遷移確率を単独で遷移スコア１３として用いる方法でも、本発明の実施の形態に述べた方法に限定されない。

更に、本実施の形態では、閾値ｙ以上の遷移スコア１３を満たす２−ｇｒａｍを連結して特徴表現抽出ルール１１として出力する方法を一例としたが、ここで自動抽出される特徴表現抽出ルール１１に加えて、ユーザが「［名詞］」や「［名詞］［名詞］」のような一般的な特徴表現抽出ルール１１を追加してもよく、本発明の実施の形態に述べた方法に限定されない。

特徴表現抽出ルール決定部３１が特徴表現抽出ルール１１を特徴表現抽出ルール記憶部３２に記憶させると、特徴表現抽出部３２は分類対象文書記憶部４１から分類対象となる文書データ１０の各本文を読み出して形態素解析し、特徴表現抽出ルール１１を満たす自然語表現を特徴表現１２として抽出する。抽出した各特徴表現１２の文書内出現確率と、それが出現した文書ＩＤを特徴表現記憶部４３に記憶させる（ステップＳ１２）。この際、例えば、各特徴表現１２における名詞の数や全形態素の数を関連付けて特徴表現記憶部４３に記憶させる。尚、特徴表現１２の長さ、特徴表現１２を構成する品詞、分類対象文書内出現確率１７のいずれかを関連付けて記憶させても良い。

次に、分類軸抽出部３３は、特徴表現記憶部４３に格納されている特徴表現１２に基づき分類軸１５を抽出し、分類軸候補として出力装置２に表示させる。（ステップＳ１３）。

図８（ｂ）を参照して、分類軸抽出部３３における分類軸抽出処理の動作の流れが示される。特徴表現記憶部４３に格納されている特徴表現１２について、特徴表現１２の長さ、特徴表現１２を構成する品詞、分類対象文書内出現確率１７のうちいずれか１つ、又は複数の要素を抽出し、抽出した要素を用いて分類軸スコア１４を計算する（ステップＳ１３１）。

分類軸スコア１４は、例えば、下式で求められる。
（分類軸スコア１４）＝（分類対象文書内出現確率１７）×（特徴表現１２中の名詞の数）／（特徴表現１２を構成する形態素数）
例えば、特徴表現記憶部４３に格納されている特徴表現１２が図４のような場合、特徴表現１２「イタリア料理」は、名詞２語からなるので、分類軸スコア１４は、０．０５×２／２＝０．０５
特徴表現１２「フランス料理」は、名詞２語からなるので、分類軸スコア１４は、０．０２×２／２＝０．０２
特徴表現１２「にぎやかな雰囲気」は、名詞２語と助動詞１語からなるので、分類軸スコア１４は、０．０８×２／３＝０．０５
特徴表現１２「静かな雰囲気」は、名詞２語と助動詞１語からなるので、分類軸スコア１４は、０．０４×２／３＝０．０３
特徴表現１２「料理」は、名詞１語からなるので、分類軸スコア１４は、０．４×１／１＝０．４
特徴表現１２「雰囲気」は、名詞１語からなるので、分類軸スコア１４は、０．３×１／１＝０．３

分類軸抽出部３３は、分類軸スコア１４が、あらかじめ定められた閾値ｚ以上かどうかを判定する（ステップＳ１３２）。分類軸スコア１４がｚ以上である場合、その分類軸１５と分類軸スコア１４とを分類軸記憶部４４に記憶させる。例えば、分類軸スコア１４の閾値が０．２であった場合、上述の特徴表現１２のうち、「料理」と「雰囲気」が、それぞれの分類軸スコア１４「０．４」、「０．３」に関連付けられて分類軸記憶部４４に記憶される。

又、分類軸スコア１４の算出方法は、
（分類軸スコア１４）＝（分類対象文書内出現確率１７）＊（特徴表現１２中の自立語の数）／｛（特徴表現１２中の非自立語の数）＋１｝
や、
（分類軸スコア１４）＝（分類対象文書内出現確率１７）＊δ
ただし、δ ＝１（特徴表現１２が名詞で終わっている場合）／０（特徴表現１２が名詞以外の品詞で終わっている場合）
でも良く、本実施の形態に述べた方法に限定されない。

分類軸抽出部３３は、抽出した分類軸１５を出力装置２に表示させる（ステップＳ１３３）。図９を参照して、出力装置２は、分類軸選択画面Ｃ１に分類軸１５及び分類軸スコア１４を分類軸候補として表示する。例えば、分類軸１５「料理」と「雰囲気」のそれぞれに対応する分類軸スコア１４「０．４」、「０．３」が表示される。

又、本実施の形態において、分類軸スコア１４は、あらかじめ定められた閾値を越えたものとしたが、閾値を定めず、単に分類軸スコア１４が高い順にランキングして記憶及び表示してもよく、本発明の実施の形態に述べた方法に限定されない。

出力装置２に表示される分類軸選択画面Ｃ１上で、ユーザは、入力装置１を用いて１つ以上の所望の分類軸１５を選んでチェックボックスＣ１１をＯＮにし、実行ボタンＣ１２を押す。すると、分類軸選択部３４は、分類軸選択画面Ｃ１でユーザが指定した分類軸１５を関連表現決定部３５に入力する（ステップＳ１４）。複数の分類軸１５が選択された場合、各分類軸１５に対する以降の処理は独立に行われる。

次に、関連表現抽出部３５は、特徴表現記憶部４３の中から、分類軸選択部３４によって指定された分類軸１５を含む特徴表現１２をその分類軸１５に関する関連表現１６として抽出し、クラスタリング部３５に入力する（ステップＳ１５）。例えば、ステップＳ１４で分類軸１５として「料理」が選択され、特徴表現記憶部４３に格納されている特徴表現１２が図４のようになっていた場合、「イタリア料理」及び「フランス料理」が関連表現１６としてクラスタリング部３５に入力される。又、ステップＳ１４で分類軸１５として「雰囲気」が選択され、特徴表現記憶部４３に格納されている特徴表現１２が図４のようになっていた場合、「にぎやかな雰囲気」「静かな雰囲気」が関連表現１６としてクラスタリング部３５に入力される。

クラスタリング部３６は、関連表現決定部３５によって入力された関連表現１６を含む文書を、それぞれ個別のクラスタとしてクラスタＩＤと関連付けてラスタ情報記憶部４５に記憶する。図６を参照して、関連表現決定部３５によって、分類軸１５「料理」に対する関連表現１６として「イタリア料理」「フランス料理」が、分類軸１５「雰囲気」に対する関連表現１６として「にぎやかな雰囲気」「静かな雰囲気」が入力された場合、クラスタリング部３６は、それぞれにクラスタＩＤとしてＣＬ１１、ＣＬ１２、ＣＬ２１、ＣＬ２２を付し、それぞれの特徴表現１２が出現する文書の文書ＩＤを関連付けてクラスタ情報記憶部４５に記憶する。

尚、本実施の形態においては、ユーザによる分類軸選択（ステップＳ１４）の後に、その分類軸１５に関する関連表現１６を抽出（ステップＳ１５）を行う方法について述べたが、分類軸抽出（ステップＳ１３）の後、先に各分類軸１５に関する関連表現１６の抽出（ステップＳ１５）を行い、その後で、分類軸１５と関連表現１６をユーザに提示して分類軸１５を選択（ステップＳ１４）する方法でも良く、本実施の形態に述べた方法に限定されない。この場合、ステップＳ１４でユーザに提示する画面は、図１０のようになる。図１０を参照して、分類軸１５及び関連表現選択画面Ｃ２に分類軸候補は、「料理」と「雰囲気」が分類軸スコア１４の順に表示される。又、分類軸１５「料理」の関連表現１６として「イタリア料理」と「フランス料理」が、「雰囲気」の関連表現１６として「にぎやかな雰囲気」と「静かな雰囲気」が表示される。この場合、ユーザは抽出された分類軸１５と関連表現１６のうち、所望のものを選択して利用することができる。

本実施の形態における文書クラスタリング装置は、自動抽出した分類軸１５に対して、ユーザがクラスタリングに用いる分類軸１５を選択できる。このため、ユーザは所望の分類軸１５でクラスタリングを行うことができる。又、分類対象文書内において連続した２つの形態素の出現頻度、出現確率、右方向遷移確率、左方向遷移確率、のうちいずれか１つまたは複数から計算される遷移スコア１３を用いて特徴表現抽出ルール１１を自動獲得できる。このため、分類対象の文書データ１０の傾向に応じ特徴表現抽出ルール１１を獲得することができる。例えば、本発明をレストラン、商品、あるいはサービス紹介文に適用した場合、紹介文に定型的な表現を調査してあらかじめ特徴表現抽出ルール１１を設計しなくても、「にぎやかな雰囲気」「静かな雰囲気」のような特徴表現１２の抽出が可能となる。

本発明による文書クラスタリング装置をアンケートの自由記述文の傾向分析に適用した場合、あらかじめ典型的な回答を想定して特徴表現抽出ルール１１を設計する必要がなくなる。又、本発明をコールセンターに寄せられる苦情の傾向分析に適用した場合、製品や機能に関する辞書を構築することや、定型の問い合わせ文を想定して特徴表現抽出ルール１１を設計する必要がなくなる。

（第２の実施の形態）
図１１から図１３を参照して、本発明による文書クラスタリング装置の第２の実施の形態が説明される。

図１１を参照して、本発明による文書クラスタリング装置の第２の実施の形態の構成は、は、図１に示される第１の実施の形態の構成に加えて、比較対照文書記憶部４５が追加され、図１におけるデータ処理装置３の、特徴表現抽出ルール決定部３１の動作が異なり、特徴表現抽出ルール決定部３１’となる。

比較対照文書記憶部４５には、分類対象となる文書データ１０と比較するための複数の文書を含む比較対照文書データ１０’が格納される。比較対照文書記憶部４５は、分類対象文書記憶部４１の構成と同様に、文書を識別するための文書ＩＤと本文とが関連付けられて記憶される。

例えば、分類対象文書記憶部４１に格納されている文書データ１０の１年前の文書データ１０を比較対照文書データ１０’として比較対照文書記憶部４５に格納することによって、過去１年間において変化が顕著であった特徴表現１２を比較することができる。

特徴表現抽出ルール決定部３１’は、分類対象となる文書データ１０から、高確率で遷移する品詞または形態素列を抽出し、分類対象文書内出現確率１７を算出する。更に、比較対照文書データ１０’からも高確率で遷移する品詞または形態素列を抽出し、比較対照文書内出現確率１８を算出する。次に、分類対象文書内出現確率１７と比較対照文書内出現確率１８との比が、あらかじめ定められた閾値よりも高い品詞又は形態素列を特徴表現抽出ルール１１として特徴表現抽出ルール記憶部４２に出力する。

本実施の形態の動作を、図１２から図１３を参照して詳細に説明する。図１２は、本発明による文書クラスタリング装置１００の第２の実施の形態におけるクラスタリング処理の動作の流れ図である。

図１２を参照して、ステップＳ１２からＳ１６における、特徴表現抽出部３２、分類軸抽出部３３、分類軸選択部３４、関連表現決定部３５、及びクラスタリング部３６の動作は、図７に示す第１の実施の形態における特徴表現抽出部３２、分類軸抽出部３３、分類軸選択部３４、関連表現決定部３５、及びクラスタリング部３６の動作と同一のため、説明は省略される。

ユーザは、入力装置１を操作して、対象文書記憶部４１内の分類対象となる文書データ１０を選択し、クラスタリングを開始する。特徴表現抽出ルール決定部３１’は、分類対象文書記憶部４１から分類対象となる文書データ１０を読み出し、本文を形態素解析し、高確率で遷移する品詞または形態素列を特徴表現抽出ルール１１として決定し、その結果を特徴表現抽出ルール記憶部４２に格納する（ステップＳ２１）。ステップＳ２１における特徴表現抽出ルール決定部３１’の特徴表現抽出ルール決定処理の動作は、図８（ａ）に示される第１の実施の形態における特徴表現抽出ルール決定部３１の動作Ｓ１１１〜Ｓ１１５と同一のため、説明は省略される。

次に、特徴表現抽出ルール決定部３’は、比較対照文書記憶部４５から比較対照文書データ１０’を読み出し、本文を形態素解析し、高確率で遷移する品詞または形態素列を特徴表現抽出ルール１１として決定する（ステップＳ２２）。ステップＳ２２における特徴表現抽出ルール決定部３１’の特徴表現抽出ルール決定処理の動作は、図８（ａ）に示される第１の実施の形態における特徴表現抽出ルール決定部３１の動作Ｓ１１１〜Ｓ１１５と同一のため、説明は省略される。

次に、特徴表現抽出ルール決定部３１’は、分類対象となる文書データ１０から特徴表現抽出ルール１１を決定し、その分類対象文書内出現確率１７を算出する。又、比較対照文書データ１０’から特徴表現抽出ルール１１を決定し、その比較対照文書内出現確率１８を算出する。更に、同一の特徴表現抽出ルール１１において、比較対照文書内出現確率１８に対する分類対象文書内出現確率１７の比が、あらかじめ定められた閾値α以上である特徴表現抽出ルール１１を、特徴表現抽出ルール記憶部４２に記憶させる（ステップＳ２３）。この際、比較対照文書から決定される特徴表現抽出ルール１１にない特徴表現抽出ルール１１が、分類対象文書から決定される特徴表現抽出ルール１１の中にある場合、その特徴表現抽出ルール１１を記憶しても良い。特徴表現抽出ルール１１の文書内出現確率とは、ある特徴表現抽出ルール１１に該当する表現を含む文書数を、対象文書数で割ることで求められる。

図１３を参照して、ルール１は、「［名詞−固有名詞−地域］［名詞−サ変接続−料理］」、分類対象文書内出現確率１７は７％、比較対照文書内出現確率１８は５％であり、その出現確率比は、１．４となる。ルール２は、「［名詞−形容動詞語幹］［助動詞−な］［名詞−一般−雰囲気］」、分類対象文書内出現確率１７は１２％、比較対照文書内出現確率１８は２４％であり、その出現確率比は、０．５となる。同様にルール３は、「［名詞−一般］［名詞−一般−焼酎］」、分類対象文書内出現確率１７は１０％、比較対照文書内出現確率１８は０．２％であり、その出現確率比は、５０となる。この際、例えば、閾値αが２０である場合、特徴表現抽出ルール決定部３１’は、出現確率比が２０を超えるルール３「［名詞−一般］［名詞−一般−焼酎］」を抽出し、特徴表現抽出ルール記憶部４２に記憶する。

一例では、比較対照文書データ１０’が、分類対象の文書データ１０の１年前の文書データ１０であった場合、この１年間で「芋焼酎」や「蕎麦焼酎」などを出す店が流行しており、それをあらわす特徴表現の抽出ルールが取り出せることを意味している。

尚、本実施の形態においては、比較対照文書データ１０’が分類対象の文書データ１０の１年前の文書データ１０である場合が例示されたが、分類対象文書記憶部４１に特定の地域のお店に関する紹介文を格納し、比較対照文書記憶部４２にそれ以外の地域のお店に関する紹介文を格納することによって、特定の地域のお店に偏って存在する特徴表現１２を抽出するルールを生成することが可能になるなど、本発明の実施の形態で述べた方法に限定されない。

本実施の形態では、比較対照文書と分類対象文書の差分に基づいた特徴表現抽出ルール１１を生成することができる。このため、比較対照文書と分類対象文書の傾向の違いを反映したクラスタリングが可能となる。

以上のように、本発明による文書クラスタリング装置１００は、分類対象文書中の各特徴表現１２について、特徴表現１２の長さ、特徴表現１２を構成する品詞、分類対象文書内出現確率１７のうちいずれか一つ以上の要素から分類軸スコア１４を計算し、その分類軸スコア１４に応じてランク付けした分類軸１５を表示する。ユーザは、自動抽出した分類軸１５から所望の分類軸１５を選択して、文書の分類を実施することができため、ユーザ個々の目的に応じた文書のクラスタリングが可能となる。

又、分類対象となる文書データ１０において高確率で遷移する形態素列を特徴表現抽出ルール１１として用いて、あるいは、比較対照となる文書に対して顕著な偏りを持って出現する特徴表現抽出ルール１１を用いて特徴表現１２を抽出する。このため、分類対象の文書データ１０の傾向に応じた特徴表現抽出ルール１１を自動的に獲得でき、文書分類処理に要する労力や時間等のメンテナンスコストを削減できる。

従って、本発明による文書クラスタリング装置１００は、様々な分野の文書データ１０に応じたクラスタリングを容易に、且つ選択的に実施できる。

以上、本発明の実施の形態が詳述されたが、具体的な構成は上記実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の変更があっても本発明に含まれる。

図１は、本発明による文書クラスタリング装置の第１の実施の形態における構成を示すブロック図である。図２は、本発明による文書データの実施の形態における一例である。図３は、本発明による特徴表現抽出ルール記憶部の実施の形態における構成例である。図４は、本発明による特徴表現記憶部の実施の形態における構成例である。図５は、本発明による分類軸記憶部の実施の形態における構成例である。図６は、本発明によるクラスタ記憶部の実施の形態における構成例である。図７は、本発明による文書クラスタリング装置の第１の実施の形態におけるクラスタリング処理の動作の流れ図である。図８（ａ）は、本発明による特徴表現抽出ルール決定部の、実施の形態における特徴表現抽出ルール決定処理の動作の流れ図である。図８（ｂ）は、本発明による分類軸抽出部の、実施の形態における分類軸抽出処理の動作の流れ図である。図９は、本発明による分類軸選択画面の第１の実施の形態における一例である。図１０は、本発明による分類軸及び関連表現選択画面の第１の実施の形態における一例である。図１１は、本発明による文書クラスタリング装置の第２の実施の形態における構成を示すブロック図である。図１２は、本発明による特徴表現抽出ルール決定部の、実施の形態における特徴表現抽出ルール決定処理の動作の流れ図である。図１３は、本発明による特徴表現抽出ルール記憶部の第２の実施の形態における構成例である。

符号の説明

１００：文書クラスタリング装置
１：入力装置
２：出力装置
３：データ処理装置
４：記憶装置
３０：クラスタリングプログラム
３１、３１’：特徴表現抽出ルール決定部
３２：特徴表現抽出部
３３：分類軸抽出部
３４：分類軸選択部
３５：関連表現抽出部
３６：クラスタリング部
３７：ＣＰＵ
３８：ＲＡＭ
４１：分類対象文書記憶部
４２：特徴表現抽出ルール記憶部
４３：特徴表現記憶部
４４：分類軸記憶部
４５：クラスタ情報記憶部
１０：文書データ
１１：特徴表現抽出ルール
１２：特徴表現
１３：遷移スコア
１４：分類軸スコア
１５：分類軸
１６：関連表現
１７：分類対象文書内出現確率
１８：比較対照文書内出現確率

Claims

分類対象である複数の文書を文書データとして保持する分類対象文書記憶部と、
前記文書データ内において、出現回数が所定の閾値以上である品詞又は文字列に基づいて、前記文書データを分類するための分類軸を決定するデータ処理装置とを具備する
文書クラスタリング装置。
請求項１に記載の文書クラスタリング装置において、
前記データ処理装置は、
前記文書データの形態素解析を行ない、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせを、特徴表現抽出ルールとして決定する特徴表現抽出ルール決定部と、
前記文書データ内において、前記特徴表現抽出ルールと一致する形態素列に対応する言語表現を、特徴表現として前記分類対象文書記憶部から抽出し、前記文書データ内の文書数に対する前記特徴表現が出現する文書数の割合である分類対象文書内出現確率を算出する特徴表現抽出部と、
前記分類対象文書内出現確率と前記特徴表現を関連付けて記憶する特徴表現記憶部と、
前記分類対象文書内出現確率に基づく分類軸スコアが第１の閾値以上である特徴表現を、前記分類軸として前記特徴表現記憶部から抽出する分類軸抽出部とを備える
文書クラスタリング装置。
請求項２に記載の文書クラスタリング装置において、
前記特徴表現ルール決定部は、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第１の遷移スコアが、第２の閾値以上である前記組み合わせを前記特徴表現抽出ルールとして決定する
文書クラスタリング装置。
請求項２に記載の文書クラスタリング装置において、
前記文書と比較するための複数の文書を比較対照文書データとして保持する比較対照文書記憶部を更に具備し、
前記特徴表現ルール決定部は、
前記文書データの形態素解析を行ない、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第１の遷移スコアが、第２の閾値以上である前記組み合わせを第１の特徴表現抽出ルールとして決定し、前記文書データ内の文書数に対する前記第１の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出し、
前記比較対照文書データの形態素解析を行ない、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第２の遷移スコアが、第２の閾値以上である前記組み合わせを第２の特徴表現抽出ルールとして決定し、前記比較対照文書データ内の文書数に対する前記第２の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出し、
前記第１及び第２の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第３の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定する
文書クラスタリング装置。
請求項３又は４に記載の文書クラスタリング装置において、
前記組み合わせは、連続して出現する２つの形態素による形態素列であり、
前記特徴表現抽出ルール決定部は前記遷移スコアとして、前記形態素列について、それぞれの形態素、又はその形態素の属する品詞の組み合わせが、前記文書データ内において連続して出現する回数、出現確率、前記２つの形態素における、前方の形態素の出現確率である右方向遷移確率、前記２つの形態素における、後方の形態素の出現確率である左方向遷移確率のうちいずれか１つ、又は複数の要素から計算する
文書クラスタリング装置。
請求項２から５いずれか１項に記載の文書クラスタリング装置において、
前記分類軸抽出部は、前記分類軸スコアとして、前記特徴表現の長さ、前記特徴表現を構成する品詞の数のうちいずれか１つ、又は複数の要素から計算する
文書クラスタリング装置。
請求項２から６いずれか１項に記載の文書クラスタリング装置において、
前記分類軸抽出部は、特徴表現を構成する形態素の数、特徴表現を構成する形態素に含まれる品詞の種類別の出現数、特徴表現を構成する形態素に含まれる自立語の数、特徴表現を構成する形態素に含まれる非自立語の数のうちいずれか１つ、又は複数の要素から前記分類軸スコアを計算する
文書クラスタリング装置。
請求項２から７いずれか１項に記載の文書クラスタリング装置において、
出力装置と、
入力装置と、
関連表現抽出部と、
クラスタリング部と
クラスタ情報記憶部とを更に備え、
前記分類軸抽出部は、前記分類軸と、前記分類軸に対応する分類軸スコアとを前記出力装置に出力し、
前記出力装置は、前記分類軸を前記分類軸スコアの降順に表示し、
前記入力装置は、表示された前記分類軸から任意の分類軸を選択し、
前記関連表現抽出部は、前記選択された分類軸を含む特徴表現を、前記分類軸に関連する関連表現として前記特徴表現記憶部から抽出し、
前記クラスタリング部は、前記分類軸と、前記関連表現を識別するクラスタＩＤと、前記関連表現を含む文書を識別する文書ＩＤとを関連付けて、クラスタ情報記憶部に記憶する
文書クラスタリング装置。
複数の文書を含む文書データを形態素解析するステップと、
所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせを、特徴表現抽出ルールとして決定するステップと、
前記特徴表現抽出ルールと一致する形態素に対応する表現を特徴表現として抽出するステップと、
前記特徴表現の前記文書データにおける出現回数に基づき分類軸を抽出するステップと、
前記分類軸を表示するステップと、
前記表示された分類軸から前記文書の分類に使用する分類軸を選択するステップと、
選択された分類軸を含む特徴表現を関連表現として抽出するステップと、
前記関連表現を含む文書と、関連表現を識別するクラスタＩＤを関連付けて前記文書を分類するステップとを備える
クラスタリング方法。
請求項９に記載のクラスタリング方法であって、
前記特徴表現抽出ルールを決定するステップは、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数するステップと、
前記出現回数から算出される第１の遷移スコアが、第２の閾値以上である前記組み合わせを前記特徴表現抽出ルールとして決定するステップとを含む
クラスタリング方法。
請求項１０に記載のクラスタリング方法であって、
前記特徴表現抽出ルールを決定するステップは、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数ステップと
前記出現回数から算出される第１の遷移スコアが、第２の閾値以上である前記組み合わせを第１の特徴表現抽出ルールとして決定するステップと、
前記文書データ内の文書数に対する前記第１の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出するステップと、
前記文書と比較するための複数の文書を含む比較対照文書データを形態素解析するステップと、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数するステップと、
前記出現回数から算出される第２の遷移スコアが、第２の閾値以上である前記組み合わせを第２の特徴表現抽出ルールとして決定するステップと、
前記比較対照文書データ内の文書数に対する前記第２の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出するステップと、
前記第１及び第２の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第３の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定するステップとを備える
クラスタリング方法。
請求項１０又は１１に記載のクラスタリング方法であって、
前記特徴表現抽出ルールを決定するステップにおいて、
前記組み合わせは、連続して出現する２つの形態素による形態素列であり、
前記形態素列について、それぞれの形態素、又はその形態素の属する品詞の組み合わせが、前記文書データ内において連続して出現する回数、出現確率、前記２つの形態素における、前方の形態素の出現確率である右方向遷移確率、前記２つの形態素における、後方の形態素の出現確率である左方向遷移確率のうちいずれか１つ、又は複数の要素から前記遷移スコアを算出するステップを更に備える
クラスタリング方法。
請求項９から１２いずれか１項に記載のクラスタリング方法において、
前記分類軸を抽出するステップにおいて、
前記特徴表現の長さ、前記特徴表現を構成する品詞の数のうちいずれか１つ、又は複数の要素から前記分類軸スコアを計算するステップを更に含み、
前記分類軸スコアが第３の閾値以上である特徴表現を前記分類軸として抽出する
クラスタリング方法。
請求項１０から１３いずれか１項に記載のクラスタリング方法において、
前記分類軸を抽出するステップにおいて、
前記分類軸スコアとして、特徴表現を構成する形態素の数、特徴表現を構成する形態素に含まれる品詞の種類別の出現数、特徴表現を構成する形態素に含まれる自立語の数、特徴表現を構成する形態素に含まれる非自立語の数のうちいずれか１つ、又は複数の要素から分類軸スコアを計算する
クラスタリング方法。
請求項９から１４いずれか１項に記載のクラスタリング方法をコンピュータに実行させるクラスタリングプログラム。
複数の文書を含む文書データの形態素解析を行なうステップと、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの前記文書データ内における出現回数を計数するステップと、
前記出現回数から算出される第１の遷移スコアが、第１の閾値以上である前記組み合わせを特徴表現抽出ルールとして決定するステップと、
前記文書データ内において、前記特徴表現抽出ルールと一致する形態素列に対応する言語表現を、特徴表現として抽出するステップとを具備する
特徴表現抽出方法。
複数の文書を含む文書データの形態素解析を行なうステップと、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの前記文書データ内における出現回数を計数するステップと、
前記出現回数から算出される第１の遷移スコアが、第１の閾値以上である前記組み合わせを第１の特徴表現抽出ルールとして決定するステップと、
前記文書データ内の文書数に対する前記第１の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出するステップと、
前記文書と比較するための複数の文書を含む比較対照文書データを形態素解析するステップと、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも１つ以上からなる所定の組み合わせの出現回数を計数するステップと、
前記出現回数から算出される第２の遷移スコアが、第１の閾値以上である前記組み合わせを第２の特徴表現抽出ルールとして決定するステップと、
前記比較対照文書データ内の文書数に対する前記第２の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出するステップと、
前記第１及び第２の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第３の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定するステップと、
前記文書データ内において、前記特徴表現抽出ルールと一致する形態素列に対応する言語表現を、特徴表現として抽出するステップとを具備する
特徴表現抽出方法。