JP4671164B2 - 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム - Google Patents

文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム Download PDF

Info

Publication number
JP4671164B2
JP4671164B2 JP2004328202A JP2004328202A JP4671164B2 JP 4671164 B2 JP4671164 B2 JP 4671164B2 JP 2004328202 A JP2004328202 A JP 2004328202A JP 2004328202 A JP2004328202 A JP 2004328202A JP 4671164 B2 JP4671164 B2 JP 4671164B2
Authority
JP
Japan
Prior art keywords
document
feature expression
classification
classification axis
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004328202A
Other languages
English (en)
Other versions
JP2006139518A (ja
Inventor
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004328202A priority Critical patent/JP4671164B2/ja
Publication of JP2006139518A publication Critical patent/JP2006139518A/ja
Application granted granted Critical
Publication of JP4671164B2 publication Critical patent/JP4671164B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書クラスタリング装置、クラスタリング方法、クラスタリングプログラム及び特徴表現抽出方法に関し、文書の内容の傾向にあった分類条件よって文書を分類する文書クラスタリング装置、クラスタリング方法、クラスタリングプログラム及び特徴表現抽出方法に関する。
近年、電子的に利用可能な文書の増大に伴って、文書の自動分類へのニーズが高まっている。特に、新しいサービスや商品に関する文書が次々と蓄積されるような文書データベースにおいては、あらかじめ固定した分類軸に沿って分類するクラシフィケーションタスクよりも、データの傾向に応じて文書を分類するクラスタリングタスクが重要である。
開示例1として、特開2002−183171号公報に、文書の類似性に着目してクラスタリングを行う従来技術が開示されている。特開2002−183171号公報の方法によれば、文書を単語に分割して特徴ベクトルに変換し、特徴ベクトル同士の類似性を基準に、似ている文書をまとめあげることによって文書のクラスタリングを行う(特許文献1)。しかしながら、文書の類似性に着目したクラスタリングでは、分類軸は自動的に決定されるが、ユーザの想定しない分類軸でもクラスタリングされてしまう。このため、ユーザの所望の分類軸で分類することは困難である。
開示例2として、特開2000−315207号公報に、ユーザがあらかじめ分類軸を与えてクラスタリングを行う従来技術が開示されている。特開2000−315207号公報の方法によれば、視点プロファイルとして、あらかじめ「好景気」「不景気」のような複数の分類軸を設定し、さらに、分類軸「好景気」の関連語として「好調、堅調、増収」などのキーワードを、分類軸「不景気」の関連語として「不調、不振、減益」などのキーワードを登録している。この視点プロファイルを用いて、(a)好景気の関連語がm回以上出現し、不景気の関連語がn回以上出現した文書、(b)好景気の関連語がm回未満出現し、不景気の関連語がn回出現した文書、(c)好景気の関連語がm回以上出現し、不景気の関連語がn回未満出現した文書、(d)好景気の関連語がm回未満出現し、不景気の関連語がn回未満出現した文書の4つのグループにクラスタリングを行う。複数の視点プロファイルを用意することにより、複数の視点によるクラスタリングが可能である(特許文献2)。
開示例1では、ユーザがあらかじめ分類軸を与えることによって、所望の分類軸でクラスタリングを行うことができる。しかし、この場合、どのキーワードがどの分類軸に属するかを視点プロファイルとして分類軸毎に構築する必要があり、メンテナンスコストがかかってしまう。
又、従来のクラスタリング装置では、文書データとは関係なくあらかじめクラスタリングに用いる特徴表現の抽出ルールが固定されているため、文書データの傾向は反映されない。例えば、開示例1、2におけるクラスタリングに用いる特徴表現は、「単語1語ずつ」や、「名詞の連続した複合語」等、文書データによらず固定である。例えば、分類対象データがレストランの紹介文である場合、「静かな雰囲気」などの特徴表現は分類に有効に活用できると考えられる。ところが、従来のクラスタリング装置では、「静かな雰囲気」を形態素で分割した「静か」「な」「雰囲気」をそれぞれ独立の特徴表現として扱うか、または名詞である「静か」と「雰囲気」のみを特徴表現として扱うことしかできなかった。これに対して、分類対象文書の分野に応じて特徴表現となりうる品詞や形態素のパターンを特徴表現抽出ルールとしてあらかじめ決定する方法も考えられる。しかし、分類対象文書の分野が変わると、それぞれ分野に対する特徴表現抽出ルールを記述する必要があり、現実的な解決方法ではない。
開示例3として、特開2001−060199号公報に、文書内のキーワードおよび文書に付随する属性情報のうちの1つ以上からなる所定の組み合わせを記述した分類ルールに基づいて文書分類処理を行ない、対象文書内で省略されている場合は、そのキーワードを補完する技術が開示されている(特許文献3)。
特開2001−060199号公報の方法によれば、文書を分類するため使用するキーワードや属性情報を予め登録しておかなければならず、分類対象の傾向に応じた分類をすることはできない。
特開平7−176631号公報 特開2004−071118号公報 特開昭61−214559号公報
本発明の目的は、自動抽出した分類軸からユーザが所望の分類軸を選択できる文書クラスタリング装置を提供することにある。
本発明の他の目的は、分類対象の文書データの傾向に応じた特徴表現抽出ルールを自動的に獲得できる文書クラスタリング装置を提供することにある。
以下に、[発明を実施するための最良の形態]で使用される番号・符号を括弧付きで用いて、[課題を解決するための手段]を説明する。この番号・符号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]の記載との対応関係を明らかにするために付加されたものであるが、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
本発明による文書クラスタリング装置(100)は、分類対象である複数の文書を文書データ(10)として保持する分類対象文書記憶部(41)と、文書データ(10)内において、出現回数が所定の閾値以上である品詞又は文字列に基づいて、文書データ(10)を分類するための分類軸を決定するデータ処理装置(3、3’)とを具備する。
データ処理装置(3、3’)は、文書データ(10)の形態素解析を行ない、文書データ(10)内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせを、特徴表現抽出ルール(11)として決定する特徴表現抽出ルール決定部(31、31’)と、文書データ(10)内において、特徴表現抽出ルール(10)と一致する形態素列に対応する言語表現を、特徴表現(12)として分類対象文書記憶部(41)から抽出し、文書データ(10)内の文書数に対する特徴表現(12)が出現する文書数の割合である分類対象文書内出現確率(17)を算出する特徴表現抽出部(32)と、分類対象文書内出現確率(17)と特徴表現(12)を関連付けて記憶する特徴表現記憶部(43)と、分類対象文書内出現確率(17)に基づく分類軸スコア(14)が第1の閾値(z)以上である特徴表現(12)を、分類軸(15)として特徴表現記憶部(43)から抽出する分類軸抽出部(33)とを備える。
特徴表現ルール決定部(31)は、文書データ(10)内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、出現回数から算出される第1の遷移スコア(13)が、第2の閾値(y)以上である組み合わせを特徴表現抽出ルール(11)として決定する。
又、
対象文書に対して比較の対象となる複数の文書を比較対照文書データとして保持する比較対照文書記憶部を更に具備し、
前記特徴表現ルール決定部は、
前記文書データの形態素解析を行ない、
前記文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第1の遷移スコアが、第2の閾値以上である前記組み合わせを第1の特徴表現抽出ルールとして決定し、前記文書データ内の文書数に対する前記第1の特徴表現抽出ルールが出現する文書数の割合である分類対象文書内ルール出現確率を算出し、
前記比較対照文書データの形態素解析を行ない、
前記比較対照文書データ内において、所定数の品詞及び所定数の形態素のうち、少なくとも1つ以上からなる所定の組み合わせの出現回数を計数し、前記出現回数から算出される第2の遷移スコアが、第2の閾値以上である前記組み合わせを第2の特徴表現抽出ルールとして決定し、前記比較対照文書データ内の文書数に対する前記第2の特徴表現抽出ルールが出現する文書数の割合である比較対照文書内ルール出現確率を算出し、
前記第1及び第2の特徴表現抽出ルールのうち、同一の特徴表現抽出ルールについて、比較対照文書内出現確率に対する分類対象文書内出現確率の比率が第3の閾値以上である特徴表現抽出ルールを特徴表現抽出ルールとして決定する
文書クラスタリング装置。
又、本発明による文書クラスタリング装置(100)は、出力装置(2)と、入力装置(1)と、関連表現抽出部(35)と、クラスタリング部(36)とクラスタ情報記憶部(45)とを更に備える。分類軸抽出部(33)は、分類軸(15)と、分類軸(15)に対応する分類軸スコア(14)とを出力装置(2)に出力し、出力装置(2)は、分類軸(15)を分類軸スコア(14)の降順に表示する。ユーザの操作により入力装置(1)は、表示された分類軸(15)から任意の分類軸(15)を選択する。関連表現抽出部(35)は、選択された分類軸(15)を含む特徴表現(12)を、分類軸(15)に関連する関連表現(16)として特徴表現記憶部(43)から抽出する。更に、クラスタリング部(36)は、分類軸(15)と、関連表現(16)を識別するクラスタIDと、関連表現(16)を含む文書を識別する文書IDとを関連付けて、クラスタ情報記憶部(36)に記憶する。
以上のような構成により、本発明による文書クラスタリング装置(100)は、分類対象である文書データ(10)の傾向に応じた分類軸(15)が自動的に抽出され、分類軸スコア(14)順に表示することで、ユーザが所望の分類軸を選択することができる。
本発明の文書クラスタリング装置によれば、自動抽出した分類軸からユーザが所望の分類軸を選択して文書のクラスタリングができる。
又、分類対象の文書データの傾向に応じた特徴表現抽出ルールを自動的に獲得して文書のクラスタリングができる。
以下、添付図面を参照して、本発明による文書クラスタリング装置100の実施の形態が説明される。本発明による文書クラスタリング装置100は、レストラン、商品、あるいはサービスの紹介文の自動分類といった用途に好適に使用される。又、アンケートの自由記述文の傾向分析や、コールセンターに寄せられる苦情の傾向分析といった用途に好適に使用される。
(第1の実施の形態)
図1から図10を参照して、本発明による文書クラスタリング装置100の第1の実施の形態が説明される。
図1を参照して、本発明による文書クラスタリング装置100の第1の実施の形態における構成は、キーボードやマウス等の入力装置1と、ディスプレイやプリンタ等の出力装置2と、コンピュータに搭載され、クラスタリングプログラムによりクラスタリング処理を実行するデータ処理装置3と、クラスタリングに使用する文書や、データが記憶されるハードディスクやメモリあるいは、MOやCD−R等の記憶媒体である記憶装置4とを具備する。
記憶装置4は、分類対象文書記憶部41、特徴表現抽出ルール記憶部42、特徴表現記憶部43、分類軸記憶部44、クラスタ情報記憶部45とを含む。
分類対象文書記憶部41は、分類対象となる複数の文書を含む文書データ10を格納する。図2(a)を参照して、文書データ10とは、文書を識別する文書IDと、文書本体の本文が関連付けられて記憶されている。尚、文書データ10として、文書IDと本文の他に、文書本体を示すアドレスや、作成日や作成者などのメタ情報、あるいは、人手であらかじめ付与したカテゴリ情報などを含んでいてもよい。例えば、図2(b)を参照して、文書データ10は、文書IDや本文の他に、本文の内容に関連する住所や、料理のジャンルが付与されても構わない。
特徴表現抽出ルール記憶部42は、特徴表現抽出ルール決定部31から出力された特徴表現抽出ルール11と、特徴表現抽出ルール11を識別するルール識別子とを関連付けられて格納する。図3を参照して、特徴表現ルールとは、品詞又は形態素列で記述される。例えば、図3におけるルール1の特徴表現抽出ルール11は、品詞が「名詞−固有名詞−地域」の単語に続いて「名詞−サ変接続−料理」という形態素が現れるパターンであり、「フランス料理」や「イタリア料理」などの表現はこのルール1を満たす。又、ルール2の特徴表現抽出ルール11は、品詞が「名詞−形容動詞語幹」の次に「助動詞−な」が続き、さらに「雰囲気」という単語が続くパターンであり、「にぎやかな雰囲気」「静かな雰囲気」などの表現がルール2を満たす。同様に、ルール3の特徴表現抽出ルール11は、品詞が「名詞」の形態素であり、「料理」や「雰囲気」などの表現がルール3を満たす。
特徴表現記憶部43は、特徴表現抽出部32によって抽出された特徴表現12と、その特徴表現12の形態素列の解析結果と、分類対象文書内出現確率17と、出現した文書IDの組が関連付けられて格納する。ここで、分類対象文書内出現確率17とは、ある特徴表現12が出現した文書数を、分類対象文書の文書数で割ることによって求められる。図4を参照して、特徴表現記憶部43に格納される特徴表現12の例が示される。特徴表現12「イタリア料理」の分類対象文書内出現確率17は5%で、それが出現した文書はD2、D3、D6である。又、形態素列の解析結果は、名詞数が2、全体の形態素数が2である。
図5を参照して、分類軸記憶部44は、分類軸選択部34で選択された分類軸と、その分類軸スコア14を関連付けて格納する。
クラスタ情報記憶部45には、クラスタリング部36によって生成されたクラスタと、そのクラスタに属する文書IDが関連付けられて格納される。図6を参照して、クラスタ情報記憶部45に格納されるクラスタ情報の例が示される。分類軸15が「料理」である場合、CL11とCL12の2つのクラスタが生成されており、クラスタCL11のラベルは「イタリア料理」で、文書D2、D3、D6が含まれる。
データ処理装置3は、文書のクラスタリング処理を行うクラスタリングプログラム30と、このクラスタリング処理を実行するCPU37と、クラスタリング処理に関わる信号やデータを一時的に記憶するRAM38とを具備する。
クラスタリングプログラム30は、特徴表現抽出ルール決定部31、特徴表現抽出部32、分類軸抽出部33、分類軸選択部34、関連表現抽出部35、クラスタリング部36とを備えている。
特徴表現抽出ルール決定部31は、分類対象文書記憶部41から分類対象となる文書データ10を読み出し、本文を形態素解析し、高確率で遷移する品詞または形態素列を特徴表現抽出ルール11として決定し、その結果を特徴表現抽出ルール記憶部42に格納する。
特徴表現抽出部32は、分類対象文書記憶部41から分類対象となる文書データ10を読み出し、特徴表現抽出ルール記憶部42に格納されている特徴表現抽出ルール11に一致する表現とその対象文書内出現確率、及びその表現が出現する文書IDとの対応表を作成し、特徴表現記憶部43に格納する。
分類軸抽出部33は、特徴表現記憶部43に格納されている特徴表現12について、特徴表現12の長さ、特徴表現12を構成する品詞、分類対象文書内出現確率17のうちいずれか1つ、又は複数の要素から分類軸スコア14を計算し、あらかじめ定められた分類軸スコア14の閾値を越えたものを分類軸候補として分類軸15を抽出し、その分類軸スコア14とともに分類軸記憶部44に格納し、出力装置2に表示させる。
分類軸選択部34は、出力装置2に表示された分類軸候補のうち、ユーザが指定した分類軸15を分類軸記憶部44から抽出し、関連表現決定部35に入力する。
関連表現抽出部35は、特徴表現記憶部43の中から、分類軸選択部34によって指定された分類軸15を含む特徴表現12をその分類軸15に関する関連表現16として抽出し、クラスタリング部36に入力する。
クラスタリング部36は、関連表現決定部35によって入力された関連表現16を含む文書を、それぞれ個別のクラスタとしてクラスタ情報記憶部45に格納する。
次に、図1から図7を参照して本実施の形態の動作について詳細に説明する。図7は、第1の実施の形態における文書クラスタリング装置のクラスタリング処理の動作を示す流れ図である。
ユーザは、入力装置1を操作して、対象文書記憶部41内の分類対象となる文書データ10を選択し、クラスタリングを開始する。特徴表現抽出ルール決定部31は、分類対象文書記憶部41から分類対象となる文書データ10を読み出し、本文を形態素解析し、高確率で遷移する品詞または形態素列を特徴表現抽出ルール11として決定し、その結果を特徴表現抽出ルール記憶部42に格納する(ステップS11)。
図8(a)を参照して、特徴表現抽出ルール決定部31における特徴表現抽出ルール11の決定処理の動作が示される。特徴表現抽出ルール決定部31は、分類対象文書記憶部41に格納されている文書データ10の本文を形態素解析し、品詞情報を付与した形態素列に変換し、抽象度を1に設定する(ステップS111)。例えば、本文が「静かな雰囲気、季節感あふれるフランス料理」である場合、品詞情報を付与した形態素列は「[名詞−形容動詞語幹−静か][助動詞−な][名詞−一般−雰囲気][記号−読点−、][名詞−一般−季節][名詞−接尾−一般−感][動詞−自立−あふれる][名詞−固有名詞−地域−フランス][名詞−サ変接続−料理]」のようになる。抽象度とは、品詞情報を付与した形態素がどの程度抽象化されているかを示す指標であり、「[名詞−サ変接続−料理]」のように形態素そのものの表記を含む場合の抽象度を1として、抽象度を1段階上げる毎に形態素表記の最右項を省略するものとする。例えば、形態素「[名詞−サ変接続−料理]」の抽象度を1段階上げた表記(抽象度2)は「[名詞−サ変接続]」、更に1段階上げた表記(抽象度3)は「[名詞]」である。形態素「[名詞−固有名詞−地域−フランス]」のように、品詞の分類が細かく分かれている場合は、抽象度1では「[名詞−固有名詞−地域−フランス]」、抽象度2では「[名詞−固有名詞−地域]」、抽象度3では「[名詞−固有名詞]」、抽象度4では「[名詞]」とする。
次に、特徴表現抽出ルール決定部31は、形態素列の中に連続して出現する2つの形態素(以後、2−gramと呼ぶ)の文書データ10における出現頻度を計数し、各2−gramの遷移スコア13を求める(ステップS112)。例えば、形態素列が「[名詞−形容動詞語幹−静か][助動詞−な][名詞−一般−雰囲気]」である場合、2−gram「[名詞−形容動詞語幹−静か][助動詞−な]」の出現頻度に1回加算し、2−gram「[助動詞−な][名詞−一般−雰囲気]」の出現頻度に1回加算する。各2−gramの遷移スコア13とは、各2−gramの出現頻度、出現確率、右方向遷移確率、左方向遷移確率、のうちいずれか1つまたは複数から計算されるスコアである。
ここで、2−gramの出現確率とは、当該2−gramの文書データ10における出現頻度を、文書データ10内のすべての2−gramの出現頻度の合計で割ったものである。又、2−gramの右方向遷移確率とは、ある2−gramの先頭の形態素が単独で文書データ10に出現した回数に対する、その2−gramの出現頻度の割合である。また、左方向遷移確率とは、ある2−gramの後方の形態素が単独で文書データ10に出現した回数に対する、その2−gramの出現頻度の割合である。
例えば、分類対象の文書データ10全体で、2−gramが100万回出現し、形態素「[名詞−形容動詞語幹−静か]」の出現頻度が500回、形態素「[助動詞−な]」の出現回数が10000回、2−gram「[名詞−形容動詞語幹−静か][助動詞−な]」の出現頻度が200回であった場合、2−gram「[名詞−形容動詞語幹−静か] [助動詞−な]」の出現確率は200/1,000,000=0.0002、右方向遷移確率は200/500=0.4、左方向遷移確率は200/10000=0.02である。この場合、形態素「[名詞−形容動詞語幹−静か]」の後方に形態素「[助動詞−な]」が比較的多くの割合(40%)で出現するのに対し、形態素「[助動詞−な]」の前方には様々な形態素が出現することが多く、前方に形態素「[名詞−形容動詞語幹−静か]」が出現する割合は2%程度に過ぎないことがわかる。2−gramの遷移スコア13は、例えば、次式で求められる。
(遷移スコア13)=(出現確率)×(右方向遷移確率)×(左方向遷移確率)
従って、2−gram「[名詞−形容動詞語幹−静か][助動詞−な]」の遷移スコア13は、0.0002×0.4×0.2=1.6×10^(−5)となる。
次に、特徴表現抽出ルール決定部31は抽象度があらかじめ定められた閾値x以上か否かを判定する(ステップS113)。抽象度がx以上であればステップS115へ進み、x未満であればステップS114に進む。例えば、xが2に設定されている場合、最初にステップS113を実行した時点では抽象度は1であるので、ステップS114に進む。
抽象度がx未満である場合、特徴表現抽出ルール決定部31は、遷移スコア13があらかじめ定められた閾値y未満の2−gramについて、前方および後方の形態素を1段階抽象化した2−gramの出現頻度を計数する(ステップS114)。例えば、yが10^(−4)と指定されていて、2−gram「[名詞−形容動詞語幹−静か][助動詞−な]」の遷移スコア13が1.6*10^(−5)であった場合、遷移スコア13がy未満であるので、形態素の抽象度を1段階増加する。2−gram「[名詞−形容動詞語幹−静か][助動詞−な]」の、前方の形態素の抽象度を2にした2−gramは「[名詞−形容動詞語幹][助動詞−な]」、後方の形態素の抽象度を2にした2−gramは「[名詞−形容動詞語幹−静か][助動詞]」となる。2−gram「[名詞−形容動詞語幹][助動詞−な]」には、「静かな」や「にぎやかな」などの一般的な表現が該当するため、出現頻度が大幅に増加する。一方、2−gram「[名詞−形容動詞語幹−静か][助動詞]」には「静かだろう」、「静かなり」などの表現が該当するが、バリエーションは少なく、出現頻度はあまり増加しない。
ステップS114の後、特徴表現抽出ルール決定部31は、抽象度の上がった2−gramについて再度遷移スコア13を計算する(ステップS112)。例えば、分類対象の文書データ10全体で、2−gramが100万回出現し、形態素「[名詞−形容動詞語幹−静か]」の出現頻度が500回、形態素「[助動詞−な]」の出現回数が10000回、抽象度2の形態素「[名詞−形容動詞語幹]」の出現回数が5000回、抽象度2の形態素「[助動詞]」の出現回数が20000回、2−gram「[名詞−形容動詞語幹][助動詞−な]」の出現頻度が3000回、2−gram「[名詞−形容動詞語幹−静か][助動詞]」の出現回数が400回であった場合、2−gram「[名詞−形容動詞語幹][助動詞−な]」の出現確率は3000/1,000,000=0.003、右方向遷移確率は3000/5000=0.6、左方向遷移確率は3000/10000=0.3となり、遷移スコア13は、0.003*0.6*0.3=5.4*10^(−4)となる。一方、2−gram「[名詞−形容動詞語幹−静か][助動詞]」の出現確率は、400/1,000,000=0.0004、右方向遷移確率は400/500=0.8、左方向遷移確率は400/20000=0.02となり、遷移スコア13は、0.0004*0.8*0.02=6.4*10^(−6)となる。さらに、再度ステップS113で現在の抽象度をチェックし、閾値x以上であればステップS115に進む。
抽象度が閾値x以上である場合、特徴表現抽出ルール決定部31は、生成されたすべての2−gramについて、遷移スコア13があらかじめ定められた閾値y以上の2−gramを連結し、特徴表現抽出ルール記憶部42に図3に示すような特徴表現抽出ルール11を出力する(ステップS115)。例えば、yが10^(−4)と設定されており、2−gram「[名詞−形容動詞語幹−静か][助動詞−な]」の遷移スコア13が1.6*10^(−5)、2−gram「[名詞−形容動詞語幹][助動詞−な]」の遷移スコア13が5.4*10^(−4)、2−gram「[名詞−形容動詞語幹−静か][助動詞]」の遷移スコア13が6.4*10^(−6)、2−gram「[助動詞−な][名詞−一般−雰囲気]」の遷移スコア13が1.2*10^(−4)、2−gram「[名詞−固有名詞−地域][名詞−サ変接続−料理]」の遷移スコア13が1.1*10^(−3)であった場合、遷移スコア13がy以上である2−gramは、「[名詞−形容動詞語幹][助動詞−な]」、「[助動詞−な][名詞−一般−雰囲気]」、「[名詞−固有名詞−地域][名詞−サ変接続−料理]」の3種類である。このうち、2つの2−gram「[名詞−形容動詞語幹] [助動詞−な]」と「[助動詞−な][名詞−一般−雰囲気]」は、形態素「[助動詞−な]」を共通に持つため、連結されて特徴表現抽出ルール11「[名詞−形容動詞語幹][助動詞−な][名詞−一般−雰囲気]」として出力され、「[名詞−固有名詞−地域][名詞−サ変接続−料理]」はそのまま特徴表現抽出ルール11として出力される。
尚、本実施の形態では、抽象度が1段階上がる毎に形態素表記の最右項を省略するとしたが、他にも、品詞の分類を大・中・小分類の3段階とし、抽象度1では品詞の大・中・小分類に加えて形態素そのものの表記を用い、抽象度2では品詞の大・中・小分類を用い、抽象度3では品詞の大・中分類を用い、抽象度4では品詞の大分類のみを用いることにしてもよく、本発明の実施の形態に述べた方法に限定されない。
又、遷移スコア13の算出方法は、
(遷移スコア13)=(出現確率)×MAX{(右方向遷移確率)、(左方向遷移確率)}
としても、出現確率、又は右方向遷移確率、又は左方向遷移確率を単独で遷移スコア13として用いる方法でも、本発明の実施の形態に述べた方法に限定されない。
更に、本実施の形態では、閾値y以上の遷移スコア13を満たす2−gramを連結して特徴表現抽出ルール11として出力する方法を一例としたが、ここで自動抽出される特徴表現抽出ルール11に加えて、ユーザが「[名詞]」や「[名詞][名詞]」のような一般的な特徴表現抽出ルール11を追加してもよく、本発明の実施の形態に述べた方法に限定されない。
特徴表現抽出ルール決定部31が特徴表現抽出ルール11を特徴表現抽出ルール記憶部32に記憶させると、特徴表現抽出部32は分類対象文書記憶部41から分類対象となる文書データ10の各本文を読み出して形態素解析し、特徴表現抽出ルール11を満たす自然語表現を特徴表現12として抽出する。抽出した各特徴表現12の文書内出現確率と、それが出現した文書IDを特徴表現記憶部43に記憶させる(ステップS12)。この際、例えば、各特徴表現12における名詞の数や全形態素の数を関連付けて特徴表現記憶部43に記憶させる。尚、特徴表現12の長さ、特徴表現12を構成する品詞、分類対象文書内出現確率17のいずれかを関連付けて記憶させても良い。
次に、分類軸抽出部33は、特徴表現記憶部43に格納されている特徴表現12に基づき分類軸15を抽出し、分類軸候補として出力装置2に表示させる。(ステップS13)。
図8(b)を参照して、分類軸抽出部33における分類軸抽出処理の動作の流れが示される。特徴表現記憶部43に格納されている特徴表現12について、特徴表現12の長さ、特徴表現12を構成する品詞、分類対象文書内出現確率17のうちいずれか1つ、又は複数の要素を抽出し、抽出した要素を用いて分類軸スコア14を計算する(ステップS131)。
分類軸スコア14は、例えば、下式で求められる。
(分類軸スコア14)=(分類対象文書内出現確率17)×(特徴表現12中の名詞の数)/(特徴表現12を構成する形態素数)
例えば、特徴表現記憶部43に格納されている特徴表現12が図4のような場合、特徴表現12「イタリア料理」は、名詞2語からなるので、分類軸スコア14は、0.05×2/2=0.05
特徴表現12「フランス料理」は、名詞2語からなるので、分類軸スコア14は、0.02×2/2=0.02
特徴表現12「にぎやかな雰囲気」は、名詞2語と助動詞1語からなるので、分類軸スコア14は、0.08×2/3=0.05
特徴表現12「静かな雰囲気」は、名詞2語と助動詞1語からなるので、分類軸スコア14は、0.04×2/3=0.03
特徴表現12「料理」は、名詞1語からなるので、分類軸スコア14は、0.4×1/1=0.4
特徴表現12「雰囲気」は、名詞1語からなるので、分類軸スコア14は、0.3×1/1=0.3
分類軸抽出部33は、分類軸スコア14が、あらかじめ定められた閾値z以上かどうかを判定する(ステップS132)。分類軸スコア14がz以上である場合、その分類軸15と分類軸スコア14とを分類軸記憶部44に記憶させる。例えば、分類軸スコア14の閾値が0.2であった場合、上述の特徴表現12のうち、「料理」と「雰囲気」が、それぞれの分類軸スコア14「0.4」、「0.3」に関連付けられて分類軸記憶部44に記憶される。
又、分類軸スコア14の算出方法は、
(分類軸スコア14)=(分類対象文書内出現確率17)*(特徴表現12中の自立語の数)/{(特徴表現12中の非自立語の数)+1}
や、
(分類軸スコア14)=(分類対象文書内出現確率17)*δ
ただし、δ = 1(特徴表現12が名詞で終わっている場合)/0(特徴表現12が名詞以外の品詞で終わっている場合)
でも良く、本実施の形態に述べた方法に限定されない。
分類軸抽出部33は、抽出した分類軸15を出力装置2に表示させる(ステップS133)。図9を参照して、出力装置2は、分類軸選択画面C1に分類軸15及び分類軸スコア14を分類軸候補として表示する。例えば、分類軸15「料理」と「雰囲気」のそれぞれに対応する分類軸スコア14「0.4」、「0.3」が表示される。
又、本実施の形態において、分類軸スコア14は、あらかじめ定められた閾値を越えたものとしたが、閾値を定めず、単に分類軸スコア14が高い順にランキングして記憶及び表示してもよく、本発明の実施の形態に述べた方法に限定されない。
出力装置2に表示される分類軸選択画面C1上で、ユーザは、入力装置1を用いて1つ以上の所望の分類軸15を選んでチェックボックスC11をONにし、実行ボタンC12を押す。すると、分類軸選択部34は、分類軸選択画面C1でユーザが指定した分類軸15を関連表現決定部35に入力する(ステップS14)。複数の分類軸15が選択された場合、各分類軸15に対する以降の処理は独立に行われる。
次に、関連表現抽出部35は、特徴表現記憶部43の中から、分類軸選択部34によって指定された分類軸15を含む特徴表現12をその分類軸15に関する関連表現16として抽出し、クラスタリング部35に入力する(ステップS15)。例えば、ステップS14で分類軸15として「料理」が選択され、特徴表現記憶部43に格納されている特徴表現12が図4のようになっていた場合、「イタリア料理」及び「フランス料理」が関連表現16としてクラスタリング部35に入力される。又、ステップS14で分類軸15として「雰囲気」が選択され、特徴表現記憶部43に格納されている特徴表現12が図4のようになっていた場合、「にぎやかな雰囲気」「静かな雰囲気」が関連表現16としてクラスタリング部35に入力される。
クラスタリング部36は、関連表現決定部35によって入力された関連表現16を含む文書を、それぞれ個別のクラスタとしてクラスタIDと関連付けてラスタ情報記憶部45に記憶する。図6を参照して、関連表現決定部35によって、分類軸15「料理」に対する関連表現16として「イタリア料理」「フランス料理」が、分類軸15「雰囲気」に対する関連表現16として「にぎやかな雰囲気」「静かな雰囲気」が入力された場合、クラスタリング部36は、それぞれにクラスタIDとしてCL11、CL12、CL21、CL22を付し、それぞれの特徴表現12が出現する文書の文書IDを関連付けてクラスタ情報記憶部45に記憶する。
尚、本実施の形態においては、ユーザによる分類軸選択(ステップS14)の後に、その分類軸15に関する関連表現16を抽出(ステップS15)を行う方法について述べたが、分類軸抽出(ステップS13)の後、先に各分類軸15に関する関連表現16の抽出(ステップS15)を行い、その後で、分類軸15と関連表現16をユーザに提示して分類軸15を選択(ステップS14)する方法でも良く、本実施の形態に述べた方法に限定されない。この場合、ステップS14でユーザに提示する画面は、図10のようになる。図10を参照して、分類軸15及び関連表現選択画面C2に分類軸候補は、「料理」と「雰囲気」が分類軸スコア14の順に表示される。又、分類軸15「料理」の関連表現16として「イタリア料理」と「フランス料理」が、「雰囲気」の関連表現16として「にぎやかな雰囲気」と「静かな雰囲気」が表示される。この場合、ユーザは抽出された分類軸15と関連表現16のうち、所望のものを選択して利用することができる。
本実施の形態における文書クラスタリング装置は、自動抽出した分類軸15に対して、ユーザがクラスタリングに用いる分類軸15を選択できる。このため、ユーザは所望の分類軸15でクラスタリングを行うことができる。又、分類対象文書内において連続した2つの形態素の出現頻度、出現確率、右方向遷移確率、左方向遷移確率、のうちいずれか1つまたは複数から計算される遷移スコア13を用いて特徴表現抽出ルール11を自動獲得できる。このため、分類対象の文書データ10の傾向に応じ特徴表現抽出ルール11を獲得することができる。例えば、本発明をレストラン、商品、あるいはサービス紹介文に適用した場合、紹介文に定型的な表現を調査してあらかじめ特徴表現抽出ルール11を設計しなくても、「にぎやかな雰囲気」「静かな雰囲気」のような特徴表現12の抽出が可能となる。
本発明による文書クラスタリング装置をアンケートの自由記述文の傾向分析に適用した場合、あらかじめ典型的な回答を想定して特徴表現抽出ルール11を設計する必要がなくなる。又、本発明をコールセンターに寄せられる苦情の傾向分析に適用した場合、製品や機能に関する辞書を構築することや、定型の問い合わせ文を想定して特徴表現抽出ルール11を設計する必要がなくなる。
(第2の実施の形態)
図11から図13を参照して、本発明による文書クラスタリング装置の第2の実施の形態が説明される。
図11を参照して、本発明による文書クラスタリング装置の第2の実施の形態の構成は、は、図1に示される第1の実施の形態の構成に加えて、比較対照文書記憶部45が追加され、図1におけるデータ処理装置3の、特徴表現抽出ルール決定部31の動作が異なり、特徴表現抽出ルール決定部31’となる。
比較対照文書記憶部45には、分類対象となる文書データ10と比較するための複数の文書を含む比較対照文書データ10’が格納される。比較対照文書記憶部45は、分類対象文書記憶部41の構成と同様に、文書を識別するための文書IDと本文とが関連付けられて記憶される。
例えば、分類対象文書記憶部41に格納されている文書データ10の1年前の文書データ10を比較対照文書データ10’として比較対照文書記憶部45に格納することによって、過去1年間において変化が顕著であった特徴表現12を比較することができる。
特徴表現抽出ルール決定部31’は、分類対象となる文書データ10から、高確率で遷移する品詞または形態素列を抽出し、分類対象文書内出現確率17を算出する。更に、比較対照文書データ10’からも高確率で遷移する品詞または形態素列を抽出し、比較対照文書内出現確率18を算出する。次に、分類対象文書内出現確率17と比較対照文書内出現確率18との比が、あらかじめ定められた閾値よりも高い品詞又は形態素列を特徴表現抽出ルール11として特徴表現抽出ルール記憶部42に出力する。
本実施の形態の動作を、図12から図13を参照して詳細に説明する。図12は、本発明による文書クラスタリング装置100の第2の実施の形態におけるクラスタリング処理の動作の流れ図である。
図12を参照して、ステップS12からS16における、特徴表現抽出部32、分類軸抽出部33、分類軸選択部34、関連表現決定部35、及びクラスタリング部36の動作は、図7に示す第1の実施の形態における特徴表現抽出部32、分類軸抽出部33、分類軸選択部34、関連表現決定部35、及びクラスタリング部36の動作と同一のため、説明は省略される。
ユーザは、入力装置1を操作して、対象文書記憶部41内の分類対象となる文書データ10を選択し、クラスタリングを開始する。特徴表現抽出ルール決定部31’は、分類対象文書記憶部41から分類対象となる文書データ10を読み出し、本文を形態素解析し、高確率で遷移する品詞または形態素列を特徴表現抽出ルール11として決定し、その結果を特徴表現抽出ルール記憶部42に格納する(ステップS21)。ステップS21における特徴表現抽出ルール決定部31’の特徴表現抽出ルール決定処理の動作は、図8(a)に示される第1の実施の形態における特徴表現抽出ルール決定部31の動作S111〜S115と同一のため、説明は省略される。
次に、特徴表現抽出ルール決定部3’は、比較対照文書記憶部45から比較対照文書データ10’を読み出し、本文を形態素解析し、高確率で遷移する品詞または形態素列を特徴表現抽出ルール11として決定する(ステップS22)。ステップS22における特徴表現抽出ルール決定部31’の特徴表現抽出ルール決定処理の動作は、図8(a)に示される第1の実施の形態における特徴表現抽出ルール決定部31の動作S111〜S115と同一のため、説明は省略される。
次に、特徴表現抽出ルール決定部31’は、分類対象となる文書データ10から特徴表現抽出ルール11を決定し、その分類対象文書内出現確率17を算出する。又、比較対照文書データ10’から特徴表現抽出ルール11を決定し、その比較対照文書内出現確率18を算出する。更に、同一の特徴表現抽出ルール11において、比較対照文書内出現確率18に対する分類対象文書内出現確率17の比が、あらかじめ定められた閾値α以上である特徴表現抽出ルール11を、特徴表現抽出ルール記憶部42に記憶させる(ステップS23)。この際、比較対照文書から決定される特徴表現抽出ルール11にない特徴表現抽出ルール11が、分類対象文書から決定される特徴表現抽出ルール11の中にある場合、その特徴表現抽出ルール11を記憶しても良い。特徴表現抽出ルール11の文書内出現確率とは、ある特徴表現抽出ルール11に該当する表現を含む文書数を、対象文書数で割ることで求められる。
図13を参照して、ルール1は、「[名詞−固有名詞−地域][名詞−サ変接続−料理]」、分類対象文書内出現確率17は7%、比較対照文書内出現確率18は5%であり、その出現確率比は、1.4となる。ルール2は、「[名詞−形容動詞語幹][助動詞−な][名詞−一般−雰囲気]」、分類対象文書内出現確率17は12%、比較対照文書内出現確率18は24%であり、その出現確率比は、0.5となる。同様にルール3は、「[名詞−一般][名詞−一般−焼酎]」、分類対象文書内出現確率17は10%、比較対照文書内出現確率18は0.2%であり、その出現確率比は、50となる。この際、例えば、閾値αが20である場合、特徴表現抽出ルール決定部31’は、出現確率比が20を超えるルール3「[名詞−一般][名詞−一般−焼酎]」を抽出し、特徴表現抽出ルール記憶部42に記憶する。
一例では、比較対照文書データ10’が、分類対象の文書データ10の1年前の文書データ10であった場合、この1年間で「芋焼酎」や「蕎麦焼酎」などを出す店が流行しており、それをあらわす特徴表現の抽出ルールが取り出せることを意味している。
尚、本実施の形態においては、比較対照文書データ10’が分類対象の文書データ10の1年前の文書データ10である場合が例示されたが、分類対象文書記憶部41に特定の地域のお店に関する紹介文を格納し、比較対照文書記憶部42にそれ以外の地域のお店に関する紹介文を格納することによって、特定の地域のお店に偏って存在する特徴表現12を抽出するルールを生成することが可能になるなど、本発明の実施の形態で述べた方法に限定されない。
本実施の形態では、比較対照文書と分類対象文書の差分に基づいた特徴表現抽出ルール11を生成することができる。このため、比較対照文書と分類対象文書の傾向の違いを反映したクラスタリングが可能となる。
以上のように、本発明による文書クラスタリング装置100は、分類対象文書中の各特徴表現12について、特徴表現12の長さ、特徴表現12を構成する品詞、分類対象文書内出現確率17のうちいずれか一つ以上の要素から分類軸スコア14を計算し、その分類軸スコア14に応じてランク付けした分類軸15を表示する。ユーザは、自動抽出した分類軸15から所望の分類軸15を選択して、文書の分類を実施することができため、ユーザ個々の目的に応じた文書のクラスタリングが可能となる。
又、分類対象となる文書データ10において高確率で遷移する形態素列を特徴表現抽出ルール11として用いて、あるいは、比較対照となる文書に対して顕著な偏りを持って出現する特徴表現抽出ルール11を用いて特徴表現12を抽出する。このため、分類対象の文書データ10の傾向に応じた特徴表現抽出ルール11を自動的に獲得でき、文書分類処理に要する労力や時間等のメンテナンスコストを削減できる。
従って、本発明による文書クラスタリング装置100は、様々な分野の文書データ10に応じたクラスタリングを容易に、且つ選択的に実施できる。
以上、本発明の実施の形態が詳述されたが、具体的な構成は上記実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の変更があっても本発明に含まれる。
図1は、本発明による文書クラスタリング装置の第1の実施の形態における構成を示すブロック図である。 図2は、本発明による文書データの実施の形態における一例である。 図3は、本発明による特徴表現抽出ルール記憶部の実施の形態における構成例である。 図4は、本発明による特徴表現記憶部の実施の形態における構成例である。 図5は、本発明による分類軸記憶部の実施の形態における構成例である。 図6は、本発明によるクラスタ記憶部の実施の形態における構成例である。 図7は、本発明による文書クラスタリング装置の第1の実施の形態におけるクラスタリング処理の動作の流れ図である。 図8(a)は、本発明による特徴表現抽出ルール決定部の、実施の形態における特徴表現抽出ルール決定処理の動作の流れ図である。図8(b)は、本発明による分類軸抽出部の、実施の形態における分類軸抽出処理の動作の流れ図である。 図9は、本発明による分類軸選択画面の第1の実施の形態における一例である。 図10は、本発明による分類軸及び関連表現選択画面の第1の実施の形態における一例である。 図11は、本発明による文書クラスタリング装置の第2の実施の形態における構成を示すブロック図である。 図12は、本発明による特徴表現抽出ルール決定部の、実施の形態における特徴表現抽出ルール決定処理の動作の流れ図である。 図13は、本発明による特徴表現抽出ルール記憶部の第2の実施の形態における構成例である。
符号の説明
100: 文書クラスタリング装置
1: 入力装置
2: 出力装置
3: データ処理装置
4: 記憶装置
30: クラスタリングプログラム
31、31’: 特徴表現抽出ルール決定部
32: 特徴表現抽出部
33: 分類軸抽出部
34: 分類軸選択部
35: 関連表現抽出部
36: クラスタリング部
37: CPU
38: RAM
41: 分類対象文書記憶部
42: 特徴表現抽出ルール記憶部
43: 特徴表現記憶部
44: 分類軸記憶部
45: クラスタ情報記憶部
10: 文書データ
11: 特徴表現抽出ルール
12: 特徴表現
13: 遷移スコア
14: 分類軸スコア
15: 分類軸
16: 関連表現
17: 分類対象文書内出現確率
18: 比較対照文書内出現確率

Claims (16)

  1. 分類対象である複数の文書を文書データとして保持する分類対象文書記憶部と、
    データ処理装置と
    を具備し、
    前記データ処理装置は、
    前記文書データの形態素解析を行ない、品詞情報を付与した形態素の抽象度が第1の閾値以上となるまで前記形態素を抽象化し、前記文書データにおいて連続して出現する2つの前記抽象化した形態素を、特徴表現抽出ルールとして決定する特徴表現抽出ルール決定部と、
    前記特徴表現抽出ルールに適合する自然語表現を、特徴表現として前記分類対象文書記憶部から抽出し、前記文書データ内の文書数に対する前記特徴表現が出現する文書数の割合を分類対象文書内出現確率として算出する特徴表現抽出部と、
    前記分類対象文書内出現確率を用いて前記特徴表現に対する分類軸スコアを算出し、前記分類軸スコアが第2の閾値以上である前記特徴表現を、前記文書データを分類するための分類軸として抽出する分類軸抽出部と
    を備え、
    前記品詞情報は、品詞レベルに応じた情報を含み、前記抽象度を増加させると、単語、品詞小分類、品詞中分類、品詞大分類の順で削除されることで、前記品詞情報を付与した形態素が抽象化され、
    前記分類軸スコアは、前記分類対象文書内出現確率に対し、前記特徴表現中の品詞情報に基づいて決定される値を乗じて算出される
    文書クラスタリング装置。
  2. 請求項1に記載の文書クラスタリング装置において、
    前記特徴表現抽出ルール決定部は、前記文書データにおいて連続して出現する2つの前記抽象化した形態素の遷移スコアが第3の閾値以上である前記2つの抽出化した形態素を、前記特徴表現抽出ルールとして決定し、
    前記遷移スコアは、出現確率×右方向遷移確率×左方向遷移確率で表され、
    前記出願確率は、前記2つの抽象化した形態素の前記文書データにおける出現頻度を、前記文書データ内のすべての2つの抽象した形態素の出現頻度の合計で割った値であり、
    前記右方向遷移確率は、前記2つの抽象化した形態素の先頭の形態素が単独で前記文書データに出現した回数に対する、前記2つの抽象化した形態素の出現頻度の割合であり、
    左方向遷移確率は、前記2つの抽象化した形態素の後方の形態素が単独で前記文書データに出現した回数に対する、前記2つの抽象化した形態素の出現頻度の割合である
    文書クラスタリング装置。
  3. 請求項1又は2に記載の文書クラスタリング装置において、
    前記分類軸抽出部は、前記分類対象文書内出現確率×名詞の数/前記特徴表現を構成する形態素数により、前記分類軸スコアを算出する
    文書クラスタリング装置。
  4. 請求項1又は2に記載の文書クラスタリング装置において、
    前記分類軸抽出部は前記分類対象文書内出現確率×前記特徴表現中の自立語の数/(前記特徴表現中の非自立語の数+1)により前記分類軸スコアを算出する
    文書クラスタリング装置。
  5. 請求項1又は2に記載の文書クラスタリング装置において、
    前記特徴表現が名詞で終わっている場合、δ=1、前記特徴表現が名詞以外の品詞で終わっている場合、δ=0とすると、
    前記分類軸抽出部は、前記分類対象文書内出現確率×δにより前記分類軸スコアを算出する
    文書クラスタリング装置。
  6. 請求項1から5のいずれか1項に記載の文書クラスタリング装置において、
    前記文書データと比較するための複数の文書を比較対照文書データとして保持する比較対照文書記憶部を更に具備し、
    前記特徴表現抽出ルール決定部は、
    前記比較対照文書データの形態素解析を行ない、品詞情報を付与した形態素の抽象度が前記第1の閾値以上となるまで前記形態素を抽象化し、前記比較対照文書データにおいて連続して出現する2つの前記抽象化した形態素を、第2特徴表現抽出ルールとして決定し、
    前記特徴表現抽出部は、前記第2特徴表現抽出ルールに適合する自然語表現を、第2特徴表現として前記比較対照文書記憶部から抽出し、前記比較対照文書データ内の文書数に対する前記第2特徴表現が出現する文書数の割合を比較対照文書内出現確率として算出し、
    前記分類軸抽出部は、前記特徴表現抽出ルールの前記分類対象文書内出現確率と、前記特徴表現抽出ルールと同一の第2特徴表現抽出ルールの前記比較対照文書内出現確率との比が第4の閾値以上である前記特徴表現抽出ルールの前記分類対象文書内出現確率を用いて、前記分類軸を抽出する
    文書クラスタリング装置。
  7. 請求項から6のいずれか1項に記載の文書クラスタリング装置において、
    前記分類軸を含む特徴表現を、前記分類軸に関連する関連表現としてする関連表現抽出部と、
    記分類軸を、関連する前記関連表現とともに表示する出力装置と
    を更に具備する
    文書クラスタリング装置。
  8. 請求項1から7のいずれか1項に記載の文書クラスタリング装置において、
    前記分類軸と前記分類軸スコアを対応付けて記憶する分類軸記憶部と、
    対応する前記分類軸スコアに応じた順で、前記分類軸スコアを視認可能に出力する出力装置と
    を更に具備する
    文書クラスタリング装置。
  9. コンピュータによって実行されるクラスタリング方法であって、
    複数の文書を含む文書データを形態素解析し、品詞情報を付与した形態素を抽出するステップと、
    抽象度が第1の閾値以上となるまで前記形態素を抽象化するステップと、
    前記文書データにおいて連続して出現する2つの前記抽象化した形態素を、特徴表現抽出ルールとして決定するステップと、
    前記特徴表現抽出ルールに適合する自然語表現を、特徴表現として前記分類対象文書記憶部から抽出するステップと、
    前記文書データ内の文書数に対する前記特徴表現が出現する文書数の割合を分類対象文書内出現確率として算出するステップと、
    前記分類対象文書内出現確率を用いて前記特徴表現に対する分類軸スコアを算出ステップと、
    前記分類軸スコアが第2の閾値以上である前記特徴表現を、前記文書データを分類するための分類軸として抽出するステップと
    を具備し、
    前記品詞情報は、品詞レベルに応じた情報を含み、前記抽象度を増加させると、単語、品詞小分類、品詞中分類、品詞大分類の順で削除されることで、前記品詞情報を付与した形態素が抽象化され、
    前記分類軸スコアは、前記分類対象文書内出現確率に対し、前記特徴表現中の品詞情報に基づいて決定される値を乗じて算出される
    クラスタリング方法。
  10. 請求項9に記載のクラスタリング方法であって、
    前記特徴表現抽出ルールを決定するステップは、
    前記文書データにおいて連続して出現する2つの前記抽象化した形態素の遷移スコアが第3の閾値以上である前記2つの抽出化した形態素を、前記特徴表現抽出ルールとして決定するステップを備え、
    前記遷移スコアは、出現確率×右方向遷移確率×左方向遷移確率で表され、
    前記出願確率は、前記2つの抽象化した形態素の前記文書データにおける出現頻度を、前記文書データ内のすべての2つの抽象した形態素の出現頻度の合計で割った値であり、
    前記右方向遷移確率は、前記2つの抽象化した形態素の先頭の形態素が単独で前記文書データに出現した回数に対する、前記2つの抽象化した形態素の出現頻度の割合であり、
    左方向遷移確率は、前記2つの抽象化した形態素の後方の形態素が単独で前記文書データに出現した回数に対する、前記2つの抽象化した形態素の出現頻度の割合である
    クラスタリング方法。
  11. 請求項9又は10に記載のクラスタリング方法であって、
    前記分類軸スコアを算出するステップは、前記分類対象文書内出現確率×名詞の数/前記特徴表現を構成する形態素数により、前記分類軸スコアを算出するステップを備える
    クラスタリング方法。
  12. 請求項9又は10に記載のクラスタリング方法であって、
    前記分類軸スコアを算出するステップは、前記分類対象文書内出現確率×前記特徴表現中の自立語の数/(前記特徴表現中の非自立語の数+1)により前記分類軸スコアを算出するステップを備える
    クラスタリング方法。
  13. 請求項9又は10に記載のクラスタリング方法において、
    前記特徴表現が名詞で終わっている場合、δ=1、前記特徴表現が名詞以外の品詞で終わっている場合、δ=0とすると、
    前記分類軸スコアを算出するステップは、前記分類対象文書内出現確率×δにより前記分類軸スコアを算出するステップを備える
    クラスタリング方法。
  14. 請求項9から13のいずれか1項に記載のクラスタリング方法において、
    比較対照文書データの形態素解析を行ない、品詞情報を付与した形態素の抽象度が前記第1の閾値以上となるまで前記形態素を抽象化するステップと、
    前記比較対照文書データにおいて連続して出現する2つの前記抽象化した形態素を、第2特徴表現抽出ルールとして決定するステップと、
    前記第2特徴表現抽出ルールに適合する自然語表現を、第2特徴表現として比較対照文書記憶部から抽出するステップと、
    前記比較対照文書データ内の文書数に対する前記第2特徴表現が出現する文書数の割合を比較対照文書内出現確率として算出するステップと、
    前記特徴表現抽出ルールの前記分類対象文書内出現確率と、前記特徴表現抽出ルールと同一の第2特徴表現抽出ルールの前記比較対照文書内出現確率との比が第4の閾値以上である前記特徴表現抽出ルールの前記分類対象文書内出現確率を用いて、前記分類軸を抽出するステップと
    を更に具備する
    クラスタリング方法。
  15. 請求項9から14のいずれか1項に記載のクラスタリング方法において、
    前記分類軸を含む特徴表現を、前記分類軸に関連する関連表現として抽出するステップと、
    前記分類軸を、関連する前記関連表現とともに表示するステップと
    を更に具備する
    クラスタリング方法。
  16. 請求項9から15のいずれか1項に記載のクラスタリング方法をコンピュータに実行させるクラスタリングプログラム。
JP2004328202A 2004-11-11 2004-11-11 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム Expired - Fee Related JP4671164B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004328202A JP4671164B2 (ja) 2004-11-11 2004-11-11 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004328202A JP4671164B2 (ja) 2004-11-11 2004-11-11 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Publications (2)

Publication Number Publication Date
JP2006139518A JP2006139518A (ja) 2006-06-01
JP4671164B2 true JP4671164B2 (ja) 2011-04-13

Family

ID=36620308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004328202A Expired - Fee Related JP4671164B2 (ja) 2004-11-11 2004-11-11 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

Country Status (1)

Country Link
JP (1) JP4671164B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4949012B2 (ja) * 2006-12-27 2012-06-06 富士通テン株式会社 説明文章選択装置、説明文章選択方法、説明文章解析装置および説明文章解析方法
WO2010013473A1 (ja) * 2008-07-30 2010-02-04 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
WO2010013472A1 (ja) 2008-07-30 2010-02-04 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
JP4745422B2 (ja) * 2009-05-29 2011-08-10 株式会社東芝 代表文抽出装置およびプログラム
JP5319829B1 (ja) * 2012-07-31 2013-10-16 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP6142617B2 (ja) * 2013-03-27 2017-06-07 大日本印刷株式会社 情報処理装置、情報処理方法及び情報処理用プログラム
WO2017158812A1 (ja) * 2016-03-18 2017-09-21 株式会社日立製作所 データ分類方法及びデータ分類装置
CN110612524B (zh) * 2017-06-16 2023-11-10 日铁系统集成株式会社 信息处理装置、信息处理方法以及记录介质
CN107862046B (zh) * 2017-11-07 2019-03-26 宁波爱信诺航天信息有限公司 一种基于短文本相似度的税务商品编码分类方法及系统
CN112487181B (zh) * 2019-09-12 2024-02-13 北京国双科技有限公司 关键词确定方法和相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060199A (ja) * 1999-08-20 2001-03-06 Toshiba Corp 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体
JP2001084250A (ja) * 1999-08-26 2001-03-30 Internatl Business Mach Corp <Ibm> 膨大な文書データからの知識抽出方法、その装置及び媒体
JP2001290826A (ja) * 2000-04-05 2001-10-19 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP2002140346A (ja) * 2000-10-31 2002-05-17 Mitsubishi Electric Corp テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体
JP2003304401A (ja) * 2002-04-09 2003-10-24 Canon Inc 画像符号化装置
JP2004240517A (ja) * 2003-02-03 2004-08-26 Toshiba Corp テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060199A (ja) * 1999-08-20 2001-03-06 Toshiba Corp 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体
JP2001084250A (ja) * 1999-08-26 2001-03-30 Internatl Business Mach Corp <Ibm> 膨大な文書データからの知識抽出方法、その装置及び媒体
JP2001290826A (ja) * 2000-04-05 2001-10-19 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP2002140346A (ja) * 2000-10-31 2002-05-17 Mitsubishi Electric Corp テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体
JP2003304401A (ja) * 2002-04-09 2003-10-24 Canon Inc 画像符号化装置
JP2004240517A (ja) * 2003-02-03 2004-08-26 Toshiba Corp テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム

Also Published As

Publication number Publication date
JP2006139518A (ja) 2006-06-01

Similar Documents

Publication Publication Date Title
Christian et al. Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF)
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US9594747B2 (en) Generation of a semantic model from textual listings
US7587420B2 (en) System and method for question answering document retrieval
US20100169317A1 (en) Product or Service Review Summarization Using Attributes
US7493252B1 (en) Method and system to analyze data
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
US20110055228A1 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
JP4671164B2 (ja) 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP2014106665A (ja) 文書検索装置、文書検索方法
CN109298796B (zh) 一种词联想方法及装置
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP5737079B2 (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP2002175330A (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JP4525433B2 (ja) 文書集約装置及びプログラム
JP2000259653A (ja) 音声認識装置及び音声認識方法
JP2009129176A (ja) 構造化文書検索装置、方法およびプログラム
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP2004258723A (ja) 話題抽出装置、話題抽出方法およびプログラム
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2018156552A (ja) 計算機システム及び文章データの検索方法
CN112597295A (zh) 摘要提取方法、装置、计算机设备和存储介质
JPH09128402A (ja) 文書類似度計算装置および文書分類装置
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
JP3444223B2 (ja) データベース登録装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101227

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Ref document number: 4671164

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees