JP4967705B2 - クラスタ生成装置およびクラスタ生成プログラム - Google Patents

クラスタ生成装置およびクラスタ生成プログラム Download PDF

Info

Publication number
JP4967705B2
JP4967705B2 JP2007042519A JP2007042519A JP4967705B2 JP 4967705 B2 JP4967705 B2 JP 4967705B2 JP 2007042519 A JP2007042519 A JP 2007042519A JP 2007042519 A JP2007042519 A JP 2007042519A JP 4967705 B2 JP4967705 B2 JP 4967705B2
Authority
JP
Japan
Prior art keywords
cluster
clusters
dividing
documents
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007042519A
Other languages
English (en)
Other versions
JP2008204374A (ja
Inventor
基文 福井
仁 池田
隼一 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2007042519A priority Critical patent/JP4967705B2/ja
Publication of JP2008204374A publication Critical patent/JP2008204374A/ja
Application granted granted Critical
Publication of JP4967705B2 publication Critical patent/JP4967705B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クラスタ生成装置およびクラスタ生成プログラムに関する。
文書群を複数のクラスタに分類するクラスタリング技術がある(例えば、特許文献1〜6参照)。クラスタリング技術の一つとして、階層型クラスタリング法がある。
特開2003−345811号公報 特開2005−063157号公報 特開2002−183171号公報 特開2001−306594号公報 特開2000−305950号公報 特開2001−092841号公報
文書群がクラスタリングされて得られるクラスタ群のクラスタ数を簡単に増やすことが可能なクラスタ生成装置またはクラスタ生成プログラムを提供することを目的とする。
本発明に係るクラスタ生成装置は、文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得するクラスタ取得手段と、分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成するクラスタ生成手段と、を有し、前記分割処理は、前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、前記第2の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、ことを特徴とする。
また、本発明に係るクラスタ生成装置は、文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する第1のクラスタ生成手段と、前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する第2のクラスタ生成手段と、を有し、前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、前記分割処理は、前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、前記第2の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、ことを特徴とする。
本発明の一態様では、前記2つのクラスタに分割する処理では、前記第2の度合い値のうち最大のものに対応するクラスタを分割する。
また、本発明の一態様では、前記分割処理は、前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理をさらに含み、前記2つのクラスタに分割する処理では、前記第1および第2の度合い値に基づいて分割を行う。
また、本発明の一態様では、前記2つのクラスタに分割する処理は、前記処理対象の複数のクラスタの各々について、前記第1の度合い値の最大値と前記第2の度合い値の最大値との和を算出する処理と、前記算出された和のうち最大のものに対応するクラスタを分割する処理と、を含む。
また、本発明に係るクラスタ生成装置は、文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得するクラスタ取得手段と、分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成するクラスタ生成手段と、を有し、前記分割処理は、前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、前記第1の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、ことを特徴とする。
また、本発明に係るクラスタ生成装置は、文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する第1のクラスタ生成手段と、前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する第2のクラスタ生成手段と、を有し、前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、前記分割処理は、前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、前記第1の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、ことを特徴とする。
本発明の一態様では、前記2つのクラスタに分割する処理では、前記第1の度合い値のうち最大のものに対応するクラスタを分割する。
また、本発明の一態様では、前記所定のクラスタリング処理は、単位クラスタリング処理を(K’−1)回行って、前記文書群から(K’−1)個のクラスタを生成する処理と、前記文書群のうち前記(K’−1)個のクラスタの何れにも属していない文書群を1個のクラスタとする処理と、を含み、前記単位クラスタリング処理は、前記文書群のうち未だ何れのクラスタにも属していない文書を未分類文書と呼ぶとき、前記文書群に属する各文書から抽出されるキーワードのうち最も多くの未分類文書に含まれるキーワードを含む未分類文書の集合を新たなクラスタとする処理である。
また、本発明の一態様では、前記所定のクラスタリング処理は、単位クラスタリング処理をK’回行って、前記文書群からK’個のクラスタを生成する処理と、前記文書群のうち前記K’個のクラスタの何れにも属していない各文書を前記K’個のクラスタに分類する処理と、を含み、前記単位クラスタリング処理は、前記文書群のうち未だ何れのクラスタにも属していない文書を未分類文書と呼ぶとき、前記文書群に属する各文書から抽出されるキーワードのうち最も多くの未分類文書に含まれるキーワードを含む未分類文書の集合を新たなクラスタとする処理である。
本発明に係るクラスタ生成プログラムは、コンピュータに、文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得する手順と、分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成する手順と、を実行させ、前記分割処理は、前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、前記第2の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、ことを特徴とする。
また、本発明に係るクラスタ生成プログラムは、コンピュータに、文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する手順と、前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する手順と、を実行させ、前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、前記分割処理は、前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、前記第2の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、ことを特徴とする。
また、本発明に係るクラスタ生成プログラムは、コンピュータに、文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得する手順と、分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成する手順と、を実行させ、前記分割処理は、前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、前記第1の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、ことを特徴とする。
また、本発明に係るクラスタ生成プログラムは、コンピュータに、文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する手順と、前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する手順と、を実行させ、前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、前記分割処理は、前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、前記第1の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、ことを特徴とする。
請求項1に記載の発明によれば、文書群がクラスタリングされて得られるクラスタ群のクラスタ数を簡単に増やすことが可能となる。
請求項2に記載の発明によれば、文書群を所定のクラスタリング処理によりクラスタリングした際、生成されたクラスタ数が予め指定されたクラスタ数に満たない場合であっても、生成されたクラスタを分割し、予め指定されたクラスタ数のクラスタを得ることが可能となる。
請求項3に記載の発明によれば、第2の度合い値に応じた妥当性の高いクラスタの分割を行うことが可能となる。
請求項4に記載の発明によれば、第1および第2の度合い値に基づくクラスタの分割を行うことが可能となる。
請求項5に記載の発明によれば、第1および第2の度合い値に応じた妥当性の高いクラスタの分割を行うことが可能となる。
請求項6に記載の発明によれば、文書群がクラスタリングされて得られるクラスタ群のクラスタ数を簡単に増やすことが可能となる。
請求項7に記載の発明によれば、文書群を所定のクラスタリング処理によりクラスタリングした際、生成されたクラスタ数が予め指定されたクラスタ数に満たない場合であっても、生成されたクラスタを分割し、予め指定されたクラスタ数のクラスタを得ることが可能となる。
請求項8に記載の発明によれば、第1の度合い値に応じた妥当性の高いクラスタの分割を行うことが可能となる。
請求項9に記載の発明によれば、文書群を少ない計算量でクラスタリングすることが可能となる。
請求項10に記載の発明によれば、文書群を少ない計算量でクラスタリングすることが可能となる。
請求項11に記載の発明によれば、文書群がクラスタリングされて得られるクラスタ群のクラスタ数を簡単に増やすことが可能となる。
請求項12に記載の発明によれば、文書群を所定のクラスタリング処理によりクラスタリングした際、生成されたクラスタ数が予め指定されたクラスタ数に満たない場合であっても、生成されたクラスタを分割し、予め指定されたクラスタ数のクラスタを得ることが可能となる。
請求項13に記載の発明によれば、文書群がクラスタリングされて得られるクラスタ群のクラスタ数を簡単に増やすことが可能となる。
請求項14に記載の発明によれば、文書群を所定のクラスタリング処理によりクラスタリングした際、生成されたクラスタ数が予め指定されたクラスタ数に満たない場合であっても、生成されたクラスタを分割し、予め指定されたクラスタ数のクラスタを得ることが可能となる。
以下、本発明の実施の形態を図面に従って説明する。
[第1の実施の形態]
図1は、第1の実施の形態に係るクラスタ生成装置10の構成の一例を示すブロック図である。図1において、クラスタ生成装置10は、クラスタ取得部11とクラスタ生成部12とを有する。
クラスタ取得部11は、文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得する。ここで、上記文書群は、分類対象である複数の文書の集合である。文書としては、例えば、特許文献、論文、またはWebページなどの文書が挙げられる。また、タグ文書等として撮影者や撮影条件等の文字文書が一体とされる画像ファイルもこの文書の一例として挙げられる。上記クラスタリングは、本実施の形態では、後述するキーワードの有無に基づく分類である。ただし、上記K’個のクラスタは、階層型クラスタリングなど、他の分類手法により得られたものであってもよい。上記クラスタは、文書群がクラスタリングされて得られる文書の集合である。
クラスタ生成部12は、分割処理を行って、クラスタ取得部11により取得されたK’個のクラスタから(K’+1)個のクラスタを生成する。
以下、上記分割処理の第1〜第3の例を説明する。以下の説明では、上記文書群から抽出されたキーワード、すなわち上記文書群に属する各文書から抽出されたキーワードを、キーワードKW(i=1,2,・・・,M)と表す。ここで、i≠jであれば、KW≠KWである。
図2は、分割処理の第1の例を示すフローチャートである。図3は、分割処理の第1の例を示す概念図である。以下、図2,3を参照して、分割処理の第1の例を説明する。
図2において、分割処理は、処理S11〜S13を含む。図3において、上記K’個のクラスタは、クラスタC(k=1,2,・・・,K’)と表されている。
処理S11では、クラスタ生成部12は、K’個のクラスタCの各々を、分割用キーワードを含む文書の集合である第1のクラスタC1と、上記分割用キーワードを含まない文書の集合である第2のクラスタC2とに仮想的に分割する。
ここで、上記のクラスタCを仮想的に分割するための分割用キーワードは、当該クラスタCに含まれるキーワードのうち、当該クラスタC内の全ての文書に含まれるキーワードを除く、当該クラスタC内の最も多くの文書に含まれるキーワードである。例えば、クラスタ生成部12は、クラスタCに含まれるキーワードの各々について、当該キーワードが当該クラスタC内の何個の文書に出現するかを計数する。そして、クラスタ生成部12は、計数された個数が当該クラスタC内の文書の個数と一致するキーワードを除き、計数された個数が最大であるキーワードを分割用キーワードに決定する。
処理S12では、クラスタ生成部12は、上記第2のクラスタC2(k=1,2,・・・,K’)の各々について、当該第2のクラスタC2に含まれる各キーワードKWの、当該第2のクラスタC2の特徴を表す度合いを示す第2の度合い値S2(k,i)を算出する。ここで、第2の度合い値S2(k,i)は、当該キーワードKWが当該第2のクラスタC2の特徴をどの程度表しているかを示す値であり、クラスタC2におけるキーワードKWのスコアとも呼ばれる。本実施の形態では、第2の度合い値S2(k,i)は、下記式(1)により算出される。
Figure 0004967705
ここで、F2(k,i)は、第2のクラスタC2に属する文書の中でキーワードKWを含む文書の数を第2のクラスタC2に属する文書の総数で除したものである。また、F1(k,i)は、第1のクラスタC1に属する文書の中でキーワードKWを含む文書の数を第1のクラスタC1に属する文書の総数で除したものである。また、F(j,i)は、クラスタC(1≦j≦K’かつj≠k)に属する文書の中でキーワードKWを含む文書の数をクラスタCに属する文書の総数で除したものである。また、Πの項は、数列(1.0−F(j,i))(j=1,2,・・・,K’、j≠k)の積を意味する。
ただし、第2の度合い値S2(k,i)は、TF/IDF(Term Frequency / Inverse Document Frequency)やエントロピーなどを利用した他の算出方法により算出されてもよい。
以下の説明では、第2のクラスタC2における第2の度合い値S2(k,i)の最大値を当該第2のクラスタC2の特徴語スコアと称し、当該特徴語スコアを与えるキーワードを当該第2のクラスタC2の特徴語と称する。クラスタにおける特徴語は、例えば、当該クラスタには高頻度で出現して、他のクラスタには殆ど出現しないキーワードである。
処理S13では、クラスタ生成部12は、上記処理S12で算出された第2の度合い値S2(k,i)に基づき、K’個のクラスタC(k=1,2,・・・,K’)のうち1個のクラスタを、上記処理S11で仮想的に分割した通りに2つのクラスタに分割する。本実施の形態では、クラスタ生成部12は、上記処理S12で算出された第2の度合い値S2(k,i)のうち最大のものに対応するクラスタを分割する。具体的には、クラスタ生成部12は、K’個の第2のクラスタC2の特徴語スコアを比較し、最大の特徴語スコアを持つ第2のクラスタC2kmax(1≦kmax≦K’)を特定し、当該特定された第2のクラスタC2kmaxの元のクラスタCkmaxを分割する。図3の例では、kmax=3であり、クラスタCが分割されている。
図4は、分割処理の第2の例を示すフローチャートである。図5は、分割処理の第2の例を示す概念図である。以下、図4,5を参照して、分割処理の第2の例を説明する。
図4において、分割処理は、処理S21〜S24を含む。図5において、上記K’個のクラスタは、クラスタC(k=1,2,・・・,K’)と表されている。
処理S21では、クラスタ生成部12は、上記第1の例の処理S11と同様に、K’個のクラスタCの各々を、分割用キーワードを含む文書の集合である第1のクラスタC1と、上記分割用キーワードを含まない文書の集合である第2のクラスタC2とに仮想的に分割する。
処理S22では、クラスタ生成部12は、上記第1の例の処理S12と同様に、上記第2のクラスタC2(k=1,2,・・・,K’)の各々について、当該第2のクラスタC2に含まれる各キーワードKWの、当該第2のクラスタC2の特徴を表す度合いを示す第2の度合い値S2(k,i)を算出する。
処理S23では、クラスタ生成部12は、上記第1のクラスタC1(k=1,2,・・・,K’)の各々について、当該第1のクラスタC1に含まれる各キーワードKWの、当該第1のクラスタC1の特徴を表す度合いを示す第1の度合い値S1(k,i)を算出する。ここで、第1の度合い値S1(k,i)は、当該キーワードKWが当該第1のクラスタC1の特徴をどの程度表しているかを示す値であり、クラスタC1におけるキーワードKWのスコアとも呼ばれる。本実施の形態では、第1の度合い値S1(k,i)は、下記式(2)により算出される。
Figure 0004967705
ここで、F1(k,i)は、第1のクラスタC1に属する文書の中でキーワードKWを含む文書の数を第1のクラスタC1に属する文書の総数で除したものである。また、F2(k,i)は、第2のクラスタC2に属する文書の中でキーワードKWを含む文書の数を第2のクラスタC2に属する文書の総数で除したものである。また、F(j,i)は、クラスタC(1≦j≦K’かつj≠k)に属する文書の中でキーワードKWを含む文書の数をクラスタCに属する文書の総数で除したものである。また、Πの項は、数列(1.0−F(j,i))(j=1,2,・・・,K’、j≠k)の積を意味する。
ただし、第1の度合い値S1(k,i)は、TF/IDFやエントロピーなどを利用した他の算出方法により算出されてもよい。
以下の説明では、第1のクラスタC1における第1の度合い値S1(k,i)の最大値を当該第1のクラスタC1の特徴語スコアと称し、当該特徴語スコアを与えるキーワードを当該第1のクラスタC1の特徴語と称する。
処理S24では、クラスタ生成部12は、上記算出された第2の度合い値S2(k,i)および第1の度合い値S1(k,i)に基づき、K’個のクラスタC(k=1,2,・・・,K’)のうち1個のクラスタを、上記処理S21で仮想的に分割した通りに2つのクラスタに分割する。本実施の形態では、クラスタ生成部12は、処理対象の複数のクラスタであるK’個のクラスタCの各々について、第1の度合い値の最大値(すなわち第1のクラスタの特徴語スコア)と第2の度合い値の最大値(すなわち第2のクラスタの特徴語スコア)との和Sを算出し、算出された和Sのうち最大のものに対応するクラスタを分割する。具体的には、クラスタ生成部12は、K’個の和Sを比較し、最大の和Skmax(1≦kmax≦K’)を持つクラスタCkmaxを特定し、当該クラスタCkmaxを分割する。図5の例では、kmax=3であり、クラスタCが分割されている。
図6は、分割処理の第3の例を示すフローチャートである。図7は、分割処理の第3の例を示す概念図である。以下、図6,7を参照して、分割処理の第3の例を説明する。
図6において、分割処理は、処理S31〜S33を含む。図7において、上記K’個のクラスタは、クラスタC(k=1,2,・・・,K’)と表されている。
処理S31では、クラスタ生成部12は、上記第1の例の処理S11と同様に、K’個のクラスタCの各々を、分割用キーワードを含む文書の集合である第1のクラスタC1と、上記分割用キーワードを含まない文書の集合である第2のクラスタC2とに仮想的に分割する。
処理S32では、クラスタ生成部12は、上記第2の例の処理S23と同様に、上記第1のクラスタC1(k=1,2,・・・,K’)の各々について、当該第1のクラスタC1に含まれる各キーワードKWの、当該第1のクラスタC1の特徴を表す度合いを示す第1の度合い値S1(k,i)を算出する。
処理S33では、クラスタ生成部12は、上記処理S32で算出された第1の度合い値S1(k,i)に基づき、K’個のクラスタC(k=1,2,・・・,K’)のうち1個のクラスタを、上記処理S31で仮想的に分割した通りに2つのクラスタに分割する。本実施の形態では、クラスタ生成部12は、上記処理S32で算出された第1の度合い値S1(k,i)のうち最大のものに対応するクラスタを分割する。具体的には、クラスタ生成部12は、K’個の第1のクラスタC1の特徴語スコアを比較し、最大の特徴語スコアを持つ第1のクラスタC1kmax(1≦kmax≦K’)を特定し、当該特定された第1のクラスタC1kmaxの元のクラスタCkmaxを分割する。図7の例では、kmax=3であり、クラスタCが分割されている。
なお、本実施の形態において、クラスタ生成装置10は、関連語辞書(シソーラス)を用いて、互いに同義である2つのキーワード、互いに類義である2つのキーワード、または互いに関連する2つのキーワードを、互いに同一のキーワードとみなして上記の処理を行ってもよい。
[第2の実施の形態]
図8は、第2の実施の形態に係るクラスタ生成装置20の構成の一例を示すブロック図である。図8において、クラスタ生成装置20は、文書群取得部21、キーワード取得部22、第1のクラスタ生成部23、第2のクラスタ生成部24、スコア算出部25、および出力部26を有する。
文書群取得部21は、処理対象となる元の文書群を取得する。元の文書群に属する文書としては、例えば、特許文献、論文、またはWebページなどの文書が挙げられる。文書群取得部21は、キーワード検索などによりWeb上から文書を収集してもよいし、予めデータベースに蓄えられている文書を取得してもよい。以下、元の文書群に属する文書をP(i=1,2,・・・,N)とする。Nは元の文書群に属する文書の数である。
キーワード取得部22は、上記元の文書群に属する各文書から抽出されるキーワードを取得する。キーワード取得部22は、上記元の文書群の各文書からキーワードを抽出してもよいし、別の装置やモジュールによって抽出されたキーワードを受け取ってもよい。ここで、キーワードは、例えば文書の内容を反映する語句であり、例えば形態素解析などで抽出される文書中に出現する単語である。なお、本実施の形態においても、クラスタ生成装置20は、関連語辞書を用いて、互いに同義である2つのキーワード、互いに類義である2つのキーワード、または互いに関連する2つのキーワードを、互いに同一のキーワードとみなして処理を行ってもよい。
第1のクラスタ生成部23は、上記取得されたキーワードに基づき、上記元の文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する。本実施の形態では、クラスタ生成装置20は、ユーザから上記クラスタ数Kの指定を受け付ける。ただし、上記クラスタ数Kは、クラスタ生成装置20により決定されてもよいし、固定的に決められた値であってもよい。なお、上記所定のクラスタリング処理については、後に詳しく説明する。
第2のクラスタ生成部24は、上記生成されたクラスタの個数K’が上記予め指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、上記K’個のクラスタからK個のクラスタを生成する。当該第2のクラスタ生成部24による分割処理については、後に詳しく説明する。
スコア算出部25は、第1のクラスタ生成部23または第2のクラスタ生成部24により生成されたK個のクラスタの各々について、当該クラスタにおける各キーワードのスコアを算出し、算出結果に基づいて当該クラスタにおける特徴語および特徴語スコアを求める。このスコア算出部25の処理については、後に詳しく説明する。
出力部26は、上記クラスタ生成処理やスコア算出部25による処理の結果を出力する。例えば、出力部26は、各クラスタに属する文書、各クラスタに属する文書の数、各クラスタの特徴語、各クラスタの特徴語スコアを出力する。出力部26は、上記結果を、表示装置に表示させてもよいし、印刷装置に印刷させてもよいし、記憶装置に記憶させてもよい。
なお、上記クラスタ生成装置20の各部の処理結果は、例えば、当該装置20の内部または外部の不図示の記憶部に記憶され、当該記憶部の内容は、上記各部の処理に用いられる。
図9は、第2の実施の形態に係るクラスタ生成装置20の動作手順の一例を示すフローチャートである。以下、図9を参照して、クラスタ生成装置20の動作を説明する。
クラスタ生成装置20は、処理対象となる元の文書群を取得する(S41)。
ついで、クラスタ生成装置20は、上記取得された元の文書群に属する各文書から抽出されるキーワードを取得する(S42)。
ついで、クラスタ生成装置20は、上記取得されたキーワードに基づき、所定のクラスタリング処理により上記元の文書群をクラスタリングしてK’個のクラスタを生成する(S43)。
ついで、クラスタ生成装置20は、上記生成されたクラスタ数K’が予め指定されたクラスタ数Kと一致するか否かを判断する(S44)。
一致すると判断された場合(S44:YES)、処理はステップS46に進む。
一方、一致しないと判断された場合(S44:NO)、すなわち生成されたクラスタの個数が予め指定されたクラスタ数Kに満たない場合、クラスタ生成装置20は、クラスタ数を1つ増加させる分割処理を行い(S45)、処理をステップS44に戻す。
上記ステップS45において、1回目の分割処理では、ステップS43で生成されたK’個のクラスタが処理対象とされ、n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされる。
したがって、上記ステップS43で生成されたクラスタの個数K’が予め指定されたクラスタ数Kに満たなかった場合には、ステップS45の分割処理が(K−K’)回実行され、K個のクラスタが生成された後に、処理がステップS46に進む。
ステップS46では、クラスタ生成装置20は、上記生成されたK個のクラスタの各々について、当該クラスタにおける各キーワードのスコアを算出し、算出結果に基づいて当該クラスタにおける特徴語および特徴語スコアを求める。
具体的には、クラスタ生成装置20は、下記式(3)により、K個のクラスタC(i=1,2,・・・,K)の各々について、当該クラスタCにおける各キーワードKW(j=1,2,・・・,M)のスコアS(i,j)を算出する。
Figure 0004967705
ここで、F(i,j)は、クラスタCに属する文書のうちキーワードKWを含む文書の数をクラスタCに属する文書の総数で除したものである。すなわち、F(i,j)は、クラスタCの中に含まれる文書で、キーワードKWを含むものの割合である。また、Πの項は、数列(1.0−F(k,j))(k=1,2,・・・,K、k≠i)の積を意味する。
ただし、スコアS(i,j)は、TF/IDFやエントロピーなどを利用した他の算出方法により算出されてもよい。
そして、クラスタ生成装置20は、K個のクラスタC(i=1,2,・・・,K)の各々について、当該クラスタCにおけるスコアS(i,j)の最大値S(i,jmax)を特徴語スコアとし、これを与えるキーワードKWjmaxを特徴語とする。
ついで、クラスタ生成装置20は、各クラスタの特徴語や特徴語スコアなど、上記処理の結果を出力する(S47)。
以下、上記キーワード取得部22の処理、上記第1のクラスタ生成部23によるクラスタリング処理、および上記第2のクラスタ生成部24による分割処理について、具体的に説明する。なお、以下の説明において、各変数の値は不図示の記憶部に記憶されるものとする。
(キーワード取得部22の処理)
キーワード取得部22は、元の文書群に属する各文書から抽出されるキーワードを取得し、取得されたキーワードを変数KW(i=1,2,・・・,M)に代入する。ここで、Mはキーワードの総数であり、キーワードKWに重複はない。すなわち、i≠jであれば、KW≠KWである。ここで、キーワード取得部22は、上記キーワード群KWを作成する際に、事前に関連語辞書(シソーラス)などでキーワードをまとめる処理を実施してもよい。
ついで、キーワード取得部22は、各キーワードKWの出現回数をカウントする。本実施の形態では、キーワードの出現回数は、元の文書群に属する文書のうち当該キーワードを含む文書の数である。したがって、あるキーワードKWが元の文書群のうちn個の文書に出現する場合、当該キーワードKWの出現回数はnとされる。
ついで、キーワード取得部22は、キーワード群を出現回数が大きい順に並べ替え(ソート)し、ソート後のキーワード群を新たに変数KW(i=1,2,・・・,M)に代入する。ソート後、キーワード取得部22は、各キーワードKWの出現回数を、変数F(i=1,2,・・・,M)に代入する。このとき、i<jであれば、N≧F≧F≧1となる。
(第1のクラスタ生成部23によるクラスタリング処理)
図10は、第1のクラスタ生成部23によるクラスタリング処理の第1の例を示すフローチャートである。図10において、クラスタリング処理は、処理S51と処理S52とを含む。
処理S51では、第1のクラスタ生成部23は、単位クラスタリング処理を(K’−1)回行って、元の文書群から(K’−1)個のクラスタC〜CK’−1を生成する。
ここで、上記単位クラスタリング処理は、元の文書群のうち未だ何れのクラスタにも属していない文書を未分類文書と呼ぶとき、元の文書群に属する各文書から取得されるキーワードのうち最も多くの未分類文書に含まれるキーワードを含む未分類文書の集合を新たなクラスタとする処理である。
例えば、1回目の単位クラスタリング処理では、第1のクラスタ生成部23は、元の文書群に属する全文書を未分類文書とし、キーワードKWのうち最も多くの未分類文書に出現するキーワードを特定し、当該キーワードを含む未分類文書の集合を新たなクラスタCとする。ついで、2回目の単位クラスタリング処理では、第1のクラスタ生成部23は、元の文書群に属する文書のうちクラスタCに属するもの以外を未分類文書とし、キーワードKWのうち最も多くの未分類文書に出現するキーワードを特定し、当該キーワードを含む未分類文書の集合を新たなクラスタCとする。以後同様に、k回目の単位クラスタリング処理では、第1のクラスタ生成部23は、元の文書群に属する文書のうちクラスタC〜Ck−1の何れかに属するもの以外を未分類文書とし、キーワードKWのうち最も多くの未分類文書に出現するキーワードを特定し、当該キーワードを含む未分類文書の集合を新たなクラスタCとする。
第1のクラスタ生成部23は、所定の終了条件が満たされるまで上記単位クラスタリング処理を繰り返し行い、結果的に(K’−1)個のクラスタC〜CK’−1を生成する。ここで、上記所定の終了条件には、
(a)(K−1)個のクラスタが生成されたこと
(b)未分類文書がなくなったこと
があり、第1のクラスタ生成部23は、上記条件(a)または(b)のいずれかが満たされると単位クラスタリング処理の繰り返しを停止させる。
第1のクラスタ生成部23は、上記終了条件(a)、(b)、または所定の停止条件のいずれかが満たされたときに単位クラスタリング処理の繰り返しを停止させてもよい。所定の停止条件としては、例えば、最も多くの未分類文書に含まれるキーワードを含む未分類文書の数が所定の閾値より少ないことや、未分類文書の総数が所定の閾値より少なくなったことなどが挙げられる。所定の停止条件は、クラスタ生成処理の際にユーザに指定されてもよいし、予め固定的に設定されていてもよい。
処理S52では、第1のクラスタ生成部23は、元の文書群のうち処理S51で生成された(K’−1)個のクラスタC〜CK’−1の何れにも属していない文書の集合を新たな1個のクラスタCK’とする。
図11は、クラスタリング処理の第1の例の具体的な処理例を示すフローチャートである。
ステップS61では、変数の初期化処理を行う。この初期化処理では、k=1,P_id=0(j=1,2,・・・,M)とされる。ここで、変数P_idの値は、文書Pが属するクラスタのクラスタ番号を示し、P_id=0は文書Pが未分類文書であることを示す。
ステップS62では、M個のキーワードKW(i=1,2,・・・,M)のうち出現回数Fが最も大きいキーワードを選択し、当該キーワードをKWimaxとする。
ステップS63では、変数jに1を代入する。
ステップS64では、文書PがキーワードKWimaxを含み、かつP_id=0であれば、変数P_idに変数kの値を代入する。すなわち、文書PがキーワードKWimaxを含み、かつ文書Pが未分類文書であれば、当該文書Pをk番目のクラスタCに属させる。
ステップS65では、変数jの値に1を加える。
ステップS66では、変数jが文書数Nより大きいか否かを判断し、大きくなければステップS64に戻り、大きければステップS67に進む。すなわち、文書群に属する全ての文書P(j=1,2,・・・,N)について、ステップS64の処理が繰り返し行われる。これにより、キーワードKWimaxを含む全ての未分類文書がクラスタCに分類される。
ステップS67では、変数iに1を代入し、変数jに1を代入する。
ステップS68では、文書PがクラスタCに属するか否かを判断し、すなわちP_id=kか否かを判断し、属する場合にはステップS69に進み、属さない場合にはステップS73に進む。
ステップS69では、キーワードKWが文書Pに含まれるか否かを判断し、含まれる場合にはステップS70に進み、含まれない場合にはステップS71に進む。
ステップS70では、変数Fの値から1を引く。すなわち、文書PがクラスタCに属し、当該文書PにキーワードKWが存在すれば、出現回数Fを1引く。
ステップS71では、変数iの値に1を加える。
ステップS72では、変数iがキーワード数Mより大きいか否かを判断し、大きくなければステップS69に戻り、大きければステップS73に進む。すなわち、全てのキーワードKW(i=1,2,・・・,M)について、ステップS69,S70の処理が繰り返し行われる。
ステップS73では、変数iに1を代入し、変数jの値に1を加える。
ステップS74では、変数jが文書数Nより大きいか否かを判断し、大きくなければステップS68に戻り、大きければステップS75に進む。すなわち、全ての文書P(j=1,2,・・・,N)について、ステップS68〜S73の処理が繰り返し行われる。これにより、元の文書群のうち未だ何れのクラスタにも属していない未分類文書の集合における、各キーワードKW(i=1,2,・・・,M)の出現回数Fが生成されることになる。なお、この処理の結果、Fは0となり得る。
ステップS75では、変数kの値に1を加える。
ステップS76では、変数kが(K−1)より大きいか否かを判断し、大きくなければステップS77に進み、大きければステップS78に進む。すなわち、生成されたクラスタ数が(K−1)個に達していなければステップS77に進み、達していればステップS78に進む。
ステップS77では、P_id(j=1,2,・・・,N)の値に基づき、未分類文書が存在するか否かを判断し、存在すればステップS62に戻り、存在しなければ処理を終了させる。
したがって、ステップS62〜S75の処理は、(K−1)個のクラスタが作成されるまで、または未分類文書がなくなるまで、繰り返し行われる。
ステップS78では、j=1,2,・・・,Nの各々について、P_id=0であれば、変数P_idにKを代入する。すなわち、全ての未分類文書の集合をK番目のクラスタCとする。
なお、先述したとおり、所定の停止条件が満たされたとき、ステップS62〜S75の処理の繰り返しを停止させてもよい。この場合、停止時点で1〜k番目のクラスタC〜Cが作成されていれば、未分類文書の集合は(k+1)番目のクラスタCk+1とされる。
図12は、第1のクラスタ生成部23によるクラスタリング処理の第2の例を示すフローチャートである。図12において、クラスタリング処理は、処理S81と処理S82とを含む。
処理S81では、第1のクラスタ生成部23は、単位クラスタリング処理をK’回行って、元の文書群からK’個のクラスタC〜CK’を生成する。
ここで、上記単位クラスタリング処理は、上記第1の例と同様に、元の文書群のうち未だ何れのクラスタにも属していない文書を未分類文書と呼ぶとき、元の文書群に属する各文書から取得されるキーワードのうち最も多くの未分類文書に含まれるキーワードを含む未分類文書の集合を新たなクラスタとする処理である。
第1のクラスタ生成部23は、所定の終了条件が満たされるまで上記単位クラスタリング処理を繰り返し行い、結果的にK’個のクラスタC〜CK’を生成する。ここで、上記所定の終了条件には、
(a)K個のクラスタが生成されたこと
(b)未分類文書がなくなったこと
があり、第1のクラスタ生成部23は、上記条件(a)または(b)のいずれかが満たされると単位クラスタリング処理の繰り返しを停止させる。
第1のクラスタ生成部23は、上記終了条件(a)、(b)、または所定の停止条件のいずれかが満たされたときに単位クラスタリング処理の繰り返しを停止させてもよい。所定の停止条件としては、例えば、最も多くの未分類文書に含まれるキーワードを含む未分類文書の数が所定の閾値より少ないことや、未分類文書の総数が所定の閾値より少なくなったことなどが挙げられる。所定の停止条件は、クラスタ生成処理の際にユーザに指定されてもよいし、予め固定的に設定されていてもよい。
処理S82では、第1のクラスタ生成部23は、元の文書群のうち処理S81で生成されたK’個のクラスタC〜CK’の何れにも属していない各文書を上記K’個のクラスタC〜CK’に分類する。
本実施の形態では、第1のクラスタ生成部23は、何れのクラスタにも属していない文書Pと、生成されたクラスタC(k=1,2,・・・,K’)との距離に基づき、文書Pを、当該文書Pと最も距離が近いクラスタCに分類する。ここで、文書PとクラスタCとの距離は、例えば、クラスタCの特徴ベクトルXと文書Pの特徴ベクトルxとの距離である。特徴ベクトルXは、例えばクラスタCの重心ベクトルである。文書Pの特徴ベクトルxは、例えば、当該文書Pにおける各キーワードKW(i=1,2,・・・,M)の有無を各成分とするM次元のベクトルである。例えば、文書Pの特徴ベクトルxの第p成分は、当該文書PがキーワードKWを含む場合には「1」、含まない場合には「0」となる。本実施の形態では、文書内でのキーワードの影響力を均一にする観点より、各特徴ベクトルxは、長さが1となるように規格化される。
ただし、第1のクラスタ生成部23は、上記以外の方法で未分類文書を分類してもよい。例えば、第1のクラスタ生成部23は、分類対象の文書Pと、既にクラスタに属している各文書との距離に基づき、既にクラスタに属している文書のうち、分類対象の文書Pとの距離が小さい上位Y個(Yは2以上の整数)の文書を特定し、特定されたY個の文書が最も多く属するクラスタに、分類対象の文書Pを分類してもよい。ここで、2つの文書の距離、例えば2つの文書の特徴ベクトルの距離は、予め計算されて記憶部に記憶されていてもよいし、分類の際に計算されてもよい。
図13は、クラスタリング処理の第2の例の具体的な処理例を示すフローチャートである。
図13において、ステップS91〜S105は、図11のステップS61〜S75と同様である。
ステップS106では、変数kがKより大きいか否かを判断し、大きくなければステップS107に進み、大きければステップS108に進む。すなわち、生成されたクラスタ数がK個に達していなければステップS107に進み、達していればステップS108に進む。
ステップS107では、P_id(j=1,2,・・・,N)の値に基づき、未分類文書が存在するか否かを判断し、存在すればステップS92に戻り、存在しなければ処理を終了させる。
したがって、ステップS92〜S105の処理は、K個のクラスタが作成されるまで、または未分類文書がなくなるまで、繰り返し行われる。
ステップS108では、各クラスタC(i=1,2,・・・,K)の特徴ベクトルXを算出する。
ステップS109では、変数jに1を代入する。
ステップS110では、P_id=0か否かを判断し、P_id=0であればステップS111に進み、そうでなければステップS113に進む。
ステップS111では、文書Pの特徴ベクトルxと各特徴ベクトルXとの距離を計算し、距離が最小となる特徴ベクトルXimin(1≦imin≦K)を特定する。
ステップS112では、変数P_idにiminを代入する。すなわち、文書Pを、当該文書Pとの距離が最小であるクラスタCiminに分類する。
ステップS113では、変数jの値に1を加える。
ステップS114では、変数jが文書数Nより大きいか否かを判断し、大きくなければステップS110に戻り、大きければ処理を終了させる。すなわち、文書群に属する全ての文書P(j=1,2,・・・,N)について、ステップS110〜S113の処理が繰り返し行われる。これにより、全ての未分類文書がクラスタC〜Cの何れかに分類される。
なお、先述したとおり、所定の停止条件が満たされたとき、ステップS92〜S105の処理の繰り返しを停止させてもよい。この場合、停止時点で1〜k番目のクラスタC〜Cが作成されていれば、停止時点での各未分類文書は、クラスタC〜Cのうち当該未分類文書と最も距離が近いクラスタに分類される。
(第2のクラスタ生成部24による分割処理)
例えば、キーワードの総数が少ない場合や、ユーザにより指定されたクラスタ数Kが大きい場合、小さいクラスタの生成を抑制する観点より単位クラスタリング処理が停止された場合などに、第1のクラスタ生成部23により生成されるクラスタの個数K’が予め指定されたクラスタ数Kに満たない場合が生じ得る。このような場合には、第2のクラスタ生成部24による分割処理が行われる。
第2のクラスタ生成部24による分割処理は、(K−K’)回繰り返し行われる。1回目の分割処理では、K’個のクラスタが処理対象とされ、n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされる。以下の分割処理の説明では、処理対象の複数のクラスタを、C(k=1,2,・・・,k’)と表す。ここで、K’≦k’≦(K−1)である。
図14は、第2のクラスタ生成部24による分割処理の第1の例を示すフローチャートである。図14において、分割処理は、処理S121〜S123を含む。
処理S121では、第2のクラスタ生成部24は、処理対象の複数のクラスタCの各々を、分割用キーワードを含む文書の集合である第1のクラスタC1と、上記分割用キーワードを含まない文書の集合である第2のクラスタC2とに仮想的に分割する。当該処理S121は、図2の処理S11と同様の処理である。ただし、当該処理S121は、クラスタC(k=1,2,・・・,k’)を処理対象とする点で、クラスタC(k=1,2,・・・,K’)を処理対象とする処理S11と異なる。
処理S122では、第2のクラスタ生成部24は、上記第2のクラスタC2(k=1,2,・・・,k’)の各々について、当該第2のクラスタC2に含まれる各キーワードKWの、当該第2のクラスタC2の特徴を表す度合いを示す第2の度合い値S2(k,i)を算出する。当該処理S122は、図2の処理S12と同様の処理である。ただし、当該処理S122は、第2の度合い値S2(k,i)(k=1,2,・・・,k’)を算出する点で、第2の度合い値S2(k,i)(k=1,2,・・・,K’)を算出する処理S12と異なる。
処理S123では、第2のクラスタ生成部24は、上記処理S122で算出された第2の度合い値S2(k,i)に基づき、k’個のクラスタC(k=1,2,・・・,k’)のうち1個のクラスタを、上記処理S121で仮想的に分割した通りに2つのクラスタに分割する。本実施の形態では、第2のクラスタ生成部24は、上記処理S122で算出された第2の度合い値S2(k,i)のうち最大のものに対応するクラスタを分割する。当該処理S123は、図2の処理S13と同様の処理である。ただし、当該処理S123は、クラスタC(k=1,2,・・・,k’)を処理対象とする点で、クラスタC(k=1,2,・・・,K’)を処理対象とする処理S13と異なる。
上記分割処理により、クラスタ数が1つ増加し、(k’+1)個のクラスタC(k=1,2,・・・,k’,k’+1)が生成される。
図15は、第2のクラスタ生成部24による分割処理の第2の例を示すフローチャートである。図15において、分割処理は、処理S131〜S134を含む。
処理S131では、第2のクラスタ生成部24は、上記第1の例の処理S121と同様に、k’個のクラスタCの各々を、分割用キーワードを含む文書の集合である第1のクラスタC1と、上記分割用キーワードを含まない文書の集合である第2のクラスタC2とに仮想的に分割する。
処理S132では、第2のクラスタ生成部24は、上記第1の例の処理S122と同様に、上記第2のクラスタC2(k=1,2,・・・,k’)の各々について、当該第2のクラスタC2に含まれる各キーワードKWの、当該第2のクラスタC2の特徴を表す度合いを示す第2の度合い値S2(k,i)を算出する。
処理S133では、第2のクラスタ生成部24は、上記第1のクラスタC1(k=1,2,・・・,k’)の各々について、当該第1のクラスタC1に含まれる各キーワードKWの、当該第1のクラスタC1の特徴を表す度合いを示す第1の度合い値S1(k,i)を算出する。当該処理S133は、図4の処理S23と同様の処理である。ただし、当該処理S133は、第1の度合い値S1(k,i)(k=1,2,・・・,k’)を算出する点で、第1の度合い値S1(k,i)(k=1,2,・・・,K’)を算出する処理S23と異なる。
処理S134では、第2のクラスタ生成部24は、上記算出された第2の度合い値S2(k,i)および第1の度合い値S1(k,i)に基づき、k’個のクラスタC(k=1,2,・・・,k’)のうち1個のクラスタを、上記処理S131で仮想的に分割した通りに2つのクラスタに分割する。本実施の形態では、第2のクラスタ生成部24は、処理対象の複数のクラスタであるk’個のクラスタCの各々について、第1の度合い値の最大値(すなわち第1のクラスタの特徴語スコア)と第2の度合い値の最大値(すなわち第2のクラスタの特徴語スコア)との和Sを算出し、算出された和Sのうち最大のものに対応するクラスタを分割する。具体的には、第2のクラスタ生成部24は、k’個の和Sを比較し、最大の和Skmax(1≦kmax≦k’)を持つクラスタCkmaxを特定し、当該クラスタCkmaxを分割する。当該処理S134は、図4の処理S24と同様の処理である。ただし、当該処理S134は、クラスタC(k=1,2,・・・,k’)を処理対象とする点で、クラスタC(k=1,2,・・・,K’)を処理対象とする処理S24と異なる。
上記分割処理により、クラスタ数が1つ増加し、(k’+1)個のクラスタC(k=1,2,・・・,k’,k’+1)が生成される。
図16は、第2のクラスタ生成部24による分割処理の第3の例を示すフローチャートである。図16において、分割処理は、処理S141〜S143を含む。
処理S141では、第2のクラスタ生成部24は、上記第1の例の処理S121と同様に、k’個のクラスタCの各々を、分割用キーワードを含む文書の集合である第1のクラスタC1と、上記分割用キーワードを含まない文書の集合である第2のクラスタC2とに仮想的に分割する。
処理S142では、第2のクラスタ生成部24は、上記第2の例の処理S133と同様に、上記第1のクラスタC1(k=1,2,・・・,k’)の各々について、当該第1のクラスタC1に含まれる各キーワードKWの、当該第1のクラスタC1の特徴を表す度合いを示す第1の度合い値S1(k,i)を算出する。
処理S143では、第2のクラスタ生成部24は、上記処理S142で算出された第1の度合い値S1(k,i)に基づき、k’個のクラスタC(k=1,2,・・・,k’)のうち1個のクラスタを、上記処理S141で仮想的に分割した通りに2つのクラスタに分割する。本実施の形態では、第2のクラスタ生成部24は、上記処理S142で算出された第1の度合い値S1(k,i)のうち最大のものに対応するクラスタを分割する。具体的には、第2のクラスタ生成部24は、k’個の第1のクラスタC1の特徴語スコアを比較し、最大の特徴語スコアを持つ第1のクラスタC1kmax(1≦kmax≦k’)を特定し、当該特定された第1のクラスタC1kmaxの元のクラスタCkmaxを分割する。当該処理S143は、図6の処理S33と同様の処理である。ただし、当該処理S143は、クラスタC(k=1,2,・・・,k’)を処理対象とする点で、クラスタC(k=1,2,・・・,K’)を処理対象とする処理S33と異なる。
上記分割処理により、クラスタ数が1つ増加し、(k’+1)個のクラスタC(k=1,2,・・・,k’,k’+1)が生成される。
図17は、第2のクラスタ生成部24による分割処理の第1の例の具体的な処理例を示すフローチャートである。
ステップS151では、現在のクラスタ数を示す変数kに、第1のクラスタ生成部23により生成されたクラスタの個数であるK’を代入する。
ステップS152では、変数の初期化処理を行う。この初期化処理では、i=1,Smax=0とされる。
ステップS153では、クラスタCに含まれるキーワードのうち、当該クラスタC内の全ての文書に含まれるキーワードを除く、当該クラスタC内の最も多くの文書に含まれるキーワードKWtmpを特定する。このキーワードKWtmpは、クラスタCを分割するための分割用キーワードとなる。
ステップS154では、クラスタCに属する文書群を、キーワードKWtmpを含む文書の集合である第1のクラスタC1と、キーワードKWtmpを含まない文書の集合である第2のクラスタC2とに仮想的に分割する。
ステップS155では、第2のクラスタC2の特徴語スコアS’(i)を算出する。具体的には、例えば上記式(1)により、第2のクラスタC2における各キーワードのスコアを算出し、スコアの最大値を特徴語スコアS’(i)とする。
ステップS156では、上記算出された特徴語スコアS’(i)がSmaxより大きいか否かを判断し、Smaxより大きければステップS157に進み、そうでなければステップS158に進む。
ステップS157では、変数Smaxに特徴語スコアS’(i)を代入し、変数imaxにiを代入する。
ステップS158では、変数iに1を加える。
ステップS159では、変数iの値が変数kの値より大きいか否かを判断し、大きくなければステップS153に戻り、大きければステップS160に進む。すなわち、現在存在する全てのクラスタC(i=1,2,・・・,k)について、ステップS153〜S158の処理が行われる。そして、ステップS160に進む際には、変数Smaxの値は、特徴語スコアS’(i)(i=1,2,・・・,k)の最大値となっており、変数imaxの値は、当該最大値に対応するクラスタのクラスタ番号となっている。
ステップS160では、クラスタCimaxをC1imaxとC2imaxとに分割し、クラスタ数を1つ増加させる。そして、当該分割後の(k+1)個のクラスタを、新たにクラスタC(i=1,2,・・・,k+1)とする。具体的には、変数P_id(j=1,2,・・・,N)の値を変更することにより、文書Pにクラスタ番号を振りなおす。
ステップS161では、現在のクラスタ数を示す変数kに1を加える。
ステップS162では、変数kの値がKと等しいか否かを判断し、等しくない場合にはステップS152に戻り、等しい場合には処理を終了させる。すなわち、クラスタ総数がK個になるまで、ステップS152〜S161の処理が繰り返される。
なお、上記ステップS153において、クラスタCに含まれるキーワードのうち、当該クラスタC内の全ての文書に含まれるキーワードを除く、当該クラスタC内の最も多くの文書に含まれるキーワードを特定できない場合には、ステップS154の処理はスキップされ、ステップS155において変数S’(i)に0が与えられる。したがって、当該クラスタCは分割されない。
なお、上記第1および第2の実施の形態において、クラスタ生成装置10,20はコンピュータであり、その機能は、ROM(Read Only Memory)やハードディスク装置等の記録媒体に記録されたプログラムがメインメモリに読み出されてCPU(Central Processing Unit)により実行されることによって実現される。上記のプログラムは、CD−ROM等の記録媒体に記録されて提供されることも可能であるし、データ信号として通信により提供されることも可能である。
ただし、クラスタ生成装置の物理的な構成は、特に限定されない。例えば、クラスタ生成装置の機能は、ハードウェアのみにより実現されてもよい。また、クラスタ生成装置は、物理的に別々の装置により実現されてもよいし、物理的に1つの装置により実現されてもよい。
なお、本発明は、上記実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々変更することができる。例えば、上記第1および第2の実施の形態において、クラスタを2つに分割する処理に関し、分割後のクラスタに属する文書の数が所定数よりも少なくなる分割は行わない、という制限を設けてもよい。
第1の実施の形態に係るクラスタ生成装置の構成の一例を示すブロック図である。 分割処理の第1の例を示すフローチャートである。 分割処理の第1の例を示す概念図である。 分割処理の第2の例を示すフローチャートである。 分割処理の第2の例を示す概念図である。 分割処理の第3の例を示すフローチャートである。 分割処理の第3の例を示す概念図である。 第2の実施の形態に係るクラスタ生成装置の構成の一例を示すブロック図である。 第2の実施の形態に係るクラスタ生成装置の動作手順の一例を示すフローチャートである。 第1のクラスタ生成部によるクラスタリング処理の第1の例を示すフローチャートである。 クラスタリング処理の第1の例の具体的な処理例を示すフローチャートである。 第1のクラスタ生成部によるクラスタリング処理の第2の例を示すフローチャートである。 クラスタリング処理の第2の例の具体的な処理例を示すフローチャートである。 第2のクラスタ生成部による分割処理の第1の例を示すフローチャートである。 第2のクラスタ生成部による分割処理の第2の例を示すフローチャートである。 第2のクラスタ生成部による分割処理の第3の例を示すフローチャートである。 第2のクラスタ生成部による分割処理の第1の例の具体的な処理例を示すフローチャートである。
符号の説明
10,20 クラスタ生成装置、11 クラスタ取得部、12 クラスタ生成部、21 文書群取得部、22 キーワード取得部、23 第1のクラスタ生成部、24 第2のクラスタ生成部、25 スコア算出部、26 出力部。

Claims (14)

  1. 文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得するクラスタ取得手段と、
    分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成するクラスタ生成手段と、を有し、
    前記分割処理は、
    前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
    前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、
    前記第2の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
    前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
    ことを特徴とするクラスタ生成装置。
  2. 文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する第1のクラスタ生成手段と、
    前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する第2のクラスタ生成手段と、を有し、
    前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、
    前記分割処理は、
    前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
    前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、
    前記第2の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
    前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
    ことを特徴とするクラスタ生成装置。
  3. 請求項1または2に記載のクラスタ生成装置であって、
    前記2つのクラスタに分割する処理では、前記第2の度合い値のうち最大のものに対応するクラスタを分割することを特徴とするクラスタ生成装置。
  4. 請求項1または2に記載のクラスタ生成装置であって、
    前記分割処理は、前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理をさらに含み、
    前記2つのクラスタに分割する処理では、前記第1および第2の度合い値に基づいて分割を行う、
    ことを特徴とするクラスタ生成装置。
  5. 請求項4に記載のクラスタ生成装置であって、
    前記2つのクラスタに分割する処理は、
    前記処理対象の複数のクラスタの各々について、前記第1の度合い値の最大値と前記第2の度合い値の最大値との和を算出する処理と、
    前記算出された和のうち最大のものに対応するクラスタを分割する処理と、
    を含むことを特徴とするクラスタ生成装置。
  6. 文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得するクラスタ取得手段と、
    分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成するクラスタ生成手段と、を有し、
    前記分割処理は、
    前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
    前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、
    前記第1の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
    前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
    ことを特徴とするクラスタ生成装置。
  7. 文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する第1のクラスタ生成手段と、
    前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する第2のクラスタ生成手段と、を有し、
    前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、
    前記分割処理は、
    前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
    前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、
    前記第1の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
    前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
    ことを特徴とするクラスタ生成装置。
  8. 請求項6または7に記載のクラスタ生成装置であって、
    前記2つのクラスタに分割する処理では、前記第1の度合い値のうち最大のものに対応するクラスタを分割することを特徴とするクラスタ生成装置。
  9. 請求項2または7に記載のクラスタ生成装置であって、
    前記所定のクラスタリング処理は、
    単位クラスタリング処理を(K’−1)回行って、前記文書群から(K’−1)個のクラスタを生成する処理と、
    前記文書群のうち前記(K’−1)個のクラスタの何れにも属していない文書群を1個のクラスタとする処理と、を含み、
    前記単位クラスタリング処理は、前記文書群のうち未だ何れのクラスタにも属していない文書を未分類文書と呼ぶとき、前記文書群に属する各文書から抽出されるキーワードのうち最も多くの未分類文書に含まれるキーワードを含む未分類文書の集合を新たなクラスタとする処理である、
    ことを特徴とするクラスタ生成装置。
  10. 請求項2または7に記載のクラスタ生成装置であって、
    前記所定のクラスタリング処理は、
    単位クラスタリング処理をK’回行って、前記文書群からK’個のクラスタを生成する処理と、
    前記文書群のうち前記K’個のクラスタの何れにも属していない各文書を前記K’個のクラスタに分類する処理と、を含み、
    前記単位クラスタリング処理は、前記文書群のうち未だ何れのクラスタにも属していない文書を未分類文書と呼ぶとき、前記文書群に属する各文書から抽出されるキーワードのうち最も多くの未分類文書に含まれるキーワードを含む未分類文書の集合を新たなクラスタとする処理である、
    ことを特徴とするクラスタ生成装置。
  11. コンピュータに、
    文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得する手順と、
    分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成する手順と、を実行させ、
    前記分割処理は、
    前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
    前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、
    前記第2の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
    前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
    ことを特徴とするクラスタ生成プログラム。
  12. コンピュータに、
    文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する手順と、
    前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する手順と、を実行させ、
    前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、
    前記分割処理は、
    前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
    前記第2のクラスタの各々について、当該第2のクラスタに含まれる各キーワードの、当該第2のクラスタの特徴を表す度合いを示す第2の度合い値を算出する処理と、
    前記第2の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
    前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
    ことを特徴とするクラスタ生成プログラム。
  13. コンピュータに、
    文書群がクラスタリングされて得られるK’個(K’は2以上の整数)のクラスタを取得する手順と、
    分割処理を行って、前記取得されたK’個のクラスタから(K’+1)個のクラスタを生成する手順と、を実行させ、
    前記分割処理は、
    前記K’個のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
    前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、
    前記第1の度合い値に基づき、前記K’個のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
    前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
    ことを特徴とするクラスタ生成プログラム。
  14. コンピュータに、
    文書群を所定のクラスタリング処理によりクラスタリングして、予め指定されたクラスタ数K(Kは2以上の整数)以下のK’個(K’は2以上の整数)のクラスタを生成する手順と、
    前記生成されたクラスタの個数K’が前記指定されたクラスタ数Kに満たない場合に、分割処理を(K−K’)回行って、前記K’個のクラスタからK個のクラスタを生成する手順と、を実行させ、
    前記1回目の分割処理では、前記K’個のクラスタが処理対象とされ、前記n回目(2≦n≦(K−K’))の分割処理では、(n−1)回目の分割処理後の(K’+n−1)個のクラスタが処理対象とされ、
    前記分割処理は、
    前記処理対象の複数のクラスタの各々を、分割用キーワードを含む文書の集合である第1のクラスタと、前記分割用キーワードを含まない文書の集合である第2のクラスタとに仮想的に分割する処理と、
    前記第1のクラスタの各々について、当該第1のクラスタに含まれる各キーワードの、当該第1のクラスタの特徴を表す度合いを示す第1の度合い値を算出する処理と、
    前記第1の度合い値に基づき、前記処理対象の複数のクラスタのうち1個のクラスタを、前記仮想的に分割した通りに2つのクラスタに分割する処理と、を含み、
    前記クラスタを仮想的に分割するための分割用キーワードは、当該クラスタに含まれるキーワードのうち、当該クラスタ内の全ての文書に含まれるキーワードを除く、当該クラスタ内の最も多くの文書に含まれるキーワードである、
    ことを特徴とするクラスタ生成プログラム。
JP2007042519A 2007-02-22 2007-02-22 クラスタ生成装置およびクラスタ生成プログラム Expired - Fee Related JP4967705B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007042519A JP4967705B2 (ja) 2007-02-22 2007-02-22 クラスタ生成装置およびクラスタ生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007042519A JP4967705B2 (ja) 2007-02-22 2007-02-22 クラスタ生成装置およびクラスタ生成プログラム

Publications (2)

Publication Number Publication Date
JP2008204374A JP2008204374A (ja) 2008-09-04
JP4967705B2 true JP4967705B2 (ja) 2012-07-04

Family

ID=39781783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007042519A Expired - Fee Related JP4967705B2 (ja) 2007-02-22 2007-02-22 クラスタ生成装置およびクラスタ生成プログラム

Country Status (1)

Country Link
JP (1) JP4967705B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5240777B2 (ja) * 2009-02-09 2013-07-17 株式会社日立製作所 文書分類装置及び文書分類方法
WO2011078186A1 (ja) * 2009-12-22 2011-06-30 日本電気株式会社 文書クラスタリングシステム、文書クラスタリング方法および記録媒体
JP5471943B2 (ja) * 2010-07-29 2014-04-16 富士通株式会社 まとめ上げ作業支援装置、方法及びプログラム
JP7031462B2 (ja) * 2018-04-12 2022-03-08 富士通株式会社 分類プログラム、分類方法、および情報処理装置
JP7177013B2 (ja) * 2019-07-01 2022-11-22 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
KR102647657B1 (ko) * 2021-02-25 2024-03-15 고려대학교 산학협력단 문헌 스크리닝 방법 및 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0749875A (ja) * 1993-08-06 1995-02-21 Hitachi Ltd 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
JPH11242679A (ja) * 1998-02-25 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> 利用者の興味に基づいて情報を分類する方法、装置、および利用者の興味に基づいて情報を分類するプログラムを記録した記録媒体
JP3675682B2 (ja) * 1999-09-24 2005-07-27 日本電信電話株式会社 クラスター分析処理方法、装置、およびクラスター分析プログラムを記録した記録媒体
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
JP2003323436A (ja) * 2002-05-01 2003-11-14 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置、文書分類方法、プログラム、およびこのプログラムを記録した記録媒体
JP2005063157A (ja) * 2003-08-13 2005-03-10 Fuji Xerox Co Ltd 文書クラスタ抽出装置および方法

Also Published As

Publication number Publication date
JP2008204374A (ja) 2008-09-04

Similar Documents

Publication Publication Date Title
JP3726263B2 (ja) 文書分類方法及び装置
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN108228541B (zh) 生成文档摘要的方法和装置
US20090327259A1 (en) Automatic concept clustering
JP4967705B2 (ja) クラスタ生成装置およびクラスタ生成プログラム
WO2014109127A1 (ja) インデックス生成装置及び方法並びに検索装置及び検索方法
JP2009093655A (ja) 単語親和度による単語クラスタの識別
WO2014118980A1 (ja) 情報変換方法、情報変換装置および情報変換プログラム
CN113850281B (zh) 一种基于meanshift优化的数据处理方法和装置
Nanculef et al. Efficient classification of multi-labeled text streams by clashing
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
JP5862413B2 (ja) 情報変換規則生成プログラム、情報変換規則生成装置および情報変換規則生成方法
CN112015898A (zh) 基于标签树的模型训练、文本标签确定方法及装置
CN111651596A (zh) 一种文本聚类的方法、装置、服务器及存储介质
JPH10254883A (ja) 文書自動分類方法
Alexe et al. Pattern-based feature selection in genomics and proteomics
JP4143234B2 (ja) 文書分類装置、文書分類方法及び記憶媒体
Addis et al. Assessing progressive filtering to perform hierarchical text categorization in presence of input imbalance
Kaysar et al. Word sense disambiguation of Bengali words using FP-growth algorithm
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
JP2009151390A (ja) 情報分析装置、及び情報分析プログラム
Ihou et al. A smoothed latent generalized dirichlet allocation model in the collapsed space
GB2442286A (en) Categorisation of data e.g. web pages using a model
JP2004326465A (ja) 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置
Gallas et al. Negative relevance feedback for improving retrieval in large-scale image collections

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees