JP5569698B2

JP5569698B2 - 類型化装置、類型化方法及び類型化プログラム

Info

Publication number: JP5569698B2
Application number: JP2011508385A
Authority: JP
Inventors: 由希子黒岩
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-04-10
Filing date: 2010-04-08
Publication date: 2014-08-13
Anticipated expiration: 2030-04-08
Also published as: JPWO2010117031A1; WO2010117031A1; US20120124048A1; US9075829B2

Description

本発明は、文書、画像、時系列データなどの対象の類型化装置、類型化方法および類型化プログラムに関する。本発明は特に、マーケティングやコールセンタなどにおける顧客意見の分析や、ステークホルダの要求獲得・分析の際に、特徴的な対象を抽出することができる類型化システム、類型化方法および類型化プログラムに関する。

マーケティングやコールセンタにおいては、多くの顧客意見を収集するので、類似の意見をまとめていくつかのグループに類型化（クラスタリング）して、グループごとの内容を分析する場合がある。また、巨大プロジェクトにおける要求獲得においても、類似の要求をまとめていくつかのグループに類型化して、グループごとにニーズを抽出する場合がある。類型化は、例えば、文書の場合、形態素解析を行ってから、含まれる単語の出現頻度などに基づいて文書間の類似度を計算することによって実行できる。例えば、特許文献１には、単語出現頻度を用いて、文書をベクトル表現し、文書間の類似度をコサイン類似度で計算する方法が記載されている。非特許文献１には、さまざまな類型化方法が記載されている。

また、特許文献２には、マーケティングやコールセンタなどの顧客意見を分析する際に、設定されたキーワードと評価値とを用いて、顧客ニーズの重要度を算出する装置が記載されている。特許文献３には、文タグ判定テーブルを参照してキーワードから分類対象文を抽出し、用語パターン記述テーブルを参照にして用語を抽出し、形態素解析で抽出した単語に対する表記の揺れを解消し、分類パターン記述テーブルを参照にして分類パターンを生成し、分類パターンを基準にして分類する装置が記載されている。

さらに、形態素解析を用いない手法として、例えば、非特許文献２には、コルモゴロフ複雑性に基づいた対象間の類似度計算法が記載されている。文書、画像、時系列データなどの対象に対し、対象間の類似度を計算することができる。

特開２００８−２３４４８２号公報特開２００７−２２６５６８号公報特開２００１−２２９１７７号公報

神嶌敏弘著、「データマイニング分野のクラスタリング手法（１）」２００３年発行の人工知能学会誌１８巻１号５９−６５頁ミング（Ｍｉｎｇ）著「ザシミラリティメトリクス（ＴｈｅＳｉｍｉｌａｒｉｔｙＭｅｔｒｉｃ）」２００４年発行の論文誌ＩＥＥＥトランザクションズオンインフォメーションセオリー（ＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ）」５０巻１２号３２５０−３２６４頁

しかしながら、特許文献１で用いる類似度計算方法では、単語数が大きくなると、非特許文献１に記載されているように有意な解を得ることができなくなる。そのため、不要と考えられる単語の情報を予め排除し、単語数を少なくする必要がある。しかし、大部分の文書に含まれる一般語や僅かな文書にしか出現しない単語が予め排除されがちであり、僅かな文書にしか出現しない単語が重要であっても機械的に排除されてしまう。そのため、僅かな文書にしか出現しない単語による特徴的な対象間の類似度の高さが分からず、含まれる数は少なくても特徴的な対象を抽出するような類型化がされにくいという問題がある。また、一般語を部分に含むような複合語が機械的に排除されてしまい、一般語を部分に含むような複合語が重要であっても用いられずに類型化されてしまうという問題がある。

特許文献２では、一般語を部分に含むような複合語が重要であったり、数は少なくても特徴的な単語があったりした場合でも類型化するために、設定されたキーワードと重要度を用いている。しかし、キーワードはシステムのユーザが予め決める必要があり、システムのユーザの手間がかかる上に、システムのユーザの想定外のキーワードを用いて分析することはできない。したがって、ユーザが事前に想定しない限り、含まれる数は少なくても特徴的な対象を抽出することはできない。

また、特許文献３でも、特徴的な単語を用いて分析するために、文タグ判定テーブルにはキーワードとそれに対応するタグを用い、分類パターン記述テーブルには各階層に含まれるｓｔｒｉｎｇ、ｃｏｎｃｅｐｔ、ｓｕｂｃｏｎｃｅｐｔを用いている。しかし、文タグ判定テーブルのキーワードや分類パターン記述テーブルのｓｔｒｉｎｇ、ｃｏｎｃｅｐｔ、ｓｕｂｃｏｎｃｅｐｔは、特許文献２と同様に、システムのユーザが予め決める必要がある。そのため、システムのユーザの手間がかかる上に、システムのユーザの想定外の文字列や概念を用いて分析することはできなかい。したがって、ユーザが事前に想定しない限り、含まれる数は少なくても特徴的な対象を抽出することはできない。含まれる数は少なくても特徴的な対象を抽出する技術が望まれる。

非特許文献２では、距離でなく類似度を計算するために、理論的に適用できる類型化法が限定されている。例えば、最短距離法は理論的に適用できるが、非特許文献１に記載されているように、チェイニング効果によって恣意的な階段状構造に類型化されてしまうため、適切に類型化することができないという問題がある。また、非特許文献２で計算される類似度は、特許文献３に記載されるような規則的な変換や同義語だけでなく、それぞれ日本語における文体である「ですます調」と「である調」の混在という表記の揺れの影響も受けてしまう。そのために、適切に類型化することができないという問題もあった。

本発明の一側面による類型化装置は、複数の対象データの中の自分自身との組合せを除く任意の２つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出部と、類似度が所定の基準を満たす２つの対象データを併合対象として選択する併合対象選択部と、併合対象から新たな対象データを作成する新対象作成部と、併合対象として選択された２つの対象データの各々とそれ以外の対象データとの類似度を類似度テーブルから除去する併合対象除去部と、新たな対象データと、複数の対象データの中の新たな対象データ以外の対象データとの類似度を計算する新対象追加部とを備える。

本発明の一側面による類型化方法は、複数の対象データの中の自分自身との組合せを除く任意の２つの対象データの類似度を計算して類似度テーブルに記憶し、類似度が所定の基準を満たす２つの対象データを併合対象として選択し、併合対象から新たな対象データを作成し、併合対象として選択された２つの対象データの各々とそれ以外の対象データとの類似度を類似度テーブルから除去し、新たな対象データと、複数の対象データの中の新たな対象データ以外の対象データとの類似度を計算する。

本発明の一側面による類型化プログラムは、複数の対象データの中の自分自身との組合せを除く任意の２つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出機能と、類似度が所定の基準を満たす２つの対象データを併合対象として選択する併合対象選択機能と、併合対象から新たな対象データを作成する新対象作成機能と、併合対象として選択された２つの対象データの各々とそれ以外の対象との類似度を類似度テーブルから除去する併合対象除去機能と、新たな対象データと、複数の対象データの中の新たな対象データ以外の対象データとの類似度を計算する新対象追加機能とをコンピュータに実現させる。

本発明により、文書、画像、時系列データなどの対象の類型化システム、類型化方法および類型化用プログラムが提供される。特に、マーケティングやコールセンタなどにおける顧客意見の分析や、ステークホルダの要求獲得・分析の際に、含まれる数は少なくても特徴的な対象を抽出することができる類型化システム、類型化方法および類型化用プログラムが提供される。

本発明に関する上述の及びその他の目的、利点、特徴は、いくつかの実施形態に関して、添付図面と併せて以下の記載から更に明らかとなるであろう。その添付図面には下記のものが含まれる。
図１は、本発明の第１の実施形態の類型化システムの例を示すブロック図である。図２は、対象記憶部１１に記憶される対象の例を示す説明図である。図３は、類似度記憶部１２に記憶される類似度の例を示す説明図である。図４は、併合対象として対象１と対象２が選択され除去されたときの対象記憶部１１の例を示す説明図である。図５は、併合対象として対象１と対象２が選択され除去されたときの類似度記憶部１２の例を示す説明図である。図６は、対象１と対象２とを連結した新対象を対象１として記憶したときの対象記憶部１１の例を示す説明図である。図７は、対象１と対象２とを連結した新対象を対象１として記憶したときの類似度記憶部１２の例を示す説明図である。図８は、本発明の第１の実施形態の類型化システムの処理経過の例を示すフローチャートである。図９は、本発明の第２の実施形態の類型化システムの例を示すブロック図である。図１０は、前処理ルールの例を示す説明図である。図１１は、前処理ルールを適用して変換した対象記憶部１１の例を示す説明図である。図１２は、本発明の第２の実施形態の類型化システムの前処理部の処理経過の例を示すフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。

［第１の実施形態］
図１は、本発明の第１の実施形態における類型化システムを示すブロック図である。本実施形態の類型化システム１００は、記憶部１と、計算部２とを備える。記憶部１は、対象記憶部１１と、類似度記憶部１２とを備える。計算部２は、類似度計算部２１と、制御部２２と、併合対象選択部２３と、新対象作成部２４と、併合対象除去部２５と、新対象追加部２６とを備える。類型化システムはパーソナルコンピュータなどの計算装置によって実現することができる。記憶部１はハードディスク等の記憶装置によって実現される。計算部２は、記憶装置に格納されたプログラムをＣＰＵが読み出し、そのプログラムに記述された手順に従った動作を実行することによって実現される機能ブロックである。

記憶部１の対象記憶部１１には、類型化すべき複数の対象が予め記憶されている。複数の対象は、それぞれ画像や文書などのデータである。これらの対象は、類型化システムの動作にともなって書き換えられる。対象が文書の場合の対象記憶部１１に格納される対象データの例を図２に示す。図に示すように、対象記憶部１１には、対象を特定するための識別子を示すＩＤと対象の中身を示す内容とが記憶される。なお、以降、ＩＤがｉの対象を対象ｉと呼ぶことにする。

類似度記憶部１２は、類似度テーブルを記憶する。類似度テーブルには対象記憶部１１に記憶された複数の対象のうちの任意の２つの対象の間の類似度が格納される。類似度テーブルの例を図３に示す。図に示すように、類似度テーブルには、２つの対象に対する類似度が数値として記憶される。ここで、対象ｉと対象ｉとのような自分自身との類似度は記憶しない。また、ｉ≠ｊである対象ｉの対象ｊに対する類似度が、対象ｊの対象ｉに対する類似度と同じとみなせる場合には、対象ｉの対象ｊに対する類似度が記憶されれば、対象ｊの対象ｉに対する類似度は記憶しなくてもよい。

計算部２の類似度算出部２１は、対象記憶部１１に記憶された複数の対象のうちの２つの対象の類似度を計算し、類似度記憶部１２に記憶する。類似度の計算方法は、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定される。ここで、対象ｉと対象ｉとのような自分自身との類似度は計算せず、また、ｉ≠ｊである対象ｉの対象ｊに対する類似度が、対象ｊの対象ｉに対する類似度と同じとみなせる場合には、無駄な計算を省くため、対象ｉの対象ｊに対する類似度を計算するのみで対象ｊの対象ｉに対する類似度は計算しない。類似度算出部２１は、それ以外の全ての対象のペアの類似度を計算する。

制御部２２は、終了条件を満たすかどうかをチェックし、満たすなら動作を終了し、満たさないなら動作を続行する。ここで、終了条件は、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定される。併合対象選択部２３は、類似度記憶部１２に記憶された類似度に基づいて、対象記憶部１１に記憶された対象のなかから、２つの対象を併合対象として選択する。例えば、類似度記憶部１２に記憶された類似度が最大である２つの文書を併合対象として選択する。新対象作成部２４は、選択した２つの併合対象に基づいて新たな対象を作成する。例えば、２つの併合対象を連結して新たな対象を作成する。

併合対象除去部２５は、併合対象として選択された２つの対象の類似度を対象記憶部１１から除去する。併合対象除去部２５は更に、併合対象として選択された２つの対象の各々とそれ以外の対象との類似度を類似度記憶部１２の類似度テーブルから除去する。ここで、図２において、対象１と対象２とが２つの対象が併合対象として選択された場合の例として、対象記憶部１１が記憶する対象データを図４、類似度記憶部１２が記憶する類似度テーブルを図５に示す。図に示すように、対象１と対象２とが、対象記憶部１１から除去され、対象１と他の対象との類似度と、対象２と他の対象との類似度とが、類似度記憶部１２から除去される。

新対象追加部２６は、対象記憶部１１に記憶された複数の対象の各々と新対象との間の類似度を計算し、計算された類似度を類似度記憶部１２に記憶し、新対象を対象記憶部１１に記憶する。対象記憶部１１が記憶する対象データの例を図６、類似度記憶部１２が記憶する類似度テーブルの例を図７に示す。図６では、２つの対象を連結した新対象を対象１として対象記憶部１１に記憶しており、この新対象１と対象３との間の類似度、・・・新対象１と対象Ｎの類似度を計算して、図７に示すように、それぞれの類似度を類似度記憶部１２に記憶する。

次に、類型化システムの動作について説明する。図８は、本実施形態の類型化システムの処理経過の例を示すフローチャートである。例えば、複数の対象が対象記憶部１１に記憶され、類似度の計算方法と終了条件がキーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定されると、類型化システムは以下のように動作する。ここで、対象記憶部１１にはＮ件の対象が記憶されているものとする。

まず、類似度計算部２１は、対象記憶部１１に記憶された対象のペアに対し類似度を計算し、類似度記憶部１２に記憶する（図８のステップＡ１）。ここで、対象ｉと対象ｉとのような自分自身との類似度は記憶せず、また、ｉ≠ｊである対象ｉの対象ｊに対する類似度が、対象ｊの対象ｉに対する類似度と同じとみなせる場合には、無駄な計算を省くため、対象ｊの対象ｉに対する類似度を計算したり記憶したりしないが、それ以外の全てのペアの類似度を計算し記憶する。類似度の計算方法は、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定される。

類似度の計算方法の例を示す。例えば、圧縮による計算方法が指定されており、対象を圧縮するアルゴリズムが指定されたとする。対象ｉと対象ｊとの間の類似度ｄ（ｉ，ｊ）は、対象ｉを圧縮した場合のサイズをＣ（ｉ）、対象ｊを圧縮した場合のサイズをＣ（ｊ）、対象ｉとｊとを連結させた新たな対象を圧縮した場合のサイズをＣ（ｉｊ）とすると、例えば、以下の［数１］または［数２］に示す数式によって計算することができる。これらはコルモゴロフ複雑性を近似する方法であると見なすことができる。
［数１］

［数２］

指定される圧縮アルゴリズムは、例えば、文書の場合はｇｉｐ、ｚｇｉｐなどであり、画像の場合は、ｐｎｇへの変換などである。

次に、制御部２２は、終了条件を満たすかどうかをチェックし、満たすなら動作を終了し、満たさないならステップＡ３に動作を移す（ステップＡ２）。ここで、終了条件は、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定されている。終了条件としては、例えば以下のような条件を採用することができる。
（Ａ）対象記憶部１１に記憶された対象の数が予め定めた数Ｌ以下である。
（Ｂ）類似度記憶部１２に記憶された類似度の最大値が予め定めた閾値θ以下である。

併合対象選択部２３は、類似度記憶部１２に記憶された類似度に基づいて、対象記憶部１１に記憶された対象のなかから、２つの対象を併合対象として選択する（ステップＡ３）。ここで、選択方法は、例えば、類似度記憶部１２に記憶された類似度が最大となる２つの文書を選択する、などである。

新対象作成部２４は、２つの併合対象を連結して新たな対象を作成する（ステップＡ４）。併合対象除去部２５は、選択された２つの併合対象を対象記憶部から除去する（ステップＡ５）。また、選択された２つの併合対象と他の対象との類似度を類似度記憶部１２から除去する（ステップＡ６）。新対象追加部２６は、対象記憶部１１に記憶された対象と新対象との間の類似度を計算し、類似度記憶部１２に追加して記憶する（ステップＡ７）。また、新対象を対象記憶部１１に記憶する（ステップＡ８）。

動作が終了すると、対象記憶部１１に記憶された対象をディスプレイなどの出力装置に出力して表示してもよい。また、対象記憶部１１とは別の記憶部を用意して、もとの対象のＩＤとその内容や、新対象に対応するもとの対象のＩＤの組とを記憶しておき、新対象ともとの対象との間の関係を樹形図（デンドログラム）として表示してもよい。また、ここでは、説明のため、対象記憶部１１に対象ＩＤと対象の内容とを記憶したが、単に、対象（の内容）を対象ＩＤというファイル名で記憶しておいてもよい。

次に第１の実施形態の効果について説明する。第１の実施形態では、含まれる数は少なくても特徴的な対象を抽出するよう類型化するため、コルモゴロフ複雑性を近似する方法で類似度を計算している。ここで、例えば、２つの併合対象を、対象ｉと対象ｊとし、対象ｉは、部分Ａと部分Ｂからなり、対象ｊが部分Ａと部分Ｃからなるとする。単に最短距離法を用いて類型化を行ったとすると、最短距離法は、新たな対象を生成したり、もとの対象を除去したりせず、［数３］で示されるように、それぞれのクラスタＰ、Ｑに含まれる対象間で最も類似度の高い対象を選んで、その類似度をクラスタ間の類似度とする。
［数３］

そのため、部分Ｂと極めて類似度の高い部分Ｂ’をもつ対象があるときに、その対象とクラスタとの類似度が高いと計算される。したがって、非特許文献２にも記載されているように、クラスタに含まれる対象数が多いほど、最も類似度の高い対象として選ぶことができる候補が増え、そのクラスタは併合するために選ばれやすくなる。その結果、大きく併合されたクラスタと、それ以外のいくつかの対象という恣意的な階段状構造が生じてしまい、適切に類型化することができなかった。

一方、本発明の第１の実施形態では、２つの併合対象を連結して新たな対象を作成し、新対象とその他の対象との類似度を計算して次の併合対象を選択するため、クラスタに含まれる多くの対象と類似度の高い対象が選ばれやすくなる。例えば、部分Ｂと極めて類似度の高い部分Ｂ’をもつ対象よりも、クラスタに多く含まれる部分Ａとやや類似度の高いＡ’をもつ対象の方が、選ばれやすくなる。

このように、第１の実施形態では、含まれる数は少なくても特徴的な対象を抽出するように、適切に類型化を行うことができる。また、第１の実施形態では、対象全体の情報を圧縮するなどして用いるので、例えば対象が文書の場合に、単語数が多くても一般語や特殊語を除くことなく類似度を計算することができる。したがって、部分が一般語となる複合語や特殊語があったとしても類型化を行うことができる。

［第２の実施形態］
図９は、本発明の第２の実施形態における類型化システムの例を示すブロック図である。本実施形態の類型化システム２００は、記憶部３と、類型化部４とを備える。記憶部３は、前処理ルール記憶部３０と、対象記憶部１１と、類似度記憶部１２とを備える。計算部４は、前処理部４０と、類似度計算部２１と、制御部２２と、併合対象選択部２３と、新対象作成部２４と、併合対象除去部２５と、新対象追加部２６とを備える。対象記憶部１１と、類似度記憶部１２と、類似度計算部２１と、制御部２２と、併合対象選択部２３と、新対象作成部２４と、併合対象除去部２５と、新対象追加部２６とは、第１の実施形態と同様である。

前処理ルール記憶部３０は、対象の表現形式を統一するための前処理ルールを記憶する。前処理ルールは、予めシステムに記憶されていてもよいし、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定されてもよい。対象が文書の場合の前処理ルールの例を図１０に示す。図に示すように、「分からない→わからない」、「無い→ない」のように、漢字とひらがなの両方の表記を、どちらかに統一する。また、「パーソナルコンピュータ→パソコン」、「ＰＣ→パソコン」のように、さまざまな表記のある同義語を統一する。また、「できます→できる」、「でした→だった」のように、「ですます調」と「である調」の両方の表記を、どちらかに統一する。

前処理部４０は、前処理ルール記憶部３０に記憶された前処理ルールに基づいて、対象記憶部１１に記憶された対象を変換し、対象記憶部１１に上書きする。図２の対象を変換した対象記憶部１１の例を図１１に示す。図では、「分からない→わからない」、「無い→ない」と変換されている。

なお、ここでは、対象が文書の場合を例として示したが、対象が画像や時系列データの場合にも同様に前処理ルールを指定できる。対象が画像の場合の前処理ルールは、例えば、画像解像度を１００ｐｐｉ（ｐｉｘｅｌｓｐｅｒｉｎｃｈ）に変換するなどである。対象が時系列データの場合の前処理ルールは、例えば、表示される数値のフォーマットを同じものに変換するなどである。

次に動作について説明する。図１２は、本実施形態における分類システムの前処理部４０の処理経過の例を示すフローチャートである。例えば、前処理ルールが予めシステムに記憶されるか、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定されると、類型化システムの前処理部４０は以下のように動作する。なお、問題領域固有の言葉などが事前に分かっている場合には、キーボードなどの入力装置を介してシステムのユーザにより前処理ルールとして入力されてもよい。

まず、対象記憶部１１の対象の識別番号を示す変数ｉを１に初期化する（図１２のステップＢ１）。それから、対象記憶部１１のｉ番目の対象ｉの内容を読み込む（ステップＢ２）。対象ｉに前処理ルールを適用して、対象ｉを変換する（ステップＢ３）。変換した対象ｉを対象記憶部１１のｉ番目の内容として上書きする（ステップＢ４）。変数ｉをインクリメントする（ステップＢ５）。変数ｉを全対象数Ｎと比較し（ステップＢ６）、ｉがＮ以下ならステップＢ３に戻り、ｉがＮを超えるなら、前処理部４０の動作を終了する。

次に第２の実施形態の効果について説明する。第２の実施形態では、前処理で対象の表現形式を統一することにより、表現形式が統一されていなかった対象を適切に類型化することができる。

次に、上に説明した第１および第２の実施形態における類型化システムを、インタビュー結果からの要求獲得に適用した場合の例を示す。本インタビューは、新たなオフィス環境を提示し、導入したらどう思うかについて、インタビュワーが被験者１名に質問し、書記（記録係）が記述したものであり、１０１件、計９，０００文字程度の文書である。インタビュワーは、事前に決めた３つのテーマについて質問しているが、被験者をリラックスさせ広く要求を抽出するためテーマにあまり固執せずに質問した。また、書記は、インタビュワーや被験者が使用した曖昧で非形式的な日常会話をそのまま記録した。検証のためテーマを未知として、図１０のような前処理ルールを適用して一般的に用いられる用語の表現形式を統一した後、全１０１件の文書を第１の実施形態で説明した処理によって５つの新対象に類型化し、５つの新対象に多く含まれる単語を抽出した。その結果、３つのテーマを示す３つのキーワードが全て抽出できた。

次に、比較するため、第２の実施形態で説明した前処理を同様に行ってから、第１の実施形態で説明したものと同じ類似度を用いてウォード法による類型化を行った。ウォード法は、非特許文献１に記載されており、類似度をユークリッド距離と想定した手法である。この方法は、一般には適切な類型化結果を得られることが多い。それに対して第１の実施形態で説明した類似度はユークリッド距離ではない。上記のインタビュー結果に対してウォード法を適用して類型化できるかを試したところ、３つのテーマを示すキーワードのうち、１つしか抽出することができなかった。

本発明は、例えば、マーケティングやコールセンタなどにおける顧客意見の分析や、ステークホルダの要求獲得・分析の際に、含まれる数は少なくても特徴的な対象を抽出する類型化システムに適用される。また、本発明は、例えば、マーケティングやコールセンタなどにおける顧客意見の分析や、ステークスホルダの要求獲得・分析の際に、表現形式が統一されていない対象を類型化する類型化システムに適用される。

以上、いくつかの実施形態によって本発明を説明したが、これらの実施の諸形態は単に発明を説明するために挙げられたものであり請求の範囲の内容を限定するために参照されるべきでないことは、当業者には明らかである。

この出願は、２００９年４月１０日に出願された日本出願特願２００９−０９５６１８号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

複数の対象データの中の自分自身との組合せを除く任意の２つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出部と、
前記類似度が所定の基準を満たす２つの対象データを併合対象として選択する併合対象選択部と、
前記併合対象から新たな対象データを作成する新対象作成部と、
前記併合対象として選択された２つの対象データの各々とそれ以外の対象データとの類似度を前記類似度テーブルから除去する併合対象除去部と、
前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算する新対象追加部とを具備し、
前記複数の対象データの各々は文書を示し、前記新対象生成部は、前記併合対象として選択された２つの文書を連結することによって新たな１つの文書を前記新たな対象データとして作成する
類型化装置。
前記併合対象選択部は、前記類似度テーブルの中で最も類似度が高い２つの対象データを前記併合対象として選択する
請求項１に記載の類型化装置。
前記類似度算出部は、コルモゴロフ複雑性の近似計算法に基づいて類似度を計算する
請求項１又は請求項２に記載の類型化装置。
前記近似計算法は、２つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、２つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
請求項３に記載の類型化装置。
前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
請求項１から請求項４のうちのいずれか１項に記載の類型化装置。
コンピュータによって実行される類型化方法であって、
複数の対象データの中の自分自身との組合せを除く任意の２つの対象データの類似度を計算して類似度テーブルに記憶し、
前記類似度が所定の基準を満たす２つの対象データを併合対象として選択し、
前記併合対象から新たな対象データを作成し、
前記併合対象として選択された２つの対象データの各々とそれ以外の対象データとの類似度を前記類似度テーブルから除去し、
前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算し、
前記複数の対象データの各々は文書を示し、新たな対象データは、前記併合対象として選択された２つの文書を連結することによって作成された新たな１つの文書である
類型化方法。
前記類似度テーブルの中で最も類似度が高い２つの対象データが前記併合対象として選択される
請求項６に記載の類型化方法。
前記類似度は、コルモゴロフ複雑性の近似計算法に基づいて計算される
請求項６又は請求項７に記載の類型化方法。
前記近似計算法は、２つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、２つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
請求項８に記載の類型化方法。
前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
請求項６から請求項９のいずれか１項に記載の類型化方法。
複数の対象データの中の自分自身との組合せを除く任意の２つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出機能と、
前記類似度が所定の基準を満たす２つの対象データを併合対象として選択する併合対象選択機能と、
前記併合対象から新たな対象データを作成する新対象作成機能と、
前記併合対象として選択された２つの対象データの各々とそれ以外の対象との類似度を前記類似度テーブルから除去する併合対象除去機能と、
前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算する新対象追加機能とをコンピュータに実現させるための類型化プログラムであって、
前記複数の対象データの各々は文書を示し、前記新対象生成機能は、前記併合対象として選択された２つの文書を連結することによって新たな１つの文書を前記新たな対象データとして作成する
類型化プログラム。
前記併合対象選択機能は、前記類似度テーブルの中で最も類似度が高い２つの対象データを前記併合対象として選択する
請求項１１に記載の類型化プログラム。
前記類似度算出機能は、コルモゴロフ複雑性の近似計算法に基づいて類似度を計算する
請求項１１又は請求項１２に記載の類型化プログラム。
前記近似計算法は、２つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、２つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
請求項１３に記載の類型化プログラム。
前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
請求項１１から請求項１４のうちのいずれか１項に記載の類型化プログラム。