JP6879433B2

JP6879433B2 - 回帰装置、回帰方法、及びプログラム

Info

Publication number: JP6879433B2
Application number: JP2020514636A
Authority: JP
Inventors: シルバダニエルゲオルグアンドラーデ
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2021-06-02
Anticipated expiration: 2037-09-29
Also published as: WO2019064598A1; US20200311574A1; JP2020533700A

Description

本発明は、分類器を学習して共変量（各データサンプルの素性）をクラスタリングする、回帰装置、回帰方法、およびこれらを実現するためのプログラムに関する。

分類および分類結果の解釈可能性は、さまざまなアプリケーションにとって重要である。例：テキスト分類：どの単語グループが感情を示しているか？マイクロアレイ分類：特定の疾患を示す遺伝子のグループはどれですか？

特に、ここでは、次の情報が利用可能な問題を検討する。
クラスラベル付きのデータサンプル、
機能の相互作用に関する事前知識（例：単語の類似度）。

この問題に対処する先行研究はほとんど存在していない。 OSCARと呼ばれる最初の分析（例えば、非特許文献１を参照）は、以下の目的関数を使用して共同線形回帰とクラスタリングを実行する。目的関数もまた凸最適化問題である（提案された方法の１つと同様）。ただし、主に２つの問題／制限が存在する。
負の値が非常に高い相関共変量も同じクラスターに入れられる。このことは予測力にとって問題ではないが（絶対値は元の値ではなく同じ値になることが推奨されるため）、相互運用性が損なわれる可能性がある。（非特許文献１の図２参照）。
機能（共変量）に関する補助情報を含めることは不可能である。

共変量に関する補助情報を含めることを可能にする別のアプローチが、BOWLである（例えば、非特許文献２参照）。基本的なコンポーネントは図７に示されている。図７は、分類前のクラスタリングにより、分類に適さないクラスターが生じる可能性があることを示している。

BOWLには、２段階のアプローチがある。
１．クラスター共変量 k-meansの使用。ここでは、単語の埋め込みを使用して単語がクラスタリングされる。
２．単語クラスターによる分類器のトレーニング。

Howard D Bondell and Brian J Reich. Simultaneous regression shrink-age, variable selection, and supervised clustering of predictors with oscar. Biometrics, 64(1):115-123, 2008. Weikang Rui, Kai Xing, and Yawei Jia. Bowl: Bag of word clusters text representation using word embeddings. In International Conference on Knowledge Science, Engineering and Management, pages 3-14. Springer, 2016.

しかしながら、従来の手法には、クラスタリング（最初のステップ後）が固定されてしまい、クラスラベルを調整することができない、という問題がある。このことが問題であるという理由を確認するため、以下の例で検討する。

「great」と「bad」との単語の埋め込みは、非常に似ていると仮定する（これらは非常によく似たコンテキストで発生する可能性があり、実際によくあるケースです）。これにより、最初のステップにおいて結果的に、「great」と「bad」とが一緒にクラスター化されてしまう。

しかしながら、分類タスクが感情分析である場合、これによりパフォーマンスが低下する。（理由：クラスター｛「great」、「bat」｝は、肯定的なコメントと否定的なコメントとを区別するために使用できない素性となり得る）。この例は、図８にも示されている。図８では、最終結果は、２つのクラスター｛「fantastic」、「great」、「bad」｝と、｛「actor」｝とで構成されている。図８は、分類前のクラスタリングにより、分類に適さないクラスターが生じる可能性があることを示している。

従来からの方法は、共変量に関する事前の知識を含むことができず、又は、準最適な２ステッププロシージャ（上記の例を参照）による解の劣化に苦しむ。また、従来からの方法では、非凸最適化関数による非適正な局所的最小値となる傾向もある。

本発明の目的の一例は、上述の問題を解消し、得られる分類及びクラスタリングの精度が共に向上し得る、回帰装置、回帰方法、及びプログラムを提供することにある。

クラスタリングと分類のステップとを分離する代わりに、共変量についての分類器及びクラスタリングのパラメータを一緒に学習する、装置、方法、及びプログラムが提案される。更に、凸であり、初期化とは無関係にグローバルな最適値を見つけることが保証される、ソリューションが提案される。

上記目的を解決するための、本発明の一側面における回帰装置は、回帰及びクラスタリング基準を同時に最適化するための装置であって、
ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、分類器訓練部と、
訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、クラスタリング結果取得部と、
を備えている。

上記目的を達成するための、本発明の他の側面における回帰方法は、回帰及びクラスタリング基準を同時に最適化するための方法であって、
（ａ）ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
（ｂ）訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を有する。

上記目的を達成するための、本発明の他の側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、回帰及びクラスタリング基準を同時に最適化するためのプログラムであって、
前記コンピュータに、
（ａ）ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
（ｂ）訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を実行させる。

以上のように、本発明によれば、得られる分類及びクラスタリングの精度を共に向上することができる。

図１は、本発明の実施の形態における回帰装置の構成を概略的示すブロック図である。図２は、本発明の実施の形態における回帰装置の構成を具体的に示すブロック図である。図３は、本発明で用いられる行列Ｚの一例を示す図である。図４は、本発明で得られたクラスタリング結果の一例を示す図である。図５は、本発明の実施の形態における回帰装置によって実行される処理の一例を示すフロー図である。図６は、本発明の実施の形態における回帰装置を実現するコンピュータの一例を示すブロック図である。図７は、分類前のクラスタリングにより、分類に適さないクラスターが生じる可能性があることを示す図である。図８は、分類前のクラスタリングにより、分類に適さないクラスターが生じる可能性があることを示す図である。

（実施の形態）
以下、本発明の実施形態に係る回帰装置、回帰方法、およびコンピュータ読み取り可能な記録媒体について、図１〜図６を参照して説明する。

［装置構成］
最初に、本発明の実施の形態における回帰装置１０の構成について図１を用いて説明する。図１は、本発明の実施の形態における回帰装置の構成を概略的に示すブロック図である。

図１に示すように、回帰装置１０は、分類器訓練部１１と、クラスタリング結果取得部１２とを備えている。分類器訓練部は、ラベル付き訓練データ、素性の類似度、回帰分析の精度を特徴付ける損失関数、および素性の類似度を助長するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する。ペナルティの強度は、素性の類似度に比例する。クラスタリング結果取得部は、訓練された分類器を使用して、回帰重みが等しい素性をグループ化することにより素性クラスターを識別する。

上述したように、回帰装置１０は、共変量の分類及びクラスタリングについてパラメータを学習する。その結果、回帰装置１０は、得られる分類およびクラスタリングの精度を向上させることができる。

ここで、図２を参照して、本実施の形態１に係る回帰装置１０の構成および機能についても説明する。

表記についての注意：例えば、B ∈R^d×d,は行列を示し、 x ∈ R^dは、行ベクトルを示す。更に、Bのi番目の行は、B_iで示される行ベクトルである。Bのj番目の列はB._,jで示される列ベクトルである。

図２において、我々の提案する手順について概説する。図２は、本発明の実施形態に係る回帰装置の構成を具体的に示すブロック図である。

図２に示すように、ラベル付けされたトレーニングデータ（{x、y}で与えられる）と、各素性間の類似度情報（行列Sで与えられる）とを使用して、分類器訓練部１１は、重みベクトルβ又は重み行列Bと共にロジスティック回帰分類器を訓練する。次のステップでは、クラスタリング結果取得部１２は、学習された重み行列B（又は重みベクトルβ）から、正確に等しい値を検査することにより、素性のクラスタリングを識別する。例えば、重み行列Bのi₁と i₂の列が同一である場合、素性 i₁ と素性 i₂とは、同じクラスターにある。

以下では、最適化問題として２つの異なる定式化を提案する。一般的な考えは、素性（共変量）のクラスター化と分類器の学習とを一緒にすることにある。

１つ目の定式化は、共変量毎に明示的なクラスター割り当て確率を提案する。これは、共変量の意味があいまいな場合などに有利であるが、結果の問題が凸ではない。２つめの定式化は凸であるため、グローバルな最適値を見つけることが可能となる。

定式化１：クラスター割当確率の定式化
定式化１では、損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含む。ペナルティは、素性のペア毎に設定され、素性の重みベクトルのペア間の距離の測定値と素性間の類似度で構成される。

x_s ∈ R^d dをサンプルsの共変量ベクトルとしZ ∈ R^d×d を共変量クラスター割り当て行列とする。このとき、i番目の行はi番目の共変量に対応し、j番目の列は j番目のクラスターに対応する。

簡単にするために、ここでは分類のためのロジスティック回帰を検討する。 fをパラメーターベクトルβ ∈ R^d及びバイアスβ₀を持つロジスティック関数とする。クラス確率は、次のように定義される。

y_s ∈ {-1, 1}は、サンプルのクラスラベルである。そして、目的関数は次の式で最適化される。

パラメータとして、β、 w ∈R^d、β0∈R、及び Z∈R^d×dがある。そして、固定ハイパーパラメータλは０より大きく、γは０以上である。λは、Zの列のスパース性、更には、クラスターの数を制御するハイパーパラメータである。このことを理解するために、数６における項Aは、Zの列に対するグループラッソペナルティであることに注意してください（グループラッソについては、参考文献［１］を参照）。ハイパーパラメータγは、クラスタリングの目的の重みを制御する。
参考文献［１］：Trevor Hastie, Robert Tibshirani, and Martin Wainwright. Statistical learning with sparsity. CRC press, 2015.

行列Zはクラスタリングを定義する。クラスタリング結果をよりよく理解するには、数１において次のように記述できることに注意する必要がある。

ベクトルc_sは、Zによって誘導されるクラスタリングに関してデータサンプルsを表す。特に、次のものがある。

Zのj番目の列がゼロベクトルでない場合にのみ、クラスターjが存在すると言える。従って、クラスターの数は、Zのゼロ列の数を制御するため、ハイパーパラメータλによって制御されることがわかる。Z_i,jは、共変量iがクラスターjに割り当てられる確率として解釈できることもわかる。

さらに、数７から、w(j)がクラスターjのロジスティック回帰重みを定義することがわかる。また、クラスターjが存在しない場合、wの正則化により、w(j)がゼロになることに注意する必要がある。

この提案された形式化の効果は、図３及び図４にも示されている。図３は、本発明で使用される行列Ｚの例を示している。図４は、本発明によって取得されたクラスタリング結果の一例を示している。図４に示すように、最終結果は３つのクラスター{"fantastic"、 "great"}、{"bad"}、及び{"actor"}で構成されている。

より大きなクラスターによる重みの拡大
交差検定を使用してλを決定できるようにするためには、クラスターの形成が一般化可能性を高めるのに役立つ必要がある。クラスターの形成を促進する１つの方法は、大きなクラスターの重みよりも小さなクラスターの重みを罰することである。１つの可能性は、次の拡張である。

p_jは、クラスターjの共変量の期待数に１を加えたものに対応する（１は目的関数でのゼロによる除算を防ぐために追加される。）。数１５における項Bは、過適合を防ぐためにクラスターの重みを高くしますが、小さなクラスターにはより多くのペナルティが科される。数１６におけるCは、それがf(w_j, p_j)=w_j ²/p_jの形式のd関数の合計であるため、凸であることに注意する必要があり、f(w_j, p_j)凸である（参考文献［２］ p.72参照）。
参考文献［２］：Stephen Boyd and Lieven Vandenberghe. Convex optimization. Cambridge university press, 2004.

共変量の補助情報の含有
Sを任意の２つの共変量i₁及び i₂の間の類似度行列とする。例えば、テキスト分類において、各共変量は単語に対応する。その場合、単語の埋め込みを使用して単語間の類似度行列を取得する。e_i ∈R^hはi番目の共変量の埋め込みを示す。そして、次に示すようにSが定義される。

ここで、uはハイパーパラメータである。
Sから与えられた事前知識を組み込む際に、次のペナルティを追加することが可能である。

ここで、q ∈{1,2,∞}はペナルティである。このペナルティにより、同様の共変量が同じクラスター割り当てを共有するようになる。

最終的な最適化の問題は次の通りである。

最適化
前に指摘したように、数１９の最終的な最適化問題は凸ではない。但し、w（Zを固定に保持）とZ（wを固定に保持）の最適化を交互に行うことにより、静止点の取得が可能となる。各ステップは凸問題であり、例えば、乗数の交互方向法によって解決可能である。静止点の精度は初期化に依存する。１つの可能性は、k-meansからのクラスタリング結果でZを初期化することである。

定式化２：凸定式化
定式化２では、損失関数はクラスター毎に重みと追加のペナルティとを有し、追加のペナルティは、大きな重みにペナルティを課し、クラスターが大きいほど小さくなる。

B∈R^k×dにおいて、kはクラスの数、dは共変量の数である。B_lは、クラスlの重みベクトルである。更に、β₀∈R^kは切片を含む。ここで、次の式によってマルチクラスロジスティック回帰分類器を定義する。

サンプルx_sの分類と共変量のクラスタリングとを一緒に行うために、次の定式化が行われる。

最後の項は、２つの素性i₁ と i₂との任意のペア毎に、クラスの重みに対するグループラッソペナルティである。ペナルティは類似の素性毎に大きくなり、B._,i1 - B.,_i2が0であることを推奨する。これは、B._,i1と B._,i2とが等しいことを意味する。

素性の最終的なクラスタリングは、B.,_i1と B.,_i2とが等しい場合、２つの素性i₁ 及び i₂を一緒にグループ化することで見つられる。

この定式化の利点は、問題が凸であり、グローバルな最小値を見つけることが保証されることにある。

このペナルティは、参考文献［３］及び［４］にあるように、凸型クラスタリングに似たものを共有していることに注意が必要である。但し、１つの大きな違いは、各データポイントに潜在ベクトルを導入せず、この方法では分類器とクラスタリングと一緒に学習することである。
参考文献［３］：Eric C Chi and Kenneth Lange. Splitting methods for convex clustering. Journal of Computational and Graphical Statistics, 24(4):994{1013, 2015.
参考文献［４］：Toby Dylan Hocking, Armand Joulin, Francis Bach, and Jean-Philippe Vert. Clusterpath an algorithm for clustering using convex fusion penal-ties. In 28th international conference on machine learning, page 1, 2011.

拡張機能
異なるペナルティによる組み合わせ
素性選択を可能にするために、この方法を別の適切なペナルティと組み合わせることができる。一般に、ハイパーパラメータγによって制御されるペナルティ項g(B)を追加することができる。

例えば、Bの列に１２グループラッソペナルティを配置することにより、素性の選択を実現できる。これは、次のようにgを設定することを意味する。

より詳細には、これにより、分類タスクに関係のない機能が除外されます（つまり、Bの対応する列が0に設定されます）。

別の例は、Bのエントリに追加のl1またはl2ペナルティを設定することである。これにより、分類器の過剰適合を防ぐことができる。これは、次のようにgを設定することを意味する。

指数はq∈{1,2である。例えば、素性i₁及び i₂の両方がクラス１の訓練サンプルでのみ発生する状況を考え、簡単にするために、∀_j ≠ i₁ : S_j,i1 = S_i1,j = 0 、 ∀_j≠i₂ : S_j,i2 = S_i2,j= 0 、そして、 S_i1,i2= 1であるとする。その後、Bのエントリに追加のペナルティを加えることなく、訓練された分類器は、これらの２つの素性に対して、クラス１の無限の重みを付加する（つまり、B_1,i1 = ∞, 及びB_1,i2 = ∞である）。

［装置動作］
次に、図５を参照して、本発明の実施の形態における回帰装置１０の動作について説明する。図５は、本発明の実施の形態における回帰装置によって実行される動作の一例を示すフロー図である。以下の説明では、必要に応じて図１から図４を参照する。また、本実施の形態では、回帰方法は、回帰装置１０を動作させることによって実行される。従って、本実施の形態における回帰方法の説明は、以下の回帰装置１０の動作の説明に置き換えられる。

まず、図１に示すように、分類器訓練部１１は、ラベル付けされた訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、および類似度を促進するペナルティを使用して、重みベクトルまたは重み行列で分類器を訓練する。機能（ステップS1）。

次に、クラスタリング結果取得部１２は、訓練された分類器を用いて、回帰重みが等しい素性をグループ化することにより素性クラスターを特定する（ステップＳ２）。次に、クラスタリング結果取得部は、特定された素性クラスターを出力する（ステップＳ３）。

通常の回帰
本発明を通常の回帰に適用するのは簡単であることに注意する必要がある。 y∈Rは、応答変数を示すものとする。回帰パラメーターベクトルβ∈R^dとクラスタリングとを一緒に学習するために、次の凸最適化問題が用いられる。

解釈可能な分類結果
数１９又は数２５を使用して訓練された分類器は、新しいデータサンプルx*の分類に使用できる。なお、通常のロジスティック回帰分類器では、各素性を個別に使用するため、重要な素性を識別することは困難である。例えば、テキスト分類では数千の素性（単語）が存在する可能性がありますが、単語を適切にクラスタリングすると、素性空間が３分の１以上に減少する。したがって、クラスター化された素性空間の検査と解釈ははるかに簡単になる。

［プログラム］
本実施の形態のプログラムは、図５に示すステップＡ１〜Ａ３をコンピュータに実行させるためのプログラムであればよい。本実施の形態における回帰装置１０及び回帰方法は、プログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、分類器訓練部１１及びクラスタリング結果取得部１２として機能し、処理を実行する。

本実施形態におけるプログラムは、複数のコンピュータを用いて構築されたコンピュータシステムにより実行されてもよい。この場合、例えば、各コンピュータは、分類器訓練部１１及びクラスタリング結果取得部１２のいずれか１つとして機能してもよい。

また、本実施の形態におけるプログラムを実行することにより回帰装置１０を実現するコンピュータについて、図面を参照して説明する。図６は、本発明の実施の形態に係る回帰装置を実現するコンピュータの一例を示すブロック図である。

図６に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェース１１４と、ディスプレイコントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェース１１７とを備えている。これらのユニットはバス１２１を介して、相互のデータ通信が可能なように接続されている。

ＣＰＵ１１１は、記憶装置１１３に記憶されている本実施形態に係るプログラム（コード）をメインメモリ１１２に展開し、これらのコードを所定の順序で実行することにより、各種の演算を実行する。メインメモリ１１２は通常、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェース１１７を介して接続されるインターネット上で流通しするものでもよい。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリなどの半導体記憶装置が挙げられる。入力インターフェース１１４は、ＣＰＵ１１１とキーボードまたはマウスなどの入力装置１１８との間のデータ伝送を仲介する。ディスプレイコントローラ１１５は、表示装置１１９に接続されており、表示装置１１９の表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からプログラムを読み出し、コンピュータ１１０が実行した処理結果を記録媒体１２０に書き込む。通信インターフェース１１７は、CPU１１１と別のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（コンパクトフラッシュ（登録商標））、ＳＤ（セキュアデジタル）等の汎用半導体記憶装置、フレキシブルディスク等の磁気記録媒体、CD-ROM（Compact Disk Read Only Memory）等の光記録媒体などが挙げられる。

本実施の形態における回帰装置１０は、プログラムがインストールされたコンピュータだけでなく、様々な構成要素に対応するハードウェアを用いて実現することもできる。また、回帰装置１０の一部をプログラムにより実現し、回帰装置１０の残りの部分をハードウェアにより実現してもよい。

上記実施形態の一部又は全部は、以下に記載する（付記１）〜（付記９）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
回帰及びクラスタリング基準を同時に最適化するための装置であって、
ラベル付き訓練データ、素性の類似度、回帰精度を素性付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、分類器訓練部と、
訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、クラスタリング結果取得部と、
を備えている、回帰装置。

（付記２）
付記１に記載の回帰装置であって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とする回帰装置。

（付記３）
付記１に記載の回帰装置であって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とする回帰装置。

（付記４）
回帰及びクラスタリング基準を同時に最適化するための方法であって、
（ａ）ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
（ｂ）訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を有する、回帰方法。

（付記５）
付記４に記載の回帰方法であって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とする回帰方法。

（付記６）
付記４に記載の回帰方法であって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とする回帰方法。

（付記７）
コンピュータによって、回帰及びクラスタリング基準を同時に最適化するためのプログラムであって、
前記コンピュータに、
（ａ）ラベル付き訓練データ、特徴の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
（ｂ）訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を実行させる、プログラム。

（付記８）
付記７に記載のプログラムであって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とするプログラム。

（付記９）
付記７に記載のプログラムであって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とするプログラム。

リスク分類は、サイバー攻撃の検出から、病気、疑わしい電子メールに至るまで、至る所に存在する問題である。ラベル付きデータをもたらす過去のインシデントを使用して、分類器を訓練することで、（早期の）将来のリスク検出が可能となる。但し、新しい洞察と解釈しやすい結果を得るには、どの要因（共変量）の組み合わせがリスクを示しているかを分析することが重要である。共変量（テキスト分類タスク内の単語など）を共同でクラスター化することにより、結果的に分類器の解釈が容易になり、人間の専門家がリスクの種類（共変量のクラスター）に関する仮説を立てるのに役立つ。

１０回帰装置
１１分類器訓練部
１２クラスタリング結果取得部
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェース
１１５ディスプレイコントローラ
１１６データリーダ／ライタ
１１７通信インターフェース
１１８入力装置
１１９表示装置
１２０記録媒体
１２１バス

Claims

回帰及びクラスタリング基準を同時に最適化するための装置であって、
ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、分類器訓練部と、
訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、クラスタリング結果取得部と、
を備えている、回帰装置。
請求項１に記載の回帰装置であって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とする回帰装置。
請求項１に記載の回帰装置であって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とする回帰装置。
回帰及びクラスタリング基準を同時に最適化するための方法であって、
（ａ）ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
（ｂ）訓練された分類器を使用して、重みベクトル又は重み行列が等しい素性をグループ化することにより素性クラスターを識別する、ステップと、
を有する、回帰方法。
請求項４に記載の回帰方法であって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とする回帰方法。
請求項４に記載の回帰方法であって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とする回帰方法。
コンピュータによって、回帰及びクラスタリング基準を同時に最適化するためのプログラムであって、
前記コンピュータに、
（ａ）ラベル付き訓練データ、素性の類似度、回帰精度を特徴付ける損失関数、及び素性の類似度を助長し且つその強度は素性の類似度に比例するペナルティを使用して、重みベクトル又は重み行列で分類器を訓練する、ステップと、
（ｂ）訓練された分類器を使用して、重みベクトル又は重み行列が等しい特徴をグループ化することにより特徴クラスターを識別する、ステップと、
を実行させる、プログラム。
請求項７に記載のプログラムであって、
損失関数は、素性毎の回帰重みベクトルを含むマルチロジスティック回帰損失であり、ペナルティを含み、
ペナルティは、素性のペア毎に設定され、素性の重みの各ペア間の距離の測定値と、素性間の類似度で構成される、
ことを特徴とするプログラム。
請求項７に記載のプログラムであって、
損失関数が、各クラスターの重みと追加のペナルティを有し、
追加のペナルティは、大きな重みに科され、クラスターが大きい程小さくなる、
ことを特徴とするプログラム。