JP2011138484A - マルチレベル分類モデルを構築する方法とシステム - Google Patents
マルチレベル分類モデルを構築する方法とシステム Download PDFInfo
- Publication number
- JP2011138484A JP2011138484A JP2010231586A JP2010231586A JP2011138484A JP 2011138484 A JP2011138484 A JP 2011138484A JP 2010231586 A JP2010231586 A JP 2010231586A JP 2010231586 A JP2010231586 A JP 2010231586A JP 2011138484 A JP2011138484 A JP 2011138484A
- Authority
- JP
- Japan
- Prior art keywords
- classification model
- level
- data samples
- level classification
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 このマルチレベル分類モデルを構築する方法は、ラベル付きデータサンプルを入力するステップと、レベル付きデータサンプルを用いて最初のマルチレベル分類モデルを生成するステップと、生成した最初のマルチレベル分類モデルを最適化するステップとを含み、最適化ステップで、全てのレベル間の大局的なレベル値の距離に基づいて最初のマルチレベル分類モデルを調整する。最適化ステップが、さらに、ラベル付きデータサンプル間の順序関係に基づいて最初のマルチレベル分類モデルを調節するステップを含む。この方法は半教師ありシナリオへ拡張され、ラベル付きとラベル無しのデータサンプルを参照することにより、データサンプル間の類似度およびレベル間の類似度に基づいて最初のマルチレベル分類モデルを平滑化する。
【選択図】 図3
Description
図1は、特許文献1による分類モデルを生成し最適化するためのシステム100の構成ブロック図を示す。
図1において、システム100は、主に分類モデル初期化手段101および局所レベル隣接度ベースの分類モデル調整手段102を含んでいる。情報分類では、ある種のコンピュータ読み取り可能なフォーマットとして分類モデルを表わす必要がある。例えば、この方法では、マルチレベル分類モデルは、隣接するレベル間の境界(margin)を示す対応するレベル閾値を有する一連の平行な分類超平面から成る。分類モデルの学習の初めに、まず、最初のモデルを生成する必要がある。
分類モデル初期化手段101は、入力されたラベル付きトレーニングデータに基づいた最初の分類モデルを生成するために使用される。最初の分類モデルを生成する方法については、当業者にとって周知の方法であるので、ここでは詳しく説明しない。
調整手段102は、レベル間の局所的なレベル隣接度に基づいて、生成された最初の分類モデルを調整し最適化するために使用される。マルチレベル問題において、レベルは順序に関係する。すなわち、レベルが接近すればするほど、それらはより類似する。
そのため、この方法では、この関係は以下のように表わされる。
i番目のレベルの閾値は、(i+1)番目のレベルの閾値より低くなければならい。
レベル隣接関係を表わす局部的レベル隣接度は、生成された最初の分類モデルを調整するために使用され、それにより、最適化された分類モデルを取得する。
この方法は典型的な半教師あり学習の方法である。その中心となる構成要素は、「データサンプル類似性に基づいた分類モデルの平滑化」である。
図2は、その非特許文献2による分類モデルの生成および最適化のためのシステム200の構成ブロック図を示す。図2において、システム200は、分類モデル初期化手段201と、データサンプル類似度ベースの分類モデル平滑化手段202を含んでいる。半教師あり学習のシナリオでは、ほとんどのデータサンプルはラベル無しであり、すなわち、それらのカテゴリラベルは未知である。しかしながら、これらのラベル無しトレーニングデータサンプルの存在は、全面的なデータ分布固有の幾何学的構造をよりよく形成するために使用することができる。
それは、類似するデータサンプルが同じカテゴリに存在する可能性が高いという仮説に基づいている。データサンプルの類似度は、データサンプルの特性に基づいて計算することができる。
その後、データサンプル類似度は、ラベル無しデータサンプルとラベル付きデータサンプルについて予測されたカテゴリを調整するために使用される。その結果、これらのラベルは、全面的なデータ分布に従って滑らかに変化し、分類モデルを最適化する目的が達成される。
先行技術1の順序回帰モデル最適化方法(ordinal regression model optimization method)においては、隣接レベル間の制限のある順序関係だけが考慮される。また、順序回帰モデル中の出力されたレベルラベルは、離散的であり、連続的に測定することができない。
更に、例えば、先行技術2の半教師あり学習のシナリオにおいて適用できる既存のマルチレベルまたは順序回帰方法は存在しない。
多レベルの順序の本質に基づいて、レベル間の順序は、各データサンプルにも反映する。
そこで、第2の調整機能は、2つのレベル付きデータ毎の間の順序関係を、それらのレベルラベルに対応するレベル順序関係と一致するように保持することを目指している。
したがって、レベル順序関係は、データサンプルに従って微視的にさらに最適化される。
本発明においては、ラベル付きデータサンプルとラベル無しデータサンプルの両方の予測レベルが、それらの類似度に基づいて平滑化される。
データサンプル間の類似度に基づいた第1の平滑化機能は、データ分布固有の幾何学的構造だけを利用する。
第2の平滑化は、レベル分布固有の幾何学的構造をモデル化するために使用される。
レベル間の距離とデータサンプルがレベルに属する確率に基づいて、データサンプル間のレベル類似度が計算される。
そのため、分類モデルは、データサンプルのレベル類似度に従ってさらに最適化され、その結果、予測レベルラベルは、全データ分布上で滑らかに変化するだけではなく、レベルの順序関係と一致する。
他の態様では、最適化ステップが、さらに、ラベル付きデータサンプル間の順序関係に基づいて前記最初のマルチレベル分類モデルを調節するステップを含む。
さらに他の態様では、最適化ステップが、データサンプル間の類似度およびレベル間の類似度に基づいて最初のマルチレベル分類モデルを平滑化するステップを含む。
他の態様によれば、分類モデル最適化手段が、全てのレベル間の大局的なレベル値の距離に基づいて最初のマルチレベル分類モデルを調整するように構成される。
さらに他の態様によれば、分類モデル最適化手段が、全てのレベル間の大局的なレベル値の距離とデータサンプル間の順序関係に基づいて最初のマルチレベル分類モデルを調節するように構成される。
他の態様によれば、半教師ありシナリオに拡張して適用される。この場合、全てのレベル間の大局的なレベル値の距離とデータサンプル間の順序関係に基づいて最初のマルチレベル分類モデルを調節する他に、分類モデル最適化手段が、さらに、データサンプル間の類似度およびレベル間の類似度に基づいて最初のマルチレベル分類モデルを平滑化するように構成され、それにより最終的な最適化を実現する。
まず、レベル値および類似度を利用することにより、レベル間の順序関係が、分類モデルにおいて十分に結び付けられ、それによって、マルチレベル分類(multi−level classification)の正確さが向上する。
そのため、分類器の出力は、離散的なレベルラベルだけでなく、レベルラベルを量子化する連続的な度量値となり、その結果、マルチレベル分類器の出力が測定可能になる。
まず、説明を分かり易くするために、説明で使用されるいくつかの基本的な記号の定義を以下に示す。
l個のラベル付きデータサンプルは、XL={(xi,yi)}, i=1,...,lとして記される。
u個のラベル無しデータサンプルは、XU={(xi,?)} ,i=l+1,...,l+uとして記される。
ここで、y∈{rk}, k=1,...,Kであり、rkは、第k番目のクラスの値であり、Kはクラスの総数である。
本発明が構築するのは、レベル関数と呼ばれる、統一的予測(uniform prediction)あるいは分類関数(classification function)fである。データサンプルxに対する関数の出力は、数値f(x)であり、すなわち、xが属するレベルの値である。最適化されたレベル関数は、f*と表わされる。
例として、その統一的な構造は以下の式(1)により表わすことができる。
f*=argfmin||f||2 K+r1VLevel(f,YR)+r2VOrder(f)+r3(1−α)||f||2 I+r3α||f||2 L (1)
ここで、||f||2 Kは、レベル関数fの基本的な最適化項である。r1,r2,r3,αは、それぞれ、本発明の発明の第1、第2、第3及び第4の構成要素に対応する項の効果を調整するためのパラメータである。
上述したように、本発明は、主に4つの最適化機能を含んでいる。すなわち、大局的なレベル値の距離に基づいた分類モデル調整(第1の調整)、データサンプル間の順序関係に基づいた分類モデル調整(第2の調整)、データサンプル間の類似性に基づいた分類モデル平滑化(第1の平滑化)、レベル間の類似性に基づいた分類モデル平滑化(第2の平滑化)である。
式(1)において、それらは、VLevel(f,YR)、VOrder(f)、||f||2 Iおよび||f||2 Lにそれぞれ対応している。
ここで、説明の便宜上、各項を、例として平方和を用いて説明する。しかし、本発明の原理は、この例に限定されず、各種の数学和(例えば、絶対値の和あるいは高累乗和(sum of higher power))に拡張することが可能である。
この項は、本発明の第1の調整(大局的なレベル値の距離に基づいた分類モデル調整機能)に対応する。
(2)VOrder(f)は、ラベル付きデータサンプル間の順序関係を、それらのレベルラベルの順序関係と一致するように保持する、一種の損失関数である。
この項は、本発明の第2の調整(データサンプル間の順序関係に基づいた分類モデル調整機能)に対応する。
(3)||f||2 Iは、データサンプル分布の幾何学的な構造を反映するデータサンプル類似度に基づいた平滑調整項であり、これにより、レベル関数fはデータ分布に従って滑らかに変化する。
この項は、本発明の第1の平滑化(データサンプル間の類似性に基づいた分類モデル平滑化機能)に対応する。
(4)||f||2 Lは、レベルの幾何学的な構造を反映するレベル類似度に基づいた平滑調整項であり、これにより、レベル関数fは、レベル順序分布に従って滑らかに変化する。
この項は、本発明の第2の平滑化(レベル間の類似性に基づいた分類モデル平滑化機能)に対応する。
分類モデル最適化手段302は、4つの分類モデル最適化機能の1つ以上の組合せを実現する。
上述したように、4つの分類モデル最適化機能は、大局的なレベル値の距離に基づいた分類モデル調整(第1の調整)3021、データサンプル間の順序関係に基づいた分類モデル調整(第2の調整)3022、データサンプルの間の類似度に基づいた分類モデル平滑化(第1の平滑化)3023及びレベル間の類似度に基づいた分類モデル平滑化(第2の平滑化)3024を含む。
上述したように、第1の調整および第2の調整は、教師ありシナリオに適用することができ、第1の平滑化および第2の平滑化は、半教師ありシナリオに適用することができる。
本発明の異なる実施例によれば、マルチレベル分類モデルの最適化は、第1の調整、第2の調整、第1の平滑化および第2の平滑化の異なる組合せによって実現することが可能である。
図4Aから図4Cに関して、以下の適用形態は例として示している。
本発明の原理は以下の組合せに限定されないこと、適用要求に従って当業者であれば機能を選択し、組合せることができることに留意すべきである。
適用形態2(図4B):第1の調整+第2の調整
適用形態3(図4C):第1の調整+第2の調整+第1の平滑化+第2の平滑化
図4Aおよび4Bは教師ありシナリオに適用することができる。図4Cは半教師ありシナリオへ拡張して適用することができる。
ステップ401aにおいて、ユーザがラベル付きデータサンプル集合を入力する。
その後、ステップ402aにおいて、分類モデル初期化手段301が、最初のマルチレベル分類モデルを生成する。
ここで、最初のマルチレベル分類モデルは、当業界において周知の任意の既存の方法を利用することにより生成することが可能である。
本発明において、最初のマルチレベル分類モデルは、統一的な分類超平面マッピング関数(uniform classification hyperplane mapping function)f、一連のレベル値および他の幾つかのパラメータから成る。
次に、ステップ403aにおいて、分類モデル最適化手段302が、最初の分類モデルについて第1の調整を実行する。
すなわち、分類モデル最適化手段302は、全てのレベル間の大局的なレベル値の距離に基づいて最初の分類モデルを調整する。
ステップ404aにおいて、最適化されたマルチレベル分類モデルが取得される。
図4Bに示す適用形態2において、分類モデル最適化手段302は、最初の分類モデルについて、第1の調整および第2の調整を実行する。
すなわち、分類モデル最適化手段302は、(1)全てのレベル間の大局的なレベル値の距離および(2)データサンプル間の順序関係に基づいて分類モデルを調整する。
ステップ401cにおいて、ユーザはラベル付きデータサンプル集合およびラベル無しデータサンプル集合を入力する。
その後、ステップ402cにおいて、分類モデル初期化手段301が、入力したラベル付きデータサンプル集合およびラベル無しデータサンプル集合を利用して、最初のマルチレベル分類モデルを生成する。
ステップ403cにおいて、分類モデル最適化手段302が、最初の分類モデルについて、第1の調整、第2の調整、第1の平滑化およびの第2の平滑化を実行する。
すなわち、分類モデル最適化手段302は、(1)全てのレベル間の大局的なレベル値の距離、(2)データサンプル間の順序関係、(3)データサンプル間の類似度および(4)分類レベル間の類似度に基づいて、分類モデルを最適化する。
その後、ステップ404cにおいて、最適化されたマルチレベル分類モデルが取得される。
レベル順序関係の導入は、マルチレベル分類器をマルチクラス分類器と区別する重要な特徴である。
本発明においては、レベル値に従ってレベルの間の距離を表わすためにユークリッド度量の仮説(assumption of Euclidean metric)をレベル空間に導入する。
その結果、例えば、平方損失を、以下のようにVLevel(f,YR)を表わすために採用することができる。
上記の式は、各ラベル付きデータサンプルの予測されるレベルラベル値とその対応するラベル付きレベルラベル値との間の距離の平方和を表わしている。
上記の式によれば、データサンプルが誤って分類されるレベルが真のレベルから外れるほど、損失がより大きくなる。
従って、誤った分類エラーが大局的なレベル値の距離によって最小化されれば、レベル関数は最適化されるだろう。
第1の調整の利点は、全てのレベル間の大局的な順序関係が量子化され、暗黙にかつ巨視的に最適化されるということである。
上述したように、平方和の他に、式(2)は各種の数学和(例えば、絶対値の和あるいは高累乗和(sum of higher power))を用いることが可能である。
さらにレベル順序関係を利用するために、本発明は、それらのレベルラベルに従ってデータサンプルの局所的な順序を保持する第2の構成要素を導入する。
まず、l個のラベル付きデータサンプルは、それらのレベルラベルに従って再度並び替えることができる。
区別するために、異なる添字xpが新たな順序における位置を示すために使用される。
その結果、例えば、ヒンジ損失(hinge loss)を、以下のようにVOrder(f)を表わすために採用することができる。
第2の調整において、ラベル付きデータサンプルの配列は、レベルラベルに従って再度並び替えられ、その後、その序列における隣接するデータサンプルの予測値間の順序エラーの数学和が、分類モデルを調整するために使用される。
それにより、レベル関数は、レベル順序関係によって制約されるデータ間の順序関係によって最適化される。
第2の調整の利点は、データサンプルの局所的な順序関係が明示的かつ微視的に最適化されるということである。
同様に、第2の調整における数学和は、式(3)で与えられる形式に限定されない。例えば、絶対値の和、平方和、高累乗和(sum of higher power)あるいはその他の形式を使用することが可能である。
第1の平滑化は、既存の技術におけるそれらの通常の方法と類似しており、分類モデルを全データ分布の固有の幾何学的構造によりよく一致させるために、ラベル無しデータサンプルを利用する。
この方法は以下の仮定に基づいている。
類似するデータサンプルは、同じレベルに分類される可能性が高い。
例えば、全てのラベル付きデータサンプルとラベル無しデータサンプル間のデータ類似度SI i,jは、それらの特性に基づいて、以下のガウスカーネル(Gaussian kernel)を使用することにより計算することができる。
上記の式において、分類モデルは、データサンプル間の類似度に基づいて重み付けされた予測レベルラベル値の間の距離の平方和に従って平滑化される。
従って、式(5)の最小化は、データ幾何学的分布に従ってレベル関数を滑らかに変化させる。
第1の平滑化の利点は、分類モデルを学習するために大量のラベル無しデータサンプルを利用することができることである。
しかしながら、この方法は、また、データ分布がレベル分布と常に一致するとは限らないという問題点を有する。従って、本発明は、さらに分類モデルを最適化するために第2の平滑化を使用する。上述したように、平方和の他に、式(5)は各種の数学和(例えば、絶対値の和あるいは高累乗和(sum of higher power))を用いることが可能である。
データサンプル間の一般的なサンプル類似度の他に、本発明は、さらに、マルチレベル分類器によって半教師ありシナリオに有効に適用することができる重要な特徴としてレベル類似度を導入する。
本発明においては、最初に、レベル値によってレベルの間の距離を表わすために、ユークリッド度量の仮説(assumption of Euclidean metric)に基づいて、レベル距離重み行列(level distance weight matrix)BL k,k'の概念が導入される、
例えば、それは以下の指数関数のように定義することができる。
BL k,k'=e−|rk−rk'| (6)
次に、既存の方法を利用して、kレベルに属するデータサンプルxiの確率を表す、データ−レベル確率行列Pi,kを計算する。
ここで、この既存の方法としては、例えば、非特許文献3(M. Qian、 F. Nie とC. Zhang による“Probabilistic labeled semi−supervised svm. In Workshop on Optimization Based Methods for Emerging Data Mining Problems” (IEEE International Conference on Data Mining (ICDM),2009))と題する論文で提案される方法を用いることが可能である。
最後に、データサンプルについて、レベル類似度の概念を以下のように導入する。
2つのデータサンプルxiとxjについて、それらの間のレベル類似度SI i,jは以下のように表される。
レベル類似度SI i,jの定義に基づいて、レベル類似度に基づいた平滑調整項||f||2 Lは以下のように定義することができる。
従って、式(8)の最小化は、レベル幾何学的分布に従ってレベル関数を滑らかに変化させる。
第2の平滑化の利点は、大量のラベル無しデータサンプルがマルチレベル分類モデルの学習において役立つだけでなく、レベルの順序の関係を考慮できることである。
上述したように、平方和の他に、式(8)は各種の数学和(例えば、絶対値の和あるいは高累乗和(sum of higher power))を用いることが可能である。
特に、本発明は、4つの分類モデル最適化機能、すなわち、大局的なレベル値の距離に基づいた分類モデル調整(第1の調整)、データサンプル間の順序関係に基づいた分類モデル調整(第2の調整)、データサンプル間の類似度に基づいた分類モデル平滑化(第1の平滑化)、レベル間の類似度に基づいた分類モデル平滑化(第2の平滑化)を提案する。これらは、それぞれ、分類レベル中の大局的なレベル値の距離、データサンプル間の順序関係、データサンプル間の類似度およびレベル間の類似度に基づいて分類モデルを調整し最適化する。
そのため、分類器の出力は、離散的なレベルラベルだけでなく、レベルラベルを量子化する連続的な度量値となり、その結果、マルチレベル分類器の出力が測定可能になる。
ラベル付きデータサンプルを入力するステップと、
レベル付きデータサンプルを用いて最初のマルチレベル分類モデルを生成するステップと、
生成した最初のマルチレベル分類モデルを最適化するステップとを含み、
前記最適化ステップで、全てのレベル間の大局的なレベル値の距離に基づいて最初のマルチレベル分類モデルを調整することを特徴とするマルチレベル分類モデルを構築する方法。
全てのレベル間の大局的なレベル値の距離に基づいて最初のマルチレベル分類モデルを調整するステップが、
全てのラベル付きデータサンプルについて、以下の項目の和が最小となるようにレベル分類関数を調節するステップを含む
(1)レベル分類関数に対応する分類超平面の間の距離の逆数
(2)各ラベル付きデータサンプルの予測レベルラベル値とその対応するラベル付きレベルラベル値の間の距離の数学和
ことを特徴とする付記1に記載のマルチレベル分類モデルを構築する方法。
最適化ステップが、さらに、ラベル付きデータサンプル間の順序関係に基づいて前記最初のマルチレベル分類モデルを調節するステップを含むことを特徴とする付記1に記載のマルチレベル分類モデルを構築する方法。
ラベル付きデータサンプル間の順序関係に基づいて前記最初のマルチレベル分類モデルを調節するステップが、
全てのラベル付きデータサンプルについて、以下の項目の和が最小となるようにレベル分類関数を調節するステップを含む
(1)レベル分類関数に対応する分類超平面の間の距離の逆数
(2)各ラベル付きデータサンプルの予測レベルラベル値とその対応するラベル付きレベルラベル値の間の距離の数学和
(3)レベルラベルに従って再度並び替えられたラベル付きデータサンプルの配列における隣接するデータサンプルの予想値間の順序エラーの数学和
ことを特徴とする付記3に記載のマルチレベル分類モデルを構築する方法。
半教師ありシナリオに拡張して適用され、
ラベル無しデータサンプルを入力するステップと、
レベル付きデータサンプルとラベル無しデータサンプルを用いて最初のマルチレベル分類モデルを生成するステップとをさらに含むことを特徴とする付記3に記載のマルチレベル分類モデルを構築する方法。
最適化ステップが、データサンプル間の類似度およびレベル間の類似度に基づいて最初のマルチレベル分類モデルを平滑化するステップを含むことを特徴とする付記5に記載のマルチレベル分類モデルを構築する方法。
前記平滑化ステップが、
全てのラベル付きデータサンプルについて、以下の項目の和が最小となるようにレベル分類関数を調節するステップを含む
(1)レベル分類関数に対応する分類超平面の間の距離の逆数
(2)各ラベル付きデータサンプルの予測レベルラベル値とその対応するラベル付きレベルラベル値の間の距離の数学和
(3)レベルラベルに従って再度並び替えられたラベル付きデータサンプルの配列における隣接するデータサンプルの予想値間の順序エラーの数学和
(4)全てのラベル付きデータサンプルとラベル無しデータサンプルについて、データサンプル間の類似度に基づいて重み付けされた予測レベルラベル値の間の距離の数学和
(5)全てのラベル付きデータサンプルとラベル無しデータサンプルについて、データサンプルのレベル間の類似度に基づいて重み付けされた予測レベルラベル値の間の距離の数学和
ことを特徴とする付記6に記載のマルチレベル分類モデルを構築する方法。
前記数学和が、絶対値の和、平方和あるいは高累乗和であることを特徴とする付記2、付記4又は付記7の何れかに記載のマルチレベル分類モデルを構築する方法。
各項目の数学和について重みパラメータを割り当てるステップを含み、
前記重みパラメータが、0に等しいかあるいは0より大きいことを特徴とする付記2、付記4又は付記7の何れかに記載のマルチレベル分類モデルを構築する方法。
最適化ステップが、以下の式を最小にする
f*=argfmin||f||2 K+r1VLevel(f,YR)+r2VOrder(f)+r3(1−α)||f||2 I+r3α||f||2 L
ここで、
BL k,k'=e−|rk−rk'|
(XL={(xi,yi)}, i=1,...,lは、l個のラベル付きデータサンプルを示し、fは、レベル関数を示し、||f||2 Kは、レベル関数fの基本的最適化項であり、YR={yi}, i=1,...,lは、l個のラベル付きデータサンプルのクラスラベルベクトルを示す)
であることを特徴とする付記9に記載のマルチレベル分類モデルを構築する方法。
マルチレベル分類モデルを構築するためのシステムであって、
ラベル付きデータサンプルを入力する第1の入力手段と、
レベル付きデータサンプルを用いて最初のマルチレベル分類モデルを生成する分類モデル初期化手段と、
生成した最初のマルチレベル分類モデルを最適化する分類モデル最適化手段とを備え、
前記分類モデル最適化手段が、全てのレベル間の大局的なレベル値の距離に基づいて最初のマルチレベル分類モデルを調整するように構成されることを特徴とするシステム。
前記分類モデル最適化手段が、さらに、ラベル付きデータサンプル間の順序関係に基づいて前記最初のマルチレベル分類モデルを調節するように構成されることを特徴とする付記11に記載のシステム。
半教師ありシナリオに拡張して適用され、
ラベル無しデータサンプルを入力する第2の入力手段を備え、
前記分類モデル初期化手段が、レベル付きデータサンプルとラベル無しデータサンプルを用いて最初のマルチレベル分類モデルを生成することを特徴とする付記12に記載のシステム。
前記分類モデル最適化手段が、さらに、データサンプル間の類似度およびレベル間の類似度に基づいて最初のマルチレベル分類モデルを平滑化するように構成されることを特徴とする付記13に記載のシステム。
102:局所レベル隣接度ベースの分類モデル調整手段
201:分類モデル初期化手段
202:データサンプル類似度ベースの分類モデル平滑化手段
300:分類モデル最適化システム
301:分類モデル初期化手段
302:分類モデル最適化手段
Claims (10)
- ラベル付きデータサンプルを入力するステップと、
レベル付きデータサンプルを用いて最初のマルチレベル分類モデルを生成するステップと、
生成した最初のマルチレベル分類モデルを最適化するステップとを含み、
前記最適化ステップで、全てのレベル間の大局的なレベル値の距離に基づいて最初のマルチレベル分類モデルを調整することを特徴とするマルチレベル分類モデルを構築する方法。 - 全てのレベル間の大局的なレベル値の距離に基づいて最初のマルチレベル分類モデルを調整するステップが、
全てのラベル付きデータサンプルについて、以下の項目の和が最小となるようにレベル分類関数を調節するステップを含む
(1)レベル分類関数に対応する分類超平面の間の距離の逆数
(2)各ラベル付きデータサンプルの予測レベルラベル値とその対応するラベル付きレベルラベル値の間の距離の数学和
ことを特徴とする請求項1に記載のマルチレベル分類モデルを構築する方法。 - 最適化ステップが、さらに、ラベル付きデータサンプル間の順序関係に基づいて前記最初のマルチレベル分類モデルを調節するステップを含むことを特徴とする請求項1に記載のマルチレベル分類モデルを構築する方法。
- ラベル付きデータサンプル間の順序関係に基づいて前記最初のマルチレベル分類モデルを調節するステップが、
全てのラベル付きデータサンプルについて、以下の項目の和が最小となるようにレベル分類関数を調節するステップを含む
(1)レベル分類関数に対応する分類超平面の間の距離の逆数
(2)各ラベル付きデータサンプルの予測レベルラベル値とその対応するラベル付きレベルラベル値の間の距離の数学和
(3)レベルラベルに従って再度並び替えられたラベル付きデータサンプルの配列における隣接するデータサンプルの予想値間の順序エラーの数学和
ことを特徴とする請求項3に記載のマルチレベル分類モデルを構築する方法。 - 半教師ありシナリオに拡張して適用され、
ラベル無しデータサンプルを入力するステップと、
レベル付きデータサンプルとラベル無しデータサンプルを用いて最初のマルチレベル分類モデルを生成するステップとをさらに含むことを特徴とする請求項3に記載のマルチレベル分類モデルを構築する方法。 - 最適化ステップが、データサンプル間の類似度およびレベル間の類似度に基づいて最初のマルチレベル分類モデルを平滑化するステップを含むことを特徴とする請求項5に記載のマルチレベル分類モデルを構築する方法。
- 前記平滑化ステップが、
全てのラベル付きデータサンプルについて、以下の項目の和が最小となるようにレベル分類関数を調節するステップを含む
(1)レベル分類関数に対応する分類超平面の間の距離の逆数
(2)各ラベル付きデータサンプルの予測レベルラベル値とその対応するラベル付きレベルラベル値の間の距離の数学和
(3)レベルラベルに従って再度並び替えられたラベル付きデータサンプルの配列における隣接するデータサンプルの予想値間の順序エラーの数学和
(4)全てのラベル付きデータサンプルとラベル無しデータサンプルについて、データサンプル間の類似度に基づいて重み付けされた予測レベルラベル値の間の距離の数学和
(5)全てのラベル付きデータサンプルとラベル無しデータサンプルについて、データサンプルのレベル間の類似度に基づいて重み付けされた予測レベルラベル値の間の距離の数学和
ことを特徴とする請求項6に記載のマルチレベル分類モデルを構築する方法。 - 前記数学和が、絶対値の和、平方和あるいは高累乗和であることを特徴とする請求項2、請求項4又は請求項7の何れかに記載のマルチレベル分類モデルを構築する方法。
- 各項目の数学和について重みパラメータを割り当てるステップを含み、
前記重みパラメータが、0に等しいかあるいは0より大きいことを特徴とする請求項2、請求項4又は請求項7の何れかに記載のマルチレベル分類モデルを構築する方法。 - マルチレベル分類モデルを構築するためのシステムであって、
ラベル付きデータサンプルを入力する第1の入力手段と、
レベル付きデータサンプルを用いて最初のマルチレベル分類モデルを生成する分類モデル初期化手段と、
生成した最初のマルチレベル分類モデルを最適化する分類モデル最適化手段とを備え、
前記分類モデル最適化手段が、全てのレベル間の大局的なレベル値の距離に基づいて最初のマルチレベル分類モデルを調整するように構成されることを特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910258920.2 | 2009-12-30 | ||
CN200910258920.2A CN102117411B (zh) | 2009-12-30 | 2009-12-30 | 用于构建多级别分类模型的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011138484A true JP2011138484A (ja) | 2011-07-14 |
JP5429940B2 JP5429940B2 (ja) | 2014-02-26 |
Family
ID=44216172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010231586A Expired - Fee Related JP5429940B2 (ja) | 2009-12-30 | 2010-10-14 | マルチレベル分類モデルを構築する方法とシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5429940B2 (ja) |
CN (1) | CN102117411B (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485259A (zh) * | 2015-08-26 | 2017-03-08 | 华东师范大学 | 一种基于高约束高分散主成分分析网络的图像分类方法 |
CN107808661A (zh) * | 2017-10-23 | 2018-03-16 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN109766922A (zh) * | 2018-12-18 | 2019-05-17 | 东软集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
KR20200052361A (ko) * | 2017-10-13 | 2020-05-14 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 클라우드-디바이스 협업적 실시간 사용자 사용 및 성능 비정상 검출을 위한 시스템 및 방법 |
CN112784863A (zh) * | 2019-11-08 | 2021-05-11 | 北京市商汤科技开发有限公司 | 图像处理网络训练、图像处理、智能行驶的方法及装置 |
JP2022534377A (ja) * | 2019-10-11 | 2022-07-29 | 平安科技(深▲せん▼)有限公司 | テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体 |
CN117875421A (zh) * | 2024-03-13 | 2024-04-12 | 中国水利水电第一工程局有限公司 | 基于深度学习的光伏阵列故障诊断方法及系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909654B (zh) * | 2017-02-24 | 2020-07-21 | 北京时间股份有限公司 | 一种基于新闻文本信息的多级分类系统及方法 |
CN107688823B (zh) * | 2017-07-20 | 2018-12-04 | 北京三快在线科技有限公司 | 一种图像特征获取方法及装置,电子设备 |
CN109886211B (zh) * | 2019-02-25 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN110442725B (zh) * | 2019-08-14 | 2022-02-25 | 科大讯飞股份有限公司 | 实体关系抽取方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7533076B2 (en) * | 2002-12-06 | 2009-05-12 | Kofax, Inc. | Effective multi-class support vector machine classification |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100594858C (zh) * | 2008-08-01 | 2010-03-24 | 杭州电子科技大学 | 一种脑电肌电联合控制的电动假手的控制方法 |
-
2009
- 2009-12-30 CN CN200910258920.2A patent/CN102117411B/zh not_active Expired - Fee Related
-
2010
- 2010-10-14 JP JP2010231586A patent/JP5429940B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7533076B2 (en) * | 2002-12-06 | 2009-05-12 | Kofax, Inc. | Effective multi-class support vector machine classification |
Non-Patent Citations (4)
Title |
---|
JPN7012004751; Wei Chu, S. Sathiya Keerthi: 'New approaches to support vector ordinal regression' Proceedings of the 22nd international conference on Machine learning , 2005, p.145-152. * |
JPN7012004752; Mikhail Belkin, Partha Niyogi, Vikas Sindhwani: 'Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples' The Journal of Machine Learning Research Vol.7, 20061201, p.2399-2434. * |
JPN7012004754; Mingjie Qian, Feiping Nie, Changshui Zhang: 'Probabilistic Labeled Semi-supervised SVM' Data Mining Workshops, 2009. ICDMW '09. IEEE International Conference on , 20091206, p.394-399. * |
JPN7013002596; Mingjie Qian, Feiping Nie, Changshui Zhang: 'Efficient Multi-class Unlabeled Constrained Semi-supervised SVM' Proceedings of the 18th ACM conference on Information and knowledge management , 200911, p.1665-1668 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485259A (zh) * | 2015-08-26 | 2017-03-08 | 华东师范大学 | 一种基于高约束高分散主成分分析网络的图像分类方法 |
US11321210B2 (en) | 2017-10-13 | 2022-05-03 | Huawei Technologies Co., Ltd. | System and method for cloud-device collaborative real-time user experience and performance abnormality detection |
KR20200052361A (ko) * | 2017-10-13 | 2020-05-14 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 클라우드-디바이스 협업적 실시간 사용자 사용 및 성능 비정상 검출을 위한 시스템 및 방법 |
KR102339239B1 (ko) * | 2017-10-13 | 2021-12-14 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 클라우드-디바이스 협업적 실시간 사용자 사용 및 성능 비정상 검출을 위한 시스템 및 방법 |
CN107808661A (zh) * | 2017-10-23 | 2018-03-16 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN107808661B (zh) * | 2017-10-23 | 2020-12-11 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN109766922B (zh) * | 2018-12-18 | 2021-10-12 | 东软集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN109766922A (zh) * | 2018-12-18 | 2019-05-17 | 东软集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
JP2022534377A (ja) * | 2019-10-11 | 2022-07-29 | 平安科技(深▲せん▼)有限公司 | テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体 |
JP7302022B2 (ja) | 2019-10-11 | 2023-07-03 | 平安科技(深▲せん▼)有限公司 | テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 |
CN112784863A (zh) * | 2019-11-08 | 2021-05-11 | 北京市商汤科技开发有限公司 | 图像处理网络训练、图像处理、智能行驶的方法及装置 |
CN112784863B (zh) * | 2019-11-08 | 2022-12-16 | 北京市商汤科技开发有限公司 | 图像处理网络训练、图像处理、智能行驶的方法及装置 |
CN117875421A (zh) * | 2024-03-13 | 2024-04-12 | 中国水利水电第一工程局有限公司 | 基于深度学习的光伏阵列故障诊断方法及系统 |
CN117875421B (zh) * | 2024-03-13 | 2024-05-17 | 中国水利水电第一工程局有限公司 | 基于深度学习的光伏阵列故障诊断方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102117411A (zh) | 2011-07-06 |
JP5429940B2 (ja) | 2014-02-26 |
CN102117411B (zh) | 2015-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5429940B2 (ja) | マルチレベル分類モデルを構築する方法とシステム | |
Li et al. | Enhanced transport distance for unsupervised domain adaptation | |
Wang et al. | Parametric local metric learning for nearest neighbor classification | |
JP4490876B2 (ja) | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 | |
JP6482481B2 (ja) | 2値分類学習装置、2値分類装置、方法、及びプログラム | |
Corchado et al. | WeVoS-ViSOM: An ensemble summarization algorithm for enhanced data visualization | |
Sumbul et al. | Deep learning for image search and retrieval in large remote sensing archives | |
Wang et al. | Deep generative model for robust imbalance classification | |
US20220129712A1 (en) | Deep neural network hardener | |
Xu et al. | Semi-supervised least-squares support vector regression machines | |
Seyedhosseini et al. | Fast adaboost training using weighted novelty selection | |
Wu et al. | Conditional mutual information-based contrastive loss for financial time series forecasting | |
Cortes et al. | Theory and algorithms for learning with rejection in binary classification | |
Cacciarelli et al. | Active learning for data streams: a survey | |
Zhu et al. | Adaptive conformal semi-supervised vector quantization for dissimilarity data | |
Wang et al. | Learning Domain‐Independent Deep Representations by Mutual Information Minimization | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
Aydogdu et al. | A new approach for data stream classification: unsupervised feature representational online sequential extreme learning machine | |
Nikolaou et al. | Calibrating AdaBoost for asymmetric learning | |
Zhu et al. | Multiview latent space learning with progressively fine-tuned deep features for unsupervised domain adaptation | |
Kajdanowicz et al. | Boosting-based sequential output prediction | |
Nikolaou et al. | Margin maximization as lossless maximal compression | |
Bahanshal et al. | An Optimized Hybrid Fuzzy Weighted k-Nearest Neighbor to Predict Hospital Readmission for Diabetic Patients | |
van Laarhoven et al. | Domain adaptation with randomized expectation maximization | |
Ren et al. | Group-based local adaptive deep multiple kernel learning with lp norm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130711 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131105 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131129 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |