JP5308360B2 - コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム - Google Patents

コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム Download PDF

Info

Publication number
JP5308360B2
JP5308360B2 JP2010007381A JP2010007381A JP5308360B2 JP 5308360 B2 JP5308360 B2 JP 5308360B2 JP 2010007381 A JP2010007381 A JP 2010007381A JP 2010007381 A JP2010007381 A JP 2010007381A JP 5308360 B2 JP5308360 B2 JP 5308360B2
Authority
JP
Japan
Prior art keywords
probability model
content
parameter
value
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010007381A
Other languages
English (en)
Other versions
JP2011145951A (ja
Inventor
昭典 藤野
修功 上田
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010007381A priority Critical patent/JP5308360B2/ja
Publication of JP2011145951A publication Critical patent/JP2011145951A/ja
Application granted granted Critical
Publication of JP5308360B2 publication Critical patent/JP5308360B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、特徴ベクトルにより表現可能なコンテンツを複数の種別を表すカテゴリに分類する際に、カテゴリが判明しているコンテンツとカテゴリが不明のコンテンツの双方の統計情報を用いてコンテンツを識別する識別関数のパラメータを学習し、その識別関数を用いてカテゴリが未知なコンテンツを分類するコンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラムに関する。
統計的手法に基づくコンテンツの自動分類技術では、コンテンツとカテゴリの依存関係の強さを表す識別関数をモデルパラメータと特徴ベクトルの関数として与え、最も強い依存関係のあるカテゴリを識別関数をもとに推定することでコンテンツの自動分類を行う。モデルパラメータの値は、一般的に、カテゴリが判明しているコンテンツ(以下、ラベルありサンプル)を用いて求める。
この枠組に基づく手法では、モデルパラメータ値の計算に用いるラベルありサンプルの量を増やすことで、新規のコンテンツの自動分類の精度を向上させることができる。しかし、ラベルありサンプルを得るには、人手でコンテンツをカテゴリに分類する必要があるため、大量のラベルありサンプルを準備することが容易ではない。そこで、どのカテゴリに属するか判明していないコンテンツ(以下、ラベルなしサンプル)を大量に集め、それらのラベルなしサンプルをモデルパラメータの計算に利用することで、ラベルありサンプルのみを利用する場合と比べて自動分類の精度を向上させる技術がある。
図7に、例えば特許文献1に開示されたコンテンツ分類装置1の機能構成例を示してその動作を簡単に説明する。図8にその動作フローを示す。コンテンツ分類装置1は、訓練データDB2、識別関数生成部3、コンテンツ分類部4、入力部5、出力部6、メモリ7を備える。
訓練データDB2には識別関数を学習するために用いる訓練データ集合が格納される。その訓練データ集合は、コンテンツの特徴ベクトル本体とコンテンツが属するカテゴリIDの対より構成されるラベルありサンプルと、カテゴリIDが付与されていないコンテンツのみで構成されるラベルなしサンプルとから構成されている。
その学習は、訓練データDB2に格納された訓練データ集合を用いて識別関数R(k|x,Θ,Ψ,Λ)のパラメータΘ,Ψ,Λを学習する。Θは生成モデルのパラメータ、Ψは学習された生成モデルの統計上の偏りを補正するバイアス補正モデルのパラメータ、Λは非線形の最適化計算である最大エントロピ原理により推定される生成モデルおよびバイアス補正モデルの結合パラメータである。つまり、識別関数R(k|x,Θ,Ψ,Λ)は、生成モデルとバイアス補正モデルを結合パラメータを用いて結合した関数として定義される。
識別関数生成部3は、生成モデルのパラメータの推定値Θ^をラベルありサンプルを用いて学習する(ステップS103)。識別関数生成部3は、ラベルありサンプルから任意の1つのサンプル(x,y)を除外して、1点除外ラベルありサンプルを生成して生成モデルのパラメータΘ(-n)を算出する。変数の直後に表記する記号^等は、本来、変数の真上に位置するのが正しい表記である。
生成モデルのパラメータΘ(-n)の算出は、全てのラベルありサンプルを除外した場合のサンプルパラメータの対が生成されるまで繰り返し実行される(図8のステップS105〜S110の処理を繰り返すループ)。そして、識別関数生成部3は、そのサンプルパラメータ対と生成モデルのパラメータとバイアス補正モデルのパラメータを用いて、最大エントロピ原理に基づいて生成モデルとバイアス補正モデルの結合パラメータΛの推定値Λ(t+1)を学習し、識別関数Rを生成する。
このように特許文献1の技術は、生成モデルのパラメータ(条件付確率モデル)を、ラベルありサンプルを用いて学習させることを基本的な特徴とするため、学習に用いるラベルありサンプルの与え方に、新規コンテンツの分類精度が大きく依存する。特許文献2も、同様な考えであるので説明は省略する。
また、非特許文献1,2,3に開示された技術では、コンテンツとカテゴリの確率モデルを識別関数として自動分類に用い、確率モデルのパラメータ値をラベルありサンプルとラベルなしサンプルを同時に用いて計算することを特徴とする。非特許文献1と3では、コンテンツxとカテゴリyの同時確率モデルp(x,y)を識別関数として用い、同時確率モデルを用いて周辺確率密度p(x)を与えることでラベルなしサンプルをパラメータ値の計算に利用することを可能にしている。
非特許文献2では、コンテンツxとカテゴリyの条件付確率モデルP(y|x)を識別関数として用い、条件付確率モデルが各ラベルなしサンプルを何れかのカテゴリに明確に識別するようにパラメータ値を計算する。また、非特許文献4に開示された技術では、確率モデルではない識別関数のパラメータ値をラベルありサンプルとラベルなしサンプルを用いて計算するが、各ラベルなしサンプルを何れかのカテゴリに明確に識別するように識別関数を学習させる点で非特許文献2の技術と類似する。
特許文献1,2や非特許文献5,6,7の技術では、ラベルありサンプルとラベルなしサンプルから識別関数のパラメータ値を計算するのに、2種類の確率モデルを用いることを特徴とする。特許文献1,2と非特許文献5の技術では、ラベルありサンプルを用いてパラメータ値を計算した確率モデルと、ラベルなしサンプルを用いてパラメータ値を計算した確率モデルを、重み付き統合することによって識別関数を与える。非特許文献6と7の技術では、条件付確率モデルP(y|x)を識別関数として用い、そのパラメータ値をラベルありサンプルを用いて計算する。その際、ラベルなしサンプルの統計情報を条件付確率モデルのパラメータ値に反映させるために、ラベルなしサンプルを用いて学習させる同時確率モデルp(x,y)のパラメータ値と条件付確率モデルのパラメータ値との差が大きくならないように制約を与えてパラメータ値を計算する。これらの技術では、ラベルありサンプルで学習させる確率モデルと、ラベルなしサンプルで学習させる確率モデルを適切に組み合わせて用いることで自動分類の精度を向上させることを特徴とする。
非特許文献8と9の技術では、識別関数のパラメータ値を計算する際に、重み付けされたラベルありサンプルを用い、その重みを決定するのにラベルなしサンプルを用いることを特徴とする。特許文献1と2や非特許文献1〜7の技術と異なり、識別関数のパラメータ値の計算にラベルなしサンプルを直接的に用いない。非特許文献8と9の技術では、ラベルありサンプルの分布よりもラベルなしサンプル集合に含まれるコンテンツと類似するラベルありサンプルに大きな重みを与えて識別関数のパラメータ値を計算することで、新規のコンテンツに対する自動分類の精度を向上させる。
特開2006−338263号公報 特開2009−259109号公報
K. Nigam, A. McCallum, S. Thrun, and T. Mitchell: Text classification from labeled and unlabeled documents using EM. Machine Learning, Vol. 39, pp. 103-134, 2000. Y. Grandvalet and Y. Bengio: Semi-supervised learning by entropy minimization. In Advances in Neural Information Processing Systems 17, 529-536(2005). Cambridge, MA: MIT Press. G. Druck, C. Pal, X. Zhu, and A. McCallum: Semi-supervised classification with hybrid generative/discriminative methods. In Proceedings of 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD’07), 280-289 (2007). R. Collobert, F. Sinz, J. Weston, and L. Bottou: Large scale transductive SVMs. Journal of Machine Learning Research, Vol. 7, pp. 1687-1712 (2006). J. Suzuki and H. Isozaki: Semi-supervised sequential labeling and segmentation using giga-word scale unlabeled data. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics(ACL-2008), 665-673 (2008). C. M. Bishop and J. Lasserre: Generative or Discriminative? Getting the best of both worlds. In Bayesian Statistics 8, 3-23 (2007). J. M. Bernardo, et al. (Eds), Oxford UniversityPress. A. Agarwal and H. Daume’ III: Exponential family hybrid semi-supervised learning. In Proceedings of the 21stInternational Joint Conference on Artificial Intelligence(IJCAI-2009), 974-979 (2009). S. Bickel, M.Bruckner, and T. Schefer: Discriminative learning for differing training and test distributions. In Proceedings of the 24th International Conference on Machine Learning(ICML-2007), 81-88 (2007). M. Sugiyama, S. Nakajima, H. Kashima, P. von Bunau, and M. Kawanabe: Direct importance estimation with model selection and its application to covariate shift adaptation. In Advances in Neural Information Processing Systems 20, 1433-1440 (2008). Cambridge, MA: MIT Press.
非特許文献1〜3の技術では、同時確率モデルまたは条件付確率モデルの何れか一方を識別関数として用い、識別関数のパラメータ値をラベルありサンプルとラベルなしサンプルを同時に用いて計算する。大量のラベルなしサンプルを識別関数のパラメータ計算に用いることで、ラベルありサンプルが少数であることによる訓練データの不足を補う。しかし、参考文献「M. Seeger: Learning with labeled and unlabeled data. Technical report, University of Edinburgh (2001)」に述べられているように、一般的に同時確率モデルはラベルなしサンプルの分布を学習するのに有効なモデルであるのに対し、条件付確率モデルは同時確率モデルよりラベルありサンプルを正しく分類するのに有効であることが知られている。このため、両モデルを適切に組み合わせることによって、非特許文献1〜3の技術よりもラベルありサンプルとラベルなしサンプルの統計情報を効果的に利用した識別関数を得られる可能性がある。しかし、同時確率モデルと条件付確率モデルの組み合わせ方法には理論的・実用的に決まった枠組みが存在せず、自動分類の精度を向上させるために両モデルをどのように組み合わせるかが技術的な課題となっている。
その課題を解決する方法として、特許文献1と2及び非特許文献5〜7の技術が開発されている。これらの技術は、同時確率モデルと条件付確率モデルの両方を用いて識別関数を与え、条件付確率モデルと同時確率モデルをそれぞれラベルありサンプルとラベルなしサンプルから学習させる点で同じである。実データを用いた評価実験で、これらの技術による自動分類精度の向上は確認されている。
しかし、これらの技術では、条件付確率モデルをラベルありサンプルを用いて学習させることを基本的な特徴とするため、識別関数の学習に用いるラベルありサンプルの与え方に新規コンテンツの自動分類の精度が大きく依存する。つまり、自動分類の対象となる新規コンテンツと識別関数の学習に用いるラベルありサンプルの分布が大きく異なる場合、新規コンテンツではなくラベルありサンプルのみを正しく識別するような条件付確率モデルを得てしまう。この条件付確率モデルを用いて与えられる識別関数は、新規コンテンツの自動分類に適するとは限らない。
また、非特許文献8と9の技術は、識別関数の学習に用いるラベルありサンプルと新規コンテンツが大きく異なる場合に、ラベルありサンプルのみに適した識別関数を得ること(過学習)を抑制する技術である。この技術では、大量に与えられるラベルなしサンプルの分布が新規コンテンツの分布と類似する場合に、ラベルなしサンプルの分布から新規コンテンツと大きく異なると推定されるラベルありサンプルに低い重みを与えてパラメータ値を計算することで、新規コンテンツにより適した識別関数を得ることを特徴とする。この技術は、ラベルありサンプルの分布と新規コンテンツの分布の相違によって生じる悪影響を抑制することを目的としており、ラベルありサンプル数の不足による識別関数の学習不足を、ラベルなしサンプルで補うことを目的としたものではない。つまり、テキスト分類などのように、疎な特徴量空間をもつ自動分類問題で特に見られるラベルありサンプルに含まれる特徴量を全く含まない新規コンテンツの自動分類の精度を、ラベルなしサンプルを活用することで向上させることは、この技術の目的ではない。
以上整理すると、非特許文献1〜3の技術は、同時確率モデル又は条件付確率モデルのどちらか一方を識別関数として用いる方法である。また、特許文献1と2及び非特許文献5〜7の技術は、条件付確率モデルのパラメータ値をラベルありサンプルのみを用いて計算するものである。また、非特許文献8と9の技術は、識別関数の学習不足をラベルなしサンプルで補うことを目的としたものではない。このように従来技術では、ラベルなしサンプルの統計情報を効果的に用いてカテゴリが未知なコンテンツを分類する方法はなかった。
この発明は、このような問題点に鑑みてなされたものであり、特徴ベクトルによって表現されるコンテンツを、内容を表すカテゴリに自動分類する際、分類対象となる新規コンテンツとパラメータ計算に用いるラベルありサンプルの分布が大きく異なる場合において、ラベルなしサンプルの統計情報を効果的に活用することによって新規コンテンツに対して頑健かつ高精度な自動分類を実現するコンテンツ自動分類装置と、コンテンツ自動分類方法およびコンテンツ自動分類プログラムを提供することを目的とする。
この発明のコンテンツ自動分類装置は、カテゴリが不明なコンテンツを入力として、そのコンテンツのカテゴリを分類するコンテンツ自動分類装置であって、識別関数生成部とコンテンツ分類部とを具備する。識別関数生成部は、コンテンツとカテゴリの依存関係の強さを表す識別関数を、条件付確率モデルP(y|x)と同時確率モデルp(x,y)との重み付き統合により構成し、コンテンツの属するカテゴリが既知のラベルありサンプル集合と、コンテンツの属するカテゴリが不明なラベルなしサンプル集合との、統計情報をもとに識別関数の同時確率モデルのパラメータΘ(t)と、条件付確率モデルのパラメータW(t)と、重みβ(t)と、を同時に計算して求める。コンテンツ分類部は、コンテンツと識別関数の各パラメータの推定値を入力としてその識別関数値を最大化させるカテゴリを求めて出力する。
この発明のコンテンツ自動分類装置によれば、コンテンツの識別関数を条件付確率モデルと同時確率モデルの重み付き統合で与え、識別関数のモデルパラメータである条件付確率モデルのパラメータと、同時確率モデルのパラメータと、重み付き統合の重みと、をラベルありサンプルとラベルなしサンプルの双方の統計情報を同時に用いて計算することで、ラベルありサンプルのみに適した識別関数を生成することを抑制すると共に、ラベルありサンプルに含まれない特徴量(特徴ベクトル)に関する識別関数の学習不足をラベルなしサンプルで補うことができる。その結果、分類対象となる新規コンテンツとパラメータ計算に用いるラベルありサンプルの分布が大きく異なる場合においても、新規コンテンツに対して頑健かつ高精度な自動分類を実現することができる。
この発明のコンテンツ自動分類装置100の機能構成例を示す図。 コンテンツ自動分類装置100の動作フローを示す図。 識別関数生成部20の機能構成例を示す図。 識別関数生成部20の動作フローを示す図。 ラベルありサンプルのデータ分布が、ラベルなしサンプルのデータ分布と大きく変わらない場合の評価実験の結果を示す図。 ラベルありサンプルのデータ分布とラベルなしサンプルのデータ分布との差が大きい場合の評価実験の結果を示す図。 特許文献1に開示されたコンテンツ分類装置1の機能構成を示す図。 コンテンツ分類装置1の動作フローを示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明のコンテンツ自動分類装置100の機能構成例を示す。図2にその動作フローを示す。コンテンツ自動分類装置100は、識別関数生成部20と、コンテンツ分類部40とを具備する。外部に訓練データDB10が設けられる。その各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
コンテンツ自動分類装置100は、予め設定したカテゴリ{1,…,k,…,K}の中から、分類対象コンテンツが属するカテゴリを推定する装置である。この推定は、予め識別関数生成部3で計算した識別関数のパラメータ値を用いて、分類対象コンテンツに対して最大の識別関数値を与えるカテゴリを探索することで行われる。
訓練データDB10には、自動分類対象となるコンテンツと同様の形式をもつコンテンツの例を集めて生成された訓練データ集合が記憶されている。例えば、Web記事を自動分類する場合、Web記事の例とその例の内容を表すカテゴリ(音楽、スポーツ、ビジネスなど)を記録した訓練データDB10を用いる。
訓練データ集合は、コンテンツ本体とカテゴリの対から成るラベルありサンプルと、属するカテゴリが不明なラベルなしサンプルから成る。カテゴリの候補は、利用者あるいは自動分類装置の設計者によって予め定義される。
識別関数生成部20は、条件付確率モデルP(y|x;W)と同時確率モデルp(x,y;θ)の重み付き統合(重みβ)に基づいて定義される識別関数のパラメータである条件付確率モデルのパラメータW^と、同時確率モデルのパラメータΘ^=[θ,…,θ,…,θ]と、重み付き統合の重みβ^の各値を、ラベルありサンプルとラベルなしサンプルを用いて同時に計算する(ステップS20)。識別関数のパラメータ値はメモリ30に記録するようにしても良い。ここでxはコンテンツの特徴ベクトル、y∈{1,…,k,…,K}はコンテンツが属するカテゴリを表す。Pは確率値、pは確率密度である。
コンテンツ分類部40は、識別関数のパラメータ値W^,β^,Θ^を用いて分類対象コンテンツxを、コンテンツが属するカテゴリに分類する(ステップS40)。
条件付確率モデルP(y|x;W)と同時確率モデルp(x,y;θ)の重み付き統合(重みβ)に基づいて定義される識別関数のパラメータをラベルありサンプルとラベルなしサンプルの双方の統計情報を同時に用いて計算することで、ラベルありサンプルのみに適した識別関数を生成することを抑制すると共に、ラベルありサンプルに含まれない特徴量に関する識別関数の学習不足をラベルなしサンプルで補うことができるので、新規コンテンツに対して頑健かつ高精度な自動分類を行うことができる。
図2に識別関数生成部20のより詳細な機能構成例を示す。その動作フローを図3に示す。識別関数生成部20は、基準計算部21と、確率値計算部22と、条件付き確率モデル計算部23と、同時確率モデル計算部24と、重み計算部25と、収束判定部26と、を備える。
基準値計算部21は、訓練データDB10に保存されているラベルありサンプル集合D(式(1))と、ラベルなしサンプル集合D(式(2))を読み込んで同時確率モデルp(x,y;θ)のパラメータθの基準値θを計算する(ステップS21)。
Figure 0005308360
ここで、nはラベルありサンプル集合に含まれるラベルありサンプルのID番号を表し、mはラベルなしサンプル集合に含まれるラベルなしサンプルのID番号を表す。
基準値θは、同時確率モデルのパラメータの初期値Θ(0)とされる。また、条件付確率モデルのパラメータの初期値W(0)と、重み付き統合の重みの初期値β(0)を設定する。
確率値計算部22は、各パラメータの初期値Θ(0),W(0),β(0)、若しくは収束判定部26から入力される収束途中の各パラメータΘ(t),W(t),β(t)を、パラメータ値としてラベルなしサンプルxがカテゴリyに属する確率値R(y|x;W(t),Θ(t),β(t))を計算する(ステップS22)。
条件付確率モデル計算部23は、確率値R(y|x;W(t),Θ(t),β(t))とラベルありサンプルとラベルなしサンプルを用いて条件付確率モデルのパラメータW(t+1)を計算する(ステップS23)。同時確率モデル計算部24は、確率値R(y|x;W(t),Θ(t),β(t))を入力として同時確率モデルのパラメータθ(t+1)を計算する(ステップS24)。
重み計算部25は、確率値R(y|x;W(t),Θ(t),β(t))と同時確率モデルのパラメータθ(t+1)を入力として重み付き統合の重みβ(t+1)を計算する(ステップS25)。
収束判定部26は、各パラメータW(t+1),θ(t+1),β(t+1)の変化量d(t+1,t)を計算し、収束条件d(t+1,t)<εを満たせばW^←W(t+1),Θ^←θ(t+1),β^←β(t+1)として各パラメータの推定値を出力する(ステップS26の収束)。収束条件を満たさなければ、パラメータの学習のステップをt←t+1のように更新してステップS22〜ステップS26までの処理を再度実施する。この処理は収束条件を満たすか、tが所定の回数tmaxに到達するまで繰り返される(ステップS26の未収束)。
このように一回の収束判定処理によって、識別関数のパラメータの推定値W^,Θ^,β^が計算される。つまり、各パラメータの推定値W^,Θ^,β^は、ラベルありサンプルとラベルなしサンプルの双方の統計情報を用いて同時に計算される。
識別関数生成部20を構成する各計算部で行われる計算の具体例を示して更に詳しく実施例1の動作を説明する。計算の具体例を、K個のカテゴリ{1,…,k,…K}からコンテンツxが属するカテゴリyを1つ選択する多クラス分類問題に対して、条件付確率モデルに対数線形モデル(最大エントロピーモデル、多項ロジスティック回帰モデルと等価)を、同時確率モデルに単純ベイズモデル(Naive Bayes model)を、用いた例で説明する。
コンテンツに含まれる単語や画素、リンク、或いはそれらの組み合わせ等により構成される特徴量空間をT={t,…,t,…,t}とするとき、コンテンツの特徴ベクトルxは、コンテンツに含まれるtの頻度xをもとにx=(x,…,x,…,xで表現される。添え字iはスカラー量であることを意味する。Vはコンテンツに含まれる可能性がある特徴の種類の数を表す。例えば、コンテンツがテキストデータである場合、Vはコンテンツに出現する可能性がある語彙の総数を表す。Aは行列(ベクトル)Aの転置を表す。
対数線形モデルでは、コンテンツxがカテゴリyに属する確率P(y|x)を式(3)で定義する。
Figure 0005308360
ここで、W=[w,…,w,…,w]は対数線形モデルのパラメータ行列を表し、w=(wk1,…,wki,…wkVである。単純ベイズモデルでは、カテゴリyとコンテンツxの同時確率密度p()を、カテゴリyにおけるそれぞれの特徴tの出現確率θyiが独立であると仮定して式(4)で定義する。
Figure 0005308360
ここで、θ=(θy1,…,θyi,…,θyVであり、θy1>0かつ|θ|=Σ i1θyi=1である。また、Θ=[θ,…θ,…,θ]は単純ベイズモデルのパラメータ行列を表す。P(y)>0はカテゴリyの出現確率を表し、Σ k=1P(k)=1を満たす。
この実施例では、識別関数生成部20において訓練データDB10に保存されているラベルありサンプル集合D(式(1))とラベルなしサンプル集合D(式(2))を読み込んで識別関数のパラメータ値の計算と識別関数の生成を行う(ステップS20、図2)。生成される識別関数は、識別関数によって与えられるコンテンツxがカテゴリyに属する確率R(y|x)とするとき、条件付確率モデルP(y|x;W)と同時確率モデルp(x,y;θ)に関する重み付き最適化(パレート最適化)に基づく目的関数(式(5))の最大化により与えられる。
Figure 0005308360
ここで、p^(x)は訓練データとして与えられるコンテンツの確率密度を表す。確率R(y|x)と条件付確率モデルのKL距離を式(6)、確率R(y|x)による同時確率モデルの期待対数尤度を式(7)でそれぞれ表す。
Figure 0005308360
βは、条件付確率モデルと同時確率モデルの重み付き統合の重みを与え、非負の値(β>0)を取るとする。すなわち、識別関数によって与えられる確率値R(y|x)と条件付確率モデルの差が小さく、かつ、確率値R(y|x)によって推定されるカテゴリyとコンテンツxの分布が同時確率モデルによく適合するように識別関数を与える。また、p(W)とp(Θ)は、パラメータWとΘの事前確率分布を表し、例えばそれぞれ正規分布とディリクレ分布を用いて式(8)と式(9)で与えられる。
Figure 0005308360
σとξ(>1)は、識別関数のパラメータ計算のために事前に値を設定すべき事前分布を表すパラメータ(ハイパーパラメータ)である。
式(5)で与えた目的関数を最大化させる確率値R(y|x)は、Σ k=1R(k|x)=1の条件下で方程式∂J/∂R=0を解くことで、条件付確率モデルと同時確率モデルを用いて式(10)で表現できる。
Figure 0005308360
確率値計算部22(図3)は、式(10)で与えられるR(y|x;W,Θ,β)を識別関数として生成する。
訓練データDB10に含まれるラベルありサンプル集合Dとラベルなしサンプル集合Dから計算すべき識別関数のパラメータは、条件付確率モデルのパラメータWと、同時確率モデルのパラメータΘ、重み付き統合の重みβである。ラベルありサンプル集合Dに含まれるコンテンツxのカテゴリyは判明しており、R(y|x)=1,R(y≠y|x)=0であるべきである。一方、ラベルなしサンプル集合Dに含まれるコンテンツxのカテゴリyは不明である。
そこで、ラベルありサンプルについてはR(y|x)=1,R(y≠y|x)=0とし、ラベルなしサンプルについては式(10)で与えられる確率値を用いて式(5)の目的関数を書き替えると式(11)になる。
Figure 0005308360
条件付確率モデル計算部23と同時確率モデル計算部24と重み計算部25は、条件付確率モデルと同時確率モデルとの重み付き統合に用いる重みの2乗値を、最小化すべき抑制項として目的関数に付加することで定義される最適化問題の解として、重み値β(t+1)と条件付確率モデルのパラメータ値W(t+1)と同時確率モデルのパラメータ値θ(t+1)と、を同時に計算する
つまり、条件付確率モデル計算部23と同時確率モデル計算部24は、式(11)の目的関数J(W,Θ|β)の最大化に基づいて識別関数を構成する条件付確率モデルと同時確率モデルのパラメータW,Θの値を計算する。具体的には、J(W,Θ|β)と基準値J(W,Θ|β)の差にβの抑制項を加えた式(12)の目的関数の最大化によりパラメータW,Θ,βを計算する。
Figure 0005308360
すなわち、基準値に対する目的関数J(W,Θ|β)の値が最大になるように識別関数のパラメータW,Θ,βの値を計算する。式(12)中のρは式(8)と式(9)中のσとξと同様に、パラメータ計算のために事前に定数値を設定すべきハイパーパラメータである。
基準値J(W,Θ|β)を与える条件付確率モデルのパラメータの基準値Wと同時確率モデルのパラメータの基準値Θは、各カテゴリに対して均等な確率値(R(y|x=1/K)を与えるパラメータ値として与える。これらの値は、式(5)にR(y|x)=1/Kを代入して得られる目的関数(式(13))を最大化させるパラメータW,Θとして与えられる。
Figure 0005308360
条件付確率モデルと同時確率モデル及びパラメータの事前確率分布として式(3),(4),(8),(9)を用いる場合、W=0であり、Θ=[θ^yi]i,yについては、ラベルありサンプル集合Dとラベルなしサンプル集合Dに含まれるコンテンツを用いて式(14)で計算できる。また、単純ベイズモデルに含まれるP(y)の推定値はP(y)=1/Kである。このため、式(14)と(15)を用いると式(12)は式(16)に示すように簡略化できる。
Figure 0005308360
Cは定数項であり識別関数のパラメータの計算には無関係である。
基準値計算部21は、予め外部から設定されるハイパーパラメータξとラベルありサンプルDとラベルなしサンプルDとを用いて同時確率モデルP(x,y;θ)のパラメータθの基準値θを式(14)で計算すると共に、同時確率モデルのパラメータの初期値Θ(0)をθ(0)k←θに、重み付き統合の重み値をβ(0)←0に初期化する。また、件付確率モデルのパラメータW(t+1)を、ラベルありサンプル集合Dを用いて式(17)で計算し、学習ステップtをt←0にする(ステップS21)。
Figure 0005308360
確率値計算部22は、条件付確率モデルのパラメータW(t)と同時確率モデルのパラメータΘ(t)と重みβ(t)とから式(10)で識別関数値R(y|x;W,Θ,β)を計算する(ステップS22)。学習ステップt=0では、各パラメータは初期値W(0),Θ(0),β(0)が用いられる。
条件付確率モデル計算部23と、同時確率モデル計算部24と、重み計算分25とは、期待値最大化(EM)アルゴリズムのような繰り返し計算を行うことでパラメータW(t),Θ(t),β(t)を計算する。
その繰り返し計算は、学習ステップ(t)におけるパラメータW(t),Θ(t),β(t)を、学習ステップ(t+1)におけるパラメータ値をQ関数(式(18))を最大化させるパラメータ値として計算する。
Figure 0005308360
このQ関数の最大化問題の解は、確率値計算部22で式(10)をもとに計算された確率値R(y|x;W(t),Θ(t),β(t))を用いて、条件付確率モデル計算部23でW(t+1)を式(19)で計算し(ステップS23)、同時確率モデル計算部24でΘ(t+1)を式(20)で計算する。
Figure 0005308360
式(20)中のIyn(y)はy=yの時に1、y≠yの時に0となる指示関数である。
式(17)で与えられるW(0)と式(19)で与えられるW(t+1)の値は、準ニュートン法の一種であるBFGSアルゴリズムや確率的勾配降下(SGD)法などを用いることで計算できる。BFGSアルゴリズムは参考文献「D. C. Liu and J. Nocedal: On the limited memory BFGS method for large scale optimization, Math. Programming, Ser. B, Vol. 45, No. 3, pp.503-528 (1989).」を参照。確率的勾配降下(SGD)法は参考文献「Y. Tsuruoka, J. Tsujii, and S. Ananiadou: Stochastic gradient descent training for L1-regularized log-linear models with cumulative penalty. In Proceedings of the 47thAnnual Meeting of the Association for Computational Linguistics (ACL-2009), 477-485 (2009).」を参照。
重み計算部25は、Θ(t+1)を用いて式(21)で重みβ(t+1)を計算する(ステップS25)。
Figure 0005308360
なお、式(21)は、同時確率モデルの重み値を、ラベルありサンプルに対する対数尤度とラベルなしサンプルに対する期待対数尤度に比例する量に設定することを意味する。すなわち、この実施例では、ラベルあり・なしサンプル双方に対する同時確率モデルの適合度に応じて重み値を設定し、この適合度が高いほど同時確率モデルに大きな重みを与えて識別関数を生成する。
収束判定部26は、学習ステップ(t+1)における識別関数のパラメータW(t+1),Θ(t+1),β(t+1)を計算したあと、例えば式(22)で与える収束条件を満たすか否かを確認する(ステップS26)。
Figure 0005308360
ここで、Ψ(t)=W(t)+β(t)logΘ(t)であり、‖Ψ(t)‖は行列Ψ(t)のフロベニウスノルムを表す。εは事前に与える微小な数値である。ステップS26で収束条件を満たす場合は、パラメータW(t+1),Θ(t+1),β(t+1)を各パラメータの推定値W^,Θ^,β^としてコンテンツ分類部40に出力する。各パラメータの推定値W^,Θ^,β^はメモリ30に記録するようにしても良い。収束条件を満たさない場合は学習ステップ(t)←t+1としてステップS22〜S26までの処理を繰り返す。
以上説明したパラメータ計算アルゴリズムを整理して書くと下記のようになる。
手順1:ハイパーパラメータσ,ξ,ρを所定値として外部から設定。
手順2:式(14)を用いてラベルありサンプル集合D(式(1))とラベルなしサンプル集合D(式(2))から同時確率モデルのパラメータの基準値θを計算(図4、ステップS21)。
手順3:学習ステップtとパラメータの初期値を設定
.学習ステップ(t)=0、Θ(t)の要素θ(t) yi,∀yにθ を代入。
.式(17)の右辺を満たすパタメータ値WをBFGSアルゴリズム又はSGD法を用いて計算し、W(t)に代入(ステップS21)。
手順4:識別関数のパラメータの推定値W^,Θ^,β^を計算。
.収束条件のパラメータεと、最大繰り返し計算tmaxの値を設定。
.W(t),Θ(t),β(t)を用いてラベルなしサンプルxがカテゴリyに属する確率値を計算(ステップS22)。
.BFGSアルゴリズム又はSGD法を用いて、式(19)によりラベルありサンプル集合Dとラベルなしサンプル集合D、ラベルなしサンプルの確率値{R(y|x;W(t),Θ(t),β(t))}m,kで表せる条件付確率モデルのパラメータ値W(t+1)を計算(ステップS23)。
.ラベルありサンプル集合Dとラベルなしサンプル集合D、ラベルなしサンプルの確率値{R(y|x;W(t),Θ(t),β(t))}m,kを用いて同時確率モデルのパラメータΘ(t+1)を計算(ステップS24)。
.式(21)により、ラベルありサンプル集合Dpとラベルなしサンプル集合D、ラベルなしサンプルの確率値{R(y|x;W(t),Θ(t),β(t))}m,kとΘ(t+1)を用いて表せる重み付き統合の重み値β(t+1)を計算(ステップS25)。
.収束判定(学習終了判定)処理を実行(ステップS26)
手順5:収束したパラメータの推定値W^,Θ^,β^をコンテンツ分類部40に出力。
コンテンツ分類部40は、識別関数R(y|x;W^,Θ^,β^)から正規化項を除去した関数(式(23))を用いて、式(24)を満たすカテゴリy^をコンテンツxの自動分類結果として出力する。
Figure 0005308360
コンテンツ分類部40の処理は、一般的な最大値を求めるアルゴリズムで簡単に実現することが可能であるのでこれ以上の説明は省略する。
〔実験結果〕
この発明の動作を確認する目的で、上位カテゴリとしてコンピュータに属するコンテンツを、5つのサブカテゴリに分類する評価実験を行った。テキスト自動分類装置の性能評価に良く用いられるデータベース20newsgroups(20News、非特許文献1参照)を用いた。
このデータベースには、コンテンツ本体とコンテンツが属するカテゴリ情報が付与されており、カテゴリの総数は20である。性能評価では2種類の評価用データセットを作成した。
評価用データセット1は、パラメータ値の計算に用いるラベルありサンプルと2500個のラベルなしサンプルを5つのサブカテゴリに属するコンテンツの中から無作為に抽出した。すなわち、ラベルなしサンプルとして抽出されたコンテンツについては、データベースに記録されたカテゴリ情報を用いずに、識別関数のパラメータ計算を行う。また、ラベルありサンプルとラベルなしサンプルとして抽出されなかった残りのコンテンツから1000文書を利用者が分類を望むコンテンツとして(以下、テストサンプル)無作為に抽出して自動分類の性能評価に用いた。性能評価の尺度には、自動分類装置で推定されるテストサンプルのカテゴリとデータベースに記録されているカテゴリの一致率(以下、正答率)を用いた。
評価用データセット2は、5つのサブカテゴリに属するコンテンツをspherical K-meansアルゴリズム(参考文献「I. S. Dhillon and D. S. Modha: Concept decompositions for large spase text data using clustering. Machine Learning, Vol. 42, pp. 143-175 (2001).」)を用いてクラスタリングし、異なるクラスタからそれぞれラベルありサンプルとラベルなしサンプルを抽出した。このようにクラスタリング結果を用いてサンプル抽出を行う事で、評価用データセット2は、評価用データセット1と比べて、ラベルありサンプルの分布とラベルなしサンプルの分布との、相違が大きくなる。
図5に、評価用データセット1を用いた場合の正答率とラベルありサンプルの数との関係を示す。縦軸が正答率、横軸がラベルありサンプルの数である。図中の●が実施例1で説明したこの発明のコンテンツ自動分類装置100で分類した結果、■は非特許文献5で開示された方法(LL-NB法)で分類した結果、◆は特許文献1で開示された方法で分類した結果を示す。ラベルありサンプルの数が増加するに従って正答率が向上する右上がりの特性を示し、各方法による正答率に大きな差が見られない。
図6に、評価用データセット2を用いた場合の結果を示す。この発明のコンテンツ自動分類装置100で分類した結果の正答率が、最も良い結果を示した。このようにラベルありサンプルのデータ分布と、ラベルなしサンプルのデータ分布との差が大きい場合にこの発明のコンテンツ自動分類装置100に優位性があることが分かる。すなわち、この発明によるコンテンツ自動分類装置100は、従来の分類装置に比べて、ラベルありサンプルの分布が大きく異なる場合においても、新規コンテンツに対して頑健かつ高精度な自動分類を可能にする。
実施例1に示した方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する各装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしても良い。例えば、この発明の特徴である識別関数のパラメータの値が同時に計算されることを分かり易く表現する目的で、図4において条件付確率モデル計算過程S23と、同時確率モデル計算過程S24と重み計算過程S25と、を並列に表記した。しかし、これらの過程は順次、時系列的に処理されるようにしても良い。つまり、一回の収束判定過程でそれぞれ1個のパラメータの推定値が計算されれば良い。
また、実施例1のコンテンツ自動分類装置100では、訓練データDB10をその外部に設ける例で説明を行ったが、訓練データDB10を含めた分類装置としても、この発明の技術思想に何んら影響を与えない。また、実施例1では、コンテンツ自動分類装置100に、未知のコンテンツの特徴ベクトルを直接与える例で説明を行ったが、生のコンテンツをそのまま入力するようにしても良い。その場合は、コンテンツ分類部40(図1)の前に入力部などを設け、そこで生のコンテンツを特徴ベクトルに変換する処理を行わせるようにすれば良い。
また、上記各装置における処理内容はプログラムによって記述される。また、各装置の機能構成部は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしても良い。

Claims (8)

  1. カテゴリが不明なコンテンツを入力として、そのコンテンツのカテゴリを分類するコンテンツ自動分類装置であって、
    コンテンツとカテゴリの依存関係の強さを表す識別関数を、条件付確率モデルP(y|x)と同時確率モデルp(x,y)との重み付き統合により構成し、コンテンツの属するカテゴリが既知のラベルありサンプル集合と、コンテンツの属するカテゴリが不明なラベルなしサンプル集合との統計情報をもとに、上記識別関数の同時確率モデルのパラメータΘ(t)と、条件付確率モデルのパラメータW(t)と、重みβ(t)、を同時に計算して求める識別関数生成部と、
    上記コンテンツの特徴ベクトルと上記識別関数の各パラメータの推定値を入力としてその識別関数値を最大化させるカテゴリを求めて出力するコンテンツ分類部と、
    を具備するコンテンツ自動分類装置。
  2. 請求項1に記載したコンテンツ自動分類装置において、
    上記識別関数生成部は、
    ラベルありサンプルとラベルなしサンプルに対する識別関数が与える条件付確率と上記条件付確率モデルとのKL距離(Kullback-Leibler divergence)の最小化と、識別関数が与える条件付確率による上記同時確率モデルの期待対数尤度の最大化との、重み付き最適化に基づいて条件付確率モデルと同時確率モデルの重み付き統合により識別関数を構成することを特徴とするコンテンツ自動分類装置。
  3. 請求項1又は2に記載したコンテンツ自動分類装置において、
    上記識別関数生成部は、
    上記ラベルありサンプルとラベルなしサンプルを用いて同時確率モデルp(x,y;θ)のパラメータθの基準値θを計算すると共に、同時確率モデルのパラメータの初期値Θ(0)と重みの初期値β(0)と条件付確率モデルのパラメータの初期値W(0)とを設定する基準値計算部と、
    条件付確率モデルのパラメータW(t)と同時確率モデルのパラメータΘ(t)と重み付き統合の重みβ(t)とから計算される識別関数値を用いて、ラベルなしサンプルがカテゴリに属する確率値を計算する確率値計算部と、
    上記確率値とラベルありサンプルとラベルなしサンプルを用いて条件付確率モデルのパラメータW(t+1)を計算する条件付確率モデル計算部と、
    上記確率値を用いて同時確率モデルのパラメータΘ(t+1)を計算する同時確率モデル計算部と、
    上記確率値と上記同時確率モデルのパラメータΘ(t+1)を用いて重み付き統合の重みの推定値β(t+1)を計算する重み計算部と、
    上記条件付確率モデルのパラメータW(t+1)と上記同時確率モデルのパラメータ値Θ(t+1)とモデル統合の重みβ(t+1)の変化量を計算し、収束条件を満たす上記各パラメータの推定値W^,Θ^,β^が求まるまで、或いは所定の回数に達するまで繰り返し処理を行う収束判定部と、
    を備えることを特徴とするコンテンツ自動分類装置。
  4. 請求項3に記載したコンテンツ自動分類装置において、
    上記重み計算部は、
    ラベルありサンプルとラベルなしサンプルに対する同時確率モデルの期待対数尤度をもとに上記重みの推定値β(t+1)を計算するものであることを特徴とするコンテンツ自動分類装置。
  5. 請求項3に記載したコンテンツ自動分類装置において、
    上記確率値計算部は、重み付き最適化に用いる目的関数を最大化させる確率値を、条件付確率モデルのパラメータの基準値と同時確率モデルのパラメータの基準値とを代入して得られる関数として計算するものであり、
    上記条件付確率モデル計算部と上記同時確率モデル計算部と上記重み計算部は、条件付確率モデルと同時確率モデルとの重み付き統合に用いる重みの2乗値を、最小化すべき抑制項として上記目的関数に付加することで定義される最適化問題の解として、重み値β(t+1)と条件付確率モデルのパラメータ値W(t+1)と同時確率モデルのパラメータ値θ(t+1)と、を同時に計算するものであることを特徴とするコンテンツ自動分類装置。
  6. 請求項3に記載したコンテンツ自動分類装置において、
    上記重み計算部は、
    ラベルありサンプルとラベルなしサンプルがカテゴリに属する確率をカテゴリによらずに一定としたときに、その一定の確率値と条件付確率モデルのKL距離を最小化させる条件付確率モデルのパラメータ値と、上記一定の確率値による同時確率モデルの期待対数尤度を最大化させる同時確率モデルのパラメータ値とを、条件付確率モデルのパラメータの基準値と同時確率モデルのパラメータの基準値として利用するものであることを特徴とするコンテンツ自動分類装置。
  7. カテゴリが不明なコンテンツを入力として、そのコンテンツのカテゴリを分類するコンテンツ自動分類方法であって、
    識別関数生成部が、コンテンツとカテゴリの依存関係の強さを表す識別関数を、条件付確率モデルP(y|x)と同時確率モデルp(x,y)との重み付き統合により構成し、コンテンツの属するカテゴリが既知のラベルありサンプル集合と、コンテンツの属するカテゴリが不明なラベルなしサンプル集合との、統計情報をもとに上記識別関数の同時確率モデルのパラメータΘ(t)と、条件付確率モデルのパラメータW(t)と、重みβ(t)、を同時に計算して求める識別関数生成過程と、
    コンテンツ分類部が、上記コンテンツの特徴ベクトルと上記識別関数の各パラメータの推定値を入力としてその識別関数値を最大化させるカテゴリを求めて出力するコンテンツ分類過程と、
    を含むコンテンツ自動分類方法。
  8. 請求項1乃至6のいずれか1項に記載のコンテンツ自動分類装置の各部の機能を、コンピュータに実行させるための装置プログラム。
JP2010007381A 2010-01-15 2010-01-15 コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム Expired - Fee Related JP5308360B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010007381A JP5308360B2 (ja) 2010-01-15 2010-01-15 コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010007381A JP5308360B2 (ja) 2010-01-15 2010-01-15 コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム

Publications (2)

Publication Number Publication Date
JP2011145951A JP2011145951A (ja) 2011-07-28
JP5308360B2 true JP5308360B2 (ja) 2013-10-09

Family

ID=44460740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010007381A Expired - Fee Related JP5308360B2 (ja) 2010-01-15 2010-01-15 コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム

Country Status (1)

Country Link
JP (1) JP5308360B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115264A (zh) * 2020-09-14 2020-12-22 中国科学院计算技术研究所苏州智能计算产业技术研究院 面向数据分布变化的文本分类模型调整方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140201208A1 (en) * 2013-01-15 2014-07-17 Corporation Symantec Classifying Samples Using Clustering
JP6482481B2 (ja) * 2016-01-13 2019-03-13 日本電信電話株式会社 2値分類学習装置、2値分類装置、方法、及びプログラム
US11164043B2 (en) 2016-04-28 2021-11-02 Nippon Telegraph And Telephone Corporation Creating device, creating program, and creating method
CN113312430B (zh) * 2020-02-27 2024-09-20 北京京东振世信息技术有限公司 物品的标签序列确定方法、装置、服务器及存储介质
CN111523604A (zh) * 2020-04-27 2020-08-11 中国银行股份有限公司 一种用户分类的方法和相关装置
CN112559748A (zh) * 2020-12-18 2021-03-26 厦门市法度信息科技有限公司 一种笔录数据案由分类方法、终端设备及存储介质
CN114528952B (zh) * 2022-04-24 2022-07-29 南京邮电大学 减少配电终端误告警的多源异构安全监测数据聚合方法
CN114595333B (zh) * 2022-04-27 2022-08-09 之江实验室 一种用于舆情文本分析的半监督方法和装置
CN117156221B (zh) * 2023-10-31 2024-02-06 北京头条易科技有限公司 一种短视频内容理解标注方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4490876B2 (ja) * 2005-06-01 2010-06-30 日本電信電話株式会社 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115264A (zh) * 2020-09-14 2020-12-22 中国科学院计算技术研究所苏州智能计算产业技术研究院 面向数据分布变化的文本分类模型调整方法
CN112115264B (zh) * 2020-09-14 2024-03-22 中科苏州智能计算技术研究院 面向数据分布变化的文本分类模型调整方法

Also Published As

Publication number Publication date
JP2011145951A (ja) 2011-07-28

Similar Documents

Publication Publication Date Title
JP5308360B2 (ja) コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム
US20210256392A1 (en) Automating the design of neural networks for anomaly detection
JP6482481B2 (ja) 2値分類学習装置、2値分類装置、方法、及びプログラム
Milios et al. Dirichlet-based gaussian processes for large-scale calibrated classification
US20200265301A1 (en) Incremental training of machine learning tools
Dioşan et al. Improving classification performance of support vector machine by genetically optimising kernel shape and hyper-parameters
Larranaga et al. A review on evolutionary algorithms in Bayesian network learning and inference tasks
Chen et al. Predictive subspace learning for multi-view data: a large margin approach
Sayad Real time data mining
Yu An evolutionary programming based asymmetric weighted least squares support vector machine ensemble learning methodology for software repository mining
Yang et al. Positive unlabeled learning via wrapper-based adaptive sampling.
JP2014026455A (ja) メディアデータ解析装置、方法、及びプログラム
CN108171261A (zh) 鲁棒的自适应半监督图像分类方法、装置、设备及介质
Fu et al. Long-tailed visual recognition with deep models: A methodological survey and evaluation
Chen et al. Bayesian feature interaction selection for factorization machines
Rastogi et al. Multi-label classification with missing labels using label correlation and robust structural learning
Chen et al. Domain invariant and agnostic adaptation
Zhuang et al. Semi-supervised classification via low rank graph
Waqas et al. Robust bag classification approach for multi-instance learning via subspace fuzzy clustering
Tao et al. Latent multi-feature co-regression for visual recognition by discriminatively leveraging multi-source models
US11574153B2 (en) Identifying organisms for production using unsupervised parameter learning for outlier detection
Li et al. Adversarial Sequence Tagging.
Li et al. Multi-label feature selection with high-sparse personalized and low-redundancy shared common features
Chang et al. Calibrated multi-task subspace learning via binary group structure constraint
Chen et al. Error bounds of multi-graph regularized semi-supervised classification

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110624

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130628

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5308360

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees