JP2009259109A - ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法 - Google Patents

ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法 Download PDF

Info

Publication number
JP2009259109A
JP2009259109A JP2008109409A JP2008109409A JP2009259109A JP 2009259109 A JP2009259109 A JP 2009259109A JP 2008109409 A JP2008109409 A JP 2008109409A JP 2008109409 A JP2008109409 A JP 2008109409A JP 2009259109 A JP2009259109 A JP 2009259109A
Authority
JP
Japan
Prior art keywords
model
label
labeling
conditional probability
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008109409A
Other languages
English (en)
Other versions
JP5139874B2 (ja
Inventor
Akinori Fujino
昭典 藤野
Hideki Isozaki
秀樹 磯崎
Shuko Ueda
修功 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008109409A priority Critical patent/JP5139874B2/ja
Publication of JP2009259109A publication Critical patent/JP2009259109A/ja
Application granted granted Critical
Publication of JP5139874B2 publication Critical patent/JP5139874B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ラベル付与のための事前学習と高精度なラベル付与を短い計算時間で実現できるラベル付与モデルを生成することを課題とする。
【解決手段】本発明の自動多重ラベル付与装置1では、条件付確率モデル生成部4が、分類モデル51のパラメータ、偏り補正モデル52のパラメータ、および、統合パラメータをもとに、分類モデル51と偏り補正モデル52とを重み付き統合することで、ラベル付与モデルである条件付確率モデル53を生成する。
【選択図】図1

Description

本発明は、特徴ベクトルで表現可能なコンテンツ(文字や画像等)に、コンテンツの内容の分類を表すラベルを付与する技術に関する。
近年、データベース等に含まれるコンテンツにラベルを付与する技術の研究や開発が盛んに行われている。ここで、コンテンツとは、論文、特許公報、オンラインニュースデータ、電子メール等のテキスト情報からなるものや、Webデータ、ブログデータ等のテキスト情報とリンク情報からなるもの、さらに、画像データからなるもの等のことを指す。また、この場合、コンテンツは、特徴ベクトルにより表現可能であることを前提とする。
特徴ベクトルとは、コンテンツに含まれる要素(特徴)の出現頻度の比をベクトルで表したものである。例えば、あるコンテンツに「データ」「情報」「処理」という単語(特徴)が、それぞれ「3回」「1回」「2回」出現する(使用されている)とき、そのコンテンツの特徴ベクトルは{3,1,2}あるいは{3/6,1/6,2/6}等と表現することができる。
また、ラベルとは、前記したようにコンテンツの内容の分類(種別)を表すものであり、「コンピュータ」「スポーツ」「音楽」「数学」といったものが挙げられる。例えば、コンテンツが特許文書である場合、IPC(International Patent Classification:国際特許分類)、Fターム(File Forming Term:特許の分類体系の1つ)、FI(File Index:特許の分類体系の1つ)等における分類記号がラベルに相当する。
そして、ラベル付与技術において、使用するラベルは予め決定されていることが一般的である。また、ラベル付与装置(自動多重ラベル付与装置)の学習には、訓練データ(予め蓄積されたコンテンツの集合)が使用される。訓練データは、例えば、付与すべきラベルがすでに決定されているコンテンツ(以下、「ラベルありサンプル」ともいう。)と付与すべきラベルが未定のコンテンツ(以下、「ラベルなしサンプル」ともいう。)との混在構成となっている場合もあれば、ラベルありサンプルのみの構成となっている場合もある。そして、訓練データを用いて学習が行われたラベル付与装置によって、ラベル未付与のコンテンツ(ラベル付与対象コンテンツ)に1つ以上のラベルを付与することができるようになる。
例えば、非特許文献1,2に示すラベル付与装置は、コンテンツに複数のラベルを付与する問題において、個々のラベルごとに、コンテンツの特徴ベクトルを入力してそのコンテンツに付与すべきラベルの組合せを出力する多重分類モデルを設計して実現される。すなわち、これらのラベル付与装置では、ラベルの組合せをクラス(以下、クラス)とみなして、特徴ベクトルからクラスヘの写像を与える多重分類モデルを設計する。多重分類モデルの設計は、ラベルありサンプルから統計情報を学習することにより行われる。
また、非特許文献3,4および特許文献1に示すラベル付与装置では、ラベルありサンプルが少数しかない場合、ラベルなしサンプルを併せて用いてラベル付与装置を学習させることで、ラベル付与の精度を向上させることを基本的な特徴とする。一般的に、ラベルありサンプルの作成は熟練者によるコンテンツヘのラベル付与が必要となるため、多数のラベルありサンプルを用いてラベル付与装置を学習させることは困難である。そこで、少数のラベルありサンプルを用いてラベル付与装置を学習させると、その学習されたラベル付与装置にはラベルありサンプルの与え方に依存する統計的な偏りが生じ、その結果、学習させたラベル付与装置が新規のコンテンツに付与すべきラベルを正確に予測(付与)できないことが多い。このため、非特許文献3,4および特許文献1では、少数のラベルありサンプルに加え、多数のラベルなしサンプルを用いてラベル付与装置の学習の偏りを緩和することで、精度の向上を図っている。
上田修功、斉藤和巳:「多重トピックテキストの確率モデル−パラメトリック混合モデル−」、電子情報通信学会論文誌、J87-D-II(3)、872-883頁、2004年 賀沢秀人、泉谷知範、平博順、前田英作、磯崎秀樹:「最大マージン原理に基づく多重ラベリング学習」、電子情報通信学会論文誌、J88-D-II(11)、2246-2259頁、2005年 Grandvalet, Y. and Bengio, Y.: Semi-supervised learning by entropy minimization. In Advances in neural information processing systems 17, Cambridge, MA: MIT Press., 529-536, 2005 Druck, G., Pal, C., Zhu, X., and McCallum, A.: Semi-supervised classification with hybrid generative/discriminative methods. In Proceedings of 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'07), 280-289, 2007 特開2006−338263号公報
非特許文献1,2の技術では、ラベル付与装置の学習にラベルありサンプルのみを用いる。これらの技術で高性能なラベル付与装置を得るためには、大量のラベルありサンプルを必要とする。しかしながら、ラベルありサンプルの作成には人手を要するため、大量のラベルありサンプルを用意することは困難である。ラベルありサンプルが少数しかない場合、これらの技術で高性能なラベル付与装置を得ることは期待できない。
また、非特許文献3,4の技術では、ロジスティック回帰モデルや最大エントロピーモデル等の対数線形モデルを用いてラベル付与装置を設計する。そして、ラベルありサンプルとラベルなしサンプルの両方に適合するように対数線形モデルのパラメータを学習する。ラベルなしサンプルを対数線形モデルに適合させるために、非特許文献3,4では、それぞれ、対数線形モデルの最小エントロピー正則化、対数線形モデルの周辺分布の尤度最大化の技術を用いている。しかし、コンテンツには文書や画像といった種類ごとにサンプルの分布に特徴があるのにもかかわらず、これらの技術に用いられている対数線形モデルはサンプルの分布の特徴を全く考慮せずに設計される。したがって、これらの対数線形モデルにラベルなしサンプルを適合させても、高精度なラベル付与装置を得られる可能性が低い。
一方、特許文献1の技術では、サンプルの分布の特徴を与える確率モデルを設計する。そして、ラベルありサンプルとラベルなしサンプルを用いて確率モデルを学習し、サンプルが属するある1つのクラスを予測する自動分類装置を構築する。この自動分類装置を個々のラベルごとにラベルを付与するか否かを判定する問題に適用することで、ラベル付与装置を構築することができる。しかし、この方法で構築されるラベル付与装置は、コンテンツにラベルを1つも付与しないと予測する場合がある。その結果、コンテンツに1つ以上のラベルを付与すべき課題に対するラベル付与装置に関しては、高い精度を期待できないという問題がある。
また、特許文献1の技術を、コンテンツからクラスヘの写像を直接学習する場合に適用することも考えられる。しかし、K個のラベルがある場合に、可能性のあるクラスは2−1個(ラベルゼロのクラスは除外)あり、Kが大きくなるとクラス数は膨大になる。したがって、Kが大きな多重ラベル付与問題では、ラベル付与装置の学習とコンテンツヘのラベル付与の予測に膨大な計算時間が必要となり、実用的な時間で計算することが極めて困難になる。
そこで、本発明は、前記問題点に鑑みてなされたものであり、ラベル付与のための事前学習と高精度なラベル付与を短い計算時間で実現できるラベル付与モデル(条件付確率モデル)を生成することを課題とする。
前記課題を解決するために、本発明は、特徴ベクトルで表現可能なコンテンツに、前記コンテンツの内容の分類を表すラベルを1つ以上付与するラベル付与装置であって、前記ラベルがすでに付与されている前記コンテンツであるラベルありサンプル、および、前記ラベルがまだ付与されていない前記コンテンツであるラベルなしサンプルを、それぞれ複数格納する記憶部と、前記記憶部に格納された複数のラベルありサンプルをもとに、前記特徴ベクトルで表現されたコンテンツに対して付与すべきラベルを推定するための分類モデルに関するパラメータを計算し、前記記憶部に格納された複数のラベルなしサンプルをもとに、前記コンテンツの種類に応じた確率モデルを与え、前記分類モデルの付与ラベル推定の偏りを補正するため偏り補正モデルに関するパラメータを計算し、前記分類モデルに関するパラメータ、前記偏り補正モデルに関するパラメータ、および、前記分類モデルと前記偏り補正モデルとを統合して前記特徴ベクトルを条件とする付与ラベルの組合せの確率である条件付確率を求めるための条件付確率モデルを生成するときに使用する統合パラメータ、を含んだ所定の目的関数の値を最大化するような前記統合パラメータを計算し、前記分類モデルのパラメータ、前記偏り補正モデルのパラメータ、および、前記統合パラメータをもとに、前記分類モデルと前記偏り補正モデルとを重み付き統合することで、前記条件付確率モデルを生成する条件付確率モデル生成部と、を備え、前記所定の目的関数は、前記記憶部に格納されたラベルありサンプルそれぞれに対応する付与ラベルの組合せに対して前記条件付確率モデルが与える、前記条件付確率の総和または総和に準ずる値を表す関数であり、前記条件付確率モデル生成部は、前記所定の目的関数の値を最大化するような前記統合パラメータを計算するとき、前記所定の目的関数に含まれる項のうち、前記ラベルごとに独立な関数の値を用いて計算することで前記統合パラメータを計算することを特徴とする。
かかる発明によれば、分類モデルと偏り補正モデルとを統合して条件付確率モデルを生成するときに使用する統合パラメータを、所定の目的関数の値を最大化するようにして計算することで、分類モデルと偏り補正モデルとを統合しても、ラベル予測精度を低下させないような条件付確率モデルを得ることができる。つまり、分類モデルと偏り補正モデルとを、単純に統合するのではなく、正解ラベルが判明しているラベルありサンプルの特徴ベクトルを入力したときに高精度でその正解ラベルを予測(付与判定)できるように統合することで、新規のコンテンツに対して高精度なラベル付与を期待できる条件付確率モデルを得ることができる。また、この統合パラメータを計算する際は、所定の目的関数に含まれる項のうち、ラベルごとに独立な関数の値を用いて計算することで、計算時間が短くて済む。つまり、ラベルの数が多くなるにつれて、従来技術では指数関数的に計算時間が増えてしまっていたが、本発明では、一次関数的に(ラベルの数に比例したオーダーで)しか計算時間が増えないので、特にラベルの数が多いときは従来技術に比べて計算時間が非常に短くて済む。
また、本発明は、前記条件付確率モデル生成部が、前記分類モデルと前記偏り補正モデルとを、最大エントロピー原理に基づいて重み付き統合することで、前記条件付確率モデルを生成することを特徴とする。
かかる発明によれば、最大エントロピー原理を使うことで、できるだけ多くのラベルありサンプルのクラスを正確に予測する(精度のよい)条件付確率モデルを与えるような所定の目的関数を得ることができ、その目的関数を使用することで分類モデルと偏り補正モデルを適切に統合することができる。
また、本発明は、前記統合パラメータが、前記分類モデルと前記偏り補正モデルとを重み付き統合するときの統合比と、ラベル付与に対する前記ラベルごとの付与度の不均一さを調整する定数項と、を含んでいることを特徴とする。
かかる発明によれば、統合比と定数項とを算出して使用することで、ラベルありサンプルに付与されているラベルを高精度で予測できるように、分類モデルと偏り補正モデルを統合し、かつ、各ラベルの付与度の調整ができる。その結果、新規のコンテンツに対して高精度なラベル付与を期待できる条件付確率モデルを得ることができる。
また、本発明は、前記分類モデルが、前記ラベルごとに独立し、ラベル付与の有無を2値で扱う2値分類モデルであり、前記偏り補正モデルは、前記ラベルごとに独立した確率モデルであり、前記条件付確率モデル生成部は、前記ラベルごとに独立な関数の値を用いて計算することで、前記統合比、前記定数項、および、前記偏り補正モデルのパラメータを算出することを特徴とする。
かかる発明によれば、分類モデルおよび偏り補正モデルをラベルごとに独立したモデルとすることで、所定の目的関数をラベルごとに独立な関数で分解して表現することが確実にできる。これにより、ラベル数をKとした場合、従来技術のときのようにラベルの組合せ数(2−1)ではなく、ラベル数(K)またはその定数倍(2倍など)に比例したオーダーの計算時間(計算量)で、統合比、定数項、および、偏り補正モデルのパラメータを算出することができる。つまり、Kが大きいとき、「2−1」よりも「Kまたはその定数倍」のほうが圧倒的に小さいので、計算時間が短くて済む。
また、本発明は、ラベル付与対象の新規のコンテンツの入力を受け付ける入力部と、前記入力部が受け付けた新規のコンテンツに関して、前記条件付確率モデルを用いて付与ラベルの組合せの条件付確率の最大化を図ることで、付与する1つ以上のラベルを決定するラベル付与部と、をさらに備えることを特徴とする。
かかる発明によれば、コンテンツの内容の分類を表すラベルを1つ以上付与するように、つまり、ラベルを1つも付与しない事象を除去(排除)して、条件付確率モデルを生成(設計)するので、その条件付確率モデルを用いて、新規のコンテンツに対して1つ以上のラベルを必ず付与することができる。
また、本発明にかかるラベル付与プログラムは、コンピュータを前記ラベル付与装置として機能させることを特徴とする。
かかる発明によれば、コンピュータを前記いずれかのラベル付与装置として機能させることができる。
また、本発明にかかる記録媒体は、前記ラベル付与プログラムが記録されたことを特徴とし、コンピュータに読み取り可能である。
かかる発明によれば、この記録媒体の情報を読み取ったコンピュータは、この記録媒体に記録されたラベル付与プログラムに基づいた各機能を実現することができる。
本発明によれば、ラベル付与のための事前学習と高精度なラベル付与を短い計算時間で実現できるラベル付与モデル(条件付確率モデル)を生成することができる。
以下、本発明を実施するための最良の形態(以下、実施形態という。)について、図面を参照(言及図以外の図も適宜参照)しながら説明する。なお、実施形態について、概要、具体例、アルゴリズム例、実験例の順で説明する。
[概要]
図1は、本実施形態の自動多重ラベル付与装置の構成を示す機能ブロック図の例である。自動多重ラベル付与装置(ラベル付与装置)1は、記憶部10、処理部20、入力部7および出力部8を備えて構成される。自動多重ラベル付与装置1は、その設計者(以下、単に「設計者」という。)が予め設定した有限個のラベル{1,…,k,…,K}の中から、コンテンツに付与すべきラベルの組合せ(クラス)を推定する装置である。
自動多重ラベル付与装置1は、具体的にはコンピュータ装置であり、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、入出力インタフェース、通信インタフェース等を備えている。例えば、訓練データDB(Data Base)2はHDD内の所定領域に格納され、メモリ5はRAMによって実現される。また、処理部20は、ROMやHDDに記憶された各種プログラムをCPUがRAMを作業領域として実行することによって実現される。
訓練データDB2には、ラベル付与対象のコンテンツ(以下、「ラベル付与対象コンテンツ」という。)と同様の形式をもつコンテンツの例を集めて生成された訓練データ(学習用のデータ)として、ラベルありサンプル21とラベルなしサンプル22が記憶されている。
ラベルありサンプル21は、コンテンツ本体(あるいはその特徴ベクトル)とラベルごとのラベル付与の可否を示すラベル付与ベクトルの対から成るデータである。また、ラベルなしサンプル22は、ラベル付与ベクトルがなく(ラベルが付与されておらず)、コンテンツ本体(あるいはその特徴ベクトル)のみから成るデータである。
ここで、ラベル付与ベクトルとは、すべてのラベル候補に対する付与の可否をベクトルとして表現したもので、自動多重ラベル付与装置1の利用者(以下、単に「利用者」という。)あるいは設計者によって予め付与されている。なお、訓練データに関して、コンテンツ本体の例としては特許文書が挙げられ、その場合のラベルの例としてはIPCやFターム等の記号が挙げられる。また、使用するラベルの種類や数は予め決定されているものとする。さらに、ラベルありサンプル21は、ラベル付与の手間があって大量準備が困難であるので、その数は例えば数十程度である。また、ラベルなしサンプル22は、ラベル付与の手間がなくて大量準備が容易であるので、その数は例えば数千程度である。
メモリ5は、前記したように処理部20の作業領域であり、必要に応じて、分類モデル51、偏り補正モデル52、条件付確率モデル53等を、それらの各パラメータとともに記憶する。分類モデル51は、新規のコンテンツの特徴ベクトルを入力すると付与すべきラベルを推定するために用いられるものである。分類モデル51は、予め設計者によって関数形等で与えられ、ラベルありサンプル21をもとに分類モデル生成部3によってそのパラメータが決定(更新)される(詳細は後記)。なお、この分類モデル51のパラメータは、数の少ないラベルありサンプル21に基づいて決定されるので、分類モデル51が高精度なラベル付与モデルであるとは限らない。
偏り補正モデル52は、コンテンツの種類に応じた確率モデルを与え、分類モデル51の付与ラベル推定の偏りを補正するためのものである。この偏り補正モデル52は、ラベルなしサンプル22をもとに条件付確率モデル生成部4によって生成される(詳細は後記)。
条件付確率モデル53は、分類モデル51と、偏り補正モデル52と、ラベルありサンプル21とをもとに条件付確率モデル生成部4によって生成されるものである(詳細は後記)。この条件付確率モデル53によって、高精度なラベル付与モデルが実現される。
分類モデル生成部3は、前記したように、ラベルありサンプル21をもとに分類モデル51を生成する。条件付確率モデル生成部4は、前記したように、ラベルなしサンプル22をもとに偏り補正モデル52を生成し、分類モデル51と偏り補正モデル52とラベルありサンプル21とをもとに条件付確率モデル53を生成する。
自動多重ラベル付与部6は、条件付確率モデル53を用いてラベル付与対象コンテンツヘの各ラベルの付与の可否を判定する(詳細は後記)。
入力部7は、ラベル付与対象コンテンツの入力を受け付けるインタフェースであり、例えば、ラベル付与対象コンテンツがネットワークを介して入力される場合は、ネットワークカードにより実現される。
出力部8は、自動多重ラベル付与装置1による多重ラベル付与の結果等を画面表示したり外部装置に出力したりするインタフェースであり、例えば、液晶ディスプレイや通信装置等へのインタフェースにより実現される。
次に、分類モデル生成部3と条件付確率モデル生成部4の処理の手順について説明する。図2は、分類モデル生成部3と条件付確率モデル生成部4の処理の手順の概要を示すフローチャートである。
ラベルの組合せの推定は、分類モデル生成部3と条件付確率モデル生成部4で学習された条件付確率モデル53を用いて、自動多重ラベル付与部6がコンテンツに対するクラスの条件付確率R(y|x)を計算することで行われる。ここで、xはコンテンツの特徴ベクトルを表す。また、y=(y,…,y,…,y),y∈{1,0}はラベル付与ベクトルを表し、コンテンツが属するクラスを一意に示す。なお、y=1はラベルkがコンテンツに付与されることを示し、y=0はラベルkがコンテンツに付与されないことを示す。
分類モデル生成部3では、設計者によって与えられた分類モデル51に関する処理を行う。図2に示すように、分類モデル生成部3は、まず、訓練データDB2に保存されているラベルありサンプル21の集合D={(x(n),y(n))} n=1(本明細書において、「 n=1」は「n」に「1」から「N」までを代入することを意味する。他の文字についても同様。)((x(n),y(n))はn番目のラベルありサンプル21を示す。)を取り込んでメモリ5に格納し(ステップS101)、分類モデル51(P(y|x;W))のパラメータWの推定値W^(本明細書において、「^」は直前の文字の上部に位置する記号であるものとする。)をラベルありサンプル21の集合Dを用いて計算してメモリ5に格納する(ステップS102)。ここで、nはラベルありサンプル21の集合に含まれるラベルありサンプルのID番号を表す。
次に、分類モデル生成部3は、分類モデル51によるラベルありサンプル21のスコアの予測値S^を計算してメモリ5に格納する(ステップS103:詳細は図3で後記)。なお、スコアとは、あるコンテンツにあるクラス(ラベルの組合せ)を与えることの妥当性を示す指標となる数値(得点)のことである。
その後、条件付確率モデル生成部4は、条件付確率モデル53に含まれる、偏り補正モデル52と、モデル統合(分類モデル51と偏り補正モデル52との統合)とに関するそれぞれ最適なパラメータの推定値Θ^,Γ^を計算してメモリ5に格納する(ステップS104)。
そして、条件付確率モデル生成部4は、分類モデル51の関数形等と、メモリ5に格納されている各パラメータ(分類モデル51のパラメータの推定値W^と、偏り補正モデル52のパラメータの推定値Θ^と、モデル統合のパラメータの推定値Γ^)とを用いて条件付確率モデル53(R(y|x;W^,Θ^,Γ^))を生成して(条件付確率モデル53のパラメータを学習して)メモリ5に格納する(ステップS105)。
その後、自動多重ラベル付与部6は、メモリ5に記憶された条件付確率モデル53(R(y|x;W^,Θ^,Γ^))を用いて、入力部7から受け取ったラベル付与対象コンテンツに付与すべきラベルを推定する。出力部8は、そのラベル付与結果を利用者に提示し、また、必要に応じてそのコンテンツファイル(データ)をラベル付与結果に応じて記憶部10の適切な箇所に保存する。
次に、図2のステップS103の処理について詳細に説明する。図3は、図2のステップS103の処理の詳細を示すフローチャートである。この処理で計算されるスコアの予測値は、後に、条件付確率モデル53のパラメータを学習するのに用いられる。
分類モデル生成部3は、図3に示すように、メモリ5からラベルありサンプルの集合Dを読み込み(ステップS201)、その集合Dから任意の1つのラベルありサンプル(x(n),y(n))を除外して(ステップS202)、1点除外ラベルありサンプル集合D (−n)を作成する。
次に、分類モデル生成部3は、1点除外ラベルありサンプル集合D (−n)を用いて分類モデル51のパラメータの推定値W(−n)を算出し(ステップS203)、除外したデータのスコアの予測値s(x(n))を分類モデルP(y|x;W(−n))を用いて計算する(ステップS204)。さらに、分類モデル生成部3は、ラベルありサンプル集合に含まれる全てのラベルありサンプルのスコアの予測値の計算を終了したか否か判断し(ステップS205)、計算を終了していない場合(No)、ラベルありサンプルの集合からその前とは別の任意の1つのラベルありサンプルを除外して、そのラベルありサンプルのスコアの予測値を計算する処理(ステップS202〜ステップS204)を行う。分類モデル生成部3は、当該計算を終了した場合(ステップS205でYes)、全てのラベルありサンプルに対するスコアの予測値S^={s^y(x(n))}n,yをメモリ5に格納する(ステップS206)。このように、ラベルありサンプルの集合からラベルありサンプルを1つ除外し、その1点除外ラベルありサンプル集合に対するその除外したラベルありサンプルのスコアを算出する、という処理を繰り返すことで、スコアの予測値S^を算出することができる。
次に、図2のステップS104の処理について詳細に説明する。図4は、図2のステップS104の処理の詳細を示すフローチャートである。この処理で計算される偏り補正モデル52のパラメータの推定値と、モデル統合のパラメータの推定値は、後に、条件付確率モデル53のパラメータを学習するのに用いられる。
条件付確率モデル生成部4は、図4に示すように、メモリ5からラベルありサンプル集合Dとラベルなしサンプル集合D={x(m) m=1を読み込み(ステップS301)、さらに、ラベルありサンプル集合Dのスコアの予測値S^と分類モデルのパラメータの推定値W^を読み込む(ステップS302)。
次に、条件付確率モデル生成部4は、学習ステップを示す変数tに初期値「0」を与え(初期化し)、また、偏り補正モデル52のパラメータΘ(t)に初期値Θ(0)を与え(初期化し)(ステップS303)、初期値Θ(0)の下でモデル統合のパラメータの推定値Γ(t)(Γ(0))を準ニュートン法の実現法の1つであるBFGS(Broyden, Fletcher, Goldfarb, Shanno)アルゴリズム(Liu, D. C. and Nocedel, J.: On the limited memory BFGS method for large scale optimization, Math Programming, Ser. B, Vol. 45, No. 3, 503-528, (1989)参照)を用いて計算する(ステップS304)。そして、条件付確率モデル生成部4は、推定値W^と、Θ(0),Γ(0)で与えられる条件付確率分布R(y|x;W^,Θ(t),Γ(t))(R(y|x;W^,Θ(0),Γ(0)))を用いて、ラベルなしサンプルx(m)の関数値を計算し(ステップS305)、偏り補正モデル52のパラメータの推定値Θ(t+1)(Θ(1))を計算する(ステップS306)。
さらに、条件付確率モデル生成部4は、推定値Θ(t+1)の下でモデル統合のパラメータの推定値Γ(t+1)を計算する(ステップS307)。条件付確率モデル生成部4は、パラメータΘ、Γの推定値の変化量d(t+1,t)を計算し、収束条件(d(t+1,t)<ε)を満たすか否か判断する(ステップS308)。収束条件を、満たす場合(ステップS308でYes)、条件付確率モデル生成部4は、Θ^←Θ(t+1)、Γ^←Γ(t+1)として、偏り補正モデル52とモデル統合の各パラメータの推定値Θ^,Γ^をメモリ5に格納する(ステップS310)。
収束条件を満たさない場合(ステップS308でNo)、条件付確率モデル生成部4は、学習ステップを示す変数tを更新(t←t+1)して(ステップS309)、ステップS305からステップS308までの処理を再度実行する。
なお、ステップS308における収束条件は、前記したもの以外に、設計者が事前に与える最大値tmaxに学習ステップを示す変数tが到達したこと、等であってもよい。
続いて、ラベル付与の可否判定の処理について説明する。図5は、条件付確率モデルを用いたコンテンツヘのラベル付与の可否判定の処理を示すフローチャートである。
図5に示すように、自動多重ラベル付与部6は、利用者が入力部7を介して入力したコンテンツの特徴ベクトルx(z)を読み込み(ステップS401)、メモリ5に格納されている条件付確率モデル53を用いて条件付確率R(y|x(z);W^,Θ^,Γ^)の値を最大化させるラベル付与ベクトルyを探索する(ステップS402)。そして、条件付確率モデル生成部4は、得られたラベル付与ベクトルyをもとに、入力されたコンテンツに付与すべきラベルを推定(決定)し(ステップS403)、その推定結果を出力部8に受け渡す(ステップS404)。
[具体例]
次に、K個のラベル{1,…,k,…,K}の候補からコンテンツに付与すべきラベルを1個以上選択する多重ラベル付与問題において、既存の2値分類モデルを用いてスコア関数を定義し、偏り補正モデルとして多項分布に基づくナイーブベイズ(Naive Bayes)モデル(以下、NBモデル)を用いる場合の具体例について、詳細に説明する。
コンテンツに含まれる単語等により構成される特徴空間をT={t,…,t,…,t}とするとき、コンテンツの特徴ベクトルxは、コンテンツに含まれるtの頻度をもとにx=(x,…,x,…,x)で表現される。なお、Vはコンテンツに含まれる可能性がある特徴の種類の数を表す。例えば、コンテンツがテキストデータである場合、Vはコンテンツに出現する可能性がある語彙の総数を表す。
この具体例では、まず、コンテンツの特徴ベクトルxに対して、ラベルkの付与を規定する2値変数y∈{1,0}の確率R(y|x)を与える2値分類モデルを設計する。2値分類モデルには、NBモデルや、サポートベクトルマシン(以下、SVMという。)、ロジスティック回帰モデル(以下、LRモデルという。)等の既存の分類モデルを用いることができる。なお、SVMについては、文献「T. Joachims: Text categorization with support vector machines: Learning with many relevant features, Proceeding of 10th European Conference on Machine Learning(ECML-98), 137-142, (1998)」に記載がある。また、LRモデルについては、文献「Hastie, T., Tibshirani, R., and Friedman, J.: The elements of statistical learning: Data Mining, inference, and prediction, New York Berlin Heidelberg: Springer-Verlag, (2001)」に記載がある。これらの分類モデルが与える2値変数yの確率P(y|x)は、スコア関数s(x;W)を用いて以下の式(1)で表すことができる。
Figure 2009259109
ここで、Wは分類モデルのパラメータである。2値分類モデルにSVMを用いる場合は、スコア関数s(x;W)をカーネル関数φ(x;W)で与える。線形カーネルを用いる場合には、φ(x;W)=x・w+wk0となる。ただし、W=(w,wk0),w=(wk1,…,wki,…,wKV)であり、x・wはxとwの内積を表す。
2値分類モデルにLRモデルを用いる場合は、スコア関数を線形カーネルと同様にs(x;W)=x・w+wk0で与える。2値分類モデルにNBモデルを用いる場合は、スコア関数s(x;W)を確率モデルの対数比log{P(x|y=1;W)/P(x|y=0;W)}で与える。
確率モデルP(x|y;W)の分布型は、後記する偏り補正モデルと同様である(後記する式(3)参照)。2値分類モデルのパラメータの推定値W^は、分類モデル生成部3において図2のステップS101で読み込んだラベルありサンプル21の集合D={(x(n),y(n))} n=1を用いて計算する(図2のステップS102)ことで得られる。なお、パラメータの推定値の計算とパラメータの推定値を用いたコンテンツxのラベルkに対するスコア値s(x;W^)の計算は、それぞれの分類モデル用に開発されてきた既存の手法を用いて行うことができる。
次に、分類モデル生成部3は、図2のステップS103で、ラベルありサンプルのスコアの予測値を計算する。ラベルありサンプルx(n)のスコアの予測値は、そのラベルありサンプルを除外して得られるラベルありサンプル集合D (−n)を用いて学習された2値分類モデルのパラメータの推定値W (−n)を用いて算出されるスコア値s(x(n);W (−n))とする。
条件付確率モデル生成部4では、2値分類モデルのスコア関数s(x;W)と偏り補正モデルp(x|y;Θ)を用いて最大エントロピー原理に基づいて導出する式(2)を、ラベル付与ベクトルy=(y,…,y,…,y)で表されるクラスの条件付確率モデル(「x;W^,Θ,Γ」が「条件」に相当)として与える。
Figure 2009259109
なお、Θ={Θ k=1は偏り補正モデルのパラメータであり、Γ=(γ,γ,{μ k=1)はモデル統合のパラメータである。また、W={W k=1であり、W^={W^ k=1は図2のステップS102でラベルありサンプル集合Dを用いて計算されるパラメータの推定値の集合を表す。式(2)に示すように、条件付確率モデルは、すべてのラベルkでy=0であるy=0を除くすべてのyに対する条件付確率を与える。
ここで、最大エントロピー原理におけるエントロピーとは、式(2)の条件付確率R(y|x)(R(y|x;W^,Θ,Γ))のエントロピーのことで、式で表すとΣx,yp(x)R(y|x)logR(y|x)となる。ここでは、最大エントロピー原理を使うことで、できるだけ多くのラベルありサンプルxのクラスyを正確に予測する(精度のよい)条件付確率モデルを与えるように、分類モデルと偏り補正モデルを統合することができる。最大エントロピー原理は、ラベル付与技術において従来から用いられている技術であるが、本実施形態で示すような分類モデルと偏り補正モデルとの統合に用いられたことはこれまでにない。
偏り補正モデルには、多項分布に基づくNBモデルを用いる。NBモデルでは、ラベルkが付与される場合(y=1)と付与されない場合(y=0)のコンテンツxが生成される確率P(x|y)を、コンテンツに合まれるそれぞれの特徴tの出現確率θki(y)が独立であると仮定して、式(3)のp(x|y;Θ)と定義する。
Figure 2009259109
ここで、Θ={{θki(y)} i=1yk∈{1,0}を要素とするΘ={Θ k=1が、偏り補正モデルの推定すべきパラメータである。
偏り補正モデルは、前記したように、コンテンツの種類に応じて設計される確率モデルであり、以下、コンテンツが文書の場合を例にとって、さらに詳細に説明する。文書に含まれる単語には、文書に与えられるラベルごとに、出現しやすい単語と、出現しにくい単語がある。例えば、電気関連のIPCが付与される特許文書には「回路」や「電子」といった単語が多く出現し、「エンジン」や「歯車」といった単語はあまり出現しない。
そこで、単語の出現しやすさを確率(出現確率)で表すと、文書の生成確率(その文書を構成する全単語が出現する確率)は、文書に含まれる単語の確率の積で表すことができる。さらに、単語の出現確率をラベルごとに与えると、文書の生成確率をラベルごとに計算することができる。このように文書の生成確率を定義(モデル化)すると、高い文書の生成確率を与えるラベルが文書に付与すべきラベルである、と予測することができる。式(3)は、文書(コンテンツ)の生成確率を表す式であり、文書の確率モデルを定式化したものである。
式(3)で表される確率分布は、前記したように多項分布モデルと呼ばれ、単語の個数で特徴付けられる文書のように、複数の要素の頻度で表すことができるコンテンツの確率モデルを設計するのに用いられる。なお、画像データや信号などの連続値の特徴量をもつコンテンツの場合は、例えば、混合ガウス分布モデルを用いて確率モデルが設計される。
図2に戻って説明を続けると、ステップS104では、偏り補正モデルのパラメータの推定値Θ^とモデル統合のパラメータの推定値Γ^を、分類モデル生成部3が算出したラベルありサンプルのスコアの予測値{s(x(n);W (−n))}n,kと2値分類モデルのパラメータの推定値W^とを用いて推定する。これらのパラメータの推定は交互に繰り返し計算することによって行う。
図4に示すように、まず、訓練データDB2からラベルありサンプルD={(x(n),y(n))} n=1とラベルなしサンプルD={x(m) m=1を読み込み(ステップS301)、ラベルありサンプルのスコアの予測値と2値分類モデルのパラメータの推定値とを読み込み(ステップS302)、学習ステップを示す変数tを「0」に初期化し、偏り補正モデルのパラメータの初期値を{θki(y)}(t)=1/V,∀k、∀y、∀iで与える(ステップS303)。そして、モデル統合のパラメータの推定値Γ(t)を以下の式(4)に示す目的関数F(Γ(t)|Θ(t))を最大化させるΓ(t)として計算する(ステップS304)。
Figure 2009259109
ここで、式(4)の第一行右辺の第一項(Σ n=1logR(y(n)|x(n);W(−n),Θ(t),Γ(t)))は、条件付確率モデルがラベルありサンプルx(n)の真のクラスy(n)に対して与える条件付確率の対数和(条件付確率の総和に準ずる値)を表す。条件付確率モデルは、真のクラスに対して他のクラスより大きい条件付確率を与えるとき、コンテンツが属する正解クラスを予測することができる。したがって、この第一行右辺の第一項を最大化させるΓ(t)を求めることで、ラベルありサンプルのクラスを高い精度で予測できる条件付確率モデルを与える分類モデル51と偏り補正モデル52との統合比γ (t),γ (t)と、ラベル間の不均衡(ラベル付与に対するラベルごとの付与度(付与されやすさの度合い)の不均一さ)を調整する定数項{μ (t) k=1と、を得ることができる。なお、式(4)の第二行におけるH(y (n)|x(n);W (−n),Θ (t),Γ(t))は、式(2)をkごとに分離(分解)して得られる式(式(5)参照)に基づいて与えられる関数である。
Figure 2009259109
つまり、本実施形態では、すべてのラベルに対して単一の目的関数(式(4)の一行目の右辺)を与えている。ただし,式(4)の二、三行目のように、ラベルごとに独立に計算できるHを用いて目的関数を書き換えることができる。このため、すべてのクラス(ラベルの組合せ)に対して計算が必要なR(y|x)の代わりに、ラベルの個数だけあるHを計算すればよくなるので、計算時間が短くて済む。
また、式(4)におけるp(Γ(t))はパラメータΓ(t)の事前確率分布であり、条件付確率モデルのラベルありサンプルヘの過適合を抑制するために用いられる。本実施形態では、p(Γ(t))として、式(6)に示すように、ガウス事前確率分布を用いる。
Figure 2009259109
ここで、「過適合」について説明する。一般に、(自動多重)ラベル付与装置は、学習に用いていない新規のコンテンツに付与すべきラベルを予測するためのものであるが、学習に用いるラベルありサンプルに最も都合の良い(適合する)パラメータ値が、新規のコンテンツにラベルを付与する場合にも最も適切とは限らない。特に、ラベルありサンプルが少数の場合、ラベルありサンプルに最も適合するパラメータ値を用いると、新規のコンテンツに対するラベル付与の精度が低いことがある。これは、学習に用いるラベルありサンプルに統計的な偏りがあり、ラベルありサンプルに適合するパラメータ値も統計的な偏りを含むことが多いためである。統計的な偏りを含むパラメータ値は、ラベルありサンプルに似ていない新規のコンテンツには有効ではなく、その場合、高精度なラベル付与を期待できない。この現象を「過適合」という。そこで、この過適合を抑制するために、ガウス事前確率分布などを用いて、パラメータ値がラベルありサンプルに対して適合しすぎないように計算する。
式(6)において、a,σ,ρは、パラメータ学習時に設計者が値を与えるハイパーパラメータであり、例えば、a=1,σ=1,ρ=c(cは正の実数値)のように定数値を設定すればよい。F(Γ(t)|Θ(t))を最大化させるΓ(t)の値は、準ニュートン法の一種であるBFGSアルゴリズムを用いて計算することができる。
ただし、本実施形態では、偏り補正モデルを有用な場合のみに利用するようにモデル統合のパラメータ値を与えることを目的として、F(Γ(t)|Θ(t))を最大化させるΓ(t)のγ (t)が負の値である場合は、γ (t)=0の下でF(Γ(t)|Θ(t))を最大化させるΓ(t)をモデル統合のパラメータの推定値とする。すなわち、γ (t)≧0の範囲内でF(Γ(t)|Θ(t))の最大値を与えるΓ(t)を計算する。式(4)で示したように、F(Γ(t)|Θ(t))はk以外のラベルに依存しない関数H(y (n)|x(n);W (−n),Θ,Γ)を用いて計算できるため、クラス数2−1ではなくラベル数Kに比例する計算時間でΓ(t)を求めることができる。
Γ(t)を計算した後、式(5)を用いて、ラベルなしデータx(m)に対するラベルkの関数値H(y|x(m);W^,Θ (t),Γ(t))を計算し(ステップS305)、偏り補正モデル52のパラメータの推定値を以下の式(7)に示す目的関数Q(Θ(t+1),Θ(t)|Γ(t))を最大化させるΘ(t+1)として計算する(ステップS306)。
Figure 2009259109
ただし、H′(y|x(m);W^,Θ(t),Γ(t))は式(8)に示す関数と、H′(y=0|x;W^,Θ,Γ)=1−H′(y=1|x;W^,Θ,Γ)と、を用いて計算される値である。
Figure 2009259109
また、式(7)の目的関数Q(Θ(t+1),Θ(t)|Γ(t))は、式(2)で与えた条件付確率モデルによるラベルなしデータの識別関数値g(x(m),y;W^,Θ,Γ)(式(9)参照)の総和と偏り補正モデル52のパラメータの事前確率分布の対数和をG(Θ|Γ)(式(10)参照)で表すとき、G(Θ(t+1)|Γ(t))−G(Θ(t)|Γ(t))≧Q(Θ(t+1),Θ(t)|Γ(t))−Q(Θ(t),Θ(t)|Γ(t))を満たす関数として導出される。
Figure 2009259109
すなわち、本実施形態では、Q(Θ(t+1),Θ(t)|Γ(t))を最大化させるΘ(t+1)を計算することによって、ラベルなしデータの識別関数値gの総和を向上させるパラメータ値を求める。
ここで、識別関数とは、コンテンツが属するクラスを判定(予測)するために用いられる関数のことである。本実施形態では、最大のR(y|x;W^,Θ,Γ)(式(2)の左辺)を与えるyをコンテンツに対する予測クラスとしている。そして、R(y|x;W^,Θ,Γ)の分母はyの値によらず一定の値であり(式(2)参照)、式(2)の右辺の分子で与えられる関数をg(x(m),y;W^,Θ,Γ)とすると、argmaxy≠0R(y|x;W^,Θ,Γ)=argmaxy≠0g(x(m),y;W^,Θ,Γ)の関係が成立する。なお、「argmaxf(x)」は、「f(x)を最大にするx」を意味する。このため、本実施形態では、式(9)に示すように、式(2)の右辺の分子が識別関数となる。また、識別関数値とは、識別関数の変数に具体的な値を代入することによって得られる値である。
また、偏り補正モデル52のパラメータの事前確率分布をディリクレ分布で与えるとき(式(11)参照)、Q(Θ(t+1),Θ(t)|Γ(t))を最大化させるΘ(t+1)は、以下の式(12)を用いてΘ(t+1)の各要素をすべて計算することで得られる。
Figure 2009259109
ここで、ξはパラメータ学習時に設計者が値を与えるハイパーパラメータであり、例えばξ=c′(c′は正の実数値)のように定数値を設定すればよい。
偏り補正モデル52のパラメータの推定値Θ(t+1)の計算後、式(4)にΘ(t+1)を代入して与える目的関数F(Γ(t+1)|Θ(t+1))を最大化させるΓ(t+1)を計算し(ステップS307)、得られたパラメータの推定値を用いて式(13)に示す収束条件を満たすか否かを確認する(ステップS308)。
Figure 2009259109
式(13)中の‖Θ (t)‖はΘ (t)のL2ノルム(ベクトルの各成分(要素)の二乗の総和の平方根)を表し、εは設計者が与える微小な値である。ステップS308において収束条件を満たす場合はΘ(t+1)とΓ(t+1)を偏り補正モデル52とモデル統合のパラメータの推定値Θ^,Γ^としてメモリ5に格納する(ステップS310)、収束条件を満たさない場合はt←t+1として(ステップS309)、ステップS305からステップS308までの処理を繰り返す。
[アルゴリズム例]
(パラメータ学習アルゴリズム例)
以上の実施形態に基づいたパラメータ学習アルゴリズムの例を以下に示す。
<手順1>2値分類モデルを指定(LRモデル、SVM、NBモデル等から1つ選択)
<手順2>ラベルありサンプル集合D={(x(n),y(n))} n=1を用いて2値分類モデルのパラメータW={W k=1の推定値W^を計算(図2のステップS102)
1.kに1を代入。
2.k≦Kの場合、以下を実行。
(a)選択した2値分類モデルの学習法に従ってD={(x(n),y (n))} n=1を用いてパラメータの推定値W^を計算。
(b)kにk+1を代入。
<手順3>ラベルありサンプルのスコアの予測値を計算(図2のステップS103)
1.kに1を代入。
2.k≦Kの場合、以下を実行。
(a)nに1を代入。
(b)n≦Nの場合、以下を実行。
(1)Dから(x(n),y (n))を除外してD (−n)={(x(n`),y (n`))} n´=1,n´≠nを作成(図3のステップS202)。
(2)選択した2値分類モデルの学習法に従って、D (−n)を用いてパラメータの推定値W (−n)を計算(図3のステップS203)。
(3)パラメータの推定値W (−n)を用いて、x(n)のスコアの予測値s(x(n);W (−n))を計算(図3のステップS204).
(4)nにn+1を代入。
(c)kにk+1を代入。
<手順4>偏り補正モデルとモデル統合のパラメータの推定値Θ^,Γ^を計算(図2のステップS104)
1.ハイパーパラメータσ,ρ,a,ξとε,tmaxの値を設定。
2.tに0を代入、Θ(t)の要素θki(y(0)に1/Vを代入(図4のステップS303)。
3.Θ(t)を用いてモデル統合のパラメータの推定値Γ(t)(Γ(0))を計算(図4のステップS304)。
(a)kに1を代入。
(b)k≦Kの場合、以下を実行。
(1)nに1を代入。
(2)n≦Nの場合、以下を実行。
A.式(3)を用いて、ラベルありサンプルx(n)のP(x(n)|y;Θ (t)),y∈{1,0}を計算。
B.nにn+1を代入。
(3)kにk+1を代入。
(c)γ (t)≧0の範囲内で、式(4)と式(5)により得られる目的関数F(Γ(t)|Θ(t))の最大値を与えるΓ(t)を、BFGSアルゴリズムを用いて計算。
4.Θ(t)とΓ(t)を用いてラベルなしサンプル集合D={x(m) m=1の各サンプルの関数値を計算(図4のステップS305)。
(a)mに1を代入。
(b)m≦Mの場合、以下を実行。
(1)kに1を代入。
(2)k≦Kの場合、以下を実行。
A.式(5)を用いて、H(y|x(m);W^,Θ (t),Γ(t)),y∈{1,0}を計算。
B.kにk+1を代入。
(3)kに1を代入。
(4)k≦Kの場合、以下を実行。
A.式(8)を用いて、H′(y|x(m);W^,Θ (t),Γ(t)),y∈{1,0}を計算。
B.kにk+1を代入。
(5)mにm+1を代入。
5.ラベルなしサンプルの関数値H′(y|x(m);W^,Θ (t),Γ(t))を用いて偏り補正モデル52のパラメータの推定値Θ(t+1)を計算(図4のステップS307)。
(a)kに1を代入。
(b)k≦Kの場合、以下を実行。
(1)式(12)を用いて、Θ(t+1)の要素θki(y(t+1),y∈{1,0},∀iを計算。
(2)kにk+1を代入。
6.手順4の3.と同様の方法で、Θ(t+1)を用いてモデル統合のパラメータの推定値Γ(t+1)を計算(図4のステップS307)。
7.学習終了判定を実行(図4のステップS308)。
(a)式(13)で与える収束条件d(t+1,t)<εを満たさず、かつ、t<tmaxのとき
(1)tにt+1を代入(図4のステップS309)。
(2)手順4の4.に戻る。
(b)(a)以外のとき、Θ^にΘ(t+1)を、Γ^にΓ(t+1)を代入(図4のステップS310)。
<手順5>条件付確率モデルR(y|x;W^,Θ^,Γ^)を生成(図2のステップS105)
最後に、自動多重ラベル付与部6による、ユーザにより入力部7から入力されたコンテンツx(z)に付与するラベルを推定する方法を述べる。図5のステップS401で読み込まれたコンテンツx(z)を、ステップS402で読み込まれた学習済の条件付確率モデルR(y|x;W^,Θ^,Γ^)を構成する関数H(y|x;W^,Θ^,Γ^)(式(5)参照)に代入して得られる関数値H(y|x(z);W^,Θ^,Γ^)を用いて、式(14)を満たすy^を、以下に示すラベル付与アルゴリズムを用いて探索する(ステップS402)。
Figure 2009259109
そして、y^=1となるラベルkをコンテンツx(z)に付与するラベルとして抽出(推定)して(ステップS403)、推定結果を出力部8へ受け渡す(ステップS404)。
(ラベル付与アルゴリズム例)
次に、ラベル付与アルゴリズムの例を以下に示す。
<手順1>コンテンツx(z)のラベル付与ベクトルの推定値を探索(図5のステップS402)
1.kに1を、k′に0を、Hmaxに0を代入。
2.k≦Kの場合、以下を実行。
(a)式(5)を用いて、H(y=1|x(z);W^,Θ^,Γ^)を計算。
(b)H(y=1|x(z);W^,Θ^,Γ^)>0.5のときy^に1を、それ以外のときy^に0を代入。
(c)Hmax<H(y=1|x(z);W^,Θ^,Γ^)であれば、HmaxにH(y=1|x(z);W^,Θ^,Γ^)を、k′にkを代入。
(d)kにk+1を代入。
3.y^=0であれば、y^k´に1を代入。
<手順2>コンテンツに付与するラベルを推定、つまり、y^=1を満たすすべてのラベルkから構成される部分ラベル集合L^={k} k=1,y^k=1を作成(図5のステップS403)
<手順3>部分ラベル集合L^を推定結果として出力部8に受け渡す(図5のステップS404)
以上、具体例とアルゴリズム例において、2値分類モデルとNBモデルとを用いて条件付確率モデル53を生成する場合について説明したが、本発明の枠組では、非特許文献1,2で示された多重分類モデルを分類モデル51と偏り補正モデル52に適用して、条件付確率モデル53を生成することも可能である。この場合、分類モデル51として用いる多重分類モデルが与えるスコア関数s(x;W)と、偏り補正モデル52として用いる確率モデルp(x|y;Θ)とを用いて、条件付確率モデル53を式(15)で与える。
Figure 2009259109
分類モデル51のパラメータの推定値W^は、適用する多重分類モデルのパラメータ学習アルゴリズムに基づいて計算できる。また、偏り補正モデル52には、例えば、確率モデルの一種である非特許文献1の多重分類モデル(式(16)参照)を用いることができる。
Figure 2009259109
モデル統合のパラメータΓと偏り補正モデル52のパラメータΘは、先に示した実施形態と同様にF(Γ(t)|Θ(t))(式(4)参照)を最大化させるΓ(t)とQ(Θ(t+1),Θ(t)|Γ(t))(式(7)参照)を最大化させるΘ(t+1)とを交互に繰り返して計算することで求める。
このように、本実施形態の自動多重ラベル付与装置1では、分類モデル51と偏り補正モデル52とを統合して条件付確率モデル53を生成するときに使用する統合パラメータを、所定の目的関数の値を最大化するようにして計算することで、分類モデル51と偏り補正モデル52とを統合しても、ラベル予測精度を低下させないような条件付確率モデル53を得ることができる。つまり、分類モデル51と偏り補正モデル52とを、単純に統合するのではなく、正解ラベルが判明しているラベルありサンプルの特徴ベクトルを入力したときに高精度でその正解ラベルを予測(付与判定)できるように統合することで、新規のコンテンツに対して高精度なラベル付与を期待できる条件付確率モデル53を得ることができる。また、この統合パラメータを計算する際は、所定の目的関数に含まれる項のうち、ラベルごとに独立な関数の値を用いて計算することで、計算時間が短くて済む。つまり、ラベルの数が多くなるにつれて、従来技術では指数関数的に計算時間が増えてしまっていたが、本実施形態の自動多重ラベル付与装置1では、一次関数的に(ラベルの数に比例したオーダーで)しか計算時間が増えないので、特にラベルの数が多いときは従来技術に比べて計算時間が非常に短くて済む。
また、最大エントロピー原理を使うことで、できるだけ多くのラベルありサンプルのクラスを正確に予測する(精度のよい)条件付確率モデル53を与えるような所定の目的関数を得ることができ、その目的関数を使用することで分類モデル51と偏り補正モデル52を適切に統合することができる。
さらに、統合比と定数項とを算出して使用することで、ラベルありサンプルに付与されているラベルを高精度で予測できるように、分類モデル51と偏り補正モデル52を統合し、かつ、各ラベルの付与度の調整ができる。その結果、新規のコンテンツに対して高精度なラベル付与を期待できる条件付確率モデル53を得ることができる。
また、分類モデル51および偏り補正モデル52をラベルごとに独立したモデルとすることで、所定の目的関数をラベルごとに独立な関数で分解して表現することが確実にできる。これにより、ラベル数をKとした場合、従来技術のときのようにラベルの組合せ数(2−1)ではなく、ラベル数(K)またはその定数倍(2倍など)に比例したオーダーの計算時間(計算量)で、統合比、定数項、および、偏り補正モデル52のパラメータを算出することができる。つまり、Kが大きいとき、「2−1」よりも「Kまたはその定数倍」のほうが圧倒的に小さいので、計算時間が短くて済む。
さらに、コンテンツの内容の分類を表すラベルを1つ以上付与するように、つまり、ラベルを1つも付与しない事象を除去(排除)して、条件付確率モデル53を生成(設計)するので、その条件付確率モデル53を用いて、新規のコンテンツに対して1つ以上のラベルを必ず付与することができる。
なお、自動多重ラベル付与装置1を構成するコンピュータに実行させるラベル付与プログラムを作成し、コンピュータにインストールすることにより、コンピュータは、そのラベル付与プログラムに基づいた各機能を実現することができる。また、そのラベル付与プログラムを、CD(Compact Disc)、DVD(Digital Versatile Disc)等の種々の記録媒体に記録したり、ネットワークを介して遠隔のコンピュータに送信したりすることができる。
[実験例]
次に、本実施形態の自動多重ラベル付与装置1に関する実験例について説明する。図6は、世界知的所有権機関(WIPO:World Intellectual Property Organization)が情報処理技術の研究開発用に提供しているデータベースWIPO-alpha(Fa11, C. J., Torcsvari, A., Benzineb, K., and Karetka, G.: Automated categorization in the international Patent classification. ACM SIGIR Forum, 37, 10-25(2003).)に、本実施形態の自動多重ラベル付与装置1を適用した場合の実験結果を示す図である。
データベースWIPO−alphaはコンテンツ本体である英文特許文書を含み、各文書にはラベルに相当する国際特許分類(IPC)の記号が付与されている。自動多重ラベル付与装置1の性能検査には、IPC記号の上位4桁が表すサブクラスを予測すべきラベルとし、付与されている文書が多い上位20個のラベルを用いた。すなわち、新規の文書に対して20個のラベル候補から付与すべきラベルを選択する課題に、自動多重ラベル付与装置1を適用して性能検査を行った。
この際、訓練データDB2に含まれる文書と入力部7に入力される新規の文書には、20個のラベル候補中の1つ以上のラベルが付与されている文書を用いた。5000個の文書をラベルなしサンプル22として、それ以外の任意の個数(ここでは、40,80,160,320,640,1280,2560,5120個)の文書をラベルありサンプル21としてデータベースWIPO−alphaから選択して、訓練データDB2を構成した。また、新規の文書には、訓練データDB2に含まれていない5000個の文書を用いた。
本実験では、新規の5000個の文書に対して本実施形態の自動多重ラベル付与装置1を適用して付与されるラベルの正確性をマイクロ平均F値を用いて測定した。マイクロ平均F値Fμは、多重ラベル付与問題で装置の精度を測定するのによく用いられる指標であり、z番目の新規の文書の正解のラベル付与ベクトルy(z)=(y (z),…,y (z),…,y20 (z))と自動多重ラベル付与装置1が推定するラベル付与ベクトルy^(z)=(y^ (z),…,y^ (z),…,y^ (z))とを用いて、以下の式(17)で計算される。
Figure 2009259109
ここで、Zは新規の文書の総数、Xはラベルの総数であり、本実験ではZ=5000、K=20である。Fμの値が大きいほど、文書に付与すべきラベルを正確に推定していることを表す、つまり、ラベル付与の精度が高いことを示す。
図6において、方法1は、データベースWIPO−alphaに対して、訓練データDB2内のラベルありサンプル21の個数を変えて自動多重ラベル付与装置1を適用してラベル付与を行う手法(本手法)である。また、比較対象として、方法2,3,4,5の場合の結果も示している。
方法2は、特許文献1の装置をラベルごとに個別に適用してラベル付与の可否を自動判定する手法である。方法3は、非特許文献4の自動多重ラベル付与方法である。方法4は、非特許文献3の自動分類方法をラベルごとに個別に適用する手法である。方法5は、非特許文献2の自動多重ラベル付与方法であり、訓練データDB2内のラベルありサンプルのみを用いる手法である。
図6に示すように、ラベルありサンプルの個数によらず、方法1が方法2,3,4,5の場合よりも高いマイクロ平均F値を与えることがわかる。これにより、本実施形態の自動多重ラベル付与装置1が、比較対象(従来技術)に基づく自動多重ラベル付与装置に比べ、精度の面で優位性を有していることがわかる。
以上で本実施形態の説明を終えるが、本発明の態様はこれらに限定されるものではない。例えば、コンテンツは、特許文書でなくても、特徴ベクトルを表現可能なものであれば、論文や小説等の他の文書や、また、画像データ等であってもよい。また、本実施形態において、訓練データDB2を自動多重ラベル付与装置1の内部に含む構成としたが、例えば、ネットワーク等で接続された外部のデータベースサーバ等に訓練データDB2を構成して、このデータベースサーバから訓練データ集合を取得する構成としてもよい。
さらに、ラベル付与対象コンテンツは、自動多重ラベル付与装置1の外部から入力を受け付けるものとしたが、自動多重ラベル付与装置1の記憶部10に予め記憶されていてもよい。その他、ハードウェアやフローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本実施形態の自動多重ラベル付与装置の構成を示す機能ブロック図の例である。 分類モデル生成部と条件付確率モデル生成部の処理の手順の概要を示すフローチャートである。 図2のステップS103の処理の詳細を示すフローチャートである。 図2のステップS104の処理の詳細を示すフローチャートである。 条件付確率モデルを用いたコンテンツヘのラベル付与の可否判定の処理を示すフローチャートである。 世界知的所有権機関のデータベースに、本実施形態の自動多重ラベル付与装置を適用した場合の実験結果を示す図である。
符号の説明
1 自動多重ラベル付与装置
2 訓練データDB
3 分類モデル生成部
4 条件付確率モデル生成部
5 メモリ
6 自動多重ラベル付与部
7 入力部
8 出力部
10 記憶部
20 処理部
21 ラベルありサンプル
22 ラベルなしサンプル
51 分類モデル
52 偏り補正モデル
53 条件付確率モデル

Claims (13)

  1. 特徴ベクトルで表現可能なコンテンツに、前記コンテンツの内容の分類を表すラベルを1つ以上付与するラベル付与装置であって、
    前記ラベルがすでに付与されている前記コンテンツであるラベルありサンプル、および、前記ラベルがまだ付与されていない前記コンテンツであるラベルなしサンプルを、それぞれ複数格納する記憶部と、
    前記記憶部に格納された複数のラベルありサンプルをもとに、前記特徴ベクトルで表現されたコンテンツに対して付与すべきラベルを推定するための分類モデルに関するパラメータを計算し、
    前記記憶部に格納された複数のラベルなしサンプルをもとに、前記コンテンツの種類に応じた確率モデルを与え、前記分類モデルの付与ラベル推定の偏りを補正するため偏り補正モデルに関するパラメータを計算し、
    前記分類モデルに関するパラメータ、前記偏り補正モデルに関するパラメータ、および、前記分類モデルと前記偏り補正モデルとを統合して前記特徴ベクトルを条件とする付与ラベルの組合せの確率である条件付確率を求めるための条件付確率モデルを生成するときに使用する統合パラメータ、を含んだ所定の目的関数の値を最大化するような前記統合パラメータを計算し、
    前記分類モデルのパラメータ、前記偏り補正モデルのパラメータ、および、前記統合パラメータをもとに、前記分類モデルと前記偏り補正モデルとを重み付き統合することで、前記条件付確率モデルを生成する条件付確率モデル生成部と、
    を備え、
    前記所定の目的関数は、前記記憶部に格納されたラベルありサンプルそれぞれに対応する付与ラベルの組合せに対して前記条件付確率モデルが与える、前記条件付確率の総和または総和に準ずる値を表す関数であり、
    前記条件付確率モデル生成部は、
    前記所定の目的関数の値を最大化するような前記統合パラメータを計算するとき、前記所定の目的関数に含まれる項のうち、前記ラベルごとに独立な関数の値を用いて計算することで前記統合パラメータを計算する
    ことを特徴とするラベル付与装置。
  2. 前記条件付確率モデル生成部は、
    前記分類モデルと前記偏り補正モデルとを、最大エントロピー原理に基づいて重み付き統合することで、前記条件付確率モデルを生成する
    ことを特徴とする請求項1に記載のラベル付与装置。
  3. 前記統合パラメータは、
    前記分類モデルと前記偏り補正モデルとを重み付き統合するときの統合比と、ラベル付与に対する前記ラベルごとの付与度の不均一さを調整する定数項と、
    を含んでいることを特徴とする請求項1に記載のラベル付与装置。
  4. 前記分類モデルは、前記ラベルごとに独立し、ラベル付与の有無を2値で扱う2値分類モデルであり、
    前記偏り補正モデルは、前記ラベルごとに独立した確率モデルであり、
    前記条件付確率モデル生成部は、前記ラベルごとに独立な関数の値を用いて計算することで、前記統合比、前記定数項、および、前記偏り補正モデルのパラメータを算出する
    ことを特徴とする請求頂3に記載のラベル付与装置。
  5. ラベル付与対象の新規のコンテンツの入力を受け付ける入力部と、
    前記入力部が受け付けた新規のコンテンツに関して、前記条件付確率モデルを用いて付与ラベルの組合せの条件付確率の最大化を図ることで、付与する1つ以上のラベルを決定するラベル付与部と、をさらに備えることを特徴とする請求項1から請求項4のいずれか一項に記載のラベル付与装置。
  6. コンピュータを請求項1から請求項4のいずれか一項に記載のラベル付与装置として機能させることを特徴とするラベル付与プログラム。
  7. コンピュータを請求項5に記載のラベル付与装置として機能させることを特徴とするラベル付与プログラム。
  8. 請求項6または請求項7に記載のラベル付与プログラムが記録されたことを特徴とするコンピュータに読み取り可能な記録媒体。
  9. 特徴ベクトルで表現可能なコンテンツに、前記コンテンツの内容の分類を表すラベルを1つ以上付与するラベル付与装置によるラベル付与方法であって、
    前記ラベル付与装置は、前記ラベルがすでに付与されている前記コンテンツであるラベルありサンプル、および、前記ラベルがまだ付与されていない前記コンテンツであるラベルなしサンプルを、それぞれ複数格納する記憶部と、条件付確率モデル生成部と、を備え、
    前記条件付確率モデル生成部は、
    前記記憶部に格納された複数のラベルありサンプルをもとに、前記特徴ベクトルで表現されたコンテンツに対して付与すべきラベルを推定するための分類モデルに関するパラメータを計算し、
    前記記憶部に格納された複数のラベルなしサンプルをもとに、前記コンテンツの種類に応じた確率モデルを与え、前記分類モデルの付与ラベル推定の偏りを補正するため偏り補正モデルに関するパラメータを計算し、
    前記分類モデルに関するパラメータ、前記偏り補正モデルに関するパラメータ、および、前記分類モデルと前記偏り補正モデルとを統合して前記特徴ベクトルを条件とする付与ラベルの組合せの確率である条件付確率を求めるための条件付確率モデルを生成するときに使用する統合パラメータ、を含んだ所定の目的関数の値を最大化するような前記統合パラメータを計算し、
    前記分類モデルのパラメータ、前記偏り補正モデルのパラメータ、および、前記統合パラメータをもとに、前記分類モデルと前記偏り補正モデルとを重み付き統合することで、前記条件付確率モデルを生成し、
    前記所定の目的関数は、前記記憶部に格納されたラベルありサンプルそれぞれに対応する付与ラベルの組合せに対して前記条件付確率モデルが与える、前記条件付確率の総和または総和に準ずる値を表す関数であり、
    前記条件付確率モデル生成部は、
    前記所定の目的関数の値を最大化するような前記統合パラメータを計算するとき、前記所定の目的関数に含まれる項のうち、前記ラベルごとに独立な関数の値を用いて計算することで前記統合パラメータを計算する
    ことを特徴とするラベル付与方法。
  10. 前記条件付確率モデル生成部は、
    前記分類モデルと前記偏り補正モデルとを、最大エントロピー原理に基づいて重み付き統合することで、前記条件付確率モデルを生成する
    ことを特徴とする請求項9に記載のラベル付与方法。
  11. 前記統合パラメータは、
    前記分類モデルと前記偏り補正モデルとを重み付き統合するときの統合比と、ラベル付与に対する前記ラベルごとの付与度の不均一さを調整する定数項と、
    を含んでいることを特徴とする請求項9に記載のラベル付与方法。
  12. 前記分類モデルは、前記ラベルごとに独立し、ラベル付与の有無を2値で扱う2値分類モデルであり、
    前記偏り補正モデルは、前記ラベルごとに独立した確率モデルであり、
    前記条件付確率モデル生成部は、前記ラベルごとに独立な関数の値を用いて計算することで、前記統合比、前記定数項、および、前記偏り補正モデルのパラメータを算出する
    ことを特徴とする請求頂11に記載のラベル付与方法。
  13. 前記ラベル付与装置は、ラベル付与対象の新規のコンテンツの入力を受け付ける入力部と、ラベル付与部と、をさらに備え、
    前記ラベル付与部は、
    前記入力部が受け付けた新規のコンテンツに関して、前記条件付確率モデルを用いて付与ラベルの組合せの条件付確率の最大化を図ることで、付与する1つ以上のラベルを決定する
    ことを特徴とする請求項9から請求項12のいずれか一項に記載のラベル付与方法。
JP2008109409A 2008-04-18 2008-04-18 ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法 Expired - Fee Related JP5139874B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008109409A JP5139874B2 (ja) 2008-04-18 2008-04-18 ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008109409A JP5139874B2 (ja) 2008-04-18 2008-04-18 ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法

Publications (2)

Publication Number Publication Date
JP2009259109A true JP2009259109A (ja) 2009-11-05
JP5139874B2 JP5139874B2 (ja) 2013-02-06

Family

ID=41386431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008109409A Expired - Fee Related JP5139874B2 (ja) 2008-04-18 2008-04-18 ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法

Country Status (1)

Country Link
JP (1) JP5139874B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118883A (ja) * 2009-12-04 2011-06-16 Mitsubishi Electric Research Laboratories Inc 局所的学習のためのトレーニング点の近傍を選択するための方法
JP2016071406A (ja) * 2014-09-26 2016-05-09 大日本印刷株式会社 ラベル付与装置、ラベル付与方法、及びプログラム
JP2017126158A (ja) * 2016-01-13 2017-07-20 日本電信電話株式会社 2値分類学習装置、2値分類装置、方法、及びプログラム
CN111581467A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于子空间表示和全局消歧方法的偏标记学习方法
WO2023032016A1 (ja) * 2021-08-30 2023-03-09 日本電信電話株式会社 推定方法、推定装置および推定プログラム
US11610079B2 (en) * 2020-01-31 2023-03-21 Salesforce.Com, Inc. Test suite for different kinds of biases in data
CN116257800A (zh) * 2023-05-12 2023-06-13 智慧眼科技股份有限公司 一种训练样本的标注方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102198461B1 (ko) * 2019-01-15 2021-01-05 연세대학교 산학협력단 편향성이 감소된 분류장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338263A (ja) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338263A (ja) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG200701009014; 藤野 昭典, 他2名: '複数の構成要素データを扱う多クラス分類器の半教師あり学習法' 情報処理学会論文誌 第48巻, 第SIG15号, 20071015, p.163-175, 社団法人情報処理学会 *
JPN6012044745; 藤野 昭典, 他2名: '複数の構成要素データを扱う多クラス分類器の半教師あり学習法' 情報処理学会論文誌 第48巻, 第SIG15号, 20071015, p.163-175, 社団法人情報処理学会 *
JPN6012044746; Akinori Fujino, et al.: 'Semisupervised Learning for a Hybrid Generative/Discriminative Classifier based on the Maximum Entro' IEEE Transactions on Pattern Analysis and Machine Intelligence Volume.30, Issue.3, 200803, p.424-437 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118883A (ja) * 2009-12-04 2011-06-16 Mitsubishi Electric Research Laboratories Inc 局所的学習のためのトレーニング点の近傍を選択するための方法
JP2016071406A (ja) * 2014-09-26 2016-05-09 大日本印刷株式会社 ラベル付与装置、ラベル付与方法、及びプログラム
JP2017126158A (ja) * 2016-01-13 2017-07-20 日本電信電話株式会社 2値分類学習装置、2値分類装置、方法、及びプログラム
US11610079B2 (en) * 2020-01-31 2023-03-21 Salesforce.Com, Inc. Test suite for different kinds of biases in data
CN111581467A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于子空间表示和全局消歧方法的偏标记学习方法
CN111581467B (zh) * 2020-05-15 2024-04-02 北京交通大学 基于子空间表示和全局消歧方法的偏标记学习方法
WO2023032016A1 (ja) * 2021-08-30 2023-03-09 日本電信電話株式会社 推定方法、推定装置および推定プログラム
CN116257800A (zh) * 2023-05-12 2023-06-13 智慧眼科技股份有限公司 一种训练样本的标注方法及系统
CN116257800B (zh) * 2023-05-12 2023-08-25 智慧眼科技股份有限公司 一种训练样本的标注方法及系统

Also Published As

Publication number Publication date
JP5139874B2 (ja) 2013-02-06

Similar Documents

Publication Publication Date Title
JP5139874B2 (ja) ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法
Tyralis et al. Variable selection in time series forecasting using random forests
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
EP3186754B1 (en) Customizable machine learning models
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
Lei et al. Patent analytics based on feature vector space model: A case of IoT
Onan et al. The use of data mining for strategic management: a case study on mining association rules in student information system
Al-Saleem et al. Mining educational data to predict students’ academic performance
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
US20230325675A1 (en) Data valuation using reinforcement learning
Ozcan et al. Human resources mining for examination of R&D progress and requirements
Pham et al. Unsupervised training of Bayesian networks for data clustering
CN109086463A (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
US11948387B2 (en) Optimized policy-based active learning for content detection
CN113722507A (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
Chandra et al. Bayesian neural learning via langevin dynamics for chaotic time series prediction
Hain et al. The promises of Machine Learning and Big Data in entrepreneurship research
CN115330142B (zh) 联合能力模型的训练方法、能力需求匹配方法和装置
CN109299291A (zh) 一种基于卷积神经网络的问答社区标签推荐方法
Shao et al. A Combinatorial optimization framework for scoring students in University Admissions
Divya et al. Student Placement Analysis using Machine Learning
US20230419195A1 (en) System and Method for Hierarchical Factor-based Forecasting
CN117033775B (zh) 基于知识图谱的工业软件的组件推荐方法及系统
Allen et al. Expert refined topic models to edit topic clusters in image analysis applied to welding engineering
Denis Performance Analysis of Machine Learning-Semantic Relational Approach based Job Recommendation System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100721

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121116

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151122

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees