JP7147874B2 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP7147874B2
JP7147874B2 JP2020565140A JP2020565140A JP7147874B2 JP 7147874 B2 JP7147874 B2 JP 7147874B2 JP 2020565140 A JP2020565140 A JP 2020565140A JP 2020565140 A JP2020565140 A JP 2020565140A JP 7147874 B2 JP7147874 B2 JP 7147874B2
Authority
JP
Japan
Prior art keywords
applying
attribute vector
target task
sample
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020565140A
Other languages
English (en)
Other versions
JPWO2020144853A1 (ja
Inventor
泰弘 十河
智哉 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020144853A1 publication Critical patent/JPWO2020144853A1/ja
Application granted granted Critical
Publication of JP7147874B2 publication Critical patent/JP7147874B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Description

本発明は、既存のモデルを利用して新たなモデルを学習する学習装置、学習方法および学習プログラムに関する。
ビジネスシーンにおいて新たな価値を創造するために、創造的活動によって、日々新商品や新サービスが考案され、提供され続けている。効率的に利益を生み出すため、データに基づいた予測が行われることが多い。しかし、新商品や新サービスについての予測(新タスクと呼ぶこともある。)は提供開始からの期間が短く、大規模データを想定した予測分析技術の適用が困難である。
具体的には、少量のデータのみから統計的機械学習に基づいて予測および分類モデルを構築することは一般的に困難であり、頑健に予測方法や分類方法を模擬できるとは言い難い。そこで、少ないデータに基づく学習方法が各種提案されている。例えば、非特許文献1には、ワンショット学習(One-shot learning )について記載されている。非特許文献1に記載されたワンショット学習では、入力間の類似度をランク付けする構造を用いたニューラルネットワークを学習する。
また、非特許文献2にも、ワンショット学習について記載されている。非特許文献2に記載されたワンショット学習では、小規模のラベル付きサポートセットとラベルのない例をラベルにマップし、新しいクラスタイプに適応するための微調整の必要性を除外したネットワークを学習する。
Koch, G., Zemel, R., & Salakhutdinov, R., "Siamese neural networks for one-shot image recognition", ICML Deep Learning Workshop, Vol. 2, 2015. Vinyals, O., Blundell, C., Lillicrap, T., & Wierstra, D., "Matching networks for one shot learning", Advances in Neural Information Processing Systems 29, pp. 3630-3638, 2016.
一方、非特許文献1や非特許文献2に記載されたワンショット学習(Few-shot learning と呼ぶこともある。)では、少量のデータのみを有する新タスクに対する予測モデルを高い精度で構築するために、既存の関連タスクのデータを統合したり参照したりする必要がある。
タスクの数によっては、そのデータの規模は膨大であり、分散管理されているような場合には、データを集約するための手間がかかってしまう。また、集約したとしても、その集約した膨大なデータを処理する必要があり、新タスクに対する予測モデルを短時間で構築するには非効率的である。
また、近年、プライバシー等の問題によりデータが提供されず、予測等に用いられるモデルのみが提供される形態も存在する。この場合、モデル構築に用いたデータ自体にアクセスすることはできない。そこで、短時間で予測モデルを構築するために、すでに学習済みの既存の予測モデルを利用することも考えられる。しかし、多種多様なモデルから、人手で必要になるモデルを選択し、適切に組み合わせて正確な予測モデルを構築することは困難である。そのため、既存の資産(すなわち、既存のモデル)を生かしつつ、少数のデータから、精度の高いモデルを学習できることが望まれている。
そこで、本発明では、既存のモデルを利用して少数のデータから精度の高いモデルを学習できる学習装置、学習方法および学習プログラムを提供することを目的とする。
本発明による学習装置は、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定部と、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出部とを備えたことを特徴とする。
本発明による学習方法は、コンピュータが、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定し、コンピュータが、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出することを特徴とする。
本発明による学習プログラムは、コンピュータに、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定処理、および、対象タスクの属性ベクトルに基づいて、変換方法により変換される予測対象サンプルの予測値を算出する予測値算出処理を実行させることを特徴とする。
本発明によれば、既存のモデルを利用して少数のデータから精度の高いモデルを学習できる。
本発明による学習装置の第一の実施形態の構成例を示すブロック図である。 第一の実施形態の学習装置の動作例を示すフローチャートである。 第一の実施形態の学習装置の具体的な動作例を示すフローチャートである。 本発明による学習装置の第二の実施形態の構成例を示すブロック図である。 第二の実施形態の学習装置の動作例を示すフローチャートである。 本発明による学習装置の第三の実施形態の構成例を示すブロック図である。 第三の実施形態の学習装置の動作例を示すフローチャートである。 本発明による学習装置の第四の実施形態の構成例を示すブロック図である。 類似性を可視化する処理の例を示す説明図である。 本発明による学習装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下の説明では、新商品や新サービスなど、新たな予測対象を対象タスクと記す。以下の実施形態では、対象タスクのサンプルが少数(a “few” samples)である場合を想定する。ここで、少数とは、タスクの複雑性にも依存するが、例えば、十数~数百程度のサンプルを想定する。また、予測のために生成される成果物を予測器、予測モデル、または、単にモデルと記す。また、一以上の属性の集合を属性ベクトルと記し、予測器は、属性ベクトルに含まれる各属性を説明変数とする。すなわち、属性ベクトルは、各タスクの属性を意味するものである。
以下、学習済みのT個の予測器を、{h(x)|t=1,…,T}で表わす。また、対象タスクのサンプル(データ)をDT+1:={(x,y)|n=1,…,NT+1}で表す。すなわち、対象タスクのサンプルが少数であるとの想定より、NT+1の値は小さいものとする。
また、すでに予測器が生成(学習)されたタスクを関連タスクと記す。本実施形態では、対象タスクに類似する関連タスクについて構成された予測器を用いて、その予測器の入出力関係から、対象タスクの予測器で用いられる属性ベクトルを生成する。ここで、類似の関連タスクとは、アルゴリズムの性質上、対象タスクと同様の説明変数(特徴量)によって構成できるタスク群を意味する。具体的に類似とは、特定のカテゴリに属する商品など、予め定義されたグループに属する対象を意味する。また、対象タスクまたは対象タスクに類似する範囲(すなわち、関連タスク)のサンプルのことを、対象タスクのドメインのサンプルと記す。
サンプルは、(正解)ラベルが付与されたサンプル(以下、ラベル付サンプルと記す。)と、(正解)ラベルが付与されていないサンプル(以下、ラベルなしサンプルと記す。)が存在する。以下の説明では、単にサンプルと記した場合、そのサンプルは、ラベル付サンプルとラベルなしサンプルのいずれか一方または両方を含むものとする。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明による学習装置の第一の実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、対象タスク属性推定部110と、予測値算出部120と、予測器記憶部130とを備えている。
予測器記憶部130は、学習済みの予測器を記憶する。予測器記憶部130は、例えば、磁気ディスク装置により実現される。
対象タスク属性推定部110は、対象タスクのドメインのサンプルに基づいて既存の(学習済みの)予測器の属性ベクトルを推定する。また、対象タスク属性推定部110は、既存の予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される属性ベクトルからなる空間に対する、そのラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する。
予測値算出部120は、推定された対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出する。
以下、対象タスク属性推定部110および予測値算出部120の詳細な構成を説明する。
本実施形態の対象タスク属性推定部110は、サンプル生成部111と、属性ベクトル推定部112と、第一射影算出部113と、対象属性ベクトル算出部114とを含む。
サンプル生成部111は、対象タスクのドメインのサンプルをランダムに生成する。サンプルの生成方法は任意であり、各属性に任意の値をランダムに割り当ててサンプルを生成してもよい。
また、新たにサンプルを生成せず、予め準備された対象タスクのサンプルそのものがサンプルとして用いられてもよい。対象タスクのサンプルは、ラベル付サンプルであってもよく、ラベルなしサンプルであってもよい。この場合、対象タスク属性推定部110は、サンプル生成部111を含んでいなくてもよい。他にも、サンプル生成部111は、対象タスクのサンプルを凸結合したサンプルを生成してもよい。以下の説明では、生成されたサンプルの集合をSで表わすこともある。
属性ベクトル推定部112は、対象タスクのドメインのサンプルを既存の複数の予測器h(x)に適用して得られる出力(サンプル+値)から、上記予測器でそれぞれ用いられる属性ベクトルdからなる属性行列Dを推定する。
具体的には、属性ベクトル推定部112は、サンプルxの射影αとの内積により算出される値と、そのサンプルxを予測器h(x)に適用して出力される値との差を最小化するように、属性ベクトルdからなる属性行列Dを最適化する。ここで、射影αとは、属性ベクトルdとの掛け合わせで各出力を再現可能な各サンプルxに対応する値である。ここで、推定される属性行列D^(Dの上付きハット)は、以下に例示する式1で推定される。
Figure 0007147874000001
式1において、Cは、各属性ベクトルdが大きな値にならないための制約条件の集合であり、pは、属性ベクトルの要素の種類の最大数である。また、式1では、αに関するL1正則化を例示しているが、L1L2正則化など任意の正則化が含まれていてもよい。属性ベクトル推定部112は、上記に示す式1に対して、例えば、K-SVD(k-singular value decomposition )やMOD(Method of Optimal Directions)など、既存の辞書学習スキーマを用いて最適化を行ってもよい。なお、上記に示す式1が、辞書学習と同様の方法により最適化できることから、属性行列Dのことを辞書と記すこともある。
なお、ここで推定される属性ベクトルdは、いわゆるゼロショット学習の「属性」に対応するため、属性ベクトルdをゼロショット学習においても同様に扱うことが可能である。
第一射影算出部113は、推定された属性ベクトルd(より詳しくは、属性行列D)に適用して推定値(以下、第一の推定値と記す。)を得るための各ラベル付サンプル(x,y)(i=1,…,NT+1)の射影αを、予測器hにそのラベル付サンプル(x,y)を適用して得られる値と上記第一の推定値との差が最小になるように算出する。
具体的には、第一射影算出部113は、対象タスクのラベル付サンプル(x,y)について、それぞれ以下に例示する式2を算出することで、xに対応する射影ベクトルα^(αの上付きハット)を算出してもよい。第一射影算出部113は、以下に例示する式2を、例えば、Lassoの問題として解くことが可能である。
Figure 0007147874000002
対象属性ベクトル算出部114は、算出された射影αに適用して推定値(以下、第二の推定値と記す。)を得るための対象タスクの属性ベクトルdT+1を、対象タスクのラベル付サンプルのラベルyと上記第二の推定値との差が最小になるように算出する。
具体的には、対象属性ベクトル算出部114は、対象タスクのラベル付サンプル(x,y)のyと、算出された射影αを用いて、対象タスクの属性ベクトルd^T+1(dT+1の上付きハット)を以下に例示する式3を用いて算出してもよい。対象属性ベクトル算出部114は、以下に例示する式3を、上記式1を算出する方法と同様に方法を用いることで解を得ることが可能である。
Figure 0007147874000003
本実施形態の予測値算出部120は、第二射影算出部121と、予測部122とを含む。
第二射影算出部121は、推定された属性ベクトルdに適用して推定値(以下、第三の推定値と記す。)を得るための予測対象サンプルxnewの射影α^newを、予測器hにその予測対象サンプルxnewを適用して得られる値と、上記第三の推定値との差が最小になるように算出する。具体的には、第二射影算出部121は、対象タスクの予測対象サンプルxnewについて、上記式2を算出する方法と同様の方法で射影ベクトルα^newを求めればよい。
予測部122は、対象タスクの属性ベクトルdT+1に射影αnewを適用して(具体的には、内積を算出して)予測値yを算出する。
対象タスク属性推定部110(より具体的には、サンプル生成部111と、属性ベクトル推定部112と、第一射影算出部113と、対象属性ベクトル算出部114)と、予測値算出部120(より具体的には、第二射影算出部121と、予測部122)とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array ))によって実現される。
例えば、プログラムは、学習装置が備える記憶部(図示せず)に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、対象タスク属性推定部110(より具体的には、サンプル生成部111と、属性ベクトル推定部112と、第一射影算出部113と、対象属性ベクトル算出部114)および予測値算出部120(より具体的には、第二射影算出部121と、予測部122)として動作してもよい。また、学習装置の機能がSaaS(Software as a Service )形式で提供されてもよい。
対象タスク属性推定部110(より具体的には、サンプル生成部111と、属性ベクトル推定部112と、第一射影算出部113と、対象属性ベクトル算出部114)と、予測値算出部120(より具体的には、第二射影算出部121と、予測部122)とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、学習装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の学習装置の動作例を説明する。図2は、本実施形態の学習装置100の動作例を示すフローチャートである。
対象タスク属性推定部110は、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定する(ステップS1)。対象タスク属性推定部110は、推定された属性ベクトルからなる空間に対するラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する(ステップS2)。予測値算出部120は、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプルの予測値を算出する(ステップS3)。
図3は、本実施形態の学習装置100の具体的な動作例を示すフローチャートである。
属性ベクトル推定部112は、対象タスクのドメインのサンプルを既存の複数の予測器に適用して得られる出力から、その予測器でそれぞれ用いられる属性ベクトルd(属性行列D)を推定する(ステップS21)。第一射影算出部113は、推定された属性ベクトルdに適用して第一の推定値を得るための各ラベル付サンプルの射影を、予測器hにラベル付サンプルを適用して得られる値と第一の推定値との差が最小になるように最適化する(ステップS22)。対象属性ベクトル算出部114は、射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと第二の推定値との差が最小になるように最適化する(ステップS23)。
第二射影算出部121は、推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルxnewの射影αnewを、予測器に予測対象サンプルを適用して得られる値と第三の推定値との差が最小になるように最適化する(ステップS24)。予測部122は、対象タスクの属性ベクトルdT+1に射影αnewを適用して予測値を算出する(ステップS25)。
以上のように、本実施形態では、属性ベクトル推定部112が、既存の複数の予測器に適用して得られる出力から、各予測器で用いられる属性ベクトルdを推定し、第一射影算出部113は、予測器に適用して得られる値と第一の推定値との差が最小になるように各ラベル付サンプルの射影を最適化する。そして、対象属性ベクトル算出部114が、ラベル付サンプルのラベルと第二の推定値との差が最小になるように対象タスクの属性ベクトルを最適化する。
さらに、第二射影算出部121が、予測器に予測対象サンプルを適用して得られる値と第三の推定値との差が最小になるように予測対象サンプルxnewの射影αnewを算出し、予測部122が、対象タスクの属性ベクトルdT+1に射影αnewを適用して予測値を算出する。
よって、既存のモデルを利用して少数のデータから精度の高いモデルを効率的に(短時間で)学習できる。具体的には、本実施形態では、新しい予測対象のサンプルが得られる毎に射影ベクトルを算出することで、より精度の高い予測を行うことが可能になる。
実施形態2.
次に、本発明による学習装置の第二の実施形態を説明する。図4は、本発明による学習装置の第二の実施形態の構成例を示すブロック図である。本実施形態の学習装置200は、第一の実施形態の同様、対象タスク属性推定部110と、予測値算出部120と、予測器記憶部130とを備えている。ただし、第二の実施形態の対象タスク属性推定部110および予測値算出部120は、構成内容が第一の実施形態と異なる。
本実施形態の対象タスク属性推定部110は、サンプル生成部211と、変換推定部212と、属性ベクトル算出部213とを含む。
サンプル生成部211は、第一の実施形態のサンプル生成部111と同様、対象タスクのドメインのサンプルを生成する。
変換推定部212は、対象タスクのドメインのサンプルを既存の複数の予測器h(x)に適用して得られる出力(サンプル+値)から、上記予測器でそれぞれ用いられる属性ベクトルdからなる属性行列D、および、上記出力をその属性ベクトルdの空間に変換する変換行列Vを推定する。
具体的には、変換推定部212は、特徴写像関数φ(R→R)にサンプルxを適用して得られるベクトルと変換行列Vと属性行列Dとの積により算出される値と、そのサンプルxを予測器h(x)に適用して出力される値との差を最小化するように、属性ベクトルdからなる属性行列Dおよび変換行列Vを最適化する。ここで、特徴写像関数φは、属性間の変換を表わす、いわゆる予測等で行われる特徴量の変換(属性設計)に該当し、予め定義される任意の関数で表される。ここで、属性行列D^(Dの上付きハット)および変換行列V^(Vの上付きハット)は、以下に例示する式4で推定される。
Figure 0007147874000004
式4において、Cは、式1と同様、各属性ベクトルdが大きな値にならないための制約条件の集合であり、pは、属性ベクトルの要素の種類の最大数である。また、式1と同様に、式4においても、任意の正則化が含まれていてもよい。
属性ベクトル算出部213は、変換行列Vと写像関数φとの積に適用して推定値(以下、第四の推定値と記す。)を得るための対象タスクの属性ベクトルdT+1を、ラベル付サンプル(x,y)のラベルyと上記第四の推定値との差が最小になるように算出する。
具体的には、属性ベクトル算出部213は、対象タスクのラベル付サンプル(x,y)のyと、推定された変換行列Vを用いて、対象タスクの属性ベクトルd^T+1(dT+1の上付きハット)を以下に例示する式5を用いて算出してもよい。
Figure 0007147874000005
本実施形態の予測値算出部120は、予測部222を含む。
予測部222は、対象タスクの属性ベクトルdT+1に変換行列Vおよび写像関数φに予測対象サンプルxnewを適用した結果を適用して予測値を算出する。予測部222は、例えば、以下の式6に例示する方法で、予測値を算出してもよい。
Figure 0007147874000006
対象タスク属性推定部110(より具体的には、サンプル生成部211と、変換推定部212と、属性ベクトル算出部213)と、予測値算出部120(より具体的には、予測部222)とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサによって実現される。
次に、本実施形態の学習装置の動作例を説明する。図5は、本実施形態の学習装置200の動作例を示すフローチャートである。
変換推定部212は、対象ドメインのサンプルを既存の複数の予測器に適用して得られる出力から、その予測器でそれぞれ用いられる属性ベクトルd(属性行列D)およびその出力をその属性ベクトルdの空間に変換する変換行列Vを推定する(ステップS31)。属性ベクトル算出部213は、変換行列Vと写像関数φとの積に適用して第四の推定値を得るための対象タスクの属性ベクトルdT+1を、ラベル付サンプルのラベルyと上記第四の推定値との差が最小になるように最適化する(ステップS32)。予測部222は、対象タスクの属性ベクトルdT+1に、変換行列Vおよび写像関数φに予測対象サンプルxnewを適用した結果を適用して予測値を算出する(ステップS33)。
以上のように、本実施形態では、変換推定部212が、既存の複数の予測器に適用して得られる出力から、各予測器で用いられる属性ベクトルdおよび変換行列Vを推定し、属性ベクトル算出部213が、ラベル付サンプルのラベルyと上記第四の推定値との差が最小になるように対象タスクの属性ベクトルdT+1を最適化する。そして、予測部222が、対象タスクの属性ベクトルdT+1に、変換行列Vおよび写像関数φに予測対象サンプルxnewを適用した結果を適用して予測値を算出する。
よって、第一の実施形態と同様、既存のモデルを利用して少数のデータから精度の高いモデルを効率的に(短時間で)学習できる。具体的には、本実施形態では、新しい予測対象のサンプルが得られるたびに、単純に変換行列Vを用いた演算をするだけで良いため、計算コストを低減させることが可能になる。特に、変換行列で適切に射影できるような新しいサンプルに対しては、予測精度が期待される。
実施形態3.
次に、本発明による学習装置の第三の実施形態を説明する。図6は、本発明による学習装置の第三の実施形態の構成例を示すブロック図である。本実施形態の学習装置300は、第一の実施形態および第二の実施形態の同様、対象タスク属性推定部110と、予測値算出部120と、予測器記憶部130とを備えている。ただし、第三の実施形態の対象タスク属性推定部110および予測値算出部120は、構成内容が第一の実施形態および第二の実施形態と異なる。
本実施形態では、第一の実施形態および第二の実施形態と比較し、対象タスクのラベルなしデータが得られている状況を想定する。以下の説明では、対象タスクのラベル付データを以下に例示する式7で表し、対象タスクのラベルなしデータを、以下に例示する式8で表す。
Figure 0007147874000007
本実施形態の対象タスク属性推定部110は、属性ベクトル最適化部311を含む。
属性ベクトル最適化部311は、対象タスクの属性ベクトルdT+1を算出するための二つの項(以下、第一の最適化項および第二の最適化項と記す。)を最小化するような辞書Dを学習する。第一の最適化項は、対象タスクのラベルなしデータに関する項であり、第二の最適化項は、対象タスクのラベル付データに関する項である。
具体的には、第一の最適化項は、対象タスクのラベルなしサンプルを既存の複数の予測器に適用して得られる値からなるベクトルh´と、その予測器でそれぞれ用いられる属性ベクトルd(より具体的には、属性行列D)にラベルなしサンプルxの属性ベクトルd空間への射影α´を適用して得られる推定ベクトルとのノルムを算出する項である。第一の最適化項は、以下に例示する式9で表される。
Figure 0007147874000008
第二の最適化項は、対象タスクのラベル付サンプルを既存の複数の予測器に適用して得られる値およびそのサンプルのラベルyからなるベクトルhバー(hの上付きバー)と、その予測器でそれぞれ用いられる属性ベクトルd(より具体的には、属性行列D)および対象タスクの属性ベクトルdT+1にサンプルxの属性ベクトルdおよび対象タスクの属性ベクトルdT+1空間への射影αを適用して得られる推定ベクトルとのノルムを算出する項である。第二の最適化項は、以下に例示する式10で表される。
Figure 0007147874000009
属性ベクトル最適化部311は、第一の最適化項と第二の最適化項との和が最小になるように最適化して属性ベクトルdおよび対象タスクの属性ベクトルdT+1を算出する。属性ベクトル最適化部311は、例えば、以下に例示する式11を最適化して、属性ベクトルdおよび対象タスクの属性ベクトルdT+1を算出してもよい。
Figure 0007147874000010
本実施形態の予測値算出部120は、予測器算出部321と、予測部322とを含む。
予測器算出部321は、対象タスクの予測器を学習する。具体的には、予測器算出部321は、以下に示す二つの項(以下、第一の学習項および第二の学習項)を最小化するように予測器を学習する。第一の学習項は、対象タスクのラベルなしサンプルに関する項であり、第二の学習項は、対象タスクのラベル付サンプルに関する項である。
具体的には、第一の学習項は、第二の実施形態で示す写像関数φにラベルなしサンプルを適用した結果に対して予測器を適用した値と、推定された属性ベクトルdT+1にそのラベルなしサンプルの射影α´を適用した値との差の大きさのラベルなしサンプルごとの総和である。
第二の学習項は、予め定めた比率γのもとで算出される、写像関数φにラベル付サンプルを適用した結果に対して予測器を適用した値とそのラベル付サンプルのラベルとの差の大きさと、写像関数φにラベル付サンプルを適用した結果に対して予測器を適用した値と対象タスクの属性ベクトルdT+1にそのラベル付サンプルの射影αを適用した値との差の大きさとの和のラベル付サンプルごとの総和である。
予測器算出部321は、第一の学習項と、第二の学習項との和を最小化するように予測器を学習する。予測器算出部321は、例えば、以下に例示する式12を用いて予測器を学習してもよい。
Figure 0007147874000011
予測部322は、写像関数φに予測対象サンプルxnewを適用した結果を予測器wに適用して予測値を算出する。予測部322は、例えば、以下に例示する式13を用いて予測値を算出してもよい。
Figure 0007147874000012
対象タスク属性推定部110(より具体的には、属性ベクトル最適化部311)と、予測値算出部120(より具体的には、予測器算出部321と、予測部322)とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサによって実現される。
次に、本実施形態の学習装置の動作例を説明する。図7は、本実施形態の学習装置300の動作例を示すフローチャートである。
属性ベクトル最適化部311は、ラベルなしサンプルを予測器に適用して得られる結果と、予測器の属性ベクトルにラベルなしサンプルの属性ベクトルの空間への射影を適用した結果とのノルム(第一の最適化項)と、ラベル付サンプルを予測器に適用して得られる結果及びそのラベル付サンプルのラベルを含むベクトルと、予測器の属性ベクトル及び対象タスクの予測ベクトルにラベル付サンプルの属性ベクトル及び対象タスクの属性ベクトルの空間への射影を適用して得られる結果とのノルム(第二の最適化項)の和が最小になるように、属性ベクトルおよび対象タスクの属性ベクトルdT+1を算出する(ステップS41)。
予測器算出部321は、予め定めた比率γのもとで算出される、写像関数φにラベル付サンプルを適用した結果に対して予測器を適用した値とそのラベル付サンプルのラベルとの差の大きさと、写像関数φにラベル付サンプルを適用した結果に対して予測器を適用した値と対象タスクの属性ベクトルdT+1にそのラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和(第二の学習項)、および、写像関数φにラベルなしサンプルを適用した結果に対して予測器を適用した値と属性ベクトルdT+1にそのラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和(第一の学習項)を最小化する予測器wを算出する(ステップS42)。
予測部322は、写像関数φに予測対象サンプルxnewを適用した結果を予測器に適用して予測値を算出する(ステップS43)。
以上のように、本実施形態では、属性ベクトル最適化部311は、第一の最適化項と第二の最適化項との和が最小になるように、属性ベクトルおよび対象タスクの属性ベクトルdT+1を算出し、予測器算出部321が、第二の学習項、および、第一の学習項との和を最小化する予測器を算出する。そして、予測部322が、写像関数φに予測対象サンプルxnewを適用した結果を予測器に適用して予測値を算出する。
よって、第一の実施形態および第二の実施形態と同様、既存のモデルを利用して少数のデータから精度の高いモデルを効率的に(短時間で)学習できる。具体的には、第一の実施形態および第二の実施形態では、任意のラベルなしサンプルを想定したが、本実施形態では、対象タスクのラベルなしサンプルが予め与えられる場合を想定する。これは、いわゆる半教師付き学習に相当し、ラベル付サンプルを直接使用できること、および、対象タスクのサンプルに関する分布の情報を使用できるため、第一の実施形態および第二の実施形態と比較し、精度を高くできる可能性がある。
実施形態4.
次に、本発明による学習装置の第四の実施形態を説明する。図8は、本発明による学習装置の第四の実施形態の構成例を示すブロック図である。本実施形態の学習装置400は、対象タスク属性推定部110と、予測値算出部120と、予測器記憶部130と、モデル評価部140と、出力部150とを備えている。
本実施形態の対象タスク属性推定部110および予測値算出部120の内容は、第一の実施形態、第二の実施形態および第三の実施形態のいずれでも構わない。また、予測器記憶部130の内容は、上述する実施形態と同様である。
モデル評価部140は、学習済みの予測器の属性ベクトルと、推定された対象タスクを予測する予測器の属性ベクトルとの類似度を評価する。モデル評価部140が属性ベクトルの類似度を評価する方法は任意である。モデル評価部140は、例えば、以下の式14に例示するコサイン類似度を算出して類似度を評価してもよい。
Figure 0007147874000013
出力部150は、類似度に応じた態様で予測器の間の類似性を可視化する。図9は、類似性を可視化する処理の例を示す説明図である。出力部150は、図9に例示するように、二つの予測器の類似度を行列形式で表示し、各予測器の類似度を対応する位置に区別し得る態様で可視化してもよい。図9では、類似度の高いセルを濃い色で、類似度の低いセルを薄い色で可視化した例を示す。
このように、類似性の有する予測器(すなわち、タスク)の関係を可視化することで、例えば、キャンペーン等の意思決定を行う際に利用することが可能になる。
次に、本発明の概要を説明する。図10は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置80(例えば、学習装置100~400)は、対象タスクのドメインのサンプルに基づいて既存の予測器(例えば、h)の属性ベクトル(例えば、属性ベクトルd、属性行列D)を推定し、予測器に対象タスクのラベル付サンプルを適用した結果(例えば、h(x))に基づいて推定される属性ベクトルからなる空間に対するそのラベル付サンプルの変換方法(例えば、射影α)に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定部81(例えば、対象タスク属性推定部110)と、対象タスクの属性ベクトルに基づいて、上記変換方法により変換される予測対象サンプル(例えば、xnew)の予測値を算出する予測値算出部82(例えば、予測値算出部120)とを備えている。
そのような構成により、既存のモデルを利用して少数のデータから精度の高いモデルを学習できる。
また、対象タスク属性推定部81は、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、その予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定部(例えば、属性ベクトル推定部112)と、推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影(例えばα)を、予測器にそのラベル付サンプルを適用して得られる値とその第一の推定値との差が最小になるように算出する第一射影算出部(例えば、第一射影算出部113)と、射影に適用して第二の推定値を得るための対象タスクの属性ベクトル(例えば、dT+1)を、ラベル付サンプルのラベル(例えば、y)と第二の推定値との差が最小になるように算出する対象属性ベクトル算出部(例えば、対象属性ベクトル算出部114)とを含んでいてもよい。
そして、予測値算出部82は、推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプル(例えば、サンプルxnew)の射影(例えば、射影α^new)を、予測器にその予測対象サンプルを適用して得られる値と第三の推定値との差が最小になるように算出する第二射影算出部(例えば、第二射影算出部121)と、対象タスクの属性ベクトルに射影を適用して予測値を算出する予測部(例えば、予測部122)とを含んでいてもよい。
そのような構成により、新しい予測対象のサンプルが得られる毎に射影ベクトルを算出することで、より精度の高い予測を行うことが可能になる。
その他の構成として、対象タスク属性推定部81は、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力(サンプル+値)から、その予測器でそれぞれ用いられる属性ベクトルおよび上記出力をその属性ベクトルの空間に変換する変換行列(例えば、変換行列V)を推定する変換推定部(例えば、変換推定部212)と、変換行列と属性間の変換を表わす関数である写像関数(例えば、写像関数φ)との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルとその推定値との差が最小になるように算出する属性ベクトル算出部(例えば、属性ベクトル算出部213)とを含んでいてもよい。
そして、予測値算出部82は、対象タスクの属性ベクトルに変換行列および写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測部(例えば、予測部222)を含んでいてもよい。
そのような構成により、新しい予測対象のサンプルが得られるたびに、単純に変換行列Vを用いた演算をするだけで良いため、計算コストを低減させることが可能になる。特に、変換行列で適切に射影できるような新しいサンプルに対しては、予測精度が期待される。
さらに、その他の構成として、対象タスク属性推定部81は、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、その予測器でそれぞれ用いられる属性ベクトルにラベルなしサンプルのその属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、対象タスクのラベル付サンプルを複数の予測器に適用して得られる値およびそのラベル付サンプルのラベルからなるベクトルと、その予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルにラベル付サンプルのその属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、第一の最適化項と第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化部(例えば、属性ベクトル最適化部311)を含んでいてもよい。
そして、予測値算出部82は、予め定めた比率(例えば、比率γ)のもとで算出される、属性間の変換を表わす関数である写像関数(例えば、写像関数φ)にラベル付サンプルを適用した結果に対して予測器を適用した値とそのラベル付サンプルのラベルとの差の大きさと、写像関数にラベル付サンプルを適用した結果に対して予測器を適用した値と対象タスクの属性ベクトルにそのラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と属性ベクトルにそのラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和を最小化する予測器を算出する予測器算出部(例えば、予測器算出部321)と、写像関数に予測対象サンプルを適用した結果を予測器に適用して予測値を算出する予測部(例えば、予測部322)と含んでいてもよい。
そのような構成により、対象タスクのラベルなしサンプルが予め与えられる場合(いわゆる半教師付き学習の場合)には、ラベル付サンプルを直接使用できること、および、対象タスクのサンプルに関する分布の情報を使用できるため、より精度を高くできる可能性がある。
また、学習装置80は、既存の予測器の属性ベクトルと、推定された対象タスクを予測する予測器の属性ベクトルとの類似度を評価するモデル評価部(例えば、モデル評価部140)と、類似度に応じた態様で予測器の間の類似性を可視化する出力部(例えば、出力部150)とを備えていてもよい。
図11は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の学習装置は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定部と、前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出部とを備えたことを特徴とする学習装置。
(付記2)対象タスク属性推定部は、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定部と、前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出する第一射影算出部と、前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出する対象属性ベクトル算出部とを含み、前記予測値算出部は、前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出する第二射影算出部と、前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する予測部とを含む付記1記載の学習装置。
(付記3)対象タスク属性推定部は、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定する変換推定部と、前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出する属性ベクトル算出部とを含み、予測値算出部は、前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測部を含む付記1記載の学習装置。
(付記4)対象タスク属性推定部は、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化部を含み、前記予測値算出部は、予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和を最小化する予測器を算出する予測器算出部と、前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する予測部と含む付記1記載の学習装置。
(付記5)既存の予測器の属性ベクトルと、推定された対象タスクを予測する予測器の属性ベクトルとの類似度を評価するモデル評価部と、前記類似度に応じた態様で前記予測器の間の類似性を可視化する出力部とを備えた付記1から付記4のうちのいずれか1つに記載の学習装置。
(付記6)コンピュータが、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定し、前記コンピュータが、前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出することを特徴とする学習方法。
(付記7)コンピュータが、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定し、前記コンピュータが、前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出し、前記コンピュータが、前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出し、前記コンピュータが、前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出し、前記コンピュータが、前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する付記6記載の学習方法。
(付記8)コンピュータが、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定し、前記コンピュータが、前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出し、前記コンピュータが、前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する付記6記載の学習方法。
(付記9)コンピュータが、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、前記コンピュータが、対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出し、前記コンピュータが、予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和を最小化する予測器を算出し、前記コンピュータが、前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する付記6記載の学習方法。
(付記10)コンピュータに、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定処理、および、前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出処理を実行させるための学習プログラム。
(付記11)コンピュータに、対象タスク属性推定処理で、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定処理、前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出する第一射影算出処理、および、前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出する対象属性ベクトル算出処理を実行させ、前記予測値算出処理で、前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出する第二射影算出処理、および、前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する予測処理を実行させる付記10記載の学習プログラム。
(付記12)コンピュータに、対象タスク属性推定処理で、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定する変換推定処理、および、前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出する属性ベクトル算出処理を実行させ、予測値算出処理で、前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測処理を実行させる付記10記載の学習プログラム。
(付記13)コンピュータに、対象タスク属性推定処理で、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化処理を実行させ、前記予測値算出処理で、予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和との和を最小化する予測器を算出する予測器算出処理、および、前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する予測処理を実行させる付記10記載の学習プログラム。
100,200,300,400 学習装置
110 対象タスク属性推定部
111 サンプル生成部
112 属性ベクトル推定部
113 第一射影算出部
114 対象属性ベクトル算出部
120 予測値算出部
121 第二射影算出部
122 予測部
130 予測器記憶部
211 サンプル生成部
212 変換推定部
213 属性ベクトル算出部
222 予測部
311 属性ベクトル最適化部
321 予測器算出部
322 予測部

Claims (10)

  1. 対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定部と、
    前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出部とを備えた
    ことを特徴とする学習装置。
  2. 対象タスク属性推定部は、
    対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定する属性ベクトル推定部と、
    前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出する第一射影算出部と、
    前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出する対象属性ベクトル算出部とを含み、
    前記予測値算出部は、
    前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出する第二射影算出部と、
    前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する予測部とを含む
    請求項1記載の学習装置。
  3. 対象タスク属性推定部は、
    対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定する変換推定部と、
    前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出する属性ベクトル算出部とを含み、
    予測値算出部は、
    前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する予測部を含む
    請求項1記載の学習装置。
  4. 対象タスク属性推定部は、
    対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、
    対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、
    前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出する属性ベクトル最適化部を含み、
    前記予測値算出部は、
    予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、
    前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和
    との和を最小化する予測器を算出する予測器算出部と、
    前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する予測部と含む
    請求項1記載の学習装置。
  5. 既存の予測器の属性ベクトルと、推定された対象タスクを予測する予測器の属性ベクトルとの類似度を評価するモデル評価部と、
    前記類似度に応じた態様で前記予測器の間の類似性を可視化する出力部とを備えた
    請求項1から請求項4のうちのいずれか1項に記載の学習装置。
  6. コンピュータが、対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定し、
    前記コンピュータが、前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する
    ことを特徴とする学習方法。
  7. コンピュータが、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルを推定し、
    前記コンピュータが、前記推定された属性ベクトルに適用して第一の推定値を得るための各ラベル付サンプルの射影を、前記予測器に当該ラベル付サンプルを適用して得られる値と当該第一の推定値との差が最小になるように算出し、
    前記コンピュータが、前記射影に適用して第二の推定値を得るための対象タスクの属性ベクトルを、前記ラベル付サンプルのラベルと当該第二の推定値との差が最小になるように算出し、
    前記コンピュータが、前記推定された属性ベクトルに適用して第三の推定値を得るための予測対象サンプルの射影を、前記予測器に当該予測対象サンプルを適用して得られる値と当該第三の推定値との差が最小になるように算出し、
    前記コンピュータが、前記対象タスクの属性ベクトルに前記射影を適用して予測値を算出する
    請求項6記載の学習方法。
  8. コンピュータが、対象タスクのドメインのサンプルを複数の予測器に適用して得られる出力から、当該予測器でそれぞれ用いられる属性ベクトルおよび前記出力を当該属性ベクトルの空間に変換する変換行列を推定し、
    前記コンピュータが、前記変換行列と属性間の変換を表わす関数である写像関数との積に適用して推定値を得るための対象タスクの属性ベクトルを、ラベル付サンプルのラベルと当該推定値との差が最小になるように算出し、
    前記コンピュータが、前記対象タスクの属性ベクトルに前記変換行列および前記写像関数に予測対象サンプルを適用した結果を適用して予測値を算出する
    請求項6記載の学習方法。
  9. コンピュータが、対象タスクのラベルなしサンプルを複数の予測器に適用して得られる値からなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルに前記ラベルなしサンプルの当該属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第一の最適化項とし、
    前記コンピュータが、対象タスクのラベル付サンプルを前記複数の予測器に適用して得られる値および当該ラベル付サンプルのラベルからなるベクトルと、当該予測器でそれぞれ用いられる属性ベクトルおよび対象タスクの属性ベクトルに前記ラベル付サンプルの当該属性ベクトルおよび対象タスクの属性ベクトルの空間への射影を適用して得られるベクトルとのノルムを第二の最適化項としたときの、
    前記第一の最適化項と前記第二の最適化項との和が最小になるように属性ベクトルおよび対象タスクの属性ベクトルを算出し、
    前記コンピュータが、予め定めた比率のもとで算出される、属性間の変換を表わす関数である写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と当該ラベル付サンプルのラベルとの差の大きさと、前記写像関数に前記ラベル付サンプルを適用した結果に対して予測器を適用した値と前記対象タスクの属性ベクトルに当該ラベル付サンプルの射影を適用した値との差の大きさとの和のラベル付サンプルごとの総和、および、
    前記写像関数にラベルなしサンプルを適用した結果に対して予測器を適用した値と前記属性ベクトルに当該ラベルなしサンプルの射影を適用した値との差の大きさのラベルなしサンプルごとの総和
    との和を最小化する予測器を算出し、
    前記コンピュータが、前記写像関数に予測対象サンプルを適用した結果を前記予測器に適用して予測値を算出する
    請求項6記載の学習方法。
  10. コンピュータに、
    対象タスクのドメインのサンプルに基づいて既存の予測器の属性ベクトルを推定し、前記予測器に対象タスクのラベル付サンプルを適用した結果に基づいて推定される前記属性ベクトルからなる空間に対する当該ラベル付サンプルの変換方法に基づいて、対象タスクの属性ベクトルを推定する対象タスク属性推定処理、および、
    前記対象タスクの属性ベクトルに基づいて、前記変換方法により変換される予測対象サンプルの予測値を算出する予測値算出処理
    を実行させるための学習プログラム。
JP2020565140A 2019-01-11 2019-01-11 学習装置、学習方法および学習プログラム Active JP7147874B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/000704 WO2020144853A1 (ja) 2019-01-11 2019-01-11 学習装置、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2020144853A1 JPWO2020144853A1 (ja) 2021-11-25
JP7147874B2 true JP7147874B2 (ja) 2022-10-05

Family

ID=71521087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020565140A Active JP7147874B2 (ja) 2019-01-11 2019-01-11 学習装置、学習方法および学習プログラム

Country Status (3)

Country Link
US (1) US20220092475A1 (ja)
JP (1) JP7147874B2 (ja)
WO (1) WO2020144853A1 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KODIROV, E et al.,"Unsupervised Domain Adaptation for Zero-Shot Learning",2015 IEEE International Conference on Computer Vision (ICCV) [online],IEEE,2016年02月18日,pp. 2452-2460,[retrieved on 2019.04.01], Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/7410639>,<DOI: 10.1109/ICCV.2015.282>
ZHAO, A et al.,"Domain-Invariant Projection Learning for Zero-Shot Recognition",arXiv.org [online],2018年10月19日,pp. 1-12,[retrieved on 2022.08.01], Retrieved from the Internet: <URL: https://arxiv.org/abs/1810.08326v1>,<DOI: 10.48550/arXiv.1810.08326>

Also Published As

Publication number Publication date
US20220092475A1 (en) 2022-03-24
JPWO2020144853A1 (ja) 2021-11-25
WO2020144853A1 (ja) 2020-07-16

Similar Documents

Publication Publication Date Title
KR102170105B1 (ko) 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
Huber Recursive Gaussian process: On-line regression and learning
JP7322997B2 (ja) データ変換装置
US10318874B1 (en) Selecting forecasting models for time series using state space representations
Simar et al. Stochastic FDH/DEA estimators for frontier analysis
CN108280451B (zh) 语义分割及网络训练方法和装置、设备、介质
JP2017049907A (ja) ニューラルネットワーク、その学習方法、及びコンピュータプログラム
CN105335595A (zh) 基于感受的多媒体处理
US20230376559A1 (en) Solution method selection device and method
Iquebal et al. Emulating the evolution of phase separating microstructures using low-dimensional tensor decomposition and nonlinear regression
JP7147874B2 (ja) 学習装置、学習方法および学習プログラム
US11501132B2 (en) Predictive maintenance system for spatially correlated industrial equipment
Goeva et al. Reconstructing input models via simulation optimization
JP7355240B2 (ja) スキル可視化装置、スキル可視化方法およびスキル可視化プログラム
JP7355239B2 (ja) 学習装置、学習方法および学習プログラム
US20060136328A1 (en) Method and system for analyzing the risk of a project
JP7464115B2 (ja) 学習装置、学習方法および学習プログラム
WO2020121378A1 (ja) 学習装置および学習方法
JPWO2019106758A1 (ja) 言語処理装置、言語処理システムおよび言語処理方法
JP2022142914A (ja) 求解装置およびプログラム
Morichetta et al. Demystifying deep learning in predictive monitoring for cloud-native SLOs
JP6726312B2 (ja) シミュレーション方法、システム、及びプログラム
JPWO2020090076A1 (ja) 回答統合装置、回答統合方法および回答統合プログラム
Yang et al. High-resolution reconstruction of sparse data from dense low-resolution spatio-temporal data
US20230267363A1 (en) Machine learning with periodic data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210628

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220905

R151 Written notification of patent or utility model registration

Ref document number: 7147874

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151