JP7452695B2

JP7452695B2 - 生成プログラム、生成方法および情報処理装置

Info

Publication number: JP7452695B2
Application number: JP2022560625A
Authority: JP
Inventors: 孝河東; 健人上村; 優安富; 友裕早瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2024-03-19
Anticipated expiration: 2040-11-09
Also published as: JPWO2022097302A1; US20230259827A1; WO2022097302A1

Description

本発明は、生成プログラム、生成方法および情報処理装置に関する。

深層学習（DL：Deep Learning）や機械学習などでは、ラベル付きデータを用いた教師有学習、ラベル無しデータを用いた教師無学習、ラベル付きデータとラベル無しデータの両方を用いた半教師有り学習が利用されている。一般的に、ラベル無しデータは、収集コストが比較的少なく収集しやすいが、ラベル有りデータは、十分なデータ量を収集するには膨大な時間とコストがかかる。

近年では、ラベル無しデータから、人手によりラベルを付与してラベル付きデータを生成することや、データ変換器やシミュレータ等を用いてラベル付きデータを生成することが知られている。

特開２０１９－１５９５７６号公報

しかしながら、上記技術では、データの生成段階や生成手法により、生成されたラベル付きデータと現実のデータとの乖離が発生し、ラベル付きデータの品質が劣化することがある。

一つの側面では、品質がよいラベル付きデータセットを拡充することができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。

第１の案では、生成プログラムは、コンピュータに、複数のデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習する処理を実行させる。生成プログラムは、コンピュータに、複数のラベル付きデータのうち、学習済みの特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する、処理を実行させる。

一実施形態によれば、品質がよいラベル付きデータセットを拡充することができる。

図１は、データセットの分析を説明する図である。図２は、ラベル付けの参考技術を説明する図である。図３は、ラベル付けの参考技術を説明する図である。図４は、実施例１にかかる情報処理装置の処理を説明する図である。図５は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図６は、ラベル付きデータセットの一例を説明する図である。図７は、ラベル無しデータセットの一例を説明する図である。図８は、特徴生成モデルの機械学習を説明する図である。図９は、特徴生成モデル１７の機械学習の繰返しを説明する図である。図１０は、特徴空間への射影を説明する図である。図１１は、ラベル付きデータセットの生成手法１を説明する図である。図１２は、ラベル付きデータセットの生成手法２を説明する図である。図１３は、ラベル付きデータセットの生成手法３を説明する図である。図１４は、ラベル付きデータセットの生成手法３を説明する図である。図１５は、ラベル付きデータセットの生成手法３を説明する図である。図１６は、分析対象の選択例を説明する図である。図１７は、処理の流れを示すフローチャートである。図１８は、ハードウェア構成例を説明する図である。

以下に、本発明にかかる生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［情報処理装置の説明］
近年、深層学習などの各種機械学習において、データの分布（性質）の異なる複数のデータセット（複数のドメインのデータセット）に対する分類モデルの精度等の性質を分析したい要望がある。例えば、機械学習（訓練）に使用可能なラベル付きデータセットとはデータの分布（性質）の異なるデータセットへモデルを適用する場合に、適用先の精度をあらかじめ推定（評価）したいという要望が存在する。

このような場合、例えば、ラベル付きデータからなる複数のドメインのデータセットを収集し、データセット間の分布差等の指標と分類モデルに対する精度等の推定対象を測定し、それらの関係を分析することで、推定対象を推定することが行われている。

図１は、データセットの分析を説明する図である。図１に示すように、情報処理装置１０は、ドメインＡのラベル付きデータセット、ドメインＢのラベル付きデータセット、ドメインＣのラベル付きデータセットそれぞれを、対象の分類モデルに入力して、分類モデルの分類精度を測定する。なお、ラベル付きデータセットとは、正解情報であるラベルが付与されているラベル付きのデータの集合である。また、精度は、分類モデルによる分類精度であり、全データにおいて分類か成功した割合などを採用することができる。

また、情報処理装置１０は、ドメインＡのラベル付きデータセット、ドメインＢのラベル付きデータセット、ドメインＣのラベル付きデータセットそれぞれ対して、データの分布を測定し、各分布差を算出する。なお、分布とは、特徴量を生成する別のモデルなどを用いることで得られる各データの特徴量の分布や各データの特徴量の分散、実データから得られる情報（例えば、画像の大きさ、色、形、向きなど）の分布や分散などを採用することができる。

そして、情報処理装置１０は、既存のラベル付きデータセットから分類モデルの精度の指標を生成する。例えば、ドメインＡについて指標を生成する例を説明する。情報処理装置１０は、ドメインＡに対する精度Ａと分布Ａ、ドメインＢに対する精度Ｂ（精度Ｂ＜精度Ａ）と分布Ｂとを用いて、分布差Ａ１（分布Ａ－分布Ｂ）と精度差Ａ１（精度Ａ－精度Ｂ）を算出する。同様に、情報処理装置１０は、ドメインＡに対する精度Ａと分布Ａ、ドメインＣに対する精度Ｃ（精度Ａ＜精度Ｃ）と分布Ｃとを用いて、分布差Ａ２（分布Ａ－分布Ｃ）と精度差Ａ２（精度Ｃ－精度Ａ）を算出する。この結果、情報処理装置１０は、ドメインＡの精度と各分類差との関係に基づいて、ドメインＡの分布からどのくらい差があれば、ドメインＡの精度からどのくらい低下または向上するのかの指標を生成できる。

このようにして、情報処理装置１０は、ドメインＡ、ドメインＢ、ドメインＣそれぞれについて、各ドメインを基準にした指標を生成する。

別例としては、情報処理装置１０は、精度と分布との２次元空間において、線形補間により指標を生成することもできる。例えば、情報処理装置１０は、ドメインＡの精度Ａと分布Ａ、ドメインＢの精度Ｂと分布Ｂ、ドメインＣの精度Ｃと分布Ｃについて、分布と指標との２次元空間上にプロットする。そして、情報処理装置１０は、この３点を基準にして線形補間等の既存技術を用いて補間することで、分布から精度を推定する指標を生成することができる。

その後、情報処理装置１０は、ドメインＤのラベル無しデータセットに分類モデルを適用する場合に、ドメインＤのデータの分布Ｄを算出する。そして、情報処理装置１０は、上述した分布から精度を推定する指標にしたがって、評価対象（精度の推定対象）であるドメインＤの分布Ｄに対応する精度Ｄを推定することができる。

また、情報処理装置１０は、ドメインＤがドメインＢと関連すると既知である場合、ドメインＤの分布ＤとドメインＢの分布Ｂとを用いて分布差Ｄ１を算出する。そして、情報処理装置１０は、分布差Ｄ１とドメインＢの精度Ｂとを用いて、評価対象であるドメインＤの分布Ｄに対応する精度Ｄを推定することができる。

上述したように、情報処理装置１０は、既存のラベル付きデータセットを用いることで、分類モデルを新たな環境に適用するときに、事前に精度の予測などを行うことができる。また、このようなラベル付きデータに対するドメイン間の分析を行う場合、複数のドメインに対するラベル付きデータ（ラベル付きドメイン）を収集する必要があり、既存のラベル付きデータセットが多いほど予測精度も向上する。

しかし、ラベル無しデータは、収集コストが比較的少なく収集しやすいが、ラベル有りデータは、十分なデータ量を収集するには膨大な時間とコストがかかる。

図２と図３は、ラベル付けの参考技術を説明する図である。図２に示すように、ラベル無しデータ（ラベル無しドメイン）に対して、人手によりラベルを付与することで、ラベル付きドメインを生成することが行われている。この手法では、人手が介入するためコストがかかる。また、図３に示すように、ユーザがデータの性質等に応じて、データ変換器やシミュレータ等を設計することで、ラベル付きドメインを直接生成することが行われている。この手法では、人手による設計が必要であり、その設計に依存することから、生成されたラベル付きデータと現実のデータとの乖離が発生することがある。このように、少ないラベル付きドメインや品質の悪いラベル付きドメインでは高精度な分析ができない。

そこで、実施例１では、複数のラベル付きドメインのデータを混合して新しいラベル付きドメイン（疑似ドメイン）を生成する。具体的には、情報処理装置１０は、収集の容易なラベル無しドメインを使用して、混合方法を決定するためにドメインに対する特徴空間を生成する。

図４は、実施例１にかかる情報処理装置１０の処理を説明する図である。図４に示すように、情報処理装置１０は、ラベル無しデータからなる複数のデータセット（ラベル無しドメインに含まれる各データ）に対して、同一ドメインに含まれるデータ間の距離が小さく、異ドメイン間のデータの距離が大きくなる特徴空間を学習（距離学習）する。そして、情報処理装置１０は、ラベル付きドメインＡ、ラベル付きドメインＢ、ラベル付きドメインＣの各データを特徴空間に射影し、特徴空間内の部分空間に含まれるラベル付きデータを収集することで新たなラベル付きドメイン（疑似ドメインＤ）を生成する。なお、ラベル無しデータが不足する場合は、ラベル付きデータの一部をラベル無しデータとして使用してもよい。

このようにして、情報処理装置１０は、実データを用いて新たなドメインのラベル付きデータセットを生成することができるので、品質がよいラベル付きデータセットを拡充することができる。この結果、情報処理装置１０は、ドメイン間の関係分析に使用するラベル付きデータセットを拡充することができ、分析精度を向上させることもできる。

［機能構成］
図５は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図５に示すように、情報処理装置１０は、通信部１１、表示部１２、記憶部１３、制御部２０を有する。

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、管理者端末から、訓練データ、分析対象、各種指示などを受信する。また、通信部１１は、管理者端末に、分析結果などを送信する。

表示部１２は、各種情報を表示する処理部であり、例えばディスプレイやタッチパネルなどにより実現される。例えば、表示部１２は、後述する疑似ドメインや分析結果などを表示する。

記憶部１３は、各種データや制御部２０が実行するプログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部１３は、ラベル付きデータセット１４、ラベル無しデータセット１５、新規データセット１６、特徴生成モデル１７を記憶する。

ラベル付きデータセット１４は、ラベル付きデータから構成されるデータセットを複数記憶する。図６は、ラベル付きデータセット１４の一例を説明する図である。図６に示すように、ラベル付きデータセット１４は、「ドメイン、データセット、ラベル、データ」を対応付けて記憶する。「ドメイン」は、データセットが属するドメインであり、「データセット」は、ドメインに属するデータセットであり、「ラベル」は、正解情報であり、「データ」は、データセットに属するデータである。

図６の例では、ドメインＡにはデータセットＡ１が属しており、データセットＡ１には、ラベルＸとデータＹとが対応付けられた教師データが存在することが示されている。また、ドメインＣにはデータセットＣ１が属していることが示されている。なお、ドメインＡに属するデータセットＡのラベル付きデータを、ラベル付きドメインＡのデータと表記することがあり、ドメインＡに属するラベル付きのデータセットＡを、ラベル付きドメインＡと表記することがある。

ラベル無しデータセット１５は、ラベル無しデータから構成されるデータセットを複数記憶する。図７は、ラベル無しデータセット１５の一例を説明する図である。図７に示すように、ラベル付きデータセット１４は、「ドメイン、データセット、データ」を対応付けて記憶する。「ドメイン」は、データセットが属するドメインであり、「データセット」は、ドメインに属するデータセットであり、「データ」は、データセットに属するデータである。

図７の例では、ドメインＢにはデータセットＢ１が属しており、データセットＢ１には、データＰが含まれることが示されおり、ドメインＣにはデータセットＣ１が属しており、データセットＣ２には、データＣＸが含まれることが示されている。また、ドメインＤにはデータセットＤ２が属しており、データセットＤ２には、データＤＸが含まれることが示されている。つまり、ドメインＣには、ラベル付きデータセットとラベル無しデータセットとが含まれている。なお、ドメインＣに属するデータセットＣのラベル無しデータを、ラベル無しドメインＣのデータと表記することがあり、ドメインＣに属するラベル無しのデータセットＣを、ラベル無しドメインＣと表記することがある。

新規データセット１６は、後述する制御部２０によって生成されるデータセットである。つまり、疑似ドメインに対応する新規データセット１６である。なお、詳細については、後述する。特徴生成モデル１７は、入力データから特徴量を生成する機械学習モデルである。この特徴生成モデル１７は、後述する制御部２０によって生成される。なお、別の装置で生成された特徴生成モデル１７を用いることもできる。

制御部２０は、情報処理装置１０全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部２０は、機械学習部２１、射影部２２、疑似ドメイン生成部２３、表示制御部２４、分析部２５を有する。なお、機械学習部２１、射影部２２、疑似ドメイン生成部２３、表示制御部２４、分析部２５は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。

機械学習部２１は、複数のラベル無しデータを用いた機械学習によって、特徴生成モデル１７を生成する処理部である。すなわち、機械学習部２１は、ラベル無しデータを用いた距離学習（メトリック学習）を実行して、特徴生成モデル１７の特徴空間の学習（訓練）を実行し、学習済みの特徴生成モデル１７を記憶部１３に格納する。具体的には、機械学習部２１は、複数のデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習する。なお、学習（訓練）には、ラベル有りデータを使用してもよいが、収集コストが少ないラベル無しデータを用いることが効果的である。

図８は、特徴生成モデル１７の機械学習を説明する図であり、図９は、特徴生成モデル１７の機械学習の繰返しを説明する図である。図８に示すように、機械学習部２１は、ドメインＡのラベル付きデータセットからラベル付きデータｘとラベル付きデータｘｐとを取得するとともに、ドメインＢのラベル無しデータセットからラベル無しデータｘｎを取得する。続いて、機械学習部２１は、ラベル付きデータｘ、ラベル付きデータｘｐ、ラベル無しデータｘｎを特徴生成モデル１７に入力し、それぞれの特徴量ｚ、ｚｐ、ｚｎを生成する。

その後、機械学習部２１は、同じドメインから生成された特徴量ｚと特徴量ｚｐとの距離が近くなるとともに、異なるドメインから生成された特徴量ｚと特徴量ｚｎとの距離が遠くなるように、特徴空間を学習する。例えば、機械学習部２１は、triplet lossに関し、式（１）を用いて算出した損失関数Ｌが最小化するように学習する。なお、αは、予め設定する定数である。

また、図９に示すように、機械学習部２１は、ドメインＢのラベル無しデータセットからラベル無しデータｘとラベル無しデータｘｐとを取得するとともに、ドメインＣのラベル無しデータセットからラベル無しデータｘｎを取得する。続いて、機械学習部２１は、ラベル無しデータｘ、ラベル無しデータｘｐ、ラベル無しデータｘｎを特徴生成モデル１７に入力し、それぞれの特徴量ｚ、ｚｐ、ｚｎを生成する。その後、機械学習部２１は、同じドメインから生成された特徴量ｚと特徴量ｚｐとの距離が近くなるとともに、異なるドメインから生成された特徴量ｚと特徴量ｚｎとの距離が遠くなるように、特徴空間を学習する。

射影部２２は、複数のラベル付きデータを学習済みの特徴空間に射影する処理部である。具体的には、射影部２２は、特徴生成モデル１７の機械学習に利用されたラベル付きデータセット１４の各データを、学習済みの特徴生成モデル１７に入力し、学習済みの特徴空間に射影する。

図１０は、特徴空間への射影を説明する図である。図１０に示すように、射影部２２は、ラベル付きであるドメインＡのデータセットＡから各データＡを取得して学習済みの特徴空間に射影し、ラベル付きであるドメインＣのデータセットＣから各データＣを取得して学習済みの特徴空間に射影する。なお、図１０における特徴空間で、Ａと表記されているのは、ドメインＡに属するデータの特徴量であることを示し、Ｃと表記されているのは、ドメインＣに属するデータの特徴量であることを示す。

疑似ドメイン生成部２３は、複数のラベル付きデータのうち、学習済みの特徴空間における所定の範囲（部分空間）内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する処理部である。つまり、疑似ドメイン生成部２３は、特徴空間上に射影された既知のドメインのラベル付きデータを組み合わせて、疑似的に生成した疑似ドメインのラベル付きデータセットを生成し、新規データセット１６として記憶部１３に格納する。

（手法１）
疑似ドメイン生成部２３は、特徴空間の部分空間内の一点から近いｋ個のラベル付きデータ（ｋ近傍）を統合して、疑似ドメインの新規データセットを生成する。図１１は、ラベル付きデータセットの生成手法１を説明する図である。図１１に示すように、疑似ドメイン生成部２３は、射影部２２によるラベル付きデータの射影後、特徴空間から任意の点として特徴量Ａ５を選択する。そして、疑似ドメイン生成部２３は、特徴量Ａ５から所定距離内にある特徴量Ａ６と特徴量Ｃ７を特定する。

その後、疑似ドメイン生成部２３は、特定された特徴量Ａ５と特徴量Ａ６に対応するデータをドメインＡの既存のラベル付きデータセットから取得し、特定された特徴量Ｃ７に対応するデータをドメインＣの既存のラベル付きデータセットから取得する。そして、疑似ドメイン生成部２３は、任意の点（Ａ５）がドメインＡに属するデータであることから、取得した各データを含む疑似ドメインＡ´のラベル付きデータセットを生成する。

（手法２）
疑似ドメイン生成部２３は、特徴空間から任意の複数の点を選択し、複数の点それぞれについて、選択された点から所定距離内にある所定個のラベル付きデータを取得して統合することで、複数の点それぞれに対応する各ラベル付きデータセットを生成する。図１２は、ラベル付きデータセットの生成手法２を説明する図である。図１２に示すように、疑似ドメイン生成部２３は、射影部２２によるラベル付きデータの射影後、特徴空間から任意の点として特徴量Ａ５０と特徴量Ｃ６０とを選択する。

そして、疑似ドメイン生成部２３は、特徴量Ａ５０から所定距離内にある特徴量Ａ５１と特徴量Ｃ５２を特定する。その後、疑似ドメイン生成部２３は、特定された特徴量Ａ５１と特徴量Ｃ５２に対応する各データを、ドメインＡの既存のラベル付きデータセットとドメインＣの既存のラベル付きデータセットから取得する。そして、疑似ドメイン生成部２３は、任意の点（Ａ５０）がドメインＡに属するデータであることから、取得した各データを含む疑似ドメインＡ´のラベル付きデータセットを生成する。

同様に、疑似ドメイン生成部２３は、特徴量Ｃ６０から所定距離内にある特徴量Ａ６１と特徴量Ｃ６２を特定する。その後、疑似ドメイン生成部２３は、特定された特徴量Ａ６１と特徴量Ｃ６２に対応する各データを、ドメインＡの既存のラベル付きデータセットとドメインＣの既存のラベル付きデータセットから取得する。そして、疑似ドメイン生成部２３は、任意の点（Ｃ６０）がドメインＣに属するデータであることから、取得した各データを含む疑似ドメインＣ´のラベル付きデータセットを生成する。

（手法３）
疑似ドメイン生成部２３は、分類モデルへの適用対象である第１のドメインに対応するラベル無しデータセットの各対象データを、学習済みの特徴空間に射影し、学習済みの特徴空間において各対象データから所定の距離内にあるラベル付きデータを統合することで、第１のドメインの疑似ドメインに対応するラベル付きデータセットを生成する。

図１３、図１４、図１５は、ラベル付きデータセットの生成手法３を説明する図である。図１３に示すように、射影部２２によるラベル付きデータの射影後、疑似ドメイン生成部２３または射影部２２は、評価対象であるラベル無しのドメインＤのデータセットＤから各データＤを取得して学習済みの特徴空間に射影する。なお、図１３では、一例として、３つのデータＤを射影した例を示している。

続いて、図１４に示すように、疑似ドメイン生成部２３は、射影したデータＤの特徴量Ｄ７０から所定距離内にある特徴量Ａ７１と特徴量Ｃ７２を特定し、射影したデータＤの特徴量Ｄ８０から所定距離内にある特徴量Ａ８１と特徴量Ａ８２を特定し、射影したデータＤの特徴量Ｄ９０から所定距離内にある特徴量Ｃ９１を特定する。

その後、図１５に示すように、疑似ドメイン生成部２３は、特定された特徴量Ａ７１、Ａ８１、Ａ８２に対応する各データを、ドメインＡの既存のラベル付きデータセットから取得する。また、疑似ドメイン生成部２３は、特定された特徴量Ｃ７２、Ｃ９１に対応する各データを、ドメインＣの既存のラベル付きデータセットから取得する。そして、疑似ドメイン生成部２３は、適用対象がドメインＤであることから、取得した各データを含む疑似ドメインＤ´のラベル付きデータセットを生成する。

図５に戻り、表示制御部２４は、各種情報を表示部１２に表示出力する処理部である。例えば、表示制御部２４は、疑似ドメイン生成部２３により生成された新規データセット１６を表示部１２に表示出力する。また、表示制御部２４は、後述する分析部２５により実行された分析結果を表示部１２に表示出力する。

分析部２５は、評価対象のデータセットを評価するために、図１で説明した分析処理を実行して、既存のデータセットの分析を実行する処理部である。具体的には、分析部２５は、複数のラベル付きデータセットを用いて、各データセットの精度や分布差などを算出する。また、分析部２５は、ラベル付きデータセットに対応する精度や分布差を用いて、評価対象であるラベル無しデータセットを分類モデルに適用する前に、当該ラベル無しデータセットに対する精度を評価（推定）する。

例えば、分析部２５は、学習済みの特徴空間を用いて生成された複数のラベル付きデータセット（疑似ドメイン）のうち、重複空間が閾値以下で、学習済みの特徴空間の被覆率が閾値以上となるラベル付きデータセットの集合を分析対象に選択する。図１６は、分析対象の選択例を説明する図である。図１６に示すように、疑似ドメインとして、ドメインＡ、Ｂ、Ｃ、Ｄ、Ｅの各データセットが生成されたとする。

この場合、分析部２５は、特徴空間上で、ドメインＡがドメインＤとＥの２つに重複しており、ドメインＢがドメインＥの１つに重複しており、ドメインＣがドメインＤの１つに重複していること特定する。同様に、分析部２５は、ドメインＤがドメインＡ、Ｃ、Ｅの３つに重複しており、ドメインＥがドメインＡ、Ｂ、Ｄの３つに重複していることを特定する。

この結果、分析部２５は、重複数が閾値（２）以下であるドメインＡ、ドメインＢ、ドメインＣを分析対象に選択する。このとき、分析部２５は、特徴空間の被覆率を考慮することもできる。例えば、分析部２５は、ドメインＡの部分空間で中心となる中心点と中心点から最も離れた端点とを特定し、中心点から端点までの距離を半径とする円の面積により、ドメインＡの部分空間の面積を算出する。

このようにして、分析部２５は、分析候補であるドメインＡ、ドメインＢ、ドメインＣの各面積を算出し、各面積を合計した合計面積を算出する。そして、分析部２５は、合計面積が閾値以上であれば、分析候補をそのまま分析対象に選択し、合計面積が閾値未満であれば、他のドメインをさらに選択することもできる。一方、分析部２５は、特徴空間の面積が算出可能な場合や既知の場合には、「被覆率＝（合計面積／特徴空間の面積）×１００」を算出し、被覆率が閾値以上であれば、分析候補をそのまま分析対象に選択し、被覆率が閾値未満であれば、他のドメインをさらに選択することもできる。

また、分析部２５は、学習済みの特徴空間を用いて生成された複数のラベル付きデータセットのうち、評価対象である第１のデータセットに基づき生成されたラベル付きデータセットを分析対象に選択することもできる。例えば、図１５の場合、分析部２５は、ドメインＤが評価対象である場合、ドメインＤの各データを射影して生成された疑似ドメインＤ´を分析対象に選択する。このとき、分析部２５は、疑似ドメインＤ´に含まれる任意のドメインＤのデータを削除したり、疑似ドメインＤ´に含まれない任意の他ドメインのデータを追加したりすることもできる。なお、分析対象は、１つである必要はなく、複数選択することもできる。

［処理の流れ］
図１７は、処理の流れを示すフローチャートである。ここでは、上記手法３を例にして説明する。

図１７に示すように、機械学習部２１は、処理開始が指示されると（Ｓ１０１：Ｙｅｓ）、複数のドメインの各ラベル無しデータを特徴生成モデル１７に入力する（Ｓ１０２）。そして、機械学習部２１は、同一ドメインに属するデータ間の距離が小さく、異なるドメインのデータ間の距離が大きくなる距離空間を学習する（Ｓ１０３）。

距離空間の学習が完了後、射影部２２は、１つ以上のラベル付きデータセットの各ラベル付きデータを特徴生成モデル１７に入力して、特徴量を特徴空間へ射影する（Ｓ１０４）。そして、疑似ドメイン生成部２３は、評価対象であるドメインのラベル無しデータを特徴生成モデル１７に入力して、特徴量を特徴空間へ射影する（Ｓ１０５）。

そして、疑似ドメイン生成部２３は、学習済みの距離空間において、推定対象ドメインのラベル無しデータの近傍にあるラベル付きデータを疑似ドメインとして収集し（Ｓ１０６）、疑似ドメインのデータセットとして出力する（Ｓ１０７）。

［効果］
上述したように、情報処理装置１０は、実データから実ドメインに類似する新たなドメインのラベル付きデータを生成することができる。この結果、情報処理装置１０は、品質のよいラベル付きデータを用いた分析処理を実行することができ、分析の精度や分析の効率を向上させることができる。

また、情報処理装置１０は、高コストな人間の介入を行わずに、入手が容易なラベル無しデータから実データに即したドメインのラベル付きデータを生成することができるので、コストを削減しつつ、分析の精度や分析の効率を向上させることができる。また、情報処理装置１０は、特徴生成モデル１７の機械学習を実行することで特徴空間を学習するので、短時間かつ高精度を両立した特徴空間を生成することができる。

また、情報処理装置１０は、学習済みの特徴空間から任意の点を選択し、任意の点から所定距離内にある所定個のラベル付きデータを統合したラベル付きデータセットを生成することができるので、任意の点の選択手法により、ユーザニーズに適したラベル付きデータセットを生成することができる。また、情報処理装置１０は、学習済みの特徴空間から任意の複数の点を選択し、複数のラベル付きデータセットを生成することができるので、分析対象のラベル付きデータセットを高速に複数生成することができる。

また、情報処理装置１０は、評価対象のドメインに対応するラベル無しデータセットの各対象データを学習済みの特徴空間に射影する。そして、情報処理装置１０は、学習済みの特徴空間において各対象データから所定の距離内にあるラベル付きデータを統合することで、疑似ドメインに対応するラベル付きデータセットを生成することができる。この結果、情報処理装置１０は、評価対象に類似するデータを用いて、精度の分析を実行することができるので、分析の信頼性を向上させることができる。

また、情報処理装置１０は、複数のラベル付きデータセットのうち、重複空間が閾値以下で、学習済みの特徴空間の被覆率が閾値以上となるラベル付きデータセットの集合を分析対象に選択することができる。この結果、情報処理装置１０は、特徴空間全体を網羅した疑似ドメインを生成することができるので、分析精度も向上させることができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［データや数値等］
上記実施例で用いたデータ例、数値例、閾値、表示例、特徴空間の次元数、ドメイン名、ドメイン数等は、あくまで一例であり、任意に変更することができる。また、訓練データとして画像データを用いた画像分類以外にも、音声や時系列データの分析などにも用いることができる。

［分析処理］
上記実施例では、情報処理装置１０が分析処理を実行する例を説明したが、これに限定されるものではなく、情報処理装置１０以外の他の装置が、分析結果を用いて分析処理を実行することもできる。また、分析処理の内容も一例であり、公知の他の分析手法を採用することができる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、機械学習部２１は、機械学習部の一例であり、疑似ドメイン生成部２３は、生成部の一例である。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
図１８は、ハードウェア構成例を説明する図である。図１８に示すように、情報処理装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１８に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図５に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図５に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図５等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、機械学習部２１、射影部２２、疑似ドメイン生成部２３、表示制御部２４、分析部２５等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、機械学習部２１、射影部２２、疑似ドメイン生成部２３、表示制御部２４、分析部２５等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで生成方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０情報処理装置
１１通信部
１２表示部
１３記憶部
１４ラベル付きデータセット
１５ラベル無しデータセット
１６新規データセット
１７特徴生成モデル
２０制御部
２１機械学習部
２２射影部
２３疑似ドメイン生成部
２４表示制御部
２５分析部

Claims

コンピュータに、
複数のラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習し、
ドメインが異なる複数のラベル付きデータを学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する、
処理を実行させることを特徴とする生成プログラム。
前記学習する処理は、前記複数のラベル無しデータセットそれぞれから複数のデータを取得し、前記複数のデータのうち、前記同一のドメインに含まれるデータ間の距離が小さくなり、前記異なるドメイン間のデータの距離が大きくなる特徴空間を学習する、ことを特徴とする請求項１に記載の生成プログラム。
前記学習する処理は、前記同一のドメインに含まれるデータ間の距離が小さくなり、前記異なるドメイン間のデータの距離が大きくなる前記特徴空間を生成するように、入力データから特徴量を生成する生成モデルの機械学習を実行し、
前記生成する処理は、学習済みの生成モデルを用いて、ドメインが異なる前記複数のラベル付きデータそれぞれの特徴量を生成し、前記学習済みの特徴空間において前記複数のラベル付きデータそれぞれの特徴量のうち、前記所定の範囲内に含まれるラベル付きデータを統合することにより、前記ラベル付きデータセットを生成する、ことを特徴とする請求項１に記載の生成プログラム。
前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間から任意の点を選択し、前記任意の点から所定距離内にある所定個のラベル付きデータを統合した前記ラベル付きデータセットを生成する、ことを特徴とする請求項１に記載の生成プログラム。
前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間から任意の複数の点を選択し、前記複数の点それぞれについて、選択された点から所定距離内にある所定個のラベル付きデータを取得して統合することで、前記複数の点それぞれに対応する各ラベル付きデータセットを生成する、ことを特徴とする請求項１に記載の生成プログラム。
第１のドメインに対応するラベル無しデータセットの各対象データを、前記学習済みの特徴空間に射影する、処理を前記コンピュータに実行させ、
前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間において前記各対象データから所定の距離内にあるラベル付きデータを統合することで、前記第１のドメインの疑似ドメインに対応する前記ラベル付きデータセットを生成する、ことを特徴とする請求項１に記載の生成プログラム。
前記学習済みの特徴空間を用いて生成された複数のラベル付きデータセットのうち、重複空間が閾値以下で、前記学習済みの特徴空間の被覆率が閾値以上となるラベル付きデータセットの集合を選択し、
選択された前記ラベル付きデータセットの集合を用いて、分類モデルの精度に関連する分析を実行する、処理を前記コンピュータに実行させることを特徴とする請求項１に記載の生成プログラム。
前記学習済みの特徴空間を用いて生成された複数のラベル付きデータセットのうち、第１のデータセットに基づき生成されたラベル付きデータセットを選択し、
前記第１のデータセットと、選択された前記ラベル付きデータセットとを用いて、分類モデルの精度に関連する分析を実行する、処理を前記コンピュータに実行させることを特徴とする請求項１に記載の生成プログラム。
コンピュータが、
複数のラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習し、
ドメインが異なる複数のラベル付きデータを学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する、
処理を実行することを特徴とする生成方法。
複数のラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習する機械学習部と、
ドメインが異なる複数のラベル付きデータを学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する生成部と、
を有することを特徴とする情報処理装置。