JP2020154654A

JP2020154654A - 推定プログラム、推定装置および推定方法

Info

Publication number: JP2020154654A
Application number: JP2019051976A
Authority: JP
Inventors: 健人上村; Taketo Uemura; 優安富; Masaru Yasutomi; 孝河東; Takashi Kato
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2020-09-24
Anticipated expiration: 2039-03-19
Also published as: JP7205328B2; US20200302611A1; US11145062B2

Abstract

【課題】特定のタスクに対応する情報を手間なく自動で推定する。【解決手段】推定装置１は、特定のタスクに対応したデータ群２１で自己符号化器を学習する。推定装置１は、該学習した自己符号化器を用いて、データ群２１に含まれるデータについて、部分毎の圧縮の度合いを算出する。推定装置１は、該算出した部分毎の圧縮の度合いに基づいて、特定のタスクに対応したデータについてのデータ群２１に含まれる他のデータとの共通部分を推定する。【選択図】図１

Description

本発明は、推定プログラムなどに関する。

機械学習では、例えば、画像データ群から所定のタスクを学習する。所定のタスクには、車が撮影された画像から車のメーカを判別することや、医療用のＣＴ（Computed Tomography）画像から病気のリスクを予測することなどが挙げられる。

機械学習において、ニューラルネットワークを使用した次元圧縮のアルゴリズムとしてオートエンコーダ（自己符号化器）が知られている。かかるオートエンコーダにより、意味付けされた特徴情報および意味付けされない特徴情報が示す特徴を有するデータを生成する技術が開示されている（例えば、特許文献１参照）。

国際公開第２０１７／１６８８７０号

従来の技術では、画像データ群から、特定のタスクに必要でない、学習への利用を避けたい情報を選択的に除外する方法がなかった。言い換えれば、従来の技術では、画像データ群から、特定のタスクに必要な情報を手間なく自動で推定することができないという問題がある。

かかる問題について説明する。機械学習において、学習対象となるデータ群には、機械学習のタスクに必要な情報だけでなく、当該タスクに直接必要でない情報が含まれる。例えば、車が撮影された画像から車のメーカを判別するというタスクの場合に、画像に含まれるナンバープレートの情報や、歩行者や背景部分の情報は、機械学習への利用に、不要な情報もしくは明示的に避けたい情報である。すなわち、かかる情報は、車のメーカを判別するというタスクに直接必要でない情報である。ところが、同じデータ群であってもタスク毎に必要な情報は異なるため、一律の基準やルールでは、タスク毎に必要な情報を自動で推定することは難しい。すなわち、従来の技術では、特定のタスクに必要な情報を手間なく自動で推定することが難しい。

本発明は、１つの側面では、特定のタスクに対応する情報を手間なく自動で推定することを目的とする。

１つの態様では、推定プログラムは、コンピュータに、特定のタスクに対応したデータ群で自己符号化器を学習し、該学習した前記自己符号化器を用いて、前記データ群に含まれるデータについて、部分毎の圧縮の度合いを算出し、該合算出した部分毎の圧縮の度合いに基づいて、前記特定のタスクに対応した前記データにおける他のデータとの共通要素を推定する、処理を実行させる。

１実施態様によれば、特定のタスクに対応する情報を手間なく自動で推定することが可能となる。

図１は、実施例に係る推定装置の構成を示す機能ブロック図である。図２は、実施例に係るＡＥモデルの一例を示す図である。図３は、実施例に係るＡＥ学習処理の一例を示す図である。図４Ａは、実施例に係る圧縮度合い算出処理の一例を示す図（１）である。図４Ｂは、実施例に係る圧縮度合い算出処理の一例を示す図（２）である。図５は、実施例に係る推定処理の一例を示す図である。図６Ａは、実施例に係る推定処理の別の例を示す図（１）である。図６Ｂは、実施例に係る推定処理の別の例を示す図（２）である。図７は、実施例に係るＡＥ学習処理のフローチャートの一例を示す図である。図８は、実施例に係る圧縮度合い算出処理のフローチャートの一例を示す図である。図９は、推定プログラムを実行するコンピュータの一例を示す図である。

以下に、本願の開示する推定プログラム、推定装置および推定方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

［実施例に係る推定装置の構成］
図１は、実施例に係る推定装置の構成を示す機能ブロック図である。図１に示す推定装置１は、特定のタスクに対応したデータ群で自己符号化器を学習し、学習した自己符号化器を用いて、データ群に含まれるデータの部分毎の圧縮率の差異により、当該データ内の必要な情報（データ群の共通の情報）を推定する。ここでいう自己符号化器とは、オートエンコーダ（ＡＥ：Auto Encoder）のことをいう。

推定装置１は、制御部１０および記憶部２０を有する。

制御部１０は、ＣＰＵ（Central Processing Unit）などの電子回路に対応する。そして、制御部１０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部１０は、ＡＥ学習部１１と、圧縮度合い算出部１２と、推定部１３とを有する。なお、ＡＥ学習部１１は、学習部の一例である。圧縮度合い算出部１２は、算出部の一例である。推定部１３は、推定部の一例である。

記憶部２０は、例えば、ＲＡＭ、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部２０は、データ群２１と、ＡＥモデルパラメータ２２と、推定結果２３とを有する。

データ群２１は、特定のタスクに対応する画像データの集合である。特定のタスクとは、例えば、車が撮影された画像から車のメーカを判別するというタスクであったり、医療で用いられるＣＴ画像から病気のリスクを予測するというタスクであったりする。データ群２１は、このような特定のタスクに対応する画像データの集合である。そして、データ群２１の各データには、特定のタスクに必要な情報だけでなく、特定のタスクに不要な情報も含まれている。不要な情報の一例として、車のメーカを判別するというタスクの場合に、車の背景、ナンバープレート、歩行者などの情報がある。また、不要な情報の別の一例として、個人情報などのプライバシーに関連する情報がある。

ＡＥモデルパラメータ２２は、ＡＥの入力と出力とが一致するように学習した結果を示すＡＥモデルの調整されたパラメータである。パラメータには、ＡＥに含まれるエンコーダおよびデコーダのそれぞれの重みが含まれる。なお、ＡＥモデルパラメータ２２は、ＡＥ学習部１１によって調整される。

推定結果２３は、特定のタスクに対応するデータ群２１の共通の情報を推定した結果である。なお、推定結果２３は、後述する推定部１３によって生成される。

ＡＥ学習部１１は、特定のタスクに対応したデータ群２１でＡＥを学習する。例えば、ＡＥ学習部１１は、特定のタスクに対応した教師なしのデータ群２１を用いて、ＡＥの入力と出力との誤差が小さくなるようにＡＥのパラメータを調整する。そして、ＡＥ学習部１１は、特定のタスクに対応したＡＥモデルを生成する。そして、ＡＥ学習部１１は、学習したＡＥのパラメータをＡＥモデルパラメータ２２に保持する。

ここで、実施例に係るＡＥ学習処理について、図２および図３を参照して説明する。図２は、実施例に係るＡＥモデルの一例を示す図である。図３は、実施例に係るＡＥ学習処理の一例を示す図である。ここでは、特定のタスクを「車が撮影された画像から車のメーカを判別する」というタスクとして説明する。

図２に示すように、ＡＥ３０は、エンコーダｆ３１と、圧縮データ（ベクトル）ｚ３２と、デコーダｇ３３とを含んで構成される。エンコーダｆ３１は、符号化器であり、入力データｘを圧縮する。圧縮した特徴が、圧縮データ（ベクトル）ｚ３２に設定される。デコーダｇ３３は、復号化器であり、圧縮データ（ベクトル）ｚ３２を復元して復元データｘ´を生成する。

図３に示すように、ＡＥ学習部１１は、特定のタスクに対応した教師なしの対象データ群Ｄのそれぞれのデータを入力する。ＡＥ学習部１１は、復元データｘ´と入力データｘとが一致するようにＡＥを学習する。すなわち、ＡＥ学習部１１は、復元データｘ´と入力データｘとの誤差が小さくなるように、エンコーダｆ３１およびデコーダｇ３２のそれぞれのパラメータ（例えば重み）を調整する。つまり、ＡＥ学習部１１は、エンコーダｆ３１により対象データ群Ｄの圧縮を学習するが、対象データ群Ｄに共通する情報（要素）ほど高い圧縮率で圧縮がなされ、圧縮した特徴を圧縮データ（ベクトル）ｚ３２に設定する。なお、圧縮データ（ベクトル）ｚ３２は、エンコーダｆ３１とデコーダｇ３２との中間に位置する圧縮した特徴であるので、以降、「中間特徴量」という場合がある。

図１に戻って、圧縮度合い算出部１２は、学習したＡＥを用いて、データ群２１に含まれるデータについて、部分（要素）毎の圧縮の度合いを算出する。例えば、圧縮度合い算出部１２は、学習済みのＡＥを用いて、データ群２１に含まれるデータを入力して学習させることにより得られる第１の圧縮データ（ベクトル）ｚ３２（第１中間特徴量）を生成する。圧縮度合い算出部１２は、データの要素を変化させた（加工した）データを入力して学習させることにより得られる第２の圧縮データ（ベクトル）ｚ３２（第２中間特徴量）を生成する。ここでいう要素は、予め定められた大きさの四角形であっても良いし、円形であっても良いし、１ピクセルであっても良い。圧縮度合い算出部１２は、第１の圧縮データ（ベクトル）ｚ３２（第１中間特徴量）と第２の圧縮データ（ベクトル）ｚ３２（第２中間特徴量）とを用いてデータの要素毎の圧縮の度合いを算出する。

データの要素毎の圧縮の度合いは、例えば、以下の式（１）で表わすことができる。ここでいう式（１）は、データｘの要素ｘｉの変化の度合いに基づいて圧縮の度合いが計算されることを表わしている。なお、ｉは、インデックスを示す。式（１）の左辺のｃｉは、データｘの要素ｘｉの圧縮の度合いを示す指標を示す。式（１）の右辺のｆ（ｘ）は、データｘの圧縮データ（ベクトル）（中間特徴量）ｚを示す。

すなわち、圧縮度合い算出部１２は、データｘの要素ｘｉを微小量変化させたときに、対応する圧縮データ（ベクトル）（中間特徴量）ｚがどの程度変化するかの度合いを圧縮の度合いとして算出する。例えば、要素ｘｉについて、変化の度合いが小さければ、圧縮の度合いが高くなる（式（１）では、圧縮の度合いを示す指標は小さくなる）。これは、要素ｘｉについて、高い圧縮率で圧縮がなされ、共通の程度が高いことを意味する。つまり、ＡＥは、データ群２１の多くのデータに共通する要素ほど高い圧縮率で圧縮がなされることから、圧縮度合い算出部１２は、要素の圧縮の度合いから当該要素の、他のデータの要素との共通の程度を推定することが可能となる。

なお、式（１）は、データｘの要素ｘｉの変化に対する中間特徴量ｚ（＝ｆ（ｘ））のノルム（||z||）の変化量を、圧縮の度合いを示す指標ｃｉとした。しかしながら、式（１）を変形して、データｘの要素ｘｉの変化に対する中間特徴量ｚ（＝ｆ（ｘ））のノルム（||z||）の変化量の逆数を、圧縮の度合いを示す指標ｃｉとしても良い。

また、圧縮度合い算出部１２は、以下の方法で、圧縮の度合いを算出しても良い。

一例として、圧縮度合い算出部１２は、データｘのｘ_ｉｊの変化に対する中間特徴量ｚ（＝ｆ（ｘ））のノルム（||z||）の変化量を、圧縮の度合いを示す指標として算出しても良い。ｘ_ｉｊは、データｘの位置（ｉ，ｊ）のピクセル値を示す。データｘのｘ_ｉｊの圧縮の度合いを示す指標ｐ_ｉｊは、例えば、以下の式（２）で表わされる。

また、別の一例として、圧縮度合い算出部１２は、データｘのｘ_ｉｊの圧縮の度合いを示す指標ｐ_ｉｊに対してｘ_ｉｊと復元点のピクセル値ｘ´_ｉｊとの復元誤差で重み付けした値を圧縮の度合いを示す指標として算出しても良い。データｘのｘ_ｉｊの圧縮の度合いを示す指標ｐ_ｉｊは、例えば、以下の式（３）で表わされる。かかる方法は、ＡＥの復元誤差が残っている場合に有効である。これにより、圧縮度合い算出部１２は、ＡＥの復元誤差が残っている場合に、圧縮の度合いを示す指標を復元誤差で補正することで、圧縮の度合いを示す指標の信頼性を確保できる。

また、別の一例として、圧縮度合い算出部１２は、データｘのｘ_ｉｊの圧縮の度合いを示す指標ｐ_ｉｊに対してｘ_ｉｊの周囲を考慮した重みを付けた値を圧縮の度合いを示す指標として算出しても良い。データｘのｘ_ｉｊの圧縮の度合いを示す指標ｐ_ｉｊは、例えば、以下の式（４）で表わされる。かかる方法は、自然を撮影した画像など隣接ピクセル同士に連続性がある場合やノイズを含む場合に有効である。これにより、圧縮度合い算出部１２は、後述する補助画像が滑らかになり、何らかの異常値やノイズに対する頑健性を向上させることができる。なお、ｑ_ｉｊは、重み付けの分布を示し、ｘ_ｉｊを中心とした一定範囲の一様分布や正規分布などであれば良い。

また、別の一例として、圧縮度合い算出部１２は、上記の方法の組合せで、データｘのｘ_ｉｊの圧縮の度合いを示す指標を算出しても良い。

推定部１３は、部分（要素）毎の圧縮の度合いに基づいて、特定のタスクに対応したデータについてのデータ群２１に含まれる他のデータとの共通要素を推定する。例えば、推定部１３は、データ群２１に含まれる各データについて、要素毎の圧縮の度合いを示す指標を用いて、補助画像を生成する。一例として、推定部１３は、要素毎の圧縮の度合いを示す指標を並べて、補助画像としてヒートマップを生成する。さらに具体的には、推定部１３は、圧縮の度合いを示す指標の算出に式（１）が適用された場合には、圧縮の度合いを示す指標が小さい要素ほど強調した要素となるような補助画像を生成する。つまり、推定部１３は、圧縮の度合いが高いほど強調した要素となるような補助画像を生成すれば良い。そして、推定部１３は、補助画像を用いて、強調した要素を共通要素として推定する。言い換えれば、推定部１３は、強調のない要素を非共通な要素として推定する。そして、推定部１３は、データ毎に、補助画像とともに推定した共通要素を推定結果２３に保持する。このようにして、推定部１３は、特定のタスクに対応する必要な情報を推定することができる。言い換えれば、推定部１３は、特定のタスクに不要な情報を推定することができる。

［圧縮度合い算出処理の一例］
図４Ａおよび図４Ｂは、実施例に係る圧縮度合い算出処理の一例を示す図である。ここでは、図３と同様に、特定のタスクを「車が撮影された画像から車のメーカを判別する」というタスクとして説明する。

図４Ａに示すように、圧縮度合い算出部１２は、対象データ群Ｄに含まれるデータｘを学習済みのＡＥに入力して学習させることにより得られる第１の圧縮データ（ベクトル）ｚ３２（第１中間特徴量）を生成する。

図４Ｂに示すように、圧縮度合い算出部１２は、データの要素を変化させたデータｘを学習済みのＡＥに入力して学習させることにより得られる第２の圧縮データ（ベクトル）ｚ３２（第２中間特徴量）を生成する。ここでは、圧縮度合い算出部１２は、画像内の一部の要素を順番に変化させたそれぞれのデータｘをＡＥに入力して第２の圧縮データ（ベクトル）ｚ３２を生成する。

そして、圧縮度合い算出部１２は、第１の圧縮データ（ベクトル）ｚ３２（第１中間特徴量）と第２の圧縮データ（ベクトル）ｚ３２（第２中間特徴量）とを用いてデータの要素毎の圧縮の度合いを算出する。

［推定処理の一例］
図５は、実施例に係る推定処理の一例を示す図である。ここでは、図３、図４Ａおよび図４Ｂと同様に、特定のタスクを「車が撮影された画像から車のメーカを判別する」というタスクとして説明する。また、圧縮の度合いを示す指標は、式（１）により算出された場合とする。

図５に示すように、推定部１３は、元画像について、要素毎の圧縮の度合いを示す指標を並べて、補助画像としてヒートマップＧ０を生成する。ここでは、推定部１３は、圧縮の度合いを示す指標が小さい要素ほど強調した要素となるようなヒートマップＧ０を生成する。つまり、推定部１３は、圧縮の度合いが高いほど強調した要素となるようなヒートマップＧ０を生成する。そして、推定部１３は、ヒートマップＧ０を用いて、強調した要素を共通要素として推定する。ここでは、「車体」が強調した要素群となるので、「車体」が共通要素として推定される。

この後、推定部１３は、ヒートマップの情報を用いて、前述した二値化画像（マスク画像）やタスクの学習などに利用しても良い。

［推定処理の別の例］
なお、推定部１３は、さらに、以下の方法で、補助画像からマスク画像へ変換しても良い。図６Ａおよび図６Ｂは、実施例に係る推定処理の別の例を示す図である。ここでは、図３、図４Ａおよび図４Ｂと同様に、特定のタスクを「車が撮影された画像から車のメーカを判別する」というタスクとして説明する。また、圧縮の度合いを示す指標は、式（１）により算出された場合とする。

図６Ａに示すように、推定部１３は、元画像について、要素毎の圧縮の度合いを示す指標を並べて、補助画像としてヒートマップＧ０を生成する。ここでは、ヒートマップＧ０は、圧縮の度合いが高い（圧縮の度合いを示す指標が小さい）ほど強調した要素となるように生成される。推定部１３は、同じ元画像に対して、教師なしの二値化手法を適用し、二値化による領域分割を行う。そして、推定部１３は、ヒートマップＧ０と二値化による領域分割とを用いて、ヒートマップＧ０内の各指標値が予め定められた閾値より小さい値の要素を二値化による領域に変換する。これにより、推定部１３は、元画像の画素値に直接依存しない方法で共通要素を示す領域を元画像から分割することができる。すなわち、推定部１３は、特定のタスクに対応する必要な情報を精度良く推定することができる。

図６Ｂに示すように、推定部１３は、元画像について、要素毎の圧縮の度合いを示す指標を並べて、補助画像としてヒートマップＧ０を生成する。ここでは、ヒートマップＧ０は、圧縮の度合いが高い（圧縮の度合いを示す指標が小さい）ほど強調した要素となるように生成される。推定部１３は、同じ元画像に対して、教師なしの領域分割法を適用し、詳細な領域分割を行う。推定部１３は、領域分割された領域毎に、ヒートマップに示す指標値の平均値を計算する。推定部１３は、領域毎の平均値が予め定められた閾値より小さい平均値の領域の結合を行う。これにより、推定部１３は、ビートマップのみでは復元要素などの精度が不足する場合であっても、共通要素を示す領域を元画像から分割することができる。すなわち、推定部１３は、特定のタスクに対応する必要な情報を精度良く推定することができる。

［ＡＥ学習処理のフローチャート］
図７は、実施例に係るＡＥ学習処理のフローチャートの一例を示す図である。図７に示すように、ＡＥ学習部１１は、特定のタスクに対応したデータ群２１を読み込む（ステップＳ１１）。ＡＥ学習部１１は、ＡＥモデルを初期化する（ステップＳ１２）。

ＡＥ学習部１１は、ＡＥモデルを学習する（ステップＳ１３）。例えば、ＡＥ学習部１１は、データ群２１を用いて、ＡＥの入力と出力との誤差が小さくなるようにＡＥのパラメータを学習する。

ＡＥ学習部１１は、ＡＥモデルの精度は十分か否かを判定する（ステップＳ１４）。ＡＥモデルの精度は十分でないと判定した場合には（ステップＳ１４；Ｎｏ）、ＡＥ学習部１１は、さらにＡＥモデルを学習すべく、ステップＳ１３に移行する。

一方、ＡＥモデルの精度は十分であると判定した場合には（ステップＳ１４；Ｙｅｓ）、ＡＥ学習部１１は、ＡＥモデルを出力する（ステップＳ１５）。そして、ＡＥ学習処理のプロセスは、終了する。

［圧縮度合い算出処理のフローチャート］
図８は、実施例に係る圧縮度合い算出処理のフローチャートの一例を示す図である。図８に示すように、圧縮度合い算出部１２は、データ群２１を読み込む（ステップＳ２１）。圧縮度合い算出部１２は、学習済みのＡＥモデルを読み込む（ステップＳ２２）。

圧縮度合い算出部１２は、データ群２１からデータを選択する（ステップＳ２３）。圧縮度合い算出部１２は、選択したデータの要素毎に、圧縮の度合いを算出する（ステップＳ２４）。例えば、圧縮度合い算出部１２は、ＡＥモデルを用いて、選択したデータを入力して学習させることにより得られる第１の圧縮データ（ベクトル）ｚ３２を生成する。圧縮度合い算出部１２は、データの要素を変化させたデータを入力して学習させることにより得られる第２の圧縮データ（ベクトル）ｚ３２を生成する。そして、圧縮度合い算出部１２は、第１の圧縮データ（ベクトル）ｚ３２と第２の圧縮データ（ベクトル）ｚ３２とを用いて、選択したデータの要素毎の圧縮の度合いを算出する。一例として、圧縮度合い算出部１２は、選択したデータの要素を微小量変化させたときに、対応する圧縮データ（ベクトル）（中間特徴量）ｚがどの程度変化するかの度合いを圧縮の度合いを示す指標により算出する。

そして、推定部１３は、選択したデータについて、要素毎の圧縮の度合いに基づいて、補助画像を生成する（ステップＳ２５）。例えば、推定部１３は、推定部１３は、要素毎の圧縮の度合いを示す指標を並べて、補助画像としてヒートマップを生成する。

そして、圧縮度合い算出部１２は、データ群２１から全てのデータを選択したか否かを判定する（ステップＳ２６）。全てのデータを選択していないと判定した場合には（ステップＳ２６；Ｎｏ）、圧縮度合い算出部１２は、次のデータを選択すべく、ステップＳ２３に移行する。

一方、全てのデータを選択したと判定した場合には（ステップＳ２６；Ｙｅｓ）、推定部１３は、データ群２１のそれぞれの補助画像を出力する（ステップＳ２７）。そして、圧縮度合い算出処理のプロセスは、終了する。

なお、推定部１３は、データ群２１の各データについて、要素毎の圧縮の度合いに基づいて生成されたヒートマップなどの補助画像を用いて、強調した要素を共通要素として推定し、強調のない要素を非共通な要素として推定すると説明した。この後、推定装置１は、推定した共通要素および非共通な要素をタスクの学習などに利用しても良い。

例えば、推定装置１は、データ群２１の各データについて、非共通な要素を不要な要素として削除（マスキング）したデータを生成し、生成した各データを特定のタスクの学習に利用させても良い。この結果、推定装置１は、不要な要素を削除（マスキング）したデータ群２１´を用いて特定のタスクを学習させることで、特定のタスクの機械学習の精度を向上させることができる。なお、不要の要素には、例えば車のメーカを判別するというタスクの場合には、車の背景、ナンバープレート、歩行者などの情報がある。また、不要な要素には、例えば車のメーカを判別するというタスクの場合には、搭乗者の人種や性別などの倫理的に使うべきでない情報がある。また、不要な要素には、例えば車のメーカを判別するというタスクの場合には、車の背景の歩行者部分や個人情報部分などのプライバシー保護のために使うべきでない情報がある。

また、圧縮度合い算出部１２は、ＡＥの圧縮データ（ベクトル）（中間特徴量）を用いて、データ群２１の各データの要素毎の圧縮度合いを算出する。ここでいうＡＥの中間特徴量の次元は、データ群２１の各データより小さい必要がある。理想的な次元は、データ群２１の共通部分が非共通部分より圧縮の度合いが高くなり、かつＡＥとして復元が完全にできるような次元である。但し、ＡＥの中間特徴量の次元は、理想的な次元より小さくなっても良い。これは、ＡＥの中間特徴量の次元が理想的な次元より小さくなっても、ＡＥの復元が完全ではなくなり、次元に応じて各要素の圧縮の度合い自体の値が変化したりすることになるが、要素間の圧縮の度合いの高低は変化しないからである。すなわち、データの要素毎の圧縮の度合いの順序関係が保持されていれば良いからである。

［実施例の効果］
上記実施例によれば、推定装置１は、特定のタスクに対応したデータ群２１で自己符号化器を学習する。推定装置１は、学習した自己符号化器を用いて、データ群２１に含まれるデータについて、部分毎の圧縮の度合いを算出する。推定装置１は、算出した部分毎の圧縮の度合いに基づいて、特定のタスクに対応したデータについてのデータ群２１に含まれる他のデータとの共通部分を推定する。かかる構成によれば、推定装置１は、特定のタスクに必要な情報を手間なく自動で推定することができる。言い換えれば、推定装置１は、特定のタスクに不要な情報を推定することができる。

また、上記実施例によれば、推定装置１は、特定のタスクに対応した教師なしのデータ群２１を用いて、自己符号化器の入力と出力とが一致するように自己符号化器を学習する。推定装置１は、自己符号化器を用いて、データ群２１に含まれるデータを入力して学習させることにより得られる第１中間特徴量を生成する。推定装置は、データの部分を加工したデータを入力して学習させることにより得られる第２中間特徴量を生成する。推定装置１は、第１中間特徴量と第２中間特徴量とを用いてデータの部分毎の圧縮の度合いを算出する。かかる構成によれば、推定装置は、圧縮率が高い部分は特定のタスクに対応したデータ群２１の中で共通している部分であることから、特定のタスクに対応した共通情報を推定できる。

また、上記実施例によれば、推定装置１は、部分毎の圧縮の度合いを用いて、圧縮率が高い部分ほど強調した補助画像を生成することで、共通部分を推定する。かかる構成によれば、推定装置１は、生成した補助画像を視覚的に表示することで、特定のタスクに必要な情報および必要でない情報を確実に推定できる。

また、上記実施例によれば、推定装置１は、さらに、対象のデータを所定の手法で領域に分割し、分割した領域を用いて、補助画像から圧縮率が所定値より高い領域を共通部分として推定する。かかる構成によれば、推定装置１は、対象のデータを分割した領域を用いることで、特定のタスクに対応する必要な情報を精度良く推定することができる。

また、上記実施例によれば、推定装置１は、さらに、対象のデータを所定の手法で領域に分割し、分割した領域毎に補助画像から得られる圧縮の度合いの平均値を算出する。推定装置１は、分割した領域毎の平均値に基づいて分割した領域を結合し、結合した領域を共通部分として推定する。かかる構成によれば、推定装置１は、対象のデータを分割した領域を用いることで、特定のタスクに対応する必要な情報を精度良く推定することができる。

［その他］
なお、推定装置１は、データ群２１を画像データの集合として、データ群２１の共通の要素を推定する場合を説明した。しかしながら、推定装置１は、これに限定されず、データ群２１を音声データの集合として、データ群２１の共通の音声要素を推定しても良い。また、推定装置１は、データ群２１を文字列データの集合として、データ群２１の共通の文字列要素を推定しても良い。

また、上記実施例では、推定装置１は、既知のパーソナルコンピュータ、ワークステーションなどの情報処理装置に、上記した制御部１０及び記憶部２０などの各機能を搭載することによって実現することができる。

また、図示した推定装置１の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、推定装置１の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、圧縮度合い算出部１２と、推定部１３とを１つの部として統合しても良い。また、推定部１３を、要素毎の圧縮の度合いに基づいてヒートマップを生成する生成部と、ヒートマップから共通要素を推定する推定部とに分離しても良い。また、記憶部２０を推定装置１の外部装置としてネットワーク経由で接続するようにしても良い。

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示した推定装置１と同様の機能を実現する推定プログラムを実行するコンピュータの一例を説明する。図９は、推定プログラムを実行するコンピュータの一例を示す図である。

図９に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９を制御する表示制御部２０７とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示制御部２０７、ドライブ装置２１３、入力装置２１５、通信制御部２１７は、バス２１９で接続されている。

ドライブ装置２１３は、例えばリムーバブルディスク２１０用の装置である。ＨＤＤ２０５は、推定プログラム２０５ａおよび推定処理関連情報２０５ｂを記憶する。

ＣＰＵ２０３は、推定プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスは、推定装置１の各機能部に対応する。推定処理関連情報２０５ｂは、データ群２１、ＡＥモデルパラメータ２２および推定結果２３に対応する。そして、例えばリムーバブルディスク２１０が、推定プログラム２０５ａなどの各情報を記憶する。

なお、推定プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、光磁気ディスク、ＩＣ（Integrated Circuit）カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらから推定プログラム２０５ａを読み出して実行するようにしても良い。

１推定装置
１０制御部
１１ＡＥ学習部
１２圧縮度合い算出部
１３推定部
２０記憶部
２１データ群
２２ＡＥモデルパラメータ
２３推定結果

Claims

コンピュータに、
特定のタスクに対応したデータ群で自己符号化器を学習し、
該学習した前記自己符号化器を用いて、前記データ群に含まれるデータについて、部分毎の圧縮の度合いを算出し、
該算出した部分毎の圧縮の度合いに基づいて、前記特定のタスクに対応した前記データについての前記データ群に含まれる他のデータとの共通部分を推定する
処理を実行させる推定プログラム。
該学習する処理は、特定のタスクに対応した教師なしの前記データ群を用いて、前記自己符号化器の入力と出力とが一致するように前記自己符号化器を学習し、
該算出する処理は、前記自己符号化器を用いて、前記データ群に含まれるデータを入力して学習させることにより得られる第１中間特徴量を生成し、前記データの部分を加工したデータを入力して学習させることにより得られる第２中間特徴量を生成し、前記第１中間特徴量と前記第２中間特徴量とを用いて前記データの部分毎の圧縮の度合いを算出する
ことを特徴とする請求項１に記載の推定プログラム。
該推定する処理は、前記部分毎の圧縮の度合いを用いて、前記データ群について圧縮率が高い部分ほど強調した補助画像を生成し、生成した前記補助画像に基づいて前記共通部分を推定する
ことを特徴とする請求項１または請求項２に記載の推定プログラム。
該推定する処理は、さらに、対象のデータを所定の手法で領域に分割し、分割した領域を用いて、前記補助画像から圧縮率が所定値より高い領域を前記共通部分として推定する
ことを特徴とする請求項３に記載の推定プログラム。
該推定する処理は、さらに、対象のデータを所定の手法で領域に分割し、分割した領域毎に前記補助画像から得られる前記圧縮の度合いの平均値を算出し、分割した領域毎の平均値に基づいて分割した領域を結合し、結合した領域を前記共通部分として推定する
ことを特徴とする請求項３に記載の推定プログラム。
前記データ群は、画像データのデータ群、音声データのデータ群または文章データのデータ群であることを特徴とする請求項１に記載の推定プログラム。
特定のタスクに対応したデータ群で自己符号化器を学習する学習部と、
前記学習部によって学習された前記自己符号化器を用いて、前記データ群に含まれるデータについて、部分毎の圧縮の度合いを算出する算出部と、
前記算出部によって算出された部分毎の圧縮の度合いに基づいて、前記特定のタスクに対応した前記データについての前記データ群に含まれる他のデータとの共通部分を推定する推定部と、
を有することを特徴とする推定装置。
特定のタスクに対応したデータ群で自己符号化器を学習し、
該学習した前記自己符号化器を用いて、前記データ群に含まれるデータについて、部分毎の圧縮の度合いを算出し、
該算出した部分毎の圧縮の度合いに基づいて、前記特定のタスクに対応した前記データについての前記データ群に含まれる他のデータとの共通部分を推定する
処理をコンピュータが実行する推定方法。