JP7171478B2

JP7171478B2 - 情報処理方法、及び情報処理システム

Info

Publication number: JP7171478B2
Application number: JP2019048768A
Authority: JP
Inventors: 育規石井; 洋平中田; 弘章浦部
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2018-08-09
Filing date: 2019-03-15
Publication date: 2022-11-15
Anticipated expiration: 2039-03-15
Also published as: JP2020027604A

Description

本開示は、機械学習により学習モデルを得る情報処理方法、及び情報処理システムに関する。

従来、変換ツールを利用して、第１の演算処理環境で学習された第１学習モデルから、第２のコンピュータ環境に適した第２学習モデルを生成し、生成した第２学習モデルを第２の演算処理環境において利用する技術が知られている。

例えば、非特許文献１には、第１学習モデルと、変換ツールを利用して第１学習モデルから変換された第２学習モデルとに対して同じデータを入力した場合において生じる、第１学習モデルの出力データと第２学習モデルの出力データとの差を低減するための技術が記載されている。

Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference. https://arxiv.org/abs/1712.05877

しかしながら、第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容が不明（すなわち変換ツールがブラックボックス）である場合には、上記従来技術を利用することができない。

そこで、本開示は、第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容が不明であったとしても、第１学習モデルと第２学習モデルとに対して同じデータを入力した場合において生じる、第１学習モデルの出力データと第２学習モデルの出力データとの差を低減することができる情報処理方法、及び情報処理システムを提供することを目的とする。

本開示の一態様に係る情報処理方法は、コンピュータを用いて、第１学習モデルの入力データに対する第１出力データ、前記入力データに対する正解データ、及び、前記第１学習モデルの変換により得られる第２学習モデルの前記入力データに対する第２出力データ、を取得し、前記第１出力データと前記正解データとの差分に対応する第１差分データ、及び、前記第２出力データと前記正解データとの差分に対応する第２差分データ、を算出し、前記第１差分データ、及び前記第２差分データを用いて、前記第１学習モデルの学習を行う。

本開示の一態様に係る情報処理システムは、第１学習モデルの入力データに対する第１出力データ、前記入力データに対する正解データ、及び、前記第１学習モデルの変換により得られる第２学習モデルの前記入力データに対する第２出力データ、を取得する取得部と、前記第１出力データと前記正解データとの差分に対応する第１差分データ、及び、前記第２出力データと前記正解データとの差分に対応する第２差分データ、を算出する算出部と、前記第１差分データ、及び前記第２差分データを用いて、前記第１学習モデルの学習を行う学習部と、を備える。

本開示の一態様に係る情報処理方法、及び情報処理システムによれば、第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容が不明であっても、第１学習モデルと第２学習モデルとに対して同じデータを入力した場合において生じる、第１学習モデルの出力データと第２学習モデルの出力データとの差を低減することができる。

図１は、第１実施の形態に係る情報処理システムの構成を示すブロック図である。図２は、第１実施の形態に係る変換部が、第１学習モデルを第２学習モデルに変換する様子の一例を示す模式図である。図３は、第１実施の形態に係る学習部が、第１学習モデルの再学習の様子の一例を示す模式図である。図４は、第１実施の形態に係る学習モデルの第１更新処理のフローチャートである。図５は、第２実施の形態に係る情報処理システムの構成を示すブロック図である。図６は、第２実施の形態に係る情報処理システムにおいて第１学習モデルの再学習のためのデータの生成の一例を示す模式図である。図７は、第２実施の形態に係る学習モデルの第２更新処理のフローチャートである。

（本開示の一態様を得るに至った経緯）
近年、ＡＤＡＳ（Advanced Driver-Assistance System）、自動運転システム等の車載
組込みシステムにおいて、機械学習を用いた認識システムには、学習モデルを用いて推論することが求められている。

一般に、車載組込みシステムに適用する学習モデルは、車載組込みシステムよりも高い性能を有するコンピュータシステムでの学習により得られた第１学習モデルに対して変換ツールを適用し、車載組込みシステムに適した第２学習モデルに変換させることで生成される。

例えば、パーソナルコンピュータにおいて浮動小数点演算処理で学習され、浮動小数点演算で推論を行う第１学習モデルを、車載組込みシステムにおいて整数演算処理を行う第２学習モデルに変換させることで、車載組込みシステムに適用する学習モデルを生成する。

第１学習モデルによる処理と、第２学習モデルによる処理とは、必ずしも正確に同一であるとは限らない。このため、第１学習モデルと第２学習モデルとに同じデータを入力した場合であっても、第１学習モデルの出力と第２学習モデルの出力とに差が生じることがある。

第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容が公開されている場合には、例えば、非特許文献１に記載された技術を利用することで、上記差を低減することができる。しかしながら、第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容が不明である場合には、非特許文献１に記載された技術を利用することができない。

発明者は、このような問題に鑑みて、下記情報処理方法、及び情報処理システムに想到した。

上記情報処理方法によると、第１学習モデルは、第１差分データに加えて、第２差分データをも用いて学習する。また、第１学習モデルの学習において、第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容を反映させる必要がない。これらのことから、上記情報処理方法によると、第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容が不明であったとしても、第１学習モデルと第２学習モデルとに対して同じデータを入力した場合において生じる、第１学習モデルの出力データと第２学習モデルの出力データとの差を低減することができる。

また、前記学習では、前記第１差分データ、及び前記第２差分データに重み付けをするとしてもよい。これにより、第１学習モデルの学習において、第１学習モデルの出力を重視する度合いと、第２学習モデルの出力を重視する度合いとに差をつけて学習させることができる。

また、前記重み付けでは、前記第１差分データの重みの方を、前記第２差分データの重みよりも重くするとしてもよい。これにより、第１学習モデルの学習において、第２学習モデルの出力よりも第１学習モデルの出力を重視して学習させることができる。言い換えると、第１学習モデルの特性（又は性能）が第２学習モデルの特性（又は性能）に近づき過ぎることを抑制することができる。

また、前記学習では、さらに、前記第１差分データと前記第２差分データとの差分を用いるとしてもよい。これにより、第１学習モデルの学習において、第１学習モデルの出力と第２学習モデルの出力との差分を考慮して学習させることができる。これら２つの差分データの差が小さいほど、第１学習モデル及び第２学習モデルの間で特性（又は性能）が近づいているといえる。このため、第１学習モデルの出力データと第２学習モデルの出力データとの差を低減する学習を効率よく行うことができる。

また、前記学習では、前記第１差分データ、前記第２差分データ、及び、前記第１差分データと前記第２差分データとの差分、に重み付けをするとしてもよい。これにより、第１学習モデルの学習において、第１学習モデルの出力を重視する度合いと、第２学習モデルの出力を重視する度合いと、第１学習モデルの出力と第２学習モデルの出力との差分を重視する度合いとに差をつけて学習させることができる。

また、前記第１学習モデル、及び前記第２学習モデルは、ニューラルネットワーク型の学習モデルであるとしてもよい。これにより、第１学習モデルと第２学習モデルとが、比較的よく知られた数学モデルで実現される。

上記情報処理システムによると、第１学習モデルは、第１差分データに加えて、第２差分データをも用いて学習する。また、第１学習モデルの学習において、第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容を反映させる必要がない。これらのことから、上記情報処理システムによると、第１学習モデルから第２学習モデルへと変換する変換ツールの変換処理内容が不明であったとしても、第１学習モデルと第２学習モデルとに対して同じデータを入力した場合において生じる、第１学習モデルの出力データと第２学習モデルの出力データとの差を低減することができる。

以下、本開示の一態様に係る情報処理方法、及び情報処理システムの具体例について、図面を参照しながら説明する。ここで示す実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、形状、構成要素、構成要素の配置及び接続形態、並びに、ステップ（工程）及びステップの順序等は、一例であって本開示を限定するものではない。以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意に付加可能な構成要素である。また、各図は、模式図であり、必ずしも厳密に図示されたものではない。

なお、本開示の包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

（第１実施の形態）
まず、第１実施の形態に係る情報処理システムについて説明する。この情報処理システムは、浮動小数点演算処理を行う第１学習モデルを、整数演算処理を行う第２学習モデルに変換するシステムであって、第１学習モデルと第２学習モデルとに対して同じデータを入力した場合において生じる、第１学習モデルの出力データと第２学習モデルの出力データとの差を低減させるように、第１学習モデルに再学習させるシステムである。

［１－１．情報処理システムの構成］
図１は、第１実施の形態に係る情報処理システム１の構成を示すブロック図である。

図１に示されるように、情報処理システム１は、取得部１０と、算出部２０と、学習部３０と、変換部４０と、第１学習モデル５０と、第２学習モデル６０とを含んで構成される。

情報処理システム１は、例えば、プロセッサとメモリとを含んで構成されるパーソナルコンピュータによって実現されてよい。この場合、情報処理システム１の各構成要素は、例えば、プロセッサがメモリに記憶される１以上のプログラムを実行することで実現されてよい。また、情報処理システム１は、例えば、それぞれがプロセッサとメモリとを含んで構成される、互いに通信可能な複数のコンピュータ装置が協調して動作することによって実現されてよい。この場合、情報処理システム１の各構成要素は、例えば、いずれかの１以上のプロセッサが、いずれかの１以上のメモリに記憶される、１以上のプログラムを実行することで実現されてよい。

第１学習モデル５０は、浮動小数点型変数を用いて処理を行う機械学習モデルである。ここでは、第１学習モデル５０は、ニューラルネットワーク型の学習モデルであって、画像からその画像に被写体として含まれる人物を認識するように学習された人認識器であるとして説明する。第１学習モデル５０は、例えば、入力データとして画像を入力すると、認識した人物の位置を示す座標とその人物の信頼度とを出力データとして出力する。

第２学習モデル６０は、第１学習モデル５０から、後述の変換部４０によって、整数型変数を用いて処理を行うように変換された機械学習モデルである。ここでは、第２学習モデル６０は、第１学習モデル５０と同様に、ニューラルネットワーク型の学習モデルであって、画像からその画像に被写体として含まれる人物を認識する人認識器であるとして説明する。第２学習モデル６０は、例えば、第１学習モデル５０と同様に、入力データとして画像を入力すると、認識した人物の位置を示す座標とその人物の信頼度とを出力データとして出力する。

第２学習モデル６０は、第１学習モデル５０よりも数値演算精度の低い処理を行う反面、浮動小数点型変数を取り扱うことができないシステム、すなわち、第１学習モデル５０を利用することができないシステムであっても利用可能である。

例えば、比較的コンピュータ資源に乏しく、浮動小数点型変数を取り扱うことができないが、整数型変数を取り扱うことができる車載組込みシステムでは、第１学習モデル５０を利用することはできないが、第２学習モデル６０を利用することはできる。

また、第２学習モデル６０は、例えば、演算の精度よりも、演算に伴う消費電力量の低減の方が重要視されるシステムでの利用に好適である。

変換部４０は、浮動小数点型変数を用いて処理を行う第１学習モデル５０を、整数型変数を用いて処理を行う第２学習モデル６０に変換する。

図２は、変換部４０が、第１学習モデル５０を第２学習モデル６０に変換する様子の一例を示す模式図である。

図２に示されるように、第１学習モデル５０が、階層化された、浮動小数点型変数を用いて処理を行う複数の重み（ここでは、例えば、第１の重み５１、第２の重み５２、第３の重み５３）で構成される場合に、変換部４０は、浮動小数点型変数を用いて処理を行う複数の重みのそれぞれを、整数型変数を用いて処理を行う複数の重み（ここでは、例えば、第１の重み６１、第２の重み６２、第３の重み６３）のそれぞれに変換する。

第１学習モデル５０は、浮動小数点型変数を用いて処理を行う学習モデルであるのに対して、第２学習モデル６０は、整数型変数を用いて処理を行う学習モデルである。このため、第１学習モデル５０と第２学習モデル６０とに同一の画像Ａを入力したとしても、第１学習モデル５０から出力される出力データＡ１と第２学習モデル６０から出力される出力データＡ２とは必ずしも一致するとは限らない。すなわち、入力データが画像Ａである場合の正解データを正解データＡとする場合に、出力データＡ１と正解データＡとの差分に対応する第１差分データ（後述）と、出力データＡ２と正解データＡとの差分に対応する第２差分データ（後述）とに差が生じることがある。

再び図１に戻って、情報処理システム１の構成についての説明を続ける。

取得部１０は、第１学習モデル５０の入力データに対する第１出力データと、第２学習モデル６０の当該入力データに対する第２出力データと、当該入力データに対する正解データとを取得する。

算出部２０は、取得部１０によって取得された、第１出力データと第２出力データと正解データとから、第１出力データと正解データとの差分に対応する第１差分データ（以下、数式等において、第１差分データのことを「Ｌｏｓｓ１」と称することもある。）と、第２出力データと正解データとの差分に対応する第２差分データ（以下、数式等において、第２差分データのことを「Ｌｏｓｓ２」と称することもある。）とを算出する。

ここでは、第１差分データ（Ｌｏｓｓ１）は、必ずしも限定される必要のない一例として、以下の（式１）に従って算出される、正解データと第１出力データとのＬ２ノルムであるとする。

Loss1 = ||正解データ -第１出力データ||² （式１）

また、第２差分データ（Ｌｏｓｓ２）は、必ずしも限定される必要のない一例として、以下の（式２）に従って算出される、正解データと第２出力データとのＬ２ノルムであるとする。

Loss2 = ||正解データ -第２出力データ||² （式２）

学習部３０は、第１差分データ、及び第２差分データを用いて、第１学習モデル５０に再学習させる。

図３は、学習部３０が、第１学習モデル５０に再学習させている様子の一例を示す模式図である。

図３に示されるように、学習部３０は、第１差分データと第２差分データとから、（式３）で示される差分データ（以下、数式等において、差分データのことを「ＬＯＳＳ」と称することもある。）を算出する。なお、第１差分データ、第２差分データを算出するための正解データ、第１出力データ、第２出力データは出力されるデータ数で正規化されていても良い。

LOSS = λ1*Loss1 ＋ λ2*Loss2 ＋ λ3*||Loss1 - Loss2|| （式３）

ここで、λ１、λ２、λ３は、差分データの算出において、第１差分データ、第２差分データ、及び第１差分データと第２差分データとの差分に重み付けをする数値であって、以下の（式４）～（式７）を満たす関係にある。

λ1 + λ2 + λ3 = 1 （式４）

1 ＞ λ1 ＞ 0 （式５）

1 ＞ λ2 ＞ 0 （式６）

1 ＞ λ3 ≧ 0 （式７）

学習部３０は、差分データを算出すると、図３に示されるように、算出した差分データを誤差とする誤差逆伝播法を用いて重みを更新することで、第１学習モデル５０に再学習させる。

発明者は、学習部３０による第１学習モデル５０の再学習について、差分データを算出する（式３）におけるλ１、λ２、λ３の値の組み合わせを変更して繰り返し実験を行った。その結果、発明者は、第１学習モデルの出力データと第２学習モデルの出力データとの差を低減するためには、λ１がλ２よりも大きい方が好ましい、すなわち、差分データを算出する際に、第１差分データ、第２差分データ、及び第１差分データと第２差分データとの差分への重み付けにおいて、前記第１差分データの重みの方が、前記第２差分データの重みよりも重くすることが好ましいという知見を得た。これは、より数値演算精度の高い処理を行う第１学習モデル５０の出力の方を、より数値演算精度の低い処理を行う第２学習モデル６０の出力よりも重視して、第１学習モデル５０に再学習させることで、第１学習モデルの出力データと第２学習モデルの出力データとの差の低減をより精度良く行うことができるからではないかと推測される。

［１－２．情報処理システムの動作］
以下、上記構成の情報処理システム１の行う処理について説明する。

情報処理システム１は、第１差分データと第２差分データとを用いて、第１学習モデル５０と第２学習モデル６０とを更新する学習モデルの第１更新処理を行う。

図４は、学習モデルの第１更新処理のフローチャートである。

学習モデルの第１更新処理は、例えば、一の入力データに対して、第１学習モデル５０が第１出力データを出力し、第２学習モデル６０が第２出力データを出力した後において、情報処理システム１を利用するユーザにより、情報処理システム１に対して、学習モデルの第１更新処理を実行する旨の操作がなされることで開始される。

学習モデルの第１更新処理が開始された場合と、後述のステップＳ８０の処理が終了した場合とに、取得部１０は、一の入力データに対する第１出力データと、一の入力データに対する第２出力データと、一の入力データに対する正解データとを取得する（ステップＳ１０）。

取得部１０によって、第１出力データと第２出力データと正解データとが取得されると、算出部２０は、取得された第１出力データと第２出力データと正解データとから、（式１）を用いて、第１出力データと正解データとの差分に対応する第１差分データを算出し、（式２）を用いて、第２出力データと正解データとの差分に対応する第２差分データを算出する（ステップＳ２０）。

第１差分データと第２差分データとが算出されると、学習部３０は、第１差分データと第２差分データとから、（式３）を用いて、差分データを算出する（ステップＳ３０）。そして、学習部３０は、算出した差分データが、予め定められた所定の閾値よりも大きいか否かを調べる（ステップＳ４０）。

ステップＳ４０の処理において、算出した差分データが、予め定められた所定の閾値よりも大きい場合に（ステップＳ４０：Ｙｅｓ）、学習部３０は、算出した差分データを誤差とする誤差逆伝播法を用いて重みを更新することで、第１学習モデル５０に再学習させる（ステップＳ５０）。そして、再学習後の第１学習モデル５０は、一の入力データに対する第１出力データを更新する（ステップＳ６０）。

第１出力データが更新されると、変換部４０は、再学習後の第１学習モデル５０を、第２学習モデル６０に変換する（ステップＳ７０）。そして、変換後の第２学習モデル６０は、一の入力データに対する第２出力データを更新する（ステップＳ８０）。

ステップＳ８０の処理が終了すると、情報処理システム１は、再びステップＳ１０の処理に進んで、ステップＳ１０以降の処理を繰り返す。

ステップＳ４０の処理において、算出した差分データが、予め定められた所定の閾値よりも大きくない場合に（ステップＳ４０：Ｎｏ）、情報処理システム１は、学習モデルの第１更新処理を終了する。

［１－３．考察］
上述したように、情報処理システム１によると、第１学習モデル５０は、第１差分データに加えて、第２学習モデル６０による第２差分データをも用いて再学習する。また、第１学習モデル５０の再学習において、第１学習モデル５０から第２学習モデル６０への変換処理内容を反映させる必要がない。これらのことから、情報処理システム１によると、第１学習モデル５０から第２学習モデル６０への変換処理内容が不明であったとしても、第１学習モデル５０と第２学習モデル６０とに対して同じデータを入力した場合において生じる、第１学習モデル５０の出力データと第２学習モデル６０の出力データとの差を低減することができる。

（第２実施の形態）
次に、第２実施の形態に係る情報処理システムについて説明する。なお、第１実施の形態と同じ構成については説明を省略する。

［２－１．情報処理システムの構成］
図５は、第２実施の形態に係る情報処理システム１Ａの構成を示すブロック図である。

図５に示されるように、情報処理システム１Ａは、取得部１０と、算出部２０と、学習部３０と、変換部４０と、第１学習モデル５０と、第２学習モデル６０に加えて、判定部７０を備える。

判定部７０は、図６に示されるように、第１出力データ及び第２出力データを用いて第３差分データを生成する。具体的には、判定部７０は、第１出力データ及び第２出力データそれぞれについて、真データであるか否かを判定する。そして、判定部７０は、判定結果に基づいて第３差分データを生成する。例えば、判定部７０は、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）におけるＤｉｓｃｒｉｍｉｎａｔｏｒである。判定部７０は、第１出力データが真データである第１確率（又は偽データである確率）及び第２出力データが真データである第２確率（又は偽データである確率）を判定結果として生成する。そして、判定部７０は、第１確率及び第２確率を用いて第３差分データを生成する。例えば、第３差分データは、次式（式８）に従って算出される。

Loss3 = log(D(第１出力データ)) + log(1-D(第２出力データ)) ・・・（式８）

ここで、DはＤｉｓｃｒｉｍｉｎａｔｏｒを表す。上記の式では、判定部７０（すなわちＤｉｓｃｒｉｍｉｎａｔｏｒ）は、第１出力データ、第２出力データが真データである確率を生成する。

学習部３０は、第１差分データ、及び第３差分データを用いて、第１学習モデル５０に再学習させる。

学習部３０は、第１差分データと第３差分データとから、下記（式９）で示される差分データ（すなわちＬＯＳＳ）を算出する。

LOSS = λ4*Loss1 ＋ λ5*Loss3 ・・・（式９）

ここで、λ４、λ５は、差分データの算出において、第１差分データ、第３差分データに重み付けをする数値である。

学習部３０は、算出した差分データを誤差とする誤差逆伝播法を用いて重みを更新することで、第１学習モデル５０に再学習させる。

［２－２．情報処理システムの動作］
以下、上記構成の情報処理システム１Ａの行う処理について説明する。図７は、学習モデルの第２更新処理のフローチャートである。

まず、取得部１０は、一の入力データに対する第１出力データと、一の入力データに対する第２出力データと、一の入力データに対する正解データとを取得する（ステップＳ１０）。

取得部１０によって、第１出力データと第２出力データとが取得されると、判定部７０は、取得された第１出力データと第２出力データの真偽を判定する（ステップＳ１１０）。例えば、判定部７０は、第１出力データが真データである確率及び第２出力データが真データである確率を算出する。

判定部７０は、判定結果から第３差分データを算出する（ステップＳ１２０）。例えば、判定部７０は、上記（式８）を用いて、第３差分データを算出する。

算出部２０は、取得された第１出力データと正解データとから第１差分データを算出する（ステップＳ１３０）。

学習部３０は、算出された第１差分データと第３差分データとから差分データを算出する（ステップＳ１４０）。例えば、学習部３０は、上記（式９）を用いて、差分データを算出する。

以降の処理は、第１実施の形態の処理と実質的に同一であるため説明を省略する。

［２－３．考察］
このように、第２実施の形態に係る情報処理システム１Ａによると、第１学習モデル５０は、第１差分データに加えて、第１出力データと第２出力データとを近づけるための第３差分データをも用いて再学習する。第２出力データが第１出力データに近づくように第１学習モデル５０の学習を実行することにより、第１学習モデル５０に第２学習モデル６０の認識性能を近づけることができる。したがって、第１学習モデル５０から第２学習モデル６０への変換処理内容が不明であったとしても、第１学習モデル５０と第２学習モデル６０とに対して同じデータを入力した場合において生じる、第１学習モデル５０の出力データと第２学習モデル６０の出力データとの差を低減することができる。

さらに、第１学習モデル５０の再学習において、第１差分データも用いることにより、第２学習モデル６０の認識性能を第１学習モデル６０の認識性能に近づけながら、第１学習モデル５０の性能劣化（すなわち第２学習モデル６０の性能劣化）を抑制することができる。

（他の実施の形態）
以上、本開示の１つまたは複数の態様に係る情報処理システムについて、第１実施の形態及び第２実施の形態に基づいて説明したが、本開示は、これら実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の１つまたは複数の態様の範囲内に含まれてもよい。

（１）第１実施の形態において、第１学習モデル５０は、浮動小数点型変数を用いて処理を行う学習モデルであり、第２学習モデル６０は、整数型変数を用いて処理を行う学習モデルであるとして説明した。しかしながら、第２学習モデル６０が、第１学習モデル５０の変換により得られる学習モデルであれば、必ずしも、第１学習モデル５０は、浮動小数点型変数を用いて処理を行う学習モデルであり、第２学習モデル６０は、整数型変数を用いて処理を行う学習モデルである例に限定される必要はない。

一例として、第１学習モデル５０は、取り扱う画像における各画素の画素値を、量子化された８ビットのＲＧＢデータとして扱う学習モデルであり、第２学習モデル６０は、取り扱う画像における各画素の画素値を、量子化された４ビットのＲＧＢデータとして扱う学習モデルであるとしてもよい。この場合には、第２学習モデル６０は、例えば、取り扱うデータのデータ転送レートの制約、取り扱うデータを記憶する記憶容量の制約等により、画素値が８ビットのＲＧＢデータからなる画像を取り扱うことができないが、画素値が４ビットのＲＧＢデータからなる画像を取り扱うことができるシステムであっても利用可能である。また、この場合には、例えば、演算の精度よりも、演算に伴う消費電力量の低減の方が重要視されるシステムにおいては、第２学習モデル６０を利用する方が第１学習モデル５０を利用するよりも好適である場合がある。

また、別の一例として、第１学習モデル５０は、３２ビット浮動小数点型変数を用いて処理を行う学習モデルであり、第２学習モデル６０は、１６ビット浮動小数点型変数を用いて処理を行う学習モデルであるとしてもよい。この場合には、第２学習モデル６０は、例えば、３２ビット浮動小数点型変数を取り扱うことができないが、１６ビット浮動小数点型変数を取り扱うことができるシステムであっても利用可能である。また、この場合には、例えば、演算の精度よりも、演算に伴う消費電力量の低減の方が重要視されるシステムにおいては、第２学習モデル６０を利用する方が第１学習モデル５０を利用するよりも好適である場合がある。

また、別の一例として、第１学習モデル５０は、取り扱う画像における各画素の画素値を、ＲＧＢ色空間のデータとして取り扱う学習モデルであり、第２学習モデル６０は、取り扱う画像における各画素の画素値を、ＹＣｂＣｒ色空間のデータとして取り扱う学習モデルであるとしてもよい。この場合には、第２学習モデル６０は、例えば、取り扱う画像における各画素の画素値を、ＲＧＢ色空間のデータとして取り扱うことができないが、ＹＣｂＣｒ色空間のデータとして取り扱うことができるシステムであっても利用可能である。

（２）情報処理システム１が備える構成要素の一部又は全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などを含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

なお、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、あるいはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

（３）本開示の一態様は、このような情報処理システムだけではなく、情報処理システムに含まれる特徴的な構成部をステップとする情報処理方法であってもよい。また、本開示の一態様は、情報処理方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。

本開示は、学習モデルに学習させる情報処理を行うシステムに広く利用可能である。

１，１Ａ情報処理システム
１０取得部
２０算出部
３０学習部
４０変換部
５０第１学習モデル
６０第２学習モデル

Claims

コンピュータを用いて、
第１学習モデルの入力データに対する第１出力データ、前記入力データに対する正解データ、及び、前記第１学習モデルの変換により得られる第２学習モデルの前記入力データに対する第２出力データ、を取得し、
前記第１出力データと前記正解データとの差分に対応する第１差分データ、及び、前記第２出力データと前記正解データとの差分に対応する第２差分データ、を算出し、
前記第１差分データ、及び前記第２差分データを用いて、前記第１学習モデルの学習を行う
情報処理方法。
前記学習では、前記第１差分データ、及び前記第２差分データに重み付けをする
請求項１に記載の情報処理方法。
前記重み付けでは、前記第１差分データの重みの方を、前記第２差分データの重みよりも大きくする
請求項２に記載の情報処理方法。
前記学習では、さらに、前記第１差分データと前記第２差分データとの差分を用いる
請求項１に記載の情報処理方法。
前記学習では、前記第１差分データ、前記第２差分データ、及び、前記第１差分データと前記第２差分データとの差分、に重み付けをする
請求項４に記載の情報処理方法。
前記第１学習モデル、及び前記第２学習モデルは、ニューラルネットワーク型の学習モデルである
請求項１から請求項５のいずれか１項に記載の情報処理方法。
第１学習モデルの入力データに対する第１出力データ、前記入力データに対する正解データ、及び、前記第１学習モデルの変換により得られる第２学習モデルの前記入力データに対する第２出力データ、を取得する取得部と、
前記第１出力データと前記正解データとの差分に対応する第１差分データ、及び、前記第２出力データと前記正解データとの差分に対応する第２差分データ、を算出する算出部と、
前記第１差分データ、及び前記第２差分データを用いて、前記第１学習モデルの学習を行う学習部と、を備える
情報処理システム。