JP6920263B2

JP6920263B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP6920263B2
Application number: JP2018179364A
Authority: JP
Inventors: 一則松本; 啓一郎帆足
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2021-08-18
Anticipated expiration: 2038-09-25
Also published as: JP2020052569A

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、ＣＰＵ（Central Processing Unit）及びＧＰＵ（Graphics Processing Unit）の高速化、メモリの大容量化、及び機械学習技術が急速に進んできている。このため、数十万から百万といったオーダーの学習データを用いる機械学習が可能となり、精度の高い識別技術や分類技術が確立されつつある（非特許文献１参照）。

Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the 22nd ACM international conference on Multimedia (pp. 675-678). ACM.

大量の学習データに基づく機械学習を実行するためには大量の計算コストがかかる。また、大量の学習データを用意すること、及び用意した学習データを機械学習に用いるために加工する前処理にも膨大な労力を要する。一方で、機械学習によって生成された学習モデルはデジタルデータであり、その複製は容易である。さらに、一般に学習モデル生成に用いられた学習データを、学習モデル自体から推測することは難しい。

このため、学習モデルを生成した者は、その学習モデルが第三者によって不正に利用されたとしても、不正を立証することが難しい。収集した学習データと、学習データに基づいて生成された学習モデルとはそれぞれ労力をかけて取得した価値あるものであり、不正利用から学習モデルを守ることが望まれている。

本発明はこれらの点に鑑みてなされたものであり、出所を特定することができる学習モデルを提供することを目的とする。

本発明の第１の態様は、情報処理装置である。この装置は、目的タスク学習用の訓練データに基づいて、複数の層を備えるニューラルネットワークの各層の重みを更新する重み更新部と、前記ニューラルネットワークを構成する層の中からＭ層（Ｍは２以上の整数）を選択する層選択部と、選択された前記Ｍ層それぞれの重みのうち少なくとも一部の重みを成分とするベクトルであるＭ個の重みベクトルを生成する重みベクトル生成部と、前記Ｍ個の重みベクトルそれぞれに埋め込むためのデータであって、透かしラベルに付加情報を付加したＭ個の埋込データを生成する埋込データ生成部と、前記Ｍ個の重みベクトルを線型変換してＭ個の透かし埋込用ベクトルを生成するベクトル変換部と、前記Ｍ個の透かし埋込用ベクトルそれぞれに、前記Ｍ個の埋込データのうち１つの埋め込みデータを対応付けてＭ組の透かし埋込用データセットを生成するデータセット生成部と、を備える。ここで、前記重み更新部は、前記目的タスク学習用に設定されたタスク学習用損失関数に、前記Ｍ組の透かし埋込用データセットそれぞれを用いて定められたＭ個の透かし埋込用損失関数を加算した統合損失関数に基づいて、前記重みを更新する。

前記重み更新部は、前記埋込用データセットに含まれる透かし埋込用ベクトルのもととなる重みベクトルの成分を取り出した層が前記ニューラルネットワークの入力層に近い場合は、前記入力層から遠い場合と比較して、前記埋込用データセットに対応する前記透かし埋込用損失関数に大きな係数を乗じてから加算することにより前記統合損失関数を構成してもよい。

前記埋込データ生成部は、前記透かしラベルの誤りを訂正するための誤り訂正符号を前記付加情報として前記透かしラベルに付加してもよい。

前記埋込データ生成部は、前記重みベクトル生成部が選択した層が前記ニューラルネットワークの入力層に近い層である場合は、遠い層である場合と比較して前記透かしラベルに付加する付加情報のサイズを小さくしてもよい。

前記埋込データ生成部は、所定の文字列を符号化したバイナリデータである透かしラベルに、前記付加情報を付加してもよい。

前記ベクトル変換部は、前記重みベクトルにアダマール行列を乗じて透かし埋込用ベクトルを生成してもよい。

本発明の第２の態様は、情報処理方法である。この方法において、プロセッサが、複数の層を備えるニューラルネットワークを構成する層の中からＭ層（Ｍは２以上の整数）を選択するステップと、選択された前記Ｍ層それぞれの重みのうち少なくとも一部の重みを成分とするベクトルであるＭ個の重みベクトルを生成するステップと、前記Ｍ個の重みベクトルそれぞれに埋め込むためのデータであって、透かしラベルに付加情報を付加したＭ個の埋込データを生成するステップと、前記Ｍ個の重みベクトルを線型変換してＭ個の透かし埋込用ベクトルを生成するステップと、前記Ｍ個の透かし埋込用ベクトルそれぞれに、前記Ｍ個の埋込データのうち１つの埋め込みデータを対応付けてＭ組の透かし埋込用データセットを生成するステップと、目的タスク学習用に設定されたタスク学習用損失関数に、前記Ｍ組の透かし埋込用データセットそれぞれを用いて定められたＭ個の透かし埋込用損失関数を加算した統合損失関数に基づいて、前記ニューラルネットワークの各層の重みを更新するステップと、を実行する。

本発明の第３の態様は、プログラムである。このプログラムは、コンピュータに、複数の層を備えるニューラルネットワークを構成する層の中からＭ層（Ｍは２以上の整数）を選択する機能と、選択された前記Ｍ層それぞれの重みのうち少なくとも一部の重みを成分とするベクトルであるＭ個の重みベクトルを生成する機能と、前記Ｍ個の重みベクトルそれぞれに埋め込むためのデータであって、透かしラベルに付加情報を付加したＭ個の埋込データを生成する機能と、前記Ｍ個の重みベクトルを線型変換してＭ個の透かし埋込用ベクトルを生成する機能と、前記Ｍ個の透かし埋込用ベクトルそれぞれに、前記Ｍ個の埋込データのうち１つの埋め込みデータを対応付けてＭ組の透かし埋込用データセットを生成する機能と、目的タスク学習用に設定されたタスク学習用損失関数に、前記Ｍ組の透かし埋込用データセットそれぞれを用いて定められたＭ個の透かし埋込用損失関数を加算した統合損失関数に基づいて、前記ニューラルネットワークの各層の重みを更新する機能と、を実現させる。

このプログラムを提供するため、あるいはプログラムの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、出所を特定することができる学習モデルを提供することができる。

畳み込みニューラルネットワークの一般的な機能構成を模式的に示す図である。入力データと特徴マップとの畳み込みの関係を説明するための図である。重みフィルタを用いた特徴マップの生成を説明するための図である。Ｎ個の重みフィルタとＮ段の特徴マップとの関係を説明するための図である。実施の形態に係る情報処理装置が実行する学習処理の概要を説明するための模式図である。実施の形態に係る情報処理装置の機能構成を模式的に示す図である。学習過程における重みの変動の一例を模式的に示す図である。実施の形態に係る情報処理装置が実行する情報処理の流れを説明するためのフローチャートである。

＜畳み込みニューラルネットワーク＞
実施の形態に係る情報処理装置は、ニューラルネットワークのうち、特に畳み込みニューラルネットワーク（Convolutional Neural Network；ＣＮＮ）のモデルパラメータに透かし情報を埋め込むための装置である。そこで、実施の形態に係る情報処理装置の前提技術として、まず畳み込みニューラルネットワークについて簡単に説明する。

図１は、畳み込みニューラルネットワークの一般的な機能構成を模式的に示す図である。
現在、様々な構成のニューラルネットワークが提案されているが、これらの基本構成は共通である。ニューラルネットワークの基本構成は、複数種類の層の重ね合わせ（又はグラフ構造）で表現される。ニューラルネットワークは、入力データに対する出力結果が適切な値になるようにモデルパラメータを学習する。言い換えると、ニューラルネットワークは、入力データに対する出力結果が適切な値になるように定義された損失関数を最小化するようにモデルパラメータを学習する。

図１において、順伝播型ニューラルネットワークとして、入力層（input layer）と、隠れ層（hidden layer）と、出力層（output layer）との３つの層から構成され、入力層から出力層へ向けて一方向に伝播する。隠れ層は、グラフ状に複数の層から構成することができる。各層は、複数のユニット（ニューロン）を持つ。各層において、前方層のユニットから後方層のユニットへつなぐ関数のパラメータを、「重み（weight）」と称す。本明細書における学習とは、この関数のパラメータとして、適切な「重み」を算出することである。

図１は、畳み込みニューラルネットワークを図示している。畳み込みニューラルネットワークは、入力層と、畳み込み層（convolutional layer）と、プーリング層（pooling layer）と、全結合層（full-connected layer）と、出力層とから構成される。畳み込みニューラルネットワークは、前方層における特定のユニットのみが、後方層のユニットへ結合されている。すなわち、畳み込みニューラルネットワークにおいては、前方層における全てのユニットが後方層のユニットへ結合されているものではない。なお、図１において、第１層Ｌ１が入力層であり、第２層Ｌ２は畳み込み層である。同様に、第ｍ層Ｌｍが出力層となっている。

本実施の形態に係るニューラルネットワークにおける学習は、訓練データに対する出力層からの出力値と訓練データのラベルとの誤差を用いて、各層の重みを最適に更新することを意味する。その誤差を算出するために、「損失関数」（loss function）が定義される。誤差は、「誤差逆伝播法」によって出力層側から入力層側へ向けて次々に伝播し、各層の重みを少しずつ更新していく。最終的に、誤差が小さくなるように、各層の重みを適切な値に調整する収束計算を実行する。具体的には、ニューラルネットワークにおける学習（すなわち、新規のモデルパラメータの生成段階）で、誤差を逆伝播させた勾配によって、モデルパラメータを更新する。

図２は、入力データと特徴マップとの畳み込みの関係を説明するための図である。図２における処理は、畳み込み層及び全結合層によって実行される。図２に示す例では、入力データに対して１個の重みフィルタをかけることにより、特徴マップを生成している。図２において、入力データ、重みフィルタ、及び特徴マップのサイズはそれぞれ以下のとおりである。
入力データ：３２×３２×３個の要素
重みフィルタ：５×５×３個の要素（モデルパラメータ）
特徴マップ：２８×２８個の要素

重みフィルタはＮ個（Ｎは１以上の整数。）分用意され、これがモデルパラメータとなる。すなわち、「重み」とは、Ｎ個の重みフィルタを意味する。ただし、ここでは、バイアス項は考慮しないものとする。

図３は、重みフィルタを用いた特徴マップの生成を説明するための図である。
図３に示す例では、５×５×３個の要素からなる１個の重みフィルタを入力データにかけ、その各要素の積の和を特徴マップの１個の要素の値とする。そして、入力データに対して同じ重みフィルタを移動させることにより、１枚の特徴マップを生成する。ここで、重みフィルタを移動させる要素の数（移動量）を「ストライド（stride）」と称す。入力データの周囲の縁（ふち）には、要素０を埋めたゼロパディング（zero-padding）の領域を設ける。これによって、入力データの縁の要素にも、同数の重みフィルタをあてることができる。

図４は、Ｎ個の重みフィルタとＮ段の特徴マップとの関係を説明するための図である。図４に示す例では、重みフィルタの数はＮ個である。図２及び図３は、１個の重みフィルタによって生成された１枚の特徴マップが生成される場合の例が示されている。これに対し、図４に示す例は、Ｎ個の重みフィルタによってＮ段の特徴マップが生成される場合の例が示されている。ニューラルネットワークの学習では、ある層における特徴マップが、次の層における入力データとなる。ニューラルネットワークの学習を実行することにより、損失関数に基づく誤差が出力層側から入力層側へ向けて次々に伝播し、既知の誤差逆伝播法によって各層の重みが更新される。

＜実施の形態の概要＞
以上を前提として、実施の形態の概要を述べる。
実施の形態に係る情報処理装置は、ニューラルネットワークを用いて目的タスクを達成するための学習モデルを生成すると同時に、その学習モデルに対して電子的な透かしを埋め込むための装置である。

実施の形態に係る情報処理装置は、ＣＰＵやＧＰＵ等のプロセッサ、ＤＲＡＭ（Dynamic Random Access Memory）等の作業メモリ、及びＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置によって構成される。実施の形態に係る情報処理装置は、ＰＣ（Personal Computer）やワークステーション、サーバ等の単一の装置であってもよいし、クラウドサーバのように複数の装置から構成されてもよい。

図５は、実施の形態に係る情報処理装置が実行する学習処理の概要を説明するための模式図である。実施の形態に係る情報処理装置は、従来のニューラルネットワークと同様に、目的タスク学習用データＤ及び目的タスク用ラベルＴ１を含む訓練データに基づいて、複数の層Ｌを備える第１ニューラルネットワークＮ１の各層Ｌの重みを更新する。例えば、「猫検出」、「山検出」、「自動車検出」のように複数の目的タスクが存在する場合、各目的タスク用の目的タスク学習用データＤと、各目的タスク学習用データＤそれぞれに異なる目的タスク用ラベルＴ１を割り当てたデータセットが、訓練データとなる。

また、実施の形態に係る情報処理装置は、第１ニューラルネットワークＮ１を構成する層Ｌの中から選択した層Ｌから構成される第２ニューラルネットワークＮ２も備える。実施の形態に係る情報処理装置は、透かし検出用の透かしラベルＴ２に基づいて第２ニューラルネットワークＮ２における層Ｌの重みを更新する。

なお、図５は、第１ニューラルネットワークＮ１における第２層Ｌ２と第３層Ｌ３とが、それぞれ第２ニューラルネットワークＮ２における重みの更新対象として選択された場合の例を示している。以下、本明細書において、第１ニューラルネットワークＮ１と第２ニューラルネットワークＮ２とを区別しない場合には、単にニューラルネットワークＮと記載する。

詳細は後述するが、実施の形態に係る情報処理装置は、第１ニューラルネットワークＮ１から選択したＭ層（Ｍは２以上の整数）の層Ｌに基づいて重みベクトルＷを生成する。実施の形態に係る情報処理装置は、生成した重みベクトルＷを線形変換して得られたベクトルを、各第２ニューラルネットワークＮ２の出力である第２出力Ｏ２とする。

すなわち、実施の形態に係る情報処理装置において、選択された各層の重みを要素とする重みベクトルＷそれぞれに行列を乗じることで得られる透かし埋込用ベクトルが、第２ニューラルネットワークＮ２の出力である第２出力Ｏ２となる。なお、実施の形態に係る情報処理装置では、第２出力Ｏ２をシグモイド関数等による二値化処理によって二値化する。すなわち、第２出力Ｏ２はバイナリデータとなる。

この意味で、本明細書において、重みベクトルＷに行列を乗じることで得られる透かし埋込用ベクトルを透かし埋込用ベクトルＯ２と記載することもある。実施の形態に係る情報処理装置は、透かし埋込用ベクトルＯ２と、透かしラベルＴ２との第２誤差Ｅ２に基づいて、重みベクトルＷを更新する。

実施の形態に係る情報処理装置は、透かしラベルＴ２に付加情報を付加することによって埋込データを生成する。実施の形態に係る情報処理装置は、重みベクトルＷに行列を乗じることで得られる透かし埋込用ベクトルＯ２が埋込データとなるように、重みベクトルＷを更新する。

ここで、実施の形態に係る情報処理装置が透かしラベルＴ２に付加する付加情報は、透かしラベルＴ２を冗長化するための情報である。具体例としては、実施の形態に係る情報処理装置が透かしラベルＴ２に付加する付加情報は、透かしラベルＴ２の誤りを訂正するための情報である誤り訂正符号である。

これにより、例えば攻撃者が実施の形態に係る情報処理装置が生成した学習モデルをファインチューニングすることによって透かしラベルＴ２のスクランブルを試みたとしても、情報処理装置は、付加情報を用いて透かしラベルＴ２を再現できる蓋然性を高めることができる。結果として、学習モデルの管理者は、出所が不明な学習モデルが、管理者自身が管理する学習モデルと同じ出所の学習モデルであるか否かを検証することができる。

＜実施の形態に係る情報処理装置の機能構成＞
以下、実施の形態に係る情報処理装置についてより詳細に説明する。
図６は、実施の形態に係る情報処理装置１の機能構成を模式的に示す図である。情報処理装置１は、記憶部１０と制御部２０とを備える。図６において、矢印は主なデータの流れを示しており、図６に示していないデータの流れがあってもよい。図６において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図６に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

制御部２０は、訓練データ取得部２１、重み更新部２２、層選択部２３、重みベクトル生成部２４、埋込データ生成部２５、データセット生成部２６、ベクトル変換部２７、及び変動記録部２８を備える。

記憶部１０は、情報処理装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や情報処理装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤやＳＳＤ等の大容量記憶装置である。

制御部２０は、情報処理装置１のＣＰＵやＧＰＵ等のプロセッサであり、記憶部１０に記憶されたプログラムを実行することによって訓練データ取得部２１、重み更新部２２、層選択部２３、重みベクトル生成部２４、埋込データ生成部２５、データセット生成部２６、ベクトル変換部２７、及び変動記録部２８として機能する。

なお、図６は、情報処理装置１が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置１は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部２０を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

訓練データ取得部２１は、目的タスク学習用の訓練データと透かしラベルＴ２とを取得する。訓練データ取得部２１が取得する訓練データには、目的タスク学習用データＤ及び目的タスク用ラベルＴ１が含まれる。重み更新部２２は、訓練データ取得部２１が取得した訓練データに基づいて、複数の層を備えるニューラルネットワークＮの各層の重みを更新する。上述したように、ニューラルネットワークＮは、目的タスク学習用のニューラルネットワークである第１ニューラルネットワークＮ１と、透かしラベル埋込用のニューラルネットワークである第２ニューラルネットワークＮ２とを含んでいる。

層選択部２３は、第１ニューラルネットワークＮ１を構成する層の中からＭ層（Ｍは２以上の整数）を選択する。図５に示す例では、層選択部２３は、第２層Ｌ２と第３層Ｌ３との２層を選択しているので、Ｍ＝２である。

重みベクトル生成部２４は、第１ニューラルネットワークＮ１を構成する層の中から層選択部２３が選択した層の重みのうち少なくとも一部の重みを成分とするベクトルであるＭ個の重みベクトルＷを生成する。ベクトル変換部２７は、重みベクトル生成部２４が生成したＭ個の重みベクトルＷに行列を乗じてＭ個の透かし埋込用ベクトルに変換する。重みベクトル生成部２４が用いる行列は、例えば、行及び列の長さが重みベクトルＷの長さと等しい正則行列であればよく、一例としてはアダマール行列である。

アダマール行列の各行は互いに直交している。このため、重みベクトル生成部２４が透かし埋込用ベクトルの生成にアダマール行列を用いると、例えば異なる透かしラベルを同一の透かしラベルＴ２に埋め込んでも、透かしラベル同士が埋め込みの際に互いに影響を及ぼすことを抑制できる。

埋込データ生成部２５は、重みベクトル生成部２４が生成したＭ個の重みベクトルＷに埋め込むためのデータであって、透かしラベルＴ２に付加情報を付加したＭ個の埋込データを生成する。データセット生成部２６は、Ｍ個の透かし埋込用ベクトルそれぞれに、Ｍ個の埋込データのうち１つの埋め込みデータを対応付けてＭ組の透かし埋込用データセットを生成する。

重み更新部２２は、目的タスク学習用に設定されたタスク学習用損失関数に、Ｍ組の透かし埋込用データセットそれぞれを用いて定められたＭ個の透かし埋込用損失関数を加算した統合損失関数に基づいて、ニューラルネットワークＮの重みを更新する。

ここで、タスク学習用損失関数をＥ_０（ｗ）、透かし埋込用データセットの透かし埋込用損失関数をＥ_ｉ（ｗ）とする。ｉは正の整数であり、第１ニューラルネットワークＮ１の入力層に近いほど小さな数字であるとする。このとき、統合損失関数Ｅ（ｗ）は、以下の式（１）で表される。

Ｅ（ｗ）＝Ｅ_０（ｗ）＋λ_１Ｅ_１（ｗ）＋λ_２Ｅ_２（ｗ）＋・・・（１）
ここで、λ_ｉ（ｉ＝１，２，・・・）は、各透かし埋込用損失関数の重み係数である。

なお、重み更新部２２は、例えば既知のクロスエントロピーを用いて透かし埋込用損失関数を構成すればよい。

透かし埋め込みのためにニューラルネットワークＮの重みを更新する場合、層が異なれば勾配も異なる。したがって、各層Ｌ毎に透かし埋込用損失関数を設定する方が最適化の観点で好ましいと考えられる。実施の形態に係る情報処理装置１は、各層Ｌ毎に異なる透かし埋込用損失関数を採用するため、透かしを複数の層Ｌに埋め込んでも、本来の目的タスクの判定精度の劣化をより少なくすることが期待できる。

ここで、埋込データ生成部２５が重みベクトルＷに乗じる行列は、情報処理装置１が生成する学習モデルの出所を特定するために利用する秘密鍵としての役割を果たす行列である。このため、情報処理装置１が学習する際に用いた行列は、学習モデルの管理者等の一部の者のみが管理し第三者には秘匿される。また、情報処理装置１を構成する重みのうち、重みベクトル生成部２４がどの重みを用いて重みベクトルＷを構成したかも秘匿される。

したがって、透かしラベルＴ２の改変ないし除去を試みる攻撃者は、まず、情報処理装置１を構成する重みのうちどの重みを用いて重みベクトルＷが構成されているかを見極める必要がある。また、仮に、攻撃者が透かし埋込用ベクトルＯ２を見出したとしても、学習に用いた行列又はその逆行列を知らなければ、透かし埋込用ベクトルＯ２から透かしラベルＴ２を算出することは難しい。

このように、情報処理装置１が生成した学習モデルは出所を特定することができる。また、透かしラベルＴ２には透かしラベルＴ２の冗長性を高めるための付加情報が付加されているため出所を示す情報の堅牢性を担保することができる。

上述したように、埋込データ生成部２５が透かしラベルＴ２に付加する付加情報は、透かしラベルＴ２を冗長化するための情報である。具体的には、埋込データ生成部２５は、透かしラベルＴ２の誤りを訂正するための誤り訂正符号を付加情報として透かしラベルＴ２に付加する。埋込データ生成部２５はまた、透かしラベルＴ２の誤りを訂正するための誤り訂正符号に替えて、あるいはこれに加えて、誤り検出符号を付加情報として透かしラベルＴ２に付加してもよい。

埋込データ生成部２５は、誤り訂正符号としてはハミング符号やリードソロモン符号を用いることができる。また、埋込データ生成部２５は、誤り検出符号としてはＣＲＣ（Cyclic Redundancy Check）等のチェックサムや、その他既知のハッシュ関数を用いることができる。

このように、埋込データ生成部２５が透かしラベルＴ２に付加情報を付加することにより、透かしラベルＴ２に対する攻撃者からの攻撃耐性を高めることができ、結果として情報処理装置１が生成する学習モデルの出所を示す情報の堅牢性を高めることができる。

以上、情報処理装置１が、第１ニューラルネットワークＮ１を構成する層Ｌの重みの一部を用いて作成した重みベクトルＷに透かしラベルＴ２を埋め込むことにより、学習モデルに出所を特定可能な情報を埋め込むことについて説明した。次に、学習モデルに埋め込まれた透かしラベルＴ２について、第三者からの改変ないし除去の攻撃に対する耐性を高めるための重みの選択について説明する。

実施の形態に係る情報処理装置１が利用する畳み込みニューラルネットワークの層の数は、数１０層から１００層のオーダーである。一般に、このような多層のニューラルネットワークにおいては、入力層に近い層は、出力層に近い層と比較して、攻撃者による改変のリスクが低いと考えられる。既成の学習モデルの改良ないし改変を目的として行われるファインチューニングは、一般に出力層に近い層について行われる。再学習を開始する層を入力層に近い層とするほど、それは学習をはじめからやり直すことに近づいてしまうからである。

そこで、埋込データ生成部２５は、重みベクトル生成部２４が選択した重みベクトルＷがニューラルネットワークＮの入力層に近い層である場合は、遠い層である場合と比較して透かしラベルＴ２に付加する付加情報のサイズを小さくする。これによって、攻撃に対する透かしラベルＴ２の堅牢性は低下する可能性があるが、重みベクトルＷがニューラルネットワークＮの入力層に近い層の重みから構成されていることによって、堅牢性は高まる。また、透かしラベルＴ２に付加する付加情報のサイズが小さいほど、一般に学習の収束は早まる。これにより、学習に係る時間と、透かしラベルＴ２の堅牢性とのバランスを取ることができる。

また、重み更新部２２は、埋込用データセットに含まれる透かし埋込用ベクトルのもととなる重みベクトルの成分を取り出した層Ｌが第１ニューラルネットワークＮ１の入力層に近い場合は、入力層から遠い場合と比較して、埋込用データセットに対応する透かし埋込用損失関数Ｅ_ｉ（ｗ）に大きな係数λを乗じてから加算することにより、統合損失関数Ｅ（ｗ）を構成してもよい。これにより、入力層に近い層Ｌの重みの方が、入力層から遠い層Ｌの重みよりも更新の際に重要視されることになる。これにより、堅牢性が高い重みに埋め込む付加情報を重要視することができる。

実施の形態に係る情報処理装置１が利用する畳み込みニューラルネットワークの層の数は、数１０層から１００層のオーダーである。一般に、このような多層のニューラルネットワークを構成する重みは冗長性があり、必ずしも全ての重みが均等に学習に寄与しているわけではない。学習における貢献度が大きい重みは、貢献度が小さい重みと比較して、学習過程における変動が大きいと考えられる。言い換えると、学習における貢献度が大きい重みは、貢献度が小さい重みよりも、活性化していると考えられる。

また、仮に学習に関する貢献度が同程度の重みであっても、その重みが担う情報の質によって、学習過程における変動のしかたが変化すると考えられる。例えば、目的タスクが猫画像検出である場合、情報処理装置１は、多数の猫画像を訓練データとしてニューラルネットワークＮに学習させる。このとき、多数の猫画像に共通する成分（例えば、画像の低周波成分）を担う重みは、ひとたび学習が安定すると変動しにくくなると考えられる。これに対し、多くの猫のバリエーションを吸収するための重みは、猫間の違いに敏感に反応するため、ファインチューニングによって大きく変動すると考えられる。

ここで、透かしラベルＴ２を埋め込むための重みベクトルＷを構成する重みを、学習過程における変動が少ない重みとすることにより、透かしラベルＴ２の攻撃者からの攻撃の耐性を高めることができる。なぜなら、攻撃者は学習モデルを再学習することによって透かしラベルＴ２のスクランブルを試みても、透かしラベルＴ２を埋め込んだ重みベクトルＷを構成する重みは、学習過程における変動が小さいため、スクランブルの度合いも小さくなるからである。

そのため、情報処理装置１は、目的タスク学習用の訓練データに基づいてあらかじめニューラルネットワークＮの各層の重みを更新することによって各層Ｌの重みの変動を記録する変動記録部２８を備える。

図７は、学習過程における重みの変動の一例を模式的に示す図であり、変動記録部２８が記録した重みの変動の一例を示す図である。図７では、重みＷ１、重みＷ２、重みＷ３、及び重みＷ４の４つの重みの変動を図示している。図７において、横軸は学習の反復回数を示し、縦軸は重みの値を示している。

図７において、重みＷ１及び重みＷ４は、重みＷ２及び重みＷ３と比較して、学習過程における変動が大きい。また、重みＷ３は、重みＷ２よりも学習過程における変動が小さい。図７に示す例では、学習過程における重みの変動の大きさの順に並べると、Ｗ１≒Ｗ４＞Ｗ２＞Ｗ３となる。したがって、重みベクトルＷを構成する重みとして採用する場合、攻撃耐性の高さの順序は、Ｗ３＞Ｗ２＞Ｗ１≒Ｗ４となる。

重みベクトル生成部２４は、学習過程における変動の小さい重みを、変動の大きい重みよりも優先して重みベクトルＷの成分として選択する。これにより、万が一攻撃者がファインチューニングによって透かしラベルＴ２のスクランブルを試みても、重みベクトルＷは学習による変動が小さい重みが採用されているため、スクランブルの影響を抑えることができる。

以上、透かしラベルＴ２に付加情報を付加することにより、透かしラベルＴ２の攻撃耐性を高めることについて説明した。これに替えて、あるいはこれに加えて、透かしラベルＴ２自体に冗長性を持たせてもよい。

上述したように、透かしラベルＴ２はバイナリデータである。ここで、情報処理装置１は、学習モデルの管理者を特定するための文字列（例えば管理者の名前や識別番号等）を符号化したバイナリデータを、透かしラベルＴ２として採用する。一般に、文字列自体が冗長性を持っている。例えば、未知の学習データから取り出した透かしラベルＴ２を文字列に戻したとき、それが「ｐｉｎｅｕｐｐｍｅ」という文字列であったとする。この場合、透かしラベルＴ２が意味のある文字列であることを仮定すれば「ｐｉｎｅａｐｐｌｅ」であった蓋然性が高い。このように、透かしラベルＴ２自体に冗長性を持たせることにより、透かしラベルＴ２の攻撃耐性をさらに高めることができる。

＜情報処理装置１が実行する情報処理の処理フロー＞
図８は、実施の形態に係る情報処理装置１が実行する情報処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置１が起動したときに開始する。

訓練データ取得部２１は、目的タスク学習用データＤ及び目的タスク用ラベルＴ１を含む目的タスク学習用の訓練データと透かしラベルＴ２とを取得する（Ｓ２）。層選択部２３は、第１ニューラルネットワークＮ１を構成する層の中からＭ層（Ｍは２以上の整数）を選択する（Ｓ４）。重みベクトル生成部２４は、層選択部２３が選択したＭ個の層Ｌの重みのうち少なくとも一部の重みを成分とするベクトルであるＭ個の重みベクトルＷを生成する（Ｓ６）。

埋込データ生成部２５は、Ｍ個の重みベクトルそれぞれに埋め込むためのデータであって、透かしラベルＴ２に付加情報を付加したＭ個の埋込データを生成する（Ｓ８）。ベクトル変換部２７は、Ｍ個の重みベクトルＷそれぞれに行列を乗じることによってＭ個の透かし埋込用ベクトルを生成する（Ｓ１０）。

データセット生成部２６は、Ｍ個の透かし埋込用ベクトルそれぞれに、Ｍ個の埋込データのうち１つの埋め込みデータを対応付けてＭ組の透かし埋込用データセットを生成する（Ｓ１２）。重み更新部２２は、目的タスク学習用に設定されたタスク学習用損失関数に、Ｍ組の透かし埋込用データセットそれぞれを用いて定められたＭ個の透かし埋込用損失関数を加算した統合損失関数に基づいて、ニューラルネットワークＮの各層Ｌの重みを更新する（Ｓ１４）。

＜実施の形態に係る情報処理装置１が奏する効果＞
以上説明したように、実施の形態に係る情報処理装置１によれば、出所を特定することができる学習モデルを提供することができる。特に、実施の形態に係る情報処理装置１は、透かしラベルＴ２に透かしラベルＴ２を冗長化するための付加情報を埋め込むため、攻撃者による透かしラベルＴ２のスクランブル攻撃に対する耐性を高めることができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。特に、装置の分散・統合の具体的な実施の形態は以上に図示するものに限られず、その全部又は一部について、種々の付加等に応じて、又は、機能負荷に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

例えば、埋込データ生成部２５は、透かし埋込用ベクトルＯ２を構成する各ビットと、第１ニューラルネットワークＮ１を構成する層Ｌの重みとの相関を導出し、透かし埋込用ベクトルＯ２のうち、層Ｌの重みとの相関の低いビットに、付加情報を埋め込んでもよい。これは、例えば、情報処理装置１はまず適当に生成した学習データを学習させ、学習モデルを生成する。情報処理装置１は、学習によって変化した透かしラベルＴ２における埋め込みビットを記録しておき、これを実現可能な範囲で十分な回数繰り返して相関を求めればよい。透かし埋込用ベクトルＯ２のうち、層Ｌの重みとの相関の低いビットに、付加情報を埋め込むことにより、透かしラベルＴ２の攻撃耐性をより高めることができる。

１・・・情報処理装置
１０・・・記憶部
２０・・・制御部
２１・・・訓練データ取得部
２２・・・重み更新部
２３・・・層選択部
２４・・・重みベクトル生成部
２５・・・埋込データ生成部
２６・・・データセット生成部
２７・・・ベクトル変換部
２８・・・変動記録部

Claims

目的タスク学習用の訓練データに基づいて、複数の層を備えるニューラルネットワークの各層の重みを更新する重み更新部と、
前記ニューラルネットワークを構成する層の中からＭ層（Ｍは２以上の整数）を選択する層選択部と、
選択された前記Ｍ層それぞれの重みのうち少なくとも一部の重みを成分とするベクトルであるＭ個の重みベクトルを生成する重みベクトル生成部と、
前記Ｍ個の重みベクトルそれぞれに埋め込むためのデータであって、透かしラベルに付加情報を付加したＭ個の埋込データを生成する埋込データ生成部と、
前記Ｍ個の重みベクトルを線型変換してＭ個の透かし埋込用ベクトルを生成するベクトル変換部と、
前記Ｍ個の透かし埋込用ベクトルそれぞれに、前記Ｍ個の埋込データのうち１つの埋め込みデータを対応付けてＭ組の透かし埋込用データセットを生成するデータセット生成部と、
を備え、
前記重み更新部は、前記目的タスク学習用に設定されたタスク学習用損失関数に、前記Ｍ組の透かし埋込用データセットそれぞれを用いて定められたＭ個の透かし埋込用損失関数を加算した統合損失関数に基づいて、前記重みを更新する、
情報処理装置。
前記重み更新部は、前記埋込用データセットに含まれる透かし埋込用ベクトルのもととなる重みベクトルの成分を取り出した層が前記ニューラルネットワークの入力層に近い場合は、前記入力層から遠い場合と比較して、前記埋込用データセットに対応する前記透かし埋込用損失関数に大きな係数を乗じてから加算することにより前記統合損失関数を構成する、
請求項１に記載の情報処理装置。
前記埋込データ生成部は、前記透かしラベルの誤りを訂正するための誤り訂正符号を前記付加情報として前記透かしラベルに付加する、
請求項１又は２に記載の情報処理装置。
前記埋込データ生成部は、前記重みベクトル生成部が選択した層が前記ニューラルネットワークの入力層に近い層である場合は、遠い層である場合と比較して前記透かしラベルに付加する付加情報のサイズを小さくする、
請求項１から３のいずれか一項に記載の情報処理装置。
前記埋込データ生成部は、所定の文字列を符号化したバイナリデータである透かしラベルに、前記付加情報を付加する、
請求項１から４のいずれか一項に記載の情報処理装置。
前記ベクトル変換部は、前記重みベクトルにアダマール行列を乗じて透かし埋込用ベクトルを生成する、
請求項１から５のいずれか一項に記載の情報処理装置。
プロセッサが、
複数の層を備えるニューラルネットワークを構成する層の中からＭ層（Ｍは２以上の整数）を選択するステップと、
選択された前記Ｍ層それぞれの重みのうち少なくとも一部の重みを成分とするベクトルであるＭ個の重みベクトルを生成するステップと、
前記Ｍ個の重みベクトルそれぞれに埋め込むためのデータであって、透かしラベルに付加情報を付加したＭ個の埋込データを生成するステップと、
前記Ｍ個の重みベクトルを線型変換してＭ個の透かし埋込用ベクトルを生成するステップと、
前記Ｍ個の透かし埋込用ベクトルそれぞれに、前記Ｍ個の埋込データのうち１つの埋め込みデータを対応付けてＭ組の透かし埋込用データセットを生成するステップと、
目的タスク学習用に設定されたタスク学習用損失関数に、前記Ｍ組の透かし埋込用データセットそれぞれを用いて定められたＭ個の透かし埋込用損失関数を加算した統合損失関数に基づいて、前記ニューラルネットワークの各層の重みを更新するステップと、
を実行する、
情報処理方法。
コンピュータに、
複数の層を備えるニューラルネットワークを構成する層の中からＭ層（Ｍは２以上の整数）を選択する機能と、
選択された前記Ｍ層それぞれの重みのうち少なくとも一部の重みを成分とするベクトルであるＭ個の重みベクトルを生成する機能と、
前記Ｍ個の重みベクトルそれぞれに埋め込むためのデータであって、透かしラベルに付加情報を付加したＭ個の埋込データを生成する機能と、
前記Ｍ個の重みベクトルを線型変換してＭ個の透かし埋込用ベクトルを生成する機能と、
前記Ｍ個の透かし埋込用ベクトルそれぞれに、前記Ｍ個の埋込データのうち１つの埋め込みデータを対応付けてＭ組の透かし埋込用データセットを生成する機能と、
目的タスク学習用に設定されたタスク学習用損失関数に、前記Ｍ組の透かし埋込用データセットそれぞれを用いて定められたＭ個の透かし埋込用損失関数を加算した統合損失関数に基づいて、前記ニューラルネットワークの各層の重みを更新する機能と、
を実現させる、
プログラム。