JP7349404B2

JP7349404B2 - 判定装置、判定方法及び判定プログラム

Info

Publication number: JP7349404B2
Application number: JP2020077995A
Authority: JP
Inventors: ソンホアンコックグエン; 清良披田野; 晋作清本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2023-09-22
Anticipated expiration: 2040-04-27
Also published as: JP2021174276A

Description

本発明は、敵対的データを判定するための装置、方法及びプログラムに関する。

従来、深層学習等を用いたＡＩシステムにより、感情分析、テキスト含意認識（ＴｅｘｔｕａｌＥｎｔａｉｌｍｅｎｔ）、質問回答、テキスト分類等、手間のかかる多くの作業が自動化されている。
ところが、これらのＡＩシステムは、分析対象である入力データの変化に敏感なため、人が認識しない僅かな変化を加えた敵対的テキストを用いて、テキストの意味を保持したまま、高い確率でＡＩシステムに誤判定させる攻撃が存在する。そこで、このような攻撃を検知するために、例えば、非特許文献１～３のように、オリジナルのテキストと、敵対的テキストとを識別する手法が提案されている。

Yuanshun Yao, Bimal Viswanath, Jenna Cryan, Haitao Zheng, and Ben Y. Zhao, "Automated crowdturfing attacks and defenses in online review systems," ACM SIGSAC Conference on Computer and Communications Security (CCS), pp. 1143-1158, 2017. Mika Juuti, Bo Sun, Tatsuya Mori, and N. Asokan, "Stay on-topic: Generating context-specific fake restaurant reviews," European Symposium on Research in Computer Security (ESORICS), pp. 132-151, 2018. Hoang-Quoc Nguyen-Son, Tran Phuong Thao, Seira Hidano, and Shinsaku Kiyomoto, "Identifying Adversarial Sentences by Analyzing Text Complexity," 33rd Pacific Asia Conference on Language, Information and Computation (PACLIC), 2019.

しかしながら、従来の手法では、特定の攻撃に対象を絞り、その具体例を収集する必要があった。このため、いずれの手法も、多様な攻撃の種類と攻撃対象が存在する中で汎用性に欠けていた。

本発明は、様々な敵対的データを汎用的に判定できる判定装置、判定方法及び判定プログラムを提供することを目的とする。

本発明に係る判定装置は、入力データを解析する複数のシステムそれぞれから推定値及び確率の組を取得する解析結果取得部と、同一の推定値に対する前記複数のシステム間の前記確率の距離の組を算出する距離算出部と、前記距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与された入力データを学習し、分類器を生成する学習部と、生成された前記分類器に新たな入力データを入力して、当該新たな入力データが敵対的データか否かを判定する判定部と、を備える。

前記解析結果取得部は、前記複数のシステムによる推定結果の多数決により前記同一の推定値を決定してもよい。

前記判定装置は、前記判定部により前記新たな入力データが敵対的データと判定された場合に、前記距離の組に基づいて、前記複数のシステムのうち最も類似度の低いシステムを、攻撃対象として識別する識別部を備えてもよい。

前記識別部は、前記複数のシステムのうち、他のシステムとの間の前記距離の平均値が最大となるシステムを、前記最も類似度の低いシステムとしてもよい。

前記識別部は、前記複数のシステムのうち、前記同一の推定値に対する前記確率が最も低いシステムを、前記最も類似度の低いシステムとしてもよい。

前記入力データは、テキストデータであってもよい。

本発明に係る判定方法は、入力データを解析する複数のシステムそれぞれから推定値及び確率の組を取得する解析結果取得ステップと、同一の推定値に対する前記複数のシステム間の前記確率の距離の組を算出する距離算出ステップと、前記距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与された入力データを学習し、分類器を生成する学習ステップと、生成された前記分類器に新たな入力データを入力して、当該新たな入力データが敵対的データか否かを判定する判定ステップと、をコンピュータが実行する。

本発明に係る判定プログラムは、前記判定装置としてコンピュータを機能させるためのものである。

本発明によれば、敵対的データを汎用的に判定できる。

実施形態における判定装置の機能構成を示す図である。実施形態におけるシステム毎の推定値及び確率を例示する第１の図である。実施形態におけるシステム毎の推定値及び確率を例示する第２の図である。実施形態におけるシステム毎の推定値及び確率を例示する第３の図である。実施形態におけるシステム毎の推定値及び確率を例示する第４の図である。実施形態におけるシステム間での確率の距離を入力データ毎に例示する図である。実施形態における攻撃対象システムの識別方法を例示する図である。

以下、本発明の実施形態の一例について説明する。
図１は、本実施形態における判定装置１の機能構成を示す図である。
判定装置１は、サーバ又はパーソナルコンピュータ等の情報処理装置（コンピュータ）であり、制御部１０及び記憶部２０の他、各種データの入出力デバイス及び通信デバイス等を備える。

制御部１０は、判定装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部１０は、ＣＰＵであってよい。

記憶部２０は、ハードウェア群を判定装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスク（ＨＤＤ）等であってよい。具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるためのプログラム（判定プログラム）、学習モデル等を記憶する。

制御部１０は、解析結果取得部１１と、距離算出部１２と、学習部１３と、判定部１４と、識別部１５とを備える。
制御部１０は、これらの機能部により、入力データが敵対的データであるか否かを判定すると共に、攻撃対象のシステムを識別する。
本実施形態では、入力データは、一例としてテキストデータであるとするが、これには限られず、例えば、静止画、動画、音声等であってもよい。

解析結果取得部１１は、入力データであるテキストを自然言語処理により分類し、解析結果を出力する複数のＡＩシステムそれぞれから、解析結果として推定値及び確率の組を取得する。

図２～５は、本実施形態におけるシステム毎の推定値及び確率を例示する図である。
ここでは、攻撃対象の候補である複数のシステムとして、ＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）、Ｂｉ－ＬＳＴＭ（ＢｉｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ）、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を採用している。なお、対象のシステムは、これらには限られず、他のシステムが追加又は置換されてもよい。

そして、オリジナルのテキストｔを複数のシステムのそれぞれに入力した際の最も確率の高い推定値、及びその確率ｐを上段に示し、オリジナルのテキストｔに変更を加えた敵対的テキストｔ’を同一のシステムに入力した際に変化した確率ｐ’、及び最も確率の高い推定値を下段に示している。

図２は、オリジナルのテキストｔ_１と、一部の単語を置換した敵対的テキストｔ’_１とを、それぞれ複数のシステムに入力した結果を示している。
この場合、オリジナルのテキストｔ_１に対しては、いずれのシステムにおいても高い確率で「Ｐｏｓｉｔｉｖｅ」という推定値が得られている。

これに対して、敵対的テキストｔ’_１の場合は、ＬＳＴＭによる最も確率の高い推定値が「Ｐｏｓｉｔｉｖｅ」から「Ｎｅｇａｔｉｖｅ」に変化し、「Ｐｏｓｉｔｉｖｅ」の確率ｐ’_１は、９６．７％から２５．２％へ大きく低下している。
一方、他のシステムにおいて「Ｐｏｓｉｔｉｖｅ」の確率に大きな変化はない。

図３は、オリジナルのテキストｔ_２と、一部の単語を誤った綴りに変化させた敵対的テキストｔ’_２とを、それぞれ複数のシステムに入力した結果を示している。
この場合、オリジナルのテキストｔ_２に対しては、いずれのシステムにおいても高い確率で「Ｆｉｌｍ」という推定値が得られている。

これに対して、敵対的テキストｔ’_２の場合は、Ｂｉ－ＬＳＴＭによる最も確率の高い推定値が「Ｆｉｌｍ」から「Ｃｏｍｐａｎｙ」に変化し、「Ｆｉｌｍ」の確率ｐ’_２は、９９．６％から４％へ大きく低下している。
一方、他のシステムにおいて「Ｆｉｌｍ」の確率に大きな変化はない。

図４は、オリジナルのテキストｔ_３と、単語の並びを変えて文の構造を変化させた敵対的テキストｔ’_３とを、それぞれ複数のシステムに入力した結果を示している。
この場合、オリジナルのテキストｔ_３に対しては、いずれのシステムにおいても高い確率で「Ｅｎｔａｉｌｍｅｎｔ」という推定値が得られている。

これに対して、敵対的テキストｔ’_３の場合は、ＣＮＮによる最も確率の高い推定値が「Ｅｎｔａｉｌｍｅｎｔ」から「Ｎｅｕｔｒａｌ」に変化し、「Ｅｎｔａｉｌｍｅｎｔ」の確率ｐ’_３は、７２．５％から２７．４％へ大きく低下している。
一方、他のシステムにおいて「Ｅｎｔａｉｌｍｅｎｔ」の確率に大きな変化はない。

図５は、オリジナルのテキストｔ_４と、ノイズとなる文を追加した敵対的テキストｔ’_４とを、それぞれ複数のシステムに入力した結果を示している。
この場合、オリジナルのテキストｔ_４に対しては、いずれのシステムにおいても高い確率で「ＪｏｈｎＥｌｗａｙ」という推定値が得られている。

これに対して、敵対的テキストｔ’_４の場合は、ＬＳＴＭによる最も確率の高い推定値が「ＪｏｈｎＥｌｗａｙ」から「ＪｅｆｆＤｅａｎ」に変化し、「ＪｏｈｎＥｌｗａｙ」の確率ｐ’_４は、７８．３％から３４．１％へ大きく低下している。
一方、他のシステムにおいて「ＪｏｈｎＥｌｗａｙ」の確率に大きな変化はない。

図２～５では、同一の（正解の）推定値に対する複数のシステムにおける確率を示した。この同一の推定値は、後述の学習部１３における訓練データに対しては予め既知であるが、判定対象である新たなテキストデータについては未知である。
解析結果取得部１１は、新たなテキストデータに対して、この同一の推定値を、例えば、複数のシステムによる推定結果の多数決により決定してもよい。

距離算出部１２は、複数のシステムの全ての組み合わせについて、同一の推定値に対する確率の距離を算出し、システム間毎の距離の組を取得する。
ここで、確率の距離は、例えば、マンハッタン距離、すなわち確率の差の絶対値であってよい。

図６は、本実施形態におけるシステム間での確率の距離を入力データ毎に例示する図である。
オリジナルのテキストｔ_１，ｔ_２，ｔ_３では、確率の距離が全て低く、例えば、数％から数十％程度となっている。
一方、敵対的テキストｔ’_１，ｔ’_２，ｔ’_３，ｔ’_４では、いずれか一つのシステムに関係する距離がオリジナルの場合と比べて非常に大きくなっている。例えば、ｔ’_１の場合、｜ｐ^１－ｐ^２｜が８．０％から６１．７％に、｜ｐ^１－ｐ^３｜が６．５％から６２．０％に大きく上昇し、ＬＳＴＭとは無関係の｜ｐ^２－ｐ^３｜は０．３％と小さいままである。

学習部１３は、距離算出部１２により算出された距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与されたテキストデータを学習し、分類器を生成する。
学習手法は限定されず、例えば、ロジスティック回帰、サポートベクタマシン、多層パーセプトロン等の線形分類器が採用されてよい。また、複数の手法により生成された複数の分類器について、ｋ（例えば、１０）分割交差検証等により評価し、分類精度又はＦ値、あるいはそのバランスが最も優れている分類器が採用されてもよい。

判定部１４は、生成された分類器に新たなテキストデータを入力して、この新たなテキストデータが敵対的データか否かを判定する。

識別部１５は、判定部１４により新たなテキストデータが敵対的データと判定された場合に、距離の組に基づいて、複数のシステムのうち最も類似度の低いシステムを、攻撃対象として識別する。
このとき、識別部１５は、複数のシステムのうち、他のシステムとの間での確率の距離の平均値が最大となるシステムを、最も類似度の低いシステムとしてよい。
あるいは、識別部１５は、複数のシステムのうち、同一の推定値に対する確率が最も低いシステムを、最も類似度の低いシステムとしてもよい。

図７は、本実施形態における攻撃対象システムの識別方法を例示する図である。
この例では、確率の距離の平均値が最大となるシステムが攻撃対象として識別されている。
例えば、敵対的テキストｔ’_１の場合、ＬＳＴＭでの確率と他のシステムでの確率との距離は、６１．７％及び６２．０％なので、平均値６１．９％が得られる。同様に、Ｂｉ－ＬＳＴＭでは平均値３１．０％が、ＣＮＮでは平均値３１．２％が得られる。したがって、識別部１５は、平均値が最大（６１．９％）となるＬＳＴＭを、攻撃対象のシステムとして識別する。

本実施形態によれば、判定装置１は、入力データを解析する複数のシステムそれぞれから推定値及び確率の組を取得し、同一の推定値に対する複数のシステム間の確率の距離の組を算出して機械学習の特徴量とする。
一般に、敵対的データは、特定のシステムを対象として誤判定を引き起こすため、他のシステムとの間で解析結果に乖離が生じる。この状態を特徴量とすることで、判定装置１は、オリジナルデータか敵対的データかの区分をラベルとした訓練データを用いた機械学習により、敵対的データを判別可能な分類器を生成できる。
したがって、判定装置１は、複数のシステムのいずれかを攻撃対象とする訓練データを一様に用いることで、適切な分類器を生成でき、新たな入力に対して、様々な敵対的データを汎用的に判定できる。

また、画像又は音声等を入力とする攻撃に比べて、テキストデータの場合は、単一のシステムのみが攻撃されることが想定され、敵対的テキストの特徴が顕著に表れる。したがって、判定装置１は、テキストデータを入力とする攻撃に対して特に効果が期待できる。

判定装置１は、正解とみなせる同一の推定値に対する確率を複数のシステムから取得するために、複数のシステムによる推定結果の多数決により同一の推定値を決定してもよい。
これにより、特徴量が正解に基づく訓練データと整合するため、精度良く敵対的データを判定できる。

判定装置１は、新たな入力データを敵対的データと判定した場合に、確率の距離の組に基づいて、複数のシステムのうち最も類似度の低いシステムを、攻撃対象として識別する。
したがって、判定装置１は、敵対的データと判定した入力による攻撃対象を特定でき、これにより、対象のシステムに対して、適切な対策を施すことが可能となる。

判定装置１は、複数のシステムのうち、他のシステムとの間で確率の距離の平均値が最大となるシステムを、最も類似度の低いシステムとすることで、攻撃対象のシステムを容易に識別できる。
また、判定装置１は、複数のシステムのうち、同一の推定値に対する確率が最も低いシステムを、最も類似度の低いシステムとすることで、攻撃対象のシステムを容易に識別できる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

判定装置１による評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ－ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

１判定装置
１０制御部
１１解析結果取得部
１２距離算出部
１３学習部
１４判定部
１５識別部
２０記憶部

Claims

入力データを解析する複数のシステムそれぞれから、共通する複数の推定値及び当該複数の推定値それぞれの確率の組を取得する解析結果取得部と、
同一の入力データについて、共通の一つの推定値に対する前記複数のシステム間の前記確率の距離の組を算出する距離算出部と、
前記距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与された入力データを学習し、分類器を生成する学習部と、
生成された前記分類器に新たな入力データを入力して、当該新たな入力データが敵対的データか否かを判定する判定部と、を備える判定装置。
前記解析結果取得部は、前記複数のシステムによる推定結果の多数決により前記一つの推定値を決定する請求項１に記載の判定装置。
前記判定部により前記新たな入力データが敵対的データと判定された場合に、前記距離の組に基づいて、前記複数のシステムのうち他のシステムに対する類似度が最も低いシステムを、攻撃対象として識別する識別部を備える請求項１又は請求項２に記載の判定装置。
前記識別部は、前記複数のシステムのうち、他のシステムとの間の前記距離の平均値が最大となるシステムを、前記他のシステムに対する類似度が最も低いシステムとする請求項３に記載の判定装置。
前記識別部は、前記複数のシステムのうち、前記一つの推定値に対する前記確率が最も低いシステムを、前記他のシステムに対する類似度が最も低いシステムとする請求項３に記載の判定装置。
前記入力データは、テキストデータである請求項１から請求項５のいずれかに記載の判定装置。
入力データを解析する複数のシステムそれぞれから、共通する複数の推定値及び当該複数の推定値それぞれの確率の組を取得する解析結果取得ステップと、
同一の入力データについて、共通の一つの推定値に対する前記複数のシステム間の前記確率の距離の組を算出する距離算出ステップと、
前記距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与された入力データを学習し、分類器を生成する学習ステップと、
生成された前記分類器に新たな入力データを入力して、当該新たな入力データが敵対的データか否かを判定する判定ステップと、をコンピュータが実行する判定方法。
請求項１から請求項６のいずれかに記載の判定装置としてコンピュータを機能させるための判定プログラム。