JP7349404B2 - 判定装置、判定方法及び判定プログラム - Google Patents

判定装置、判定方法及び判定プログラム Download PDF

Info

Publication number
JP7349404B2
JP7349404B2 JP2020077995A JP2020077995A JP7349404B2 JP 7349404 B2 JP7349404 B2 JP 7349404B2 JP 2020077995 A JP2020077995 A JP 2020077995A JP 2020077995 A JP2020077995 A JP 2020077995A JP 7349404 B2 JP7349404 B2 JP 7349404B2
Authority
JP
Japan
Prior art keywords
systems
data
input data
distances
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020077995A
Other languages
English (en)
Other versions
JP2021174276A (ja
Inventor
ソン ホアン コック グエン
清良 披田野
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020077995A priority Critical patent/JP7349404B2/ja
Publication of JP2021174276A publication Critical patent/JP2021174276A/ja
Application granted granted Critical
Publication of JP7349404B2 publication Critical patent/JP7349404B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、敵対的データを判定するための装置、方法及びプログラムに関する。
従来、深層学習等を用いたAIシステムにより、感情分析、テキスト含意認識(Textual Entailment)、質問回答、テキスト分類等、手間のかかる多くの作業が自動化されている。
ところが、これらのAIシステムは、分析対象である入力データの変化に敏感なため、人が認識しない僅かな変化を加えた敵対的テキストを用いて、テキストの意味を保持したまま、高い確率でAIシステムに誤判定させる攻撃が存在する。そこで、このような攻撃を検知するために、例えば、非特許文献1~3のように、オリジナルのテキストと、敵対的テキストとを識別する手法が提案されている。
Yuanshun Yao, Bimal Viswanath, Jenna Cryan, Haitao Zheng, and Ben Y. Zhao, "Automated crowdturfing attacks and defenses in online review systems," ACM SIGSAC Conference on Computer and Communications Security (CCS), pp. 1143-1158, 2017. Mika Juuti, Bo Sun, Tatsuya Mori, and N. Asokan, "Stay on-topic: Generating context-specific fake restaurant reviews," European Symposium on Research in Computer Security (ESORICS), pp. 132-151, 2018. Hoang-Quoc Nguyen-Son, Tran Phuong Thao, Seira Hidano, and Shinsaku Kiyomoto, "Identifying Adversarial Sentences by Analyzing Text Complexity," 33rd Pacific Asia Conference on Language, Information and Computation (PACLIC), 2019.
しかしながら、従来の手法では、特定の攻撃に対象を絞り、その具体例を収集する必要があった。このため、いずれの手法も、多様な攻撃の種類と攻撃対象が存在する中で汎用性に欠けていた。
本発明は、様々な敵対的データを汎用的に判定できる判定装置、判定方法及び判定プログラムを提供することを目的とする。
本発明に係る判定装置は、入力データを解析する複数のシステムそれぞれから推定値及び確率の組を取得する解析結果取得部と、同一の推定値に対する前記複数のシステム間の前記確率の距離の組を算出する距離算出部と、前記距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与された入力データを学習し、分類器を生成する学習部と、生成された前記分類器に新たな入力データを入力して、当該新たな入力データが敵対的データか否かを判定する判定部と、を備える。
前記解析結果取得部は、前記複数のシステムによる推定結果の多数決により前記同一の推定値を決定してもよい。
前記判定装置は、前記判定部により前記新たな入力データが敵対的データと判定された場合に、前記距離の組に基づいて、前記複数のシステムのうち最も類似度の低いシステムを、攻撃対象として識別する識別部を備えてもよい。
前記識別部は、前記複数のシステムのうち、他のシステムとの間の前記距離の平均値が最大となるシステムを、前記最も類似度の低いシステムとしてもよい。
前記識別部は、前記複数のシステムのうち、前記同一の推定値に対する前記確率が最も低いシステムを、前記最も類似度の低いシステムとしてもよい。
前記入力データは、テキストデータであってもよい。
本発明に係る判定方法は、入力データを解析する複数のシステムそれぞれから推定値及び確率の組を取得する解析結果取得ステップと、同一の推定値に対する前記複数のシステム間の前記確率の距離の組を算出する距離算出ステップと、前記距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与された入力データを学習し、分類器を生成する学習ステップと、生成された前記分類器に新たな入力データを入力して、当該新たな入力データが敵対的データか否かを判定する判定ステップと、をコンピュータが実行する。
本発明に係る判定プログラムは、前記判定装置としてコンピュータを機能させるためのものである。
本発明によれば、敵対的データを汎用的に判定できる。
実施形態における判定装置の機能構成を示す図である。 実施形態におけるシステム毎の推定値及び確率を例示する第1の図である。 実施形態におけるシステム毎の推定値及び確率を例示する第2の図である。 実施形態におけるシステム毎の推定値及び確率を例示する第3の図である。 実施形態におけるシステム毎の推定値及び確率を例示する第4の図である。 実施形態におけるシステム間での確率の距離を入力データ毎に例示する図である。 実施形態における攻撃対象システムの識別方法を例示する図である。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における判定装置1の機能構成を示す図である。
判定装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、判定装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群を判定装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(判定プログラム)、学習モデル等を記憶する。
制御部10は、解析結果取得部11と、距離算出部12と、学習部13と、判定部14と、識別部15とを備える。
制御部10は、これらの機能部により、入力データが敵対的データであるか否かを判定すると共に、攻撃対象のシステムを識別する。
本実施形態では、入力データは、一例としてテキストデータであるとするが、これには限られず、例えば、静止画、動画、音声等であってもよい。
解析結果取得部11は、入力データであるテキストを自然言語処理により分類し、解析結果を出力する複数のAIシステムそれぞれから、解析結果として推定値及び確率の組を取得する。
図2~5は、本実施形態におけるシステム毎の推定値及び確率を例示する図である。
ここでは、攻撃対象の候補である複数のシステムとして、LSTM(Long short-term memory)、Bi-LSTM(Bidirectional LSTM)、CNN(Convolutional Neural Network)を採用している。なお、対象のシステムは、これらには限られず、他のシステムが追加又は置換されてもよい。
そして、オリジナルのテキストtを複数のシステムのそれぞれに入力した際の最も確率の高い推定値、及びその確率pを上段に示し、オリジナルのテキストtに変更を加えた敵対的テキストt’を同一のシステムに入力した際に変化した確率p’、及び最も確率の高い推定値を下段に示している。
図2は、オリジナルのテキストtと、一部の単語を置換した敵対的テキストt’とを、それぞれ複数のシステムに入力した結果を示している。
この場合、オリジナルのテキストtに対しては、いずれのシステムにおいても高い確率で「Positive」という推定値が得られている。
これに対して、敵対的テキストt’の場合は、LSTMによる最も確率の高い推定値が「Positive」から「Negative」に変化し、「Positive」の確率p’は、96.7%から25.2%へ大きく低下している。
一方、他のシステムにおいて「Positive」の確率に大きな変化はない。
図3は、オリジナルのテキストtと、一部の単語を誤った綴りに変化させた敵対的テキストt’とを、それぞれ複数のシステムに入力した結果を示している。
この場合、オリジナルのテキストtに対しては、いずれのシステムにおいても高い確率で「Film」という推定値が得られている。
これに対して、敵対的テキストt’の場合は、Bi-LSTMによる最も確率の高い推定値が「Film」から「Company」に変化し、「Film」の確率p’は、99.6%から4%へ大きく低下している。
一方、他のシステムにおいて「Film」の確率に大きな変化はない。
図4は、オリジナルのテキストtと、単語の並びを変えて文の構造を変化させた敵対的テキストt’とを、それぞれ複数のシステムに入力した結果を示している。
この場合、オリジナルのテキストtに対しては、いずれのシステムにおいても高い確率で「Entailment」という推定値が得られている。
これに対して、敵対的テキストt’の場合は、CNNによる最も確率の高い推定値が「Entailment」から「Neutral」に変化し、「Entailment」の確率p’は、72.5%から27.4%へ大きく低下している。
一方、他のシステムにおいて「Entailment」の確率に大きな変化はない。
図5は、オリジナルのテキストtと、ノイズとなる文を追加した敵対的テキストt’とを、それぞれ複数のシステムに入力した結果を示している。
この場合、オリジナルのテキストtに対しては、いずれのシステムにおいても高い確率で「John Elway」という推定値が得られている。
これに対して、敵対的テキストt’の場合は、LSTMによる最も確率の高い推定値が「John Elway」から「Jeff Dean」に変化し、「John Elway」の確率p’は、78.3%から34.1%へ大きく低下している。
一方、他のシステムにおいて「John Elway」の確率に大きな変化はない。
図2~5では、同一の(正解の)推定値に対する複数のシステムにおける確率を示した。この同一の推定値は、後述の学習部13における訓練データに対しては予め既知であるが、判定対象である新たなテキストデータについては未知である。
解析結果取得部11は、新たなテキストデータに対して、この同一の推定値を、例えば、複数のシステムによる推定結果の多数決により決定してもよい。
距離算出部12は、複数のシステムの全ての組み合わせについて、同一の推定値に対する確率の距離を算出し、システム間毎の距離の組を取得する。
ここで、確率の距離は、例えば、マンハッタン距離、すなわち確率の差の絶対値であってよい。
図6は、本実施形態におけるシステム間での確率の距離を入力データ毎に例示する図である。
オリジナルのテキストt,t,tでは、確率の距離が全て低く、例えば、数%から数十%程度となっている。
一方、敵対的テキストt’,t’,t’,t’では、いずれか一つのシステムに関係する距離がオリジナルの場合と比べて非常に大きくなっている。例えば、t’の場合、|p-p|が8.0%から61.7%に、|p-p|が6.5%から62.0%に大きく上昇し、LSTMとは無関係の|p-p|は0.3%と小さいままである。
学習部13は、距離算出部12により算出された距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与されたテキストデータを学習し、分類器を生成する。
学習手法は限定されず、例えば、ロジスティック回帰、サポートベクタマシン、多層パーセプトロン等の線形分類器が採用されてよい。また、複数の手法により生成された複数の分類器について、k(例えば、10)分割交差検証等により評価し、分類精度又はF値、あるいはそのバランスが最も優れている分類器が採用されてもよい。
判定部14は、生成された分類器に新たなテキストデータを入力して、この新たなテキストデータが敵対的データか否かを判定する。
識別部15は、判定部14により新たなテキストデータが敵対的データと判定された場合に、距離の組に基づいて、複数のシステムのうち最も類似度の低いシステムを、攻撃対象として識別する。
このとき、識別部15は、複数のシステムのうち、他のシステムとの間での確率の距離の平均値が最大となるシステムを、最も類似度の低いシステムとしてよい。
あるいは、識別部15は、複数のシステムのうち、同一の推定値に対する確率が最も低いシステムを、最も類似度の低いシステムとしてもよい。
図7は、本実施形態における攻撃対象システムの識別方法を例示する図である。
この例では、確率の距離の平均値が最大となるシステムが攻撃対象として識別されている。
例えば、敵対的テキストt’の場合、LSTMでの確率と他のシステムでの確率との距離は、61.7%及び62.0%なので、平均値61.9%が得られる。同様に、Bi-LSTMでは平均値31.0%が、CNNでは平均値31.2%が得られる。したがって、識別部15は、平均値が最大(61.9%)となるLSTMを、攻撃対象のシステムとして識別する。
本実施形態によれば、判定装置1は、入力データを解析する複数のシステムそれぞれから推定値及び確率の組を取得し、同一の推定値に対する複数のシステム間の確率の距離の組を算出して機械学習の特徴量とする。
一般に、敵対的データは、特定のシステムを対象として誤判定を引き起こすため、他のシステムとの間で解析結果に乖離が生じる。この状態を特徴量とすることで、判定装置1は、オリジナルデータか敵対的データかの区分をラベルとした訓練データを用いた機械学習により、敵対的データを判別可能な分類器を生成できる。
したがって、判定装置1は、複数のシステムのいずれかを攻撃対象とする訓練データを一様に用いることで、適切な分類器を生成でき、新たな入力に対して、様々な敵対的データを汎用的に判定できる。
また、画像又は音声等を入力とする攻撃に比べて、テキストデータの場合は、単一のシステムのみが攻撃されることが想定され、敵対的テキストの特徴が顕著に表れる。したがって、判定装置1は、テキストデータを入力とする攻撃に対して特に効果が期待できる。
判定装置1は、正解とみなせる同一の推定値に対する確率を複数のシステムから取得するために、複数のシステムによる推定結果の多数決により同一の推定値を決定してもよい。
これにより、特徴量が正解に基づく訓練データと整合するため、精度良く敵対的データを判定できる。
判定装置1は、新たな入力データを敵対的データと判定した場合に、確率の距離の組に基づいて、複数のシステムのうち最も類似度の低いシステムを、攻撃対象として識別する。
したがって、判定装置1は、敵対的データと判定した入力による攻撃対象を特定でき、これにより、対象のシステムに対して、適切な対策を施すことが可能となる。
判定装置1は、複数のシステムのうち、他のシステムとの間で確率の距離の平均値が最大となるシステムを、最も類似度の低いシステムとすることで、攻撃対象のシステムを容易に識別できる。
また、判定装置1は、複数のシステムのうち、同一の推定値に対する確率が最も低いシステムを、最も類似度の低いシステムとすることで、攻撃対象のシステムを容易に識別できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
判定装置1による評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 判定装置
10 制御部
11 解析結果取得部
12 距離算出部
13 学習部
14 判定部
15 識別部
20 記憶部

Claims (8)

  1. 入力データを解析する複数のシステムそれぞれから、共通する複数の推定値及び当該複数の推定値それぞれの確率の組を取得する解析結果取得部と、
    同一の入力データについて、共通の一つの推定値に対する前記複数のシステム間の前記確率の距離の組を算出する距離算出部と、
    前記距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与された入力データを学習し、分類器を生成する学習部と、
    生成された前記分類器に新たな入力データを入力して、当該新たな入力データが敵対的データか否かを判定する判定部と、を備える判定装置。
  2. 前記解析結果取得部は、前記複数のシステムによる推定結果の多数決により前記一つの推定値を決定する請求項1に記載の判定装置。
  3. 前記判定部により前記新たな入力データが敵対的データと判定された場合に、前記距離の組に基づいて、前記複数のシステムのうち他のシステムに対する類似度が最も低いシステムを、攻撃対象として識別する識別部を備える請求項1又は請求項2に記載の判定装置。
  4. 前記識別部は、前記複数のシステムのうち、他のシステムとの間の前記距離の平均値が最大となるシステムを、前記他のシステムに対する類似度が最も低いシステムとする請求項3に記載の判定装置。
  5. 前記識別部は、前記複数のシステムのうち、前記一つの推定値に対する前記確率が最も低いシステムを、前記他のシステムに対する類似度が最も低いシステムとする請求項3に記載の判定装置。
  6. 前記入力データは、テキストデータである請求項1から請求項5のいずれかに記載の判定装置。
  7. 入力データを解析する複数のシステムそれぞれから、共通する複数の推定値及び当該複数の推定値それぞれの確率の組を取得する解析結果取得ステップと、
    同一の入力データについて、共通の一つの推定値に対する前記複数のシステム間の前記確率の距離の組を算出する距離算出ステップと、
    前記距離の組を特徴量として、敵対的データか否かを示すラベルが予め付与された入力データを学習し、分類器を生成する学習ステップと、
    生成された前記分類器に新たな入力データを入力して、当該新たな入力データが敵対的データか否かを判定する判定ステップと、をコンピュータが実行する判定方法。
  8. 請求項1から請求項6のいずれかに記載の判定装置としてコンピュータを機能させるための判定プログラム。
JP2020077995A 2020-04-27 2020-04-27 判定装置、判定方法及び判定プログラム Active JP7349404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020077995A JP7349404B2 (ja) 2020-04-27 2020-04-27 判定装置、判定方法及び判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020077995A JP7349404B2 (ja) 2020-04-27 2020-04-27 判定装置、判定方法及び判定プログラム

Publications (2)

Publication Number Publication Date
JP2021174276A JP2021174276A (ja) 2021-11-01
JP7349404B2 true JP7349404B2 (ja) 2023-09-22

Family

ID=78279680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020077995A Active JP7349404B2 (ja) 2020-04-27 2020-04-27 判定装置、判定方法及び判定プログラム

Country Status (1)

Country Link
JP (1) JP7349404B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102662589B1 (ko) * 2022-03-25 2024-05-03 국방과학연구소 공격 예측 모델 훈련 방법 및 이를 위한 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019077440A1 (en) 2017-10-18 2019-04-25 International Business Machines Corporation VIRTUAL COGNITIVE DETECTOR

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019077440A1 (en) 2017-10-18 2019-04-25 International Business Machines Corporation VIRTUAL COGNITIVE DETECTOR

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
坂本岳史 ほか,"ニューラル機械翻訳システムに対する敵対的攻撃",電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2020年02月,第119巻, 第437号,pp. 125-130,ISSN 2432-6380
小高知宏 ほか,"3.2.4 アンサンブル学習",基礎から学ぶ人工知能の教科書,第1版,株式会社オーム社,2019年,pp. 68-69,ISBN 978-4-274-22426-3

Also Published As

Publication number Publication date
JP2021174276A (ja) 2021-11-01

Similar Documents

Publication Publication Date Title
US10958784B1 (en) Performing a custom action during call screening based on a purpose of a voice call
US11816080B2 (en) Severity computation of anomalies in information technology operations
EP3882814A1 (en) Utilizing machine learning models, position-based extraction, and automated data labeling to process image-based documents
González et al. Validation methods for plankton image classification systems
JP5241379B2 (ja) 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム
US11501161B2 (en) Method to explain factors influencing AI predictions with deep neural networks
CN111523119B (zh) 漏洞检测的方法和装置、电子设备及计算机可读存储介质
JP6765911B2 (ja) 分類装置、分類方法およびプログラム
CN110310114B (zh) 对象分类方法、装置、服务器及存储介质
US20190311258A1 (en) Data dependent model initialization
US11954202B2 (en) Deep learning based detection of malicious shell scripts
JP2010537321A (ja) 統計的分類のための最適な選択方略の方法及びシステム
US11983105B2 (en) Systems and methods for generating and executing a test case plan for a software product
KR102074909B1 (ko) 소프트웨어 취약점 분류 장치 및 방법
KR20190115319A (ko) 문장을 복수의 클래스들로 분류하는 모바일 장치 및 방법
CN109685104B (zh) 一种识别模型的确定方法和装置
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
US20220253725A1 (en) Machine learning model for entity resolution
JP6004015B2 (ja) 学習方法、情報処理装置および学習プログラム
Escobar et al. Process-monitoring-for-quality—a model selection criterion for support vector machine
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
JP7349404B2 (ja) 判定装置、判定方法及び判定プログラム
JP2020135689A (ja) モデル学習システム、意図解釈システム、モデル学習方法およびモデル学習用プログラム
JP2023145767A (ja) 語彙抽出支援システムおよび語彙抽出支援方法
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230911

R150 Certificate of patent or registration of utility model

Ref document number: 7349404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150