JP2021043888A

JP2021043888A - 分類装置、学習装置、方法及びプログラム

Info

Publication number: JP2021043888A
Application number: JP2019167456A
Authority: JP
Inventors: ソンホアンコックグエン; Son Hoang Quoc Nguyen; 清良披田野; Seira Hidano; フンタオトラン; Hung Tao Tran; 清本　晋作; Shinsaku Kiyomoto; 晋作清本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2021-03-18
Anticipated expiration: 2039-09-13
Also published as: JP7118938B2

Abstract

【課題】機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる分類装置、学習装置、方法及びプログラムを提供すること。【解決手段】分類装置１は、対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部１２と、対象データと変換データとの類似度を算出する算出部１３と、機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された類似度を入力として、区分が学習された学習モデル２１により、対象データの分類結果を出力する分類部１５と、を備える。【選択図】図１

Description

本発明は、人間が作成したデータか機械が作成したデータかを分類するための装置に関する。

従来、スパムメール又は敵対的サンプル（テキスト、画像等）等、悪意のあるデータによる被害が問題となっている。このような悪意のあるデータは、機械により自動生成される場合が多い。そこで、機械により生成されたデータを検出できる手法が望まれており、例えば、非特許文献１〜７で各種の手法が提案されている。

Ｈｏａｎｇ−ＱｕｏｃＮｇｕｙｅｎ−Ｓｏｎ，ＴｒａｎＰｈｕｏｎｇＴｈａｏ，ＳｅｉｒａＨｉｄａｎｏ，ａｎｄＳｈｉｎｓａｋｕＫｉｙｏｍｏｔｏ， "ＤｅｔｅｃｔｉｎｇＭａｃｈｉｎｅ−ＴｒａｎｓｌａｔｅｄＰａｒａｇｒａｐｈｓｂｙＭａｔｃｈｉｎｇＳｉｍｉｌａｒＷｏｒｄｓ"．Ｉｎ：ｔｈｅ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓａｎｄＩｎｔｅｌｌｉｇｅｎｔＴｅｘｔＰｒｏｃｅｓｓｉｎｇ（ＣＩＣＬＩＮＧ），２０１９．Ｈｏａｎｇ−ＱｕｏｃＮｇｕｙｅｎ−Ｓｏｎ，ＨｕｙＨ．Ｎｇｕｙｅｎ，Ｎｇｏｃ−ＤｕｎｇＴ．Ｔｉｅｕ，ＪｕｎｉｃｈｉＹａｍａｇｉｓｈｉ，ａｎｄＩｓａｏＥｃｈｉｚｅｎ， "ＩｄｅｎｔｉｆｙｉｎｇＣｏｍｐｕｔｅｒ−ＴｒａｎｓｌａｔｅｄＰａｒａｇｒａｐｈｓｕｓｉｎｇＣｏｈｅｒｅｎｃｅＦｅａｔｕｒｅｓ"．Ｉｎ：ｔｈｅ３２ｎｄＰａｃｉｆｉｃＡｓｉａＣｏｎｆｅｒｅｎｃｅｏｎＬａｎｇｕａｇｅ，ＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｐｕｔａｔｉｏｎ（ＰＡＣＬＩＣ），２０１８．Ｈｏａｎｇ−ＱｕｏｃＮｇｕｙｅｎ−ＳｏｎａｎｄＩｓａｏＥｃｈｉｚｅｎ． "ＤｅｔｅｃｔｉｎｇＣｏｍｐｕｔｅｒ−ＧｅｎｅｒａｔｅｄＴｅｘｔＵｓｉｎｇＦｌｕｅｎｃｙａｎｄＮｏｉｓｅＦｅａｔｕｒｅｓ"．Ｉｎ：ｔｈｅ１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＰａｃｉｆｉｃＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＰＡＣＬＩＮＧ），ｐｐ．２８８−３００，２０１７．Ｈｏａｎｇ−ＱｕｏｃＮｇｕｙｅｎ−Ｓｏｎ，Ｎｇｏｃ−ＤｕｎｇＴ．Ｔｉｅｕ，ＨｕｙＨ．Ｎｇｕｙｅｎ，ＪｕｎｉｃｈｉＹａｍａｇｉｓｈｉ，ａｎｄＩｓａｏＥｃｈｉｚｅｎ， "ＩｄｅｎｔｉｆｙｉｎｇＣｏｍｐｕｔｅｒ−ＧｅｎｅｒａｔｅｄＴｅｘｔＵｓｉｎｇＳｔａｔｉｓｔｉｃａｌＡｎａｌｙｓｉｓ"．Ｉｎ：ｔｈｅＡｓｉａ−ＰａｃｉｆｉｃＳｉｇｎａｌａｎｄＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＡｓｓｏｃｉａｔｉｏｎＡｎｎｕａｌＳｕｍｍｉｔａｎｄＣｏｎｆｅｒｅｎｃｅ（ＡＰＳＩＰＡＡＳＣ），ｐｐ．１２３−１３０，２０１７．ＹｉｔｏｎｇＬｉ，ＲｕｉＷａｎｇ，ａｎｄＨａｉＺｈａｉ， "ＡＭａｃｈｉｎｅＬｅａｒｎｉｎｇＭｅｔｈｏｄｔｏＤｉｓｔｉｎｇｕｉｓｈＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｆｒｏｍＨｕｍａｎＴｒａｎｓｌａｔｉｏｎ"．Ｉｎ：ｔｈｅ２９ｔｈＰａｃｉｆｉｃＡｓｉａＣｏｎｆｅｒｅｎｃｅｏｎＬａｎｇｕａｇｅ，ＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｐｕｔａｔｉｏｎ（ＰＡＣＬＩＣ），ｐｐ．３５４−３６０，２０１５．ＭｉｋａＪｕｕｔｉ，ＢｏＳｕｎ，ＴａｔｓｕｙａＭｏｒｉ，ａｎｄＮ．Ａｓｏｋａｎ， "ＳｔａｙＯｎ−Ｔｏｐｉｃ：ＧｅｎｅｒａｔｉｎｇＣｏｎｔｅｘｔ−ｓｐｅｃｉｆｉｃＦａｋｅＲｅｓｔａｕｒａｎｔＲｅｖｉｅｗｓ"．Ｉｎ：ｔｈｅ２３ｒｄＥｕｒｏｐｅａｎＳｙｍｐｏｓｉｕｍｏｎＲｅｓｅａｒｃｈｉｎＣｏｍｐｕｔｅｒＳｅｃｕｒｉｔｙ（ＥＳＯＲＩＣＳ），ｐｐ．１３２−１５１，２０１８．ＹｕａｎｓｈｕｎＹａｏ，ＢｉｍａｌＶｉｓｗａｎａｔｈ，ＪｅｎｎａＣｒｙａｎ，ＨａｉｔａｏＺｈｅｎｇ，ａｎｄＨａｉｔａｏＺｈｅｎｇ， "ＡｕｔｏｍａｔｅｄＣｒｏｗｄｔｕｒｆｉｎｇＡｔｔａｃｋｓａｎｄＤｅｆｅｎｓｅｓｉｎＯｎｌｉｎｅＲｅｖｉｅｗＳｙｓｔｅｍｓ"．Ｉｎ：ＡＣＭＳＩＧＳＡＣＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｅｃｕｒｉｔｙ（ＣＣＳ），ｐｐ．１１４３−１１５８，２０１７．

しかしながら、従来の手法は、機械により生成されたデータと人間により生成されたデータとの品質の違いに依存していたり、データの長さ等の制約があったり、特徴量に基づく複雑な計算が必要であったり、といった課題があった。このため、機械により生成されたデータを容易に精度良く検出することは難しかった。

本発明は、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる分類装置、学習装置、方法及びプログラムを提供することを目的とする。

本発明に係る分類装置は、対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、前記対象データと前記変換データとの類似度を算出する算出部と、機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類部と、を備える。

前記生成部は、前記対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで前記変換データを生成してもよい。

前記分類装置は、前記対象データの種類に応じて、前記変換手法を選択する選択部を備えてもよい。

本発明に係る学習装置は、学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、前記学習データと前記変換データとの類似度を算出する算出部と、前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習部と、を備える。

本発明に係る分類方法は、対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、前記対象データと前記変換データとの類似度を算出する算出ステップと、機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類ステップと、をコンピュータが実行する。

本発明に係る学習方法は、学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、前記学習データと前記変換データとの類似度を算出する算出ステップと、前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習ステップと、をコンピュータが実行する。

本発明に係る分類プログラムは、前記分類装置としてコンピュータを機能させるためのものである。

本発明に係る学習プログラムは、前記学習装置としてコンピュータを機能させるためのものである。

本発明によれば、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる。

実施形態における分類装置の機能構成を示す図である。実施形態における変換の回数に応じた、データの類似度の変化を説明する図である。実施形態における変換の実例と、類似度の違いとを例示する図である。実施形態における学習方法を示すフローチャートである。実施形態における学習方法を示すフローチャートの説明に供する図である。実施形態における分類方法を示すフローチャートである。

以下、本発明の実施形態の一例について説明する。
図１は、本実施形態における分類装置１の機能構成を示す図である。
分類装置１（分類装置、学習装置）は、サーバ装置又はパーソナルコンピュータ等の情報処理装置（コンピュータ）であり、制御部１０及び記憶部２０の他、各種データの入出力デバイス及び通信デバイス等を備える。

制御部１０は、分類装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部１０は、ＣＰＵであってよい。

記憶部２０は、ハードウェア群を分類装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスクドライブ（ＨＤＤ）等であってよい。具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるためのプログラム（分類プログラム、学習プログラム）の他、分類器としての学習モデル２１等を記憶する。

制御部１０は、選択部１１と、生成部１２と、算出部１３と、学習部１４と、分類部１５とを備える。制御部１０は、これらの機能部により、機械により生成されたデータと、人間により生成されたデータとを分類するための分類器である学習モデル２１を生成し、新たに入力された対象データを、機械により生成されたデータであるか、人間により生成されたデータであるかに分類して結果を出力する。

選択部１１は、分類を行う対象データの種類に応じて、この対象データが機械により変換されて生成されたものである場合に採用されたと想定される変換手法を選択する。
変換手法は、例えば、メール等のテキストを対象データとする場合、機械翻訳による順翻訳に続いて逆翻訳を行う変換手法が採用可能である。また、テキスト又は画像等の敵対的サンプルを対象データとする場合に、このような敵対的サンプルを生成するための既知の手法が選択されてよい。

生成部１２は、分類の対象データ又は学習データに対して、選択された所定の変換手法を適用することにより、変換データを生成する。

算出部１３は、分類の対象データ又は学習データと、生成された変換データとの類似度を算出する。
ここで、類似度の算出方法は限定されないが、例えば、次の文献Ａに示されているＢＬＥＵスコアが適用可能である。
文献Ａ：ＫｉｓｈｏｒｅＰａｐｉｎｅｎｉ，ＳａｌｉｍＲｏｕｋｏｓ，ＴｏｄｄＷａｒｄ，ａｎｄＷｅｉ−ＪｉｎｇＺｈｕ， “ＢＬＥＵ：ａＭｅｔｈｏｄｆｏｒＡｕｔｏｍａｔｉｃＥｖａｌｕａｔｉｏｎｏｆＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ”．Ｉｎ：ＡＣＬ−２００２：４０ｔｈＡｎｎｕａｌｍｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，ｐｐ．３１１−３１８．

学習部１４は、学習データから生成された変換データとの類似度を入力として、この学習データに予めラベル付けされた、機械により生成されたか又は人間により生成されたかの区分を学習し、学習モデル２１を生成する。
なお、学習手法は限定されず、例えば、ロジスティック回帰、サポートベクタマシン、確率的勾配降下法、逐次最小問題最適化法、深層学習等が適用でき、さらに、ｋ−分割交差検証等のアルゴリズムが利用されてもよい。

分類部１５は、分類の対象データから生成された変換データとの類似度を算出部１３から取得すると、この類似度を学習モデル２１に入力し、対象データの分類結果を出力する。

図２は、本実施形態における変換の回数に応じた、データの類似度の変化を説明する図である。
ここでは、オリジナルのデータｄ_ｍに対して、例えば、機械学習に基づく変換Ｇにより新たなデータｄ’_ｍが生成され、さらに変換Ｇを繰り返すことで、データｄ”_ｍ，ｄ”’_ｍ，…が生成された場合を示している。
このとき、ｄ_ｍとｄ’_ｍとの類似度をｓ_ｍとし、同様に、データｄ’_ｍとｄ”_ｍとの類似度をｓ’_ｍ、ｄ”_ｍとｄ”’_ｍとの類似度をｓ”_ｍ，…とする。

変換Ｇは、１回の処理で最適化が図られるため、複数回繰り返されることにより、データは収束し、変換前後の類似度は増加傾向（ｓ_ｍ＜ｓ’_ｍ＜ｓ”_ｍ＜…）となる。
すなわち、機械により生成されたデータｄ’_ｍ，ｄ”_ｍ，…は、人間により生成されたデータｄ_ｍよりも、さらに変換した後のデータとの類似度が高くなる。

図３は、本実施形態における変換の実例と、類似度の違いとを例示する図である。
この例では、人間により生成された英語のテキストＡと、テキストＡと同じ意味で書かれたフランス語のテキストＢを英語に機械翻訳した、すなわち機械により生成されたテキストＣとを比較している。

テキストＡ１は、テキストＡをフランス語に機械翻訳した後、さらに英語に機械翻訳したものである。同様に、テキストＣ１は、テキストＣをフランス語に機械翻訳した後、さらに英語に機械翻訳したものである。

ここで、テキストＡとテキストＡ１との類似度（ＢＬＥＵスコア）は、テキストＣとテキストＣ１との類似度に比べて極めて低くなっている。
このように、機械により生成されたテキストと、人間により生成されたテキストとでは、変換前後の類似度が大きく異なるため、この類似度を特徴量として、次のように機械学習を適用して、分類器が生成される。

図４は、本実施形態における学習方法を示すフローチャートである。また、図５は、本フローチャートの説明に供する図である。
なお、データの変換手法は、予め特定されているものとする。

ステップＳ１において、制御部１０は、機械により生成されたことを示すラベル（ｍａｃｈｉｎｅ）、又は人間により生成されたことを示すラベル（ｈｕｍａｎ）が予め付与されたＮ個の学習データからなるデータセットＤ＝｛ｄ_１，ｄ_２，ｄ_３，…，ｄ_Ｎ｝を収集する。

ステップＳ２において、生成部１２は、各学習データｄ_ｉに対して変換Ｇを適用し、変換データｄ’_ｉを生成する。

ステップＳ３において、算出部１３は、各学習データｄ_ｉと変換データｄ’_ｉとの類似度ｓ_ｉを算出する。
このとき、前述のように、機械により生成されたデータは、人間により生成されたデータよりも、対応する変換データとの類似度が高くなる（ｓ_２，ｓ_Ｎ＞ｓ_１，ｓ_３）。

ステップＳ４において、学習部１４は、類似度｛ｓ_１，ｓ_２，ｓ_３，…，ｓ_Ｎ｝を入力として、予め付与されているラベルを学習し、学習モデル２１を生成する。

図６は、本実施形態における分類方法を示すフローチャートである。
ステップＳ１１において、生成部１２は、入力された対象データｄ_ｘに対して変換Ｇを適用し、変換データｄ’_ｘを生成する。

ステップＳ１２において、算出部１３は、対象データｄ_ｘと変換データｄ’_ｘとの類似度ｓ_ｘを算出する。

ステップＳ１３において、分類部１５は、算出された類似度ｓ_ｘを学習モデル２１に入力することで、対象データが機械により生成されたか、又は人間により生成されたかに分類し、結果を出力する。

本実施形態によれば、分類装置１は、学習データに対して、所定の変換手法を適用することにより、変換データを生成し、学習データと変換データとの類似度を学習のための特徴量として算出する。そして、分類装置１は、この類似度を入力として、対応する学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習し、学習モデル２１を生成する。

これにより、分類装置は、新たに入力された対象データについて、同様に変換データを生成して類似度を算出することにより、学習モデル２１を利用して、機械により生成されたか又は人間により生成されたかの分類結果を出力できる。
したがって、分類装置１は、変換処理を繰り返すことによるデータの収束、すなわち類似度が増加する特徴を利用して、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる。

分類装置１は、対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで変換データを生成できる。
これにより、分類装置１は、機械翻訳を利用したスパムメール等のテキストを効率よく検出することができる。

分類装置１は、対象データの種類に応じて、変換手法を選択するので、様々なデータの種類に対して適切な変換手法を適用し、精度良く分類することができる。また、変換のアルゴリズムが既知のデータを検出対象として、容易に分類器を構成することができる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

分類装置１による学習方法及び分類方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ−ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

１分類装置（学習装置）
１０制御部
１１選択部
１２生成部
１３算出部
１４学習部
１５分類部
２０記憶部
２１学習モデル

Claims

対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、
前記対象データと前記変換データとの類似度を算出する算出部と、
機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類部と、を備える分類装置。
前記生成部は、前記対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで前記変換データを生成する請求項１に記載の分類装置。
前記対象データの種類に応じて、前記変換手法を選択する選択部を備える請求項１又は請求項２に記載の分類装置。
学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、
前記学習データと前記変換データとの類似度を算出する算出部と、
前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習部と、を備える学習装置。
対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、
前記対象データと前記変換データとの類似度を算出する算出ステップと、
機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類ステップと、をコンピュータが実行する分類方法。
学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、
前記学習データと前記変換データとの類似度を算出する算出ステップと、
前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習ステップと、をコンピュータが実行する学習方法。
請求項１から請求項３のいずれかに記載の分類装置としてコンピュータを機能させるための分類プログラム。
請求項４に記載の学習装置としてコンピュータを機能させるための学習プログラム。