JP2021043888A - 分類装置、学習装置、方法及びプログラム - Google Patents

分類装置、学習装置、方法及びプログラム Download PDF

Info

Publication number
JP2021043888A
JP2021043888A JP2019167456A JP2019167456A JP2021043888A JP 2021043888 A JP2021043888 A JP 2021043888A JP 2019167456 A JP2019167456 A JP 2019167456A JP 2019167456 A JP2019167456 A JP 2019167456A JP 2021043888 A JP2021043888 A JP 2021043888A
Authority
JP
Japan
Prior art keywords
data
classification
learning
similarity
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019167456A
Other languages
English (en)
Other versions
JP7118938B2 (ja
Inventor
ソン ホアン コック グエン
Son Hoang Quoc Nguyen
ソン ホアン コック グエン
清良 披田野
Seira Hidano
清良 披田野
フン タオ トラン
Hung Tao Tran
フン タオ トラン
清本 晋作
Shinsaku Kiyomoto
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019167456A priority Critical patent/JP7118938B2/ja
Publication of JP2021043888A publication Critical patent/JP2021043888A/ja
Application granted granted Critical
Publication of JP7118938B2 publication Critical patent/JP7118938B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる分類装置、学習装置、方法及びプログラムを提供すること。【解決手段】分類装置1は、対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部12と、対象データと変換データとの類似度を算出する算出部13と、機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された類似度を入力として、区分が学習された学習モデル21により、対象データの分類結果を出力する分類部15と、を備える。【選択図】図1

Description

本発明は、人間が作成したデータか機械が作成したデータかを分類するための装置に関する。
従来、スパムメール又は敵対的サンプル(テキスト、画像等)等、悪意のあるデータによる被害が問題となっている。このような悪意のあるデータは、機械により自動生成される場合が多い。そこで、機械により生成されたデータを検出できる手法が望まれており、例えば、非特許文献1〜7で各種の手法が提案されている。
Hoang−Quoc Nguyen−Son, Tran Phuong Thao, Seira Hidano, and Shinsaku Kiyomoto, "Detecting Machine−Translated Paragraphs by Matching Similar Words". In: the 20th International Conference on Computational Linguistics and Intelligent Text Processing (CICLING), 2019. Hoang−Quoc Nguyen−Son, Huy H. Nguyen, Ngoc−Dung T. Tieu, Junichi Yamagishi, and Isao Echizen, "Identifying Computer−Translated Paragraphs using Coherence Features". In: the 32nd Pacific Asia Conference on Language, Information and Computation (PACLIC), 2018. Hoang−Quoc Nguyen−Son and Isao Echizen. "Detecting Computer−Generated Text Using Fluency and Noise Features". In: the 15th International Conference of the Pacific Association for Computational Linguistics (PACLING), pp. 288−300, 2017. Hoang−Quoc Nguyen−Son, Ngoc−Dung T. Tieu, Huy H. Nguyen, Junichi Yamagishi, and Isao Echizen, "Identifying Computer−Generated Text Using Statistical Analysis". In: the Asia−Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp. 123−130, 2017. Yitong Li, Rui Wang, and Hai Zhai, "A Machine Learning Method to Distinguish Machine Translation from Human Translation". In: the 29th Pacific Asia Conference on Language, Information and Computation (PACLIC), pp. 354−360, 2015. Mika Juuti, Bo Sun, Tatsuya Mori, and N. Asokan, "Stay On−Topic: Generating Context−specific Fake Restaurant Reviews". In: the 23rd European Symposium on Research in Computer Security (ESORICS), pp. 132−151, 2018. Yuanshun Yao, Bimal Viswanath, Jenna Cryan, Haitao Zheng, and Haitao Zheng, "Automated Crowdturfing Attacks and Defenses in Online Review Systems". In: ACM SIGSAC Conference on Computer and Communications Security (CCS), pp. 1143−1158, 2017.
しかしながら、従来の手法は、機械により生成されたデータと人間により生成されたデータとの品質の違いに依存していたり、データの長さ等の制約があったり、特徴量に基づく複雑な計算が必要であったり、といった課題があった。このため、機械により生成されたデータを容易に精度良く検出することは難しかった。
本発明は、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる分類装置、学習装置、方法及びプログラムを提供することを目的とする。
本発明に係る分類装置は、対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、前記対象データと前記変換データとの類似度を算出する算出部と、機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類部と、を備える。
前記生成部は、前記対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで前記変換データを生成してもよい。
前記分類装置は、前記対象データの種類に応じて、前記変換手法を選択する選択部を備えてもよい。
本発明に係る学習装置は、学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、前記学習データと前記変換データとの類似度を算出する算出部と、前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習部と、を備える。
本発明に係る分類方法は、対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、前記対象データと前記変換データとの類似度を算出する算出ステップと、機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類ステップと、をコンピュータが実行する。
本発明に係る学習方法は、学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、前記学習データと前記変換データとの類似度を算出する算出ステップと、前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習ステップと、をコンピュータが実行する。
本発明に係る分類プログラムは、前記分類装置としてコンピュータを機能させるためのものである。
本発明に係る学習プログラムは、前記学習装置としてコンピュータを機能させるためのものである。
本発明によれば、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる。
実施形態における分類装置の機能構成を示す図である。 実施形態における変換の回数に応じた、データの類似度の変化を説明する図である。 実施形態における変換の実例と、類似度の違いとを例示する図である。 実施形態における学習方法を示すフローチャートである。 実施形態における学習方法を示すフローチャートの説明に供する図である。 実施形態における分類方法を示すフローチャートである。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における分類装置1の機能構成を示す図である。
分類装置1(分類装置、学習装置)は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、分類装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群を分類装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスクドライブ(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(分類プログラム、学習プログラム)の他、分類器としての学習モデル21等を記憶する。
制御部10は、選択部11と、生成部12と、算出部13と、学習部14と、分類部15とを備える。制御部10は、これらの機能部により、機械により生成されたデータと、人間により生成されたデータとを分類するための分類器である学習モデル21を生成し、新たに入力された対象データを、機械により生成されたデータであるか、人間により生成されたデータであるかに分類して結果を出力する。
選択部11は、分類を行う対象データの種類に応じて、この対象データが機械により変換されて生成されたものである場合に採用されたと想定される変換手法を選択する。
変換手法は、例えば、メール等のテキストを対象データとする場合、機械翻訳による順翻訳に続いて逆翻訳を行う変換手法が採用可能である。また、テキスト又は画像等の敵対的サンプルを対象データとする場合に、このような敵対的サンプルを生成するための既知の手法が選択されてよい。
生成部12は、分類の対象データ又は学習データに対して、選択された所定の変換手法を適用することにより、変換データを生成する。
算出部13は、分類の対象データ又は学習データと、生成された変換データとの類似度を算出する。
ここで、類似度の算出方法は限定されないが、例えば、次の文献Aに示されているBLEUスコアが適用可能である。
文献A: Kishore Papineni, Salim Roukos, Todd Ward, and Wei−Jing Zhu, “BLEU: a Method for Automatic Evaluation of Machine Translation”. In: ACL−2002: 40th Annual meeting of the Association for Computational Linguistics, pp. 311−318.
学習部14は、学習データから生成された変換データとの類似度を入力として、この学習データに予めラベル付けされた、機械により生成されたか又は人間により生成されたかの区分を学習し、学習モデル21を生成する。
なお、学習手法は限定されず、例えば、ロジスティック回帰、サポートベクタマシン、確率的勾配降下法、逐次最小問題最適化法、深層学習等が適用でき、さらに、k−分割交差検証等のアルゴリズムが利用されてもよい。
分類部15は、分類の対象データから生成された変換データとの類似度を算出部13から取得すると、この類似度を学習モデル21に入力し、対象データの分類結果を出力する。
図2は、本実施形態における変換の回数に応じた、データの類似度の変化を説明する図である。
ここでは、オリジナルのデータdに対して、例えば、機械学習に基づく変換Gにより新たなデータd’が生成され、さらに変換Gを繰り返すことで、データd”,d”’,…が生成された場合を示している。
このとき、dとd’との類似度をsとし、同様に、データd’とd”との類似度をs’、d”とd”’との類似度をs”,…とする。
変換Gは、1回の処理で最適化が図られるため、複数回繰り返されることにより、データは収束し、変換前後の類似度は増加傾向(s<s’<s”<…)となる。
すなわち、機械により生成されたデータd’,d”,…は、人間により生成されたデータdよりも、さらに変換した後のデータとの類似度が高くなる。
図3は、本実施形態における変換の実例と、類似度の違いとを例示する図である。
この例では、人間により生成された英語のテキストAと、テキストAと同じ意味で書かれたフランス語のテキストBを英語に機械翻訳した、すなわち機械により生成されたテキストCとを比較している。
テキストA1は、テキストAをフランス語に機械翻訳した後、さらに英語に機械翻訳したものである。同様に、テキストC1は、テキストCをフランス語に機械翻訳した後、さらに英語に機械翻訳したものである。
ここで、テキストAとテキストA1との類似度(BLEUスコア)は、テキストCとテキストC1との類似度に比べて極めて低くなっている。
このように、機械により生成されたテキストと、人間により生成されたテキストとでは、変換前後の類似度が大きく異なるため、この類似度を特徴量として、次のように機械学習を適用して、分類器が生成される。
図4は、本実施形態における学習方法を示すフローチャートである。また、図5は、本フローチャートの説明に供する図である。
なお、データの変換手法は、予め特定されているものとする。
ステップS1において、制御部10は、機械により生成されたことを示すラベル(machine)、又は人間により生成されたことを示すラベル(human)が予め付与されたN個の学習データからなるデータセットD={d,d,d,…,d}を収集する。
ステップS2において、生成部12は、各学習データdに対して変換Gを適用し、変換データd’を生成する。
ステップS3において、算出部13は、各学習データdと変換データd’との類似度sを算出する。
このとき、前述のように、機械により生成されたデータは、人間により生成されたデータよりも、対応する変換データとの類似度が高くなる(s,s>s,s)。
ステップS4において、学習部14は、類似度{s,s,s,…,s}を入力として、予め付与されているラベルを学習し、学習モデル21を生成する。
図6は、本実施形態における分類方法を示すフローチャートである。
ステップS11において、生成部12は、入力された対象データdに対して変換Gを適用し、変換データd’を生成する。
ステップS12において、算出部13は、対象データdと変換データd’との類似度sを算出する。
ステップS13において、分類部15は、算出された類似度sを学習モデル21に入力することで、対象データが機械により生成されたか、又は人間により生成されたかに分類し、結果を出力する。
本実施形態によれば、分類装置1は、学習データに対して、所定の変換手法を適用することにより、変換データを生成し、学習データと変換データとの類似度を学習のための特徴量として算出する。そして、分類装置1は、この類似度を入力として、対応する学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習し、学習モデル21を生成する。
これにより、分類装置は、新たに入力された対象データについて、同様に変換データを生成して類似度を算出することにより、学習モデル21を利用して、機械により生成されたか又は人間により生成されたかの分類結果を出力できる。
したがって、分類装置1は、変換処理を繰り返すことによるデータの収束、すなわち類似度が増加する特徴を利用して、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる。
分類装置1は、対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで変換データを生成できる。
これにより、分類装置1は、機械翻訳を利用したスパムメール等のテキストを効率よく検出することができる。
分類装置1は、対象データの種類に応じて、変換手法を選択するので、様々なデータの種類に対して適切な変換手法を適用し、精度良く分類することができる。また、変換のアルゴリズムが既知のデータを検出対象として、容易に分類器を構成することができる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
分類装置1による学習方法及び分類方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 分類装置(学習装置)
10 制御部
11 選択部
12 生成部
13 算出部
14 学習部
15 分類部
20 記憶部
21 学習モデル

Claims (8)

  1. 対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、
    前記対象データと前記変換データとの類似度を算出する算出部と、
    機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類部と、を備える分類装置。
  2. 前記生成部は、前記対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで前記変換データを生成する請求項1に記載の分類装置。
  3. 前記対象データの種類に応じて、前記変換手法を選択する選択部を備える請求項1又は請求項2に記載の分類装置。
  4. 学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、
    前記学習データと前記変換データとの類似度を算出する算出部と、
    前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習部と、を備える学習装置。
  5. 対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、
    前記対象データと前記変換データとの類似度を算出する算出ステップと、
    機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類ステップと、をコンピュータが実行する分類方法。
  6. 学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、
    前記学習データと前記変換データとの類似度を算出する算出ステップと、
    前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習ステップと、をコンピュータが実行する学習方法。
  7. 請求項1から請求項3のいずれかに記載の分類装置としてコンピュータを機能させるための分類プログラム。
  8. 請求項4に記載の学習装置としてコンピュータを機能させるための学習プログラム。
JP2019167456A 2019-09-13 2019-09-13 分類装置、学習装置、方法及びプログラム Active JP7118938B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019167456A JP7118938B2 (ja) 2019-09-13 2019-09-13 分類装置、学習装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019167456A JP7118938B2 (ja) 2019-09-13 2019-09-13 分類装置、学習装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021043888A true JP2021043888A (ja) 2021-03-18
JP7118938B2 JP7118938B2 (ja) 2022-08-16

Family

ID=74864166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019167456A Active JP7118938B2 (ja) 2019-09-13 2019-09-13 分類装置、学習装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7118938B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358499A (ja) * 2001-05-31 2002-12-13 Kddi Corp ニューラルネットワーク教師信号割当て装置とそのプログラムを記憶した記憶媒体
JP2008021190A (ja) * 2006-07-13 2008-01-31 Ehime Univ パターン識別装置およびパターン識別プログラム
WO2015029158A1 (ja) * 2013-08-28 2015-03-05 株式会社日立製作所 データ変換装置およびデータ変換方法ならびにデータ変換プログラム
JP2018055514A (ja) * 2016-09-30 2018-04-05 沖電気工業株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019056983A (ja) * 2017-09-19 2019-04-11 富士通株式会社 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358499A (ja) * 2001-05-31 2002-12-13 Kddi Corp ニューラルネットワーク教師信号割当て装置とそのプログラムを記憶した記憶媒体
JP2008021190A (ja) * 2006-07-13 2008-01-31 Ehime Univ パターン識別装置およびパターン識別プログラム
WO2015029158A1 (ja) * 2013-08-28 2015-03-05 株式会社日立製作所 データ変換装置およびデータ変換方法ならびにデータ変換プログラム
JP2018055514A (ja) * 2016-09-30 2018-04-05 沖電気工業株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019056983A (ja) * 2017-09-19 2019-04-11 富士通株式会社 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鳴海建太、外2名: "統計的手法と事例ベース手法を併用したスパムフィルタリング", 電子情報通信学会論文誌, vol. 91, no. 11, JPN6022028791, 1 November 2008 (2008-11-01), JP, pages 2569 - 2578, ISSN: 0004823217 *

Also Published As

Publication number Publication date
JP7118938B2 (ja) 2022-08-16

Similar Documents

Publication Publication Date Title
JP6781415B2 (ja) ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置
CN106462399B (zh) 代码推荐
CN105183720B (zh) 基于rnn模型的机器翻译方法和装置
EP3882814A1 (en) Utilizing machine learning models, position-based extraction, and automated data labeling to process image-based documents
WO2019143539A1 (en) Data-driven automatic code review
EP3973381A1 (en) Translating between programming languages using machine learning
US20210280195A1 (en) Infrastructure automation platform to assist in performing actions in response to tasks
KR20200014510A (ko) 기계 학습 기반의 예측 서비스 제공 방법 및 그 장치
KR102074909B1 (ko) 소프트웨어 취약점 분류 장치 및 방법
US20180260735A1 (en) Training a hidden markov model
JP6585654B2 (ja) 判定装置、分析システム、判定方法および判定プログラム
US11423333B2 (en) Mechanisms for continuous improvement of automated machine learning
KR20230016794A (ko) 언어 모델을 이용한 데이터 생성 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
US11954202B2 (en) Deep learning based detection of malicious shell scripts
US20210304056A1 (en) Learning Parameter Sampling Configuration for Automated Machine Learning
KR20200071877A (ko) 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
Altinbas et al. GUI element detection from mobile UI images using YOLOv5
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
JPWO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
KR20200106108A (ko) 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템
KR20200073822A (ko) 악성코드 분류 방법 및 그 장치
Pascual et al. Prosodic break prediction with RNNs
JP7118938B2 (ja) 分類装置、学習装置、方法及びプログラム
KR102019752B1 (ko) 컴퓨터 수행 가능한 ui/ux 전략제공방법 및 이를 수행하는 ui/ux 전략제공장치
JP2017538226A (ja) スケーラブルなウェブデータの抽出

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220803

R150 Certificate of patent or registration of utility model

Ref document number: 7118938

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150