JP2021043888A - 分類装置、学習装置、方法及びプログラム - Google Patents
分類装置、学習装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2021043888A JP2021043888A JP2019167456A JP2019167456A JP2021043888A JP 2021043888 A JP2021043888 A JP 2021043888A JP 2019167456 A JP2019167456 A JP 2019167456A JP 2019167456 A JP2019167456 A JP 2019167456A JP 2021043888 A JP2021043888 A JP 2021043888A
- Authority
- JP
- Japan
- Prior art keywords
- data
- classification
- learning
- similarity
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、本実施形態における分類装置1の機能構成を示す図である。
分類装置1(分類装置、学習装置)は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
変換手法は、例えば、メール等のテキストを対象データとする場合、機械翻訳による順翻訳に続いて逆翻訳を行う変換手法が採用可能である。また、テキスト又は画像等の敵対的サンプルを対象データとする場合に、このような敵対的サンプルを生成するための既知の手法が選択されてよい。
ここで、類似度の算出方法は限定されないが、例えば、次の文献Aに示されているBLEUスコアが適用可能である。
文献A: Kishore Papineni, Salim Roukos, Todd Ward, and Wei−Jing Zhu, “BLEU: a Method for Automatic Evaluation of Machine Translation”. In: ACL−2002: 40th Annual meeting of the Association for Computational Linguistics, pp. 311−318.
なお、学習手法は限定されず、例えば、ロジスティック回帰、サポートベクタマシン、確率的勾配降下法、逐次最小問題最適化法、深層学習等が適用でき、さらに、k−分割交差検証等のアルゴリズムが利用されてもよい。
ここでは、オリジナルのデータdmに対して、例えば、機械学習に基づく変換Gにより新たなデータd’mが生成され、さらに変換Gを繰り返すことで、データd”m,d”’m,…が生成された場合を示している。
このとき、dmとd’mとの類似度をsmとし、同様に、データd’mとd”mとの類似度をs’m、d”mとd”’mとの類似度をs”m,…とする。
すなわち、機械により生成されたデータd’m,d”m,…は、人間により生成されたデータdmよりも、さらに変換した後のデータとの類似度が高くなる。
この例では、人間により生成された英語のテキストAと、テキストAと同じ意味で書かれたフランス語のテキストBを英語に機械翻訳した、すなわち機械により生成されたテキストCとを比較している。
このように、機械により生成されたテキストと、人間により生成されたテキストとでは、変換前後の類似度が大きく異なるため、この類似度を特徴量として、次のように機械学習を適用して、分類器が生成される。
なお、データの変換手法は、予め特定されているものとする。
このとき、前述のように、機械により生成されたデータは、人間により生成されたデータよりも、対応する変換データとの類似度が高くなる(s2,sN>s1,s3)。
ステップS11において、生成部12は、入力された対象データdxに対して変換Gを適用し、変換データd’xを生成する。
したがって、分類装置1は、変換処理を繰り返すことによるデータの収束、すなわち類似度が増加する特徴を利用して、機械により生成されたデータと人間により生成されたデータとを、容易に精度良く分類できる。
これにより、分類装置1は、機械翻訳を利用したスパムメール等のテキストを効率よく検出することができる。
10 制御部
11 選択部
12 生成部
13 算出部
14 学習部
15 分類部
20 記憶部
21 学習モデル
Claims (8)
- 対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、
前記対象データと前記変換データとの類似度を算出する算出部と、
機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類部と、を備える分類装置。 - 前記生成部は、前記対象データであるテキストに対して、機械翻訳による順翻訳及び逆翻訳を行うことで前記変換データを生成する請求項1に記載の分類装置。
- 前記対象データの種類に応じて、前記変換手法を選択する選択部を備える請求項1又は請求項2に記載の分類装置。
- 学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成部と、
前記学習データと前記変換データとの類似度を算出する算出部と、
前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習部と、を備える学習装置。 - 対象データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、
前記対象データと前記変換データとの類似度を算出する算出ステップと、
機械により生成されたか又は人間により生成されたかの区分が予めラベル付けされた学習データを対象として算出された前記類似度を入力として、前記区分が学習された分類器により、前記対象データの分類結果を出力する分類ステップと、をコンピュータが実行する分類方法。 - 学習データに対して、所定の変換手法を適用することにより、変換データを生成する生成ステップと、
前記学習データと前記変換データとの類似度を算出する算出ステップと、
前記類似度を入力として、対応する前記学習データに予めラベル付けされた機械により生成されたか又は人間により生成されたかの区分を学習した分類器を生成する学習ステップと、をコンピュータが実行する学習方法。 - 請求項1から請求項3のいずれかに記載の分類装置としてコンピュータを機能させるための分類プログラム。
- 請求項4に記載の学習装置としてコンピュータを機能させるための学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019167456A JP7118938B2 (ja) | 2019-09-13 | 2019-09-13 | 分類装置、学習装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019167456A JP7118938B2 (ja) | 2019-09-13 | 2019-09-13 | 分類装置、学習装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021043888A true JP2021043888A (ja) | 2021-03-18 |
JP7118938B2 JP7118938B2 (ja) | 2022-08-16 |
Family
ID=74864166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019167456A Active JP7118938B2 (ja) | 2019-09-13 | 2019-09-13 | 分類装置、学習装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7118938B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358499A (ja) * | 2001-05-31 | 2002-12-13 | Kddi Corp | ニューラルネットワーク教師信号割当て装置とそのプログラムを記憶した記憶媒体 |
JP2008021190A (ja) * | 2006-07-13 | 2008-01-31 | Ehime Univ | パターン識別装置およびパターン識別プログラム |
WO2015029158A1 (ja) * | 2013-08-28 | 2015-03-05 | 株式会社日立製作所 | データ変換装置およびデータ変換方法ならびにデータ変換プログラム |
JP2018055514A (ja) * | 2016-09-30 | 2018-04-05 | 沖電気工業株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2019056983A (ja) * | 2017-09-19 | 2019-04-11 | 富士通株式会社 | 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置 |
-
2019
- 2019-09-13 JP JP2019167456A patent/JP7118938B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358499A (ja) * | 2001-05-31 | 2002-12-13 | Kddi Corp | ニューラルネットワーク教師信号割当て装置とそのプログラムを記憶した記憶媒体 |
JP2008021190A (ja) * | 2006-07-13 | 2008-01-31 | Ehime Univ | パターン識別装置およびパターン識別プログラム |
WO2015029158A1 (ja) * | 2013-08-28 | 2015-03-05 | 株式会社日立製作所 | データ変換装置およびデータ変換方法ならびにデータ変換プログラム |
JP2018055514A (ja) * | 2016-09-30 | 2018-04-05 | 沖電気工業株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2019056983A (ja) * | 2017-09-19 | 2019-04-11 | 富士通株式会社 | 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置 |
Non-Patent Citations (1)
Title |
---|
鳴海建太、外2名: "統計的手法と事例ベース手法を併用したスパムフィルタリング", 電子情報通信学会論文誌, vol. 91, no. 11, JPN6022028791, 1 November 2008 (2008-11-01), JP, pages 2569 - 2578, ISSN: 0004823217 * |
Also Published As
Publication number | Publication date |
---|---|
JP7118938B2 (ja) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11842174B2 (en) | Translating between programming languages using machine learning | |
JP6781415B2 (ja) | ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置 | |
CN105183720B (zh) | 基于rnn模型的机器翻译方法和装置 | |
KR102710087B1 (ko) | 언어 모델을 이용한 데이터 생성 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 | |
WO2019143539A1 (en) | Data-driven automatic code review | |
US20210280195A1 (en) | Infrastructure automation platform to assist in performing actions in response to tasks | |
KR20200014510A (ko) | 기계 학습 기반의 예측 서비스 제공 방법 및 그 장치 | |
JP6585654B2 (ja) | 判定装置、分析システム、判定方法および判定プログラム | |
KR102074909B1 (ko) | 소프트웨어 취약점 분류 장치 및 방법 | |
US20180260735A1 (en) | Training a hidden markov model | |
US11954202B2 (en) | Deep learning based detection of malicious shell scripts | |
US12106197B2 (en) | Learning parameter sampling configuration for automated machine learning | |
US11423333B2 (en) | Mechanisms for continuous improvement of automated machine learning | |
KR20200071877A (ko) | 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템 | |
US20200279079A1 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN117529727A (zh) | 预训练深度学习模型的自动微调和部署 | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
KR20200106108A (ko) | 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템 | |
KR20200073822A (ko) | 악성코드 분류 방법 및 그 장치 | |
Pascual et al. | Prosodic break prediction with RNNs | |
JP7118938B2 (ja) | 分類装置、学習装置、方法及びプログラム | |
KR102019752B1 (ko) | 컴퓨터 수행 가능한 ui/ux 전략제공방법 및 이를 수행하는 ui/ux 전략제공장치 | |
JP2017538226A (ja) | スケーラブルなウェブデータの抽出 | |
JP7349404B2 (ja) | 判定装置、判定方法及び判定プログラム | |
KR20230020116A (ko) | 상표 관련 서비스를 제공하는 컴퓨팅 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220803 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7118938 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |