JP7376631B2 - 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム - Google Patents
敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム Download PDFInfo
- Publication number
- JP7376631B2 JP7376631B2 JP2022036325A JP2022036325A JP7376631B2 JP 7376631 B2 JP7376631 B2 JP 7376631B2 JP 2022036325 A JP2022036325 A JP 2022036325A JP 2022036325 A JP2022036325 A JP 2022036325A JP 7376631 B2 JP7376631 B2 JP 7376631B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- data samples
- adversarial
- samples
- attack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000012549 training Methods 0.000 claims description 51
- 230000015654 memory Effects 0.000 claims description 20
- 230000001174 ascending effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 239000000523 sample Substances 0.000 description 26
- 238000002372 labelling Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/52—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
- G06F21/54—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by adding security routines or objects to programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/033—Test or assess software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Description
logit(fj,k)=
クラスkについてのj番目の偽サンプルfjについてのロジット値、ここで、k∈{1,2,…K}
prob(xi,k)
=クラスkに対応する修正されていないサンプルxiについての確率スコア
τ=|LP(fi,真のラベル)-LP(fi,タグ付けされたラベル)|の事前定義されたパーセンタイル値
ここで、タグ付けされたラベルは8である(ボックス中にハイライトされている)。
真のラベルは6である(ボックス中にハイライトされている)。
予測されたラベルは5である(ボックス中にハイライトされている)。
Claims (9)
- 誤ラベル付きデータ・サンプルを識別するための、プロセッサによって実施される方法(200)であって、
1つ又は複数のハードウェア・プロセッサ(102)を介してトレーニング・データを収集すること(202)であって、前記トレーニング・データが、前記誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを備える、トレーニング・データを収集すること(202)と、
前記1つ又は複数のハードウェア・プロセッサ(102)を介して、前記トレーニング・データを使用してデータ駆動型モデルをトレーニングすること(204)と、
トレーニングされたデータ駆動型モデルを使用して、前記1つ又は複数のハードウェア・プロセッサ(102)を介して、前記トレーニング・データ中の複数のデータ・サンプルに対応するロジット・スコア又は確率スコアを計算すること(206)と、
前記1つ又は複数のハードウェア・プロセッサ(102)を介して、敵対的摂動のさまざまな値を使用して前記トレーニング・データ中の前記複数のデータ・サンプルの各々のデータ・サンプルに対して敵対的攻撃を実行すること(208)であって、
前記複数のデータ・サンプルの中から、前記敵対的攻撃によってミスガイドされたデータ・サンプルを識別すること(302)であって、前記ミスガイドされたデータ・サンプルは、敵対的摂動の前記さまざまな値について、実際のクラスが予測されたクラスとは異なるデータ・サンプルに対応する、識別すること(302)と、
前記敵対的攻撃によってミスガイドされた前記複数のデータ・サンプルのうちのミスガイドされたデータ・サンプルの各々について、敵対的摂動の複数の値の中から、敵対的摂動の最小値を識別すること(304)であって、
前記敵対的摂動の前記複数の値は、前記複数のデータ・サンプルの各々に対して前記敵対的攻撃を実行するために使用され、
前記敵対的摂動の前記最小値は、事前定義されたメトリックの値に基づいて特定され、
前記事前定義されたメトリックの前記値は、前記敵対的攻撃の強度を表す、
識別すること(304)と、
前記事前定義されたメトリックの値の昇順に、前記敵対的攻撃によってミスガイドされた前記データ・サンプルをソートすること(306)と
によって前記敵対的攻撃を実行すること(208)と、
前記1つ又は複数のハードウェア・プロセッサを介して、前記複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成すること(210)であって、事前定義されたメトリックの前記値が事前定義されたしきい値を下回るデータ・サンプルが、前記候補誤ラベル付きデータ・サンプルとして識別される、推奨を生成すること(210)と
を含む、方法(200)。 - 前記事前定義されたメトリックが、データ・タイプに依存し、時系列データについての動的時間伸縮距離と、画像データ及びビデオ・データについての知覚損失と、表データについてのユークリッド距離とのうちの少なくとも1つである、請求項1に記載の方法(200)。
- 前記事前定義されたメトリックが、元のデータ・サンプルと、対応する敵対的データ・サンプルとを使用して計算される、請求項2に記載の方法(200)。
- 誤ラベル付きデータ・サンプルを識別するためのシステム(100)であって、
1つ又は複数のハードウェア・プロセッサ(102)と、
通信インターフェース(103)と、
複数の命令を記憶するメモリ(101)と
を備え、前記複数の命令は、実行されたときに、前記1つ又は複数のハードウェア・プロセッサ(102)に、
トレーニング・データを収集することであって、前記トレーニング・データが、前記誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを備える、トレーニング・データを収集することと、
前記トレーニング・データを使用してデータ駆動型モデルをトレーニングすることと、
トレーニングされたデータ駆動型モデルを使用して、前記トレーニング・データ中の複数のデータ・サンプルに対応するロジット・スコア又は確率スコアを計算することと、
敵対的摂動のさまざまな値を使用して、前記トレーニング・データ中の前記複数のデータ・サンプルの各々のデータ・サンプルに対して敵対的攻撃を実行することであって、
前記複数のデータ・サンプルの中から、敵対的攻撃によってミスガイドされたすべてのデータ・サンプルを識別することであって、前記ミスガイドされたデータ・サンプルは、敵対的摂動の前記さまざまな値について、実際のクラスが予測されたクラスとは異なるデータ・サンプルに対応する、識別することと、
前記敵対的攻撃によってミスガイドされた前記複数のデータ・サンプルのうちのミスガイドされたデータ・サンプルの各々について、敵対的摂動の複数の値の中から、敵対的摂動の最小値を識別することであって、
前記敵対的摂動の前記複数の値は、前記複数のデータ・サンプルの各々に対して前記敵対的攻撃を実行するために使用され、
前記敵対的摂動の前記最小値は、事前定義されたメトリックの値に基づいて特定され、
前記事前定義されたメトリックの前記値は、前記敵対的攻撃の強度を表す、
識別することと、
前記事前定義されたメトリックの値の昇順に、前記敵対的攻撃によってミスガイドされた前記データ・サンプルをソートすることと
によって前記敵対的攻撃を実行することと、
前記複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成することであって、事前定義されたメトリックの前記値が事前定義されたしきい値を下回るデータ・サンプルが、前記候補誤ラベル付きデータ・サンプルとして識別される、推奨を生成することと
を行わせる、誤ラベル付きデータ・サンプルを識別するためのシステム(100)。 - 前記事前定義されたメトリックが、データ・タイプに依存し、時系列データについての動的時間伸縮距離と、画像データ及びビデオ・データについての知覚損失と、表データについてのユークリッド距離とのうちの少なくとも1つである、請求項4に記載のシステム(100)。
- 前記システム(100)が、元のデータ・サンプルと、対応する敵対的データ・サンプルとを使用して前記事前定義されたメトリックを計算する、請求項5に記載のシステム(100)。
- 1つ又は複数の命令を含む1つ又は複数の非一時的機械可読情報記憶媒体であって、前記1つ又は複数の命令は、1つ又は複数のハードウェア・プロセッサによって実行されたときに、
トレーニング・データを収集することであって、前記トレーニング・データが、誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを備える、トレーニング・データを収集することと、
前記1つ又は複数のハードウェア・プロセッサを介して、前記トレーニング・データを使用してデータ駆動型モデルをトレーニングすることと、
トレーニングされたデータ駆動型モデルを使用して、前記1つ又は複数のハードウェア・プロセッサを介して、前記トレーニング・データ中の複数のデータ・サンプルに対応するロジット・スコア又は確率スコアを計算することと、
前記1つ又は複数のハードウェア・プロセッサを介して、前記トレーニング・データ中の前記複数のデータ・サンプルの各々に対して敵対的攻撃を実行することであって、
前記複数のデータ・サンプルの中から、前記敵対的攻撃によってミスガイドされたすべてのデータ・サンプルを識別することであって、前記ミスガイドされたデータ・サンプルは、敵対的摂動の前記さまざまな値について、実際のクラスが予測されたクラスとは異なるデータ・サンプルに対応する、識別することと、
前記敵対的攻撃によってミスガイドされた前記複数のデータ・サンプルのうちのミスガイドされたデータ・サンプルの各々について、敵対的摂動の複数の値の中から、敵対的摂動の最小値を識別することであって、
前記敵対的摂動の前記複数の値は、前記複数のデータ・サンプルの各々に対して前記敵対的攻撃を実行するために使用され、
前記敵対的摂動の前記最小値は、事前定義されたメトリックの値に基づいて特定され、
前記事前定義されたメトリックの前記値は、前記敵対的攻撃の強度を表す、
識別することと、
前記事前定義されたメトリックの値の昇順に、前記敵対的攻撃によってミスガイドされた前記データ・サンプルをソートすることと
によって前記敵対的攻撃を実行することと、
前記1つ又は複数のハードウェア・プロセッサを介して、前記複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成することであって、事前定義されたメトリックの前記値が事前定義されたしきい値を下回るデータ・サンプルが、前記候補誤ラベル付きデータ・サンプルとして識別される、推奨を生成することと
を行わせる、1つ又は複数の非一時的機械可読情報記憶媒体。 - 前記事前定義されたメトリックが、データ・タイプに依存し、時系列データについての動的時間伸縮距離と、画像データ及びビデオ・データについての知覚損失と、表データについてのユークリッド距離とのうちの少なくとも1つである、請求項7に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
- 前記事前定義されたメトリックが、元のデータ・サンプルと、対応する敵対的データ・サンプルとを使用して計算される、請求項8に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN202121010117 | 2021-03-10 | ||
IN202121010117 | 2021-03-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022140382A JP2022140382A (ja) | 2022-09-26 |
JP7376631B2 true JP7376631B2 (ja) | 2023-11-08 |
Family
ID=80683735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022036325A Active JP7376631B2 (ja) | 2021-03-10 | 2022-03-09 | 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220335335A1 (ja) |
EP (1) | EP4057193A1 (ja) |
JP (1) | JP7376631B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540791B (zh) * | 2024-01-03 | 2024-04-05 | 支付宝(杭州)信息技术有限公司 | 一种对抗训练的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018155522A (ja) | 2017-03-16 | 2018-10-04 | 株式会社島津製作所 | データ解析装置 |
JP2020160743A (ja) | 2019-03-26 | 2020-10-01 | 日本電信電話株式会社 | 評価装置、評価方法、および、評価プログラム |
WO2020230699A1 (ja) | 2019-05-10 | 2020-11-19 | 日本電気株式会社 | 耐性設定装置、耐性設定方法、耐性設定プログラムを記憶する記憶媒体、耐性評価装置、耐性評価方法、耐性評価プログラムを記憶する記憶媒体、演算装置、およびプログラムを記憶する記憶媒体 |
-
2022
- 2022-03-08 US US17/689,181 patent/US20220335335A1/en active Pending
- 2022-03-08 EP EP22160642.9A patent/EP4057193A1/en active Pending
- 2022-03-09 JP JP2022036325A patent/JP7376631B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018155522A (ja) | 2017-03-16 | 2018-10-04 | 株式会社島津製作所 | データ解析装置 |
JP2020160743A (ja) | 2019-03-26 | 2020-10-01 | 日本電信電話株式会社 | 評価装置、評価方法、および、評価プログラム |
WO2020230699A1 (ja) | 2019-05-10 | 2020-11-19 | 日本電気株式会社 | 耐性設定装置、耐性設定方法、耐性設定プログラムを記憶する記憶媒体、耐性評価装置、耐性評価方法、耐性評価プログラムを記憶する記憶媒体、演算装置、およびプログラムを記憶する記憶媒体 |
Non-Patent Citations (1)
Title |
---|
MALOSSINI, A. et al.,Detecting potential labeling errors in microarrays by data perturbation,Bioinformatics,2006年,Volume 22, Issue 17,pp. 2114-2121,[online], [retrieved on 2023-04-26], Retrieved from <https://doi.org/10.1093/bioinformatics/btl346> |
Also Published As
Publication number | Publication date |
---|---|
US20220335335A1 (en) | 2022-10-20 |
EP4057193A1 (en) | 2022-09-14 |
JP2022140382A (ja) | 2022-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501210B1 (en) | Adjusting confidence thresholds based on review and ML outputs | |
CN112860841B (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
AU2018279013B2 (en) | Method and system for extraction of relevant sections from plurality of documents | |
KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
US11720481B2 (en) | Method, apparatus and computer program product for predictive configuration management of a software testing system | |
JP7376631B2 (ja) | 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム | |
US20240071375A1 (en) | System and a method for detectiing point anomaly | |
JPWO2019077656A1 (ja) | 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム | |
US9588965B2 (en) | Identifying and characterizing an analogy in a document | |
CN112395880A (zh) | 结构化三元组的纠错方法、装置、计算机设备及存储介质 | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
CN115982272A (zh) | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 | |
CN113255368B (zh) | 针对文本数据进行情感分析的方法、装置及相关设备 | |
US11765193B2 (en) | Contextual embeddings for improving static analyzer output | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN111339776B (zh) | 简历解析方法、装置、电子设备和计算机可读存储介质 | |
CN111506776B (zh) | 数据标注方法以及相关装置 | |
US20200073891A1 (en) | Systems and methods for classifying data in high volume data streams | |
CN111460766A (zh) | 一种矛盾语块边界识别的方法及装置 | |
CN114049528B (zh) | 一种品牌名称识别的方法及设备 | |
CN112784015B (zh) | 信息识别方法和装置、设备、介质和程序 | |
US11928558B1 (en) | Providing content reviews based on AI/ML output | |
CN111461330B (zh) | 一种基于多语言简历的多语言知识库构建方法及系统 | |
US20230108067A1 (en) | System and method for extracting issues based on trouble ticket mining | |
CN113127635A (zh) | 数据处理方法、装置及系统,存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220315 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230628 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7376631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |