JP7376631B2 - 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム - Google Patents

敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム Download PDF

Info

Publication number
JP7376631B2
JP7376631B2 JP2022036325A JP2022036325A JP7376631B2 JP 7376631 B2 JP7376631 B2 JP 7376631B2 JP 2022036325 A JP2022036325 A JP 2022036325A JP 2022036325 A JP2022036325 A JP 2022036325A JP 7376631 B2 JP7376631 B2 JP 7376631B2
Authority
JP
Japan
Prior art keywords
data
data samples
adversarial
samples
attack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022036325A
Other languages
English (en)
Other versions
JP2022140382A (ja
Inventor
バサク アーギヤ
ラソーア プラディープ
ハーシャ ニスタラ スリ
ランカナ ヴェンカタラマナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2022140382A publication Critical patent/JP2022140382A/ja
Application granted granted Critical
Publication of JP7376631B2 publication Critical patent/JP7376631B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/54Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by adding security routines or objects to programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Description

本出願は、2021年3月10日に出願されたインド出願第202121010117号の優先権を主張する。
本明細書における開示は、一般に、データ処理に関し、より詳細には、敵対的攻撃(adversarial attack)を使用して誤ラベル付き(mislabeled)データ・サンプルを識別するための方法及びシステムに関する。
データ・ラベル付けは、意味のある有益なラベルを生データに関連付けるプロセスである。これは、特に、限定はしないが、機械学習などの適用例/分野において有用である。MLでは、システムは、システムが様々なアクティビティを認識し、実行することを学習するように、トレーニング・データを使用してトレーニングされる必要がある。データのラベル付けは、システムが、何が何であるかを学習し、識別し、次々に学習することを可能にする。MLモデルが予測を生成することができる精度は、トレーニング・データ中のラベルの精度に大きく依存する。しかしながら、トレーニング・データは、誤ラベル付きデータをも含んでいることがある。そのような誤ラベル付きデータがあると、システムはモノを不正確に学習し、ひいては不正確な予測を行う。これは、いくつかの適用例において、たとえばヘルスケア産業において致命的であり得る。
誤ラベル識別のために使用される既存のシステム/方法は、誤ラベルデータ識別が行われる際の信頼性が低いという欠点を有する。たとえば、アノテーション検証は、誤ラベル識別のために旧来使用されている手法である。しかしながら、この手法の欠点は、この手法が検証を実行するために手作業を必要とし、また、熟練したアノテータが大量のデータ、時には何百万個ものサンプルを見直さなければならないので、極めてコストと時間がかかるプロセスであり得ることである。
本開示の実施例は、従来のシステムにおける発明者らによって認識される上述の技術的問題のうちの1つ又は複数に対する解決策として、技術的改善を提示する。たとえば、一実施例では、誤ラベル付きデータ・サンプルを識別する、プロセッサによる実施方法が提供される。この方法では、最初に、誤ラベル付きデータ・サンプルと正ラベル付き(correctly labelled)データ・サンプルとを含んでいるトレーニング・データが収集される。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニング・データを使用してデータ駆動型モデルがトレーニングされる。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニングされたデータ駆動型モデルを使用して、トレーニング・データ中の複数のデータ・サンプルに対応するロジット(logit)・スコア又は確率スコアが計算される。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニング・データ中の複数のデータ・サンプルの各々に対して敵対的攻撃が実行される。敵対的攻撃を実行することは以下のステップを伴った。最初に、複数のデータ・サンプルの中から、敵対的攻撃によってミスガイド(misguide)されたすべてのデータ・サンプルが識別される。さらに、複数のデータ・サンプルの各々について、敵対的攻撃の強度を表す事前定義されたメトリックに関して、複数のデータ・サンプルの各々に対して敵対的攻撃を実行するために使用される敵対的摂動(adversarial perturbation)の複数の値の中から、敵対的摂動の最小値が識別される。敵対的攻撃によってミスガイドされたデータ・サンプルは、次いで、事前定義されたメトリックの値の昇順にソートされる。敵対的攻撃を実行した後に、システムは、1つ又は複数のハードウェア・プロセッサを介して、複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成し、事前定義されたメトリックの値が事前定義されたしきい値を下回るデータ・サンプルは候補誤ラベル付きデータ・サンプルとして識別される。
別の態様では、誤ラベル付きデータ・サンプルを識別するシステム。本システムは、1つ又は複数のハードウェア・プロセッサと、通信インターフェースと、複数の命令を記憶するメモリとを含む。複数の命令は、実行されたときに、最初に、誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを含んでいるトレーニング・データを収集することを1つ又は複数のハードウェア・プロセッサに行わせる。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニング・データを使用してデータ駆動型モデルがトレーニングされる。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニングされたデータ駆動型モデルを使用して、トレーニング・データ中の複数のデータ・サンプルに対応するロジット・スコア又は確率スコアが計算される。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニング・データ中の複数のデータ・サンプルの各々に対して敵対的攻撃が実行される。敵対的攻撃を実行することは以下のステップを伴った。最初に、複数のデータ・サンプルの中から、敵対的攻撃によってミスガイドされたすべてのデータ・サンプルが識別される。さらに、複数のデータ・サンプルの各々について、敵対的攻撃の強度を表す事前定義されたメトリックに関して、複数のデータ・サンプルの各々に対して敵対的攻撃を実行するために使用される敵対的摂動の複数の値の中から、敵対的摂動の最小値が識別される。敵対的攻撃によってミスガイドされたデータ・サンプルは、次いで、事前定義されたメトリックの値の昇順にソートされる。敵対的攻撃を実行した後に、システムは、1つ又は複数のハードウェア・プロセッサを介して、複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成し、事前定義されたメトリックの値が事前定義されたしきい値を下回るデータ・サンプルは候補誤ラベル付きデータ・サンプルとして識別される。
また別の態様では、誤ラベル付きデータ・サンプルを識別するための非一時的コンピュータ可読媒体が提供される。非一時的コンピュータ可読媒体は複数の命令を含んでおり、複数の命令は、実行されたときに、以下のステップを使用して誤ラベル付きサンプルの識別を1つ又は複数のハードウェア・プロセッサに実行させる。最初に、誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを含んでいるトレーニング・データが収集される。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニング・データを使用してデータ駆動型モデルがトレーニングされる。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニングされたデータ駆動型モデルを使用して、トレーニング・データ中の複数のデータ・サンプルに対応するロジット・スコア又は確率スコアが計算される。さらに、1つ又は複数のハードウェア・プロセッサを介して、トレーニング・データ中の複数のデータ・サンプルの各々に対して敵対的攻撃が実行される。敵対的攻撃を実行することは以下のステップを伴った。最初に、複数のデータ・サンプルの中から、敵対的攻撃によってミスガイドされたすべてのデータ・サンプルが識別される。さらに、複数のデータ・サンプルの各々について、敵対的攻撃の強度を表す事前定義されたメトリックに関して、複数のデータ・サンプルの各々に対して敵対的攻撃を実行するために使用される敵対的摂動の複数の値の中から、敵対的摂動の最小値が識別される。敵対的攻撃によってミスガイドされたデータ・サンプルは、次いで、事前定義されたメトリックの値の昇順にソートされる。敵対的攻撃を実行した後に、システムは、1つ又は複数のハードウェア・プロセッサを介して、複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成し、事前定義されたメトリックの値が事前定義されたしきい値を下回るデータ・サンプルは候補誤ラベル付きデータ・サンプルとして識別される。
上記の一般的な説明と以下の詳細な説明の両方は、例示的で説明的なものにすぎず、特許請求されるような本発明を限定するものではないことを理解されたい。
本開示に組み込まれ、本開示の一部を構成する添付の図面は、例示的な実施例を示し、説明とともに、開示する原理を説明するのに役立つ。
本開示のいくつかの実施例による、誤ラベル識別のための例示的なシステムを示す図である。 本開示のいくつかの実施例による、図1のシステムによる、誤ラベル識別の方法に含まれるステップを示す流れ図である。 本開示のいくつかの実施例による、図1のシステムによる、誤ラベル識別のためのトレーニング・データに対して敵対的攻撃を実行するプロセスに含まれるステップを示す流れ図である。 本開示のいくつかの実施例による、図1のシステムによる、誤ラベル識別の方法におけるステップを示す例示的な図である。 本開示のいくつかの実施例による、敵対的摂動の異なる値に対してミスガイドされないデータ・サンプルを示す例示的な図である。 本開示のいくつかの実施例による、敵対的摂動の異なる値に対してミスガイドされないデータ・サンプルを示す例示的な図である。 本開示のいくつかの実施例による、敵対的摂動が適用された間にミスガイドされたデータ・サンプルを示す例示的な図である。 本開示のいくつかの実施例による、敵対的摂動が適用された間にミスガイドされたデータ・サンプルを示す例示的な図である。
添付の図面を参照しながら、例示的な実施例について説明する。図では、参照番号の左端の数字は、参照番号が最初に現れる図を識別する。好都合な場合はいつでも、図面全体にわたって同じ又は同様の部分を指すために同じ参照番号を使用する。本明細書では、開示する原理の実例及び特徴について説明するが、開示する実施例の範囲から逸脱することなく、改変、適応、及び他の実装が可能である。以下の詳細な説明は例示的なものにすぎないとみなされ、真の範囲は以下の特許請求の範囲によって示されるものとする。
次に、図面、より詳細には、同様の参照符号が図全体にわたって対応する特徴を一貫して示す図1~図6Bを参照すると、好ましい実施例が示されており、以下の例示的なシステム及び/又は方法のコンテキストにおいて、これらの実施例について説明する。
図1は、本開示のいくつかの実施例による、誤ラベル識別のための例示的なシステムを示す。敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するステップは誤ラベル識別と呼ばれる。システム100は、1つ又は複数のハードウェア・プロセッサ102と、通信インターフェース又は入出力(I/O:input/output)インターフェース103と、1つ又は複数のハードウェア・プロセッサ102に動作可能に結合された1つ又は複数のデータ記憶デバイス又はメモリ101とを含む。1つ又は複数のハードウェア・プロセッサ102は、1つ又は複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理ユニット、状態機械、グラフィックス・コントローラ、論理回路、及び/又は動作命令に基づいて信号を操作する任意のデバイスとして実装され得る。数ある機能の中でも、プロセッサは、メモリに記憶されたコンピュータ可読命令をフェッチし、実行するように構成される。一実施例では、システム100は、ラップトップ・コンピュータ、ノートブック、ハンドヘルド・デバイス、ワークステーション、メインフレーム・コンピュータ、サーバ、ネットワーク・クラウドなど、様々な計算システムにおいて実装され得る。
通信インターフェース103は、様々なソフトウェア及びハードウェア・インターフェース、たとえば、ウェブ・インターフェース、グラフィカル・ユーザ・インターフェースなどを含むことができ、ワイヤード・ネットワーク、たとえば、LAN、ケーブルなどと、WLAN、セルラー、又は衛星など、ワイヤレス・ネットワークとを含む、多種多様なネットワークN/W及びプロトコル・タイプ内での複数の通信を容易にすることができる。一実施例では、通信インターフェース103は、いくつかのデバイスを互いに又は別のサーバに接続するための1つ又は複数のポートを含むことができる。
メモリ101は、たとえば、スタティック・ランダムアクセス・メモリ(SRAM:static random-access memory)及びダイナミック・ランダム・アクセス・メモリ(DRAM:dynamic random access memory)など、揮発性メモリ、並びに/又は読取り専用メモリ(ROM:read only memory)、消去可能プログラマブルROM、フラッシュ・メモリ、ハードディスク、光ディスク、及び磁気テープなど、不揮発性メモリを含む、当技術分野で知られている任意のコンピュータ可読媒体を含み得る。一実施例では、システム100の1つ又は複数の構成要素(図示せず)はメモリ101に記憶され得る。メモリ101は、実行されたときに、システム100によって実行されている誤ラベル識別のプロセスに関連する様々なアクションをハードウェア・プロセッサ102のうちの1つ又は複数に実行させる、複数の動作命令(又は「命令」)を記憶するように構成される。誤ラベル付きサンプルは、a)間違った/不正確なラベルでタグ付けされたデータ・サンプル、又はb)複数のクラスとの類似性を有する歪んだ/紛らわしいデータ・サンプルを指し得る。たとえば、図6Aについて考える。図6Aでは、データ・サンプルの真のクラス(代替的に「真値」と呼ぶ)は4であるが、4が書き込まれる方法は混乱を引き起こし、ラベル付けを実行しているシステム又は人に、データ・サンプルが(真のクラスである4の代わりに)クラス5に対応すると考えるよう促し得る。この混乱は、このようにして誤ラベル付け/不正確なラベル付けを引き起こし、したがって予測されるクラス(代替的に予測値と呼ぶ)は5であり、これは真のクラスとは異なる。データ・サンプルが歪んでいない/紛らわしくないことがあるにもかかわらず、誤ラベル付け又は不正確なラベル付けはヒューマン・エラー又はシステム・エラーによることもある。システム100は要件に応じて様々な形で実装され得る。図1のシステム100によって実行されている誤ラベル識別のプロセスに含まれる様々なステップが図2及び図3に示されており、それらについて図1に示されているハードウェア構成要素を参照しながら説明する。
図2A及び図2B(まとめて図2と呼ぶ)は、本開示のいくつかの実施例による、図1のシステムによる、誤ラベル識別の方法に含まれるステップを示す流れ図である。一実施例では、システム100は、プロセッサ104に動作可能に結合された1つ又は複数のデータ記憶デバイス又はメモリ102を備え、プロセッサ又は1つ又は複数のハードウェア・プロセッサ104による方法200のステップの実行のための命令を記憶するように構成される。次に、図1に示されているシステム100の構成要素又はブロックと、図2及び図3に示されている流れ図のステップとを参照しながら、本開示の方法200のステップについて説明する。プロセス・ステップ、方法ステップ、技法などは順次説明され得るが、そのようなプロセス、方法、及び技法は、代替順序で動作するように構成され得る。言い換えれば、説明され得るステップの任意のシーケンス又は順序は、必ずしもステップがその順序で実行されるべきであるという要件を示すとは限らない。本明細書で説明するプロセスのステップは実際的な任意の順序で実行され得る。さらに、いくつかのステップは同時に実行され得る。
ステップ202において、システム100はトレーニング・データを収集する。トレーニング・データは、誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを含んでおり、ラベル付けは、人間によって又はシステムによって行われていることがある。データ・サンプルは、限定はしないが、工場などのデータ・ソースからのリアルタイム・データであり得、及び/又は、限定はしないが、ソフトセンサー及び室内実験などの好適な手段を使用して人工的に生成され得る。一実施例では、収集されたトレーニング・データは、さらなる処理のために必要に応じてデータをフォーマットするために、好適なデータ処理機構を使用して前処理され得る。たとえば、工場(又はそのようなソース)からのリアルタイム・データはノイズデータを含んでいることがあり、工場の異なる構成要素からのデータは異なるフォーマットであることがある。前処理中に、ノイズデータは除去され得、異なる構成要素からのデータは標準フォーマットに変換/転換され得、標準フォーマットはシステム100によってさらに処理され得る。
さらに、ステップ204において、システム100は、ステップ202において収集された(及び前処理された)トレーニング・データを使用してデータ駆動型モデルをトレーニングする。システム100は、トレーニング・データを使用してデータ駆動型モデルをトレーニングするために、任意の既知で好適な機械学習技法を使用し得る。さらに、ステップ206において、システム100は、ステップ204においてトレーニングされたデータ駆動型モデルを使用して、トレーニング・データ中の複数のデータ・サンプルの各々に対応するロジット・スコア又は確率スコアを計算する。
さらに、ステップ208において、システム100は複数のデータ・サンプルに対して敵対的攻撃を実行する。このコンテキストにおける「敵対的攻撃」という用語は、機械学習の分野における標準の敵対的攻撃を指し、これは、特定の形で入力を設計することによって機械学習又はデータ駆動型モデルから間違った結果を取得するために使用される手法である。また、このコンテキストにおいて、「敵対的攻撃を実行すること」は、図3の流れ図300に示されているステップを含み、それらについて以下で説明する。
システム100は、敵対的摂動の異なる値を使用してデータ・サンプルの各々に対して敵対的攻撃を実行する。敵対的攻撃を実行した後に、ステップ302において、システム100は、トレーニング・データ中の複数のデータ・サンプルの中から、敵対的攻撃によってミスガイドされたすべてのデータ・サンプルを識別する。様々な実施例では、複数のデータ・サンプルの中から、データ・サンプルのうちのいくつかは敵対的攻撃によってミスガイドされることがあり、いくつかの他のデータ・サンプルは敵対的攻撃によってミスガイドされないことがある。敵対的攻撃によってミスガイドされないデータ・サンプルの実例が図5Aに示されている。図5Aに示されているように、予測されるクラス(すなわち4)は真のクラス4と同じである。これは、さらに図5Bに示されている。図5Bの場合のように、予測値と真値とは、適用される摂動の異なる値について同じである。同様に、敵対的攻撃によってミスガイドされたデータ・サンプルの実例が図6Aに示されている。図6Aに示されているように、予測されるクラスは5であるが、真値は4である。これは、さらに図6Bに示されている。図6Bの場合のように、摂動のより小さい値について、予測値と真値とは同じままである。しかしながら、摂動の値が特定のポイント(すなわち、0.06を少し上回る値)を超えたので、データ・サンプルはミスガイドされ、予測されるクラスは(4の代わりに)5になった。さらに、ステップ304において、システム100は、敵対的攻撃によってミスガイドされたとして識別されたデータ・サンプルの各々について、敵対的攻撃の強度を表す事前定義されたメトリック中のデータに基づいて、敵対的攻撃を実行するために使用される敵対的摂動の複数の異なる値の中から、敵対的攻撃を実行するために使用される敵対的摂動の最小値を識別する。様々な実施例では、敵対的摂動の最小値は、1つ又は複数の事前定義されたメトリックの値に関して識別される。メトリックを形成することができるパラメータのいくつかの実例は、限定はしないが、時系列データについての動的時間伸縮距離(Dynamic Time Warping Distance)、画像データ及びビデオ・データについての知覚損失、並びに表データについてのユークリッド距離(Euclidean distance)である。事前定義されたメトリックは、敵対的攻撃によってミスガイドされたとして識別されたデータ・サンプルの各々について、元のデータ・サンプルと、対応する敵対的データ・サンプルとを使用して計算される。さらに、ステップ306において、システム100は、考えられた事前定義されたメトリックの値の昇順に、敵対的攻撃によってミスガイドされたとして識別されているデータ・サンプルをソートする。代替実施例では、データ・サンプルは、事前定義されたメトリックの値の降順にソートされ得る。
さらに、ステップ210において、システム100は、ソートされたデータ・サンプルから候補誤ラベル付きデータ・サンプルの推奨を生成する。一実施例では、システム100は、データ・サンプルが敵対的摂動の小さい/低い値によってミスガイドされた場合、そのデータ・サンプルは誤ラベル付きデータ・サンプルのうちの1つになるべき潜在的候補であると考えるように構成される。このコンテキストにおいて、敵対的摂動の「小さい/低い値」は、複数のデータ・サンプルに対して敵対的攻撃を実行するために使用される敵対的摂動の値を比較することによって定義/決定される。別の実施例では、複数のデータ・サンプルに対して敵対的攻撃を実行するために使用される敵対的摂動の値は、摂動のしきい値と比較され、摂動のしきい値を下回る敵対的摂動のすべての値は敵対的摂動の「小さい/低い値」であると考えられる。
様々な実施例では、方法200における1つ又は複数のステップは、図2に示されているのと同じ順序で、又は技術的に実現可能である任意の代替順序で実行され得る。別の実施例では、方法200における1つ又は複数のステップが省略され得る。
誤ラベル付きデータ・サンプルを識別するためのシステム100によって使用され得る代替手法では、システム100は、誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを含んでいるトレーニング・データを使用してデータ駆動型モデルをトレーニングする。次いで、トレーニングされたデータ駆動型モデルを使用して、トレーニング・データに対するロジット/確率スコアを得る。システム100は、次いで、データ・サンプルの各々について、タグ付けされたラベルと予測されたラベルとが同じであるのか異なるのかを検査する。タグ付けされたラベルと予測されたラベルとが同じである場合、システム100は、それらのタグ付けされたラベルに対応する確率スコアの昇順にデータ・サンプルをソートする。ソートされたデータ・サンプルから、「上位nパーセンテージ」のデータ・サンプルが候補誤ラベル付きデータ・サンプルとして選択される。タグ付けされたラベルと予測されたラベルとが同じでない場合、システム100は、それらの予測されたラベルに対応する確率スコアの降順にデータ・サンプルをソートする。さらに、ソートされたデータ・サンプルから、「上位mパーセンテージ」のデータ・サンプルが候補誤ラベル付きデータ・サンプルとして選択される。
誤ラベル付きデータ・サンプルを識別するための第2の代替手法では、システム100はトレーニング・データ中に偽データ・サンプルを導入する。たとえば、Xを、xがXからi番目のデータ・サンプルを表すように、修正されていないトレーニング・データ・サンプルのセットとする。Fを、f∈FがFからj番目のサンプルになるように、意図的に誤ラベル付けされた偽サンプルのセットとし、Kは可能なクラスの数を表す。偽サンプルは、修正されていないトレーニング・データに追加される。説明の目的で、偽サンプルを含んでいるトレーニング・データを「修正されたトレーニング・データ」と呼ぶ。システム100は、次いで、修正されたトレーニング・データを使用してデータ駆動型モデルをトレーニングする。システム100は、次いで、偽サンプルのタグ付けされたラベルと予測されたラベルとに対応する確率スコア/ロジットの絶対差のしきい値を選定する。システム100は、次いで、トレーニングされたデータ駆動型モデルを使用して、修正されていないトレーニング・データに関するロジット/確率スコアを決定する。たとえば、システム100は、ロジット・スコア及び確率スコアを次のように計算する。
logit(f,k)=
クラスkについてのj番目の偽サンプルfについてのロジット値、ここで、k∈{1,2,…K}
prob(x,k)
=クラスkに対応する修正されていないサンプルxについての確率スコア
さらに、ロジット値又は確率スコアのいずれかはさらなる計算のために使用される。しかしながら、プロセス又は論理は同じであるので、ロジット値と確率スコアの両方を共通に表すためにパラメータLPが使用される。いかなる場合においても、LPはロジット値又は確率スコアのいずれかを表し得る。
さらに、システム100は、サンプルxiの各々について、ロジット/確率スコアの最大値を計算し、サンプルに対応するロジット/確率スコアの計算された最大値と、ロジット/確率スコアの残りの値との間の絶対差を決定する。システム100はしきい値(τ)の値を以下のように決定する。
τ=|LP(f,真のラベル)-LP(f,タグ付けされたラベル)|の事前定義されたパーセンタイル値
X中のサンプルxの各々について、複数の値の中から、最大ロジット/確率スコア値に対応するラベルが以下のように、決定される。
さらに、m以外の各ラベルkについてのサンプルxについて、システム100は、kとmとに対応するロジット/確率スコア間の絶対差を以下のように計算する。
しきい値τよりも小さい1つ又は複数のδを有するデータ・サンプルは候補誤ラベル付きデータ・サンプルとして選択される。候補誤ラベル付きサンプルは、候補誤ラベル付きサンプルの各々に対応する最小δ値の昇順にソートされる。この選択されたソートされたサンプルの上位数パーセントが手作業による見直しのために推奨される。
以下で与えられる値を参照しながら、これについてさらに説明する。

ここで、タグ付けされたラベルは8である(ボックス中にハイライトされている)。

真のラベルは6である(ボックス中にハイライトされている)。

予測されたラベルは5である(ボックス中にハイライトされている)。
(すなわち0.25)を除くあらゆる位置において、最大値(すなわち0.25)と比較した差が計算される。しきい値(τ)の決定された値が0.15であると考える。しきい値よりも小さい値はラベル6及びラベル8にある(最小δ値)。システム100は、その場合、ミスガイドされたサンプルの各々に対応するδの最小値(たとえば、示されているサンプルの場合、0.05)の昇順に、ミスガイドされたサンプルを配置し得る。
記載した説明は、いかなる当業者も実施例を作成し、使用することを可能にするために本明細書中の主題について説明している。主題実施例の範囲は、特許請求の範囲によって定義され、当業者が想起する他の改変を含み得る。そのような他の改変は、そのような他の改変が特許請求の範囲の文字通りの文言と異ならない同様の要素を有する場合、又はそのような他の改変が特許請求の範囲の文字通りの文言とのわずかな差をもつ均等な要素を含む場合、特許請求の範囲の範囲内に入るものとする。
本明細書における本開示の実施例は誤ラベル識別の未解決の問題に対処する。実施例は、したがって、敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための機構を提供する。
保護の範囲は、そのようなプログラムに、及び、加えて、その中にメッセージを有するコンピュータ可読手段に拡張されることを理解されたい。そのようなコンピュータ可読記憶手段は、プログラムがサーバ若しくはモバイル・デバイス又は任意の好適なプログラマブル・デバイス上で動作するとき、方法の1つ又は複数のステップの実装のためのプログラムコード手段を含んでいる。ハードウェア・デバイスは、たとえば、サーバ若しくはパーソナル・コンピュータなどのような任意の種類のコンピュータ、又はそれらの任意の組合せを含む、プログラムされ得る任意の種類のデバイスであり得る。デバイスは、たとえば、たとえば特定用途向け集積回路(ASIC:application-specific integrated circuit)、フィールドプログラマブル・ゲート・アレイ(FPGA:field-programmable gate array)のようなハードウェア手段、又はハードウェア手段とソフトウェア手段との組合せ、たとえばASIC及びFPGA、又は少なくとも1つのマイクロプロセッサ、並びにソフトウェア処理構成要素がその中に配置されている少なくとも1つのメモリであり得る手段をも含み得る。したがって、手段はハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書で説明した方法実施例はハードウェア及びソフトウェアにおいて実装され得る。デバイスはソフトウェア手段をも含み得る。代替的に、実施例は、たとえば複数のCPUを使用して、異なるハードウェア・デバイス上で実装され得る。
本明細書における実施例はハードウェア要素とソフトウェア要素とを備えることができる。ソフトウェアにおいて実装される実施例は、限定はしないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本明細書で説明した様々な構成要素によって実行される機能は他の構成要素又は他の構成要素の組合せにおいて実装され得る。この説明の目的で、コンピュータ使用可能媒体又はコンピュータ可読媒体は、命令実行システム、装置、若しくはデバイスによって使用するための、又は命令実行システム、装置、若しくはデバイスとともに使用するためのプログラムを含むか、記憶するか、通信するか、伝搬するか、又は移送することができる任意の装置であり得る。
示されているステップは、示されている例示的な実施例を説明するために提示され、進行中の技術開発により、特定の機能が実行される様式が変化することが予想されるはずである。これらの実例は限定ではなく例示の目的で本明細書で提示されている。さらに、機能ビルディング・ブロックの境界は説明の便宜のために本明細書で任意に定義されている。指定された機能及びそれらの関係が適切に実行される限り、代替境界が定義され得る。(本明細書で説明した実施例の均等物、拡張、変形、逸脱などを含む)代替は、本明細書に含まれている教示に基づいて当業者に明らかになろう。そのような代替は開示された実施例の範囲内に入る。また、「備える」、「有する」、「含んでいる」及び「含む」という単語、並びに他の同様の形態は、意味が等価であり、これらの単語のうちのいずれか1つに続く1つ又は複数の項目が、そのような1つ又は複数の項目の網羅的なリスティングであるものではないか、或いは1つ又は複数のリストされた項目のみに限定されるものではない点で、オープン・エンドであるものとする。また、本明細書で及び添付の特許請求の範囲において使用する際、単数形の「a」、「an」、及び「the」は、コンテキストが別段に明らかに規定しない限り、複数形の参照を含むことが留意されなければならない。
さらに、本開示による実施例を実装する際に1つ又は複数のコンピュータ可読記憶媒体が利用され得る。コンピュータ可読記憶媒体は、プロセッサによって読取り可能な情報又はデータがそれの上に記憶され得る任意のタイプの物理メモリを指す。したがって、コンピュータ可読記憶媒体は、1つ又は複数のプロセッサに本明細書で説明した実施例によるステップ又は段階を実行させるための命令を含む、プロセッサによる実行のための命令を記憶し得る。「コンピュータ可読媒体」という用語は、有形の項目を含み、搬送波及び過渡信号を除外する、すなわち非一時的であると理解されるべきである。例としては、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハード・ドライブ、CD ROM、DVD、フラッシュ・ドライブ、ディスク、及び任意の他の知られている物理記憶媒体がある。
本開示及び実例は例示的なものにすぎないと考えられ、開示される実施例の真の範囲は以下の特許請求の範囲によって示されるものとする。

Claims (9)

  1. 誤ラベル付きデータ・サンプルを識別するための、プロセッサによって実施される方法(200)であって、
    1つ又は複数のハードウェア・プロセッサ(102)を介してトレーニング・データを収集すること(202)であって、前記トレーニング・データが、前記誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを備える、トレーニング・データを収集すること(202)と、
    前記1つ又は複数のハードウェア・プロセッサ(102)を介して、前記トレーニング・データを使用してデータ駆動型モデルをトレーニングすること(204)と、
    トレーニングされたデータ駆動型モデルを使用して、前記1つ又は複数のハードウェア・プロセッサ(102)を介して、前記トレーニング・データ中の複数のデータ・サンプルに対応するロジット・スコア又は確率スコアを計算すること(206)と、
    前記1つ又は複数のハードウェア・プロセッサ(102)を介して、敵対的摂動のさまざまな値を使用して前記トレーニング・データ中の前記複数のデータ・サンプルの各々のデータ・サンプルに対して敵対的攻撃を実行すること(208)であって、
    前記複数のデータ・サンプルの中から、前記敵対的攻撃によってミスガイドされたデータ・サンプルを識別すること(302)であって、前記ミスガイドされたデータ・サンプルは、敵対的摂動の前記さまざまな値について、実際のクラスが予測されたクラスとは異なるデータ・サンプルに対応する、識別すること(302)と、
    前記敵対的攻撃によってミスガイドされた前記複数のデータ・サンプルのうちのミスガイドされたデータ・サンプルの各々について、敵対的摂動の複数の値の中から、敵対的摂動の最小値を識別すること(304)であって、
    前記敵対的摂動の前記複数の値は、前記複数のデータ・サンプルの各々に対して前記敵対的攻撃を実行するために使用され、
    前記敵対的摂動の前記最小値は、事前定義されたメトリックの値に基づいて特定され、
    前記事前定義されたメトリックの前記値は、前記敵対的攻撃の強度を表す、
    識別すること(304)と、
    前記事前定義されたメトリックの値の昇順に、前記敵対的攻撃によってミスガイドされた前記データ・サンプルをソートすること(306)と
    によって前記敵対的攻撃を実行すること(208)と、
    前記1つ又は複数のハードウェア・プロセッサを介して、前記複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成すること(210)であって、事前定義されたメトリックの前記値が事前定義されたしきい値を下回るデータ・サンプルが、前記候補誤ラベル付きデータ・サンプルとして識別される、推奨を生成すること(210)と
    を含む、方法(200)。
  2. 前記事前定義されたメトリックが、データ・タイプに依存し、時系列データについての動的時間伸縮距離と、画像データ及びビデオ・データについての知覚損失と、表データについてのユークリッド距離とのうちの少なくとも1つである、請求項1に記載の方法(200)
  3. 前記事前定義されたメトリックが、元のデータ・サンプルと、対応する敵対的データ・サンプルとを使用して計算される、請求項に記載の方法(200)
  4. 誤ラベル付きデータ・サンプルを識別するためのシステム(100)であって、
    1つ又は複数のハードウェア・プロセッサ(102)と、
    通信インターフェース(103)と、
    複数の命令を記憶するメモリ(101)と
    を備え、前記複数の命令は、実行されたときに、前記1つ又は複数のハードウェア・プロセッサ(102)に、
    トレーニング・データを収集することであって、前記トレーニング・データが、前記誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを備える、トレーニング・データを収集することと、
    前記トレーニング・データを使用してデータ駆動型モデルをトレーニングすることと、
    トレーニングされたデータ駆動型モデルを使用して、前記トレーニング・データ中の複数のデータ・サンプルに対応するロジット・スコア又は確率スコアを計算することと、
    敵対的摂動のさまざまな値を使用して、前記トレーニング・データ中の前記複数のデータ・サンプルの各々のデータ・サンプルに対して敵対的攻撃を実行することであって
    前記複数のデータ・サンプルの中から、敵対的攻撃によってミスガイドされたすべてのデータ・サンプルを識別することであって、前記ミスガイドされたデータ・サンプルは、敵対的摂動の前記さまざまな値について、実際のクラスが予測されたクラスとは異なるデータ・サンプルに対応する、識別することと、
    前記敵対的攻撃によってミスガイドされた前記複数のデータ・サンプルのうちのミスガイドされたデータ・サンプルの各々について、敵対的摂動の複数の値の中から、敵対的摂動の最小値を識別することであって、
    前記敵対的摂動の前記複数の値は、前記複数のデータ・サンプルの各々に対して前記敵対的攻撃を実行するために使用され、
    前記敵対的摂動の前記最小値は、事前定義されたメトリックの値に基づいて特定され、
    前記事前定義されたメトリックの前記値は、前記敵対的攻撃の強度を表す、
    識別することと、
    前記事前定義されたメトリックの値の昇順に、前記敵対的攻撃によってミスガイドされた前記データ・サンプルをソートすることと
    によって前記敵対的攻撃を実行することと、
    前記複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成することであって、事前定義されたメトリックの前記値が事前定義されたしきい値を下回るデータ・サンプルが、前記候補誤ラベル付きデータ・サンプルとして識別される、推奨を生成することと
    を行わせる、誤ラベル付きデータ・サンプルを識別するためのシステム(100)
  5. 前記事前定義されたメトリックが、データ・タイプに依存し、時系列データについての動的時間伸縮距離と、画像データ及びビデオ・データについての知覚損失と、表データについてのユークリッド距離とのうちの少なくとも1つである、請求項に記載のシステム(100)
  6. 前記システム(100)が、元のデータ・サンプルと、対応する敵対的データ・サンプルとを使用して前記事前定義されたメトリックを計算する、請求項に記載のシステム(100)
  7. 1つ又は複数の命令を含む1つ又は複数の非一時的機械可読情報記憶媒体であって、前記1つ又は複数の命令は、1つ又は複数のハードウェア・プロセッサによって実行されたときに、
    トレーニング・データを収集することであって、前記トレーニング・データが、誤ラベル付きデータ・サンプルと正ラベル付きデータ・サンプルとを備える、トレーニング・データを収集することと、
    前記1つ又は複数のハードウェア・プロセッサを介して、前記トレーニング・データを使用してデータ駆動型モデルをトレーニングすることと、
    トレーニングされたデータ駆動型モデルを使用して、前記1つ又は複数のハードウェア・プロセッサを介して、前記トレーニング・データ中の複数のデータ・サンプルに対応するロジット・スコア又は確率スコアを計算することと、
    前記1つ又は複数のハードウェア・プロセッサを介して、前記トレーニング・データ中の前記複数のデータ・サンプルの各々に対して敵対的攻撃を実行することであって、
    前記複数のデータ・サンプルの中から、前記敵対的攻撃によってミスガイドされたすべてのデータ・サンプルを識別することであって、前記ミスガイドされたデータ・サンプルは、敵対的摂動の前記さまざまな値について、実際のクラスが予測されたクラスとは異なるデータ・サンプルに対応する、識別することと、
    前記敵対的攻撃によってミスガイドされた前記複数のデータ・サンプルのうちのミスガイドされたデータ・サンプルの各々について、敵対的摂動の複数の値の中から、敵対的摂動の最小値を識別することであって、
    前記敵対的摂動の前記複数の値は、前記複数のデータ・サンプルの各々に対して前記敵対的攻撃を実行するために使用され、
    前記敵対的摂動の前記最小値は、事前定義されたメトリックの値に基づいて特定され、
    前記事前定義されたメトリックの前記値は、前記敵対的攻撃の強度を表す、
    識別することと、
    前記事前定義されたメトリックの値の昇順に、前記敵対的攻撃によってミスガイドされた前記データ・サンプルをソートすることと
    によって前記敵対的攻撃を実行することと、
    前記1つ又は複数のハードウェア・プロセッサを介して、前記複数のデータ・サンプルの中から候補誤ラベル付きデータ・サンプルの推奨を生成することであって、事前定義されたメトリックの前記値が事前定義されたしきい値を下回るデータ・サンプルが、前記候補誤ラベル付きデータ・サンプルとして識別される、推奨を生成することと
    を行わせる、1つ又は複数の非一時的機械可読情報記憶媒体。
  8. 前記事前定義されたメトリックが、データ・タイプに依存し、時系列データについての動的時間伸縮距離と、画像データ及びビデオ・データについての知覚損失と、表データについてのユークリッド距離とのうちの少なくとも1つである、請求項に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
  9. 前記事前定義されたメトリックが、元のデータ・サンプルと、対応する敵対的データ・サンプルとを使用して計算される、請求項に記載の1つ又は複数の非一時的機械可読情報記憶媒体。
JP2022036325A 2021-03-10 2022-03-09 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム Active JP7376631B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN202121010117 2021-03-10
IN202121010117 2021-03-10

Publications (2)

Publication Number Publication Date
JP2022140382A JP2022140382A (ja) 2022-09-26
JP7376631B2 true JP7376631B2 (ja) 2023-11-08

Family

ID=80683735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022036325A Active JP7376631B2 (ja) 2021-03-10 2022-03-09 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム

Country Status (3)

Country Link
US (1) US20220335335A1 (ja)
EP (1) EP4057193A1 (ja)
JP (1) JP7376631B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540791B (zh) * 2024-01-03 2024-04-05 支付宝(杭州)信息技术有限公司 一种对抗训练的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018155522A (ja) 2017-03-16 2018-10-04 株式会社島津製作所 データ解析装置
JP2020160743A (ja) 2019-03-26 2020-10-01 日本電信電話株式会社 評価装置、評価方法、および、評価プログラム
WO2020230699A1 (ja) 2019-05-10 2020-11-19 日本電気株式会社 耐性設定装置、耐性設定方法、耐性設定プログラムを記憶する記憶媒体、耐性評価装置、耐性評価方法、耐性評価プログラムを記憶する記憶媒体、演算装置、およびプログラムを記憶する記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018155522A (ja) 2017-03-16 2018-10-04 株式会社島津製作所 データ解析装置
JP2020160743A (ja) 2019-03-26 2020-10-01 日本電信電話株式会社 評価装置、評価方法、および、評価プログラム
WO2020230699A1 (ja) 2019-05-10 2020-11-19 日本電気株式会社 耐性設定装置、耐性設定方法、耐性設定プログラムを記憶する記憶媒体、耐性評価装置、耐性評価方法、耐性評価プログラムを記憶する記憶媒体、演算装置、およびプログラムを記憶する記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MALOSSINI, A. et al.,Detecting potential labeling errors in microarrays by data perturbation,Bioinformatics,2006年,Volume 22, Issue 17,pp. 2114-2121,[online], [retrieved on 2023-04-26], Retrieved from <https://doi.org/10.1093/bioinformatics/btl346>

Also Published As

Publication number Publication date
US20220335335A1 (en) 2022-10-20
EP4057193A1 (en) 2022-09-14
JP2022140382A (ja) 2022-09-26

Similar Documents

Publication Publication Date Title
US11501210B1 (en) Adjusting confidence thresholds based on review and ML outputs
CN112860841B (zh) 一种文本情感分析方法、装置、设备及存储介质
AU2018279013B2 (en) Method and system for extraction of relevant sections from plurality of documents
KR101561464B1 (ko) 수집 데이터 감성분석 방법 및 장치
US11720481B2 (en) Method, apparatus and computer program product for predictive configuration management of a software testing system
JP7376631B2 (ja) 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム
US20240071375A1 (en) System and a method for detectiing point anomaly
JPWO2019077656A1 (ja) 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム
US9588965B2 (en) Identifying and characterizing an analogy in a document
CN112395880A (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
CN115982272A (zh) 一种城市大数据管理的数据标注方法、装置及计算机存储介质
CN113255368B (zh) 针对文本数据进行情感分析的方法、装置及相关设备
US11765193B2 (en) Contextual embeddings for improving static analyzer output
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN111339776B (zh) 简历解析方法、装置、电子设备和计算机可读存储介质
CN111506776B (zh) 数据标注方法以及相关装置
US20200073891A1 (en) Systems and methods for classifying data in high volume data streams
CN111460766A (zh) 一种矛盾语块边界识别的方法及装置
CN114049528B (zh) 一种品牌名称识别的方法及设备
CN112784015B (zh) 信息识别方法和装置、设备、介质和程序
US11928558B1 (en) Providing content reviews based on AI/ML output
CN111461330B (zh) 一种基于多语言简历的多语言知识库构建方法及系统
US20230108067A1 (en) System and method for extracting issues based on trouble ticket mining
CN113127635A (zh) 数据处理方法、装置及系统,存储介质和电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231026

R150 Certificate of patent or registration of utility model

Ref document number: 7376631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150