JP7005045B2

JP7005045B2 - ナイーブベイズ分類器に対する限界攻撃方法

Info

Publication number: JP7005045B2
Application number: JP2020150717A
Authority: JP
Inventors: ▲ヂァオ▼銓顧; 斌朱; 禹舜謝; 志宏田; 丹▲ニー▼ 伍; 晶仇; 偉紅韓; ▲濱▼興方
Original assignee: ▲広▼州大学
Priority date: 2020-04-24
Filing date: 2020-09-08
Publication date: 2022-01-21
Anticipated expiration: 2040-09-08
Also published as: CN111522953B; CN111522953A; JP2021174503A

Description

本発明は、自然言語処理および機械学習技術分野に関し、特にナイーブベイズ分類器に対する限界攻撃方法、装置、および記憶媒体に関する。

自然言語処理（NLP）はコンピュータ科学研究の重要な分野であり、テキスト分類はNLP分野の重要なサブ分野であり、指定されたテキストのカテゴリをコンピュータに知能的に認識できるようにことを目的とする。テキスト分類における最も典型的な手法としてナイーブベイズアルゴリズムは、ベイズアルゴリズムの簡略化アルゴリズムであり、すなわち、目標の各属性特性が互いに独立であるものと仮定するものである。簡略化されたナイーブベイズアルゴリズムは、時間および空間複雑さが低い場合でも、高い分類精度を持つため、広く用いられている。

機械学習の急速発展に伴い、敵対的サンプルの概念が提案されている。すなわち、原始サンプルに微小な摂動を加えることで、敵対的サンプルを生成し、この敵対的サンプルにより分類器の誤認識が発生させるが、人眼で原始サンプルと敵対的サンプルとを区別することは困難である。

最初に提案された敵対的サンプルは、ニューラルネットワークを攻撃するためのものであり、論文“Explaining and Harnessing Adversarial Examples”（Goodfellow I, Shlens J, Szegedy C, et al. Explaining and Harnessing Adversarial Examples[J]. 2014.）では、Goodfellowらは、ImageNetなどのニューラルネットワークを攻撃するための敵対的サンプルを生成するための高速勾配 Sign メソッド(FGSM)の方法を提案している。この論文では、ディープニューラルネットワークは次のような線形モデルに近似される。

この手法は、敵対的サンプルを効率良く生成し、分類器の分類精度を大幅に低下させることができるが、敵対的サンプルの作用主体は画像であり、かつ、画像が一連の連続した画素値と見なされることができる。しかしながら、テキストに対して、特に中国語のテキストに対してはテキストが離散化された値に抽象化されるため、画像分類に対する敵対的サンプルの生成手法をテキスト分類に完全に適用できない。

論文“Crafting Adversarial Input Sequences for Recurrent Neural Networks”（Papernot N , Mcdaniel P , Swami A , et al. Crafting Adversarial Input Sequences for Recurrent Neural Networks[J]. 2016.）では、Papernotらが前方導関数手法(JSMA)を用いて再帰型ニューラルネットワーク(RNN)を計算図により展開し、ニューラルネットワークの最後の層、出力層が入力層に対するバイアスを算出し、異なる次元の入力と異なる次元の出力とのマッピング関係をより正確に見つけ、英文テキストの敵対的テキストを狙いがはっきりしてに作成し、9単語を平均に修正した場合には、100%の攻撃成功率を達成することができ、RNNに基づくシーケンスからシーケンスまで(Seq2Seq)のモデルを効率的に攻撃した。

しかしながら、シーケンスモデルの出力は無から有へ、シーケンスを順に生成するが、分類モデルは分類確率を与えるだけであるため、この手法は分類シーンにうまく適用できず、この攻撃手法はナイーブベイズ分類器にも適用できない。

中国特許出願公開第110209542号明細書

本発明は、S1.メモリ導入テスト項目を選択するステップと、S2.メモリ導入テスト項目のテスト結果に対応するの歩留まり率に基づいて訓練データを生成するステップと、S3.訓練データを用いてナイーブベイズ分類器に対して分類訓練を行うステップと、S4.訓練されたナイーブベイズ分類器を用いて、被導入メモリに対して歩留まり率予測を行うステップと、S5.予測された歩留まり率に基づいて被導入メモリに対して導入をするかどうかを判断するステップとを含むナイーブベイズ分類器に基づくメモリテスト方法を開示する。本発明は、テスト項目選択根拠、パラメータ化処理方法及びナイーブベイズとテスト項目との結合された方式によって、現有のメモリ導入テスト項目とナイーブベイズ分類器の人工知能化アルゴリズムとを結合させ、被導入メモリの歩留まり率予測を実現し、さらに被導入メモリの良否を判断し、部品エンジニアに制御可能な計算支持を提供する。

上記の技術的問題を解決するために、本発明は、ナイーブベイズに基づくテキスト分類器を効率的に攻撃できるナイーブベイズ分類器に対する限界攻撃方法、装置、および記憶媒体を提供することである。

本発明の用いる技術方案は、以下のとおりである。
本発明の第1の側面は、テキスト分類器によって分類されたテキストカテゴリを取得し、2つのテキストカテゴリ間の頻度比を計算するステップと、
前記頻度比をインデックスとして語彙表を順位付けして敏感語彙セットが得られるステップと、
複数の敏感語彙をランダムに選択して原始サンプルに追加し、敵対的サンプルが得られるステップと、
前記敵対的サンプルをテキスト分類器に入力して、誤分類されたテキストカテゴリが得られるステップとを含むナイーブベイズ分類器に対する限界攻撃方法を提供する。

本発明の第1の側面の第1可能なインプリメンテーションにおいては、前記テキスト分類器によって分類されたテキストカテゴリを取得し、2つのテキストカテゴリ間の頻度比を計算する。具体的には、
テキスト分類器から得られた2つのテキストカテゴリの同次元における頻度比は、次式によって計算される：

本発明の第1の側面の第2可能なインプリメンテーションにおいては、前記複数の敏感語彙をランダムに選択して原始サンプルに追加し、敵対的サンプルが得られる。具体的には、
任意のテキストに対して語彙分類、無効語彙を削除する処理を行った後に、サンプルX=[x1,x2,…,xm]が得られ、mはサンプルXの語彙数を表し、
複数の敏感語彙をランダムに選択してサンプルXの末尾に追加し、敵対的サンプルX’=[x1,x2,…,xm,wr,ws,…]が得られる。

本発明の第1の側面の第3可能なインプリメンテーションにおいては、前記ナイーブベイズ分類器に対する限界攻撃方法は、分類結果の検証をさらに含む。具体的には、
前記敵対的サンプルをテキスト分類器に入力された後、前記敵対的サンプルの各テキストカテゴリに対応する分類確率が得られ、
最大分類確率に対応するテキストカテゴリを誤分類カテゴリとして選択され、誤分類カテゴリと原始テキストの最大分類確率に対応するテキストカテゴリを比較し、対比結果が不一致である場合、テキスト分類器上に誤分類が発生させる。

本発明の第2の側面は、テキスト分類器によって分類されたテキストカテゴリを取得し、2つのテキストカテゴリ間の頻度比を計算する用計算モジュールと、
前記頻度比をインデックスとして語彙表を順位付けして敏感語彙セットが得られる用順序付けモジュールと、
複数の敏感語彙をランダムに選択して原始サンプルに追加し、敵対的サンプルが得られる用生成モジュールと、
前記敵対的サンプルをテキスト分類器に入力して、誤分類されたテキストカテゴリが得られる用出力モジュールとを含むナイーブベイズ分類器に対する限界攻撃装置を提供する。

本発明の第2の側面の第1可能なインプリメンテーションにおいては、前記計算モジュールは、さらに、
テキスト分類器から得られた2つのテキストカテゴリの同次元における頻度比は、次式によって計算される：

本発明の第2の側面の第2可能なインプリメンテーションにおいては、前記生成モジュールは、さらに、
任意のテキストに対して語彙分類、無効語彙を削除する処理を行った後に、サンプルX=[x1,x2,…,xm]が得られ、mはサンプルXの語彙数を表し、
複数の敏感語彙をランダムに選択してサンプルXの末尾に追加し、敵対的サンプルX’=[x1,x2,…,xm,wr,ws,…]が得られることに用いられる。

本発明の第2の側面の第3可能なインプリメンテーションにおいては、前記ナイーブベイズ分類器に対する限界攻撃装置では、検証モジュールをさらに含む。前記検証モジュールは、
前記敵対的サンプルをテキスト分類器に入力して、前記敵対的サンプルが各テキストカテゴリに対応する分類確率が得られ、最大分類確率に対応するテキストカテゴリを誤分類カテゴリとして選択され、誤分類カテゴリと原始テキストの最大分類確率に対応するテキストカテゴリを比較し、対比結果が不一致である場合、テキスト分類器上に誤分類が発生させるのに用いられる。

本発明の第3の側面は、プロセッサーと、メモリと、前記メモリに記憶され、前記プロセッサーによって実行されるように構成されたコンピュータプログラムとを備え、前記プロセッサーが前記コンピュータプログラムを実行する際に、上述したナイーブベイズ分類器に対する限界攻撃方法を実現するナイーブベイズ分類器に対する限界攻撃装置を提供する。

本発明の第4の側面は、前記ナイーブベイズ分類器に対する限界攻撃方法の記憶媒体が1つまたは複数のコンピュータプログラムを格納するためのものであり、前記1つまたは複数のコンピュータプログラムは、プログラムコードを備え、前記コンピュータプログラムがコンピュータにて実行されるときに、前記プログラムコードを上述したナイーブベイズ分類器に対する限界攻撃方法を実行するためのナイーブベイズ分類器に対する限界攻撃方法の記憶媒体を提供する。

本発明は、従来技術に比べて、以下の有益な効果を有する。
本発明は、ナイーブベイズ分類器に対する限界攻撃方法、装置、および記憶媒体を提供し、前記ナイーブベイズ分類器に対する限界攻撃方法は、テキスト分類器によって分類されたテキストカテゴリを取得し、2つのテキストカテゴリ間の頻度比を計算する。前記頻度比をインデックスとして語彙表を順位付けして敏感語彙セットが得られ、複数の敏感語彙をランダムに選択して原始サンプルに追加し、敵対的サンプルが得られ、原始サンプルに対して処理はきわめて微小であるため、サンプルが修正されたことを気づけることは困難であり、テキストの読解に大きく影響を与えないとともに、この手法の時間複雑さが低いため、敵対的サンプル生成の効率がさらに向上している。この手法は、ナイーブベイズ分類器の広く使われるおよび仮定目標の各属性が互いに独立している性質に対して、ナイーブベイズ手法に基づく分類器を攻撃するための敵対的サンプルを迅速に構築することができる。この敵対的サンプルをテキスト分類器に入力することで、ナイーブベイズ分類器がテキストを誤分類にし、誤分類されたテキストカテゴリを得ることができる。この手法の攻撃手段は簡単で、実現容易で、テキストに敏感語をごく少ない加えても、テキストを最小限に修正することでテキスト分類器の分類精度を大きく低下させることができる。

本発明の実施の形態におけるナイーブベイズ分類器に対する限界攻撃方法のフローチャートである。本発明の実施の形態におけるナイーブベイズ分類器に対する限界攻撃装置のブロック図である。本発明の実施の形態におけるナイーブベイズ分類器に対する限界攻撃方法でのテキスト分類器を攻撃する具体的なステップを示すフローチャートである。

以下、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。当業者であれば、特許請求の範囲に記載された範疇において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

図1を参照し、本発明のナイーブベイズ分類器に対する限界攻撃方法の一具体例の実施形態では、
S101、テキスト分類器によって分類されたテキストカテゴリを取得し、2つのテキストカテゴリ間の頻度比を計算するステップと、
S102、前記頻度比をインデックスとして語彙表を順位付けして敏感語彙セットが得られるステップと、
S103、複数の敏感語彙をランダムに選択して原始サンプルに追加し、敵対的サンプルが得られるステップと、
S104、前記敵対的サンプルをテキスト分類器に入力して、誤分類されたテキストカテゴリが得られるステップとを含む。

具体的には、
テキスト分類器から得られた2つのテキストカテゴリの同次元における頻度比は、次式によって計算される：

語彙が各カテゴリに出現する頻度は、その語彙と現在のカテゴリとの関連度と見なされることができるため、頻度比は、2つのカテゴリ間の関連度の差が最大となる一連の語彙が見つかったことに相当することが理解できる。
前記頻度比をインデックスとして語彙表を順位付けしてW=[w1,w2,…,wq]敏感語彙セットが得られ、qは敏感語彙セットの数である。
任意のテキストに対して語彙分類、無効語彙を削除する処理を行った後に、サンプルX=[x1,x2,…,xm]が得られ、mはサンプルXの語彙数を表し、
複数の敏感語彙をランダムに選択してサンプルXの末尾に追加し、敵対的サンプルX’=[x1,x2,…,xm,wr,ws,…]が得られる。

前記ナイーブベイズ分類器に対する限界攻撃方法は、分類結果の検証をさらに含む。
以下で説明するように、
前記敵対的サンプルをテキスト分類器に入力された後、前記敵対的サンプルの各テキストカテゴリに対応する分類確率が得られ、
最大分類確率に対応するテキストカテゴリを誤分類カテゴリとして選択され、誤分類カテゴリと原始テキストの最大分類確率に対応するテキストカテゴリを比較し、対比結果が不一致である場合、テキスト分類器上に誤分類が発生させる。
具体的には、X’は分類器Fを経た後、F(X’)=[b1,b2,…,bn]が得られ、ここで、biは敵対的サンプルX’がiカテゴリに分類される確率を表す。bj’=max{bi}、i∈[1,n]を取ると、j’は敵対的サンプルX’が分類器Fを経て得られたカテゴリであり、j’≠jであれば、敵対的サンプルX’が分類器Fに誤分類されることを表す。
なお、原始のテキストまたは修正されたテキストをテキスト分類器に入力し、ナイーブベイズアルゴリズムによりテキスト分類を行う際に、以下のステップに分類することができる。

データの前処理。具体的には、テキストの語彙分類、無効語彙の削除などの処理を行い、有効な特徴を後続抽出するのに有利である。

前処理後のテキストに対して特徴抽出を行う。具体的には、前処理後のテキストに対して語彙表Vocab[w1,w2,…,wh]を抽出し、語彙表Vocabによりすべての語彙が異なるカテゴリに出現する頻度ｆ_ｈｉを統計し、hは語彙の次元を表し、iは現在の頻度に対応するカテゴリを表し、ナイーブベイズ分類モデルFを後続生成するために用いられる。

ナイーブベイズアルゴリズムによりテキスト分類を行う。

ここで、XjはXがj番目の属性上の値である。

生成されたナイーブベイズモデルに対しては、その性能、実行時間、実行空間、モデル正確さなどの指標を評価するテストセットが必要である。

本発明は、プロセッサーと、メモリと、前記メモリに記憶され、前記プロセッサーによって実行されるように構成されたコンピュータプログラムとを備え、前記プロセッサーが前記コンピュータプログラムを実行する際に、上述したナイーブベイズ分類器に対する限界攻撃方法を実現するナイーブベイズ分類器に対する限界攻撃装置を提供する。

図2を参照し、本発明のナイーブベイズ分類器に対する限界攻撃装置の一具体例の実施形態では、
テキスト分類器によって分類されたテキストカテゴリを取得し、2つのテキストカテゴリ間の頻度比を計算する用計算モジュール201と、
前記頻度比をインデックスとして語彙表を順位付けして敏感語彙セットが得られる用順序付けモジュール202と、
複数の敏感語彙をランダムに選択して原始サンプルに追加し、敵対的サンプルが得られる用生成モジュール203と、
前記敵対的サンプルをテキスト分類器に入力して、誤分類されたテキストカテゴリが得られる用出力モジュール204とを含む。

前記計算モジュールは、さらに、
テキスト分類器から得られた2つのテキストカテゴリの同次元における頻度比は、次式によって計算される：

語彙が各カテゴリに出現する頻度は、その語彙と現在のカテゴリとの関連度と見なされることができるため、頻度比は、2つのカテゴリ間の関連度の差が最大となる一連の語彙が見つかったことに相当することが理解できる。

前記生成モジュールは、さらに、
任意のテキストに対して語彙分類、無効語彙を削除する処理を行った後に、サンプルX=[x1,x2,…,xm]が得られ、mはサンプルXの語彙数を表し、
複数の敏感語彙をランダムに選択してサンプルXの末尾に追加し、敵対的サンプルX’=[x1,x2,…,xm,wr,ws,…]が得られることに用いられる。

前記ナイーブベイズ分類器に対する限界攻撃装置は、検証モジュールをさらに含む。

前記検証モジュールは、
前記敵対的サンプルをテキスト分類器に入力された後、前記敵対的サンプルの各テキストカテゴリに対応する分類確率が得られ、最大分類確率に対応するテキストカテゴリを誤分類カテゴリとして選択され、誤分類カテゴリと原始テキストの最大分類確率に対応するテキストカテゴリを比較し、対比結果が不一致である場合、テキスト分類器上に誤分類が発生させる。
具体的には、X’は分類器Fを経た後、F(X’)=[b1,b2,…,bn]が得られ、ここで、biは敵対的サンプルX’がiカテゴリに分類される確率を表す。bj’=max{bi}、i∈[1,n]を取ると、j’は敵対的サンプルX’が分類器Fを経て得られたカテゴリであり、j’≠jであれば、敵対的サンプルX’が分類器Fに誤分類されることを表す。
なお、原始のテキストまたは修正されたテキストをテキスト分類器に入力し、ナイーブベイズアルゴリズムによりテキスト分類を行う際に、以下のステップに分類することができる。

ナイーブベイズアルゴリズムによりテキスト分類を行う。

ここで、XjはXがj番目の属性上の値である。

本発明のナイーブベイズ分類器に対する限界攻撃方法の記憶媒体の一具体例の実施形態は、前記ナイーブベイズ分類器に対する限界攻撃方法の記憶媒体が1つまたは複数のコンピュータプログラムを格納するためのものであり、前記1つまたは複数のコンピュータプログラムは、プログラムコードを備え、前記コンピュータプログラムがコンピュータにて実行されるときに、前記プログラムコードを上述したナイーブベイズ分類器に対する限界攻撃方法を実行する。

本願の実施形態のコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよく、上記2つ媒体の任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例は、少なくとも(非網羅的リスト)以下のものを含んだ。1つ以上の配線を有する電気接続部(電子デバイス)、携帯型コンピュータディスクボックス(磁気デバイス)、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、削除可能編集可能読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバデバイス、および携帯型読み取り専用メモリ(CDROM)。また、コンピュータ可読記憶媒体は、例えば、紙または他の媒体を光学的スキャンし、次いで編集、解釈、または必要に応じて他の適切な方法で処理することによって、電子的方式でプログラムを取得し、その後、コンピュータメモリに記憶することができるので、プログラムを印刷することができる紙または他の適切な媒体であってもよい。

本出願の各部分は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせで実現されてもよいことを理解されたい。上記実施形態では、複数のステップまたは方法は、メモリに格納され、適切な命令実行システムによって実行されるソフトウェアまたはファームウェアで実現されてもよい。例えば、ハードウェアで実現される場合には、別の実施形態と同様に、データ信号に対して論理機能を実装するための論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する特定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などの当技術分野でよく知られている技術のうちのいずれか1つまたはそれらの組み合わせで実現することができる。

上記実施形態の全部または一部ステップを実現することは、関連するハードウェアをプログラムによって命令することで完成し、かつ、そのプログラムはあるコンピュータ可読記憶媒体に記憶することができ、そのプログラムを実行させるときに、実施形態の一部ステップまたはそれらのステップの組み合わせを含むことが当業者には理解されよう。

さらに、本出願の実施形態における各機能ユニットは、1つの処理モジュールに集積されてもよいし、各ユニットを個別に物理的に存在してもよいし、2つ以上のユニットを1つのモジュールに集積されてもよい。上記集積されたモジュールは、ハードウェアの形式で実現されてもよいし、ソフトウェア機能モジュールの形式で実現されてもよい。

図3を参照し、本発明の一具体例の実施形態では、
具体的には、清華新聞文書データセット(THUCNews)から金融類のテキスト「国内初債券指数基金承認された」をランダムに抽出し、6つのフレーズを含み、X=[x1,x2,x3,x4,x5,x6]と表すことができる。Xはナイーブベイズテキスト分類器Fを経てXが各カテゴリに分類される確率を出力した。
F(X)=[a1=0.8,a2=0.02,a3=0.05,a4=0.06,a5=0.02,a6=0.01,a7=0.01,a8=0.01,a9=0.01, a10=0.01]
F(X) 計10カテゴリ。aj=max{ai}=0.8,j=1を取る場合、このテキストXは1種類（金融類）に分類された。
本発明のナイーブベイズ分類器に対する限界攻撃方法により、テキストXの末尾に少量の敏感語、例えば「平方」「別荘」などの不動産類敏感語を追加する場合、敵対的サンプル「国内、初、債券指数基金承認された、平方」を生成し、X’=[x1,x2,x3,x4,x5,x6,x7]と表し、
X’はナイーブベイズテキスト分類器Fを経て
F(X’)=[a1=0.32,a2=0.5,a3=0.05,a4=0.01,a5=0.02,a6=0.04,a7=0.03,a8=0.01,を出力した。
a9=0.01,a10=0.01]、aj=max{ai}=0.5,j=2を取る場合、テキストX’は2種類（不動産類）に誤分類された。
ここで、不動産類敏感語は以下のような方法で得られた。
2つの異なるカテゴリ金融類および不動産類の間、語彙表中のh_k同次元における頻度比を算出すると、

k∈[1,h]、ｈは語彙表の次元であった。
頻度比F₁₂をインデックスとして語彙表を順位付けした。頻度比の順位付けにより、topQを取ることで敏感語セットW=[“平方”、“別荘”、“内装済”、…]が得られた。敏感語を原始サンプルXの末尾に加えると、敵対的サンプルX’が得られた。

本発明の実施例は、テキスト分類器によって分類されたテキストカテゴリを取得し、2つのテキストカテゴリ間の頻度比を計算する。前記頻度比をインデックスとして語彙表を順位付けして敏感語彙セットが得られ、複数の敏感語彙をランダムに選択して原始サンプルに追加し、敵対的サンプルが得られ、原始サンプルに対して処理はきわめて微小であるため、サンプルが修正されたことを気づけることは困難であり、テキストの読解に大きく影響を与えないとともに、この手法の時間複雑さが低いため、敵対的サンプル生成の効率がさらに向上している。この手法は、ナイーブベイズ分類器の広く使われるおよび仮定目標の各属性が互いに独立している性質に対して、ナイーブベイズ手法に基づく分類器を攻撃するための敵対的サンプルを迅速に構築する。この敵対的サンプルをテキスト分類器に入力することで、ナイーブベイズ分類器がテキストを誤分類にし、誤分類されたテキストカテゴリを得ることができる。この手法の攻撃手段は簡単で、実現容易で、テキストに敏感語をごく少ない加えて、テキストを最小限に修正することによりテキスト分類器の分類精度を大きく低下させることができる。

上記実施例は、本発明の好ましい実施例であるが、本発明の実施例は、上記実施例により制限されず、本発明の趣旨及び原理を逸脱することなく行われる他の変更、修正、置換は、すべて均等な置換方式であり、いずれも本発明の特許範囲に含まれる。

Claims

新聞に掲載される語彙を産業分野テキストカテゴリ毎に集めた言葉の集合である語彙表を有し、特定文書から読みだした語彙により、前記特定文書がどの産業分野テキストカテゴリに分類されるかを決定するナイーブベイズ分類器に対する限界攻撃方法であって、
テキスト分類器によって分類された前記産業分野テキストカテゴリを取得し、第１の前記産業分野テキストカテゴリと、第２の前記産業分野テキストカテゴリにおいて、前記第１の産業分野テキストカテゴリである言葉が現れる第１頻度と、前記第２の産業分野テキストカテゴリである言葉が現れる第２頻度と、前記第１頻度と前記第２頻度との比である頻度比を計算する第１ステップと、
ここで、前記頻度比は、前記ある言葉の、前記第１の産業分野テキストカテゴリと、前記第２の産業分野テキストカテゴリでの関連度を表していること、
前記頻度比をインデックスとして、前記第１の産業分野テキストカテゴリと、前記第２の産業分野テキストカテゴリでの関連度の低い１つの敏感語彙セットが得られる第２ステップと、
前記第２ステップで得られた複数の前記敏感語彙をランダムに選択して、前記第２の産業分野テキストカテゴリから得られた前記敏感語彙を、前記第１の産業分野テキストカテゴリに追加し、敵対的サンプルが得られる第３ステップと、
前記敵対的サンプルを前記テキスト分類器に入力して、誤分類された前記産業分野テキストカテゴリが得られる第４ステップとを含むことを特徴とするナイーブベイズ分類器に対する限界攻撃方法。