JP2022552119A

JP2022552119A - オーディオ信号における発話の敵対保護の提供

Info

Publication number: JP2022552119A
Application number: JP2022519488A
Authority: JP
Inventors: ベッサー、ビート; ニコラエ、マリア－イリナ; ラワット、アンブリッシュ; シン、マテュー; ミントラン、ゴック; ウィツバ、マーティン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-10-14
Filing date: 2020-10-02
Publication date: 2022-12-15
Also published as: GB2604277A; GB202206097D0; WO2021074736A1; US10896664B1; CN114600187A

Abstract

プロセッサによりオーディオ信号における発話の敵対保護を提供するための実施形態を提供する。敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐ、１つまたは複数のオーディオ・デバイス上のセキュリティ防御が提供され得る。

Description

本発明は、一般に、コンピューティング・システムに関し、より詳細には、オーディオ信号における発話（speech）の敵対保護（adversarial protection）を提供するための様々な実施形態に関する。

今日の社会において、消費者、ビジネス関係者、教育関係者、およびその他の人々は、多種多様な媒体を介してリアルタイムで、大きな距離をまたいで何度も境界も限界もなくコミュニケーションをとる。コンピュータおよびネットワーキング技術の到来は、日々の活動を強化し、情報の共有を簡単にしながら、生活の質を向上させることを可能にしてきた。コンピューティング・システムは、既存のインターネット・インフラストラクチャを使用して地球全体にわたって散らばるコンピューティング・デバイスの相互接続である、モノのインターネット（ＩｏＴ）を含むことができる。すなわち、ＩｏＴは、コンピュータおよびコンピュータ・ネットワークだけではない日常のオブジェクトが、ＩｏＴ通信ネットワーク（例えば、アドホック・システムまたはインターネット）を介して可読であり、認識可能であり、位置特定可能であり、アドレス指定可能であり、制御可能であるという考え方に基づく。言い換えれば、ＩｏＴは、インターネット様の構造における一意に識別可能なデバイス、およびそれらのデバイスの仮想表現を指すことが可能である。技術における大躍進が実を結ぶにつれ、これらのシステムにおける進展が効率および向上にとって有利になるようにする必要性も大きくなっている。

プロセッサによるオーディオ信号における発話の敵対保護を提供するための様々な実施形態が提供される。一実施形態において、単に例として、やはりプロセッサによる、オーディオ信号における発話の敵対保護を提供するための方法が提供される。敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐ、１つまたは複数のオーディオ・デバイス上のセキュリティ防御が提供され得る。

本発明の利点が容易に理解されるように、前段で簡単に説明される本発明のより詳細な説明が、添付の図面において例示される具体的な実施形態を参照して行われる。これらの図面は、本発明の典型的な実施形態を示すに過ぎず、したがって、本発明の範囲の限定と考えられるべきものではないものと理解して、本発明が、添付の図面の使用を介してさらに具体的に、さらに詳細に説明され、解説される。

本発明の実施形態による例示的なクラウド・コンピューティング・ノードを示すブロック図である。本発明の実施形態による例示的なクラウド・コンピューティング環境を示すさらなるブロック図である。本発明の実施形態による抽象化モデル層を示すさらなるブロック図である。本発明の態様により機能する様々なユーザ・ハードウェアおよびクラウド・コンピューティング・コンポーネントを示すさらなるブロック図である。やはり本発明の態様が実現され得る、プロセッサによるオーディオ信号における発話の敵対保護を提供するためのさらなる例示的な動作を示す図である。やはり本発明の態様が実現され得る、プロセッサによるオーディオ信号における発話の敵対保護を提供するためのさらなる例示的な動作を示す図である。やはり本発明の態様が実現され得る、プロセッサによるオーディオ信号における発話の敵対保護を提供するための例示的な方法を示すフローチャート図である。やはり本発明の態様が実現され得る、プロセッサによるオーディオ信号における発話の敵対保護を提供するための例示的な方法を示すさらなるフローチャート図である。

コンピューティング・システムは、リソースが、コンピュータ・ネットワークなどの通信システムを介して対話してよく、またはアクセスされてよく、あるいはその両方が行われてよい、「クラウド・コンピューティング」と呼ばれる大規模なコンピューティングを含んでよい。リソースは、サーバなどの１つまたは複数のコンピューティング・デバイス上で実行されるコンピューティング・デバイス、ストレージ・デバイス、アプリケーション、または他のコンピュータ関連デバイスもしくはコンピュータ関連サービス、またはその両方、あるいは以上の組合せのソフトウェアによって行われるシミュレーションまたはソフトウェアによって行われるエミュレーション、あるいはその両方であってよい。例えば、複数のサーバが、要求されるタスクを実現するのに必要とされる処理パワーの量、ストレージ・スペースの量、または他のコンピューティング・リソースの量、あるいはその組合せの量に依存して、サーバにわたって拡大してよく、または縮小してよく、あるいはその両方を行ってよい情報を通信してよく、または共有してよく、あるいはその両方を行ってよい。「クラウド」という語は、そのような構成において対話するコンピューティング・デバイス、コンピュータ・ネットワーク、または他のコンピュータ関連のデバイス、あるいはその組合せの間の相互接続の図のクラウド形状の見かけを暗示する。

さらに、モノのインターネット（ＩｏＴ）は、オブジェクト、特に器具に埋め込まれ得る、ネットワークを介して接続され得るコンピューティング・デバイスの新登場した概念である。ＩｏＴネットワークは、コンピューティング・デバイスが埋め込まれた器具などの物理的オブジェクトである１つまたは複数のＩｏＴデバイスまたは「スマート・デバイス」を含んでよい。これらのオブジェクトの多くは、独立に動作可能であるデバイスであるが、また、これらのデバイスは、制御システムとペアにされてもよく、または代替として、クラウド・コンピューティング環境上で実行されるものなどの分散型制御システムとペアにされてもよい。

したがって、様々な状況においてのコンピューティング・システム、特にクラウド・コンピューティング環境におけるＩｏＴデバイス、モバイル通信デバイス（例えば、スマートフォン、タブレット、スマートウォッチ、またはコンピュータ自体、その他）の使用の豊富な増加が、ユーザに様々な有益な用途をもたらす。

例えば、多くのユーザは、例えば、遠隔通信またはコンピュータ・ネットワークを介して他のユーザと口頭でコミュニケーションをとるためのマイクロホンを有するモバイル・デバイス上などの、様々なコンピューティング・システム上で１つまたは複数のアプリケーションを使用する。一部のコンピューティング・システムは、人工知能（「ＡＩ」）を使用してよく、大量のオーディオ信号の自動化された解析を可能にする。特に、音声－テキスト・モデル（speech-to-text model）が、発話された言語を、クラスタリング、テキスト・マイニング、キーワードによるフィルタリング、その他のようなさらなる処理において使用され得るテキスト・フォーマットに転記することを可能にする。悪意ある敵対者が、発話を含むオーディオ信号の伝送を傍受すること、またはデータベースに記憶されたそれらの信号にアクセスすることが、意図されるコミュニケーションのユーザまたは受話者に向けられた悪い結果（例えば、知的財産の窃盗、または産業スパイ行為さえも）をもたらす可能性がある、傍受データ、およびデータ・プライバシの侵害をもたらすことがある。

したがって、本明細書において説明される様々な実施形態は、オーディオ信号における発話の敵対保護を提供することによって可聴データを温存し、保護する新規のソリューションを提供する。一態様において、敵対ノイズ、敵対パッチ、またはその組合せを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐ、１つまたは複数のオーディオ・デバイス上のセキュリティ防御が提供され得る。一態様において、目標領域または「境界」領域（例えば、画面／ディスプレイの部分全体、あるいは１つまたは複数の選択された領域）が、デジタル・オーディオ信号またはアナログ・オーディオ信号に敵対ノイズをもたらすためにデジタル・オーディオ信号またはアナログ・オーディオ信号をキャプチャするために選択され得る。敵対ノイズは、決定されてよく、計算されてよく、または選択されてよく、あるいはその組合せが行われてよい。

敵対ノイズは、例えば、音素レベル、語レベル、または文レベル、あるいはその組合せなどの異なるレベルにおける分類誤り（misclassification）を対象としてもよい。例えば、音素レベルにおいて、敵対ノイズは、個々の音素を、沈黙として、またはランダムに歪められた音素（「理解不能な」転記をもたらす）として誤って分類するように向けられ得る。語レベルにおいて、敵対ノイズは、語全体を誤って分類する（例えば、潜在的に文法を歪めて）ように向けられ得る。文レベルで、敵対ノイズは、文全体を誤って分類するように向けられてよい。

本発明は、オーディオ信号の傍受を妨げる敵対ノイズを語レベルまたは文レベルで導入することができ、システムが、その敵対ノイズを自動的に検出することを阻止して、その結果、データ・プライバシおよびデータ保護を強化することができる（例えば、敵対ノイズが、保護のさらなる層である）。

敵対ノイズは、コミュニケーションにおいていくらかのレイテンシを生じさせる可能性があるので、敵対ノイズが作成されて、オーディオ信号に追加され得るまでに、完全な語／文が伝えられる（例えば、発話される、または発言される）ことが要求される可能性がある。しかし、音素レベルで敵対ノイズを導入することによって、非常に小さいレイテンシ（例えば、標準の音声－テキスト・システムの場合、１０ミリ秒（ｍｓ））だけしか要求されない。

ユーザは、入力として、オーディオ信号中の発話に適用されるべき敵対ノイズの敵対防御強度を指定してよい。

敵対ノイズ強度は、調整され得る（例えば、入力デバイスを使用するユーザによって、または機械学習動作によって、あるいはその両方によって）。ノイズ強度は、ノイズ強度がオーディオ信号の品質に影響を及ぼす度合に応じて増加されてよく、または低減されてよく、あるいはその組合せが行われてよい。例えば、ノイズ強度は、より高い度合のセキュリティをもたらす、より大きい敵対ノイズ・レベルに調整され得る（より大きい敵対ノイズ・レベルは、コンピュータ・システムがオーディオ信号を正しく分類するのにより多くの困難を生じさせるので）。また、敵対ノイズ強度は、例えば、敵対防御が元の信号を能動的に変更しているオーディオ記録全体の時間の一部分（例えば、ウインドウ長、容認可能な遅延、間隔頻度（interval frequency）、その他）として実施されてもよい。

この場合も、敵対ノイズ強度を増加させること、または低減することは、例えば、ユーザまたはサードパーティ・エンティティが可聴ノイズに気づかない（例えば、意識しない）など、オーディオ信号の品質に影響を及ぼすことがある（例えば、より小さい／より弱い敵対ノイズ・レベル）。代替として、ノイズ強度は、ユーザまたはサードパーティ・エンティティがアーチファクトを知覚するが、依然として、オーディオのコミュニケーション／発話された内容を理解することができるレベル（例えば、より大きい／より強いレベル）に調整され得る。

さらなる態様において、本発明はまた、オーディオ／通信デバイス（例えば、スピーカ）の上で敵対ノイズを再生し、ハッキングされたオーディオ・キャプチャ・デバイスから傍受されたオーディオ信号の自動化された解析を回避するように、オーディオ・キャプチャ・デバイス（例えば、マイクロホン）上でその敵対ノイズを発話と一緒に記録してもよい。

また、本発明は、現在の防御強度の推定（例えば、バッテリ充電ステータスに類似し、現在の防御強度の有効性の推定であってよい）を報告してもよい。

それ故、本発明は、データ（例えば、個人／専有情報）をセキュリティ確保して、傍受、盗聴、または１つまたは複数のデータベース（例えば、オーディオ・データベース）に対する許可のないアクセス、あるいはその組合せを介して不適切に獲得されたオーディオ信号の自動的解析から保護する。

また、本発明は、現在の防御強度（例えば、例えば、バッテリ充電ステータスに類似し、現在の防御強度の有効性の推定であってよい）の推定を報告してもよい。

さらなる態様において、本発明は、オーディオ・キャプチャ・デバイス（例えば、マイクロホン）によってキャプチャされたデジタル・オーディオ信号またはアナログ・オーディオ信号を、そのデジタル・オーディオ信号またはアナログ・オーディオ信号に敵対ノイズを追加することによって変更することができる。敵対ノイズは、音声－テキスト・モデルによるデジタル・オーディオ信号またはアナログ・オーディオ信号の分類誤りを生じさせることができる。例えば、敵対ノイズは、音声－テキスト・モデルが発話をまったく検出することができないようにすることができる（例えば、音声－テキスト・モデルは、沈黙を転記する）。敵対ノイズは、音声－テキスト動作／モデルがランダムな発言を転記するようにさせることができる。敵対ノイズは、音声－テキスト・モデルが、目標とされる転記を生成するようにさせることができる（例えば、ノイズは、「ｐａｔｅｎｔ（特許）」という語の発言が「ｔｏａｓｔｅｒ（トースタ）」として転記されるように設計され得る）。敵対ノイズの追加は、コンピュータ・システムがオーディオ信号における発話された内容を自動的に構文解析すること、および解析することを防止する。デジタル・オーディオ信号またはアナログ・オーディオ信号に適用された敵対ノイズは、オーディオ信号の自動化された処理に影響を及ぼすが、器官（例えば、人間）が発言を依然として理解するのに十分なだけ低く、ほとんどの場合、追加されたノイズに気づきさえしないことに留意されたい。

本開示は、クラウド・コンピューティングに関する詳細な説明を含むものの、本明細書に記載される教示の実装は、クラウド・コンピューティング環境に限定されないことをあらかじめ理解されたい。むしろ、本発明の実施形態は、現在、知られている、または後に開発される他の任意のタイプのコンピューティング環境と連携して実装されることが可能である。

クラウド・コンピューティングは、最小限の管理作業またはサービスのプロバイダとの最小限の対話しか伴わずに迅速にプロビジョニングされ、リリースされることが可能である、構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有されるプールに対する便利な、オンデマンドのネットワーク・アクセスを可能にするためのサービス・デリバリのモデルである。このクラウド・モデルは、少なくとも５つの特徴と、少なくとも３つのサービス・モデルと、少なくとも４つの展開モデルとを含むことが可能である。

特徴は、以下のとおりである。
オンデマンドのセルフ・サービス：クラウド消費者が、サービスのプロバイダとの人間対話を必要とすることなしに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
広いネットワーク・アクセス：能力が、ネットワークを介して利用可能であり、かつ異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム（例えば、モバイル電話、ラップトップ、およびＰＤＡ）による使用を促進する標準の機構を介してアクセスされる。
リソース・プーリング：プロバイダのコンピューティング・リソースが、マルチテナント・モデルを使用して多数の消費者に役立てられるようにプールされ、様々な物理リソースおよび仮想リソースが、デマンドに応じて動的に割当てられ、かつ動的に再割当てされる。消費者が、提供されるリソースの厳密なロケーションを一般に支配することも、知ることもないが、抽象化のより高いレベル（例えば、国、州、またはデータセンタ）でロケーションを指定することができ得るという点でロケーション独立の感覚が存在する。
迅速な弾力性：能力は、急速にスケールアウトすること、および迅速にリリースされて、急速にスケールインすることが行われるように、迅速に、弾力的に、一部の事例においては自動的にプロビジョニングされることが可能である。消費者には、プロビジョニングのために利用可能な能力は、しばしば、無限であるように見え、任意の時点で任意の量で購入されることが可能である。
測定されるサービス：クラウド・システムが、サービスのタイプ（例えば、ストレージ、処理、帯域幅、および活性のユーザ・アカウント）に適切な抽象化の何らかのレベルで計測能力を活用することによってリソース使用を自動的に制御し、最適化する。リソース使用は、監視され、制御され、報告されて、利用されるサービスのプロバイダと消費者の両方に透明性をもたらすことが可能である。

サービス・モデルは、以下のとおりである。
ＳａａＳ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。それらのアプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インタフェース（例えば、ウェブ・ベースの電子メール）を介して様々なクライアント・デバイスからアクセス可能である。消費者は、限られたユーザ特有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション能力さえ含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしない。
ＰａａＳ（ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびプログラミング・ツールを使用して作成された、消費者が作成した、または消費者が獲得したアプリケーションをクラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、展開されたアプリケーション、および、場合により、アプリケーション・ホスティング環境構成を支配する。
ＩａａＳ（ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、消費者が、オペレーティング・システムと、アプリケーションとを含み得る任意のソフトウェアを展開して、実行することができる、処理、ストレージ、ネットワーク、および他の基本的な計算リソースをプロビジョニングすることである。消費者は、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを支配し、場合により、選定されたネットワーキング・コンポーネント（例えば、ホスト・ファイアウォール）の限られた支配を有する。

展開モデルは、以下のとおりである。
プライベート・クラウド：クラウド・インフラストラクチャが、専ら組織のために運用される。クラウド・インフラストラクチャは、その組織によって管理されても、サードパーティによって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。
コミュニティ・クラウド：クラウド・インフラストラクチャが、いくつかの組織によって共有され、共有される関心（例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンス配慮事項）を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、その組織によって管理されても、サードパーティによって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。
パブリック・クラウド：クラウド・インフラストラクチャが、一般の公衆または大きい業界グループによる利用に供され、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：クラウド・インフラストラクチャは、独自のエンティティであるままであるが、データ移植性およびアプリケーション移植性を可能にする標準化された技術もしくは独自の技術（例えば、クラウド間で負荷分散するためのクラウド・バースティング）によって一緒に結び付けられた２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成である。

クラウド・コンピューティング環境は、ステートレスである性質、低結合、モジュール性、およびセマンティクスの相互運用性に焦点を合わせていて、サービス指向である。クラウド・コンピューティングの中核には、互いに接続されたノードのネットワークを備えたインフラストラクチャがある。

次に、図１を参照すると、クラウド・コンピューティング・ノードの実施例の概略図が示される。コンピューティング・ノード１０は、適切なクラウド・コンピューティング・ノードの一実施例に過ぎず、本明細書において説明される本発明の実施形態の用途または機能の範囲について限定を示唆することはまったく意図していない。いずれにせよ、クラウド・コンピューティング・ノード１０は、前段で示される機能のいずれかとして実装されること、またはそのような機能のいずれかを実行すること、あるいはその両方が可能である。

クラウド・コンピューティング・ノード１０において、他の多数の汎用または専用のコンピューティング・システム環境またはコンピューティング・システム構成で動作可能である、コンピュータ・システム／サーバ１２が存在する。コンピュータ・システム／サーバ１２と一緒に使用するのに適することがあるよく知られたコンピューティング・システム、コンピューティング環境、またはコンピューティング・システム構成、あるいはその組合せの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルド・デバイスもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットトップ・ボックス、プログラマブル家庭用電化製品、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および前述のシステムもしくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境、ならびにそれに類するものを含むが、これらには限定されない。

コンピュータ・システム／サーバ１２は、コンピュータ・システムによって実行されている、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な脈絡で説明され得る。一般に、プログラム・モジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含んでよい。コンピュータ・システム／サーバ１２は、タスクが、通信ネットワークまたはＩｏＴネットワークを介して結び付けられた遠隔処理デバイスによって実行される、分散型クラウド・コンピューティング環境において実施され得る。分散型クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカル・コンピュータ・システム記憶媒体と遠隔コンピュータ・システム記憶媒体の両方に配置され得る。

図１に示されるとおり、クラウド・コンピューティング・ノード１０におけるコンピュータ・システム／サーバ１２は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム／サーバ１２のコンポーネントは、１つまたは複数のプロセッサまたは処理装置１６、システム・メモリ２８、ならびにシステム・メモリ２８を含む様々なシステム・コンポーネントをプロセッサ１６に結合するバス１８を含んでよいが、これらには限定されない。

バス１８は、様々なバス・アーキテクチャのいずれかを使用する、メモリ・バスもしくはメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、およびプロセッサ・バスもしくはローカル・バスを含む、いくつかのタイプのバス構造のいずれかの１つまたは複数を表す。例として、限定としてではなく、そのようなアーキテクチャは、インダストリ・スタンダード・アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、エンハンストＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）バスを含む。

コンピュータ・システム／サーバ１２は、通常、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム／サーバ１２によってアクセス可能である任意の利用可能な媒体であってよく、そのような媒体は、揮発性媒体と不揮発性媒体、取外し可能な媒体と取外し可能でない媒体の両方を含む。

システム・メモリ２８は、ランダム・アクセス・メモリ（ＲＡＭ）３０またはキャッシュ・メモリ３２、あるいはその両方のなどの揮発性メモリの形態でコンピュータ・システム可読媒体を含むことが可能である。コンピュータ・システム／サーバ１２は、他の取外し可能な／取外し可能でない、揮発性／不揮発性のコンピュータ・システム記憶媒体をさらに含んでよい。単に例として、ストレージ・システム３４が、取外し可能でない、不揮発性の磁気媒体（図示されず、通常、「ハードドライブ」と呼ばれる）から読み取ること、およびそのような磁気媒体に書き込むことを行うために備えられることが可能である。図示されないものの、取外し可能な、不揮発性の磁気ディスク（例えば、「フロッピ・ディスク」）から読み取ること、およびそのような磁気ディスクに書き込むことを行うための磁気ディスク・ドライブ、ならびにＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光媒体などの取外し可能な、不揮発性の光ディスクから読み取ること、またはそのような光ディスクに書き込むことを行うための光ディスク・ドライブが、備えられることが可能である。そのような事例において、各媒体は、１つまたは複数のデータ媒体インタフェースによってバス１８に接続されることが可能である。後段でさらに示され、説明されるとおり、システム・メモリ２８は、本発明の実施形態の機能を実行すべく構成されたプログラム・モジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含んでよい。

例として、限定としてではなく、プログラム・モジュール４２のセット（少なくとも１つ）を有するプログラム／ユーティリティ４０、ならびにオペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データが、システム・メモリ２８に記憶され得る。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、あるいはその何らかの組合せの各々が、ネットワーキング環境の実装形態を含んでよい。プログラム・モジュール４２は、一般に、本明細書において説明される本発明の実施形態の機能または方法、あるいはその両方を実行する。

また、コンピュータ・システム／サーバ１２は、キーボード、ポインティング・デバイス、ディスプレイ２４などの１つまたは複数の外部デバイス１４；ユーザがコンピュータ・システム／サーバ１２と対話することを可能にする１つまたは複数のデバイス；またはコンピュータ・システム／サーバ１２が他の１つまたは複数のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデム、その他）；あるいは以上の組合せと通信してもよい。そのような通信は、入出力（Ｉ／Ｏ）インタフェース２２を介して行われることが可能である。さらに、コンピュータ・システム／サーバ１２は、ネットワーク・アダプタ２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、汎用ワイド・エリア・ネットワーク（ＷＡＮ）、ＩｏＴネットワーク、またはパブリック・ネットワーク（例えば、インターネット）、あるいはその組合せなどの１つまたは複数のネットワークと通信することができる。図示されるとおり、ネットワーク・アダプタ２０は、バス１８を介してコンピュータ・システム／サーバ１２の他のコンポーネントと通信する。図示されないものの、他のハードウェア・コンポーネントまたはソフトウェア・コンポーネント、あるいはその組合せが、コンピュータ・システム／サーバ１２と連携して使用されることも可能であることを理解されたい。例は、マイクロコード、デバイス・ドライバ、冗長な処理装置、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システム、その他を含むが、これらには限定されない。

次に、図２を参照すると、例示的なクラウド・コンピューティング環境５０が示される。図示されるとおり、クラウド・コンピューティング環境５０は、例えば、携帯情報端末（ＰＤＡ）もしくはセルラ電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、または自動車コンピュータ・システム５４Ｎ、あるいはその組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが相手として通信してよい１つまたは複数のクラウド・コンピューティング・ノード１０を備える。ノード１０は、互いに通信してよい。ノード１０は、前段で説明されるプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウドあるいはその組合せなどの１つまたは複数のネットワークにおいて、物理的に、または仮想でグループ化されて（図示せず）よい。このことは、クラウド・コンピューティング環境５０が、クラウド消費者がそのためにローカル・コンピューティング・デバイス上にリソースを維持する必要のないインフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せをサービスとして提供することを可能にする。図２に示されるコンピューティング・デバイス５４Ａ～Ｎのタイプは、単に例示的であることが意図されること、ならびにコンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続、あるいはその両方を介して（例えば、ウェブ・ブラウザを使用して）任意のタイプのコンピュータ化されたデバイスと通信することができるものと理解される。

次に、図３を参照すると、クラウド・コンピューティング環境５０（図２）によって提供される機能抽象化層のセットが示される。図３に示されるコンポーネント、層、および機能は、単に例示的であることが意図され、本発明の実施形態は、それに限定されないことをあらかじめ理解されたい。図示されるとおり、次の層および対応する機能が提供される。

デバイス層５５が、クラウド・コンピューティング環境５０において様々なタスクを実行するエレクトロニクス、センサ、アクチュエータ、およびその他のオブジェクトを埋め込まれた、またはスタンドアロンのエレクトロニクス、センサ、アクチュエータ、およびその他のオブジェクトである、あるいはその両方の物理デバイスまたは仮想デバイス、あるいはその両方を含む。デバイス層５５におけるデバイスの各々が、そのデバイスから獲得された情報が他の抽象化層に提供され得るように、または他の抽象化層からの情報がそのデバイスに提供され得るように、あるいはその両方が行われ得るように、他の機能抽象化層に対するネットワーキング能力を組み込む。一実施形態において、デバイス層５５に含まれる様々なデバイスは、「モノのインターネット」（ＩｏＴ）としてひとまとめにして知られるエンティティのネットワークを組み込んでよい。そのようなエンティティのネットワークは、当業者には認識されるとおり、極めて多種多様な目的を実現するデータの相互通信、収集、および配布を可能にする。

図示されるデバイス層５５は、図示されるとおり、センサ５２と、アクチュエータ５３と、組み込まれた処理エレクトロニクス、センサ・エレクトロニクス、およびネットワーキング・エレクトロニクスを有する「学習」サーモスタット５６と、カメラ５７と、制御可能な家庭用コンセント／レセプタクル５８と、制御可能な電気スイッチ５９とを含む。他の可能なデバイスは、様々なさらなるセンサ・デバイス、ネットワーキング・デバイス、電子デバイス（遠隔制御デバイスなどの）、さらなるアクチュエータ・デバイス、冷蔵庫または洗濯機／乾燥機などのいわゆる「スマート」器具、ならびに多種多様な幅広い他の可能な互いに接続されたオブジェクトを含んでよいが、これらには限定されない。

ハードウェアおよびソフトウェア層６０が、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム６１、ＲＩＳＣ（Reduced Instruction Set Computer）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ６４、ストレージ・デバイス６５、ならびにネットワークおよびネットワーキング・コンポーネント６６を含む。一部の実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア６７と、データベース・ソフトウェア６８とを含む。

仮想化層７０が、仮想エンティティの以下の例、すなわち、仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよび仮想オペレーティング・システム７４、ならびに仮想クライアント７５が提供され得る抽象化層を提供する。

一実施例において、管理層８０が、後段で説明される機能を提供することが可能である。リソース・プロビジョニング８１が、クラウド・コンピューティング環境内でタスクを実行するのに利用される計算リソースおよび他のリソースの動的調達を提供する。計測および価格設定８２が、クラウド・コンピューティング環境内でリソースが利用されるにつれての費用追跡、ならびにこれらのリソースの消費に関する料金請求もしくはインボイス送付を提供する。一実施例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを備えてよい。セキュリティが、クラウド消費者およびタスクに関する識別情報検証、ならびにデータおよび他のリソースに関する保護を提供する。ユーザ・ポータル８３が、クラウド・コンピューティング環境へのアクセスを消費者およびシステム管理者に提供する。サービス・レベル管理８４が、要求されるサービス・レベルが満たされるようにクラウド・コンピューティング・リソース割当ておよびクラウド・コンピューティング・リソース管理を提供する。サービス・レベル・アグリーメント（ＳＬＡ）計画および履行８５が、ＳＬＡにより将来の要件が予期されるクラウド・コンピューティング・リソースに関する事前取決め、およびそのようなリソースの調達を提供する。

作業負荷層９０が、クラウド・コンピューティング環境が利用され得る機能の実施例を提供する。この層から提供され得る作業負荷および機能の実施例は、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育デリバリ９３、データ解析処理９４、トランザクション処理９５、ならびに本発明の例示される実施形態の脈絡において、オーディオ信号において敵対保護を提供するために作業負荷および機能９６を使用する様々なコンピュータによって制御されるデバイスのための様々な構成設定を含む。さらに、オーディオ信号において敵対保護を提供するために作業負荷および機能９６は、データ解析（様々な環境センサからのデータ収集およびデータ処理を含む）、画像解析、タスクおよびデバイス解析などの動作、またはデータ解析機能、あるいはその組合せを含んでよい。また、オーディオ信号において敵対保護を提供するために作業負荷および機能９６は、本発明の例示される実施形態の様々な目的を実現すべく、ハードウェアおよびソフトウェア６０、仮想化７０、管理８０、および他の作業負荷９０（例えば、データ解析処理９４などの）における部分などの、様々な抽象化層の他の部分と連携して機能してもよいことが当業者には認識されよう。

次に、図４を参照すると、例示される実施形態の様々な機能による例示的な機能コンポーネント４００を示すブロック図が、示される。一態様において、図１～図３において説明されるデバイス、コンポーネント、モジュール、または機能、あるいはその組合せの各々が、図４のデバイス、コンポーネント、モジュール、および機能に適用されてもよい。また、図１～図３の動作およびステップのうちの１つまたは複数が、図４の１つまたは複数の動作またはアクションに含められてもよい。インテリジェントな敵対保護サービス４０２を含んでよいコンピュータ・システム／サーバ１２が、再び示される。

一態様において、コンピュータ・システム／サーバ１２が、本明細書において説明されるとおり、仮想化されたコンピューティング・サービス（すなわち、仮想化されたコンピューティング、仮想化されたストレージ、仮想化されたネットワーキング、その他）を１つまたは複数のコンピューティング・デバイスに提供してよい。より具体的には、コンピュータ・システム／サーバ１２は、ハードウェア基板上で実行されている仮想化されたコンピューティング、仮想化されたストレージ、仮想化されたネットワーキング、およびその他の仮想化されたサービスを提供してよい。

一態様において、コンピュータ・システム／サーバ１２は、例えば、インテリジェントなオーディオ・キャプチャ／生成デバイス４３０（例えば、補聴器、マイクロホン、スピーカ、通信デバイスその他）またはユーザ機器４２０（例えば、１つまたは複数のプロセッサ、メモリ、または無線通信技術、あるいはその組合せを有してよい、例えば、カメラ、テレビ、スマートフォン、スマートウォッチ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット、スマートウォッチ、または別の電子デバイス、あるいはその組合せなどのモノのインターネット「ＩｏＴ」コンピューティング・デバイスまたは他のタイプのオーディオ生成デバイスもしくはオーディオ・キャプチャ・デバイス）、あるいはその組合せなどの１つまたは複数のコンピューティング・デバイスと通信していてよい、または関連していてよい、あるいはその両方の敵対保護サービス４０２（例えば、インテリジェントな敵対保護サービス４０２）を提供してよい。

インテリジェントな敵対保護サービス４０２、インテリジェントなオーディオ・キャプチャ／生成デバイス４３０、またはユーザ機器４２０、あるいはその組合せは、各々、互いに関連付けられてよく、またはコンピューティングネットワーク、無線通信ネットワーク、または通信を可能にするその他のネットワーク手段（各々が図４において「ネットワーク」１８としてひとまとめにして参照される）などの１つまたは複数の通信方法によって互いに通信してよく、あるいはその組合せが行われてよい。一態様において、インテリジェントな敵対保護サービス４０２は、インテリジェントなオーディオ・キャプチャ／生成デバイス４３０またはユーザ機器４２０、あるいはその両方にローカルでインストールされ得る。代替として、インテリジェントな敵対保護サービス４０２は、インテリジェントなオーディオ・キャプチャ／生成デバイス４３０またはユーザ機器４２０、あるいはその両方の各々の外部に（例えば、クラウド・コンピューティング・サーバを介して）配置され得る。

インテリジェントな敵対保護サービス４０２は、本発明の様々な態様による様々な計算機能、データ処理機能、およびその他の機能を実行する処理装置１６を組み込んでよい。選好および関心のデータベース４０４（例えば、知識ドメインまたはオントロジ）が、セキュリティ防御コンポーネント４０６、敵対ノイズ・コンポーネント４０８、機械学習コンポーネント４１０、または記録／転記コンポーネント４１４、あるいはその組合せと一緒に示される。

セキュリティ防御コンポーネント４０６は、敵対ノイズを使用してオーディオ信号の自動化されたオーディオ解析に対するセキュリティ防御を１つまたは複数のオーディオ・デバイス上で提供してよい。セキュリティ防御コンポーネント４０６は、敵対ノイズ・コンポーネント４０８と連携して、１つまたは複数の画像ディスプレイ・デバイスの１つまたは複数のディスプレイ・フレームに敵対ノイズを適用してよい。そうする際、敵対ノイズ・コンポーネント４０８は、デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき敵対ノイズのタイプを決定してよい、または選択してよい。セキュリティ防御コンポーネント４０６は、敵対ノイズ・コンポーネント４０８と連携して、その後、デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せにおけるコミュニケーション（例えば、音素レベル、語レベル、または文レベル、あるいはその組合せのレベル、その他におけるコミュニケーション・データ）に敵対ノイズを適用してよい。

さらなる態様において、セキュリティ防御コンポーネント４０６は、機械学習コンポーネント４１０と連携して、機械学習動作を使用してオーディオ信号を解析してよい。一態様において、オーディオ信号は、ユーザから、または、例えば、知識ドメイン・コンポーネント４１２におけるような、オーディオ・データベースに配置された記録メッセージから、あるいはその組合せからリアルタイムで通信されてよく、送信されてよい。

セキュリティ防御コンポーネント４０６は、機械学習コンポーネント４１０と連携して、敵対ノイズの理論上のセキュリティ防御強度を推定してよい。セキュリティ防御コンポーネント４０６は、機械学習コンポーネント４１０と連携して、フィードバック・ループ動作を介して敵対ノイズの実際のセキュリティ防御強度を推定してよい。セキュリティ防御コンポーネント４０６は、敵対ノイズのセキュリティ防御強度の度合を調整してよい。

理論上の防御強度は、パフォーマンス低下のレベルまたは度合（例えば、音声－テキストＡＩモデルのパフォーマンスがどれだけ低下するか）を、現在のノイズ・レベルの関数として推定することによって決定されることに留意されたい。そのような推定は、オフライン測定に基づいてよい。実際の防御強度は、敵対ノイズを伴うオーディオ信号と敵対ノイズを伴わないオーディオ信号に関する音声－テキストＡＩモデルの出力の差を決定してよい。実際の防御強度は、理論上の防御強度よりも獲得するのに計算コストがより高い可能性があり、他方、実際の防御強度は、現在のノイズ・レベルの有効性のより正確な測度である。

オーディオ・ファイル、記録、または転記、あるいはその組合せのデータベースは、知識のドメインを表す概念、キーワード、表現のオントロジであってよい、知識のドメイン４１２を含んでよく、または知識のドメイン４１２に関連付けられてよく、あるいはその両方であってよい。例えば、すべての記録されたオーディオ・ファイルが、オーディオ・ファイル／記録内のコミュニケーションのタイプに基づいて、分類されてよく、編成されてよく、または保存／取得されてよく、あるいはその組合せが行われてよい。一態様において、「ドメイン」という術語は、その術語の通常の意味を有することが意図される術語である。さらに、「ドメイン」という術語は、特定の或る主題または特定の複数の主題と関係する材料、情報、内容、またはその他のリソース、あるいはその組合せの体系または集まりに関する専門知識の領域を含んでよい。ドメインは、任意の特定の題材または選択された主題の組合せと関係する情報を指すことが可能である。オントロジという術語もまた、その術語の通常の意味を有することが意図される術語である。一態様において、その術語の最も広い意味におけるオントロジという術語は、タクソノミ、シソーラス、ボキャブラリ、およびこれに類するものを含むが、これらには限定されない、オントロジとしてモデル化され得る任意のものを含んでよい。例えば、オントロジは、関心対象のドメインと関係のある情報または内容、あるいは特定のクラスまたは概念の内容を含んでよい。オントロジは、ソースからの情報をオントロジにモデル、モデルの属性、またはオントロジ内のモデル間の関連付けとして追加して、ソースと同期された情報で継続的に更新され得る。

さらに、知識ドメイン４１２は、例えば、１つまたは複数のインターネット・ドメイン、ウェブページ、またはそれに類するものに対するリンクなどの１つまたは複数の外部リソースを含んでよい。例えば、テキスト・データが、オーディオ・データと関係するさらなる情報を説明してよく、解説してよく、または提供してよいウェブページにハイパーリンクされ得る。

さらなる態様において、コンピュータ・システム／サーバ１２のセキュリティ防御コンポーネント４０６が、本発明の様々な態様を実現すべく処理装置１６と協調して動作してよい。例えば、セキュリティ防御コンポーネント４０６は、例えば、ユーザ機器４２０またはインテリジェントなオーディオ・キャプチャ／生成デバイス４３０、あるいはその組合せなどの１つまたは複数のデバイスから通信されたオーディオ・データを解析する様々なデータ解析機能を実施してよい。

セキュリティ防御コンポーネント４０６は、オーディオ・データに関連する各物理特性を受信してよく、解析してよい。セキュリティ防御コンポーネント４０６は、ユーザ機器４２０またはインテリジェントなオーディオ・キャプチャ／生成デバイス４３０、あるいはその両方に関するオーディオ・データ（例えば、転記され得るオーディオ・データ）を認知的に受信してよく、または認知的に検出してよく、あるいはその両方を行ってよい。

セキュリティ防御コンポーネント４０６、敵対ノイズ・コンポーネント４０８、または機械学習コンポーネント４１０、あるいはその組合せが、オーディオ・データを検出すべく、例えば、ユーザ機器４２０またはインテリジェントなオーディオ・キャプチャ／生成デバイス４３０、あるいはその組合せ（例えば、無線機、電話、テレビ、コンピュータ、その他）などの１つまたは複数のオーディオ・データ・ソースにアクセスしてよく、それらを監視してよい。例えば、ユーザ機器４２０またはインテリジェントなオーディオ・キャプチャ／生成デバイス４３０、あるいはその組合せが、ユーザ４４０（例えば、音声コマンド）からのコミュニケーションをブロードキャストしていてよい。セキュリティ防御コンポーネント４０６、敵対ノイズ・コンポーネント４０８、または機械学習コンポーネント４１０、あるいはその組合せが、１名または複数名のユーザからのコミュニケーション（例えば、音声コマンド）を監視していてよく、それにアクセスしていてよい。

オーディオ・データを検出することの一環として、セキュリティ防御コンポーネント４０６、敵対ノイズ・コンポーネント４０８、または機械学習コンポーネント４１０、あるいはその組合せが、オーディオ・データから、１つまたは複数のオーディオ・データのソース、オーディオ・データに関連付けられた文脈要因、オーディオ・データの１つまたは複数の特徴、ユーザの１つまたは複数の意味上の句、文、語、またはその組合せを識別してよい。

また、記録／転記コンポーネント４１４が、ユーザ４４０からのオーディオ・データ・コミュニケーションを動的に記録すること、および動的に記憶することを行ってもよい。例えば、機械学習が、ユーザ４４０によって作成された、またはユーザ４４０に向けられた、あるいはその組合せの各コミュニケーション／オーディオ・データを学習してよく、記録してよい。すると、記録／転記コンポーネント４１４は、コミュニケーション・データを記録（例えば、オーディオ転記を記録すること、転記すること、または保存すること、あるいはその組合せを）してよく、１つまたは複数のキーワード／句を抽出してよく、または音声－テキスト形態を転記すべくＮＬＰを使用してよく、あるいはその組合せを行ってよい。また、オーディオ・データと関係する他の関係者による語、句、または完全な文、あるいはその組合せ（例えば、会話のすべてまたは部分）が、ＮＬＰ抽出動作（例えば、ＮＬＰベースのキーワード抽出）に基づいてテキスト形態で転記されてもよい。テキスト・データは、同一のオーディオ・データ（例えば、会話のすべてまたは部分）が、後の時点で敵対保護サービス４０２によって聞かれてよく、または聴取され得るように、中継されてよく、送られてよく、記憶されてよく、またはさらに処理されてよい。

したがって、セキュリティ防御コンポーネント４０６は、敵対ノイズ・コンポーネント４０８または機械学習コンポーネント４１０、あるいはその両方と連携して、オーディオ・データ（例えば、音声－テキスト・データ）のすべてまたは部分を変形してよい。セキュリティ防御コンポーネント４０６は、敵対ノイズ・コンポーネント４０８または機械学習コンポーネント４１０、あるいはその両方と連携して、敵対ノイズの適用を示すアラートをユーザ４４０に送ることさえしてよい。すると、ユーザ４４０は、敵対ノイズの強度レベルを調整してよい（例えば、増加させてよく、または低減してよく、あるいはその組合せを行ってよい）。

次に、図５を参照すると、グラフ図５００が、オーディオ信号における発話の敵対保護を提供するための例示的な動作を示す。すなわち、グラフ図５００は、オーディオ信号に対する敵対攻撃を概略で表すものを示す。一態様において、図１～図４において説明されるデバイス、コンポーネント、モジュール、または機能、あるいはその組合せの各々が、図５のデバイス、コンポーネント、モジュール、および機能に適用されてもよい。また、図１～図４の１つまたは複数のコンポーネント、機能、またはフィーチャ、あるいはその組合せが、図５において実施されてもよい。本明細書において説明される他の実施形態において用いられる同様の要素、コンポーネント、モジュール、サービス、アプリケーション、または機能、あるいはその組合せの反復的な説明は、簡単にするために省略される。

一態様において、グラフ５００のＸ軸５０１は、時間を表し、Ｙ軸５０２は、オーディオ信号の振幅または信号強度を表す。元のオーディオ信号５０３（例えば、良性であり、アナログであっても、デジタルであってもよい）が、実線として表される。敵対オーディオ信号５０４が、破線として表され、敵対ノイズを使用して変形される。

敵対ノイズが適用されると、出力文５０５は、例えば、元のオーディオ信号５０３を入力として音声－テキスト・モデル（例えば、回帰型ニューラル・ネットワーク、その他）から獲得されるような元のオーディオ信号５０３に対応する。

出力文５０６が、目標を有する敵対ノイズ防御を適用しながらオーディオ信号を入力として使用して音声－テキスト・モデル（例えば、回帰型ニューラル・ネットワーク、その他）によって作成される。このことは、人間によって検出されることが困難である出力文５０６に対する小さい微妙な変化をもたらす。しかし、出力文５０７が、目標を有さない敵対ノイズ防御を伴うオーディオ信号を入力として使用して音声－テキスト・モデル（例えば、回帰型ニューラル・ネットワーク、その他）によって作成される。このことは、入力文に完全にランダムな変化をもたらす。それ故、出力文５０６および出力文５０７は、敵対オーディオ信号５０４に適用された敵対ノイズ強度の度合またはレベルに基づくもたらされる出力文を例示する。

それ故、敵対オーディオ信号５０４は、敵対ノイズを適用することによって、オーディオ・キャプチャ・デバイスによってキャプチャされてよく、デジタルであっても、アナログであってもよい元のオーディオ信号５０３を変形することの結果である。

次に、図６を参照すると、図が、オーディオ信号における発話の敵対保護を提供するための動作である例示的な攻撃ベクトル動作６００を示す。一態様において、図１～図４において説明されるデバイス、コンポーネント、モジュール、または機能、あるいはその組合せの各々が、図６のデバイス、コンポーネント、モジュール、および機能に適用されてもよい。また、図１～図４の１つまたは複数のコンポーネント、機能、またはフィーチャ、あるいはその組合せが、図６において実施されてもよい。本明細書において説明される他の実施形態において用いられる同様の要素、コンポーネント、モジュール、サービス、アプリケーション、または機能、あるいはその組合せの反復的な説明は、簡単にするために省略される。

動作の際、攻撃ベクトル動作６００は、ユーザ６０１（例えば、「アリス」として識別されたユーザ／話者）がオーディオ信号を記録して、オーディオ信号を送信すること、またはオーディオ信号をデータベースに記憶すること、あるいはその両方を所望することを含む。オーディオ・キャプチャ／生成デバイス６０５（例えば、マイクロホン）が、例えば、マイクロホン／機械学習動作を用いてユーザ６０１によって提供されるオーディオ・メッセージを記録してよく／転記してよく、作成されたオーディオ信号を敵対セキュリティ防御コンポーネント６０４に通信してよく、送信してよく、または送ってよく、あるいはその組合せを行ってよい。

敵対セキュリティ防御コンポーネント６０４は、表される元のオーディオ信号（例えば、発話）に最小限の変化しか、またはまったく変化をもたらさず、受話者６０２（例えば、ユーザ「ボブ」）のためのメッセージの理解に影響を及ぼすことなしに、ユーザ６０１によって伝えられる元のオーディオ信号に選択されたレベルの敵対ノイズを追加してよい（例えば、音素レベル、語レベル、または文レベル、あるいはその組合せのレベルで敵対ノイズを追加してよい）。敵対セキュリティ防御コンポーネント６０４は、ブロック６０６におけるとおり、作成された敵対保護されたオーディオ信号（例えば、適用された敵対ノイズを有するオーディオ信号）を受話者６０２に通信してよく、送信してよく、記憶してよく、または送ってよく、あるいはその組合せを行ってよい。また、敵対セキュリティ防御コンポーネント６０４は、敵対保護されたオーディオ信号を解析することによって現在の敵対ノイズ強度レベルを推定してもよく、作成された敵対保護されたオーディオ信号を通信すること、送信すること、記憶すること、または送ること、あるいはその組合せを行うことに先立って、敵対保護されたオーディオ信号を変形する。一態様において、フィードバック・ループが、敵対ノイズ強度レベルを解析すること、または推定すること、あるいはその両方を行うことを支援すべく、オーディオ・キャプチャ／生成デバイス６０５（例えば、マイクロホン）を介して使用され得る。

受話者６０２（例えば、「ボブ」として識別されたユーザ）が、オーディオ信号を受信していてよく、ユーザ６０１によって伝えられるメッセージを理解してよい。敵対者６０３（例えば、敵対聴取者、「イブ」）が、ユーザ６０１と受話者６０２の間の送信される、または記憶される、あるいはその両方が行われるメッセージを聴取しており、オーディオ信号を解析すべく機械学習モデルを使用している。

敵対者６０３は、送信された、または記憶された敵対保護されたオーディオ信号にアクセスして、窃盗した敵対保護されたオーディオ信号を分類しようと試みて、自動化された解析動作を適用しようと試みる。しかし、敵対保護されたオーディオ信号に適用された敵対ノイズが、自動化された解析を妨害して、または自動化された解析の成功率を低減して、その結果、ユーザ６０１によって通信されるオーディオ信号を温存し、保護する。

次に、図７を参照すると、例示される実施形態の様々な態様が実装され得る、プロセッサによるオーディオ信号において敵対保護を提供するためのさらなる方法７００が、示される。機能７００は、命令が少なくとも１つのコンピュータ可読媒体または１つの非一過性の機械可読記憶媒体に含まれる、機械上の命令として実行される方法として実装され得る。機能７００は、ブロック７０２において開始してよい。

セキュリティ防御は、ブロック７０４におけるとおり、敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析に対して１つまたは複数のオーディオ・デバイス上で提供され得る。機能７００は、ブロック７０６において終了してよい。

次に、図８を参照すると、例示される実施形態の様々な態様が実装され得る、プロセッサによるオーディオ信号において敵対保護を提供するためのさらなる方法８００が、示される。機能８００は、命令が少なくとも１つのコンピュータ可読媒体または１つの非一過性の機械可読記憶媒体に含まれる、機械上の命令として実行される方法として実装され得る。機能８００は、ブロック８０２において開始してよい。

敵対ノイズが、ブロック８０４におけるとおり、選択され得る。或るレベルの敵対ノイズ強度の敵対ノイズが、ブロック８０６におけるとおり、オーディオ信号に適用され得る。オーディオ信号は、ブロック８０８におけるとおり、敵対ノイズで変形され得る。機能８００は、ブロック８１０で終了してよい。

一態様において、図７または図８の少なくとも１つのブロックに関連して、またはそのようなブロックの一環として、あるいはその両方で、方法７００または方法８００、あるいはその両方の動作は、以下の各々を含んでよい。方法７００または方法８００、あるいはその両方の動作は、デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに敵対ノイズを適用してよく、または通信においてデジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき敵対ノイズのタイプを決定してよく、もしくは選択してよく、あるいは以上の組合せを行ってよい。

方法７００または方法８００、あるいはその両方の動作は、ユーザからリアルタイムでまたはオーディオ・データベースに配置された記録メッセージから通信され送信されるオーディオ信号を、機械学習動作を使用して解析してよい。

方法７００または方法８００、あるいはその両方の動作は、敵対ノイズの理論上のセキュリティ防御強度を推定してよく、またはフィードバック・ループ動作を介して敵対ノイズの実際のセキュリティ防御強度を推定してよく、あるいはその両方を行ってよい。方法７００または方法８００、あるいはその両方の動作は、敵対ノイズのセキュリティ防御強度の度合を調整してよい。

本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含んでよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持すること、および記憶することができる有形のデバイスであることが可能である。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、または以上の任意の適切な組合せであってよいが、これらには限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下、すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピ・ディスク、命令が記録されているパンチカードもしくは溝の中の隆起構造などの機械的に符号化されたデバイス、および以上の任意の適切な組合せを含む。本明細書において使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝達媒体を介して伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または配線を介して伝送される電気信号などの一過性の信号そのものであると解釈されるべきではない。

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードされることが可能である。ネットワークは、銅伝送ケーブル、伝送光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備えてよい。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶されるようにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋、もしくはそれに類するものなどのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくはそれに類似したプログラミング言語などの従来の手続き型プログラミング言語を含め、１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で実行されても、一部がユーザのコンピュータ上で実行されても、スタンドアロンのソフトウェア・パッケージとして実行されても、一部がユーザのコンピュータ上で、かつ一部が遠隔コンピュータ上で実行されても、全体が遠隔コンピュータもしくは遠隔サーバの上で実行されてもよい。全体が遠隔コンピュータもしくは遠隔サーバの上で実行されるシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてよく、または接続は、外部コンピュータに対して行われてもよい（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）。一部の実施形態において、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、本発明の態様を実行するために、電子回路をカスタマイズするようにコンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行してよい。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施されることが可能であることが理解されよう。

これらのコンピュータ可読プログラム命令は、そのコンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行されるそれらの命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作の態様を実施する命令を含む製造品を備えるべく、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに特定の様態で機能するように指示することができるものであってもよい。

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスの上で実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施するように、コンピュータによって実施されるプロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイスの上で一連の動作ステップを実行させるものであってもよい。

図におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を例示する。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を備える、命令のモジュール、セグメント、または部分を表すことが可能である。一部の代替の実装形態において、ブロックに記載される機能は、図に記載される順序を外れて生じてよい。例えば、連続して示される２つのブロックが、実際には、実質的に同時に実行されてよく、またはそれらのブロックが、ときとして、関与する機能に依存して、逆の順序で実行されてよい。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行する、または専用ハードウェア命令とコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実施されることが可能であることにも留意されたい。

Claims

１つまたは複数のプロセッサによる、オーディオ信号において敵対保護を提供するための方法であって、
１つまたは複数のオーディオ・デバイス上で、敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐセキュリティ防御を提供することを含む、方法。
デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに前記敵対ノイズを適用することをさらに含む、請求項１に記載の方法。
通信においてデジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき前記敵対ノイズのタイプを決定すること、または選択することをさらに含む、請求項１に記載の方法。
ユーザからリアルタイムで、またはオーディオ・データベースに配置された記録メッセージから、通信され送信される前記オーディオ信号を、機械学習動作を使用して解析することをさらに含む、請求項１に記載の方法。
前記敵対ノイズの理論上のセキュリティ防御強度を推定することをさらに含む、請求項１に記載の方法。
フィードバック・ループ動作を介して前記敵対ノイズの実際のセキュリティ防御強度を推定することをさらに含む、請求項１に記載の方法。
前記敵対ノイズのセキュリティ防御強度の度合を調整することをさらに含む、請求項１に記載の方法。
オーディオ信号において敵対保護を提供するためのシステムであって、
実行可能命令を有する１つまたは複数のコンピュータを備え、
前記実行可能命令が、実行されると、システムに、
１つまたは複数のオーディオ・デバイス上で、敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐセキュリティ防御を提供させる、システム。
前記実行可能命令が、デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに前記敵対ノイズを適用する、請求項８に記載のシステム。
前記実行可能命令が、通信においてデジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき前記敵対ノイズのタイプを決定する、または選択する、請求項８に記載のシステム。
前記実行可能命令が、ユーザからリアルタイムで、またはオーディオ・データベースに配置された記録メッセージから、通信され送信される前記オーディオ信号を、機械学習動作を使用して解析する、請求項８に記載のシステム。
前記実行可能命令が、前記敵対ノイズの理論上のセキュリティ防御強度を推定する、請求項８に記載のシステム。
前記実行可能命令が、フィードバック・ループ動作を介して前記敵対ノイズの実際のセキュリティ防御強度を推定する、請求項８に記載のシステム。
前記実行可能命令が、前記敵対ノイズのセキュリティ防御強度の度合を調整する、請求項８に記載のシステム。
１つまたは複数のプロセッサによる、オーディオ信号において敵対保護を提供するためのコンピュータ・プログラム製品であって、
コンピュータ・プログラム製品が、コンピュータ可読プログラム・コード部分を記憶している非一過性のコンピュータ可読記憶媒体を備え、前記コンピュータ可読プログラム・コード部分が、
１つまたは複数のオーディオ・デバイス上で、敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐセキュリティ防御を提供する実行可能部分を含む、コンピュータ・プログラム製品。
デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに前記敵対ノイズを適用する実行可能部分をさらに含む、請求項１５に記載のコンピュータ・プログラム製品。
通信においてデジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき前記敵対ノイズのタイプを決定する、または選択する実行可能部分をさらに含む、請求項１５に記載のコンピュータ・プログラム製品。
ユーザからリアルタイムで、またはオーディオ・データベースに配置された記録メッセージから、通信され送信される前記オーディオ信号を、機械学習動作を使用して解析する実行可能部分をさらに含む、請求項１５に記載のコンピュータ・プログラム製品。
前記敵対ノイズの理論上のセキュリティ防御強度を推定する、またはフィードバック・ループ動作を介して前記敵対ノイズの実際のセキュリティ防御強度を推定する実行可能部分をさらに含む、請求項１５に記載のコンピュータ・プログラム製品。
前記敵対ノイズのセキュリティ防御強度の度合を調整する実行可能部分をさらに含む、請求項１５に記載のコンピュータ・プログラム製品。