JP2022552119A - オーディオ信号における発話の敵対保護の提供 - Google Patents

オーディオ信号における発話の敵対保護の提供 Download PDF

Info

Publication number
JP2022552119A
JP2022552119A JP2022519488A JP2022519488A JP2022552119A JP 2022552119 A JP2022552119 A JP 2022552119A JP 2022519488 A JP2022519488 A JP 2022519488A JP 2022519488 A JP2022519488 A JP 2022519488A JP 2022552119 A JP2022552119 A JP 2022552119A
Authority
JP
Japan
Prior art keywords
adversarial
audio signal
audio
noise
adversarial noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022519488A
Other languages
English (en)
Other versions
JPWO2021074736A5 (ja
Inventor
ベッサー、ビート
ニコラエ、マリア-イリナ
ラワット、アンブリッシュ
シン、マテュー
ミン トラン、ゴック
ウィツバ、マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022552119A publication Critical patent/JP2022552119A/ja
Publication of JPWO2021074736A5 publication Critical patent/JPWO2021074736A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • G10K11/1754Speech masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/94Jamming or countermeasure characterized by its function related to allowing or preventing testing or assessing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Storage Device Security (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

プロセッサによりオーディオ信号における発話の敵対保護を提供するための実施形態を提供する。敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐ、1つまたは複数のオーディオ・デバイス上のセキュリティ防御が提供され得る。

Description

本発明は、一般に、コンピューティング・システムに関し、より詳細には、オーディオ信号における発話(speech)の敵対保護(adversarial protection)を提供するための様々な実施形態に関する。
今日の社会において、消費者、ビジネス関係者、教育関係者、およびその他の人々は、多種多様な媒体を介してリアルタイムで、大きな距離をまたいで何度も境界も限界もなくコミュニケーションをとる。コンピュータおよびネットワーキング技術の到来は、日々の活動を強化し、情報の共有を簡単にしながら、生活の質を向上させることを可能にしてきた。コンピューティング・システムは、既存のインターネット・インフラストラクチャを使用して地球全体にわたって散らばるコンピューティング・デバイスの相互接続である、モノのインターネット(IoT)を含むことができる。すなわち、IoTは、コンピュータおよびコンピュータ・ネットワークだけではない日常のオブジェクトが、IoT通信ネットワーク(例えば、アドホック・システムまたはインターネット)を介して可読であり、認識可能であり、位置特定可能であり、アドレス指定可能であり、制御可能であるという考え方に基づく。言い換えれば、IoTは、インターネット様の構造における一意に識別可能なデバイス、およびそれらのデバイスの仮想表現を指すことが可能である。技術における大躍進が実を結ぶにつれ、これらのシステムにおける進展が効率および向上にとって有利になるようにする必要性も大きくなっている。
プロセッサによるオーディオ信号における発話の敵対保護を提供するための様々な実施形態が提供される。一実施形態において、単に例として、やはりプロセッサによる、オーディオ信号における発話の敵対保護を提供するための方法が提供される。敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐ、1つまたは複数のオーディオ・デバイス上のセキュリティ防御が提供され得る。
本発明の利点が容易に理解されるように、前段で簡単に説明される本発明のより詳細な説明が、添付の図面において例示される具体的な実施形態を参照して行われる。これらの図面は、本発明の典型的な実施形態を示すに過ぎず、したがって、本発明の範囲の限定と考えられるべきものではないものと理解して、本発明が、添付の図面の使用を介してさらに具体的に、さらに詳細に説明され、解説される。
本発明の実施形態による例示的なクラウド・コンピューティング・ノードを示すブロック図である。 本発明の実施形態による例示的なクラウド・コンピューティング環境を示すさらなるブロック図である。 本発明の実施形態による抽象化モデル層を示すさらなるブロック図である。 本発明の態様により機能する様々なユーザ・ハードウェアおよびクラウド・コンピューティング・コンポーネントを示すさらなるブロック図である。 やはり本発明の態様が実現され得る、プロセッサによるオーディオ信号における発話の敵対保護を提供するためのさらなる例示的な動作を示す図である。 やはり本発明の態様が実現され得る、プロセッサによるオーディオ信号における発話の敵対保護を提供するためのさらなる例示的な動作を示す図である。 やはり本発明の態様が実現され得る、プロセッサによるオーディオ信号における発話の敵対保護を提供するための例示的な方法を示すフローチャート図である。 やはり本発明の態様が実現され得る、プロセッサによるオーディオ信号における発話の敵対保護を提供するための例示的な方法を示すさらなるフローチャート図である。
コンピューティング・システムは、リソースが、コンピュータ・ネットワークなどの通信システムを介して対話してよく、またはアクセスされてよく、あるいはその両方が行われてよい、「クラウド・コンピューティング」と呼ばれる大規模なコンピューティングを含んでよい。リソースは、サーバなどの1つまたは複数のコンピューティング・デバイス上で実行されるコンピューティング・デバイス、ストレージ・デバイス、アプリケーション、または他のコンピュータ関連デバイスもしくはコンピュータ関連サービス、またはその両方、あるいは以上の組合せのソフトウェアによって行われるシミュレーションまたはソフトウェアによって行われるエミュレーション、あるいはその両方であってよい。例えば、複数のサーバが、要求されるタスクを実現するのに必要とされる処理パワーの量、ストレージ・スペースの量、または他のコンピューティング・リソースの量、あるいはその組合せの量に依存して、サーバにわたって拡大してよく、または縮小してよく、あるいはその両方を行ってよい情報を通信してよく、または共有してよく、あるいはその両方を行ってよい。「クラウド」という語は、そのような構成において対話するコンピューティング・デバイス、コンピュータ・ネットワーク、または他のコンピュータ関連のデバイス、あるいはその組合せの間の相互接続の図のクラウド形状の見かけを暗示する。
さらに、モノのインターネット(IoT)は、オブジェクト、特に器具に埋め込まれ得る、ネットワークを介して接続され得るコンピューティング・デバイスの新登場した概念である。IoTネットワークは、コンピューティング・デバイスが埋め込まれた器具などの物理的オブジェクトである1つまたは複数のIoTデバイスまたは「スマート・デバイス」を含んでよい。これらのオブジェクトの多くは、独立に動作可能であるデバイスであるが、また、これらのデバイスは、制御システムとペアにされてもよく、または代替として、クラウド・コンピューティング環境上で実行されるものなどの分散型制御システムとペアにされてもよい。
したがって、様々な状況においてのコンピューティング・システム、特にクラウド・コンピューティング環境におけるIoTデバイス、モバイル通信デバイス(例えば、スマートフォン、タブレット、スマートウォッチ、またはコンピュータ自体、その他)の使用の豊富な増加が、ユーザに様々な有益な用途をもたらす。
例えば、多くのユーザは、例えば、遠隔通信またはコンピュータ・ネットワークを介して他のユーザと口頭でコミュニケーションをとるためのマイクロホンを有するモバイル・デバイス上などの、様々なコンピューティング・システム上で1つまたは複数のアプリケーションを使用する。一部のコンピューティング・システムは、人工知能(「AI」)を使用してよく、大量のオーディオ信号の自動化された解析を可能にする。特に、音声-テキスト・モデル(speech-to-text model)が、発話された言語を、クラスタリング、テキスト・マイニング、キーワードによるフィルタリング、その他のようなさらなる処理において使用され得るテキスト・フォーマットに転記することを可能にする。悪意ある敵対者が、発話を含むオーディオ信号の伝送を傍受すること、またはデータベースに記憶されたそれらの信号にアクセスすることが、意図されるコミュニケーションのユーザまたは受話者に向けられた悪い結果(例えば、知的財産の窃盗、または産業スパイ行為さえも)をもたらす可能性がある、傍受データ、およびデータ・プライバシの侵害をもたらすことがある。
したがって、本明細書において説明される様々な実施形態は、オーディオ信号における発話の敵対保護を提供することによって可聴データを温存し、保護する新規のソリューションを提供する。一態様において、敵対ノイズ、敵対パッチ、またはその組合せを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐ、1つまたは複数のオーディオ・デバイス上のセキュリティ防御が提供され得る。一態様において、目標領域または「境界」領域(例えば、画面/ディスプレイの部分全体、あるいは1つまたは複数の選択された領域)が、デジタル・オーディオ信号またはアナログ・オーディオ信号に敵対ノイズをもたらすためにデジタル・オーディオ信号またはアナログ・オーディオ信号をキャプチャするために選択され得る。敵対ノイズは、決定されてよく、計算されてよく、または選択されてよく、あるいはその組合せが行われてよい。
敵対ノイズは、例えば、音素レベル、語レベル、または文レベル、あるいはその組合せなどの異なるレベルにおける分類誤り(misclassification)を対象としてもよい。例えば、音素レベルにおいて、敵対ノイズは、個々の音素を、沈黙として、またはランダムに歪められた音素(「理解不能な」転記をもたらす)として誤って分類するように向けられ得る。語レベルにおいて、敵対ノイズは、語全体を誤って分類する(例えば、潜在的に文法を歪めて)ように向けられ得る。文レベルで、敵対ノイズは、文全体を誤って分類するように向けられてよい。
本発明は、オーディオ信号の傍受を妨げる敵対ノイズを語レベルまたは文レベルで導入することができ、システムが、その敵対ノイズを自動的に検出することを阻止して、その結果、データ・プライバシおよびデータ保護を強化することができる(例えば、敵対ノイズが、保護のさらなる層である)。
敵対ノイズは、コミュニケーションにおいていくらかのレイテンシを生じさせる可能性があるので、敵対ノイズが作成されて、オーディオ信号に追加され得るまでに、完全な語/文が伝えられる(例えば、発話される、または発言される)ことが要求される可能性がある。しかし、音素レベルで敵対ノイズを導入することによって、非常に小さいレイテンシ(例えば、標準の音声-テキスト・システムの場合、10ミリ秒(ms))だけしか要求されない。
ユーザは、入力として、オーディオ信号中の発話に適用されるべき敵対ノイズの敵対防御強度を指定してよい。
敵対ノイズ強度は、調整され得る(例えば、入力デバイスを使用するユーザによって、または機械学習動作によって、あるいはその両方によって)。ノイズ強度は、ノイズ強度がオーディオ信号の品質に影響を及ぼす度合に応じて増加されてよく、または低減されてよく、あるいはその組合せが行われてよい。例えば、ノイズ強度は、より高い度合のセキュリティをもたらす、より大きい敵対ノイズ・レベルに調整され得る(より大きい敵対ノイズ・レベルは、コンピュータ・システムがオーディオ信号を正しく分類するのにより多くの困難を生じさせるので)。また、敵対ノイズ強度は、例えば、敵対防御が元の信号を能動的に変更しているオーディオ記録全体の時間の一部分(例えば、ウインドウ長、容認可能な遅延、間隔頻度(interval frequency)、その他)として実施されてもよい。
この場合も、敵対ノイズ強度を増加させること、または低減することは、例えば、ユーザまたはサードパーティ・エンティティが可聴ノイズに気づかない(例えば、意識しない)など、オーディオ信号の品質に影響を及ぼすことがある(例えば、より小さい/より弱い敵対ノイズ・レベル)。代替として、ノイズ強度は、ユーザまたはサードパーティ・エンティティがアーチファクトを知覚するが、依然として、オーディオのコミュニケーション/発話された内容を理解することができるレベル(例えば、より大きい/より強いレベル)に調整され得る。
さらなる態様において、本発明はまた、オーディオ/通信デバイス(例えば、スピーカ)の上で敵対ノイズを再生し、ハッキングされたオーディオ・キャプチャ・デバイスから傍受されたオーディオ信号の自動化された解析を回避するように、オーディオ・キャプチャ・デバイス(例えば、マイクロホン)上でその敵対ノイズを発話と一緒に記録してもよい。
また、本発明は、現在の防御強度の推定(例えば、バッテリ充電ステータスに類似し、現在の防御強度の有効性の推定であってよい)を報告してもよい。
それ故、本発明は、データ(例えば、個人/専有情報)をセキュリティ確保して、傍受、盗聴、または1つまたは複数のデータベース(例えば、オーディオ・データベース)に対する許可のないアクセス、あるいはその組合せを介して不適切に獲得されたオーディオ信号の自動的解析から保護する。
また、本発明は、現在の防御強度(例えば、例えば、バッテリ充電ステータスに類似し、現在の防御強度の有効性の推定であってよい)の推定を報告してもよい。
さらなる態様において、本発明は、オーディオ・キャプチャ・デバイス(例えば、マイクロホン)によってキャプチャされたデジタル・オーディオ信号またはアナログ・オーディオ信号を、そのデジタル・オーディオ信号またはアナログ・オーディオ信号に敵対ノイズを追加することによって変更することができる。敵対ノイズは、音声-テキスト・モデルによるデジタル・オーディオ信号またはアナログ・オーディオ信号の分類誤りを生じさせることができる。例えば、敵対ノイズは、音声-テキスト・モデルが発話をまったく検出することができないようにすることができる(例えば、音声-テキスト・モデルは、沈黙を転記する)。敵対ノイズは、音声-テキスト動作/モデルがランダムな発言を転記するようにさせることができる。敵対ノイズは、音声-テキスト・モデルが、目標とされる転記を生成するようにさせることができる(例えば、ノイズは、「patent(特許)」という語の発言が「toaster(トースタ)」として転記されるように設計され得る)。敵対ノイズの追加は、コンピュータ・システムがオーディオ信号における発話された内容を自動的に構文解析すること、および解析することを防止する。デジタル・オーディオ信号またはアナログ・オーディオ信号に適用された敵対ノイズは、オーディオ信号の自動化された処理に影響を及ぼすが、器官(例えば、人間)が発言を依然として理解するのに十分なだけ低く、ほとんどの場合、追加されたノイズに気づきさえしないことに留意されたい。
本開示は、クラウド・コンピューティングに関する詳細な説明を含むものの、本明細書に記載される教示の実装は、クラウド・コンピューティング環境に限定されないことをあらかじめ理解されたい。むしろ、本発明の実施形態は、現在、知られている、または後に開発される他の任意のタイプのコンピューティング環境と連携して実装されることが可能である。
クラウド・コンピューティングは、最小限の管理作業またはサービスのプロバイダとの最小限の対話しか伴わずに迅速にプロビジョニングされ、リリースされることが可能である、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有されるプールに対する便利な、オンデマンドのネットワーク・アクセスを可能にするためのサービス・デリバリのモデルである。このクラウド・モデルは、少なくとも5つの特徴と、少なくとも3つのサービス・モデルと、少なくとも4つの展開モデルとを含むことが可能である。
特徴は、以下のとおりである。
オンデマンドのセルフ・サービス:クラウド消費者が、サービスのプロバイダとの人間対話を必要とすることなしに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
広いネットワーク・アクセス:能力が、ネットワークを介して利用可能であり、かつ異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム(例えば、モバイル電話、ラップトップ、およびPDA)による使用を促進する標準の機構を介してアクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースが、マルチテナント・モデルを使用して多数の消費者に役立てられるようにプールされ、様々な物理リソースおよび仮想リソースが、デマンドに応じて動的に割当てられ、かつ動的に再割当てされる。消費者が、提供されるリソースの厳密なロケーションを一般に支配することも、知ることもないが、抽象化のより高いレベル(例えば、国、州、またはデータセンタ)でロケーションを指定することができ得るという点でロケーション独立の感覚が存在する。
迅速な弾力性:能力は、急速にスケールアウトすること、および迅速にリリースされて、急速にスケールインすることが行われるように、迅速に、弾力的に、一部の事例においては自動的にプロビジョニングされることが可能である。消費者には、プロビジョニングのために利用可能な能力は、しばしば、無限であるように見え、任意の時点で任意の量で購入されることが可能である。
測定されるサービス:クラウド・システムが、サービスのタイプ(例えば、ストレージ、処理、帯域幅、および活性のユーザ・アカウント)に適切な抽象化の何らかのレベルで計測能力を活用することによってリソース使用を自動的に制御し、最適化する。リソース使用は、監視され、制御され、報告されて、利用されるサービスのプロバイダと消費者の両方に透明性をもたらすことが可能である。
サービス・モデルは、以下のとおりである。
SaaS(Software as a Service):消費者に提供される能力は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。それらのアプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インタフェース(例えば、ウェブ・ベースの電子メール)を介して様々なクライアント・デバイスからアクセス可能である。消費者は、限られたユーザ特有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション能力さえ含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしない。
PaaS(Platform as a Service):消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびプログラミング・ツールを使用して作成された、消費者が作成した、または消費者が獲得したアプリケーションをクラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含め、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、展開されたアプリケーション、および、場合により、アプリケーション・ホスティング環境構成を支配する。
IaaS(Infrastructure as a Service):消費者に提供される能力は、消費者が、オペレーティング・システムと、アプリケーションとを含み得る任意のソフトウェアを展開して、実行することができる、処理、ストレージ、ネットワーク、および他の基本的な計算リソースをプロビジョニングすることである。消費者は、基礎をなすクラウド・インフラストラクチャを管理することも、制御することもしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを支配し、場合により、選定されたネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)の限られた支配を有する。
展開モデルは、以下のとおりである。
プライベート・クラウド:クラウド・インフラストラクチャが、専ら組織のために運用される。クラウド・インフラストラクチャは、その組織によって管理されても、サードパーティによって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。
コミュニティ・クラウド:クラウド・インフラストラクチャが、いくつかの組織によって共有され、共有される関心(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンス配慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、その組織によって管理されても、サードパーティによって管理されてもよく、敷地内に存在しても、敷地外に存在してもよい。
パブリック・クラウド:クラウド・インフラストラクチャが、一般の公衆または大きい業界グループによる利用に供され、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、独自のエンティティであるままであるが、データ移植性およびアプリケーション移植性を可能にする標準化された技術もしくは独自の技術(例えば、クラウド間で負荷分散するためのクラウド・バースティング)によって一緒に結び付けられた2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成である。
クラウド・コンピューティング環境は、ステートレスである性質、低結合、モジュール性、およびセマンティクスの相互運用性に焦点を合わせていて、サービス指向である。クラウド・コンピューティングの中核には、互いに接続されたノードのネットワークを備えたインフラストラクチャがある。
次に、図1を参照すると、クラウド・コンピューティング・ノードの実施例の概略図が示される。コンピューティング・ノード10は、適切なクラウド・コンピューティング・ノードの一実施例に過ぎず、本明細書において説明される本発明の実施形態の用途または機能の範囲について限定を示唆することはまったく意図していない。いずれにせよ、クラウド・コンピューティング・ノード10は、前段で示される機能のいずれかとして実装されること、またはそのような機能のいずれかを実行すること、あるいはその両方が可能である。
クラウド・コンピューティング・ノード10において、他の多数の汎用または専用のコンピューティング・システム環境またはコンピューティング・システム構成で動作可能である、コンピュータ・システム/サーバ12が存在する。コンピュータ・システム/サーバ12と一緒に使用するのに適することがあるよく知られたコンピューティング・システム、コンピューティング環境、またはコンピューティング・システム構成、あるいはその組合せの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルド・デバイスもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セットトップ・ボックス、プログラマブル家庭用電化製品、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および前述のシステムもしくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境、ならびにそれに類するものを含むが、これらには限定されない。
コンピュータ・システム/サーバ12は、コンピュータ・システムによって実行されている、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な脈絡で説明され得る。一般に、プログラム・モジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含んでよい。コンピュータ・システム/サーバ12は、タスクが、通信ネットワークまたはIoTネットワークを介して結び付けられた遠隔処理デバイスによって実行される、分散型クラウド・コンピューティング環境において実施され得る。分散型クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカル・コンピュータ・システム記憶媒体と遠隔コンピュータ・システム記憶媒体の両方に配置され得る。
図1に示されるとおり、クラウド・コンピューティング・ノード10におけるコンピュータ・システム/サーバ12は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム/サーバ12のコンポーネントは、1つまたは複数のプロセッサまたは処理装置16、システム・メモリ28、ならびにシステム・メモリ28を含む様々なシステム・コンポーネントをプロセッサ16に結合するバス18を含んでよいが、これらには限定されない。
バス18は、様々なバス・アーキテクチャのいずれかを使用する、メモリ・バスもしくはメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、およびプロセッサ・バスもしくはローカル・バスを含む、いくつかのタイプのバス構造のいずれかの1つまたは複数を表す。例として、限定としてではなく、そのようなアーキテクチャは、インダストリ・スタンダード・アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、エンハンストISA(EISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト(PCI)バスを含む。
コンピュータ・システム/サーバ12は、通常、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム/サーバ12によってアクセス可能である任意の利用可能な媒体であってよく、そのような媒体は、揮発性媒体と不揮発性媒体、取外し可能な媒体と取外し可能でない媒体の両方を含む。
システム・メモリ28は、ランダム・アクセス・メモリ(RAM)30またはキャッシュ・メモリ32、あるいはその両方のなどの揮発性メモリの形態でコンピュータ・システム可読媒体を含むことが可能である。コンピュータ・システム/サーバ12は、他の取外し可能な/取外し可能でない、揮発性/不揮発性のコンピュータ・システム記憶媒体をさらに含んでよい。単に例として、ストレージ・システム34が、取外し可能でない、不揮発性の磁気媒体(図示されず、通常、「ハードドライブ」と呼ばれる)から読み取ること、およびそのような磁気媒体に書き込むことを行うために備えられることが可能である。図示されないものの、取外し可能な、不揮発性の磁気ディスク(例えば、「フロッピ・ディスク」)から読み取ること、およびそのような磁気ディスクに書き込むことを行うための磁気ディスク・ドライブ、ならびにCD-ROM、DVD-ROM、または他の光媒体などの取外し可能な、不揮発性の光ディスクから読み取ること、またはそのような光ディスクに書き込むことを行うための光ディスク・ドライブが、備えられることが可能である。そのような事例において、各媒体は、1つまたは複数のデータ媒体インタフェースによってバス18に接続されることが可能である。後段でさらに示され、説明されるとおり、システム・メモリ28は、本発明の実施形態の機能を実行すべく構成されたプログラム・モジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでよい。
例として、限定としてではなく、プログラム・モジュール42のセット(少なくとも1つ)を有するプログラム/ユーティリティ40、ならびにオペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データが、システム・メモリ28に記憶され得る。オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、あるいはその何らかの組合せの各々が、ネットワーキング環境の実装形態を含んでよい。プログラム・モジュール42は、一般に、本明細書において説明される本発明の実施形態の機能または方法、あるいはその両方を実行する。
また、コンピュータ・システム/サーバ12は、キーボード、ポインティング・デバイス、ディスプレイ24などの1つまたは複数の外部デバイス14;ユーザがコンピュータ・システム/サーバ12と対話することを可能にする1つまたは複数のデバイス;またはコンピュータ・システム/サーバ12が他の1つまたは複数のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデム、その他);あるいは以上の組合せと通信してもよい。そのような通信は、入出力(I/O)インタフェース22を介して行われることが可能である。さらに、コンピュータ・システム/サーバ12は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、汎用ワイド・エリア・ネットワーク(WAN)、IoTネットワーク、またはパブリック・ネットワーク(例えば、インターネット)、あるいはその組合せなどの1つまたは複数のネットワークと通信することができる。図示されるとおり、ネットワーク・アダプタ20は、バス18を介してコンピュータ・システム/サーバ12の他のコンポーネントと通信する。図示されないものの、他のハードウェア・コンポーネントまたはソフトウェア・コンポーネント、あるいはその組合せが、コンピュータ・システム/サーバ12と連携して使用されることも可能であることを理解されたい。例は、マイクロコード、デバイス・ドライバ、冗長な処理装置、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システム、その他を含むが、これらには限定されない。
次に、図2を参照すると、例示的なクラウド・コンピューティング環境50が示される。図示されるとおり、クラウド・コンピューティング環境50は、例えば、携帯情報端末(PDA)もしくはセルラ電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはその組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが相手として通信してよい1つまたは複数のクラウド・コンピューティング・ノード10を備える。ノード10は、互いに通信してよい。ノード10は、前段で説明されるプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウドあるいはその組合せなどの1つまたは複数のネットワークにおいて、物理的に、または仮想でグループ化されて(図示せず)よい。このことは、クラウド・コンピューティング環境50が、クラウド消費者がそのためにローカル・コンピューティング・デバイス上にリソースを維持する必要のないインフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せをサービスとして提供することを可能にする。図2に示されるコンピューティング・デバイス54A~Nのタイプは、単に例示的であることが意図されること、ならびにコンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続、あるいはその両方を介して(例えば、ウェブ・ブラウザを使用して)任意のタイプのコンピュータ化されたデバイスと通信することができるものと理解される。
次に、図3を参照すると、クラウド・コンピューティング環境50(図2)によって提供される機能抽象化層のセットが示される。図3に示されるコンポーネント、層、および機能は、単に例示的であることが意図され、本発明の実施形態は、それに限定されないことをあらかじめ理解されたい。図示されるとおり、次の層および対応する機能が提供される。
デバイス層55が、クラウド・コンピューティング環境50において様々なタスクを実行するエレクトロニクス、センサ、アクチュエータ、およびその他のオブジェクトを埋め込まれた、またはスタンドアロンのエレクトロニクス、センサ、アクチュエータ、およびその他のオブジェクトである、あるいはその両方の物理デバイスまたは仮想デバイス、あるいはその両方を含む。デバイス層55におけるデバイスの各々が、そのデバイスから獲得された情報が他の抽象化層に提供され得るように、または他の抽象化層からの情報がそのデバイスに提供され得るように、あるいはその両方が行われ得るように、他の機能抽象化層に対するネットワーキング能力を組み込む。一実施形態において、デバイス層55に含まれる様々なデバイスは、「モノのインターネット」(IoT)としてひとまとめにして知られるエンティティのネットワークを組み込んでよい。そのようなエンティティのネットワークは、当業者には認識されるとおり、極めて多種多様な目的を実現するデータの相互通信、収集、および配布を可能にする。
図示されるデバイス層55は、図示されるとおり、センサ52と、アクチュエータ53と、組み込まれた処理エレクトロニクス、センサ・エレクトロニクス、およびネットワーキング・エレクトロニクスを有する「学習」サーモスタット56と、カメラ57と、制御可能な家庭用コンセント/レセプタクル58と、制御可能な電気スイッチ59とを含む。他の可能なデバイスは、様々なさらなるセンサ・デバイス、ネットワーキング・デバイス、電子デバイス(遠隔制御デバイスなどの)、さらなるアクチュエータ・デバイス、冷蔵庫または洗濯機/乾燥機などのいわゆる「スマート」器具、ならびに多種多様な幅広い他の可能な互いに接続されたオブジェクトを含んでよいが、これらには限定されない。
ハードウェアおよびソフトウェア層60が、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム61、RISC(Reduced Instruction Set Computer)アーキテクチャ・ベースのサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65、ならびにネットワークおよびネットワーキング・コンポーネント66を含む。一部の実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67と、データベース・ソフトウェア68とを含む。
仮想化層70が、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよび仮想オペレーティング・システム74、ならびに仮想クライアント75が提供され得る抽象化層を提供する。
一実施例において、管理層80が、後段で説明される機能を提供することが可能である。リソース・プロビジョニング81が、クラウド・コンピューティング環境内でタスクを実行するのに利用される計算リソースおよび他のリソースの動的調達を提供する。計測および価格設定82が、クラウド・コンピューティング環境内でリソースが利用されるにつれての費用追跡、ならびにこれらのリソースの消費に関する料金請求もしくはインボイス送付を提供する。一実施例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを備えてよい。セキュリティが、クラウド消費者およびタスクに関する識別情報検証、ならびにデータおよび他のリソースに関する保護を提供する。ユーザ・ポータル83が、クラウド・コンピューティング環境へのアクセスを消費者およびシステム管理者に提供する。サービス・レベル管理84が、要求されるサービス・レベルが満たされるようにクラウド・コンピューティング・リソース割当ておよびクラウド・コンピューティング・リソース管理を提供する。サービス・レベル・アグリーメント(SLA)計画および履行85が、SLAにより将来の要件が予期されるクラウド・コンピューティング・リソースに関する事前取決め、およびそのようなリソースの調達を提供する。
作業負荷層90が、クラウド・コンピューティング環境が利用され得る機能の実施例を提供する。この層から提供され得る作業負荷および機能の実施例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育デリバリ93、データ解析処理94、トランザクション処理95、ならびに本発明の例示される実施形態の脈絡において、オーディオ信号において敵対保護を提供するために作業負荷および機能96を使用する様々なコンピュータによって制御されるデバイスのための様々な構成設定を含む。さらに、オーディオ信号において敵対保護を提供するために作業負荷および機能96は、データ解析(様々な環境センサからのデータ収集およびデータ処理を含む)、画像解析、タスクおよびデバイス解析などの動作、またはデータ解析機能、あるいはその組合せを含んでよい。また、オーディオ信号において敵対保護を提供するために作業負荷および機能96は、本発明の例示される実施形態の様々な目的を実現すべく、ハードウェアおよびソフトウェア60、仮想化70、管理80、および他の作業負荷90(例えば、データ解析処理94などの)における部分などの、様々な抽象化層の他の部分と連携して機能してもよいことが当業者には認識されよう。
次に、図4を参照すると、例示される実施形態の様々な機能による例示的な機能コンポーネント400を示すブロック図が、示される。一態様において、図1~図3において説明されるデバイス、コンポーネント、モジュール、または機能、あるいはその組合せの各々が、図4のデバイス、コンポーネント、モジュール、および機能に適用されてもよい。また、図1~図3の動作およびステップのうちの1つまたは複数が、図4の1つまたは複数の動作またはアクションに含められてもよい。インテリジェントな敵対保護サービス402を含んでよいコンピュータ・システム/サーバ12が、再び示される。
一態様において、コンピュータ・システム/サーバ12が、本明細書において説明されるとおり、仮想化されたコンピューティング・サービス(すなわち、仮想化されたコンピューティング、仮想化されたストレージ、仮想化されたネットワーキング、その他)を1つまたは複数のコンピューティング・デバイスに提供してよい。より具体的には、コンピュータ・システム/サーバ12は、ハードウェア基板上で実行されている仮想化されたコンピューティング、仮想化されたストレージ、仮想化されたネットワーキング、およびその他の仮想化されたサービスを提供してよい。
一態様において、コンピュータ・システム/サーバ12は、例えば、インテリジェントなオーディオ・キャプチャ/生成デバイス430(例えば、補聴器、マイクロホン、スピーカ、通信デバイスその他)またはユーザ機器420(例えば、1つまたは複数のプロセッサ、メモリ、または無線通信技術、あるいはその組合せを有してよい、例えば、カメラ、テレビ、スマートフォン、スマートウォッチ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット、スマートウォッチ、または別の電子デバイス、あるいはその組合せなどのモノのインターネット「IoT」コンピューティング・デバイスまたは他のタイプのオーディオ生成デバイスもしくはオーディオ・キャプチャ・デバイス)、あるいはその組合せなどの1つまたは複数のコンピューティング・デバイスと通信していてよい、または関連していてよい、あるいはその両方の敵対保護サービス402(例えば、インテリジェントな敵対保護サービス402)を提供してよい。
インテリジェントな敵対保護サービス402、インテリジェントなオーディオ・キャプチャ/生成デバイス430、またはユーザ機器420、あるいはその組合せは、各々、互いに関連付けられてよく、またはコンピューティングネットワーク、無線通信ネットワーク、または通信を可能にするその他のネットワーク手段(各々が図4において「ネットワーク」18としてひとまとめにして参照される)などの1つまたは複数の通信方法によって互いに通信してよく、あるいはその組合せが行われてよい。一態様において、インテリジェントな敵対保護サービス402は、インテリジェントなオーディオ・キャプチャ/生成デバイス430またはユーザ機器420、あるいはその両方にローカルでインストールされ得る。代替として、インテリジェントな敵対保護サービス402は、インテリジェントなオーディオ・キャプチャ/生成デバイス430またはユーザ機器420、あるいはその両方の各々の外部に(例えば、クラウド・コンピューティング・サーバを介して)配置され得る。
インテリジェントな敵対保護サービス402は、本発明の様々な態様による様々な計算機能、データ処理機能、およびその他の機能を実行する処理装置16を組み込んでよい。選好および関心のデータベース404(例えば、知識ドメインまたはオントロジ)が、セキュリティ防御コンポーネント406、敵対ノイズ・コンポーネント408、機械学習コンポーネント410、または記録/転記コンポーネント414、あるいはその組合せと一緒に示される。
セキュリティ防御コンポーネント406は、敵対ノイズを使用してオーディオ信号の自動化されたオーディオ解析に対するセキュリティ防御を1つまたは複数のオーディオ・デバイス上で提供してよい。セキュリティ防御コンポーネント406は、敵対ノイズ・コンポーネント408と連携して、1つまたは複数の画像ディスプレイ・デバイスの1つまたは複数のディスプレイ・フレームに敵対ノイズを適用してよい。そうする際、敵対ノイズ・コンポーネント408は、デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき敵対ノイズのタイプを決定してよい、または選択してよい。セキュリティ防御コンポーネント406は、敵対ノイズ・コンポーネント408と連携して、その後、デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せにおけるコミュニケーション(例えば、音素レベル、語レベル、または文レベル、あるいはその組合せのレベル、その他におけるコミュニケーション・データ)に敵対ノイズを適用してよい。
さらなる態様において、セキュリティ防御コンポーネント406は、機械学習コンポーネント410と連携して、機械学習動作を使用してオーディオ信号を解析してよい。一態様において、オーディオ信号は、ユーザから、または、例えば、知識ドメイン・コンポーネント412におけるような、オーディオ・データベースに配置された記録メッセージから、あるいはその組合せからリアルタイムで通信されてよく、送信されてよい。
セキュリティ防御コンポーネント406は、機械学習コンポーネント410と連携して、敵対ノイズの理論上のセキュリティ防御強度を推定してよい。セキュリティ防御コンポーネント406は、機械学習コンポーネント410と連携して、フィードバック・ループ動作を介して敵対ノイズの実際のセキュリティ防御強度を推定してよい。セキュリティ防御コンポーネント406は、敵対ノイズのセキュリティ防御強度の度合を調整してよい。
理論上の防御強度は、パフォーマンス低下のレベルまたは度合(例えば、音声-テキストAIモデルのパフォーマンスがどれだけ低下するか)を、現在のノイズ・レベルの関数として推定することによって決定されることに留意されたい。そのような推定は、オフライン測定に基づいてよい。実際の防御強度は、敵対ノイズを伴うオーディオ信号と敵対ノイズを伴わないオーディオ信号に関する音声-テキストAIモデルの出力の差を決定してよい。実際の防御強度は、理論上の防御強度よりも獲得するのに計算コストがより高い可能性があり、他方、実際の防御強度は、現在のノイズ・レベルの有効性のより正確な測度である。
オーディオ・ファイル、記録、または転記、あるいはその組合せのデータベースは、知識のドメインを表す概念、キーワード、表現のオントロジであってよい、知識のドメイン412を含んでよく、または知識のドメイン412に関連付けられてよく、あるいはその両方であってよい。例えば、すべての記録されたオーディオ・ファイルが、オーディオ・ファイル/記録内のコミュニケーションのタイプに基づいて、分類されてよく、編成されてよく、または保存/取得されてよく、あるいはその組合せが行われてよい。一態様において、「ドメイン」という術語は、その術語の通常の意味を有することが意図される術語である。さらに、「ドメイン」という術語は、特定の或る主題または特定の複数の主題と関係する材料、情報、内容、またはその他のリソース、あるいはその組合せの体系または集まりに関する専門知識の領域を含んでよい。ドメインは、任意の特定の題材または選択された主題の組合せと関係する情報を指すことが可能である。オントロジという術語もまた、その術語の通常の意味を有することが意図される術語である。一態様において、その術語の最も広い意味におけるオントロジという術語は、タクソノミ、シソーラス、ボキャブラリ、およびこれに類するものを含むが、これらには限定されない、オントロジとしてモデル化され得る任意のものを含んでよい。例えば、オントロジは、関心対象のドメインと関係のある情報または内容、あるいは特定のクラスまたは概念の内容を含んでよい。オントロジは、ソースからの情報をオントロジにモデル、モデルの属性、またはオントロジ内のモデル間の関連付けとして追加して、ソースと同期された情報で継続的に更新され得る。
さらに、知識ドメイン412は、例えば、1つまたは複数のインターネット・ドメイン、ウェブページ、またはそれに類するものに対するリンクなどの1つまたは複数の外部リソースを含んでよい。例えば、テキスト・データが、オーディオ・データと関係するさらなる情報を説明してよく、解説してよく、または提供してよいウェブページにハイパーリンクされ得る。
さらなる態様において、コンピュータ・システム/サーバ12のセキュリティ防御コンポーネント406が、本発明の様々な態様を実現すべく処理装置16と協調して動作してよい。例えば、セキュリティ防御コンポーネント406は、例えば、ユーザ機器420またはインテリジェントなオーディオ・キャプチャ/生成デバイス430、あるいはその組合せなどの1つまたは複数のデバイスから通信されたオーディオ・データを解析する様々なデータ解析機能を実施してよい。
セキュリティ防御コンポーネント406は、オーディオ・データに関連する各物理特性を受信してよく、解析してよい。セキュリティ防御コンポーネント406は、ユーザ機器420またはインテリジェントなオーディオ・キャプチャ/生成デバイス430、あるいはその両方に関するオーディオ・データ(例えば、転記され得るオーディオ・データ)を認知的に受信してよく、または認知的に検出してよく、あるいはその両方を行ってよい。
セキュリティ防御コンポーネント406、敵対ノイズ・コンポーネント408、または機械学習コンポーネント410、あるいはその組合せが、オーディオ・データを検出すべく、例えば、ユーザ機器420またはインテリジェントなオーディオ・キャプチャ/生成デバイス430、あるいはその組合せ(例えば、無線機、電話、テレビ、コンピュータ、その他)などの1つまたは複数のオーディオ・データ・ソースにアクセスしてよく、それらを監視してよい。例えば、ユーザ機器420またはインテリジェントなオーディオ・キャプチャ/生成デバイス430、あるいはその組合せが、ユーザ440(例えば、音声コマンド)からのコミュニケーションをブロードキャストしていてよい。セキュリティ防御コンポーネント406、敵対ノイズ・コンポーネント408、または機械学習コンポーネント410、あるいはその組合せが、1名または複数名のユーザからのコミュニケーション(例えば、音声コマンド)を監視していてよく、それにアクセスしていてよい。
オーディオ・データを検出することの一環として、セキュリティ防御コンポーネント406、敵対ノイズ・コンポーネント408、または機械学習コンポーネント410、あるいはその組合せが、オーディオ・データから、1つまたは複数のオーディオ・データのソース、オーディオ・データに関連付けられた文脈要因、オーディオ・データの1つまたは複数の特徴、ユーザの1つまたは複数の意味上の句、文、語、またはその組合せを識別してよい。
また、記録/転記コンポーネント414が、ユーザ440からのオーディオ・データ・コミュニケーションを動的に記録すること、および動的に記憶することを行ってもよい。例えば、機械学習が、ユーザ440によって作成された、またはユーザ440に向けられた、あるいはその組合せの各コミュニケーション/オーディオ・データを学習してよく、記録してよい。すると、記録/転記コンポーネント414は、コミュニケーション・データを記録(例えば、オーディオ転記を記録すること、転記すること、または保存すること、あるいはその組合せを)してよく、1つまたは複数のキーワード/句を抽出してよく、または音声-テキスト形態を転記すべくNLPを使用してよく、あるいはその組合せを行ってよい。また、オーディオ・データと関係する他の関係者による語、句、または完全な文、あるいはその組合せ(例えば、会話のすべてまたは部分)が、NLP抽出動作(例えば、NLPベースのキーワード抽出)に基づいてテキスト形態で転記されてもよい。テキスト・データは、同一のオーディオ・データ(例えば、会話のすべてまたは部分)が、後の時点で敵対保護サービス402によって聞かれてよく、または聴取され得るように、中継されてよく、送られてよく、記憶されてよく、またはさらに処理されてよい。
したがって、セキュリティ防御コンポーネント406は、敵対ノイズ・コンポーネント408または機械学習コンポーネント410、あるいはその両方と連携して、オーディオ・データ(例えば、音声-テキスト・データ)のすべてまたは部分を変形してよい。セキュリティ防御コンポーネント406は、敵対ノイズ・コンポーネント408または機械学習コンポーネント410、あるいはその両方と連携して、敵対ノイズの適用を示すアラートをユーザ440に送ることさえしてよい。すると、ユーザ440は、敵対ノイズの強度レベルを調整してよい(例えば、増加させてよく、または低減してよく、あるいはその組合せを行ってよい)。
次に、図5を参照すると、グラフ図500が、オーディオ信号における発話の敵対保護を提供するための例示的な動作を示す。すなわち、グラフ図500は、オーディオ信号に対する敵対攻撃を概略で表すものを示す。一態様において、図1~図4において説明されるデバイス、コンポーネント、モジュール、または機能、あるいはその組合せの各々が、図5のデバイス、コンポーネント、モジュール、および機能に適用されてもよい。また、図1~図4の1つまたは複数のコンポーネント、機能、またはフィーチャ、あるいはその組合せが、図5において実施されてもよい。本明細書において説明される他の実施形態において用いられる同様の要素、コンポーネント、モジュール、サービス、アプリケーション、または機能、あるいはその組合せの反復的な説明は、簡単にするために省略される。
一態様において、グラフ500のX軸501は、時間を表し、Y軸502は、オーディオ信号の振幅または信号強度を表す。元のオーディオ信号503(例えば、良性であり、アナログであっても、デジタルであってもよい)が、実線として表される。敵対オーディオ信号504が、破線として表され、敵対ノイズを使用して変形される。
敵対ノイズが適用されると、出力文505は、例えば、元のオーディオ信号503を入力として音声-テキスト・モデル(例えば、回帰型ニューラル・ネットワーク、その他)から獲得されるような元のオーディオ信号503に対応する。
出力文506が、目標を有する敵対ノイズ防御を適用しながらオーディオ信号を入力として使用して音声-テキスト・モデル(例えば、回帰型ニューラル・ネットワーク、その他)によって作成される。このことは、人間によって検出されることが困難である出力文506に対する小さい微妙な変化をもたらす。しかし、出力文507が、目標を有さない敵対ノイズ防御を伴うオーディオ信号を入力として使用して音声-テキスト・モデル(例えば、回帰型ニューラル・ネットワーク、その他)によって作成される。このことは、入力文に完全にランダムな変化をもたらす。それ故、出力文506および出力文507は、敵対オーディオ信号504に適用された敵対ノイズ強度の度合またはレベルに基づくもたらされる出力文を例示する。
それ故、敵対オーディオ信号504は、敵対ノイズを適用することによって、オーディオ・キャプチャ・デバイスによってキャプチャされてよく、デジタルであっても、アナログであってもよい元のオーディオ信号503を変形することの結果である。
次に、図6を参照すると、図が、オーディオ信号における発話の敵対保護を提供するための動作である例示的な攻撃ベクトル動作600を示す。一態様において、図1~図4において説明されるデバイス、コンポーネント、モジュール、または機能、あるいはその組合せの各々が、図6のデバイス、コンポーネント、モジュール、および機能に適用されてもよい。また、図1~図4の1つまたは複数のコンポーネント、機能、またはフィーチャ、あるいはその組合せが、図6において実施されてもよい。本明細書において説明される他の実施形態において用いられる同様の要素、コンポーネント、モジュール、サービス、アプリケーション、または機能、あるいはその組合せの反復的な説明は、簡単にするために省略される。
動作の際、攻撃ベクトル動作600は、ユーザ601(例えば、「アリス」として識別されたユーザ/話者)がオーディオ信号を記録して、オーディオ信号を送信すること、またはオーディオ信号をデータベースに記憶すること、あるいはその両方を所望することを含む。オーディオ・キャプチャ/生成デバイス605(例えば、マイクロホン)が、例えば、マイクロホン/機械学習動作を用いてユーザ601によって提供されるオーディオ・メッセージを記録してよく/転記してよく、作成されたオーディオ信号を敵対セキュリティ防御コンポーネント604に通信してよく、送信してよく、または送ってよく、あるいはその組合せを行ってよい。
敵対セキュリティ防御コンポーネント604は、表される元のオーディオ信号(例えば、発話)に最小限の変化しか、またはまったく変化をもたらさず、受話者602(例えば、ユーザ「ボブ」)のためのメッセージの理解に影響を及ぼすことなしに、ユーザ601によって伝えられる元のオーディオ信号に選択されたレベルの敵対ノイズを追加してよい(例えば、音素レベル、語レベル、または文レベル、あるいはその組合せのレベルで敵対ノイズを追加してよい)。敵対セキュリティ防御コンポーネント604は、ブロック606におけるとおり、作成された敵対保護されたオーディオ信号(例えば、適用された敵対ノイズを有するオーディオ信号)を受話者602に通信してよく、送信してよく、記憶してよく、または送ってよく、あるいはその組合せを行ってよい。また、敵対セキュリティ防御コンポーネント604は、敵対保護されたオーディオ信号を解析することによって現在の敵対ノイズ強度レベルを推定してもよく、作成された敵対保護されたオーディオ信号を通信すること、送信すること、記憶すること、または送ること、あるいはその組合せを行うことに先立って、敵対保護されたオーディオ信号を変形する。一態様において、フィードバック・ループが、敵対ノイズ強度レベルを解析すること、または推定すること、あるいはその両方を行うことを支援すべく、オーディオ・キャプチャ/生成デバイス605(例えば、マイクロホン)を介して使用され得る。
受話者602(例えば、「ボブ」として識別されたユーザ)が、オーディオ信号を受信していてよく、ユーザ601によって伝えられるメッセージを理解してよい。敵対者603(例えば、敵対聴取者、「イブ」)が、ユーザ601と受話者602の間の送信される、または記憶される、あるいはその両方が行われるメッセージを聴取しており、オーディオ信号を解析すべく機械学習モデルを使用している。
敵対者603は、送信された、または記憶された敵対保護されたオーディオ信号にアクセスして、窃盗した敵対保護されたオーディオ信号を分類しようと試みて、自動化された解析動作を適用しようと試みる。しかし、敵対保護されたオーディオ信号に適用された敵対ノイズが、自動化された解析を妨害して、または自動化された解析の成功率を低減して、その結果、ユーザ601によって通信されるオーディオ信号を温存し、保護する。
次に、図7を参照すると、例示される実施形態の様々な態様が実装され得る、プロセッサによるオーディオ信号において敵対保護を提供するためのさらなる方法700が、示される。機能700は、命令が少なくとも1つのコンピュータ可読媒体または1つの非一過性の機械可読記憶媒体に含まれる、機械上の命令として実行される方法として実装され得る。機能700は、ブロック702において開始してよい。
セキュリティ防御は、ブロック704におけるとおり、敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析に対して1つまたは複数のオーディオ・デバイス上で提供され得る。機能700は、ブロック706において終了してよい。
次に、図8を参照すると、例示される実施形態の様々な態様が実装され得る、プロセッサによるオーディオ信号において敵対保護を提供するためのさらなる方法800が、示される。機能800は、命令が少なくとも1つのコンピュータ可読媒体または1つの非一過性の機械可読記憶媒体に含まれる、機械上の命令として実行される方法として実装され得る。機能800は、ブロック802において開始してよい。
敵対ノイズが、ブロック804におけるとおり、選択され得る。或るレベルの敵対ノイズ強度の敵対ノイズが、ブロック806におけるとおり、オーディオ信号に適用され得る。オーディオ信号は、ブロック808におけるとおり、敵対ノイズで変形され得る。機能800は、ブロック810で終了してよい。
一態様において、図7または図8の少なくとも1つのブロックに関連して、またはそのようなブロックの一環として、あるいはその両方で、方法700または方法800、あるいはその両方の動作は、以下の各々を含んでよい。方法700または方法800、あるいはその両方の動作は、デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに敵対ノイズを適用してよく、または通信においてデジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき敵対ノイズのタイプを決定してよく、もしくは選択してよく、あるいは以上の組合せを行ってよい。
方法700または方法800、あるいはその両方の動作は、ユーザからリアルタイムでまたはオーディオ・データベースに配置された記録メッセージから通信され送信されるオーディオ信号を、機械学習動作を使用して解析してよい。
方法700または方法800、あるいはその両方の動作は、敵対ノイズの理論上のセキュリティ防御強度を推定してよく、またはフィードバック・ループ動作を介して敵対ノイズの実際のセキュリティ防御強度を推定してよく、あるいはその両方を行ってよい。方法700または方法800、あるいはその両方の動作は、敵対ノイズのセキュリティ防御強度の度合を調整してよい。
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(または複数の媒体)を含んでよい。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持すること、および記憶することができる有形のデバイスであることが可能である。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、または以上の任意の適切な組合せであってよいが、これらには限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下、すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、消去可能なプログラマブル読取り専用メモリ(EPROMもしくはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ・ディスク、命令が記録されているパンチカードもしくは溝の中の隆起構造などの機械的に符号化されたデバイス、および以上の任意の適切な組合せを含む。本明細書において使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝達媒体を介して伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または配線を介して伝送される電気信号などの一過性の信号そのものであると解釈されるべきではない。
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードされることが可能である。ネットワークは、銅伝送ケーブル、伝送光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備えてよい。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶されるようにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(R)、C++、もしくはそれに類するものなどのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくはそれに類似したプログラミング言語などの従来の手続き型プログラミング言語を含め、1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で実行されても、一部がユーザのコンピュータ上で実行されても、スタンドアロンのソフトウェア・パッケージとして実行されても、一部がユーザのコンピュータ上で、かつ一部が遠隔コンピュータ上で実行されても、全体が遠隔コンピュータもしくは遠隔サーバの上で実行されてもよい。全体が遠隔コンピュータもしくは遠隔サーバの上で実行されるシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてよく、または接続は、外部コンピュータに対して行われてもよい(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)。一部の実施形態において、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、本発明の態様を実行するために、電子回路をカスタマイズするようにコンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行してよい。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施されることが可能であることが理解されよう。
これらのコンピュータ可読プログラム命令は、そのコンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行されるそれらの命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作の態様を実施する命令を含む製造品を備えるべく、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに特定の様態で機能するように指示することができるものであってもよい。
また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスの上で実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施するように、コンピュータによって実施されるプロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイスの上で一連の動作ステップを実行させるものであってもよい。
図におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を例示する。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を備える、命令のモジュール、セグメント、または部分を表すことが可能である。一部の代替の実装形態において、ブロックに記載される機能は、図に記載される順序を外れて生じてよい。例えば、連続して示される2つのブロックが、実際には、実質的に同時に実行されてよく、またはそれらのブロックが、ときとして、関与する機能に依存して、逆の順序で実行されてよい。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行する、または専用ハードウェア命令とコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実施されることが可能であることにも留意されたい。

Claims (20)

  1. 1つまたは複数のプロセッサによる、オーディオ信号において敵対保護を提供するための方法であって、
    1つまたは複数のオーディオ・デバイス上で、敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐセキュリティ防御を提供することを含む、方法。
  2. デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに前記敵対ノイズを適用することをさらに含む、請求項1に記載の方法。
  3. 通信においてデジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき前記敵対ノイズのタイプを決定すること、または選択することをさらに含む、請求項1に記載の方法。
  4. ユーザからリアルタイムで、またはオーディオ・データベースに配置された記録メッセージから、通信され送信される前記オーディオ信号を、機械学習動作を使用して解析することをさらに含む、請求項1に記載の方法。
  5. 前記敵対ノイズの理論上のセキュリティ防御強度を推定することをさらに含む、請求項1に記載の方法。
  6. フィードバック・ループ動作を介して前記敵対ノイズの実際のセキュリティ防御強度を推定することをさらに含む、請求項1に記載の方法。
  7. 前記敵対ノイズのセキュリティ防御強度の度合を調整することをさらに含む、請求項1に記載の方法。
  8. オーディオ信号において敵対保護を提供するためのシステムであって、
    実行可能命令を有する1つまたは複数のコンピュータを備え、
    前記実行可能命令が、実行されると、システムに、
    1つまたは複数のオーディオ・デバイス上で、敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐセキュリティ防御を提供させる、システム。
  9. 前記実行可能命令が、デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに前記敵対ノイズを適用する、請求項8に記載のシステム。
  10. 前記実行可能命令が、通信においてデジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき前記敵対ノイズのタイプを決定する、または選択する、請求項8に記載のシステム。
  11. 前記実行可能命令が、ユーザからリアルタイムで、またはオーディオ・データベースに配置された記録メッセージから、通信され送信される前記オーディオ信号を、機械学習動作を使用して解析する、請求項8に記載のシステム。
  12. 前記実行可能命令が、前記敵対ノイズの理論上のセキュリティ防御強度を推定する、請求項8に記載のシステム。
  13. 前記実行可能命令が、フィードバック・ループ動作を介して前記敵対ノイズの実際のセキュリティ防御強度を推定する、請求項8に記載のシステム。
  14. 前記実行可能命令が、前記敵対ノイズのセキュリティ防御強度の度合を調整する、請求項8に記載のシステム。
  15. 1つまたは複数のプロセッサによる、オーディオ信号において敵対保護を提供するためのコンピュータ・プログラム製品であって、
    コンピュータ・プログラム製品が、コンピュータ可読プログラム・コード部分を記憶している非一過性のコンピュータ可読記憶媒体を備え、前記コンピュータ可読プログラム・コード部分が、
    1つまたは複数のオーディオ・デバイス上で、敵対ノイズを使用することによってオーディオ信号の自動化されたオーディオ解析を防ぐセキュリティ防御を提供する実行可能部分を含む、コンピュータ・プログラム製品。
  16. デジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに前記敵対ノイズを適用する実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
  17. 通信においてデジタル・オーディオ信号、アナログ・オーディオ信号、またはその組合せに対して適用すべき前記敵対ノイズのタイプを決定する、または選択する実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
  18. ユーザからリアルタイムで、またはオーディオ・データベースに配置された記録メッセージから、通信され送信される前記オーディオ信号を、機械学習動作を使用して解析する実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
  19. 前記敵対ノイズの理論上のセキュリティ防御強度を推定する、またはフィードバック・ループ動作を介して前記敵対ノイズの実際のセキュリティ防御強度を推定する実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
  20. 前記敵対ノイズのセキュリティ防御強度の度合を調整する実行可能部分をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
JP2022519488A 2019-10-14 2020-10-02 オーディオ信号における発話の敵対保護の提供 Pending JP2022552119A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/601,468 US10896664B1 (en) 2019-10-14 2019-10-14 Providing adversarial protection of speech in audio signals
US16/601,468 2019-10-14
PCT/IB2020/059262 WO2021074736A1 (en) 2019-10-14 2020-10-02 Providing adversarial protection of speech in audio signals

Publications (2)

Publication Number Publication Date
JP2022552119A true JP2022552119A (ja) 2022-12-15
JPWO2021074736A5 JPWO2021074736A5 (ja) 2022-12-22

Family

ID=74180615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022519488A Pending JP2022552119A (ja) 2019-10-14 2020-10-02 オーディオ信号における発話の敵対保護の提供

Country Status (5)

Country Link
US (1) US10896664B1 (ja)
JP (1) JP2022552119A (ja)
CN (1) CN114600187A (ja)
GB (1) GB2604277A (ja)
WO (1) WO2021074736A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362822B (zh) * 2021-06-08 2022-09-30 北京计算机技术及应用研究所 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
US11856024B2 (en) 2021-06-18 2023-12-26 International Business Machines Corporation Prohibiting voice attacks
CN114528397B (zh) * 2022-01-02 2024-02-02 西安电子科技大学 对抗文本攻击防御方法、系统、介质、计算机设备及终端
US20230281335A1 (en) * 2022-03-03 2023-09-07 Lenovo (Singapore) Pte. Ltd Privacy system for an electronic device
CN117877506B (zh) * 2024-03-11 2024-05-10 北京建筑大学 一种对语音内容进行增强的对抗性攻击方法、装置和系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040125922A1 (en) * 2002-09-12 2004-07-01 Specht Jeffrey L. Communications device with sound masking system
US7643637B2 (en) * 2004-02-10 2010-01-05 Microsoft Corporation Efficient code constructions via cryptographic assumptions
JP4162620B2 (ja) * 2004-03-18 2008-10-08 仁 水谷 動物の体動検出装置および体動検出方法
ATE373302T1 (de) 2004-05-14 2007-09-15 Loquendo Spa Rauschminderung für die automatische spracherkennung
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
JP2007150737A (ja) 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9037113B2 (en) * 2010-06-29 2015-05-19 Georgia Tech Research Corporation Systems and methods for detecting call provenance from call audio
JP5991115B2 (ja) * 2012-09-25 2016-09-14 ヤマハ株式会社 音声マスキングのための方法、装置およびプログラム
US9269363B2 (en) 2012-11-02 2016-02-23 Dolby Laboratories Licensing Corporation Audio data hiding based on perceptual masking and detection based on code multiplexing
US9390725B2 (en) 2014-08-26 2016-07-12 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
US10540957B2 (en) 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US9998434B2 (en) * 2015-01-26 2018-06-12 Listat Ltd. Secure dynamic communication network and protocol
US9704509B2 (en) 2015-07-29 2017-07-11 Harman International Industries, Inc. Active noise cancellation apparatus and method for improving voice recognition performance
US10242673B2 (en) * 2016-12-07 2019-03-26 Google Llc Preventing of audio attacks using an input and an output hotword detection model
US9954803B1 (en) 2017-01-30 2018-04-24 Blackberry Limited Method of augmenting a voice call with supplemental audio
CN107846259A (zh) * 2017-11-19 2018-03-27 天津光电安辰信息技术股份有限公司 一种全向录音屏蔽装置及其实现方法
CN108831471B (zh) * 2018-09-03 2020-10-23 重庆与展微电子有限公司 一种语音安全保护方法、装置和路由终端
CN109617644A (zh) * 2018-12-14 2019-04-12 点阵纵横科技(北京)有限责任公司 一种录音干扰器装置

Also Published As

Publication number Publication date
GB2604277A (en) 2022-08-31
GB202206097D0 (en) 2022-06-08
WO2021074736A1 (en) 2021-04-22
US10896664B1 (en) 2021-01-19
CN114600187A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
US10733384B2 (en) Emotion detection and expression integration in dialog systems
JP2022552119A (ja) オーディオ信号における発話の敵対保護の提供
JP2021505032A (ja) オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング
US10971168B2 (en) Dynamic communication session filtering
US10249320B2 (en) Normalizing the speaking volume of participants in meetings
US20200092339A1 (en) Providing device control instructions for increasing conference participant interest based on contextual data analysis
US11158210B2 (en) Cognitive real-time feedback speaking coach on a mobile device
CN112118215A (zh) 基于话题确定的方便实时会话
US11688412B2 (en) Multi-modal framework for multi-channel target speech separation
JP2023541879A (ja) 分離されたオーディオ入力からの音声内容のデータ解析およびダイレーションを使用する音声認識
US10991361B2 (en) Methods and systems for managing chatbots based on topic sensitivity
US20230395091A1 (en) Neural-echo: an unified deep neural network model for acoustic echo cancellation and residual echo suppression
US11257510B2 (en) Participant-tuned filtering using deep neural network dynamic spectral masking for conversation isolation and security in noisy environments
JP2023507703A (ja) キュー内で待機する呼に関する最適化
US20220284885A1 (en) All deep learning minimum variance distortionless response beamformer for speech separation and enhancement
US20230085012A1 (en) Ai based system and method for corners of trust for a caller
JP2023540479A (ja) データ解析を使用した音声認識及びインターレース方式のオーディオ入力の拡張
US11676599B2 (en) Operational command boundaries
US10904025B2 (en) Web meeting bookmarking system based on level of relevancy and importance
US10795671B2 (en) Audiovisual source code documentation
US9514745B2 (en) Voice focus enabled by predetermined triggers
US11967332B2 (en) Method and system for automatic detection and correction of sound caused by facial coverings
US20230419047A1 (en) Dynamic meeting attendee introduction generation and presentation
US20230152758A1 (en) Dynamic mitigation of fan noise during e-conference based on real-time and retroactive data
US20230069628A1 (en) External language model fusing method for speech recognition

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240409

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20240520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240709