JP2024019082A

JP2024019082A - システム、コンピュータ実装方法、及びコンピュータプログラム（自動音声検出を改善するためのボイスアクティビティ検出統合）

Info

Publication number: JP2024019082A
Application number: JP2023121193A
Authority: JP
Inventors: ノヴィタサリサシ; Novitasari Sashi; 隆福田; Takashi Fukuda; 岳人倉田; Takehito Kurata
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2022-07-28
Filing date: 2023-07-26
Publication date: 2024-02-08
Also published as: CN117476035A; US20240038221A1

Abstract

【課題】ＶＡＤセグメント化された発話が長い非音声部分を含む及び／又は非音声から成る場合、予期しないエラーが生じ得る。【解決手段】ＡＳＲ情報を用いてＲＮＮ－Ｔをマルチタスク訓練することを促進するためのシステム、コンピュータ実装方法、及びコンピュータプログラム製品が提供される。一実施形態によると、システムは、コンピュータ実行可能コンポーネントを格納するメモリ及びメモリに格納されたコンピュータ実行可能コンポーネントを実行するプロセッサを備え得る。コンピュータ実行可能コンポーネントは、ＡＳＲ情報を受信し得るＲＮＮ－Ｔを有し得る。コンピュータ実行可能コンポーネントは、ＡＳＲ情報を用いてＲＮＮ－Ｔを訓練するＶＡＤモデルを有し得、ＲＮＮ－Ｔは、エンコーダ及びジョイントネットワークを更に含み得る。エンコーダの１又は複数の出力は、ジョイントネットワーク及びＶＡＤモデルの１又は複数の出力と統合され得る。【選択図】図１

Description

本明細書における１又は複数の実施形態は、概して、ＡＳＲを実行するための、特に、ＡＳＲ情報を受信するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をマルチタスク訓練するためのボイスアクティビティ検出（ＶＡＤ）モデルと共に一般的に展開される自動音声認識（ＡＳＲ）システムに関する。

ＶＡＤセグメント化された発話が長い非音声部分を含む及び／又は非音声から成る場合、予期しないエラーが生じ得る。

以下では、本明細書に記載される１又は複数の実施形態の基本的理解を提供するための概要を提示する。この概要は、主要又は重要な要素を識別すること、又は特定の実施形態の任意の範囲又は任意の特許請求の範囲を画定することを意図するものではない。概要の唯一の目的は、後に提示されるより詳細な説明に対する前置きとして、簡略化された形式の概念を提示することである。本明細書に記載される１又は複数の実施形態において、１又は複数の統計セットの訓練等の更新を促進し得るデバイス、システム、コンピュータ実装方法、装置及び／又はコンピュータプログラム製品が説明される。

一実施形態によると、システムは、コンピュータ実行可能コンポーネントを格納するメモリ及びメモリに格納されたコンピュータ実行可能コンポーネントを実行するプロセッサを備え得る。コンピュータ実行可能コンポーネントは、マルチタスク訓練を介して自動音声認識情報を受信するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を有し得る。ＲＮＮ－Ｔは、エンコーダを含み得、エンコーダの１又は複数の出力は、ＲＮＮ－Ｔのジョイントネットワークと統合され得る。更に、エンコーダの１又は複数の出力は、ボイスアクティビティ検出（ＶＡＤ）モデルの１又は複数の出力と統合され得る。

別の実施形態によると、コンピュータ実装方法は、プロセッサに動作可能なように結合されたシステムにより自動音声認識（ＡＳＲ）情報を受信する段階を備え得る。コンピュータ実装方法はまた、プロセッサによりＡＳＲ情報を用いてＲＮＮ－Ｔをマルチタスク訓練する段階を備え得る。コンピュータ実装方法は、ノイズロバスト性を改善するために、プロセッサによりＲＮＮ－ＴのエンコーダをＲＮＮ－Ｔのジョイントネットワーク及び／又はＶＡＤモデルの１又は複数の出力と統合し得る。

更に別の実施形態によると、ＲＮＮ－ＴをＶＡＤモデルで訓練するためのコンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え得、プロセッサにより実行可能なプログラム命令は、プロセッサに、プロセッサによりＡＳＲ情報を受信させ得る。プログラム製品は、プロセッサにＡＳＲ情報を用いてＲＮＮ－Ｔをマルチタスク訓練させ、及び／又はＲＮＮ－ＴのエンコーダをＲＮＮ－Ｔのジョイントネットワーク及びＶＡＤモデルの１又は複数の出力と統合させ得る。

本明細書に記載される１又は複数の実施形態による、ＶＡＤ情報をＡＳＲへと統合することを促進し得る例示的、非限定的なシステムのブロック図を示す。

本明細書に記載される１又は複数の実施形態による、ＶＡＤ情報をＡＳＲへと統合することを促進し得る別の例示的、非限定的なシステムのブロック図を示す。

本明細書に記載される１又は複数の実施形態による、ＲＮＮ－Ｔ及び／又はＶＡＤモデルへの入力としての、例示的、非限定的なシステムのための様々な音声信号パターンを示す。

本明細書に記載される１又は複数の実施形態による、ＶＡＤ情報をＲＮＮ－Ｔと統合することを促進し得る例示的、非限定的なシステムのフロー図を示す。

本明細書に記載される１又は複数の実施形態による、ＶＡＤ情報をＡＳＲへと統合することを促進する例示的、非限定的なコンピュータ実装方法の例のフロー図を示す。

本明細書に記載される１又は複数の実施形態による、ＶＡＤ情報をＡＳＲへと統合することを促進する例示的、非限定的なコンピュータ実装方法についての実験結果を示す表を示す。

本明細書に記載される１又は複数の実施形態による、ＶＡＤ情報をＡＳＲへと統合することを促進する例示的、非限定的なコンピュータ実装方法についての実験結果を示す複数の表を示す。

本明細書に記載される１又は複数の実施形態が促進され得る例示的、非限定的な動作環境のブロック図を示す。

本明細書に記載される１又は複数の実施形態による例示的、非限定的なクラウドコンピューティング環境のブロック図を示す。

本明細書に記載される１又は複数の実施形態による、複数の例示的、非限定的な抽象化モデル層のブロック図を示す。

以下の詳細な説明は単に例示であり、実施形態及び／又は実施形態の用途又は使用を制限することを意図するものではない。更に、前述の背景又は概要の章、又はこの詳細な説明の章に提示される任意の明示的又は黙示的情報によって拘束される意図はない。

自動音声認識（ＡＳＲ）システムを参照すると、ＡＳＲシステムは、有声音響信号に対してＡＳＲを実行するためのボイスアクティビティ検出（ＶＡＤ）システムと共に展開され得ることが理解されるであろう。ＡＳＲシステムは、推論中に入力オーディオ信号から不要な非音声部分を取り除くことによりＡＳＲパフォーマンスを維持し得る；しかしながら、ＶＡＤシステムが非音声セグメントから音声を正確に分離することに失敗した場合、エラーが伝搬し得る。ＡＳＲシステムは、一般的に、セグメント化された音声発話を用いて構築される。したがって、ＶＡＤセグメント化された発話が長い非音声部分を含む及び／又は非音声から成る場合、予期しないエラーが生じ得る。ＶＡＤシステムは、より顕著にＡＳＲにおける挿入エラーをトリガする、ノイズを伴う環境において及び／又は未知の音響ドメインにおいて、失敗する可能性がより高い。

更に、ＡＳＲシステムを参照すると、ＡＳＲシステムは、ヒューマンマシン通信において広く用いられるようになっていることが理解されるであろう。エンドツーエンドニューラルネットワークアーキテクチャを有する最近のＡＳＲシステムは、従来のハイブリッドＡＳＲシステムに比べてより少ない開発コストで著しく作動してきた。周知のニューラルＡＳＲシステムのうち、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）は、競争力のあるパフォーマンス及びオンライン音声認識のための能力と共に、他アーキテクチャ上で設計されたシステムと比べたより低い計算コストに起因し、広く用いられてきた。ＡＳＲは、ＡＳＲのデコード処理が開始する前に非音声部分を取り除くことにより入力オーディオ信号から実際の音声部分を抽出するＶＡＤシステムと組み合わされ得る。最近では、様々なノイズを伴う状況における音声の固有の特性を捕捉するために、ニューラルネットワークベースのＶＡＤが実装され得る。マルチタスク学習アプローチを特徴統合アーキテクチャと組み合わせることにより、システムは、音声及び長い非音声セグメントから成る混合データで単に訓練するシステムと比較して、非常に低い信号対ノイズ比（ＳＮＲ）状況における１０％までの相対的改善を生じ得る。

ＶＡＤモデルは、話者が様々なタイミング及び場所において発話する現実的なシチュエーションにおける音声認識処理をサポートする；しかしながら、ＶＡＤが入力オーディオにおける音声及び非音声セグメントを分割することに失敗した場合、重度の認識エラーが生じ得る。例えば、ＶＡＤシステムが非音声オーディオセグメントを音声であるとして判断した場合、ＡＳＲは、空の音声入力からテキストを出力することを試みる。ＡＳＲシステムは、音声検出及び／又は判断エラーをもたらす十分にセグメント化された音声データ（例えば、データは、実際の音声セグメントの前及び／又は後の短い無音領域を含み得、及び／又は長い無音領域は、前もって訓練データから取り除かれ得る）で一般的に訓練される。したがって、ＶＡＤが不正確に作動するノイズを伴う状況において、ＡＳＲ正確性は、悪化し得る。

音声セグメント化及び認識パフォーマンスを改善するためにエンドツーエンドＡＳＲ及びＶＡＤを統合する先行する例は、主に、クリーンな状況におけるセグメント化されていない長いオーディオにおけるＡＳＲに重点を置く。これらの例は、ａ）ＶＡＤタスクを有するコネクショニスト時間分類（ＣＴＣ）ベースのＡＳＲ、ここで音声は、ＣＴＣソフトマックス出力からの空白のラベルを音声境界として想定することによりセグメント化され得る；ｂ）ＡＳＲ及びＶＡＤのためのマルチタスク学習フレームワーク、ここでＡＳＲ及びＶＡＤは、（例えば、ＡＳＲ及びＶＡＤ基準を介して更に最適化される）未加工の波形入力から潜在表現を抽出する共通層を共有する；及び／又はｃ）ビジュアル情報を活用するための、ノイズを伴う音声入力に対するオーディオビジュアルＡＳＲ及びＶＡＤ間でのマルチタスク学習を含む。

これらの問題に少なくとも部分的に取り組んで、ＲＮＮ－ＴベースのＡＳＲを訓練する中でＶＡＤ情報を明白に活用することは、ノイズを伴う状況における音声認識のロバスト性を改善し得る。ＶＡＤの正確性を改善することは、ノイズを伴う状況における音声セグメント化の失敗により生じるＡＳＲ脆弱性を低減させるための一般的なアプローチとなっている。

これらの問題を考慮に入れると、本明細書に記載される１又は複数の実施形態は、以下のプロセスを促進し得るシステム、コンピュータ実装方法、及び／又はコンピュータプログラム製品の形でこれらの問題のうちの１又は複数に対する解決策を生み出すために実装され得る：ａ）プロセッサにより自動音声認識（ＡＳＲ）情報を受信する段階；ｂ）プロセッサによりＡＳＲ情報を用いてＲＮＮ－Ｔをマルチタスク訓練する段階；及び／又はｃ）ノイズを伴う状況における音声認識のロバスト性を改善するために、プロセッサによりＲＮＮ－ＴのエンコーダをＲＮＮ－Ｔのジョイントネットワーク及びＶＡＤモデルの１又は複数の出力と統合する段階。即ち、本明細書に記載される実施形態は、前述したプロセスのうちの１又は複数を促進し得る１又は複数のシステム、コンピュータ実装方法、装置、及び／又はコンピュータプログラム製品を含む。

更に、ＶＡＤの正確性を改善することは、ＡＳＲのロバスト性を改善するための一般的なアプローチとなっている。しかしながら、本明細書に記載される１又は複数の実施形態は、ＶＡＤエラーに対するＡＳＲロバスト性を改善する。即ち、本明細書に記載される実施形態は、特徴レベル統合及び／又はマルチタスク学習を介してＶＡＤ情報をＡＳＲへと統合し得る１又は複数のシステム、コンピュータ実装方法、装置、及び／又はコンピュータプログラム製品を含む。

以前には、ＲＮＮ－Ｔにおけるマルチタスク学習は、稀なようワード認識のためのサブタスクとしてキーワードスポッティング及び言語モデリングと共に提案されてきた。スペクトロ－テンポラルを用いて畳み込みニューラルネットワーク（ＣＮＮ）ベースのＶＡＤシステムにより生成されたフレームレベル音声／非音声ラベルが予測される場合、ノイズを伴うＡＳＲパフォーマンスを改善するために、マルチタスク学習は、ＡＳＲＲＮＮ－Ｔ損失及びＶＡＤエラーを共同で最小限に抑える。

追加的に、マルチタスク学習フレームワーク内の非トランスクライブオーディオデータが、知識の蒸留アプローチを介して、ＶＡＤコンポーネントのための補助的訓練データとして利用され得る。通常、莫大なドメインの音声をカバーするＡＳＲ訓練のためのトランスクライブデータを準備することは、非常にコストがかかる；したがって、ＡＳＲのための訓練データの量は、しばしば限定される。更に、実施形態において、多様な環境ドメインのデータを用いて訓練されたＶＡＤシステムは、様々な音響状況において十分に作動し得る。ＶＡＤモデルは、ＡＳＲモデルのロバスト性を改善するのに有用であり得る周囲の音響環境を表す情報（例えば、非音声から音声を区別するための周囲の音響環境を表す情報）を含む。本明細書に記載される１又は複数の実施形態において、システムは、ＡＳＲロバスト性を改善するために追加的なトランスクライブデータを用いることなく、十分に訓練されたＶＡＤモデルに含まれた豊富な音響環境知識をＡＳＲネットワークへと蒸留し得、例えば、長い無音部分を有する英語の電話での会話での実験の結果は、システムが補助的ＶＡＤ訓練データを用いることで新しい音響ドメインにおけるＡＳＲノイズロバスト性を改善したことを示す。

ここで、図面を参照して１又は複数の実施形態が記載され、全体を通して、同様の参照番号は、同様の要素を指すために用いられる。以下の説明において、１又は複数の実施形態のより完全な理解を提供するべく、説明の目的で、多数の具体的な詳細が記載される。しかしながら、様々なケースにおいて、これらの特定の詳細なしで、１又は複数の実施形態を実施できることは明白である。

図１は、ジョイントネットワークコンポーネント１０６、エンコーダコンポーネント１０８、及び／又はプレディクタコンポーネント１１０を有するＲＮＮ－Ｔを備える例示的、非限定的なシステム１００のブロック図を示す。ＶＡＤ統合システム１００は、ノイズに対するロバスト性を改善するために、ＲＮＮ－Ｔ１０２（例えば、ＡＳＲＲＮＮ－Ｔ）のエンコーダコンポーネント１０８をＲＮＮ－Ｔ１０２のジョイントネットワーク１０６及びＶＡＤモデル１０４の１又は複数の出力と共に統合し得る。本明細書に記載される他の実施形態において利用される同様の要素の繰り返しの説明は、簡潔さのために省略する。本発明の様々な実施形態におけるシステム（例えば、ＶＡＤ統合システム１００等）、装置又はプロセスの態様は、１又は複数のマシンを用いて具現化された（例えば、１又は複数のマシンと関連付けられた１又は複数のコンピュータ可読媒体において具現化された）１又は複数のマシン実行可能コンポーネントを構成し得る。１又は複数のマシン（例えば、コンピュータ、コンピューティングデバイス、仮想マシン、及び／又はそれらの組合せ等）によって実行された場合、このようなコンポーネントは、記載した動作をマシンに実行させ得る。

次に具体的に１又は複数の図について、まず図１について、この図は、本明細書に記載される１又は複数の実施形態による、プロセッサ１２４により自動音声認識（ＡＳＲ）情報を受信する段階を促進する例示的、非限定的なシステム１００のブロック図を示す。ＶＡＤ統合システム１００は、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）１０２及び／又はボイスアクティビティ検出（ＶＡＤ）モデル１０４を備え得、これらは、クラウドコンピューティング環境１０００（図１０）と関連付けられ得る。例えば、限定されないが、ＲＮＮ－Ｔ１０２は、自動音声認識のために構成されたＲＮＮ－Ｔ１０２であり得る。ＲＮＮ－Ｔは、ジョイントネットワークコンポーネント１０６（例えば、ジョイントネットワーク）と接続されたプレディクタコンポーネント１１０を更に有し得る。ＶＡＤ統合システム１００は、１又は複数のＲＮＮ－Ｔ１０２、１又は複数のＶＡＤモデル１０４、１又は複数のネットワーク１３０、１又は複数の入力デバイス１３２、及び／又は１又は複数のコンピュータアプリケーション１３４により構成され得る。ＲＮＮ－Ｔ１０２及び／又はＶＡＤモデル１０４は、ＶＡＤ統合システム１００により構成された１又は複数のマシンと接続され得る。本明細書において用いられるように、１又は複数のマシンは、コンピューティングデバイス、汎用コンピュータ、特定用途向けコンピュータ、量子コンピューティングデバイス（例えば、量子コンピュータ）、タブレットコンピューティングデバイス、ハンドヘルドデバイス、サーバクラスコンピューティングマシン及び／又はデータベース、ラップトップコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、携帯電話、スマートフォン、コンシューマ用電化製品及び／又は計装、産業用及び／又は商用デバイス、デジタルアシスタント、マルチメディアインターネット対応電話、及び／又は別のタイプのデバイスのうちの１又は複数を含み得る。

いくつかの例において、ＶＡＤ統合システム１００は、図１０を参照して後述するクラウドコンピューティング環境１０００及び／又は図１１を参照して後述する１又は複数の機能抽象化層（例えば、ハードウェア及びソフトウェア層１１６０、仮想化層１１７０、管理層１１８０及び／又はワークロード層１１９０）に関連付けられ得る。

ＶＡＤ統合システム１００及び／又はそのコンポーネント（例えば、ＲＮＮ－Ｔ１０２及び／又はＶＡＤモデル１０４）は、図１０を参照して及び／又は図１１を参照して後述する１又は複数の機能抽象化層（例えば、量子ソフトウェア及び／又は同様のもの）を参照して後述するクラウドコンピューティング環境の１又は複数のコンピューティングリソースを利用して、本明細書に記載される１又は複数の実施形態による１又は複数の動作を実行し得る。例えば、クラウドコンピューティング環境、及び／又は機能抽象化層１１６０、１１７０、１１８０及び／又は１１９０のうちの１又は複数は、システム及び／又はそのコンポーネントにより本明細書に記載される１又は複数の実施形態による１又は複数の動作を実行するために利用され得る、１又は複数の古典的コンピューティングデバイス（例えば、古典的コンピュータ、古典的プロセッサ、仮想マシン、及び／又はサーバ等）、量子ハードウェア及び／又は量子ソフトウェア（例えば、量子コンピューティングデバイス、量子コンピュータ、量子プロセッサ、量子回路シミュレーションソフトウェア、及び／又は超伝導回路等）を有し得る。例えば、システム及び／又はそのコンポーネントは、１又は複数の古典的及び／又は量子：数学関数、算出、及び／又は方程式；コンピューティング及び／又は処理スクリプト；アルゴリズム；モデル（例えば、人口知能（ＡＩ）モデル、マシン学習（ＭＬ）モデル及び／又は同様のモデル）；及び／又は本明細書に記載される１又は複数の実施形態による別の動作を実行するために、１又は複数の古典的及び／又は量子コンピューティングリソースを利用し得る。

本明細書に記載される１又は複数の実施形態は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書において言及される教示の実装は、クラウドコンピューティング環境に限定されるものではないことを理解されたい。むしろ、本明細書に記載される１又は複数の実施形態は、現在知られている又は後に開発される任意の他のタイプのコンピューティング環境と併せて実装されることが可能である。

クラウドコンピューティングは、管理の労力又はサービスのプロバイダとのインタラクションを最小限に抑えながら迅速にプロビジョニング及びリリースできる構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、プロセス、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス）の共有プールに対する便利なオンデマンドのネットワークアクセスを可能するための、サービス提供のモデルである。このクラウドモデルは、少なくとも５つの特徴、少なくとも３つのサービスモデル、及び少なくとも４つの展開モデルを含み得る。

特徴は、以下の通りである。

オンデマンドセルフサービス：クラウドコンシューマは、人間とサービスのプロバイダとのインタラクションを必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージ等のコンピューティング能力を一方的にプロビジョニングし得る。

幅広いネットワークアクセス：ネットワークを介して能力を利用可能であり、異種混交のシンクライアントプラットフォーム又はシッククライアントプラットフォーム（例えば、モバイル電話、ラップトップ、及びＰＤＡ（登録商標））による使用を促進する標準的なメカニズムを通して能力がアクセスされる。

リソースプール：プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを用いて複数のコンシューマにサービスを提供し、異なる物理的及び仮想的リソースが需要に応じて動的に割当て及び再割当てされる。概してコンシューマは提供されるリソースの厳密なロケーションについての制御又は知識を有しないが、より高い抽象化レベル（例えば、国、州、又はデータセンタ）でロケーションを指定可能であり得るという点で、ロケーション独立性の感覚がある。

迅速な弾力性：能力を迅速に且つ伸縮自在に、場合によっては自動的にプロビジョニングし、即座にスケールアウトすることも、迅速にリリースして即座にスケールインすることもできる。コンシューマには、しばしば、プロビジョニングに利用可能な能力は無制限に見え、いつでも任意の数量で購入できる。

測定されたサービス：クラウドシステムは、サービスのタイプに適切な、いくらかの抽象化レベル（例えば、ストレージ、処理、帯域幅及びアクティブユーザアカウント）で、測定能力を活用することによって、リソース使用を自動的に制御及び最適化する。リソース使用量が監視、制御及びレポートされ得、利用されるサービスのプロバイダ及びコンシューマの両方に透明性を提供する。

サービスモデルは、以下の通りである。

ソフトウェア・アズ・ア・サービス（ＳａａＳ）：コンシューマに提供される能力は、クラウドインフラストラクチャ上で実行するプロバイダのアプリケーションを用いることである。アプリケーションには、ウェブブラウザ（例えば、ウェブベースの電子メール）等のシンクライアントインタフェースを通して、様々なクライアントデバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージ、又は個々のアプリケーション能力を含む基礎のクラウドインフラストラクチャを管理又は制御しないが、限定されたユーザ特有のアプリケーション構成設定は例外である可能性がある。

プラットフォーム・アズ・ア・サービス（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによりサポートされるプログラミング言語及びツールを用いて作成される、コンシューマが作成した又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム又はストレージを含む基礎のクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション及び場合によっては環境構成をホストするアプリケーションに対する制御を有する。

インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマに提供される能力は、処理、ストレージ、ネットワーク及び／又はコンシューマがオペレーティングシステム及びアプリケーションを含み得る任意のソフトウェアを展開及び実行し得ることが可能な他の基本的なコンピューティングリソース又をプロビジョニングすることである。コンシューマは、基礎のクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーション及び／又は場合によっては選択されたネットワーキングコンポーネント（例えば、ホストファイアウォール）の限定された制御に対する制御を有する。

展開モデルは、以下の通りである。

プライベートクラウド：クラウドインフラストラクチャが、一組織のためだけに運用される。それは、その組織又はサードパーティによって管理され得、オンプレミス又はオフプレミスで存在し得る。

コミュニティクラウド：クラウドインフラストラクチャは、いくつかの組織によって共有され、共有された関心（例えば、役割、セキュリティ要件、ポリシー及び／又はコンプライアンス上の考慮事項）を有する特定のコミュニティをサポートする。それは、その組織又はサードパーティによって管理され得、オンプレミス又はオフプレミスで存在し得る。

パブリッククラウド：クラウドインフラストラクチャが、一般大衆又は大きな業界団体により利用可能になり、クラウドサービスを販売する組織により所有されている。

ハイブリッドクラウド：クラウドインフラストラクチャは、固有のエンティティであり続けるが、データ及びアプリケーションのポータビリティを可能にする標準化又はプロプライエタリ技術（例えば、クラウド間のロードバランシングのためのクラウドバースティング）によって共に結び付けられる２又はそれより多くのクラウド（プライベート、コミュニティ、又はパブリック）の複合である。

クラウドコンピューティング環境は、ステートレス、低結合性、モジュール性及び／又はセマンティックインターオペラビリティに対する重点を指向したサービスである。クラウドコンピューティングの中核には、相互接続されたノードからなるネットワークを含むインフラストラクチャが存在する。

更に、ＶＡＤ統合システム１００は、データ分析システム、データ処理システム、グラフ分析システム、グラフ処理システム、ビッグデータシステム、ソーシャルネットワークシステム、音声認識システム、画像認識システム、グラフィカルモデリングシステム、バイオインフォマティクスシステム、データ圧縮システム、人口知能システム、認証システム、構文パターン認識システム、医療システム、ヘルス監視システム、ネットワークシステム、コンピュータネットワークシステム、通信システム、ルータシステム、サーバシステム、高可用性サーバシステム（例えば、Ｔｅｌｅｃｏｍサーバシステム）、Ｗｅｂサーバシステム、ファイルサーバシステム、データサーバシステム、ディスクアレイシステム、動力付き挿入掲示板システム、又はクラウドベースのシステム等に関連付けられる又はこれに含まれ得る。それによると、ＶＡＤ統合システム１００は、ハードウェア及び／又はソフトウェアを用いて、本質的に非常に技術的であり、抽象的でなく、及び／又は人間による精神的な行動のセットとして実行され得ない問題を解決するために利用され得る。

次にＶＡＤ統合システム１００の態様について、システム１００は、１又は複数のＲＮＮ－Ｔ１０２、１又は複数のＶＡＤモデル１０４、１又は複数のシステムバス１２０、１又は複数のメモリ／ストレージコンポーネント１２２、１又は複数のプロセッサ１２４、１又は複数のネットワーク１３０、１又は複数の入力デバイス１３２、及び／又は１又は複数のコンピュータアプリケーション１３４を備え得る。

本明細書において開示されている様々な図面において図示されている実施形態は、図示するためのみのものであり、このため、実施形態のアーキテクチャは、システム、デバイス及び／又はその内部に図示されたコンポーネントにも、システム、デバイス及び／又はその内部に図示されたコンポーネントのいかなる特定の順序、接続及び／又は結合にも限定されないことが理解されるべきである。例えば、いくつかの実施形態において、ＶＡＤ統合システム１００は、動作環境９００及び図９を参照して本明細書に記載される様々なコンピュータ及び／又はコンピューティングベースの要素を更に備え得る。いくつかの実施形態において、コンピュータ及び／又はコンピューティングベースの要素は、図１に又は本明細書において開示される他の図に関連して示され記載されているシステム、デバイス、コンポーネント及び／又はコンピュータ実装動作のうちの１又は複数を実装することに関連して用いられ得る。

メモリ１２２は、プロセッサ１２４（例えば、古典的プロセッサ、量子プロセッサ及び／又は同様のプロセッサ）によって実行された場合に、実行可能コンポーネント及び／又は命令によって定義される動作のパフォーマンスを促進し得る１又は複数のコンピュータ及び／又はマシン可読、書き込み可能及び／又は実行可能コンポーネント及び／又は命令を格納し得る。例えば、メモリ１２２は、プロセッサ１２４により実行された場合に、ＲＮＮ－Ｔ１０２、ＶＡＤモデル１０４、及び／又は１又は複数の実施形態の様々な図面を参照して又はせずに本明細書に記載されるＶＡＤ統合システム１００に関連付けられた別のコンポーネントに関係する、本明細書に記載されるような様々な機能の実行を促進し得るコンピュータ及び／又はマシン可読、書き込み可能及び／又は実行可能コンポーネント及び／又は命令を格納し得る。

メモリ１２２は、１又は複数のメモリアーキテクチャを利用できる揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、静的ＲＡＭ（ＳＲＡＭ）、及び／又は動的ＲＡＭ（ＤＲＡＭ）等）及び／又は不揮発性メモリ（例えば、リードオンリメモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気プログラマブルＲＯＭ（ＥＰＲＯＭ）、及び／又は電気消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）等）を含み得る。メモリ１２２の更なる例がシステムメモリ９０６及び図９を参照して後述される。メモリ１２２のこれらの例は、本明細書に記載される任意の１又は複数の実施形態を実装するために利用され得る。

プロセッサ１２４は、メモリ１２２に格納され得る１又は複数のコンピュータ及び／又はマシン可読、書き込み可能及び／又は実行可能コンポーネント及び／又は命令を実装し得る、１又は複数のタイプのプロセッサ及び／又は電子回路（例えば、古典的プロセッサ、量子プロセッサ及び／又は同様のプロセッサ）を含み得る。例えば、プロセッサ１２４は、限定されないが、ロジック、制御、入出力（Ｉ／Ｏ）、及び／又は算術等を含む、コンピュータ及び／又はマシン可読、書き込み可能、及び／又は実行可能コンポーネント及び／又は命令によって指定され得る様々な動作を実行し得る。いくつかの実施形態において、プロセッサ１２４は、１又は複数の中央処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、デュアルマイクロプロセッサ、マイクロコントローラ、システムオンチップ（ＳＯＣ）、アレイプロセッサ、ベクトルプロセッサ、量子プロセッサ及び／又は別のタイプのプロセッサを含み得る。プロセッサ１２４の追加的な例が処理ユニット９０４及び図９を参照して後述される。プロセッサ１２４の例は、本明細書に記載される任意の１又は複数の実施形態を実装するために利用され得る。

ＶＡＤ統合システム１００、ＲＮＮ－Ｔ１０２、ＶＡＤモデル１０４、ジョイントネットワークコンポーネント１０６、エンコーダコンポーネント１０８、プレディクタコンポーネント１１０、メモリ１２２、プロセッサ１２４、及び／又は本明細書に記載されるようなシステム１００の別のコンポーネントは、システム１００及び／又はそれと共に結合された任意のコンポーネントの機能を実行するために、バス１２０を介して、通信可能に、電気的に、動作可能なように及び／又は光学的に互いに結合され得る。バス１２０は、様々なバスアーキテクチャを利用し得る１又は複数のメモリバス、メモリコントローラ、ペリフェラルバス、外部バス、ローカルバス、量子バス及び／又は別のタイプのバスを含み得る。バス１２０の更なる例がシステムバス９０８及び図９を参照して後述される。バス１２０の例は、本明細書に記載される任意の１又は複数の実施形態を実装するために利用され得る。

ＶＡＤ統合システム１００は、プロセッサを含む任意のタイプのコンポーネント、マシン、デバイス、設備、装置、及び／又は計器を含み得、及び／又は有線及び／又はワイヤレスネットワークとの効果的及び／又は動作可能な通信が可能であり得る。このような全ての好適な実施形態が想定される。例えば、ＶＡＤ統合システム１００は、サーバデバイス、コンピューティングデバイス、汎用コンピュータ、特定用途向けコンピュータ、量子コンピューティングデバイス（例えば、量子コンピュータ）、タブレットコンピューティングデバイス、ハンドヘルドデバイス、サーバクラスコンピューティングマシン及び／又はデータベース、ラップトップコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、携帯電話、スマートフォン、コンシューマ用電化製品及び／又は計装、産業用及び／又は商用デバイス、デジタルアシスタント、マルチメディアインターネット対応電話、マルチメディアプレイヤ及び／又は別のタイプのデバイスを備え得る。

ＶＡＤ統合システム１００は、データケーブル（例えば、Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ（ＨＤＭＩ（登録商標））、推奨規格（ＲＳ）２３２、及び／又はＥｔｈｅｒｎｅｔ（登録商標）ケーブル等）を介して、１又は複数の外部システム、ソース、及び／又はデバイス（例えば、古典的及び／又は量子コンピューティングデバイス、及び／又は通信デバイス等）に（例えば、通信可能に、電気的に、動作可能なように、及び／又は光学的に等で）結合され得る。いくつかの実施形態において、ＶＡＤ統合システム１００は、ネットワークを介して、１又は複数の外部システム、ソース及び／又はデバイス（例えば、古典的及び／又は量子コンピューティングデバイス、及び／又は通信デバイス等）に（例えば、通信可能に、電気的に、動作可能なように、及び／又は光学的に等で）結合され得る。

いくつかの実施形態において、ネットワークは、限定されないが、セルラーネットワーク、ワイドエリアネットワーク（ＷＡＮ）（例えば、インターネット）、又はローカルエリアネットワーク（ＬＡＮ）を含む１又は複数の有線及び／又はワイヤレスネットワークを有し得る。例えば、ＶＡＤ統合システム１００、ＲＮＮ－Ｔ１０２、及び／又はＶＡＤモデル１０４は、限定されないが、ワイヤレスフィデリティ（Ｗｉ－Ｆｉ（登録商標））、モバイル通信のためのグローバルシステム（ＧＳＭ（登録商標））、ユニバーサルモバイルテレコミュニケーションシステム（ＵＭＴＳ）、マイクロ波アクセスに関するワールドワイドインターオペラビリティ（ＷｉＭＡＸ（登録商標））、強化型汎用パケット無線サービス（強化型ＧＰＲＳ）、第３世代パートナシッププロジェクト（３ＧＰＰ（登録商標））ロングタームエボリューション（ＬＴＥ）、第３世代パートナシッププロジェクト２（３ＧＰＰ２）ウルトラモバイルブロードバンド（ＵＭＢ）、高速パケットアクセス（ＨＳＰＡ）、Ｚｉｇｂｅｅ（登録商標）及び他の８０２．ＸＸワイヤレス技術及び／又はレガシーテレコミュニケーション技術、ＢＬＵＥＴＯＯＴＨ（登録商標）、ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ（ＳＩＰ）、ＺＩＧＢＥＥ（登録商標）、ＲＦ４ＣＥプロトコル、ＷｉｒｅｌｅｓｓＨＡＲＴプロトコル、６ＬｏＷＰＡＮ（ＩＰｖ６ｏｖｅｒＬｏｗｐｏｗｅｒＷｉｒｅｌｅｓｓＡｒｅａＮｅｔｗｏｒｋｓ）、Ｚ－Ｗａｖｅ（登録商標）、ＡＮＴ、超広帯域（ＵＷＢ）規格プロトコル、及び／又は他のプロプライエタリ及び／又は非プロプライエタリの通信プロトコルを含む、事実上任意の所望の有線又はワイヤレス技術を用いて、１又は複数の外部システム、ソース及び／又はデバイス、例えば、コンピューティングデバイスと通信し得る（その逆もまた同様）。関係する例において、ＶＡＤ統合システム１００は、ハードウェア（例えば、中央処理ユニット（ＣＰＵ）、トランシーバ、デコーダ、量子ハードウェア、及び／又は量子プロセッサ等）、ソフトウェア（例えば、スレッドのセット、プロセスのセット、実行中のソフトウェア、量子パルススケジュール、量子回路、及び／又は量子ゲート等）、及び／又はＶＡＤ統合システム１００及び外部システム、ソース及び／又はデバイス（例えば、コンピューティングデバイス、及び／又は通信デバイス等）の間で情報を通信することを促進するハードウェア及びソフトウェアの組合せを備え得る。

ＶＡＤ統合システム１００は、プロセッサ１２４（例えば、古典的プロセッサ、及び／又は量子プロセッサ等）によって実行され場合に、このようなコンポーネント及び／又は命令によって定義される１又は複数の動作のパフォーマンスを促進し得る１又は複数のコンピュータ及び／又はマシン可読、書き込み可能及び／又は実行可能コンポーネント及び／又は命令を備え得る。更に、多数の実施形態において、１又は複数の実施形態の様々な図面を参照して又はせずに本明細書に記載されるようなＶＡＤ統合システム１００に関連付けられている任意のコンポーネントは、プロセッサ１２４により実行された場合に、このようなコンポーネント及び／又は命令により定義される１又は複数の動作のパフォーマンスを促進し得る１又は複数のコンピュータ及び／又はマシン可読、書き込み可能及び／又は実行可能コンポーネント及び／又は命令を含み得る。例えば、ジョイントネットワークコンポーネント１０６（例えば、ジョイントネットワークへの接続及び／又はＲＮＮ－Ｔのネットワーク接続層）、エンコーダコンポーネント１０８（例えば、エンコーダネットワークへの接続及び／又はＲＮＮ－Ｔのエンコーダ接続層）、プレディクタコンポーネント１１０（例えば、プレディクタネットワークへの接続及び／又はＲＮＮ－Ｔのプレディクタ層）、及び／又は本明細書において開示されているＶＡＤ統合システム１００と関連付けられた（例えば、システム１００と通信可能に、電子的に、動作可能なように及び／又は光学的に結合されている及び／又はそれにより利用されている）任意の他コンポーネントは、このようなコンピュータ及び／又はマシン可読、書き込み可能及び／又は実行可能コンポーネント及び／又は命令を含み得る。その結果、多数の実施形態によると、本明細書において開示されるＶＡＤ統合システム１００及び／又はそれと共に関連付けられた任意のコンポーネントは、プロセッサ１２４を利用して、このようなコンピュータ及び／又はマシン可読、書き込み可能及び／又は実行可能コンポーネント及び／又は命令を実行して、システム１００及び／又はそれと共に関連付けられた任意のこのようなコンポーネントを参照して本明細書に記載される１又は複数の動作のパフォーマンスを促進し得る。

ＶＡＤ統合システム１００は、（例えば、プロセッサ１２４を介して）ＲＮＮ－Ｔ１０２、ＶＡＤモデル１０４、ジョイントネットワークコンポーネント１０６、エンコーダコンポーネント１０８、プレディクタコンポーネント１１０、及び／又は本明細書において開示されるシステム１００と関連付けられた別のコンポーネントにより実行される及び／又はそれと関連付けられた動作のパフォーマンスを促進させ得る。例えば、詳細に後述しているように、ＶＡＤ統合システム１００は、プロセッサ１２４（例えば、古典的プロセッサ、及び／又は量子プロセッサ等）を介して、自動音声認識（ＡＳＲ）情報を受信すること；ＡＳＲ情報を用いてＲＮＮ－Ｔ１０２をマルチタスク訓練すること；及び／又はノイズに対するロバスト性を改善するために、ＲＮＮ－Ｔ１０２のエンコーダコンポーネント１０８をＲＮＮ－Ｔ１０２のジョイントネットワークコンポーネント１０６及び／又はＶＡＤモデル１０４の１又は複数の出力と統合することを促進し得る。下から明らかになるように、１又は複数のシステムは、ＶＡＤベースの知識をＲＮＮ－Ｔ１０２に転送するために利用され得る。例えば、限定されないが、ＶＡＤ統合システム１００は、特徴統合及び／又はマルチタスク訓練を介してノイズに対するロバスト性を改善するために利用され得る。

次に図１に示されるようなＶＡＤ統合システム１００のコンポーネント等の図１に示すような追加的な態様について、システムの更なる機能性が記載される。機能性の追加的な説明が図２Ａ、図２Ｂ、及び図３Ａ～図３Ｄの例示的な実施形態を参照して更に後述され、ここでは、それぞれの実施形態において利用されている同様の要素及び／又はプロセスの繰り返しの説明が簡潔性のために省略されている。

図２Ａ及び図２Ｂに概して示されているような実施形態において、ＶＡＤ統合システム１００は、音声フレーム入力シークエンス４００（例えば、図４を参照）の特徴統合（例えば、特徴抽出）を含み得る。ＶＡＤ統合システム１００は、様々な接続方式／配向のうちの１又は複数での特徴統合を含み得る。ＶＡＤ統合システム１００は、エンコーダ前位置（例えば、図２Ａを参照）及び／又はエンコーダ後位置（例えば、図２Ｂを参照）において統合されたＶＡＤモデル２０４を備え得る。更に、ＲＮＮ－Ｔ２０２は、ジョイントネットワークコンポーネント２０６（例えば、ジョイントネットワークへの接続）、エンコーダコンポーネント２０８（例えば、エンコーダネットワークへの接続）、及び／又はプレディクタコンポーネント２１０（例えば、プレディクタネットワークへの接続）を有し得る。長さＴのシーケンスｘ＝（ｘ_１，...，ｘ_Ｔ）の音声特徴入力シーケンスが与えられると、ＲＮＮ－Ｔ２０２は、入力及び出力の条件付き分布ｐ（ｙ｜ｘ）をモデリングすることにより、長さＵのテキストトークンシーケンスｙ＝（ｙ_１，...，ｙ_Ｕ）を出力する。実施形態において、特徴統合は、ＡＳＲ特徴で別個に訓練されたＶＡＤモデルから生成されたボイスアクティビティクラス確率を連結することにより生じ得る。ＶＡＤモデル２０４は、長さＴのボイスアクティビティクラスのシーケンスｖ＝（ｖ_１，...，ｖ_Ｔ）を同じ長さを有する音声フレームシーケンスｘから予測し得る。ＶＡＤ統合システム１００は、ＶＡＤ出力確率ｐ（ｖ｜ｘ）及び対応する音声フレームのＡＳＲ特徴の間の特徴を連結し得る。

図２Ａに示すように、システムは、エンコーダ前位置における連結を通したシングルタスクＡＳＲ及びＶＡＤ特徴統合を備え得る。例えば、限定されないが、ＶＡＤモデル２０４は、エンコーダコンポーネント２０８の前に接続され得、したがってエンコーダコンポーネント２０８へとフィードし得る。ＶＡＤ統合システム１００は、以下の式１により表されるようにエンコーダコンポーネント２０８の前で、ＶＡＤ出力確率ｐ（ｖ｜ｘ）をＲＮＮ－Ｔに対する入力特徴ｘと連結し得、ここで、ｘ_ｃは、連結の後のエンコーダ入力特徴である。

式１：ｘ_ｃ＝（（ｘ_１，ｐ（ｖ_１｜ｘ）），...，（ｘ_Ｔ，ｐ（ｖ_Ｔ｜ｘ））

図２Ｂに示すように、ＶＡＤ統合システム１００は、エンコーダ後位置における連結を通したシングルタスクＡＳＲ及びＶＡＤ特徴統合を含み得る。例えば、限定されないが、ＶＡＤモデル２０４は、エンコーダコンポーネント２０８の後に接続され得、その結果、ＶＡＤモデル２０４からのＶＡＤ情報及びエンコーダコンポーネント２０８の出力は、連結され、ジョイントネットワーク２０６へと伝送され得る。ＶＡＤ出力確率ｐ（ｖ｜ｘ）、及び以下に方程式２及び３により表されているＲＮＮ－Ｔエンコーダ出力ｈ＝（ｈ_１，...，ｈ_Ｔ）の間で特徴レベル統合が生じ得、ｈ_ｃは、ジョイントネットワークに渡される統合された特徴である。

式２：ｈ＝Ｅｎｃｏｄｅｒ（ｘ）

式３：ｈ_ｃ＝（（ｈ_１，ｐ（ｖ_１｜ｘ）），...，（ｈ_Ｔ，ｐ（ｖ_Ｔ｜ｘ））

次に図３Ａ、図３Ｂ、図３Ｃ及び／又は図３Ｄにより示されるシステムの態様について、ＶＡＤ統合システム１００は、ＡＳＲロバスト性を改善するために、ＲＮＮ－Ｔ３０２及び／又はＶＡＤモデル３０４をマルチタスク訓練し得る。本明細書において概して記載されているような実施形態において、ＶＡＤ統合システム１００は、メインタスクとしてＲＮＮ－Ｔ３０２をＡＳＲ情報（例えば、ＡＳＲ基準）により訓練し得、及び／又はシステム１００は、サブタスクとしてＶＡＤモデル３０４を訓練し得る。例えば、限定されないが、ＶＡＤ統合システム１００は、ＲＮＮ－Ｔ３０２及びＶＡＤモデル３０４を同時に及び／又は代替的に訓練し得る。更に、様々な実施形態（例えば、図３Ａ、図３Ｂ、図３Ｃ及び図３Ｄ）のうちの１又は複数において、ＡＳＲ処理のためのＲＮＮ－Ｔのエンコーダ層は、（例えば、サブタスクとしての）ＶＡＤ処理のためのエンコーダ層と共有され得る。

図３Ａに概して示されているようないくつかの実施形態において、ＶＡＤ統合システム１００は、マルチタスク訓練を有効にするために、エンコーダ前共有アーキテクチャ（例えば、ＭＴＬ１）を備え得る。よって、エンコーダコンポーネント３０８において生じる動作及び／処理のために、エンコーダコンポーネント３０８の前に、追加的なネットワークがＲＮＮ－Ｔ３０２に付加され得る。ＲＮＮ－Ｔ３０２は、ジョイントネットワークコンポーネント３０６、エンコーダコンポーネント３０８、及び／又はプレディクタコンポーネント３１０を有する。ＶＡＤ統合システム１００は、エンコーダコンポーネント３０８に渡される予定のＡＳＲ情報及びＶＡＤモデル３０４を表す入力を生み出し得る。実施形態において、ＶＡＤ統合システム１００は、双曲線正接関数を有する全結合ニューラルネットワーク３１２（例えば、ＦＣ）層のスタックから成る共有ネットワークを備える。ＶＡＤモデル３０４は、サブタスクとして動作し得、及び／又はＶＡＤモデル３０４は、畳み込みニューラルネットワーク（ＣＮＮ）から成り得る。

更に、図３Ｂに概して示されているような他の実施形態において、ＶＡＤ統合システム１００は、マルチタスク訓練を有効にするための部分的エンコーダ共有アーキテクチャ（例えば、ＭＴＬ２）を備え得る。よって、ＲＮＮ－Ｔ３０２（例えば、ＡＳＲＲＮＮ－Ｔ）及びＶＡＤモデル３０４は、ボトム層から少なくともＲＮＮ－Ｔ３０２の一部（例えば、ＶＡＤ統合システム１００の物理接続層、これによりＶＡＤモデル３０４及びＲＮＮ－Ｔ３０２は、ＡＳＲＲＮＮ－Ｔ３０２機能及びＶＡＤモデル３０４機能の両方のために、ＲＮＮ－Ｔ３０２のエンコーダコンポーネント３０８に物理的に接続され得及び／又はエンコーダコンポーネント３０８により利用される処理を利用し得る）を共有する。ＲＮＮ－Ｔ３０２は、ジョイントネットワークコンポーネント３０６、エンコーダコンポーネント３０８、及び／又はプレディクタコンポーネント３１０（例えば、ＶＡＤモデル３０４と共に共有されるＲＮＮ－Ｔのエンコーダ層）を有し得る。ＶＡＤモデル３０４（例えば、ＶＡＤブランチ）には、入力（例えば、音声フレーム入力シーケンス）のＶＡＤクラスを予測する全結合層のスタックが後に続く。エンコーダコンポーネント３０８は、ＲＮＮ－Ｔ３０２及びＶＡＤモデル３０４をマルチタスク処理することを有効にするために、１又は複数の長・短期記憶（ＬＳＴＭ）コンポーネント／プロセッサ３１４、３１６を含み得る。

図３Ｃに概して示されているようないくつかの実施形態において、ＶＡＤ統合システム１００は、マルチタスク学習を有効にするために、完全エンコーダ共有アーキテクチャ（例えば、ＭＴＬ３）を備え得る。よって、ＡＳＲ及びＶＡＤモデル３０４は、ＲＮＮ－Ｔ３０２内の全てのエンコーダ層を共有ネットワークとして用い得る。ＲＮＮ－Ｔ３０２は、ジョイントネットワークコンポーネント３０６、プレディクタコンポーネント３１０、及び／又はエンコーダコンポーネント３２０を有し得る（例えば、これは、マルチタスク学習のために、ＶＡＤモデルと共に完全に共有され得る）。

更に、図３Ｄに概して示されるような他の実施形態において、ＶＡＤ統合システム１００は、マルチタスク訓練を有効にするために、完全エンコーダ共有及び特徴統合アーキテクチャ（例えば、ＭＴＬ４）を備え得る。よって、ＶＡＤソフト出力は、（例えば、ＲＮＮ－Ｔ３０２の外部のＶＡＤモデル３０４と接続される）全結合層３２２を用いて、ＲＮＮ－Ｔエンコーダ出力と同じ次元を有するベクトルへと射影され得る。図３Ｄの実施形態によると、ネットワーク全体（例えば、ＶＡＤ統合システム１００）は、ＶＡＤモデル３０４及びＲＮＮ－Ｔ３０２のための共有層としてのエンコーダコンポーネント３２０層を用いて訓練され得る。システムは、要素毎合計動作を介して、ＶＡＤソフト出力をＲＮＮ－Ｔエンコーダ出力と併合し得る。

ＶＡＤ統合システム１００は、補助的ＶＡＤデータを独立に及び／又は図１～図３Ｄのシステムアーキテクチャとの組合せで用いて訓練され得ることが理解されるであろう。実施形態において、ＶＡＤ統合システム１００は、ＶＡＤタスクに関係するネットワークの最適化のために、補助的非トランスクライブオーディオオンリデータ（例えば、補助的ＶＡＤデータ）を利用して、ＡＳＲパフォーマンスを改善し得る。補助的ＶＡＤデータは、１又は複数の訓練行動／手続を介してＶＡＤ統合システム１００により利用され得る。

非コンポーネント態様にまず目を向けると、ＶＡＤ統合システム１００は、それと共に関連付けられた音声フレーム入力シークエンス４００（例えば、オーディオ入力信号及び／又はストリーム）を有する。音声フレーム入力シークエンス４００は、図４に概して示されているような様々な音声信号パターンのうちの１又は複数を含み得る。例えば、限定されないが、音声フレーム入力シークエンス４００は、音声オンリセグメント４０２、非音声オンリセグメント４０４、及び／又は様々な音声及び非音声セグメント４０６のうちの１又は複数を含み得る。ＶＡＤモデル１０４により受信される音声フレーム入力シークエンス４００は、入力オーディオの両端に短い非音声セグメントを含み得る（例えば、４０８）。典型的なノイズを伴う状況下で、ＶＡＤモデル１０４は、音声フレーム入力シークエンスの実際の音声セグメントの予測エラーを生み出しやすくなり得る。更に、システムのノイズロバスト性を改善するために、ＶＡＤ情報は、ＲＮＮ－Ｔ１０２ベースのＡＳＲ訓練に組み込まれ得る。ＶＡＤ情報は、特徴レベル統合及び／又はマルチタスク学習を通してＡＳＲへと統合され得る。

実施形態において、ＶＡＤ統合システム１００は、音声及び非音声セグメントの両方を用いて事前にＡＳＲ及びＶＡＤモデル１０４を訓練し得る。例えば、限定されないが、音声オンリ訓練データは、音声セグメントの各サイドの前及び／又は後に非音声セグメントを人工的に追加することにより拡張され得る。ＶＡＤ統合システム１００は、拡張された訓練データのみでなく、音声オンリセグメント４０２及び非音声オンリセグメント４０４（例えば、ホワイトスペース）もまた利用し得る。更に、ＶＡＤ統合システム１００は、様々な文脈のうちの１又は複数における音声＋非音声を処理し得る。例えば、限定されないが、ＶＡＤ統合システム１００は、音声フレーム入力シークエンス４００上の前方無音４０６、デュアルサイド無音４０８、後方無音４１０、及び／又は中間無音４１２を処理し得る。

次に図５Ａ及び５Ｂを参照すると、これらの図は共に、本明細書に記載される１又は複数の実施形態による、ＲＮＮ－Ｔ３０２及びＶＡＤモデル３０４をマルチタスク訓練することを促進し得る例示的、非限定的なコンピュータ実装方法５００のフロー図を示す。更に、図５Ａ及び図５Ｂに概して示されているような実施形態において、ＲＮＮ－Ｔ３０２及びＶＡＤモデル３０４をマルチタスク訓練する方法は、プロセッサにより自動音声認識情報を受信する段階（５０２）を備え得る。方法はまた、ＡＳＲ情報を用いて、プロセッサによりＲＮＮ－Ｔ３０２を訓練する段階（５０４）を備え得る。更に、実施形態において、方法は、ノイズに対するロバスト性を改善するために、プロセッサによりＲＮＮ－Ｔ３０２のエンコーダコンポーネント３０８をＲＮＮ－Ｔ３０２のジョイントネットワークコンポーネント３０６及びＶＡＤモデル３０４の１又は複数の出力と統合する段階（５０６）を備え得る。

次に図５Ｂについて、ＲＮＮ－Ｔ３０２のエンコーダコンポーネント３０８をＶＡＤモデル３０４と統合する行動（５０６）が更に詳細に示されている。５０８において、コンピュータ実装方法は、ＶＡＤモデル３０４をＲＮＮ－Ｔ３０２を操作するサブタスクとして操作する段階を備え得る。更に、コンピュータ実装方法は、エンコーダコンポーネントを介して、予め訓練されたＶＡＤモデル３０４に関連して、ＲＮＮ－Ｔ３０２の１又は複数の入力を１又は複数のボイスアクティビティクラスとして分類する段階（５１０）を備え得る。

５１２において、コンピュータ実装方法５００は、プロセッサによりエンコーダコンポーネント３０８の１又は複数の出力をＶＡＤモデル３０４の１又は複数の出力と同じ次元へと統合する段階を備え得る。更に、実施形態において、５１４において、コンピュータ実装方法５００は、要素毎総計動作をエンコーダ３０８の１又は複数の出力及びＶＡＤモデル３０４の１又は複数の出力の間で適用する段階を備え得る。

次に図６を参照すると、コンピュータ実装方法５００は、補助的ＶＡＤデータを用いてマルチタスク訓練する段階を更に備え得る。１又は複数の実施形態によると、ＡＳＲパフォーマンスは更に、（例えば、プロセス６００に示されるように補助的ＶＡＤデータを利用して）システムの１又は複数のパラメータを凍結することにより改善／最適化され得る。６０２において、コンピュータ実装方法６００は、ＡＳＲタスクのためにＲＮＮ－Ｔ３０２を最適化する段階を備え得る。ＲＮＮ－Ｔ３０２は、ＶＡＤパラメータのみを凍結すること及びトランスクライブデータを用いることにより最適化され得る。更に、ＶＡＤ統合システム１００は、ＶＡＤモデル３０４のパラメータを凍結することによりＡＳＲ特有のタスクのために訓練され得る。バックプロパゲーションのための損失算出は、以下の式４により表され得る。

式４：Ｌｏｓｓ＝Ｌｏｓｓ_ＡＳＲ

６０４において、コンピュータ実装方法６００は、ＡＳＲパラメータ及び（例えば、ＲＮＮ－Ｔ３０２及びＶＡＤモデル３０４の間の）共有層を凍結すること及びトランスクライブ及び補助的非トランスクライブデータを用いることによりＶＡＤモデル３０４を最適化する段階を備え得る。実施形態において、ＡＳＲパラメータを凍結することは、ジョイントネットワークコンポーネント３０６、エンコーダコンポーネント３０８、及び／又はプレディクタコンポーネント３１０を凍結することを含み得る。バックプロパゲーションのための損失算出は、以下の式５により表され得る。

式５：Ｌｏｓｓ＝Ｌｏｓｓ_ＶＡＤ

６０６において、コンピュータ実装方法６００は、ＡＳＲ（例えば、ＡＳＲＲＮＮ－Ｔ３０２）及びＶＡＤモデル３０４を共同で最適化する段階を備え得る。例えば、限定されないが、コンピュータ実装方法６００は、ＶＡＤモデル３０４及び共有層パラメータを更新（例えば、ＶＡＤモデル３０４及び／又はエンコーダコンポーネント３０８を更新）して、ＶＡＤ統合システム１００を最適化する段階を備えてよい。コンピュータ実装方法６００の各訓練エポックについて、ＶＡＤ統合システム１００は、ＶＡＤ特有のデータを用いて最適化し得、及び／又はシステム１００は、ＡＳＲ－ＶＡＤジョイント最適化を用いて最適化し得る。実施形態において、ＶＡＤ統合システム１００は、ＡＳＲタスクのみについて最適化（例えば、ＶＡＤパラメータを凍結）し得、それに応じて、ＶＡＤ統合システム１００は、ＶＡＤ最適化のみについて最適化（例えば、ＡＳＲパラメータを凍結）し得、及び／又は更にそれに応じて、ＶＡＤ統合システム１００は、ＡＳＲ及びＶＡＤモデル３０４を共同で最適化し得る。システム１００は、重み付き損失と共に非トランスクライブＶＡＤ訓練データを用いてＶＡＤモデル３０４及び共有層パラメータを更新し得る。重み付き損失算出は、以下の式６により表され得、ここでβは、ジョイント最適化のためのＶＡＤタスク損失重みについてのハイパーパラメータである。

式６：Ｌｏｓｓ＝β・Ｌｏｓｓ_ＶＡＤ

実施形態において、ＡＳＲ及びＶＡＤパラメータを更新する段階は、ＶＡＤモデル３０４、ジョイントネットワークコンポーネント３０６、エンコーダコンポーネント３０８、及び／又はプレディクタコンポーネント３１０のパラメータを更新する段階を有し得る。更に、実施形態において、ＡＳＲ及びＶＡＤパラメータは、共有トランスクライブデータ及び以下の式７により表されるジョイント重み付き損失を用いて更新され得、ここで、αは、ＡＳＲタスク損失重みについてのハイパーパラメータである。

式７：Ｌｏｓｓ＝α・Ｌｏｓｓ_ＡＳＲ＋β・Ｌｏｓｓ_ＶＡＤ

実施形態により、システムは、別個に十分に訓練されたＶＡＤモデルから生成された疑似ラベルを利用し得る。疑似ラベルのこのプロセスは、ＶＡＤからＡＳＲへの知識の蒸留であるとして考えられ得る。知識の蒸留は、複雑な教師ネットワークを単純な生徒ネットワークで模倣するために実装され得る技法である。別個のＶＡＤモデル（例えば、教師ＶＡＤモデル）は、生徒ＶＡＤモデルのためにより良好な疑似ソフトラベルを生成するために、大量の訓練データで訓練され得、ここで生徒は、ＲＮＮ－ＴＡＳＲネットワークに接続されたサブタスクＶＡＤネットワークである。蒸留は、訓練資料内の音響特徴ｘから取得された疑似ＶＡＤラベル
を通して実行され得る。蒸留技法は、以下の式８により表され得、ここで、
は、教師ＶＡＤにより予測されたＶＡＤクラス事後確率である。であれば、ｖは、ｘが与えられたマルチタスクフレームワークにおける生徒ＶＡＤのターゲットラベルとして利用され得る。

次に図７及び図８Ａ～図８Ｄにおいて提供される結果について、４つの表７００、表８００、表８０２、及び／又は表８０４は、１又は複数の様々な実験の結果を示す。第１の実験において、電話での会話からの約３００時間の複数話者のアメリカ英語音声から成るＳｗｉｔｃｈｂｏａｒｄ（ＳＷＢ）コーパスが用いられ得る。データは、訓練資料に２秒より長い非音声セグメント（例えば、このようなセグメントは典型的に、一般的な訓練環境において放棄される）を含むことにより拡張され得る。データを拡張することは、ＳＷＢデータの標準２６７時間に加えて、非音声オンリデータの約８８時間及び音声及び非音声セグメントと混合された発話の約５９９時間を生み出した。

第２の実験において、図６のマルチタスク学習フレームワークにおけるＶＡＤ基準での更新のための補助的ＶＡＤ訓練データが準備され得る。データは、利用可能な転写無しの２００時間の非音声と共に約２００時間の英語のコールセンター（ＣＣ）会話を含む。このデータセットにおいて、環境ノイズは、モデル訓練のための訓練セットに追加された。結果として生じる平均音声対ノイズ比（ＳＮＲ）は、１４ｄＢであった。

図３Ｂにおいて少なくとも部分的に具現化されているような実施形態において、ＲＮＮ－Ｔは、方向毎に層毎に６４０個のセルを有する６つの双方向長短期記憶（Ｂｉ－ＬＳＴＭ）エンコーダ層及び１０２４個のセルのみを有する単一の一方向ＬＳＴＭ予測層を有し得る。ジョイントネットワークは、最後の層からの１２８０次元のスタックしたエンコーダベクトル及び１０２４次元の予測ネット埋め込みを２５６次元に射影し、及び／又は射影されたベクトルを組み合わせ得る。双曲線正接の適用後、出力は、４２個のロジットに射影され、後に４１文字に対応するソフトマックス層が続く。４０次元の話者独立ｌｏｇ－Ｍｅｌフィルタバンク特徴は、ＡＳＲ特徴として１０ｍｓ毎に抽出され得る。発話レベル平均及びグローバル分散正規化の後、これらの特徴は、デルタ及びダブルデルタ係数で拡張され得る。独立ＣＮＮベースのＶＡＤは、フレームレベルのＶＡＤラベルを生成し得、これは、特徴統合及び／又はマルチタスク学習システムを介して利用され得る。

更に実施形態において、隔離されたＶＡＤモデルは、それぞれ第１から最後の層からの入力チャネル３、１６，３２、及び２及び／又は音声フレームを音声、非音声、及び音楽クラスへの分類する際の３の出力クラス次元を有する４つの畳み込み層を備え得る。隔離されたＶＡＤは、自発的及び読み上げ音声の両方を含む様々なＡＳＲドメインから成る２０００時間を超える英語音声データで訓練（例えば、実験）され得る。他方で、ＶＡＤコンポーネントは、（３つのＦＣ層のスタックから成る）ＭＴＬ２、ＭＴＬ３、及びＭＴＬ４のためのサブタスクである。ＭＴＬ２において、最初３つのエンコーダ層は、ＡＳＲ及びＶＡＤタスクの間で共有され得る。ＡＳＲのための学習速度は、２ｅ－４の値を含み、マルチタスク学習フレームワークにおけるＶＡＤのための学習速度は、２ｅ－５の値を含んだ。両方のシステムは、６４のバッチサイズを有する確率的勾配降下法（ＳＧＤ）を用いることにより最適化され得る。

更に、図７及び図８Ａ～図８Ｄに示されるように、音声オンリセグメント、そしてＶＡＤ予測エラーをシミュレーションする非音声セグメントと組み合わせられたそれらを用いて実験が実行された。これらの実験の結果は、ＷＥＲ％として略されたＡＳＲワードエラー率及びＥＥＲ％として略されたフレームレベルＶＡＤ等価エラー率と共に表７００及び表７０２に示されている。ベースライン及び提案されたシステムは、修正されたＳＷＢ、及び様々な長さの非音声セグメントを音声の前、音声の後、又は２つの音声セグメントの間に人工的に追加することにより作成されたＣａｌｌｈｏｍｅ（ＣＨ）テストセットで評価された。各テスト発話に追加された非音声セグメントは、平均で５．５秒である。現実的な環境ノイズもまたこれらのテストセットに追加された。加えて、音声オンリ及びノイズオンリ（非音声）テストもまた実施された。

表７００及び表８００内の実験の結果は、元のＳＷＢ訓練コーパスで訓練された「拡張無」としてタグ付けされている標準ＲＮＮ－Ｔが手動でセグメント化された理想的な音声オンリ入力状況下で十分に作動したが、長い非音声部分と組み合わされた音声を有するより現実的なケースでは、パフォーマンスが大幅に低下したことを示す。この状況下で、「標準ＲＮＮ－Ｔ（拡張無）」によりデコードされたテキストは、非音声部分上に予期しない多くの挿入エラーを含む。対照的に、データセット（「標準ＲＮＮ－Ｔ（拡張有））」を訓練するために非音声セグメントを追加することは、いくつかのそれらのエラーを著しく減少させ得、これもまた表８００において見られ得る。

様々なテスト状況において、エンコーダ後特徴統合は、エンコーダ前特徴統合より良好に作動する（例えば、表７００を参照）。「音声＋非音声」及び「音声オンリ」入力ケースに対するエンコーダ後統合によるＷＥＲは、「標準ＲＮＮ－Ｔ（拡張有）」と類似していたが、この技法は、８００に示されるように、非音声オンリのテストケースにおいて挿入エラーを著しく低減させた。

次に、マルチタスク学習について、実験の結果がまた７００及び８００において表にされている。ＶＡＤ補助的データが利用されなかった場合、「音声＋非音声」テストケースにおいて、ＭＴＬ４（β＝０．０１）が最も大きな改善を提供した。更なる改善がＭＴＬ２、ＭＴＬ３、及びＭＴＬ４において補助的ＶＡＤ訓練データ（ＶＡＤａｕｘデータ）を利用することにより取得された。モデル及び／又は非限定的な実施形態は、補助的ＶＡＤデータ無しのモデルと比較して、「音声＋非音声」のみならず「音声オンリ」テストケースについてもまたＷＥＲを改善した。それぞれデータ拡張無し及び有りの標準ＲＮＮ－Ｔと比較して、「音声＋非音声」テストケースにおいて、２１．５％及び３．６％の相対的な改善を生じた「ＭＴＬ４＋ＶＡＤａｕｘデータ」が最も良好なパフォーマンスを示した。また、「ＭＴＬ４＋ＶＡＤａｕｘデータ」は、「標準ＲＮＮ－Ｔ（拡張有）」と比較して、音声オンリテストケースにおいて、４．６％の相対的改善を提供した。

実施形態において、実験は、（例えば、結果として、ＶＡＤラベルを生成するために用いられ得る）別個のＶＡＤシステムにより自動でセグメント化されたオーディオ信号を用いて実施され得る。上記実験の結果は、表８０２下で図８Ａに示されている。低ＳＮＲにおけるＶＡＤ結果における様々な種類のセグメント化エラーがノイズとしての音声セグメントの分類を含んだので、表８０２内の絶対ＷＥＲは、平均して表７００内のものと比べてより大きかった。しかしながらＶＡＤ統合システム１００は、ベースラインシステムを超える一貫したゲインを示した。

次に、図８Ａの表８０４は、（異なるＳＮＲでのＷＥＲを含む）ＶＡＤ補助的データと同じドメインである追加的なテストデータ（ＣＣ）を用いたＶＡＤサブタスク最適化を介した音響カスタマイズの結果を示す。ＣＣは、音響的にドメイン外のテストセットであり、したがって絶対ＷＥＲは、高い。ＶＡＤ補助的データを訓練データに追加することにより、「ＭＴＬ４＋ＶＡＤａｕｘデータ」は、あらゆるＳＮＲ状況におけるＣＣ及びＳＷＢ／ＣＨテストセットの両方について改善を生じた。ＷＥＲにおける「標準ＲＮＮ－Ｔ（拡張有）」及び「ＭＴＬ４＋ＶＡＤａｕｘデータ」間のギャップは、ＳＮＲが減少するほど、より大きくなる傾向がある。

実施形態において、ＶＡＤ統合システム１００の更なる実験及び／又はパフォーマンスが図８Ｂ、図８Ｃ及び／又は図８Ｄを介して示され得る。ＶＡＤ統合システム１００は、モノラル記録、別個のチャネルＡ、又は別個のチャネルＢについてのテストセット「ＣＨ」及び「内部ＣＣ」を介して実験され得る。表８０６は、車のノイズ音と混合された平均ＳＮＲ４ｄＢにおける手動でセグメント化された音声オンリのノイズを伴うオーディオに対するＶＡＤ統合システム１００の有効性を示す実験結果を含む。追加的に、表８０８（例えば、図８Ｃ）は、手動でセグメント化された音声及び非音声に対するＶＡＤ統合システム１００の有効性を示す実験結果を含む。例えば、限定されないが、非音声セグメントは、約２秒以上であり得る。

次に、図８Ｃの表８１０は、ＳＷＢ及びＣＨテストセットを介したＶＡＤ統合システム１００の実験の追加的な結果を示す。更に、表８１２は、様々なＳＮＲレベル（例えば、１４．２ｄＢ、４．２ｄＢ、及び／又は１．４ｄＢのＳＮＲレベル）における手動でセグメント化されたノイズを伴う音声からの実験結果を示す。加えて、実験は、表８１４及び／又は表８１６により示され得る。図８Ｄに示されるように、表８１４は、様々なＳＮＲレベル（例えば、１４ｄＢ、４．２ｄＢ、及び／又は１．４ｄＢのＳＮＲレベル）における手動でセグメント化されたノイズを伴う音声及び非音声により達成される実験の結果を示す。表８１６は、様々な音声セグメントにおけるＶＡＤ統合システムの有効性を示す。音声セグメントは、非音声オンリ４０４、前方無音４０６、後方無音４１０、及び／又は中間無音４１２（例えば、図４を参照）を含み得る。

ＡＳＲの教師なし及び半教師あり訓練を適用し得ない音響的に困難なデータでのシチュエーションにおいて、コンピュータ実装方法は、有望な改善を示し得、これは、比較的計算上安価である。表７００、表８００、表８０２、表８０４、表８０６、表８０８、表８１０、表８１２、表８１４及び／又は８１６の実験の結果は、ノイズを伴う環境に対するシステムロバスト性を向上するための能力を示す。

説明を簡潔にするべく、コンピュータ実装方法が一連の行動として図示及び説明される。主題のイノベーションは、示される行動及び／又は行動の順序によって限定されるものではないことが理解され、理解されるべきであり、例えば、行動は、本明細書において提示及び記載されない他の行動と共に、様々な順序で及び／又は同時に生じ得る。更に、示される全ての行動が開示された主題によるコンピュータ実装方法を実装するために必要であり得るわけではない。加えて、当業者であれば、コンピュータ実装方法が代替的に、状態図又はイベントを介して、相互に関連のある一連の状態として表され得ることを理解し、理解するであろう。追加的に、以降で、及び、本明細書全体を通して開示されるコンピュータ実装方法は、コンピュータ実装方法をコンピュータへ移送及び転送することを促進するために製品に格納されることが可能であることが更に理解されるべきである。製品という用語は、本明細書において用いられる場合、任意のコンピュータ可読デバイス又は記憶媒体からアクセス可能なコンピュータプログラムを包含するよう意図されている。

本明細書に記載される様々な実施形態についての追加的な文脈を提供するべく、図９及び以下の議論は、本明細書に記載される様々な実施形態実装され得る好適な動作環境９００の一般的な説明を提供することを意図する。１又は複数のコンピュータ上で実行し得るコンピュータ実行可能命令の一般的文脈で実施形態が上で記載されてきたが、当業者は、実施形態が他のプログラムモジュールとの組合せで、及び／又はハードウェア及びソフトウェアの組合せとしてもまた実装され得ることを認識するであろう。

概して、プログラムモジュールは、特定のタスクを実行する及び／又は特定の抽象データタイプを実装するルーチン、プログラム、コンポーネント、及び／又はデータ構造等を含む。更に、当業者は、それぞれが１又は複数の関連付けられたデバイスと動作可能なように結合され得るシングルプロセッサ又はマルチプロセッサコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、モノのインターネット（ＩｏＴ）デバイス、分散コンピューティングシステム、並びにパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、及びマイクロプロセッサベース又はプログラマブルコンシューマエレクトロニクス等を含む他のコンピュータシステム構成と共に、本発明の方法が実施され得ることを理解するであろう。

本明細書の実施形態の示された実施形態はまた、特定のタスクが通信ネットワークを通してリンクされたリモート処理デバイスによって実行される分散型コンピューティング環境において実施され得る。分散型コンピューティング環境において、プログラムモジュールは、ローカル及びリモートメモリストレージデバイスの両方に位置し得る。

コンピューティングデバイスは典型的には、コンピュータ可読記憶媒体、マシン可読記憶媒体及び／又は通信媒体を含み得る、様々な媒体を含み、この２つの用語は本明細書において、以下のように、互いと異なるように用いられる。コンピュータ可読記憶媒体又はマシン可読記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な記憶媒体であり得、揮発性媒体及び不揮発性媒体、取り外し可能又は取り外し不可能媒体の両方を含む。例として、限定ではないが、コンピュータ可読記憶媒体及び／又はマシン可読記憶媒体は、コンピュータ可読及び／又はマシン可読の命令、プログラムモジュール、構造化データ及び／又は非構造化データ等の情報のストレージのための任意の方法又は技術に関連して実装され得る。

コンピュータ可読記憶媒体は、限定されないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、フラッシュメモリ又は他のメモリ技術、コンパクトディスクリードオンリメモリ（ＣＤ‐ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイディスク（ＢＤ）、及び／又は他の光ディスクストレージ、磁気カセット、磁気テープ、ディスクストレージ、及び／又は他の磁気ストレージデバイス、ソリッドステートドライブ、及び／又は他のソリッドステートストレージデバイス、及び／又は所望の情報を格納するために用いられ得る他の有形及び／又は非一時的媒体を含み得る。これに関して、ストレージ、メモリ、又はコンピュータ可読媒体に適用される、本明細書における「有形」又は「非一時的」という用語は、修飾語としての、伝搬するのみの一時的信号自体を除外するものとして理解され、伝搬するのみの一時的信号自体でない、全ての標準的なストレージ、メモリ及び／又はコンピュータ可読媒体に対する権利を放棄しない。

コンピュータ可読記憶媒体は、１又は複数のローカル又はリモートコンピューティングデバイスによって、例えば、媒体によって格納される情報に関する様々な動作のための、アクセス要求、クエリ及び／又は他のデータ取得プロトコルを介してアクセスされ得る。

通信媒体は典型的には、コンピュータ可読命令、データ構造、プログラムモジュール、又は他の構造化又は非構造化データを、変調されたデータ信号、例えば、搬送波又は他の移送メカニズム等のデータ信号において具現化し、任意の情報提供又は移送媒体を含む。「変調されたデータ信号」という用語又は信号は、その特徴的なセットのうちの１又は複数を有する又は１又は複数の信号において情報を符号化するような方式で変更された信号を指す。例として、限定ではないが、通信媒体は、有線ネットワーク及び／又は直接有線接続等の有線媒体、及び／又は音、ＲＦ、赤外線及び／又は他のワイヤレス媒体等のワイヤレス媒体を含み得る。

再び図９を参照すると、本明細書に記載される態様の様々な実施形態を実装するための例示的な動作環境９００は、コンピュータ９０２を含み得、コンピュータ９０２は、処理ユニット９０４、システムメモリ９０６及び／又はシステムバス９０８を含む。システムバス９０８は、限定されないが、システムメモリ９０６を含むシステムコンポーネントを処理ユニット９０４に結合し得る。処理ユニット９０４は、市販の様々なプロセッサのいずれかであり得る。デュアルマイクロプロセッサ及び／又は他のマルチプロセッサアーキテクチャは、処理ユニット９０４として利用され得る。

システムバス９０８は、様々な市販のバスアーキテクチャのいずれかを用いて、（メモリコントローラを用いて又は用いることなく）メモリバス、ペリフェラルバス及び／又はローカルバスに更に相互接続し得るいくつかのタイプのバス構造のいずれかであり得る。システムメモリ９０６は、ＲＯＭ９１０及び／又はＲＡＭ９１２を含み得る。基本入出力システム（ＢＩＯＳ）は、ＲＯＭ、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）及び／又はＥＥＰＲＯＭ等の不揮発性メモリに格納され得、このＢＩＯＳは、起動中等、コンピュータ９０２内の要素間で情報を転送することを助ける基本ルーチンを含む。ＲＡＭ９１２はまた、データをキャッシュするための静的ＲＡＭ等の高速ＲＡＭを含み得る。

コンピュータ９０２は、内部ハードディスクドライブ（ＨＤＤ）９１４（例えば、ＥＩＤＥ、ＳＡＴＡ）、１又は複数の外部ストレージデバイス９１６（例えば、磁気フロッピディスクドライブ（ＦＤＤ）、メモリスティック、又はフラッシュドライブリーダ、及び／又はメモリカードリーダ等）、及び／又はＣＤ－ＲＯＭディスク、ＤＶＤ、及び／又はＢＤ等のディスク９２２から読み込み得る又は書き込み得る、例えば、ソリッドステートドライブ又は光学ディスクドライブ等のドライブ９２０を更に含み得る。代替的に、ソリッドステートドライブが関与する場合、分離されない限り、ディスク９２２は、含まれ得ない。内部ＨＤＤ９１４がコンピュータ９０２内に位置するものとして示されるが、内部ＨＤＤ９１４はまた、好適なシャーシ（不図示）における外部使用のために構成され得る。追加的に、動作環境９００において不図示であるが、ソリッドステートドライブ（ＳＳＤ）は、ＨＤＤ９１４に加えて、又は、その代わりに用いられ得る。ＨＤＤ９１４、外部ストレージデバイス９１６及びドライブ９２０は、ＨＤＤインタフェース９２４によって、システムバス９０８、外部ストレージインタフェース９２６、及びドライブインタフェース９２８にそれぞれ接続され得る。外部ドライブ実装のためのＨＤＤインタフェース９２４は、ユニバーサルシリアルバス（ＵＳＢ）、及び、米国電気電子学会（ＩＥＥＥ）１３９４インタフェース技術の少なくとも一方又は両方を含み得る。他の外部ドライブ接続技術は、本明細書に記載される実施形態の構想内にある。

ドライブ及びその関連付けられたコンピュータ可読記憶媒体は、データ、データ構造、コンピュータ実行可能命令等の不揮発性ストレージを提供する。コンピュータ８０２については、ドライブ及び記憶媒体は、好適なデジタルフォーマットの任意のデータのストレージに対応する。上のコンピュータ可読記憶媒体の説明は、それぞれのタイプのストレージデバイスを指すが、当業者であれば、現在既存の又は将来開発される、コンピュータ可読である他のタイプの記憶媒体もまた例示的な動作環境において用いられ得ること、及び更に、任意のこのような記憶媒体が本明細書に記載される方法を実行するためのコンピュータ実行可能命令を含み得ることを理解するべきである。

いくつかのプログラムモジュールは、オペレーティングシステム９３０、１又は複数のアプリケーション９３２、他のプログラムモジュール９３４及び／又はプログラムデータ９３６を含むドライブ及びＲＡＭ９１２に格納され得る。オペレーティングシステム、アプリケーション、モジュール及び／又はデータの全て又は一部はまた、ＲＡＭ９１２にキャッシュされ得る。本明細書に記載されるシステム及び方法は、様々な市販のオペレーティングシステム及び／又はオペレーティングシステムの組合せを利用して実装され得る。

コンピュータ９０２は任意選択的に、エミュレーション技術を含み得る。例えば、ハイパーバイザ（不図示）又は他の仲介者は、オペレーティングシステム９３０のためのハードウェア環境をエミュレートし得、エミュレートされたハードウェアは任意選択的に、図９に示されているハードウェアとは異なり得る。関連する実施形態において、オペレーティングシステム９３０は、コンピュータ９０２においてホストされる複数のＶＭのうち１つの仮想マシン（ＶＭ）を含み得る。更に、オペレーティングシステム９３０は、アプリケーション９３２のためのＪＡＶＡ（登録商標）ランタイム環境又は．ＮＥＴフレームワーク等のランタイム環境を提供し得る。ランタイム環境は、ランタイム環境を含む任意のオペレーティングシステム上でアプリケーション９３２が実行することを可能にする一貫した実行環境である。同様に、オペレーティングシステム９３０は、コンテナをサポートし得、アプリケーション９３２は、コンテナの形式であり得、コンテナは、例えば、コード、ランタイム、システムツール、システムライブラリ及び／又はアプリケーションのための設定を含むソフトウェアの軽量で、スタンドアロンで、実行可能なパッケージである。

更に、コンピュータ９０２は、信頼される処理モジュール（ＴＰＭ）等のセキュリティ・モジュールに対応し得る。例えば、ＴＰＭにより、ブートコンポーネントは、時間的に次のブートコンポーネントをハッシュし、次のブートコンポーネントをロードする前に、セキュアな値に対する結果のマッチを待機する。このプロセスは、コンピュータ９０２のコード実行スタックの任意の層において発生し得、例えば、アプリケーション実行レベル及び／又はオペレーティングシステム（ＯＳ）カーネルレベルに適用され、それによって、コード実行の任意のレベルでセキュリティを可能にする。

ユーザエンティティは、１又は複数の有線／ワイヤレス入力デバイス、例えば、キーボード９３８、タッチ画面９４０、及び／又はマウス９４２等のポインティングデバイスを通してコマンド及び情報をコンピュータ９０２へと入力し得る。他の入力デバイス（不図示）は、マイク、赤外線（ＩＲ）リモート制御、無線周波数（ＲＦ）リモート制御、又は他のリモート制御、ジョイスティック、仮想現実コントローラ及び／又は仮想現実ヘッドセット、ゲームパッド、スタイラスペン、画像入力デバイス、例えば、カメラ、ジェスチャセンサ入力デバイス、視覚動作センサ入力デバイス、感情又は顔検出デバイス、バイオメトリクス入力デバイス、例えば、指紋又は光彩スキャナ、又は同様のものを含み得る。これらの及び他の入力デバイスは、システムバス９０８に結合され得る入力デバイスインタフェース９４４を通して処理ユニット９０４に接続され得るが、並列ポート、ＩＥＥＥ１３９４シリアルポート、ゲームポート、ＵＳＢポート、ＩＲインタフェース、及び／又はＢＬＵＥＴＯＯＴＨ（登録商標）インタフェース等の他のインタフェースにより接続され得る。

モニタ９４６又は他のタイプのディスプレイデバイスはまた、ビデオアダプタ９４８等のインタフェースを介してシステムバス８０８に接続され得る。加えて、コンピュータは、典型的に、コンピュータは典型的には、スピーカ、及び／又はプリンタ等の他のペリフェラル出力デバイス（不図示）を含む。

コンピュータ９０２は、リモートコンピュータ９５０等の１又は複数のリモートコンピュータに対する有線及び／又はワイヤレス通信を介した論理接続を用いて、ネットワーク環境において動作し得る。リモートコンピュータ９５０は、ワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースのエンタテイメント機器、ピアデバイス及び／又は他の一般的なネットワークノード、又であり得、典型的には、コンピュータ９０２に関して記載されている要素の多く又は全てを含み、ただし、簡潔にする目的で、メモリ／ストレージデバイス９５２のみが示される。図示されている論理接続は、ローカルエリアネットワーク（ＬＡＮ）９５４及び／又はより大きいネットワーク、例えば、ワイドエリアネットワーク（ＷＡＮ）９５６に対する有線／ワイヤレス接続を含む。ＬＡＮ及びＷＡＮネットワーキング環境は、オフィス及び会社において一般的であり、イントラネット等の企業全体のコンピュータネットワークを促進し、それらは全て、グローバル通信ネットワーク、例えば、インターネットに接続され得る。

ＬＡＮネットワーキング環境において用いられる場合、コンピュータ９０２は、有線及び／又はワイヤレス通信ネットワークインタフェース又はアダプタ９５８を通してローカルネットワーク９５４に接続され得る。アダプタ９５８は、ＬＡＮ９５４への有線又はワイヤレス通信を促進し得、ＬＡＮ９５４はまた、ワイヤレスモードにおいてアダプタ９５８と通信するためにその上に配設されるワイヤレスアクセスポイント（ＡＰ）を含み得る。

ＷＡＮネットワーキング環境において用いられる場合、コンピュータ９０２は、モデム９６０を含み得、及び／又はインターネット等の手段によって、ＷＡＮ９５６を介して通信を確立するための他の手段を介して、ＷＡＮ９５６上の通信サーバに接続され得る。内部又は外部であり得るモデム９６０、及び、有線及び／又はワイヤレスデバイスは、入力デバイスインタフェース９４４を介してシステムバス９０８に接続され得る。ネットワーク環境において、コンピュータ９０２又はその一部に関して図示されるプログラムモジュールは、リモートメモリ／ストレージデバイス９５２に格納され得る。示されるネットワーク接続が例示的であり、コンピュータ間で通信リンクを確立するための他の手段が用いられ得ることが理解されるであろう。

ＬＡＮ又はＷＡＮネットワーキング環境のいずれかにおいて用いられる場合、コンピュータ９０２は、これらに限定されないが、情報のストレージ又は処理の１又は複数の態様を提供するネットワーク仮想マシン等の上に記載された外部ストレージデバイス９１６に加えて、又はその代わりに、クラウドストレージシステム又は他のネットワークベースストレージシステムにアクセスし得る。概して、コンピュータ９０２とクラウドストレージシステムとの間の接続が、例えば、アダプタ９５８又はモデム９６０によって、それぞれＬＡＮ９５４又はＷＡＮ９５６を介して確立され得る。コンピュータ９０２を関連付けられたクラウドストレージシステムに接続すると、外部ストレージインタフェース９２６は、アダプタ９５８及び／又はモデム９６０の補助を用いて、外部ストレージの他のタイプを管理するように、クラウドストレージシステムによって提供されたストレージを管理し得る。例えば、外部ストレージインタフェース９２６は、それらのソースがコンピュータ９０２に物理的に接続されているかのように、クラウドストレージソースへのアクセスを提供するように構成され得る。

コンピュータ９０２は、ワイヤレス通信において動作可能なように配設された任意のワイヤレスデバイス又はエンティティ、例えば、プリンタ、スキャナ、デスクトップ、及び／又はポータブルコンピュータ、ポータブルデータアシスタント、通信衛星、電話、ワイヤレスで検出可能タグと関連付けられた任意の機器又はロケーション（例えば、キオスク、ニューススタンド、及び／又は店の棚等）、及び／又は電話と通信するように動作可能であり得る。これは、ワイヤレスフィデリティ（Ｗｉ－Ｆｉ）及びＢＬＵＥＴＯＯＴＨ（登録商標）ワイヤレス技術を含み得る。よって、通信は、従来のネットワークと同様に予め定義された構造であり得、又は単に、少なくとも２つのデバイスの間におけるアドホック通信であり得る。

ここで、図１０を参照すると、例示的なクラウドコンピューティング環境１０５０が図示されている。示されているように、クラウドコンピューティング環境１０５０は、例えば、パーソナルデジタルアシスタント（ＰＤＡ）又は携帯電話１０５４Ａ、デスクトップコンピュータ１０５４Ｂ、ラップトップコンピュータ１０５４Ｃ及び／又は自動車コンピュータシステム１０５４Ｎ等のクラウドコンシューマによって用いられるローカルコンピューティングデバイスが通信し得る１又は複数のクラウドコンピューティングノード１０１０を含む。図１０には図示されていないが、クラウドコンピューティングノード１０１０は更に、クラウドコンシューマによって用いられるローカルコンピューティングデバイスが通信し得る量子プラットフォーム（例えば、量子コンピュータ、量子ハードウェア、及び／又は量子ソフトウェア等）を含み得る。クラウドコンピューティングノード１０１０は互いと通信し得る。これらは、上記したようなプライベートクラウド、コミュニティクラウド、パブリッククラウド又はハイブリッドクラウド又はこれらの組合せ等の１又は複数のネットワークにおいて、物理的又は仮想的にグループ化（不図示）され得る。これにより、クラウドコンピューティング環境１０５０は、インフラストラクチャ、プラットフォーム及び／又はソフトウェアを、クラウドコンシューマがそのためにローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能になる。図１０に示されるコンピューティングデバイス１０５４Ａ－Ｎのタイプは、例示のみを意図するものであり、クラウドコンピューティングノード１０１０及びクラウドコンピューティング環境１０５０は、（例えば、ウェブブラウザを用いて）任意のタイプのネットワーク及び／又はネットワークアドレス可能接続を介して任意のタイプのコンピュータ化デバイスと通信し得ることが理解される。

ここで、図１１を参照すると、クラウドコンピューティング環境１０５０（図１０）によって提供されるような機能抽象化層のセットが示される。図１１に示されたコンポーネント、層、及び機能が例示のみを意図するものであり、本明細書に記載される実施形態がそれに限定されないことを、前もって理解されるべきである。図示するように、以下の層及び対応する機能が提供される。

ハードウェア及びソフトウェア層１１６０は、ハードウェア及びソフトウェアコンポーネントを含み得る。ハードウェアコンポーネントの例は、メインフレーム１１６１；ＲＩＳＣ（ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ，縮小命令セットコンピュータ）アーキテクチャベースサーバ１１６２；サーバ１１６３；ブレードサーバ１１６４；ストレージデバイス１１６５；及びネットワーク及びネットワーキングコンポーネント１１６６を含む。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア１１６７、量子プラットフォームルーティングソフトウェア１１６８及び／又は量子ソフトウェア（図１１に図示されていない）を含み得る。

仮想化層１１７０は、抽象化層を提供し得、抽象化層からは、仮想エンティティの以下の例、すなわち、仮想サーバ１１７１、仮想ストレージ１１７２；仮想プライベートネットワークを含む仮想ネットワーク１１７３；仮想アプリケーション及び／又はオペレーティングシステム１１７４；及び／又は仮想クライアント１１７５が提供され得る。

１つの例において、管理層１１８０は、後述されている機能を提供し得る。リソースプロビジョニング１１８１は、クラウドコンピューティング環境内のタスクを実行するために利用され得るコンピューティングリソース及び他のリソースの動的な調達を提供し得る。測定及び価格設定１１８２は、リソースがクラウドコンピューティング環境内で利用される際のコスト追跡及びこれらのリソースの消費に対する課金又は請求書送付を提供し得る。１つの例において、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウドコンシューマの身元確認及びタスク並びにデータ及び他のリソースのための保護を提供し得る。ユーザ（又は構成成分）ポータル１１８３は、コンシューマ及びシステム管理者に対し、クラウドコンピューティング環境へのアクセスを提供し得る。サービスレベル管理１１８４は、必要とされるサービスレベルが満たされるように、クラウドコンピューティングリソース割当て及び管理を提供し得る。サービスレベルアグリーメント（ＳｅｒｖｉｃｅＬｅｖｅｌＡｇｒｅｅｍｅｎｔ：ＳＬＡ）プランニング及び遂行１１８５は、ＳＬＡに従い将来の要件が予想されるクラウドコンピューティングリソースに対する事前取決め及び調達を提供し得る。

ワークロード層１１９０は、クラウドコンピューティング環境が利用され得る機能性の例を提供し得る。この層から提供され得るワークロード及び機能の非限定的な例は、マッピング及びナビゲーション１１９１；ソフトウェア開発及びライフサイクル管理１１９２；仮想クラスルーム教育配信１１９３；データ分析処理１０９４；トランザクション処理１１９５；及び／又はアプリケーション変換ソフトウェア１１９６を含む。

本明細書に記載される実施形態は、統合の任意の可能な技術的詳細レベルにおけるシステム、方法、装置及び／又はコンピュータプログラム製品のうちの１又は複数を対象とし得る。コンピュータプログラム製品は、本明細書に記載される１又は複数の実施形態の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数の媒体）を含み得る。コンピュータ可読記憶媒体は、命令実行デバイスにより用いられる命令を保持及び格納可能な有形デバイスであり得る。コンピュータ可読記憶媒体は例えば、電子ストレージデバイス、磁気ストレージデバイス、光学ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス及び／又は前述の任意の好適な組合せに限定されるものではないことがあり得る。コンピュータ可読記憶媒体のより具体的な例の非包括的リストはまた、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、命令が記録されたパンチカード又は溝における凸構造等のマシン的符号化デバイス、及び／又は前述の任意の好適な組合せを含み得る。コンピュータ可読記憶媒体は、本明細書において用いられる場合、電波又は他の自由に伝搬する電磁波、導波路又は他の伝送媒体を通して伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通して伝送される電気信号等の一時的信号それ自体とは解釈されるべきではない。

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードされ得、又はネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はワイヤレスネットワークを介して、外部コンピュータ又は外部ストレージデバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含み得る。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。本明細書に記載される１又は複数の実施形態の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又はＳｍａｌｌｔａｌｋ（登録商標）、又はＣ＋＋等のオブジェクト指向プログラミング言語、及び／又は「Ｃ」プログラミング言語又は類似のプログラミング言語等の手続型プログラミング言語を含む１又は複数のプログラミング言語の任意の組合せで書かれたソースコード又はオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、スタンドアロンのソフトウェアパッケージとして、ユーザのコンピュータ上で部分的に及び／又はリモートコンピュータ上で部分的に、又はリモートコンピュータ又はサーバ上で全体的に実行し得る。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通してユーザのコンピュータに接続され得るか、又は接続は、（例えば、インターネットサービスプロバイダを用いてインターネットを通して）外部コンピュータに行われ得る。いくつかの実施形態において、本明細書に記載される１又は複数の実施形態の態様を実行するべく、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）及び／又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行し得る。

本明細書に記載される１又は複数の実施形態の態様は、本明細書に記載される１又は複数の実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照して本明細書に記載される。フローチャート図及び／又はブロック図の各ブロック、及び、フローチャート図及び／又はブロック図におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装可能であることが理解されるであろう。これらのコンピュータ可読プログラム命令は、マシンを生み出すために、汎用コンピュータ、特定用途向けコンピュータ及び／又は他のプログラマブルデータ処理装置のプロセッサに提供され得、その結果、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行する命令は、フローチャート及び／又はブロック図のブロック又は複数のブロックにおいて指定される機能／行動を実装するための手段を作成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置及び／又は他のデバイスに、特定の方式で機能するよう指示できるコンピュータ可読記憶媒体に格納され得、その結果、内部に命令を格納したコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図のブロック又は複数のブロックにおいて指定された機能／行動の態様を実装する命令を含む、製品を含む。コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置及び／又は他のデバイス上にロードされ得ることにより、一連の動作行動を、コンピュータ、他のプログラマブル装置又は他のデバイス上で実行させ、コンピュータ実装プロセスを生み出し、その結果、コンピュータ、他のプログラマブル装置及び／又は他のデバイス上で実行する命令が、フローチャート及び／又はブロック図のブロック又は複数のブロックにおいて指定される機能／行動を実装する。

図面内のフローチャート及びブロック図は、本明細書に記載される様々な実施形態によるシステム、コンピュータ実装可能方法及び／又はコンピュータプログラム製品の可能な実装のアーキテクチャ、機能性、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定された論理機能を実装するための１又は複数の実行可能命令を含む、モジュール、セグメント及び／又は命令の一部を表し得る。いくつかの代替的な実装において、ブロックに記載される機能は、図に記載された順序とは別の順序で生じ得る。例えば、実際に、連続して示される２つのブロックは、関与する機能性に応じて、実質的に同時に実行され得、又はブロックは場合によっては、逆の順序で実行され得る。また、ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図におけるブロックの組合せは、指定された機能及び／又は行動を実行する特定用途向けハードウェアベースのシステムによって実装できる、又は特定用途向けハードウェア及び／又はコンピュータ命令の組合せを実行できることに留意されるであろう。

主題は、コンピュータ及び／又は複数のコンピュータ上で実行するコンピュータプログラム製品のコンピュータ実行可能命令の一般的文脈において上で説明されたが、当業者であれば、本明細書における１又は複数の実施形態がまた他のプログラムモジュールとの組合せで実装され得ることを認識し得る。概して、プログラムモジュールは、特定のタスクを実行する、及び／又は特定の抽象データタイプを実装するルーチン、プログラム、コンポーネント、及び／又はデータ構造等を含む。更に、当業者であれば、本発明のコンピュータ実装方法は、シングルプロセッサ又はマルチプロセッサコンピュータシステム、ミニコンピューティングデバイス、メインフレームコンピュータ、並びにコンピュータ、ハンドヘルドコンピューティングデバイス（例えば、ＰＤＡ、電話）、及び／又はマイクロプロセッサベース又はプログラマブルコンシューマ用又は産業用エレクトロニクス等を含む他のコンピュータシステム構成で実施され得ることを理解するであろう。示される態様は、通信ネットワークを通してリンクされるリモート処理デバイスによってタスクが実行される分散型コンピューティング環境においてもまた実施され得る。しかしながら、１又は複数の実施形態の全ての態様とは言わないまでも、いくつかは、スタンドアロンのコンピュータで実施され得る。分散型コンピューティング環境において、プログラムモジュールは、ローカル及びリモート両方のメモリストレージデバイスに位置し得る。

本願において用いられる場合、「コンポーネント」、「システム」、「プラットフォーム」及び／又は「インタフェース」等の用語は、コンピュータ関連エンティティ又は１又は複数の特有の機能性を有する動作マシンに関連するエンティティを指し得る及び／又は含み得る。本明細書に開示されるエンティティは、ハードウェア、ハードウェア及びソフトウェアの組合せ、ソフトウェア、又は実行中のソフトウェアのいずれかであり得る。例えば、コンポーネントは、プロセッサ上で実行するプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行のスレッド、プログラム及び／又はコンピュータであり得るが、これらに限定されるものではない。例示として、サーバ上で実行されるアプリケーション及び当該サーバの両方がコンポーネントであり得る。１又は複数のコンポーネントは、実行のプロセス及び／又はスレッドにおいて存在し得、コンポーネントは、１つのコンピュータに局在及び／又は２又はそれより多くのコンピュータの間で分散され得る。別の例において、それぞれのコンポーネントは、様々なデータ構造が格納された様々なコンピュータ可読媒体から実行し得る。コンポーネントは、１又は複数のデータパケット（例えば、ローカルシステム、分散システム、及び／又は信号を介する他のシステムとのインターネット等のネットワークにおける別のコンポーネントと相互作用する１つのコンポーネントからのデータ）を有する信号等に従って、ローカル及び／又はリモートのプロセスを介して通信し得る。別の例として、コンポーネントは、プロセッサによって実行されるソフトウェア又はファームウェアアプリケーションによって操作される電気又は電子回路によって操作されるマシン部品によって提供される特有の機能性を有する装置であり得る。このようなケースにおいて、プロセッサは、装置の内部又は外部にあり得、ソフトウェア又はファームウェアアプリケーションの少なくとも一部を実行し得る。更に別の例として、コンポーネントは、マシン部品を用いず電子コンポーネントを通して特有の機能性を提供する装置であり得、当該電子コンポーネントは、電子コンポーネントの機能性を少なくとも部分的に付与するソフトウェア又はファームウェアを実行するためのプロセッサ又は他の手段を含み得る。ある態様において、コンポーネントは、例えば、クラウドコンピューティングシステム内の仮想マシンを介して電子コンポーネントをエミュレートし得る。

加えて、「又は」という用語は、排他的な「又は」ではなく、包括的な「又は」を意味することが意図されている。即ち、別段の指定がない限り、又は文脈上明確でない限り、「ＸがＡ又はＢを利用する」は、自然の包括的な入替えのいずれかを意味することが意図される。即ち、ＸはＡを利用する；ＸはＢを利用する；又はＸはＡ及びＢの両方を利用する場合、「ＸはＡ又はＢを利用する」が前述のインスタンスのいずれかの下で満たされる。更に、本明細書及び添付の図面に用いられる冠詞「ａ」及び「ａｎ」は一般的に、単数形を対象としていることが別段に指定されない限り、又は文脈からそれが明確ではない限り、「１又は複数」を意味すると解釈されるべきである。本明細書において用いられる場合、用語「例」及び／又は「例示的」は、例、インスタンス、又は例示として機能することを意味するために利用される。疑義を回避するために、本明細書に開示される主題は、このような例に限定されるものではない。加えて、「例」及び／又は「例示的」として本明細書に記載される任意の態様又は設計は、他の態様又は設計よりも好ましいか、又は有利であると必ずしも解釈されず、当業者に知られている同等の例示的な構造及び技法を除外するよう意図されていない。

本明細書において利用される「プロセッサ」という用語は、これらに限定されないが、シングルコアプロセッサ；ソフトウェアマルチスレッド実行能力を有するシングルプロセッサ；マルチコアプロセッサ；ソフトウェアマルチスレッド実行能力を有するマルチコアプロセッサ；ハードウェアマルチスレッド技術を有するマルチコアプロセッサ、並列プラットフォーム；及び分散共有メモリを有する並列プラットフォームを含む実質的に任意のコンピューティング処理ユニット又はデバイスを指し得る。追加的に、プロセッサとは、集積回路、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックコントローラ（ＰＬＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、ディスクリートゲート又はトランジスタロジック、ディスクリートハードウェアコンポーネント、又は本明細書に記載される機能を実行するために設計されたそれらの任意の組合せを指し得る。更に、プロセッサは、空間利用を最適化し、又はユーザ機器のパフォーマンスを向上するべく、これらに限定されないが、分子及び量子ドットベースのトランジスタ、スイッチ、及びゲート等のナノスケールアーキテクチャを利用し得る。プロセッサはまた、コンピューティング処理ユニットの組合せとして実装され得る。本明細書において、「格納」、「ストレージ」、「データ格納」、「データストレージ」、「データベース」及びコンポーネントの動作及び機能性に関連する実質的に任意の他の情報ストレージコンポーネント等の用語は、「メモリ」又はメモリを含むコンポーネントにおいて具現化される「メモリコンポーネント」エンティティを指すために利用される。本明細書に記載されるメモリ及び／又はメモリコンポーネントは、揮発性メモリ又は不揮発性メモリのいずれかであり得るか、又は揮発性及び不揮発性メモリの両方を含み得ることが理解されるべきである。限定ではなく、例示として、不揮発性メモリは、リードオンリメモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気消去可能ＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ及び／又は不揮発性ランダムアクセスメモリ（ＲＡＭ）（例えば、強誘電体ＲＡＭ（ＦｅＲＡＭ））を含み得る。揮発性メモリは、例えば、外部キャッシュメモリとして行動し得るＲＡＭを含み得る。限定ではなく例示として、ＲＡＭは、同期ＲＡＭ（ＳＲＡＭ）、動的ＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、拡張ＳＤＲＡＭ（ＥＳＤＲＡＭ）、ＳｙｎｃｈｌｉｎｋＤＲＡＭ（ＳＬＤＲＡＭ）、ダイレクトＲａｍｂｕｓＲＡＭ（ＤＲＲＡＭ）、ダイレクトＲａｍｂｕｓ動的ＲＡＭ（ＤＲＤＲＡＭ）及び／又はＲａｍｂｕｓ動的ＲＡＭ（ＲＤＲＡＭ）等の多くの形式で利用可能である。追加的に、本明細書におけるシステム及び／又はコンピュータ実装方法の開示されるメモリコンポーネントは、これら及び任意の他の好適なタイプのメモリを含むことが意図されるが、これらに限定されない。

上で記載されてきたものは、システム及びコンピュータ実装方法の例を含むに過ぎない。当然、１又は複数の実施形態を説明する目的で、コンポーネント又はコンピュータ実装方法の想定されるあらゆる組合せを説明することは不可能であるが、当業者であれば、１又は複数の実施形態の多くの更なる組合せ及び入替えが可能であることを認識し得る。更に、「含む」、「有する」、及び「備える」等の用語が、詳細な説明、特許請求の範囲、付録、及び図面において用いられる範囲では、このような用語は、「備える」が請求項における移行ワードとして利用される場合に解釈されるような、用語「備える」と同様の方式で、包括的であるよう意図されている。

様々な実施形態の説明は、例示の目的で提示され、包括的又は開示される実施形態に限定的である意図はない。説明される実施形態の範囲及び趣旨から逸脱することのない多くの修正形態及び変形形態が、当業者には明らかになるであろう。本明細書において用いられる専門用語は、実施形態の原理、実用的な適用又は市場で見られる技術に対する技術的改善を最も良好に説明し、又は本明細書において開示される実施形態を他の当業者が理解することを可能にするように選択されている。

Claims

コンピュータ実行可能コンポーネントを格納するメモリ；及び
前記メモリに動作可能に結合されており、前記メモリに格納されている前記コンピュータ実行可能コンポーネントを実行するプロセッサ
を備え、前記コンピュータ実行可能コンポーネントは、
自動音声認識（ＡＳＲ）情報を受信するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）；
マルチタスク訓練を介して前記ＡＳＲ情報を用いて前記ＲＮＮ－Ｔを訓練するボイスアクティビティ検出（ＶＡＤ）モデル
を有し；及び
前記ＲＮＮ－Ｔは、エンコーダ及びジョイントネットワークを更に含み、前記エンコーダの１又は複数の出力は、前記ジョイントネットワーク及び前記ＶＡＤモデルの１又は複数の出力と統合される
システム。
前記エンコーダは、前記ＶＡＤモデル及び前記ＲＮＮ－Ｔのアクティビティのための共有層として用いられる、請求項１に記載のシステム。
前記エンコーダは、予め訓練されたＶＡＤモデルを介して前記ＲＮＮ－Ｔの１又は複数の入力を１又は複数のボイスアクティビティクラスとして分類する、請求項１又は２に記載のシステム。
前記ＶＡＤモデルは、前記ＲＮＮ－Ｔのサブタスクとして動作する、請求項１又は２に記載のシステム。
前記エンコーダの前記１又は複数の出力は、前記ジョイントネットワークに伝送される、請求項１又は２に記載のシステム。
全結合層を介して前記ＶＡＤモデルの前記１又は複数の出力を前記エンコーダの前記１又は複数の出力と同じ次元へと射影することにより、前記エンコーダの前記１又は複数の出力は、前記ＶＡＤモデルの前記１又は複数の出力と統合される、請求項１又は２に記載のシステム。
ノイズに対するロバスト性を改善するために、要素毎総計動作が前記エンコーダの前記１又は複数の出力及び前記ＶＡＤモデルの前記１又は複数の出力の間で適用される、請求項６に記載のシステム。
前記システムは、ＶＡＤパラメータに基づいて最適化され；前記ＶＡＤモデル及びＲＮＮ－Ｔは、共同で最適化される、請求項１又は２に記載のシステム。
前記システムは、バックプロパゲーションを判断するために、前記ＡＳＲ情報及びＶＡＤパラメータのうちの少なくとも１つの１又は複数のパラメータを凍結させることにより更に最適化される、請求項８に記載のシステム。
前記ＶＡＤモデル及び前記ＲＮＮ－Ｔを事前に訓練するために、１又は複数の非音声セグメントが前記ＡＳＲ情報の１又は複数の音声セグメントに追加される、請求項１又は２に記載のシステム。
プロセッサにより自動音声認識（ＡＳＲ）情報を受信する段階；
前記プロセッサにより前記ＡＳＲ情報を用いてリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をマルチタスク訓練する段階；及び
ノイズに対するロバスト性を改善するために、前記プロセッサにより前記ＲＮＮ－Ｔのエンコーダを前記ＲＮＮ－Ｔのジョイントネットワーク及びボイスアクティビティ検出（ＶＡＤ）モデルの１又は複数の出力と統合する段階
を備える、コンピュータ実装方法。
前記エンコーダは、前記ＶＡＤモデル及び前記ＲＮＮ－Ｔのアクティビティのための共有層として用いられる、請求項１１に記載のコンピュータ実装方法。
前記プロセッサにより、予め訓練されたＶＡＤモデルに関連して前記ＲＮＮ－Ｔの１又は複数の入力を１又は複数のボイスアクティビティクラスとして分類する段階
を更に備える、請求項１１又は１２に記載のコンピュータ実装方法。
前記ＶＡＤモデルを前記ＲＮＮ－Ｔを動作させるサブタスクとして動作させる段階
を更に備える、請求項１１又は１２に記載のコンピュータ実装方法。
全結合層を介して前記エンコーダの１又は複数の出力を前記ＶＡＤモデルの１又は複数の出力と同じ次元へと統合する段階
を更に備える、請求項１１又は１２に記載のコンピュータ実装方法。
要素毎総計動作を前記エンコーダの前記１又は複数の出力及び前記ＶＡＤモデルの前記１又は複数の出力の間に適用する段階
を更に備える、請求項１５に記載のコンピュータ実装方法。
リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をボイスアクティビティ検出（ＶＡＤ）モデルで訓練するためのコンピュータプログラムであって、プロセッサに、
自動音声認識（ＡＳＲ）情報を受信する手順；
前記ＡＳＲ情報を用いて前記ＲＮＮ－Ｔをマルチタスク訓練する手順；及び
前記ＲＮＮ－Ｔのエンコーダを前記ＲＮＮ－Ｔのジョイントネットワーク及び前記ＶＡＤモデルの１又は複数の出力と統合する手順
を実行させるための、コンピュータプログラム。
前記プロセッサに、
予め訓練されたＶＡＤモデルに関連して、前記ＲＮＮ－Ｔの１又は複数の入力を１又は複数のボイスアクティビティクラスとして分類する手順
を更に実行させるための、請求項１７に記載のコンピュータプログラム。
前記プロセッサに、
全結合層を介して前記エンコーダの１又は複数の出力を前記ＶＡＤモデルの前記１又は複数の出力と同じ次元へと統合する手順
を更に実行させるための、請求項１７又は１８に記載のコンピュータプログラム。
前記プロセッサに、
ノイズに対するロバスト性を改善するために、要素毎総計動作を前記エンコーダの前記１又は複数の出力及び前記ＶＡＤモデルの前記１又は複数の出力の間で適用する手順
を更に実行させるための、請求項１９に記載のコンピュータプログラム。