JP2024508196A

JP2024508196A - 拡張された自己注意によってコンテキストを取り込むための人工知能システム

Info

Publication number: JP2024508196A
Application number: JP2023574886A
Authority: JP
Inventors: モーリッツ，ニコ; 貴明堀; ル・ルー，ジョナタン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-03-26
Filing date: 2021-11-30
Publication date: 2024-02-22
Also published as: CN117043786A; WO2022201646A1; EP4121910A1; US20220310070A1; US11557283B2

Abstract

人工知能（ＡＩ）システムが開示される。ＡＩシステムは、各入力フレームを、同じ順序のキーフレームのシーケンス、値フレームのシーケンス、およびクエリフレームのシーケンスをもたらす、対応するキーフレーム、対応する値フレーム、および対応するクエリフレームに変換することによって、ならびに、各クエリフレームのための注意計算を、クエリフレームの場所に基づいて制限されたキーフレームのシーケンスおよび値フレームのシーケンスの一部と、所定の抽出関数を用いてキーフレームのシーケンスおよび値フレームのシーケンスの異なるフレームを処理することによって抽出されたキーフレームの拡張シーケンスおよび値フレームの拡張シーケンスとの組合せに対して実行することによって、出力のシーケンスを計算するように訓練された拡張された自己注意モジュールを含むニューラルネットワークを用いて、入力フレームのシーケンスを処理するプロセッサを含む。また、プロセッサは、出力のシーケンスをレンダリングする。

Description

本開示は一般に人工知能（artificial intelligence：ＡＩ）に関し、より具体的には、拡張された自己注意（dilated self-attention）によってコンテキストを取り込むためのＡＩシステムに関する。

今日、注意機構は、機械翻訳、音声処理、言語モデル化、自動音声認識（automatic speech recognition：ＡＳＲ）、コンピュータビジョンなどを含む異なる人工知能（ＡＩ）アプリケーションのための多くのニューラルネットワーク（Neural Network：ＮＮ）アーキテクチャにおける中心コンポーネントになっている。また、自己注意機構も、広く使用されるニューラルネットワークコンポーネントである。自己注意機構は、入力が、所与のタスクにとって最良のやり方で出力を計算するために、互い（「自己」）と対話し、それらが誰により多くの注意（「注意」）を払わなければならないかを見出すことを可能にする。そのような自己注意機構を使用するニューラルネットワークコンポーネントの出力は、これらの対話の集合体である。

注意ベースのアーキテクチャ（トランスフォーマアーキテクチャなど）は、全てのモデルコンポーネントにわたって注意が利用されるさまざまなドメインのためにうまく適用されてきた。より深くより広いアーキテクチャを使用して結果をさらに向上させるために、多くのモデルパラメータが増加される。注意ベースのアーキテクチャは、異なる長さ（「入力シーケンス長」とも呼ばれる）の入力を処理する。一般に、注意ベースのアーキテクチャの計算複雑性は、入力シーケンス長に依存する。また、自己注意機構の計算複雑性は、入力シーケンス長の増加とともに二次的に増大する。これは、発話の入力シーケンス長が比較的長くなり得る自動音声認識（ＡＳＲ）などを含むもののそれに限定されないアプリケーションにとって問題であり得る。ニューラルネットワークの計算複雑性の増加は、処理時間の増加、低い処理速度、および格納空間の増加といった低い処理性能をもたらす。

ニューラルネットワークにおける計算複雑性の問題を解決するために、制限された自己注意機構が使用され得る。しかしながら、制限された自己注意機構は、現在のクエリフレームに関連付けられたクエリに対する遠くの情報を無視する。よって、そのような機構の出力結果は劣化し得る。

したがって、前述の限定を克服するための技術的解決策が必要である。より具体的には、計算コスト（時間および空間要件）を最小化しつつ、高品質の出力を提供する必要がある。

いくつかの実施形態は、クエリフレーム（すなわちクエリベクトル）を使用することによって入力シーケンスから情報を読み出すための方法である注意機構の認識に基づいている。そのような機構における入力シーケンスは、メモリとして作用する。また、拡張された自己注意機構では、入力シーケンスから計算されたクエリフレームが、それ自体から情報をクエリするために使用される。例示的な一実施形態では、入力シーケンスは、言語音事象のシーケンスを含む音声発話から抽出された観測ベクトル（フレーム）のシーケンスに対応し得る。自己注意機構は、そのような入力シーケンスのフレームを、キーフレーム、値フレーム、およびクエリフレームのシーケンスに変換し得る。いくつかの実施形態では、入力シーケンスにおけるあるフレーム位置に対応するあるクエリフレームの隣接フレームは、当該クエリフレームの音事象と同様の音事象に属するかもしれず、その場合、それらとキーフレーム、値フレーム、およびクエリフレームのうちの１つ以上との論理関係を認識するために、詳しい情報が必要とされ得る。また、（当該クエリフレームから離れている、入力シーケンスにおけるフレームといった）遠くの情報は、入力シーケンスのコンテキストを認識することに関連し得る。したがって、隣接フレームは依存関係を有する場合があり、一方、遠くのフレームは、それほど詳しくない情報を必要とし得るコンテキストをトレースすることに関連する。

入力シーケンスにおいて各単語が観測ベクトルによって表わされる機械翻訳または言語モデル化などにおけるいくつかの例示的な実施形態では、入力シーケンスのすぐ近くの単語は依存関係を有する可能性がより高い場合があり、一方、ほんの少数の遠くの単語または単語グループは、文の意味論的コンテキストおよびシンタックスをトレースすることに関連する場合があり、それは、それほど詳しくない情報を必要とし得る。

いくつかの他の例示的な実施形態では、自動音声認識（ＡＳＲ）システムにおいて、あるクエリフレームの隣接フレーム（またはすぐ近くのフレーム）が同じ音素、音節、および単語に属する場合があり、その場合、それらの一貫性を認識するために、詳しい情報が必要とされる。一方、遠くの情報は、発話における音および単語のコンテキストを認識することと、話者特性または録音特性に適合することとに関連し、それは典型的には、それほどきめ細かくない情報を必要とする。いくつかの実施形態では、トランスフォーマベースのニューラルネットワークが、エンドツーエンドＡＳＲシステムのために使用され得る。トランスフォーマベースのニューラルネットワークは、フレームレベル分類目的関数と同時に訓練され得る。例示的な一実施形態では、トランスフォーマベースのニューラルネットワークは、コネクショニスト時間分類（connectionist temporal classification：ＣＴＣ）目的と同時に訓練され得る。トランスフォーマベースのニューラルネットワークは、エンコーダ／デコーダ注意と自己注意との両方を活用し得る。エンコーダ／デコーダ注意は、入力値のシーケンスへの注意を制御するためにトランスフォーマベースのニューラルネットワークのデコーダの状態に基づいてクエリベクトルを使用し得る。入力値のシーケンスは、エンコーダニューラルネットワーク状態のシーケンスである。トランスフォーマベースのニューラルネットワークの注意タイプは両方とも、スケーリングされたドット積注意機構に基づき得る。トランスフォーマベースのニューラルネットワークにおいて実現されたＣＴＣ目的は、エンコーダ／デコーダベースのＡＳＲシステムのストリーミング認識も可能にしつつ、ラベル同期モデルと時間同期モデルとの両方の組合された利点を達成し得る。

いくつかの実施形態は、制限された自己注意機構において、現在のクエリフレームに関連付けられたクエリに対する遠くの情報が除外され得るという問題の認識に基づいている。制限された自己注意機構は、解像度が高い、現在のクエリフレームの隣接フレームまたはすぐ近くのフレームへの注意を可能にし得る。すなわち、制限された自己注意機構では、現在のクエリフレームに対する過去および未来のコンテキストが、予め規定された数のルックバックフレームおよびルックアヘッドフレームに基づいて限定される。しかしながら、遠くの情報は、正確な結果を提供する際に有用であり得る。

いくつかの実施形態は、クエリに対する過去（左）のコンテキストを決定するために現在のクエリフレームまでの要約フレームを計算するための遠くの情報の再帰処理の認識に基づいている。再帰処理では、クエリが前に動くにつれて、要約フレームは新しい入力フレームで更新される。このプロセスは、最後のクエリフレームが処理されるまで実行される。情報のこの反復更新は、再帰処理が進むにつれて、不正確な遠くのコンテキストの決定をもたらす。なぜなら、要約フレームにおいて遠くのフレームの元の情報が老朽化しているためである。また、再帰処理は、要約フレームの計算を加速するために並列処理することができない。

遠くの情報のそのような老朽化を回避するために、ならびに、現在のクエリフレームに対する過去（左のコンテキスト）および未来（右のコンテキスト）の遠くの情報への等しいアクセスを得るために、いくつかの実施形態の目的は、再帰的アプローチを使用することなく、遠くのコンテキストを正確に要約することである。その目的のために、いくつかの実施形態の目的は、制限された自己注意に加えて拡張機構を提供することである。拡張機構と制限された自己注意との組合せは、拡張された自己注意と呼ばれる。拡張機構では、ともに入力シーケンスから導き出される値フレームのシーケンスとキーフレームのシーケンスとが抽出され、値拡張シーケンスおよびキー拡張シーケンスに格納される。拡張機構は、キー拡張シーケンスのフレームと値拡張シーケンスのフレームとを同時に計算するために、並列計算を使用していてもよい。キー拡張シーケンスおよび値拡張シーケンスは、キーフレームのシーケンスおよび値フレームのシーケンスと比較して、より低いフレームレートのものであってもよい。

このため、制限された自己注意を拡張機構と組合せた、拡張された自己注意は、制限ウィンドウのルックアヘッドおよびルックバック範囲内にある、クエリのすぐ近くのフレームには、フル解像度で自己注意を行ない、制限ウィンドウの外側にあり得る遠くのフレームには、低減された解像度で自己注意を行なう。いくつかの例示的な実施形態では、拡張された自己注意の拡張機構は、入力シーケンスのキーフレームおよび値フレームのシーケンスをサブサンプリングまたは要約する。要約されたキーフレームおよび値フレームは、拡張シーケンスとして使用され得る。キーフレームおよび値フレームの拡張シーケンスは、入力シーケンスのフレームレートと比較して、より低いフレームレートに対応し得る。キーフレームおよび値フレームの拡張シーケンスは、制限された自己注意機構によって生成されたキーフレームおよび値フレームの制限されたシーケンスに付加され得る。このようにして、入力シーケンスのコンテキスト全体が、正確な自己注意出力を提供するために、部分的に高い（フル）解像度およびより低い解像度で取り込まれる。高い解像度およびより低い解像度の情報は圧縮された形であってもよく、それは、機械翻訳、言語モデル化、音声認識などに関係するアプリケーションのための入力シーケンスを処理するために、より少ないメモリおよびより少ない計算時間を消費し得る。

いくつかの実施形態は、フレームのチャンク内の関連情報を抽出または圧縮するサブサンプリング方法およびプーリング方法などの異なるフレームレート削減方法に基づいて、入力のシーケンス、すなわち入力シーケンスからの関連情報が、フレームのチャンク内で抽出または圧縮され得るという認識に基づいている。フレーム削減方法の例は、平均プーリング、最大プーリング、注意ベースのプーリングなどを含み得るものの、それらに限定されない。

いくつかの実施形態では、フレームのチャンク内の関連情報は、注意ベースのプーリングアプローチによって抽出または圧縮される。注意ベースのプーリング方法は、チャンクの加重平均を計算するために使用される１つまたは複数のクエリベクトルを得るために、訓練された埋め込みベクトルを使用する。

いくつかの実施形態では、入力のシーケンスからの関連情報は、ブロック処理手法、サブサンプリング手法、および圧縮手法を使用して抽出され得る。そのようなアプローチでは、現在のクエリフレームに対する遠くのフレームは、より低い解像度で処理され、現在のクエリフレームに対する隣接フレームは、高い（フル）解像度で処理される。遠くの情報とすぐ近くの情報とは、入力のシーケンスの圧縮された形を得るために組合され得る。異なる実施形態は、全ての利用可能な／関連するキーフレームおよび値フレームから情報を抽出するために、所定の異なる抽出関数を使用する。異なる抽出関数は、制限された自己注意を、拡張された自己注意によって取り込まれた他の有用な情報と組合せるために、上述の抽出手法のうちの１つまたはそれらの組合せを使用する。

さらに、いくつかの実施形態は、自己注意機構の計算複雑性が入力シーケンス長の増加とともに二次的に増大するという認識に基づいている。したがって、いくつかの実施形態の目的は、自己注意の計算コストが入力シーケンス長とともに二次的に増大することを緩和することである。一実施形態によれば、拡張された自己注意システムにおける制限された自己注意の計算コストは、入力シーケンス長とともに直線的にのみ増大する。拡張シーケンスに注意を払うための計算コストは、フルシーケンスベースの自己注意と比較して、１／Ｍに削減され、ここでＭは、サブサンプリングか、またはプーリング演算のチャンクサイズを表わす。

このため、拡張された自己注意機構では、入力シーケンスのコンテキスト全体は依然として異なる解像度で取り込まれるものの、拡張された自己注意機構の全体的な複雑性は、フルシーケンスベースの自己注意機構と比較して著しくより小さい。

したがって、一実施形態は、入力のシーケンスにおける入力を、入力の互いに対する相互依存を調べることによって説明する人工知能（ＡＩ）システムであって、人工知能（ＡＩ）システムは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによって実行されると人工知能（ＡＩ）システムに複数のステップを実行させる命令が格納されたメモリとを備え、複数のステップは、入力フレームのシーケンスを受け付けるステップと、入力フレームのシーケンスの各入力フレームを、同じ順序のキーフレームのシーケンス、値フレームのシーケンス、およびクエリフレームのシーケンスをもたらす、対応するキーフレーム、対応する値フレーム、および対応するクエリフレームに変換することによって、ならびに、クエリフレームのシーケンスにおける各クエリフレームのための注意計算を、クエリフレームのシーケンスにおけるクエリフレームの場所に基づいて制限されたキーフレームのシーケンスおよび値フレームのシーケンスの一部と、所定の抽出関数を用いてキーフレームのシーケンスおよび値フレームのシーケンスの異なるフレームを処理することによって抽出されたキーフレームの拡張シーケンスおよび値フレームの拡張シーケンスとの組合せに対して実行することによって、入力フレームのシーケンスから対応する出力のシーケンスを計算するように訓練された少なくとも１つの拡張された自己注意モジュールを含むニューラルネットワークを用いて、入力フレームのシーケンスを処理するステップと、出力のシーケンスをレンダリングするステップとを含む、ＡＩシステムを開示する。

ここに開示される実施形態は、添付図面を参照してさらに説明される。示された図面は必ずしも縮尺通りではなく、代わりに、ここに開示される実施形態の原理を例示することに重きが概して置かれている。

本開示のいくつかの実施形態に従った、人工知能（ＡＩ）システムを実現するためのネットワーク環境を示すブロック図である。本開示のいくつかの実施形態に従った、図１に例示的に示されたＡＩシステムのブロック図である。本開示の例示的な一実施形態に従った、ＡＩシステムの拡張された自己注意モジュールの注意機構を表わす図式表現である。本開示の別の例示的な実施形態に従った、ＡＩシステムの拡張された自己注意モジュールの注意機構を表わす図式表現である。本開示のいくつかの実施形態に従った、ＡＩシステムの拡張された自己注意モジュールのブロック図である。本開示のいくつかの実施形態に従った、ＡＩシステムのトランスフォーマベースのニューラルネットワークを示すブロック図である。本開示の例示的な一実施形態に従った、入力のシーケンスのキー／値フレームのセットの圧縮を表わす図式表現である。本開示の別の例示的な実施形態に従った、入力のシーケンスのキー／値フレームのセットの圧縮を表わす図式表現である。本開示のいくつかの実施形態に従った、ＡＩシステムによって出力された出力シーケンスを示す図である。本開示のいくつかの実施形態に従った、注意ベースのプーリングを示す図である。本開示のいくつかの実施形態に従った、後処理を用いる注意ベースの拡張を示す図である。本開示のいくつかの実施形態に従った、注意ベースのプーリングを介した多解像度の拡張された自己注意を示す図である。本開示のいくつかの実施形態に従った、自動音声認識（ＡＳＲ）システムにおけるＡＩシステムのブロック図である。本開示のいくつかの実施形態に従った、自動機械翻訳（automatic machine translation：ＡＭＴ）システムにおけるＡＩシステムのブロック図である。本開示のいくつかの他の実施形態に従った、ＡＩシステムの実現のための例示的なシナリオを示す図である。本開示のいくつかの例示的な実施形態に従った、ＡＩシステムの全体的ブロック図である。

以下の説明では、説明する目的のために、多くの特定の詳細が、本開示の完全な理解を提供するために述べられる。しかしながら、これらの特定の詳細がなくても本開示が実践され得ることは、当業者には自明であろう。他の事例では、本開示を不明瞭にすることを避けるために、装置および方法はブロック図の形式でのみ示される。

この明細書および請求項で使用されるような、「たとえば」、「といった」、「などの」という用語、ならびに「備える」、「有する」、「含む」という動詞およびそれらの他の動詞形は、１つ以上の構成要素または他の項目のリストとともに使用される場合、非限定的であるとして各々解釈されるべきである。すなわち、リストは、他の追加の構成要素または項目を除外するとみなされるべきではない。「に基づいて」という用語は、少なくとも部分的に基づいていることを意味する。また、ここに採用されている言葉遣いおよび用語は説明のためのものであり、限定的であると見なされるべきでないということが理解されるべきである。この説明内で利用されるどの見出しも便宜上のものに過ぎず、法的効果または限定的効果を有していない。

図１は、本開示のいくつかの実施形態に従った、人工知能（ＡＩ）システム１０２を実現するためのネットワーク環境１００を示すブロック図である。ネットワーク環境１００は、ユーザデバイス１０８に関連付けられたユーザ１０６を含むように表わされる。図示された例示的なシナリオでは、ユーザ１０６は、入力１１０などの入力をユーザデバイス１０８に提供する。ユーザデバイス１０８は入力１１０を音響信号または音声発話として受信し得る。ユーザデバイス１０８は、サーバ１０４によってホストされる自動音声認識（ＡＳＲ）または自動機械翻訳（ＡＭＴ）アプリケーションなどのアプリケーションを含み得る。入力１１０は、ネットワーク１１６を介してサーバ１０４に提供され得る。サーバ１０４は、異なる動作（ＡＳＲおよびＡＭＴアプリケーションに関係する動作など）を実行するために入力１１０を処理するように構成され得る。例示的な一実施形態では、ユーザ１０６は入力１１０を、技術的解決策提供者１１２によって解決され得る技術的問題に関係する音声入力（音声入力１１０とも呼ばれる）として提供していてもよい。技術的解決策提供者１１２は、人間の担当者、仮想ボット、および対話音声応答（interactive voice response：ＩＶＲ）システムを含み得るものの、それらに限定されない。サーバ１０４は、音声入力１１０をユーザデバイス１０８から受信し、ネットワーク１１６を介して技術的解決策提供者１１２に転送する。

また、ネットワーク１１６は、データの送信および受信のための複数のネットワークポートおよび複数の通信チャネルを提供するように構成され得る好適なロジック、回路、およびインターフェイスを含み得る。各ネットワークポートは、通信データの送信および受信のための仮想アドレス（または物理マシンアドレス）に対応し得る。たとえば、仮想アドレスは、インターネットプロトコルバージョン４（Internet Protocol Version 4：ＩＰｖ４）（またはＩＰｖ６アドレス）であってもよく、物理アドレスは、メディアアクセス制御（Media Access Control：ＭＡＣ）アドレスであってもよい。ネットワーク１１６は、１つ以上の通信デバイスのうちの少なくとも１つからの１つ以上の通信要求に基づいた通信プロトコルの実現のために、アプリケーション層に関連付けられ得る。通信データは、通信プロトコルを介して送信または受信され得る。そのような有線および無線通信プロトコルの例は、伝送制御プロトコルおよびインターネットプロトコル（Transmission Control Protocol and Internet Protocol：ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（User Datagram Protocol：ＵＤＰ）、ハイパーテキスト転送プロトコル（Hypertext Transfer Protocol：ＨＴＴＰ）、ファイル転送プロトコル（File Transfer Protocol：ＦＴＰ）、ジグビー（ZigBee）、エッジ（EDGE）、赤外線（ＩＲ）、ＩＥＥＥ８０２．１１、８０２．１６、セルラー通信プロトコル、および／またはブルートゥース（登録商標）（Bluetooth：ＢＴ）通信プロトコルを含み得るものの、それらに限定されない。

ネットワーク１１６の例は、その無線チャネル、有線チャネル、無線チャネルと有線チャネルとの組合せを含み得るものの、それらに限定されない。無線または有線チャネルは、ローカルエリアネットワーク（Local Area Network：ＬＡＮ）、パーソナルエリアネットワーク（Personal Area Network：ＰＡＮ）、無線ローカルエリアネットワーク（Wireless Local Area Network：ＷＬＡＮ）、無線エリアネットワーク（Wireless Area Network：ＷＡＮ）、無線ワイドエリアネットワーク（Wireless Wide Area Network：ＷＷＡＮ）、ロングタームエボリューション（Long Term Evolution：ＬＴＥ）ネットワーク、基本電話サービス（plain old telephone service：ＰＯＴＳ）、およびメトロポリタンエリアネットワーク（Metropolitan Area Network：ＭＡＮ）のうちの１つによって規定され得るネットワーク規格に関連付けられ得る。加えて、有線チャネルは、帯域幅基準に基づいて選択され得る。たとえば、光ファイバーチャネルが、高帯域幅通信のために使用され得る。また、同軸ケーブルベースまたはイーサネット（登録商標）ベースの通信チャネルが、中帯域幅通信のために使用され得る。

いくつかの実施形態では、音声入力１１０が非常に長い場合がある。そのような場合、サーバ１０４の計算複雑性は高くなり得る。したがって、サーバ１０４は音声入力１１０を正確におよび／または適時に処理しないかもしれず、それは不正確な出力の生成をもたらし得る。また、非常に長い音声入力１１０を処理することは時間がかかる場合があり、それはユーザ入力への応答の遅延をもたらす。さらに、サーバはまた、サーバが非常に長い音声入力１１０を処理する際により多くの時間をかけるため、バックログを抱える場合がある。

その目的のために、音声入力１１０のための（低い計算コストでの）高品質出力がＡＩシステム１０２を使用して生成可能であり、それは図２を参照して次に説明される。

図２は、本開示のいくつかの実施形態に従った、図１に例示的に示されたＡＩシステム１０２のブロック図である。ＡＩシステム１０２は、入力のシーケンスにおける入力を、当該入力の互いに対する相互依存を調べることによって説明する。ＡＩシステム１０２は、プロセッサ２０２と、メモリ２０４と、入力／出力（input/output：Ｉ／Ｏ）インターフェイス２１０とを含む。メモリ２０４は、拡張された自己注意モジュール２０８を含むニューラルネットワーク２０６を有する。いくつかの実施形態では、ニューラルネットワーク２０６は、複数の拡張された自己注意モジュールの複数の層を含み得る。

例示的な一実施形態では、Ｉ／Ｏインターフェイス２１０は入力のシーケンスを受信するように構成され、入力のシーケンスは、時間次元を有する音声入力（音声入力１１０など）に対応し得る。また、プロセッサ２０２は、メモリ２０４に格納された命令を実行するように構成される。格納された命令の実行により、ＡＩシステム１０２は、入力信号（音声入力１１０など）の情報を記述する順序付けられた特徴のシーケンスを表わす入力フレームのシーケンスを受け入れるようになる。また、入力フレームのシーケンスは、入力フレームのシーケンスから対応する出力のシーケンスを計算するように訓練される拡張された自己注意モジュール２０８を含むニューラルネットワーク２０６を用いて処理される。

いくつかの実施形態は、入力信号が入力フレームのシーケンスを含む場合があり、入力フレームがキー、値、およびクエリのシーケンスに変換されるという認識に基づいている。クエリのシーケンスの各クエリフレームは、クエリフレームに対する各キーフレームの関係を計算するために、キーのシーケンス上で検索する。各キーフレームは、各入力フレームに関する特徴を符号化する値フレームに関係する。クエリフレームに対する各キーフレームの推定される関係は、値フレームのシーケンスの加重平均とクエリ検索のための出力とを計算するために重み付け係数を各値フレームに割り当てるために使用される。たとえば、入力フレームのシーケンスの各入力フレームが、単語のシーケンス、すなわち文におけるある単語に対応する場合、あるクエリフレームに対する各キーフレームの推定される関係は、当該クエリフレームに関連付けられた当該単語と、当該文における全ての他の単語との関係を表わすであろう。

また、いくつかの実施形態は、キーに対するクエリの関係とクエリに対するキーの関係とは識別可能であるという認識に基づいている。すなわち、注意機構は、ネットワークが学習するにつれて、検索単語とコンテキストを提供する単語との関係を作り変えることを学習することができる。

したがって、いくつかの実施形態では、プロセッサ２０２は、入力フレームのシーケンスの各入力フレームを、同じ順序のキーフレームのシーケンス、値フレームのシーケンス、およびクエリフレームのシーケンスをもたらす、対応するキーフレーム、対応する値フレーム、および対応するクエリフレームに変換することによって、ニューラルネットワーク２０６を介して入力フレームのシーケンスを処理する。いくつかの実施形態では、クエリフレームのシーケンスにおけるクエリフレームの場所は、キーフレームおよび値フレームのシーケンスにおける場所に対応する。

また、プロセッサ２０２は、クエリフレームのシーケンスにおける各クエリフレームのための注意計算を、キーフレームのシーケンスおよび値フレームのシーケンスの一部とキーフレームの拡張シーケンスおよび値フレームの拡張シーケンスとの組合せに対して、ニューラルネットワーク２０６を介して実行する。キーフレームのシーケンスおよび値フレームのシーケンスの一部は、クエリフレームのシーケンスにおけるクエリフレームの場所または位置に基づいて決定される。

この目的のために、拡張された自己注意モジュール２０８は、学習された変換と注意計算のシーケンスとに基づいて、入力フレームのシーケンスから出力のシーケンスを計算するように訓練される。注意計算のシーケンスは、現在のクエリフレームとキーフレームのシーケンスとを使用することによって、値フレームのシーケンスを出力にマッピングすることを可能にする。いくつかの例示的な実施形態では、拡張された自己注意モジュール２０８は、現在のクエリフレームがクエリベクトルに対応する場合に現在のクエリフレームを使用することによって入力のシーケンスから情報を読み出すための注意機構を提供する。

拡張された自己注意モジュール２０８はさらに、クエリフレームのシーケンスの異なるクエリフレームを、キーフレームのシーケンスの異なる表現と比較するようにされる。異なるクエリフレームとキーフレームの異なる表現との比較は、値フレームのシーケンスの異なる表現に対する異なる重み分布を生成する。異なる重み分布は、当該出力の出力のシーケンスを形成する、値フレームの異なる表現の加重平均を計算するために使用される。キーフレームおよび値フレームの異なるシーケンス表現は、キーフレームおよび値フレームのサブシーケンスを、キーフレームおよび値フレームの圧縮またはサブサンプリングされたシーケンスと組合せることによって形成される。いくつかの実施形態では、キーフレームおよび値フレームのサブシーケンスは、現在のクエリフレームの場所と、キーフレームおよび値フレームの圧縮またはサブサンプリングされたシーケンスとに基づいて選択され得る。

いくつかの実施形態では、入力のシーケンスの現在のクエリフレームの隣接フレームは、現在のクエリフレームに関係する情報（以下、「関連情報」）を提供するために利用され得る。隣接フレームからの関連情報は、現在のクエリフレームのものと同様の要素、または、現在のクエリフレームとのより強固な関係を含み得る。そのような場合、関連情報の要素と現在のクエリフレームの要素との論理関係を認識するために、詳しい情報が必要とされ得る。したがって、いくつかの実施形態は、現在のクエリフレームに隣接するフレームが依存関係を有する可能性がより高いという認識に基づいている。

また、現在のクエリフレームから遠くにある、入力のシーケンスにおけるフレームは、入力のシーケンスのコンテキストを認識することに関連し得る遠くの情報を提供し得る。したがって、いくつかの実施形態は、遠くの隣接フレームが、入力のシーケンスを説明することに関係するコンテキストをトレースすることに関連し得るという認識に基づいている。

たとえば、音声認識については、現在のクエリフレームの隣接フレームは、同じ音素、音節、または単語に対応し得る。遠くの情報は、発話における音および単語のコンテキストを認識することと、話者特性または録音特性に適合することとに関連する場合があり、それは典型的には、それほどきめ細かくない情報を必要とする。機械翻訳については、現在のクエリフレームに隣接する単語は依存関係を有する可能性がより高く、一方、ほんの少数の遠くの単語または単語グループは、文の意味論的コンテキストおよびシンタックスをトレースすることに関連する場合があり、それは、それほど詳しくない情報を必要とし得る。

入力のシーケンスのコンテキストおよびシンタックスを決定するために、キーフレームの拡張シーケンスと値フレームの拡張シーケンスとが、ＡＩシステム１０２によって生成される。その目的のために、プロセッサ２０２は、キーフレームおよび値フレームのシーケンスの非再帰的シーケンス圧縮を実行する。特に、プロセッサ２０２は、同時にキーフレームおよび値フレームのシーケンスを含む入力フレームのシーケンスの時間次元全体を処理するために、拡張された自己注意モジュール２０８を利用する。そのような場合、各フレームの出力は、他のフレームから独立している。このため、各フレームによって運ばれる元々の情報が処理され、入力のシーケンスの正確なコンテキストおよびシンタックスが決定される。

また、いくつかの実現化例では、キーフレームおよび値フレームのシーケンスの非再帰的シーケンス圧縮は、抽出手法、たとえば圧縮手法を、キーフレームおよび値フレームのシーケンスのフレームの全てに並列に適用することによって達成される。したがって、自己注意プロセスの計算複雑性が低減され、自己注意プロセスは、異なる注意解像度を有するシーケンス処理へと拡大される。このため、拡張された機構は、キーフレームおよび値フレームのシーケンスの各フレームの異なる特徴を効率的に要約することができ、ニューラルネットワーク２０６の計算複雑性の低減を提供する。そのような拡張機構を用いて訓練されたニューラルネットワーク２０６は、出力のシーケンスを生成するための低い計算複雑性を提供する。したがって、そのようなニューラルネットワークを利用するプロセッサ２０２の処理速度が増加し、それは、ＡＩシステム１０２の速い応答時間をもたらす。よって、本開示で開示されるＡＩシステム１０２は、より速い態様での出力を容易にする。また、プロセッサ２０２は、Ｉ／Ｏインターフェイス２１０を介して出力のシーケンスをレンダリングする。

ニューラルネットワーク２０６が、拡張された自己注意モジュールを有する複数のニューラルネットワーク層を含む一実施形態では、拡張機構は、ニューラルネットワークの各層で、拡張された自己注意モジュールの各々のために独立して行なわれる。

別の実施形態では、拡張された自己注意モジュール２０８は、プロセスパイプライン上にキーおよび値のための複数の拡張シーケンスを生成するために、複数の拡張機構を連続して適用する。特に、プロセッサ２０２は、キーフレームおよび値フレームのための第１の拡張シーケンスと、キーフレームおよび値フレームのための第２の拡張シーケンスとを、プロセスパイプライン上に連続して生成する。そのような場合、第１のチャンクサイズを有する第１の拡張機構によってレンダリングされるキーフレームおよび値フレームの第１の拡張シーケンスは、キーフレームの第１の拡張シーケンスからキーフレームの第２の拡張シーケンスをレンダリングし、値フレームの第１の拡張シーケンスから値フレームの第２の拡張シーケンスをレンダリングするための第２のチャンクサイズを有する第２の拡張機構への入力を形成する。このようにして、異なるフレームレート、すなわち、異なる解像度の拡張シーケンスが得られ得る。

図３Ａは、いくつかの例示的な実施形態によって使用される注意機構の原理を表わす図式表現３００である。たとえば、拡張された自己注意モジュール２０８は、クエリ３０２などの現在のクエリフレームに基づいて入力のシーケンスから情報を読み出すための注意機構の原理を使用することができる。例示的な一実施形態では、拡張された自己注意モジュール２０８の注意機構において、ソースシーケンス３０８の入力がまず、キーフレームおよび値フレームに変換される。キーフレームおよび値フレームは、対応する値フレーム３０６Ａ、３０６Ｂ、３０６Ｃ、および３０６Ｄ（値３０６Ａ～３０６Ｄとも呼ばれる）を有する、キーフレーム３０４Ａ、キーフレーム３０４Ｂ、キーフレーム３０４Ｃ、およびキーフレーム３０４Ｄ（キー３０４Ａ～３０４Ｄとも呼ばれる）を含み得る。ソースシーケンス３０８は、音声入力１１０から導き出される特徴シーケンスに対応し得る。

例示的な一実施形態では、拡張された自己注意モジュール２０８は、クエリ３０２とキー３０４Ａ～３０４Ｄの各々との類似性を決定する。類似性は、値３０６Ａ～３０６Ｄの各々についての注意スコアを計算するために使用される。

いくつかの例示的な実施形態では、注意スコアは、注意重み分布を計算するために、ソフトマックス（softmax）関数に基づいて正規化され得る。その目的のために、ニューラルネットワーク２０６の拡張された自己注意モジュール２０８は、拡張された自己注意モジュール２０８の正規化されていないスコアが、値フレームのシーケンスに対する確率分布にマッピングされるように、ソフトマックス関数を利用する。ソフトマックス関数は、Ｋ個の実数値のベクトルを、合計が１になるＫ個の実数値のベクトルに変える関数である。入力値は正、負、ゼロであるか、または１よりも大きい値であり得るが、ソフトマックスは、入力値が、合計が１になる確率として解釈され得るように、入力値を０～１の値に変換する。したがって、ソフトマックス関数の入力は、クエリ３０２と、注意スコアを決定するために利用されるキー３０４Ａ～３０４Ｄとのドット積スコアであり得る。対応する値３０６Ａ、３０６Ｂ、３０６Ｃ、および３０６Ｄの各々は、正規化された注意スコアに従って重み付けされる。すなわち、値３０６Ａ、３０６Ｂ、３０６Ｃ、および３０６Ｄの各々に、正規化された注意スコアが乗算される。また、重み付けされた値３０６Ａ～３０６Ｄは合計される。拡張された自己注意モジュール２０８は、重み付けされた値３０６Ａ～３０６Ｄの合計に基づいて、注意値３１０などの出力ベクトルを決定する。対応する値３０６Ａ、３０６Ｂ、３０６Ｃ、および３０６Ｄの各々についての注意スコアは、図３Ｂを参照してさらに説明される。

図３Ｂは、本開示の別の例示的な実施形態に従った、ＡＩシステム１０２の拡張された自己注意モジュール２０８によって使用される注意機構を表わす図式表現３１２である。図示された例示的なシナリオでは、ＡＩシステム１０２によって、入力３１４のシーケンスから、クエリ３０２が選択される。入力３１４のシーケンスは、入力フレームを備える。例示的な一実施形態では、各入力フレームは、入力３１４のシーケンスにおけるある単語、たとえば、単語３１４Ａ（ｗ_１）、３１４Ｂ（ｗ_２）、３１４Ｃ（ｗ_３）、および３１４Ｄ（ｗ_４）に対応し得る。入力３１４のシーケンスは、ソースシーケンス３０８に対応する。入力単語３１４Ｃ（ｗ_３）が、クエリ３０２として選択される。また、キー３１６Ａ、３１６Ｂ、３１６Ｃ、および３１６Ｄのセット（キー３１６Ａ～３１６Ｄのシーケンスとも呼ばれる）と、値３２０Ａ、３２０Ｂ、３２０Ｃ、および３２０Ｄの対応するセット（値３２０Ａ～３２０Ｄのシーケンスとも呼ばれる）とが、ＡＩシステム１０２によって、入力３１４のシーケンスのために生成される。キー３１６Ａ～３１６Ｄのシーケンスおよび値３２０Ａ～３２０Ｄのシーケンスは、キー３０４Ａ～３０４Ｄのシーケンスおよび値３０６Ａ～３０６Ｄのシーケンスに対応する。

拡張された自己注意モジュール２０８は、値３２０Ａ～３２０Ｄのシーケンスについての注意スコアを決定する。特に、注意スコア３１８Ａが値３２０Ａについて決定され、注意スコア３１８Ｂが値３２０Ｂについて決定され、注意スコア３１８Ｃが値３２０Ｃについて決定され、注意スコア３１８Ｄが値３２０Ｄについて決定される。拡張された自己注意モジュール２０８によって提供される自己注意機構は、図４を参照してさらに説明される。

図４は、本開示の例示的な一実施形態に従った、ＡＩシステム１０２の拡張された自己注意モジュール２０８のブロック図である。一実施形態では、拡張された自己注意モジュール２０８は、拡張された自己注意を行なうように構成された自己注意層を含む。それに加えて、またはそれに代えて、いくつかの実施形態では、ニューラルネットワーク２０６は、拡張された自己注意モジュールの複数の層を含んでいてもよく、各層は、拡張された自己注意モジュール２０８に対応し得る。たとえば、一実施形態では、拡張された自己注意モジュール２０８は、１つの拡張された自己注意層４０２と、１つのフィードフォワードニューラルネットワーク（feed-forward neural network：ＦＦＮ）モジュール４０４とを含む。それに加えて、またはそれに代えて、異なる実施形態では、自己注意モジュールは、タスクに特有である自己注意層、残差層、フィードフォワード層、および他の層の異なる組合せを有する。拡張された自己注意サブネットワーク４０２は、情報関係をペア状の態様で学習する。たとえば、拡張された自己注意層４０２は、自動音声認識（ＡＳＲ）アプリケーション、自動機械翻訳（ＡＭＴ）アプリケーションなどのアプリケーションのために、ソースシーケンス３０８における入力フレームの論理関係を学習する。拡張された自己注意層４０２およびフィードフォワードニューラルネットワークモジュール４０４の後に、「Add & Norm」層４０３および４０５がそれぞれ続く。「Add & Norm」層４０３は、まず、残差接続を使用して、拡張された自己注意層４０２の入力をその層の出力に追加し、その後、層正規化を適用する。同様に、「Add & Norm」層４０５は、まず、フィードフォワードニューラルネットワークモジュール４０４の入力をその出力に追加し、次に、同様に層正規化を適用する。

例示的なアプリケーションでは、入力３１４のシーケンスは、「She eats green apples（彼女は青リンゴを食べる）」という文についての単語埋め込みのシーケンスに対応する。入力３１４のシーケンスの各単語、すなわち「She」、「eats」、「green」、および「apples」は、他のニューラルネットワークモジュールとともに訓練されるルックアップテーブルを使用して、埋め込みベクトルに変換される。拡張された自己注意モジュール２０８の例示的な実現化例によって使用される自己注意機構では、単語埋め込み３１４Ａ～３１４Ｄの各々についてのクエリ３０２、キー（たとえばキー３１６Ａ～３１６Ｄ）、および値（たとえば値３２０Ａ～３２０Ｄ）を作成するために、ベクトルに行列が乗算される。入力３１４のそれぞれのシーケンスのクエリ３０２とキー３１６Ａ～３１６Ｄのシーケンスとのドット積を取ることによって、注意スコア（たとえば、注意スコア３１８Ａ～３１８Ｄ）が計算される。たとえば、最初の単語「She」の注意スコアは、単語「She」に対応するクエリと全ての単語３１６Ａ～３１６Ｄのキーとのドット積を使用して、単語「She」を文の全ての他の単語と比較することによって計算される。注意スコアが、ソフトマックス関数を使用して合計が１になるように正規化された後で、推定される注意重みは、「She」：０．０５、「eats」：０．８、「green」：０．０５、「apples」：０．１となるであろう。ここで、我々は、コロンの後に、各単語についての重みを表わしている。これらの重みは、値３２０Ａ～３２０Ｄのシーケンスに適用され、その後、それらが合計されて出力ベクトルが形成される。同様に、入力のシーケンスの残りの単語の各々、すなわち「eats」、「green」、および「apples」についての注意スコアが、対応するクエリをキー３１６Ａ～３１６Ｄの文の全てのキーに対して比較し、対応する重みを有する値３２０Ａ～３２０Ｄのシーケンスを合計することによって、計算される。このようにして、拡張された自己注意モジュール２０８は、クエリフレームのシーケンス、キーフレーム３１６Ａ～３１６Ｄのシーケンス、および値フレーム３２０Ａ～３２０Ｄのシーケンスを使用することによって、入力３１４のシーケンスを出力のシーケンスに変換する。拡張された自己注意モジュール２０８は、ある出力の出力のシーケンスを生成するために、クエリフレームのシーケンスの異なるクエリフレームを、キーフレームおよび値フレームの異なる表現と比較する。

制限された自己注意を拡張された自己注意と組合せるために、いくつかの実施形態では、キーフレーム３１６Ａ～３１６Ｄおよび対応する値フレーム３２０Ａ～３２０Ｄのサブセットを使用することによって、キーフレームおよび値フレームの異なる表現が形成される。キーフレームおよび値フレームのサブセットは、現在のクエリフレーム３０２の場所に基づいて選択され得る。加えて、キーフレームおよび値フレームのための拡張シーケンスを計算するために、拡張機構が、キーフレームのシーケンスおよび値フレームのシーケンスに適用され得る。

いくつかの実施形態では、拡張された自己注意層４０２は、ＡＩシステム１０２のトランスフォーマベースのニューラルネットワークにおいて使用されるマルチヘッド注意に対応しており、それは図５を参照して次に説明される。

図５は、本開示のいくつかの実施形態に従った、ＡＩシステム１０２のトランスフォーマベースのニューラルネットワーク５００を示すブロック図である。いくつかの例示的な実施形態では、トランスフォーマベースのニューラルネットワーク５００は、注意ベースのエンコーダ／デコーダニューラルネットワーク、たとえば、エンコーダ５０２およびデコーダ５０４を活用し得る。そのような注意ベースのエンコーダ／デコーダニューラルネットワークでは、デコーダ状態が、エンコーダ５０２のエンコーダ状態のシーケンスへの注意を制御するためのクエリ（たとえばクエリ３０２）として使用され得る。エンコーダ状態のシーケンスは、エンコーダ５０２の出力のシーケンスに対応し得る。トランスフォーマベースのニューラルネットワーク５００はまた、拡張された自己注意モジュール２０８を活用し得る。いくつかの実施形態では、トランスフォーマベースのニューラルネットワーク５００は、複数の拡張された自己注意モジュールを備え得る。いくつかの例示的な実施形態では、トランスフォーマベースのニューラルネットワーク５００は、エンコーダ５０２およびデコーダ５０４などのためのエンコーダ／デコーダベースの注意と、拡張された自己注意とを活用する。両方の注意計算は、図４の説明において上述されたような式（１）に基づいて注意が計算される、スケーリングされたドット積注意に基づき得る。また、トランスフォーマベースのニューラルネットワーク５００は、拡張された自己注意ベースのニューラルネットワークモジュールの複数の層を備え得る。

損失関数Ｌは訓練のために使用され、γは、目的関数ｐ_ｃｔｃとｐ_ａｔｔとの間の重み付けを制御するハイパーパラメータである。

また、エンコーダ５０２およびデコーダ５０４におけるマルチヘッド注意層およびフィードフォワード層の後に、「add & norm」層が続き、それはまず、残余接続を使用してそれぞれの層の入力をその出力に追加し、次に、層正規化が適用される。たとえば、マルチヘッド注意５１２は、「add & norm」層５１８を通してフィードフォワード層５１４に接続される。同様に、マルチヘッド注意５２６は、「add & norm」層５３０を通してフィードフォワード層５３２に接続される。フィードフォワード層５１６は、２つの線形変換を「add & norm」層５１４の出力に適用し、線形変換は、たとえば整流されたリニアユニット（ＲｅＬＵ）といった活性化関数によって分離される。フィードフォワード層５１６の出力は、別の「add & norm」層を通して送信され、それも残余接続を出力に適用し、その後に層正規化が続く。エンコーダ層５１２、５１４、５１６、および５１８は（パラメータを共有することなく）Ｅ回繰り返され、層５１８が入力を層５１２に提供してから、最後のエンコーダ層５１８の出力が、デコーダ５０４のマルチヘッド注意層５３０へ渡される。追加の入力として、マルチヘッド注意層５３０は、前のデコーダ出力トークン５２０を受信し、それらは、層５２２、５２４、５２６、および５２８を通してそれらを処理することによってデコーダ状態を計算するために使用される。層５２２は、前に出力されたトークン５２０を埋め込みベクトルに変換し、それらは、位置符号化が層５２４によって追加された後でマルチヘッド注意層５２６に入力される。層５２６の出力はさらに、「add & norm」層を使用して前述されたように処理される。マルチヘッド注意層５３０の出力は、「add & norm」層５３２を通してフィードフォワード層５３４に提供される。フィードフォワード層５３４の出力は、別の「add & norm」層５３６によってさらに処理される。デコーダ層５２６、５２８、５３０、５３２、５３４、および５３６は、（パラメータを共有することなく）この順序でＤ回適用され、最初の適用後、層５３６の出力は層５２６に入力される。最後に、デコーダ層をＤ回適用した後で、層５３６の出力は、線形層５３８、すなわち完全に接続されたニューラルネットワーク層へ転送され、それは、デコーダ５０４の出力ベクトルを出力トークンの各々についてのスコアへ投影する。線形層５３８の出力は、デコーダスコアをデコーダ５０４の各出力トークンについての確率に変換するために、ソフトマックス層５４０に提供される。

いくつかの実施形態では、トランスフォーマベースのエンコーダニューラルネットワーク５０２の自己注意モジュール５１１は、拡張された自己注意モジュール２０８によって置換される。そのようなセットアップでは、自己注意の代わりに、複数のヘッドを用いる拡張された自己注意が、複数の解像度を用いる自己注意を行なうために、および計算コストを節減するために、Ｅ個のトランスフォーマベースのエンコーダ層の各々で行なわれる。

いくつかの実施形態は、現在のクエリフレーム（たとえばクエリ３０２）に対する遠くの情報が、正確な結果を提供する上で有用であり得るという認識に基づいている。その目的のために、拡張された自己注意モジュール２０８は、入力３１４のシーケンスの正確なコンテキストを取り込むことに関連する遠くの情報を含む、現在のクエリフレームの隣接フレームへの注意を可能にする、自己注意機構を提供する。いくつかの実施形態では、拡張された自己注意モジュール２０８の拡張機構は、関連情報を含む遠くの情報を要約し得る。いくつかの実施形態は、入力のシーケンスからの関連情報がフレームのチャンク内で抽出または圧縮され得るという認識に基づいており、それらは図６Ａ～６Ｃを参照してさらに説明される。

図６Ａは、本開示の例示的な一実施形態に従った、自己注意への入力フレーム６０２のシーケンスを表わす図式表現６００である。入力フレーム６０２のシーケンスは、入力３１４のシーケンスに対応し得る。いくつかの例示的な実施形態では、現在のクエリフレーム６０４などのクエリフレームが、入力のシーケンスから得られる。フルシーケンスベースの自己注意６０６では、図６Ａに示されるように、現在のクエリフレーム６０４の全ての隣接フレームの注意接続が可能にされる。しかしながら、隣接フレームを全て現在のクエリフレーム６０４と接続することは、計算複雑性を増加させ得る。その目的のために、制限された自己注意６０８が、計算複雑性を低減させるために使用され得る。

制限された自己注意６０８では、現在のクエリフレーム６０４を包囲する、すぐ近くのフレームが、自己注意のために使用される。これらの隣接フレームは、現在のクエリフレーム６０４に対する過去および未来のコンテキスト情報に対応し得る。いくつかの実施形態では、拡張された自己注意モジュール２０８は、入力６０２のシーケンスの表現の一部を形成するために、現在のクエリフレーム６０４の場所に基づいて入力６０２のシーケンスから入力フレームのサブセット（たとえば、現在のクエリフレーム６０４の隣接フレーム）を選択する選択関数を実行するように構成され得る。選択関数は、入力の場所をパラメータとして受け入れ、入力６０２のシーケンスにおける隣接フレーム６１０Ａおよび６１０Ｂを返す。選択関数はまた、隣接フレーム６１０Ａおよび６１０Ｂを選択するために現在のクエリフレームのまわりにウィンドウサイズを形成するためのルックアヘッドサイズおよびルックバックサイズについての値を受け入れ得る。いくつかの実施形態では、ウィンドウは、時間制限のあるウィンドウであり得る。選択関数は、入力６０２のフル解像度シーケンスの隣接フレームの使用を限定し得る。いくつかの実施形態では、選択関数は、入力フレームのサブセットを選択するための制限ウィンドウ６１０に対応し得る。例示的な一実施形態では、入力フレームの選択されたサブセットは、固定された数のルックバックフレーム６１０Ａおよびルックアヘッドフレーム６１０Ｂに対応し得る。ルックバックフレーム６１０Ａは、クエリ６０４に対する入力６０２のシーケンスの過去（左）のコンテキストを含んでいてもよく、ルックアヘッドフレーム６１０Ｂは、未来（右）のコンテキストを含んでいてもよい。

しかしながら、制限された自己注意６０８は、現在のクエリフレーム６０４に対する遠くの情報を除外する。制限された自己注意６０８における遠くの情報の除外は、結果を劣化させ得る。その目的のために、制限された自己注意６０８は、拡張された自己注意を提供するために拡張機構と組合されてもよく、それは図６Ｂを参照して次に説明される。

図６Ｂは、本開示の別の例示的な実施形態に従った、入力６０２のシーケンスの圧縮を表わす図式表現６１２である。いくつかの実施形態では、拡張された自己注意モジュール２０８は、制限された自己注意６０８と組合された拡張機構６１２を提供する。

拡張機構６１２では、キーフレームのシーケンスおよび値フレームのシーケンス（たとえば、キー３１６Ａ～３１６Ｄのシーケンスおよび値３２０Ａ～３２０Ｄのシーケンス）の圧縮を形成するために、入力６０２のシーケンスが要約され得る。たとえば、入力６０２のシーケンスにおけるキーフレームのシーケンスおよび値フレームのシーケンスは、少なくとも１つのプロセッサ（プロセッサ２０２など）を介して、チャンク６１６Ａ、６１６Ｂ、６１６Ｃ、６１６Ｄ、６１６Ｅ、６１６Ｆ、６１６Ｇ、および６１６Ｈ（チャンク６１６Ａ～６１６Ｈとも呼ばれる）といった、キーチャンクのシーケンスおよび値チャンクのシーケンスのシーケンスに分割され得る。各キーチャンクは複数のキーフレームを含み、各値チャンクは複数の値フレームを含む。いくつかの例示的な実施形態では、拡張された自己注意モジュール２０８は、キーフレームのシーケンスおよび値フレームのシーケンスを、所定の頻度で分割するように構成される。また、チャンク６１６Ａ－６１６Ｈの各々は、拡張フレーム６１８Ａ、６１８Ｂ、６１８Ｃ、６１８Ｄ、６１８Ｅ、６１８Ｆ、６１８Ｇ、および６１８Ｈ（要約６１８Ａ～６１８Ｈとも呼ばれる）へと要約され得る。拡張フレーム６１８Ａ～６１８Ｈは、キー３１６Ａ～３１６Ｄおよび対応する値３２０Ａ～３２０Ｄのセットに対応する圧縮された形（拡張シーケンス６２０）を提供する。

また、少なくとも１つのプロセッサは、キーチャンクの複数のキーフレームを、より小さい所定数の、キーフレームの拡張シーケンスのための同じ次元性のキーフレームへと圧縮し、値チャンクの複数の値フレームを、より小さい所定数の、値フレームの拡張シーケンスのための同じ次元性の値フレームへと圧縮するために、所定の関数をキーチャンクの各々および値チャンクの各々に適用する。いくつかの実施形態では、プロセッサの速い処理速度が達成されるように、キーチャンクのうちの少なくともいくつかおよび値チャンクのうちの少なくともいくつかが、並列計算プロセスを使用して同時に圧縮される。

所定の関数の例は、サンプリング関数、平均プーリング関数（平均プーリングとも呼ばれる）、最大プーリング関数、注意ベースのプーリング、および畳み込みニューラルネットワーク（ＣＮＮ）ベースのプーリングを含むものの、それらに限定されない。

いくつかの実施形態では、ＣＮＮベースの拡張機構が適用され、ＣＮＮベースのプーリングは、訓練された重みとチャンクサイズに類似するカーネルサイズとを用いる畳み込みを、キーフレームのシーケンスおよび値フレームのシーケンスに適用する。

いくつかの実施形態では、最大プーリングベースの拡張機構が適用され、最大プーリング関数は、キーチャンクにおける複数のキーフレームから最大エネルギーの単一のキーフレームを選択し、値チャンクにおける複数の値フレームから対応するフレームを選択する。

いくつかの実施形態では、サンプリング関数ベースの拡張機構が適用され、サンプリング関数は、キーチャンクの複数のキーフレームからの単一のフレームと、値チャンクの複数の値フレームからの対応するフレームとを選択する。サブサンプリング関数および最大プーリング関数では、キーフレームのチャンクからの単一のキーフレームが選択され、値フレームのチャンクからの対応する値フレームと、他のフレームによって含まれる情報とが無視される。

好ましい一実施形態では、キーフレームおよび値フレームの各チャンクの情報コンテンツを要約するために、注意ベースのプーリング（ＡＰ）が適用されてもよく、それは図７Ａおよび図７Ｂに関してさらに記載される。

図６Ｃは、本開示のいくつかの実施形態に従った、ＡＩシステム１０２によって出力された出力シーケンスを示す。図６Ｃは、図６Ａおよび図６Ｂを参照して説明される。少なくとも１つのプロセッサ（プロセッサ２０２など）は、制限ウィンドウ６１０内のキーフレームのシーケンスおよび値フレームのシーケンスの一部を拡張シーケンス６２０（すなわち、キーフレームの拡張シーケンスおよび値フレームの拡張シーケンス）と組合せることによって、出力６２２のシーケンスを計算する。拡張シーケンス６２０は、自己注意プロセスの計算複雑性を低減させるために、キーフレームおよび値フレームのシーケンスの非再帰的シーケンス圧縮によって決定される。拡張シーケンス６２２は、コンテキストをクエリフレームに追加し、ＡＩシステム１０２を含む任意のシステムがより少ない処理時間で正確な出力を提供することを可能にする、遠くのフレームに対応する。また、少なくとも１つのプロセッサは、出力インターフェイス（Ｉ／Ｏインターフェイス２１０など）を介して、出力６２２のシーケンスをレンダリングする。

図７Ａは、本開示のいくつかの実施形態に従った、注意ベースのプーリング７００を示す。

注意ベースのプーリング（ＡＰ）７００では、１つまたは複数の訓練されたクエリベクトル（訓練されたクエリベクトル７０６など）が、入力シーケンス７０２からのキーフレームのチャンクまたは値フレームのチャンクに注意を払うことによって複数の重み分布７０４Ａ、７０４Ｂ、および７０４Ｃを決定するために利用される。したがって、注意ベースのプーリングは、キーフレームのチャンクにおけるキーフレームまたは値フレームのチャンクにおける値フレームのいずれかに関連性を割り当てて、重み分布７０４Ａ、７０４Ｂ、および７０４Ｃを導き出す。複数の重み分布７０４Ａ、７０４Ｂ、および７０４Ｃに基づいて、キーフレームのチャンクおよび値フレームのチャンクの加重平均が計算される。

特に、キーフレームのシーケンスのための拡張シーケンス（拡張シーケンス７０８など）のフレームが、キーフレームのチャンクの加重平均として計算される。それに加えて、またはそれに代えて、値フレームのシーケンスのための拡張シーケンス（拡張シーケンス７０８など）のフレームが、値フレームのチャンクのための全ての値フレームの加重平均として計算される。

いくつかの実施形態では、注意ベースの拡張は、後処理手法とともに行なわれる。

図７Ｂは、本開示のいくつかの実施形態に従った、後処理７１０を用いる注意ベースの拡張を示す。

いくつかの実施形態は、後処理手法の適用が、システム（たとえばＡＩシステム１０２）の出力を精製することができるという認識に基づいている。その目的のために、キーチャンクおよび値チャンクの出力フレーム（複数の出力フレーム７１４など）は、キーフレームの拡張シーケンスおよび値フレームの拡張シーケンスのための１つまたは複数のフレーム７１４を生成するために、後処理ルールに従って処理される。

キーフレームの拡張シーケンスおよび値フレームの拡張シーケンスのための出力フレーム７１４を導き出すために、後処理ルールは、キーチャンクおよび値チャンクのために決定された出力フレーム７１４を保存すること、キーチャンクおよび値チャンクのために決定された出力フレーム７１４を組合せること、ならびに、キーチャンクおよび値チャンクのために決定された出力フレーム７１４のうちの少なくとも１つを除去すること、のうちの１つ、またはそれらの組合せを含む。

後処理ルールは、注意計算の下でクエリフレームまでの距離がしきい値よりも小さい第１のタイプのキーチャンクおよび値チャンクと、注意計算の下でクエリフレームまでの距離がしきい値以上である第２のタイプのキーチャンクおよび値チャンクとを含む、少なくとも２つの異なるタイプのキーチャンクおよび値チャンクのために調節され得る。

いくつかの他の実施形態では、ニューラルネットワーク（トランスフォーマベースのニューラルネットワーク５００など）は、キーフレームおよび値フレームのための少なくとも２つの拡張シーケンスを生成するために、拡張された自己注意モジュールの一部として、複数の拡張機構を含む。そのようなセットアップでは、少なくとも１つのプロセッサ（プロセッサ２０２など）は、注意計算の下でクエリフレームに対して所定のしきい値よりも小さいフレーム距離を有するキーチャンクおよび値チャンクに対応する、キーフレームおよび値フレームのための第１の拡張シーケンスのフレームを保存する。さらに、少なくとも１つのプロセッサはまた、注意計算の下でクエリフレームに対して所定のしきい値以上であるフレーム距離を有するキーチャンクおよび値チャンクに対応する、キーフレームおよび値フレームのための第２の拡張シーケンスのフレームを保存する。

いくつかの実施形態では、少なくとも１つのプロセッサは、第１のタイプのキーチャンクおよび値チャンクのために決定された複数の出力フレーム７１４を保存し、第２のタイプのキーチャンクおよび値チャンクの複数のフレーム７１４のうちの少なくとも１つを除去する。

いくつかの代替的な実施形態では、少なくとも１つのプロセッサは、第１のタイプのキーチャンクおよび値チャンクのための複数のフレーム７１４を保存し、平均プーリング、および、ニューラルネットワークの処理によってキーチャンクおよび値チャンクのために決定された複数の出力フレーム７１４を合併すること、のうちの１つ、またはそれらの組合せを使用して、第２のタイプのキーチャンクおよび値チャンクの複数のフレームを組合せる。ニューラルネットワーク処理は、２つの線形変換の使用を含む。２つの線形変換は、非線形活性化関数によって分離される訓練されたパラメータを有するとともに、第１の線形変換が入力をより小さい次元性に投影し、第２の線形変換が第１の線形変換の出力をクエリフレーム、キーフレーム、および値フレームの次元性に投影するようなボトルネック構造を有する。

図７Ｃは、本開示のいくつかの実施形態に従った、注意ベースのプーリングを介した多解像度の拡張された自己注意７１８を示す。図７Ｃは、図７Ａおよび図７Ｂを参照して説明される。

（図７Ａおよび図７Ｂを参照して上述されたような）注意ベースのプーリングの実行に基づいて、複数のフレーム７２０が出力される（出力フレームまたは拡張ベクトルとも呼ばれる）。出力フレーム７２０は多解像度フレームであり、各フレームに対応する解像度は、時間制限のあるウィンドウ７０２Ｂ内の現在のクエリフレーム７０２Ａに対する当該フレームの場所に基づいて変化する。少なくとも１つのプロセッサは、拡張シーケンス７２０を生成するために出力フレームを分析するように構成される。その目的のために、少なくともプロセッサは、各出力フレームと現在のクエリフレーム７０２Ａとの間の距離を決定するように構成される。距離がしきい値よりも大きい場合、対応する出力フレームは現在のクエリフレーム７０２Ａから離れていると解釈される。そのような場合、少なくとも１つのプロセッサは、出力フレームを廃棄するように構成される。したがって、しきい値距離よりも大きい距離に位置する出力フレーム７２０は廃棄される。一方、しきい値距離よりも小さい距離に位置する出力フレーム７２０は保存される。したがって、拡張シーケンス７２０が生成される。よって、クエリフレームに対応する遠くのフレームおよび時間制限のあるウィンドウ７０２Ｂ内の隣接フレームからの情報が、より低い複雑性で現在のクエリフレーム７０２Ａのコンテキストを決定するために利用される。また、プロセッサは、拡張シーケンス７２０と時間制限のあるウィンドウ７０２Ｂ内に対応する隣接フレームを有する現在のクエリフレーム７０２Ａとの組合せに基づいて、出力シーケンスを生成するように構成される。

ＡＳＲおよびＡＭＴアプリケーションにおけるＡＩシステム１０２の実現が、図８Ａおよび図８Ｂを参照して次に説明される。

図８Ａは、本開示のいくつかの実施形態に従った、自動音声認識（ＡＳＲ）システム８０２におけるＡＩシステム１０２のブロック図８００である。ＡＳＲシステム８０２も、入力インターフェイス８０４と出力インターフェイス８０６とを備える。入力インターフェイス８０４は、音声発話の少なくとも一部を表わす音響信号を受信するように構成される。ＡＩシステム１０２のニューラルネットワーク８０６は、音響信号を入力のシーケンスに変換する。ニューラルネットワーク２０６はさらに、拡張された自己注意モジュール２０８を使用して、入力のシーケンスを出力のシーケンスに変換する。いくつかの実施形態では、入力のシーケンスは、複数の拡張された自己注意モジュールを使用して、出力のシーケンスに変換され、各自己注意モジュールは、関連情報を含む遠くの情報を要約し得る拡張機構を使用する。変換された入力のシーケンスは、音声発話の音写に変換される。音声発話の音写は、出力インターフェイス８０６を介して、出力として提供される。

図８Ｂは、本開示のいくつかの実施形態に従った、自動機械翻訳（ＡＭＴ）システム８１０におけるＡＩシステム８０２のブロック図８０８である。ＡＭＴシステム８１０も、入力インターフェイス８１２と出力インターフェイス８１４とを備える。入力インターフェイス８１２は、第１の言語での音声発話を表わす入力信号を受信するように構成される。たとえば、音声発話は、英語での音声発話であり得る。ＡＩシステム１０２のニューラルネットワーク２０６は、入力信号を入力のシーケンスに変換する。ニューラルネットワーク２０６は、拡張された自己注意モジュール２０８を使用して、入力のシーケンスを出力のシーケンスに変換する。変換された入力のシーケンスは、第２の言語での音声発話を表わす出力信号に変換される。たとえば、第２の言語はドイツ語に対応し得る。第２の言語での音声発話を表わす出力信号は、出力インターフェイス８０６を介して、出力として提供される。

また、拡張された自己注意モジュール（拡張された自己注意モジュール２０８など）を含むＡＩシステム（ＡＩシステム１０２など）も、ストリーミングアプリケーションにおいて使用され得る。そのようなシナリオでは、入力フレームは連続的に受信される。拡張された自己注意モジュールは、限られた遅延で入力フレームの各々について自己注意出力を生成するために利用される。その目的のために、キーフレームの少なくとも１つの新しいチャンクおよび値フレームの少なくとも１つの新しいチャンクが受信されたときはいつでも、キーの拡張シーケンスおよび値の拡張シーケンスは拡大される。

同様に、拡張された自己注意モジュールを含む、開示されたＡＩシステムは、音事象検出、音声タグ付けシステム、音響源分離システムなどといった異なるアプリケーションで実現され得る。

図９は、本開示のいくつかの他の実施形態に従った、ＡＩシステム１０２の実現のための例示的なシナリオ９００を示す。図示されたシナリオでは、ユーザ９０２が、ユーザデバイス９０４を使用して入力を提供し得る。ユーザデバイス９０４は、スマートフォン、タブレット、ラップトップ、スマートウォッチ、ウェアラブルデバイス、デスクトップ、または任意の他の電子デバイスを含み得る。ユーザ９０２は、デジタルアシスタント９０６からのサービスを要求し得る。デジタルアシスタント９０６は、仮想チャットボット、対話音声応答（ＩＶＲ）システムなどを含み得る。ユーザ９０２は、音声発話の少なくとも一部を表わす音響信号を、ユーザデバイス９０４からネットワーク１１６を介してＡＳＲシステム７０２に提供し得る。ＡＳＲシステム７０２は、ＡＩシステム１０２を使用して、音声発話の音写を提供し得る。また、音写は、デジタルアシスタント９０６に提供され得る。デジタルアシスタント９０６は、受信された音写に基づいて動作し、サービスをユーザ９０２に提供し得る。たとえば、サービスは、車両９０８をハイヤーすることに対応し得る。車両９０８は、自律車両、手動で駆動される車両、または半自律車両を含み得る。車両９０８は、ネットワーク１１６に接続され得る。音写は、ユーザ９０２のための乗降場所を含み得る。また、ユーザ９０２は、ＡＳＲシステム７０２を使用して車両９０８を運転し得る。いくつかの場合、ＡＩシステム１０２を用いて実現されたＡＳＲシステム７０２、ＡＭＴ７１０、またはそれらの組合せは、車両９０８のナビゲーションシステムに関係する動作のために使用され得る。

いくつかの場合、ＡＩシステム１０２はまた、音声からテキストへの文書化をユーザ９０２に提供し得る。たとえば、ユーザ９０２は、音声発話をユーザデバイス９０４に提供し得る。ユーザデバイス９０４は、音声発話の転写を提供するために、ＡＩシステム１０２と通信し得る。ＡＩシステム１０２は、音写に基づいたテキスト文書を提供し得る。これは、ユーザ（たとえばユーザ９０２）が音声入力を介してテキストを書き込むかまたは文書を維持することを支援し得る。

いくつかの他の場合、ユーザ９０２は、外国地域で旅行しているかもしれない。ユーザ９０２は、当該外国地域の人々と、対応する外国語でコミュニケーションを取ることができないかもしれない。ユーザ９０２は車両９０８をハイヤーするかもしれず、車両９０８のドライバはユーザ９０２の母国語を話さないか、または、ユーザ９０２とコミュニケーションを取るための共通語を知らないかもしれない。そのような場合、ユーザ９０２は、ユーザ９０２の母国語の外国語への機械翻訳のために、ユーザデバイス９０４に入力を提供し得る。入力は、母国語、たとえば英語での音声発話を表わす入力信号に対応し得る。母国語での音声発話は、ユーザデバイス９０４からネットワーク１１６を介してＡＭＴ７１０に提供され得る。ＡＭＴシステム７１０は、ＡＩシステム１０２を使用して、迅速で効率的な態様で母国語を翻訳し、外国語の音声発話を提供し得る。

図１０は、本開示のいくつかの実施形態に従った、ＡＩシステム１０００のブロック図を示す。ＡＩシステム１０００は、図１のＡＩシステム１０２に対応する。ＡＩシステム１０００は、入力インターフェイス１００２と、プロセッサ１００４と、メモリ１００６と、ネットワークインターフェイスコントローラ（network interface controller：ＮＩＣ）１０１４と、出力インターフェイス１０１６と、ストレージデバイス１０２０とを備える。メモリ１００６は、ニューラルネットワーク１００８を格納するように構成される。ニューラルネットワーク１００８は、拡張された自己注意モジュール１０１０を含む。いくつかの例示的な実施形態では、ニューラルネットワーク１００８は、拡張された自己注意モジュール１０１０を、エンコーダ、デコーダ、またはそれら両方の一部として含む、トランスフォーマ、コンフォーマ、または同様のアーキテクチャを有する。

拡張された自己注意モジュール１０１０は、入力のシーケンスを対応する出力のシーケンスに変換するように訓練される。入力のシーケンスは、各入力を入力のシーケンスの異なる表現と比較することによって変換される。プロセッサ１００４がメモリ１００６に格納された命令を実行すると、拡張された自己注意モジュール１０１０は、入力のシーケンスの表現を形成するために、入力のシーケンスからの入力を変換するようにされる。表現は、入力のシーケンスにおける入力の場所に依存する表現の第１の部分を、入力の場所から独立した表現の第２の部分と組合せることによって形成される。第１の部分は、異なる入力を変換するために変化し、一方、第２の部分は、入力のシーケンスからの全ての入力を変換するために一定のままである入力のシーケンスの圧縮である。また、入力は、入力を形成された表現と比較することによって、対応する出力に変換される。

いくつかの実施形態では、拡張された自己注意モジュール１０１０は、入力のシーケンスの表現の第１の部分を形成するために、入力の場所に基づいて入力のシーケンスから入力のサブセットを選択する選択関数を実行するように構成される。選択関数は、入力の場所をパラメータとして受け入れ、入力の場所を中心とする入力のシーケンスにおける入力のサブセットを返す。選択関数はまた、入力のサブセットのサイズの値を別のパラメータとして受け入れ得る。

他のいくつかの実施形態では、拡張された自己注意モジュール１０１０は、平均プーリングベースのアプローチを使用して入力のシーケンスを要約することによって圧縮を形成するように構成される。好ましい一実施形態では、入力のシーケンスの要約は、後処理段階を用いるかまたは用いない注意ベースのプーリングを使用し得る。

入力インターフェイス１００２は、入力データ１０２４を受け入れるように構成される。いくつかの実施形態では、ＡＩシステム１０００は、ＮＩＣ１０１４を使用して、ネットワーク１０２２を介して入力データ１０２４を受信する。いくつかの場合、入力データ１０２４は、ネットワーク１０２２を介して受信されたオンラインデータであり得る。いくつかの他の場合、入力データ１０２４は、ストレージデバイス１０２０に格納された、録音されたデータであり得る。いくつかの実施形態では、ストレージデバイス１０２０は、ニューラルネットワーク１００８を訓練するための訓練データセットを格納するように構成される。

いくつかの例示的な実施形態では、入力データ１０２４は、音声発話の少なくとも一部を表わす音響信号、第１の言語での音声発話を表わす入力信号などを含み得る。ニューラルネットワーク１００８は、音響信号を入力のシーケンスに変換し、拡張された自己注意モジュール１０１０を使用して入力のシーケンスを出力のシーケンスに変換し、出力のシーケンスを音声発話の音写に変換するように構成され得る。音写の出力は、出力インターフェイス１０１６を介して出力デバイス１０１８に提供され得る。同様に、ニューラルネットワーク１００８は、入力信号を入力のシーケンスに変換し、拡張された自己注意モジュールを使用して入力のシーケンスを出力のシーケンスに変換し、出力のシーケンスを第２の言語での音声発話を表わす出力信号に変換するように構成され得る。出力信号は、出力インターフェイス１０１６を介して出力デバイス１０１８に提供され得る。

本開示のさまざまな実施形態は、たとえば拡張された自己注意を提供するＡＩシステム１０００といった、ＡＩシステムを提供する。拡張された自己注意は、制限された自己注意の精度およびモデル化能力を向上させる。拡張された自己注意はまた、長い入力シーケンスについての自己注意の計算複雑性を低減させるのに役立つ。このようにして、音声処理システム（たとえば、ＡＳＲシステム７０２およびＡＭＴシステム７１０）の計算コストおよびメモリ使用は二次的に増大しないかもしれず、それにより、実現可能な態様でシステムの効率を高める。

以下の説明は例示的な実施形態を提供するに過ぎず、この開示の範囲、利用可能性、または構成を限定するよう意図されてはいない。むしろ、例示的な実施形態の以下の説明は、１つ以上の例示的な実施形態を実現するための実施可能説明を当業者に提供するであろう。添付された請求項で述べられるように開示された主題の精神および範囲から逸脱することなく、要素の機能および配置において行なわれ得るさまざまな変更が考えられる。

実施形態の完全な理解を提供するために、特定の詳細が以下の説明で与えられる。しかしながら、実施形態はこれらの特定の詳細がなくても実践され得ることが、当業者によって理解され得る。たとえば、実施形態を不必要に詳細に述べて不明瞭にすることを避けるために、開示された主題におけるシステム、プロセス、および他の要素は、ブロック図の形式における構成要素として示されてもよい。他の事例では、実施形態を不明瞭にすることを避けるために、周知のプロセス、構造、および手法は、不必要な詳細なく示されてもよい。また、さまざまな図面における同じ参照番号および名称は、同じ要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として表わされるプロセスとして説明されてもよい。フローチャートは動作を順次プロセスとして説明し得るが、動作の多くは並行してまたは同時に行なわれ得る。加えて、動作の順序は並べ替えられてもよい。プロセスはその動作が完了すると終了し得るが、図面で説明されていない、または図面に含まれていない追加のステップを有していてもよい。さらに、特に説明された任意のプロセスにおける全ての動作が、全ての実施形態において生じるとは限らない。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応していてもよい。プロセスが機能に対応する場合、その機能の終了は、その機能が呼出機能または主機能に戻ることに対応し得る。

さらに、開示された主題の実施形態は、少なくとも部分的に、手動でまたは自動的に実現されてもよい。手動のまたは自動的な実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せの使用を通して実行されるかまたは少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを行なうためのプログラムコードまたはコードセグメントは、マシン読取可能媒体に格納されてもよい。プロセッサが、必要なタスクを行なってもよい。

ここに概説されたさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか１つを採用する１つ以上のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。加えて、そのようなソフトウェアは、多くの好適なプログラミング言語および／またはプログラミングツールまたはスクリプト作成ツールのうちのいずれかを使用して書かれてもよく、また、フレームワークまたは仮想マシン上で実行される実行可能マシン語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能性は、さまざまな実施形態において所望されるように組合されるかまたは分散されてもよい。

本開示の実施形態は、その例が提供された方法として具現化されてもよい。当該方法の一部として実行される動作は、任意の好適なやり方で順序付けられてもよい。したがって、例示的な実施形態では連続的な動作として示されていても、動作が例示とは異なる順序で実行される実施形態が構築されてもよい。この場合、いくつかの動作を同時に実行することも含まれてもよい。また、請求項要素を修飾するための、請求項における「第１」、「第２」などの序数用語の使用は、それ自体、ある請求項要素の、別の請求項要素に対する優先順位、優位性、または順序、あるいは、方法の動作が行なわれる時間的順序を何ら暗示しておらず、単に、ある名前を有するある請求項要素を、（序数用語の使用を除き）同じ名前を有する別の要素から区別するために、これらの請求項要素を区別するラベルとして使用されているに過ぎない。

本開示を、ある好ましい実施形態を参照して説明してきたが、本開示の精神および範囲内で他のさまざまな適合および変更が実施可能であることが理解されるはずである。したがって、添付された請求項の局面は、本開示の真の精神および範囲内に収まるようにそのような変形および変更を全て網羅することである。

また、エンコーダ５０２およびデコーダ５０４におけるマルチヘッド注意層およびフィードフォワード層の後に、「add & norm」層が続き、それはまず、残余接続を使用してそれぞれの層の入力をその出力に追加し、次に、層正規化が適用される。たとえば、マルチヘッド注意５１２は、「add & norm」層５１４を通してフィードフォワード層５１６に接続される。同様に、マルチヘッド注意５３０は、「add & norm」層５３２を通してフィードフォワード層５３４に接続される。フィードフォワード層５１６は、２つの線形変換を「add & norm」層５１４の出力に適用し、線形変換は、たとえば整流されたリニアユニット（ＲｅＬＵ）といった活性化関数によって分離される。フィードフォワード層５１６の出力は、別の「add & norm」層を通して送信され、それも残余接続を出力に適用し、その後に層正規化が続く。エンコーダ層５１２、５１４、５１６、および５１８は（パラメータを共有することなく）Ｅ回繰り返され、層５１８が入力を層５１２に提供してから、最後のエンコーダ層５１８の出力が、デコーダ５０４のマルチヘッド注意層５３０へ渡される。追加の入力として、マルチヘッド注意層５３０は、前のデコーダ出力トークン５２０を受信し、それらは、層５２２、５２４、５２６、および５２８を通してそれらを処理することによってデコーダ状態を計算するために使用される。層５２２は、前に出力されたトークン５２０を埋め込みベクトルに変換し、それらは、位置符号化が層５２４によって追加された後でマルチヘッド注意層５２６に入力される。層５２６の出力はさらに、「add & norm」層を使用して前述されたように処理される。マルチヘッド注意層５３０の出力は、「add & norm」層５３２を通してフィードフォワード層５３４に提供される。フィードフォワード層５３４の出力は、別の「add & norm」層５３６によってさらに処理される。デコーダ層５２６、５２８、５３０、５３２、５３４、および５３６は、（パラメータを共有することなく）この順序でＤ回適用され、最初の適用後、層５３６の出力は層５２６に入力される。最後に、デコーダ層をＤ回適用した後で、層５３６の出力は、線形層５３８、すなわち完全に接続されたニューラルネットワーク層へ転送され、それは、デコーダ５０４の出力ベクトルを出力トークンの各々についてのスコアへ投影する。線形層５３８の出力は、デコーダスコアをデコーダ５０４の各出力トークンについての確率に変換するために、ソフトマックス層５４０に提供される。

いくつかの実施形態では、トランスフォーマベースのエンコーダニューラルネットワーク５００の自己注意モジュール５１１は、拡張された自己注意モジュール２０８によって置換される。そのようなセットアップでは、自己注意の代わりに、複数のヘッドを用いる拡張された自己注意が、複数の解像度を用いる自己注意を行なうために、および計算コストを節減するために、Ｅ個のトランスフォーマベースのエンコーダ層の各々で行なわれる。

図６Ｃは、本開示のいくつかの実施形態に従った、ＡＩシステム１０２によって出力された出力シーケンスを示す。図６Ｃは、図６Ａおよび図６Ｂを参照して説明される。少なくとも１つのプロセッサ（プロセッサ２０２など）は、制限ウィンドウ６１０内のキーフレームおよび値フレームのシーケンスの一部を拡張シーケンス６２０（すなわち、キーフレームの拡張シーケンスおよび値フレームの拡張シーケンス）と組合せることによって、出力６２２のシーケンスを計算する。拡張シーケンス６２０は、自己注意プロセスの計算複雑性を低減させるために、キーフレームおよび値フレームのシーケンスの非再帰的シーケンス圧縮によって決定される。拡張シーケンス６２０は、コンテキストをクエリフレームに追加し、ＡＩシステム１０２を含む任意のシステムがより少ない処理時間で正確な出力を提供することを可能にする、遠くのフレームに対応する。また、少なくとも１つのプロセッサは、出力インターフェイス（Ｉ／Ｏインターフェイス２１０など）を介して、出力６２２のシーケンスをレンダリングする。

図８Ａは、本開示のいくつかの実施形態に従った、自動音声認識（ＡＳＲ）システム８０２におけるＡＩシステム１０２のブロック図８００である。ＡＳＲシステム８０２も、入力インターフェイス８０４と出力インターフェイス８０６とを備える。入力インターフェイス８０４は、音声発話の少なくとも一部を表わす音響信号を受信するように構成される。ＡＩシステム１０２のニューラルネットワーク２０６は、音響信号を入力のシーケンスに変換する。ニューラルネットワーク２０６はさらに、拡張された自己注意モジュール２０８を使用して、入力のシーケンスを出力のシーケンスに変換する。いくつかの実施形態では、入力のシーケンスは、複数の拡張された自己注意モジュールを使用して、出力のシーケンスに変換され、各自己注意モジュールは、関連情報を含む遠くの情報を要約し得る拡張機構を使用する。変換された入力のシーケンスは、音声発話の音写に変換される。音声発話の音写は、出力インターフェイス８０６を介して、出力として提供される。

図８Ｂは、本開示のいくつかの実施形態に従った、自動機械翻訳（ＡＭＴ）システム８１０におけるＡＩシステム８０２のブロック図８０８である。ＡＭＴシステム８１０も、入力インターフェイス８１２と出力インターフェイス８１４とを備える。入力インターフェイス８１２は、第１の言語での音声発話を表わす入力信号を受信するように構成される。たとえば、音声発話は、英語での音声発話であり得る。ＡＩシステム１０２のニューラルネットワーク２０６は、入力信号を入力のシーケンスに変換する。ニューラルネットワーク２０６は、拡張された自己注意モジュール２０８を使用して、入力のシーケンスを出力のシーケンスに変換する。変換された入力のシーケンスは、第２の言語での音声発話を表わす出力信号に変換される。たとえば、第２の言語はドイツ語に対応し得る。第２の言語での音声発話を表わす出力信号は、出力インターフェイス８１４を介して、出力として提供される。

Claims

入力のシーケンスにおける入力を、前記入力の互いに対する相互依存を調べることによって説明する人工知能（ＡＩ）システムであって、
前記人工知能（ＡＩ）システムは、
少なくとも１つのプロセッサと、
少なくとも１つの前記プロセッサによって実行されると前記人工知能（ＡＩ）システムに複数のステップを実行させる命令が格納されたメモリとを備え、
前記複数のステップは、
入力フレームのシーケンスを受け付けるステップと、
前記入力フレームのシーケンスの各入力フレームを、同じ順序のキーフレームのシーケンス、値フレームのシーケンス、およびクエリフレームのシーケンスをもたらす、対応するキーフレーム、対応する値フレーム、および対応するクエリフレームに変換することによって、ならびに、前記クエリフレームのシーケンスにおける各クエリフレームのための注意計算を、前記クエリフレームのシーケンスにおける前記クエリフレームの場所に基づいて制限された前記キーフレームのシーケンスおよび前記値フレームのシーケンスの一部と、所定の抽出関数を用いて前記キーフレームのシーケンスおよび前記値フレームのシーケンスの異なるフレームを処理することによって抽出されたキーフレームの拡張シーケンスおよび値フレームの拡張シーケンスとの組合せに対して実行することによって、前記入力フレームのシーケンスから対応する出力のシーケンスを計算するように訓練された少なくとも１つの拡張された自己注意モジュールを含むニューラルネットワークを用いて、前記入力フレームのシーケンスを処理するステップと、
前記出力のシーケンスをレンダリングするステップとを含む、ＡＩシステム。
拡張機構によって前記キーフレームの拡張シーケンスおよび前記値フレームの拡張シーケンスを生成するために、少なくとも１つの前記プロセッサは、
前記キーフレームのシーケンスおよび前記値フレームのシーケンスを、キーチャンクのシーケンスおよび値チャンクのシーケンスに分割するように構成され、各キーチャンクは複数のキーフレームを含み、各値チャンクは複数の値フレームを含み、少なくとも１つの前記プロセッサはさらに、
キーチャンクの前記複数のキーフレームを、より小さい所定数の、前記キーフレームの拡張シーケンスのための同じ次元性のキーフレームへと圧縮し、値チャンクの前記複数の値フレームを、前記より小さい所定数の、前記値フレームの拡張シーケンスのための同じ次元性の値フレームへと圧縮するために、前記所定の抽出関数を前記キーチャンクの各々および前記値チャンクの各々に適用するように構成される、請求項１に記載のＡＩシステム。
前記プロセッサは、前記キーチャンクのうちの少なくともいくつかおよび前記値チャンクのうちの少なくともいくつかを、並列計算プロセスを使用して同時に圧縮するように構成される、請求項２に記載のＡＩシステム。
前記所定の抽出関数は、サンプリング関数、平均プーリング関数、最大プーリング関数、注意ベースのプーリング、および畳み込みニューラルネットワーク（ＣＮＮ）ベースのプーリングのうちの１つまたはそれらの組合せであり、
前記サンプリング関数は、前記キーチャンクの前記複数のキーフレームからの単一のフレームと、前記値チャンクの前記複数の値フレームからの対応するフレームとを選択し、
前記平均プーリング関数は、前記キーチャンクにおける前記複数のキーフレームの要素と、前記値チャンクにおける前記複数の値フレームの要素とを平均化し、
前記最大プーリング関数は、前記キーチャンクにおける前記複数のキーフレームから最大エネルギーの単一のキーフレームを選択し、前記値チャンクにおける前記複数の値フレームから前記対応するフレームを選択し、
前記注意ベースのプーリングは、訓練されたクエリベクトルを前記キーチャンクの前記複数のキーフレームに適用することによって決定された重みに従って、前記キーチャンクにおける前記複数のキーフレームと前記値チャンクにおける前記複数の値フレームとを組合せ、
前記畳み込みニューラルネットワーク（ＣＮＮ）ベースのプーリングは、訓練された重みとチャンクサイズに類似するカーネルサイズとを用いる畳み込みを、前記キーフレームのシーケンスおよび前記値フレームのシーケンスに適用する、請求項２に記載のＡＩシステム。
サブサンプリングおよび最大プーリングは、キーフレームのチャンクからの単一のキーフレームと、値フレームのチャンクからの対応する値フレームとを選択し、他のフレームによって含まれる情報を無視し、
平均プーリングは、キーフレームのチャンクにおける前記キーフレーム全て、およびキーフレームのチャンクにおける前記値フレーム全てを等しく重み付けし、
前記注意ベースのプーリングは、キーフレームのチャンクにおける前記キーフレームまたは前記値フレームのチャンクにおける前記値フレームのいずれかに関連性を割り当てて、重み分布を導き出し、前記重み分布を使用して、キーフレームのチャンクのための前記キーフレーム全ての加重平均を計算し、値フレームのチャンクのための前記値フレーム全ての加重平均を計算する、請求項４に記載のＡＩシステム。
前記所定の関数は、前記キーチャンクにおける前記複数のキーフレームの重み分布を決定するために、訓練されたクエリベクトルを用いて前記キーチャンクの各々に注意を払い、前記キーフレームのシーケンスのための前記拡張シーケンスのフレームを、決定された前記重み分布に従って選択された重みを有する前記キーチャンクにおける前記複数のキーフレームの加重平均として計算する、注意ベースのプーリングである、請求項２に記載のＡＩシステム。
前記所定の関数は、前記キーチャンクにおける前記複数のキーフレームの重み分布を決定するために、訓練されたクエリベクトルを用いて前記キーチャンクの各々に注意を払い、決定された同じ前記重み分布を使用して、前記値フレームのシーケンスのための前記拡張シーケンスのフレームを、前記値チャンクにおける前記複数の値フレームの加重平均として計算する、注意ベースのプーリングである、請求項２に記載のＡＩシステム。
前記所定の関数は注意ベースのプーリングであり、前記注意ベースのプーリングは、キーフレームのチャンクまたは値フレームのチャンクのいずれかに注意を払うことによって複数の重み分布を生成するために複数の訓練されたクエリベクトルを使用し、前記キーフレームのチャンクおよび前記値フレームのチャンクの加重平均に対応する複数の出力フレームを計算するために前記複数の重み分布を使用し、
前記プロセッサはさらに、前記キーフレームの拡張シーケンスおよび前記値フレームの拡張シーケンスのための１つまたは複数のフレームを生成するために、後処理ルールに従って前記キーチャンクおよび前記値チャンクの前記複数の出力フレームに後処理を実行するように構成される、請求項２に記載のＡＩシステム。
前記キーフレームの拡張シーケンスおよび前記値フレームの拡張シーケンスのためのフレームを導き出すために、前記後処理ルールは、
前記キーチャンクおよび前記値チャンクのために決定された前記複数の出力フレームを保存すること、
前記キーチャンクおよび前記値チャンクのために決定された前記複数の出力フレームを組合せること、ならびに、
前記キーチャンクおよび前記値チャンクのために決定された前記複数の出力フレームのうちの少なくとも１つを除去すること、のうちの１つ、またはそれらの組合せを含む、請求項８に記載のＡＩシステム。
前記プロセッサはさらに、前記注意計算の下で前記クエリフレームまでの距離がしきい値よりも小さい第１のタイプのキーチャンクおよび値チャンクと、前記注意計算の下で前記クエリフレームまでの距離がしきい値以上である第２のタイプのキーチャンクおよび値チャンクとを含む、少なくとも２つの異なるタイプのキーチャンクおよび値チャンクのために、前記後処理ルールを調節するように構成される、請求項９に記載のＡＩシステム。
前記プロセッサはさらに、
第１のタイプのキーチャンクおよび値チャンクのために決定された前記複数のフレームを保存し、
前記第２のタイプのキーチャンクおよび値チャンクの前記複数のフレームのうちの少なくとも１つを除去するように構成される、請求項１０に記載のＡＩシステム。
前記プロセッサはさらに、
前記第１のタイプのキーチャンクおよび値チャンクのための前記複数のフレームを保存し、
平均プーリング、および、ニューラルネットワークの処理によって前記キーチャンクおよび前記値チャンクのために決定された前記複数の出力フレームを合併すること、のうちの１つ、またはそれらの組合せを使用して、前記第２のタイプのキーチャンクおよび値チャンクの前記複数のフレームを組合せるように構成される、請求項１０に記載のＡＩシステム。
前記ニューラルネットワークの処理は、２つの線形変換の使用を含み、前記２つの線形変換は、非線形活性化関数によって分離される訓練されたパラメータを有するとともに、第１の線形変換が入力をより小さい次元性に投影し、第２の線形変換が前記第１の線形変換の出力をクエリフレーム、キーフレーム、および値フレームの次元性に投影するようなボトルネック構造を有する、請求項１１に記載のＡＩシステム。
前記拡張された自己注意モジュールは、ストリーミングアプリケーションにおいて使用され、前記入力フレームのシーケンスは連続的に受信され、キーフレームの少なくとも１つの新しいチャンクおよび値フレームの少なくとも１つの新しいチャンクが生成された場合に前記キーの拡張シーケンスおよび前記値の拡張シーケンスを拡大することによって、自己注意出力が、限られた遅延で前記入力フレームの各々について生成される、請求項１に記載のＡＩシステム。
前記拡張された自己注意モジュールは、前記注意計算がクエリフレームを、前記キーフレームのシーケンスからのキーフレームの一部、および、前記キーフレームのシーケンスから変換された拡張シーケンスと比較して、前記値フレームのシーケンスからの値フレームの一部のシーケンスと前記値フレームの拡張シーケンスとから出力を生成するように、前記入力フレームのシーケンスを、前記クエリフレームのシーケンス、前記キーフレームのシーケンス、および前記値フレームのシーケンスに変換する、請求項１に記載のＡＩシステム。
前記キーフレームのシーケンスからのキーフレームの一部と、前記値フレームのシーケンスからの値フレームの一部とは、前記クエリフレームのシーケンスにおける前記クエリフレームの位置に基づいて選択される、請求項１４に記載のＡＩシステム。
前記ニューラルネットワークは、拡張された自己注意モジュールの複数の層を含む、請求項１に記載のＡＩシステム。
前記プロセッサはさらに、第１の拡張機構による前記キーフレームおよび前記値フレームのための第１の拡張シーケンスと、第２の拡張機構による前記キーフレームおよび前記値フレームのための第２の拡張シーケンスとを、プロセスパイプライン上に連続して生成するように構成され、
第１のチャンクサイズを有する前記第１の拡張シーケンスは、前記キーフレームの前記第１の拡張シーケンスから前記キーフレームの前記第２の拡張シーケンスをレンダリングし、前記値フレームの前記第１の拡張シーケンスから前記値フレームの前記第２の拡張シーケンスをレンダリングするための第２のチャンクサイズを有する第２の拡張機構への入力に対応する、請求項２に記載のＡＩシステム。
前記プロセッサはさらに、
前記注意計算の下で前記クエリフレームに対して所定のしきい値よりも小さいフレーム距離を有するキーチャンクおよび値チャンクに対応する、前記キーフレームおよび前記値フレームのための第１の拡張シーケンスの前記フレームを保存し、
前記注意計算の下で前記クエリフレームに対して所定のしきい値以上であるフレーム距離を有するキーチャンクおよび値チャンクに対応する、前記キーフレームおよび前記値フレームのための第２の拡張シーケンスの前記フレームを保存するように構成される、請求項１７に記載のＡＩシステム。
前記ニューラルネットワークは、前記拡張された自己注意モジュールを、エンコーダ、デコーダ、またはそれら両方の一部として含む、トランスフォーマまたはコンフォーマアーキテクチャを有する、請求項１に記載のＡＩシステム。
自動音声認識（ＡＳＲ）システム、音事象検出システム、音声タグ付けシステム、音響源分離システム、および機械翻訳システムのうちの１つまたはそれらの組合せの少なくとも一部を形成する、請求項１に記載のＡＩシステム。