JP2020501229A

JP2020501229A - 質問応答のための動的相互注目ネットワーク

Info

Publication number: JP2020501229A
Application number: JP2019522932A
Authority: JP
Inventors: ション，カイミング; ゾン，ヴィクター; ソーチャー，リチャード
Original assignee: セールスフォースドットコムインコーポレイティッド
Priority date: 2016-11-04
Filing date: 2017-11-03
Publication date: 2020-01-16
Anticipated expiration: 2037-11-03
Also published as: CN109906460A; US20180129938A1; CA3038812A1; US10963782B2; EP3535706A1; WO2018085710A1; JP6873236B2; CN109906460B; CA3038812C

Abstract

開示される技術は、「動的相互注目ネットワーク（ＤＣＮ）」と本願において呼ばれる、質問応答のためのエンドツーエンドニューラルネットワークに関する。大まかに説明すると、ＤＣＮは、いわゆる「相互注目エンコーディング」において質問とドキュメントとの間の相互作用を捕捉するエンコーダニューラルネットワーク及び相互注目エンコーダを含む。ＤＣＮは、相互注目エンコーディングを処理して質問に返答するドキュメント内のフレーズの開始及び終了位置を推定するデコーダニューラルネットワーク及びハイウェイマックスアウトネットワークをさらに含む。

Description

［他の出願の相互参照］
本出願は、2016年11月4日に出願された米国仮特許出願第62/417,332号「DYNAMIC COATTENTION NETWORKS FOR QUESTION ANSWERING」（Atty. Docket No. SALE 1179-1/1945PROV）の利益を主張する。この優先仮出願はすべての目的に対しここで参照により援用される。

本出願は、2016年11月4日に出願された米国仮特許出願第62/418,060号「DYNAMIC COATTENTION NETWORKS FOR QUESTION ANSWERING」（Atty. Docket No. SALE 1179-2/1945PROV2）の利益を主張する。この優先仮出願はすべての目的に対しここで参照により援用される。

本出願は、2017年1月31日に出願された米国非仮特許出願第15/421,193号「DYNAMIC COATTENTION NETWORK FOR QUESTION ANSWERING」（Atty. Docket No. SALE 1179-3/1945US）の利益を主張する。この優先非仮出願はすべての目的に対しここで参照により援用される。

［開示される技術の分野］
開示される技術はディープニューラルネットワークを使用する自然言語処理（ＮＬＰ）に一般に関し、詳細には機械理解及び質問応答のためのエンドツーエンドニューラルネットワークアーキテクチャに関する。

本セクションで論じられる対象事項は、単に本セクションにおけるその言及の結果として従来技術であると仮定されるべきでない。同様に、本セクションで言及され又は背景技術として提供された対象事項に関連づけられる問題は、従来技術において前に認識されたことがあると仮定されるべきでない。本セクションにおける対象事項は異なる手法を表すに過ぎず、該手法これら自体もまた請求される技術の実装に対応し得る。

質問応答に関し、いくつかのディープラーニングモデルが提案されている。しかしながらこれらは、その単一パスの性質に起因して、誤った応答に対応する極大値から回復する方法を有さない。この問題に対処するために、開示される技術は、質問応答のためのいわゆる「動的相互注目ネットワーク（dynamic coattention network、ＤＣＮ）」を提供する。ＤＣＮは、最初、質問及びドキュメントの相互依存表現を融合して双方の関連部分に焦点を当てる。次いで、ＤＣＮは、潜在的な応答スパンにわたり反復する。この反復的手順は、ＤＣＮが誤った応答に対応する初期極大値から回復することを可能にする。

スタンフォード質問応答データセット（Stanford Question Answering Dataset、ＳＱｕＡＤ）データセット上で、単一のＤＣＮモデルが、７１．０％Ｆ１スコアから７５．９％Ｆ１スコアまで前の最高水準より優れ、アンサンブルＤＣＮモデルが、７８．１％Ｆ１スコアから８０．４％Ｆ１スコアまで前の最高水準より優れている。

図面において、同様の参照符号は異なる図を通して同様の部分を一般に参照する。また、図面は必ずしも縮尺どおりでなく、代わりに、開示される技術の原理を例示することに重点が一般に置かれる。以下の説明において、開示される技術の様々な実装が以下の図面を参照して説明される。
ドキュメントを読み出して理解し、それに基づいて質問に応答する動的相互注目ネットワーク（ＤＣＮ）の態様を示す。エンコーダニューラルネットワークを使用してドキュメント及び質問文脈エンコーディングを生成する一実装を示す。図２のドキュメント及び質問文脈エンコーディング間の言語類似度を決定するアフィニティ行列を生成する隠れ状態比較器の一実装を表す。図３のアフィニティ行列をドキュメントごとに正規化することによりドキュメント対質問注目重みを生成する一実装である。図２のドキュメント文脈エンコーディングを図４のドキュメント対質問注目重みと結合することによりドキュメントの文脈サマリを作成する一実装を示す。図３のアフィニティ行列を質問ごとに正規化することにより質問対ドキュメント注目重みを生成する一実装である。図２の質問文脈エンコーディングを図６の質問対ドキュメント注目重みと結合することにより質問の文脈サマリを作成する一実装を示す。図５のドキュメントの文脈サマリを図６の質問対ドキュメント注目重みと結合することによりドキュメントの改善文脈サマリを作成する一実装を表す。図８のドキュメントの改善文脈サマリを図７の質問の文脈サマリと連結することによりドキュメントの相互依存表現を作成する一実装である。図９のドキュメントの相互依存表現を図２のドキュメント文脈エンコーディングと連結することによりドキュメントの改善相互依存表現を作成する一実装を示す。図１０のドキュメントの改善相互依存表現を使用して双方向ドキュメントごと相互注目エンコーディングを生成する双方向相互注目エンコーダの一実装を示す。質問に返答するドキュメント内のフレーズの開始及び終了位置を反復的に予測するデコーダニューラルネットワークの一実装を表す。開始ハイウェイマックスアウトネットワークの一実装である。終了ハイウェイマックスアウトネットワークの一実装である。デコーダニューラルネットワークにより生成される開始及び終了条件付き分布の例である。デコーダニューラルネットワークにより生成される開始及び終了条件付き分布の例である。デコーダニューラルネットワークにより生成される開始及び終了条件付き分布の例である。動的相互注目ネットワーク（ＤＣＮ）を実装するために使用できる、前に説明されたコンポーネントのモジュールを示す。ＤＣＮを実装するために使用できるコンピュータシステムの簡略ブロック図である。

以下の議論は、当業者が開示される技術を創作及び使用できるように提示され、特定の用途及びその要件の文脈において提供される。開示の実装に対する様々な変更が当業者に容易に明らかになり、本明細書で定義される一般的原理は、開示される技術の主旨及び範囲から逸脱することなく他の実装及び用途に適用され得る。ゆえに、開示される技術は図示される実装に限定されることは意図されず、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるべきである。

議論は以下のとおり編成される。まず、開示される技術の概観を提供する導入が提示される。次いで、開示される技術のエンコーダ及びその機能性が論じられる。次に、相互注目機構が論じられ、開示される技術のデコーダ及びその機能性が後に続く。最後、ＳＱｕＡＤデータセットに対しての開示される技術の性能を示すいくつかの実験結果が提供される。

［導入］
質問応答（Question answering、ＱＡ）は、自然言語理解及び世界知識の双方を必要とする自然言語処理（natural language processing、ＮＬＰ）において重要なタスクである。従前のＱＡデータセットは、人間の注釈に起因して品質が高く、しかしサイズが小さい傾向がある。ゆえに、これらは、ディープニューラルネットワークなどのデータ集中的な表現モデルを訓練することを許容しない。

この問題に対処するために、研究者は半自動化手法を通じて大規模データセットを開発した。それらのより小さい、手動注釈された相対物と比較して、これらＱＡデータセットはさらなる表現モデルの訓練を可能にする。しかしながら、これらは、質問に応答するために必要とされる推理のタイプにおいて、より自然な、人間により注釈されたデータセットと異なることが示されている。

近年リリースされたスタンフォード質問応答データセット（Stanford Question Answering Dataset、ＳＱｕＡＤ）は、すべての従前の手動注釈されたデータセットより大きい規模であり、自然ＱＡタスクにおいて最高に達する様々な特質を有する。ＳＱｕＡＤは、Ｗｉｋｉｐｅｄｉａ記事のセットに対してクラウドワーカーにより提出された質問からなる。ＳＱｕＡＤは、５３６個の記事に対して１０７，７８５個の質問応答ペアを含む。ＳＱｕＡＤは、応答が参照ドキュメント内のスパン又はフレーズであるという望ましい特質を有する。これは、応答を参照ドキュメント内のすべての可能なスパンの空間に制約する。

開示される技術は、「動的相互注目ネットワーク（dynamic coattention network、ＤＣＮ）」と本明細書において呼ばれる、質問応答のためのエンドツーエンドニューラルネットワークに関する。大まかに説明すると、ＤＣＮは、いわゆる「相互注目エンコーディング（coattention encoding）」において質問とドキュメントとの間の相互作用を捕捉するエンコーダニューラルネットワーク及び相互注目エンコーダ（coattentive encoder）を含む。ＤＣＮは、質問に返答するドキュメント内のフレーズの開始及び終了位置を推定するために相互注目エンコーディングを処理するデコーダニューラルネットワーク及びハイウェイマックスアウトネットワーク（highway maxout networks）を含む。

ＤＣＮは、ドキュメントに関する質問に自動的に応答する。文脈なしにドキュメントの単一の静的な表現を生成する代わりに、ＤＣＮは、質問に依存して別様にドキュメントを解釈する。すなわち、同じドキュメントを所与として、ＤＣＮは、質問（例えば、「どのチームがスーパーボウル５０においてＮＦＣを代表したか？」、「誰が第４クォーターでタッチダウンを得点したか？」）に依存して異なる理解を構築する。この条件付き解釈に基づいて、ＤＣＮは複数の応答を反復的に予測し、それが最初に誤誘導された予測を調整することを可能にする。

単一のモデル実装において、ＤＣＮは、７１．０％Ｆ１スコアを有する従前の最高水準と比較して、ＳＱｕＡＤデータセットに対して７５．９％のＦ１スコアを達成する。アンサンブルモデル実装において、ＤＣＮは、７８．１％Ｆ１スコアを有する従前の最高水準と比較して、ＳＱｕＡＤデータセットに対して８０．４％のＦ１スコアを達成する。

［動的相互注目ネットワーク］
図１は、ドキュメント１０２ａを読み出して理解し、それに基づいて質問１０４ａに応答する動的相互注目ネットワーク（ＤＣＮ）１００の態様を示す。ドキュメント１０２ａは、ドキュメントデータベース１０２に記憶されている。質問１０４ａは、質問データベース１０４に記憶されている。ＤＣＮ１００は、２つのタイプのコンポーネント、すなわち、エンコーディングコンポーネント（すなわち、エンコーダ）とデコーディングコンポーネント（すなわち、デコーダ）とを含む。ＤＣＮ１００のエンコーディングコンポーネントは、埋め込み器１０６、エンコーダニューラルネットワーク１０８、隠れ状態比較器１１０、指数関数的正規化器（exponential normalizer）１１２、エンコーディングミキサ１１４、及び相互注目エンコーダ１１６を含む。ＤＣＮ１００のデコーディングコンポーネントは、デコーダニューラルネットワーク１１８、開始ハイウェイマックスアウトネットワーク１２０、及び終了ハイウェイマックスアウトネットワーク１２２を含む。

図１におけるコンポーネントは、ハードウェア又はソフトウェアにおいて実現でき、図１に示されるのと正確に同じブロックで分割される必要はない。コンポーネントのいくつかが、異なるプロセッサ又はコンピュータ上で実現され、あるいは複数の異なるプロセッサ又はコンピュータ間で分散されてもよい。さらに、コンポーネントのいくつかが、達成される機能に影響することなく、組み合わせられ、並列に、又は図１に示されるシーケンスと異なるシーケンスで動作し得ることが十分理解されるであろう。さらに、本明細書で使用されるとき、用語「コンポーネント」は「サブコンポーネント」を含んでよく、サブコンポーネントはそれら自体、コンポーネントを構成すると本明細書において考えられてよい。例えば、埋め込み器１０６、エンコーダニューラルネットワーク１０８、隠れ状態比較器１１０、指数関数的正規化器１１２、エンコーディングミキサ１１４、及び相互注目エンコーダ１１６は、エンコーディングコンポーネントのサブコンポーネントであると本明細書において考えられてもよい。同様に、デコーダニューラルネットワーク１１８、開始ハイウェイマックスアウトネットワーク１２０、及び終了ハイウェイマックスアウトネットワーク１２２は、デコーディングコンポーネントのサブコンポーネントであると本明細書において考えられてもよい。さらに、エンコーディングコンポーネント及びデコーディングコンポーネントは、ＤＣＮコンポーネントのサブコンポーネントであると本明細書において考えられてもよい。さらに、図１におけるブロックは、方法におけるフローチャートステップと考えられてもよい。コンポーネント又はサブコンポーネントもまた、必ずしもすべてのそのコードをメモリに連続して配置させる必要はない。コードのいくつかの部分がコードの他の部分から分離され、他のコンポーネント若しくはサブコンポーネント又は他の機能からのコードが間に配置されてよい。

［埋め込み］
埋め込み器１０６は、ドキュメント１０２ａ及び質問１０４ａ内の各ワードを、「埋め込み空間（embedding space）」と本明細書において呼ばれる高次元ベクトル空間にマッピングする。一実装において、埋め込み器１０６は、埋め込み行列

を使用してドキュメント１０２ａ内のｍ個のワードに対応するｌ次元ワードベクトルｘ_１ ^Ｄ，ｘ_２ ^Ｄ，．．．，ｘ_ｍ ^Ｄのシーケンス２０２を作成し、ここで、ｖは語彙のサイズを表す。シーケンス２０２は、「ドキュメント埋め込み（document embedding）」と本明細書において呼ばれる。同じ埋め込み行列

を使用し、埋め込み器１０６は、質問１０４ａ内のｎ個のワードに対応するｌ次元ワードベクトルｘ_１ ^Ｑ，ｘ_２ ^Ｑ，．．．，ｘ_ｎ ^Ｑのシーケンス２０４をさらに作成する。シーケンス２０４は「質問埋め込み（question embedding）」と本明細書において呼ばれる。埋め込みのこれらステップは、ＤＣＮ１００の埋め込み器１０６により具現化される。

埋め込み行列

を共有することにより、ドキュメント１０２ａ及び質問１０４ａの双方が埋め込み空間の学習に関係し、互いからの恩恵を受ける。別の実装において、埋め込み器１０６は、ドキュメント１０２ａ及び質問１０４ａ内のあらゆるワードをワンホット（one-hot）表現に最初変換し、次いで、これらを共有された埋め込み行列

を使用して連続的表現に変換する。さらに別の実装において、埋め込み器１０６は、ＧｌｏＶｅ及びｗｏｒｄ２ｖｅｃのような事前訓練されたワード埋め込みモデルを使用してワード埋め込みを初期化して、ドキュメント１０２ａ及び質問１０４ａ内の各ワードの固定のワード埋め込みを取得する。他の実装において、埋め込み器１０６は、キャラクタ埋め込み及び／又はフレーズ埋め込みを作成する。

［文脈エンコーディング］
エンコーダニューラルネットワーク１０８は、文脈情報をドキュメント１０２ａ及び質問１０４ａ内の各ワードの表現に組み込むリカレントニューラルネットワーク（recurrent neural network、ＲＮＮ）である。一実装において、エンコーダニューラルネットワーク１０８は、以下に示されるように、ドキュメント１０２ａと質問１０４ａとを別個に処理する標準の１方向の長短期記憶（Long Short-Term Memory、ＬＳＴＭ）ニューラルネットワークである。

一例示的なＬＳＴＭニューラルネットワークが、http://arxiv.org/abs/1308.0850v5において入手可能な「Generating sequences with recurrent neural networks」、Alex Graves、においてより詳細に説明されている。他の実装において、エンコーダニューラルネットワーク１０８は、ゲート付きリカレントユニット（Gated Recurrent Unit、ＧＲＵ）ニューラルネットワークである。

ドキュメントエンコーディング行列

と、質問エンコーディング行列

とは、ドキュメント１０２ａ及び質問１０４ａの隠れ状態表現を生成し、ここで、ｌは隠れ状態ベクトルの次元数である。いくつかの実装において、ポインタセンチネルベクトル（pointer sentinel vectors）

と、

とが使用され、これらは、エンコーダニューラルネットワーク１０８が入力の中のいかなる特定のワードにも注目しないことを可能にする。ドキュメントエンコーディング空間及び質問エンコーディング空間の間のばらつきを許容するために、非線形射影層（non-linear projection layer）が質問エンコーディングに適用される。ゆえに、質問の最終的な表現は、

になる。

エンコーディング行列を使用し、エンコーダニューラルネットワーク１０８は、ドキュメント埋め込み２０２に基づいてドキュメント１０２ａについての隠れ状態ベクトルｈ_１ ^Ｄ，ｈ_２ ^Ｄ，．．．，ｈ_ｍ ^Ｄを含む文脈エンコーディング２１２を作成し、質問埋め込み２０４に基づいて質問１０４ａについての隠れ状態ベクトルｈ_１ ^Ｑ，ｈ_２ ^Ｑ，．．．，ｈ_ｎ ^Ｑを含む文脈エンコーディング２１４を作成する。ドキュメント１０２ａの文脈エンコーディング２１２は、「ドキュメントエンコーディング（document encoding）」と本明細書において呼ばれる。ドキュメント文脈エンコーディングを生成するステップは、エンコーダニューラルネットワーク１０８のドキュメントエンコーダＬＳＴＭ１８０２により具現化される。質問１０４ａの文脈エンコーディング２１４は「質問エンコーディング（question encoding）」と本明細書において呼ばれる。質問文脈エンコーディングを生成するステップは、エンコーダニューラルネットワーク１０８の質問エンコーダＬＳＴＭ１８０４により具現化される。ｉ番目の隠れ状態ベクトルｈ_ｉ ^Ｄ（例えば、ｈ_４ ^Ｄ）は、ドキュメント１０２ａのｉ番目のワード埋め込み（例えば、ｘ_４ ^Ｄ）を、ドキュメント１０２ａの先行するワード埋め込み（例えば、ｘ_１ ^Ｄ、ｘ_２ ^Ｄ、ｘ_３ ^Ｄ）の隠れ状態ベクトル（例えば、ｈ_１ ^Ｄ、ｈ_２ ^Ｄ、ｈ_３ ^Ｄ）からのいくらかの文脈情報と共に表す。同様に、ｉ番目の隠れ状態ベクトルｈ_ｉ ^Ｑ（例えば、ｈ_３ ^Ｑ）は、質問１０４ａのｉ番目のワード埋め込み（例えば、ｘ_３ ^Ｄ）を、質問１０４ａの先行するワード埋め込み（例えば、ｘ_１ ^Ｑ、ｘ_２ ^Ｑ）の隠れ状態ベクトル（例えば、ｈ_１ ^Ｑ、ｈ_２ ^Ｑ）からのいくらかの文脈情報と共に表す。

［相互注目機構］
相互注目機構は、ドキュメント１０２ａ及び質問１０４ａに同時に注目し、双方の注目文脈を最終的に融合する。隠れ状態比較器１１０は、ドット積を使用してドキュメントエンコーディング２１２及び質問エンコーディング２１４を比較し、以下に示されるように、ドキュメントごと及び質問ごとの次元を有するアフィニティ行列３０２を出力する。

ここで、Ｌ_ｍｎは、ｍ番目のドキュメントワードとｎ番目の質問ワードとの間の言語類似度を示す。言語類似度埋め込みを算出するステップは、ＤＣＮ１００の隠れ状態比較器１１０により具現化される。

アフィニティ行列３０２は、ドキュメントワード及び質問ワードのすべてのペアに対応する、ドキュメント対質問（document-to-question）アフィニティスコア及び質問対ドキュメント（question-to-document）アフィニティスコアを識別する。ドキュメント対質問アフィニティスコアは、どの質問ワードが各ドキュメントワードに最も関連があるかを表す。質問対ドキュメントアフィニティスコアは、どのドキュメントワードが質問ワードのうち１つに最も近い類似度を有し、ゆえに質問に応答するのに重要であるかを表す。アフィニティ行列３０２において、ドキュメント１０２ａ内のあらゆるワードについてのドキュメント対質問アフィニティスコアが、その文脈エンコーディングと質問エンコーディング２１４とのドット積として識別される。アフィニティ行列３０２の転置行列において、質問１０４ａ内のあらゆるワードについての質問対ドキュメントアフィニティスコアが、その文脈エンコーディングとドキュメントエンコーディング２１２とのドット積として識別される。

指数関数的正規化器１１２は、行ごとソフトマックス関数４０２をドキュメント対質問アフィニティスコアに適用することによりアフィニティ行列３０２をドキュメントごとに正規化して、ドキュメント対質問注目重み（γ）４０４を生成する。指数関数的正規化器１１２はさらに、列ごとソフトマックス関数６０２を質問対ドキュメントアフィニティスコアに適用することによりアフィニティ行列３０２を質問ごとに正規化して、質問対ドキュメント注目重み（μ）６０４を生成する。指数関数的に正規化するステップは、ＤＣＮ１００の指数関数的正規化器１１２により具現化される。指数関数的に正規化されたドキュメント対質問注目重み（γ）４０４及び指数関数的に正規化された質問対ドキュメント注目重み（μ）６０４は、ドキュメントワード及び質問ワードのすべてのペア間のアフィニティスコアにより算出された言語類似度をエンコードする注目スカラである。アフィニティ行列３０２内の各列に沿ったドキュメントごと注目スカラＡ^Ｑは、合計して１（unity）になる（例えば、γ_１ ^１乃至γ_１ ^ｍ）。アフィニティ行列３０２内の各行に沿った質問ごと注目スカラＡ^Ｄは、合計して１（unity）になる（例えば、μ_１ ^１乃至μ_１ ^ｎ）。注目スカラは以下のように算出される。

ここで、Ｌ^Ｔは、アフィニティ行列３０２の転置行列を表す。

エンコーディングミキサ１１４は、ドキュメント対質問注目重み（γ）４０４に依存してドキュメントエンコーディング２１２の加重和を算出する。すなわち、ドキュメントエンコーディング２１２は、アフィニティ行列３０２内のドキュメント対質問注目重み（γ）４０４の各列を要素ごとに乗算される。各々のドキュメントごと注目スカラ（例えば、γ_１ ^１４１４）にドキュメントエンコーディング２１２内の対応する隠れ状態ベクトル（例えば、ｈ_１ ^Ｄ２１６）を乗算することにより、エンコーディングミキサ１１４は、質問に関してドキュメント１０２ａの文脈サマリ（例えばＣ_１ ^Ｄ５１２）を計算することにおける各ドキュメントワードの関与の度合いを決定する。ゆえに、ドキュメント１０２ａの各文脈サマリベクトルＣ_１ ^Ｄ，Ｃ_２ ^Ｄ，．．．，Ｃ_ｎ ^Ｄは、質問１０４ａに関してドキュメント１０２ａ内の最も重要なワードの加重和を示す。ドキュメントの文脈サマリを作成するステップは、エンコーディングミキサ１１４のドキュメントエンコーディングミキサ１８０６により具現化される。

同様に、エンコーディングミキサ１１４は、質問対ドキュメント注目重み（μ）６０４
に依存して質問エンコーディング２１４の加重和を算出する。すなわち、質問エンコーディング２１４は、アフィニティ行列３０２内の質問対ドキュメント注目重み（μ）６０４の各行を要素ごとに乗算される。各々の質問ごと注目スカラ（例えば、μ_１ ^１６１４）に質問エンコーディング２１４内の対応する隠れ状態ベクトル（例えば、ｈ_１ ^Ｑ２１８）を乗算することにより、エンコーディングミキサ１１４は、ドキュメント１０２ａに関して質問１０４ａの文脈サマリ（例えば、Ｃ_１ ^Ｑ７１２）を計算することにおける各質問ワードの関与の度合いを決定する。ゆえに、質問１０４ａの各文脈サマリベクトルＣ_１ ^Ｑ，Ｃ_２ ^Ｑ，．．．，Ｃ_ｍ ^Ｑは、ドキュメント１０２ａに関して質問１０４ａ内の最も重要なワードの加重和を示す。質問の文脈サマリを作成するステップは、エンコーディングミキサ１１４の質問エンコーディングミキサ１８０８により具現化される。

次いで、エンコーディングミキサ１１４は、質問対ドキュメント注目重み（μ）６０４に依存してドキュメント１０２ａの文脈サマリＣ_１ ^Ｄ，Ｃ_２ ^Ｄ，．．．，Ｃ_ｎ ^Ｄの加重和を算出する。すなわち、アフィニティ行列３０２内の質問対ドキュメント注目重み（μ）６０４の各行は、ドキュメント１０２ａの文脈サマリＣ_１ ^Ｄ，Ｃ_２ ^Ｄ，．．．，Ｃ_ｎ ^Ｄの各々を要素ごとに乗算される。各々の質問ごと注目スカラ（例えば、μ_１ ^１６１４）にドキュメント１０２ａの対応する文脈サマリ（例えば、Ｃ_１ ^Ｄ５１２）を乗算することにより、エンコーディングミキサ１１４は、質問１０４ａに関してドキュメント１０２ａの改善した文脈サマリ（例えば、Ｘ_１ ^Ｄ８１２）を計算することにおける各文脈サマリの関与の度合いを決定する。ゆえに、ドキュメント１０２ａの、各々の改善文脈サマリベクトルＸ_１ ^Ｄ，Ｘ_２ ^Ｄ，．．．，Ｘ_ｍ ^Ｄは、質問１０４ａに関してドキュメント１０２ａの最も重要な文脈サマリの加重和を示す。ドキュメントの改善した文脈サマリを作成するステップは、エンコーディングミキサ１１４の再注目器（reattender）１８１０により具現化される。

次いで、エンコーディングミキサ１１４は、ドキュメント１０２ａの改善文脈サマリＸ_１ ^Ｄ，Ｘ_２ ^Ｄ，．．．，Ｘ_ｍ ^Ｄを質問１０４ａの文脈サマリＣ_１ ^Ｑ，Ｃ_２ ^Ｑ，．．．，Ｃ_ｍ ^Ｑと連結し（concatenates）て、ドキュメント１０２ａと質問１０４ａとの相互依存表現を相互注目文脈Ｙ＝Ｙ_１ ^Ｄ，Ｙ_２ ^Ｄ，．．．，Ｙ_ｍ ^Ｄ９０２として作成し、ここで、各々の相互注目文脈ベクトルは２ｌ個の次元数を有する。次に、より前の要約により引き起こされた情報損失を低減するために、エンコーディングミキサ１１４は、相互注目文脈Ｙ９０２（例えば、Ｙ_１ ^Ｄ９１２）をドキュメントエンコーディング２１２（例えば、ｈ_１ ^Ｄ２１６）と要素ごとに連結して、改善相互注目文脈Ｚ_１ ^Ｄ，Ｚ_２ ^Ｄ，．．．，Ｚ_ｍ ^Ｄ１００２を生成し、ここで、各々の改善相互注目文脈ベクトルは３ｌ個の次元数を有する。改善相互注目文脈Ｚ１００２は、次いで、相互注目エンコーダ１１６に入力として提供される。双方向ドキュメントごと相互注目エンコーディングを生成するステップは、ＤＣＮ１００の連結器１８１２及び相互注目エンコーダ１１６により具現化される。

相互注目エンコーダ１１６は、改善相互注目文脈Ｚ１００２の要素間の時間的相互作用を、要素をフォワード及びリバース方向において評価することと相互注目エンコーディングＵ１１０２を生成することとにより融合する、双方向ＬＳＴＭである。相互注目エンコーディングＵ１１０２内の各要素（例えば、Ｕ_ｔ１１０２ｔ）は、質問１０４ａに関してエンコードされた対応するドキュメントワードを表す。相互注目エンコーディングＵ１１０２は、以下のように定義される。

ここで、相互注目エンコーディング

であり、どれが最良の可能な応答であり得るか選択のための基礎を提供する。

［デコーディング］
ＳＱｕＡＤの性質に起因して、応答スパンを生成する直感的な方法は、スパンの開始及び終了点を予測することによる。しかしながら、質問・ドキュメントペアを所与として、ドキュメント内にいくつかの直感的応答スパンが存在し、各々が極大値に対応する可能性がある。この問題に対処するために、ＤＣＮ１００は、反復的手法を使用して、ドキュメント内の応答スパンの開始及び終了点を予測することにより応答スパンを選択する。この反復的手順は、ＤＣＮ１００が、誤った応答スパンに対応する初期極大値から回復することを可能にする。

図１２は、デコーダニューラルネットワーク１１８の例示を提供し、デコーダニューラルネットワーク１１８は、その状態がＬＳＴＭに基づく連続モデルにより維持される状態機械と同様である。各反復の間、デコーダニューラルネットワーク１１８は、その状態を開始及び終了位置の現在の推定に対応する相互注目エンコーディングを考慮して更新し、開始ハイウェイマックスアウトネットワーク１２０及び終了ハイウェイマックスアウトネットワーク１２２のような多層ニューラルネットワークを介して開始及び終了位置の新しい推定を生成する。

ｈ_ｉ、ｓ_ｉ、及びｅ_ｉが、反復ｉの間のデコーダニューラルネットワーク１１８の隠れ状態、開始位置の推定、及び終了位置の推定を表すとする。次いで、デコーダニューラルネットワーク１１８の状態更新は、

として記述され、ここで、

及び、

は、相互注目エンコーディングＵ１１０２内の開始及び終了位置の前の推定に対応する表現である。

現在の隠れ状態ｈ_ｉと、前の開始位置

と、前の終了位置

とを所与として、ＤＣＮ１００は、現在の開始位置及び終了位置を以下のように推定する。

ここで、α_ｔ及びβ_ｔは、ドキュメント１０２ａ内のｔ番目のワードに対応する開始スコア及び終了スコアをあらわす。ドキュメント内の潜在的開始及び終了位置についてドキュメントごと相互注目エンコーディングから生成されたスコアの中から選択して現在推定された開始及び終了位置を生成することは、デコーダニューラルネットワーク１１８のａｒｇｍａｘモジュール１８１６により具現化される。

開始スコアα_ｔは、開始ハイウェイマックスアウトネットワーク１２０を使用して以下のように計算される。

終了スコアβ_ｔは、終了ハイウェイマックスアウトネットワーク１２２を使用して以下のように計算される。

上記式において、ｕ_ｔは、ドキュメント１０２ａ内のｔ番目のワードに対応する相互注目エンコーディングである。

ハイウェイマックスアウトネットワーク１２０及び１２２の双方が、入力として、多層パーセプトロン（例えば、１３０２、１４０２）を通じて現在の隠れ状態ｈ_ｉ、前の開始位置

及び前の終了位置

の非線形射影ｒを取得する。次いで、ネットワーク１２０及び１２２の第１のマックスアウト層（例えば、１３０４、１４０４）が、スコア付けされる各位置ｕ_ｔを非線形射影と結合し、４つ以上の線形モデルを通じて各結合を処理し、線形モデルの１つから最大出力ｍ_ｔ ^（１）を選択する。次いで、ネットワーク１２０及び１２２の第２のマックスアウト層（例えば、１３０６、１４０６）が、スコア付けされる各位置ｕ_ｔについて、４つ以上の線形モデルを通じて第１のマックスアウト層の出力を処理し、線形モデルの１つから最大出力ｍ_ｔ ^（２）を選択する。次いで、第３のマックスアウト層（例えば、１３０８、１４０８）が、スコア付けされる各位置ｕ_ｔについて、４つ以上の線形モデルを通じて第１及び第２のマックスアウト層の出力を処理し、線形モデルの１つから最大出力

を選択する。

ハイウェイマックスアウトネットワーク１２０及び１２２の処理は、以下のように記述される。

ここで、

は、パラメータ

を有する現在の状態の非線形射影であり、ｍ_ｔ ^（ｌ）は、パラメータ

及び

を有する第１のマックスアウト層の出力であり、ｍ_ｔ ^（２）は、パラメータ

及び

を有する第２のマックスアウト層の出力である。ｍ_ｔ ^（１）及びｍ_ｔ ^（２）は、最終マックスアウト層に供給され、該マックスアウト層は、パラメータ

及び

を有する。ｐは、各マックスアウト層のプーリングサイズである。ｍａｘ演算は、テンソルの第１の次元にわたり最大値を計算する。さらに、第１のマックスアウト層の出力と最後のマックスアウト層との間にハイウェイ接続が存在する。

実装において、ハイウェイマックスアウトネットワーク１２０及び１２２は、同じアーキテクチャを共有するが異なるパラメータ及びハイパーパラメータである。質問に返答するドキュメント内のフレーズの現在推定された開始及び終了位置を出力するステップは、デコーダニューラルネットワーク１１８の出力生成器１８１８により具現化される。

ＤＣＮ１００を訓練するために、開始及び終了点の累積的ソフトマックス交差エントロピーがすべての反復にわたり最小化される。反復的手順は、開始位置の推定と終了位置の推定との双方がもはや変化しないとき、又は最大の反復数が達せられたとき、停止する。訓練するステップは、ＤＣＮ１００の訓練器１８２０により具現化される。

開示される技術の他の実装が、指数関数的正規化器と異なる、該正規化器に追加で、及び／又は該正規化器と組み合わせで正規化器を使用することを含む。いくつかの例が、シグモイドに基づく正規化器（例えば、マルチクラスシグモイド、区分ランプ）、双曲線正接に基づく正規化器、正規化線形ユニット（rectified linear unit、ＲｅＬＵ）に基づく正規化器、識別に基づく正規化器、ロジスティックに基づく正規化器、正弦に基づく正規化器、余弦に基づく正規化器、ユニット和（unit sum）に基づく正規化器、及びステップに基づく正規化器を含む。他の例が、階層ソフトマックス（hierarchical softmax）、差別化ソフトマックス（differentiated softmax）、重点サンプリング（importance sampling）、雑音対比推定（noise contrastive estimation）、ネガティブサンプリング（negative sampling）、ゲート付きソフトマックス（gated softmax）、球形ソフトマックス（spherical softmax）、テイラーソフトマックス（Taylor softmax）、及びスパースマックス（sparsemax）を含む。さらに他の実装において、任意の他の従来の又は将来開発される正規化器が使用されてよい。

［実験結果］
図１５〜１７は、デコーダニューラルネットワーク１１８により生成された開始及び終了条件付き分布の例である。図１５〜１７において、奇数（青）行は開始分布を表し、偶数（赤）行は終了分布を表す。ｉはデコーダニューラルネットワーク１１８の反復数を示す。より高い確率質量がより暗い領域で示されている。最も高い確率質量を有するワードに対応するオフセットが右手側に示されている。予測されたスパンが赤で下線を引かれ、グラウンドトルース応答スパンが緑で下線を引かれている。

例えば、図１５における質問１は、モデルが誤った開始点と正しい終了点とを最初に示唆する例を示す。後続の反復において、ＤＣＮ１００は開始点を調整し、最終的に反復３において正しい開始点に到着する。同様に、モデルは終了点についての確率質量を正しいワードに徐々にシフトする。

図１６における質問２は、開始及び終了双方の推定が最初誤っている例を示す。次いで、デコーダニューラルネットワーク１１８の反復的性質が、ＤＣＮ１００が誤った応答に対応する初期極大値を逃れることを可能にする間、ＤＣＮ１００は次の反復において正しい応答に落ち着く。図１７における質問３は、ＤＣＮ１００がいくつかの反復にもかかわらず複数の極大値間で判断することができない場合を示す。すなわち、ＤＣＮ１００は、応答「charged particle beam」と「particle beam weapons」との間で無限に交互に繰り返す。

［具体的な実装］
質問に基づいてドキュメントを相互注目的に（coattentively）解析し、ドキュメントに基づいて質問に応答するシステム、方法、及び製造品を我々は説明する。実装の１つ以上の特徴が、基本の実装と組み合わせられてよい。相互排他的でない実装は、結合可能であることが教示される。実装の１つ以上の特徴が、他の実装と組み合わせられてよい。本開示は、これらの選択肢をユーザに周期的に注意する。これらの選択肢を繰り返す記載の、いくつかの実装からの省略は、前のセクションにおいて教示された組み合わせを制限するものとみなされるべきでない。これらの記載は、以後参照により以下の実装の各々にここで援用される。

図１８は、動的相互注目ネットワーク（ＤＣＮ）１００（「相互注目質問応答システム（coattentive question answering system）」とも本明細書において呼ばれる）を実現するために使用できる前述されたコンポーネントのモジュールを示す。ＤＣＮ１００の前述されたモジュール又はコンポーネント、例えば埋め込み器１０６、エンコーダニューラルネットワーク１０８、隠れ状態比較器１１０、指数関数的正規化器１１２、エンコーディングミキサ１１４、相互注目エンコーダ１１６、デコーダニューラルネットワーク１１８、開始ハイウェイマックスアウトネットワーク１２０、及び終了ハイウェイマックスアウトネットワーク１２２などは、代わりに、その動作の原理又はＤＣＮ１００を変更することなくより小さいモジュール化されたモジュール又はコンポーネントを使用して説明できる。

図１８におけるモジュールは、ハードウェア又はソフトウェアにおいて実現でき、図１８に示されるのと正確に同じブロックで分割される必要はない。モジュールのいくつかが、異なるプロセッサ又はコンピュータ上で実現され、あるいは複数の異なるプロセッサ又はコンピュータ間で分散されてもよい。さらに、モジュールのいくつかが、達成される機能に影響することなく、組み合わせられ、並列に、又は図１８に示されるシーケンスと異なるシーケンスで動作し得ることが十分理解されるであろう。さらに、本明細書で使用されるとき、用語「モジュール」は「サブモジュール」を含んでよく、サブモジュールはそれら自体、モジュールを構成すると本明細書において考えられてよい。例えば、ドキュメントエンコーダＬＳＴＭ１８０２及び質問エンコーダＬＳＴＭ１８０４は、エンコーダニューラルネットワーク１０８（「エンコーダＬＳＴＭ」又は「エンコーダ」とも本明細書において呼ばれる）のサブモジュールであると本明細書において考えられてよい。一実装において、ドキュメントエンコーダＬＳＴＭ１８０２及び質問エンコーダＬＳＴＭ１８０４は２つの別個のＬＳＴＭでないが、ドキュメントとドキュメントに基づく質問とに別個に適用される同じ単一のＬＳＴＭである。いくつかの実装において、こうした同じ単一のＬＳＴＭが、ドキュメントとドキュメントに基づく質問との同時エンコーディングのために、ドキュメントエンコーダＬＳＴＭ１８０２及び質問エンコーダＬＳＴＭ１８０４を形成するように複製されてよい。別の例において、ドキュメントエンコーディングミキサ１８０６、質問エンコーディングミキサ１８０８、及び再注目器１８１０が、エンコーディングミキサ１１４のサブモジュールであると本明細書において考えられてよい。別の例において、デコーダＬＳＴＭ、ａｒｇｍａｘモジュール１８１６、及び出力生成器１８１８が、デコーダニューラルネットワーク１１８（「デコーダ」とも本明細書において呼ばれる）のサブモジュールであると本明細書において考えられてよい。モジュールとして指定される、図１８におけるブロックは、方法におけるフローチャートステップと考えられてもよい。モジュールもまた、必ずしもすべてのそのコードをメモリに連続して配置させる必要はない。コードのいくつかの部分がコードの他の部分から分離され、他のモジュール又は他の機能からのコードが間に配置されてよい。

一実装において、開示される技術は、相互注目質問応答システム（「動的相互注目ネットワーク（ＤＣＮ）１００」とも本明細書において呼ばれる）を含む。システムは、多数の並列プロセッサ上で動作する。システムは、質問に基づいてドキュメントを解析し、ドキュメントに基づいて質問に応答する。

システムは、ドキュメントワード埋め込み及び前のドキュメント文脈エンコーディングを複数の長短期記憶（略称ＬＳＴＭ）ゲートを通じて再帰的に（recurrently）処理し、ドキュメント文脈エンコーディングを作成する、ドキュメントエンコーダＬＳＴＭ１８０２を含む。

システムは、質問ワード埋め込み及び前の質問文脈エンコーディングをＬＳＴＭゲートを通じて再帰的に処理し、質問文脈エンコーディングを作成する、質問エンコーダＬＳＴＭ１８０４を含む。

システムは、ドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定する隠れ状態比較器を含む。いくつかの実装において、ドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアは、隠れ状態比較器により適用されるドット積又は双線形積を使用して決定されてよい。

システムは、ドキュメント対質問ワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされたドキュメント文脈エンコーディングの凸結合としてドキュメント文脈サマリを作成するドキュメントエンコーディングミキサ１８０６を含む。

システムは、質問対ドキュメントワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた質問文脈エンコーディングの凸結合として質問文脈サマリを作成する質問エンコーディングミキサ１８０８を含む。

システムは、質問対ドキュメントワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされたドキュメント文脈サマリの凸結合として再注目（reattended）ドキュメント文脈サマリを作成する再注目器１８１０を含む。

システムは、連結された入力及び前のドキュメント相互注目エンコーディングを複数のＬＳＴＭゲートを通じてフォワード及びリバース方向において再帰的に処理し、ドキュメント相互注目エンコーディングを作成する、相互注目エンコーダ双方向ＬＳＴＭ（「相互注目エンコーダ１１６」とも本明細書において呼ばれる）を含む。いくつかの実装において、連結された入力は、再注目ドキュメント文脈サマリ、質問文脈サマリ、及びドキュメント文脈エンコーディングを含む。システムは、再注目ドキュメント文脈サマリと質問文脈サマリとドキュメント文脈エンコーディングとの対応する要素を連結する連結器１８１２をさらに含む。

システムは、ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとデコーダＬＳＴＭ１８１４の現在のデコーダ隠れ状態との結合をハイウェイマックスアウトネットワーク（例えば、開始ハイウェイマックスアウトネットワーク１２０及び／又は終了ハイウェイマックスアウトネットワーク１２２）を通じて反復的に処理して、潜在的開始位置と次いで潜在的終了位置とについてドキュメント相互注目エンコーディングをスコア付けする、デコーダ（「デコーダニューラルネットワーク１１８」とも本明細書において呼ばれる）を含む。

デコーダは、ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択し、現在推定された開始及び終了位置を生成する、ａｒｇｍａｘモジュール１８１６をさらに含む。デコーダは、終了条件に達すると質問に応答するドキュメントフレーズを出力する出力生成器１８１８をさらに含む。ドキュメントフレーズは、現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含む。

このシステムの実装及び開示される他のシステムは、以下の特徴のうち１つ以上を任意選択で含む。システムは、開示される方法と関連して説明される特徴を含んでもよい。簡潔さのために、システムの特徴の代替的な組み合わせは個々に列挙されない。システム、方法、及び製造品に適用可能な特徴は、基本の特徴の各法定分類セットについて繰り返されない。本セクションにおいて識別される特徴が他の法定分類における基本の特徴と如何に容易に組み合わせられ得るかを読み手は理解するであろう。

システムは、前のデコーダ隠れ状態と前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとに基づいて現在のデコーダ隠れ状態をさらに作成するデコーダＬＳＴＭ１８１４をさらに含む。

システムは、現在のデコーダ隠れ状態と前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとを非線形射影に射影する線形層と、スコア付けされる各位置を非線形射影と結合し、各結合を４つ以上の線形モデルを通じて処理して線形モデルのうち１つから最大出力を選択する第１のマックスアウト層と、スコア付けされる各位置について、第１のマックスアウト層の出力を４つ以上の線形モデルを通じて処理して線形モデルのうち１つから最大出力を選択する第２のマックスアウト層と、スコア付けされる各位置について、第１及び第２のマックスアウト層の出力を４つ以上の線形モデルを通じて処理して線形モデルのうち１つから最大出力を選択する第３のマックスアウト層とを通じて、ドキュメント内の位置についてドキュメント相互注目エンコーディングをさらに処理するハイウェイマックスアウトネットワークをさらに含む。

いくつかの実装において、終了条件は、現在推定された開始及び終了位置が前に推定された開始及び終了位置に一致したとき達せられてよい。他の実装において、終了条件は、最大の反復数が達せられたとき達せられてよい。

システムは、訓練例（training examples）を通じてのすべての反復にわたり開始及び終了位置の推定における累積損失を最小化することにより、ドキュメントエンコーダＬＳＴＭ１８０２、質問エンコーダＬＳＴＭ１８０４、相互注目エンコーダ双方向ＬＳＴＭ、デコーダＬＳＴＭ１８１４、及びハイウェイマックスアウトネットワークを訓練する訓練器１８２０をさらに含む。いくつかの実装において、累積損失は、逆伝播に基づくソフトマックス交差エントロピーを使用して訓練器により決定されてよい。

システムは、ａｒｇｍａｘモジュール１８１６による潜在的スコアのうち最大のスコアの選択に基づいて現在推定された開始及び終了位置をさらに生成するデコーダをさらに含む。

システムは、連結された入力をフォワード方向においてさらに処理してフォワード出力を作成し、連結された入力をバックワード方向においてさらに処理してリバース出力を作成し、フォワード及びリバース出力をさらに連結してドキュメント相互注目エンコーディングを作成する、相互注目エンコーダ双方向ＬＳＴＭをさらに含む。

他の実装が、上記で説明されたシステムの動作を実行するようプロセッサにより実行可能な命令を記憶した非一時的コンピュータ読取可能記憶媒体を含んでよい。

別の実装において、開示される技術は、相互注目質問応答システム（「動的相互注目ネットワーク（ＤＣＮ）１００」とも本明細書において呼ばれる）を含む。システムは、多数の並列プロセッサ上で動作する。システムは、質問に基づいてドキュメントを解析し、ドキュメントに基づいて質問に応答する。

システムは、ドキュメントエンコーダ長短期記憶（略称ＬＳＴＭ）１８０２及び質問エンコーダＬＳＴＭ１８０４により再帰的に作成されたドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定する隠れ状態比較器１１０を含む。いくつかの実装において、ドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアは、隠れ状態比較器により適用されるドット積又は双線形積を使用して決定されてよい。

システムは、ドキュメント対質問ワードごと言語類似度スコアを使用してドキュメント文脈エンコーディングに注目し、質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成する、ドキュメントエンコーディングミキサ１８０６を含む。

システムは、質問対ドキュメントワードごと言語類似度スコアを使用して質問文脈エンコーディングに注目し、ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成する、質問エンコーディングミキサ１８０８を含む。

システムは、質問対ドキュメントワードごと言語類似度スコアを使用してドキュメント文脈サマリに注目し、質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成する、再注目器１８１０を含む。

システムは、再注目ドキュメント文脈サマリと質問文脈サマリとドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成する、相互注目エンコーダ双方向ＬＳＴＭ（「相互注目エンコーダ１１６」とも本明細書において呼ばれる）を含む。

システムは、デコーダＬＳＴＭ１８１４及びハイウェイマックスアウトネットワーク（例えば、開始ハイウェイマックスアウトネットワーク１２０及び／又は終了ハイウェイマックスアウトネットワーク１２２）を使用してドキュメント相互注目エンコーディングを反復的に処理し、質問に応答するドキュメントフレーズを出力する、デコーダ（「デコーダニューラルネットワーク１１８」とも本明細書において呼ばれる）を含む。

第１のシステムの実装についてこの具体的な実装のセクション内で論じられる特徴の各々は、このシステムの実装に等しく適用される。上記で示されたように、すべてのシステムの特徴はここで繰り返されず、参照により繰り返されるとみなされるべきである。

さらに別の実装において、開示される技術は、質問に基づいてドキュメントを相互注目的に解析し、ドキュメントに基づいて質問に応答する方法を提示する。

方法は、ドキュメントエンコーダ長短期記憶（略称ＬＳＴＭ）１８０２及び質問エンコーダＬＳＴＭ１８０４により再帰的に作成されたドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定するステップを含む。

方法は、ドキュメント対質問ワードごと言語類似度スコアを使用してドキュメント文脈エンコーディングに注目し、質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成するステップを含む。

方法は、質問対ドキュメントワードごと言語類似度スコアを使用して質問文脈エンコーディングに注目し、ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成するステップを含む。

方法は、質問対ドキュメントワードごと言語類似度スコアを使用してドキュメント文脈サマリに注目し、質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成するステップを含む。

方法は、再注目ドキュメント文脈サマリと質問文脈サマリとドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成するステップを含む。

方法は、デコーダＬＳＴＭ１８１４及びハイウェイマックスアウトネットワーク（例えば、開始ハイウェイマックスアウトネットワーク１２０及び／又は終了ハイウェイマックスアウトネットワーク１２２）を使用してドキュメント相互注目エンコーディングを反復的に処理し、質問に応答するドキュメントフレーズを出力するステップを含む。

第１のシステムの実装についてこの具体的な実装のセクション内で論じられる特徴の各々は、この方法の実装に等しく適用される。上記で示されたように、すべてのシステムの特徴はここで繰り返されず、参照により繰り返されるとみなされるべきである。

他の実装が、上記で説明された方法を実行するようプロセッサにより実行可能な命令を記憶した非一時的コンピュータ読取可能記憶媒体（ＣＲＭ）を含んでよい。さらに別の実装が、メモリと、メモリに記憶され上記で説明された方法を実行するための命令を実行するよう動作可能な１つ以上のプロセッサと、を含むシステムを含んでよい。

一実装において、開示される技術は、相互注目質問応答システム（「動的相互注目ネットワーク（ＤＣＮ）１００」とも本明細書において呼ばれる）を含む。システムは、多数の並列プロセッサ上で動作する。システムは、ドキュメントに基づいて質問に応答する。

システムは、ワードのシーケンスについての文脈エンコーディングを発行するエンコーダ長短期記憶（略称ＬＳＴＭ）（「エンコーダニューラルネットワーク１０８」とも本明細書において呼ばれる）を含む。ドキュメント内のワードの第１のシーケンスに適用されたとき、エンコーダＬＳＴＭは、ドキュメントについての文脈エンコーディングの第１のシーケンスを生成する。質問内のワードの第２のシーケンスに適用されたとき、エンコーダＬＳＴＭは、質問についての文脈エンコーディングの第２のシーケンスに適用されるドキュメントについての文脈エンコーディングの第１のシーケンスを生成する。

システムは、第１及び第２のシーケンス内の文脈エンコーディング間の言語類似度を決定し、ペアごと言語類似度スコアを生成する、隠れ状態比較器１１０を含む。

システムは、１つの文脈エンコーディングについての、別の文脈エンコーディングのワードを条件とした文脈サマリシーケンスを発行する、エンコーディングミキサ１１４を含む。類似度スコアを使用して質問についての文脈エンコーディングの第２のシーケンスを条件としたドキュメントについての文脈エンコーディングの第１のシーケンスに適用されたとき、エンコーディングミキサ１１４は、質問ワードを条件としたドキュメントの第１の文脈サマリシーケンスを生成する。類似度スコアを使用してドキュメントについての文脈エンコーディングの第１のシーケンスを条件とした質問についての文脈エンコーディングの第２のシーケンスに適用されたとき、エンコーディングミキサ１１４は、ドキュメントワードを条件とした質問の第２の文脈サマリシーケンスを生成する。類似度スコアを使用してドキュメントについての文脈エンコーディングの第１のシーケンスを条件としたドキュメントの第１の文脈サマリシーケンスに再適用されたとき、エンコーディングミキサ１１４は、ドキュメントの第３の再注目文脈サマリシーケンスを生成する。

システムは、連結された入力及び前のドキュメント相互注目エンコーディングをフォワード及びリバース方向において再帰的に処理してドキュメント相互注目エンコーディングを作成する相互注目エンコーダ双方向ＬＳＴＭ（「相互注目エンコーダ１１６」とも本明細書において呼ばれる）を含む。連結された入力は、ドキュメントの第３の再注目文脈サマリシーケンス、質問の第２の文脈サマリシーケンス、及びドキュメントについての文脈エンコーディングの第１のシーケンスを含む。

システムは、ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとデコーダＬＳＴＭ１８１４の現在のデコーダ隠れ状態との結合をハイウェイマックスアウトネットワーク（例えば、開始ハイウェイマックスアウトネットワーク１２０及び／又は終了ハイウェイマックスアウトネットワーク１２２）を通じて反復的に処理して、潜在的開始位置と次いで潜在的終了位置とについてドキュメント相互注目エンコーディングをスコア付けする、デコーダ（「デコーダニューラルネットワーク１１８」とも本明細書において呼ばれる）を含む。デコーダは、ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択して、現在推定された開始及び終了位置を生成する。終了条件に達すると、デコーダは、質問に応答し且つ現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含む、ドキュメントフレーズを出力する。

開示される技術の方法の実装が、ドキュメントを読み出して理解しそれに基づいて質問に応答するためにマシンにより使用されるモデルを構築するステップを含む。ドキュメントを読み出して理解しドキュメントに基づいて質問に応答するこれらのステップは、動的相互注目ネットワーク（ＤＣＮ）１００の相互注目質問応答システムにおいて具現化される。

方法は、ドキュメント及び質問をワード埋め込み空間に埋め込むステップを含む。埋め込むこれらのステップは、ＤＣＮ１００の埋め込み器１０６により具現化される。

方法は、ドキュメント埋め込み及び質問埋め込みをエンコーダＬＳＴＭに提供してドキュメント文脈エンコーディング及び質問文脈エンコーディングを生成するステップを含む。ドキュメント文脈エンコーディングを生成するステップは、エンコーダニューラルネットワーク１０８のドキュメントエンコーダＬＳＴＭ１８０２により具現化される。質問文脈エンコーディングを生成するステップは、エンコーダニューラルネットワーク１０８の質問エンコーダＬＳＴＭ１８０４により具現化される。

方法は、ドキュメント及び質問の文脈エンコーディング間の言語類似度を算出してドキュメントごと及び質問ごとの次元を有するアフィニティ行列を生成するステップを含む。言語類似度埋め込みを算出するステップは、ＤＣＮ１００の隠れ状態比較器１１０により具現化される。

方法は、アフィニティ行列をドキュメントごと及び質問ごとに指数関数的に正規化してそれぞれのドキュメント対質問注目重み及び質問対ドキュメント注目重みを生成するステップを含む。指数関数的に正規化するステップは、ＤＣＮ１００の指数関数的正規化器１１２により具現化される。

方法は、ドキュメント文脈エンコーディングをドキュメント対質問注目重みと結合し、質問対ドキュメント注目重みとさらに結合して、ドキュメントの文脈サマリを作成するステップを含む。ドキュメントの文脈サマリを作成するステップは、エンコーディングミキサ１１４のドキュメントエンコーディングミキサ１８０６により具現化される。ドキュメントの改善文脈サマリを作成するステップは、エンコーディングミキサ１１４の再注目器１８１０により具現化される。

方法は、質問文脈エンコーディングを質問対ドキュメント注目重みと結合して質問の文脈サマリを作成するステップを含む。質問の文脈サマリを作成するステップは、エンコーディングミキサ１１４の質問エンコーディングミキサ１８０８により具現化される。

方法は、ドキュメント及び質問の文脈サマリとドキュメント文脈エンコーディングとを双方向ＬＳＴＭに提供して双方向ドキュメントごと相互注目エンコーディングを生成するステップを含む。双方向ドキュメントごと相互注目エンコーディングを生成するステップは、ＤＣＮ１００の連結器１８１２及び相互注目エンコーダ１１６により具現化される。

この方法の実装及び開示される他の方法は、以下の特徴のうち１つ以上を任意選択で含む。方法は、開示される方法と関連して説明される特徴を含んでもよい。簡潔さのために、方法の特徴の代替的な組み合わせは個々に列挙されない。方法、システム、及び製造品に適用可能な特徴は、基本の特徴の各法定分類セットについて繰り返されない。本セクションにおいて識別される特徴が他の法定分類における基本の特徴と如何に容易に組み合わせられ得るかを読み手は理解するであろう。

方法は、１つ以上の反復において双方向ドキュメントごと相互注目エンコーディングを解析してドキュメントごと隠れ状態を作成するステップをさらに含む。これは、第２の及び後続の反復の間、前に生成されたドキュメントごと隠れ状態並びに推定された開始及び終了位置についての直前の反復からの結果を考慮に入れる、デコーダＬＳＴＭ１８１４を使用することをさらに含む。方法は、別個の開始スコア付け及び終了スコア付け関数を適用することにより潜在的開始位置と次いで潜在的終了位置とをスコア付けするステップをさらに含む。方法は、ドキュメント内の潜在的開始及び終了位置についてドキュメントごと相互注目エンコーディングから生成されたスコアの中から選択して現在推定された開始及び終了位置を生成するステップをさらに含む。ドキュメント内の潜在的開始及び終了位置についてドキュメントごと相互注目エンコーディングから生成されたスコアの中から選択して現在推定された開始及び終了位置を生成するステップは、デコーダニューラルネットワーク１１８のａｒｇｍａｘモジュール１８１６により具現化される。

方法は、終了条件に達すると、質問に返答するドキュメント内のフレーズの現在推定された開始及び終了位置を出力するステップをさらに含む。質問に返答するドキュメント内のフレーズの現在推定された開始及び終了位置を出力するステップは、デコーダニューラルネットワーク１１８の出力生成器１８１８により具現化される。

終了条件は、フレーズの現在推定された開始及び終了位置が前に推定された開始及び終了位置に一致したとき達せられてよい。終了条件は、最大の反復数が達せられたとき達せられてよい。

別個のスコア付け関数は双方、直前の反復からのドキュメントごと隠れ状態と推定された開始及び終了位置とを非線形射影に射影する線形層と、スコア付けされる各位置を非線形射影と結合し、各結合を４つ以上の線形モデルを通じて処理し、線形モデルのうち１つから最大出力を選択する第１のマックスアウト層と、スコア付けされる各位置について、第１のマックスアウト層の出力を４つ以上の線形モデルを通じて処理し、線形モデルのうち１つから最大出力を選択する第２のマックスアウト層と、スコア付けされる各位置について、第１及び第２のマックスアウト層の出力を４つ以上の線形モデルを通じて処理し、線形モデルのうち１つから最大出力を選択する第３のマックスアウト層とを通じて、ドキュメント内の位置についてドキュメントごと相互注目エンコーディングを処理する、別個に訓練されたハイウェイマックスアウトネットワークに適用される。

方法は、訓練例を通じてのすべての反復にわたり開始及び終了位置の推定における累積損失を最小化することにより、エンコーダＬＳＴＭ、双方向ＬＳＴＭ、デコーダＬＳＴＭ、及びハイウェイマックスアウトネットワークを訓練するステップをさらに含む。累積損失は、ソフトマックス交差エントロピーを使用して決定されてよい。訓練するステップは、ＤＣＮ１００の訓練器１８２０により具現化される。

開示される技術のシステム実装は、ニューラルネットワークシステムを含む。

ニューラルネットワークシステムは、ドキュメント及び質問の文脈エンコーディングを作成するエンコーダニューラルネットワークを含む。

ニューラルネットワークシステムは、ドキュメント文脈エンコーディング及び質問文脈エンコーディング内の位置間の言語類似度解析を使用してアフィニティ行列を作成する隠れ状態比較器を含む。

ニューラルネットワークシステムは、アフィニティ行列をドキュメントごと及び質問ごとに正規化してそれぞれのドキュメント対質問注目重み及び質問対ドキュメント注目重みを生成する指数関数的正規化器を含む。

ニューラルネットワークシステムは、ドキュメント文脈エンコーディングをドキュメント対質問注目重みと結合し、質問対ドキュメント注目重みとさらに結合してドキュメントの文脈サマリを作成し、質問文脈エンコーディングを質問対ドキュメント注目重みと結合して質問の文脈サマリを作成する、エンコーディングミキサを含む。

ニューラルネットワークシステムは、ドキュメント及び質問の文脈サマリとドキュメント文脈エンコーディングとを入力として取得してドキュメントごと相互注目エンコーディングを生成する相互注目エンコーダを含む。

ニューラルネットワークシステムは、ドキュメントごと相互注目エンコーディングを解析してドキュメントごと隠れ状態を作成するデコーダニューラルネットワークを含む。デコーダニューラルネットワークは、第２の及び後続の反復の間、前に生成されたドキュメントごと隠れ状態並びに推定された開始及び終了位置についての直前の反復からの結果を考慮に入れる、デコーダＬＳＴＭをさらに使用する。デコーダニューラルネットワークは、別個の開始スコア付け及び終了スコア付け関数を適用することにより、潜在的開始位置と次いで潜在的終了位置とをスコア付けする。デコーダニューラルネットワークは、ドキュメント内の潜在的開始及び終了位置についてドキュメントごと相互注目エンコーディングから生成されたスコアの中から選択して、現在推定された開始及び終了位置を生成する。デコーダニューラルネットワークは、終了条件に達すると、質問に返答するドキュメント内のフレーズの現在推定された開始及び終了位置を出力する。

前の方法及びシステムの実装についてこの具体的な実装のセクション内で論じられる特徴の各々は、このシステムの実装に等しく適用される。上記で示されたように、すべての方法及びシステムの特徴はここで繰り返されず、参照により繰り返されるとみなされるべきである。

［コンピュータシステム］
図１９は、動的相互注目ネットワーク（ＤＣＮ）１００を実現するために使用できるコンピュータシステム１９００の簡略ブロック図である。コンピュータシステム１９００は、バスサブシステム１９２２を介して複数の周辺デバイスと通信する少なくとも１つの中央処理ユニット（ＣＰＵ）１９２４を含む。これらの周辺デバイスは、例えばメモリデバイス及びファイルストレージサブシステム１９１８を含むストレージサブシステム１９１０、ユーザインターフェース入力デバイス１９２０、ユーザインターフェース出力デバイス１９２８、及びネットワークインターフェースサブシステム１９２６を含んでよい。入力及び出力デバイスは、コンピュータシステム１９００とのユーザ相互作用を可能にする。ネットワークインターフェースサブシステム１９２６は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。

一実装において、ＤＣＮ１００は、ストレージサブシステム１９１０に、及びユーザインターフェース入力デバイス１９２０に通信可能にリンクされる。

ユーザインターフェース入力デバイス１９２０は、キーボードと、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイスと、スキャナと、ディスプレイに組み込まれたタッチスクリーンと、音声認識システム及びマイクロフォンなどのオーディオ入力デバイスと、他タイプの入力デバイスとを含んでよい。一般に、用語「入力デバイス」の使用は、情報をコンピュータシステム１９００に入力するためのすべての可能なタイプの装置及び方法を含むことが意図される。

ユーザインターフェース出力デバイス１９２８は、ディスプレイサブシステム、プリンタ、ファックスマシン、又はオーディオ出力デバイスなどの非視覚的ディスプレイを含んでよい。ディスプレイサブシステムは、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などのフラットパネルデバイス、投影デバイス、又は可視イメージを作り出す何らかの他の機構を含んでよい。ディスプレイサブシステムは、オーディオ出力デバイスなどの非視覚的ディスプレイを提供してもよい。一般に、用語「出力デバイス」の使用は、情報をコンピュータシステム１９００からユーザに又は別のマシン若しくはコンピュータシステムに対して出力するためのすべての可能なタイプの装置及び方法を含むことが意図される。

ストレージサブシステム１９１０は、本明細書で説明されるモジュール及び方法のいくつか又はすべての機能性を提供するプログラミング及びデータ構造を記憶する。これらのソフトウェアモジュールは、ディープラーニングプロセッサ１９３０により一般に実行される。

ディープラーニングプロセッサ１９３０は、グラフィックス処理ユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）であってよい。ディープラーニングプロセッサ１９３０は、Ｇｏｏｇｌｅ（登録商標）ＣｌｏｕｄＰｌａｔｆｏｒｍ^ＴＭ、Ｘｉｌｉｎｘ（登録商標）^ＴＭ、及びＣｉｒｒａｓｃａｌｅ^ＴＭなどのディープラーニングクラウドプラットフォームによりホストされてよい。ディープラーニングプロセッサ１９３０の例は、Ｇｏｏｇｌｅのテンソル処理ユニット（Tensor Processing Unit、ＴＰＵ）^ＴＭ、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ^ＴＭ、ＧＸ８ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ^ＴＭ、ＮＶＩＤＩＡ（登録商標）ＤＧＸ‐１^ＴＭのようなラックマウントソリューション、Ｍｉｃｒｏｓｏｆｔ（登録商標）のＳｔｒａｔｉｘＶＦＰＧＡ^ＴＭ、Ｇｒａｐｈｃｏｒｅのインテリジェントプロセッサユニット（Intelligent Processor Unit、ＩＰＵ）^ＴＭ、Ｑｕａｌｃｏｍｍ（登録商標）のＳｎａｐｄｒａｇｏｎ（登録商標）プロセッサ^ＴＭを有するＺｅｒｏｔｈＰｌａｔｆｏｒｍ^ＴＭ、ＮＶＩＤＩＡのＶｏｌｔａ^ＴＭ、ＮＶＩＤＩＡのＤＲＩＶＥＰＸ^ＴＭ、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ^ＴＭ、Ｉｎｔｅｌ（登録商標）のＮｉｒｖａｎａ^ＴＭ、ＭｏｖｉｄｉｕｓＶＰＵ^ＴＭ、Ｆｕｊｉｔｓｕ（登録商標）ＤＰＩ^ＴＭ、ＡＲＭのＤｙｎａｍｉｃＩＱ^ＴＭ、ＩＢＭＴｒｕｅＮｏｒｔｈ^ＴＭなどを含む。

ストレージサブシステム１９１０において使用されるメモリサブシステム１９１２は、プログラム実行の間の命令及びデータの記憶のためのメインランダムアクセスメモリ（ＲＡＭ）１９１４と固定の命令が記憶される読取専用メモリ（ＲＯＭ）１９１６とを含む、複数のメモリを含んでよい。ファイルストレージサブシステム１９１８は、プログラム及びデータファイルのための永続的ストレージを提供してよく、ハードディスクドライブ、関連づけられた取外し可能媒体を有するフロッピーディスクドライブ、ＣＤ‐ＲＯＭドライブ、光学ドライブ、又は取外し可能媒体カートリッジを含んでよい。特定の実装の機能性を実現するモジュールが、ストレージサブシステム１９１０に、又はプロセッサによりアクセス可能な他のマシンに、ファイルストレージサブシステム１９１８により記憶されてよい。

バスサブシステム１９２２は、コンピュータシステム１９００の様々なコンポーネント及びサブシステムに意図されたように互いに通信させる機構を提供する。バスサブシステム１９２２は単一のバスとして概略的に示されているが、バスサブシステムの代替的な実装が複数のバスを使用してよい。

コンピュータシステム１９００はそれ自体、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビジョン、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの広く分散されたセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む、様々なタイプのものであってよい。コンピュータ及びネットワークの常に変化する性質に起因して、図１９に表されるコンピュータシステム１９００の説明は、本発明の好適な実施例を示す目的で単に具体的な例として意図されている。図１９に表されるコンピュータシステムより多くの又は少ないコンポーネントを有する、コンピュータシステム１９００の多くの他の構成が可能である。

前述の説明は、開示される技術の創作及び使用を可能にするよう提示されている。開示の実装に対する様々な変更が明らかになり、本明細書で定義される一般的原理は、開示される技術の主旨及び範囲から逸脱することなく他の実装及び用途に適用され得る。ゆえに、開示される技術は、図示される実装に限定されることは意図されず、本明細書で開示される原理及び特徴に一致する最も広い範囲を与えられるべきである。開示される技術の範囲は、別記の特許請求の範囲により定義される。

Claims

複数の並列プロセッサ上で動作し、質問に基づいてドキュメントを解析し前記ドキュメントに基づいて前記質問に応答する相互注目質問応答システムであって、
ドキュメントワード埋め込み及び前のドキュメント文脈エンコーディングを複数の長短期記憶（略称ＬＳＴＭ）ゲートを通じて再帰的に処理し、ドキュメント文脈エンコーディングを作成するドキュメントエンコーダＬＳＴＭと、
質問ワード埋め込み及び前の質問文脈エンコーディングを前記ＬＳＴＭゲートを通じて再帰的に処理し、質問文脈エンコーディングを作成する質問エンコーダＬＳＴＭと、
ドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定する隠れ状態比較器と、
ドキュメント対質問ワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記ドキュメント文脈エンコーディングの凸結合としてドキュメント文脈サマリを作成するドキュメントエンコーディングミキサと、
質問対ドキュメントワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記質問文脈エンコーディングの凸結合として質問文脈サマリを作成する質問エンコーディングミキサと、
前記質問対ドキュメントワードベースで生成された前記指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記ドキュメント文脈サマリの凸結合として再注目ドキュメント文脈サマリを作成する再注目器と、
連結された入力及び前のドキュメント相互注目エンコーディングを複数のＬＳＴＭゲートを通じてフォワード及びリバース方向において再帰的に処理し、ドキュメント相互注目エンコーディングを作成する相互注目エンコーダ双方向ＬＳＴＭであり、前記連結された入力は、前記再注目ドキュメント文脈サマリ、前記質問文脈サマリ、及び前記ドキュメント文脈エンコーディングを含む、相互注目エンコーダ双方向ＬＳＴＭと、
前記ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとデコーダＬＳＴＭの現在のデコーダ隠れ状態との結合をハイウェイマックスアウトネットワークを通じて反復的に処理して潜在的開始位置と次いで潜在的終了位置とについて前記ドキュメント相互注目エンコーディングをスコア付けするデコーダと、
を含み、前記デコーダは、
前記ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択し、現在推定された開始及び終了位置を生成するａｒｇｍａｘモジュール、及び、
終了条件に達すると、前記質問に応答するドキュメントフレーズを出力する出力生成器であり、前記ドキュメントフレーズは前記現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含む、出力生成器、
をさらに含む、相互注目質問応答システム。
前のデコーダ隠れ状態と前に推定された開始及び終了位置における前記ドキュメント注目エンコーディングとに基づいて前記現在のデコーダ隠れ状態をさらに作成する前記デコーダＬＳＴＭ、をさらに含む請求項１に記載の相互注目質問応答システム。
前記現在のデコーダ隠れ状態と前に推定された開始及び終了位置における前記ドキュメント注目エンコーディングとを非線形射影に射影する線形層と、
スコア付けされる各位置を前記非線形射影と結合し、各結合を４つ以上の線形モデルを通じて処理して前記線形モデルのうち１つから最大出力を選択する第１のマックスアウト層と、
スコア付けされる各位置について、前記第１のマックスアウト層の出力を４つ以上の線形モデルを通じて処理して前記線形モデルのうち１つから最大出力を選択する第２のマックスアウト層と、
スコア付けされる各位置について、前記第１及び第２のマックスアウト層の出力を４つ以上の線形モデルを通じて処理して前記線形モデルのうち１つから最大出力を選択する第３のマックスアウト層と、
を通じて、前記ドキュメント内の位置について前記ドキュメント相互注目エンコーディングをさらに処理する前記ハイウェイマックスアウトネットワーク、をさらに含む請求項１乃至２のうちいずれか１項に記載の相互注目質問応答システム。
前記終了条件は、前記現在推定された開始及び終了位置が前記前に推定された開始及び終了位置に一致したとき達せられる、請求項１乃至３のうちいずれか１項に記載の相互注目質問応答システム。
前記終了条件は、最大の反復数が達せられたとき達せられる、請求項１乃至４のうちいずれか１項に記載の相互注目質問応答システム。
訓練例を通じてのすべての反復にわたり開始及び終了位置の推定における累積損失を最小化することにより、前記ドキュメントエンコーダＬＳＴＭと前記質問エンコーダＬＳＴＭと前記相互注目エンコーダ双方向ＬＳＴＭと前記デコーダＬＳＴＭと前記ハイウェイマックスアウトネットワークとを訓練する訓練器、をさらに含む請求項１乃至５のうちいずれか１項に記載の相互注目質問応答システム。
前記累積損失は、逆伝播に基づくソフトマックス交差エントロピーを使用して前記訓練器により決定される、請求項１乃至６のうちいずれか１項に記載の相互注目質問応答システム。
前記ドキュメント及び質問文脈エンコーディングのペア間の前記ペアごと言語類似度スコアは、前記隠れ状態比較器により適用されるドット積又は双線形積を使用して決定される、請求項１乃至７のうちいずれか１項に記載の相互注目質問応答システム。
前記ａｒｇｍａｘモジュールによる前記潜在的スコアのうち最大のスコアの選択に基づいて前記現在推定された開始及び終了位置をさらに生成する前記デコーダ、をさらに含む請求項１乃至８のうちいずれか１項に記載の相互注目質問応答システム。
前記連結された入力を前記フォワード方向においてさらに処理し、フォワード出力を作成し、前記連結された入力を前記バックワード方向においてさらに処理し、リバース出力を作成し、前記フォワード及びリバース出力をさらに連結して前記ドキュメント相互注目エンコーディングを作成する前記相互注目エンコーダ双方向ＬＳＴＭ、をさらに含む請求項１乃至９のうちいずれか１項に記載の相互注目質問応答システム。
複数の並列プロセッサ上で動作し、質問に基づいてドキュメントを解析し前記ドキュメントに基づいて前記質問に応答する相互注目質問応答システムであって、
ドキュメントエンコーダ長短期記憶（略称ＬＳＴＭ）及び質問エンコーダＬＳＴＭにより再帰的に作成されるドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定する隠れ状態比較器と、
ドキュメント対質問ワードごと言語類似度スコアを使用して前記ドキュメント文脈エンコーディングに注目し、前記質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成するドキュメントエンコーディングミキサと、
質問対ドキュメントワードごと言語類似度スコアを使用して前記質問文脈エンコーディングに注目し、前記ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成する質問エンコーディングミキサと、
前記質問対ドキュメントワードごと言語類似度スコアを使用して前記ドキュメント文脈サマリに注目し、前記質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成する再注目器と、
前記再注目ドキュメント文脈サマリと前記質問文脈サマリと前記ドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成する相互注目エンコーダＬＳＴＭと、
デコーダＬＳＴＭ及びハイウェイマックスアウトネットワークを使用して前記ドキュメント相互注目エンコーディングを反復的に処理し、前記質問に応答するドキュメントフレーズを出力するデコーダと、
を含む相互注目質問応答システム。
ドキュメントワード埋め込み及び前のドキュメント文脈エンコーディングを複数のＬＳＴＭゲートを通じてさらに再帰的に処理し、前記ドキュメント文脈エンコーディングを作成する前記ドキュメントエンコーダＬＳＴＭと、質問ワード埋め込み及び前の質問文脈エンコーディングを前記ＬＳＴＭゲートを通じてさらに再帰的に処理し、前記質問文脈エンコーディングを作成する前記質問エンコーダＬＳＴＭと、をさらに含む請求項１１に記載の相互注目質問応答システム。
ドキュメント対質問ワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記ドキュメント文脈エンコーディングの凸結合として前記ドキュメント文脈サマリをさらに作成する前記ドキュメントエンコーディングミキサ、をさらに含み、質問対ドキュメントワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記質問文脈エンコーディングの凸結合として前記質問文脈サマリをさらに作成する前記質問エンコーディングミキサ、をさらに含み、前記質問対ドキュメントワードベースで生成された前記指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記ドキュメント文脈サマリの凸結合として前記再注目ドキュメント文脈サマリをさらに作成する前記再注目器、をさらに含む請求項１１乃至１２のうちいずれか１項に記載の相互注目質問応答システム。
前記再注目ドキュメント文脈サマリと前記質問文脈サマリと前記ドキュメント文脈エンコーディングとの対応する要素を連結する連結器、をさらに含む請求項１１乃至１３のうちいずれか１項に記載の相互注目質問応答システム。
前記連結を前記フォワード方向においてさらに処理し、フォワード出力を作成し、前記連結を前記バックワード方向においてさらに処理し、リバース出力を作成し、前記フォワード及びリバース出力をさらに連結し、前記ドキュメント相互注目エンコーディングを作成する前記相互注目エンコーダ双方向ＬＳＴＭ、をさらに含む請求項１１乃至１４のうちいずれか１項に記載の相互注目質問応答システム。
前記ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングと前記デコーダＬＳＴＭの現在のデコーダ隠れ状態との結合を前記ハイウェイマックスアウトネットワークを通じて反復的に処理して潜在的開始位置と次いで潜在的終了位置とについて前記ドキュメント相互注目エンコーディングをスコア付けする前記デコーダ、をさらに含み、前記デコーダは、
前記ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択し、現在推定された開始及び終了位置を生成するａｒｇｍａｘモジュール、及び、
終了条件に達すると、前記現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含む前記ドキュメントフレーズを出力する出力生成器
をさらに含む、請求項１１乃至１５のうちいずれか１項に記載の相互注目質問応答システム。
前のデコーダ隠れ状態と前に推定された開始及び終了位置における前記ドキュメント注目エンコーディングとに基づいて前記現在のデコーダ隠れ状態をさらに作成する前記デコーダＬＳＴＭ、をさらに含む請求項１１乃至１６のうちいずれか１項に記載の相互注目質問応答システム。
前記現在のデコーダ隠れ状態と前に推定された開始及び終了位置における前記ドキュメント注目エンコーディングとを非線形射影に射影する線形層と、
スコア付けされる各位置を前記非線形射影と結合し、各結合を４つ以上の線形モデルを通じて処理して前記線形モデルのうち１つから最大出力を選択する第１のマックスアウト層と、
スコア付けされる各位置について、前記第１のマックスアウト層の出力を４つ以上の線形モデルを通じて処理して前記線形モデルのうち１つから最大出力を選択する第２のマックスアウト層と、
スコア付けされる各位置について、前記第１及び第２のマックスアウト層の出力を４つ以上の線形モデルを通じて処理して前記線形モデルのうち１つから最大出力を選択する第３のマックスアウト層と、
を通じて、前記ドキュメント内の位置について前記ドキュメント相互注目エンコーディングをさらに処理する前記ハイウェイマックスアウトネットワーク、をさらに含む請求項１１乃至１７のうちいずれか１項に記載の相互注目質問応答システム。
前記終了条件は、前記現在推定された開始及び終了位置が前記前に推定された開始及び終了位置に一致したとき達せられる、請求項１１乃至１８のうちいずれか１項に記載の相互注目質問応答システム。
前記終了条件は、最大の反復数が達せられたとき達せられる、請求項１１乃至１９のうちいずれか１項に記載の相互注目質問応答システム。
訓練例を通じてのすべての反復にわたり開始及び終了位置の推定における累積損失を最小化することにより、前記ドキュメントエンコーダＬＳＴＭと前記質問エンコーダＬＳＴＭと前記相互注目エンコーダ双方向ＬＳＴＭと前記デコーダＬＳＴＭと前記ハイウェイマックスアウトネットワークとを訓練する訓練器、をさらに含む請求項１１乃至２０のうちいずれか１項に記載の相互注目質問応答システム。
前記累積損失は、逆伝播に基づくソフトマックス交差エントロピーを使用して前記訓練器により決定される、請求項１１乃至２１のうちいずれか１項に記載の相互注目質問応答システム。
前記ドキュメント及び質問文脈エンコーディングのペア間の前記ペアごと言語類似度スコアは、前記隠れ状態比較器によりドット積を使用して決定される、請求項１１乃至２２のうちいずれか１項に記載の相互注目質問応答システム。
前記ａｒｇｍａｘモジュールの、前記潜在的スコアのうち最大のスコアの選択に基づいて、前記現在推定された開始及び終了位置をさらに生成する前記デコーダ、をさらに含む請求項１１乃至２３のうちいずれか１項に記載の相互注目質問応答システム。
質問に基づいてドキュメントを相互注目的に解析し前記ドキュメントに基づいて前記質問に応答する、コンピュータにより実現される方法であって、
ドキュメントエンコーダ長短期記憶（略称ＬＳＴＭ）及び質問エンコーダＬＳＴＭにより再帰的に作成されるドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定するステップと、
ドキュメント対質問ワードごと言語類似度スコアを使用して前記ドキュメント文脈エンコーディングに注目し、前記質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成するステップと、
質問対ドキュメントワードごと言語類似度スコアを使用して前記質問文脈エンコーディングに注目し、前記ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成するステップと、
質問対ドキュメントワードごと言語類似度スコアを使用して前記ドキュメント文脈サマリに注目し、前記質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成するステップと、
前記再注目ドキュメント文脈サマリと前記質問文脈サマリと前記ドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成するステップと、
デコーダＬＳＴＭ及びハイウェイマックスアウトネットワークを使用して前記ドキュメント相互注目エンコーディングを反復的に処理し、前記質問に応答するドキュメントフレーズを出力するステップと、
を含む方法。
質問に基づいてドキュメントを相互注目的に解析し前記ドキュメントに基づいて前記質問に応答するコンピュータプログラム命令を記憶させた非一時的コンピュータ読取可能記憶媒体であって、前記命令は、複数の並列プロセッサコア上で実行されたときに、
ドキュメントエンコーダ長短期記憶（略称ＬＳＴＭ）及び質問エンコーダＬＳＴＭにより再帰的に作成されるドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定するステップと、
ドキュメント対質問ワードごと言語類似度スコアを使用して前記ドキュメント文脈エンコーディングに注目し、前記質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成するステップと、
質問対ドキュメントワードごと言語類似度スコアを使用して前記質問文脈エンコーディングに注目し、前記ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成するステップと、
質問対ドキュメントワードごと言語類似度スコアを使用して前記ドキュメント文脈サマリに注目し、前記質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成するステップと、
前記再注目ドキュメント文脈サマリと前記質問文脈サマリと前記ドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成するステップと、
デコーダＬＳＴＭ及びハイウェイマックスアウトネットワークを使用して前記ドキュメント相互注目エンコーディングを反復的に処理し、前記質問に応答するドキュメントフレーズを出力するステップと、
を含む方法を実現する、媒体。
複数の並列プロセッサ上で動作する、ドキュメントに基づいて質問に応答する相互注目質問応答システムであって、
ワードのシーケンスについての文脈エンコーディングを発行し、前記ドキュメント内のワードの第１のシーケンスに適用され、前記質問内のワードの第２のシーケンスに適用され、前記ドキュメントについての文脈エンコーディングの第１のシーケンスを生成し、前記質問についての文脈エンコーディングの第２のシーケンスを生成するエンコーダ長短期記憶（略称ＬＳＴＭ）と、
前記第１及び第２のシーケンス内の前記文脈エンコーディング間の言語類似度を決定し、ペアごと言語類似度スコアを生成する隠れ状態比較器と、
１つの文脈エンコーディングについての、別の文脈エンコーディングのワードを条件とした文脈サマリシーケンスを発行し、前記類似度スコアを使用して前記質問についての前記文脈エンコーディングの第２のシーケンスを条件とした前記ドキュメントについての前記文脈エンコーディングの第１のシーケンスに適用されて、質問ワードを条件とした前記ドキュメントの第１の文脈サマリシーケンスを生成し、前記類似度スコアを使用して前記ドキュメントについての前記文脈エンコーディングの第１のシーケンスを条件とした前記質問についての前記文脈エンコーディングの第２のシーケンスに適用されて、ドキュメントワードを条件とした前記質問の第２の文脈サマリシーケンスを生成し、前記類似度スコアを使用して前記ドキュメントについての前記文脈エンコーディングの第１のシーケンスを条件とした前記ドキュメントの前記第１の文脈サマリシーケンスに再適用されて、前記ドキュメントの第３の再注目文脈サマリシーケンスを生成するエンコーディングミキサと、
連結された入力及び前のドキュメント相互注目エンコーディングをフォワード及びリバース方向において再帰的に処理してドキュメント相互注目エンコーディングを作成する相互注目エンコーダ双方向ＬＳＴＭであり、前記連結された入力は、前記ドキュメントの前記第３の再注目文脈サマリシーケンスと前記質問の前記第２の文脈サマリシーケンスと前記ドキュメントの前記文脈エンコーディングの第１のシーケンスとを含む、相互注目エンコーダ双方向ＬＳＴＭと、
前記ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとデコーダＬＳＴＭの現在のデコーダ隠れ状態との結合をハイウェイマックスアウトネットワークを通じて反復的に処理して潜在的開始位置と次いで潜在的終了位置とについて前記ドキュメント相互注目エンコーディングをスコア付けし、前記ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択して現在推定された開始及び終了位置を生成し、終了条件に達すると、前記質問に応答し且つ前記現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含むドキュメントフレーズを出力するデコーダと、
を含む相互注目質問応答システム。