JP2020501229A - 質問応答のための動的相互注目ネットワーク - Google Patents

質問応答のための動的相互注目ネットワーク Download PDF

Info

Publication number
JP2020501229A
JP2020501229A JP2019522932A JP2019522932A JP2020501229A JP 2020501229 A JP2020501229 A JP 2020501229A JP 2019522932 A JP2019522932 A JP 2019522932A JP 2019522932 A JP2019522932 A JP 2019522932A JP 2020501229 A JP2020501229 A JP 2020501229A
Authority
JP
Japan
Prior art keywords
document
encoding
context
question
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019522932A
Other languages
English (en)
Other versions
JP6873236B2 (ja
Inventor
ション,カイミング
ゾン,ヴィクター
ソーチャー,リチャード
Original Assignee
セールスフォース ドット コム インコーポレイティッド
セールスフォース ドット コム インコーポレイティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セールスフォース ドット コム インコーポレイティッド, セールスフォース ドット コム インコーポレイティッド filed Critical セールスフォース ドット コム インコーポレイティッド
Publication of JP2020501229A publication Critical patent/JP2020501229A/ja
Application granted granted Critical
Publication of JP6873236B2 publication Critical patent/JP6873236B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

開示される技術は、「動的相互注目ネットワーク(DCN)」と本願において呼ばれる、質問応答のためのエンドツーエンドニューラルネットワークに関する。大まかに説明すると、DCNは、いわゆる「相互注目エンコーディング」において質問とドキュメントとの間の相互作用を捕捉するエンコーダニューラルネットワーク及び相互注目エンコーダを含む。DCNは、相互注目エンコーディングを処理して質問に返答するドキュメント内のフレーズの開始及び終了位置を推定するデコーダニューラルネットワーク及びハイウェイマックスアウトネットワークをさらに含む。

Description

[他の出願の相互参照]
本出願は、2016年11月4日に出願された米国仮特許出願第62/417,332号「DYNAMIC COATTENTION NETWORKS FOR QUESTION ANSWERING」(Atty. Docket No. SALE 1179-1/1945PROV)の利益を主張する。この優先仮出願はすべての目的に対しここで参照により援用される。
本出願は、2016年11月4日に出願された米国仮特許出願第62/418,060号「DYNAMIC COATTENTION NETWORKS FOR QUESTION ANSWERING」(Atty. Docket No. SALE 1179-2/1945PROV2)の利益を主張する。この優先仮出願はすべての目的に対しここで参照により援用される。
本出願は、2017年1月31日に出願された米国非仮特許出願第15/421,193号「DYNAMIC COATTENTION NETWORK FOR QUESTION ANSWERING」(Atty. Docket No. SALE 1179-3/1945US)の利益を主張する。この優先非仮出願はすべての目的に対しここで参照により援用される。
[開示される技術の分野]
開示される技術はディープニューラルネットワークを使用する自然言語処理(NLP)に一般に関し、詳細には機械理解及び質問応答のためのエンドツーエンドニューラルネットワークアーキテクチャに関する。
本セクションで論じられる対象事項は、単に本セクションにおけるその言及の結果として従来技術であると仮定されるべきでない。同様に、本セクションで言及され又は背景技術として提供された対象事項に関連づけられる問題は、従来技術において前に認識されたことがあると仮定されるべきでない。本セクションにおける対象事項は異なる手法を表すに過ぎず、該手法これら自体もまた請求される技術の実装に対応し得る。
質問応答に関し、いくつかのディープラーニングモデルが提案されている。しかしながらこれらは、その単一パスの性質に起因して、誤った応答に対応する極大値から回復する方法を有さない。この問題に対処するために、開示される技術は、質問応答のためのいわゆる「動的相互注目ネットワーク(dynamic coattention network、DCN)」を提供する。DCNは、最初、質問及びドキュメントの相互依存表現を融合して双方の関連部分に焦点を当てる。次いで、DCNは、潜在的な応答スパンにわたり反復する。この反復的手順は、DCNが誤った応答に対応する初期極大値から回復することを可能にする。
スタンフォード質問応答データセット(Stanford Question Answering Dataset、SQuAD)データセット上で、単一のDCNモデルが、71.0%F1スコアから75.9%F1スコアまで前の最高水準より優れ、アンサンブルDCNモデルが、78.1%F1スコアから80.4%F1スコアまで前の最高水準より優れている。
図面において、同様の参照符号は異なる図を通して同様の部分を一般に参照する。また、図面は必ずしも縮尺どおりでなく、代わりに、開示される技術の原理を例示することに重点が一般に置かれる。以下の説明において、開示される技術の様々な実装が以下の図面を参照して説明される。
ドキュメントを読み出して理解し、それに基づいて質問に応答する動的相互注目ネットワーク(DCN)の態様を示す。 エンコーダニューラルネットワークを使用してドキュメント及び質問文脈エンコーディングを生成する一実装を示す。 図2のドキュメント及び質問文脈エンコーディング間の言語類似度を決定するアフィニティ行列を生成する隠れ状態比較器の一実装を表す。 図3のアフィニティ行列をドキュメントごとに正規化することによりドキュメント対質問注目重みを生成する一実装である。 図2のドキュメント文脈エンコーディングを図4のドキュメント対質問注目重みと結合することによりドキュメントの文脈サマリを作成する一実装を示す。 図3のアフィニティ行列を質問ごとに正規化することにより質問対ドキュメント注目重みを生成する一実装である。 図2の質問文脈エンコーディングを図6の質問対ドキュメント注目重みと結合することにより質問の文脈サマリを作成する一実装を示す。 図5のドキュメントの文脈サマリを図6の質問対ドキュメント注目重みと結合することによりドキュメントの改善文脈サマリを作成する一実装を表す。 図8のドキュメントの改善文脈サマリを図7の質問の文脈サマリと連結することによりドキュメントの相互依存表現を作成する一実装である。 図9のドキュメントの相互依存表現を図2のドキュメント文脈エンコーディングと連結することによりドキュメントの改善相互依存表現を作成する一実装を示す。 図10のドキュメントの改善相互依存表現を使用して双方向ドキュメントごと相互注目エンコーディングを生成する双方向相互注目エンコーダの一実装を示す。 質問に返答するドキュメント内のフレーズの開始及び終了位置を反復的に予測するデコーダニューラルネットワークの一実装を表す。 開始ハイウェイマックスアウトネットワークの一実装である。 終了ハイウェイマックスアウトネットワークの一実装である。 デコーダニューラルネットワークにより生成される開始及び終了条件付き分布の例である。 デコーダニューラルネットワークにより生成される開始及び終了条件付き分布の例である。 デコーダニューラルネットワークにより生成される開始及び終了条件付き分布の例である。 動的相互注目ネットワーク(DCN)を実装するために使用できる、前に説明されたコンポーネントのモジュールを示す。 DCNを実装するために使用できるコンピュータシステムの簡略ブロック図である。
以下の議論は、当業者が開示される技術を創作及び使用できるように提示され、特定の用途及びその要件の文脈において提供される。開示の実装に対する様々な変更が当業者に容易に明らかになり、本明細書で定義される一般的原理は、開示される技術の主旨及び範囲から逸脱することなく他の実装及び用途に適用され得る。ゆえに、開示される技術は図示される実装に限定されることは意図されず、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるべきである。
議論は以下のとおり編成される。まず、開示される技術の概観を提供する導入が提示される。次いで、開示される技術のエンコーダ及びその機能性が論じられる。次に、相互注目機構が論じられ、開示される技術のデコーダ及びその機能性が後に続く。最後、SQuADデータセットに対しての開示される技術の性能を示すいくつかの実験結果が提供される。
[導入]
質問応答(Question answering、QA)は、自然言語理解及び世界知識の双方を必要とする自然言語処理(natural language processing、NLP)において重要なタスクである。従前のQAデータセットは、人間の注釈に起因して品質が高く、しかしサイズが小さい傾向がある。ゆえに、これらは、ディープニューラルネットワークなどのデータ集中的な表現モデルを訓練することを許容しない。
この問題に対処するために、研究者は半自動化手法を通じて大規模データセットを開発した。それらのより小さい、手動注釈された相対物と比較して、これらQAデータセットはさらなる表現モデルの訓練を可能にする。しかしながら、これらは、質問に応答するために必要とされる推理のタイプにおいて、より自然な、人間により注釈されたデータセットと異なることが示されている。
近年リリースされたスタンフォード質問応答データセット(Stanford Question Answering Dataset、SQuAD)は、すべての従前の手動注釈されたデータセットより大きい規模であり、自然QAタスクにおいて最高に達する様々な特質を有する。SQuADは、Wikipedia記事のセットに対してクラウドワーカーにより提出された質問からなる。SQuADは、536個の記事に対して107,785個の質問応答ペアを含む。SQuADは、応答が参照ドキュメント内のスパン又はフレーズであるという望ましい特質を有する。これは、応答を参照ドキュメント内のすべての可能なスパンの空間に制約する。
開示される技術は、「動的相互注目ネットワーク(dynamic coattention network、DCN)」と本明細書において呼ばれる、質問応答のためのエンドツーエンドニューラルネットワークに関する。大まかに説明すると、DCNは、いわゆる「相互注目エンコーディング(coattention encoding)」において質問とドキュメントとの間の相互作用を捕捉するエンコーダニューラルネットワーク及び相互注目エンコーダ(coattentive encoder)を含む。DCNは、質問に返答するドキュメント内のフレーズの開始及び終了位置を推定するために相互注目エンコーディングを処理するデコーダニューラルネットワーク及びハイウェイマックスアウトネットワーク(highway maxout networks)を含む。
DCNは、ドキュメントに関する質問に自動的に応答する。文脈なしにドキュメントの単一の静的な表現を生成する代わりに、DCNは、質問に依存して別様にドキュメントを解釈する。すなわち、同じドキュメントを所与として、DCNは、質問(例えば、「どのチームがスーパーボウル50においてNFCを代表したか?」、「誰が第4クォーターでタッチダウンを得点したか?」)に依存して異なる理解を構築する。この条件付き解釈に基づいて、DCNは複数の応答を反復的に予測し、それが最初に誤誘導された予測を調整することを可能にする。
単一のモデル実装において、DCNは、71.0%F1スコアを有する従前の最高水準と比較して、SQuADデータセットに対して75.9%のF1スコアを達成する。アンサンブルモデル実装において、DCNは、78.1%F1スコアを有する従前の最高水準と比較して、SQuADデータセットに対して80.4%のF1スコアを達成する。
[動的相互注目ネットワーク]
図1は、ドキュメント102aを読み出して理解し、それに基づいて質問104aに応答する動的相互注目ネットワーク(DCN)100の態様を示す。ドキュメント102aは、ドキュメントデータベース102に記憶されている。質問104aは、質問データベース104に記憶されている。DCN100は、2つのタイプのコンポーネント、すなわち、エンコーディングコンポーネント(すなわち、エンコーダ)とデコーディングコンポーネント(すなわち、デコーダ)とを含む。DCN100のエンコーディングコンポーネントは、埋め込み器106、エンコーダニューラルネットワーク108、隠れ状態比較器110、指数関数的正規化器(exponential normalizer)112、エンコーディングミキサ114、及び相互注目エンコーダ116を含む。DCN100のデコーディングコンポーネントは、デコーダニューラルネットワーク118、開始ハイウェイマックスアウトネットワーク120、及び終了ハイウェイマックスアウトネットワーク122を含む。
図1におけるコンポーネントは、ハードウェア又はソフトウェアにおいて実現でき、図1に示されるのと正確に同じブロックで分割される必要はない。コンポーネントのいくつかが、異なるプロセッサ又はコンピュータ上で実現され、あるいは複数の異なるプロセッサ又はコンピュータ間で分散されてもよい。さらに、コンポーネントのいくつかが、達成される機能に影響することなく、組み合わせられ、並列に、又は図1に示されるシーケンスと異なるシーケンスで動作し得ることが十分理解されるであろう。さらに、本明細書で使用されるとき、用語「コンポーネント」は「サブコンポーネント」を含んでよく、サブコンポーネントはそれら自体、コンポーネントを構成すると本明細書において考えられてよい。例えば、埋め込み器106、エンコーダニューラルネットワーク108、隠れ状態比較器110、指数関数的正規化器112、エンコーディングミキサ114、及び相互注目エンコーダ116は、エンコーディングコンポーネントのサブコンポーネントであると本明細書において考えられてもよい。同様に、デコーダニューラルネットワーク118、開始ハイウェイマックスアウトネットワーク120、及び終了ハイウェイマックスアウトネットワーク122は、デコーディングコンポーネントのサブコンポーネントであると本明細書において考えられてもよい。さらに、エンコーディングコンポーネント及びデコーディングコンポーネントは、DCNコンポーネントのサブコンポーネントであると本明細書において考えられてもよい。さらに、図1におけるブロックは、方法におけるフローチャートステップと考えられてもよい。コンポーネント又はサブコンポーネントもまた、必ずしもすべてのそのコードをメモリに連続して配置させる必要はない。コードのいくつかの部分がコードの他の部分から分離され、他のコンポーネント若しくはサブコンポーネント又は他の機能からのコードが間に配置されてよい。
[埋め込み]
埋め込み器106は、ドキュメント102a及び質問104a内の各ワードを、「埋め込み空間(embedding space)」と本明細書において呼ばれる高次元ベクトル空間にマッピングする。一実装において、埋め込み器106は、埋め込み行列
Figure 2020501229
を使用してドキュメント102a内のm個のワードに対応するl次元ワードベクトルx ,x ,...,x のシーケンス202を作成し、ここで、vは語彙のサイズを表す。シーケンス202は、「ドキュメント埋め込み(document embedding)」と本明細書において呼ばれる。同じ埋め込み行列
Figure 2020501229
を使用し、埋め込み器106は、質問104a内のn個のワードに対応するl次元ワードベクトルx ,x ,...,x のシーケンス204をさらに作成する。シーケンス204は「質問埋め込み(question embedding)」と本明細書において呼ばれる。埋め込みのこれらステップは、DCN100の埋め込み器106により具現化される。
埋め込み行列
Figure 2020501229
を共有することにより、ドキュメント102a及び質問104aの双方が埋め込み空間の学習に関係し、互いからの恩恵を受ける。別の実装において、埋め込み器106は、ドキュメント102a及び質問104a内のあらゆるワードをワンホット(one-hot)表現に最初変換し、次いで、これらを共有された埋め込み行列
Figure 2020501229
を使用して連続的表現に変換する。さらに別の実装において、埋め込み器106は、GloVe及びword2vecのような事前訓練されたワード埋め込みモデルを使用してワード埋め込みを初期化して、ドキュメント102a及び質問104a内の各ワードの固定のワード埋め込みを取得する。他の実装において、埋め込み器106は、キャラクタ埋め込み及び/又はフレーズ埋め込みを作成する。
[文脈エンコーディング]
エンコーダニューラルネットワーク108は、文脈情報をドキュメント102a及び質問104a内の各ワードの表現に組み込むリカレントニューラルネットワーク(recurrent neural network、RNN)である。一実装において、エンコーダニューラルネットワーク108は、以下に示されるように、ドキュメント102aと質問104aとを別個に処理する標準の1方向の長短期記憶(Long Short-Term Memory、LSTM)ニューラルネットワークである。
Figure 2020501229
一例示的なLSTMニューラルネットワークが、http://arxiv.org/abs/1308.0850v5において入手可能な「Generating sequences with recurrent neural networks」、Alex Graves、においてより詳細に説明されている。他の実装において、エンコーダニューラルネットワーク108は、ゲート付きリカレントユニット(Gated Recurrent Unit、GRU)ニューラルネットワークである。
ドキュメントエンコーディング行列
Figure 2020501229
と、質問エンコーディング行列
Figure 2020501229
とは、ドキュメント102a及び質問104aの隠れ状態表現を生成し、ここで、lは隠れ状態ベクトルの次元数である。いくつかの実装において、ポインタセンチネルベクトル(pointer sentinel vectors)
Figure 2020501229
と、
Figure 2020501229
とが使用され、これらは、エンコーダニューラルネットワーク108が入力の中のいかなる特定のワードにも注目しないことを可能にする。ドキュメントエンコーディング空間及び質問エンコーディング空間の間のばらつきを許容するために、非線形射影層(non-linear projection layer)が質問エンコーディングに適用される。ゆえに、質問の最終的な表現は、
Figure 2020501229
になる。
エンコーディング行列を使用し、エンコーダニューラルネットワーク108は、ドキュメント埋め込み202に基づいてドキュメント102aについての隠れ状態ベクトルh ,h ,...,h を含む文脈エンコーディング212を作成し、質問埋め込み204に基づいて質問104aについての隠れ状態ベクトルh ,h ,...,h を含む文脈エンコーディング214を作成する。ドキュメント102aの文脈エンコーディング212は、「ドキュメントエンコーディング(document encoding)」と本明細書において呼ばれる。ドキュメント文脈エンコーディングを生成するステップは、エンコーダニューラルネットワーク108のドキュメントエンコーダLSTM1802により具現化される。質問104aの文脈エンコーディング214は「質問エンコーディング(question encoding)」と本明細書において呼ばれる。質問文脈エンコーディングを生成するステップは、エンコーダニューラルネットワーク108の質問エンコーダLSTM1804により具現化される。i番目の隠れ状態ベクトルh (例えば、h )は、ドキュメント102aのi番目のワード埋め込み(例えば、x )を、ドキュメント102aの先行するワード埋め込み(例えば、x 、x 、x )の隠れ状態ベクトル(例えば、h 、h 、h )からのいくらかの文脈情報と共に表す。同様に、i番目の隠れ状態ベクトルh (例えば、h )は、質問104aのi番目のワード埋め込み(例えば、x )を、質問104aの先行するワード埋め込み(例えば、x 、x )の隠れ状態ベクトル(例えば、h 、h )からのいくらかの文脈情報と共に表す。
[相互注目機構]
相互注目機構は、ドキュメント102a及び質問104aに同時に注目し、双方の注目文脈を最終的に融合する。隠れ状態比較器110は、ドット積を使用してドキュメントエンコーディング212及び質問エンコーディング214を比較し、以下に示されるように、ドキュメントごと及び質問ごとの次元を有するアフィニティ行列302を出力する。
Figure 2020501229
ここで、Lmnは、m番目のドキュメントワードとn番目の質問ワードとの間の言語類似度を示す。言語類似度埋め込みを算出するステップは、DCN100の隠れ状態比較器110により具現化される。
アフィニティ行列302は、ドキュメントワード及び質問ワードのすべてのペアに対応する、ドキュメント対質問(document-to-question)アフィニティスコア及び質問対ドキュメント(question-to-document)アフィニティスコアを識別する。ドキュメント対質問アフィニティスコアは、どの質問ワードが各ドキュメントワードに最も関連があるかを表す。質問対ドキュメントアフィニティスコアは、どのドキュメントワードが質問ワードのうち1つに最も近い類似度を有し、ゆえに質問に応答するのに重要であるかを表す。アフィニティ行列302において、ドキュメント102a内のあらゆるワードについてのドキュメント対質問アフィニティスコアが、その文脈エンコーディングと質問エンコーディング214とのドット積として識別される。アフィニティ行列302の転置行列において、質問104a内のあらゆるワードについての質問対ドキュメントアフィニティスコアが、その文脈エンコーディングとドキュメントエンコーディング212とのドット積として識別される。
指数関数的正規化器112は、行ごとソフトマックス関数402をドキュメント対質問アフィニティスコアに適用することによりアフィニティ行列302をドキュメントごとに正規化して、ドキュメント対質問注目重み(γ)404を生成する。指数関数的正規化器112はさらに、列ごとソフトマックス関数602を質問対ドキュメントアフィニティスコアに適用することによりアフィニティ行列302を質問ごとに正規化して、質問対ドキュメント注目重み(μ)604を生成する。指数関数的に正規化するステップは、DCN100の指数関数的正規化器112により具現化される。指数関数的に正規化されたドキュメント対質問注目重み(γ)404及び指数関数的に正規化された質問対ドキュメント注目重み(μ)604は、ドキュメントワード及び質問ワードのすべてのペア間のアフィニティスコアにより算出された言語類似度をエンコードする注目スカラである。アフィニティ行列302内の各列に沿ったドキュメントごと注目スカラAは、合計して1(unity)になる(例えば、γ 乃至γ )。アフィニティ行列302内の各行に沿った質問ごと注目スカラAは、合計して1(unity)になる(例えば、μ 乃至μ )。注目スカラは以下のように算出される。
Figure 2020501229
ここで、Lは、アフィニティ行列302の転置行列を表す。
エンコーディングミキサ114は、ドキュメント対質問注目重み(γ)404に依存してドキュメントエンコーディング212の加重和を算出する。すなわち、ドキュメントエンコーディング212は、アフィニティ行列302内のドキュメント対質問注目重み(γ)404の各列を要素ごとに乗算される。各々のドキュメントごと注目スカラ(例えば、γ 414)にドキュメントエンコーディング212内の対応する隠れ状態ベクトル(例えば、h 216)を乗算することにより、エンコーディングミキサ114は、質問に関してドキュメント102aの文脈サマリ(例えばC 512)を計算することにおける各ドキュメントワードの関与の度合いを決定する。ゆえに、ドキュメント102aの各文脈サマリベクトルC ,C ,...,C は、質問104aに関してドキュメント102a内の最も重要なワードの加重和を示す。ドキュメントの文脈サマリを作成するステップは、エンコーディングミキサ114のドキュメントエンコーディングミキサ1806により具現化される。
同様に、エンコーディングミキサ114は、質問対ドキュメント注目重み(μ)604
に依存して質問エンコーディング214の加重和を算出する。すなわち、質問エンコーディング214は、アフィニティ行列302内の質問対ドキュメント注目重み(μ)604の各行を要素ごとに乗算される。各々の質問ごと注目スカラ(例えば、μ 614)に質問エンコーディング214内の対応する隠れ状態ベクトル(例えば、h 218)を乗算することにより、エンコーディングミキサ114は、ドキュメント102aに関して質問104aの文脈サマリ(例えば、C 712)を計算することにおける各質問ワードの関与の度合いを決定する。ゆえに、質問104aの各文脈サマリベクトルC ,C ,...,C は、ドキュメント102aに関して質問104a内の最も重要なワードの加重和を示す。質問の文脈サマリを作成するステップは、エンコーディングミキサ114の質問エンコーディングミキサ1808により具現化される。
次いで、エンコーディングミキサ114は、質問対ドキュメント注目重み(μ)604に依存してドキュメント102aの文脈サマリC ,C ,...,C の加重和を算出する。すなわち、アフィニティ行列302内の質問対ドキュメント注目重み(μ)604の各行は、ドキュメント102aの文脈サマリC ,C ,...,C の各々を要素ごとに乗算される。各々の質問ごと注目スカラ(例えば、μ 614)にドキュメント102aの対応する文脈サマリ(例えば、C 512)を乗算することにより、エンコーディングミキサ114は、質問104aに関してドキュメント102aの改善した文脈サマリ(例えば、X 812)を計算することにおける各文脈サマリの関与の度合いを決定する。ゆえに、ドキュメント102aの、各々の改善文脈サマリベクトルX ,X ,...,X は、質問104aに関してドキュメント102aの最も重要な文脈サマリの加重和を示す。ドキュメントの改善した文脈サマリを作成するステップは、エンコーディングミキサ114の再注目器(reattender)1810により具現化される。
次いで、エンコーディングミキサ114は、ドキュメント102aの改善文脈サマリX ,X ,...,X を質問104aの文脈サマリC ,C ,...,C と連結し(concatenates)て、ドキュメント102aと質問104aとの相互依存表現を相互注目文脈Y=Y ,Y ,...,Y 902として作成し、ここで、各々の相互注目文脈ベクトルは2l個の次元数を有する。次に、より前の要約により引き起こされた情報損失を低減するために、エンコーディングミキサ114は、相互注目文脈Y 902(例えば、Y 912)をドキュメントエンコーディング212(例えば、h 216)と要素ごとに連結して、改善相互注目文脈Z ,Z ,...,Z 1002を生成し、ここで、各々の改善相互注目文脈ベクトルは3l個の次元数を有する。改善相互注目文脈Z 1002は、次いで、相互注目エンコーダ116に入力として提供される。双方向ドキュメントごと相互注目エンコーディングを生成するステップは、DCN100の連結器1812及び相互注目エンコーダ116により具現化される。
相互注目エンコーダ116は、改善相互注目文脈Z 1002の要素間の時間的相互作用を、要素をフォワード及びリバース方向において評価することと相互注目エンコーディングU 1102を生成することとにより融合する、双方向LSTMである。相互注目エンコーディングU 1102内の各要素(例えば、U 1102t)は、質問104aに関してエンコードされた対応するドキュメントワードを表す。相互注目エンコーディングU 1102は、以下のように定義される。
Figure 2020501229
ここで、相互注目エンコーディング
Figure 2020501229
であり、どれが最良の可能な応答であり得るか選択のための基礎を提供する。
[デコーディング]
SQuADの性質に起因して、応答スパンを生成する直感的な方法は、スパンの開始及び終了点を予測することによる。しかしながら、質問・ドキュメントペアを所与として、ドキュメント内にいくつかの直感的応答スパンが存在し、各々が極大値に対応する可能性がある。この問題に対処するために、DCN100は、反復的手法を使用して、ドキュメント内の応答スパンの開始及び終了点を予測することにより応答スパンを選択する。この反復的手順は、DCN100が、誤った応答スパンに対応する初期極大値から回復することを可能にする。
図12は、デコーダニューラルネットワーク118の例示を提供し、デコーダニューラルネットワーク118は、その状態がLSTMに基づく連続モデルにより維持される状態機械と同様である。各反復の間、デコーダニューラルネットワーク118は、その状態を開始及び終了位置の現在の推定に対応する相互注目エンコーディングを考慮して更新し、開始ハイウェイマックスアウトネットワーク120及び終了ハイウェイマックスアウトネットワーク122のような多層ニューラルネットワークを介して開始及び終了位置の新しい推定を生成する。
、s、及びeが、反復iの間のデコーダニューラルネットワーク118の隠れ状態、開始位置の推定、及び終了位置の推定を表すとする。次いで、デコーダニューラルネットワーク118の状態更新は、
Figure 2020501229
として記述され、ここで、
Figure 2020501229
及び、
Figure 2020501229
は、相互注目エンコーディングU 1102内の開始及び終了位置の前の推定に対応する表現である。
現在の隠れ状態hと、前の開始位置
Figure 2020501229
と、前の終了位置
Figure 2020501229
とを所与として、DCN100は、現在の開始位置及び終了位置を以下のように推定する。
Figure 2020501229
ここで、α及びβは、ドキュメント102a内のt番目のワードに対応する開始スコア及び終了スコアをあらわす。ドキュメント内の潜在的開始及び終了位置についてドキュメントごと相互注目エンコーディングから生成されたスコアの中から選択して現在推定された開始及び終了位置を生成することは、デコーダニューラルネットワーク118のargmaxモジュール1816により具現化される。
開始スコアαは、開始ハイウェイマックスアウトネットワーク120を使用して以下のように計算される。
Figure 2020501229
終了スコアβは、終了ハイウェイマックスアウトネットワーク122を使用して以下のように計算される。
Figure 2020501229
上記式において、uは、ドキュメント102a内のt番目のワードに対応する相互注目エンコーディングである。
ハイウェイマックスアウトネットワーク120及び122の双方が、入力として、多層パーセプトロン(例えば、1302、1402)を通じて現在の隠れ状態h、前の開始位置
Figure 2020501229
及び前の終了位置
Figure 2020501229
の非線形射影rを取得する。次いで、ネットワーク120及び122の第1のマックスアウト層(例えば、1304、1404)が、スコア付けされる各位置uを非線形射影と結合し、4つ以上の線形モデルを通じて各結合を処理し、線形モデルの1つから最大出力m (1)を選択する。次いで、ネットワーク120及び122の第2のマックスアウト層(例えば、1306、1406)が、スコア付けされる各位置uについて、4つ以上の線形モデルを通じて第1のマックスアウト層の出力を処理し、線形モデルの1つから最大出力m (2)を選択する。次いで、第3のマックスアウト層(例えば、1308、1408)が、スコア付けされる各位置uについて、4つ以上の線形モデルを通じて第1及び第2のマックスアウト層の出力を処理し、線形モデルの1つから最大出力
Figure 2020501229
を選択する。
ハイウェイマックスアウトネットワーク120及び122の処理は、以下のように記述される。
Figure 2020501229
ここで、
Figure 2020501229
は、パラメータ
Figure 2020501229
を有する現在の状態の非線形射影であり、m (l)は、パラメータ
Figure 2020501229
及び
Figure 2020501229
を有する第1のマックスアウト層の出力であり、m (2)は、パラメータ
Figure 2020501229
及び
Figure 2020501229
を有する第2のマックスアウト層の出力である。m (1)及びm (2)は、最終マックスアウト層に供給され、該マックスアウト層は、パラメータ
Figure 2020501229
及び
Figure 2020501229
を有する。pは、各マックスアウト層のプーリングサイズである。max演算は、テンソルの第1の次元にわたり最大値を計算する。さらに、第1のマックスアウト層の出力と最後のマックスアウト層との間にハイウェイ接続が存在する。
実装において、ハイウェイマックスアウトネットワーク120及び122は、同じアーキテクチャを共有するが異なるパラメータ及びハイパーパラメータである。質問に返答するドキュメント内のフレーズの現在推定された開始及び終了位置を出力するステップは、デコーダニューラルネットワーク118の出力生成器1818により具現化される。
DCN100を訓練するために、開始及び終了点の累積的ソフトマックス交差エントロピーがすべての反復にわたり最小化される。反復的手順は、開始位置の推定と終了位置の推定との双方がもはや変化しないとき、又は最大の反復数が達せられたとき、停止する。訓練するステップは、DCN100の訓練器1820により具現化される。
開示される技術の他の実装が、指数関数的正規化器と異なる、該正規化器に追加で、及び/又は該正規化器と組み合わせで正規化器を使用することを含む。いくつかの例が、シグモイドに基づく正規化器(例えば、マルチクラスシグモイド、区分ランプ)、双曲線正接に基づく正規化器、正規化線形ユニット(rectified linear unit、ReLU)に基づく正規化器、識別に基づく正規化器、ロジスティックに基づく正規化器、正弦に基づく正規化器、余弦に基づく正規化器、ユニット和(unit sum)に基づく正規化器、及びステップに基づく正規化器を含む。他の例が、階層ソフトマックス(hierarchical softmax)、差別化ソフトマックス(differentiated softmax)、重点サンプリング(importance sampling)、雑音対比推定(noise contrastive estimation)、ネガティブサンプリング(negative sampling)、ゲート付きソフトマックス(gated softmax)、球形ソフトマックス(spherical softmax)、テイラーソフトマックス(Taylor softmax)、及びスパースマックス(sparsemax)を含む。さらに他の実装において、任意の他の従来の又は将来開発される正規化器が使用されてよい。
[実験結果]
図15〜17は、デコーダニューラルネットワーク118により生成された開始及び終了条件付き分布の例である。図15〜17において、奇数(青)行は開始分布を表し、偶数(赤)行は終了分布を表す。iはデコーダニューラルネットワーク118の反復数を示す。より高い確率質量がより暗い領域で示されている。最も高い確率質量を有するワードに対応するオフセットが右手側に示されている。予測されたスパンが赤で下線を引かれ、グラウンドトルース応答スパンが緑で下線を引かれている。
例えば、図15における質問1は、モデルが誤った開始点と正しい終了点とを最初に示唆する例を示す。後続の反復において、DCN100は開始点を調整し、最終的に反復3において正しい開始点に到着する。同様に、モデルは終了点についての確率質量を正しいワードに徐々にシフトする。
図16における質問2は、開始及び終了双方の推定が最初誤っている例を示す。次いで、デコーダニューラルネットワーク118の反復的性質が、DCN100が誤った応答に対応する初期極大値を逃れることを可能にする間、DCN100は次の反復において正しい応答に落ち着く。図17における質問3は、DCN100がいくつかの反復にもかかわらず複数の極大値間で判断することができない場合を示す。すなわち、DCN100は、応答「charged particle beam」と「particle beam weapons」との間で無限に交互に繰り返す。
[具体的な実装]
質問に基づいてドキュメントを相互注目的に(coattentively)解析し、ドキュメントに基づいて質問に応答するシステム、方法、及び製造品を我々は説明する。実装の1つ以上の特徴が、基本の実装と組み合わせられてよい。相互排他的でない実装は、結合可能であることが教示される。実装の1つ以上の特徴が、他の実装と組み合わせられてよい。本開示は、これらの選択肢をユーザに周期的に注意する。これらの選択肢を繰り返す記載の、いくつかの実装からの省略は、前のセクションにおいて教示された組み合わせを制限するものとみなされるべきでない。これらの記載は、以後参照により以下の実装の各々にここで援用される。
図18は、動的相互注目ネットワーク(DCN)100(「相互注目質問応答システム(coattentive question answering system)」とも本明細書において呼ばれる)を実現するために使用できる前述されたコンポーネントのモジュールを示す。DCN100の前述されたモジュール又はコンポーネント、例えば埋め込み器106、エンコーダニューラルネットワーク108、隠れ状態比較器110、指数関数的正規化器112、エンコーディングミキサ114、相互注目エンコーダ116、デコーダニューラルネットワーク118、開始ハイウェイマックスアウトネットワーク120、及び終了ハイウェイマックスアウトネットワーク122などは、代わりに、その動作の原理又はDCN100を変更することなくより小さいモジュール化されたモジュール又はコンポーネントを使用して説明できる。
図18におけるモジュールは、ハードウェア又はソフトウェアにおいて実現でき、図18に示されるのと正確に同じブロックで分割される必要はない。モジュールのいくつかが、異なるプロセッサ又はコンピュータ上で実現され、あるいは複数の異なるプロセッサ又はコンピュータ間で分散されてもよい。さらに、モジュールのいくつかが、達成される機能に影響することなく、組み合わせられ、並列に、又は図18に示されるシーケンスと異なるシーケンスで動作し得ることが十分理解されるであろう。さらに、本明細書で使用されるとき、用語「モジュール」は「サブモジュール」を含んでよく、サブモジュールはそれら自体、モジュールを構成すると本明細書において考えられてよい。例えば、ドキュメントエンコーダLSTM1802及び質問エンコーダLSTM1804は、エンコーダニューラルネットワーク108(「エンコーダLSTM」又は「エンコーダ」とも本明細書において呼ばれる)のサブモジュールであると本明細書において考えられてよい。一実装において、ドキュメントエンコーダLSTM1802及び質問エンコーダLSTM1804は2つの別個のLSTMでないが、ドキュメントとドキュメントに基づく質問とに別個に適用される同じ単一のLSTMである。いくつかの実装において、こうした同じ単一のLSTMが、ドキュメントとドキュメントに基づく質問との同時エンコーディングのために、ドキュメントエンコーダLSTM1802及び質問エンコーダLSTM1804を形成するように複製されてよい。別の例において、ドキュメントエンコーディングミキサ1806、質問エンコーディングミキサ1808、及び再注目器1810が、エンコーディングミキサ114のサブモジュールであると本明細書において考えられてよい。別の例において、デコーダLSTM、argmaxモジュール1816、及び出力生成器1818が、デコーダニューラルネットワーク118(「デコーダ」とも本明細書において呼ばれる)のサブモジュールであると本明細書において考えられてよい。モジュールとして指定される、図18におけるブロックは、方法におけるフローチャートステップと考えられてもよい。モジュールもまた、必ずしもすべてのそのコードをメモリに連続して配置させる必要はない。コードのいくつかの部分がコードの他の部分から分離され、他のモジュール又は他の機能からのコードが間に配置されてよい。
一実装において、開示される技術は、相互注目質問応答システム(「動的相互注目ネットワーク(DCN)100」とも本明細書において呼ばれる)を含む。システムは、多数の並列プロセッサ上で動作する。システムは、質問に基づいてドキュメントを解析し、ドキュメントに基づいて質問に応答する。
システムは、ドキュメントワード埋め込み及び前のドキュメント文脈エンコーディングを複数の長短期記憶(略称LSTM)ゲートを通じて再帰的に(recurrently)処理し、ドキュメント文脈エンコーディングを作成する、ドキュメントエンコーダLSTM1802を含む。
システムは、質問ワード埋め込み及び前の質問文脈エンコーディングをLSTMゲートを通じて再帰的に処理し、質問文脈エンコーディングを作成する、質問エンコーダLSTM1804を含む。
システムは、ドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定する隠れ状態比較器を含む。いくつかの実装において、ドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアは、隠れ状態比較器により適用されるドット積又は双線形積を使用して決定されてよい。
システムは、ドキュメント対質問ワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされたドキュメント文脈エンコーディングの凸結合としてドキュメント文脈サマリを作成するドキュメントエンコーディングミキサ1806を含む。
システムは、質問対ドキュメントワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた質問文脈エンコーディングの凸結合として質問文脈サマリを作成する質問エンコーディングミキサ1808を含む。
システムは、質問対ドキュメントワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされたドキュメント文脈サマリの凸結合として再注目(reattended)ドキュメント文脈サマリを作成する再注目器1810を含む。
システムは、連結された入力及び前のドキュメント相互注目エンコーディングを複数のLSTMゲートを通じてフォワード及びリバース方向において再帰的に処理し、ドキュメント相互注目エンコーディングを作成する、相互注目エンコーダ双方向LSTM(「相互注目エンコーダ116」とも本明細書において呼ばれる)を含む。いくつかの実装において、連結された入力は、再注目ドキュメント文脈サマリ、質問文脈サマリ、及びドキュメント文脈エンコーディングを含む。システムは、再注目ドキュメント文脈サマリと質問文脈サマリとドキュメント文脈エンコーディングとの対応する要素を連結する連結器1812をさらに含む。
システムは、ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとデコーダLSTM1814の現在のデコーダ隠れ状態との結合をハイウェイマックスアウトネットワーク(例えば、開始ハイウェイマックスアウトネットワーク120及び/又は終了ハイウェイマックスアウトネットワーク122)を通じて反復的に処理して、潜在的開始位置と次いで潜在的終了位置とについてドキュメント相互注目エンコーディングをスコア付けする、デコーダ(「デコーダニューラルネットワーク118」とも本明細書において呼ばれる)を含む。
デコーダは、ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択し、現在推定された開始及び終了位置を生成する、argmaxモジュール1816をさらに含む。デコーダは、終了条件に達すると質問に応答するドキュメントフレーズを出力する出力生成器1818をさらに含む。ドキュメントフレーズは、現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含む。
このシステムの実装及び開示される他のシステムは、以下の特徴のうち1つ以上を任意選択で含む。システムは、開示される方法と関連して説明される特徴を含んでもよい。簡潔さのために、システムの特徴の代替的な組み合わせは個々に列挙されない。システム、方法、及び製造品に適用可能な特徴は、基本の特徴の各法定分類セットについて繰り返されない。本セクションにおいて識別される特徴が他の法定分類における基本の特徴と如何に容易に組み合わせられ得るかを読み手は理解するであろう。
システムは、前のデコーダ隠れ状態と前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとに基づいて現在のデコーダ隠れ状態をさらに作成するデコーダLSTM1814をさらに含む。
システムは、現在のデコーダ隠れ状態と前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとを非線形射影に射影する線形層と、スコア付けされる各位置を非線形射影と結合し、各結合を4つ以上の線形モデルを通じて処理して線形モデルのうち1つから最大出力を選択する第1のマックスアウト層と、スコア付けされる各位置について、第1のマックスアウト層の出力を4つ以上の線形モデルを通じて処理して線形モデルのうち1つから最大出力を選択する第2のマックスアウト層と、スコア付けされる各位置について、第1及び第2のマックスアウト層の出力を4つ以上の線形モデルを通じて処理して線形モデルのうち1つから最大出力を選択する第3のマックスアウト層とを通じて、ドキュメント内の位置についてドキュメント相互注目エンコーディングをさらに処理するハイウェイマックスアウトネットワークをさらに含む。
いくつかの実装において、終了条件は、現在推定された開始及び終了位置が前に推定された開始及び終了位置に一致したとき達せられてよい。他の実装において、終了条件は、最大の反復数が達せられたとき達せられてよい。
システムは、訓練例(training examples)を通じてのすべての反復にわたり開始及び終了位置の推定における累積損失を最小化することにより、ドキュメントエンコーダLSTM1802、質問エンコーダLSTM1804、相互注目エンコーダ双方向LSTM、デコーダLSTM1814、及びハイウェイマックスアウトネットワークを訓練する訓練器1820をさらに含む。いくつかの実装において、累積損失は、逆伝播に基づくソフトマックス交差エントロピーを使用して訓練器により決定されてよい。
システムは、argmaxモジュール1816による潜在的スコアのうち最大のスコアの選択に基づいて現在推定された開始及び終了位置をさらに生成するデコーダをさらに含む。
システムは、連結された入力をフォワード方向においてさらに処理してフォワード出力を作成し、連結された入力をバックワード方向においてさらに処理してリバース出力を作成し、フォワード及びリバース出力をさらに連結してドキュメント相互注目エンコーディングを作成する、相互注目エンコーダ双方向LSTMをさらに含む。
他の実装が、上記で説明されたシステムの動作を実行するようプロセッサにより実行可能な命令を記憶した非一時的コンピュータ読取可能記憶媒体を含んでよい。
別の実装において、開示される技術は、相互注目質問応答システム(「動的相互注目ネットワーク(DCN)100」とも本明細書において呼ばれる)を含む。システムは、多数の並列プロセッサ上で動作する。システムは、質問に基づいてドキュメントを解析し、ドキュメントに基づいて質問に応答する。
システムは、ドキュメントエンコーダ長短期記憶(略称LSTM)1802及び質問エンコーダLSTM1804により再帰的に作成されたドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定する隠れ状態比較器110を含む。いくつかの実装において、ドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアは、隠れ状態比較器により適用されるドット積又は双線形積を使用して決定されてよい。
システムは、ドキュメント対質問ワードごと言語類似度スコアを使用してドキュメント文脈エンコーディングに注目し、質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成する、ドキュメントエンコーディングミキサ1806を含む。
システムは、質問対ドキュメントワードごと言語類似度スコアを使用して質問文脈エンコーディングに注目し、ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成する、質問エンコーディングミキサ1808を含む。
システムは、質問対ドキュメントワードごと言語類似度スコアを使用してドキュメント文脈サマリに注目し、質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成する、再注目器1810を含む。
システムは、再注目ドキュメント文脈サマリと質問文脈サマリとドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成する、相互注目エンコーダ双方向LSTM(「相互注目エンコーダ116」とも本明細書において呼ばれる)を含む。
システムは、デコーダLSTM1814及びハイウェイマックスアウトネットワーク(例えば、開始ハイウェイマックスアウトネットワーク120及び/又は終了ハイウェイマックスアウトネットワーク122)を使用してドキュメント相互注目エンコーディングを反復的に処理し、質問に応答するドキュメントフレーズを出力する、デコーダ(「デコーダニューラルネットワーク118」とも本明細書において呼ばれる)を含む。
第1のシステムの実装についてこの具体的な実装のセクション内で論じられる特徴の各々は、このシステムの実装に等しく適用される。上記で示されたように、すべてのシステムの特徴はここで繰り返されず、参照により繰り返されるとみなされるべきである。
他の実装が、上記で説明されたシステムの動作を実行するようプロセッサにより実行可能な命令を記憶した非一時的コンピュータ読取可能記憶媒体を含んでよい。
さらに別の実装において、開示される技術は、質問に基づいてドキュメントを相互注目的に解析し、ドキュメントに基づいて質問に応答する方法を提示する。
方法は、ドキュメントエンコーダ長短期記憶(略称LSTM)1802及び質問エンコーダLSTM1804により再帰的に作成されたドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定するステップを含む。
方法は、ドキュメント対質問ワードごと言語類似度スコアを使用してドキュメント文脈エンコーディングに注目し、質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成するステップを含む。
方法は、質問対ドキュメントワードごと言語類似度スコアを使用して質問文脈エンコーディングに注目し、ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成するステップを含む。
方法は、質問対ドキュメントワードごと言語類似度スコアを使用してドキュメント文脈サマリに注目し、質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成するステップを含む。
方法は、再注目ドキュメント文脈サマリと質問文脈サマリとドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成するステップを含む。
方法は、デコーダLSTM1814及びハイウェイマックスアウトネットワーク(例えば、開始ハイウェイマックスアウトネットワーク120及び/又は終了ハイウェイマックスアウトネットワーク122)を使用してドキュメント相互注目エンコーディングを反復的に処理し、質問に応答するドキュメントフレーズを出力するステップを含む。
第1のシステムの実装についてこの具体的な実装のセクション内で論じられる特徴の各々は、この方法の実装に等しく適用される。上記で示されたように、すべてのシステムの特徴はここで繰り返されず、参照により繰り返されるとみなされるべきである。
他の実装が、上記で説明された方法を実行するようプロセッサにより実行可能な命令を記憶した非一時的コンピュータ読取可能記憶媒体(CRM)を含んでよい。さらに別の実装が、メモリと、メモリに記憶され上記で説明された方法を実行するための命令を実行するよう動作可能な1つ以上のプロセッサと、を含むシステムを含んでよい。
一実装において、開示される技術は、相互注目質問応答システム(「動的相互注目ネットワーク(DCN)100」とも本明細書において呼ばれる)を含む。システムは、多数の並列プロセッサ上で動作する。システムは、ドキュメントに基づいて質問に応答する。
システムは、ワードのシーケンスについての文脈エンコーディングを発行するエンコーダ長短期記憶(略称LSTM)(「エンコーダニューラルネットワーク108」とも本明細書において呼ばれる)を含む。ドキュメント内のワードの第1のシーケンスに適用されたとき、エンコーダLSTMは、ドキュメントについての文脈エンコーディングの第1のシーケンスを生成する。質問内のワードの第2のシーケンスに適用されたとき、エンコーダLSTMは、質問についての文脈エンコーディングの第2のシーケンスに適用されるドキュメントについての文脈エンコーディングの第1のシーケンスを生成する。
システムは、第1及び第2のシーケンス内の文脈エンコーディング間の言語類似度を決定し、ペアごと言語類似度スコアを生成する、隠れ状態比較器110を含む。
システムは、1つの文脈エンコーディングについての、別の文脈エンコーディングのワードを条件とした文脈サマリシーケンスを発行する、エンコーディングミキサ114を含む。類似度スコアを使用して質問についての文脈エンコーディングの第2のシーケンスを条件としたドキュメントについての文脈エンコーディングの第1のシーケンスに適用されたとき、エンコーディングミキサ114は、質問ワードを条件としたドキュメントの第1の文脈サマリシーケンスを生成する。類似度スコアを使用してドキュメントについての文脈エンコーディングの第1のシーケンスを条件とした質問についての文脈エンコーディングの第2のシーケンスに適用されたとき、エンコーディングミキサ114は、ドキュメントワードを条件とした質問の第2の文脈サマリシーケンスを生成する。類似度スコアを使用してドキュメントについての文脈エンコーディングの第1のシーケンスを条件としたドキュメントの第1の文脈サマリシーケンスに再適用されたとき、エンコーディングミキサ114は、ドキュメントの第3の再注目文脈サマリシーケンスを生成する。
システムは、連結された入力及び前のドキュメント相互注目エンコーディングをフォワード及びリバース方向において再帰的に処理してドキュメント相互注目エンコーディングを作成する相互注目エンコーダ双方向LSTM(「相互注目エンコーダ116」とも本明細書において呼ばれる)を含む。連結された入力は、ドキュメントの第3の再注目文脈サマリシーケンス、質問の第2の文脈サマリシーケンス、及びドキュメントについての文脈エンコーディングの第1のシーケンスを含む。
システムは、ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとデコーダLSTM1814の現在のデコーダ隠れ状態との結合をハイウェイマックスアウトネットワーク(例えば、開始ハイウェイマックスアウトネットワーク120及び/又は終了ハイウェイマックスアウトネットワーク122)を通じて反復的に処理して、潜在的開始位置と次いで潜在的終了位置とについてドキュメント相互注目エンコーディングをスコア付けする、デコーダ(「デコーダニューラルネットワーク118」とも本明細書において呼ばれる)を含む。デコーダは、ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択して、現在推定された開始及び終了位置を生成する。終了条件に達すると、デコーダは、質問に応答し且つ現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含む、ドキュメントフレーズを出力する。
開示される技術の方法の実装が、ドキュメントを読み出して理解しそれに基づいて質問に応答するためにマシンにより使用されるモデルを構築するステップを含む。ドキュメントを読み出して理解しドキュメントに基づいて質問に応答するこれらのステップは、動的相互注目ネットワーク(DCN)100の相互注目質問応答システムにおいて具現化される。
方法は、ドキュメント及び質問をワード埋め込み空間に埋め込むステップを含む。埋め込むこれらのステップは、DCN100の埋め込み器106により具現化される。
方法は、ドキュメント埋め込み及び質問埋め込みをエンコーダLSTMに提供してドキュメント文脈エンコーディング及び質問文脈エンコーディングを生成するステップを含む。ドキュメント文脈エンコーディングを生成するステップは、エンコーダニューラルネットワーク108のドキュメントエンコーダLSTM1802により具現化される。質問文脈エンコーディングを生成するステップは、エンコーダニューラルネットワーク108の質問エンコーダLSTM1804により具現化される。
方法は、ドキュメント及び質問の文脈エンコーディング間の言語類似度を算出してドキュメントごと及び質問ごとの次元を有するアフィニティ行列を生成するステップを含む。言語類似度埋め込みを算出するステップは、DCN100の隠れ状態比較器110により具現化される。
方法は、アフィニティ行列をドキュメントごと及び質問ごとに指数関数的に正規化してそれぞれのドキュメント対質問注目重み及び質問対ドキュメント注目重みを生成するステップを含む。指数関数的に正規化するステップは、DCN100の指数関数的正規化器112により具現化される。
方法は、ドキュメント文脈エンコーディングをドキュメント対質問注目重みと結合し、質問対ドキュメント注目重みとさらに結合して、ドキュメントの文脈サマリを作成するステップを含む。ドキュメントの文脈サマリを作成するステップは、エンコーディングミキサ114のドキュメントエンコーディングミキサ1806により具現化される。ドキュメントの改善文脈サマリを作成するステップは、エンコーディングミキサ114の再注目器1810により具現化される。
方法は、質問文脈エンコーディングを質問対ドキュメント注目重みと結合して質問の文脈サマリを作成するステップを含む。質問の文脈サマリを作成するステップは、エンコーディングミキサ114の質問エンコーディングミキサ1808により具現化される。
方法は、ドキュメント及び質問の文脈サマリとドキュメント文脈エンコーディングとを双方向LSTMに提供して双方向ドキュメントごと相互注目エンコーディングを生成するステップを含む。双方向ドキュメントごと相互注目エンコーディングを生成するステップは、DCN100の連結器1812及び相互注目エンコーダ116により具現化される。
この方法の実装及び開示される他の方法は、以下の特徴のうち1つ以上を任意選択で含む。方法は、開示される方法と関連して説明される特徴を含んでもよい。簡潔さのために、方法の特徴の代替的な組み合わせは個々に列挙されない。方法、システム、及び製造品に適用可能な特徴は、基本の特徴の各法定分類セットについて繰り返されない。本セクションにおいて識別される特徴が他の法定分類における基本の特徴と如何に容易に組み合わせられ得るかを読み手は理解するであろう。
方法は、1つ以上の反復において双方向ドキュメントごと相互注目エンコーディングを解析してドキュメントごと隠れ状態を作成するステップをさらに含む。これは、第2の及び後続の反復の間、前に生成されたドキュメントごと隠れ状態並びに推定された開始及び終了位置についての直前の反復からの結果を考慮に入れる、デコーダLSTM1814を使用することをさらに含む。方法は、別個の開始スコア付け及び終了スコア付け関数を適用することにより潜在的開始位置と次いで潜在的終了位置とをスコア付けするステップをさらに含む。方法は、ドキュメント内の潜在的開始及び終了位置についてドキュメントごと相互注目エンコーディングから生成されたスコアの中から選択して現在推定された開始及び終了位置を生成するステップをさらに含む。ドキュメント内の潜在的開始及び終了位置についてドキュメントごと相互注目エンコーディングから生成されたスコアの中から選択して現在推定された開始及び終了位置を生成するステップは、デコーダニューラルネットワーク118のargmaxモジュール1816により具現化される。
方法は、終了条件に達すると、質問に返答するドキュメント内のフレーズの現在推定された開始及び終了位置を出力するステップをさらに含む。質問に返答するドキュメント内のフレーズの現在推定された開始及び終了位置を出力するステップは、デコーダニューラルネットワーク118の出力生成器1818により具現化される。
終了条件は、フレーズの現在推定された開始及び終了位置が前に推定された開始及び終了位置に一致したとき達せられてよい。終了条件は、最大の反復数が達せられたとき達せられてよい。
別個のスコア付け関数は双方、直前の反復からのドキュメントごと隠れ状態と推定された開始及び終了位置とを非線形射影に射影する線形層と、スコア付けされる各位置を非線形射影と結合し、各結合を4つ以上の線形モデルを通じて処理し、線形モデルのうち1つから最大出力を選択する第1のマックスアウト層と、スコア付けされる各位置について、第1のマックスアウト層の出力を4つ以上の線形モデルを通じて処理し、線形モデルのうち1つから最大出力を選択する第2のマックスアウト層と、スコア付けされる各位置について、第1及び第2のマックスアウト層の出力を4つ以上の線形モデルを通じて処理し、線形モデルのうち1つから最大出力を選択する第3のマックスアウト層とを通じて、ドキュメント内の位置についてドキュメントごと相互注目エンコーディングを処理する、別個に訓練されたハイウェイマックスアウトネットワークに適用される。
方法は、訓練例を通じてのすべての反復にわたり開始及び終了位置の推定における累積損失を最小化することにより、エンコーダLSTM、双方向LSTM、デコーダLSTM、及びハイウェイマックスアウトネットワークを訓練するステップをさらに含む。累積損失は、ソフトマックス交差エントロピーを使用して決定されてよい。訓練するステップは、DCN100の訓練器1820により具現化される。
第1のシステムの実装についてこの具体的な実装のセクション内で論じられる特徴の各々は、この方法の実装に等しく適用される。上記で示されたように、すべてのシステムの特徴はここで繰り返されず、参照により繰り返されるとみなされるべきである。
他の実装が、上記で説明された方法を実行するようプロセッサにより実行可能な命令を記憶した非一時的コンピュータ読取可能記憶媒体(CRM)を含んでよい。さらに別の実装が、メモリと、メモリに記憶され上記で説明された方法を実行するための命令を実行するよう動作可能な1つ以上のプロセッサと、を含むシステムを含んでよい。
開示される技術のシステム実装は、ニューラルネットワークシステムを含む。
ニューラルネットワークシステムは、ドキュメント及び質問の文脈エンコーディングを作成するエンコーダニューラルネットワークを含む。
ニューラルネットワークシステムは、ドキュメント文脈エンコーディング及び質問文脈エンコーディング内の位置間の言語類似度解析を使用してアフィニティ行列を作成する隠れ状態比較器を含む。
ニューラルネットワークシステムは、アフィニティ行列をドキュメントごと及び質問ごとに正規化してそれぞれのドキュメント対質問注目重み及び質問対ドキュメント注目重みを生成する指数関数的正規化器を含む。
ニューラルネットワークシステムは、ドキュメント文脈エンコーディングをドキュメント対質問注目重みと結合し、質問対ドキュメント注目重みとさらに結合してドキュメントの文脈サマリを作成し、質問文脈エンコーディングを質問対ドキュメント注目重みと結合して質問の文脈サマリを作成する、エンコーディングミキサを含む。
ニューラルネットワークシステムは、ドキュメント及び質問の文脈サマリとドキュメント文脈エンコーディングとを入力として取得してドキュメントごと相互注目エンコーディングを生成する相互注目エンコーダを含む。
ニューラルネットワークシステムは、ドキュメントごと相互注目エンコーディングを解析してドキュメントごと隠れ状態を作成するデコーダニューラルネットワークを含む。デコーダニューラルネットワークは、第2の及び後続の反復の間、前に生成されたドキュメントごと隠れ状態並びに推定された開始及び終了位置についての直前の反復からの結果を考慮に入れる、デコーダLSTMをさらに使用する。デコーダニューラルネットワークは、別個の開始スコア付け及び終了スコア付け関数を適用することにより、潜在的開始位置と次いで潜在的終了位置とをスコア付けする。デコーダニューラルネットワークは、ドキュメント内の潜在的開始及び終了位置についてドキュメントごと相互注目エンコーディングから生成されたスコアの中から選択して、現在推定された開始及び終了位置を生成する。デコーダニューラルネットワークは、終了条件に達すると、質問に返答するドキュメント内のフレーズの現在推定された開始及び終了位置を出力する。
前の方法及びシステムの実装についてこの具体的な実装のセクション内で論じられる特徴の各々は、このシステムの実装に等しく適用される。上記で示されたように、すべての方法及びシステムの特徴はここで繰り返されず、参照により繰り返されるとみなされるべきである。
他の実装が、上記で説明されたシステムの動作を実行するようプロセッサにより実行可能な命令を記憶した非一時的コンピュータ読取可能記憶媒体を含んでよい。
[コンピュータシステム]
図19は、動的相互注目ネットワーク(DCN)100を実現するために使用できるコンピュータシステム1900の簡略ブロック図である。コンピュータシステム1900は、バスサブシステム1922を介して複数の周辺デバイスと通信する少なくとも1つの中央処理ユニット(CPU)1924を含む。これらの周辺デバイスは、例えばメモリデバイス及びファイルストレージサブシステム1918を含むストレージサブシステム1910、ユーザインターフェース入力デバイス1920、ユーザインターフェース出力デバイス1928、及びネットワークインターフェースサブシステム1926を含んでよい。入力及び出力デバイスは、コンピュータシステム1900とのユーザ相互作用を可能にする。ネットワークインターフェースサブシステム1926は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
一実装において、DCN100は、ストレージサブシステム1910に、及びユーザインターフェース入力デバイス1920に通信可能にリンクされる。
ユーザインターフェース入力デバイス1920は、キーボードと、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイスと、スキャナと、ディスプレイに組み込まれたタッチスクリーンと、音声認識システム及びマイクロフォンなどのオーディオ入力デバイスと、他タイプの入力デバイスとを含んでよい。一般に、用語「入力デバイス」の使用は、情報をコンピュータシステム1900に入力するためのすべての可能なタイプの装置及び方法を含むことが意図される。
ユーザインターフェース出力デバイス1928は、ディスプレイサブシステム、プリンタ、ファックスマシン、又はオーディオ出力デバイスなどの非視覚的ディスプレイを含んでよい。ディスプレイサブシステムは、陰極線管(CRT)、液晶ディスプレイ(LCD)などのフラットパネルデバイス、投影デバイス、又は可視イメージを作り出す何らかの他の機構を含んでよい。ディスプレイサブシステムは、オーディオ出力デバイスなどの非視覚的ディスプレイを提供してもよい。一般に、用語「出力デバイス」の使用は、情報をコンピュータシステム1900からユーザに又は別のマシン若しくはコンピュータシステムに対して出力するためのすべての可能なタイプの装置及び方法を含むことが意図される。
ストレージサブシステム1910は、本明細書で説明されるモジュール及び方法のいくつか又はすべての機能性を提供するプログラミング及びデータ構造を記憶する。これらのソフトウェアモジュールは、ディープラーニングプロセッサ1930により一般に実行される。
ディープラーニングプロセッサ1930は、グラフィックス処理ユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)であってよい。ディープラーニングプロセッサ1930は、Google(登録商標) Cloud PlatformTM、Xilinx(登録商標)TM、及びCirrascaleTMなどのディープラーニングクラウドプラットフォームによりホストされてよい。ディープラーニングプロセッサ1930の例は、Googleのテンソル処理ユニット(Tensor Processing Unit、TPU)TM、GX4 Rackmount SeriesTM、GX8 Rackmount SeriesTM、NVIDIA(登録商標) DGX‐1TMのようなラックマウントソリューション、Microsoft(登録商標)のStratix V FPGATM、Graphcoreのインテリジェントプロセッサユニット(Intelligent Processor Unit、IPU)TM、Qualcomm(登録商標)のSnapdragon(登録商標)プロセッサTMを有するZeroth PlatformTM、NVIDIAのVoltaTM、NVIDIAのDRIVE PXTM、NVIDIAのJETSON TX1/TX2 MODULETM、Intel(登録商標)のNirvanaTM、Movidius VPUTM、Fujitsu(登録商標) DPITM、ARMのDynamicIQTM、IBM TrueNorthTMなどを含む。
ストレージサブシステム1910において使用されるメモリサブシステム1912は、プログラム実行の間の命令及びデータの記憶のためのメインランダムアクセスメモリ(RAM)1914と固定の命令が記憶される読取専用メモリ(ROM)1916とを含む、複数のメモリを含んでよい。ファイルストレージサブシステム1918は、プログラム及びデータファイルのための永続的ストレージを提供してよく、ハードディスクドライブ、関連づけられた取外し可能媒体を有するフロッピーディスクドライブ、CD‐ROMドライブ、光学ドライブ、又は取外し可能媒体カートリッジを含んでよい。特定の実装の機能性を実現するモジュールが、ストレージサブシステム1910に、又はプロセッサによりアクセス可能な他のマシンに、ファイルストレージサブシステム1918により記憶されてよい。
バスサブシステム1922は、コンピュータシステム1900の様々なコンポーネント及びサブシステムに意図されたように互いに通信させる機構を提供する。バスサブシステム1922は単一のバスとして概略的に示されているが、バスサブシステムの代替的な実装が複数のバスを使用してよい。
コンピュータシステム1900はそれ自体、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビジョン、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの広く分散されたセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む、様々なタイプのものであってよい。コンピュータ及びネットワークの常に変化する性質に起因して、図19に表されるコンピュータシステム1900の説明は、本発明の好適な実施例を示す目的で単に具体的な例として意図されている。図19に表されるコンピュータシステムより多くの又は少ないコンポーネントを有する、コンピュータシステム1900の多くの他の構成が可能である。
前述の説明は、開示される技術の創作及び使用を可能にするよう提示されている。開示の実装に対する様々な変更が明らかになり、本明細書で定義される一般的原理は、開示される技術の主旨及び範囲から逸脱することなく他の実装及び用途に適用され得る。ゆえに、開示される技術は、図示される実装に限定されることは意図されず、本明細書で開示される原理及び特徴に一致する最も広い範囲を与えられるべきである。開示される技術の範囲は、別記の特許請求の範囲により定義される。


Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Figure 2020501229

Claims (27)

  1. 複数の並列プロセッサ上で動作し、質問に基づいてドキュメントを解析し前記ドキュメントに基づいて前記質問に応答する相互注目質問応答システムであって、
    ドキュメントワード埋め込み及び前のドキュメント文脈エンコーディングを複数の長短期記憶(略称LSTM)ゲートを通じて再帰的に処理し、ドキュメント文脈エンコーディングを作成するドキュメントエンコーダLSTMと、
    質問ワード埋め込み及び前の質問文脈エンコーディングを前記LSTMゲートを通じて再帰的に処理し、質問文脈エンコーディングを作成する質問エンコーダLSTMと、
    ドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定する隠れ状態比較器と、
    ドキュメント対質問ワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記ドキュメント文脈エンコーディングの凸結合としてドキュメント文脈サマリを作成するドキュメントエンコーディングミキサと、
    質問対ドキュメントワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記質問文脈エンコーディングの凸結合として質問文脈サマリを作成する質問エンコーディングミキサと、
    前記質問対ドキュメントワードベースで生成された前記指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記ドキュメント文脈サマリの凸結合として再注目ドキュメント文脈サマリを作成する再注目器と、
    連結された入力及び前のドキュメント相互注目エンコーディングを複数のLSTMゲートを通じてフォワード及びリバース方向において再帰的に処理し、ドキュメント相互注目エンコーディングを作成する相互注目エンコーダ双方向LSTMであり、前記連結された入力は、前記再注目ドキュメント文脈サマリ、前記質問文脈サマリ、及び前記ドキュメント文脈エンコーディングを含む、相互注目エンコーダ双方向LSTMと、
    前記ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとデコーダLSTMの現在のデコーダ隠れ状態との結合をハイウェイマックスアウトネットワークを通じて反復的に処理して潜在的開始位置と次いで潜在的終了位置とについて前記ドキュメント相互注目エンコーディングをスコア付けするデコーダと、
    を含み、前記デコーダは、
    前記ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択し、現在推定された開始及び終了位置を生成するargmaxモジュール、及び、
    終了条件に達すると、前記質問に応答するドキュメントフレーズを出力する出力生成器であり、前記ドキュメントフレーズは前記現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含む、出力生成器、
    をさらに含む、相互注目質問応答システム。
  2. 前のデコーダ隠れ状態と前に推定された開始及び終了位置における前記ドキュメント注目エンコーディングとに基づいて前記現在のデコーダ隠れ状態をさらに作成する前記デコーダLSTM、をさらに含む請求項1に記載の相互注目質問応答システム。
  3. 前記現在のデコーダ隠れ状態と前に推定された開始及び終了位置における前記ドキュメント注目エンコーディングとを非線形射影に射影する線形層と、
    スコア付けされる各位置を前記非線形射影と結合し、各結合を4つ以上の線形モデルを通じて処理して前記線形モデルのうち1つから最大出力を選択する第1のマックスアウト層と、
    スコア付けされる各位置について、前記第1のマックスアウト層の出力を4つ以上の線形モデルを通じて処理して前記線形モデルのうち1つから最大出力を選択する第2のマックスアウト層と、
    スコア付けされる各位置について、前記第1及び第2のマックスアウト層の出力を4つ以上の線形モデルを通じて処理して前記線形モデルのうち1つから最大出力を選択する第3のマックスアウト層と、
    を通じて、前記ドキュメント内の位置について前記ドキュメント相互注目エンコーディングをさらに処理する前記ハイウェイマックスアウトネットワーク、をさらに含む請求項1乃至2のうちいずれか1項に記載の相互注目質問応答システム。
  4. 前記終了条件は、前記現在推定された開始及び終了位置が前記前に推定された開始及び終了位置に一致したとき達せられる、請求項1乃至3のうちいずれか1項に記載の相互注目質問応答システム。
  5. 前記終了条件は、最大の反復数が達せられたとき達せられる、請求項1乃至4のうちいずれか1項に記載の相互注目質問応答システム。
  6. 訓練例を通じてのすべての反復にわたり開始及び終了位置の推定における累積損失を最小化することにより、前記ドキュメントエンコーダLSTMと前記質問エンコーダLSTMと前記相互注目エンコーダ双方向LSTMと前記デコーダLSTMと前記ハイウェイマックスアウトネットワークとを訓練する訓練器、をさらに含む請求項1乃至5のうちいずれか1項に記載の相互注目質問応答システム。
  7. 前記累積損失は、逆伝播に基づくソフトマックス交差エントロピーを使用して前記訓練器により決定される、請求項1乃至6のうちいずれか1項に記載の相互注目質問応答システム。
  8. 前記ドキュメント及び質問文脈エンコーディングのペア間の前記ペアごと言語類似度スコアは、前記隠れ状態比較器により適用されるドット積又は双線形積を使用して決定される、請求項1乃至7のうちいずれか1項に記載の相互注目質問応答システム。
  9. 前記argmaxモジュールによる前記潜在的スコアのうち最大のスコアの選択に基づいて前記現在推定された開始及び終了位置をさらに生成する前記デコーダ、をさらに含む請求項1乃至8のうちいずれか1項に記載の相互注目質問応答システム。
  10. 前記連結された入力を前記フォワード方向においてさらに処理し、フォワード出力を作成し、前記連結された入力を前記バックワード方向においてさらに処理し、リバース出力を作成し、前記フォワード及びリバース出力をさらに連結して前記ドキュメント相互注目エンコーディングを作成する前記相互注目エンコーダ双方向LSTM、をさらに含む請求項1乃至9のうちいずれか1項に記載の相互注目質問応答システム。
  11. 複数の並列プロセッサ上で動作し、質問に基づいてドキュメントを解析し前記ドキュメントに基づいて前記質問に応答する相互注目質問応答システムであって、
    ドキュメントエンコーダ長短期記憶(略称LSTM)及び質問エンコーダLSTMにより再帰的に作成されるドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定する隠れ状態比較器と、
    ドキュメント対質問ワードごと言語類似度スコアを使用して前記ドキュメント文脈エンコーディングに注目し、前記質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成するドキュメントエンコーディングミキサと、
    質問対ドキュメントワードごと言語類似度スコアを使用して前記質問文脈エンコーディングに注目し、前記ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成する質問エンコーディングミキサと、
    前記質問対ドキュメントワードごと言語類似度スコアを使用して前記ドキュメント文脈サマリに注目し、前記質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成する再注目器と、
    前記再注目ドキュメント文脈サマリと前記質問文脈サマリと前記ドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成する相互注目エンコーダLSTMと、
    デコーダLSTM及びハイウェイマックスアウトネットワークを使用して前記ドキュメント相互注目エンコーディングを反復的に処理し、前記質問に応答するドキュメントフレーズを出力するデコーダと、
    を含む相互注目質問応答システム。
  12. ドキュメントワード埋め込み及び前のドキュメント文脈エンコーディングを複数のLSTMゲートを通じてさらに再帰的に処理し、前記ドキュメント文脈エンコーディングを作成する前記ドキュメントエンコーダLSTMと、質問ワード埋め込み及び前の質問文脈エンコーディングを前記LSTMゲートを通じてさらに再帰的に処理し、前記質問文脈エンコーディングを作成する前記質問エンコーダLSTMと、をさらに含む請求項11に記載の相互注目質問応答システム。
  13. ドキュメント対質問ワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記ドキュメント文脈エンコーディングの凸結合として前記ドキュメント文脈サマリをさらに作成する前記ドキュメントエンコーディングミキサ、をさらに含み、質問対ドキュメントワードベースで生成された指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記質問文脈エンコーディングの凸結合として前記質問文脈サマリをさらに作成する前記質問エンコーディングミキサ、をさらに含み、前記質問対ドキュメントワードベースで生成された前記指数関数的に正規化されたスコアシーケンスによりスケーリングされた前記ドキュメント文脈サマリの凸結合として前記再注目ドキュメント文脈サマリをさらに作成する前記再注目器、をさらに含む請求項11乃至12のうちいずれか1項に記載の相互注目質問応答システム。
  14. 前記再注目ドキュメント文脈サマリと前記質問文脈サマリと前記ドキュメント文脈エンコーディングとの対応する要素を連結する連結器、をさらに含む請求項11乃至13のうちいずれか1項に記載の相互注目質問応答システム。
  15. 前記連結を前記フォワード方向においてさらに処理し、フォワード出力を作成し、前記連結を前記バックワード方向においてさらに処理し、リバース出力を作成し、前記フォワード及びリバース出力をさらに連結し、前記ドキュメント相互注目エンコーディングを作成する前記相互注目エンコーダ双方向LSTM、をさらに含む請求項11乃至14のうちいずれか1項に記載の相互注目質問応答システム。
  16. 前記ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングと前記デコーダLSTMの現在のデコーダ隠れ状態との結合を前記ハイウェイマックスアウトネットワークを通じて反復的に処理して潜在的開始位置と次いで潜在的終了位置とについて前記ドキュメント相互注目エンコーディングをスコア付けする前記デコーダ、をさらに含み、前記デコーダは、
    前記ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択し、現在推定された開始及び終了位置を生成するargmaxモジュール、及び、
    終了条件に達すると、前記現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含む前記ドキュメントフレーズを出力する出力生成器
    をさらに含む、請求項11乃至15のうちいずれか1項に記載の相互注目質問応答システム。
  17. 前のデコーダ隠れ状態と前に推定された開始及び終了位置における前記ドキュメント注目エンコーディングとに基づいて前記現在のデコーダ隠れ状態をさらに作成する前記デコーダLSTM、をさらに含む請求項11乃至16のうちいずれか1項に記載の相互注目質問応答システム。
  18. 前記現在のデコーダ隠れ状態と前に推定された開始及び終了位置における前記ドキュメント注目エンコーディングとを非線形射影に射影する線形層と、
    スコア付けされる各位置を前記非線形射影と結合し、各結合を4つ以上の線形モデルを通じて処理して前記線形モデルのうち1つから最大出力を選択する第1のマックスアウト層と、
    スコア付けされる各位置について、前記第1のマックスアウト層の出力を4つ以上の線形モデルを通じて処理して前記線形モデルのうち1つから最大出力を選択する第2のマックスアウト層と、
    スコア付けされる各位置について、前記第1及び第2のマックスアウト層の出力を4つ以上の線形モデルを通じて処理して前記線形モデルのうち1つから最大出力を選択する第3のマックスアウト層と、
    を通じて、前記ドキュメント内の位置について前記ドキュメント相互注目エンコーディングをさらに処理する前記ハイウェイマックスアウトネットワーク、をさらに含む請求項11乃至17のうちいずれか1項に記載の相互注目質問応答システム。
  19. 前記終了条件は、前記現在推定された開始及び終了位置が前記前に推定された開始及び終了位置に一致したとき達せられる、請求項11乃至18のうちいずれか1項に記載の相互注目質問応答システム。
  20. 前記終了条件は、最大の反復数が達せられたとき達せられる、請求項11乃至19のうちいずれか1項に記載の相互注目質問応答システム。
  21. 訓練例を通じてのすべての反復にわたり開始及び終了位置の推定における累積損失を最小化することにより、前記ドキュメントエンコーダLSTMと前記質問エンコーダLSTMと前記相互注目エンコーダ双方向LSTMと前記デコーダLSTMと前記ハイウェイマックスアウトネットワークとを訓練する訓練器、をさらに含む請求項11乃至20のうちいずれか1項に記載の相互注目質問応答システム。
  22. 前記累積損失は、逆伝播に基づくソフトマックス交差エントロピーを使用して前記訓練器により決定される、請求項11乃至21のうちいずれか1項に記載の相互注目質問応答システム。
  23. 前記ドキュメント及び質問文脈エンコーディングのペア間の前記ペアごと言語類似度スコアは、前記隠れ状態比較器によりドット積を使用して決定される、請求項11乃至22のうちいずれか1項に記載の相互注目質問応答システム。
  24. 前記argmaxモジュールの、前記潜在的スコアのうち最大のスコアの選択に基づいて、前記現在推定された開始及び終了位置をさらに生成する前記デコーダ、をさらに含む請求項11乃至23のうちいずれか1項に記載の相互注目質問応答システム。
  25. 質問に基づいてドキュメントを相互注目的に解析し前記ドキュメントに基づいて前記質問に応答する、コンピュータにより実現される方法であって、
    ドキュメントエンコーダ長短期記憶(略称LSTM)及び質問エンコーダLSTMにより再帰的に作成されるドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定するステップと、
    ドキュメント対質問ワードごと言語類似度スコアを使用して前記ドキュメント文脈エンコーディングに注目し、前記質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成するステップと、
    質問対ドキュメントワードごと言語類似度スコアを使用して前記質問文脈エンコーディングに注目し、前記ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成するステップと、
    質問対ドキュメントワードごと言語類似度スコアを使用して前記ドキュメント文脈サマリに注目し、前記質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成するステップと、
    前記再注目ドキュメント文脈サマリと前記質問文脈サマリと前記ドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成するステップと、
    デコーダLSTM及びハイウェイマックスアウトネットワークを使用して前記ドキュメント相互注目エンコーディングを反復的に処理し、前記質問に応答するドキュメントフレーズを出力するステップと、
    を含む方法。
  26. 質問に基づいてドキュメントを相互注目的に解析し前記ドキュメントに基づいて前記質問に応答するコンピュータプログラム命令を記憶させた非一時的コンピュータ読取可能記憶媒体であって、前記命令は、複数の並列プロセッサコア上で実行されたときに、
    ドキュメントエンコーダ長短期記憶(略称LSTM)及び質問エンコーダLSTMにより再帰的に作成されるドキュメント及び質問文脈エンコーディングのペア間のペアごと言語類似度スコアを決定するステップと、
    ドキュメント対質問ワードごと言語類似度スコアを使用して前記ドキュメント文脈エンコーディングに注目し、前記質問文脈エンコーディングを条件としたドキュメント文脈サマリを作成するステップと、
    質問対ドキュメントワードごと言語類似度スコアを使用して前記質問文脈エンコーディングに注目し、前記ドキュメント文脈エンコーディングを条件とした質問文脈サマリを作成するステップと、
    質問対ドキュメントワードごと言語類似度スコアを使用して前記ドキュメント文脈サマリに注目し、前記質問文脈エンコーディングを再度条件とした再注目ドキュメント文脈サマリを作成するステップと、
    前記再注目ドキュメント文脈サマリと前記質問文脈サマリと前記ドキュメント文脈エンコーディングとの連結を再帰的及び双方向に処理し、ドキュメント相互注目エンコーディングを作成するステップと、
    デコーダLSTM及びハイウェイマックスアウトネットワークを使用して前記ドキュメント相互注目エンコーディングを反復的に処理し、前記質問に応答するドキュメントフレーズを出力するステップと、
    を含む方法を実現する、媒体。
  27. 複数の並列プロセッサ上で動作する、ドキュメントに基づいて質問に応答する相互注目質問応答システムであって、
    ワードのシーケンスについての文脈エンコーディングを発行し、前記ドキュメント内のワードの第1のシーケンスに適用され、前記質問内のワードの第2のシーケンスに適用され、前記ドキュメントについての文脈エンコーディングの第1のシーケンスを生成し、前記質問についての文脈エンコーディングの第2のシーケンスを生成するエンコーダ長短期記憶(略称LSTM)と、
    前記第1及び第2のシーケンス内の前記文脈エンコーディング間の言語類似度を決定し、ペアごと言語類似度スコアを生成する隠れ状態比較器と、
    1つの文脈エンコーディングについての、別の文脈エンコーディングのワードを条件とした文脈サマリシーケンスを発行し、前記類似度スコアを使用して前記質問についての前記文脈エンコーディングの第2のシーケンスを条件とした前記ドキュメントについての前記文脈エンコーディングの第1のシーケンスに適用されて、質問ワードを条件とした前記ドキュメントの第1の文脈サマリシーケンスを生成し、前記類似度スコアを使用して前記ドキュメントについての前記文脈エンコーディングの第1のシーケンスを条件とした前記質問についての前記文脈エンコーディングの第2のシーケンスに適用されて、ドキュメントワードを条件とした前記質問の第2の文脈サマリシーケンスを生成し、前記類似度スコアを使用して前記ドキュメントについての前記文脈エンコーディングの第1のシーケンスを条件とした前記ドキュメントの前記第1の文脈サマリシーケンスに再適用されて、前記ドキュメントの第3の再注目文脈サマリシーケンスを生成するエンコーディングミキサと、
    連結された入力及び前のドキュメント相互注目エンコーディングをフォワード及びリバース方向において再帰的に処理してドキュメント相互注目エンコーディングを作成する相互注目エンコーダ双方向LSTMであり、前記連結された入力は、前記ドキュメントの前記第3の再注目文脈サマリシーケンスと前記質問の前記第2の文脈サマリシーケンスと前記ドキュメントの前記文脈エンコーディングの第1のシーケンスとを含む、相互注目エンコーダ双方向LSTMと、
    前記ドキュメント相互注目エンコーディングと前に推定された開始及び終了位置におけるドキュメント注目エンコーディングとデコーダLSTMの現在のデコーダ隠れ状態との結合をハイウェイマックスアウトネットワークを通じて反復的に処理して潜在的開始位置と次いで潜在的終了位置とについて前記ドキュメント相互注目エンコーディングをスコア付けし、前記ハイウェイマックスアウトネットワークにより作成された潜在的スコアの中から選択して現在推定された開始及び終了位置を生成し、終了条件に達すると、前記質問に応答し且つ前記現在推定された開始及び終了位置に及びその範囲内におけるドキュメントワードを含むドキュメントフレーズを出力するデコーダと、
    を含む相互注目質問応答システム。
JP2019522932A 2016-11-04 2017-11-03 質問応答のための動的相互注目ネットワーク Active JP6873236B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662418060P 2016-11-04 2016-11-04
US201662417332P 2016-11-04 2016-11-04
US62/418,060 2016-11-04
US62/417,332 2016-11-04
US15/421,193 2017-01-31
US15/421,193 US10963782B2 (en) 2016-11-04 2017-01-31 Dynamic coattention network for question answering
PCT/US2017/060026 WO2018085710A1 (en) 2016-11-04 2017-11-03 Dynamic coattention network for question answering

Publications (2)

Publication Number Publication Date
JP2020501229A true JP2020501229A (ja) 2020-01-16
JP6873236B2 JP6873236B2 (ja) 2021-05-19

Family

ID=62065651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019522932A Active JP6873236B2 (ja) 2016-11-04 2017-11-03 質問応答のための動的相互注目ネットワーク

Country Status (6)

Country Link
US (1) US10963782B2 (ja)
EP (1) EP3535706A1 (ja)
JP (1) JP6873236B2 (ja)
CN (1) CN109906460B (ja)
CA (1) CA3038812C (ja)
WO (1) WO2018085710A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022003762A1 (ja) * 2020-06-29 2022-01-06

Families Citing this family (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US11354565B2 (en) 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider
US10572595B2 (en) * 2017-04-13 2020-02-25 Baidu Usa Llc Global normalized reader systems and methods
US10565318B2 (en) 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
CN110692066B (zh) * 2017-06-05 2023-06-02 渊慧科技有限公司 使用多模态输入选择动作
US10902738B2 (en) * 2017-08-03 2021-01-26 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
US11823013B2 (en) * 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US10592767B2 (en) 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US11604956B2 (en) 2017-10-27 2023-03-14 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US11170287B2 (en) * 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US11276002B2 (en) 2017-12-20 2022-03-15 Salesforce.Com, Inc. Hybrid training of deep networks
US11501076B2 (en) 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US11227218B2 (en) 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
US10783875B2 (en) 2018-03-16 2020-09-22 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
US11106182B2 (en) 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US10887182B1 (en) * 2018-05-10 2021-01-05 Hrl Laboratories, Llc System and method for pairwise network alignment
US11600194B2 (en) 2018-05-18 2023-03-07 Salesforce.Com, Inc. Multitask learning as question answering
US10909157B2 (en) 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
US11631009B2 (en) 2018-05-23 2023-04-18 Salesforce.Com, Inc Multi-hop knowledge graph reasoning with reward shaping
CN108846130B (zh) * 2018-06-29 2021-02-05 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN108959556A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 基于神经网络的实体问答方法、装置和终端
KR20200023664A (ko) * 2018-08-14 2020-03-06 삼성전자주식회사 응답 추론 방법 및 장치
US10623889B2 (en) 2018-08-24 2020-04-14 SafeGraph, Inc. Hyper-locating places-of-interest in buildings
US10970486B2 (en) 2018-09-18 2021-04-06 Salesforce.Com, Inc. Using unstructured input to update heterogeneous data stores
US11436481B2 (en) 2018-09-18 2022-09-06 Salesforce.Com, Inc. Systems and methods for named entity recognition
CN110569700B (zh) * 2018-09-26 2020-11-03 创新先进技术有限公司 优化损伤识别结果的方法及装置
US11029694B2 (en) 2018-09-27 2021-06-08 Salesforce.Com, Inc. Self-aware visual-textual co-grounded navigation agent
US11087177B2 (en) 2018-09-27 2021-08-10 Salesforce.Com, Inc. Prediction-correction approach to zero shot learning
US11514915B2 (en) 2018-09-27 2022-11-29 Salesforce.Com, Inc. Global-to-local memory pointer networks for task-oriented dialogue
US11645509B2 (en) 2018-09-27 2023-05-09 Salesforce.Com, Inc. Continual neural network learning via explicit structure learning
KR20200036352A (ko) * 2018-09-28 2020-04-07 삼성전자주식회사 신경망의 동작 방법과 학습 방법 및 그 신경망
US10963652B2 (en) 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation
US11822897B2 (en) 2018-12-11 2023-11-21 Salesforce.Com, Inc. Systems and methods for structured text translation with tag alignment
US10877947B2 (en) * 2018-12-11 2020-12-29 SafeGraph, Inc. Deduplication of metadata for places
CN109685212B (zh) * 2018-12-14 2022-12-16 安徽省泰岳祥升软件有限公司 一种机器阅读理解模型的分阶段训练方法及装置
US11922323B2 (en) 2019-01-17 2024-03-05 Salesforce, Inc. Meta-reinforcement learning gradient estimation with variance reduction
US11568306B2 (en) 2019-02-25 2023-01-31 Salesforce.Com, Inc. Data privacy protected machine learning systems
US11003867B2 (en) 2019-03-04 2021-05-11 Salesforce.Com, Inc. Cross-lingual regularization for multilingual generalization
US11366969B2 (en) 2019-03-04 2022-06-21 Salesforce.Com, Inc. Leveraging language models for generating commonsense explanations
US11087092B2 (en) 2019-03-05 2021-08-10 Salesforce.Com, Inc. Agent persona grounded chit-chat generation framework
US11580445B2 (en) 2019-03-05 2023-02-14 Salesforce.Com, Inc. Efficient off-policy credit assignment
CN109948700B (zh) * 2019-03-19 2020-07-24 北京字节跳动网络技术有限公司 用于生成特征图的方法和装置
US10902289B2 (en) 2019-03-22 2021-01-26 Salesforce.Com, Inc. Two-stage online detection of action start in untrimmed videos
CN111858859A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 自动问答处理方法、装置、计算机设备及存储介质
US11281863B2 (en) * 2019-04-18 2022-03-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction
CN110175527B (zh) 2019-04-29 2022-03-25 北京百度网讯科技有限公司 行人再识别方法及装置、计算机设备及可读介质
US11487939B2 (en) 2019-05-15 2022-11-01 Salesforce.Com, Inc. Systems and methods for unsupervised autoregressive text compression
US11620572B2 (en) 2019-05-16 2023-04-04 Salesforce.Com, Inc. Solving sparse reward tasks using self-balancing shaped rewards
US11604965B2 (en) 2019-05-16 2023-03-14 Salesforce.Com, Inc. Private deep learning
US11562251B2 (en) 2019-05-16 2023-01-24 Salesforce.Com, Inc. Learning world graphs to accelerate hierarchical reinforcement learning
US11775775B2 (en) 2019-05-21 2023-10-03 Salesforce.Com, Inc. Systems and methods for reading comprehension for a question answering task
US11687588B2 (en) 2019-05-21 2023-06-27 Salesforce.Com, Inc. Weakly supervised natural language localization networks for video proposal prediction based on a text query
US11669712B2 (en) 2019-05-21 2023-06-06 Salesforce.Com, Inc. Robustness evaluation via natural typos
US11657277B2 (en) * 2019-05-23 2023-05-23 Google Llc Generating neural network outputs using insertion commands
US11657269B2 (en) 2019-05-23 2023-05-23 Salesforce.Com, Inc. Systems and methods for verification of discriminative models
CN110276396B (zh) * 2019-06-21 2022-12-06 西安电子科技大学 基于物体显著性和跨模态融合特征的图片描述生成方法
US11410667B2 (en) * 2019-06-28 2022-08-09 Ford Global Technologies, Llc Hierarchical encoder for speech conversion system
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
US11615240B2 (en) 2019-08-15 2023-03-28 Salesforce.Com, Inc Systems and methods for a transformer network with tree-based attention for natural language processing
CN110457710B (zh) * 2019-08-19 2022-08-02 电子科技大学 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端
CN110633472B (zh) * 2019-09-19 2021-03-12 电子科技大学 一种基于注意力与聚合机制的文章与问题的融合方法
US12026630B2 (en) 2019-09-23 2024-07-02 Adaptai Ltd. Artificial intelligence methods and systems for improving user adaptability using textual communication
US11599792B2 (en) 2019-09-24 2023-03-07 Salesforce.Com, Inc. System and method for learning with noisy labels as semi-supervised learning
US11568000B2 (en) 2019-09-24 2023-01-31 Salesforce.Com, Inc. System and method for automatic task-oriented dialog system
US11640527B2 (en) 2019-09-25 2023-05-02 Salesforce.Com, Inc. Near-zero-cost differentially private deep learning with teacher ensembles
CN110647354B (zh) * 2019-09-30 2021-11-05 东软医疗系统股份有限公司 设备运行控制方法、装置及设备
US11620515B2 (en) 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
US11347708B2 (en) 2019-11-11 2022-05-31 Salesforce.Com, Inc. System and method for unsupervised density based table structure identification
CN110827312B (zh) * 2019-11-12 2023-04-28 北京深境智能科技有限公司 一种基于协同视觉注意力神经网络的学习方法
US11288438B2 (en) 2019-11-15 2022-03-29 Salesforce.Com, Inc. Bi-directional spatial-temporal reasoning for video-grounded dialogues
US11334766B2 (en) 2019-11-15 2022-05-17 Salesforce.Com, Inc. Noise-resistant object detection with noisy annotations
US11481636B2 (en) 2019-11-18 2022-10-25 Salesforce.Com, Inc. Systems and methods for out-of-distribution classification
US11922303B2 (en) 2019-11-18 2024-03-05 Salesforce, Inc. Systems and methods for distilled BERT-based training model for text classification
US11640505B2 (en) 2019-12-09 2023-05-02 Salesforce.Com, Inc. Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading
US11487999B2 (en) 2019-12-09 2022-11-01 Salesforce.Com, Inc. Spatial-temporal reasoning through pretrained language models for video-grounded dialogues
US11599730B2 (en) 2019-12-09 2023-03-07 Salesforce.Com, Inc. Learning dialogue state tracking with limited labeled data
US11573957B2 (en) 2019-12-09 2023-02-07 Salesforce.Com, Inc. Natural language processing engine for translating questions into executable database queries
US11256754B2 (en) 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
CN111104884B (zh) * 2019-12-10 2022-06-03 电子科技大学 一种基于两阶段神经网络模型的汉语唇语识别方法
US11669745B2 (en) 2020-01-13 2023-06-06 Salesforce.Com, Inc. Proposal learning for semi-supervised object detection
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
US11562147B2 (en) 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
US11397762B2 (en) 2020-01-24 2022-07-26 Accenture Global Solutions Limited Automatically generating natural language responses to users' questions
US11449556B2 (en) 2020-02-04 2022-09-20 Accenture Global Solutions Limited Responding to user queries by context-based intelligent agents
US20210249104A1 (en) 2020-02-06 2021-08-12 Salesforce.Com, Inc. Systems and methods for language modeling of protein engineering
US11461415B2 (en) * 2020-02-06 2022-10-04 Microsoft Technology Licensing, Llc Assessing semantic similarity using a dual-encoder neural network
CN111291188B (zh) * 2020-02-20 2023-06-23 阿基米德(上海)传媒有限公司 一种智能信息抽取方法及系统
US11263476B2 (en) 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
US11328731B2 (en) 2020-04-08 2022-05-10 Salesforce.Com, Inc. Phone-based sub-word units for end-to-end speech recognition
CN111428055B (zh) * 2020-04-20 2023-11-10 神思电子技术股份有限公司 一种面向行业的上下文省略问答方法
US20210334756A1 (en) * 2020-04-24 2021-10-28 N3, Llc Agnostic crm augmentation with a display screen
US11625543B2 (en) 2020-05-31 2023-04-11 Salesforce.Com, Inc. Systems and methods for composed variational natural language generation
US11720559B2 (en) 2020-06-02 2023-08-08 Salesforce.Com, Inc. Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text
US11526756B1 (en) 2020-06-24 2022-12-13 Amazon Technologies, Inc. Artificial intelligence system with composite models for multiple response-string queries
CN111797219B (zh) * 2020-07-07 2023-11-24 苏州大学 使用多通道融合模型处理答案的神经问题生成方法及系统
US20220050877A1 (en) 2020-08-14 2022-02-17 Salesforce.Com, Inc. Systems and methods for query autocompletion
US11934952B2 (en) 2020-08-21 2024-03-19 Salesforce, Inc. Systems and methods for natural language processing using joint energy-based models
US11934781B2 (en) 2020-08-28 2024-03-19 Salesforce, Inc. Systems and methods for controllable text summarization
CN112084782B (zh) * 2020-09-14 2024-05-03 成都数联铭品科技有限公司 一种基于能量增强的注意力网络的答案识别方法及系统
US11762914B2 (en) 2020-10-06 2023-09-19 SafeGraph, Inc. Systems and methods for matching multi-part place identifiers
US11899696B2 (en) 2020-10-06 2024-02-13 SafeGraph, Inc. Systems and methods for generating multi-part place identifiers
US11995111B2 (en) * 2020-11-13 2024-05-28 Tencent America LLC Efficient and compact text matching system for sentence pairs
US11829442B2 (en) 2020-11-16 2023-11-28 Salesforce.Com, Inc. Methods and systems for efficient batch active learning of a deep neural network
CN112417126B (zh) * 2020-12-02 2024-01-23 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质
CN112948563A (zh) * 2021-04-13 2021-06-11 天津禄智技术有限公司 文本搜索方法及其系统
US20230289836A1 (en) * 2022-03-11 2023-09-14 Tredence Inc. Multi-channel feedback analytics for presentation generation
CN114996401A (zh) * 2022-05-31 2022-09-02 福州大学 一种基于双重匹配的观点型机器阅读理解方法及系统
US20240126791A1 (en) * 2022-10-14 2024-04-18 Tata Consultancy Services Limited Method and system for long-form answer extraction based on combination of sentence index generation techniques

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204751B1 (en) * 2006-03-03 2012-06-19 At&T Intellectual Property Ii, L.P. Relevance recognition for a human machine dialog system contextual question answering based on a normalization of the length of the user input
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities
US10783900B2 (en) * 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
US20160350653A1 (en) 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US11113598B2 (en) 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US20170032280A1 (en) 2015-07-27 2017-02-02 Salesforce.Com, Inc. Engagement estimator
US10282663B2 (en) 2015-08-15 2019-05-07 Salesforce.Com, Inc. Three-dimensional (3D) convolution with 3D batch normalization
US10664744B2 (en) * 2015-10-13 2020-05-26 Facebook, Inc. End-to-end memory networks
US10628734B2 (en) * 2016-04-14 2020-04-21 International Business Machines Corporation Efficient determination of optimized learning settings of neural networks
CN105956011B (zh) * 2016-04-21 2020-01-21 百度在线网络技术(北京)有限公司 搜索方法及装置
US11449744B2 (en) * 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
US11087199B2 (en) * 2016-11-03 2021-08-10 Nec Corporation Context-aware attention-based neural network for interactive question answering
US10346721B2 (en) 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022003762A1 (ja) * 2020-06-29 2022-01-06
WO2022003762A1 (ja) * 2020-06-29 2022-01-06 日本電信電話株式会社 質問応答装置、質問応答方法及び質問応答プログラム
JP7468654B2 (ja) 2020-06-29 2024-04-16 日本電信電話株式会社 質問応答装置、質問応答方法及び質問応答プログラム

Also Published As

Publication number Publication date
CN109906460A (zh) 2019-06-18
US20180129938A1 (en) 2018-05-10
CA3038812A1 (en) 2018-05-11
US10963782B2 (en) 2021-03-30
EP3535706A1 (en) 2019-09-11
WO2018085710A1 (en) 2018-05-11
JP6873236B2 (ja) 2021-05-19
CN109906460B (zh) 2023-09-19
CA3038812C (en) 2021-08-31

Similar Documents

Publication Publication Date Title
JP6873236B2 (ja) 質問応答のための動的相互注目ネットワーク
JP6972265B2 (ja) ポインタセンチネル混合アーキテクチャ
US11244111B2 (en) Adaptive attention model for image captioning
CN109952580B (zh) 基于准循环神经网络的编码器-解码器模型
JP6976324B2 (ja) 逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング
WO2018094295A1 (en) Adaptive attention model for image captioning
US20200104681A1 (en) Neural Networks with Area Attention
AU2022281121B2 (en) Generating neural network outputs by cross attention of query embeddings over a set of latent embeddings
US20240232580A1 (en) Generating neural network outputs by cross attention of query embeddings over a set of latent embeddings
WO2024110596A1 (en) Score interpolation diffusion models
Hein Social Distancing AI: Using super-resolution to train an object detection model on low resolution images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210420

R150 Certificate of patent or registration of utility model

Ref document number: 6873236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250