JP2021513165A - 質問応答としてのマルチタスク学習 - Google Patents

質問応答としてのマルチタスク学習 Download PDF

Info

Publication number
JP2021513165A
JP2021513165A JP2020542861A JP2020542861A JP2021513165A JP 2021513165 A JP2021513165 A JP 2021513165A JP 2020542861 A JP2020542861 A JP 2020542861A JP 2020542861 A JP2020542861 A JP 2020542861A JP 2021513165 A JP2021513165 A JP 2021513165A
Authority
JP
Japan
Prior art keywords
training
strategy
training samples
samples
presented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020542861A
Other languages
English (en)
Other versions
JP7109557B2 (ja
JP2021513165A5 (ja
Inventor
マッカン,ブライアン
ケスカー,ニティシュ,シリッシュ
ション,カイミング
ソーチャー,リチャード
Original Assignee
セールスフォース ドット コム インコーポレイティッド
セールスフォース ドット コム インコーポレイティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セールスフォース ドット コム インコーポレイティッド, セールスフォース ドット コム インコーポレイティッド filed Critical セールスフォース ドット コム インコーポレイティッド
Publication of JP2021513165A publication Critical patent/JP2021513165A/ja
Publication of JP2021513165A5 publication Critical patent/JP2021513165A5/ja
Application granted granted Critical
Publication of JP7109557B2 publication Critical patent/JP7109557B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

質問応答としてのマルチタスク学習のアプローチは、訓練するための方法を含み、当該方法は、複数のタスクタイプからの訓練サンプルを含む複数の訓練サンプルを受信し、訓練サンプルを神経モデルに提示してアンサーを生成し、提示された各訓練サンプルについて、生成されたアンサーと自然言語グラウンドトゥルースアンサーとの間の誤差を決定し、そして、誤差に基づいて神経モデルのパラメータを調節することを含む。訓練サンプルの各々が、自然言語のコンテキスト、クエスチョン、及びグラウンドトゥルースアンサーを含む。訓練サンプルが神経モデルに提示される順序は、最初に第1の訓練戦略に従って訓練サンプルを選択することと、第2の訓練戦略に従って訓練サンプルを選択することに切り替えることとを含む。一部の人実施形態において、第1の訓練戦略は逐次訓練戦略であり、第2の訓練戦略は統合訓練戦略である。

Description

この出願は、どちらも“Multitask Learning as Question Answering”と題された、2018年2月9日に出願された米国仮特許出願第62/628,850号、及び2018年5月8日に出願された米国特許出願第15/974,075号の利益を主張するものであり、それらの全体をここに援用する。
この出願は、“Multitask Learning as Question Answering”と題された、2018年5月8日に同日出願された米国特許出願第15/974,118号(代理人整理番号70689.9US02 A3341US2)に関連し、その全体をここに援用する。
本開示は、概して自然言語処理に関し、より具体的には自然言語コンテキストについての自然言語での質問(自然言語クエスチョン)に応答することに関する。
自然言語処理、及び自然言語サンプルのコンテキストについての自然言語クエスチョンに応答するシステムの能力は、自然言語形式で提供される情報についての文脈特有の推論をテストするためのベンチマークである。これは複雑な作業であり得る。何故なら、質問され得る自然言語クエスチョンには多数の異なるタイプが存在し、その回答(アンサー)は、異なるタイプの推論及び/又は異なるタイプの分析を必要とし得るからである。
従って、異なる種類の自然言語クエスチョンに同時に答えることができるようにする統一されたシステム及び方法を有することが有利である。
一部の実施形態に従った自然言語処理タスクの簡略図である。 一部の実施形態に従ったコンピューティング装置の簡略図である。 一部の実施形態に従ったマルチタスク質問応答のためのシステムの簡略図である。 一部の実施形態に従ったアテンションネットワークの簡略図である。 一部の実施形態に従ったアテンションベースのトランスフォーマネットワークのレイヤの簡略図である。 一部の実施形態に従ったワードジェネレータの簡略図である。 一部の実施形態に従ったマルチタスク学習の方法の簡略図である。 図8及び9A−9Cは、一部の実施形態に従った訓練性能の簡略図である。 図8及び9A−9Cは、一部の実施形態に従った訓練性能の簡略図である。 図8及び9A−9Cは、一部の実施形態に従った訓練性能の簡略図である。 図8及び9A−9Cは、一部の実施形態に従った訓練性能の簡略図である。 図10A及び10Bは、一部の実施形態に従った訓練順序に基づく訓練性能の簡略図である。 図10A及び10Bは、一部の実施形態に従った訓練順序に基づく訓練性能の簡略図である。
図面において、同じ参照符号を持つ要素は、同じ又は同様の機能を持つ。
自然言語情報の内容に関するコンテキスト特有の推論を含むコンテキスト特有の推論は、機械インテリジェンス及び学習アプリケーションにおいて重要な問題である。コンテキスト特有の推論は、自然言語テキストの解釈に使用するための貴重な情報を提供することができ、また、例えば自然言語テキストの内容に関する質問に回答すること、言語翻訳、セマンティックコンテキスト分析、及び/又はこれらに類するものなどの、複数の異なるタスクを含み得る。しかしながら、これらの異なるタイプの自然言語処理タスクの各々が、異なるタイプの分析及び/又は異なるタイプの期待される応答を伴うことが多い。
自然言語処理におけるマルチタスク学習は、タスクタイプが類似している場合には進展している。しかし、例えば言語翻訳、質問応答及び分類などの複数の異なるタイプのタスクに取り組む場合、パラメータ共有が単語ベクトル又はパラメータのサブセットに制限されることが多い。最終的なアーキテクチャは、典型的に、各タスクタイプに対して高度に最適化されて工学設計され、複数のタスクタイプにまたがって一般化する能力を制限している。
しかしながら、これらのタスクタイプのうち多くは、単一タイプのタスクとしてフレーム化されるときに、同じアーキテクチャ及びモデルによって取り扱われることができる。例えば、全てではないが多くの自然言語処理タスクを、質問応答タスクとして扱うことが可能である。例えば、分類、言語翻訳、及び質問応答のタスクタイプは全て、質問応答タスクとしてフレーム化され得る。質問応答形態でのこれら3つのタスクタイプの各々の例を図1に示す。
図2は、一部の実施形態に従ったコンピューティング装置200の簡略図である。図2に示すように、コンピューティング装置200は、メモリ220に結合されたプロセッサ210を含む。コンピューティング装置200の動作は、プロセッサ210によって制御される。1つのプロセッサ210のみを備えたコンピューティング装置200が示されているが、理解されることには、プロセッサ210は、コンピューティング装置200内の1つ以上の中央演算処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、グラフィックス処理ユニット(GPU)、及び/又はこれらに類するものを代表するものとし得る。コンピューティング装置200は、スタンドアローンのサブシステムとして、コンピューティング装置に追加されたボードとして、及び/又は仮想マシンとして実装され得る。
メモリ220は、コンピューティング装置200によって実行されるソフトウェア、及び/又はコンピューティング装置200の動作中に使用される1つ以上のデータ構造を格納するために使用され得る。メモリ220は、1つ以上のタイプの機械読み取り可能媒体を含み得る。一部の一般的な形態の機械読み取り可能媒体は、フロッピーディスク(登録商標)、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD−ROM、他の光媒体、パンチカード、紙テープ、穴のパターンを有する他の物理媒体、RAM、PROM、EPROM、FLASH−EPROM、他のメモリチップ若しくはカートリッジ、及び/又はプロセッサ若しくはコンピュータが読み出すように適応される他の媒体を含み得る。
プロセッサ210及び/又はメモリ220は、任意の好適な物理的構成で構成され得る。一部の実施形態において、プロセッサ210及び/又はメモリ220は、同一ボード上、同一パッケージ(例えば、システム・イン・パッケージ)内、同一チップ(例えば、システム・オン・チップ)上、及び/又はこれらに類するもので実装され得る。一部の実施形態において、プロセッサ210及び/又はメモリ220は、分散された、仮想化された、及び/又はコンテナ化された計算リソースを含み得る。そのような実施形態と一致して、プロセッサ210及び/又はメモリ220は、1つ以上のデータセンター及び/又はクラウドコンピューティング施設に置かれてもよい。
図示のように、メモリ220は、ここに更に記載される質問応答システム及びモデルを実装及び/又はエミュレートするために、及び/又はここに更に記載される方法のうちのいずれかを実装するために使用され得る質問応答モジュール230を含む。一部の例において、質問応答モジュール230は、自然言語コンテキストに関する自然言語クエスチョンに答えるために使用され得る。一部の例において、質問応答モジュール230はまた、自然言語コンテキストに関する自然言語クエスチョンに答えるために使用される質問応答システム又はモデルの反復訓練及び/又は評価を取り扱い得る。一部の例において、メモリ220は、1つ以上のプロセッサ(例えば、プロセッサ210)によって実行されるときに、該1つ以上のプロセッサに、ここに更に詳述される計数方法を実行させ得る実行可能コードを含んだ、非一時的な有形の機械読み取り可能媒体を含み得る。一部の例において、質問応答モジュール230は、ハードウェア、ソフトウェア、及び/又はハードウェアとソフトウェアとの組み合わせを用いて実装され得る。図示のように、コンピューティング装置200は、質問応答モジュール230に提供されるものである自然言語コンテキスト240と自然言語コンテキスト240に関する自然言語クエスチョン(質問)250とを受信し、そして、質問応答モジュール230が、自然言語コンテキスト240の内容に基づいて、自然言語クエスチョン250に対する自然言語アンサー(回答)260を生成する。
図3は、一部の実施形態に従ったマルチタスク質問応答のためのシステム300の簡略図である。システム300は、自然言語コンテキストc及び自然言語クエスチョンqを受信する。コンテキストc及びクエスチョンqの各々が、システム300による処理のためにベクトルにエンコードされる。一部の例において、コンテキストc及びクエスチョンqの中の単語の各々が、単語符号化を使用してエンコードされる。一部の例において、各単語の符号化は、各単語がR300の要素としてエンコードされるGloVe符号化に基づく。一部の例において、各単語の符号化は、各単語がR100の要素としてエンコードされる文字n−gram符号化に基づく。一部の例において、各単語の符号化は、GloVe符号化と文字n−gram符号化との連結に基づく。一部の例において、単語に対してGloVe及び/又は文字n−gram符号化が存在しない(例えば、その単語が英語でない)場合、GloVe符号化と同じ平均及び標準偏差(例えば、平均ゼロ及び標準偏差0.4)を持つ正規分布からランダムな符号化が選択され、それぞれの単語の各出現に対して一貫して同じランダムな符号化が使用される。
次いで、コンテキストcの符号化が線形(Linear)レイヤ310に渡され、クエスチョンqの符号化が線形レイヤ315に渡される。線形レイヤ310及び315は各々、式1と一致するそれぞれの伝達関数を実装し、ここで、W及びbは、それぞれの線形レイヤ310又は315の重み及びバイアスであり、aは、それぞれの線形レイヤ310又は315の出力であり、xは、それぞれの線形レイヤ310又は315への入力であり、fは、例えば純線形関数、飽和線形関数、及び/又はこれらに類するものなどの、それぞれの線形レイヤ310又は315の線形伝達関数である。一部の例において、線形レイヤ310及び315は、コンテキストc及びクエスチョンqに関する符号化の次元を削減する。一部の例において、符号化の次元は、各エンコーディングがR300の要素であるものまで削減される。
Figure 2021513165
線形レイヤ310によって出力される符号化は、1レイヤの双方向の長短期メモリネットワーク(bidirectional long short-term memory network;biLSTM)320によって更にエンコードされて、
Figure 2021513165
(以下、cとも表記する)を形成し、線形レイヤ315によって出力される符号化は、1レイヤのbiLSTM325によって更にエンコードされて、
Figure 2021513165
(以下、qとも表記する)を形成する。一部の例において、biLSTM320及び/又は325は、コンテキストc及びクエスチョンqに関する符号化の次元を更に削減し得る。biLSTM320及び325の各々は、各時間ステップiにおいて出力を、式2に従ったh 及びh の連結としてのhとして生成し、ここで、xは、それぞれのbiLSTMへの入力であり、LSTMは長期短期メモリネットワークに相当する。一部の例において、biLSTM320及び/又は325は、200なる隠れサイズ(hidden size)を持ち、c及びqの符号化の次元をR200の要素まで更に削減する。
Figure 2021513165
次いで、出力c及びqが、コアテンション(Coattention)レイヤ330に渡される。コアテンションレイヤ330は、先ず、cの先頭にコンテキストセンチネルベクトルを追加し、cの先頭にクエスチョンセンチネルベクトルを追加する。これらのセンチネルベクトルは、コアテンションレイヤ330のコアテンション機構が2つのシーケンス間でトークンの全てを揃えないようにすることを可能にする。コアテンションレイヤ330は、次いで、ベクトルc及びqを時間次元に沿って積み重ねて、それぞれ、
Figure 2021513165
(以下、C^及びQ^とも表記する)を得る。コアテンションレイヤ330は、次いで、式3に従ってアフィニティ行列Aを生成する。
Figure 2021513165
コアテンションレイヤ330は、次いで、式4を用いて各シーケンスにわたってA及びAのアテンション重みを生成し、ここで、softmax(X)は、Xの列にわたって正規化するものである。
Figure 2021513165
コアテンションレイヤ330は、次いで、アテンション重みA及びAを用い、それぞれ、式5を使用して、コンテキスト及びクエスチョンの重み付けられた総和をC及びQとして生成する。
Figure 2021513165
コアテンションレイヤ330は、次いで、C及びQとの連結としてコアテンションサマリーSを生成する。コアテンションサマリーSはベクトルのシーケンスを含み、センチネル位置に対応するsからの最初のベクトルが落とされ得る。そして、SがbiLSTM340に渡され、biLSTM340が出力s^を生成し、それに位置符号化が追加される。
次いで、出力s^が、多層のセルフアテンションベースのトランスフォーマに渡され、それらが、多層セルフアテンションベーストランスフォーマのレイヤiの各々について符号化s を生成する。図3に示すように、多層セルフアテンションベーストランスフォーマは、トランスフォーマ(Transformer)レイヤ351及び352を含む。2つのレイヤを有する多層セルフアテンションベーストランスフォーマが示されているが、一部の実施形態において、多層セルフアテンションベーストランスフォーマは、単一のレイヤのみ又は3つ以上のレイヤを含み得る。各トランスフォーマレイヤ351及び352は、図4及び5に関して更に詳細に後述するように、残余接続及びレイヤ正規化と共に、位置的に完全に接続されたフィードフォワードネットワークに続かれた、マルチヘッドのセルフアテンション機構を含む。
図4は、一部の実施形態に従ったアテンションネットワーク400の簡略図である。図4に示すように、アテンションネットワーク400は、クエリq∈Rdq、キーk∈Rdk、及び値v∈Rdvを受信する。q、k、及びvの各々は、式6−式8に従ってそれぞれの重みW410、W420、及びW430を被る。重みW410、W420、及びW430は、逆伝搬を用いて訓練中に変更される。
Figure 2021513165
得られたQベクトル、Kベクトル、及びVベクトルが、QとKとの内積を生成するアテンション伝達関数440を通され、それが式9に従ってVに適用される。
Figure 2021513165
次いで、アテンションネットワーク400による学習の速度を改善する残余接続を提供するために、付加及び正規化モジュール450を用いて、クエリqをアテンション伝達関数からの出力と結合する。付加及び正規化モジュール450は式10を実装し、ここで、μ及びσは、それぞれ、入力ベクトルの平均及び標準偏差であり、gは、レイヤ正規化をスケーリングするための利得パラメータである。付加及び正規化モジュール450からの出力が、アテンションネットワーク400の出力である。
Figure 2021513165
アテンションネットワーク400は、しばしば、2つの変形形態で使用される。第1の変形形態は、マルチヘッドアテンションレイヤであり、アテンションネットワーク400と一致する複数のアテンションネットワークが並列に実装され、マルチヘッドアテンションネットワークの“ヘッド”の各々が、異なる値に初期化され且つそれ故に異なる符号化を学習するように訓練されるそれ自身の重みWQ410、WK420、及びWV430を持つ。次いで、それらのヘッドの各々からの出力が共に連結されて、マルチヘッドアテンションレイヤの出力を形成する。第2の変形形態は、アテンションネットワークの各ヘッドに対するq、k、及びv入力が同じマルチヘッドアテンションレイヤであるセルフアテンションレイヤである。
セルフアテンションベースのレイヤは、2017年6月12日に提出された、Vaswani, et al.,“Attention is All You Need”,arXiv preprint arXiv:1706.03762に更に記載されており、その全体をここに援用する。
図5は、一部の実施形態に従ったアテンションベースのトランスフォーマネットワークのレイヤ500の簡略図である。一部の実施態様によれば、システム300の各トランスフォーマレイヤ351及び/又は352がレイヤ500と一致する。図5に示すように、レイヤ500は、符号化レイヤ510及び復号化レイヤ520を含む。
符号化レイヤ510は、レイヤ入力(例えば、符号化スタック内の最初のレイヤに対する入力ネットワークから、又は符号化スタックの他の全てのレイヤに対する次に最も下のレイヤのレイヤ出力から)を受信し、それをマルチヘッドアテンションレイヤ511の3つ全ての入力(q、k、及びv)に提供し、従って、マルチヘッドアテンションレイヤ511は、セルフアテンションネットワークとして構成される。マルチヘッドアテンションレイヤ511の各ヘッドは、アテンションネットワーク400と一致する。一部の例において、マルチヘッドアテンションレイヤ511は3つのヘッドを含んでいるが、例えば2つ又は4つ以上など、他のヘッド数も可能である。一部の例において、各アテンションレイヤは、200なる次元、及び128なる隠れサイズを持つ。マルチヘッドアテンションレイヤ511の出力が、フィードフォワードネットワーク512に提供され、フィードフォワードネットワーク512の入力及び出力の両方が、付加及び正規化モジュール513に提供され、付加及び正規化モジュール513が、符号化レイヤ510に関するレイヤ出力を生成する。一部の例において、フィードフォワードネットワーク512は、式11を実装するものである二層のパーセプトロンネットワークであり、ここで、γはフィードフォワードネットワーク512への入力であり、M及びbは、それぞれ、パーセプトロンネットワーク内のレイヤの各々の重み及びバイアスである。一部の例において、付加及び正規化モジュール513は、付加及び正規化モジュール450と実質的に同様である。
Figure 2021513165
復号化レイヤ520は、レイヤ入力(例えば、復号化スタック内の最初のレイヤに対する入力ネットワークから、又は復号化スタックの他の全てのレイヤに対する次に最も下のレイヤのレイヤ出力から)を受信し、それをマルチヘッドアテンションレイヤ521の3つ全ての入力(q、k、及びv)に提供し、従って、マルチヘッドアテンションレイヤ521は、セルフアテンションネットワークとして構成される。マルチヘッドアテンションレイヤ521の各ヘッドは、アテンションネットワーク400と一致する。一部の例において、マルチヘッドアテンションレイヤ521は3つのヘッドを含んでいるが、例えば2つ又は4つ以上など、他のヘッド数も可能である。マルチヘッドアテンションレイヤ521の出力は、別のマルチヘッドアテンションレイヤ522へのq入力として提供され、マルチヘッドアテンションレイヤ522のk及びv入力は、対応する符号化レイヤからの符号化出力を提供される。マルチヘッドアテンションレイヤ521の各ヘッドは、アテンションネットワーク400と一致する。一部の例において、マルチヘッドアテンションレイヤ522は3つのヘッドを含んでいるが、例えば2つ又は4つ以上など、他のヘッド数も可能である。一部の例において、各アテンションレイヤは、200なる次元、及び128なる隠れサイズを持つ。マルチヘッドアテンションレイヤ522の出力が、フィードフォワードネットワーク523に提供され、フィードフォワードネットワーク523の入力及び出力の両方が、付加及び正規化モジュール524に提供され、付加及び正規化モジュール524が、復号化レイヤ520に関するレイヤ出力を生成する。一部の例において、フィードフォワードネットワーク523、付加及び正規化モジュール513は、それぞれ、フィードフォワードネットワーク512、付加及び正規化モジュール513と実質的に同様である。
戻って図3を参照するに、多層セルフアテンションベーストランスフォーマの符号化側の出力(例えば、図3の例における(s2〜)が、biLSTM360に渡され、それが、最終的な符号化シーケンスhを生成する。そして、この最終的な符号化シーケンスhが、図6に関して更に詳細に後述するような単語ジェネレータ370に渡される。
多層セルフアテンションベーストランスフォーマの復号側の出力は、ベクトルのシーケンスzである。ベクトルのシーケンスzも単語ジェネレータ370に渡され、そして、解答pにおける単語の各々が生成されるときに、それらが多層セルフアテンションベーストランスフォーマの復号側の最初のレイヤに戻される。
図6は、一部の実施形態に従った単語ジェネレータ370の簡略図である。単語ジェネレータ370は、zを一連の入力ベクトルとして扱うとともに、hをそれのアテンション用のコンテキストとして扱う。単語ジェネレータは、繰り返し動作して、システム300に関するアンサーpを生成する。アンサーpは、先ず、完全なアンサーpが生成された後に削除されるものであるセンチネルエントリを用いて初期化される。更に後述するように、各繰り返しt(図6に下付き文字によって表記される)において、アンサーにおける次の単語がpとして生成される。
時間ステップtにて、1つのレイヤの一方向LSTM610が、多層セルフアテンションベーストランスフォーマのデコーダ側からの前の入力zt−1と前の時間ステップtからの前の隠れ状態ht−1 との連結、並びに前のコンテキスト調整済み隠れ状態ht−1 decに基づいて、式12を用いて、コンテキスト調整済み隠れ状態h decを生成する。
Figure 2021513165
次いで、アテンションレイヤ620が、最終的な符号化シーケンスhと、コンテキスト調整済み隠れ状態h decとに基づいて、式13を用いて、現在のデコーダ状態に対する各符号化時間ステップの関連性を表すアテンション重みのベクトルαを生成し、ここで、Hは、時間次元にわたって積み重ねられたhの要素であり、W及びbは、アテンションレイヤ620についての訓練可能な重み及びバイアスである。
Figure 2021513165
次いで、tanhレイヤ630及びsoftmaxレイヤ640を含む用語集レイヤが、アンサーpの次の単語pとしての候補である用語集内の単語pvocab(w)の各々にわたる分布を生成する。tanhレイヤ630は、アテンション重みα、最終的な符号化シーケンスh、及びコンテキスト調整済み隠れ状態h decに基づいて、式14を用いて、現在の時間ステップについての隠れ状態h を生成し、ここで、Hは時間次元にわたって積み重ねられたhの要素であり、W及びbは、tanhレイヤ630についての訓練可能な重み及びバイアスである。
Figure 2021513165
softmaxレイヤ640が、アンサーpの次の単語pとしての候補である用語集内の単語pvocab(w)の各々にわたる分布を、式15を用いて、隠れ状態h に基づいて生成し、ここで、Wout及びboutは、softmaxレイヤ640についての訓練可能な重み及びバイアスである。
Figure 2021513165
コンテキストレイヤ650が、アンサーpの次の単語pとしての候補であるコンテキストc内の単語pcopy(w)の各々にわたる分布を、式16を用いて、アテンション重みαに基づいて生成する。
Figure 2021513165
スイッチ660が、pvocab(w)分布とpcopy(w)分布とを互いに対してどのように重み付けるかを決定する。スイッチ660は、先ず、隠れ状態h と、コンテキスト調整済み隠れ状態h decと、多層セルフアテンションベーストランスフォーマのデコーダ側からの前の入力zt−1との連結に基づいて、式17を用いて、重み付け係数γを生成し、ここで、σは、例えば対数シグモイド、双曲線正接シグモイド、及び/又はこれらに類するものなどのシグモイド伝達関数を表し、Wswitchは、重み付け係数レイヤについての訓練可能な重みである。一部の例において、重み付け係数γは更に訓練可能なバイアスbswitchを用いて決定されてもよい。
Figure 2021513165
スイッチ660は、次いで、重み付け係数γを使用して、用語集内の単語及びコンテキスト内の単語の結合にわたる最終的な出力分布を、式18を用いて生成する。そして、最も大きい重みを持つp(w)内の単語に基づいて、アンサーpにおける次の単語pを決定することができる。
Figure 2021513165
上述のように、また、ここで更に強調するように、図3は、請求項の範囲を不当に限定するはずのない単なる例に過ぎない。当業者、数多くの変形、代替、及び変更を認識することになる。一部の実施形態によれば、システム300内のレイヤのうち1つ以上はオプションであり、省略されてもよい。一部の例において、線形レイヤ310及び/又は315はオプションであり、コンテキストc及びクエスチョンqに使用される符号化を、それぞれ、biLSTM320及び325に直接渡すこととして、省略され得る。一部の例において、biLSTM320及び/又は325はオプションであり、線形レイヤ310及び315の出力をコアテンションレイヤ330に直接通すこととして、省略され得る。一部の例において、線形レイヤ310及び315並びにbiLSTM320及び325はオプションであり、コンテキストc及びクエスチョンqに使用される符号化をコアテンションレイヤ330に直接渡すこととして、省略され得る。
システム300は、複数のタスク(例えば、分類(例えば感情分析など)、言語翻訳、及び質問応答)に使用され、全てのタスクタイプにわたって様々なレイヤに関するそのパラメータを共有するので、注意深く訓練されない場合には、壊滅的忘却の影響を受けやすい。これに対処するため、一部の実施形態において、システム300は、統合的(ジョイント)戦略に従って訓練されることができ、これは、複数のタスクタイプの各々のバランスのとれた混ぜ合わせに対して同時にシステム300を訓練するように訓練サンプルが提示される順序を用いて、システム300が訓練されるというものである。すなわち、この、訓練サンプルがシステム300に提示される順序は、立て続けの訓練サンプル又は立て続けの小グループ(例えば、2個から10個くらい)の訓練サンプルを異なるタスクタイプから選択する。一部の例において、統合的戦略は、訓練の各繰り返しで、複数のタスクタイプのうちの異なる1つから訓練サンプル(コンテキストc、クエスチョンq、及びグラウンドトゥルースアンサー)を選択することを含む。統合的戦略の目標は、1つのタスクタイプを別の1つよりも過度に重視重することなく、タスクタイプの各々に対して同時に訓練することである。しかしながら、実際には、システム300は、タスクタイプの各々を学習するが、タスクタイプのうちのいずれについても特別よくは学習しない。統合訓練戦略は、Collobert, et al.,“A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning”,International Conference on Machine Learning 2008,pp.160−167、及びHashimoto, et al.,“A Joint Many-task Model: Growing a Neural Network for Multiple NLP Tasks”,Conference on Empirical Methods in Natural Language Processing,2017,pp.1923-33にもっと詳細に記載されており、それらの各々の全体をここに援用する。
一部の実施形態において、システム300は、逐次訓練戦略に従って訓練されることができ、これは、タスクタイプの各々に対してシステム300を個別に訓練するように訓練サンプルがシステム300に提示される順序を用いて、システム300が訓練されるものである。すなわち、この、訓練のために訓練サンプルがシステム300に提示される順序は、第1のタスクタイプについてのサンプルの各々を提示してから、第2のタスクタイプについての訓練サンプルの各々を提示し、その後で、第1のタスクタイプについてのサンプルの各々を再び提示する、等々と続ける。逐次訓練戦略では、タスクタイプのうちの1つに対する訓練が終了し、訓練がタスクタイプのうちの2つ目に切り替わると、最初のタスクタイプの幾らかの壊滅的忘却が発生し始める。しかしながら、タスクタイプの各々についての訓練サンプルを代わる代わる複数回通った後、システム300は、以前に訓練したタスクタイプの各々に関する訓練をより迅速に回復して、潜在知識を集め始める。一部の例において、訓練がタスクタイプ間で切り替わるときに生じる壊滅的忘却のために、システム300は概して、最後に訓練したタスクタイプの強い学習を示すのみである。逐次訓練戦略は、Kirkpatrick, et al.,“Overcoming Catastrophic Forgetting in Neural Networks”,Proceedings of the National Academy of Sciences,2017,pp.3521−3526にもっと詳細に記載されており、その全体をここに援用する。
一部の実施形態において、統合訓練戦略及び逐次訓練戦略の限界に対処することにおける試みが提案される。一部の例において、これらは、計算的に高価なフィッシャー(Fisher)インフォメーションの生成、全てのタスクタイプに対する統一システムの目標に負の影響を与えるものであるタスク特有の変更(例えば、パッキング及び/又は適応戦略)の使用、及び/又はこれらに類するものを含む。
一部の実施形態において、システム300は、ハイブリッド訓練戦略に従って訓練され得る。ハイブリッド訓練戦略において、システム300は、最初に逐次訓練戦略を用いて訓練される。これは、システム300が、タスクタイプの各々の潜在知識を集めることを可能にする。タスクタイプの各々についての訓練サンプルを何回か通った後、システム300は、統合訓練戦略を用いて訓練される。最初の逐次訓練からの潜在知識のため、続く統合訓練は、マルチタスクを実行しながらも、最初の逐次訓練なしの統合訓練単独よりも効果的にタスクタイプの各々を学習することができる。システム300が最初の逐次訓練中に前もって訓練したタスクタイプを潜在知識へと完全に抑え込むことを可能にすることによって、ハイブリッド訓練戦略は、システム300に、タスクタイプの各々に特化することに集中するためのより多くの時間を与える。一部の例において、ハイブリッド訓練戦略は、全てのタスクタイプをまとめてどのように学習するかを学ぶことから、各タスクタイプを学習するという目標を切り離す。従って、訓練が統合訓練戦略に切り替わるとき、システム300は、タスクタイプの各々をよく学習する準備がよく整っている。
一部の実施形態において、システム300は、ハイブリッド訓練戦略の変形である合成訓練戦略に従って訓練される。合成訓練戦略において、システム300は、最初に逐次訓練戦略を用いて訓練されるが、逐次訓練の間に一定のインターバル且つ一定回数の繰り返しで、訓練が、前に訓練したタスクタイプの各々に統合訓練戦略に切り替わり、そしてその後に逐次訓練戦略に戻る。以前に学習したタスクタイプについての統合訓練戦略に一時的に切り替わることによって、システム300は、古いタスクタイプをより頻繁に思い出すとともに、古い知識を新しい知識と合成することを余儀なくされる。
図7は、一部の実施形態に従ったマルチタスク学習の方法700の簡略図である。方法700の処理710−780のうちの1つ以上は少なくとも部分的に、1つ以上のプロセッサによって実行されるときに該1つ以上のプロセッサに処理710−780のうちの1つ以上を実行させ得る、非一時的な有形の機械読み取り可能媒体に格納された実行可能コードの形態で実装され得る。一部の実施形態において、方法700は、システム300を訓練するためのハイブリッド訓練戦略として使用され得るが、方法700はまた、システム300以外の他のマルチタスクシステムを訓練するためにも使用され得る。一部の実施形態において、方法700によって訓練されるタスクタイプは、例えば言語翻訳、分類(例えば、感情分析)、質問応答、及び/又はこれらに類するものなどの、様々な自然言語処理タスクのうちのいずれかを含み得る。
処理710にて、第1の訓練戦略に従って訓練サンプルが選択される。一部の実施形態において、第1の訓練戦略は逐次訓練戦略であり、第1のタスクタイプに関する訓練サンプルの各々が選択されるまで第1のタスクタイプに関する訓練サンプルから訓練サンプルが選択され、その後、第1のタスクタイプとは異なる第2のタスクタイプに関する訓練サンプルの各々が選択されるまで、第2のタスクタイプから訓練サンプルが選択される。次いで、存在する場合に、順次に更なるタスクタイプから訓練サンプルが選択され、それらのタスクタイプの各々に関する訓練サンプルの各々が選択された後に、次のタスクタイプに切り替えが起こる。一部の例において、選択される訓練サンプルは、自然言語コンテキストと、自然言語クエスチョンと、コンテキスト及びクエスチョンに対応するグラウンドトゥルース自然言語アンサーとを含む。
処理720にて、選択された訓練サンプルがシステムに提示される。一部の例において、システムはシステム300である。訓練サンプルがシステムに与えられると、訓練サンプルが、現在訓練されているパラメータ(例えば、重み及びバイアス)に従ってシステムの様々なレイヤを通って前方に送られ、アンサーが生成される。一部の例において、アンサーは自然言語フレーズである。
処理730にて、誤差に基づいてシステムが調整される。処理720中にシステムによって生成されたアンサーが、選択された訓練サンプルについてのグラウンドトゥルースアンサーと比較され、選択された訓練サンプルについての誤差が決定される。次いで、その誤差が、レイヤの様々なパラメータ(例えば、重み及びバイアス)を更新するために、逆伝搬を用いてシステム300にフィードバックされ得る。一部の例において、逆伝搬は、確率的勾配降下(stochastic gradient descent;SGD)訓練アルゴリズム、適応モーメント推定(adaptive moment estimation;ADAM)訓練アルゴリズム、及び/又はこれらに類するものを使用して実行され得る。一部の例において、逆伝搬に使用される勾配は、1.0にクリップされ得る。一部の例において、学習減衰レートは、2017年6月12日に提出された、Vaswani, et al.,“Attention is All You Need”,arXiv preprint arXiv:1706.03762によって使用されたものと同じレートとし得る。
処理740にて、第1の訓練戦略から第2の訓練戦略に切り替えるべきかが決定される。一部の例において、第2の訓練戦略に切り替えるべきとの決定は、タスクタイプの各々に関する訓練サンプルの各々が所定の回数だけ選択された後に行われる。一部の例において、この所定の回数は5回とし得るが、例えば3回、4回、及び/又は6回以上などの、他の回数も使用され得る。一部の例において、第2の訓練戦略にいつ切り替えるべきかについての決定を行うために、1つ以上の他のファクタが使用されてもよい。一部の例において、該1つ以上の他のファクタは、訓練サンプルを通る各パスでタスクタイプの各々についての性能メトリックの変化を監視し、そして、各パス後の性能メトリックの各々における向上が閾値量よりも小さくしか向上しない場合に切り替えを行うことを含み得る。第2の訓練戦略に切り替えないと決定された場合、方法700は、処理710に戻り、第1の訓練戦略に従って訓練サンプルが選択され続ける。第2の学習訓練戦略に切り替えると決定された場合、処理750で始まる第2の訓練戦略を用いて訓練サンプルの選択が行われる。
処理750にて、第2の訓練戦略に従って訓練サンプルが選択される。一部の例において、第2の訓練戦略は統合訓練戦略であり、複数のタスクタイプの各々に関する訓練サンプルから等しく訓練サンプルが選択される。
処理760にて、処理720と実質的に同じ処理を使用して、選択された訓練サンプルがシステムに提示される。
処理770にて、処理730と実質的に同じ処理を使用して、誤差に基づいてシステムが調整される。
処理780にて、訓練が完了したかが決定される。一部の例において、訓練は、タスクタイプの各々に関する訓練サンプルが所定の回数だけシステムに提示された後に完了する。一部の例において、この所定の回数は8回とし得るが、例えば2−7回及び/又は9回以上などの他の回数も使用され得る。一部の例において、訓練が終了したときについての決定を行うために、1つ以上の他のファクタが使用されてもよい。一部の例において、該1つ以上の他のファクタは、訓練サンプルを通る各パスでタスクタイプの各々についての性能メトリックの変化を監視し、そして、各パス後の性能メトリックの各々における向上が閾値量よりも小さくしか向上しない場合に訓練が完了したとすることを含み得る。訓練が完了していないと決定された場合、方法700は、処理750に戻り、第2の訓練戦略に従って訓練サンプルが選択され続ける。訓練が完了したと決定された場合、方法700は終了し、この訓練済みのシステムは、もはや、それに関して訓練したタスクのいずれに対しても使用されることができる。
訓練が完了した後、訓練済みのシステムは、処理720及び/又は760と実質的に同様の処理を使用して、タスクタイプのいずれに対しても使用されることができ、コンテキストc及びクエスチョンqが、システムに提示され、方法700に従って訓練されたパラメータ(例えば、重み及びバイアス)に従って、システムの様々なレイヤを通って前方に送られ得る。そして、生成されるアンサーは、提示されたコンテキストc及びクエスチョンqへの応答に相当する。
上述のように、また、ここで更に強調するように、図7は、請求項の範囲を不当に限定するはずのない単なる例に過ぎない。当業者、数多くの変形、代替、及び変更を認識することになる。一部の実施形態において、方法700は、合成訓練戦略を使用するように適応される。合成訓練戦略において、第1の訓練戦略は逐次訓練戦略の変形であり、第2の訓練戦略は統合訓練戦略とし得る。逐次訓練戦略の変形は概して、訓練サンプルが統合訓練戦略に従って選択される時のインターバル中を除いて、逐次訓練戦略に従って訓練サンプルを選択することを含む。一部の例において、統合訓練戦略インターバルの位置及び配置は、各タスクタイプについての訓練の繰り返し回数(例えば、訓練サンプルがシステムに提示される回数)に基づき得る。非限定的な一例として、訓練サンプルの選択は、第1のタスクタイプについて10,000個の訓練サンプルを選択し、複数のタスクタイプの各々から統合的に1000個の訓練サンプルを選択し、第1のタスクタイプについて別の10,000個の訓練サンプルを選択し、複数のタスクタイプの各々から統合的に1000個の訓練サンプルを選択し、そして、第1のタスクタイプの訓練サンプルの各々が提示されるまで繰り返し、その後、第2のタスクタイプについて10,000個の訓練サンプルを選択し、等々とすることを含み得る。一部の例において、逐次型の選択と統合型の選択との間で交番させる前の訓練サンプルの数は、各タスクタイプに関する訓練サンプルの数のパーセンテージに基づいてもよい(例えば、それぞれのタスクタイプに関する訓練サンプルの数の10%から25%までのどこかの後)。
図8は、一部の実施形態に従った訓練性能の簡略図である。より具体的には、図8は、英語からドイツ語への(英独)言語翻訳、英語からフランス語への(英仏)言語翻訳、質問応答、及び感情分類、という4つのタスクタイプに従ってシステム300を訓練した結果を示している。
英語からドイツ語への及び英語からフランス語への翻訳タスクタイプに関する訓練サンプルは、音声翻訳国際ワークショップ(International Workshop on Spoken Language Translation)の英語からドイツ語(IWSLT EN−>DE)及び英語からフランス語(IWSLT EN−>FR)の訓練セットに基づいており、これらは、TEDトークから音声転写された約210,000の文章ペアを含んでいる。これら2つの言語翻訳タスクタイプに使用される性能メトリックは、BLEUスコアである。
質問応答タスクタイプに関する訓練サンプルは、Wikipedia記事からの段落サンプルに関連する質問に基づく10,570の訓練サンプルを含むものであるスタンフォード質問応答データセット(Stanford Question Answering Dataset;SQuAD)に基づく。質問応答タスクタイプに使用される性能メトリックは、F1スコアである。
感情分類タスクタイプに関する訓練サンプルは、中立的な例が除されたスタンフォード感情ツリーバンク(Stanford Sentiment Treebank;SST)に基づく。SSTは、映画レビューとその感情に基づいた約56,400の訓練サンプルを含んでいる。感情分類タスクタイプに使用される性能メトリックは、完全一致のパーセンテージである。
図8は更に、前述の性能メトリックに従った各タスクタイプの学習結果を示している。各タスクタイプについて3つの結果が示されている。シングル(単一)の欄は、示されたタスクタイプに関する訓練サンプルのみを使用してシステム300が訓練される場合のそれぞれの性能メトリックを示している。ジョイント(統合)の欄は、統合訓練戦略を使用してシステム300が訓練される場合の同じ性能メトリックを示している。ハイブリッド(混成)の欄は、方法700のハイブリッド訓練戦略を使用してシステム300が訓練される場合の同じ性能メトリックを示している。予期されるように、シングルタスクタイプ訓練結果が最も高い性能メトリックを有する。何故なら、システム300の各バージョンが、その単一タスクに特化することを許されたからである。ジョイントの欄は、統合訓練戦略の使用が著しく乏しい結果をもたらすことを示しており、ハイブリッドの欄は、統合訓練戦略に対して、方法700のハイブリッド訓練戦略を用いることでの改善を示している。また、感情分類タスクタイプを例外として、方法700のハイブリッド訓練戦略は、統合訓練戦略よりもかなり優れた性能結果をもたらした。
図9A−9Cは、一部の実施形態に従った訓練性能の簡略図である。図9Aは、システム300がタスクタイプの各々に対して別々に訓練される場合の、タスクタイプの各々についてのそれぞれの性能メトリックを、訓練の繰り返しにわたって追跡している(例えば、図8のシングルの欄と比較されたい)。故に、図9Aは、システム300の4つの別々に訓練されたバージョンについての結果を示している。図9Bは、システム300が統合訓練戦略に従って訓練される場合のそれぞれの性能メトリックを追跡している。図9Bの性能メトリックが示すように、SST分類タスクタイプ以外では、統合訓練戦略を用いて訓練されたシステム300のバージョンは、タスクタイプのいずれについても特によくは学習しなかった。図9Cは、システム300が方法700のハイブリッド訓練戦略に従って訓練される場合のそれぞれの性能メトリックを追跡している。当初の逐次訓練中に訓練サンプルが1つのタスクタイプから別の1つに切り替わるときの壊滅的忘却の効果が、図9Cに明瞭に見えている。複数のタスクタイプの各々からの訓練サンプルが、逐次訓練戦略を用いて5回提示され、そして、(約250,000の繰り返しにて)訓練戦略が統合訓練戦略に切り替わった後、性能メトリックは、図9Bの統合訓練戦略のみのアプローチの性能メトリックよりも良い値に急速に向上し、図9Aの別々に訓練されたシステム300のバージョンの性能メトリックにいっそう近づく。
図10A及び10Bは、一部の実施形態に従った訓練順序に基づく訓練性能の簡略図である。図10A及び10Bは、ハイブリッド訓練戦略の初期の逐次訓練中に様々なタスクタイプについての訓練がシステム300に提示される順序を変更することの影響を例証している。図10Aに示されるように、システム300が、最初に英語からドイツ語への言語翻訳タスクタイプからの訓練サンプル(IWSLT EN−>DE)で訓練されてから、感情分類タスクタイプからの訓練サンプル(SST)で訓練される場合、システム300は、再び訓練サンプルが英語からドイツ語への言語翻訳タスクタイプから引き出されるときに、その英語からドイツ語への翻訳知識を迅速に回復することができる。対照的に、図10Bが示すことには、システム300が、最初に感情分類タスクタイプに対して訓練されてから、英語からドイツ語への言語翻訳タスクタイプに対して訓練される場合には、システム300は、英語からドイツ語への言語翻訳タスクタイプをあまりよく学習することができない。これは、英語からドイツ語への言語翻訳タスクタイプに対する最初の訓練が、訓練サンプルの非常に高い複雑さ及び豊富さのために、より良好な初期エンコーディング知識につながるからであると推測される。
例えばコンピューティング装置100などのコンピューティング装置の一部の例は、1つ以上のプロセッサ(例えば、プロセッサ210)によって実行されるときに該1つ以上のプロセッサに方法700の処理を実行させる実行可能コードを含んだ、非一時的な有形の機械読み取り可能媒体を含み得る。方法700の処理を含み得る機械読み取り可能媒体の一部の一般的な形態は、例えば、フロッピーディスク(登録商標)、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD−ROM、他の光媒体、パンチカード、紙テープ、穴のパターンを有する他の物理媒体、RAM、PROM、EPROM、FLASH−EPROM、他のメモリチップ若しくはカートリッジ、及び/又はプロセッサ若しくはコンピュータが読み出すように適応される他の媒体を含み得る。
発明の態様、実施形態、実装、又は用途を例示するこの明細書及び添付の図面は、限定的なものと解釈されるべきでない。この説明及び請求項の精神及び範囲から逸脱することなく、種々の機械的、組成的、構造的、電気的、及び動作的な変更が為され得る。一部の例において、この開示の実施形態を不明瞭にしないために、周知の回路、構造、又は技術については詳細に図示したり説明したりしていない。2つ以上の図における似通った参照符号は、同じ又は同様の要素を表している。
この説明においては、本開示と一貫した一部の実施形態を記述する具体的詳細事項が記載されている。それらの実施形態の完全な理解を提供するために、数多くの具体的詳細事項が記載される。しかしながら、当業者に明らかになることには、一部の実施形態は、それらの具体的詳細事項の一部又は全てなしで実施され得る。ここに開示される特定の実施形態は、例示的なものであり、限定的なものではない。当業者は、ここに具体的に記載されていないが本開示の範囲及び精神の中にある他の要素に気付き得る。また、不要な繰り返しを避けるため、1つの実施形態に関連して図示して説明された1つ以上の機構が、別のことが具体的に記載されていない限り、あるいは、該1つ以上の機構が実施形態を機能しないものにしない限り、他の実施形態に組み込まれてもよい。
例示的な実施形態が図示されて説明されたが、以上の開示では、広範な変更、変形及び代替が企図され、また、一部の例では、実施形態の一部の機構が、他の機構の対応する使用なしに使用されてもよい。当業者は、数多くの変形、代替、及び変更を認識するであろう。従って、発明の範囲は、以下の請求項によってのみ限定されるべきであり、請求項は、ここに開示された実施形態の範囲と一致するように広く解釈されるのが妥当である。

Claims (20)

  1. 質問応答システムを訓練する方法であって、
    複数の訓練サンプルを受信し、前記訓練サンプルの各々が、自然言語コンテキスト、自然言語クエスチョン、及び自然言語グラウンドトゥルースアンサーを含み、前記訓練サンプルは、複数のタスクタイプからの訓練サンプルを含み、
    前記訓練サンプルを神経モデルに提示してアンサーを生成し、
    提示された各訓練サンプルについて、前記生成されたアンサーと前記自然言語グラウンドトゥルースアンサーとの間の誤差を決定し、そして、
    前記誤差に基づいて前記神経モデルのパラメータを調節する、
    ことを有し、
    前記訓練サンプルが前記神経モデルに提示される順序が、
    最初に、第1の順序に従って、前記複数のタスクタイプの各々からの訓練サンプルが前記神経モデルに提示される順序を制御するために使用される第1の訓練戦略に従って前記訓練サンプルを選択することと、
    第2の順序に従って、前記複数のタスクタイプの各々からの訓練サンプルが前記神経モデルに提示される順序を制御するために使用される第2の訓練戦略に従って前記訓練サンプルを選択することに切り替えることと、
    を含む、
    方法。
  2. 前記複数のタスクタイプの各々は、言語翻訳タスクタイプ、分類タスクタイプ、又は質問応答タスクタイプである、請求項1に記載の方法。
  3. 前記第1の訓練戦略は、第1のタスクタイプに関する前記訓練サンプルの各々が選択されてから第2のタスクタイプの訓練サンプルを選択するという逐次訓練戦略である、請求項1又は2に記載の方法。
  4. 前記逐次訓練戦略は、前記複数のタスクタイプの各々に関する訓練サンプルを選択した後に、前記第1のタスクタイプに関する訓練サンプルを再び選択することを含む、請求項3に記載の方法。
  5. 前記第2の訓練戦略は、続いて選択される訓練サンプルが前記複数のタスクタイプのうちの異なるものから選択されるように前記訓練サンプルの各々が選択されるという統合訓練戦略である、請求項1乃至4のいずれか一項に記載の方法。
  6. 前記第2の訓練戦略は、続いて選択される小グループの訓練サンプルが前記複数のタスクタイプのうちの異なるものから選択されるように前記訓練サンプルの各々が選択されるという統合訓練戦略である、請求項1乃至4のいずれか一項に記載の方法。
  7. 前記第1の訓練戦略は、前記訓練サンプルが逐次訓練戦略に従って選択され、周期的な間隔で前記訓練サンプルが統合訓練戦略に従って選択されるという修正逐次訓練戦略である、請求項1又は2に記載の方法。
  8. 前記複数のタスクタイプの各々に関する前記訓練サンプルの各々が所定回数だけ前記神経モデルに提示された後に、前記第2の訓練戦略を用いて前記訓練サンプルを選択することに切り替える、ことを更に有する請求項1乃至7のいずれか一項に記載の方法。
  9. 前記複数のタスクタイプの各々に関連する性能メトリックのモニタリングに基づいて、前記第2の訓練戦略を用いて前記訓練サンプルを選択することに切り替える、ことを更に有する請求項1乃至7のいずれか一項に記載の方法。
  10. 前記神経モデルは、
    前記コンテキストからの第1の単語及び前記クエスチョンからの第2の単語をエンコードする入力レイヤと、
    前記入力レイヤからの出力及びアンサーの一部を受信するエンコーダ及びデコーダを有するセルフアテンションベースのトランスフォーマと、
    前記エンコーダの出力を更にエンコードする双方向長期短期メモリ(biLSTM)と、
    前記デコーダの出力及び隠れ状態からコンテキスト調整された隠れ状態を生成する長期短期メモリ(LSTM)と、
    前記biLSTMの出力及びアテンション重みに基づいてアテンション重みを生成するアテンションネットワークと、
    前記アテンション重みに基づいて用語集の第3の単語にわたる分布を生成する用語集レイヤと、
    前記アテンション重みに基づいて前記コンテキストから前記第1の単語にわたる分布を生成するコンテキストレイヤと、
    スイッチであり、
    前記用語集からの前記第3の単語にわたる前記分布と前記コンテキストからの前記第1の単語にわたる前記分布との間の重み付けを生成し、
    前記用語集からの前記第3の単語にわたる前記分布と前記コンテキストからの前記第1の単語にわたる前記分布との前記重み付けに基づいて、複合分布を生成し、且つ
    前記複合分布を用いて前記アンサーに含める単語を選択する、
    ためのスイッチと、
    を有する、請求項1乃至9のいずれか一項に記載の方法。
  11. 複数の機械読み取り可能命令を有した非一時的な機械読み取り可能媒体であって、前記複数の機械読み取り可能命令は、コンピューティング装置に関連する1つ以上のプロセッサによって実行されるときに、該1つ以上のプロセッサに方法を実行させ、当該方法は、
    複数の訓練サンプルを受信し、前記訓練サンプルの各々が、自然言語コンテキスト、自然言語クエスチョン、及び自然言語グラウンドトゥルースアンサーを含み、前記訓練サンプルは、複数のタスクタイプからの訓練サンプルを含み、
    前記訓練サンプルを神経モデルに提示してアンサーを生成し、
    提示された各訓練サンプルについて、前記生成されたアンサーと前記自然言語グラウンドトゥルースアンサーとの間の誤差を決定し、そして、
    前記誤差に基づいて前記神経モデルのパラメータを調節する、
    ことを有し、
    前記訓練サンプルが前記神経モデルに提示される順序が、
    最初に、第1の順序に従って、前記複数のタスクタイプの各々からの訓練サンプルが前記神経モデルに提示される順序を制御するために使用される第1の訓練戦略に従って前記訓練サンプルを選択することと、
    第2の順序に従って、前記複数のタスクタイプの各々からの訓練サンプルが前記神経モデルに提示される順序を制御するために使用される第2の訓練戦略に従って前記訓練サンプルを選択することに切り替えることと、
    を含む、
    非一時的な機械読み取り可能媒体。
  12. 前記第1の訓練戦略は、第1のタスクタイプに関する前記訓練サンプルの各々が選択されてから第2のタスクタイプの訓練サンプルを選択するという逐次訓練戦略である、請求項11に記載の非一時的な機械読み取り可能媒体。
  13. 前記第2の訓練戦略は、続いて選択される訓練サンプルが前記複数のタスクタイプのうちの異なるものから選択されるように前記訓練サンプルの各々が選択されるという統合訓練戦略である、請求項11又は12に記載の非一時的な機械読み取り可能媒体。
  14. 前記第2の訓練戦略は、続いて選択される小グループの訓練サンプルが前記複数のタスクタイプのうちの異なるものから選択されるように前記訓練サンプルの各々が選択されるという統合訓練戦略である、請求項11又は12に記載の非一時的な機械読み取り可能媒体。
  15. 前記方法は更に、前記複数のタスクタイプの各々に関する前記訓練サンプルの各々が所定回数だけ前記神経モデルに提示された後に、前記第2の訓練戦略を用いて前記訓練サンプルを選択することに切り替えることを有する、請求項11乃至14のいずれか一項に記載の非一時的な機械読み取り可能媒体。
  16. ディープラーニング用のシステムであって、
    多層ニューラルネットワークを有し、
    当該システムは、
    複数の訓練サンプルを受信し、前記訓練サンプルの各々が、自然言語コンテキスト、自然言語クエスチョン、及び自然言語グラウンドトゥルースアンサーを含み、前記訓練サンプルは、複数のタスクタイプからの訓練サンプルを含み、
    前記訓練サンプルを神経モデルに提示してアンサーを生成し、
    提示された各訓練サンプルについて、前記生成されたアンサーと前記自然言語グラウンドトゥルースアンサーとの間の誤差を決定し、そして、
    前記誤差に基づいて前記神経モデルのパラメータを調節する、
    ように構成され、
    前記訓練サンプルが前記神経モデルに提示される順序が、
    最初に、第1の順序に従って、前記複数のタスクタイプの各々からの訓練サンプルが前記神経モデルに提示される順序を制御するために使用される第1の訓練戦略に従って前記訓練サンプルを選択することと、
    第2の順序に従って、前記複数のタスクタイプの各々からの訓練サンプルが前記神経モデルに提示される順序を制御するために使用される第2の訓練戦略に従って前記訓練サンプルを選択することに切り替えることと、
    を含む、
    システム。
  17. 前記第1の訓練戦略は、第1のタスクタイプに関する前記訓練サンプルの各々が選択されてから第2のタスクタイプの訓練サンプルを選択するという逐次訓練戦略である、請求項16に記載のシステム。
  18. 前記第2の訓練戦略は、続いて選択される訓練サンプルが前記複数のタスクタイプのうちの異なるものから選択されるように前記訓練サンプルの各々が選択されるという統合訓練戦略である、請求項16又は17に記載のシステム。
  19. 前記第2の訓練戦略は、続いて選択される小グループの訓練サンプルが前記複数のタスクタイプのうちの異なるものから選択されるように前記訓練サンプルの各々が選択されるという統合訓練戦略である、請求項16又は17に記載のシステム。
  20. 当該システムは更に、前記複数のタスクタイプの各々に関する前記訓練サンプルの各々が所定回数だけ前記神経モデルに提示された後に、前記第2の訓練戦略を用いて前記訓練サンプルを選択するように構成される、請求項16乃至19のいずれか一項に記載のシステム。
JP2020542861A 2018-02-09 2019-01-30 質問応答としてのマルチタスク学習 Active JP7109557B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862628850P 2018-02-09 2018-02-09
US62/628,850 2018-02-09
US15/974,075 US11501076B2 (en) 2018-02-09 2018-05-08 Multitask learning as question answering
US15/974,075 2018-05-08
PCT/US2019/015901 WO2019156873A1 (en) 2018-02-09 2019-01-30 Multitask learning as question answering

Publications (3)

Publication Number Publication Date
JP2021513165A true JP2021513165A (ja) 2021-05-20
JP2021513165A5 JP2021513165A5 (ja) 2021-07-01
JP7109557B2 JP7109557B2 (ja) 2022-07-29

Family

ID=67540543

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2020542614A Active JP6952201B2 (ja) 2018-02-09 2019-01-30 質問応答としてのマルチタスク学習
JP2020542861A Active JP7109557B2 (ja) 2018-02-09 2019-01-30 質問応答としてのマルチタスク学習
JP2021156339A Active JP7285895B2 (ja) 2018-02-09 2021-09-27 質問応答としてのマルチタスク学習

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020542614A Active JP6952201B2 (ja) 2018-02-09 2019-01-30 質問応答としてのマルチタスク学習

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021156339A Active JP7285895B2 (ja) 2018-02-09 2021-09-27 質問応答としてのマルチタスク学習

Country Status (5)

Country Link
US (3) US11501076B2 (ja)
EP (2) EP3750111A1 (ja)
JP (3) JP6952201B2 (ja)
CN (2) CN111712836B (ja)
WO (2) WO2019156873A1 (ja)

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US11501076B2 (en) 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US11227218B2 (en) 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
US10783875B2 (en) 2018-03-16 2020-09-22 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
US11106182B2 (en) 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US11600194B2 (en) * 2018-05-18 2023-03-07 Salesforce.Com, Inc. Multitask learning as question answering
US10909157B2 (en) 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
US10740536B2 (en) * 2018-08-06 2020-08-11 International Business Machines Corporation Dynamic survey generation and verification
US10970486B2 (en) 2018-09-18 2021-04-06 Salesforce.Com, Inc. Using unstructured input to update heterogeneous data stores
US11436481B2 (en) 2018-09-18 2022-09-06 Salesforce.Com, Inc. Systems and methods for named entity recognition
US11514915B2 (en) 2018-09-27 2022-11-29 Salesforce.Com, Inc. Global-to-local memory pointer networks for task-oriented dialogue
US11029694B2 (en) 2018-09-27 2021-06-08 Salesforce.Com, Inc. Self-aware visual-textual co-grounded navigation agent
US11087177B2 (en) 2018-09-27 2021-08-10 Salesforce.Com, Inc. Prediction-correction approach to zero shot learning
US11645509B2 (en) 2018-09-27 2023-05-09 Salesforce.Com, Inc. Continual neural network learning via explicit structure learning
US10891951B2 (en) * 2018-10-17 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
CN109543824B (zh) * 2018-11-30 2023-05-23 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
US10963652B2 (en) 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation
US11822897B2 (en) 2018-12-11 2023-11-21 Salesforce.Com, Inc. Systems and methods for structured text translation with tag alignment
CN109800294B (zh) * 2019-01-08 2020-10-13 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
US11922323B2 (en) 2019-01-17 2024-03-05 Salesforce, Inc. Meta-reinforcement learning gradient estimation with variance reduction
US11966389B2 (en) * 2019-02-13 2024-04-23 International Business Machines Corporation Natural language to structured query generation via paraphrasing
US11568306B2 (en) 2019-02-25 2023-01-31 Salesforce.Com, Inc. Data privacy protected machine learning systems
US11003867B2 (en) 2019-03-04 2021-05-11 Salesforce.Com, Inc. Cross-lingual regularization for multilingual generalization
US11366969B2 (en) 2019-03-04 2022-06-21 Salesforce.Com, Inc. Leveraging language models for generating commonsense explanations
US11580445B2 (en) 2019-03-05 2023-02-14 Salesforce.Com, Inc. Efficient off-policy credit assignment
US11087092B2 (en) 2019-03-05 2021-08-10 Salesforce.Com, Inc. Agent persona grounded chit-chat generation framework
US10902289B2 (en) 2019-03-22 2021-01-26 Salesforce.Com, Inc. Two-stage online detection of action start in untrimmed videos
US11281863B2 (en) 2019-04-18 2022-03-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction
US11487939B2 (en) 2019-05-15 2022-11-01 Salesforce.Com, Inc. Systems and methods for unsupervised autoregressive text compression
US11562251B2 (en) 2019-05-16 2023-01-24 Salesforce.Com, Inc. Learning world graphs to accelerate hierarchical reinforcement learning
US11604965B2 (en) 2019-05-16 2023-03-14 Salesforce.Com, Inc. Private deep learning
US11620572B2 (en) 2019-05-16 2023-04-04 Salesforce.Com, Inc. Solving sparse reward tasks using self-balancing shaped rewards
US11687588B2 (en) 2019-05-21 2023-06-27 Salesforce.Com, Inc. Weakly supervised natural language localization networks for video proposal prediction based on a text query
US11669712B2 (en) 2019-05-21 2023-06-06 Salesforce.Com, Inc. Robustness evaluation via natural typos
US11775775B2 (en) 2019-05-21 2023-10-03 Salesforce.Com, Inc. Systems and methods for reading comprehension for a question answering task
US11657269B2 (en) 2019-05-23 2023-05-23 Salesforce.Com, Inc. Systems and methods for verification of discriminative models
CN110427490B (zh) * 2019-07-03 2021-11-09 华中科技大学 一种基于自注意力机制的情感对话生成方法与装置
US11615240B2 (en) 2019-08-15 2023-03-28 Salesforce.Com, Inc Systems and methods for a transformer network with tree-based attention for natural language processing
CN110597970B (zh) * 2019-08-19 2023-04-07 华东理工大学 一种多粒度医疗实体联合识别的方法及装置
CN110598221B (zh) * 2019-08-29 2020-07-07 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110704588B (zh) * 2019-09-04 2023-05-30 平安科技(深圳)有限公司 基于长短期记忆网络的多轮对话语义分析方法和系统
US11600067B2 (en) * 2019-09-12 2023-03-07 Nec Corporation Action recognition with high-order interaction through spatial-temporal object tracking
CN110766955B (zh) * 2019-09-18 2022-08-26 平安科技(深圳)有限公司 基于动作预测模型的信号调节方法、装置和计算机设备
US11568000B2 (en) 2019-09-24 2023-01-31 Salesforce.Com, Inc. System and method for automatic task-oriented dialog system
US11599792B2 (en) 2019-09-24 2023-03-07 Salesforce.Com, Inc. System and method for learning with noisy labels as semi-supervised learning
US11640527B2 (en) 2019-09-25 2023-05-02 Salesforce.Com, Inc. Near-zero-cost differentially private deep learning with teacher ensembles
CN110674783B (zh) * 2019-10-08 2022-06-28 山东浪潮科学研究院有限公司 一种基于多级预测架构的视频描述方法及系统
KR20210043995A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 모델 학습 방법 및 장치, 및 시퀀스 인식 방법
CN110738059B (zh) * 2019-10-21 2023-07-14 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN110866098B (zh) * 2019-10-29 2022-10-28 平安科技(深圳)有限公司 基于transformer和lstm的机器阅读方法、装置及可读存储介质
US11620515B2 (en) 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
US11347708B2 (en) 2019-11-11 2022-05-31 Salesforce.Com, Inc. System and method for unsupervised density based table structure identification
US11334766B2 (en) 2019-11-15 2022-05-17 Salesforce.Com, Inc. Noise-resistant object detection with noisy annotations
US11288438B2 (en) 2019-11-15 2022-03-29 Salesforce.Com, Inc. Bi-directional spatial-temporal reasoning for video-grounded dialogues
US11922303B2 (en) 2019-11-18 2024-03-05 Salesforce, Inc. Systems and methods for distilled BERT-based training model for text classification
US11537899B2 (en) 2019-11-18 2022-12-27 Salesforce.Com, Inc. Systems and methods for out-of-distribution classification
CN110969010A (zh) * 2019-12-06 2020-04-07 浙江大学 一种基于关系指导及双通道交互机制的问题生成方法
KR20210071471A (ko) * 2019-12-06 2021-06-16 삼성전자주식회사 뉴럴 네트워크의 행렬 곱셈 연산을 수행하는 장치 및 방법
US11748356B2 (en) 2019-12-06 2023-09-05 Nec Corporation Answering complex queries in knowledge graphs with bidirectional sequence encoders
CN111027562B (zh) * 2019-12-06 2023-07-18 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
US11487999B2 (en) 2019-12-09 2022-11-01 Salesforce.Com, Inc. Spatial-temporal reasoning through pretrained language models for video-grounded dialogues
US11256754B2 (en) 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
US11640505B2 (en) 2019-12-09 2023-05-02 Salesforce.Com, Inc. Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading
US11573957B2 (en) 2019-12-09 2023-02-07 Salesforce.Com, Inc. Natural language processing engine for translating questions into executable database queries
US11416688B2 (en) 2019-12-09 2022-08-16 Salesforce.Com, Inc. Learning dialogue state tracking with limited labeled data
CN111160038A (zh) * 2019-12-16 2020-05-15 浙江大学 一种基于自注意机制进行视频对话答案与问题的生成方法
CN111160050A (zh) * 2019-12-20 2020-05-15 沈阳雅译网络技术有限公司 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN111125316B (zh) * 2019-12-26 2022-04-22 北京工业大学 一种融合多损失函数及注意力机制的知识库问答方法
US11669745B2 (en) 2020-01-13 2023-06-06 Salesforce.Com, Inc. Proposal learning for semi-supervised object detection
CN111241244A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 基于大数据的答案位置获取方法、装置、设备及介质
US11562147B2 (en) 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
US11948665B2 (en) 2020-02-06 2024-04-02 Salesforce, Inc. Systems and methods for language modeling of protein engineering
US11921711B2 (en) * 2020-03-06 2024-03-05 Alibaba Group Holding Limited Trained sequence-to-sequence conversion of database queries
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
US11263476B2 (en) 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
CN111582020A (zh) * 2020-03-25 2020-08-25 平安科技(深圳)有限公司 信号处理方法、装置、计算机设备及存储介质
US11328731B2 (en) 2020-04-08 2022-05-10 Salesforce.Com, Inc. Phone-based sub-word units for end-to-end speech recognition
CN111241263A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 文本生成方法、装置和电子设备
US11625543B2 (en) 2020-05-31 2023-04-11 Salesforce.Com, Inc. Systems and methods for composed variational natural language generation
US11720559B2 (en) 2020-06-02 2023-08-08 Salesforce.Com, Inc. Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text
CN111723548B (zh) * 2020-06-10 2024-04-30 腾讯科技(深圳)有限公司 评论扩展方法及装置
CN111813895B (zh) * 2020-08-07 2022-06-03 深圳职业技术学院 一种基于层次注意力机制和门机制的属性级别情感分析方法
US20220050877A1 (en) 2020-08-14 2022-02-17 Salesforce.Com, Inc. Systems and methods for query autocompletion
US11934952B2 (en) 2020-08-21 2024-03-19 Salesforce, Inc. Systems and methods for natural language processing using joint energy-based models
US11934781B2 (en) 2020-08-28 2024-03-19 Salesforce, Inc. Systems and methods for controllable text summarization
CN112100328B (zh) * 2020-08-31 2023-05-30 广州探迹科技有限公司 一种基于多轮对话的意向判断方法
CN111815426B (zh) * 2020-09-11 2020-12-15 深圳司南数据服务有限公司 一种涉及金融投研的数据处理方法及终端
CN112131362B (zh) * 2020-09-22 2023-12-12 腾讯科技(深圳)有限公司 对话语句生成方法和装置、存储介质及电子设备
US11829442B2 (en) 2020-11-16 2023-11-28 Salesforce.Com, Inc. Methods and systems for efficient batch active learning of a deep neural network
CN112131370B (zh) * 2020-11-23 2021-03-12 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112508265A (zh) * 2020-12-02 2021-03-16 中国极地研究中心 面向业务流程管理的时间与活动多任务预测方法及系统
CN113377961B (zh) * 2020-12-07 2022-12-06 北京理工大学 基于知识图谱和用户主题的意图-语义槽联合识别系统
CN112487172B (zh) * 2020-12-16 2023-07-18 北京航空航天大学 一种面向深度答案推荐模型的主动学习方法
CN112257393B (zh) * 2020-12-22 2021-04-13 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
CN112669816B (zh) * 2020-12-24 2023-06-02 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
CN112905819B (zh) * 2021-01-06 2022-09-23 中国石油大学(华东) 基于复合注意力的原始特征注入网络的视觉问答方法
CN112699244A (zh) * 2021-03-16 2021-04-23 成都信息工程大学 基于深度学习的输变电设备缺陷文本分类方法及系统
CN112905777B (zh) * 2021-03-19 2023-10-17 北京百度网讯科技有限公司 一种扩展问推荐方法、装置、电子设备及存储介质
US11715480B2 (en) * 2021-03-23 2023-08-01 Qualcomm Incorporated Context-based speech enhancement
CN113127591B (zh) * 2021-04-13 2022-09-23 河海大学 一种基于Transformer和LSTM的位置预测方法
CN113011196B (zh) * 2021-04-28 2023-01-10 陕西文都教育科技有限公司 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN115438156B (zh) * 2021-05-17 2024-02-02 中山大学 一种多任务学习的答案选择和问题分类的方法及系统
CN113032545B (zh) * 2021-05-29 2021-09-03 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统
CN113901191A (zh) * 2021-06-16 2022-01-07 北京金山数字娱乐科技有限公司 问答模型的训练方法及装置
CN113627196A (zh) * 2021-07-21 2021-11-09 前海企保科技(深圳)有限公司 一种基于语境和Transformer的多语言对话机器人系统及其对话方法
US11520815B1 (en) * 2021-07-30 2022-12-06 Dsilo, Inc. Database query generation using natural language text
US11615523B2 (en) 2021-08-18 2023-03-28 Zhejiang Gongshang University Methods for recognizing small targets based on deep learning networks
CN113673594B (zh) * 2021-08-18 2022-07-12 浙江工商大学 一种基于深度学习网络的瑕疵点识别方法
CN113704437B (zh) * 2021-09-03 2023-08-11 重庆邮电大学 一种融合多头注意力机制和相对位置编码的知识库问答方法
CN113779252A (zh) * 2021-09-09 2021-12-10 安徽理工大学 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法
CN113901172B (zh) * 2021-09-16 2024-04-26 昆明理工大学 基于关键词结构编码的涉案微博评价对象抽取方法
CN113627195B (zh) * 2021-10-14 2022-01-18 华东交通大学 基于层次Transformer和图神经网络的评论情感分析方法及系统
CN114840648A (zh) * 2022-03-21 2022-08-02 阿里巴巴(中国)有限公司 答案生成方法、装置及计算机程序产品
KR20240027347A (ko) * 2022-08-23 2024-03-04 주식회사 Lg 경영개발원 입력 시퀀스를 변환하기 위한 시퀀스 변환 신경망 구현 장치 및 이를 이용한 학습 방법
CN115392260B (zh) * 2022-10-31 2023-04-07 暨南大学 一种面向特定目标的社交媒体推文情感分析方法
CN116737894B (zh) * 2023-06-02 2024-02-20 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018047225A1 (ja) * 2016-09-06 2018-03-15 三菱電機株式会社 学習装置、信号処理装置および学習方法

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044791A1 (en) 2001-05-22 2004-03-04 Pouzzner Daniel G. Internationalized domain name system with iterative conversion
US8355550B2 (en) 2007-05-01 2013-01-15 Siemens Aktiengesellschaft Methods and apparatus for virtual coronary mapping
US8121367B2 (en) 2007-09-21 2012-02-21 Siemens Aktiengesellschaft Method and system for vessel segmentation in fluoroscopic images
US10224036B2 (en) * 2010-10-05 2019-03-05 Infraware, Inc. Automated identification of verbal records using boosted classifiers to improve a textual transcript
KR101303936B1 (ko) 2011-11-28 2013-09-05 한국과학기술연구원 가스 센서용 복합 분리막 구조체, 이를 포함하는 가스 센서 장치, 이를 이용한 가스 농도 측정 방법 및 장치
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
US9239828B2 (en) * 2013-12-05 2016-01-19 Microsoft Technology Licensing, Llc Recurrent conditional random fields
US20150179170A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Discriminative Policy Training for Dialog Systems
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US11113598B2 (en) 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
CN106294505B (zh) * 2015-06-10 2020-07-07 华中师范大学 一种反馈答案的方法和装置
US20170140240A1 (en) 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier
US20170032280A1 (en) 2015-07-27 2017-02-02 Salesforce.Com, Inc. Engagement estimator
EP3128439A1 (en) 2015-08-07 2017-02-08 Google, Inc. Text classification and transformation based on author
WO2017031088A1 (en) 2015-08-15 2017-02-23 Salesforce.Com, Inc Three-dimensional (3d) convolution with 3d batch normalization
US20170076199A1 (en) * 2015-09-14 2017-03-16 National Institute Of Information And Communications Technology Neural network system, and computer-implemented method of generating training data for the neural network
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
JP6447465B2 (ja) 2015-11-09 2019-01-09 株式会社デンソー 運転支援装置
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US10102844B1 (en) * 2016-03-29 2018-10-16 Amazon Technologies, Inc. Systems and methods for providing natural responses to commands
JP2017204857A (ja) 2016-05-12 2017-11-16 現代自動車株式会社Hyundai Motor Company ネットワークにおいてストリームの通信経路設定方法
US10395646B2 (en) * 2016-05-13 2019-08-27 Microsoft Technology Licensing, Llc Two-stage training of a spoken dialogue system
US10565493B2 (en) * 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
JP6870076B2 (ja) * 2016-09-26 2021-05-12 グーグル エルエルシーGoogle LLC ニューラル機械翻訳システム
US10839284B2 (en) 2016-11-03 2020-11-17 Salesforce.Com, Inc. Joint many-task neural network model for multiple natural language processing (NLP) tasks
US10929681B2 (en) 2016-11-03 2021-02-23 Nec Corporation Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US11080595B2 (en) 2016-11-04 2021-08-03 Salesforce.Com, Inc. Quasi-recurrent neural network based encoder-decoder model
US10963782B2 (en) 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US10083162B2 (en) 2016-11-28 2018-09-25 Microsoft Technology Licensing, Llc Constructing a narrative based on a collection of images
US10268679B2 (en) 2016-12-02 2019-04-23 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network
US11250311B2 (en) 2017-03-15 2022-02-15 Salesforce.Com, Inc. Deep neural network-based decision network
US10474709B2 (en) 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US10565318B2 (en) 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US20180299841A1 (en) * 2017-04-17 2018-10-18 Intel Corporation Autonomous vehicle neural network optimization
CN107256228A (zh) 2017-05-02 2017-10-17 清华大学 基于结构化注意力机制的答案选择系统及方法
US10733380B2 (en) * 2017-05-15 2020-08-04 Thomson Reuters Enterprise Center Gmbh Neural paraphrase generator
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10747761B2 (en) 2017-05-18 2020-08-18 Salesforce.Com, Inc. Neural network based translation of natural language queries to database queries
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
US20180336453A1 (en) 2017-05-19 2018-11-22 Salesforce.Com, Inc. Domain specific language for generation of recurrent neural network architectures
CN107357838B (zh) * 2017-06-23 2020-09-01 上海交大知识产权管理有限公司 基于多任务学习的对话策略在线实现方法
CN107562792B (zh) 2017-07-31 2020-01-31 同济大学 一种基于深度学习的问答匹配方法
CN107480144B (zh) * 2017-08-03 2020-10-20 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置
US10671918B2 (en) * 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing
US20190130896A1 (en) 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
US11604956B2 (en) 2017-10-27 2023-03-14 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US10592767B2 (en) 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US11170287B2 (en) 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US10346721B2 (en) 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
CA3080005A1 (en) * 2017-11-14 2019-05-23 Magic Leap, Inc. Meta-learning for multi-task learning for neural networks
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
CN107995535B (zh) * 2017-11-28 2019-11-26 百度在线网络技术(北京)有限公司 一种展示视频的方法、装置、设备和计算机存储介质
US11276002B2 (en) 2017-12-20 2022-03-15 Salesforce.Com, Inc. Hybrid training of deep networks
US11501076B2 (en) 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US11170158B2 (en) * 2018-03-08 2021-11-09 Adobe Inc. Abstractive summarization of long documents using deep learning
KR102480323B1 (ko) * 2018-03-22 2022-12-23 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 비디오 시간 세그먼트를 검색하는 방법과 시스템
US11055557B2 (en) * 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images
CN112005616A (zh) 2018-04-23 2020-11-27 日本碍子株式会社 红外线放射装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018047225A1 (ja) * 2016-09-06 2018-03-15 三菱電機株式会社 学習装置、信号処理装置および学習方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
磯沼 大 外6名: "文書分類とのマルチタスク学習による重要文抽出", 一般社団法人 人工知能学会 第31回全国大会論文集DVD [DVD−ROM], JPN6021043036, 23 May 2017 (2017-05-23), JP, pages 1 - 4, ISSN: 0004632910 *

Also Published As

Publication number Publication date
CN111699498A (zh) 2020-09-22
JP2022023064A (ja) 2022-02-07
WO2019156875A1 (en) 2019-08-15
JP7109557B2 (ja) 2022-07-29
CN111712836A (zh) 2020-09-25
WO2019156873A1 (en) 2019-08-15
US20200380213A1 (en) 2020-12-03
JP7285895B2 (ja) 2023-06-02
US11615249B2 (en) 2023-03-28
US11501076B2 (en) 2022-11-15
EP3750111A1 (en) 2020-12-16
US20190251168A1 (en) 2019-08-15
CN111699498B (zh) 2021-08-13
US20190251431A1 (en) 2019-08-15
EP3750112A1 (en) 2020-12-16
JP2021507429A (ja) 2021-02-22
US10776581B2 (en) 2020-09-15
JP6952201B2 (ja) 2021-10-20
CN111712836B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
JP7109557B2 (ja) 質問応答としてのマルチタスク学習
JP7408574B2 (ja) 質問応答としてのマルチタスク学習
JP7072585B2 (ja) 文脈固有の単語ベクトルを用いた自然言語処理
Kamath et al. Deep learning for NLP and speech recognition
US20220044093A1 (en) Generating dual sequence inferences using a neural network model
Lin et al. Variational transformers for diverse response generation
US11669699B2 (en) Systems and methods for composed variational natural language generation
Asr et al. Comparing Predictive and Co-occurrence Based Models of Lexical Semantics Trained on Child-directed Speech.
US11353833B2 (en) Systems and methods for learning and predicting time-series data using deep multiplicative networks
Amiri Neural self-training through spaced repetition
Andrew et al. Sequential deep belief networks
Dun et al. Extending answer prediction for deep bi-directional transformers
Khatri et al. SkillBot: Towards Data Augmentation using Transformer language model and linguistic evaluation
Inan et al. Improved learning through augmenting the loss
Li A neural network based nonlinear weighted finite automata
Garg et al. Super Deep Learning Ensemble Model for Sentiment Analysis
WO2023014398A1 (en) Self-supervised learning with model augmentation
SOLTANI LANGUAGE MODELING USING RECURRENT NEURAL NETWORK

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220719

R150 Certificate of patent or registration of utility model

Ref document number: 7109557

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150