JP2019537809A - ポインタセンチネル混合アーキテクチャ - Google Patents
ポインタセンチネル混合アーキテクチャ Download PDFInfo
- Publication number
- JP2019537809A JP2019537809A JP2019537050A JP2019537050A JP2019537809A JP 2019537809 A JP2019537809 A JP 2019537809A JP 2019537050 A JP2019537050 A JP 2019537050A JP 2019537050 A JP2019537050 A JP 2019537050A JP 2019537809 A JP2019537809 A JP 2019537809A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- word
- sentinel
- sequence
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本出願は、2016年9月22日に出願された米国仮特許出願第62/398,461号「POINTER SENTINEL MIXTURE MODELS(ポインタセンチネル混合モデル)」(代理人案件番号SALE 1174-2/1863PROV2)の利益を主張する。この優先権仮出願は、参照により本明細書に組み込まれる。
本出願は、2016年11月 4日に出願された米国仮特許出願第62/417,334号「POINTER SENTINEL MIXTURE MODELS(ポインタセンチネル混合モデル)」(代理人案件番号SALE 1174-3/1863PROV3)の利益を主張する。この優先権仮出願は、参照により本明細書に組み込まれる。
本出願は、2017年 1月31日に出願された米国特許出願第15/421,016号「POINTER SENTINEL MIXTURE MODELS(ポインタセンチネル混合モデル)」(代理人案件番号SALE 1174-4/1863US)の利益を主張する。この優先権出願は、参照により本明細書に組み込まれる。
以下が、参照により本明細書に組み込まれ、単一の発明の一部として本明細書に添付されている:Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. Pointer sentinel mixture models. arXiv preprint arXiv:1609.07843, 2016。ポインタセンチネル混合モデルは、直近の文脈から単語を再生成する又は標準的なソフトマックス分類器から単語を生成する能力を有する。ポインタセンチネル−LSTMモデルは、標準的なソフトマックスLSTMよりもはるかに少ないパラメータを使用しながら、Penn Treebankに関して最高水準の言語モデリング性能(70.9パープレキシティ)を実現している。
以下の説明は、当業者が開示されている技術を製造及び使用することを可能にするように提示されており、特定の用途及びその要件の文脈において提供されている。開示されている技術の主旨及び範囲から逸脱することなく、開示されている実施形態に対する様々な変更が、当業者には容易に明らかであり、本開示において規定されている一般的な原理は、他の実施形態及び用途にも適用可能である。したがって、開示されている技術は、例示されている実施形態に限定されるよう意図されるものではなく、本出願において開示されている原理及び特徴と整合する最も広い範囲に従うべきである。
言語モデリングにおける主要な難しさは、直接的な文脈から特定のトークンをいつ予測するかを学習することである。例えば、新しい人が紹介され、2段落後の文脈が、次のトークン(次トークン)としてその人の名前を非常に正確に予測できるようにする、ということを想像してほしい。標準的なニューラルネットワーク系列モデルがこの名前を予測するためには、標準的なニューラルネットワーク系列モデルは、この名前を符号化し、多くの時間ステップで隠れ状態においてこれを格納し、適切なときにこれを復号する必要があるであろう。隠れ状態は、容量が制限されており、そのようなモデルの最適化は、勾配消失問題に悩まされるので、これは、多くの時間ステップにわたって実行されるときには損失の多い動作である。これは、低頻度トークンに特に当てはまる。
図1は、ニューラルネットワーク系列モデリングにおいて低頻度トークン及び語彙外(OoV)トークンの予測を向上させるポインタセンチネル混合アーキテクチャ100の態様を示している。図2は、ポインタセンチネル混合アーキテクチャ100の動作の一実施形態を示している。
の全ての位置をもたらし、
図5は、Penn Treebankデータセットに関して、ポインタセンチネル−LSTMを様々な他のモデルと比較している表を示している。ポインタセンチネル−LSTMアーキテクチャは、標準的なソフトマックスLSTMよりもはるかに少ないパラメータを使用しながら、Penn Treebankデータセットに関して、70.9パープレキシティという最高水準の言語モデリング性能を実現している。
ニューラルネットワークベースの言語モデリングにおいて次単語予測を向上させるポインタセンチネル混合アーキテクチャのためのシステム、方法、及び製品が記載される。実施形態の1つ以上の特徴は、ベースとなる実施形態と組み合わせられることもある。相互に排他的ではない実施形態は、組み合わせ可能であると教示される。実施形態の1つ以上の特徴は、他の実施形態と組み合わせられることもある。本開示は、これらのオプションについてユーザに定期的にリマインドする。これらのオプションを繰り返す記載事項の、いくつかの実施形態からの省略は、前のセクションにおいて教示された組み合わせを限定するものとして解釈されるべきではない。これらの記載事項は、参照により以下の実施形態の各々に組み込まれる。
図9は、ポインタセンチネル混合アーキテクチャ100を実現するために使用され得るコンピュータシステム900の簡略化されたブロック図である。コンピュータシステム900は、一般に、バスサブシステム932を介して複数の周辺デバイスと通信する1つ以上のCPUプロセッサ920を含む。これらの周辺デバイスは、例えばメモリデバイスを含むメモリサブシステム912及びファイル記憶サブシステム918と、ユーザインタフェース入力デバイス930と、ユーザインタフェース出力デバイス924と、ネットワークインタフェースサブシステム922と、複数のGPUプロセッシングコア又はGPUプロセッサ928を含むGPU926と、を含み得る。入力デバイス及び出力デバイスは、コンピュータシステム900とのユーザインタラクションを可能にする。ネットワークインタフェースサブシステム922は、他のコンピュータシステムにおける対応するインタフェースデバイスへのインタフェースを含め、外部ネットワークへのインタフェースを提供する。
Claims (15)
- 文脈単語の系列及び単語の語彙を所与として、次単語が前記語彙内にあり前記系列内にない状況を含む、前記次単語を予測する、コンピュータにより実行される方法であって、
入力として前記文脈単語の系列をニューラルネットワークに提供して、前記語彙内の単語にわたる語彙分布を生成するステップであって、前記語彙分布は、前記語彙の単語の各々が前記次単語であるそれぞれの尤度を特定する、ステップと、
前記ニューラルネットワークに問い合わせて、前記系列内の文脈単語にわたるポインタ分布及びセンチネルを生成するステップであって、前記ポインタ分布は、前記文脈単語の各々が前記次単語であるそれぞれの尤度を特定する、ステップと、
前記語彙分布及び前記ポインタ分布からのそれぞれの尤度を混合して、前記語彙及び前記系列内の単語の各々についての結合尤度を生成するステップであって、前記混合は、前記センチネルにより制御される、ステップと、
前記の生成された結合尤度に基づいて、前記次単語として、前記語彙及び/又は前記系列から単語を選択するステップと、
を含む、コンピュータにより実行される方法。 - 前記ニューラルネットワークは、再帰型ニューラルネットワーク(RNN)である、請求項1に記載のコンピュータにより実行される方法。
- 前記RNNは、長短期メモリ(LSTM)ネットワークである、請求項1又は2に記載のコンピュータにより実行される方法。
- 多層パーセプトロンを通じて前記ニューラルネットワークの最終隠れ状態ベクトルを処理することにより、前記最終隠れ状態ベクトルからクエリベクトルを生成するステップと、
内積を使用して、前記クエリベクトルを、前記ニューラルネットワークの隠れ状態ベクトルと比較し、前記文脈単語の各々について、正規化されていないアテンションスカラーを生成するステップと、
内積を使用して、前記クエリベクトルを、予めトレーニングされているセンチネルベクトルと比較し、正規化されていないセンチネルゲートスカラーを生成するステップと、
アテンションベクトルにおいて、前記正規化されていないアテンションスカラー及び前記正規化されていないセンチネルゲートスカラーを連結し、前記アテンションベクトルを指数関数的に正規化して、正規化されたアテンション質量及び正規化されたセンチネルゲート質量を生成するステップと、
前記ポインタ分布として、前記の正規化されたアテンションベクトルを使用し、前記文脈単語の各々が前記次単語である前記それぞれの尤度として、前記正規化されたアテンション質量を使用するステップと、
をさらに含む、請求項1乃至3のいずれか一項に記載のコンピュータにより実行される方法。 - ある単語が、前記系列内にあり前記語彙内にない場合、対応する正規化されたアテンション質量から、該ある単語についての結合尤度を決定するステップと、
ある単語が、前記語彙内にあり前記系列内にない場合、前記語彙分布から決定された対応する語彙確率質量から、該ある単語についての結合尤度を決定するステップと、
ある単語が、前記系列内にも前記語彙内にもある場合、前記正規化されたセンチネルゲート質量を、前記語彙分布から生成された対応する語彙確率質量と乗算し、対応する正規化されたアテンション質量を加算することにより、該ある単語についての結合尤度を決定するステップと、
前記クエリベクトルに対する応答として、したがって、前記の予測された次単語として、最大結合尤度を有する単語を選択するステップと、
をさらに含む、請求項1乃至4のいずれか一項に記載のコンピュータにより実行される方法。 - 前記正規化されたセンチネルゲート質量は、前記次単語が、前記系列からの文脈単語であるか又は前記語彙からの語彙単語であるかを制御する、請求項1乃至5のいずれか一項に記載のコンピュータにより実行される方法。
- 前記正規化されたセンチネルゲート質量は、前記次単語が前記語彙内にのみ存在する場合には1であり、前記語彙からのみ前記次単語を予測するステップ
をさらに含む、請求項1乃至6のいずれか一項に記載のコンピュータにより実行される方法。 - 前記正規化されたセンチネルゲート質量は、前記次単語が前記系列内にのみ存在する場合には0であり、前記系列からのみ前記次単語を予測するステップ
をさらに含む、請求項1乃至7のいずれか一項に記載のコンピュータにより実行される方法。 - 1つの文脈単語が、前記系列内の複数の位置において出現し、
前記コンピュータにより実行される方法は、
前記系列内の、前記1つの文脈単語の前記複数の位置の各々の位置に対応する正規化されたアテンション質量を加算して、前記次単語についての最終の正規化されたアテンション質量を生成するステップと、
前記最終の正規化されたアテンション質量を使用して、前記次単語についての結合尤度を生成するステップと、
をさらに含む、請求項1乃至8のいずれか一項に記載のコンピュータにより実行される方法。 - 音声認識、機械翻訳、テキスト要約、質問回答、画像キャプション付け、及びテキスト音声合成を含む1つ以上の言語モデリングタスクのために、前記ニューラルネットワーク及び前記の生成された結合尤度を使用するステップ
をさらに含む、請求項1乃至9のいずれか一項に記載のコンピュータにより実行される方法。 - メモリに接続されている1つ以上のプロセッサを含むシステムであって、文脈単語の系列及び単語の語彙を所与として、次単語が前記語彙内にあり前記系列内にない状況を含む、前記次単語を予測するためのコンピュータ命令が、前記メモリにロードされ、前記コンピュータ命令は、前記1つ以上のプロセッサ上で実行されたときに、
入力として前記文脈単語の系列をニューラルネットワークに提供して、前記語彙内の単語にわたる語彙分布を生成することであって、前記語彙分布は、前記語彙の単語の各々が前記次単語であるそれぞれの尤度を特定する、生成することと、
前記ニューラルネットワークに問い合わせて、前記系列内の文脈単語にわたるポインタ分布及びセンチネルを生成することであって、前記ポインタ分布は、前記文脈単語の各々が前記次単語であるそれぞれの尤度を特定する、生成することと、
前記語彙分布及び前記ポインタ分布からのそれぞれの尤度を混合して、前記語彙及び前記系列内の単語の各々についての結合尤度を生成することであって、前記混合は、前記センチネルにより制御される、生成することと、
前記の生成された結合尤度に基づいて、前記次単語として、前記語彙及び/又は前記系列から単語を選択することと、
を含む動作を実行する、システム。 - 前記コンピュータ命令は、前記1つ以上のプロセッサ上で実行されたときに、
多層パーセプトロンを通じて前記ニューラルネットワークの最終隠れ状態ベクトルを処理することにより、前記最終隠れ状態ベクトルからクエリベクトルを生成することと、
内積を使用して、前記クエリベクトルを、前記ニューラルネットワークの隠れ状態ベクトルと比較し、前記文脈単語の各々について、正規化されていないアテンションスカラーを生成することと、
内積を使用して、前記クエリベクトルを、予めトレーニングされているセンチネルベクトルと比較し、正規化されていないセンチネルゲートスカラーを生成することと、
アテンションベクトルにおいて、前記正規化されていないアテンションスカラー及び前記正規化されていないセンチネルゲートスカラーを連結し、前記アテンションベクトルを指数関数的に正規化して、正規化されたアテンション質量及び正規化されたセンチネルゲート質量を生成することと、
前記ポインタ分布として、前記の正規化されたアテンションベクトルを使用し、前記文脈単語の各々が前記次単語である前記それぞれの尤度として、前記正規化されたアテンション質量を使用することと、
を含む動作をさらに実行する、請求項11に記載のシステム。 - 前記コンピュータ命令は、前記1つ以上のプロセッサ上で実行されたときに、
ある単語が、前記系列内にあり前記語彙内にない場合、対応する正規化されたアテンション質量から、該ある単語についての結合尤度を決定することと、
ある単語が、前記語彙内にあり前記系列内にない場合、前記語彙分布から決定された対応する語彙確率質量から、該ある単語についての結合尤度を決定することと、
ある単語が、前記系列内にも前記語彙内にもある場合、前記正規化されたセンチネルゲート質量を、前記語彙分布から生成された対応する語彙確率質量と乗算し、対応する正規化されたアテンション質量を加算することにより、該ある単語についての結合尤度を決定することと、
前記クエリベクトルに対する応答として、したがって、前記の予測された次単語として、最大結合尤度を有する単語を選択することと、
を含む動作をさらに実行する、請求項11又は12に記載のシステム。 - 文脈単語の系列及び単語の語彙を所与として、次単語が前記語彙内にあり前記系列内にない状況を含む、前記次単語を予測するためのコンピュータプログラム命令が与えられた非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令は、プロセッサ上で実行されたときに、
入力として前記文脈単語の系列をニューラルネットワークに提供して、前記語彙内の単語にわたる語彙分布を生成するステップであって、前記語彙分布は、前記語彙の単語の各々が前記次単語であるそれぞれの尤度を特定する、ステップと、
前記ニューラルネットワークに問い合わせて、前記系列内の文脈単語にわたるポインタ分布及びセンチネルを生成するステップであって、前記ポインタ分布は、前記文脈単語の各々が前記次単語であるそれぞれの尤度を特定する、ステップと、
前記語彙分布及び前記ポインタ分布からのそれぞれの尤度を混合して、前記語彙及び前記系列内の単語の各々についての結合尤度を生成するステップであって、前記混合は、前記センチネルにより制御される、ステップと、
前記の生成された結合尤度に基づいて、前記次単語として、前記語彙及び/又は前記系列から単語を選択するステップと、
を含む方法を実行する、非一時的なコンピュータ読み取り可能な記憶媒体。 - 前記コンピュータプログラム命令は、前記プロセッサ上で実行されたときに、
多層パーセプトロンを通じて前記ニューラルネットワークの最終隠れ状態ベクトルを処理することにより、前記最終隠れ状態ベクトルからクエリベクトルを生成するステップと、
内積を使用して、前記クエリベクトルを、前記ニューラルネットワークの隠れ状態ベクトルと比較し、前記文脈単語の各々について、正規化されていないアテンションスカラーを生成するステップと、
内積を使用して、前記クエリベクトルを、予めトレーニングされているセンチネルベクトルと比較し、正規化されていないセンチネルゲートスカラーを生成するステップと、
アテンションベクトルにおいて、前記正規化されていないアテンションスカラー及び前記正規化されていないセンチネルゲートスカラーを連結し、前記アテンションベクトルを指数関数的に正規化して、正規化されたアテンション質量及び正規化されたセンチネルゲート質量を生成するステップと、
前記ポインタ分布として、前記の正規化されたアテンションベクトルを使用し、前記文脈単語の各々が前記次単語である前記それぞれの尤度として、前記正規化されたアテンション質量を使用するステップと、
をさらに含む前記方法を実行する、請求項14に記載の非一時的なコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020164361A JP6972265B2 (ja) | 2016-09-22 | 2020-09-30 | ポインタセンチネル混合アーキテクチャ |
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662398461P | 2016-09-22 | 2016-09-22 | |
US201662397926P | 2016-09-22 | 2016-09-22 | |
US62/398,461 | 2016-09-22 | ||
US62/397,926 | 2016-09-22 | ||
US201662417334P | 2016-11-04 | 2016-11-04 | |
US62/417,334 | 2016-11-04 | ||
US15/421,016 US10565493B2 (en) | 2016-09-22 | 2017-01-31 | Pointer sentinel mixture architecture |
US15/421,016 | 2017-01-31 | ||
PCT/US2017/052819 WO2018057809A1 (en) | 2016-09-22 | 2017-09-21 | Pointer sentinel mixture architecture |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020164361A Division JP6972265B2 (ja) | 2016-09-22 | 2020-09-30 | ポインタセンチネル混合アーキテクチャ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019537809A true JP2019537809A (ja) | 2019-12-26 |
JP6772388B2 JP6772388B2 (ja) | 2020-10-21 |
Family
ID=61617518
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019537050A Active JP6772388B2 (ja) | 2016-09-22 | 2017-09-21 | ポインタセンチネル混合アーキテクチャ |
JP2020164361A Active JP6972265B2 (ja) | 2016-09-22 | 2020-09-30 | ポインタセンチネル混合アーキテクチャ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020164361A Active JP6972265B2 (ja) | 2016-09-22 | 2020-09-30 | ポインタセンチネル混合アーキテクチャ |
Country Status (6)
Country | Link |
---|---|
US (2) | US10565493B2 (ja) |
EP (1) | EP3516590A1 (ja) |
JP (2) | JP6772388B2 (ja) |
CN (1) | CN109923556B (ja) |
CA (1) | CA3034918A1 (ja) |
WO (1) | WO2018057809A1 (ja) |
Families Citing this family (99)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565305B2 (en) | 2016-11-18 | 2020-02-18 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
US11615285B2 (en) | 2017-01-06 | 2023-03-28 | Ecole Polytechnique Federale De Lausanne (Epfl) | Generating and identifying functional subnetworks within structural networks |
CN110383299B (zh) | 2017-02-06 | 2023-11-17 | 渊慧科技有限公司 | 记忆增强的生成时间模型 |
US11250311B2 (en) | 2017-03-15 | 2022-02-15 | Salesforce.Com, Inc. | Deep neural network-based decision network |
US10565318B2 (en) | 2017-04-14 | 2020-02-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
US11386327B2 (en) | 2017-05-18 | 2022-07-12 | Salesforce.Com, Inc. | Block-diagonal hessian-free optimization for recurrent and convolutional neural networks |
US10817650B2 (en) | 2017-05-19 | 2020-10-27 | Salesforce.Com, Inc. | Natural language processing using context specific word vectors |
US11087211B2 (en) * | 2017-10-05 | 2021-08-10 | Salesforce.Com, Inc. | Convolutional neural network (CNN)-based suggestions for anomaly input |
US11170287B2 (en) | 2017-10-27 | 2021-11-09 | Salesforce.Com, Inc. | Generating dual sequence inferences using a neural network model |
US11604956B2 (en) | 2017-10-27 | 2023-03-14 | Salesforce.Com, Inc. | Sequence-to-sequence prediction using a neural network model |
US10592767B2 (en) | 2017-10-27 | 2020-03-17 | Salesforce.Com, Inc. | Interpretable counting in visual question answering |
US11562287B2 (en) | 2017-10-27 | 2023-01-24 | Salesforce.Com, Inc. | Hierarchical and interpretable skill acquisition in multi-task reinforcement learning |
US10573295B2 (en) | 2017-10-27 | 2020-02-25 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
US11928600B2 (en) | 2017-10-27 | 2024-03-12 | Salesforce, Inc. | Sequence-to-sequence prediction using a neural network model |
US10542270B2 (en) | 2017-11-15 | 2020-01-21 | Salesforce.Com, Inc. | Dense video captioning |
US11276002B2 (en) | 2017-12-20 | 2022-03-15 | Salesforce.Com, Inc. | Hybrid training of deep networks |
US11501076B2 (en) * | 2018-02-09 | 2022-11-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
US10929607B2 (en) | 2018-02-22 | 2021-02-23 | Salesforce.Com, Inc. | Dialogue state tracking using a global-local encoder |
US11227218B2 (en) | 2018-02-22 | 2022-01-18 | Salesforce.Com, Inc. | Question answering from minimal context over documents |
US11106182B2 (en) | 2018-03-16 | 2021-08-31 | Salesforce.Com, Inc. | Systems and methods for learning for domain adaptation |
US10783875B2 (en) | 2018-03-16 | 2020-09-22 | Salesforce.Com, Inc. | Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network |
CN108647575B (zh) * | 2018-04-10 | 2021-06-11 | 西北工业大学 | 基于光学视觉分析的溺水预警方法 |
CN108595601A (zh) * | 2018-04-20 | 2018-09-28 | 福州大学 | 一种融入Attention机制的长文本情感分析方法 |
US11600194B2 (en) * | 2018-05-18 | 2023-03-07 | Salesforce.Com, Inc. | Multitask learning as question answering |
US20190354839A1 (en) * | 2018-05-18 | 2019-11-21 | Google Llc | Systems and Methods for Slate Optimization with Recurrent Neural Networks |
US10909157B2 (en) | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
US11631009B2 (en) | 2018-05-23 | 2023-04-18 | Salesforce.Com, Inc | Multi-hop knowledge graph reasoning with reward shaping |
US10770066B2 (en) * | 2018-05-31 | 2020-09-08 | Robert Bosch Gmbh | Slot filling in spoken language understanding with joint pointer and attention |
US10585988B2 (en) * | 2018-06-08 | 2020-03-10 | Microsoft Technology Licensing, Llc | Graph representations for identifying a next word |
US11972343B2 (en) | 2018-06-11 | 2024-04-30 | Inait Sa | Encoding and decoding information |
US11663478B2 (en) | 2018-06-11 | 2023-05-30 | Inait Sa | Characterizing activity in a recurrent artificial neural network |
US11893471B2 (en) | 2018-06-11 | 2024-02-06 | Inait Sa | Encoding and decoding information and artificial neural networks |
US11210475B2 (en) * | 2018-07-23 | 2021-12-28 | Google Llc | Enhanced attention mechanisms |
US11436481B2 (en) | 2018-09-18 | 2022-09-06 | Salesforce.Com, Inc. | Systems and methods for named entity recognition |
US10970486B2 (en) | 2018-09-18 | 2021-04-06 | Salesforce.Com, Inc. | Using unstructured input to update heterogeneous data stores |
US11645509B2 (en) | 2018-09-27 | 2023-05-09 | Salesforce.Com, Inc. | Continual neural network learning via explicit structure learning |
US11514915B2 (en) | 2018-09-27 | 2022-11-29 | Salesforce.Com, Inc. | Global-to-local memory pointer networks for task-oriented dialogue |
US11087177B2 (en) | 2018-09-27 | 2021-08-10 | Salesforce.Com, Inc. | Prediction-correction approach to zero shot learning |
US11029694B2 (en) | 2018-09-27 | 2021-06-08 | Salesforce.Com, Inc. | Self-aware visual-textual co-grounded navigation agent |
CN109508812B (zh) * | 2018-10-09 | 2021-11-30 | 南京航空航天大学 | 一种基于深度记忆网络的航空器航迹预测方法 |
KR20200056001A (ko) * | 2018-11-14 | 2020-05-22 | 삼성전자주식회사 | 인공신경망에서의 디코딩 방법 및 그 장치 |
US10963652B2 (en) | 2018-12-11 | 2021-03-30 | Salesforce.Com, Inc. | Structured text translation |
US11822897B2 (en) | 2018-12-11 | 2023-11-21 | Salesforce.Com, Inc. | Systems and methods for structured text translation with tag alignment |
US11074318B2 (en) * | 2018-12-14 | 2021-07-27 | Western Digital Technologies, Inc. | Hardware accelerated discretized neural network |
US11922323B2 (en) | 2019-01-17 | 2024-03-05 | Salesforce, Inc. | Meta-reinforcement learning gradient estimation with variance reduction |
CN109740167B (zh) * | 2019-02-01 | 2020-03-17 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
US11568306B2 (en) | 2019-02-25 | 2023-01-31 | Salesforce.Com, Inc. | Data privacy protected machine learning systems |
US11366969B2 (en) | 2019-03-04 | 2022-06-21 | Salesforce.Com, Inc. | Leveraging language models for generating commonsense explanations |
US11003867B2 (en) | 2019-03-04 | 2021-05-11 | Salesforce.Com, Inc. | Cross-lingual regularization for multilingual generalization |
US11087092B2 (en) | 2019-03-05 | 2021-08-10 | Salesforce.Com, Inc. | Agent persona grounded chit-chat generation framework |
US11580445B2 (en) | 2019-03-05 | 2023-02-14 | Salesforce.Com, Inc. | Efficient off-policy credit assignment |
US11569978B2 (en) | 2019-03-18 | 2023-01-31 | Inait Sa | Encrypting and decrypting information |
US11652603B2 (en) | 2019-03-18 | 2023-05-16 | Inait Sa | Homomorphic encryption |
US11232308B2 (en) | 2019-03-22 | 2022-01-25 | Salesforce.Com, Inc. | Two-stage online detection of action start in untrimmed videos |
US11281863B2 (en) | 2019-04-18 | 2022-03-22 | Salesforce.Com, Inc. | Systems and methods for unifying question answering and text classification via span extraction |
CN110083710B (zh) * | 2019-04-30 | 2021-04-02 | 北京工业大学 | 一种基于循环神经网络与潜变量结构的词语定义生成方法 |
US11487939B2 (en) | 2019-05-15 | 2022-11-01 | Salesforce.Com, Inc. | Systems and methods for unsupervised autoregressive text compression |
US11604965B2 (en) | 2019-05-16 | 2023-03-14 | Salesforce.Com, Inc. | Private deep learning |
US11620572B2 (en) | 2019-05-16 | 2023-04-04 | Salesforce.Com, Inc. | Solving sparse reward tasks using self-balancing shaped rewards |
US11562251B2 (en) | 2019-05-16 | 2023-01-24 | Salesforce.Com, Inc. | Learning world graphs to accelerate hierarchical reinforcement learning |
US11669712B2 (en) | 2019-05-21 | 2023-06-06 | Salesforce.Com, Inc. | Robustness evaluation via natural typos |
US11687588B2 (en) | 2019-05-21 | 2023-06-27 | Salesforce.Com, Inc. | Weakly supervised natural language localization networks for video proposal prediction based on a text query |
US11775775B2 (en) | 2019-05-21 | 2023-10-03 | Salesforce.Com, Inc. | Systems and methods for reading comprehension for a question answering task |
US11657269B2 (en) | 2019-05-23 | 2023-05-23 | Salesforce.Com, Inc. | Systems and methods for verification of discriminative models |
US11615240B2 (en) | 2019-08-15 | 2023-03-28 | Salesforce.Com, Inc | Systems and methods for a transformer network with tree-based attention for natural language processing |
US11568000B2 (en) | 2019-09-24 | 2023-01-31 | Salesforce.Com, Inc. | System and method for automatic task-oriented dialog system |
US11599792B2 (en) | 2019-09-24 | 2023-03-07 | Salesforce.Com, Inc. | System and method for learning with noisy labels as semi-supervised learning |
US11640527B2 (en) | 2019-09-25 | 2023-05-02 | Salesforce.Com, Inc. | Near-zero-cost differentially private deep learning with teacher ensembles |
US11620515B2 (en) | 2019-11-07 | 2023-04-04 | Salesforce.Com, Inc. | Multi-task knowledge distillation for language model |
US11347708B2 (en) | 2019-11-11 | 2022-05-31 | Salesforce.Com, Inc. | System and method for unsupervised density based table structure identification |
US11288438B2 (en) | 2019-11-15 | 2022-03-29 | Salesforce.Com, Inc. | Bi-directional spatial-temporal reasoning for video-grounded dialogues |
US11334766B2 (en) | 2019-11-15 | 2022-05-17 | Salesforce.Com, Inc. | Noise-resistant object detection with noisy annotations |
US11922303B2 (en) | 2019-11-18 | 2024-03-05 | Salesforce, Inc. | Systems and methods for distilled BERT-based training model for text classification |
US11481636B2 (en) | 2019-11-18 | 2022-10-25 | Salesforce.Com, Inc. | Systems and methods for out-of-distribution classification |
CN110874411A (zh) * | 2019-11-20 | 2020-03-10 | 福州大学 | 一种基于注意力机制融合的跨领域情感分类系统 |
US11487999B2 (en) | 2019-12-09 | 2022-11-01 | Salesforce.Com, Inc. | Spatial-temporal reasoning through pretrained language models for video-grounded dialogues |
US11640505B2 (en) | 2019-12-09 | 2023-05-02 | Salesforce.Com, Inc. | Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading |
US11599730B2 (en) | 2019-12-09 | 2023-03-07 | Salesforce.Com, Inc. | Learning dialogue state tracking with limited labeled data |
US11573957B2 (en) | 2019-12-09 | 2023-02-07 | Salesforce.Com, Inc. | Natural language processing engine for translating questions into executable database queries |
US11256754B2 (en) | 2019-12-09 | 2022-02-22 | Salesforce.Com, Inc. | Systems and methods for generating natural language processing training samples with inflectional perturbations |
US11580401B2 (en) | 2019-12-11 | 2023-02-14 | Inait Sa | Distance metrics and clustering in recurrent neural networks |
US11797827B2 (en) | 2019-12-11 | 2023-10-24 | Inait Sa | Input into a neural network |
US11651210B2 (en) | 2019-12-11 | 2023-05-16 | Inait Sa | Interpreting and improving the processing results of recurrent neural networks |
US11816553B2 (en) | 2019-12-11 | 2023-11-14 | Inait Sa | Output from a recurrent neural network |
US11669745B2 (en) | 2020-01-13 | 2023-06-06 | Salesforce.Com, Inc. | Proposal learning for semi-supervised object detection |
US11562147B2 (en) | 2020-01-23 | 2023-01-24 | Salesforce.Com, Inc. | Unified vision and dialogue transformer with BERT |
US20210249105A1 (en) | 2020-02-06 | 2021-08-12 | Salesforce.Com, Inc. | Systems and methods for language modeling of protein engineering |
US11263476B2 (en) | 2020-03-19 | 2022-03-01 | Salesforce.Com, Inc. | Unsupervised representation learning with contrastive prototypes |
US11328731B2 (en) | 2020-04-08 | 2022-05-10 | Salesforce.Com, Inc. | Phone-based sub-word units for end-to-end speech recognition |
US20210343277A1 (en) * | 2020-04-29 | 2021-11-04 | Samsung Electronics Co., Ltd. | System and method for out-of-vocabulary phrase support in automatic speech recognition |
CN111476212A (zh) * | 2020-05-18 | 2020-07-31 | 哈尔滨理工大学 | 一种基于长短时记忆法的电机故障检测系统 |
US11669699B2 (en) | 2020-05-31 | 2023-06-06 | Saleforce.com, inc. | Systems and methods for composed variational natural language generation |
US11720559B2 (en) | 2020-06-02 | 2023-08-08 | Salesforce.Com, Inc. | Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text |
US11074412B1 (en) * | 2020-07-25 | 2021-07-27 | Sas Institute Inc. | Machine learning classification system |
US11625436B2 (en) | 2020-08-14 | 2023-04-11 | Salesforce.Com, Inc. | Systems and methods for query autocompletion |
US11934952B2 (en) | 2020-08-21 | 2024-03-19 | Salesforce, Inc. | Systems and methods for natural language processing using joint energy-based models |
US11934781B2 (en) | 2020-08-28 | 2024-03-19 | Salesforce, Inc. | Systems and methods for controllable text summarization |
US11829442B2 (en) | 2020-11-16 | 2023-11-28 | Salesforce.Com, Inc. | Methods and systems for efficient batch active learning of a deep neural network |
CN113377953B (zh) * | 2021-05-31 | 2022-06-21 | 电子科技大学 | 一种基于palc-dca模型的实体融合及分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278379A1 (en) * | 2013-03-15 | 2014-09-18 | Google Inc. | Integration of semantic context information |
JP2016134169A (ja) * | 2015-01-19 | 2016-07-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 言語モデル学習方法及び装置、言語認識方法及び装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063664A (ja) * | 1996-08-26 | 1998-03-06 | Nippon Telegr & Teleph Corp <Ntt> | 自然言語の翻訳方法及び装置 |
US6980949B2 (en) * | 2003-03-14 | 2005-12-27 | Sonum Technologies, Inc. | Natural language processor |
US20070282594A1 (en) * | 2006-06-02 | 2007-12-06 | Microsoft Corporation | Machine translation in natural language application development |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN103064530B (zh) * | 2012-12-31 | 2017-03-08 | 华为技术有限公司 | 输入处理方法和装置 |
US9633317B2 (en) * | 2013-06-20 | 2017-04-25 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on a natural language intent interpreter |
EP3210132A1 (en) * | 2014-10-24 | 2017-08-30 | Google, Inc. | Neural machine translation systems with rare word processing |
US11113598B2 (en) | 2015-06-01 | 2021-09-07 | Salesforce.Com, Inc. | Dynamic memory network |
US20160350653A1 (en) | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
GB201511887D0 (en) * | 2015-07-07 | 2015-08-19 | Touchtype Ltd | Improved artificial neural network for language modelling and prediction |
US20170032280A1 (en) | 2015-07-27 | 2017-02-02 | Salesforce.Com, Inc. | Engagement estimator |
WO2017031088A1 (en) | 2015-08-15 | 2017-02-23 | Salesforce.Com, Inc | Three-dimensional (3d) convolution with 3d batch normalization |
JP6817431B2 (ja) * | 2016-10-28 | 2021-01-20 | グーグル エルエルシーGoogle LLC | ニューラルアーキテクチャ検索 |
US10747761B2 (en) * | 2017-05-18 | 2020-08-18 | Salesforce.Com, Inc. | Neural network based translation of natural language queries to database queries |
US10346721B2 (en) | 2017-11-01 | 2019-07-09 | Salesforce.Com, Inc. | Training a neural network using augmented training datasets |
-
2017
- 2017-01-31 US US15/421,016 patent/US10565493B2/en active Active
- 2017-09-21 CN CN201780060729.XA patent/CN109923556B/zh active Active
- 2017-09-21 JP JP2019537050A patent/JP6772388B2/ja active Active
- 2017-09-21 CA CA3034918A patent/CA3034918A1/en active Pending
- 2017-09-21 WO PCT/US2017/052819 patent/WO2018057809A1/en unknown
- 2017-09-21 EP EP17780275.8A patent/EP3516590A1/en not_active Ceased
-
2019
- 2019-10-25 US US16/664,508 patent/US11580359B2/en active Active
-
2020
- 2020-09-30 JP JP2020164361A patent/JP6972265B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278379A1 (en) * | 2013-03-15 | 2014-09-18 | Google Inc. | Integration of semantic context information |
JP2016134169A (ja) * | 2015-01-19 | 2016-07-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 言語モデル学習方法及び装置、言語認識方法及び装置 |
Non-Patent Citations (2)
Title |
---|
GULCEHRE, CAGLAR ET AL.: "Pointing the Unknown Words", [ONLINE], JPN6020032180, 21 August 2016 (2016-08-21), pages 1 - 10, ISSN: 0004336794 * |
岡崎 直観: "言語処理における分散表現学習のフロンティア", 人工知能, vol. 第31巻,第2号, JPN6017022326, 1 March 2016 (2016-03-01), JP, pages 189 - 201, ISSN: 0004336795 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018057809A1 (en) | 2018-03-29 |
US20180082171A1 (en) | 2018-03-22 |
US11580359B2 (en) | 2023-02-14 |
EP3516590A1 (en) | 2019-07-31 |
US20200065651A1 (en) | 2020-02-27 |
JP6772388B2 (ja) | 2020-10-21 |
CN109923556B (zh) | 2023-09-29 |
CN109923556A (zh) | 2019-06-21 |
US10565493B2 (en) | 2020-02-18 |
JP2021009717A (ja) | 2021-01-28 |
JP6972265B2 (ja) | 2021-11-24 |
CA3034918A1 (en) | 2018-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6972265B2 (ja) | ポインタセンチネル混合アーキテクチャ | |
US11244111B2 (en) | Adaptive attention model for image captioning | |
US11947917B2 (en) | Natural language processing with an n-gram machine | |
US10521465B2 (en) | Deep reinforced model for abstractive summarization | |
US10963782B2 (en) | Dynamic coattention network for question answering | |
US11797822B2 (en) | Neural network having input and hidden layers of equal units | |
US11928601B2 (en) | Neural network compression | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
US20240013059A1 (en) | Extreme Language Model Compression with Optimal Sub-Words and Shared Projections | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
US20200364617A1 (en) | Training machine learning models using teacher annealing | |
EP3549031B1 (en) | Language data prediction with neural networks and online learning | |
US20210042586A1 (en) | Phenomenon prediction device, prediction model generation device, and phenomenon prediction program | |
Yu et al. | AVA: A financial service chatbot based on deep bidirectional transformers | |
CN116547676A (zh) | 用于自然语言处理的增强型logit | |
Mahalunkar et al. | Understanding recurrent neural architectures by analyzing and synthesizing long distance dependencies in benchmark sequential datasets | |
Labeau et al. | Learning with noise-contrastive estimation: Easing training by learning to scale | |
US20220083852A1 (en) | Methods and systems for producing neural sequential models | |
WO2022119922A2 (en) | Predicting meanings of abbreviation instances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190521 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190612 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6772388 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |