JP7400007B2 - 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル - Google Patents
複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル Download PDFInfo
- Publication number
- JP7400007B2 JP7400007B2 JP2022074636A JP2022074636A JP7400007B2 JP 7400007 B2 JP7400007 B2 JP 7400007B2 JP 2022074636 A JP2022074636 A JP 2022074636A JP 2022074636 A JP2022074636 A JP 2022074636A JP 7400007 B2 JP7400007 B2 JP 7400007B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- layer
- embedding
- label
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 60
- 238000003062 neural network model Methods 0.000 title description 24
- 239000013598 vector Substances 0.000 claims description 685
- 238000000034 method Methods 0.000 claims description 205
- 238000004458 analytical method Methods 0.000 claims description 113
- 230000002457 bidirectional effect Effects 0.000 claims description 87
- 238000012549 training Methods 0.000 claims description 86
- 230000008569 process Effects 0.000 claims description 78
- 238000013528 artificial neural network Methods 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000008878 coupling Effects 0.000 claims description 15
- 238000010168 coupling process Methods 0.000 claims description 15
- 238000005859 coupling reaction Methods 0.000 claims description 15
- 230000006403 short-term memory Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 564
- 238000005516 engineering process Methods 0.000 description 32
- 238000010606 normalization Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 28
- 238000003058 natural language processing Methods 0.000 description 22
- 238000000354 decomposition reaction Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 21
- 230000004048 modification Effects 0.000 description 18
- 238000012986 modification Methods 0.000 description 18
- 230000009466 transformation Effects 0.000 description 15
- 238000011176 pooling Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 12
- 230000003993 interaction Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000001994 activation Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Neurology (AREA)
- Machine Translation (AREA)
Description
本出願は、2016年11月4日に出願された米国仮特許出願第62/418,070号「JOINT MANY-TASK MODEL(同時多タスクモデル)」(代理人案件番号SALE 1182-2/1948PROV2)の利益を主張する。この優先権仮出願は、全ての目的のために参照により本明細書に組み込まれる。この優先権仮出願は、発明者の研究のさらなる詳細を提供する技術論文を含む。
本出願は、2017年1月31日に出願された米国特許出願第15/421,424号「DEEP NEURAL NETWORK MODEL FOR PROCESSING DATA THROUGH MUTLIPLE LINGUISTIC TASK HIERARCHIES(複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル)」(代理人案件番号SALE 1182-4/1948US2)の利益を主張する。この優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
本出願は、2017年1月31日に出願された米国特許出願第15/421,407号「JOINT MANY-TASK NEURAL NETWORK MODEL FOR MULTIPLE NATURAL LANGUAGE PROCESSING (NLP) TASKS(複数の自然言語処理(NLP)タスクのための同時多タスクニューラルネットワークモデル)」(代理人案件番号SALE 1182-3/1948US1)の利益を主張する。この優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
本出願は、2017年1月31日に出願された米国特許出願第15/421,431号「TRAINING A JOINT MANY-TASK NEURAL NETWORK MODEL USING SUCCESSIVE REGULARIZATION(逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング)」(代理人案件番号SALE 1182-5/1948US3)の利益を主張する。この優先権出願は、全ての目的のために参照により本明細書に組み込まれる。
以下の説明は、当業者が開示されている技術を製造及び使用することを可能にするように提示されており、特定の用途及びその要件の文脈において提供されている。開示されている技術の主旨及び範囲から逸脱することなく、開示されている実施形態に対する様々な変更が、当業者には容易に明らかであり、本開示において規定されている一般的な原理は、他の実施形態及び用途にも適用可能である。したがって、開示されている技術は、例示されている実施形態に限定されるよう意図されるものではなく、本出願において開示されている原理及び特徴と整合する最も広い範囲に従うべきである。
自然言語処理(NLP)の分野において、複数のレベルの言語表現が、様々な方法で使用されている。例えば、品詞(POS)タグは、構文解析器により適用される。POSタグは、自然言語推論、関係分類、感情分析、又は機械翻訳等のより上位レベルのタスクを向上させる。しかしながら、システムは、単方向パイプラインであり、エンドツーエンドでトレーニングされないことが多いので、より上位レベルのタスクは、通常、より下位レベルのタスクを向上させることができない。
図1は、連続する層において、ますます複雑化しているNLPタスクを実行する同時多タスクニューラルネットワークモデル100の態様を示している。実施形態において、モデル100は、言語階層に従って層がスタックされており、下位層への入力とともに、下位層の埋め込み出力を、上位層に提供するバイパス結合を含むスタック型長短期記憶(「LSTM」)文処理器である。言語階層は、文(例えば、sentence1又はsentence2)内の単語から、品詞、文のチャンク、単語と単語の係り受け親(dependency parents)との間の係り受けリンク(dependency links)、係り受けリンクに関するラベルまでを構築する。図1に示されている例において、モデル100は、同様のアーキテクチャを有する2つのLSTMスタック(すなわち、スタックa及びスタックb)を含む。一実施形態において、モデル100は、1つのLSTMスタックのみを含む。別の実施形態において、モデル100は、3つ以上のLSTMスタック(例えば、3つのLSTMスタック、4つのLSTMスタック、10個のLSTMスタック等)を含む。
図2Aは、入力単語、特に未知の単語、をロバストに符号化するために使用される同時埋め込み技術200を示している。同時埋め込みは、長さLの入力系列s内の各単語wtについて、単語wtの単語埋め込み210と、本明細書において「n文字グラム」埋め込みとも呼ばれる、単語wtの1つ以上の文字nグラム埋め込みと、を連結することにより、いわゆる「単語表現」222を構築することを含む。図2Aにおいて、この連結演算は、「+」記号で表されている。
222として表現される。
で表される。
があり、ここで、重複及び未知のエントリは除去されていると仮定する。次いで、単語wtは、以下のように計算される、埋め込み
により表現される:
上記において、
は、文字nグラム
のパラメータ付き埋め込みである。
について、N個のネガティブ文脈単語がサンプリングされ、目的関数は、以下のように定義される:
上記において、
は、ロジスティックシグモイド関数であり、
は、文脈単語についての重みベクトルであり、
は、ネガティブサンプルである。
図3は、次元射影300の一実施形態を示している。次元射影は、双方向LSTMのニューラルネットワークスタックにおいて下位層から上位層に中間結果を伝達することを含み、ここで、ニューラルネットワークスタックは、トークンの系列を処理する、分析フレームワークに対応する層を有し、下位層は、トークンの各々について分析フレームワークラベルベクトルを生成する。
という次元数を有し、これは、要素ごとに、
として識別され、dは、個々の次元を表し、下付き文字は、次元の順序位置を表す。一例において、
である。一実施形態において、分類器304は、利用可能なフレームワークラベルの数とほぼ同じ次元数を有するラベル空間ベクトルとして、隠れ状態ベクトル314を、分析フレームワークラベル空間306へと分類する。分析フレームワークラベル空間306は、言語的有意義性(linguistic meaningfulness)を符号化する。例えば、POSラベル埋め込み層が、20個のラベルを有する場合、
である。一実施形態において、分類器304は、次元削減行列
を含むだけである。別の実施形態において、分類器304は、次元削減重み行列
に加えて、次元削減重み行列
により生成されたラベル空間ベクトルを正規化する指数関数的正規化器308(例えばソフトマックス)を含む。
310により、拡張次元ラベル空間312に射影されて、拡張トークンラベルベクトル316が生成される。拡張次元ラベル空間312は、高次元ベクトル空間である。したがって、隠れ状態ベクトル314と同様に、ラベルベクトル316も、高次元ベクトル空間にマッピングされ、
という次元数を有し、これは、要素ごとに、
として識別され、lは、個々の次元を表し、下付き文字は、次元の順序位置を表す。ラベルベクトル316は、隠れ状態ベクトル314の次元数とほぼ同じ次元数を有することに留意されたい。ほぼ同じであることは、+/-10パーセント以内を意味する。次元数が同じである必要はないが、同じである場合には、プログラミングがより簡単になり得る。
図4Aは、モデル100のPOS層400の動作の一実施形態を示している。
上記において、入力
は、
、すなわち、前の隠れ状態と単語表現
との連結、と定義される。単語にわたるLSTMの後方へのパスも同じように拡張されるが、重みのセットが異なる。
が、t番目の単語に対応する1層の双方向LSTM層において用いられる。次いで、各
が、単一のReLU層を有する指数関数的正規化器に与えられ、これが、POSタグの各々についての確率ベクトル
を出力する。
図5Aは、モデル100のチャンキング層400の動作の一実施形態を示している。
上記において、
は、最初のPOS層の隠れ状態である。重みラベル埋め込み
は、以下のように定義される:
上記において、Cは、POSタグの数であり、
は、j番目のPOSタグが単語wtに割り当てられる確率質量であり、
は、対応するラベル埋め込みである。前述のように、ラベル埋め込みは、確率質量よりも高次元数であり得る。確率値は、POSラベル埋め込み層が内蔵のPOSタグ付け器のように動作することにより自動的に予測され、したがって、いくつかの実施形態において、正解POSタグは必要とされない。
を使用することにより、POSタグ付けと同様の方策が用いられる。いくつかの実施形態において、単一のReLU隠れ層が、指数関数的分類器の前に使用される。
図6Aは、モデル100の係り受け解析層600の動作の一実施形態を示している。
ここで、チャンキングベクトルは、上記の式(1)におけるPOSベクトルと同様のやり方で計算される。POSタグ402及びチャンキングタグ502は、係り受け解析を向上させるために使用される。
として定義する。上記において、
は、パラメータ行列である。上述のように、根について、モデル100は、
をパラメータ付きセンチネルベクトル622として定義する。上述のように、wj(又は根ノード)がwtの親である確率を計算するために、スコアが、指数関数的正規化器(例えばソフトマックス614)を使用して、以下のように正規化される:
上記において、Lは文の長さである。
を使用して予測される。テスト時において、一実施形態では、親ノード及び係り受けラベルが、文内の各単語について貪欲に(greedily)選択される。すなわち、モデル100は、POSラベル埋め込み層、チャンクラベル埋め込み層、又は、係り受け親識別及び係り受け関係ラベル埋め込み層においてビーム探索なく機能する。これは、モデル100が単語ごとにラベル埋め込みを計算することが理由で生じ、これは、ビーム探索により通常もたらされる冗長さ及び計算待ち時間を回避するので、並列化を高め、計算効率を向上させる。加えて、係り受け解析中の単語ごとの計算は、単語がそれだけで根として予測される場合、モデル100がそれを誤った予測として検出でき、単語についての新たな正しい予測を自動的に計算できるように、モデル100が、誤ってラベル付けされた根を修正することを可能にする。
図7Aは、モデル100の意味関連性層700の動作の一実施形態を示している。
を、全ての単語レベルの表現にわたる要素ごとの最大値として計算する:
上記において、Lは文の長さである。
上記において、
は、要素ごとの減算の絶対値であり、
は、要素ごとの乗算である。これらの演算の両方が、2つのベクトルの2つの異なる類似性指標とみなされ得る。次いで、
が、単一のマックスアウト隠れ層722を有する指数関数的正規化器(例えばソフトマックス)に与えられ、文ペアについての関連性スコア(例えば1~5の間)が出力される。マックスアウト隠れ層722は、最大非線形射影が指数関数的正規化器に与えられるように、それぞれが
の非線形射影を生成する複数の線形関数(例えばプールサイズが4である)を含む。
2つの文の間の含意分類のために、モデル100はまた、意味関連性タスクと同様に、最大プーリング技術を使用する。前提-仮説ペア(s,s’)を3つのクラスのうちの1つに分類するために、モデル100は、どれが前提(又は仮説)であるかを識別するために要素ごとの減算の絶対値を使用しないことを除いて、式(2)と同様に特徴量ベクトル
を計算する。次いで、
が、複数のマックスアウト隠れ層(例えば、3つのマックスアウト隠れ層)822を有する指数関数的正規化器(例えばソフトマックス)に与えられる。
とである。
NLPタスクにおいて、マルチタスク学習は、より上位レベルのタスクだけでなくより下位レベルのタスクも向上させる可能性を有している。事前にトレーニングされたモデルパラメータを固定されたものとして扱うのではなく、開示されている逐次正則化は、モデル100が、壊滅的忘却なく、より下位レベルのタスクを継続的にトレーニングすることを可能にする。
POS層400のための1つのトレーニングコーパスは、Penn TreebankのWall Street Journal(WSJ)部分である。このコーパスは、POSタグでラベル付けされたトークンを含む。POS層400のトレーニング中、これが現在の層であるので、L2ノルム正則化が、POS層400の層パラメータに適用される。逐次正則化が、ただ1つの下位層、すなわち、単語埋め込み空間204及び文字埋め込み空間208を含む埋め込み層の層パラメータに適用される。
が、POS層400に関連付けられているモデルパラメータのセットを表すとする。ここで、
は、第1の双方向LSTM及び分類器における重み行列のセットであり、
は、バイアスベクトルのセットである。
を最適化するための目的関数は、以下のように定義される:
上記において、
は、正しいラベルαが、文s内のwtに割り当てられる確率値であり、
は、L2ノルム正則化項であり、λは、L2ノルム正則化ハイパーパラメータである。
は、逐次正則化項である。逐次正則化は、モデル100における壊滅的忘却を防ぎ、したがって、モデル100が他のタスクについて学習された情報を忘却するのを防ぐ。POSタグ付けの場合、正則化は、
に適用され、
は、前のトレーニングエポックにおいて、最上層における最終タスクをトレーニングした後の埋め込みパラメータである。δは、逐次正則化ハイパーパラメータであり、これは、モデル100の異なる層ごとに異なり得るものであり、また、ネットワーク重み及びバイアスに様々に割り当てられる値であり得る。
チャンキング層500をトレーニングするために、チャンクがラベル付けされているWSJコーパスが使用された。チャンキング層500のトレーニング中、これが現在の層であるので、L2ノルム正則化が、チャンキング層500の層パラメータに適用される。逐次正則化が、2つの下位層、すなわち、埋め込み層及びPOS層400の層パラメータに適用される。
上記は、POSタグ付けのものと類似しており、
は、
であり、上記において、
及び
は、
における重み及びバイアスパラメータを含む重み及びバイアスパラメータであり、
は、POSラベル埋め込みのセットである。
は、現在のトレーニングエポックにおいてPOS層400をトレーニングした後のPOSパラメータである。
係り受け解析層600をトレーニングするために、係り受けラベルが付されたWSJコーパスが使用された。係り受け解析層600のトレーニング中、これが現在の層であるので、L2ノルム正則化が、係り受け解析層600の層パラメータに適用される。逐次正則化が、3つの下位層、すなわち、埋め込み層、POS層400、及びチャンキング層500の層パラメータに適用された。
上記において、
は、正しい親ノードラベルαがwtに割り当てられる確率値であり、
は、正しい係り受けラベルβが子-親ペア
に割り当てられる確率値である。
は、
と定義され、上記において、
及び
は、
における重み及びバイアスパラメータを含む重み及びバイアスパラメータであり、
は、チャンキングラベル埋め込みのセットである。
意味関連性層700において、SICKデータセットがトレーニングにおいて使用された。意味関連性層700のトレーニング中、これが現在の層であるので、L2ノルム正則化が、意味関連性層700の層パラメータに適用された。逐次正則化が、4つの下位層、すなわち、埋め込み層、POS層400、チャンキング層500、及び係り受け解析層600の層パラメータに適用された。
上記において、
は、規定された関連性スコアにわたる正解分布であり、
は、文表現を所与とする予測分布であり、
は、2つの分布の間のKLダイバージェンスである。
は、
と定義される。
含意層800をトレーニングするために、我々は、SICKデータセットを使用した。含意層800のトレーニング中、これが現在の層であるので、L2ノルム正則化が、含意層800の層パラメータに適用される。逐次正則化が、5つの下位層、すなわち、埋め込み層、POS層400、チャンキング層500、係り受け解析層600、及び意味関連性層700の層パラメータに適用される。
上記において、
は、正しいラベルαが前提-仮説ペア(s,s’)に割り当てられる確率値である。
は、
と定義され、上記において、
は、関連性ラベル埋め込みのセットである。
図9Aを参照すると、図9Aは、分析階層に従って少なくとも3つの層がスタックされているスタック型LSTM系列処理器をトレーニングする一実施形態を示している。図9Aにおいて、第1の層、第2の層、及び第3の層(例えば、POS層400、チャンキング層500、及び係り受け層600)は、各層に関するトレーニング例を用いてバックプロパゲーションによりトレーニングされ、トレーニング中、下位層への正則化パスダウンが伴う。トレーニングは、第1の層のトレーニング例(例えばPOSデータ)を用いて、第1の層をトレーニングすること、第1の層への正則化パスダウントレーニングを伴う、第2の層のトレーニング例(例えばチャンキングデータ)を用いて、第2の層をトレーニングすること、及び、第1の層及び第2の層への正則化パスダウントレーニングを伴う、第3の層のトレーニング例(例えば係り受けデータ)を用いて、第3の層をトレーニングすることを含む。正則化パスダウントレーニングは、少なくとも2つの正則化項を含むフィットネス関数を有するトレーニング目的関数を制約することにより正則化される。少なくとも2つの正則化項は、下位層に適用された係数行列における重みの大きさの増加にペナルティを与えることにより正則化し、これは、下位層に適用された係数行列における重みの全ての変化を逐次正則化する。一実施形態において、フィットネス関数は、交差エントロピー損失である。別の実施形態において、フィットネス関数は、KLダイバージェンスである。さらに別の実施形態において、フィットネス関数は、平均二乗誤差である。
が処理される。トレーニング例が、現在の層により処理されるたびに、下位層の層パラメータ
及び現在の層の層パラメータ
が、勾配をバックプロパゲーションすることにより更新される。
は、現在の層の所与のトレーニング例に関するバックプロパゲーションの結果としての、下位層のパラメータ
の更新された値を表す。また、各サブエポックの終わりにおいて、現在の層の埋め込みパラメータの現在の状態及び全ての下位層の埋め込みパラメータの現在の状態の「スナップショット」が取られる。スナップショット値は、本明細書において「現在のアンカー値」と呼ばれ、
として、メモリに保持される。
のみを逐次正則化する。逐次正則化は、現在の層のパラメータ、すなわち、POS層400の層パラメータ
に適用されず、L2ノルム正則化
だけが、現在の層の更新されたパラメータに適用されて、正則化された現在の層のパラメータ
が生成される。逐次正則化は、POS層400のトレーニング中に更新された下位層の層パラメータ値、すなわち、
が、現在のアンカー値
から大きくずれていないことを確実にする。これは、逐次正則化された下位層のパラメータ
をもたらす。サブエポックの終わりにおいて、最も直近に正則化された現在の層のパラメータ
及び最も直近に逐次正則化された下位層のパラメータ
が、スナップショット動作を受け、新たな現在のアンカー値として、メモリに保持される。
単一のエンドツーエンドモデルにおいてますます深くなる層を使用して、ますます複雑化している自然言語処理(NLP)タスクを解決するための、いわゆる「同時多タスクニューラルネットワークモデル」のためのシステム、方法、及び製品が記載される。相互に排他的ではない実施形態は、組み合わせ可能であると教示される。実施形態の1つ以上の特徴は、他の実施形態と組み合わせられることもある。本開示は、これらのオプションについてユーザに定期的にリマインドする。これらのオプションを繰り返す記載事項の、いくつかの実施形態からの省略は、前のセクションにおいて教示された組み合わせを限定するものとして解釈されるべきではない。これらの記載事項は、参照により以下の実施形態の各々に組み込まれる。
により表され得、上記において、(n)は、スタック型LSTMのn番目の層を表し、
は、正しいラベルαが文s内のwtに割り当てられる確率値を表す。
であり、上記において、nと同じ層である(m)は、スタック型LSTMの層1~mを表し、λは、L2ノルム正則化ハイパーパラメータであり、
は、スタック型LSTMの層1~mについて重み付け行列の要素に、要素ごとに二乗演算を適用する。
であり、上記において、n-1と同じ層である(m-1)は、スタック型LSTMの層1~m-1を表し、δは、逐次正則化ハイパーパラメータであり、
は、1つ以上の下位層の層パラメータを表し、
は、前のサブエポックにおいて保持された1つ以上の下位層の層パラメータを表し、
は、スタック型LSTMの層1~m-1について重み付け行列の要素に、要素ごとに二乗演算を適用する。
図11は、同時多タスクニューラルネットワークモデル100を実現するために使用され得るコンピュータシステム1100の簡略化されたブロック図である。コンピュータシステム1100は、一般に、バスサブシステム1132を介して複数の周辺デバイスと通信する1つ以上のCPUプロセッサ1120を含む。これらの周辺デバイスは、例えばメモリデバイスを含むメモリサブシステム1112及びファイル記憶サブシステム1118と、ユーザインタフェース入力デバイス1130と、ユーザインタフェース出力デバイス1124と、ネットワークインタフェースサブシステム1122と、複数のGPUプロセッシングコア又はGPUプロセッサ1128を含むGPU1126と、を含み得る。入力デバイス及び出力デバイスは、コンピュータシステム1100とのユーザインタラクションを可能にする。ネットワークインタフェースサブシステム1122は、他のコンピュータシステムにおける対応するインタフェースデバイスへのインタフェースを含め、外部ネットワークへのインタフェースを提供する。
付録が、以下に添付されている:
Claims (20)
- 長短期記憶(LSTM)のニューラルネットワークスタックにおいて、下位層から上位層に中間結果を伝達する方法であって、前記スタックは、トークンの系列を処理する分析フレームワークに対応する層を有し、前記方法は、
前記トークンの系列におけるトークンを表すトークン埋め込みを処理して、第1の埋め込みにすることと、
双方向LSTMを適用して、前記トークンに対する前方状態ベクトルと後方状態ベクトル、トークンに対する1つの前方状態ベクトルと1つの後方状態ベクトルを計算することと、
前記前方状態ベクトル及び前記後方状態ベクトルに分類器を適用して、利用可能な分析フレームワークラベルの数に対応する次元数を有するラベル空間ベクトルとして前記トークンを分析フレームワークラベル空間に埋め込むことであって、前記利用可能な分析フレームワークラベルの数は、前記前方状態ベクトル及び前記後方状態ベクトルの次元数よりも小さい、ことと、
前記トークンの前記ラベル空間ベクトルを、前記前方状態ベクトル及び前記後方状態ベクトルの次元数を有する拡張次元ラベル空間に射影して、拡張トークンラベルベクトルを生成することと、
前記下位層から前記上位層へ、前記前方状態ベクトル、前記後方状態ベクトル、前記拡張トークンラベルベクトル、及び前記第1の埋め込みを伝達して、それにより、前記上位層が前記トークンを処理するために必要とする入力を供給することと、を含む、方法。 - 前記上位層へのバイパス結合によって、前記下位層によって入力として受けられるベクトルを伝達することをさらに含む、請求項1に記載の方法。
- 前記上位層へのバイパス結合によって、前記下位層及び前の下位層によって入力として受けるベクトルを伝達することをさらに含む、請求項1に記載の方法。
- 前記上位層の上にある層へのバイパス結合によって、前記下位層及び前記上位層によって入力として受けるベクトル、並びに前記上位層によって生成されたベクトルを伝達することをさらに含む、請求項1記載の方法。
- 前記分類器は、次元削減行列である、請求項1~4のいずれか一項に記載の方法。
- 前記トークンの前記ラベル空間ベクトルを前記拡張次元ラベル空間に射影する前に、前記ラベル空間ベクトルを正規化する、請求項1~5のいずれか一項に記載の方法。
- 前記トークンの前記ラベル空間ベクトルを前記拡張次元ラベル空間に射影することは、次元拡張重み行列を前記ラベル空間ベクトルに適用することをさらに含む、請求項1~6のいずれか一項に記載の方法。
- 前記拡張トークンラベルベクトルの次元数が、前記前方状態ベクトルと前記後方状態ベクトルの前記次元数の10%以内である、請求項1~7のいずれか一項に記載の方法。
- 前記利用可能な分析フレームワークラベルの数が、前記前方状態ベクトルと前記後方状態ベクトルの前記次元数の1/5以下であり、それにより、双方向LSTMの前記ニューラルネットワークスタックをトレーニングするときに、過剰適合を低減させる次元ボトルネックを形成する、請求項1~8のいずれか一項に記載の方法。
- 前記利用可能な分析フレームワークラベルの数が、前方及び後方状態ベクトルの次元数の1/10以下であり、それによって、双方向LSTMのニューラルネットワークスタックをトレーニングするときに、過剰適合を低減させる次元ボトルネックを形成する、請求項1~9のいずれか一項に記載の方法。
- 入力系列におけるトークンの系列を処理する多層ニューラルネットワークシステムであって、前記システムは、
下位層への入力を前記下位層の埋め込み出力とともに上位層に提供する複数のバイパス結合を有する、分析階層に従って層にスタックされたスタック型長短期記憶(LSTM)トークン系列プロセッサを含み、前記スタックされた層は、
少なくとも1つの双方向LSTMを含む、第1の埋め込み層を含み、前記第1の埋め込み層は、トークンの前記入力系列における前記トークンを表すトークン埋め込みを、
前記トークン埋め込みから前記トークンに対する前方状態ベクトルと後方状態ベクトルを計算することと、
前記前方状態ベクトル及び前記後方状態ベクトルに第1のラベル分類器を適用して、利用可能な分析フレームワークラベルの数に対応する次元数を有するラベル空間ベクトルとして前記トークンを分析フレームワークラベル空間に埋め込むことと、
前記トークンの前記ラベル空間ベクトルを、前記前方状態ベクトル及び前記後方状態ベクトルの次元数に対応する次元数を有する拡張次元ラベル空間に射影して、拡張トークンラベルベクトルを生成することと、
前記第1の埋め込み層の上にある第2の埋め込み層に、前記前方状態ベクトル、前記後方状態ベクトル、前記拡張トークンラベルベクトル、及び前記第1の埋め込みを、前記第2の埋め込み層が前記トークンを処理するための入力として伝達することと、を行うことにより受信する、多層ニューラルネットワークシステム。 - 前記スタックされた層は、前記第2の埋め込み層をさらに含み、前記第2の埋め込み層は、第2の双方向LSTMを含み、前記前方状態ベクトル、前記後方状態ベクトル、前記拡張トークンラベルベクトル、及び前記第1の埋め込みを前記バイパス結合を介して受信する、請求項11に記載の多層ニューラルネットワークシステム。
- 前記複数のバイパス結合におけるバイパス結合は、前記後方状態ベクトル及び前記前方状態ベクトル以外に、前記第1の埋め込み層によって入力として受けるベクトルを前記第2の埋め込み層に伝達する、請求項11又は12に記載の多層ニューラルネットワークシステム。
- 前記複数のバイパス結合における第2のバイパス結合は、前記後方状態ベクトル及び前方状態ベクトルを伝達する、請求項11~13のいずれか一項に記載の多層ニューラルネットワークシステム。
- 前記複数のバイパス結合におけるバイパス結合は、前記第1の埋め込み層及び前の下位層によって入力として受けられるベクトルを前記第2の埋め込み層に伝達する、請求項11又は12に記載の多層ニューラルネットワークシステム。
- 前記スタックされた層は、前記第2の埋め込み層の上にある第3の埋め込み層をさらに含み、前記複数のバイパス結合におけるバイパス結合は、前記第1の埋め込み層及び前記第2の埋め込み層によって入力として受けられるベクトルを前記第3の埋め込み層に伝達する、請求項11又は12に記載の多層ニューラルネットワークシステム。
- 前記第1のラベル分類器は、次元削減行列である、請求項11~16のいずれか一項に記載の多層ニューラルネットワークシステム。
- 前記トークンの前記ラベル空間ベクトルを前記拡張次元ラベル空間に射影する前に、前記ラベル空間ベクトルを正規化する、請求項11~17のいずれか一項に記載の多層ニューラルネットワークシステム。
- 前記利用可能な分析フレームワークラベルの数が、前記前方状態ベクトルと前記後方状態ベクトルの次元数の1/5以下であり、それにより、双方向LSTMのニューラルネットワークスタックをトレーニングするときに、過剰適合を低減させる次元ボトルネックを形成する、請求項11~18のいずれか一項に記載の多層ニューラルネットワークシステム。
- コンピュータデバイスによって実行されるときに、前記コンピュータデバイスに、長短期記憶(LSTM)のニューラルネットワークスタックにおいて、下位層から上位層に中間結果を伝達させる命令を記憶するコンピュータ読み取り可能な媒体であって、前記スタックは、トークンの系列を処理する分析フレームワークに対応する層を有し、前記命令は、
前記トークンの系列におけるトークンを表すトークン埋め込みを処理して、第1の埋め込みにすることと、
双方向LSTMを適用して、前記トークンに対する前方状態ベクトルと後方状態ベクトル、トークンに対する1つの前方状態ベクトルと1つの後方状態ベクトルを計算することと、
前記前方状態ベクトル及び前記後方状態ベクトルに分類器を適用して、利用可能な分析フレームワークラベルの数に対応する次元数を有するラベル空間ベクトルとして前記トークンを分析フレームワークラベル空間に埋め込むことであって、前記利用可能な分析フレームワークラベルの数は、前記前方状態ベクトル及び前記後方状態ベクトルの次元数よりも小さい、ことと、
前記トークンのラベル空間ベクトルを、前記前方状態ベクトル及び前記後方状態ベクトルの次元数を有する拡張次元ラベル空間に射影して、拡張トークンラベルベクトルを生成することと、
前記下位層から前記上位層へ、前記前方状態ベクトル、前記後方状態ベクトル、前記拡張トークンラベルベクトル、及び第1の埋め込みを、前記上位層が前記トークンを処理するための入力として伝達することと、を含む、コンピュータ読み取り可能な媒体。
Applications Claiming Priority (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662417269P | 2016-11-03 | 2016-11-03 | |
US62/417,269 | 2016-11-03 | ||
US201662418070P | 2016-11-04 | 2016-11-04 | |
US62/418,070 | 2016-11-04 | ||
US15/421,431 US11042796B2 (en) | 2016-11-03 | 2017-01-31 | Training a joint many-task neural network model using successive regularization |
US15/421,424 | 2017-01-31 | ||
US15/421,431 | 2017-01-31 | ||
US15/421,407 | 2017-01-31 | ||
US15/421,424 US11222253B2 (en) | 2016-11-03 | 2017-01-31 | Deep neural network model for processing data through multiple linguistic task hierarchies |
US15/421,407 US10839284B2 (en) | 2016-11-03 | 2017-01-31 | Joint many-task neural network model for multiple natural language processing (NLP) tasks |
JP2019522984A JP7068296B2 (ja) | 2016-11-03 | 2017-11-03 | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル |
PCT/US2017/060057 WO2018085729A1 (en) | 2016-11-03 | 2017-11-03 | Deep neural network model for processing data through multiple linguistic task hierarchies |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019522984A Division JP7068296B2 (ja) | 2016-11-03 | 2017-11-03 | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022097590A JP2022097590A (ja) | 2022-06-30 |
JP7400007B2 true JP7400007B2 (ja) | 2023-12-18 |
Family
ID=62020545
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019522896A Active JP6976324B2 (ja) | 2016-11-03 | 2017-11-03 | 逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング |
JP2019522984A Active JP7068296B2 (ja) | 2016-11-03 | 2017-11-03 | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル |
JP2019523092A Active JP7035042B2 (ja) | 2016-11-03 | 2017-11-03 | 複数の自然言語処理(nlp)タスクのための同時多タスクニューラルネットワークモデル |
JP2022074635A Active JP7553185B2 (ja) | 2016-11-03 | 2022-04-28 | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル |
JP2022074636A Active JP7400007B2 (ja) | 2016-11-03 | 2022-04-28 | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル |
Family Applications Before (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019522896A Active JP6976324B2 (ja) | 2016-11-03 | 2017-11-03 | 逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング |
JP2019522984A Active JP7068296B2 (ja) | 2016-11-03 | 2017-11-03 | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル |
JP2019523092A Active JP7035042B2 (ja) | 2016-11-03 | 2017-11-03 | 複数の自然言語処理(nlp)タスクのための同時多タスクニューラルネットワークモデル |
JP2022074635A Active JP7553185B2 (ja) | 2016-11-03 | 2022-04-28 | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル |
Country Status (6)
Country | Link |
---|---|
US (6) | US11042796B2 (ja) |
EP (3) | EP3535698A1 (ja) |
JP (5) | JP6976324B2 (ja) |
CN (3) | CN110192203B (ja) |
CA (3) | CA3039386C (ja) |
WO (3) | WO2018085728A1 (ja) |
Families Citing this family (226)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11397952B2 (en) * | 2016-03-31 | 2022-07-26 | ZenDesk, Inc. | Semi-supervised, deep-learning approach for removing irrelevant sentences from text in a customer-support system |
US10565305B2 (en) | 2016-11-18 | 2020-02-18 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
US10878837B1 (en) * | 2017-03-01 | 2020-12-29 | Snap Inc. | Acoustic neural network scene detection |
US10691886B2 (en) * | 2017-03-09 | 2020-06-23 | Samsung Electronics Co., Ltd. | Electronic apparatus for compressing language model, electronic apparatus for providing recommendation word and operation methods thereof |
US11250311B2 (en) | 2017-03-15 | 2022-02-15 | Salesforce.Com, Inc. | Deep neural network-based decision network |
US10817509B2 (en) * | 2017-03-16 | 2020-10-27 | Massachusetts Institute Of Technology | System and method for semantic mapping of natural language input to database entries via convolutional neural networks |
US10565318B2 (en) | 2017-04-14 | 2020-02-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
US11030394B1 (en) * | 2017-05-04 | 2021-06-08 | Amazon Technologies, Inc. | Neural models for keyphrase extraction |
US11386327B2 (en) | 2017-05-18 | 2022-07-12 | Salesforce.Com, Inc. | Block-diagonal hessian-free optimization for recurrent and convolutional neural networks |
US10817650B2 (en) | 2017-05-19 | 2020-10-27 | Salesforce.Com, Inc. | Natural language processing using context specific word vectors |
US10748066B2 (en) * | 2017-05-20 | 2020-08-18 | Google Llc | Projection neural networks |
US11468286B2 (en) * | 2017-05-30 | 2022-10-11 | Leica Microsystems Cms Gmbh | Prediction guided sequential data learning method |
US10055685B1 (en) | 2017-10-16 | 2018-08-21 | Apprente, Inc. | Machine learning architecture for lifelong learning |
US11537895B2 (en) * | 2017-10-26 | 2022-12-27 | Magic Leap, Inc. | Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks |
US10592767B2 (en) | 2017-10-27 | 2020-03-17 | Salesforce.Com, Inc. | Interpretable counting in visual question answering |
US10573295B2 (en) | 2017-10-27 | 2020-02-25 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
US10762637B2 (en) * | 2017-10-27 | 2020-09-01 | Siemens Healthcare Gmbh | Vascular segmentation using fully convolutional and recurrent neural networks |
US11170287B2 (en) | 2017-10-27 | 2021-11-09 | Salesforce.Com, Inc. | Generating dual sequence inferences using a neural network model |
US11928600B2 (en) | 2017-10-27 | 2024-03-12 | Salesforce, Inc. | Sequence-to-sequence prediction using a neural network model |
US11604956B2 (en) | 2017-10-27 | 2023-03-14 | Salesforce.Com, Inc. | Sequence-to-sequence prediction using a neural network model |
US11562287B2 (en) | 2017-10-27 | 2023-01-24 | Salesforce.Com, Inc. | Hierarchical and interpretable skill acquisition in multi-task reinforcement learning |
US10542270B2 (en) | 2017-11-15 | 2020-01-21 | Salesforce.Com, Inc. | Dense video captioning |
CN110444214B (zh) * | 2017-11-24 | 2021-08-17 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
US10482162B2 (en) * | 2017-11-30 | 2019-11-19 | International Business Machines Corporation | Automatic equation transformation from text |
US20200320387A1 (en) * | 2017-12-11 | 2020-10-08 | Koninklijke Philips N.V. | Independent and dependent reading using recurrent networks for natural language inference |
CN109934697A (zh) * | 2017-12-15 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 一种基于图结构模型的信用风险控制方法、装置以及设备 |
CN109934706B (zh) * | 2017-12-15 | 2021-10-29 | 创新先进技术有限公司 | 一种基于图结构模型的交易风险控制方法、装置以及设备 |
US11276002B2 (en) | 2017-12-20 | 2022-03-15 | Salesforce.Com, Inc. | Hybrid training of deep networks |
US11783179B2 (en) * | 2017-12-29 | 2023-10-10 | Robert Bosch Gmbh | System and method for domain- and language-independent definition extraction using deep neural networks |
US10496752B1 (en) * | 2018-01-04 | 2019-12-03 | Facebook, Inc. | Consumer insights analysis using word embeddings |
US10325223B1 (en) | 2018-02-06 | 2019-06-18 | Apprente, Inc. | Recurrent machine learning system for lifelong learning |
US10776581B2 (en) | 2018-02-09 | 2020-09-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
US11227218B2 (en) | 2018-02-22 | 2022-01-18 | Salesforce.Com, Inc. | Question answering from minimal context over documents |
US10929607B2 (en) | 2018-02-22 | 2021-02-23 | Salesforce.Com, Inc. | Dialogue state tracking using a global-local encoder |
JP6872505B2 (ja) * | 2018-03-02 | 2021-05-19 | 日本電信電話株式会社 | ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム |
US10162794B1 (en) * | 2018-03-07 | 2018-12-25 | Apprente, Inc. | Hierarchical machine learning system for lifelong learning |
US11106182B2 (en) | 2018-03-16 | 2021-08-31 | Salesforce.Com, Inc. | Systems and methods for learning for domain adaptation |
US10783875B2 (en) | 2018-03-16 | 2020-09-22 | Salesforce.Com, Inc. | Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network |
US10528669B2 (en) * | 2018-03-20 | 2020-01-07 | Wipro Limited | Method and device for extracting causal from natural language sentences for intelligent systems |
EP3782080A1 (en) * | 2018-04-18 | 2021-02-24 | DeepMind Technologies Limited | Neural networks for scalable continual learning in domains with sequentially learned tasks |
US11436496B2 (en) * | 2018-04-20 | 2022-09-06 | Google Llc | Systems and methods for regularizing neural networks |
CN108959242B (zh) * | 2018-05-08 | 2021-07-27 | 中国科学院信息工程研究所 | 一种基于中文字符词性特征的目标实体识别方法及装置 |
CN108764459B (zh) * | 2018-05-16 | 2020-06-16 | 西安电子科技大学 | 基于语义定义的目标识别网络设计方法 |
US11600194B2 (en) | 2018-05-18 | 2023-03-07 | Salesforce.Com, Inc. | Multitask learning as question answering |
CN108829737B (zh) * | 2018-05-21 | 2021-11-05 | 浙江大学 | 基于双向长短期记忆网络的文本交叉组合分类方法 |
US10909157B2 (en) | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
CN108984515B (zh) * | 2018-05-22 | 2022-09-06 | 广州视源电子科技股份有限公司 | 错别字检测方法、装置及计算机可读存储介质、终端设备 |
US11631009B2 (en) | 2018-05-23 | 2023-04-18 | Salesforce.Com, Inc | Multi-hop knowledge graph reasoning with reward shaping |
CN108932229A (zh) * | 2018-06-13 | 2018-12-04 | 北京信息科技大学 | 一种金融新闻倾向性分析方法 |
US10902350B2 (en) * | 2018-07-20 | 2021-01-26 | Verizon Media Inc. | System and method for relationship identification |
CN109194707B (zh) * | 2018-07-24 | 2020-11-20 | 创新先进技术有限公司 | 分布式图嵌入的方法及装置 |
US10885277B2 (en) * | 2018-08-02 | 2021-01-05 | Google Llc | On-device neural networks for natural language understanding |
US11194974B2 (en) * | 2018-08-09 | 2021-12-07 | Nec Corporation | Teaching syntax by adversarial distraction |
CN109190112B (zh) * | 2018-08-10 | 2022-12-06 | 合肥工业大学 | 基于双通道特征融合的专利分类方法、系统及存储介质 |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109165789B (zh) * | 2018-09-04 | 2022-06-21 | 南方电网电力科技股份有限公司 | 基于LSTM的锅炉NOx排放量预测模型的建模方法及装置 |
CN109344399B (zh) * | 2018-09-14 | 2023-02-03 | 重庆邂智科技有限公司 | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 |
US11436481B2 (en) | 2018-09-18 | 2022-09-06 | Salesforce.Com, Inc. | Systems and methods for named entity recognition |
US10970486B2 (en) | 2018-09-18 | 2021-04-06 | Salesforce.Com, Inc. | Using unstructured input to update heterogeneous data stores |
CN109325231B (zh) * | 2018-09-21 | 2023-07-04 | 中山大学 | 一种多任务模型生成词向量的方法 |
GB201815664D0 (en) * | 2018-09-26 | 2018-11-07 | Benevolentai Tech Limited | Hierarchical relationship extraction |
US10860927B2 (en) * | 2018-09-27 | 2020-12-08 | Deepmind Technologies Limited | Stacked convolutional long short-term memory for model-free reinforcement learning |
US11029694B2 (en) | 2018-09-27 | 2021-06-08 | Salesforce.Com, Inc. | Self-aware visual-textual co-grounded navigation agent |
US11645509B2 (en) | 2018-09-27 | 2023-05-09 | Salesforce.Com, Inc. | Continual neural network learning via explicit structure learning |
US11087177B2 (en) | 2018-09-27 | 2021-08-10 | Salesforce.Com, Inc. | Prediction-correction approach to zero shot learning |
US11514915B2 (en) | 2018-09-27 | 2022-11-29 | Salesforce.Com, Inc. | Global-to-local memory pointer networks for task-oriented dialogue |
CN110990559B (zh) * | 2018-09-29 | 2023-08-04 | 北京国双科技有限公司 | 用于对文本进行分类的方法和装置、存储介质及处理器 |
US10672382B2 (en) * | 2018-10-15 | 2020-06-02 | Tencent America LLC | Input-feeding architecture for attention based end-to-end speech recognition |
CN109582296B (zh) * | 2018-10-19 | 2020-12-18 | 北京大学 | 一种基于栈增强lstm的程序表示方法 |
CN109493931B (zh) * | 2018-10-25 | 2024-06-04 | 平安科技(深圳)有限公司 | 一种病历文件的编码方法、服务器及计算机可读存储介质 |
US11625573B2 (en) * | 2018-10-29 | 2023-04-11 | International Business Machines Corporation | Relation extraction from text using machine learning |
US20200143261A1 (en) * | 2018-11-02 | 2020-05-07 | Unchained Logic, LLC | Systems and methods for processing content using a pattern language |
CN109543180B (zh) * | 2018-11-08 | 2020-12-04 | 中山大学 | 一种基于注意力机制的文本情感分析方法 |
CN109582956B (zh) * | 2018-11-15 | 2022-11-11 | 中国人民解放军国防科技大学 | 应用于句子嵌入的文本表示方法和装置 |
CN109558139A (zh) * | 2018-11-21 | 2019-04-02 | 北京城市网邻信息技术有限公司 | 组件依赖关系的标示方法、装置、计算机设备及存储介质 |
CN109635109B (zh) * | 2018-11-28 | 2022-12-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
KR102540774B1 (ko) * | 2018-12-04 | 2023-06-08 | 한국전자통신연구원 | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 |
US11822897B2 (en) | 2018-12-11 | 2023-11-21 | Salesforce.Com, Inc. | Systems and methods for structured text translation with tag alignment |
US10963652B2 (en) | 2018-12-11 | 2021-03-30 | Salesforce.Com, Inc. | Structured text translation |
JP7206898B2 (ja) * | 2018-12-25 | 2023-01-18 | 富士通株式会社 | 学習装置、学習方法および学習プログラム |
RU2721190C1 (ru) * | 2018-12-25 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами |
US10796107B2 (en) * | 2018-12-26 | 2020-10-06 | Soundhound, Inc. | Unified embeddings for translation |
US11546403B2 (en) * | 2018-12-26 | 2023-01-03 | Wipro Limited | Method and system for providing personalized content to a user |
CN109495727B (zh) * | 2019-01-04 | 2021-12-24 | 京东方科技集团股份有限公司 | 智能监控方法及装置、系统、可读存储介质 |
US11922323B2 (en) | 2019-01-17 | 2024-03-05 | Salesforce, Inc. | Meta-reinforcement learning gradient estimation with variance reduction |
CN111368996B (zh) * | 2019-02-14 | 2024-03-12 | 谷歌有限责任公司 | 可传递自然语言表示的重新训练投影网络 |
US11568306B2 (en) | 2019-02-25 | 2023-01-31 | Salesforce.Com, Inc. | Data privacy protected machine learning systems |
US11003867B2 (en) | 2019-03-04 | 2021-05-11 | Salesforce.Com, Inc. | Cross-lingual regularization for multilingual generalization |
US11366969B2 (en) | 2019-03-04 | 2022-06-21 | Salesforce.Com, Inc. | Leveraging language models for generating commonsense explanations |
US11087092B2 (en) | 2019-03-05 | 2021-08-10 | Salesforce.Com, Inc. | Agent persona grounded chit-chat generation framework |
US11580445B2 (en) | 2019-03-05 | 2023-02-14 | Salesforce.Com, Inc. | Efficient off-policy credit assignment |
CN109948152B (zh) * | 2019-03-06 | 2020-07-17 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN109833031B (zh) * | 2019-03-12 | 2020-08-14 | 西安交通大学 | 一种基于lstm利用多生理信号的自动睡眠分期方法 |
US10902289B2 (en) | 2019-03-22 | 2021-01-26 | Salesforce.Com, Inc. | Two-stage online detection of action start in untrimmed videos |
JP7230622B2 (ja) * | 2019-03-25 | 2023-03-01 | 日本電信電話株式会社 | 指標値付与装置、指標値付与方法及びプログラム |
CN109978141B (zh) * | 2019-03-28 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 神经网络模型训练方法和装置、自然语言处理方法和装置 |
CN109992779B (zh) * | 2019-03-29 | 2023-04-28 | 长沙理工大学 | 一种基于cnn的情感分析方法、装置、设备及存储介质 |
AU2020272235A1 (en) * | 2019-04-12 | 2021-11-04 | Incyzr Pty. Ltd. | Methods, systems and computer program products for implementing neural network based optimization of database search functionality |
US11281863B2 (en) | 2019-04-18 | 2022-03-22 | Salesforce.Com, Inc. | Systems and methods for unifying question answering and text classification via span extraction |
CN110162785B (zh) * | 2019-04-19 | 2024-07-16 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
CN110245332B (zh) * | 2019-04-22 | 2024-03-15 | 平安科技(深圳)有限公司 | 基于双向长短时记忆网络模型的中文编码方法和装置 |
US10997977B2 (en) * | 2019-04-30 | 2021-05-04 | Sap Se | Hybrid NLP scenarios for mobile devices |
CN110188210B (zh) * | 2019-05-10 | 2021-09-24 | 山东师范大学 | 一种基于图正则化与模态独立的跨模态数据检索方法及系统 |
CN110532395B (zh) * | 2019-05-13 | 2021-09-28 | 南京大学 | 一种基于语义嵌入的词向量改进模型的建立方法 |
US11487939B2 (en) | 2019-05-15 | 2022-11-01 | Salesforce.Com, Inc. | Systems and methods for unsupervised autoregressive text compression |
US11604965B2 (en) | 2019-05-16 | 2023-03-14 | Salesforce.Com, Inc. | Private deep learning |
US11620572B2 (en) | 2019-05-16 | 2023-04-04 | Salesforce.Com, Inc. | Solving sparse reward tasks using self-balancing shaped rewards |
US11562251B2 (en) | 2019-05-16 | 2023-01-24 | Salesforce.Com, Inc. | Learning world graphs to accelerate hierarchical reinforcement learning |
CN110245348B (zh) * | 2019-05-17 | 2023-11-24 | 北京百度网讯科技有限公司 | 一种意图识别方法及系统 |
US11669712B2 (en) | 2019-05-21 | 2023-06-06 | Salesforce.Com, Inc. | Robustness evaluation via natural typos |
US11775775B2 (en) | 2019-05-21 | 2023-10-03 | Salesforce.Com, Inc. | Systems and methods for reading comprehension for a question answering task |
US11687588B2 (en) | 2019-05-21 | 2023-06-27 | Salesforce.Com, Inc. | Weakly supervised natural language localization networks for video proposal prediction based on a text query |
US20220215182A1 (en) * | 2019-05-21 | 2022-07-07 | Nippon Telegraph And Telephone Corporation | Information processing apparatus, information learning apparatus, information processing method, information learning method and program |
US11657269B2 (en) | 2019-05-23 | 2023-05-23 | Salesforce.Com, Inc. | Systems and methods for verification of discriminative models |
US11144721B2 (en) * | 2019-05-31 | 2021-10-12 | Accenture Global Solutions Limited | System and method for transforming unstructured text into structured form |
US12106221B2 (en) | 2019-06-13 | 2024-10-01 | International Business Machines Corporation | Predicting functional tags of semantic role labeling |
US11068663B2 (en) * | 2019-06-19 | 2021-07-20 | Microsoft Technology Licensing, Llc | Session embeddings for summarizing activity |
US11397742B2 (en) | 2019-06-21 | 2022-07-26 | Microsoft Technology Licensing, Llc | Rescaling layer in neural network |
US11204968B2 (en) * | 2019-06-21 | 2021-12-21 | Microsoft Technology Licensing, Llc | Embedding layer in neural network for ranking candidates |
CN112148832B (zh) * | 2019-06-26 | 2022-11-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
US11410667B2 (en) * | 2019-06-28 | 2022-08-09 | Ford Global Technologies, Llc | Hierarchical encoder for speech conversion system |
CN110569353B (zh) * | 2019-07-03 | 2023-04-07 | 重庆大学 | 一种基于注意力机制的Bi-LSTM的标签推荐方法 |
CN110309511B (zh) * | 2019-07-04 | 2022-12-09 | 哈尔滨工业大学 | 基于共享表示的多任务语言分析系统及方法 |
CN110321343B (zh) * | 2019-07-11 | 2023-11-14 | 广东工业大学 | 一种可穿戴设备轨迹预测方法、装置和系统 |
CN110335594A (zh) * | 2019-07-11 | 2019-10-15 | 哈尔滨工业大学 | 基于多示例学习的自动语音识别困难样本挖掘方法 |
CN110381524B (zh) * | 2019-07-15 | 2022-12-20 | 安徽理工大学 | 基于Bi-LSTM的大场景移动流量在线预测方法、系统及存储介质 |
CN110598203B (zh) * | 2019-07-19 | 2023-08-01 | 中国人民解放军国防科技大学 | 一种结合词典的军事想定文书实体信息抽取方法及装置 |
WO2021012263A1 (en) * | 2019-07-25 | 2021-01-28 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Systems and methods for end-to-end deep reinforcement learning based coreference resolution |
US11455471B2 (en) * | 2019-07-26 | 2022-09-27 | Samsung Electronics Co., Ltd. | System and method for explaining and compressing deep learning natural language understanding (NLU) models |
US11609919B2 (en) | 2019-07-30 | 2023-03-21 | Walmart Apollo, Llc | Methods and apparatus for automatically providing personalized search results |
US11216519B2 (en) * | 2019-07-30 | 2022-01-04 | Walmart Apollo, Llc | Methods and apparatus for automatically providing personalized search results |
US11231703B2 (en) * | 2019-08-14 | 2022-01-25 | Hitachi, Ltd. | Multi task learning with incomplete labels for predictive maintenance |
US11615240B2 (en) | 2019-08-15 | 2023-03-28 | Salesforce.Com, Inc | Systems and methods for a transformer network with tree-based attention for natural language processing |
US11436486B2 (en) * | 2019-08-19 | 2022-09-06 | Advanced Micro Devices, Inc. | Neural network internal data fast access memory buffer |
CN110688854B (zh) * | 2019-09-02 | 2022-03-25 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置及计算机可读存储介质 |
CN110619889B (zh) * | 2019-09-19 | 2022-03-15 | Oppo广东移动通信有限公司 | 体征数据识别方法、装置、电子设备和存储介质 |
US11599792B2 (en) | 2019-09-24 | 2023-03-07 | Salesforce.Com, Inc. | System and method for learning with noisy labels as semi-supervised learning |
US11568000B2 (en) | 2019-09-24 | 2023-01-31 | Salesforce.Com, Inc. | System and method for automatic task-oriented dialog system |
US11640527B2 (en) | 2019-09-25 | 2023-05-02 | Salesforce.Com, Inc. | Near-zero-cost differentially private deep learning with teacher ensembles |
WO2021061555A1 (en) | 2019-09-25 | 2021-04-01 | Google Llc | Contrastive pre-training for language tasks |
CN112579767B (zh) * | 2019-09-29 | 2024-05-03 | 北京搜狗科技发展有限公司 | 搜索处理方法、装置和用于搜索处理的装置 |
CN110955745B (zh) * | 2019-10-16 | 2022-04-01 | 宁波大学 | 一种基于深度学习的文本哈希检索方法 |
CN110826698A (zh) * | 2019-11-04 | 2020-02-21 | 电子科技大学 | 一种通过上下文相关的图嵌入表示人群移动模式的方法 |
US11620515B2 (en) | 2019-11-07 | 2023-04-04 | Salesforce.Com, Inc. | Multi-task knowledge distillation for language model |
CN111222533B (zh) * | 2019-11-08 | 2023-02-24 | 中山大学 | 一种基于依赖树的深度学习视觉问答方法及系统 |
US11347708B2 (en) | 2019-11-11 | 2022-05-31 | Salesforce.Com, Inc. | System and method for unsupervised density based table structure identification |
CN110852072B (zh) * | 2019-11-12 | 2023-04-07 | 中山大学 | 一种基于语句关系的词向量训练方法 |
US11288438B2 (en) | 2019-11-15 | 2022-03-29 | Salesforce.Com, Inc. | Bi-directional spatial-temporal reasoning for video-grounded dialogues |
US11334766B2 (en) | 2019-11-15 | 2022-05-17 | Salesforce.Com, Inc. | Noise-resistant object detection with noisy annotations |
US11537899B2 (en) | 2019-11-18 | 2022-12-27 | Salesforce.Com, Inc. | Systems and methods for out-of-distribution classification |
US11922303B2 (en) | 2019-11-18 | 2024-03-05 | Salesforce, Inc. | Systems and methods for distilled BERT-based training model for text classification |
US11630988B2 (en) | 2019-11-18 | 2023-04-18 | International Business Machines Corporation | Multi-sample dropout for faster deep neural network training |
US11625535B1 (en) * | 2019-12-05 | 2023-04-11 | American Express Travel Related Services Company, Inc. | Computer-based systems having data structures configured to execute SIC4/SIC8 machine learning embedded classification of entities and methods of use thereof |
US11526725B2 (en) * | 2019-12-06 | 2022-12-13 | Bank Of America Corporation | Attention-based layered neural network architecture for explainable and high-performance AI processing |
US12086539B2 (en) | 2019-12-09 | 2024-09-10 | Salesforce, Inc. | System and method for natural language processing using neural network with cross-task training |
US11256754B2 (en) | 2019-12-09 | 2022-02-22 | Salesforce.Com, Inc. | Systems and methods for generating natural language processing training samples with inflectional perturbations |
US11416688B2 (en) | 2019-12-09 | 2022-08-16 | Salesforce.Com, Inc. | Learning dialogue state tracking with limited labeled data |
US11573957B2 (en) | 2019-12-09 | 2023-02-07 | Salesforce.Com, Inc. | Natural language processing engine for translating questions into executable database queries |
US11640505B2 (en) | 2019-12-09 | 2023-05-02 | Salesforce.Com, Inc. | Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading |
US11487999B2 (en) | 2019-12-09 | 2022-11-01 | Salesforce.Com, Inc. | Spatial-temporal reasoning through pretrained language models for video-grounded dialogues |
CN111161715B (zh) * | 2019-12-25 | 2022-06-14 | 福州大学 | 一种基于序列分类的特定声音事件检索与定位的方法 |
US11669745B2 (en) | 2020-01-13 | 2023-06-06 | Salesforce.Com, Inc. | Proposal learning for semi-supervised object detection |
US11790227B1 (en) * | 2020-01-16 | 2023-10-17 | Educational Testing Service | Systems and methods for neural content scoring |
CN111259148B (zh) * | 2020-01-19 | 2024-03-26 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
US11562147B2 (en) | 2020-01-23 | 2023-01-24 | Salesforce.Com, Inc. | Unified vision and dialogue transformer with BERT |
US11341334B2 (en) * | 2020-01-28 | 2022-05-24 | Here Global B.V. | Method and apparatus for evaluating natural language input to identify actions and landmarks |
CN115023710B (zh) * | 2020-01-29 | 2023-09-29 | 谷歌有限责任公司 | 用于从Web文档的结构化数据提取的可转移神经架构 |
US20210249105A1 (en) | 2020-02-06 | 2021-08-12 | Salesforce.Com, Inc. | Systems and methods for language modeling of protein engineering |
JP7421363B2 (ja) | 2020-02-14 | 2024-01-24 | 株式会社Screenホールディングス | パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法 |
US11386885B2 (en) * | 2020-02-17 | 2022-07-12 | Wipro Limited | Method and system for detecting intent as an ordered sequence from a user query |
CN111461174B (zh) * | 2020-03-06 | 2023-04-07 | 西北大学 | 多层次注意力机制的多模态标签推荐模型构建方法及装置 |
CN111401430B (zh) * | 2020-03-12 | 2022-04-01 | 四川大学 | 一种基于双通道深度神经网络的图像在线分类方法 |
US11263476B2 (en) | 2020-03-19 | 2022-03-01 | Salesforce.Com, Inc. | Unsupervised representation learning with contrastive prototypes |
CN111460766B (zh) * | 2020-03-31 | 2023-05-26 | 云知声智能科技股份有限公司 | 一种矛盾语块边界识别的方法及装置 |
JPWO2021199654A1 (ja) * | 2020-04-02 | 2021-10-07 | ||
US11328731B2 (en) | 2020-04-08 | 2022-05-10 | Salesforce.Com, Inc. | Phone-based sub-word units for end-to-end speech recognition |
US10817665B1 (en) * | 2020-05-08 | 2020-10-27 | Coupang Corp. | Systems and methods for word segmentation based on a competing neural character language model |
US11636274B2 (en) * | 2020-05-14 | 2023-04-25 | Google Llc | Systems and methods to identify most suitable grammar suggestions among suggestions from a machine translation model |
WO2021234577A1 (en) * | 2020-05-21 | 2021-11-25 | Element Ai Inc. | Method of and system for training machine learning algorithm for object classification |
US11704558B2 (en) | 2020-05-21 | 2023-07-18 | Servicenow Canada Inc. | Method of and system for training machine learning algorithm for object classification |
CN111597342B (zh) * | 2020-05-22 | 2024-01-26 | 北京慧闻科技(集团)有限公司 | 一种多任务意图分类方法、装置、设备及存储介质 |
US11669699B2 (en) | 2020-05-31 | 2023-06-06 | Saleforce.com, inc. | Systems and methods for composed variational natural language generation |
US11720559B2 (en) | 2020-06-02 | 2023-08-08 | Salesforce.Com, Inc. | Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text |
CN111666771B (zh) * | 2020-06-05 | 2024-03-08 | 北京百度网讯科技有限公司 | 文书的语义标签抽取、装置、电子设备及可读存储介质 |
CN111709485B (zh) * | 2020-06-19 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 医学影像处理方法、装置和计算机设备 |
CN111832316B (zh) * | 2020-06-30 | 2024-05-24 | 北京小米松果电子有限公司 | 语义识别的方法、装置、电子设备和存储介质 |
CN111967256B (zh) * | 2020-06-30 | 2023-08-04 | 北京百度网讯科技有限公司 | 事件关系的生成方法、装置、电子设备和存储介质 |
US11734511B1 (en) * | 2020-07-08 | 2023-08-22 | Mineral Earth Sciences Llc | Mapping data set(s) to canonical phrases using natural language processing model(s) |
US11748567B2 (en) * | 2020-07-10 | 2023-09-05 | Baidu Usa Llc | Total correlation variational autoencoder strengthened with attentions for segmenting syntax and semantics |
CN111737546B (zh) | 2020-07-24 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 确定实体业务属性的方法及装置 |
US12039270B2 (en) | 2020-08-05 | 2024-07-16 | Baldu USA LLC | Disentangle syntax and semantics in sentence representation with decomposable variational autoencoder |
US20220050967A1 (en) * | 2020-08-11 | 2022-02-17 | Adobe Inc. | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background |
US11625436B2 (en) | 2020-08-14 | 2023-04-11 | Salesforce.Com, Inc. | Systems and methods for query autocompletion |
US11934952B2 (en) | 2020-08-21 | 2024-03-19 | Salesforce, Inc. | Systems and methods for natural language processing using joint energy-based models |
US11934781B2 (en) | 2020-08-28 | 2024-03-19 | Salesforce, Inc. | Systems and methods for controllable text summarization |
CN112039907A (zh) * | 2020-09-03 | 2020-12-04 | 重庆邮电大学 | 一种基于物联网终端评测平台的自动测试方法及系统 |
US11816581B2 (en) | 2020-09-08 | 2023-11-14 | International Business Machines Corporation | Computation reduction using a decision tree classifier for faster neural transition-based parsing |
RU2766273C1 (ru) * | 2020-09-24 | 2022-02-10 | Акционерное общество "Лаборатория Касперского" | Система и способ определения нежелательного звонка |
CN112488290B (zh) * | 2020-10-21 | 2021-09-07 | 上海旻浦科技有限公司 | 具有依赖关系的自然语言多任务建模、预测方法及系统 |
CN112256876A (zh) * | 2020-10-26 | 2021-01-22 | 南京工业大学 | 基于多记忆注意力网络的方面级情感分类模型 |
US11494959B2 (en) | 2020-11-12 | 2022-11-08 | Samsung Electronics Co., Ltd. | Method and apparatus with generation of transformed image |
US11829442B2 (en) | 2020-11-16 | 2023-11-28 | Salesforce.Com, Inc. | Methods and systems for efficient batch active learning of a deep neural network |
CN112597366B (zh) * | 2020-11-25 | 2022-03-18 | 中国电子科技网络信息安全有限公司 | 基于Encoder-Decoder的事件抽取方法 |
CN112560432B (zh) * | 2020-12-11 | 2023-08-11 | 中南大学 | 基于图注意力网络的文本情感分析方法 |
CN112507109A (zh) * | 2020-12-11 | 2021-03-16 | 重庆知识产权大数据研究院有限公司 | 一种基于语义分析与关键词识别的检索方法和装置 |
CN112613032B (zh) * | 2020-12-15 | 2024-03-26 | 中国科学院信息工程研究所 | 基于系统调用序列的主机入侵检测方法及装置 |
US11836438B2 (en) * | 2021-01-28 | 2023-12-05 | Microsoft Technology Licensing, Llc | ML using n-gram induced input representation |
CN113569017B (zh) * | 2021-01-28 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 一种模型处理方法、装置、电子设备及存储介质 |
US20220245326A1 (en) * | 2021-01-29 | 2022-08-04 | Palo Alto Research Center Incorporated | Semantically driven document structure recognition |
US12106050B2 (en) | 2021-02-01 | 2024-10-01 | Oracle International Corporation | Debiasing pre-trained sentence encoders with probabilistic dropouts |
CN112883708A (zh) * | 2021-02-25 | 2021-06-01 | 哈尔滨工业大学 | 基于2d-lstm的文本蕴含识别方法 |
US11960842B2 (en) * | 2021-02-27 | 2024-04-16 | Walmart Apollo, Llc | Methods and apparatus for natural language understanding in conversational systems using machine learning processes |
CN117043859A (zh) * | 2021-03-24 | 2023-11-10 | 谷歌有限责任公司 | 查找表循环语言模型 |
US20220343139A1 (en) * | 2021-04-15 | 2022-10-27 | Peyman PASSBAN | Methods and systems for training a neural network model for mixed domain and multi-domain tasks |
CN113158679B (zh) * | 2021-05-20 | 2023-07-04 | 广东工业大学 | 基于多特征叠加胶囊网络的海洋产业实体识别方法及装置 |
CN113393832B (zh) * | 2021-06-03 | 2023-10-10 | 清华大学深圳国际研究生院 | 一种基于全局情感编码的虚拟人动画合成方法及系统 |
CN113378383B (zh) * | 2021-06-10 | 2024-02-27 | 北京工商大学 | 一种食品供应链危害物预测方法及装置 |
US11688156B2 (en) * | 2021-06-23 | 2023-06-27 | Black Sesame Technologies Inc. | Scene recognition based on labeled feature vectors of an image |
US20220414447A1 (en) * | 2021-06-24 | 2022-12-29 | Paypal, Inc. | Implicit curriculum learning |
US11797611B2 (en) * | 2021-07-07 | 2023-10-24 | International Business Machines Corporation | Non-factoid question answering across tasks and domains |
US12002455B2 (en) * | 2021-07-22 | 2024-06-04 | Qualcomm Incorporated | Semantically-augmented context representation generation |
US11972212B2 (en) * | 2021-11-10 | 2024-04-30 | Woebot Labs, Inc. | Open input classifier with entailment |
CN114580387B (zh) * | 2022-03-03 | 2024-06-07 | 戎行技术有限公司 | 一种基于多工具的自然语言处理方法、设备及介质 |
CN116682432B (zh) * | 2022-09-23 | 2024-05-31 | 荣耀终端有限公司 | 语音识别方法、电子设备及可读介质 |
CN115409433B (zh) * | 2022-11-02 | 2023-04-07 | 成都宏恒信息科技有限公司 | 基于深度nlp的社区重点人员画像分析方法及装置 |
CN117056865B (zh) * | 2023-10-12 | 2024-01-23 | 北京宝隆泓瑞科技有限公司 | 一种基于特征融合的机泵设备运行故障诊断方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160180215A1 (en) | 2014-12-19 | 2016-06-23 | Google Inc. | Generating parse trees of text segments using neural networks |
JP2016134169A (ja) | 2015-01-19 | 2016-07-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 言語モデル学習方法及び装置、言語認識方法及び装置 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2996926B2 (ja) | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
US7152051B1 (en) * | 2002-09-30 | 2006-12-19 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CN1238834C (zh) * | 2004-03-09 | 2006-01-25 | 北京沃克斯科技有限责任公司 | 一种口语识别理解的识别分析方法 |
US8355550B2 (en) | 2007-05-01 | 2013-01-15 | Siemens Aktiengesellschaft | Methods and apparatus for virtual coronary mapping |
US8121367B2 (en) | 2007-09-21 | 2012-02-21 | Siemens Aktiengesellschaft | Method and system for vessel segmentation in fluoroscopic images |
JP4979637B2 (ja) | 2008-06-06 | 2012-07-18 | ヤフー株式会社 | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム |
US8874434B2 (en) * | 2010-06-02 | 2014-10-28 | Nec Laboratories America, Inc. | Method and apparatus for full natural language parsing |
JP5564705B2 (ja) | 2010-07-16 | 2014-08-06 | 株式会社日立製作所 | 文構造解析装置、文構造解析方法および文構造解析プログラム |
JP5849960B2 (ja) * | 2010-10-21 | 2016-02-03 | 日本電気株式会社 | 含意判定装置、方法、およびプログラム |
US9037464B1 (en) * | 2013-01-15 | 2015-05-19 | Google Inc. | Computing numeric representations of words in a high-dimensional space |
CN104142917B (zh) * | 2014-05-21 | 2018-05-01 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
WO2016134183A1 (en) | 2015-02-19 | 2016-08-25 | Digital Reasoning Systems, Inc. | Systems and methods for neural language modeling |
JP6291443B2 (ja) | 2015-03-12 | 2018-03-14 | 日本電信電話株式会社 | 接続関係推定装置、方法、及びプログラム |
CN104700828B (zh) * | 2015-03-19 | 2018-01-12 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
US9842105B2 (en) * | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US20160350653A1 (en) | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
US11113598B2 (en) | 2015-06-01 | 2021-09-07 | Salesforce.Com, Inc. | Dynamic memory network |
GB201511887D0 (en) * | 2015-07-07 | 2015-08-19 | Touchtype Ltd | Improved artificial neural network for language modelling and prediction |
US20170032280A1 (en) | 2015-07-27 | 2017-02-02 | Salesforce.Com, Inc. | Engagement estimator |
US10282663B2 (en) | 2015-08-15 | 2019-05-07 | Salesforce.Com, Inc. | Three-dimensional (3D) convolution with 3D batch normalization |
US10387464B2 (en) * | 2015-08-25 | 2019-08-20 | Facebook, Inc. | Predicting labels using a deep-learning model |
US10528866B1 (en) * | 2015-09-04 | 2020-01-07 | Google Llc | Training a document classification neural network |
CN105244020B (zh) | 2015-09-24 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
US10431205B2 (en) * | 2016-04-27 | 2019-10-01 | Conduent Business Services, Llc | Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network |
CN106021227B (zh) * | 2016-05-16 | 2018-08-21 | 南京大学 | 一种基于状态转移与神经网络的汉语组块分析方法 |
US10255905B2 (en) * | 2016-06-10 | 2019-04-09 | Google Llc | Predicting pronunciations with word stress |
US10515400B2 (en) * | 2016-09-08 | 2019-12-24 | Adobe Inc. | Learning vector-space representations of items for recommendations using word embedding models |
US11205110B2 (en) * | 2016-10-24 | 2021-12-21 | Microsoft Technology Licensing, Llc | Device/server deployment of neural network data entry system |
US10346721B2 (en) | 2017-11-01 | 2019-07-09 | Salesforce.Com, Inc. | Training a neural network using augmented training datasets |
-
2017
- 2017-01-31 US US15/421,431 patent/US11042796B2/en active Active
- 2017-01-31 US US15/421,424 patent/US11222253B2/en active Active
- 2017-01-31 US US15/421,407 patent/US10839284B2/en active Active
- 2017-11-03 JP JP2019522896A patent/JP6976324B2/ja active Active
- 2017-11-03 JP JP2019522984A patent/JP7068296B2/ja active Active
- 2017-11-03 CA CA3039386A patent/CA3039386C/en active Active
- 2017-11-03 WO PCT/US2017/060056 patent/WO2018085728A1/en unknown
- 2017-11-03 JP JP2019523092A patent/JP7035042B2/ja active Active
- 2017-11-03 CN CN201780068289.2A patent/CN110192203B/zh active Active
- 2017-11-03 CN CN201780068346.7A patent/CN109923557B/zh active Active
- 2017-11-03 EP EP17797845.9A patent/EP3535698A1/en not_active Withdrawn
- 2017-11-03 CN CN201780068577.8A patent/CN110192204B/zh active Active
- 2017-11-03 WO PCT/US2017/060059 patent/WO2018085730A1/en unknown
- 2017-11-03 CA CA3039517A patent/CA3039517C/en active Active
- 2017-11-03 EP EP17801556.6A patent/EP3535703A1/en not_active Withdrawn
- 2017-11-03 EP EP17800683.9A patent/EP3535701A1/en not_active Ceased
- 2017-11-03 CA CA3039551A patent/CA3039551C/en active Active
- 2017-11-03 WO PCT/US2017/060057 patent/WO2018085729A1/en unknown
-
2020
- 2020-10-26 US US17/080,656 patent/US11783164B2/en active Active
-
2021
- 2021-05-26 US US17/331,337 patent/US11797825B2/en active Active
- 2021-11-23 US US17/534,298 patent/US20220083837A1/en active Pending
-
2022
- 2022-04-28 JP JP2022074635A patent/JP7553185B2/ja active Active
- 2022-04-28 JP JP2022074636A patent/JP7400007B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160180215A1 (en) | 2014-12-19 | 2016-06-23 | Google Inc. | Generating parse trees of text segments using neural networks |
JP2016134169A (ja) | 2015-01-19 | 2016-07-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 言語モデル学習方法及び装置、言語認識方法及び装置 |
Non-Patent Citations (1)
Title |
---|
MIWA, M. et al.,End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures,arXiv.org [online],2016年06月08日,[検索日 2023.05.22], インターネット:<URL:https://arxiv.org/pdf/1601.00770v3.pdf>,<DOI: 10.48550/arXiv.1601.00770> |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7400007B2 (ja) | 複数の言語タスク階層を通じてデータを処理するための深層ニューラルネットワークモデル | |
Kalyan et al. | AMMU: a survey of transformer-based biomedical pretrained language models | |
US10606946B2 (en) | Learning word embedding using morphological knowledge | |
CN111914097A (zh) | 基于注意力机制和多层级特征融合的实体抽取方法与装置 | |
Nuruzzaman et al. | Identifying facts for chatbot's question answering via sequence labelling using recurrent neural networks | |
Mishra | PyTorch Recipes: A Problem-Solution Approach | |
Gupta | Neural information extraction from natural language text | |
Vernikos | Adversarial Fine-Tuning of Pretrained Language Models | |
Aggarwal | Language Modeling and Deep Learning | |
TESFAYE | DEEP NEURAL NETWORD BASED NATURAL LANGUAGE INFERENCE MODEL | |
Baskaran et al. | Biomedical Named Entity Recognition Using Scikit-Learn And Keras | |
de Souza Pais | Intelligent document validation intelligent document validation using natural language processing and computer vision | |
Mishra | PyTorch Recipes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7400007 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |