JP7299317B2 - 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置 - Google Patents
言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置 Download PDFInfo
- Publication number
- JP7299317B2 JP7299317B2 JP2021525643A JP2021525643A JP7299317B2 JP 7299317 B2 JP7299317 B2 JP 7299317B2 JP 2021525643 A JP2021525643 A JP 2021525643A JP 2021525643 A JP2021525643 A JP 2021525643A JP 7299317 B2 JP7299317 B2 JP 7299317B2
- Authority
- JP
- Japan
- Prior art keywords
- word vector
- vector
- matrix
- region
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 97
- 238000000034 method Methods 0.000 title claims description 67
- 238000012545 processing Methods 0.000 title claims description 66
- 230000000306 recurrent effect Effects 0.000 title claims description 55
- 239000013598 vector Substances 0.000 claims description 853
- 239000011159 matrix material Substances 0.000 claims description 238
- 230000009466 transformation Effects 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 239000002775 capsule Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 240000001980 Cucurbita pepo Species 0.000 description 1
- 235000009852 Cucurbita pepo Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 235000020354 squash Nutrition 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップと、
各前記領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するステップと、
フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルに対して集合変換処理を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップと、
前記集合単語ベクトルに基づき、前記ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するステップと、を含む。
最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するように構成される、領域単語ベクトル生成モジュールと、
各前記領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するように構成される、領域単語ベクトル組み合わせモジュールと、
フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルに対して集合変換処理を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するように構成される、集合変換処理モジュールと、
前記集合単語ベクトルに基づき、前記ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するように構成される、ターゲット隠れ状態生成モジュールと、を備える。
一実施例において、コンピュータ機器は、式
ベクトルに対応する組み合わせ領域単語ベクトル行列
さらに、
具体的に、集合単語ベクトルは、第1集合単語ベクトルMhと第2集合単語ベクトルMgに分ける。コンピュータ機器は、第1集合単語ベクトルMh及び第2集合単語ベクトルMgに基づき、候補隠れ状態h~ t及びゲーティングパラメータgtを計算することができる。即ち、候補隠れ状態h~ t=tanh(Mh)、ゲーティングパラメータgt=σ(Mg)である。このようにして、コンピュータ機器は、候補隠れ状態h~ t及びゲーティングパラメータgtに基づき、ターゲット単語ベクトルのターゲット隠れ状態htを計算することができる。ターゲット隠れ状態は、
組み合わせ領域単語ベクトルを生成するために使用される第3重み行列に従って、各領域単語ベクトルに対応する少なくとも2つの予測ベクトルを決定し、
各領域単語ベクトルに対応する少なくとも2つの事前確率対数を決定し、事前確率対数に従って各領域単語ベクトルに対応する結合係数を決定し、結合係数及び予測ベクトルに基づき、少なくとも2つの次元の候補組み合わせ領域単語ベクトルを生成し、
再び前記各領域単語ベクトルに対応する少なくとも2つの事前確率対数を決定するステップから実行し始め、候補組み合わせ領域単語ベクトルを反復計算し、プリセットの反復条件が満たされると、反復を停止し、反復が停止されるときの少なくとも2つの次元の候補組み合わせ領域単語ベクトルを少なくとも2つの次元の組み合わせ領域単語ベクトルとして決定するように構成される。
ターゲット隠れ状態生成モジュールは、さらに、第1集合単語ベクトル及び対応する第1活性化関数に基づき、ターゲット単語ベクトルに対応する候補隠れ状態を決定し、第2集合単語ベクトル及び対応する第2活性化関数に基づき、ターゲット単語ベクトルに対応するゲーティングパラメータを決定し、候補隠れ状態、ゲーティングパラメータ及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に従って、ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するように構成される。
101 メモリ
102 プロセッサ
103 ネットワークインターフェース
104 システムバス
1200 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置
1201 領域単語ベクトル生成モジュール
1202 領域単語ベクトル組み合わせモジュール
1203 集合変換処理モジュール
1204 ターゲット隠れ状態生成モジュール
Claims (6)
- コンピュータ機器が実行する、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法であって、
最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップであって、
前記領域単語ベクトルは、1つの次元の単語ベクトルに対応する各異なる次元の単語ベクトルを示し、
少なくとも2つの第1重み行列を取得するステップであって、各前記第1重み行列は、対応する領域単語ベクトルを生成するために使用される、事前にトレーニングされた行列の形の重みパラメータである、ステップと、
最初の瞬間に入力されたターゲット単語ベクトルを決定し、前の瞬間の履歴単語ベクトルに対応する履歴隠れ状態を取得するステップと、
前記第1重み行列及び前記履歴隠れ状態に基づき、前記ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップと、を含み、
前記隠れ状態はベクトルで表現され、前記第1重み行列及び前記履歴隠れ状態に基づき、前記ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップは、
前記ターゲット単語ベクトルと前記履歴隠れ状態を連結して、連結単語ベクトルを取得するステップと、
前記連結単語ベクトルをそれぞれ、各前記第1重み行列と乗算して、領域単語ベクトル行列を取得するステップと、を含み、前記領域単語ベクトル行列は、前記少なくとも2つの次元の領域単語ベクトルを含む、ステップと、
所定の領域ベクトル組み合わせ方式に従って、各前記領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するステップであって、
前記組み合わせ領域単語ベクトルは、各前記領域単語ベクトルに対して組み合わせ計算を実行して取得した単語ベクトルを示し、
各前記領域単語ベクトルをベクトルノードとし、各前記ベクトルノード間の類似度を、対応する各前記ベクトルノード間のエッジのエッジ重みとして決定するステップと、
決定された各前記エッジ重みを行列要素として、各前記領域単語ベクトルに共に対応する隣接行列を生成するステップであって、前記隣接行列は、ベクトルノード間の隣接関係を示すための行列である、ステップと、
前記隣接行列の各次元の各前記エッジ重みをそれぞれ加算して、次数行列を取得するステップであって、前記次数行列は、前記隣接行列の各行または各列のベクトルノードの次数によって形成された行列を示し、前記隣接行列の各行または各列のベクトルノードの次数は、前記隣接行列内の各行または各列に含まれた行列要素の合計である、ステップと、
前記隣接行列及び前記次数行列に基づき、前記少なくとも2つの次元の組み合わせ領域単語ベクトルを生成するステップであって、
各前記領域単語ベクトルに含まれるベクトル要素を行列要素として、各前記領域単語ベクトルに共同に対応する領域単語ベクトル行列を生成するステップと、
第2重み行列を取得するステップであって、前記第2重み行列は、組み合わせ領域単語ベクトル行列を生成するために使用される、事前にトレーニングされた行列の形の重みパラメータである、ステップと、
第3活性化関数に基づき、前記隣接行列、前記次数行列、前記領域単語ベクトル行列及び前記第2重み行列に従って、前記組み合わせ領域単語ベクトル行列を生成するステップと、を含み、前記組み合わせ領域単語ベクトル行列には、前記少なくとも2つの次元の領域単語ベクトルが含まれる、ステップと、を含む、ステップと、
フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルに対して集合変換処理を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップであって
フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルを線形変換して、線形変換後の組み合わせ領域単語ベクトルを取得するステップと、
各変換後の組み合わせ領域単語ベクトルを連結して、連結された単語ベクトルを取得するステップと、
連結された単語ベクトルに対して線形変換を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップと、を含む、ステップと、
前記集合単語ベクトル及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に基づき、前記ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するステップであって、
前記ターゲット隠れ状態は、前記最初の瞬間における前記リカレントニューラルネットワークのシステム状態を示し、前記履歴単語ベクトルは、前記最初の瞬間の前の瞬間に入力した単語ベクトルを示し、前記履歴隠れ状態は、前記最初の瞬間の前の瞬間における前記リカレントニューラルネットワークのシステム状態を示し、
前記隠れ状態はベクトルで表現され、前記集合単語ベクトルは、第1集合単語ベクトルと第2集合単語ベクトルとを含み、前記第1集合単語ベクトルと前記第2集合単語ベクトルは異なり、
前記第1集合単語ベクトル(M h )及び対応する第1活性化関数(tanh)に基づき、前記ターゲット単語ベクトルに対応する候補隠れ状態(h ~ t )を決定するステップであって、前記候補隠れ状態は、h ~ t =tanh(M h )および
前記第2集合単語ベクトル(M g )及び対応する第2活性化関数(σ)に基づき、前記ターゲット単語ベクトルに対応するゲーティングパラメータ(g t )を決定するステップであって、前記ゲーティングパラメータは、g t =σ(M g )および
プリセット関数に基づき、前記候補隠れ状態、前記ゲーティングパラメータ、及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に従って、前記ターゲット単語ベクトルに対応するターゲット隠れ状態(h t )を生成するステップであって、前記ターゲット隠れ状態は、
を含む、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法。 - 前記フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルを変換して、変換後の組み合わせ領域単語ベクトルを取得する前記ステップは、
第4重み行列及び第1オフセットベクトルに従って、各前記組み合わせ領域単語ベクトルに対して最初の線形変換を実行して、各組み合わせ領域単語ベクトルに対応する一時的な単語ベクトルを取得するステップであって、前記第4重み行列は、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用される行列の形の重みパラメータであり、前記第1オフセットベクトルは、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用されるベクトルの形のオフセットパラメータである、ステップと、
各前記一時的な単語ベクトルとベクトル閾値のうちの最大ベクトル値をそれぞれ選択するステップと、
第5重み行列及び第2オフセットベクトルに従って、各前記最大ベクトル値に対してそれぞれ2番目の線形変換を実行して、前記変換後の組み合わせ領域単語ベクトルを取得するステップであって、前記第5重み行列は、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用される行列の形の重みパラメータであり、前記第2オフセットベクトルは、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用されるベクトルの形のオフセットパラメータである、ステップと、
を含む、請求項1に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法。 - 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置であって、
最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するように構成される領域単語ベクトル生成モジュールであって、
前記領域単語ベクトルは、1つの次元の単語ベクトルに対応する各異なる次元の単語ベクトルを示し、
少なくとも2つの第1重み行列を取得することであって、各前記第1重み行列は、対応する領域単語ベクトルを生成するために使用される、事前にトレーニングされた行列の形の重みパラメータであり、
最初の瞬間に入力されたターゲット単語ベクトルを決定し、前の瞬間の履歴単語ベクトルに対応する履歴隠れ状態を取得することと、
前記第1重み行列及び前記履歴隠れ状態に基づき、前記ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成することと、を行うように構成され、
前記隠れ状態はベクトルで表現され、前記第1重み行列及び前記履歴隠れ状態に基づき、前記ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成することは、
前記ターゲット単語ベクトルと前記履歴隠れ状態を連結して、連結単語ベクトルを取得することと、
前記連結単語ベクトルをそれぞれ、各前記第1重み行列と乗算して、領域単語ベクトル行列を取得することと、を含み、前記領域単語ベクトル行列は、前記少なくとも2つの次元の領域単語ベクトルを含む、領域単語ベクトル生成モジュールと、
所定の領域ベクトル組み合わせ方式に従って、各前記領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するように構成される領域単語ベクトル組み合わせモジュールであって、
前記組み合わせ領域単語ベクトルは、各前記領域単語ベクトルに対して組み合わせ計算を実行して取得した単語ベクトルを示し、
各前記領域単語ベクトルをベクトルノードとし、各前記ベクトルノード間の類似度を、対応する各前記ベクトルノード間のエッジのエッジ重みとして決定し、
決定された各前記エッジ重みを行列要素として、各前記領域単語ベクトルに共に対応する隣接行列を生成し、前記隣接行列は、ベクトルノード間の隣接関係を示すための行列であり、
前記隣接行列の各次元の各前記エッジ重みをそれぞれ加算して、次数行列を取得し、前記次数行列は、前記隣接行列の各行または各列のベクトルノードの次数によって形成された行列を示し、前記隣接行列の各行または各列のベクトルノードの次数は、前記隣接行列内の各行または各列に含まれた行列要素の合計であり、
前記隣接行列及び前記次数行列に基づき、前記少なくとも2つの次元の組み合わせ領域単語ベクトルを生成し、
各前記領域単語ベクトルに含まれるベクトル要素を行列要素として、各前記領域単語ベクトルに共同に対応する領域単語ベクトル行列を生成し、
第2重み行列を取得し、前記第2重み行列は、組み合わせ領域単語ベクトル行列を生成するために使用される、事前にトレーニングされた行列の形の重みパラメータであり、
第3活性化関数に基づき、前記隣接行列、前記次数行列、前記領域単語ベクトル行列及び前記第2重み行列に従って、前記組み合わせ領域単語ベクトル行列を生成するように構成され、前記組み合わせ領域単語ベクトル行列には、前記少なくとも2つの次元の領域単語ベクトルが含まれる、ように構成される、領域単語ベクトル組み合わせモジュールと、
フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルに対して集合変換処理を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するように構成される集合変換処理モジュールであって、
フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルを線形変換して、線形変換後の組み合わせ領域単語ベクトルを取得し、
各変換後の組み合わせ領域単語ベクトルを連結して、連結された単語ベクトルを取得し、
連結された単語ベクトルに対して線形変換を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するように構成される、集合変換処理モジュールと、
前記集合単語ベクトル及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に基づき、前記ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するように構成されるターゲット隠れ状態生成モジュールであって、
前記ターゲット隠れ状態は、前記最初の瞬間における前記リカレントニューラルネットワークのシステム状態を示し、前記履歴単語ベクトルは、前記最初の瞬間の前の瞬間に入力した単語ベクトルを示し、前記履歴隠れ状態は、前記最初の瞬間の前の瞬間における前記リカレントニューラルネットワークのシステム状態を示し、
前記隠れ状態はベクトルで表現され、前記集合単語ベクトルは、第1集合単語ベクトルと第2集合単語ベクトルとを含み、前記第1集合単語ベクトルと前記第2集合単語ベクトルは異なり、
前記第1集合単語ベクトル(M h )及び対応する第1活性化関数(tanh)に基づき、前記ターゲット単語ベクトルに対応する候補隠れ状態(h ~ t )を決定することであって、前記候補隠れ状態は、h ~ t =tanh(M h )および
前記第2集合単語ベクトル(M g )及び対応する第2活性化関数(σ)に基づき、前記ターゲット単語ベクトルに対応するゲーティングパラメータ(g t )を決定することであって、前記ゲーティングパラメータは、g t =σ(M g )および
プリセット関数に基づき、前記候補隠れ状態、前記ゲーティングパラメータ、及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に従って、前記ターゲット単語ベクトルに対応するターゲット隠れ状態(h t )を生成することであって、前記ターゲット隠れ状態は、
を備える、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置。 - 前記集合変換処理モジュールは、さらに、
第4重み行列及び第1オフセットベクトルに従って、各前記組み合わせ領域単語ベクトルに対して最初の線形変換を実行して、各組み合わせ領域単語ベクトルに対応する一時的な単語ベクトルを取得し、前記第4重み行列は、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用される行列の形の重みパラメータであり、前記第1オフセットベクトルは、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用されるベクトルの形のオフセットパラメータであり、
各前記一時的な単語ベクトルとベクトル閾値のうちの最大ベクトル値をそれぞれ選択し、
第5重み行列及び第2オフセットベクトルに従って、各前記最大ベクトル値に対してそれぞれ2番目の線形変換を実行して、前記変換後の組み合わせ領域単語ベクトルを取得するように構成され、前記第5重み行列は、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用される行列の形の重みパラメータであり、前記第2オフセットベクトルは、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用されるベクトルの形のオフセットパラメータである、
請求項3に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置。 - コンピュータプログラムであって、
コンピュータに、請求項1または2に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を実行させる、コンピュータプログラム。 - メモリとプロセッサとを備える、コンピュータ機器であって、
前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサによって実行されるとき、前記プロセッサに請求項1または2に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップを実行させる、コンピュータ機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910309929.5 | 2019-04-17 | ||
CN201910309929.5A CN110162783A (zh) | 2019-04-17 | 2019-04-17 | 用于语言处理的循环神经网络中隐状态的生成方法和装置 |
PCT/CN2020/081177 WO2020211611A1 (zh) | 2019-04-17 | 2020-03-25 | 用于语言处理的循环神经网络中隐状态的生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022507189A JP2022507189A (ja) | 2022-01-18 |
JP7299317B2 true JP7299317B2 (ja) | 2023-06-27 |
Family
ID=67639625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021525643A Active JP7299317B2 (ja) | 2019-04-17 | 2020-03-25 | 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210286953A1 (ja) |
EP (1) | EP3958148A4 (ja) |
JP (1) | JP7299317B2 (ja) |
CN (1) | CN110162783A (ja) |
WO (1) | WO2020211611A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162783A (zh) * | 2019-04-17 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于语言处理的循环神经网络中隐状态的生成方法和装置 |
CN111274818B (zh) * | 2020-01-17 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 词向量的生成方法、装置 |
CN112036546B (zh) * | 2020-08-24 | 2023-11-17 | 上海交通大学 | 序列处理方法及相关设备 |
CN116363712B (zh) * | 2023-03-21 | 2023-10-31 | 中国矿业大学 | 一种基于模态信息度评估策略的掌纹掌静脉识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180225553A1 (en) | 2015-10-02 | 2018-08-09 | Naver Corporation | Method and system for automatically classifying data expressed by a plurality of factors with values of text word and symbol sequence by using deep learning |
JP2019046188A (ja) | 2017-09-01 | 2019-03-22 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、及びプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152673B2 (en) * | 2013-06-21 | 2018-12-11 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Method for pseudo-recurrent processing of data using a feedforward neural network architecture |
US20180129742A1 (en) * | 2016-11-10 | 2018-05-10 | Qualcomm Incorporated | Natural language object tracking |
US10255269B2 (en) * | 2016-12-30 | 2019-04-09 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
EP3385862A1 (en) * | 2017-04-03 | 2018-10-10 | Siemens Aktiengesellschaft | A method and apparatus for performing hierarchical entity classification |
US10515155B2 (en) * | 2018-02-09 | 2019-12-24 | Digital Genius Limited | Conversational agent |
US11170158B2 (en) * | 2018-03-08 | 2021-11-09 | Adobe Inc. | Abstractive summarization of long documents using deep learning |
CN108595601A (zh) * | 2018-04-20 | 2018-09-28 | 福州大学 | 一种融入Attention机制的长文本情感分析方法 |
US11010559B2 (en) * | 2018-08-30 | 2021-05-18 | International Business Machines Corporation | Multi-aspect sentiment analysis by collaborative attention allocation |
CN109492157B (zh) * | 2018-10-24 | 2021-08-31 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109472031B (zh) * | 2018-11-09 | 2021-05-04 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN109800294B (zh) * | 2019-01-08 | 2020-10-13 | 中国科学院自动化研究所 | 基于物理环境博弈的自主进化智能对话方法、系统、装置 |
US11880666B2 (en) * | 2019-02-01 | 2024-01-23 | Asapp, Inc. | Generating conversation descriptions using neural networks |
US11461638B2 (en) * | 2019-03-07 | 2022-10-04 | Adobe Inc. | Figure captioning system and related methods |
CN110162783A (zh) * | 2019-04-17 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于语言处理的循环神经网络中隐状态的生成方法和装置 |
EP3893163A1 (en) * | 2020-04-09 | 2021-10-13 | Naver Corporation | End-to-end graph convolution network |
-
2019
- 2019-04-17 CN CN201910309929.5A patent/CN110162783A/zh active Pending
-
2020
- 2020-03-25 WO PCT/CN2020/081177 patent/WO2020211611A1/zh unknown
- 2020-03-25 JP JP2021525643A patent/JP7299317B2/ja active Active
- 2020-03-25 EP EP20790836.9A patent/EP3958148A4/en active Pending
-
2021
- 2021-05-27 US US17/332,318 patent/US20210286953A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180225553A1 (en) | 2015-10-02 | 2018-08-09 | Naver Corporation | Method and system for automatically classifying data expressed by a plurality of factors with values of text word and symbol sequence by using deep learning |
JP2019046188A (ja) | 2017-09-01 | 2019-03-22 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
Ashish Vaswani他7名,Attention Is All You Need[online],2017年12月06日,(検索日2022年06月27日),URL:https://arxiv.org/pdf/1706.03762v5.pdf |
Also Published As
Publication number | Publication date |
---|---|
CN110162783A (zh) | 2019-08-23 |
JP2022507189A (ja) | 2022-01-18 |
WO2020211611A1 (zh) | 2020-10-22 |
EP3958148A4 (en) | 2022-06-15 |
US20210286953A1 (en) | 2021-09-16 |
EP3958148A1 (en) | 2022-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7299317B2 (ja) | 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置 | |
Dai et al. | Grow and prune compact, fast, and accurate LSTMs | |
CN109923559B (zh) | 准循环神经网络 | |
Chen et al. | ReGAN: A pipelined ReRAM-based accelerator for generative adversarial networks | |
US9807473B2 (en) | Jointly modeling embedding and translation to bridge video and language | |
Pakman et al. | Exact hamiltonian monte carlo for truncated multivariate gaussians | |
Zheng | Gradient descent algorithms for quantile regression with smooth approximation | |
Baek et al. | Deep self-representative subspace clustering network | |
Shuang et al. | A sentiment information collector–extractor architecture based neural network for sentiment analysis | |
Wang et al. | TRC‐YOLO: A real‐time detection method for lightweight targets based on mobile devices | |
Zhang et al. | A generalized language model in tensor space | |
CN111476138B (zh) | 建筑图纸构件识别模型构建方法、识别方法及相关设备 | |
CN110781686B (zh) | 一种语句相似度计算方法、装置及计算机设备 | |
US20230117973A1 (en) | Data processing method and apparatus | |
EP4379603A1 (en) | Model distillation method and related device | |
US20240152770A1 (en) | Neural network search method and related device | |
WO2022097230A1 (ja) | 予測方法、予測装置及びプログラム | |
US20240046067A1 (en) | Data processing method and related device | |
Song et al. | Efficient robust conditional random fields | |
Jin et al. | Dual low-rank multimodal fusion | |
CN114547347A (zh) | 基于卷积神经网络的时序知识图谱补全方法、装置及设备 | |
Yuan et al. | Deep learning from a statistical perspective | |
CN113343711A (zh) | 工单生成方法、装置、设备及存储介质 | |
CN109977194B (zh) | 基于无监督学习的文本相似度计算方法、系统、设备及介质 | |
CN116401552A (zh) | 一种分类模型的训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210511 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221003 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230411 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20230411 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230414 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20230417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230605 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7299317 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |