JP7299317B2 - 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置 - Google Patents

言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置 Download PDF

Info

Publication number
JP7299317B2
JP7299317B2 JP2021525643A JP2021525643A JP7299317B2 JP 7299317 B2 JP7299317 B2 JP 7299317B2 JP 2021525643 A JP2021525643 A JP 2021525643A JP 2021525643 A JP2021525643 A JP 2021525643A JP 7299317 B2 JP7299317 B2 JP 7299317B2
Authority
JP
Japan
Prior art keywords
word vector
vector
matrix
region
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021525643A
Other languages
English (en)
Other versions
JP2022507189A (ja
Inventor
凡▲東▼ 孟
金超 ▲張▼
杰 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022507189A publication Critical patent/JP2022507189A/ja
Application granted granted Critical
Publication of JP7299317B2 publication Critical patent/JP7299317B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本願は、2019年04月17日に中国特許局に提出された、出願番号が201910309929.5であり、発明の名称が「言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置」である中国特許出願の優先権を主張するものであり、その全ての内容が参照により本願に組み込まれている。
本願は、コンピュータ技術分野に関し、特に、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法、装置、コンピュータ可読記憶媒体及びコンピュータ機器に関する。
コンピュータ技術の発展に伴い、自然言語処理(NLP:Natural Language Processing)技術が登場した。自然言語処理(NLP)技術は、人々が長年追求してきた「自然言語を使ったコンピュータとのコミュニケーション」のことを実現する。しかし、自然言語処理(NLP)技術に対して、可変長の単語シーケンスの処理は、依然として大きな課題である。
その結果、リカレントニューラルネットワーク(RNN:Recurrent Neural Network)が登場した。リカレントニューラルネットワークは、シーケンス(sequence)データを入力とし、シーケンスの進化方向に再帰(recursion)し、且つすべてのノード(リカレントユニット)がチェーンの形で接続された再帰型ニューラルネットワーク(recursive neural network)である。リカレントニューラルネットワークの登場は、可変長の単語シーケンスの処理を解決する。
しかしながら、従来のリカレントニューラルネットワークは、すべて単一な空間の組み合わせ計算を使用して各瞬間の隠れ状態を生成する。例えば、単一な空間における最初の瞬間の単語ベクトル及び前の瞬間の隠れ状態の組み合わせのみを使用して最初の瞬間の隠れ状態を生成するため、複雑な言語法則に対するキャプチャ率が低くなる。
本願は、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法、装置、コンピュータ可読記憶媒体及びコンピュータ機器を提供し、当該技術的解決策の複雑な言語法則に対するキャプチャ率は高い。
一態様において、コンピュータ機器が実行する、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を提供し、当該方法は、
最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップと、
各前記領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するステップと、
フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルに対して集合変換処理を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップと、
前記集合単語ベクトルに基づき、前記ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するステップと、を含む。
別の態様において、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置を提供し、当該装置は、
最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するように構成される、領域単語ベクトル生成モジュールと、
各前記領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するように構成される、領域単語ベクトル組み合わせモジュールと、
フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルに対して集合変換処理を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するように構成される、集合変換処理モジュールと、
前記集合単語ベクトルに基づき、前記ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するように構成される、ターゲット隠れ状態生成モジュールと、を備える。
別の態様において、コンピュータプログラムが記憶される、コンピュータ可読記憶媒体を提供し、前記コンピュータプログラムは、プロセッサによって実行されるとき、プロセッサに上記の態様及びその代替実施例のいずれか一項に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を実行させる。
別の態様において、メモリとプロセッサとを備える、コンピュータ機器を提供し、前記メモリには、コンピュータプログラムが記憶され、前記コンピュータプログラムは、前記プロセッサによって実行されるとき、プロセッサに上記の態様及びその代替実施例のいずれか一項に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を実行させる。
以上の技術的解決策から分かるように、本願実施例は、少なくとも以下の利点を有する。
当該方法は、最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成することにより、単一な次元のターゲット単語ベクトルに、多次元の領域単語ベクトルが対応され、各領域単語ベクトルに対して領域組み合わせを実行して、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するようにし、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルに対して集合変換処理を実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得することにより、各瞬間のターゲット単語ベクトルに、いずれも対応する集合単語ベクトルを持たせる。これにより、集合単語ベクトルに基づいて、ターゲット単語ベクトルに対応するターゲット隠れ状態を生成し、且つ、集合単語ベクトルはターゲット単語ベクトルに対して多次元の変換処理を実行して取得されたものであるため、当該集合単語ベクトルを使用して生成されたターゲット隠れ状態は、複雑な言語法則に対して高いキャプチャ率を持つ。
つまり、当該方法は、ターゲット単語ベクトルに対して深層の多領域組み合わせ計算を実行することにより、多次元変換後の集合単語ベクトルを取得し、単語ベクトルにキャプチャされた言語法則、例えば、単語ベクトルの長距離依存を強化して、それにより、集合単語ベクトルを使用して生成されたターゲット隠れ状態は、より大きな確率で複雑な言語法則をキャプチャできる。
本願実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面に従って他の図面を得ることもできることは自明である。
本願の一例示的な実施例によるコンピュータ機器の構造のブロック図である。 本願の一例示的な実施例による言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のフローチャートである。 本願の別の例示的な実施例による言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のフローチャートである。 本願の一例示的な実施例によるベクトルノードの概略図である。 本願の一例示的な実施例による隣接行列の概略図である。 本願の一例示的な実施例による次数行列の概略図である。 本願の一例示的な実施例による領域単語ベクトル行列の概略図である。 本願の別の例示的な実施例による言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のフローチャートである。 本願の一例示的な実施例による領域単語ベクトルの計算方法の概略図である。 本願の別の例示的な実施例による言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のフローチャートである。 本願の一例示的な実施例による集合単語ベクトルの生成方法の概略図である。 本願の一例示的な実施例による言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置の構造のブロック図である。
本願の目的、技術的解決策及び利点をより明確にするために、以下、図面及び実施例を参照して、本願をより詳しく説明する。ここで説明した具体的な実施例は、本願を説明するためにのみ使用され、本願を限定するために使用されないことを理解されたい。
本願に係る言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法は、図1に示されたコンピュータ機器100で適用できる。当該コンピュータ機器100は、メモリ101とプロセッサ102とを備える。例示的に、メモリ101は、不揮発性記憶媒体と内部メモリとを備えることができる。メモリ101には、コンピュータプログラムが記憶され、コンピュータプログラムは、プロセッサ102によって実行されるとき、本願に係る言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を実現できる。例示的に、当該コンピュータ機器100は、さらに、ネットワークインターフェース103を備え、当該ネットワークインターフェース103は、コンピュータ機器100を有線または無線ネットワークにアクセスするように構成される。例示的に、当該コンピュータ機器100は、さらに、システムバス104を備え、ここで、メモリ101は、システムバス104を介して、プロセッサ102、ネットワークインターフェース103間でそれぞれ電気的に接続される。当該コンピュータ機器100は、端末であってもよく、サーバであってもよい。コンピュータ機器100が端末である場合、当該コンピュータ機器100は、さらに、スクリーンと入力装置などを備えることができることを理解されたい。ここで、端末は、様々なパーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ及びポータブルウェアラブル機器であり得るがこれに限定されなく、サーバは、独立したサーバまたは複数のサーバによって構成されたサーバクラスタを使用して実現できる。
図2に示されたように、一実施例において、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を提供する。本実施例は、主に、当該方法を前記図1内のコンピュータ機器に適用することを例として説明する。図2を参照して、当該言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法は、具体的に、以下のステップを含む。
ステップS202において、最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成する。
ここで、単語ベクトルは、事前に定義されたベクトル空間における対応する単語の実数ベクトルを示す。例えば、事前に定義されたベクトル空間における「犬」の実数ベクトルは、(0.2 0.2 0.4)であると、(0.2 0.2 0.4)が「犬」の単語ベクトルである。ターゲット単語ベクトルは、最初の瞬間に入力された単語ベクトルを示す。領域単語ベクトルは、1つの次元の単語ベクトルに対応する各異なる次元の単語ベクトルを示す。最初の瞬間は、ターゲット単語ベクトルに入力する瞬間にあり、例示的に、最初の瞬間は、現在瞬間、即ち、時計が現在指示している瞬間を含み得る。
具体的に、コンピュータ機器が、最初の瞬間にターゲット単語ベクトルが入力されたと検出する場合、コンピュータ機器は、最初の瞬間に入力されたターゲット単語ベクトルを読み取り、当該ターゲット単語ベクトルの領域単語ベクトル生成命令をトリガする。コンピュータ機器は、当該領域単語ベクトル生成命令に従って、低次元のターゲット単語ベクトルを少なくとも2つの次元の領域単語ベクトルに変換する。このようにして、コンピュータ機器が各瞬間に入力するターゲット単語ベクトルは、すべて少なくとも2つの次元の領域単語ベクトルに対応する。
一実施例において、コンピュータ機器がT瞬間に入力するターゲット単語ベクトルの全体は、1つのベクトルシーケンスX={X,X,……,X}であり、ここで、Xは、ベクトルシーケンスXの最初のターゲット単語ベクトルであり、Xは、コンピュータ機器が最初の瞬間に入力した単語ベクトルを表示し、Xは、ベクトルシーケンスXの2番目のターゲット単語ベクトルであり、Xは、コンピュータ機器が2番目の瞬間に入力した単語ベクトルを表示し、……、Xは、ベクトルシーケンスXのT番目のターゲット単語ベクトルであり、Xは、コンピュータ機器がT番目の瞬間に入力した単語ベクトルを表示し、ここで、Tは、正の整数である。ベクトルシーケンスXにおけるコンピュータ機器の瞬間ごとに、すべて、当該瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成する。
一実施例において、ベクトルシーケンスX={X,X,……,X}の各1つの単語ベクトルは、すべて、事前にテキストを変換して取得される。例えば、コンピュータ機器が端末である場合、コンピュータ機器には、通信するために使用されるソーシャルアプリケーションプログラムが実装され、人間とコンピュータの対話のためのサブアプリケーションプログラムは、当該通信のためのソーシャルアプリケーションプログラムで実行される。コンピュータ機器が、人間とコンピュータの対話のためのサブアプリケーションプログラムが、可変長の音声情報を受信したと検出した場合、各瞬間に受信された音声情報をテキスト情報に変換し、当該テキスト情報をターゲット単語ベクトルにマッピングし、このようにして、可変長の音声情報は、最終的に1つのベクトルシーケンスを形成し、ベクトルシーケンスには、各瞬間に受信された音声情報のテキスト情報に対応するターゲット単語ベクトルが含まれる。
もちろん、コンピュータ機器がサーバである場合、当該サーバは、他の端末によって変換して得た各ターゲット単語ベクトルを受信して、瞬間ごとに入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成することができる。または、コンピュータ機器がサーバである場合、当該サーバは、他の端末が人間とコンピュータの対話のためのサブアプリケーションプログラムを介して受信された可変長の音声情報を直接に受信し、各瞬間に受信された音声情報をテキスト情報に変換し、当該テキスト情報をターゲット単語ベクトルにマッピングすることもでき、このようにして、可変長の音声情報は、最終的に1つのベクトルシーケンスを形成し、ベクトルシーケンスには、各瞬間に受信された音声情報のテキスト情報に対応するターゲット単語ベクトルが含まれ、瞬間ごとに入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成する。
一実施例において、領域単語ベクトル生成命令には、第1プリセットの次元が搬送され、コンピュータ機器は、領域単語ベクトル生成命令に従って、低次元のターゲット単語ベクトルを少なくとも2つの次元の領域単語ベクトルに変換するとき、第1プリセットの次元に従って、低次元のターゲット単語ベクトルを第1プリセットの次元の領域単語ベクトルに変換することができる。
例えば、最初の瞬間がTであり、第1プリセットの次元がNである場合、コンピュータ機器が、最初の瞬間Tでターゲット単語ベクトルXが入力されたと検出する。こうして、コンピュータ機器は、単一な次元のターゲット単語ベクトルXをN個の次元の領域単語ベクトルに変換する必要がある。コンピュータ機器は、ターゲット単語ベクトルXのN個の領域単語ベクトルZ={Z,Z,……,Z}を生成でき、ここでのZ~Zは、すべてターゲット単語ベクトルXの領域単語ベクトルである。ここで、Nは、1より大きい。
ステップS204において、各領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得する。
ここで、組み合わせ領域単語ベクトルは、各領域単語ベクトルに対して組み合わせ計算を実行して取得した単語ベクトルを示す。例えば、ターゲット単語ベクトルがN個の次元の領域単語ベクトルを持つと、コンピュータ機器は、N個の次元の領域単語ベクトルに対して組み合わせ計算を実行してJ個の次元の組み合わせ領域単語ベクトルを取得でき、Jは、2より大きいか等しい。
具体的に、コンピュータ機器には、領域ベクトル組み合わせ方式が事前に設定されている。コンピュータ機器が、ターゲット単語ベクトルの領域単語ベクトルを生成した後、プリセットの領域ベクトル組み合わせ方式を取得し、領域ベクトル組み合わせ方式には、第2プリセットの次元が含まれる。コンピュータ機器は、プリセットの領域ベクトル組み合わせ方式に従って、ターゲット単語ベクトルの領域単語ベクトルに対して組み合わせ計算を実行して、第2プリセットの次元の組み合わせ領域単語ベクトルを取得する。領域ベクトル組み合わせ方式は、各領域単語ベクトルに対して組み合わせ計算を実行する方式を示す。
ステップS206において、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルに対して集合変換処理を実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得する。
ここで、フィードフォワードニューラルネットワークは、各ニューロンが階層的に配列されたニューラルネットワークである。集合変換処理は、各組み合わせ領域単語ベクトルに対して集合処理及び変換処理を実行するプロセスを示す。集合単語ベクトルは、各組み合わせ領域単語ベクトルに対して集合処理及び変換処理を実行して得た単語ベクトルを示す。
具体的に、コンピュータ機器は、フィードフォワードニューラルネットワークに基づき、それぞれ、各組み合わせ領域単語ベクトルに対して一回の変換を実行して、組み合わせ領域単語ベクトルの次元と同じである中間領域単語ベクトルを取得することができる。例えば、ターゲット単語ベクトルがJ個の次元の組み合わせ領域単語ベクトルO={O,O,……,O}を持つと、コンピュータ機器は、フィードフォワードニューラルネットワークに基づき、まず、各組み合わせ領域単語ベクトルに対して一回の変換を実行するとき、J個の次元の中間領域ベクトルF={F,F,……,F}を取得することもできる。コンピュータ機器は、取得された各中間領域単語ベクトルに対して集合処理を実行して、1つの中間集合単語ベクトルを取得する。コンピュータ機器は、取得された中間集合単語ベクトルに対して線形変換を一回実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得することができる。
ステップS208において、集合単語ベクトルに基づきターゲット単語ベクトルに対応するターゲット隠れ状態を生成する。
ここで、隠れ状態は、リカレントニューラルネットワークの隠された層で出力された隠された状態を示し、隠された状態は、リカレントニューラルネットワークのシステム状態(system status)を示す。ターゲット隠れ状態は、リカレントニューラルネットワークが最初の瞬間のシステム状態(system status)を示す。
具体的に、コンピュータ機器は、前の瞬間の履歴単語ベクトルの履歴隠れ状態を取得でき、コンピュータ機器は、履歴隠れ状態の基でターゲット単語ベクトルの集合単語ベクトルを追加して、ターゲット単語ベクトルのターゲット隠れ状態を計算して、ターゲット単語ベクトルのターゲット隠れ状態を生成することができる。前の瞬間の履歴単語ベクトルの履歴隠れ状態も、履歴単語ベクトルの集合単語ベクトルに基づき生成され、集合単語ベクトルは、履歴単語ベクトルに対して多次元の変換処理を実行して取得されたものであることを理解されたい。
前記言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法は、最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成して、単一な次元のターゲット単語ベクトルに、多次元の領域単語ベクトルに対応させ、各領域単語ベクトルに対して領域組み合わせを実行して、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得する。その後、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルに対して集合変換処理を実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得する。
本願による技術案を採用して、各瞬間のターゲット単語ベクトルに、対応する集合単語ベクトルをすべて有するようにし、これにより、集合単語ベクトルの基でターゲット単語ベクトルに対応するターゲット隠れ状態を生成することができる。集合単語ベクトルは、ターゲット単語ベクトルに対して多次元の変換処理を実行して取得されるものであるため、当該集合単語ベクトルを使用して生成されたターゲット隠れ状態は、複雑な言語法則に対して高いキャプチャ率を持つ。例えば、コンピュータ機器が、手書き認識、シーケンスラベリング、感情分析、言語モデルトレーニング及び機械翻訳などのタスクを処理するとき、長距離依存の言語構造に遭遇した場合でも、タスクを効率的に完了することができる。
一実施例において、最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップは、少なくとも2つの第1重み行列を取得するステップであって、各第1重み行列は、対応する領域単語ベクトルを生成するために使用されるステップと、最初の瞬間に入力されたターゲット単語ベクトルを決定し、前の瞬間の履歴単語ベクトルに対応する履歴隠れ状態を取得するステップと、第1重み行列及び履歴隠れ状態に基づき、ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップと、を含む。
ここで、第1重み行列は、システムに伴ってトレーニングされる行列の形の重みパラメータを示し、対応する領域単語ベクトルを生成するために使用される。即ち、第1重み行列は、サンプル数でシステムをトレーニングして得た行列の形のシステムパラメータである。履歴単語ベクトルは、コンピュータ機器が最初の瞬間の前の瞬間に入力した単語ベクトルを示す。履歴隠れ状態はコンピュータ機器が最初の瞬間の前の瞬間に入力した単語ベクトルに対応する隠れ状態を示す。
具体的に、コンピュータ機器が、最初の瞬間にターゲット単語ベクトルが入力されたと検出する場合、コンピュータ機器は、最初の瞬間に入力されたターゲット単語ベクトルを読み取り、当該ターゲット単語ベクトルの領域単語ベクトル生成命令をトリガする。コンピュータ機器は、当該領域単語ベクトル生成命令に従って、領域単語ベクトルを生成するための第1重み行列を取得し、取得された第1重み行列の数と、コンピュータ機器が生成する必要がある領域単語ベクトルの次元の数は、同じである。
例えば、コンピュータ機器が生成する必要のある領域単語ベクトルの第1プリセットの次元がNであると、コンピュータ機器が取得した第1重み行列の数はNである。コンピュータ機器が、各1つの次元の領域単語ベクトルを生成するとき、すべて、対応する第1重み行列を持つ。コンピュータ機器が、最初の次元の領域単語ベクトルZを生成するとき、対応する第1重み行列Wを持ち、コンピュータ機器が2番目の次元の領域単語ベクトルZを生成するとき、対応する第1重み行列Wを持ち、……、コンピュータ機器がN番目の次元の領域単語ベクトルZを生成するとき、対応する第1重み行列Wを持つ。
コンピュータ機器は、最初の瞬間に入力されたターゲット単語ベクトルを決定し、コンピュータ機器が最初の瞬間の前の瞬間に入力した履歴単語ベクトルに対応する履歴隠れ状態を取得する。前の瞬間は、必ずしも最初の瞬間に密接に隣接する瞬間にある必要はなく、前の瞬間は、コンピュータ機器がターゲット単語ベクトルを入力する前に単語ベクトルを入力するときに対応する瞬間にあることを理解されたい。
例えば、コンピュータ機器が、T個の瞬間に入力したターゲット単語ベクトルの全体が、1つのベクトルシーケンスX={X,X,……,X}であると、Xは、コンピュータ機器が最初の瞬間に入力した単語ベクトルを表示し、Xは、コンピュータ機器が2番目の瞬間に入力した単語ベクトルを表示する。最初の瞬間と2番目の瞬間の間に長い時間間隔がある可能性があり、短い時間間隔しかない可能性もあるため、最初の瞬間と2番目の瞬間は、必ずしもタイムテーブルで互いに対応する密接に隣接する瞬間にある必要はない。
コンピュータ機器は、取得された履歴隠れ状態及び第1プリセットの数の第1重み行列に基づき、第1プリセットの次元の領域単語ベクトルを生成することができる。第1プリセットの数と第1プリセットの次元の数は同じである。第1プリセットの次元の領域単語ベクトルの全体は、1つの領域単語ベクトル行列であり得る。例えば、コンピュータ機器が、ターゲット単語ベクトルXをN個の次元の領域単語ベクトルに変換する必要があると、取得されたN個の次元の領域単語ベクトルは、領域単語ベクトル行列

Figure 0007299317000001
に表示でき、領域単語ベクトル行列内のZ~Zは、すべてターゲット単語ベクトルXの領域単語ベクトルである。
上述した実施例において、コンピュータ機器は、対応する領域単語ベクトルを生成するための第1重み行列を直接に使用して、単一な次元のターゲット単語ベクトルを少なくとも2つの次元の領域単語ベクトルに効率的に変換する。そして、前の瞬間の履歴隠れ状態の基で少なくとも2つの次元の領域単語ベクトルを生成して、取得された領域単語ベクトルがより正しくなる。
一実施例において、第1重み行列及び履歴隠れ状態に基づき、ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップは、ターゲット単語ベクトル及び履歴隠れ状態を連結して、連結単語ベクトルを取得するステップと、連結単語ベクトル及び第1重み行列に従って領域単語ベクトル行列を生成するステップと、を含み、領域単語ベクトル行列は、少なくとも2つの次元の領域単語ベクトルを含む。
具体的に、コンピュータ機器が生成した各瞬間の隠れ状態の形はすべてベクトルであるため、コンピュータ機器がターゲット単語ベクトルを決定し前の瞬間の履歴単語ベクトルに対応する履歴隠れ状態を取得した後、最初の瞬間のターゲット単語ベクトル及び前の瞬間の履歴隠れ状態を連結して、連結単語ベクトルを取得することができる。例えば、ターゲット単語ベクトルに8つのベクトル要素を含み、履歴隠れ状態に5つのベクトル要素を含み、コンピュータ機器は、ターゲット単語ベクトル及び履歴隠れ状態を直接に連結した後、取得された連結単語ベクトルは、13個のベクトル要素を含む。コンピュータ機器は、取得した連結単語ベクトルをそれぞれ、各第1重み行列と乗算して、領域ベクトル行列を取得することができる。領域ベクトル行列には、多次元の領域単語ベクトルが含まれる。
一実施例において、ターゲット単語ベクトル及び履歴隠れ状態を連結して[X,ht-1]と表示し、ここで、Xは、コンピュータ機器が最初の瞬間に入力したターゲット単語ベクトルであり、ht-1は、最初の瞬間の前の瞬間の履歴単語ベクトルに対応する履歴隠れ状態である。こうして、コンピュータ機器は、式Z=W[X,ht-1]に従ってターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトル、を生成することができる。
ここで、Wは、第1重み行列を表示する。例えば、コンピュータ機器がN個の領域単語ベクトルを生成する必要があると、iは1~Nであり、ZはZ~Zであり、WはW~Wである。Zを計算するとき、Z=W[X,ht-1]は、Z=W[X,ht-1]であり、Zを計算するとき、Z=W[X,ht-1]はZ=W[X,ht-1]であり、……、Zを計算するとき、Z=W[X,ht-1]は、Z=W[X,ht-1]であることを理解されたい。このようにして、コンピュータ機器は、領域単語ベクトル行列

Figure 0007299317000002
を取得でき、1~Nは、それぞれ、対応する領域単語ベクトルZ~Zが位置する次元を表示する。ここで、tは、1より大きい整数である。
領域単語ベクトル行列内の各1つの領域単語ベクトルは、それぞれ異なる次元に位置し、各1つの領域単語ベクトルは、複数のベクトル要素を含み、各ベクトル要素は、すべて、属する領域単語ベクトルが位置する次元の行列要素であることを理解されたい。例えば、Zが0.3、0.8及び0.7の3つのベクトル要素を含むと、0.3は、Zが位置する第1次元の行列要素Z11であり、0.8は、Zが位置する第1次元の行列要素Z12であり、0.7は、Zが位置する第1次元の行列要素Z13である。各領域ベクトルがすべて3つのベクトル要素を含むことを例として、領域単語ベクトル行列は、具体的に

Figure 0007299317000003
に表示する。
上述した実施例において、コンピュータ機器は、ターゲット単語ベクトル及び前の瞬間の隠れ状態を直接に連結して、連結単語ベクトルを取得し、連結単語ベクトルと少なくとも2つの第1重み行列をそれぞれ直接に乗算し、それにより、少なくとも2つの次元の領域単語ベクトルをより効率的且つ迅速に取得する。
一実施例において、図3に示されたように、各領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するステップは、以下のステップを含む。
ステップS302において、各領域単語ベクトル間のエッジ重みを決定する。
ここで、エッジ重みは、各領域単語ベクトルをベクトルノードとするとき、各ベクトルノードのエッジを接続するための重みを示す。
具体的に、コンピュータ機器がプリセットした領域ベクトル組み合わせ方式は、グラフ畳み込み(graph convolutional networks)に基づく領域ベクトル組み合わせ方式であり得、コンピュータ機器は、グラフ畳み込みに基づく領域ベクトル組み合わせ方式に従って、各領域単語ベクトルをベクトルノードとして決定し、各ベクトルノード間は接続されたエッジがあり、1つの図、G=(V,E)を構築し、ここで、Vは、ベクトルノードセットを表示し、Eは、エッジセットを表示する。
図4に示されたように、コンピュータ機器が、Z、Z及びZの、ターゲット単語ベクトルの3つの次元の領域単語ベクトルを生成すると、コンピュータ機器は、Z、Z及Zを、それぞれ、ベクトルノード401として決定する。各ベクトルノード間で接続されたエッジ402は、接続された2つのベクトルノード間の関係を表す。コンピュータ機器は、各ベクトルノード間の類似度を計算して、各ベクトルノード間の類似度を、対応する各ベクトルノード間のエッジのエッジ重みとして決定することができる。
一実施例において、コンピュータ機器は、式

Figure 0007299317000004
に従って各領域単語ベクトル間のエッジ重みを計算して決定することができる。ここで、Z及びZは、両方ともターゲット単語ベクトルの任意1つの領域単語ベクトルである。Z は、領域単語ベクトルZの転置ベクトルを示す。「||Z||」は、領域単語ベクトルZのL2ノルムを示し、「||Z||」は、領域単語ベクトルZのL2ノルムを示す。このようにして、コンピュータ機器は、上記の式に従って各領域単語ベクトル間の類似度を取得して、各ベクトルノード間の類似度を、対応する各ベクトルノード間のエッジのエッジ重みとして決定することができる。ここで、jは、正の整数である。
ステップS304において、決定された各エッジ重みに従って、各領域単語ベクトルに共に対応する隣接行列を生成する。
ここで、隣接行列(Adjacency Matrix)は、ベクトルノード間の隣接関係を表示するための行列である。
具体的に、コンピュータ機器は、決定された各エッジ重みを行列要素として、1つの隣接行列を形成することができる。例えば、コンピュータ機器がターゲット単語ベクトルのN個の次元の領域単語ベクトルを生成すると、コンピュータ機器は、N個の領域単語ベクトルを、それぞれ、ベクトルノードとして決定して、N個のベクトルノードの各ベクトルノード間のエッジ重みを計算する。このようにして、コンピュータ機器は、決定された各エッジ重みを行列要素として形成された隣接行列Aは図5に示されたようであってもよい。
ステップS306において、隣接行列の各次元の各エッジ重みをそれぞれ加算して、次数行列を取得する。
ここで、次数行列は、隣接行列の各行または各列のベクトルノードの次数によって形成された行列を示し、各行または各列のベクトルノードの次数は、隣接行列内の各行または各列に含まれた行列要素の合計である。
具体的に、図5に示されたように、隣接行列A内の各行は、すべて、ある1つのベクトルノードと他のベクトルノード間のエッジのエッジ重みを含む。例えば、図5内のW12は、各ベクトルノード内の最初のノードと2番目のノード間のエッジのエッジ重みを表示する。コンピュータ機器が隣接行列を取得した後、隣接行列の各行に含まれたエッジ重みを加算して、各行に対応するベクトルノードの次数を取得することができる。例えば、隣接行列内の最初の行にベクトルノードZ1と他のベクトルノード間のエッジ重みW11、W12、W13、……、W1Nを含むと、コンピュータ機器は、W11~W1Nを加算して、ベクトルノードZの次数D11を取得することができる。
さらに、コンピュータ機器は、式Dii=Σijに従って各行に対応するベクトルノードの次数を計算することができ、ここで、Wijは、隣接行列の第i行第j列の行列パラメータ(当該行列パラメータは、ベクトルノード内のi番目のベクトルノードとj番目のベクトルノード間のエッジ重みである)を示す。例えば、図4内の隣接行列Aの第1行が表示するベクトルノードの次数を計算するとき、D11=Σij内のjは1~Nであると、D11=W11+W12+W13+……+W1Nである。
コンピュータ機器が取得した隣接行列内の各行のベクトルノードの次数は、D11、D22、D33、……、DNNに表示し、コンピュータ機器は、「D11、D22、D33、……、DNN」に基づき次数行列Dを形成でき、形成された次数行列DのD11、D22、D33、……、DNN以外の他の行列要素は、すべて0であり、図6に示されたようである。
ステップS308において、隣接行列及び次数行列に基づき、少なくとも2つの次元の組み合わせ領域単語ベクトルを生成する。
具体的に、コンピュータ機器は、取得された隣接行列及び次数行列に基づき、第2プリセットの次元の組み合わせ領域単語ベクトルを生成することができ、本実施例における第2プリセットの次元の数と、ターゲット単語ベクトルの領域単語ベクトルの数は同じである。
上述した実施例において、コンピュータ機器は、ターゲット単語ベクトルの各領域単語ベクトルを、グラフ畳み込みネットワークのグラフ構造のベクトルノードとして使用して、各ベクトルノード間のエッジ重みを計算することができ、各領域単語ベクトル間のエッジ重みを取得し、取得されたエッジ重みを使用して隣接行列を生成し、隣接行列に基づき次数行列を計算することができる。このようにして、コンピュータ機器は、隣接行列及び次数行列を直接に使用して、組み合わせ領域単語ベクトルを効率的に生成することができる。
一実施例において、隣接行列及び次数行列に基づき、少なくとも2つの次元の組み合わせ領域単語ベクトルを生成するステップは、各領域単語ベクトルが共同に対応する領域単語ベクトル行列を決定するステップと、組み合わせ領域単語ベクトル行列を生成するための第2重み行列を取得するステップと、隣接行列、次数行列、領域単語ベクトル行列及び第2重み行列に従って、組み合わせ領域単語ベクトル行列を生成するステップと、を含み、組み合わせ領域単語ベクトル行列には、少なくとも2つの次元の領域単語ベクトルが含まれる。
ここで、領域単語ベクトル行列は、各領域単語ベクトルに含まれるベクトル要素を行列要素とする行列を示す。第2重み行列は、グラフ畳み込みネットワークでのシステムに伴ってトレーニングされる行列の形の重みパラメータを示し、組み合わせ領域単語ベクトル行列を生成するために使用される。即ち、第2重み行列は、サンプルデータを介して、システムをトレーニングして得るシステムパラメータである。
具体的に、コンピュータ機器は、各領域単語ベクトルに含まれるベクトル要素を行列要素として、1つの領域単語ベクトル行列を形成する。例えば、コンピュータ機器がターゲット単語ベクトルXのN個の領域単語ベクトルZ={Z,Z,……,Z}を生成し、各領域ベクトルにM個のベクトル要素が含まれると、コンピュータ機器は、N個の領域単語ベクトルZ内の各領域単語ベクトルに含まれるベクトル要素を行列要素として、領域単語ベクトル行列Zを形成し、領域単語ベクトル行列Zは図7内の700に示されたようである。ここで、Mは、整数である。
コンピュータ機器は、組み合わせ領域単語ベクトル行列を生成するための第2重み行列Wを取得し、式

Figure 0007299317000005
に従って組み合わせ領域単語ベクトル行列Oを生成する。ここで、Dは、次数行列を示し、Aは、隣接行列を示し、Zは、領域単語ベクトル行列を示し、σは、活性化関数を示す。さらに、活性化関数σは、具体的に、sigmoid関数「sigmoid(x)」であり得る。sigmoid関数は、生物学で一般的なシグモイド関数であり、シグモイド成長曲線とも称し得、本実施例では、sigmoid関数は、リカレントニューラルネットワークの閾値関数として使用される。
コンピュータ機器は、活性化関数σを使用して、ターゲット単語ベクトルの領域単語ベクトル次元と同じである組み合わせ領域単語ベクトル行列Oを取得することができ、組み合わせ領域単語ベクトル行列Oの各行は、1つの次元として使用され、各1つの次元は、1つの組み合わせ領域単語ベクトルを有する。例えば、N個の領域単語
ベクトルに対応する組み合わせ領域単語ベクトル行列

Figure 0007299317000006
は、J個の組み合わせ領域単語ベクトルを含み、JとNのサイズは、同じである。こうして、コンピュータ機器は、J個の組み合わせ領域単語ベクトルO={O,O,……,O}を取得できる。
上述した実施例において、各領域単語ベクトルの全体を、1つの領域単語ベクトル行列として使用し、組み合わせ領域単語ベクトル行列を生成するための第2重み行列を使用して、隣接行列及び次数行列に基づき領域単語ベクトル行列に対応する組み合わせ領域単語ベクトル行列を生成し、生成された組み合わせ領域単語ベクトル行列は、少なくとも2つの次元の領域単語ベクトルを含み、さらに、組み合わせ領域単語ベクトルを生成する効率を向上させる。
一実施例において、図8に示されたように、各領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するステップは、以下のステップを含む。
ステップS802において、組み合わせ領域単語ベクトルを生成するために使用される第3重み行列に従って、各領域単語ベクトルに対応する少なくとも2つの予測ベクトルを決定する。
ここで、第3重み行列は、カプセルネットワーク(capsule networks)でのシステムに伴ってトレーニングされる行列の形の重みパラメータを示し、組み合わせ領域単語ベクトル行列を生成するために使用される。即ち、第3重み行列は、サンプルデータを介して、システムをトレーニングして得るシステムパラメータである。予測ベクトルは、組み合わせ領域単語ベクトル行列を生成するプロセスにおけるベクトルの形の中間変数を示す。
具体的に、コンピュータ機器がプリセットした領域ベクトル組み合わせ方式は、カプセルネットワークに基づく領域ベクトル組み合わせ方式であり得、コンピュータ機器は、カプセルネットワークに基づく領域ベクトル組み合わせ方式に従って、各領域単語ベクトルをカプセルネットワークのカプセルとして使用し、コンピュータ機器が、ターゲット単語ベクトルのN個の領域単語ベクトルZ={Z,Z,……,Z}を生成した場合、Z、Z、……、ZのN個のカプセルがある。
コンピュータ機器は、組み合わせ領域単語ベクトルを生成するための第3重み行列W内の各行列要素W ijを取得し、ここで、iは、1~Nであり、Nは、カプセルの総数であり、jは、1~第2プリセットの次元の数であり、本実施例の第2プリセットの次元の数は、2より大きいか等しいで、且つ、Nより小さいか等しいであり、ijは、第3重み行列Wの第i行第j列を表示する。
図9に示されたように、図9内の901~904は、コンピュータ機器が、カプセルネットワークに基づく領域ベクトル組み合わせ方式に従って、ターゲット単語ベクトルの領域単語ベクトルに対して組み合わせ計算を実行する初期化段階であり、905~910は、コンピュータ機器に従ってに基づきカプセルネットワークのが、カプセルネットワークに基づく領域ベクトル組み合わせ方式に従って、ターゲット単語ベクトルの領域単語ベクトルに対して組み合わせ計算を実行する反復計算段階である。初期化段階では、図9内の903に示されたように、コンピュータ機器は、カプセルネットワーク内の各カプセルに基づき、取得された第3重み行列内の各行列要素W ijに対応する予測ベクトルZj|iを生成することができる。
ステップとS804において、各領域単語ベクトルに対応する少なくとも2つの事前確率対数を決定する。
ここで、事前確率対数は、組み合わせ領域単語ベクトル行列を生成するプロセスにおけるベクトルの形の一時的な変数を示す。
具体的に、コンピュータ機器は、事前確率対数行列Bから各事前確率対数bijを取得し、事前確率対数行列Bに含まれる事前確率対数bijの数は、カプセルの総数*第2プリセットの次元の数である。図9内の902に示されたように、現在初期化段階であるため、事前確率対数行列Bのすべての事前確率対数bijは、すべて0である。
ステップS806において、事前確率対数に従って、各領域単語ベクトルに対応する結合係数を決定する。
具体的に、コンピュータ機器は、反復計算段階に入る。反復計算段階では、図9内の905に示されたように、コンピュータ機器は、取得された各事前確率対数bijに対して正規化処理を実行し、式は、

Figure 0007299317000007
であり、各領域単語ベクトルがそれぞれ対応する各生成対象となる組み合わせ領域単語ベクトル間の結合係数Cijを取得する。ここで、exp()は、eをベースとする指数関数を示す。
ステップS808において、結合係数及び予測ベクトルに基づき、少なくとも2つの次元の候補組み合わせ領域単語ベクトルを生成する。
具体的に、コンピュータ機器が結合係数Cijを取得した後、図9内の906に示されたように、式S=Σijj|iに従って加重の和Sを計算する。ここで、Σは、合計シンボルである。図9内の907に示されたように、コンピュータ機器は、非線形活性化関数squash(S)を介して第2プリセットの次元の組み合わせ領域単語ベクトルOを生成する。ここで、

Figure 0007299317000008
である。ここで、「||S||」は、Sを計算するノルムを示す。
ステップS810において、以上のステップS804~S808を繰り返して実行して、候補組み合わせ領域単語ベクトルに対して反復計算を実行し、プリセットの反復条件たされると、反復を停止し、反復が停止されるときの少なくとも2つの次元の候補組み合わせ領域単語ベクトルを少なくとも2つの次元の組み合わせ領域単語ベクトルとして決定する。
つまり、コンピュータ機器は、以上のステップS804ないしステップS808の3つのステップを繰り返して実行して、候補組み合わせ領域単語ベクトルに対して反復計算を実行し、プリセットの反復条件たされると、反復を停止し、反復が停止されるときの少なくとも2つの次元の候補組み合わせ領域単語ベクトルを少なくとも2つの次元の組み合わせ領域単語ベクトルとして決定する。
候補組み合わせ領域単語ベクトルに対して反復計算を実行するとき、領域単語ベクトルと、組み合わせ領域単語ベクトル間の事前確率対数を再決定する必要があることに留意されたい。具体的に、図9内のステップ908に示されたように、コンピュータ機器は、組み合わせ領域単語ベクトルOを取得した後、ステップ909を実行し、式bij=bij+Zj|iに従って各領域単語ベクトルが、それぞれ各組み合わせ領域単語ベクトル間との事前確率対数を再決定する。
具体的に、事前確率対数bijを再決定した後、図9内の905のステップに戻り、プリセットの反復条件たされると、反復を停止し、最後の一回で生成された各組み合わせ領域単語ベクトルを出力する。例示的に、プリセットの反復条件は、プリセットの反復回数であり得、例えば、プリセットの反復回数が3回であると、コンピュータ機器が現在の反復回数がプリセットの反復回数に達したと検出するとき、反復を停止し、第3回で生成された各組み合わせ領域単語ベクトルを出力する。
例えば、プリセットの反復回数が5回であると、前記ステップS804~S808の3つのステップを5回繰り返して実行し、ステップS804~S808を5回実行した後、再実行を停止し、ステップS804~S808を5回実行して取得した候補組み合わせ領域単語ベクトルを、少なくとも2つの次元の組み合わせ領域単語ベクトルとして使用する。
上述した実施例において、コンピュータ機器は、ターゲット単語ベクトルの各領域単語ベクトルをカプセルネットワークのカプセルとして使用し、カプセルネットワークの組み合わせ領域単語ベクトルを生成するための第3重み行列を使用して各領域単語ベクトルに対応する少なくとも2つの予測ベクトルを生成し、各領域単語ベクトルに対応する初期化された少なくとも2つの事前確率対数を取得する。事前確率対数に基づき少なくとも2つの次元の組み合わせ領域単語ベクトルを生成するプロセスでは、カプセルネットワークの事前確率対数に対する反復アルゴリズムを使用して、最終的の組み合わせ領域単語ベクトルをより効率的で且つ正しく生成する。
即ち、事前確率対数に基づき少なくとも2つの次元の組み合わせ領域単語ベクトルを生成するプロセスでは、カプセルネットワークの事前確率対数に対する反復アルゴリズムを使用して、組み合わせ間隔単語ベクトルに対して複数の反復計算を効率的に実行する同時に、複数の反復を介して複雑な言語法則をよりよくキャプチャする。
一実施例において、各前記領域単語ベクトルに対応する少なくとも2つの事前確率対数を決定するステップは、各組み合わせ領域単語ベクトルと、対応する各予測ベクトルとのスカラ積を決定するステップと、各スカラ積及び対応する事前確率対数を加算して、再決定された各領域単語ベクトルに対応する事前確率対数を取得するステップと、をさらに含む。
具体的に、図9内のステップ908に示されたように、「Zj|i・O」は、予測ベクトルZj|iと、組み合わせ領域単語ベクトルOとのスカラ積を示し、取得されたスカラ積をそれぞれ、現在の各事前確率対数と加算して、複数の事前確率対数を再取得する。
例えば、予測ベクトルZ1|1=(a,a,……,a)であり、現在取得された組み合わせ領域単語ベクトルO=(c,c,……,c)であり、対応的に、スカラ積Z1|1・O=a+a+……+aであり、現在のb11とZ1|1・Oを加算して、新しい事前確率対数b11=b11+Z1|1・Oを取得する。
上述した実施例において、コンピュータ機器は、各組み合わせ領域単語ベクトルと対応する各予測ベクトルとのスカラ積と、現在の事前確率対数を加算して、複数の再決定された事前確率対数を取得し、複数回の反復の後、事前確率対数の精度が更に高く、これにより、最終的な組み合わせ領域単語ベクトルをより効率的で且つ正しく生成できる。
一実施例において、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルに対して集合変換処理を実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップは、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルを変換して、変換後の組み合わせ領域単語ベクトルを取得するステップと、各変換後の組み合わせ領域単語ベクトルを連結して、連結された単語ベクトルを取得するステップと、連結された単語ベクトルに対して線形変換を実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップと、を含む。
具体的に、コンピュータ機器フィードフォワードニューラルネットワークに基づくプリセットの式に従って、各組み合わせ領域単語ベクトルO={O,O,……,O}に対してより深層の変換を実行して、変換後の組み合わせ領域単語ベクトルF={f,f,……,f}を取得する。コンピュータ機器は、Fのすべての変換後の組み合わせ領域単語ベクトルを連結して、1つの連結された単語ベクトル(f……f)を取得する。その後、連結結された単語ベクトル(f……f)に対して線形変換を一回実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得する。
上述した実施例において、コンピュータ機器は、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルに対してより深層の変換を実行して、集合単語ベクトルを取得して、集合単語ベクトルに基づき生成されたターゲット隠れ状態を使用して複雑な言語法則をキャプチャするとき、複雑な言語法則に対して高いキャプチャ率を持たせる。
一実施例において、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルを変換して、変換後の組み合わせ領域単語ベクトルを取得するステップは、第4重み行列及び第1オフセットベクトルに従って、各組み合わせ領域単語ベクトルに対して線形変換を実行して、各組み合わせ領域単語ベクトルに対応する一時的な単語ベクトルを取得するステップと、各一時的な単語ベクトルとベクトル閾値のうちの最大ベクトル値をそれぞれ選択するステップと、第5重み行列及び第2オフセットベクトルに従って、各最大ベクトル値に対して、それぞれ、線形変換を実行して、変換後の組み合わせ領域単語ベクトルを取得するステップと、を含む。
ここで、第4重み行列は、フィードフォワードニューラルネットワークでのシステムに伴ってトレーニングされる行列の形の重みパラメータを示しフィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用される。第5重み行列は、フィードフォワードニューラルネットワークでのシステムに伴ってトレーニングされる行列の形の重みパラメータを示しフィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用される。第1オフセットベクトルは、フィードフォワードニューラルネットワークでのシステムに伴ってトレーニングされるベクトルの形のオフセットパラメータを示し、フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用される。第2オフセットベクトルは、フィードフォワードニューラルネットワークでのシステムに伴ってトレーニングされるベクトルの形のオフセットパラメータを示し、フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用される。ここで、第4重み行列及び第5重み行列は、サンプル数でシステムをトレーニングして得た行列の形のシステムパラメータである。
具体的に、コンピュータ機器は、フィードフォワードニューラルネットワーク内の第4重み行列W及び第1オフセットベクトルbを取得し、第4重み行列W及び第1オフセットベクトルbを使用して、各組み合わせ領域単語ベクトルOに対して最初の線形変換O+bを実行して、各組み合わせ領域単語ベクトルに対応する一時的な単語ベクトルを取得する。各一時的な単語変数とベクトル閾値とそれぞれ比較して、各一時的な単語変数とベクトル閾値のうちの最大ベクトル値を選択する。
例えば、ベクトル閾値が0であると、コンピュータ機器は、各一時的な単語変数とベクトル閾値0をそれぞれ比較し、Relu関数「max(0,X)」を介して最大ベクトル値max(0,O+b)を選択し、ベクトル閾値0より大きい一時的な単語変数を当該一時的な単語変数とベクトル閾値0のうちの最大ベクトル値として使用し、一時的な単語変数より大きいベクトル閾値0を当該一時的な単語変数とベクトル閾値0のうちの最大ベクトル値として使用する。
コンピュータ機器は、フィードフォワードニューラルネットワークの第5重み行列W及び第2オフセットベクトルbを取得し、第5重み行列W、及び第2オフセットベクトルbを使用して各組み合わせ領域単語ベクトルOに対して2番目の線形変換を実行して、二回線形変換後の組み合わせ領域ベクトルf:f=max(0,O+b)W+bを取得し、さらに、変換後の組み合わせ領域単語ベクトルF={f,f,……,f}を取得する。
上述した実施例において、コンピュータ機器は、フィードフォワードニューラルネットワークの第4重み行列及び第1オフセットベクトルを使用して各組み合わせ領域単語ベクトルに対して最初の線形変換を実行した後、一時的な単語ベクトルを取得し、一時的な単語ベクトルとベクトル閾値のうちの最大ベクトル値を選択し、フィードフォワードニューラルネットワークの第5重み行列及び第2オフセットベクトルを使用して最大ベクトル値に対して2番目の線形変換を実行して、変換後の組み合わせ領域単語ベクトルを取得する。コンピュータ機器は、当該組み合わせ領域単語ベクトルを使用して集合単語ベクトルを生成して、集合単語ベクトルに基づき生成されたターゲット隠れ状態を使用して複雑な言語法則をキャプチャするとき、複雑な言語法則に対して高いキャプチャ率を持たせる。
一実施例において、集合単語ベクトルは、第1集合単語ベクトルと第2集合単語ベクトルとを含み、第1集合単語ベクトルと第2集合単語ベクトルは異なり、集合単語ベクトルに基づきターゲット単語ベクトルに対応するターゲット隠れ状態を生成するステップは、第1集合単語ベクトル及び対応する第1活性化関数に基づき、ターゲット単語ベクトルに対応する候補隠れ状態を決定するステップと、第2集合単語ベクトル及び対応する第2活性化関数に基づき、ターゲット単語ベクトルに対応するゲーティングパラメータを決定するステップと、候補隠れ状態、ゲーティングパラメータ及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に従って、ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するステップと、を含む。
具体的に、コンピュータ機器は、ターゲット単語ベクトルの領域単語ベクトルを生成するとき、それぞれ、第1集合単語ベクトルに対応する第1重み行列及び第2集合単語ベクトルに対応する第1重み行列に基づき集合単語ベクトルを生成する必要がある。コンピュータ機器が、第1集合単語ベクトルに対応する第1重み行列に基づき領域単語ベクトルを生成するとき、コンピュータ機器が最後に取得したターゲット単語ベクトルに対応する集合単語ベクトルは、第1集合単語ベクトルMである。コンピュータ機器が、第2集合単語ベクトルに対応する第1重み行列に基づき領域単語ベクトルを生成するとき、コンピュータ機器が最後に取得したターゲット単語ベクトルに対応する集合単語ベクトルは、第2集合単語ベクトルMである。
コンピュータ機器は、第1活性化関数tanh、即ち、h =tanh(M)を介してターゲット単語ベクトルの候補隠れ状態h を決定する。コンピュータ機器は、第2活性化関数σを介してターゲット単語ベクトルのゲーティングパラメータg:g=σ(M)を決定する。
さらに、

Figure 0007299317000009

Figure 0007299317000010
である。
コンピュータ機器がターゲット単語ベクトルに対応する候補隠れ状態h 及びゲーティングパラメータgを取得した後、式

Figure 0007299317000011
に従ってターゲット単語ベクトルのターゲット隠れ状態hを計算する。ここで、

Figure 0007299317000012
は、要素の積のオペレータであり、

Figure 0007299317000013
は、(1-g)及びht-1に対して要素の積を実行する演算を示し、

Figure 0007299317000014
は、g及びh に対して要素の積を実行する演算を示す。
上述した実施例において、第1集合単語ベクトル及び第2集合単語ベクトルは、両方ともターゲット単語ベクトルに対して多次元の変換処理を実行いて取得され、このようにして、第1集合単語ベクトルに基づき取得された候補隠れ状態及び第2集合単語ベクトルに基づき取得されたゲーティングパラメータはより正確であり、このようにして、より正確な候補隠れ状態及びゲーティングパラメータに基づき取得されたターゲット隠れ状態を使用して複雑な言語法則をキャプチャするとき、複雑な言語法則に対して高いキャプチャ率を持たせる。
一実施例において、図10に示されたように、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法は、以下のステップを含み得る。
ステップS1002において、コンピュータ機器が、領域単語ベクトル生成式に従って第1プリセットの次元の領域単語ベクトルを生成する。
具体的に、図11内の1101に示されたように、領域単語ベクトル生成式は、Z=W[X,ht-1]である。例えば、第1プリセットの次元がNであると、iは1~Nであり、コンピュータ機器によって取得されたN個の次元の領域単語ベクトルは、Z={Z,Z,……,Z}に表示する。
ステップS1004において、コンピュータ機器は、プリセットの領域ベクトル組み合わせ方式に従って、第1プリセットの次元の領域単語ベクトルに対して組み合わせ計算を実行して、第2プリセットの次元の組み合わせ領域単語ベクトルを取得する。
具体的に、図11内の1102に示されたように、コンピュータ機器は、取得されたN個の次元の領域単語ベクトルZ={Z,Z,……,Z}に対して組み合わせ計算を実行し、第2プリセットの次元がJであると、コンピュータ機器は、J個の組み合わせ領域単語ベクトルO={O,O,……,O}を取得できる。JはNと等しいであってもよく、Nと異なってもよい。例えば、プリセットの領域ベクトル組み合わせ方式が、グラフ畳み込みに基づく領域ベクトル組み合わせ方式である場合、第2プリセットの次元Jは、第1プリセットの次元Nと等しい。プリセットの領域ベクトル組み合わせ方式が、カプセルネットワークに基づく領域ベクトル組み合わせ方式である場合、第2プリセットの次元Jは、2より大きいか等しいで、且つ、第1プリセットの次元Nより小さいか等しい。
ステップS1006において、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルに対して深層変換を実行して、第2プリセットの次元の中間領域単語ベクトルを取得する。
具体的に、図11内の1103に示されたように、コンピュータ機器は、フィードフォワードニューラルネットワーク(FNN:Feedforward Neural Network)を介して、各組み合わせ領域単語ベクトルを処理するとき、具体的に、式f=max(0,O+b)W+bに従って各中間領域単語ベクトルfを生成することができる。例えば、第2プリセットの次元がJであると、コンピュータ機器は、J個の中間領域単語ベクトルF={f,f,……,f}を生成できる。
ステップS1008において、コンピュータ機器は、第2プリセットの次元の中間領域単語ベクトルを連結して、連結単語ベクトルを取得し、連結単語ベクトルに対して線形変換を一回実行して、集合単語ベクトルを取得する。
具体的に、図11内の1103に示されたように、「Concat&Linear」は、コンピュータ機器がJ個の中間領域単語ベクトルF={f,f,……,f}を連結(Concat)した後、また一回の線形変換(Linear)を実行することを示す。
ステップS1010において、コンピュータ機器は、集合単語ベクトルに基づき、ターゲット単語ベクトルに対応するターゲット隠れ状態を生成する。
具体的に、集合単語ベクトルは、第1集合単語ベクトルMと第2集合単語ベクトルMに分ける。コンピュータ機器は、第1集合単語ベクトルM及び第2集合単語ベクトルMに基づき、候補隠れ状態h 及びゲーティングパラメータgを計算することができる。即ち、候補隠れ状態h =tanh(M)、ゲーティングパラメータg=σ(M)である。このようにして、コンピュータ機器は、候補隠れ状態h 及びゲーティングパラメータgに基づき、ターゲット単語ベクトルのターゲット隠れ状態htを計算することができる。ターゲット隠れ状態は、

Figure 0007299317000015
である。
一実施例において、人間とコンピュータの対話の適用シナリオでは、コンピュータ機器が可変長の音声情報を受信すると、コンピュータ機器は、各瞬間に受信された音声情報をテキスト情報に変換し、当該テキスト情報をターゲット単語ベクトルにマッピングし、前記任意の実施例における言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップを介して、各ターゲット単語ベクトルのターゲット隠れ状態を生成する。
コンピュータ機器は、生成された複数のターゲット隠れ状態の平均隠れ状態を計算し、当該平均隠れ状態をht-1として使用することができ、Xは0ベクトルである。ht-1及びXに基づき第1集合単語ベクトルM及び第2集合単語ベクトルMを計算する。コンピュータ機器は、第1集合単語ベクトルM及び第2集合単語ベクトルMに基づき、候補隠れ状態h 及びゲーティングパラメータgを計算する。候補隠れ状態h =tanh(M)、ゲーティングパラメータg=σ(M)であり、式

Figure 0007299317000016
に従って、中間隠れ状態hを取得する。例えば、中間隠れ状態hが100個のベクトル要素を含むベクトルであると、中間隠れ状態hと100*Yを含む重み行列Wを乗算して、Y個のベクトル要素を含む中間ベクトルを取得する。softmax(中間ベクトル)を介して、Y個の確率値を取得でき、各1つの確率値は、単語リスト内の1つの単語に対応する確率を表す。例えばYが10000であると、コンピュータ機器は、10000個の確率値を取得できる。
コンピュータ機器は、Y個の確率値のうちの最大確率値に対応する単語を、現在の人間とコンピュータの対話コンピュータ機器が応答する必要がある最初の単語として使用する。コンピュータ機器は、コンピュータ機器が応答する必要がある最初の単語の単語ベクトルをXとし、中間隠れ状態hをht-1として、ht-1及びXに基づき第1集合単語ベクトルM及び第2集合単語ベクトルMを計算するステップを実行し続け、同じ計算ステップに従って、コンピュータ機器は、応答する必要がある2番目の単語、3番目の単語、4番目の単語……を取得できる。取得された最大確率値が終了条件たされると、反復を終了する。さらに、終了条件は、最大確率値に対応する単語が指定された終了シンボルであることであり得る。
図2、3、8及び10は、一実施例の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法の例示的なフローチャートである。図2、3、8及び10のフローチャートにおける各ステップは、矢印の指示に従って順次に表示されたが、これらのステップは、必ずしも矢印指示の順序に従って順次に実行することではないことを理解されたい。本明細書で明確に説明していない限り、これらのステップの実行には、厳密な順序制限はなく、これらのステップは、他の順序で実行できる。さらに、図2、3、8及び10における少なくとも一部のステップは、複数のサブステップまたは複数の段階を含み、これらのサブステップまたは段階は、必ずしも同じ時間で実行して完成することではなく、異なる時間で実行でき、これらのサブステップまたは段階の実行順序も、順次に実行することではなく、他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と順番にまたは交互に実行することができる。
一実施例において、図12に示されたように、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置1200を提供し、当該装置は、ソフトウェア、ハードウェア、または両者の組み合わせを介して、コンピュータ機器の一部またはすべてに実現でき、当該装置は、領域単語ベクトル生成モジュール1201と、領域単語ベクトル組み合わせモジュール1202と、集合変換処理モジュール1203と、ターゲット隠れ状態生成モジュール1204と、を備える。
領域単語ベクトル生成モジュール1201は、最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するように構成される。
領域単語ベクトル組み合わせモジュール1202は、各領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するように構成される。
集合変換処理モジュール1203は、フィードフォワードニューラルネットワークに基づき各組み合わせ領域単語ベクトルに対して集合変換処理を実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得するように構成される。
ターゲット隠れ状態生成モジュール1204は、集合単語ベクトルに基づきターゲット単語ベクトルに対応するターゲット隠れ状態を生成するように構成される。
一実施例において、領域単語ベクトル生成モジュールは、さらに、少なくとも2つの第1重み行列を取得し、最初の瞬間に入力されたターゲット単語ベクトルを決定し、前の瞬間の履歴単語ベクトルに対応する履歴隠れ状態を取得し、第1重み行列及び履歴隠れ状態に基づき、ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するように構成され、各第1重み行列は、対応する領域単語ベクトルを生成するために使用される。
一実施例において、領域単語ベクトル生成モジュールは、さらに、ターゲット単語ベクトル及び履歴隠れ状態を連結して、連結単語ベクトルを取得し、連結単語ベクトル及び第1重み行列に従って領域単語ベクトル行列を生成するように構成され、領域単語ベクトル行列は、少なくとも2つの次元の領域単語ベクトルを含む。
一実施例において、領域単語ベクトル組み合わせモジュールは、さらに、各領域単語ベクトル間のエッジ重みを決定し、決定された各エッジ重みに従って、各領域単語ベクトルに共に対応する隣接行列を生成し、それぞれ隣接行列の各次元の各エッジ重みをそれぞれ加算して、次数行列を取得し、隣接行列及び次数行列に基づき、少なくとも2つの次元の組み合わせ領域単語ベクトルを生成するように構成される。
一実施例において、領域単語ベクトル組み合わせモジュールは、さらに、各領域単語ベクトルが共同に対応する領域単語ベクトル行列を決定し、組み合わせ領域単語ベクトル行列を生成するための第2重み行列を取得し、隣接行列、次数行列、領域単語ベクトル行列及び第2重み行列に従って、組み合わせ領域単語ベクトル行列を生成するように構成され、組み合わせ領域単語ベクトル行列には、少なくとも2つの次元の領域単語ベクトルが含まれる。
一実施例において、領域単語ベクトル組み合わせモジュールは、さらに、
組み合わせ領域単語ベクトルを生成するために使用される第3重み行列に従って、各領域単語ベクトルに対応する少なくとも2つの予測ベクトルを決定し、
各領域単語ベクトルに対応する少なくとも2つの事前確率対数を決定し、事前確率対数に従って各領域単語ベクトルに対応する結合係数を決定し、結合係数及び予測ベクトルに基づき、少なくとも2つの次元の候補組み合わせ領域単語ベクトルを生成し、
再び前記各領域単語ベクトルに対応する少なくとも2つの事前確率対数を決定するステップから実行し始め、候補組み合わせ領域単語ベクトルを反復計算し、プリセットの反復条件たされると、反復を停止し、反復が停止されるときの少なくとも2つの次元の候補組み合わせ領域単語ベクトルを少なくとも2つの次元の組み合わせ領域単語ベクトルとして決定するように構成される。
一実施例において、領域単語ベクトル組み合わせモジュールは、さらに、各組み合わせ領域単語ベクトルと、対応する各予測ベクトルとのスカラ積を決定し、各スカラ積及び対応する事前確率対数を加算して、再決定された各領域単語ベクトルに対応する事前確率対数を取得するように構成される。
一実施例において、集合変換処理モジュールは、さらに、フィードフォワードニューラルネットワークに基づき、各組み合わせ領域単語ベクトルを変換して、変換後の組み合わせ領域単語ベクトルを取得し、各変換後の組み合わせ領域単語ベクトルを連結して、連結された単語ベクトルを取得し、連結された単語ベクトルに対して線形変換を実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得するように構成される。
一実施例において、集合変換処理モジュールは、さらに、第4重み行列及び第1オフセットベクトルに従って、各組み合わせ領域単語ベクトルに対して線形変換を実行して、各組み合わせ領域単語ベクトルに対応する一時的な単語ベクトルを取得し、各一時的な単語ベクトルとベクトル閾値のうちの最大ベクトル値をそれぞれ選択し、第5重み行列及び第2オフセットベクトルに従って、各最大ベクトル値に対して、それぞれ、線形変換を実行して、変換後の組み合わせ領域単語ベクトルを取得するように構成される。
一実施例において、集合単語ベクトルは、第1集合単語ベクトルと第2集合単語ベクトルとを含み、第1集合単語ベクトルと第2集合単語ベクトルは異なり、
ターゲット隠れ状態生成モジュールは、さらに、第1集合単語ベクトル及び対応する第1活性化関数に基づき、ターゲット単語ベクトルに対応する候補隠れ状態を決定し、第2集合単語ベクトル及び対応する第2活性化関数に基づき、ターゲット単語ベクトルに対応するゲーティングパラメータを決定し、候補隠れ状態、ゲーティングパラメータ及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に従って、ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するように構成される。
図1は、一実施例によるコンピュータ機器の内部構造図を示す。当該コンピュータ機器は、具体的に、端末またはサーバであり得る。図1に示されたように、当該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ及びネットワークインターフェースを備える。コンピュータ機器が端末である場合、当該コンピュータ機器は、さらに、スクリーンと入力装置などを備えることができることを理解されたい。ここで、メモリは、不揮発性記憶媒体と内部メモリとを含む。当該コンピュータ機器の不揮発性記憶媒体には操作システムが記憶され、コンピュータプログラムも記憶でき、当該コンピュータプログラムがプロセッサによって実行されるとき、プロセッサに言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を実現させることができる。
当該内部メモリにもコンピュータプログラムが九九されることができ、当該コンピュータプログラムがプロセッサによって実行されるとき、プロセッサに言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を実行させることができる。コンピュータ機器が端末である場合、コンピュータ機器のスクリーンは、液晶スクリーンまたは電子インクスクリーンであり得、コンピュータ機器の入力装置は、スクリーン上でカバーされたタッチレイヤであってもよいし、コンピュータ機器のハウジングで設置されたボタン、トラックボールまたはタッチパッドであってもよいし、外部キーボード、トラックパッドまたはマウスなどであってもよい。
当業者は、図1に示された構造は、本願技術案と関連する構造の一部のブロック図に過ぎず、本願技術案がそれに適用されるコンピュータ機器に対して制限を構成するものではない。具体的なコンピュータ機器は、図面で示されたものより多くまたは少ない部品を備えるか、またはある部品を組み合わせるか、または異なる部品配置を有する場合がある。
一実施例において、本願に係る言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置は、コンピュータプログラムの形で実現でき、コンピュータプログラムは、図1に示されたコンピュータ機器で実行されることができる。コンピュータ機器のメモリには、例えば、図12に示された領域単語ベクトル生成モジュール1201、領域単語ベクトル組み合わせモジュール1202、集合変換処理モジュール1203及びターゲット隠れ状態生成モジュール1204などの、当該言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置を構成する各プログラムモジュールを記憶できる。各プログラムモジュールによって構成されたコンピュータプログラムは、プロセッサに本明細書に説明された本願各実施例の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップを実行させる。
例えば、図1に示されたコンピュータ機器は、図12に示された言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置1200内の領域単語ベクトル生成モジュール1201を介して、最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップを実行することができる。コンピュータ機器は、領域単語ベクトル組み合わせモジュール1202を介して、領域単語ベクトル組み合わせモジュール1202は、各領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するステップを実行することができる。コンピュータ機器は、集合変換処理モジュール1203を介して、フィードフォワードニューラルネットワークに基づき各組み合わせ領域単語ベクトルに対して集合変換処理を実行して、ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップを実行することができる。コンピュータ機器は、ターゲット隠れ状態生成モジュール1204を介して集合単語ベクトルに基づきターゲット単語ベクトルに対応するターゲット隠れ状態を生成するステップを実行することができる。
一実施例において、メモリとプロセッサとを備える、コンピュータ機器を提供し、メモリには、コンピュータプログラムが記憶され、コンピュータプログラムがプロセッサによって実行されるとき、プロセッサに上記の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップを実行させる。ここでの言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップは、上述した各実施例の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップであり得る。
一実施例において、コンピュータプログラムが記憶される、コンピュータ可読記憶媒体を提供し、コンピュータプログラムがプロセッサによって実行されるとき、プロセッサに上記の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップを実行させる。ここでの言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップは、上述した各実施例の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップであり得る。
当業者なら自明であるが、前記実施例の方法のプロセスの全部または一部を実現することは、コンピュータプログラムによって関連するハードウェアを命令することを介して完了でき、上述したプログラムは、不揮発性コンピュータ可読取記憶媒体に記憶でき、当該プログラムが実行されるとき、上記の各方法の実施例のプロセスを含み得る。ここで、本願による各実施例に使用されるメモリ、記憶、データベースまたは他の媒体に対する任意の参照は、すべて不揮発性及び/または揮発性メモリに含まれることができる。不揮発性メモリは、読み取り専用メモリ(ROM:Read-Only Memory)、プログラム可能な読み取り専用メモリ(PROM:Programmable ROM)、電気的プログラマブル読み取り専用メモリ(EPROM:Electrically Programmable Read-Only Memory)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)またはフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM:Random Access Memory)または外部キャッシュメモリ。を含み得る制限ではなく説明として、RAMは、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)、同期ダイナミックランダムアクセスメモリ(SDRAM:Synchronous Dynamic Random Access Memory)、ダブルデータレートSDRAM(DDR SDRAM:Double Data Rate SDRAM)、強化されたSDRAM(ESDRAM:Enhanced SDRAM)、同期リンクDRAM(SLDRAM:SynchLink DRAM)、ラムバスDRAM(RDRAM:Rambus DRAM)、及びインターフェースダイナミックランダムメモリ(DRDRAM:Direct Rambus DRAM)などの複数の形で取得できる。
以上の実施例における様々な技術特徴は、任意に組み合わせることができ、説明の簡潔にために、上述した実施例における各技術特徴のすべての可能な組み合わせを説明していないが、特徴の間の組み合わせに矛盾がない限り、全て本明細書に記載の範囲と見なすべきである。
以上に記載の実施例は、本願のいくつかのプリセットによって実施されることのみを表し、その説明は、具体的で詳細であるが、本願の特許の範囲に対する制限として理解されるべきではない。当業者にとって、本願の概念から逸脱することなく、いくつかの変形及び改善を加えることもでき、これらは全て本願の保護範囲に含まれると見なされるべきであることに留意されたい。したがって、本願の保護範囲は、添付の特許請求を基準とするべきである。
100 コンピュータ機器
101 メモリ
102 プロセッサ
103 ネットワークインターフェース
104 システムバス
1200 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置
1201 領域単語ベクトル生成モジュール
1202 領域単語ベクトル組み合わせモジュール
1203 集合変換処理モジュール
1204 ターゲット隠れ状態生成モジュール

Claims (6)

  1. コンピュータ機器が実行する、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法であって、
    最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップであって、
    前記領域単語ベクトルは、1つの次元の単語ベクトルに対応する各異なる次元の単語ベクトルを示
    少なくとも2つの第1重み行列を取得するステップであって、各前記第1重み行列は、対応する領域単語ベクトルを生成するために使用される、事前にトレーニングされた行列の形の重みパラメータである、ステップと、
    最初の瞬間に入力されたターゲット単語ベクトルを決定し、前の瞬間の履歴単語ベクトルに対応する履歴隠れ状態を取得するステップと、
    前記第1重み行列及び前記履歴隠れ状態に基づき、前記ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップと、を含み、
    前記隠れ状態はベクトルで表現され、前記第1重み行列及び前記履歴隠れ状態に基づき、前記ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するステップは、
    前記ターゲット単語ベクトルと前記履歴隠れ状態を連結して、連結単語ベクトルを取得するステップと、
    前記連結単語ベクトルをそれぞれ、各前記第1重み行列と乗算して、領域単語ベクトル行列を取得するステップと、を含み、前記領域単語ベクトル行列は、前記少なくとも2つの次元の領域単語ベクトルを含む、ステップと、
    所定の領域ベクトル組み合わせ方式に従って、各前記領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するステップであって、
    前記組み合わせ領域単語ベクトルは、各前記領域単語ベクトルに対して組み合わせ計算を実行して取得した単語ベクトルを示
    各前記領域単語ベクトルをベクトルノードとし、各前記ベクトルノード間の類似度を、対応する各前記ベクトルノード間のエッジのエッジ重みとして決定するステップと、
    決定された各前記エッジ重みを行列要素として、各前記領域単語ベクトルに共に対応する隣接行列を生成するステップであって、前記隣接行列は、ベクトルノード間の隣接関係を示すための行列である、ステップと、
    前記隣接行列の各次元の各前記エッジ重みをそれぞれ加算して、次数行列を取得するステップであって、前記次数行列は、前記隣接行列の各行または各列のベクトルノードの次数によって形成された行列を示し、前記隣接行列の各行または各列のベクトルノードの次数は、前記隣接行列内の各行または各列に含まれた行列要素の合計である、ステップと、
    前記隣接行列及び前記次数行列に基づき、前記少なくとも2つの次元の組み合わせ領域単語ベクトルを生成するステップであって、
    各前記領域単語ベクトルに含まれるベクトル要素を行列要素として、各前記領域単語ベクトルに共同に対応する領域単語ベクトル行列を生成するステップと、
    第2重み行列を取得するステップであって、前記第2重み行列は、組み合わせ領域単語ベクトル行列を生成するために使用される、事前にトレーニングされた行列の形の重みパラメータである、ステップと、
    第3活性化関数に基づき、前記隣接行列、前記次数行列、前記領域単語ベクトル行列及び前記第2重み行列に従って、前記組み合わせ領域単語ベクトル行列を生成するステップと、を含み、前記組み合わせ領域単語ベクトル行列には、前記少なくとも2つの次元の領域単語ベクトルが含まれる、ステップと、を含む、ステップと、
    フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルに対して集合変換処理を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップであって
    フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルを線形変換して、線形変換後の組み合わせ領域単語ベクトルを取得するステップと、
    各変換後の組み合わせ領域単語ベクトルを連結して、連結された単語ベクトルを取得するステップと、
    連結された単語ベクトルに対して線形変換を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するステップと、を含む、ステップと、
    前記集合単語ベクトル及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に基づき、前記ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するステップであって、
    前記ターゲット隠れ状態は、前記最初の瞬間における前記リカレントニューラルネットワークのシステム状態を示し、前記履歴単語ベクトルは、前記最初の瞬間の前の瞬間に入力した単語ベクトルを示し、前記履歴隠れ状態は、前記最初の瞬間の前の瞬間における前記リカレントニューラルネットワークのシステム状態を示
    前記隠れ状態はベクトルで表現され、前記集合単語ベクトルは、第1集合単語ベクトルと第2集合単語ベクトルとを含み、前記第1集合単語ベクトルと前記第2集合単語ベクトルは異なり、
    前記第1集合単語ベクトル(M )及び対応する第1活性化関数(tanh)に基づき、前記ターゲット単語ベクトルに対応する候補隠れ状態(h )を決定するステップであって、前記候補隠れ状態は、h =tanh(M )および
    Figure 0007299317000017
    を満たす、ステップと、
    前記第2集合単語ベクトル(M )及び対応する第2活性化関数(σ)に基づき、前記ターゲット単語ベクトルに対応するゲーティングパラメータ(g )を決定するステップであって、前記ゲーティングパラメータは、g =σ(M )および
    Figure 0007299317000018
    を満たす、ステップと、
    プリセット関数に基づき、前記候補隠れ状態、前記ゲーティングパラメータ、及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に従って、前記ターゲット単語ベクトルに対応するターゲット隠れ状態(h )を生成するステップであって、前記ターゲット隠れ状態は、
    Figure 0007299317000019
    を満たし、
    Figure 0007299317000020
    は、要素の積のオペレータであり、
    Figure 0007299317000021
    は、(1-g )及びh t-1 に対して要素の積を実行する演算を示し、
    Figure 0007299317000022
    は、g 及びh に対して要素の積を実行する演算を示す、ステップと、
    を含む、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法。
  2. 前記フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルを変換して、変換後の組み合わせ領域単語ベクトルを取得する前記ステップは、
    第4重み行列及び第1オフセットベクトルに従って、各前記組み合わせ領域単語ベクトルに対して最初の線形変換を実行して、各組み合わせ領域単語ベクトルに対応する一時的な単語ベクトルを取得するステップであって、前記第4重み行列は、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用される行列の形の重みパラメータであり、前記第1オフセットベクトルは、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用されるベクトルの形のオフセットパラメータである、ステップと、
    各前記一時的な単語ベクトルとベクトル閾値のうちの最大ベクトル値をそれぞれ選択するステップと、
    第5重み行列及び第2オフセットベクトルに従って、各前記最大ベクトル値に対してそれぞれ2番目の線形変換を実行して、前記変換後の組み合わせ領域単語ベクトルを取得するステップであって、前記第5重み行列は、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用される行列の形の重みパラメータであり、前記第2オフセットベクトルは、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用されるベクトルの形のオフセットパラメータである、ステップと、
    を含む、請求項に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法。
  3. 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置であって、
    最初の瞬間に入力されたターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成するように構成される領域単語ベクトル生成モジュールであって、
    前記領域単語ベクトルは、1つの次元の単語ベクトルに対応する各異なる次元の単語ベクトルを示
    少なくとも2つの第1重み行列を取得することであって、各前記第1重み行列は、対応する領域単語ベクトルを生成するために使用される、事前にトレーニングされた行列の形の重みパラメータであり、
    最初の瞬間に入力されたターゲット単語ベクトルを決定し、前の瞬間の履歴単語ベクトルに対応する履歴隠れ状態を取得することと、
    前記第1重み行列及び前記履歴隠れ状態に基づき、前記ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成することと、を行うように構成され、
    前記隠れ状態はベクトルで表現され、前記第1重み行列及び前記履歴隠れ状態に基づき、前記ターゲット単語ベクトルの少なくとも2つの次元の領域単語ベクトルを生成することは、
    前記ターゲット単語ベクトルと前記履歴隠れ状態を連結して、連結単語ベクトルを取得することと、
    前記連結単語ベクトルをそれぞれ、各前記第1重み行列と乗算して、領域単語ベクトル行列を取得することと、を含み、前記領域単語ベクトル行列は、前記少なくとも2つの次元の領域単語ベクトルを含む、領域単語ベクトル生成モジュールと、
    所定の領域ベクトル組み合わせ方式に従って、各前記領域単語ベクトルを組み合わせて、少なくとも2つの次元の組み合わせ領域単語ベクトルを取得するように構成される領域単語ベクトル組み合わせモジュールであって、
    前記組み合わせ領域単語ベクトルは、各前記領域単語ベクトルに対して組み合わせ計算を実行して取得した単語ベクトルを示
    各前記領域単語ベクトルをベクトルノードとし、各前記ベクトルノード間の類似度を、対応する各前記ベクトルノード間のエッジのエッジ重みとして決定し、
    決定された各前記エッジ重みを行列要素として、各前記領域単語ベクトルに共に対応する隣接行列を生成し、前記隣接行列は、ベクトルノード間の隣接関係を示すための行列であり、
    前記隣接行列の各次元の各前記エッジ重みをそれぞれ加算して、次数行列を取得し、前記次数行列は、前記隣接行列の各行または各列のベクトルノードの次数によって形成された行列を示し、前記隣接行列の各行または各列のベクトルノードの次数は、前記隣接行列内の各行または各列に含まれた行列要素の合計であり、
    前記隣接行列及び前記次数行列に基づき、前記少なくとも2つの次元の組み合わせ領域単語ベクトルを生成し、
    各前記領域単語ベクトルに含まれるベクトル要素を行列要素として、各前記領域単語ベクトルに共同に対応する領域単語ベクトル行列を生成し、
    第2重み行列を取得し、前記第2重み行列は、組み合わせ領域単語ベクトル行列を生成するために使用される、事前にトレーニングされた行列の形の重みパラメータであり、
    第3活性化関数に基づき、前記隣接行列、前記次数行列、前記領域単語ベクトル行列及び前記第2重み行列に従って、前記組み合わせ領域単語ベクトル行列を生成するように構成され、前記組み合わせ領域単語ベクトル行列には、前記少なくとも2つの次元の領域単語ベクトルが含まれる、ように構成される、領域単語ベクトル組み合わせモジュールと、
    フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルに対して集合変換処理を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するように構成される集合変換処理モジュールであって、
    フィードフォワードニューラルネットワークに基づき、各前記組み合わせ領域単語ベクトルを線形変換して、線形変換後の組み合わせ領域単語ベクトルを取得し、
    各変換後の組み合わせ領域単語ベクトルを連結して、連結された単語ベクトルを取得し、
    連結された単語ベクトルに対して線形変換を実行して、前記ターゲット単語ベクトルに対応する集合単語ベクトルを取得するように構成される、集合変換処理モジュールと、
    前記集合単語ベクトル及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に基づき、前記ターゲット単語ベクトルに対応するターゲット隠れ状態を生成するように構成されるターゲット隠れ状態生成モジュールであって、
    前記ターゲット隠れ状態は、前記最初の瞬間における前記リカレントニューラルネットワークのシステム状態を示し、前記履歴単語ベクトルは、前記最初の瞬間の前の瞬間に入力した単語ベクトルを示し、前記履歴隠れ状態は、前記最初の瞬間の前の瞬間における前記リカレントニューラルネットワークのシステム状態を示
    前記隠れ状態はベクトルで表現され、前記集合単語ベクトルは、第1集合単語ベクトルと第2集合単語ベクトルとを含み、前記第1集合単語ベクトルと前記第2集合単語ベクトルは異なり、
    前記第1集合単語ベクトル(M )及び対応する第1活性化関数(tanh)に基づき、前記ターゲット単語ベクトルに対応する候補隠れ状態(h )を決定することであって、前記候補隠れ状態は、h =tanh(M )および
    Figure 0007299317000023
    を満たす、ことと、
    前記第2集合単語ベクトル(M )及び対応する第2活性化関数(σ)に基づき、前記ターゲット単語ベクトルに対応するゲーティングパラメータ(g )を決定することであって、前記ゲーティングパラメータは、g =σ(M )および
    Figure 0007299317000024
    を満たす、ことと、
    プリセット関数に基づき、前記候補隠れ状態、前記ゲーティングパラメータ、及び前の瞬間の履歴単語ベクトルの履歴隠れ状態に従って、前記ターゲット単語ベクトルに対応するターゲット隠れ状態(h )を生成することであって、前記ターゲット隠れ状態は、
    Figure 0007299317000025
    を満たし、
    Figure 0007299317000026
    は、要素の積のオペレータであり、
    Figure 0007299317000027
    は、(1-g )及びh t-1 に対して要素の積を実行する演算を示し、
    Figure 0007299317000028
    は、g 及びh に対して要素の積を実行する演算を示す、こととを行うように構成される、ターゲット隠れ状態生成モジュールと、
    を備える、言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置。
  4. 前記集合変換処理モジュールは、さらに、
    第4重み行列及び第1オフセットベクトルに従って、各前記組み合わせ領域単語ベクトルに対して最初の線形変換を実行して、各組み合わせ領域単語ベクトルに対応する一時的な単語ベクトルを取得し、前記第4重み行列は、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用される行列の形の重みパラメータであり、前記第1オフセットベクトルは、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して最初の線形変換を実行するために使用されるベクトルの形のオフセットパラメータであり、
    各前記一時的な単語ベクトルとベクトル閾値のうちの最大ベクトル値をそれぞれ選択し、
    第5重み行列及び第2オフセットベクトルに従って、各前記最大ベクトル値に対してそれぞれ2番目の線形変換を実行して、前記変換後の組み合わせ領域単語ベクトルを取得するように構成され、前記第5重み行列は、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用される行列の形の重みパラメータであり、前記第2オフセットベクトルは、前記フィードフォワードニューラルネットワークで各組み合わせ領域ベクトルに対して2番目の線形変換を実行するために使用されるベクトルの形のオフセットパラメータである、
    請求項に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成装置。
  5. コンピュータプログラムであって、
    コンピュータに、請求項1または2に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法を実行させる、コンピュータプログラム。
  6. メモリとプロセッサとを備える、コンピュータ機器であって、
    前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムが前記プロセッサによって実行されるとき、前記プロセッサに請求項1または2に記載の言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法のステップを実行させる、コンピュータ機器。
JP2021525643A 2019-04-17 2020-03-25 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置 Active JP7299317B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910309929.5 2019-04-17
CN201910309929.5A CN110162783A (zh) 2019-04-17 2019-04-17 用于语言处理的循环神经网络中隐状态的生成方法和装置
PCT/CN2020/081177 WO2020211611A1 (zh) 2019-04-17 2020-03-25 用于语言处理的循环神经网络中隐状态的生成方法和装置

Publications (2)

Publication Number Publication Date
JP2022507189A JP2022507189A (ja) 2022-01-18
JP7299317B2 true JP7299317B2 (ja) 2023-06-27

Family

ID=67639625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021525643A Active JP7299317B2 (ja) 2019-04-17 2020-03-25 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置

Country Status (5)

Country Link
US (1) US20210286953A1 (ja)
EP (1) EP3958148A4 (ja)
JP (1) JP7299317B2 (ja)
CN (1) CN110162783A (ja)
WO (1) WO2020211611A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162783A (zh) * 2019-04-17 2019-08-23 腾讯科技(深圳)有限公司 用于语言处理的循环神经网络中隐状态的生成方法和装置
CN111274818B (zh) * 2020-01-17 2023-07-14 腾讯科技(深圳)有限公司 词向量的生成方法、装置
CN112036546B (zh) * 2020-08-24 2023-11-17 上海交通大学 序列处理方法及相关设备
CN116363712B (zh) * 2023-03-21 2023-10-31 中国矿业大学 一种基于模态信息度评估策略的掌纹掌静脉识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225553A1 (en) 2015-10-02 2018-08-09 Naver Corporation Method and system for automatically classifying data expressed by a plurality of factors with values of text word and symbol sequence by using deep learning
JP2019046188A (ja) 2017-09-01 2019-03-22 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152673B2 (en) * 2013-06-21 2018-12-11 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
US20180129742A1 (en) * 2016-11-10 2018-05-10 Qualcomm Incorporated Natural language object tracking
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
EP3385862A1 (en) * 2017-04-03 2018-10-10 Siemens Aktiengesellschaft A method and apparatus for performing hierarchical entity classification
US10515155B2 (en) * 2018-02-09 2019-12-24 Digital Genius Limited Conversational agent
US11170158B2 (en) * 2018-03-08 2021-11-09 Adobe Inc. Abstractive summarization of long documents using deep learning
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法
US11010559B2 (en) * 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
CN109492157B (zh) * 2018-10-24 2021-08-31 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109800294B (zh) * 2019-01-08 2020-10-13 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
US11880666B2 (en) * 2019-02-01 2024-01-23 Asapp, Inc. Generating conversation descriptions using neural networks
US11461638B2 (en) * 2019-03-07 2022-10-04 Adobe Inc. Figure captioning system and related methods
CN110162783A (zh) * 2019-04-17 2019-08-23 腾讯科技(深圳)有限公司 用于语言处理的循环神经网络中隐状态的生成方法和装置
EP3893163A1 (en) * 2020-04-09 2021-10-13 Naver Corporation End-to-end graph convolution network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225553A1 (en) 2015-10-02 2018-08-09 Naver Corporation Method and system for automatically classifying data expressed by a plurality of factors with values of text word and symbol sequence by using deep learning
JP2019046188A (ja) 2017-09-01 2019-03-22 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ashish Vaswani他7名,Attention Is All You Need[online],2017年12月06日,(検索日2022年06月27日),URL:https://arxiv.org/pdf/1706.03762v5.pdf

Also Published As

Publication number Publication date
CN110162783A (zh) 2019-08-23
JP2022507189A (ja) 2022-01-18
WO2020211611A1 (zh) 2020-10-22
EP3958148A4 (en) 2022-06-15
US20210286953A1 (en) 2021-09-16
EP3958148A1 (en) 2022-02-23

Similar Documents

Publication Publication Date Title
JP7299317B2 (ja) 言語処理のためのリカレントニューラルネットワークにおける隠れ状態の生成方法及び装置
Dai et al. Grow and prune compact, fast, and accurate LSTMs
CN109923559B (zh) 准循环神经网络
Chen et al. ReGAN: A pipelined ReRAM-based accelerator for generative adversarial networks
US9807473B2 (en) Jointly modeling embedding and translation to bridge video and language
Pakman et al. Exact hamiltonian monte carlo for truncated multivariate gaussians
Zheng Gradient descent algorithms for quantile regression with smooth approximation
Baek et al. Deep self-representative subspace clustering network
Shuang et al. A sentiment information collector–extractor architecture based neural network for sentiment analysis
Wang et al. TRC‐YOLO: A real‐time detection method for lightweight targets based on mobile devices
Zhang et al. A generalized language model in tensor space
CN111476138B (zh) 建筑图纸构件识别模型构建方法、识别方法及相关设备
CN110781686B (zh) 一种语句相似度计算方法、装置及计算机设备
US20230117973A1 (en) Data processing method and apparatus
EP4379603A1 (en) Model distillation method and related device
US20240152770A1 (en) Neural network search method and related device
WO2022097230A1 (ja) 予測方法、予測装置及びプログラム
US20240046067A1 (en) Data processing method and related device
Song et al. Efficient robust conditional random fields
Jin et al. Dual low-rank multimodal fusion
CN114547347A (zh) 基于卷积神经网络的时序知识图谱补全方法、装置及设备
Yuan et al. Deep learning from a statistical perspective
CN113343711A (zh) 工单生成方法、装置、设备及存储介质
CN109977194B (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
CN116401552A (zh) 一种分类模型的训练方法及相关装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210511

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221003

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230411

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230411

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230414

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230615

R150 Certificate of patent or registration of utility model

Ref document number: 7299317

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150