JP2021517316A - ニューラルネットワークのネットワーク表示生成方法及びその装置、コンピュータプログラム並びに機器 - Google Patents

ニューラルネットワークのネットワーク表示生成方法及びその装置、コンピュータプログラム並びに機器 Download PDF

Info

Publication number
JP2021517316A
JP2021517316A JP2020551812A JP2020551812A JP2021517316A JP 2021517316 A JP2021517316 A JP 2021517316A JP 2020551812 A JP2020551812 A JP 2020551812A JP 2020551812 A JP2020551812 A JP 2020551812A JP 2021517316 A JP2021517316 A JP 2021517316A
Authority
JP
Japan
Prior art keywords
sequence
vector
local
display
scalar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020551812A
Other languages
English (en)
Other versions
JP7098190B2 (ja
Inventor
兆▲鵬▼ ▲塗▼
兆▲鵬▼ ▲塗▼
宝嵩 ▲楊▼
宝嵩 ▲楊▼
潼 ▲張▼
潼 ▲張▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2021517316A publication Critical patent/JP2021517316A/ja
Application granted granted Critical
Publication of JP7098190B2 publication Critical patent/JP7098190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本出願は、ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器に関し、方法は、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出し、要求ベクトルシーケンスに基づいて、局所強化行列を構築し、ロジック類似度及び局所強化行列に基づいて、非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得し、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得することを含む。本出願で提供されるソリューションにより生成されるネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。

Description

本願は、2018年09月04日に中国専利局に提出した、出願番号が201811027795.Xであって、発明の名称が「ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器」である中国特許出願の優先権を主張し、本願で、その全ての内容を援用するものとする。
本出願は、コンピュータ技術の分野に関し、特に、ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器に関する。
アテンションメカニズム(Attention Mechanism)は、ニューラルネットワークにおけるエンコーダとデコーダの隠れ状態間の依存関係に対してモデルを確立する方法であり、アテンションメカニズムは、深層学習に基づく自然言語処理(NLP、Natural Language Processing)の各タスクに広く適用される。
SAN(Self-Attention Network、自己注意ネットワーク)は、自己注意メカニズムに基づくニューラルネットワークモデルであり、アテンションモデルの一種に属し、入力シーケンスにおける各要素ペアに対して1つのアテンション重みを算出することができ、長距離の依存関係をキャプチャでき、各要素に対応するネットワーク表示は各要素間の距離の影響を受けることはない。ただし、SANは、入力シーケンス内の各要素を完全に考慮するため、各要素と全ての要素の間のアテンション重みを算出する必要があり、これは、重みの分布をある程度分散させ、要素間の関連をさらに弱める。
これに鑑みて、従来の自己注意ニューラルネットワークが各要素と全ての要素との間のアテンション重みを考慮することによる要素間の関連を弱める技術的問題を解決するために、ニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器を提供する必要がある。
一局面によれば、コンピュータ機器に使用されるニューラルネットワークのネットワーク表示生成方法を提供し、前記方法は、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出し、
前記要求ベクトルシーケンスに基づいて局所強化行列を構築し、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得し、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得することを含む。
他の局面によれば、ニューラルネットワークのネットワーク表示生成装置を提供し、前記装置は、
入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するための取得モジュールと、
前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するための線形変換モジュールと、
前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するためのロジック類似度算出モジュールと、
前記要求ベクトルシーケンスに基づいて、局所強化行列を構築するための局所強化行列構築モジュールと、
前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得するためのアテンション重み分布決定モジュールと、
前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するための融合モジュールとを含む。
さらに他の局面によれば、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行される場合に、上記に記載のニューラルネットワークのネットワーク表示生成方法のステップを前記プロセッサに実行させる。
さらなる局面によれば、コンピュータ機器を提供し、メモリ及びプロセッサを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される場合に、上記に記載のニューラルネットワークのネットワーク表示生成方法のステップを前記プロセッサに実行させる。
上記のニューラルネットワークのネットワーク表示生成方法、装置、記憶媒体及び機器によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
一実施例におけるニューラルネットワークのネットワーク表示生成方法の適用環境図である。 一実施例におけるニューラルネットワークのネットワーク表示生成方法の流れ模式図である。 一実施例における入力シーケンスに対応するネットワーク表示シーケンスを算出するプロセス模式図である。 一実施例におけるガウス分布を使用してSANアテンション重み分布を修正するシステムアーキテクチャ図である。 一実施例における要求ベクトルシーケンスに基づいて局所強化行列を構築する流れ模式図である。 一実施例における要求ベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。 一実施例における要求ベクトルシーケンス、キーベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。 一実施例における多層スタックマルチヘッド自己注意ニューラルネットワークの構成概略図である。 一実施例におけるニューラルネットワークのネットワーク表示生成方法の流れ模式図である。 一実施例におけるニューラルネットワークのネットワーク表示生成装置の構成ブロック図である。 一実施例におけるコンピュータ機器の構成ブロック図である。
本願の目的、技術案及び利点をより明確にするために、以下に図面及び実施例に基づいて本願を更に詳しく説明する。ここで説明する具体的な実施例は本願を解釈するためのものであり、本願を制限するためのものではないと理解される。
図1は、一実施例におけるニューラルネットワークのネットワーク表示生成方法の適用環境図である。図1を参照して、当該ニューラルネットワークのネットワーク表示生成方法は、ニューラルネットワークのネットワーク表示生成システムに適用される。当該ニューラルネットワークのネットワーク表示生成システムは、端末110及びコンピュータ機器120を含む。端末110及びコンピュータ機器120は、ブルートゥース(登録商標)、ユニバーサルシリアルバス(USB)又はネットワークを介して接続される。端末110は、処理対象の入力シーケンスをコンピュータ装置120に送信することができ、リアルタイムで送信してもよいし、非リアルタイムで送信してもよく、コンピュータ機器120は、入力シーケンスを受信し、入力シーケンスを変換した後、対応するネットワーク表示シーケンスを出力する。端末110は、デスクトップ端末又はモバイル端末であってもよく、モバイル端末は、携帯電話、タブレット、ノートブックなどのうちの少なくとも1つであってもよい。コンピュータ機器120は、独立したサーバ又は端末であってもよく、又は複数のサーバからなるサーバクラスタであってもよく、又はクラウドサーバ、クラウドデータベース、クラウドストレージ、CDNなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
なお、上記の適用環境は単なる例であり、幾つかの実施例において、コンピュータ機器120は、端末110介さず入力シーケンスを直接取得することができる。例えば、コンピュータ機器が携帯電話である場合に、携帯電話は入力シーケンス(例えば、インスタントテキストメッセージにおける各ワードで形成されるシーケンス)を直接取得した後に、携帯電話に配置されたニューラルネットワークのネットワーク表示生成装置により、入力シーケンスを変換し、入力シーケンスに対応するネットワーク表示シーケンスを出力することができる。
図2に示すように、一実施例において、ニューラルネットワークのネットワーク表示生成方法を提供する。本実施例は、主に、この方法を上記の図1におけるコンピュータ機器120に適用することを例にとって説明する。図2を参照して、当該ニューラルネットワークのネットワーク表示生成方法は、以下のステップを含むことができる。
S202において、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。
なお、入力シーケンスは、変換して相応するネットワーク表示シーケンスを取得するためのシーケンスである。入力シーケンスには、1セットの順序付け要素を含み、I個の要素の入力シーケンスを含むことを例にとって、入力シーケンスは

Figure 2021517316
で示すことができ、入力シーケンスの長さはIであり、且つIは正の整数である。
入力シーケンスを翻訳する必要があるシナリオにおいて、入力シーケンスは翻訳対象テキストに対応するワードシーケンスであってもよく、入力シーケンスにおける各要素はワードシーケンスにおける各ワードである。翻訳対象テキストが中国語のテキストであると、ワードシーケンスは翻訳対象テキストに対してワード分割を行った後に、得られた各単語を語順に従って並べることで形成されたシーケンスであってもよく、翻訳対象テキストが英語テキストであると、ワードシーケンスは各ワードを語順に従って並べることで形成されたシーケンスであってもよい。例えば、翻訳対象テキストは「Bush held a talk with Sharon」であり、相応する入力シーケンスXは{Bush,held,a,talk,with,Sharon}となる。
ソース側のベクトル表示シーケンスは、入力シーケンスにおける各要素の相応するソース側のベクトル表示からなるシーケンスである。ソース側のベクトル表示シーケンスにおける各ベクトル表示は入力シーケンスにおける各要素と1対1で対応しており、ソース側のベクトル表示シーケンスは

Figure 2021517316
で示すことができる。z
なお、コンピュータ機器は、入力シーケンスにおける各要素を固定長のベクトル(即ち、Word Embedding、ワード埋め込み)に変換することができる。一実施例において、ニューラルネットワークのネットワーク表示生成方法は、ニューラルネットワークモデルに適用されると、コンピュータ機器は、ニューラルネットワークモデルの第1の層により入力シーケンスにおける各要素を相応するベクトルに変換でき、例えば、入力シーケンスにおけるi番目の要素xを、1つのd次元の列ベクトルであるzに変換し、次に、入力シーケンスにおける各要素に対応するベクトルを組み合わせることで、入力シーケンスに対応するソース側のベクトル表示シーケンス、即ち、I個のd次元の列ベクトルからなるベクトルシーケンスを取得し、dは正の整数である。もちろん、コンピュータ機器は、他の装置から送信された入力シーケンスに対応するソース側のベクトル表示シーケンスを受信することもできる。z及び以下で説明する列ベクトルはともに行ベクトルであってもよく、本明細書で算出プロセスを容易に説明するために、列ベクトルを使用して説明する。
S204において、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する。
なお、線形変換は1つのベクトル空間に属するベクトルを別のベクトル空間にマッピングしてもよく、ベクトル空間は同じ次元の複数のベクトルによって形成される集合である。一実施例において、コンピュータ機器は3つの異なる学習可能なパラメータ行列により、ソース側のベクトル表示シーケンスに対して線形変換を行うことにより、ソース側のベクトル表示シーケンスをそれぞれ3つの異なるベクトル空間にマッピングし、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得することができる。
一実施例において、ニューラルネットワークのネットワーク表示生成方法は、SAN(自己注意ニューラルネットワーク)に基づくモデルに適用されると、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスは、いずれもソース側の入力シーケンスに対応するソース側のベクトル表示シーケンスにより線形変換を行うことで得られる。他の実施例において、ニューラルネットワークのネットワーク表示生成方法はEncoder-Decoder(エンコーダ-デコーダ器)構造を含むニューラルネットワークモデルに適用されると、キーベクトルシーケンス及び値ベクトルシーケンスは、エンコーダが入力シーケンスに対応するソース側のベクトル表示シーケンスを符号化することで得られ、即ち、キーベクトルシーケンス及び値ベクトルシーケンスはエンコーダの出力であり、要求ベクトルシーケンスはデコーダの入力であり、例えば、ターゲット側のベクトル表示シーケンスであってもよく、ターゲット側のベクトル表示シーケンスはデコーダによって出力された出力シーケンスにおける各要素に対応するベクトル表示であってもよい。
一実施例において、コンピュータ機器は以下の式により、3つの異なる学習可能パラメータ行列W、W、及びWによりソース側のベクトル表示シーケンスZに対して線形変換を行って、要求ベクトルシーケンスQ、キーベクトルシーケンスK及び値ベクトルシーケンスVを取得する。

Figure 2021517316
その中、入力シーケンス

Figure 2021517316
はI個の要素を含み、ソース側のベクトル表示シーケンス

Figure 2021517316
における各要素はd次元の列ベクトルであり、即ち、ZはI個のd次元の列ベクトルからなるベクトルシーケンスであり、I×dの行列と記し、学習可能パラメータ行列W、W及びWはd×dの行列であり、要求ベクトルシーケンスQ、キーベクトルシーケンス及びK値ベクトルシーケンスVはI×dの行列である。
S206において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。
なお、ロジック類似度は、入力シーケンスにおける各要素と当該入力シーケンスにおける他の要素との間の類似性を測定するために用いられる。各要素に対応するネットワーク表示を生成する場合に、当該類似性に基づいて入力シーケンスにおける他の要素に対応する値ベクトルに、相応するアテンション重みを割り当てることにより、出力の各要素に対応するネットワーク表示が当該要素と他の要素との間の関連を考慮するようにし、生成のネットワーク表示が各要素の特徴をより正確に表現し、より豊富な情報を含むようにする。
一実施例において、ニューラルネットワークのネットワーク表示生成方法は、Encoder-Decoder(エンコーダ-デコーダ)構造を含むニューラルネットワークモデルに適用されると、要求ベクトルシーケンスはターゲット側のベクトル表示シーケンスであり、算出して得られたロジック類似度はターゲット側のベクトル表示シーケンスと入力シーケンスに対応するキーベクトルシーケンスとの類似性を示し、当該類似性に基づいて入力シーケンスに対応する値ベクトルシーケンスに、相応するアテンション重みを割り当てることにより、ソース側から出力される各要素のネットワーク表示が、ターゲット側が入力したターゲット側のベクトル表示シーケンスの影響を考慮できるようにする。
一実施例において、コンピュータ機器は、コサイン類似性式により要求ベクトルシーケンスQとキーベクトルシーケンスKとの間のロジック類似度行列Eを算出することができ、即ち、

Figure 2021517316
であり、
その中、KはキーベクトルシーケンスKの転置行列を示し、dは入力シーケンスにおける各要素xがソース側のベクトル表示zに変換される次元であり、dはxに対応するネットワーク表示の次元でもあり、ネットワーク隠れ状態ベクトルの次元でもあり、内積を減少し、算出速度を低減するために、上記の公式において

Figure 2021517316
を除算する。
以下、ロジック類似度行列Eの算出プロセスについて説明する。

Figure 2021517316
であり、q、kはd次元の列ベクトルであり、それぞれ、ソース側のベクトル表示zに対応する要求ベクトル及びキーベクトルであり、ロジック類似度行列

Figure 2021517316
において、eの各要素はソース側のベクトル表示zに対応する要求ベクトルqと、入力シーケンスにおける全ての要素に対応するキーベクトル

Figure 2021517316
との間のロジック類似度であり、eはEのi番目の列の要素であり、eはI次元の列ベクトルであり、算出公式は

Figure 2021517316
であり、eはi番目の要素xと入力シーケンスにおける全ての要素

Figure 2021517316
からなるIセットの要素ペアにおける2つの要素との間の関連を示唆する。ロジック類似度行列EはI×Iの行列であり、ロジック類似度行列Eは、

Figure 2021517316
である。
S208において、要求ベクトルシーケンスに基づいて、局所強化行列を構築する。
その中、局所強化行列における列ベクトルの各要素は、入力シーケンスにおける2つずつの要素間の強弱関連を代表する。入力シーケンスにおける各要素に対応するネットワーク表示を生成する場合に、局所強化行列により、入力シーケンスにおける他の要素のうち現在の要素との関連が強い要素の当該ネットワーク表示に対する影響を強化することにより、現在の要素との関連が弱い要素の当該ネットワーク表示に対する影響を相対的に弱めることができる。局所強化行列は、現在の要素のネットワーク表示に対する他の要素の影響を考慮する場合に、考慮の範囲は入力シーケンスにおける全ての要素ではなく、局所要素に制限されるようにし、このようにすれば、アテンション重みを割り当てる場合に、アテンション重みは局所要素に割り当てられる傾向があり、局所要素におけるある要素に対応する値ベクトルに割り当てられるアテンション重みの大きさは、当該要素と現在の要素との間の強弱関連に関し、つまり、現在の要素との関連が強い要素に対応する値ベクトルに、より大きいアテンション重みが割り当てられる。
入力シーケンスである「Bush held a talk with Sharon」を例にとって説明し、SANモデルにおいて、要素「Bush」に対応するネットワーク表示を出力する場合に、入力シーケンスにおける全ての要素「Bush」、「held」、「a」、「talk」、「with」及び「Sharon」のそれぞれに対応する値ベクトルを完全に考慮し、全ての要素のそれぞれに対応する値ベクトルに、相応するアテンション重みを割り当て、アテンション重みの分布がある程度分散され、「Bush」と隣接要素との間の関連をさらに弱める。
本実施例におけるニューラルネットワークのネットワーク表示生成方法によれば、「Bush」に対応するネットワーク表示を出力する場合に、局所強化範囲においてアテンション重み割り当てるようにすることができる。「Bush」に対応するネットワーク表示を出力する場合に、要素「Bush」と要素「held」との間の関連が強いと、「held」に対応する値ベクトルに、高いアテンション重みを割り当て、「held」と同様に、「Bush」に対応する局所強化範囲に属する局所要素における「a talk」も注意されるため、高いアテンション重みが割り当てられ、このように、短句である「held a talk」における各ワードに対応する情報(値ベクトル)はキャプチャされ、「Bush」に関連付けられ、出力の「Bush」のネットワーク表示は局所情報を表現できるだけでなく、距離が遠い要素との間の依存関係を保留することもできる。
よって、コンピュータ機器は各要素に対応するネットワーク表示を生成する場合に、現在の要素に対応する局所強化範囲を決定する必要があり、現在の要素に対応するアテンション重みの割り当ては当該局所強化範囲内に制限される。
一実施例において、局所強化範囲は、局所強化範囲の中心点及び局所強化範囲のウィンドウサイズとの2つの変数に基づいて決定でき、中心点とは現在の要素のネットワーク表示を生成する場合に最も高いアテンション重みが割り当てられる要素の、入力シーケンスにおける位置を指し、ウィンドウサイズとは、局所強化範囲の長さを指し、アテンション重みが幾つかの要素に割り当てられるかを決定し、中心点を中心とし、ウィンドウサイズをスパンとする要素は局所強化範囲である。各要素に対応する局所強化範囲は各要素自体に関連し、各要素に対応し、特定の範囲に固定されないため、生成される各要素のネットワーク表示は豊富なコンテキスト情報を柔軟にキャプチャできる。
一実施例において、コンピュータ機器は、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定することができ、当該ステップは、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定したガウス分布に基づいて局所強化範囲を決定し、コンピュータ機器は、決定された局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することを含むことができ、なお、2つずつの要素間の強弱関連は、以下の式により、算出して得られる。

Figure 2021517316
その中、Gijは入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Pの間の強弱関連を示し、Gijは局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Pはi番目の要素に対応する局所強化範囲の中心点を示し、Dはi番目の要素に対応する局所強化範囲のウィンドウサイズを示す。
式(2)から分かるように、局所強化行列GはI×Iの行列であり、I個の列ベクトルを含み、各列ベクトルの次元はIである。局所強化行列Gのi番目の列のベクトルにおける各要素の値は入力シーケンスにおけるi番目の要素に対応する局所強化範囲に基づいて決定され、公式(2)は中心点Pに対して対称な関数であり、分子は入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点P間の距離を代表し、距離が近いほど、Gijが大きくなり、j番目の要素とi番目の要素との関連が強いことを意味し、逆に、距離が遠いほど、Gijが小さくなり、j番目の要素とi番目の要素との関連が弱いことを意味する。つまり、i番目の要素に対応するネットワーク表示を生成する場合に、アテンション重みは中心点Pに近い要素間で集中的に割り当てられる。
なお、ガウス分布変形による式(2)を採用してGijを算出することは単なる例であり、幾つかの実施例において、局所強化範囲に対応する中心点及びウィンドウサイズを決定した後に、中心点を期待値とし、ウィンドウサイズを分散をとし、他の期待値及び分散を有する分布によりGijの値を算出することにより、局所強化行列G、例えば、ポアソン分布や二項分布などを取得することができる。
S210において、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。
ロジック類似度は、入力シーケンスにおける各要素ペアの2つの要素の類似性を表し、局所強化行列は、入力シーケンスにおける各要素ペアの2つの要素の強弱関連を表し、両方の組み合わせは、局所強化アテンション重み分布の算出に使用できる。
一実施例において、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得することは、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得することを含むことができる。
なお、コンピュータ機器は、入力シーケンスにおける各要素ペアの2つの要素のロジック類似度及び強弱関連を取得した後に、強弱関連によりロジック類似度を修正し、局所的に強化されたロジック類似度を取得することができる。一実施例において、全ての要素のそれぞれに対応するロジック類似度を含んだロジック類似度行列Eと、全ての要素ペアのそれぞれに対応する強弱関連を含んだ局所強化行列Gと加算して、ロジック類似度行列を修正し(オフセットとも呼ばれる)、修正後のロジック類似度行列におけるロジック類似度ベクトルに対して正規化処理を行うことにより、局所的に強化されたアテンション重み分布を取得する。
修正後のロジック類似度行列E′におけるロジック類似度ベクトルに対して正規化処理を行うことは、列ベクトルei’ごとに正規化処理を行うことであり、即ち、列ベクトルei’における各要素の値範囲はいずれも(0,1)の間にあり、且つ、全ての要素の和は1である。列ベクトルei’を正規化することにより、その中の最大の値が強調表示され、最大値よりもはるかに低い他のコンポーネントを抑制することができ、入力シーケンスにおけるi番目の要素に対応する局所的に強化されたアテンション重み分布を取得することができる。
一実施例において、局所的に強化されたアテンション重み分布Aは、以下の式により、算出することができる。

Figure 2021517316
その中、softmax関数は正規化処理関数であり、Aは入力シーケンスにおける各要素に対応するアテンション重み分布を含む行列であり、

Figure 2021517316
であり、AはI個のI次元の列ベクトルを含み、Aにおけるi番目の要素αは入力シーケンスにおけるi番目の要素xに対応するアテンション重み分布を代表する。
S212において、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。
なお、ネットワーク表示シーケンスは複数のネットワーク表示(ベクトル表示)からなるシーケンスである。本実施例において、入力シーケンスをニューラルネットワークモデルに入力し、ニューラルネットワークモデルの隠れ層におけるモデルパラメータの線形変換又は非線形変換により、当該入力シーケンスに対応するネットワーク表示シーケンスを出力する。
なお、現在の要素xに対応するネットワーク表示を出力する場合に、コンピュータ機器は局所的に強化されたアテンション重み分布行列から当該要素に対応するアテンション重み分布αを取得し、当該要素に対応するアテンション重み分布αにおける各要素を重み係り数とし、値ベクトルシーケンスにおける値ベクトルを重み付けて和を求めることで、現在の要素xに対応するネットワーク表示Oを取得し、入力シーケンスに対応するネットワーク表示シーケンスOは複数のネットワーク表示からなり、例えば、

Figure 2021517316
である。
入力シーケンスに対応するネットワーク表示シーケンスOにおけるi番目の要素Oは、以下の式により、算出することができる。

Figure 2021517316
αijは定数であり、vはd次元の列ベクトルであり、Oもd次元の列ベクトルであるので、即ち、
入力シーケンスにおけるi番目の要素xに対応するアテンション重み分布が

Figure 2021517316
である場合に、入力シーケンスに対応するK値ベクトルシーケンスは

Figure 2021517316
となり、xに対応するネットワーク表示Oは、以下の式により、算出することができる。

Figure 2021517316
現在の要素に対応するアテンション重み分布は、元のロジック類似度に基づいて修正された局所的に強化されたアテンション重み分布であるので、重み付けて和を求める場合に入力シーケンスにおける全ての要素に対応する値ベクトルを完全に考慮せず、局所強化範囲に属する要素に対応する値ベクトルを主に考慮し、このように、出力される現在の要素のネットワーク表示は現在の要素に関連する局所情報を含む。
なお、本出願で使用される「要素」という用語は、本明細書でベクトル(列ベクトル又は行列ベクトルを含む)の基本的な構成単位を説明し、例えば、「入力シーケンスにおける要素」とは入力シーケンスにおける各入力を指し、「行列における要素」とは、行列を構成する各列ベクトルを指し、「列ベクトルにおける要素」とは列ベクトルにおける各数値を指し、即ち、「要素」とは、シーケンス、ベクトル又は行列を構成する基本的な構成単位を指す。
図3は、一実施例における入力シーケンスに対応するネットワーク表示シーケンスを算出するプロセス模式図である。図3を参照して、入力シーケンスXに対応するベクトル化表示Zを取得した後に、Zは3つの異なる学習可能なパラメータ行列により要求ベクトルシーケンスQ、キーベクトルシーケンスK及び値ベクトルシーケンスVに線形変換され、次に、ドット積演算により各キー値ペアの間のロジック類似度を算出して、ロジック類似度行列Eを取得し、Q又はKに基づいて局所強化行列Gを構築し、GによりEを修正して局所的に強化されたロジック類似度行列E’を取得し、次に、softmax関数によりE’に対して正規化処理を行って、局所的に強化されたアテンション重み分布行列Aを取得し、最後に、Aと値ベクトルシーケンスVとに対してドット積演算を行って、ネットワーク表示シーケンスOを出力する。
図4は、一実施例におけるガウス分布を使用してSANアテンション重み分布を修正するシステムアーキテクチャ図である。入力シーケンスが「Bush held a talk with Sharon」、且つ現在の要素が「Bush」である例をとって説明し、図4の左側において、元のSANを利用して基本的なモデルを構築し、各要素ペア(入力シーケンスにおける2つずつの要素からなる)の間のロジック類似度を取得し、当該ロジック類似度に基づいて算出した「Bush」に対応するアテンション重み分布は全ての単語を考慮し、「held」に割り当てられたアテンション重みは最も高く(バーの高さはアテンション重みの大きさを代表する)、残りの単語に割り当てられたアテンション重みは低い。図4の中央を参照し、ガウス分布を利用して算出した現在の要素「Bush」に対応する局所強化範囲の中心点の位置はほぼ4に等しく、入力シーケンスにおけるワード「talk」に対応し、局所強化範囲のウィンドウサイズはほぼ3に等しく、つまり、現在の要素「Bush」に対応する局所強化範囲はワード「talk」を中心とする3つのワードに対応する位置であり、決定された局所強化範囲に基づいて局所強化行列を算出し、局所強化行列により図4の左側で得られたロジック類似度を修正し、修正後のアテンション重みの割り当ては、この3つのワードに集中し、「talk」に割り当てられたアテンション重みは最も高い。図4の左側及び図4の中央を組み合わせて、図4の右側で修正された現在の要素「Bush」に対応するアテンション重み分布を取得し、即ち、連語「held a talk」に大部分のアテンション重みが割り当てられ、「Bush」に対応するネットワーク表示を算出する場合に、「held a talk」の3つのワードのそれぞれに対応する値ベクトルを主に考慮し、このようにすれば、「held a talk」の情報はキャプチャされ、「Bush」に関連付けられる。
上記のニューラルネットワークのネットワーク表示生成方法によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、さらに局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、局所情報が強化されたネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
図5に示すように、一実施例において、要求ベクトルシーケンスに基づいて局所強化行列を構築することは、以下のステップを含むことができる。
S502において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定する。
なお、入力シーケンスにおける各要素に対応する局所強化範囲は、各要素に対応する中心点及びウィンドウサイズによって決定され、各要素に対応する中心点は各要素に対応する要求ベクトルに依存するので、要求ベクトルに基づいて各要素に対応する局所強化範囲の中心点を決定することができる。
一実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定することは、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、当該要素に対応する第1のスカラーを取得し、非線形変換関数により、当該第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、第2のスカラーを、当該要素に対応する局所強化範囲の中心点とすることを含むことができる。
なお、コンピュータ機器は、ステップS204にて取得された要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定することができる。入力シーケンスにおけるi番目の要素xを例にとって、それに対応する局所強化範囲の中心点は以下ステップにより得ることができる。
1)コンピュータ機器は、第1のフィードフォワードニューラルネットワークにより、i番目の要素に対応する要求ベクトルqを1つの隠れ状態にマッピングし、

Figure 2021517316
によりそれに対して線形変換を行って、入力シーケンスにおけるi番目の要素に対応する第1のスカラーpを取得し、第1のスカラーpは実数空間に属する1つの数値であり、且つpの算出式は、

Figure 2021517316
である。
その中、

Figure 2021517316
は第1のフィードフォワードニューラルネットワークにおける一部であり、tanhは活性化関数であり、qは入力シーケンスにおけるi番目の要素に対応する要求ベクトルであり、

Figure 2021517316
とWとはトレーニング可能な線形変換行列であり、

Figure 2021517316
はUの転置行列であり、Uは1つのd次元の列ベクトルであり、

Figure 2021517316
は1つのd次元の行ベクトルであり、このように、フィードフォワードニューラルネットワークから出力される高次元のベクトルマッピングを1つのスカラーとすることができる。本出願で使用されるフィードフォワードニューラルネットワークはベクトルを隠れ状態にマッピングし、当該フィードフォワードニューラルネットワークによるベクトルのマッピング方法を制限せず、当該フィードフォワードニューラルネットワークは、他のニューラルネットワークモデル、例えば、長期短期記憶(Long Short-Term Memory、LSTM)モデル及びそのバリエーション、ゲーテッドユニット(Gated Unit) 及びそのバリエーション、又は単純な線形変換などに置き換えることができる。
2)コンピュータ機器は、非線形変換関数により、第1のスカラーpを1つのレンジが(0,1)であるスカラーに変換し、次に、入力シーケンスの長さIを乗算して、1つのレンジが(0,I)である中心点位置Pを取得して、Pはi番目の要素に対応する局所強化範囲の中心点であり、Pは入力シーケンスの長さIに比例し、以下の式により、P算出して得ることができる。

Figure 2021517316
その中、sigmoidは非線形変換関数であり、pを1つのレンジが(0,1)であるスカラーに変換でき、ここ及び以下でsigmoidを利用してスカラーを変化する方式は、他の任意の実数を(0,1)の間にマッピングする方法に置き換えてもよく、本出願では、それを制限しない。
コンピュータ機器は、算出したPを、入力シーケンスにおけるi番目の要素xに対応する局所強化範囲の中心点とし、例えば、入力シーケンスの長さIが10であり、算出したPは5に等しく、xに対応する局所強化範囲の中心点は入力シーケンスにおける5番目の要素であり、xに対応するネットワーク表示を生成する場合に、入力シーケンスにおける5番目の要素の値ベクトルに割り当てられるアテンション重みが最も高い。
コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて各要素に対応する局所強化範囲の中心点を取得するまで、上記のステップを繰り返すことができる。
S504において、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定する。
ウィンドウサイズを柔軟に予測するために、要素ごとに、相応するウィンドウサイズを予測することができる。このようにして、コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定することができ、即ち、各要求ベクトルは1つのウィンドウサイズに対応する。
一実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定することは、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、当該要素に対応する第3のスカラーを取得し、非線形変換関数により、当該第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、第4のスカラーを当該要素に対応する局所強化範囲のウィンドウサイズとすることを含むことができる。
なお、コンピュータ機器は、ステップS204にて取得された要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定することができる。入力シーケンスにおけるi番目の要素xを例にとって、それに対応する局所強化範囲のウィンドウサイズは、以下のステップにより得られる。
1)コンピュータ機器は、第2のフィードフォワードニューラルネットワークにより、i番目の要素に対応する要求ベクトルqを1つの隠れ状態にマッピングし、

Figure 2021517316
によりそれに対して線形変換を行って、入力シーケンスにおけるi番目の要素に対応する第3のスカラーzを取得し、第3のスカラーzは実数空間に属する1つの数値であり、且つzの算出式は、

Figure 2021517316
である。
その中、

Figure 2021517316
は第2のフィードフォワードニューラルネットワークの一部であり、tanhは活性化関数であり、qは入力シーケンスにおけるi番目の要素に対応する要求ベクトルであり、Wは、以上の中心点隠れ状態を算出するために使用されるものと同じパラメータ行列であり、

Figure 2021517316
はトレーニング可能な線形変換行列であり、

Figure 2021517316
はUDの転置行列であり、UDは1つのd次元の列ベクトルであり、

Figure 2021517316
は1つのd次元の行ベクトルであり、このようにして、フィードフォワードニューラルネットワークから出力される高次元のベクトルを1つのスカラーにマッピングすることができる。
2)コンピュータ機器は、非線形変換関数により、第3のスカラーzを、1つのレンジが(0,1)であるスカラーに変換し、次に、入力シーケンスの長さIを乗算して、1つのレンジが(0,I)であるウィンドウサイズDを取得し、Dはi番目の要素に対応する局所強化範囲のウィンドウサイズであり、Dは入力シーケンスの長さIに比例し、以下の式により、Dを算出できる。

Figure 2021517316
その中、sigmoidは非線形変換関数であり、zを、1つのレンジが(0,1)であるスカラーに変換する。
コンピュータ機器は、算出したZを、入力シーケンスにおけるi番目の要素xに対応する局所強化範囲のウィンドウサイズとし、例えば、入力シーケンスの長さIは10であり、算出したZは7に等しく、xに対応する局所強化範囲のウィンドウサイズは、中心点を中心とする7つの要素であり、xに対応するネットワーク表示を生成する場合に、アテンション重みはこの7つの要素において集中して割り当てられる。
コンピュータ機器は、要求ベクトルシーケンスにおける各要求ベクトルに基づいて各要素に対応する局所強化範囲のウィンドウサイズを取得するまで、前述のステップを繰り返すことができる。
S506において、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する。
ステップS502及びステップS504から分かるように、入力シーケンスにおける各要素に対応する要求ベクトルが異なるため、各要素に対応する中心点、ウィンドウサイズも異なり、各要素に対応する局所強化範囲も異なり、各要素自体の特性に従って局所強化範囲を選択し、より柔軟である。
S508において、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する。
なお、コンピュータ機器は、決定された局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得することができ、その中、2つずつの要素間の強弱関連は、以下の式により、算出することができる。

Figure 2021517316
ijは局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値である。
図6は、一実施例における要求ベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。図6を参照して、まず、フィードフォワードニューラルネットワークにより要求ベクトルシーケンスを隠れ状態にマッピングし、次に、線形変換により隠れ状態を1つの実数空間のスカラーにマッピングし、次に、非線形変換関数sigmoidにより、当該スカラーを、1つのレンジが(0,1)であるスカラーに変換し、入力シーケンスの長さIを乗算して、中心点及びウィンドウサイズを取得することにより、局所強化範囲を決定し、局所強化範囲に基づいて局所強化行列を算出する。
上記の実施形態では、入力シーケンスにおける各要素に対応する要求ベクトルを変換することにより、各要素に対して、相応する局所強化範囲を柔軟に決定し、入力シーケンスに対して1つの局所強化範囲を固定することなく、入力シーケンスにおける長距離要素の間の依存関係を効果的に改善できる。
一実施例において、要求ベクトルシーケンスに基づいて局所強化行列を構築することは、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することを含むことができる。
本実施例において、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲を決定する方式は以上と同じであり、ここで再度説明しない。ウィンドウサイズについて、グローバルコンテキスト情報を考慮して、入力シーケンスにおける全ての要素に対応する局所強化範囲のウィンドウサイズは、1つの統一されたウィンドウサイズによって決定され、ウィンドウサイズを決定する場合に、入力シーケンスにおける全ての要素の情報を融合する必要がある。
一実施例において、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定することは、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとすることを含むことができる。
なお、コンピュータ機器は、ステップS204にて得られたキーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定することができ、つまり、各要素に対応する局所強化範囲のウィンドウサイズは同じであり、当該統一されたウィンドウサイズは以下のステップにより得られる。
1)コンピュータ機器は、入力シーケンスに対応するキーベクトルシーケンスKを取得し、キーベクトルシーケンスKにおける全てのキーベクトルの平均値

Figure 2021517316
を算出する。

Figure 2021517316
2)コンピュータ機器は、得られた平均値

Figure 2021517316
に対して線形変換を行って、1つの実数空間の第5のスカラーzを生成する。

Figure 2021517316
その中、

Figure 2021517316
は以上のウィンドウサイズ隠れ状態を算出するために使用されるものと同じパラメータであり、Wはトレーニング可能な線形変換行列である。
3)コンピュータ機器は、非線形変換関数により、第5のスカラーzを、1つのレンジが(0,1)であるスカラーに変換し、次に、入力シーケンスの長さIを乗算して、1つのレンジが(0,I)であるウィンドウサイズDを取得し、Dは、統一された局所強化範囲のウィンドウサイズであり、且つDは入力シーケンスの長さIに比例し、以下の式により、Dを算出することができる。

Figure 2021517316
その中、sigmoidは非線形変換関数であり、zを、1つのレンジが(0,1)であるスカラーに変換する。
各要素に対応する局所強化範囲のウィンドウサイズは同じであるが、各要素に対応する中心点が、相応する要求ベクトルに従って算出されるため、各要素に対応する局所強化範囲は異なる。コンピュータ機器は、決定された局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することができ、なお、2つずつの要素間の強弱関連は、以下の式により、算出することができる。

Figure 2021517316
ijは、局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値である。
図7は、一実施例における要求ベクトルシーケンス及びキーベクトルシーケンスに基づいて局所強化範囲を決定する流れ模式図である。図7を参照して、それぞれ、フィードフォワードニューラルネットワークにより、要求ベクトルシーケンスを隠れ状態にマッピングし、平均プーリングによりキーベクトルシーケンスに対して平均値を求め、それぞれ線形変換により、隠れ状態を、1つの実数空間のスカラーにマッピングし、平均値を1つの実数空間のスカラーにマッピングし、次に、非線形変換関数sigmoidにより、取得されたスカラーを、それぞれ、1つのレンジが(0,1)であるスカラーに変換し、当該スカラーと入力シーケンスの長さIとを乗算して、中心点及びウィンドウサイズを取得することにより、局所強化範囲を決定する。
上記の実施例において、入力シーケンスに対応するキーベクトルシーケンスを変換することにより、当該キーベクトルシーケンスは入力シーケンスにおける全ての要素に対応する特徴ベクトル(キーベクトル)を含むので、決定される統一されたウィンドウサイズは全てのコンテキスト情報を考慮しており、当該統一されたウィンドウサイズに基づいて決定された各要素に対応する局所強化範囲は、豊富なコンテキスト情報をキャプチャすることができる。
一実施例において、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得することは、ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得することを含むことができ、当該方法は、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得することを含む。
なお、スタックマルチヘッド(Stacked Multi-Head)ニューラルネットワークを採用して、入力シーケンスに対応するソース側のベクトル表示シーケンスを処理することができ、ソース側のベクトル表示シーケンスに対して分割処理を行って、複数セットの(マルチヘッドとも呼ばれる)低次元のソース側のベクトル表示サブシーケンス取得することができる。例えば、ソース側のベクトル表示シーケンスは5つの要素を含み、各要素は512次元の列ベクトルであり、それを8つの部分に分割し、つまり、8つの5×64のソース側のベクトル表示サブシーケンスを取得する。それぞれ、この8つのソース側のベクトル表示サブシーケンスを入力ベクトルとして、異なるサブ空間を介して変換し、8つの5×64のネットワーク表示サブシーケンスを出力し、この8つのネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、1つの5×512次元のネットワーク表示シーケンスを出力する。
例を挙げて説明し、スタックマルチヘッドニューラルネットワークはHセットのサブ空間を含み、まず、入力シーケンス

Figure 2021517316
がソース側のベクトル表示シーケンス

Figure 2021517316
に変換される。

Figure 2021517316
が分割された後に、H個のソース側のベクトル表示サブシーケンスを取得する。次に、それぞれ、各サブ空間において、ソース側のベクトル表示サブシーケンスを変換し、第h(h=1、2、…、H)のサブ空間において変換することを例にとって説明し、第hのサブ空間において、相応する学習可能なパラメータ行列

Figure 2021517316
により

Figure 2021517316
に対して線形変換を行って、相応する要求ベクトルシーケンスQ、キーベクトルシーケンスK及び値ベクトルシーケンスVを取得し、この第Hのサブ空間において、各サブ空間で使用されるこれらの学習可能なパラメータ行列は異なり、各サブ空間において異なる特徴ベクトルを取得するようにし、さらに、異なるサブ空間は異なる局所情報に注目できる。
次に、第hのサブ空間において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度

Figure 2021517316
を算出する。次に、要求ベクトルシーケンスQ又はキーベクトルシーケンスKに基づいて第hのサブ空間に対応する局所強化行列Gを構築し、局所強化行列Gにおいて、各要素Ghi,hjの算出式は

Figure 2021517316
であり、当該算出式は、Qに基づいてi番目の要素に対応する局所強化範囲の中心点Phiを決定し、Q又はKに基づいて、i番目の要素に対応する局所強化範囲のウィンドウサイズDhiを決定し、Ghi,hjは局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Ghi,hjは第hのサブ空間で表現される入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Phiの間の強弱関連を示す。
次に、第hのサブ空間において、softmax非線形変換を適用して、ロジック類似度をアテンション重み分布に変換し、局所強化行列Gによりロジック類似度を修正して、アテンション重み分布

Figure 2021517316
を取得し、続いて、第hのサブ空間において、

Figure 2021517316
により入力シーケンスに対応する出力表示シーケンスOを算出して得る。最後に、各サブ空間の出力表示シーケンスOをスプライシングして、また1回の線形変換を行って最終的な出力ベクトル

Figure 2021517316
を取得する。
一実施例において、当該方法は、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力する。
なお、ニューラルネットワークは複数の層計算を積み重ねることができ、1層のニューラルネットワークでもスタックマルチヘッドのニューラルネットワークでも、複数の層を繰り返して計算することができる。各層の計算で、前の層の出力を次の層の入力として、現在の層の出力即ち現在の層のネットワーク表示シーケンスを取得するまで、線形変換を行って、対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップを繰り返して実行する。効率及び性能を考慮して、繰り返しの回数は6回であってもよく、各層のニューラルネットワークのネットワークパラメータは異なり、6回繰り返するプロセスは、実際に、各層のネットワークパラメータにより、元の入力シーケンスのソース側のベクトル表示シーケンスを6回更新するプロセスである。
例えば、スタックマルチヘッドニューラルネットワークにおいて、第1の層の出力はOL1であり、第2の層の計算で、OL1を入力として、第2の層のネットワークパラメータによりOL1を変換し、第2の層の出力OL2…を出力し、繰り返し回数に達するまで繰り返し、6回繰り返した出力を最終的な出力とし、即ち、OL6を入力シーケンスに対応するネットワーク表示シーケンスとする。
図8は、一実施例における多層スタックマルチヘッド自己注意ニューラルネットワークの構成概略図である。図8を参照して、層ごとに、入力は同じであり、いずれも前の層の出力であり、次に、入力を複数のサブ入力に分割し、複数のサブ空間(複数のヘッドとも呼ばれる)のそれぞれのネットワークパラメータによりサブ入力に対して同じ変換を行って、各サブ空間の出力を取得し、最後に、この複数の出力をスプライシングした後に、現在の層の出力を取得し、現在の層の出力は次の層の入力であり、複数回繰り返すことにより、最後の層の出力を最終的な出力とする。
一実施例において、入力シーケンスは翻訳対象となるテキストシーケンスであり、出力されるネットワーク表示シーケンスは翻訳後のテキストにおける各ワードに対応する特徴ベクトルであり得るため、出力されたネットワーク表示シーケンスに基づいて翻訳後のセンテンスを決定することができる。本出願の各実施例は、長い短句及び長いセンテンスの翻訳で、翻訳品質が大幅に改善される。
図9に示すように、一実施例におけるニューラルネットワークのネットワーク表示方法の流れ模式図であり、以下のステップを含む。
S902において、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。
S904において、ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割する。
S906において、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得する。
S908において、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。
S910において、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、当該要素に対応する第1のスカラーを取得する。
S912において、非線形変換関数により、当該第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得する。
S914において、第2のスカラーを当該要素に対応する局所強化範囲の中心点とする。
S9162において、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、当該要素に対応する第3のスカラーを取得する。
S9164において、非線形変換関数により、当該第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得する。
S9166において、第4のスカラーを、当該要素に対応する局所強化範囲のウィンドウサイズとする。
S9161において、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出する。
S9163において、平均値に対して線形変換を行って、第5のスカラーを取得する。
S9165において、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得する。
S9167において、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとする。
S918において、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する。
S920において、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する。
S922において、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得する。
S924において、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。
S926において、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。
S928において、ソース側のベクトル表示サブシーケンスに対応する複数セットのネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得する。
S930において、出力のネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ステップS904に戻り、最終的なネットワーク表示シーケンスを取得するまで繰り返す。
上記のニューラルネットワークのネットワーク表示生成方法によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
図9のフローチャートにおける各ステップは、矢印で示したように順に実行されるが、これらのステップは、必ずしも矢印で示した順序に基づいて順に実行されるわけではない。本明細書で明確に説明しない限り、これらのステップの実行順序が制限されず、これらのステップが他の順序で実行されてもよい。そして、図9における少なくとも一部のステップは、複数のサブステップ又は複数のフェーズを含んでもよく、これらのサブステップ又はフェーズが必ずしも同じ時刻に実行されるわけではなく、異なる時刻に実行されてもよく、これらのサブステップ又はステップの実行順序が必ずしも順に行われるわけではなく、他のステップ又は他のステップのサブステップ又はステップの少なくとも一部と順番又は交互に実行されてもよい。
一実施例において、図10に示すように、ニューラルネットワークのネットワーク表示生成装置1000を提供し、当該装置は取得モジュール1002、線形変換モジュール1004、ロジック類似度算出モジュール1006、局所強化行列構築モジュール1008、アテンション重み分布決定モジュール1010及び融合モジュール1012を含む。
取得モジュール1002は、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得する。
線形変換モジュール1004は、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する。
ロジック類似度算出モジュール1006は、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出する。
局所強化行列構築モジュール1008は、要求ベクトルシーケンスに基づいて局所強化行列を構築する。
アテンション重み分布決定モジュール1010は、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。
融合モジュール1012は、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得する。
一実施例において、局所強化行列構築モジュール1008は、さらに、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する。
一実施例において、局所強化行列構築モジュール1008は、さらに、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する。
一実施例において、局所強化行列構築モジュール1008は、さらに、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける要素に対応する要求ベクトルを変換し、要素に対応する第1のスカラーを取得し、非線形変換関数により、第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、第2のスカラーを、要素に対応する局所強化範囲の中心点とする。
一実施例において、局所強化行列構築モジュール1008は、さらに、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける要素に対応する要求ベクトルに対して線形変換を行って、要素に対応する第3のスカラーを取得し、非線形変換関数により、第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、第4のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとする。
一実施例において、局所強化行列構築モジュール1008は、さらに、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとする。
一実施例において、局所強化行列構築モジュール1008は、さらに、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定し、入力シーケンスにおける各要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得し、2つずつの要素間の強弱関連は以下の式により算出し、

Figure 2021517316
ijが入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Pの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Pがi番目の要素に対応する局所強化範囲の中心点を示し、Dがi番目の要素に対応する局所強化範囲のウィンドウサイズを示す。
一実施例において、アテンション重み分布決定モジュール1010は、さらに、局所強化行列に基づいて、ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得する。
一実施例において、線形変換モジュール1004は、さらに、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得し、当該装置は、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するためのスプライシングモジュールをさらに含む。
一実施例において、当該装置1000は、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力するためのループモジュールをさらに含む。
上記のニューラルネットワークのネットワーク表示生成装置1000によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、局所情報が強化されたネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
図11は、一実施例におけるコンピュータ機器120の内部構成図を示す。図11に示すように、当該コンピュータ機器はシステムバスにより接続されるプロセッサ、メモリ、ネットワークインターフェースを含む。なお、メモリは不揮発性記憶媒体及び内部メモリを含む。当該コンピュータ機器の非揮発性記憶媒体にオペレーティングシステムが記憶され、コンピュータプログラムがさらに記憶されてもよく、当該コンピュータプログラムがプロセッサによって実行される場合に、ニューラルネットワークのネットワーク表示生成方法をプロセッサに実現させることができる。当該内部メモリにコンピュータプログラムが記憶されてもよく、当該コンピュータプログラムがプロセッサによって実行される場合に、ニューラルネットワークのネットワーク表示生成方法をプロセッサに実行させることができる。
当業者であれば、図11に示す構造は本願に関連する構造の一部のブロック図であって、本願が用いられるコンピュータ機器を制限するためのものではなく、具体的なコンピュータ機器は図より多い又は少ない部材を含むか、又はいくつかの部材を組み合わせ、又は異なる部材配置を有してもよいと理解される。
一実施例において、本出願で提供されるニューラルネットワークのネットワーク表示生成装置1000は、コンピュータプログラムの形式として実現でき、コンピュータプログラムは、図11に示すコンピュータ機器で実行される。コンピュータ機器のメモリには、当該ニューラルネットワークのネットワーク表示生成装置1000を構成する各プログラムモジュール、例えば、図10に示す取得モジュール1002、線形変換モジュール1004、ロジック類似度算出モジュール1006、局所強化行列構築モジュール1008、アテンション重み分布決定モジュール1010及び融合モジュール1012を記憶することができる。各プログラムモジュールからなるコンピュータプログラムは、本明細書で説明された本出願の各実施例のニューラルネットワークのネットワーク表示生成方法におけるステップをプロセッサに実行させる。
例えば、図11に示すコンピュータ機器は、図10に示すニューラルネットワークのネットワーク表示生成装置における取得モジュール1002によりステップS202を実行することができる。コンピュータ機器は線形変換モジュール1004によりステップS204を実行することができる。コンピュータ機器はロジック類似度算出モジュール1006によりステップS206を実行することができる。コンピュータ機器は局所強化行列構築モジュール1008によりステップS208を実行することができる。コンピュータ機器はアテンション重み分布決定モジュール1010によりステップS210を実行することができる。コンピュータ機器は融合モジュール1012によりステップS212を実行することができる。
一実施例において、コンピュータ機器を提供し、メモリ及びプロセッサを含み、メモリにコンピュータプログラムが記憶されており、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出し、要求ベクトルシーケンスに基づいて局所強化行列を構築し、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得し、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合して、入力シーケンスに対応するネットワーク表示シーケンスを取得するステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて2つごとの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定するステップが実行される場合に、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、要素に対応する第1のスカラーを取得し、非線形変換関数により、第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、第2のスカラーを、要素に対応する局所強化範囲の中心点とするステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、要素に対応する第3のスカラーを取得し、非線形変換関数により、第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、第4のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによってキーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップが実行される場合に、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップが実行される場合に、入力シーケンスにおける各要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップをプロセッサに実行させ、なお、2つずつの要素間の強弱関連は、以下の式により、算出する。

Figure 2021517316
ijが入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Pの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Pがi番目の要素に対応する局所強化範囲の中心点を示し、Dがi番目の要素に対応する局所強化範囲のウィンドウサイズを示す。
一実施例において、コンピュータプログラムがプロセッサによってロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップが実行される場合に、局所強化行列に基づいて、ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによってソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップが実行される場合に、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって実行される場合に、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップをプロセッサにさらに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り実行を続けて、ループ停止条件に達する場合最終的なネットワーク表示シーケンスを出力するステップをプロセッサにさらに実行させる。
上記のコンピュータ機器によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
一実施例において、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムを記憶しており、コンピュータプログラムがプロセッサによって実行される場合に、入力シーケンスに対応するソース側のベクトル表示シーケンスを取得し、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得し、要求ベクトルシーケンスとキーベクトルシーケンスとの間のロジック類似度を算出し、要求ベクトルシーケンスに基づいて局所強化行列を構築し、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得し、アテンション重み分布に従って、値ベクトルシーケンスにおける値ベクトルを融合することで、入力シーケンスに対応するネットワーク表示シーケンスを取得するステップを、プロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定し、要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて局所強化行列を構築するステップが実行される場合に、要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、中心点、ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲の中心点を決定するステップが実行される場合に、入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルを変換して、要素に対応する第1のスカラーを取得し、非線形変換関数により、第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、第2のスカラーを、要素に対応する局所強化範囲の中心点とするステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって要求ベクトルシーケンスに基づいて各要素に対応する局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、要求ベクトルシーケンスにおける当該要素に対応する要求ベクトルに対して線形変換を行って、各要素に対応する第3のスカラーを取得し、非線形変換関数により、第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、第4のスカラーを、要素に対応する局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによってキーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定するステップが実行される場合に、キーベクトルシーケンスにおける各キーベクトルを取得し、各キーベクトルの平均値を算出し、平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、第6のスカラーを、統一された局所強化範囲のウィンドウサイズとするステップをプロセッサに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって、中心点、ウィンドウサイズに従って各要素に対応する局所強化範囲を決定するステップが実行される場合に、中心点をガウス分布の期待値として、ウィンドウサイズをガウス分布の分散とし、平均値及び分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップをプロセッサに実行させ、コンピュータプログラムがプロセッサによって局所強化範囲に基づいて2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップが実行される場合に、入力シーケンスにおける各要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップをプロセッサに実行させ、2つずつの要素間の強弱関連は、以下の式により、算出する。

Figure 2021517316
ijが入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Pの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Pがi番目の要素に対応する局所強化範囲の中心点を示し、Dがi番目の要素に対応する局所強化範囲のウィンドウサイズを示す。
一実施例において、コンピュータプログラムがプロセッサによって、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップが実行される場合に、局所強化行列に基づいてロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、局所的に強化されたロジック類似度に対して正規化処理を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップを、プロセッサ実行させる。
一実施例において、コンピュータプログラムがプロセッサによってソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップが実行される場合に、ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、それぞれ、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換を行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップを、プロセッサにさらに実行させ、コンピュータプログラムがプロセッサによって実行される場合に、各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップを、プロセッサにさらに実行させる。
一実施例において、コンピュータプログラムがプロセッサによって実行される場合に、さらに、入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、ソース側のベクトル表示シーケンスに対して線形変換を行って、ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップに戻り、ループ停止条件に達するまで実行を続けて最終的なネットワーク表示シーケンスを出力するステップを、プロセッサにさらに実行させる。
上記のコンピュータ読み取り可能な記憶媒体によれば、入力シーケンスに対応する要求ベクトルシーケンスに基づいて局所強化行列を構築することにより、局所強化範囲においてアテンション重みを割り当て、局所情報を強化することができる。入力シーケンスに対応するソース側のベクトル表示シーケンスに対して線形変換を行った後に、要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得でき、要求ベクトルシーケンス、キーベクトルシーケンスに基づいてロジック類似度を取得でき、その後、ロジック類似度及び局所強化行列に基づいて非線形変換を行って、局所的に強化されたアテンション重み分布を取得することにより、元のアテンション重みに対する修正を実現し、また、局所的に強化されたアテンション重み分布に基づいて、値ベクトルシーケンスを重み付けて和を求めることにより、強化された局所情報のネットワーク表示シーケンスを取得でき、取得されたネットワーク表示シーケンスは、局所情報を強化することができるだけでなく、入力シーケンスにおける長距離要素の間の関連を保留することもできる。
当業者は、上記実施例の方法における全部又は一部のプロセスはコンピュータ読み取り可能な命令が関連するハードウェアを命令することで実現されてもよく、前記プログラムが不揮発性コンピュータ読み取り可能な記憶媒体に記憶されてもよく、該プログラムは実行される場合、上記各方法の実施例の流れを含んでもよいと理解される。本願に係る各実施例に使用されるメモリ、記憶、データベース又は他の媒体のいかなる引用はいずれも不揮発性メモリ及び/又は揮発性メモリを含んでもよい。不揮発性メモリは読み出し専用メモリ(ROM)、プログラム可能ROM(PROM)、消去可能プログラム可能ROM(EPROM)、電気的消去可能プログラム可能ROM(EEPROM)又はフラッシュメモリを含んでもよい。揮発性メモリはランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含んでもよい。制限的ではなく、説明として、RAMは多くの形式で得られ、例えばスタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、シンクリンク(Synchlink)DRAM(SLDRAM)、ラムバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトラムバスダイナミックRAM(DRDRAM)及びラムバスダイナミックRAM(RDRAM)等が挙げられる。
以上の実施例の各技術的特徴を任意に組み合わせることができ、説明を簡潔にするために、上記実施例の各技術的特徴の全ての可能な組み合わせを説明しないが、これらの技術的特徴の組み合わせは矛盾しない限り、いずれも本明細書に記載する範囲に含まれるべきである。
以上の実施例は本願のいくつかの実施形態を説明し、その説明は具体的且つ詳細であるが、本発明の保護範囲を制限するためのものではない。ただし、本願の構想を逸脱せずに、更に変形や改良を行うことができ、これらの変形や改良はいずれも本願の保護範囲に属すべきである。従って、本願の保護範囲は添付の特許請求の範囲に準じるべきである。
1000 ニューラルネットワークのネットワーク表示生成装置
1002 取得モジュール
1004 線形変換モジュール
1006 ロジック類似度算出モジュール
1008 局所強化行列構築モジュール
1010 アテンション重み分布決定モジュール
1012 融合モジュール

Claims (22)

  1. コンピュータ機器が実行するニューラルネットワークのネットワーク表示生成方法であって、
    入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するステップと、
    前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するステップと、
    前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するステップと、
    前記要求ベクトルシーケンスに基づいて局所強化行列を構築するステップと、
    前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するステップと、
    前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するステップと、を含む方法。
  2. 前記要求ベクトルシーケンスに基づいて局所強化行列を構築する前記ステップは、
    前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定するステップと、
    前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定するステップと、
    前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップと、
    前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップとを含むことを特徴とする請求項1に記載の方法。
  3. 前記要求ベクトルシーケンスに基づいて局所強化行列を構築する前記ステップは、
    前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定するステップと、
    前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定するステップと、
    前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定するステップと、
    前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  4. 前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定する前記ステップは、
    前記入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルを変換して、前記要素に対応する第1のスカラーを取得するステップと、
    非線形変換関数により、前記第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得するステップと、
    前記第2のスカラーを、前記要素に対応する局所強化範囲の中心点とするステップと、を含むことを特徴とする請求項2又は3に記載の方法。
  5. 前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定する前記ステップは、
    前記入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルに対して線形変換を行って、前記要素に対応する第3のスカラーを取得するステップと、
    非線形変換関数により、前記第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得するステップと、
    前記第4のスカラーを、前記要素に対応する局所強化範囲のウィンドウサイズとするステップと、を含むことを特徴とする請求項2に記載の方法。
  6. 前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定する前記ステップは、
    前記キーベクトルシーケンスにおける各キーベクトルを取得するステップと、
    各前記キーベクトルの平均値を算出するステップと、
    前記平均値に対して線形変換を行って、第5のスカラーを取得するステップと、
    非線形変換関数により、前記第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得するステップと、
    前記第6のスカラーを、統一された局所強化範囲のウィンドウサイズとするステップとを含むことを特徴とする請求項3に記載の方法。
  7. 前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定する前記ステップは、
    前記中心点をガウス分布の期待値として、前記ウィンドウサイズをガウス分布の分散とするステップと、
    平均値及び前記分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定するステップとを含み、
    前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得する前記ステップは、
    入力シーケンスにおける各前記要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得するステップを含み、2つずつの要素間の強弱関連は、以下の式により算出し、

    Figure 2021517316
    なお、Gijが前記入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Pの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値を示し、Pがi番目の要素に対応する局所強化範囲の中心点を示し、Dがi番目の要素に対応する局所強化範囲のウィンドウサイズを示すことを特徴とする請求項2又は3に記載の方法。
  8. 前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得する前記ステップは、
    前記局所強化行列に基づいて前記ロジック類似度を修正して、局所的に強化されたロジック類似度を取得するステップと、
    前記局所的に強化されたロジック類似度に対して正規化処理を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得するステップとを含むことを特徴とする請求項1〜3のいずれか一項に記載の方法。
  9. 前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する前記ステップは、
    前記ソース側のベクトル表示シーケンスを複数セットの低次元のソース側のベクトル表示サブシーケンスに分割するステップと、
    複数セットの異なるパラメータ行列に従って、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換をそれぞれ行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得するステップとを含み、
    前記方法は、
    各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するステップをさらに含むことを特徴とする請求項1〜3のいずれか一項に記載の方法。
  10. 前記方法は、
    入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、前記ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する前記ステップに戻り実行を続け、ループ停止条件に達した場合最終的なネットワーク表示シーケンスを出力するステップをさらに含むことを特徴とする請求項1〜3のいずれか一項に記載の方法。
  11. ニューラルネットワークのネットワーク表示生成装置であって、
    入力シーケンスに対応するソース側のベクトル表示シーケンスを取得するための取得モジュールと、
    前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得するための線形変換モジュールと、
    前記要求ベクトルシーケンスと前記キーベクトルシーケンスとの間のロジック類似度を算出するためのロジック類似度算出モジュールと、
    前記要求ベクトルシーケンスに基づいて、局所強化行列を構築するための局所強化行列構築モジュールと、
    前記ロジック類似度及び前記局所強化行列に基づいて、非線形変換を行って、各要素に対応する局所的に強化されたアテンション重み分布を取得するためのアテンション重み分布決定モジュールと、
    前記アテンション重み分布に従って、前記値ベクトルシーケンスにおける値ベクトルを融合して、前記入力シーケンスに対応するネットワーク表示シーケンスを取得するための融合モジュールとを含むことを特徴とする装置。
  12. 前記局所強化行列構築モジュールは、さらに、
    前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲のウィンドウサイズを決定し、前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することを特徴とする請求項11に記載の装置。
  13. 前記局所強化行列構築モジュールは、さらに、
    前記要求ベクトルシーケンスに基づいて、各要素に対応する局所強化範囲の中心点を決定し、前記キーベクトルシーケンスに基づいて、統一された局所強化範囲のウィンドウサイズを決定し、前記中心点、前記ウィンドウサイズに従って、各要素に対応する局所強化範囲を決定し、前記局所強化範囲に基づいて、2つずつの要素間の強弱関連を算出して、局所強化行列を取得することを特徴とする請求項11に記載の装置。
  14. 前記局所強化行列構築モジュールは、さらに、
    前記入力シーケンスにおける各要素について、第1のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルを変換し、前記要素に対応する第1のスカラーを取得し、非線形変換関数により、前記第1のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第2のスカラーを取得し、前記第2のスカラーを、前記要素に対応する局所強化範囲の中心点とすることを特徴とする請求項12又は13に記載の装置。
  15. 前記局所強化行列構築モジュールは、さらに、
    前記入力シーケンスにおける各要素について、第2のフィードフォワードニューラルネットワークにより、前記要求ベクトルシーケンスにおける前記要素に対応する要求ベクトルに対して線形変換を行って、前記要素に対応する第3のスカラーを取得し、非線形変換関数により、前記第3のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第4のスカラーを取得し、前記第4のスカラーを、前記要素に対応する局所強化範囲のウィンドウサイズとすることを特徴とする請求項12に記載の装置。
  16. 前記局所強化行列構築モジュールは、さらに、
    前記キーベクトルシーケンスにおける各キーベクトルを取得し、各前記キーベクトルの平均値を算出し、前記平均値に対して線形変換を行って、第5のスカラーを取得し、非線形変換関数により、前記第5のスカラーに対して非線形変換を行って、入力シーケンスの長さに比例する第6のスカラーを取得し、前記第6のスカラーを、統一された局所強化範囲のウィンドウサイズとすることを特徴とする請求項13に記載の装置。
  17. 前記局所強化行列構築モジュールは、さらに、
    前記中心点をガウス分布の期待値として、前記ウィンドウサイズをガウス分布の分散とし、平均値及び前記分散に従って決定されたガウス分布に基づいて、局所強化範囲を決定し、入力シーケンスにおける各前記要素の順序に従って、2つずつの要素間の強弱関連を順に並べて、局所強化行列を取得し、2つずつの要素間の強弱関連は以下の式により算出し、

    Figure 2021517316
    なお、Gijが前記入力シーケンスにおけるj番目の要素とi番目の要素に対応する中心点Pの間の強弱関連を示し、Gijが局所強化行列Gにおけるi番目の列のベクトルのj番目の要素の値であり、Pがi番目の要素に対応する局所強化範囲の中心点を示し、Dがi番目の要素に対応する局所強化範囲のウィンドウサイズを示すことを特徴とする請求項12又は13に記載の装置。
  18. 前記アテンション重み分布決定モジュールは、さらに、
    前記局所強化行列に基づいて、前記ロジック類似度を修正して、局所的に強化されたロジック類似度を取得し、前記局所的に強化されたロジック類似度に対して正規化処理を行って、各前記要素に対応する局所的に強化されたアテンション重み分布を取得することを特徴とする請求項11〜13のいずれか一項に記載の装置。
  19. 前記線形変換モジュールは、さらに、
    前記ソース側のベクトル表示シーケンスを、複数セットの低次元のソース側のベクトル表示サブシーケンスに分割し、複数セットの異なるパラメータ行列に従って、各セットのソース側のベクトル表示サブシーケンスに対して異なる線形変換をそれぞれ行って、各セットのソース側のベクトル表示サブシーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスを取得し、
    前記装置は、
    各セットのソース側のベクトル表示サブシーケンスに対応するネットワーク表示サブシーケンスをスプライシングした後に線形変換を行って、出力のネットワーク表示シーケンスを取得するためのスプライシングモジュールをさらに含むことを特徴とする請求項11〜13のいずれか一項に記載の装置。
  20. 前記装置は、
    入力シーケンスに対応するネットワーク表示シーケンスを取得した後に、前記ネットワーク表示シーケンスを、新しいソース側のベクトル表示シーケンスとし、前記ソース側のベクトル表示シーケンスに対して線形変換を行って、前記ソース側のベクトル表示シーケンスに対応する要求ベクトルシーケンス、キーベクトルシーケンス及び値ベクトルシーケンスをそれぞれ取得する前記ステップに戻り実行を続け、ループ停止条件に達した場合に最終的なネットワーク表示シーケンスを出力するためのループモジュールをさらに含むことを特徴とする請求項11〜13のいずれか一項に記載の装置。
  21. コンピュータ読み取り可能な記憶媒体であって、コンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行される場合に、請求項1〜10のいずれか一項に記載の方法のステップを前記プロセッサに実行させる媒体。
  22. コンピュータ機器であって、メモリ及びプロセッサを含み、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される場合に、請求項1〜10のいずれか一項に記載の方法のステップを前記プロセッサに実行させるコンピュータ機器。
JP2020551812A 2018-09-04 2019-08-12 ニューラルネットワークのネットワーク表示生成方法及びその装置、コンピュータプログラム並びに機器 Active JP7098190B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811027795.XA CN109034378B (zh) 2018-09-04 2018-09-04 神经网络的网络表示生成方法、装置、存储介质和设备
CN201811027795.X 2018-09-04
PCT/CN2019/100212 WO2020048292A1 (zh) 2018-09-04 2019-08-12 神经网络的网络表示生成方法、装置、存储介质和设备

Publications (2)

Publication Number Publication Date
JP2021517316A true JP2021517316A (ja) 2021-07-15
JP7098190B2 JP7098190B2 (ja) 2022-07-11

Family

ID=64623896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020551812A Active JP7098190B2 (ja) 2018-09-04 2019-08-12 ニューラルネットワークのネットワーク表示生成方法及びその装置、コンピュータプログラム並びに機器

Country Status (5)

Country Link
US (1) US11875220B2 (ja)
EP (1) EP3848856A4 (ja)
JP (1) JP7098190B2 (ja)
CN (1) CN109034378B (ja)
WO (1) WO2020048292A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034378B (zh) * 2018-09-04 2023-03-31 腾讯科技(深圳)有限公司 神经网络的网络表示生成方法、装置、存储介质和设备
CN109918630B (zh) * 2019-01-23 2023-08-04 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及存储介质
CN110163339A (zh) * 2019-03-06 2019-08-23 腾讯科技(深圳)有限公司 神经网络中网络表示生成、编码方法和装置
CN110008482B (zh) * 2019-04-17 2021-03-09 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN110276082B (zh) * 2019-06-06 2023-06-30 百度在线网络技术(北京)有限公司 基于动态窗口的翻译处理方法和装置
CN110347790B (zh) * 2019-06-18 2021-08-10 广州杰赛科技股份有限公司 基于注意力机制的文本查重方法、装置、设备及存储介质
CN110705273B (zh) * 2019-09-02 2023-06-13 腾讯科技(深圳)有限公司 基于神经网络的信息处理方法及装置、介质和电子设备
US11875131B2 (en) * 2020-09-16 2024-01-16 International Business Machines Corporation Zero-shot cross-lingual transfer learning
CN112434527B (zh) * 2020-12-03 2024-06-18 上海明略人工智能(集团)有限公司 一种关键词的确定方法、装置、电子设备及存储介质
CN112785848B (zh) * 2021-01-04 2022-06-17 清华大学 一种交通数据预测方法以及系统
CN112967112B (zh) * 2021-03-24 2022-04-29 武汉大学 一种自注意力机制和图神经网络的电商推荐方法
CN113392139B (zh) * 2021-06-04 2023-10-20 中国科学院计算技术研究所 一种基于关联融合的环境监测数据补全方法及系统
CN113254592B (zh) * 2021-06-17 2021-10-22 成都晓多科技有限公司 基于门机制的多级注意力模型的评论方面检测方法及系统
CN113378791B (zh) * 2021-07-09 2022-08-05 合肥工业大学 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法
CN113283235B (zh) * 2021-07-21 2021-11-19 明品云(北京)数据科技有限公司 一种用户标签的预测方法及系统
CN113887325A (zh) * 2021-09-10 2022-01-04 北京三快在线科技有限公司 一种模型训练方法、表情识别方法以及装置
CN113989343A (zh) * 2021-10-31 2022-01-28 南京理工大学 基于注意力机制的传感器融合深度重建数据驱动方法
CN117180952B (zh) * 2023-11-07 2024-02-02 湖南正明环保股份有限公司 多向气流料层循环半干法烟气脱硫系统及其方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09297112A (ja) * 1996-03-08 1997-11-18 Mitsubishi Heavy Ind Ltd 構造パラメータ解析装置及び解析方法
US7496546B2 (en) * 2003-03-24 2009-02-24 Riken Interconnecting neural network system, interconnecting neural network structure construction method, self-organizing neural network structure construction method, and construction programs therefor
CN104765728B (zh) 2014-01-08 2017-07-18 富士通株式会社 训练神经网络的方法和装置以及确定稀疏特征向量的方法
EP3141610A1 (en) * 2015-09-12 2017-03-15 Jennewein Biotechnologie GmbH Production of human milk oligosaccharides in microbial hosts with engineered import / export
CN106056526B (zh) * 2016-05-26 2019-04-12 南昌大学 一种基于解析稀疏表示与压缩感知的图像加密算法
CN106096640B (zh) * 2016-05-31 2019-03-26 合肥工业大学 一种多模式系统的特征降维方法
CN106339564B (zh) * 2016-09-06 2017-11-24 西安石油大学 一种基于灰色关联聚类的射孔方案优选方法
CN106571135B (zh) * 2016-10-27 2020-06-09 苏州大学 一种耳语音特征提取方法及系统
US11188824B2 (en) * 2017-02-17 2021-11-30 Google Llc Cooperatively training and/or using separate input and subsequent content neural networks for information retrieval
CN107025219B (zh) * 2017-04-19 2019-07-26 厦门大学 一种基于内部语义层次结构的词嵌入表示方法
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107345860B (zh) * 2017-07-11 2019-05-31 南京康尼机电股份有限公司 基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法
GB2566257A (en) * 2017-08-29 2019-03-13 Sky Cp Ltd System and method for content discovery
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN108256172B (zh) * 2017-12-26 2021-12-07 同济大学 一种顶管下穿既有箱涵过程中险情预警预报方法
CN108537822B (zh) * 2017-12-29 2020-04-21 西安电子科技大学 基于加权置信度估计的运动目标跟踪方法
CN108334499B (zh) * 2018-02-08 2022-03-18 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备
CN108828533B (zh) * 2018-04-26 2021-12-31 电子科技大学 一种类内样本相似结构保持非线性投影特征提取方法
CN109034378B (zh) * 2018-09-04 2023-03-31 腾讯科技(深圳)有限公司 神经网络的网络表示生成方法、装置、存储介质和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI, ET AL.: ""Attention Is All You Need"", PROCEEDINGS OF 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017), JPN6022021246, 2017, pages 1 - 11, ISSN: 0004784755 *
SHANG GAO, ET AL.: ""Hierarchical Convolutional Attention Networks for Text Classification"", PROCEEDINGS OF THE 3RD WORKSHOP ON REPRESENTATION LEARNING FOR NLP, JPN6022021248, 20 July 2018 (2018-07-20), pages 11 - 23, ISSN: 0004784757 *
西田 京介(外1名): "「深層学習におけるアテンション技術の最新動向」", 電子情報通信学会誌, vol. 101, no. 6, JPN6022021247, 1 June 2018 (2018-06-01), JP, pages 591 - 596, ISSN: 0004784756 *

Also Published As

Publication number Publication date
JP7098190B2 (ja) 2022-07-11
EP3848856A4 (en) 2021-11-17
WO2020048292A1 (zh) 2020-03-12
US20210042603A1 (en) 2021-02-11
EP3848856A1 (en) 2021-07-14
CN109034378B (zh) 2023-03-31
US11875220B2 (en) 2024-01-16
CN109034378A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
JP7098190B2 (ja) ニューラルネットワークのネットワーク表示生成方法及びその装置、コンピュータプログラム並びに機器
KR102180002B1 (ko) 어텐션-기반의 시퀀스 변환 신경망
WO2020088330A1 (en) Latent space and text-based generative adversarial networks (latext-gans) for text generation
CN111061847A (zh) 对话生成及语料扩充方法、装置、计算机设备和存储介质
BR112020022270A2 (pt) sistemas e métodos para unificar modelos estatísticos para diferentes modalidades de dados
CN114219076B (zh) 量子神经网络训练方法及装置、电子设备和介质
CN108665506B (zh) 图像处理方法、装置、计算机存储介质及服务器
WO2021196954A1 (zh) 序列化数据处理方法和装置、文本处理方法和装置
WO2023087656A1 (zh) 图像生成方法及装置
CN115017178B (zh) 数据到文本生成模型的训练方法和装置
CN110162783B (zh) 用于语言处理的循环神经网络中隐状态的生成方法和装置
CN110705273B (zh) 基于神经网络的信息处理方法及装置、介质和电子设备
CN112699215B (zh) 基于胶囊网络与交互注意力机制的评级预测方法及系统
CN116882369A (zh) 基于增量学习的大语言模型、训练方法及文本生成方法
CN112837673B (zh) 基于人工智能的语音合成方法、装置、计算机设备和介质
CN110555099B (zh) 计算机执行的、利用神经网络进行语言处理的方法及装置
CN110163339A (zh) 神经网络中网络表示生成、编码方法和装置
JP2021033994A (ja) テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
JP7349811B2 (ja) 訓練装置、生成装置及びグラフ生成方法
CN114464267A (zh) 模型训练与生成物预测的方法及装置
CN112651494A (zh) 用于线缆防缠绕预警的神经网络的训练方法
CN111859939A (zh) 文本匹配方法、系统和计算机设备
CN111597829A (zh) 翻译方法和装置、存储介质和电子设备
CN116822632B (zh) 一种文本数据的推理方法、装置、存储介质和电子设备
CN114625888A (zh) 关系抽取方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200925

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220622

R150 Certificate of patent or registration of utility model

Ref document number: 7098190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150