JP2021177368A - ニューラルネットワークモデルの処理方法及び装置 - Google Patents

ニューラルネットワークモデルの処理方法及び装置 Download PDF

Info

Publication number
JP2021177368A
JP2021177368A JP2020217561A JP2020217561A JP2021177368A JP 2021177368 A JP2021177368 A JP 2021177368A JP 2020217561 A JP2020217561 A JP 2020217561A JP 2020217561 A JP2020217561 A JP 2020217561A JP 2021177368 A JP2021177368 A JP 2021177368A
Authority
JP
Japan
Prior art keywords
output value
value
activation
initial activation
processing layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020217561A
Other languages
English (en)
Other versions
JP7105297B2 (ja
Inventor
ジェンフェイ・ワン
Jianfei Wang
チォン・ポン
Cheng Peng
シュエフォン・ルオ
Xuefeng Luo
ウェイウェイ・ワン
Weiwei Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021177368A publication Critical patent/JP2021177368A/ja
Application granted granted Critical
Publication of JP7105297B2 publication Critical patent/JP7105297B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ニューラルネットワークモデルの処理方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、第iの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定し、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を再決定し、再決定された第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定する。【選択図】図1

Description

本出願は、コンピュータ技術分野の人工知能技術分野に関し、特にニューラルネットワークモデルの処理方法及び装置に関する。
カプセルネットワークは、新しいニューラルネットワークモデリング思想であり、他のニューラルネットワークと比較して、カプセルネットワークは、各ニューロンノードの表現能力を増加させることにより、ネットワークの全体的な記述能力を強化する。具体的には、元々スカラー表現されたニューロンをベクトル表現に転化し、スカラーニューロンノードの場合、通常採用される活性化関数は、sigmoid、reluなどである。ここで、活性化関数は、ニューラルネットワークの設計において非常に重要な要素であり、主にニューラルネットワークに非線形変化の能力を導入し、ニューラルネットワークが非線形な論理推論能力を実現することに寄与する。
カプセルノードは、方向情報を導入し、ニューロンをベクトルの表現形式に拡張しているため、スカラーのニューロン活性化関数は、適用されない。したがって、この問題を解決するために、カプセルネットワークは、新しい活性化関数であるSquash活性化関数を提供する。しかしながら、実際の応用において、Squash活性化関数は、活性化状態のスパース性が不足する、活性化状態の高位更新が遅いという技術的な問題があり、既存のニューラルネットワークの性能が低いという欠点がある。
本出願は、ニューラルネットワークモデルの処理方法、装置、電子機器及び記憶媒体を提供する。
本出願の第1の側面の実施例は、ニューラルネットワークモデルの処理方法を提供し、前記ニューラルネットワークは、N層の処理層を含み、Nは、正の整数であり、前記方法は、
S1:第iの処理層(前記iは、前記N以下の正の整数である)の入力データを取得し、前記入力データを複数のカプセルノードに転化するステップであって、ここで、前記入力データは、j次元(前記jは、前記N以下の正の整数である)を有する複数のニューロンベクトルを含むステップと、
S2:前記複数のカプセルノードをアフィン変換して、前記複数のカプセルノードに対応するアフィンノードを生成するステップと、
S3:前記複数のカプセルノードに対応するアフィンノードに基づいて、前記第iの処理層の初期活性化入力値を決定するステップと、
S4:第iの処理層の初期活性化入力値を活性化関数に入力して、前記第iの処理層の初期活性化出力値を生成するステップと、
S5:前記初期活性化出力値に対応するアフィンノードに基づいて、前記第iの処理層の初期活性化入力値を再決定し、再決定された前記第iの処理層の初期活性化入力値を活性化関数に入力して、前記第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を前記第iの処理層の活性化出力値として決定するステップと、を含む。
本出願の第2の側面の実施例は、ニューラルネットワークモデルの処理装置を提供し、前記ニューラルネットワークは、N層の処理層を含み、Nは、正の整数であり、前記装置は、
第iの処理層(前記iは、前記N以下の正の整数である)の入力データを取得し、前記入力データを複数のカプセルノードに転化するための取得モジュールであって、ここで、前記入力データは、j次元(前記jは、前記N以下の正の整数である)を有する複数のニューロンベクトルを含む取得モジュールと、
前記複数のカプセルノードをアフィン変換して、前記複数のカプセルノードに対応するアフィンノードを生成するための第1の生成モジュールと、
前記複数のカプセルノードに対応するアフィンノードに基づいて、前記第iの処理層の初期活性化入力値を決定するための決定モジュールと、
第iの処理層の初期活性化入力値を活性化関数に入力して、前記第iの処理層の初期活性化出力値を生成するための第2の生成モジュールと、
前記初期活性化出力値に対応するアフィンノードに基づいて、前記第iの処理層の初期活性化入力値を再決定し、再決定された前記第iの処理層の初期活性化入力値を活性化関数に入力して、前記第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を前記第iの処理層の活性化出力値として決定するための第3の生成モジュールと、を含む。
本出願の第3の側面の実施例は、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが第1の側面のニューラルネットワークモデルの処理方法を実行する。
本出願の第4の側面の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、前記コンピュータに第1の側面のニューラルネットワークモデルの処理方法を実行させる。
上記出願における一つの実施例は、以下のような利点又は有益な効果を有する。第iの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定し、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を再決定し、再決定された第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定する。これにより、ニューラルネットワークの入力データで転化された複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを取得し、アフィンノードに基づいて、活性化関数の出力値を反復更新して、ニューラルネットワークモデルの最終的な活性化出力値を取得し、ニューラルネットワークの性能を向上させる。
なお、この部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をより理解するために使用されており、本出願を限定するものではない。
本出願の実施例1により提供されるニューラルネットワークモデルの処理方法のフローチャートである。 本出願の実施例2により提供されるニューラルネットワークモデルの処理方法のフローチャートである。 本出願の実施例により提供される既存の活性化関数の効果図である。 本出願の実施例により提供されるRuler活性化関数の効果図である。 本出願の実施例3により提供されるニューラルネットワークモデルの処理装置の概略構造図である。 本出願の実施例のニューラルネットワークモデルの処理方法を実現するための電子機器のブロック図である。
以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするために図面には本出願の実施例の様々な詳細事項を含んでおり、図面は、単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構造の説明を省略する。
既存の技術において、ニューラルネットワークモデルの処理プロセスにおいて、採用された活性化関数は、Squash活性化関数と呼ばれ、その式は、
Figure 2021177368
であり、
ここで、jは、j番目のベクトルノードを表す。Sは、j番目のベクトルノードの活性化前のベクトル値を表し、Vは、j番目のベクトルノードの活性化後のベクトル値を表す。
Figure 2021177368
は、ベクトル
Figure 2021177368
のp階のノルムを表す。
上記Squash活性化関数の式に基づいて、Squash活性化状態のモジュラス長Nは、主に上式の右項の左半分に依存し、すなわち、
Figure 2021177368
であり、
Figure 2021177368
のため、
Figure 2021177368
という結論を導き出して、これにより、Squash活性化関数にスパース性不足の技術的な問題があることを引き起こす。
Squash活性化状態のモジュラス長Nに対して変数
Figure 2021177368
について導関数を求め、導関数
Figure 2021177368
を取得し、式から、勾配がxの2乗の逆数とともに減少することがわかる。xが0.8より大きい場合、導関数
Figure 2021177368
であり、活性化状態の高位更新が遅いという技術的な問題を引き起こす。
既存の技術におけるニューラルネットワークモデルの処理プロセスにおいて、活性化関数にはスパース性不足及び活性化状態の高位更新が遅いという問題があって、ニューラルネットワークの性能を低くなるという技術的な問題に対して、本出願は、ニューラルネットワークモデルの処理方法を提供し、第iの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定し、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を再決定し、再決定された第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定する。
以下、図面を参照して本出願の実施例のニューラルネットワークモデルの処理方法、装置、電子機器及び記憶媒体を説明する。
図1は、本出願の実施例一により提供されるニューラルネットワークモデルの処理方法のフローチャートである。
本出願の実施例は、当該ニューラルネットワークモデルの処理方法がニューラルネットワークモデルの処理装置に配置されることを例として説明し、当該ニューラルネットワークモデルの処理装置は、いずれかの電子機器に適用されることができ、当該電子機器がニューラルネットワークモデルの処理機能を実行する。
ここで、電子機器は、パーソナルコンピュータ(Personal Computer、PCと略称する)、クラウド機器、モバイル機器などであってもよく、モバイル機器は、例えば、携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント、ウェアラブルデバイス等の各種オペレーティングシステムを有するハードウェア機器であってもよい。
図1に示すように、当該ニューラルネットワークモデルの処理方法は、以下のステップを含むことができる。
ステップS1、第iの処理層の入力データを取得し、入力データを複数のカプセルノードに転化する。
ここで、入力データは、j次元を有する複数のニューロンベクトルを含み、ここで、iとjは、N以下の正の整数である。
本出願の実施例において、ニューラルネットワークは、N層の処理層を含むことができ、ここで、Nは、正の整数である。ニューラルネットワークは、入力層、隠し層及び出力層を含む。ニューラルネットワークは、カプセルネットワークであってもよく、ここで、カプセルネットワークもN層の処理層を含み、ここで、Nは、正の整数である。
本出願の実施例において、ニューラルネットワークの第iの処理層の入力データを取得した後、入力データを複数のカプセルノードに転化することができる。ここで、第iの処理層は、入力層、隠し層及び出力層のいずれかの処理層であってもよい。
例えば、取得された入力データは、a=[1、2、3、4、5、6]であり、aは、6つのニューロンがあることを表し、ニューロンベクトルが2次元のベクトルであると仮定し、取得された入力データaを複数のカプセルノードが含まれるデータb=[[1、2]、[3、4]、[5、6]]に転化することができ、ここの[1、2]、[3、4]及び[5、6]は、それぞれ一つのカプセルノードを表す。
ステップS2、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成する。
ここで、アフィン変換は、2次元平面における重要な変換であり、幾何学的に、1つの非特異線形変換を1つの平行移動変換に接続して構成される、2つのベクトル空間間の1つのアフィン変換又はアフィンマッピングとして定義されます。
本出願の実施例において、入力データを複数のカプセルノードに転化した後、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成することができる。これにより、ベクトルの特徴抽象能力を学習することにより、1近似特徴ノード間の集約を実現する。
以下、例を挙げて複数のカプセルノードをアフィン変換するプロセスを説明し、例えば、上記例示における複数のカプセルノードの次元は、すべて2であり、M=[[0、1]、[1、0]]、集約した後各カプセルノードの新しい表現方式を取得し、ここでアフィンノードc=b*Mになり、その中「*」は、行列乗算を表し、最終的に複数のカプセルノードに対応するアフィンノードc=[[2、1]、[4、3]、[6、5]]を取得することができる。
ステップS3、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定する。
本出願の実施例において、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成した後、初期重みに基づいて複数のアフィンノードに対して加重加算を行い、加重加算の結果を第iの処理層の初期活性化入力値とすることができる。これにより、初期重みに基づいて、第iの処理層の初期活性化入力値を決定し、初期活性化入力値の決定の精度を向上させる。
引き続き上記の例示を例として、初期重みwに基づいて、アフィンノードcに対して加重加算を行い、dを取得し、すなわちd=Σc・wであり、ここで、w=[0.33、0.33、0.33]、c=[[2、1]、[4、3]、[6、5]]であり、したがって、最終的にd=[4、3]を算出する。さらに、加重加算の結果に基づいて第iの処理層の初期活性化入力値を決定する。
ステップS4、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成する。
本出願の実施例において、複数のカプセルノードに対応するアフィンノードに対して加重加算を行い、第iの処理層の初期活性化入力値を取得した後、初期活性化入力値を活性化関数に入力して、活性化関数で出力された第iの処理層の初期活性化出力値を取得する。
なお、ニューラルネットワークモデルの処理プロセスにおいて活性化関数を使用しない場合、各層の出力は、上層で入力された線形関数であり、ニューラルネットワークの層数に関わらず、出力は、入力の線形の組み合わせである。ニューラルネットワークモデルの処理プロセスにおいて活性化関数を使用する場合、活性化関数がニューロンに非線形要素を導入して、ニューラルネットワークが任意の非線形関数に任意に近づくことができるようにして、ニューラルネットワークは、多くの非線形モデルに応用されることができる。
本出願における活性化関数は、カプセルネットワークに対する新たな活性化関数Rulerであり、従来のSquash活性化関数と異なっている。そのため、ニューラルネットワークモデル過程において、Squash活性化関数を採用することにより、スパース性が不足すること、及び活性化状態の高位更新が遅いことが存在するという技術的な問題があり、既存のニューラルネットワークの性能が低いことを回避する。
ステップS5、初期活性化出力値に対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を再決定し、再決定された第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定する。
本出願の実施例において、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成した後、初期重みに基づいて初期活性化出力値に対して加重加算を行い、第iの処理層の初期活性化入力値を再生成し、再生成された第iの処理層の初期活性化入力値を活性化関数に入力して、新しい初期活性化出力値を取得する。このように繰り返して、予め設定された回数の反復を行い、活性化関数で最後に出力された値を第iの処理層の活性化出力値とする。ここで、反復の予め設定された回数は、実際の状況に応じて設定され、1回でも3回でもよいが、ここでは限定されない。
本出願の実施例のニューラルネットワークモデルの処理方法は、第iの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定し、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を再決定し、再決定された第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定する。これにより、ニューラルネットワークの入力データで転化された複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを取得し、アフィンノードに基づいて、活性化関数の出力値を反復更新して、ニューラルネットワークモデルの最終的な活性化出力値を取得し、ニューラルネットワークの性能を向上させる。
上記実施例に基づいて、ステップS4において、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成する場合、初期活性化入力値のモジュラス長、第1の活性化閾値及び第2の活性化閾値に基づいて初期活性化出力値を生成することができる。具体的な実現プロセスを図2に示し、図2は、本出願の実施例二により提供されるニューラルネットワークモデルの処理方法のフローチャートである。
図2に示すように、当該ニューラルネットワークモデルの処理方法は、以下のステップをさらに含むことができる。
ステップ201、第iの処理層の入力データを取得し、前記入力データを複数のカプセルノードに転化する。
ステップ202、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成する。
ステップ203、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定する。
本出願の実施例において、ステップ201〜ステップ203の実現プロセスは、上記実施例一におけるステップS1〜ステップS3の実現プロセスを参照することができ、ここでは説明を省略する。
ステップ204、初期活性化入力値に対応するモジュラス長を決定する。
本出願の実施例において、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定した後、初期活性化入力値に対応するモジュラス長を計算することができる。
なお、初期活性化入力値は、ベクトルであるため、ベクトルのサイズを計算することにより、初期活性化入力値に対応するモジュラス長を決定することができる。
一つの例示として、以下のような式によって初期活性化入力値に対応するモジュラス長を計算することができる。例えば、初期活性化入力値は、d=[4、3]であり、初期活性化入力値のモジュラス長は、||d||であり、
Figure 2021177368

方向は、
Figure 2021177368
である。
ステップ205、初期活性化入力値に対応するモジュラス長及び第1の活性化閾値に基づいて、第1の出力値を生成する。
ここで、第1の活性化閾値は、ユーザが設定した最低活性化閾値を指す。
本出願の実施例において、初期活性化入力値に対応するモジュラス長を決定した後、初期活性化入力値に対応するモジュラス長を第1の活性化閾値と比較して、比較結果に基づいて第1の出力値を決定することができる。
ある状況において、初期活性化入力値に対応するモジュラス長は、第1の活性化閾値より大きく、初期活性化入力値に対応するモジュラス長と第1の活性化閾値の差を計算し、差と、1と第1の活性化閾値との差の逆数である予め設定された傾きと、の積を第1の出力値とする。
ある状況において、初期活性化入力値に対応するモジュラス長が第1の活性化閾値より小さいと決定され、第1の出力値は、0である。
例えば、第1の活性化閾値は、βであり、初期活性化入力値に対応するモジュラス長は、||d||であり、最大値を選択して出力し(e=max(||d||−β、0))、ここで、βは、ユーザで設定されることができる。傾きをk=1/(1−β)に予め設定し、初期活性化入力値に対応するモジュラス長と第1の活性化閾値の差とゼロの間の最大値に傾きkを乗じて、活性化関数の第1の出力値f=k・eを取得する。
初期活性化入力値に対応するモジュラス長が第1の活性化閾値より小さい場合、eの値は、0であることがわかり、このような場合に、第1の出力値f=k・eの値も0である。
これにより、設定された第1の活性化閾値に基づいて傾きを再計算することにより、活性化関数の入力値が1である場合、出力値も1であることを保証することができ、アクティベーションウィンドウを短縮しながら、学習速度に影響を与えないという目的を実現する。
ステップ206、第1の出力値及び第2の活性化閾値に基づいて、第2の出力値を生成する。
ここで、第2の活性化閾値が第1の活性化閾値より大きい、第1の活性化閾値を最低活性化閾値として設定し、第2の活性化閾値を最大活性化閾値として設定することができる。
本出願の実施例において、初期活性化入力値に対応するモジュラス長及び第1の活性化閾値のサイズに基づいて、第1の出力値を決定した後、さらに、第1の出力値と第2の活性化閾値のサイズの関係に基づいて、第2の出力値を決定する。
ある状況において、第1の出力値が第2の活性化閾値より大きいと決定され、第2の活性化閾値を第2の出力値とする。
なお、第2の活性化閾値は、活性化関数が表すことができる最大信号値を決定し、第1の出力値がこの信号値を超える場合、活性化関数の出力値を第2の活性化閾値とする。これにより、単一の大きなアクティベーション値が活性化関数全体に与える影響を低減することができる。
ある状況において、第1の出力値が第2の活性化閾値より小さいと決定され、第1の出力値を第2の出力値とする。
ステップ207、第2の出力値及び初期活性化入力値に対応するモジュラス長に基づいて、初期活性化出力値を生成する。
本出願の実施例において、初期活性化入力値と初期活性化入力値に対応するモジュラス長の比率を計算し、比率に第2の出力値を乗じた結果を初期活性化出力値とする。
ある状況において、以下のような式によって初期活性化出力値を計算することができ、式は、
Figure 2021177368
であり、ここで、hは、初期活性化出力値であり、gは、第2の出力値であり、dは、初期活性化入力値であり、||d||は、初期活性化入力値に対応するモジュラス長である。
ステップ208、初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、予め設定された反複回数に達するまで、第iの処理層の活性化出力値を生成する。
本出願の実施例において、活性化関数の初期活性化出力値を決定した後、初期活性化出力値に基づいて初期重みを更新する。一つの可能的な実現方式として、初期活性化出力値と初期活性化入力値の積を計算し、更新された重みは、初期重みに初期活性化出力値と初期活性化入力値の積を加えたものに等しくなる。ここで、w’=w+d*gという式によって表すことができる。ここで、w’は、更新された重みを指し、wは、更新前の初期重みであり、dは、初期活性化入力値であり、gは、初期活性化出力値である。
なお、初期活性化入力値と初期活性化出力値を乗算すると、結果に基づいて、初期活性化入力値と初期活性化出力値の類似度を反映させることができる。
本出願の実施例において、初期活性化出力値に基づいて初期重みを更新した後、更新された初期重みに基づいて複数のカプセルノードに対応するアフィンノードに対して加重加算を行って、第iの処理層の初期活性化入力値を再生成する。具体的な実現プロセスは、上記実施例一の実現プロセスを参照し、ここでは説明を省略する。
さらに、再生成された初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定する。
ここで、予め設定された回数は、限定されるものではなく、1〜3回であってもよい。
本出願における活性化関数は、以下の式によって表されることができる。
Figure 2021177368
ここで、Rulerは、活性化関数を表し、βは、第1の活性化閾値であり、αは、第2の活性化閾値であり、xは、初期活性化入力値である。まず、上記の式の導関数を取ると、導関数の値は、
Figure 2021177368
であることがわかる。
||x||>βandk*||x||<α
の活性化区間において、導関数は、一定値である。パラメータαを合理的に設定することにより、例えばα=1である場合、活性化状態の最大値が1になるまで、同時に0から1の間の活性化状態での勾配が等しくなることを保証することができ、既存のニューラルネットワークの活性化関数の活性化状態の高位更新が遅いという問題を効率的に解決する。
β>0である場合、(0、β]の区間範囲において、ノードがアクティベーションされることができない、すなわちノード状態値が0であることを保証することができる。したがって、活性化状態のスパース性を増加することができ、既存のニューラルネットワークの活性化関数において非活性化状態が結果の重ね合わせに影響を与える技術的な問題を回避する。
例えば、図3及び図4における活性化関数の効果図を参照すると、図3におけるSquash活性化関数の効果図には活性化状態の高位更新が遅いという問題がある。しかしながら、本出願におけるRuler活性化関数の効果図において、0から1の間の活性化状態での勾配が等しくなり、活性化状態の高位更新が遅いという問題を効率的に解決する。
本出願の実施例のニューラルネットワークモデルの処理方法は、第iの処理層の初期活性化入力値を決定した後、初期活性化入力値に対応するモジュラス長を決定し、初期活性化入力値に対応するモジュラス長及び第1の活性化閾値に基づいて、第1の出力値を生成し、第1の出力値及び第2の活性化閾値に基づいて、第2の出力値を生成し、第2の出力値及び初期活性化入力値に対応するモジュラス長に基づいて、初期活性化出力値を生成し、初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、予め設定された反複回数に達するまで、第iの処理層の活性化出力値を生成する。これにより、初期活性化入力値に基づいて、初期活性化出力値を決定した後、初期活性化出力値に基づいて初期重みを更新して、活性化関数の出力値を反復更新して、ニューラルネットワークの性能を向上させる。
上記実施例を実現するために、本出願は、ニューラルネットワークモデルの処理装置を提供する。
図5は、本出願の実施例3により提供されるニューラルネットワークモデルの処理装置の概略構造図である。
図5に示すように、ニューラルネットワークは、N層の処理層を含み、ここで、Nは、正の整数であり、当該ニューラルネットワークモデルの処理装置500は、取得モジュール510と、第1の生成モジュール520と、決定モジュール530と、第2の生成モジュール540と、第3の生成モジュール550と、を含むことができる。
ここで、取得モジュール510は、第iの処理層の入力データを取得し、入力データを複数のカプセルノードに転化することに用いられ、ここで、入力データは、j次元を有する複数のニューロンベクトルを含み、ここで、iとjは、N以下の正の整数である。
第1の生成モジュール520は、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成することに用いられる。
決定モジュール530は、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定することに用いられる。
第2の生成モジュール540は、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成することに用いられる。
第3の生成モジュール550は、初期活性化出力値に対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を再決定し、再決定された第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定することに用いられる。
ある状況において、決定モジュール530は、
初期重みに基づいて複数のカプセルノードに対応するアフィンノードに対して加重加算を行って、第iの処理層の初期活性化入力値を生成するための第1の生成ユニットを含むことができる。
ある状況において、第2の生成モジュール540は、
初期活性化入力値に対応するモジュラス長を決定するための第1の決定ユニットと、
初期活性化入力値に対応するモジュラス長及び第1の活性化閾値に基づいて、第1の出力値を生成するための第2の生成ユニットと、
第1の出力値及び第1の活性化閾値より大きい第2の活性化閾値に基づいて、第2の出力値を生成するための第3の生成ユニットと、
第2の出力値及び初期活性化入力値に対応するモジュラス長に基づいて、初期活性化出力値を生成するための第4の生成ユニットと、を含むことができる。
ある状況において、第2の生成ユニットは、
初期活性化入力値に対応するモジュラス長が第1の活性化閾値より大きい場合、初期活性化入力値に対応するモジュラス長と第1の活性化閾値の差を計算し、差と、1と前記第1の活性化閾値との差の逆数である予め設定された傾きと、の積を第1の出力値とし、
初期活性化入力値に対応するモジュラス長が第1の活性化閾値より小さい場合、第1の出力値は、0であることにさらに用いられる。
ある状況において、第3の生成ユニットは、
第1の出力値が第2の活性化閾値より大きい場合、第2の活性化閾値を第2の出力値とし、及び
第1の出力値が第2の活性化閾値より小さい場合、第1の出力値を第2の出力値とすることにさらに用いられる。
ある状況において、初期活性化出力値は、以下の式によって生成することができ、
Figure 2021177368
ここで、hは、初期活性化出力値であり、gは、第2の出力値であり、dは、初期活性化入力値であり、||d||は、初期活性化入力値に対応するモジュラス長である。
ある状況において、第3の生成モジュール550は、
初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定することにさらに用いられる。
本出願の実施例のニューラルネットワークモデルの処理装置は、第iの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を決定し、第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第iの処理層の初期活性化入力値を再決定し、再決定された第iの処理層の初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定する。これにより、ニューラルネットワークの入力データで転化された複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを取得し、アフィンノードに基づいて、活性化関数の出力値を反復更新して、ニューラルネットワークモデルの最終的な活性化出力値を取得し、ニューラルネットワークの性能を向上させる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図6は、本出願の実施例に係るニューラルネットワークモデルの処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図6に示すように、当該電子機器は、一つ又は複数のプロセッサ601と、メモリ602と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図6では、一つのプロセッサ601を例とする。
メモリ602は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本出願により提供されるニューラルネットワークモデルの処理方法を実行することができるようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供されるニューラルネットワークモデルの処理方法を実行するためのコンピュータ命令を記憶する。
メモリ602は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるニューラルネットワークモデルの処理方法に対応するプログラム命令/モジュール(例えば、図5に示す取得モジュール510、第1の生成モジュール520、決定モジュール530、第2の生成モジュール540及び第3の生成モジュール550)ように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ601は、メモリ602に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アクティベーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるニューラルネットワークモデルの処理方法を実現する。
メモリ602は、ストレージプログラム領域とストレージデータ領域とを含むことができ、その中、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアクティベーションプログラムを記憶することができ、ストレージデータ領域は、ニューラルネットワークモデルの処理方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ602は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ602は、プロセッサ601に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してニューラルネットワークモデルの処理方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。
ニューラルネットワークモデルの処理方法の電子機器は、入力装置603と出力装置604とをさらに含むことができる。プロセッサ601、メモリ602、入力装置603、及び出力装置604は、バス又は他の方式を介して接続することができ、図6では、バスを介して接続することを例とする。
入力装置603は、入力された数字又は文字情報を受信することができ、及びニューラルネットワークモデルの処理方法の電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアクティベーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上において、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アクティベーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願の実施例の技術案によれば、ニューラルネットワークの入力データで転化された複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを取得し、アフィンノードに基づいて、活性化関数の出力値を反復更新して、ニューラルネットワークモデルの最終的な活性化出力値を取得し、ニューラルネットワークの性能を向上させる。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の趣旨と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims (17)

  1. ニューラルネットワークモデルの処理方法であって、
    前記ニューラルネットワークは、N層の処理層を含み、Nは、正の整数であり、前記方法は、
    第iの処理層(前記iは、前記N以下の正の整数である)の入力データを取得し、前記入力データを複数のカプセルノードに転化するステップS1であって、前記入力データは、j次元(前記jは、前記N以下の正の整数である)を有する複数のニューロンベクトルを含むステップS1と、
    前記複数のカプセルノードをアフィン変換して、前記複数のカプセルノードに対応するアフィンノードを生成するステップS2と、
    前記複数のカプセルノードに対応するアフィンノードに基づいて、前記第iの処理層の初期活性化入力値を決定するステップS3と、
    第iの処理層の初期活性化入力値を活性化関数に入力して、前記第iの処理層の初期活性化出力値を生成するステップS4と、
    前記初期活性化出力値に対応するアフィンノードに基づいて、前記第iの処理層の初期活性化入力値を再決定し、再決定された前記第iの処理層の初期活性化入力値を活性化関数に入力して、前記第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を前記第iの処理層の活性化出力値として決定するステップS5と、を含む、
    ニューラルネットワークモデルの処理方法。
  2. 前記ステップS3は、
    初期重みに基づいて前記複数のカプセルノードに対応するアフィンノードに対して加重加算を行って、前記第iの処理層の初期活性化入力値を生成するステップを含む、
    ことを特徴とする請求項1に記載のニューラルネットワークモデルの処理方法。
  3. 前記ステップS4は、
    前記初期活性化入力値に対応するモジュラス長を決定するステップと、
    前記初期活性化入力値に対応するモジュラス長及び第1の活性化閾値に基づいて、第1の出力値を生成するステップと、
    前記第1の出力値及び前記第1の活性化閾値より大きい第2の活性化閾値に基づいて、第2の出力値を生成するステップと、
    前記第2の出力値及び前記初期活性化入力値に対応するモジュラス長に基づいて、前記初期活性化出力値を生成するステップと、を含む、
    ことを特徴とする請求項1から2のいずれかに記載のニューラルネットワークモデルの処理方法。
  4. 前記初期活性化入力値に対応するモジュラス長及び第1の活性化閾値に基づいて、第1の出力値を生成するステップは、
    前記初期活性化入力値に対応するモジュラス長が前記第1の活性化閾値より大きい場合、前記初期活性化入力値に対応するモジュラス長と前記第1の活性化閾値の差を計算し、前記差と、1と前記第1の活性化閾値との差の逆数である予め設定された傾きと、の積を前記第1の出力値とするステップと、
    前記初期活性化入力値に対応するモジュラス長が前記第1の活性化閾値より小さい場合、前記第1の出力値は、0であるステップと、を含む、
    ことを特徴とする請求項3に記載のニューラルネットワークモデルの処理方法。
  5. 前記第1の出力値及び第2の活性化閾値に基づいて、第2の出力値を生成するステップは、
    前記第1の出力値が前記第2の活性化閾値より大きい場合、前記第2の活性化閾値を前記第2の出力値とするステップと、
    前記第1の出力値が前記第2の活性化閾値より小さい場合、前記第1の出力値を前記第2の出力値とするステップと、を含む、
    ことを特徴とする請求項3に記載のニューラルネットワークモデルの処理方法。
  6. 前記初期活性化出力値は、以下の式によって生成することができ、
    Figure 2021177368
    ここで、hは、前記初期活性化出力値であり、gは、前記第2の出力値であり、dは、前記初期活性化入力値であり、||d||は、前記初期活性化入力値に対応するモジュラス長である、
    ことを特徴とする請求項3に記載のニューラルネットワークモデルの処理方法。
  7. 前記ステップS5は、
    初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定するステップを含む、
    ことを特徴とする請求項3に記載のニューラルネットワークモデルの処理方法。
  8. ニューラルネットワークモデルの処理装置であって、
    前記ニューラルネットワークは、N層の処理層を含み、Nは、正の整数であり、前記装置は、
    第iの処理層の入力データを取得し、前記入力データを複数のカプセルノードに転化するための取得モジュールであって、前記入力データは、j次元を有する複数のニューロンベクトルを含み、iとjは、N以下の正の整数である取得モジュールと、
    前記複数のカプセルノードをアフィン変換して、前記複数のカプセルノードに対応するアフィンノードを生成するための第1の生成モジュールと、
    前記複数のカプセルノードに対応するアフィンノードに基づいて、前記第iの処理層の初期活性化入力値を決定するための決定モジュールと、
    第iの処理層の初期活性化入力値を活性化関数に入力して、前記第iの処理層の初期活性化出力値を生成するための第2の生成モジュールと、
    前記初期活性化出力値に対応するアフィンノードに基づいて、前記第iの処理層の初期活性化入力値を再決定し、再決定された前記第iの処理層の初期活性化入力値を活性化関数に入力して、前記第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を前記第iの処理層の活性化出力値として決定するための第3の生成モジュールと、を含む、
    ニューラルネットワークモデルの処理装置。
  9. 前記決定モジュールは、
    初期重みに基づいて前記複数のカプセルノードに対応するアフィンノードに対して加重加算を行って、前記第iの処理層の初期活性化入力値を生成するための第1の生成ユニットを含む、
    ことを特徴とする請求項8に記載のニューラルネットワークモデルの処理装置。
  10. 前記第2の生成モジュールは、
    前記初期活性化入力値に対応するモジュラス長を決定するための第1の決定ユニットと、
    前記初期活性化入力値に対応するモジュラス長及び第1の活性化閾値に基づいて、第1の出力値を生成するための第2の生成ユニットと、
    前記第1の出力値及び前記第1の活性化閾値より大きい第2の活性化閾値に基づいて、第2の出力値を生成するための第3の生成ユニットと、
    前記第2の出力値及び前記初期活性化入力値に対応するモジュラス長に基づいて、前記初期活性化出力値を生成するための第4の生成ユニットと、を含む、
    ことを特徴とする請求項8から9に記載のニューラルネットワークモデルの処理装置。
  11. 前記第2の生成ユニットは、
    前記初期活性化入力値に対応するモジュラス長が前記第1の活性化閾値より大きい場合、前記初期活性化入力値に対応するモジュラス長と前記第1の活性化閾値の差を計算し、前記差と、1と第1の活性化閾値との差の逆数である予め設定された傾きと、の積を前記第1の出力値とし、
    前記初期活性化入力値に対応するモジュラス長が前記第1の活性化閾値より小さい場合、前記第1の出力値は、0であることにさらに用いられる、
    ことを特徴とする請求項10に記載のニューラルネットワークモデルの処理装置。
  12. 前記第3の生成ユニットは、
    前記第1の出力値が前記第2の活性化閾値より大きい場合、前記第2の活性化閾値を前記第2の出力値とし、及び
    前記第1の出力値が前記第2の活性化閾値より小さい場合、前記第1の出力値を前記第2の出力値とすることにさらに用いられる、
    ことを特徴とする請求項10に記載のニューラルネットワークモデルの処理装置。
  13. 前記初期活性化出力値は、以下の式によって生成することができ、
    Figure 2021177368
    ここで、hは、前記初期活性化出力値であり、gは、前記第2の出力値であり、dは、前記初期活性化入力値であり、||d||は前記初期活性化入力値に対応するモジュラス長である、
    ことを特徴とする請求項10に記載のニューラルネットワークモデルの処理装置。
  14. 前記第3の生成モジュールは、
    初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第iの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第iの処理層の初期活性化出力値を第iの処理層の活性化出力値として決定することにさらに用いられる、
    ことを特徴とする請求項10に記載のニューラルネットワークモデルの処理装置。
  15. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項1〜7のいずれかに記載のニューラルネットワークモデルの処理方法を実行する、
    ことを特徴とする電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1〜7のいずれかに記載のニューラルネットワークモデルの処理方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータ上で動作しているときに、請求項1〜7のいずれかに記載のニューラルネットワークモデルの処理方法を前記コンピュータに実行させる、
    ことを特徴とするコンピュータプログラム。
JP2020217561A 2020-05-08 2020-12-25 ニューラルネットワークモデルの処理方法及び装置 Active JP7105297B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010390180.4A CN111709514A (zh) 2020-05-08 2020-05-08 神经网络模型的处理方法和装置
CN202010390180.4 2020-05-08

Publications (2)

Publication Number Publication Date
JP2021177368A true JP2021177368A (ja) 2021-11-11
JP7105297B2 JP7105297B2 (ja) 2022-07-22

Family

ID=72536932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020217561A Active JP7105297B2 (ja) 2020-05-08 2020-12-25 ニューラルネットワークモデルの処理方法及び装置

Country Status (5)

Country Link
US (1) US20210350228A1 (ja)
EP (1) EP3907664A1 (ja)
JP (1) JP7105297B2 (ja)
KR (1) KR20210047832A (ja)
CN (1) CN111709514A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159831A (zh) * 2021-03-24 2021-07-23 湖南大学 一种基于改进的胶囊网络的评论文本情感分析方法
CN114444187B (zh) * 2022-01-28 2023-07-18 河海大学 一种振动传递大数据与胶囊网络融合的桥梁损伤诊断方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10949737B2 (en) * 2016-07-13 2021-03-16 Samsung Electronics Co., Ltd. Method for neural network and apparatus performing same method
JP6901633B2 (ja) * 2017-10-27 2021-07-14 グーグル エルエルシーGoogle LLC カプセルニューラルネットワーク
US11514579B2 (en) * 2018-06-04 2022-11-29 University Of Central Florida Research Foundation, Inc. Deformable capsules for object detection
CN110046249A (zh) * 2019-03-11 2019-07-23 中国科学院深圳先进技术研究院 胶囊网络的训练方法、分类方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
REN,QIANG: "Adaptive Routing Between Capsules", ARXIV:1911.08119V1, JPN6021051846, 19 November 2019 (2019-11-19), ISSN: 0004673380 *

Also Published As

Publication number Publication date
CN111709514A (zh) 2020-09-25
KR20210047832A (ko) 2021-04-30
US20210350228A1 (en) 2021-11-11
EP3907664A1 (en) 2021-11-10
JP7105297B2 (ja) 2022-07-22

Similar Documents

Publication Publication Date Title
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR102514434B1 (ko) 지식 표현 학습 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP7146991B2 (ja) 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP7058304B2 (ja) 異種グラフにおけるノード表現の生成方法、装置及び電子機器
WO2022000802A1 (zh) 深度学习模型的适配方法、装置及电子设备
KR102567635B1 (ko) 시맨틱 표현 모델을 트레이닝 하는 방법, 장치, 전자 기기 및 컴퓨터 기록 매체
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
JP7095209B2 (ja) グラフニューラルネットワークをプレトレーニングする方法、プログラム及び装置
KR102441475B1 (ko) 질문 분석 방법, 장치, 지식 기반 질문 응답 시스템 및 전자 기기
JP7083939B2 (ja) モデルの蒸留方法、装置、電子機器及び記憶媒体
JP2022013600A (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
JP2022505015A (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
JP7044839B2 (ja) エンドツーエンドモデルのトレーニング方法および装置
JP2021177368A (ja) ニューラルネットワークモデルの処理方法及び装置
EP3866166B1 (en) Method and apparatus for predicting mouth-shape feature, electronic device, storage medium and computer program product
KR102487260B1 (ko) 이미지 처리 방법, 장치, 전자 기기 및 저장 매체
JP2022028897A (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
KR20220003444A (ko) 옵티마이저 학습 방법, 장치, 전자 기기 및 판독 가능 기록 매체
JP7300005B2 (ja) 深層学習モデルの適応方法、装置及び電子機器
CN116030235A (zh) 目标检测模型训练方法、目标检测方法、装置和电子设备
CN112053362B (zh) 图像分割方法、装置、电子设备及存储介质
CN115688796B (zh) 用于自然语言处理领域中预训练模型的训练方法及其装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220401

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R150 Certificate of patent or registration of utility model

Ref document number: 7105297

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150