JP2021177368A

JP2021177368A - ニューラルネットワークモデルの処理方法及び装置

Info

Publication number: JP2021177368A
Application number: JP2020217561A
Authority: JP
Inventors: ジェンフェイ・ワン; Jianfei Wang; チォン・ポン; Cheng Peng; シュエフォン・ルオ; Xuefeng Luo; ウェイウェイ・ワン; Weiwei Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-08
Filing date: 2020-12-25
Publication date: 2021-11-11
Anticipated expiration: 2040-12-25
Also published as: CN111709514A; KR20210047832A; US20210350228A1; EP3907664A1; JP7105297B2

Abstract

【課題】ニューラルネットワークモデルの処理方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、第ｉの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定し、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を再決定し、再決定された第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定する。【選択図】図１

Description

本出願は、コンピュータ技術分野の人工知能技術分野に関し、特にニューラルネットワークモデルの処理方法及び装置に関する。

カプセルネットワークは、新しいニューラルネットワークモデリング思想であり、他のニューラルネットワークと比較して、カプセルネットワークは、各ニューロンノードの表現能力を増加させることにより、ネットワークの全体的な記述能力を強化する。具体的には、元々スカラー表現されたニューロンをベクトル表現に転化し、スカラーニューロンノードの場合、通常採用される活性化関数は、ｓｉｇｍｏｉｄ、ｒｅｌｕなどである。ここで、活性化関数は、ニューラルネットワークの設計において非常に重要な要素であり、主にニューラルネットワークに非線形変化の能力を導入し、ニューラルネットワークが非線形な論理推論能力を実現することに寄与する。

カプセルノードは、方向情報を導入し、ニューロンをベクトルの表現形式に拡張しているため、スカラーのニューロン活性化関数は、適用されない。したがって、この問題を解決するために、カプセルネットワークは、新しい活性化関数であるＳｑｕａｓｈ活性化関数を提供する。しかしながら、実際の応用において、Ｓｑｕａｓｈ活性化関数は、活性化状態のスパース性が不足する、活性化状態の高位更新が遅いという技術的な問題があり、既存のニューラルネットワークの性能が低いという欠点がある。

本出願は、ニューラルネットワークモデルの処理方法、装置、電子機器及び記憶媒体を提供する。

本出願の第１の側面の実施例は、ニューラルネットワークモデルの処理方法を提供し、前記ニューラルネットワークは、Ｎ層の処理層を含み、Ｎは、正の整数であり、前記方法は、
Ｓ１：第ｉの処理層（前記ｉは、前記Ｎ以下の正の整数である）の入力データを取得し、前記入力データを複数のカプセルノードに転化するステップであって、ここで、前記入力データは、ｊ次元（前記ｊは、前記Ｎ以下の正の整数である）を有する複数のニューロンベクトルを含むステップと、
Ｓ２：前記複数のカプセルノードをアフィン変換して、前記複数のカプセルノードに対応するアフィンノードを生成するステップと、
Ｓ３：前記複数のカプセルノードに対応するアフィンノードに基づいて、前記第ｉの処理層の初期活性化入力値を決定するステップと、
Ｓ４：第ｉの処理層の初期活性化入力値を活性化関数に入力して、前記第ｉの処理層の初期活性化出力値を生成するステップと、
Ｓ５：前記初期活性化出力値に対応するアフィンノードに基づいて、前記第ｉの処理層の初期活性化入力値を再決定し、再決定された前記第ｉの処理層の初期活性化入力値を活性化関数に入力して、前記第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を前記第ｉの処理層の活性化出力値として決定するステップと、を含む。

本出願の第２の側面の実施例は、ニューラルネットワークモデルの処理装置を提供し、前記ニューラルネットワークは、Ｎ層の処理層を含み、Ｎは、正の整数であり、前記装置は、
第ｉの処理層（前記ｉは、前記Ｎ以下の正の整数である）の入力データを取得し、前記入力データを複数のカプセルノードに転化するための取得モジュールであって、ここで、前記入力データは、ｊ次元（前記ｊは、前記Ｎ以下の正の整数である）を有する複数のニューロンベクトルを含む取得モジュールと、
前記複数のカプセルノードをアフィン変換して、前記複数のカプセルノードに対応するアフィンノードを生成するための第１の生成モジュールと、
前記複数のカプセルノードに対応するアフィンノードに基づいて、前記第ｉの処理層の初期活性化入力値を決定するための決定モジュールと、
第ｉの処理層の初期活性化入力値を活性化関数に入力して、前記第ｉの処理層の初期活性化出力値を生成するための第２の生成モジュールと、
前記初期活性化出力値に対応するアフィンノードに基づいて、前記第ｉの処理層の初期活性化入力値を再決定し、再決定された前記第ｉの処理層の初期活性化入力値を活性化関数に入力して、前記第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を前記第ｉの処理層の活性化出力値として決定するための第３の生成モジュールと、を含む。

本出願の第３の側面の実施例は、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが第１の側面のニューラルネットワークモデルの処理方法を実行する。

本出願の第４の側面の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、前記コンピュータに第１の側面のニューラルネットワークモデルの処理方法を実行させる。

上記出願における一つの実施例は、以下のような利点又は有益な効果を有する。第ｉの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定し、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を再決定し、再決定された第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定する。これにより、ニューラルネットワークの入力データで転化された複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを取得し、アフィンノードに基づいて、活性化関数の出力値を反復更新して、ニューラルネットワークモデルの最終的な活性化出力値を取得し、ニューラルネットワークの性能を向上させる。

なお、この部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をより理解するために使用されており、本出願を限定するものではない。
本出願の実施例１により提供されるニューラルネットワークモデルの処理方法のフローチャートである。本出願の実施例２により提供されるニューラルネットワークモデルの処理方法のフローチャートである。本出願の実施例により提供される既存の活性化関数の効果図である。本出願の実施例により提供されるＲｕｌｅｒ活性化関数の効果図である。本出願の実施例３により提供されるニューラルネットワークモデルの処理装置の概略構造図である。本出願の実施例のニューラルネットワークモデルの処理方法を実現するための電子機器のブロック図である。

以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするために図面には本出願の実施例の様々な詳細事項を含んでおり、図面は、単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構造の説明を省略する。

既存の技術において、ニューラルネットワークモデルの処理プロセスにおいて、採用された活性化関数は、Ｓｑｕａｓｈ活性化関数と呼ばれ、その式は、

であり、
ここで、ｊは、ｊ番目のベクトルノードを表す。Ｓ_ｊは、ｊ番目のベクトルノードの活性化前のベクトル値を表し、Ｖ_ｊは、ｊ番目のベクトルノードの活性化後のベクトル値を表す。

は、ベクトル

のｐ階のノルムを表す。

上記Ｓｑｕａｓｈ活性化関数の式に基づいて、Ｓｑｕａｓｈ活性化状態のモジュラス長Ｎ_ｊは、主に上式の右項の左半分に依存し、すなわち、

であり、

のため、

という結論を導き出して、これにより、Ｓｑｕａｓｈ活性化関数にスパース性不足の技術的な問題があることを引き起こす。

Ｓｑｕａｓｈ活性化状態のモジュラス長Ｎ_ｊに対して変数

について導関数を求め、導関数

を取得し、式から、勾配がｘの２乗の逆数とともに減少することがわかる。ｘが０．８より大きい場合、導関数

であり、活性化状態の高位更新が遅いという技術的な問題を引き起こす。

既存の技術におけるニューラルネットワークモデルの処理プロセスにおいて、活性化関数にはスパース性不足及び活性化状態の高位更新が遅いという問題があって、ニューラルネットワークの性能を低くなるという技術的な問題に対して、本出願は、ニューラルネットワークモデルの処理方法を提供し、第ｉの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定し、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を再決定し、再決定された第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定する。

以下、図面を参照して本出願の実施例のニューラルネットワークモデルの処理方法、装置、電子機器及び記憶媒体を説明する。

図１は、本出願の実施例一により提供されるニューラルネットワークモデルの処理方法のフローチャートである。

本出願の実施例は、当該ニューラルネットワークモデルの処理方法がニューラルネットワークモデルの処理装置に配置されることを例として説明し、当該ニューラルネットワークモデルの処理装置は、いずれかの電子機器に適用されることができ、当該電子機器がニューラルネットワークモデルの処理機能を実行する。

ここで、電子機器は、パーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣと略称する）、クラウド機器、モバイル機器などであってもよく、モバイル機器は、例えば、携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント、ウェアラブルデバイス等の各種オペレーティングシステムを有するハードウェア機器であってもよい。

図１に示すように、当該ニューラルネットワークモデルの処理方法は、以下のステップを含むことができる。
ステップＳ１、第ｉの処理層の入力データを取得し、入力データを複数のカプセルノードに転化する。

ここで、入力データは、ｊ次元を有する複数のニューロンベクトルを含み、ここで、ｉとｊは、Ｎ以下の正の整数である。

本出願の実施例において、ニューラルネットワークは、Ｎ層の処理層を含むことができ、ここで、Ｎは、正の整数である。ニューラルネットワークは、入力層、隠し層及び出力層を含む。ニューラルネットワークは、カプセルネットワークであってもよく、ここで、カプセルネットワークもＮ層の処理層を含み、ここで、Ｎは、正の整数である。

本出願の実施例において、ニューラルネットワークの第ｉの処理層の入力データを取得した後、入力データを複数のカプセルノードに転化することができる。ここで、第ｉの処理層は、入力層、隠し層及び出力層のいずれかの処理層であってもよい。

例えば、取得された入力データは、ａ＝［１、２、３、４、５、６］であり、ａは、６つのニューロンがあることを表し、ニューロンベクトルが２次元のベクトルであると仮定し、取得された入力データａを複数のカプセルノードが含まれるデータｂ＝［［１、２］、［３、４］、［５、６］］に転化することができ、ここの［１、２］、［３、４］及び［５、６］は、それぞれ一つのカプセルノードを表す。

ステップＳ２、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成する。

ここで、アフィン変換は、２次元平面における重要な変換であり、幾何学的に、１つの非特異線形変換を１つの平行移動変換に接続して構成される、２つのベクトル空間間の１つのアフィン変換又はアフィンマッピングとして定義されます。

本出願の実施例において、入力データを複数のカプセルノードに転化した後、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成することができる。これにより、ベクトルの特徴抽象能力を学習することにより、１近似特徴ノード間の集約を実現する。

以下、例を挙げて複数のカプセルノードをアフィン変換するプロセスを説明し、例えば、上記例示における複数のカプセルノードの次元は、すべて２であり、Ｍ＝［［０、１］、［１、０］］、集約した後各カプセルノードの新しい表現方式を取得し、ここでアフィンノードｃ＝ｂ＊Ｍになり、その中「＊」は、行列乗算を表し、最終的に複数のカプセルノードに対応するアフィンノードｃ＝［［２、１］、［４、３］、［６、５］］を取得することができる。

ステップＳ３、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定する。

本出願の実施例において、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成した後、初期重みに基づいて複数のアフィンノードに対して加重加算を行い、加重加算の結果を第ｉの処理層の初期活性化入力値とすることができる。これにより、初期重みに基づいて、第ｉの処理層の初期活性化入力値を決定し、初期活性化入力値の決定の精度を向上させる。

引き続き上記の例示を例として、初期重みｗに基づいて、アフィンノードｃに対して加重加算を行い、ｄを取得し、すなわちｄ＝Σｃ・ｗであり、ここで、ｗ＝［０．３３、０．３３、０．３３］、ｃ＝［［２、１］、［４、３］、［６、５］］であり、したがって、最終的にｄ＝［４、３］を算出する。さらに、加重加算の結果に基づいて第ｉの処理層の初期活性化入力値を決定する。

ステップＳ４、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成する。

本出願の実施例において、複数のカプセルノードに対応するアフィンノードに対して加重加算を行い、第ｉの処理層の初期活性化入力値を取得した後、初期活性化入力値を活性化関数に入力して、活性化関数で出力された第ｉの処理層の初期活性化出力値を取得する。

なお、ニューラルネットワークモデルの処理プロセスにおいて活性化関数を使用しない場合、各層の出力は、上層で入力された線形関数であり、ニューラルネットワークの層数に関わらず、出力は、入力の線形の組み合わせである。ニューラルネットワークモデルの処理プロセスにおいて活性化関数を使用する場合、活性化関数がニューロンに非線形要素を導入して、ニューラルネットワークが任意の非線形関数に任意に近づくことができるようにして、ニューラルネットワークは、多くの非線形モデルに応用されることができる。

本出願における活性化関数は、カプセルネットワークに対する新たな活性化関数Ｒｕｌｅｒであり、従来のＳｑｕａｓｈ活性化関数と異なっている。そのため、ニューラルネットワークモデル過程において、Ｓｑｕａｓｈ活性化関数を採用することにより、スパース性が不足すること、及び活性化状態の高位更新が遅いことが存在するという技術的な問題があり、既存のニューラルネットワークの性能が低いことを回避する。

ステップＳ５、初期活性化出力値に対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を再決定し、再決定された第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定する。

本出願の実施例において、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成した後、初期重みに基づいて初期活性化出力値に対して加重加算を行い、第ｉの処理層の初期活性化入力値を再生成し、再生成された第ｉの処理層の初期活性化入力値を活性化関数に入力して、新しい初期活性化出力値を取得する。このように繰り返して、予め設定された回数の反復を行い、活性化関数で最後に出力された値を第ｉの処理層の活性化出力値とする。ここで、反復の予め設定された回数は、実際の状況に応じて設定され、１回でも３回でもよいが、ここでは限定されない。

本出願の実施例のニューラルネットワークモデルの処理方法は、第ｉの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定し、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を再決定し、再決定された第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定する。これにより、ニューラルネットワークの入力データで転化された複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを取得し、アフィンノードに基づいて、活性化関数の出力値を反復更新して、ニューラルネットワークモデルの最終的な活性化出力値を取得し、ニューラルネットワークの性能を向上させる。

上記実施例に基づいて、ステップＳ４において、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成する場合、初期活性化入力値のモジュラス長、第１の活性化閾値及び第２の活性化閾値に基づいて初期活性化出力値を生成することができる。具体的な実現プロセスを図２に示し、図２は、本出願の実施例二により提供されるニューラルネットワークモデルの処理方法のフローチャートである。

図２に示すように、当該ニューラルネットワークモデルの処理方法は、以下のステップをさらに含むことができる。
ステップ２０１、第ｉの処理層の入力データを取得し、前記入力データを複数のカプセルノードに転化する。

ステップ２０２、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成する。

ステップ２０３、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定する。

本出願の実施例において、ステップ２０１〜ステップ２０３の実現プロセスは、上記実施例一におけるステップＳ１〜ステップＳ３の実現プロセスを参照することができ、ここでは説明を省略する。

ステップ２０４、初期活性化入力値に対応するモジュラス長を決定する。

本出願の実施例において、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定した後、初期活性化入力値に対応するモジュラス長を計算することができる。

なお、初期活性化入力値は、ベクトルであるため、ベクトルのサイズを計算することにより、初期活性化入力値に対応するモジュラス長を決定することができる。

一つの例示として、以下のような式によって初期活性化入力値に対応するモジュラス長を計算することができる。例えば、初期活性化入力値は、ｄ＝［４、３］であり、初期活性化入力値のモジュラス長は、||ｄ||であり、

、
方向は、

である。

ステップ２０５、初期活性化入力値に対応するモジュラス長及び第１の活性化閾値に基づいて、第１の出力値を生成する。

ここで、第１の活性化閾値は、ユーザが設定した最低活性化閾値を指す。

本出願の実施例において、初期活性化入力値に対応するモジュラス長を決定した後、初期活性化入力値に対応するモジュラス長を第１の活性化閾値と比較して、比較結果に基づいて第１の出力値を決定することができる。

ある状況において、初期活性化入力値に対応するモジュラス長は、第１の活性化閾値より大きく、初期活性化入力値に対応するモジュラス長と第１の活性化閾値の差を計算し、差と、１と第１の活性化閾値との差の逆数である予め設定された傾きと、の積を第１の出力値とする。

ある状況において、初期活性化入力値に対応するモジュラス長が第１の活性化閾値より小さいと決定され、第１の出力値は、０である。

例えば、第１の活性化閾値は、βであり、初期活性化入力値に対応するモジュラス長は、||ｄ||であり、最大値を選択して出力し（ｅ＝ｍａｘ（||ｄ||−β、０））、ここで、βは、ユーザで設定されることができる。傾きをｋ＝１／（１−β）に予め設定し、初期活性化入力値に対応するモジュラス長と第１の活性化閾値の差とゼロの間の最大値に傾きｋを乗じて、活性化関数の第１の出力値ｆ＝ｋ・ｅを取得する。

初期活性化入力値に対応するモジュラス長が第１の活性化閾値より小さい場合、ｅの値は、０であることがわかり、このような場合に、第１の出力値ｆ＝ｋ・ｅの値も０である。

これにより、設定された第１の活性化閾値に基づいて傾きを再計算することにより、活性化関数の入力値が１である場合、出力値も１であることを保証することができ、アクティベーションウィンドウを短縮しながら、学習速度に影響を与えないという目的を実現する。

ステップ２０６、第１の出力値及び第２の活性化閾値に基づいて、第２の出力値を生成する。

ここで、第２の活性化閾値が第１の活性化閾値より大きい、第１の活性化閾値を最低活性化閾値として設定し、第２の活性化閾値を最大活性化閾値として設定することができる。

本出願の実施例において、初期活性化入力値に対応するモジュラス長及び第１の活性化閾値のサイズに基づいて、第１の出力値を決定した後、さらに、第１の出力値と第２の活性化閾値のサイズの関係に基づいて、第２の出力値を決定する。

ある状況において、第１の出力値が第２の活性化閾値より大きいと決定され、第２の活性化閾値を第２の出力値とする。

なお、第２の活性化閾値は、活性化関数が表すことができる最大信号値を決定し、第１の出力値がこの信号値を超える場合、活性化関数の出力値を第２の活性化閾値とする。これにより、単一の大きなアクティベーション値が活性化関数全体に与える影響を低減することができる。

ある状況において、第１の出力値が第２の活性化閾値より小さいと決定され、第１の出力値を第２の出力値とする。

ステップ２０７、第２の出力値及び初期活性化入力値に対応するモジュラス長に基づいて、初期活性化出力値を生成する。

本出願の実施例において、初期活性化入力値と初期活性化入力値に対応するモジュラス長の比率を計算し、比率に第２の出力値を乗じた結果を初期活性化出力値とする。

ある状況において、以下のような式によって初期活性化出力値を計算することができ、式は、

であり、ここで、ｈは、初期活性化出力値であり、ｇは、第２の出力値であり、ｄは、初期活性化入力値であり、||ｄ||は、初期活性化入力値に対応するモジュラス長である。

ステップ２０８、初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、予め設定された反複回数に達するまで、第ｉの処理層の活性化出力値を生成する。

本出願の実施例において、活性化関数の初期活性化出力値を決定した後、初期活性化出力値に基づいて初期重みを更新する。一つの可能的な実現方式として、初期活性化出力値と初期活性化入力値の積を計算し、更新された重みは、初期重みに初期活性化出力値と初期活性化入力値の積を加えたものに等しくなる。ここで、ｗ’＝ｗ＋ｄ＊ｇという式によって表すことができる。ここで、ｗ’は、更新された重みを指し、ｗは、更新前の初期重みであり、ｄは、初期活性化入力値であり、ｇは、初期活性化出力値である。

なお、初期活性化入力値と初期活性化出力値を乗算すると、結果に基づいて、初期活性化入力値と初期活性化出力値の類似度を反映させることができる。

本出願の実施例において、初期活性化出力値に基づいて初期重みを更新した後、更新された初期重みに基づいて複数のカプセルノードに対応するアフィンノードに対して加重加算を行って、第ｉの処理層の初期活性化入力値を再生成する。具体的な実現プロセスは、上記実施例一の実現プロセスを参照し、ここでは説明を省略する。

さらに、再生成された初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定する。

ここで、予め設定された回数は、限定されるものではなく、１〜３回であってもよい。

本出願における活性化関数は、以下の式によって表されることができる。

ここで、Ｒｕｌｅｒは、活性化関数を表し、βは、第１の活性化閾値であり、αは、第２の活性化閾値であり、ｘは、初期活性化入力値である。まず、上記の式の導関数を取ると、導関数の値は、

であることがわかる。
||ｘ||＞βａｎｄｋ＊||ｘ||＜α
の活性化区間において、導関数は、一定値である。パラメータαを合理的に設定することにより、例えばα＝１である場合、活性化状態の最大値が１になるまで、同時に０から１の間の活性化状態での勾配が等しくなることを保証することができ、既存のニューラルネットワークの活性化関数の活性化状態の高位更新が遅いという問題を効率的に解決する。

β＞０である場合、（０、β］の区間範囲において、ノードがアクティベーションされることができない、すなわちノード状態値が０であることを保証することができる。したがって、活性化状態のスパース性を増加することができ、既存のニューラルネットワークの活性化関数において非活性化状態が結果の重ね合わせに影響を与える技術的な問題を回避する。

例えば、図３及び図４における活性化関数の効果図を参照すると、図３におけるＳｑｕａｓｈ活性化関数の効果図には活性化状態の高位更新が遅いという問題がある。しかしながら、本出願におけるＲｕｌｅｒ活性化関数の効果図において、０から１の間の活性化状態での勾配が等しくなり、活性化状態の高位更新が遅いという問題を効率的に解決する。

本出願の実施例のニューラルネットワークモデルの処理方法は、第ｉの処理層の初期活性化入力値を決定した後、初期活性化入力値に対応するモジュラス長を決定し、初期活性化入力値に対応するモジュラス長及び第１の活性化閾値に基づいて、第１の出力値を生成し、第１の出力値及び第２の活性化閾値に基づいて、第２の出力値を生成し、第２の出力値及び初期活性化入力値に対応するモジュラス長に基づいて、初期活性化出力値を生成し、初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、予め設定された反複回数に達するまで、第ｉの処理層の活性化出力値を生成する。これにより、初期活性化入力値に基づいて、初期活性化出力値を決定した後、初期活性化出力値に基づいて初期重みを更新して、活性化関数の出力値を反復更新して、ニューラルネットワークの性能を向上させる。

上記実施例を実現するために、本出願は、ニューラルネットワークモデルの処理装置を提供する。

図５は、本出願の実施例３により提供されるニューラルネットワークモデルの処理装置の概略構造図である。

図５に示すように、ニューラルネットワークは、Ｎ層の処理層を含み、ここで、Ｎは、正の整数であり、当該ニューラルネットワークモデルの処理装置５００は、取得モジュール５１０と、第１の生成モジュール５２０と、決定モジュール５３０と、第２の生成モジュール５４０と、第３の生成モジュール５５０と、を含むことができる。

ここで、取得モジュール５１０は、第ｉの処理層の入力データを取得し、入力データを複数のカプセルノードに転化することに用いられ、ここで、入力データは、ｊ次元を有する複数のニューロンベクトルを含み、ここで、ｉとｊは、Ｎ以下の正の整数である。
第１の生成モジュール５２０は、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成することに用いられる。
決定モジュール５３０は、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定することに用いられる。
第２の生成モジュール５４０は、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成することに用いられる。
第３の生成モジュール５５０は、初期活性化出力値に対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を再決定し、再決定された第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定することに用いられる。

ある状況において、決定モジュール５３０は、
初期重みに基づいて複数のカプセルノードに対応するアフィンノードに対して加重加算を行って、第ｉの処理層の初期活性化入力値を生成するための第１の生成ユニットを含むことができる。

ある状況において、第２の生成モジュール５４０は、
初期活性化入力値に対応するモジュラス長を決定するための第１の決定ユニットと、
初期活性化入力値に対応するモジュラス長及び第１の活性化閾値に基づいて、第１の出力値を生成するための第２の生成ユニットと、
第１の出力値及び第１の活性化閾値より大きい第２の活性化閾値に基づいて、第２の出力値を生成するための第３の生成ユニットと、
第２の出力値及び初期活性化入力値に対応するモジュラス長に基づいて、初期活性化出力値を生成するための第４の生成ユニットと、を含むことができる。

ある状況において、第２の生成ユニットは、
初期活性化入力値に対応するモジュラス長が第１の活性化閾値より大きい場合、初期活性化入力値に対応するモジュラス長と第１の活性化閾値の差を計算し、差と、１と前記第１の活性化閾値との差の逆数である予め設定された傾きと、の積を第１の出力値とし、
初期活性化入力値に対応するモジュラス長が第１の活性化閾値より小さい場合、第１の出力値は、０であることにさらに用いられる。

ある状況において、第３の生成ユニットは、
第１の出力値が第２の活性化閾値より大きい場合、第２の活性化閾値を第２の出力値とし、及び
第１の出力値が第２の活性化閾値より小さい場合、第１の出力値を第２の出力値とすることにさらに用いられる。

ある状況において、初期活性化出力値は、以下の式によって生成することができ、

ここで、ｈは、初期活性化出力値であり、ｇは、第２の出力値であり、ｄは、初期活性化入力値であり、||ｄ||は、初期活性化入力値に対応するモジュラス長である。

ある状況において、第３の生成モジュール５５０は、
初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定することにさらに用いられる。

本出願の実施例のニューラルネットワークモデルの処理装置は、第ｉの処理層の入力データを取得し、入力データを複数のカプセルノードに転化し、複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを生成し、複数のカプセルノードに対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を決定し、第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を生成し、初期活性化出力値に対応するアフィンノードに基づいて、第ｉの処理層の初期活性化入力値を再決定し、再決定された第ｉの処理層の初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定する。これにより、ニューラルネットワークの入力データで転化された複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを取得し、アフィンノードに基づいて、活性化関数の出力値を反復更新して、ニューラルネットワークモデルの最終的な活性化出力値を取得し、ニューラルネットワークの性能を向上させる。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図６は、本出願の実施例に係るニューラルネットワークモデルの処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図６に示すように、当該電子機器は、一つ又は複数のプロセッサ６０１と、メモリ６０２と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図６では、一つのプロセッサ６０１を例とする。

メモリ６０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本出願により提供されるニューラルネットワークモデルの処理方法を実行することができるようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供されるニューラルネットワークモデルの処理方法を実行するためのコンピュータ命令を記憶する。

メモリ６０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるニューラルネットワークモデルの処理方法に対応するプログラム命令／モジュール（例えば、図５に示す取得モジュール５１０、第１の生成モジュール５２０、決定モジュール５３０、第２の生成モジュール５４０及び第３の生成モジュール５５０）ように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ６０１は、メモリ６０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アクティベーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるニューラルネットワークモデルの処理方法を実現する。

メモリ６０２は、ストレージプログラム領域とストレージデータ領域とを含むことができ、その中、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアクティベーションプログラムを記憶することができ、ストレージデータ領域は、ニューラルネットワークモデルの処理方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ６０２は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ６０２は、プロセッサ６０１に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してニューラルネットワークモデルの処理方法の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。

ニューラルネットワークモデルの処理方法の電子機器は、入力装置６０３と出力装置６０４とをさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３、及び出力装置６０４は、バス又は他の方式を介して接続することができ、図６では、バスを介して接続することを例とする。

入力装置６０３は、入力された数字又は文字情報を受信することができ、及びニューラルネットワークモデルの処理方法の電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳIＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアクティベーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上において、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アクティベーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

本出願の実施例の技術案によれば、ニューラルネットワークの入力データで転化された複数のカプセルノードをアフィン変換して、複数のカプセルノードに対応するアフィンノードを取得し、アフィンノードに基づいて、活性化関数の出力値を反復更新して、ニューラルネットワークモデルの最終的な活性化出力値を取得し、ニューラルネットワークの性能を向上させる。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の趣旨と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims

ニューラルネットワークモデルの処理方法であって、
前記ニューラルネットワークは、Ｎ層の処理層を含み、Ｎは、正の整数であり、前記方法は、
第ｉの処理層（前記ｉは、前記Ｎ以下の正の整数である）の入力データを取得し、前記入力データを複数のカプセルノードに転化するステップＳ１であって、前記入力データは、ｊ次元（前記ｊは、前記Ｎ以下の正の整数である）を有する複数のニューロンベクトルを含むステップＳ１と、
前記複数のカプセルノードをアフィン変換して、前記複数のカプセルノードに対応するアフィンノードを生成するステップＳ２と、
前記複数のカプセルノードに対応するアフィンノードに基づいて、前記第ｉの処理層の初期活性化入力値を決定するステップＳ３と、
第ｉの処理層の初期活性化入力値を活性化関数に入力して、前記第ｉの処理層の初期活性化出力値を生成するステップＳ４と、
前記初期活性化出力値に対応するアフィンノードに基づいて、前記第ｉの処理層の初期活性化入力値を再決定し、再決定された前記第ｉの処理層の初期活性化入力値を活性化関数に入力して、前記第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を前記第ｉの処理層の活性化出力値として決定するステップＳ５と、を含む、
ニューラルネットワークモデルの処理方法。
前記ステップＳ３は、
初期重みに基づいて前記複数のカプセルノードに対応するアフィンノードに対して加重加算を行って、前記第ｉの処理層の初期活性化入力値を生成するステップを含む、
ことを特徴とする請求項１に記載のニューラルネットワークモデルの処理方法。
前記ステップＳ４は、
前記初期活性化入力値に対応するモジュラス長を決定するステップと、
前記初期活性化入力値に対応するモジュラス長及び第１の活性化閾値に基づいて、第１の出力値を生成するステップと、
前記第１の出力値及び前記第１の活性化閾値より大きい第２の活性化閾値に基づいて、第２の出力値を生成するステップと、
前記第２の出力値及び前記初期活性化入力値に対応するモジュラス長に基づいて、前記初期活性化出力値を生成するステップと、を含む、
ことを特徴とする請求項１から２のいずれかに記載のニューラルネットワークモデルの処理方法。
前記初期活性化入力値に対応するモジュラス長及び第１の活性化閾値に基づいて、第１の出力値を生成するステップは、
前記初期活性化入力値に対応するモジュラス長が前記第１の活性化閾値より大きい場合、前記初期活性化入力値に対応するモジュラス長と前記第１の活性化閾値の差を計算し、前記差と、１と前記第１の活性化閾値との差の逆数である予め設定された傾きと、の積を前記第１の出力値とするステップと、
前記初期活性化入力値に対応するモジュラス長が前記第１の活性化閾値より小さい場合、前記第１の出力値は、０であるステップと、を含む、
ことを特徴とする請求項３に記載のニューラルネットワークモデルの処理方法。
前記第１の出力値及び第２の活性化閾値に基づいて、第２の出力値を生成するステップは、
前記第１の出力値が前記第２の活性化閾値より大きい場合、前記第２の活性化閾値を前記第２の出力値とするステップと、
前記第１の出力値が前記第２の活性化閾値より小さい場合、前記第１の出力値を前記第２の出力値とするステップと、を含む、
ことを特徴とする請求項３に記載のニューラルネットワークモデルの処理方法。
前記初期活性化出力値は、以下の式によって生成することができ、

ここで、ｈは、前記初期活性化出力値であり、ｇは、前記第２の出力値であり、ｄは、前記初期活性化入力値であり、||ｄ||は、前記初期活性化入力値に対応するモジュラス長である、
ことを特徴とする請求項３に記載のニューラルネットワークモデルの処理方法。
前記ステップＳ５は、
初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定するステップを含む、
ことを特徴とする請求項３に記載のニューラルネットワークモデルの処理方法。
ニューラルネットワークモデルの処理装置であって、
前記ニューラルネットワークは、Ｎ層の処理層を含み、Ｎは、正の整数であり、前記装置は、
第ｉの処理層の入力データを取得し、前記入力データを複数のカプセルノードに転化するための取得モジュールであって、前記入力データは、ｊ次元を有する複数のニューロンベクトルを含み、ｉとｊは、Ｎ以下の正の整数である取得モジュールと、
前記複数のカプセルノードをアフィン変換して、前記複数のカプセルノードに対応するアフィンノードを生成するための第１の生成モジュールと、
前記複数のカプセルノードに対応するアフィンノードに基づいて、前記第ｉの処理層の初期活性化入力値を決定するための決定モジュールと、
第ｉの処理層の初期活性化入力値を活性化関数に入力して、前記第ｉの処理層の初期活性化出力値を生成するための第２の生成モジュールと、
前記初期活性化出力値に対応するアフィンノードに基づいて、前記第ｉの処理層の初期活性化入力値を再決定し、再決定された前記第ｉの処理層の初期活性化入力値を活性化関数に入力して、前記第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を前記第ｉの処理層の活性化出力値として決定するための第３の生成モジュールと、を含む、
ニューラルネットワークモデルの処理装置。
前記決定モジュールは、
初期重みに基づいて前記複数のカプセルノードに対応するアフィンノードに対して加重加算を行って、前記第ｉの処理層の初期活性化入力値を生成するための第１の生成ユニットを含む、
ことを特徴とする請求項８に記載のニューラルネットワークモデルの処理装置。
前記第２の生成モジュールは、
前記初期活性化入力値に対応するモジュラス長を決定するための第１の決定ユニットと、
前記初期活性化入力値に対応するモジュラス長及び第１の活性化閾値に基づいて、第１の出力値を生成するための第２の生成ユニットと、
前記第１の出力値及び前記第１の活性化閾値より大きい第２の活性化閾値に基づいて、第２の出力値を生成するための第３の生成ユニットと、
前記第２の出力値及び前記初期活性化入力値に対応するモジュラス長に基づいて、前記初期活性化出力値を生成するための第４の生成ユニットと、を含む、
ことを特徴とする請求項８から９に記載のニューラルネットワークモデルの処理装置。
前記第２の生成ユニットは、
前記初期活性化入力値に対応するモジュラス長が前記第１の活性化閾値より大きい場合、前記初期活性化入力値に対応するモジュラス長と前記第１の活性化閾値の差を計算し、前記差と、１と第１の活性化閾値との差の逆数である予め設定された傾きと、の積を前記第１の出力値とし、
前記初期活性化入力値に対応するモジュラス長が前記第１の活性化閾値より小さい場合、前記第１の出力値は、０であることにさらに用いられる、
ことを特徴とする請求項１０に記載のニューラルネットワークモデルの処理装置。
前記第３の生成ユニットは、
前記第１の出力値が前記第２の活性化閾値より大きい場合、前記第２の活性化閾値を前記第２の出力値とし、及び
前記第１の出力値が前記第２の活性化閾値より小さい場合、前記第１の出力値を前記第２の出力値とすることにさらに用いられる、
ことを特徴とする請求項１０に記載のニューラルネットワークモデルの処理装置。
前記初期活性化出力値は、以下の式によって生成することができ、

ここで、ｈは、前記初期活性化出力値であり、ｇは、前記第２の出力値であり、ｄは、前記初期活性化入力値であり、||ｄ||は前記初期活性化入力値に対応するモジュラス長である、
ことを特徴とする請求項１０に記載のニューラルネットワークモデルの処理装置。
前記第３の生成モジュールは、
初期活性化出力値に基づいて初期重みを更新し、更新された初期重みに基づいて初期活性化入力値を再生成し、再生成された初期活性化入力値を活性化関数に入力して、第ｉの処理層の初期活性化出力値を再生成し、このように予め設定された回数を繰り返し、最後に生成された第ｉの処理層の初期活性化出力値を第ｉの処理層の活性化出力値として決定することにさらに用いられる、
ことを特徴とする請求項１０に記載のニューラルネットワークモデルの処理装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項１〜７のいずれかに記載のニューラルネットワークモデルの処理方法を実行する、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１〜７のいずれかに記載のニューラルネットワークモデルの処理方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、請求項１〜７のいずれかに記載のニューラルネットワークモデルの処理方法を前記コンピュータに実行させる、
ことを特徴とするコンピュータプログラム。