JP2023525740A - 重み付き実数値論理の容量及び学習の最適化 - Google Patents

重み付き実数値論理の容量及び学習の最適化 Download PDF

Info

Publication number
JP2023525740A
JP2023525740A JP2022567784A JP2022567784A JP2023525740A JP 2023525740 A JP2023525740 A JP 2023525740A JP 2022567784 A JP2022567784 A JP 2022567784A JP 2022567784 A JP2022567784 A JP 2022567784A JP 2023525740 A JP2023525740 A JP 2023525740A
Authority
JP
Japan
Prior art keywords
neuron
activation
threshold
input
true
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022567784A
Other languages
English (en)
Other versions
JP7553203B2 (ja
Inventor
リュウス、フランソワ
リーゲル、ライアン
アハルワヤ、イスマイル、ユヌス
ハン、ナウィード、アグマド
フォス、エティエン、
マコンド、ヌディブフウォ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023525740A publication Critical patent/JP2023525740A/ja
Application granted granted Critical
Publication of JP7553203B2 publication Critical patent/JP7553203B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Feedback Control In General (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

重み付き実数値論理ゲートを実装するニューラルネットワークのニューロンへの最大入力重みと最小入力重みと間の比を表す最大表現力を受け取ることができる。ニューロンに関連付けられた演算子アリティを受け取ることができる。ニューロンへの入力に関連付けられた重み、真の閾値、及び活性化についてのニューロン閾値に関して、重み付き実数値論理ゲートに関連付けられた論理制約を定義することができる。論理制約に基づいて定式化された活性化最適化を解くことに基づいて、ニューロンの活性化関数に用いられるパラメータとして真の閾値を決定することができ、活性化最適化は、所与の演算子アリティ及び最大表現力について、ニューロンへの入力重みの分布幅を表す表現力とニューロンに対する勾配クオリティとの積を最大化する。ニューロンにおける活性化関数を使用して論理ニューロンのニューラルネットワークを訓練することができ、活性化関数は、決定された真の閾値を使用する。

Description

本発明は、一般にコンピュータ及びコンピュータ・アプリケーションに関し、より詳細には、ニューラルネットワーク及びニューロシンボリック(neuro-symbolic)ネットワークに関する。
人工知能の方法論は、様々な形式論理のシステムのいずれかを用いた原理的演繹的推論と、データ駆動型勾配最適化ニューラルネットワークとを含む。どちらのパラダイムにも、多くの長所と短所とがある。例えば、形式論理は解釈可能かつ検証可能であり、広く一般化できるが、計算量が多く、広範な領域のエキスパートの入力が必要であり、矛盾によって脱線することがある。一方、ニューラルネットワークは、未処理データもしくはノイズの多いデータ又はその両方に対しても良好な性能を発揮し、人間による設定をほとんど必要とせず、効率的に並列実行することができる。しかし、ニューラルネットワークは、大量の訓練データセットを必要とする場合があり、敵対的攻撃に弱い場合があり、解釈不能なブラックボックス特性を有することがある。
論理ニューロンのニューラルネットワークに実装された重み付き実数値論理を学習する方法は、一態様において、重み付き実数値論理ゲートを実装するニューラルネットワークのニューロンへの最大入力重みと最小入力重みとの間の比を表す最大表現力を受け取ることを含むことができる。本方法はまた、ニューロンに関連付けられた演算子のアリティを受け取ることを含むことができる。本方法は、ニューロンへの入力に関連付けられた重み、真の閾値、及び活性化についてのニューロン閾値に関して、重み付き実数値論理ゲートに関連付けられた論理制約を定義することをさらに含むことができる。本方法はまた、論理制約に基づいて定式化された活性化最適化を解くことに基づいて、ニューロンの活性化関数において使用されるパラメータとして真の閾値を決定することを含むことができる。活性化最適化は、所与の演算子アリティ及び最大表現力について、ニューロンへの入力重みの分布幅を表す表現力と、ニューロンに対する勾配クオリティとの積を最大化する。本方法はまた、ニューロンにおける活性化関数を使用して論理ニューロンのニューラルネットを訓練することを含むことができ、活性化関数は、決定された真の閾値を使用する。
システムは、一態様において、ハードウェアプロセッサを含むことができる。ハードウェアプロセッサにメモリデバイスを結合することができる。ハードウェアプロセッサは、重み付き実数値論理ゲートを実装するニューラルネットワークのニューロンへの最大入力重みと最小入力重みと間の比を表す最大表現力を受け取るように構成することができる。ハードウェアプロセッサはまた、ニューロンに関連付けられた演算子アリティを受け取るように構成することができる。ハードウェアプロセッサはまた、ニューロンへの入力に関連付けられた重み、真の閾値、及び活性化についてのニューロン閾値に関して、重み付き実数値論理ゲートに関連する論理制約を定義するように構成することができる。ハードウェアプロセッサはまた、活性化最適化を解くことに基づいて、ニューロンの活性化関数に用いられるパラメータとして真の閾値を決定するように構成することができる。活性化最適化は、論理制約に基づいて定式化することができる。活性化最適化は、所与の演算子アリティ及び最大表現力について、ニューロンへの入力重みの分布幅を表す表現力と、ニューロンに対する勾配クオリティとの積を最大化する。ハードウェアプロセッサはまた、ニューロンにおける活性化関数を使用して論理ニューロンのニューラルネットワークを訓練するように構成することができ、活性化関数は、決定された真の閾値を使用する。
本明細書に記載された1つ又は複数の方法を実行するために機械によって実行可能な命令のプログラムを格納したコンピュータ可読ストレージ媒体もまた提供することができる。
さらなる特徴、ならびに様々な実施形態の構造及び動作を、添付の図面を参照して以下に詳細に説明する。図中、同様の参照番号は、同一又は機能的に類似の要素を示す。
実施形態におけるニューロンのネットワーク内のニューロンを示す。 実施形態における論理ニューロンのネットワークの一例を示す。 実施形態における論理ニューロンのネットワークの一例を示す。 重み付き実数値論理の容量及び学習の最適化を提供することができる一実施形態におけるシステムの構成要素を示す図である。 実施形態における方法を示すフロー図である。 実施形態における真の閾値の例を示す図である。 実施形態におけるα保存シグモイド活性化関数を示す。 一実施形態における重み分布を示す。 一実施形態によるシステムを実装することができる例示的なコンピュータ又は処理システムの概略図である。 実施形態における例示的なユーザインターフェースの可視化を示す。
機械学習モデル、例えばニューラルネットワークを最適化するための様々なパラメータを決定することができるシステム、方法、及び技術が提示される。方法は、例えば、所与の最大表現力(maximum expressivity)(例えば、最大入力重みと最小入力重みとの間の比によって定義される)及び演算子のサイズ又はアリティ(オペランドの数)に対して活性化関数の関数勾配を最適化するために、論理ニューロン(例えば、重み付きオフセットLukasiewicz実数値強連言もしくは選言演算子又はその両方)などの重み付き実数値論理演算子の真の閾値(threshold-of-truth)(アルファ)、活性化関数及び論理制約(例えば、凸最適化線形プログラム)を決定することができる。一態様において、本システム、方法及び技術の実施形態によって決定される機械学習のための様々なパラメータは、機械学習における消失勾配問題、例えば、機械学習を困難にする小さすぎる勾配を有することに対処することが可能である。
人工ニューラルネットワーク(ANN)又はニューラルネットワーク(NN)は、機械学習モデルであり、入力データを予測又は分類するようにこれを訓練することができる。人工ニューラルネットワークは、連続的なニューロンの層を含むことができ、これらは、1つの層のニューロンの出力信号が重み付けされて次の層のニューロンに伝達されるように相互接続されている。所与の層のニューロンNiは、次の層の1つ又は複数のニューロンNjに接続することができ、NiからNjに伝送される信号に重み付けするために、各ニューロン-ニューロン接続Ni-Njに異なる重みwijを関連付けることができる。ニューロンNjは、その蓄積された入力に依存する出力信号を生成し、重み付けされた信号は、入力から出力ニューロン層までネットワークの連続する層にわたって伝搬され得る。人工ニューラルネットワーク機械学習モデルは、それぞれのニューロン層に関連付けられる重みのセットが決定される訓練段階を経験することができる。ネットワークは、ネットワークが訓練データから「学習」するにつれて重みが繰り返し更新される反復学習スキームで、訓練データのセットに供される。訓練動作を経て定められた重みを有する訓練済みモデルを適用して、新規データに基づいてタスクを実行することができる。
ニューラルネットワークの一例は、再帰型ニューラルネットワークであり、これは、時系列データ又は言語におけるセンテンスなどのシーケンスベースのデータを扱うことができる。再帰型ニューラルネットワークモデルは、一連のニューラルネットワークセルを有することができ、これらは、系列のデータとともに、以前の時間ステップにおける以前のニューラルネットワークからの活性化情報を入力として受け取る。
ファジィ論理は、古典論理のブール演算子を[0;1]の範囲の実数に対して作用する関数で置き換えた論理システムである。様々な式の真理値をその部分式(subformula)に基づいて評価する手段を超えて、ファジィ論理は、それ自体にファジィ真理値が割り当てられた、公理の知識ベース(理論)と共に、命題(又は述語)の真理値を互いに推論できるような算法を提供することを目指している。
重み付きファジィ論理では、論理式もしくはその構成要素又はその両方が、重要度、影響度、又はいくつかの関連する概念を表す実数値の重みを持つ。このような論理のシステムは、命題(一階論理に拡張した場合は述語)間の関係をより柔軟に表現することを可能にする。重み付きファジィ論理は、所与の式における各オペランドの効果を調整する連続的手段を与えるので、自動学習に適している。
例えば、Lukasiewicz論理は、実数値論理又は多値論理であり、センテンスに対して0又は1のみならず、その中間の任意の実数(例えば0.3)を真理値として割り当てることができる。Lukasiewicz論理の命題結合記号は、
Figure 2023525740000002
ならびに命題定数0及び1を含む。
ニューロシンボリック表現は、古典論理(又はファジー論理)と等価に動作するように制約されることができる、ニューラルネットワーク形式の重み付けされた実数値論理である。実施形態において、本システム及び方法は、例えば活性化関数に類似した古典論理関数を評価するニューロンを含むニューロシンボリック表現のための様々なパラメータを決定することができる。
例えば、一実施形態におけるニューラルネットワークは、論理ニューロンを含む。論理ニューロンは、AND、OR、IMPLIES、NOT、もしくはその他又はそれらの組合せなどの論理ゲートをエミュレートすることができる。論理ニューロンのニューラルネットワークは、論理規則を実装して論理的推論を実行するように訓練されることができる。論理ニューロンは、ニューラルネットワークにおいて使用されるいずれかのシグモイドニューロンと類似しているが、以下の性質が異なり得る。論理ニューロンの重みは、その出力が古典論理において行われる演算、例えばAND、OR、及びIMPLIESの挙動を反映するように制約される。論理ニューロンの入力及び出力は、真理値の境界であると理解される。真理値は、0から1の範囲であるが、これは、ある(例えば、定義された)閾値を上回る又は1を下回るように境界付けられているならば、例えば閾値αを上回る又は1-αを下回るならば、古典的に解釈することができる。これらは、通常どおりに評価することができ、又は、各入力の境界が出力及び他の入力の既知の境界に基づいて計算される、モーダスポネンスを実行するために使用することができる。モーダスポネンスとは、条件文(「pならばq」)が受け入れられ、かつ前件(p)が成立するならば、結論(q)を推論することができるという論理法則を指す。
ロジスティック関数S(x)=(1+exp(-x))-1及び選択された真の閾値0.5<α<1が与えられたならば、スケーリング及びオフセットされたα保存シグモイド(α-preserving sigmoid)
Figure 2023525740000003
を定義することは有用である。
その定義どおり、この関数は、Sα(α)=αかつSα(1-α)=1-αという性質を有する。このとき、j∈Nでインデックス付けされた論理ニューロンについて、通常の計算は
Figure 2023525740000004
であり、真理値入力x、入力重みwi,j、活性化閾値θ及び活性化出力aである。論理ニューロンへの入力は、他の論理ニューロンの出力、又は命題に関連した特殊ニューロンの出力とすることができる。演算を論理式でモデル化した結果として、入力セットIのサイズは非常に小さくなり得、例えば2項演算の場合はわずか2であるが、結合演算子(associative operator)はより多くの入力を有することができる。別の態様において、Iはより大きいが、ほとんどの重みwは0に等しいと考えることができる。
各ニューロンの活性化関数は、そのニューロン又はノードの出力を計算することができ、特定の論理演算又は演算のファミリーを表すように選択されることができる。ネットワーク内の各ノードは、その真理値の上界及び下界の値を出力として計算することができる。これらの上界及び下界の真理値は、各ノードにおいて連続変数であり、ネットワークを巡って渡される。これらの有界の真理値変数は、予測時又は推論時にノードにおいて計算され、これらは、入力に基づいて計算され、かつ、学習された重要度の重みにそれぞれ対応して計算される。
論理ニューロンに対する制約(例えば、論理制約)は、それらがモデル化しようとする演算の真理値表から、及び、「真」及び「偽」の値に対して確立された範囲から導出することができる。ある態様において、連続的な真理値は、その下界が少なくともαならば真とみなされ、その上界が高々1-αであれば偽とみなされる。α保存シグモイドを用いると、その線形引数の結果がこうした妥当な閾値の上又は下にあるように制約するだけで十分である。図6は、α保存シグモイド活性化関数を示す。
例として、例えば2値ANDの真理値表は、所与の制約のセットを示す。
Figure 2023525740000005
ここで、θは閾値、wは重みを表す。
例えば、制約を導出する際に、偽の論理値(0)は(1-α)として表され、真の論理値(1)はαとして表される。
より一般的には、(正の入力の)n項の連言は、以下の形式の制約を有し、
Figure 2023525740000006
一方、n項の選言は、以下の形式の制約を有する。
Figure 2023525740000007
例えば、(3)は、その入力のすべてが真であれば連言が真を返すことを要求し、(4)は、いずれかの入力が偽であれば、他の入力がすべて1であっても連言が偽を返すこと、すなわち、選言では真ならば逆に最大限に真を返すことを要求する。¬p=1-pとして定義された否定が与えられると、古典的恒等式p→q=¬p∨qは、含意が選言と同じ制約を使用することを許す。上記の2つの制約セットはド・モルガン(DeMorgan)の法則の下で等価であり、例えば、p∨q=¬(¬p∧¬q)である。
この制約の結果、論理ニューロンの通常の評価は、すべての入力が真及び偽の確立された範囲内にあれば、その範囲内の結果を与えることが保証される。
連言に対する形式
Figure 2023525740000008
、及び選言に対する形式
Figure 2023525740000009
の活性化線形入力について、制約は上記と等価であり、それぞれ、
Figure 2023525740000010
である。これは、形式
Figure 2023525740000011
の制約を示唆する。
ある態様において、真理値の境界に関して推論することで、ニューラルネットワークに論理推論を実装する際に固有の多くの課題が軽減される。境界は、推論中に真理値が取り得る4つの状態、すなわち、未知、既知の真、既知の偽、既知の矛盾、を表現するエレガントかつ直感的な機構を提供する。境界は、モーダスポネンスが非結果(nonresult)を返すことができる機構を提供する。境界に関する推論は、同じ命題に対する複数の証明を集約する能力を促進する。
ある入力の重みを0まで減少させることによって、これを効果的にIから除去することが望ましい場合がある。これを可能にするために、各重みに対してスラック変数(s)を導入して、重みが0になったときに(4)又は(5)のそれぞれの制約に違反することを可能にすることができる。
Figure 2023525740000012
=0又はw=0のいずれかの場合、これらは元の制約と一致する。最適化は、sでスケーリングするペナルティ項を含むように訓練損失関数を更新することによって、このようなパラメータ化を選択することを含むことができる。このペナルティ項の係数は、学習された演算がどの程度古典的であるかを制御し、最適化によってペナルティ項が0まで削減され場合、まさに古典的挙動が復元される。
図1は、実施形態における論理ニューロンのネットワーク内のニューロン又は論理ニューロンを示す。ニューロンへの重み付き入力は、ニューロンの活性化関数104に結果を入力する前に、ニューロン102の内部で重み付き和又は線形結合を通じて組み合わされる。図示の例では、範囲[0,1]の論理的真理値のベクトルxに対する論理的連言(AND)演算に対応する論理ニューロン102は、以下のようなニューロン活性化関数fへの引数として、Lukasiewiczファジーt-ノルム(三角ノルム)の形式で定義することができる。
Figure 2023525740000013
論理ニューロンは、1つ又は複数の入力オペランドx,x,..,x,..,xを受け取り、各オペランドは重要度を表すそれぞれの割り当てられた又は計算された重みw,w,..,w,..,wを有する。入力値は、定義された式t-Σw(1-x)に従って組み合わされ、ニューロン活性化関数fに入力される。「t」は、ニューロン活性化に対して期待される最大入力を表し、これは論理連言の出力が完全に真になる場合に相当する。
例として、連言(&、ANDとも)ニューロンは、
&(x)=f(t-w・(1-x))
として定義することができる。連言ニューロンに対する制約又は論理制約は、以下のように定義できる。
Figure 2023525740000014
実施形態において、システムは、論理ニューロンにおける活性化関数への引数において計算される、活性化関数への期待入力分布に対する表現力及び勾配クオリティ(gradient quality)の積を最大化するパラメータ化された活性化fについて、真の閾値及び活性化閾値を含むパラメータ値を決定する。実施形態において、制約付きニューロンにおいて:1.fは、奇の、単調増加、範囲[0,1]、アルファ(α)保存である; 2.閾値化の真の度合い(degree of truth)を定義する:例えば、0.5<α≦1;3.スラックsは入力の除去を可能にする;4.例えば、論理連言(AND)ニューロンへの1つの偽入力は、その出力を偽にする。
ニューロシンボリック表現は、論理式を形成する複数の論理ニューロンで形成されるニューラルネットワークを有することができる。図2A及び図2Bは、実施形態における論理ニューロンのネットワークの一例を示す図である。論理推論の一例は、「ひげ∧尾∧(レーザポインタ→追いかけ)),→猫」(ひげ AND 尾 AND (レーザポインタ IMPLIES 追いかけ) IMPLIES 猫)とすることができる。論理的推論の他の例は、「(猫∨犬)→ペット」((猫 OR 犬) IMPLIES ペット)とすることができる。任意の命題又は式に対する既知の真理値を、ニューラルネット最適化におけるグラウンドトゥルース(ground truth)として使用することができる。
図2Aは、実施形態における論理ニューロンを有するニューラルネットワークのユースケース例を示す論理ネットワークツリー構造である。図2Bは、図2Aのニューラルネットワークのユースケース例の論理ネットワークツリー構造における後ろ向き推論計算を示す。
図2Aは、実施形態における本明細書の方法に従って形成された、論理ニューロンを含むニューラルネットワーク(「ネット」又は「NN」)200のユースケースである。一般に、ニューラルネットワークは、一階論理に関して説明されるが、以下のユースケースでは、まず命題論理の範囲に限定してニューラルネットワークを説明する。
図2Aに示すように、論理結合記号又はエッジ212ごとに1つのニューロン210が存在し、命題/述語202ごとに1つのニューロン220が存在する。生成された各ニューロン210は、論理式205、208のシステムとの1対1対応を有し、そこで評価は論理的推論と等価である。論理ニューラルネットワークを生成するために、コンピューティング・システムは、任意のニューロン、例えば、クエリ式に関連するニューロンにおいて真理値(上界及び下界によって表される)を出力するのに使用するための入力、例えば、知識グラフ/予測入力データ/事実を受け取る。ニューロン210は、式構文ツリーに一致するように配置され、命題/述語ニューロン220は、証明された真理値を提供するとともに再帰的に集約する。一般に、否定(及び一階限定記号)は、パラメータを持たないパススルーノードである。示されるように、特定のニューロン210は、0と1の間の値の不確定性境界213を与える。各ニューロン210は、その計算が真理値の境界をもたらす、調整された活性化関数211を有する。双方向推論のさらなる方法が使用される。
図2Aに示すように、例示的なユースケース論理ネットワーク(ネット)200は、NNモデル作成時における論理式205に対応するように構築された、記号論理推論で示される、構文ツリーグラフ構造204を含む。論理ネットワークは、対応する論理式のシステムの構文ツリーの一部として、論理結合記号及び述語をノード及びエッジとして有する。図2Aには、同様にモデル作成時の入力論理式208に対応するように構築された第2の構文ツリー構造207が示されている。入力論理式205、208は、世界に関する規則であり、エキスパートによって作成されてもよく、又は、行き当たりばったり式(aphazard way)に生成されてもよく、例えば整数線形プログラミング(ILP)又は自然言語プログラミング(NLP)装置によって抽出されてもよい。式205、208は、既知の式又はその一部、すなわち部分式であってもよく、モデル作成時もしくは、予測もしくは推論時、又はその両方において修正を受けるか又は微調整されることができる。すなわち、式への特定の入力又は部分式への入力(例えばオペランド)は、その重要度に基づいて重み付けされ、その結果として、NNの構造の一部となる重要度重みを割り当てることができる。このように、式の各結合記号の各オペランドに、重要度重みが割り当てられているか、又は割り当てることができ、最適化されない限り、各式又は重みの修正を可能にする。
ユースケース例では、サブグラフ218について、「猫」ノードは、「犬」の2倍重要であるとして重み付けすることができ、したがって、式において「猫」が「犬」よりも影響力を有するという意味で結果を歪める、選言「OR」結合記号の修正バージョンである。
それぞれの式についての構文ツリーグラフ204、207の各々は、式中に存在する「ひげ」202A、「尾」202B、「レーザポインタ」202C、「追いかけ」202D、「猫」202E1、202E2、「犬」202F、及び「ペット」202Gを含む、定義された真理値(例えば、真又は偽)を有する入力命題202の初期リストに基づいて構築される。あるいは、これらの入力は、述語、例えば、その真理値が1つより多くの変数に依存するステートメントであってもよい。それぞれの推論又は含意の評価(例えば、「ひげ∧尾∧(レーザポインタ→追いかけ)),→猫」)及び推論又は含意の評価(例えば、「猫∨犬)→ペット」)をもたらす論理式205、208が適用される。図2Aでは、部分式は、対応する部分グラフ218として示されている(例えば、「猫∨犬」)。推論ルールは描かれていないが、特定の選択された論理、例えば、Lukasiewicz論理に基づいて、特定のノード210に存在する活性化関数211が描かれている。活性化関数211は、式205、208の中に存在する特定の論理結合記号、例えば、ノード210A、210B、210Cに対応して示される。例示的な古典的命題論理結合記号は、ブール演算を使用し、例えば、AND、OR、含意、否定、及び論理的等値を含み、1又は0として真理値を使用する。
図2Aに示す例示的なNN200に対応する、再帰的(双方向)後ろ向き推論(逆行経路)の例を図2Bに示す。システムが収束していない間、論理ネットワークの逆行トラバースが行われ、様々な命題の真理値を更新する。NNにおいて、ルートノード215からすべてのリーフまでのすべての経路をトラバースして、下向き方向の各ノードにおいて逆推論規則を評価する。ガイダンスのない実施形態において、各式に対する構文ツリーのルートからリーフへの経路を掃引して、深さ優先のトラバースが行われる。例えば、最初に評価される経路は、知識「猫」に基づいて連言を反証しようとするモーダストレンス・エッジ242であり、次いで、もし連言が偽であれば「ひげ」を反証しようとする連言の三段論法エッジ242Aである。そして、エッジ242Bにおいて次の連言三段論法評価を行うことができ、次いで、エッジ242Cにおいて、ノード210Bの部分表現(sub-expression)「レーザーポイントは追いかけを含意する」について評価を行うことができる、等である。
実施形態において、情報を以下の逆行経路に沿ってバックプロパゲーションして、ツリー204における逆関数計算を更新する。すなわち、連言ニューロン210Aにおける逆活性化関数計算によって「ひげ」述語202Aの真理値(上界及び下界)が更新される、矢印242、242Aによって示される経路;連言ニューロン210Aにおける逆活性化関数計算によって「尾」述語202Bの真理値(上界及び下界)が更新される、矢印242、242Bで示される経路;連言ニューロン210A及び含意ニューロン210Bにおける逆活性化関数計算によってレーザポインタ述語202Cの真理値(上界及び下界)が更新される、矢印242、242C、242Dによって示される経路;連言ニューロン210A及び含意ニューロン210Bにおける逆活性化関数計算によって「追いかけ」述語202Dの真理値(上界及び下界)が更新される、矢印242、242C、242Eで示される経路;及び含意ニューロン215における逆活性化関数計算によって「猫」述語202E1の真理値(上界及び下界)が更新される、矢印243で示される経路。同様に、以下の逆行経路をトラバースして、構文ツリー207における逆関数計算を行う。すなわち、選言ニューロン210Cにおける逆活性化関数計算によって「猫」述語202E2の真理値(上界及び下界)が更新される、矢印272、272Aで示される経路;選言ニューロン210Cにおける逆活性化関数計算によって「犬」述語202Fの真理値(上界及び下界)が更新される、矢印272、272Bで示される経路;及び含意ニューロン225における逆活性化関数計算によって「ペット」述語202Gの真理値(上界及び下界)が更新される、矢印273で示される経路。
一態様において、0と1との間の範囲の真理値の確率を提供する、すなわち0と1との間の値が真と偽との間のあいまいな混合である、ファジー論理が使用される。一実施形態において、アルファαは、例えば、0.5<α≦1の間の範囲の真の閾値として定義される。したがって、評価される任意の真理値は、αより大きい値が「真」とみなされ、量1-αより小さいあらゆる真理値が「偽」とみなされるように制約される。
活性化関数211は、各ニューロン210における、そのニューロンの出力を計算するための特定の関数であり、特定の論理演算を表すように選択されるか、又は特定の論理スキーム、例えば、Lukasiewicz論理と一致する論理演算を表す活性化関数のファミリーが選択される。例えば、部分式218に示すように、活性化関数は、入力の加算(和)として評価される選言関数である。図2Aに描かれた「重み付けなし」の場合の例では、ノード210Cにおける選言活性化関数は、値0又は1となるようにクランプされた出力を提供する。
実施形態において、実数値論理結合記号に対して、例示的な活性化関数は、以下のような制約に従って真理値を計算する。
連言(AND)の場合:
Figure 2023525740000015
ここでp及びqはオペランドであり、制約は、2つのオペランド値入力の和から1を引いて、0によって下にクランプされたものである。
選言(OR)の場合:
Figure 2023525740000016
すなわち、2つのオペランド入力値の和であって、1によって上にクランプされたものである。
含意(→)の場合:
Figure 2023525740000017
すなわち、選言に類似しているが、入力の1つが否定された(1-p)である。一例として、ノード210Aで示されるように、活性化関数は、連言関数である。図2Aに描かれた「重み付けなし」の場合の例では、Lukasiewicz論理に従う連言関数である活性化関数は、入力の加算(和)から要素の数を引き、1を加えたものとして評価される。
他の論理スキームに従う他の活性化関数を実施形態において使用することができる。さらに、NNの異なる部分において、異なるロジスティック関数を活性化関数として使用することができる。例えば、論理結合記号に対して「重み付き」Lukasiewicz論理スキームが使用され、ここで活性化関数は以下のように真理値を計算する。
ANDに対応するニューロンの活性化関数に対して、重み付きLukasiewiczのt-ノルムは以下のように定義される。
Figure 2023525740000018
そして、選言の場合(OR)、以下の関連付けられた重み付きt-コノルムを使用することができる。
Figure 2023525740000019
含意(→)の場合:
Figure 2023525740000020
上記の各制約において、βは演算を確立するバイアス項であり、重みwは重要度を表し、wは入力オペランドpの重みであり、wは入力オペランドqの重みである。バイアス項βは、1とすることができるが、他の値であってもよい。クランプの内部は超平面の表現又は式、すなわち重み(入力)ベクトル間のドット積+オフセットである。
実施形態におけるシステム及び方法は、このような上述したニューラルネットワークを訓練する際に使用される様々なパラメータを決定することができる。方法は、例えば実施形態において、特殊な人工ニューロンを用いて論理を実装及び学習することができ、例えば、観察から論理を見いだす問題、論理プログラムを修正する問題、及び論理的推論をニューラルネットワーク及び微分可能な学習システムに統合する問題に対処することができる。本方法は、ニューロン活性化関数を近似して、非ゼロ勾配を提供することができる。本方法はまた、相対的な勾配の大きさを定量化することもできる。本方法はまた、ニューロン入力重みの表現力を定義することもできる。本方法はまた、勾配クオリティと表現力との間のトレードオフを最適化することもできる。本方法はまた、論理ニューロンに対して最適な活性化関数と論理制約のセットとを定義することもできる。
勾配クオリティ(gradient quality)は、ニューロンの活性化関数の動作範囲における非ゼロもしくは比較的小さくない又はその両方の勾配の利用可能性に関するものであり、高い勾配クオリティは、ニューロンパラメータの変化に対して、真理値出力において非ゼロの比較的小さくない変化があることを保証する。勾配クオリティは、例えば、勾配降下を通じて学習が起こり得るように、すべての条件下で誤差勾配を計算する能力を保証することに関連する。実施形態において、勾配クオリティは、相対的スカラー尺度であり、比率平均されたフランク勾配を含む平均勾配である比率平均フランク勾配(ratio-averaged flanks gradient)に関して表すことができる。活性化関数(ニューロンの活性化関数)を最適化する際に、勾配クオリティ尺度を相対的に使用することができ、例えば、新しい最適条件における勾配クオリティが以前の最適条件おける勾配クオリティよりも高くなる最適化方向を選択する。比率平均フランク勾配が高い活性化関数は、比率平均フランク勾配が低い活性化関数よりも高いクオリティを有するとみなされる。表現力(expressivity)とは、ニューロンの最大入力重みに対する最小入力重みの比のことを意味し、論理ニューロンへの入力重みの分布幅に関係する。
真の閾値(threshold-of-truth)とは、それを上回ると実数値の真理値が真とみなされる限界を意味し、古典的な真/偽の真理値に関連した外部解釈(external interpretation)に使用することができる。実施形態において、真の閾値は、活性化関数の学習可能なパラメータとすることができる。真の閾値を表すための表記は「α」とすることができる。連続的な真理値は、その下界が少なくともαであれば真とみなされ、その上界が高々最大で1-αであれば偽とみなされる。図5は、実施形態における真の閾値(又は真の度合い)の一例を示す。実施形態では、最適化処理は、論理ニューロンのニューラルネットワークにおける機械学習のための真の閾値を決定する。実施形態において、論理ニューロンの制約は、それらがモデル化しようとする演算の真理値表から、及び、「真」及び「偽」の値に対して確立された範囲から導出することができる。連続した真理値は、その下界が少なくともαであれば真とみなされ、その上界が高々1-αであれば偽とみなされる。
ユーザ指定のアリティとユーザ指定の最大表現力とを有する演算子において、一実施形態における方法は、ユーザ指定の最大表現力における表現力と勾配クオリティとの積を最大化するアルファ(α)を計算する。一態様において、アルファは、古典的な真/偽の意味での真理値の外部解釈に使用できる真の閾値であり、これを1より小さく設定することによって、非ゼロ勾配を可能にする。例えば、非ゼロ勾配は、例えばバックプロパゲーションにおける機械訓練を容易にし、勾配消失の問題を軽減又は緩和することができる。
本明細書では、以下の表記も使用される。
アリティ(arity)とは、入力毎に重みパラメータが関連付けられて乗算される、ニューロンへの入力接続の数を意味する。
最大表現力(maximum expressivity)とは、ニューロン入力(ニューロンへの入力)の重み付けによって表現できる入力重要度における最大差を意味し、論理ニューロンによってサポートできる入力重みの差に対して保証を与える。
「t_max」は、ニューロン活性化に対して期待される最大入力の上界を意味し、これは論理ニューロン式の閾値の上界に対応する。それは、所与の制約下で論理ニューロン式の閾値を設定することができる最大値である。
「t」は、ニューロン活性化に対して期待される最大入力を意味し、これは論理連言の出力が完全に真となるところに対応する。
「t-sum(w)」(tからニューロンのwの和を引いたもの、ここでwは入力に関連付けられた重みを表す)は、論理ニューロンの活性化関数に対する最小期待入力を意味し、完全に偽の出力を有する論理連言に対応する。
本方法は、一実施形態において、ニューロン閾値の上界であるt_maxを計算し、制約付き線形プログラム(更新されたニューロンパラメータを算出する)におけるニューロン閾値であるtの上界をt_maxに無期限に設定する。t_maxは、演算子(例えば、AND演算子)の真理値表から導出される論理制約に基づいて計算することができる。システムが、アルファ<1に設定する真の閾値を有する場合(これは、ニューロンの動作範囲全体にわたって非ゼロ勾配を提供するので、通常の場合であり得る)、これは、t-sum(w)(1-アルファ)>=アルファの所与の制約を通じてニューロン入力重みのサイズ及び和も制約する。このことは、ニューロン入力重みの表現力又はバリエーションを所望のレベルで提供しながら、許容されるニューロン入力重みパラメータ領域を最小化し、最小凸領域は、最適化段階における大きな急峻なパラメータステップを低減するのに役立つ場合がある。
実施形態において、アリティ、最大表現力、アルファ、t_maxは、論理ニューロンの初期化段階で決定され、その後のすべての将来のニューロン重みパラメータ更新の間(例えば、学習の間)、固定されたまま保持される。実施形態において、学習方法は、現在の表現力における勾配クオリティを最適化するために、重み間の特定の重み差比までをサポートする現在の重み表現力に基づいて、論理ニューロンに関連付けられた真の閾値アルファを変更することを視野に入れることもできる。このアルファの変更は、現在の表現力が変化したとき、すなわち、ニューロン入力の重み比が変化したとき、例えば、最小重みに対する最大重みの比が変化したときに行うことができる。
実施形態において、すべての演算子は、それ自体の3区分(3-piece)leaky正規化線形ユニット(ReLU)活性化関数を保持することができ、それは、すべてのパラメータ更新後にt及びt-sum(w)において飽和するように更新される。定義された活性化関数目標(activation function objective)に従うと、3区分leaky ReLUは最適であり得る。簡単に言えば、ReLUは活性化関数の一種であり、ニューラルネットワークで使用することができる。leaky ReLUでは、x<0のとき、leaky ReLUは、関数がゼロになる代わりに、小さな負の傾き(例えば、0.01、又はその程度)を有することができる。
アリティと、表現力と、アルファとの間の関係に基づいて、観察を行うことができる。例えば、アリティの増加は、勾配クオリティを低下させ得る。この観察に基づいて、実施形態において、本明細書の方法は、最大許容アリティを設定し、合成及び結合性を利用して、小さなアリティゲートから大きなアリティゲートを構築することができる。
実施形態において、アルファの最適条件は、表現力と学習(勾配)の質との間のトレードオフを最大化するように決定される。最大重みと最小重みとの間の比を記述する表現力に加えて、スラック変数を導入することができる。スラックは、より高い表現力を必要とすることなく、それでもなお、(例えば、重み(w)をゼロに設定すること(例えば、w=0)によって)入力を完全に除去することを可能にする。例えば、学習段階中に各重みに対して制約付きスラック変数を導入して、さもなければ論理制約に違反するために実行不能であった重み値を、制約付き線形プログラムが設定することを(スラック変数を通じて)可能にすることができる。入力が減少した場合、有効アリティを、アルファ及びt_maxとともに再計算することができる。
本明細書における方法は、所与の最大表現力(例えば、最大入力重みと最小入力重みとの間の比によって定義される)及び演算子のサイズ又はアリティに対して活性化関数の関数勾配を最適化するために、論理ニューロンなどの重み付き実数値論理演算子(例えば、重み付きオフセットLukasiewicz実数値強連言又は選言演算子)の真の閾値(アルファ)、活性化関数及び論理制約(例えば、凸最適化線形プログラム)を決定する。実数値論理とは、真理値が連続的な範囲を含む多値論理のことを意味する。
実施形態における方法は、論理制約に緩和を導入し、そこより上では真理値が古典論理の真値のように挙動する不確定性である真の閾値(アルファ)と、そこより下では値が古典的な偽のように挙動する偽の閾値(1-アルファ)とを定義することによって、表現力及び機械学習の改善を可能にすることができる。
実施形態における方法は、所与の真の閾値について、その動作領域のそれぞれ真の閾値及び偽の閾値の上及び下の部分に対してのみ比率平均勾配を得ることによって、論理ニューロンの活性化関数に対する勾配クオリティの尺度を計算することができる。実施形態において、勾配クオリティは、相対的スカラー尺度であり、比率平均フランク勾配に関して測定することができる。
実施形態における方法は、最小重み及び表現力のみが与えられると重みの和を決定できるように重み分布をモデル化することによって、論理演算子の表現力又は容量をその論理制約に組み込んで表現力と真の閾値との間の関係を確立することができる。
図7は、一実施形態における重み分布を示す。実施形態において、表現力は、論理ニューロンへの最小入力重みに対する最大入力重みの比として決定される。例えば、表現力λ=Wmax/Wminである。例えば、Wmax=λWminである。重みの和は、
Figure 2023525740000021
と表すことができ、ここでnは入力重みの数又はアリティを表す。
実施形態において、一様分布及び正規分布のような対称重み分布に加えて、本方法は非対称重み分布も許容することができ、許容可能な表現力と真の閾値との間の関係を決定することができる。実施形態は、区間ごとの事象の量を記述するポアソン分布(逆もまた同様)に従って、入力重みをモデル化することができる。例えば、電子メール(eメール)に関係する例示的なユースケースにおいて、本方法の実施形態は、区間ごとの事象の量を記述するポアソン分布(逆もまた同様)に従って、例えば、不要な又は不適切なeメールをフィルタリングする論理フィルタにおいて所与の入力eメール(又はeメール受信ボックス)に対して1日に受信する又は作成される返信の数に従って、入力重みをモデル化することができる。eメールプロバイダの論理フィルタがeメールユーザ/受信ボックスの各々について受信するeメールのアクティビティ/カウントを解析するとき、論理規則は、これらの受信ボックスの各々において疑わしいeメールの受信(ブール条件)を入力として取り込み、疑わしいeメールが不要なeメールであるとみなされる場合に真、それ以外は偽である実数値論理出力を決定する。論理フィルタは、内部論理処理に基づくeメールの分類又はラベリングを提供することができる。例えば、eメールプロバイダは、その登録ユーザのために、eメールの保存、送信、受信、及びアクセスサービスをホストする。そのeメールが評判の良い送信元から来たものかどうかといったラベル又は分類を提供するために、論理フィルタが、ユーザの受信ボックスに届くすべてのeメールに対して自動的に適用される。論理フィルタは、例えば、eメール送信者アドレスドメインが送信eメールサーバードメインと同じであるかどうかといった、eメール又はユーザに関する外部条件に関連付けられた真理値を入力として取得する、1つ又は複数の論理規則に基づく内部処理を有することができる。開示された方法は、入力命題及びeメールの特徴に基づいて、あるeメールがどの程度疑わしいかを示すといったように、論理フィルタから実単位区間[0,1]真理値を生成することが可能である。ある入力eメールが疑いのあるeメールを受け取ったかどうかを命題とする論理演算子への入力重みは、このようにして、入力の影響を増大又は減少させることができる関連情報を取り込むことができる。例えば、論理演算子活性化を伴うニューロンのネットワークが多数の着信eメールを受信した場合、疑わしいeメールが予期され、その入力は重み付けを下げられ、すなわち、その入力(又はニューロン)の重みが低減される。例えば、論理フィルタが、通常は疑わしいeメールを受信しない多くの受信ボックスがすべて同じeメールを受信したことを観察した場合、このことは、このeメールが疑わしいことのより強い兆候である。一方、通常多くのeメールを受信する受信ボックスが疑わしいeメールも受信した場合、受信するeメールの数がはるかに少ない別の受信ボックスよりも、そのeメールを疑うための票としての重みが小さくなるであろう。
実施形態において、最小重みの下界は、表現力、演算子アリティ、及び真の閾値に関連して決定される。一様な表現力のみが所望される場合、システム全体にわたって表現力を1に設定することによって、計算を簡略化することができる。
実施形態における方法は、例えば、動作範囲最小(operating range minimum)において偽であり、偽の閾値入力に対して偽の閾値にあり、真の閾値入力に対して真の閾値にあり、動作範囲最大(operating range maximum)において真である区分的線形関数を形成することによって、論理動作範囲にわたって活性化関数の勾配を最適化するために所与の真の閾値について活性化関数を構築し及び継続的に更新することができる。実施形態において、偽の動作範囲は[0,1-アルファ]である。実施形態において、真の動作範囲は[アルファ,1]である。
実施形態における方法は、真の閾値を、表現力と最大表現力における勾配クオリティとの積を最大化する同じ値に、無期限に設定することができる。真の閾値は、現在の表現力に基づいて更新することができる。例えば、重みが学習され変更されるのに伴い、表現力を変更することができる。変更された表現力に基づいて、真の閾値を再計算又は更新することができる。
実施形態において、方法は、真の閾値を決定し、及び更新することを含むことができる。本方法はまた、ユーザ値選択のセットに基づいて実数値論理演算子の様々な局面及び特性を計算し、更新し、及び視覚化する、ユーザインターフェースを提供することを含むことができる。表現力及びアリティの関連する値を、実数値論理の様々な局面及び特性に基づいて決定することができる。例えば、本方法は、論理決定表面(logical decision surface)及び動作領域を視覚化し、それに対する表現力及びアリティの影響を分析し、また、表現力の下界を保証する実行可能なパラメータ領域を決定することができる。図9は、実施形態におけるユーザインターフェースの視覚化の一例を示す。視覚化は、活性化目標(activation objective)プロット902を提供する。このような活性化目標プロット902によって、ユーザは、ユーザが最大表現力又はアルファ値を設定するためにどのx値又はy値を望むかを決定することが可能になる。例えば、プロット又はグラフにおいて、y軸は表現力の設定を表し、x軸はアルファ値の設定を表す。プロット内の様々な点は、最大表現力及びアルファ値の異なる値に対する活性化を示している。このような視覚化は、限定されないが、シグモイド関数及びReLU関数(例えば、3区分leaky ReLU)などの異なる活性化関数について示すことができる。アリティ(演算子又は入力の数)の異なる値に対して、最大表現力対アルファ値の異なるプロットを示すことができる。
実施形態における方法は、入力を完全に除去することを可能にするために、定義された表現力の値の対応する変化を必要とすることなく、論理制約にスラックを導入して、入力がゼロ重みを受け取ることを可能にすることができる。
実施形態における方法は、真の閾値、アリティ、及び表現力を入力として取得する指定された式が与えられると、最大論理オフセット(例えば、重み付きオフセットLukasiewicz実数値強連言又は選言演算子に対する)及び論理制約における対応するオフセット上界を無期限に同じ値に設定することができる。
実施形態において、本方法は、活性化関数の学習可能なパラメータとして真の閾値を指定する。実施形態において、活性化関数の最適化は、論理機能を保証するための詳細を指定する。
真理値の境界に関して明示的に推論することで、ニューラルネットワークに論理推論を実装することに固有の多くの課題が軽減される。境界は、推論中に真理値が取り得る4つの状態、すなわち、未知、既知の真、既知の偽、既知の矛盾、を表現するエレガントかつ直観的な機構を提供する。境界は、モーダスポネンスが非結果を返すことができる機構を提供する。境界に関する推論は、同じ命題に対する複数の証明を集約する能力を促進する。
以下、AND演算又はゲートを実装する重み付き実数値論理演算子又は論理ニューロンの真の閾値(アルファ)、活性化関数及び論理制約(例えば凸最適化線形プログラム)を決定することを説明する。本システム及び方法は、他の論理ゲート又は演算に適用することも可能である。
実施形態において、範囲[0,1]の論理的真理値のベクトルxに対する論理連言又はAND演算に対応する論理ニューロンは、以下のようなニューロン活性化関数fへの引数であるLukasiewiczファジーt-ノルム(三角ノルム)の形式で定義することができる。
Figure 2023525740000022
以下、実施形態において表現力及び真の閾値アルファを定義することを説明する。式中、以下の表記を用いる。
tは、ニューロン閾値又はバイアスを表し、これはニューロン活性化関数への最大入力に対応する。
wは、論理ニューロンへの各入力に関連付けられた学習可能な重みパラメータのベクトルを表す。
αは、ニューロンの真の閾値を表し、それを上回る真理値(0と1の間)を古典的真であると解釈することができる。
nは、論理ニューロンのアリティ又は入力の数を表す。
λは、表現力、すなわち最小入力重みに対する最大入力重みの比を表す。
t_minは、ニューロン閾値の下界を表し、これはニューロン論理制約を満たしつつニューロン閾値を設定できる最小値に対応する。
w_minは、論理ニューロンへの入力重みのセットのうち、最小の入力重みを表す。
sは、スラック変数のベクトルを表し、論理ニューロンへの入力重みパラメータの各々に関連付けられるものである。これらのスラック変数は、制約充足の判断及び損失項の計算に使用されるが、それ以外の用途、例えば論理ニューロンの推論段階などでは使用されない。
s_iは、整数iでインデックス付けされたニューロン入力に関連付けられた特定のスラック変数を表す。
x_minは、論理ニューロンの動作範囲内の最小点を表し、これは論理ニューロンの活性化関数への期待される最小入力に対応する。
t_maxはニューロン閾値の上界を表し、これはニューロン論理制約を満たしつつニューロン閾値を設定できる最大値に対応する。
実施形態において、以下は、tの下界を定義する。
Figure 2023525740000023
実施形態において、以下は、tの上界を定義する。
Figure 2023525740000024
実施形態において、tの上界であるtmaxは、iに対する制約を選択することによって計算され、ここでwはtが可能な最大値になるように選択され、すなわちw=wminである。ここで使用されるアルファ値は、他の制約及びアルファに依存するすべての導出値の計算で使用される同じアルファ値とすることができる。実施形態において、所与の論理ニューロンに対して1つのアルファ値が存在し得る。他の論理ニューロンに対して、異なるアルファ値が存在し得る。
実施形態において、以下は、論理ニューロンの活性化関数への期待される最小入力であり、ニューロンの動作範囲の最小点であるxの下界を定義する。
Figure 2023525740000025
実施形態において、以下は、wminの下界を定義する。
Figure 2023525740000026
実施形態において、以下は、論理ニューロンの活性化関数の動作範囲の幅である論理帯域幅を定義する。論理帯域幅が大きいと必然的に勾配クオリティが小さくなり、一方、論理帯域幅が小さいと表現力が小さくなることを意味する。したがって、論理的帯域幅は、システムの最適化において、勾配クオリティと表現力とのバランスを取るための尺度となる。
Figure 2023525740000027
実施形態において、以下は、λ(表現力)の上界を定義する。
Figure 2023525740000028
上記で定義したtの下界、tの上界、xの下界、wminの下界、論理帯域幅、λの上界は、活性化最適化関数を定式化する際に使用される。
以下は、実施形態における活性化最適化を示す。最適化は、比率平均フランク勾配(gとして表される)及び表現力(λとして表される)を最大化する(活性化最適化)。
Figure 2023525740000029
gは勾配を表す。
以下は、上記の活性化最適化における比率平均フランク勾配を示す。実施形態において、比率平均フランク勾配は、比率平均された2つのフランク勾配を含む平均勾配である。実施形態において、区分的線形活性化関数は、xminからtmaxの領域及び0から1までの範囲にわたる、3つの接続された線形ラインを含む。xminから1-αまでの左の線形区分は、偽の出力に関連付けられ、1-αからαまでの中央の線形区分はファジー出力に関連付けられ、αからtmaxまで右の線形区分は真の出力に対応する。左の線形区分の勾配(左フランク)は、範囲1-αを領域幅1-α-xminで割ったものである。右の線形区分(右フランク)の勾配は、範囲1-αを領域幅tmax-αで割ったものである。
左及び右の線形区分の和に対する左の線形区分の領域幅比は、1-α-xminを1-α-xminとtmax-αの和で割ったものである。同様に、左及び右の線形区分の和に対する右の線形区分の領域幅比は、tmax-αを1-α-xminとtmax-αとの和で割ったものである。
このとき、比率平均フランク勾配は、左フランクの勾配(1-α)/(1-α-xmin)と左フランクの領域幅比との積に、右フランクの勾配(1-α)/(tmax-α)と右フランクの領域幅比との積を加えたものとなる。
導出された最適化関数
Figure 2023525740000030
は、関数gを最大化することを組み入れたものであり、表現力値λに関して関数を最大化する真の閾値αについて解かれる。この最適化関数において、xmin、tmaxは既知であるか、所与であるか、又は上述のように計算される。
ニューロンのアリティ及び表現力ラムダ(λ)は、ユーザが指定することができる。別の態様では、ニューロンのアリティ及び表現力ラムダ(λ)は、予め定義することができる。このとき、開示されたシステムもしくは方法又はその両方が、活性化目標を介してアルファを自動的に最適化することができる。アリティ、ラムダ(λ)及びアルファ(α)が既知になると、論理ニューロンは完全にインスタンス化され、重みの学習の準備ができた状態となる。重みが経時的に適応するにつれて、表現力ラムダ(λ)を現在の重みに必要な高い表現力に適合するように再計算することができ、ラムダ(λ)が変化したとき(ラムダ(λ)の変化に応答して)、アルファ(α)を再最適化することができる。
上式は、実数値論理回路又はゲートの容量及び機械学習(勾配)を最適化する。関数gは、3区分線形正規化活性化関数の表現力と比率平均フランク勾配という2つの注目すべき値を結合したものである。実施形態において、関数gは、表現力λと勾配クオリティとの間の乗算とすることができる。比率平均フランク勾配は、勾配に、3区分線形正規化活性化関数の全動作範囲に対する各フランク区間幅の比を乗じて、薄いフランク区間が勾配クオリティ尺度に寄与することが少ない比率平均化を得たものである。次いで、表現力と勾配クオリティとの積を最大化する活性化関数fを上式によって決定し、これにより、異なる大きさの重みを表現力λまでサポートしつつ、論理ニューロンの全動作範囲において比較的小さくない勾配も与える活性化関数を、論理ニューロンに提供する。
実施形態において、上記活性化目標は、ラムダ(λ)、アルファ(α)及びアリティのみで記述することができる。活性化目標スカラー出力は、ラムダ(λ)、アルファ(α)及びアリティが与えられると計算することができ、これは表現力及び勾配クオリティの相対数を示す。アリティは論理ニューロン設計のために予め指定することができ、ユーザが論理ニューロンによってサポートされることを望む最大表現力ラムダ(λ)もまた指定することができる。ラムダ(λ)及びアリティが与えられると、活性化目標を最大化するために選択できる従属パラメータとして真の閾値アルファ(α)が残され、この選択は自動的に決定することができる。
別の態様において、例えば、所与のアリティについてのラムダ対アルファの2次元(2D)プロットなどを提供又は視覚化し、活性化目標を最大化するラムダとアルファとの組み合わせを選択することができる、ユーザインターフェース(例えば、図9に示す)などのインターフェースを提供することができる。図9は、例えば、軸及び単一アリティの選択を介して指定される入力トリプレット(アリティ、ラムダ、アルファ)に対して計算される、活性化目標スカラー出力値の等高線プロットを示す。同様のプロットを、より高い値のアリティの選択を有するように生成することができる。グラフィカルユーザインターフェースは、このようなプロットを視覚化して、ユーザが活性化目標を最大化するラムダとアルファとの組み合わせを選択することを可能にすることができる。
図3は、重み付き実数値論理の容量及び学習の最適化を提供することができる一実施形態におけるシステムの構成要素を示す図である。中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、及び/又はフィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、及び/又は別のプロセッサといった1つ又は複数のハードウェアプロセッサ302をメモリデバイス304に結合することができる。メモリデバイス304は、ランダム・アクセス・メモリ(RAM)、読出し専用メモリ(ROM)又は別のメモリデバイスを含むことができ、本明細書に記載される方法もしくはシステム又はその両方に関連する様々な機能を実装するためのデータもしくはプロセッサ命令又はその両方を格納することができる。1つ又は複数のプロセッサ302は、メモリ304に格納された、又は別のコンピュータデバイスもしくは媒体から受け取ったコンピュータ命令を実行することができる。メモリデバイス304は、例えば、1つ又は複数のハードウェアプロセッサ302の機能のための命令もしくはデータ又はその両方を格納することができ、オペレーティングシステム及び他の命令もしくはデータ又はその両方のプログラムを含むことができる。例えば、少なくとも1つのハードウェアプロセッサ302は、所与の最大表現力(例えば、最大入力重みと最小入力重みとの間の比によって定義される)及び演算子のサイズ又はアリティに対して活性化関数の関数勾配を最適化するために、重み付き実数値論理演算子もしくは論理ニューロン(例えば、重み付きオフセットLukasiewicz実数値強連言又は選言演算子)又はその両方の真の閾値(アルファ)、活性化関数及び論理制約(例えば凸最適化線形プログラム)を決定することができる。一態様において、入力データは、ストレージ・デバイス306に格納することができ、又は遠隔デバイスからネットワーク・インターフェース308を介して受け取ることができ、重み付き実数値論理の容量及び学習を最適化するためにメモリデバイス304に一時的にロードすることができる。学習された重み付き実数値論理は、例えば予測又は推論を行うために、メモリデバイス304に格納することができる。1つ又は複数のハードウェアプロセッサ302は、例えばネットワークを介して遠隔システムと通信するためのネットワーク・インターフェース308、及びキーボード、マウス、ディスプレイ、もしくはその他又はそれらの組合せなどの入力デバイスもしくは出力デバイス又はその両方のデバイスと通信するための入力/出力インターフェース310などのインターフェースデバイスと結合されてもよい。
図4は、一実施形態における方法を示すフロー図である。1つ又は複数のプロセッサ、例えばハードウェアプロセッサが、本明細書に記載された方法を実行する又は走らせることができる。本方法は、論理ニューロンのニューラルネットワークに実装された重み付き実数値論理を学習することができる。402において、本方法は、重み付き実数値論理ゲートを実装するニューラルネットワークのニューロンへの最大入力重みと最小入力重みとの間の比を表す最大表現力を受け取ることを含むことができる。404において、本方法は、ニューロンに関連付けられた演算子アリティを受け取ることを含むことができる。
406において、本方法は、ニューロンへの入力に関連付けられた重み、真の閾値、及び活性化についてのニューロン閾値に関して、重み付き実数値論理ゲートに関連付けられた論理制約を定義することを含むことができる。408において、本方法は、ニューロンの活性化関数に用いられるパラメータとして真の閾値を決定することを含むことができる。真の閾値は、論理制約に基づいて定式化された活性化最適化を解くことによって決定することができる。活性化最適化は、所与の演算子アリティ及び最大表現力について、ニューロンへの入力重みの分布幅を表す表現力と、ニューロンに対する勾配クオリティとの積を最大化する。実施形態において、勾配クオリティは、相対的スカラー尺度であり、比率平均フランク勾配で表すことができる。比率平均フランク勾配は、上述したように決定することができる。410において、本方法は、ニューロンにおける活性化関数を使用して論理ニューロンのニューラルネットを訓練することを含むことができ、活性化関数は、決定された真の閾値を使用する。
実施形態において、活性化関数は、シグモイド関数とすることができる。別の実施形態において、活性化関数は、3区分leaky正規化線形ユニット(ReLU)とすることができる。他の活性化関数を使用又は選択することができる。
実施形態において、本方法は、定義された論理制約を使用して、ニューロン閾値の下界と、ニューロン閾値の上界と、ニューロンの動作範囲の最小点を表す、ニューロンの入力の下界と、表現力、演算子アリティ及び真の閾値に関しての最小入力重みの下界と、ニューロンの活性化関数の動作範囲の幅を表す論理帯域幅と、表現力の上界とを定義する又は導出することを含むことができる。活性化最適化は、ニューロン閾値の下界、ニューロン閾値の上界、ニューロンの入力の下界、最小入力重みの下界、論理帯域幅、及び表現力の上界に基づいて定式化することが可能である。活性化最適化は、表現力、真の閾値、ニューロンの入力の下界、ニューロン活性化に期待される最大入力の上界に関して導出することができる。
本方法は、また、動作範囲最小において偽であり、偽の閾値入力に対して偽の閾値にあり、真の閾値入力に対して真の閾値にあり、動作範囲最大において真である区分的線形関数を形成することによって、論理動作範囲にわたって活性化関数の勾配を最適化するために、真の閾値について活性化関数を継続的に更新することを含むこともできる。
本方法は、また、より高い表現力を必要とすることなくニューロンの入力を除去することを可能にするために、ニューロンの入力に関連付けられたスラック変数を導入することを含むこともできる。実施形態において、ニューロンへの入力重みの和は、最小重み及び表現力のみが与えられると決定することができる。実施形態において、真の閾値は、現在の表現力に基づいて更新することができる。実施形態において、本方法は、また、重み付き実数値論理ゲートの特性を視覚化することを含むこともできる。
図8は、一実施形態においてシステムを実装することができる例示的なコンピュータ又は処理システムの概略図を示す。このコンピュータ・システムは、適切な処理システムの一例に過ぎず、本明細書に記載される方法の実施形態の使用範囲又は機能に関するいかなる限定の示唆も意図するものではない。示される処理システムは、多数の他の汎用コンピューティング・システム又は特定用途向けコンピューティング・システム環境もしくは構成で動作可能であり得る。図8に示される処理システムでの使用に適切であり得る周知のコンピューティング・システム、環境もしくは構成、又はそれらの組み合わせの例としては、これらに限定されるものではないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち式又はラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家電製品、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、及び上記のシステム又はデバイスのいずれかを含む分散型クラウド・コンピューティング環境などを含むことができる。
コンピュータ・システムは、コンピュータ・システムによって実行される、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般的に、プログラム・モジュールは、特定のタスクを実施するか、特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含むことができる。コンピュータ・システムは、通信ネットワークを介してリンクされる遠隔処理デバイスによってタスクが実施される分散型クラウド・コンピューティング環境で実施することができる。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカル・コンピュータ・システム・ストレージ媒体及び遠隔コンピュータ・システム・ストレージ媒体の両方に配置することができる。
コンピュータ・システムのコンポーネントは、これらに限定されるものではないが、1又は複数のプロセッサもしくは処理ユニット12と、システム・メモリ16と、システム・メモリ16を含む様々なシステム・コンポーネントをプロセッサ12に結合するバス14とを含むことができる。プロセッサ12は、本明細書に記載される方法を実施するモジュール30を含むことができる。モジュール30は、プロセッサ12の集積回路にプログラムすること、メモリ16、ストレージ・デバイス18、もしくはネットワーク24、からロードすること、又はその組み合わせが可能である。
バス14は、メモリ・バス又はメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、及び種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含む、幾つかのタイプのバス構造のうちのいずれかの1つ又は複数を表すことができる。限定ではなく例としては、このようなアーキテクチャは、業界標準アーキテクチャ(ISA:Industry Standard Architecture)バス、マイクロ・チャネル・アーキテクチャ(MCA:Micro Channel Architecture)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカル・バス、及びPeripheral Component Interconnect(PCI)バスを含む。
コンピュータ・システムは、種々のコンピュータ・システム可読媒体を含むことができる。このような媒体は、コンピュータ・システムによりアクセス可能ないずれかの利用可能媒体とすることができ、揮発性媒体及び不揮発性媒体の両方と、取り外し可能媒体及び取り外し不能媒体の両方とを含むことができる。
システム・メモリ16は、ランダム・アクセス・メモリ(RAM)もしくはキャッシュ・メモリ又はその両方など、揮発性メモリの形のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システムは、他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、取り外し不能の不揮発性磁気媒体(例えば「ハード・ドライブ」)との間の読み出し及び書き込みのために、ストレージ・システム18を設けることができる。図示されていないが、取り外し可能な不揮発性磁気ディスク(例えば、「フロッピー・ディスク」)との間の読み出し及び書き込みのための磁気ディスク・ドライブと、CD-ROM、DVD-ROM又は他の光媒体などの取り外し可能な不揮発性光ディスクとの間の読み出し及び書き込みのための光ディスク・ドライブとを設けることができる。このような例においては、それぞれを、1つ又は複数のデータ媒体インターフェースによって、バス14に接続することができる。
コンピュータ・システムは、キーボード、ポインティング・デバイス、ディスプレイ28等のような1つ又は複数の外部デバイス26、ユーザがコンピュータ・システムと対話することを可能にする1つ又は複数のデバイス、もしくはコンピュータ・システムが1つ又は複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデム等)又はその両方と通信することもできる。このような通信は、入力/出力(I/O)インターフェース20を介して行うことができる。
さらにまた、コンピュータ・システムは、ネットワーク・アダプタ22を介して、ローカル・エリア・ネットワーク(LAN)、汎用広域ネットワーク(WAN)もしくは公衆ネットワーク(例えば、インターネット)又はそれらの組み合わせなどの1つ又は複数のネットワーク24と通信することもできる。示されるように、ネットワーク・アダプタ22は、バス14を介して、コンピュータ・システムの他のコンポーネントと通信する。図示されないが、コンピュータ・システムと共に他のハードウェア・コンポーネントもしくはソフトウェア・コンポーネント又はその両方を使用できることを理解されたい。例として、これらに限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、及びデータ・アーカイブ・ストレージ・システム等が含まれる。
本発明は、システム、方法もしくはコンピュータ・プログラム製品又はそれらの組み合わせを、いずれかの可能な技術的詳細レベルで統合したものとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカードもしくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワークもしくは無線ネットワーク、又はそれらの組み合わせなどのネットワークを介して、外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、又はそれらの組み合わせを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語もしくは類似のプログラミング言語などの手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータもしくはサーバ上で実行される場合もある。後者のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、ならびにフローチャート図もしくはブロック図又はその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、コンピュータのプロセッサ、又は他のプログラム可能データ処理装置に与えて機械を製造し、それにより、コンピュータのプロセッサ又は他のプログラム可能データ処理装置によって実行される命令が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、特定の方式で機能するように、コンピュータ、プログラム可能データ処理装置もしくは他のデバイス又はその組み合わせに指示することができるコンピュータ可読媒体内に格納し、それにより、そこに命令が格納されたコンピュータ可読ストレージ媒体が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置、又は他のデバイス上で実行される命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロックにおいて指定された機能/動作を実施するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又は命令の一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、関与する機能に応じて、連続して示される2つのブロックが実際には同時に、実質的に同時に、部分的又は全体に時間的に重複する方法で実行されることもあり、又はこれらのブロックが場合によって逆順で実行されることもある。ブロック図もしくはフローチャート図又は両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方におけるブロックの組み合わせは、指定された機能又は動作を実行する、又は、専用ハードウェアとコンピュータ命令との組み合わせを実行する特定用途向けハードウェア・ベースのシステムによって実装できることにも留意されたい。
本明細書で用いられる用語は、特定の実施形態を説明することのみを目的とし、本発明を限定することを意図したものではない。本明細書で用いられる場合、単数形「1つの(a)」、「1つの(an)」及び「その(the)」は、文脈がそうでないことを明確に示していない限り、複数形も含むことを意図している。本明細書で用いられる場合、用語「又は(or)」は、包含的演算子であり、文脈がそうでないことを明白又は明確には示していない限り、「及び/又は」を意味し得る。さらに、本明細書で使用される場合、用語「含む(comprise)」、「含む(comprises)」、「含んでいる(comprising)」、「含む(include)」、「含む(includes)」、「including」もしくは「有している(having)」、又はそれらの組み合わせは、記載される特徴、整数、ステップ、動作、要素もしくはコンポーネント又はそれらの組み合わせの存在を指定するが、1つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネントもしくはグループ又はそれらの組み合わせの存在も又は追加も排除しないことが理解されるであろう。
以下の特許請求の範囲における「手段又はステップと機能との組み合わせ(ミーンズ又はステップ・プラス・ファンクション)」要素の対応する構造、材料、動作及び均等物は、明確に特許請求された他の請求された要素と共に機能を実行するための任意の構造、材料、又は行為を含むことを意図したものである。本発明の説明は、例証及び説明のためだけに提示されたものであり、網羅的であること又は本発明を開示した形態に限定することを意図したものではない。当業者には、本発明の範囲から逸脱しない多くの修正及び変形が明らかになるであろう。実施形態は、本発明の原理及び実際の用途を最もよく説明するため、及び、当業者が、企図した特定の用途に適するように種々の修正を有する種々の実施形態に関して本発明を理解することができるように、選択され記述された。

Claims (20)

  1. 論理ニューロンのニューラルネットワークに実装された重み付き実数値論理を学習する方法であって、
    重み付き実数値論理ゲートを実装するニューラルネットワークのニューロンへの最大入力重みと最小入力重みと間の比を表す最大表現力を受け取ることと、
    前記ニューロンに関連付けられた演算子アリティを受け取ることと、
    前記ニューロンへの入力に関連付けられた重み、真の閾値、及び活性化についてのニューロン閾値に関して、前記重み付き実数値論理ゲートに関連付けられた論理制約を定義することと、
    前記論理制約に基づいて定式化された活性化最適化を解くことに基づいて、前記ニューロンの活性化関数に用いられるパラメータとして前記真の閾値を決定することであって、前記活性化最適化は、所与の前記演算子アリティ及び前記最大表現力について、前記ニューロンへの入力重みの分布幅を表す表現力と、前記ニューロンに対する勾配クオリティとの積を最大化する、決定することと、
    前記ニューロンにおける前記活性化関数を使用して前記論理ニューロンのニューラルネットワークを訓練することであって、前記活性化関数は、決定された前記真の閾値を使用する、訓練することと、
    を含む方法。
  2. 前記活性化関数は、シグモイド関数を含む、請求項1に記載の方法。
  3. 前記活性化関数は、3区分leaky正規化線形ユニット(ReLU)を含む、請求項1に記載の方法。
  4. 定義された前記論理制約に基づいて、
    前記ニューロン閾値の下界を定義することと、
    前記ニューロン閾値の上界を定義することと、
    前記ニューロンの動作範囲の最小点を表す、前記ニューロンの入力の下界を定義することと、
    前記表現力、前記演算子アリティ、及び前記真の閾値に関して、最小入力重みの下界を定義することと、
    前記ニューロンの前記活性化関数の前記動作範囲の幅を表す論理帯域幅を定義することと、
    前記表現力の上界を定義することと、
    をさらに含み、
    前記活性化最適化は、前記ニューロン閾値の前記下界、前記ニューロン閾値の前記上界、前記ニューロンの入力の前記下界、前記最小入力重みの前記下界、前記論理帯域幅、及び前記表現力の前記上界に基づいて定式化される、請求項1に記載の方法。
  5. 前記活性化最適化は、前記表現力、前記真の閾値、前記ニューロンの入力の前記下界、及びニューロン活性化に期待される最大入力の上界に関して導出される、請求項4に記載の方法。
  6. 動作範囲最小において偽であり、偽の閾値入力に対して偽の閾値にあり、真の閾値入力に対して真の閾値にあり、動作範囲最大において真である区分的線形関数を形成することによって、論理動作範囲にわたって前記活性化関数の勾配を最適化するために、前記真の閾値について前記活性化関数を継続的に更新することをさらに含む、請求項1に記載の方法。
  7. より高い表現力を必要とすることなく前記ニューロンの入力を除去することを可能にするために、前記ニューロンの入力に関連付けられたスラック変数を導入することをさらに含む、請求項1に記載の方法。
  8. 前記ニューロンへの前記入力重みの和は、最小重み及び前記表現力のみが与えられると決定される、請求項1に記載の方法。
  9. 前記真の閾値は、現在の表現力に基づいて更新される、請求項1に記載の方法。
  10. 前記重み付き実数値論理ゲートの特性を可視化することをさらに含む、請求項1に記載の方法。
  11. 具体化されたプログラム命令をその中に有するコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品であって、前記プログラム命令は、デバイスによって実行可能であって、前記デバイスに、
    重み付き実数値論理ゲートを実装するニューラルネットワークのニューロンへの最大入力重みと最小入力重みと間の比を表す最大表現力を受け取ることと、
    前記ニューロンに関連付けられた演算子アリティを受け取ることと、
    前記ニューロンへの入力に関連付けられた重み、真の閾値、及び活性化についてのニューロン閾値に関して、前記重み付き実数値論理ゲートに関連付けられた論理制約を定義することと、
    前記論理制約に基づいて定式化された活性化最適化を解くことに基づいて、前記ニューロンの活性化関数に用いられるパラメータとして前記真の閾値を決定することであって、前記活性化最適化は、所与の前記演算子アリティ及び前記最大表現力について、前記ニューロンへの入力重みの分布幅を表す表現力と、前記ニューロンに対する勾配クオリティとの積を最大化する、決定することと、
    前記ニューロンにおける前記活性化関数を使用して前記論理ニューロンのニューラルネットワークを訓練することであって、前記活性化関数は、決定された前記真の閾値を使用する、訓練することと、
    を行わせる、コンピュータ・プログラム製品。
  12. 前記活性化関数は、シグモイド関数を含む、請求項11に記載のコンピュータ・プログラム製品。
  13. 前記活性化関数は、3区分leaky正規化線形ユニット(ReLU)を含む、請求項11に記載のコンピュータ・プログラム製品。
  14. 前記デバイスに、定義された前記論理制約に基づいて、
    前記ニューロン閾値の下界を定義することと、
    前記ニューロン閾値の上界を定義することと、
    前記ニューロンの動作範囲の最小点を表す、前記ニューロンの入力の下界を定義することと、
    前記表現力、前記演算子アリティ、及び前記真の閾値に関して、最小入力重みの下界を定義することと、
    前記ニューロンの前記活性化関数の前記動作範囲の幅を表す論理帯域幅を定義することと、
    前記表現力の上界を定義することと、
    を行わせ、
    前記活性化最適化は、前記ニューロン閾値の前記下界、前記ニューロン閾値の前記上界、前記ニューロンの入力の前記下界、前記最小入力重みの前記下界、前記論理帯域幅、及び前記表現力の前記上界に基づいて定式化される、請求項11に記載のコンピュータ・プログラム製品。
  15. 前記活性化最適化は、前記表現力、前記真の閾値、前記ニューロンの入力の前記下界、及びニューロン活性化に期待される最大入力の上界に関して導出される、請求項14に記載のコンピュータ・プログラム製品。
  16. 前記デバイスに、動作範囲最小において偽であり、偽の閾値入力に対して偽の閾値にあり、真の閾値入力に対して真の閾値にあり、動作範囲最大において真である区分的線形関数を形成することによって、論理動作範囲にわたって前記活性化関数の勾配を最適化するために、前記真の閾値について前記活性化関数を継続的に更新することをさらに行わせる、請求項11に記載のコンピュータ・プログラム製品。
  17. 前記デバイスに、より高い表現力を必要とすることなく前記ニューロンの入力を除去することを可能にするために、前記ニューロンの入力に関連付けられたスラック変数を導入することをさらに行わせる、請求項11に記載のコンピュータ・プログラム製品。
  18. 前記ニューロンへの前記入力重みの和は、最小重み及び前記表現力のみが与えられると決定される、請求項11に記載のコンピュータ・プログラム製品。
  19. 前記真の閾値は、現在の表現力に基づいて更新される、請求項11に記載のコンピュータ・プログラム製品。
  20. ハードウェアプロセッサと、
    前記ハードウェアプロセッサに結合されたメモリデバイスと
    を含むシステムであって、
    前記ハードウェアプロセッサは、少なくとも
    重み付き実数値論理ゲートを実装するニューラルネットワークのニューロンへの最大入力重みと最小入力重みと間の比を表す最大表現力を受け取ることと、
    前記ニューロンに関連付けられた演算子アリティを受け取ることと、
    前記ニューロンへの入力に関連付けられた重み、真の閾値、及び活性化についてのニューロン閾値に関して、前記重み付き実数値論理ゲートに関連付けられた論理制約を定義することと、
    前記論理制約に基づいて定式化された活性化最適化を解くことに基づいて、前記ニューロンの活性化関数に用いられるパラメータとして前記真の閾値を決定することであって、前記活性化最適化は、所与の前記演算子アリティ及び前記最大表現力について、前記ニューロンへの入力重みの分布幅を表す表現力と、前記ニューロンに対する勾配クオリティとの積を最大化する、決定することと、
    前記ニューロンにおける前記活性化関数を使用して前記論理ニューロンのニューラルネットワークを訓練することであって、前記活性化関数は、決定された前記真の閾値を使用する、訓練することと、
    を行うように構成される、システム。
JP2022567784A 2020-05-13 2021-03-18 重み付き実数値論理の容量及び学習の最適化 Active JP7553203B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/931,223 US11494634B2 (en) 2020-05-13 2020-05-13 Optimizing capacity and learning of weighted real-valued logic
US15/931,223 2020-05-13
PCT/IB2021/052265 WO2021229312A1 (en) 2020-05-13 2021-03-18 Optimizing capacity and learning of weighted real-valued logic

Publications (2)

Publication Number Publication Date
JP2023525740A true JP2023525740A (ja) 2023-06-19
JP7553203B2 JP7553203B2 (ja) 2024-09-18

Family

ID=78512517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022567784A Active JP7553203B2 (ja) 2020-05-13 2021-03-18 重み付き実数値論理の容量及び学習の最適化

Country Status (9)

Country Link
US (1) US11494634B2 (ja)
JP (1) JP7553203B2 (ja)
KR (1) KR20220159407A (ja)
CN (1) CN115552419A (ja)
AU (1) AU2021271230B2 (ja)
CA (1) CA3174744A1 (ja)
GB (1) GB2610531A (ja)
WO (1) WO2021229312A1 (ja)
ZA (1) ZA202103206B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115996173B (zh) * 2022-11-14 2023-06-20 中国科学技术大学 面向分布式深度学习算子并行训练的通信优化方法与系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226092A (en) * 1991-06-28 1993-07-06 Digital Equipment Corporation Method and apparatus for learning in a neural network
US6061673A (en) 1996-11-06 2000-05-09 Sowa Institute Of Technology Co., Ltd. Learning methods in binary systems
US9436909B2 (en) 2013-06-19 2016-09-06 Brain Corporation Increased dynamic range artificial neuron network apparatus and methods
US10248675B2 (en) * 2013-10-16 2019-04-02 University Of Tennessee Research Foundation Method and apparatus for providing real-time monitoring of an artifical neural network
CN104463330B (zh) 2014-12-02 2017-11-10 刘泊荣 一种知识地图的建立和学科知识导航方法
US10949736B2 (en) 2016-11-03 2021-03-16 Intel Corporation Flexible neural network accelerator and methods therefor
US10867238B2 (en) * 2016-12-20 2020-12-15 Intel Corporation Population-based connectivity architecture for spiking neural networks
EP3622406A4 (en) 2017-05-09 2021-01-20 SRI International Inc. DEEP ADAPTIVE SEMANTIC LOGICAL NETWORK
WO2019075267A1 (en) 2017-10-11 2019-04-18 Google Llc ARTIFICIAL NEURON NETWORK AUTO-SYNCHRONIZATION ACTIVATION LAYERS
US11816552B2 (en) 2017-10-26 2023-11-14 International Business Machines Corporation Dynamically reconfigurable networked virtual neurons for neural network processing
CA3032188A1 (en) 2018-01-31 2019-07-31 Pin-Han Ho Deep convolutional neural network architecture and system and method for building the deep convolutional neural network architecture
CN109871940B (zh) 2019-01-31 2021-07-27 清华大学 一种脉冲神经网络的多层训练算法
US11640539B2 (en) * 2019-07-08 2023-05-02 Vianai Systems, Inc. Techniques for visualizing the operation of neural networks using samples of training data
CN110610235B (zh) 2019-08-22 2022-05-13 北京时代民芯科技有限公司 一种神经网络激活函数计算电路
US11551054B2 (en) * 2019-08-27 2023-01-10 International Business Machines Corporation System-aware selective quantization for performance optimized distributed deep learning
US20210103804A1 (en) * 2019-10-02 2021-04-08 General Radar Corporation Neuron-Based Computational Machine
US11507843B2 (en) * 2020-03-30 2022-11-22 Western Digital Technologies, Inc. Separate storage and control of static and dynamic neural network data within a non-volatile memory array
US12045319B2 (en) * 2020-05-13 2024-07-23 International Business Machines Corporation First-order logical neural networks with bidirectional inference

Also Published As

Publication number Publication date
ZA202103206B (en) 2022-08-31
CN115552419A (zh) 2022-12-30
US20210357738A1 (en) 2021-11-18
WO2021229312A1 (en) 2021-11-18
GB2610531A (en) 2023-03-08
US11494634B2 (en) 2022-11-08
GB202218366D0 (en) 2023-01-18
CA3174744A1 (en) 2021-11-18
KR20220159407A (ko) 2022-12-02
JP7553203B2 (ja) 2024-09-18
AU2021271230B2 (en) 2023-05-18
AU2021271230A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
US7219035B2 (en) Exponential priors for maximum entropy models
US12045319B2 (en) First-order logical neural networks with bidirectional inference
US11775721B2 (en) Quantum circuit decomposition by integer programming
US11531886B2 (en) Bayesian graph convolutional neural networks
AlDahoul et al. A comparison of machine learning models for suspended sediment load classification
Alweshah et al. Improved water cycle algorithm with probabilistic neural network to solve classification problems
CN110837892A (zh) 基于带类型关系路径嵌入的事实溯因推理方法
JP7553203B2 (ja) 重み付き実数値論理の容量及び学習の最適化
Sadiq et al. Normal parameter reduction algorithm in soft set based on hybrid binary particle swarm and biogeography optimizer
Stocking et al. From robot learning to robot understanding: Leveraging causal graphical models for robotics
Chen et al. Fuzzified deep neural network ensemble approach for estimating cycle time range
Cherdo et al. Time series prediction and anomaly detection with recurrent spiking neural networks
Gallo et al. Sk-moefs: A library in python for designing accurate and explainable fuzzy models
Baugh et al. Neuro-symbolic Rule Learning in Real-world Classification Tasks
Yedjour et al. Extraction of the association rules from artificial neural networks based on the multiobjective optimization
Interian et al. Learning interpretable heuristics for WalkSAT
Yan et al. Robust deep semi-supervised learning with label propagation and differential privacy
CN116188220B (zh) 基于云学习的财务培训方法、系统、设备及存储介质
US20210342732A1 (en) Free-form integration of machine learning model primitives
Al Helal et al. A probabilistic model for automobile diagnosis system: Combining Bayesian estimator and expert knowledge
Dam A scalable evolutionary learning classifier system for knowledge discovery in stream data mining
Zainuddin et al. Predictive Analytics For Machine Failure Using optimized Recurrent Neural Network-Gated Recurrent Unit (GRU)
Nguyen et al. Fuzzy Generative Adversarial Networks
Pebesma Towards transfer learning in e-discovery: finding the optimal classifier and evaluating domain adaptation methods
Xiang Generalized non-impeding noisy-AND trees

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230810

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240813

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20240813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240903

R150 Certificate of patent or registration of utility model

Ref document number: 7553203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150