JP2022551104A

JP2022551104A - 不均一モデルタイプおよびアーキテクチャを使用した連合学習

Info

Publication number: JP2022551104A
Application number: JP2022520637A
Authority: JP
Inventors: クマール，ペレプサテシュ; アンキトジャウハリ，; スワルプクマールモハリク，; サラバナンエム，; アンシュシュクラ，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2019-10-04
Filing date: 2019-10-04
Publication date: 2022-12-07
Anticipated expiration: 2039-10-04
Also published as: EP4038519A4; JP7383803B2; US20220351039A1; CN114514519A; WO2021064737A1; EP4038519A1

Abstract

中央ノードまたはサーバ上での方法が提供される。本方法は、第１のユーザデバイスから第１のモデルを受信し、第２のユーザデバイスから第２のモデルを受信することであって、第１のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットを有し、第２のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットとは異なる第２の層のセットを有する、ことと、第１の層のセットの各層について、第１の層のセットの中の層から第１のフィルタのサブセットを選択することと、第２の層のセットの各層について、第２の層のセットの中の層から第２のフィルタのサブセットを選択することと、グローバルの層のセット中の各層について、層が、対応する第１のフィルタのサブセットおよび／または対応する第２のフィルタのサブセットに基づくフィルタを備えるように、第１の層のセットおよび第２の層のセットに基づいてグローバルの層のセットを形成することによってグローバルモデルを構成することと、グローバルモデルに対する全結合層を形成することであって、全結合層が、グローバルの層のセットの最終層となる、全結合層を形成することと、を含む。【選択図】図１

Description

不均一モデルタイプおよびアーキテクチャを使用した連合学習に関する実施形態が開示される。

過去数年間、機械学習は、タスクのオートメーションおよびデジタル化に関連した分野を含む、自然言語処理、コンピュータビジョン、音声認識、モノのインターネット（ＩｏＴ：ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）などの様々な分野において、大きなブレークスルーに至っている。この成功の多くは、適切な環境において大量のデータ（いわゆる「ビッグデータ」）を収集し、処理することに基づいている。機械学習のいくつかの用途に関して、データを収集するこの必要性によって、信じられないほどプライバシーが侵害されている可能性がある。

例えば、このようなプライバシーを侵害するデータ収集の例として、音声認識および言語翻訳のためのモデル、または人々がより迅速に入力するのを助けるために携帯電話上で入力される可能性が高い次の単語を予測するためのモデルについて考えてみる。いずれの場合においても、他の（個人化されていない）ソースからのデータを使用する代わりに、（特定のユーザが何を言っているか、または何を入力しているかなど）ユーザデータについてモデルを直接トレーニングすることが有益である。そうすることにより、予測を行うためにも使用される同じデータ分布上でモデルをトレーニングすることが可能になる。しかしながら、このようなデータを直接収集することは、様々な理由で、特にこのようなデータが極めて個人的であり得るという理由で、問題がある。ユーザは、自分らが入力したすべてのものを自分らの制御外のサーバに送信することに関心がない。ユーザが特に機密に関わり得るデータの他の例としては、金融データ（例えば、クレジットカード取引）、またはビジネスデータもしくは所有権をもつデータが含まれる。例えば、通信オペレータは（例えば、誤認アラームと実際のアラームとを判定するために）通信によってノードが作動することでトリガするアラームに関するデータを収集するが、このような通信オペレータは、通常、このデータ（顧客データを含む）を他のものと共有することを望まない。

これに対する一つの最近の解決策は、トレーニングデータがユーザのコンピュータから全く移らない機械学習への新しいアプローチである連合学習の導入である。ユーザのデータを共有する代わりに、個々のユーザは、ローカルで入手可能なデータを使用して重み付けの更新を自ら計算する。これは、集中型サーバ上でユーザのデータを直接調べることなく、モデルをトレーニングする方法である。連合学習は、トレーニングプロセスが多くのユーザ間で分散される機械学習の協同形態である。サーバにはすべてを調整する役割があるが、ほとんどの作業は中央エンティティによって実施されるのではなく、ユーザの連合によって代わりに実施される。

連合学習では、モデルが初期化された後、モデルを改善するために一定数のユーザをランダムに選択し得る。ランダムに選択された各ユーザは、サーバから現在の（またはグローバルの）モデルを受信し、ユーザのローカルで利用可能なデータを使用してモデル更新を計算する。これらの更新はすべて、サーバに送り返され、そこでモデル更新が平均化され、クライアントが使用したトレーニング標本の数で重み付けされる。次いで、サーバは、通常、何らかの形態の勾配降下を使用することによって、この更新をモデルに適用する。

現在の機械学習のアプローチは、大きなデータセットの利用が可能であることを必要とする。これらは大抵の場合、ユーザから膨大な量のデータを収集することによって作成される。連合学習は、データを直接見ることなくモデルをトレーニングすることを可能にする、より柔軟な技術である。学習アルゴリズムは分散方式で使用されるが、連合学習は機械学習がデータセンタで使用される方法とは非常に異なる。統計的分布に関する多くの保証を行うことはできず、ユーザとの通信は遅く不安定であることが多い。連合学習を効率的に実行できるようにするために、適切な最適化アルゴリズムを各ユーザデバイス内で適応させることができる。

連合学習は、複数のデバイス全体に分散されたデータセットに基づいて機械学習モデルを構築することに基づいており、一方、これらの複数のデバイスからのデータ漏洩を防止する。既存の連合学習の実施態様では、ユーザが同一のモデルタイプおよびモデルアーキテクチャをトレーニングまたは更新しようとすることが前提である。即ち、例えば、各ユーザは、同じ層を有し、各層が同じフィルタを有する、同じタイプの畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モデルをトレーニングしている。このような既存の実施態様では、ユーザは自分独自のアーキテクチャおよびモデルタイプを選択する自由をもたない。これはまた、ローカルモデルを過剰適合させるか、またはローカルモデルを過少適合させるかといった問題をもたらす可能性があり、モデルタイプまたはアーキテクチャが一部のユーザに適していない場合、そのときは次善のグローバルモデルをもたらし得る。故に、これらおよび他の問題に対処するには、既存の連合学習の実施態様の改善が必要である。このような改善によって、ユーザが自分自身のモデルタイプおよびモデルアーキテクチャを動かすことを可能にするはずであり、一方、集中化したリソース（ノードまたはサーバなど）を使用して、例えば、それぞれのローカルモデルをインテリジェントに組み合わせてグローバルモデルを形成することによって、これらの異なるモデルアーキテクチャおよびモデルタイプを処理することができる。

本明細書で開示される実施形態は、連合学習のユーザ間の不均一モデルタイプおよびアーキテクチャを可能にする。例えば、ユーザは、自分自身のデータに対して異なるモデルタイプおよびモデルアーキテクチャを選択し、そのデータをそれらのモデルに適合させ得る。各ユーザに対してローカルに最良に機能するフィルタは、例えば、各層に対応する選択されたフィルタを連結することによって、グローバルモデルを構成するために使用され得る。グローバルモデルはまた、ローカルモデルから構築される層の出力において全結合層を含み得る。この全結合層は、初期層を固定して個々のユーザに送り返され得、ここで、全結合層のみがユーザのためにローカルにトレーニングされる。次いで、個々のユーザごとの学習した重み付けを組み合わせて（例えば、平均して）、グローバルモデルの全結合層の重み付けを構成し得る。

本明細書で提供される実施形態は、ユーザが連合学習のアプローチを依然として採用すると共に、ユーザ自身のモデルを構築することを可能にし、連合学習のアプローチによってユーザのローカルデータに対してどのモデルタイプおよびアーキテクチャが最良に機能するかについてユーザがローカルに決定を行うことができ、一方で、プライバシーを保護する方式の中で連合学習を通じて他のユーザの入力から利益を得る。実施形態はまた、連合学習のアプローチを使用する場合に生じる可能性がある、前述の過剰適合および過少適合の問題を低減することもできる。更に、実施形態は、現在の連合学習の技術が行うことができない、ユーザ間の異なるデータ分布を扱うことができる。

第１の態様によれば、中央ノードまたはサーバ上での方法が提供される。本方法は、第１のユーザデバイスから第１のモデルを受信し、第２のユーザデバイスから第２のモデルを受信することを含み、第１のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットを有し、第２のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットとは異なる第２の層のセットを有する。本方法は、第１の層のセットの各層について、第１の層のセットの中の層から第１のフィルタのサブセットを選択することと、第２の層のセットの各層について、第２の層のセットの中の層から第２のフィルタのサブセットを選択することと、を更に含む。本方法は、グローバルの層のセット中の各層について、層が、対応する第１のフィルタのサブセットおよび／または対応する第２のフィルタのサブセットに基づくフィルタを備えるように、第１の層のセットおよび第２の層のセットに基づいてグローバルの層のセットを形成することによってグローバルモデルを構成することと、グローバルモデルに対する全結合層を形成し、全結合層が、グローバルの層のセットの最終層となることと、を更に含む。

いくつかの実施形態では、本方法が、グローバルモデルに対する全結合層に関した情報を、第１のユーザデバイスおよび第２のユーザデバイスを含む１つまたは複数のユーザデバイスに送信することと、１つまたは複数の係数のセットを１つまたは複数のユーザデバイスから受信することであって、１つまたは複数の係数のセットが、グローバルモデルに対する全結合層に関した情報を使用して、デバイス固有のローカルモデルをトレーニングする１つまたは複数のユーザデバイスの各々からの結果に対応する、１つまたは複数の係数のセットを受信することと、全結合層に対する新しい係数のセットを作成するために、１つまたは複数の係数のセットを平均することによって、グローバルモデルを更新することと、を更に含む。

いくつかの実施形態では、第１の層のセットの中の層から第１のフィルタのサブセットを選択することが、層からｋ個の最良のフィルタを決定することを備え、第１のサブセットが、決定されたｋ個の最良のフィルタを備える。いくつかの実施形態では、第２の層のセットの中の層から第２のフィルタのサブセットを選択することが、層からｋ個の最良のフィルタを決定することを備え、第２のサブセットが決定されたｋ個の最良のフィルタを備える。いくつかの実施形態では、第１の層のセットおよび第２の層のセットに基づいてグローバルの層のセットを形成することが、第１の層のセットおよび第２の層のセットに共通している各層について、対応する第１のフィルタのサブセットおよび対応する第２のフィルタのサブセットを連結することによって、グローバルモデル中の対応する層を生成することと、第１の層のセットに固有である各層について、対応する第１のフィルタのサブセットを使用することによって、グローバルモデル中の対応する層を生成することと、第２の層のセットに固有である各層について、対応する第２のフィルタのサブセットを使用することによって、グローバルモデル中の対応する層を生成することと、を備える。

いくつかの実施形態では、本方法が、第１のユーザデバイスおよび第２のユーザデバイスのうちの１つまたは複数に、そのそれぞれのローカルモデルをニューラルネットワークモデルタイプに蒸留するように命令することを更に含む。

第２の態様によれば、不均一モデルタイプおよび／またはアーキテクチャを備えた連合学習を利用するためのユーザデバイス上での方法が提供される。本方法は、ローカルモデルを第１の蒸留モデルに蒸留することであって、ローカルモデルが、第１のモデルタイプであり、第１の蒸留モデルが、第１のモデルタイプとは異なる第２のモデルタイプである、ローカルモデルを蒸留することと、第１の蒸留モデルをサーバに送信することと、サーバからグローバルモデルを受信することであって、グローバルモデルが、第２のモデルタイプである、グローバルモデルを受信することと、グローバルモデルに基づいてローカルモデルを更新することと、を含む。

いくつかの実施形態では、本方法が、ユーザデバイスで受信される新しいデータに基づいてローカルモデルを更新することと、更新されたローカルモデルを第２の蒸留モデルに蒸留することであって、第２の蒸留モデルが、第２のモデルタイプである、更新されたローカルモデルを蒸留することと、第２の蒸留モデルの重み付き平均および第１の蒸留モデルをサーバに送信することと、を更に含む。いくつかの実施形態では、第２の蒸留モデルの重み付き平均および第１の蒸留モデルが、Ｗ１＋αＷ２によって与えられ、ここで、Ｗ１は、第１の蒸留モデルを表し、Ｗ２は、第２の蒸留モデルを表し、０＜α＜１である。

いくつかの実施形態では、本方法が、ローカルデータに基づいてグローバルモデルの最終層に対する係数を決定することと、係数を中央ノードまたはサーバに送信することと、を更に含む。

第３の態様によれば、中央ノードまたはサーバが提供される。中央ノードまたはサーバは、メモリと、メモリに接続されたプロセッサと、を含む。プロセッサは、第１のユーザデバイスから第１のモデルを受信し、第２のユーザデバイスから第２のモデルを受信し、第１のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットを有し、第２のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットとは異なる第２の層のセットを有するように設定され、第１の層のセットの各層について、第１の層のセットの中の層から第１のフィルタのサブセットを選択するように設定され、第２の層のセットの各層について、第２の層のセットの中の層から第２のフィルタのサブセットを選択するように設定され、グローバルの層のセット中の各層について、層が、対応する第１のフィルタのサブセットおよび／または対応する第２のフィルタのサブセットに基づくフィルタを備えるように、第１の層のセットおよび第２の層のセットに基づいてグローバルの層のセットを形成することによってグローバルモデルを構成するように設定され、グローバルモデルに対する全結合層を形成し、全結合層がグローバルの層のセットの最終層となるように設定される。

第４の態様によれば、ユーザデバイスが提供される。ユーザデバイスは、メモリと、メモリに接続されたプロセッサと、を含む。プロセッサは、ローカルモデルを第１の蒸留モデルに蒸留し、ローカルモデルが、第１のモデルタイプであり、第１の蒸留モデルが、第１のモデルタイプとは異なる第２のモデルタイプであり、第１の蒸留モデルをサーバに送信し、グローバルモデルをサーバから受信し、グローバルモデルが、第２のモデルタイプであり、グローバルモデルに基づいてローカルモデルを更新するように設定される。

第５の態様によれば、命令を備えるコンピュータプログラムであって、命令は、処理回路によって実行されると、処理回路に、第１または第２の態様の実施形態のうちいずれか１つの方法を実施させる、コンピュータプログラムが提供される。

第６の態様によれば、第５の態様のコンピュータプログラムをもつキャリアが提供され、キャリアは、電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体のうちの１つである。

添付の図面は、本明細書に組み込まれて、本明細書の一部を形成し、様々な実施形態を示す。

一実施形態による連合学習システムを示す図である。一実施形態によるモデルを示す図である。一実施形態によるメッセージ図を示す図である。一実施形態による蒸留を示す図である。一実施形態によるメッセージ図を示す図である。一実施形態によるフローチャートである。一実施形態によるフローチャートである。一実施形態による装置のブロック図である。一実施形態による装置のブロック図である。

図１は、一実施形態による連合学習のシステム１００を示す。図示されるように、中央ノードまたはサーバ１０２は、１人または複数のユーザ１０４と通信している。任意に、ユーザ１０４は、様々なネットワークトポロジおよび／またはネットワーク通信システムのうちいずれかを利用して互いに通信し得る。例えば、ユーザ１０４は、スマートフォン、タブレット、ラップトップコンピュータ、パーソナルコンピュータなどのユーザデバイスを含み得、また、インターネット（例えば、ＷｉＦｉを介して）または通信ネットワーク（例えば、ＬＴＥもしくは５Ｇ）などの一般的なネットワークを通じて通信可能に接続し得る。中央ノードまたはサーバ１０２が示されているが、中央ノードまたはサーバ１０２の機能は、複数のノードおよび／またはサーバ全体に分散され得、１人または複数のユーザ１０４間で共有され得る。

本明細書の実施形態に記載されるような連合学習は、１つまたは複数のラウンドを含み得、グローバルモデルは各ラウンドで繰り返しトレーニングされる。ユーザ１０４はグローバルモデルの連合学習に参加するユーザの意思を示すために中央ノードまたはサーバに登録し得、連続的にまたはローリングベースで登録し得る。登録時に（および潜在的にその後の任意の時点で）、中央ノードまたはサーバ１０２は、ローカルユーザに対してトレーニングするためのモデルタイプおよび／またはモデルアーキテクチャを選択し得る。あるいは、または更に、中央ノードまたはサーバ１０２は、各ユーザ１０４が自身のためのモデルタイプおよび／またはモデルアーキテクチャを選択することを可能にし得る。中央ノードまたはサーバ１０２は、初期モデルをユーザ１０４に送信し得る。例えば、中央ノードまたはサーバ１０２は、グローバルモデル（例えば、新たに初期化されたグローバルモデル、または以前のラウンドの連合学習を通じて部分的にトレーニングされたグローバルモデル）をユーザに送信し得る。ユーザ１０４は、自分自身のデータを用いて自分らの個々のモデルをローカルにトレーニングし得る。次いで、このようなローカルなトレーニングの結果は、中央ノードまたはサーバ１０２へ折り返し通知され得、中央ノードまたはサーバ１０２が結果をプールし、グローバルモデルを更新し得る。このプロセスは、反復的に繰り返され得る。更に、グローバルモデルのトレーニングの各ラウンドにおいて、中央ノードまたはサーバ１０２は、トレーニングラウンドに参加するために、すべての登録されたユーザ１０４のサブセット（例えば、ランダムなサブセット）を選択し得る。

実施形態は、ユーザ１０４が自分のシステムをトレーニングしながら自分自身のアーキテクチャモデルを選択することができる新しいアーキテクチャフレームワークを提供する。一般に、アーキテクチャフレームワークは、アプリケーションまたはステークホルダコミュニティのドメイン内でアーキテクチャの記述を作成し、解釈し、分析し、使用するための一般的な実行法を確立する。典型的な連合学習システムでは、各ユーザ１０４が同一のモデルタイプおよびアーキテクチャを有するので、各ユーザ１０４からのモデル入力を組み合わせてグローバルモデルを形成することは、比較的単純である。しかしながら、ユーザ１０４が不均一モデルタイプおよびアーキテクチャをもつことを可能にすることで、グローバルモデルを維持する中央ノードまたはサーバ１０２によるそのような不均一性にどのように対処するのかといったことに関する問題を提示する。

いくつかの実施形態では、各個々のユーザ１０４は、ローカルモデルとして、特定のタイプのニューラルネットワーク（ＣＮＮなど）を有し得る。ニューラルネットワークのための特定のモデルアーキテクチャは制約されておらず、異なるユーザ１０４が異なるモデルアーキテクチャを有し得る。例えば、ニューラルネットワークアーキテクチャは、層へのニューロンの配置および層間の連結パターン、活性化関数、ならびに学習方法のことを指し得る。具体的にはＣＮＮを参照すると、モデルアーキテクチャは、ＣＮＮの特定の層、および各層に関連付けられた特定のフィルタのことを指し得る。言い換えれば、いくつかの実施形態では、異なるユーザ１０４は、それぞれ、ローカルＣＮＮタイプモデルをトレーニングし得るが、ローカルＣＮＮモデルが異なるユーザ１０４間で異なる層および／またはフィルタを有し得る。典型的な連合学習システムでは、この状況を対処できない。したがって、連合学習の何らかの修正が必要である。具体的には、いくつかの実施形態では、中央ノードまたはサーバ１０２は、多様なローカルモデルをインテリジェントに組み合わせることによってグローバルモデルを生成する。このプロセスを採用することにより、中央ノードまたはサーバ１０２は、多様なモデルアーキテクチャ上で連合学習を採用することができる。モデルアーキテクチャを固定モデルタイプに対して制約されないようにすることは、「同一のモデルタイプ、異なるモデルアーキテクチャ」アプローチと呼ばれ得る。

いくつかの実施形態では、各個々のユーザ１０４は、ローカルモデルとして、ユーザ１０４が選択する任意のタイプのモデルおよびそのモデルタイプの任意のアーキテクチャを有し得る。すなわち、モデルタイプは、ニューラルネットワークに制約されないが、ランダムフォレストタイプモデル、決定木などを含むこともできる。ユーザ１０４は、特定のモデルに適した方法でローカルモデルをトレーニングし得る。連合学習アプローチの一部として、モデル更新を中央ノードまたはサーバ１０２と共有する前に、ユーザ１０４は、ローカルモデルを共通モデルタイプおよびいくつかの実施形態では共通アーキテクチャに変換する。この変換プロセスは、いくつかの実施形態について本明細書に開示されるように、モデル蒸留の形態をとり得る。変換が共通モデルタイプおよびモデルアーキテクチャへの変換であるならば、その場合、中央ノードまたはサーバ１０２は、基本的には、典型的な連合学習を適用し得る。変換が共通モデルタイプ（ニューラルネットワークタイプモデルなど）への変換であるが、共通モデルアーキテクチャへの変換ではないならば、その場合、中央ノードまたはサーバ１０２は、いくつかの実施形態について記載される「同一のモデルタイプ、相異モデルアーキテクチャ」のアプローチを採用し得る。モデルタイプとモデルアーキテクチャの両方が制約されないようにすることは、「相異モデルタイプ、相異モデルアーキテクチャ」アプローチと呼ばれ得る。

「同一のモデルタイプ、相異モデルアーキテクチャ」

本明細書で説明するように、異なるユーザ１０４は、それらの間に相異異なるモデルアーキテクチャを有するが、共通モデルタイプを共有するローカルモデルを有し得る。特に、本明細書において、共有モデルタイプはニューラルネットワークモデルタイプであると仮定する。この例は、ＣＮＮモデルタイプである。この場合、目的は異なるモデル（例えば、異なるＣＮＮモデル）を組み合わせて、グローバルモデルをインテリジェントに形成することである。異なるローカルＣＮＮモデルは、異なるフィルタサイズおよび異なる層数を有し得る。更に一般的には（例えば、他のタイプのニューラルネットワークアーキテクチャが使用されるならば）、その場合、ユーザが異なる層を有するか、または異なるフィルタを備える層を有する代わりに（ＣＮＮで論じられるように）、異なる層は層のニューロン構造の考慮すべき事項を含み得、例えば、異なる層は、異なる重み付けを有するニューロンを有し得る。

図２は、一実施形態によるモデルを示す。図示されるように、ローカルモデル２０２、２０４、および２０６は、各々がＣＮＮモデルタイプであるが、異なるアーキテクチャを有する。例えば、ＣＮＮモデル２０２は、フィルタ２１１のセットを有する第１の層２１０を含む。ＣＮＮモデル２０４は、フィルタ２２１のセットを有する第１の層２２０、およびフィルタ２２３のセットを有する第２の層２２２を含む。ＣＮＮモデル２０６は、フィルタ２３１のセットを有する第１の層２３０、フィルタ２３３のセットを有する第２の層２３２、およびフィルタ２３５のセットを有する第３の層２３４を含む。異なるローカルモデル２０２、２０４、および２０６を組み合わせて、グローバルモデル２０８を形成し得る。グローバルＣＮＮモデル２０８は、フィルタ２４１のセットを有する第１の層２４０、フィルタ２４３のセットを有する第２の層２４２、およびフィルタ２４５のセットを有する第３の層２４４を含む。

いくつかの実施形態では、モデルアーキテクチャのいくつかの態様は、ユーザ１０４間で共有され得る（例えば、同じ第１の層が使用されるか、または共通のフィルタタイプが使用される）。また、２人以上のユーザ１０４が、全体として同じアーキテクチャを採用し得ることも可能である。しかし、一般に、異なるユーザ１０４は、ローカルパフォーマンスを最適化するために異なるモデルアーキテクチャを選択し得ることが期待される。したがって、モデル２０２、２０４、２０６の各々は、第１の層Ｌ１を有するが、モデル２０２、２０４、２０６の各々の第１の層Ｌ１は、例えば、フィルタ２１１、２２１、２３１の異なるセットを有することによって、異なって成り立ち得る。

ローカルモデル２０２、２０４、および２０６の各々を採用するユーザ１０４は、例えば、ローカルデータセット（例えば、Ｄ１、Ｄ２、Ｄ３）を使用して、ユーザらの個々のモデルをローカルにトレーニングし得る。通常、データセットが、例えば、分類器をトレーニングするために、類似のタイプのデータをもつことになり、クラスごとの代表がデータセット間で異なり得るが、各データセットは同じクラスを含み得る。

次いで、グローバルモデルは、異なるローカルモデルに基づいて構成（または更新）される。中央ノードまたはサーバ１０２は、グローバルモデルの構成に関連付けられる機能の一部またはすべての役割を果たし得る。個々のユーザ１０４（例えば、ユーザデバイス）または他のエンティティはまた、いくつかのステップを実施し、それらのステップの結果を中央ノードまたはサーバ１０２に通知し得る。

一般に、グローバルモデルは、ローカルモデルの各々の各層中のフィルタを連結することによって構成され得る。いくつかの実施形態では、各層のｋ個の最良のフィルタを選択することなどによって、各層のフィルタのサブセットを代わりに使用し得る。ｋの値（例えば、ｋ＝２）は、１つのローカルモデルから別のローカルモデルへと変化し得、かつローカルモデル内の１つの層から別の層へと変化し得る。いくつかの実施形態では、中央ノードまたはサーバ１０２は、各ユーザ１０４が使用すべきｋの値の信号を送り得る。いくつかの実施形態では、２個の最良のフィルタ（ｋ＝２）は各ローカルモデルの各層から選択され得、一方で、他の実施形態では、異なるｋの値（例えば、ｋ＝１またはｋ＞２）が選択され得る。いくつかの実施形態では、ｋは層内のフィルタの総数を、相対量だけ減少させるように選択され得る（例えば、フィルタの上位３分の１を選択する）。最良のフィルタの選択は、最良に機能するフィルタを決定するために任意の適切な技術を使用し得る。例えば、出願番号ＰＣＴ／ＩＮ２０１９／０５０４５５を有する「深層学習モデルの理解」と題するＰＣＴ出願には、使用され得るいくつかのそのような技術が記載される。このようにフィルタのサブセットを選択することは、精度を高く保つと共に、計算負荷を低減するのに役立ち得る。いくつかの実施形態では、中央ノードまたはサーバ１０２が当該選択を実施し得、いくつかの実施形態では、ユーザ１０４または他のエンティティが当該選択を実施し、その結果を中央ノードまたはサーバ１０２に通知し得る。

このプロセスを説明するために、グローバルモデル２０８を使用する。ローカルモデル２０２、２０４、および２０６の各々は、第１の層Ｌ１を含む。したがって、グローバルモデル２０８は、第１の層Ｌ１も含み、グローバルモデル２０８のＬ１のフィルタ２４１は、互いに連結されるローカルモデル２０２、２０４、および２０６の各々のフィルタ２１１、２２１、２３１（またはフィルタのサブセット）を含む。ローカルモデル２０４および２０６のみが、第２の層Ｌ２を含む。したがって、グローバルモデル２０８は、第２の層Ｌ２も含み、グローバルモデル２０８のＬ２のフィルタ２４２は、互いに連結されるローカルモデル２０４および２０６の各々のフィルタ２２２、２３２（または、フィルタのサブセット）を含む。ローカルモデル２０６のみが、第３の層Ｌ３を含む。したがって、グローバルモデル２０８は、第３の層Ｌ３も含み、グローバルモデル２０８のＬ３のフィルタ２４５は、ローカルモデル２０６のフィルタ２３５（または、フィルタのサブセット）を含む。

言い換えれば、Ｎ（Ｍ_ｉ）がローカルモデルＭ_ｉの層数を表す場合、グローバルモデルはここでは少なくともｍａｘ（Ｎ（Ｍ_ｉ））層を有するように構成され、ここで、ｍａｘ（最大）演算子はグローバルモデルが構成される（または更新される）全ローカルモデルＭ_ｉにわたる。グローバルモデルの所与の層Ｌ_ｊについて、層Ｌ_ｊはフィルタ

を含み、インデックスｉはｊ番目の層を有する異なるローカルモデルに及ぶものであり、Ｆ_ｉは特定のローカルモデルＭ_ｉのｊ番目の層のフィルタ（または、フィルタのサブセット）のことを指す。

は連結、

はセットＩ＝｛ｉ｝を表す。

ローカルモデルを連結した後、最終層としてモデルに高密度層（例えば、全結合層）を追加することによって、グローバルモデルを更に構成し得る。

それによって、グローバルモデルが構成（または更新）されると、モデルをトレーニングするための方程式が生成され得る。これらの方程式は、例えば、他のローカルフィルタを同じに保つことによって、最後の高密度層をそれぞれトレーニングし得る異なるユーザ１０４に送信され得る。次いで、最後の高密度層をローカルにトレーニングしたユーザ１０４は、自分のローカル高密度層のモデル係数を中央ノードまたはサーバ１０２に通知し得る。最後に、グローバルモデルはグローバルモデルを形成するために、このような係数を通知した異なるユーザ１０４からのモデル係数を組み合わせ得る。例えば、モデル係数を組み合わせることは、係数を平均化することを含み得、各ユーザ１０４がトレーニングしたローカルデータの量によって重み付けされるような重み付け平均を使用することによって係数を平均化することを含む。

実施形態では、このようにして構成されるグローバルモデルはロバストであり、異なるローカルモデルから学習される特徴をもつ。このようなグローバルモデルは、例えば、分類器として良好に機能し得る。この実施形態の利点はまた、グローバルモデルが（複数ユーザ１０４からの入力に基づいて更新されることに加えて）単一のユーザ１０４のみに基づいて更新され得ることである。このシングルユーザの更新の場合には、他のすべてを固定することで、最後の層のみの重み付けを調整し得る。

図３は、一実施形態によるメッセージ図を示す。図示されるように、ユーザ１０４（例えば、第１のユーザ３０２および第２のユーザ３０４）は、中央ノードまたはサーバ１０２と協働してグローバルモデルを更新する。第１のユーザ３０２および第２のユーザ３０４は、３１０および３１４で自分らそれぞれのローカルモデルを各々トレーニングし、３１２および３１６で自分らのローカルモデルを中央ノードまたはサーバ１０２に各々通知する。モデルのトレーニングおよび通知は、同時であり得るか、またはある程度ずらされ得る。中央ノードまたはサーバ１０２は、先へ進む前に、それが通知を予期している各ユーザ１０４からのモデル通知を受信するまで待ち得るか、もしくは、それがこのようなモデル通知を受信する回数を閾値まで待ち得るか、または、それが一定期間、もしくは任意の組合せを待ち得る。モデル通知を受信することで、中央ノードまたはサーバ１０２はグローバルモデルを構成または更新し得（例えば、上記のように、フィルタまたは異なるローカルモデルのフィルタのサブセットを各層で連結し、最終層として高密度全結合層を追加することなどによって）、グローバルモデルの高密度層をトレーニングするために必要な方程式を形成し得る。次いで、中央ノードまたはサーバ１０２は、３２０および３２２において、高密度層の方程式を第１のユーザ３０２および第２のユーザ３０４に通知する。順次、第１のユーザ３０２および第２のユーザ３０４は、３２４および３２８において、自分らのローカルモデルを使用して高密度層をトレーニングし、３２６および３３０においてトレーニングした高密度層の方程式に対する係数を用いて中央ノードまたはサーバ１０２に折り返し通知する。次いで、この情報により、中央ノードまたはサーバ１０２は、ローカルユーザ１０４からの係数に基づいて高密度層を更新することによって、グローバルモデルを更新し得る。

「相異モデルタイプ、相異モデルアーキテクチャ」

本明細書で説明されるように、異なるユーザは、異なるモデルタイプおよび異なるモデルアーキテクチャを有するローカルモデルを有し得る。このアプローチで対処されるべき問題は、異なるローカルモデル間のモデルタイプおよびモデルアーキテクチャの両方の制約されない性質が、異なるローカルモデルをマージすることを困難にすることであり、１つのモデルタイプに適用されるトレーニングが、別のモデルタイプに適用されるトレーニングに何の意味も持ち得ないように、利用可能なモデルタイプ間に有意差が存在する可能性があるためである。例えば、ユーザは、ランダムフォレストタイプモデル、決定木等のような異なるモデルに適合し得る。

この問題に対処するために、実施形態はローカルモデルを共通モデルタイプに変換し、いくつかの実施形態では、共通モデルアーキテクチャにも変換する。モデルを変換する１つの方法は、モデルの蒸留アプローチを使用することである。モデルの蒸留は、任意のモデル（例えば、多くのデータをトレーニングした複雑なモデル）をより小さくて単純なモデルに変換し得る。このアイデアは、元の出力ではなく、複雑なモデルの出力に基づいて、より単純なモデルをトレーニングすることである。これは、複雑なモデル上で学習された特徴を、より単純なモデルに転換することができる。このようにして、特徴を保つことによって、任意の複雑なモデルをより単純なモデルに転換することができる。

図４は、一実施形態による蒸留を示す。蒸留には、ローカルモデル４０２（「教師」モデルとも呼ばれる）、および蒸留モデル４０４（「生徒」モデルとも呼ばれる）の２つのモデルがある。通常、教師モデルは複雑であり、ＧＰＵまたは類似の処理リソースを備える別のデバイスを使用してトレーニングされるが、生徒モデルはそれほど強力でない計算リソースを有するデバイス上でトレーニングされる。これは重要ではないが、「生徒」モデルは元の「教師」モデルよりもトレーニングが容易であるため、「生徒」モデルのトレーニングに使用する処理リソースを少なくすることが可能である。「教師」モデルの知識を保つために、「生徒」モデルは「教師」モデルの予測確率に基づいてトレーニングされる。ローカルモデル４０２および蒸留モデル４０４は、異なるモデルタイプおよび／またはモデルアーキテクチャであり得る。

いくつかの実施形態では、潜在的に異なるモデルタイプおよびモデルアーキテクチャの自分自身の個々のモデルを有する１人または複数の個々のユーザ１０４が、自分のローカルモデルを、指定されたモデルタイプおよびモデルアーキテクチャの蒸留モデルに（例えば、蒸留によって）変換し得る。例えば、中央ノードまたはサーバ１０２は、ユーザ１０４がどんなモデルタイプおよびモデルアーキテクチャにモデルを蒸留すべきかについて各ユーザに指示し得る。モデルタイプは各ユーザ１０４に共通であるが、モデルアーキテクチャはいくつかの実施形態では異なり得る。

次いで、蒸留されたローカルモデルを中央ノードまたはサーバ１０２に送信し、そこでマージしてグローバルモデルを構成（または更新）し得る。次いで、中央ノードまたはサーバ１０２は、グローバルモデルを１人または複数のユーザ１０４に送信し得る。これに応答して、更新されたグローバルモデルを受信するユーザ１０４は、グローバルモデルに基づいて自分自身の個々のローカルモデルを更新し得る。

いくつかの実施形態では、中央ノードまたはサーバ１０２に送信される蒸留モデルは、前の蒸留モデルに基づき得る。ユーザ１０４が（例えば、連合学習の最後のラウンドにおいて）ユーザ１０４のローカルモデルの蒸留を表す第１の蒸留モデルをすでに送信したと仮定する。その場合、ユーザ１０４はユーザ１０４で受信された新しいデータに基づいてローカルモデルを更新し得、更新されたローカルモデルに基づいて第２の蒸留モデルを蒸留し得る。次いで、ユーザ１０４は第１および第２の蒸留モデルの重み付き平均（例えば、Ｗ１＋αＷ２、ここで、Ｗ１は第１の蒸留モデルを表し、Ｗ２は第２の蒸留モデルを表し、０＜α＜１である）をとり、第１および第２の蒸留モデルの重み付き平均を中央ノードまたはサーバ１０２に送信し得る。次いで、中央ノードまたはサーバ１０２は、重み付き平均を使用してグローバルモデルを更新し得る。

図５は、一実施形態によるメッセージ図を示す。図示されるように、ユーザ１０４（例えば、第１のユーザ３０２および第２のユーザ３０４）は、中央ノードまたはサーバ１０２と協働してグローバルモデルを更新する。第１のユーザ３０２および第２のユーザ３０４は、５１０および５１４で自分のそれぞれのローカルモデルを各々蒸留し、５１２および５１６で自分の蒸留モデルを中央ノードまたはサーバ１０２に各々通知する。モデルのトレーニングおよび通知は、同時であり得るか、またはある程度ずらされ得る。中央ノードまたはサーバ１０２は、先へ進む前に、それが通知を予期している各ユーザ１０４からのモデル通知を受信するまで待ち得るか、もしくは、それがこのようなモデル通知を受信する回数を閾値まで待ち得るか、または、それが一定期間、もしくは任意の組合せを待ち得る。モデル通知を受信することで、中央ノードまたはサーバ１０２は（例えば、開示される実施形態で記載されるように）グローバルモデル３１８を構成または更新し得る。次いで、中央ノードまたはサーバ１０２は、５２０および５２２において、グローバルモデルを第１のユーザ３０２および第２のユーザ３０４に通知する。順次、第１のユーザ３０２および第２のユーザ３０４は、５２４および５２６において、（例えば、開示される実施形態で記載されるように）グローバルモデルに基づいて、自分らのそれぞれのローカルモデルを更新する。

同じＣＮＮモデルタイプについて異なるモデルアーキテクチャを有する各ユーザ１０２の例に戻ると、提案された実施形態に関連する数学的公式が提供される。所与のＣＮＮについて、各フィルタの出力は、

のように表し得、数１はＮ個のフィルタに対して有効であり、ここで入力データ（ｉｎ［ｋ］）のサイズはＭで、フィルタ（ｃ）のサイズはＰで、１の刻み幅をもつ。即ち、ｉｎ［ｋ］はフィルタの入力（サイズＭ）のｋ番目の要素を表し、ｃ［ｊ］はフィルタ（サイズＰ）のｊ番目の要素である。また、説明のために、このＣＮＮモデルでは１つの層のみが考慮される。上記の表示は、入力データとフィルタ係数との間に点乗積を保証する。この表現から、フィルタ係数ｃを、バックプロパゲーションを使用することによって学習することができる。通常、これらのフィルタの中から、少数（例えば、２つまたは３つ）のフィルタのみが良好に機能する。それゆえに、上の式は、良好に機能しているフィルタのサブセットＮ_ｓ（Ｎ_ｓ≦Ｎ）のみに縮小することができる。これらのフィルタ（即ち、他のフィルタと比較して良好に機能するフィルタ）は、上記のように、様々な方法で取得され得る。

本明細書で論じるように、次いで、各層について異なるユーザのモデルの各々のフィルタを取り入れ、それらを連結するグローバルモデルを構成することができる。グローバルモデルは、最終層として、全結合の高密度層も含む。Ｌ個のノード（またはニューロン）を有する全結合層に対して、層の数学的公式は、

のように表し得、ここで、ｃ_ｍは、最良に機能するフィルタのサブセットからのフィルタのうち１つを表し、Ｗは最終層の重み付けのセットであり、ｂはバイアスであり、ｇ（．）は最終層の活性化関数である。全結合層への入力は、層に進む前に平坦化されることになる。この方程式は、標準のバックプロパゲーション技術を使用して重み付けを計算するために、ユーザの各々に送信される。異なるユーザによって学習された重み付けが、Ｗ_１、Ｗ_２、．．．．．．、Ｗ_Ｕであると仮定すると、ここで、Ｕは連合学習アプローチにおけるユーザの数であり、グローバルモデルの最終層の重み付けは、数３のように平均することによって決定され得る。

以下の実施例は、実施形態のパフォーマンスを評価するために準備された。３人の通信オペレータに対応するアラームデータセットを収集した。３人の通信オペレータは、３人の異なったユーザに対応する。アラームデータセットは、同じ特徴を有し、異なるパターンを有する。本目的は、特徴に基づいてアラームを真のアラームと偽のアラームに分類することである。

ユーザは、自分自身のモデルを選択し得る。この実施例では、各ユーザは、ＣＮＮモデルタイプに対して特定のアーキテクチャを選択し得る。即ち、各ユーザは、他のユーザと比較して、層の各々において異なる層数および異なるフィルタを選択し得る。

この実施例に関して、オペレータ１（第１のユーザ）は、第１の層に３２個のフィルタを備え、第２の層に６４個のフィルタを備え、最後の層に３２個のフィルタを備えた３層ＣＮＮに適合するように選択する。同様に、オペレータ２（第２のユーザ）は、第１の層に３２個の層を備え、第２の層に１６個の層を備えた２層ＣＮＮに適合するように選択する。最後に、オペレータ３（第３のユーザ）は、第１の４個の層の各々に３２個のフィルタを備え、第５の層に８個のフィルタを備えた５層ＣＮＮに適合するように選択する。これらのモデルは、各オペレータに利用可能なデータの性質に基づいて選択され、モデルは連合学習の現ラウンドに基づいて選択され得る。

グローバルモデルは、以下のように構成される。グローバルモデルにおける層数は、異なるローカルモデルが有するように最大の層数を含み、ここでは５層である。各ローカルモデルの各層における上位２個のフィルタが特定され、グローバルモデルは、各ローカルモデルの各層からの２個のフィルタによって構成される。具体的には、グローバルモデルの第１の層は、（各ローカルモデルの第１の層からの）６個のフィルタを含み、第２の層は、（各ローカルモデルの第２の層からの）６個のフィルタを含み、第３の層は、第１のモデルからの２つのフィルタおよび第３のモデルからの２つのフィルタを含み、第４の層は、第３のモデルの第４の層からの２つのフィルタを含み、第５の層は、第３のモデルの第５の層からの２つのフィルタを含む。次に、高密度の全結合層が、グローバルモデルの最終層として構成される。高密度層は、１０個のノード（ニューロン）を有する。一旦構築されると、グローバルモデルは、最後の層をトレーニングするためにユーザに送信され、各ローカルモデルのトレーニングの結果（係数）が収集される。次いで、これらの係数を平均して、グローバルモデルの最後の層を取得する。

これを通信オペレータの３つのデータセットに適用することで、ローカルモデルに対して取得される精度は８２％、８８％、および７５％である。一旦グローバルモデルが構成されると、ローカルモデルで取得される精度は８６％、９４％、および８０％に改善される。本実施例から分かるように、開示された実施形態の連合学習モデルは良好であり、ローカルモデルと比較した場合、結果としてより良好なモデルになることができる。

図６は、一実施形態によるフローチャートを示す。プロセス６００は、中央ノードまたはサーバによって実施される方法である。プロセス６００は、ステップｓ６０２から開始し得る。

ステップｓ６０２は、第１のユーザデバイスから第１のモデルを受信し、第２のユーザデバイスから第２のモデルを受信することを含み、第１のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットを有し、第２のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットとは異なる第２の層のセットを有する。

ステップｓ６０４は、第１の層のセットの各層について、第１の層のセットの中の層から第１のフィルタのサブセットを選択することを備える。

ステップｓ６０６は、第２の層のセットの各層について、第２の層のセットの中の層から第２のフィルタのサブセットを選択することを備える。

ステップｓ６０８は、グローバルの層のセット中の各層について、層が、対応する第１のフィルタのサブセットおよび／または対応する第２のフィルタのサブセットに基づくフィルタを備えるように、第１の層のセットおよび第２の層のセットに基づいてグローバルの層のセットを形成することによってグローバルモデルを構成することを備える。

ステップｓ６１０は、グローバルモデルに対する全結合層を形成することを備え、全結合層は、グローバルの層のセットの最終層となる。

いくつかの実施形態では、本方法が、グローバルモデルに対する全結合層に関した情報を第１のユーザデバイスおよび第２のユーザデバイスを含む１つまたは複数のユーザデバイスに送信することと、１つまたは複数の係数のセットを１つまたは複数のユーザデバイスから受信することであって、１つまたは複数の係数のセットがグローバルモデルに対する全結合層に関した情報を使用して、デバイス固有のローカルモデルをトレーニングする１つまたは複数のユーザデバイスの各々からの結果に対応する、１つまたは複数の係数のセットを受信することと、全結合層に対する新しい係数のセットを作成するために、１つまたは複数の係数のセットを平均することによって、グローバルモデルを更新することと、を更に含み得る。

いくつかの実施形態では、第１の層のセットの中の層から第１のフィルタのサブセットを選択することが、層からｋ個の最良のフィルタを決定することを含み、第１のサブセットが、決定されたｋ個の最良のフィルタを含む。いくつかの実施形態では、第２の層のセットの中の層から第２のフィルタのサブセットを選択することが、層からｋ個の最良のフィルタを決定することを含み、第２のサブセットが決定されたｋ個の最良のフィルタを含む。いくつかの実施形態では、第１の層のセットおよび第２の層のセットに基づいてグローバルの層のセットを形成することが、第１の層のセットおよび第２の層のセットに共通している各層について、対応する第１のフィルタのサブセットおよび対応する第２のフィルタのサブセットを連結することによってグローバルモデル中の対応する層を生成することと、第１の層のセットに固有である各層について、対応する第１のフィルタのサブセットを使用することによって、グローバルモデル中の対応する層を生成することと、第２の層のセットに固有である各層について、対応する第２のフィルタのサブセットを使用することによって、グローバルモデル中の対応する層を生成することと、を備える。

いくつかの実施形態では、本方法が、第１のユーザデバイスおよび第２のユーザデバイスの１つまたは複数に、そのそれぞれのローカルモデルをニューラルネットワークモデルタイプに蒸留するように命令することを更に含み得る。

図７は、一実施形態によるフローチャートを示す。プロセス７００は、ユーザ１０４（例えば、ユーザデバイス）によって実施される方法である。プロセス７００は、ステップｓ７０２から開始し得る。

ステップｓ７０２は、ローカルモデルを第１の蒸留モデルに蒸留することを備え、ローカルモデルが第１のモデルタイプであり、第１の蒸留モデルが第１のモデルタイプとは異なる第２のモデルタイプである。

ステップｓ７０４は、第１の蒸留モデルをサーバに送信することを備える。

ステップｓ７０６は、サーバからグローバルモデルを受信することを備え、グローバルモデルが第２のモデルタイプである。

ステップｓ７０８は、グローバルモデルに基づいてローカルモデルを更新することを備える。

いくつかの実施形態では、本方法が、ユーザデバイスで受信される新しいデータに基づいてローカルモデルを更新することと、更新されたローカルモデルを第２の蒸留モデルに蒸留することであって、第２の蒸留モデルが第２のモデルタイプである、更新されたローカルモデルを蒸留することと、第２の蒸留モデルの重み付き平均および第１の蒸留モデルをサーバに送信することと、を更に含み得る。いくつかの実施形態では、第２の蒸留モデルの重み付き平均および第１の蒸留モデルがＷ１＋αＷ２によって与えられ、ここで、Ｗ１は第１の蒸留モデルを表し、Ｗ２は第２の蒸留モデルを表し、０＜α＜１である。

いくつかの実施形態では、本方法が、ローカルデータに基づいてグローバルモデルの最終層のための係数を決定することと、係数を中央ノードまたはサーバに送信することと、を更に含み得る。

図８は、いくつかの実施形態による、装置８００（例えば、ユーザ１０２および／または中央ノードもしくはサーバ１０４）のブロック図である。図８に示すように、装置は、１つまたは複数のプロセッサ（Ｐ：ｐｒｏｃｅｓｓｏｒ）８５５（例えば、汎用マイクロプロセッサおよび／または特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）などのような１つもしくは複数の他のプロセッサ）を含み得る処理回路（ＰＣ：ｐｒｏｃｅｓｓｉｎｇｃｉｒｃｕｉｔｒｙ）８０２と、ネットワークインタフェース８４８が接続されるネットワーク８１０（例えば、インターネットプロトコル（ＩＰ：ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワーク）に接続された他のノードにデータを送受信することを当該装置が可能にする送信機（Ｔｘ：ｔｒａｎｓｍｉｔｔｅｒ）８４５および受信機（Ｒｘ：ｒｅｃｅｉｖｅｒ）８４７を備えるネットワークインタフェース８４８と、１つもしくは複数の不揮発性記憶デバイスおよび／または１つもしくは複数の揮発性記憶デバイスを含み得るローカル記憶ユニット（別名「データ記憶システム」）８０８と、を備え得る。ＰＣ８０２がプログラマブルプロセッサを含む実施形態では、コンピュータプログラム製品（ＣＰＰ：ｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｐｒｏｄｕｃｔ）８４１を提供し得る。ＣＰＰ８４１は、コンピュータ可読命令（ＣＲＩ：ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｉｎｓｔｒｕｃｔｉｏｎ）８４４を備えるコンピュータプログラム（ＣＰ：ｃｏｍｐｕｔｅｒｐｒｏｇｒａｍ）８４３を保存するコンピュータ可読媒体（ＣＲＭ：ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）８４２を含む。ＣＲＭ８４２は、磁気媒体（例えば、ハードディスク）、光媒体、メモリデバイス（例えば、ランダムアクセスメモリ、フラッシュメモリ）などのような非一時的なコンピュータ可読媒体であり得る。いくつかの実施形態では、コンピュータプログラム８４３のＣＲＩ８４４は、ＰＣ８０２によって実行されるときに、ＣＲＩが装置に本明細書に記載されるステップ（例えば、フローチャートを参照して本明細書に記載されるステップ）を実施させるように設定される。他の実施形態では、装置は、コードを必要とせずに、本明細書に記載されるステップを実施するように設定され得る。即ち、例えば、ＰＣ８０２は、単に１つまたは複数のＡＳＩＣのみから成り得る。それ故に、本明細書に記載される実施形態の特徴は、ハードウェアおよび／またはソフトウェアに実装され得る。

図９は、いくつかの他の実施形態による装置８００の概略ブロック図である。装置８００は、１つまたは複数のモジュール９００を含み、各モジュールはソフトウェアに実装される。モジュール９００は、本明細書に記載される装置８００の機能（例えば、図６～図７に関する本明細書のステップ）を提供する。

本開示の様々な実施形態が本明細書に記載されているが、それらは例としてのみ提示されているのであって、限定されていないことを理解されたい。このように、本開示の広さおよび範囲は、上記の例示的な実施形態のいずれによっても限定されるべきではない。その上、本明細書で別段の指示がない限り、または文脈によって明らかに否定されない限り、その考えられるすべてのバリエーションにおける上記要素のいかなる組合せも、本開示によって包含される。

加えて、上記に記載され、図面に示されるプロセスは、一連のステップとして示されているが、これは単に例示のために行われたものである。故に、いくつかのステップが追加され得、いくつかのステップが省略され得、ステップの順序が再編成され得、いくつかのステップが並行に実施され得ることが意図される。

Claims

中央ノードまたはサーバ上での方法であって、前記方法は、
第１のユーザデバイスから第１のモデルを受信し、第２のユーザデバイスから第２のモデルを受信することであって、前記第１のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットを有し、前記第２のモデルが、前記ニューラルネットワークモデルタイプであり、かつ前記第１の層のセットとは異なる第２の層のセットを有する、ことと、
前記第１の層のセットの各層について、前記第１の層のセットの中の前記層から第１のフィルタのサブセットを選択することと、
前記第２の層のセットの各層について、前記第２の層のセットの中の前記層から第２のフィルタのサブセットを選択することと、
グローバルの層のセット中の各層について、前記層が、対応する前記第１のフィルタのサブセットおよび／または対応する前記第２のフィルタのサブセットに基づくフィルタを備えるように、前記第１の層のセットおよび前記第２の層のセットに基づいて前記グローバルの層のセットを形成することによってグローバルモデルを構成することと、
前記グローバルモデルに対する全結合層であって、前記グローバルの層のセットの最終層となる、全結合層を形成することと
を備える、方法。
前記グローバルモデルに対する前記全結合層に関した情報を、前記第１のユーザデバイスおよび前記第２のユーザデバイスを含む１つまたは複数のユーザデバイスに送信することと、
前記グローバルモデルに対する前記全結合層に関した前記情報を使用して、デバイス固有のローカルモデルをトレーニングする前記１つまたは複数のユーザデバイスの各々からの結果に対応する、１つまたは複数の係数のセットを、前記１つまたは複数のユーザデバイスから受信することと、
前記全結合層に対する新しい係数のセットを作成するために、前記１つまたは複数の係数のセットを平均することによって、前記グローバルモデルを更新することと
を更に備える、請求項１に記載の方法。
前記第１の層のセットの中の前記層から第１のフィルタのサブセットを選択することが、前記層からｋ個の最良のフィルタを決定することを備え、前記第１のサブセットが、決定された前記ｋ個の最良のフィルタを備える、請求項１または２に記載の方法。
前記第２の層のセットの中の前記層から第２のフィルタのサブセットを選択することが、前記層からｋ個の最良のフィルタを決定することを備え、前記第２のサブセットが、決定された前記ｋ個の最良のフィルタを備える、請求項１または２に記載の方法。
前記第１の層のセットおよび前記第２の層のセットに基づいてグローバルの層のセットを形成することが、
前記第１の層のセットおよび前記第２の層のセットに共通している各層について、対応する前記第１のフィルタのサブセットおよび対応する前記第２のフィルタのサブセットを連結することによって、前記グローバルモデル中の対応する層を生成することと、
前記第１の層のセットに固有である各層について、対応する前記第１のフィルタのサブセットを使用することによって、前記グローバルモデル中の対応する層を生成することと、
前記第２の層のセットに固有である各層について、対応する前記第２のフィルタのサブセットを使用することによって、前記グローバルモデル中の対応する層を生成することと
を備える、請求項１から４のいずれか一項に記載の方法。
第１のユーザデバイスおよび第２のユーザデバイスのうちの１つまたは複数に、そのそれぞれのローカルモデルを前記ニューラルネットワークモデルタイプに蒸留するように命令することを更に備える、請求項１から５のいずれか一項に記載の方法。
不均一モデルタイプおよび／またはアーキテクチャを備えた連合学習を利用するためのユーザデバイス上での方法であって、前記方法は、
ローカルモデルを第１の蒸留モデルに蒸留することであって、前記ローカルモデルが、第１のモデルタイプであり、前記第１の蒸留モデルが、前記第１のモデルタイプとは異なる第２のモデルタイプである、ことと、
前記第１の蒸留モデルをサーバに送信することと、
グローバルモデルを前記サーバから受信することであって、前記グローバルモデルが、前記第２のモデルタイプである、ことと、
前記グローバルモデルに基づいて前記ローカルモデルを更新することと
を備える、方法。
ユーザデバイスで受信される新しいデータに基づいて前記ローカルモデルを更新することと、
更新された前記ローカルモデルを第２の蒸留モデルに蒸留することであって、前記第２の蒸留モデルが、前記第２のモデルタイプである、ことと、
前記第２の蒸留モデルの重み付き平均および前記第１の蒸留モデルを前記サーバに送信することと
を更に備える、請求項７に記載の方法。
前記第２の蒸留モデルの前記重み付き平均および前記第１の蒸留モデルが、Ｗ１＋αＷ２によって与えられ、ここで、Ｗ１は、前記第１の蒸留モデルを表し、Ｗ２は、前記第２の蒸留モデルを表し、０＜α＜１である、請求項８に記載の方法。
ローカルデータに基づいて前記グローバルモデルの最終層に対する係数を決定することと、
前記係数を中央ノードまたはサーバに送信することと
を更に備える、請求項７から９のいずれか一項に記載の方法。
メモリと、
前記メモリに接続したプロセッサと
を備える、中央ノードまたはサーバであって、前記プロセッサは、
第１のユーザデバイスから第１のモデルを受信し、第２のユーザデバイスから第２のモデルを受信し、前記第１のモデルが、ニューラルネットワークモデルタイプであり、かつ第１の層のセットを有し、前記第２のモデルが、前記ニューラルネットワークモデルタイプであり、かつ前記第１の層のセットとは異なる第２の層のセットを有し、
前記第１の層のセットの各層について、前記第１の層のセットの中の前記層から第１のフィルタのサブセットを選択し、
前記第２の層のセットの各層について、前記第２の層のセットの中の前記層から第２のフィルタのサブセットを選択し、
グローバルの層のセット中の各層について、前記層が、対応する前記第１のフィルタのサブセットおよび／または対応する前記第２のフィルタのサブセットに基づくフィルタを備えるように、前記第１の層のセットおよび前記第２の層のセットに基づいて前記グローバルの層のセットを形成することによってグローバルモデルを構成し、
前記グローバルモデルに対する全結合層を形成し、前記全結合層が、前記グローバルの層のセットの最終層となるように設定される、中央ノードまたはサーバ。
前記プロセッサは、
前記グローバルモデルに対する前記全結合層に関した情報を、前記第１のユーザデバイスおよび前記第２のユーザデバイスを含む１つまたは複数のユーザデバイスに送信し、
１つまたは複数の係数のセットを前記１つまたは複数のユーザデバイスから受信し、前記１つまたは複数の係数のセットが、前記グローバルモデルに対する前記全結合層に関した前記情報を使用して、デバイス固有のローカルモデルをトレーニングする前記１つまたは複数のユーザデバイスの各々からの結果に対応し、
前記全結合層に対する新しい係数のセットを作成するために、前記１つまたは複数の係数のセットを平均することによって、前記グローバルモデルを更新する
ように更に設定される、請求項１１に記載の中央ノードまたはサーバ。
前記第１の層のセットの中の前記層から第１のフィルタのサブセットを選択することが、前記層からｋ個の最良のフィルタを決定することを備え、前記第１のサブセットが、決定された前記ｋ個の最良のフィルタを備える、請求項１１または１２に記載の中央ノードまたはサーバ。
前記第２の層のセットの中の前記層から第２のフィルタのサブセットを選択することが、前記層からｋ個の最良のフィルタを決定することを備え、前記第２のサブセットが、決定された前記ｋ個の最良のフィルタを備える、請求項１１または１２に記載の中央ノードまたはサーバ。
前記第１の層のセットおよび前記第２の層のセットに基づいてグローバルの層のセットを形成することが、
前記第１の層のセットおよび前記第２の層のセットに共通している各層について、対応する前記第１のフィルタのサブセットおよび対応する前記第２のフィルタのサブセットを連結することによって前記グローバルモデル中の対応する層を生成することと、
前記第１の層のセットに固有である各層について、対応する前記第１のフィルタのサブセットを使用することによって、前記グローバルモデル中の対応する層を生成することと、
前記第２の層のセットに固有である各層について、対応する前記第２のフィルタのサブセットを使用することによって、前記グローバルモデル中の対応する層を生成することと
を備える、請求項１１から１４のいずれか一項に記載の中央ノードまたはサーバ。
前記プロセッサが、第１のユーザデバイスおよび第２のユーザデバイスのうちの１つまたは複数に、そのそれぞれのローカルモデルを前記ニューラルネットワークモデルタイプに蒸留するよう命令するように更に設定される、請求項１１から１５のいずれか一項に記載の中央ノードまたはサーバ。
メモリと、
前記メモリに接続したプロセッサと
を備える、ユーザデバイスであって、前記プロセッサは、
ローカルモデルを第１の蒸留モデルに蒸留し、前記ローカルモデルが、第１のモデルタイプであり、前記第１の蒸留モデルが、前記第１のモデルタイプとは異なる第２のモデルタイプであり、
前記第１の蒸留モデルをサーバに送信し、
グローバルモデルを前記サーバから受信し、前記グローバルモデルが、前記第２のモデルタイプあり、
前記グローバルモデルに基づいて前記ローカルモデルを更新する
ように設定される、ユーザデバイス。
前記プロセッサは、
ユーザデバイスで受信される新しいデータに基づいて前記ローカルモデルを更新し、
更新された前記ローカルモデルを第２の蒸留モデルに蒸留し、前記第２の蒸留モデルが、前記第２のモデルタイプであり、
前記第２の蒸留モデルの重み付き平均および前記第１の蒸留モデルを前記サーバに送信する
ように更に設定される、請求項１７に記載のユーザデバイス。
前記第２の蒸留モデルの前記重み付き平均および前記第１の蒸留モデルが、Ｗ１＋αＷ２によって与えられ、ここで、Ｗ１は、前記第１の蒸留モデルを表し、Ｗ２は、前記第２の蒸留モデルを表し、０＜α＜１である、請求項１８に記載のユーザデバイス。
前記プロセッサは、
ローカルデータに基づいて前記グローバルモデルの最終層に対する係数を決定し、
前記係数を中央ノードまたはサーバに送信する
ように更に設定される、請求項１７から１９のいずれか一項に記載のユーザデバイス。
命令を備えるコンピュータプログラムであって、前記命令は、処理回路によって実行されると、前記処理回路に、請求項１から１０のいずれか一項に記載の方法を実施させる、コンピュータプログラム。
電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体のうちの１つである、請求項２１に記載のコンピュータプログラムをもつキャリア。