JP2023518015A

JP2023518015A - データ保護方法、装置、サーバ及び媒体

Info

Publication number: JP2023518015A
Application number: JP2022555056A
Authority: JP
Inventors: 建▲凱▼ ▲孫▼; ▲偉▼豪高; 宏毅 ▲張▼; 崇王; 浚源解; 良超 ▲呉▼; 小兵 ▲劉▼
Original assignee: Beijing ByteDance Network Technology Co Ltd; ByteDance Inc
Current assignee: Beijing ByteDance Network Technology Co Ltd; ByteDance Inc
Priority date: 2020-07-06
Filing date: 2021-06-25
Publication date: 2023-04-27
Anticipated expiration: 2041-06-25
Also published as: US20220383054A1; US11755691B2; EP4083839A4; WO2022007651A1; EP4083839A1; CN111783142B; CN111783142A; JP7354463B2

Abstract

本出願の実施例は、データ保護方法、装置、サーバ及び媒体を開示する。当該方法のある具体的な実施形態は、分布不均衡の二分類サンプルセットに属する目標サンプルと、該目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するステップと、該目標サンプルに対応する勾配関連情報と該参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップと、サンプルセットにおける異なるカテゴリに属するサンプルに対応する補正後の勾配伝達情報が一致するように、該追加するデータノイズの情報に基づいて該目標サンプルに対応する初期勾配伝達値を補正するステップと、該勾配伝達情報を連携トレーニングモデルの受動参加者に送信するステップと、を含む。当該実施形態は、正負サンプルに対応する補正後の勾配伝達情報に明らかな差異がないようにすることで、データの安全を強力に保護する。【選択図】図２

Description

本出願は、出願番号が第２０２０１０６４０９８５.Ｘ号であり、出願日が２０２０年７月６日であり、名称が「データ保護方法、装置、サーバ及び媒体」である中国特許出願に基づいて出願し、当該中国特許出願の優先権を主張し、参照により当該中国特許出願の内容の全てがここに取り込まれる。

本出願の実施例は、コンピュータ技術分野に関し、具体的にはデータ保護方法、装置、サーバ及び媒体に関する。

人工知能技術の発展につれて、機械学習がますます広く適用されていく。近年、データ安全の保護及び孤立データアイランド（ｉｓｏｌａｔｅｄｄａｔａｉｓｌａｎｄ）の問題の解決のために、関連方式は、一般的に連携トレーニングモデルを用いて、ローデータ（Ｒａｗｄａｔａ）を暴露しない前提で機械学習モデルの共同トレーニングを完成することを実現する。教師付き機械学習モデルに対して、一般的にサンプルラベルを有する一方を主動参加者（ａｃｔｉｖｅｐａｒｔｙ）と言い、サンプルラベルを有しないもう一方を受動参加者（ｐａｓｓｉｖｅｐａｒｔｙ）という。主動参加者が有するサンプルラベルは、連携トレーニングモデルにおいて保護する必要がある重要データの１つである。

本出願の実施例は、データ保護方法、装置、サーバ及び媒体を提出する。

第一の態様では、本出願の実施例はデータ保護方法を提供する。当該方法は、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するステップと、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップと、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するステップと、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させるステップと、を含み、初期勾配伝達値は、トレーニングする連携トレーニングモデルを、目標サンプルに基づいて調整することを指示するためのものである。

ある実施例では、上記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含み、サンプル予測確率は、サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであり、所定のカテゴリラベルは、サンプルセットにおいて占める割合が小さいサンプルラベルを含み、参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つサンプルラベルが所定のカテゴリラベルと一致するサンプルを含む。さらに、上記した目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップは、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップを含む。

ある実施例では、上記した目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップは、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致しないと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と負の相関となる第１標準差を生成するステップを含む。

ある実施例では、上記した目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップは、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致し、且つ目標サンプルに対応するサンプル予測確率が参照サンプルのサンプル予測確率よりも大きいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と正の相関となる第２標準差を生成するステップを含む。

ある実施例では、上記参照サンプルは、目標サンプルと同一バッチであって、所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含む。

ある実施例では、上記勾配関連情報は、サンプルに対応する損失関数の、受動参加者に属するモデル部分のパラメータに対する勾配を指示するための勾配係数（ｇｒａｄｉｅｎｔｍｏｄｕｌｕｓｖａｌｕｅ）を含む。さらに、上記した目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップは、目標サンプルに対応する勾配係数が参照サンプルの勾配係数よりも小さいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応する勾配係数と負の相関となる第３標準差を生成するステップを含む。

ある実施例では、上記参照サンプルは、目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含む。

第２の態様では、本出願の実施例はデータ保護装置を提供する。当該装置は、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するように構成された取得手段と、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するように構成された生成手段と、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するように構成された補正手段と、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させるように構成された送信手段と、を備え、初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。

ある実施例では、上記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含み、上記サンプル予測確率は、サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであり、所定のカテゴリラベルは、サンプルセットにおいて占める割合が小さいサンプルラベルを含み、参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つサンプルラベルが所定のカテゴリラベルと一致するサンプルを含む。上記生成手段は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するように構成される。

ある実施例では、上記生成手段は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致しないと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と負の相関となる第１標準差を生成するように構成される。

ある実施例では、上記生成手段は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致し、且つ目標サンプルに対応するサンプル予測確率が参照サンプルのサンプル予測確率よりも大きいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と正の相関となる第２標準差を生成するように構成される。

ある実施例では、上記勾配関連情報は、サンプルに対応する損失関数の、受動参加者に属するモデル部分のパラメータに対する勾配を指示するための勾配係数を含む。上記生成手段は、さらに、目標サンプルに対応する勾配係数が参照サンプルの勾配係数よりも小さいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応する勾配係数と負の相関となる第３標準差を生成するように構成される。

第３の態様では、本出願の実施例はサーバを提供する。当該サーバは、１つ又は複数のプロセッサと、１つ又は複数のプログラムが記憶された記憶装置と、を備え、１つ又は複数のプログラムが１つ又は複数のプロセッサに実行されると、１つ又は複数のプロセッサに第１の態様のいずれか１つの実現方式に記載の方法を実現させる。

第４の態様では、本出願の実施例はコンピュータ読み取り可能な媒体を提供する。当該コンピュータ読み取り可能な媒体には、プロセッサに実行されるとき、第１の態様のいずれか１つの実現方式に記載の方法を実現するコンピュータプログラムが記憶されている。

本出願の実施例が提供するデータ保護方法、装置、サーバ及び媒体は、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得し、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成し、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成し、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させ、初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。これにより、正負サンプルに対応する補正後の勾配伝達情報の一致性を保証して、データの安全を強力に保護する。

本出願におけるその他の特徴、目的、利点は、以下の図面を参照して実施例に対する非限定的な詳細な説明により、より明瞭になる。
本出願のある実施例を適用できる例示的なシステム構成の図である。本出願に係るデータ保護方法のある実施例のフローチャートである。本出願の実施例に係るデータ保護方法のある使用シーンの模式図である。本出願に係るデータ保護方法の他の実施例のフローチャートである。本出願に係るデータ保護装置のある実施例の構成模式図である。本出願の実施例を実現するのに適する電子デバイスの構成模式図である。

以下、図面と実施例を参照しながら本出願についてさらに詳細的に説明する。ここで記載された具体的な実施例は関連発明を説明するためのものに過ぎず、本発明を限定するものではないことは当然理解される。また、説明の便宜上、図面には発明に関連する部分のみが示されている。

なお、競合しない場合に、本出願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面と実施例を参照しながら本出願について詳細的に説明する。

図１には、本出願のデータ保護方法又はデータ保護装置を適用できる例示的な構成１００を示している。

図１に示すように、システム構成１００は、端末デバイス１０１、１０２、１０３と、ネットワーク１０４、１０６と、サーバ１０５、１０７とを備え得る。ネットワーク１０４、１０６は、端末デバイス１０１、１０２、１０３とサーバ１０５との間、及びサーバ１０５とサーバ１０７との間で通信リンクの媒体を提供するために用いられる。ネットワーク１０４、１０６は、例えば、有線、無線通信リンク、又は光ファイバケーブルなどの様々な接続タイプを含み得る。

サーバ１０１と１０２とはネットワーク１０３を介してインタラクトすることができ、メッセージなどを受信又は発信する。サーバ１０１と１０２は、連携トレーニングモデルの異なる参加者に属するサーバであってもよい。例示として、上記受動参加者としてのサーバ１０１は、連携トレーニングモデルのサブ部分１０４１をトレーニングするためのものであってもよい。上記連携トレーニングモデルのサブ部分１０４１は、連携トレーニングモデルに入力されたトレーニングサンプルを特徴表記（ｅｍｂｅｄｄｉｎｇ）に転換するためのものであってもよい。上記連携トレーニングモデルのサブ部分１０４１の出力層は、Ｋ個のニューロンを含んでもよい。上記サーバ１０１は、上記特徴表記１０５１を主動参加者としてのサーバ１０２に送信してもよい。サーバ１０２は、連携トレーニングモデルのサブ部分１０４２をトレーニングするためのものであってもよい。上記連携トレーニングモデルのサブ部分１０４２は、受信した特徴表記１０５１と主動参加者が生成した特徴表記とを組み合わせた特徴表記を、入力されたトレーニングサンプルが所定のラベルに対応する確率を予測するものに転換するためのものであってもよい。上記主動参加者は、特徴工程（ｆｅａｔｕｒｅｅｎｇｉｎｅｅｒｉｎｇ）によって上記特徴表記を生成してもよいし、上記連携トレーニングモデルのサブ部分１０４１に類似のモデルを用いて上記特徴表記を生成してもよい。次に、サーバ１０２は、得られた確率と入力されたサンプルに対応するサンプルラベルとの差異を用いて勾配関連情報１０５２を特定する。上記勾配関連情報は、例えば、上記連携トレーニングモデルのサブ部分１０４１の出力層における各ニューロンに対する、所定の損失関数の対応の勾配を含んでもよい。次いで、サーバ１０２は、サーバ１０１が得られた勾配関連情報１０５２に基づいて上記連携トレーニングモデルのサブ部分１０４１の出力層における各ニューロンに対応するパラメータを調整するように、特定された勾配関連情報１０５２を上記サーバ１０１に送信してもよい。

なお、上記連携トレーニングモデルのサブ部分１０４２は、隠れ層（図１に示す第（Ｌ－１）層）と、ｌｏｇｉｔモデル（図１に示す第Ｌ層）と、ｓｏｆｔｍａｘ層とを含んでもよい。上記所定の損失関数は、クロスエントロピー損失関数（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）を含んでもよい。

なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバは、ハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現してもよいし、個別のサーバとして実現してもよい。サーバは、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散型サービスを提供するためのソフトウェア又はソフトウェアモジュール）として実現してもよいし、個別のソフトウェア又はソフトウェアモジュールとして実現してもよい。ここで具体的に限定しない。

なお、本出願の実施例が提供するデータ保護方法は、一般的にサーバ１０２によって実行される。相応的に、データ保護装置は、一般的にサーバ１０２に設置される。

図１に示すサーバとネットワークの数は例示的なものだけであることを理解すべきである。実現の需要に応じて、任意の数のサーバ及びネットワークを備えてもよい。

次いで、図２を参照すると、本出願に係るデータ保護方法のある実施例のフロー２００を示している。当該データ保護方法は、以下のステップを含む。

ステップ２０１：目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する。

本実施例において、データ保護方法の実行主体（図１に示すサーバ１０２）は、有線接続方式又は無線接続方式によって、目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得することができる。上記目標サンプルが属するサンプルセットは、一般的に分布不均衡の二分類サンプルセットに属する。上記分布部均衡は、一般的に正負サンプルが占める割合の違いを表すためのものであり、特に占める割合の差が大きいシーン（例えば、正のサンプルの割合が２５％、負のサンプルの割合が７５％）に適用される。

なお、連携トレーニングモデルは、トレーニングの過程で、毎回１バッチ（ｂａｔｃｈ）のサンプルを初期モデルに入力してトレーニングする方式を一般的に採用する。上記目標サンプルと参照サンプルとは、一般的に同一バッチのトレーニングサンプルに属する。

本実施例において、例示として、上記実行主体は、ローカル又は通信接続の電子デバイス（例えば、データベースサーバ）から、予め記憶されたサンプルセットを取得することができる。次いで、上記実行主体は、上記サンプルセットから１バッチのサンプルを選択してトレーニングする連携トレーニングモデルに入力して、前方向伝搬（ＦｏｒｗａｒｄＰｒｏｐａｇａｔｉｏｎ）によって入力された各サンプルに対応する出力結果を得る。そして、上記実行主体は、得られた出力結果に基づいて、入力された各サンプルに対応する勾配関連情報を特定する。上記目標サンプルは、予め指定された任意のサンプルであってもよいし、所定の規則に従って選択され参照サンプルと異なるサンプルであってもよい。

本実施例のある選択的な実現方式において、上記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含んでもよい。上記サンプル予測確率は、上記サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであってもよい。上記所定のカテゴリラベルは、上記分布不均衡の二分類サンプルセットにおいて占める割合が小さいサンプルラベルを含んでもよい。例示として、当該サンプルセットにおける負のサンプル（例えば、占める割合７０％）が正のサンプル（例えば、占める割合３０％）よりも明らかに多い場合、上記所定のラベルは正のサンプルの情報（例えば、「＋１」）を表すとしてもよい。上記参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つサンプルラベルが上記所定のカテゴリラベルと一致するサンプルを含んでもよい。上記所定の確率条件は、例えば、サンプル予測確率がサンプルセットにおけるサンプルに対応するサンプル予測確率を低い順に配列した上位Ｍ個に属するという条件を含んでもよい。上記Ｍの値は、各バッチのサンプルの数（ｂａｔｃｈｓｉｚｅ）に応じて予め指定されることができ、例えば、３、５などである。

なお、上記サンプルセットは二分類であるため、所定のカテゴリラベルが上記分布不均衡の二分類サンプルセットにおいて占める割合が大きいサンプルラベルである場合、参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つ上記所定のカテゴリラベルと異なるサンプルを含んでもよい。上記所定の確率条件は、例えば、サンプル予測確率がサンプルセットにおけるサンプルに対応するサンプル予測確率を高い順に配列した上位Ｎ個に属するという条件を含んでもよい。上記Ｎの値は、各バッチのサンプルの数（バッチサイズ：ｂａｔｃｈｓｉｚｅ）に応じて予め指定されることができ、例えば、３、５などである。この２つの状況は等価であって、後述の分析は前の第１の状況を例として具体的に説明する。

本実施例のある選択的な実現方式において、上記所定のカテゴリラベルが上記サンプルセットにおいて占める割合が小さいサンプルラベルを含むことに基づいて、上記参照サンプルは、上記目標サンプルと同一バッチであって、上記所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含んでもよい。

ステップ２０２：目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成する。

本実施例において、上記実行主体は、ステップ２０１によって取得された目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を様々な方式で生成することができる。上記追加するデータノイズの情報は統計値を含んでもよい。上記統計値は、一般的に、平均値、分散、標準差のうち少なくとも１つを含んでもよいが、これらに限らない。

本実施例のある選択的な実現方式において、上記実行主体は、上記勾配関連情報に含まれるサンプルカテゴリを表すためのサンプルラベルとサンプル予測確率、及びサンプル予測確率が所定の確率条件を満たし且つサンプルラベルが上記所定のカテゴリラベルと一致する参照サンプルに基づいて、目標サンプルに対応するサンプルラベルが上記所定のカテゴリラベルと一致するか否かに応じて、上記目標サンプルにマッチングする追加するデータノイズの標準差を生成してもよい。

選択的に、上記実行主体は、目標サンプルに対応するサンプルラベルが上記所定のカテゴリラベルと一致しないと判定されたことに応答して、上記目標サンプルにマッチングする追加するデータノイズの標準差として、第１標準差を生成してもよい。

これらの実現方式において、上記第１標準差は、一般的に上記目標サンプルに対応するサンプル予測確率と負の相関となる。例示として、上記第１標準差は、

であってもよい。上記ｐ_ｉは、上記参照サンプルに対応するサンプル予測確率を表すためのものであってもよい。上記ｐ_ｋは、上記目標サンプルに対応するサンプル予測確率を表すためのものであってもよい。

選択的に、上記実行主体は、目標サンプルに対応するサンプルラベルが上記所定のカテゴリラベルと一致し、且つ上記目標サンプルに対応するサンプル予測確率が参照サンプルのサンプル予測確率よりも大きいと判定されたことに応答して、上記目標サンプルにマッチングする追加するデータノイズの標準差として、第２標準差を生成してもよい。

これらの実現方式において、上記第２標準差は、一般的に上記目標サンプルに対応するサンプル予測確率と正の相関となる。例示として、上記第２標準差は、

上記選択的な実現方式に基づいて、選択された参照サンプルが上記所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルであると、上記目標サンプルと同一バッチである、参照サンプル以外の全てのサンプルに対して前述のようなノイズ追加を行うことで、同一バッチのサンプルに対応する勾配伝達情報がいずれも一致する方式で補正されることができるため、同一バッチのサンプルに対応する勾配伝達情報は、ノイズの追加によるモデルパラメータ調整への影響が最大限に相殺されて、モデルのトレーニング効果を両立することを実現する。

ステップ２０３：追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成する。

本実施例において、上記実行主体は、まず、目標サンプルに対応する初期勾配伝達値を取得してもよい。上記初期勾配伝達値は、上記目標サンプルに基づいてトレーニングする連携トレーニングモデルを調整することを指示するためのものであってもよい。即ち、上記初期勾配伝達値は、連携トレーニングモデルの主動参加者から受動参加者へ伝達する、連携トレーニングモデルのパラメータを調整するための根拠を表すためのものであってもよい。例示として、上記初期勾配伝達値は、入力されたサンプルに対応する所定の損失関数の、上記連携トレーニングモデルの受動参加者がトレーニングするモデルの出力層における各ニューロンに対する勾配（例えば、図１に示す勾配関連情報１０５２）を含んでもよい。具体的には、上記初期勾配伝達値は、以下のステップによって特定することができる。

図１に示すような連携トレーニングモデルのサブ部分１０４２は、式（１）に示すような損失関数を採用すると仮定する。

ｘは、連携トレーニングモデルに入力されたサンプルを表すためのものであってもよい。ｃは、入力されたサンプルに対応するサンプルラベルを表すためのものである。ｙ＝［ｙ_１、ｙ_２、…、ｙ_ｊ］は、ｌｏｇｉｔモデルの出力を表すためのものであってもよい。ｙ_ｉは、入力されたサンプルのラベルがカテゴリラベルｉであると予測されるスコア（ｌｏｇｉｔｓｃｏｒｅ）を表すためのものであってもよい。

よって、上記損失関数のｌｏｇｉｔの勾配は、式（２）に示すようになる。

すると、入力されたサンプルのラベルがカテゴリラベルｉであると予測される確率は、式（３）に示すようになる。

よって、上記損失関数の、上記連携トレーニングモデルの受動参加者がトレーニングするモデルのサブ部分１０４１の出力層における各ニューロンに対する勾配は、式（４）に示すようになる。

ｌｏｇｉｔモデルが二分類である場合、上記カテゴリラベルｉが正のサンプルを表すためのものであると仮定して、上記目標サンプルのサンプルラベルと上記カテゴリラベルと一致するか又は一致しないと、上記目標サンプルに対応する初期勾配伝達値は、それぞれ式（５）、式（６）に示すようになる。

これにより、発明者は、分布不均衡のサンプルセットにおいて、一般的に、（１－ｐ_１）^２とｐ_１ ^２の大きさによって、サンプルに対応するサンプルラベルを区別することができる。即ち、正のサンプルの勾配係数は、負のサンプルの勾配係数よりも明らかに大きい。

本実施例において、上記実行主体は、異なるカテゴリラベルに対応するサンプルに対応する勾配伝達情報が一致するように、ステップ２０２で生成された追加するデータノイズの情報と一致させる方法によって、目標サンプルに対応する初期勾配伝達値を補正し、補正後の勾配伝達情報を生成することができる。

例示として、追加するデータノイズは、平均値（Ｍｅａｎ）が０で、標準差（ＳｔａｎｄａｒｄＤｅｖｉａｔｉｏｎ）がσである分布に合致し、即ち、ｎｏｉｓｅ～Ｎ（０、σ^２）である。上記ノイズは、ガウスノイズ（ＧａｕｓｓｉａｎＮｏｉｓｅ）と、一様分布（ＵｎｉｆｏｒｍＤｉｓｔｒｉｂｕｔｉｏｎ）ノイズとのうちの少なくとも１つを含んでもよいが、これらに限らない。すると、上記実行主体は、目標サンプルに対応する初期勾配伝達値ｇをｇ′＝ｇ・（１＋ｎｏｉｓｅ）に補正して補正後の勾配伝達情報とすることができる。以下では、上記補正を通じて異なるサンプルラベルに対応するサンプルに対応する勾配伝達情報を一致させることについて具体的に説明する。
上記所定のカテゴリラベルｉと一致しない目標サンプル（即ち、負のサンプル）に対して、Ｎ（０、 σ^２）分布に合致するノイズを追加する。σの値は、前述の第１標準差を例として、即ち、

である。
すると、

したがって、補正後の目標サンプルに対応する勾配伝達情報の係数の望ましさは、上記参照サンプルに対応する勾配伝達情報の係数の望ましさに等しい。
相応的に、上記所定のカテゴリラベルｉと一致し（即ち、正のサンプル）、且つ相応のサンプル予測確率が上記参照サンプルのサンプル予測確率よりも大きい目標サンプルに対して、Ｎ（０、 σ^２）分布に合致するノイズを追加する。σの値は、前述の第２標準差を例として、即ち、

である。

よって、補正後の目標サンプルに対応する勾配伝達情報の勾配係数の望ましさは、上記参照サンプルに対応する勾配伝達情報の勾配係数の望ましさに等しい。

ステップ２０４：勾配伝達情報を連携トレーニングモデルの受動参加者に送信する。

本実施例において、上記実行主体は、ステップ２０３で得られた勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、上記受動参加者に上記勾配伝達情報に基づいて上記連携トレーニングモデルのパラメータを調整させることができる。例示として、受動参加者は、上記勾配伝達情報に基づいて、チェーン法則（Ｃｈａｉｎｒｕｌｅ）に従って微分して、上記の受動参加者側の連携トレーニングモデル（例えば、図１に示す連携トレーニングモデルのサブ部分１０４１）のパラメータを更新する。

続いて、図３を参照する。図３は、本出願の実施例に係るデータ保護方法のある使用シーンの模式図である。図３の使用シーンでは、ユーザは、端末デバイス（例えば、図３に示す３０１１、３０１２、３０１３）でアプリケーションＡに表示された文章を閲覧し、文章中のリンクをクリックすることでアプリケーションＢに表示された商品情報に遷移する。端末デバイス（例えば、図３に示す３０１１、３０１２、３０１３）は、ネットワーク３０２を介してアプリケーションＡ、Ｂのバックグラウンドサーバ３０３、３０４に通信接続される。バックグラウンドサーバ３０３は、アプリケーションＡのクライアントを介してユーザ情報を取得するとともに、ローカルに記憶された連携トレーニングモデルの一部によってユーザａ特徴３０５を取得する。上記ユーザａ特徴３０５は、一般的にアプリケーションＡが取得したローデータに基づいて抽出される。バックグラウンドサーバ３０４は、アプリケーションＢのクライアントから送信された注文要求を受信したか否かに応じて、正負サンプルを表すためのサンプルラベルを生成することができる。ユーザｂ特徴３０６は、一般的にアプリケーションＢが取得したローデータに基づいて抽出される。バックグラウンドサーバ３０４は、ローカルに記憶された連携トレーニングモデルの一部によってサンプルラベルであると予測される確率を得るとともに、各ユーザ情報に対応するサンプルラベル及び所定の損失関数に基づいて各ユーザ情報に対応する初期勾配伝達値３０７を生成することができる。バックグラウンドサーバ３０４は、前述の実施例に記載の方式によって各ユーザ情報に対応する追加するノイズ情報３０８を生成することができる。次いで、バックグラウンドサーバ３０４は、追加するノイズ情報３０８に基づいて、生成された初期勾配伝達値３０７を補正して、補正後の勾配伝達情報３０９を生成することができる。最後に、バックグラウンドサーバ３０４は、バックグラウンドサーバ３０３に上記勾配伝達情報に基づいてそのローカルの連携トレーニングモデルの一部のモデルパラメータを調整させるように、生成された補正後の勾配伝達情報３０９をバックグラウンドサーバ３０３に送信することができる。

本出願を実現する過程で、発明者は、主動参加者と受動参加者のデータが、ユーザ次元において重複が多いが、特徴次元において重複が少ない場合に、従来技術に一般的に用いられる損失関数は、サンプルデータ分布不均衡の二分類のタスクに使用されるとき、正のサンプルと負のサンプルとによって得られた、連携トレーニングモデルのパラメータを調整するための勾配関連情報が分化してしまうことを見出した。従来技術の１つは、一般的に、連携トレーニングモデルの主動参加者が異なるトレーニングサンプルに対して得られた、受動参加者にモデルパラメータを調整させることを指示するための勾配伝達値を受動参加者に直接に送信するため、未処理の勾配伝達値にはデータ安全リスクが存在する（例えば、伝達される勾配の係数の大きさによって正負サンプルを推定する）。本出願の上記実施例が提供する方法では、目標サンプル及び参照サンプルに対応する勾配関連情報によって追加するデータノイズの情報を特定し、生成されたデータノイズを用いて初期勾配伝達値を補正して、正負サンプルに対応する補正後の勾配伝達情報の一致性を保証することで、データの安全を強力に保護する。

続いて、図４を参照する。図４は、データ保護方法の他の実施例のフロー４００を示している。当該データ保護方法のフロー４００は、以下のステップを含む。

ステップ４０１：目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する。

本実施例において、データ保護方法の実行主体（例えば、図１に示すサーバ１０２）は、前述の実施例におけるステップ２０１と一致する方式に従って上記勾配伝達情報を取得することができる。上記目標サンプルが属するサンプルセットは、一般的に分布不均衡の二分類サンプルセットに属する。上記勾配関連情報は、上記サンプルに対応する損失関数の、受動参加者に属するモデル部分のパラメータに対する勾配を指示するための勾配係数を含んでもよい。上記参照サンプルは、勾配係数が所定の勾配条件を満たすサンプルを含んでもよい。上記所定の勾配条件は、例えば、勾配係数がサンプルセットにおけるサンプルに対応する勾配係数を高い順に配列した上位Ｑ個に属するという条件を含んでもよい。上記Ｑの値は、各バッチのサンプルの数（ｂａｔｃｈｓｉｚｅ）に応じて予め指定されることができ、例えば、３、５などである。

本実施例のある選択的な実現方式において、上記参照サンプルは、上記目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含んでもよい。

ステップ４０２：目標サンプルに対応する勾配係数が参照サンプルの勾配係数よりも小さいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、第３標準差を生成する。

本実施例において、目標サンプルに対応する勾配係数が上記参照サンプルの勾配係数よりも小さいと判定されたことに応答して、上記実行主体は、目標サンプルにマッチングする追加するデータノイズの標準差として、第３標準差を生成することができる。上記第３標準差は、一般的に上記目標サンプルに対応する勾配係数と負の相関となる。例示として、追加するデータノイズの平均値が０である場合、上記第３標準差は、

であってもよい。上記||ｇ_ｉ||は、上記参照サンプルに対応する勾配係数を表すためのものであってもよい。上記||ｇ_Ｋ||は、上記目標サンプルに対応する勾配係数を表すためのものであってもよい。

上記第３標準差の具体的な導出過程は、式（９）に示すようになる。

なお、前述の実施例におけるステップ４０２に類似して、上記実行主体は、上記生成されたデータノイズの標準差を用いて、異なるサンプルラベルに対応するサンプルに対応する勾配伝達情報を一致させることができるため、ここで重複の説明を省略する。

上記選択的な実現方式によれば、選択された参照サンプルが、上記目標サンプルと同一バッチであるサンプルのうち勾配係数が最も大きいサンプルであると、上記目標サンプルと同一バッチであって参照サンプル以外の全てのサンプルに対して前述のようなノイズ追加を行うことで、同一バッチのサンプルに対応する勾配伝達情報がいずれも一致する方式で補正されることができるため、同一バッチのサンプルに対応する勾配伝達情報は、ノイズの追加によるモデルパラメータ調整への影響が最大限に相殺されて、モデルのトレーニング効果を両立することを実現する。

ステップ４０３：追加するデータノイズの情報に基づいて目標サンプルの勾配関連情報に含まれる初期伝達値を補正して、伝達値を含む勾配伝達情報を生成する。

ステップ４０４：勾配伝達情報を連携トレーニングモデルの受動参加者に送信する。

上記ステップ４０３、ステップ４０４は、それぞれ前述の実施例におけるステップ２０３、ステップ２０４と一致して、ステップ２０３、ステップ２０４に対する上記説明はステップ４０３、ステップ４０４にも適用できるため、ここで重複の説明を省略する。

図４から分かるように、本実施例に係るデータ保護方法のフロー４００は、目標サンプルと参照サンプルとに対応する勾配係数に基づいて、追加するデータノイズの情報を特定するステップを具現している。よって、本実施例に記載の発明は、サンプルに対応するラベル情報と予測確率情報とを別途に取得する必要がなく、勾配係数情報だけで追加するデータノイズの情報を特定することができるため、データ伝送量を減少させて、モデルトレーニングの効率を向上させる。

次に、図５を参照する。上記各図面に示す方法の実現として、本出願はデータ保護装置のある実施例を提供する。当該装置の実施例は、図２又は図４に示す方法の実施例に対応し、様々な電子デバイスに適用されることができる。

図５に示すように、本実施例が提供するデータ保護装置５００は、取得手段５０１と、生成手段５０２と、補正手段５０３と、送信手段５０４と、を備える。取得手段５０１は、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するように構成される。生成手段５０２は、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するように構成される。補正手段５０３は、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するように構成される。初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。送信手段５０４は、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させるように構成される。

本実施例において、データ保護装置５００では、取得手段５０１、生成手段５０２、補正手段５０３、送信手段５０４の具体的な処理及びその奏する効果は、それぞれ図２又は図４に対応する実施例におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４に関する説明を参照することができるため、ここで重複の説明を省略する。

本実施例のある選択的な実現方式において、上記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含んでもよい。上記サンプル予測確率は、サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであってもよい。上記所定のカテゴリラベルは、サンプルセットにおいて占める割合が小さいサンプルラベルを含んでもよい。上記参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つサンプルラベルが所定のカテゴリラベルと一致するサンプルを含んでもよい。上記生成手段５０２は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するように構成されてもよい。

本実施例のある選択的な実現方式において、上記生成手段５０２は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致しないと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と負の相関となる第１標準差を生成するように構成されてもよい。

本実施例のある選択的な実現方式において、上記生成手段５０２は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致し、且つ目標サンプルに対応するサンプル予測確率が参照サンプルのサンプル予測確率よりも大きいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と正の相関となる第２標準差を生成するように構成されてもよい。

本実施例のある選択的な実現方式において、上記参照サンプルは、目標サンプルと同一バッチであって、所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含んでもよい。

本実施例のある選択的な実現方式において、上記勾配関連情報は、勾配係数を含んでもよい。上記勾配係数は、サンプルに対応する損失関数の、受動参加者に属するモデル部分のパラメータに対する勾配を指示するためのものであってもよい。上記生成手段５０２は、さらに、目標サンプルに対応する勾配係数が参照サンプルの勾配係数よりも小さいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応する勾配係数と負の相関となる第３標準差を生成するように構成されてもよい。

本実施例のある選択的な実現方式において、上記参照サンプルは、目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含んでもよい。

本出願の上記実施例が提供する装置は、取得手段５０１によって分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する。生成手段５０２は、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成する。補正手段５０３は、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成し、初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。送信手段５０４は、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させる。これにより、正負サンプルに対応する補正後の勾配伝達情報の一致性を保証して、データの安全を強力に保護する。

次に、図６を参照する。図６は、本出願の実施例を実現するための電子デバイス（例えば、図１に示すサーバ）６００の構成模式図を示している。図６に示すサーバは一例に過ぎず、本出願の実施例の機能と使用範囲に何らの制限を与えるものではない。

図６に示すように、電子デバイス６００は、リードオンリーメモリ（ＲＯＭ）６０２に記憶されたプログラム、或いは記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムによって様々な適宜な動作及び処理を行う処理装置（例えば、中央処理装置、グラフィクスプロセッサ等）６０１を備えてもよい。ＲＡＭ６０３には、電子デバイス６００の操作に必要な様々なプログラム及びデータがさらに記憶されている。処理装置６０１と、ＲＯＭ６０２と、ＲＡＭ６０３とは、バス６０４により互いに接続されている。入／出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続されている。

一般的に、以下のような装置は、入／出力（Ｉ／Ｏ）インタフェース６０５に接続可能である。例えば、タッチスクリーン、タッチパネル、キーボード、マウス等を含む入力装置６０６と、例えば、液晶ディスプレイ（ＬＣＤ、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、スピーカー、振動子等を含む出力装置６０７と、例えば、磁気テープ、ハードディスク等を含む記憶装置６０８と、通信装置６０９とである。通信装置６０９は、電子デバイス６００と他のデバイスと、無線又は有線通信でデータ交換を行うことを許可することができる。図６は各種の装置を備える電子デバイス６００を示しているが、示される全ての装置を実施する又は備えることが要求されていないことは理解すべきである。代替的に実施してもよいし、より多い又はより少ない装置を備えてもよい。図６に示す各ブロックは、１つの装置を代表してもよいし、必要に応じて複数の装置を代表してもよい。

特に、本出願の実施例によれば、フローチャートを参照しながら説明した上記過程は、コンピュータソフトウェアプログラムとして実現されることが可能である。例えば、本出願の実施例は、あるコンピュータプログラム製品に関し、コンピュータ読み取り可能な媒体に搭載されたコンピュータプログラムに関する。当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信装置６０９によってネットからダウンロード及びインストールされることができる。或いは、記憶装置６０８からインストールされる、又は、ＲＯＭ６０２からインストールされる。当該コンピュータプログラムが、処理装置６０１によって実行されるとき、本出願の実施例の方法に規定された上記機能が実行される。

なお、本出願に記載のコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、又はコンピュータ読み取り可能な記憶媒体、又は上記双方の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は上記の任意の組み合わせであってもよいが、これらに限らない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例は、１つ又は複数のリード線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスク・リードオンリーメモリ（ＣＤ－ＲＯＭ）、光メモリデバイス、磁気メモリデバイス、又は上記の任意の組み合わせを含むが、これらに限らない。本出願の実施例において、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶するいかなる有形媒体であってもよい。当該プログラムは、指令実行システム、装置又はデバイスに使用されるか、或いはこれらと組み合わせて使用されることができる。本出願の実施例において、コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードが担持されたベースバンド又は搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝搬されたデータ信号は、多種の形式を用いることができ、電磁信号、光信号、又は上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータ読み取り可能な信号媒体は、さらにコンピュータ読み取り可能な記憶媒体以外のいかなるコンピュータ読み取り可能な媒体であってもよい。当該コンピュータ読み取り可能な信号媒体は、指令実行システム、装置又はデバイスに使用されるか、或いはこれらと組み合わせて使用されるプログラムを送信、伝搬又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、いかなる好適な媒介によって伝送でき、例えば、電線、光テーブル、ＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、無線周波数）、又は上記の任意の組み合わせを含むが、これらに限らない。

上記コンピュータ読み取り可能な媒体は、上記サーバに含まれてもよいし、上記サーバに装着されずに独立に存在してもよい。上記コンピュータ読み取り可能な媒体には、１つ又は複数のプログラムが搭載されており、上記１つ又は複数のプログラムが当該サーバにより実行されるとき、当該サーバに以下のような処理を行わせる。即ち、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する。目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成する。サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成し、初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させる。

本出願の実施例の操作を実行するためのコンピュータプログラムコードは、１つ又は複数のプログラミング言語又はその組み合わせでコーディングされる。前記プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のオブジェクト指向プログラミング言語を含み、「Ｃ」言語などの従来の手続型プログラミング言語又は類似的なプログラミング言語をさらに含む。プログラムコードは、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、ユーザのコンピュータ上でスタンドアローン・ソフトウェア・パッケージとして実行されてもよい。ユーザのコンピュータ上で部分的に及び遠隔コンピュータ上で部分的に、又は遠隔コンピュータやサーバで全体的に実行されてもよい。遠隔コンピュータに関する場合、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）又はワイド・エリア・ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを通じて、ユーザのコンピュータに接続することができ、或いは外部コンピュータ（例えば、インターネット・サービス・プロバイダを利用してインターネットを通じて）に接続することもできる。

図面におけるフローチャート及びブロック図は、本出願の各実施例のシステム、方法及びコンピュータプログラム製品によって実現可能なシステム構成、機能及び操作を示す。フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント、又はコードの一部を表し、このモジュール、プログラムセグメント、又はコードの一部は、１つ又は複数の所定の論理機能を実現するための実行可能な指令を含む。なお、いくつかの代替の実現において、ブロックに記載された機能は、図面に記載された順序を外れて発生することがある。例えば、連続して示された２つのブロックが、実際には、ほぼ同時に実行されてもよいし、時には、その機能に応じて、逆の順番で実行されてもよい。なお、ブロック図及び／又はフローチャートにおける各ブロック、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する、専用のハードウェアベースのシステムによって実現されてもよいし、或いは、専用のハードウェア及びコンピュータ指令の組み合わせによって実現されてもよい。

本出願の実施例に係る手段は、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。記載された手段は、プロセッサに設置してもよく、例えば、取得手段と、生成手段と、補正手段と、送信手段とを備えるプロセッサとして記載されてもよい。これらの手段の名称は、ある場合において、その手段自身を限定するものではない。例えば、取得手段は、「分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する手段」として記載されてもよい。

以上の説明は、本出願の好ましい実施例及び運用技術の原理に対する説明である。本出願の実施例に係る発明の範囲は、上記技術的特徴の特定の組み合わせによる技術案に限るものではないことを、当業者は理解すべきである。また、上記発明の要旨を逸脱しない場合に、上記技術的特徴又はその均等の特徴によって任意に組み合わせて形成される他の技術案も含むべきである。例えば、上記特徴と本出願の実施例に開示された（但しこれに限らない）、類似の機能を有する技術的特徴とを、入れ替えて形成する技術案も含むべきである。

Claims

分布不均衡の二分類サンプルセットに属する目標サンプルと、前記目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するステップと、
前記目標サンプルに対応する勾配関連情報と前記参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップと、
前記サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、前記追加するデータノイズの情報に基づいて前記目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するステップと、
前記勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、前記受動参加者に前記勾配伝達情報に基づいて前記連携トレーニングモデルのパラメータを調整させるステップと、を含み、
前記初期勾配伝達値は、トレーニングする連携トレーニングモデルを、前記目標サンプルに基づいて調整することを指示するためのものである、
データ保護方法。
前記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含み、前記サンプル予測確率は、前記サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであり、前記所定のカテゴリラベルは、前記サンプルセットにおいて占める割合が小さいサンプルラベルを含み、前記参照サンプルは、前記サンプル予測確率が所定の確率条件を満たし、且つ前記サンプルラベルが前記所定のカテゴリラベルと一致するサンプルを含み、
前記目標サンプルに対応する勾配関連情報と前記参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップは、前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致するか否かに応じて、前記目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップを含む、
請求項１に記載の方法。
前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致するか否かに応じて、前記目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップは、
前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致しないと判定されたことに応答して、前記目標サンプルにマッチングする追加するデータノイズの標準差として、前記目標サンプルに対応するサンプル予測確率と負の相関となる第１標準差を生成するステップを含む、
請求項２に記載の方法。
前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致するか否かに応じて、前記目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップは、
前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致し、且つ前記目標サンプルに対応するサンプル予測確率が前記参照サンプルのサンプル予測確率より大きいと判定されたことに応答して、前記目標サンプルにマッチングする追加するデータノイズの標準差として、前記目標サンプルに対応するサンプル予測確率と正の相関となる第２標準差を生成するステップを含む、
請求項２に記載の方法。
前記参照サンプルは、前記目標サンプルと同一バッチであって、前記所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含む、
請求項２乃至４のいずれか一項に記載の方法。
前記勾配関連情報は、サンプルに対応する損失関数の、前記受動参加者に属するモデル部分のパラメータに対する勾配を指示するための勾配係数を含み、
前記目標サンプルに対応する勾配関連情報と前記参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップは、
前記目標サンプルに対応する勾配係数が前記参照サンプルの勾配係数よりも小さいと判定されたことに応答して、前記目標サンプルにマッチングする追加するデータノイズの標準差として、前記目標サンプルに対応する勾配係数と負の相関となる第３標準差を生成するステップを含む、
請求項１に記載の方法。
前記参照サンプルは、前記目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含む、
請求項６に記載の方法。
分布不均衡の二分類サンプルセットに属する目標サンプルと、前記目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するように構成された取得手段と、
前記目標サンプルに対応する勾配関連情報と前記参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するように構成された生成手段と、
前記サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、前記追加するデータノイズの情報に基づいて前記目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するように構成された補正手段と、
前記勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、前記受動参加者に前記勾配伝達情報に基づいて前記連携トレーニングモデルのパラメータを調整させるように構成された送信手段と、を備え、
前記初期勾配伝達値は、トレーニングする連携トレーニングモデルを、前記目標サンプルに基づいて調整することを指示するためのものである、
データ保護装置。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムが記憶された記憶装置と、を備え、
前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサに実行されると、前記１つ又は複数のプロセッサに請求項１乃至７のいずれか一項に記載の方法を実現させる、
サーバ。
プロセッサに実行されるとき、請求項１～７のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶された、
コンピュータ読み取り可能な媒体。