JP7354463B2 - データ保護方法、装置、サーバ及び媒体 - Google Patents

データ保護方法、装置、サーバ及び媒体 Download PDF

Info

Publication number
JP7354463B2
JP7354463B2 JP2022555056A JP2022555056A JP7354463B2 JP 7354463 B2 JP7354463 B2 JP 7354463B2 JP 2022555056 A JP2022555056 A JP 2022555056A JP 2022555056 A JP2022555056 A JP 2022555056A JP 7354463 B2 JP7354463 B2 JP 7354463B2
Authority
JP
Japan
Prior art keywords
sample
gradient
target sample
target
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022555056A
Other languages
English (en)
Other versions
JP2023518015A (ja
Inventor
建▲凱▼ ▲孫▼
▲偉▼豪 高
宏毅 ▲張▼
崇 王
浚源 解
良超 ▲呉▼
小兵 ▲劉▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Original Assignee
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd, ByteDance Inc filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2023518015A publication Critical patent/JP2023518015A/ja
Application granted granted Critical
Publication of JP7354463B2 publication Critical patent/JP7354463B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/091Active learning

Description

本出願は、出願番号が第202010640985.X号であり、出願日が2020年7月6日であり、名称が「データ保護方法、装置、サーバ及び媒体」である中国特許出願に基づいて出願し、当該中国特許出願の優先権を主張し、参照により当該中国特許出願の内容の全てがここに取り込まれる。
本出願の実施例は、コンピュータ技術分野に関し、具体的にはデータ保護方法、装置、サーバ及び媒体に関する。
人工知能技術の発展につれて、機械学習がますます広く適用されていく。近年、データ安全の保護及び孤立データアイランド(isolated data island)の問題の解決のために、関連方式は、一般的に連携トレーニングモデルを用いて、ローデータ(Raw data)を暴露しない前提で機械学習モデルの共同トレーニングを完成することを実現する。教師付き機械学習モデルに対して、一般的にサンプルラベルを有する一方を主動参加者(active party)と言い、サンプルラベルを有しないもう一方を受動参加者(passive party)という。主動参加者が有するサンプルラベルは、連携トレーニングモデルにおいて保護する必要がある重要データの1つである。
本出願の実施例は、データ保護方法、装置、サーバ及び媒体を提出する。
第一の態様では、本出願の実施例はデータ保護方法を提供する。当該方法は、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するステップと、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップと、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するステップと、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させるステップと、を含み、初期勾配伝達値は、トレーニングする連携トレーニングモデルを、目標サンプルに基づいて調整することを指示するためのものである。
ある実施例では、上記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含み、サンプル予測確率は、サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであり、所定のカテゴリラベルは、サンプルセットにおいて占める割合が小さいサンプルラベルを含み、参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つサンプルラベルが所定のカテゴリラベルと一致するサンプルを含む。さらに、上記した目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップは、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップを含む。
ある実施例では、上記した目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップは、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致しないと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と負の相関となる第1標準差を生成するステップを含む。
ある実施例では、上記した目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップは、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致し、且つ目標サンプルに対応するサンプル予測確率が参照サンプルのサンプル予測確率よりも大きいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と正の相関となる第2標準差を生成するステップを含む。
ある実施例では、上記参照サンプルは、目標サンプルと同一バッチであって、所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含む。
ある実施例では、上記勾配関連情報は、サンプルに対応する損失関数の、受動参加者に属するモデル部分のパラメータに対する勾配を指示するための勾配係数(gradient modulus value)を含む。さらに、上記した目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップは、目標サンプルに対応する勾配係数が参照サンプルの勾配係数よりも小さいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応する勾配係数と負の相関となる第3標準差を生成するステップを含む。
ある実施例では、上記参照サンプルは、目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含む。
第2の態様では、本出願の実施例はデータ保護装置を提供する。当該装置は、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するように構成された取得手段と、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するように構成された生成手段と、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するように構成された補正手段と、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させるように構成された送信手段と、を備え、初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。
ある実施例では、上記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含み、上記サンプル予測確率は、サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであり、所定のカテゴリラベルは、サンプルセットにおいて占める割合が小さいサンプルラベルを含み、参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つサンプルラベルが所定のカテゴリラベルと一致するサンプルを含む。上記生成手段は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するように構成される。
ある実施例では、上記生成手段は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致しないと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と負の相関となる第1標準差を生成するように構成される。
ある実施例では、上記生成手段は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致し、且つ目標サンプルに対応するサンプル予測確率が参照サンプルのサンプル予測確率よりも大きいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と正の相関となる第2標準差を生成するように構成される。
ある実施例では、上記参照サンプルは、目標サンプルと同一バッチであって、所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含む。
ある実施例では、上記勾配関連情報は、サンプルに対応する損失関数の、受動参加者に属するモデル部分のパラメータに対する勾配を指示するための勾配係数を含む。上記生成手段は、さらに、目標サンプルに対応する勾配係数が参照サンプルの勾配係数よりも小さいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応する勾配係数と負の相関となる第3標準差を生成するように構成される。
ある実施例では、上記参照サンプルは、目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含む。
第3の態様では、本出願の実施例はサーバを提供する。当該サーバは、1つ又は複数のプロセッサと、1つ又は複数のプログラムが記憶された記憶装置と、を備え、1つ又は複数のプログラムが1つ又は複数のプロセッサに実行されると、1つ又は複数のプロセッサに第1の態様のいずれか1つの実現方式に記載の方法を実現させる。
第4の態様では、本出願の実施例はコンピュータ読み取り可能な媒体を提供する。当該コンピュータ読み取り可能な媒体には、プロセッサに実行されるとき、第1の態様のいずれか1つの実現方式に記載の方法を実現するコンピュータプログラムが記憶されている。
本出願の実施例が提供するデータ保護方法、装置、サーバ及び媒体は、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得し、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成し、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成し、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させ、初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。これにより、正負サンプルに対応する補正後の勾配伝達情報の一致性を保証して、データの安全を強力に保護する。
本出願におけるその他の特徴、目的、利点は、以下の図面を参照して実施例に対する非限定的な詳細な説明により、より明瞭になる。
本出願のある実施例を適用できる例示的なシステム構成の図である。 本出願に係るデータ保護方法のある実施例のフローチャートである。 本出願の実施例に係るデータ保護方法のある使用シーンの模式図である。 本出願に係るデータ保護方法の他の実施例のフローチャートである。 本出願に係るデータ保護装置のある実施例の構成模式図である。 本出願の実施例を実現するのに適する電子デバイスの構成模式図である。
以下、図面と実施例を参照しながら本出願についてさらに詳細的に説明する。ここで記載された具体的な実施例は関連発明を説明するためのものに過ぎず、本発明を限定するものではないことは当然理解される。また、説明の便宜上、図面には発明に関連する部分のみが示されている。
なお、競合しない場合に、本出願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面と実施例を参照しながら本出願について詳細的に説明する。
図1には、本出願のデータ保護方法又はデータ保護装置を適用できる例示的な構成100を示している。
図1に示すように、システム構成100は、端末デバイス101、102、103と、ネットワーク104、106と、サーバ105、107とを備え得る。ネットワーク104、106は、端末デバイス101、102、103とサーバ105との間、及びサーバ105とサーバ107との間で通信リンクの媒体を提供するために用いられる。ネットワーク104、106は、例えば、有線、無線通信リンク、又は光ファイバケーブルなどの様々な接続タイプを含み得る。
サーバ101と102とはネットワーク103を介してインタラクトすることができ、メッセージなどを受信又は発信する。サーバ101と102は、連携トレーニングモデルの異なる参加者に属するサーバであってもよい。例示として、上記受動参加者としてのサーバ101は、連携トレーニングモデルのサブ部分1041をトレーニングするためのものであってもよい。上記連携トレーニングモデルのサブ部分1041は、連携トレーニングモデルに入力されたトレーニングサンプルを特徴表記(embedding)に転換するためのものであってもよい。上記連携トレーニングモデルのサブ部分1041の出力層は、K個のニューロンを含んでもよい。上記サーバ101は、上記特徴表記1051を主動参加者としてのサーバ102に送信してもよい。サーバ102は、連携トレーニングモデルのサブ部分1042をトレーニングするためのものであってもよい。上記連携トレーニングモデルのサブ部分1042は、受信した特徴表記1051と主動参加者が生成した特徴表記とを組み合わせた特徴表記を、入力されたトレーニングサンプルが所定のラベルに対応する確率を予測するものに転換するためのものであってもよい。上記主動参加者は、特徴工程(feature engineering)によって上記特徴表記を生成してもよいし、上記連携トレーニングモデルのサブ部分1041に類似のモデルを用いて上記特徴表記を生成してもよい。次に、サーバ102は、得られた確率と入力されたサンプルに対応するサンプルラベルとの差異を用いて勾配関連情報1052を特定する。上記勾配関連情報は、例えば、上記連携トレーニングモデルのサブ部分1041の出力層における各ニューロンに対する、所定の損失関数の対応の勾配を含んでもよい。次いで、サーバ102は、サーバ101が得られた勾配関連情報1052に基づいて上記連携トレーニングモデルのサブ部分1041の出力層における各ニューロンに対応するパラメータを調整するように、特定された勾配関連情報1052を上記サーバ101に送信してもよい。
なお、上記連携トレーニングモデルのサブ部分1042は、隠れ層(図1に示す第(L-1)層)と、logitモデル(図1に示す第L層)と、softmax層とを含んでもよい。上記所定の損失関数は、クロスエントロピー損失関数(Cross Entropy Loss)を含んでもよい。
なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバは、ハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現してもよいし、個別のサーバとして実現してもよい。サーバは、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば、分散型サービスを提供するためのソフトウェア又はソフトウェアモジュール)として実現してもよいし、個別のソフトウェア又はソフトウェアモジュールとして実現してもよい。ここで具体的に限定しない。
なお、本出願の実施例が提供するデータ保護方法は、一般的にサーバ102によって実行される。相応的に、データ保護装置は、一般的にサーバ102に設置される。
図1に示すサーバとネットワークの数は例示的なものだけであることを理解すべきである。実現の需要に応じて、任意の数のサーバ及びネットワークを備えてもよい。
次いで、図2を参照すると、本出願に係るデータ保護方法のある実施例のフロー200を示している。当該データ保護方法は、以下のステップを含む。
ステップ201:目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する。
本実施例において、データ保護方法の実行主体(図1に示すサーバ102)は、有線接続方式又は無線接続方式によって、目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得することができる。上記目標サンプルが属するサンプルセットは、一般的に分布不均衡の二分類サンプルセットに属する。上記分布部均衡は、一般的に正負サンプルが占める割合の違いを表すためのものであり、特に占める割合の差が大きいシーン(例えば、正のサンプルの割合が25%、負のサンプルの割合が75%)に適用される。
なお、連携トレーニングモデルは、トレーニングの過程で、毎回1バッチ(batch)のサンプルを初期モデルに入力してトレーニングする方式を一般的に採用する。上記目標サンプルと参照サンプルとは、一般的に同一バッチのトレーニングサンプルに属する。
本実施例において、例示として、上記実行主体は、ローカル又は通信接続の電子デバイス(例えば、データベースサーバ)から、予め記憶されたサンプルセットを取得することができる。次いで、上記実行主体は、上記サンプルセットから1バッチのサンプルを選択してトレーニングする連携トレーニングモデルに入力して、前方向伝搬(Forward Propagation)によって入力された各サンプルに対応する出力結果を得る。そして、上記実行主体は、得られた出力結果に基づいて、入力された各サンプルに対応する勾配関連情報を特定する。上記目標サンプルは、予め指定された任意のサンプルであってもよいし、所定の規則に従って選択され参照サンプルと異なるサンプルであってもよい。
本実施例のある選択的な実現方式において、上記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含んでもよい。上記サンプル予測確率は、上記サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであってもよい。上記所定のカテゴリラベルは、上記分布不均衡の二分類サンプルセットにおいて占める割合が小さいサンプルラベルを含んでもよい。例示として、当該サンプルセットにおける負のサンプル(例えば、占める割合70%)が正のサンプル(例えば、占める割合30%)よりも明らかに多い場合、上記所定のラベルは正のサンプルの情報(例えば、「+1」)を表すとしてもよい。上記参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つサンプルラベルが上記所定のカテゴリラベルと一致するサンプルを含んでもよい。上記所定の確率条件は、例えば、サンプル予測確率がサンプルセットにおけるサンプルに対応するサンプル予測確率を低い順に配列した上位M個に属するという条件を含んでもよい。上記Mの値は、各バッチのサンプルの数(batch size)に応じて予め指定されることができ、例えば、3、5などである。
なお、上記サンプルセットは二分類であるため、所定のカテゴリラベルが上記分布不均衡の二分類サンプルセットにおいて占める割合が大きいサンプルラベルである場合、参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つ上記所定のカテゴリラベルと異なるサンプルを含んでもよい。上記所定の確率条件は、例えば、サンプル予測確率がサンプルセットにおけるサンプルに対応するサンプル予測確率を高い順に配列した上位N個に属するという条件を含んでもよい。上記Nの値は、各バッチのサンプルの数(バッチサイズ:batch size)に応じて予め指定されることができ、例えば、3、5などである。この2つの状況は等価であって、後述の分析は前の第1の状況を例として具体的に説明する。
本実施例のある選択的な実現方式において、上記所定のカテゴリラベルが上記サンプルセットにおいて占める割合が小さいサンプルラベルを含むことに基づいて、上記参照サンプルは、上記目標サンプルと同一バッチであって、上記所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含んでもよい。
ステップ202:目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成する。
本実施例において、上記実行主体は、ステップ201によって取得された目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を様々な方式で生成することができる。上記追加するデータノイズの情報は統計値を含んでもよい。上記統計値は、一般的に、平均値、分散、標準差のうち少なくとも1つを含んでもよいが、これらに限らない。
本実施例のある選択的な実現方式において、上記実行主体は、上記勾配関連情報に含まれるサンプルカテゴリを表すためのサンプルラベルとサンプル予測確率、及びサンプル予測確率が所定の確率条件を満たし且つサンプルラベルが上記所定のカテゴリラベルと一致する参照サンプルに基づいて、目標サンプルに対応するサンプルラベルが上記所定のカテゴリラベルと一致するか否かに応じて、上記目標サンプルにマッチングする追加するデータノイズの標準差を生成してもよい。
選択的に、上記実行主体は、目標サンプルに対応するサンプルラベルが上記所定のカテゴリラベルと一致しないと判定されたことに応答して、上記目標サンプルにマッチングする追加するデータノイズの標準差として、第1標準差を生成してもよい。
これらの実現方式において、上記第1標準差は、一般的に上記目標サンプルに対応するサンプル予測確率と負の相関となる。例示として、上記第1標準差は、
Figure 0007354463000001
であってもよい。上記pは、上記参照サンプルに対応するサンプル予測確率を表すためのものであってもよい。上記pは、上記目標サンプルに対応するサンプル予測確率を表すためのものであってもよい。
選択的に、上記実行主体は、目標サンプルに対応するサンプルラベルが上記所定のカテゴリラベルと一致し、且つ上記目標サンプルに対応するサンプル予測確率が参照サンプルのサンプル予測確率よりも大きいと判定されたことに応答して、上記目標サンプルにマッチングする追加するデータノイズの標準差として、第2標準差を生成してもよい。
これらの実現方式において、上記第2標準差は、一般的に上記目標サンプルに対応するサンプル予測確率と正の相関となる。例示として、上記第2標準差は、
Figure 0007354463000002
であってもよい。上記pは、上記参照サンプルに対応するサンプル予測確率を表すためのものであってもよい。上記pは、上記目標サンプルに対応するサンプル予測確率を表すためのものであってもよい。
上記選択的な実現方式に基づいて、選択された参照サンプルが上記所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルであると、上記目標サンプルと同一バッチである、参照サンプル以外の全てのサンプルに対して前述のようなノイズ追加を行うことで、同一バッチのサンプルに対応する勾配伝達情報がいずれも一致する方式で補正されることができるため、同一バッチのサンプルに対応する勾配伝達情報は、ノイズの追加によるモデルパラメータ調整への影響が最大限に相殺されて、モデルのトレーニング効果を両立することを実現する。
ステップ203:追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成する。
本実施例において、上記実行主体は、まず、目標サンプルに対応する初期勾配伝達値を取得してもよい。上記初期勾配伝達値は、上記目標サンプルに基づいてトレーニングする連携トレーニングモデルを調整することを指示するためのものであってもよい。即ち、上記初期勾配伝達値は、連携トレーニングモデルの主動参加者から受動参加者へ伝達する、連携トレーニングモデルのパラメータを調整するための根拠を表すためのものであってもよい。例示として、上記初期勾配伝達値は、入力されたサンプルに対応する所定の損失関数の、上記連携トレーニングモデルの受動参加者がトレーニングするモデルの出力層における各ニューロンに対する勾配(例えば、図1に示す勾配関連情報1052)を含んでもよい。具体的には、上記初期勾配伝達値は、以下のステップによって特定することができる。
図1に示すような連携トレーニングモデルのサブ部分1042は、式(1)に示すような損失関数を採用すると仮定する。
Figure 0007354463000003
xは、連携トレーニングモデルに入力されたサンプルを表すためのものであってもよい。cは、入力されたサンプルに対応するサンプルラベルを表すためのものである。y=[y、y、…、y]は、logitモデルの出力を表すためのものであってもよい。yは、入力されたサンプルのラベルがカテゴリラベルiであると予測されるスコア(logit score)を表すためのものであってもよい。
よって、上記損失関数のlogitの勾配は、式(2)に示すようになる。
Figure 0007354463000004
すると、入力されたサンプルのラベルがカテゴリラベルiであると予測される確率は、式(3)に示すようになる。
Figure 0007354463000005
よって、上記損失関数の、上記連携トレーニングモデルの受動参加者がトレーニングするモデルのサブ部分1041の出力層における各ニューロンに対する勾配は、式(4)に示すようになる。
Figure 0007354463000006
logitモデルが二分類である場合、上記カテゴリラベルiが正のサンプルを表すためのものであると仮定して、上記目標サンプルのサンプルラベルと上記カテゴリラベルと一致するか又は一致しないと、上記目標サンプルに対応する初期勾配伝達値は、それぞれ式(5)、式(6)に示すようになる。
Figure 0007354463000007
これにより、発明者は、分布不均衡のサンプルセットにおいて、一般的に、(1-pとp の大きさによって、サンプルに対応するサンプルラベルを区別することができる。即ち、正のサンプルの勾配係数は、負のサンプルの勾配係数よりも明らかに大きい。
本実施例において、上記実行主体は、異なるカテゴリラベルに対応するサンプルに対応する勾配伝達情報が一致するように、ステップ202で生成された追加するデータノイズの情報と一致させる方法によって、目標サンプルに対応する初期勾配伝達値を補正し、補正後の勾配伝達情報を生成することができる。
例示として、追加するデータノイズは、平均値(Mean)が0で、標準差(Standard Deviation)がσである分布に合致し、即ち、noise~N(0、σ)である。上記ノイズは、ガウスノイズ(Gaussian Noise)と、一様分布(Uniform Distribution)ノイズとのうちの少なくとも1つを含んでもよいが、これらに限らない。すると、上記実行主体は、目標サンプルに対応する初期勾配伝達値gをg′=g・(1+noise)に補正して補正後の勾配伝達情報とすることができる。以下では、上記補正を通じて異なるサンプルラベルに対応するサンプルに対応する勾配伝達情報を一致させることについて具体的に説明する。
上記所定のカテゴリラベルiと一致しない目標サンプル(即ち、負のサンプル)に対して、N(0、 σ)分布に合致するノイズを追加する。σの値は、前述の第1標準差を例として、即ち、
Figure 0007354463000008
である。
すると、
Figure 0007354463000009
したがって、補正後の目標サンプルに対応する勾配伝達情報の係数の望ましさは、上記参照サンプルに対応する勾配伝達情報の係数の望ましさに等しい。
相応的に、上記所定のカテゴリラベルiと一致し(即ち、正のサンプル)、且つ相応のサンプル予測確率が上記参照サンプルのサンプル予測確率よりも大きい目標サンプルに対して、N(0、 σ)分布に合致するノイズを追加する。σの値は、前述の第2標準差を例として、即ち、
Figure 0007354463000010
である。
Figure 0007354463000011
よって、補正後の目標サンプルに対応する勾配伝達情報の勾配係数の望ましさは、上記参照サンプルに対応する勾配伝達情報の勾配係数の望ましさに等しい。
ステップ204:勾配伝達情報を連携トレーニングモデルの受動参加者に送信する。
本実施例において、上記実行主体は、ステップ203で得られた勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、上記受動参加者に上記勾配伝達情報に基づいて上記連携トレーニングモデルのパラメータを調整させることができる。例示として、受動参加者は、上記勾配伝達情報に基づいて、チェーン法則(Chain rule)に従って微分して、上記の受動参加者側の連携トレーニングモデル(例えば、図1に示す連携トレーニングモデルのサブ部分1041)のパラメータを更新する。
続いて、図3を参照する。図3は、本出願の実施例に係るデータ保護方法のある使用シーンの模式図である。図3の使用シーンでは、ユーザは、端末デバイス(例えば、図3に示す3011、3012、3013)でアプリケーションAに表示された文章を閲覧し、文章中のリンクをクリックすることでアプリケーションBに表示された商品情報に遷移する。端末デバイス(例えば、図3に示す3011、3012、3013)は、ネットワーク302を介してアプリケーションA、Bのバックグラウンドサーバ303、304に通信接続される。バックグラウンドサーバ303は、アプリケーションAのクライアントを介してユーザ情報を取得するとともに、ローカルに記憶された連携トレーニングモデルの一部によってユーザa特徴305を取得する。上記ユーザa特徴305は、一般的にアプリケーションAが取得したローデータに基づいて抽出される。バックグラウンドサーバ304は、アプリケーションBのクライアントから送信された注文要求を受信したか否かに応じて、正負サンプルを表すためのサンプルラベルを生成することができる。ユーザb特徴306は、一般的にアプリケーションBが取得したローデータに基づいて抽出される。バックグラウンドサーバ304は、ローカルに記憶された連携トレーニングモデルの一部によってサンプルラベルであると予測される確率を得るとともに、各ユーザ情報に対応するサンプルラベル及び所定の損失関数に基づいて各ユーザ情報に対応する初期勾配伝達値307を生成することができる。バックグラウンドサーバ304は、前述の実施例に記載の方式によって各ユーザ情報に対応する追加するノイズ情報308を生成することができる。次いで、バックグラウンドサーバ304は、追加するノイズ情報308に基づいて、生成された初期勾配伝達値307を補正して、補正後の勾配伝達情報309を生成することができる。最後に、バックグラウンドサーバ304は、バックグラウンドサーバ303に上記勾配伝達情報に基づいてそのローカルの連携トレーニングモデルの一部のモデルパラメータを調整させるように、生成された補正後の勾配伝達情報309をバックグラウンドサーバ303に送信することができる。
本出願を実現する過程で、発明者は、主動参加者と受動参加者のデータが、ユーザ次元において重複が多いが、特徴次元において重複が少ない場合に、従来技術に一般的に用いられる損失関数は、サンプルデータ分布不均衡の二分類のタスクに使用されるとき、正のサンプルと負のサンプルとによって得られた、連携トレーニングモデルのパラメータを調整するための勾配関連情報が分化してしまうことを見出した。従来技術の1つは、一般的に、連携トレーニングモデルの主動参加者が異なるトレーニングサンプルに対して得られた、受動参加者にモデルパラメータを調整させることを指示するための勾配伝達値を受動参加者に直接に送信するため、未処理の勾配伝達値にはデータ安全リスクが存在する(例えば、伝達される勾配の係数の大きさによって正負サンプルを推定する)。本出願の上記実施例が提供する方法では、目標サンプル及び参照サンプルに対応する勾配関連情報によって追加するデータノイズの情報を特定し、生成されたデータノイズを用いて初期勾配伝達値を補正して、正負サンプルに対応する補正後の勾配伝達情報の一致性を保証することで、データの安全を強力に保護する。
続いて、図4を参照する。図4は、データ保護方法の他の実施例のフロー400を示している。当該データ保護方法のフロー400は、以下のステップを含む。
ステップ401:目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する。
本実施例において、データ保護方法の実行主体(例えば、図1に示すサーバ102)は、前述の実施例におけるステップ201と一致する方式に従って上記勾配伝達情報を取得することができる。上記目標サンプルが属するサンプルセットは、一般的に分布不均衡の二分類サンプルセットに属する。上記勾配関連情報は、上記サンプルに対応する損失関数の、受動参加者に属するモデル部分のパラメータに対する勾配を指示するための勾配係数を含んでもよい。上記参照サンプルは、勾配係数が所定の勾配条件を満たすサンプルを含んでもよい。上記所定の勾配条件は、例えば、勾配係数がサンプルセットにおけるサンプルに対応する勾配係数を高い順に配列した上位Q個に属するという条件を含んでもよい。上記Qの値は、各バッチのサンプルの数(batch size)に応じて予め指定されることができ、例えば、3、5などである。
本実施例のある選択的な実現方式において、上記参照サンプルは、上記目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含んでもよい。
ステップ402:目標サンプルに対応する勾配係数が参照サンプルの勾配係数よりも小さいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、第3標準差を生成する。
本実施例において、目標サンプルに対応する勾配係数が上記参照サンプルの勾配係数よりも小さいと判定されたことに応答して、上記実行主体は、目標サンプルにマッチングする追加するデータノイズの標準差として、第3標準差を生成することができる。上記第3標準差は、一般的に上記目標サンプルに対応する勾配係数と負の相関となる。例示として、追加するデータノイズの平均値が0である場合、上記第3標準差は、
Figure 0007354463000012
であってもよい。上記||g||は、上記参照サンプルに対応する勾配係数を表すためのものであってもよい。上記||g||は、上記目標サンプルに対応する勾配係数を表すためのものであってもよい。
上記第3標準差の具体的な導出過程は、式(9)に示すようになる。
Figure 0007354463000013
なお、前述の実施例におけるステップ402に類似して、上記実行主体は、上記生成されたデータノイズの標準差を用いて、異なるサンプルラベルに対応するサンプルに対応する勾配伝達情報を一致させることができるため、ここで重複の説明を省略する。
上記選択的な実現方式によれば、選択された参照サンプルが、上記目標サンプルと同一バッチであるサンプルのうち勾配係数が最も大きいサンプルであると、上記目標サンプルと同一バッチであって参照サンプル以外の全てのサンプルに対して前述のようなノイズ追加を行うことで、同一バッチのサンプルに対応する勾配伝達情報がいずれも一致する方式で補正されることができるため、同一バッチのサンプルに対応する勾配伝達情報は、ノイズの追加によるモデルパラメータ調整への影響が最大限に相殺されて、モデルのトレーニング効果を両立することを実現する。
ステップ403:追加するデータノイズの情報に基づいて目標サンプルの勾配関連情報に含まれる初期伝達値を補正して、伝達値を含む勾配伝達情報を生成する。
ステップ404:勾配伝達情報を連携トレーニングモデルの受動参加者に送信する。
上記ステップ403、ステップ404は、それぞれ前述の実施例におけるステップ203、ステップ204と一致して、ステップ203、ステップ204に対する上記説明はステップ403、ステップ404にも適用できるため、ここで重複の説明を省略する。
図4から分かるように、本実施例に係るデータ保護方法のフロー400は、目標サンプルと参照サンプルとに対応する勾配係数に基づいて、追加するデータノイズの情報を特定するステップを具現している。よって、本実施例に記載の発明は、サンプルに対応するラベル情報と予測確率情報とを別途に取得する必要がなく、勾配係数情報だけで追加するデータノイズの情報を特定することができるため、データ伝送量を減少させて、モデルトレーニングの効率を向上させる。
次に、図5を参照する。上記各図面に示す方法の実現として、本出願はデータ保護装置のある実施例を提供する。当該装置の実施例は、図2又は図4に示す方法の実施例に対応し、様々な電子デバイスに適用されることができる。
図5に示すように、本実施例が提供するデータ保護装置500は、取得手段501と、生成手段502と、補正手段503と、送信手段504と、を備える。取得手段501は、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するように構成される。生成手段502は、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するように構成される。補正手段503は、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するように構成される。初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。送信手段504は、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させるように構成される。
本実施例において、データ保護装置500では、取得手段501、生成手段502、補正手段503、送信手段504の具体的な処理及びその奏する効果は、それぞれ図2又は図4に対応する実施例におけるステップ201、ステップ202、ステップ203、ステップ204に関する説明を参照することができるため、ここで重複の説明を省略する。
本実施例のある選択的な実現方式において、上記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含んでもよい。上記サンプル予測確率は、サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであってもよい。上記所定のカテゴリラベルは、サンプルセットにおいて占める割合が小さいサンプルラベルを含んでもよい。上記参照サンプルは、サンプル予測確率が所定の確率条件を満たし、且つサンプルラベルが所定のカテゴリラベルと一致するサンプルを含んでもよい。上記生成手段502は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致するか否かに応じて、目標サンプルにマッチングする追加するデータノイズの標準差を生成するように構成されてもよい。
本実施例のある選択的な実現方式において、上記生成手段502は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致しないと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と負の相関となる第1標準差を生成するように構成されてもよい。
本実施例のある選択的な実現方式において、上記生成手段502は、さらに、目標サンプルに対応するサンプルラベルが所定のカテゴリラベルと一致し、且つ目標サンプルに対応するサンプル予測確率が参照サンプルのサンプル予測確率よりも大きいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応するサンプル予測確率と正の相関となる第2標準差を生成するように構成されてもよい。
本実施例のある選択的な実現方式において、上記参照サンプルは、目標サンプルと同一バッチであって、所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含んでもよい。
本実施例のある選択的な実現方式において、上記勾配関連情報は、勾配係数を含んでもよい。上記勾配係数は、サンプルに対応する損失関数の、受動参加者に属するモデル部分のパラメータに対する勾配を指示するためのものであってもよい。上記生成手段502は、さらに、目標サンプルに対応する勾配係数が参照サンプルの勾配係数よりも小さいと判定されたことに応答して、目標サンプルにマッチングする追加するデータノイズの標準差として、目標サンプルに対応する勾配係数と負の相関となる第3標準差を生成するように構成されてもよい。
本実施例のある選択的な実現方式において、上記参照サンプルは、目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含んでもよい。
本出願の上記実施例が提供する装置は、取得手段501によって分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する。生成手段502は、目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成する。補正手段503は、サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成し、初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。送信手段504は、勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させる。これにより、正負サンプルに対応する補正後の勾配伝達情報の一致性を保証して、データの安全を強力に保護する。
次に、図6を参照する。図6は、本出願の実施例を実現するための電子デバイス(例えば、図1に示すサーバ)600の構成模式図を示している。図6に示すサーバは一例に過ぎず、本出願の実施例の機能と使用範囲に何らの制限を与えるものではない。
図6に示すように、電子デバイス600は、リードオンリーメモリ(ROM)602に記憶されたプログラム、或いは記憶装置608からランダムアクセスメモリ(RAM)603にロードされたプログラムによって様々な適宜な動作及び処理を行う処理装置(例えば、中央処理装置、グラフィクスプロセッサ等)601を備えてもよい。RAM603には、電子デバイス600の操作に必要な様々なプログラム及びデータがさらに記憶されている。処理装置601と、ROM602と、RAM603とは、バス604により互いに接続されている。入/出力(I/O)インタフェース605もバス604に接続されている。
一般的に、以下のような装置は、入/出力(I/O)インタフェース605に接続可能である。例えば、タッチスクリーン、タッチパネル、キーボード、マウス等を含む入力装置606と、例えば、液晶ディスプレイ(LCD、Liquid Crystal Display)、スピーカー、振動子等を含む出力装置607と、例えば、磁気テープ、ハードディスク等を含む記憶装置608と、通信装置609とである。通信装置609は、電子デバイス600と他のデバイスと、無線又は有線通信でデータ交換を行うことを許可することができる。図6は各種の装置を備える電子デバイス600を示しているが、示される全ての装置を実施する又は備えることが要求されていないことは理解すべきである。代替的に実施してもよいし、より多い又はより少ない装置を備えてもよい。図6に示す各ブロックは、1つの装置を代表してもよいし、必要に応じて複数の装置を代表してもよい。
特に、本出願の実施例によれば、フローチャートを参照しながら説明した上記過程は、コンピュータソフトウェアプログラムとして実現されることが可能である。例えば、本出願の実施例は、あるコンピュータプログラム製品に関し、コンピュータ読み取り可能な媒体に搭載されたコンピュータプログラムに関する。当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信装置609によってネットからダウンロード及びインストールされることができる。或いは、記憶装置608からインストールされる、又は、ROM602からインストールされる。当該コンピュータプログラムが、処理装置601によって実行されるとき、本出願の実施例の方法に規定された上記機能が実行される。
なお、本出願に記載のコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、又はコンピュータ読み取り可能な記憶媒体、又は上記双方の任意の組み合わせであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は上記の任意の組み合わせであってもよいが、これらに限らない。コンピュータ読み取り可能な記憶媒体のさらに具体的な例は、1つ又は複数のリード線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスク・リードオンリーメモリ(CD-ROM)、光メモリデバイス、磁気メモリデバイス、又は上記の任意の組み合わせを含むが、これらに限らない。本出願の実施例において、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶するいかなる有形媒体であってもよい。当該プログラムは、指令実行システム、装置又はデバイスに使用されるか、或いはこれらと組み合わせて使用されることができる。本出願の実施例において、コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードが担持されたベースバンド又は搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝搬されたデータ信号は、多種の形式を用いることができ、電磁信号、光信号、又は上記の任意の適切な組み合わせを含むが、これらに限らない。コンピュータ読み取り可能な信号媒体は、さらにコンピュータ読み取り可能な記憶媒体以外のいかなるコンピュータ読み取り可能な媒体であってもよい。当該コンピュータ読み取り可能な信号媒体は、指令実行システム、装置又はデバイスに使用されるか、或いはこれらと組み合わせて使用されるプログラムを送信、伝搬又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、いかなる好適な媒介によって伝送でき、例えば、電線、光テーブル、RF(Radio Frequency、無線周波数)、又は上記の任意の組み合わせを含むが、これらに限らない。
上記コンピュータ読み取り可能な媒体は、上記サーバに含まれてもよいし、上記サーバに装着されずに独立に存在してもよい。上記コンピュータ読み取り可能な媒体には、1つ又は複数のプログラムが搭載されており、上記1つ又は複数のプログラムが当該サーバにより実行されるとき、当該サーバに以下のような処理を行わせる。即ち、分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する。目標サンプルに対応する勾配関連情報と参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成する。サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、追加するデータノイズの情報に基づいて目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成し、初期勾配伝達値は、トレーニングする連携トレーニングモデルを目標サンプルに基づいて調整することを指示するためのものである。勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、受動参加者に勾配伝達情報に基づいて連携トレーニングモデルのパラメータを調整させる。
本出願の実施例の操作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語又はその組み合わせでコーディングされる。前記プログラミング言語は、Java(登録商標)、Smalltalk(登録商標)、C++等のオブジェクト指向プログラミング言語を含み、「C」言語などの従来の手続型プログラミング言語又は類似的なプログラミング言語をさらに含む。プログラムコードは、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、ユーザのコンピュータ上でスタンドアローン・ソフトウェア・パッケージとして実行されてもよい。ユーザのコンピュータ上で部分的に及び遠隔コンピュータ上で部分的に、又は遠隔コンピュータやサーバで全体的に実行されてもよい。遠隔コンピュータに関する場合、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)又はワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを通じて、ユーザのコンピュータに接続することができ、或いは外部コンピュータ(例えば、インターネット・サービス・プロバイダを利用してインターネットを通じて)に接続することもできる。
図面におけるフローチャート及びブロック図は、本出願の各実施例のシステム、方法及びコンピュータプログラム製品によって実現可能なシステム構成、機能及び操作を示す。フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント、又はコードの一部を表し、このモジュール、プログラムセグメント、又はコードの一部は、1つ又は複数の所定の論理機能を実現するための実行可能な指令を含む。なお、いくつかの代替の実現において、ブロックに記載された機能は、図面に記載された順序を外れて発生することがある。例えば、連続して示された2つのブロックが、実際には、ほぼ同時に実行されてもよいし、時には、その機能に応じて、逆の順番で実行されてもよい。なお、ブロック図及び/又はフローチャートにおける各ブロック、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する、専用のハードウェアベースのシステムによって実現されてもよいし、或いは、専用のハードウェア及びコンピュータ指令の組み合わせによって実現されてもよい。
本出願の実施例に係る手段は、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。記載された手段は、プロセッサに設置してもよく、例えば、取得手段と、生成手段と、補正手段と、送信手段とを備えるプロセッサとして記載されてもよい。これらの手段の名称は、ある場合において、その手段自身を限定するものではない。例えば、取得手段は、「分布不均衡の二分類サンプルセットに属する目標サンプルと、目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得する手段」として記載されてもよい。
以上の説明は、本出願の好ましい実施例及び運用技術の原理に対する説明である。本出願の実施例に係る発明の範囲は、上記技術的特徴の特定の組み合わせによる技術案に限るものではないことを、当業者は理解すべきである。また、上記発明の要旨を逸脱しない場合に、上記技術的特徴又はその均等の特徴によって任意に組み合わせて形成される他の技術案も含むべきである。例えば、上記特徴と本出願の実施例に開示された(但しこれに限らない)、類似の機能を有する技術的特徴とを、入れ替えて形成する技術案も含むべきである。

Claims (10)

  1. 分布不均衡の二分類サンプルセットに属する目標サンプルと、前記目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するステップと、
    前記目標サンプルに対応する勾配関連情報と前記参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップと、
    前記サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、前記追加するデータノイズの情報に基づいて前記目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するステップと、
    前記勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、前記受動参加者に前記勾配伝達情報に基づいて前記連携トレーニングモデルのパラメータを調整させるステップと、を含み、
    前記初期勾配伝達値は、トレーニングする連携トレーニングモデルを、前記目標サンプルに基づいて調整することを指示するためのものである、
    データ保護方法。
  2. 前記勾配関連情報は、サンプルカテゴリを表すためのサンプルラベルとサンプル予測確率とを含み、前記サンプル予測確率は、前記サンプルが連携トレーニングモデルを経ることにより得られた、所定のカテゴリラベルであると予測された確率を表すためのものであり、前記所定のカテゴリラベルは、前記サンプルセットにおいて占める割合が小さいサンプルラベルを含み、前記参照サンプルは、前記サンプル予測確率が所定の確率条件を満たし、且つ前記サンプルラベルが前記所定のカテゴリラベルと一致するサンプルを含み、
    前記目標サンプルに対応する勾配関連情報と前記参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップは、前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致するか否かに応じて、前記目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップを含む、
    請求項1に記載の方法。
  3. 前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致するか否かに応じて、前記目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップは、
    前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致しないと判定されたことに応答して、前記目標サンプルにマッチングする追加するデータノイズの標準差として、前記目標サンプルに対応するサンプル予測確率と負の相関となる第1標準差を生成するステップを含む、
    請求項2に記載の方法。
  4. 前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致するか否かに応じて、前記目標サンプルにマッチングする追加するデータノイズの標準差を生成するステップは、
    前記目標サンプルに対応するサンプルラベルが前記所定のカテゴリラベルと一致し、且つ前記目標サンプルに対応するサンプル予測確率が前記参照サンプルのサンプル予測確率より大きいと判定されたことに応答して、前記目標サンプルにマッチングする追加するデータノイズの標準差として、前記目標サンプルに対応するサンプル予測確率と正の相関となる第2標準差を生成するステップを含む、
    請求項2に記載の方法。
  5. 前記参照サンプルは、前記目標サンプルと同一バッチであって、前記所定のカテゴリラベルと一致するサンプルのうちサンプル予測確率が最も小さいサンプルを含む、
    請求項2乃至4のいずれか一項に記載の方法。
  6. 前記勾配関連情報は、サンプルに対応する損失関数の、前記受動参加者に属するモデル部分のパラメータに対する勾配を指示するための勾配係数を含み、
    前記目標サンプルに対応する勾配関連情報と前記参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するステップは、
    前記目標サンプルに対応する勾配係数が前記参照サンプルの勾配係数よりも小さいと判定されたことに応答して、前記目標サンプルにマッチングする追加するデータノイズの標準差として、前記目標サンプルに対応する勾配係数と負の相関となる第3標準差を生成するステップを含む、
    請求項1に記載の方法。
  7. 前記参照サンプルは、前記目標サンプルと同一バッチのサンプルのうち勾配係数が最も大きいサンプルを含む、
    請求項6に記載の方法。
  8. 分布不均衡の二分類サンプルセットに属する目標サンプルと、前記目標サンプルと同一バッチに属する参照サンプルとにそれぞれ対応する勾配関連情報を取得するように構成された取得手段と、
    前記目標サンプルに対応する勾配関連情報と前記参照サンプルに対応する勾配関連情報との比較結果に基づいて、追加するデータノイズの情報を生成するように構成された生成手段と、
    前記サンプルセットにおける異なるカテゴリに属するサンプルに対応する勾配伝達情報が一致するように、前記追加するデータノイズの情報に基づいて前記目標サンプルに対応する初期勾配伝達値を補正して、補正後の勾配伝達情報を生成するように構成された補正手段と、
    前記勾配伝達情報を連携トレーニングモデルの受動参加者に送信して、前記受動参加者に前記勾配伝達情報に基づいて前記連携トレーニングモデルのパラメータを調整させるように構成された送信手段と、を備え、
    前記初期勾配伝達値は、トレーニングする連携トレーニングモデルを、前記目標サンプルに基づいて調整することを指示するためのものである、
    データ保護装置。
  9. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラムが記憶された記憶装置と、を備え、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサに実行されると、前記1つ又は複数のプロセッサに請求項1乃至7のいずれか一項に記載の方法を実現させる、
    サーバ。
  10. プロセッサに実行されるとき、請求項1~7のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶された、
    コンピュータ読み取り可能な媒体。
JP2022555056A 2020-07-06 2021-06-25 データ保護方法、装置、サーバ及び媒体 Active JP7354463B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010640985.XA CN111783142B (zh) 2020-07-06 2020-07-06 数据保护方法、装置、服务器和介质
CN202010640985.X 2020-07-06
PCT/CN2021/102488 WO2022007651A1 (zh) 2020-07-06 2021-06-25 数据保护方法、装置、服务器和介质

Publications (2)

Publication Number Publication Date
JP2023518015A JP2023518015A (ja) 2023-04-27
JP7354463B2 true JP7354463B2 (ja) 2023-10-02

Family

ID=72757996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022555056A Active JP7354463B2 (ja) 2020-07-06 2021-06-25 データ保護方法、装置、サーバ及び媒体

Country Status (5)

Country Link
US (1) US11755691B2 (ja)
EP (1) EP4083839A4 (ja)
JP (1) JP7354463B2 (ja)
CN (1) CN111783142B (ja)
WO (1) WO2022007651A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783142B (zh) * 2020-07-06 2021-10-08 北京字节跳动网络技术有限公司 数据保护方法、装置、服务器和介质
CN112347476B (zh) * 2020-11-13 2024-02-02 脸萌有限公司 数据保护方法、装置、介质及设备
CN113190872A (zh) * 2021-05-28 2021-07-30 脸萌有限公司 数据保护方法、网络结构训练方法、装置、介质及设备
CN113722738B (zh) * 2021-09-02 2023-08-08 脸萌有限公司 数据保护方法、装置、介质及电子设备
CN114091065A (zh) * 2021-11-23 2022-02-25 脸萌有限公司 用于保护敏感数据的方法、设备、装置和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268283A1 (en) 2017-03-17 2018-09-20 Microsoft Technology Licensing, Llc Predictive Modeling from Distributed Datasets
US20190132708A1 (en) 2017-10-30 2019-05-02 Apple Inc. Expanded Implementation of Enhanced Broadcast Multicast Services for Broadcast Multicast Content Selection and Service

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6680735B1 (en) * 2000-10-04 2004-01-20 Terarecon, Inc. Method for correcting gradients of irregular spaced graphic data
US10755172B2 (en) * 2016-06-22 2020-08-25 Massachusetts Institute Of Technology Secure training of multi-party deep neural network
CN109388661B (zh) * 2017-08-02 2020-04-21 创新先进技术有限公司 一种基于共享数据的模型训练方法及装置
US11475350B2 (en) * 2018-01-22 2022-10-18 Google Llc Training user-level differentially private machine-learned models
CN108416370B (zh) * 2018-02-07 2022-03-22 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN109165515A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦学习的模型参数获取方法、系统及可读存储介质
CN109684855B (zh) * 2018-12-17 2020-07-10 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法
US10878298B2 (en) * 2019-03-06 2020-12-29 Adobe Inc. Tag-based font recognition by utilizing an implicit font classification attention neural network
CN110390206A (zh) * 2019-04-19 2019-10-29 江苏慧中数据科技有限公司 边云系统框架下具有隐私保护的梯度下降加速算法
CN110443063B (zh) * 2019-06-26 2023-03-28 电子科技大学 自适性保护隐私的联邦深度学习的方法
CN110728375B (zh) * 2019-10-16 2021-03-19 支付宝(杭州)信息技术有限公司 多个计算单元联合训练逻辑回归模型的方法和装置
CN110797124B (zh) * 2019-10-30 2024-04-12 腾讯科技(深圳)有限公司 一种模型多端协同训练方法、医疗风险预测方法和装置
CN111260061B (zh) * 2020-03-09 2022-07-19 厦门大学 联邦学习梯度交换中的差异化加噪方法及系统
CN111008709A (zh) * 2020-03-10 2020-04-14 支付宝(杭州)信息技术有限公司 联邦学习、资料风险评估方法、装置和系统
CN111783142B (zh) * 2020-07-06 2021-10-08 北京字节跳动网络技术有限公司 数据保护方法、装置、服务器和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268283A1 (en) 2017-03-17 2018-09-20 Microsoft Technology Licensing, Llc Predictive Modeling from Distributed Datasets
US20190132708A1 (en) 2017-10-30 2019-05-02 Apple Inc. Expanded Implementation of Enhanced Broadcast Multicast Services for Broadcast Multicast Content Selection and Service

Also Published As

Publication number Publication date
CN111783142A (zh) 2020-10-16
EP4083839A1 (en) 2022-11-02
US20220383054A1 (en) 2022-12-01
EP4083839A4 (en) 2023-10-25
WO2022007651A1 (zh) 2022-01-13
JP2023518015A (ja) 2023-04-27
CN111783142B (zh) 2021-10-08
US11755691B2 (en) 2023-09-12

Similar Documents

Publication Publication Date Title
JP7354463B2 (ja) データ保護方法、装置、サーバ及び媒体
CN109816589B (zh) 用于生成漫画风格转换模型的方法和装置
CN108197652B (zh) 用于生成信息的方法和装置
CN112100295A (zh) 基于联邦学习的用户数据分类方法、装置、设备及介质
JP7316453B2 (ja) オブジェクト推薦方法及び装置、コンピュータ機器並びに媒体
CN113408743A (zh) 联邦模型的生成方法、装置、电子设备和存储介质
CN111046027A (zh) 时间序列数据的缺失值填充方法和装置
JP7079483B2 (ja) 情報処理方法、システム及びプログラム
WO2020093724A1 (zh) 生成信息的方法和装置
JP7438303B2 (ja) ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
CN112434620B (zh) 场景文字识别方法、装置、设备和计算机可读介质
CN114186256B (zh) 神经网络模型的训练方法、装置、设备和存储介质
CN110717537B (zh) 训练用户分类模型、执行用户分类预测的方法及装置
CN114581966A (zh) 用于信息处理的方法、电子设备和计算机程序产品
CN111090740B (zh) 一种用于对话系统的知识图谱生成方法
CN110689117A (zh) 基于神经网络的信息处理方法和装置
CN111709784B (zh) 用于生成用户留存时间的方法、装置、设备和介质
US20210110287A1 (en) Causal Reasoning and Counterfactual Probabilistic Programming Framework Using Approximate Inference
US20210158179A1 (en) Dynamic recommendation system for correlated metrics and key performance indicators
CN114375447A (zh) 计算系统中的语言语句处理
CN112365046A (zh) 用户信息生成方法、装置、电子设备和计算机可读介质
CN111754984A (zh) 文本选取的方法、装置、设备和计算机可读介质
CN113077353B (zh) 用于生成核保结论的方法、装置、电子设备和介质
CN113836438B (zh) 用于帖子推荐的方法、电子设备和存储介质
JP7473583B2 (ja) 長い文書の要約のためのモデルグローバル化

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230920

R150 Certificate of patent or registration of utility model

Ref document number: 7354463

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150