JP7095140B2 - 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体 - Google Patents

特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体 Download PDF

Info

Publication number
JP7095140B2
JP7095140B2 JP2021047153A JP2021047153A JP7095140B2 JP 7095140 B2 JP7095140 B2 JP 7095140B2 JP 2021047153 A JP2021047153 A JP 2021047153A JP 2021047153 A JP2021047153 A JP 2021047153A JP 7095140 B2 JP7095140 B2 JP 7095140B2
Authority
JP
Japan
Prior art keywords
feature
partner
column
data
columns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021047153A
Other languages
English (en)
Other versions
JP2021121922A (ja
Inventor
ジョウ,ヤーンジー
チェン,リヤーンフイ
ファーン,ジュン
フゥ,ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202011025657.5A external-priority patent/CN111967615B/zh
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021121922A publication Critical patent/JP2021121922A/ja
Application granted granted Critical
Publication of JP7095140B2 publication Critical patent/JP7095140B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/30Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy
    • H04L9/3006Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy underlying computational problems or public-key parameters
    • H04L9/302Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy underlying computational problems or public-key parameters involving the integer factorization problem, e.g. RSA or quadratic sieve [QS] schemes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示は、クラウドプラットフォーム、ディープラーニングの技術分野に関し、特に特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器並びに媒体に関する。
近年、機械学習技術が急速に発展し、情報認識、レコメンデーションエンジン、ファイナンシャルクレジットの分野で優れた応用効果が得られており、大量の実験結果によって、機械学習モデルは良好なロバスト性と汎化性を有することが証明された。レコメンデーションエンジンを介して広告業務の投入を行う際、トレーニングデータの多様性を豊かにするために、人々は複数の企業からのデータを統合してレコメンデーションエンジンをトレーニングすることを望んでいる。ただし、企業間の業務の違いにより、そのデータにもさまざまな業務特性が反映されている。そのため、トレーニングデータの多様性を十分に豊かにするために、関連データの自動選別をどのように実現するかが技術的なポイントとなっている。また、国内外でのデータ管理及び公衆のプライバシー保護の強化に伴い、データの機密保持においても多くの企業間のデータ協力を阻害している。
この部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。なお、特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるとすべきではない。同様に、特に断りのない限り、この部分に言及する問題は、いかなる従来技術において公認されたものとは考えられるべきではない。
本開示の一態様によれば、連合特徴抽出に基づくマルチモデルトレーニング方法を提供し、ツリーモデルをトレーニングし、当該ツリーモデルは複数のパートナーとそれぞれ共通のユーザーサンプルのデータに基づいて、各パートナーと協力してトレーニングされたものであり、各パートナーとのデータ伝送は全て暗号化された形で行われることと、トレーニングされたツリーモデルに対して特徴の重要度評価を実行して、各ツリーモデルによって生成された特徴コラムに、対応する重みを付けることと、第1のパートナーが線形モデルをトレーニングすることに応じて、第1のパートナーと共通の第1のユーザーサンプルのデータを第1のパートナーに対応するツリーモデルと第2のパートナーに対応するツリーモデルに入力することで、複数のワンホットエンコーディングされた特徴コラムを取得して、第2のパートナーは複数のパートナーのうち、第1のパートナー以外の一つ又は複数のパートナーであることと、重みに基づいて取得した特徴コラムを選別し、選別された特徴コラムと第1のユーザーサンプルのデータに基づいて、第1のパートナーに対応する線形モデルをトレーニングすることとを含む。
本開示の別の態様によれば、連合特徴抽出に基づくマルチモデルトレーニング装置を提供し、ツリーモデルをトレーニングするように構成され、当該ツリーモデルは複数のパートナーとそれぞれ共通のユーザーサンプルのデータに基づいて、各パートナーとそれぞれ協力してトレーニングされたものであり、ここで各パートナーとのデータ伝送は全て暗号化された形で行われるツリーモデルトレーニングユニットと、トレーニングされたツリーモデルに対して特徴の重要度評価を実行し、各ツリーモデルによって生成された特徴コラムに対応する重みを付けるように構成される重要度評価ユニットと、第1のパートナーが線形モデルをトレーニングすることに応じて、第1のパートナーと共通の第1のユーザーサンプルのデータを第1のパートナーに対応するツリーモデルと第2のパートナーに対応するツリーモデルに入力することで、複数のワンホットエンコーディングされた特徴コラムを取得するように構成され、第2のパートナーは複数のパートナーのうち、当該第1のパートナー以外の一つ又は複数のパートナーである特徴抽出ユニットと、重みに基づいて、取得した特徴コラムを選別し、選別された特徴コラムと第1のユーザーサンプルのデータに基づいて、第1のパートナーに対応する線形モデルをトレーニングするように構成される線形モデルトレーニングユニットとを含む。
本開示の別の態様によれば、電子機器を提供し、電子機器は、プロセッサ、及びプログラムが記憶されたメモリを含み、当該プログラムは命令を含み、当該命令はプロセッサによって実行される際に、プロセッサに本開示に記載の連合特徴抽出に基づくマルチモデルトレーニング方法を実行させる。
本開示の別の態様によれば、プログラムが記憶されたコンピュータ可読記憶媒体を提供し、当該プログラムは命令を含み、当該命令は電子機器のプロセッサにより実行される際に、電子機器に本開示に記載の連合特徴抽出に基づくマルチモデルトレーニング方法を実行させる。
本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムはプロセッサにより実行される際に、本開示に記載の連合特徴抽出に基づくマルチモデルトレーニング方法を実現する。
本開示の一態様によれば、当該連合特徴抽出に基づくマルチモデルトレーニング方法は、連合学習に基づいて複数のパートナーの特徴データを効果的に統合し、交差特徴の選別を効果的に実現する。
以下に説明する実施例によれば、本開示のこれら及び他の態様は明らかであり、以下に説明する実施例を参照することで解明される。
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示の目的のみであり、請求の範囲を限定するものではない。すべての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
例示的な実施例に係る連合特徴抽出に基くマルチモデルトレーニング方法のシーンを示す概略図である。 例示的な実施例に係る連合特徴抽出に基くマルチモデルトレーニング方法を示すフローチャートである。 例示的な実施例に係る連合特徴抽出に基くマルチモデルトレーニングを示す概略図である。 例示的な実施例に係る連合特徴抽出に基くマルチモデルトレーニング装置の構成を示す概略図である。 例示的な実施例に適用することができる例示的な計算装置を示す構造ブロック図である。
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第1の要素と第2の要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づいて、異なる例を指すことができる。
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストが他に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。また、本開示で使用される用語「及び/又は」は、挙げられた項目のいずれか及び可能なすべての組み合わせをカバーする。
レコメンデーションエンジンのシーンでは、ユーザーの行為、属性、対象の属性、内容、分類、及びユーザー間の社交的関係などを総合的に活用して、ユーザーの好みやニーズを掘り起こし、ユーザーが興味を持っている対象又は需要の対象をユーザーに積極的に推薦する必要がある。利用できるユーザーデータの豊かさと多様性も、このレコメンデーションエンジンの推奨効果を決定する。具体的には、例えば広告推薦シーンにおいて、インターネット広告業の活発な発展に伴い、対応する指標に対する広告主の要求も高まっている。投入された主体会社が自社の業務に関するデータのみ又は関連する推薦結果のみを保有している場合、広告のクリックスルー率(CTR)、転化率などが効果的に向上することは困難である。どのようにしてデータの秘密保持要求を満たす条件で、効果的に複数のパートナーの交差特徴を統合して関連モデルを訓練するかということは、クリックスルー率(CTR)、転化率などを向上させるポイントになる。
連合モデリングは、データがローカル内に存在する状況で、参加者内部の特徴交差と参加者相互間の特徴交差を同時に完成することを実現する。連合学習は、ビッグデータ交換の時の情報セキュリティを保障し、端末データと個人データのプライバシーを保護し、法的コンプライアンスを保証することを前提として、複数の参加者又は複数のコンピューティングノード間で効率的な機械学習を展開する。
図1に示すように、コーディネーターは、複数のパートナーA、B、Cなどの複数のパートナーと共有するユーザーの行為データに基づいて協力トレーニングを実施し、自分と相手のデータでトレーニングされた広告推奨モデルを相互に利用して広告業務の推奨を行うことができる。広告業務の多様性を考慮し、既に既存の自身データに基づく広告推薦モデルトレーニングの上でパートナーとしてコーディネーターを追加し、双方のデータを活用して協力してモデルトレーニングを行っているが、実際は双方のデータに基づいても広告主が徐々に増やしている対応する指標に対する要求を次第に満足できなくなっている。
さらに、例えば、Baiduは世界最大の中国語検索エンジンとして、多くのプラットフォームは、それとのデータの協力を求める可能性があり、従って、コーディネーターとして機能する能力がある。コーディネーターとしてのプラットフォームは、複数のパートナープラットフォームとのデータ連携の利点を活用して、マルチパーティデータの統合を促進し、より全面的なデータに基づいて広告のクリックスルー率(CTR)、転化率等をさらに向上させる同時にビッグデータ交換時の情報セキュリティ、端末データと個人データのプライバシーを保護し、法的コンプライアンスを保証する。但し、複数のパートナーの間で業務の類似点と相違点のため、出力されたすべての特徴データをモデルトレーニングに使用するには不適合する可能性があり、期待するクリックスルー率の増加が達成できなくなるだけではなく、むしろ逆効果になる可能性もある。
推奨シーンでは、特徴の次元が高すぎるため、通常は線形モデルを用いて学習訓練を行い、フルデータセットの役割を繰り返し利用するが、線形モデルは非線形情報を捕捉できず、大量の工程実験で特徴の組み合わせを行い、有効な交差情報を発見する必要がある。ツリーモデルを使って特徴抽出の方式として、連続的な特徴セットを離散化し、同時に特徴間の交差情報を補足することを考慮する。
そこで、本開示の一態様によれば、図2に示すように、連合特徴抽出に基づくマルチモデルトレーニング方法を提供し、当該方法は、ツリーモデルをトレーニングし、当該ツリーモデルは複数のパートナーとそれぞれ共通のユーザーサンプルのデータに基づいて、各パートナーとそれぞれ協力してトレーニングされたものであり、各パートナーとのデータ伝送は全て暗号化された形で行われること(ステップ210)と、トレーニングされたツリーモデルに対して特徴の重要度評価を実行して、各ツリーモデルによって生成された特徴コラムに対応する重みを付けること(ステップ220)と、第1のパートナーが線形モデルをトレーニングすることに応じて、前記第1のパートナーと共通の第1のユーザーサンプルのデータを前記第1のパートナーに対応するツリーモデルと第2のパートナーに対応するツリーモデルに入力することで、複数のワンホットエンコーディングされた特徴コラムを取得して、前記第2のパートナーは前記複数のパートナーのうち、前記第1のパートナー以外の一つ又は複数のパートナーであること(ステップ230)と、前記重みに基づいて、取得した特徴コラムを選別し、前記選別された特徴コラムと前記第1のユーザーサンプルのデータに基づいて、前記第1のパートナーに対応する線形モデルをトレーニングすること(ステップ240)とを含む。
本開示の一態様によれば、連合特徴抽出に基づくマルチモデルトレーニング方法は、連合学習に基づいて複数のパートナーの特徴データを効果的に統合し、交差特徴の選別を効果的に実現する。
いくつかの実施例によれば、共通のユーザーサンプルのデータは、ユーザーサンプルが広告をクリックしたかどうかのラベルデータ及び当該ユーザーサンプルの双方での行為データを含む。
いくつかの例では、特徴の目標変数予測に対する相対的な重要性は、例えば、決定ツリー中に特徴を使用して決定ノードの相対的な順序にすることを通じて評価することができる。決定ツリーの上部で使用される特徴は、より多くのサンプルの最終的な予測決定に寄与する。従って、各特徴が最終予測に寄与するサンプル比によって、当該特徴の重要性を評価することができる。XGBoostツリーモデルの例では、特性重要度スコアfeature_importances_が各特徴の対応する分数、すなわち重みを求める。
いくつかの実施例によれば、ステップ210において、ツリーモデルをトレーニングし、当該ツリーモデルは複数のパートナーとそれぞれ共通のユーザーサンプルのデータに基づいて、各前記パートナーと協力してトレーニングされたものであり、各前記パートナーとのデータ伝送は全て暗号化された形で行われることは、前記複数のパートナーが暗号化アルゴリズムに基づいて各自に生成された公開鍵を受信し、対応する公開鍵に基づいて送信すべきデータを暗号化することと、前記パートナーがそれにより生成した公開鍵に基づいて暗号化した導関数を受信して、対応するビニングでの勾配和を計算することと、前記勾配和を前記パートナーに送信して、前記パートナーが暗号化アルゴリズムに基づいて生成した秘密鍵によって前記勾配和を復号し、双方のツリーモデルをトレーニングすることとを含む。
セキュリティやプライバシーを考慮して、直接にデータを相手に渡すと、情報漏洩問題、価値損失などの問題が存在する。従って、トレーニング過程中に中間結果の直接転送は存在しなく、暗号化スペースのみで計算されるので、ユーザーデータの漏れのリスクは存在しない。
いくつかの実施例によれば、前記暗号化アルゴリズムは、RSAアルゴリズム、Paillerアルゴリズムのうちの1つを含む。本開示に適する他の暗号化アルゴリズムも可能であり、ここでは限定されないことを理解されたい。
いくつかの例では、コーディネーターのプラットフォームとして各パートナーと協力していずれも1つのツリーモデルをトレーニングし、例えば、コーディネーターは、パートナーAとの間の共通のユーザーサンプルデータに基づいて、ツリーモデルをトレーニングし、ここで、当該トレーニング過程は、
トレーニング開始者(例えばパートナーAなど)は、暗号化アルゴリズムに基づいて公開鍵と秘密鍵を初期化し、秘密鍵は復号のためにローカルに残し、公開鍵はデータプロバイダー(例えば、コーディネーター)に送信することができ、パートナーが同じ暗号化アルゴリズムで転送しようとするデータに対して暗号化するため、データトレーナーは、データを受信した後、秘密鍵を使用してデータを復号することができる。トレーニング開始者がその共通サンプルがある広告をクリックしたかどうかのラベルデータの一次導関数
Figure 0007095140000001
と二次導関数
Figure 0007095140000002
を計算する;対応するサンプルID及び対応する暗号化された導関数結果をデータプロバイダーに送信し、データプロバイダーが各特徴をトラバースして対応するビニングでの勾配和
Figure 0007095140000003
Figure 0007095140000004
を計算し、結果をトレーニング開始者に返す。トレーニング開始者が勾配和を復号した後、各特徴におけるゲインサイズを計算し、最大ゲインの特徴を分割ノードとして取り、トレーニング開始者のサーバに記録される。損失変動が一定の閾値以下又は所定の反復回数に達するとトレーニングを停止してもよく、この時、トレーニング開始者(例えば、パートナーA)及びデータプロバイダー(例えば、コーディネーター)においていずれも上記のユーザーデータに基づくツリーモデルをトレーニングした。同様に、パートナーB、C、Dなどとコーディネーターとの間のツリーモデルトレーニング過程も上述のようなので、ここでは説明を省略する。
ビニングはビンとも呼ばれ、主に等周波数ビニング、等距離ビニング、クラスタリングビニングなどが含まれ、その中で、クラスタリングビニングには、KmeansクラスタリングとDBSCANクラスタリングを含み、アウトライアを1つのカテゴリに分類することで、一部の特徴に異常値がある状況を解決できる、例えば、ユーザーデータに年齢200歳などの入力が正しくない状況がある可能性がある。いくつかの例では、収入は特徴であり、不同な収入値は具体的な特徴データである。収入をビニングするには、各収入値を分割し、1つ或いは複数の収入値をクォンタイルポイントとして選択し、収入を複数にビニングすることができ、月収10000元と20000元をクォンタイルポイントとして選択し、収入を3つのビニングに分割する。収入_0(月収は20000より多い):高収入;収入_1(月収は10000-20000):中等収入;収入_2(月収が10000未満):低収入。
連合ツリーモデルトレーニングを完了した後、ユーザー行為データセットをトラバースして、ユーザーに対応するツリーモデル上で抽出されたワンホット特徴ベクトルを生成する。当該モデルはパートナー双方に記憶する必要があることに注意すべきである。従って、生成されたワンホット特徴も2つの部分に分割され、双方各自に記憶される。ワンホットエンコーディングは、即ちOne-Hotエンコーディングであり、ワンビット有効エンコーディングとも呼ばれる。この方法は、Nビットステータスレジスタを使用してN状態に対してエンコードする。各状態には独自の独立したレジスタビットがあり、任意の場合、その中、ワンビットのみが有効である。
これに基づいて、ワンホット特徴がローカルデータとスプライスされ、スパースデータトレーニングに対する線形モデルの優位性と抽出された交差特徴の情報が十分に活用される。
コーディネーターが複数のパートナーとそれぞれ協力してトレーニングされた複数のツリーモデルを記憶した後、当該複数のツリーモデルを使用して特徴を抽出し、その後複数のパートナーのデータの優位性を統合して、広告業務のニーズを持っているあるパートナー(例えば、パートナーA)が必要な線形モデルをトレーニングし、多方データを統合して広告推奨モデルをトレーニングすることで、豊富で多様な広告業務のニーズを満たす。
図3に示すように、パートナーAのローカルラベルデータと、パートナーAとコーディネーターのユーザー行為データは、データのフォーマットとサンプルアライメントを通じて、コーディネーターに記憶されている複数のツリーモデルに入力される。データのフォーマットには、主に、抽出・変換・ローディング(ETL)過程を含み、カスタムされたロジックに従って一部のタイミングデータを統計的に変換し、離散化データのコーディング変換などの操作を指定する。サンプルアライメントは、パートナーとコーディネーターでのユーザーサンプルをアライメントすることで、通常はMD5に基づいて暗号化された携帯電話番号のマッチングでカバレッジを確認することであり、もちろん、暗号化されたメールボックスなど、他のアラインメント方法も可能であることを理解されたい。コーディネーターのツリーモデルは、複数の特徴抽出器(A/B/Cなど)として使用され、複数のツリーモデルによって出力された特徴コラムはワンホットエンコーディングを経った後、共線性と重要度スコアの選別を行い、選別後の特徴コラムとオリジナルユーザー行為データをコーディネーターとパートナーAとの協力トレーニングの線形モデルの入力として、多方データ特徴を統合してパートナーAに使用される広告推奨モデルをトレーニングする。
いくつかの実施例では、ステップ240において、前記重みに基づいて取得された特徴コラムを選別して、前記選別された特徴コラムと前記第1のユーザーサンプルのデータに基づいて、前記第1のパートナーに対応する線形モデルをトレーニングすることは、第1のパートナーに対応するツリーモデルによって取得された特徴コラムを選択して、前記選択した特徴コラムと前記第1のユーザーサンプルのデータで第1のデータセットを構成することと、第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することと、前記第2のデータセットに基づいて前記第1のパートナーに対応する線形モデルをトレーニングすることとを含む。
いくつかの実施例では、前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することは、前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムから、その重みが第1の閾値より小さい特徴コラムをフィルタリング除去することで、第1の残りの特徴コラムを取得することと、前記第1の残りの特徴コラムのうちの2つずつの特徴コラムからなる特徴コラムペアに相関性分析を行うことと、その相関係数が第2の閾値より大きい全ての特徴コラムペアを確定し、その相関係数が前記第2の閾値より大きくない全ての特徴コラムペアで第2の残りの特徴コラムを構成することと、前記確定されたその相関係数が前記第2の閾値より大きい各特徴コラムペアのうちの重み値が比較的に大きい特徴コラムを選択して、前記選択した特徴コラムと前記第2の残りの特徴コラムを前記選別した特徴コラムとすることとを含む。
いくつかの実施例では、前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することは、前記第2のパートナーに対応するツリーモデルの各自の重みの閾値をそれぞれ設定することと、前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムをその各自の重みの閾値に基づいてフィルタリングし、その重みがその対応する重みの閾値より小さい特徴コラムを除去することで、第1の残りの特徴コラムを取得することと、前記第1の残りの特徴コラムのうち、2つずつの特徴コラムからなる特徴コラムペアに相関性分析を行うことと、その相関係数が第2の閾値より大きい全ての特徴コラムペアを確定し、その相関係数が前記第2の閾値より大きくない全ての特徴コラムペアで第2の残りの特徴コラムを構成することと、前記確定されたその相関係数が前記第2の閾値より大きい各特徴コラムペアのうちの重み値が比較的に大きい特徴コラムを選択して、前記選択した特徴コラムと前記第2の残りの特徴コラムを前記選別した特徴コラムとすることとを含む。
いくつかの例では、第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、すなわち、コーディネーターとパートナーB、Cなどによって協力してトレーニングされたツリーモデルによって出力される特徴コラムに対して選別を行う。出力された各特徴コラムには対応する重要度スコアが存在する、即ち上記の前記重みで、エンジニアがカスタマイズした重み閾値によって選別を行う。同時に、選別された重要度スコアが高い特徴コラムペア間に比較的に大きな共線性(即ち、相関性)が存在する場合、当該特徴コラムペアの重要度スコアが低い特徴コラムを無視する。図3に示すように、選別された特徴コラム及びパートナーAとコーディネーターとの間の共通のユーザーサンプルデータをスプライスした後、コーディネーターとパートナーAとの間で線形モデルを協力してトレーニングする。
特徴コラムの選別によって、複数のパートナーのユーザー特徴を有効に利用し、同時にデータの有効性を高め、多方のトレーニングデータの交差情報と互換性があり、アルゴリズム研究開発エンジニアに高速かつ効率的な最適化手段を提供する。
いくつかの実施例によれば、前記ツリーモデルは、XGBoostモデル、LightGBMモデルのうちの1つを含む。
いくつかの実施例によれば、前記線形モデルは、ロジスティック回帰LRモデル、ポアソン回帰PRモデルのうちの1つを含む。
いくつかの例では、広告推奨モデルは、XGBoostモデル及びロジスティック回帰LRモデルであることが好ましい。
本発明の別の態様によれば、連合特徴抽出に基づくマルチモデルトレーニング装置400を提供し、それは、ツリーモデルをトレーニングするように構成され、当該ツリーモデルは複数のパートナーとそれぞれ共通のユーザーサンプルのデータに基づいて、各前記パートナーとそれぞれ協力してトレーニングされたものであり、ここで各前記パートナーとのデータ伝送は全て暗号化された形で行われるツリーモデルトレーニングユニット410と、前記トレーニングされたツリーモデルに対して特徴の重要度評価を実行し、各ツリーモデルによって生成された特徴コラムに対応する重みを付けるように構成される重要度評価ユニット420と、第1のパートナーが線形モデルをトレーニングすることに応じて、前記第1のパートナーと共通の第1のユーザーサンプルのデータを前記第1のパートナーに対応するツリーモデルと第2のパートナーに対応するツリーモデルに入力することで、複数のワンホットエンコーディングされた特徴コラムを取得するように構成され、前記第2のパートナーは前記複数のパートナーの中で前記第1のパートナーを除いた他の一つ又は複数のパートナーである特徴抽出ユニット430と、前記重みに基づいて取得した特徴コラムを選別し、前記選別された特徴コラムと前記第1のユーザーサンプルのデータに基づいて、前記第1のパートナーに対応する線形モデルをトレーニングするように構成される線形モデルトレーニングユニット440とを含む。
いくつかの実施例によれば、前記ツリーモデルトレーニングユニット410は、前記複数のパートナーが暗号化アルゴリズムに基づいてそれぞれ生成された公開鍵を受信し、対応する公開鍵に基づいて送信すべきデータを暗号化し、パートナーが生成した公開鍵に基づいて暗号化された導関数を受信して、対応するビニングでの勾配和を計算し、前記勾配和を前記パートナーに送信し、前記パートナーが暗号化アルゴリズムに基づいて生成された秘密鍵によって前記勾配和を復号し、双方のツリーモデルをトレーニングするように構成される。
いくつかの実施例によれば、前記線形モデルトレーニングユニット440は、第1のパートナーに対応するツリーモデルによって取得された特徴コラムを選択して、前記選択した特徴コラムと前記第1のユーザーサンプルのデータで第1のデータセットを構成し、第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成し、前記第2のデータセットに基づいて前記第1のパートナーに対応する線形モデルをトレーニングするように構成される。
いくつかの実施例では、前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することは、前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムから、その重みが第1の閾値より小さい特徴コラムをフィルタリング除去することで、第1の残りの特徴コラムを取得することと、前記第1の残りの特徴コラムのうちの2つずつの特徴コラムからなる特徴コラムペアに相関性分析を行うことと、その相関係数が第2の閾値より大きい全ての特徴コラムペアを確定し、その相関係数が前記第2の閾値より大きくない全ての特徴コラムペアで第2の残りの特徴コラムを構成することと、前記確定されたその相関係数が前記第2の閾値より大きい各特徴コラムペアのうちの重み値が比較的に大きい特徴コラムを選択して、前記選択した特徴コラムと前記第2の残りの特徴コラムを前記選別した特徴コラムとすることとを含む。
いくつかの実施例では、前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットから第2のデータセットを構成することは、前記第2のパートナーに対応するツリーモデルの各自の重みの閾値をそれぞれ設定することと、前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムをその各自の重みの閾値に基づいてフィルタリングし、その重みがその対応する重みの閾値より小さい特徴コラムを除去することで、第1の残りの特徴コラムを取得することと、前記第1の残りの特徴コラムのうちの2つずつの特徴コラムからなる特徴コラムペアに相関性分析を行うことと、その相関係数が第2の閾値より大きい全ての特徴コラムペアを確定し、その相関係数が前記第2の閾値より大きくない全ての特徴コラムペアで第2の残りの特徴コラムを構成することと、前記確定されたその相関係数が前記第2の閾値より大きい各特徴コラムペアのうちの重み値が比較的に大きい特徴コラムを選択して、前記選択した特徴コラムと前記第2の残りの特徴コラムを前記選別した特徴コラムとすることとを含む。
いくつかの実施例によれば、前記暗号化アルゴリズムは、RSAアルゴリズム、Paillerアルゴリズムのうちの1つを含む。
いくつかの実施例によれば、前記ツリーモデルは、XGBoostモデル、LightGBMモデルのうちの1つを含む。
いくつかの実施例によれば、前記線形モデルは、ロジスティック回帰LRモデル、ポアソン回帰PRモデルのうちの1つを含む。
いくつかの実施例によれば、前記共通のユーザーサンプルのデータは、前記ユーザーサンプルが広告をクリックしたかどうかのラベルデータ及び前記ユーザーサンプルの行為データを含む。
ここで、連合特徴抽出に基づくマルチモデルトレーニング装置400の上記各ユニット410-440の操作はそれぞれ上記のステップ210~240の動作と類似であり、ここでは説明を省略する。
本公開のもう一つの態様によれば、電子機器であって、プロセッサ、及びプログラムが記憶されたメモリを含み、当該プログラムは命令を含み、当該命令はプロセッサによって実行される時に、プロセッサに上記の連合特徴抽出に基づくマルチモデルトレーニング方法を実行させるようにする。
本開示の別の態様によれば、プログラムが記憶されたコンピュータ可読記憶媒体を提供し、当該プログラムは命令を含み、当該命令は電子機器のプロセッサにより実行する時、電子機器に上記の連合特徴抽出に基づくマルチモデルトレーニング方法を実行させるようにする。
図5に示すように、本開示の各態様に適用できるハードウェア装置(電子機器)の一例である計算装置2000について説明する。計算装置2000は、処理及び/又は計算を実行するように構成された任意のマシンであってもよく、ワークステーション、サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、パーソナルデジタルアシスタント、ロボット、スマートフォン、車載コンピュータ、又はその任意の組み合わせであってもよいが、これらに限定されない。上記のような連合特徴抽出に基くマルチモデルトレーニング方法は、それぞれの全部又は少なくとも部分的に計算装置2000又は類似の装置又はシステムによって実現することができる。
計算装置2000は、バス2002に接続された、又はバス2002と通信している(おそらく1つ又は複数のインターフェースを介して)要素を含むことができる。例えば、計算装置2000は、バス2002、1つ又は複数のプロセッサ2004、1つ又は複数の入力デバイス2006、及び1つ又は複数の出力デバイス2008を含むことができる。1つ又は複数のプロセッサ2004は、任意のタイプのプロセッサであってもよく、1つ又は複数の汎用プロセッサ及び/又は1つ又は複数の専用プロセッサ(例えば、特殊処理チップ)を含むことができるが、これらに限定されない。入力デバイス2006は、計算装置2000に情報を入力することができる任意のタイプのデバイスであってもよく、マウス、キーボード、タッチスクリーン、マイクロフォン、及び/又はリモートコントロールを含むことができるが、これらに限定されない。出力デバイス2008は、情報を提示することができる任意のタイプのデバイスであってもよく、ディスプレイ、スピーカ、ビデオ/オーディオ出力端末、バイブレータ、及び/又はプリンタを含むことができるが、これらに限定されない。計算装置2000はさらに、非一時記憶装置2010を含むか、又は非一時記憶装置2010に接続されてもよく、非一時記憶装置は非一時的であり、データ記憶を実現することができる任意の記憶装置でもよく、磁気ディスクドライブ、光学記憶装置、固体メモリ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又は他の任意の磁気メディア、光ディスク又は他の光メディア、ROM(読み取り専用メモリ)、RAM(ランダムアクセスメモリ)、高速バッファメモリ及び/又は他の任意のメモリチップ又はボックス、及び/又はコンピュータがデータ、命令及び/又はコードを読み出すことができる任意の他の媒体を含んでもよいが、これらに限定されない。非一時記憶装置2010は、インターフェースから取り外し可能である。非一時記憶装置2010は、上記の方法及びステップを実現するためのデータ/プログラム(命令を含む)/コードを有することができる。計算装置2000はさらに通信デバイス2012を含むことができる。通信デバイス2012は、外部デバイス及び/又はネットワークとの通信を可能にする任意のタイプのデバイス又はシステムであってもよく、モデム、LANカード、赤外線通信デバイス、無線通信デバイス、及び/又はチップセット、例えば、BluetoothTMデバイス、1302.11デバイス、WiFiデバイス、WiMaxデバイス、セルラー通信デバイス及び/又は類似物を含むことができるが、これらに限定されない。
計算装置2000はさらにワーキングメモリ2014を含み、当該ワーキングメモリ2014はプロセッサ2004の動作に有用なプログラム(命令を含む)及び/又はデータを格納することができる任意のタイプのワーキングメモリであってもよく、ランダムアクセスメモリ及び/又は読み取り専用メモリデバイスを含むことができるが、これらに限定されない。
ソフトウェア要素(プログラム)はワーキングメモリ2014に配置することができ、前記ソフトウェア要素(プログラム)はオペレーティングシステム2016、1つ又は複数のアプリケーションプログラム2018、ドライバ、及び/又は他のデータとコードを含むがこれらに限定されない。上記の方法及びステップを実行するための命令は、1つ又は複数のアプリケーションプログラム2018に含まれることができ、上記の連合特徴抽出に基づくマルチモデルトレーニング方法は、それぞれ、プロセッサ2004によって1つ又は複数のアプリケーションプログラム2018の命令を読み取って実現することができる。より具体的には、上記連合特徴抽出に基くマルチモデルトレーニング方法において、ステップ210~ステップ240は、例えば、プロセッサ2004にステップ210~ステップ240の命令を有するアプリケーション2018を実行させることによって実現することができる。さらに、上記の連合特徴抽出に基くマルチモデルトレーニング方法の他のステップは、例えば、プロセッサ2004に対応するステップにおける命令を実行するアプリケーション2018を実行させることによって実現することができる。ソフトウェア要素(プログラム)の命令の実行可能コード又はソースコードは、非一時的なコンピュータ可読記憶媒体(例えば、上述の記憶装置2010)に記憶されることができ、実行時にはワーキングメモリ2014に記憶されることができる(コンパイル及び/又はインストール可能)。ソフトウェア要素(プログラム)の命令の実行可能コード又はソースコードは、リモートの位置からダウンロードすることもできる。
具体的な要求によって様々な変形が可能であることも理解すべきである。例えば、カスタマイズハードウェアを使用してもよく、及び/又は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はこれらの任意の組み合わせで特定の要素を実現してもよい。例えば、開示された方法及び装置の一部又は全部は、本開示によるロジック及びアルゴリズムを使用して、アセンブリ言語或いはハードウェアプログラミング言語(例えばVERILOG、VHDL、C++など)でハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)及び/又はプログラマブルロジックアレイ(PLA)を含むプログラマブルロジック回路)に対してプログラミングすることによって実現することができる。
計算装置2000のコンポーネントは、ネットワーク上に分散され取得することも理解されるべきである。例えば、1つのプロセッサを使用していくつかの処理を実行してもよく、同時に当該1つのプロセッサから離れた別のプロセッサによって他の処理を実行してもよい。コンピューティングシステム2000の他のコンポーネントも類似に分布することができる。このように、計算装置2000は、複数の位置で処理を行う分散式コンピューティングシステムとして解釈することができる。
図面を参照しながら本開示の実施形態又は例は説明されているが、上記の方法、システム、及び装置は単なる例示的な実施形態又は例に過ぎず、本発明の範囲はこれらの実施形態又は例に限定されず、授権後の特許請求の範囲及びその同等範囲だけで限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの同等要素によって代替されてもよい。また、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施形態又は例の様々な要素は、様々な方法で組み合わされてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素により置き換えられることができることである。

Claims (21)

  1. 連合特徴抽出に基づくマルチモデルトレーニング方法であって、
    ツリーモデルをトレーニングし、当該ツリーモデルは複数のパートナーとそれぞれ共通のユーザーサンプルのデータに基づいて、各前記パートナーと協力してトレーニングされたものであり、各前記パートナーとのデータ伝送は全て暗号化された形で行われることと、
    前記トレーニングされたツリーモデルに対して特徴の重要度評価を実行して、各ツリーモデルによって生成された特徴コラムに、対応する重みを付けることと、
    第1のパートナーが線形モデルをトレーニングすることに応じて、前記第1のパートナーと共通の第1のユーザーサンプルのデータを前記第1のパートナーに対応するツリーモデルと第2のパートナーに対応するツリーモデルに入力することで、複数のワンホットエンコーディングされた特徴コラムを取得して、前記第2のパートナーは前記複数のパートナーのうち、前記第1のパートナー以外の一つ又は複数のパートナーであることと、
    前記重みに基づいて、取得した特徴コラムを選別して、前記選別された特徴コラムと前記第1のユーザーサンプルのデータに基づいて、前記第1のパートナーに対応する線形モデルをトレーニングすることとを含む連合特徴抽出に基づくマルチモデルトレーニング方法。
  2. ツリーモデルをトレーニングし、当該ツリーモデルは複数のパートナーとそれぞれ共通のユーザーサンプルのデータに基づいて、各前記パートナーとそれぞれ協力してトレーニングされたものであり、各前記パートナーとのデータ伝送は全て暗号化された形で行われることは、
    前記複数のパートナーが暗号化アルゴリズムに基づいてそれぞれ生成された公開鍵を受信して、対応する公開鍵に基づいて送信すべきデータを暗号化することと、
    前記パートナーがそれにより生成した公開鍵に基づいて暗号化した導関数を受信して、対応するビニングでの勾配和を計算することと、
    前記勾配和を前記パートナーに送信して、前記パートナーが前記暗号化アルゴリズムに基づいて生成した秘密鍵によって前記勾配和を復号し、双方のツリーモデルをトレーニングすることとを含む請求項1に記載の方法。
  3. 前記重みに基づいて、取得された特徴コラムを選別して、前記選別された特徴コラムと前記第1のユーザーサンプルのデータに基づいて、前記第1のパートナーに対応する線形モデルをトレーニングすることは、
    前記第1のパートナーに対応するツリーモデルによって取得された特徴コラムを選択して、前記選択した特徴コラムと前記第1のユーザーサンプルのデータで第1のデータセットを構成することと、
    前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することと、
    前記第2のデータセットに基づいて前記第1のパートナーに対応する線形モデルをトレーニングすることとを含む請求項1に記載の方法。
  4. 前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することは、
    前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムから、その重みが第1の閾値より小さい特徴コラムをフィルタリング除去することで、第1の残りの特徴コラムを取得することと、
    前記第1の残りの特徴コラムのうちの2つずつの特徴コラムからなる特徴コラムペアに相関性分析を行うことと、
    その相関係数が第2の閾値より大きい全ての特徴コラムペアを確定して、その相関係数が前記第2の閾値より大きくない全ての特徴コラムペアで第2の残りの特徴コラムを構成することと、
    前記確定されたその相関係数が前記第2の閾値より大きい各特徴コラムペアのうち、重み値が比較的に大きい特徴コラムを選択して、前記選択した特徴コラムと前記第2の残りの特徴コラムを前記選別した特徴コラムとすることとを含む請求項3に記載の方法。
  5. 前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別して、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することは、
    前記第2のパートナーに対応するツリーモデルの各自の重みの閾値をそれぞれ設定することと、
    前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムをその各自の重みの閾値に基づいてフィルタリングし、その重みがその対応する重みの閾値より小さい特徴コラムを除去することで、第1の残りの特徴コラムを取得することと、
    前記第1の残りの特徴コラムのうちの2つずつの特徴コラムからなる特徴コラムペアに相関性分析を行うことと、
    その相関係数が第2の閾値より大きい全ての特徴コラムペアを確定し、その相関係数が前記第2の閾値より大きくない全ての特徴コラムペアで第2の残りの特徴コラムを構成することと、
    前記確定されたその相関係数が前記第2の閾値より大きい各特徴コラムペアのうち、重み値が比較的に大きい特徴コラムを選択して、前記選択した特徴コラムと前記第2の残りの特徴コラムを前記選別した特徴コラムとすることとを含む請求項3に記載の方法。
  6. 前記暗号化アルゴリズムは、RSAアルゴリズム、Paillerアルゴリズムのうちの1つを含む請求項2に記載の方法。
  7. 前記ツリーモデルは、XGBoostモデル、LightGBMモデルのうちの1つを含む請求項1に記載の方法。
  8. 前記線形モデルは、ロジスティック回帰LRモデル、ポアソン回帰PRモデルのうちの1つを含む請求項1に記載の方法。
  9. 前記共通のユーザーサンプルのデータは、前記ユーザーサンプルが広告をクリックしたかどうかのラベルデータ及び前記ユーザーサンプルの行為データを含む請求項1に記載の方法。
  10. 連合特徴抽出に基づくマルチモデルトレーニング装置であって、
    ツリーモデルをトレーニングするように構成され、当該ツリーモデルは複数のパートナーとそれぞれ共通のユーザーサンプルのデータに基づいて、各前記パートナーとそれぞれ協力してトレーニングされたものであり、各前記パートナーとのデータ伝送は全て暗号化された形で行われるツリーモデルトレーニングユニットと、
    前記トレーニングされたツリーモデルに対して特徴の重要度評価を実行して、各ツリーモデルによって生成された特徴コラムに、対応する重みを付けるように構成される重要度評価ユニットと、
    第1のパートナーが線形モデルをトレーニングすることに応じて、前記第1のパートナーと共通の第1のユーザーサンプルのデータを前記第1のパートナーに対応するツリーモデルと第2のパートナーに対応するツリーモデルに入力することで、複数のワンホットエンコーディングされた特徴コラムを取得するように構成され、前記第2のパートナーは前記複数のパートナーのうち、前記第1のパートナー以外の一つ又は複数のパートナーである特徴抽出ユニットと、
    前記重みに基づいて、取得した特徴コラムを選別し、前記選別された特徴コラムと前記第1のユーザーサンプルのデータに基づいて、前記第1のパートナーに対応する線形モデルをトレーニングするように構成される線形モデルトレーニングユニットとを含む連合特徴抽出に基づくマルチモデルトレーニング装置。
  11. 前記ツリーモデルトレーニングユニットは、
    前記複数のパートナーが暗号化アルゴリズムに基づいてそれぞれ生成された公開鍵を受信して、対応する公開鍵に基づいて送信すべきデータを暗号化し、
    前記パートナーがそれにより生成した公開鍵に基づいて暗号化された導関数を受信して、対応するビニングでの勾配和を計算し、
    前記勾配和を前記パートナーに送信して、前記パートナーが前記暗号化アルゴリズムに基づいて生成された秘密鍵によって前記勾配和を復号して、双方のツリーモデルをトレーニングするように構成される請求項10に記載の装置。
  12. 前記線形モデルトレーニングユニットは、
    前記第1のパートナーに対応するツリーモデルによって取得された特徴コラムを選択して、前記選択した特徴コラムと前記第1のユーザーサンプルのデータで第1のデータセットを構成し、
    前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成し、
    前記第2のデータセットに基づいて前記第1のパートナーに対応する線形モデルをトレーニングするように構成される請求項10に記載の装置。
  13. 前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することは、
    前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムから、その重みが第1の閾値より小さい特徴コラムをフィルタリング除去することで、第1の残りの特徴コラムを取得することと、
    前記第1の残りの特徴コラムのうちの2つずつの特徴コラムからなる特徴コラムペアに相関性分析を行うことと、
    その相関係数が第2の閾値より大きい全ての特徴コラムペアを確定し、その相関係数が前記第2の閾値より大きくない全ての特徴コラムペアで第2の残りの特徴コラムを構成することと、
    前記確定されたその相関係数が前記第2の閾値より大きい各特徴コラムペアのうち、重み値が比較的に大きい特徴コラムを選択して、前記選択した特徴コラムと前記第2の残りの特徴コラムを前記選別した特徴コラムとすることとを含む請求項12に記載の装置。
  14. 前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムを選別し、前記選別された特徴コラムと前記第1のデータセットで第2のデータセットを構成することは、
    前記第2のパートナーに対応するツリーモデルの各自の重みの閾値をそれぞれ設定することと、
    前記第2のパートナーに対応するツリーモデルによって取得された特徴コラムをその各自の重みの閾値に基づいてフィルタリングし、その重みがその対応する重みの閾値より小さい特徴コラムを除去することで、第1の残りの特徴コラムを取得することと、
    前記第1の残りの特徴コラムのうちの2つずつの特徴コラムからなる特徴コラムペアに相関性分析を行うことと、
    その相関係数が第2の閾値より大きい全ての特徴コラムペアを確定し、その相関係数が前記第2の閾値より大きくない全ての特徴コラムペアで第2の残りの特徴コラムを構成することと、
    前記確定されたその相関係数が前記第2の閾値より大きい各特徴コラムペアのうち、重み値が比較的に大きい特徴コラムを選択して、前記選択した特徴コラムと前記第2の残りの特徴コラムを前記選別した特徴コラムとすることとを含む請求項12に記載の装置。
  15. 前記暗号化アルゴリズムは、RSAアルゴリズム、Paillerアルゴリズムのうちの1つを含む請求項11に記載の装置。
  16. 前記ツリーモデルは、XGBoostモデル、LightGBMモデルのうちの1つを含む請求項10に記載の装置。
  17. 前記線形モデルは、ロジスティック回帰LRモデル、ポアソン回帰PRモデルのうちの1つを含む請求項10に記載の装置。
  18. 前記共通のユーザーサンプルのデータは、前記ユーザーサンプルが広告をクリックしたかどうかのラベルデータ及び前記ユーザーサンプルの行為データを含む請求項10に記載の装置。
  19. 電子機器であって、
    プロセッサ、及び
    プログラムが記憶されたメモリを含み、前記プログラムは命令を含み、前記命令は前記プロセッサによって実行される際に、前記プロセッサに請求項1~9のいずれか一項に記載の方法を実行させる電子機器。
  20. プログラムが記憶されたコンピュータ可読記憶媒体であって、前記プログラムは命令を含み、前記命令は電子機器のプロセッサにより実行される際に、前記電子機器に請求項1~9のいずれか一項に記載の方法を実行させるコンピュータ可読記憶媒体。
  21. コンピュータプログラムであって、プロセッサにより実行される際に、請求項1~9のいずれか一項に記載の方法を実現するコンピュータプログラム
JP2021047153A 2020-09-25 2021-03-22 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体 Active JP7095140B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011025657.5 2020-09-25
CN202011025657.5A CN111967615B (zh) 2020-09-25 基于特征抽取的多模型训练方法及设备、电子设备和介质

Publications (2)

Publication Number Publication Date
JP2021121922A JP2021121922A (ja) 2021-08-26
JP7095140B2 true JP7095140B2 (ja) 2022-07-04

Family

ID=73386849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021047153A Active JP7095140B2 (ja) 2020-09-25 2021-03-22 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体

Country Status (4)

Country Link
US (1) US20210234687A1 (ja)
EP (1) EP3975089A1 (ja)
JP (1) JP7095140B2 (ja)
KR (1) KR20220041704A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220397666A1 (en) * 2021-06-11 2022-12-15 Robert Bosch Gmbh Ultrasonic system and method for classifying obstacles using a machine learning algorithm
CN113657525B (zh) * 2021-08-23 2024-04-26 同盾科技有限公司 基于KMeans的跨特征联邦聚类方法及相关设备
CN116318481A (zh) * 2021-12-20 2023-06-23 华为技术有限公司 一种通信方法及装置
CN116821693B (zh) * 2023-08-29 2023-11-03 腾讯科技(深圳)有限公司 虚拟场景的模型训练方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011724A (ja) 2013-07-01 2015-01-19 ヤフー! インコーポレイテッド オンラインシステムにおける広告及びコンテンツの統合型市場
CN109741113A (zh) 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的用户购买意向预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165683B (zh) * 2018-08-10 2023-09-12 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
US10970402B2 (en) * 2018-10-19 2021-04-06 International Business Machines Corporation Distributed learning preserving model security
EP3648015B1 (en) * 2018-11-05 2024-01-03 Nokia Technologies Oy A method for training a neural network
CN111695629A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 用户特征获取方法、装置、计算机设备及存储介质
CN111612168B (zh) * 2020-06-30 2021-06-15 腾讯科技(深圳)有限公司 一种机器学习任务的管理方法以及相关装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011724A (ja) 2013-07-01 2015-01-19 ヤフー! インコーポレイテッド オンラインシステムにおける広告及びコンテンツの統合型市場
CN109741113A (zh) 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的用户购买意向预测方法

Also Published As

Publication number Publication date
US20210234687A1 (en) 2021-07-29
EP3975089A1 (en) 2022-03-30
CN111967615A (zh) 2020-11-20
JP2021121922A (ja) 2021-08-26
KR20220041704A (ko) 2022-04-01

Similar Documents

Publication Publication Date Title
JP7095140B2 (ja) 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体
CN109284313B (zh) 基于半监督学习的联邦建模方法、设备及可读存储介质
CN110189192B (zh) 一种信息推荐模型的生成方法及装置
WO2017140248A1 (zh) 数据交换方法、数据交换装置及计算装置
EP3971798A1 (en) Data processing method and apparatus, and computer readable storage medium
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN111784001B (zh) 一种模型训练方法、设备及计算机可读存储介质
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
CN111144576A (zh) 模型训练方法、装置和电子设备
US20220391642A1 (en) Method and apparatus for evaluating joint training model
CN112200382B (zh) 一种风险预测模型的训练方法和装置
US10360579B2 (en) Campaign performance data snapshot cards
Changpetch et al. Selection of multinomial logit models via association rules analysis
CN112529101B (zh) 分类模型的训练方法、装置、电子设备及存储介质
CN111709051A (zh) 数据处理方法、装置、系统、计算机存储介质及电子设备
CN111563267A (zh) 用于联邦特征工程数据处理的方法和装置
CN111291273A (zh) 推荐系统优化方法、装置、设备及可读存储介质
CN114818000B (zh) 隐私保护的集合混淆求交方法、系统及相关设备
US10896290B2 (en) Automated pattern template generation system using bulk text messages
CN111953652B (zh) 用于生成用于链接标识符的桥接匹配标识符的系统和方法
Jain et al. Generator based approach to analyze mutations in genomic datasets
CN110175283B (zh) 一种推荐模型的生成方法及装置
US10650083B2 (en) Information processing device, information processing system, and information processing method to determine correlation of data
CN112019642B (zh) 一种音频上传方法、装置、设备和存储介质
CN111967615B (zh) 基于特征抽取的多模型训练方法及设备、电子设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220622

R150 Certificate of patent or registration of utility model

Ref document number: 7095140

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150