JP6895972B2 - ラベルデータ漏洩チャネル検出方法および装置 - Google Patents

ラベルデータ漏洩チャネル検出方法および装置 Download PDF

Info

Publication number
JP6895972B2
JP6895972B2 JP2018532787A JP2018532787A JP6895972B2 JP 6895972 B2 JP6895972 B2 JP 6895972B2 JP 2018532787 A JP2018532787 A JP 2018532787A JP 2018532787 A JP2018532787 A JP 2018532787A JP 6895972 B2 JP6895972 B2 JP 6895972B2
Authority
JP
Japan
Prior art keywords
label
user
channel
push information
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018532787A
Other languages
English (en)
Other versions
JP2019508779A5 (ja
JP2019508779A (ja
Inventor
ウェン,ジェン
Original Assignee
アリババ グループ ホウルディング リミテッド
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド, アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2019508779A publication Critical patent/JP2019508779A/ja
Publication of JP2019508779A5 publication Critical patent/JP2019508779A5/ja
Application granted granted Critical
Publication of JP6895972B2 publication Critical patent/JP6895972B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6272Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database by registering files or documents with a third party
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Description

技術分野
本発明は、データセキュリティ技術の分野に関し、具体的には、ラベルデータ漏洩チャネル検出方法および装置に関する。
背景技術
インターネットコンテンツ組織形態として、ラベルは、オブジェクトエンティティのプロパティと強く関わりがあるキーワードである。ラベルは、コンテンツを容易に説明および分類する上で役立ち、回収および共有を促進する。ラベルによって表される大量のユーザの好みデータは、インターネットの開発において蓄積してきており、データは、インターネット広告、推奨および他の製品の基盤を構成する。他方では、その価値により、データは、ユーザの他の個人を識別できる情報(PII)と共にデータ漏洩の標的となり、違法な取得および転売が行われる。既存のデータセキュリティ技術は、暗号化、システム強化、アクセス制御および監査モニタリングを使用して、データ所有者の制御可能な環境からのデータ漏洩を防ぐ。しかし、データ連携事業のシナリオでは、データは、通常、データ所有者の制御可能な環境を離れ、制御不可能なパートナー環境に入る。そのシナリオでは、従来のデータベース透かし技術および従来のデータ軌跡追跡技術は、膨大な量の動的なユーザラベルデータからの課題を解決することはできない。
従来のデータベース透かし技術および従来のデータ軌跡追跡技術は、ユーザラベルとして数値フィールドを欠くようなデータの透かしを効果的に生成することはできない。第2に、ラベルデータは、一般に、分散方式で使用されており、それにより、透かしの検出を難しくしている。それに加えて、ラベルデータの膨大な量の動的な特徴により、透かしの更新および検出が厳しく要求される。ラベルデータの値は、一般に、非常にありふれたものであり、それらをインターネット上で追跡することは非常に難しい。
発明の概要
本発明の目的は、既存の技術的解決法においてラベルデータの追跡および検出が難しいという技術的問題を解決するために、想定されるデータ漏洩チャネルを効果的に検出することができるラベルデータ漏洩チャネル検出方法および装置を提供することである。
前述の目的を達成するため、本発明の技術的解決法は、以下の通りである。
ユーザラベルデータの漏洩チャネルを検出するためのラベルデータ漏洩チャネル検出方法であって、
ユーザラベルデータセットを生成するために、ユーザが所有する正常なラベルに基づいてユーザの検出ラベルを追加することと、
ユーザラベルデータセットに従って検出ラベルを所定のチャネルに割り当て、ユーザID、検出ラベルおよびチャネルIDと関連付けられたチャネルインデックスを確立することと、
プッシュ情報がユーザの正常なラベルから生成される確率に従って、ユーザによって受信されたプッシュ情報を傍受することと、
プッシュ情報がユーザの検出ラベルから生成される確率に従って、傍受したプッシュ情報をスクリーニングし、プッシュ情報がユーザの検出ラベルから生成される確率が所定の閾値より高い場合は、ユーザの検出ラベルを漏洩疑いラベルセットに追加することと、
漏洩疑いチャネルIDの対応するリストを得るために、漏洩疑いラベルセットに従ってチャネルインデックスを検索することと、
プッシュ情報が、見つかったチャネルからのものかどうかを検出し、そうである場合は、対応するチャネルを削除し、残りのチャネルを漏洩疑いチャネルとして出力することと
を含む、検出方法。
さらに、ユーザが所有する正常なラベルに基づいてユーザの検出ラベルを追加するステップは、
設定された第1の閾値より低い、新しく追加された検出ラベルがユーザの既存のラベルと同時に発生する確率
を含む。
さらに、ユーザラベルデータセットに従って検出ラベルを所定のチャネルに割り当て、ユーザID、検出ラベルおよびチャネルIDと関連付けられたチャネルインデックスを確立するステップは、
所定のチャネルの挙動履歴に従って当該所定のチャネルの信頼性を計算することと、
チャネルのチャネルIDを変数として取り入れることによって設定された設定ハッシュ関数からハッシュ関数を選択することと、
チャネルの信頼性に基づいてユーザグループをサンプリングすることと、
サンプリングを通じて得られたユーザグループの各ユーザに対し、ユーザIDを変数として用いて、選択したハッシュ関数に従ってユーザの検出ラベルからチャネルに対応する検出ラベルを選択することと、
[ユーザID,検出ラベル]からチャネルIDへのチャネルインデックスを確立することと
を含む。
さらに、プッシュ情報がユーザの正常なラベルから生成される確率に従って、ユーザによって受信されたプッシュ情報を傍受するステップは、
プッシュ情報が正常なラベルから生成される確率が、設定された第2の閾値より低い場合は傍受を実行し、そうでない場合はユーザにプッシュ情報を表示すること
を含む。
さらに、検出方法は、ユーザの正常なラベルの変化に従ってユーザの検出ラベルを更新するステップをさらに含み、当該ステップは、具体的には、
新しい正常なラベルが既存の検出ラベルと同時に発生する確率に従って、ユーザの当該新しい正常なラベルとの同時発生の高い確率を有する検出ラベルを削除することと、
第1の閾値より低い、新しく追加された検出ラベルがユーザの既存のラベルと同時に発生する確率、ユーザの新しい検出ラベルを追加することと
を含む。
さらに、検出方法は、
削除した検出ラベルの関連アイテムをチャネルインデックスから取り除くこと
をさらに含む。
本発明は、ユーザラベルデータの漏洩チャネルを検出するためのラベルデータ漏洩チャネル検出装置であって、
ユーザラベルデータセットを生成するために、ユーザが所有する正常なラベルに基づいてユーザの検出ラベルを追加するように構成された検出ラベル追加モジュールと、
ユーザラベルデータセットに従って検出ラベルを所定のチャネルに割り当て、ユーザID、検出ラベルおよびチャネルIDと関連付けられたチャネルインデックスを確立するように構成されたチャネル関連付けモジュールと、
プッシュ情報がユーザの正常なラベルから生成される確率に従って、ユーザによって受信されたプッシュ情報を傍受するように構成された傍受モジュールと、
プッシュ情報がユーザの検出ラベルから生成される確率に従って、傍受したプッシュ情報をスクリーニングし、プッシュ情報がユーザの検出ラベルから生成される確率が所定の閾値より高い場合は、ユーザの検出ラベルを漏洩疑いラベルセットに追加するように構成された傍受情報分析モジュールと、
漏洩疑いチャネルIDの対応するリストを得るために、漏洩疑いラベルセットに従ってチャネルインデックスを検索するように構成されたチャネル検索モジュールと、
プッシュ情報が、見つかったチャネルからのものかどうかを検出し、そうである場合は、対応するチャネルを削除し、残りのチャネルを漏洩疑いチャネルとして出力するように構成された出力モジュールと
を含む、検出装置をさらに提案する。
さらに、検出ラベル追加モジュールが、ユーザが所有する正常なラベルに基づいてユーザの検出ラベルを追加する場合、新しく追加された検出ラベルがユーザの既存のラベルと同時に発生する確率は、設定された第1の閾値より低い。
さらに、ユーザラベルデータセットに従って検出ラベルを所定のチャネルに割り当てる場合、チャネル関連付けモジュールは、以下の動作、すなわち、
所定のチャネルの挙動履歴に従って所定のチャネルの信頼性を計算することと、
チャネルのチャネルIDを変数として取り入れることによって設定された設定ハッシュ関数からハッシュ関数を選択することと、
チャネルの信頼性に基づいてユーザグループをサンプリングすることと、
サンプリングを通じて得られたユーザグループの各ユーザに対し、ユーザIDを変数として用いて、選択したハッシュ関数に従ってユーザの検出ラベルからチャネルに対応する検出ラベルを選択することと、
[ユーザID,検出ラベル]からチャネルIDへのチャネルインデックスを確立することと
を実行する。
さらに、プッシュ情報がユーザの正常なラベルから生成される確率に従って、ユーザによって受信されたプッシュ情報を傍受する場合、傍受モジュールは、以下の動作、すなわち、
プッシュ情報が正常なラベルから生成される確率が、設定された第2の閾値より低い場合は傍受を実行し、そうでない場合はユーザにプッシュ情報を表示すること
を実行する。
さらに、検出ラベル追加モジュールは、ユーザの正常なラベルの変化に従ってユーザの検出ラベルを更新するようにさらに構成され、具体的には、以下のステップ、すなわち、
新しい正常なラベルが既存の検出ラベルと同時に発生する確率に従って、ユーザの当該新しい正常なラベルとの同時発生の高い確率を有する検出ラベルを削除することと、
第1の閾値より低い、新しく追加された検出ラベルがユーザの既存のラベルと同時に発生する確率、ユーザの新しい検出ラベルを追加することと
を実行する。
さらに、チャネル関連付けモジュールは、削除した検出ラベルの関連アイテムをチャネルインデックスから取り除くようにさらに構成される。
本発明は、ラベルデータ漏洩チャネル検出方法および装置を提案し、同方法および装置は、同じユーザのラベルの異なる発生確率に従って異なるデータ使用チャネルのための異なる検出ラベルを生成し、次いで、検出ラベルの使用を間接的に検出し、最終的に、膨大な量のデータのインデックス作成および検索技術に基づいて、想定されるデータ漏洩チャネルを効果的に検出する。検出方法は、高い検出効率を有し、膨大な量の動的なユーザラベルデータを処理することができる。
本発明による、ラベルデータ漏洩チャネル検出方法のフローチャートである。 本発明による、ラベルデータ漏洩チャネル検出装置の概略構造図である。
詳細な説明
本発明の技術的解決法は、添付の図面および実施形態を参照して、以下でさらに詳細に説明する。以下の実施形態は、本発明を制限しない。
ユーザがインターネットをブラウズする際、ブラウズされたウェブページは、ユーザのためにユーザの好みを示すラベルを生成することができる。ラベルによって表される大量のユーザの好みデータは、インターネットの開発において蓄積してきている。本発明は、ユーザが所有する正常なラベルに基づいて、各ユーザに対するある特定の数の検出ラベルを追加する。検出ラベルによるプッシュ情報が見つかった際には、ユーザラベルデータの漏洩チャネルは、プッシュ情報に従って検索することができる。この実施形態におけるプッシュ情報は、広告、プッシュウェブページおよび同様のものを含み得る。以下では、例として広告を採用することによって説明が行われる。
この実施形態は、ラベルデータ漏洩チャネル検出方法を提供する。図1に示されるように、方法は、以下のステップを含む。
ステップS1.ユーザラベルデータセットを生成するために、ユーザが所有する正常なラベルに基づいてユーザの検出ラベルが追加される。
この実施形態では、ユーザのインターネットサーフィンから生成され、ユーザの好みを識別するラベルは、正常なラベルと呼ばれる。ユーザのためにこのステップを通じて生成され、後続の検出のために使用されるラベルは、検出ラベルと呼ばれる。わかるように、検出ラベルは、ユーザの好みを表さず、後続の検出のためだけに使用される。ユーザラベルデータセットは、正常なラベルおよび検出ラベルを含む。
後続の分析を容易にするため、各ユーザは、異なるチャネルに対応できるほど十分な検出ラベルを有する必要がある。この目的のため、ユーザが十分な検出ラベルを有さない場合は、ユーザの検出ラベルが設定量に達するように、ユーザに対する検出ラベルが生成される。
例えば、ユーザU1は、2つの正常なラベルを有し、それらは、テレビを見ることおよびジャンクフードのそれぞれである。この実施形態は、2つの検出ラベルを必要とする。従って、例えば、野菜およびハイキング用の靴など、ユーザU1に対して2つの検出ラベルが生成される。
ユーザの検出ラベルを生成するための具体的なプロセスは、以下の通り、すなわち、
ユーザラベルデータセットに指定数の検出ラベルが存在するかどうかを判定し、検出ラベルが指定数に達した場合は終了し、そうでない場合は次のステップに進むことと、
ユーザの既存のラベルとの同時発生の確率が、設定された第1の閾値より低いラベルを生成し、ユーザの検出ラベルとしてユーザラベルデータセットにラベルを追加することと
である。
新しい検出ラベルの生成のあいだ、ユーザの既存の正常なラベルおよび既存の検出ラベルとの同時発生の比較的低い確率を有するラベルを共通のラベルから見つけることが必要である。すなわち、新しく生成された検出ラベルは、ユーザラベルセットのいかなる既存のラベルとも似ていない。新しく生成された検出ラベルおよび既存のラベルは、互いに異なり、同時発生の低い確率を有する。
ステップS2.ユーザラベルデータセットに従って検出ラベルが所定のチャネルに割り当てられ、ユーザID、検出ラベルおよびチャネルIDと関連付けられたチャネルインデックスが確立される。
所定のチャネルの信頼性は、その挙動履歴に従って計算することができる。この実施形態では、チャネルは、ユーザデータを使用するチャネルを指す。例えば、ネットワークプラットフォームは、広告者に対してそのユーザデータを提供することができる。広告者は、ネットワークプラットフォームの顧客であり、ユーザデータを使用するチャネルでもある。チャネルの信頼性は、チャネルによってユーザデータに基づいて広告を送信することの信頼性を指す。チャネルが、ユーザデータに基づいて広告をプッシュしないが、ユーザが関心を持たない広告をユーザにプッシュする場合は、チャネルは、信頼できるものではない。さらに、チャネルの一意IDは、設定ハッシュ関数のセットからハッシュ関数H1を選択するために、可変キーとし使用することができる。次に、チャネルの信頼性に基づいて、ユーザグループがサンプリングされる。高い信頼性を有するチャネルの場合は、サンプリングされたユーザグループはより小さいものであり得る。次いで、サンプリングされたユーザグループの各ユーザに対し、ユーザIDをキーとして用いて、H1関数に従ってユーザの検出ラベルセットからチャネルに対応する検出ラベルが選択される。
例えば、所定のチャネル1のサンプリングされたユーザは、ユーザU1を含む。乱数値は、H1関数およびユーザU1のユーザIDに従って計算される。検出ラベルは、乱数値に従ってユーザU1のすべての検出ラベルから選択され、チャネル1に割り当てられる。例えば、チャネル1に対し、H1関数に従って計算された乱数値が1である場合は、ユーザ1の検出ラベルのソーティングに従って、第1の検出ラベルが選択され、チャネル1に割り当てられる。ユーザU1の「野菜」という検出ラベルがチャネル1に割り当てられると仮定する。
同様に、ユーザU1の「ハイキング用の靴」という検出ラベルがチャネル2に割り当てられる。
従って、[ユーザID,検出ラベル]からチャネルIDへのチャネルインデックスを確立することができる。すなわち、チャネルインデックスにおいて記録が確立される。例えば、表1に示されるようなチャネルインデックスが確立される。
Figure 0006895972
検出ラベルは、ユーザラベルデータセットに追加され、チャネルに対応する検出ラベルのみが、対応するチャネルに割り当てられる。例えば、[U1,ハイキング用の靴]は、チャネル2に割り当てられる。チャネル2がユーザラベルデータセットに従って広告をプッシュする場合は、広告が正常なラベルに従って送信されるかまたは[U1,ハイキング用の靴]という検出ラベルに従って送信されるかにかかわらず、広告は、安全なものと見なされる。違法なユーザが漏洩ユーザラベルデータを得た後、ハイキング用の靴などの広告も、ユーザに送信され、違法なチャネルがチャネルインデックスのチャネル2ではないことがチャネルインデックスに従って分かった場合、ユーザラベルデータが漏洩したと見なされる。
ステップS3.プッシュ情報がユーザの正常なラベルから生成される確率に従って、ユーザによって受信されたプッシュ情報が傍受される。
正常な状況の下では、インターネットサーフィンのためのユーザ端末は一般にユーザ側にあるため、ユーザによって受信された広告は、ユーザ端末に反映される。広告の検出は、ユーザ端末のクライアントにおいて最初に実行することができる。例えば、多くのパーソナルコンピュータおよびスマートフォンには、現在、セキュリティアシスタントがインストールされており、既存のセキュリティアシスタントを直接使用して、ユーザ端末上の広告を傍受することができる。また、ユーザ端末上の広告を検出するために、特定のクライアントを開発することもできる。
広告傍受する際、広告が正常なラベルから生成される確率が、設定された第2の閾値より低い場合に広告は傍受され、そうでない場合は、広告はユーザに表示される。
ユーザ端末上の既存のセキュリティアシスタントが使用される場合は、ステップS2において、セキュリティアシスタントがインストールされていないユーザは、ユーザラベルデータセットから最初にフィルタ除去されるべきであることを、理解することは容易である。すなわち、セキュリティアシスタントがインストールされているユーザのみがサンプリングされ、セキュリティアシスタントがインストールされていないユーザは考慮されない。従って、追加のクライアントを開発することは不要であり、ユーザのセキュリティアシスタントを直接使用してユーザ端末側の広告がフィルタリングされる。
具体的には、広告はフィルタリングされる。すなわち、ユーザによって受信された広告は、広告がユーザの正常なラベルから生成される確率に従って傍受される。広告が正常なラベルから生成される確率が、設定された閾値より低い場合は、次の処理ステップが実行され、そうでない場合は、広告はユーザに表示される。
ユーザの正常なラベルは、広告が正常なラベルから生成される確率に従ってセキュリティアシスタントが傍受を実行するように、ユーザのユーザ側のセキュリティアシスタントと同期させる必要があることに留意すべきである。広告が正常なラベルから生成される確率は、一般に、広告源とユーザの正常なラベルとの間の整合度に従ってセキュリティアシスタントによって計算されるが、それについては、本明細書ではさらなる説明は行わない。正常なラベルから生成される確率が、設定された閾値より低い広告は、次の処理ステップのために、傍受され、専用のバックエンドサーバに送信される。
ステップS4.プッシュ情報がユーザの検出ラベルから生成される確率に従って、傍受したプッシュ情報がスクリーニングされ、プッシュ情報がユーザの検出ラベルから生成される確率が所定の閾値より高い場合は、ユーザの検出ラベルが漏洩疑いラベルセットに追加される。
バックエンドサーバに送信された広告は、広告がユーザの検出ラベルから生成される確率に従ってさらにスクリーニングされる。広告がユーザのある特定の検出ラベルから生成される確率が所定の閾値より高い場合は、ユーザの検出ラベルは、漏洩疑いラベルセットに追加される。
例えば、ユーザU1に送信されたトレッキングポールの広告は、広告が「テレビを見ること」および「ジャンクフード」という正常なラベルから生成される比較的低い確率に従って、バックエンドサーバに送信される。しかし、ユーザU1の「ハイキング用の靴」という検出ラベルの場合、広告が「ハイキング用の靴」から生成される確率は比較的高いため、[U1,ハイキング用の靴]が漏洩疑いラベルセットに追加される。
ステップS5.漏洩疑いチャネルIDの対応するリストを得るために、漏洩疑いラベルセットに従ってチャネルインデックスが検索される。
次に、疑いラベルが漏洩疑いラベルセットから抽出され、想定されるチャネルIDのソートされたリストを得るために、チャネルインデックスにおいて検索が行われる。
前述の例のように、[U1,ハイキング用の靴]という漏洩疑いラベルは、漏洩疑いラベルセットから抽出され、チャネルインデックスのチャネル2の検出ラベルは「ハイキング用の靴」を含むため、チャネル2は、漏洩疑いチャネルIDのリストに追加される。
ステップS6.プッシュ情報が、見つかったチャネルからのものかどうかが検出され、そうである場合は、対応するチャネルが削除され、残りのチャネルが漏洩疑いチャネルとして出力される。
最後に、ユーザ端末の広告源がチャネル2であるかどうかを検出する必要がある。そうである場合は、承認を示し、チャネルリストからチャネル2が削除される。
最終的なチャネルリストは、すべての想定されるラベルデータ漏洩チャネルを含む。これらのチャネルに対し、証拠を収集するために、連携データへのモニタされたおとり(ハニーポット)データの追加、オフライン調査との組合せおよび他の手段など、さらなる調査手段を講じることができる。
さらに、ユーザの正常なラベルは更新される場合が多いため、ユーザの検出ラベルは、ユーザの正常なラベルが更新された後に更新する必要がある。この実施形態では、ユーザの検出ラベルを更新するためのプロセスは、以下の通り、すなわち、
新しい正常なラベルが既存の検出ラベルと同時に発生する確率に従って、ユーザの新しい正常なラベルとの同時発生の高い確率を有する検出ラベルを削除することと、
第1の閾値より低い、新しく追加された検出ラベルがユーザの既存のラベルと同時に発生する確率、ユーザの新しい検出ラベルを追加すること。
それに応じて、チャネルインデックスをさらに更新する必要がある。すなわち、
削除した検出ラベルの関連アイテムをチャネルインデックスから取り除く。
従って、次の広告傍受において漏洩疑いチャネルを検出するために新しいチャネルインデックスが使用されるように、チャネルインデックスが更新される。
図2は、ユーザラベルデータの漏洩チャネルを検出するためのラベルデータ漏洩チャネル検出装置であって、
ユーザラベルデータセットを生成するために、ユーザが所有する正常なラベルに基づいてユーザの検出ラベルを追加するように構成された検出ラベル追加モジュールと、
ユーザラベルデータセットに従って検出ラベルを所定のチャネルに割り当て、ユーザID、検出ラベルおよびチャネルIDと関連付けられたチャネルインデックスを確立するように構成されたチャネル関連付けモジュールと、
プッシュ情報がユーザの正常なラベルから生成される確率に従って、ユーザによって受信されたプッシュ情報を傍受するように構成された傍受モジュールと、
プッシュ情報がユーザの検出ラベルから生成される確率に従って、傍受したプッシュ情報をスクリーニングし、プッシュ情報がユーザの検出ラベルから生成される確率が所定の閾値より高い場合は、ユーザの検出ラベルを漏洩疑いラベルセットに追加するように構成された傍受情報分析モジュールと、
漏洩疑いチャネルIDの対応するリストを得るために、漏洩疑いラベルセットに従ってチャネルインデックスを検索するように構成されたチャネル検索モジュールと、
プッシュ情報が、見つかったチャネルからのものかどうかを検出し、そうである場合は、対応するチャネルを削除し、残りのチャネルを漏洩疑いチャネルとして出力するように構成された出力モジュールと
を含む、検出装置を示す。
この実施形態の装置は、アプリケーションシステムのバックエンドサーバに適用できることを理解することは容易である。傍受モジュールは、ユーザ端末において統合することができ、ユーザ端末側で傍受を実行することができる。傍受モジュールは、第三者クライアント(例えば、セキュリティアシスタントまたは専用クライアント)を使用することによって傍受を実行することができる。
この実施形態では、検出ラベル追加モジュールが、ユーザが所有する正常なラベルに基づいてユーザの検出ラベルを追加する場合、追加された検出ラベルがユーザの既存のラベルと同時に発生する確率は、設定された第1の閾値より低い。すなわち、新しく生成された検出ラベルは、ユーザラベルセットのいかなる既存のラベルとも似ていない。新しく生成された検出ラベルおよび既存のラベルは、互いに異なり、同時発生の低い確率を有し、従って、互いに影響しない。
この実施形態では、ユーザラベルデータセットに従って検出ラベルを所定のチャネルに割り当てる場合、チャネル関連付けモジュールは、以下の動作、すなわち、
所定のチャネルの挙動履歴に従って所定のチャネルの信頼性を計算することと、
チャネルのチャネルIDを変数として取り入れることによって設定された設定ハッシュ関数からハッシュ関数を選択することと、
チャネルの信頼性に基づいてユーザグループをサンプリングすることと、
サンプリングを通じて得られたユーザグループの各ユーザに対し、ユーザIDを変数として用いて、選択したハッシュ関数に従ってユーザの検出ラベルからチャネルに対応する検出ラベルを選択することと、
[ユーザID,検出ラベル]からチャネルIDへのチャネルインデックスを確立することと
を実行する。
この実施形態では、プッシュ情報がユーザの正常なラベルから生成される確率に従って、ユーザによって受信されたプッシュ情報を傍受する場合、傍受モジュールは、以下の動作、すなわち、
プッシュ情報が正常なラベルから生成される確率が、設定された第2の閾値より低い場合は傍受を実行し、そうでない場合はユーザにプッシュ情報を表示すること
を実行する。
この実施形態では、検出ラベル追加モジュールは、ユーザの正常なラベルの変化に従ってユーザの検出ラベルを更新するようにさらに構成され、具体的には、以下のステップ、すなわち、
新しい正常なラベルが既存の検出ラベルと同時に発生する確率に従って、ユーザの新しい正常なラベルとの同時発生の高い確率を有する検出ラベルを削除することと、
第1の閾値より低い、新しく追加された検出ラベルがユーザの既存のラベルと同時に発生する確率、ユーザの新しい検出ラベルを追加することと
を実行する。
この実施形態では、チャネル関連付けモジュールは、削除した検出ラベルの関連アイテムをチャネルインデックスから取り除くようにさらに構成される。従って、ユーザが新しい正常なラベルを生成する場合、ユーザラベルセットは、適時に更新される。
上記の実施形態は、本発明の技術的解決法を制限する代わりに、本発明の技術的解決法を説明するためだけに使用される。当業者であれば、本発明の精神および本質から逸脱することなく、対応する様々な変更および変形を行うことができ、対応する変更および変形はすべて、本発明の添付の請求項の保護範囲に包含されるべきである。

Claims (12)

  1. ユーザラベルデータの漏洩チャネルを検出するためのラベルデータ漏洩チャネル検出方法であって、
    ラベルデータ漏洩チャネル検出装置が、ユーザが閲覧したウェッブページに基づいて生成される前記ユーザの好みを示すラベル(以下、「正常ラベル」という)に基づいて、前記ユーザの好みを表さないラベル(以下、「検出ラベル」という)を決定することと、
    前記ラベルデータ漏洩チャネル検出装置が、前記検出ラベルを、ユーザデータに基づいてプッシュ情報を送信するチャネルのチャネルIDと、前記ユーザに関連付けられたユーザIDとに関連付けて、チャネルインデックスとして記録することと、
    前記ラベルデータ漏洩チャネル検出装置が、前記検出ラベルに起因するプッシュ情報を識別するために、前記ユーザによって受信されたプッシュ情報をモニタすることと、
    前記ラベルデータ漏洩チャネル検出装置が、前記検出ラベルに起因するプッシュ情報の識別に応答して、前記チャネルインデックスに従って、前記プッシュ情報が、前記検出ラベルとの関連性を有するチャネルからのものかどうかを検出することと、
    前記ラベルデータ漏洩チャネル検出装置が、前記プッシュ情報が前記検出ラベルとの関連性を有する前記チャネルと異なる他のチャネルからのものであることに応答して、前記他のチャネルを漏洩疑いチャネルとして識別することと
    を含む、方法。
  2. 前記ラベルデータ漏洩チャネル検出装置が、前記検出ラベルに起因するプッシュ情報を識別するために、前記ユーザによって受信されたプッシュ情報をモニタすることが、
    前記ラベルデータ漏洩チャネル検出装置が、広告元と前記正常ラベルとの間の整合度に従って計算される、プッシュ情報が前記正常ラベルに基づいて生成される確率に従って、前記ユーザによって受信された前記プッシュ情報を傍受することと、
    前記ラベルデータ漏洩チャネル検出装置が、前記プッシュ情報が前記検出ラベルに基づいて生成される確率に従って、前記傍受したプッシュ情報をスクリーニングすることと
    を含む、請求項1に記載のラベルデータ漏洩チャネル検出方法。
  3. 前記ラベルデータ漏洩チャネル検出装置が、プッシュ情報が前記正常ラベルに基づいて生成される確率に従って、前記ユーザによって受信された前記プッシュ情報を傍受することが、
    前記ラベルデータ漏洩チャネル検出装置が、前記プッシュ情報が前記正常ラベルに基づいて生成される前記確率が予め設定された閾値より低いことに応答して、傍受を実行すること
    を含む、請求項2に記載のラベルデータ漏洩チャネル検出方法。
  4. 前記ラベルデータ漏洩チャネル検出装置が、前記検出ラベルを、ユーザデータに基づいてプッシュ情報を送信するチャネルのチャネルIDと、前記ユーザに関連付けられたユーザIDとに関連付けて、チャネルインデックスとして記録することが、
    前記ラベルデータ漏洩チャネル検出装置が、前記チャネルの挙動履歴に従って前記チャネルの信頼性値を決定することと、
    前記ラベルデータ漏洩チャネル検出装置が、前記チャネルの前記信頼性値に基づいてユーザグループをサンプリングすることと、
    前記ラベルデータ漏洩チャネル検出装置が、サンプリングを通じて得られた前記ユーザグループの各ユーザに対し、前記ユーザの検出ラベルから1つの検出ラベルを選択することと、
    前記ラベルデータ漏洩チャネル検出装置が、前記選択された検出ラベルを、前記チャネルと、前記ユーザに関連付けられた前記ユーザIDとに関連付けることと
    を含む、請求項1に記載のラベルデータ漏洩チャネル検出方法。
  5. ユーザラベルデータの漏洩チャネルを検出するためのラベルデータ漏洩チャネル検出装置であって、
    命令のセットを記憶するメモリと、
    プロセッサと
    を含み、前記プロセッサは、前記命令のセットを実行して、前記ラベルデータ漏洩チャネル検出装置に、
    ユーザが閲覧したウェッブページに基づいて生成される前記ユーザの好みを示すラベル(以下、「正常ラベル」という)に基づいて、前記ユーザの好みを表さないラベル(以下、「検出ラベル」という)を決定することと、
    記検出ラベルを、ユーザデータに基づいてプッシュ情報を送信するチャネルのチャネルIDと、前記ユーザに関連付けられたユーザIDとに関連付けて、チャネルインデックスとして記録することと、
    前記検出ラベルに起因するプッシュ情報を識別するために、前記ユーザによって受信されたプッシュ情報をモニタすることと、
    前記検出ラベルに起因するプッシュ情報の識別に応答して、前記チャネルインデックスに従って、前記プッシュ情報が、前記検出ラベルとの関連性を有するチャネルからのものかどうかを検出することと、
    前記プッシュ情報が前記検出ラベルとの関連性を有する前記チャネルと異なる他のチャネルからのものであることに応答して、前記他のチャネルを漏洩疑いチャネルとして識別することと
    を実行させるように構成される、装置。
  6. 前記検出ラベルに起因するプッシュ情報を識別するために、前記ユーザによって受信されたプッシュ情報をモニタすることが、
    広告元と前記正常ラベルとの間の整合度に従って計算される、プッシュ情報が前記正常ラベルに基づいて生成される確率に従って、前記ユーザによって受信された前記プッシュ情報を傍受することと、
    前記プッシュ情報が前記検出ラベルに基づいて生成される確率に従って、前記傍受したプッシュ情報をスクリーニングすることと
    を含む、請求項5に記載のラベルデータ漏洩チャネル検出装置。
  7. プッシュ情報が前記正常ラベルに基づいて生成される確率に従って、前記ユーザによって受信された前記プッシュ情報を傍受することが
    前記プッシュ情報が前記正常ラベルに基づいて生成される前記確率が予め設定された閾値より低い場合、傍受を実行すること
    を含む、請求項6に記載のラベルデータ漏洩チャネル検出装置。
  8. 前記検出ラベルを、ユーザデータに基づいてプッシュ情報を送信するチャネルのチャネルIDと、前記ユーザに関連付けられたユーザIDとに関連付けて、チャネルインデックスとして記録することが
    前記チャネルの挙動履歴に従って前記チャネルの信頼性値を決定することと、
    前記チャネルの前記信頼性値に基づいてユーザグループをサンプリングすることと、
    サンプリングを通じて得られた前記ユーザグループの各ユーザに対し、前記ユーザの検出ラベルから1つの検出ラベルを選択することと、
    前記選択された検出ラベルを、前記チャネルと、前記ユーザに関連付けられた前記ユーザIDとに関連付けることと
    を含む、請求項5に記載のラベルデータ漏洩チャネル検出装置。
  9. 命令のセットを記憶する非一時的コンピュータ可読媒体であって、前記命令のセットは、ラベルデータ漏洩チャネル検出装置にラベルデータ漏洩チャネル検出方法を実行させるように、前記装置の少なくとも1つのプロセッサによって実行可能であり、前記方法は、
    ユーザが閲覧したウェッブページに基づいて生成される前記ユーザの好みを示すラベル(以下、「正常ラベル」という)に基づいて、前記ユーザの好みを表さないラベル(以下、「検出ラベル」という)を決定することと、
    記検出ラベルを、ユーザデータに基づいてプッシュ情報を送信するチャネルのチャネルIDと、前記ユーザに関連付けられたユーザIDとに関連付けて、チャネルインデックスとして記録することと、
    前記検出ラベルに起因するプッシュ情報を識別するために、前記ユーザによって受信されたプッシュ情報をモニタすることと、
    前記検出ラベルに起因するプッシュ情報の識別に応答して、前記チャネルインデックスに従って、前記プッシュ情報が、前記検出ラベルとの関連性を有するチャネルからのものかどうかを検出することと、
    前記プッシュ情報が前記検出ラベルとの関連性を有する前記チャネルと異なる他のチャネルからのものであることに応答して、前記他のチャネルを漏洩疑いチャネルとして識別することと
    を含む、非一時的コンピュータ可読媒体。
  10. 前記検出ラベルに起因するプッシュ情報を識別するために、前記ユーザによって受信されたプッシュ情報をモニタすることが、
    広告元と前記正常ラベルとの間の整合度に従って計算される、プッシュ情報が前記正常ラベルに基づいて生成される確率に従って、前記ユーザによって受信された前記プッシュ情報を傍受することと、
    前記プッシュ情報が前記検出ラベルに基づいて生成される確率に従って、前記傍受したプッシュ情報をスクリーニングすることと
    を含む、請求項9に記載の非一時的コンピュータ可読媒体。
  11. プッシュ情報が前記正常ラベルに基づいて生成される確率に従って、前記ユーザによって受信された前記プッシュ情報を傍受することが、
    前記プッシュ情報が前記正常ラベルに基づいて生成される前記確率が予め設定された閾値より低い場合、傍受を実行すること
    を含む、請求項10に記載の非一時的コンピュータ可読媒体。
  12. 前記検出ラベルを、ユーザデータに基づいてプッシュ情報を送信するチャネルのチャネルIDと、前記ユーザに関連付けられたユーザIDとに関連付けて、チャネルインデックスとして記録することが
    前記チャネルの挙動履歴に従って前記チャネルの信頼性値を決定することと、
    前記チャネルの前記信頼性値に基づいてユーザグループをサンプリングすることと、
    サンプリングを通じて得られた前記ユーザグループの各ユーザに対し、前記ユーザの検出ラベルから1つの検出ラベルを選択することと、
    前記選択された検出ラベルを、前記チャネルと、前記ユーザに関連付けられた前記ユーザIDとに関連付けることと
    を含む、請求項9に記載の非一時的コンピュータ可読媒体。
JP2018532787A 2015-12-31 2016-12-19 ラベルデータ漏洩チャネル検出方法および装置 Active JP6895972B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201511028180.5A CN106933880B (zh) 2015-12-31 2015-12-31 一种标签数据泄漏渠道检测方法及装置
CN201511028180.5 2015-12-31
PCT/CN2016/110714 WO2017114209A1 (zh) 2015-12-31 2016-12-19 一种标签数据泄漏渠道检测方法及装置

Publications (3)

Publication Number Publication Date
JP2019508779A JP2019508779A (ja) 2019-03-28
JP2019508779A5 JP2019508779A5 (ja) 2020-01-30
JP6895972B2 true JP6895972B2 (ja) 2021-06-30

Family

ID=59225617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018532787A Active JP6895972B2 (ja) 2015-12-31 2016-12-19 ラベルデータ漏洩チャネル検出方法および装置

Country Status (4)

Country Link
US (2) US10678946B2 (ja)
JP (1) JP6895972B2 (ja)
CN (1) CN106933880B (ja)
WO (1) WO2017114209A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933880B (zh) 2015-12-31 2020-08-11 阿里巴巴集团控股有限公司 一种标签数据泄漏渠道检测方法及装置
WO2020009861A1 (en) 2018-07-02 2020-01-09 Walmart Apollo, Llc Systems and methods for detecting exposed data
CN109739889B (zh) * 2018-12-27 2020-12-08 北京三未信安科技发展有限公司 一种基于数据映射的数据泄漏溯源判定方法及系统
CN117528154B (zh) * 2024-01-04 2024-03-29 湖南快乐阳光互动娱乐传媒有限公司 一种视频投放方法、装置、电子设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149126A (ja) * 2003-11-14 2005-06-09 Sony Corp 情報取得システム、情報取得方法、及び情報処理プログラム
JP2005222135A (ja) * 2004-02-03 2005-08-18 Internatl Business Mach Corp <Ibm> データベースアクセス監視装置、情報流出元特定システム、データベースアクセス監視方法、情報流出元特定方法、およびプログラム
US7668821B1 (en) * 2005-11-17 2010-02-23 Amazon Technologies, Inc. Recommendations based on item tagging activities of users
US8893300B2 (en) * 2010-09-20 2014-11-18 Georgia Tech Research Corporation Security systems and methods to reduce data leaks in enterprise networks
JP2012150652A (ja) * 2011-01-19 2012-08-09 Kddi Corp インフルエンサー抽出装置、インフルエンサー抽出方法およびプログラム
US8799227B2 (en) * 2011-11-11 2014-08-05 Blackberry Limited Presenting metadata from multiple perimeters
JP5572646B2 (ja) * 2012-02-10 2014-08-13 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
US9349015B1 (en) * 2012-06-12 2016-05-24 Galois, Inc. Programmatically detecting collusion-based security policy violations
CN103581863B (zh) 2012-08-08 2018-06-22 中兴通讯股份有限公司 扣费方法及装置
JP5921693B2 (ja) * 2012-08-09 2016-05-24 日本電信電話株式会社 トレースセンタ装置
CN103870000B (zh) * 2012-12-11 2018-12-14 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
US9444719B2 (en) * 2013-03-05 2016-09-13 Comcast Cable Communications, Llc Remote detection and measurement of data signal leakage
CN103237018A (zh) * 2013-03-29 2013-08-07 东莞宇龙通信科技有限公司 一种客户端匹配方法、服务器及通信系统
CN103281403A (zh) * 2013-06-19 2013-09-04 浙江工商大学 一种在网络销售渠道中提高个人信息安全的云保护系统
CN105359156B (zh) * 2013-07-05 2018-06-12 日本电信电话株式会社 非法访问检测系统和非法访问检测方法
US9208551B2 (en) * 2013-08-28 2015-12-08 Intuit Inc. Method and system for providing efficient feedback regarding captured optical image quality
US10108918B2 (en) * 2013-09-19 2018-10-23 Acxiom Corporation Method and system for inferring risk of data leakage from third-party tags
CN103581883A (zh) * 2013-10-31 2014-02-12 宇龙计算机通信科技(深圳)有限公司 通信终端及其应用数据的获取方法
CN103581190B (zh) * 2013-11-07 2016-04-27 江南大学 一种基于云计算技术的文件安全访问控制方法
CN103593465A (zh) * 2013-11-26 2014-02-19 北京网秦天下科技有限公司 用于诊断应用推广渠道异常的方法和设备
US9256727B1 (en) * 2014-02-20 2016-02-09 Symantec Corporation Systems and methods for detecting data leaks
JP6215095B2 (ja) * 2014-03-14 2017-10-18 株式会社日立製作所 情報システム
CN104133837B (zh) * 2014-06-24 2017-10-31 上海交通大学 一种基于分布式计算的互联网信息投放渠道优化系统
CN104778419A (zh) * 2015-04-15 2015-07-15 华中科技大学 云环境下基于动态数据流跟踪的用户隐私数据保护方法
CN104965890B (zh) * 2015-06-17 2017-05-31 深圳市腾讯计算机系统有限公司 广告推荐的方法和装置
CN106933880B (zh) * 2015-12-31 2020-08-11 阿里巴巴集团控股有限公司 一种标签数据泄漏渠道检测方法及装置

Also Published As

Publication number Publication date
CN106933880B (zh) 2020-08-11
WO2017114209A1 (zh) 2017-07-06
US20180314856A1 (en) 2018-11-01
CN106933880A (zh) 2017-07-07
US10678946B2 (en) 2020-06-09
US20200272765A1 (en) 2020-08-27
JP2019508779A (ja) 2019-03-28
US11080427B2 (en) 2021-08-03

Similar Documents

Publication Publication Date Title
US10600076B2 (en) Systems and methods for obfuscated audience measurement
US11080427B2 (en) Method and apparatus for detecting label data leakage channel
US9015255B2 (en) Methods and apparatus to identify session users with cookie information
US9621932B2 (en) Enhancing live broadcast viewing through display of filtered internet information streams
US9215243B2 (en) Identifying and ranking pirated media content
US20170054745A1 (en) Method and device for processing network threat
CN105282010A (zh) 信息分享的处理方法、装置和服务器
US11388254B2 (en) Dynamic application content analysis
Pv et al. UbCadet: detection of compromised accounts in twitter based on user behavioural profiling
CN107294919A (zh) 一种水平权限漏洞的检测方法及装置
CN110929183B (zh) 一种数据处理方法、装置和机器可读介质
US20170041301A1 (en) Methods and apparatus to identify media distributed via a network
Urban et al. Towards understanding privacy implications of adware and potentially unwanted programs
US8171020B1 (en) Spam detection for user-generated multimedia items based on appearance in popular queries
CN111224923A (zh) 一种仿冒网站的检测方法、装置及系统
Krupp et al. An analysis of web tracking domains in mobile applications
US11693960B2 (en) System and method for detecting leaked documents on a computer network
US11962637B2 (en) Message display method and device, and storage medium
He et al. Mobile app identification for encrypted network flows by traffic correlation
US10445312B1 (en) Systems and methods for extracting signal differences from sparse data sets
CN112084501A (zh) 一种恶意程序的检测方法、装置、电子设备及存储介质
JP2004341584A (ja) 情報紹介システム、情報紹介方法、プログラムおよび記録媒体
US20140351005A1 (en) Data Collection Method and Apparatus
EP3361405A1 (en) Enhancement of intrusion detection systems
JP2014032536A (ja) 関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210608

R150 Certificate of patent or registration of utility model

Ref document number: 6895972

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250