JP2019505865A - ウェブ追跡サービスを検出するための方法 - Google Patents

ウェブ追跡サービスを検出するための方法 Download PDF

Info

Publication number
JP2019505865A
JP2019505865A JP2018517781A JP2018517781A JP2019505865A JP 2019505865 A JP2019505865 A JP 2019505865A JP 2018517781 A JP2018517781 A JP 2018517781A JP 2018517781 A JP2018517781 A JP 2018517781A JP 2019505865 A JP2019505865 A JP 2019505865A
Authority
JP
Japan
Prior art keywords
key
client
service
tracking
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018517781A
Other languages
English (en)
Inventor
メトウォーリー、ハサン
トラヴェルソ、ステファノ
メリア、マルコ
Original Assignee
ポリテクニコ ディ トリノ
ポリテクニコ ディ トリノ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ポリテクニコ ディ トリノ, ポリテクニコ ディ トリノ filed Critical ポリテクニコ ディ トリノ
Publication of JP2019505865A publication Critical patent/JP2019505865A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0613Third-party assisted
    • G06Q30/0619Neutral agent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Paper (AREA)
  • Controlling Rewinding, Feeding, Winding, Or Abnormalities Of Webs (AREA)
  • Fixing For Electrophotography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computer And Data Communications (AREA)

Abstract

関連するクライアント識別子を有するクライアントによって行われる閲覧活動の間に、ウェブ追跡サービスを検出するための方法であって、本方法は、ナビゲーションデータに含まれるキーと値のペアを抽出する段階と、上記クライアント識別子と上記キーに含まれる値との間の、1対1の対応関係を検索する段階と、少なくとも事前に決定された数のクライアントの、少なくともクライアントと値の1対1の対応関係が確認されるキーを選択する段階とを備え、上記キーは、関連するサービスを、追跡活動を行うサービスとみなす。

Description

本発明は、ウェブ追跡サービスを検出するための方法に関し、特に、ファーストパーティ追跡サービス及びサードパーティ追跡サービスを検出するための方法に関する。
追跡サービスビジネスは、ユーザに関する情報の収集に基づいている。ユーザは、閲覧しているときに、収集したデータの価値に立脚したビジネスを行う関係者によって、常に追跡されている。追跡サービスは通常、ウェブポータルにリンクしたサテライトサービスである。ユーザがポータルを訪問すると、追跡サービスは、ユーザのブラウザを使って、例えば、閲覧ページのピクセル又は広告バナーといった人為的な情報をダウンロードさせている。
ユーザがHTTPリクエストを追跡サービス宛てに生成すると、後者は、それ自体のデータベースにこの訪問を、場合によっては、HTTPレベル(例えば、ユーザの装置にリンクしたIPアドレス、装置及びクライアントの種類など)及びシステムレベル(例えば、CPU負荷、用いられるメモリ容量など)において到達可能な全ての情報と共に記録する。
過去数年の間に、これらのウェブ追跡サービスの静かな成長が見られた。ユーザのオンライン活動についての情報を収集することは、インターネットにおいて最も有益な活動の1つである。これを、自社のビジネス全体の基盤にしている会社が数百も存在する。数え切れないほどのウェブ追跡技術が用いられており、数十のビジネスモデルが、ウェブ追跡に基づいて開発されている。この現象はいたるところに見られ、大企業もほとんど知られていない企業も両方とも、ここに参加している。
追跡サービスは、通常、多くのポータルにリンクしているという事実によって、同じユーザが、様々なサイトによって監視され且つ追跡され得る。
追跡サービスは、データを収集すると、例えば、マーケティング用にユーザプロファイルを作成する、若しくは、カスタマイズされた商業広告を作り上げるといった、商業目的にそのデータを用いる、又は、データが解析担当者や広告代理店に売り渡される。
追跡サービスが、ウェブエコノミーにおいてかなり一般的であり、重要な役割を演じているという事実にもかかわらず、ユーザは、こうしたことにも、またユーザがオンライン活動中に残すデータで誰かが利益を得ることができるという事実にも、ほとんど全く気付いていない。
プライバシに関わる影響は重大である。消費者も企業も、自分が知らない間に外部の世界に公開する情報について懸念しており、こうした漏洩を防止する仕組みを求めている。
ウェブ追跡作業の使用によって、性的嗜好や宗教選択から単純な閲覧履歴に至るまで、ユーザや会社が非公開にしておきたい情報の漏洩が引き起こされる。多くの調査によって、消費者や企業が、ウェブトラッカーに公開する情報を管理したいと考えていることが示されている。政府機関や政策立案者が対策を講じて介入し、ウェブ追跡について消費者の選択を高める新たな技術的手法を提言している。
その結果、ウェブ追跡に対抗する技術的対策の構築に、多大な努力が継続的に払われている。例えば、大企業が独自の反追跡機能を提案している。ブラウザサービス及び追跡サービスの間のインタラクションを阻止するために、多くのプラグインが導入されている。これまで、研究団体は、問題の大きさを開示し定量化することに注目してきたが、この現象を防止する解決手段は、ほんのわずかしか提案されていない。
ウェブ追跡に対する最初の対策は、追跡サービス及びコンテンツをブラックリストに載せることに基づいている。ウェブ追跡は、ユーザのプライバシにどのように影響を及ぼし得るかについて、多くの懸念を引き起こしているので、ほとんどがブラウザプラグインである多くのトラッカー阻止アプリケーションが利用可能である。これらのアプリケーションは基本的に、追跡サービス向けに生成されたHTTPリクエストを選別する。これらのアプリケーションは、オフラインで形成されたブラックリストに依存し、ブラウザがウェブトラッカー向けのHTTPリクエストを生成しないようしている。しかしながら、これらのブラックリストがどのように生成されるかを知ることは不可能であり、時間が経過してもブラックリストを維持するのは困難である。
別の手法では、クッキーがどのように、どのサービスから操作されているかを解析する、ブラウザのプラグインがこれらの操作を終了する。つまり、この手法では、ユーザ識別子を含むクッキー及びAdobe Flashプラグインを処理する複数のコードの所有者をトラッカーとして分類する。そのような手法は、ウェブページに含まれるJavaScript(登録商標)又はFlashコードの解析に基づいている。
しかしながら、クッキーを阻止するなどの単純な処置は、ウェブ追跡サービスによって容易に回避されてしまう。例えば、一般的な回避法は、HTTPリクエストに含まれるURLクエリにユーザ識別子を埋め込むことである。
別の手法は、グラフ解析技法に基づいている。つまり、ウェブページの構造がグラフとしてモデル化され、機械学習技法が、ウェブページコードの構造を解析し、ユーザ情報の収集が疑われるコードの一部を検出し、こうしてウェブトラッカーを識別するために用いられる。この場合でも、追跡サービスの検出は、ウェブページ自体の解析に基づいている。
これらの方法の最大の欠点は、解析担当者による監視を必要とすることであり、解析担当者は、ウェブページを調査し、事前に定義された分類モデルを用いる。これらのモデルは、固定的であるが、時間の経過と共に変化するはずである。
したがって、何らかの追跡活動を実行するサービスを検出するための方法が必要となる。その方法は、使いやすくなければならず、作業者の支援を必要とせずに、これらのサービスを自動的に検出しなければならない。こうして、ユーザが遭遇するウェブ追跡サービスを阻止するために、どのブラウザでも利用され得る、キュレートされたブラックリストが生成される。
本発明の実施形態は、従来技術の欠点を克服する、追跡サービスを検出するための方法に関する。
1つの実施形態において、関連するクライアント識別子を有するクライアントによって行われる閲覧活動の間に、ウェブ追跡サービスを検出するための本発明の本方法は、ナビゲーションデータに含まれるキーと値のペアを抽出する段階と、上記クライアント識別子と上記キーに含まれる値との間の1対1の対応関係を検索する段階(4)と、少なくとも事前に決定された数のクライアントについて、少なくともクライアントと値の1対1の対応関係が確認されるキーを選択する段階であって、上記キーは、関連するサービスを、追跡活動を行うサービスとみなす、段階とを含む。
別の実施形態において、同じナビゲーションデータの様々な漸進的な用い方の全体にわたって、1対1の対応関係がクライアントごとに確認される。
別の実施形態において、ナビゲーションデータは、HTTP若しくはHTTPSのGETリクエスト、又はPOSTリクエストを介して送信されるデータ若しくはクッキーに埋め込まれたデータである。別の実施形態において、ファーストパーティ追跡サービスが検出される。別の実施形態において、サードパーティ追跡サービスが検出される。
別の実施形態において、値がクライアントとの1対1の対応関係を表すキーの組み合わせが検出される。
別の実施形態において、事前に決定された数のクライアントは、他の種類の情報を含むキーを誤って分類しないように、且つ必ずしも存在するとは限らなくてよいサードパーティオブジェクトの大きいセットに関連する正真正銘のキーを除外しないように決定される。
本発明の他の特徴、目的、及び利点が、以下の説明から明らかになるであろう。この説明は、単に理解を助けるものであって、限定するものではなく、図を参照して読まれるべきである。
本発明による、追跡サービスを検出するための方法の各段階からなるブロック図である。 あるウェブサイトの異なる訪問におけるユーザに対して検出されたキーの一例である。
検出されたキーの数を、これらのキーが同じとなるユーザの数の関数として示すグラフである。
異なるサービスで用いられるユーザ識別キーの間のインタラクションに関する第1の例のブロック図である。 ユーザ識別キーの間のインタラクションに関するさらなる例のブロック図である。
簡潔に言うと、本発明は、アプリケーションレベルのトラフィックログを活用して、何らかの追跡活動を実行するサービスを自動的に検出し、その結果、キュレートされたブラックリストの生成を可能にする、教師なし方法に関する。本方法は、HTTP(又はHTTPS)トランザクションにおいて、URLクエリ内に公開されたクライアント識別子を含む複数の情報を特定するアルゴリズムに立脚している。したがって、その解析は受動的であり、HTTP(又はHTTPS)トランザクションログの可用性を必要とするだけである。これに加えて、本発明の本方法は、追跡サービスによって利用されるクライアント識別子を含むフィールド又はキーのセットをあらかじめ知っている必要がないので、教師なしである。この分類の結果は、追跡サービスに向かうトラフィックを阻止するのに用いられ得るので、ユーザのプライバシが保護される。
本発明の本方法は、ファーストパーティサービス及びサードパーティサービスを両方とも検出するのに適している。以下の説明では、HTTPトランザクションにおいてURLクエリ内に示されるクライアント識別子又はキーを参照するが、本発明の本方法は、HTTPS GETリクエスト、又はPOSTリクエストを介して送信されるか、若しくはクッキーに埋め込まれている、情報若しくはデータにも適用される。
本発明の本方法は、アプリケーションレベルのトラフィックログ、すなわち、HTTPトランザクションのヘッダに含まれる情報を報告するトラフィックトレースの可用性に立脚している。この種類のログは、ブラウジングボット若しくはクローラによって自動的に生成されてよく、又は、クラウドソーシングによるシステムのユーザによって共有されてもよい。ブラウザがURLクエリ内に公開する、ユーザごとの一意の識別子に追跡サービスが依存することを考慮して、本発明の本方法は、HTTPリクエストヘッダ内のURLを解析し、リクエストを生成するクライアントプロファイルとの1対1のマッピングを表す複数の情報を探す。これらの情報は、クッキー、指紋などに含まれる識別子である。
図1は、本発明による、追跡サービスを検出するための方法の各段階からなるブロック図を示す。
事前に決定されたクライアントのセット(クローラ又はユーザのブラウザ)によって生成されるHTTPトランザクションを集約するログの集合HS、及び対象のウェブサイトドメインWが与えられると、本方法は段階2から始まり、Wを対象とする又はWを参照する、すなわち、通信の「ホスト」フィールドにWを有する各HTTPリクエストに含まれる全てのHTTPのキーと値のペアを抽出する。Wが、通信の「リファラ(Referer)」フィールドに含まれるWと同じ場合、又は、「リファラ」フィールドが空である場合、Wはファーストパーティサービスである。それとは違って、「ホスト」フィールドのWドメインが、「リファラ」フィールドに示されるドメインと異なる場合、Wはサードパーティサービスである。
本明細書では、「クライアント」に言及する場合、単一のユーザではなく、単一の装置(PC、スマートフォン、タブレットなど)を意味する。
例えば、http://www.W.com/query?key1=X&key2=Yで考えると、段階2で、キー1及びキー2が、それぞれ値X及びYと共に抽出される。
次に段階4で、リクエストを生成するクライアントの本質的に既知の識別子(例えば、ブラウザプロファイル)と、キーに含まれる値との間の1対1対応が、キーごとに調査される。本方法は、値がクライアントに一意に関連付けられている、すなわち、i)異なるクライアントごとに異なるが、ii)同じクライアントに対しては同じである、あらゆるキーを探す。
最後に、段階6で、少なくとも事前に決定された数のクライアント(minClient、下記を参照のこと)について、少なくともクライアントと値の1対1対応(1対1の対応関係)が確認されるキーが選択される。上記キーは、追跡活動を行うサービス(関連サービス)を識別する。
図2は、キーの一例、すなわち、キー1、キー2、及びキー3を示す。キー1に注目すると、キー1は、異なるクライアント、すなわち、クライアント、クライアント、…、クライアントに対して異なる値を取るが、これらの値は、異なる訪問、訪問‐1、訪問‐2、及び訪問‐3の全てにわたって等しくはなく、これにより、キー1は適切なセッション識別子になる。キー2は、異なるクライアント及び異なる訪問の全体にわたって、同じ値を維持している。キー3は、その値が、異なるクライアントごとに異なるが、異なる漸進的な訪問の全体にわたって変化しない唯一のキーなので、本発明の本方法がクライアント追跡として選択するキーは、キー3である。
代替の実施形態として、HTTP GETリクエストのURLクエリに埋め込まれたクライアント追跡キーに注目する代わりに、クライアントがPOSTリクエストを介してサーバへ送信するデータ、又はクッキーに埋め込まれているデータを処理することが可能である。
同様に、単一のクライアント識別キー、すなわち、リクエストを生成するクライアントとの1対1のマッピングをキーの値だけで示すキーを検出することに注目する代わりに、クライアントとの1対1対応をキーの値が表すキーの組み合わせを検出することが可能である。キーの組み合わせの使用は、POSTリクエストのクッキーを考慮した場合、特に適している。
以下の説明の部分において、本発明の本方法に与えるパラメータ選択の影響が開示されることになる。minClientとは、本方法が、キーをクライアント識別子として分類するために確認しなければならない、一意となるクライアントと値のペアの最小数である。特に、本方法が分類する返されたキーの数が、minClientが増えた場合に、どのように変わるかを確認することが重要である。
1つの可能性は、minClientを大きく設定することである。なぜならば、設定が小さすぎる場合、例えばセッション識別子などの、他の種類の情報を代わりに含み得るキーを誤って分類することが予想されるからである。換言すれば、minClientが小さいと、誤検出の数が増えることがある。
その一方で、minClientが大きすぎると、ポータルと関連する正しい検出(legit positive)を除外する可能性がある。ポータルは、必ずしも存在するとは限らなくてよいサードパーティオブジェクトの大きいセットを埋め込んでいる。例えば、ユーザによっては、新たなポータルがサードパーティ広告adを埋め込む瞬間に、所与のクライアント識別キーkを用いて、その新たなポータルにアクセスすることがあるが、同じポータルにアクセスする他のクライアントは、別の広告サービスadに遭遇することがあり、したがって異なるキーkを用いる。この場合、クライアントの総数は、2等分に分割され、minClientが大きすぎると、2等分された両方が、真の検出のセットから除外される。
正しい真の検出を除外することなく、妥当な確度を保証する、minClientのトレードオフ値を評価する実験が行われている。
図3は、データセットの全てのリクエストHSを処理するために異なるminClient値が設定された場合に、本発明の本方法が識別するクライアント識別キーの数を報告する。
本方法が、サードパーティサービスだけへのHTTPリクエストのセット、すなわち、ウェブサイトに埋め込まれたサービスであって、そのHTTPリクエストがホストフィールド及びリファラフィールドに含まれるホスト名の間のミスマッチを示すサービス(第1の曲線56)を処理する場合と、データセットの全てのリクエスト(すなわち、ファーストパーティ及びサードパーティの両方を考慮)(第2の曲線52)を処理する場合の両方が検討されている。予想されるように、minClientが小さくなると、キーの数が増える。
minClientが増えると、キーの数が減り続けることが確認され得る。サードパーティの場合、minClientが14に等しくなると、クライアント追跡と分類されるキーの数は210に減少し、ファーストパーティ及びサードパーティの両方を考慮すると、328に減少する。
同じウェブサイトに関連するサードパーティウェブサービスのプールが、異なる訪問間で実際に変化することが確認されている。したがって、反証として、第2の実験が実行された。最初に、事前に決定された数のクライアント、例えば14のクライアントのそれぞれによって訪問が行われるサービスのセットが選択された。これにより得られるサービスのサブセットが与えられると、これらのサービスを示すリクエストだけを保持するために、最初のHS集合が選別され、その結果、より小さいデータセットHSclients_smallが取得される。次に、データセットHSclients_smallは、様々なminClientが段階2〜6を再度行うために用いられた。
minClientが6以上になると、キーの数は328で安定し、minClientが6未満の値では、いくつかの誤検出(HSclients_smallのサービスに関連するが、大部分はセッション識別子を保持するキー)が見られることが確認されている。影響は、極めて小さいが存在する。
minClientを6に設定すると、本方法は、クライアント識別としてキーを正しく分類することができるが、その一方で、何らかのユーザ追跡機能を実際に実装する極端に活動的なウェブサービスは、除外されない。
図3に示される結果は、ファーストパーティ及びサードパーティが両方とも、クライアントを追跡するためにキーを利用することを示しており、したがって、ユーザはそれらのクライアントの背後に隠れている。実際に、minClientが6に等しくなると、130を超えるキーが、121の異なるファーストパーティサービスによって利用され、300を超えるクライアント識別キーが、サードパーティサービスに関連していることが確認されている。
本方法は、人為的なデータセット全体にわたって行われており、何らかのクライアント識別キーを用いる100を超えるサードパーティサービスを含んだ一覧が、確認されている。上位10のサードパーティトラッカーは、(解析が検討されている200のうち)20又はそれを超えるファーストパーティに関連していると思われ、サードパーティトラッカーの大部分は、非常に限定された数のファーストパーティサービスを扱っていることが確認されている。40を超えるトラッカーが、1つのサービスだけを扱っている。
以下において、本方法によって返されるクライアント識別キー、及びそれらのキーに含まれる値を解析すると明らかになる、いくつかの興味深い結果が示される。より詳細には、多くの場合、同じ値、すなわち、あるクライアントに関連する一意の情報が、異なるサービスによって用いられるクライアント識別キーに含まれていることが確認されている。
これらのインタラクションを表すために、図4のスキーマが利用されている。www.W.comは、訪問されたウェブサイトであり、tracker.WA.com及びtracker.WB.comは両方とも、本方法によってトラッカーとして分類されるサービスである。キー1及びキー2はそれぞれ、クライアントを識別するために利用する追跡キーであり、Xは、データセットから選ばれた、キー1及びキー2の両方に含まれる、クライアント識別子のキー値(例えば、クッキーに含まれるハッシュ)である。意外にも、キー1及びキー2が、WA及びWBによって別々に生成されるにもかかわらず、キー1及びキー2は両方ともxである。明らかに、これは、両者間の何らかの衝突を示している。
クライアント識別子が、いくつかのサービスにわたって共有される、3つの主なシナリオが確認されている。
最も簡単なシナリオは、図5(a)に図示された例に類似している。この場合、同じ企業Zが運営するファーストパーティサービス、www.W1.com、www.W2.com、及びwww.W3.comにアクセスするユーザが、異なるキー、キー1、キー2、及びキー3をそれぞれ用いて、同じクライアント識別子の値を交換するサービスc1.W3.com、a4.W1.com、及びc.W2.com(やはり、Zが運営する)によって追跡される。同じ企業傘下Zのサービスの間で共有されるクライアント識別子であるということは、同じ組織体が運営する追跡プラットフォームを示唆している。この場合は、プライバシの観点から議論を呼ぶことはないと思われる。
第2のインタラクション例は、図4のスキーマ例に非常に類似しているが、簡潔に表されてはいない。この場合、ファーストパーティサービスwww.Y.comにアクセスするクライアントが、サードパーティサービスs及びtによって利用され且つキーt1に含まれる識別子を割り当てられる。
図5(a)に図示されたシナリオに関して、大きな違いが2つある。1つ目の違いは、同じクライアント識別子が、同じ所有者に属していない2つの異なるサードパーティサービスs及びtの間で共有されていることである。2つ目の違いは、サードパーティサービスsは、よく知られた追跡会社であり得るtが提供するキーを利用することである。この種類のインタラクションは、2つの別々のパーティが、それぞれのユーザの識別子を同期することを可能にする作業(クッキーマッチング)の典型的な結果である。
例えば、通常、クライアントが、閲覧活動中に遭遇するいくつかのパーティからクッキーを割り当てられる。したがって、通常、2つのトラッカーが、独自の異なるクッキーを同じクライアントに割り当てる。クッキーマッチング手法のおかげで、2つのトラッカーの一方又は両方が、互いに対してマッピングされたこれらのクッキーを有することになる。クッキーマッチングは、リアルタイム入札(RTB)手法の基本的な部分を構成し、これは、リアルタイムの自動オークションを実現する一般的なウェブ広告技法である。
通常、RTBを可能にするウェブサイトは、RTB用語では売り手と呼ばれ、そのウェブサイトのページ上で利用可能な広告スペースを最高値で売ることを目的としている。オークションを可能とするために、他に2種類のサードパーティが関与する。つまり、オークションを取り仕切る競売業者、及び広告スペースを求めて入札を行う買い手である。ユーザが売り手のウェブサイトを訪問すると、競売業者サービスが、クッキーに含まれる識別子を異なる買い手から収集し、クッキーマッチング作業を実行する。クライアント識別子がオークション参加者の間で同期されると、競売業者は、買い手の入札を収集し、落札した買い手を選択する。したがって、後者は、広告スペースを埋めるコンテンツを提供する権限を与えられることになる。
インタラクションの最後の例が、図5(b)に図示されている。このシナリオは、クッキーマッチングとRTBとを組み合わせる作業を示唆している。同じクライアント識別子(m.net及びr.com)が、2つの売り手であるwww.f.com及びwww.g.com(これらは同じ所有者によって管理されている)、競売業者、並びに5つの異なる買い手の間で共有されていることが確認されている。RTB及びクッキーマッチングは、広告業界によって賞賛されているが、これらを実現することで、クライアント識別子が、共通の権限で管理されていない別の参加者によって扱われるというシナリオにつながる。ユーザのデータへの、この関係者を横断したアクセスは、信じられないと思われ、ユーザのプライバシに与える影響について、少なからぬ懸念を引き起こすことが考えられる。
要約すると、本発明は、HTTPリクエスト内のURLクエリを調査し、リクエストを生成するクライアントとの1対1のマッピングを表す複数の情報を探す、今までにない教師なし方法に関する。本方法は、あらゆるクライアント追跡キーを利用するファーストパーティウェブサービス及びサードパーティウェブサービスの一覧を出力する。
本方法は、追跡サービスを自動的に捜し出すのに効果的であり、簡単なので、ウェブ内の追跡サービスを特定するために、研究者、開発者、及び専門家によって利用され得る。さらに、本方法は、ウェブトラッカーによって利用されるユーザ識別子を探すので、他の場面にも適している。
記載された説明は、最良の形態を含む様々な実施形態を開示するために、また、あらゆる装置又はシステムを作成して用いること、及びあらゆる組み込まれた方法を実行することを含めたこれらの実施形態を、当業者が実施することも可能にするために例を用いている。これらの実施形態の特許可能な範囲は、特許請求の範囲によって定められており、当業者が思いつく他の例も含まれ得る。そのような他の例は、特許請求の範囲の文字通りの言葉と変わらない構造要素を有するならば、又は、特許請求の範囲の文字通りの言葉とごくわずかな違いしかない均等な構造要素を含むならば、特許請求の範囲内にあることが意図されている。

Claims (7)

  1. 関連するクライアント識別子を有するクライアントによって行われる閲覧活動の間に、ウェブ追跡サービスを検出するための方法であって、前記方法は、
    ナビゲーションデータに含まれるキーと値のペアを抽出する段階と、
    前記クライアント識別子と前記キーに含まれる前記値との間の、1対1の対応関係を検索する段階と、
    少なくとも事前に決定された数のクライアントの、少なくともクライアントと値の1対1の対応関係が確認される前記キーを選択する段階と
    を備え、
    前記キーは、関連するサービスを、追跡活動を行うサービスとみなす、方法。
  2. 同じ前記ナビゲーションデータの様々な漸進的な用い方の全体にわたって、前記1対1の対応関係がクライアントごとに確認される、請求項1に記載の方法。
  3. 前記ナビゲーションデータは、HTTP若しくはHTTPSのGETリクエスト、又はPOSTリクエストを介して送信されるデータ若しくはクッキーに埋め込まれたデータである、請求項1又は2に記載の方法。
  4. ファーストパーティ追跡サービスが検出される、請求項1又は2に記載の方法。
  5. サードパーティ追跡サービスが検出される、請求項1又は2に記載の方法。
  6. 値がクライアントとの1対1の対応関係を表すキーの組み合わせが検出される、請求項1から5のいずれか一項に記載の方法。
  7. 前記事前に決定された数のクライアントは、他の種類の情報を含むキーを誤って分類しないように、且つ必ずしも存在するとは限らなくてよいサードパーティオブジェクトの大きいセットに関連する正真正銘のキーを除外しないように決定される、請求項1から6のいずれか一項に記載の方法。
JP2018517781A 2015-12-02 2016-12-01 ウェブ追跡サービスを検出するための方法 Pending JP2019505865A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IT102015000079272 2015-12-02
ITUB2015A006079A ITUB20156079A1 (it) 2015-12-02 2015-12-02 Metodo per individuare i servizi di web tracking
PCT/IB2016/057246 WO2017093924A1 (en) 2015-12-02 2016-12-01 Method for detecting web tracking services

Publications (1)

Publication Number Publication Date
JP2019505865A true JP2019505865A (ja) 2019-02-28

Family

ID=55410138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018517781A Pending JP2019505865A (ja) 2015-12-02 2016-12-01 ウェブ追跡サービスを検出するための方法

Country Status (9)

Country Link
US (1) US11308502B2 (ja)
EP (1) EP3384451A1 (ja)
JP (1) JP2019505865A (ja)
KR (1) KR20180088655A (ja)
CN (1) CN108292408A (ja)
IL (1) IL259139B2 (ja)
IT (1) ITUB20156079A1 (ja)
RU (1) RU2018120870A (ja)
WO (1) WO2017093924A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7427073B2 (ja) 2019-07-22 2024-02-02 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク・トラフィックをウェブ・コンテナに隔離する方法、システム、プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475084B2 (en) * 2012-03-30 2019-11-12 Rewardstyle, Inc. System and method for dynamic creation of product links from a web browser application
US11843675B2 (en) * 2018-10-10 2023-12-12 Nec Corporation Method and system for synchronizing user identities
US10826920B1 (en) * 2018-11-29 2020-11-03 Microsoft Technology Licensing, Llc Signal distribution score for bot detection
US11093644B2 (en) * 2019-05-14 2021-08-17 Google Llc Automatically detecting unauthorized re-identification
US11457034B2 (en) 2020-03-31 2022-09-27 Microsoft Technology Licensing, Llc Distribution-based detection of abusive requests
US11418550B1 (en) * 2021-07-12 2022-08-16 Sap Se Service-mesh session prioritization

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106793A1 (en) 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US8078607B2 (en) 2006-03-30 2011-12-13 Google Inc. Generating website profiles based on queries from webistes and user activities on the search results
US20080195462A1 (en) * 2006-10-24 2008-08-14 Swooge, Llc Method And System For Collecting And Correlating Data From Information Sources To Deliver More Relevant And Effective Advertising
US7818396B2 (en) 2007-06-21 2010-10-19 Microsoft Corporation Aggregating and searching profile data from multiple services
CN101459548B (zh) * 2007-12-14 2011-10-12 北京启明星辰信息技术股份有限公司 一种脚本注入攻击检测方法和系统
US20100042487A1 (en) * 2008-08-12 2010-02-18 Yosef Barazani Apparatus and Method of Monetizing Hyperlinks
US9208453B2 (en) * 2009-02-13 2015-12-08 Paypal, Inc. Targeted multi-dimension data extraction for real-time analysis
US8856869B1 (en) * 2009-06-22 2014-10-07 NexWavSec Software Inc. Enforcement of same origin policy for sensitive data
WO2011019759A2 (en) * 2009-08-10 2011-02-17 Visa U.S.A. Inc. Systems and methods for targeting offers
AU2010348960B2 (en) * 2010-03-23 2015-05-07 Google Llc Conversion path performance measures and reports
CN102571547B (zh) * 2010-12-29 2015-07-01 北京启明星辰信息技术股份有限公司 一种http流量的控制方法及装置
US8838767B2 (en) * 2010-12-30 2014-09-16 Jesse Lakes Redirection service
US20140025509A1 (en) * 2012-07-18 2014-01-23 Media6Degrees Inc. Methods and apparatus for bid optimization and inventory scoring
US9571555B2 (en) * 2012-10-20 2017-02-14 Tomodo Ltd. Methods circuits devices systems and associated computer executable code for web augmentation
US10628858B2 (en) * 2013-02-11 2020-04-21 Facebook, Inc. Initiating real-time bidding based on expected revenue from bids
US20140282036A1 (en) * 2013-03-15 2014-09-18 Turn Inc. Universal tag for page analytics and campaign creation
US10193993B2 (en) * 2013-05-30 2019-01-29 Ebay Inc. Systems and methods of token piggybacking
US20140365586A1 (en) * 2013-06-07 2014-12-11 George Vincent Friborg, JR. Systems and methods for retargeting text message alerts
US10437903B2 (en) * 2013-09-20 2019-10-08 Jesse Lakes Redirection service profiling
US9219787B1 (en) * 2014-11-26 2015-12-22 Ensighten, Inc. Stateless cookie operations server
US9798896B2 (en) * 2015-06-22 2017-10-24 Qualcomm Incorporated Managing unwanted tracking on a device
US10872355B2 (en) * 2015-06-22 2020-12-22 Xandr Inc. Controlling user data visibility in online ad auctions
US10715612B2 (en) * 2015-09-15 2020-07-14 Oath Inc. Identifying users' identity through tracking common activity
US20170083941A1 (en) * 2015-09-22 2017-03-23 Facebook, Inc. Media Planning Tool
US20170091815A1 (en) * 2015-09-28 2017-03-30 Facebook, Inc. Restricting targeted advertising across multiple environments

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7427073B2 (ja) 2019-07-22 2024-02-02 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク・トラフィックをウェブ・コンテナに隔離する方法、システム、プログラム
US11979334B2 (en) 2019-07-22 2024-05-07 International Business Machines Corporation Internet activity compartmentalization

Also Published As

Publication number Publication date
IL259139A (en) 2018-07-31
RU2018120870A (ru) 2020-01-09
WO2017093924A1 (en) 2017-06-08
IL259139B1 (en) 2023-04-01
KR20180088655A (ko) 2018-08-06
RU2018120870A3 (ja) 2020-06-11
ITUB20156079A1 (it) 2017-06-02
EP3384451A1 (en) 2018-10-10
IL259139B2 (en) 2023-08-01
US20180332126A1 (en) 2018-11-15
US11308502B2 (en) 2022-04-19
CN108292408A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
US20210119801A1 (en) Method and system for processing personal database on block chain
US11037083B2 (en) Non-intrusive techniques for discovering and using organizational relationships
JP2019505865A (ja) ウェブ追跡サービスを検出するための方法
Brookman et al. Cross-device tracking: Measurement and disclosures
Urban et al. Measuring the impact of the GDPR on data sharing in ad networks
US11165822B2 (en) Identifying phishing websites using DOM characteristics
EP3345349B1 (en) Systems and methods for detecting and scoring anomalies
US9578048B1 (en) Identifying phishing websites using DOM characteristics
Gugelmann et al. An automated approach for complementing ad blockers’ blacklists
Preibusch et al. Shopping for privacy: Purchase details leaked to PayPal
Gomer et al. Network analysis of third party tracking: User exposure to tracking cookies through search
US7937383B2 (en) Generating anonymous log entries
US7890511B2 (en) System and method for conducting network analytics
US20210136122A1 (en) Crowdsourced innovation laboratory and process implementation system
Sanchez-Rola et al. Journey to the center of the cookie ecosystem: Unraveling actors' roles and relationships
CN113454621A (zh) 用于从多域收集数据的方法、装置和计算机程序
US9465781B2 (en) Analysis of web application state
Jyothi et al. A study on raise of web analytics and its benefits
Kaushal et al. Methods for user profiling across social networks
Castell-Uroz et al. Network measurements for web tracking analysis and detection: A tutorial
JP2016524732A (ja) ピアツーピアネットワークに関連するデータ資産を管理するためのシステムおよび方法
US20150229729A1 (en) Method and system for cross device tracking in online marketing measurements
Mowla et al. Analysis of web server logs to understand internet user behaviour and develop digital marketing strategies
US8909795B2 (en) Method for determining validity of command and system thereof
Di Tizio et al. A calculus of tracking: Theory and practice

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210803