JP2020521246A

JP2020521246A - ネットワークアクセス可能なコンテンツの自動化された分類

Info

Publication number: JP2020521246A
Application number: JP2019564146A
Authority: JP
Inventors: ルーパールガーグ
Original assignee: GumGum Inc
Current assignee: GumGum Inc
Priority date: 2017-05-23
Filing date: 2018-05-21
Publication date: 2020-07-16
Also published as: AU2018273369A1; US20180341980A1; EP3631737A1; US10504145B2; WO2018217668A8; CA3063471A1; WO2018217668A1

Abstract

ページ又は他のソースコンテンツを、１つ以上の実世界イベントに関するテキストを含むとして自動的に分類するための分類モデルを生成及び使用するためのシステム及び方法が提供される。分類モデルを生成することは、参照ソース及びネットワークを介するパブリッシャーソースのようなより動的なソースの両方からの多数の異なるページのテキストコンテンツを分析することを含み得る。分類器をトレーニングする特徴は、与えられたイベントと関連付けられるよう決定されたページの中で特定された上位のｎグラムに一部は基づいて決定され得る。

Description

大量の新しいコンテンツがインターネットにわたって毎日、公開されている。このコンテンツは、例えば、新しい記事、ブログのエントリ、及びソーシャルメディアのポストを中でも含む。コンテンツオーナー又は他の許可された当事者は、バナー広告又は他の広告を記事又は他の主要なコンテンツも含むウェブページ上で提示すること等によって、公開されたコンテンツに関連する広告を提示するように、しばしば自分たちのウェブサイト又はアプリケーションを設定する。これら広告は、そのコンテンツが、与えられたユーザに対する表示のために提示される時点において動的に選択され得る。広告サービス（広告主をパブリッシャー又は他のウェブサイト運営者と結ぶ広告ネットワークを含み得る）は、広告が現れるページに関連する広告を与えられた瞬間に選択するために、コンテンツ連動型広告又はコンテキストターゲティング手法のような、自動化されたプロセスを採用し得る。例えば、コンテンツ連動型広告システムは、広告システムの運営者によって以前に確立された任意のキーワードの存在を求めてウェブサイトのテキストをスキャンし、それから特定されたキーワードに基づいて広告を返し得る。例示的な場合において、もしユーザが、コンテンツ連動型広告システムがバスケットボールと以前に関連付けた語を含むウェブサイトを見ると、ユーザは、バスケットボールに関連する会社の広告を見るかもしれない。

前述の局面及び多くの付随する利点は、添付の図面と併せて、以下の詳細な説明を参照してよりよく理解されるだろう。
図１は、異なる実世界のイベントに関連するページを分類するための分類モデルを構築及び使用する例示的方法の高位の概観を提供するフロー図である。図２は、イベント分類モデルをトレーニングするためにページデータを収集し、特徴を選択する例示的方法のフロー図である。図３Ａは、与えられたイベントについての参照ページセットを決定するための例示的方法のフロー図である。図３Ｂは、与えられたイベントについてのパブリッシャーページを決定するための例示的方法のフロー図である。図４は、イベント分類モデルの生成のための特徴リストを改良する（developing）さまざまなステップにおいて生成され得る例示的データの例示的データのフロー図である。図５は、本開示のさまざまな実施形態における用いられるのに適した計算環境のシステムブロック図である。

一般に言えば、本開示の局面は、ページ又は他の入力テキストを、実世界のスポーツイベント、コンサート、アワードショー、休日、政治的イベント等のような１つ以上のイベントに関連するとして自動的に分類する分類モデルを生成することに関する。特定のイベントに関するとしてウェブページ又は他のページを分類すること（ページ内のニュース記事が特定のスポーツイベントについての記事であると特定することのような）は、ページの表示に関連して、特定のイベントに関する広告を動的に提示すること等は、広告の分野で非常に有用である。例えば、オーストラリアオープンテニスイベントについての記事を読んでいるユーザにテニスラケットについての広告が提示されるときは、同じテニスラケットの広告が政治の選挙についての記事を読んでいるユーザに提示されたときよりも、よりよいユーザエクスペリエンスが期待され得る。

ページのテキストが特定のイベントについて記述しているかを自動的に特定するシステムを構成する１つのアプローチは、そのページテキストにおいて、そのイベントに関連付けられていることが知られているキーワードのリストを検索することである。例えば、既存のコンテンツ連動型広告システムであっても、もしシステム管理者又は他の個人が、異なるイベントのために手動でキーワードのリストを作成しそれらキーワードをシステムに提供していたなら、イベントを特定するために変更され得たかもしれない。しかしそのようなアプローチは、人間による相当の量の手作業に依存しているため、そのようなシステムを維持しアップデートすることは、めんどうで時間がかかる。さらに、与えられたイベントについて手動で選択されたキーワードがどの程度、適しているかを判断するには、かなりのさらなる時間及びテストが必要となり得て、システムが、ほどほどの個数であっても異なるイベントに関連付けられたページを認識するように意図される場合、実現不可能なくらい長い時間を必要とし得る。本開示の局面は、そのコンテンツが特定のイベントを記述しているページを自動化されたやり方で特定するために、分類器（classifiers）をトレーニングするシステム及び方法を提供する。以下に記載されるように、本開示の局面は、レファレンスページ及びパブリッシャーページの両方からイベントに関連するｎグラムのマップ又はランク付けされたリストを収集及び構築することを含み、ここでｎグラム情報は、それぞれのイベントについての一般的及びトレンド情報（trending information）を反映する。ｎグラムデータは、バイナリ分類器（ランダムフォレスト分類器のような）又は他の分類器をそれぞれのイベントについてトレーニングし、構築するのにそれから用いられ得る。これらの分類器又は分類モデルは、与えられたページ又は他の入力コンテンツが、そのモデルが特定するようトレーニングされている任意のイベントについて記述しているように見えるかを判断するためにリアルタイムでそれから用いられ得る。

ここで用いられるように、「ｎ−グラム」又は「ｎグラム」は、ストリングつまり固定された順番の１つ以上の語のセットを一般に指す。この技術において知られるように、１語のｎグラム（すなわちｎ＝１）は、ユニグラムと呼ばれ得て、２語のｎグラム（すなわちｎ＝２）は、バイグラムと呼ばれ得て、３語のｎグラム（すなわちｎ＝３）は、トリグラムと呼ばれ得る。与えられた文は、いくつかのユニグラム、トリグラム、及び他のｎグラム（ｎが３よりも大きいもののような）をその中に含み得る。ソーステキストにおいて特定されたこれらｎグラムのいくつかは、ソーステキストにおいて互いに重複し得て、その結果、それらは、１つ以上の語を互いに共有する。例えば、「This is a sample」という文においては、それぞれの語は、ユニグラムであり得て、一緒に現れるそれぞれの２語のセットは、バイグラムであり得て（例えば「This is」、「is a」、及び「a sample」）、一緒に現れるそれぞれの３語のセットは、バイグラムであり得る（例えば「This is a」、及び「is a sample」）。

与えられたインプリメンテーション又は環境において関心のあるイベントに依存して、１つ以上のイベントに関連するとしてページを分類することの技術的問題（本開示の局面によって解決される問題のうちの一つ）は、一般的なトピックに関連するとしてページを分類することの、より一般的な問題とは異なり得る。例えば、特定のスポーツイベント(２０１７年オーストラリアオープンのような)は、イベントが近づくにつれ、又はイベントが進行するにつれ、頻繁に変化していくトレンド情報と関連付けられ、それと同時に、同様のイベント（２０１６年オーストラリアオープン、以前のオーストラリアオープン、及び／又はテニストーナメント全般のような）の異なる過去の事例にわたって共通である、より一般的な情報とも関連付けられ得る。同様に、特定の音楽アーチストのコンサートは、それぞれ共通の局面（バンドそのものに関連する局面、レコードレーベル、前座等）を有し得ると同時に、与えられたツアーの中でも日によって変わる情報（その特定のコンサートについての都市及び会場のような）も有し得る。さらに、一般的なトピック（テニスのような）とは異なり、あるイベントに関連する情報は、そのイベントの時刻が比較的直前まで近づいてから初めて入手可能になり、しばしば変更され得る。例えば、与えられたアワードショーイベントにおける特定の受賞候補者又は与えられたスポーツイベントに参加する参加者（又はまだイベントから除外されていない者）のような情報は、その与えられたイベントの直前又はその間にしか知られ得ない。したがって人間がそのようなイベントについての正確なキーワードリストを維持しようと試みるなら、繰り返されるリサーチが実行されなければならないことになる。したがって、それぞれのイベントにキーワードを割り当てるための人間の入力に依存するシステムは、非実用的及び／又は不正確である可能性が高く、特にさまざまな主題の領域にわたる大量の異なるイベントのそれぞれについてのキーワード情報を維持しようとする試みについては、特にそうである。

本開示のある実施形態によって用いることが提案されるデータトレーニングの本質から、ここで用いられる「イベント」という語は、以前から及び／又はそれが起こった後に公に知られている機会又はできごとを指すように大まかには意図されている。あるイベントについての情報は、起こりつつあるそのイベントよりも前に知られ得る（まもなく行われるようスケジュールされているスポーツイベントに関する情報のように）が、他のイベントについての情報は、イベント中又はその後でないと知られ得ない（特定の地震についての情報のように）。しかし、本開示の局面は、ここで記載された分類モデルをトレーニングするのに十分な情報が提供され得るなら（トレーニングプロセスにおいてプライベートイベントを記述するプライベートの参照ページを用いることによるように）、公に入手可能な情報が存在しないプライベートイベントを特定するために、代替として用いられ得ることが理解されよう。例えば、ある実施形態では、プライベートイベントは、特定のグループ又は組織の外では一般には知られないイベント（プライベートパーティー又は会社のミーティング）であり得て、トレーニングで用いられるページは、公には入手可能でない会社のイントラネット、電子メール、及び／又は他の情報からのページを含み得る。そのようなある種の実施形態では、本開示の局面は、与えられた電子メール又は他のファイルのための配布リストを提案するため、あるイベントに関連するとして文書に自動でタグ付けする等のように、広告以外の目的で用いられ得る。

イベントの非限定的な例は、実施形態に依存して、スポーツイベント、コンサート、休日、政治的イベント、自然界のイベント（特定の自然災害、食等のような）、法的イベント（ニュースになるような刑事裁判のような）、会議、講演イベント、及び／又は多くの他のものを含む。「実世界イベント」とここでは呼ばれるが、本開示の局面にしたがって特定されるイベントは、任意の具体的な地理的場所において起こる必要はない（例えば大晦日のような休日イベントは場所に特定のものではない）。さらに本開示の局面は、人々が物理的に参加するイベントだけを指すのとは反対に、通信又はメディアネットワークを通じて起こるイベントを特定するために用いられ得る。例えば、イベントは、テレビショーのシーズンプレミアの放送、又は参加者が物理的に互いに離れているビデオゲームトーナメントを含み得る。特定のイベントの性質に依存して、イベントそのものは、２，３分しか続かないものでもよく、何日又は何週間も続いてもよい。

図１は、ページを異なる実世界イベントに関連するとして分類するための分類モデルを構築及び利用する例示的方法１００のハイレベルの概観を提供するフロー図である。例示的方法１００は、計算システム５０２によって実行され得て、これは図５を参照して後述される。例示的方法１００は、ページ収集及び分析ブロック１０４から始まり、ここで計算システムは、イベントキーワード及び関連データ１０２に関する分析のためにページ（参照ページ１０６及びパブリッシャーページ１０８）を収集する。イベントキーワード及び関連データ１０２は、例えば、イベント名及びそれぞれのイベントと関連付けられたキーワードのオプションセット（optional set）を含み得る。ある実施形態では、キーワードは、イベントの名前及びそのイベントに関連付けられたキーワードの組み合わせがそのコンテンツの中に存在するときに、コンテンツが特定のイベントと関連するとみなすことによって等のやり方で、あるイベントを、同様の名前をもつ他のイベントから区別するのに有用であり得る。一つの例として、「２０１７全米オープン」と名付けられたテニスイベントは、キーワード「テニス」と関連付けられ得て、「２０１７全米オープン」と名付けられたゴルフイベントは、キーワード「ゴルフ」と関連付けられ得る。イベントキーワード及び関連データ中のイベントに関連付けられたキーワードは、そのイベントに関連付けられたキーワードの完全なセットであるようには意図されなくてもよい。

ある実施形態では、参照ページ１０６は、百科事典又は同様の参考書のソースからのページであり得る。例えば、参照ページ１０６のそれぞれは、特定の語、概念、人、場所、又は他のトピックに関する情報を含むネットワークでアクセス可能なページであり得る。ある実施形態では、参照ページ１０６は、プロの手によって執筆又は編集されたものであってもよく、他の実施形態では、これらページは、多くの異なる個人によって集合的努力の一部として作成及び変更されたものでもよい（「wiki」として呼ばれることもあるもののような）。ある実施形態では、それぞれの参照ページは、ページタイトル、メタデータ、ヘッダ、及び／又は統一資源識別子（「ＵＲＩ」）のような中にページのトピックの明白な記載を含み得る。参照ページ１０６のソースに依存して、参照ページは、自動化されたサーチをサーバに又はアプリケーションプログラミングインタフェース（「ＡＰＩ」）を介して提出することによってサーチを取り出され得る。例えば、ある実施形態では、ここで開示された計算システムは、計算システム５０２がイベント名（例えば「２０１７オーストラリアオープン」）をＡＰＩを介したリクエストにおいて提供することによって特定しようとしている特定のイベントと関連付けられたページについての参照ソースプロバイダによって提供されるＡＰＩを介してリクエストを送り得る。計算システム５０２は、与えられた実施形態において用いられる個々の参照ソースに依存する他のやり方で、特定のイベントと関連付けられた参照ページを取得するよう構成され得る。例えば、与えられた参照ソースは、計算システム５０２が、イベント又はトピックの名前をＵＲＩテンプレートの適切な位置に置くことによって、与えられたイベント又はトピックに関連付けられたページをリクエストするよう構成される、あるＵＲＩ構造を使用し得る（例えばサンプル参照ソースは、「https://www.wiki.xyz/topic」のフォーマットに続くＵＲＩから入手可能である任意の与えられたトピックについてのその参照ページを有し得て、ここで「トピック」部分は、どのようなトピックが関心の対象であろうともそのトピックの名前によって置換されるプレースホルダであり得る。）。

パブリッシャーページ１０８は、参照ページ１０６よりも、より構造化されていないか、又はよりトピックに焦点が集中していないソースであり得る。ある実施形態では、参照ページ１０６は、任意の与えられた参照ページが特定のトピックについてのコンテンツを含み得ることが比較的明確であるようにフォーマットされ得るのに対して、パブリッシャーページ１０８は、さまざまなやり方でフォーマットされたさまざまなソースからのページを含み得る。例えば、パブリッシャーページは、潜在的には広い範囲のウェブサイト又は他のソースからの、ニュース記事、ブログポスト、マイクロブログ、ソーシャルメディアポスト、プレスリリース、及び／又は他のページを含み得る。したがって、ある実施形態では、参照ページ１０６のそれぞれは、ページから比較的容易に特定されるイベント（又は他のトピック）についての比較的に静的及び一般的情報を提供すると一般的には考えられ得る一方で、パブリッシャーページ１０８のそれぞれは、イベントに関する、よりトレンド性の高い（trending）情報を提供し、又は参照ページ１０８のそれとは異なるスタイル又はフォーマットで執筆される可能性を有し得る。例えば、参照ページ１０６は、比較的、フォーマルなやり方で執筆され得て、一般的な事実に関する情報を提供し得る一方で、パブリッシャーページは、編集情報（ブログポスト又はニュース記事におけるような）、スラング又は他のインフォーマルな文言（ソーシャルメディアポスト又はブログポストにおけるような）、及び／又はイベントのある局面に関する非常に新しい情報（追加のバンドがコンサートに加わったという短いアナウンスのような）を含み得る。ある実施形態では、分析されたパブリッシャーページは、過去３０日間のような、ある所定の時刻の閾値内で執筆又は編集されたパブリッシャーページに限定され得て、ここで時刻の閾値は、分析されているイベントの性質（イベントに関連付けられた情報が頻繁に変わる傾向にあるかのような）に依存し得る。

「ページ」は、ここで分析される例示的コンテンツタイプとしてしばしば用いられるが、基本となるコンテンツは、マルチページドキュメント、ユーザインタフェース、ネットワークを通じてＵＲＩを介して入手可能であるテキスト部分を有する任意のコンテンツ等のような、ページとは考えられないかもしれない他のテキストベースのコンテンツであり得ることが理解されよう。同様に、特定のＵＲＩをリクエストする以外の方法を通じてＡＰＩを介して取得され得るテキストコンテンツは、ページの形で戻されようとなかろうと、ある実施形態では用いられ得る。

パブリッシャーページ１０８は、ある実施形態では「パブリッシャー」ページであると考えられ得るが、これはこれらのページが、広告ネットワーク又は広告サービスを用いるさまざまなパブリッシャーによってホストされ、提供され、執筆され、又はそうでなければそれと関連付けられ得るからであり、ここで広告サービスは、与えられたパブリッシャーページのためのイベントに関連する広告を選択するために、ここで記載されるイベント識別システム及び方法を採用する。例えば、この技術で知られるように、広告サービスは、いくつかのパブリッシャー（ニュースウェブサイト、ソーシャルメディアサービスプロバイダ、ブログの作者等）が、ページがクライアントデバイスにロードされるたびに、広告リクエストが広告サービスに送られるようにするコードを彼らのページ中に含めることを可能にし得て、ここでこのリクエストは、与えられた場合においてページ上に表示する広告を動的に選択するために広告サービスが使用し得るページに関するさまざまな情報を含み得る。

もし広告サービスが、与えられたイベントに関連付けられた広告が与えられたパブリッシャーページ上に示されるべきかどうかを判断するために、本開示のイベント識別の局面を採用するなら、トレーニングデータソースの一つとしてパブリッシャーページを用いてここで記載されたイベント識別モデルをトレーニングすることが優位性を有し得る。これは、参照ページだけを用いることに対して、イベント識別正確性の改善を提供し得るが、これは、例えば、参照ページは、異なるスタイルで書かれ得て、又は分類モデルがポストトレーニングを分析するのに用いられるパブリッシャーページよりもより少ないトレンド性の情報を含み得るからである。「パブリッシャーページ」という語は、参照ページ以外の収集されたページを表すためにここでは用いられるが、他の実施形態では、特にトレーニングされる分類モデルが、広告目的でパブリッシャーページを分析するコンテキストの外で用いるよう構成される場合には、トレーニングのために用いられるページは、他のタイプのページ又はコンテンツを含み得ることが理解されよう。

ページ収集及び分析ブロック１０４に戻り、計算システム５０２は、イベントキーワード及び関連データ１０２において特定されたいくつかの個別のイベントのそれぞれについて、パブリッシャーページのセット及び参照ページのセットを特定するために、収集されたページを分析し得る。これら判断は、図３Ａ及び図３Ｂを参照して以下により詳細に説明される。ある実施形態による一例として、あるイベントについての参照ページのセットは、与えられたイベントに関する百科事典のようなソースにおけるページと共に、そのページの中で参照された１つ以上の他の参照ページ（そのイベントに関連付けられた他のトピックについての百科事典のようなエントリのような）を含み得る。同じ例示的実施形態において、同じイベントについてのパブリッシャーページのセットは、そのページのＵＲＩ内のイベント名をそれぞれ含むパブリッシャーページを例えば含み得る。ＵＲＩが用いられ得るが、これは、例えば、そのページが与えられたイベントについてのものであるという高い信頼度レベルをシステムが有するパブリッシャーページを選択するために優位性を有し得るからである（これは、もしあるページについてのＵＲＩが、ＵＲＩ内にイベント名そのものを含むなら、一般的に確率が高い）。システムは、追加として、パブリッシャーページのコンテンツ及び／又はイベントキーワード及び関連データ１０２内のイベントに関連付けられた１つ以上のキーワードについてのＵＲＩを検討し得る。

図２を参照して以下にさらに詳細に説明がなされるが、ブロック１０４における参照ページ１０６及びパブリッシャーページ１０８の計算システムの分析結果は、図１のブロック１１０によって表される、さまざまなイベントについての重み付きｎグラムベクトル（weighted n-gram vectors）のセットであり得る。例えば、計算システムは、収集されたページに現れるさまざまなｎグラムを含む１つ以上の辞書を作り得て、さまざまなｎグラムについての重みを含むそれぞれのイベントについてのベクトルを作り得る。重みは、以下に説明されるように、イベント及びｎグラムのペアリングについて求められるマスタータームスコア（master terms scores）に基づき得て、参照ページについて、及びパブリッシャーページについて別個に決定され得る。例えば、参照マスターベクトル及びパブリッシャーマスターベクトルは、それぞれのイベントについてそれぞれ生成され得る。ある実施形態では、以下にさらに詳細に記載される方法にしたがって、重み付きｎグラムベクトルは、収集されたページのコンテンツの、計算システムの分析に基づいて、イベントのそれぞれと最も強く相関されるｎグラムを決定するのに十分な情報を一般に提供し得る。

重み付きｎグラムベクトルは、ブロック１１２において分類モデルを生成するためにそれから用いられ得る。以下にさらに詳細に説明されるように、それぞれのイベントについてのトップのパブリッシャーｎグラム及び参照ｎグラム（ある実施形態におけるトップの５００ユニグラム、トップの５００バイグラム、及びトップの５００トリグラムのような）は、与えられたイベントについての分類器をトレーニングする時に、特徴として選択され得る。ある実施形態では、分類モデルを構築するために、ランダムフォレスト分類器又は分類方法が計算システムによって用いられ得る。他の分類方法は、サポートベクトルマシン又は統計的回帰モデルのような他の実施形態で用いられ得る。

いったん分類モデルが生成されたあとに、さまざまなＵＲＩ又はＵＲＬから入手可能なページは、もしそういうイベントが存在するのなら、どのイベントがそれぞれのページに関連するかを特定するために分類モデルを用いて分析され得る。例えば、ＵＲＬ１１４から入手可能なページは、サーバから取得され得て、ｎグラムは、ページのテキストから抽出され得る（ページに現れるさまざまなユニグラム、バイグラム、及びトリグラムのような）。これらｎグラムのサブセットは、上述のものと同様の手法を用いたイベント分類モデルに特徴としてそれから提供され得る。分類モデルは、例えば、ＵＲＬ１１４及び／又は１１６から入手可能な特定のページが、イベント１２０のうちの特定の１つのイベントに関すると思われるテキストのコンテンツを含むかを、そのイベントに対応する分類器の出力に基づいて、それから判断し得る。ある場合においては、ページは、１つ以上のイベントに関するテキストコンテンツを含み得て、この場合、分類モデルは、非ゼロの確率又は信頼度レベル（０及び１の間の値のような）を、複数のイベントのそれぞれについて同じページに割り当て得る。与えられたページについてのイベント判断は、与えられたページに関連する表示のために、与えられたイベントに関連する広告を選択するためのような
さまざまな目的のためにそれから用いられ得る（図１には不図示）。

図２は、ページデータを収集し、イベント分類モデルのトレーニングのための特徴を選択する例示的方法２００のフロー図である。例示的方法２００は、計算システム５０２のような計算システムによって例えば実行され得て、これは、図５を参照して後述される。例示的方法２００は、ブロック２０２において始まり、ここでシステムは、図１を参照して上述したように参照ソースからのページ及び複数のパブリッシャーからのページを収集する。上述のように、参照ページは、それぞれが異なる特定の語、概念、人、場所、又は他のトピックに関するページで一般にはあり得て、ここでそれぞれのページのトピックは、自動化されたやり方で（そのページのタイトル、メタデータ、ヘッダ、及び／又はＵＲＩからのような）確かめるのに比較的明瞭である。上でさらに述べられたように、パブリッシャーページは、参照ページよりも構造化の度合いが少なく、又はトピックへの焦点の合わせ方がゆるい。

ブロック２０４においては、計算システムは、いくつかの異なるイベントのそれぞれに関連付けられたパブリッシャーページセット及び参照ページセットを特定し得る。それぞれのイベントについての参照ページセット及びパブリッシャーページセットを決定するためにブロック２０４において実行され得る例示的方法は、図３Ａ及び図３Ｂについて以下に説明される。上述のように、ページセットが決定されるイベントは、イベント名及びオプションの関連するキーワードをデータ記憶から取得することによって等の方法で、以前に確立され得る。例えば、ある実施形態では、計算システムのオペレータは、広告主の潜在的な関心の対象となる来たるべきイベントのリストを保持し得る。他の実施形態では、計算システムは、与えられた参照ソースから入手可能である新しいイベントの参照ページを特定することによって等の方法で、参照ソース又は他のソースからのコンテンツを分析することによって新しいイベントを知るよう構成され得る。例えば、参照ソースは、トレンド性のある又は人気のあるイベントに関するページにタグ付けし得て、これらのタグは、そのようなイベントのイベント名を特定するために、計算システムによって検索され得る。さらに後述されるように、ある実施形態によれば、イベントについての参照ページセットは、与えられたイベントに関する百科事典のようなソースにおけるページと共に、そのページ内で参照されている１つ以上の他のページを含み得る。同じ例示的実施形態において、同じイベントについてのパブリッシャーページセットは、そのページについてのＵＲＩ内にそれぞれイベント名を含むパブリッシャーページを含み得る。

次にブロック２０６において、計算システムは、それぞれのイベントのパブリッシャーページセット及び参照ページセットのコンテンツを分析することによって、それぞれのイベントについてのｎグラムのリストを生成し得る。例えば、計算システムは、それぞれのページに現れるさまざまなユニグラム、バイグラム、及びトリグラムを抽出し得る。ｎグラム抽出プロセスの間、システムは、発見されたｎグラムの辞書を作り得て、特定のｎグラムがそのページセットに現れる回数を示すそれぞれのページセットについてのそれぞれのｎグラムのカウントを保持し得る。例えば、計算システムは、バイグラム「knockout stage」がイベント「2018 World Cup」についての参照ページセットにおいて１０回現れること、及びイベント「Thanksgiving」についての参照ページセットにおいてゼロ回現れることを決定し得る。

ブロック２０８において、計算システムは、与えられたｎグラムが与えられたイベントとどのくらい強く相関するかを大まかに示し得る、それぞれのｎグラム及びイベントの組み合わせについてのスコアを計算し得る。ある実施形態では、あるスコアが、与えられたイベントの参照ページセットに対してそれぞれのｎグラムについて決定され得て、他のスコアは、同じイベントのパブリッシャーページセットに対して同じｎグラムについて決定され得る。他の実施形態では、ｎグラム頻度データは、イベントの２つのページセットの間で組み合わせられ得て、その結果、イベント及びｎグラムのそれぞれの組み合わせについては１つのスコアだけが求められる。与えられたイベントのページセットについてのそれぞれのｎグラムについてのスコアは、ある実施形態では、その語が（１）他のイベントに関連付けられたページ、及び（２）全体として１つ以上のソースから収集されたページの世界においてある語が現れる頻度に対する、与えられたページセット（どちらのスコアが算出されつつあるかに依存して、パブリッシャーページセット及び／又は参照ページセット）の中でその語が現れる回数に基づいて決定され得る。ある実施形態では、システムは、適用し得る。ある実施形態では、システムは、既知の「単語の出現頻度・逆文書頻度」（「ＴＦ・ＩＤＦ」）スコアリング方法の改変されたバージョンを適用し得るが、それは、後述するイベント特定において使用されるよう適応化される。

ＴＦ・ＩＤＦ方法は、ページ毎又は文書毎に既存のシステムで典型的には計算される（例えばスコアは特定の文書に対して計算される）が、計算システムは、その代わりに、イベントのページセット内の複数のページを考慮に入れて、イベント毎でｎグラム毎のスコアを計算することを含む、ユニークな単語頻度・逆イベント頻度（「ＴＦ・ＩＥＦ」）方法を適用し得る。ある実施形態では、与えられたイベントのページセットに対する与えられたｎグラムについてのスコアは、以下の方程式を用いて計算され得る。

Final Score = Term Frequency * Inverted Event Frequency * Master Term Score
単語頻度は、与えられたｎグラムが与えられたイベントのページセット中に現れる回数であり得る。逆イベント頻度（「ＩＥＦ」）は、log(N/ef)として計算され得て、ここでNは、イベントの総数であり、efは、与えられたｎグラムがそのイベントのページセット中に存在するイベントの個数である。ＩＥＦサブスコア（IEF sub-score）は、あるｎグラムがイベントの世界の中でどのくらい珍しいかを一般に示し得て、ｎグラムが起こるイベントの個数が少ないほど、ＩＥＦサブスコアは高くなる。マスタータームスコアは、ある実施形態ではオプションであり得るが、既知のＴＦ・ＩＤＦ方法を用いて、与えられた参照ソースからの特定の言語で入手可能な全ての参照ページ（例えば計算システムによって考慮される任意のイベントに直接には関連しないページを含む）のような、与えられたソースからのページ全体にわたってのｎグラムについてのＴＦ・ＩＤＦスコアとして計算され得る。他の実施形態では、マスタータームスコアは、他のやり方で生成され得る。例えば、マスタータームスコアは、与えられた語が与えられた言語で用いられる逆頻度（inverse frequency）を一般的に示す、データ記憶から取得される数であり得る。さらなる例として、マスタータームスコアは、与えられたｎグラム又は語が、与えられた期間にわたって（過去６ヶ月のような）ニュース記事中に現れる、本に現れる、１つ以上のドメインに関連付けられたウェブページに現れる、又はなんらかの他のコンテンツライブラリ中に現れる逆頻度を表し得る。

さまざまなｎグラム及びイベントセットのペアリングについて、いったん最終的なスコアが決定されると、例示的方法２００は、ブロック２１０に進み、ここで計算システムは、それぞれのイベントのパブリッシャーページセットについて、及びそれぞれのイベントの参照ページセットについて（又は実施形態に依存して、与えられたイベントの組み合わせられたイベント及びパブリッシャーページセットについて）、上位のスコアを得たｎグラムを選択する。例えば、ある実施形態では、計算システムは、それぞれのイベントについてそれぞれのソース（パブリッシャーページセット及び参照ページセット）から上位５００のユニグラム、上位５００のバイグラム、上位５００のトリグラムを選択し得る。他の実施形態において、異なるセットの個数の上位のｎグラムが選択され得て、又は閾値よりも上のスコアを持つｎグラムが選択され得る。ブロック２１２において、計算システムは、イベント群にわたってよく起こる（common）ｎグラムを除去するために、上位のスコアを得たｎグラムをそれからオプションとしてフィルタリングし得る。例えば、結果として生じる分類モデルにおける混乱を避けるために、複数のイベントについて上位のスコアを得るｎグラムにおいて現れるｎグラム（又はイベントの閾値の数よりも上である）は、上位のｎグラムのリストから除去され得る。

ブロック２１４において、計算システムは、それぞれのイベントページセットについてのフィルタリングされた上位のスコアを得たｎグラムを、分類モデル（群）をトレーニングするための特徴としてそれから使用し得る。例えば、ある実施形態では、与えられたイベントについての上位の参照セットｎグラム及び与えられたイベントについての上位のパブリッシャーセットｎグラムは、ランダムフォレスト分類器のような、与えられたイベントについての分類器を構築及びトレーニングする特徴リストとして集合的に用いられ得る。このようにして、分類器は、それぞれのイベントについて求められた特徴リストに基づいてそれぞれのイベントについて生成され得る。トレーニングプロセスにおいて、ある実施形態では、計算システムは、収集されたページデータの９０％をトレーニングデータとして使用し得て、残りの１０％はテストデータとして使用し得る。

トレーニング目的でそれぞれのイベントについてはネガティブな例を持つために、計算システムは、あるイベントからのポジティブな例を、関連のないイベントについてのネガティブな例として使用し得る。ある実施形態において、イベントは、以前には兄弟イベントにグループ分けされ、又は階層の中に配置される結果、システムがそのグループ分け又は階層を用いて同様のイベントを特定していたかもしれない。計算システムは、任意の与えられたイベントのポジティブなものを、その兄弟又は関連するイベントにネガティブなものとしてフィードすることをスキップし得る。ある実施形態において、計算システムは、自動化されたやり方で、兄弟又は同様のイベントを特定し得る。例えば、クラスタリングアルゴリズムは、特定の兄弟イベントを特定するために、それぞれのイベントについてのページの集合体にわたって適用され得る。代替として、ジャッカード係数、コサイン距離、又は他の距離の測定を用いて、異なるイベントの間の類似性が求められて、兄弟イベントを特定し得る。

いったん分類モデルがトレーニングされると、それらは、任意のテキストコンテンツ（textual content）を分類することによって、そのコンテンツが、分類器が改良された（developed）イベントの任意のものに関連されるように見えるかを決定するのに大きくは用いられ得る。パブリッシャーページ及び参照ページとしてのトレーニングデータの性質から、分類モデルは、参照ページ又はパブリッシャーページのいずれかを分類することに対して最も良く実行し得るが、これは、コンテンツのこれらのタイプは、他のタイプのコンテンツ（例えば小説）とは異なるスタイルで書かれているからであり得る。例えば、１０６個のイベントにわたる試験的実現例においては、ここで記載された方法を用いてトレーニングがなされたモデルは、０．９を超える平均再現率（recall）を達成した。理解されるように、分類モデルは、ここで記載した方法を用いて改良され得るが、もしそのモデルが他のタイプのコンテンツを分類するのに用いられるなら、異なるタイプのトレーニングコンテンツを用い得る。モデルは、定期的に（例えば毎週又は毎月）再トレーニングされ得て、ある実施形態では、最近公開されたページをトレーニングデータとして用いる。

図３Ａは、与えられたイベントについて参照ページセットを決定する例示的方法３００のフロー図である。この方法は、例えば、計算システム５０２によって実行され得て、これは以下に説明される。例示的方法３００は、図２について上述したブロック２０４の一部として起こり得る。この方法は、ブロック３０２において始まり、計算システムは、参照ソースからイベントについてのイベント参照ページを特定する。上述のように、参照ページは、特定の参照ソースに依存して、さまざまなやり方で特定され得る。例えば、ある参照ソースは、計算システムがイベント名（又は他のトピック）を、参照ソースのサーバに送信し、そのイベントについての対応する参照ページから逆に受信することを可能にするＡＰＩ又は検索機能を提供し得る。他の実施形態においては、より詳細に上述されたように、計算システムは、参照ページのＵＲＩから、ページのメタデータから、又はページそのもののコンテンツから（例えばタイトル、見出し等から）、イベント名を決定するように構成され得る。

次にブロック３０４において、計算システムは、イベント参照ページ内に現れるリンクをトラバースし得る。例えば、ＨＴＭＬフォーマットの参照ページは、ページコード内に他の参照ページを指し示すＵＲＩリンクを含み得る。例えば、ある音楽フェスティバルについての参照ページは、そのフェスティバルに出演するよう予定されたさまざまなバンドのそれぞれに関するページへのリンク、コンサート開催地についてのページへのリンク、コンサート開催地の市についてのページへのリンク、音楽フェスティバルの一般的トピックについてのページへのリンク等をページ内に含み得る。循環リンクの潜在的な問題（例えば、リンクされたページのうちの１つがメインイベントの参照ページへ戻るリンクを含むこと）を解決するために、計算システムは、１方向だけにトラバースする（例えば、親リンクから子リンクへのトラバースだけを実行する）よう構成され得る。

他の潜在的な問題は、関連のないコンテキストの問題である。例えば、オーストラリアオープンテニストーナメントについての参照ページは、オーストラリアの国についての参照ページへのリンクを含み得る。オーストラリアについての参照ページ内のコンテンツ（例えば、その国の歴史、政治、経済等に関する記述テキストを含む）は、オーストラリアオープンテニスイベントにほとんどは又は完全に無関連であり得る。この問題に対処するために、ブロック３０６において、計算システムは、それぞれのリンクされた子ページと、メインイベント参照ページとの間のテキスト類似性を測定し得る。この類似性は、ある実施形態では、２ページ中に現れるｎグラムのセットについてジャッカード係数を用いて測定され得る。他の実施形態においては、コサイン距離のような他の距離測定が用いられ得る。ブロック３０８において、計算システムは、リンクされたページをそれからフィルタリングし、イベントのメイン参照ページに対する閾値の類似性スコア未満である子ページを廃棄することによって等で、イベントに関連しないページを廃棄し得る。ブロック３１０において、イベントの参照ページセットは、イベントのメインイベント参照ページ及びフィルタリングされた子ページ（例えば、少なくとも最小限のレベルの、イベントの参照ページとのテキスト類似性を有する、イベントの参照ページ内でリンクされたページ）を含むようにそれから確立され得る。

図３Ｂは、与えられたイベントについてのパブリッシャーページセットを決定する例示的方法３２０のフロー図である。例示的方法は、例えば計算システム５０２によって実行され得て、これは以下に説明される。方法３００と似て、例示的方法３２０は、図２について上述したブロック２０４の一部として起こり得る。方法３２０は、ブロック３２２において始まり、ここで計算システムは、イベントと関連付けられた１つ以上のキーワードを取得し得る。上で述べられたように、ある実施形態においては、キーワードは、計算システムが類似の名前又は与えられたイベント以外のものを一般に指す名前を持つイベントの間で区別できるようにするために、イベント名に加えて記憶され得る。上述の一つの例として、「２０１７全米オープン」と名付けられたテニスイベントは、キーワード「テニス」と関連付けられ得る一方で、「２０１７全米オープン」と名付けられたゴルフイベントは、キーワード「ゴルフ」と関連付けられ得る。

次にブロック３２４において、計算システムは、パブリッシャーページを特定するユニフォームリソースアイデンティファイアを取得する。ある実施形態では、これは、多くの異なるパブリッシャーからのページを含む、数千のページを含み得る。上述のように、ＵＲＩは、与えられた広告サービスを利用するパブリッシャーページのためであり得る。例えば、広告サービスは、ある設定された期間にわたって（最近３ヶ月のような）クライアントデバイスにおいて表示される時に広告サービスから広告をリクエストしたページを特定するＵＲＩのリストを記憶していてもよい。他の実施形態では、ＵＲＩは、ソーシャルネットワーク、ニュースソース、ブログ等のようなさまざまなウェブサイト又は他のソースをクロールしている計算システムによって追加として又は代替として特定され得る。ある実施形態では、パブリッシャーページは、それらが、トレーニングされた分類器が分類するために用いられると期待できるタイプのページ又はコンテンツと同様のソースからのものである、及び／又はそれらページ又はコンテンツと同様のスタイルで書かれているように、一般には選択され得る。

ブロック３２６において、ブロック３２４からのそれぞれのパブリッシャーページＵＲＩについて、計算システムは、そのＵＲＩがそのイベントと関連付けられた名前及び他のキーワード（群）を含むかを決定し得る。上述のように、ある実施形態では、イベント名及びキーワードは、キーワードがＵＲＩ内に存在する時には、与えられたＵＲＩが、特定のイベントを特定する高い信頼度を提供するよう意図され得るのであって、与えられたイベントに関連する全てのページを特定するよう意図され得るのではない。例えば、何百という重み付きｎグラムに基づいて作られる最終的な分類器は、ブロック３２６において考慮される少数のキーワードに基づいてならイベントに関連するとは特定されないであろう、そのイベントに関連付けられる多くのページを典型的には特定し得る。例として、全米オープンテニスのイベントについてのキーワードは、「全米オープン」及び「テニス」であり得る。このイベントのキーワードについてのＵＲＩを検索するときには、システムは、軽微なバリエーションを検索し得て、又はそれぞれのＵＲＩのフォーマッティングに依存してなんらかのテキスト変換を行い得る（アンダースコア、ダッシュ、プラス符号、「%20」又は他のやり方にかかわらず、どのようにスペースが与えられたＵＲＩ内で配されるかのような）。ある実施形態では、キーワードに関連付けられたブール演算子又はルールセットが存在し得て、計算システムは、論理演算子によってリンクされるキーワードの任意のさまざまな組合せを探す（例えば、もし「(keyword1 AND keyword2) OR (keyword 3 AND keyword4)」という基準を満たすならＵＲＩは一致すると判断する）。イベントのキーワードを含むパブリッシャーページは、ブロック３２８において、与えられたイベントについてのパブリッシャーページセットとして計算システムによってそれから確立され得る。他の実施形態においては、計算システムは、キーワードが、ＵＲＩの中だけでなく、ページそのものの中に現れるかを考慮し得る。例えば、そのような他の実施形態においては、計算システムは、もしそのページについてのＵＲＩがイベント名を含み（例えばＵＲＩ「https://www.xyz.xyz/news/australian-open-schedule-released.html」の中に現れる「australian-open」）、かつそのページのテキスト本文が他のイベントキーワード（例えば「テニス」）を含むなら、パブリッシャーページセット中のページを含み得る。

図４は、ここで説明されるイベント分類モデル生成のための特徴リストの改良のさまざまなステップにおいて生成され得る例示的データのフロー図である。示されるように、図４は、初期入力として個別のイベントについての参照ページセット及びパブリッシャーページセットで始まる（ずっと多くのものが実際には含まれるはずだが、例示の簡潔さのために３つのイベントとして示される）。上述のように、計算システムは、Event1について参照ページセット４０２及びEvent1についてパブリッシャーページセット４２２のような、これらページセットを生成していてもよい。イベント・ｎグラム頻度辞書は、それぞれのイベントについて作成され得る。例えば、辞書４０４は、Event1の参照ページセット４０２の１つ以上のページ中に現れるそれぞれのｎグラムを含み得る一方で、辞書４２４は、Event1のパブリッシャーページセット４２２の１つ以上のページ中に現れるそれぞれのｎグラムを含み得る。ある実施形態では、同じイベントについて辞書（例えばEvent1についての辞書４０４及び辞書４２４）は、同一であり得て、イベントの参照ページセット又はパブリッシャーページセットのうちの１つ又は両方に現れるそれぞれのｎグラムを含むように生成され得る。

１つのｎグラム（「Ngram1」）について一部のデータしか示されていないが、データ構造４０６は、イベントの参照ページセットの任意のものにおいて現れるそれぞれのｎグラムについて、ｎグラムがそれぞれのイベントの参照ページセット中に現れる頻度のリストを表現する。同様に、データ構造４２６は、イベントのパブリッシャーページセットの任意のものにおいて現れるそれぞれのｎグラムについて、ｎグラムがそれぞれのイベントのパブリッシャーページセット中に現れる頻度のリストを表現する。図４において左から右に進んで、ブロック４０６及び４２６の右に示される例示的データは、１つのイベントを参照して示されるが（例えば、「Event1」であり、これは上の例に基づけば、２０１７年オーストラリアオープンを表現し得る）、他のイベントについて繰り返されてもよい（図４では不図示）。

ブロック４０８において、特定のイベントについてのＴＦ・ＩＥＦベクトル（単語頻度・逆イベント頻度ベクトル）は、ブロック４０６におけるデータに基づいて生成される。それぞれのｎグラムについてのＴＦ・ＩＥＦベクトルのスコアを求めることは、上述されている。ＴＦ・ＩＥＦベクトルのそれぞれの次元は、例えば、辞書４０４からの異なるｎグラムのＴＦ・ＩＥＦスコアに対応し得る。イベントについてのこのＴＦ・ＩＥＦベクトル４０８及びマスタータームスコアベクトル４１０（上述のようにイベント特有ではない値を有する）は、そのイベントについて参照マスターベクトル４１２を生成するのにそれから用いられる。同様に、同じイベントのパブリッシャーページセットについてのＴＦ・ＩＥＦベクトル４２８及びマスタータームスコアベクトル４３０は、パブリッシャーマスターベクトル４３２を生成するのに用いられる。予め定められた数の上位ｎグラム（つまりいくつかの上位ユニグラム、いくつかの上位バイグラム、及びいくつかの上位トリグラム、又は最小限の閾値を満足するｎグラム）が、２つのマスターベクトルからそれから決定され得て、上位参照ｎグラム４４０及び上位パブリッシャーｎグラム４５０を生成する。図４の結果は、与えられたイベントについての上位参照ｎグラム４４０及び上位パブリッシャーｎグラム４５０に基づく与えられたイベントについての特徴リスト４６０であり得る。上述のように、イベント群にわたって珍しくない（common）ｎグラムを除去するために上位ｎグラムをフィルタリングすることのような、図４には図示されないさらなるステップが起こり得る。

図５は、ある実施形態による計算環境５００の一般的な構成を示す。図５に示すように、計算環境５００は、計算システム５０２を含み得る。計算システム５０２の一般的な構成は、本開示の局面を実現するのに用いられるコンピュータハードウェア及びソフトウェア要素の構成を含み得る。計算システム５０２は、図５に示されるものよりもずっと多くの（又は少ない）要素を含み得る。しかし実施可能な開示を提供するためには、これら大まかには従来からある要素の全てが示される必要はない。当業者であれば、計算システム５０２は、以下には限定されないがノートパソコン、パーソナルコンピュータ、１つ以上のサーバ等を含む、いくつかの計算システムのうちの任意のものであり得ることがわかるだろう。

図示されるように、計算システム５０２は、処理ユニット５０６、ネットワークインタフェース５０８、コンピュータ読み取り可能な媒体ドライブ５１０、入力／出力デバイスインタフェース５１２、オプションのディスプレイ５２６、及びオプションの入力デバイス５２８を含み、これらの全ては、通信バス５３６によって互いに通信し得る。処理ユニット５０６は、メモリ５１４へ、及びメモリ５１４から通信し得て、入力／出力デバイスインタフェース５１２を介してオプションのディスプレイ５２６のための出力情報を提供し得る。入力／出力デバイスインタフェース５１２は、キーボード、マウス、デジタルペン、マイクロホン、タッチスクリーン、ジェスチャ認識システム、音声認識システム、又はこの技術分野で知られている他の入力デバイスのようなオプションの入力デバイス５２８からの入力も受け入れ得る。

メモリ５１４は、ここで記載される１つ以上の実施形態を実現するために処理ユニット５０６が実行し得る、コンピュータプログラム命令（ある実施形態ではモジュール又は要素とグループ分けされる）を含み得る。メモリ５１４は、ＲＡＭ、ＲＯＭ及び／又は他の持続的な、補助的な又は非一時的なコンピュータで読み取り可能な媒体を一般には含み得る。メモリ５１４は、計算システム５０２の一般的管理及び動作において処理ユニット５０６によって使用されるコンピュータプログラム命令を提供するオペレーティングシステム５１８を記憶し得る。メモリ５１４は、本開示の局面を実現するためのコンピュータプログラム命令及び他の情報をさらに含み得る。例えば、ある実施形態において、メモリ５１４は、例えば、計算システム５０２又は計算システム５０２と通信するクライアント計算デバイス上にインストールされたブラウザ又はアプリケーションのようなナビゲーションインタフェースを介して、計算システム上での表示のためのユーザインタフェースを生成するユーザインタフェースモジュール５１６（及び／又はそのための命令）を含み得る。

ある実施形態では、メモリ５１４は、イベント分類モジュール５２０及びトレーニングモジュール５２２を含み得て、これらは、ここで記載されたさまざまな実施形態による操作を実行するために処理ユニット５０６によって実行され得る。モジュール５２０及び／又は５２２は、上述のデータを取得し、及び／又はデータを記憶するためにデータ記憶５３０にアクセスし得る。データ記憶は、計算システム５０２の一部であるか、計算システム５０２から離れているか、及び／又はネットワークベースのサービスであり得る。例えば、イベントデータ記憶５３０は、上で述べたイベント名及びキーワード、ＵＲＩリスト、及び／又はさまざまな中間データ及び最終分類モデル情報を、分類モデル生成のさまざまな時点で記憶し得る。

ある実施形態では、ネットワークインタフェース５０８は、１つ以上のネットワーク又は計算システムへの接続を提供し得て、処理ユニット５０６は、情報及び命令を他の計算システム又はサービスから１つ以上のネットワークを介して受け取り得る。図５に示される例では、ネットワークインタフェース５０８は、インターネットのようなネットワーク５３６を介して１つ以上の参照ページソース５０３と通信し得る。特に、計算システム５０２は、ネットワーク５３６を介して通信を計算システム５０３に送るためにネットワーク５３６との通信リンク５４２を確立し得る（例えば既知のプロトコルを用いて）。同様に、計算システム５０３は、有線又は無線の通信リンク５４０を介してネットワーク５３６を通して計算システム５０２に通信を送り得る。計算システム５０２は、追加として、パブリッシャーページをホスティングするサードパーティサーバのようないくつかのパブリッシャーページソース、及び／又はクライアントデバイス上で実行するパブリッシャーページ内のコードの結果としてページ情報を計算システム５０２に送るクライアントデバイスとネットワーク５３６を介して通信し得る。参照ページソース５０３は、例えば、参照コンテンツがウェブページ又はＡＰＩを介して入手可能であるサーバであり得る。

ここで記載された任意の特定の実施形態に従っても必ずしも全ての目的又は優位性が達成されないことが理解されよう。よって、例えば当業者であれば、ある実施形態は、ここで教示される１つの優位性又は１つのグループの優位性群を達成又は最適化するが、ここで教示又は示唆された他の目的又は優位性を必ずしも達成しないように動作するよう構成され得ることを理解するだろう。

ここで記載された方法の全ては、１つ以上の汎用コンピュータ又はプロセッサを含み得る計算システムによって実行されるソフトウェアコードモジュールにおいて実現され得て、ソフトウェアコードモジュールを介して完全に自動化され得る。コードモジュールは、任意のタイプの非一時的なコンピュータ読み取り可能な媒体又は他のコンピュータ記憶デバイスにおいて記憶され得る。代替としてこれら方法の一部又は全部は、専用のコンピュータハードウェアにおいて実現され得る。加えて、ここで参照される要素は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組合せにおいて実現され得る。

ここで記載されたものとは違う多くの他の変化形がこの開示から明らかであろう。例えば、実施形態に依存して、ここで記載された任意のアルゴリズムのある種の行為、イベント、又は機能は、異なる順序で実行され得て、追加され、統合され、又はそもそも省略され得る（例えば、それらアルゴリズムの実施のためには、記載された行為又はイベントの全てが必要というわけではない）。さらにある実施形態では、行為又はイベントは、順次にではなく、例えば、マルチスレッド処理、割込処理、又はマルチプロセッサ又はプロセッサコア又は他のパラレルアーキテクチャを通して、同時に実行され得る。加えて、異なる行為又はプロセスは、共に機能し得る異なる機械及び／又は計算システムによって実行され得る。

ここで開示された実施形態に関連して記載されたさまざまな例示的論理ブロック、モジュール、及びアルゴリズム要素は、電子的ハードウェア、コンピュータソフトウェア、又はそれら両方の組合せとして実現され得る。ハードウェア及びソフトウェアのこの交換可能性を明らかに示すために、さまざまな例示的要素、ブロック、モジュール、及び要素は、それらの機能によって大まかには上で述べられてきた。そのような機能がハードウェア又はソフトウェアのどちらで実現されるかは、システム全体に課せられた具体的なアプリケーション及び設計の制約条件に依存する。記載された機能は、それぞれの具体的な応用例についてさまざまなやり方で実現され得るが、そのような実現例の判断は本開示の範囲からの逸脱を生じるものとしては解釈されるべきではない。

ここで開示された実施形態に関連して記載されているさまざまな例示的論理ブロック及びモジュールは、ここで記載された機能を実行するよう設計された、処理ユニット又はプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は他のプログラム可能なロジックデバイス、ディスクリートなゲート又はトランジスタロジック、ディスクリートなハードウェア要素、又はそれらの任意の組合せのような、機械によって実現又は実行され得る。プロセッサは、マイクロプロセッサであり得るが、代替として、プロセッサは、コントローラ、マイクロコントローラ、又はステートマシン、これらの組合せ等であり得る。プロセッサは、コンピュータで実行可能な命令を処理するよう構成された電気回路を含み得る。他の実施形態において、プロセッサは、コンピュータで実行可能な命令を処理することなく、論理操作を実行するＦＰＧＡ又は他のプログラム可能なデバイスを含む。プロセッサは、計算デバイスの組合せとしても、例えば、ＤＳＰ及びマイクロプロセッサの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つ以上のマイクロプロセッサ、又は任意の他のそのような構成としても実現され得る。ここでは基本的にはデジタル技術について記載されているが、プロセッサは、基本的にアナログの要素も含み得る。例えば、ここで記載された信号処理アルゴリズムのうちの一部又は全部は、アナログ回路又は混合されたアナログ及びデジタル回路において実現され得る。計算環境は、以下には限定されないが、いくつかの例を挙げれば、マイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタルシグナルプロセッサ、携帯計算デバイス、又はデバイスコントローラを含む、任意のタイプのコンピュータシステムを含み得る。

ここで開示された実施形態に関連して記載された方法、プロセス、又はアルゴリズムの要素は、ハードウェアにおいて、１つ以上のメモリデバイス中に記憶され１つ以上のプロセッサによって実行されるソフトウェアモジュールにおいて、又はこれら２つの組合せにおいて直接に実現され得る。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能なディスク、ＣＤ−ＲＯＭ、又はこの分野で知られる任意の他の形態の非一時的コンピュータ読み取り可能な媒体、メディア、又は物理的コンピュータ記憶において常駐し得る。例示的記憶媒体は、プロセッサが記憶媒体から情報を読めるように、かつ記憶媒体に情報を書けるようにプロセッサに結合され得る。代替として、記憶媒体は、プロセッサと一体化され得る。記憶媒体は、揮発性又は不揮発性であり得る。

とりわけ「できる（can）」、「やろうと思えばできる（could）」、「ひょっとすれば〜かもしれない（might）」又は「でもよい（may）」のような条件的文言は、具体的にそうではないと述べられていない限り、ある実施形態はある特徴、要素及び／又はステップを含むが、他の実施形態はそれらを含まないと伝えるのに一般に用いられる文脈の範囲内でそうでなければ理解される。よって、そのような条件的文言は、特徴、要素及び／又はステップが、１つ以上の実施形態についていかなる場合も必要であることを又は１つ以上の実施形態が、ユーザの入力又はプロンプトを使うにしても使わないにしても、これら特徴、要素及び／又はステップが含まれる又は任意の特定の実施形態において実行されるべきであると判断するためのロジックを必然的に含むことを示唆するようには一般には意図されない。

「Ｘ、Ｙ、又はＺのうちの少なくとも１つ」というフレーズのような選言的な文言は、そうではないと具体的に述べられない限り、アイテム、語等がＸ、Ｙ、又はＺのうちのいずれかであるか、又はそれらの任意の組合せであり得る（例えばＸ、Ｙ、及び／又はＺ）ことを一般には示すように用いられる文脈と共にそうでなければ理解される。よって、そのような選言的な文言は、ある実施形態は、Ｘのうちの少なくとも１つ、Ｙのうちの少なくとも１つ、又はＺのうちの少なくとも１つがそれぞれ存在することを要求するとは一般には意図されておらず、そういうことを要求すると示唆されてはいるのではない。

ここで記載された及び／又は添付の図に示されたフロー図における任意の方法の記載、要素又はブロックは、そのプロセスの中で特定の論理機能又は要素を実現するための１つ以上の実行可能な命令を含むコードのモジュール、セグメント、又は部分を潜在的には表現すると理解されるべきである。当業者によって理解されるように関連する機能に依存して、要素又は機能が削除されたり、実質的に同時に実行されることを含む、示された又は説明された順序とは異なるように実行されたり、逆の順序で実行されたりする代替の実現例は、ここで記載される実施形態の範囲の中に含まれる。

明示的に述べられない限り、「a」又は「an」のような冠詞は、一般に１つ以上の記載されたアイテムを含むように解釈されるべきである。したがって、「〜するよう構成されたデバイス」のようなフレーズは、１つ以上の記載されたデバイスを含むように意図される。そのような１つ以上の記載されたデバイスは、述べられた記載を実行するよう集合的にも構成され得る。例えば、「記載Ａ、Ｂ及びＣを実行するよう構成されたプロセッサ」は、記載Ｂ及びＣを実行するよう構成された第２プロセッサと関連して働く、記載Ａを実行するよう構成された第１プロセッサを含み得る。

本開示の実施形態の例は、以下の項目を鑑みて記載され得る。

項１コンピュータシステムであって、メモリ、及び前記メモリと通信し、プロセッサで実行可能な命令によって操作を実行するよう構成される、物理的プロセッサを備える計算デバイスであって、前記操作は、複数のイベントのそれぞれのイベントについて、前記イベントに関連付けられた参照ページを取得し、前記参照ページは、前記イベントを記述するテキストを含み、前記参照ページは、他のページへの複数の参照をさらに備え、前記参照ページ中で参照された前記他のページにアクセスし、前記イベントに関連付けられた第１セットの語を生成し、前記第１セットにおける語のそれぞれは、１つ以上の単語を含み、前記第１セットは、（ａ）前記参照ページのテキスト内に現れる１つ以上の語、及び（ｂ）前記参照ページ内で参照される他のページのうちの少なくとも１つのページのテキスト内に現れる１つ以上の語を含み、複数のネットワークアクセス可能なページのそれぞれのページが、そのページについてのユニフォームリソースアイデンティファイア内に前記イベントの名称を含むという判断に少なくとも一部は基づいて、前記イベントに関する複数のネットワークアクセス可能なページを決定し、前記イベントに関連付けられた第２セットの語を生成し、前記第２セットの語のそれぞれは、前記イベントに関する複数のネットワークアクセス可能なページのうちの少なくとも１つにおいて共に現れる１つ以上の単語を含み、前記イベントに関連付けられた前記第１セットの語及び第２セットの語におけるそれぞれの語について、前記語及び前記イベントの間の関連性の強さを表現する語についてのスコアを生成し、それぞれの語についての前記スコアは、（ａ）前記語が他のイベントに関連付けられたページ内に現れる第１頻度、及び（ｂ）前記語がコンテンツの集合体全体において用いられる第２頻度に対する、前記語が前記イベントに関連付けられたページ内に現れる回数に少なくとも一部に基づいて生成され、前記イベントに関連付けられた複数の上位のスコアを得た語を選択し、前記複数の上位のスコアを得た語は、前記第１セットの語及び第２セットの語の中から選択され、入力ページが、前記複数のイベントのうちの１つ以上に関するテキストコンテンツを含むかを決定する１つ以上の分類モデルを生成することを含む計算デバイスを備えるコンピュータシステム。

項２特徴として用いられる、イベントと関連付けられた上位のスコアを得た語の少なくともサブセットは、イベントと関連付けられた上位のスコアを得た語をフィルタリングし、少なくとも閾値の個数の異なるイベントの間で共有される語を除去することによって少なくとも一部は基づいて決定される項１に記載のシステム。

項３前記操作は、個別のイベントについて参照ページ中で参照される他のページのそれぞれについて、前記他のページのテキストと、前記個別のイベントと関連付けられた参照ページのテキストとの間の類似性のレベルを決定し、前記個別のイベントについて前記参照ページ内で参照された他のページのサブセットを、前記決定された類似性のレベルに少なくとも一部は基づいて、前記参照ページに無関係であるコンテンツを有するとして特定することをさらに含み、前記参照ページに無関係であると特定された前記他のページのサブセットは、前記個別のイベントに関連付けられた第１セットの語を生成する時に、無視される項１に記載のシステム。

項４前記類似性のレベルを決定することは、前記他のページのテキストと、前記参照ページのテキストとの間のジャッカード係数又はコサイン距離のうちの少なくとも１つを求めることを含む項３に記載のシステム。

項５個別のイベントに関する複数のネットワークアクセス可能なページは、個別のイベントに関する複数のネットワークアクセス可能なページのそれぞれのページが、ページについてのユニフォームリソースアイデンティファイア内において、前記個別のイベントに関連付けられた１つ以上のキーワードを含むという決定に少なくとも一部は基づいて、さらに決定される項１に記載のシステム。

項６前記第１セットの語及び前記第２セットの語のそれぞれはｎグラムである項１に記載のシステム。

項７前記第１セットの語及び前記第２セットの語は、複数のユニグラム、複数のバイグラム、及び複数のトリグラムをそれぞれ含む項１に記載のシステム。

項８コンテンツの集合体全体は、参照ソースからのページを含み、参照ソースからのページの少なくともサブセットは、いかなるイベントにも関連付けられていないページを含む項１に記載のシステム。

項９コンテンツの集合体全体は、所定の期間にわたって１つ以上のソースから入手可能にされた全てのページを含む項１に記載のシステム。

項１０複数のネットワークアクセス可能なページは、１つ以上のニュース記事、ブログポスト、マイクロブログ、又はソーシャルメディアポストを含む項１に記載のシステム。

項１１コンピュータで実現される方法であって、特定の実行可能な命令で設定された１つ以上の計算デバイスによって実現されるとき、イベントの名称を取得し、前記イベントに関連付けられた参照ページにアクセスし、前記参照ページは、前記イベントに関して記述するテキストを含み、前記参照ページは、他のページへの複数の参照をさらに含み、前記参照ページ内で参照された前記他のページにアクセスし、前記イベントに関連付けられた第１セットの語を生成し、前記第１セットにおける語のそれぞれは、１つ以上の単語を含み、前記第１セットは、（ａ）前記参照ページのテキスト内に現れる１つ以上の語、及び（ｂ）前記参照ページ内で参照される他のページのうちの少なくとも１つのページのテキスト内に現れる１つ以上の語を含み、複数のネットワークアクセス可能なページのそれぞれのページが、そのページについてのユニフォームリソースアイデンティファイア内に前記イベントの名称を含むという判断に少なくとも一部は基づいて、前記イベントに関する複数のネットワークアクセス可能なページを決定し、前記イベントに関連付けられた第２セットの語を生成し、前記第２セットの語のそれぞれは、前記イベントに関する複数のネットワークアクセス可能なページのうちの少なくとも１つにおいて共に現れる１つ以上の単語を含み、前記イベントに関連付けられた前記第１セットの語及び第２セットの語におけるそれぞれの語について、前記語及び前記イベントの間の関連性の強さを表現する語についてのスコアを生成し、それぞれの語についての前記スコアは、前記語が他のイベントに関連付けられたページ内に現れる頻度に少なくとも対する、前記語が前記イベントに関連付けられたページ内に現れる回数に少なくとも一部に基づいて生成され、前記イベントに関連付けられた複数の上位のスコアを得た語を選択し、前記複数の上位のスコアを得た語は、前記第１セットの語及び第２セットの語の中から選択され、入力ページが、前記イベントに関するテキストコンテンツを含むかを決定する分類モデルを生成し、前記イベントに関連付けられた上位のスコアを得た語の少なくともサブセットは、分類モデルをトレーニングする時に特徴として用いられることを含む方法。

項１２異なるイベントに関するテキストを含むページを特定するようそれぞれが構成される複数の分類モデルを生成することをさらに含む項１１に記載のコンピュータで実現される方法。

項１３それぞれの語についてのスコアは、前記語がコンテンツの集合体全体において用いられる第２頻度に少なくともさらなる一部は基づいて生成される項１１に記載のコンピュータで実現される方法。

項１４前記語が他のイベントに関連付けられたページ内に現れる頻度は、逆イベント頻度を表す、項１１に記載のコンピュータで実現される方法。

項１５与えられた語についての前記逆イベント頻度は、（ａ）イベントの総数を（ｂ）前記与えられた語が現れる少なくとも１つのページと関連付けられたイベントの総数で割った結果の対数として求められる項１４に記載のコンピュータで実現される方法。

項１６前記分類モデルは、ランダムフォレスト分類器を用いることに少なくとも一部は基づいて生成される項１１に記載のコンピュータで実現される方法。

項１７前記イベントについての分類モデルをトレーニングするためのネガティブな例を選択することをさらに含み、前記ネガティブな例は、前記イベントに関連しない少なくとも１つの他のイベントと関連付けられていると決定されたページを含む項１１に記載のコンピュータで実現される方法。

項１８前記少なくとも１つの他のイベントは、複数のページをクラスタリングし、類似のコンテンツを持つページを特定することに少なくとも一部は基づいて、前記イベントに関連しないと決定される項１７に記載のコンピュータで実現される方法。

項１９前記少なくとも１つの他のイベントは、前記イベントに関連付けられたページのテキストと、前記少なくとも１つの他のイベントに関連付けられたページのテキストとの間の距離測定を適用することに少なくとも一部は基づいて、前記イベントに関連しないと決定される項１７に記載のコンピュータで実現される方法。

項２０サーバによって、クライアントデバイスから広告のリクエストを受け取ることであって、前記リクエストは、前記クライアントデバイスによって実行されている第１ページ内のコードの結果として送られ、生成された分類モデルを用いて、前記第１ページのテキストコンテンツが前記イベントに関連すると決定すること、前記広告及び前記イベントの間の関連性に少なくとも一部は基づいて、前記第１ページと関連する表示のための広告を選択すること、及び前記第１ページ内での表示のために前記広告を前記クライアントデバイスに送ることをさらに含む項１１に記載のコンピュータで実現される方法。

Claims

コンピュータシステムであって、
メモリ、及び
前記メモリと通信し、プロセッサで実行可能な命令によって操作を実行するよう構成される、物理的プロセッサを備える計算デバイスであって、前記操作は、
複数のイベントのそれぞれのイベントについて、
前記イベントに関連付けられた参照ページを取得し、前記参照ページは、前記イベントを記述するテキストを含み、前記参照ページは、他のページへの複数の参照をさらに備え、
前記参照ページ中で参照された前記他のページにアクセスし、
前記イベントに関連付けられた第１セットの語を生成し、前記第１セットにおける語のそれぞれは、１つ以上の単語を含み、前記第１セットは、（ａ）前記参照ページのテキスト内に現れる１つ以上の語、及び（ｂ）前記参照ページ内で参照される他のページのうちの少なくとも１つのページのテキスト内に現れる１つ以上の語を含み、
複数のネットワークアクセス可能なページのそれぞれのページが、そのページについてのユニフォームリソースアイデンティファイア内に前記イベントの名称を含むという判断に少なくとも一部は基づいて、前記イベントに関する複数のネットワークアクセス可能なページを決定し、
前記イベントに関連付けられた第２セットの語を生成し、前記第２セットの語のそれぞれは、前記イベントに関する複数のネットワークアクセス可能なページのうちの少なくとも１つにおいて共に現れる１つ以上の単語を含み、
前記イベントに関連付けられた前記第１セットの語及び第２セットの語におけるそれぞれの語について、前記語及び前記イベントの間の関連性の強さを表現する語についてのスコアを生成し、それぞれの語についての前記スコアは、（ａ）前記語が他のイベントに関連付けられたページ内に現れる第１頻度、及び（ｂ）前記語がコンテンツの集合体全体において用いられる第２頻度に対する、前記語が前記イベントに関連付けられたページ内に現れる回数に少なくとも一部に基づいて生成され、
前記イベントに関連付けられた複数の上位のスコアを得た語を選択し、前記複数の上位のスコアを得た語は、前記第１セットの語及び第２セットの語の中から選択され、
入力ページが、前記複数のイベントのうちの１つ以上に関するテキストコンテンツを含むかを決定する１つ以上の分類モデルを生成する
ことを含む計算デバイス
を備えるコンピュータシステム。
特徴として用いられる、イベントと関連付けられた上位のスコアを得た語の少なくともサブセットは、イベントと関連付けられた上位のスコアを得た語をフィルタリングし、少なくとも閾値の個数の異なるイベントの間で共有される語を除去することによって少なくとも一部は基づいて決定される
請求項１に記載のコンピュータシステム。
前記操作は、
個別のイベントについて参照ページ中で参照される他のページのそれぞれについて、前記他のページのテキストと、前記個別のイベントと関連付けられた参照ページのテキストとの間の類似性のレベルを決定し、
前記個別のイベントについて前記参照ページ内で参照された他のページのサブセットを、前記決定された類似性のレベルに少なくとも一部は基づいて、前記参照ページに無関係であるコンテンツを有するとして特定することをさらに含み、
前記参照ページに無関係であると特定された前記他のページのサブセットは、前記個別のイベントに関連付けられた第１セットの語を生成する時に、無視される
請求項１に記載のコンピュータシステム。
前記類似性のレベルを決定することは、前記他のページのテキストと、前記参照ページのテキストとの間のジャッカード係数又はコサイン距離のうちの少なくとも１つを求めることを含む
請求項３に記載のコンピュータシステム。
個別のイベントに関する複数のネットワークアクセス可能なページは、個別のイベントに関する複数のネットワークアクセス可能なページのそれぞれのページが、ページについてのユニフォームリソースアイデンティファイア内において、前記個別のイベントに関連付けられた１つ以上のキーワードを含むという決定に少なくとも一部は基づいて、さらに決定される
請求項１に記載のコンピュータシステム。
前記第１セットの語及び前記第２セットの語のそれぞれはｎグラムであって、前記第１セットの語及び前記第２セットの語は、複数のユニグラム、複数のバイグラム、及び複数のトリグラムをそれぞれ含む
請求項１に記載のコンピュータシステム。
コンピュータで実現される方法であって、特定の実行可能な命令で設定された１つ以上の計算デバイスによって実現されるとき、
イベントの名称を取得し、
前記イベントに関連付けられた参照ページにアクセスし、前記参照ページは、前記イベントに関して記述するテキストを含み、前記参照ページは、他のページへの複数の参照をさらに含み、
前記参照ページ内で参照された前記他のページにアクセスし、
前記イベントに関連付けられた第１セットの語を生成し、前記第１セットにおける語のそれぞれは、１つ以上の単語を含み、前記第１セットは、（ａ）前記参照ページのテキスト内に現れる１つ以上の語、及び（ｂ）前記参照ページ内で参照される他のページのうちの少なくとも１つのページのテキスト内に現れる１つ以上の語を含み、
複数のネットワークアクセス可能なページのそれぞれのページが、そのページについてのユニフォームリソースアイデンティファイア内に前記イベントの名称を含むという判断に少なくとも一部は基づいて、前記イベントに関する複数のネットワークアクセス可能なページを決定し、
前記イベントに関連付けられた第２セットの語を生成し、前記第２セットの語のそれぞれは、前記イベントに関する複数のネットワークアクセス可能なページのうちの少なくとも１つにおいて共に現れる１つ以上の単語を含み、
前記イベントに関連付けられた前記第１セットの語及び第２セットの語におけるそれぞれの語について、前記語及び前記イベントの間の関連性の強さを表現する語についてのスコアを生成し、それぞれの語についての前記スコアは、前記語が他のイベントに関連付けられたページ内に現れる頻度に少なくとも対する、前記語が前記イベントに関連付けられたページ内に現れる回数に少なくとも一部に基づいて生成され、
前記イベントに関連付けられた複数の上位のスコアを得た語を選択し、前記複数の上位のスコアを得た語は、前記第１セットの語及び第２セットの語の中から選択され、
入力ページが、前記イベントに関するテキストコンテンツを含むかを決定する分類モデルを生成し、前記イベントに関連付けられた上位のスコアを得た語の少なくともサブセットは、分類モデルをトレーニングする時に特徴として用いられる
ことを含む方法。
異なるイベントに関するテキストを含むページを特定するようそれぞれが構成される複数の分類モデルを生成することをさらに含む
請求項７に記載のコンピュータで実現される方法。
それぞれの語についてのスコアは、前記語がコンテンツの集合体全体において用いられる第２頻度に少なくともさらなる一部は基づいて生成される
請求項７に記載のコンピュータで実現される方法。
前記語が他のイベントに関連付けられたページ内に現れる頻度は、逆イベント頻度を表し、与えられた語についての前記逆イベント頻度は、（ａ）イベントの総数を（ｂ）前記与えられた語が現れる少なくとも１つのページと関連付けられたイベントの総数で割った結果の対数として求められる
請求項７に記載のコンピュータで実現される方法。
前記分類モデルは、ランダムフォレスト分類器を用いることに少なくとも一部は基づいて生成される
請求項７に記載のコンピュータで実現される方法。
前記イベントについての分類モデルをトレーニングするためのネガティブな例を選択することをさらに含み、前記ネガティブな例は、前記イベントに関連しない少なくとも１つの他のイベントと関連付けられていると決定されたページを含む
請求項７に記載のコンピュータで実現される方法。
前記少なくとも１つの他のイベントは、複数のページをクラスタリングし、類似のコンテンツを持つページを特定することに少なくとも一部は基づいて、前記イベントに関連しないと決定される
請求項１２に記載のコンピュータで実現される方法。
前記少なくとも１つの他のイベントは、前記イベントに関連付けられたページのテキストと、前記少なくとも１つの他のイベントに関連付けられたページのテキストとの間の距離測定を適用することに少なくとも一部は基づいて、前記イベントに関連しないと決定される
請求項１２に記載のコンピュータで実現される方法。
サーバによって、クライアントデバイスから広告のリクエストを受け取ることであって、前記リクエストは、前記クライアントデバイスによって実行されている第１ページ内のコードの結果として送られ、
生成された分類モデルを用いて、前記第１ページのテキストコンテンツが前記イベントに関連すると決定すること、
前記広告及び前記イベントの間の関連性に少なくとも一部は基づいて、前記第１ページと関連する表示のための広告を選択すること、及び
前記第１ページ内での表示のために前記広告を前記クライアントデバイスに送ること
をさらに含む
請求項７に記載のコンピュータで実現される方法。