JP2020521246A - ネットワークアクセス可能なコンテンツの自動化された分類 - Google Patents
ネットワークアクセス可能なコンテンツの自動化された分類 Download PDFInfo
- Publication number
- JP2020521246A JP2020521246A JP2019564146A JP2019564146A JP2020521246A JP 2020521246 A JP2020521246 A JP 2020521246A JP 2019564146 A JP2019564146 A JP 2019564146A JP 2019564146 A JP2019564146 A JP 2019564146A JP 2020521246 A JP2020521246 A JP 2020521246A
- Authority
- JP
- Japan
- Prior art keywords
- event
- page
- words
- pages
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0252—Targeted advertisements based on events or environment, e.g. weather or festivals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Environmental & Geological Engineering (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
ページ又は他のソースコンテンツを、1つ以上の実世界イベントに関するテキストを含むとして自動的に分類するための分類モデルを生成及び使用するためのシステム及び方法が提供される。分類モデルを生成することは、参照ソース及びネットワークを介するパブリッシャーソースのようなより動的なソースの両方からの多数の異なるページのテキストコンテンツを分析することを含み得る。分類器をトレーニングする特徴は、与えられたイベントと関連付けられるよう決定されたページの中で特定された上位のnグラムに一部は基づいて決定され得る。
Description
大量の新しいコンテンツがインターネットにわたって毎日、公開されている。このコンテンツは、例えば、新しい記事、ブログのエントリ、及びソーシャルメディアのポストを中でも含む。コンテンツオーナー又は他の許可された当事者は、バナー広告又は他の広告を記事又は他の主要なコンテンツも含むウェブページ上で提示すること等によって、公開されたコンテンツに関連する広告を提示するように、しばしば自分たちのウェブサイト又はアプリケーションを設定する。これら広告は、そのコンテンツが、与えられたユーザに対する表示のために提示される時点において動的に選択され得る。広告サービス(広告主をパブリッシャー又は他のウェブサイト運営者と結ぶ広告ネットワークを含み得る)は、広告が現れるページに関連する広告を与えられた瞬間に選択するために、コンテンツ連動型広告又はコンテキストターゲティング手法のような、自動化されたプロセスを採用し得る。例えば、コンテンツ連動型広告システムは、広告システムの運営者によって以前に確立された任意のキーワードの存在を求めてウェブサイトのテキストをスキャンし、それから特定されたキーワードに基づいて広告を返し得る。例示的な場合において、もしユーザが、コンテンツ連動型広告システムがバスケットボールと以前に関連付けた語を含むウェブサイトを見ると、ユーザは、バスケットボールに関連する会社の広告を見るかもしれない。
前述の局面及び多くの付随する利点は、添付の図面と併せて、以下の詳細な説明を参照してよりよく理解されるだろう。
図1は、異なる実世界のイベントに関連するページを分類するための分類モデルを構築及び使用する例示的方法の高位の概観を提供するフロー図である。
図2は、イベント分類モデルをトレーニングするためにページデータを収集し、特徴を選択する例示的方法のフロー図である。
図3Aは、与えられたイベントについての参照ページセットを決定するための例示的方法のフロー図である。
図3Bは、与えられたイベントについてのパブリッシャーページを決定するための例示的方法のフロー図である。
図4は、イベント分類モデルの生成のための特徴リストを改良する(developing)さまざまなステップにおいて生成され得る例示的データの例示的データのフロー図である。
図5は、本開示のさまざまな実施形態における用いられるのに適した計算環境のシステムブロック図である。
一般に言えば、本開示の局面は、ページ又は他の入力テキストを、実世界のスポーツイベント、コンサート、アワードショー、休日、政治的イベント等のような1つ以上のイベントに関連するとして自動的に分類する分類モデルを生成することに関する。特定のイベントに関するとしてウェブページ又は他のページを分類すること(ページ内のニュース記事が特定のスポーツイベントについての記事であると特定することのような)は、ページの表示に関連して、特定のイベントに関する広告を動的に提示すること等は、広告の分野で非常に有用である。例えば、オーストラリアオープンテニスイベントについての記事を読んでいるユーザにテニスラケットについての広告が提示されるときは、同じテニスラケットの広告が政治の選挙についての記事を読んでいるユーザに提示されたときよりも、よりよいユーザエクスペリエンスが期待され得る。
ページのテキストが特定のイベントについて記述しているかを自動的に特定するシステムを構成する1つのアプローチは、そのページテキストにおいて、そのイベントに関連付けられていることが知られているキーワードのリストを検索することである。例えば、既存のコンテンツ連動型広告システムであっても、もしシステム管理者又は他の個人が、異なるイベントのために手動でキーワードのリストを作成しそれらキーワードをシステムに提供していたなら、イベントを特定するために変更され得たかもしれない。しかしそのようなアプローチは、人間による相当の量の手作業に依存しているため、そのようなシステムを維持しアップデートすることは、めんどうで時間がかかる。さらに、与えられたイベントについて手動で選択されたキーワードがどの程度、適しているかを判断するには、かなりのさらなる時間及びテストが必要となり得て、システムが、ほどほどの個数であっても異なるイベントに関連付けられたページを認識するように意図される場合、実現不可能なくらい長い時間を必要とし得る。本開示の局面は、そのコンテンツが特定のイベントを記述しているページを自動化されたやり方で特定するために、分類器(classifiers)をトレーニングするシステム及び方法を提供する。以下に記載されるように、本開示の局面は、レファレンスページ及びパブリッシャーページの両方からイベントに関連するnグラムのマップ又はランク付けされたリストを収集及び構築することを含み、ここでnグラム情報は、それぞれのイベントについての一般的及びトレンド情報(trending information)を反映する。nグラムデータは、バイナリ分類器(ランダムフォレスト分類器のような)又は他の分類器をそれぞれのイベントについてトレーニングし、構築するのにそれから用いられ得る。これらの分類器又は分類モデルは、与えられたページ又は他の入力コンテンツが、そのモデルが特定するようトレーニングされている任意のイベントについて記述しているように見えるかを判断するためにリアルタイムでそれから用いられ得る。
ここで用いられるように、「n−グラム」又は「nグラム」は、ストリングつまり固定された順番の1つ以上の語のセットを一般に指す。この技術において知られるように、1語のnグラム(すなわちn=1)は、ユニグラムと呼ばれ得て、2語のnグラム(すなわちn=2)は、バイグラムと呼ばれ得て、3語のnグラム(すなわちn=3)は、トリグラムと呼ばれ得る。与えられた文は、いくつかのユニグラム、トリグラム、及び他のnグラム(nが3よりも大きいもののような)をその中に含み得る。ソーステキストにおいて特定されたこれらnグラムのいくつかは、ソーステキストにおいて互いに重複し得て、その結果、それらは、1つ以上の語を互いに共有する。例えば、「This is a sample」という文においては、それぞれの語は、ユニグラムであり得て、一緒に現れるそれぞれの2語のセットは、バイグラムであり得て(例えば「This is」、「is a」、及び「a sample」)、一緒に現れるそれぞれの3語のセットは、バイグラムであり得る(例えば「This is a」、及び「is a sample」)。
与えられたインプリメンテーション又は環境において関心のあるイベントに依存して、1つ以上のイベントに関連するとしてページを分類することの技術的問題(本開示の局面によって解決される問題のうちの一つ)は、一般的なトピックに関連するとしてページを分類することの、より一般的な問題とは異なり得る。例えば、特定のスポーツイベント(2017年オーストラリアオープンのような)は、イベントが近づくにつれ、又はイベントが進行するにつれ、頻繁に変化していくトレンド情報と関連付けられ、それと同時に、同様のイベント(2016年オーストラリアオープン、以前のオーストラリアオープン、及び/又はテニストーナメント全般のような)の異なる過去の事例にわたって共通である、より一般的な情報とも関連付けられ得る。同様に、特定の音楽アーチストのコンサートは、それぞれ共通の局面(バンドそのものに関連する局面、レコードレーベル、前座等)を有し得ると同時に、与えられたツアーの中でも日によって変わる情報(その特定のコンサートについての都市及び会場のような)も有し得る。さらに、一般的なトピック(テニスのような)とは異なり、あるイベントに関連する情報は、そのイベントの時刻が比較的直前まで近づいてから初めて入手可能になり、しばしば変更され得る。例えば、与えられたアワードショーイベントにおける特定の受賞候補者又は与えられたスポーツイベントに参加する参加者(又はまだイベントから除外されていない者)のような情報は、その与えられたイベントの直前又はその間にしか知られ得ない。したがって人間がそのようなイベントについての正確なキーワードリストを維持しようと試みるなら、繰り返されるリサーチが実行されなければならないことになる。したがって、それぞれのイベントにキーワードを割り当てるための人間の入力に依存するシステムは、非実用的及び/又は不正確である可能性が高く、特にさまざまな主題の領域にわたる大量の異なるイベントのそれぞれについてのキーワード情報を維持しようとする試みについては、特にそうである。
本開示のある実施形態によって用いることが提案されるデータトレーニングの本質から、ここで用いられる「イベント」という語は、以前から及び/又はそれが起こった後に公に知られている機会又はできごとを指すように大まかには意図されている。あるイベントについての情報は、起こりつつあるそのイベントよりも前に知られ得る(まもなく行われるようスケジュールされているスポーツイベントに関する情報のように)が、他のイベントについての情報は、イベント中又はその後でないと知られ得ない(特定の地震についての情報のように)。しかし、本開示の局面は、ここで記載された分類モデルをトレーニングするのに十分な情報が提供され得るなら(トレーニングプロセスにおいてプライベートイベントを記述するプライベートの参照ページを用いることによるように)、公に入手可能な情報が存在しないプライベートイベントを特定するために、代替として用いられ得ることが理解されよう。例えば、ある実施形態では、プライベートイベントは、特定のグループ又は組織の外では一般には知られないイベント(プライベートパーティー又は会社のミーティング)であり得て、トレーニングで用いられるページは、公には入手可能でない会社のイントラネット、電子メール、及び/又は他の情報からのページを含み得る。そのようなある種の実施形態では、本開示の局面は、与えられた電子メール又は他のファイルのための配布リストを提案するため、あるイベントに関連するとして文書に自動でタグ付けする等のように、広告以外の目的で用いられ得る。
イベントの非限定的な例は、実施形態に依存して、スポーツイベント、コンサート、休日、政治的イベント、自然界のイベント(特定の自然災害、食等のような)、法的イベント(ニュースになるような刑事裁判のような)、会議、講演イベント、及び/又は多くの他のものを含む。「実世界イベント」とここでは呼ばれるが、本開示の局面にしたがって特定されるイベントは、任意の具体的な地理的場所において起こる必要はない(例えば大晦日のような休日イベントは場所に特定のものではない)。さらに本開示の局面は、人々が物理的に参加するイベントだけを指すのとは反対に、通信又はメディアネットワークを通じて起こるイベントを特定するために用いられ得る。例えば、イベントは、テレビショーのシーズンプレミアの放送、又は参加者が物理的に互いに離れているビデオゲームトーナメントを含み得る。特定のイベントの性質に依存して、イベントそのものは、2,3分しか続かないものでもよく、何日又は何週間も続いてもよい。
図1は、ページを異なる実世界イベントに関連するとして分類するための分類モデルを構築及び利用する例示的方法100のハイレベルの概観を提供するフロー図である。例示的方法100は、計算システム502によって実行され得て、これは図5を参照して後述される。例示的方法100は、ページ収集及び分析ブロック104から始まり、ここで計算システムは、イベントキーワード及び関連データ102に関する分析のためにページ(参照ページ106及びパブリッシャーページ108)を収集する。イベントキーワード及び関連データ102は、例えば、イベント名及びそれぞれのイベントと関連付けられたキーワードのオプションセット(optional set)を含み得る。ある実施形態では、キーワードは、イベントの名前及びそのイベントに関連付けられたキーワードの組み合わせがそのコンテンツの中に存在するときに、コンテンツが特定のイベントと関連するとみなすことによって等のやり方で、あるイベントを、同様の名前をもつ他のイベントから区別するのに有用であり得る。一つの例として、「2017全米オープン」と名付けられたテニスイベントは、キーワード「テニス」と関連付けられ得て、「2017全米オープン」と名付けられたゴルフイベントは、キーワード「ゴルフ」と関連付けられ得る。イベントキーワード及び関連データ中のイベントに関連付けられたキーワードは、そのイベントに関連付けられたキーワードの完全なセットであるようには意図されなくてもよい。
ある実施形態では、参照ページ106は、百科事典又は同様の参考書のソースからのページであり得る。例えば、参照ページ106のそれぞれは、特定の語、概念、人、場所、又は他のトピックに関する情報を含むネットワークでアクセス可能なページであり得る。ある実施形態では、参照ページ106は、プロの手によって執筆又は編集されたものであってもよく、他の実施形態では、これらページは、多くの異なる個人によって集合的努力の一部として作成及び変更されたものでもよい(「wiki」として呼ばれることもあるもののような)。ある実施形態では、それぞれの参照ページは、ページタイトル、メタデータ、ヘッダ、及び/又は統一資源識別子(「URI」)のような中にページのトピックの明白な記載を含み得る。参照ページ106のソースに依存して、参照ページは、自動化されたサーチをサーバに又はアプリケーションプログラミングインタフェース(「API」)を介して提出することによってサーチを取り出され得る。例えば、ある実施形態では、ここで開示された計算システムは、計算システム502がイベント名(例えば「2017オーストラリアオープン」)をAPIを介したリクエストにおいて提供することによって特定しようとしている特定のイベントと関連付けられたページについての参照ソースプロバイダによって提供されるAPIを介してリクエストを送り得る。計算システム502は、与えられた実施形態において用いられる個々の参照ソースに依存する他のやり方で、特定のイベントと関連付けられた参照ページを取得するよう構成され得る。例えば、与えられた参照ソースは、計算システム502が、イベント又はトピックの名前をURIテンプレートの適切な位置に置くことによって、与えられたイベント又はトピックに関連付けられたページをリクエストするよう構成される、あるURI構造を使用し得る(例えばサンプル参照ソースは、「https://www.wiki.xyz/topic」のフォーマットに続くURIから入手可能である任意の与えられたトピックについてのその参照ページを有し得て、ここで「トピック」部分は、どのようなトピックが関心の対象であろうともそのトピックの名前によって置換されるプレースホルダであり得る。)。
パブリッシャーページ108は、参照ページ106よりも、より構造化されていないか、又はよりトピックに焦点が集中していないソースであり得る。ある実施形態では、参照ページ106は、任意の与えられた参照ページが特定のトピックについてのコンテンツを含み得ることが比較的明確であるようにフォーマットされ得るのに対して、パブリッシャーページ108は、さまざまなやり方でフォーマットされたさまざまなソースからのページを含み得る。例えば、パブリッシャーページは、潜在的には広い範囲のウェブサイト又は他のソースからの、ニュース記事、ブログポスト、マイクロブログ、ソーシャルメディアポスト、プレスリリース、及び/又は他のページを含み得る。したがって、ある実施形態では、参照ページ106のそれぞれは、ページから比較的容易に特定されるイベント(又は他のトピック)についての比較的に静的及び一般的情報を提供すると一般的には考えられ得る一方で、パブリッシャーページ108のそれぞれは、イベントに関する、よりトレンド性の高い(trending)情報を提供し、又は参照ページ108のそれとは異なるスタイル又はフォーマットで執筆される可能性を有し得る。例えば、参照ページ106は、比較的、フォーマルなやり方で執筆され得て、一般的な事実に関する情報を提供し得る一方で、パブリッシャーページは、編集情報(ブログポスト又はニュース記事におけるような)、スラング又は他のインフォーマルな文言(ソーシャルメディアポスト又はブログポストにおけるような)、及び/又はイベントのある局面に関する非常に新しい情報(追加のバンドがコンサートに加わったという短いアナウンスのような)を含み得る。ある実施形態では、分析されたパブリッシャーページは、過去30日間のような、ある所定の時刻の閾値内で執筆又は編集されたパブリッシャーページに限定され得て、ここで時刻の閾値は、分析されているイベントの性質(イベントに関連付けられた情報が頻繁に変わる傾向にあるかのような)に依存し得る。
「ページ」は、ここで分析される例示的コンテンツタイプとしてしばしば用いられるが、基本となるコンテンツは、マルチページドキュメント、ユーザインタフェース、ネットワークを通じてURIを介して入手可能であるテキスト部分を有する任意のコンテンツ等のような、ページとは考えられないかもしれない他のテキストベースのコンテンツであり得ることが理解されよう。同様に、特定のURIをリクエストする以外の方法を通じてAPIを介して取得され得るテキストコンテンツは、ページの形で戻されようとなかろうと、ある実施形態では用いられ得る。
パブリッシャーページ108は、ある実施形態では「パブリッシャー」ページであると考えられ得るが、これはこれらのページが、広告ネットワーク又は広告サービスを用いるさまざまなパブリッシャーによってホストされ、提供され、執筆され、又はそうでなければそれと関連付けられ得るからであり、ここで広告サービスは、与えられたパブリッシャーページのためのイベントに関連する広告を選択するために、ここで記載されるイベント識別システム及び方法を採用する。例えば、この技術で知られるように、広告サービスは、いくつかのパブリッシャー(ニュースウェブサイト、ソーシャルメディアサービスプロバイダ、ブログの作者等)が、ページがクライアントデバイスにロードされるたびに、広告リクエストが広告サービスに送られるようにするコードを彼らのページ中に含めることを可能にし得て、ここでこのリクエストは、与えられた場合においてページ上に表示する広告を動的に選択するために広告サービスが使用し得るページに関するさまざまな情報を含み得る。
もし広告サービスが、与えられたイベントに関連付けられた広告が与えられたパブリッシャーページ上に示されるべきかどうかを判断するために、本開示のイベント識別の局面を採用するなら、トレーニングデータソースの一つとしてパブリッシャーページを用いてここで記載されたイベント識別モデルをトレーニングすることが優位性を有し得る。これは、参照ページだけを用いることに対して、イベント識別正確性の改善を提供し得るが、これは、例えば、参照ページは、異なるスタイルで書かれ得て、又は分類モデルがポストトレーニングを分析するのに用いられるパブリッシャーページよりもより少ないトレンド性の情報を含み得るからである。「パブリッシャーページ」という語は、参照ページ以外の収集されたページを表すためにここでは用いられるが、他の実施形態では、特にトレーニングされる分類モデルが、広告目的でパブリッシャーページを分析するコンテキストの外で用いるよう構成される場合には、トレーニングのために用いられるページは、他のタイプのページ又はコンテンツを含み得ることが理解されよう。
ページ収集及び分析ブロック104に戻り、計算システム502は、イベントキーワード及び関連データ102において特定されたいくつかの個別のイベントのそれぞれについて、パブリッシャーページのセット及び参照ページのセットを特定するために、収集されたページを分析し得る。これら判断は、図3A及び図3Bを参照して以下により詳細に説明される。ある実施形態による一例として、あるイベントについての参照ページのセットは、与えられたイベントに関する百科事典のようなソースにおけるページと共に、そのページの中で参照された1つ以上の他の参照ページ(そのイベントに関連付けられた他のトピックについての百科事典のようなエントリのような)を含み得る。同じ例示的実施形態において、同じイベントについてのパブリッシャーページのセットは、そのページのURI内のイベント名をそれぞれ含むパブリッシャーページを例えば含み得る。URIが用いられ得るが、これは、例えば、そのページが与えられたイベントについてのものであるという高い信頼度レベルをシステムが有するパブリッシャーページを選択するために優位性を有し得るからである(これは、もしあるページについてのURIが、URI内にイベント名そのものを含むなら、一般的に確率が高い)。システムは、追加として、パブリッシャーページのコンテンツ及び/又はイベントキーワード及び関連データ102内のイベントに関連付けられた1つ以上のキーワードについてのURIを検討し得る。
図2を参照して以下にさらに詳細に説明がなされるが、ブロック104における参照ページ106及びパブリッシャーページ108の計算システムの分析結果は、図1のブロック110によって表される、さまざまなイベントについての重み付きnグラムベクトル(weighted n-gram vectors)のセットであり得る。例えば、計算システムは、収集されたページに現れるさまざまなnグラムを含む1つ以上の辞書を作り得て、さまざまなnグラムについての重みを含むそれぞれのイベントについてのベクトルを作り得る。重みは、以下に説明されるように、イベント及びnグラムのペアリングについて求められるマスタータームスコア(master terms scores)に基づき得て、参照ページについて、及びパブリッシャーページについて別個に決定され得る。例えば、参照マスターベクトル及びパブリッシャーマスターベクトルは、それぞれのイベントについてそれぞれ生成され得る。ある実施形態では、以下にさらに詳細に記載される方法にしたがって、重み付きnグラムベクトルは、収集されたページのコンテンツの、計算システムの分析に基づいて、イベントのそれぞれと最も強く相関されるnグラムを決定するのに十分な情報を一般に提供し得る。
重み付きnグラムベクトルは、ブロック112において分類モデルを生成するためにそれから用いられ得る。以下にさらに詳細に説明されるように、それぞれのイベントについてのトップのパブリッシャーnグラム及び参照nグラム(ある実施形態におけるトップの500ユニグラム、トップの500バイグラム、及びトップの500トリグラムのような)は、与えられたイベントについての分類器をトレーニングする時に、特徴として選択され得る。ある実施形態では、分類モデルを構築するために、ランダムフォレスト分類器又は分類方法が計算システムによって用いられ得る。他の分類方法は、サポートベクトルマシン又は統計的回帰モデルのような他の実施形態で用いられ得る。
いったん分類モデルが生成されたあとに、さまざまなURI又はURLから入手可能なページは、もしそういうイベントが存在するのなら、どのイベントがそれぞれのページに関連するかを特定するために分類モデルを用いて分析され得る。例えば、URL114から入手可能なページは、サーバから取得され得て、nグラムは、ページのテキストから抽出され得る(ページに現れるさまざまなユニグラム、バイグラム、及びトリグラムのような)。これらnグラムのサブセットは、上述のものと同様の手法を用いたイベント分類モデルに特徴としてそれから提供され得る。分類モデルは、例えば、URL114及び/又は116から入手可能な特定のページが、イベント120のうちの特定の1つのイベントに関すると思われるテキストのコンテンツを含むかを、そのイベントに対応する分類器の出力に基づいて、それから判断し得る。ある場合においては、ページは、1つ以上のイベントに関するテキストコンテンツを含み得て、この場合、分類モデルは、非ゼロの確率又は信頼度レベル(0及び1の間の値のような)を、複数のイベントのそれぞれについて同じページに割り当て得る。与えられたページについてのイベント判断は、与えられたページに関連する表示のために、与えられたイベントに関連する広告を選択するためのような
さまざまな目的のためにそれから用いられ得る(図1には不図示)。
さまざまな目的のためにそれから用いられ得る(図1には不図示)。
図2は、ページデータを収集し、イベント分類モデルのトレーニングのための特徴を選択する例示的方法200のフロー図である。例示的方法200は、計算システム502のような計算システムによって例えば実行され得て、これは、図5を参照して後述される。例示的方法200は、ブロック202において始まり、ここでシステムは、図1を参照して上述したように参照ソースからのページ及び複数のパブリッシャーからのページを収集する。上述のように、参照ページは、それぞれが異なる特定の語、概念、人、場所、又は他のトピックに関するページで一般にはあり得て、ここでそれぞれのページのトピックは、自動化されたやり方で(そのページのタイトル、メタデータ、ヘッダ、及び/又はURIからのような)確かめるのに比較的明瞭である。上でさらに述べられたように、パブリッシャーページは、参照ページよりも構造化の度合いが少なく、又はトピックへの焦点の合わせ方がゆるい。
ブロック204においては、計算システムは、いくつかの異なるイベントのそれぞれに関連付けられたパブリッシャーページセット及び参照ページセットを特定し得る。それぞれのイベントについての参照ページセット及びパブリッシャーページセットを決定するためにブロック204において実行され得る例示的方法は、図3A及び図3Bについて以下に説明される。上述のように、ページセットが決定されるイベントは、イベント名及びオプションの関連するキーワードをデータ記憶から取得することによって等の方法で、以前に確立され得る。例えば、ある実施形態では、計算システムのオペレータは、広告主の潜在的な関心の対象となる来たるべきイベントのリストを保持し得る。他の実施形態では、計算システムは、与えられた参照ソースから入手可能である新しいイベントの参照ページを特定することによって等の方法で、参照ソース又は他のソースからのコンテンツを分析することによって新しいイベントを知るよう構成され得る。例えば、参照ソースは、トレンド性のある又は人気のあるイベントに関するページにタグ付けし得て、これらのタグは、そのようなイベントのイベント名を特定するために、計算システムによって検索され得る。さらに後述されるように、ある実施形態によれば、イベントについての参照ページセットは、与えられたイベントに関する百科事典のようなソースにおけるページと共に、そのページ内で参照されている1つ以上の他のページを含み得る。同じ例示的実施形態において、同じイベントについてのパブリッシャーページセットは、そのページについてのURI内にそれぞれイベント名を含むパブリッシャーページを含み得る。
次にブロック206において、計算システムは、それぞれのイベントのパブリッシャーページセット及び参照ページセットのコンテンツを分析することによって、それぞれのイベントについてのnグラムのリストを生成し得る。例えば、計算システムは、それぞれのページに現れるさまざまなユニグラム、バイグラム、及びトリグラムを抽出し得る。nグラム抽出プロセスの間、システムは、発見されたnグラムの辞書を作り得て、特定のnグラムがそのページセットに現れる回数を示すそれぞれのページセットについてのそれぞれのnグラムのカウントを保持し得る。例えば、計算システムは、バイグラム「knockout stage」がイベント「2018 World Cup」についての参照ページセットにおいて10回現れること、及びイベント「Thanksgiving」についての参照ページセットにおいてゼロ回現れることを決定し得る。
ブロック208において、計算システムは、与えられたnグラムが与えられたイベントとどのくらい強く相関するかを大まかに示し得る、それぞれのnグラム及びイベントの組み合わせについてのスコアを計算し得る。ある実施形態では、あるスコアが、与えられたイベントの参照ページセットに対してそれぞれのnグラムについて決定され得て、他のスコアは、同じイベントのパブリッシャーページセットに対して同じnグラムについて決定され得る。他の実施形態では、nグラム頻度データは、イベントの2つのページセットの間で組み合わせられ得て、その結果、イベント及びnグラムのそれぞれの組み合わせについては1つのスコアだけが求められる。与えられたイベントのページセットについてのそれぞれのnグラムについてのスコアは、ある実施形態では、その語が(1)他のイベントに関連付けられたページ、及び(2)全体として1つ以上のソースから収集されたページの世界においてある語が現れる頻度に対する、与えられたページセット(どちらのスコアが算出されつつあるかに依存して、パブリッシャーページセット及び/又は参照ページセット)の中でその語が現れる回数に基づいて決定され得る。ある実施形態では、システムは、適用し得る。ある実施形態では、システムは、既知の「単語の出現頻度・逆文書頻度」(「TF・IDF」)スコアリング方法の改変されたバージョンを適用し得るが、それは、後述するイベント特定において使用されるよう適応化される。
TF・IDF方法は、ページ毎又は文書毎に既存のシステムで典型的には計算される(例えばスコアは特定の文書に対して計算される)が、計算システムは、その代わりに、イベントのページセット内の複数のページを考慮に入れて、イベント毎でnグラム毎のスコアを計算することを含む、ユニークな単語頻度・逆イベント頻度(「TF・IEF」)方法を適用し得る。ある実施形態では、与えられたイベントのページセットに対する与えられたnグラムについてのスコアは、以下の方程式を用いて計算され得る。
Final Score = Term Frequency * Inverted Event Frequency * Master Term Score
単語頻度は、与えられたnグラムが与えられたイベントのページセット中に現れる回数であり得る。逆イベント頻度(「IEF」)は、log(N/ef)として計算され得て、ここでNは、イベントの総数であり、efは、与えられたnグラムがそのイベントのページセット中に存在するイベントの個数である。IEFサブスコア(IEF sub-score)は、あるnグラムがイベントの世界の中でどのくらい珍しいかを一般に示し得て、nグラムが起こるイベントの個数が少ないほど、IEFサブスコアは高くなる。マスタータームスコアは、ある実施形態ではオプションであり得るが、既知のTF・IDF方法を用いて、与えられた参照ソースからの特定の言語で入手可能な全ての参照ページ(例えば計算システムによって考慮される任意のイベントに直接には関連しないページを含む)のような、与えられたソースからのページ全体にわたってのnグラムについてのTF・IDFスコアとして計算され得る。他の実施形態では、マスタータームスコアは、他のやり方で生成され得る。例えば、マスタータームスコアは、与えられた語が与えられた言語で用いられる逆頻度(inverse frequency)を一般的に示す、データ記憶から取得される数であり得る。さらなる例として、マスタータームスコアは、与えられたnグラム又は語が、与えられた期間にわたって(過去6ヶ月のような)ニュース記事中に現れる、本に現れる、1つ以上のドメインに関連付けられたウェブページに現れる、又はなんらかの他のコンテンツライブラリ中に現れる逆頻度を表し得る。
単語頻度は、与えられたnグラムが与えられたイベントのページセット中に現れる回数であり得る。逆イベント頻度(「IEF」)は、log(N/ef)として計算され得て、ここでNは、イベントの総数であり、efは、与えられたnグラムがそのイベントのページセット中に存在するイベントの個数である。IEFサブスコア(IEF sub-score)は、あるnグラムがイベントの世界の中でどのくらい珍しいかを一般に示し得て、nグラムが起こるイベントの個数が少ないほど、IEFサブスコアは高くなる。マスタータームスコアは、ある実施形態ではオプションであり得るが、既知のTF・IDF方法を用いて、与えられた参照ソースからの特定の言語で入手可能な全ての参照ページ(例えば計算システムによって考慮される任意のイベントに直接には関連しないページを含む)のような、与えられたソースからのページ全体にわたってのnグラムについてのTF・IDFスコアとして計算され得る。他の実施形態では、マスタータームスコアは、他のやり方で生成され得る。例えば、マスタータームスコアは、与えられた語が与えられた言語で用いられる逆頻度(inverse frequency)を一般的に示す、データ記憶から取得される数であり得る。さらなる例として、マスタータームスコアは、与えられたnグラム又は語が、与えられた期間にわたって(過去6ヶ月のような)ニュース記事中に現れる、本に現れる、1つ以上のドメインに関連付けられたウェブページに現れる、又はなんらかの他のコンテンツライブラリ中に現れる逆頻度を表し得る。
さまざまなnグラム及びイベントセットのペアリングについて、いったん最終的なスコアが決定されると、例示的方法200は、ブロック210に進み、ここで計算システムは、それぞれのイベントのパブリッシャーページセットについて、及びそれぞれのイベントの参照ページセットについて(又は実施形態に依存して、与えられたイベントの組み合わせられたイベント及びパブリッシャーページセットについて)、上位のスコアを得たnグラムを選択する。例えば、ある実施形態では、計算システムは、それぞれのイベントについてそれぞれのソース(パブリッシャーページセット及び参照ページセット)から上位500のユニグラム、上位500のバイグラム、上位500のトリグラムを選択し得る。他の実施形態において、異なるセットの個数の上位のnグラムが選択され得て、又は閾値よりも上のスコアを持つnグラムが選択され得る。ブロック212において、計算システムは、イベント群にわたってよく起こる(common)nグラムを除去するために、上位のスコアを得たnグラムをそれからオプションとしてフィルタリングし得る。例えば、結果として生じる分類モデルにおける混乱を避けるために、複数のイベントについて上位のスコアを得るnグラムにおいて現れるnグラム(又はイベントの閾値の数よりも上である)は、上位のnグラムのリストから除去され得る。
ブロック214において、計算システムは、それぞれのイベントページセットについてのフィルタリングされた上位のスコアを得たnグラムを、分類モデル(群)をトレーニングするための特徴としてそれから使用し得る。例えば、ある実施形態では、与えられたイベントについての上位の参照セットnグラム及び与えられたイベントについての上位のパブリッシャーセットnグラムは、ランダムフォレスト分類器のような、与えられたイベントについての分類器を構築及びトレーニングする特徴リストとして集合的に用いられ得る。このようにして、分類器は、それぞれのイベントについて求められた特徴リストに基づいてそれぞれのイベントについて生成され得る。トレーニングプロセスにおいて、ある実施形態では、計算システムは、収集されたページデータの90%をトレーニングデータとして使用し得て、残りの10%はテストデータとして使用し得る。
トレーニング目的でそれぞれのイベントについてはネガティブな例を持つために、計算システムは、あるイベントからのポジティブな例を、関連のないイベントについてのネガティブな例として使用し得る。ある実施形態において、イベントは、以前には兄弟イベントにグループ分けされ、又は階層の中に配置される結果、システムがそのグループ分け又は階層を用いて同様のイベントを特定していたかもしれない。計算システムは、任意の与えられたイベントのポジティブなものを、その兄弟又は関連するイベントにネガティブなものとしてフィードすることをスキップし得る。ある実施形態において、計算システムは、自動化されたやり方で、兄弟又は同様のイベントを特定し得る。例えば、クラスタリングアルゴリズムは、特定の兄弟イベントを特定するために、それぞれのイベントについてのページの集合体にわたって適用され得る。代替として、ジャッカード係数、コサイン距離、又は他の距離の測定を用いて、異なるイベントの間の類似性が求められて、兄弟イベントを特定し得る。
いったん分類モデルがトレーニングされると、それらは、任意のテキストコンテンツ(textual content)を分類することによって、そのコンテンツが、分類器が改良された(developed)イベントの任意のものに関連されるように見えるかを決定するのに大きくは用いられ得る。パブリッシャーページ及び参照ページとしてのトレーニングデータの性質から、分類モデルは、参照ページ又はパブリッシャーページのいずれかを分類することに対して最も良く実行し得るが、これは、コンテンツのこれらのタイプは、他のタイプのコンテンツ(例えば小説)とは異なるスタイルで書かれているからであり得る。例えば、106個のイベントにわたる試験的実現例においては、ここで記載された方法を用いてトレーニングがなされたモデルは、0.9を超える平均再現率(recall)を達成した。理解されるように、分類モデルは、ここで記載した方法を用いて改良され得るが、もしそのモデルが他のタイプのコンテンツを分類するのに用いられるなら、異なるタイプのトレーニングコンテンツを用い得る。モデルは、定期的に(例えば毎週又は毎月)再トレーニングされ得て、ある実施形態では、最近公開されたページをトレーニングデータとして用いる。
図3Aは、与えられたイベントについて参照ページセットを決定する例示的方法300のフロー図である。この方法は、例えば、計算システム502によって実行され得て、これは以下に説明される。例示的方法300は、図2について上述したブロック204の一部として起こり得る。この方法は、ブロック302において始まり、計算システムは、参照ソースからイベントについてのイベント参照ページを特定する。上述のように、参照ページは、特定の参照ソースに依存して、さまざまなやり方で特定され得る。例えば、ある参照ソースは、計算システムがイベント名(又は他のトピック)を、参照ソースのサーバに送信し、そのイベントについての対応する参照ページから逆に受信することを可能にするAPI又は検索機能を提供し得る。他の実施形態においては、より詳細に上述されたように、計算システムは、参照ページのURIから、ページのメタデータから、又はページそのもののコンテンツから(例えばタイトル、見出し等から)、イベント名を決定するように構成され得る。
次にブロック304において、計算システムは、イベント参照ページ内に現れるリンクをトラバースし得る。例えば、HTMLフォーマットの参照ページは、ページコード内に他の参照ページを指し示すURIリンクを含み得る。例えば、ある音楽フェスティバルについての参照ページは、そのフェスティバルに出演するよう予定されたさまざまなバンドのそれぞれに関するページへのリンク、コンサート開催地についてのページへのリンク、コンサート開催地の市についてのページへのリンク、音楽フェスティバルの一般的トピックについてのページへのリンク等をページ内に含み得る。循環リンクの潜在的な問題(例えば、リンクされたページのうちの1つがメインイベントの参照ページへ戻るリンクを含むこと)を解決するために、計算システムは、1方向だけにトラバースする(例えば、親リンクから子リンクへのトラバースだけを実行する)よう構成され得る。
他の潜在的な問題は、関連のないコンテキストの問題である。例えば、オーストラリアオープンテニストーナメントについての参照ページは、オーストラリアの国についての参照ページへのリンクを含み得る。オーストラリアについての参照ページ内のコンテンツ(例えば、その国の歴史、政治、経済等に関する記述テキストを含む)は、オーストラリアオープンテニスイベントにほとんどは又は完全に無関連であり得る。この問題に対処するために、ブロック306において、計算システムは、それぞれのリンクされた子ページと、メインイベント参照ページとの間のテキスト類似性を測定し得る。この類似性は、ある実施形態では、2ページ中に現れるnグラムのセットについてジャッカード係数を用いて測定され得る。他の実施形態においては、コサイン距離のような他の距離測定が用いられ得る。ブロック308において、計算システムは、リンクされたページをそれからフィルタリングし、イベントのメイン参照ページに対する閾値の類似性スコア未満である子ページを廃棄することによって等で、イベントに関連しないページを廃棄し得る。ブロック310において、イベントの参照ページセットは、イベントのメインイベント参照ページ及びフィルタリングされた子ページ(例えば、少なくとも最小限のレベルの、イベントの参照ページとのテキスト類似性を有する、イベントの参照ページ内でリンクされたページ)を含むようにそれから確立され得る。
図3Bは、与えられたイベントについてのパブリッシャーページセットを決定する例示的方法320のフロー図である。例示的方法は、例えば計算システム502によって実行され得て、これは以下に説明される。方法300と似て、例示的方法320は、図2について上述したブロック204の一部として起こり得る。方法320は、ブロック322において始まり、ここで計算システムは、イベントと関連付けられた1つ以上のキーワードを取得し得る。上で述べられたように、ある実施形態においては、キーワードは、計算システムが類似の名前又は与えられたイベント以外のものを一般に指す名前を持つイベントの間で区別できるようにするために、イベント名に加えて記憶され得る。上述の一つの例として、「2017全米オープン」と名付けられたテニスイベントは、キーワード「テニス」と関連付けられ得る一方で、「2017全米オープン」と名付けられたゴルフイベントは、キーワード「ゴルフ」と関連付けられ得る。
次にブロック324において、計算システムは、パブリッシャーページを特定するユニフォームリソースアイデンティファイアを取得する。ある実施形態では、これは、多くの異なるパブリッシャーからのページを含む、数千のページを含み得る。上述のように、URIは、与えられた広告サービスを利用するパブリッシャーページのためであり得る。例えば、広告サービスは、ある設定された期間にわたって(最近3ヶ月のような)クライアントデバイスにおいて表示される時に広告サービスから広告をリクエストしたページを特定するURIのリストを記憶していてもよい。他の実施形態では、URIは、ソーシャルネットワーク、ニュースソース、ブログ等のようなさまざまなウェブサイト又は他のソースをクロールしている計算システムによって追加として又は代替として特定され得る。ある実施形態では、パブリッシャーページは、それらが、トレーニングされた分類器が分類するために用いられると期待できるタイプのページ又はコンテンツと同様のソースからのものである、及び/又はそれらページ又はコンテンツと同様のスタイルで書かれているように、一般には選択され得る。
ブロック326において、ブロック324からのそれぞれのパブリッシャーページURIについて、計算システムは、そのURIがそのイベントと関連付けられた名前及び他のキーワード(群)を含むかを決定し得る。上述のように、ある実施形態では、イベント名及びキーワードは、キーワードがURI内に存在する時には、与えられたURIが、特定のイベントを特定する高い信頼度を提供するよう意図され得るのであって、与えられたイベントに関連する全てのページを特定するよう意図され得るのではない。例えば、何百という重み付きnグラムに基づいて作られる最終的な分類器は、ブロック326において考慮される少数のキーワードに基づいてならイベントに関連するとは特定されないであろう、そのイベントに関連付けられる多くのページを典型的には特定し得る。例として、全米オープンテニスのイベントについてのキーワードは、「全米オープン」及び「テニス」であり得る。このイベントのキーワードについてのURIを検索するときには、システムは、軽微なバリエーションを検索し得て、又はそれぞれのURIのフォーマッティングに依存してなんらかのテキスト変換を行い得る(アンダースコア、ダッシュ、プラス符号、「%20」又は他のやり方にかかわらず、どのようにスペースが与えられたURI内で配されるかのような)。ある実施形態では、キーワードに関連付けられたブール演算子又はルールセットが存在し得て、計算システムは、論理演算子によってリンクされるキーワードの任意のさまざまな組合せを探す(例えば、もし「(keyword1 AND keyword2) OR (keyword 3 AND keyword4)」という基準を満たすならURIは一致すると判断する)。イベントのキーワードを含むパブリッシャーページは、ブロック328において、与えられたイベントについてのパブリッシャーページセットとして計算システムによってそれから確立され得る。他の実施形態においては、計算システムは、キーワードが、URIの中だけでなく、ページそのものの中に現れるかを考慮し得る。例えば、そのような他の実施形態においては、計算システムは、もしそのページについてのURIがイベント名を含み(例えばURI「https://www.xyz.xyz/news/australian-open-schedule-released.html」の中に現れる「australian-open」)、かつそのページのテキスト本文が他のイベントキーワード(例えば「テニス」)を含むなら、パブリッシャーページセット中のページを含み得る。
図4は、ここで説明されるイベント分類モデル生成のための特徴リストの改良のさまざまなステップにおいて生成され得る例示的データのフロー図である。示されるように、図4は、初期入力として個別のイベントについての参照ページセット及びパブリッシャーページセットで始まる(ずっと多くのものが実際には含まれるはずだが、例示の簡潔さのために3つのイベントとして示される)。上述のように、計算システムは、Event1について参照ページセット402及びEvent1についてパブリッシャーページセット422のような、これらページセットを生成していてもよい。イベント・nグラム頻度辞書は、それぞれのイベントについて作成され得る。例えば、辞書404は、Event1の参照ページセット402の1つ以上のページ中に現れるそれぞれのnグラムを含み得る一方で、辞書424は、Event1のパブリッシャーページセット422の1つ以上のページ中に現れるそれぞれのnグラムを含み得る。ある実施形態では、同じイベントについて辞書(例えばEvent1についての辞書404及び辞書424)は、同一であり得て、イベントの参照ページセット又はパブリッシャーページセットのうちの1つ又は両方に現れるそれぞれのnグラムを含むように生成され得る。
1つのnグラム(「Ngram1」)について一部のデータしか示されていないが、データ構造406は、イベントの参照ページセットの任意のものにおいて現れるそれぞれのnグラムについて、nグラムがそれぞれのイベントの参照ページセット中に現れる頻度のリストを表現する。同様に、データ構造426は、イベントのパブリッシャーページセットの任意のものにおいて現れるそれぞれのnグラムについて、nグラムがそれぞれのイベントのパブリッシャーページセット中に現れる頻度のリストを表現する。図4において左から右に進んで、ブロック406及び426の右に示される例示的データは、1つのイベントを参照して示されるが(例えば、「Event1」であり、これは上の例に基づけば、2017年オーストラリアオープンを表現し得る)、他のイベントについて繰り返されてもよい(図4では不図示)。
ブロック408において、特定のイベントについてのTF・IEFベクトル(単語頻度・逆イベント頻度ベクトル)は、ブロック406におけるデータに基づいて生成される。それぞれのnグラムについてのTF・IEFベクトルのスコアを求めることは、上述されている。TF・IEFベクトルのそれぞれの次元は、例えば、辞書404からの異なるnグラムのTF・IEFスコアに対応し得る。イベントについてのこのTF・IEFベクトル408及びマスタータームスコアベクトル410(上述のようにイベント特有ではない値を有する)は、そのイベントについて参照マスターベクトル412を生成するのにそれから用いられる。同様に、同じイベントのパブリッシャーページセットについてのTF・IEFベクトル428及びマスタータームスコアベクトル430は、パブリッシャーマスターベクトル432を生成するのに用いられる。予め定められた数の上位nグラム(つまりいくつかの上位ユニグラム、いくつかの上位バイグラム、及びいくつかの上位トリグラム、又は最小限の閾値を満足するnグラム)が、2つのマスターベクトルからそれから決定され得て、上位参照nグラム440及び上位パブリッシャーnグラム450を生成する。図4の結果は、与えられたイベントについての上位参照nグラム440及び上位パブリッシャーnグラム450に基づく与えられたイベントについての特徴リスト460であり得る。上述のように、イベント群にわたって珍しくない(common)nグラムを除去するために上位nグラムをフィルタリングすることのような、図4には図示されないさらなるステップが起こり得る。
図5は、ある実施形態による計算環境500の一般的な構成を示す。図5に示すように、計算環境500は、計算システム502を含み得る。計算システム502の一般的な構成は、本開示の局面を実現するのに用いられるコンピュータハードウェア及びソフトウェア要素の構成を含み得る。計算システム502は、図5に示されるものよりもずっと多くの(又は少ない)要素を含み得る。しかし実施可能な開示を提供するためには、これら大まかには従来からある要素の全てが示される必要はない。当業者であれば、計算システム502は、以下には限定されないがノートパソコン、パーソナルコンピュータ、1つ以上のサーバ等を含む、いくつかの計算システムのうちの任意のものであり得ることがわかるだろう。
図示されるように、計算システム502は、処理ユニット506、ネットワークインタフェース508、コンピュータ読み取り可能な媒体ドライブ510、入力/出力デバイスインタフェース512、オプションのディスプレイ526、及びオプションの入力デバイス528を含み、これらの全ては、通信バス536によって互いに通信し得る。処理ユニット506は、メモリ514へ、及びメモリ514から通信し得て、入力/出力デバイスインタフェース512を介してオプションのディスプレイ526のための出力情報を提供し得る。入力/出力デバイスインタフェース512は、キーボード、マウス、デジタルペン、マイクロホン、タッチスクリーン、ジェスチャ認識システム、音声認識システム、又はこの技術分野で知られている他の入力デバイスのようなオプションの入力デバイス528からの入力も受け入れ得る。
メモリ514は、ここで記載される1つ以上の実施形態を実現するために処理ユニット506が実行し得る、コンピュータプログラム命令(ある実施形態ではモジュール又は要素とグループ分けされる)を含み得る。メモリ514は、RAM、ROM及び/又は他の持続的な、補助的な又は非一時的なコンピュータで読み取り可能な媒体を一般には含み得る。メモリ514は、計算システム502の一般的管理及び動作において処理ユニット506によって使用されるコンピュータプログラム命令を提供するオペレーティングシステム518を記憶し得る。メモリ514は、本開示の局面を実現するためのコンピュータプログラム命令及び他の情報をさらに含み得る。例えば、ある実施形態において、メモリ514は、例えば、計算システム502又は計算システム502と通信するクライアント計算デバイス上にインストールされたブラウザ又はアプリケーションのようなナビゲーションインタフェースを介して、計算システム上での表示のためのユーザインタフェースを生成するユーザインタフェースモジュール516(及び/又はそのための命令)を含み得る。
ある実施形態では、メモリ514は、イベント分類モジュール520及びトレーニングモジュール522を含み得て、これらは、ここで記載されたさまざまな実施形態による操作を実行するために処理ユニット506によって実行され得る。モジュール520及び/又は522は、上述のデータを取得し、及び/又はデータを記憶するためにデータ記憶530にアクセスし得る。データ記憶は、計算システム502の一部であるか、計算システム502から離れているか、及び/又はネットワークベースのサービスであり得る。例えば、イベントデータ記憶530は、上で述べたイベント名及びキーワード、URIリスト、及び/又はさまざまな中間データ及び最終分類モデル情報を、分類モデル生成のさまざまな時点で記憶し得る。
ある実施形態では、ネットワークインタフェース508は、1つ以上のネットワーク又は計算システムへの接続を提供し得て、処理ユニット506は、情報及び命令を他の計算システム又はサービスから1つ以上のネットワークを介して受け取り得る。図5に示される例では、ネットワークインタフェース508は、インターネットのようなネットワーク536を介して1つ以上の参照ページソース503と通信し得る。特に、計算システム502は、ネットワーク536を介して通信を計算システム503に送るためにネットワーク536との通信リンク542を確立し得る(例えば既知のプロトコルを用いて)。同様に、計算システム503は、有線又は無線の通信リンク540を介してネットワーク536を通して計算システム502に通信を送り得る。計算システム502は、追加として、パブリッシャーページをホスティングするサードパーティサーバのようないくつかのパブリッシャーページソース、及び/又はクライアントデバイス上で実行するパブリッシャーページ内のコードの結果としてページ情報を計算システム502に送るクライアントデバイスとネットワーク536を介して通信し得る。参照ページソース503は、例えば、参照コンテンツがウェブページ又はAPIを介して入手可能であるサーバであり得る。
ここで記載された任意の特定の実施形態に従っても必ずしも全ての目的又は優位性が達成されないことが理解されよう。よって、例えば当業者であれば、ある実施形態は、ここで教示される1つの優位性又は1つのグループの優位性群を達成又は最適化するが、ここで教示又は示唆された他の目的又は優位性を必ずしも達成しないように動作するよう構成され得ることを理解するだろう。
ここで記載された方法の全ては、1つ以上の汎用コンピュータ又はプロセッサを含み得る計算システムによって実行されるソフトウェアコードモジュールにおいて実現され得て、ソフトウェアコードモジュールを介して完全に自動化され得る。コードモジュールは、任意のタイプの非一時的なコンピュータ読み取り可能な媒体又は他のコンピュータ記憶デバイスにおいて記憶され得る。代替としてこれら方法の一部又は全部は、専用のコンピュータハードウェアにおいて実現され得る。加えて、ここで参照される要素は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組合せにおいて実現され得る。
ここで記載されたものとは違う多くの他の変化形がこの開示から明らかであろう。例えば、実施形態に依存して、ここで記載された任意のアルゴリズムのある種の行為、イベント、又は機能は、異なる順序で実行され得て、追加され、統合され、又はそもそも省略され得る(例えば、それらアルゴリズムの実施のためには、記載された行為又はイベントの全てが必要というわけではない)。さらにある実施形態では、行為又はイベントは、順次にではなく、例えば、マルチスレッド処理、割込処理、又はマルチプロセッサ又はプロセッサコア又は他のパラレルアーキテクチャを通して、同時に実行され得る。加えて、異なる行為又はプロセスは、共に機能し得る異なる機械及び/又は計算システムによって実行され得る。
ここで開示された実施形態に関連して記載されたさまざまな例示的論理ブロック、モジュール、及びアルゴリズム要素は、電子的ハードウェア、コンピュータソフトウェア、又はそれら両方の組合せとして実現され得る。ハードウェア及びソフトウェアのこの交換可能性を明らかに示すために、さまざまな例示的要素、ブロック、モジュール、及び要素は、それらの機能によって大まかには上で述べられてきた。そのような機能がハードウェア又はソフトウェアのどちらで実現されるかは、システム全体に課せられた具体的なアプリケーション及び設計の制約条件に依存する。記載された機能は、それぞれの具体的な応用例についてさまざまなやり方で実現され得るが、そのような実現例の判断は本開示の範囲からの逸脱を生じるものとしては解釈されるべきではない。
ここで開示された実施形態に関連して記載されているさまざまな例示的論理ブロック及びモジュールは、ここで記載された機能を実行するよう設計された、処理ユニット又はプロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラム可能なロジックデバイス、ディスクリートなゲート又はトランジスタロジック、ディスクリートなハードウェア要素、又はそれらの任意の組合せのような、機械によって実現又は実行され得る。プロセッサは、マイクロプロセッサであり得るが、代替として、プロセッサは、コントローラ、マイクロコントローラ、又はステートマシン、これらの組合せ等であり得る。プロセッサは、コンピュータで実行可能な命令を処理するよう構成された電気回路を含み得る。他の実施形態において、プロセッサは、コンピュータで実行可能な命令を処理することなく、論理操作を実行するFPGA又は他のプログラム可能なデバイスを含む。プロセッサは、計算デバイスの組合せとしても、例えば、DSP及びマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つ以上のマイクロプロセッサ、又は任意の他のそのような構成としても実現され得る。ここでは基本的にはデジタル技術について記載されているが、プロセッサは、基本的にアナログの要素も含み得る。例えば、ここで記載された信号処理アルゴリズムのうちの一部又は全部は、アナログ回路又は混合されたアナログ及びデジタル回路において実現され得る。計算環境は、以下には限定されないが、いくつかの例を挙げれば、マイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタルシグナルプロセッサ、携帯計算デバイス、又はデバイスコントローラを含む、任意のタイプのコンピュータシステムを含み得る。
ここで開示された実施形態に関連して記載された方法、プロセス、又はアルゴリズムの要素は、ハードウェアにおいて、1つ以上のメモリデバイス中に記憶され1つ以上のプロセッサによって実行されるソフトウェアモジュールにおいて、又はこれら2つの組合せにおいて直接に実現され得る。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能なディスク、CD−ROM、又はこの分野で知られる任意の他の形態の非一時的コンピュータ読み取り可能な媒体、メディア、又は物理的コンピュータ記憶において常駐し得る。例示的記憶媒体は、プロセッサが記憶媒体から情報を読めるように、かつ記憶媒体に情報を書けるようにプロセッサに結合され得る。代替として、記憶媒体は、プロセッサと一体化され得る。記憶媒体は、揮発性又は不揮発性であり得る。
とりわけ「できる(can)」、「やろうと思えばできる(could)」、「ひょっとすれば〜かもしれない(might)」又は「でもよい(may)」のような条件的文言は、具体的にそうではないと述べられていない限り、ある実施形態はある特徴、要素及び/又はステップを含むが、他の実施形態はそれらを含まないと伝えるのに一般に用いられる文脈の範囲内でそうでなければ理解される。よって、そのような条件的文言は、特徴、要素及び/又はステップが、1つ以上の実施形態についていかなる場合も必要であることを又は1つ以上の実施形態が、ユーザの入力又はプロンプトを使うにしても使わないにしても、これら特徴、要素及び/又はステップが含まれる又は任意の特定の実施形態において実行されるべきであると判断するためのロジックを必然的に含むことを示唆するようには一般には意図されない。
「X、Y、又はZのうちの少なくとも1つ」というフレーズのような選言的な文言は、そうではないと具体的に述べられない限り、アイテム、語等がX、Y、又はZのうちのいずれかであるか、又はそれらの任意の組合せであり得る(例えばX、Y、及び/又はZ)ことを一般には示すように用いられる文脈と共にそうでなければ理解される。よって、そのような選言的な文言は、ある実施形態は、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、又はZのうちの少なくとも1つがそれぞれ存在することを要求するとは一般には意図されておらず、そういうことを要求すると示唆されてはいるのではない。
ここで記載された及び/又は添付の図に示されたフロー図における任意の方法の記載、要素又はブロックは、そのプロセスの中で特定の論理機能又は要素を実現するための1つ以上の実行可能な命令を含むコードのモジュール、セグメント、又は部分を潜在的には表現すると理解されるべきである。当業者によって理解されるように関連する機能に依存して、要素又は機能が削除されたり、実質的に同時に実行されることを含む、示された又は説明された順序とは異なるように実行されたり、逆の順序で実行されたりする代替の実現例は、ここで記載される実施形態の範囲の中に含まれる。
明示的に述べられない限り、「a」又は「an」のような冠詞は、一般に1つ以上の記載されたアイテムを含むように解釈されるべきである。したがって、「〜するよう構成されたデバイス」のようなフレーズは、1つ以上の記載されたデバイスを含むように意図される。そのような1つ以上の記載されたデバイスは、述べられた記載を実行するよう集合的にも構成され得る。例えば、「記載A、B及びCを実行するよう構成されたプロセッサ」は、記載B及びCを実行するよう構成された第2プロセッサと関連して働く、記載Aを実行するよう構成された第1プロセッサを含み得る。
本開示の実施形態の例は、以下の項目を鑑みて記載され得る。
項1 コンピュータシステムであって、メモリ、及び前記メモリと通信し、プロセッサで実行可能な命令によって操作を実行するよう構成される、物理的プロセッサを備える計算デバイスであって、前記操作は、複数のイベントのそれぞれのイベントについて、前記イベントに関連付けられた参照ページを取得し、前記参照ページは、前記イベントを記述するテキストを含み、前記参照ページは、他のページへの複数の参照をさらに備え、前記参照ページ中で参照された前記他のページにアクセスし、前記イベントに関連付けられた第1セットの語を生成し、前記第1セットにおける語のそれぞれは、1つ以上の単語を含み、前記第1セットは、(a)前記参照ページのテキスト内に現れる1つ以上の語、及び(b)前記参照ページ内で参照される他のページのうちの少なくとも1つのページのテキスト内に現れる1つ以上の語を含み、複数のネットワークアクセス可能なページのそれぞれのページが、そのページについてのユニフォームリソースアイデンティファイア内に前記イベントの名称を含むという判断に少なくとも一部は基づいて、前記イベントに関する複数のネットワークアクセス可能なページを決定し、前記イベントに関連付けられた第2セットの語を生成し、前記第2セットの語のそれぞれは、前記イベントに関する複数のネットワークアクセス可能なページのうちの少なくとも1つにおいて共に現れる1つ以上の単語を含み、前記イベントに関連付けられた前記第1セットの語及び第2セットの語におけるそれぞれの語について、前記語及び前記イベントの間の関連性の強さを表現する語についてのスコアを生成し、それぞれの語についての前記スコアは、(a)前記語が他のイベントに関連付けられたページ内に現れる第1頻度、及び(b)前記語がコンテンツの集合体全体において用いられる第2頻度に対する、前記語が前記イベントに関連付けられたページ内に現れる回数に少なくとも一部に基づいて生成され、前記イベントに関連付けられた複数の上位のスコアを得た語を選択し、前記複数の上位のスコアを得た語は、前記第1セットの語及び第2セットの語の中から選択され、入力ページが、前記複数のイベントのうちの1つ以上に関するテキストコンテンツを含むかを決定する1つ以上の分類モデルを生成することを含む計算デバイスを備えるコンピュータシステム。
項2 特徴として用いられる、イベントと関連付けられた上位のスコアを得た語の少なくともサブセットは、イベントと関連付けられた上位のスコアを得た語をフィルタリングし、少なくとも閾値の個数の異なるイベントの間で共有される語を除去することによって少なくとも一部は基づいて決定される項1に記載のシステム。
項3 前記操作は、個別のイベントについて参照ページ中で参照される他のページのそれぞれについて、前記他のページのテキストと、前記個別のイベントと関連付けられた参照ページのテキストとの間の類似性のレベルを決定し、前記個別のイベントについて前記参照ページ内で参照された他のページのサブセットを、前記決定された類似性のレベルに少なくとも一部は基づいて、前記参照ページに無関係であるコンテンツを有するとして特定することをさらに含み、前記参照ページに無関係であると特定された前記他のページのサブセットは、前記個別のイベントに関連付けられた第1セットの語を生成する時に、無視される項1に記載のシステム。
項4 前記類似性のレベルを決定することは、前記他のページのテキストと、前記参照ページのテキストとの間のジャッカード係数又はコサイン距離のうちの少なくとも1つを求めることを含む項3に記載のシステム。
項5 個別のイベントに関する複数のネットワークアクセス可能なページは、個別のイベントに関する複数のネットワークアクセス可能なページのそれぞれのページが、ページについてのユニフォームリソースアイデンティファイア内において、前記個別のイベントに関連付けられた1つ以上のキーワードを含むという決定に少なくとも一部は基づいて、さらに決定される項1に記載のシステム。
項6 前記第1セットの語及び前記第2セットの語のそれぞれはnグラムである項1に記載のシステム。
項7 前記第1セットの語及び前記第2セットの語は、複数のユニグラム、複数のバイグラム、及び複数のトリグラムをそれぞれ含む項1に記載のシステム。
項8 コンテンツの集合体全体は、参照ソースからのページを含み、参照ソースからのページの少なくともサブセットは、いかなるイベントにも関連付けられていないページを含む項1に記載のシステム。
項9 コンテンツの集合体全体は、所定の期間にわたって1つ以上のソースから入手可能にされた全てのページを含む項1に記載のシステム。
項10 複数のネットワークアクセス可能なページは、1つ以上のニュース記事、ブログポスト、マイクロブログ、又はソーシャルメディアポストを含む項1に記載のシステム。
項11 コンピュータで実現される方法であって、特定の実行可能な命令で設定された1つ以上の計算デバイスによって実現されるとき、イベントの名称を取得し、前記イベントに関連付けられた参照ページにアクセスし、前記参照ページは、前記イベントに関して記述するテキストを含み、前記参照ページは、他のページへの複数の参照をさらに含み、前記参照ページ内で参照された前記他のページにアクセスし、前記イベントに関連付けられた第1セットの語を生成し、前記第1セットにおける語のそれぞれは、1つ以上の単語を含み、前記第1セットは、(a)前記参照ページのテキスト内に現れる1つ以上の語、及び(b)前記参照ページ内で参照される他のページのうちの少なくとも1つのページのテキスト内に現れる1つ以上の語を含み、複数のネットワークアクセス可能なページのそれぞれのページが、そのページについてのユニフォームリソースアイデンティファイア内に前記イベントの名称を含むという判断に少なくとも一部は基づいて、前記イベントに関する複数のネットワークアクセス可能なページを決定し、前記イベントに関連付けられた第2セットの語を生成し、前記第2セットの語のそれぞれは、前記イベントに関する複数のネットワークアクセス可能なページのうちの少なくとも1つにおいて共に現れる1つ以上の単語を含み、前記イベントに関連付けられた前記第1セットの語及び第2セットの語におけるそれぞれの語について、前記語及び前記イベントの間の関連性の強さを表現する語についてのスコアを生成し、それぞれの語についての前記スコアは、前記語が他のイベントに関連付けられたページ内に現れる頻度に少なくとも対する、前記語が前記イベントに関連付けられたページ内に現れる回数に少なくとも一部に基づいて生成され、前記イベントに関連付けられた複数の上位のスコアを得た語を選択し、前記複数の上位のスコアを得た語は、前記第1セットの語及び第2セットの語の中から選択され、入力ページが、前記イベントに関するテキストコンテンツを含むかを決定する分類モデルを生成し、前記イベントに関連付けられた上位のスコアを得た語の少なくともサブセットは、分類モデルをトレーニングする時に特徴として用いられることを含む方法。
項12 異なるイベントに関するテキストを含むページを特定するようそれぞれが構成される複数の分類モデルを生成することをさらに含む項11に記載のコンピュータで実現される方法。
項13 それぞれの語についてのスコアは、前記語がコンテンツの集合体全体において用いられる第2頻度に少なくともさらなる一部は基づいて生成される項11に記載のコンピュータで実現される方法。
項14 前記語が他のイベントに関連付けられたページ内に現れる頻度は、逆イベント頻度を表す、項11に記載のコンピュータで実現される方法。
項15 与えられた語についての前記逆イベント頻度は、(a)イベントの総数を(b)前記与えられた語が現れる少なくとも1つのページと関連付けられたイベントの総数で割った結果の対数として求められる項14に記載のコンピュータで実現される方法。
項16 前記分類モデルは、ランダムフォレスト分類器を用いることに少なくとも一部は基づいて生成される項11に記載のコンピュータで実現される方法。
項17 前記イベントについての分類モデルをトレーニングするためのネガティブな例を選択することをさらに含み、前記ネガティブな例は、前記イベントに関連しない少なくとも1つの他のイベントと関連付けられていると決定されたページを含む項11に記載のコンピュータで実現される方法。
項18 前記少なくとも1つの他のイベントは、複数のページをクラスタリングし、類似のコンテンツを持つページを特定することに少なくとも一部は基づいて、前記イベントに関連しないと決定される項17に記載のコンピュータで実現される方法。
項19 前記少なくとも1つの他のイベントは、前記イベントに関連付けられたページのテキストと、前記少なくとも1つの他のイベントに関連付けられたページのテキストとの間の距離測定を適用することに少なくとも一部は基づいて、前記イベントに関連しないと決定される項17に記載のコンピュータで実現される方法。
項20 サーバによって、クライアントデバイスから広告のリクエストを受け取ることであって、前記リクエストは、前記クライアントデバイスによって実行されている第1ページ内のコードの結果として送られ、生成された分類モデルを用いて、前記第1ページのテキストコンテンツが前記イベントに関連すると決定すること、前記広告及び前記イベントの間の関連性に少なくとも一部は基づいて、前記第1ページと関連する表示のための広告を選択すること、及び前記第1ページ内での表示のために前記広告を前記クライアントデバイスに送ることをさらに含む項11に記載のコンピュータで実現される方法。
Claims (15)
- コンピュータシステムであって、
メモリ、及び
前記メモリと通信し、プロセッサで実行可能な命令によって操作を実行するよう構成される、物理的プロセッサを備える計算デバイスであって、前記操作は、
複数のイベントのそれぞれのイベントについて、
前記イベントに関連付けられた参照ページを取得し、前記参照ページは、前記イベントを記述するテキストを含み、前記参照ページは、他のページへの複数の参照をさらに備え、
前記参照ページ中で参照された前記他のページにアクセスし、
前記イベントに関連付けられた第1セットの語を生成し、前記第1セットにおける語のそれぞれは、1つ以上の単語を含み、前記第1セットは、(a)前記参照ページのテキスト内に現れる1つ以上の語、及び(b)前記参照ページ内で参照される他のページのうちの少なくとも1つのページのテキスト内に現れる1つ以上の語を含み、
複数のネットワークアクセス可能なページのそれぞれのページが、そのページについてのユニフォームリソースアイデンティファイア内に前記イベントの名称を含むという判断に少なくとも一部は基づいて、前記イベントに関する複数のネットワークアクセス可能なページを決定し、
前記イベントに関連付けられた第2セットの語を生成し、前記第2セットの語のそれぞれは、前記イベントに関する複数のネットワークアクセス可能なページのうちの少なくとも1つにおいて共に現れる1つ以上の単語を含み、
前記イベントに関連付けられた前記第1セットの語及び第2セットの語におけるそれぞれの語について、前記語及び前記イベントの間の関連性の強さを表現する語についてのスコアを生成し、それぞれの語についての前記スコアは、(a)前記語が他のイベントに関連付けられたページ内に現れる第1頻度、及び(b)前記語がコンテンツの集合体全体において用いられる第2頻度に対する、前記語が前記イベントに関連付けられたページ内に現れる回数に少なくとも一部に基づいて生成され、
前記イベントに関連付けられた複数の上位のスコアを得た語を選択し、前記複数の上位のスコアを得た語は、前記第1セットの語及び第2セットの語の中から選択され、
入力ページが、前記複数のイベントのうちの1つ以上に関するテキストコンテンツを含むかを決定する1つ以上の分類モデルを生成する
ことを含む計算デバイス
を備えるコンピュータシステム。 - 特徴として用いられる、イベントと関連付けられた上位のスコアを得た語の少なくともサブセットは、イベントと関連付けられた上位のスコアを得た語をフィルタリングし、少なくとも閾値の個数の異なるイベントの間で共有される語を除去することによって少なくとも一部は基づいて決定される
請求項1に記載のコンピュータシステム。 - 前記操作は、
個別のイベントについて参照ページ中で参照される他のページのそれぞれについて、前記他のページのテキストと、前記個別のイベントと関連付けられた参照ページのテキストとの間の類似性のレベルを決定し、
前記個別のイベントについて前記参照ページ内で参照された他のページのサブセットを、前記決定された類似性のレベルに少なくとも一部は基づいて、前記参照ページに無関係であるコンテンツを有するとして特定することをさらに含み、
前記参照ページに無関係であると特定された前記他のページのサブセットは、前記個別のイベントに関連付けられた第1セットの語を生成する時に、無視される
請求項1に記載のコンピュータシステム。 - 前記類似性のレベルを決定することは、前記他のページのテキストと、前記参照ページのテキストとの間のジャッカード係数又はコサイン距離のうちの少なくとも1つを求めることを含む
請求項3に記載のコンピュータシステム。 - 個別のイベントに関する複数のネットワークアクセス可能なページは、個別のイベントに関する複数のネットワークアクセス可能なページのそれぞれのページが、ページについてのユニフォームリソースアイデンティファイア内において、前記個別のイベントに関連付けられた1つ以上のキーワードを含むという決定に少なくとも一部は基づいて、さらに決定される
請求項1に記載のコンピュータシステム。 - 前記第1セットの語及び前記第2セットの語のそれぞれはnグラムであって、前記第1セットの語及び前記第2セットの語は、複数のユニグラム、複数のバイグラム、及び複数のトリグラムをそれぞれ含む
請求項1に記載のコンピュータシステム。 - コンピュータで実現される方法であって、特定の実行可能な命令で設定された1つ以上の計算デバイスによって実現されるとき、
イベントの名称を取得し、
前記イベントに関連付けられた参照ページにアクセスし、前記参照ページは、前記イベントに関して記述するテキストを含み、前記参照ページは、他のページへの複数の参照をさらに含み、
前記参照ページ内で参照された前記他のページにアクセスし、
前記イベントに関連付けられた第1セットの語を生成し、前記第1セットにおける語のそれぞれは、1つ以上の単語を含み、前記第1セットは、(a)前記参照ページのテキスト内に現れる1つ以上の語、及び(b)前記参照ページ内で参照される他のページのうちの少なくとも1つのページのテキスト内に現れる1つ以上の語を含み、
複数のネットワークアクセス可能なページのそれぞれのページが、そのページについてのユニフォームリソースアイデンティファイア内に前記イベントの名称を含むという判断に少なくとも一部は基づいて、前記イベントに関する複数のネットワークアクセス可能なページを決定し、
前記イベントに関連付けられた第2セットの語を生成し、前記第2セットの語のそれぞれは、前記イベントに関する複数のネットワークアクセス可能なページのうちの少なくとも1つにおいて共に現れる1つ以上の単語を含み、
前記イベントに関連付けられた前記第1セットの語及び第2セットの語におけるそれぞれの語について、前記語及び前記イベントの間の関連性の強さを表現する語についてのスコアを生成し、それぞれの語についての前記スコアは、前記語が他のイベントに関連付けられたページ内に現れる頻度に少なくとも対する、前記語が前記イベントに関連付けられたページ内に現れる回数に少なくとも一部に基づいて生成され、
前記イベントに関連付けられた複数の上位のスコアを得た語を選択し、前記複数の上位のスコアを得た語は、前記第1セットの語及び第2セットの語の中から選択され、
入力ページが、前記イベントに関するテキストコンテンツを含むかを決定する分類モデルを生成し、前記イベントに関連付けられた上位のスコアを得た語の少なくともサブセットは、分類モデルをトレーニングする時に特徴として用いられる
ことを含む方法。 - 異なるイベントに関するテキストを含むページを特定するようそれぞれが構成される複数の分類モデルを生成することをさらに含む
請求項7に記載のコンピュータで実現される方法。 - それぞれの語についてのスコアは、前記語がコンテンツの集合体全体において用いられる第2頻度に少なくともさらなる一部は基づいて生成される
請求項7に記載のコンピュータで実現される方法。 - 前記語が他のイベントに関連付けられたページ内に現れる頻度は、逆イベント頻度を表し、与えられた語についての前記逆イベント頻度は、(a)イベントの総数を(b)前記与えられた語が現れる少なくとも1つのページと関連付けられたイベントの総数で割った結果の対数として求められる
請求項7に記載のコンピュータで実現される方法。 - 前記分類モデルは、ランダムフォレスト分類器を用いることに少なくとも一部は基づいて生成される
請求項7に記載のコンピュータで実現される方法。 - 前記イベントについての分類モデルをトレーニングするためのネガティブな例を選択することをさらに含み、前記ネガティブな例は、前記イベントに関連しない少なくとも1つの他のイベントと関連付けられていると決定されたページを含む
請求項7に記載のコンピュータで実現される方法。 - 前記少なくとも1つの他のイベントは、複数のページをクラスタリングし、類似のコンテンツを持つページを特定することに少なくとも一部は基づいて、前記イベントに関連しないと決定される
請求項12に記載のコンピュータで実現される方法。 - 前記少なくとも1つの他のイベントは、前記イベントに関連付けられたページのテキストと、前記少なくとも1つの他のイベントに関連付けられたページのテキストとの間の距離測定を適用することに少なくとも一部は基づいて、前記イベントに関連しないと決定される
請求項12に記載のコンピュータで実現される方法。 - サーバによって、クライアントデバイスから広告のリクエストを受け取ることであって、前記リクエストは、前記クライアントデバイスによって実行されている第1ページ内のコードの結果として送られ、
生成された分類モデルを用いて、前記第1ページのテキストコンテンツが前記イベントに関連すると決定すること、
前記広告及び前記イベントの間の関連性に少なくとも一部は基づいて、前記第1ページと関連する表示のための広告を選択すること、及び
前記第1ページ内での表示のために前記広告を前記クライアントデバイスに送ること
をさらに含む
請求項7に記載のコンピュータで実現される方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/602,706 US10504145B2 (en) | 2017-05-23 | 2017-05-23 | Automated classification of network-accessible content based on events |
US15/602,706 | 2017-05-23 | ||
PCT/US2018/033745 WO2018217668A1 (en) | 2017-05-23 | 2018-05-21 | Automated classification of network-accessible content |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020521246A true JP2020521246A (ja) | 2020-07-16 |
Family
ID=62705676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019564146A Pending JP2020521246A (ja) | 2017-05-23 | 2018-05-21 | ネットワークアクセス可能なコンテンツの自動化された分類 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10504145B2 (ja) |
EP (1) | EP3631737A1 (ja) |
JP (1) | JP2020521246A (ja) |
AU (1) | AU2018273369A1 (ja) |
CA (1) | CA3063471A1 (ja) |
WO (1) | WO2018217668A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11853356B1 (en) | 2022-06-27 | 2023-12-26 | Lumos Information Services, LLC | System and method for generating hierarchical mind map and index table |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11151317B1 (en) * | 2019-01-29 | 2021-10-19 | Amazon Technologies, Inc. | Contextual spelling correction system |
CN113852605B (zh) * | 2021-08-29 | 2023-09-22 | 北京工业大学 | 一种基于关系推理的协议格式自动化推断方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9256692B2 (en) * | 2009-12-03 | 2016-02-09 | Hewlett Packard Enterprise Development Lp | Clickstreams and website classification |
US8793252B2 (en) * | 2011-09-23 | 2014-07-29 | Aol Advertising Inc. | Systems and methods for contextual analysis and segmentation using dynamically-derived topics |
US9501799B2 (en) * | 2012-11-08 | 2016-11-22 | Hartford Fire Insurance Company | System and method for determination of insurance classification of entities |
-
2017
- 2017-05-23 US US15/602,706 patent/US10504145B2/en active Active
-
2018
- 2018-05-21 CA CA3063471A patent/CA3063471A1/en active Pending
- 2018-05-21 JP JP2019564146A patent/JP2020521246A/ja active Pending
- 2018-05-21 AU AU2018273369A patent/AU2018273369A1/en not_active Abandoned
- 2018-05-21 WO PCT/US2018/033745 patent/WO2018217668A1/en active Application Filing
- 2018-05-21 EP EP18733398.4A patent/EP3631737A1/en not_active Ceased
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11853356B1 (en) | 2022-06-27 | 2023-12-26 | Lumos Information Services, LLC | System and method for generating hierarchical mind map and index table |
Also Published As
Publication number | Publication date |
---|---|
AU2018273369A1 (en) | 2019-11-28 |
US20180341980A1 (en) | 2018-11-29 |
EP3631737A1 (en) | 2020-04-08 |
US10504145B2 (en) | 2019-12-10 |
WO2018217668A8 (en) | 2019-12-12 |
CA3063471A1 (en) | 2018-11-29 |
WO2018217668A1 (en) | 2018-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10558712B2 (en) | Enhanced online user-interaction tracking and document rendition | |
JP6388988B2 (ja) | オンライン・ソーシャル・ネットワークにおける検索クエリのための静的ランク付け | |
JP6419905B2 (ja) | クエリについての逆演算子の使用 | |
JP6435307B2 (ja) | クエリについての検索意図 | |
JP6193518B2 (ja) | オンライン・ソーシャル・ネットワーク上での検索クエリ対話 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
JP6377807B2 (ja) | オンライン・ソーシャル・ネットワークにおける検索クエリの書き換え | |
US9703859B2 (en) | Keyword search queries on online social networks | |
US11361029B2 (en) | Customized keyword query suggestions on online social networks | |
US8103650B1 (en) | Generating targeted paid search campaigns | |
US10535106B2 (en) | Selecting user posts related to trending topics on online social networks | |
US20160063115A1 (en) | Blending by Query Classification on Online Social Networks | |
US20190079934A1 (en) | Snippet Generation for Content Search on Online Social Networks | |
US20190205474A1 (en) | Mining Search Logs for Query Metadata on Online Social Networks | |
US20190155915A1 (en) | Determining Related Query Terms Through Query-Post Associations on Online Social Networks | |
JP2011108053A (ja) | ニュース記事評価システム | |
CN104008180A (zh) | 结构化数据与图片的关联方法与关联装置 | |
JP2020521246A (ja) | ネットワークアクセス可能なコンテンツの自動化された分類 | |
Sawicki et al. | Exploring usability of reddit in data science and knowledge processing | |
KR101487297B1 (ko) | 카테고리 분류를 이용한 웹페이지 내용 확인시스템 및 확인방법 |