JP5857049B2 - 単語のユーザー挙動数の予測 - Google Patents

単語のユーザー挙動数の予測 Download PDF

Info

Publication number
JP5857049B2
JP5857049B2 JP2013523233A JP2013523233A JP5857049B2 JP 5857049 B2 JP5857049 B2 JP 5857049B2 JP 2013523233 A JP2013523233 A JP 2013523233A JP 2013523233 A JP2013523233 A JP 2013523233A JP 5857049 B2 JP5857049 B2 JP 5857049B2
Authority
JP
Japan
Prior art keywords
period
data sequence
training data
prediction
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013523233A
Other languages
English (en)
Other versions
JP2013541063A (ja
Inventor
タオ チャン
タオ チャン
ジアチン グオ
ジアチン グオ
ニン グオ
ニン グオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013541063A publication Critical patent/JP2013541063A/ja
Application granted granted Critical
Publication of JP5857049B2 publication Critical patent/JP5857049B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

関連出願の相互参照
本願は、2010年8月2日に出願された中国特許出願第201010244565.6号「単語のユーザー挙動数を予測する方法および装置」に対する優先権を主張し、その全体を本明細書に援用する。
本開示は、インターネット技術の分野に関し、具体的には、Webサイト内の単語に関するユーザー挙動数を予測する方法および装置に関する。
インターネット技術の分野では、Webサイトまたは検索エンジンに関してWebサイトのトラフィックおよびクリックレートが規則的に変化し、履歴データに基づいて効率的に予測することができる。しかし、単語のトラフィックおよびクリックレートは規則的に変化しない。ここで、明確化のためにいくつかの基本的な概念を提示する。単語のトラフィックとは、ある単語がWebサイトまたは検索エンジン内で一定期間に何回検索されたかを意味する。単語のクリックレートとは、ある単語がWebサイトまたは検索エンジン内で一定期間に何回クリックされたかを意味する。Webサイトのトラフィックとは、Webサイトまたは検索エンジン内の一定期間におけるすべての単語のトラフィックの合計を意味する。Webサイトのクリックレートとは、Webサイトまたは検索エンジン内の一定期間におけるすべての単語のクリックレートの合計を意味する。その期間は、実際の運用に合わせて設定することができ、通常は1日に設定される。
本開示において、単語のトラフィックおよび/またはクリックレートを集合的にユーザー挙動数と呼ぶ。従来技術では、ユーザー挙動数が期間の経過とともに著しく変化しない単語について、最新の期間のユーザー挙動数を予測するために前の期間のユーザー挙動数の平均値を利用することができる。ユーザー挙動数が期間の経過とともに規則的に変化する単語については、ユーザー挙動数を予測するために時系列モデルを使用して規則的変化のモデルを作成することができ、あるいはユーザー挙動数を予測するために最新の予測アルゴリズム(たとえば機械学習、データ包絡分析など)を使用することができる。
しかし、上述の従来技術にはいくつかの問題がある。経時的なユーザー挙動数の変動を予測し、その変化が規則的かどうか判定するのは非常に困難であるため、効率的な予測アルゴリズムを的確に選ぶことはできず、予測の信頼性は乏しい。その結果、予測に時系列モデルを適用するために使用できるのはある要件を満たすシーケンスだけになる。しかも実用時には、一般的に単語のユーザー挙動数のシーケンスは当該要件を充足しない。一方、時系列モデル以外の予測アルゴリズムを使用した場合、演算の量および複雑さとともに機器の消費が非常に大きくなる。インターネット技術の分野では単語数がきわめて多いため、個別の単語について異なる予測モデルを作成することは不可能である。さらに、カテゴリー別の予測モデルを作成すれば、予測の効率および精度が低下する。
将来のデータの正確な予測は、Webサイトの運営者がWebサイトサーバーの今後発生しえるトラフィックおよびクリックレートを予測し、それに応じてWebサイトサーバーの運用を調整するのに役立つ可能性がある。たとえば、Webサイトのトラフィックおよびクリックレートが著しく増加した場合、サーバー能力の増強が必要になる。一方、Webサイトのトラフィックおよびクリックレートが減少した場合には、遊休サーバーを他の業務のために使用することができる。このように、単語のトラフィックおよびクリックレートを予測する従来の方法では、予測の精度および信頼性が不十分であり、処理の量および複雑さとともに機器の消費が非常に大きくなる。
本開示では、単語のユーザー挙動数を予測する方法および装置を提示する。本明細書に説明する手法は、単語のユーザー挙動数を予測する従来の手法に見られる低い予測精度および信頼性、不十分な機器の利用および性能、処理の複雑さなどの問題に対処するものである。
本開示では、単語のユーザー挙動数を予測する方法を提示する。1つの実施形態において、変換ユニットは、単語のユーザー挙動数の履歴データシーケンスを時間領域(ドメイン)から周波数領域に変換する。決定ユニットは、変換された周波数領域シーケンスに基づいて、履歴データシーケンスの1つ以上の推定周期およびその各推定周期の実効レート値を確認する。判定ユニットは、履歴データシーケンスの各推定周期およびその実効レート値に基づいて、その履歴データシーケンスが安定シーケンス基準を満たすか判定する。履歴データシーケンスが安定している場合、予測点よりも前の履歴データシーケンスのユーザー挙動数の平均値に基づいて、第一の予測ユニットが予測点のユーザー挙動数を計算する。履歴データシーケンスが安定していない場合、各推定周期に基づいて、選択ユニットが履歴データシーケンスの主周期および特異点を選択する。その選択された主周期および選択された特異点に基づいて、第二の予測ユニットが予測点のユーザー挙動数を計算する。
本開示によって提供される単語のユーザー挙動数を予測する方法および装置によれば、最初に、単語のユーザー挙動数の履歴データシーケンスが時間領域から周波数領域に変換される。これは、履歴データシーケンスの各推定周期およびその実効レート値を決定するとともに、単語のユーザー挙動数が著しくおよび/または規則的に変化しているか判定するためである。安定シーケンスの場合は、予測に平均値アルゴリズムが使用され、不安定シーケンスの場合は、選択された主周期および選択された特異点に基づき、予測点のユーザー挙動数を得るために主周期および特異点が選択される。異なるシーケンスに対して異なる予測アルゴリズムが使用されるため、システムの演算負荷が低減される。安定シーケンスの履歴データについては、将来のデータを迅速に予測することができ、不安定シーケンスの履歴データについては、将来のデータを正確かつ確実に予測することができる。本開示によって提供される単語のユーザー挙動数を予測する方法および装置を使用単語が多いインターネット技術で利用することさえ可能である。また、時間領域から周波数領域への変換ならびに安定シーケンスおよび不安定シーケンスに関する予測アルゴリズムを容易に実装することができる。そのため、機器による処理の量および複雑さが低減され、機器の消費も低減される。
本開示の特徴および利点を以下の詳細な説明の中で具体的に示す。本開示の目標および利点は、本明細書、請求項、および図面に開示された構造によって実現および達成することが可能である。
本開示の一実施形態に従って単語のユーザー挙動数を予測するためのアーキテクチャの概略図である。 本開示の実施形態に従って不安定シーケンスを予測するための例示プロセスのフローチャートである。 本開示の実施形態に従った履歴データシーケンスの時間領域の波形を示す図である。 本開示の実施形態に従った履歴データシーケンスの周波数領域の波形を示す図である。 選択された主周期および選択された特異点に基づいて予測点のユーザー挙動数を得るための例示プロセスのフローチャートである。 本開示の実施形態に従って単語のユーザー挙動数を予測する装置のブロック図である。 図5の装置に利用される第二の予測ユニットの一実装例のブロック図である。 図5の装置に利用される第二の予測ユニットの別の実装のブロック図である。
単語のユーザー挙動数(たとえば単語のトラフィック、クリックレートなど)の予測について以下に説明する。1つの実施形態において、最初に履歴データシーケンスが時間領域から周波数領域に変換される。その変換された周波数領域に基づいて、履歴データシーケンスの推定周期およびその実効レート値が確認される。履歴データシーケンスの安定性が判定され、その安定性に基づいて、ユーザー挙動数の予測に異なる予測アルゴリズムが使用される。その結果として、機器による処理の量および複雑さが低減され、同じく機器の消費も低減される。
本開示の各種の実施形態について、さらなる詳細を図面とともに示す。当然ながら、これらの実施形態は本開示の説明にすぎず、本開示の範囲を限定するものではない。これらの実施形態およびそれぞれの特徴を相反なしに組み合わせることができる。
各種の実施形態について説明する前に、明確化のためにいくつかの基本的な概念を提示する。
単語のユーザー挙動数の予測は、単語のユーザー挙動数(たとえばトラフィックまたはクリックレート)の履歴データに基づいて将来のデータを予測するものである。留意すべきは、その履歴データおよび将来のデータに対応する時間周期が一致していることである。一般に、いわゆる単語は、検索、購入などを目的とする単語である。たとえば、時間周期が1日であれば、31日目と32日目のトラフィックは、最後の30日間のトラフィックに基づいて予測することができる。時間周期が1時間であれば、21時間目、22時間目、および23時間目のクリックレートは、最後の20時間のクリックレートに基づいて予測することができる。
単語のユーザー挙動数の予測を実行するには、その単語のユーザー挙動数の履歴データシーケンスを知ることが必須要件であり、また、予測点の数を指定しなければならない。当該単語のユーザー挙動数の履歴データシーケンスは、時間点を表す履歴データ点および履歴データから構成されるシーケンスであって、予測点は、特定の時間点および将来のデータを表す。たとえば、当該単語の最後の30日間のトラフィックに基づいて31日目および32日目のトラフィックを予測する場合、履歴データシーケンスは、その最後の30日間の履歴データ点から構成され、また、各履歴データ点は、特定の日付(1日目から30日目までの中の1日)のトラフィックおよびその日のトラフィックを表す。この例では2つの予測点があり、各予測点は、特定の日付(31日目または32日目)の予測トラフィックおよびその日のトラフィックを表す。
インターネット技術の分野において、特異点は、インターネット上で単語のユーザー挙動数の明白な変化が生じる特定の時点を意味する。たとえば、その時点の前後で単語のユーザー挙動数が桁違いに異なるか、またはその時点の前後で単語のユーザー挙動数が大幅に増減する。
図1は、本予測システムのネットワーク構造の1つの実装を示す。本システムは、Webサイトデータベース100、アプリケーションサーバー101、予測装置102、および分析サーバー103を備える。本システムのこれらの機能部分は、ネットワークを介して相互接続されたものとして示してある。そのネットワークは、有線または無線であってよく、また、任意の数のアーキテクチャ(たとえばLAN、WLAN、インターネットなど)を使用して実装されうる。
Webサイトデータベース100は、Webサイト日誌を保存するためのメモリを有し、ユーザーによる各単語の検索、クリック、操作時間などの情報がそのメモリに記録される。
アプリケーションサーバー101は、単語のユーザー挙動数の予測に基づく各種のアプリケーションサービスを提供する。たとえば、アプリケーションサーバーは、ユーザーインタフェース(UI)を提供し、運営者の必要に応じて単語のユーザー挙動数に関する予測要求を開始し、予測結果(すなわち各予測点のユーザー挙動数)を提示することができる。
予測装置102は、アプリケーションサーバー101によって開始された予測要求に応じて分析要求を生成し、その分析要求を分析サーバー103に送信する。予測装置102はさらに、分析サーバー103から返された単語のユーザー挙動数の履歴データシーケンスに従って当該予測点のユーザー挙動数を取得し、その予測点のユーザー挙動数をアプリケーションサーバー101に返す。
分析サーバー103は、予測装置102からの分析要求に従ってWebサイトデータベース100のWebサイト日誌を分析する。分析サーバー103は、その分析結果から単語のユーザー挙動の履歴データシーケンスを抽出し、それを予測装置102に返す。
図2は、単語のユーザー挙動数を予測する例示的方法を示す。動作S201において、単語のユーザー挙動数の履歴データシーケンスが時間領域から周波数領域に変換される。動作S202では、変換された周波数領域に基づいて、履歴データシーケンスの各推定周期およびその実効レート値が確認される。推定周期は、周波数領域シーケンスの発現しうる周期(すなわち、周波数値に基づいて得られる周期値)であり、実効レート値は、推定周期と周波数領域シーケンスの比である。
動作S203では、履歴データシーケンスの各推定周期およびその実効レート値に基づいて、履歴データシーケンスの安定性が判定される。履歴データシーケンスが安定していれば、動作S204において、予測点よりも前のいくつかの履歴データ点のユーザー挙動数の平均値がその予測点のユーザー挙動数として算出される。履歴データシーケンスが安定していなければ、各推定周期およびその実効レート値に基づき選択された履歴データシーケンスの主周期および特異点に基づいて、予測点のユーザー挙動数が計算される。
1つの実施形態において、動作S201における単語のユーザー挙動数の履歴データシーケンスの抽出プロセスは次のように実行される。アプリケーションサーバー101は、運営者の必要に応じて単語のユーザー挙動数に対する予測要求を開始する。予測装置102は、アプリケーションサーバーによって開始された予測要求に応じて分析要求を生成し、その分析要求を分析サーバー103に送信する。分析サーバー103は、予測装置から送られてきた分析要求に応じてWebサイトデータベース100のWebサイト日誌を分析し、その分析結果から単語のユーザー挙動の履歴データシーケンスを抽出して、それを予測装置に返す。このようにして、予測装置102は、単語のユーザー挙動数の履歴データシーケンスに関する時間領域から周波数領域への変換を実行することができる。
一般に、高速フーリエ変換(FFT)またはウェーブレット変換を使用して、履歴データシーケンスを時間領域から周波数領域に変換することができる。FFTは、高速離散フーリエ変換(DFT)である。単語のユーザー挙動数の履歴データシーケンスに関して、時間領域はその領域の時間特性を表現するために使用される座標系である。時間領域の波形は、単語のユーザー挙動の履歴データの経時的な変化を表す。その横軸は時間を表し、縦軸は対応する履歴データを表す。周波数領域は、その領域の周波数特性を表現するために使用される座標系である。周波数領域の波形は、履歴データシーケンスの発現しうる各周期(すなわち推定周期)の実効レート値を表す。その横軸は推定周期に対応する周波数を表し、縦軸は周波数点に対応する推定周期の実効レート値を表す。
1つの実施形態において、動作S202は、FFTを例とする次のような原理に基づく。
離散フーリエ変換の変換式を数式1として示す。
Figure 0005857049
x(n)は単語のユーザー挙動数の履歴データシーケンスを意味する。X(k)は変換後の周波数領域シーケンスを意味し、これは周波数を水平座標とするシーケンスである。各周波数値は、履歴データシーケンスの発現しうる周期(すなわち推定周期)に対応する。周波数値kに対応する垂直座標値X(k)は、周波数kに対応する推定周期の実効レート値である。さらに、対応する推定周期が周波数領域シーケンスの周波数値kに従って計算され、周波数値kに対応する垂直座標X(k)に従って推定周期の実効レート値が得られる。
周波数kと推定周期の関係を次に示す。
離散フーリエ逆変換の変換式を数式2として示す。
Figure 0005857049
x(n)の周期をTとすれば、数式3が次のように与えられる。
Figure 0005857049
数式3により、次の数式4が得られる。
Figure 0005857049
数式4は周波数値kと推定周期の関係を表す。ここで、Nは単語のユーザー挙動数の履歴データシーケンスに関するデータ点数を意味し、そのデータ点数は履歴データシーケンスの履歴データ点の数を意味する。また、kはk番目の周波数の値を意味し、値の範囲は[1,N−1]である。Tは推定周期を意味する。
たとえば、単語のユーザー挙動数の履歴データシーケンスが過去N日間における単語のトラフィックである場合、時間領域の波形は図3aのように示され、FFTを使用して履歴データシーケンスの時間領域から周波数領域への変換を実行することによって周波数領域シーケンスが得られ、図3bに示すような周波数領域の波形になる。その周波数領域シーケンスに従い、周波数値kに対応する垂直座標値X(k)が周波数値kに対応する推定周期の実効レート値として用いられる。数式4に関連して、推定周期とその実効レート値を周波数値kに従って計算することができる。単語のトラフィックのデータ点数Nが40であり、対応する垂直座標がX(k)6ならば、数式4により、周波数k=4に対応する推定周期は
Figure 0005857049
になり、その推定周期10の実効レート値X(k)は6になる。
1つの実施形態において、動作S202では、Webサイト日誌の分析結果から単語のユーザー挙動数の履歴データシーケンスが抽出され、履歴データシーケンスの各履歴データをFFTの入力データとして使用することにより、出力結果を生成することができる。その出力結果の各周波数値により、履歴データシーケンスの発現しうる各周期(本開示では「推定周期」と呼ぶ)が得られる。各周波数値に対応する実効レート値は、各周波数値に対応する推定周期の実効レート値である。
いわゆる安定シーケンスは、明確かつ規則的な変化を現さないシーケンスを意味する。この明確かつ規則的な変化とは、周期的な変化のことである。シーケンスx(t)は、以下の条件を満たすときに安定シーケンスとみなされ、他の場合には不安定シーケンスとみなされる。
1.任意のt∈Nについて、EXt 2<+∽(数学的期待値の二乗が正の無限大より小さい)
2.任意のt∈Nについて、EXt=μ(数学的期待値が一定)
3.任意のt,s∈Nについて、E[(Xt−μ)(Xs−μ)]=γt-s(自己共分散関数が一定)
S203の1つの実施形態において、既定の安定シーケンス基準には、すべての推定周期についていずれの実効レート値も設定された実効レート閾値を超えない、ということが含まれる。一般に、実効レート閾値は10である。1つの実装において、用途の種類に応じて安定シーケンス基準を設定することができ、たとえば、推定周期の実効レート値の少なくとも90%が実効レート閾値を超えない、という設定が可能である。
たとえば、単語のユーザー挙動数の履歴データシーケンスに関して、すべての推定周期点および実効レート値が表1に示すような値であれば、その履歴データシーケンスを安定シーケンスと判定することができる。すべての推定周期点および実効レート値が表2に示すような値であれば、その履歴データシーケンスを不安定シーケンスと判定することができる。
Figure 0005857049
Figure 0005857049
1つの実施形態において、動作S204では、安定シーケンスの場合、用途に応じて特定の数の履歴データ点を設定することができる。
1つの実施形態において、動作S204では、不安定シーケンスの場合、履歴データシーケンスの主周期および特異点を各推定周期およびその実効レート値に従って選択することができる。
主周期は、履歴データシーケンスのすべての推定周期の中でもっとも可能性が高い推定周期を意味する。したがって、主周期範囲内にあって最大の実効レート値を有する推定周期がその構成された主周期範囲による主周期とされる。また、主周期ではなく、最大の実効レート値を有する推定周期が特異点とされる。
たとえば、単語のユーザー挙動数の履歴データシーケンスに関して、すべての推定周期点および実効レート値が表2に示すような値である場合、時間周期が1日である応用例について、大量のデータ試験および実際の業務データを分析することによって主周期範囲が7以下と確定されれば、主周期として7が選択され、42が特異点になる。
選択された主周期および選択された特異点に基づいて予測点のユーザー挙動数を得るための1つの実装例には、訓練データシーケンスを構成するために履歴データシーケンスの選択された特異点よりも後の各履歴データ点を選ぶことが含まれる。次いで時系列モデルを使用し、その訓練データシーケンスのモデルを作成して、解を得る。
図4は、選択された主周期および選択された特異点に基づいて予測点のユーザー挙動数を得るための別の実装を示す。動作S401において、第一の訓練データシーケンスが形成される。この第一の訓練データシーケンスは、選択された特異点に対応する履歴データ点よりも後の履歴データの個別履歴データ点と関連づけられた1組のデータを含む。動作S402では、第一の訓練シーケンスの1組の第一の訓練データを平均化することによって周期平均値が得られる。第一の訓練データの各組は、1つ以上の主周期位置に対応する。動作S403では、第一の訓練データの各組から周期平均値を減算することによって1組の第二の訓練データが算出される。動作S404では、第二の訓練データの組を含む無周期の第二の訓練シーケンスが形成される。動作S405では、無周期である当該予測点の1つのユーザー挙動数が第二の訓練データシーケンスのモデルに基づいて計算される。そのモデルは、時系列モデルを使用して作成される。
一般に、この時系列モデルには、ARモデル(自己回帰モデル)とMAモデル(移動平均モデル)の混合であるARMAモデル(自己回帰移動平均モデル)が採用される。ARMAモデルの定義は数式5で示される。
Figure 0005857049
上式で、εtはホワイトノイズシーケンスを意味し、φ、θはパラメータである。
ある実施形態において、無周期の訓練データシーケンスの各訓練データがARMAモデルの入力データとして使用され、パラメータ推定アルゴリズム(最小二乗アルゴリズム、最尤アルゴリズムなど)を使用することによってφおよびθのパラメータ値が得られる。そのパラメータ値φおよびθをARMAモデルで使用することができる。無周期の訓練データシーケンスの各訓練データがARMAモデルの入力データ(パラメータ値φおよびθを含む)として使用され、その出力結果によって予測点の予測結果、すなわち無周期のユーザー挙動数が得られる。
動作S406では、1つのユーザー挙動数と1つ以上の主周期位置の中の1つに対応する周期平均値とを加算することによって予測点のユーザー挙動数が算出される。
具体的な実装プロセスを説明するためにいくつかの例を以下に示す。単語のトラフィックの訓練データシーケンスが1.1、2.1、3.1、3.9、0.9、2.2、2.9、4.1であり(単位:100回)、選択された主周期は4であると仮定する。ただし、ここに示す例は、1つの訓練データシーケンスという前提に基づくものである。
1つの実施形態において、ステップ1では、4つの位置すべてについて各訓練データの平均値演算が計算され、以下の結果が得られる。
第一の主周期位置に対応する周期平均値:(1.1+0.9)/2=1
第二の主周期位置に対応する周期平均値:(2.1+2.2)/2=2.15
第一の主周期位置に対応する周期平均値:(3.1+2.9)/2=3
第一の主周期位置に対応する周期平均値:(3.9+4.1)/2=4
ステップ2では、各主周期位置の対応する周期平均値がその訓練データから減算され、それぞれ1.1−1=0.1、2.1−2.15=−0.05、3.1−3=0.1、3.9−4=−0.1、0.9−1=−0.1、2.2−2.15=0.05、2.9−3=−0.1、および4.1−4=0.1という結果が得られる。
したがって、無周期の訓練周期シーケンスは、0.1、−0.05、0.1、−0.1、−0.1、0.05、−0.1、0.1になる。
ステップ3では、無周期の訓練データシーケンスのモデルを作成して解を得るためにARMAモデルが使用され、無周期の予測点のユーザー挙動数(すなわち予測結果)が得られる。予測点の数が3ならば、予測結果(無周期の各予測点のユーザー挙動数)は、−0.05、0.1、0.05になる。
ステップ4では、無周期の予測点のユーザー挙動数とその主周期位置の対応する周期平均値が加算され、第一の予測点のユーザー挙動数は0.95(−0.05+1=0.95)、第二の予測点のユーザー挙動数は2.25(0.1+2.15=2.25)、第三の予測点のユーザー挙動数は3.05(0.05+3=3.05)という結果が得られる。
時系列モデルは特異点に対して非常に敏感であるため、無周期の訓練データにいくつかの特異点が残ることがあり、その結果として、時系列モデルに基づく予測結果がより大きなオフセットを有することになる。したがって、本開示はさらに、時系列モデルに基づく予測結果を判定するために平均値アルゴリズムと時系列モデルを組み合わせるアルゴリズムを採用する。予測結果が大きなオフセットを有する場合、予測を実行し直すために時系列モデルの代わりに主周期に基づく平均値アルゴリズムが使用される。たとえば、履歴データシーケンス(時間周期は1日)の主周期が7であるとき、時系列モデルに基づく予測結果が大きなオフセットを有すると判断された場合、現在の予測点よりも前の過去7日間における履歴データの平均値が予測結果として使用される。言い換えれば、本予測方法は、追加ステップとして、予測点の現在のユーザー挙動数の偏差が既定の偏差閾値を超えた場合に、無周期である当該予測点よりも前の先行する主周期の訓練データの平均値を無周期のユーザー挙動数として採用し、無周期である当該予測点の当該のユーザー挙動数とその主周期位置の対応する周期平均値とを加算して予測点のユーザー挙動数を得る、というステップを含む。
単語のユーザー挙動数を予測するシステム内の予測装置の構造および機能について詳しく説明する。本予測装置の原理はユーザー挙動数を予測する方法と同様であるため、明瞭さを目的として本予測装置の実装を本方法の実施形態と呼ぶことができる。本予測装置の構造は、図5に示すように、1つ以上のプロセッサ501、ネットワークインタフェース502、入出力インタフェース504、およびメモリ503を含む。
メモリ503は、ランダムアクセスメモリ(RAM)などの揮発性メモリおよび/または読み出し専用メモリ(ROM)、フラッシュRAMなどの不揮発性メモリという形のコンピュータ可読媒体を含む。メモリ503はコンピュータ可読媒体の一例である。
コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意の方法または技術で実現された揮発性および不揮発性、着脱式および非着脱式の媒体を含む。コンピュータ記憶媒体の例には、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、その他の種類のランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的に消去可能なプログラム可能読み出し専用メモリ(EEPROM)、フラッシュメモリまたはその他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM)、デジタル多目的ディスク(DVD)またはその他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、あるいは、コンピューティング装置によってアクセスされる情報を格納するために使用されるその他任意の非伝送媒体が非限定的に含まれる。本明細書における定義として、コンピュータ可読媒体は変調データ信号および搬送波などの一時的媒体を含まない。
メモリ503は、プログラムユニット505およびプログラムデータ512を含むことができる。1つの実施形態において、プログラムユニット505は、変換ユニット506、決定ユニット507、判定ユニット508、第一の予測ユニット509、選択ユニット510および第二の予測ユニット511を含むことができる。
変換ユニット506は、単語のユーザー挙動数の履歴データシーケンスを時間領域から周波数領域に変換するように構成される。
決定ユニット507は、履歴データシーケンスの周波数領域に基づいて、履歴データシーケンスの1つ以上の推定周期、および1つ以上の各推定周期の実効レート値を確認するように構成される。
判定ユニット508は、1つ以上の各推定周期およびその1つ以上の各推定周期の実効レート値に基づいて、履歴データシーケンスが安定しているか判定するように構成される。
第一の予測ユニット509は、履歴データシーケンスが安定している場合、予測点よりも前の履歴データシーケンスのユーザー挙動数の平均値に基づいてその予測点のユーザー挙動数を計算するように構成される。
選択ユニット510は、履歴データシーケンスが安定していない場合、1つ以上の各推定周期およびその1つ以上の各推定周期の実効レート値に基づいて主周期および履歴データシーケンスの特異点を選択するように構成される。
第二の予測ユニット511は、選択された主周期および選択された特異点に基づいて予測点のユーザー挙動数を計算するように構成される。
1つの実施形態において、選択ユニット510は以下のサブユニットを含むことができる。第一の選択サブユニットは、1つ以上の推定周期の中の第一の推定周期を主周期として選択するように構成される。その第一の推定周期は、構成された主周期範囲内にあって最大の実効レート値を有するものである。第二の選択サブユニットは、1つ以上の推定周期の中の第二の推定周期を特異点として選択するように構成される。このとき、第二の推定周期の1つの実効レート値は、1つ以上の推定周期の中の他の推定周期の実効レート値より大きい。他の推定周期の中に第一の推定周期は含まれず、1つ以上の推定周期には複数の推定周期が含まれる。
1つの実施形態において、第二の予測ユニット511は、図6に示すように、以下のサブユニットを含むことができる。選択サブユニット601は、選択された特異点に対応する履歴データ点よりも後の履歴シーケンスの個別履歴データ点と関連づけられた1組のデータを含む訓練データシーケンスを形成するように構成される。予測サブユニット602は、その訓練データシーケンスのモデルに基づいて予測点のユーザー挙動数を計算するように構成され、そのモデルは時系列モデルを使用して作成される。
別の実施形態において、第二の予測ユニット511は、図7に示すように、以下のサブユニットを含むことができる。
選択サブユニット701は、選択された特異点に対応する点よりも後の履歴データシーケンスの個別履歴データ点と関連づけられた1組のデータを含む第一の訓練データシーケンスを形成するように構成される。
演算サブユニット702は、第一の訓練シーケンスの1組の第一の訓練データを平均化することによって周期平均値を得るように構成され、その1組の第一の訓練データの各々は1つ以上の主周期位置に対応している。
周期除去(de−cycle)プロセスサブユニット703は、訓練データシーケンスの各訓練データから個別の主周期位置に対応する周期平均値を減算することによって無周期の第二の訓練データシーケンスを算出し、その1組の第二の訓練データを含む無周期の第二の訓練シーケンスを形成するように構成される。
予測サブユニット704は、訓練データシーケンスのモデルに基づいて無周期の予測点の一つのユーザー挙動数を計算するように構成され、そのモデルは時系列モデルを使用して作成される。
周期復元プロセスサブユニット705は、ユーザー挙動数と1つ以上の主周期位置の中の1つに対応する周期平均値を加算することによって予測点のユーザー挙動数を算出するように構成される。
第二の予測ユニット506の上記の構造は、再予測サブユニット706をさらに含むことができる。再予測サブユニット706は、予測点の挙動数の偏差が構成された偏差閾値を超えているという判定後、無周期の第二の訓練シーケンスの訓練データの平均値を無周期の予測点の1つのユーザー挙動数として設定するように構成される。その訓練データは、予測点よりも前の1つの主周期と関連づけられている。
本開示によって提供される単語のユーザー挙動数を予測する方法および装置によれば、最初に、単語のユーザー挙動数の履歴データシーケンスが時間領域から周波数領域に変換される。これは、履歴データシーケンスの各推定周期およびその実効レート値を決定するとともに、単語のユーザー挙動数が著しくおよび/または規則的に変化しているか判定するためである。安定シーケンスの場合は、予測に平均値アルゴリズムが使用され、不安定シーケンスの場合には、予測点のユーザー挙動数を得るために主周期および特異点が選択される。異なる種類の履歴データシーケンスに対して異なる予測アルゴリズムが使用されるため、システムの演算負荷が低減される。安定シーケンスの履歴データについては将来のデータを迅速に予測することができ、不安定シーケンスの履歴データについては将来のデータを正確かつ確実に予測することができる。
本開示の実施形態によれば、本開示によって提供される単語のユーザー挙動数を予測する方法および装置は、多数の単語が使用される状況で実装することが可能である。さらに、時間領域から周波数領域への変換機能および安定/不安定シーケンスに関する予測アルゴリズムは、容易に実装することができる。そのため、機器による処理の量および複雑さを低減することができ、同じく機器の消費も低減される。
本開示の実施形態において、不安定シーケンスの場合、選択された履歴データシーケンスの特異点よりも後の履歴データ点が訓練データシーケンスを構成するために選ばれ、モデルを作成して解を得るために時系列モデルが使用される。また、周期除去プロセスおよび周期復元プロセスにより、周波数領域から時間領域への逆変換によって生じるエラーを減少させることができる。したがって、機器による処理の量および複雑さをさらに低減することができ、同じく機器の消費も低減され、予測の精度をさらに向上させることができる。
当業者が実装に関する上述の説明を読めば、本開示の実施形態がコンピュータ処理手順の方法、装置または製品でありえることが明確に理解されはずである。したがって、本開示は、ハードウェア、ソフトウェア、またはその両方の組み合わせという形で実現されうる。さらに、本開示は、コンピュータ記憶媒体(ディスクメモリ、CD−ROM、光学メモリなどを非限定的に含む)内に実装できるコンピュータアクセス可能な処理手順コードを含むコンピュータ処理手順の1つまたは複数の製品を採用することができる。
本開示は、各種の実施形態に関するコンピュータ処理手順の方法、装置および製品を含むフローチャートおよび/またはブロック図に従って説明されている。当然ながら、フローチャートおよび/またはブロック図の各フローおよび/またはブロックならびにその組み合わせをコンピュータ処理手順の命令によって実装することが可能である。コンピュータ処理手順のこれらの命令を汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、またはその他のプログラム可能なデータ処理機器に与えることができ、それによりコンピュータまたはその他のプログラム可能なデータ処理機器のプロセッサを通じてフローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックを実行できる装置としてのマシンを生成することができる。
コンピュータまたはその他のプログラム可能なデータ処理機器に対してある方法で動作するように指示できるコンピュータ可読メモリにコンピュータ処理手順のこれらの命令を格納することもでき、その結果、コンピュータ可読メモリに格納された命令によって、フローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックを実行できる命令装置を含む製品が生成される。
コンピュータ処理手順のこれらの命令をコンピュータまたはその他のプログラム可能なデータ処理機器に組み込み、そのコンピュータまたはその他のプログラム可能なデータ処理機器で一連のステップを実行させることにより、コンピュータによって実装可能なプロセスを生成することもできる。その結果、コンピュータまたはその他のプログラム可能な機器で実行される命令によって、フローチャートの1つ以上のフローおよび/またはブロック図の1つ以上のブロックを実行するステップが提供される。
本明細書に開示された実施形態は本開示の実装例にすぎない。当業者によって理解されるように、本開示はある実施形態について説明されているが、本開示の趣旨から逸脱することなく実施形態に対する任意の変更および改変が可能であり、それらも請求項の範囲に含まれるものとみなされるべきである。
当業者によって理解されるように、各モジュールを本実施形態の装置に分散させるか、または本開示の実施形態とは異なる1つ以上の装置に分散させることができる。本実施形態のモジュールを統合することができ、または個別に分散させることもできる。それらのモジュールを1個のモジュールとして統合することができ、または複数のサブモジュールにより小さく分割することもできる。上述の実施形態は単なる例示にすぎず、本開示の利点または不利点に言及したものではない。
ある具体的な実施形態が提示されているが、本開示の範囲はそれらの実施形態に限定されない。それらの実施形態に対して当業者が案出しうるあらゆる変更が本開示の範囲に包含される。

Claims (20)

  1. 単語のユーザー挙動数を予測する方法であって、前記方法は、
    コンピュータ上のプロセッサが、前記単語と関連づけられた前記ユーザー挙動数の履歴データシーケンスを時間領域から周波数領域に変換するステップと、
    前記プロセッサが、前記履歴データシーケンスの1つ以上の推定周期を確認するステップであって、前記1つ以上の推定周期の各々の実効レート値は前記履歴データシーケンスの前記周波数領域に基づく、ステップと、
    前記プロセッサが、前記1つ以上の推定周期の各々および前記1つ以上の推定周期の各々の前記実効レート値に基づいて、前記履歴データシーケンスが安定しているか判定するステップと、
    前記履歴データシーケンスが安定している場合、前記プロセッサが、予測点の前記ユーザー挙動数を、前記予測点よりも前の前記履歴データシーケンスの前記ユーザー挙動数の平均値に基づいて計算するステップと、
    前記履歴データシーケンスが安定していない場合、前記プロセッサが、前記1つ以上の推定周期および前記1つ以上の推定周期の各々の前記実効レート値に基づいて、前記履歴データシーケンスの主周期および特異点を選択するステップと、
    前記プロセッサが、前記選択された主周期および前記選択された特異点に基づいて、予測点の前記ユーザー挙動数を計算するステップ
    備えたことを特徴とする方法。
  2. 前記履歴データシーケンスが安定しているか判定するステップは、前記1つ以上の推定周期の各々の前記実効レート値が構成された実効レート閾値を超えているか判定するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記履歴データシーケンスの主周期および特異点選択するステップは
    前記1つ以上の推定周期の第一の推定周期を前記主周期として選択するステップであって、前記推定周期は、構成された主周期範囲内にあり、かつ最大の実効レート値を有する、ステップと、
    前記1つ以上の推定周期の別の推定周期を前記特異点として選択するステップであって、前記別の推定周期の1つの実効レート値は前記1つ以上の推定周期の中の他の推定周期の実効レート値より大きく、前記他の推定周期の中に前記第一の推定周期は含まれず、前記1つ以上の推定周期には複数の推定周期が含まれる、ステップと
    を含むことを特徴とする請求項1に記載の方法。
  4. 前記選択された主周期および前記選択された特異点に基づいて、予測点の前記ユーザー挙動数計算するステップは
    前記選択された特異点に対応する点よりも後の前記履歴データシーケンスの個別履歴データ点と関連づけられた1組のデータを含む訓練データシーケンスを形成するステップと、
    前記訓練データシーケンスのモデルに基づいて前記予測点の前記ユーザー挙動数を計算するステップであって前記モデルは時系列モデルを使用することによって作成されるステップと
    を含むことを特徴とする請求項3に記載の方法。
  5. 前記選択された主周期および前記選択された特異点に基づいて、予測点の前記ユーザー挙動数計算するステップは
    前記選択された特異点に対応する履歴データ点よりも後の前記履歴データシーケンスの個別履歴データ点と関連づけられた1組のデータを含む第一の訓練データシーケンスを形成するステップと、
    前記第一の訓練データシーケンスの1組の第一の訓練データを平均化することによって周期平均値を得るステップであって、前記1組の第一の訓練データの各々は1つ以上の主周期位置に対応する、ステップと、
    前記1組の第一の訓練データの各々から前記周期平均値を減算することによって1組の第二の訓練データを算出するステップと、
    前記1組の第二の訓練データを含む無周期の第二の訓練データシーケンスを形成するステップと、
    前記第二の訓練データシーケンスのモデルに基づいて無周期の前記予測点の1つのユーザー挙動数を計算するステップであって、前記モデルは時系列モデルを使用することによって作成される、ステップと、
    前記1つのユーザー挙動数と前記1つ以上の主周期位置の中の1つに対応する前記周期平均値を加算することによって前記予測点の前記ユーザー挙動数を算出するステップ
    を含むことを特徴とする請求項1に記載の方法。
  6. 前記予測点の前記ユーザー挙動数の偏差が構成された偏差閾値を超えているという判定後に、前記プロセッサが、無周期の前記第二の訓練データシーケンスの訓練データの平均値を、無周期の前記予測点の前記1つのユーザー挙動数として選択するステップをさらに備え、前記訓練データは前記予測点よりも前の1つの主周期と関連づけられていることを特徴とする請求項5に記載の方法。
  7. 前記履歴データシーケンス前記時間領域から前記周波数領域変換するステップは、高速フーリエ変換(FFT)またはウェーブレット変換を使用して変換するステップを含むことを特徴とする請求項1に記載の方法。
  8. 前記単語のユーザー挙動数は、前記単語のトラフィックまたはクリックレートを含むことを特徴とする請求項1に記載の方法。
  9. 単語のユーザー挙動数を予測する装置であって、
    前記単語のユーザー挙動数の履歴データシーケンスを時間領域から周波数領域に変換するための変換ユニットと、
    前記履歴データシーケンスの前記周波数領域に基づいて、前記履歴データシーケンスの1つ以上の推定周期および1つ以上の推定周期の各々の実効レート値を決定するための決定ユニットと、
    前記1つ以上の推定周期の各々および前記1つ以上の推定周期の各々の前記実効レート値に基づいて、前記履歴データシーケンスが安定しているか判定するための判定ユニットと、
    前記履歴データシーケンスが安定している場合、予測点の前記ユーザー挙動数を、前記予測点よりも前の前記履歴データシーケンスのユーザー挙動数の平均値に基づいて計算するための第一の予測ユニットと、
    前記履歴データシーケンスが安定していない場合、前記1つ以上の推定周期の各々および前記1つ以上の推定周期の各々の前記実効レート値に基づいて、前記履歴データシーケンスの主周期および特異点を選択するための選択ユニットと、
    前記選択された主周期および前記選択された特異点に基づいて予測点の前記ユーザー挙動数を計算するための第二の予測ユニットと
    備えたことを特徴とする装置。
  10. 前記選択ユニットが、
    構成された主周期範囲を格納するための格納サブユニットと、
    前記1つ以上の推定周期の第一の推定周期を前記主周期として選択するための第一の選択サブユニットであって、前記第一の推定周期は、前記構成された主周期範囲内にあり、かつ最大の実効レート値を有する、第一の選択サブユニットと、
    前記1つ以上の推定周期の第二の推定周期を前記特異点として選択するための第二の選択サブユニットとを含み、
    前記第二の推定周期の1つの実効レート値は前記1つ以上の推定周期の中の他の推定周期の実効レート値より大きく、前記他の推定周期には前記第一の推定周期が含まれず、前記1つ以上の推定周期には複数の推定周期が含まれることを特徴とする請求項9に記載の装置。
  11. 前記第二の予測ユニットが、
    前記選択された特異点に対応する履歴データ点よりも後の前記履歴データシーケンスの個別履歴データ点と関連づけられた1組のデータを含む訓練データシーケンスを形成するための選択サブユニットと、
    前記訓練データシーケンスのモデルに基づいて前記予測点の前記ユーザー挙動数を計算するための予測サブユニットとを含み、
    前記モデルは時系列モデルを使用することによって作成されることを特徴とする請求項9に記載の装置。
  12. 前記第二の予測ユニットが、
    前記選択された特異点に対応する点よりも後の前記履歴データシーケンスの個別履歴データ点と関連づけられた1組のデータを含む第一の訓練データシーケンスを形成するための選択サブユニットと、
    前記第一の訓練データシーケンスの1組の第一の訓練データを平均化することによって周期平均値を得るための演算サブユニットであって、前記1組の第一の訓練データの各々は1つ以上の主周期位置に対応する、演算サブユニットと、
    前記訓練データシーケンスの各訓練データから個別の主周期位置に対応する周期平均値を減算することによって無周期の第二の訓練データシーケンスを算出し、前記1組の第二の訓練データを含む無周期の第二の訓練データシーケンスを形成するための周期除去プロセスサブユニットと、
    前記訓練データシーケンスのモデルに基づいて、無周期の前記予測点の1つのユーザー挙動数を計算するための予測サブユニットであって、前記モデルは時系列モデルを使用することによって作成される、予測サブユニットと、
    前記1つのユーザー挙動数と前記1つ以上の主周期位置の中の1つに対応する前記周期平均値を加算することによって前記予測点の前記ユーザー挙動数を算出するための周期復元プロセスサブユニットとを含むことを特徴とする請求項9に記載の装置。
  13. 前記第二の予測ユニットが、
    前記予測点の前記挙動数の偏差が構成された偏差閾値を超えているという判定後に、無周期の前記第二の訓練データシーケンスの訓練データの平均値を、無周期の前記予測点の前記1つのユーザー挙動数として設定するための再予測サブユニットを含み、前記訓練データは、前記予測点よりも前の1つの主周期と関連づけされていることを特徴とする請求項12に記載の装置。
  14. 単語のユーザー挙動数を予測するように構成されたコンピュータ実行可能命令を有するコンピュータ可読記憶媒体であって、前記命令はコンピュータ上のプロセッサによる実行時に処理動作を実行するように構成されており、前記処理動作は、
    前記単語と関連づけられた前記ユーザー挙動数の履歴データシーケンスを時間領域から周波数領域に変換することと、
    前記履歴データシーケンスの前記周波数領域に基づいて、前記履歴データシーケンスの1つ以上の推定周期および前記1つ以上の推定周期の各々の実効レート値を確認することと、
    前記1つ以上の推定周期の各々および前記1つ以上の推定周期の各々の前記実効レート値に基づいて、前記履歴データシーケンスが安定しているか判定することと、
    前記履歴データシーケンスが安定している場合、予測点の前記ユーザー挙動数を、前記予測点よりも前の前記履歴データシーケンスの前記ユーザー挙動数の平均値に基づいて計算することと、
    前記履歴データシーケンスが安定していない場合、
    前記1つ以上の推定周期および前記1つ以上の推定周期の各々の前記実効レート値に基づいて、前記履歴データシーケンスの主周期および特異点を選択することと、
    前記選択された主周期および前記選択された特異点に基づいて、予測点の前記ユーザー挙動数を計算することとを含むことを特徴とするコンピュータ可読記憶媒体。
  15. 前記履歴データシーケンスが安定しているか判定することは、前記1つ以上の推定周期の各々の前記実効レート値が構成された実効レート閾値を超えているか判定することを含むことを特徴とする請求項14に記載のコンピュータ可読記憶媒体。
  16. 前記履歴データシーケンスの主周期および特異点の選択が、
    前記1つ以上の推定周期の第一の推定周期を前記主周期として選択することであって、前記推定周期は、構成された主周期範囲内にあり、かつ最大の実効レート値を有することと、
    前記1つ以上の推定周期の中の別の推定周期を前記特異点として選択することとを含み、
    前記別の推定周期の1つの実効レート値は、前記1つ以上の推定周期の中の他の推定周期の実効レート値より大きく、前記他の推定周期には前記第一の推定周期が含まれず、前記1つ以上の推定周期には複数の推定周期が含まれることを特徴とする請求項14に記載のコンピュータ可読記憶媒体。
  17. 前記選択された主周期および前記選択された特異点に基づいて予測点の前記ユーザー挙動数を計算することが、
    前記選択された特異点に対応する点よりも後の前記履歴データシーケンスの個別履歴データ点と関連づけられた1組のデータを含む訓練データシーケンスを形成することと、
    前記訓練データシーケンスのモデルに基づいて前記予測点の前記ユーザー挙動数を計算することとを含み、
    前記モデルは時系列モデルを使用することによって作成されることを特徴とする請求項16に記載のコンピュータ可読記憶媒体。
  18. 前記選択された主周期および前記選択された特異点に基づいて予測点の前記ユーザー挙動数を計算することが、
    前記選択された特異点に対応する履歴データ点よりも後の前記履歴データシーケンスの個別履歴データ点と関連づけられた1組のデータを含む第一の訓練データシーケンスを形成することと、
    前記第一の訓練データシーケンスの1組の第一の訓練データを平均化することによって周期平均値を得ることであって、前記1組の第一の訓練データの各々は1つ以上の主周期位置に対応することと、
    前記1組の第一の訓練データの各々から前記周期平均値を減算することによって1組の第二の訓練データを算出することと、
    前記1組の第二の訓練データを含む無周期の第二の訓練データシーケンスを形成することと、
    前記第二の訓練データシーケンスのモデルに基づいて、無周期の前記予測点の1つのユーザー挙動数を計算することであって、前記モデルは時系列モデルを使用することによって作成されることと、
    前記1つのユーザー挙動数と前記1つ以上の主周期位置の中の1つに対応する前記周期平均値を加算することによって前記予測点の前記ユーザー挙動数を算出することとを含むことを特徴とする請求項14に記載のコンピュータ可読記憶媒体。
  19. 前記履歴データシーケンスの前記時間領域から前記周波数領域への変換は、高速フーリエ変換(FFT)またはウェーブレット変換を使用して変換することを含むことを特徴とする請求項14に記載のコンピュータ可読記憶媒体。
  20. 前記単語のユーザー挙動数は、前記単語のトラフィックまたはクリックレートを含むことを特徴とする請求項14に記載のコンピュータ可読記憶媒体。
JP2013523233A 2010-08-02 2011-07-29 単語のユーザー挙動数の予測 Expired - Fee Related JP5857049B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201010244565.6 2010-08-02
CN201010244565.6A CN102346745B (zh) 2010-08-02 2010-08-02 单词的用户行为数的预测方法和装置
PCT/US2011/045981 WO2012018694A1 (en) 2010-08-02 2011-07-29 Predicting a user behavior number of a word

Publications (2)

Publication Number Publication Date
JP2013541063A JP2013541063A (ja) 2013-11-07
JP5857049B2 true JP5857049B2 (ja) 2016-02-10

Family

ID=45545429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013523233A Expired - Fee Related JP5857049B2 (ja) 2010-08-02 2011-07-29 単語のユーザー挙動数の予測

Country Status (6)

Country Link
US (1) US8849738B2 (ja)
EP (1) EP2601622A4 (ja)
JP (1) JP5857049B2 (ja)
CN (1) CN102346745B (ja)
HK (1) HK1163864A1 (ja)
WO (1) WO2012018694A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9444825B2 (en) * 2014-08-11 2016-09-13 Empire Technology Development Llc Continuous user authentication
CN106034246A (zh) * 2015-03-19 2016-10-19 阿里巴巴集团控股有限公司 一种基于用户操作行为的服务提供方法及装置
CN106257507B (zh) * 2015-06-18 2021-09-24 创新先进技术有限公司 用户行为的风险评估方法及装置
CN105162643B (zh) * 2015-06-30 2018-04-27 天津车之家科技有限公司 流量预估的方法、装置及计算设备
CN106339510B (zh) * 2016-10-28 2019-12-06 北京百度网讯科技有限公司 基于人工智能的点击预估方法及装置
CN108235360B (zh) * 2016-12-22 2021-08-06 上海掌门科技有限公司 甄别用户的方法及设备
CN107491830B (zh) * 2017-07-03 2021-03-26 北京奇艺世纪科技有限公司 一种时间序列曲线的处理方法和装置
CN107463904B (zh) * 2017-08-08 2021-05-25 网宿科技股份有限公司 一种确定事件周期值的方法及装置
CN110020739B (zh) * 2018-01-10 2024-03-05 京东科技控股股份有限公司 用于数据处理的方法、装置、电子设备及计算机可读介质
US11501765B2 (en) * 2018-11-05 2022-11-15 Dish Network L.L.C. Behavior detection
CN111222203B (zh) * 2018-11-08 2024-05-10 上海仪电(集团)有限公司中央研究院 一种轴承使用寿命模型创建及其预测方法
US11734585B2 (en) * 2018-12-10 2023-08-22 International Business Machines Corporation Post-hoc improvement of instance-level and group-level prediction metrics
CN113627696A (zh) * 2020-05-06 2021-11-09 中兴通讯股份有限公司 一种监测数据模态改变的方法、装置、设备及存储介质
CN111639011B (zh) * 2020-06-11 2023-05-12 支付宝(杭州)信息技术有限公司 一种数据监控方法、装置及设备
CN112862195B (zh) * 2021-02-19 2023-06-20 金陵科技学院 基于sft-als的时间序列粉丝涨幅预测方法
CN113537297B (zh) * 2021-06-22 2023-07-28 同盾科技有限公司 一种行为数据预测方法及装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274470A (ja) * 1993-03-19 1994-09-30 Mitsubishi Electric Corp 予測装置
JPH07306846A (ja) * 1994-05-13 1995-11-21 Nippon Telegr & Teleph Corp <Ntt> 時系列データ予測方法
US6801945B2 (en) 2000-02-04 2004-10-05 Yahoo ! Inc. Systems and methods for predicting traffic on internet sites
US6904408B1 (en) 2000-10-19 2005-06-07 Mccarthy John Bionet method, system and personalized web content manager responsive to browser viewers' psychological preferences, behavioral responses and physiological stress indicators
JP2002351897A (ja) * 2001-05-22 2002-12-06 Fujitsu Ltd 情報利用頻度予測プログラム、情報利用頻度予測装置および情報利用頻度予測方法
KR100458459B1 (ko) 2004-01-27 2004-11-26 엔에이치엔(주) 검색자의 검색 요청에 응답하여 검색 결과 목록을생성하고 검색어 광고를 제공하는 방법 및 검색어 광고제공 시스템
US9820658B2 (en) * 2006-06-30 2017-11-21 Bao Q. Tran Systems and methods for providing interoperability among healthcare devices
JP4343806B2 (ja) * 2004-09-22 2009-10-14 キヤノンItソリューションズ株式会社 予測装置及び予測方法並びにプログラム
JP4505589B2 (ja) * 2005-03-15 2010-07-21 独立行政法人産業技術総合研究所 周期判定装置、周期判定方法および周期判定プログラム
US7739143B1 (en) * 2005-03-24 2010-06-15 Amazon Technologies, Inc. Robust forecasting techniques with reduced sensitivity to anomalous data
US7676521B2 (en) 2006-03-31 2010-03-09 Microsoft Corporation Keyword search volume seasonality forecasting engine
US7987261B2 (en) 2007-07-31 2011-07-26 Yahoo! Inc. Traffic predictor for network-accessible information modules
GB2456894A (en) * 2008-01-30 2009-08-05 Ibm Harmonic analysis of computer workload
US20090254397A1 (en) 2008-04-07 2009-10-08 Yahoo! Inc. System and method for optimizing online keyword auctions subject to budget and estimated query volume constraints
US8738436B2 (en) * 2008-09-30 2014-05-27 Yahoo! Inc. Click through rate prediction system and method
US8001131B2 (en) 2008-12-17 2011-08-16 Demand Media Inc. Method and system for ranking of keywords for profitability
US20110082742A1 (en) 2009-03-20 2011-04-07 Adgooroo, Llc Methods and apparatus for estimating advertisement impressions and advertiser search share
US8572376B2 (en) 2009-03-27 2013-10-29 Bank Of America Corporation Decryption of electronic communication in an electronic discovery enterprise system
US20100250335A1 (en) 2009-03-31 2010-09-30 Yahoo! Inc System and method using text features for click prediction of sponsored search advertisements
CN101562534B (zh) * 2009-05-26 2011-12-14 中山大学 一种网络行为分析系统
US20100306161A1 (en) 2009-05-29 2010-12-02 Yahoo! Inc. Click through rate prediction using a probabilistic latent variable model
US20110231241A1 (en) 2010-03-18 2011-09-22 Yahoo! Inc. Real-time personalization of sponsored search based on predicted click propensity

Also Published As

Publication number Publication date
EP2601622A4 (en) 2014-03-05
EP2601622A1 (en) 2013-06-12
CN102346745B (zh) 2014-04-02
HK1163864A1 (en) 2012-09-14
CN102346745A (zh) 2012-02-08
US8849738B2 (en) 2014-09-30
JP2013541063A (ja) 2013-11-07
US20130144822A1 (en) 2013-06-06
WO2012018694A1 (en) 2012-02-09

Similar Documents

Publication Publication Date Title
JP5857049B2 (ja) 単語のユーザー挙動数の予測
US9696786B2 (en) System and method for optimizing energy consumption by processors
US10318874B1 (en) Selecting forecasting models for time series using state space representations
KR102498093B1 (ko) 사용자 디바이스 식별을 위한 방법 및 시스템
JP6815708B2 (ja) インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体
JP5952724B2 (ja) 人流調査支援システム及び方法
US20160321331A1 (en) Device and method
JP2017021772A (ja) コピュラ理論に基づく特徴選択
US10394600B2 (en) Systems and methods for caching task execution
US20200234132A1 (en) Compound model scaling for neural networks
WO2018229877A1 (ja) 仮説推論装置、仮説推論方法、及びコンピュータ読み取り可能な記録媒体
US20190287010A1 (en) Search point determining method and search point determining apparatus
JP2022500768A (ja) 熱負荷予測方法、装置、読み取り可能な媒体及び電子機器
CN113254472A (zh) 一种参数配置方法、装置、设备及可读存储介质
US10248462B2 (en) Management server which constructs a request load model for an object system, load estimation method thereof and storage medium for storing program
JPWO2016084326A1 (ja) 情報処理システム、情報処理方法、及び、プログラム
CN114297041A (zh) 网络异构计算平台测试方法、装置和计算机设备
JP2013065084A (ja) 予測方法及び予測プログラム
CN110928636A (zh) 虚拟机热迁移方法、装置和设备
TWI503675B (zh) The method of predicting the number of user actions of the word and the device
US11636377B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using time series decomposing and clustering
US20150169628A1 (en) Location detection from queries using evidence for location alternatives
CN115526402A (zh) 指标预测方法、装置、电子设备及存储介质
Mahmoudabadi et al. Directional kriging implementation for gridded data interpolation and comparative study with common methods
JP2012173982A (ja) 行動予測装置、行動予測方法及び行動予測プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151214

R150 Certificate of patent or registration of utility model

Ref document number: 5857049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees