JP2017045120A - 需要分布再現装置及び需要分布再現方法 - Google Patents

需要分布再現装置及び需要分布再現方法 Download PDF

Info

Publication number
JP2017045120A
JP2017045120A JP2015164878A JP2015164878A JP2017045120A JP 2017045120 A JP2017045120 A JP 2017045120A JP 2015164878 A JP2015164878 A JP 2015164878A JP 2015164878 A JP2015164878 A JP 2015164878A JP 2017045120 A JP2017045120 A JP 2017045120A
Authority
JP
Japan
Prior art keywords
distribution
day
dvc
generated
normal distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015164878A
Other languages
English (en)
Inventor
憲昭 上山
Kensho Kamiyama
憲昭 上山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015164878A priority Critical patent/JP2017045120A/ja
Publication of JP2017045120A publication Critical patent/JP2017045120A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ユーザ生成コンテンツの視聴数の推移を表す簡易な時系列モデルを構築すること。【解決手段】需要分布再現装置は、ネットワークを介して配信されるユーザ生成コンテンツの各日の生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率の対数正規分布とに基づいて、Multiplicative process(MPP)を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現部を有する。【選択図】図10

Description

本発明は、需要分布再現装置及び需要分布再現方法に関する。
YouTube(登録商標)に代表される、ユーザが作成した動画コンテンツ(UGC:user generated content)の視聴がインターネットにおいて普及し、インターネットの全トラヒックにおいてUGCが占める割合が2013年に約34%に達している。当該割合は、今後も増加傾向が継続し、2018年には約50%に達することが予想されている。
UGCの配信には多くの場合、ネットワーク(NW)のエッジに近い場所に広く配置したキャッシュサーバからコンテンツを配信するCDN(content delivery networks)が用いられる。また、近年、コンテンツを効率的に転送するNWアーキテクチャとして、コンテンツをNW内のルータでキャッシュし、コンテンツの名称を用いて配信要求を配信サーバにルーティングする、Information-CentricNetworking(ICN)が注目されている。キャッシュサーバやキャッシュメモリの容量は有限であることから、コンテンツのキャッシュ位置がCDNやICNの効果に大きく影響する。
高人気コンテンツを優先してキャッシュしてキャッシュヒット率を高め、CDNの効果を最大化するには、コンテンツの将来の人気度を高精度に予測する必要があり、様々な予測方式が検討されている。例えば、YouTube(登録商標)の視聴数変化パタンを分析し、多くのコンテンツの日々の視聴数変化は、frequentlyaccessed又はrarely-accessedの二つに分類でき、前者についてはPCA(principal component analysis)で抽出した主成分の推移をARMA(autoregressive moving average)で推定し、後者については階層型クラスタ分析で抽出した各クラスタの時間変化パタンを適用することで推定する方式が検討されている。また、News投稿サイトのDigg(登録商標)とYouTube(登録商標)とのアクセスパタンを分析し、初期の人気度と長期間にわたる人気度との間には相関性があることを示し、前者で後者を予測することが検討されている。
ところで、キャッシュサーバの容量不足時に削除対象のコンテンツを選択するキャッシュ置換方式としては、最後に要求されてからの経過時間が最大のコンテンツを削除するLRU(least recently used)や、要求頻度が最小のコンテンツを削除するLFU(least frequently used)が広く使用されている。LRUやLFUは、アルゴリズムが簡易で個々のコンテンツの需要予測が不要であるが、結果的に高人気コンテンツがキャッシュに残るため、個々のコンテンツの人気度に応じてキャッシュ配置を最適化する場合と比較しても、十分なキャッシュヒット率を達成することが知られている。一方で、所望のキャッシュヒット率を達成するために必要となるキャッシュ容量設計が必要となるが、コンテンツの要求数分布がわかればキャッシュヒット率が推定でき、容量設計が可能である。
そこで、YouTube(登録商標)の需要の推移パタンやコンテンツの集合(カタログセット)の人気度の分布などの統計的傾向を明らかにするために、アクセスログの分析結果が様々に報告されている。例えば、非特許文献1では、ユーザ要求発生パタンの周期性を明らかにしいる。
A. Arvidsson, M. Du, A. Aurelius, and M. Kihl., Analysis of User Demand Patterns and Locality for YouTube Traffic, ITC 25. G. Gursun, M. Crovella, and I. Matta, Describing and Forecasting Video Access Patterns, INFOCOM 2011 Mini-conference. G. Szabo and B. Huberman, Predicting the Popularity of Online Content, ACM Communications, 2010. S. Traverso, M. Ahmed, M. Garetto, P. Giaccone, E. Leonardi, and S. Niccolini,Temporal Locality in Today 's Content Caching: Why it Matters and How to Model it, ACM CCR,2013. J. Ghimire, M. Mani, and N. Crespi, Modeling Content Hotness Dynamics in Networks, SPECTS 2010. D. Soysa, D. Chen, O. Au, and A. Bermak, Predicting YouTube Content Popularity via Facebook Data: A Network Spread Model for Optimizing Multimedia Delivery, IEEE CIDM 2013. J. Ratkiewicz, S. Fortunato, A. Flammini, F. Menczer, and A. Vespignani, Characterizing and modeling the dynamics of online popularity, Physical Review Letters, Vol. 105, No. 15, Oct. 2010. L. Adamic and B. huberman, The Nature of Markets in the World Wide Web, Quarterly Journal of Economic Commerce 1, 2000. Y. Borghol, S. Mitra, S. Ardon, N. Carlsson, D. Eager, and A. Mahanti, Characterizing and Modeling Popularity of User-generated Videos, Performance Evaluation, 2011.
有力なコンテンツプロバイダが商業サービスとしてコンテンツを提供するVoDとは異なり、UGCは、多様なユーザが生成することから、その人気の変動パタンは複雑で多様であり、各コンテンツの将来の人気度の予測には大きな計算負荷が発生する。例えば、非特許文献2における方式では、計算量の大きなARMAを用いており、また、各ビデオについて一年の間で1回以上視聴された日数を記憶する必要があり、1年以上先の需要が予測対象となる。また、非特許文献3における方式では、線形モデルにおける回帰係数をトレーニングセットにより逐一計算する必要がある。VoDとは異なりUGCは、膨大な数のユーザによって生成され、コンテンツの集合(カタログセット)は、時間の経過に対して大きく変化する。そのため、各コンテンツの将来の要求数を予測する処理を短期間周期で反復することが望ましいが、既存の予測方式は、いずれも計算量が多く、短期間周期で膨大な数のコンテンツの要求数を予測することは困難である。
YouTube(登録商標)ビデオの時間的・空間的な人気度の変化パタン分析により、YouTube(登録商標)の日視聴数(DVC:daily view count)の分布を得ることができるが、得られたDVC分布は、特定の地域や期間での結果であり、異なる地域や期間に対して汎用的に用いることができない。汎用性のある方法でYouTube(登録商標)ビデオのDVC分布推定を行うには、YouTube(登録商標)ビデオの視聴数推移を簡易な時系列モデルでモデル化することが望ましい。
そのため、各ビデオの人気度を変化させる要因を明らかにするために、YouTube(登録商標)の視聴要求発生パタンや視聴数の時間的推移パタンをモデル化する取り組みも報告されている。非特許文献4では、YouTube(登録商標)のアクセスパタンを分析し、従来の静的なZipfモデルでは要求頻度分布の時間的な変動を考慮できないことを示し、コンテンツを、総要求数とライフタイムの二つの尺度で6つのグループに分類して各々をレートが変化するポアソン過程でモデル化し、それらを束ねたモデル(SNM:shot-noise model)で視聴要求数の発生過程をモデル化することを提案している。しかし、数日といった短時間スケールにおける視聴要求の発生時間間隔のモデル化に注力しており、1年といった長時間スケールにわたるYouTube(登録商標)ビデオの人気度の推移パタンについては考慮されていない。また、非特許文献5では、各ビデオの人気度(視聴数)の時間的な推移をマルコフチェインでモデル化しており、非特許文献6では、YouTube(登録商標)での視聴頻度とFacebook(登録商標)でシェアされる割合は相関性が高いことに着目し、Facebook(登録商標)で関心がユーザ間で広がっていく過程をアクティブ度合に関する単一の閾値モデルFTSMでモデル化し、YouTube(登録商標)ビデオの関心の拡散をモデル化している。更に、対象がYouTube(登録商標)ではないが、非特許文献7では、WikipediaとWebにおける外部からの被リンク数の時間変化を分析し、その人気度の変化割合が冪乗則を示すことを示し、Ranking-shiftモデルにより人気度の外部要因による不連続的な変化現象を再現している。しかし、これら、非特許文献5、非特許文献6、及び非特許文献7における三つの取り組みは、単一のUGGの人気度の時間発展過程のモデル化に注力しており、多数のUGCが重畳された結果として出現する人気度の分布は考慮されていない。
多数のUGCの人気度分布を再現する取り組みとして、非特許文献8では、Webサイトの各日の訪問者数の分布が冪乗則を示すことを明らかにし、各サイトの各日の訪問者数の時間発展モデルとしてMPP(Multiplicative process)を用いることで、訪問者数の冪乗則を再現できることを解析的に導出しているが、YouTube(登録商標)を対象とした分析ではない。YouTube(登録商標)を対象とした視聴数分布を再現する取り組みとしては、非特許文献9における、ランダムサンプルしたコンテンツの一週間の粒度で見たアクセス数の推移の分析が挙げられるが、各ビデオをピーク視聴数日とその前後の三つのフェーズに分類して各々のグループの視聴数分布を組合せて全体の視聴数分布を再現しており、各ビデオの視聴数推移は考慮されていない。
本発明は、上記の点に鑑みてなされたものであって、ユーザ生成コンテンツの視聴数の推移を表す簡易な時系列モデルを構築することを目的とする。
そこで、上記課題を解決するため、需要分布再現装置は、ネットワークを介して配信されるユーザ生成コンテンツの各日の生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率の対数正規分布とに基づいて、Multiplicative process(MPP)を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現部を有する。
ユーザ生成コンテンツの視聴数の推移を表す簡易な時系列モデルを構築することを目的とする。
観測対象ビデオの各種特性値の平均値、中央値、標準偏差(STD)、及び最大値を示す図である。 日生成ビデオ数(GVC)の統計分析の結果を示す図である。 ライフ長(LL)の統計分析の結果を示す図である。 各ビデオのアップロード日の視聴数IVCの統計分析の結果を示す図である。 経過日数に対する各ビデオの視聴数の統計分析の結果を示す図である。 各日における各ビデオの視聴数の統計分析の結果を示す図である。 第100日目以後の各日の各ビデオのDVCのCCD等を示す図である。 MPVに関する統計分析の結果を示す図である。 第1の実施の形態における需要分布再現装置のハードウェア構成例を示す図である。 第1の実施の形態における需要分布再現装置の機能構成例を示す図である。 第1の実施の形態における数値評価を説明するための図である。 各ビデオの各日のDVCに対するMPV等を示す図である。 各DVCグループのDVCの下限値及び上限値と、分類されたMPVサンプルの平均値、中央値、及び標準偏差を示す図である。 第2の実施の形態における需要分布再現装置の機能構成例を示す図である。 4つの各DVCグループにおける観測データのMPVのCCDを示す図である。 第2の実施の形態における数値評価を説明するための図である。 4つの日における観測データのDVCのCCDとSgMPPの各対応ステップ時点で生成されたXのCCDとを示す図である。
以下、図面に基づいて本発明のユーザ生成コンテンツの需要分布再現法について、第1の実施の形態を説明する。本実施の形態では、YouTube(登録商標)によって配信される動画データ(以下、「YouTube(登録商標)ビデオ」又は「ビデオ」という。)を、インターネット等のネットワークを介して配信されるユーザ生成コンテンツ(UGC:user generated content)の一例とする。まず、本発明に関して観測した、YouTube(登録商標)ビデオに関する観測データについて述べる。
[データ取得方法]
Google(登録商標)が提供するYouTube(登録商標)の各種データを取得するYouTube(登録商標)Data APIを用いて収集された、2013年4月9日から2013年12月31日までの267日間の各ビデオのDVCデータを分析に用いた。DVC(daily view count)とは、1日(24時間)あたりの視聴数(日視聴数)をいう。以後、観測開始日からの経過日数で日付を表すが、例えば、第1日が4月9日に、第267日が12月31日に該当する。
本APIは、YouTube(登録商標)ビデオに関する様々な統計情報を提供しているが、1分周期で本APIを用いて、直近の1分の間に新たにアップロードされたビデオ(recently uploaded videos)のIDをYouTube(登録商標)に問合せて取得する。なお、一度の問合せで得られるID数には上限が設けられているため、直近の1分間に全世界でアップロードされた全てのビデオではなく、その一部について回答が得られる。そして、1日24時間における1440の時分の各々に対して、その時刻にアップロードされたビデオのIDとアップロード日のリストを記録するためのファイルを作成する。例えば、14時28分に対応するファイルには、14時28分から1分間の間にアップロードされたビデオのIDとアップロード日が、267日分追記されていく。このようなビデオのIDリスト更新処理を観測期間中の毎分に反復した。日の経過に伴い新たにビデオIDが各々のリストに追加されるためリストのサイズが増加する。その結果、最終日(第267日)までに、1440のファイルにおいて、総計で52269個のビデオがリストに追加された。
そして、並行して、やはり1分周期で、各々の時刻に対応するファイルに記録されたIDに係る各ビデオについて、アップロードされてからの累積総視聴数をYouTube(登録商標)に問合せて取得する。具体的には、各時分において、当該時分に対応するファイルに格納されているIDに係るビデオの累積総視聴数を取得する。各ビデオについて、各日の同一時刻にYouTube(登録商標)に累積総視聴数を問合せることになるため、それまでにリストアップされたビデオの各々に対して、前日に取得した累積視聴数との差分から、各日のDVCを算出する。すなわち、ビデオvの第n日のDVCをx(n)、YouTube(登録商標)Data APIより取得された第n日におけるビデオvの累積総視聴数をy(n)、ビデオvがアップロードされた日を第U日とすると、U<n≦267に対しては、x(n)=y(n)−y(n−1)で、n=Uに対してはx(n)=y(n)により、x(n)を算出した。観測を開始した第1日目以後にアップロードされたビデオのみが視聴数の問い合わせ対象となるため、第1日目以降においてアップロードされたビデオのみがDVCデータの取得対象となり、以後、日の経過に伴いDVCデータの対象が増加する。
[YouTube(登録商標)データの統計分析]
52269個のYouTube(登録商標)ビデオのDVCデータの各種特性を分析した結果について説明する。図1に、これら52269個のYouTube(登録商標)ビデオ(以下、「観測対象ビデオ」という。)の各種特性値の平均値、中央値、標準偏差(STD)、最大値を示す。但し、GVC(generated video count)を各日に新規にアップロードされたビデオの数、LL(life length)を各ビデオのアップロード日から最後に視聴が観測された日までの経過日数(ライフ長)、IVC(initial view count)をアップロード日の視聴数、ADVC(averageDVC)を各ビデオのライフ期間中のDVCの平均値と定義する。GVCについては267日間の全ての日を対象に、LLとIVCとADVCは、52269個の全てのビデオを対象に、また、DVCは、全期間の各日において視聴数が1以上の全ての各ビデオの視聴数を対象に、これら代表値を計算した。
[日生成ビデオ数(GVC)の統計分析]
図2は、日生成ビデオ数(GVC)の統計分析の結果を示す図である。図2(a)には、各日dにアップロードされたビデオの数であるGVCがdに対してプロットされている。GVCの曜日ごとの傾向の違いは小さく、一週間の周期変動性は見られないが、第100日程度以降において数10日といったスケールでの増加・減少トレンドが見られる。また、最初の約80日のGVCは、以降の値と比較して全体的に大きい傾向が見られる。
図2(b)には、DVCデータセット(DVCのデータ群)におけるGVCの累積補分布(CCD)と、GVCの平均値198.7と標準偏差66.3とを一致させた対数正規分布(Lognormal)のCCDとがプロットされている。両者のCCDはよく一致しており、各日にアップロードされたYouTube(登録商標)ビデオ数は、対数正規分布に従うことが確認できる。なお、確率変数Xが平均μで標準偏差がσの対数正規分布に従うとき、その確率密度関数f(x)は、
Figure 2017045120
で与えられる。そのため、f(x)の自然対数は、
Figure 2017045120
となることから、σが十分に大きな場合には、xの広い範囲でf(x)の自然対数は、パレート分布等の冪乗則分布と同様、線形に減少する。しかし、xが大きい領域では線形よりも急激にlnf(x)は減少する。そのため、冪乗則分布は、平均値や標準偏差が無限大となるのに対して、対数正規分布のこれら代表値は有限の値をとる。
[ライフ長(LL)の統計分析]
図3は、ライフ長(LL)の統計分析の結果を示す図である。各ビデオvのライフ長LLは、アップロード日Uから最後に視聴が観測された日Eまでの経過日数E−U+1で定義される。
図3(a)には、各日dに最後に視聴が観測されたビデオの数E(d)が、各日dに対してプロットされている。267日の大分部の期間において、E(d)は、数個から数十個程度と、各日の平均アップロードビデオ数196個と比較して遥かに小さく、大多数のビデオは、観測期間終了日の近辺にEが集中している。コピーライトの問題などでYouTube(登録商標)から強制的に削除された場合や、アップロードしたユーザが自身の意思で削除する場合を除き、大分部のビデオは、一旦アップロードされた後はYouTube(登録商標)の配信サーバに存在し続けると考えられる。このことは、図3(b)に示すLLのCCDからも確認できる。なお、YouTube(登録商標)のビデオには、アップロードされた後の短期間に視聴が集中し、その後、全く視聴されなくなるものも多く存在することが予想される。しかし、YouTube(登録商標)のAPIで取得できるビデオのタイトル数には上限があるため、比較的、人気の高いものに偏っている可能性が考えられる。
このように、267日ほどの時間スパンでは、YouTube(登録商標)ビデオの多くは、一旦アップロードされた後、YouTube(登録商標)配信サーバ上に存在しているため、視聴が発生し続ける期間を十分に捉えることができず、YouTube(登録商標)ビデオのライフ長分布について分析することが困難である。ライフ長分布をより正確に分析するためには、更に長期間のDVC観測期間が必要となる。
[初期視聴数(IVC)の統計分析]
図4は、各ビデオのアップロード日の視聴数IVCの統計分析の結果を示す図である。図4(a)には、各日dにアップロードされたビデオのIVCの平均値がdに対してプロットされている。評価に用いたYouTube(登録商標)データに含まれるビデオは、各日に生成された個数が200個程度と少ないため、各日に出現したビデオのIVCの平均値は、日によって変動が大きい。また、図4(b)には、52269個の全ての各ビデオのIVCのCCDと、IVCの平均値9.018×10と標準偏差3.576×10とを一致させた対数正規分布のCCDとがプロットされている。両者のCCDはよく一致しており、YouTube(登録商標)ビデオのIVCは、対数正規分布に従うことが確認できる。
[日視聴数(DVC)の統計分析]
図5は、経過日数に対する各ビデオの視聴数の統計分析の結果を示す図である。或るビデオに関する経過日数とは、当該ビデオがアップロードされてからの経過日数である。図5(a)には、経過日数kの各々の時点における、各ビデオvのアップロード日から第k日目の視聴数^x(k)が1以上である全てのビデオの視聴数^x(k)の平均値と中央値とがプロットされている。アップロード日の直後にDVCは急激に減少し、その後も減少傾向が継続するが、減少度合いは日の経過に伴い小さくなり、緩やかな減少が継続することが分かる。なお、同様の傾向はUGCの人気度推移を分析した既存の研究でも報告されている。但し、観測期間267日目の付近ではDVCの増加が見られるが、^x(k)>0となるサンプルビデオ数が少ないことが原因と思われる。また、図5(b)には、ランダムに選択した20のビデオの各々について、^x(k)を各ビデオvの^x(k)の最大値で除した正規化日視聴数(NDVC:normalizeddaily view count)が経過日数kに対してプロットされている。全体的な傾向としては、図5(a)の傾向と同様、やはり初期に急激に減少して、その後は緩やかな減少が継続する傾向が確認できるが、個々のビデオによってNDVCの変化パタンは大きく異なり、人気度の推移パタンはビデオごとに大きく異なることが確認できる。
図6は、各日における各ビデオの視聴数の統計分析の結果を示す図である。以下の説明において、x(d)は、或る日dにおける或るビデオvの視聴数を示す。図6(a)には、x(d)>0の全ビデオを対象として算出した、x(d)の平均値と中央値とが各日dに対してプロットされている。DVCの平均値や中央値は、dが小さい場合には大きいが、dの増加に伴い急激に減少し、dが100日目程度以降はほとんど一定の値で推移することが確認できる。[データ取得方法]で述べたように、評価に用いたYouTube(登録商標)ビデオのDVCデータセットには、観測を開始した2013年4月9日以降にアップロードされたビデオのみが対象として含まれる。そのため、観測開始からの経過日数が短くdが小さい場合には、アップロードされてからの経過日数kの短いビデオのみがデータセットに含まれる。一方、図5で見たように、多くのビデオはアップロード直後に視聴数が多い傾向があるため、dが小さい場合にはDVCが大きなものに偏る結果となる。
また、図6(b)には、各月の第1日におけるDVCのCCDがプロットされている。5/1や6/1といった観測開始日に近い日においては、DVCが全体的に大きく、CCDが右上にシフトしているが、7/1から12/1までの6つの日におけるDVCのCCDは、ほぼ一致していることが確認できる。このように、評価に用いたデータセットでは観測初期のフェーズにおいてDVCが大きなものに偏る傾向があるが、観測を継続して100日目程度以降においては、アップロード日からの経過日数の様々なビデオが十分に多重され、各日のDVC分布において定常状態となることが確認できる。図5で見たように、各ビデオのDVCは、アップロード日からの経過日数の増加に伴い大きく変化するが、アップロードされてからの経過日数が様々なビデオが混在する結果、各日のDVCの分布は一定となる。
次に、定常状態に達したと想定される、観測開始日から第100日目以後の各日dの各ビデオvのDVCのCCDを図7(a)に示す。図7(a)には、当該CCDの平均値と分散jとを一致させた対数正規分布があわせてプロットされている。両者の分布はほぼ一致しており、多数のビデオの長期間にわたる各日のDVCの分布は、対数正規分布で近似可能であることが確認できる。また、図7(b)には、ランダムに選択した4つのビデオの各々に対して、視聴が観測された全ての日におけるDVCのCCDと、各々の平均と分散とを一致させた対数正規分布がプロットされているが、各ビデオの日々の視聴数についても、やはり対数正規分布に従うことが確認できる。
次に、Multiplicative processを用いたYouTube(登録商標)の日視聴数推移のモデル化について説明する。
[Multiplicative process]
上記したように、YouTube(登録商標)ビデオのDVCは対数正規分布に従うことが観測結果から分かった。対数正規分布を出現可能な簡易な確率過程としてMultiplicative process(MPP)が広く知られている。そこで、第1の実施の形態では、各ビデオの視聴数(DVC)の推移パタンをMPPでモデル化することを考える。MPPは、確率変数Xが初期値Xをとり、各離散時点jにおいて値Xをとるとき、任意の確率分布に従う確率変数Fを用いて、
=F−1 (1)
となる離散時間確率過程で定義される。MPPは、離散時点jの値Xの前の離散時点j−1の値Xj−1に対する倍率Fを、jとは無関係に同一の任意の分布で与えた確率過程であり、本実施の形態では、FをMPV(multiplicative value)と呼ぶ。再帰的に式(1)適用することで、lnXは、式(2)で表される。
Figure 2017045120
よって、Fが同一で独立の分布に従うとき、中心極限定理より、lnXは、正規分布に従う。よって、MPPによって生成されるXは対数正規分布に従う。
複数のMPPを重畳させた場合に出現する分布は各MPPのライフ長が従う分布に依存する。例えば、ライフ長が幾何分布に従う多数のMPPを重畳した場合、対数正規分布のボディを持ち、冪乗則分布のテイルを有するDouble Pareto分布が生成されることが知られている。
[YouTube(登録商標)の人気度推移へのMultiplicative processの適用]
MPPは、対数正規分布を出現させることから、MPPを用いて各YouTube(登録商標)ビデオのDVCの推移をモデル化することを考える。各MPPは、初期値Xの分布とMPVであるFの分布を与えることで規定される。更に、各離散時点において新規に生成されるMPPの数と、各MPPが生成されてから消滅するまでのライフ長の分布とを与えることで、複数のMPPを重畳させたSMPP(superposed MPP)が規定される。MPPの離散時間ステップを各日と考え、各ビデオvのDVCがMPPで生成される確率変数Xに、アップロード日の視聴数IVCがXに、各ビデオのDVCの前日のDVCに対する倍率がMPVに、各日にアップロードされたビデオ数GVCが新規生成MPP数に、各々該当する。
したがって、YouTube(登録商標)ビデオのDVC分布を再現するためにSMPPを用いるためには、(i)各日のアップロードビデオ数GVC、(ii)各ビデオの初期視聴数IVC、(iii)各ビデオのDVCの前日のDVCに対する倍率MPV、の三つの分布を与える必要がある。このうち、GVCの分布とIVCの分布については、各々、共に対数正規分布で与えられる。そこで、YouTube(登録商標)データを分析することで、残るMPVが従う分布を調べる。
図8は、MPVに関する統計分析の結果を示す図である。図8(a)には、x(d)とx(d−1)とが共にゼロより大きかった各ビデオvのMPV(x(d)/x(d−1))の平均値と中央値とが、各日dに対してプロットされている。MPVに対する変数rは、0<r<∞の範囲の実数値をとるが、r=1.0のとき、前日のDVCと同じ数の視聴要求が翌日にも生じたことを意味し、r<1.0の場合は前日のDVCから視聴数が減少し、また、r>1.0の場合は前日のDVCから視聴数が増加することを意味する。観測初期の時点では、アップロードからの経過日数の短いビデオのみがデータセットに含まれるが、それらのビデオのDVCは、日の経過に伴い急減する可能性が高いため、MPVの平均値や中央値は、1.0よりも小さな値を示す。しかし、日の経過に伴い、アップロードされてからの経過日数の長いビデオの割合が増加するが、これらのビデオのDVCの日々の変化量は小さいことから、60日目程度以降はMPVの平均値や中央値は安定的に推移し、特に中央値は、1.0付近の値をとる。
また、図8(b)には、MPVの全サンプル値を対象としたCCDが両対数でプロットされている。MPVの小さい領域では上に凸な曲線となり線形よりも急激に減少するが、MPVの中程度の広い領域において直線的に減少し、更に、MPVの裾の部分の減少率は線形よりも緩やかになり、冪乗則分布よりも更に裾が長い分布となる。YouTube(登録商標)ビデオは、Facebook(登録商標)等のSNS(social networking service)による口コミの拡散効果により、突発的に急激に特定のビデオの人気が増加する現象が見られることが要因と思われる。このように、MPVの分布は、三つの領域で異なる分布を組み合わせた分布に従うことが確認できる。そこで、MPVの下位99%の領域における平均値1.021と標準偏差0.445とを有する対数正規分布(Lognormal I)と、MPVの上位1%の領域における平均値4.446と標準偏差7.344とを有するパレート分布(Pareto II)と、更に、MPVの上位0.005%の領域における平均値3.157×10と標準偏差1.334×10とを有する対数正規分布(Lognormal III)とが、図8(b)に合わせてプロットされている。これら三つの近似分布は、各領域において、MPV分布のよい近似を与えることが確認できる。大分部のMPVサンプルは、Lognormal Iの領域に存在することから、Lognormal Iのみで近似したMPV分布を用いてSMPPを構成することを考える。
[第1の実施の形態における需要分布再現装置10]
次に、上記により得られた知見に基づく、ユーザ生成コンテンツの需要分布再現法を実行する需要分布再現装置10について説明する。
図9は、第1の実施の形態における需要分布再現装置のハードウェア構成例を示す図である。図9の需要分布再現装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
需要分布再現装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って需要分布再現装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図10は、第1の実施の形態における需要分布再現装置の機能構成例を示す図である。図10において、需要分布再現装置10は、統計情報取得部11、近似分布生成部12、及びSMPP実行部13等を有する。これら各部は、需要分布再現装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。需要分布再現装置10は、また、統計情報記憶部111及び視聴数分布記憶部112等を利用する。これら各記憶部は、例えば、補助記憶装置102、又は需要分布再現装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
統計情報取得部11は、例えば、YouTube(登録商標)等、対象とするUGC(以下、「対象UGC」という。)におけるコンテンツに関する統計情報を取得する。対象UGCが、YouTube(登録商標)であれば、統計情報取得部11は、[データ取得方法]で述べたような方法で統計情報を取得し、取得された統計情報を統計情報記憶部111に記憶する。例えば、[データ取得方法]出述べたように、時分ごとの1440のファイルが、統計情報記憶部111に記憶される。なお、対象UGCは、例えば、ユーザによって指定される。
近似分布生成部12は、対象UGCの各日のアップロードビデオ数(GVC)に関する対数正規分布と、各ビデオのアップロード日の視聴数(IVC)に関する対数正規分布と、前日の日視聴数(DVC)に対する翌日のDVCの倍率(MPV)に関する対数正規分布とを、統計情報記憶部111に記憶された統計情報に基づいて算出する。GVCに関する対数正規分布は、例えば、統計情報に含まれるDVCデータから算出される、GVCの平均値と標準偏差とを有する対数正規分布である。IVCに関する対数正規分布は、例えば、統計情報に含まれるDVCデータから算出される、IVCの平均値と標準偏差とを有する対数正規分布である。MPVに関する対数正規分布は、例えば、統計情報に含まれるDVCデータから算出される、MPVの下位99%の平均値と標準偏差とを有する対数正規分布(Lognormal I)である。但し、近似分布生成部12が生成する近似分布は、どのような環境におけるDVCの分布を再現したいかに応じて、適宜変更されてよい。例えば、各対数正規分布は、統計情報記憶部111に記憶された統計情報(観測データ)に基づいてではなく、ユーザから与えられたパラメータ等に基づいて、人為的に生成されてもよい。異なる対数正規分布に関してDVCの分布が再現されることで、異なる環境におけるDVC分布を再現することができる。
SMPP実行部13は、GVC、IVC、MPVの対数正規分布に基づいて、対象UGCの任意日におけるDVCの分布を生成し、生成されたDVCの分布を視聴数分布記憶部112に記憶する。
なお、図10に示される各部は、複数のコンピュータに分散されて実装されてもよい。換言すれば、需要分布再現装置10は、複数のコンピュータによって構成されてもよい。
以下、SMPP実行部13が実行する処理手順について更に詳しく説明する。SMPP実行部13は、以下に示す(1)〜(3)の処理を、統計情報記憶部111に統計情報が記憶された各日について反復する。または、当該各日は、ユーザによって指定された期間における各日であってもよい。なお、k番目の反復の時点での、重畳されたMPPの数をN、MPP(1≦i≦N)の状態値をXi,kとし、初期状態(k=0)ではMPPが存在しないものとする(N=0)。また、近似分布生成部12によって生成されるGVCに関する対数正規分布をΘ、近似分布生成部12によって生成されるIVCに関する対数正規分布をΥ、近似分布生成部12によって生成されるMPVに関する対数正規分布(Lognormal I)をΩと表記する。
(1)N本の重畳されている各MPPに対して、Ωに従う確率でランダムに選択したMPVri,kを用いて、状態Xi,kを、Xi,k=ri,ki,k−1により更新
(2)新たに重畳するMPPの本数nをΘに従う確率でランダムに選択して、Nk+1を、Nk+1=N+nにより更新
(3)新たに重畳するn本の各MPPに対してXi,kの初期値を、Υに従う確率でランダムに設定
上記の(1)〜(3)を反復することで、DVCの時系列の分布が生成される。SMPP実行部13は、生成されたDVCの分布を視聴数分布記憶部112に記憶する。
なお、分析に用いたYouTube(登録商標)のDVCデータセットにおいてはライフ長を規定することができないため、一旦生成されたMPPは、反復処理が終了するまで残留する。そのため、反復処理の進展に伴い、MPPの数Nは単調に増加するが、視聴が観測されたビデオの視聴数の最小値は1であることから、SMPPによって得られたXの分布を分析する際には、X≧1のMPPの状態値Xのみを対象に用いる。なお、YouTube(登録商標)においてもシステム上には存在するものの、ほとんど視聴されなくなったビデオも多数、存在することが予想されるが、X<1のMPPは、これら視聴されなくなったビデオに相当すると考えられる。
また、[データ取得方法]で述べたように、評価に用いたYouTube(登録商標)データは、観測開始日(2013年4月9日)においてビデオが存在しない状態から始まり、以後、各日にアップロードされたビデオがDVCデータの対象に追加されていくが、このことはSMPPの更新アルゴリズムの構成方法と合致している。
このように、本実施の形態によれば、ユーザ生成コンテンツの視聴数の推移を表す簡易な時系列モデルを構築するこができ、ユーザ生成コンテンツの需要分布を再現することができる。その結果、例えば、YouTube(登録商標)に代表されるユーザ生成コンテンツを配信するキャッシュサーバの容量設計など、UGCのある期間の視聴数の分布を必要とする各種設計や制御への入力データを生成することができる。
[数値評価]
次に、[データ取得方法]で述べた取得方法によって取得された267日分のデータ(統計情報)に基づく第1の実施の形態による出力結果に関する数値評価の結果について説明する。
各MPPを各YouTube(登録商標)ビデオのDVCを表す時系列過程と考え、複数のMPPを重畳したSMPPが生成する分布(すなわち、SMPP実行部13によって生成されるDVCの分布)と、YouTube(登録商標)ビデオの観測データに基づくDVC分布との一致度合を評価する。MPVとして、上記で述べた分布Ω(Lognormal I)に従う確率でランダムに設定した場合(lognormal MPV)に加えて、YouTube(登録商標)データで観測された実際のMPVの分布に従う確率でランダムに設定した場合(actual MPV)の結果について各々示す。但し、Xに、YouTube(登録商標)観測データのDVCの最大値9.056×10を超える値が設定された場合には、再度、Fを設定する処理を反復することで、Xが当該最大値以下となるよう更新した。YouTube(登録商標)データの観測開始日(2013年4月9日)を反復処理の反復ステップ1とみなし、SMPPの更新処理を観測期間267だけ反復し、最終反復ステップ267をYouTube(登録商標)データの観測終了日(2013年12月31日)とみなす。
図11は、第1の実施の形態における数値評価を説明するための図である。図11には、5/1、6/1、8/1、10/1の4つの日における観測データ(YouTube(登録商標)データ)のDVCのCCDと、各対応ステップ時点に関してSMPP実行部13によって生成されたXのCCDとがプロットされている。すなわち、図11におけるXのプロットは、SMPP実行部13による出力結果の一例である。但し、SMPP実行部13による267回の反復処理を、乱数のシードを変えて10回行った。
図6で確認したように、観測開始から100日程度が経過した以降にDVC分布が定常となるが、定常状態に達したと考えられる8/1と10/1とを含む4つの全サンプル日においても、SMPP実行部13によって生成された分布とYouTube(登録商標)データから算出した実際のDVC分布との間には多少の乖離が見られる。全体的にSMPPのCCDは右上に乖離しており、YouTube(登録商標)のDVC分布と比較して大きな値が生成される傾向がある。図8(b)で見たようにMPVの実際の分布の裾は長く、YouTube(登録商標)データの実際の分布を用いた場合と、Lognormal I近似分布を用いた場合と比較して、MPPの状態更新時に値の大きなMPVが適用される可能性が高くなるため、実際の分布を用いた方が更に、DVCの実分布からの乖離が大きくなっている。
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。第2の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。
第1の実施の形態では、各MPPを各YouTube(登録商標)ビデオに見立てて複数のMPPを重畳したが、図11で見られるように、YouTube(登録商標)の任意日のDVC分布の再現について誤差が発生する。そこで、第2の実施では、MPPを拡張することでYouTube(登録商標)ビデオのDVC分布の再現精度を向上させた例について説明する。
[DVCグループ別MPV分布]
第1の実施の形態では、全ての日の全てのビデオを対象に、DVCの前日からの倍率の分布をMPVに用いた。しかし、YouTube(登録商標)ビデオの多くは、アップロード日の直後のDVCが大きく、日の経過に伴い急激にDVCが減少する反面、日数が経過した後はDVCが小さく緩やかに減少する。そのため、DVCの値の大小によってMPV、すなわち、翌日のDVCの変化率は大きく異なることが予想される。
図12は、各ビデオの各日のDVCに対するMPV等を示す図である。図12(a)には、各ビデオvの各日dのDVCであるx(d)の前日のDVCであるx(d−1)に対する倍率r(d)が、x(d−1)に対してプロットされている。x(d−1)が同じような場合もr(d)は広範囲に散布しているが、r(d)が大きな値となるのは、前日のDVCが小さい場合が多く、やはり、DVCの値と翌日のMPVとの間には相関性が見られる。そのため、x(d−1)を値の大きさで複数のグループに分けた場合、グループによってMPV、すなわち、r(d)の分布が異なることが予想される。
そこで、ほぼ同数のMPVサンプルが各グループに分類されるようにDVCの値に3つの閾値を設定し、MPVサンプルを4つのグループに分類した。図13は、各DVCグループのDVCの下限値及び上限値と、分類されたMPVサンプルの平均値、中央値、及び標準偏差を示す図である。なお、図13では、割当範囲の値の小さな順にDVCグループのID(G1〜G4)が付与されている。
図7(a)で見たように、多くのDVCサンプルは、値の小さな領域に集中しているため、割当範囲の値の小さなDVCグループほど下限値と上限値との間隔が密となっている。また、DVCの大きなグループほど、MPVの平均値、中央値、及び標準偏差は小さくなる。図5で見たように、多くのYouTube(登録商標)ビデオは、アップロードされた日付近はDVCが大きいが、日の経過に伴い急激に減少し、その後は増減を繰り返しながら平均的には緩やかに減少する。そのため、DVCが大きなビデオほど、翌日のDVCは大きく減少しMPVは小さな値をとる傾向が高い。
図12(b)には、4つのDVCグループごとにMPVサンプルのCCDがプロットされている。DVCの値の大小でグループ分けをしてCCDを見た場合も、図11(b)で見たように下に凸な曲線となり、冪乗則分布よりも裾の部分の確率が高い分布となるが、DVCグループごとにMPVのCCDは大きく異なり、DVCの小さなグループほどMPVは全体的に大きくなり、広い範囲の値をとる傾向が確認される。
グループG4に分類されたMPVサンプルの多くは、アップロード日の直後のDVCが非常に大きなビデオが該当すると考えられ、翌日のDVCは大きく減少するため、MPVの平均値も中央値も1.0を下回っている。一方、グループG1やG2に分類されたMPVサンプルの多くは、アップロード日からの経過日数が長いビデオが該当すると考えられ、日々のDVCの変化量が小さくなり、MPVの中央値は、1.0となる。しかし、YouTube(登録商標)といったUGCは、SNSによる口コミの拡散効果により、突発的に急激に特定のビデオの人気が増加する現象が見られるため、頻度としてはごく小さいが、突出して大きな値のMPVが観測される場合があり(MPVサンプルの最大値は1.707×10であった。)、特に、グループG1のMPVの平均値は、2.0と、大きな値となっている。
[第2の実施の形態における需要分布再現装置10a]
そこで、第2の実施の形態における需要分布再現装置10aは、図14に示されるような機能構成を有する。図14は、第2の実施の形態における需要分布再現装置の機能構成例を示す図である。図14中、図10と同一部分には同一符号を付し、その説明は省略する。
図14において、需要分布再現装置10aは、近似分布生成部12の代わりにグループ別近似分布生成部15を有し、SMPP実行部13の代わりにSgMPP実行部16を有する。また、需要分布再現装置10aは、DVCグループ生成部14を更に有する。これら各部は、需要分布再現装置10aにインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。
DVCグループ生成部14は、統計情報記憶部111に記憶されている統計情報に基づいて、G個のDVCグループを生成する。具体的には、DVCグループ生成部14は、DVCに関して、G−1個の閾値を決定する。当該閾値は、各DVCグループの下限値及び上限値である。当該閾値は、各DVCグループに分類されるMPV(各DVCに付随するMPV)の数が、ほぼ同数(例えば、各DVCグループに属するMPVの数の差が所定値以内)となるように決定される。DVCグループ数であるGは、ユーザによって与えられてもよい。
グループ別近似分布生成部15は、近似分布生成部12の機能とほぼ同様の機能を実現する。但し、グループ別近似分布生成部15は、MPVの対数正規分布については、DVCグループ別に生成する。すなわち、グループ別近似分布生成部15は、GVC及びIVCのそれぞれの対数正規分布と、DVCグループ別のMPVの対数正規分布とを生成する。
SgMPP実行部16は、GVC、IVC、グループ別のMPVの対数正規分布に基づいて、対象UGCの任意日におけるDVCの分布を生成し、生成されたDVCの分布を視聴数分布記憶部112に記憶する。
すなわち、DVCグループによってMPVの分布が異なることから、SgMPP実行部16は、反復処理において処理対象の反復ステップにおけるDVCの値が含まれるDVCグループのMPV分布に従い、MPVを適用する。このような拡張を行ったMPPをgMPP(groupedMPP)という。
図15には、図12(b)に関して述べた4つの各DVCグループにおけるYouTube(登録商標)データのMPVのCCDがプロットされている。更に、図15には、MPVの下位99%の領域における平均値と標準偏差とを有する対数正規分布(Lognormal I)と、MPVの上位1%の領域における平均値と標準偏差とを有するパレート分布(Pareto II)と、グループG1とグループG2に対してはMPVの上位0.005%の領域における平均値と標準偏差とを有する対数正規分布(Lognormal III)とがプロットされている。4つの各DVCグループのMPVの分布は、これら三つ又は二つの領域において各々、対数正規分布とパレート分布の組で高精度に近似できることが確認できる。
大分部のMPVサンプルは、Lognormal Iの領域に存在することから、G個の各DVCグループのMPV分布をLognormal Iのみで近似した複数のgMPPを重畳したSgMPP(SuperposedgMPP)が利用される。
以下の(1)〜(3)に、SgMPP実行部16が実行する、G個のDVCグループを用いたSgMPPの各反復ステップkの処理内容を示す。但し、G個の各DVCグループgの下限値がbであるとき、g(x)をDVCであるxが分類されるDVCグループとすると、bg(x)≦x<bg(x)+1を満たす。また、グループ別近似分布生成部15によって生成された、DVCグループg別のMPVの下位99%の平均値と標準偏差とを有する対数正規分布(Lognormal I)をΩと表記する。
(1)N本の重畳されている各gMPPに対して、Ωg(Xi,k−1)に従う確率でランダムに選択したMPVri,kを用いて、状態Xi,kをXi,k=ri,ki,k−1により更新
(2)新たに重畳するgMPPの本数nをΘに従う確率でランダムに選択して、Nk+1を、Nk+1=N+nにより更新
(3)新たに生成したnk本の各gMPPに対してXi,kの初期値をΥに従う確率でランダムに設定
このように、反復ステップごとに、グループ別のMPVの対す正規分布が選択されて、(1)〜(3)が実行される。
上記の(1)〜(3)を反復することで、DVCの時系列の分布が生成される。SgMPP実行部16は、生成されたDVCの分布を視聴数分布記憶部112に記憶する。
[数値評価]
G個のDVCグループを用いてSgMPP実行部16によって生成されたSgMPPをSgMPP(G)と表記し、SgMPP(G)のYouTube(登録商標)のDVC分布の再現精度をMSE(mean squarederror)を用いて評価する。但し、YouTube(登録商標)データにおけるDVCの最小値1と最大値xmaxとの間を対数的に等間隔に100個の区間に分割したときの各境界点x=exp(log(xmax/100)・s),s=1,2,…,100におけるSgMPP(G)の生成分布の値^z(x)と、YouTube(登録商標)データのDVC分布の値z(x)とを用いて、
Figure 2017045120
でMSEを定義する。
図16は、第2の実施の形態における数値評価を説明するための図である。図16(a)には、Lognormal I近似分布を各DVCグループのMPV分布に用いたSgMPP(G)における、5/1、6/1、8/1、10/1の4つの各日に相当する反復時点のMSEが、グループ数Gに対してプロットされている。但し、与えられたGに対して、各DVCグループに分類されるMPVサンプル数が均等となるようにDVCグループを構成し、乱数のシードを変えて行った10回の試行の平均値がプロットされている。G=1が第1の実施の形態で述べたSMPPの場合に相当する。また、図16(b)には、各DVCグループgのMPV分布にYouTube(登録商標)データのDVCグループgの実際のMPV分布を用いた場合の結果が同様に示されている。
下位99%のみを考慮してLognormal IのみをMPVの近似分布として用いた場合も、実際のMPV分布を用いた場合と同程度の再現精度が達成されることが確認できる。Lognormal Iのみを用いてMPV分布を近似した場合、実際の分布を用いた場合と比較して計算量が大幅に抑えられることから、MPVの近似分布としてはLognormal Iのみを用いることが望ましい。Gが小さい領域では、Gの増加に伴いMSEは4つの全てのサンプル日において減少し、SgMPPのYouTube(登録商標)データDVC分布の再現精度が向上するが、Gが50程度以上の領域では、Gの変化に対してMSEはほぼ一定となる。Gの値が小さな方が、DVCグループ別のMPVのLognormal I近似分布算出に要する計算量が小さく、モデル構築に要する計算量が抑えられることから、Gは、40〜70程度に設定することが望ましい。
図17には、5/1、6/1、8/1、10/1の4つの日におけるYouTube(登録商標)データのDVCのCCDと、G=64に設定した10回のSgMPP(64)の各対応ステップ時点で生成されたXのCCDとがプロットされている。いずれのサンプル日においても、SgMPP(64)を用いることでYouTube(登録商標)のDVCのCCDを精度よく再現できることが確認できる。特に、YouTube(登録商標)データのDVC分布が定常状態に達した後の8/1と10/1の時点では、高精度な再現結果が得られている。
上述したように、第2の実施の形態によれば、ユーザ生成コンテンツの需要分布の再現精度を向上させることができる。
なお、上記各実施の形態において、SMPP実行部13及びSgMPP実行部16は、再現部の一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10、10a 需要分布再現装置
11 統計情報取得部
12 近似分布生成部
13 SMPP実行部
14 DVCグループ生成部
15 グループ別近似分布生成部
16 SgMPP実行部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
111 統計情報記憶部
112 視聴数分布記憶部
B バス

Claims (8)

  1. ネットワークを介して配信されるユーザ生成コンテンツの各日の生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率の対数正規分布とに基づいて、Multiplicative process(MPP)を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現部を有する、
    ことを特徴とする需要分布再現装置。
  2. 前記再現部は、複数の前記ユーザ生成コンテンツのMPPを重畳して、前記各日の視聴数の分布を再現する、
    ことを特徴とする請求項1記載の需要分布再現装置。
  3. 前記再現部は、前記各日に対応するMPPの各ステップkにおいて、重畳されたMPPの数をN、MPP(1≦i≦N)の状態値をXi,kとし、初期状態(k=0)ではMPPが存在しないものとし(N=0)、前記生成数の対数正規分布をΘ、前記アップロード日の視聴数の対数正規分布をΥ、前記倍率の対数正規分布をΩとするとき、
    本の重畳されている各MPPに対して、Ωに従う確率でランダムに選択したMPVri,kを用いて、状態Xi,kを、Xi,k=ri,ki,k−1により更新し、
    新たに重畳するMPPの本数nをΘに従う確率でランダムに選択して、Nk+1を、Nk+1=N+nにより更新し、
    新たに重畳するn本の各MPPに対してXi,kの初期値をΥに従う確率でランダムに設定する処理を前記各ステップkについて反復する、
    ことを特徴とする請求項2記載の需要分布再現装置。
  4. 各日におけるユーザ生成コンテンツの生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率を当該倍率に係る視聴数に基づいて分類したグループ別の対数正規分布とに基づいて、Multiplicative process(MPP)を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現部を有する、
    ことを特徴とする需要分布再現装置。
  5. 前記再現部は、複数のユーザ生成コンテンツの前記グループ別のMPPを重畳して、前記各日の視聴数の分布を再現する、
    ことを特徴とする請求項4記載の需要分布再現装置。
  6. 前記再現部は、G個の前記グループgの下限値がbであるとき、g(x)を視聴数xが分類される前記グループとすると、bg(x)≦x<bg(x)+1を満たし、前記各日に対応するMPPの各ステップkにおいて、重畳されたMPPの数をN、MPP(1≦i≦N)の状態値をXi,kとし、初期状態(k=0)ではMPPが存在しないものとし(N=0)、前記生成数の対数正規分布をΘ、前記アップロード日の視聴数の対数正規分布をΥ、前記グループg別の倍率の対数正規分布をΩとするとき、
    本の重畳されている各gMPPに対して、Ωg(Xi,k−1)に従う確率でランダムに選択したMPVri,kを用いて、状態Xi,kをXi,k=ri,ki,k−1により更新し、
    新たに重畳するgMPPの本数nをΘに従う確率でランダムに選択して、Nk+1を、Nk+1=N+nにより更新し、
    新たに生成したnk本の各gMPPに対してXi,kの初期値をΥに従う確率でランダムに設定する処理を前記各ステップkについて反復する、
    ことを特徴とする請求項5記載の需要分布再現装置。
  7. コンピュータが、
    ネットワークを介して配信されるユーザ生成コンテンツの各日の生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率の対数正規分布とに基づいて、Multiplicative process(MPP)を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現手順を実行する、
    ことを特徴とする需要分布再現方法。
  8. コンピュータが、
    各日におけるユーザ生成コンテンツの生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率を当該倍率に係る視聴数に基づいて分類したグループ別の対数正規分布とに基づいて、Multiplicative process(MPP)を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現手順を実行する、
    ことを特徴とする需要分布再現方法。
JP2015164878A 2015-08-24 2015-08-24 需要分布再現装置及び需要分布再現方法 Pending JP2017045120A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015164878A JP2017045120A (ja) 2015-08-24 2015-08-24 需要分布再現装置及び需要分布再現方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015164878A JP2017045120A (ja) 2015-08-24 2015-08-24 需要分布再現装置及び需要分布再現方法

Publications (1)

Publication Number Publication Date
JP2017045120A true JP2017045120A (ja) 2017-03-02

Family

ID=58211268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015164878A Pending JP2017045120A (ja) 2015-08-24 2015-08-24 需要分布再現装置及び需要分布再現方法

Country Status (1)

Country Link
JP (1) JP2017045120A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686433A (zh) * 2020-12-21 2021-04-20 上海东普信息科技有限公司 快递数量的预测方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686433A (zh) * 2020-12-21 2021-04-20 上海东普信息科技有限公司 快递数量的预测方法、装置、设备及存储介质
CN112686433B (zh) * 2020-12-21 2023-07-28 上海东普信息科技有限公司 快递数量的预测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Ding et al. Time-aware cloud service recommendation using similarity-enhanced collaborative filtering and ARIMA model
US8909644B2 (en) Real-time adaptive binning
Bi et al. SGW-SCN: An integrated machine learning approach for workload forecasting in geo-distributed cloud data centers
Li et al. On popularity prediction of videos shared in online social networks
Ferragut et al. Optimizing TTL caches under heavy-tailed demands
Neglia et al. Cache policies for linear utility maximization
US9495645B2 (en) Method and system of iteratively autotuning prediction parameters in a media content recommender
US10025785B2 (en) Method and system of automatically downloading media content in a preferred network
Carlsson et al. Ephemeral content popularity at the edge and implications for on-demand caching
JP2007317068A (ja) リコメンド装置およびリコメンドシステム
Le Scouarnec et al. Cache policies for cloud-based systems: To keep or not to keep
CN111881358B (zh) 一种对象推荐系统、方法、装置、电子设备和存储介质
CN111491175B (zh) 一种基于视频内容特征的边缘网络缓存方法和装置
Akhtar et al. Avic: a cache for adaptive bitrate video
CN113239182A (zh) 一种文章推荐方法、装置、计算机设备及存储介质
Zhang et al. Optimizing video caching at the edge: A hybrid multi-point process approach
US20210319349A1 (en) System and method for implementing an application prediction engine
US20240107125A1 (en) System and method for modelling access requests to multi-channel content sharing platforms
CN114443671A (zh) 推荐模型的更新方法、装置、计算机设备和存储介质
JP2017045120A (ja) 需要分布再現装置及び需要分布再現方法
CN110084455B (zh) 一种数据处理方法、装置及系统
US9866647B2 (en) Hierarchical cost based caching for online media
Chowdhury et al. Characterizing videos and users in YouTube: A survey
CN114785858B (zh) 应用于互感器在线监测系统的资源主动缓存方法及装置
CN112218114A (zh) 视频缓存控制方法、装置和计算机可读存储介质