JP2017045120A

JP2017045120A - 需要分布再現装置及び需要分布再現方法

Info

Publication number: JP2017045120A
Application number: JP2015164878A
Authority: JP
Inventors: 憲昭上山; Kensho Kamiyama
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2017-03-02

Abstract

【課題】ユーザ生成コンテンツの視聴数の推移を表す簡易な時系列モデルを構築すること。【解決手段】需要分布再現装置は、ネットワークを介して配信されるユーザ生成コンテンツの各日の生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率の対数正規分布とに基づいて、Multiplicative process（ＭＰＰ）を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現部を有する。【選択図】図１０

Description

本発明は、需要分布再現装置及び需要分布再現方法に関する。

ＹｏｕＴｕｂｅ（登録商標）に代表される、ユーザが作成した動画コンテンツ（ＵＧＣ：user generated content）の視聴がインターネットにおいて普及し、インターネットの全トラヒックにおいてＵＧＣが占める割合が２０１３年に約３４％に達している。当該割合は、今後も増加傾向が継続し、２０１８年には約５０％に達することが予想されている。

ＵＧＣの配信には多くの場合、ネットワーク（ＮＷ）のエッジに近い場所に広く配置したキャッシュサーバからコンテンツを配信するＣＤＮ（content delivery networks）が用いられる。また、近年、コンテンツを効率的に転送するＮＷアーキテクチャとして、コンテンツをＮＷ内のルータでキャッシュし、コンテンツの名称を用いて配信要求を配信サーバにルーティングする、Information-CentricNetworking（ＩＣＮ）が注目されている。キャッシュサーバやキャッシュメモリの容量は有限であることから、コンテンツのキャッシュ位置がＣＤＮやＩＣＮの効果に大きく影響する。

高人気コンテンツを優先してキャッシュしてキャッシュヒット率を高め、ＣＤＮの効果を最大化するには、コンテンツの将来の人気度を高精度に予測する必要があり、様々な予測方式が検討されている。例えば、ＹｏｕＴｕｂｅ（登録商標）の視聴数変化パタンを分析し、多くのコンテンツの日々の視聴数変化は、frequentlyaccessed又はrarely-accessedの二つに分類でき、前者についてはＰＣＡ（principal component analysis）で抽出した主成分の推移をＡＲＭＡ（autoregressive moving average）で推定し、後者については階層型クラスタ分析で抽出した各クラスタの時間変化パタンを適用することで推定する方式が検討されている。また、Ｎｅｗｓ投稿サイトのＤｉｇｇ（登録商標）とＹｏｕＴｕｂｅ（登録商標）とのアクセスパタンを分析し、初期の人気度と長期間にわたる人気度との間には相関性があることを示し、前者で後者を予測することが検討されている。

ところで、キャッシュサーバの容量不足時に削除対象のコンテンツを選択するキャッシュ置換方式としては、最後に要求されてからの経過時間が最大のコンテンツを削除するＬＲＵ（least recently used）や、要求頻度が最小のコンテンツを削除するＬＦＵ（least frequently used）が広く使用されている。ＬＲＵやＬＦＵは、アルゴリズムが簡易で個々のコンテンツの需要予測が不要であるが、結果的に高人気コンテンツがキャッシュに残るため、個々のコンテンツの人気度に応じてキャッシュ配置を最適化する場合と比較しても、十分なキャッシュヒット率を達成することが知られている。一方で、所望のキャッシュヒット率を達成するために必要となるキャッシュ容量設計が必要となるが、コンテンツの要求数分布がわかればキャッシュヒット率が推定でき、容量設計が可能である。

そこで、ＹｏｕＴｕｂｅ（登録商標）の需要の推移パタンやコンテンツの集合（カタログセット）の人気度の分布などの統計的傾向を明らかにするために、アクセスログの分析結果が様々に報告されている。例えば、非特許文献１では、ユーザ要求発生パタンの周期性を明らかにしいる。

A. Arvidsson, M. Du, A. Aurelius, and M. Kihl., Analysis of User Demand Patterns and Locality for YouTube Traffic, ITC 25. G. Gursun, M. Crovella, and I. Matta, Describing and Forecasting Video Access Patterns, INFOCOM 2011 Mini-conference. G. Szabo and B. Huberman, Predicting the Popularity of Online Content, ACM Communications, 2010. S. Traverso, M. Ahmed, M. Garetto, P. Giaccone, E. Leonardi, and S. Niccolini,Temporal Locality in Today 's Content Caching: Why it Matters and How to Model it, ACM CCR,2013. J. Ghimire, M. Mani, and N. Crespi, Modeling Content Hotness Dynamics in Networks, SPECTS 2010. D. Soysa, D. Chen, O. Au, and A. Bermak, Predicting YouTube Content Popularity via Facebook Data: A Network Spread Model for Optimizing Multimedia Delivery, IEEE CIDM 2013. J. Ratkiewicz, S. Fortunato, A. Flammini, F. Menczer, and A. Vespignani, Characterizing and modeling the dynamics of online popularity, Physical Review Letters, Vol. 105, No. 15, Oct. 2010. L. Adamic and B. huberman, The Nature of Markets in the World Wide Web, Quarterly Journal of Economic Commerce 1, 2000. Y. Borghol, S. Mitra, S. Ardon, N. Carlsson, D. Eager, and A. Mahanti, Characterizing and Modeling Popularity of User-generated Videos, Performance Evaluation, 2011.

有力なコンテンツプロバイダが商業サービスとしてコンテンツを提供するＶｏＤとは異なり、ＵＧＣは、多様なユーザが生成することから、その人気の変動パタンは複雑で多様であり、各コンテンツの将来の人気度の予測には大きな計算負荷が発生する。例えば、非特許文献２における方式では、計算量の大きなＡＲＭＡを用いており、また、各ビデオについて一年の間で１回以上視聴された日数を記憶する必要があり、１年以上先の需要が予測対象となる。また、非特許文献３における方式では、線形モデルにおける回帰係数をトレーニングセットにより逐一計算する必要がある。ＶｏＤとは異なりＵＧＣは、膨大な数のユーザによって生成され、コンテンツの集合（カタログセット）は、時間の経過に対して大きく変化する。そのため、各コンテンツの将来の要求数を予測する処理を短期間周期で反復することが望ましいが、既存の予測方式は、いずれも計算量が多く、短期間周期で膨大な数のコンテンツの要求数を予測することは困難である。

ＹｏｕＴｕｂｅ（登録商標）ビデオの時間的・空間的な人気度の変化パタン分析により、ＹｏｕＴｕｂｅ（登録商標）の日視聴数（ＤＶＣ：daily view count）の分布を得ることができるが、得られたＤＶＣ分布は、特定の地域や期間での結果であり、異なる地域や期間に対して汎用的に用いることができない。汎用性のある方法でＹｏｕＴｕｂｅ（登録商標）ビデオのＤＶＣ分布推定を行うには、ＹｏｕＴｕｂｅ（登録商標）ビデオの視聴数推移を簡易な時系列モデルでモデル化することが望ましい。

そのため、各ビデオの人気度を変化させる要因を明らかにするために、ＹｏｕＴｕｂｅ（登録商標）の視聴要求発生パタンや視聴数の時間的推移パタンをモデル化する取り組みも報告されている。非特許文献４では、ＹｏｕＴｕｂｅ（登録商標）のアクセスパタンを分析し、従来の静的なＺｉｐｆモデルでは要求頻度分布の時間的な変動を考慮できないことを示し、コンテンツを、総要求数とライフタイムの二つの尺度で６つのグループに分類して各々をレートが変化するポアソン過程でモデル化し、それらを束ねたモデル（ＳＮＭ：shot-noise model）で視聴要求数の発生過程をモデル化することを提案している。しかし、数日といった短時間スケールにおける視聴要求の発生時間間隔のモデル化に注力しており、１年といった長時間スケールにわたるＹｏｕＴｕｂｅ（登録商標）ビデオの人気度の推移パタンについては考慮されていない。また、非特許文献５では、各ビデオの人気度（視聴数）の時間的な推移をマルコフチェインでモデル化しており、非特許文献６では、ＹｏｕＴｕｂｅ（登録商標）での視聴頻度とＦａｃｅｂｏｏｋ（登録商標）でシェアされる割合は相関性が高いことに着目し、Ｆａｃｅｂｏｏｋ（登録商標）で関心がユーザ間で広がっていく過程をアクティブ度合に関する単一の閾値モデルＦＴＳＭでモデル化し、ＹｏｕＴｕｂｅ（登録商標）ビデオの関心の拡散をモデル化している。更に、対象がＹｏｕＴｕｂｅ（登録商標）ではないが、非特許文献７では、ＷｉｋｉｐｅｄｉａとＷｅｂにおける外部からの被リンク数の時間変化を分析し、その人気度の変化割合が冪乗則を示すことを示し、Ranking-shiftモデルにより人気度の外部要因による不連続的な変化現象を再現している。しかし、これら、非特許文献５、非特許文献６、及び非特許文献７における三つの取り組みは、単一のＵＧＧの人気度の時間発展過程のモデル化に注力しており、多数のＵＧＣが重畳された結果として出現する人気度の分布は考慮されていない。

多数のＵＧＣの人気度分布を再現する取り組みとして、非特許文献８では、Ｗｅｂサイトの各日の訪問者数の分布が冪乗則を示すことを明らかにし、各サイトの各日の訪問者数の時間発展モデルとしてＭＰＰ（Multiplicative process）を用いることで、訪問者数の冪乗則を再現できることを解析的に導出しているが、ＹｏｕＴｕｂｅ（登録商標）を対象とした分析ではない。ＹｏｕＴｕｂｅ（登録商標）を対象とした視聴数分布を再現する取り組みとしては、非特許文献９における、ランダムサンプルしたコンテンツの一週間の粒度で見たアクセス数の推移の分析が挙げられるが、各ビデオをピーク視聴数日とその前後の三つのフェーズに分類して各々のグループの視聴数分布を組合せて全体の視聴数分布を再現しており、各ビデオの視聴数推移は考慮されていない。

本発明は、上記の点に鑑みてなされたものであって、ユーザ生成コンテンツの視聴数の推移を表す簡易な時系列モデルを構築することを目的とする。

そこで、上記課題を解決するため、需要分布再現装置は、ネットワークを介して配信されるユーザ生成コンテンツの各日の生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率の対数正規分布とに基づいて、Multiplicative process（ＭＰＰ）を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現部を有する。

ユーザ生成コンテンツの視聴数の推移を表す簡易な時系列モデルを構築することを目的とする。

観測対象ビデオの各種特性値の平均値、中央値、標準偏差（ＳＴＤ）、及び最大値を示す図である。日生成ビデオ数（ＧＶＣ）の統計分析の結果を示す図である。ライフ長（ＬＬ）の統計分析の結果を示す図である。各ビデオのアップロード日の視聴数ＩＶＣの統計分析の結果を示す図である。経過日数に対する各ビデオの視聴数の統計分析の結果を示す図である。各日における各ビデオの視聴数の統計分析の結果を示す図である。第１００日目以後の各日の各ビデオのＤＶＣのＣＣＤ等を示す図である。ＭＰＶに関する統計分析の結果を示す図である。第１の実施の形態における需要分布再現装置のハードウェア構成例を示す図である。第１の実施の形態における需要分布再現装置の機能構成例を示す図である。第１の実施の形態における数値評価を説明するための図である。各ビデオの各日のＤＶＣに対するＭＰＶ等を示す図である。各ＤＶＣグループのＤＶＣの下限値及び上限値と、分類されたＭＰＶサンプルの平均値、中央値、及び標準偏差を示す図である。第２の実施の形態における需要分布再現装置の機能構成例を示す図である。４つの各ＤＶＣグループにおける観測データのＭＰＶのＣＣＤを示す図である。第２の実施の形態における数値評価を説明するための図である。４つの日における観測データのＤＶＣのＣＣＤとＳｇＭＰＰの各対応ステップ時点で生成されたＸ_ｊのＣＣＤとを示す図である。

以下、図面に基づいて本発明のユーザ生成コンテンツの需要分布再現法について、第１の実施の形態を説明する。本実施の形態では、ＹｏｕＴｕｂｅ（登録商標）によって配信される動画データ（以下、「ＹｏｕＴｕｂｅ（登録商標）ビデオ」又は「ビデオ」という。）を、インターネット等のネットワークを介して配信されるユーザ生成コンテンツ（ＵＧＣ：user generated content）の一例とする。まず、本発明に関して観測した、ＹｏｕＴｕｂｅ（登録商標）ビデオに関する観測データについて述べる。

［データ取得方法］
Ｇｏｏｇｌｅ（登録商標）が提供するＹｏｕＴｕｂｅ（登録商標）の各種データを取得するＹｏｕＴｕｂｅ（登録商標）ＤａｔａＡＰＩを用いて収集された、２０１３年４月９日から２０１３年１２月３１日までの２６７日間の各ビデオのＤＶＣデータを分析に用いた。ＤＶＣ（daily view count）とは、１日（２４時間）あたりの視聴数（日視聴数）をいう。以後、観測開始日からの経過日数で日付を表すが、例えば、第１日が４月９日に、第２６７日が１２月３１日に該当する。

本ＡＰＩは、ＹｏｕＴｕｂｅ（登録商標）ビデオに関する様々な統計情報を提供しているが、１分周期で本ＡＰＩを用いて、直近の１分の間に新たにアップロードされたビデオ（recently uploaded videos）のＩＤをＹｏｕＴｕｂｅ（登録商標）に問合せて取得する。なお、一度の問合せで得られるＩＤ数には上限が設けられているため、直近の１分間に全世界でアップロードされた全てのビデオではなく、その一部について回答が得られる。そして、１日２４時間における１４４０の時分の各々に対して、その時刻にアップロードされたビデオのＩＤとアップロード日のリストを記録するためのファイルを作成する。例えば、１４時２８分に対応するファイルには、１４時２８分から１分間の間にアップロードされたビデオのＩＤとアップロード日が、２６７日分追記されていく。このようなビデオのＩＤリスト更新処理を観測期間中の毎分に反復した。日の経過に伴い新たにビデオＩＤが各々のリストに追加されるためリストのサイズが増加する。その結果、最終日（第２６７日）までに、１４４０のファイルにおいて、総計で５２２６９個のビデオがリストに追加された。

そして、並行して、やはり１分周期で、各々の時刻に対応するファイルに記録されたＩＤに係る各ビデオについて、アップロードされてからの累積総視聴数をＹｏｕＴｕｂｅ（登録商標）に問合せて取得する。具体的には、各時分において、当該時分に対応するファイルに格納されているＩＤに係るビデオの累積総視聴数を取得する。各ビデオについて、各日の同一時刻にＹｏｕＴｕｂｅ（登録商標）に累積総視聴数を問合せることになるため、それまでにリストアップされたビデオの各々に対して、前日に取得した累積視聴数との差分から、各日のＤＶＣを算出する。すなわち、ビデオｖの第ｎ日のＤＶＣをｘ_ｖ（ｎ）、ＹｏｕＴｕｂｅ（登録商標）ＤａｔａＡＰＩより取得された第ｎ日におけるビデオｖの累積総視聴数をｙ_ｖ（ｎ）、ビデオｖがアップロードされた日を第Ｕ_ｖ日とすると、Ｕ_ｖ＜ｎ≦２６７に対しては、ｘ_ｖ（ｎ）＝ｙ_ｖ（ｎ）−ｙ_ｖ（ｎ−１）で、ｎ＝Ｕ_ｖに対してはｘ_ｖ（ｎ）＝ｙ_ｖ（ｎ）により、ｘ_ｖ（ｎ）を算出した。観測を開始した第１日目以後にアップロードされたビデオのみが視聴数の問い合わせ対象となるため、第１日目以降においてアップロードされたビデオのみがＤＶＣデータの取得対象となり、以後、日の経過に伴いＤＶＣデータの対象が増加する。

［ＹｏｕＴｕｂｅ（登録商標）データの統計分析］
５２２６９個のＹｏｕＴｕｂｅ（登録商標）ビデオのＤＶＣデータの各種特性を分析した結果について説明する。図１に、これら５２２６９個のＹｏｕＴｕｂｅ（登録商標）ビデオ（以下、「観測対象ビデオ」という。）の各種特性値の平均値、中央値、標準偏差（ＳＴＤ）、最大値を示す。但し、ＧＶＣ（generated video count）を各日に新規にアップロードされたビデオの数、ＬＬ（life length）を各ビデオのアップロード日から最後に視聴が観測された日までの経過日数（ライフ長）、ＩＶＣ（initial view count）をアップロード日の視聴数、ＡＤＶＣ（averageDVC）を各ビデオのライフ期間中のＤＶＣの平均値と定義する。ＧＶＣについては２６７日間の全ての日を対象に、ＬＬとＩＶＣとＡＤＶＣは、５２２６９個の全てのビデオを対象に、また、ＤＶＣは、全期間の各日において視聴数が１以上の全ての各ビデオの視聴数を対象に、これら代表値を計算した。

［日生成ビデオ数（ＧＶＣ）の統計分析］
図２は、日生成ビデオ数（ＧＶＣ）の統計分析の結果を示す図である。図２（ａ）には、各日ｄにアップロードされたビデオの数であるＧＶＣがｄに対してプロットされている。ＧＶＣの曜日ごとの傾向の違いは小さく、一週間の周期変動性は見られないが、第１００日程度以降において数１０日といったスケールでの増加・減少トレンドが見られる。また、最初の約８０日のＧＶＣは、以降の値と比較して全体的に大きい傾向が見られる。

図２（ｂ）には、ＤＶＣデータセット（ＤＶＣのデータ群）におけるＧＶＣの累積補分布（ＣＣＤ）と、ＧＶＣの平均値１９８．７と標準偏差６６．３とを一致させた対数正規分布（Lognormal）のＣＣＤとがプロットされている。両者のＣＣＤはよく一致しており、各日にアップロードされたＹｏｕＴｕｂｅ（登録商標）ビデオ数は、対数正規分布に従うことが確認できる。なお、確率変数Ｘが平均μで標準偏差がσの対数正規分布に従うとき、その確率密度関数ｆ（ｘ）は、

で与えられる。そのため、ｆ（ｘ）の自然対数は、

となることから、σが十分に大きな場合には、ｘの広い範囲でｆ（ｘ）の自然対数は、パレート分布等の冪乗則分布と同様、線形に減少する。しかし、ｘが大きい領域では線形よりも急激にｌｎｆ（ｘ）は減少する。そのため、冪乗則分布は、平均値や標準偏差が無限大となるのに対して、対数正規分布のこれら代表値は有限の値をとる。

［ライフ長（ＬＬ）の統計分析］
図３は、ライフ長（ＬＬ）の統計分析の結果を示す図である。各ビデオｖのライフ長ＬＬは、アップロード日Ｕ_ｖから最後に視聴が観測された日Ｅ_ｖまでの経過日数Ｅ_ｖ−Ｕ_ｖ＋１で定義される。

図３（ａ）には、各日ｄに最後に視聴が観測されたビデオの数Ｅ（ｄ）が、各日ｄに対してプロットされている。２６７日の大分部の期間において、Ｅ（ｄ）は、数個から数十個程度と、各日の平均アップロードビデオ数１９６個と比較して遥かに小さく、大多数のビデオは、観測期間終了日の近辺にＥ_ｖが集中している。コピーライトの問題などでＹｏｕＴｕｂｅ（登録商標）から強制的に削除された場合や、アップロードしたユーザが自身の意思で削除する場合を除き、大分部のビデオは、一旦アップロードされた後はＹｏｕＴｕｂｅ（登録商標）の配信サーバに存在し続けると考えられる。このことは、図３（ｂ）に示すＬＬのＣＣＤからも確認できる。なお、ＹｏｕＴｕｂｅ（登録商標）のビデオには、アップロードされた後の短期間に視聴が集中し、その後、全く視聴されなくなるものも多く存在することが予想される。しかし、ＹｏｕＴｕｂｅ（登録商標）のＡＰＩで取得できるビデオのタイトル数には上限があるため、比較的、人気の高いものに偏っている可能性が考えられる。

このように、２６７日ほどの時間スパンでは、ＹｏｕＴｕｂｅ（登録商標）ビデオの多くは、一旦アップロードされた後、ＹｏｕＴｕｂｅ（登録商標）配信サーバ上に存在しているため、視聴が発生し続ける期間を十分に捉えることができず、ＹｏｕＴｕｂｅ（登録商標）ビデオのライフ長分布について分析することが困難である。ライフ長分布をより正確に分析するためには、更に長期間のＤＶＣ観測期間が必要となる。

［初期視聴数（ＩＶＣ）の統計分析］
図４は、各ビデオのアップロード日の視聴数ＩＶＣの統計分析の結果を示す図である。図４（ａ）には、各日ｄにアップロードされたビデオのＩＶＣの平均値がｄに対してプロットされている。評価に用いたＹｏｕＴｕｂｅ（登録商標）データに含まれるビデオは、各日に生成された個数が２００個程度と少ないため、各日に出現したビデオのＩＶＣの平均値は、日によって変動が大きい。また、図４（ｂ）には、５２２６９個の全ての各ビデオのＩＶＣのＣＣＤと、ＩＶＣの平均値９．０１８×１０^４と標準偏差３．５７６×１０^５とを一致させた対数正規分布のＣＣＤとがプロットされている。両者のＣＣＤはよく一致しており、ＹｏｕＴｕｂｅ（登録商標）ビデオのＩＶＣは、対数正規分布に従うことが確認できる。

［日視聴数（ＤＶＣ）の統計分析］
図５は、経過日数に対する各ビデオの視聴数の統計分析の結果を示す図である。或るビデオに関する経過日数とは、当該ビデオがアップロードされてからの経過日数である。図５（ａ）には、経過日数ｋの各々の時点における、各ビデオｖのアップロード日から第ｋ日目の視聴数＾ｘ_ｖ（ｋ）が１以上である全てのビデオの視聴数＾ｘ_ｖ（ｋ）の平均値と中央値とがプロットされている。アップロード日の直後にＤＶＣは急激に減少し、その後も減少傾向が継続するが、減少度合いは日の経過に伴い小さくなり、緩やかな減少が継続することが分かる。なお、同様の傾向はＵＧＣの人気度推移を分析した既存の研究でも報告されている。但し、観測期間２６７日目の付近ではＤＶＣの増加が見られるが、＾ｘ_ｖ（ｋ）＞０となるサンプルビデオ数が少ないことが原因と思われる。また、図５（ｂ）には、ランダムに選択した２０のビデオの各々について、＾ｘ_ｖ（ｋ）を各ビデオｖの＾ｘ_ｖ（ｋ）の最大値で除した正規化日視聴数（ＮＤＶＣ：normalizeddaily view count）が経過日数ｋに対してプロットされている。全体的な傾向としては、図５（ａ）の傾向と同様、やはり初期に急激に減少して、その後は緩やかな減少が継続する傾向が確認できるが、個々のビデオによってＮＤＶＣの変化パタンは大きく異なり、人気度の推移パタンはビデオごとに大きく異なることが確認できる。

図６は、各日における各ビデオの視聴数の統計分析の結果を示す図である。以下の説明において、ｘ_ｖ（ｄ）は、或る日ｄにおける或るビデオｖの視聴数を示す。図６（ａ）には、ｘ_ｖ（ｄ）＞０の全ビデオを対象として算出した、ｘ_ｖ（ｄ）の平均値と中央値とが各日ｄに対してプロットされている。ＤＶＣの平均値や中央値は、ｄが小さい場合には大きいが、ｄの増加に伴い急激に減少し、ｄが１００日目程度以降はほとんど一定の値で推移することが確認できる。［データ取得方法］で述べたように、評価に用いたＹｏｕＴｕｂｅ（登録商標）ビデオのＤＶＣデータセットには、観測を開始した２０１３年４月９日以降にアップロードされたビデオのみが対象として含まれる。そのため、観測開始からの経過日数が短くｄが小さい場合には、アップロードされてからの経過日数ｋの短いビデオのみがデータセットに含まれる。一方、図５で見たように、多くのビデオはアップロード直後に視聴数が多い傾向があるため、ｄが小さい場合にはＤＶＣが大きなものに偏る結果となる。

また、図６（ｂ）には、各月の第１日におけるＤＶＣのＣＣＤがプロットされている。５／１や６／１といった観測開始日に近い日においては、ＤＶＣが全体的に大きく、ＣＣＤが右上にシフトしているが、７／１から１２／１までの６つの日におけるＤＶＣのＣＣＤは、ほぼ一致していることが確認できる。このように、評価に用いたデータセットでは観測初期のフェーズにおいてＤＶＣが大きなものに偏る傾向があるが、観測を継続して１００日目程度以降においては、アップロード日からの経過日数の様々なビデオが十分に多重され、各日のＤＶＣ分布において定常状態となることが確認できる。図５で見たように、各ビデオのＤＶＣは、アップロード日からの経過日数の増加に伴い大きく変化するが、アップロードされてからの経過日数が様々なビデオが混在する結果、各日のＤＶＣの分布は一定となる。

次に、定常状態に達したと想定される、観測開始日から第１００日目以後の各日ｄの各ビデオｖのＤＶＣのＣＣＤを図７（ａ）に示す。図７（ａ）には、当該ＣＣＤの平均値と分散ｊとを一致させた対数正規分布があわせてプロットされている。両者の分布はほぼ一致しており、多数のビデオの長期間にわたる各日のＤＶＣの分布は、対数正規分布で近似可能であることが確認できる。また、図７（ｂ）には、ランダムに選択した４つのビデオの各々に対して、視聴が観測された全ての日におけるＤＶＣのＣＣＤと、各々の平均と分散とを一致させた対数正規分布がプロットされているが、各ビデオの日々の視聴数についても、やはり対数正規分布に従うことが確認できる。

次に、Multiplicative processを用いたＹｏｕＴｕｂｅ（登録商標）の日視聴数推移のモデル化について説明する。

［Multiplicative process］
上記したように、ＹｏｕＴｕｂｅ（登録商標）ビデオのＤＶＣは対数正規分布に従うことが観測結果から分かった。対数正規分布を出現可能な簡易な確率過程としてMultiplicative process（ＭＰＰ）が広く知られている。そこで、第１の実施の形態では、各ビデオの視聴数（ＤＶＣ）の推移パタンをＭＰＰでモデル化することを考える。ＭＰＰは、確率変数Ｘ_ｊが初期値Ｘ_０をとり、各離散時点ｊにおいて値Ｘ_ｊをとるとき、任意の確率分布に従う確率変数Ｆ_ｊを用いて、
Ｘ_ｊ＝Ｆ_ｊＸ_ｊ−１（１）
となる離散時間確率過程で定義される。ＭＰＰは、離散時点ｊの値Ｘ_ｊの前の離散時点ｊ−１の値Ｘ_ｊ−１に対する倍率Ｆ_ｊを、ｊとは無関係に同一の任意の分布で与えた確率過程であり、本実施の形態では、Ｆ_ｊをＭＰＶ（multiplicative value）と呼ぶ。再帰的に式（１）適用することで、ｌｎＸ_ｊは、式（２）で表される。

よって、Ｆ_ｊが同一で独立の分布に従うとき、中心極限定理より、ｌｎＸ_ｊは、正規分布に従う。よって、ＭＰＰによって生成されるＸ_ｊは対数正規分布に従う。

複数のＭＰＰを重畳させた場合に出現する分布は各ＭＰＰのライフ長が従う分布に依存する。例えば、ライフ長が幾何分布に従う多数のＭＰＰを重畳した場合、対数正規分布のボディを持ち、冪乗則分布のテイルを有するDouble Pareto分布が生成されることが知られている。

［ＹｏｕＴｕｂｅ（登録商標）の人気度推移へのMultiplicative processの適用］
ＭＰＰは、対数正規分布を出現させることから、ＭＰＰを用いて各ＹｏｕＴｕｂｅ（登録商標）ビデオのＤＶＣの推移をモデル化することを考える。各ＭＰＰは、初期値Ｘ_０の分布とＭＰＶであるＦ_ｊの分布を与えることで規定される。更に、各離散時点において新規に生成されるＭＰＰの数と、各ＭＰＰが生成されてから消滅するまでのライフ長の分布とを与えることで、複数のＭＰＰを重畳させたＳＭＰＰ（superposed MPP）が規定される。ＭＰＰの離散時間ステップを各日と考え、各ビデオｖのＤＶＣがＭＰＰで生成される確率変数Ｘ_ｊに、アップロード日の視聴数ＩＶＣがＸ_０に、各ビデオのＤＶＣの前日のＤＶＣに対する倍率がＭＰＶに、各日にアップロードされたビデオ数ＧＶＣが新規生成ＭＰＰ数に、各々該当する。

したがって、ＹｏｕＴｕｂｅ（登録商標）ビデオのＤＶＣ分布を再現するためにＳＭＰＰを用いるためには、（i）各日のアップロードビデオ数ＧＶＣ、（ii）各ビデオの初期視聴数ＩＶＣ、（iii）各ビデオのＤＶＣの前日のＤＶＣに対する倍率ＭＰＶ、の三つの分布を与える必要がある。このうち、ＧＶＣの分布とＩＶＣの分布については、各々、共に対数正規分布で与えられる。そこで、ＹｏｕＴｕｂｅ（登録商標）データを分析することで、残るＭＰＶが従う分布を調べる。

図８は、ＭＰＶに関する統計分析の結果を示す図である。図８（ａ）には、ｘ_ｖ（ｄ）とｘ_ｖ（ｄ−１）とが共にゼロより大きかった各ビデオｖのＭＰＶ（ｘ_ｖ（ｄ）／ｘ_ｖ（ｄ−１））の平均値と中央値とが、各日ｄに対してプロットされている。ＭＰＶに対する変数ｒは、０＜ｒ＜∞の範囲の実数値をとるが、ｒ＝１．０のとき、前日のＤＶＣと同じ数の視聴要求が翌日にも生じたことを意味し、ｒ＜１．０の場合は前日のＤＶＣから視聴数が減少し、また、ｒ＞１．０の場合は前日のＤＶＣから視聴数が増加することを意味する。観測初期の時点では、アップロードからの経過日数の短いビデオのみがデータセットに含まれるが、それらのビデオのＤＶＣは、日の経過に伴い急減する可能性が高いため、ＭＰＶの平均値や中央値は、１．０よりも小さな値を示す。しかし、日の経過に伴い、アップロードされてからの経過日数の長いビデオの割合が増加するが、これらのビデオのＤＶＣの日々の変化量は小さいことから、６０日目程度以降はＭＰＶの平均値や中央値は安定的に推移し、特に中央値は、１．０付近の値をとる。

また、図８（ｂ）には、ＭＰＶの全サンプル値を対象としたＣＣＤが両対数でプロットされている。ＭＰＶの小さい領域では上に凸な曲線となり線形よりも急激に減少するが、ＭＰＶの中程度の広い領域において直線的に減少し、更に、ＭＰＶの裾の部分の減少率は線形よりも緩やかになり、冪乗則分布よりも更に裾が長い分布となる。ＹｏｕＴｕｂｅ（登録商標）ビデオは、Ｆａｃｅｂｏｏｋ（登録商標）等のＳＮＳ（social networking service）による口コミの拡散効果により、突発的に急激に特定のビデオの人気が増加する現象が見られることが要因と思われる。このように、ＭＰＶの分布は、三つの領域で異なる分布を組み合わせた分布に従うことが確認できる。そこで、ＭＰＶの下位９９％の領域における平均値１．０２１と標準偏差０．４４５とを有する対数正規分布（Lognormal I）と、ＭＰＶの上位１％の領域における平均値４．４４６と標準偏差７．３４４とを有するパレート分布（Pareto II）と、更に、ＭＰＶの上位０．００５％の領域における平均値３．１５７×１０^３と標準偏差１．３３４×１０^４とを有する対数正規分布（Lognormal III）とが、図８（ｂ）に合わせてプロットされている。これら三つの近似分布は、各領域において、ＭＰＶ分布のよい近似を与えることが確認できる。大分部のＭＰＶサンプルは、Lognormal Iの領域に存在することから、Lognormal Iのみで近似したＭＰＶ分布を用いてＳＭＰＰを構成することを考える。

［第１の実施の形態における需要分布再現装置１０］
次に、上記により得られた知見に基づく、ユーザ生成コンテンツの需要分布再現法を実行する需要分布再現装置１０について説明する。

図９は、第１の実施の形態における需要分布再現装置のハードウェア構成例を示す図である。図９の需要分布再現装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

需要分布再現装置１０での処理を実現するプログラムは、ＣＤ−ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って需要分布再現装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

図１０は、第１の実施の形態における需要分布再現装置の機能構成例を示す図である。図１０において、需要分布再現装置１０は、統計情報取得部１１、近似分布生成部１２、及びＳＭＰＰ実行部１３等を有する。これら各部は、需要分布再現装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。需要分布再現装置１０は、また、統計情報記憶部１１１及び視聴数分布記憶部１１２等を利用する。これら各記憶部は、例えば、補助記憶装置１０２、又は需要分布再現装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

統計情報取得部１１は、例えば、ＹｏｕＴｕｂｅ（登録商標）等、対象とするＵＧＣ（以下、「対象ＵＧＣ」という。）におけるコンテンツに関する統計情報を取得する。対象ＵＧＣが、ＹｏｕＴｕｂｅ（登録商標）であれば、統計情報取得部１１は、［データ取得方法］で述べたような方法で統計情報を取得し、取得された統計情報を統計情報記憶部１１１に記憶する。例えば、［データ取得方法］出述べたように、時分ごとの１４４０のファイルが、統計情報記憶部１１１に記憶される。なお、対象ＵＧＣは、例えば、ユーザによって指定される。

近似分布生成部１２は、対象ＵＧＣの各日のアップロードビデオ数（ＧＶＣ）に関する対数正規分布と、各ビデオのアップロード日の視聴数（ＩＶＣ）に関する対数正規分布と、前日の日視聴数（ＤＶＣ）に対する翌日のＤＶＣの倍率（ＭＰＶ）に関する対数正規分布とを、統計情報記憶部１１１に記憶された統計情報に基づいて算出する。ＧＶＣに関する対数正規分布は、例えば、統計情報に含まれるＤＶＣデータから算出される、ＧＶＣの平均値と標準偏差とを有する対数正規分布である。ＩＶＣに関する対数正規分布は、例えば、統計情報に含まれるＤＶＣデータから算出される、ＩＶＣの平均値と標準偏差とを有する対数正規分布である。ＭＰＶに関する対数正規分布は、例えば、統計情報に含まれるＤＶＣデータから算出される、ＭＰＶの下位９９％の平均値と標準偏差とを有する対数正規分布（Lognormal I）である。但し、近似分布生成部１２が生成する近似分布は、どのような環境におけるＤＶＣの分布を再現したいかに応じて、適宜変更されてよい。例えば、各対数正規分布は、統計情報記憶部１１１に記憶された統計情報（観測データ）に基づいてではなく、ユーザから与えられたパラメータ等に基づいて、人為的に生成されてもよい。異なる対数正規分布に関してＤＶＣの分布が再現されることで、異なる環境におけるＤＶＣ分布を再現することができる。

ＳＭＰＰ実行部１３は、ＧＶＣ、ＩＶＣ、ＭＰＶの対数正規分布に基づいて、対象ＵＧＣの任意日におけるＤＶＣの分布を生成し、生成されたＤＶＣの分布を視聴数分布記憶部１１２に記憶する。

なお、図１０に示される各部は、複数のコンピュータに分散されて実装されてもよい。換言すれば、需要分布再現装置１０は、複数のコンピュータによって構成されてもよい。

以下、ＳＭＰＰ実行部１３が実行する処理手順について更に詳しく説明する。ＳＭＰＰ実行部１３は、以下に示す（１）〜（３）の処理を、統計情報記憶部１１１に統計情報が記憶された各日について反復する。または、当該各日は、ユーザによって指定された期間における各日であってもよい。なお、ｋ番目の反復の時点での、重畳されたＭＰＰの数をＮ_ｋ、ＭＰＰ_ｉ（１≦ｉ≦Ｎ_ｋ）の状態値をＸ_ｉ，ｋとし、初期状態（ｋ＝０）ではＭＰＰが存在しないものとする（Ｎ_０＝０）。また、近似分布生成部１２によって生成されるＧＶＣに関する対数正規分布をΘ、近似分布生成部１２によって生成されるＩＶＣに関する対数正規分布をΥ、近似分布生成部１２によって生成されるＭＰＶに関する対数正規分布（Lognormal I）をΩと表記する。
（１）Ｎ_ｋ本の重畳されている各ＭＰＰ_ｉに対して、Ωに従う確率でランダムに選択したＭＰＶ_ｒｉ，ｋを用いて、状態Ｘ_ｉ，ｋを、Ｘ_ｉ，ｋ＝ｒ_ｉ，ｋＸ_{ｉ，ｋ−１}により更新
（２）新たに重畳するＭＰＰの本数ｎ_ｋをΘに従う確率でランダムに選択して、Ｎ_ｋ＋１を、Ｎ_ｋ＋１＝Ｎ_ｋ＋ｎ_ｋにより更新
（３）新たに重畳するｎ_ｋ本の各ＭＰＰ_ｉに対してＸ_ｉ，ｋの初期値を、Υに従う確率でランダムに設定
上記の（１）〜（３）を反復することで、ＤＶＣの時系列の分布が生成される。ＳＭＰＰ実行部１３は、生成されたＤＶＣの分布を視聴数分布記憶部１１２に記憶する。

なお、分析に用いたＹｏｕＴｕｂｅ（登録商標）のＤＶＣデータセットにおいてはライフ長を規定することができないため、一旦生成されたＭＰＰは、反復処理が終了するまで残留する。そのため、反復処理の進展に伴い、ＭＰＰの数Ｎ_ｋは単調に増加するが、視聴が観測されたビデオの視聴数の最小値は１であることから、ＳＭＰＰによって得られたＸ_ｊの分布を分析する際には、Ｘ_ｊ≧１のＭＰＰの状態値Ｘ_ｊのみを対象に用いる。なお、ＹｏｕＴｕｂｅ（登録商標）においてもシステム上には存在するものの、ほとんど視聴されなくなったビデオも多数、存在することが予想されるが、Ｘ_ｊ＜１のＭＰＰは、これら視聴されなくなったビデオに相当すると考えられる。

また、［データ取得方法］で述べたように、評価に用いたＹｏｕＴｕｂｅ（登録商標）データは、観測開始日（２０１３年４月９日）においてビデオが存在しない状態から始まり、以後、各日にアップロードされたビデオがＤＶＣデータの対象に追加されていくが、このことはＳＭＰＰの更新アルゴリズムの構成方法と合致している。

このように、本実施の形態によれば、ユーザ生成コンテンツの視聴数の推移を表す簡易な時系列モデルを構築するこができ、ユーザ生成コンテンツの需要分布を再現することができる。その結果、例えば、ＹｏｕＴｕｂｅ（登録商標）に代表されるユーザ生成コンテンツを配信するキャッシュサーバの容量設計など、ＵＧＣのある期間の視聴数の分布を必要とする各種設計や制御への入力データを生成することができる。

［数値評価］
次に、［データ取得方法］で述べた取得方法によって取得された２６７日分のデータ（統計情報）に基づく第１の実施の形態による出力結果に関する数値評価の結果について説明する。

各ＭＰＰを各ＹｏｕＴｕｂｅ（登録商標）ビデオのＤＶＣを表す時系列過程と考え、複数のＭＰＰを重畳したＳＭＰＰが生成する分布（すなわち、ＳＭＰＰ実行部１３によって生成されるＤＶＣの分布）と、ＹｏｕＴｕｂｅ（登録商標）ビデオの観測データに基づくＤＶＣ分布との一致度合を評価する。ＭＰＶとして、上記で述べた分布Ω（Lognormal I）に従う確率でランダムに設定した場合（lognormal MPV）に加えて、ＹｏｕＴｕｂｅ（登録商標）データで観測された実際のＭＰＶの分布に従う確率でランダムに設定した場合（actual MPV）の結果について各々示す。但し、Ｘ_ｊに、ＹｏｕＴｕｂｅ（登録商標）観測データのＤＶＣの最大値９．０５６×１０^７を超える値が設定された場合には、再度、Ｆ_ｊを設定する処理を反復することで、Ｘ_ｊが当該最大値以下となるよう更新した。ＹｏｕＴｕｂｅ（登録商標）データの観測開始日（２０１３年４月９日）を反復処理の反復ステップ１とみなし、ＳＭＰＰの更新処理を観測期間２６７だけ反復し、最終反復ステップ２６７をＹｏｕＴｕｂｅ（登録商標）データの観測終了日（２０１３年１２月３１日）とみなす。

図１１は、第１の実施の形態における数値評価を説明するための図である。図１１には、５／１、６／１、８／１、１０／１の４つの日における観測データ（ＹｏｕＴｕｂｅ（登録商標）データ）のＤＶＣのＣＣＤと、各対応ステップ時点に関してＳＭＰＰ実行部１３によって生成されたＸ_ｊのＣＣＤとがプロットされている。すなわち、図１１におけるＸ_ｊのプロットは、ＳＭＰＰ実行部１３による出力結果の一例である。但し、ＳＭＰＰ実行部１３による２６７回の反復処理を、乱数のシードを変えて１０回行った。

図６で確認したように、観測開始から１００日程度が経過した以降にＤＶＣ分布が定常となるが、定常状態に達したと考えられる８／１と１０／１とを含む４つの全サンプル日においても、ＳＭＰＰ実行部１３によって生成された分布とＹｏｕＴｕｂｅ（登録商標）データから算出した実際のＤＶＣ分布との間には多少の乖離が見られる。全体的にＳＭＰＰのＣＣＤは右上に乖離しており、ＹｏｕＴｕｂｅ（登録商標）のＤＶＣ分布と比較して大きな値が生成される傾向がある。図８（ｂ）で見たようにＭＰＶの実際の分布の裾は長く、ＹｏｕＴｕｂｅ（登録商標）データの実際の分布を用いた場合と、Lognormal I近似分布を用いた場合と比較して、ＭＰＰの状態更新時に値の大きなＭＰＶが適用される可能性が高くなるため、実際の分布を用いた方が更に、ＤＶＣの実分布からの乖離が大きくなっている。

次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。

第１の実施の形態では、各ＭＰＰを各ＹｏｕＴｕｂｅ（登録商標）ビデオに見立てて複数のＭＰＰを重畳したが、図１１で見られるように、ＹｏｕＴｕｂｅ（登録商標）の任意日のＤＶＣ分布の再現について誤差が発生する。そこで、第２の実施では、ＭＰＰを拡張することでＹｏｕＴｕｂｅ（登録商標）ビデオのＤＶＣ分布の再現精度を向上させた例について説明する。

［ＤＶＣグループ別ＭＰＶ分布］
第１の実施の形態では、全ての日の全てのビデオを対象に、ＤＶＣの前日からの倍率の分布をＭＰＶに用いた。しかし、ＹｏｕＴｕｂｅ（登録商標）ビデオの多くは、アップロード日の直後のＤＶＣが大きく、日の経過に伴い急激にＤＶＣが減少する反面、日数が経過した後はＤＶＣが小さく緩やかに減少する。そのため、ＤＶＣの値の大小によってＭＰＶ、すなわち、翌日のＤＶＣの変化率は大きく異なることが予想される。

図１２は、各ビデオの各日のＤＶＣに対するＭＰＶ等を示す図である。図１２（ａ）には、各ビデオｖの各日ｄのＤＶＣであるｘ_ｖ（ｄ）の前日のＤＶＣであるｘ_ｖ（ｄ−１）に対する倍率ｒ_ｖ（ｄ）が、ｘ_ｖ（ｄ−１）に対してプロットされている。ｘ_ｖ（ｄ−１）が同じような場合もｒ_ｖ（ｄ）は広範囲に散布しているが、ｒ_ｖ（ｄ）が大きな値となるのは、前日のＤＶＣが小さい場合が多く、やはり、ＤＶＣの値と翌日のＭＰＶとの間には相関性が見られる。そのため、ｘ_ｖ（ｄ−１）を値の大きさで複数のグループに分けた場合、グループによってＭＰＶ、すなわち、ｒ_ｖ（ｄ）の分布が異なることが予想される。

そこで、ほぼ同数のＭＰＶサンプルが各グループに分類されるようにＤＶＣの値に３つの閾値を設定し、ＭＰＶサンプルを４つのグループに分類した。図１３は、各ＤＶＣグループのＤＶＣの下限値及び上限値と、分類されたＭＰＶサンプルの平均値、中央値、及び標準偏差を示す図である。なお、図１３では、割当範囲の値の小さな順にＤＶＣグループのＩＤ（Ｇ１〜Ｇ４）が付与されている。

図７（ａ）で見たように、多くのＤＶＣサンプルは、値の小さな領域に集中しているため、割当範囲の値の小さなＤＶＣグループほど下限値と上限値との間隔が密となっている。また、ＤＶＣの大きなグループほど、ＭＰＶの平均値、中央値、及び標準偏差は小さくなる。図５で見たように、多くのＹｏｕＴｕｂｅ（登録商標）ビデオは、アップロードされた日付近はＤＶＣが大きいが、日の経過に伴い急激に減少し、その後は増減を繰り返しながら平均的には緩やかに減少する。そのため、ＤＶＣが大きなビデオほど、翌日のＤＶＣは大きく減少しＭＰＶは小さな値をとる傾向が高い。

図１２（ｂ）には、４つのＤＶＣグループごとにＭＰＶサンプルのＣＣＤがプロットされている。ＤＶＣの値の大小でグループ分けをしてＣＣＤを見た場合も、図１１（ｂ）で見たように下に凸な曲線となり、冪乗則分布よりも裾の部分の確率が高い分布となるが、ＤＶＣグループごとにＭＰＶのＣＣＤは大きく異なり、ＤＶＣの小さなグループほどＭＰＶは全体的に大きくなり、広い範囲の値をとる傾向が確認される。

グループＧ４に分類されたＭＰＶサンプルの多くは、アップロード日の直後のＤＶＣが非常に大きなビデオが該当すると考えられ、翌日のＤＶＣは大きく減少するため、ＭＰＶの平均値も中央値も１．０を下回っている。一方、グループＧ１やＧ２に分類されたＭＰＶサンプルの多くは、アップロード日からの経過日数が長いビデオが該当すると考えられ、日々のＤＶＣの変化量が小さくなり、ＭＰＶの中央値は、１．０となる。しかし、ＹｏｕＴｕｂｅ（登録商標）といったＵＧＣは、ＳＮＳによる口コミの拡散効果により、突発的に急激に特定のビデオの人気が増加する現象が見られるため、頻度としてはごく小さいが、突出して大きな値のＭＰＶが観測される場合があり（ＭＰＶサンプルの最大値は１．７０７×１０^７であった。）、特に、グループＧ１のＭＰＶの平均値は、２．０と、大きな値となっている。

［第２の実施の形態における需要分布再現装置１０ａ］
そこで、第２の実施の形態における需要分布再現装置１０ａは、図１４に示されるような機能構成を有する。図１４は、第２の実施の形態における需要分布再現装置の機能構成例を示す図である。図１４中、図１０と同一部分には同一符号を付し、その説明は省略する。

図１４において、需要分布再現装置１０ａは、近似分布生成部１２の代わりにグループ別近似分布生成部１５を有し、ＳＭＰＰ実行部１３の代わりにＳｇＭＰＰ実行部１６を有する。また、需要分布再現装置１０ａは、ＤＶＣグループ生成部１４を更に有する。これら各部は、需要分布再現装置１０ａにインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。

ＤＶＣグループ生成部１４は、統計情報記憶部１１１に記憶されている統計情報に基づいて、Ｇ個のＤＶＣグループを生成する。具体的には、ＤＶＣグループ生成部１４は、ＤＶＣに関して、Ｇ−１個の閾値を決定する。当該閾値は、各ＤＶＣグループの下限値及び上限値である。当該閾値は、各ＤＶＣグループに分類されるＭＰＶ（各ＤＶＣに付随するＭＰＶ）の数が、ほぼ同数（例えば、各ＤＶＣグループに属するＭＰＶの数の差が所定値以内）となるように決定される。ＤＶＣグループ数であるＧは、ユーザによって与えられてもよい。

グループ別近似分布生成部１５は、近似分布生成部１２の機能とほぼ同様の機能を実現する。但し、グループ別近似分布生成部１５は、ＭＰＶの対数正規分布については、ＤＶＣグループ別に生成する。すなわち、グループ別近似分布生成部１５は、ＧＶＣ及びＩＶＣのそれぞれの対数正規分布と、ＤＶＣグループ別のＭＰＶの対数正規分布とを生成する。

ＳｇＭＰＰ実行部１６は、ＧＶＣ、ＩＶＣ、グループ別のＭＰＶの対数正規分布に基づいて、対象ＵＧＣの任意日におけるＤＶＣの分布を生成し、生成されたＤＶＣの分布を視聴数分布記憶部１１２に記憶する。

すなわち、ＤＶＣグループによってＭＰＶの分布が異なることから、ＳｇＭＰＰ実行部１６は、反復処理において処理対象の反復ステップにおけるＤＶＣの値が含まれるＤＶＣグループのＭＰＶ分布に従い、ＭＰＶを適用する。このような拡張を行ったＭＰＰをｇＭＰＰ（groupedMPP）という。

図１５には、図１２（ｂ）に関して述べた４つの各ＤＶＣグループにおけるＹｏｕＴｕｂｅ（登録商標）データのＭＰＶのＣＣＤがプロットされている。更に、図１５には、ＭＰＶの下位９９％の領域における平均値と標準偏差とを有する対数正規分布（Lognormal I）と、ＭＰＶの上位１％の領域における平均値と標準偏差とを有するパレート分布（Pareto II）と、グループＧ１とグループＧ２に対してはＭＰＶの上位０．００５％の領域における平均値と標準偏差とを有する対数正規分布（Lognormal III）とがプロットされている。４つの各ＤＶＣグループのＭＰＶの分布は、これら三つ又は二つの領域において各々、対数正規分布とパレート分布の組で高精度に近似できることが確認できる。

大分部のＭＰＶサンプルは、Lognormal Iの領域に存在することから、Ｇ個の各ＤＶＣグループのＭＰＶ分布をLognormal Iのみで近似した複数のｇＭＰＰを重畳したＳｇＭＰＰ（SuperposedgMPP）が利用される。

以下の（１）〜（３）に、ＳｇＭＰＰ実行部１６が実行する、Ｇ個のＤＶＣグループを用いたＳｇＭＰＰの各反復ステップｋの処理内容を示す。但し、Ｇ個の各ＤＶＣグループｇの下限値がｂ_ｇであるとき、ｇ（ｘ）をＤＶＣであるｘが分類されるＤＶＣグループとすると、ｂ_ｇ（ｘ）≦ｘ＜ｂ_{ｇ（ｘ）＋１}を満たす。また、グループ別近似分布生成部１５によって生成された、ＤＶＣグループｇ別のＭＰＶの下位９９％の平均値と標準偏差とを有する対数正規分布（Lognormal I）をΩ_ｇと表記する。
（１）Ｎ_ｋ本の重畳されている各ｇＭＰＰ_ｉに対して、Ω_{ｇ（Ｘｉ，ｋ−１）}に従う確率でランダムに選択したＭＰＶ_ｒｉ，ｋを用いて、状態Ｘ_ｉ，ｋをＸ_ｉ，ｋ＝ｒ_ｉ，ｋＸ_{ｉ，ｋ−１}により更新
（２）新たに重畳するｇＭＰＰ_ｉの本数ｎ_ｋをΘに従う確率でランダムに選択して、Ｎ_ｋ＋１を、Ｎ_ｋ＋１＝Ｎ_ｋ＋ｎ_ｋにより更新
（３）新たに生成したｎｋ本の各ｇＭＰＰ_ｉに対してＸ_ｉ，ｋの初期値をΥに従う確率でランダムに設定
このように、反復ステップごとに、グループ別のＭＰＶの対す正規分布が選択されて、（１）〜（３）が実行される。

上記の（１）〜（３）を反復することで、ＤＶＣの時系列の分布が生成される。ＳｇＭＰＰ実行部１６は、生成されたＤＶＣの分布を視聴数分布記憶部１１２に記憶する。

［数値評価］
Ｇ個のＤＶＣグループを用いてＳｇＭＰＰ実行部１６によって生成されたＳｇＭＰＰをＳｇＭＰＰ（Ｇ）と表記し、ＳｇＭＰＰ（Ｇ）のＹｏｕＴｕｂｅ（登録商標）のＤＶＣ分布の再現精度をＭＳＥ（mean squarederror）を用いて評価する。但し、ＹｏｕＴｕｂｅ（登録商標）データにおけるＤＶＣの最小値１と最大値ｘ_ｍａｘとの間を対数的に等間隔に１００個の区間に分割したときの各境界点ｘ_ｓ＝ｅｘｐ（ｌｏｇ（ｘ_ｍａｘ／１００）・ｓ），ｓ＝１，２，…，１００におけるＳｇＭＰＰ（Ｇ）の生成分布の値＾ｚ（ｘ_ｓ）と、ＹｏｕＴｕｂｅ（登録商標）データのＤＶＣ分布の値ｚ（ｘ_ｓ）とを用いて、

でＭＳＥを定義する。

図１６は、第２の実施の形態における数値評価を説明するための図である。図１６（ａ）には、Lognormal I近似分布を各ＤＶＣグループのＭＰＶ分布に用いたＳｇＭＰＰ（Ｇ）における、５／１、６／１、８／１、１０／１の４つの各日に相当する反復時点のＭＳＥが、グループ数Ｇに対してプロットされている。但し、与えられたＧに対して、各ＤＶＣグループに分類されるＭＰＶサンプル数が均等となるようにＤＶＣグループを構成し、乱数のシードを変えて行った１０回の試行の平均値がプロットされている。Ｇ＝１が第１の実施の形態で述べたＳＭＰＰの場合に相当する。また、図１６（ｂ）には、各ＤＶＣグループｇのＭＰＶ分布にＹｏｕＴｕｂｅ（登録商標）データのＤＶＣグループｇの実際のＭＰＶ分布を用いた場合の結果が同様に示されている。

下位９９％のみを考慮してLognormal IのみをＭＰＶの近似分布として用いた場合も、実際のＭＰＶ分布を用いた場合と同程度の再現精度が達成されることが確認できる。Lognormal Iのみを用いてＭＰＶ分布を近似した場合、実際の分布を用いた場合と比較して計算量が大幅に抑えられることから、ＭＰＶの近似分布としてはLognormal Iのみを用いることが望ましい。Ｇが小さい領域では、Ｇの増加に伴いＭＳＥは４つの全てのサンプル日において減少し、ＳｇＭＰＰのＹｏｕＴｕｂｅ（登録商標）データＤＶＣ分布の再現精度が向上するが、Ｇが５０程度以上の領域では、Ｇの変化に対してＭＳＥはほぼ一定となる。Ｇの値が小さな方が、ＤＶＣグループ別のＭＰＶのLognormal I近似分布算出に要する計算量が小さく、モデル構築に要する計算量が抑えられることから、Ｇは、４０〜７０程度に設定することが望ましい。

図１７には、５／１、６／１、８／１、１０／１の４つの日におけるＹｏｕＴｕｂｅ（登録商標）データのＤＶＣのＣＣＤと、Ｇ＝６４に設定した１０回のＳｇＭＰＰ（６４）の各対応ステップ時点で生成されたＸ_ｊのＣＣＤとがプロットされている。いずれのサンプル日においても、ＳｇＭＰＰ（６４）を用いることでＹｏｕＴｕｂｅ（登録商標）のＤＶＣのＣＣＤを精度よく再現できることが確認できる。特に、ＹｏｕＴｕｂｅ（登録商標）データのＤＶＣ分布が定常状態に達した後の８／１と１０／１の時点では、高精度な再現結果が得られている。

上述したように、第２の実施の形態によれば、ユーザ生成コンテンツの需要分布の再現精度を向上させることができる。

なお、上記各実施の形態において、ＳＭＰＰ実行部１３及びＳｇＭＰＰ実行部１６は、再現部の一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０、１０ａ需要分布再現装置
１１統計情報取得部
１２近似分布生成部
１３ＳＭＰＰ実行部
１４ＤＶＣグループ生成部
１５グループ別近似分布生成部
１６ＳｇＭＰＰ実行部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１１１統計情報記憶部
１１２視聴数分布記憶部
Ｂバス

Claims

ネットワークを介して配信されるユーザ生成コンテンツの各日の生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率の対数正規分布とに基づいて、Multiplicative process（ＭＰＰ）を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現部を有する、
ことを特徴とする需要分布再現装置。
前記再現部は、複数の前記ユーザ生成コンテンツのＭＰＰを重畳して、前記各日の視聴数の分布を再現する、
ことを特徴とする請求項１記載の需要分布再現装置。
前記再現部は、前記各日に対応するＭＰＰの各ステップｋにおいて、重畳されたＭＰＰの数をＮ_ｋ、ＭＰＰ_ｉ（１≦ｉ≦Ｎ_ｋ）の状態値をＸ_ｉ，ｋとし、初期状態（ｋ＝０）ではＭＰＰが存在しないものとし（Ｎ_０＝０）、前記生成数の対数正規分布をΘ、前記アップロード日の視聴数の対数正規分布をΥ、前記倍率の対数正規分布をΩとするとき、
Ｎ_ｋ本の重畳されている各ＭＰＰ_ｉに対して、Ωに従う確率でランダムに選択したＭＰＶ_ｒｉ，ｋを用いて、状態Ｘ_ｉ，ｋを、Ｘ_ｉ，ｋ＝ｒ_ｉ，ｋＸ_{ｉ，ｋ−１}により更新し、
新たに重畳するＭＰＰの本数ｎ_ｋをΘに従う確率でランダムに選択して、Ｎ_ｋ＋１を、Ｎ_ｋ＋１＝Ｎ_ｋ＋ｎ_ｋにより更新し、
新たに重畳するｎ_ｋ本の各ＭＰＰ_ｉに対してＸ_ｉ，ｋの初期値をΥに従う確率でランダムに設定する処理を前記各ステップｋについて反復する、
ことを特徴とする請求項２記載の需要分布再現装置。
各日におけるユーザ生成コンテンツの生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率を当該倍率に係る視聴数に基づいて分類したグループ別の対数正規分布とに基づいて、Multiplicative process（ＭＰＰ）を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現部を有する、
ことを特徴とする需要分布再現装置。
前記再現部は、複数のユーザ生成コンテンツの前記グループ別のＭＰＰを重畳して、前記各日の視聴数の分布を再現する、
ことを特徴とする請求項４記載の需要分布再現装置。
前記再現部は、Ｇ個の前記グループｇの下限値がｂ_ｇであるとき、ｇ（ｘ）を視聴数ｘが分類される前記グループとすると、ｂ_ｇ（ｘ）≦ｘ＜ｂ_{ｇ（ｘ）＋１}を満たし、前記各日に対応するＭＰＰの各ステップｋにおいて、重畳されたＭＰＰの数をＮ_ｋ、ＭＰＰ_ｉ（１≦ｉ≦Ｎ_ｋ）の状態値をＸ_ｉ，ｋとし、初期状態（ｋ＝０）ではＭＰＰが存在しないものとし（Ｎ_０＝０）、前記生成数の対数正規分布をΘ、前記アップロード日の視聴数の対数正規分布をΥ、前記グループｇ別の倍率の対数正規分布をΩ_ｇとするとき、
Ｎ_ｋ本の重畳されている各ｇＭＰＰ_ｉに対して、Ω_{ｇ（Ｘｉ，ｋ−１）}に従う確率でランダムに選択したＭＰＶ_ｒｉ，ｋを用いて、状態Ｘ_ｉ，ｋをＸ_ｉ，ｋ＝ｒ_ｉ，ｋＸ_{ｉ，ｋ−１}により更新し、
新たに重畳するｇＭＰＰ_ｉの本数ｎ_ｋをΘに従う確率でランダムに選択して、Ｎ_ｋ＋１を、Ｎ_ｋ＋１＝Ｎ_ｋ＋ｎ_ｋにより更新し、
新たに生成したｎｋ本の各ｇＭＰＰ_ｉに対してＸ_ｉ，ｋの初期値をΥに従う確率でランダムに設定する処理を前記各ステップｋについて反復する、
ことを特徴とする請求項５記載の需要分布再現装置。
コンピュータが、
ネットワークを介して配信されるユーザ生成コンテンツの各日の生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率の対数正規分布とに基づいて、Multiplicative process（ＭＰＰ）を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現手順を実行する、
ことを特徴とする需要分布再現方法。
コンピュータが、
各日におけるユーザ生成コンテンツの生成数の対数正規分布と、前記ユーザ生成コンテンツのアップロード日の視聴数の対数正規分布と、前記ユーザ生成コンテンツの前日の日視聴数に対する翌日の日視聴数の倍率を当該倍率に係る視聴数に基づいて分類したグループ別の対数正規分布とに基づいて、Multiplicative process（ＭＰＰ）を用いて、前記各対数正規分布に従う各日の視聴数の分布を再現する再現手順を実行する、
ことを特徴とする需要分布再現方法。