JP2014164576A

JP2014164576A - 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

Info

Publication number: JP2014164576A
Application number: JP2013035818A
Authority: JP
Inventors: Kazufumi Ikeda; 和史池田; Hajime Hattori; 元服部; Toshihiro Ono; 智弘小野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-02-26
Filing date: 2013-02-26
Publication date: 2014-09-08
Anticipated expiration: 2033-02-26
Also published as: JP5952756B2

Abstract

【課題】将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる予測サーバ、プログラム及び方法を提供する。
【解決手段】コンテンツ毎に、初動判定時間のコメント数によって投稿傾向を識別して学習情報として予め記憶した学習情報記憶手段と、初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段の中から検索する初動判定時間検索手段と、検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段とを有する。
【選択図】図２

Description

本発明は、予測対象となるコンテンツに対する、不特定多数のユーザの興味の傾向を分析する技術に関する。

近年、インターネットを介して、不特定多数の第三者に対して、様々なコンテンツが公開されている。公開コンテンツは、例えば、ニュース記事や、Ｗｅｂページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツのような各種のメディアコンテンツであって、不特定多数の第三者からアクセス可能なコンテンツをいう。

一方で、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)（例えばtwitter（登録商標））のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。このようなコメント文章は、共通の話題に対して議論されている場合も多い。このような共通の話題としては、前述したような不特定多数の第三者に対して配信される公開コンテンツがある。

従来、このような公開コンテンツに関連するコメント文章を検索し、そのコメント数に応じて、コンテンツのランキング形式を公開する技術がある（例えば非特許文献１参照）。この技術によれば、多数投稿されているコメントの中からキーワードを抽出し、twitterで盛り上がっている話題やトレンドをリアルタイムに分析し、そのランキングををユーザに明示する。

また、具体的なサービス技術として、例えば映画の関するtwitter上のコメント数や内容に基づいて、当該映画の興行収入を予測する技術もある（例えば非特許文献２参照）。具体的に予測に用いる情報として、映画の公開前のツイート数及びポジネガ比率（ツイートの内容の肯定的内容／否定的内容）と、公開後のツイート数及びポジネガ比率とを用いる。ツイート数が多く且つ肯定的（ポジティブ）なコメントが多い映画ほど、興行収入が多くなると予測される。一方で、ツイート数が少なく且つ否定的（ネガティブ）なコメントが多い映画ほど、興行収入が少なくなると予測される。

ＮＥＣビッグローブ、「ついっぷるトレンド」、[online]、［平成２４年８月２７日検索］、インターネット＜URL:http://tr.twipple.jp/＞ Sitaram Asur and Bernardo A. Huberman, HP Labs, "Predicting the Future With Social Media",Proc. Of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence andIntelligent Agent Technology (WI-IAT '10), vol. 1, pp. 492-499 A. J. Smola and B. Scholkopf, "A tutorial on support vectorregression", Journal of Statistics and Computing, vol. 14, No. 3, pp.199-222, 2004. 「直線回帰（単回帰）」、[online]、［平成２５年２月１０日検索］、インターネット＜URL:http://aoki2.si.gunma-u.ac.jp/lecture/Regression/sreg/sreg.html＞

非特許文献１に記載された技術によれば、現在時刻で、不特定多数のユーザが興味を持っているコンテンツを特定することができる。しかしながら、将来的に、不特定多数のユーザが興味を持つであろうコンテンツまで特定することはできない。また、ニュースの配信直後には十分なコメント数が得られないため、正確にランキングを決定することは難しい。

非特許文献２に記載された技術によれば、映画のように比較的限定された予測対象コンテンツを対象としているために、将来的に、不特定多数のユーザがどの程度興味を持つかは比較的高精度に予測することができる。しかしながら、この技術を用いても、例えばニュース記事のように、発信される数が多く且つその内容も多様となるコンテンツを予測対象とした場合、予測精度が十分に得られにくい。その理由としては、コンテンツの多様な内容に対する、コメントの内容の傾向に相違にあることに基づく。また、特に時事的なニュース記事に対するコメントは量的に多くなり、特定の予測対象コンテンツに対する将来的なコメント数の傾向まで検出することは難しい。また、この技術によれば、映画に対するコメントは、比較的長期であっておよそ１週間以上の観測を要する。ニュースに対するコメントは、概ね配信後２４時間以内に投稿されるため、本来、１時間程度の短期間で予測できることが望ましい。

このような従来技術に対し、本願の発明者らは、例えばニュースのような時事に対するコメント数の時系列変化を観測した場合、投稿傾向が混在するために、単一モデルにおける予測精度が低くなるのではないか、と考えた。

図１は、単一モデルにおける予測精度を表す説明図である。

図１によれば、時間経過に応じた投稿数の投稿傾向のグラフが表されており、例えば以下のような２つの投稿傾向があるとする。
「崖型」：配信後すぐに急増し、その後、急速に減少する
「山型」：配信後ゆっくりと漸増し、その後、減少する。
このような異なる投稿傾向を持つ異なる予測対象コンテンツを、単一の予測モデルを用いた場合、平均的な予測精度を少し高めることができたとしても、個別の予測対象コンテンツの予測精度を大きく高めることはできない。

そこで、本発明は、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる予測サーバ、プログラム及び方法を提供することを目的とする。

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態（時間的変化）を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする。

本発明の予測サーバにおける他の実施形態によれば、投稿傾向は、初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」のいずれかであることも好ましい。

本発明の予測サーバにおける他の実施形態によれば、
学習情報記憶手段は、崖型のコンテンツについてそのコメント数の推移状態に基づいて算出された崖型の回帰モデルと、山型のコンテンツについてそのコメント数の推移状態に基づいて算出された山形の回帰モデルとを蓄積し、
初動判定時間検索手段は、学習情報記憶手段における同一の推移型の回帰モデルを用いることも好ましい。

本発明の予測サーバにおける他の実施形態によれば、回帰モデルは、サポートベクタ回帰（ＳＶＲ(Support Vector Regression)）に基づくものであることも好ましい。

本発明の予測サーバにおける他の実施形態によれば、
コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する全体傾向識別手段を更に有し、
初動傾向識別手段は、学習データとして、コンテンツの初動判定時間のコメント数の推移状態と共に、全体傾向識別手段から出力された「崖型」「山型」とを入力する教師有り学習機能であることも好ましい。

本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、サポートベクタマシン又はＣ４．５であることも好ましい。

本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別することも好ましい。

本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツの配信時刻を、判定要素として識別することも好ましい。

本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツの内容種別を、判定要素として識別することも好ましい。

本発明の予測サーバにおける他の実施形態によれば、
サイトサーバは、ブログサイトサーバであって、
予測サーバは、
予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
予測対象コメント検索手段は、予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数することも好ましい。

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態（時間的変化）を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバにおけるコメント数予測方法であって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態（時間的変化）を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶部を有し、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する第１のステップと、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する第２のステップと、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段における同一の推移型の中から検索する第３のステップと、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第４のステップと
を有することを特徴とする。

本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる。

単一モデルにおける予測精度を表す説明図である。本発明におけるシステム構成図である。本発明における予測サーバの機能構成図である。学習情報記憶部、初動傾向識別部、初動判定時間検索部及び全体傾向識別部の処理を表す説明図である。配信時刻に応じて崖型又は山型の比率を表すグラフである。内容種別毎における山形の比率を表すグラフである。予測サーバのランキング公開部における処理を表す説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図２は、本発明におけるシステム構成図である。

図２によれば、コンテンツ公開サーバ３が、インターネットに接続されている。コンテンツ公開サーバ３は、不特定多数の第三者に向けて公開コンテンツを配信する。公開コンテンツは、様々なメディアコンテンツであって、例えばニュース記事、Ｗｅｂページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツであってもよい。

また、図２によれば、ブログサイトサーバ２が、インターネットに更に接続されており、複数の投稿者間でテキストのコメントを発信し合うことができる。ブログサイトサーバ２は、例えばtwitter（登録商標）サイトであってもよい。

尚、以下では、ブログサイトサーバ２とコンテンツ公開サーバ３とが別々にインターネットに設置されているものとして説明する（図２参照）が、これら機能が一体となったサイトサーバであってもよい。このようなサイトサーバの場合、コンテンツ毎にコメントが対応付けて公開されている。例えばYouTube（登録商標）のようなサイトサーバがある。

端末４は、パーソナルコンピュータ、携帯端末、スマートフォン、テレビ等であって、コンテンツ公開サーバ３及びブログサイトサーバ２にアクセスすることができる。不特定多数のユーザは、端末４を用いて、コンテンツ公開サーバ３によって公開されるコンテンツを閲覧しながら、ブログサイトサーバ２へコメント文章を投稿し、他人のコメント文章も閲覧することができる。

本発明によれば、予測サーバ１が、インターネットに更に接続されており、コンテンツ公開サーバ３及びブログサイトサーバ２と通信することができる。本発明における予測サーバ１は、予測対象コンテンツにおける将来的なコメント数を予測することができる。これによって、ユーザは、端末４から予測サーバ１へアクセスすることによって、将来的に注目されるであろうコンテンツを知ることができる。

図３は、本発明における予測サーバの機能構成図である。

図３によれば、予測サーバ１は、学習情報記憶部１０と、予測対象キーワード抽出部１１と、予測対象コメント検索部１２と、初動傾向識別部１３と、初動判定時間検索部１４と、全体傾向識別部１５と、コメント数予測部１６と、ランキング公開部１７とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、各機能構成部の処理順序は、コメント数予測方法としても理解できる。

［予測対象キーワード抽出部１１］
予測対象キーワード抽出部１１は、キーとなる予測対象コンテンツを入力し、当該予測対象コンテンツに含まれるキーワード群を抽出する。予測対象コンテンツは、Ｗｅｂページであってもよいし、ＵＲＬ(Uniform Resource Locator)のみであってもよい。ＵＲＬのみである場合、予測対象キーワード抽出部１１は、そのＵＲＬに基づくＷｅｂページを、コンテンツ公開サーバ３から取得する。これらコンテンツには、少なくともテキストが含まれていることを前提とする。

次に、予測対象キーワード抽出部１１は、コンテンツに含まれるテキストから形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。

次に、予測対象キーワード抽出部１１は、ＴＦ−ＩＤＦ（Term Frequency - Inverse Document Frequency：単語の出現頻度−逆出現頻度）によって特徴的な単語を、キーワードとして抽出する。ＴＦ−ＩＤＦとは、各単語に重みを付けて、クエリから文章をベクトル空間で表し、文章とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。

例えば、予測対象コンテンツとして、以下のようなニュース記事があったとする。
「［日本、42年ぶり優勝＝米国の8連覇を阻む―ソフトボール女子］ソフトボールの女子世界選手権最終日は22日、カナダ・ホワイトホースで行われ、日本は決勝で8連覇を目指した米国を延長十回、2―1で破り、＜7月23日(月)11時30分配信＞」
このニュース記事から、例えば以下のようなキーワード群が抽出される。
「優勝」「連覇」「ソフトボール」
勿論、予測対象コンテンツのＵＲＬそのものを、キーワードとして抽出するものであってもよい。

［予測対象コメント検索部１２］
予測対象コメント検索部１２は、抽出されたキーワード群をキーとして、ブログサイトサーバ２から複数のコメントを検索する。前述のキーワード群をキーとして、例えば以下のようなコメントが検索される。
＞投稿者ID: xxxyyy
＞属性:30代、男性、会社員、スポーツ
＞フォロワー数:200人
＞内容：ようやった！日本、42年ぶり優勝＝米国の8連覇を阻む―ソフトボール女子
http://www.news.jp/xxx
＞投稿時刻：7月23日(月)12時30分

予測対象コメント検索部１２は、予測対象コンテンツに関連する多数のコメントを検索する。そして、当該予測対象コンテンツについて、時間経過に応じた各単位時間のコメント数を計数する。経過時間に応じたコメント数の推移状態（グラフ化された履歴情報）は、判定時間検索部１４へ出力される。

尚、当該予測サーバが、ブログサイトサーバの機能とコンテンツ公開サーバの機能とが一体となったサイトサーバと通信可能である場合、予測対象キーワード抽出部１１は必須の構成要素とはならない。また、予測対象コメント検索部１２は、抽出されたキーワード群をキーとしてブログサイトサーバ２から複数のコメントを検索する必要もない。一体化されたサイトサーバが既に、コンテンツ毎に対応付けてコメント群を発信しているためである。

図４は、学習情報記憶部、初動傾向識別部、初動判定時間検索部及び全体傾向識別部の処理を表す説明図である。

［学習情報記憶部１０］
学習情報記憶部１０は、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態（時間的変化）を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶する。コンテンツ毎に、例えば配信後２４時間について、１０分（単位時間、スロット）毎のコメント数の推移状態（１４４スロットの時間的変化）を表す投稿傾向を記憶する。即ち、投稿傾向とは、時間経過に応じた投稿数の変化をいう。

投稿傾向としては、例えば初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」がある。ここで、学習情報記憶部１０は、以下の２つの予測モデルを蓄積することも好ましい。
崖型の回帰モデル：崖型のコンテンツについてそのコメント数の推移状態から算出
山型の回帰モデル：山型のコンテンツについてそのコメント数の推移状態から算出
回帰モデルは、サポートベクタ回帰（ＳＶＲ(Support Vector Regression)）に基づくものであってもよい（例えば非特許文献３参照）。非特許文献３に記載された回帰モデルは、時系列データから指定時間後のデータを予測する目的で用いられるものである。

回帰モデルとは、従属変数（目的変数、例えば崖型又は山型）と連続尺度の独立変数（説明変数、コンテンツの投稿傾向）とについて、従属変数が説明変数によってどれくらい説明できるのかを定量的に分析したものである。

［全体傾向識別部１５］
全体傾向識別部１５は、コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する。全体傾向識別部１５は、ブログサイトサーバ２及びコンテンツ公開サーバ３と通信することによって、学習情報記憶部１０へ記憶させるべき学習情報を生成する。

全体傾向識別部１５は、収集したコンテンツにおけるコメント数の推移状態における近似曲線の傾きを、判定要素として識別する。コメント数の増減傾向を、以下の式で算出することもできる。
各点の座標（時間，コメント数）＝（ｘ_i，ｙ_i）
時間ｘの平均：ｍｕ
コメント数ｙの平均：ｎｕ
Σ_i（ｘ_i−ｍｕ）（ｙ_i−ｎｕ）／Σ_i（ｘ_i−ｍｕ）^２
例えば近似曲線の傾きを求める直線回帰（単回帰）を用いることも好ましい（例えば非特許文献４参照）。

また、崖型又は山型を識別する他の方法として、学習用に収集されたコンテンツの投稿数について、初動判定時間（例えば最初の１時間）の初動投稿数Ｔ_Ｎと、２４時間の累積投稿数Ｔ_Ａとの比率Ｒから導出することもできる。
Ｒ＝Ｔ_Ａ／Ｔ_Ｎ

そして、全体傾向識別部１５は、コンテンツ毎の投稿傾向（崖型又は山型）を、学習情報記憶部１０へ出力する。また、初動傾向識別部１３が、後述する教師有り学習機能を有する場合、全体傾向識別部１５は、コンテンツ毎の投稿傾向を、初動傾向識別部１３へも出力する。

［初動傾向識別部１３］
初動傾向識別部１３は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する。例えば現在時刻から、予測対象コンテンツに対する将来的なコメント数を予測したいとする。このとき、現在時刻から遡った一定時間（例えば１時間）における推移状態を、初動判定時間とする。そして、初動傾向を判定する最も簡単な方法としては、初動判定時間（例えば１時間：Ｎ＝６スロット）の予測データについて、以下のように識別する。
「崖型」：Ｎスロット間でコメント数が減少傾向にある
「山型」：Ｎスロット間でコメント数が減少傾向にある

即ち、初動傾向識別部１３は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別する。Ｎスロットにおけるコメント数の増減傾向を、前述した全体傾向識別部１５と同様の式で算出することもできる。

また、崖型又は山型を識別する他の方法として、前述した全体傾向識別部１５と同様に、予測対象コンテンツの累積投稿数Ｐ_Ａは、初動判定時間の初動投稿数Ｐ_Ｎと、全体傾向識別部１３で算出された比率Ｒとから、以下のように算出することもできる。
Ｐ_Ａ＝Ｒ×Ｐ_Ｎ

また、以下のような判断要素を加えて用いることも好ましい。
（１）初動傾向識別部１３は、予測対象コンテンツの配信時刻を、判定要素として識別する。図５は、配信時刻に応じて崖型又は山型の比率を表すグラフである。図５によれば、山型は、早朝や午前中に配信されるコンテンツの比率が高くなる傾向が見られる。一方で、崖型は、夕方や夜間に配信されるコンテンツの比率が高くなる傾向が見られる。このグラフは、予め統計的に計測して記録されたものである。

（２）初動傾向識別部１３は、予測対象コンテンツの内容種別（ジャンル）を、判定要素として識別する。図６は、内容種別毎における山形の比率を表すグラフである。図６によれば、例えば「韓国」「中国」「産業」に関する予測対象コンテンツは、山形となる比率が高くなる傾向がある。一方で、例えば「映画」「音楽」「政治」に関する予測対象コンテンツは、崖型となる比率が高くなる傾向がある。このグラフも、予め統計的に計測して記録されたものである。

尚、学習データとしてのコンテンツのユーザ名と、崖型又は山型の比率とを蓄積しておくことも好ましい。崖型又は山型に特徴的に出現するユーザ名を、識別に利用することができる。例えば、崖型又は山型のいずれかの比率が閾値を上回るか、又は、ＡＩＣ(Akaike's Information Criterion)等の情報量基準を用いてもよい。

更に、図４のように、初動傾向識別部１３は、学習データとして、コンテンツの初動判定時間のコメント数の推移状態と共に、全体傾向識別部１５から出力された「崖型」「山型」とを入力する教師有り学習機能であってもよい。この教師有り学習機能としては、具体的にはサポートベクタマシン又はＣ４．５であってもよい。

例えばＣ４．５に入力する特徴量の例としては、以下のようなものである。学習用に収集されたコンテンツの投稿傾向は、全体傾向識別部１５から入力されたものである。

［初動判定時間検索部１４］
初動判定時間検索部１４は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶部１０における同一の推移型の中から検索する。初動判定時間検索部１４は、学習情報記憶部１０における同一の推移型の回帰モデルを用いることも好ましい。

例えば、初動傾向識別部１３によって崖型と判定された予測対象コンテンツについては、学習情報記憶部１０における崖型の中から、その推移状態と類似するコンテンツを検索する。又は、崖型の回帰モデルを用いる。一方で、初動傾向識別部１３によって山型と判定された予測対象コンテンツについては、学習情報記憶部１０における山型の中から、その推移状態と類似するコンテンツを検索する。又は、山型の回帰モデルを用いる。

［コメント数予測部１６］
コメント数予測部１６は、検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する。このように、予測対象コンテンツの過去から現在までのコメント数の傾向（推移状態）と、過去に収集された他の多数のコンテンツの推移状態と比較することによって、今後のコメント数の増減の傾向を予測することができる。

［ランキング公開部１７］
ランキング公開部１７は、複数の予測対象コンテンツについて、コメント数予測部１６によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開する。この場合、複数の予測対象コンテンツは、ユーザによって選択されたものであってもよいし、予測サーバの運営事業者によった予め選択されたものであってもよい。例えば、ユーザは、現在それほど注目されていないけれども、その後、コメント数が急増するようなコンテンツを知ることができる。

図７は、予測サーバのランキング公開部における処理を表す説明図である。

図７によれば、現在時刻から見て、将来的にコメント数が増加するであろう１位から５位までのランキング形式で、コンテンツが表されている。例えば１位のコンテンツについては、現在時刻であってもコメント数が多いが、今後更に増加することが予想される。また、例えば第４位のコンテンツについては、現在時刻ではコメント数はそれほど多くは無いが、今後急増することが予想される。このように、ユーザは、ランキング形式のページを閲覧することによって、将来的にコメント数が増加するであろうコンテンツを知ることができる。即ち、ユーザは、ネット上でまだ大きな話題になっていないコンテンツを、先行して知ることができる。

以上、詳細に説明したように、本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる。

特に本発明によれば、予測対象コンテンツの配信後、比較的短時間で、その後の投稿傾向を予測することができる。そのために、まだネット上で大きな話題になっていないニュースを先読みして、ユーザに提示するという先進性の高いサービスを提供することができる。また、投稿傾向を識別するために、投稿傾向を識別しない単一モデルを用いる場合と比較して予測精度が高まる。本願の発明者らは、以下のような予測精度の向上の結果を得ている。
投稿傾向を識別しない単一モデルの場合：予測精度５５％程度
投稿傾向（崖型又は山型）を識別した複数モデルの場合：予測精度８１％程度

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１予測サーバ
１０学習情報記憶部
１１予測対象キーワード抽出部
１２予測対象コメント検索部
１３初動傾向識別部
１４初動判定時間検索部
１５全体傾向識別部
１６コメント数予測部
１７ランキング公開部
２ブログサイトサーバ
３コンテンツ公開サーバ
４端末

Claims

複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態（時間的変化）を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする予測サーバ。
前記投稿傾向は、初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」のいずれかであることを特徴とする請求項１に記載の予測サーバ。
前記学習情報記憶手段は、崖型のコンテンツについてそのコメント数の推移状態に基づいて算出された崖型の回帰モデルと、山型のコンテンツについてそのコメント数の推移状態に基づいて算出された山形の回帰モデルとを蓄積し、
前記初動判定時間検索手段は、前記学習情報記憶手段における同一の推移型の回帰モデルを用いる
ことを特徴とする請求項２に記載の予測サーバ。
前記回帰モデルは、サポートベクタ回帰（ＳＶＲ(Support Vector Regression)）に基づくものであることを特徴とする請求項３に記載の予測サーバ。
前記コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する全体傾向識別手段を更に有し、
前記初動傾向識別手段は、学習データとして、前記コンテンツの初動判定時間のコメント数の推移状態と共に、前記全体傾向識別手段から出力された「崖型」「山型」とを入力する教師有り学習機能である
ことを特徴とする請求項２から４のいずれか１項に記載の予測サーバ。
前記初動傾向識別手段は、サポートベクタマシン又はＣ４．５であることを特徴とする請求項５に記載の予測サーバ。
前記初動傾向識別手段は、前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別することを特徴とする請求項５又は６のいずれか１項に記載の予測サーバ。
前記初動傾向識別手段は、前記予測対象コンテンツの配信時刻を、判定要素として識別することを特徴とする請求項５から７のいずれか１項に記載の予測サーバ。
前記初動傾向識別手段は、前記予測対象コンテンツの内容種別を、判定要素として識別することを特徴とする請求項５から８のいずれか１項に記載の予測サーバ。
前記サイトサーバは、ブログサイトサーバであって、
前記予測サーバは、
前記予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
前記予測対象コメント検索手段は、前記予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、前記ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
ことを特徴とする請求項１から９のいずれか１項に記載の予測サーバ。
複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態（時間的変化）を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とするサーバ用の予測プログラム。
複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバにおけるコメント数予測方法であって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態（時間的変化）を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶部を有し、
前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する第１のステップと、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する第２のステップと、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶手段における同一の推移型の中から検索する第３のステップと、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第４のステップと
を有することを特徴とするコメント数予測方法。