JP2014164576A - 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 - Google Patents

予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 Download PDF

Info

Publication number
JP2014164576A
JP2014164576A JP2013035818A JP2013035818A JP2014164576A JP 2014164576 A JP2014164576 A JP 2014164576A JP 2013035818 A JP2013035818 A JP 2013035818A JP 2013035818 A JP2013035818 A JP 2013035818A JP 2014164576 A JP2014164576 A JP 2014164576A
Authority
JP
Japan
Prior art keywords
comments
prediction
content
determination time
transition state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013035818A
Other languages
English (en)
Other versions
JP5952756B2 (ja
Inventor
Kazufumi Ikeda
和史 池田
Hajime Hattori
元 服部
Toshihiro Ono
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013035818A priority Critical patent/JP5952756B2/ja
Publication of JP2014164576A publication Critical patent/JP2014164576A/ja
Application granted granted Critical
Publication of JP5952756B2 publication Critical patent/JP5952756B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる予測サーバ、プログラム及び方法を提供する。
【解決手段】コンテンツ毎に、初動判定時間のコメント数によって投稿傾向を識別して学習情報として予め記憶した学習情報記憶手段と、初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段の中から検索する初動判定時間検索手段と、検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段とを有する。
【選択図】図2

Description

本発明は、予測対象となるコンテンツに対する、不特定多数のユーザの興味の傾向を分析する技術に関する。
近年、インターネットを介して、不特定多数の第三者に対して、様々なコンテンツが公開されている。公開コンテンツは、例えば、ニュース記事や、Webページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツのような各種のメディアコンテンツであって、不特定多数の第三者からアクセス可能なコンテンツをいう。
一方で、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)(例えばtwitter(登録商標))のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。このようなコメント文章は、共通の話題に対して議論されている場合も多い。このような共通の話題としては、前述したような不特定多数の第三者に対して配信される公開コンテンツがある。
従来、このような公開コンテンツに関連するコメント文章を検索し、そのコメント数に応じて、コンテンツのランキング形式を公開する技術がある(例えば非特許文献1参照)。この技術によれば、多数投稿されているコメントの中からキーワードを抽出し、twitterで盛り上がっている話題やトレンドをリアルタイムに分析し、そのランキングををユーザに明示する。
また、具体的なサービス技術として、例えば映画の関するtwitter上のコメント数や内容に基づいて、当該映画の興行収入を予測する技術もある(例えば非特許文献2参照)。具体的に予測に用いる情報として、映画の公開前のツイート数及びポジネガ比率(ツイートの内容の肯定的内容/否定的内容)と、公開後のツイート数及びポジネガ比率とを用いる。ツイート数が多く且つ肯定的(ポジティブ)なコメントが多い映画ほど、興行収入が多くなると予測される。一方で、ツイート数が少なく且つ否定的(ネガティブ)なコメントが多い映画ほど、興行収入が少なくなると予測される。
NECビッグローブ、「ついっぷるトレンド」、[online]、[平成24年8月27日検索]、インターネット<URL:http://tr.twipple.jp/> Sitaram Asur and Bernardo A. Huberman, HP Labs, "Predicting the Future With Social Media",Proc. Of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence andIntelligent Agent Technology (WI-IAT '10), vol. 1, pp. 492-499 A. J. Smola and B. Scholkopf, "A tutorial on support vectorregression", Journal of Statistics and Computing, vol. 14, No. 3, pp.199-222, 2004. 「直線回帰(単回帰)」、[online]、[平成25年2月10日検索]、インターネット<URL:http://aoki2.si.gunma-u.ac.jp/lecture/Regression/sreg/sreg.html>
非特許文献1に記載された技術によれば、現在時刻で、不特定多数のユーザが興味を持っているコンテンツを特定することができる。しかしながら、将来的に、不特定多数のユーザが興味を持つであろうコンテンツまで特定することはできない。また、ニュースの配信直後には十分なコメント数が得られないため、正確にランキングを決定することは難しい。
非特許文献2に記載された技術によれば、映画のように比較的限定された予測対象コンテンツを対象としているために、将来的に、不特定多数のユーザがどの程度興味を持つかは比較的高精度に予測することができる。しかしながら、この技術を用いても、例えばニュース記事のように、発信される数が多く且つその内容も多様となるコンテンツを予測対象とした場合、予測精度が十分に得られにくい。その理由としては、コンテンツの多様な内容に対する、コメントの内容の傾向に相違にあることに基づく。また、特に時事的なニュース記事に対するコメントは量的に多くなり、特定の予測対象コンテンツに対する将来的なコメント数の傾向まで検出することは難しい。また、この技術によれば、映画に対するコメントは、比較的長期であっておよそ1週間以上の観測を要する。ニュースに対するコメントは、概ね配信後24時間以内に投稿されるため、本来、1時間程度の短期間で予測できることが望ましい。
このような従来技術に対し、本願の発明者らは、例えばニュースのような時事に対するコメント数の時系列変化を観測した場合、投稿傾向が混在するために、単一モデルにおける予測精度が低くなるのではないか、と考えた。
図1は、単一モデルにおける予測精度を表す説明図である。
図1によれば、時間経過に応じた投稿数の投稿傾向のグラフが表されており、例えば以下のような2つの投稿傾向があるとする。
「崖型」:配信後すぐに急増し、その後、急速に減少する
「山型」:配信後ゆっくりと漸増し、その後、減少する。
このような異なる投稿傾向を持つ異なる予測対象コンテンツを、単一の予測モデルを用いた場合、平均的な予測精度を少し高めることができたとしても、個別の予測対象コンテンツの予測精度を大きく高めることはできない。
そこで、本発明は、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる予測サーバ、プログラム及び方法を提供することを目的とする。
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする。
本発明の予測サーバにおける他の実施形態によれば、投稿傾向は、初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」のいずれかであることも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
学習情報記憶手段は、崖型のコンテンツについてそのコメント数の推移状態に基づいて算出された崖型の回帰モデルと、山型のコンテンツについてそのコメント数の推移状態に基づいて算出された山形の回帰モデルとを蓄積し、
初動判定時間検索手段は、学習情報記憶手段における同一の推移型の回帰モデルを用いることも好ましい。
本発明の予測サーバにおける他の実施形態によれば、回帰モデルは、サポートベクタ回帰(SVR(Support Vector Regression))に基づくものであることも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する全体傾向識別手段を更に有し、
初動傾向識別手段は、学習データとして、コンテンツの初動判定時間のコメント数の推移状態と共に、全体傾向識別手段から出力された「崖型」「山型」とを入力する教師有り学習機能であることも好ましい。
本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、サポートベクタマシン又はC4.5であることも好ましい。
本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツの配信時刻を、判定要素として識別することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツの内容種別を、判定要素として識別することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
サイトサーバは、ブログサイトサーバであって、
予測サーバは、
予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
予測対象コメント検索手段は、予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数することも好ましい。
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバにおけるコメント数予測方法であって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶部を有し、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する第1のステップと、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する第2のステップと、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段における同一の推移型の中から検索する第3のステップと、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第4のステップと
を有することを特徴とする。
本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる。
単一モデルにおける予測精度を表す説明図である。 本発明におけるシステム構成図である。 本発明における予測サーバの機能構成図である。 学習情報記憶部、初動傾向識別部、初動判定時間検索部及び全体傾向識別部の処理を表す説明図である。 配信時刻に応じて崖型又は山型の比率を表すグラフである。 内容種別毎における山形の比率を表すグラフである。 予測サーバのランキング公開部における処理を表す説明図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明におけるシステム構成図である。
図2によれば、コンテンツ公開サーバ3が、インターネットに接続されている。コンテンツ公開サーバ3は、不特定多数の第三者に向けて公開コンテンツを配信する。公開コンテンツは、様々なメディアコンテンツであって、例えばニュース記事、Webページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツであってもよい。
また、図2によれば、ブログサイトサーバ2が、インターネットに更に接続されており、複数の投稿者間でテキストのコメントを発信し合うことができる。ブログサイトサーバ2は、例えばtwitter(登録商標)サイトであってもよい。
尚、以下では、ブログサイトサーバ2とコンテンツ公開サーバ3とが別々にインターネットに設置されているものとして説明する(図2参照)が、これら機能が一体となったサイトサーバであってもよい。このようなサイトサーバの場合、コンテンツ毎にコメントが対応付けて公開されている。例えばYouTube(登録商標)のようなサイトサーバがある。
端末4は、パーソナルコンピュータ、携帯端末、スマートフォン、テレビ等であって、コンテンツ公開サーバ3及びブログサイトサーバ2にアクセスすることができる。不特定多数のユーザは、端末4を用いて、コンテンツ公開サーバ3によって公開されるコンテンツを閲覧しながら、ブログサイトサーバ2へコメント文章を投稿し、他人のコメント文章も閲覧することができる。
本発明によれば、予測サーバ1が、インターネットに更に接続されており、コンテンツ公開サーバ3及びブログサイトサーバ2と通信することができる。本発明における予測サーバ1は、予測対象コンテンツにおける将来的なコメント数を予測することができる。これによって、ユーザは、端末4から予測サーバ1へアクセスすることによって、将来的に注目されるであろうコンテンツを知ることができる。
図3は、本発明における予測サーバの機能構成図である。
図3によれば、予測サーバ1は、学習情報記憶部10と、予測対象キーワード抽出部11と、予測対象コメント検索部12と、初動傾向識別部13と、初動判定時間検索部14と、全体傾向識別部15と、コメント数予測部16と、ランキング公開部17とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、各機能構成部の処理順序は、コメント数予測方法としても理解できる。
[予測対象キーワード抽出部11]
予測対象キーワード抽出部11は、キーとなる予測対象コンテンツを入力し、当該予測対象コンテンツに含まれるキーワード群を抽出する。予測対象コンテンツは、Webページであってもよいし、URL(Uniform Resource Locator)のみであってもよい。URLのみである場合、予測対象キーワード抽出部11は、そのURLに基づくWebページを、コンテンツ公開サーバ3から取得する。これらコンテンツには、少なくともテキストが含まれていることを前提とする。
次に、予測対象キーワード抽出部11は、コンテンツに含まれるテキストから形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。
次に、予測対象キーワード抽出部11は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的な単語を、キーワードとして抽出する。TF−IDFとは、各単語に重みを付けて、クエリから文章をベクトル空間で表し、文章とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。
例えば、予測対象コンテンツとして、以下のようなニュース記事があったとする。
「[日本、42年ぶり優勝=米国の8連覇を阻む―ソフトボール女子]ソフトボールの女子世界選手権最終日は22日、カナダ・ホワイトホースで行われ、日本は決勝で8連覇を目指した米国を延長十回、2―1で破り、<7月23日(月)11時30分配信>」
このニュース記事から、例えば以下のようなキーワード群が抽出される。
「優勝」「連覇」「ソフトボール」
勿論、予測対象コンテンツのURLそのものを、キーワードとして抽出するものであってもよい。
[予測対象コメント検索部12]
予測対象コメント検索部12は、抽出されたキーワード群をキーとして、ブログサイトサーバ2から複数のコメントを検索する。前述のキーワード群をキーとして、例えば以下のようなコメントが検索される。
>投稿者ID: xxxyyy
>属性:30代、男性、会社員、スポーツ
>フォロワー数:200人
>内容:ようやった!日本、42年ぶり優勝=米国の8連覇を阻む―ソフトボール女子
http://www.news.jp/xxx
>投稿時刻:7月23日(月)12時30分
予測対象コメント検索部12は、予測対象コンテンツに関連する多数のコメントを検索する。そして、当該予測対象コンテンツについて、時間経過に応じた各単位時間のコメント数を計数する。経過時間に応じたコメント数の推移状態(グラフ化された履歴情報)は、判定時間検索部14へ出力される。
尚、当該予測サーバが、ブログサイトサーバの機能とコンテンツ公開サーバの機能とが一体となったサイトサーバと通信可能である場合、予測対象キーワード抽出部11は必須の構成要素とはならない。また、予測対象コメント検索部12は、抽出されたキーワード群をキーとしてブログサイトサーバ2から複数のコメントを検索する必要もない。一体化されたサイトサーバが既に、コンテンツ毎に対応付けてコメント群を発信しているためである。
図4は、学習情報記憶部、初動傾向識別部、初動判定時間検索部及び全体傾向識別部の処理を表す説明図である。
[学習情報記憶部10]
学習情報記憶部10は、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶する。コンテンツ毎に、例えば配信後24時間について、10分(単位時間、スロット)毎のコメント数の推移状態(144スロットの時間的変化)を表す投稿傾向を記憶する。即ち、投稿傾向とは、時間経過に応じた投稿数の変化をいう。
投稿傾向としては、例えば初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」がある。ここで、学習情報記憶部10は、以下の2つの予測モデルを蓄積することも好ましい。
崖型の回帰モデル:崖型のコンテンツについてそのコメント数の推移状態から算出
山型の回帰モデル:山型のコンテンツについてそのコメント数の推移状態から算出
回帰モデルは、サポートベクタ回帰(SVR(Support Vector Regression))に基づくものであってもよい(例えば非特許文献3参照)。非特許文献3に記載された回帰モデルは、時系列データから指定時間後のデータを予測する目的で用いられるものである。
回帰モデルとは、従属変数(目的変数、例えば崖型又は山型)と連続尺度の独立変数(説明変数、コンテンツの投稿傾向)とについて、従属変数が説明変数によってどれくらい説明できるのかを定量的に分析したものである。
[全体傾向識別部15]
全体傾向識別部15は、コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する。全体傾向識別部15は、ブログサイトサーバ2及びコンテンツ公開サーバ3と通信することによって、学習情報記憶部10へ記憶させるべき学習情報を生成する。
全体傾向識別部15は、収集したコンテンツにおけるコメント数の推移状態における近似曲線の傾きを、判定要素として識別する。コメント数の増減傾向を、以下の式で算出することもできる。
各点の座標(時間,コメント数)=(xi,yi
時間xの平均:mu
コメント数yの平均:nu
Σi(xi−mu)(yi−nu)/Σi(xi−mu)
例えば近似曲線の傾きを求める直線回帰(単回帰)を用いることも好ましい(例えば非特許文献4参照)。
また、崖型又は山型を識別する他の方法として、学習用に収集されたコンテンツの投稿数について、初動判定時間(例えば最初の1時間)の初動投稿数Tと、24時間の累積投稿数Tとの比率Rから導出することもできる。
R=T/T
そして、全体傾向識別部15は、コンテンツ毎の投稿傾向(崖型又は山型)を、学習情報記憶部10へ出力する。また、初動傾向識別部13が、後述する教師有り学習機能を有する場合、全体傾向識別部15は、コンテンツ毎の投稿傾向を、初動傾向識別部13へも出力する。
[初動傾向識別部13]
初動傾向識別部13は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する。例えば現在時刻から、予測対象コンテンツに対する将来的なコメント数を予測したいとする。このとき、現在時刻から遡った一定時間(例えば1時間)における推移状態を、初動判定時間とする。そして、初動傾向を判定する最も簡単な方法としては、初動判定時間(例えば1時間:N=6スロット)の予測データについて、以下のように識別する。
「崖型」:Nスロット間でコメント数が減少傾向にある
「山型」:Nスロット間でコメント数が減少傾向にある
即ち、初動傾向識別部13は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別する。Nスロットにおけるコメント数の増減傾向を、前述した全体傾向識別部15と同様の式で算出することもできる。
また、崖型又は山型を識別する他の方法として、前述した全体傾向識別部15と同様に、予測対象コンテンツの累積投稿数Pは、初動判定時間の初動投稿数Pと、全体傾向識別部13で算出された比率Rとから、以下のように算出することもできる。
=R×P
また、以下のような判断要素を加えて用いることも好ましい。
(1)初動傾向識別部13は、予測対象コンテンツの配信時刻を、判定要素として識別する。図5は、配信時刻に応じて崖型又は山型の比率を表すグラフである。図5によれば、山型は、早朝や午前中に配信されるコンテンツの比率が高くなる傾向が見られる。一方で、崖型は、夕方や夜間に配信されるコンテンツの比率が高くなる傾向が見られる。このグラフは、予め統計的に計測して記録されたものである。
(2)初動傾向識別部13は、予測対象コンテンツの内容種別(ジャンル)を、判定要素として識別する。図6は、内容種別毎における山形の比率を表すグラフである。図6によれば、例えば「韓国」「中国」「産業」に関する予測対象コンテンツは、山形となる比率が高くなる傾向がある。一方で、例えば「映画」「音楽」「政治」に関する予測対象コンテンツは、崖型となる比率が高くなる傾向がある。このグラフも、予め統計的に計測して記録されたものである。
尚、学習データとしてのコンテンツのユーザ名と、崖型又は山型の比率とを蓄積しておくことも好ましい。崖型又は山型に特徴的に出現するユーザ名を、識別に利用することができる。例えば、崖型又は山型のいずれかの比率が閾値を上回るか、又は、AIC(Akaike's Information Criterion)等の情報量基準を用いてもよい。
更に、図4のように、初動傾向識別部13は、学習データとして、コンテンツの初動判定時間のコメント数の推移状態と共に、全体傾向識別部15から出力された「崖型」「山型」とを入力する教師有り学習機能であってもよい。この教師有り学習機能としては、具体的にはサポートベクタマシン又はC4.5であってもよい。
例えばC4.5に入力する特徴量の例としては、以下のようなものである。学習用に収集されたコンテンツの投稿傾向は、全体傾向識別部15から入力されたものである。
Figure 2014164576
[初動判定時間検索部14]
初動判定時間検索部14は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶部10における同一の推移型の中から検索する。初動判定時間検索部14は、学習情報記憶部10における同一の推移型の回帰モデルを用いることも好ましい。
例えば、初動傾向識別部13によって崖型と判定された予測対象コンテンツについては、学習情報記憶部10における崖型の中から、その推移状態と類似するコンテンツを検索する。又は、崖型の回帰モデルを用いる。一方で、初動傾向識別部13によって山型と判定された予測対象コンテンツについては、学習情報記憶部10における山型の中から、その推移状態と類似するコンテンツを検索する。又は、山型の回帰モデルを用いる。
[コメント数予測部16]
コメント数予測部16は、検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する。このように、予測対象コンテンツの過去から現在までのコメント数の傾向(推移状態)と、過去に収集された他の多数のコンテンツの推移状態と比較することによって、今後のコメント数の増減の傾向を予測することができる。
Figure 2014164576
[ランキング公開部17]
ランキング公開部17は、複数の予測対象コンテンツについて、コメント数予測部16によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開する。この場合、複数の予測対象コンテンツは、ユーザによって選択されたものであってもよいし、予測サーバの運営事業者によった予め選択されたものであってもよい。例えば、ユーザは、現在それほど注目されていないけれども、その後、コメント数が急増するようなコンテンツを知ることができる。
図7は、予測サーバのランキング公開部における処理を表す説明図である。
図7によれば、現在時刻から見て、将来的にコメント数が増加するであろう1位から5位までのランキング形式で、コンテンツが表されている。例えば1位のコンテンツについては、現在時刻であってもコメント数が多いが、今後更に増加することが予想される。また、例えば第4位のコンテンツについては、現在時刻ではコメント数はそれほど多くは無いが、今後急増することが予想される。このように、ユーザは、ランキング形式のページを閲覧することによって、将来的にコメント数が増加するであろうコンテンツを知ることができる。即ち、ユーザは、ネット上でまだ大きな話題になっていないコンテンツを、先行して知ることができる。
以上、詳細に説明したように、本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる。
特に本発明によれば、予測対象コンテンツの配信後、比較的短時間で、その後の投稿傾向を予測することができる。そのために、まだネット上で大きな話題になっていないニュースを先読みして、ユーザに提示するという先進性の高いサービスを提供することができる。また、投稿傾向を識別するために、投稿傾向を識別しない単一モデルを用いる場合と比較して予測精度が高まる。本願の発明者らは、以下のような予測精度の向上の結果を得ている。
投稿傾向を識別しない単一モデルの場合 :予測精度55%程度
投稿傾向(崖型又は山型)を識別した複数モデルの場合:予測精度81%程度
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 予測サーバ
10 学習情報記憶部
11 予測対象キーワード抽出部
12 予測対象コメント検索部
13 初動傾向識別部
14 初動判定時間検索部
15 全体傾向識別部
16 コメント数予測部
17 ランキング公開部
2 ブログサイトサーバ
3 コンテンツ公開サーバ
4 端末

Claims (12)

  1. 複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
    コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
    前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
    前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
    前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
    検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
    を有することを特徴とする予測サーバ。
  2. 前記投稿傾向は、初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」のいずれかであることを特徴とする請求項1に記載の予測サーバ。
  3. 前記学習情報記憶手段は、崖型のコンテンツについてそのコメント数の推移状態に基づいて算出された崖型の回帰モデルと、山型のコンテンツについてそのコメント数の推移状態に基づいて算出された山形の回帰モデルとを蓄積し、
    前記初動判定時間検索手段は、前記学習情報記憶手段における同一の推移型の回帰モデルを用いる
    ことを特徴とする請求項2に記載の予測サーバ。
  4. 前記回帰モデルは、サポートベクタ回帰(SVR(Support Vector Regression))に基づくものであることを特徴とする請求項3に記載の予測サーバ。
  5. 前記コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する全体傾向識別手段を更に有し、
    前記初動傾向識別手段は、学習データとして、前記コンテンツの初動判定時間のコメント数の推移状態と共に、前記全体傾向識別手段から出力された「崖型」「山型」とを入力する教師有り学習機能である
    ことを特徴とする請求項2から4のいずれか1項に記載の予測サーバ。
  6. 前記初動傾向識別手段は、サポートベクタマシン又はC4.5であることを特徴とする請求項5に記載の予測サーバ。
  7. 前記初動傾向識別手段は、前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別することを特徴とする請求項5又は6のいずれか1項に記載の予測サーバ。
  8. 前記初動傾向識別手段は、前記予測対象コンテンツの配信時刻を、判定要素として識別することを特徴とする請求項5から7のいずれか1項に記載の予測サーバ。
  9. 前記初動傾向識別手段は、前記予測対象コンテンツの内容種別を、判定要素として識別することを特徴とする請求項5から8のいずれか1項に記載の予測サーバ。
  10. 前記サイトサーバは、ブログサイトサーバであって、
    前記予測サーバは、
    前記予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
    前記予測対象コメント検索手段は、前記予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、前記ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
    ことを特徴とする請求項1から9のいずれか1項に記載の予測サーバ。
  11. 複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
    コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
    前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
    前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
    前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
    検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
    してコンピュータを機能させることを特徴とするサーバ用の予測プログラム。
  12. 複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバにおけるコメント数予測方法であって、
    コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶部を有し、
    前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する第1のステップと、
    前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する第2のステップと、
    前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶手段における同一の推移型の中から検索する第3のステップと、
    検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第4のステップと
    を有することを特徴とするコメント数予測方法。
JP2013035818A 2013-02-26 2013-02-26 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 Expired - Fee Related JP5952756B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013035818A JP5952756B2 (ja) 2013-02-26 2013-02-26 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013035818A JP5952756B2 (ja) 2013-02-26 2013-02-26 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2014164576A true JP2014164576A (ja) 2014-09-08
JP5952756B2 JP5952756B2 (ja) 2016-07-13

Family

ID=51615114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013035818A Expired - Fee Related JP5952756B2 (ja) 2013-02-26 2013-02-26 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP5952756B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053621A (ja) * 2017-09-15 2019-04-04 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN109961183A (zh) * 2019-03-20 2019-07-02 重庆邮电大学 一种评论信息对用户签到影响的度量方法
CN111325390A (zh) * 2020-02-17 2020-06-23 电子科技大学 一种基于兴趣演化的学者合作关系预测方法
JP2020144771A (ja) * 2019-03-08 2020-09-10 Fringe81株式会社 投稿管理システム、投稿管理サーバ、及び投稿管理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997250B2 (en) 2018-09-24 2021-05-04 Salesforce.Com, Inc. Routing of cases using unstructured input and natural language processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216202A (ja) * 2004-02-02 2005-08-11 Fuji Heavy Ind Ltd 未来値予測装置および未来値予測方法
JP2011081491A (ja) * 2009-10-05 2011-04-21 Nec Biglobe Ltd 時系列分析装置、時系列分析方法、及びプログラム
JP2011159282A (ja) * 2009-12-30 2011-08-18 Mitsubishi Electric Research Laboratories Inc 非線形的な季節的時系列を予測するための方法
JP2013037624A (ja) * 2011-08-10 2013-02-21 Sony Computer Entertainment Inc 情報処理システム、情報処理方法、プログラム及び情報記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216202A (ja) * 2004-02-02 2005-08-11 Fuji Heavy Ind Ltd 未来値予測装置および未来値予測方法
JP2011081491A (ja) * 2009-10-05 2011-04-21 Nec Biglobe Ltd 時系列分析装置、時系列分析方法、及びプログラム
JP2011159282A (ja) * 2009-12-30 2011-08-18 Mitsubishi Electric Research Laboratories Inc 非線形的な季節的時系列を予測するための方法
JP2013037624A (ja) * 2011-08-10 2013-02-21 Sony Computer Entertainment Inc 情報処理システム、情報処理方法、プログラム及び情報記憶媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019053621A (ja) * 2017-09-15 2019-04-04 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2020144771A (ja) * 2019-03-08 2020-09-10 Fringe81株式会社 投稿管理システム、投稿管理サーバ、及び投稿管理プログラム
CN109961183A (zh) * 2019-03-20 2019-07-02 重庆邮电大学 一种评论信息对用户签到影响的度量方法
CN109961183B (zh) * 2019-03-20 2023-06-23 重庆邮电大学 一种评论信息对用户签到影响的度量方法
CN111325390A (zh) * 2020-02-17 2020-06-23 电子科技大学 一种基于兴趣演化的学者合作关系预测方法
CN111325390B (zh) * 2020-02-17 2023-04-18 电子科技大学 一种基于兴趣演化的学者合作关系预测方法

Also Published As

Publication number Publication date
JP5952756B2 (ja) 2016-07-13

Similar Documents

Publication Publication Date Title
US7860878B2 (en) Prioritizing media assets for publication
US9785888B2 (en) Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information
US7685091B2 (en) System and method for online information analysis
US9015156B2 (en) Interactive computing recommendation facility with learning based on user feedback and interaction
US8234311B2 (en) Information processing device, importance calculation method, and program
JP5160601B2 (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
WO2017020451A1 (zh) 信息推送方法和装置
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
Macdonald et al. Blog track research at TREC
US20080104034A1 (en) Method For Scoring Changes to a Webpage
US20100318526A1 (en) Information analysis device, search system, information analysis method, and information analysis program
EP3510496A1 (en) Compiling documents into a timeline per event
Hopfgartner et al. Semantic user profiling techniques for personalised multimedia recommendation
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
Natarajan et al. Recommending news based on hybrid user profile, popularity, trends, and location
JP6047365B2 (ja) 検索装置、検索プログラムおよび検索方法
De Nies et al. Bringing Newsworthiness into the 21st Century.
WO2016027364A1 (ja) 話題クラスタ選択装置、及び検索方法
JP6373767B2 (ja) 話題語ランキング装置、話題語ランキング方法、およびプログラム
Hopfgartner et al. Semantic user modelling for personal news video retrieval
Quezada et al. Understanding real-world events via multimedia summaries based on social indicators
US20100287136A1 (en) Method and system for the recognition and tracking of entities as they become famous
US20160210291A1 (en) Historical Presentation of Search Results
Weiying et al. Topic Modelling for Malay News Aggregator

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160610

R150 Certificate of patent or registration of utility model

Ref document number: 5952756

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees