JP5952711B2 - 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 - Google Patents

予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 Download PDF

Info

Publication number
JP5952711B2
JP5952711B2 JP2012234600A JP2012234600A JP5952711B2 JP 5952711 B2 JP5952711 B2 JP 5952711B2 JP 2012234600 A JP2012234600 A JP 2012234600A JP 2012234600 A JP2012234600 A JP 2012234600A JP 5952711 B2 JP5952711 B2 JP 5952711B2
Authority
JP
Japan
Prior art keywords
comments
prediction
content
server
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012234600A
Other languages
English (en)
Other versions
JP2014085862A (ja
Inventor
池田 和史
和史 池田
服部 元
元 服部
小野 智弘
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012234600A priority Critical patent/JP5952711B2/ja
Publication of JP2014085862A publication Critical patent/JP2014085862A/ja
Application granted granted Critical
Publication of JP5952711B2 publication Critical patent/JP5952711B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、予測対象となるコンテンツに対する、不特定多数のユーザの興味の傾向を分析する技術に関する。
近年、インターネットを介して、不特定多数の第三者に対して、様々なコンテンツが公開されている。公開コンテンツは、例えば、ニュース記事や、Webページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツのような各種のメディアコンテンツであって、不特定多数の第三者からアクセス可能なコンテンツをいう。
一方で、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)(例えばtwitter(登録商標))のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。このようなコメント文章は、共通の話題に対して議論されている場合も多い。このような共通の話題としては、前述したような不特定多数の第三者に対して配信される公開コンテンツがある。
従来、このような公開コンテンツに関連するコメント文章を検索し、そのコメント数に応じて、コンテンツのランキング形式を公開する技術がある(例えば非特許文献1参照)。この技術によれば、多数投稿されているコメントの中からキーワードを抽出し、twitterで盛り上がっている話題やトレンドをリアルタイムに分析し、そのランキングををユーザに明示する。
また、具体的なサービス技術として、例えば映画の関するtwitter上のコメント数や内容に基づいて、当該映画の興行収入を予測する技術もある(例えば非特許文献2参照)。具体的に予測に用いる情報として、映画の公開前のツイート数及びポジネガ比率(ツイートの内容の肯定的内容/否定的内容)と、公開後のツイート数及びポジネガ比率とを用いる。ツイート数が多く且つ肯定的(ポジティブ)なコメントが多い映画ほど、興行収入が多くなると予測される。一方で、ツイート数が少なく且つ否定的(ネガティブ)なコメントが多い映画ほど、興行収入が少なくなると予測される。
NECビッグローブ、「ついっぷるトレンド」、[online]、[平成24年8月27日検索]、インターネット<URL:http://tr.twipple.jp/> Sitaram Asur and Bernardo A.Huberman, HP Labs, "Predicting the Future With SocialMedia", Proc. Of the 2010 IEEE/WIC/ACM InternationalConference on Web Intelligence and Intelligent Agent Technology (WI-IAT '10),vol. 1, pp. 492-499
非特許文献1に記載された技術によれば、現在時刻で、不特定多数のユーザが興味を持っているコンテンツを特定することができる。しかしながら、将来的に、不特定多数のユーザが興味を持つであろうコンテンツまで特定することはできない。
非特許文献2に記載された技術によれば、映画のように比較的限定された予測対象コンテンツを対象としているために、将来的に、不特定多数のユーザがどの程度興味を持つかは比較的高精度に予測することができる。しかしながら、この技術を用いても、例えばニュース記事のように、発信される数が多く且つその内容も多様となるコンテンツを予測対象とした場合、予測精度が十分に得られにくい。その理由としては、コンテンツの多様な内容に対する、コメントの内容の傾向に相違にあることに基づく。また、特に時事的なニュース記事に対するコメントは量的に多くなり、特定の予測対象コンテンツに対する将来的なコメント数の傾向まで検出することは難しい。
そこで、本発明は、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる予測サーバ、プログラム及び方法を提供することを目的とする。
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
サーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする。
本発明の予測サーバにおける他の実施形態によれば、
サイトサーバは、ブログサイトサーバであって、
予測サーバは、
予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
予測対象コメント検索手段は、予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
ことも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
当該予測サーバが、不特定多数の第三者に対してコンテンツを公開するコンテンツ公開サーバと更に通信可能であるか、又は、サイトサーバ自体がコンテンツ公開機能も備えており、
当該予測サーバは、
多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングするコンテンツクラスタリング手段と、
各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、サイトサーバを用いて検索する学習対象コメント検索手段と、
予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索するクラスタ検索手段と
を有し、
判定時間検索手段は、クラスタ検索手段によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを検索することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
学習対象コメント検索手段は、
全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバを用いて検索する、又は、
クラスタ検索手段によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバを用いて検索することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段と、
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段と
を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
複数の予測対象コンテンツについて、コメント数予測手段によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開するランキング公開手段を更に有することも好ましい。
本発明の予測サーバにおける他の実施形態によれば、
判定時間検索手段は、学習情報記憶手段における各単位時間のコメント数の推移状態(時間的変化)と、予測対象コンテンツにおける判定時間範囲のコメント数の(時間的変化)推移状態とを、回帰モデルを用いて類似度を導出することも好ましい。
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
サーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバのコメント数予測方法であって、
予測サーバは、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶部を有し、
予測サーバは、
サイトサーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する第1のステップと、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶から検索する第2のステップと、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第3のステップと
実行することを特徴とする。
本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる。
本発明におけるシステム構成図である。 本発明における予測サーバの機能構成図である。 予測サーバの学習記憶部に記憶された情報を表す説明図である。 予測サーバの判定時間判定部における処理を表す説明図である。 予測サーバのランキング公開部における処理を表す説明図である。 本発明における予測サーバの学習部の機能構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
図1によれば、コンテンツ公開サーバ3が、インターネットに接続されている。コンテンツ公開サーバ3は、不特定多数の第三者に向けて公開コンテンツを配信する。公開コンテンツは、様々なメディアコンテンツであって、例えばニュース記事、Webページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツであってもよい。
また、図1によれば、ブログサイトサーバ2が、インターネットに更に接続されており、複数の投稿者間でテキストのコメントを発信し合うことができる。ブログサイトサーバ2は、例えばtwitter(登録商標)サイトであってもよい。
尚、以下では、ブログサイトサーバ2とコンテンツ公開サーバ3とが別々にインターネットに設置されているものとして説明する(図1参照)が、これら機能が一体となったサイトサーバであってもよい。このようなサイトサーバの場合、コンテンツ毎にコメントが対応付けて公開されている。例えばYouTube(登録商標)のようなサイトサーバがある。
端末4は、パーソナルコンピュータ、携帯端末、スマートフォン、テレビ等であって、コンテンツ公開サーバ3及びブログサイトサーバ2にアクセスすることができる。不特定多数のユーザは、端末4を用いて、コンテンツ公開サーバ3によって公開されるコンテンツを閲覧しながら、ブログサイトサーバ2へコメント文章を投稿し、他人のコメント文章も閲覧することができる。
本発明によれば、予測サーバ1が、インターネットに更に接続されており、コンテンツ公開サーバ3及びブログサイトサーバ2と通信することができる。本発明における予測サーバ1は、予測対象コンテンツにおける将来的なコメント数を予測することができる。これによって、ユーザは、端末4から予測サーバ1へアクセスすることによって、将来的に注目されるであろうコンテンツを知ることができる。
図2は、本発明における予測サーバの機能構成図である。
図2によれば、予測サーバ1は、通信インタフェース部10と、予測対象キーワード抽出部11と、予測対象コメント検索部12と、学習情報記憶部13と、判定時間検索部14と、コメント数予測部15と、ランキング公開部16と、学習部17とを有する。通信インタフェース部10以外のこれら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
[予測対象キーワード抽出部11]
予測対象キーワード抽出部11は、キーとなる予測対象コンテンツを入力し、当該予測対象コンテンツに含まれるキーワード群を抽出する。予測対象コンテンツは、Webページであってもよいし、URL(Uniform Resource Locator)のみであってもよい。URLのみである場合、予測対象キーワード抽出部11は、そのURLに基づくWebページを、コンテンツ公開サーバ3から取得する。これらコンテンツには、少なくともテキストが含まれていることを前提とする。
次に、予測対象キーワード抽出部11は、コンテンツに含まれるテキストから形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。
次に、予測対象キーワード抽出部11は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的な単語を、キーワードとして抽出する。TF−IDFとは、各単語に重みを付けて、クエリから文章をベクトル空間で表し、文章とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。
例えば、予測対象コンテンツとして、以下のようなニュース記事があったとする。
「[日本、42年ぶり優勝=米国の8連覇を阻む―ソフトボール女子]ソフトボールの女子世界選手権最終日は22日、カナダ・ホワイトホースで行われ、日本は決勝で8連覇を目指した米国を延長十回、2―1で破り、<7月23日(月)11時30分配信>」
このニュース記事から、例えば以下のようなキーワード群が抽出される。
「優勝」「連覇」「ソフトボール」
勿論、予測対象コンテンツのURLそのものを、キーワードとして抽出するものであってもよい。
[予測対象コメント検索部12]
予測対象コメント検索部12は、抽出されたキーワード群をキーとして、ブログサイトサーバ2から複数のコメントを検索する。前述のキーワード群をキーとして、例えば以下のようなコメントが検索される。
>投稿者ID: xxxyyy
>属性:30代、男性、会社員、スポーツ
>フォロワー数:200人
>内容:ようやった!日本、42年ぶり優勝=米国の8連覇を阻む―ソフトボール女子
http://www.news.jp/xxx
>投稿時刻:7月23日(月)12時30分
予測対象コメント検索部12は、予測対象コンテンツに関連する多数のコメントを検索する。そして、当該予測対象コンテンツについて、時間経過に応じた各単位時間のコメント数を計数する。経過時間に応じたコメント数の推移状態(グラフ化された履歴情報)は、判定時間検索部14へ出力される。
尚、当該予測サーバが、ブログサイトサーバの機能とコンテンツ公開サーバの機能とが一体となったサイトサーバと通信可能である場合、予測対象キーワード抽出部11は必須の構成要素とはならない。また、予測対象コメント検索部12は、抽出されたキーワード群をキーとしてブログサイトサーバ2から複数のコメントを検索する必要もない。一体化されたサイトサーバが既に、コンテンツ毎に対応付けてコメント群を発信しているためである。
[学習情報記憶部13]
学習情報記憶部13は、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶する。
図3は、予測サーバの学習記憶部に記憶された情報を表す説明図である。
図3によれば、コンテンツ毎に、横軸の時間経過に応じた、縦軸のコメント数のグラフが記憶されている。図3によれば、3つのコンテンツA,B,Cについてグラフが表されている。例えば、図3のコンテンツAによれば、野球の日本の優勝の記事における推移状態が表されている。これによって、コンテンツ毎に、単位時間(例えば4時間)毎のコメント数が記憶されている。
[判定時間検索部14]
判定時間検索部14は、予測対象コンテンツについて計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態となるコンテンツを、学習情報記憶部13から検索する。
図4は、予測サーバの判定時間判定部における処理を表す説明図である。
図4(a)によれば、予測対象コンテンツについて計数された各単位時間のコメント数の推移状態が表されている。例えば現在時刻9:00に、予測対象コンテンツに対する将来的なコメント数を予測したいとする。現在時刻から遡った一定時間(例えば24時間や8時間など)における推移状態を、判定時間範囲とする。図4(a)によれば、現在時刻9:00から遡って8時間を判定時間範囲としている。
図4(b)によれば、学習情報記憶部13に蓄積されたコンテンツ毎の推移状態の中で、予測対象コンテンツの判定時間範囲に類似する推移状態とっているコンテンツを検索する。図4(b)によれば、コンテンツAの前半部分の8時間分の推移状態が、予測対象コンテンツの推移状態に類似している。
判定時間検索部14は、学習情報記憶部13における各単位時間のコメント数の推移状態(時間的変化)と、予測対象コンテンツにおける判定時間範囲のコメント数の(時間的変化)推移状態とを、回帰モデルを用いて類似度を導出することも好ましい。回帰モデルとしては、代表的に最小2乗法がある。最小二乗法とは、測定で得られた数値の組を、適当なモデルから想定される特定の関数(1次関数、対数曲線など)を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とする係数を決定することをいう。即ち、本発明によれば、予測対象コンテンツの推移状態に対して相関が強い推移状態のコンテンツを、学習情報記憶部13から検索する。
このような推移状態(コメント数の時間的変化)の比較は、回帰モデルに限られず、ポアソン分布を用いることもできる。回帰モデルとしては、前述した最小二乗法に限られず、SVR(Support Vector Regression)を用いることもできる。また、感染症の流行モデル(SIRモデル)を用いることもできる。
[コメント数予測部15]
コメント数予測部15は、検索されたコンテンツに対応する予測時間範囲のコメント数を、当該予測対象コンテンツにおける将来的なコメント数として導出する。このように、予測対象コンテンツの過去から現在までのコメント数の傾向(推移状態)と、過去に収集された他の多数のコンテンツの推移状態と比較することによって、今後のコメント数の増減の傾向を予測することができる。
図4(c)によれば、コンテンツAの判定時間範囲以後の予測時間範囲の推移状態が、予測対象コンテンツの予測時間範囲の推移状態となるであろうと予測されている。
[ランキング公開部16]
ランキング公開部16は、複数の予測対象コンテンツについて、コメント数予測部15によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開する。この場合、複数の予測対象コンテンツは、ユーザによって選択されたものであってもよいし、予測サーバの運営事業者によった予め選択されたものであってもよい。例えば、ユーザは、現在それほど注目されていないけれども、その後、コメント数が急増するようなコンテンツを知ることができる。
図5は、予測サーバのランキング公開部における処理を表す説明図である。
図5によれば、現在時刻から見て、将来的にコメント数が増加するであろう1位から5位までのランキング形式で、コンテンツが表されている。例えば1位のコンテンツについては、現在時刻であってもコメント数が多いが、今後更に増加することが予想される。また、例えば第4位のコンテンツについては、現在時刻ではコメント数はそれほど多くは無いが、今後急増することが予想される。このように、ユーザは、ランキング形式のページを閲覧することによって、将来的にコメント数が増加するであろうコンテンツを知ることができる。即ち、ユーザは、ネット上でまだ大きな話題になっていないコンテンツを、先行して知ることができる。
[学習部17]
学習部17は、ブログサイトサーバ2及びコンテンツ公開サーバ3と通信することによって、学習情報記憶部13へ記憶させるべき学習情報を生成する。
図6は、本発明における予測サーバの学習部の機能構成図である。
図6によれば、学習部17は、コンテンツクラスタリング部171と、学習対象コメント検索部172と、クラスタ検索部173とを有する。
コンテンツクラスタリング部141は、多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングする。クラスタリングには、例えばk-meansのような方法が用いられ、互いに類似するコンテンツ同士が同一のクラスとなる。これによって、学習情報記憶部13は、複数のコンテンツを含むクラスタとして記憶する。
また、クラスタリングには、文章間の類似度を導出するコサイン類似度を用いて、所定閾値以上類似する1つのコンテンツ群を導出するものであってもよい。コサイン類似度とは、ベクトル空間モデルにおいて、文書同士を比較する際に用いられる類似度を算出する方法である。コサイン類似度は、そのまま、ベクトル同士の成す角度の近さを表現するため、三角関数のコサインのように、1に近ければ類似しており、0に近ければ非類似と判定することできる。一般には、TF−IDFの値が用いられる。
クラスタ検索部142は、予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索する。
学習対象コメント検索部143は、各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ2を用いて検索する。ここで、学習対象コメント検索部143は、以下のいずれか一方の方法で、コンテンツ毎のコメント数を収集することができる。
(1)全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ2を用いて検索する。これは、学習情報記憶部13に、多数のコンテンツの学習情報を静的に記憶しておく。
(2)クラスタ検索部142によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ2を用いて検索する。これは、クラスタ検索部142の結果に基づいて学習対象コメント検索部143が動的に動作する。
そして、判定時間検索部14は、クラスタ検索部142によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、判定時間範囲のコメント数の推移状態となるコンテンツを検索する。これによって、予測対象コンテンツの内容に比較的類似したコンテンツ群の中から、推移状態が類似するコンテンツを検索することができる。
また、図6によれば、予測サーバ1は、学習部17と共に、ポジネガ判定部18と、プロフィール情報抽出部19とを更に有する。
ポジネガ判定部144は、各コメントのテキストから、その内容が肯定的か又は否定的かを判定する。
この場合、学習情報記憶部13は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶する。
コンテンツAに対する判定時間範囲のコメント:ポジ比率RAP+ネガ比率RAN
コンテンツBに対する判定時間範囲のコメント:ポジ比率RBP+ネガ比率RBN
コンテンツCに対する判定時間範囲のコメント:ポジ比率RCP+ネガ比率RCN
また、コメント数予測部15は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出する。
コンテンツAの将来的な予測時間範囲のコメントについて
肯定的なコメント数=ポジ比率RAP×予測時間範囲のコメント数
否定的なコメント数=ネガ比率RAN×予測時間範囲のコメント数
プロフィール情報抽出部145は、各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出する。
この場合、学習情報記憶部13は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶する。
コンテンツAに対する判定時間範囲のコメント:男性比率RAM+女性比率RAF
コンテンツBに対する判定時間範囲のコメント:男性比率RBM+女性比率RBF
コンテンツCに対する判定時間範囲のコメント:男性比率RCM+女性比率RCF
また、コメント数予測部15は、検索されたコンテンツに対応する予測時間範囲のコメント数に、属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出する。
コンテンツAの将来的な予測時間範囲のコメントについて
男性のコメント数=男性比率RAM×予測時間範囲のコメント数
女性のコメント数=女性比率RAF×予測時間範囲のコメント数
また、ポジネガ判定部18及びプロフィール情報抽出部19の両方を用いることも好ましい。この場合、学習情報記憶部13は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶する。
コンテンツAに対する判定時間範囲のコメント:ポジ比率RAP+ネガ比率RAN
:男性比率RAM+女性比率RAF
コンテンツBに対する判定時間範囲のコメント:ポジ比率RBP+ネガ比率RBN
:男性比率RBM+女性比率RBF
コンテンツCに対する判定時間範囲のコメント:ポジ比率RCP+ネガ比率RCN
:男性比率RCM+女性比率RCF
また、コメント数予測部15は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出する。
コンテンツAの将来的な予測時間範囲のコメントについて
肯定的な男性のコメント数=
ポジ比率RAP×男性比率RAM×予測時間範囲のコメント数
否定的な女性のコメント数=
ネガ比率RAF×女性比率RAF×予測時間範囲のコメント数
・・・・・・
以上、詳細に説明したように、本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 予測サーバ
10 通信インタフェース部
11 予測対象キーワード抽出部
12 予測対象コメント検索部
13 学習情報記憶部
14 判定時間検索部
15 コメント数予測部
16 ランキング公開部
17 学習部
171 コンテンツクラスタリング部
172 クラスタ検索部
173 学習対象コメント検索部
18 ポジネガ判定部
19 プロフィール情報抽出部
2 ブログサイトサーバ
3 コンテンツ公開サーバ
4 端末

Claims (11)

  1. 複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
    コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
    前記サイトサーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
    計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶手段から検索する判定時間検索手段と、
    検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
    を有することを特徴とする予測サーバ。
  2. 前記サイトサーバは、ブログサイトサーバであって、
    前記予測サーバは、
    前記予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
    前記予測対象コメント検索手段は、前記予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、前記ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
    ことを特徴とする請求項1に記載の予測サーバ。
  3. 当該予測サーバが、不特定多数の第三者に対してコンテンツを公開するコンテンツ公開サーバと更に通信可能であるか、又は、前記サイトサーバ自体がコンテンツ公開機能も備えており、
    当該予測サーバは、
    多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングするコンテンツクラスタリング手段と、
    各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、前記サイトサーバを用いて検索する学習対象コメント検索手段と、
    前記予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索するクラスタ検索手段と
    を有し、
    前記判定時間検索手段は、前記クラスタ検索手段によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを検索する
    ことを特徴とする請求項1又は2に記載の予測サーバ。
  4. 前記学習対象コメント検索手段は、
    全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、前記ブログサイトサーバを用いて検索する、又は、
    前記クラスタ検索手段によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、前記ブログサイトサーバを用いて検索する
    ことを特徴とする請求項3に記載の予測サーバ。
  5. 各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段を更に有し、
    前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶し、
    前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出する
    ことを特徴とする請求項1から4のいずれか1項に記載の予測サーバ。
  6. 各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段を更に有し、
    前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶し、
    前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出する
    ことを特徴とする請求項1から4のいずれか1項に記載の予測サーバ。
  7. 各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段と、
    各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段と
    を更に有し、
    前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶し、
    前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出する
    ことを特徴とする請求項1から4のいずれか1項に記載の予測サーバ。
  8. 複数の予測対象コンテンツについて、前記コメント数予測手段によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開するランキング公開手段を更に有する
    ことを特徴とする請求項1から7のいずれか1項に記載の予測サーバ。
  9. 前記判定時間検索手段は、前記学習情報記憶手段における各単位時間のコメント数の推移状態(時間的変化)と、前記予測対象コンテンツにおける判定時間範囲のコメント数の(時間的変化)推移状態とを、回帰モデルを用いて類似度を導出することを特徴とする請求項1から8のいずれか1項に記載の予測サーバ。
  10. 複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
    コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
    前記サーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
    計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶手段から検索する判定時間検索手段と、
    検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
    してコンピュータを機能させることを特徴とするサーバ用の予測プログラム。
  11. 複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバのコメント数予測方法であって、
    前記予測サーバは、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶部を有し、
    前記予測サーバは、
    前記サイトサーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する第1のステップと、
    計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶から検索する第2のステップと、
    検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第3のステップと
    を実行することを特徴とする予測サーバのコメント数予測方法。
JP2012234600A 2012-10-24 2012-10-24 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 Expired - Fee Related JP5952711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012234600A JP5952711B2 (ja) 2012-10-24 2012-10-24 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012234600A JP5952711B2 (ja) 2012-10-24 2012-10-24 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2014085862A JP2014085862A (ja) 2014-05-12
JP5952711B2 true JP5952711B2 (ja) 2016-07-13

Family

ID=50788862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012234600A Expired - Fee Related JP5952711B2 (ja) 2012-10-24 2012-10-24 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP5952711B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225585A (ja) * 2014-05-29 2015-12-14 シャープ株式会社 情報処理装置、情報処理システム、端末装置、情報処理方法、及び情報処理プログラム
US10997250B2 (en) 2018-09-24 2021-05-04 Salesforce.Com, Inc. Routing of cases using unstructured input and natural language processing
JP2020144771A (ja) * 2019-03-08 2020-09-10 Fringe81株式会社 投稿管理システム、投稿管理サーバ、及び投稿管理プログラム
CN109961183B (zh) * 2019-03-20 2023-06-23 重庆邮电大学 一种评论信息对用户签到影响的度量方法
JP7061328B1 (ja) 2021-07-30 2022-04-28 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム
JP7182819B1 (ja) 2021-07-30 2022-12-05 株式会社Jx通信社 情報処理装置、情報処理システムおよびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216202A (ja) * 2004-02-02 2005-08-11 Fuji Heavy Ind Ltd 未来値予測装置および未来値予測方法
JP5322111B2 (ja) * 2007-11-06 2013-10-23 国立大学法人北海道大学 類似画像検索装置
JP5148416B2 (ja) * 2008-09-03 2013-02-20 公益財団法人鉄道総合技術研究所 乗客流動予測システム
JP5387578B2 (ja) * 2008-09-24 2014-01-15 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
JP5077711B2 (ja) * 2009-10-05 2012-11-21 Necビッグローブ株式会社 時系列分析装置、時系列分析方法、及びプログラム

Also Published As

Publication number Publication date
JP2014085862A (ja) 2014-05-12

Similar Documents

Publication Publication Date Title
Cao et al. Mashup service recommendation based on user interest and social network
US9201880B2 (en) Processing a content item with regard to an event and a location
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
US7860878B2 (en) Prioritizing media assets for publication
US9990368B2 (en) System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
US20110060716A1 (en) Systems and methods for improving web site user experience
US20110060717A1 (en) Systems and methods for improving web site user experience
US9720979B2 (en) Method and system of identifying relevant content snippets that include additional information
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
Qian et al. Combining machine learning and human judgment in author disambiguation
Natarajan et al. Recommending news based on hybrid user profile, popularity, trends, and location
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
WO2014155380A1 (en) System and method for topics extraction and filtering
Zhu et al. Real-time personalized twitter search based on semantic expansion and quality model
Cao et al. Mashup service recommendation based on usage history and service network
CN104615723B (zh) 查询词权重值的确定方法和装置
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
US20120239657A1 (en) Category classification processing device and method
Xu et al. Mining Web search engines for query suggestion
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
CN108509449B (zh) 一种信息处理的方法及服务器
KR101402339B1 (ko) 문서 관리 시스템 및 문서 관리 방법
JP2015036892A (ja) 情報処理装置、情報処理方法、及び、プログラム
Aggarwal et al. Insights into Entity Recommendation in Web Search.
Wei et al. Integrated recommender systems based on ontology and usage mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160610

R150 Certificate of patent or registration of utility model

Ref document number: 5952711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees