JP5952756B2 - Prediction server, program and method for predicting future number of comments in prediction target content - Google Patents

Prediction server, program and method for predicting future number of comments in prediction target content Download PDF

Info

Publication number
JP5952756B2
JP5952756B2 JP2013035818A JP2013035818A JP5952756B2 JP 5952756 B2 JP5952756 B2 JP 5952756B2 JP 2013035818 A JP2013035818 A JP 2013035818A JP 2013035818 A JP2013035818 A JP 2013035818A JP 5952756 B2 JP5952756 B2 JP 5952756B2
Authority
JP
Japan
Prior art keywords
comments
prediction
content
server
prediction target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013035818A
Other languages
Japanese (ja)
Other versions
JP2014164576A (en
Inventor
池田 和史
和史 池田
服部 元
元 服部
小野 智弘
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013035818A priority Critical patent/JP5952756B2/en
Publication of JP2014164576A publication Critical patent/JP2014164576A/en
Application granted granted Critical
Publication of JP5952756B2 publication Critical patent/JP5952756B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、予測対象となるコンテンツに対する、不特定多数のユーザの興味の傾向を分析する技術に関する。   The present invention relates to a technique for analyzing a tendency of interest of an unspecified number of users for content to be predicted.

近年、インターネットを介して、不特定多数の第三者に対して、様々なコンテンツが公開されている。公開コンテンツは、例えば、ニュース記事や、Webページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツのような各種のメディアコンテンツであって、不特定多数の第三者からアクセス可能なコンテンツをいう。   In recent years, various contents have been released to an unspecified number of third parties via the Internet. The public content is, for example, various media contents such as news articles, Web pages, music contents, electronic books, and TV broadcast contents, and is accessible by an unspecified number of third parties.

一方で、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)(例えばtwitter(登録商標))のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。このようなコメント文章は、共通の話題に対して議論されている場合も多い。このような共通の話題としては、前述したような不特定多数の第三者に対して配信される公開コンテンツがある。   On the other hand, comment texts from an unspecified number of third parties are sent to sites such as blogs (Web log) and mini blogs (for example, twitter (registered trademark)) via the Internet. It is actively transmitted. Such comment sentences are often discussed on a common topic. As such a common topic, there is public content distributed to an unspecified number of third parties as described above.

従来、このような公開コンテンツに関連するコメント文章を検索し、そのコメント数に応じて、コンテンツのランキング形式を公開する技術がある(例えば非特許文献1参照)。この技術によれば、多数投稿されているコメントの中からキーワードを抽出し、twitterで盛り上がっている話題やトレンドをリアルタイムに分析し、そのランキングををユーザに明示する。   Conventionally, there is a technique of searching for comment text related to such public content and publishing the content ranking format according to the number of comments (see, for example, Non-Patent Document 1). According to this technology, keywords are extracted from a large number of posted comments, and the topics and trends that are excited by twitter are analyzed in real time, and the ranking is clearly indicated to the user.

また、具体的なサービス技術として、例えば映画の関するtwitter上のコメント数や内容に基づいて、当該映画の興行収入を予測する技術もある(例えば非特許文献2参照)。具体的に予測に用いる情報として、映画の公開前のツイート数及びポジネガ比率(ツイートの内容の肯定的内容/否定的内容)と、公開後のツイート数及びポジネガ比率とを用いる。ツイート数が多く且つ肯定的(ポジティブ)なコメントが多い映画ほど、興行収入が多くなると予測される。一方で、ツイート数が少なく且つ否定的(ネガティブ)なコメントが多い映画ほど、興行収入が少なくなると予測される。   In addition, as a specific service technique, there is a technique for predicting the box office income of a movie based on, for example, the number of comments and contents on the twitter related to the movie (see, for example, Non-Patent Document 2). Specifically, information used for prediction includes the number of tweets and the positive negative ratio (positive contents / negative contents of the contents of tweets) and the number of tweets and positive negative ratios after the release of the movie. A movie with a large number of tweets and a large number of positive comments is expected to have a higher box office income. On the other hand, it is predicted that the performance income will be lower for movies with fewer tweets and more negative comments.

NECビッグローブ、「ついっぷるトレンド」、[online]、[平成24年8月27日検索]、インターネット<URL:http://tr.twipple.jp/>NEC Big Robe, “Tappur Trend”, [online], [Search August 27, 2012], Internet <URL: http://tr.twipple.jp/> Sitaram Asur and Bernardo A. Huberman, HP Labs, “Predicting the Future With Social Media”,Proc. Of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence andIntelligent Agent Technology (WI-IAT '10), vol. 1, pp. 492-499Sitaram Asur and Bernardo A. Huberman, HP Labs, “Predicting the Future With Social Media”, Proc. Of the 2010 IEEE / WIC / ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT '10), vol. 1, pp. 492-499 A. J. Smola and B. Scholkopf, "A tutorial on support vectorregression", Journal of Statistics and Computing, vol. 14, No. 3, pp.199-222, 2004.A. J. Smola and B. Scholkopf, "A tutorial on support vectorregression", Journal of Statistics and Computing, vol. 14, No. 3, pp.199-222, 2004. 「直線回帰(単回帰)」、[online]、[平成25年2月10日検索]、インターネット<URL:http://aoki2.si.gunma-u.ac.jp/lecture/Regression/sreg/sreg.html>"Linear regression (single regression)", [online], [February 10, 2013 search], Internet <URL: http://aoki2.si.gunma-u.ac.jp/lecture/Regression/sreg/ sreg.html>

非特許文献1に記載された技術によれば、現在時刻で、不特定多数のユーザが興味を持っているコンテンツを特定することができる。しかしながら、将来的に、不特定多数のユーザが興味を持つであろうコンテンツまで特定することはできない。また、ニュースの配信直後には十分なコメント数が得られないため、正確にランキングを決定することは難しい。   According to the technique described in Non-Patent Document 1, it is possible to specify content that an unspecified number of users are interested in at the current time. However, it will not be possible to identify content that will be of interest to an unspecified number of users in the future. Also, since a sufficient number of comments cannot be obtained immediately after news distribution, it is difficult to accurately determine the ranking.

非特許文献2に記載された技術によれば、映画のように比較的限定された予測対象コンテンツを対象としているために、将来的に、不特定多数のユーザがどの程度興味を持つかは比較的高精度に予測することができる。しかしながら、この技術を用いても、例えばニュース記事のように、発信される数が多く且つその内容も多様となるコンテンツを予測対象とした場合、予測精度が十分に得られにくい。その理由としては、コンテンツの多様な内容に対する、コメントの内容の傾向に相違にあることに基づく。また、特に時事的なニュース記事に対するコメントは量的に多くなり、特定の予測対象コンテンツに対する将来的なコメント数の傾向まで検出することは難しい。また、この技術によれば、映画に対するコメントは、比較的長期であっておよそ1週間以上の観測を要する。ニュースに対するコメントは、概ね配信後24時間以内に投稿されるため、本来、1時間程度の短期間で予測できることが望ましい。   According to the technique described in Non-Patent Document 2, since the target content is relatively limited like a movie, it is compared with how much an unspecified number of users will be interested in the future. Can be predicted with high accuracy. However, even when this technology is used, when the content to be transmitted and the content of which is diverse, such as a news article, is targeted for prediction, it is difficult to obtain sufficient prediction accuracy. The reason is based on the fact that there is a difference in the tendency of the content of the comment with respect to various contents of the content. In particular, comments on current news articles increase in quantity, and it is difficult to detect the tendency of the future number of comments on specific prediction target content. Also, according to this technique, comments on a movie are relatively long and require observation for about one week or longer. Since comments on news are generally posted within 24 hours after distribution, it is originally desirable to be able to predict in a short period of about 1 hour.

このような従来技術に対し、本願の発明者らは、例えばニュースのような時事に対するコメント数の時系列変化を観測した場合、投稿傾向が混在するために、単一モデルにおける予測精度が低くなるのではないか、と考えた。   In contrast to such conventional technology, the inventors of the present application observe a time-series change in the number of comments for a current event such as news. I thought that.

図1は、単一モデルにおける予測精度を表す説明図である。   FIG. 1 is an explanatory diagram showing prediction accuracy in a single model.

図1によれば、時間経過に応じた投稿数の投稿傾向のグラフが表されており、例えば以下のような2つの投稿傾向があるとする。
「崖型」:配信後すぐに急増し、その後、急速に減少する
「山型」:配信後ゆっくりと漸増し、その後、減少する。
このような異なる投稿傾向を持つ異なる予測対象コンテンツを、単一の予測モデルを用いた場合、平均的な予測精度を少し高めることができたとしても、個別の予測対象コンテンツの予測精度を大きく高めることはできない。
According to FIG. 1, the graph of the posting tendency of the number of postings according to the passage of time is represented. For example, it is assumed that there are the following two posting tendencies.
“Cliff”: Increases immediately after distribution, then decreases rapidly “Mountain”: Increases slowly after distribution, then decreases.
When using different prediction target contents with different posting tendencies, using a single prediction model, even if the average prediction accuracy can be slightly improved, the prediction accuracy of individual prediction target contents is greatly increased. It is not possible.

そこで、本発明は、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる予測サーバ、プログラム及び方法を提供することを目的とする。   Therefore, the present invention analyzes the future trend of interest among an unspecified number of users with high accuracy from the number of short-term comments in the future, even for prediction target content such as general news articles. It is an object of the present invention to provide a prediction server, a program, and a method that can be used.

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする。
According to the present invention, it is possible to communicate with a site server that sends text comments among a plurality of contributors, and a prediction server that predicts the future number of comments in the prediction target content,
For each content, learning the transition state (temporal change) of the number of comments in each unit time according to the passage of time by identifying which of the multiple posting trends is based on the number of comments at the initial action determination time Learning information storage means stored in advance as information;
Prediction target comment search means for counting the number of comments in each unit time in the initial movement determination time for the prediction target content acquired from the site server;
Initial movement tendency identifying means for identifying which of the posting tendencies from the transition state of the number of comments of the initial movement determination time in the prediction target content;
Initial motion determination time search means for searching for content similar to the transition state of the number of comments of the initial motion determination time in the prediction target content from the same transition type in the learning information storage means;
Comment number predicting means for deriving the transition state of the number of comments corresponding to the searched content after the initial motion determination time as the transition state of the future number of comments in the prediction target content.

本発明の予測サーバにおける他の実施形態によれば、投稿傾向は、初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」のいずれかであることも好ましい。   According to another embodiment of the prediction server of the present invention, the posting tendency is either “cliff shape” that decreases thereafter or “mountain shape” that increases thereafter with respect to the number of comments in the initial motion determination time. It is also preferable.

本発明の予測サーバにおける他の実施形態によれば、
学習情報記憶手段は、崖型のコンテンツについてそのコメント数の推移状態に基づいて算出された崖型の回帰モデルと、山型のコンテンツについてそのコメント数の推移状態に基づいて算出された山形の回帰モデルとを蓄積し、
初動判定時間検索手段は、学習情報記憶手段における同一の推移型の回帰モデルを用いることも好ましい。
According to another embodiment of the prediction server of the present invention,
The learning information storage means includes a cliff-shaped regression model calculated based on the transition state of the number of comments for the cliff-shaped content, and a mountain-shaped regression calculated based on the transition state of the number of comments for the mountain-shaped content. Accumulate models and
It is also preferable that the initial movement determination time search means use the same transition type regression model in the learning information storage means.

本発明の予測サーバにおける他の実施形態によれば、回帰モデルは、サポートベクタ回帰(SVR(Support Vector Regression))に基づくものであることも好ましい。   According to another embodiment of the prediction server of the present invention, the regression model is preferably based on Support Vector Regression (SVR).

本発明の予測サーバにおける他の実施形態によれば、
コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する全体傾向識別手段を更に有し、
初動傾向識別手段は、学習データとして、コンテンツの初動判定時間のコメント数の推移状態と共に、全体傾向識別手段から出力された「崖型」「山型」とを入力する教師有り学習機能であることも好ましい。
According to another embodiment of the prediction server of the present invention,
An overall trend identifying means for identifying whether the number of comments in the initial motion determination time for the content is a “cliff” that subsequently decreases or a “mountain” that increases;
The initial movement tendency identification means is a supervised learning function that inputs, as learning data, the “cliff shape” and “mountain shape” output from the overall tendency identification means together with the transition state of the number of comments at the initial movement determination time of the content. Is also preferable.

本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、サポートベクタマシン又はC4.5であることも好ましい。   According to another embodiment of the prediction server of the present invention, the initial movement tendency identifying means is preferably a support vector machine or C4.5.

本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別することも好ましい。   According to another embodiment of the prediction server of the present invention, it is also preferable that the initial movement tendency identifying means identifies, as a determination element, the slope of the approximate curve in the transition state of the number of comments for the initial movement determination time in the prediction target content.

本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツの配信時刻を、判定要素として識別することも好ましい。   According to another embodiment of the prediction server of the present invention, it is also preferable that the initial movement tendency identifying unit identifies the distribution time of the prediction target content as a determination element.

本発明の予測サーバにおける他の実施形態によれば、初動傾向識別手段は、予測対象コンテンツの内容種別を、判定要素として識別することも好ましい。   According to another embodiment of the prediction server of the present invention, it is also preferable that the initial movement tendency identifying means identifies the content type of the prediction target content as a determination element.

本発明の予測サーバにおける他の実施形態によれば、
サイトサーバは、ブログサイトサーバであって、
予測サーバは、
予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
予測対象コメント検索手段は、予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数することも好ましい。
According to another embodiment of the prediction server of the present invention,
The site server is a blog site server,
The prediction server
A prediction target keyword extracting unit that extracts a keyword group included in the prediction target content;
It is also preferable that the prediction target comment search unit searches a plurality of comments from the blog site server using the keyword group extracted by the prediction target keyword extraction unit as a key, and counts the number of comments in each unit time according to the passage of time. .

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, a prediction program that can communicate with a site server that sends text comments among a plurality of contributors and that functions as a computer mounted on a server that predicts the future number of comments in the prediction target content Because
For each content, learning the transition state (temporal change) of the number of comments in each unit time according to the passage of time by identifying which of the multiple posting trends is based on the number of comments at the initial action determination time Learning information storage means stored in advance as information;
Prediction target comment search means for counting the number of comments in each unit time in the initial movement determination time for the prediction target content acquired from the site server;
Initial movement tendency identifying means for identifying which of the posting tendencies from the transition state of the number of comments of the initial movement determination time in the prediction target content;
Initial motion determination time search means for searching for content similar to the transition state of the number of comments of the initial motion determination time in the prediction target content from the same transition type in the learning information storage means;
The computer is made to function as comment number prediction means for deriving the transition state of the number of comments after the initial motion determination time corresponding to the searched content as the transition state of the future number of comments in the prediction target content.

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバのコメント数予測方法であって、
予測サーバは、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶部を有し、
予測サーバは、
サイトサーバから取得された、予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する第1のステップと、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する第2のステップと、
予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶における同一の推移型の中から検索する第3のステップと、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第4のステップと
実行することを特徴とする。
According to the present invention, it is possible to communicate with a site server that sends text comments between a plurality of contributors, and a prediction server comment number prediction method for predicting the future number of comments in a prediction target content,
For each content , the prediction server identifies the transition state (temporal change) of the number of comments for each unit time according to the passage of time, among the multiple posting tendencies, based on the number of comments at the initial action determination time And having a learning information storage unit stored in advance as learning information,
The prediction server
A first step of counting the number of comments in each unit time in the initial motion determination time for the prediction target content acquired from the site server;
A second step of identifying a posting tendency from the transition state of the number of comments in the initial motion determination time in the prediction target content;
A third step of searching for content similar to the transition state of the number of comments in the initial motion determination time in the prediction target content from the same transition type in the learning information storage unit ;
It retrieved the comments transition state after that initial determination time corresponding to the content, and executes a fourth step of deriving a transition state of the future number of comments in the prediction target content.

本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる。   According to the prediction server, program, and method of the present invention, even if the content is a prediction target such as a general news article, the future interest of an unspecified number of users can be calculated from the number of comments in the short time in the future. Trends can be analyzed with high accuracy.

単一モデルにおける予測精度を表す説明図である。It is explanatory drawing showing the prediction accuracy in a single model. 本発明におけるシステム構成図である。It is a system configuration diagram in the present invention. 本発明における予測サーバの機能構成図である。It is a functional block diagram of the prediction server in this invention. 学習情報記憶部、初動傾向識別部、初動判定時間検索部及び全体傾向識別部の処理を表す説明図である。It is explanatory drawing showing the process of a learning information storage part, an initial movement tendency identification part, an initial movement determination time search part, and an overall tendency identification part. 配信時刻に応じて崖型又は山型の比率を表すグラフである。It is a graph showing the ratio of a cliff shape or a mountain shape according to delivery time. 内容種別毎における山形の比率を表すグラフである。It is a graph showing the ratio of the mountain shape for every content classification. 予測サーバのランキング公開部における処理を表す説明図である。It is explanatory drawing showing the process in the ranking publicizing part of a prediction server.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図2は、本発明におけるシステム構成図である。   FIG. 2 is a system configuration diagram according to the present invention.

図2によれば、コンテンツ公開サーバ3が、インターネットに接続されている。コンテンツ公開サーバ3は、不特定多数の第三者に向けて公開コンテンツを配信する。公開コンテンツは、様々なメディアコンテンツであって、例えばニュース記事、Webページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツであってもよい。   According to FIG. 2, the content publishing server 3 is connected to the Internet. The content publishing server 3 distributes public content to an unspecified number of third parties. The public content is various media content, and may be, for example, a news article, a web page, music content, an electronic book, or a television broadcast content.

また、図2によれば、ブログサイトサーバ2が、インターネットに更に接続されており、複数の投稿者間でテキストのコメントを発信し合うことができる。ブログサイトサーバ2は、例えばtwitter(登録商標)サイトであってもよい。   In addition, according to FIG. 2, the blog site server 2 is further connected to the Internet, and text comments can be transmitted among a plurality of contributors. The blog site server 2 may be a twitter (registered trademark) site, for example.

尚、以下では、ブログサイトサーバ2とコンテンツ公開サーバ3とが別々にインターネットに設置されているものとして説明する(図2参照)が、これら機能が一体となったサイトサーバであってもよい。このようなサイトサーバの場合、コンテンツ毎にコメントが対応付けて公開されている。例えばYouTube(登録商標)のようなサイトサーバがある。   In the following description, it is assumed that the blog site server 2 and the content publishing server 3 are separately installed on the Internet (see FIG. 2). However, a site server in which these functions are integrated may be used. In the case of such a site server, a comment is associated with each content and released. For example, there is a site server such as YouTube (registered trademark).

端末4は、パーソナルコンピュータ、携帯端末、スマートフォン、テレビ等であって、コンテンツ公開サーバ3及びブログサイトサーバ2にアクセスすることができる。不特定多数のユーザは、端末4を用いて、コンテンツ公開サーバ3によって公開されるコンテンツを閲覧しながら、ブログサイトサーバ2へコメント文章を投稿し、他人のコメント文章も閲覧することができる。   The terminal 4 is a personal computer, a portable terminal, a smartphone, a television, or the like, and can access the content publishing server 3 and the blog site server 2. An unspecified number of users can post comment text to the blog site server 2 while browsing content published by the content publishing server 3 using the terminal 4, and can also browse other people's comment text.

本発明によれば、予測サーバ1が、インターネットに更に接続されており、コンテンツ公開サーバ3及びブログサイトサーバ2と通信することができる。本発明における予測サーバ1は、予測対象コンテンツにおける将来的なコメント数を予測することができる。これによって、ユーザは、端末4から予測サーバ1へアクセスすることによって、将来的に注目されるであろうコンテンツを知ることができる。   According to the present invention, the prediction server 1 is further connected to the Internet, and can communicate with the content publishing server 3 and the blog site server 2. The prediction server 1 in the present invention can predict the future number of comments in the prediction target content. Thereby, the user can know the content that will be noticed in the future by accessing the prediction server 1 from the terminal 4.

図3は、本発明における予測サーバの機能構成図である。   FIG. 3 is a functional configuration diagram of the prediction server in the present invention.

図3によれば、予測サーバ1は、学習情報記憶部10と、予測対象キーワード抽出部11と、予測対象コメント検索部12と、初動傾向識別部13と、初動判定時間検索部14と、全体傾向識別部15と、コメント数予測部16と、ランキング公開部17とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、各機能構成部の処理順序は、コメント数予測方法としても理解できる。   According to FIG. 3, the prediction server 1 includes a learning information storage unit 10, a prediction target keyword extraction unit 11, a prediction target comment search unit 12, an initial movement tendency identification unit 13, an initial movement determination time search unit 14, and the whole A trend identification unit 15, a comment number prediction unit 16, and a ranking disclosure unit 17 are included. These functional components are realized by executing a program that causes a computer mounted on the server to function. Further, the processing order of each functional component can be understood as a comment number prediction method.

[予測対象キーワード抽出部11]
予測対象キーワード抽出部11は、キーとなる予測対象コンテンツを入力し、当該予測対象コンテンツに含まれるキーワード群を抽出する。予測対象コンテンツは、Webページであってもよいし、URL(Uniform Resource Locator)のみであってもよい。URLのみである場合、予測対象キーワード抽出部11は、そのURLに基づくWebページを、コンテンツ公開サーバ3から取得する。これらコンテンツには、少なくともテキストが含まれていることを前提とする。
[Prediction target keyword extraction unit 11]
The prediction target keyword extraction unit 11 inputs a prediction target content as a key, and extracts a keyword group included in the prediction target content. The prediction target content may be a Web page or only a URL (Uniform Resource Locator). When the URL is only the URL, the prediction target keyword extraction unit 11 acquires a Web page based on the URL from the content publishing server 3. It is assumed that these contents include at least text.

次に、予測対象キーワード抽出部11は、コンテンツに含まれるテキストから形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。   Next, the prediction target keyword extraction unit 11 extracts words from the text included in the content by morphological analysis. “Morphological analysis” refers to a technique in which sentences are divided into meaningful words and the part of speech and contents are discriminated using a dictionary. The “morpheme” means the smallest unit having meaning among the elements of the sentence.

次に、予測対象キーワード抽出部11は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的な単語を、キーワードとして抽出する。TF−IDFとは、各単語に重みを付けて、クエリから文章をベクトル空間で表し、文章とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。   Next, the prediction target keyword extraction unit 11 extracts a characteristic word as a keyword based on TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF is a technology that weights each word, expresses sentences from a query in a vector space, and ranks them based on the similarity between the sentences and the query. The higher the ranked value, the more important keywords are recognized.

例えば、予測対象コンテンツとして、以下のようなニュース記事があったとする。
「[日本、42年ぶり優勝=米国の8連覇を阻む―ソフトボール女子]ソフトボールの女子世界選手権最終日は22日、カナダ・ホワイトホースで行われ、日本は決勝で8連覇を目指した米国を延長十回、2―1で破り、<7月23日(月)11時30分配信>」
このニュース記事から、例えば以下のようなキーワード群が抽出される。
「優勝」「連覇」「ソフトボール」
勿論、予測対象コンテンツのURLそのものを、キーワードとして抽出するものであってもよい。
For example, it is assumed that the following news article exists as the prediction target content.
“[Japan wins for the first time in 42 years = Blocking the 8th consecutive victory in the US-Softball Women] The last day of the softball women ’s world championship will be held in Whitehorse, Canada on the 22nd. Break 10 times, 2-1 and <delivery at 11:30 on Monday, July 23>
For example, the following keyword group is extracted from this news article.
"Winner""Consecutivevictory""Softball"
Of course, the URL of the prediction target content itself may be extracted as a keyword.

[予測対象コメント検索部12]
予測対象コメント検索部12は、抽出されたキーワード群をキーとして、ブログサイトサーバ2から複数のコメントを検索する。前述のキーワード群をキーとして、例えば以下のようなコメントが検索される。
>投稿者ID: xxxyyy
>属性:30代、男性、会社員、スポーツ
>フォロワー数:200人
>内容:ようやった!日本、42年ぶり優勝=米国の8連覇を阻む―ソフトボール女子
http://www.news.jp/xxx
>投稿時刻:7月23日(月)12時30分
[Prediction target comment search unit 12]
The prediction target comment search unit 12 searches the blog site server 2 for a plurality of comments using the extracted keyword group as a key. For example, the following comments are searched using the above keyword group as a key.
> Contributor ID: xxxyyy
> Attributes: 30s, male, office worker, sports> Number of followers: 200> Content: Finally! Japan wins for the first time in 42 years
http://www.news.jp/xxx
> Posting time: Monday, July 23, 12:30

予測対象コメント検索部12は、予測対象コンテンツに関連する多数のコメントを検索する。そして、当該予測対象コンテンツについて、時間経過に応じた各単位時間のコメント数を計数する。経過時間に応じたコメント数の推移状態(グラフ化された履歴情報)は、判定時間検索部14へ出力される。   The prediction target comment search unit 12 searches a large number of comments related to the prediction target content. And about the said prediction object content, the number of comments of each unit time according to progress of time is counted. The transition state (graphed history information) of the number of comments according to the elapsed time is output to the determination time search unit 14.

尚、当該予測サーバが、ブログサイトサーバの機能とコンテンツ公開サーバの機能とが一体となったサイトサーバと通信可能である場合、予測対象キーワード抽出部11は必須の構成要素とはならない。また、予測対象コメント検索部12は、抽出されたキーワード群をキーとしてブログサイトサーバ2から複数のコメントを検索する必要もない。一体化されたサイトサーバが既に、コンテンツ毎に対応付けてコメント群を発信しているためである。   When the prediction server can communicate with a site server in which the function of the blog site server and the function of the content publishing server are integrated, the prediction target keyword extraction unit 11 is not an essential component. Further, the prediction target comment search unit 12 does not need to search a plurality of comments from the blog site server 2 using the extracted keyword group as a key. This is because the integrated site server has already transmitted a comment group in association with each content.

図4は、学習情報記憶部、初動傾向識別部、初動判定時間検索部及び全体傾向識別部の処理を表す説明図である。   FIG. 4 is an explanatory diagram illustrating processing of the learning information storage unit, the initial movement tendency identification unit, the initial movement determination time search unit, and the overall trend identification unit.

[学習情報記憶部10]
学習情報記憶部10は、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶する。コンテンツ毎に、例えば配信後24時間について、10分(単位時間、スロット)毎のコメント数の推移状態(144スロットの時間的変化)を表す投稿傾向を記憶する。即ち、投稿傾向とは、時間経過に応じた投稿数の変化をいう。
[Learning information storage unit 10]
For each content, the learning information storage unit 10 indicates the transition state (temporal change) of the number of comments in each unit time according to the passage of time, among any of a plurality of posting tendencies, depending on the number of comments at the initial action determination time. Is stored in advance as learning information. For each content, for example, for 24 hours after distribution, a posting tendency indicating a transition state of the number of comments every 10 minutes (unit time, slot) (time change of 144 slots) is stored. In other words, the posting tendency refers to a change in the number of postings with time.

投稿傾向としては、例えば初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」がある。ここで、学習情報記憶部10は、以下の2つの予測モデルを蓄積することも好ましい。
崖型の回帰モデル:崖型のコンテンツについてそのコメント数の推移状態から算出
山型の回帰モデル:山型のコンテンツについてそのコメント数の推移状態から算出
回帰モデルは、サポートベクタ回帰(SVR(Support Vector Regression))に基づくものであってもよい(例えば非特許文献3参照)。非特許文献3に記載された回帰モデルは、時系列データから指定時間後のデータを予測する目的で用いられるものである。
As the posting tendency, for example, there is a “cliff shape” that decreases afterwards, or a “mountain shape” that increases afterwards with respect to the number of comments at the initial motion determination time. Here, the learning information storage unit 10 preferably stores the following two prediction models.
Cliff-type regression model: Calculated from the transition state of the number of comments for the cliff-shaped content Mountain-type regression model: Calculated from the transition state of the number of comments for the mountain-shaped content The regression model is a support vector regression (SVR (Support Vector) Regression)) (see, for example, Non-Patent Document 3). The regression model described in Non-Patent Document 3 is used for the purpose of predicting data after a specified time from time series data.

回帰モデルとは、従属変数(目的変数、例えば崖型又は山型)と連続尺度の独立変数(説明変数、コンテンツの投稿傾向)とについて、従属変数が説明変数によってどれくらい説明できるのかを定量的に分析したものである。   A regression model is a quantitative analysis of how dependent variables can be explained by explanatory variables for dependent variables (objective variables such as cliff-type or mountain-type) and independent variables of continuous scale (explanatory variables, content posting tendency). Analyzed.

[全体傾向識別部15]
全体傾向識別部15は、コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する。全体傾向識別部15は、ブログサイトサーバ2及びコンテンツ公開サーバ3と通信することによって、学習情報記憶部10へ記憶させるべき学習情報を生成する。
[Overall trend identification unit 15]
The overall tendency identifying unit 15 identifies whether the number of comments in the initial motion determination time for the content is “cliff type” that decreases thereafter or “mountain type” that increases. The overall tendency identifying unit 15 generates learning information to be stored in the learning information storage unit 10 by communicating with the blog site server 2 and the content publishing server 3.

全体傾向識別部15は、収集したコンテンツにおけるコメント数の推移状態における近似曲線の傾きを、判定要素として識別する。コメント数の増減傾向を、以下の式で算出することもできる。
各点の座標(時間,コメント数)=(xi,yi
時間xの平均:mu
コメント数yの平均:nu
Σi(xi−mu)(yi−nu)/Σi(xi−mu)
例えば近似曲線の傾きを求める直線回帰(単回帰)を用いることも好ましい(例えば非特許文献4参照)。
The overall trend identification unit 15 identifies the slope of the approximate curve in the transition state of the number of comments in the collected content as a determination element. The increase / decrease tendency of the number of comments can also be calculated by the following formula.
The coordinates of each point (time, number of comments) = (x i , y i )
Average of time x: mu
Average number of comments y: nu
Σ i (x i −mu) (y i −nu) / Σ i (x i −mu) 2
For example, it is also preferable to use linear regression (simple regression) for obtaining the slope of the approximate curve (see Non-Patent Document 4, for example).

また、崖型又は山型を識別する他の方法として、学習用に収集されたコンテンツの投稿数について、初動判定時間(例えば最初の1時間)の初動投稿数Tと、24時間の累積投稿数Tとの比率Rから導出することもできる。
R=T/T
In addition, as another method for identifying the cliff shape or the mountain shape, regarding the number of postings of content collected for learning, the number of initial motions T N for the initial motion determination time (for example, the first hour) and the cumulative posting of 24 hours It may be derived from the ratio R between the number T a.
R = T A / T N

そして、全体傾向識別部15は、コンテンツ毎の投稿傾向(崖型又は山型)を、学習情報記憶部10へ出力する。また、初動傾向識別部13が、後述する教師有り学習機能を有する場合、全体傾向識別部15は、コンテンツ毎の投稿傾向を、初動傾向識別部13へも出力する。   Then, the overall tendency identification unit 15 outputs the posting tendency (cliff shape or mountain shape) for each content to the learning information storage unit 10. When the initial movement tendency identifying unit 13 has a supervised learning function to be described later, the overall tendency identifying unit 15 also outputs the posting tendency for each content to the initial movement tendency identifying unit 13.

[初動傾向識別部13]
初動傾向識別部13は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する。例えば現在時刻から、予測対象コンテンツに対する将来的なコメント数を予測したいとする。このとき、現在時刻から遡った一定時間(例えば1時間)における推移状態を、初動判定時間とする。そして、初動傾向を判定する最も簡単な方法としては、初動判定時間(例えば1時間:N=6スロット)の予測データについて、以下のように識別する。
「崖型」:Nスロット間でコメント数が減少傾向にある
「山型」:Nスロット間でコメント数が減少傾向にある
[Initial motion identification unit 13]
The initial movement tendency identifying unit 13 identifies a posting tendency from the transition state of the number of comments in the initial movement determination time in the prediction target content. For example, suppose that it is desired to predict the future number of comments for the prediction target content from the current time. At this time, the transition state in a fixed time (for example, 1 hour) that goes back from the current time is set as the initial motion determination time. As the simplest method for determining the initial movement tendency, the prediction data of the initial movement determination time (for example, 1 hour: N = 6 slots) is identified as follows.
“Cliff”: The number of comments tends to decrease between N slots “Mountain”: The number of comments tends to decrease between N slots

即ち、初動傾向識別部13は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別する。Nスロットにおけるコメント数の増減傾向を、前述した全体傾向識別部15と同様の式で算出することもできる。   That is, the initial movement tendency identifying unit 13 identifies the inclination of the approximate curve in the transition state of the number of comments at the initial movement determination time in the prediction target content as a determination element. The increase / decrease tendency of the number of comments in the N slots can also be calculated by the same formula as that of the overall trend identification unit 15 described above.

また、崖型又は山型を識別する他の方法として、前述した全体傾向識別部15と同様に、予測対象コンテンツの累積投稿数Pは、初動判定時間の初動投稿数Pと、全体傾向識別部13で算出された比率Rとから、以下のように算出することもできる。
=R×P
Further, as another method for identifying a cliff type or mountain type, like the whole tendency identification section 15 described above, the cumulative number of posts P A prediction target content, the initial posts P N of initial determination time, the overall trend From the ratio R calculated by the identification unit 13, it can also be calculated as follows.
P A = R × P N

また、以下のような判断要素を加えて用いることも好ましい。
(1)初動傾向識別部13は、予測対象コンテンツの配信時刻を、判定要素として識別する。図5は、配信時刻に応じて崖型又は山型の比率を表すグラフである。図5によれば、山型は、早朝や午前中に配信されるコンテンツの比率が高くなる傾向が見られる。一方で、崖型は、夕方や夜間に配信されるコンテンツの比率が高くなる傾向が見られる。このグラフは、予め統計的に計測して記録されたものである。
Moreover, it is also preferable to add and use the following determination factors.
(1) The initial movement tendency identifying unit 13 identifies the distribution time of the prediction target content as a determination element. FIG. 5 is a graph showing a cliff-shaped or mountain-shaped ratio according to the distribution time. According to FIG. 5, the mountain type tends to have a high content ratio delivered early in the morning or in the morning. On the other hand, the cliff type tends to have a high content ratio in the evening and at night. This graph is statistically measured and recorded in advance.

(2)初動傾向識別部13は、予測対象コンテンツの内容種別(ジャンル)を、判定要素として識別する。図6は、内容種別毎における山形の比率を表すグラフである。図6によれば、例えば「韓国」「中国」「産業」に関する予測対象コンテンツは、山形となる比率が高くなる傾向がある。一方で、例えば「映画」「音楽」「政治」に関する予測対象コンテンツは、崖型となる比率が高くなる傾向がある。このグラフも、予め統計的に計測して記録されたものである。 (2) The initial movement tendency identifying unit 13 identifies the content type (genre) of the prediction target content as a determination element. FIG. 6 is a graph showing the ratio of the chevron for each content type. According to FIG. 6, for example, prediction target contents related to “Korea”, “China”, and “industry” tend to have a high ratio of Yamagata. On the other hand, for example, prediction target content related to “movie”, “music”, and “politics” tends to have a high ratio of being a cliff. This graph is also statistically measured and recorded in advance.

尚、学習データとしてのコンテンツのユーザ名と、崖型又は山型の比率とを蓄積しておくことも好ましい。崖型又は山型に特徴的に出現するユーザ名を、識別に利用することができる。例えば、崖型又は山型のいずれかの比率が閾値を上回るか、又は、AIC(Akaike's Information Criterion)等の情報量基準を用いてもよい。   In addition, it is also preferable to accumulate | store the user name of the content as learning data, and the ratio of a cliff shape or a mountain shape. A user name that appears characteristically in a cliff shape or a mountain shape can be used for identification. For example, the ratio of either a cliff shape or a mountain shape may exceed a threshold value, or an information amount criterion such as AIC (Akaike's Information Criterion) may be used.

更に、図4のように、初動傾向識別部13は、学習データとして、コンテンツの初動判定時間のコメント数の推移状態と共に、全体傾向識別部15から出力された「崖型」「山型」とを入力する教師有り学習機能であってもよい。この教師有り学習機能としては、具体的にはサポートベクタマシン又はC4.5であってもよい。   Further, as shown in FIG. 4, the initial movement tendency identification unit 13 includes, as learning data, “cliff shape” and “mountain shape” output from the overall trend identification unit 15 together with the transition state of the number of comments in the initial movement determination time of the content. May be a supervised learning function. Specifically, the supervised learning function may be a support vector machine or C4.5.

例えばC4.5に入力する特徴量の例としては、以下のようなものである。学習用に収集されたコンテンツの投稿傾向は、全体傾向識別部15から入力されたものである。

Figure 0005952756
For example, the following is an example of the feature amount input to C4.5. The posting tendency of content collected for learning is input from the overall tendency identifying unit 15.
Figure 0005952756

[初動判定時間検索部14]
初動判定時間検索部14は、予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、学習情報記憶部10における同一の推移型の中から検索する。初動判定時間検索部14は、学習情報記憶部10における同一の推移型の回帰モデルを用いることも好ましい。
[Initial motion determination time search unit 14]
The initial motion determination time search unit 14 searches for content similar to the transition state of the number of comments in the initial motion determination time in the prediction target content from the same transition types in the learning information storage unit 10. It is preferable that the initial motion determination time search unit 14 uses the same transition type regression model in the learning information storage unit 10.

例えば、初動傾向識別部13によって崖型と判定された予測対象コンテンツについては、学習情報記憶部10における崖型の中から、その推移状態と類似するコンテンツを検索する。又は、崖型の回帰モデルを用いる。一方で、初動傾向識別部13によって山型と判定された予測対象コンテンツについては、学習情報記憶部10における山型の中から、その推移状態と類似するコンテンツを検索する。又は、山型の回帰モデルを用いる。   For example, with respect to the prediction target content determined as the cliff shape by the initial movement tendency identifying unit 13, the content similar to the transition state is searched from the cliff shape in the learning information storage unit 10. Alternatively, a cliff-shaped regression model is used. On the other hand, for the prediction target content determined to have a mountain shape by the initial movement tendency identifying unit 13, the content similar to the transition state is searched from the mountain shape in the learning information storage unit 10. Alternatively, a mountain-shaped regression model is used.

[コメント数予測部16]
コメント数予測部16は、検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する。このように、予測対象コンテンツの過去から現在までのコメント数の傾向(推移状態)と、過去に収集された他の多数のコンテンツの推移状態と比較することによって、今後のコメント数の増減の傾向を予測することができる。
[Comment number prediction unit 16]
The comment number prediction unit 16 derives the transition state of the number of comments after the initial motion determination time corresponding to the searched content as the transition state of the future number of comments in the prediction target content. In this way, by comparing the trend of the number of comments from the past to the present of the content to be predicted (transition state) with the transition state of many other contents collected in the past, the trend of the increase or decrease in the number of comments in the future Can be predicted.

Figure 0005952756
Figure 0005952756

[ランキング公開部17]
ランキング公開部17は、複数の予測対象コンテンツについて、コメント数予測部16によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開する。この場合、複数の予測対象コンテンツは、ユーザによって選択されたものであってもよいし、予測サーバの運営事業者によった予め選択されたものであってもよい。例えば、ユーザは、現在それほど注目されていないけれども、その後、コメント数が急増するようなコンテンツを知ることができる。
[Ranking Disclosure Department 17]
The ranking publication unit 17 publishes, as page information, ranking information that is sorted in order from content with a large number of future comments derived by the comment number prediction unit 16 for a plurality of prediction target contents. In this case, the plurality of contents to be predicted may be selected by the user, or may be previously selected by the operator of the prediction server. For example, although the user is not attracting much attention at present, the user can know the content in which the number of comments increases rapidly thereafter.

図7は、予測サーバのランキング公開部における処理を表す説明図である。   FIG. 7 is an explanatory diagram illustrating processing in the ranking disclosure unit of the prediction server.

図7によれば、現在時刻から見て、将来的にコメント数が増加するであろう1位から5位までのランキング形式で、コンテンツが表されている。例えば1位のコンテンツについては、現在時刻であってもコメント数が多いが、今後更に増加することが予想される。また、例えば第4位のコンテンツについては、現在時刻ではコメント数はそれほど多くは無いが、今後急増することが予想される。このように、ユーザは、ランキング形式のページを閲覧することによって、将来的にコメント数が増加するであろうコンテンツを知ることができる。即ち、ユーザは、ネット上でまだ大きな話題になっていないコンテンツを、先行して知ることができる。   According to FIG. 7, the content is represented in the ranking format from the first place to the fifth place where the number of comments will increase in the future as viewed from the current time. For example, the number one content has a large number of comments even at the current time, but is expected to increase further in the future. For example, for the 4th content, the number of comments is not so large at the current time, but is expected to increase rapidly in the future. In this way, the user can know the content whose number of comments will increase in the future by browsing the ranking-type page. That is, the user can know in advance the content that is not yet a big topic on the net.

以上、詳細に説明したように、本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的な短時間のコメント数から、不特定多数のユーザにおける将来的な興味の傾向を高精度に分析することができる。   As described above in detail, according to the prediction server, program, and method of the present invention, it is unspecified from the number of short-term comments in the future, even for a content to be predicted such as a general news article. It is possible to analyze the tendency of future interest in a large number of users with high accuracy.

特に本発明によれば、予測対象コンテンツの配信後、比較的短時間で、その後の投稿傾向を予測することができる。そのために、まだネット上で大きな話題になっていないニュースを先読みして、ユーザに提示するという先進性の高いサービスを提供することができる。また、投稿傾向を識別するために、投稿傾向を識別しない単一モデルを用いる場合と比較して予測精度が高まる。本願の発明者らは、以下のような予測精度の向上の結果を得ている。
投稿傾向を識別しない単一モデルの場合 :予測精度55%程度
投稿傾向(崖型又は山型)を識別した複数モデルの場合:予測精度81%程度
In particular, according to the present invention, it is possible to predict the subsequent posting tendency in a relatively short time after the distribution of the prediction target content. Therefore, it is possible to provide a highly advanced service that prefetches news that has not yet become a big topic on the Internet and presents it to the user. Moreover, in order to identify the posting tendency, the prediction accuracy is increased as compared with the case of using a single model that does not identify the posting tendency. The inventors of the present application have obtained the following results of improvement in prediction accuracy.
In the case of a single model that does not identify the posting tendency: Prediction accuracy of about 55% In the case of multiple models that identify the posting tendency (cliff type or mountain type): Prediction accuracy of about 81%

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 予測サーバ
10 学習情報記憶部
11 予測対象キーワード抽出部
12 予測対象コメント検索部
13 初動傾向識別部
14 初動判定時間検索部
15 全体傾向識別部
16 コメント数予測部
17 ランキング公開部
2 ブログサイトサーバ
3 コンテンツ公開サーバ
4 端末
DESCRIPTION OF SYMBOLS 1 Prediction server 10 Learning information memory | storage part 11 Prediction object keyword extraction part 12 Prediction object comment search part 13 Initial movement tendency identification part 14 Initial movement determination time search part 15 Overall tendency identification part 16 Comment number prediction part 17 Ranking publication part 2 Blog site server 3 Content publishing server 4 terminal

Claims (12)

複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする予測サーバ。
A prediction server that can communicate with a site server that sends text comments between multiple contributors and predicts the future number of comments in the prediction target content,
For each content, learning the transition state (temporal change) of the number of comments in each unit time according to the passage of time by identifying which of the multiple posting trends is based on the number of comments at the initial action determination time Learning information storage means stored in advance as information;
Prediction target comment search means for counting the number of comments for each unit time in the initial motion determination time for the prediction target content acquired from the site server;
From the transition state of the number of comments of the initial motion determination time in the prediction target content, initial motion tendency identifying means for identifying which of the posting trends;
Initial motion determination time search means for searching for content similar to the transition state of the number of comments of the initial motion determination time in the prediction target content from the same transition type in the learning information storage means;
A prediction server comprising comment number prediction means for deriving a transition state of the number of comments corresponding to the searched content after the initial motion determination time as a transition state of a future number of comments in the prediction target content.
前記投稿傾向は、初動判定時間のコメント数に対して、その後に減少する「崖型」、又は、その後に増加する「山型」のいずれかであることを特徴とする請求項1に記載の予測サーバ。   2. The posting tendency according to claim 1, wherein the posting tendency is either “cliff shape” that decreases thereafter or “mountain shape” that increases thereafter with respect to the number of comments in the initial motion determination time. Prediction server. 前記学習情報記憶手段は、崖型のコンテンツについてそのコメント数の推移状態に基づいて算出された崖型の回帰モデルと、山型のコンテンツについてそのコメント数の推移状態に基づいて算出された山形の回帰モデルとを蓄積し、
前記初動判定時間検索手段は、前記学習情報記憶手段における同一の推移型の回帰モデルを用いる
ことを特徴とする請求項2に記載の予測サーバ。
The learning information storage means includes a cliff-type regression model calculated based on the transition state of the number of comments for the cliff-shaped content, and a Yamagata type calculated based on the transition state of the number of comments for the mountain-shaped content. Accumulate regression model,
The prediction server according to claim 2, wherein the initial motion determination time search means uses the same transition type regression model in the learning information storage means.
前記回帰モデルは、サポートベクタ回帰(SVR(Support Vector Regression))に基づくものであることを特徴とする請求項3に記載の予測サーバ。   The prediction server according to claim 3, wherein the regression model is based on Support Vector Regression (SVR). 前記コンテンツに対する初動判定時間のコメント数の推移状態から、その後に減少する「崖型」又は増加する「山型」のいずれであるかを識別する全体傾向識別手段を更に有し、
前記初動傾向識別手段は、学習データとして、前記コンテンツの初動判定時間のコメント数の推移状態と共に、前記全体傾向識別手段から出力された「崖型」「山型」とを入力する教師有り学習機能である
ことを特徴とする請求項2から4のいずれか1項に記載の予測サーバ。
From the transition state of the number of comments of the initial motion determination time for the content, further comprising an overall trend identifying means for identifying whether it is a “cliff shape” that subsequently decreases or a “mountain shape” that increases.
The supervised learning function for inputting the “cliff” and “mountain” output from the overall tendency identifying means together with the transition state of the number of comments at the initial motion determination time of the content as learning data The prediction server according to any one of claims 2 to 4, wherein the prediction server is.
前記初動傾向識別手段は、サポートベクタマシン又はC4.5であることを特徴とする請求項5に記載の予測サーバ。   The prediction server according to claim 5, wherein the initial movement tendency identification means is a support vector machine or C4.5. 前記初動傾向識別手段は、前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態における近似曲線の傾きを、判定要素として識別することを特徴とする請求項5又は6のいずれか1項に記載の予測サーバ。   The said initial movement tendency identification means identifies the inclination of the approximated curve in the transition state of the number of comments of the initial movement determination time in the said prediction object content as a determination element, Either of Claim 5 or 6 characterized by the above-mentioned. Prediction server. 前記初動傾向識別手段は、前記予測対象コンテンツの配信時刻を、判定要素として識別することを特徴とする請求項5から7のいずれか1項に記載の予測サーバ。   The prediction server according to any one of claims 5 to 7, wherein the initial movement tendency identification means identifies a distribution time of the prediction target content as a determination element. 前記初動傾向識別手段は、前記予測対象コンテンツの内容種別を、判定要素として識別することを特徴とする請求項5から8のいずれか1項に記載の予測サーバ。   The prediction server according to any one of claims 5 to 8, wherein the initial movement tendency identification unit identifies a content type of the prediction target content as a determination element. 前記サイトサーバは、ブログサイトサーバであって、
前記予測サーバは、
前記予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
前記予測対象コメント検索手段は、前記予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、前記ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
ことを特徴とする請求項1から9のいずれか1項に記載の予測サーバ。
The site server is a blog site server,
The prediction server
A prediction target keyword extraction unit that extracts a keyword group included in the prediction target content;
The prediction target comment search means searches for a plurality of comments from the blog site server using the keyword group extracted by the prediction target keyword extraction means as a key, and counts the number of comments in each unit time according to the passage of time. The prediction server according to any one of claims 1 to 9, wherein:
複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶手段と、
前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する予測対象コメント検索手段と、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する初動傾向識別手段と、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶手段における同一の推移型の中から検索する初動判定時間検索手段と、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とするサーバ用の予測プログラム。
A prediction program that allows a computer mounted on a server that can communicate with a site server that sends text comments between a plurality of contributors and predicts the future number of comments in the prediction target content,
For each content, learning the transition state (temporal change) of the number of comments in each unit time according to the passage of time by identifying which of the multiple posting trends is based on the number of comments at the initial action determination time Learning information storage means stored in advance as information;
Prediction target comment search means for counting the number of comments for each unit time in the initial motion determination time for the prediction target content acquired from the site server;
From the transition state of the number of comments of the initial motion determination time in the prediction target content, initial motion tendency identifying means for identifying which of the posting trends;
Initial motion determination time search means for searching for content similar to the transition state of the number of comments of the initial motion determination time in the prediction target content from the same transition type in the learning information storage means;
A server that causes a computer to function as comment number prediction means for deriving the transition state of the number of comments after the initial motion determination time corresponding to the searched content as the transition state of the future number of comments in the prediction target content Prediction program.
複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバのコメント数予測方法であって、
前記予測サーバは、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態(時間的変化)を、初動判定時間のコメント数によって、複数の投稿傾向の中のいずれであるかを識別して、学習情報として予め記憶した学習情報記憶部を有し、
前記予測サーバは、
前記サイトサーバから取得された、前記予測対象コンテンツについて初動判定時間における各単位時間のコメント数を計数する第1のステップと、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態から、投稿傾向のいずれであるかを識別する第2のステップと、
前記予測対象コンテンツにおける初動判定時間のコメント数の推移状態と類似するコンテンツを、前記学習情報記憶における同一の推移型の中から検索する第3のステップと、
検索されたコンテンツに対応する初動判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第4のステップと
実行することを特徴とする予測サーバのコメント数予測方法。
A method of predicting the number of comments of a prediction server that can communicate with a site server that sends text comments between a plurality of contributors and predicts the number of future comments in the prediction target content,
For each content , the prediction server determines whether the transition state (temporal change) of the number of comments in each unit time according to the passage of time is one of a plurality of posting tendencies according to the number of comments in the initial action determination time. Identify and have a learning information storage unit stored in advance as learning information,
The prediction server
A first step of counting the number of comments in each unit time in the initial motion determination time for the prediction target content acquired from the site server;
A second step of identifying a posting tendency from the transition state of the number of comments in the initial motion determination time in the prediction target content;
A third step of searching for content similar to the transition state of the number of comments of the initial motion determination time in the prediction target content from the same transition type in the learning information storage unit ;
Retrieved the comments transition state after that initial determination time corresponding to the content, and executes a fourth step of deriving a transition state of the future number of comments in the prediction target content prediction server number of comments prediction method of.
JP2013035818A 2013-02-26 2013-02-26 Prediction server, program and method for predicting future number of comments in prediction target content Expired - Fee Related JP5952756B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013035818A JP5952756B2 (en) 2013-02-26 2013-02-26 Prediction server, program and method for predicting future number of comments in prediction target content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013035818A JP5952756B2 (en) 2013-02-26 2013-02-26 Prediction server, program and method for predicting future number of comments in prediction target content

Publications (2)

Publication Number Publication Date
JP2014164576A JP2014164576A (en) 2014-09-08
JP5952756B2 true JP5952756B2 (en) 2016-07-13

Family

ID=51615114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013035818A Expired - Fee Related JP5952756B2 (en) 2013-02-26 2013-02-26 Prediction server, program and method for predicting future number of comments in prediction target content

Country Status (1)

Country Link
JP (1) JP5952756B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997250B2 (en) 2018-09-24 2021-05-04 Salesforce.Com, Inc. Routing of cases using unstructured input and natural language processing

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6604608B2 (en) * 2017-09-15 2019-11-13 Zホールディングス株式会社 Information processing apparatus, information processing method, and information processing program
JP2020144771A (en) * 2019-03-08 2020-09-10 Fringe81株式会社 Posting management system, posting management server, and posting management program
CN109961183B (en) * 2019-03-20 2023-06-23 重庆邮电大学 Method for measuring influence of comment information on user sign-in
CN111325390B (en) * 2020-02-17 2023-04-18 电子科技大学 Student cooperative relationship prediction method based on interest evolution

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005216202A (en) * 2004-02-02 2005-08-11 Fuji Heavy Ind Ltd Device and method for predicting future value
JP5077711B2 (en) * 2009-10-05 2012-11-21 Necビッグローブ株式会社 Time series analysis apparatus, time series analysis method, and program
US20110160927A1 (en) * 2009-12-30 2011-06-30 Wilson Kevin W Method for Prediction for Nonlinear Seasonal Time Series
JP2013037624A (en) * 2011-08-10 2013-02-21 Sony Computer Entertainment Inc Information processing system, information processing method, program, and information storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997250B2 (en) 2018-09-24 2021-05-04 Salesforce.Com, Inc. Routing of cases using unstructured input and natural language processing
US11755655B2 (en) 2018-09-24 2023-09-12 Salesforce, Inc. Routing of cases using unstructured input and natural language processing

Also Published As

Publication number Publication date
JP2014164576A (en) 2014-09-08

Similar Documents

Publication Publication Date Title
US7860878B2 (en) Prioritizing media assets for publication
US9785888B2 (en) Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information
US7685091B2 (en) System and method for online information analysis
Bernstein et al. Eddi: interactive topic-based browsing of social status streams
JP5160601B2 (en) System, method and apparatus for phrase mining based on relative frequency
US8234311B2 (en) Information processing device, importance calculation method, and program
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
US20150120712A1 (en) Customized News Stream Utilizing Dwelltime-Based Machine Learning
Macdonald et al. Blog track research at TREC
US20080104034A1 (en) Method For Scoring Changes to a Webpage
Hopfgartner et al. Semantic user profiling techniques for personalised multimedia recommendation
JP5952711B2 (en) Prediction server, program and method for predicting future number of comments in prediction target content
JP5952756B2 (en) Prediction server, program and method for predicting future number of comments in prediction target content
Chowdury et al. A data mining based spam detection system for youtube
De Nies et al. Bringing Newsworthiness into the 21st Century.
JP2014085694A (en) Search device, search program, and search method
JP6373767B2 (en) Topic word ranking device, topic word ranking method, and program
Hong et al. Exploiting topic tracking in real-time tweet streams
Hopfgartner et al. Semantic user modelling for personal news video retrieval
Quezada et al. Understanding real-world events via multimedia summaries based on social indicators
Fuehres et al. Adding taxonomies obtained by content clustering to semantic social network analysis
US20160210291A1 (en) Historical Presentation of Search Results
Weiying et al. Topic Modelling for Malay News Aggregator
Arora et al. Personalized news prediction and recommendation
Wang et al. Degree of user attention to a webpage based on Baidu Index: an alternative to page view

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160610

R150 Certificate of patent or registration of utility model

Ref document number: 5952756

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees