JP5848199B2 - Impact prediction device, impact prediction method, and program - Google Patents

Impact prediction device, impact prediction method, and program Download PDF

Info

Publication number
JP5848199B2
JP5848199B2 JP2012136306A JP2012136306A JP5848199B2 JP 5848199 B2 JP5848199 B2 JP 5848199B2 JP 2012136306 A JP2012136306 A JP 2012136306A JP 2012136306 A JP2012136306 A JP 2012136306A JP 5848199 B2 JP5848199 B2 JP 5848199B2
Authority
JP
Japan
Prior art keywords
content
influence
user
evaluation value
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012136306A
Other languages
Japanese (ja)
Other versions
JP2014002482A (en
Inventor
倉島 健
健 倉島
藤村 考
考 藤村
高秀 星出
高秀 星出
拓 藤本
拓 藤本
吉村 健
健 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012136306A priority Critical patent/JP5848199B2/en
Publication of JP2014002482A publication Critical patent/JP2014002482A/en
Application granted granted Critical
Publication of JP5848199B2 publication Critical patent/JP5848199B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ある人物がソーシャルメディア上で発信したコンテンツが、将来的にどの程度多くの人々に到達するかを評価する装置、方法、プログラムに関する。本装置の利用者は、本装置が算出したコンテンツの予測影響力をもとに、コンテンツをランキングした結果を得ることができる。   The present invention relates to an apparatus, a method, and a program for evaluating how many people a content transmitted by a person on social media reaches in the future. The user of this apparatus can obtain the result of ranking the content based on the predicted influence of the content calculated by this apparatus.

ソーシャルメディアとは、Twitter(登録商標)サービス、ブログ等に代表され、ユーザ同士がリンク関係、フォロー関係をもとにしたソーシャルネットワークを構成しており、あるユーザが情報(自然言語で記述された文章、画像、映像、URLなど)を発信すると、そのユーザと関係を持つ隣人ユーザ、あるいはそのユーザのサイトを訪れた一般ユーザがその情報を閲覧できるようなメディアである。   Social media is represented by Twitter (registered trademark) services, blogs, etc., and users constitute a social network based on links and follow-up relationships. A user is described in information (written in natural language). When a document, image, video, URL, etc.) is transmitted, the information can be browsed by neighbor users who have a relationship with the user or general users who have visited the user's site.

上記技術分野における従来の第一の技術として、Kleinbergらが提案したバーストの概念(非特許文献1)を利用した手法がある(非特許文献4)。発信情報が他の人々に引用される間隔が短くなっていることを手がかりに、その情報が将来的にどの程度多くの人々に到達するか、引用されるかを予測するというものである。この手法は、主に、世の中で話題になっているキーワードを抽出する目的で利用され、そのキーワードを含む時間情報付きのWeb文書をdocument streamとしてとらえ、document stream中でdocument数が急激に増加している部分を抽出することで、キーワードがバースト状態か否かを判定する。   As a first conventional technique in the above technical field, there is a technique using the concept of burst (Non-Patent Document 1) proposed by Kleinberg et al. (Non-Patent Document 4). This is to predict how many people the information will be quoted in the future, based on the fact that the interval at which the transmitted information is quoted by other people is shortened. This method is mainly used for extracting keywords that are becoming popular topics in the world. Web documents with time information including the keywords are treated as document streams, and the number of documents in the document stream increases rapidly. It is determined whether or not the keyword is in a burst state by extracting the portion that is present.

従来の第二の技術として、松村らの電子掲示板の書き込み情報を利用した話題抽出手法がある(非特許文献2)。電子掲示板の書き込み、及びそれに対する返信、コメントに共通するキーワードを抽出し、それが何回のやり取りに用いられたかを手がかりに話題の中心となったトピックを抽出する。   As a conventional second technique, there is a topic extraction method using information written on an electronic bulletin board of Matsumura et al. (Non-patent Document 2). A keyword common to writing on an electronic bulletin board, a reply to it, and a comment is extracted, and a topic that is the center of the topic is extracted based on how many times the keyword is used.

従来の第三の技術として、ソーシャルメディア(Twitter(登録商標))上での過去の振る舞いをもとに、ユーザの未来の影響力を予測する技術が存在する(非特許文献3)。ユーザの影響力とは、そのユーザが発信した情報が他の人に引用された回数で定義される。Twitter(登録商標)上で何人の人がそのユーザをフォローしているか、そのユーザが何人をフォローしているか、過去にそのユーザが発信した情報が引用された累積回数などを手がかりとして、未来の、例えば、この先一ヶ月間に他のユーザに引用される回数(影響力)を予測する。   As a conventional third technique, there is a technique for predicting the future influence of a user based on past behavior on social media (Twitter (registered trademark)) (Non-Patent Document 3). The influence of a user is defined by the number of times information transmitted by the user is cited by another person. Based on how many people follow the user on Twitter (registered trademark), how many people the user is following, and the cumulative number of times the information sent by the user has been cited in the past, For example, the number of times (influence) cited by other users in the next month is predicted.

Jon Kleinberg.Bursty and hierarchical structure in streams. In Proc. the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2002.Jon Kleinberg.Bursty and hierarchical structure in streams.In Proc.the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002. 松村真宏,大澤幸生,石塚満.テキストによるコミュニケーションにおける影響の普及モデル.人工知能学会論文誌 第17巻3号,pp.259-267,2002.Masahiro Matsumura, Yukio Osawa, Mitsuru Ishizuka. Dissemination model of influence in text communication. Transactions of the Japanese Society for Artificial Intelligence Vol.17 No.3, pp.259-267,2002. Eytan Bakshy, Jake M. Hofman, Winter A. Mason and Duncan J. Watts. Everyone's an influencer: quantifying influence on twitter. In Proc. the 4th ACM International Conference on Web Search and Data Mining, pp. 65-74, 2011.Eytan Bakshy, Jake M. Hofman, Winter A. Mason and Duncan J. Watts. Everyone's an influencer: quantifying influence on twitter. In Proc. The 4th ACM International Conference on Web Search and Data Mining, pp. 65-74, 2011. 藤木稔明,南野朋之,鈴木泰裕,奥村学.document streamにおけるburstの発見.情報処理学会研究報告, 2003- NL-160, pp. 85-92, 2004.Toshiaki Fujiki, Yasuyuki Minamino, Yasuhiro Suzuki, Manabu Okumura. Discovery of burst in document stream. IPSJ Research Report, 2003- NL-160, pp. 85-92, 2004. Quinlan, J. R. Induction of decision trees. Machine Learning, 1: 81-106, 1986.Quinlan, J. R. Induction of decision trees.Machine Learning, 1: 81-106, 1986. Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

しかし、従来の第一の技術は、引用情報(引用される間隔)に強く依存した手法のため、発信されてから間もなく、ほとんどの人々が、または誰も知らない(引用されていない)情報の価値を評価することはできなかった。従来の第一の技術は、既に話題になっている情報(既に多くの人々に引用された)を抽出することができるが、現時点でほとんど引用されてはいないが、これから話題になりそうな情報を抽出することはできなかった。   However, since the first conventional technique is a method that relies heavily on citation information (quoting intervals), most people or no one knows (unquoted) information soon after it was published. The value could not be evaluated. The first conventional technology can extract information that has already been talked about (already cited by many people), but information that is not quoted at this time but is likely to be talked about in the future. Could not be extracted.

また、従来の第二の技術も、従来の第一の技術と同様、既に話題になっている情報を抽出するための手法であった。   The conventional second technique is also a method for extracting information that has already been discussed, as in the conventional first technique.

また、従来の第三の技術は、ユーザ単位での未来の影響力を予測するものであり、ユーザが発信した情報単位の価値を予測する技術ではない。単純には、ユーザ単位で推定した予測影響力を発信情報に伝搬させるような手法が考えられる。しかし、あるユーザが常に価値ある情報を発信することは稀であり、単純な独り言や挨拶などの情報を不当に高く評価してしまう問題がある。   In addition, the third conventional technique predicts the future influence on the user basis, and is not a technique for predicting the value of the information unit transmitted by the user. Simply, a method of propagating the predicted influence estimated for each user to the transmission information can be considered. However, it is rare that a certain user always transmits valuable information, and there is a problem that information such as simple monologues and greetings is unfairly evaluated.

本発明は上記の点に鑑みてなされたものであり、ソーシャルメディア上で発信されたコンテンツの将来的な影響力を示す評価値を算出する技術において、たとえ、他の人々に引用された実績がほとんどない、もしくは全くない情報でも、高精度に将来的な影響力を示す評価値を算出することを可能とする技術を提供することを目的とする。   The present invention has been made in view of the above points, and in the technology for calculating an evaluation value indicating the future influence of content transmitted on social media, even if the results cited by other people have been obtained. It is an object of the present invention to provide a technique that can calculate an evaluation value indicating a future influence with high accuracy even with little or no information.

上記の課題を解決するために、本発明は、ソーシャルメディア上で発信されたコンテンツの現時点での将来的な影響力を示す評価値を算出する影響力予測装置であって、
ソーシャルメディア上でのユーザ間のリンクに関する情報を含むユーザ情報を格納したユーザ情報記憶装置、及びコンテンツ間の互いの引用状況を示す引用情報を格納した引用情報記憶装置のそれぞれから、前記コンテンツを発信したユーザである発信ユーザについての特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記発信ユーザの現時点での将来的な影響力を示す影響力評価値を求める影響力予測手段と、
前記発信ユーザにより発信された前記コンテンツが生成されてから現時点までの間の単位時間当たりの当該コンテンツの平均引用数を、当該コンテンツの現時点での話題性を示す話題性評価値として求める話題性評価手段と、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する時間重み付き結合手段と、
を有することを特徴とする影響力予測装置として構成される。
In order to solve the above-described problem, the present invention is an influence prediction apparatus that calculates an evaluation value indicating a future influence of a content transmitted on social media at the present time,
The content is transmitted from each of a user information storage device storing user information including information related to a link between users on social media, and a citation information storage device storing citation information indicating mutual citation status between contents. The influence which calculates | requires the influence evaluation value which shows the future influence of the said transmission user at the present time by acquiring the feature-value about the transmission user who is a user and using a prediction model based on the said feature-value Prediction means;
Topicity evaluation for obtaining the average number of citations of the content per unit time from the generation of the content transmitted by the transmitting user to the present time as the topicality evaluation value indicating the topicality of the content at the current time Means,
A weight at the present time calculated so that the elapsed time from the time when the content is transmitted to the present time becomes smaller is added to the influence evaluation value, and the weight is calculated so as to increase as the elapsed time becomes larger. And adding a weight to the topic evaluation value, and calculating a comprehensive evaluation value indicating the future influence of the content from the weighted influence evaluation value and the topic evaluation value. Time-weighted combining means to output
It is comprised as an influence prediction apparatus characterized by having.

前記影響力予測手段は、前記発信ユーザにより発信された前記コンテンツのトピックを抽出するトピック抽出手段を有し、当該影響力予測手段は、前記引用情報記憶装置から当該トピック抽出手段により抽出された前記トピックにおける前記発信ユーザの特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記トピックにおける前記発信ユーザの現時点での将来的な影響力を示す評価値を前記影響力評価値として算出するようにしてもよい。
The influence prediction means includes topic extraction means for extracting a topic of the content transmitted by the transmission user, and the influence prediction means is extracted from the citation information storage device by the topic extraction means. The feature value of the calling user in the topic is acquired, and based on the feature value, the prediction value is used to obtain an evaluation value indicating the future influence of the calling user in the topic at the present time. It may be calculated as a value.

前記影響力予測装置は、前記発信ユーザにより発信された前記コンテンツの特徴量を抽出するコンテンツ特徴量抽出手段と、前記コンテンツ特徴量抽出手段により抽出された前記コンテンツの特徴量に基づいて、予測モデルを用いることにより、当該コンテンツの将来的な影響力を示すコンテンツ影響力評価値を算出するコンテンツ影響力予測手段と、を更に備え、前記時間重み付き結合手段は、前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値及び前記コンテンツ影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記コンテンツ影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力するようにしてもよい。   The influence prediction device includes: a content feature amount extraction unit that extracts a feature amount of the content transmitted by the transmitting user; and a prediction model based on the feature amount of the content extracted by the content feature amount extraction unit. Content influence prediction means for calculating a content influence evaluation value indicating the future influence of the content, and the time weighted combination means from the time when the content is transmitted. The weight at the present time calculated so as to decrease as the elapsed time up to the current time increases, is added to the influence evaluation value and the content influence evaluation value, and is calculated so as to increase as the elapsed time increases. Current weights are added to the topical evaluation values, and these weighted influence evaluation values are added. May be output by calculating an overall evaluation value indicating the future impact of the content from said topicality evaluation value and the content influence evaluation value.

また、本発明によれば、上記影響力予測装置が実行する影響力予測方法が提供される。更に、本発明によれば、コンピュータを、前記影響力予測装置の各手段として機能させるためのプログラムが提供される。   Moreover, according to this invention, the influence prediction method which the said influence prediction apparatus performs is provided. Furthermore, according to the present invention, there is provided a program for causing a computer to function as each means of the influence prediction apparatus.

本発明によれば、たとえ、他の人々に引用された実績がほとんどない、もしくは全くない情報でも、情報発信者について推定した未来の影響力や、コンテンツの特徴から推定した未来の影響力をもとに、高精度に将来的な価値を予測することが可能となる。   According to the present invention, even if there is little or no track record cited by other people, the future influence estimated from the information sender and the future influence estimated from the characteristics of the contents In addition, the future value can be predicted with high accuracy.

特に、本発明によれば、コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなる重みを影響力評価値に付加し、経過時間が大きくなるにつれて大きくなる重みを話題性評価値に付加し、これらの重み付けされた影響力評価値と話題性評価値とから総合評価値を算出することとしたので、高精度な影響力の評価値を算出することが可能である。   In particular, according to the present invention, a weight that decreases as the elapsed time from when the content is transmitted to the present time is added to the influence evaluation value, and a weight that increases as the elapsed time increases Since the comprehensive evaluation value is calculated from the weighted influence evaluation value and topicality evaluation value, it is possible to calculate the influence evaluation value with high accuracy.

本発明の第一の実施の形態における情報伝播予測装置100のブロック図である。It is a block diagram of the information propagation prediction apparatus 100 in 1st embodiment of this invention. 本発明の第一の実施の形態における時間重み付き結合手段108が実行する処理のフローチャートである。It is a flowchart of the process which the time weight combination means 108 in 1st embodiment of this invention performs. 本発明の第一の実施の形態におけるユーザ情報記憶装置102に格納されている情報の一例である。It is an example of the information stored in the user information storage device 102 in the first embodiment of the present invention. 本発明の第一の実施の形態におけるコンテンツ情報記憶装置103に格納されている情報の一例である。It is an example of the information stored in the content information storage device 103 in the first embodiment of the present invention. 本発明の第一の実施の形態における引用情報記憶装置103に格納されている情報の一例である。It is an example of the information stored in the quotation information storage device 103 in the first embodiment of the present invention. 本発明の第一の実施の形態におけるユーザ影響力予測手段106の学習に用いるデータの一例である。It is an example of the data used for the learning of the user influence prediction means 106 in 1st embodiment of this invention. 本発明の第一の実施の形態における時間重み付き結合手段108が計算するスコアと経過時間を説明するデータの一例である。It is an example of the data explaining the score and elapsed time which the time weight combination means 108 in 1st embodiment of this invention calculates. 本発明の第一の実施の形態における検索部101と出力部109による表示例である。It is an example of a display by the search part 101 and the output part 109 in 1st embodiment of this invention. 本発明の第二の実施の形態における情報伝播予測装置200のブロック図である。It is a block diagram of the information propagation prediction apparatus 200 in 2nd embodiment of this invention. 本発明の第二の実施形態におけるコンテンツ情報記憶装置104に格納されているデータの一例である。It is an example of the data stored in the content information storage device 104 in 2nd embodiment of this invention. 本発明の第三の実施の形態における情報伝播予測装置300のブロック図である。It is a block diagram of the information propagation prediction apparatus 300 in 3rd embodiment of this invention.

以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
[第一の実施の形態]
以下、本装置の第一の形態について図面を参照して説明する。
Embodiments of the present invention will be described below with reference to the drawings. The embodiment described below is only an example, and the embodiment to which the present invention is applied is not limited to the following embodiment.
[First embodiment]
Hereinafter, a first embodiment of the present apparatus will be described with reference to the drawings.

図1は、本発明の第一の実施の形態における情報伝搬予測装置100のブロック図を示す。同図に示す情報伝搬予測装置100は、検索部101、ユーザ情報記憶装置102、引用情報記憶装置103、コンテンツ情報記憶装置104、評価対象コンテンツ抽出手段105、ユーザ影響力予測手段106、話題性評価手段107、時間重み付き結合手段108、出力部109から構成されている。このうち、評価対象コンテンツ抽出手段105はコンテンツ情報記憶装置104及び引用情報記憶装置103に接続され、ユーザ影響力予測手段106はコンテンツ情報記憶装置104、引用情報記憶装置103、及びユーザ情報記憶装置102に接続され、話題性評価手段107は、コンテンツ情報記憶装置104、及び引用情報記憶装置103に接続されている。なお、情報伝搬予測装置を、影響力予測装置と称してもよい。   FIG. 1 shows a block diagram of an information propagation prediction apparatus 100 in the first embodiment of the present invention. The information propagation prediction device 100 shown in the figure includes a search unit 101, a user information storage device 102, a citation information storage device 103, a content information storage device 104, an evaluation target content extraction unit 105, a user influence prediction unit 106, and topicality evaluation. It comprises means 107, time weighted combining means 108, and output section 109. Among them, the evaluation target content extraction unit 105 is connected to the content information storage device 104 and the citation information storage device 103, and the user influence prediction unit 106 is the content information storage device 104, the citation information storage device 103, and the user information storage device 102. The topicality evaluation unit 107 is connected to the content information storage device 104 and the citation information storage device 103. The information propagation prediction device may be referred to as an influence prediction device.

なお、図1に示す例では、情報伝搬予測装置100が、検索部101、ユーザ情報記憶装置102、引用情報記憶装置103、コンテンツ情報記憶装置104、評価対象コンテンツ抽出手段105、ユーザ影響力予測手段106、話題性評価手段107、時間重み付き結合手段108、出力部109を含むが、情報伝搬予測装置100の構成はこれに限られるわけではない。例えば、情報伝搬予測装置100は、検索部101、評価対象コンテンツ抽出手段105、ユーザ影響力予測手段106、話題性評価手段107、時間重み付き結合手段108、出力部109を有するものとし、ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104を、情報伝搬予測装置100の外部に備え、ネットワークを介して情報伝搬予測装置100と接続される構成としてもよい。ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104を、情報伝搬予測装置の外部に備える構成は、他の実施の形態でも同様に採用可能である。   In the example illustrated in FIG. 1, the information propagation prediction device 100 includes a search unit 101, a user information storage device 102, a citation information storage device 103, a content information storage device 104, an evaluation target content extraction unit 105, and a user influence prediction unit. 106, topicality evaluation means 107, time weighted combining means 108, and output section 109, but the configuration of the information propagation prediction apparatus 100 is not limited to this. For example, the information propagation prediction apparatus 100 includes a search unit 101, an evaluation target content extraction unit 105, a user influence prediction unit 106, a topicality evaluation unit 107, a time weighted combination unit 108, and an output unit 109. The storage device 102, the citation information storage device 103, and the content information storage device 104 may be provided outside the information propagation prediction device 100 and connected to the information propagation prediction device 100 via a network. The configuration in which the user information storage device 102, the citation information storage device 103, and the content information storage device 104 are provided outside the information propagation prediction device can be similarly adopted in other embodiments.

ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104とネットワーク接続される形態の情報伝搬予測装置100は、例えば、CPU、メモリ等を備えたコンピュータに、実施の形態の各処理手段の処理動作に対応するプログラムを実行させることにより実現可能である。また、ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104を内部に備える形態の情報伝搬予測装置100については、例えば、ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104に対応するデータベースシステムを有するコンピュータに、実施の形態の各処理手段の処理動作に対応するプログラムを実行させることにより実現可能である。上記のプログラムは、可搬メモリ等の記憶媒体に格納して配布し、コンピュータにインストールして用いてもよいし、ネットワーク上のサーバからダウンロードしてコンピュータにインストールしてもよい。コンピュータにプログラムを実行させることにより情報伝搬予測装置を実現できる点は、他の実施の形態においても同様である。以下、各構成要素について詳細に説明する。   The information propagation prediction device 100 in a form connected to the user information storage device 102, the citation information storage device 103, and the content information storage device 104 via a network includes, for example, a computer having a CPU, a memory, and the like. This can be realized by executing a program corresponding to the processing operation of the means. Further, for the information propagation prediction apparatus 100 having the user information storage device 102, the citation information storage device 103, and the content information storage device 104 therein, for example, the user information storage device 102, the citation information storage device 103, and the content This can be realized by causing a computer having a database system corresponding to the information storage device 104 to execute a program corresponding to the processing operation of each processing means of the embodiment. The above program may be stored and distributed in a storage medium such as a portable memory, installed in a computer, or downloaded from a server on a network and installed in the computer. The point which can implement | achieve an information propagation prediction apparatus by making a computer run a program is the same also in other embodiment. Hereinafter, each component will be described in detail.

<各記憶装置>
ユーザ情報記憶装置102は、本情報伝搬予測装置100により解析され得るユーザ情報を格納しており、本情報伝搬予測装置100の所定の機能手段からの要求に従って、ユーザ情報を読み出し、当該情報を要求元に送信する。
<Each storage device>
The user information storage device 102 stores user information that can be analyzed by the information propagation prediction device 100, reads user information according to a request from a predetermined functional unit of the information propagation prediction device 100, and requests the information. Send to the original.

ユーザ情報記憶装置102に記憶される典型的な各ユーザ情報は、ユーザを一意に特定するためのユーザIDや、リンク数、被リンク数、発信情報数、自己紹介文等の属性情報、タイムスタンプとから構成される。リンクとはあるユーザから別のユーザへの興味を示すデータである。例えば、Twitter(登録商標)を対象とした場合、リンク数は他のユーザへのフォロー数、被リンク数は他のユーザからのフォロー数、発信情報数は過去のツイート総数となる。また、タイムスタンプは、各ユーザ情報を取得した時間を表す属性値である。つまり、あるユーザに関するユーザ情報(リンク数、被リンク数、発信情報数など)の推移を時系列的に追うことが可能である。ユーザ情報記憶装置102は、例えば、Webページを保持するWebサーバや、データベースを具備するデータベースサーバ、データベースを具備する記憶装置等として構成される。   Each typical user information stored in the user information storage device 102 includes a user ID for uniquely identifying a user, attribute information such as the number of links, the number of linked links, the number of outgoing information, a self-introduction sentence, and a time stamp. It consists of. A link is data indicating interest from one user to another user. For example, when Twitter (registered trademark) is targeted, the number of links is the number of followers to other users, the number of linked links is the number of followers from other users, and the number of outgoing information is the total number of tweets in the past. The time stamp is an attribute value representing the time when each piece of user information is acquired. That is, it is possible to follow the transition of user information related to a certain user (number of links, number of links, number of transmitted information, etc.) in time series. The user information storage device 102 is configured as, for example, a Web server that holds Web pages, a database server that includes a database, a storage device that includes a database, and the like.

コンテンツ情報記憶装置104は、本情報伝搬予測装置100により解析され得るコンテンツ情報を格納しており、本情報伝搬予測装置100の所定の機能手段からの要求に従って、コンテンツ情報を読み出し、当該情報を要求元に送信する。   The content information storage device 104 stores content information that can be analyzed by the information propagation prediction device 100. The content information storage device 104 reads the content information in response to a request from a predetermined functional unit of the information propagation prediction device 100, and requests the information. Send to the original.

なお、コンテンツは、WebサイトやCD-ROM、DVDなどの媒体で閲覧できるテキストや静止画、動画、音楽、音声といった情報であれば何でも良い。記憶される典型的なコンテンツ情報は、コンテンツを一意に特定するためのコンテンツIDや、コンテンツを生成したユーザID、作成した日付情報(コンテンツを発信した日付情報と解してもよい)、テキスト、静止画、動画、音楽、音声情報等から構成される。コンテンツ情報記憶装置104は、例えば、Webページを保持するWebサーバや、データベースを具備するデータベースサーバ、データベースを具備する記憶装置等として構成される。   The content may be any information such as text, still image, video, music, and audio that can be viewed on a medium such as a website, CD-ROM, or DVD. Typical content information stored includes a content ID for uniquely identifying the content, a user ID that generated the content, created date information (may be interpreted as date information that the content was transmitted), text, Consists of still images, moving images, music, audio information and the like. The content information storage device 104 is configured, for example, as a Web server that holds Web pages, a database server that includes a database, a storage device that includes a database, and the like.

引用情報記憶装置103は、本情報伝搬予測装置100により解析され得る引用情報を格納しており、本情報伝搬予測装置100の所定の機能手段からの要求に従って、引用情報を読み出し、当該情報を要求元に送信する。   The citation information storage device 103 stores citation information that can be analyzed by the information propagation prediction device 100, reads citation information according to a request from a predetermined functional means of the information propagation prediction device 100, and requests the information. Send to the original.

引用情報とは、ある情報の人から人への伝達、伝搬が起こったことを示すデータであり、具体的には、あるコンテンツ、またはその一部が、別のユーザ(が発信したコンテンツ)によって言及、引用したことを示す情報である。例えば、あるWebページAのURLが、他のユーザの作成したWebページB中に含まれる場合、BはAを引用したとして扱う。Twitter(登録商標)を対象とした場合、あるツイートAが、他のユーザのツイートBによってリツイートされた場合、BはAを引用したとして扱う。また、コンテンツの一部、例えばコンテンツに含まれるURLや、文章等を引用した場合も引用情報として扱っても良い。また、引用情報は、あるコンテンツをブックマークに追加するといった操作も含む概念である。引用情報記憶装置103は、例えば、Webページを保持するWebサーバ、データベースを具備するデータベースサーバ、データベースを具備する記憶装置等として構成される。   Cited information is data indicating that transmission or propagation of certain information from person to person has occurred. Specifically, a certain content, or part of it, is transmitted by another user (content sent by). It is information indicating that it is mentioned or cited. For example, if the URL of a web page A is included in a web page B created by another user, B is treated as quoting A. When Twitter (registered trademark) is targeted, if a tweet A is retweeted by another user's tweet B, B is treated as quoting A. In addition, when a part of the content, for example, a URL or a sentence included in the content is quoted, it may be treated as quoted information. The quotation information is a concept including an operation of adding a certain content to a bookmark. The citation information storage device 103 is configured as, for example, a Web server that holds a Web page, a database server that includes a database, a storage device that includes a database, and the like.

<検索部101>
検索部101は、評価を行いたいコンテンツ集合を絞り込むための検索条件をユーザから受け付ける。上記検索条件とは、コンテンツ情報記憶装置104が保持する属性の値に関する条件である。例えば、日付情報を条件とする場合、「作成されてから数時間以内」といった条件を指定することが可能である。また、各コンテンツがテキスト属性を持つ場合、あるキーワードを含むことを検索条件とした絞り込み操作も可能である。複数の属性、例えば、日付情報とキーワードの組み合わせでの絞り込むとったことも可能である。また、引用情報記憶装置103に記憶されている情報を利用した問い合わせも可能である。例えば、「5件以上、引用されているコンテンツ」といった条件を指定することもできる。検索部101は例えば、キーボード、OCR、ペン入力、タッチパネル入力、音声認識装置や、ネットワーク上に置かれたテキストファイルを読み込む手段等によって構成されている。検索部は、マウス等のデバイスドライバや、メニュー画面の制御ソフトウェア等で実現され得る。
<Search unit 101>
The search unit 101 receives a search condition for narrowing down a content set to be evaluated from the user. The search condition is a condition related to attribute values held by the content information storage device 104. For example, when date information is used as a condition, it is possible to specify a condition such as “within several hours after creation”. In addition, when each content has a text attribute, it is possible to perform a narrowing operation using a search condition including a certain keyword. It is also possible to narrow down by a combination of a plurality of attributes, for example, date information and keywords. Inquiries using information stored in the quote information storage device 103 can also be made. For example, a condition such as “5 or more cited contents” can be designated. The search unit 101 includes, for example, a keyboard, OCR, pen input, touch panel input, voice recognition device, means for reading a text file placed on the network, and the like. The search unit can be realized by a device driver such as a mouse, menu screen control software, or the like.

<評価対象コンテンツ抽出手段105>
評価対象コンテンツ抽出手段105は、検索部101で指定された検索条件をもとに、コンテンツ情報検索装置104、引用情報記憶装置103に問い合わせを行い、検索条件に合致するコンテンツIDの集合を取得する。
<Evaluation Target Content Extraction Unit 105>
The evaluation target content extraction unit 105 makes an inquiry to the content information search device 104 and the citation information storage device 103 based on the search condition specified by the search unit 101, and acquires a set of content IDs that match the search condition. .

<ユーザ影響力予測手段106>
ユーザ影響力予測手段106は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合をもとに、これらのコンテンツを発信したユーザ集合を取得し、ユーザ集合に含まれる各ユーザの未来の影響力を予測する手段である。最初に、ユーザ影響力予測手段106は、ユーザ情報記憶装置102にコンテンツID集合をもとに問い合わせを行い、これらのコンテンツを発信したユーザ集合を取得する。取得した各ユーザに関して、以下の操作を繰り返す。
<User influence predicting means 106>
The user influence predicting means 106 acquires the user set that has transmitted these contents based on the content set that is the output of the evaluation target content extracting means 105, and determines the future influence of each user included in the user set. It is a means of prediction. First, the user influence prediction means 106 makes an inquiry to the user information storage device 102 based on the content ID set, and acquires the user set that has transmitted these contents. The following operations are repeated for each acquired user.

まず、該ユーザの特徴量を抽出する。特徴量は、ユーザ情報記憶装置102に記憶されている、最新のリンク数、被リンク数、発信情報数等である。また、引用情報記憶装置103にも問い合わせを行い、過去に、各ユーザが生成したコンテンツが他のユーザに引用された回数の合計、過去一ヶ月間で各ユーザが生成したコンテンツが他のユーザに引用された回数の合計、各ユーザが1つの投稿を行ったときに他のユーザに引用された平均回数などの過去の実績を示す統計量を計算し、各ユーザの特徴量とする。最後に、これらの過去の特徴量をもとに、未来の一定期間で各ユーザが引用される回数を予測する。過去の特徴量を入力とし、未来の一定期間で引用される回数を予測し、出力するモデルは、回帰木など、機械学習分野における既存の予測モデルを用いて構成し得る。回帰木は説明変数の値をもとに、目的変数の実数値を予測するモデルである。つまり、本装置においては、これまでにわかっているユーザ特徴量(説明変数)をもとに、未来の一定期間でユーザが引用される回数(目的変数)を予測する。一定期間とは、例えば一日、一週間、一ヶ月などであるが、どの範囲で引用される回数を予測するかは予測モデルの学習方法に依存する。ユーザ影響力予測値(本例では、未来の一定期間でユーザが引用される回数)は、時間重み付き結合手段108へと送られる。また、ユーザ当たりではなく、(ユーザかつ)コンテンツ当たりの予測引用回数としても良い。例えば、一週間で期待されるユーザ当たりの引用回数を算出後、その値をユーザが一週間で平均的に発信するコンテンツ数で割った値を採用しても良い。   First, the feature amount of the user is extracted. The feature amount is the latest number of links, the number of links, the number of transmitted information, etc. stored in the user information storage device 102. In addition, the citation information storage device 103 is also inquired, and the total number of times the content generated by each user has been cited by other users in the past, the content generated by each user in the past month is sent to other users. A statistic indicating past performance such as the total number of times quoted and the average number of times cited by other users when each user makes one post is calculated and used as a feature value for each user. Finally, based on these past feature amounts, the number of times each user is cited in a future fixed period is predicted. A model that predicts the number of times quoted in a future fixed period using the past feature quantity as an input and outputs the model can be configured using an existing prediction model in the field of machine learning such as a regression tree. The regression tree is a model that predicts the real value of the objective variable based on the value of the explanatory variable. That is, in this apparatus, the number of times a user is cited (objective variable) in a future fixed period is predicted based on the user feature value (explanatory variable) known so far. The fixed period is, for example, one day, one week, one month, etc., but in which range the number of times cited is predicted depends on the learning method of the prediction model. The predicted user influence value (in this example, the number of times the user is cited in a certain period in the future) is sent to the time weighted combining means 108. Moreover, it is good also as the estimated frequency | count of quotation per content (user and) instead of per user. For example, a value obtained by calculating the number of citations per user expected in one week and dividing the value by the number of contents that the user transmits on average in one week may be adopted.

以下、予測モデルのひとつである回帰木について説明する。   Hereinafter, a regression tree that is one of the prediction models will be described.

回帰木は、目的属性が数値型である場合の決定木である。回帰木では、木の各中間ノードにデータを分割するための分割テストが示されている。また、各中間ノードは分割テストを適用した結果の取り得る二つの値に対する二つの下向きの枝を持つ。一方、各終端ノードは、ここで注目している「未来の一定期間でユーザが引用される回数」を持つ。学習に用いるデータ中の各ユーザは、この回帰木を使って、いずれかの終端ノードに分類される。回帰木の頂点ノードは全データ集合に対応する。回帰木は、データから得られた知識、法則を木の頂点ノードから終端に至るまでの分割テストのIF-THENルールとして簡単に表現することができる。終端ノードのラベルは、このIF-THENルール結論部に相当する。例えば、「リンク数が100以上」でかつ「過去に引用された回数の合計が100回」のユーザは「今後、一週間以内で10回引用される」といった予測を行うことができる。   The regression tree is a decision tree when the objective attribute is a numerical type. In the regression tree, a division test for dividing data into each intermediate node of the tree is shown. Each intermediate node also has two downward branches for the two possible values that result from applying the split test. On the other hand, each terminal node has “the number of times a user is cited in a certain period in the future”, which is noticed here. Each user in the data used for learning is classified into one of the terminal nodes using this regression tree. The vertex nodes of the regression tree correspond to the entire data set. A regression tree can easily express knowledge and laws obtained from data as IF-THEN rules for split tests from the top node to the end of the tree. The label of the terminal node corresponds to the IF-THEN rule conclusion part. For example, a user who has “the number of links is 100 or more” and “the total number of times quoted in the past is 100 times” can make a prediction that “it will be quoted 10 times within a week in the future”.

以下、本装置において予測モデルである回帰木学習のための学習データの作成、及び学習方法について説明する。なお、本実施の形態は予測フェーズを説明するための装置の構成例であり、以下の、学習データ作成を含む学習フェーズは事前処理として行う。   Hereinafter, creation of learning data for learning a regression tree, which is a prediction model in this apparatus, and a learning method will be described. In addition, this Embodiment is an example of a structure of the apparatus for demonstrating a prediction phase, and the following learning phases including learning data preparation are performed as a preliminary process.

この事前処理で得られた回帰木のデータは、例えば、ユーザ影響力予測手段106におけるメモリ等の記憶手段に格納され、ユーザ影響力予測に用いられる。また、この事前処理自体は、ユーザ影響力予測手段106が行ってもよいし、別の手段により行ってもよい。   The regression tree data obtained by this pre-processing is stored, for example, in storage means such as a memory in the user influence prediction means 106 and used for user influence prediction. Further, this pre-processing itself may be performed by the user influence prediction unit 106 or may be performed by another unit.

最初に、データを分割するための過去の時間tを決める。次に、ユーザ情報記憶装置102に格納されているユーザ集合を取得する。次に、ユーザ情報記憶装置102、引用情報記憶装置103に問い合わせを行い、ユーザ集合中の各ユーザに関して、時間t以前の情報をもとに、各ユーザの前記特徴量を算出し、説明変数とする。つまり、時間tの時点でのユーザのリンク数、被リンク数、発信情報数や、時間t以前に各ユーザが生成したコンテンツが他のユーザに引用された回数の合計などである。同時に、時間t以後の情報をもとに、各ユーザが他の人に引用された回数の合計を算出し、目的変数とする。ユーザ集合中の各ユーザを、説明変数と目的変数との組み合わせとから成る情報へと変換したデータを学習データとする。以上までが学習データの作成方法である。   First, a past time t for dividing the data is determined. Next, a user set stored in the user information storage device 102 is acquired. Next, the user information storage device 102 and the citation information storage device 103 are inquired, and for each user in the user set, the feature amount of each user is calculated based on information before time t, To do. That is, the number of links, the number of links, the number of outgoing information, and the total number of times content generated by each user before time t is cited by other users. At the same time, based on the information after time t, the total number of times each user has been cited by another person is calculated and used as an objective variable. Data obtained by converting each user in the user set into information including a combination of explanatory variables and objective variables is used as learning data. The above is the creation method of learning data.

次に、学習データをもとに予測モデル、回帰木を作成する。回帰木においては、平均二乗誤差を最小化、あるいはクラス間分散に基づく評価関数を最大化する分割テストを行うことで回帰木を学習する。単純には、データを木の頂点から再帰的に相互情報量などに基づいた最適分割テストにより分割していく手法がある。ID3では相互情報量の観点で最適な分割テストが使われ(非特許文献5)、C4.5ではgain ratioを最適にする分割テストが使われているが(非特許文献6)、どの手法、アルゴリズムを用いて回帰木を作成しても良い。また、フリーソフトWEKAの中のREPTree関数は、information gainと分散の観点で分割を実行するアルゴリズムであり、C4.5 と比較して計算が早いというメリットがあるため、実用的には、こちらを用いても良い。   Next, a prediction model and a regression tree are created based on the learning data. In the regression tree, the regression tree is learned by performing a division test that minimizes the mean square error or maximizes the evaluation function based on the interclass variance. A simple method is to divide the data from the top of the tree recursively by an optimal division test based on the mutual information. ID3 uses an optimal division test in terms of mutual information (Non-Patent Document 5), and C4.5 uses a division test that optimizes the gain ratio (Non-Patent Document 6). A regression tree may be created using an algorithm. In addition, the REPTree function in the free software WEKA is an algorithm that performs division from the viewpoint of information gain and distribution, and has the advantage of faster calculation than C4.5. It may be used.

上記の学習方法で作成した回帰木は、ある時点、もしくはある時点までのユーザの特徴や影響力をもとに、未来の一定期間でユーザが引用される回数を予測するモデルである。時間t以後のどのくらいの時間範囲を考慮して目的変数を計算するかで、回帰木が引用回数を予測する時間範囲が決まる。例えば、時間t後の一週間の引用回数を考慮した場合、回帰木は一週間で期待される引用回数を予測するモデルとなる。また、ユーザ当たりではなく、コンテンツ当たりの予測引用回数としても良い。つまり、一週間で期待される引用回数を、ユーザが一週間で平均的に発信するコンテンツ数で割ったものとしても良い。   The regression tree created by the above learning method is a model that predicts the number of times a user is cited in a certain period in the future based on the user's characteristics and influence until a certain point in time. The time range in which the regression tree predicts the number of citations is determined depending on how much time range after time t is taken into consideration. For example, when the number of citations in one week after time t is considered, the regression tree is a model for predicting the number of citations expected in one week. Alternatively, the number of predicted citations per content, not per user, may be used. That is, the number of citations expected in one week may be divided by the number of contents that the user transmits on average in one week.

<話題性評価手段107>
話題性評価手段107は、引用情報記憶装置103とコンテンツ情報記憶装置104をもとに、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合に含まれる各コンテンツが、現在時刻でどの程度話題になっているかを評価する手段である。話題性評価手段107は、コンテンツ情報記憶装置104に問い合わせを行い、各コンテンツが生成された日付を取得する。次に、引用情報記憶装置103に問い合わせを行い、各コンテンツが生成された日付から現在時刻までの間で観測された引用情報をもとに、そのコンテンツの話題性を評価する。話題性評価方法の一例として、コンテンツが生成された日付から現在時刻までの間の単位時間当たりの平均引用数を話題性評価値とする方法が考えられる。今、現在時刻をt, 評価対象となるコンテンツをc、Δtをコンテンツが生成されてから現在時刻まで経過した時間、n(c,t)を現在時刻tの時点で、コンテンツcが引用された総数とすると、話題性評価値h(c,t)は以下のようになる。
h(c,t) = n(c,t)/Δt
この他にも、定常状態との差分を見る、前記非特許文献1のバーストを用いた手法など、話題性を評価する既存手法であれば何でも良い。なお、話題性評価値のスケールは、ユーザ影響力予測手段106が予測した影響力と揃える。例えば、ユーザ影響力予測手段106が一週間で期待される引用回数を予測出力する場合、話題性評価値も、単位時間を一週間とした平均引用数を出力とする。コンテンツ毎に評価した話題性評価値は、時間重み付き結合手段108へと送られる。
<Topicity evaluation means 107>
The topicality evaluation means 107 is based on the citation information storage device 103 and the content information storage device 104 and how much each content included in the content set that is the output of the evaluation target content extraction means 105 becomes a topic at the current time. It is a means to evaluate whether or not. The topicality evaluation unit 107 makes an inquiry to the content information storage device 104 and acquires the date on which each content was generated. Next, the citation information storage device 103 is inquired, and the topicality of the content is evaluated based on the citation information observed between the date when each content was generated and the current time. As an example of the topicality evaluation method, a method in which the average number of citations per unit time from the date when the content is generated to the current time is used as the topicality evaluation value can be considered. The current time is t, the content to be evaluated is c, Δt is the time elapsed since the content was generated until the current time, and n (c, t) is the current time t. Assuming the total number, the topicality evaluation value h (c, t) is as follows.
h (c, t) = n (c, t) / Δt
In addition to this, any existing method for evaluating topicality may be used, such as a method using a burst of Non-Patent Document 1 in which a difference from a steady state is observed. The scale of the topicality evaluation value is aligned with the influence predicted by the user influence prediction means 106. For example, when the user influence prediction means 106 predicts and outputs the expected number of citations per week, the topicality evaluation value is also output as the average number of citations with a unit time of one week. The topicality evaluation value evaluated for each content is sent to the time weighted combining means 108.

<時間重み付き結合手段108>
時間重み付き結合手段108は、ユーザ影響力予測手段106が算出したユーザ影響力予測値と、話題性評価手段107が算出した話題性評価値を時間重み付きで結合する手段である。この手段は、あるコンテンツが作成されてすぐの時は、ユーザ影響力予測値を評価値として重視し、あるコンテンツが作成されてから時間が経過するほど話題性評価値を重視するような関数により実現される。例えば、以下の方法で結合する方法が考えられる。
<Time Weighted Combiner 108>
The time weighted combining unit 108 is a unit that combines the user influence prediction value calculated by the user influence prediction unit 106 and the topicality evaluation value calculated by the topicality evaluation unit 107 with time weighting. This means that when a certain content is created immediately, the user influence prediction value is emphasized as an evaluation value, and a topic importance evaluation value is emphasized as time passes after the creation of a certain content. Realized. For example, a method of combining by the following method is conceivable.

今、ユーザuによって生成されたコンテンツcの現在時刻tの評価値f(c,u,t)を算出したいとする。また、ユーザ影響力予測手段106が算出した現在時刻tのユーザ影響力予測値を返す関数をg(u,t)、話題性評価手段107が算出した話題性評価値を返す関数をh(c,t)とすると、結合式は以下のようになる。   Assume that it is desired to calculate the evaluation value f (c, u, t) of the current time t of the content c generated by the user u. Further, g (u, t) is a function that returns a user influence prediction value at the current time t calculated by the user influence prediction means 106, and h (c) is a function that returns a topicality evaluation value calculated by the topicality evaluation means 107. , t), the coupling equation is as follows.

Figure 0005848199
上記の数式において、Δtはコンテンツが生成されてから現在時刻までに経過した時間、Tは時間減衰速度を決定するパラメータである。e−Δt/Tは減衰関数であり時間の経過に従って0に近づく。また、(1−e−Δt/T)は時間の経過に従って1に近づく。e−Δt/Tは減衰関数の一例であり、他の減衰関数を用いても良い。なお、時間の概念は、順序関係を表す時間インデクスをも含む概念であり、時間の経過を時間インデクスに基づく距離として時間重み付き結合手段108を実現しても良い。算出した値は、出力部109へと送られる。f(c,u,t)を計算するためのフローチャートを図2に示す。図2の手順に沿って、時間重み付き結合手段108が実行するf(c,u,t)を計算する処理を説明する。なお、以下の処理動作は一例である。また、他の実施の形態における時間重み付き結合手段の処理の流れも基本的に同様である。
Figure 0005848199
In the above equation, Δt is a time elapsed from the generation of the content to the current time, and T is a parameter for determining a time decay rate. e −Δt / T is an attenuation function and approaches 0 as time passes. Further, (1−e− Δt / T ) approaches 1 as time passes. e− Δt / T is an example of an attenuation function, and other attenuation functions may be used. Note that the concept of time is a concept including a time index representing an order relationship, and the time-weighted combining unit 108 may be realized with the passage of time as a distance based on the time index. The calculated value is sent to the output unit 109. A flow chart for calculating f (c, u, t) is shown in FIG. A process of calculating f (c, u, t) executed by the time weighted combining unit 108 will be described along the procedure of FIG. The following processing operation is an example. The processing flow of the time-weighted combining means in the other embodiments is basically the same.

まず、コンテンツ集合C、減衰パラメータT、現在時間tを取得し、入力とする(ステップ1)。コンテンツ集合Cは、話題性評価手段107から受け取ることとしてもよいし、評価対象コンテンツ抽出手段105から取得してもよい。減衰パラメータTは予め設定し、メモリ等に格納されている。現在時刻tは、装置の時計から取得してもよいし、ネットワークから取得してもよい。そして、コンテンツ集合Cの各コンテンツcについて、以下の処理を行う(S2〜S13のループ)。   First, the content set C, the attenuation parameter T, and the current time t are acquired and input (step 1). The content set C may be received from the topicality evaluation unit 107 or may be acquired from the evaluation target content extraction unit 105. The attenuation parameter T is set in advance and stored in a memory or the like. The current time t may be acquired from the clock of the device or may be acquired from the network. Then, the following processing is performed for each content c in the content set C (loop from S2 to S13).

まず、一時変数xとyを初期化する(ステップ3)。続いて、話題性評価手段107により算出された話題性評価値h(c,t)をxに代入する(ステップ4)。また、コンテンツcを作成したユーザuを取得する(ステップ5)。コンテンツcを作成したユーザuの情報は、ユーザ影響力予測手段106から受け取ることとしてもよいし、コンテンツ情報記憶装置104から取得してもよい。   First, temporary variables x and y are initialized (step 3). Subsequently, the topicality evaluation value h (c, t) calculated by the topicality evaluation means 107 is substituted for x (step 4). Also, the user u who created the content c is acquired (step 5). Information about the user u who created the content c may be received from the user influence prediction unit 106 or may be acquired from the content information storage device 104.

次に、ユーザuを解析済みかどうかをチェックし(ステップ6)、解析済みでなければステップ7に進み、解析済みであればステップ9に進む。   Next, it is checked whether or not the user u has been analyzed (step 6). If it has not been analyzed, the process proceeds to step 7, and if it has been analyzed, the process proceeds to step 9.

ユーザuを解析済みでない場合のステップ7では、ユーザ影響力予測手段106によりユーザ影響力予測値g(u,t)を算出し、算出されたユーザ影響力予測値g(u,t)をyに代入する。そして、uとyの組み合わせを記憶媒体(時間重み付き結合手段108が備えるメモリ等)に格納する(ステップ8)。   In step 7 when the user u has not been analyzed, the user influence prediction means 106 calculates the user influence prediction value g (u, t), and the calculated user influence prediction value g (u, t) is represented by y. Assign to. Then, the combination of u and y is stored in a storage medium (such as a memory provided in the time weighted combining means 108) (step 8).

ユーザuを解析済みである場合のステップ9では、 記憶媒体中のユーザuの影響力予測値をyに代入する。   In step 9 in the case where the user u has been analyzed, the influence predicted value of the user u in the storage medium is substituted for y.

続いて、コンテンツcを作成した時間tcを取得する(ステップ10)。コンテンツcを作成した時間tcは、話題性評価手段107から受け取ってもよいし、コンテンツ情報記憶装置104から取得してもよい。   Subsequently, the time tc when the content c is created is acquired (step 10). The time tc when the content c is created may be received from the topicality evaluation unit 107 or may be acquired from the content information storage device 104.

次に、t − tcをΔtに代入し(ステップ11)、前述した下記の計算を行ってf(c,u,t)を求める(ステップ12)。   Next, t−tc is substituted for Δt (step 11), and the following calculation is performed to obtain f (c, u, t) (step 12).

Figure 0005848199
<出力部109>
出力部109は、時間重み付き結合手段108の処理結果に基づき、検索部101で指定された条件を満たすコンテンツ集合を並び替えて表示出力するための機能部である。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信等を含む概念である。出力部109は、例えば、ディスプレイやスピーカ等の出力デバイスと出力デバイスのドライバソフトにより実現される。また、出力部109を、ディスプレイやスピーカ等の出力デバイスを含まない機能部としてもよい。この場合、例えば、装置外部に出力デバイスが存在し、出力部109は、出力デバイスのドライバソフトとして構成される。
Figure 0005848199
<Output unit 109>
The output unit 109 is a functional unit for rearranging and displaying the content sets satisfying the conditions specified by the search unit 101 based on the processing result of the time weighted combining unit 108. Here, output is a concept including display on a display, printing on a printer, sound output, transmission to an external device, and the like. The output unit 109 is realized by, for example, an output device such as a display or a speaker and driver software for the output device. The output unit 109 may be a functional unit that does not include an output device such as a display or a speaker. In this case, for example, an output device exists outside the apparatus, and the output unit 109 is configured as output device driver software.

(実施例)
以下、第一の実施の形態における実施例を説明する。
(Example)
Hereinafter, examples in the first embodiment will be described.

図3、図4、図5に本実施例におけるユーザ情報記憶装置102、コンテンツ情報記録装置103、引用情報記憶装置104に格納されている情報の一例を示す。   3, 4, and 5 show examples of information stored in the user information storage device 102, the content information recording device 103, and the citation information storage device 104 in this embodiment.

ユーザ情報記憶装置102に格納されている情報(図3)に関し、前記の通り、各ユーザ情報の推移を時系列的に追うことも可能である。図3のリンクという概念は、ユーザからユーザへの興味を表すものである一方、図5の引用という概念は、ユーザ(が作成したコンテンツ)からコンテンツへの興味を表す概念である。図4のコンテンツc400は、コンテンツc500の情報をテキスト中で引用しているため、図5の引用情報に格納されている。   Regarding the information stored in the user information storage device 102 (FIG. 3), as described above, the transition of each user information can be followed in time series. The concept of link in FIG. 3 represents an interest from the user to the user, while the concept of quoting in FIG. 5 represents a concept of interest from the user (content created by the user) to the content. The content c400 of FIG. 4 is stored in the citation information of FIG. 5 because the information of the content c500 is cited in the text.

<回帰木の学習データ作成例>
まず、図3、図4、図5の例を用いて、ユーザ影響力予測手段106の回帰木の学習データ作成方法を説明する。今、データを分割する日付を2012/1/15 00:00:00とする。図6は、ユーザIDがu1のユーザについて作成した学習データである。分割日付から見て最新のユーザ情報(リンク数、被リンク数、発信情報数など)を図3に示すユーザ情報から取得し、同時に、分割日付時点でユーザu1が発信したコンテンツが他のユーザに引用された総数も図4(コンテンツ情報)と図5(引用情報)に基づいて計算する。これらは、説明変数である。さらに、分割日付以降にユーザu1が発信したコンテンツが他のユーザに引用された総数を計算し、目的変数としてセットする。これを全ユーザに関して繰り返して計算するため、図6のテーブルの行数は全ユーザ数に等しくなる。なお、各変数のスケールが大きく異なる場合には、変数値の常用対数、自然対数を計算し、スケールを揃えた新たな変数値として用いても良い。
<Example of learning data for regression tree>
First, the learning data creation method of the regression tree of the user influence predicting means 106 will be described with reference to the examples of FIGS. Now, the date to divide the data is 2012/1/15 00:00:00. FIG. 6 shows learning data created for the user whose user ID is u1. The latest user information (number of links, number of links, number of outgoing information, etc.) viewed from the split date is acquired from the user information shown in FIG. 3, and at the same time, the content sent by the user u1 at the split date is sent to other users. The total number quoted is also calculated based on FIG. 4 (content information) and FIG. 5 (citation information). These are explanatory variables. Further, the total number of contents sent by the user u1 after the division date is quoted by other users is calculated and set as an objective variable. Since this is repeated for all users, the number of rows in the table of FIG. 6 is equal to the total number of users. When the scale of each variable is greatly different, the common logarithm and natural logarithm of the variable value may be calculated and used as a new variable value with the same scale.

データを分割する日付は、話題性評価手段107の出力と時間スケールを合わせて設定する。例えば、話題性評価手段107が一週間当たりの話題性評価値を算出するとした場合、回帰木も一週間当たりにユーザが引用される回数の予測値を出力するように学習する。例えば、一週間前から現在までに観測したデータを目的変数として使い、それよりも前の期間に観測したデータを説明変数として使えば良い。これにより、回帰木は、ある時点から一週間後までにユーザが引用される回数を予測するモデルとなる。   The date for dividing the data is set by combining the output of the topicality evaluation means 107 and the time scale. For example, when the topicality evaluation unit 107 calculates a topicality evaluation value per week, the regression tree also learns to output a predicted value of the number of times the user is cited per week. For example, data observed from one week ago to the present time may be used as an objective variable, and data observed during a period before that may be used as an explanatory variable. Thereby, the regression tree becomes a model for predicting the number of times the user is quoted from a certain point in time to one week later.

<話題性評価手段107の動作例>
次に、話題性評価手段107の動作を、例を用いて説明する。今、2012年1月1日 10:00:00に発信された2つのコンテンツAとBが存在したとする。2012年1月1日 12:00:00現在で、コンテンツAが他のユーザによって引用された回数は100回、コンテンツBが他のユーザによって引用された回数は10回だったとする。この場合、一時間当たりの被引用数を計算すると、コンテンツAが50回毎時、コンテンツBが5回毎時となり、話題性評価手段107はコンテンツAの話題性がコンテンツBと比べて高いと判断する。
<Example of operation of topicality evaluation means 107>
Next, the operation of the topicality evaluation unit 107 will be described using an example. Assume that there are two contents A and B that were sent on January 1, 2012 at 10:00:00. As of January 1, 2012, 12:00:00, the number of times content A was quoted by another user was 100, and the number of times content B was quoted by another user was 10. In this case, when the number of citations per hour is calculated, the content A is 50 times per hour, the content B is 5 times per hour, and the topicality evaluation means 107 determines that the topicality of the content A is higher than that of the content B. .

<時間重み付き結合手段108の動作例>
次に、時間重み付き結合手段108の動作を、例を用いて説明する。今、ユーザXが、2012年1月1日 10:00:00に発信したコンテンツAと、同時刻にユーザYが発信したコンテンツBがあったとする。減衰パラメータTは6時間、現在時刻は2012年1月1日 16:00:00とする。現在時刻の時点で、話題性評価手段107が算出したコンテンツAの話題性は15回毎時、コンテンツBの話題性も100回毎時であった。一方で、ユーザ影響力予測手段106が評価したユーザXの予測影響力は10回毎時、ユーザYの予測影響力は100回毎時であった。ここで、ユーザ影響力予測手段106の回帰木は、現在時間から一時間後のユーザ当たりの引用数を予測するように学習されていたとする。つまり、話題性評価手段107とユーザ影響力予測手段106の出力のスケールは等しい。時間重み付き結合手段108は、コンテンツが発信された時点(2012年1月1日 10:00:00)において、ユーザの影響力に基づく予測を行うため、コンテンツAの値を10、コンテンツBの値を100と評価する。こうすることで、ほとんど引用されていない情報でも、発信者の影響力に基づく予測をすることで、最終的に重要な情報を素早く発見することができる(コンテンツBの話題性は最終的に100回毎時)。
<Operation Example of Time Weighted Combining Unit 108>
Next, the operation of the time weighted combining unit 108 will be described using an example. Now, assume that there is content A sent by user X on January 1, 2012 at 10:00:00 and content B sent by user Y at the same time. The attenuation parameter T is 6 hours, and the current time is January 1, 2012, 16:00:00. At the time of the current time, the topicality of the content A calculated by the topicality evaluation means 107 is 15 times per hour, and the topicality of the content B is also 100 times per hour. On the other hand, the predicted influence of the user X evaluated by the user influence prediction means 106 is 10 times per hour, and the predicted influence of the user Y is 100 times per hour. Here, it is assumed that the regression tree of the user influence prediction means 106 has been learned so as to predict the number of citations per user one hour after the current time. That is, the scales of the outputs of the topic evaluation means 107 and the user influence prediction means 106 are equal. The time-weighted combining means 108 performs the prediction based on the influence of the user at the time when the content is transmitted (January 1, 2012 10:00:00). Evaluate the value as 100. In this way, even information that is hardly quoted can be finally discovered quickly by making a prediction based on the influence of the caller. Times every hour).

また、時間経過と予測値の変化を、実例を用いて説明する。今、ユーザXが、2012年1月1日 10:00:00に発信したコンテンツAと、同時刻にユーザYが発信したコンテンツBがあったとする。減衰パラメータTは6時間とする。また、コンテンツが発信された後、話題性評価手段107が算出したコンテンツAの話題性は常に50回毎時、コンテンツBの話題性は常に5回毎時であったとする。一方で、ユーザ影響力予測手段106がコンテンツを発信した時点で評価したユーザXの予測影響力は5回毎時、ユーザYの予測影響力は50回毎時であった。ここで、ユーザ影響力予測手段106の回帰木は、現在時間から一時間後のユーザ当たりの引用数を予測するように学習されていたとする。時間重み付き結合手段108は、コンテンツが発信された時点(2012年1月1日 10:00:00)では、ユーザの影響力に基づく予測を行うため、コンテンツAの値を5、コンテンツBの値を50と評価する。時間の経過に従い、引用数に基づく話題性評価手段107の結果に従った値を出力するようになり、6時間後には、コンテンツAの値を33.4454、コンテンツBの値を21.5546と評価する。本例における経過時間とスコアの推移を図7に示す。   Moreover, the passage of time and the change in the predicted value will be described using actual examples. Now, assume that there is content A sent by user X on January 1, 2012 at 10:00:00 and content B sent by user Y at the same time. The attenuation parameter T is 6 hours. Further, after the content is transmitted, it is assumed that the topicality of the content A calculated by the topicality evaluation unit 107 is always 50 times and the topicality of the content B is always 5 times. On the other hand, the predicted influence of the user X evaluated at the time when the user influence prediction means 106 transmits the content was 5 times per hour, and the predicted influence of the user Y was 50 times per hour. Here, it is assumed that the regression tree of the user influence prediction means 106 has been learned so as to predict the number of citations per user one hour after the current time. The time-weighted combining means 108 performs the prediction based on the influence of the user at the time when the content is transmitted (January 1, 2012 10:00:00). Evaluate the value as 50. As time elapses, a value according to the result of topicality evaluation means 107 based on the number of citations is output. After 6 hours, the value of content A is evaluated as 33.4454, and the value of content B is evaluated as 21.5546. The transition of the elapsed time and score in this example is shown in FIG.

<検索部101、出力部109の表示例>
本実施例における検索部101により表示される情報、及び出力部109により表示される情報の例を図8に示す。検索部101における表示形式は、コンテンツ情報記憶装置104の形式に応じて、検索項目を変更しても良い。出力部109は、時間重み付き結合手段108の値に応じて、コンテンツをランキング表示できる(例えば、評価値が高いほど上位に表示する)。また、コンテンツ情報記憶装置104に格納されたコンテンツの関連情報を同時に表示することが可能である。
<Display Examples of Search Unit 101 and Output Unit 109>
An example of information displayed by the search unit 101 and information displayed by the output unit 109 in this embodiment is shown in FIG. The display format in the search unit 101 may be changed according to the format of the content information storage device 104. The output unit 109 can display the rankings according to the value of the time weighted combining unit 108 (for example, the higher the evaluation value, the higher the display). Further, it is possible to simultaneously display the related information of the content stored in the content information storage device 104.

[第二の実施の形態]
以下、本装置の第二の形態について図面を参照して説明する。
[Second Embodiment]
Hereinafter, a second embodiment of the present apparatus will be described with reference to the drawings.

図9は、本発明の第二の実施の形態における情報伝搬予測装置200のブロック図である。同図に示す情報伝搬予測装置200は、検索部101、コンテンツ情報記憶装置104、引用情報記憶装置103、ユーザ情報記憶装置102、評価対象コンテンツ抽出手段105、話題性評価手段107、トピック解析手段201、トピック条件付きユーザ影響力予測手段202、時間重み付き結合手段203から構成されている。このうち、検索部101、コンテンツ情報記憶装置104、引用情報記憶装置103、ユーザ情報記憶装置102、評価対象コンテンツ抽出手段105、話題性評価手段107は第一の実施の形態と同じであり、同じ参照符号を付している。なお、トピック条件付きユーザ影響力予測手段202の中にトピック解析手段201を備える構成としてもよい。   FIG. 9 is a block diagram of an information propagation prediction apparatus 200 in the second embodiment of the present invention. The information propagation prediction apparatus 200 shown in the figure includes a search unit 101, a content information storage device 104, a citation information storage device 103, a user information storage device 102, an evaluation target content extraction unit 105, a topic evaluation unit 107, and a topic analysis unit 201. , The user influence predicting unit 202 with topic condition, and the combining unit 203 with time weight. Among these, the search unit 101, the content information storage device 104, the citation information storage device 103, the user information storage device 102, the evaluation target content extraction unit 105, and the topicality evaluation unit 107 are the same as in the first embodiment. Reference numerals are attached. In addition, it is good also as a structure provided with the topic analysis means 201 in the user influence prediction means 202 with a topic condition.

<トピック解析手段201>
トピック解析手段201は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合の各コンテンツから、「政治」、「経済」、「スポーツ」など、該コンテンツが何のトピックに関して発信された情報なのかを抽出する。トピックの解析は、教師付きでコンテンツをトピックに分類するSVMや教師なしでコンテンツをトピックに分類するPLSA、LDAなど、既存のトピック解析器であれば何を使って実現しても良い。コンテンツから抽出したトピック情報は、トピック条件付きユーザ影響力予測手段202へと送信される。
<Topic analysis means 201>
The topic analysis unit 201 determines what topic the content is transmitted from, for example, “politics”, “economics”, “sports”, etc., from each content of the content set that is the output of the evaluation target content extraction unit 105. Extract. Topic analysis can be realized using any existing topic analyzer such as SVM that classifies content into topics with supervising, PLSA or LDA that classifies content into topics without supervision. The topic information extracted from the content is transmitted to the topic conditional user influence predicting means 202.

<トピック条件付きユーザ影響力予測手段202>
トピック条件付きユーザ影響力予測手段202は、評価対象コンテンツ抽出手段105の出力である各コンテンツを発信したユーザの、該コンテンツが属するトピックにおける未来の影響力を予測する手段である。トピック条件付きユーザ影響力予測手段202は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合の各コンテンツに対して、以下の操作を繰り返す。
<Topic Conditional User Impact Prediction Unit 202>
The user condition predicting means 202 with topic condition is a means for predicting the future influence on the topic to which the content belongs by the user who transmitted each content that is the output of the evaluation target content extracting means 105. The user influence prediction unit with topic condition 202 repeats the following operation for each content in the content set that is the output of the evaluation target content extraction unit 105.

トピック条件付きユーザ影響力予測手段202は、ユーザ情報記憶装置102に問い合わせを行い、該コンテンツを発信したユーザを取得する。次に該ユーザのトピック非依存なユーザ特徴量を抽出する。トピック非依存な特徴量は、ユーザ情報記憶装置102に記憶されている、最新のリンク数、被リンク数、発信情報数等である。次に、該コンテンツが属するトピックにおける、該ユーザの過去の実績を示すトピック依存なユーザ特徴量を抽出する。具体的には、コンテンツ情報記憶装置104、及び、引用情報記憶装置103に問い合わせを行い、過去に、各ユーザが該トピックに関して生成したコンテンツが他のユーザに引用された回数の合計、過去一ヶ月間で各ユーザが該トピックに関して生成したコンテンツが他のユーザに引用された回数の合計、各ユーザが該トピックに関して1つの投稿を行ったときに他のユーザに引用された平均回数等の統計量を計算し、各ユーザのトピック依存な特徴量とする。   The user influence prediction means 202 with topic condition makes an inquiry to the user information storage device 102 and acquires the user who transmitted the content. Next, the user feature amount independent of the topic of the user is extracted. The topic-independent feature amounts are the latest number of links, the number of links, the number of transmitted information, etc. stored in the user information storage device 102. Next, a topic-dependent user feature quantity indicating the past performance of the user in the topic to which the content belongs is extracted. Specifically, the content information storage device 104 and the citation information storage device 103 are inquired, and the total number of times the content generated by each user regarding the topic is cited by other users in the past, the past month Statistics such as the total number of times the content generated by each user regarding the topic was quoted by other users, and the average number of times each user cited one post regarding the topic Is calculated as a topic-dependent feature quantity for each user.

コンテンツ情報記憶装置104の各コンテンツ情報がトピック属性を既に持っている場合(例えば、図10に示すようなデータの場合)は、各ユーザが該トピックに関して発信したコンテンツ集合を取得し、そのコンテンツ集合から引用回数等を集計することで前記の処理を実現できる。コンテンツ情報記憶装置104の各コンテンツ情報がトピック属性を持っていない場合は、トピック解析手段201を用いて、各コンテンツのトピック情報を各コンテンツに付与するステップを追加する。   When each piece of content information in the content information storage device 104 already has a topic attribute (for example, in the case of data as shown in FIG. 10), a content set transmitted by each user regarding the topic is acquired, and the content set From the above, the above processing can be realized by counting the number of citations. If each piece of content information in the content information storage device 104 does not have a topic attribute, a step of adding topic information of each piece of content to each piece of content using the topic analysis unit 201 is added.

最後に、これらの過去の特徴量をもとに、未来の一定期間で各ユーザがあるトピックに関して引用される総数を予測する。第一の実施の形態と同様に、過去の特徴量を入力とし、未来の一定期間で引用される総数を予測し、出力するモデルは、回帰木など、機械学習分野における既存の予測モデルを用いて構成し得る。回帰木は説明変数の値をもとに、目的変数の実数値を予測するモデルである。つまり、本装置においては、これまでにわかっているユーザ特徴量(説明変数)をもとに、未来の一定期間でユーザが引用される回数(目的変数)を予測する。第一の実施の形態のユーザ影響力予測手段106と同様、どの期間における引用回数を予測するかは回帰木の学習方法に依存するが、話題性抽出手段107の時間スケールと揃えて設定する必要がある。トピック条件付きユーザ影響力予測値は、時間重み付き結合手段203へと送られる。また、ユーザ当たりではなく、(ユーザかつ)コンテンツ当たりの予測引用回数としても良い。例えば、一週間で期待されるユーザ当たりの引用回数を算出後、その値をユーザが一週間で平均的に発信するコンテンツ数で割った値を採用しても良い。   Finally, based on these past feature quantities, the total number quoted for a certain topic for each user over a certain period in the future is predicted. Similar to the first embodiment, the past feature quantity is input, the total number quoted in a fixed period in the future is predicted, and the output model is an existing prediction model in the machine learning field such as a regression tree. Can be configured. The regression tree is a model that predicts the real value of the objective variable based on the value of the explanatory variable. That is, in this apparatus, the number of times a user is cited (objective variable) in a future fixed period is predicted based on the user feature value (explanatory variable) known so far. Similar to the user influence prediction unit 106 of the first embodiment, the number of citations in which period is predicted depends on the learning method of the regression tree, but needs to be set in accordance with the time scale of the topic extraction unit 107. There is. The topic condition-based user influence prediction value is sent to the time-weighted combining unit 203. Moreover, it is good also as the estimated frequency | count of quotation per content (user and) instead of per user. For example, a value obtained by calculating the number of citations per user expected in one week and dividing the value by the number of contents that the user transmits on average in one week may be adopted.

なお、第一の実施の形態と同様、回帰木などの予測モデルの学習フェーズは、予測フェーズの事前処理として行う。予測モデルの生成は、全データを用いて行っても良いし、トピック毎のデータを用いて行ってもどちらでも良い。   Note that, as in the first embodiment, the learning phase of a prediction model such as a regression tree is performed as a preliminary process of the prediction phase. The generation of the prediction model may be performed using all data, or may be performed using data for each topic.

<時間重み付き結合手段203>
第二の実施の形態における時間重み付き結合手段203は、トピック条件付きユーザ影響力予測手段202が算出したトピック条件付きユーザ影響力と、話題性評価手段107が算出した話題性評価値を時間重み付きで結合する手段である。この手段は、第一の実施の形態と同様に、あるコンテンツが作成されてすぐの時は、トピック条件付きユーザ影響力予測値を重視し、あるコンテンツが作成されてから時間が経過するほど話題性評価値を重視するような関数により実現される。例えば、以下の方法で結合する方法が考えられる。今、ユーザuによって生成されたコンテンツcの現在時刻tの評価値f(c,u,t)を算出したいとする。前記トピック解析手段201の結果、コンテンツcが属するトピックはzcであった。トピック条件付きユーザ影響力予測手段202が算出した現在時刻tのトピックzにおけるトピック条件付きユーザ影響力予測値を返す関数をg(u,t,z)、話題性評価手段107が算出した話題性評価値を返す関数をh(c,t)とする。この場合、結合式は以下のようになる。
<Time Weighted Combiner 203>
The time weighted combining unit 203 in the second embodiment uses the topic condition user influence calculated by the topic condition user influence prediction unit 202 and the topicality evaluation value calculated by the topicality evaluation unit 107 as a time weight. It is a means of joining. As in the first embodiment, this means that, when a certain content is created, the user influence predicted value with a topic condition is regarded as important, and the topic becomes so long that a certain content has been created. This is realized by a function that places importance on the sex evaluation value. For example, a method of combining by the following method is conceivable. Assume that it is desired to calculate the evaluation value f (c, u, t) of the current time t of the content c generated by the user u. As a result of the topic analysis means 201, the topic to which the content c belongs is z c . G (u, t, z) is a function that returns a topic conditional user influence prediction value at topic z at the current time t calculated by the topic conditional user influence prediction means 202, and the topicality calculated by the topicality evaluation means 107. Let h (c, t) be a function that returns an evaluation value. In this case, the coupling formula is as follows.

Figure 0005848199
上記の数式におけるΔtはコンテンツが生成されてから現在時刻まで経過した時間、Tは時間減衰速度を決定するパラメータである。e−Δt/Tは減衰関数であり時間の経過に従って0に近づく。なお、時間の概念は、順序関係を表す時間インデクスをも含む概念であり、時間の経過を時間インデクスに基づく距離として時間重み付き結合手段203を実現しても良い。算出した値は、出力部109へと送られる。
Figure 0005848199
In the above equation, Δt is a time elapsed from the generation of the content to the current time, and T is a parameter for determining a time decay rate. e −Δt / T is an attenuation function and approaches 0 as time passes. Note that the concept of time is a concept that also includes a time index that represents an order relationship, and the time-weighted combining unit 203 may be realized with the passage of time as a distance based on the time index. The calculated value is sent to the output unit 109.

第一の実施の形態と比べた場合の第二の実施の形態の特徴は、トピック毎のユーザ影響力を考慮する点である。これによって、ある情報発信者が、過去に活躍したトピック(政治家なら政治トピック)と同じ、あるいは近いコンテンツを発信した場合にそのコンテンツの価値を高いと判定し、過去に活躍していないトピックと同じ、あるいは近いコンテンツを発信した場合にそのコンテンツの価値は低いと判定する。   The feature of the second embodiment compared to the first embodiment is that the user influence for each topic is taken into consideration. As a result, when an information sender sends content that is the same as or close to a topic that has been active in the past (politics if it is a politician), the content is judged to have a high value, and the topic has not been active in the past. When the same or similar content is transmitted, it is determined that the value of the content is low.

[第三の実施の形態]
以下、本装置の第三の形態について図面を参照して説明する。
[Third embodiment]
Hereinafter, a third embodiment of the present apparatus will be described with reference to the drawings.

図11は、本発明の第三の実施の形態における情報伝搬予測装置300のブロック図である。同図に示す情報伝搬予測装置300は、検索部101、コンテンツ情報記憶装置104、引用情報記憶装置103、ユーザ情報記憶装置102、評価対象コンテンツ抽出手段105、話題性評価手段107、トピック解析手段201、トピック条件付きユーザ影響力予測手段202、コンテンツ特徴抽出手段301、コンテンツ特徴による影響力予測手段302、時間重み付き結合手段303から構成されている。このうち、検索部101、コンテンツ情報記憶装置104、引用情報記憶装置103、ユーザ情報記憶装置102、評価対象コンテンツ抽出手段105、話題性評価手段107、トピック解析手段201、トピック条件付きユーザ影響力予測手段202は第二の実施の形態と同じである。   FIG. 11 is a block diagram of an information propagation prediction apparatus 300 in the third embodiment of the present invention. The information propagation prediction apparatus 300 shown in the figure includes a search unit 101, a content information storage device 104, a citation information storage device 103, a user information storage device 102, an evaluation target content extraction unit 105, a topic evaluation unit 107, and a topic analysis unit 201. , A topic condition-based user influence prediction means 202, a content feature extraction means 301, a content feature influence influence prediction means 302, and a time weighted combination means 303. Among these, the search unit 101, the content information storage device 104, the citation information storage device 103, the user information storage device 102, the evaluation target content extraction unit 105, the topicality evaluation unit 107, the topic analysis unit 201, and topic influence user influence prediction The means 202 is the same as in the second embodiment.

<コンテンツ特徴抽出手段301>
コンテンツ特徴抽出手段301は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合の各コンテンツを対象に、各コンテンツの特徴量を抽出する。コンテンツ自身の特徴とは、作成した日付や、コンテンツがテキストの場合は、そのテキストを解析することで得られる文書長などの統計量、画像であれば色特徴やSIFT-BoW 特徴などの画像特徴量、文書中にURLを含むかといった情報などである。Twitter(登録商標)データなどの特定のデータを用いる場合は、ユーザからユーザへの返信を示す記号である@を含むかといった当該サービスに特有な情報を使っても良い。コンテンツ情報記憶装置104にコンテンツID集合をもとに問い合わせを行い、これらのコンテンツの情報を取得し、基本統計量の抽出を行う。また、前記のトピック解析手段201を利用し、そのコンテンツが「政治経済」、「スポーツ」など、何のトピックに関して発信された情報なのかも抽出し、コンテンツ特徴としても良い。抽出したコンテンツ特徴は、コンテンツ特徴量による影響力予測手段302へと送信される。
<Content Feature Extraction Unit 301>
The content feature extraction unit 301 extracts the feature amount of each content for each content of the content set that is the output of the evaluation target content extraction unit 105. The characteristics of the content itself are the date of creation, if the content is text, statistics such as the document length obtained by analyzing the text, and if it is an image, image features such as color features and SIFT-BoW features Information such as the amount and whether the URL is included in the document. When using specific data such as Twitter (registered trademark) data, information specific to the service, such as whether or not it is a symbol indicating a reply from the user to the user, may be used. An inquiry is made to the content information storage device 104 based on the set of content IDs, information about these contents is acquired, and basic statistics are extracted. In addition, the topic analysis unit 201 may be used to extract information about what topic, such as “political economy” or “sports”, and may be used as a content feature. The extracted content feature is transmitted to the influence predicting means 302 based on the content feature amount.

<コンテンツ特徴量による影響力予測手段302>
コンテンツ特徴量による影響力予測手段302は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合の各コンテンツを対象に、前記コンテンツ特徴抽出手段301で得られた各コンテンツ自身のコンテンツ特徴量をもとに、そのコンテンツが将来的にどの程度引用されるかを予測する手段である。コンテンツの特徴量を入力とし、未来の一定期間で引用される総数を予測し、出力するモデルは、ユーザ影響力予測手段106等と同様、回帰木など、機械学習分野における既存の予測モデルを用いて構成し得る。コンテンツ影響力の予測値は、時間重み付き結合手段303へと送られる。
<Influence Predicting Means 302 Based on Content Feature Amount>
The influence predicting means 302 based on the content feature amount is based on the content feature amount of each content itself obtained by the content feature extraction means 301 for each content of the content set that is the output of the evaluation target content extraction means 105. In addition, it is a means for predicting how much the content will be cited in the future. The model that predicts the total number quoted in a certain period in the future with the feature amount of the content as input, and uses the existing prediction model in the machine learning field such as regression tree as the user influence prediction means 106 and the like. Can be configured. The predicted value of the content influence is sent to the time weighted combining unit 303.

以下、本実施の形態における回帰木学習のための学習データの作成について説明する。なお、前述したとおり、学習データ作成を含む学習フェーズは事前処理として行い、事前処理で得られた回帰木データはメモリ等の記憶手段に格納され、予測フェーズで参照される。   Hereinafter, creation of learning data for regression tree learning in the present embodiment will be described. As described above, the learning phase including learning data creation is performed as pre-processing, and the regression tree data obtained by the pre-processing is stored in a storage unit such as a memory and referred to in the prediction phase.

最初に、コンテンツ情報記憶装置104に格納されているコンテンツ集合を取得する。   First, a content set stored in the content information storage device 104 is acquired.

次に、コンテンツ特徴抽出手段301を用いて、各コンテンツに関する、前記コンテンツ自身の特徴を抽出し、説明変数とする。同時に、引用情報記憶装置103に問い合わせを行い、該コンテンツが発信された時間から一定期間の間で引用された回数を算出し、目的変数とする。コンテンツ集合中の各コンテンツを、説明変数と目的変数との組み合わせとから成る情報へと変換した後、全コンテンツ情報をもとに、回帰木を作成する。回帰木の学習方法は、前記第一の実施の形態のユーザ影響力予測手段106での説明と同様である。上記の学習方法で作成した回帰木は、あるコンテンツが発信されてから、未来の一定期間で該コンテンツが引用される回数を予測するモデルである。目的変数を、コンテンツが発信されてから一週間後の引用回数とした場合、作成した回帰木は、発信されてから一週間後の該コンテンツの引用回数を予測するモデルとなる。なお、"一週間"などのパラメータは、ユーザ影響力予測手段202や話題性評価手段107の出力に合わせて設定する。例えば、ユーザ影響力予測手段202が、"一ヶ月間"の引用回数を予測するモデルとした場合、コンテンツ特徴量による影響力予測手段302も、コンテンツが発信されてから"一ヶ月間"で引用される回数を予測するモデルを学習とする。つまり、目的変数を、コンテンツが発信されてから一ヶ月後の引用回数とする。   Next, using the content feature extraction unit 301, the features of the content itself regarding each content are extracted and used as explanatory variables. At the same time, an inquiry is made to the citation information storage device 103, and the number of times that the content is quoted within a certain period from the time when the content is transmitted is calculated as an objective variable. After each content in the content set is converted into information consisting of a combination of explanatory variables and objective variables, a regression tree is created based on all content information. The learning method of the regression tree is the same as that described in the user influence prediction unit 106 of the first embodiment. The regression tree created by the above learning method is a model that predicts the number of times the content is cited in a certain period in the future after a certain content is transmitted. When the objective variable is the number of citations one week after the content is transmitted, the created regression tree becomes a model for predicting the number of citations of the content one week after the content is transmitted. It should be noted that parameters such as “one week” are set in accordance with the outputs of the user influence prediction means 202 and the topicality evaluation means 107. For example, when the user influence predicting means 202 is a model that predicts the number of citations for “one month”, the influence predicting means 302 based on the content feature amount is also quoted “one month” after the content is transmitted. Learning is a model that predicts the number of times that is performed. That is, the objective variable is the number of citations one month after the content is transmitted.

<時間重み付き結合手段303>
本実施の形態における時間重み付き結合手段303は、トピック条件付きユーザ影響力予測手段202が算出したトピック条件付きユーザ影響力と、話題性評価手段107が算出した話題性評価値と、コンテンツ特徴量による影響力予測手段302が算出したコンテンツ特徴量による予測影響力を時間重み付きで結合する手段である。当該手段は、あるコンテンツが作成されてすぐの時は、トピック条件付きユーザ影響力予測値とコンテンツ特徴量による予測影響力を評価値として重視し、あるコンテンツが作成されてから時間が経過するほど話題性評価値を重視するような関数により実現される。例えば、以下の方法で結合する方法が考えられる。
<Time weighted combining means 303>
The time-weighted combining unit 303 according to the present embodiment includes the topic condition user influence calculated by the topic condition user influence prediction unit 202, the topicality evaluation value calculated by the topicality evaluation unit 107, and the content feature amount. This is a means for combining the predicted influence by the content feature amount calculated by the influence prediction means 302 with time weighting. As soon as a certain content is created, the means attaches importance to the predicted user influence value with topic condition and the predicted influence based on the content feature amount as an evaluation value. This is realized by a function that places importance on the topical evaluation value. For example, a method of combining by the following method is conceivable.

今、ユーザuによって生成されたコンテンツcの現在時刻tの評価値f(c,u,t)を算出したいとする。前記トピック解析手段201の結果、コンテンツcのトピックはzcであった。また、トピック条件付きユーザ影響力予測手段202が算出した現在時刻tのトピックzにおけるトピック条件付きユーザ影響力予測値を返す関数をg(u,t,z)、話題性評価手段107が算出した話題性評価値を返す関数をh(c,t)、コンテンツ特徴量による影響力予測手段302が算出したコンテンツ特徴量による予測影響力を返す関数をi(c)とすると、例えば、結合式は以下のようになる。 Assume that it is desired to calculate the evaluation value f (c, u, t) of the current time t of the content c generated by the user u. Results of the topic analysis unit 201, the topic of the content c was z c. Also, g (u, t, z) is a function that returns a topic conditional user influence prediction value for topic z at the current time t calculated by the topic conditional user influence prediction means 202, and the topicality evaluation means 107 calculates. If the function that returns the topicality evaluation value is h (c, t) and the function that returns the predicted influence by the content feature amount calculated by the content feature amount influence prediction unit 302 is i (c), for example, It becomes as follows.

Figure 0005848199
上記の数式において、Δtはコンテンツが生成されてから現在時刻まで経過した時間、Tは時間減衰速度を決定するパラメータである。e−Δt/Tは減衰関数であり時間の経過に従って0に近づく。なお、関数g、関数i、関数hの出力のスケールは等しい。つまり、同じ時間区間での引用予測値を出力する。また、以下のような結合式で時間重み付き結合手段303を実現しても良い。
Figure 0005848199
In the above equation, Δt is a time elapsed from the generation of content to the current time, and T is a parameter for determining a time decay rate. e −Δt / T is an attenuation function and approaches 0 as time passes. Note that the scales of the outputs of the function g, the function i, and the function h are equal. That is, the quote prediction value in the same time interval is output. Further, the time weighted combining means 303 may be realized by the following combining formula.

Figure 0005848199
ただし、この式で求める場合、関数g、関数i、関数hが0から1の値を出力するように、正規化を施す必要がある。なお、時間の概念は、順序関係を表す時間インデクスをも含む概念であり、時間の経過を時間インデクスに基づく距離として時間重み付き結合手段303を実現しても良い。算出した値は、出力部109へと送られる。
Figure 0005848199
However, when this formula is used, it is necessary to normalize so that the function g, function i, and function h output values from 0 to 1. Note that the concept of time is a concept that also includes a time index representing an order relationship, and the time-weighted combining unit 303 may be realized with the passage of time as a distance based on the time index. The calculated value is sent to the output unit 109.

第三の実施の形態の特徴は、コンテンツ自体の特徴を考慮する点である。これによって、「挨拶」や「独り言」のようなコンテンツを排除し、意見やレビューなど、内容の濃いツイートを積極的に評価することができる。なお、第三の実施の形態は、第二の実施の形態に対してコンテンツ特徴抽出手段301、及びコンテンツ特徴による影響力予測手段302を付加した形態であるが、第一の実施の形態に、コンテンツ特徴抽出手段301、及びコンテンツ特徴による影響力予測手段302を付加し、上記と同様にしてコンテンツ自体の特徴を考慮した評価を行うこととしてもよい。   The feature of the third embodiment is that the feature of the content itself is taken into consideration. As a result, content such as “greeting” and “self-speaking” can be excluded, and tweets with deep contents such as opinions and reviews can be positively evaluated. In the third embodiment, content feature extraction means 301 and influence prediction means 302 based on content features are added to the second embodiment. The content feature extraction unit 301 and the content feature influence prediction unit 302 may be added, and evaluation may be performed in consideration of the feature of the content itself in the same manner as described above.

(実施の形態のまとめ)
これまでに説明したように、本発明の第一の実施の形態によれば、ある人物がソーシャルメディア上で発信したコンテンツが将来的に何人の人々に到達するかを予測する影響力予測装置が提供される。当該影響力予測装置は、情報発信者の過去、または現時点の実績を示すユーザ特徴量をもとに、該情報発信者の未来の影響力を予測するユーザ影響力予測手段と、発信されたコンテンツの現時点での話題性を話題性評価値として求める話題性評価手段と、
コンテンツが発信されてから間もない時点では、前記ユーザ影響力予測手段で求めた、該コンテンツを発信した情報発信者の未来の影響力に基づいてコンテンツの未来の影響力を予測し、コンテンツが発信されてから時間が経過するほど、前記話題性評価手段で求めた該コンテンツの話題性評価値に基づいてコンテンツの未来の影響力を予測する時間重み付き結合手段と、を有する。
(Summary of embodiment)
As described above, according to the first embodiment of the present invention, there is an influence prediction device that predicts how many people a content sent by a person on social media will reach in the future. Provided. The influence prediction device includes a user influence prediction unit that predicts a future influence of the information sender based on a user feature amount indicating the past or current performance of the information sender, and transmitted content. Topicity evaluation means for determining the current topicality as a topicality evaluation value,
At a point in time immediately after the content is transmitted, the future influence of the content is predicted based on the future influence of the information sender who has transmitted the content, which is obtained by the user influence prediction means, A time-weighted combining unit that predicts the future influence of the content based on the topical evaluation value of the content obtained by the topical evaluation unit as time elapses from the transmission.

また、本発明の第二の実施の形態によれば、ある人物がソーシャルメディア上で発信したコンテンツが将来的に何人の人々に到達するかを予測する影響力予測装置であって、発信されたコンテンツの現時点での話題性を話題性評価値として求める話題性評価手段と、コンテンツが何のトピックに関して発信された情報なのかを解析するトピック解析手段と、前記トピック解析手段で抽出した該トピックにおける、情報発信者の過去、または現時点の実績を示すトピック依存のユーザ特徴量をもとに、該情報発信者の該トピックにおける未来の影響力を予測するトピック条件付きユーザ影響力予測手段と、コンテンツが発信されてから間もない時点では、前記トピック条件付きユーザ影響力予測手段で求めた該コンテンツを発信した情報発信者の該トピックにおける未来の影響力に基づいてコンテンツの未来の影響力を予測し、コンテンツが発信されてから時間が経過するほど、前記話題性評価手段で求めた該コンテンツの話題性評価値に基づいてコンテンツの未来の影響力を予測する時間重み付き結合手段と、を有する影響力予測装置が提供される。   In addition, according to the second embodiment of the present invention, there is provided an influence prediction device that predicts how many people a content sent by a person on social media will reach in the future. Topicity evaluation means for determining the current topicality of content as a topicality evaluation value, topic analysis means for analyzing what topic the content is transmitted about, and the topic extracted by the topic analysis means A topic-conditional user influence predicting means for predicting the future influence of the information sender on the topic based on a topic-dependent user feature amount indicating the past or present performance of the information sender, and content Information sender who sent the content obtained by the topic conditional user influence predicting means at a short time after the message was sent The future influence of the content is predicted based on the future influence on the topic, and based on the topicality evaluation value of the content obtained by the topicality evaluation means as time elapses after the content is transmitted. There is provided an impact prediction device having time-weighted combining means for predicting the future impact of content.

また、本発明の第三の実施の形態によれば、ある人物がソーシャルメディア上で発信したコンテンツが将来的に何人の人々に到達するかを予測する影響力予測装置であって、発信されたコンテンツの現時点での話題性を話題性評価値として求める話題性評価手段と、コンテンツが何のトピックに関して発信された情報なのかを解析するトピック解析手段と、前記トピック解析手段で抽出した該トピックにおける、情報発信者の過去、または現時点の実績を示すトピック依存のユーザ特徴量をもとに、該情報発信者の該トピックにおける未来の影響力を予測するトピック条件付きユーザ影響力予測手段と、コンテンツ自身の特徴量を抽出するコンテンツ特徴抽出手段と、前記コンテンツ特徴抽出手段が抽出したコンテンツ特徴量をもとに、そのコンテンツが将来的に何人の人々に到達するかを予測するコンテンツ特徴量による影響力予測手段と、コンテンツが発信されてから間もない時点では、前記トピック条件付きユーザ影響力予測手段で求めた該コンテンツを発信した情報発信者の該トピックにおける未来の影響力と、前記コンテンツ特徴量による影響力予測手段で求めた該コンテンツ自身の影響力に基づいてコンテンツの未来の影響力を予測し、コンテンツが発信されてから時間が経過するほど、前記話題性評価手段で求めた該コンテンツの話題性評価値に基づいてコンテンツの未来の影響力を予測する時間重み付き結合手段と、を有する影響力予測装置が提供される。   In addition, according to the third embodiment of the present invention, there is provided an influence predicting device that predicts how many people a content sent by a person on social media will reach in the future. Topicity evaluation means for determining the current topicality of content as a topicality evaluation value, topic analysis means for analyzing what topic the content is transmitted about, and the topic extracted by the topic analysis means A topic-conditional user influence predicting means for predicting the future influence of the information sender on the topic based on a topic-dependent user feature amount indicating the past or present performance of the information sender, and content Based on content feature extraction means for extracting its own feature quantity and the content feature quantity extracted by the content feature extraction means, The impact prediction means based on the content feature amount that predicts how many people the content will reach in the future, and the topic conditional user impact prediction means at the time immediately after the content is transmitted The future influence of the content is predicted based on the future influence on the topic of the information sender who sent the content, and the influence of the content itself obtained by the influence prediction means based on the content feature amount. A time-weighted combining unit that predicts the future influence of the content based on the topical evaluation value of the content obtained by the topical evaluation unit as time elapses from the transmission. Is provided.

上記の各影響力予測装置において、影響力を予測したいコンテンツを絞り込むための条件を指定する評価対象コンテンツ抽出手段を備えてもよい。また、ユーザ影響力予測手段は、例えば、現時点で何人の人に興味を持たれているかを基に求めた統計量、もしくは、過去に発信したコンテンツが何人の人々に到達したかを基に求めた統計量のいずれかを、情報発信者の未来の影響力を予測するためのユーザ特徴量として用いる。   Each of the influence prediction apparatuses described above may include an evaluation target content extraction unit that specifies conditions for narrowing down the content for which influence is to be predicted. In addition, the user influence prediction means is calculated based on, for example, a statistic obtained based on how many people are interested in the current time, or on how many people the content transmitted in the past has reached. One of the statistics is used as a user feature for predicting the future influence of the information sender.

また、話題性評価手段は、例えば、発信されたコンテンツが現時点で何人の人々に到達しているかを基に求めた統計量、もしくは、人々に到達する時間間隔を基に求めた統計量のいずれかをもとに、話題性評価値を求める。   In addition, the topicality evaluation means may be, for example, either a statistic obtained based on how many people the transmitted content reaches at the present time, or a statistic obtained based on the time interval to reach the people. Based on the above, the topicality evaluation value is obtained.

また、トピック条件付きユーザ影響力予測手段は、例えば、現時点で何人の人に興味を持たれているかを基に求めた統計量、もしくは、該トピックに関して情報発信者が過去に発信したコンテンツが、何人の人々に到達したかを基に求めた統計量のいずれかを、該情報発信者の該トピックにおける未来の影響力を予測するためのユーザ特徴量として用いる。   In addition, the topic condition user influence prediction means, for example, the statistics obtained based on how many people are interested in the current time, or the content sent by the information sender in the past regarding the topic, Any of the statistics obtained based on how many people have been reached is used as a user feature for predicting the future influence of the information sender on the topic.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.

100 情報伝搬予測装置
101 検索部
102 ユーザ情報記憶装置
103 引用情報記憶装置
104 コンテンツ情報記憶装置
105 評価対象コンテンツ抽出手段
106 ユーザ影響力予測手段
107 話題性評価手段
108 時間重み付き結合手段
109 出力部
201 トピック解析手段
202 トピック条件付きユーザ影響力予測手段
203 時間重み付き結合手段
301 コンテンツ特徴抽出手段
302 コンテンツ特徴による影響力予測手段
303 時間重み付き結合手段
DESCRIPTION OF SYMBOLS 100 Information propagation prediction apparatus 101 Search part 102 User information storage apparatus 103 Citation information storage apparatus 104 Content information storage apparatus 105 Evaluation object content extraction means 106 User influence prediction means 107 Topicity evaluation means 108 Time weighted combination means 109 Output section 201 Topic analysis means 202 Topic conditional user influence prediction means 203 Time weighted combination means 301 Content feature extraction means 302 Content feature influence prediction means 303 Time weighted combination means

Claims (7)

ソーシャルメディア上で発信されたコンテンツの現時点での将来的な影響力を示す評価値を算出する影響力予測装置であって、
ソーシャルメディア上でのユーザ間のリンクに関する情報を含むユーザ情報を格納したユーザ情報記憶装置、及びコンテンツ間の互いの引用状況を示す引用情報を格納した引用情報記憶装置のそれぞれから、前記コンテンツを発信したユーザである発信ユーザについての特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記発信ユーザの現時点での将来的な影響力を示す影響力評価値を求める影響力予測手段と、
前記発信ユーザにより発信された前記コンテンツが生成されてから現時点までの間の単位時間当たりの当該コンテンツの平均引用数を、当該コンテンツの現時点での話題性を示す話題性評価値として求める話題性評価手段と、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する時間重み付き結合手段と、
を有することを特徴とする影響力予測装置。
An impact prediction device that calculates an evaluation value that indicates the current impact of content sent on social media,
The content is transmitted from each of a user information storage device storing user information including information related to a link between users on social media, and a citation information storage device storing citation information indicating mutual citation status between contents. The influence which calculates | requires the influence evaluation value which shows the future influence of the said transmission user at the present time by acquiring the feature-value about the transmission user who is a user and using a prediction model based on the said feature-value Prediction means;
Topicity evaluation for obtaining the average number of citations of the content per unit time from the generation of the content transmitted by the transmitting user to the present time as the topicality evaluation value indicating the topicality of the content at the current time Means,
A weight at the present time calculated so that the elapsed time from the time when the content is transmitted to the present time becomes smaller is added to the influence evaluation value, and the weight is calculated so as to increase as the elapsed time becomes larger. And adding a weight to the topic evaluation value, and calculating a comprehensive evaluation value indicating the future influence of the content from the weighted influence evaluation value and the topic evaluation value. Time-weighted combining means to output
The influence prediction apparatus characterized by having.
前記影響力予測手段は、前記発信ユーザにより発信された前記コンテンツのトピックを抽出するトピック抽出手段を有し、当該影響力予測手段は、前記引用情報記憶装置から当該トピック抽出手段により抽出された前記トピックにおける前記発信ユーザの特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記トピックにおける前記発信ユーザの現時点での将来的な影響力を示す評価値を前記影響力評価値として算出する
ことを特徴とする請求項1に記載の影響力予測装置。
The influence prediction means includes topic extraction means for extracting a topic of the content transmitted by the transmission user, and the influence prediction means is extracted from the citation information storage device by the topic extraction means. The feature value of the calling user in the topic is acquired, and based on the feature value, the prediction value is used to obtain an evaluation value indicating the future influence of the calling user in the topic at the present time. It calculates as a value. The influence prediction apparatus of Claim 1 characterized by the above-mentioned.
前記影響力予測装置は、
前記発信ユーザにより発信された前記コンテンツの特徴量を抽出するコンテンツ特徴量抽出手段と、
前記コンテンツ特徴量抽出手段により抽出された前記コンテンツの特徴量に基づいて、予測モデルを用いることにより、当該コンテンツの将来的な影響力を示すコンテンツ影響力評価値を算出するコンテンツ影響力予測手段と、
を更に備え、
前記時間重み付き結合手段は、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値及び前記コンテンツ影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記コンテンツ影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する
ことを特徴とする請求項1又は2に記載の影響力予測装置。
The influence prediction device
Content feature amount extraction means for extracting feature amounts of the content transmitted by the transmitting user;
Content impact prediction means for calculating a content impact evaluation value indicating a future impact of the content by using a prediction model based on the content feature amount extracted by the content feature amount extraction means; ,
Further comprising
The time weighted combining means is:
A weight at the present time calculated so as to decrease as the elapsed time from when the content is transmitted to the present time becomes larger is added to the influence evaluation value and the content influence evaluation value, and the elapsed time is increased. The weight at the present time calculated so as to become larger is added to the topical evaluation value, and the content evaluation is performed from the weighted influence evaluation value, the content influence evaluation value, and the topicality evaluation value. The influence evaluation apparatus according to claim 1, wherein a comprehensive evaluation value indicating a future influence of is calculated and output.
ソーシャルメディア上で発信されたコンテンツの現時点での将来的な影響力を示す評価値を算出する影響力予測装置が実行する影響力予測方法であって、
ソーシャルメディア上でのユーザ間のリンクに関する情報を含むユーザ情報を格納したユーザ情報記憶装置、及びコンテンツ間の互いの引用状況を示す引用情報を格納した引用情報記憶装置のそれぞれから、前記コンテンツを発信したユーザである発信ユーザについての特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記発信ユーザの現時点での将来的な影響力を示す影響力評価値を求める影響力予測ステップと、
前記発信ユーザにより発信された前記コンテンツが生成されてから現時点までの間の単位時間当たりの当該コンテンツの平均引用数を、当該コンテンツの現時点での話題性を示す話題性評価値として求める話題性評価ステップと、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する時間重み付き結合ステップと、
を有することを特徴とする影響力予測方法。
An impact prediction method executed by an impact prediction device that calculates an evaluation value indicating a future impact of content transmitted on social media at the present time,
The content is transmitted from each of a user information storage device storing user information including information related to a link between users on social media, and a citation information storage device storing citation information indicating mutual citation status between contents. The influence which calculates | requires the influence evaluation value which shows the future influence of the said transmission user at the present time by acquiring the feature-value about the transmission user who is a user and using a prediction model based on the said feature-value A prediction step;
Topicity evaluation for obtaining the average number of citations of the content per unit time from the generation of the content transmitted by the transmitting user to the present time as the topicality evaluation value indicating the topicality of the content at the current time Steps,
A weight at the present time calculated so that the elapsed time from the time when the content is transmitted to the present time becomes smaller is added to the influence evaluation value, and the weight is calculated so as to increase as the elapsed time becomes larger. And adding a weight to the topic evaluation value, and calculating a comprehensive evaluation value indicating the future influence of the content from the weighted influence evaluation value and the topic evaluation value. A time-weighted combination step to output
An influence prediction method characterized by comprising:
前記影響力予測ステップにおいて、前記影響力予測装置は、前記発信ユーザにより発信された前記コンテンツのトピックを抽出し、前記引用情報記憶装置から当該トピックにおける前記発信ユーザの特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記トピックにおける前記発信ユーザの現時点での将来的な影響力を示す評価値を前記影響力評価値として算出する
ことを特徴とする請求項4に記載の影響力予測方法。
In the influence prediction step, the influence prediction apparatus extracts the topic of the content transmitted by the transmission user, acquires the feature amount of the transmission user in the topic from the citation information storage device , and the characteristic The evaluation value indicating the future influence of the calling user at the present time on the topic is calculated as the influence evaluation value by using a prediction model based on the amount. Impact prediction method.
前記影響力予測方法は、
前記発信ユーザにより発信された前記コンテンツの特徴量を抽出するコンテンツ特徴量抽出ステップと、
前記コンテンツ特徴量抽出ステップにおいて抽出された前記コンテンツの特徴量に基づいて、予測モデルを用いることにより、当該コンテンツの将来的な影響力を示すコンテンツ影響力評価値を算出するコンテンツ影響力予測ステップと、
を更に備え、
前記時間重み付き結合ステップにおいて、前記影響力予測装置は、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値及び前記コンテンツ影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記コンテンツ影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する
ことを特徴とする請求項4又は5に記載の影響力予測方法。
The influence prediction method is:
A content feature amount extracting step of extracting a feature amount of the content transmitted by the transmitting user;
A content influence prediction step of calculating a content influence evaluation value indicating a future influence of the content by using a prediction model based on the feature quantity of the content extracted in the content feature amount extraction step; ,
Further comprising
In the time-weighted combining step, the influence prediction device includes:
A weight at the present time calculated so as to decrease as the elapsed time from when the content is transmitted to the present time becomes larger is added to the influence evaluation value and the content influence evaluation value, and the elapsed time is increased. The weight at the present time calculated so as to become larger is added to the topical evaluation value, and the content evaluation is performed from the weighted influence evaluation value, the content influence evaluation value, and the topicality evaluation value. An impact prediction method according to claim 4 or 5, characterized in that a comprehensive evaluation value indicating future impact of is calculated and output.
コンピュータを、請求項1ないし3のうちいずれか1項に記載の影響力予測装置の各手段として機能させるためのプログラム。   The program for functioning a computer as each means of the influence prediction apparatus of any one of Claims 1 thru | or 3.
JP2012136306A 2012-06-15 2012-06-15 Impact prediction device, impact prediction method, and program Expired - Fee Related JP5848199B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012136306A JP5848199B2 (en) 2012-06-15 2012-06-15 Impact prediction device, impact prediction method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012136306A JP5848199B2 (en) 2012-06-15 2012-06-15 Impact prediction device, impact prediction method, and program

Publications (2)

Publication Number Publication Date
JP2014002482A JP2014002482A (en) 2014-01-09
JP5848199B2 true JP5848199B2 (en) 2016-01-27

Family

ID=50035624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012136306A Expired - Fee Related JP5848199B2 (en) 2012-06-15 2012-06-15 Impact prediction device, impact prediction method, and program

Country Status (1)

Country Link
JP (1) JP5848199B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022269839A1 (en) * 2021-06-23 2022-12-29 日本電信電話株式会社 Information quality measurement device, information quality measurement method, and program

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111149127A (en) * 2017-12-04 2020-05-12 索尼公司 Information processing apparatus, information processing method, and program
KR102052344B1 (en) * 2018-06-11 2019-12-04 옴니어스 주식회사 Method and apparatus for measuring influence in social network
CN109670032A (en) * 2019-01-09 2019-04-23 合肥工业大学 A kind of microblogging forward direction influence power seniority among brothers and sisters method neural network based
CN110362724B (en) * 2019-07-23 2022-12-06 国家海洋环境监测中心 Data filtering method and device, electronic equipment and readable storage medium
CN111028087B (en) * 2019-12-05 2023-09-22 中国银行股份有限公司 Information display method, device and equipment
JP2022012908A (en) * 2020-07-02 2022-01-17 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5525470B2 (en) * 2011-03-24 2014-06-18 Kddi株式会社 Influence calculation device, influence calculation method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022269839A1 (en) * 2021-06-23 2022-12-29 日本電信電話株式会社 Information quality measurement device, information quality measurement method, and program

Also Published As

Publication number Publication date
JP2014002482A (en) 2014-01-09

Similar Documents

Publication Publication Date Title
KR101888919B1 (en) Method and Apparatus for Marketing of Advertisement Based on User Influence
US11538064B2 (en) System and method of providing a platform for managing data content campaign on social networks
JP5848199B2 (en) Impact prediction device, impact prediction method, and program
US9294576B2 (en) Social media impact assessment
US9928526B2 (en) Methods and systems that predict future actions from instrumentation-generated events
Tatar et al. From popularity prediction to ranking online news
Lu et al. The emergence of opinion leaders in a networked online community: A dyadic model with time dynamics and a heuristic for fast estimation
JP5454357B2 (en) Information processing apparatus and method, and program
Liu et al. Reuters tracer: Toward automated news production using large scale social media data
US8972498B2 (en) Mobile-based realtime location-sensitive social event engine
US20120278264A1 (en) Techniques to filter media content based on entity reputation
US20070271519A1 (en) System and Method for Collecting User Interest Data
JP5615857B2 (en) Analysis apparatus, analysis method, and analysis program
US20140189000A1 (en) Social media impact assessment
US20130246463A1 (en) Prediction and isolation of patterns across datasets
US20130198240A1 (en) Social Network Analysis
US9020962B2 (en) Interest expansion using a taxonomy
KR101105798B1 (en) Apparatus and method refining keyword and contents searching system and method
US20220067078A1 (en) Aggregation system, Response Summary Process, and Method of Use
Yuan Modeling inter-country connection from geotagged news reports: a time-series analysis
Mostafa Mining halal food search pathways down the Wikipedia’s rabbit hole
Pauken et al. Tracking happiness of different US cities from tweets
JP4213700B2 (en) Blog community analysis device and program
CN115280314A (en) Pattern-based classification
JP6467694B1 (en) Search term evaluation device, evaluation system, evaluation method, and evaluation module production method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140908

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151126

R150 Certificate of patent or registration of utility model

Ref document number: 5848199

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees