JP5848199B2 - Impact prediction device, impact prediction method, and program - Google Patents
Impact prediction device, impact prediction method, and program Download PDFInfo
- Publication number
- JP5848199B2 JP5848199B2 JP2012136306A JP2012136306A JP5848199B2 JP 5848199 B2 JP5848199 B2 JP 5848199B2 JP 2012136306 A JP2012136306 A JP 2012136306A JP 2012136306 A JP2012136306 A JP 2012136306A JP 5848199 B2 JP5848199 B2 JP 5848199B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- influence
- user
- evaluation value
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、ある人物がソーシャルメディア上で発信したコンテンツが、将来的にどの程度多くの人々に到達するかを評価する装置、方法、プログラムに関する。本装置の利用者は、本装置が算出したコンテンツの予測影響力をもとに、コンテンツをランキングした結果を得ることができる。 The present invention relates to an apparatus, a method, and a program for evaluating how many people a content transmitted by a person on social media reaches in the future. The user of this apparatus can obtain the result of ranking the content based on the predicted influence of the content calculated by this apparatus.
ソーシャルメディアとは、Twitter(登録商標)サービス、ブログ等に代表され、ユーザ同士がリンク関係、フォロー関係をもとにしたソーシャルネットワークを構成しており、あるユーザが情報(自然言語で記述された文章、画像、映像、URLなど)を発信すると、そのユーザと関係を持つ隣人ユーザ、あるいはそのユーザのサイトを訪れた一般ユーザがその情報を閲覧できるようなメディアである。 Social media is represented by Twitter (registered trademark) services, blogs, etc., and users constitute a social network based on links and follow-up relationships. A user is described in information (written in natural language). When a document, image, video, URL, etc.) is transmitted, the information can be browsed by neighbor users who have a relationship with the user or general users who have visited the user's site.
上記技術分野における従来の第一の技術として、Kleinbergらが提案したバーストの概念(非特許文献1)を利用した手法がある(非特許文献4)。発信情報が他の人々に引用される間隔が短くなっていることを手がかりに、その情報が将来的にどの程度多くの人々に到達するか、引用されるかを予測するというものである。この手法は、主に、世の中で話題になっているキーワードを抽出する目的で利用され、そのキーワードを含む時間情報付きのWeb文書をdocument streamとしてとらえ、document stream中でdocument数が急激に増加している部分を抽出することで、キーワードがバースト状態か否かを判定する。 As a first conventional technique in the above technical field, there is a technique using the concept of burst (Non-Patent Document 1) proposed by Kleinberg et al. (Non-Patent Document 4). This is to predict how many people the information will be quoted in the future, based on the fact that the interval at which the transmitted information is quoted by other people is shortened. This method is mainly used for extracting keywords that are becoming popular topics in the world. Web documents with time information including the keywords are treated as document streams, and the number of documents in the document stream increases rapidly. It is determined whether or not the keyword is in a burst state by extracting the portion that is present.
従来の第二の技術として、松村らの電子掲示板の書き込み情報を利用した話題抽出手法がある(非特許文献2)。電子掲示板の書き込み、及びそれに対する返信、コメントに共通するキーワードを抽出し、それが何回のやり取りに用いられたかを手がかりに話題の中心となったトピックを抽出する。 As a conventional second technique, there is a topic extraction method using information written on an electronic bulletin board of Matsumura et al. (Non-patent Document 2). A keyword common to writing on an electronic bulletin board, a reply to it, and a comment is extracted, and a topic that is the center of the topic is extracted based on how many times the keyword is used.
従来の第三の技術として、ソーシャルメディア(Twitter(登録商標))上での過去の振る舞いをもとに、ユーザの未来の影響力を予測する技術が存在する(非特許文献3)。ユーザの影響力とは、そのユーザが発信した情報が他の人に引用された回数で定義される。Twitter(登録商標)上で何人の人がそのユーザをフォローしているか、そのユーザが何人をフォローしているか、過去にそのユーザが発信した情報が引用された累積回数などを手がかりとして、未来の、例えば、この先一ヶ月間に他のユーザに引用される回数(影響力)を予測する。 As a conventional third technique, there is a technique for predicting the future influence of a user based on past behavior on social media (Twitter (registered trademark)) (Non-Patent Document 3). The influence of a user is defined by the number of times information transmitted by the user is cited by another person. Based on how many people follow the user on Twitter (registered trademark), how many people the user is following, and the cumulative number of times the information sent by the user has been cited in the past, For example, the number of times (influence) cited by other users in the next month is predicted.
しかし、従来の第一の技術は、引用情報(引用される間隔)に強く依存した手法のため、発信されてから間もなく、ほとんどの人々が、または誰も知らない(引用されていない)情報の価値を評価することはできなかった。従来の第一の技術は、既に話題になっている情報(既に多くの人々に引用された)を抽出することができるが、現時点でほとんど引用されてはいないが、これから話題になりそうな情報を抽出することはできなかった。 However, since the first conventional technique is a method that relies heavily on citation information (quoting intervals), most people or no one knows (unquoted) information soon after it was published. The value could not be evaluated. The first conventional technology can extract information that has already been talked about (already cited by many people), but information that is not quoted at this time but is likely to be talked about in the future. Could not be extracted.
また、従来の第二の技術も、従来の第一の技術と同様、既に話題になっている情報を抽出するための手法であった。 The conventional second technique is also a method for extracting information that has already been discussed, as in the conventional first technique.
また、従来の第三の技術は、ユーザ単位での未来の影響力を予測するものであり、ユーザが発信した情報単位の価値を予測する技術ではない。単純には、ユーザ単位で推定した予測影響力を発信情報に伝搬させるような手法が考えられる。しかし、あるユーザが常に価値ある情報を発信することは稀であり、単純な独り言や挨拶などの情報を不当に高く評価してしまう問題がある。 In addition, the third conventional technique predicts the future influence on the user basis, and is not a technique for predicting the value of the information unit transmitted by the user. Simply, a method of propagating the predicted influence estimated for each user to the transmission information can be considered. However, it is rare that a certain user always transmits valuable information, and there is a problem that information such as simple monologues and greetings is unfairly evaluated.
本発明は上記の点に鑑みてなされたものであり、ソーシャルメディア上で発信されたコンテンツの将来的な影響力を示す評価値を算出する技術において、たとえ、他の人々に引用された実績がほとんどない、もしくは全くない情報でも、高精度に将来的な影響力を示す評価値を算出することを可能とする技術を提供することを目的とする。 The present invention has been made in view of the above points, and in the technology for calculating an evaluation value indicating the future influence of content transmitted on social media, even if the results cited by other people have been obtained. It is an object of the present invention to provide a technique that can calculate an evaluation value indicating a future influence with high accuracy even with little or no information.
上記の課題を解決するために、本発明は、ソーシャルメディア上で発信されたコンテンツの現時点での将来的な影響力を示す評価値を算出する影響力予測装置であって、
ソーシャルメディア上でのユーザ間のリンクに関する情報を含むユーザ情報を格納したユーザ情報記憶装置、及びコンテンツ間の互いの引用状況を示す引用情報を格納した引用情報記憶装置のそれぞれから、前記コンテンツを発信したユーザである発信ユーザについての特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記発信ユーザの現時点での将来的な影響力を示す影響力評価値を求める影響力予測手段と、
前記発信ユーザにより発信された前記コンテンツが生成されてから現時点までの間の単位時間当たりの当該コンテンツの平均引用数を、当該コンテンツの現時点での話題性を示す話題性評価値として求める話題性評価手段と、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する時間重み付き結合手段と、
を有することを特徴とする影響力予測装置として構成される。
In order to solve the above-described problem, the present invention is an influence prediction apparatus that calculates an evaluation value indicating a future influence of a content transmitted on social media at the present time,
The content is transmitted from each of a user information storage device storing user information including information related to a link between users on social media, and a citation information storage device storing citation information indicating mutual citation status between contents. The influence which calculates | requires the influence evaluation value which shows the future influence of the said transmission user at the present time by acquiring the feature-value about the transmission user who is a user and using a prediction model based on the said feature-value Prediction means;
Topicity evaluation for obtaining the average number of citations of the content per unit time from the generation of the content transmitted by the transmitting user to the present time as the topicality evaluation value indicating the topicality of the content at the current time Means,
A weight at the present time calculated so that the elapsed time from the time when the content is transmitted to the present time becomes smaller is added to the influence evaluation value, and the weight is calculated so as to increase as the elapsed time becomes larger. And adding a weight to the topic evaluation value, and calculating a comprehensive evaluation value indicating the future influence of the content from the weighted influence evaluation value and the topic evaluation value. Time-weighted combining means to output
It is comprised as an influence prediction apparatus characterized by having.
前記影響力予測手段は、前記発信ユーザにより発信された前記コンテンツのトピックを抽出するトピック抽出手段を有し、当該影響力予測手段は、前記引用情報記憶装置から当該トピック抽出手段により抽出された前記トピックにおける前記発信ユーザの特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記トピックにおける前記発信ユーザの現時点での将来的な影響力を示す評価値を前記影響力評価値として算出するようにしてもよい。
The influence prediction means includes topic extraction means for extracting a topic of the content transmitted by the transmission user, and the influence prediction means is extracted from the citation information storage device by the topic extraction means. The feature value of the calling user in the topic is acquired, and based on the feature value, the prediction value is used to obtain an evaluation value indicating the future influence of the calling user in the topic at the present time. It may be calculated as a value.
前記影響力予測装置は、前記発信ユーザにより発信された前記コンテンツの特徴量を抽出するコンテンツ特徴量抽出手段と、前記コンテンツ特徴量抽出手段により抽出された前記コンテンツの特徴量に基づいて、予測モデルを用いることにより、当該コンテンツの将来的な影響力を示すコンテンツ影響力評価値を算出するコンテンツ影響力予測手段と、を更に備え、前記時間重み付き結合手段は、前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値及び前記コンテンツ影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記コンテンツ影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力するようにしてもよい。 The influence prediction device includes: a content feature amount extraction unit that extracts a feature amount of the content transmitted by the transmitting user; and a prediction model based on the feature amount of the content extracted by the content feature amount extraction unit. Content influence prediction means for calculating a content influence evaluation value indicating the future influence of the content, and the time weighted combination means from the time when the content is transmitted. The weight at the present time calculated so as to decrease as the elapsed time up to the current time increases, is added to the influence evaluation value and the content influence evaluation value, and is calculated so as to increase as the elapsed time increases. Current weights are added to the topical evaluation values, and these weighted influence evaluation values are added. May be output by calculating an overall evaluation value indicating the future impact of the content from said topicality evaluation value and the content influence evaluation value.
また、本発明によれば、上記影響力予測装置が実行する影響力予測方法が提供される。更に、本発明によれば、コンピュータを、前記影響力予測装置の各手段として機能させるためのプログラムが提供される。 Moreover, according to this invention, the influence prediction method which the said influence prediction apparatus performs is provided. Furthermore, according to the present invention, there is provided a program for causing a computer to function as each means of the influence prediction apparatus.
本発明によれば、たとえ、他の人々に引用された実績がほとんどない、もしくは全くない情報でも、情報発信者について推定した未来の影響力や、コンテンツの特徴から推定した未来の影響力をもとに、高精度に将来的な価値を予測することが可能となる。 According to the present invention, even if there is little or no track record cited by other people, the future influence estimated from the information sender and the future influence estimated from the characteristics of the contents In addition, the future value can be predicted with high accuracy.
特に、本発明によれば、コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなる重みを影響力評価値に付加し、経過時間が大きくなるにつれて大きくなる重みを話題性評価値に付加し、これらの重み付けされた影響力評価値と話題性評価値とから総合評価値を算出することとしたので、高精度な影響力の評価値を算出することが可能である。 In particular, according to the present invention, a weight that decreases as the elapsed time from when the content is transmitted to the present time is added to the influence evaluation value, and a weight that increases as the elapsed time increases Since the comprehensive evaluation value is calculated from the weighted influence evaluation value and topicality evaluation value, it is possible to calculate the influence evaluation value with high accuracy.
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
[第一の実施の形態]
以下、本装置の第一の形態について図面を参照して説明する。
Embodiments of the present invention will be described below with reference to the drawings. The embodiment described below is only an example, and the embodiment to which the present invention is applied is not limited to the following embodiment.
[First embodiment]
Hereinafter, a first embodiment of the present apparatus will be described with reference to the drawings.
図1は、本発明の第一の実施の形態における情報伝搬予測装置100のブロック図を示す。同図に示す情報伝搬予測装置100は、検索部101、ユーザ情報記憶装置102、引用情報記憶装置103、コンテンツ情報記憶装置104、評価対象コンテンツ抽出手段105、ユーザ影響力予測手段106、話題性評価手段107、時間重み付き結合手段108、出力部109から構成されている。このうち、評価対象コンテンツ抽出手段105はコンテンツ情報記憶装置104及び引用情報記憶装置103に接続され、ユーザ影響力予測手段106はコンテンツ情報記憶装置104、引用情報記憶装置103、及びユーザ情報記憶装置102に接続され、話題性評価手段107は、コンテンツ情報記憶装置104、及び引用情報記憶装置103に接続されている。なお、情報伝搬予測装置を、影響力予測装置と称してもよい。
FIG. 1 shows a block diagram of an information
なお、図1に示す例では、情報伝搬予測装置100が、検索部101、ユーザ情報記憶装置102、引用情報記憶装置103、コンテンツ情報記憶装置104、評価対象コンテンツ抽出手段105、ユーザ影響力予測手段106、話題性評価手段107、時間重み付き結合手段108、出力部109を含むが、情報伝搬予測装置100の構成はこれに限られるわけではない。例えば、情報伝搬予測装置100は、検索部101、評価対象コンテンツ抽出手段105、ユーザ影響力予測手段106、話題性評価手段107、時間重み付き結合手段108、出力部109を有するものとし、ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104を、情報伝搬予測装置100の外部に備え、ネットワークを介して情報伝搬予測装置100と接続される構成としてもよい。ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104を、情報伝搬予測装置の外部に備える構成は、他の実施の形態でも同様に採用可能である。
In the example illustrated in FIG. 1, the information
ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104とネットワーク接続される形態の情報伝搬予測装置100は、例えば、CPU、メモリ等を備えたコンピュータに、実施の形態の各処理手段の処理動作に対応するプログラムを実行させることにより実現可能である。また、ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104を内部に備える形態の情報伝搬予測装置100については、例えば、ユーザ情報記憶装置102、引用情報記憶装置103、及びコンテンツ情報記憶装置104に対応するデータベースシステムを有するコンピュータに、実施の形態の各処理手段の処理動作に対応するプログラムを実行させることにより実現可能である。上記のプログラムは、可搬メモリ等の記憶媒体に格納して配布し、コンピュータにインストールして用いてもよいし、ネットワーク上のサーバからダウンロードしてコンピュータにインストールしてもよい。コンピュータにプログラムを実行させることにより情報伝搬予測装置を実現できる点は、他の実施の形態においても同様である。以下、各構成要素について詳細に説明する。
The information
<各記憶装置>
ユーザ情報記憶装置102は、本情報伝搬予測装置100により解析され得るユーザ情報を格納しており、本情報伝搬予測装置100の所定の機能手段からの要求に従って、ユーザ情報を読み出し、当該情報を要求元に送信する。
<Each storage device>
The user
ユーザ情報記憶装置102に記憶される典型的な各ユーザ情報は、ユーザを一意に特定するためのユーザIDや、リンク数、被リンク数、発信情報数、自己紹介文等の属性情報、タイムスタンプとから構成される。リンクとはあるユーザから別のユーザへの興味を示すデータである。例えば、Twitter(登録商標)を対象とした場合、リンク数は他のユーザへのフォロー数、被リンク数は他のユーザからのフォロー数、発信情報数は過去のツイート総数となる。また、タイムスタンプは、各ユーザ情報を取得した時間を表す属性値である。つまり、あるユーザに関するユーザ情報(リンク数、被リンク数、発信情報数など)の推移を時系列的に追うことが可能である。ユーザ情報記憶装置102は、例えば、Webページを保持するWebサーバや、データベースを具備するデータベースサーバ、データベースを具備する記憶装置等として構成される。
Each typical user information stored in the user
コンテンツ情報記憶装置104は、本情報伝搬予測装置100により解析され得るコンテンツ情報を格納しており、本情報伝搬予測装置100の所定の機能手段からの要求に従って、コンテンツ情報を読み出し、当該情報を要求元に送信する。
The content
なお、コンテンツは、WebサイトやCD-ROM、DVDなどの媒体で閲覧できるテキストや静止画、動画、音楽、音声といった情報であれば何でも良い。記憶される典型的なコンテンツ情報は、コンテンツを一意に特定するためのコンテンツIDや、コンテンツを生成したユーザID、作成した日付情報(コンテンツを発信した日付情報と解してもよい)、テキスト、静止画、動画、音楽、音声情報等から構成される。コンテンツ情報記憶装置104は、例えば、Webページを保持するWebサーバや、データベースを具備するデータベースサーバ、データベースを具備する記憶装置等として構成される。
The content may be any information such as text, still image, video, music, and audio that can be viewed on a medium such as a website, CD-ROM, or DVD. Typical content information stored includes a content ID for uniquely identifying the content, a user ID that generated the content, created date information (may be interpreted as date information that the content was transmitted), text, Consists of still images, moving images, music, audio information and the like. The content
引用情報記憶装置103は、本情報伝搬予測装置100により解析され得る引用情報を格納しており、本情報伝搬予測装置100の所定の機能手段からの要求に従って、引用情報を読み出し、当該情報を要求元に送信する。
The citation
引用情報とは、ある情報の人から人への伝達、伝搬が起こったことを示すデータであり、具体的には、あるコンテンツ、またはその一部が、別のユーザ(が発信したコンテンツ)によって言及、引用したことを示す情報である。例えば、あるWebページAのURLが、他のユーザの作成したWebページB中に含まれる場合、BはAを引用したとして扱う。Twitter(登録商標)を対象とした場合、あるツイートAが、他のユーザのツイートBによってリツイートされた場合、BはAを引用したとして扱う。また、コンテンツの一部、例えばコンテンツに含まれるURLや、文章等を引用した場合も引用情報として扱っても良い。また、引用情報は、あるコンテンツをブックマークに追加するといった操作も含む概念である。引用情報記憶装置103は、例えば、Webページを保持するWebサーバ、データベースを具備するデータベースサーバ、データベースを具備する記憶装置等として構成される。
Cited information is data indicating that transmission or propagation of certain information from person to person has occurred. Specifically, a certain content, or part of it, is transmitted by another user (content sent by). It is information indicating that it is mentioned or cited. For example, if the URL of a web page A is included in a web page B created by another user, B is treated as quoting A. When Twitter (registered trademark) is targeted, if a tweet A is retweeted by another user's tweet B, B is treated as quoting A. In addition, when a part of the content, for example, a URL or a sentence included in the content is quoted, it may be treated as quoted information. The quotation information is a concept including an operation of adding a certain content to a bookmark. The citation
<検索部101>
検索部101は、評価を行いたいコンテンツ集合を絞り込むための検索条件をユーザから受け付ける。上記検索条件とは、コンテンツ情報記憶装置104が保持する属性の値に関する条件である。例えば、日付情報を条件とする場合、「作成されてから数時間以内」といった条件を指定することが可能である。また、各コンテンツがテキスト属性を持つ場合、あるキーワードを含むことを検索条件とした絞り込み操作も可能である。複数の属性、例えば、日付情報とキーワードの組み合わせでの絞り込むとったことも可能である。また、引用情報記憶装置103に記憶されている情報を利用した問い合わせも可能である。例えば、「5件以上、引用されているコンテンツ」といった条件を指定することもできる。検索部101は例えば、キーボード、OCR、ペン入力、タッチパネル入力、音声認識装置や、ネットワーク上に置かれたテキストファイルを読み込む手段等によって構成されている。検索部は、マウス等のデバイスドライバや、メニュー画面の制御ソフトウェア等で実現され得る。
<
The
<評価対象コンテンツ抽出手段105>
評価対象コンテンツ抽出手段105は、検索部101で指定された検索条件をもとに、コンテンツ情報検索装置104、引用情報記憶装置103に問い合わせを行い、検索条件に合致するコンテンツIDの集合を取得する。
<Evaluation Target
The evaluation target
<ユーザ影響力予測手段106>
ユーザ影響力予測手段106は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合をもとに、これらのコンテンツを発信したユーザ集合を取得し、ユーザ集合に含まれる各ユーザの未来の影響力を予測する手段である。最初に、ユーザ影響力予測手段106は、ユーザ情報記憶装置102にコンテンツID集合をもとに問い合わせを行い、これらのコンテンツを発信したユーザ集合を取得する。取得した各ユーザに関して、以下の操作を繰り返す。
<User influence predicting means 106>
The user influence predicting means 106 acquires the user set that has transmitted these contents based on the content set that is the output of the evaluation target content extracting means 105, and determines the future influence of each user included in the user set. It is a means of prediction. First, the user influence prediction means 106 makes an inquiry to the user
まず、該ユーザの特徴量を抽出する。特徴量は、ユーザ情報記憶装置102に記憶されている、最新のリンク数、被リンク数、発信情報数等である。また、引用情報記憶装置103にも問い合わせを行い、過去に、各ユーザが生成したコンテンツが他のユーザに引用された回数の合計、過去一ヶ月間で各ユーザが生成したコンテンツが他のユーザに引用された回数の合計、各ユーザが1つの投稿を行ったときに他のユーザに引用された平均回数などの過去の実績を示す統計量を計算し、各ユーザの特徴量とする。最後に、これらの過去の特徴量をもとに、未来の一定期間で各ユーザが引用される回数を予測する。過去の特徴量を入力とし、未来の一定期間で引用される回数を予測し、出力するモデルは、回帰木など、機械学習分野における既存の予測モデルを用いて構成し得る。回帰木は説明変数の値をもとに、目的変数の実数値を予測するモデルである。つまり、本装置においては、これまでにわかっているユーザ特徴量(説明変数)をもとに、未来の一定期間でユーザが引用される回数(目的変数)を予測する。一定期間とは、例えば一日、一週間、一ヶ月などであるが、どの範囲で引用される回数を予測するかは予測モデルの学習方法に依存する。ユーザ影響力予測値(本例では、未来の一定期間でユーザが引用される回数)は、時間重み付き結合手段108へと送られる。また、ユーザ当たりではなく、(ユーザかつ)コンテンツ当たりの予測引用回数としても良い。例えば、一週間で期待されるユーザ当たりの引用回数を算出後、その値をユーザが一週間で平均的に発信するコンテンツ数で割った値を採用しても良い。
First, the feature amount of the user is extracted. The feature amount is the latest number of links, the number of links, the number of transmitted information, etc. stored in the user
以下、予測モデルのひとつである回帰木について説明する。 Hereinafter, a regression tree that is one of the prediction models will be described.
回帰木は、目的属性が数値型である場合の決定木である。回帰木では、木の各中間ノードにデータを分割するための分割テストが示されている。また、各中間ノードは分割テストを適用した結果の取り得る二つの値に対する二つの下向きの枝を持つ。一方、各終端ノードは、ここで注目している「未来の一定期間でユーザが引用される回数」を持つ。学習に用いるデータ中の各ユーザは、この回帰木を使って、いずれかの終端ノードに分類される。回帰木の頂点ノードは全データ集合に対応する。回帰木は、データから得られた知識、法則を木の頂点ノードから終端に至るまでの分割テストのIF-THENルールとして簡単に表現することができる。終端ノードのラベルは、このIF-THENルール結論部に相当する。例えば、「リンク数が100以上」でかつ「過去に引用された回数の合計が100回」のユーザは「今後、一週間以内で10回引用される」といった予測を行うことができる。 The regression tree is a decision tree when the objective attribute is a numerical type. In the regression tree, a division test for dividing data into each intermediate node of the tree is shown. Each intermediate node also has two downward branches for the two possible values that result from applying the split test. On the other hand, each terminal node has “the number of times a user is cited in a certain period in the future”, which is noticed here. Each user in the data used for learning is classified into one of the terminal nodes using this regression tree. The vertex nodes of the regression tree correspond to the entire data set. A regression tree can easily express knowledge and laws obtained from data as IF-THEN rules for split tests from the top node to the end of the tree. The label of the terminal node corresponds to the IF-THEN rule conclusion part. For example, a user who has “the number of links is 100 or more” and “the total number of times quoted in the past is 100 times” can make a prediction that “it will be quoted 10 times within a week in the future”.
以下、本装置において予測モデルである回帰木学習のための学習データの作成、及び学習方法について説明する。なお、本実施の形態は予測フェーズを説明するための装置の構成例であり、以下の、学習データ作成を含む学習フェーズは事前処理として行う。 Hereinafter, creation of learning data for learning a regression tree, which is a prediction model in this apparatus, and a learning method will be described. In addition, this Embodiment is an example of a structure of the apparatus for demonstrating a prediction phase, and the following learning phases including learning data preparation are performed as a preliminary process.
この事前処理で得られた回帰木のデータは、例えば、ユーザ影響力予測手段106におけるメモリ等の記憶手段に格納され、ユーザ影響力予測に用いられる。また、この事前処理自体は、ユーザ影響力予測手段106が行ってもよいし、別の手段により行ってもよい。
The regression tree data obtained by this pre-processing is stored, for example, in storage means such as a memory in the user influence prediction means 106 and used for user influence prediction. Further, this pre-processing itself may be performed by the user
最初に、データを分割するための過去の時間tを決める。次に、ユーザ情報記憶装置102に格納されているユーザ集合を取得する。次に、ユーザ情報記憶装置102、引用情報記憶装置103に問い合わせを行い、ユーザ集合中の各ユーザに関して、時間t以前の情報をもとに、各ユーザの前記特徴量を算出し、説明変数とする。つまり、時間tの時点でのユーザのリンク数、被リンク数、発信情報数や、時間t以前に各ユーザが生成したコンテンツが他のユーザに引用された回数の合計などである。同時に、時間t以後の情報をもとに、各ユーザが他の人に引用された回数の合計を算出し、目的変数とする。ユーザ集合中の各ユーザを、説明変数と目的変数との組み合わせとから成る情報へと変換したデータを学習データとする。以上までが学習データの作成方法である。
First, a past time t for dividing the data is determined. Next, a user set stored in the user
次に、学習データをもとに予測モデル、回帰木を作成する。回帰木においては、平均二乗誤差を最小化、あるいはクラス間分散に基づく評価関数を最大化する分割テストを行うことで回帰木を学習する。単純には、データを木の頂点から再帰的に相互情報量などに基づいた最適分割テストにより分割していく手法がある。ID3では相互情報量の観点で最適な分割テストが使われ(非特許文献5)、C4.5ではgain ratioを最適にする分割テストが使われているが(非特許文献6)、どの手法、アルゴリズムを用いて回帰木を作成しても良い。また、フリーソフトWEKAの中のREPTree関数は、information gainと分散の観点で分割を実行するアルゴリズムであり、C4.5 と比較して計算が早いというメリットがあるため、実用的には、こちらを用いても良い。 Next, a prediction model and a regression tree are created based on the learning data. In the regression tree, the regression tree is learned by performing a division test that minimizes the mean square error or maximizes the evaluation function based on the interclass variance. A simple method is to divide the data from the top of the tree recursively by an optimal division test based on the mutual information. ID3 uses an optimal division test in terms of mutual information (Non-Patent Document 5), and C4.5 uses a division test that optimizes the gain ratio (Non-Patent Document 6). A regression tree may be created using an algorithm. In addition, the REPTree function in the free software WEKA is an algorithm that performs division from the viewpoint of information gain and distribution, and has the advantage of faster calculation than C4.5. It may be used.
上記の学習方法で作成した回帰木は、ある時点、もしくはある時点までのユーザの特徴や影響力をもとに、未来の一定期間でユーザが引用される回数を予測するモデルである。時間t以後のどのくらいの時間範囲を考慮して目的変数を計算するかで、回帰木が引用回数を予測する時間範囲が決まる。例えば、時間t後の一週間の引用回数を考慮した場合、回帰木は一週間で期待される引用回数を予測するモデルとなる。また、ユーザ当たりではなく、コンテンツ当たりの予測引用回数としても良い。つまり、一週間で期待される引用回数を、ユーザが一週間で平均的に発信するコンテンツ数で割ったものとしても良い。 The regression tree created by the above learning method is a model that predicts the number of times a user is cited in a certain period in the future based on the user's characteristics and influence until a certain point in time. The time range in which the regression tree predicts the number of citations is determined depending on how much time range after time t is taken into consideration. For example, when the number of citations in one week after time t is considered, the regression tree is a model for predicting the number of citations expected in one week. Alternatively, the number of predicted citations per content, not per user, may be used. That is, the number of citations expected in one week may be divided by the number of contents that the user transmits on average in one week.
<話題性評価手段107>
話題性評価手段107は、引用情報記憶装置103とコンテンツ情報記憶装置104をもとに、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合に含まれる各コンテンツが、現在時刻でどの程度話題になっているかを評価する手段である。話題性評価手段107は、コンテンツ情報記憶装置104に問い合わせを行い、各コンテンツが生成された日付を取得する。次に、引用情報記憶装置103に問い合わせを行い、各コンテンツが生成された日付から現在時刻までの間で観測された引用情報をもとに、そのコンテンツの話題性を評価する。話題性評価方法の一例として、コンテンツが生成された日付から現在時刻までの間の単位時間当たりの平均引用数を話題性評価値とする方法が考えられる。今、現在時刻をt, 評価対象となるコンテンツをc、Δtをコンテンツが生成されてから現在時刻まで経過した時間、n(c,t)を現在時刻tの時点で、コンテンツcが引用された総数とすると、話題性評価値h(c,t)は以下のようになる。
h(c,t) = n(c,t)/Δt
この他にも、定常状態との差分を見る、前記非特許文献1のバーストを用いた手法など、話題性を評価する既存手法であれば何でも良い。なお、話題性評価値のスケールは、ユーザ影響力予測手段106が予測した影響力と揃える。例えば、ユーザ影響力予測手段106が一週間で期待される引用回数を予測出力する場合、話題性評価値も、単位時間を一週間とした平均引用数を出力とする。コンテンツ毎に評価した話題性評価値は、時間重み付き結合手段108へと送られる。
<Topicity evaluation means 107>
The topicality evaluation means 107 is based on the citation
h (c, t) = n (c, t) / Δt
In addition to this, any existing method for evaluating topicality may be used, such as a method using a burst of
<時間重み付き結合手段108>
時間重み付き結合手段108は、ユーザ影響力予測手段106が算出したユーザ影響力予測値と、話題性評価手段107が算出した話題性評価値を時間重み付きで結合する手段である。この手段は、あるコンテンツが作成されてすぐの時は、ユーザ影響力予測値を評価値として重視し、あるコンテンツが作成されてから時間が経過するほど話題性評価値を重視するような関数により実現される。例えば、以下の方法で結合する方法が考えられる。
<Time
The time weighted combining
今、ユーザuによって生成されたコンテンツcの現在時刻tの評価値f(c,u,t)を算出したいとする。また、ユーザ影響力予測手段106が算出した現在時刻tのユーザ影響力予測値を返す関数をg(u,t)、話題性評価手段107が算出した話題性評価値を返す関数をh(c,t)とすると、結合式は以下のようになる。 Assume that it is desired to calculate the evaluation value f (c, u, t) of the current time t of the content c generated by the user u. Further, g (u, t) is a function that returns a user influence prediction value at the current time t calculated by the user influence prediction means 106, and h (c) is a function that returns a topicality evaluation value calculated by the topicality evaluation means 107. , t), the coupling equation is as follows.
まず、コンテンツ集合C、減衰パラメータT、現在時間tを取得し、入力とする(ステップ1)。コンテンツ集合Cは、話題性評価手段107から受け取ることとしてもよいし、評価対象コンテンツ抽出手段105から取得してもよい。減衰パラメータTは予め設定し、メモリ等に格納されている。現在時刻tは、装置の時計から取得してもよいし、ネットワークから取得してもよい。そして、コンテンツ集合Cの各コンテンツcについて、以下の処理を行う(S2〜S13のループ)。
First, the content set C, the attenuation parameter T, and the current time t are acquired and input (step 1). The content set C may be received from the
まず、一時変数xとyを初期化する(ステップ3)。続いて、話題性評価手段107により算出された話題性評価値h(c,t)をxに代入する(ステップ4)。また、コンテンツcを作成したユーザuを取得する(ステップ5)。コンテンツcを作成したユーザuの情報は、ユーザ影響力予測手段106から受け取ることとしてもよいし、コンテンツ情報記憶装置104から取得してもよい。
First, temporary variables x and y are initialized (step 3). Subsequently, the topicality evaluation value h (c, t) calculated by the topicality evaluation means 107 is substituted for x (step 4). Also, the user u who created the content c is acquired (step 5). Information about the user u who created the content c may be received from the user
次に、ユーザuを解析済みかどうかをチェックし(ステップ6)、解析済みでなければステップ7に進み、解析済みであればステップ9に進む。 Next, it is checked whether or not the user u has been analyzed (step 6). If it has not been analyzed, the process proceeds to step 7, and if it has been analyzed, the process proceeds to step 9.
ユーザuを解析済みでない場合のステップ7では、ユーザ影響力予測手段106によりユーザ影響力予測値g(u,t)を算出し、算出されたユーザ影響力予測値g(u,t)をyに代入する。そして、uとyの組み合わせを記憶媒体(時間重み付き結合手段108が備えるメモリ等)に格納する(ステップ8)。
In
ユーザuを解析済みである場合のステップ9では、 記憶媒体中のユーザuの影響力予測値をyに代入する。
In
続いて、コンテンツcを作成した時間tcを取得する(ステップ10)。コンテンツcを作成した時間tcは、話題性評価手段107から受け取ってもよいし、コンテンツ情報記憶装置104から取得してもよい。
Subsequently, the time tc when the content c is created is acquired (step 10). The time tc when the content c is created may be received from the
次に、t − tcをΔtに代入し(ステップ11)、前述した下記の計算を行ってf(c,u,t)を求める(ステップ12)。 Next, t−tc is substituted for Δt (step 11), and the following calculation is performed to obtain f (c, u, t) (step 12).
出力部109は、時間重み付き結合手段108の処理結果に基づき、検索部101で指定された条件を満たすコンテンツ集合を並び替えて表示出力するための機能部である。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信等を含む概念である。出力部109は、例えば、ディスプレイやスピーカ等の出力デバイスと出力デバイスのドライバソフトにより実現される。また、出力部109を、ディスプレイやスピーカ等の出力デバイスを含まない機能部としてもよい。この場合、例えば、装置外部に出力デバイスが存在し、出力部109は、出力デバイスのドライバソフトとして構成される。
The
(実施例)
以下、第一の実施の形態における実施例を説明する。
(Example)
Hereinafter, examples in the first embodiment will be described.
図3、図4、図5に本実施例におけるユーザ情報記憶装置102、コンテンツ情報記録装置103、引用情報記憶装置104に格納されている情報の一例を示す。
3, 4, and 5 show examples of information stored in the user
ユーザ情報記憶装置102に格納されている情報(図3)に関し、前記の通り、各ユーザ情報の推移を時系列的に追うことも可能である。図3のリンクという概念は、ユーザからユーザへの興味を表すものである一方、図5の引用という概念は、ユーザ(が作成したコンテンツ)からコンテンツへの興味を表す概念である。図4のコンテンツc400は、コンテンツc500の情報をテキスト中で引用しているため、図5の引用情報に格納されている。 Regarding the information stored in the user information storage device 102 (FIG. 3), as described above, the transition of each user information can be followed in time series. The concept of link in FIG. 3 represents an interest from the user to the user, while the concept of quoting in FIG. 5 represents a concept of interest from the user (content created by the user) to the content. The content c400 of FIG. 4 is stored in the citation information of FIG. 5 because the information of the content c500 is cited in the text.
<回帰木の学習データ作成例>
まず、図3、図4、図5の例を用いて、ユーザ影響力予測手段106の回帰木の学習データ作成方法を説明する。今、データを分割する日付を2012/1/15 00:00:00とする。図6は、ユーザIDがu1のユーザについて作成した学習データである。分割日付から見て最新のユーザ情報(リンク数、被リンク数、発信情報数など)を図3に示すユーザ情報から取得し、同時に、分割日付時点でユーザu1が発信したコンテンツが他のユーザに引用された総数も図4(コンテンツ情報)と図5(引用情報)に基づいて計算する。これらは、説明変数である。さらに、分割日付以降にユーザu1が発信したコンテンツが他のユーザに引用された総数を計算し、目的変数としてセットする。これを全ユーザに関して繰り返して計算するため、図6のテーブルの行数は全ユーザ数に等しくなる。なお、各変数のスケールが大きく異なる場合には、変数値の常用対数、自然対数を計算し、スケールを揃えた新たな変数値として用いても良い。
<Example of learning data for regression tree>
First, the learning data creation method of the regression tree of the user influence predicting means 106 will be described with reference to the examples of FIGS. Now, the date to divide the data is 2012/1/15 00:00:00. FIG. 6 shows learning data created for the user whose user ID is u1. The latest user information (number of links, number of links, number of outgoing information, etc.) viewed from the split date is acquired from the user information shown in FIG. 3, and at the same time, the content sent by the user u1 at the split date is sent to other users. The total number quoted is also calculated based on FIG. 4 (content information) and FIG. 5 (citation information). These are explanatory variables. Further, the total number of contents sent by the user u1 after the division date is quoted by other users is calculated and set as an objective variable. Since this is repeated for all users, the number of rows in the table of FIG. 6 is equal to the total number of users. When the scale of each variable is greatly different, the common logarithm and natural logarithm of the variable value may be calculated and used as a new variable value with the same scale.
データを分割する日付は、話題性評価手段107の出力と時間スケールを合わせて設定する。例えば、話題性評価手段107が一週間当たりの話題性評価値を算出するとした場合、回帰木も一週間当たりにユーザが引用される回数の予測値を出力するように学習する。例えば、一週間前から現在までに観測したデータを目的変数として使い、それよりも前の期間に観測したデータを説明変数として使えば良い。これにより、回帰木は、ある時点から一週間後までにユーザが引用される回数を予測するモデルとなる。
The date for dividing the data is set by combining the output of the topicality evaluation means 107 and the time scale. For example, when the
<話題性評価手段107の動作例>
次に、話題性評価手段107の動作を、例を用いて説明する。今、2012年1月1日 10:00:00に発信された2つのコンテンツAとBが存在したとする。2012年1月1日 12:00:00現在で、コンテンツAが他のユーザによって引用された回数は100回、コンテンツBが他のユーザによって引用された回数は10回だったとする。この場合、一時間当たりの被引用数を計算すると、コンテンツAが50回毎時、コンテンツBが5回毎時となり、話題性評価手段107はコンテンツAの話題性がコンテンツBと比べて高いと判断する。
<Example of operation of topicality evaluation means 107>
Next, the operation of the
<時間重み付き結合手段108の動作例>
次に、時間重み付き結合手段108の動作を、例を用いて説明する。今、ユーザXが、2012年1月1日 10:00:00に発信したコンテンツAと、同時刻にユーザYが発信したコンテンツBがあったとする。減衰パラメータTは6時間、現在時刻は2012年1月1日 16:00:00とする。現在時刻の時点で、話題性評価手段107が算出したコンテンツAの話題性は15回毎時、コンテンツBの話題性も100回毎時であった。一方で、ユーザ影響力予測手段106が評価したユーザXの予測影響力は10回毎時、ユーザYの予測影響力は100回毎時であった。ここで、ユーザ影響力予測手段106の回帰木は、現在時間から一時間後のユーザ当たりの引用数を予測するように学習されていたとする。つまり、話題性評価手段107とユーザ影響力予測手段106の出力のスケールは等しい。時間重み付き結合手段108は、コンテンツが発信された時点(2012年1月1日 10:00:00)において、ユーザの影響力に基づく予測を行うため、コンテンツAの値を10、コンテンツBの値を100と評価する。こうすることで、ほとんど引用されていない情報でも、発信者の影響力に基づく予測をすることで、最終的に重要な情報を素早く発見することができる(コンテンツBの話題性は最終的に100回毎時)。
<Operation Example of Time Weighted Combining
Next, the operation of the time weighted combining
また、時間経過と予測値の変化を、実例を用いて説明する。今、ユーザXが、2012年1月1日 10:00:00に発信したコンテンツAと、同時刻にユーザYが発信したコンテンツBがあったとする。減衰パラメータTは6時間とする。また、コンテンツが発信された後、話題性評価手段107が算出したコンテンツAの話題性は常に50回毎時、コンテンツBの話題性は常に5回毎時であったとする。一方で、ユーザ影響力予測手段106がコンテンツを発信した時点で評価したユーザXの予測影響力は5回毎時、ユーザYの予測影響力は50回毎時であった。ここで、ユーザ影響力予測手段106の回帰木は、現在時間から一時間後のユーザ当たりの引用数を予測するように学習されていたとする。時間重み付き結合手段108は、コンテンツが発信された時点(2012年1月1日 10:00:00)では、ユーザの影響力に基づく予測を行うため、コンテンツAの値を5、コンテンツBの値を50と評価する。時間の経過に従い、引用数に基づく話題性評価手段107の結果に従った値を出力するようになり、6時間後には、コンテンツAの値を33.4454、コンテンツBの値を21.5546と評価する。本例における経過時間とスコアの推移を図7に示す。
Moreover, the passage of time and the change in the predicted value will be described using actual examples. Now, assume that there is content A sent by user X on January 1, 2012 at 10:00:00 and content B sent by user Y at the same time. The attenuation parameter T is 6 hours. Further, after the content is transmitted, it is assumed that the topicality of the content A calculated by the
<検索部101、出力部109の表示例>
本実施例における検索部101により表示される情報、及び出力部109により表示される情報の例を図8に示す。検索部101における表示形式は、コンテンツ情報記憶装置104の形式に応じて、検索項目を変更しても良い。出力部109は、時間重み付き結合手段108の値に応じて、コンテンツをランキング表示できる(例えば、評価値が高いほど上位に表示する)。また、コンテンツ情報記憶装置104に格納されたコンテンツの関連情報を同時に表示することが可能である。
<Display Examples of
An example of information displayed by the
[第二の実施の形態]
以下、本装置の第二の形態について図面を参照して説明する。
[Second Embodiment]
Hereinafter, a second embodiment of the present apparatus will be described with reference to the drawings.
図9は、本発明の第二の実施の形態における情報伝搬予測装置200のブロック図である。同図に示す情報伝搬予測装置200は、検索部101、コンテンツ情報記憶装置104、引用情報記憶装置103、ユーザ情報記憶装置102、評価対象コンテンツ抽出手段105、話題性評価手段107、トピック解析手段201、トピック条件付きユーザ影響力予測手段202、時間重み付き結合手段203から構成されている。このうち、検索部101、コンテンツ情報記憶装置104、引用情報記憶装置103、ユーザ情報記憶装置102、評価対象コンテンツ抽出手段105、話題性評価手段107は第一の実施の形態と同じであり、同じ参照符号を付している。なお、トピック条件付きユーザ影響力予測手段202の中にトピック解析手段201を備える構成としてもよい。
FIG. 9 is a block diagram of an information
<トピック解析手段201>
トピック解析手段201は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合の各コンテンツから、「政治」、「経済」、「スポーツ」など、該コンテンツが何のトピックに関して発信された情報なのかを抽出する。トピックの解析は、教師付きでコンテンツをトピックに分類するSVMや教師なしでコンテンツをトピックに分類するPLSA、LDAなど、既存のトピック解析器であれば何を使って実現しても良い。コンテンツから抽出したトピック情報は、トピック条件付きユーザ影響力予測手段202へと送信される。
<Topic analysis means 201>
The
<トピック条件付きユーザ影響力予測手段202>
トピック条件付きユーザ影響力予測手段202は、評価対象コンテンツ抽出手段105の出力である各コンテンツを発信したユーザの、該コンテンツが属するトピックにおける未来の影響力を予測する手段である。トピック条件付きユーザ影響力予測手段202は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合の各コンテンツに対して、以下の操作を繰り返す。
<Topic Conditional User
The user condition predicting means 202 with topic condition is a means for predicting the future influence on the topic to which the content belongs by the user who transmitted each content that is the output of the evaluation target
トピック条件付きユーザ影響力予測手段202は、ユーザ情報記憶装置102に問い合わせを行い、該コンテンツを発信したユーザを取得する。次に該ユーザのトピック非依存なユーザ特徴量を抽出する。トピック非依存な特徴量は、ユーザ情報記憶装置102に記憶されている、最新のリンク数、被リンク数、発信情報数等である。次に、該コンテンツが属するトピックにおける、該ユーザの過去の実績を示すトピック依存なユーザ特徴量を抽出する。具体的には、コンテンツ情報記憶装置104、及び、引用情報記憶装置103に問い合わせを行い、過去に、各ユーザが該トピックに関して生成したコンテンツが他のユーザに引用された回数の合計、過去一ヶ月間で各ユーザが該トピックに関して生成したコンテンツが他のユーザに引用された回数の合計、各ユーザが該トピックに関して1つの投稿を行ったときに他のユーザに引用された平均回数等の統計量を計算し、各ユーザのトピック依存な特徴量とする。
The user influence prediction means 202 with topic condition makes an inquiry to the user
コンテンツ情報記憶装置104の各コンテンツ情報がトピック属性を既に持っている場合(例えば、図10に示すようなデータの場合)は、各ユーザが該トピックに関して発信したコンテンツ集合を取得し、そのコンテンツ集合から引用回数等を集計することで前記の処理を実現できる。コンテンツ情報記憶装置104の各コンテンツ情報がトピック属性を持っていない場合は、トピック解析手段201を用いて、各コンテンツのトピック情報を各コンテンツに付与するステップを追加する。
When each piece of content information in the content
最後に、これらの過去の特徴量をもとに、未来の一定期間で各ユーザがあるトピックに関して引用される総数を予測する。第一の実施の形態と同様に、過去の特徴量を入力とし、未来の一定期間で引用される総数を予測し、出力するモデルは、回帰木など、機械学習分野における既存の予測モデルを用いて構成し得る。回帰木は説明変数の値をもとに、目的変数の実数値を予測するモデルである。つまり、本装置においては、これまでにわかっているユーザ特徴量(説明変数)をもとに、未来の一定期間でユーザが引用される回数(目的変数)を予測する。第一の実施の形態のユーザ影響力予測手段106と同様、どの期間における引用回数を予測するかは回帰木の学習方法に依存するが、話題性抽出手段107の時間スケールと揃えて設定する必要がある。トピック条件付きユーザ影響力予測値は、時間重み付き結合手段203へと送られる。また、ユーザ当たりではなく、(ユーザかつ)コンテンツ当たりの予測引用回数としても良い。例えば、一週間で期待されるユーザ当たりの引用回数を算出後、その値をユーザが一週間で平均的に発信するコンテンツ数で割った値を採用しても良い。
Finally, based on these past feature quantities, the total number quoted for a certain topic for each user over a certain period in the future is predicted. Similar to the first embodiment, the past feature quantity is input, the total number quoted in a fixed period in the future is predicted, and the output model is an existing prediction model in the machine learning field such as a regression tree. Can be configured. The regression tree is a model that predicts the real value of the objective variable based on the value of the explanatory variable. That is, in this apparatus, the number of times a user is cited (objective variable) in a future fixed period is predicted based on the user feature value (explanatory variable) known so far. Similar to the user
なお、第一の実施の形態と同様、回帰木などの予測モデルの学習フェーズは、予測フェーズの事前処理として行う。予測モデルの生成は、全データを用いて行っても良いし、トピック毎のデータを用いて行ってもどちらでも良い。 Note that, as in the first embodiment, the learning phase of a prediction model such as a regression tree is performed as a preliminary process of the prediction phase. The generation of the prediction model may be performed using all data, or may be performed using data for each topic.
<時間重み付き結合手段203>
第二の実施の形態における時間重み付き結合手段203は、トピック条件付きユーザ影響力予測手段202が算出したトピック条件付きユーザ影響力と、話題性評価手段107が算出した話題性評価値を時間重み付きで結合する手段である。この手段は、第一の実施の形態と同様に、あるコンテンツが作成されてすぐの時は、トピック条件付きユーザ影響力予測値を重視し、あるコンテンツが作成されてから時間が経過するほど話題性評価値を重視するような関数により実現される。例えば、以下の方法で結合する方法が考えられる。今、ユーザuによって生成されたコンテンツcの現在時刻tの評価値f(c,u,t)を算出したいとする。前記トピック解析手段201の結果、コンテンツcが属するトピックはzcであった。トピック条件付きユーザ影響力予測手段202が算出した現在時刻tのトピックzにおけるトピック条件付きユーザ影響力予測値を返す関数をg(u,t,z)、話題性評価手段107が算出した話題性評価値を返す関数をh(c,t)とする。この場合、結合式は以下のようになる。
<Time
The time weighted combining
第一の実施の形態と比べた場合の第二の実施の形態の特徴は、トピック毎のユーザ影響力を考慮する点である。これによって、ある情報発信者が、過去に活躍したトピック(政治家なら政治トピック)と同じ、あるいは近いコンテンツを発信した場合にそのコンテンツの価値を高いと判定し、過去に活躍していないトピックと同じ、あるいは近いコンテンツを発信した場合にそのコンテンツの価値は低いと判定する。 The feature of the second embodiment compared to the first embodiment is that the user influence for each topic is taken into consideration. As a result, when an information sender sends content that is the same as or close to a topic that has been active in the past (politics if it is a politician), the content is judged to have a high value, and the topic has not been active in the past. When the same or similar content is transmitted, it is determined that the value of the content is low.
[第三の実施の形態]
以下、本装置の第三の形態について図面を参照して説明する。
[Third embodiment]
Hereinafter, a third embodiment of the present apparatus will be described with reference to the drawings.
図11は、本発明の第三の実施の形態における情報伝搬予測装置300のブロック図である。同図に示す情報伝搬予測装置300は、検索部101、コンテンツ情報記憶装置104、引用情報記憶装置103、ユーザ情報記憶装置102、評価対象コンテンツ抽出手段105、話題性評価手段107、トピック解析手段201、トピック条件付きユーザ影響力予測手段202、コンテンツ特徴抽出手段301、コンテンツ特徴による影響力予測手段302、時間重み付き結合手段303から構成されている。このうち、検索部101、コンテンツ情報記憶装置104、引用情報記憶装置103、ユーザ情報記憶装置102、評価対象コンテンツ抽出手段105、話題性評価手段107、トピック解析手段201、トピック条件付きユーザ影響力予測手段202は第二の実施の形態と同じである。
FIG. 11 is a block diagram of an information
<コンテンツ特徴抽出手段301>
コンテンツ特徴抽出手段301は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合の各コンテンツを対象に、各コンテンツの特徴量を抽出する。コンテンツ自身の特徴とは、作成した日付や、コンテンツがテキストの場合は、そのテキストを解析することで得られる文書長などの統計量、画像であれば色特徴やSIFT-BoW 特徴などの画像特徴量、文書中にURLを含むかといった情報などである。Twitter(登録商標)データなどの特定のデータを用いる場合は、ユーザからユーザへの返信を示す記号である@を含むかといった当該サービスに特有な情報を使っても良い。コンテンツ情報記憶装置104にコンテンツID集合をもとに問い合わせを行い、これらのコンテンツの情報を取得し、基本統計量の抽出を行う。また、前記のトピック解析手段201を利用し、そのコンテンツが「政治経済」、「スポーツ」など、何のトピックに関して発信された情報なのかも抽出し、コンテンツ特徴としても良い。抽出したコンテンツ特徴は、コンテンツ特徴量による影響力予測手段302へと送信される。
<Content
The content
<コンテンツ特徴量による影響力予測手段302>
コンテンツ特徴量による影響力予測手段302は、評価対象コンテンツ抽出手段105の出力であるコンテンツ集合の各コンテンツを対象に、前記コンテンツ特徴抽出手段301で得られた各コンテンツ自身のコンテンツ特徴量をもとに、そのコンテンツが将来的にどの程度引用されるかを予測する手段である。コンテンツの特徴量を入力とし、未来の一定期間で引用される総数を予測し、出力するモデルは、ユーザ影響力予測手段106等と同様、回帰木など、機械学習分野における既存の予測モデルを用いて構成し得る。コンテンツ影響力の予測値は、時間重み付き結合手段303へと送られる。
<
The influence predicting means 302 based on the content feature amount is based on the content feature amount of each content itself obtained by the content feature extraction means 301 for each content of the content set that is the output of the evaluation target content extraction means 105. In addition, it is a means for predicting how much the content will be cited in the future. The model that predicts the total number quoted in a certain period in the future with the feature amount of the content as input, and uses the existing prediction model in the machine learning field such as regression tree as the user influence prediction means 106 and the like. Can be configured. The predicted value of the content influence is sent to the time weighted combining unit 303.
以下、本実施の形態における回帰木学習のための学習データの作成について説明する。なお、前述したとおり、学習データ作成を含む学習フェーズは事前処理として行い、事前処理で得られた回帰木データはメモリ等の記憶手段に格納され、予測フェーズで参照される。 Hereinafter, creation of learning data for regression tree learning in the present embodiment will be described. As described above, the learning phase including learning data creation is performed as pre-processing, and the regression tree data obtained by the pre-processing is stored in a storage unit such as a memory and referred to in the prediction phase.
最初に、コンテンツ情報記憶装置104に格納されているコンテンツ集合を取得する。
First, a content set stored in the content
次に、コンテンツ特徴抽出手段301を用いて、各コンテンツに関する、前記コンテンツ自身の特徴を抽出し、説明変数とする。同時に、引用情報記憶装置103に問い合わせを行い、該コンテンツが発信された時間から一定期間の間で引用された回数を算出し、目的変数とする。コンテンツ集合中の各コンテンツを、説明変数と目的変数との組み合わせとから成る情報へと変換した後、全コンテンツ情報をもとに、回帰木を作成する。回帰木の学習方法は、前記第一の実施の形態のユーザ影響力予測手段106での説明と同様である。上記の学習方法で作成した回帰木は、あるコンテンツが発信されてから、未来の一定期間で該コンテンツが引用される回数を予測するモデルである。目的変数を、コンテンツが発信されてから一週間後の引用回数とした場合、作成した回帰木は、発信されてから一週間後の該コンテンツの引用回数を予測するモデルとなる。なお、"一週間"などのパラメータは、ユーザ影響力予測手段202や話題性評価手段107の出力に合わせて設定する。例えば、ユーザ影響力予測手段202が、"一ヶ月間"の引用回数を予測するモデルとした場合、コンテンツ特徴量による影響力予測手段302も、コンテンツが発信されてから"一ヶ月間"で引用される回数を予測するモデルを学習とする。つまり、目的変数を、コンテンツが発信されてから一ヶ月後の引用回数とする。
Next, using the content
<時間重み付き結合手段303>
本実施の形態における時間重み付き結合手段303は、トピック条件付きユーザ影響力予測手段202が算出したトピック条件付きユーザ影響力と、話題性評価手段107が算出した話題性評価値と、コンテンツ特徴量による影響力予測手段302が算出したコンテンツ特徴量による予測影響力を時間重み付きで結合する手段である。当該手段は、あるコンテンツが作成されてすぐの時は、トピック条件付きユーザ影響力予測値とコンテンツ特徴量による予測影響力を評価値として重視し、あるコンテンツが作成されてから時間が経過するほど話題性評価値を重視するような関数により実現される。例えば、以下の方法で結合する方法が考えられる。
<Time weighted combining means 303>
The time-weighted combining unit 303 according to the present embodiment includes the topic condition user influence calculated by the topic condition user
今、ユーザuによって生成されたコンテンツcの現在時刻tの評価値f(c,u,t)を算出したいとする。前記トピック解析手段201の結果、コンテンツcのトピックはzcであった。また、トピック条件付きユーザ影響力予測手段202が算出した現在時刻tのトピックzにおけるトピック条件付きユーザ影響力予測値を返す関数をg(u,t,z)、話題性評価手段107が算出した話題性評価値を返す関数をh(c,t)、コンテンツ特徴量による影響力予測手段302が算出したコンテンツ特徴量による予測影響力を返す関数をi(c)とすると、例えば、結合式は以下のようになる。
Assume that it is desired to calculate the evaluation value f (c, u, t) of the current time t of the content c generated by the user u. Results of the
第三の実施の形態の特徴は、コンテンツ自体の特徴を考慮する点である。これによって、「挨拶」や「独り言」のようなコンテンツを排除し、意見やレビューなど、内容の濃いツイートを積極的に評価することができる。なお、第三の実施の形態は、第二の実施の形態に対してコンテンツ特徴抽出手段301、及びコンテンツ特徴による影響力予測手段302を付加した形態であるが、第一の実施の形態に、コンテンツ特徴抽出手段301、及びコンテンツ特徴による影響力予測手段302を付加し、上記と同様にしてコンテンツ自体の特徴を考慮した評価を行うこととしてもよい。
The feature of the third embodiment is that the feature of the content itself is taken into consideration. As a result, content such as “greeting” and “self-speaking” can be excluded, and tweets with deep contents such as opinions and reviews can be positively evaluated. In the third embodiment, content feature extraction means 301 and influence prediction means 302 based on content features are added to the second embodiment. The content
(実施の形態のまとめ)
これまでに説明したように、本発明の第一の実施の形態によれば、ある人物がソーシャルメディア上で発信したコンテンツが将来的に何人の人々に到達するかを予測する影響力予測装置が提供される。当該影響力予測装置は、情報発信者の過去、または現時点の実績を示すユーザ特徴量をもとに、該情報発信者の未来の影響力を予測するユーザ影響力予測手段と、発信されたコンテンツの現時点での話題性を話題性評価値として求める話題性評価手段と、
コンテンツが発信されてから間もない時点では、前記ユーザ影響力予測手段で求めた、該コンテンツを発信した情報発信者の未来の影響力に基づいてコンテンツの未来の影響力を予測し、コンテンツが発信されてから時間が経過するほど、前記話題性評価手段で求めた該コンテンツの話題性評価値に基づいてコンテンツの未来の影響力を予測する時間重み付き結合手段と、を有する。
(Summary of embodiment)
As described above, according to the first embodiment of the present invention, there is an influence prediction device that predicts how many people a content sent by a person on social media will reach in the future. Provided. The influence prediction device includes a user influence prediction unit that predicts a future influence of the information sender based on a user feature amount indicating the past or current performance of the information sender, and transmitted content. Topicity evaluation means for determining the current topicality as a topicality evaluation value,
At a point in time immediately after the content is transmitted, the future influence of the content is predicted based on the future influence of the information sender who has transmitted the content, which is obtained by the user influence prediction means, A time-weighted combining unit that predicts the future influence of the content based on the topical evaluation value of the content obtained by the topical evaluation unit as time elapses from the transmission.
また、本発明の第二の実施の形態によれば、ある人物がソーシャルメディア上で発信したコンテンツが将来的に何人の人々に到達するかを予測する影響力予測装置であって、発信されたコンテンツの現時点での話題性を話題性評価値として求める話題性評価手段と、コンテンツが何のトピックに関して発信された情報なのかを解析するトピック解析手段と、前記トピック解析手段で抽出した該トピックにおける、情報発信者の過去、または現時点の実績を示すトピック依存のユーザ特徴量をもとに、該情報発信者の該トピックにおける未来の影響力を予測するトピック条件付きユーザ影響力予測手段と、コンテンツが発信されてから間もない時点では、前記トピック条件付きユーザ影響力予測手段で求めた該コンテンツを発信した情報発信者の該トピックにおける未来の影響力に基づいてコンテンツの未来の影響力を予測し、コンテンツが発信されてから時間が経過するほど、前記話題性評価手段で求めた該コンテンツの話題性評価値に基づいてコンテンツの未来の影響力を予測する時間重み付き結合手段と、を有する影響力予測装置が提供される。 In addition, according to the second embodiment of the present invention, there is provided an influence prediction device that predicts how many people a content sent by a person on social media will reach in the future. Topicity evaluation means for determining the current topicality of content as a topicality evaluation value, topic analysis means for analyzing what topic the content is transmitted about, and the topic extracted by the topic analysis means A topic-conditional user influence predicting means for predicting the future influence of the information sender on the topic based on a topic-dependent user feature amount indicating the past or present performance of the information sender, and content Information sender who sent the content obtained by the topic conditional user influence predicting means at a short time after the message was sent The future influence of the content is predicted based on the future influence on the topic, and based on the topicality evaluation value of the content obtained by the topicality evaluation means as time elapses after the content is transmitted. There is provided an impact prediction device having time-weighted combining means for predicting the future impact of content.
また、本発明の第三の実施の形態によれば、ある人物がソーシャルメディア上で発信したコンテンツが将来的に何人の人々に到達するかを予測する影響力予測装置であって、発信されたコンテンツの現時点での話題性を話題性評価値として求める話題性評価手段と、コンテンツが何のトピックに関して発信された情報なのかを解析するトピック解析手段と、前記トピック解析手段で抽出した該トピックにおける、情報発信者の過去、または現時点の実績を示すトピック依存のユーザ特徴量をもとに、該情報発信者の該トピックにおける未来の影響力を予測するトピック条件付きユーザ影響力予測手段と、コンテンツ自身の特徴量を抽出するコンテンツ特徴抽出手段と、前記コンテンツ特徴抽出手段が抽出したコンテンツ特徴量をもとに、そのコンテンツが将来的に何人の人々に到達するかを予測するコンテンツ特徴量による影響力予測手段と、コンテンツが発信されてから間もない時点では、前記トピック条件付きユーザ影響力予測手段で求めた該コンテンツを発信した情報発信者の該トピックにおける未来の影響力と、前記コンテンツ特徴量による影響力予測手段で求めた該コンテンツ自身の影響力に基づいてコンテンツの未来の影響力を予測し、コンテンツが発信されてから時間が経過するほど、前記話題性評価手段で求めた該コンテンツの話題性評価値に基づいてコンテンツの未来の影響力を予測する時間重み付き結合手段と、を有する影響力予測装置が提供される。 In addition, according to the third embodiment of the present invention, there is provided an influence predicting device that predicts how many people a content sent by a person on social media will reach in the future. Topicity evaluation means for determining the current topicality of content as a topicality evaluation value, topic analysis means for analyzing what topic the content is transmitted about, and the topic extracted by the topic analysis means A topic-conditional user influence predicting means for predicting the future influence of the information sender on the topic based on a topic-dependent user feature amount indicating the past or present performance of the information sender, and content Based on content feature extraction means for extracting its own feature quantity and the content feature quantity extracted by the content feature extraction means, The impact prediction means based on the content feature amount that predicts how many people the content will reach in the future, and the topic conditional user impact prediction means at the time immediately after the content is transmitted The future influence of the content is predicted based on the future influence on the topic of the information sender who sent the content, and the influence of the content itself obtained by the influence prediction means based on the content feature amount. A time-weighted combining unit that predicts the future influence of the content based on the topical evaluation value of the content obtained by the topical evaluation unit as time elapses from the transmission. Is provided.
上記の各影響力予測装置において、影響力を予測したいコンテンツを絞り込むための条件を指定する評価対象コンテンツ抽出手段を備えてもよい。また、ユーザ影響力予測手段は、例えば、現時点で何人の人に興味を持たれているかを基に求めた統計量、もしくは、過去に発信したコンテンツが何人の人々に到達したかを基に求めた統計量のいずれかを、情報発信者の未来の影響力を予測するためのユーザ特徴量として用いる。 Each of the influence prediction apparatuses described above may include an evaluation target content extraction unit that specifies conditions for narrowing down the content for which influence is to be predicted. In addition, the user influence prediction means is calculated based on, for example, a statistic obtained based on how many people are interested in the current time, or on how many people the content transmitted in the past has reached. One of the statistics is used as a user feature for predicting the future influence of the information sender.
また、話題性評価手段は、例えば、発信されたコンテンツが現時点で何人の人々に到達しているかを基に求めた統計量、もしくは、人々に到達する時間間隔を基に求めた統計量のいずれかをもとに、話題性評価値を求める。 In addition, the topicality evaluation means may be, for example, either a statistic obtained based on how many people the transmitted content reaches at the present time, or a statistic obtained based on the time interval to reach the people. Based on the above, the topicality evaluation value is obtained.
また、トピック条件付きユーザ影響力予測手段は、例えば、現時点で何人の人に興味を持たれているかを基に求めた統計量、もしくは、該トピックに関して情報発信者が過去に発信したコンテンツが、何人の人々に到達したかを基に求めた統計量のいずれかを、該情報発信者の該トピックにおける未来の影響力を予測するためのユーザ特徴量として用いる。 In addition, the topic condition user influence prediction means, for example, the statistics obtained based on how many people are interested in the current time, or the content sent by the information sender in the past regarding the topic, Any of the statistics obtained based on how many people have been reached is used as a user feature for predicting the future influence of the information sender on the topic.
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。 The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
100 情報伝搬予測装置
101 検索部
102 ユーザ情報記憶装置
103 引用情報記憶装置
104 コンテンツ情報記憶装置
105 評価対象コンテンツ抽出手段
106 ユーザ影響力予測手段
107 話題性評価手段
108 時間重み付き結合手段
109 出力部
201 トピック解析手段
202 トピック条件付きユーザ影響力予測手段
203 時間重み付き結合手段
301 コンテンツ特徴抽出手段
302 コンテンツ特徴による影響力予測手段
303 時間重み付き結合手段
DESCRIPTION OF
Claims (7)
ソーシャルメディア上でのユーザ間のリンクに関する情報を含むユーザ情報を格納したユーザ情報記憶装置、及びコンテンツ間の互いの引用状況を示す引用情報を格納した引用情報記憶装置のそれぞれから、前記コンテンツを発信したユーザである発信ユーザについての特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記発信ユーザの現時点での将来的な影響力を示す影響力評価値を求める影響力予測手段と、
前記発信ユーザにより発信された前記コンテンツが生成されてから現時点までの間の単位時間当たりの当該コンテンツの平均引用数を、当該コンテンツの現時点での話題性を示す話題性評価値として求める話題性評価手段と、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する時間重み付き結合手段と、
を有することを特徴とする影響力予測装置。 An impact prediction device that calculates an evaluation value that indicates the current impact of content sent on social media,
The content is transmitted from each of a user information storage device storing user information including information related to a link between users on social media, and a citation information storage device storing citation information indicating mutual citation status between contents. The influence which calculates | requires the influence evaluation value which shows the future influence of the said transmission user at the present time by acquiring the feature-value about the transmission user who is a user and using a prediction model based on the said feature-value Prediction means;
Topicity evaluation for obtaining the average number of citations of the content per unit time from the generation of the content transmitted by the transmitting user to the present time as the topicality evaluation value indicating the topicality of the content at the current time Means,
A weight at the present time calculated so that the elapsed time from the time when the content is transmitted to the present time becomes smaller is added to the influence evaluation value, and the weight is calculated so as to increase as the elapsed time becomes larger. And adding a weight to the topic evaluation value, and calculating a comprehensive evaluation value indicating the future influence of the content from the weighted influence evaluation value and the topic evaluation value. Time-weighted combining means to output
The influence prediction apparatus characterized by having.
ことを特徴とする請求項1に記載の影響力予測装置。 The influence prediction means includes topic extraction means for extracting a topic of the content transmitted by the transmission user, and the influence prediction means is extracted from the citation information storage device by the topic extraction means. The feature value of the calling user in the topic is acquired, and based on the feature value, the prediction value is used to obtain an evaluation value indicating the future influence of the calling user in the topic at the present time. It calculates as a value. The influence prediction apparatus of Claim 1 characterized by the above-mentioned.
前記発信ユーザにより発信された前記コンテンツの特徴量を抽出するコンテンツ特徴量抽出手段と、
前記コンテンツ特徴量抽出手段により抽出された前記コンテンツの特徴量に基づいて、予測モデルを用いることにより、当該コンテンツの将来的な影響力を示すコンテンツ影響力評価値を算出するコンテンツ影響力予測手段と、
を更に備え、
前記時間重み付き結合手段は、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値及び前記コンテンツ影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記コンテンツ影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する
ことを特徴とする請求項1又は2に記載の影響力予測装置。 The influence prediction device
Content feature amount extraction means for extracting feature amounts of the content transmitted by the transmitting user;
Content impact prediction means for calculating a content impact evaluation value indicating a future impact of the content by using a prediction model based on the content feature amount extracted by the content feature amount extraction means; ,
Further comprising
The time weighted combining means is:
A weight at the present time calculated so as to decrease as the elapsed time from when the content is transmitted to the present time becomes larger is added to the influence evaluation value and the content influence evaluation value, and the elapsed time is increased. The weight at the present time calculated so as to become larger is added to the topical evaluation value, and the content evaluation is performed from the weighted influence evaluation value, the content influence evaluation value, and the topicality evaluation value. The influence evaluation apparatus according to claim 1, wherein a comprehensive evaluation value indicating a future influence of is calculated and output.
ソーシャルメディア上でのユーザ間のリンクに関する情報を含むユーザ情報を格納したユーザ情報記憶装置、及びコンテンツ間の互いの引用状況を示す引用情報を格納した引用情報記憶装置のそれぞれから、前記コンテンツを発信したユーザである発信ユーザについての特徴量を取得し、当該特徴量に基づいて、予測モデルを用いることにより、前記発信ユーザの現時点での将来的な影響力を示す影響力評価値を求める影響力予測ステップと、
前記発信ユーザにより発信された前記コンテンツが生成されてから現時点までの間の単位時間当たりの当該コンテンツの平均引用数を、当該コンテンツの現時点での話題性を示す話題性評価値として求める話題性評価ステップと、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する時間重み付き結合ステップと、
を有することを特徴とする影響力予測方法。 An impact prediction method executed by an impact prediction device that calculates an evaluation value indicating a future impact of content transmitted on social media at the present time,
The content is transmitted from each of a user information storage device storing user information including information related to a link between users on social media, and a citation information storage device storing citation information indicating mutual citation status between contents. The influence which calculates | requires the influence evaluation value which shows the future influence of the said transmission user at the present time by acquiring the feature-value about the transmission user who is a user and using a prediction model based on the said feature-value A prediction step;
Topicity evaluation for obtaining the average number of citations of the content per unit time from the generation of the content transmitted by the transmitting user to the present time as the topicality evaluation value indicating the topicality of the content at the current time Steps,
A weight at the present time calculated so that the elapsed time from the time when the content is transmitted to the present time becomes smaller is added to the influence evaluation value, and the weight is calculated so as to increase as the elapsed time becomes larger. And adding a weight to the topic evaluation value, and calculating a comprehensive evaluation value indicating the future influence of the content from the weighted influence evaluation value and the topic evaluation value. A time-weighted combination step to output
An influence prediction method characterized by comprising:
ことを特徴とする請求項4に記載の影響力予測方法。 In the influence prediction step, the influence prediction apparatus extracts the topic of the content transmitted by the transmission user, acquires the feature amount of the transmission user in the topic from the citation information storage device , and the characteristic The evaluation value indicating the future influence of the calling user at the present time on the topic is calculated as the influence evaluation value by using a prediction model based on the amount. Impact prediction method.
前記発信ユーザにより発信された前記コンテンツの特徴量を抽出するコンテンツ特徴量抽出ステップと、
前記コンテンツ特徴量抽出ステップにおいて抽出された前記コンテンツの特徴量に基づいて、予測モデルを用いることにより、当該コンテンツの将来的な影響力を示すコンテンツ影響力評価値を算出するコンテンツ影響力予測ステップと、
を更に備え、
前記時間重み付き結合ステップにおいて、前記影響力予測装置は、
前記コンテンツが発信された時点から現時点までの経過時間が大きくなるにつれて小さくなるように算出される現時点での重みを前記影響力評価値及び前記コンテンツ影響力評価値に付加し、前記経過時間が大きくなるにつれて大きくなるように算出される現時点での重みを前記話題性評価値に付加し、これらの重み付けされた前記影響力評価値と前記コンテンツ影響力評価値と前記話題性評価値とから前記コンテンツの将来的な影響力を示す総合評価値を算出して出力する
ことを特徴とする請求項4又は5に記載の影響力予測方法。 The influence prediction method is:
A content feature amount extracting step of extracting a feature amount of the content transmitted by the transmitting user;
A content influence prediction step of calculating a content influence evaluation value indicating a future influence of the content by using a prediction model based on the feature quantity of the content extracted in the content feature amount extraction step; ,
Further comprising
In the time-weighted combining step, the influence prediction device includes:
A weight at the present time calculated so as to decrease as the elapsed time from when the content is transmitted to the present time becomes larger is added to the influence evaluation value and the content influence evaluation value, and the elapsed time is increased. The weight at the present time calculated so as to become larger is added to the topical evaluation value, and the content evaluation is performed from the weighted influence evaluation value, the content influence evaluation value, and the topicality evaluation value. An impact prediction method according to claim 4 or 5, characterized in that a comprehensive evaluation value indicating future impact of is calculated and output.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012136306A JP5848199B2 (en) | 2012-06-15 | 2012-06-15 | Impact prediction device, impact prediction method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012136306A JP5848199B2 (en) | 2012-06-15 | 2012-06-15 | Impact prediction device, impact prediction method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014002482A JP2014002482A (en) | 2014-01-09 |
JP5848199B2 true JP5848199B2 (en) | 2016-01-27 |
Family
ID=50035624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012136306A Expired - Fee Related JP5848199B2 (en) | 2012-06-15 | 2012-06-15 | Impact prediction device, impact prediction method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5848199B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022269839A1 (en) * | 2021-06-23 | 2022-12-29 | 日本電信電話株式会社 | Information quality measurement device, information quality measurement method, and program |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111149127A (en) * | 2017-12-04 | 2020-05-12 | 索尼公司 | Information processing apparatus, information processing method, and program |
KR102052344B1 (en) * | 2018-06-11 | 2019-12-04 | 옴니어스 주식회사 | Method and apparatus for measuring influence in social network |
CN109670032A (en) * | 2019-01-09 | 2019-04-23 | 合肥工业大学 | A kind of microblogging forward direction influence power seniority among brothers and sisters method neural network based |
CN110362724B (en) * | 2019-07-23 | 2022-12-06 | 国家海洋环境监测中心 | Data filtering method and device, electronic equipment and readable storage medium |
CN111028087B (en) * | 2019-12-05 | 2023-09-22 | 中国银行股份有限公司 | Information display method, device and equipment |
JP2022012908A (en) * | 2020-07-02 | 2022-01-17 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and information processing program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5525470B2 (en) * | 2011-03-24 | 2014-06-18 | Kddi株式会社 | Influence calculation device, influence calculation method, and program |
-
2012
- 2012-06-15 JP JP2012136306A patent/JP5848199B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022269839A1 (en) * | 2021-06-23 | 2022-12-29 | 日本電信電話株式会社 | Information quality measurement device, information quality measurement method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2014002482A (en) | 2014-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101888919B1 (en) | Method and Apparatus for Marketing of Advertisement Based on User Influence | |
US11538064B2 (en) | System and method of providing a platform for managing data content campaign on social networks | |
JP5848199B2 (en) | Impact prediction device, impact prediction method, and program | |
US9294576B2 (en) | Social media impact assessment | |
US9928526B2 (en) | Methods and systems that predict future actions from instrumentation-generated events | |
Tatar et al. | From popularity prediction to ranking online news | |
Lu et al. | The emergence of opinion leaders in a networked online community: A dyadic model with time dynamics and a heuristic for fast estimation | |
JP5454357B2 (en) | Information processing apparatus and method, and program | |
Liu et al. | Reuters tracer: Toward automated news production using large scale social media data | |
US8972498B2 (en) | Mobile-based realtime location-sensitive social event engine | |
US20120278264A1 (en) | Techniques to filter media content based on entity reputation | |
US20070271519A1 (en) | System and Method for Collecting User Interest Data | |
JP5615857B2 (en) | Analysis apparatus, analysis method, and analysis program | |
US20140189000A1 (en) | Social media impact assessment | |
US20130246463A1 (en) | Prediction and isolation of patterns across datasets | |
US20130198240A1 (en) | Social Network Analysis | |
US9020962B2 (en) | Interest expansion using a taxonomy | |
KR101105798B1 (en) | Apparatus and method refining keyword and contents searching system and method | |
US20220067078A1 (en) | Aggregation system, Response Summary Process, and Method of Use | |
Yuan | Modeling inter-country connection from geotagged news reports: a time-series analysis | |
Mostafa | Mining halal food search pathways down the Wikipedia’s rabbit hole | |
Pauken et al. | Tracking happiness of different US cities from tweets | |
JP4213700B2 (en) | Blog community analysis device and program | |
CN115280314A (en) | Pattern-based classification | |
JP6467694B1 (en) | Search term evaluation device, evaluation system, evaluation method, and evaluation module production method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140908 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20140908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140908 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5848199 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |