JP6373767B2 - 話題語ランキング装置、話題語ランキング方法、およびプログラム - Google Patents

話題語ランキング装置、話題語ランキング方法、およびプログラム Download PDF

Info

Publication number
JP6373767B2
JP6373767B2 JP2015012821A JP2015012821A JP6373767B2 JP 6373767 B2 JP6373767 B2 JP 6373767B2 JP 2015012821 A JP2015012821 A JP 2015012821A JP 2015012821 A JP2015012821 A JP 2015012821A JP 6373767 B2 JP6373767 B2 JP 6373767B2
Authority
JP
Japan
Prior art keywords
topic word
topic
cluster
ranking
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015012821A
Other languages
English (en)
Other versions
JP2016139216A (ja
Inventor
昌美 中澤
昌美 中澤
啓一郎 帆足
啓一郎 帆足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2015012821A priority Critical patent/JP6373767B2/ja
Publication of JP2016139216A publication Critical patent/JP2016139216A/ja
Application granted granted Critical
Publication of JP6373767B2 publication Critical patent/JP6373767B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネットの投稿者の偏りを是正した話題語のランキングを作成する話題語ランキング装置、話題語ランキング方法、およびプログラムに関する。
インターネット上では、Twitter(登録商標)といったミニブログやブログ等のソーシャル・ネットワーキング・サービス(SNS)において、不特定多数のユーザがコメントの投稿を介して活発にやり取りをしている。従来、このようなコメントから抽出したキーワードから盛り上がっている話題を分析し、話題のランキングをリアルタイムにユーザに提供する技術がある(非特許文献1参照)。
また、Yahoo(登録商標)といった検索エンジンの検索結果を利用して、リアルタイム時系列検索数を集計し、急に検索数が増加したキーワードをランキング形式して話題のランキングを提供する技術も提案されている(特許文献1参照)。更に、情報検索結果に基づき作成されたランキングを、ユーザの検索結果履歴に基づいて修正する技術も提案されている(特許文献2参照)。
特開2013−11998号公報 特開2013−178831号公報
BIGLOBE、「ついっぷるトレンド」、インターネット[URL:http://tr.twipple.jp/]、<平成27年1月20日検索>
ところで、インターネット上の投稿にはアニメやITといった特定ジャンルの投稿が多く、インターネットの投稿者には偏りがある。そのため、非特許文献1、特許文献1、および特許文献2のいずれの技術により作成した、インターネット上の話題のキーワードランキングでは、特定ジャンルのキーワードが上位となり、それ以外のジャンルのキーワードは上位になりにくかった。その結果、インターネット上の話題のキーワードランキングは、世間の話題とはずれが生じているという問題点があった。
そこで、本発明は、上記課題に鑑み、インターネットの投稿者の偏りを是正して、世間の話題に合ったキーワードのランキングを作成する話題語ランキング装置、話題語ランキング方法、およびプログラムに関する。
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
(1) 本発明は、インターネット上の話題語のランキングを作成する話題語ランキング装置であって、前記インターネットへ投稿されたコメントを収集する収集手段(例えば、図1の収集部110に相当)と、前記収集手段で収集されたコメントに含まれる単語の出現頻度に基づいて、話題語を抽出する話題語抽出手段(例えば、図1の話題語抽出部140に相当)と、前記話題語抽出手段で抽出した話題語が、投稿者を分類したクラスタの情報および当該クラスタの人数比率含む投稿者分布情報と、前記収集手段で収集されたコメントと、を参照して当該話題語が当てはまるクラスタを特定する話題語クラスタ特定手段(例えば、図1の話題語クラスタ特定部150に相当)と、前記話題語抽出手段で抽出した話題語の出現頻度を、前記投稿者分布情報を参照して、前記話題語クラスタ特定手段で特定した当該話題語が当てはまるクラスタの人数比率で補正した補正値に基づいて、前記話題語をランキングするランキング手段(例えば、図1のランキング部160に相当)と、を備えることを特徴とする話題語ランキング装置を提案している。
(2) 本発明は、(1)の話題語ランキングにおいて、前記収集手段で収集したコメントを蓄積する蓄積手段(例えば、図1の蓄積部120に相当)と、前記蓄積手段に蓄積されたコメントに基づいて、予め設定された前記クラスタの情報に基づいて当該クラスタに投稿者を分類し、全分類投稿者数と当該クラスタの投稿者数とに基づいて人数比率を算出して、前記投稿者分布情報を作成する投稿者クラスタ分類手段(例えば、図1の投稿者クラスタ分類部130に相当)と、を備えることを特徴とする話題語ランキング装置を提案している。
(3) 本発明は、(1)の話題語ランキングにおいて、前記収集手段で収集したコメントを蓄積する蓄積手段(例えば、図1の蓄積部120に相当)と、前記蓄積手段に蓄積されたコメントに基づいて、前記投稿者をクラスタリングして生成したクラスタの情報を抽出し、全分類投稿者数と当該クラスタの投稿者数とに基づいて人数比率を算出して、前記投稿者分布情報を作成する投稿者クラスタ分類手段(例えば、図1の投稿者クラスタ分類部130に相当)と、を備えることを特徴とする話題語ランキング装置を提案している。
(4) 本発明は、(3)の話題語ランキング装置において、前記投稿者クラスタ分類手段は、前記蓄積手段に蓄積されたコメントを参照して、潜在的意味解析に基づくトピック類似度、または単語類似度を利用して、前記投稿者をクラスタリングすることを特徴とする話題語ランキング装置を提案している。
(5) 本発明は、(2)から(4)の話題語ランキング装置において、前記投稿者クラスタ分類手段が、所定期間に所定数以上の投稿を行っているアクティブ投稿者を分類対象とすることを特徴とする話題語ランキング装置を提案している。
(6) 本発明は、(2)から(5)の話題語ランキング装置において、前記話題語クラスタ特定手段が、前記蓄積手段に蓄積されたコメントを参照して、前記クラスタに分類された投稿者のコメントから特徴語を抽出し、前記話題語を抽出した特徴語に含む前記クラスタを、当該話題語のクラスタとして特定することを特徴とする話題語ランキング装置を提案している。
(7) 本発明は、(2)から(6)の話題語ランキング装置において、前記話題語クラスタ特定手段が、前記蓄積手段に蓄積されたコメントを参照して、潜在的意味解析に基づくトピック類似度、または単語類似度を利用して、前記話題語のクラスタを特定することを特徴とする話題語ランキング装置を提案している。
(8) 本発明は、(1)から(7)の話題語ランキング装置において、前記ランキング手段が、前記抽出した話題語の出現頻度を、当該話題語について前記話題語クラスタ特定手段で特定したクラスタの人数比率で割った値を前記補正値として、当該補正値に基づいて前記話題語をランキングすることを特徴とする話題語ランキング装置を提案している。
(9) 本発明は、(1)から(8)の話題語ランキング装置において、前記話題語抽出手段が、前回算出した単語の出現頻度と今回算出した単語の出現頻度とを比較し、出現頻度が増加している単語を話題語として抽出することを特徴とする話題語ランキング装置を提案している。
(10) 本発明は、(1)の話題語ランキング装置において、前記投稿者分布情報は、前記インターネットの利用者の行動履歴や公開情報を含む利用者情報に基づいて作成されることを特徴とする話題語ランキング装置を提案している。
(11) 本発明は、インターネット上の話題語のランキングを作成する話題語ランキング装置における話題語ランキング方法であって、前記話題語ランキング装置は、収集手段、話題抽出手段、話題語クラスタ特定手段、およびランキング手段を備え、前記収集手段が、前記インターネットへ投稿されたコメントを収集する第1のステップ(図6のステップS1に相当)と、前記話題抽出手段が、前記第1のステップで収集されたコメントに含まれる単語の出現頻度に基づいて、話題語を抽出する第2のステップ(図6のステップS4に相当)と、前記話題語クラスタ特定手段が、前記第2のステップで抽出した話題語が、投稿者を分類したクラスタの情報および当該クラスタの人数比率含む投稿者分布情報と、前記収集手段で収集されたコメントと、を参照して当該話題語が当てはまるクラスタを特定する第3のステップ(図6のステップS5に相当)と、前記ランキング手段が、前記第2のステップで抽出した話題語の出現頻度を、前記投稿者分布情報を参照して、前記第3のステップで特定した当該話題語が当てはまるクラスタの人数比率で補正した補正値に基づいて、当該話題語をランキングする第4のステップ(図6のステップS6に相当)と、を含むことを特徴とする話題語ランキング方法を提案している。
(12) 本発明は、インターネット上の話題語のランキングを作成する話題語ランキング装置における話題語ランキング方法をコンピュータに実行させるためのプログラムであって、前記話題語ランキング装置は、収集手段、話題抽出手段、話題語クラスタ特定手段、およびランキング手段を備え、前記収集手段が、前記インターネットへ投稿されたコメントを収集する第1のステップ(図6のステップS1に相当)と、前記話題抽出手段が、前記第1のステップで収集されたコメントに含まれる単語の出現頻度に基づいて、話題語を抽出する第2のステップ(図6のステップS4に相当)と、前記話題語クラスタ特定手段が、前記第2のステップで抽出した話題語が、投稿者を分類したクラスタの情報および当該クラスタの人数比率含む投稿者分布情報と、前記収集手段で収集されたコメントと、を参照して当該話題語が当てはまるクラスタを特定する第3のステップ(図6のステップS5に相当)と、前記ランキング手段が、前記第2のステップで抽出した話題語の出現頻度を、前記投稿者分布情報を参照して、前記第3のステップで特定した当該話題語が当てはまるクラスタの人数比率で補正した補正値に基づいて、当該話題語をランキングする第4のステップ(図6のステップS6に相当)と、をコンピュータに実行させることを特徴とするプログラムを提案している。
本発明によれば、インターネットの投稿者の偏りを是正して、世間の話題に合ったキーワードのランキングを作成することができる。
本発明の第1の実施形態に係る話題語ランキング装置の機能構成を示す図である。 本発明の第1の実施形態に係る投稿者分布情報の一例を示す図である。 本発明の第1の実施形態に係る話題語の抽出結果の一例を示す図である。 本発明の第1の実施形態に係る話題語の補正値の一例を示す図である。 本発明の第1の実施形態に係るランキング結果と従来のランキング結果を対比した図である。 本発明の第1の実施形態に係る話題語ランキング装置における話題語ランキング処理フローを示す図である。 本発明の第2の実施形態に係る話題語ランキング装置の機能構成を示す図である。
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る話題語ランキング装置100の機能構成を示す図である。話題語ランキング装置100は、インターネット上に投稿されたコメントのみに基づいて、話題語のランキングを作成する装置であって、ミニブログサーバ200と接続される。
ここで、ミニブログサーバ200は、Twitter(登録商標)といった、投稿されたコメントを介して投稿者同士がコミュニケーションを行うサービスを提供するソーシャルネットワークサービス(SNS)のサーバである。本実施形態において、ミニブログサーバ200は1台であるが複数台であってもよく、複数台の場合にはそれぞれ異なるSNSのサーバであってもよい。
図1に示すように、話題語ランキング装置100は、収集部110、蓄積部120、投稿者クラスタ分類部130、話題語抽出部140、話題語クラスタ特定部150、およびランキング部160を備える。
収集部110は、API(Application Programming Interface)を介して、ミニブログサーバ200から、コメントを取得する。コメントは、テキスト文書であって、投稿者を一意に識別する投稿者IDが対応付けられている。収集部110は、ランキング作成者の指示に応じてコメントを収集してもよいし、定期的にコメントを収集してもよい。なお、前回の収集時から今回の収集時までに投稿されたコメントのみを収集するのが望ましい。
蓄積部120は、収集部110で収集したコメントを蓄積する。蓄積部120は、記憶容量を超えた場合に古いコメントから順に削除するようにしてもよいし、所定期間経過したコメントを削除するようにしてもよい。
投稿者クラスタ分類部130は、蓄積部120に蓄積されているコメントに基づいて、蓄積部120にコメントが蓄積されている投稿者をクラスタに分類し、クラスタの情報とクラスタの人数比率とを含む投稿者分布情報を作成する。
投稿者クラスタ分類部130は、予め設定されたクラスタに投稿者を分類する「教師ありクラスタリング(いわゆるクラス分割)」、または、クラスタが予め設定されずにデータからクラスタを生成して投稿者を自動的に分類する「教師なしクラスタリング」を用いて、投稿者をクラスタに分類する。そして、投稿者クラスタ分類部130は、分類された全投稿者数と各クラスタの投稿者数に基づいて各クラスタの人数比率を算出し、クラスタの情報とあわせて投稿者分布情報を作成する。本実施形態において、クラスタの情報には、クラスタを一意に特定するクラスタIDと、各クラスタに分類された投稿者IDが含まれる。
投稿者クラスタ分類部130が、「教師ありクラスタリング」を用いて、投稿者をクラスタに分類する具体例について説明する。予め設定されたクラスタには、例えば、アニメ、IT、スポーツ、テレビ・映画、グルメ等の趣味や、20代、30代、40代以上といったように年代といった、投稿者を特徴付ける属性を設定することができる。
「教師ありクラスタリング」において、クラスタと、各クラスタの特徴語(コメントやテキスト文書であってもよい)が予め与えられる。投稿者クラスタ分類部130は、与えられた特徴語と予め設定されたクラスタとに基づいて、AIC(Akaike Information Criterion)により、蓄積部120に蓄積されているコメントから抽出した各クラスタの特徴語からなる学習モデルを作成する。次に、投稿者クラスタ分類部130は、蓄積部120に蓄積されているコメントから投稿者IDを取得し、投稿者ID毎に、蓄積部120に蓄積されているコメントと作成した学習モデルに基づいて、従来技術(例えば、特開2013−196070号公報に記載の技術)を用いて、投稿者をクラスタに分類する。
次に、投稿者クラスタ分類部130が、「教師なしクラスタリング」を用いて、投稿者をクラスタに分類する具体例について説明する。投稿者クラスタ分類部130は、まず、蓄積部120に蓄積されているコメントに基づいて、LDA(Latent Dirichlet Allocation)に基づくトピック類似度を用いて、投稿者をクラスタに分類し、クラスタを生成する。生成するクラスタの数を限定してもよい。投稿者クラスタ分類部130は、生成されたクラスタに、クラスタを一意に識別するクラスタIDを付与する。なお、LDAの代わりに、LSI、pLSI等の他の潜在的意味解析手法を用いてもよいし、トピック類似度の代わりに単語類似度を用いてもよい。
「教師なしクラスタリング」では、「教師ありクラスタリング」と比べて、予めクラスタを設定する必要がないという利点とともに、自動的にクラスタが設定されることで潜在的な類似性によって投稿者を分類することができるという利点がある。
図2に、投稿者クラスタ分類部130で作成される投稿者分布情報のクラスタIDと人数比率とを例示する。クラスタIDにはクラスタの特徴を括弧書きで示した。「教師ありクラスタリング」の場合にはクラスタIDで示されるクラスタは予め設定されており、一方、「教師なしクラスタリング」の場合には、クラスタIDで示されるクラスタは投稿者を分類した結果得られる。
話題語抽出部140は、収集部110で収集したコメントから、話題語を抽出する。具体的には、まず、話題語抽出部140は、収集部110で収集したコメントを形態素解析により細分化し、形容詞や名詞といった所定品詞の単語を抽出する。なお、形態素以外の従来技術を用いてもよい。次に、話題語抽出部140は、抽出した各単語の出現頻度を算出し、出現頻度の高い単語を話題語として抽出する。所定の出現頻度以上の単語を話題語として抽出してもよいし、出現頻度の高い順に所定数の単語を話題語として抽出してもよい。図3に抽出された話題語の一例を示す。図3において、話題語は出現頻度順に並べており、これが従来の話題語ランキングとなっていた。
また、話題語抽出部140は、前回の話題語抽出時に算出した各単語の出現頻度を一時記憶しておき、今回算出した出現頻度と前回算出した出現頻度とから得られる増加率が高い単語を、話題語として抽出してもよい。更に、古いコメントから抽出された単語は軽視し、新しいコメントから抽出された単語を重視するようにして出現頻度を算出してもよい。
話題語クラスタ特定部150は、話題語抽出部140で抽出された話題語が当てはまるクラスタを、投稿者クラスタ分類部130で作成された投稿者分布情報および蓄積部120に蓄積されたコメントに基づいて特定する。なお、蓄積部120に蓄積されたコメントの代わりに、収集部110で収集されたコメントを用いてもよい。
具体的には、まず、話題語クラスタ特定部150は、各クラスタに属する投稿者のコメントを、投稿者分布情報のクラスタの情報に含まれる投稿者IDに基づいて蓄積部120から取得する。次に、話題語クラスタ特定部150は、取得したコメントから形態素解析により所定品詞の単語を抽出し、抽出した単語からTF−IDF法等により各クラスタを特徴付ける特徴語を抽出する。そして、話題語抽出部140で抽出された話題語を含む特徴語を有するクラスタを、話題語のクラスタとして特定する。
話題語を含む特徴語を有するクラスタが複数ある場合には、各クラスタにおける話題語の重要度、特徴語の抽出にTF−IDF法を利用した場合にはTF−IDF値、が最も高いクラスタを、話題語のクラスタとして特定する。
また、話題語クラスタ特定部150は、話題語を含む特徴語を有するクラスタがない場合には、LDAといった潜在的意味解析手法に基づくトピック類似度、または、コサイン類似度といった文書間の類似度算出に利用される単語類似度を用いて話題語のクラスタを特定する。なお、話題語クラスタ特定部150は、話題語を含む特徴語を有するクラスタの有無を判断せずに、トピック類似度またはコサイン類似度のみを用いて話題語のクラスタを特定してもよい。
投稿者クラスタ分類部130で、「教師なしクラスタリング」により投稿者を分類した場合には、潜在的意味解析手法に基づくトピック類似度を用いて、話題語のクラスタを特定するのが望ましい。具体的には、話題語クラスタ特定部150は、各クラスタに属する投稿者のコメントを、投稿者分布情報のクラスタの情報に含まれる投稿者IDに基づいて蓄積部120から取得する。そして、各クラスタに属する投稿者のコメントのLDA解析の結果と、話題語を含むコメントのLDA解析の結果のトピック類似度とに基づいて、話題語のクラスタを特定する。
一方、投稿者クラスタ分類部130で、「教師ありクラスタリング」により投稿者を分類した場合には、文書間の類似度算出に利用される単語類似度を用いて、話題語のクラスタを特定するのが望ましい。具体的には、話題語クラスタ特定部150は、各クラスタに属する投稿者のコメントを、投稿者分布情報のクラスタの情報に含まれる投稿者IDに基づいて蓄積部120から取得する。そして、各クラスタに属する投稿者のコメントと話題語を含むコメントとの間のコサイン類似度に基づいて、話題語のクラスタを特定する。
ランキング部160は、話題語抽出部140で抽出した話題語の出現頻度を、話題語クラスタ特定部150で特定された話題語が属するクラスタの人数比率で補正した補正値に基づいて、話題語をランキングする。具体的には、ランキング部160は、話題語抽出部140で抽出された話題語の出現頻度を、話題語クラスタ特定部150で特定された話題語が属するクラスタの人数比率で割った値を、補正値として算出する。
図2に示す投稿者分布情報と図3に示す話題語抽出結果を利用して算出した各話題語の補正値を図4に示す。図4には、話題語クラスタ特定部150で特定された各話題語のクラスタも合わせて示す。また、図5には、従来の話題語ランキングである図3の話題語抽出結果と、図4の補正値による話題語のランキングの対比を示す。このように、話題語の出現頻度を話題語のクラスタの人数比率で補正することで、投稿者の偏り、本例ではアニメに投稿者が偏っていることによりランキング1位、2位となっていた話題語を世間に合った適正な順位に修正されたことがわかる。
出現頻度を人数比率で補正した補正値により話題語をランキングすることにより、コメントの重さ、すなわち、母集団の大きいグループのコメントよりも母集団の小さいグループのコメントに価値があることが考慮されたランキングとなる。その結果、投稿者の偏りが是正され、世間にあった話題語のランキングを作成することができる。
図6は、本実施形態に係る話題語ランキング装置100における話題語ランキング処理フローを示す図である。
まず、ステップS1において、収集部110は、ミニブログサーバ200からコメントを収集する。
次に、ステップS2において、蓄積部120は、ステップS1で収集されたコメントを蓄積する。
次に、ステップS3において、投稿者クラスタ分類部130は、蓄積部120に蓄積されているコメントに基づいて、蓄積部120にコメントが蓄積されている投稿者をクラスタに分類し、投稿者分布情報を作成する。なお、ステップS3は、後述するステップS4と同時または後であってもよい。
次に、ステップS4において、話題語抽出部140は、ステップS1で収集したコメントから話題語を抽出する。
次に、ステップS5において、話題語クラスタ特定部150は、ステップS3で作成された投稿者分布情報と蓄積部120に蓄積されているコメントとに基づいて、ステップS3で投稿者を分類したクラスタの中から、ステップS4で抽出した話題語が当てはまるクラスタを特定する。
次に、ステップS6において、ランキング部160は、ステップS4で抽出した話題語の出現頻度を、ステップS5で特定した話題語が当てはまるクラスタの人数比率で補正した補正値に基づいて、話題語をランキングする。
以上、説明したように、本実施形態によれば、インターネットの投稿者の偏りを是正して、世間の話題に合ったキーワードのランキングを作成することができる。
<第2の実施形態>
図7を用いて、本発明の第2の実施形態について説明する。本実施形態においては、話題語ランキング装置は、投稿者分布情報に外部情報を用いる。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
図7は、本発明の第1の実施形態に係る話題語ランキング装置101の機能構成を示す図である。話題語ランキング装置101は、インターネット上のコメントに基づいて、話題語のランキングを作成する装置であって、ミニブログサーバ200および外部利用者分布情報サーバ300と接続される。
外部利用者分布情報サーバ300は、インターネット利用者の行動履歴や公開情報といったインターネット上の利用者に関する情報(以下、利用者情報)を少なくとも蓄積しているサーバであって、いわゆるビッグデータを蓄積するサーバであってもよい。ここで、行動履歴とは、コンテンツの検索履歴、コンテンツの閲覧・視聴履歴、商品の購入履歴、インターネット上での入力アンケート等である。また、公開情報とは、SNS等に公開しているプロフィールや交友関係情報等である。
外部利用者分布情報サーバ300は、蓄積している利用者情報に基づいて、インターネット利用者をクラスタに分類し、クラスタの情報とクラスタの人数比率とを含む利用者分布情報を作成する。クラスタ分類や利用者投稿情報の作成方法は、第1の実施形態の投稿者クラスタ分類部130で説明したとおりである。本実施形態においては、作成された利用者分布情報を第1の実施形態の投稿者分布情報として利用する。なお、外部利用者分布情報サーバ300が、利用者情報を蓄積する機能のみの場合には、話題語ランキング装置101は、第1の実施形態の投稿者クラスタ分類部130を備え、投稿者クラスタ分類部130で外部利用者分布情報サーバ300から取得した利用者情報に基づいて、利用者のクラスタ分類や利用者分布情報の作成を行う。
図7に示すように、話題語ランキング装置101は、収集部110、話題語抽出部140、話題語クラスタ特定部151、およびランキング部161を備える。話題語クラスタ特定部151およびランキング部161は、外部利用者分布情報サーバ300から利用者分布情報を取得し、外部利用者分布情報サーバ300から取得した利用者分布情報を投稿者分布情報の代わりに用いる点以外は、第1の実施形態の話題語クラスタ特定部150およびランキング部160と同様である。
以上、説明したように、本実施形態によれば、SNSのコメント以外のインターネット利用者の様々な情報を用いて、クラスタ分類の精度を向上させることで、投稿者の偏りをより正確に把握することができる。その結果、世間の話題により合致したキーワードのランキングを作成することができる。
なお、話題語ランキング装置の処理をコンピュータシステムが読み取り可能な記録媒体に記録し、この記録媒体に記録された話題語ランキングに読み込ませ、実行することによって本発明の話題語ランキングを実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100,101 話題語ランキング装置
110 収集部
120 蓄積部
130 投稿者クラスタ分類部
140 話題語抽出部
150,151 話題語クラスタ特定部
160,161 ランキング部
200 ミニブログサーバ
300 外部利用者分布情報サーバ

Claims (12)

  1. インターネット上の話題語のランキングを作成する話題語ランキング装置であって、
    前記インターネットへ投稿されたコメントを収集する収集手段と、
    前記収集手段で収集されたコメントに含まれる単語の出現頻度に基づいて、話題語を抽出する話題語抽出手段と、
    前記話題語抽出手段で抽出した話題語が、投稿者を分類したクラスタの情報および当該クラスタの人数比率含む投稿者分布情報と、前記収集手段で収集されたコメントと、を参照して当該話題語が当てはまるクラスタを特定する話題語クラスタ特定手段と、
    前記話題語抽出手段で抽出した話題語の出現頻度を、前記投稿者分布情報を参照して、前記話題語クラスタ特定手段で特定した当該話題語が当てはまるクラスタの人数比率で補正した補正値に基づいて、当該話題語をランキングするランキング手段と、
    を備えることを特徴とする話題語ランキング装置。
  2. 前記収集手段で収集したコメントを蓄積する蓄積手段と、
    前記蓄積手段に蓄積されたコメントを参照して、予め設定された前記クラスタの情報に基づいて当該クラスタに投稿者を分類し、全分類投稿者数と当該クラスタの投稿者数とに基づいて人数比率を算出して、前記投稿者分布情報を作成する投稿者クラスタ分類手段と、
    を備えることを特徴とする請求項1に記載の話題語ランキング装置。
  3. 前記収集手段で収集したコメントを蓄積する蓄積手段と、
    前記蓄積手段に蓄積されたコメントを参照して、前記投稿者をクラスタ分類して生成したクラスタの情報を抽出し、全分類投稿者数と当該クラスタの投稿者数とに基づいて人数比率を算出して、前記投稿者分布情報を作成する投稿者クラスタ分類手段と、
    を備えることを特徴とする請求項1に記載の話題語ランキング装置。
  4. 前記投稿者クラスタ分類手段は、前記蓄積手段に蓄積されたコメントを参照して、潜在的意味解析に基づくトピック類似度、または単語類似度を利用して、前記投稿者をクラスタリングすることを特徴とする請求項3に記載の話題語ランキング装置。
  5. 前記投稿者クラスタ分類手段が、所定期間に所定数以上の投稿を行っているアクティブ投稿者を分類対象とすることを特徴とする請求項2から請求項4のいずれかに記載の話題語ランキング装置。
  6. 前記話題語クラスタ特定手段が、前記蓄積手段に蓄積されたコメントを参照して、前記クラスタに分類された投稿者のコメントから特徴語を抽出し、前記話題語を抽出した特徴語に含む前記クラスタを、当該話題語のクラスタとして特定することを特徴とする請求項2から請求項5のいずれかに記載の話題語ランキング装置。
  7. 前記話題語クラスタ特定手段が、前記蓄積手段に蓄積されたコメントを参照して、潜在的意味解析に基づくトピック類似度、または単語類似度を利用して、前記話題語のクラスタを特定することを特徴とする請求項2から請求項6のいずれかに記載の話題語ランキング装置。
  8. 前記ランキング手段が、前記抽出した話題語の出現頻度を、当該話題語について前記話題語クラスタ特定手段で特定したクラスタの人数比率で割った値を前記補正値として、当該補正値に基づいて前記話題語をランキングすることを特徴とする請求項1から請求項7のいずれかに記載の話題語ランキング装置。
  9. 前記話題語抽出手段が、前回算出した単語の出現頻度と今回算出した単語の出現頻度とを比較し、出現頻度が増加している単語を話題語として抽出することを特徴とする請求項1から請求項8のいずれかに記載の話題語ランキング装置。
  10. 前記投稿者分布情報は、前記インターネットの利用者の行動履歴や公開情報を含む利用者情報に基づいて作成されることを特徴とする請求項1に記載の話題語ランキング装置。
  11. インターネット上の話題語のランキングを作成する話題語ランキング装置における話題語ランキング方法であって、
    前記話題語ランキング装置は、収集手段、話題語抽出手段、話題語クラスタ特定手段、およびランキング手段を備え、
    前記収集手段が、前記インターネットへ投稿されたコメントを収集する第1のステップと、
    前記話題語抽出手段が、前記第1のステップで収集されたコメントに含まれる単語の出現頻度に基づいて、話題語を抽出する第2のステップと、
    前記話題語クラスタ特定手段が、前記第2のステップで抽出した話題語が、投稿者を分類したクラスタの情報および当該クラスタの人数比率含む投稿者分布情報と、前記収集手段で収集されたコメントと、を参照して当該話題語が当てはまるクラスタを特定する第3のステップと、
    前記ランキング手段が、前記第2のステップで抽出した話題語の出現頻度を、前記投稿者分布情報を参照して、前記第3のステップで特定した当該話題語が当てはまるクラスタの人数比率で補正した補正値に基づいて、当該話題語をランキングする第4のステップと、
    を含むことを特徴とする話題語ランキング方法。
  12. インターネット上の話題語のランキングを作成する話題語ランキング装置における話題語ランキング方法をコンピュータに実行させるためのプログラムであって、
    前記話題語ランキング装置は、収集手段、話題語抽出手段、話題語クラスタ特定手段、およびランキング手段を備え、
    前記収集手段が、前記インターネットへ投稿されたコメントを収集する第1のステップと、
    前記話題語抽出手段が、前記第1のステップで収集されたコメントに含まれる単語の出現頻度に基づいて、話題語を抽出する第2のステップと、
    前記話題語クラスタ特定手段が、前記第2のステップで抽出した話題語が、投稿者を分類したクラスタの情報および当該クラスタの人数比率含む投稿者分布情報と、前記収集手段で収集されたコメントと、を参照して当該話題語が当てはまるクラスタを特定する第3のステップと、
    前記ランキング手段が、前記第2のステップで抽出した話題語の出現頻度を、前記投稿者分布情報を参照して、前記第3のステップで特定した当該話題語が当てはまるクラスタの人数比率で補正した補正値に基づいて、当該話題語をランキングする第4のステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2015012821A 2015-01-26 2015-01-26 話題語ランキング装置、話題語ランキング方法、およびプログラム Active JP6373767B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015012821A JP6373767B2 (ja) 2015-01-26 2015-01-26 話題語ランキング装置、話題語ランキング方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015012821A JP6373767B2 (ja) 2015-01-26 2015-01-26 話題語ランキング装置、話題語ランキング方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016139216A JP2016139216A (ja) 2016-08-04
JP6373767B2 true JP6373767B2 (ja) 2018-08-15

Family

ID=56560240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015012821A Active JP6373767B2 (ja) 2015-01-26 2015-01-26 話題語ランキング装置、話題語ランキング方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6373767B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6541737B2 (ja) 2017-09-20 2019-07-10 ヤフー株式会社 選択装置、選択方法、選択プログラム、モデルおよび学習データ
TWI742450B (zh) * 2019-10-16 2021-10-11 財團法人工業技術研究院 企劃書的自動化產生系統及其方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5100855B2 (ja) * 2011-02-09 2012-12-19 株式会社エヌ・ティ・ティ・ドコモ 潜在クラス分析装置、潜在クラス分析方法及びプログラム
JP5711689B2 (ja) * 2012-03-27 2015-05-07 Kddi株式会社 話題語抽出装置、話題語抽出方法、およびプログラム
GB2528595A (en) * 2013-03-12 2016-01-27 Ibm Method for user categorization in social media, computer program, and computer

Also Published As

Publication number Publication date
JP2016139216A (ja) 2016-08-04

Similar Documents

Publication Publication Date Title
US11347752B2 (en) Personalized user feed based on monitored activities
US9953063B2 (en) System and method of providing a content discovery platform for optimizing social network engagements
US9785888B2 (en) Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information
US10909148B2 (en) Web crawling intake processing enhancements
US20190266257A1 (en) Vector similarity search in an embedded space
US20180246973A1 (en) User interest modeling
US20180246899A1 (en) Generate an index for enhanced search based on user interests
US20180246974A1 (en) Enhanced search for generating a content feed
US10529031B2 (en) Method and systems of implementing a ranked health-content article feed
WO2013059290A1 (en) Sentiment and influence analysis of twitter tweets
US20160085869A1 (en) Social media content analysis and output
US9858332B1 (en) Extracting and leveraging knowledge from unstructured data
US10482142B2 (en) Information processing device, information processing method, and program
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
Natarajan et al. Recommending news based on hybrid user profile, popularity, trends, and location
US9740695B2 (en) Method for enriching a multimedia content, and corresponding device
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
JP6373767B2 (ja) 話題語ランキング装置、話題語ランキング方法、およびプログラム
US11200288B1 (en) Validating interests for a search and feed service
Kawase et al. Exploiting the wisdom of the crowds for characterizing and connecting heterogeneous resources
WO2016027364A1 (ja) 話題クラスタ選択装置、及び検索方法
JP6040137B2 (ja) アイテム推薦装置、アイテム推薦方法およびアイテム推薦プログラム
JP5389234B1 (ja) 関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラム
WO2018160747A1 (en) Enhanced search to generate a feed based on a user's interests
JP6446851B2 (ja) レコメンドシステム、レコメンド方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180718

R150 Certificate of patent or registration of utility model

Ref document number: 6373767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150