JP6971719B2 - 情報処理装置、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
JP6971719B2
JP6971719B2 JP2017166533A JP2017166533A JP6971719B2 JP 6971719 B2 JP6971719 B2 JP 6971719B2 JP 2017166533 A JP2017166533 A JP 2017166533A JP 2017166533 A JP2017166533 A JP 2017166533A JP 6971719 B2 JP6971719 B2 JP 6971719B2
Authority
JP
Japan
Prior art keywords
information
words
theme
theme information
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017166533A
Other languages
English (en)
Other versions
JP2019046017A (ja
Inventor
徹 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017166533A priority Critical patent/JP6971719B2/ja
Publication of JP2019046017A publication Critical patent/JP2019046017A/ja
Application granted granted Critical
Publication of JP6971719B2 publication Critical patent/JP6971719B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
ネットワークを使用したサービスが活発に行われている。近年では、ショートブログサービス(例えば、Twitter(登録商標))等、ユーザが容易に投稿を行えるようにするサービスも提供されている。
特許5269938号公報
クオリティーの高いサービス(例えば、検索サービス)を実現するため、サイトの運営者等が、ユーザが投稿した情報の分析を行うことがある。例えば、サイトの運営者等は、投稿情報に基づいて、現在流行しているワード(バズワード)を抽出することがある。しかしながら、投稿情報からワードを抽出しただけでは、投稿情報に関する精度の高い分析を行うことは困難である。
本願は、上記に鑑みてなされたものであって、投稿情報に関する精度の高い分析を可能とすることを目的とする。
本願に係る情報処理装置は、複数の投稿情報から抽出された複数のワードを取得する取得部と、複数の投稿情報に付与された複数のテーマ情報に基づいて、ワード同士の関連を特定する特定部と、を備える。
実施形態の一態様によれば、投稿情報に関する精度の高い分析を可能とすることができる。
図1は、実施形態に係る情報処理システムの動作を示す図である。 図2は、投稿情報データベースの一例を示す図である。 図3は、投稿情報データベースから抽出されたバズワード情報を示す図である。 図4は、図3に示すバズワード情報に含まれるバズワード及びテーマ情報の関係を示す図である。 図5は、テーマ情報を介して繋がるバズワードを連結したグラフである。 図6は、複数のバズワードそれぞれとテーマ情報との関連付けの強度を示す強度情報の一例を示す図である。 図7は、図5に示す3つのクラスタにテーマ情報を関連付けたグラフである。 図8は、図4に示すグラフから、選択したテーマ情報を除去した様子を示す図である。 図9は、複数のテーマ情報をクラスタリングした様子を示す図である。 図10は、図9に示す3つのクラスタにテーマ情報を関連付けたグラフである。 図11は、図8に示すグラフから、選択したバズワードを除去した様子を示す図である。 図12は、テーマ情報を介して繋がるバズワードを関連付けた様子を示す図である。 図13は、実施形態に係る端末装置の構成例を示す図である。 図14は、実施形態に係るサービス提供サーバの構成例を示す図である。 図15は、実施形態に係る情報処理装置の構成例を示す図である。 図16は、バズワード情報データベースに格納される情報の一例を示す図である。 図17は、バズワード情報の一例を示す図である。 図18は、強度情報データベースに格納される情報の一例を示す図である。 図19は、クラスタ情報データベースに格納される情報の一例を示す図である。 図20は、クラスタリング処理の一例を示すフローチャートである。 図21は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、以下の実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報処理装置の動作〕
最初に、本実施形態の情報処理装置の一例である情報処理装置30を備える情報処理システム1を例に、情報処理装置の動作を説明する。
図1は、実施形態に係る情報処理システム1の動作を示す図である。情報処理システム1は、端末装置10、10、10と、サービス提供サーバ20と、情報処理装置30と、を備える。なお、図1の例では、端末装置が3つ示されているが、端末装置は3つより少なくてもよいし、3つより多くてもよい。以下の説明では、端末装置10、10、10等を総称して端末装置10と記載することがある。
端末装置10は、例えば、スマートデバイス(スマートフォン、或いはタブレット)、携帯電話、パーソナルコンピュータ等のユーザ端末である。端末装置10は、ネットワークを介してサービス提供サーバ20と通信する。例えば、端末装置10は、ユーザが投稿することを可能にするためのページ(例えば、Twitter(登録商標))の情報を取得する。また、端末装置10は、ユーザの投稿情報をサービス提供サーバ20に送信する。
サービス提供サーバ20は、クライアント端末に対して各種サービスを提供するサーバ用ホストコンピュータである。サービス提供サーバ20は、ポータルサイト、SNS(Social Networking Service)サイト、検索サイト、掲示板サイト、ゲーム情報配信サイト、ニュースサイト、オークションサイト、天気予報サイト、ショッピングサイト、ファイナンス(株価)サイト、路線検索サイト、地図提供サイト、旅行サイト、飲食店紹介サイト等として機能する。
本実施形態の場合、サービス提供サーバ20は、ユーザが情報を投稿することを可能にするサービスを提供するサーバである。例えば、サービス提供サーバ20は、Twitter(登録商標)、Facebook(登録商標)、Instagram(登録商標)、mixi(登録商標)、LINE(登録商標)等のソーシャルネットワーキングサービス(SNS)を提供するサーバである。なお、サービス提供サーバ20が提供するサービスは、SNSに限定されない。ユーザが情報を投稿できるのであれば、サービス提供サーバ20は、上記したSNS以外のサービスを提供するサーバであってもよい。例えば、サービス提供サーバ20は、掲示板サービスを提供するサーバであってもよい。ユーザが購入商品のレビュー等を投稿できるよう構成されているのであれば、サービス提供サーバ20は、ショッピングサービスを提供するサーバであってもよい。なお、以下の説明では、ユーザが情報を投稿することを可能にするサービスのことを投稿サービスといい、ユーザが投稿サービスを使って投稿した情報のことを投稿情報という。ユーザは、サービス提供サーバ20が提供するサービスを介して、他のユーザとコミュニケーションを行う。
なお、ネットワーク上のコミュニケーションでは、バズワードと呼ばれる一時的に多くのユーザに使用されるワードが発生することがある。なお、バズワードは、バズトピック、急上昇ワード、流行語等、他の呼び方で呼ばれることもある。サービス提供サーバ20は、データベースに投稿情報を登録するとともに、データベースに登録された複数の投稿情報からバズワードを抽出する。バズワードを抽出する方法は様々な方法を使用可能である。例えば、サービス提供サーバ20は、投稿情報を形態素解析してワード単位に分解するとともに、分解された複数のワードから所定の基準を満たすワードを選択し、データベースに登録する。サービス提供サーバ20は、この処理を全ての投稿情報について繰り返す。そして、サービス提供サーバ20は、データベースに登録されたワードそれぞれについて、登録数等に基づいてバズワードか否かを決定する。
情報処理装置30は、ユーザが投稿情報に関する分析を行うことを可能にするための装置である。具体的には、情報処理装置30は、投稿情報から抽出されたバズワード同士の関連を特定するとともに、関連を特定したバズワードを複数のクラスタに分類する。
以下、図1を参照しながら、情報処理装置30を備える情報処理システム1の動作を説明する。上述したように、情報処理装置30は、ユーザが投稿情報に関する分析を行うことを可能にするための処理を行う。情報処理装置30は、バズワード情報に基づき処理を行う。バズワード情報は、投稿情報から抽出されたバズワードが記録された情報である。バズワード情報の取得は、サービス提供サーバ20が行う。情報処理装置30の動作を説明する前に、サービス提供サーバ20の動作について説明する。
〔1−1.バズワード情報の取得〕
まず、サービス提供サーバ20は、ユーザが操作する端末装置10と投稿サービスに関する通信を行う(ステップS1a〜ステップS1c)。サービス提供サーバ20は、端末装置10から投稿情報を取得すると、取得した投稿情報を投稿情報データベースに登録する(ステップS2)。図2は、投稿情報データベースの一例を示す図である。サービス提供サーバ20は、端末装置10から取得した投稿情報それぞれに一意のIDを付して、投稿情報データベースに登録する。図2の例の場合、「内容」の項目に登録されている情報が投稿情報である。データベースには、投稿情報が投稿された日時の情報が含まれていてもよい。
なお、ユーザは情報の投稿の際、投稿情報にテーマ情報を付すことが可能である。テーマ情報は、投稿情報に関する情報である。例えば、テーマ情報は、投稿情報を検索容易にするためのタグ情報である。テーマ情報は、投稿情報の内容に関する情報であってもよい。例えば、テーマ情報は、投稿情報を特徴づけるワード(例えば、投稿情報で話題となっている場所や人物名)であってもよい。また、テーマ情報は、投稿情報の配信元等を示す情報(例えば、新聞社やポータルサイトの名前)であってもよい。図2の例の場合、“#”が先頭に付された情報がテーマ情報である。図2のID001の例であれば、“#日本代表”がテーマ情報である。“#”を除いた“日本代表”の部分をテーマ情報とみなしてもよい。なお、テーマ情報は、投稿情報の一部とみなすことも可能であるし、投稿情報の外部の情報とみなすことも可能である。本実施形態では、テーマ情報は投稿情報の外部の情報であるものとする。図2のID001の例であれば、“選手Aがんばれ”が投稿情報であり、“#日本代表”がテーマ情報である。
サービス提供サーバ20は、投稿情報データベースに登録された複数の投稿情報からバズワードを抽出する。図3は、投稿情報データベースから抽出されたバズワード情報を示す図である。図3には、複数の投稿情報から抽出された複数のバズワードが示されている。バズワードには順位が付されている。順位は、バズワードの複数の投稿情報での出現頻度等に基づき決定されてもよい。また、図3に示すバズワードそれぞれには、1又は複数のテーマ情報が関連付けられている。バズワードに関連付けられたテーマ情報は、該当のバズワードが使用された複数の投稿情報から抽出された複数のテーマ情報のうち、所定の基準を満たすテーマ情報である。例えば、バズワードに関連付けられたテーマ情報は、付与回数或いは付与率が所定の閾値以上のテーマ情報である。或いは、テーマ情報は、付与回数が多い順或いは付与率が高い順に選択された所定数のテーマ情報である。なお、テーマ情報は、付与回数が多い順或いは付与率が高い順に並べられていてもよい。
ここで、付与回数とは、該当のバズワードが使用された投稿情報のうち、該当のテーマ情報が付与された回数のことをいう。例えば、“選手A”が使用された投稿情報が10000個あったとし、10000個の投稿情報のうち1000個の投稿情報に“#日本代表”が付与されていたとする。このとき、“選手A”が使用された投稿情報への“#日本代表”の付与回数は1000回である。また、付与率とは、該当のバズワードが使用された投稿情報のうち、該当のテーマ情報が付与された率のことをいう。例えば、該当のバズワード(例えば、“選手A”)が使用された投稿情報が10000個あったとし、10000個の投稿情報のうち1000個の投稿情報に“#日本代表”が付与されていたとする。このとき、“選手A”が使用された投稿情報への“#日本代表”の付与率は10%である。
〔1−2.投稿情報の分析〕
次に、情報処理装置30の動作について説明する。情報処理装置30は、ユーザから処理の開始命令を取得すると、投稿情報の分析に関する処理を開始する。
まず、情報処理装置30は、サービス提供サーバ20からバズワード情報を取得する(ステップS3)。上述したように、バズワード情報には、複数の投稿情報から抽出された複数のワードと、複数の投稿情報に付与された複数のテーマ情報と、が含まれている。そして、情報処理装置30は、バズワード情報に含まれる複数のテーマ情報に基づいて、バズワード同士の関連を特定する(ステップS4)。具体的には、情報処理装置30は、テーマ情報を介して繋がるバズワードを関連付ける。
図4は、図3に示すバズワード情報に含まれるバズワード及びテーマ情報の関係を示す図である。具体的には、図4は、バズワード情報に含まれるバズワードとそのバズワードに関連付けられたテーマ情報とを連結したグラフである。図4の例では、楕円で囲まれた文字がバズワードであり、先頭に“#”が付された文字がテーマ情報である。情報処理装置30は、テーマ情報を介して繋がるバズワードを関連付ける。例えば、情報処理装置30は、図3に示すバズワード情報から同じテーマ情報が付されたバズワードを特定し、特定したバズワード同士を関連付けていく。図5は、テーマ情報を介して繋がるバズワードを連結したグラフである。
次に、情報処理装置30は、ステップS4で特定されたバズワード同士の関連に基づいて、複数のバズワードを複数のワードクラスタにクラスタリングする。例えば、情報処理装置30は、ワード同士の関連付けの強度に基づいて複数のバズワードを複数のワードクラスタにクラスタリングする。ここで、ワードクラスタとは、1又は複数のワードで構成されるクラスタのことをいう。以下、情報処理装置30が、複数のバズワードを複数のワードクラスタにクラスタリングする動作について説明する。
まず、情報処理装置30は、ワード同士の関連付けの強度を算出する(ステップS5)。情報処理装置30は、ワード同士の関連付けの強度を、複数のワードそれぞれとテーマ情報との関連付けの強度に基づき算出してもよい。図6は、複数のバズワードそれぞれとテーマ情報との関連付けの強度を示す強度情報の一例である。「強度」の項目に示された値がバズワードとテーマ情報との関連付けの強度を示している。値が大きいほど強く関連付けられていることを示す。バズワードとテーマ情報との関連付けの強度は、上述した付与回数或いは付与率に基づき算出されてもよいし、該当のバズワード中のテーマ情報の順位に基づき算出されてもよい。強度の算出方法は様々な方法を採用可能である。
情報処理装置30は、バズワードとテーマ情報との関連付けの強度に基づきワード同士の関連付けの強度を算出する。例えば、第1のテーマ情報を介して繋がる第1のバズワードと第2のバズワードがあるとする。このとき、情報処理装置30は、第1のテーマ情報と第1のバズワードの関連付けの強度と、第1のテーマ情報と第2のバズワードの関連付けの強度と、を加算した値を第1のバズワードと第2のバズワードとの関連付けの強度として算出する。例えば、図4の例の場合、“選手A”と“選手B”は、“#日本代表”を介して繋がっている。図6に示すように、“選手A”と“#日本代表”の関連付けの強度は0.568であり、“選手B”と“#日本代表”の関連付けの強度は0.698である。情報処理装置30は、0.568と0.698を加算した1.266を“選手A”と“選手B”の関連付けの強度として算出する。
また、第1のバズワードと第2のバズワードが第1のテーマ情報及び第2のテーマ情報の2つを介して繋がっていたとする。このとき、情報処理装置30は、第1のテーマ情報と第1のバズワードの関連付けの強度と、第1のテーマ情報と第2のバズワードの関連付けの強度と、第2のテーマ情報と第1のバズワードの関連付けの強度と、第2のテーマ情報と第2のバズワードの関連付けの強度と、を加算した値を第1のバズワードと第2のバズワードとの関連付けの強度として算出する。例えば、図4の例の場合、“ゲームE”と“ゲームF”は、“#攻略”と“#RPG”の2つのテーマ情報を介して繋がっている。図6に示すように“ゲームE”と“#攻略”の関連付けの強度は0.695であり、“ゲームF”と“#攻略”の関連付けの強度は0.569である。また、“ゲームE”と“#RPG”の関連付けの強度は0.354であり、“ゲームF”と“#RPG”の関連付けの強度は0.236である。情報処理装置30は、0.695と0.569と0.354と0.236とを加算した1.854を“ゲームE”と“ゲームF”の関連付けの強度として算出する。なお、バズワードが2より多くのテーマ情報で繋がっている場合、情報処理装置30は、上記と同様に、全ての繋がりを考慮してバズワード同士の関連付けの強度を算出する。
そして、情報処理装置30は、バズワード同士の関連付けの強度に基づいて、バズワードを複数のワードクラスタに仮にクラスタリングする(ステップS6)。このとき、情報処理装置30は、予め設定された強度以上で繋がるバズワードを同じクラスタに分類してもよい。図5の例では、情報処理装置30は、8つのバズワードを3つのワードクラスタ(クラスタC11、C12、C13)にクラスタリングしている。クラスタC11には、“選手A”、“選手C”、“テレビ”が属しており、クラスタC12には、“ゲームE”、“ゲームF”、“ABCグループ”が属しており、クラスタC13には、“選手B”、“歌手D”が属している。
なお、テーマ情報の中には、投稿情報の内容にあまり関係のないテーマ情報が含まれることがある。例えば、新聞社、雑誌等が運営するサイトやポータルサイトの中には、これらのサイトの運営者が投稿する情報の全てに、一律に“#Yニュース”等の自身を示すテーマ情報を付すことがある。この場合、多くの投稿情報に“#Yニュース”等のあまり意味をなさないテーマ情報が付され、結果として、多くのバズワードが“#Yニュース”等のテーマ情報を通じて無意味に関連付けられることになる。多くのバズワードが無意味に関連付けられると、場合によっては、情報処理装置30は、不自然なクラスタリングを行う。図5の例では、アイドルグループと思われるABCグループがゲームE、ゲームFと同一のクラスタに不自然に分類されている。また、サッカー選手と思われる選手BがABCグループの一員と思われる歌手Dと同一のクラスタに不自然に分類されている。
そこで、情報処理装置30は、“#Yニュース”等、バズワードの関連付けにあまり意味をなさないテーマ情報を、複数のテーマ情報から除去する。このとき、情報処理装置30は、クラスタリング結果に基づき、複数のテーマ情報から除去するテーマ情報(以下、除去テーマ情報という。)を選択する(ステップS7)。例えば、情報処理装置30は、所定の数より多くのワードクラスタと所定の基準を満たす繋がりを有するテーマ情報を除去テーマ情報として選択する。このとき、情報処理装置30は、所定の数より多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去テーマ情報として選択してもよい。多くのワードクラスタと所定の強度以上で繋がるテーマ情報は、多くのワードクラスタと繋がるテーマ情報の中でも、特に、ワード間の結びつきを無意味に強くしているテーマ情報である可能性が高い。このようなテーマ情報は情報処理装置30のクラスタリングを特に妨害している可能性が高い。多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去することで、情報処理装置30は精度の高いクラスタリングを実現できる。勿論、情報処理装置30は、所定の数より多くのワードクラスタと所定の強度以下で関連付けられたテーマ情報を除去テーマ情報として選択してもよい。
なお、ワードクラスタに関連付けられているテーマ情報は、そのワードクラスタ中のいずれかのバズワードと繋がっているテーマ情報である。ワードクラスタとバズワードとの関連付けの強度は、ワードクラスタに含まれるバズワードとの関連付けの強度と同じであってもよい。勿論、情報処理装置30は、単純に所定の数のクラスタと関連付けられたテーマ情報を除去テーマ情報として選択してもよい。所定の数は、2つであってもよいし、2より大きな数であってもよい。
なお、除去テーマ情報の選択方法は上記に限られない。例えば、情報処理装置30は、ワードクラスタとの繋がりが多い順に、所定の数(例えば、200件)のテーマ情報を除去テーマ情報として選択してもよい。例えば、テーマ情報がN件あるとする。Nは任意の整数である。情報処理装置30は、N件のテーマ情報をワードクラスタとの繋がりの数が多い順に並べる。そして、情報処理装置30は、ワードクラスタとの繋がりの数が多い順に並べられたN件のテーマ情報のうち上位n件を除去テーマ情報として選択する。このときnはNより小さい任意の整数である。
本実施形態では、情報処理装置30は、2以上のワードクラスタと関連付けられているテーマ情報を全て除去する。図7は、図5に示す3つのクラスタC11、C12、C13にテーマ情報を関連付けたグラフである。クラスタ内のバズワードの記載は省略している。図7の例の場合、“#Yニュース”がクラスタC11〜C13の3つのワードクラスタに関連付けられており、“#発売日”がクラスタC12、C13の2つのワードクラスタに関連付けられている。情報処理装置30は、“#Yニュース”と“#発売日”の2つのテーマ情報を図7に示す7つのテーマ情報から除去する。図8は、図4に示すグラフから、選択したテーマ情報を除去した様子を示す図である。
なお、バズワードの中には、“テレビ”等、投稿情報の内容にあまり依存せず、多くの投稿情報に出現するワード(例えば、一般用語)が含まれることがある。“テレビ”等の一般用語は、多くの場合、投稿情報等の内容を特徴づけるものではなく、また、多くの場面で使用される。このようなワードは、多くのワードと無意味に結びつき、クラスタの範囲を広げる。この結果、クラスタリングの精度を低下させる。そこで、情報処理装置30は、“テレビ”等、多くの投稿情報に出現するバズワードを複数のバズワードから除去する。具体的には、情報処理装置30は、以下の処理を行う。
まず、情報処理装置30は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングする。クラスタリングする複数のテーマ情報は、ステップS7で選択されたテーマ情報が除去されたテーマ情報であってもよい。このとき、情報処理装置30は、テーマ情報同士の関連付けの強度に基づいて複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングしてもよい。テーマ情報クラスタとは、1又は複数のテーマ情報で構成されるクラスタのことをいう。情報処理装置30は、テーマ情報同士の関連付けの強度を、テーマ情報とワードとの関連付けの強度に基づき算出してもよい。図9は、複数のテーマ情報をクラスタリングした様子を示す図である。図9の例では、情報処理装置30は、5つのテーマ情報を3つのテーマ情報クラスタ(クラスタC21、C22、C23)にクラスタリングしている。
情報処理装置30は、テーマ情報のクラスタリングの結果に基づいて複数のバズワードから除去するバズワード(以下、除去ワードという。)を選択する(ステップS8)。例えば、情報処理装置30は、所定の数より多くのテーマ情報クラスタと所定の基準を満たす繋がりを有するバズワードを除去ワードとして選択する。例えば、情報処理装置30は、所定の数より多くのテーマ情報クラスタと所定の強度以上で関連付けられたバズワードを除去ワードとして選択してもよい。勿論、情報処理装置30は、所定の数より多くのテーマ情報クラスタと所定の強度以下で関連付けられたバズワードを除去テーマ情報として選択してもよい。所定の数は、2つであってもよいし、2より大きな数であってもよい。なお、本実施形態の場合、複数のテーマ情報クラスタと関連付けられているテーマ情報を全て除去する。図10は、図9に示す3つのクラスタC21、C22、C23にテーマ情報を関連付けたグラフである。クラスタ内のテーマ情報の記載は省略している。図10の例の場合、“テレビ”がクラスタC21、C22と繋がっている。そこで、情報処理装置30は、“テレビ”を図10に示す8つのバズワードから除去する。図11は、図8に示すグラフから、選択したバズワードを除去した様子を示す図である。
なお、除去ワードの選択方法は上記に限られない。例えば、情報処理装置30は、テーマ情報クラスタとの繋がりが多い順に、所定の数(例えば、200件)のワードを除去ワードとして選択してもよい。例えば、ワードがM件あるとする。Mは任意の整数である。情報処理装置30は、M件のワードをテーマ情報クラスタとの繋がりの数が多い順に並べる。そして、情報処理装置30は、テーマ情報クラスタとの繋がりの数が多い順に並べられたM件のワードのうち上位m件を除去ワードとして選択する。このときmはMより小さい任意の整数である。
情報処理装置30は、選択されたワードが除去された複数のバズワードをクラスタリングする(ステップS9)。例えば、情報処理装置30は、ステップS7で選択されたテーマ情報が除去された複数のテーマ情報に基づいて、ステップS8で選択されたバズワードが除去された複数のバズワードの関連を再度特定する。図12は、テーマ情報を介して繋がるバズワードを関連付けた様子を示す図である。そして、情報処理装置30は、再度特定された関連に基づいて複数のバズワードをクラスタリングする。図12の例では、情報処理装置30は、7つのバズワードを3つのワードクラスタ(クラスタC31、C32、C33)にクラスタリングしている。
情報処理装置30は、クラスタリングの結果をユーザに出力する(ステップS10)。情報処理装置30は、図12に示すグラフを生成するためのデータをクラスタリングの結果をユーザに出力する。
本実施形態によれば、情報処理装置30は、テーマ情報を使ってバズワードを関連付けている。そのため、ユーザは、バズワード同士の関連を容易に把握できるので、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、バズワード同士の関連に基づいて、バズワードをクラスタリングしている。クラスタリングの際、情報処理装置30は、多くのワードクラスタと繋がるテーマ情報を除去している。また、クラスタリングの際、情報処理装置30は、多くのテーマ情報クラスタと繋がるバズワードを除去している。これにより、情報処理装置30は、精度よくバズワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
〔2.情報処理システムの構成例〕
以上、本実施形態の情報処理装置の一例である情報処理装置30を備える情報処理システム1を例に、情報処理装置の動作を述べたが、以下、本実施形態の情報処理装置の構成を説明する。以下の説明では、情報処理システム1を例に情報処理装置の構成を説明する。上述したように、情報処理システム1は、端末装置10と、サービス提供サーバ20と、情報処理装置30と、を備える。端末装置10、サービス提供サーバ20、及び情報処理装置30は、ネットワークを介して接続される。ネットワークは、LAN(Local Area Network)、WAN(Wide Area Network)、電話網(携帯電話網、固定電話網等)、地域IP(Internet Protocol)網、インターネット等の通信ネットワークである。ネットワークには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。
〔3.端末装置の構成例〕
図13は、実施形態に係る端末装置10の構成例を示す図である。端末装置10は、ユーザがページの閲覧に使用する情報表示装置(情報処理装置)である。端末装置10は、例えば、スマートフォン、タブレット、携帯電話等の通信端末である。通信機能を備えるのであれば、端末装置10は、パーソナルコンピュータ(ノートPC、デスクトップPC)、PDA(Personal Digital Assistant)等の情報処理端末であってもよい。この場合、情報処理端末も通信端末の一種である。端末装置10は、ネットワークを介してサービス提供サーバ20と接続する。端末装置10は、図13に示すように、通信部11と、入力部12と、記憶部13と、出力部14と、制御部15と、を備える。なお、図13に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。
通信部11は、外部の装置と通信する通信インタフェースである。通信部11は、ネットワークインタフェースであってもよいし、機器接続インタフェースであってもよい。例えば、通信部11は、NIC(Network Interface Card)等のLANインタフェースであってもよいし、USB(Universal Serial Bus)ホストコントローラ、USBポート等により構成されるUSBインタフェースであってもよい。また、通信部11は、有線インタフェースであってもよいし、無線インタフェースであってもよい。通信部11は、端末装置10の通信手段として機能する。通信部11は、制御部15の制御に従ってサービス提供サーバ20と通信する。
入力部12は、外部から各種入力を受け付ける入力装置である。例えば、入力部12は、キーボードやマウスや操作キー等、ユーザが各種操作を行うための操作装置である。入力部12は、端末装置10の入力手段として機能する。なお、端末装置10にタッチパネルが採用される場合には、タッチパネルも入力部12に含まれる。この場合、ユーザは、指やスタイラスで画面をタッチすることにより各種操作を行う。
記憶部13は、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部13は、端末装置10の記憶手段として機能する。記憶部13は、ウェブブラウザ等のアプリケーションソフトのデータが格納されている。ユーザはアプリケーションソフトを介してサービス提供サーバ20と通信する。
出力部14は、音、光、振動、画像等、外部に各種出力を行う装置である。出力部14は、端末装置10の出力手段として機能する。出力部14は、各種情報を表示する表示装置を備える。表示装置は、例えば、液晶ディスプレイ、有機ELディスプレイである。なお、端末装置10にタッチパネルが採用される場合には、表示装置は入力部12と一体であってもよい。出力部14は、制御部15の制御に従って、画面に画像を表示する。
制御部15は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、端末装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部15は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
〔4.サービス提供サーバの構成例〕
次に、サービス提供サーバ20の構成について詳細に説明する。サービス提供サーバ20は、端末装置10、情報処理装置30等のクライアントコンピュータからの要求を処理するサーバ用ホストコンピュータ(以下、単に「サーバ」という。)である。サービス提供サーバ20は、PCサーバであってもよいし、ミッドレンジサーバであってもよいし、メインフレームサーバであってもよい。また、サービス提供サーバ20は、1つのサーバにより構成されていてもよいし、協働して処理を実行する複数のサーバにより構成されていてもよい。サービス提供サーバ20が複数のサーバで構成される場合、これらサーバの設置場所は離れていてもよい。設置場所が離れていたとしても、協働して処理を実行するのであれば、これらサーバは1つのサービス提供サーバとみなすことができる。
図14は、実施形態に係るサービス提供サーバ20の構成例を示す図である。サービス提供サーバ20は、通信部21と、記憶部22と、制御部23と、を備える。なお、図14に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。
通信部21は、外部の装置と通信する通信インタフェースである。通信部21は、ネットワークインタフェースであってもよいし、機器接続インタフェースであってもよい。例えば、通信部21は、NIC等のLANインタフェースであってもよいし、USBホストコントローラ、USBポート等により構成されるUSBインタフェースであってもよい。また、通信部21は、有線インタフェースであってもよいし、無線インタフェースであってもよい。通信部21は、サービス提供サーバ20の通信手段として機能する。通信部21は、制御部23の制御に従って端末装置10と通信する。
記憶部22は、DRAM、SRAM、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部22は、サービス提供サーバ20の記憶手段として機能する。記憶部22は、例えば、図2に示すような投稿情報データベースを記憶する。投稿情報データベースは、「ID」、「内容」、「日時」等の項目を有する。「ID」には、ユーザの投稿に付された識別情報が記録される。「内容」には、ユーザの投稿内容が記録される。「内容」には投稿情報とその投稿情報に付されたテーマ情報が記録される。「日時」には、ユーザが情報を投稿した日時が記録される。投稿情報データベースは、ユーザの投稿の度に更新される。
制御部23は、コントローラであり、例えば、CPU、MPU等のプロセッサによって、サービス提供サーバ20内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部23は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。制御部23は、投稿情報データベースからバズワード及びテーマ情報を抽出し、図3に示すようなバズワード情報を生成する。
バズワード情報は、「順位」、「バズワード」、「テーマ情報」等の項目を有する。「順位」には、バズワードの順位が記録される。例えば、「順位」には、バズワードの投稿情報への出現頻度の順位が記録される。「バズワード」には、図2に示す投稿情報データベースから抽出されたバズワードが記録される。「バズワード」には、バズワード(以下、親ワードともいう。)と関連する子ワードの情報が含まれていてもよい。子ワードは、例えば、親ワードの共起語である。1つの親ワードに複数個の子ワードが関連付けられていてもよい。「テーマ情報」には、投稿情報に関連付けられたテーマ情報が記録される。上述したように、バズワードには順位が付される。バズワード情報には、所定の順位までの複数のバズワード(例えば、1位から200位までの200個のバズワード)が記録される。なお、制御部23は、所定時間間隔でバズワード情報を生成してもよい。例えば、制御部23は、毎日、8:00〜25:00までの17時間、15分間隔でバズワード情報を生成してもよい。この場合、制御部23は、1週間で476件(=(17時間/15分)×7日)のバズワード情報を取得する。
〔5.情報処理装置の構成例〕
次に、情報処理装置30の構成について詳細に説明する。情報処理装置30は、オークションに関する分析を行うコンピュータである。情報処理装置30は端末装置であってもよいしサーバ装置であってもよい。情報処理装置30を端末装置とする場合、情報処理装置30は、スマートフォン、タブレット、携帯電話、パーソナルコンピュータ、PDA等の情報処理端末であってもよい。また、情報処理装置30をサーバ装置とする場合、情報処理装置30は、PCサーバであってもよいし、ミッドレンジサーバであってもよいし、メインフレームサーバであってもよい。このとき、情報処理装置30は、1つのサーバにより構成されていてもよいし、協働して処理を実行する複数のサーバにより構成されていてもよい。情報処理装置30が複数のサーバで構成される場合、これらサーバの設置場所は離れていてもよい。設置場所が離れていたとしても、協働して処理を実行するのであれば、これらサーバは1つのサーバ装置とみなすことができる。
図15は、実施形態に係る情報処理装置30の構成例を示す図である。情報処理装置30は、通信部31と、記憶部32と、制御部33と、を備える。なお、図15に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。
通信部31は、外部の装置と通信する通信インタフェースである。通信部31は、ネットワークインタフェースであってもよいし、機器接続インタフェースであってもよい。例えば、通信部31は、NIC等のLANインタフェースであってもよいし、USBホストコントローラ、USBポート等により構成されるUSBインタフェースであってもよい。また、通信部31は、有線インタフェースであってもよいし、無線インタフェースであってもよい。通信部31は、情報処理装置30の通信手段として機能する。通信部31は、制御部33の制御に従って端末装置10及びサービス提供サーバ20と通信する。
記憶部32は、DRAM、SRAM、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部32は、情報処理装置30の記憶手段として機能する。記憶部32は、バズワード情報データベース321、強度情報データベース322、クラスタ情報データベース323を記憶する。
バズワード情報データベース321は、バズワード情報を記憶するデータベースである。図16は、バズワード情報データベース321に格納される情報の一例を示す図である。図16に示した例では、バズワード情報データベース321は、「日時」、「バズワード情報」等の項目を有している。
「日時」は、バズワード情報を取得した日時を示す。図16は、情報処理装置30がサービス提供サーバ20から15分毎にバズワード情報を取得した例を示している。図16の例では、“2017/10/1 8:00”、“2017/10/1 8:15”等の情報が格納されている。
「バズワード情報」は、サービス提供サーバ20から取得したバズワード情報を示す。1つのバズワード情報には、複数件のバズワードに関する情報が格納されている。図17はバズワード情報の一例を示す図である。バズワード情報は、「順位」、「親ワード」、「子ワード」等の項目を有している。「順位」は、バズワードの順位を示す。「親ワード」には、バズワードそのものが格納される。親ワードには、複数個(例えば、5個)の子ワードが関連付けられている。「子ワード」は、親ワードと関連するワードを示す。例えば、子ワードは親ワードの共起語を示す。
強度情報データベース322は、強度情報を記憶するデータベースである。図18は、強度情報データベース322に格納される情報の一例を示す図である。図18に示した例では、強度情報データベース322は、「バズワード」、「テーマ情報」、「強度」等の項目を有している。
「バズワード」は、投稿情報から抽出されたバズワードを示す。図18の例では、バズワードには、“選手A”、“選手B”等の情報が格納されている。バズワードには、子ワードの情報が格納されていてもよい。
「テーマ情報」は、バズワードが使用された複数の投稿情報から抽出された複数のテーマ情報のうち、所定の基準を満たすテーマ情報を示す。例えば、テーマ情報には、付与回数が多い順或いは付与率が高い順に選択された所定数(例えば、5個)のテーマ情報が格納される。図18の例では、テーマ情報には、“#日本代表”、“#ヨーロッパサッカー”等の情報が格納されている。
「強度」は、バズワードとテーマ情報の関連付けの強度を示す。図18の例では、強度には、“0.568”、“0.279”等の情報が格納されている。値が大きいほど、バズワードとテーマ情報が強く結びついていることを示す。
クラスタ情報データベース323は、クラスタ情報を記憶するデータベースである。図19は、クラスタ情報データベース323に格納される情報の一例を示す図である。図19に示した例では、クラスタ情報データベース323は、「クラスタID」、「バスワード」等の項目を有している。
「クラスタID」は、ワードクラスタに付与される識別情報を示す。図19の例では、クラスタIDには、C31、C32等の情報が格納されている。
「バズワード」は、クラスタIDで識別されるワードクラスタに属するバズワードを示す。図19の例では、バズワードには、“選手A”、“選手B”等の情報が格納されている。
図15に戻り、制御部33は、コントローラであり、例えば、CPU、MPU等のプロセッサによって、情報処理装置30内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部33は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
制御部33は、図15に示すように、取得部331と、特定部332と、クラスタリング部333と、テーマ情報選択部334と、ワード選択部335と、出力制御部336と、を備える。制御部33を構成するブロック(取得部331〜出力制御部336)はそれぞれ制御部33の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア(マイクロプログラムを含む。)で実現される1つのソフトウェアモジュールであってもよいし、半導体チップ(ダイ)上の1つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ1つのプロセッサ或いは1つの集積回路であってもよい。機能ブロックの構成方法は任意である。なお、制御部33は上述の機能ブロックとは異なる機能単位で構成されていてもよい。
取得部331は、複数の投稿情報から抽出された複数のワードと、複数の投稿情報に付与された複数のテーマ情報と、を取得する。
特定部332は、複数のテーマ情報に基づいて、ワード同士の関連を特定する。また、特定部332は、複数のテーマ情報に基づいて、ワード同士の関連付けの強度を特定する。例えば、特定部332は、複数のワードそれぞれとテーマ情報との関連付けの強度を算出し、算出された強度に基づいて、テーマ情報を介して繋がるワード同士の関連付けの強度を特定する。また、特定部332は、テーマ情報選択部334で選択されたテーマ情報が除去された複数のテーマ情報に基づいて、ワード同士の関連を再度特定する。
クラスタリング部333は、特定部332で特定されたワード同士の関連に基づいて複数のワードをクラスタリングする。例えば、クラスタリング部333は、特定部332で算出されたワード同士の関連付けの強度に基づいて複数のワードをクラスタリングする。また、クラスタリング部333は、特定部332で再度特定された関連に基づいて複数のワードをクラスタリングしてもよい。また、クラスタリング部333は、ワード選択部335で選択されたワードが除去された複数のワードをクラスタリングしてもよい。
テーマ情報選択部334は、複数のワードをクラスタリングするとともに、ワードのクラスタリング結果に基づいて、複数のテーマ情報から除去するテーマ情報を選択する。例えば、テーマ情報選択部334は、複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと繋がりを有するテーマ情報を除去するテーマ情報として選択する。このとき、テーマ情報選択部334は、複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去するテーマ情報として選択してもよい。また、テーマ情報選択部334は、複数のワードを複数のワードクラスタにクラスタリングするとともに、ワードクラスタとの繋がりが多い順に所定の数のテーマ情報を除去するテーマ情報として選択してもよい。
ワード選択部335は、複数のテーマ情報をクラスタリングするとともに、テーマ情報のクラスタリング結果に基づいて、複数のワードから除去するワードを選択する。例えば、ワード選択部335は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと繋がりを有するワードを除去するワードとして選択する。このとき、ワード選択部335は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと所定の強度以上で関連付けられたワードを除去するワードとして選択してもよい。また、ワード選択部335は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、テーマ情報クラスタとの繋がりが多い順に所定の数のワードを除去するワードとして選択してもよい。
出力制御部336は、クラスタリング部333によるクラスタリングの結果をユーザに出力する。
〔6.情報処理装置の処理フロー〕
次に、図20を参照しながら、情報処理装置30が実行する処理の手順について説明する。図20は、クラスタリング処理の一例を示すフローチャートである。情報処理装置30は、情報処理装置30を操作するユーザから処理の開始命令を受け取ると、クラスタリング処理を開始する。
まず、情報処理装置30は、サービス提供サーバ20からバズワード情報を取得する(ステップS11)。このとき、情報処理装置30は、15分毎の複数件のバズワード情報を取得してもよい。また、バズワード情報それぞれには複数個のバズワードが含まれていてもよい。バズワードは順位付けされていてもよい。また、バズワードそれぞれには複数のテーマ情報が関連付けられていてもよい。複数のテーマ情報は順位付けされていてもよい。また、バズワードそれぞれには複数の子ワードが関連付けられていてもよい。複数の子ワードは順位付けされていてもよい。
そして、情報処理装置30は、バズワード情報に含まれる複数のテーマ情報に基づいて、バズワード同士の関連を特定する(ステップS12)。例えば、情報処理装置30は、図5に示すように、テーマ情報を介して繋がるバズワードを関連付ける。バズワード情報に子ワードの情報が含まれる場合は、情報処理装置30は、バズワードに子ワードを関連付けてもよい。
続いて、情報処理装置30は、バズワードとテーマ情報の関連付けの強度を算出する(ステップS13)。情報処理装置30は、所定の基準に従ってバズワードとテーマ情報の関連付けの強度を算出する。例えば、第1のバズワードと第1のテーマ情報の関連付けの強度を算出するとする。このとき、情報処理装置30は、(1)バズワード情報中の第1のバズワードの順位、(2)第1のバズワードに関連付けられている複数のテーマ情報中の第1のテーマ情報の順位、(3)所定期間中のバズワード情報のうち、第1のバズワードと第1のテーマ情報のペアの出現頻度(出現回数)に基づき、第1のバズワードと第1のテーマ情報の関連付けの強度を算出する。子ワードとテーマ情報の関連付けの強度を算出するのであれば、情報処理装置30は、上述の(1)〜(3)に加えて、(4)第1のバズワードに関連付けられている複数の子ワード中の該当の子ワードの順位を考慮要素に入れてもよい。なお、(3)の所定期間は、1週間であってもよいし、半年であってもよいし、1年であってもよい。勿論、所定期間は、1週間、半年、1年に限定されない。
続いて、情報処理装置30は、バズワード同士の関連付けの強度を算出する(ステップS14)。例えば、情報処理装置30は、バズワード同士の関連付けの強度を、バズワードとテーマ情報との関連付けの強度に基づき算出する。
続いて、情報処理装置30は、バズワードのクラスタリングを実行する(ステップS15)。例えば、情報処理装置30は、ステップS14で算出した強度に基づいてバズワードを複数のワードクラスタにクラスタリングする。
続いて、情報処理装置30は、複数のテーマ情報から除外するテーマ情報を選択する(ステップS16)。例えば、情報処理装置30は、所定の数より多くのワードクラスタと関連付けられたテーマ情報を除去テーマ情報として選択する。
続いて、情報処理装置30は、テーマ情報同士の関連付けの強度を算出する(ステップS17)。例えば、情報処理装置30は、テーマ情報同士の関連付けの強度に基づいて複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングする。
続いて、情報処理装置30は、テーマ情報のクラスタリングを実行する(ステップS18)。例えば、情報処理装置30は、ステップS17で算出した強度に基づいてテーマ情報を複数のテーマ情報クラスタにクラスタリングする。
続いて、情報処理装置30は、除外するバズワードを選択する(ステップS19)。例えば、情報処理装置30は、所定の数より多くのテーマ情報クラスタと繋がりを有するバズワードを除去ワードとして選択する。
続いて、情報処理装置30は、バズワード同士の関連付けの強度を再度算出する(ステップS20)。このとき、情報処理装置30は、除去テーマ情報が除去された複数のテーマ情報に基づいて、バズワード同士の関連付けの強度を算出する。
続いて、情報処理装置30は、バズワードのクラスタリングを実行する(ステップS21)。例えば、情報処理装置30は、ステップS20で算出した強度に基づいてバズワードを複数のワードクラスタにクラスタリングする。クラスタリングする複数のバズワードは、除去ワードが除去されたものであってもよい。
クラスタリングが完了したら、情報処理装置30は、クラスタリングの結果を図19に示すようにクラスタ情報データベース323に保存する。保存が完了したら情報処理装置30は、クラスタリング処理を終了する。
〔7.変形例〕
上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。
例えば、上述の実施形態では、情報処理装置30はバズワード同士の関連を特定した。しかし、情報処理装置30が関連を特定するのはバズワードに限定されない。情報処理装置30は、投稿情報から所定の基準で抽出されたワード同士の関連を特定してもよい。このとき、ワードには、バズワードが含まれていてもよい。情報処理装置30は、特定した関連に基づいて、複数のワードを複数のワードクラスタにクラスタリングしてもよい。
また、上述の実施形態では、情報処理装置30が関連を特定するワード(バズワード)は、投稿情報から抽出されるものとしたが、バズワードは、投稿情報以外の情報から抽出されてもよい。例えば、バズワードは、ウェブページから抽出されてもよい。
また、ワード及びテーマ情報の抽出は、サービス提供サーバ20が実行するものとしたが、情報処理装置30が実行してもよい。
また、情報処理装置30は、ワード同士の関連の情報やクラスタリングの結果に基づいてウェブサービス(例えば、検索サービス)を実行してもよい。例えば、情報処理装置30は、検索クエリにバズワードが含まれる場合には、検索クエリと関連付けられた他のバズワードが含まれる検索結果を優先的に検索結果として出力してもよい。
本実施形態の情報処理装置30を制御する制御装置は、専用のコンピュータシステムによって実現してもよいし、通常のコンピュータシステムにより実現してもよい。例えば、上述の動作を実行するためのプログラムを、光ディスク、半導体メモリ、磁気テープ、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体に格納して配布し、該プログラムをコンピュータにインストールし、上述の処理を実行することによって制御装置を構成してもよい。制御装置は、情報処理装置30の外部の装置(例えば、パーソナルコンピュータ)であってもよいし、内部の装置(例えば、制御部33)であってもよい。また、上記プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、OS(Operating System)とアプリケーションソフトとの協働により実現してもよい。この場合には、OS以外の部分を媒体に格納して配布してもよいし、OS以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔8.ハードウェア構成〕
実施形態及び変形例に係る情報処理装置30は、例えば図21に示すような構成のコンピュータ1000によっても実現可能である。図21は、情報処理装置30の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU(Central Processing Unit)1100、RAM1200、ROM1300、HDD(Hard Disk Drive)1400、通信インタフェース(I/F)1500、入出力インタフェース(I/F)1600、及びメディアインタフェース(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インタフェース1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インタフェース1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インタフェース1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インタフェース1600を介して出力装置へ出力する。
メディアインタフェース1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインタフェース1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る情報処理装置30として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部33の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔9.効果〕
本実施形態によれば、情報処理装置30は、複数の投稿情報から抽出された複数のワードと、複数の投稿情報に付与された複数のテーマ情報と、を取得する。そして、情報処理装置30は、複数のテーマ情報に基づいて、ワード同士の関連を特定する。これにより、ユーザは、ワード同士の関連を容易に把握できるので、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、特定されたワード同士の関連に基づいて複数のワードをクラスタリングする。これにより、ユーザは、ワード同士の関連がさらに容易に把握できるので、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のテーマ情報に基づいて、ワード同士の関連付けの強度を特定する。そして、情報処理装置30は、算出された強度に基づいて複数のワードをクラスタリングする。これにより、ユーザは、ワード同士の関連がさらに容易に把握できるので、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のワードそれぞれとテーマ情報との関連付けの強度を算出し、算出された強度に基づいて、テーマ情報を介して繋がるワード同士の関連付けの強度を特定する。これにより、ユーザは、ワード同士の関連がさらに容易に把握できるので、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のワードをクラスタリングするとともに、該ワードのクラスタリング結果に基づいて、複数のテーマ情報から除去するテーマ情報を選択する。そして、情報処理装置30は、選択されたテーマ情報が除去された複数のテーマ情報に基づいて、ワード同士の関連を再度特定する。そして、情報処理装置30は、再度特定された関連に基づいて複数のワードをクラスタリングする。
また、情報処理装置30は、複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと所定の基準を満たす繋がりを有するテーマ情報を除去するテーマ情報として選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去するテーマ情報として選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のワードを複数のワードクラスタにクラスタリングするとともに、ワードクラスタとの繋がりが多い順に所定の数のテーマ情報を除去するテーマ情報として選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のテーマ情報をクラスタリングするとともに、該テーマ情報のクラスタリング結果に基づいて、複数のワードから除去するワードを選択する。そして、情報処理装置30は、選択されたワードが除去された複数のワードをクラスタリングする。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと繋がりを有するワードを除去するワードとして選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと所定の強度以上で関連付けられたワードを除去するワードとして選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
また、情報処理装置30は、複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、テーマ情報クラスタとの繋がりが多い順に所定の数のワードを除去するワードとして選択する。これにより、情報処理装置30は、精度よくワードをクラスタリングできる。結果として、ユーザは、投稿情報に関する精度の高い分析ができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、特定部は、特定手段や特定回路に読み替えることができる。
1…情報処理システム
10、10、10、10…端末装置
11、21、31…通信部
12…入力部
13、22、32…記憶部
14…出力部
15、23、33…制御部
20…サービス提供サーバ
30…情報処理装置
321…バズワード情報データベース
322…強度情報データベース
323…クラスタ情報データベース
331…取得部
332…特定部
333…クラスタリング部
334…テーマ情報選択部
335…ワード選択部
336…出力制御部
C11〜C13、C21〜C23、C31〜C33…クラスタ

Claims (18)

  1. 複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報であって付与回数或いは付与率に関する所定の基準を満たす前記複数のテーマ情報と、を取得する取得部と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定部と、
    を備えることを特徴とする情報処理装置。
  2. 複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報と、を取得する取得部と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定部と、
    特定された前記ワード同士の関連に基づいて前記複数のワードをクラスタリングするクラスタリング部と、
    前記複数のワードをクラスタリングするとともに、該ワードのクラスタリング結果に基づいて、前記複数のテーマ情報から除去するテーマ情報を選択するテーマ情報選択部と、を備え、
    前記特定部は、選択されたテーマ情報が除去された前記複数のテーマ情報に基づいて、前記ワード同士の関連を再度特定し、
    前記クラスタリング部は、再度特定された関連に基づいて前記複数のワードをクラスタリングする、
    ことを特徴とする情報処理装置。
  3. 複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報と、を取得する取得部と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定部と、
    特定された前記ワード同士の関連に基づいて前記複数のワードをクラスタリングするクラスタリング部と、
    前記複数のテーマ情報をクラスタリングするとともに、該テーマ情報のクラスタリング結果に基づいて、前記複数のワードから除去するワードを選択するワード選択部と、を備え、
    前記クラスタリング部は、前記ワード選択部で選択されたワードが除去された前記複数のワードをクラスタリングする、
    ことを特徴とする情報処理装置。
  4. 特定された前記ワード同士の関連に基づいて前記複数のワードをクラスタリングするクラスタリング部、
    をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  5. 前記特定部は、前記複数のテーマ情報に基づいて、前記ワード同士の関連付けの強度を特定し、
    前記クラスタリング部は、算出された強度に基づいて前記複数のワードをクラスタリングする、
    を備えることを特徴とする請求項2〜4のいずれか1項に記載の情報処理装置。
  6. 前記特定部は、前記複数のワードそれぞれと前記テーマ情報との関連付けの強度を算出し、算出された強度に基づいて、前記テーマ情報を介して繋がる前記ワード同士の関連付けの強度を特定する、
    ことを特徴とする請求項に記載の情報処理装置。
  7. 前記テーマ情報選択部は、前記複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと繋がりを有するテーマ情報を除去するテーマ情報として選択する、
    ことを特徴とする請求項に記載の情報処理装置。
  8. 前記テーマ情報選択部は、前記複数のワードを複数のワードクラスタにクラスタリングするとともに、所定の数より多くのワードクラスタと所定の強度以上で関連付けられたテーマ情報を除去するテーマ情報として選択する、
    ことを特徴とする請求項又はに記載の情報処理装置。
  9. 前記テーマ情報選択部は、前記複数のワードを複数のワードクラスタにクラスタリングするとともに、ワードクラスタとの繋がりが多い順に所定の数のテーマ情報を除去するテーマ情報として選択する、
    ことを特徴とする請求項に記載の情報処理装置。
  10. 前記ワード選択部は、前記複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと繋がりを有するワードを除去するワードとして選択する、
    ことを特徴とする請求項に記載の情報処理装置。
  11. 前記ワード選択部は、前記複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、所定の数より多くのテーマ情報クラスタと所定の強度以上で関連付けられたワードを除去するワードとして選択する、
    ことを特徴とする請求項又は10に記載の情報処理装置。
  12. 前記ワード選択部は、前記複数のテーマ情報を複数のテーマ情報クラスタにクラスタリングするとともに、テーマ情報クラスタとの繋がりが多い順に所定の数のワードを除去するワードとして選択する、
    ことを特徴とする請求項に記載の情報処理装置。
  13. 情報処理装置が実行する情報処理方法であって、
    複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報であって付与回数或いは付与率に関する所定の基準を満たす前記複数のテーマ情報と、を取得する取得工程と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定工程と、
    を含むことを特徴とする情報処理方法。
  14. 情報処理装置が実行する情報処理方法であって、
    複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報と、を取得する取得工程と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定工程と、
    特定された前記ワード同士の関連に基づいて前記複数のワードをクラスタリングするクラスタリング工程と、
    前記複数のワードをクラスタリングするとともに、該ワードのクラスタリング結果に基づいて、前記複数のテーマ情報から除去するテーマ情報を選択するテーマ情報選択工程と、を含み、
    前記特定工程では、選択されたテーマ情報が除去された前記複数のテーマ情報に基づいて、前記ワード同士の関連を再度特定し、
    前記クラスタリング工程では、再度特定された関連に基づいて前記複数のワードをクラスタリングする、
    ことを特徴とする情報処理方法。
  15. 情報処理装置が実行する情報処理方法であって、
    複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報と、を取得する取得工程と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定工程と、
    特定された前記ワード同士の関連に基づいて前記複数のワードをクラスタリングするクラスタリング工程と、
    前記複数のテーマ情報をクラスタリングするとともに、該テーマ情報のクラスタリング結果に基づいて、前記複数のワードから除去するワードを選択するワード選択工程と、を含み、
    前記クラスタリング工程では、前記ワード選択工程で選択されたワードが除去された前記複数のワードをクラスタリングする、
    ことを特徴とする情報処理方法。
  16. 複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報であって付与回数或いは付与率に関する所定の基準を満たす前記複数のテーマ情報と、を取得する取得手順と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定手順と、
    をコンピュータに実行させるための情報処理プログラム。
  17. 複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報と、を取得する取得手順と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定手順と、
    特定された前記ワード同士の関連に基づいて前記複数のワードをクラスタリングするクラスタリング手順と、
    前記複数のワードをクラスタリングするとともに、該ワードのクラスタリング結果に基づいて、前記複数のテーマ情報から除去するテーマ情報を選択するテーマ情報選択手順と、をコンピュータに実行させ、
    前記特定手順では、選択されたテーマ情報が除去された前記複数のテーマ情報に基づいて、前記ワード同士の関連を再度特定し、
    前記クラスタリング手順では、再度特定された関連に基づいて前記複数のワードをクラスタリングする、
    ことを特徴とする情報処理プログラム。
  18. 複数の投稿情報から抽出された複数のワードと、前記複数の投稿情報に付与された複数のテーマ情報と、を取得する取得手順と、
    前記複数のテーマ情報に基づいて、前記ワード同士の関連を特定する特定手順と、
    特定された前記ワード同士の関連に基づいて前記複数のワードをクラスタリングするクラスタリング手順と、
    前記複数のテーマ情報をクラスタリングするとともに、該テーマ情報のクラスタリング結果に基づいて、前記複数のワードから除去するワードを選択するワード選択手順と、をコンピュータに実行させ、
    前記クラスタリング手順では、前記ワード選択手順で選択されたワードが除去された前記複数のワードをクラスタリングする、
    ことを特徴とする情報処理プログラム。
JP2017166533A 2017-08-31 2017-08-31 情報処理装置、情報処理方法、及び情報処理プログラム Active JP6971719B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017166533A JP6971719B2 (ja) 2017-08-31 2017-08-31 情報処理装置、情報処理方法、及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017166533A JP6971719B2 (ja) 2017-08-31 2017-08-31 情報処理装置、情報処理方法、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2019046017A JP2019046017A (ja) 2019-03-22
JP6971719B2 true JP6971719B2 (ja) 2021-11-24

Family

ID=65812716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017166533A Active JP6971719B2 (ja) 2017-08-31 2017-08-31 情報処理装置、情報処理方法、及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP6971719B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859973A (zh) 2019-04-08 2020-10-30 百度时代网络技术(北京)有限公司 用于生成解说词的方法和装置
JP6923723B1 (ja) * 2020-07-31 2021-08-25 株式会社ドワンゴ コンテンツ配信サーバー、コンテンツ検索方法、コンテンツ検索プログラム、コンピュータ読み取り可能な記憶媒体、および、コンテンツ配信システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3333998B2 (ja) * 1992-08-27 2002-10-15 オムロン株式会社 自動分類付与装置および方法
JP2005250916A (ja) * 2004-03-05 2005-09-15 Senku:Kk 電子文書の話題単語関連図作成方法
JP2009134675A (ja) * 2007-12-03 2009-06-18 Nikon System:Kk コンテンツ交換装置
JP5252593B2 (ja) * 2010-08-12 2013-07-31 Necビッグローブ株式会社 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム
JP5461475B2 (ja) * 2011-05-26 2014-04-02 日本電信電話株式会社 情報検索方法、情報検索装置及び情報検索プログラム
JP2014153977A (ja) * 2013-02-12 2014-08-25 Mitsubishi Electric Corp コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
US11442977B2 (en) * 2015-03-24 2022-09-13 International Business Machines Corporation Augmenting search queries based on personalized association patterns
EP3151131A1 (en) * 2015-09-30 2017-04-05 Hitachi, Ltd. Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection

Also Published As

Publication number Publication date
JP2019046017A (ja) 2019-03-22

Similar Documents

Publication Publication Date Title
US11375030B2 (en) Future event detection and notification
US10726063B2 (en) Topic profile query creation
JP2022091890A (ja) 対話型デジタルマップ上の位置にリンクされるユーザ管理オンラインページ(MAPpage)を作成するためのシステム及び方法
WO2017161784A1 (zh) 推荐内容的展示方法和装置
WO2022111249A1 (zh) 一种信息展示的方法、装置以及计算机存储介质
CN105095470B (zh) 用于应用程序的数据推荐方法及装置
CN111782951B (zh) 确定展示页面的方法和装置、以及计算机系统和介质
JP5919450B1 (ja) 検索装置、検索方法、記録媒体、および、プログラム
JP5880101B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6971719B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US11361010B2 (en) Tip generation
JP6898542B2 (ja) 情報処理装置、その制御方法、及びプログラム
CN109116718B (zh) 设置闹钟的方法及设备
CN112559913B (zh) 一种数据处理方法、装置、计算设备及可读存储介质
KR20100052795A (ko) 정보와 사람을 매개로 한 커뮤니티 운영방법 및 그 장치
JP2017027168A (ja) 嗜好学習方法、嗜好学習プログラム、及び嗜好学習装置
US20180253495A1 (en) Feature term classification method, information processing apparatus, and storage medium
CN108256124A (zh) 网站建立方法、装置、服务器及存储介质
CN113221572A (zh) 一种信息处理方法、装置、设备及介质
US10304111B1 (en) Category ranking based on query fingerprints
JP2009217741A (ja) メタデータ付与方法及び装置、並びにメタデータ付与プログラム
JP2020161114A (ja) 検索に基づく収集支援方法およびコンピュータ装置
US20130212181A1 (en) Information-processing device, comment-prompting method, and computer-readable recording medium
JP7314381B1 (ja) レコメンド装置、レコメンド方法、およびプログラム
JP2013120548A (ja) 画像付コメント検索システムおよび画像付コメント検索プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211102

R150 Certificate of patent or registration of utility model

Ref document number: 6971719

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350