JP6048977B2 - サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム - Google Patents
サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム Download PDFInfo
- Publication number
- JP6048977B2 JP6048977B2 JP2014243482A JP2014243482A JP6048977B2 JP 6048977 B2 JP6048977 B2 JP 6048977B2 JP 2014243482 A JP2014243482 A JP 2014243482A JP 2014243482 A JP2014243482 A JP 2014243482A JP 6048977 B2 JP6048977 B2 JP 6048977B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- sentence
- comment
- comments
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 38
- 238000000034 method Methods 0.000 title claims description 18
- 238000004458 analytical method Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 239000013598 vector Substances 0.000 description 52
- 201000010099 disease Diseases 0.000 description 19
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 19
- 238000010586 diagram Methods 0.000 description 15
- 230000015654 memory Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 201000011001 Ebola Hemorrhagic Fever Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 235000013550 pizza Nutrition 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Description
図10は、ネットワークを介して得られる複数のサイトのニュースとコメントとの関係を示す状態図である。
図10において、ホルダーの図形がニュース記事を表し、吹き出しがニュース記事に対するコメント・SNSへの投稿を表す。
2.そのニュース記事の内容に対して、閲覧者全体がどのような感想(肯定的か、否定的か、喜怒哀楽等)かが、一つのサイトのみでは判断できない。
3.複数のサイトに類似のコメントがあっても、全て読まなければならない手間が発生する(貴重なコメントを見落とすリスクが生じる。)。
すなわち、同一の話題が複数のサイトに分散されているため、
(a)一つのサイトのみでは、反響の大きいニュース記事か否かが判断できない。
(b)複数のサイトを全て見なければならずその分だけ手間がかかる。
図1は、本発明のまとめサイトシステムに係るブロック図の一例である。
図1に示すまとめサイトシステム10は、3台の情報処理装置11,12,13で構成されたシステムである。情報処理装置11は、データ取得サーバーとして機能し、情報処理装置12はクラスタリングサーバーとして機能し、情報処理装置13は表示サーバーとして機能する。
尚、本発明はこれに限定されるものではなく、1台の情報処理装置のHDD(Hard Disk Drive)をパーテーションで区分けしてパーテーション毎にクラスタリングサーバー、データサーバー、及び表示サーバーとして機能するように構成してもよい。
図2に示す情報処理装置11は、URL(Uniform Resource Locator)情報取得手段31、HTML(Hyper Text Markup Language)ページ取得手段32、文字列取得手段33、コメント取得手段34、単語ベクトル作成手段35、クラスタリング手段36、データベース手段37、表示手段38、及び制御手段39を有する。
HTMLページ取得手段32は、URL情報取得手段31にて取得した、投稿情報内に含まれるURL情報やRSSに記載されている新着のURL情報を基に、そのURL(例えば、ニュースサーバなど)にアクセスし、HTMLページ(例えば、ニュース記事など)を取得する。HTMLページ取得手段32は、URLにアクセスし、HTMLページを取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びネットワーク接続部21によって実現される。
文字列取得手段33は、HTMLページ取得手段32にて取得したHTMLページのHTML構造を解析し、<title>タグまたは<meta property="og:title">タグとそれらの終了タグを用いて記述されたタグ間のタイトルや、<description>タグまたは<meta property="og:description">タグとそれらの終了タグを用いて記述されたタグ間の概要文などの文字列を取得し、HTMLページのURL情報に対応付けて、タイトルおよび概要文をデータベースに記憶する。文字列取得手段33は、HTMLページからタイトルと概要文を取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。
コメント取得手段34は、URL情報取得手段31にて取得したURL情報が含まれる投稿情報をコメントとして取得したり、HTMLページ取得手段32にて取得したコメント記載欄があるHTMLページ(ニュース記事などに対する閲覧者からのコメントの記入を許可しているWebページで、「comment」という文字列を含むタグ間に存在する「コメント」などの文字や送信ボタンタグなどによって判断する)のコメントを取得したりし、投稿情報やコメントなどのコメント情報をURL情報に対応付けて、データベースに記憶する。コメント取得手段34は、コメント情報を取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。また、コメント取得手段34は、ニュース記事などの同じURL情報への投稿情報の数やニュース記事などのHTMLページに対するコメントの数を取得して、URL情報に対応付けてデータベースに記憶する。
単語ベクトル作成手段35は、文字列取得手段33にて取得した各HTMLページのタイトル及び概要文を連結した文章に対して、言語解析処理をして接続語などを削除して単語単位に分割したワードを単語ベクトルとして、データベースにてHTMLページのURL情報に対応付けて記憶する。単語ベクトル作成手段35は、タイトル及び概要文から単語ベクトルを作成する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。
表1は、HTMLページのURL情報、HTMLページのタイトル、概要の文章、単語ベクトルが対応付けられて記憶されたデータベースの一例である。
また、表1のデータベースに示すタイトルは、HTMLページ構造において、例えば、<title>A国にE病気感染者の疑い</title>におけるタグ<title>とタグ</title>とで挟まれた文字列「A国にE病気感染者の疑い」であり、概要文は、<description>A国にE病気の疑いがある感染者が・・・</description>におけるタグ<description>とタグ</description>とで挟まれた文字列「A国にE病気の疑いがある感染者が・・・」である。
クラスタリング手段36は、既定のタイミングにて、既定の期間分(例:直近2時間分、1日間分など)URL情報を表2のデータベースから抽出し、抽出したURL情報に対応する単語ベクトルを表1のデータベースから取得し、内容ベースで同じ内容のURL情報でまとめ上げる(後述するクラスタリング処理)手段であり、例えば、CPU14、ROM15、RAM16、及びHDD18によって実現される。
制御手段39は、情報処理装置11の各手段を統括制御し、各手段への命令やデータを受け渡しする手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びバスライン22によって実現される。
また、クラスタリング手段36は、まとめた同じ内容のURL情報に紐付られてデータベース手段37に記憶されている複数のコメントに対し、クラスタリング処理を施し、重複コメント及び類似のコメントを削除し、代表コメントを既定の上位件数(例:上位1件)残す。
ページ作成手段40、クラスタリング手段36にて、まとめた同じ内容のURL情報のニュース記事などのタイトルまたは概要文の少なくとも1つをまとめて(例えば、時系列順、コメント数の多い順で)掲載する文章情報表示領域と、画面下部にそのURL情報に対応し、クラスタリング手段36にて、選別した代表コメントを横方向にローテーション表示するコメント表示領域と、を有するWebページであるまとめページを作成し、端末装置23a、23bにネットワーク24を介して公開する。ページ作成手段40、まとめページを作成し公開する手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びネットワーク接続部21によって実現される。また、ページ作成手段40、コメント表示領域の代わりに、もしくは、追加して、まとめた同じ内容のURL情報のニュース記事などに対応する各コメントに対し、評判分析を行い、各分類(肯定、否定、喜怒哀楽等)を割り当て、割り当てられた分類名とその分類の度数のグラフを表示する評判表示領域をまとめページに作成してもよい。これにより、例えば一つの件についてあるサイトでは「怖い」という分類を付けることができ、別のサイトでは「驚く」という分類をつけることができる。「怖い」の数や「驚く」の数をグラフ化(図では棒グラフであるが、グラフの種類は限定されない)することができる。
尚、各コメントに対し、評判分析に基づく「怖い」や「驚く」等の複数の分類(形容詞もしくは副詞等の単語)を同時に表示してもよい。
図3は、図1に示した情報処理装置11の動作を説明するためのフローチャートの一例である。
ここで、コメント取得手段34は、URL情報取得手段31にて取得したURL情報が含まれる投稿情報をコメントとして取得し、表2のデータベースに記憶する。また、コメント取得手段34は、HTMLページ取得手段32にて取得されたHTMLページ内に閲覧者からのコメントがあるか否かを判断する(ステップS4)。閲覧者からのコメントがある場合(ステップS4/Yes)、HTMLページのコメントを取得し、表2のデータベースに記憶してステップS5へ進み(ステップS5)、ユーザーからのコメントが無い場合(ステップS4/No)、ステップS6へ進む。
クラスタリング手段36が、既定のタイミングにて、表2のデータベースにて、既定の期間分のURL情報を抽出し、抽出したURL情報に対応する、単語ベクトル作成手段35作成された単語ベクトルを用いて、内容ベースで各URL情報のまとめ上げるためのクラスタリング処理を施し(ステップS7)、クラスタリング手段36が、まとめたURL情報に紐づく複数のコメントに対し、クラスタリング処理を施し、既定の上位件数の代表コメントを抽出する(ステップS8)。
ページ作成手段40は、クラスタリング手段36にてまとめたURL情報に対応するタイトルまたは概要文の少なくとも1つを対応するURL情報へのリンクを付けて、まとめて掲載し、ページ下部にクラスタリング手段36にて抽出した代表コメントをローテーション表示するまとめページを作成する(ステップS9)。尚、ステップS9にて、ページ作成手段40は、ページ下部の代表コメントの代わりに、クラスタリング手段36にて、まとめたURL情報に紐づく複数のコメントに対して、評判分析を行い、複数のコメントを肯定、否定、もしくは喜怒哀楽などを表す分類を付与し、その分類と評判分析結果のグラフを表示するまとめページを作成してもよい。まとめページは、まとめURL情報(クラスター)毎に作成する。ただし、まとめページは、まとめたURL情報(クラスター)毎に作成しなくても、1つのまとめページに複数のまとめURL情報(クラスター)を掲載しても良い。その際は、まとめたURL情報に対応するコメント数の合計順に上位から第2の文章情報のまとまり毎に順番に掲載する、まとめページを作成する。
図4は、図1に示したまとめサイトシステムにより得られた画面と比較例である。
図4において左側のニュースランキングの図が比較例であり、右側のニュースランキングが本発明による掲載画面の一例である。ランキングの順位基準は、左側のニュースランキングの図がニュース記事個別のコメント数であり、右側のニュースランキングがまとめたニュース記事のコメント数の合計である。
同一の単語(例、リベリア・エボラ等)を多く含むニュース記事のHTMLページを自動的にまとめ上げたものである。
左側の比較例では上から野球チームHのニュース記事、水族館のニュース記事、エボラ熱のニュース記事、アイドルAのニュース記事、ピザ専門店のニュース記事が羅列されている。
図5の左側のクラスタリング処理前において、Aサイト〜CサイトにはE病気、アイドルA、及び野球チームHのニュース記事などのHTMLページ及びコメントが散在している。
このようなニュース記事などのHTMLページ及びコメントが散在している状態のとき、クラスタリング処理を施すと、図5の右側のように各HTMLページの内容である、E病気、野球チームH、及びアイドルAについてのニュース記事などのHTMLページ及びコメントが集約されることになる。
図6の左側の図は、クラスタリング処理を施して得られたE病気についてのニュース記事などのHTMLページが集約された図である。四つのニュース記事などのHTMLページに紐づく各コメントを分析する。感情を表現する単語についての感情辞書には「怖い」、「恐ろしい」、「震える」は「怖い」に分類され、「驚く」、「衝撃」、「ビックリ」は「驚く」に分類されている。
尚、右下の図において、内容が一致しているニュース記事は削除されている。
左の図におけるクラスタリンクでまとめられたE病気に対する四つのニュース記事のHTMLページに紐づくコメントについてもう一度クラスタリングを行う。ニュース記事の各クラスター毎に代表コメントを既定の上位件数(この例では1件)のみを残し、類似重複内容のコメントを削除する。コメントを既定の上位件数のみ残す方法については後述する。
E病気に対するニュース記事のクラスターについては、右下の図において、E病気ニュース記事についてBサイトニュース記事、Aサイトニュース記事、Cサイトニュース記事及びDサイトニュース記事の順に時系列順、または、コメント数順にまとめページに掲載される。まとめページのニュース記事の下側に代表コメント表示領域を設定し、その表示領域に「E病気が上陸、ビックリ。」のような代表コメントが横方向、例えば左から右にローテーション表示される。このローテーション表示の欄に「驚く」のような喜怒哀楽を表す単語が常時表示されていてもよい。クラスタリングによりまとめられた他のアイドルAのニュース記事、野球チームHのニュース記事も同様に各々のまとめページを作成する。
次にクラスタリング方法について述べる。
(i)各ニュース記事などのHTMLページから抽出したタイトル及び概要文を連結した連結文章を言語解析により、ワード単位に分割する。
例えば、あるニュース記事xの連結文章が「A国でE病気か A国にE病気の感染者の疑い。」である場合、ニュース記事xの単語ベクトルであるベクトルxは「A国」、「E病気」、「感染者」、及び「疑い」となる。他のニュース記事yの連結文章が「E病気、A国で感染者 E病気がA国で感染者が現れた。政府は早急に対策を検討。」である場合、単語ベクトルであるベクトルyは「E病気」、「A国」、「感染者」、「現れる」、「政府」、「早急」、「対策」、及び「検討」となる。
(ii)ニュース記事などのHTMLページ間の距離(全組合せ)を測定する。
ベクトル間の距離は近ければ近いほどそのHTMLページ同士の内容は類似している。
ベクトル単語間の距離の一種であるJaccard距離J dは数式(1)により求まる。
n11=3(A国、E病気、感染者)
n10=1(疑い)
n01=5(現れる、政府、早急、対策、検討)
また、ベクトルxとベクトルyとの関係を表3に示す。
従ってJaccard距離J dは数式(1)より、
J d=(1+5)/(3+1+5)=2/3=0.667となる。
そこで、本発明は数式(1)を改良した数式(2)により精度を向上する。
(iii)最も距離が近いニュース記事(またはニュース記事をまとめたクラスター)同士を抽出し、閾値dmin以下の場合、同一内容ニュース記事とみなし、クラスターを形成(それらのニュース記事をまとめる)する。新規に形成されたクラスターに対する距離のみ再計算して、最小距離を抽出する。閾値が下回る限り繰り返し、閾値を下回るニュース記事やクラスターがなければ終了する。
図8の例では、ニュース記事Aからニュース記事Dまでの各距離は、ニュース記事A〜ニュース記事Bが0.2、ニュース記事A〜ニュース記事Cが0.8、ニュース記事A〜ニュース記事Dが0.9、ニュース記事B〜ニュース記事Cが0.6、ニュース記事B〜ニュース記事Dが0.3、ニュース記事C〜ニュース記事Dが0.4となる。閾値dmin=0.6と設定したとする。従って、ニュース記事A〜ニュース記事Bが最小の0.2であるため、最もベクトル間の距離が近く、閾値dmin=0.6以下であるため、ニュース記事Aとニュース記事Bが類似していることになり、まとまる(図8(a))。
ニュース記事A及びニュース記事Bを一つの新たなクラスター(ニュース記事A+ニュース記事B:図では(A,B))としてまとめ、ニュース記事C及びニュース記事Dとの間の距離を求めると、ニュース記事A+ニュース記事B(A,B)クラスターとニュース記事Cとの間の距離は平均値を取り、(0.8+0.6)/2=0.7となり、ニュース記事A+ニュース記事B(A,B)とニュース記事Dとの間の距離は(0.9+0.3)/2=0.6となる。従って、ニュース記事Cとニュース記事Dとの間の距離が0.4と、最もベクトル間の距離が近く、閾値dmin=0.6以下であるため、ニュース記事Cとニュース記事Dをひとまとめにする(図8(b))。
ニュース記事Cとニュース記事Dとが新たなクラスター(ニュース記事C+ニュース記事D)となる。ニュース記事A+ニュース記事B(A,B)クラスターとニュース記事C+ニュース記事D(C,D)クラスターとの間の距離は(0.8+0.6+0.9+0.3)/4=0.65となる。他にニュース記事やクラスターが無いので、この時点で最小距離=0.65が閾値dmin=0.6を上回るので計算を終了する。このまとめたクラスターから、ニュース記事Aとニュース記事Bとは同一内容のニュース記事であることが分かる。ニュース記事AとB、ニュース記事CとDとでそれぞれひとまとめにすることができる(図8(c))。その後、まとめたクラスター内のニュース記事AとB、ニュース記事CとDの各URL情報に対応するコメント数をそれぞれのまとめたクラスター毎に合計する。
図9は、クラスターで代表コメントを1件残す方法の説明図である。
(α)ニュース記事などのHTMLページ対するコメントの集合であるクラスター内に2つのコメントがある場合
コメントの投稿日時、コメントの文字数、コメントを発信した発信者のアカウントの強さ(フォロワー数、友達の人数)等が最大のものを既定の上位件数(例:1件)抽出する。
クラスター内の全コメントに関して、コメントの文章を言語解析し、単語に分解し、コメントベクトルを生成し、他のコメントベクトルとの距離の平均値を求め、その平均値が最も小さい値から順に既定の上位件数のコメントを代表コメントとする。この例では、上位1件として、説明する。
図9に示す例では、コメントAのベクトルからコメントDのベクトルまでの距離を前述のように数式(2)を用いて算出すると、コメントA〜コメントBが0.2、コメントA〜コメントCが0.8、コメントA〜コメントDが0.9、コメントB〜コメントCが0.6、コメントB〜コメントDが0.3、コメントC〜コメントDが0.4となる。更に、コメントAから他のコメントまでの距離の平均値が(0.8+0.9+0.2)/3=0.63、コメントBから他のコメントまでの距離の平均値が(0.2+0.6+0.3)/3=0.37、コメントCから他のコメントまでの距離の平均値が(0.8+0.6+0.4)/3=0.6、コメントDから他のコメントまでの距離の平均値が(0.3+0.9+0.4)/3=0.53となる。
従って、コメントBの平均値0.37が最小値となり上位1件なので、コメントBが代表コメントとなる。ここで、上位2件の場合は、コメントBに加えて、次に平均値が小さいコメントDも代表コメントも代表コメントとなる。
尚、前述と同様に、コメントの投稿日時、コメントの文字数、コメント発信者のアカウントの強さ(フォロワー数、友達の人数)等が最大のものを1件抽出してもよい。
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばサーバー装置、パーソナルコンピュータやワークステーションなどの汎用的なものが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
情報処理装置のコンピュータが読取可能なプログラムであって、
コンピュータに、
ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得ステップと、
URL情報が示す第2の文章情報を、ネットワークを介して取得する文章取得ステップと、
第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得ステップと、
第2の文章情報に対するコメントを取得するコメント取得ステップと、
第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリングステップと、
コメントから代表する代表コメントを抽出する第2のクラスタリングステップと、
まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、代表コメントとを掲載するまとめページを作成するページ作成ステップと、
を実行させるためのプログラムが挙げられる。
ここで、記憶媒体としては、例えばCD-ROM、フレキシブルディスク(FD)、CD-R等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
本発明によれば、ネットワークを介して配信されるサイトの情報からニュース記事などのWebページの情報を収集して集約し、類似のニュース記事毎に内容ベースで区分けしたページを生成することにより、ユーザーがどれだけツイートしているのか、どれだけコメントを発しているのかがわかる(反響)。
また、本発明によれば、コメントを含むニュース記事を、タイトル及び概要に分割し、タイトル及び概要文を分割して単語ベクトルとしてタイトル間の単語ベクトル同士及び概要文間の単語ベクトル同士の距離が閾値以下のニュース記事を同一内容のニュース記事とみなして内容ベースで区分けしてランキングすることにより、反響にもランキングすることができる。処理量が多くても精度よくランキング処理することができる。例えば、コメント数やニュース記事数が百件程度の場合には数秒程度、ニュース記事数が千件程度の場合には十秒程度でニュース記事の仕分け及びランキングの処理が可能である。また、ローテーション表示により見やすくすることができる。
14 CPU
15 ROM
16 RAM
17 表示部
18 HDD
19 LAN接続部
20 操作部
21 ネットワーク接続部
22 バスライン
23a、23b、… 端末装置
31 URL情報取得手段
32 HTMLページ取得手段
33 文字列取得手段
34 コメント取得手段
35 単語ベクトル作成手段
36 クラスタリング手段
37 データベース手段
38 表示手段
39 制御手段
Claims (9)
- ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得手段と、
前記URL情報が示す第2の文章情報を、前記ネットワークを介して取得する文章取得手段と、
前記第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得手段と、
前記第2の文章情報に対するコメントを取得するコメント取得手段と、
前記第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の前記第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリング手段と、
前記コメントから代表する代表コメントを抽出する第2のクラスタリング手段と、
まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、前記代表コメントとを掲載するまとめページを作成するページ作成手段と、
を備えたことを特徴とする情報処理装置。 - 前記第1のクラスタリング手段は、前記連結文章を分割し、単語を抽出し、
複数の前記第2の文章情報の内の2つの前記第2の文章情報間の単語数の比と一方の前記第2の文章情報に含まれる単語数の割合とをもとに、2つの前記第2の文章情報間の類似度を算出し、
複数の前記第2の文章情報の内で、最も類似する前記類似度であり、かつ、前記類似度が閾値以下である2つの前記第2の文章情報同士をまとめることを特徴とする請求項1に記載の情報処理装置。 - 前記第2のクラスタリング手段は、前記コメントを分割し、単語を抽出し、複数の前記コメントの内の2つの前記コメント間の単語数の比と一方の前記コメントに含まれる単語数の割合とをもとに、2つの前記コメント間の類似度を算出し、複数の前記コメントの内で、1のコメントと他のコメントとの前記類似度の平均値を算出し、前記平均値が最少であるコメントを前記代表コメントとすることを特徴とする請求項1または2に記載の情報処理装置。
- 前記ページ作成手段は、前記代表コメントを前記まとめページの下部領域にローテーション表示することを特徴とした請求項1から3の何れか1つに記載の情報処理装置。
- 前記ページ作成手段は、前記コメントを評判分析して分類分けし、分類分けした分類名と各分類の度数を前記まとめページの下部領域に掲載することを特徴とした請求項1から3の何れか1つに記載の情報処理装置。
- 前記ページ作成手段は、
前記第1のクラスタリング手段にてまとめた第2の文章情報に対するコメント数の合計順に上位から第2の文章情報のまとまりを順番に掲載する、まとめページを作成することを特徴とした請求項1から5の何れか1つに記載の情報処理装置。 - ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得手段と、
前記URL情報が示す第2の文章情報を、ネットワークを介して取得する文章取得手段と、
前記第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得手段と、
前記第2の文章情報に対するコメントを取得するコメント取得手段と、
を備えたデータ取得サーバーと、
前記第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の前記第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリング手段と、
前記コメントから代表する代表コメントを抽出する第2のクラスタリング手段と、
を備えたクラスタリングサーバーと、
まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、前記代表コメントとを掲載するまとめページを作成するページ作成手段と、
を備えた表示サーバーと、
を有することを特徴とするサイトまとめシステム。 - 情報処理装置が行うサイトまとめ方法であって、
ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得ステップと、
前記URL情報が示す第2の文章情報を、前記ネットワークを介して取得する文章取得ステップと、
前記第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得ステップと、
前記第2の文章情報に対するコメントを取得するコメント取得ステップと、
前記第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の前記第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリングステップと、
前記コメントから代表する代表コメントを抽出する第2のクラスタリングステップと、
まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、前記代表コメントとを掲載するまとめページを作成するページ作成ステップと、
を含むことを特徴とするサイトまとめ方法。 - 請求項8に記載の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014243482A JP6048977B2 (ja) | 2014-12-01 | 2014-12-01 | サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014243482A JP6048977B2 (ja) | 2014-12-01 | 2014-12-01 | サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016105260A JP2016105260A (ja) | 2016-06-09 |
JP6048977B2 true JP6048977B2 (ja) | 2016-12-21 |
Family
ID=56102767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014243482A Active JP6048977B2 (ja) | 2014-12-01 | 2014-12-01 | サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6048977B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6715758B2 (ja) * | 2016-12-26 | 2020-07-01 | Kddi株式会社 | 分類器生成装置、分類器生成方法、及びコンピュータプログラム |
JP2019016288A (ja) * | 2017-07-10 | 2019-01-31 | 富士ゼロックス株式会社 | 情報処理装置、情報処理システムおよびプログラム |
JP7001509B2 (ja) * | 2018-03-19 | 2022-01-19 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP7287992B2 (ja) * | 2021-01-28 | 2023-06-06 | ヤフー株式会社 | 情報処理装置、情報処理システム、情報処理方法、及びプログラム |
JP7284196B2 (ja) * | 2021-01-28 | 2023-05-30 | ヤフー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
KR102496212B1 (ko) * | 2022-06-30 | 2023-02-06 | 주식회사 애자일소다 | 주요 구절 추출 장치 및 그 방법 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331529A (ja) * | 2000-03-17 | 2001-11-30 | Fujitsu Ltd | ニュース情報提示装置および提示方法 |
JP2004185049A (ja) * | 2002-11-29 | 2004-07-02 | Toppan Printing Co Ltd | 記事閲覧装置及びその方法、並びに記事閲覧プログラム |
JP2006309515A (ja) * | 2005-04-28 | 2006-11-09 | Dainippon Printing Co Ltd | 情報配信方法および情報配信サーバ |
US20090070346A1 (en) * | 2007-09-06 | 2009-03-12 | Antonio Savona | Systems and methods for clustering information |
JP2009181451A (ja) * | 2008-01-31 | 2009-08-13 | Shinya Moriuchi | 新聞記事授受方法、新聞記事掲載装置およびそのプログラムと記憶媒体 |
JP5834815B2 (ja) * | 2011-11-22 | 2015-12-24 | 株式会社リコー | 情報処理装置、プログラムおよび文書を検索するための方法 |
US9935910B2 (en) * | 2012-12-21 | 2018-04-03 | Google Llc | Recipient location aware notifications in response to related posts |
-
2014
- 2014-12-01 JP JP2014243482A patent/JP6048977B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016105260A (ja) | 2016-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6048977B2 (ja) | サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム | |
US8849826B2 (en) | Sentiment analysis from social media content | |
Copas et al. | Reanalysis of epidemiological evidence on lung cancer and passive smoking | |
US20130212109A1 (en) | Methods and apparatus for classifying content | |
US9686348B2 (en) | Inter-entity connection maps | |
KR101566616B1 (ko) | 빅데이터 처리를 통한 광고의사결정시스템 및 방법 | |
US20130198240A1 (en) | Social Network Analysis | |
JP6216929B2 (ja) | 検出装置、検出方法及び検出プログラム | |
Barnwal et al. | Identifying fact-checkable microblogs during disasters: a classification-ranking approach | |
Zou et al. | Public reactions towards the COVID-19 pandemic on twitter in the United Kingdom and the United States | |
KR20190048781A (ko) | 온라인 의견 정보 수집 및 분석 시스템 | |
JP5952756B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
SalahEldeen et al. | Resurrecting my revolution: Using social link neighborhood in bringing context to the disappearing web | |
Erfanmanesh et al. | What can Bookmetrix tell us about the impact of Springer Nature’s books | |
WO2016121127A1 (ja) | データ評価システム、データ評価方法、およびデータ評価プログラム | |
You et al. | Using text mining to track outbreak trends in global surveillance of emerging diseases: ProMED-mail | |
Pla Karidi et al. | Automatic ground truth dataset creation for fake news detection in social media | |
EP2724250A1 (en) | Systems and methods for ranking document clusters | |
Nagarsekar et al. | Emotion detection from “the SMS of the internet” | |
Narwal | Improving web data extraction by noise removal | |
Sharma et al. | STP: Suicidal tendency prediction among the youth using social network data | |
JP6586756B2 (ja) | インフォーマル学習のための学習教材を収集する方法及び非一時的なコンピュータ可読媒体 | |
Sabareesha et al. | Pattern Analysis of COVID-19 Based On Geotagged Social Media Data with Sociodemographic Factors | |
JP2015032287A (ja) | 行動目的抽出方法及び装置 | |
JP7042720B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6048977 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |