JP6048977B2 - サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム - Google Patents

サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム Download PDF

Info

Publication number
JP6048977B2
JP6048977B2 JP2014243482A JP2014243482A JP6048977B2 JP 6048977 B2 JP6048977 B2 JP 6048977B2 JP 2014243482 A JP2014243482 A JP 2014243482A JP 2014243482 A JP2014243482 A JP 2014243482A JP 6048977 B2 JP6048977 B2 JP 6048977B2
Authority
JP
Japan
Prior art keywords
information
sentence
comment
comments
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014243482A
Other languages
English (en)
Other versions
JP2016105260A (ja
Inventor
憲和 松村
憲和 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biglobe Inc
Original Assignee
Biglobe Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biglobe Inc filed Critical Biglobe Inc
Priority to JP2014243482A priority Critical patent/JP6048977B2/ja
Publication of JP2016105260A publication Critical patent/JP2016105260A/ja
Application granted granted Critical
Publication of JP6048977B2 publication Critical patent/JP6048977B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラムに関する。
近年、ネットワークを介して配信される情報をまとめて提供する技術が種々開発されている(例えば、特許文献1、2参照。)。
特許文献1に記載の発明は、情報表示装置における情報表示方法に関する発明であり、具体的には、ユーザクリップ登録手段が、ニュース見出し一覧画面の中からユーザーによって任意に選択されたニュース見出しデータを、ユーザクリップニュース見出しとして記憶部に登録しておき、入力部からニュース見出しクリップ画面表示の指示が入力されると、一覧画面表示手段が、記憶部からユーザクリップニュース見出しを読み取って、ニュース見出しクリップ画面に表示するものである。
特許文献2に記載の発明は、要約システムとその要約方法、及び要約プログラムを記録した記録媒体に関する発明であり、具体的には、同一の主題に関する複数のニュース記事をまとめたスレッドの、ニュース記事内容の要約文を生成する要約システムにおいて、スレッド内の各ニュース記事の各文毎に当該文がスレッド内の他の文との関係において成す重要度である位置重要度を判定する位置重要度決定部と、スレッド内の各ニュース記事において使用される各単語のスレッド内において示される重要度である単語重要度を判定する単語重要度決定部と、各文に対する単語重量度の平均値と位置重要度の値とを、定められた重み付けに従い加えた値を、各文の重要度である文重要度として判定する文重要度決定部と、文重要度が高く判定された文を取り出して、取り出した文を予め定められた設定に基づいて適切に配置することにより、スレッドの要約文を生成する要約文作成部を備えるものである。
特開2004−145724号公報 特開2002−049632号公報
しかしながら、上述した特許文献1、2に記載の技術では、一つのサイトのみからの情報を扱っており、複数のサイトから収集した情報を扱う場合は、考慮されていない。同一内容のニュースに対する記事やコメントが、複数のサイトに分散されているため、図10に示すような問題がある。
図10は、ネットワークを介して得られる複数のサイトのニュースとコメントとの関係を示す状態図である。
図10において、ホルダーの図形がニュース記事を表し、吹き出しがニュース記事に対するコメント・SNSへの投稿を表す。
1.全てのニュース記事を確認するには手間がかかる。
2.そのニュース記事の内容に対して、閲覧者全体がどのような感想(肯定的か、否定的か、喜怒哀楽等)かが、一つのサイトのみでは判断できない。
3.複数のサイトに類似のコメントがあっても、全て読まなければならない手間が発生する(貴重なコメントを見落とすリスクが生じる。)。
すなわち、同一の話題が複数のサイトに分散されているため、
(a)一つのサイトのみでは、反響の大きいニュース記事か否かが判断できない。
(b)複数のサイトを全て見なければならずその分だけ手間がかかる。
そこで、本発明の目的は、複数のサイトに分散されているニュース記事やコメントなどの文章情報を内容ベースでまとめることにある。
上記課題を解決するため、請求項1に記載の発明は、ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得手段と、前記URL情報が示す第2の文章情報を、ネットワークを介して取得する文章取得手段と、前記第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得手段と、前記第2の文章情報に対するコメントを取得するコメント取得手段と、前記第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の前記第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリング手段と、前記コメントから代表する代表コメントを抽出する第2のクラスタリング手段と、まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、前記代表コメントとを掲載するまとめページを作成するページ作成手段と、を備えたことを特徴とする。
本発明によれば、複数のサイトに分散されているニュース記事やコメントなどの文章情報を内容ベースでまとめることができる。
本発明のまとめサイトシステムに係るブロック図の一例である。 図1に示した情報処理装置11の機能ブロック図の一例である。 図1に示した情報処理装置11の動作を説明するためのフローチャートの一例である。 図1に示したまとめサイトシステムにより得られた画面と比較例である。 図1に示したまとめサイトシステムを用いたニュース記事及びコメントに対するクラスタリング処理の前後の関係を示す概念図である。 図1に示したまとめサイトシステムを用いたE病気に対する評判分析についての説明図である。 図1に示したまとめサイトシステムを用いたE病気に対する集計/表示についての説明図である。 (a)〜(c)は、数式(2)を用いて単語間の距離を算出した場合の説明図である。 クラスターで代表コメント1件残す方法の説明図である。 ネットワークを介して得られるサイトのニュースとコメントとの関係を示す状態図である。
<構 成>
図1は、本発明のまとめサイトシステムに係るブロック図の一例である。
図1に示すまとめサイトシステム10は、3台の情報処理装置11,12,13で構成されたシステムである。情報処理装置11は、データ取得サーバーとして機能し、情報処理装置12はクラスタリングサーバーとして機能し、情報処理装置13は表示サーバーとして機能する。
尚、本発明はこれに限定されるものではなく、1台の情報処理装置のHDD(Hard Disk Drive)をパーテーションで区分けしてパーテーション毎にクラスタリングサーバー、データサーバー、及び表示サーバーとして機能するように構成してもよい。
情報処理装置11は、CPU(Central Processing Unit)14、ROM(Read Only Memory)15、RAM(Random Access Memory)16、表示部17、HDD18、LAN(Local Area Network)接続部19、操作部20、ネットワーク接続部21、及びバスライン22を有する。
CPU14は、情報処理装置11を統括制御する装置であり、例えばマイクロプロセッサが挙げられる。ROM15は、制御プログラムが格納されたデバイスであり、例えばマスクROMやEPROM (Erasable Programmable Read Only Memory)が挙げられる。RAM16は、一時的にプログラムやデータを保存するデバイスであり、例えばDRAM(Dynamic RAM)やフラッシュメモリが挙げられる。表示部17は、情報処理装置11にて処理した情報や操作画面などを表示する装置であり、例えば液晶表示装置が挙げられる。HDD18は、OS(Operating System)や各種アプリケーションソフトウェアを保存したりネットワーク24を介して配信されたニュース記事情報やSNS(Social Networking Site)上で流れている投稿情報などの文章情報を保存したりする装置である。LAN接続部19は情報処理装置11が情報処理装置12,13に接続する装置である。操作部20は、情報処理装置11を操作するのに必要な電源スイッチ、テンキー等のスイッチを有する装置であり、例えばキーボードやマウスが挙げられるが、表示部17と一体化したタッチパネルであってもよい。ネットワーク接続部21は、情報処理装置11を、インターネットなどのネットワーク24を介して端末装置23a,23b,…、もしくはニュース記事情報を発信するニュースサーバや、SNSサーバーと接続して情報を授受する装置である。
図2は、図1に示した情報処理装置11の機能ブロック図の一例である。
図2に示す情報処理装置11は、URL(Uniform Resource Locator)情報取得手段31、HTML(Hyper Text Markup Language)ページ取得手段32、文字列取得手段33、コメント取得手段34、単語ベクトル作成手段35、クラスタリング手段36、データベース手段37、表示手段38、及び制御手段39を有する。
URL情報取得手段31は、既定のタイミング(例:5分毎)にて、SNSサーバーが提供するAPIを用いて、SNS上で流れている投稿情報を取得し、投稿情報内に含まれるURL情報を抽出して取得したり、各Webサイトが発信しているRSS(Really Simple Syndication)情報を定期的に取得し、RSSに記載されている新着のURL情報を抽出して取得したりする。URL情報取得手段31は、各サイトからURL情報を取得する手段であり、例えば、CPU14、ROM15、RAM16、及びネットワーク接続部21によって実現される。
HTMLページ取得手段32は、URL情報取得手段31にて取得した、投稿情報内に含まれるURL情報やRSSに記載されている新着のURL情報を基に、そのURL(例えば、ニュースサーバなど)にアクセスし、HTMLページ(例えば、ニュース記事など)を取得する。HTMLページ取得手段32は、URLにアクセスし、HTMLページを取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びネットワーク接続部21によって実現される。
文字列取得手段33は、HTMLページ取得手段32にて取得したHTMLページのHTML構造を解析し、<title>タグまたは<meta property="og:title">タグとそれらの終了タグを用いて記述されたタグ間のタイトルや、<description>タグまたは<meta property="og:description">タグとそれらの終了タグを用いて記述されたタグ間の概要文などの文字列を取得し、HTMLページのURL情報に対応付けて、タイトルおよび概要文をデータベースに記憶する。文字列取得手段33は、HTMLページからタイトルと概要文を取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。
コメント取得手段34は、URL情報取得手段31にて取得したURL情報が含まれる投稿情報をコメントとして取得したり、HTMLページ取得手段32にて取得したコメント記載欄があるHTMLページ(ニュース記事などに対する閲覧者からのコメントの記入を許可しているWebページで、「comment」という文字列を含むタグ間に存在する「コメント」などの文字や送信ボタンタグなどによって判断する)のコメントを取得したりし、投稿情報やコメントなどのコメント情報をURL情報に対応付けて、データベースに記憶する。コメント取得手段34は、コメント情報を取得する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。また、コメント取得手段34は、ニュース記事などの同じURL情報への投稿情報の数やニュース記事などのHTMLページに対するコメントの数を取得して、URL情報に対応付けてデータベースに記憶する。
単語ベクトル作成手段35は、文字列取得手段33にて取得した各HTMLページのタイトル及び概要文を連結した文章に対して、言語解析処理をして接続語などを削除して単語単位に分割したワードを単語ベクトルとして、データベースにてHTMLページのURL情報に対応付けて記憶する。単語ベクトル作成手段35は、タイトル及び概要文から単語ベクトルを作成する手段であり、例えば、CPU14、ROM15、RAM16、HDD18によって実現される。
ここで、HDD18内に構成されるデータベース手段37に記憶されているデータベースには、既定の期間内のニュース記事などのHTMLページのタイトル、概要の文章、HTMLページのURL情報(IDに相当する)、タイトルと概要の文章から抽出した単語ベクトル、ニュース記事などのHTMLページに対する閲覧者のコメント、ニュース記事などに対するコメント数、及びコメントの文章から抽出したコメントベクトルを保存しておく。データベース手段37は、例えば、HDD18によって実現される。
表1は、HTMLページのURL情報、HTMLページのタイトル、概要の文章、単語ベクトルが対応付けられて記憶されたデータベースの一例である。
また、表1のデータベースに示すタイトルは、HTMLページ構造において、例えば、<title>A国にE病気感染者の疑い</title>におけるタグ<title>とタグ</title>とで挟まれた文字列「A国にE病気感染者の疑い」であり、概要文は、<description>A国にE病気の疑いがある感染者が・・・</description>におけるタグ<description>とタグ</description>とで挟まれた文字列「A国にE病気の疑いがある感染者が・・・」である。
Figure 0006048977
表2はURL情報、コメント、コメントベクトル、及びコメント数のデータベースの一例である。
Figure 0006048977
表1、表2に示したデータベースは一定時間毎(例えば、5分毎)に取得されたデータが追加されて蓄積される。2時間のニュース記事などのHTMLページのまとめページランキングを作成するときは、表2のデータベースから、日時が直近2時間のURL情報を抽出(URL情報が既定数(例:500件)以上場合は、抽出したURL情報の内、URL情報単位での合計コメント数が既定の上位数(例:500件)のURL情報を抽出)し、表1のデータベースにて、抽出したURL情報に対応する単語ベクトルを抽出し、ニュース記事などのHTMLページをまとめる(クラスタリングする)。また、表2のデータベースを参照し、抽出したURL情報に対応するコメントベクトルから代表コメントを選出し、まとめたニュース記事などのHTMLページに対応するURL情報に対応するコメント数を、表2を参照して合計し、まとめたニュース記事などのHTMLページと他のまとめたニュース記事などのHTMLページとの間の掲載順位付けに用いる。尚、蓄積されたデータのうち重複したデータや不要なデータは消去される。
クラスタリング手段36は、既定のタイミングにて、既定の期間分(例:直近2時間分、1日間分など)URL情報を表2のデータベースから抽出し、抽出したURL情報に対応する単語ベクトルを表1のデータベースから取得し、内容ベースで同じ内容のURL情報でまとめ上げる(後述するクラスタリング処理)手段であり、例えば、CPU14、ROM15、RAM16、及びHDD18によって実現される。
表示手段38は、ページ作成手段40にて、まとめられた文章情報を掲載するまとめページを表示する手段であり、例えば、表示部17によって実現される。ただし、情報処理装置11がサーバー装置である場合は、無くても良い。
制御手段39は、情報処理装置11の各手段を統括制御し、各手段への命令やデータを受け渡しする手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びバスライン22によって実現される。
また、クラスタリング手段36は、まとめた同じ内容のURL情報に紐付られてデータベース手段37に記憶されている複数のコメントに対し、クラスタリング処理を施し、重複コメント及び類似のコメントを削除し、代表コメントを既定の上位件数(例:上位1件)残す。
ページ作成手段40、クラスタリング手段36にて、まとめた同じ内容のURL情報のニュース記事などのタイトルまたは概要文の少なくとも1つをまとめて(例えば、時系列順、コメント数の多い順で)掲載する文章情報表示領域と、画面下部にそのURL情報に対応し、クラスタリング手段36にて、選別した代表コメントを横方向にローテーション表示するコメント表示領域と、を有するWebページであるまとめページを作成し、端末装置23a、23bにネットワーク24を介して公開する。ページ作成手段40、まとめページを作成し公開する手段であり、例えば、CPU14、ROM15、RAM16、HDD18及びネットワーク接続部21によって実現される。また、ページ作成手段40、コメント表示領域の代わりに、もしくは、追加して、まとめた同じ内容のURL情報のニュース記事などに対応する各コメントに対し、評判分析を行い、各分類(肯定、否定、喜怒哀楽等)を割り当て、割り当てられた分類名とその分類の度数のグラフを表示する評判表示領域をまとめページに作成してもよい。これにより、例えば一つの件についてあるサイトでは「怖い」という分類を付けることができ、別のサイトでは「驚く」という分類をつけることができる。「怖い」の数や「驚く」の数をグラフ化(図では棒グラフであるが、グラフの種類は限定されない)することができる。
尚、各コメントに対し、評判分析に基づく「怖い」や「驚く」等の複数の分類(形容詞もしくは副詞等の単語)を同時に表示してもよい。
図1のように、ハードウェアブロック構成が同様である情報処理装置11,12,13を用いて、例えば、情報処理装置11をURL情報取得手段31とHTMLページ取得手段32、文字列取得手段33、コメント取得手段34、単語ベクトル作成手段35、データベースを記憶作成するデータベース手段37を有するデータ取得サーバー、情報処理装置12を、クラスタリング手段36を有するクラスタリングサーバー、及び情報処理装置13を、ページ作成手段40を有するページ表示サーバーとして機能させることで、複数の装置を用いて、まとめサイトシステム10を構成してもよいし、情報処理装置11のみで、本発明の各手段を機能させるサーバー装置でもよい。データベース手段37は、NAS(Network Attached Storage)を用いて、情報処理装置11,12,13とは別の装置として、各情報処理装置11,12,13と読み書き可能に接続するように構成しても良い。ここで、情報処理装置11が、各端末装置23にまとめページを提供するサーバー装置ではなく、利用者が操作する端末装置23の1つである場合は、ページ作成手段は、作成したまとめページを各端末装置23に公開するのではなく、作成したまとめページを表示部17に表示する。
<動 作>
図3は、図1に示した情報処理装置11の動作を説明するためのフローチャートの一例である。
先ずURL情報取得手段31が、既定のタイミングにて、各サイトからURL情報を取得し(ステップS1)、HTMLページ取得手段32が、URL情報取得手段31にて取得されたURL情報を基に、URLにアクセスし、HTMLページを取得し(ステップS2)、文字列取得手段33が、HTMLページ取得手段32にて取得されたHTMLページのタイトル及び概要文を取得し、表1のデータベースに記憶する(ステップS3)。
ここで、コメント取得手段34は、URL情報取得手段31にて取得したURL情報が含まれる投稿情報をコメントとして取得し、表2のデータベースに記憶する。また、コメント取得手段34は、HTMLページ取得手段32にて取得されたHTMLページ内に閲覧者からのコメントがあるか否かを判断する(ステップS4)。閲覧者からのコメントがある場合(ステップS4/Yes)、HTMLページのコメントを取得し、表2のデータベースに記憶してステップS5へ進み(ステップS5)、ユーザーからのコメントが無い場合(ステップS4/No)、ステップS6へ進む。
単語ベクトル作成手段35は、文字列取得手段33にて取得されたタイトル及び概要文を連結した連結文章にし、連結文章に対し、言語解析処理を施して、連結文章を分割して、単語ベクトルを作成し、表1のデータベースに記憶してステップS7へ進む(ステップS6)。
クラスタリング手段36が、既定のタイミングにて、表2のデータベースにて、既定の期間分のURL情報を抽出し、抽出したURL情報に対応する、単語ベクトル作成手段35作成された単語ベクトルを用いて、内容ベースで各URL情報のまとめ上げるためのクラスタリング処理を施し(ステップS7)、クラスタリング手段36が、まとめたURL情報に紐づく複数のコメントに対し、クラスタリング処理を施し、既定の上位件数の代表コメントを抽出する(ステップS8)。
ページ作成手段40は、クラスタリング手段36にてまとめたURL情報に対応するタイトルまたは概要文の少なくとも1つを対応するURL情報へのリンクを付けて、まとめて掲載し、ページ下部にクラスタリング手段36にて抽出した代表コメントをローテーション表示するまとめページを作成する(ステップS9)。尚、ステップS9にて、ページ作成手段40は、ページ下部の代表コメントの代わりに、クラスタリング手段36にて、まとめたURL情報に紐づく複数のコメントに対して、評判分析を行い、複数のコメントを肯定、否定、もしくは喜怒哀楽などを表す分類を付与し、その分類と評判分析結果のグラフを表示するまとめページを作成してもよい。まとめページは、まとめURL情報(クラスター)毎に作成する。ただし、まとめページは、まとめたURL情報(クラスター)毎に作成しなくても、1つのまとめページに複数のまとめURL情報(クラスター)を掲載しても良い。その際は、まとめたURL情報に対応するコメント数の合計順に上位から第2の文章情報のまとまり毎に順番に掲載する、まとめページを作成する。
<画面掲載例>
図4は、図1に示したまとめサイトシステムにより得られた画面と比較例である。
図4において左側のニュースランキングの図が比較例であり、右側のニュースランキングが本発明による掲載画面の一例である。ランキングの順位基準は、左側のニュースランキングの図がニュース記事個別のコメント数であり、右側のニュースランキングがまとめたニュース記事のコメント数の合計である。
同一の単語(例、リベリア・エボラ等)を多く含むニュース記事のHTMLページを自動的にまとめ上げたものである。
左側の比較例では上から野球チームHのニュース記事、水族館のニュース記事、エボラ熱のニュース記事、アイドルAのニュース記事、ピザ専門店のニュース記事が羅列されている。
これに対し、右側のニュースランキングでは、エボラ関連のニュース記事が集約されることで、コメント数の合計が最大になり、最上段に掲載され、野球チームHのニュース記事、アイドルAのニュース記事、水族館のニュース記事、…の順に羅列されている。すなわち、分散されていた情報が内容毎にまとめ上げられている。尚、ランキング処理は話題ベースとなるため、順位変動が生じる。
図5は、図1に示したまとめサイトシステムを用いたニュース記事などのHTMLページ及びコメントに対するクラスタリング処理の前後の関係を示す概念図である。
図5の左側のクラスタリング処理前において、Aサイト〜CサイトにはE病気、アイドルA、及び野球チームHのニュース記事などのHTMLページ及びコメントが散在している。
このようなニュース記事などのHTMLページ及びコメントが散在している状態のとき、クラスタリング処理を施すと、図5の右側のように各HTMLページの内容である、E病気、野球チームH、及びアイドルAについてのニュース記事などのHTMLページ及びコメントが集約されることになる。
図6は、図1に示したまとめサイトシステムを用いたE病気に対する評判分析についての説明図である。
図6の左側の図は、クラスタリング処理を施して得られたE病気についてのニュース記事などのHTMLページが集約された図である。四つのニュース記事などのHTMLページに紐づく各コメントを分析する。感情を表現する単語についての感情辞書には「怖い」、「恐ろしい」、「震える」は「怖い」に分類され、「驚く」、「衝撃」、「ビックリ」は「驚く」に分類されている。
そこで、評判分析において、E病気のニュース記事などのHTMLページに対して各端末装置の閲覧者から寄せられたコメントを分析すると、AサイトのHTMLページに対するコメントでは「E病気が怖い。」とあるので、「怖い」分類を付与することが可能である。BサイトのHTMLページに対するコメントでは「病気が上陸、ビックリ。」とあるので、「驚く」分類を付与することが可能である。CサイトのHTMLページに対するコメントでは「E病気恐ろしい」とあるので、「怖い」分類を付与することが可能である。
一方、四つのニュース記事に紐づいて時系列最新順、または、コメント数順にソートを行うと、E病気のニュース記事などのHTMLページについてBサイトニュース記事、Aサイトニュース記事、及びCサイトニュース記事の順に時系列順、または、コメント数順に掲載されるまとめページが作成される。各サイトニュース記事の下側に分類「怖い」、「驚く」の分類についての量がグラフ化されて表示されるまとめページが作成される。
尚、右下の図において、内容が一致しているニュース記事は削除されている。
図7は、図1に示したまとめサイトシステムを用いたE病気に対するコメントのクラスタリングと表示についての概念図である。
左の図におけるクラスタリンクでまとめられたE病気に対する四つのニュース記事のHTMLページに紐づくコメントについてもう一度クラスタリングを行う。ニュース記事の各クラスター毎に代表コメントを既定の上位件数(この例では1件)のみを残し、類似重複内容のコメントを削除する。コメントを既定の上位件数のみ残す方法については後述する。
E病気に対するニュース記事のクラスターについては、右下の図において、E病気ニュース記事についてBサイトニュース記事、Aサイトニュース記事、Cサイトニュース記事及びDサイトニュース記事の順に時系列順、または、コメント数順にまとめページに掲載される。まとめページのニュース記事の下側に代表コメント表示領域を設定し、その表示領域に「E病気が上陸、ビックリ。」のような代表コメントが横方向、例えば左から右にローテーション表示される。このローテーション表示の欄に「驚く」のような喜怒哀楽を表す単語が常時表示されていてもよい。クラスタリングによりまとめられた他のアイドルAのニュース記事、野球チームHのニュース記事も同様に各々のまとめページを作成する。
<クラスタリング方法>
次にクラスタリング方法について述べる。
(i)各ニュース記事などのHTMLページから抽出したタイトル及び概要文を連結した連結文章を言語解析により、ワード単位に分割する。
例えば、あるニュース記事xの連結文章が「A国でE病気か A国にE病気の感染者の疑い。」である場合、ニュース記事xの単語ベクトルであるベクトルxは「A国」、「E病気」、「感染者」、及び「疑い」となる。他のニュース記事yの連結文章が「E病気、A国で感染者 E病気がA国で感染者が現れた。政府は早急に対策を検討。」である場合、単語ベクトルであるベクトルyは「E病気」、「A国」、「感染者」、「現れる」、「政府」、「早急」、「対策」、及び「検討」となる。
(ii)ニュース記事などのHTMLページ間の距離(全組合せ)を測定する。
ベクトル間の距離は近ければ近いほどそのHTMLページ同士の内容は類似している。
ベクトル単語間の距離の一種であるJaccard距離J dは数式(1)により求まる。
Figure 0006048977
上記の例ベクトルxとベクトルyの例を用いると、
11=3(A国、E病気、感染者)
10=1(疑い)
01=5(現れる、政府、早急、対策、検討)
また、ベクトルxとベクトルyとの関係を表3に示す。
Figure 0006048977
表3におけるベクトルxまたはベクトルyの1は「単語が存在する」を意味し、0は「単語が存在しない」を意味する。また、例えば、表1のnの添え字が「11」のn11は、ベクトルx及びベクトルyに共通に存在する単語が「A国」、「E病気」、「感染者」の3個であるため、要素数は「3」となる。同様にn10は、ベクトルxには存在し、ベクトルyには存在しない単語が「疑い」だけなので要素数は「1」となる。n01は、ベクトルxには存在せず、ベクトルyには存在する単語が「現れる」、「政府」、「早急」、「対策」、「検討」なので要素数は「5」となる。
従ってJaccard距離J dは数式(1)より、
J d=(1+5)/(3+1+5)=2/3=0.667となる。
しかしながら、数式(1)を用いた場合、ベクトルyがベクトルxをほぼ包含していても、ベクトルx、y内の要素数に開きがある場合、単語間の距離が遠くなって精度が低下しまうという問題点がある。
そこで、本発明は数式(1)を改良した数式(2)により精度を向上する。
Figure 0006048977
数式(2)の数式(1)との相違点は、数式(1)に単語数を考慮して重み付け(単語数に応じて重みを減らす乗算をする)することにより、ベクトルyがベクトルxをほぼ包含しており、ベクトルx、y内の要素数に開きがある場合であっても、単語間の距離が遠くなることがなくなり、精度が向上するようにした点である。すなわち、短い文章と長い文章との距離の差があっても最適な距離が求まるのである。ここで、Wxはベクトルxの単語の数であり、Wyはベクトルyの単語の数を示す。
図8(a)〜(c)は、数式(2)を用いてニュース記事などのHTMLページに対応するベクトル間の距離を算出した場合の説明図である。
(iii)最も距離が近いニュース記事(またはニュース記事をまとめたクラスター)同士を抽出し、閾値dmin以下の場合、同一内容ニュース記事とみなし、クラスターを形成(それらのニュース記事をまとめる)する。新規に形成されたクラスターに対する距離のみ再計算して、最小距離を抽出する。閾値が下回る限り繰り返し、閾値を下回るニュース記事やクラスターがなければ終了する。
図8の例では、ニュース記事Aからニュース記事Dまでの各距離は、ニュース記事A〜ニュース記事Bが0.2、ニュース記事A〜ニュース記事Cが0.8、ニュース記事A〜ニュース記事Dが0.9、ニュース記事B〜ニュース記事Cが0.6、ニュース記事B〜ニュース記事Dが0.3、ニュース記事C〜ニュース記事Dが0.4となる。閾値dmin=0.6と設定したとする。従って、ニュース記事A〜ニュース記事Bが最小の0.2であるため、最もベクトル間の距離が近く、閾値dmin=0.6以下であるため、ニュース記事Aとニュース記事Bが類似していることになり、まとまる(図8(a))。
ニュース記事A及びニュース記事Bを一つの新たなクラスター(ニュース記事A+ニュース記事B:図では(A,B))としてまとめ、ニュース記事C及びニュース記事Dとの間の距離を求めると、ニュース記事A+ニュース記事B(A,B)クラスターとニュース記事Cとの間の距離は平均値を取り、(0.8+0.6)/2=0.7となり、ニュース記事A+ニュース記事B(A,B)とニュース記事Dとの間の距離は(0.9+0.3)/2=0.6となる。従って、ニュース記事Cとニュース記事Dとの間の距離が0.4と、最もベクトル間の距離が近く、閾値dmin=0.6以下であるため、ニュース記事Cとニュース記事Dをひとまとめにする(図8(b))。
ニュース記事Cとニュース記事Dとが新たなクラスター(ニュース記事C+ニュース記事D)となる。ニュース記事A+ニュース記事B(A,B)クラスターとニュース記事C+ニュース記事D(C,D)クラスターとの間の距離は(0.8+0.6+0.9+0.3)/4=0.65となる。他にニュース記事やクラスターが無いので、この時点で最小距離=0.65が閾値dmin=0.6を上回るので計算を終了する。このまとめたクラスターから、ニュース記事Aとニュース記事Bとは同一内容のニュース記事であることが分かる。ニュース記事AとB、ニュース記事CとDとでそれぞれひとまとめにすることができる(図8(c))。その後、まとめたクラスター内のニュース記事AとB、ニュース記事CとDの各URL情報に対応するコメント数をそれぞれのまとめたクラスター毎に合計する。
<クラスターで代表コメントを規定の上位件数(例:1件)残す方法>
図9は、クラスターで代表コメントを1件残す方法の説明図である。
(α)ニュース記事などのHTMLページ対するコメントの集合であるクラスター内に2つのコメントがある場合
コメントの投稿日時、コメントの文字数、コメントを発信した発信者のアカウントの強さ(フォロワー数、友達の人数)等が最大のものを既定の上位件数(例:1件)抽出する。
(β)ニュース記事などのHTMLページ対するコメントの集合であるクラスター内に3つ以上のコメントがある場合
クラスター内の全コメントに関して、コメントの文章を言語解析し、単語に分解し、コメントベクトルを生成し、他のコメントベクトルとの距離の平均値を求め、その平均値が最も小さい値から順に既定の上位件数のコメントを代表コメントとする。この例では、上位1件として、説明する。
図9に示す例では、コメントAのベクトルからコメントDのベクトルまでの距離を前述のように数式(2)を用いて算出すると、コメントA〜コメントBが0.2、コメントA〜コメントCが0.8、コメントA〜コメントDが0.9、コメントB〜コメントCが0.6、コメントB〜コメントDが0.3、コメントC〜コメントDが0.4となる。更に、コメントAから他のコメントまでの距離の平均値が(0.8+0.9+0.2)/3=0.63、コメントBから他のコメントまでの距離の平均値が(0.2+0.6+0.3)/3=0.37、コメントCから他のコメントまでの距離の平均値が(0.8+0.6+0.4)/3=0.6、コメントDから他のコメントまでの距離の平均値が(0.3+0.9+0.4)/3=0.53となる。
従って、コメントBの平均値0.37が最小値となり上位1件なので、コメントBが代表コメントとなる。ここで、上位2件の場合は、コメントBに加えて、次に平均値が小さいコメントDも代表コメントも代表コメントとなる。
尚、前述と同様に、コメントの投稿日時、コメントの文字数、コメント発信者のアカウントの強さ(フォロワー数、友達の人数)等が最大のものを1件抽出してもよい。
<プログラム>
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばサーバー装置、パーソナルコンピュータやワークステーションなどの汎用的なものが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
例えば、
情報処理装置のコンピュータが読取可能なプログラムであって、
コンピュータに、
ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得ステップと、
URL情報が示す第2の文章情報を、ネットワークを介して取得する文章取得ステップと、
第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得ステップと、
第2の文章情報に対するコメントを取得するコメント取得ステップと、
第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリングステップと、
コメントから代表する代表コメントを抽出する第2のクラスタリングステップと、
まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、代表コメントとを掲載するまとめページを作成するページ作成ステップと、
を実行させるためのプログラムが挙げられる。
このようなプログラムは、コンピュータに読み取り可能な記憶媒体に記憶されていてもよい。
<記憶媒体>
ここで、記憶媒体としては、例えばCD-ROM、フレキシブルディスク(FD)、CD-R等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
CD-ROMは、Compact Disc Read Only Memoryの略である。フレキシブルディスクは、Flexible Disk:FDを意味する。CD-Rは、CD Recordableの略である。RAMは、Random-Access Memoryの略であるFeRAMは、Ferroelectric RAMの略で、強誘電体メモリを意味する。
<作用効果>
本発明によれば、ネットワークを介して配信されるサイトの情報からニュース記事などのWebページの情報を収集して集約し、類似のニュース記事毎に内容ベースで区分けしたページを生成することにより、ユーザーがどれだけツイートしているのか、どれだけコメントを発しているのかがわかる(反響)。
また、本発明によれば、コメントを含むニュース記事を、タイトル及び概要に分割し、タイトル及び概要文を分割して単語ベクトルとしてタイトル間の単語ベクトル同士及び概要文間の単語ベクトル同士の距離が閾値以下のニュース記事を同一内容のニュース記事とみなして内容ベースで区分けしてランキングすることにより、反響にもランキングすることができる。処理量が多くても精度よくランキング処理することができる。例えば、コメント数やニュース記事数が百件程度の場合には数秒程度、ニュース記事数が千件程度の場合には十秒程度でニュース記事の仕分け及びランキングの処理が可能である。また、ローテーション表示により見やすくすることができる。
尚、上述した実施の形態で、ニュース記事を例に説明したが、ニュース記事以外でも、ブログやコラム、宿泊施設の予約サイト、本や商品、サービスのレビューサイト、ECサイト、Web販売店比較サイトなどのWebページのように、ネットワーク上に公開された文章ページであればよく、HTMLページ以外のフォーマットを用いたページでもよい。また、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。
11、12、13 情報処理装置
14 CPU
15 ROM
16 RAM
17 表示部
18 HDD
19 LAN接続部
20 操作部
21 ネットワーク接続部
22 バスライン
23a、23b、… 端末装置
31 URL情報取得手段
32 HTMLページ取得手段
33 文字列取得手段
34 コメント取得手段
35 単語ベクトル作成手段
36 クラスタリング手段
37 データベース手段
38 表示手段
39 制御手段

Claims (9)

  1. ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得手段と、
    前記URL情報が示す第2の文章情報を、前記ネットワークを介して取得する文章取得手段と、
    前記第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得手段と、
    前記第2の文章情報に対するコメントを取得するコメント取得手段と、
    前記第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の前記第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリング手段と、
    前記コメントから代表する代表コメントを抽出する第2のクラスタリング手段と、
    まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、前記代表コメントとを掲載するまとめページを作成するページ作成手段と、
    を備えたことを特徴とする情報処理装置。
  2. 前記第1のクラスタリング手段は、前記連結文章を分割し、単語を抽出し、
    複数の前記第2の文章情報の内の2つの前記第2の文章情報間の単語数の比と一方の前記第2の文章情報に含まれる単語数の割合とをもとに、2つの前記第2の文章情報間の類似度を算出し、
    複数の前記第2の文章情報の内で、最も類似する前記類似度であり、かつ、前記類似度が閾値以下である2つの前記第2の文章情報同士をまとめることを特徴とする請求項1に記載の情報処理装置。
  3. 前記第2のクラスタリング手段は、前記コメントを分割し、単語を抽出し、複数の前記コメントの内の2つの前記コメント間の単語数の比と一方の前記コメントに含まれる単語数の割合とをもとに、2つの前記コメント間の類似度を算出し、複数の前記コメントの内で、1のコメントと他のコメントとの前記類似度の平均値を算出し、前記平均値が最少であるコメントを前記代表コメントとすることを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記ページ作成手段は、前記代表コメントを前記まとめページの下部領域にローテーション表示することを特徴とした請求項1から3の何れか1つに記載の情報処理装置。
  5. 前記ページ作成手段は、前記コメントを評判分析して分類分けし、分類分けした分類名と各分類の度数を前記まとめページの下部領域に掲載することを特徴とした請求項1から3の何れか1つに記載の情報処理装置。
  6. 前記ページ作成手段は、
    前記第1のクラスタリング手段にてまとめた第2の文章情報に対するコメント数の合計順に上位から第2の文章情報のまとまりを順番に掲載する、まとめページを作成することを特徴とした請求項1から5の何れか1つに記載の情報処理装置。
  7. ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得手段と、
    前記URL情報が示す第2の文章情報を、ネットワークを介して取得する文章取得手段と、
    前記第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得手段と、
    前記第2の文章情報に対するコメントを取得するコメント取得手段と、
    を備えたデータ取得サーバーと、
    前記第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の前記第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリング手段と、
    前記コメントから代表する代表コメントを抽出する第2のクラスタリング手段と、
    を備えたクラスタリングサーバーと、
    まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、前記代表コメントとを掲載するまとめページを作成するページ作成手段と、
    を備えた表示サーバーと、
    を有することを特徴とするサイトまとめシステム。
  8. 情報処理装置が行うサイトまとめ方法であって、
    ネットワークを介して閲覧可能に掲載される第1の文章情報内に記載されたURL情報を取得するURL取得ステップと、
    前記URL情報が示す第2の文章情報を、前記ネットワークを介して取得する文章取得ステップと、
    前記第2の文章情報からタイトル及び概要文の文字列情報を取得する文字列取得ステップと、
    前記第2の文章情報に対するコメントを取得するコメント取得ステップと、
    前記第2の文章情報のタイトル及び概要文を連結した連結文章を基に、複数の前記第2の文章情報の内、類似する第2の文章情報同士をまとめる第1のクラスタリングステップと、
    前記コメントから代表する代表コメントを抽出する第2のクラスタリングステップと、
    まとめた第2の文章情報に対応するタイトルまたは概要文の少なくとも1つと、前記代表コメントとを掲載するまとめページを作成するページ作成ステップと、
    を含むことを特徴とするサイトまとめ方法。
  9. 請求項8に記載の各ステップをコンピュータに実行させるためのプログラム。
JP2014243482A 2014-12-01 2014-12-01 サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム Active JP6048977B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014243482A JP6048977B2 (ja) 2014-12-01 2014-12-01 サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014243482A JP6048977B2 (ja) 2014-12-01 2014-12-01 サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016105260A JP2016105260A (ja) 2016-06-09
JP6048977B2 true JP6048977B2 (ja) 2016-12-21

Family

ID=56102767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014243482A Active JP6048977B2 (ja) 2014-12-01 2014-12-01 サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6048977B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6715758B2 (ja) * 2016-12-26 2020-07-01 Kddi株式会社 分類器生成装置、分類器生成方法、及びコンピュータプログラム
JP2019016288A (ja) * 2017-07-10 2019-01-31 富士ゼロックス株式会社 情報処理装置、情報処理システムおよびプログラム
JP7001509B2 (ja) * 2018-03-19 2022-01-19 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7287992B2 (ja) * 2021-01-28 2023-06-06 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP7284196B2 (ja) * 2021-01-28 2023-05-30 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
KR102496212B1 (ko) * 2022-06-30 2023-02-06 주식회사 애자일소다 주요 구절 추출 장치 및 그 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331529A (ja) * 2000-03-17 2001-11-30 Fujitsu Ltd ニュース情報提示装置および提示方法
JP2004185049A (ja) * 2002-11-29 2004-07-02 Toppan Printing Co Ltd 記事閲覧装置及びその方法、並びに記事閲覧プログラム
JP2006309515A (ja) * 2005-04-28 2006-11-09 Dainippon Printing Co Ltd 情報配信方法および情報配信サーバ
US20090070346A1 (en) * 2007-09-06 2009-03-12 Antonio Savona Systems and methods for clustering information
JP2009181451A (ja) * 2008-01-31 2009-08-13 Shinya Moriuchi 新聞記事授受方法、新聞記事掲載装置およびそのプログラムと記憶媒体
JP5834815B2 (ja) * 2011-11-22 2015-12-24 株式会社リコー 情報処理装置、プログラムおよび文書を検索するための方法
US9935910B2 (en) * 2012-12-21 2018-04-03 Google Llc Recipient location aware notifications in response to related posts

Also Published As

Publication number Publication date
JP2016105260A (ja) 2016-06-09

Similar Documents

Publication Publication Date Title
JP6048977B2 (ja) サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム
US8849826B2 (en) Sentiment analysis from social media content
Copas et al. Reanalysis of epidemiological evidence on lung cancer and passive smoking
US20130212109A1 (en) Methods and apparatus for classifying content
US9686348B2 (en) Inter-entity connection maps
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
US20130198240A1 (en) Social Network Analysis
JP6216929B2 (ja) 検出装置、検出方法及び検出プログラム
Barnwal et al. Identifying fact-checkable microblogs during disasters: a classification-ranking approach
Zou et al. Public reactions towards the COVID-19 pandemic on twitter in the United Kingdom and the United States
KR20190048781A (ko) 온라인 의견 정보 수집 및 분석 시스템
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
SalahEldeen et al. Resurrecting my revolution: Using social link neighborhood in bringing context to the disappearing web
Erfanmanesh et al. What can Bookmetrix tell us about the impact of Springer Nature’s books
WO2016121127A1 (ja) データ評価システム、データ評価方法、およびデータ評価プログラム
You et al. Using text mining to track outbreak trends in global surveillance of emerging diseases: ProMED-mail
Pla Karidi et al. Automatic ground truth dataset creation for fake news detection in social media
EP2724250A1 (en) Systems and methods for ranking document clusters
Nagarsekar et al. Emotion detection from “the SMS of the internet”
Narwal Improving web data extraction by noise removal
Sharma et al. STP: Suicidal tendency prediction among the youth using social network data
JP6586756B2 (ja) インフォーマル学習のための学習教材を収集する方法及び非一時的なコンピュータ可読媒体
Sabareesha et al. Pattern Analysis of COVID-19 Based On Geotagged Social Media Data with Sociodemographic Factors
JP2015032287A (ja) 行動目的抽出方法及び装置
JP7042720B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161028

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161115

R150 Certificate of patent or registration of utility model

Ref document number: 6048977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250