JP5768006B2 - 要約可視化装置、方法、及びプログラム - Google Patents

要約可視化装置、方法、及びプログラム Download PDF

Info

Publication number
JP5768006B2
JP5768006B2 JP2012111759A JP2012111759A JP5768006B2 JP 5768006 B2 JP5768006 B2 JP 5768006B2 JP 2012111759 A JP2012111759 A JP 2012111759A JP 2012111759 A JP2012111759 A JP 2012111759A JP 5768006 B2 JP5768006 B2 JP 5768006B2
Authority
JP
Japan
Prior art keywords
documents
browsing
arrangement
user
browsed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012111759A
Other languages
English (en)
Other versions
JP2013239029A (ja
Inventor
翔一 長野
翔一 長野
裕介 市川
裕介 市川
眞哉 村田
眞哉 村田
典子 高屋
典子 高屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012111759A priority Critical patent/JP5768006B2/ja
Publication of JP2013239029A publication Critical patent/JP2013239029A/ja
Application granted granted Critical
Publication of JP5768006B2 publication Critical patent/JP5768006B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、要約可視化装置、方法、及びプログラムに係り、特に、複数の文書の閲覧履歴を可視化する要約可視化装置、方法、及びプログラムに関する。
ウェブページの過去の閲覧行動の履歴を収集して、過去の興味を想起可能とするための様々な技術が知られている。
例えば、閲覧内容を示すサムネイルを時系列順に並べて表示、又はクラスタ毎にまとめて表示する方法が知られている(例えば、特許文献1参照)。また、ユーザの閲覧履歴を収集し、処理対象となるユーザの閲覧履歴間の類似度に基づいて、処理対象となる複数の閲覧履歴をクラスタに分類し、クラスタ毎にまとめて表示する方法も知られている(例えば、特許文献2参照)。
更にまた、文書要約技術により,過去の閲覧内容を要約した要約文として提示する方法も知られている(例えば、特許文献3参照)。
特開2009−211406号公報 特開2011−100350号公報 特開2009−140411号公報
しかしながら、上記従来の技術に示される提示方法では、例えば、どの興味がどの程度長く持続しているのかが一見して把握できない。また、興味が大きく変遷しているのか、少しずつ変化しているのか等、変化の度合いも一見して把握できない。
本発明は、上記問題を解決するためになされたもので、従来の技術に比べて過去の閲覧行動の変遷を直感的に把握できる要約可視化装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の要約可視化装置は、ユーザ端末にてユーザが閲覧した文書の閲覧履歴を取得する取得手段と、前記取得手段により取得された閲覧履歴に基づいて、前記ユーザにより閲覧された複数の文書について文書間の類似度を算出する第1算出手段と、前記第1算出手段により算出された類似度に基づいて、前記閲覧された複数の文書を、複数のグループに分類する分類手段と、前記分類手段により分類された各グループに属する文書に基づいて、前記分類されたグループ間の内容の近さを示す値を算出する第2算出手段と、前記第2算出手段により算出された値に基づいて、グループ間の内容の近さに応じたグループ間の距離と、グループ間の内容の近さに応じた1次元上の各グループの配置におけるグループ間の距離との誤差が最も小さくなるように、1次元上の各グループの配置を決定する配置決定手段と、前記配置決定手段によって決定された1次元上の各グループの配置を縦軸にとり、前記取得手段により取得された閲覧履歴から得られる、前記閲覧された複数の文書毎の閲覧日時を横軸にとった座標を前記文書の配置座標として、前記分類されたグループ毎に、前記グループに属する、前記ユーザにより閲覧された複数の文書の縮小画像又は前記ユーザにより閲覧された複数の文書に対応する図形画像を配置した表示画像を、前記閲覧履歴の要約情報として生成する生成手段と、を備えている。
このように、ユーザにより閲覧された複数の文書について文書間の類似度を算出し、該算出した類似度に基づいて、ユーザにより閲覧された複数の文書を、複数のグループに分類し、グループ間の内容の近さに応じた1次元上の各グループの配置を決定し、該決定された1次元上の各グループの配置を縦軸にとり、閲覧された複数の文書毎の閲覧日時を横軸にとった座標を配置座標として、上記分類されたグループ毎に、グループに属する、ユーザにより閲覧された複数の文書の縮小画像又はユーザにより閲覧された複数の文書に対応する図形画像を配置した表示画像を生成するようにしたため、従来の技術に比べて過去の閲覧行動の変遷を直感的に把握できる。
また、本発明の要約可視化方法は、取得手段と、第1算出手段と、分類手段と、第2算出手段と、配置決定手段と、生成手段とを含む要約可視化装置における要約可視化方法であって、前記取得手段は、ユーザ端末にてユーザが閲覧した文書の閲覧履歴を取得し、前記第1算出手段は、前記取得手段により取得された閲覧履歴に基づいて、前記ユーザにより閲覧された複数の文書について文書間の類似度を算出し、前記分類手段は、前記第1算出手段により算出された類似度に基づいて、前記閲覧された複数の文書を、複数のグループに分類し、前記第2算出手段は、前記分類手段により分類された各グループに属する文書に基づいて、前記分類されたグループ間の内容の近さを示す値を算出し、前記配置決定手段は、前記第2算出手段により算出された値に基づいて、グループ間の内容の近さに応じたグループ間の距離と、グループ間の内容の近さに応じた1次元上の各グループの配置におけるグループ間の距離との誤差が最も小さくなるように、1次元上の各グループの配置を決定し、前記生成手段は、前記配置決定手段によって決定された1次元上の各グループの配置を縦軸にとり、前記取得手段により取得された閲覧履歴から得られる、前記閲覧された複数の文書毎の閲覧日時を横軸にとった座標を前記文書の配置座標として、前記分類されたグループ毎に、前記グループに属する、前記ユーザにより閲覧された複数の文書の縮小画像又は前記ユーザにより閲覧された複数の文書に対応する図形画像を配置した表示画像を、前記閲覧履歴の要約情報として生成する。
また、本発明の要約可視化プログラムは、コンピュータを、ユーザ端末にてユーザが閲覧した文書の閲覧履歴を取得する取得手段、前記取得手段により取得された閲覧履歴に基づいて、前記ユーザにより閲覧された複数の文書について文書間の類似度を算出する第1算出手段、前記第1算出手段により算出された類似度に基づいて、前記閲覧された複数の文書を、複数のグループに分類する分類手段、前記分類手段により分類された各グループに属する文書に基づいて、前記分類されたグループ間の内容の近さを示す値を算出する第2算出手段、前記第2算出手段により算出された値に基づいて、グループ間の内容の近さに応じたグループ間の距離と、グループ間の内容の近さに応じた1次元上の各グループの配置におけるグループ間の距離との誤差が最も小さくなるように、1次元上の各グループの配置を決定する配置決定手段、及び前記配置決定手段によって決定された1次元上の各グループの配置を縦軸にとり、前記取得手段により取得された閲覧履歴から得られる、前記閲覧された複数の文書毎の閲覧日時を横軸にとった座標を前記文書の配置座標として、前記分類されたグループ毎に、前記グループに属する、前記ユーザにより閲覧された複数の文書の縮小画像又は前記ユーザにより閲覧された複数の文書に対応する図形画像を配置した表示画像を、前記閲覧履歴の要約情報として生成する生成手段として機能させるための要約可視化プログラムである。
以上説明したように、本発明の要約可視化装置、方法、及びプログラムによれば、従来の技術に比べて過去の閲覧行動の変遷を直感的に把握できる、という効果が得られる。
実施の形態に係る要約可視化装置を含む要約可視化システムの構成の一例を示す図である。 要約可視化装置の構成の一例を示す図である。 履歴クラスタリング処理ルーチンのフローチャートである。 表示用付加情報生成処理ルーチンのフローチャートである。 クラスタ配置決定処理ルーチンのフローチャートである。 表示画像生成処理ルーチンのフローチャートである。 閲覧履歴保存装置に保存されている閲覧履歴の一例を示す図である。 履歴クラスタリング処理部によるクラスタリング結果(クラスタリング処理後閲覧履歴データ)の一例を示す。 表示用付加情報生成部による代表語抽出結果(クラスタ代表語データ)の一例を示す図である。 クラスタ配置情報データの一例を示す図である。 最短距離法によるクラスタ間距離算出方法を説明する説明図である。 ばねモデルによるクラスタ配置計算方法を説明ずる説明図である。 表示画像の一例を示す図である。 表示画像の他の例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本実施の形態に係る要約可視化装置を含む要約可視化システムの構成の一例を示す図である。
図1に示すように、ユーザ端末1と、複数のサーバ3aを含むウェブサーバ群3と、閲覧履歴保存装置4と、要約可視化装置10とが、インターネットなどの通信網2を介してそれぞれ接続されている。なお、図1では、ユーザ端末1が1台のみ示されているが、実際には、複数のユーザ端末が通信網2を介してウェブサーバ群3、閲覧履歴保存装置4、及び要約可視化装置10と接続されている。ここで、複数のユーザ端末は、ユーザ端末1とほぼ同等の構成とされるため、代表してユーザ端末1について説明する。
ユーザ端末1は、特定のユーザ(例えば、「ユーザID:user01」のユーザ)が利用する端末装置であり、例えば、パーソナルコンピュータやワークステーション、家庭用ゲーム機、インターネットTVや、PDA(Personal Digital Assistants)、スマートフォン、携帯電話、PHS(Personal Handy phone System)などの携帯端末とすることができる。また、ユーザ端末1は、通信網2を介してウェブサーバ群3に対しウェブページの閲覧要求を送信したり、閲覧要求に応じてウェブサーバ群3が送信したデータに基づくウェブページを、ユーザ端末1のモニタに表示させたりするためのソフトウェア(ブラウザ)が組み込まれている。
ユーザ端末1は、図1に示すように、ユーザ端末1を利用するユーザがブラウザを起動させて、入力部(図示せず)を介してURL(Uniform Resource Locator)を入力した場合、当該URLのウェブページの閲覧要求をウェブサーバ群3に対し送信する。そして、ウェブサーバ群3の中で、ユーザ端末1から送信された閲覧要求により指定されたURLに対応する情報資源を提供可能なサーバ3aは、図1に示すように、当該URLのウェブページのデータを送信する。これにより、ユーザ端末1は、受信したデータをモニタ(図示せず)に表示する。
ここで、ユーザ端末1は、図1に示すように、閲覧履歴取得部1aを有しており、閲覧履歴取得部1aは、ユーザがブラウザを起動させて閲覧要求を行なった結果、ユーザが閲覧したウェブページ(以下、閲覧ページという)の閲覧履歴情報(以下、単に閲覧履歴という)を時系列に沿って取得する。
そして、閲覧履歴取得部1aは、図1に示すように、取得した閲覧履歴を、ユーザIDと共に通信網2を介して閲覧履歴保存装置4に送信する。なお、閲覧履歴取得部1aが閲覧履歴を閲覧履歴保存装置4に送信するタイミングは、要約可視化システムの管理者等により任意に設定することができる。例えば、閲覧履歴取得部1aは、所定の期間(例えば、1日おき)毎に、ユーザ端末1における複数の閲覧履歴を閲覧履歴保存装置4に送信する。また、閲覧履歴取得部1aは、閲覧履歴保存装置4から送信要求を受け取ったときに閲覧履歴を送信するようにしてもよい。
閲覧履歴保存装置4は、コンピュータにより構成され、記録媒体を有しており、この記録媒体にユーザ端末1から送信された閲覧履歴を保存する。閲覧履歴保存装置4は、保存した閲覧履歴データを要約可視化装置10に通信網2を介して送信する。なお、閲覧履歴保存装置4が閲覧履歴を要約可視化装置10に送信するタイミングは、上記と同様、要約可視化システムの管理者等により任意に設定することができる。
なお、閲覧履歴の取得保存方法は特に限定されず、様々な技術を用いることができる。例えば、閲覧履歴取得部1aをクライアントソフトにより実現する機能としてもよいし、それ以外にも、ブラウザプラグイン、ウェブサーバ、プロキシ、DPI(Deep Packet Inspection)等、様々な技術或いは装置を用いて閲覧履歴を取得して保存することができる。
要約可視化装置10は、閲覧履歴保存装置4から取得した閲覧履歴から、個々のユーザの閲覧履歴の要約を生成してユーザ端末1或いはウェブサーバ群3のサーバ3aに表示するための装置である。要約可視化装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、CPUが後述する各処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図2に示すように、要約条件入力部11、閲覧履歴取得部12、履歴クラスタリング処理部13、表示用付加情報生成部14、履歴クラスタ間距離算出部15、画面配置決定部16、及び表示画像生成部17を含んだ構成で表わすことができる。
なお、閲覧履歴取得部12が本発明の取得手段の一例であり、履歴クラスタリング処理部13が本発明の第1算出手段及び分類手段の一例であり、履歴クラスタ間距離算出部15が第2算出手段の一例であり、画面配置決定部16及び表示画像生成部17が、本発明の生成手段の一例である。
要約条件入力部11は、ユーザ端末1或いはウェブサーバ群3のサーバ3aにおいて入力された要約条件(要約対象のユーザID及び要約期間を含む)を、通信網2を介して受け取る。
閲覧履歴取得部12は、通信網2を介して接続されている閲覧履歴保存装置4から、要約条件入力部11で受け取ったユーザID及び要約期間の条件に合致する閲覧履歴を取得する。
履歴クラスタリング処理部13は、閲覧履歴取得部12で取得した閲覧履歴に基づいて、複数の閲覧ページを、興味分野が同一と推定される閲覧ページが同じグループに属するように分類する。具体的には、履歴クラスタリング処理部13は、複数の閲覧ページを、内容の類似したページ群にクラスタリング(分類)する。以下、分類されたページ群の各々をクラスタという。
表示用付加情報生成部14は、履歴クラスタリング処理部13で分類されたクラスタ毎に、各クラスタに属する各閲覧ページの内容を代表する代表語(キーワード)を表示用付加情報として抽出する。
履歴クラスタ間距離算出部15は、履歴クラスタリング処理部13で分類されたクラスタ間の内容類似度を求め、当該求めた内容類似度に基づいて、全クラスタの組み合わせについて、クラスタ間の距離を算出する。
画面配置決定部16は、履歴クラスタ間距離算出部15で算出されたクラスタ間の距離を用いて、1次元(1軸)上の各クラスタの配置を決定する。
表示画像生成部17は、履歴クラスタリング処理部13の分類結果と、表示用付加情報生成部14で抽出された表示用付加情報と、画面配置決定部16で決定されたクラスタの配置とに基づいて、表示画像を生成し、ユーザ端末1或いはウェブサーバ群3のサーバ3aに出力(送信)する。
次に、要約可視化装置10の作用について説明する。ユーザ端末1においてユーザによりウェブページが閲覧され、閲覧履歴保存装置4により閲覧履歴が取得された後に、ユーザ端末1或いはウェブサーバ群3のサーバ3aにおいて要約条件が入力され要約可視化装置10に送信されると、要約可視化装置10において、図3に示す履歴クラスタリング処理ルーチンが実行される。
ステップ100において、要約条件入力部11は、ユーザ端末1或いはウェブサーバ群3のサーバ3aにおいて入力された要約条件を、通信網2を介して受け取る。要約条件には、前述したように、要約対象のユーザID及び要約期間が含まれる。
ステップ102において、閲覧履歴取得部12は、要約条件入力部11で受け取ったユーザID及び要約期間に合致する閲覧履歴を、通信網2を介して閲覧履歴保存装置4から取得する。
図7に、閲覧履歴保存装置4に保存されている閲覧履歴の一例を示す。図示されるように、閲覧履歴保存装置4には、時系列順に閲覧された閲覧ページを識別する識別子が記憶されると共に、各識別子に対応させて、当該閲覧ページを閲覧したユーザのユーザID、閲覧日時、閲覧ページのURL(Uniform Resource Locator)、閲覧ページに含まれるテキストの情報(本文テキスト)の各々が保存されている。要約可視化装置10の閲覧履歴取得部12は、要約条件として指定された要約期間に、ユーザIDが示すユーザにより閲覧された閲覧ページの閲覧履歴を閲覧履歴保存装置4から取得する。なお、閲覧日時は、閲覧ページの閲覧を開始したときの日時としてもよいし、閲覧ページの閲覧を終了したときの日時としてもよい。また、閲覧日時として、閲覧ページの閲覧を開始したときの日時、及び閲覧を終了したときの日時の両方の日時を閲覧履歴に含めてもよい。なお、本実施形態では、閲覧日時が閲覧を開始した日時である場合を例に挙げて説明する。
ステップ104において、履歴クラスタリング処理部13は、閲覧履歴取得部12で取得した閲覧履歴の本文テキストの類似度を計算し、計算した類似度に基づいて、複数の閲覧ページを、内容の類似したページ群に分類(クラスタリング)する。ここでは、類似度が予め定められた閾値以上の閲覧ページ同士が同じクラスタに分類されるようにクラスタリングする。内容の類似したページ群は、同一の興味に基づいて閲覧されたページ群と推定できる。
なお、クラスタリングの具体的な方法は、特開2010-072727号公報や特開2012-048389号公報に記載の方法等を用いることができるが、これらの他、同一の興味単位で履歴をまとめることができる方法であればどのような手法を用いてもよい。
図8に、クラスタリング結果(以下、クラスタリング処理後閲覧履歴データという)の一例を示す。表中に示される数値は、本文テキストの類似度であって、数値が高いほど類似度が高いことを示す。本例では、ページa、ページb、及びページcの3つの閲覧ページが、クラスタ1として分類されている。ページd、及びページeの2つの閲覧ページが、クラスタ2として分類されている。ページf、及びページgの2つの閲覧ページが、クラスタ3として分類されている。同一のクラスタに分類されている閲覧ページ同士の類似度は、予め定められた閾値以上(ここでは、0.7以上)となっている。
クラスタリング処理が終了すると、要約可視化装置10において、図4に示す表示用付加情報生成処理ルーチン及び図5に示すクラスタ配置決定処理ルーチンが実行される。まず、図4の表示用付加情報生成処理ルーチンについて説明する。
ステップ200において、表示用付加情報生成部14は、履歴クラスタリング処理部13で行なわれたクラスタリング処理により分類されたクラスタ毎に、閲覧履歴に含まれる本文テキストから、各クラスタに属する各閲覧ページの内容を代表する代表語(キーワード)を表示用付加情報として抽出する。代表語の抽出方法は、特開2011−59814号公報や特開2011−242975号公報に記載の方法の他、複数の閲覧ページを代表する代表語を抽出する方法であればどのような方法を用いてもよい。図9に、表示用付加情報生成部14による代表語抽出結果(クラスタ代表語データ)の一例を示す。
次に、図5のクラスタ配置決定処理ルーチンについて説明する。
ステップ300において、履歴クラスタ間距離算出部15は、履歴クラスタリング処理部13により生成されたクラスタリング処理後閲覧履歴データを用いて、各クラスタ同士の内容類似度に基づき、全クラスタの組み合わせについて、クラスタ間の距離を算出する。
ここで、クラスタ間の距離を算出する方法の一例として、最短距離法によりクラスタ間の距離を算出する方法を、図11を参照して説明する。履歴クラスタ間距離算出部15は、図11(A)に示すように、まず、クラスタリング処理後閲覧履歴データ(ウェブページ間類似度マトリクス)に基づいて、最短距離法によりクラスタ間の類似度を算出する。例えば、クラスタ1及びクラスタ2間の類似度は、(a,d)、(a,e)、(b,d)、(b,e)、(c,d)、(c,e)の各閲覧ページ同士の類似度のうち、最高値をクラスタ1及びクラスタ2間の類似度とする。クラスタ1及びクラスタ3間の類似度、及びクラスタ2及びクラスタ3間の類似度も、同様に求める。図11(B)に、図11(A)に示すクラスタリング処理後閲覧履歴データから求めたクラスタ間の類似度マトリクステーブルを示す。
次に、履歴クラスタ間距離算出部15は、クラスタ間の類似度を距離に変換する。ここでは、下記式(1)を用いて変換する。類似度が高いほど距離は短くなる。
クラスタ間の距離=1−クラスタ間の類似度・・・(1)
図11(C)に、図11(B)に示すクラスタ間の類似度から求めたクラスタ間の距離のマトリクステーブルを示す。クラスタ間の距離は、クラスタ間の内容の近さを示す値であって、この距離が短いほど内容が近い。
なお、ここでは、クラスタ間の距離の算出方法として、履歴クラスタリング処理部13において算出した各閲覧ページ間の類似度から最短距離法を用いてクラスタ間距離を算出する方法を例に挙げて説明したが、クラスタ間の距離の算出方法はこれに限定されない。例えば、各閲覧ページ間の類似度から群平均法により算出する方法を用いてもよいし、クラスタ代表語をベクトルとして扱い、ベクトル空間法により類似度算出を行なう方法を用いてもよく、クラスタ間の距離を、閲覧ページ間の類似度やクラスタ代表語の類似度等を用いて算出できる方法であれば、どのような方法を用いてもよい。
次に、ステップ302において、画面配置決定部16は、履歴クラスタ間距離算出部15で算出されたクラスタ間の距離を用いて、1次元(1軸)上の各クラスタの配置を決定する。ここで、各クラスタの配置を決定する方法の一例として、ばねモデルを用いる方法を、図12を参照して説明する。
図12(A)は、ステップ300において求めたクラスタ間の距離を示すマトリクステーブルである。なお、各クラスタ間の内容の近さが把握できる理想的な配置は、図12(B)に示すように、上記算出したクラスタ間距離に応じた2次元配置であるが、本実施形態では、最終的に、クラスタを単位としてクラスタ間の内容の近さ(類似度)を縦軸にとり、閲覧ページ毎の閲覧日時を横軸にとった座標に、各閲覧ページの縮小画像又は各閲覧ページに対応する図形画像を配置した表示画像を生成するため、2次元配置では上記座標に展開することができない。そこで、1次元(1軸)上のクラスタの配置(各クラスタの1次元配置という)を決定する。なお、ここでは、1次元配置としたときのクラスタ間の距離と、2次元配置としたときのクラスタ間の距離との誤差が最も小さくなるように、各クラスタの1次元配置を決定するものとする。
まず、画面配置決定部16は、図12(C)に示すように、1軸上の基準となる座標値を0としたときの各クラスタの座標値の初期値を、設定する。ここでは、各クラスタを単純に等間隔に配置したときの座標値を初期値として設定する。
次に、画面配置決定部16は、図12(A)に示すクラスタ間の距離と、図12(C)に示す初期値とを用いて、図12(D)に示すフローチャートで示されたばねモデル手法に基づく処理を実行する。ここでは、各クラスタがバネによりつながっているものと仮定してモデル化し、クラスタの移動を繰り返すことで、クラスタ間の1次元上の距離と履歴クラスタ間距離算出部15で算出されたクラスタ間の距離との誤差の二乗和(以下、二乗誤差総和という)が最小値となるクラスタの座標値を求め、これを最終的な1次元配置として決定する。従って、ステップ500〜ステップ504の処理は、最終的な1次元配置が得られるまで繰り返される。
まず、ステップ500において、画面配置決定部16は、下記式(2)を用いて、二乗誤差総和を算出する。
二乗誤差総和=Σ(1次元配置での距離−履歴クラスタ間距離算出部15で算出されたクラスタ間の距離)2・・・(2)
なお、「1次元配置での距離」は、最新の1次元配置におけるクラスタ間の距離を示す。初回の二乗誤差総和の算出で用いられる「1次元配置での距離」は、初期配置での距離とされる。従って、本例において、初回の二乗誤差総和は、以下のように計算される。
(a)クラスタ1とクラスタ2との距離の誤差の二乗=(0.6−0.5)2=0.01
(b)クラスタ2とクラスタ3との距離の誤差の二乗=(0.5−0.5)2=0
(c)クラスタ3とクラスタ1との距離の誤差の二乗=(0.2−0.5)2=0.09
従って、初回に算出される二乗誤差総和は、(a)+(b)+(c)=0.01+0+0.09=0.1となる。
ステップ502において、画面配置決定部16は、今回の二乗誤差総和の計算値(今回計算値と、前回の二乗誤差総和の計算値(前回計算値)とを比較する。また、画面配置決定部16は、今回計算値と初回の二乗誤差総和の計算値(初回計算値)とを比較する。
ステップ502において、今回計算値<前回計算値、且つ今回計算値<初回計算値を満たす(初回の場合には、今回計算値<初回計算値のみを満たす)場合には、ステップ504に進む。なお、初回の二乗誤差総和が計算された直後の比較においては、前回計算値は存在せず、また今回計算値=初回計算値であるため、ステップ502の比較は行なわずにステップ504に進む。
ステップ504において、画面配置決定部16は、下記式(3)を用いて、各クラスタの移動方向及び距離を決定する。
クラスタの移動方向及び距離=x{Σ(1次元配置での距離の誤差・相手クラスタの座標)}・・・(3)
ここで、xは予め定められた定数である。「1次元配置での距離の誤差」とは、最新の1次元配置でのクラスタ間の距離と、履歴クラスタ間距離算出部15で算出されたクラスタ間の距離との誤差をいう。相手クラスタの座標とは、例えば、クラスタ1を移動させる場合には、クラスタ1以外の他のクラスタ(ここではクラスタ2、クラスタ3)の、クラスタ1から見た座標(相対座標)をいう。例えば、クラスタ1についての移動方向及び距離を計算する場合、クラスタの組み合わせは、クラスタ2との組み合わせと、クラスタ3との組み合わせの2組があるため、組み合わせ毎に「1次元配置での距離の誤差・相手クラスタの座標」を計算し、各計算値の総和にxを乗算してクラスタ1についての移動方法及び移動距離を求める。この計算をクラスタ2、クラスタ3についても行なって、全クラスタの移動方向及び距離を計算する。なお、上記式(3)で得られた値が+のときには上方向に移動させ、−のときには下方向に座標位置を移動するものとする。また、式(3)で得られた値の絶対値が移動距離である。
次に、画面配置決定部16は、ステップ500に戻り、上記式(3)に基づいて算出された移動方向及び移動距離に従って各クラスタを移動したときの「1次元配置での距離」と、履歴クラスタ間距離算出部15で算出されたクラスタ間の距離とを用いて、上記式(2)により二乗誤差総和を再計算する。以降、上記と同様に各処理を繰り返す。
画面配置決定部16は、ステップ502において、今回計算値<前回計算値、且つ今回計算値<初回計算値を満たすと判断した場合には、本処理ルーチンを終了し、図12(E)に示すように、1つ前のサイクルで計算された1次元配置の計算結果(以下、クラスタ配置情報データという)を、最終的な1次元配置として決定する(図12(F)参照)。
なお、ここでは、ばねモデル手法を用いてクラスタの1次元配置を決定する場合について説明したが、これに限定されず、例えば多次元尺度法等、グラフデータを1次元に縮約できる手法であればどのような手法を用いてもよい。
以下、画面配置決定部16により決定されたクラスタの1次元上の配置を示すデータをクラスタ配置情報データと呼称する。
クラスタの1次元配置が決定すると、要約可視化装置10において、図6に示す表示画像生成処理ルーチンが実行される。
ステップ400において、表示画像生成部17は、クラスタ間の内容の近さ(類似度)を縦軸にとり、閲覧ページ毎の閲覧日時を横軸にとった座標を各閲覧ページの配置座標として表示画像を生成する。まず、表示画像生成部17は、履歴クラスタリング処理部13の処理結果であるクラスタリング処理後閲覧履歴データに基づいて、各クラスタの横軸の配置を決定する。具体的には、同一クラスタに属する複数の閲覧ページの閲覧日時のうち、最も古い閲覧日時に対応する横軸の座標値を当該クラスタに対する閲覧開始位置とし、最も新しい閲覧日時に対応する横軸の座標値を当該クラスタに対応する閲覧終了位置として決定する(図10参照)。
また、表示画像生成部17は、画面配置決定部16の処理結果であるクラスタ配置情報データに基づき、決定されたクラスタの1次元上の配置に従って、各クラスタの縦軸における配置を決定する。
表示画像生成部17は、複数のクラスタについて、上記決定した当該クラスタの配置に基づき、当該クラスタに属する各閲覧ページのサムネイル画像(縮小画像)を配置した表示画像を生成する。具体的には、同一のクラスタに属する閲覧ページのサムネイル画像(縮小画像)を縦軸の同じ座標(各クラスタの縦軸における配置に基づいて決定される縦軸の座標)に配置する。また、各閲覧ページのサムネイル画像を、横軸における各閲覧ページの閲覧日時に対応する座標に配置する。更にまた、同一のクラスタに属する閲覧ページをグルーピングするための画像(グルーピング画像)を、上記決定した閲覧開始位置から閲覧終了位置までの領域に配置する。なお、グルーピング画像は、例えば、閲覧開始位置から閲覧終了位置までの領域に延びる帯状画像、或いは当該領域に配置された閲覧ページのサムネイル画像を囲む枠画像等とすることができる。更に又、グルーピング画像の近傍に、クラスタの代表語(複数の代表語が抽出された場合には、何れか1つの代表語)を示す文字画像を配置する。
なお、クラスタの代表語を示す文字画像をグルーピング画像の近傍に配置する代わりに、各グルーピング画像の色を異ならせるか或いは番号を付与する等により各グルーピング画像を識別可能に表示させ、グルーピング画像の色や番号とクラスタ代表語とを対応させて説明する凡例の画像を表示画像に含めて生成してもよい。また、ここでは、閲覧ページのサムネイル画像を配置する例について説明したが、配置する画像は、閲覧ページを識別可能な画像であればよく、例えば、閲覧ページに対応する図形画像を配置するようにしてもよい。
ステップ402において、表示画像生成部17は、上記生成した表示画像の画像データをユーザ端末1或いはウェブサーバ群3のサーバ3aに出力(送信)する。画像データを受信したユーザ端末1或いはサーバ3aは、受信した画像データに基づいて表示画像を表示することができる。なお、表示画像の画像データは、ステップ100で取得した要約条件を入力したユーザ端末1或いはサーバ3aに送信するようにしてもよいし、他の装置に送信するようにしてもよい。
図13に、表示画像の一例を示す。図13に示す帯状画像(グルーピング画像)が、履歴クラスタリング処理部13により分類されたクラスタの何れかに対応する。すなわち、ここでは、興味分野が同一と推定される閲覧ページがまとまって1つの帯状画像として表示される。各帯状画像の近傍には、クラスタ代表語の文字画像(図13では、興味1、興味2・・・という文字画像で表わされている)が配置されている。帯状画像は、帯状画像に対応するクラスタに属する最初の閲覧ページの閲覧日時に対応する位置から、最後の閲覧ページの閲覧日時に対応する位置までの領域に配置されている。また、帯状画像上には、同一のクラスタに属する複数の閲覧ページのサムネイル画像が、各閲覧ページの閲覧日時に応じた位置に配置されている。
また、図14に、表示画像の他の例を示す。ここでは、電子商取引サイト(特に、衣服関係の商取引)のウェブページがユーザにより閲覧された場合の表示画像を例に挙げた。この表示画像には、6つのクラスタに対応する帯状画像がグルーピング画像として表示されている。各帯状画像は色分けされていてもよい。図13と同様に、縦軸における配置間隔が各クラスタ間の内容の近さを示しており、横軸が閲覧時期を示す。ここでは、実際にユーザがサイトにアクセスしてウェブページを閲覧した第1期間と、ウェブページが閲覧されなかった第2期間とに分け、第1期間に帯状画像を配置するようにしている。そして、2つの第1期間に挟まれた第2期間に対応する領域には、当該2つの第1期間に配置された帯状画像を接続する細線画像を配置することで、同一クラスタの閲覧履歴が一見して把握できるように構成されている。
各帯状画像には、各帯状画像に対応するクラスタに属する閲覧ページに対応する図形画像(○や□等)を、閲覧日時に対応する位置に重畳して配置し、各閲覧ページのサムネイル画像を画面下部に配置した。図形画像とサムネイル画像とは対応がとれるように表示されている。クラスタと閲覧ページのサムネイルの対応関係の一例を、(1)〜(5)の数値で示した。
なお、図13、及び図14に示す表示画像は一例であって、クラスタ間の内容の近さを縦軸にとり、閲覧ページ毎の閲覧日時を横軸にとった座標に、各クラスタに属する複数の閲覧ページの縮小画像又は閲覧ページに対応する図形画像を配置した表示画像であればよく、上記例示した表示画像に限定されない。
以上説明したように、上記実施の形態では、クラスタ間の内容の近さを縦軸にとり、閲覧ページ毎の閲覧日時を横軸にとった座標に、各クラスタに属する複数の閲覧ページの縮小画像又は閲覧ページに対応する図形画像を配置した表示画像を生成するようにしたため、従来の技術に比べて過去の閲覧行動の変遷を直感的に把握できる。また、閲覧した本人だけでなく、第三者が見ても、閲覧行動の興味の変遷を容易且つ直感的に把握できる。
なお、要約可視化装置を、ウェブページの閲覧状態の把握のために用いる例について説明したが、これに限定されるものではなく、例えば、学習の振り返り支援のために用いるようにしてもよい。具体的には、論文の閲覧履歴に基づいてクラスタリングし、上記説明したように表示画像を生成することで、どのような技術分野の論文を閲覧してきたのかを一見して把握することができる。
また、要約可視化装置10を、組織の研究開発経緯の可視化に用いるようにしてもよい。例えば、特許閲覧・出願履歴を要約して、上記説明したように表示画像を生成することで、閲覧した技術分野がどのような変遷を経ているかを容易に把握することができる。
また、上述の要約可視化装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 ユーザ端末
1a 閲覧履歴取得部
2 通信網
3 ウェブサーバ群
4 閲覧履歴保存装置
10 要約可視化装置
11 要約条件入力部
12 閲覧履歴取得部
13 履歴クラスタリング処理部
14 表示用付加情報生成部
15 履歴クラスタ間距離算出部
16 画面配置決定部
17 表示画像生成部

Claims (3)

  1. ユーザ端末にてユーザが閲覧した文書の閲覧履歴を取得する取得手段と、
    前記取得手段により取得された閲覧履歴に基づいて、前記ユーザにより閲覧された複数の文書について文書間の類似度を算出する第1算出手段と、
    前記第1算出手段により算出された類似度に基づいて、前記閲覧された複数の文書を、複数のグループに分類する分類手段と、
    前記分類手段により分類された各グループに属する文書に基づいて、前記分類されたグループ間の内容の近さを示す値を算出する第2算出手段と、
    前記第2算出手段により算出された値に基づいて、グループ間の内容の近さに応じたグループ間の距離と、グループ間の内容の近さに応じた1次元上の各グループの配置におけるグループ間の距離との誤差が最も小さくなるように、1次元上の各グループの配置を決定する配置決定手段と、
    前記配置決定手段によって決定された1次元上の各グループの配置を縦軸にとり、前記取得手段により取得された閲覧履歴から得られる、前記閲覧された複数の文書毎の閲覧日時を横軸にとった座標を前記文書の配置座標として、前記分類されたグループ毎に、前記グループに属する、前記ユーザにより閲覧された複数の文書の縮小画像又は前記ユーザにより閲覧された複数の文書に対応する図形画像を配置した表示画像を、前記閲覧履歴の要約情報として生成する生成手段と、
    を備えた要約可視化装置。
  2. 取得手段と、第1算出手段と、分類手段と、第2算出手段と、配置決定手段と、生成手段とを含む要約可視化装置における要約可視化方法であって、
    前記取得手段は、ユーザ端末にてユーザが閲覧した文書の閲覧履歴を取得し、
    前記第1算出手段は、前記取得手段により取得された閲覧履歴に基づいて、前記ユーザにより閲覧された複数の文書について文書間の類似度を算出し、
    前記分類手段は、前記第1算出手段により算出された類似度に基づいて、前記閲覧された複数の文書を、複数のグループに分類し、
    前記第2算出手段は、前記分類手段により分類された各グループに属する文書に基づいて、前記分類されたグループ間の内容の近さを示す値を算出し、
    前記配置決定手段は、前記第2算出手段により算出された値に基づいて、グループ間の内容の近さに応じたグループ間の距離と、グループ間の内容の近さに応じた1次元上の各グループの配置におけるグループ間の距離との誤差が最も小さくなるように、1次元上の各グループの配置を決定し、
    前記生成手段は、前記配置決定手段によって決定された1次元上の各グループの配置を縦軸にとり、前記取得手段により取得された閲覧履歴から得られる、前記閲覧された複数の文書毎の閲覧日時を横軸にとった座標を前記文書の配置座標として、前記分類されたグループ毎に、前記グループに属する、前記ユーザにより閲覧された複数の文書の縮小画像又は前記ユーザにより閲覧された複数の文書に対応する図形画像を配置した表示画像を、前記閲覧履歴の要約情報として生成する
    要約可視化方法。
  3. コンピュータを、
    ユーザ端末にてユーザが閲覧した文書の閲覧履歴を取得する取得手段、
    前記取得手段により取得された閲覧履歴に基づいて、前記ユーザにより閲覧された複数の文書について文書間の類似度を算出する第1算出手段、
    前記第1算出手段により算出された類似度に基づいて、前記閲覧された複数の文書を、複数のグループに分類する分類手段、
    前記分類手段により分類された各グループに属する文書に基づいて、前記分類されたグループ間の内容の近さを示す値を算出する第2算出手段、
    前記第2算出手段により算出された値に基づいて、グループ間の内容の近さに応じたグループ間の距離と、グループ間の内容の近さに応じた1次元上の各グループの配置におけるグループ間の距離との誤差が最も小さくなるように、1次元上の各グループの配置を決定する配置決定手段、及び
    前記配置決定手段によって決定された1次元上の各グループの配置を縦軸にとり、前記取得手段により取得された閲覧履歴から得られる、前記閲覧された複数の文書毎の閲覧日時を横軸にとった座標を前記文書の配置座標として、前記分類されたグループ毎に、前記グループに属する、前記ユーザにより閲覧された複数の文書の縮小画像又は前記ユーザにより閲覧された複数の文書に対応する図形画像を配置した表示画像を、前記閲覧履歴の要約情報として生成する生成手段
    として機能させるための要約可視化プログラム。
JP2012111759A 2012-05-15 2012-05-15 要約可視化装置、方法、及びプログラム Expired - Fee Related JP5768006B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012111759A JP5768006B2 (ja) 2012-05-15 2012-05-15 要約可視化装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012111759A JP5768006B2 (ja) 2012-05-15 2012-05-15 要約可視化装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013239029A JP2013239029A (ja) 2013-11-28
JP5768006B2 true JP5768006B2 (ja) 2015-08-26

Family

ID=49763997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012111759A Expired - Fee Related JP5768006B2 (ja) 2012-05-15 2012-05-15 要約可視化装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5768006B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6401428B1 (ja) * 2017-04-27 2018-10-10 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
CN109325167B (zh) * 2017-07-31 2022-02-18 株式会社理光 特征分析方法、装置、设备、计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5112112B2 (ja) * 2008-03-04 2013-01-09 日本電信電話株式会社 Web閲覧履歴表示装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2011100350A (ja) * 2009-11-06 2011-05-19 Nippon Telegr & Teleph Corp <Ntt> 要約生成装置、要約生成方法および要約生成プログラム

Also Published As

Publication number Publication date
JP2013239029A (ja) 2013-11-28

Similar Documents

Publication Publication Date Title
JP6487201B2 (ja) 推奨ページを生成するための方法及び装置
US8880498B2 (en) System and method for aggregating and ranking data from a plurality of web sites
US7917514B2 (en) Visual and multi-dimensional search
CN105117474B (zh) 在网页的阅读模式中进行推荐信息加载的方法和装置
EP2038775A1 (en) Visual and multi-dimensional search
US9495789B2 (en) Information processing apparatus, information processing method and computer program
JP2017515216A (ja) 行動計量学を使用してコンテンツレイアウトを最適化するためのシステムおよび方法
CN104216881A (zh) 一种个性化标签的推荐方法及装置
WO2008039542A2 (en) System and method of ad-hoc analysis of data
WO2014029173A1 (zh) 一种用于对搜索结果进行排序的方法、装置与设备
US11599571B2 (en) Generic card feature extraction based on card rendering as an image
JP6419969B2 (ja) 画像の提示情報を提供するための方法及び機器
EP2997506A2 (en) Method and system for presenting image information to a user of a client device
US9424338B2 (en) Clustering queries for image search
JP5768006B2 (ja) 要約可視化装置、方法、及びプログラム
JP2008176758A (ja) グループ関係性表示システム、グループ関係性表示方法およびグループ関係性表示プログラム
JP2010224625A (ja) キーワード二次元可視化方法およびキーワード二次元可視化プログラム
US20170124120A1 (en) Information processing system, information processing method, and information processing program
JP2011100350A (ja) 要約生成装置、要約生成方法および要約生成プログラム
JP2014235723A (ja) 情報提示装置、方法、及びプログラム
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN103365858B (zh) 基于一查询序列由多个源设备获取搜索结果的方法与设备
JP6186476B2 (ja) 情報提示装置、方法、及びプログラム
JP7009160B2 (ja) サイト改善装置、サイト改善方法およびサイト改善プログラム
JP6037863B2 (ja) アクセス状況管理装置及びアクセス状況管理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150622

R150 Certificate of patent or registration of utility model

Ref document number: 5768006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees