JP2007052693A - Webページ情報表示装置,処理方法およびプログラム - Google Patents
Webページ情報表示装置,処理方法およびプログラム Download PDFInfo
- Publication number
- JP2007052693A JP2007052693A JP2005238287A JP2005238287A JP2007052693A JP 2007052693 A JP2007052693 A JP 2007052693A JP 2005238287 A JP2005238287 A JP 2005238287A JP 2005238287 A JP2005238287 A JP 2005238287A JP 2007052693 A JP2007052693 A JP 2007052693A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- information
- page information
- impression
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 Webページを,ユーザの興味と印象に応じて優先的に表示させる。
【解決手段】 興味情報生成部14は,プロファイル情報(102)をもとに,ユーザが閲覧したページに所定の閾値以上で出現する単語を興味語として抽出する。印象情報生成部15は,印象辞書(103)を用いて,Webページ情報取得部12が取得した記事ページ(101)に出現する単語からページの印象ベクトルを生成する。Webページ情報選出部16は,前記興味語とページの印象情報をもとに,表示するべき記事ページを選出する。Webページ情報表示処理部17は,ユーザが指定したWebページを解析してページ構成情報を取得する。解析したWebページのレイアウトを利用して,元のカテゴリを興味語によるカテゴリに置換し,興味語のカテゴリごとに,選出した記事ページのタイトルやリンク情報を表示する。
【選択図】 図1
【解決手段】 興味情報生成部14は,プロファイル情報(102)をもとに,ユーザが閲覧したページに所定の閾値以上で出現する単語を興味語として抽出する。印象情報生成部15は,印象辞書(103)を用いて,Webページ情報取得部12が取得した記事ページ(101)に出現する単語からページの印象ベクトルを生成する。Webページ情報選出部16は,前記興味語とページの印象情報をもとに,表示するべき記事ページを選出する。Webページ情報表示処理部17は,ユーザが指定したWebページを解析してページ構成情報を取得する。解析したWebページのレイアウトを利用して,元のカテゴリを興味語によるカテゴリに置換し,興味語のカテゴリごとに,選出した記事ページのタイトルやリンク情報を表示する。
【選択図】 図1
Description
本発明は,Webページの表示処理技術に関し,より詳しくは,複数のWebサイトから収集された複数のWebページ情報から,ユーザの興味や印象に応じて分類・選出した情報を,ユーザが好むレイアウトによって表示処理するWebページ情報表示装置,Webページ情報表示処理方法,およびWebページ情報表示プログラムに関する。
複数のWebサイトに存在している同一のテーマのWebページを,テーマごとにまとめて提示するシステムが数多く提案されている。例えば,ニュース記事が表示対象である場合に,大量の記事をどのように分類するかが重要である。そして,(1)収集したすべての記事から出現頻度の高い単語を抽出して利用する,(2)ユーザが閲覧した記事から出現頻度の高い単語を抽出して利用する,(3)収集した記事のリンク構造を解析して利用するなど,単語(キーワード)に着目したさまざまなWebページ提示方式が提案されている。
上記の技術の具体的な例として,下記の非特許文献1に記載された技術がある。
Kathleen R. McKeown et al, "Tracking and Summarizing News on a Daily Basis with Columbia's Newsblaster", In Proceedings of the Human Language Technology Conference, 2002, USA
Kathleen R. McKeown et al, "Tracking and Summarizing News on a Daily Basis with Columbia's Newsblaster", In Proceedings of the Human Language Technology Conference, 2002, USA
しかし,従来のWebページ提示方式では,収集した情報をシステムの仕様にもとづいて分類,表示する。そのため,ユーザは,そのシステムの分類体系やページ構成にすぐに順応することができず,所望する情報を速やかに獲得することが困難であった。
そこで,発明者らは,複数のサイトから収集した大量のWebページ情報をユーザが持っている興味を示す語(以下,興味語という)の有無にもとづいて分類し,ユーザが使い慣れているページ構成に写像して提示する新規なシステムを提供した(特願2004−168259参照)。
このシステムは,ユーザのWebページ情報の閲覧履歴をもとに単語の出現頻度にもとづいて特定した興味語を保存し,収集された記事を興味語の有無を判断基準として分類する。このとき,新しく生成するカテゴリ名に興味語そのものを使用することによって,各カテゴリに含まれる記事の内容を判別しやすくしている。
また,このシステムは,ユーザが普段利用して使い慣れているWebページのレイアウトを利用して各カテゴリのWebページ情報を再配置して表示することによって,ユーザが読みたい情報がどこにあるのかを効率的に探し出すことができる。
しかし,興味語の有無という分類基準だけでWebページ情報を分類・選出して提示すると,ユーザが好む情報と好まない情報とをうまく分離できないことがあった。例えば,ニュースサイトから「阪神」という興味語のキーワードで収集される記事ページには,「阪神,首位をキープ」という好ましいものだけでなく,「阪神,初の完封負け」という好ましくないものも混在して提示される。
ユーザが「阪神」についての楽しい記事だけを閲覧したい場合など,ユーザが情報を選出する場合にどのような情報を好んで選出するかという一定の傾向をユーザの選好として定義し,ユーザの選好にもとづいて分類・選出したWebページ情報を表示する処理において,ユーザの選好をより高精度に決定し,ユーザが共感できるWebページ情報を優先的に提示できる仕組みが求められる。
また,興味語の有無という分類基準によってWebページ情報を分類すると,一つのWebページ情報が複数のカテゴリに分類されうるため,分類されたWebページ情報の構成にほとんど差異のないカテゴリが複数作成されるという問題があった。
本発明の目的は,複数のWebサイトから収集された複数のWebページ情報を表示する場合に,ユーザが感情移入しやすい情報を優先的に提示するために,ユーザの選好を興味と印象とを用いて定義し,ユーザの興味と印象にもとづいて分類・選出したWebページ情報をユーザが指定したページレイアウトを利用して表示するWebページ情報表示装置,表示処理方法,および表示プログラムを提供することである。
また,本発明の目的は,Webページ情報を分類する場合に,分類されている情報の多くが重複している無駄なカテゴリの生成を抑制して,ユーザが閲覧しやすいカテゴリによって情報を提示することができるWebページ情報表示装置,表示処理方法,および表示プログラムを提供することである。
本発明は,複数のWebサイトから収集されたWebページ情報をユーザの選好にもとづいて分類・選出する場合に,分類基準として,ユーザが持っている興味および情報に対する印象を導入し,興味と印象の両面からユーザの選好をモデル化する手法を提供するものである。そして,この手法を,複数のWebページ情報を融合して表示する処理に適用して,ユーザの興味と印象を用いてWebページ情報を分類・選出し,ユーザが指定したレイアウトを利用して表示する。
また,本発明は,興味による分類の結果,カテゴリ同士が所定の割合以上で重複するWebページ情報を含む場合に,カテゴリ同士を統合して表示する。
より詳しくは,本発明は,Webサイトから収集されたWebページ情報を融合し,ユーザの指定したWebページのレイアウトを使用して融合したWebページ情報を表示するWebページ情報表示装置において,1)複数のWebサイトから収集されたWebページ情報を格納するWebページ情報記憶手段と,2)ユーザのWebページ情報の閲覧履歴情報を含むプロファイル情報を格納するプロファイル情報記憶手段と,3)プロファイル情報をもとに,ユーザが過去に閲覧したWebページ情報に出現する単語から,ユーザが興味を持っている単語として所定の閾値以上の重みを持つものを興味語として抽出する興味語特定手段と,4)単語ごとに,所定の印象尺度における印象の度合いを定義した印象辞書を記憶する印象辞書記憶手段と,5)印象辞書を用いて,Webページ情報記憶手段に格納されたWebページ情報に出現する単語からWebページ情報の印象情報を生成する印象情報生成手段と,6)Webページ情報記憶手段に格納されたWebページ情報を興味語と当該興味語と共に出現する単語および印象情報をもとに選出する情報選出手段と,7)ユーザによって指定されたWebページのレイアウトに設定されたカテゴリを興味語によるカテゴリに置換し,レイアウトを利用して,選出したWebページ情報を表示するWebページ情報表示処理手段とを備える。
本発明にかかるWebページ情報表示装置では,複数のWebサイトから収集されたWebページ情報をWebページ情報記憶手段に格納しておく。また,ユーザのWebページ情報の閲覧履歴情報を含むプロファイル情報をプロファイル情報記憶手段に格納しておく。プロファイル情報は,ユーザごとに,Webページ情報の閲覧履歴,閲覧したWebページ情報で特定される興味語,Webページ情報に対する印象情報などを含むものである。また,単語ごとに所定の印象尺度における印象の度合いを定義した印象辞書を印象辞書記憶手段に格納しておく。
興味語特定手段は,プロファイル情報のユーザの閲覧履歴情報をもとに,ユーザが過去に閲覧したWebページ情報に出現する単語から,ユーザが興味を持っている単語として所定の閾値以上の重みを持つものを興味語として抽出する。
また,印象情報生成手段は,印象辞書を用いて,Webページ情報記憶手段に格納されたWebページ情報に出現する単語から,各Webページ情報の印象情報を生成する。
そして,情報選出手段は,Webページ情報記憶手段に格納されたWebページ情報を,興味語と当該興味語と共に出現する単語および印象情報をもとに選出する。具体的には,情報選出手段は,Webページ情報に出現している興味語をもとに表示処理時のカテゴリを決定し,Webページ情報について,興味語と共に出現する単語との関連度を示す興味情報と印象情報とをもとに,表示するWebページ情報を選出する。
Webページ情報表示処理手段は,予めユーザによって指定されたWebページのレイアウト,例えばポータルサイトのページのレイアウトを利用して,レイアウトに設定されたカテゴリを興味語によって決定したカテゴリに置換し,前記カテゴリを置換したレイアウトを利用して,選出したWebページ情報を表示する。置換したカテゴリの名称として興味語をそのまま使用する。
さらに,本発明は,前記カテゴリに分類されたWebページ情報の重複度を算出し,前記重複度が所定の値以上のカテゴリ同士を一つのカテゴリに統合するカテゴリ統合手段を備える。
そして,カテゴリ統合手段は,あるカテゴリ間で,選出されたWebページ情報が所定の割合以上で重複している場合には,それらのカテゴリを一つのカテゴリに統合する。このカテゴリの名称として,統合されたカテゴリの興味語を連ねて使用する。
また,本発明は,ユーザが閲覧したWebページ情報に関する情報をプロファイル情報に追加して前記プロファイル情報記憶手段に格納するプロファイル情報更新処理手段を備える。
そして,前記プロファイル情報は,前記閲覧履歴情報にもとづく興味語およびその重みを含むものであってもよい。
さらに,前記プロファイル情報は,前記閲覧履歴情報にもとづく興味語およびその重み,ユーザの閲覧Webページ情報に対する印象情報を含むものであってもよい。
本発明によれば,ユーザの選好としてユーザの興味と印象を利用し,複数のWebサイトから収集された複数のWebページ情報を興味や印象にもとづいて選出し,興味によるカテゴリごとに,ユーザの興味と印象にあう情報から順に表示される。よって,ユーザは,感情移入しやすい情報を優先的に見つけて閲覧することができる。
また,本発明によれば,ユーザの興味による分類によって,多くのカテゴリが同じような情報で構成されてしまう状態の場合に,情報の重複度が高いカテゴリを一つに統合する。よって,無駄なカテゴリの生成が抑制され,ユーザは,適切なカテゴリによる表示によって,より見やすく構成されたページを閲覧することができる。
以下,本発明を実施するための最良の形態を図を用いて説明する。
図1に,本発明のWebページ情報表示装置1の構成例を示す。
Webページ情報表示装置1は,ユーザ端末2から送信されたWebページ情報の表示要求を受信して,複数のWebページ提供サーバ3から複数のWebページ情報を取得し,取得したWebページ情報をユーザの興味や印象に応じて分類・選出し,ユーザが指定したWebページのページレイアウトを利用して,分類・選出したWebページ情報をユーザ端末2へ表示させる処理装置である。
本実施の形態において,Webページ提供サーバ3は,ニュース情報を提供するサイトのサーバであり,Webページ情報は,ニュース記事を内容とするHTMLドキュメントであるとする。
Webページ情報表示装置1は,Webページ表示要求受信部11,Webページ情報取得部12,単語抽出部13,興味情報生成部14,印象情報生成部15,Webページ情報選出部16,Webページ情報表示処理部17,カテゴリ統合部18,プロファイル情報更新部19,Webページ情報記憶部101,プロファイル情報記憶部102,印象辞書記憶部103,および指定レイアウト情報記憶部104を備える。
Webページ情報記憶部101は,Webページ提供サーバ3から収集されたWebページ情報(以下,記事ページという)を記憶する手段である。
プロファイル情報記憶部102は,各ユーザのプロファイル情報を記憶する手段である。
プロファイル情報は,ユーザの記事ページの閲覧履歴として,興味語およびその重要度(重み),各興味語に対応する平均印象ベクトルなどを含む情報である。
興味語は,ユーザが閲覧した記事ページに出現する単語であって所定の閾値以上の重要度を持つ単語として特定されたものである。記事ページに出現する,一般名詞,固有名詞が興味語の候補となる。
興味語に対応する平均印象ベクトルは,ユーザが閲覧した記事ページであって,ある興味語に分類された記事ページのそれぞれから求められる印象ベクトルを平均したものである。
印象ベクトルとは,記事ページに対する所定の印象尺度により算出した印象の傾向を示す情報である。具体的には,予め用意された印象辞書を参照し,記事ページに出現するサ変名詞,動詞,形容詞などをもとに,各印象尺度について算出された尺度値である。
本例では,印象尺度として,尺度1「明るい−暗い」,尺度2「承認−拒否」,尺度3「緩和−緊張」,および尺度4「怒り−恐れ」の4つの尺度を用いる。各尺度の尺度値は,0から1までの実数値をとる。
印象辞書記憶部103は,単語ごとに,所定の印象尺度における尺度値および重要度(重み)を定義した印象辞書を記憶する手段である。印象辞書にエントリされた単語を印象語とする。
図2は,印象辞書の例を示す図である。印象辞書には,印象語ごとに4つの印象尺度(尺度1〜4)における尺度値と重要度(重み)が定義されている。図2において,見出し語は,印象辞書にエントリされた印象語を示し,各見出し語の上段の数値は尺度値,下段の数値は重みを示す。
指定レイアウト情報記憶部104は,ユーザ端末2から記事ページの表示要求と共に送信された,複数の記事ページを融合して表示する際に利用するレイアウト情報のベースとなるWebページを取得するための格納場所情報(URL),この格納場所情報をもとに取得したWebページのHTMLデータ,このHTMLデータから解析処理されたページ構成情報を記憶する手段である。
Webページ表示要求受信部11は,ユーザ端末2から送信された記事ページの表示要求を受信する処理手段である。記事ページの表示要求と共に,ユーザによって指定されたWebページの格納場所情報(URL)を受信し,指定レイアウト情報記憶部104に格納する。
Webページ情報取得部12は,複数のWebページ提供サーバ3から,所定の範囲にもとづいて,複数の記事ページを取得しWebページ情報記憶部101に格納する処理手段である。
単語抽出部13は,形態素解析処理によって,Webページ情報記憶部101に格納された記事ページから単語を抽出する処理手段である。形態素解析処理は,既知の処理手法であればどのような処理手法を用いてもよい。形態素解析処理によって,記事ページから,一般名詞,固有名詞,サ変名詞,動詞,形容詞などの単語が抽出される。
興味情報生成部14は,プロファイル情報記憶部102に格納されたプロファイル情報をもとに,Webページ情報記憶部101の記事ページに出現する単語(一般名詞,固有名詞)のうち所定値以上の重みを持つものを興味語として抽出する処理手段である。
また,興味情報生成部14は,Webページ情報記憶部101の記事ページに出現する興味語と他の単語との共起関係から,その記事ページの興味語の優先度を算出する。
印象情報生成部15は,印象辞書記憶部103の印象情報を参照し,Webページ情報記憶部101の記事ページに出現する単語(サ変名詞,形容詞,動詞など)を用いて,その記事ページの印象ベクトルを生成する処理手段である。
Webページ情報選出部16は,プロファイル情報記憶部102のプロファイル情報,興味情報生成部14によって特定された興味語,印象情報生成部15によって算出された印象ベクトルとをもとに,Webページ情報記憶部101の記事ページを興味語によるカテゴリで分類し,興味語のカテゴリごとに表示するべき記事ページを選出する処理手段である。
Webページ情報表示処理部17は,指定レイアウト情報記憶部104に格納されたURLを用いて取得したWebページのHTMLデータを解析してページ構成情報を抽出し,抽出したページ構成情報を利用して生成したレイアウトを利用して,Webページ情報選出部16によって決定されたカテゴリごとに選出された記事ページまたは記事ページのタイトルを表示する記事見出しの提示ページを生成する処理手段である。
カテゴリ統合部18は,元のページ構成情報に設定されたカテゴリと置換する興味語のカテゴリ同士について,カテゴリを構成する記事ページの重複度を算出し,重複度が所定の値以上の場合に,興味語のカテゴリ同士を統合して一つのカテゴリを生成する処理手段である。
プロファイル情報更新部19は,プロファイル情報の興味語およびその重み,各興味語に対応する平均印象ベクトルを,ユーザが閲覧した記事ページを用いて再計算し,その結果をプロファイル情報記憶部102に格納する処理手段である。
次に,Webページ情報表示装置1の処理をさらに詳細に説明する。
Webページ情報表示装置1は,ユーザ端末2から記事ページの表示要求を受信すると,Webページ情報取得部12によって,所定のWebページ提供サーバ3から記事ページを収集する。また,ユーザによって指定されたURLを,指定レイアウト情報記憶部104へ格納する。
そして,単語抽出部13は,取得した記事ページから単語を抽出する。図3に,興味語抽出処理の処理フローを示す。
単語抽出部13は,Webページ情報記憶部101の記事ページP1〜Pnのメタデータ(記事のタイトルや概要などが記述された部分)を取得し,取得したメタデータを形態素解析処理して単語を抽出する(ステップS10)。
興味情報生成部14は,記事ページPi(i=1〜n)に出現する単語jの重みwijを,tf・idf(Term−Frequency・inverse DocumentFrequency)で定義し,以下の式を用いて算出する(ステップS11)。
wij=
log(記事Pi中の単語jの出現頻度+1)/log(記事Pi中の総単語種数)×
log(記事Pの総数n)/(単語jが出現する記事Pの総数)
さらに,プロファイル情報記憶部102からユーザのID情報によって抽出したプロファイル情報をもとに,ユーザの閲覧履歴における興味語の重み,すなわちユーザがm個のページを閲覧したときのページ全体における単語jの重みWj=Σm i=1・wijを算出し(ステップS12),重みWjが所定の閾値以上となる単語jを興味語として抽出する。(ステップS13)。
log(記事Pi中の単語jの出現頻度+1)/log(記事Pi中の総単語種数)×
log(記事Pの総数n)/(単語jが出現する記事Pの総数)
さらに,プロファイル情報記憶部102からユーザのID情報によって抽出したプロファイル情報をもとに,ユーザの閲覧履歴における興味語の重み,すなわちユーザがm個のページを閲覧したときのページ全体における単語jの重みWj=Σm i=1・wijを算出し(ステップS12),重みWjが所定の閾値以上となる単語jを興味語として抽出する。(ステップS13)。
また,印象情報生成部15は,取得した記事ページの印象ベクトルを生成する。図4に,印象ベクトルの生成処理の処理フローを示す。
印象情報生成部15は,単語抽出部13の形態素解析処理によって取得された記事ページPiに出現する単語のうちサ変名詞,形容詞,動詞などの単語jを抽出する(ステップS20)。そして,印象辞書を参照して,単語jの印象尺度eの尺度値Sjeおよび重みMjeを取得する(ステップS21)。さらに,記事ページPiの印象尺度e(eは,1〜4の実数値)における尺度値Oieを以下の式で算出する(ステップS22)。
式(1)において,|2Sje−1|は,Sjeの値に依存する傾斜配分であって,印象尺度と関係のない一般的な単語(尺度値が0.5に近い値をとる単語)が式(1)の値Oieの平均操作に及ぼす悪影響を軽減するために導入している。
そして,記事ページPiの印象ベクトルvi=(Oi1,Oi2,Oi3,Oi4)と定義し,生成する(ステップS23)。
ここで,印象尺度は,印象辞書の尺度に合わせて,尺度1「明るい−暗い」,尺度2「承認−拒否」,尺度3「緩和−緊張」,および尺度4「怒り−恐れ」の4つを用いる。尺度値は,各尺度において,印象語である単語jが2つの印象語群のどちらとより共起しやすいかを定式化して算出している。
例えば,尺度1「明るい−暗い」の尺度値の算出には,「明るい,うれしい,楽しい」などの印象語群と「暗い,悲しい,苦しい」などの印象語群が使用される。また,尺度2「承認−拒否」では,「承認(する),愛好(する),好きだ」などの印象語群と「拒否(する),嫌悪(する),嫌いだ」などの印象語群が,尺度3「緩和−緊張」では,「ゆったり(する),のんびり(する),ゆっくり(する)」などの印象語群と「緊張(する),緊急(だ)」などの印象語群が,尺度4「怒り−恐れ」では,「怒る,怒号」などの印象語群と「恐れる,怖い,恐怖」などの印象語群が使用される。
このような印象語群との共起のしやすさを,印象の強さあるいは程度ととらえて,印象尺度の前出側の印象語群と共起しやすい場合に,Oie値は1に近い値をとり,後出側の印象語群と共起しやすい場合に,Oie値は0に近い値をとるようにした。
次に,Webページ情報選出部16は,興味語と印象ベクトルにもとづいて記事ページを選出する。図5に,記事ページ選出処理の処理フローを示す。
Webページ情報選出部16は,Webページ情報記憶部101の記事ページについて,興味情報生成部14で特定した興味語jと共に出現する単語kを抽出し,興味語jと単語kの共起度Cjkをすべての記事ページを対象に算出する(ステップS30)。
Cjk=
(興味語jと単語kの共起頻度+1)/(興味語jの出現頻度+単語kの出現頻度)
そして,プロファイル情報をもとに,ユーザが閲覧したm個の記事ページから興味語jを含む記事ページを選出する(ステップS31)。さらに,Webページ情報記憶部101の記事ページのうち,興味語jに分類された記事ページPiの各単語の共起度と全記事ページの共起度のコサイン距離dを算出し,コサイン距離dが所定の閾値以上である記事ページを選択する(ステップS32)。
(興味語jと単語kの共起頻度+1)/(興味語jの出現頻度+単語kの出現頻度)
そして,プロファイル情報をもとに,ユーザが閲覧したm個の記事ページから興味語jを含む記事ページを選出する(ステップS31)。さらに,Webページ情報記憶部101の記事ページのうち,興味語jに分類された記事ページPiの各単語の共起度と全記事ページの共起度のコサイン距離dを算出し,コサイン距離dが所定の閾値以上である記事ページを選択する(ステップS32)。
記事ページPiの印象ベクトルvi=(vi1,vi2,vi3,vi4)と,プロファイル情報の興味語jに対する平均印象ベクトルμj=(μj1,μj2,μj3,μj4)とのコサイン距離Diを算出する(ステップS33)。
ただし,平均印象ベクトルの尺度値eにおいて,「標準偏差σje≧所定の閾値」である場合には,平均値μjeは,“don’t care 項”として計算から除外する。なお,プロファイル情報の平均印象ベクトルμjの算出処理は後述する。
そして,距離Diが大きい順に記事ページPiを表示対象とする(ステップS34)。
次に,カテゴリ統合部18は,必要なカテゴリの統合処理を行う。図6に,興味語によるカテゴリの統合処理の処理フローを示す。
カテゴリ統合部18は,興味語jにもとづくカテゴリjの記事ページの集合Iとカテゴリkの記事ページの集合Kの積集合I∩Kと和集合I∪Kとを求め,それぞれの要素の数|I∩K|,|I∪K|を算出する(ステップS40)。
そして,L=|I∩K|/|I∪K|が所定の閾値より大きい場合に,カテゴリiとカテゴリkとを統合し,新たなカテゴリtを作成する(ステップS41)。
次に,Webページ情報表示処理部17は,記事ページの表示処理を行う。
Webページ情報表示処理部17は,指定レイアウト情報記憶部104のユーザ指定のURLをもとにHTMLデータを取得する。
図7に,ユーザ指定のURLによって取得したWebページの例を示す。図7のWebページ200は,ニュースサイトのトップページであって,記事を分類しているカテゴリを示すキーワード表示領域210,イメージデータ付きのトップ記事表示領域211,カテゴリ別に記事の見出しを表示する記事タイトル表示領域212などの表示領域で構成されている。
Webページ情報表示処理部17は,図7に示すニュースサイトのトップページのHTMLデータのTABLE構造を解析して,ページ構成情報を取得する。そして,ページにレイアウトされたキーワード表示領域210,記事タイトル表示領域212に表示されるカテゴリのキーワードを同定し,元のカテゴリのキーワードの先頭から順に,興味語のキーワードへ置き換える。
ここで,置き換えられる興味語のカテゴリは,興味情報生成部14で特定した興味語jの重みWjの値が大きい順に,置換可能な数までのものとする。そして,カテゴリにキーワード「others」を新たに作成して置換することで,レイアウト情報に設定されていた元のカテゴリのキーワードを格納する。
また,興味語にもとづくカテゴリの名称は,対応する興味語をそのまま使用する。統合されたカテゴリの名称は,統合された興味語をそのまま「/,&」などで連結して生成する。
そして,記事タイトル表示領域212には,置き換えた興味語にもとづくカテゴリごとに,コサイン距離Diの値が大きい順に表示可能な数の記事ページについて,その記事タイトルと記事ページへのリンク情報を表示する。
このようにして,ユーザの興味と印象にもとづいて複数の記事ページを融合して表示するWebページがユーザ端末2へ送信され,ユーザ端末2のブラウザ装置によって表示される。よって,ユーザは,使い慣れたレイアウトを利用して,自分の興味に即して分類され,かつ,感情移入しやすい記事が優先的に表示されるページによってニュースを閲覧することができる。
また,プロファイル情報更新部19は,プロファイル情報の更新処理を行う。図8に,プロファイル情報の更新処理の処理フローを示す。
プロファイル情報更新部19は,プロファイル情報記憶部102のユーザのプロファイル情報を取得しておき,興味情報生成部14で特定された興味語jに分類された記事ページのうちユーザが閲覧した記事ページをR1,R2,…,Rmとし,各記事ページRiの印象ベクトルをvi=(vi1,vi2,vi3,vi4)とする(ステップS50)。そして,印象ベクトルvi(i=1,2,3,…,m)に対し,各尺度eの平均値μjeと標準偏差σjeを算出する(ステップS51)。
ここで,「標準偏差σje<所定の閾値」である場合には,印象の揺らぎは小さいと考えて,平均値μjeを興味語jに対応する平均印象ベクトルの尺度eの値とする。また,「標準偏差σje≧所定の閾値」である場合には,印象の揺らぎは大きいと考えて,“don’t care 項”を尺度eの値とする(ステップS52)。“don’t care 項”は,所定の閾値を超えて印象が揺らぐものを,ユーザの選好の対象としないためである。
そして,特定した興味語およびその重みと,興味語に対応する平均印象ベクトルとのペアでプロファイル情報を更新する(ステップS53)。
このようにして,ユーザが記事ページを閲覧するたびに,ユーザが閲覧した記事ページを用いてユーザの選好を表す興味語と対応する平均印象ベクトルなどの情報は学習され,プロファイル情報は,更新される。
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。
また,本発明は,コンピュータにより読み取られ実行されるプログラムとして実施することができる。本発明を実現するプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
1 Webページ情報表示装置
11 Webページ表示要求受信部
12 Webページ情報取得部
13 単語抽出部
14 興味情報生成部
15 印象情報生成部
16 Webページ情報選出部
17 Webページ情報表示処理部
18 カテゴリ統合部
19 プロファイル情報更新部
101 Webページ情報記憶部
102 プロファイル情報記憶部
103 印象辞書記憶部
104 指定レイアウト情報記憶部
2 ユーザ端末
3 Webページ提供サーバ
11 Webページ表示要求受信部
12 Webページ情報取得部
13 単語抽出部
14 興味情報生成部
15 印象情報生成部
16 Webページ情報選出部
17 Webページ情報表示処理部
18 カテゴリ統合部
19 プロファイル情報更新部
101 Webページ情報記憶部
102 プロファイル情報記憶部
103 印象辞書記憶部
104 指定レイアウト情報記憶部
2 ユーザ端末
3 Webページ提供サーバ
Claims (10)
- Webサイトから収集されたWebページ情報を融合し,ユーザの指定したWebページのレイアウトを使用して融合したWebページ情報を表示するWebページ情報表示装置において,
複数のWebサイトから収集されたWebページ情報を格納するWebページ情報記憶手段と,
ユーザのWebページ情報の閲覧履歴にもとづく興味情報および印象情報を設定したプロファイル情報を格納するプロファイル情報記憶手段と,
前記プロファイル情報をもとに,ユーザが閲覧したWebページ情報に出現する単語から,所定の閾値以上の重みを持つ単語を,ユーザが興味を持っている興味語として抽出する興味語特定手段と,
単語ごとに所定の印象尺度における印象の度合いを定義した印象辞書を記憶する印象辞書記憶手段と,
前記印象辞書を用いて,前記Webページ情報記憶手段に格納されたWebページ情報に出現する単語をもとに,当該Webページ情報の印象情報を生成する印象情報生成手段と,
前記Webページ情報記憶手段に格納されたWebページ情報に出現する興味語および前記興味語と共に出現する単語との関連度を用いて前記Webページ情報を分類し,前記Webページ情報から,前記興味語と当該興味語と共に出現する単語および前記印象情報をもとに算出した値に従って,表示するべきWebページ情報を選出する情報選出手段と,
ユーザによって指定されたWebページのレイアウトを利用して,前記レイアウトに設定されたカテゴリを前記興味語によるカテゴリに置換し,前記カテゴリごとに前記選出したWebページ情報を表示するWebページ情報表示処理手段とを備える
ことを特徴とするWebページ情報表示装置。 - 前記興味語によるカテゴリを構成するWebページ情報の重複度を算出し,前記重複度が所定の値以上のカテゴリ同士を一つのカテゴリに統合するカテゴリ統合手段を備える
ことを特徴とする請求項1記載のWebページ情報表示装置。 - 前記ユーザが閲覧したWebページ情報を用いて前記興味情報および前記印象情報を算出し,当該算出結果を用いて前記プロファイル情報を更新するプロファイル情報更新処理手段を備える
ことを特徴とする請求項1または請求項2のいずれか一項に記載のWebページ情報表示装置。 - 前記プロファイル情報は,前記ユーザが閲覧したWebページ情報に所定の頻度以上で出現する興味語およびその優先度と,ユーザが閲覧した前記興味語に分類されたWebページ情報における印象の度合いの平均値と標準偏差とを含むものである
ことを特徴とする請求項1ないし請求項3のいずれか一項に記載のWebページ情報表示装置。 - 前記情報選出手段は,前記Webページ情報記憶手段に格納されたWebページ情報を前記興味語によるカテゴリで分類し,前記Webページ情報について,前記興味語の関連の度合いを示す興味情報と前記印象情報をもとに,表示するWebページ情報を選出する
ことを特徴とする請求項1ないし請求項3のいずれか一項に記載のWebページ情報表示装置。 - コンピュータが,Webサイトから収集されたWebページ情報を融合し,ユーザの指定したWebページのレイアウトを使用して融合したWebページ情報を表示するWebページ情報表示処理方法において,
複数のWebサイトから収集されたWebページ情報をWebページ情報記憶手段に格納するステップと,
ユーザのWebページ情報の閲覧履歴にもとづく興味情報および印象情報を設定したプロファイル情報を格納するプロファイル情報記憶手段にアクセスし,前記プロファイル情報を読み出すステップと,
前記プロファイル情報をもとに,ユーザが過去に閲覧したWebページ情報に出現する単語から,所定の閾値以上の重みを持つ単語を,ユーザが興味を持っている興味語として抽出するステップと,
単語ごとに,所定の印象尺度における印象の度合いを定義した印象辞書を記憶する印象辞書記憶手段にアクセスして前記印象辞書を読み出すステップと,
前記印象辞書を用いて,前記Webページ情報記憶手段に格納されたWebページ情報に出現する単語をもとに,当該Webページ情報の印象情報を生成するステップと,
前記Webページ情報記憶手段に格納されたWebページ情報に出現する興味語および前記興味語と共に出現する単語との関連度を用いて前記Webページ情報を分類し,前記Webページ情報から,前記興味語と当該興味語と共に出現する単語および前記印象情報をもとに算出した値に従って表示するべきWebページ情報を選出するステップと,
ユーザによって指定されたWebページのレイアウトを利用して,前記レイアウトに設定されたカテゴリを前記興味語によるカテゴリに置換し,前記カテゴリごとに前記選出したWebページ情報を表示するステップとを備える
ことを特徴とするWebページ情報表示処理方法。 - 前記Webページ情報を表示するステップにおいて,前記興味語によるカテゴリを構成するWebページ情報の重複度を算出し,前記重複度が所定の値以上のカテゴリ同士を一つのカテゴリに統合する
ことを特徴とする請求項6記載のWebページ情報表示処理方法。 - 前記ユーザが閲覧したWebページ情報を用いて前記興味情報および前記印象情報を算出し,当該算出結果を用いて前記プロファイル情報を更新するステップを備える
ことを特徴とする請求項6または請求項7のいずれか一項に記載のWebページ情報表示処理方法。 - 前記プロファイル情報は,前記ユーザが閲覧したWebページ情報に所定の頻度以上で出現する興味語およびその優先度と,ユーザが閲覧した前記興味語に分類されたWebページ情報における印象の度合いの平均値と標準偏差とを含むものである
ことを特徴とする請求項6ないし請求項8のいずれか一項に記載のWebページ情報表示処理方法。 - コンピュータに,Webサイトから収集されたWebページ情報を融合し,ユーザの指定したWebページのレイアウトを使用して融合したWebページ情報を表示するWebページ情報表示処理方法を実行させるためのプログラムであって,
複数のWebサイトから収集されたWebページ情報をWebページ情報記憶手段に格納する処理と,
ユーザのWebページ情報の閲覧履歴にもとづく興味情報および印象情報を設定したプロファイル情報を格納するプロファイル情報記憶手段にアクセスし,前記プロファイル情報を読み出す処理と,
前記プロファイル情報をもとに,ユーザが閲覧したWebページ情報に出現する単語から,所定の閾値以上の重みを持つ単語を,ユーザが興味を持っている興味語として抽出する処理と,
単語ごとに,所定の印象尺度における印象の度合いを定義した印象辞書を記憶する印象辞書記憶手段にアクセスして前記印象辞書を読み出す処理と,
前記印象辞書を用いて,前記Webページ情報記憶手段に格納されたWebページ情報に出現する単語をもとに,当該Webページ情報の印象情報を生成する処理と,
前記Webページ情報記憶手段に格納されたWebページ情報に出現する興味語および前記興味語と共に出現する単語との関連度を用いて前記Webページ情報を分類し,前記Webページ情報ごとに,前記興味語と当該興味語と共に出現する単語および前記印象情報をもとに算出した値に従って,前記興味語によるカテゴリごとに表示するべきWebページ情報を選出する処理と,
ユーザによって指定されたWebページのレイアウトを利用して,前記レイアウトに設定されたカテゴリを前記興味語によるカテゴリに置換し,前記カテゴリごとに前記選出したWebページ情報を表示する処理とを,
実行させるためのWebページ情報表示プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005238287A JP2007052693A (ja) | 2005-08-19 | 2005-08-19 | Webページ情報表示装置,処理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005238287A JP2007052693A (ja) | 2005-08-19 | 2005-08-19 | Webページ情報表示装置,処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007052693A true JP2007052693A (ja) | 2007-03-01 |
Family
ID=37917084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005238287A Withdrawn JP2007052693A (ja) | 2005-08-19 | 2005-08-19 | Webページ情報表示装置,処理方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007052693A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009147870A (ja) * | 2007-12-18 | 2009-07-02 | Mitsubishi Electric Corp | コマーシャル処理装置 |
JP2009211156A (ja) * | 2008-02-29 | 2009-09-17 | Saitama Univ | メタ情報付与システム、メタ情報表示システム、およびこれらのプログラム、および、当該プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2011253256A (ja) * | 2010-05-31 | 2011-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 関連コンテンツ提示装置及びプログラム |
-
2005
- 2005-08-19 JP JP2005238287A patent/JP2007052693A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009147870A (ja) * | 2007-12-18 | 2009-07-02 | Mitsubishi Electric Corp | コマーシャル処理装置 |
JP2009211156A (ja) * | 2008-02-29 | 2009-09-17 | Saitama Univ | メタ情報付与システム、メタ情報表示システム、およびこれらのプログラム、および、当該プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2011253256A (ja) * | 2010-05-31 | 2011-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 関連コンテンツ提示装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577759B (zh) | 用户评论自动推荐方法 | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
JP5238418B2 (ja) | 情報推薦装置および情報推薦方法 | |
US20190370397A1 (en) | Artificial intelligence based-document processing | |
TWI461939B (zh) | 補充文章內容之方法、設備、電腦可讀取紀錄媒體、電腦程式產品、以及電腦系統 | |
CA2832909C (en) | System and method for matching comment data to text data | |
US8131734B2 (en) | Image based annotation and metadata generation system with experience based learning | |
US8812505B2 (en) | Method for recommending best information in real time by appropriately obtaining gist of web page and user's preference | |
EP3529714B1 (en) | Animated snippets for search results | |
JP2012160201A (ja) | レビュー処理方法およびシステム | |
KR100859918B1 (ko) | 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치 | |
KR20090090840A (ko) | 사용자 맞춤형 정보 제공 시스템 및 그 방법 | |
JP2006318398A (ja) | ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP4879775B2 (ja) | 辞書作成方法 | |
JP2017117021A (ja) | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム | |
JP4883644B2 (ja) | リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法 | |
JP2007052693A (ja) | Webページ情報表示装置,処理方法およびプログラム | |
Hall et al. | Enabling the discovery of digital cultural heritage objects through wikipedia | |
Gali et al. | Extracting representative image from web page | |
KR102028356B1 (ko) | 코멘트 기반의 광고 추천 장치 및 방법 | |
Kolli et al. | A Novel Nlp and Machine Learning Based Text Extraction Approach from Online News Feed | |
US8195458B2 (en) | Open class noun classification | |
Přichystal | Mobile application for customers’ reviews opinion mining | |
KR101440385B1 (ko) | 인디케이터를 이용한 정보 관리 장치 | |
KR101421819B1 (ko) | 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20081104 |