JP2007052693A

JP2007052693A - Ｗｅｂページ情報表示装置，処理方法およびプログラム

Info

Publication number: JP2007052693A
Application number: JP2005238287A
Authority: JP
Inventors: Yukiko Kawai; 由起子河合; Tadahiko Kumamoto; 忠彦熊本; Katsumi Tanaka; 克己田中
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2005-08-19
Filing date: 2005-08-19
Publication date: 2007-03-01

Abstract

【課題】Ｗｅｂページを，ユーザの興味と印象に応じて優先的に表示させる。
【解決手段】興味情報生成部１４は，プロファイル情報（１０２）をもとに，ユーザが閲覧したページに所定の閾値以上で出現する単語を興味語として抽出する。印象情報生成部１５は，印象辞書（１０３）を用いて，Ｗｅｂページ情報取得部１２が取得した記事ページ（１０１）に出現する単語からページの印象ベクトルを生成する。Ｗｅｂページ情報選出部１６は，前記興味語とページの印象情報をもとに，表示するべき記事ページを選出する。Ｗｅｂページ情報表示処理部１７は，ユーザが指定したＷｅｂページを解析してページ構成情報を取得する。解析したＷｅｂページのレイアウトを利用して，元のカテゴリを興味語によるカテゴリに置換し，興味語のカテゴリごとに，選出した記事ページのタイトルやリンク情報を表示する。
【選択図】図１

Description

本発明は，Ｗｅｂページの表示処理技術に関し，より詳しくは，複数のＷｅｂサイトから収集された複数のＷｅｂページ情報から，ユーザの興味や印象に応じて分類・選出した情報を，ユーザが好むレイアウトによって表示処理するＷｅｂページ情報表示装置，Ｗｅｂページ情報表示処理方法，およびＷｅｂページ情報表示プログラムに関する。

複数のＷｅｂサイトに存在している同一のテーマのＷｅｂページを，テーマごとにまとめて提示するシステムが数多く提案されている。例えば，ニュース記事が表示対象である場合に，大量の記事をどのように分類するかが重要である。そして，（１）収集したすべての記事から出現頻度の高い単語を抽出して利用する，（２）ユーザが閲覧した記事から出現頻度の高い単語を抽出して利用する，（３）収集した記事のリンク構造を解析して利用するなど，単語（キーワード）に着目したさまざまなＷｅｂページ提示方式が提案されている。

上記の技術の具体的な例として，下記の非特許文献１に記載された技術がある。
Kathleen R. McKeown et al, "Tracking and Summarizing News on a Daily Basis with Columbia's Newsblaster", In Proceedings of the Human Language Technology Conference, 2002, USA

しかし，従来のＷｅｂページ提示方式では，収集した情報をシステムの仕様にもとづいて分類，表示する。そのため，ユーザは，そのシステムの分類体系やページ構成にすぐに順応することができず，所望する情報を速やかに獲得することが困難であった。

そこで，発明者らは，複数のサイトから収集した大量のＷｅｂページ情報をユーザが持っている興味を示す語（以下，興味語という）の有無にもとづいて分類し，ユーザが使い慣れているページ構成に写像して提示する新規なシステムを提供した（特願２００４−１６８２５９参照）。

このシステムは，ユーザのＷｅｂページ情報の閲覧履歴をもとに単語の出現頻度にもとづいて特定した興味語を保存し，収集された記事を興味語の有無を判断基準として分類する。このとき，新しく生成するカテゴリ名に興味語そのものを使用することによって，各カテゴリに含まれる記事の内容を判別しやすくしている。

また，このシステムは，ユーザが普段利用して使い慣れているＷｅｂページのレイアウトを利用して各カテゴリのＷｅｂページ情報を再配置して表示することによって，ユーザが読みたい情報がどこにあるのかを効率的に探し出すことができる。

しかし，興味語の有無という分類基準だけでＷｅｂページ情報を分類・選出して提示すると，ユーザが好む情報と好まない情報とをうまく分離できないことがあった。例えば，ニュースサイトから「阪神」という興味語のキーワードで収集される記事ページには，「阪神，首位をキープ」という好ましいものだけでなく，「阪神，初の完封負け」という好ましくないものも混在して提示される。

ユーザが「阪神」についての楽しい記事だけを閲覧したい場合など，ユーザが情報を選出する場合にどのような情報を好んで選出するかという一定の傾向をユーザの選好として定義し，ユーザの選好にもとづいて分類・選出したＷｅｂページ情報を表示する処理において，ユーザの選好をより高精度に決定し，ユーザが共感できるＷｅｂページ情報を優先的に提示できる仕組みが求められる。

また，興味語の有無という分類基準によってＷｅｂページ情報を分類すると，一つのＷｅｂページ情報が複数のカテゴリに分類されうるため，分類されたＷｅｂページ情報の構成にほとんど差異のないカテゴリが複数作成されるという問題があった。

本発明の目的は，複数のＷｅｂサイトから収集された複数のＷｅｂページ情報を表示する場合に，ユーザが感情移入しやすい情報を優先的に提示するために，ユーザの選好を興味と印象とを用いて定義し，ユーザの興味と印象にもとづいて分類・選出したＷｅｂページ情報をユーザが指定したページレイアウトを利用して表示するＷｅｂページ情報表示装置，表示処理方法，および表示プログラムを提供することである。

また，本発明の目的は，Ｗｅｂページ情報を分類する場合に，分類されている情報の多くが重複している無駄なカテゴリの生成を抑制して，ユーザが閲覧しやすいカテゴリによって情報を提示することができるＷｅｂページ情報表示装置，表示処理方法，および表示プログラムを提供することである。

本発明は，複数のＷｅｂサイトから収集されたＷｅｂページ情報をユーザの選好にもとづいて分類・選出する場合に，分類基準として，ユーザが持っている興味および情報に対する印象を導入し，興味と印象の両面からユーザの選好をモデル化する手法を提供するものである。そして，この手法を，複数のＷｅｂページ情報を融合して表示する処理に適用して，ユーザの興味と印象を用いてＷｅｂページ情報を分類・選出し，ユーザが指定したレイアウトを利用して表示する。

また，本発明は，興味による分類の結果，カテゴリ同士が所定の割合以上で重複するＷｅｂページ情報を含む場合に，カテゴリ同士を統合して表示する。

より詳しくは，本発明は，Ｗｅｂサイトから収集されたＷｅｂページ情報を融合し，ユーザの指定したＷｅｂページのレイアウトを使用して融合したＷｅｂページ情報を表示するＷｅｂページ情報表示装置において，１）複数のＷｅｂサイトから収集されたＷｅｂページ情報を格納するＷｅｂページ情報記憶手段と，２）ユーザのＷｅｂページ情報の閲覧履歴情報を含むプロファイル情報を格納するプロファイル情報記憶手段と，３）プロファイル情報をもとに，ユーザが過去に閲覧したＷｅｂページ情報に出現する単語から，ユーザが興味を持っている単語として所定の閾値以上の重みを持つものを興味語として抽出する興味語特定手段と，４）単語ごとに，所定の印象尺度における印象の度合いを定義した印象辞書を記憶する印象辞書記憶手段と，５）印象辞書を用いて，Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報に出現する単語からＷｅｂページ情報の印象情報を生成する印象情報生成手段と，６）Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報を興味語と当該興味語と共に出現する単語および印象情報をもとに選出する情報選出手段と，７）ユーザによって指定されたＷｅｂページのレイアウトに設定されたカテゴリを興味語によるカテゴリに置換し，レイアウトを利用して，選出したＷｅｂページ情報を表示するＷｅｂページ情報表示処理手段とを備える。

本発明にかかるＷｅｂページ情報表示装置では，複数のＷｅｂサイトから収集されたＷｅｂページ情報をＷｅｂページ情報記憶手段に格納しておく。また，ユーザのＷｅｂページ情報の閲覧履歴情報を含むプロファイル情報をプロファイル情報記憶手段に格納しておく。プロファイル情報は，ユーザごとに，Ｗｅｂページ情報の閲覧履歴，閲覧したＷｅｂページ情報で特定される興味語，Ｗｅｂページ情報に対する印象情報などを含むものである。また，単語ごとに所定の印象尺度における印象の度合いを定義した印象辞書を印象辞書記憶手段に格納しておく。

興味語特定手段は，プロファイル情報のユーザの閲覧履歴情報をもとに，ユーザが過去に閲覧したＷｅｂページ情報に出現する単語から，ユーザが興味を持っている単語として所定の閾値以上の重みを持つものを興味語として抽出する。

また，印象情報生成手段は，印象辞書を用いて，Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報に出現する単語から，各Ｗｅｂページ情報の印象情報を生成する。

そして，情報選出手段は，Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報を，興味語と当該興味語と共に出現する単語および印象情報をもとに選出する。具体的には，情報選出手段は，Ｗｅｂページ情報に出現している興味語をもとに表示処理時のカテゴリを決定し，Ｗｅｂページ情報について，興味語と共に出現する単語との関連度を示す興味情報と印象情報とをもとに，表示するＷｅｂページ情報を選出する。

Ｗｅｂページ情報表示処理手段は，予めユーザによって指定されたＷｅｂページのレイアウト，例えばポータルサイトのページのレイアウトを利用して，レイアウトに設定されたカテゴリを興味語によって決定したカテゴリに置換し，前記カテゴリを置換したレイアウトを利用して，選出したＷｅｂページ情報を表示する。置換したカテゴリの名称として興味語をそのまま使用する。

さらに，本発明は，前記カテゴリに分類されたＷｅｂページ情報の重複度を算出し，前記重複度が所定の値以上のカテゴリ同士を一つのカテゴリに統合するカテゴリ統合手段を備える。

そして，カテゴリ統合手段は，あるカテゴリ間で，選出されたＷｅｂページ情報が所定の割合以上で重複している場合には，それらのカテゴリを一つのカテゴリに統合する。このカテゴリの名称として，統合されたカテゴリの興味語を連ねて使用する。

また，本発明は，ユーザが閲覧したＷｅｂページ情報に関する情報をプロファイル情報に追加して前記プロファイル情報記憶手段に格納するプロファイル情報更新処理手段を備える。

そして，前記プロファイル情報は，前記閲覧履歴情報にもとづく興味語およびその重みを含むものであってもよい。

さらに，前記プロファイル情報は，前記閲覧履歴情報にもとづく興味語およびその重み，ユーザの閲覧Ｗｅｂページ情報に対する印象情報を含むものであってもよい。

本発明によれば，ユーザの選好としてユーザの興味と印象を利用し，複数のＷｅｂサイトから収集された複数のＷｅｂページ情報を興味や印象にもとづいて選出し，興味によるカテゴリごとに，ユーザの興味と印象にあう情報から順に表示される。よって，ユーザは，感情移入しやすい情報を優先的に見つけて閲覧することができる。

また，本発明によれば，ユーザの興味による分類によって，多くのカテゴリが同じような情報で構成されてしまう状態の場合に，情報の重複度が高いカテゴリを一つに統合する。よって，無駄なカテゴリの生成が抑制され，ユーザは，適切なカテゴリによる表示によって，より見やすく構成されたページを閲覧することができる。

以下，本発明を実施するための最良の形態を図を用いて説明する。

図１に，本発明のＷｅｂページ情報表示装置１の構成例を示す。

Ｗｅｂページ情報表示装置１は，ユーザ端末２から送信されたＷｅｂページ情報の表示要求を受信して，複数のＷｅｂページ提供サーバ３から複数のＷｅｂページ情報を取得し，取得したＷｅｂページ情報をユーザの興味や印象に応じて分類・選出し，ユーザが指定したＷｅｂページのページレイアウトを利用して，分類・選出したＷｅｂページ情報をユーザ端末２へ表示させる処理装置である。

本実施の形態において，Ｗｅｂページ提供サーバ３は，ニュース情報を提供するサイトのサーバであり，Ｗｅｂページ情報は，ニュース記事を内容とするＨＴＭＬドキュメントであるとする。

Ｗｅｂページ情報表示装置１は，Ｗｅｂページ表示要求受信部１１，Ｗｅｂページ情報取得部１２，単語抽出部１３，興味情報生成部１４，印象情報生成部１５，Ｗｅｂページ情報選出部１６，Ｗｅｂページ情報表示処理部１７，カテゴリ統合部１８，プロファイル情報更新部１９，Ｗｅｂページ情報記憶部１０１，プロファイル情報記憶部１０２，印象辞書記憶部１０３，および指定レイアウト情報記憶部１０４を備える。

Ｗｅｂページ情報記憶部１０１は，Ｗｅｂページ提供サーバ３から収集されたＷｅｂページ情報（以下，記事ページという）を記憶する手段である。

プロファイル情報記憶部１０２は，各ユーザのプロファイル情報を記憶する手段である。

プロファイル情報は，ユーザの記事ページの閲覧履歴として，興味語およびその重要度（重み），各興味語に対応する平均印象ベクトルなどを含む情報である。

興味語は，ユーザが閲覧した記事ページに出現する単語であって所定の閾値以上の重要度を持つ単語として特定されたものである。記事ページに出現する，一般名詞，固有名詞が興味語の候補となる。

興味語に対応する平均印象ベクトルは，ユーザが閲覧した記事ページであって，ある興味語に分類された記事ページのそれぞれから求められる印象ベクトルを平均したものである。

印象ベクトルとは，記事ページに対する所定の印象尺度により算出した印象の傾向を示す情報である。具体的には，予め用意された印象辞書を参照し，記事ページに出現するサ変名詞，動詞，形容詞などをもとに，各印象尺度について算出された尺度値である。

本例では，印象尺度として，尺度１「明るい−暗い」，尺度２「承認−拒否」，尺度３「緩和−緊張」，および尺度４「怒り−恐れ」の４つの尺度を用いる。各尺度の尺度値は，０から１までの実数値をとる。

印象辞書記憶部１０３は，単語ごとに，所定の印象尺度における尺度値および重要度（重み）を定義した印象辞書を記憶する手段である。印象辞書にエントリされた単語を印象語とする。

図２は，印象辞書の例を示す図である。印象辞書には，印象語ごとに４つの印象尺度（尺度１〜４）における尺度値と重要度（重み）が定義されている。図２において，見出し語は，印象辞書にエントリされた印象語を示し，各見出し語の上段の数値は尺度値，下段の数値は重みを示す。

指定レイアウト情報記憶部１０４は，ユーザ端末２から記事ページの表示要求と共に送信された，複数の記事ページを融合して表示する際に利用するレイアウト情報のベースとなるＷｅｂページを取得するための格納場所情報（ＵＲＬ），この格納場所情報をもとに取得したＷｅｂページのＨＴＭＬデータ，このＨＴＭＬデータから解析処理されたページ構成情報を記憶する手段である。

Ｗｅｂページ表示要求受信部１１は，ユーザ端末２から送信された記事ページの表示要求を受信する処理手段である。記事ページの表示要求と共に，ユーザによって指定されたＷｅｂページの格納場所情報（ＵＲＬ）を受信し，指定レイアウト情報記憶部１０４に格納する。

Ｗｅｂページ情報取得部１２は，複数のＷｅｂページ提供サーバ３から，所定の範囲にもとづいて，複数の記事ページを取得しＷｅｂページ情報記憶部１０１に格納する処理手段である。

単語抽出部１３は，形態素解析処理によって，Ｗｅｂページ情報記憶部１０１に格納された記事ページから単語を抽出する処理手段である。形態素解析処理は，既知の処理手法であればどのような処理手法を用いてもよい。形態素解析処理によって，記事ページから，一般名詞，固有名詞，サ変名詞，動詞，形容詞などの単語が抽出される。

興味情報生成部１４は，プロファイル情報記憶部１０２に格納されたプロファイル情報をもとに，Ｗｅｂページ情報記憶部１０１の記事ページに出現する単語（一般名詞，固有名詞）のうち所定値以上の重みを持つものを興味語として抽出する処理手段である。

また，興味情報生成部１４は，Ｗｅｂページ情報記憶部１０１の記事ページに出現する興味語と他の単語との共起関係から，その記事ページの興味語の優先度を算出する。

印象情報生成部１５は，印象辞書記憶部１０３の印象情報を参照し，Ｗｅｂページ情報記憶部１０１の記事ページに出現する単語（サ変名詞，形容詞，動詞など）を用いて，その記事ページの印象ベクトルを生成する処理手段である。

Ｗｅｂページ情報選出部１６は，プロファイル情報記憶部１０２のプロファイル情報，興味情報生成部１４によって特定された興味語，印象情報生成部１５によって算出された印象ベクトルとをもとに，Ｗｅｂページ情報記憶部１０１の記事ページを興味語によるカテゴリで分類し，興味語のカテゴリごとに表示するべき記事ページを選出する処理手段である。

Ｗｅｂページ情報表示処理部１７は，指定レイアウト情報記憶部１０４に格納されたＵＲＬを用いて取得したＷｅｂページのＨＴＭＬデータを解析してページ構成情報を抽出し，抽出したページ構成情報を利用して生成したレイアウトを利用して，Ｗｅｂページ情報選出部１６によって決定されたカテゴリごとに選出された記事ページまたは記事ページのタイトルを表示する記事見出しの提示ページを生成する処理手段である。

カテゴリ統合部１８は，元のページ構成情報に設定されたカテゴリと置換する興味語のカテゴリ同士について，カテゴリを構成する記事ページの重複度を算出し，重複度が所定の値以上の場合に，興味語のカテゴリ同士を統合して一つのカテゴリを生成する処理手段である。

プロファイル情報更新部１９は，プロファイル情報の興味語およびその重み，各興味語に対応する平均印象ベクトルを，ユーザが閲覧した記事ページを用いて再計算し，その結果をプロファイル情報記憶部１０２に格納する処理手段である。

次に，Ｗｅｂページ情報表示装置１の処理をさらに詳細に説明する。

Ｗｅｂページ情報表示装置１は，ユーザ端末２から記事ページの表示要求を受信すると，Ｗｅｂページ情報取得部１２によって，所定のＷｅｂページ提供サーバ３から記事ページを収集する。また，ユーザによって指定されたＵＲＬを，指定レイアウト情報記憶部１０４へ格納する。

そして，単語抽出部１３は，取得した記事ページから単語を抽出する。図３に，興味語抽出処理の処理フローを示す。

単語抽出部１３は，Ｗｅｂページ情報記憶部１０１の記事ページＰ_１〜Ｐ_ｎのメタデータ（記事のタイトルや概要などが記述された部分）を取得し，取得したメタデータを形態素解析処理して単語を抽出する（ステップＳ１０）。

興味情報生成部１４は，記事ページＰ_ｉ（ｉ＝１〜ｎ）に出現する単語ｊの重みｗ_ｉｊを，ｔｆ・ｉｄｆ（Ｔｅｒｍ−Ｆｒｅｑｕｅｎｃｙ・ｉｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）で定義し，以下の式を用いて算出する（ステップＳ１１）。

ｗ_ｉｊ＝
ｌｏｇ（記事Ｐ_ｉ中の単語ｊの出現頻度＋１）／ｌｏｇ（記事Ｐ_ｉ中の総単語種数）×
ｌｏｇ（記事Ｐの総数ｎ）／（単語ｊが出現する記事Ｐの総数）
さらに，プロファイル情報記憶部１０２からユーザのＩＤ情報によって抽出したプロファイル情報をもとに，ユーザの閲覧履歴における興味語の重み，すなわちユーザがｍ個のページを閲覧したときのページ全体における単語ｊの重みＷ_ｊ＝Σ^ｍ _ｉ＝１・ｗ_ｉｊを算出し（ステップＳ１２），重みＷ_ｊが所定の閾値以上となる単語ｊを興味語として抽出する。（ステップＳ１３）。

また，印象情報生成部１５は，取得した記事ページの印象ベクトルを生成する。図４に，印象ベクトルの生成処理の処理フローを示す。

印象情報生成部１５は，単語抽出部１３の形態素解析処理によって取得された記事ページＰ_ｉに出現する単語のうちサ変名詞，形容詞，動詞などの単語ｊを抽出する（ステップＳ２０）。そして，印象辞書を参照して，単語ｊの印象尺度ｅの尺度値Ｓ_ｊｅおよび重みＭ_ｊｅを取得する（ステップＳ２１）。さらに，記事ページＰ_ｉの印象尺度ｅ（ｅは，１〜４の実数値）における尺度値Ｏ_ｉｅを以下の式で算出する（ステップＳ２２）。

式（１）において，｜２Ｓ_ｊｅ−１｜は，Ｓ_ｊｅの値に依存する傾斜配分であって，印象尺度と関係のない一般的な単語（尺度値が０．５に近い値をとる単語）が式（１）の値Ｏ_ｉｅの平均操作に及ぼす悪影響を軽減するために導入している。

そして，記事ページＰ_ｉの印象ベクトルｖ_ｉ＝（Ｏ_ｉ１，Ｏ_ｉ２，Ｏ_ｉ３，Ｏ_ｉ４）と定義し，生成する（ステップＳ２３）。

ここで，印象尺度は，印象辞書の尺度に合わせて，尺度１「明るい−暗い」，尺度２「承認−拒否」，尺度３「緩和−緊張」，および尺度４「怒り−恐れ」の４つを用いる。尺度値は，各尺度において，印象語である単語ｊが２つの印象語群のどちらとより共起しやすいかを定式化して算出している。

例えば，尺度１「明るい−暗い」の尺度値の算出には，「明るい，うれしい，楽しい」などの印象語群と「暗い，悲しい，苦しい」などの印象語群が使用される。また，尺度２「承認−拒否」では，「承認（する），愛好（する），好きだ」などの印象語群と「拒否（する），嫌悪（する），嫌いだ」などの印象語群が，尺度３「緩和−緊張」では，「ゆったり（する），のんびり（する），ゆっくり（する）」などの印象語群と「緊張（する），緊急（だ）」などの印象語群が，尺度４「怒り−恐れ」では，「怒る，怒号」などの印象語群と「恐れる，怖い，恐怖」などの印象語群が使用される。

このような印象語群との共起のしやすさを，印象の強さあるいは程度ととらえて，印象尺度の前出側の印象語群と共起しやすい場合に，Ｏ_ｉｅ値は１に近い値をとり，後出側の印象語群と共起しやすい場合に，Ｏ_ｉｅ値は０に近い値をとるようにした。

次に，Ｗｅｂページ情報選出部１６は，興味語と印象ベクトルにもとづいて記事ページを選出する。図５に，記事ページ選出処理の処理フローを示す。

Ｗｅｂページ情報選出部１６は，Ｗｅｂページ情報記憶部１０１の記事ページについて，興味情報生成部１４で特定した興味語ｊと共に出現する単語ｋを抽出し，興味語ｊと単語ｋの共起度Ｃ_ｊｋをすべての記事ページを対象に算出する（ステップＳ３０）。

Ｃ_ｊｋ＝
（興味語ｊと単語ｋの共起頻度＋１）／（興味語ｊの出現頻度＋単語ｋの出現頻度）
そして，プロファイル情報をもとに，ユーザが閲覧したｍ個の記事ページから興味語ｊを含む記事ページを選出する（ステップＳ３１）。さらに，Ｗｅｂページ情報記憶部１０１の記事ページのうち，興味語ｊに分類された記事ページＰ_ｉの各単語の共起度と全記事ページの共起度のコサイン距離ｄを算出し，コサイン距離ｄが所定の閾値以上である記事ページを選択する（ステップＳ３２）。

記事ページＰ_ｉの印象ベクトルｖｉ＝（ｖｉ１，ｖｉ２，ｖｉ３，ｖｉ４）と，プロファイル情報の興味語ｊに対する平均印象ベクトルμ_ｊ＝（μ_ｊ１，μ_ｊ２，μ_ｊ３，μ_ｊ４）とのコサイン距離Ｄ_ｉを算出する（ステップＳ３３）。

ただし，平均印象ベクトルの尺度値ｅにおいて，「標準偏差σ_ｊｅ≧所定の閾値」である場合には，平均値μ_ｊｅは，“ｄｏｎ’ｔｃａｒｅ項”として計算から除外する。なお，プロファイル情報の平均印象ベクトルμ_ｊの算出処理は後述する。

そして，距離Ｄ_ｉが大きい順に記事ページＰ_ｉを表示対象とする（ステップＳ３４）。

次に，カテゴリ統合部１８は，必要なカテゴリの統合処理を行う。図６に，興味語によるカテゴリの統合処理の処理フローを示す。

カテゴリ統合部１８は，興味語ｊにもとづくカテゴリｊの記事ページの集合Ｉとカテゴリｋの記事ページの集合Ｋの積集合Ｉ∩Ｋと和集合Ｉ∪Ｋとを求め，それぞれの要素の数｜Ｉ∩Ｋ｜，｜Ｉ∪Ｋ｜を算出する（ステップＳ４０）。

そして，Ｌ＝｜Ｉ∩Ｋ｜／｜Ｉ∪Ｋ｜が所定の閾値より大きい場合に，カテゴリｉとカテゴリｋとを統合し，新たなカテゴリｔを作成する（ステップＳ４１）。

次に，Ｗｅｂページ情報表示処理部１７は，記事ページの表示処理を行う。

Ｗｅｂページ情報表示処理部１７は，指定レイアウト情報記憶部１０４のユーザ指定のＵＲＬをもとにＨＴＭＬデータを取得する。

図７に，ユーザ指定のＵＲＬによって取得したＷｅｂページの例を示す。図７のＷｅｂページ２００は，ニュースサイトのトップページであって，記事を分類しているカテゴリを示すキーワード表示領域２１０，イメージデータ付きのトップ記事表示領域２１１，カテゴリ別に記事の見出しを表示する記事タイトル表示領域２１２などの表示領域で構成されている。

Ｗｅｂページ情報表示処理部１７は，図７に示すニュースサイトのトップページのＨＴＭＬデータのＴＡＢＬＥ構造を解析して，ページ構成情報を取得する。そして，ページにレイアウトされたキーワード表示領域２１０，記事タイトル表示領域２１２に表示されるカテゴリのキーワードを同定し，元のカテゴリのキーワードの先頭から順に，興味語のキーワードへ置き換える。

ここで，置き換えられる興味語のカテゴリは，興味情報生成部１４で特定した興味語ｊの重みＷ_ｊの値が大きい順に，置換可能な数までのものとする。そして，カテゴリにキーワード「ｏｔｈｅｒｓ」を新たに作成して置換することで，レイアウト情報に設定されていた元のカテゴリのキーワードを格納する。

また，興味語にもとづくカテゴリの名称は，対応する興味語をそのまま使用する。統合されたカテゴリの名称は，統合された興味語をそのまま「／，＆」などで連結して生成する。

そして，記事タイトル表示領域２１２には，置き換えた興味語にもとづくカテゴリごとに，コサイン距離Ｄ_ｉの値が大きい順に表示可能な数の記事ページについて，その記事タイトルと記事ページへのリンク情報を表示する。

このようにして，ユーザの興味と印象にもとづいて複数の記事ページを融合して表示するＷｅｂページがユーザ端末２へ送信され，ユーザ端末２のブラウザ装置によって表示される。よって，ユーザは，使い慣れたレイアウトを利用して，自分の興味に即して分類され，かつ，感情移入しやすい記事が優先的に表示されるページによってニュースを閲覧することができる。

また，プロファイル情報更新部１９は，プロファイル情報の更新処理を行う。図８に，プロファイル情報の更新処理の処理フローを示す。

プロファイル情報更新部１９は，プロファイル情報記憶部１０２のユーザのプロファイル情報を取得しておき，興味情報生成部１４で特定された興味語ｊに分類された記事ページのうちユーザが閲覧した記事ページをＲ_１，Ｒ_２，…，Ｒ_ｍとし，各記事ページＲ_ｉの印象ベクトルをｖ_ｉ＝（ｖ_ｉ１，ｖ_ｉ２，ｖ_ｉ３，ｖ_ｉ４）とする（ステップＳ５０）。そして，印象ベクトルｖ_ｉ（ｉ＝１，２，３，…，ｍ）に対し，各尺度ｅの平均値μ_ｊｅと標準偏差σ_ｊｅを算出する（ステップＳ５１）。

ここで，「標準偏差σ_ｊｅ＜所定の閾値」である場合には，印象の揺らぎは小さいと考えて，平均値μ_ｊｅを興味語ｊに対応する平均印象ベクトルの尺度ｅの値とする。また，「標準偏差σ_ｊｅ≧所定の閾値」である場合には，印象の揺らぎは大きいと考えて，“ｄｏｎ’ｔｃａｒｅ項”を尺度ｅの値とする（ステップＳ５２）。“ｄｏｎ’ｔｃａｒｅ項”は，所定の閾値を超えて印象が揺らぐものを，ユーザの選好の対象としないためである。

そして，特定した興味語およびその重みと，興味語に対応する平均印象ベクトルとのペアでプロファイル情報を更新する（ステップＳ５３）。

このようにして，ユーザが記事ページを閲覧するたびに，ユーザが閲覧した記事ページを用いてユーザの選好を表す興味語と対応する平均印象ベクトルなどの情報は学習され，プロファイル情報は，更新される。

以上，本発明をその実施の形態により説明したが，本発明はその主旨の範囲において種々の変形が可能であることは当然である。

また，本発明は，コンピュータにより読み取られ実行されるプログラムとして実施することができる。本発明を実現するプログラムは，コンピュータが読み取り可能な，可搬媒体メモリ，半導体メモリ，ハードディスクなどの適当な記録媒体に格納することができ，これらの記録媒体に記録して提供され，または，通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。

本発明のＷｅｂページ情報表示装置の構成例を示す図である。印象辞書の例を示す図である。興味語抽出処理の処理フローを示す図である。印象ベクトルの生成処理の処理フローを示す図である。記事ページ選出処理の処理フローを示す図である。興味語によるカテゴリの統合処理の処理フローを示す図である。ユーザが指定したＷｅｂページの例を示す図である。プロファイル情報の更新処理の処理フローを示す図である。

符号の説明

１Ｗｅｂページ情報表示装置
１１Ｗｅｂページ表示要求受信部
１２Ｗｅｂページ情報取得部
１３単語抽出部
１４興味情報生成部
１５印象情報生成部
１６Ｗｅｂページ情報選出部
１７Ｗｅｂページ情報表示処理部
１８カテゴリ統合部
１９プロファイル情報更新部
１０１Ｗｅｂページ情報記憶部
１０２プロファイル情報記憶部
１０３印象辞書記憶部
１０４指定レイアウト情報記憶部
２ユーザ端末
３Ｗｅｂページ提供サーバ

Claims

Ｗｅｂサイトから収集されたＷｅｂページ情報を融合し，ユーザの指定したＷｅｂページのレイアウトを使用して融合したＷｅｂページ情報を表示するＷｅｂページ情報表示装置において，
複数のＷｅｂサイトから収集されたＷｅｂページ情報を格納するＷｅｂページ情報記憶手段と，
ユーザのＷｅｂページ情報の閲覧履歴にもとづく興味情報および印象情報を設定したプロファイル情報を格納するプロファイル情報記憶手段と，
前記プロファイル情報をもとに，ユーザが閲覧したＷｅｂページ情報に出現する単語から，所定の閾値以上の重みを持つ単語を，ユーザが興味を持っている興味語として抽出する興味語特定手段と，
単語ごとに所定の印象尺度における印象の度合いを定義した印象辞書を記憶する印象辞書記憶手段と，
前記印象辞書を用いて，前記Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報に出現する単語をもとに，当該Ｗｅｂページ情報の印象情報を生成する印象情報生成手段と，
前記Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報に出現する興味語および前記興味語と共に出現する単語との関連度を用いて前記Ｗｅｂページ情報を分類し，前記Ｗｅｂページ情報から，前記興味語と当該興味語と共に出現する単語および前記印象情報をもとに算出した値に従って，表示するべきＷｅｂページ情報を選出する情報選出手段と，
ユーザによって指定されたＷｅｂページのレイアウトを利用して，前記レイアウトに設定されたカテゴリを前記興味語によるカテゴリに置換し，前記カテゴリごとに前記選出したＷｅｂページ情報を表示するＷｅｂページ情報表示処理手段とを備える
ことを特徴とするＷｅｂページ情報表示装置。
前記興味語によるカテゴリを構成するＷｅｂページ情報の重複度を算出し，前記重複度が所定の値以上のカテゴリ同士を一つのカテゴリに統合するカテゴリ統合手段を備える
ことを特徴とする請求項１記載のＷｅｂページ情報表示装置。
前記ユーザが閲覧したＷｅｂページ情報を用いて前記興味情報および前記印象情報を算出し，当該算出結果を用いて前記プロファイル情報を更新するプロファイル情報更新処理手段を備える
ことを特徴とする請求項１または請求項２のいずれか一項に記載のＷｅｂページ情報表示装置。
前記プロファイル情報は，前記ユーザが閲覧したＷｅｂページ情報に所定の頻度以上で出現する興味語およびその優先度と，ユーザが閲覧した前記興味語に分類されたＷｅｂページ情報における印象の度合いの平均値と標準偏差とを含むものである
ことを特徴とする請求項１ないし請求項３のいずれか一項に記載のＷｅｂページ情報表示装置。
前記情報選出手段は，前記Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報を前記興味語によるカテゴリで分類し，前記Ｗｅｂページ情報について，前記興味語の関連の度合いを示す興味情報と前記印象情報をもとに，表示するＷｅｂページ情報を選出する
ことを特徴とする請求項１ないし請求項３のいずれか一項に記載のＷｅｂページ情報表示装置。
コンピュータが，Ｗｅｂサイトから収集されたＷｅｂページ情報を融合し，ユーザの指定したＷｅｂページのレイアウトを使用して融合したＷｅｂページ情報を表示するＷｅｂページ情報表示処理方法において，
複数のＷｅｂサイトから収集されたＷｅｂページ情報をＷｅｂページ情報記憶手段に格納するステップと，
ユーザのＷｅｂページ情報の閲覧履歴にもとづく興味情報および印象情報を設定したプロファイル情報を格納するプロファイル情報記憶手段にアクセスし，前記プロファイル情報を読み出すステップと，
前記プロファイル情報をもとに，ユーザが過去に閲覧したＷｅｂページ情報に出現する単語から，所定の閾値以上の重みを持つ単語を，ユーザが興味を持っている興味語として抽出するステップと，
単語ごとに，所定の印象尺度における印象の度合いを定義した印象辞書を記憶する印象辞書記憶手段にアクセスして前記印象辞書を読み出すステップと，
前記印象辞書を用いて，前記Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報に出現する単語をもとに，当該Ｗｅｂページ情報の印象情報を生成するステップと，
前記Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報に出現する興味語および前記興味語と共に出現する単語との関連度を用いて前記Ｗｅｂページ情報を分類し，前記Ｗｅｂページ情報から，前記興味語と当該興味語と共に出現する単語および前記印象情報をもとに算出した値に従って表示するべきＷｅｂページ情報を選出するステップと，
ユーザによって指定されたＷｅｂページのレイアウトを利用して，前記レイアウトに設定されたカテゴリを前記興味語によるカテゴリに置換し，前記カテゴリごとに前記選出したＷｅｂページ情報を表示するステップとを備える
ことを特徴とするＷｅｂページ情報表示処理方法。
前記Ｗｅｂページ情報を表示するステップにおいて，前記興味語によるカテゴリを構成するＷｅｂページ情報の重複度を算出し，前記重複度が所定の値以上のカテゴリ同士を一つのカテゴリに統合する
ことを特徴とする請求項６記載のＷｅｂページ情報表示処理方法。
前記ユーザが閲覧したＷｅｂページ情報を用いて前記興味情報および前記印象情報を算出し，当該算出結果を用いて前記プロファイル情報を更新するステップを備える
ことを特徴とする請求項６または請求項７のいずれか一項に記載のＷｅｂページ情報表示処理方法。
前記プロファイル情報は，前記ユーザが閲覧したＷｅｂページ情報に所定の頻度以上で出現する興味語およびその優先度と，ユーザが閲覧した前記興味語に分類されたＷｅｂページ情報における印象の度合いの平均値と標準偏差とを含むものである
ことを特徴とする請求項６ないし請求項８のいずれか一項に記載のＷｅｂページ情報表示処理方法。
コンピュータに，Ｗｅｂサイトから収集されたＷｅｂページ情報を融合し，ユーザの指定したＷｅｂページのレイアウトを使用して融合したＷｅｂページ情報を表示するＷｅｂページ情報表示処理方法を実行させるためのプログラムであって，
複数のＷｅｂサイトから収集されたＷｅｂページ情報をＷｅｂページ情報記憶手段に格納する処理と，
ユーザのＷｅｂページ情報の閲覧履歴にもとづく興味情報および印象情報を設定したプロファイル情報を格納するプロファイル情報記憶手段にアクセスし，前記プロファイル情報を読み出す処理と，
前記プロファイル情報をもとに，ユーザが閲覧したＷｅｂページ情報に出現する単語から，所定の閾値以上の重みを持つ単語を，ユーザが興味を持っている興味語として抽出する処理と，
単語ごとに，所定の印象尺度における印象の度合いを定義した印象辞書を記憶する印象辞書記憶手段にアクセスして前記印象辞書を読み出す処理と，
前記印象辞書を用いて，前記Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報に出現する単語をもとに，当該Ｗｅｂページ情報の印象情報を生成する処理と，
前記Ｗｅｂページ情報記憶手段に格納されたＷｅｂページ情報に出現する興味語および前記興味語と共に出現する単語との関連度を用いて前記Ｗｅｂページ情報を分類し，前記Ｗｅｂページ情報ごとに，前記興味語と当該興味語と共に出現する単語および前記印象情報をもとに算出した値に従って，前記興味語によるカテゴリごとに表示するべきＷｅｂページ情報を選出する処理と，
ユーザによって指定されたＷｅｂページのレイアウトを利用して，前記レイアウトに設定されたカテゴリを前記興味語によるカテゴリに置換し，前記カテゴリごとに前記選出したＷｅｂページ情報を表示する処理とを，
実行させるためのＷｅｂページ情報表示プログラム。