JP4808181B2

JP4808181B2 - ウェブページ情報処理装置、ウェブページ情報処理方法、及びウェブページ情報処理プログラム

Info

Publication number: JP4808181B2
Application number: JP2007112831A
Authority: JP
Inventors: 学颯々野; 敏之前澤
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2007-04-23
Filing date: 2007-04-23
Publication date: 2011-11-02
Anticipated expiration: 2027-04-23
Also published as: JP2008269392A

Description

本発明は、ウェブページ情報処理装置、ウェブページ情報処理方法、及びウェブページ情報処理プログラムに関する。

近年、インターネットを介して通信可能なユーザ端末を用いることにより、誰もが自分の日記、意見等をウェブページに公開することが可能となり、ブログ（Ｗｅｂｌｏｇの略）を代表とするウェブページが多数存在している。

そこで、自分の興味のある事柄に対する他のユーザの体験談、例えば、旅行記、新製品のレポート、新規に開店したお店のレポート、映画のリポート等を閲覧したい場合には、検索エンジンを利用して閲覧したい事柄に関連するウェブページを絞り込む。このとき、絞り込まれたウェブページには、閲覧したい事柄に対する関連が高いウェブページ及び関連が低いウェブページが含まれている。

近頃、閲覧しようとするウェブページから必要な部分だけを自動的に取り出すことができる技術が提案されている（例えば、特許文献１）。この技術によれば、例えば、ユーザが所望する情報とは別の情報が一のウェブページに含まれている場合であっても、所望する情報が含まれる必要な部分が自動的に取得されるので、一のウェブページから所望する情報を取得するときのユーザへの負担を低減することができる。
特開２００６−２７７０９０号公報

しかしながら、上記技術によれば、所望する情報が複数のウェブページに跨って示されている場合に、一のウェブページに示される所望する情報の一部は効率よく取得できるが、残りの所望する情報が示されているウェブページを特定することが困難であることから、結果として所望する情報を取得できないという事態が生じるおそれがあった。また、従来ウェブページの情報は、検索エンジンに所望する情報を表すキーワードを入力して検索することが一般的であるが、検索結果は、ページ毎に順位付けされて表示される。そのため、所望する情報をトピックとするページを見つけたとしても、当該トピックが複数のページに跨るものである場合、当該ページから更にリンクを辿って、前後のページを探さなければならなかった。

そこで、本発明の目的は、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる装置、方法、プログラムを提供することである。

以上のような課題を解決すべく、本発明は、ウェブページ情報処理装置、ウェブページ情報処理方法、及びウェブページ情報処理プログラムにおいて、キーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるように構成され、且つキーワードに関連する集約データにより集約可能なウェブページがユーザ端末により表示されるように構成される結果データを生成することを特徴とする。

より具体的には、以下のようなものを提供する。

（１）ネットワークを介してユーザ端末と通信可能に構成され、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するウェブページ情報処理装置であって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得手段と、
前記ウェブページ取得手段により取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成手段と、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成手段と、
前記結果データ生成手段によって生成された結果データを前記ユーザ端末に送信する検索結果送信手段と、
を備えたことを特徴とするウェブページ情報処理装置。

（１）の構成によれば、検索結果送信手段により、キーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるように構成され、且つキーワードに関連する集約データにより集約可能なウェブページがユーザ端末により表示されるように構成される結果データがユーザ端末に送信される。

故に、所望する情報が複数のウェブページに跨って示される場合であっても、ユーザが所望する情報に係るキーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるので、所望する情報が示されているウェブページを容易に特定することができるようになる。

したがって、上記構成によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。

（２）（１）に記載のウェブページ情報処理装置であって、
前記ウェブページ取得手段は、前記特徴表現データである、一連の話が始まることを示す開始データ、一連の話が継続することを示す継続データ、及び一連の話が終わることを示す終了データのうち少なくとも１つが含まれるウェブページを取得することを特徴とするウェブページ情報処理装置。

（２）の構成によれば、一連の話が始まることを示すウェブページをユーザが閲覧したい場合に、このウェブページをユーザが探す手間を極力省くことができる。

（３）（２）に記載のウェブページ情報処理装置であって、
前記ウェブページ取得手段により取得されたウェブページに含まれる日時を示す日時情報及び期間を示す期間情報に基づいて、一連の話が継続することを示すウェブページ及び一連の話が終了することを示すウェブページを判別するウェブページ判別手段を備え、
前記集約データ生成手段は、前記ウェブページ判別手段により判別された判別情報を含んで集約データを生成し、
前記結果データ生成手段は、前記キーワードに関連する集約データに含まれる判別情報に基づいて判別されるウェブページが識別された態様で前記ユーザ端末により表示されるように構成される結果データを生成することを特徴とするウェブページ情報処理装置。

（３）の構成によれば、キーワードに関連するウェブページであったとしても、集約されるウェブページから一連の話に関わりがないウェブページが排除された態様でユーザ端末により表示されるので、複数のウェブページに跨って示される一連の話を続けて閲覧するときのユーザの負担を低減することができる。

（４）（１）から（３）のいずれかに記載のウェブページ情報処理装置であって、
前記集約データ生成手段は、前記ウェブページ取得手段により取得されたウェブページのＵＲＬの情報を含んで集約データを生成するウェブページ情報処理装置。

（４）の構成によれば、ウェブページ取得手段により取得されたウェブページのＵＲＬの情報を含んで集約データが生成されるので、ＵＲＬの情報が対応付けられたウェブページがユーザ端末により表示されるように構成される結果データを生成することができる。

（５）（１）から（４）のいずれかに記載のウェブページ情報処理装置であって、
前記集約データ生成手段は、前記ウェブページ取得手段により取得されたウェブページのうちウェブページの類似度が相対的に高いウェブページを集約可能に構成された集約データを生成することを特徴とするウェブページ情報処理装置。

（５）の構成によれば、キーワードに関連するウェブページであったとしても、集約されるウェブページから類似度の低いウェブページが排除された態様でユーザ端末により表示されるので、複数のウェブページに跨って示される一連の話を続けて閲覧するときのユーザの負担を低減することができる。

（６）ネットワークを介してユーザ端末と通信可能に構成されたウェブページ情報処理装置が、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するウェブページ情報処理方法であって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得ステップと、
前記ウェブページ取得ステップにより取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成ステップと、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成ステップと、
前記結果データ生成ステップによって生成された結果データを前記ユーザ端末に送信する検索結果送信ステップと、
を備えたことを特徴とするウェブページ情報処理方法。

（６）の構成によれば、所望する情報が複数のウェブページに跨って示される場合であっても、ユーザが所望する情報に係るキーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるので、所望する情報が示されているウェブページを容易に特定することができるようになる。この構成によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。

（７）ネットワークを介してユーザ端末と通信可能に構成されたウェブページ情報処理装置が、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するためのウェブページ情報処理プログラムであって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得ステップと、
前記ウェブページ取得ステップにより取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成ステップと、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成ステップと、
前記結果データ生成ステップによって生成された結果データを前記ユーザ端末に送信する検索結果送信ステップと、
をコンピュータに実行させることを特徴とするウェブページ情報処理プログラム。

（７）の構成によれば、所望する情報が複数のウェブページに跨って示される場合であっても、ユーザが所望する情報に係るキーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるので、所望する情報が示されているウェブページを容易に特定することができるようになる。この構成によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。

本発明によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。

以下、本発明の実施形態について図１〜図１０を例に挙げて説明する。

［ウェブページ情報処理システム１の構成］
図１を参照して、ウェブページ情報処理システム１の構成について説明する。

図１に示すように、ウェブページ情報処理システム１は、ウェブページ情報処理装置２、ユーザ端末８１、ネットワーク８２、及び公開データベースサーバ９０から構成されている。ウェブページ情報処理システム１では、ネットワーク８２を介してウェブページ情報処理装置２、ユーザ端末８１、及び公開データベースサーバ９０が相互に通信可能に構成されている。

ユーザ端末８１は、インターネット上で公開されている文書や画像などのコンテンツを表示させるためのウェブページをユーザが検索、閲覧等することができるように構成されている。公開データベースサーバ９０は、データベース（例えば、後述のブログＤＢ９１）を備えている。公開データベースサーバ９０は、外部（例えば、ユーザ端末８１）からの要求に応じてデータベースを操作（例えば、データベースに格納しているデータからその要求に応じたデータを取得）して、要求元に要求に応じたデータを送信する。なお、ウェブページ情報処理装置２の構成については後述する。

［ウェブページ情報処理装置２の構成］
ウェブページ情報処理装置２は、ブログ解析サーバ１０と検索サーバ２０とデータベースサーバ３０とで構成される。

ブログ解析サーバ１０は、記事取得部１１、特徴表現抽出部１２、開始・終了記事判別部１３、継続記事判別部１４、ストーリー集約部１５、及びインデックス生成部１６を備えている。

記事取得部１１は、ネットワーク８２を介して通信可能な公開データベースサーバ９０が有するブログＤＢ９１から、個人や数人のグループで運営され、管理されるウェブページで公開されている記事、いわゆるブログに掲載されている記事（以下「記事」という）を取得する。より詳細には、記事取得部１１は、通信可能な複数の公開データベースサーバ９０が有する複数のブログＤＢ９１から記事を取得する。

特徴表現抽出部１２は、データベースサーバ３０が有する文例ＤＢ３１から、複数の記事に跨って内容が示されることを表す特徴表現データ（より詳細には、一連の話が始まることを示す開始データ、一連の話が継続することを示す継続データ、及び一連の話が終わることを示す終了データ）を取得する。なお、特徴表現データの詳細については後述する。そして、特徴表現抽出部１２は、記事取得部１１により取得された記事から、特徴表現データが含まれる記事を抽出する。

ここで、文例ＤＢ３１は、データベースサーバ３０に設けられているがこれに限られるものではない。例えば、ブログ解析サーバ１０に設けられてもよいし、ウェブページ情報処理装置２の外部にある所定のデータベースサーバに設けられてもよい。なお、インデックスＤＢ３２についても同様のことが言える。他方、ブログＤＢ９１は、ウェブページ情報処理装置２の外部にある公開データベースサーバ９０に設けられているがこれに限られるものではない。例えば、ブログＤＢ９１は、ウェブページ情報処理装置２の内部に設けられてもよい。即ち、ウェブページ情報処理装置２がブログＤＢ９１を含む構成であってもよい。

このようなことを踏まえると、ウェブページ情報処理装置２は、複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、ユーザ端末８１を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得手段を備えていると言える。

開始・終了記事判別部１３は、特徴表現抽出部１２により抽出された記事から、一連の話が始まることを示す記事（以下「開始記事」という）及び一連の話が終わることを示す記事（以下「終了記事」という）を判別する。より詳細には、開始・終了記事判別部１３は、開始データが含まれる記事を開始記事として判別し、終了データが含まれる記事を終了記事として判別する。

継続記事判別部１４は、特徴表現抽出部１２により抽出された記事から、一連の話が継続することを示す記事（以下「継続記事」という）を判別する。より詳細には、継続記事判別部１４は、継続データが含まれる記事を継続記事として判別する。

ストーリー集約部１５は、特徴表現抽出部１２により抽出された記事から、記事の内容が関連する記事（いわゆる一連のストーリーに関わる記事）を集約する。より詳細には、ストーリー集約部１５は、一の記事及び他の記事のうち少なくとも一方に含まれる日時を示す日時情報及び期間を示す期間情報に基づいて一の記事と他の記事とが関連するか否かを判別して、関連があると判別した場合に一の記事と他の記事とを集約する。例えば、ストーリー集約部１５は、一の記事に日時情報「１２月１０日出発」及び期間情報「３泊４日の旅行に行きます」が含まれている場合に、他の記事に日時情報「１２月１２日の朝」が含まれているならば、これらの記事には関連があると判別する。

これに加え、又はこれに代えて、ストーリー集約部１５は、記事の類似度に基づいて、一連のストーリーに関わる記事を集約する。即ち、ストーリー集約部１５は、特徴表現抽出部１２により抽出された記事のうち記事の類似度が相対的に高い記事を集約する。例えば、開始記事のタイトルに含まれる単語又はフレーズに重みをつけて、開始記事に対する類似度を求める。このとき、ストーリー集約部１５は、類似度が特定の値より大きい場合に関連があると判別することが好適である。なお、類似度を求める方法は、公知の技術である。

インデックス生成部１６は、ストーリー集約部１５により集約された結果を示す集約データを含んだインデックスを生成する。ここで、集約データは、特徴表現抽出部１２により抽出された記事のうち内容が関連する記事を集約可能に構成されている。なお、生成されたインデックスは、インデックスＤＢ３２に格納される。インデックスの詳細については後述する。

したがって、ウェブページ情報処理装置２は、上記ウェブページ取得手段により取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成手段を備えていると言える。

検索サーバ２０は、インデックス取得部２１、検索結果生成部２２、及び検索結果送信部２３を備えている。

インデックス取得部２１は、ユーザ端末８１を用いてユーザにより指定されたキーワードに関連するインデックスをインデックスＤＢ３２から取得する。より詳細には、インデックス取得部２１は、キーワード又はキーワードの一部が含まれるインデックスと、当該インデックスに含まれる集約データと一致する集約データが含まれるインデックスとを取得する。

検索結果生成部２２は、インデックス取得部２１により取得されたインデックスに基づいて、キーワードに関連する記事がユーザ端末８１により表示されるように構成される結果データを生成する。例えば、結果データには、ユーザが記事を閲覧するためのリンクを表示するときに用いられるＵＲＬの情報が含まれている。更に、検索結果生成部２２は、キーワードに関連する集約データにより集約可能な記事が集約された態様でユーザ端末８１により表示されるように構成される結果データを生成している。なお、記事が集約された態様の詳細については後述する。

このようなことから、ウェブページ情報処理装置２は、キーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末８１により表示されるように構成され、且つ上記キーワードに関連する集約データにより集約可能なウェブページがユーザ端末８１により表示されるように構成される結果データを生成する結果データ生成手段を備えていると言える。

検索結果送信部２３は、検索結果生成部２２により生成された結果データをユーザ端末８１に送信する。より詳細には、記事の検索の要求があったユーザ端末８１に検索結果生成部２２により生成された結果データを送信する。

故に、ウェブページ情報処理装置２は、結果データ生成手段によって生成された結果データをユーザ端末８１に送信する検索結果送信手段を備えていると言える。

データベースサーバ３０は、文例ＤＢ３１及びインデックスＤＢ３２を備えている。データベースサーバ３０は、ブログ解析サーバ１０（より厳密には、記事取得部１１及びインデックス生成部１６）と検索サーバ２０（より厳密には、インデックス取得部２１）とからの要求に応じて文例ＤＢ３１及びインデックスＤＢ３２を操作して、要求元に要求に応じたデータを送信する。

以上のように、ウェブページ情報処理装置２は、上記ウェブページ取得手段と、上記集約データ生成手段と、上記結果データ生成手段と、上記検索結果送信手段と、を備えたことを特徴とする。

この構成によれば、所望する情報が複数のウェブページに跨って示される場合であっても、ユーザが所望する情報に係るキーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるので、所望する情報が示されているウェブページを容易に特定することができるようになる。したがって、ウェブページ情報処理装置２によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。

［ウェブページ情報処理システム１における主たる処理］
図２を参照して、ウェブページ情報処理システム１における主たる処理について説明する。ウェブページ情報処理システム１では、基本的に、ユーザ端末８１による後述の検索要求の検出を契機として一連の処理が開始する。

（検索要求）
ユーザ端末８１は、キーワードに基づく検索の要求をユーザが行う操作（以下「検索要求」という）を検出する。ユーザ端末８１は、検索要求を検出すると、キーワードに関連する記事を取得するための検索要求データを検索サーバ２０に送信する（検索要求送信）。なお、検索要求データには、キーワードに関する情報が含まれている。他方、検索サーバ２０は、検索要求データを受信すると、受信した検索要求データをデータベースサーバ３０に送信する（検索要求送信）。

（検索実行）
データベースサーバ３０は、検索要求データを受信すると、検索要求データに含まれるキーワードの情報（言い換えるならば、ユーザ端末８１を用いてユーザにより指定されたキーワード）に基づいて、キーワードに関連するインデックスをインデックスＤＢ３２から取得する。データベースサーバ３０は、キーワードに関連するインデックスを取得すると、インデックスの情報を含んだインデックス返信データを検索サーバ２０に送信する（結果返信）。

（結果データ生成）
検索サーバ２０は、インデックス返信データを受信すると、インデックス返信データに含まれるインデックスの情報に基づいて、結果データを生成する。検索サーバ２０は、結果データを生成すると、結果データをユーザ端末８１に送信する（結果返信）。

（結果表示）
ユーザ端末８１は、結果データを受信すると、結果データに応じた画面を表示する。より詳細には、ユーザ端末８１により、キーワードに関連する記事が集約された態様で表示されると共に、キーワードに関連する記事が閲覧され得る態様で表示される（例えば、ユーザがキーワードに関連する記事を閲覧するためのリンクが表示される）。なお、画面の例については後述する。

（記事要求）
ユーザ端末８１は、結果データに応じた画面に基づく記事の要求をユーザが行う操作（以下「記事要求」という）を検出する。ユーザ端末８１は、記事要求を検出すると、ユーザにより指定された記事を取得するための閲覧要求データを公開データベースサーバ９０に送信する（記事閲覧要求送信）。

（記事取得）
公開データベースサーバ９０は、閲覧要求データを受信すると、閲覧要求データに対応する記事をデータベース（例えば、ブログＤＢ９１）から取得する。公開データベースサーバ９０は、閲覧要求データに対応する記事を取得すると、この記事がユーザ端末８１により表示されるように構成された記事データをユーザ端末８１に送信する（結果返信）。

（結果表示）
ユーザ端末８１は、記事データを受信すると、記事データに応じた記事を表示する。このように、ウェブページ情報処理システム１では一連の処理が行われる。

［ユーザ端末８１により表示される画面の例］
図３を参照して、ユーザ端末８１により表示される画面の例について説明する。図３には、結果データに応じた画面の一例である結果表示画面４０が示されている。結果表示画面４０は、主に、テキストボックス４１、検索ボタン４２、検索モード切替えリンク４３、タイトル４４、開始リンク４５、継続リンク４６、終了リンク４７、及びページ切替えリンク４８とで構成されている。

テキストボックス４１は、ユーザが所望する記事に関連したキーワードを入力するために設けられた入力部である。検索ボタン４２は、ユーザが検索を要求する操作を行うために設けられた操作部である。検索モード切替えリンク４３は、従来の検索である通常検索と一連のストーリーに関わる記事を検索するストーリー検索とを切替えるために設けられた検索モード切替え部である。タイトル４４は、キーワードに基づいて検索された記事に示される一連の話のタイトルである。開始リンク４５は、開始記事の照会部である。例えば、ユーザが後述の入力手段を用いて開始リンク４５を押すと、ユーザ端末８１には、開始記事が表示される。継続リンク４６は、継続記事の照会部である。終了リンク４７は、終了記事の照会部である。ページ切替えリンク４８は、集約された記事のうち画面に表示されていない記事を参照するために設けられたページ切替え部である。

ここで、ユーザが後述の入力手段を用いて、キーワードとして「初めて海外旅行」をテキストボックス４１に入力して、検索ボタン４２を押した場合にユーザ端末８１により表示されるときの画面の一例である結果表示画面４０の特質について説明する。なお、検索のモードとしてストーリー検索が指定されているが、これが指定される時機は、検索ボタン４２が押される前であってもよいし、検索ボタン４２が押された後であってもよい。

結果表示画面４０には、キーワードに関連する記事が集約された態様が示されている。集約された態様は、例えば、開始リンク４５、継続リンク４６、及び終了リンク４７の態様である。これらは、ユーザが認識しやすいように整列されている。更に、これらは、ユーザが認識しやすいように識別されている。

より詳細には、開始リンク４５、継続リンク４６、及び終了リンク４７は、海外旅行に関する一連の体験談が展開される順序に従って数字が付されて整列されている。そして、開始リンク４５には、海外旅行に関する一連の体験談が始まることを示す単語（或は、フレーズ）として、例えば「はじまり」が付されて開始記事が識別されている。他方、終了リンク４７には、海外旅行に関する一連の体験談が終わることを示す単語（或は、フレーズ）として、例えば「おしまい」が付されて終了記事が識別されている。

これらを踏まえると、一連の体験談が複数の記事に跨り示される場合であったとしても、これらの記事が集約され、整列され、更には、識別された態様で表示されているので、雑多な記事が蓄積されているデータベースの中から、閲覧したい一連の体験談を探しながら読み進めるというユーザの手間を省くことができるようになる。

［特徴表現データの例］
図４及び図５を参照して、特徴表現データの例について説明する。図４及び図５には、ＩＤと属性と特徴表現データの内容（特徴表現）とが示されている。

ＩＤは、文例ＤＢ３１の中から、あるレコード（言い換えるならば、特徴表現データ）を一意に識別するための情報である。属性は、記事を構成する部分のうち特徴表現データが含まれる可能性が相対的に高い部分（例えば、タイトル、本文など）を示すものである。そして、特徴表現データには、属性が対応付けられている。一般に、属性「Ａ」が対応付けられた特徴表現データは、タイトルに含まれることが多く、「Ｂ」が対応付けられた特徴表現データは、本文に含まれることが多い。

ここで、ＩＤ「１」に対応する「第＃ＮＵＭ話」、ＩＤ「４０」に対応する「中編」、及びＩＤ「１９３」に対応する「おしまい」を例に挙げて、特徴表現データについて説明する。なお、「＃ＮＵＭ」は、基本的に、任意の自然数である。よって、「第＃ＮＵＭ話」は、「第１話」、「第２話」、「第３話」などを示すことになる。

例えば、特徴表現が「第１話」である場合には、この特徴表現に係る特徴表現データが開始データであることを意味する。特徴表現が「中編」である場合には、この特徴表現に係る特徴表現データが継続データであることを意味する。特徴表現が「おしまい」である場合には、この特徴表現に係る特徴表現データが終了データであることを意味する。このように、特徴表現データは、複数の記事に跨って一連の内容が示されることを表すと共に、開始記事、継続記事、及び終了記事を識別することができるデータである。なお、特徴表現が「第２話」である場合には、この特徴表現に係る特徴表現データが継続データ又は終了データであることを意味するが、継続データ及び終了データの何れであるかは、日時情報、期間情報などに基づいて決定されている。

なお、特徴表現データの追加、変更、及び削除は、手動で行われてもよいし、機械学習の技術を適用して行われてもよい。機械学習には、サポートベクタマシンやナイーブベイズなどという公知の手法があり、それらを用いることで後述の重みが決定され、決定された重みに基づいて特徴表現（例えば、特徴的な単語）を獲得することができる。

即ち、ブログ解析サーバ１０は、機械学習により重みを決定する重み決定手部と、この重みに基づいて特徴表現を獲得する特徴表現獲得部と、を備えてもよい。このとき、ブログ解析サーバ１０は、所定の記事が単発の記事（以下「単発記事」という）であるか否か、言い換えるならば、所定の記事が連続の記事（以下「連続記事」という）であるか否かを所定の記事に含まれる語（例えば、名詞、動詞）の重みに基づいて判別する単発・連続記事判別部を備えることが好ましい。

図６を参照して、ブログ解析サーバ１０が単発記事及び連続記事を判別する例について説明する。初めに、ブログ解析サーバ１０が以下のステップ１〜ステップ３の処理を行い、重みを決定する一例について説明する。

（ステップ１）
学習に必要な記事がブログ解析サーバ１０に与えられる。例えば、学習事例の表に示す４つの記事がブログ解析サーバ１０に与えられる。なお、図６に示す属性では、連続記事を「Ｉ」、単発記事を「Ｂ」と表記する。

（ステップ２）
ブログ解析サーバ１０は、記事に含まれる語を取り出し、これらの語が出現する回数（いわゆる出現回数）を計数する。その結果は、例えば、出現回数の表のようになる。なお、語の横の数字は、出現回数を示す。

（ステップ３）
ブログ解析サーバ１０は、機械学習でそれぞれに重みをつけ、リスト（いわゆる重みリスト）を作成する。その結果は、例えば、重みリストの表のようになる。実施の形態では、例えば、連続記事である記事ＮＯ．１が単発記事であるとブログ解析サーバ１０により判定されたときに、「夜遊び」の重みが「０」であった場合には、重みを「１」（＝「０＋１」）とする。なお、「昨日」、「初めて」、「夜」、「バンフ」、「町」、「出かける」についても同様である。他方、単発記事である記事ＮＯ．４が連続記事であるとブログ解析サーバ１０により判定されたときに、「おはよう」の重みが「０」であった場合には、重みを「−１」（＝「０＋（−１）」）とする。なお、「朝」、「しわ」、「足」、「見せる」、「失礼」についても同様である。

即ち、ブログ解析サーバ１０は、単発記事及び連続記事の判定を誤った場合に、記事内の各語について、出現回数だけ重みを変える。そして、ブログ解析サーバ１０は、何回も（例えば、１０回、理想的には、全ての事例が正解するまで）判定を繰り返して最終的な重みを決定する。この結果、重みが大きい語が特徴表現となる。なお、重みリストには、人手で作成した特徴表現が（例えば、大きい重みをつけて）加えられてもよい。

そして、ブログ解析サーバ１０は、重みが大きい語を多く含んだ記事が連続記事でると判別する。この判別については、「昨日はお土産やさんへ行きました。ここで、お土産をさらに買って荷物を送れないか相談。」という記事がブログ解析サーバ１０に与えられた場合を例に挙げて説明する。

先ず、ブログ解析サーバ１０は、上記記事から語及び語の出現回数（この例では、「昨日：１、お土産：２、行く：１、買う：１、荷物：１、送る：１、相談：１」）を取り出す。続いて、ブログ解析サーバ１０は、語の出現回数と重みリストの重みとに基づいてスコアを算出する。より詳細には、ブログ解析サーバ１０は、語の出現回数とその語に対応する重みの値との乗算によりスコアを算出する。続いて、ブログ解析サーバ１０は、この記事に含まれる各語から求めたスコアの総和を算出する。この例では、総和は、２８×１＋１１×２＋７×１＝５７となる。最後に、ブログ解析サーバ１０は、この総和がある閾値以上（例えば、０以上）であるので、この記事を連続記事であると判別する。なお、ブログ解析サーバ１０は、この総和が上記閾値未満であるならば、この記事を単発記事であると判別する。

［インデックスの例］
図７を参照して、インデックスの例について説明する。図７には、ＩＤ、区分、状態識別子、ＵＲＬ、タイトル、及び本文（抜粋）が示されている。なお、図７に示す「・・・」では、例の記載を省略している。

ＩＤは、インデックスＤＢ３２の中から、あるレコード（言い換えるならば、インデックス）を一意に識別するための情報である。区分は、集約データを識別するための情報である。状態識別子は、開始記事、継続記事、及び終了記事の各々を識別するための情報である。ＵＲＬは、記事の場所を示すものである。タイトルは、記事のタイトルを示すものである。本文（抜粋）は、記事の本文の一部を示すものである。より詳細には、本文（抜粋）は、本文からタイトルと関連が高い部分を所定の文字数だけ抜粋したものである。なお、本文の抜粋に代えて、本文の全体を採用してもよい。

インデックスは、ＩＤ、区分、状態識別子、ＵＲＬ、タイトル、及び本文（抜粋）により構成されているがこれに限られるものではない。例えば、インデックスは、これらに加え、記事が作成された日時を含んで構成されてもよい。また、例えば、インデックスは、区分、状態識別子、及びＵＲＬにより構成されてもよい。この場合には、検索サーバ２０は、検索要求送信に代えて、公開データベースサーバ９０よりキーワードに関連する記事のＵＲＬを取得するようにする。そして、検索サーバ２０は、インデックスＤＢ３２を参照して、取得したＵＲＬに基づいてインデックスを検索する構成とする。

［ブログ解析サーバ１０の動作］
図８を参照して、ブログ解析サーバ１０で実行される主たる処理について説明する。

初めに、ブログ解析サーバ１０は、ブログＤＢ９１を参照し、記事を取得する（Ｓ１）。このとき、ブログ解析サーバ１０は、一のブログＤＢ９１から記事を取得し、Ｓ２〜Ｓ９の処理が行われた後に他のブログＤＢ９１から記事を取得する構成が好適である。即ち、ブログＤＢ９１毎にＳ１〜Ｓ９の処理が行われる構成としてもよい。

続いて、ブログ解析サーバ１０は、文例ＤＢ３１を参照し、特徴表現データを取得する（Ｓ２）。なお、Ｓ１の処理が行われてからＳ２の処理が行われる構成であるが、これに限られるものではない。Ｓ２の処理が行われてからＳ１の処理が行われる構成としてもよいし、Ｓ１の処理及びＳ２の処理が並列で行われる構成としてもよい。

続いて、ブログ解析サーバ１０は、記事のタイトルに特徴表現が含まれる記事を抽出する（Ｓ３）。より詳細には、ブログ解析サーバ１０は、記事のタイトルに属性が「Ａ」である特徴表現データが含まれる記事を抽出する。

続いて、ブログ解析サーバ１０は、記事の本文に特徴表現が含まれる記事を抽出する（Ｓ４）。より詳細には、ブログ解析サーバ１０は、記事の本文に属性が「Ｂ」である特徴表現データが含まれる記事を抽出する。このとき、Ｓ３で抽出した記事を除いた記事の中から記事を抽出することが好適である。なお、ブログ解析サーバ１０は、記事の本文に属性が「Ｂ」である特徴表現データが含まれる記事を抽出する構成を採用しているが、これに限られるものではない。例えば、ブログ解析サーバ１０は、記事の本文に属性が「Ａ」又は「Ｂ」である特徴表現データが含まれる記事を抽出する構成としてもよい。

続いて、ブログ解析サーバ１０は、抽出した記事から開始記事及び終了記事を判別する（Ｓ５）。より詳細には、ブログ解析サーバ１０は、抽出した記事に開始データが含まれるか否かを判別する。このとき、ブログ解析サーバ１０は、開始データが含まれると判別した場合に状態識別子が「Ｓ」を示す判別データを生成する。更に、ブログ解析サーバ１０は、抽出した記事に終了データが含まれるか否かを判別する。このとき、ブログ解析サーバ１０は、終了データが含まれると判別した場合に状態識別子が「Ｅ」を示す判別データを生成する。

続いて、ブログ解析サーバ１０は、抽出した記事から継続記事を判別する（Ｓ６）。より詳細には、ブログ解析サーバ１０は、抽出した記事に継続データが含まれるか否かを判別する。このとき、ブログ解析サーバ１０は、継続データが含まれると判別した場合に状態識別子が「Ｃ」を示す判別データを生成する。

続いて、ブログ解析サーバ１０は、内容が関連する記事を集約する（Ｓ７）。より詳細には、ブログ解析サーバ１０は、日時情報及び期間情報に基づいて一の記事と他の記事とが関連するか否かを判別する。このとき、ブログ解析サーバ１０は、関連があると判別した場合に一の記事と他の記事とを集約可能に構成された集約データを生成する。生成された集約データには、区分の情報、ＵＲＬの情報、及び判別データ等が含まれている。

他方、ブログ解析サーバ１０は、集約した記事の中から、日時情報及び期間情報に基づいて継続記事及び終了記事を判別する。例えば、ブログ解析サーバ１０は、一の記事に日時情報「１２月１０日出発」及び期間情報「３泊４日の旅行に行きます」が含まれている場合に、他の記事に日時情報「１２月１２日の朝」が含まれているならば、他の記事が継続記事であると判別し、他の記事に期間情報の最終日を示す日時情報「１２月１３日の朝」が含まれているならば、基本的に、他の記事が終了記事であると判別する。ただし、集約された記事の中に他の記事に示される日時情報よりも後の日時情報（例えば、「１２月１８日の朝」）が含まれている類似度が相対的に高い記事があるならば、他の記事に期間情報の最終日（或は最終時）を示す日時情報が含まれていても、当該記事は、継続記事であると判別されることがある。

このようなことを踏まえると、ウェブページ情報処理装置２は、前記ウェブページ取得手段により取得されたウェブページに含まれる日時を示す日時情報及び期間を示す期間情報に基づいて、一連の話が継続することを示すウェブページ及び一連の話が終了することを示すウェブページを判別するウェブページ判別手段を備えていると言える。

ここで、図７を参照して上述の内容を説明する。ブログ解析サーバ１０は、日時情報及び期間情報に基づいて継続記事を判別するときに、例えば、ＩＤ「２」に対応する継続記事、ＩＤ「３」に対応する継続記事、ＩＤ「４」に対応する継続記事に従って話が進展すると判別した場合には、これらに対応する状態識別子に「１」、「２」、「３」という識別子を付す。したがって、状態識別子は、開始記事、継続記事、及び終了記事の各々を識別すると共に、一連の話が進展する順序を識別するための情報である。即ち、ブログ解析サーバ１０は、集約された記事が一連の話となるようにこれらの記事を結合するストーリー結合手段を備えていると言える。

続いて、ブログ解析サーバ１０は、判別した結果及び集約した結果に基づいてインデックスを生成する（Ｓ８）。より詳細には、ブログ解析サーバ１０は、集約データを含んだインデックスを生成する。

続いて、ブログ解析サーバ１０は、生成したインデックスを登録するための登録要求データをデータベースサーバ３０に送信する（Ｓ９）。そして、データベースサーバ３０は、登録要求データを受信すると、登録要求データに対応するインデックスをインデックスＤＢ３２に格納する。

なお、図示は省略しているが、これらの処理は、基本的に、所定の周期（好ましくは１日１回の周期）で、自動的に開始する（いわゆるバッチ処理）。ただし、検索ボタン４２が押されたことを契機に開始するように構成されてもよい（いわゆるリアルタイム処理）。リアルタイム処理を採用したならば、Ｓ１では、キーワードに関連する記事を取得することが好適である。そして、Ｓ９の後に、又はこれに代えて、ブログ解析サーバ１０は、生成したインデックス（即ち、インデックスの情報が含まれるインデックスデータ）を検索サーバ２０に送信する。そして、検索サーバ２０は、インデックスデータを受信すると、このインデックスデータに基づいて結果データを生成する。

［検索サーバ２０の動作］
図９を参照して、検索サーバ２０で実行される主たる処理について説明する。

初めに、検索サーバ２０は、インデックスＤＢ３２を参照して、結果データを生成する（Ｓ１１）。例えば、キーワードが「初めて海外旅行」である場合には、検索サーバ２０は、タイトル及び本文（抜粋）にキーワード又はキーワードの一部（なお、キーワードに関連する文字であってもよい）が含まれるインデックスを検索する。このとき、ＩＤが「１」であるインデックスが検索された場合には、区分が「１」である全てのインデックスを取得する。具体的には、検索サーバ２０は、取得したインデックスに含まれるＵＲＬに基づいて集約された各記事がユーザ端末８１により表示されるように構成され、取得したインデックスに含まれる区分「１」に基づいて集約可能なＩＤ「１」〜「５」に対応する記事が集約された態様でユーザ端末８１により表示されるように構成され、且つ取得したインデックスに含まれる状態識別子「Ｓ」、「Ｃ」、及び「Ｅ」に基づいて開始記事、継続記事、及び終了記事が識別された態様でユーザ端末８１により表示されるように構成される結果データを生成する。なお、複数の結果データが生成され得るならば、開始記事が作成された日時の降順に上記内容がユーザ端末８１により表示されるように各結果データが生成されてもよいし、キーワードに関連する度合いが高い順に上記内容がユーザ端末８１により表示されるように各結果データが生成されてもよい。更には、これらをユーザが指定できる構成が好適である。

続いて、検索サーバ２０は、結果データをユーザ端末８１に送信する（Ｓ１２）。

［サーバのハードウェアの構成］
図１０は、ブログ解析サーバ１０、検索サーバ２０、データベースサーバ３０、及び公開データベースサーバ９０（以下「サーバ」という）のハードウェアの構成を示す図である。制御部を構成するＣＰＵ１１０（マルチプロセッサ構成ではＣＰＵ１２０等複数のＣＰＵが追加されてもよい）、バスライン１０５、通信Ｉ／Ｆ１４０、メインメモリ１５０、ＢＩＯＳ１６０、ＵＳＢポート１９０、Ｉ／Ｏコントローラ１７０、並びにキーボード及びマウス１８０等の入力手段や表示装置１２２を備える。

Ｉ／Ｏコントローラ１７０には、テープドライブ１７２、ハードディスク１７４、光ディスクドライブ１７６、半導体メモリ１７８等の記憶手段を接続することができる。

ＢＩＯＳ１６０は、サーバの起動時にＣＰＵ１１０が実行するブートプログラムや、サーバのハードウェアに依存するプログラム等を格納する。

ハードディスク１７４は、サーバとして機能するための各種プログラム及び本実施形態の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。

光ディスクドライブ１７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この場合は各ドライブに対応した光ディスク１７７を使用する。光ディスク１７７から光ディスクドライブ１７６によりプログラム又はデータを読み取り、Ｉ／Ｏコントローラ１７０を介してメインメモリ１５０又はハードディスク１７４に提供することもできる。また、同様にテープドライブ１７２に対応したテープメディア１７１を主としてバックアップのために使用することもできる。

サーバに提供されるプログラムは、ハードディスク１７４、光ディスク１７７、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、Ｉ／Ｏコントローラ１７０を介して、記録媒体から読み出され、又は通信Ｉ／Ｆ１４０を介してダウンロードされることによって、サーバにインストールされ実行されてもよい。

上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク１７４、光ディスク１７７、又はメモリーカードの他に、ＭＤ等の光磁気記録媒体、テープメディア１７１を用いることができる。また、専用通信回線やインターネット等の通信回線に接続されたサーバシステムに設けたハードディスク１７４又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、インターネットを介してプログラムをサーバに提供してもよい。

ここで、表示装置１２２は、各種画面を表示したり、サーバによる演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。

また、通信Ｉ／Ｆ１４０は、サーバをネットワーク８２（例えば、専用ネットワーク、公共ネットワークなど）を介してユーザ端末８１と接続できるようにするためのネットワーク・アダプタである。通信Ｉ／Ｆ１４０は、モデム、ケーブル・モデム及びイーサネット（登録商標）・アダプタを含んでよい。

以上の例は、サーバについて主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバとして動作させることにより上記で説明した機能を実現することもできる。したがって、本実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

以上、実施形態について説明したが、本発明は上述した実施形態に限られるものではない。また、本発明による効果は、実施形態に記載されたものに限定されるものではない。

ウェブページ情報処理システムの構成を示す図。ウェブページ情報処理システムにおける主たる処理を示す図。ユーザ端末により表示される画面の例を示す図。特徴表現データの例を示す図。特徴表現データの例を示す図。ブログ解析サーバが単発記事及び連続記事を判別する例を示す図。インデックスの例を示す図。ブログ解析サーバで実行される主たる処理を示すフローチャート。検索サーバで実行される主たる処理を示すフローチャート。サーバのハードウェアの構成を示す図。

符号の説明

１ウェブページ情報処理システム
２ウェブページ情報処理装置
１０ブログ解析サーバ
１１記事取得部
１２特徴表現抽出部
１３開始・終了記事判別部
１４継続記事判別部
１５ストーリー集約部
１６インデックス生成部
２０検索サーバ
２１インデックス取得部
２２検索結果生成部
２３検索結果送信部
３０データベースサーバ
３１文例ＤＢ
３２インデックスＤＢ

Claims

ネットワークを介してユーザ端末と通信可能に構成され、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するウェブページ情報処理装置であって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得手段と、
前記ウェブページ取得手段により取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成手段と、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成手段と、
前記結果データ生成手段によって生成された結果データを前記ユーザ端末に送信する検索結果送信手段と、
を備えたことを特徴とするウェブページ情報処理装置。
請求項１に記載のウェブページ情報処理装置であって、
前記ウェブページ取得手段は、前記特徴表現データである、一連の話が始まることを示す開始データ、一連の話が継続することを示す継続データ、及び一連の話が終わることを示す終了データのうち少なくとも１つが含まれるウェブページを取得することを特徴とするウェブページ情報処理装置。
請求項２に記載のウェブページ情報処理装置であって、
前記ウェブページ取得手段により取得されたウェブページに含まれる日時を示す日時情報及び期間を示す期間情報に基づいて、一連の話が継続することを示すウェブページ及び一連の話が終了することを示すウェブページを判別するウェブページ判別手段を備え、
前記集約データ生成手段は、前記ウェブページ判別手段により判別された判別情報を含んで集約データを生成し、
前記結果データ生成手段は、前記キーワードに関連する集約データに含まれる判別情報に基づいて判別されるウェブページが識別された態様で前記ユーザ端末により表示されるように構成される結果データを生成することを特徴とするウェブページ情報処理装置。
請求項１から３のいずれかに記載のウェブページ情報処理装置であって、
前記集約データ生成手段は、前記ウェブページ取得手段により取得されたウェブページのＵＲＬの情報を含んで集約データを生成するウェブページ情報処理装置。
請求項１から４のいずれかに記載のウェブページ情報処理装置であって、
前記集約データ生成手段は、前記ウェブページ取得手段により取得されたウェブページのうちウェブページの類似度が相対的に高いウェブページを集約可能に構成された集約データを生成することを特徴とするウェブページ情報処理装置。
ネットワークを介してユーザ端末と通信可能に構成されたウェブページ情報処理装置が、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するウェブページ情報処理方法であって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得ステップと、
前記ウェブページ取得ステップにより取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成ステップと、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成ステップと、
前記結果データ生成ステップによって生成された結果データを前記ユーザ端末に送信する検索結果送信ステップと、
を備えたことを特徴とするウェブページ情報処理方法。
ネットワークを介してユーザ端末と通信可能に構成されたウェブページ情報処理装置が、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するためのウェブページ情報処理プログラムであって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得ステップと、
前記ウェブページ取得ステップにより取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成ステップと、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成ステップと、
前記結果データ生成ステップによって生成された結果データを前記ユーザ端末に送信する検索結果送信ステップと、
を備えたことを特徴とするウェブページ情報処理プログラム。