JP2008269392A - Device, method, and program for processing web page information - Google Patents
Device, method, and program for processing web page information Download PDFInfo
- Publication number
- JP2008269392A JP2008269392A JP2007112831A JP2007112831A JP2008269392A JP 2008269392 A JP2008269392 A JP 2008269392A JP 2007112831 A JP2007112831 A JP 2007112831A JP 2007112831 A JP2007112831 A JP 2007112831A JP 2008269392 A JP2008269392 A JP 2008269392A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- user terminal
- aggregated
- data
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title abstract description 19
- 230000014509 gene expression Effects 0.000 claims abstract description 60
- 230000004931 aggregating effect Effects 0.000 claims abstract description 10
- 230000010365 information processing Effects 0.000 claims description 66
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 62
- 230000008569 process Effects 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ウェブページ情報処理装置、ウェブページ情報処理方法、及びウェブページ情報処理プログラムに関する。 The present invention relates to a web page information processing apparatus, a web page information processing method, and a web page information processing program.
近年、インターネットを介して通信可能なユーザ端末を用いることにより、誰もが自分の日記、意見等をウェブページに公開することが可能となり、ブログ(Weblogの略)を代表とするウェブページが多数存在している。 In recent years, it has become possible for anyone to publish their diaries, opinions, etc. on a web page by using a user terminal that can communicate via the Internet, and there are many web pages represented by blogs (abbreviations of Weblog). Existing.
そこで、自分の興味のある事柄に対する他のユーザの体験談、例えば、旅行記、新製品のレポート、新規に開店したお店のレポート、映画のリポート等を閲覧したい場合には、検索エンジンを利用して閲覧したい事柄に関連するウェブページを絞り込む。このとき、絞り込まれたウェブページには、閲覧したい事柄に対する関連が高いウェブページ及び関連が低いウェブページが含まれている。 So, if you want to view other users' experiences about what you are interested in, such as travel reports, new product reports, newly opened store reports, movie reports, etc., use a search engine. And narrow down the web pages related to the things you want to browse. At this time, the narrowed-down web pages include web pages that are highly related to matters to be browsed and web pages that are less relevant.
近頃、閲覧しようとするウェブページから必要な部分だけを自動的に取り出すことができる技術が提案されている(例えば、特許文献1)。この技術によれば、例えば、ユーザが所望する情報とは別の情報が一のウェブページに含まれている場合であっても、所望する情報が含まれる必要な部分が自動的に取得されるので、一のウェブページから所望する情報を取得するときのユーザへの負担を低減することができる。
しかしながら、上記技術によれば、所望する情報が複数のウェブページに跨って示されている場合に、一のウェブページに示される所望する情報の一部は効率よく取得できるが、残りの所望する情報が示されているウェブページを特定することが困難であることから、結果として所望する情報を取得できないという事態が生じるおそれがあった。また、従来ウェブページの情報は、検索エンジンに所望する情報を表すキーワードを入力して検索することが一般的であるが、検索結果は、ページ毎に順位付けされて表示される。そのため、所望する情報をトピックとするページを見つけたとしても、当該トピックが複数のページに跨るものである場合、当該ページから更にリンクを辿って、前後のページを探さなければならなかった。 However, according to the above technique, when the desired information is shown across a plurality of web pages, a part of the desired information shown on one web page can be efficiently acquired, but the remaining desired information Since it is difficult to specify the web page on which the information is shown, there is a possibility that the desired information cannot be acquired as a result. Conventionally, web page information is generally searched by inputting a keyword representing desired information to a search engine, but search results are ranked and displayed for each page. For this reason, even if a page having a topic of desired information is found, if the topic spans a plurality of pages, it is necessary to follow the link further from the page and search for the previous and subsequent pages.
そこで、本発明の目的は、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる装置、方法、プログラムを提供することである。 Therefore, an object of the present invention is to provide an apparatus, a method, and a program capable of avoiding as much as possible a situation in which a user cannot acquire desired information shown across a plurality of web pages.
以上のような課題を解決すべく、本発明は、ウェブページ情報処理装置、ウェブページ情報処理方法、及びウェブページ情報処理プログラムにおいて、キーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるように構成され、且つキーワードに関連する集約データにより集約可能なウェブページがユーザ端末により表示されるように構成される結果データを生成することを特徴とする。 In order to solve the problems as described above, in the web page information processing apparatus, the web page information processing method, and the web page information processing program, the present invention aggregates web pages that can be aggregated by aggregated data related to keywords. According to another aspect of the present invention, it is configured to generate result data configured to be displayed by a user terminal and configured to be displayed by a user terminal on a web page that can be aggregated by aggregated data related to a keyword.
より具体的には、以下のようなものを提供する。 More specifically, the following is provided.
(1) ネットワークを介してユーザ端末と通信可能に構成され、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するウェブページ情報処理装置であって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得手段と、
前記ウェブページ取得手段により取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成手段と、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成手段と、
前記結果データ生成手段によって生成された結果データを前記ユーザ端末に送信する検索結果送信手段と、
を備えたことを特徴とするウェブページ情報処理装置。
(1) Result configured to be communicable with a user terminal via a network and configured to display a web page searched based on a keyword designated by the user using the user terminal. A web page information processing apparatus for transmitting data to the user terminal,
Web page acquisition means for acquiring a web page including feature expression data representing content being shown across a plurality of web pages from a number of web pages managed by the user using the user terminal;
Aggregated data generating means for generating aggregated data configured to be capable of aggregating web pages related to the content among the web pages acquired by the web page acquiring means;
A web page that can be aggregated by aggregated data related to the keyword is configured to be displayed by the user terminal in an aggregated manner, and a web page that can be aggregated by the aggregated data related to the keyword is displayed by the user terminal. Result data generating means for generating result data configured to be displayed;
Search result transmitting means for transmitting result data generated by the result data generating means to the user terminal;
A web page information processing apparatus comprising:
(1)の構成によれば、検索結果送信手段により、キーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるように構成され、且つキーワードに関連する集約データにより集約可能なウェブページがユーザ端末により表示されるように構成される結果データがユーザ端末に送信される。 According to the structure of (1), it is comprised so that the web page which can be aggregated by the aggregated data relevant to a keyword by the search result transmission means will be displayed by the user terminal in an aggregated manner, and the aggregate related to the keyword. Result data configured such that a web page that can be aggregated by data is displayed by the user terminal is transmitted to the user terminal.
故に、所望する情報が複数のウェブページに跨って示される場合であっても、ユーザが所望する情報に係るキーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるので、所望する情報が示されているウェブページを容易に特定することができるようになる。 Therefore, even when the desired information is shown across multiple web pages, the web page that can be aggregated by aggregated data related to the keyword related to the information desired by the user is displayed on the user terminal. Therefore, it becomes possible to easily specify the web page on which the desired information is shown.
したがって、上記構成によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。 Therefore, according to the said structure, the situation where a user cannot acquire the desired information shown ranging over a some web page can be avoided as much as possible.
(2) (1)に記載のウェブページ情報処理装置であって、
前記ウェブページ取得手段は、前記特徴表現データである、一連の話が始まることを示す開始データ、一連の話が継続することを示す継続データ、及び一連の話が終わることを示す終了データのうち少なくとも1つが含まれるウェブページを取得することを特徴とするウェブページ情報処理装置。
(2) The web page information processing apparatus according to (1),
The web page acquisition means includes the feature expression data, start data indicating that a series of stories starts, continuation data indicating that a sequence of stories continues, and end data indicating that a series of stories is over A web page information processing apparatus that acquires a web page including at least one.
(2)の構成によれば、一連の話が始まることを示すウェブページをユーザが閲覧したい場合に、このウェブページをユーザが探す手間を極力省くことができる。 According to the configuration of (2), when the user wants to browse a web page indicating that a series of stories starts, it is possible to save the user from searching for this web page as much as possible.
(3) (2)に記載のウェブページ情報処理装置であって、
前記ウェブページ取得手段により取得されたウェブページに含まれる日時を示す日時情報及び期間を示す期間情報に基づいて、一連の話が継続することを示すウェブページ及び一連の話が終了することを示すウェブページを判別するウェブページ判別手段を備え、
前記集約データ生成手段は、前記ウェブページ判別手段により判別された判別情報を含んで集約データを生成し、
前記結果データ生成手段は、前記キーワードに関連する集約データに含まれる判別情報に基づいて判別されるウェブページが識別された態様で前記ユーザ端末により表示されるように構成される結果データを生成することを特徴とするウェブページ情報処理装置。
(3) The web page information processing apparatus according to (2),
Based on the date and time information indicating the date and time included in the web page acquired by the web page acquisition means and the period information indicating the period, the web page indicating that the series of stories continues and the series of stories are ended. Web page discrimination means for discriminating web pages is provided,
The aggregate data generation means generates aggregate data including the discrimination information determined by the web page determination means,
The result data generation unit generates result data configured to be displayed by the user terminal in a manner in which a web page determined based on determination information included in aggregated data related to the keyword is identified. A web page information processing apparatus.
(3)の構成によれば、キーワードに関連するウェブページであったとしても、集約されるウェブページから一連の話に関わりがないウェブページが排除された態様でユーザ端末により表示されるので、複数のウェブページに跨って示される一連の話を続けて閲覧するときのユーザの負担を低減することができる。 According to the configuration of (3), even if it is a web page related to a keyword, it is displayed by the user terminal in a manner in which web pages that are not related to a series of stories are excluded from the aggregated web pages. It is possible to reduce the burden on the user when continuously browsing a series of stories shown across a plurality of web pages.
(4) (1)から(3)のいずれかに記載のウェブページ情報処理装置であって、
前記集約データ生成手段は、前記ウェブページ取得手段により取得されたウェブページのURLの情報を含んで集約データを生成するウェブページ情報処理装置。
(4) The web page information processing apparatus according to any one of (1) to (3),
The aggregated data generation unit is a web page information processing apparatus that generates aggregated data including information on the URL of the web page acquired by the web page acquisition unit.
(4)の構成によれば、ウェブページ取得手段により取得されたウェブページのURLの情報を含んで集約データが生成されるので、URLの情報が対応付けられたウェブページがユーザ端末により表示されるように構成される結果データを生成することができる。 According to the configuration of (4), since the aggregated data is generated including the information on the URL of the web page acquired by the web page acquisition unit, the web page associated with the URL information is displayed on the user terminal. Result data configured to be generated can be generated.
(5) (1)から(4)のいずれかに記載のウェブページ情報処理装置であって、
前記集約データ生成手段は、前記ウェブページ取得手段により取得されたウェブページのうちウェブページの類似度が相対的に高いウェブページを集約可能に構成された集約データを生成することを特徴とするウェブページ情報処理装置。
(5) The web page information processing apparatus according to any one of (1) to (4),
The aggregated data generation unit generates aggregated data configured to be capable of aggregating web pages having relatively high web page similarity among the web pages acquired by the web page acquiring unit. Page information processing device.
(5)の構成によれば、キーワードに関連するウェブページであったとしても、集約されるウェブページから類似度の低いウェブページが排除された態様でユーザ端末により表示されるので、複数のウェブページに跨って示される一連の話を続けて閲覧するときのユーザの負担を低減することができる。 According to the configuration of (5), even if it is a web page related to a keyword, it is displayed by the user terminal in a manner in which web pages with low similarity are excluded from the aggregated web pages. It is possible to reduce the burden on the user when browsing a series of stories shown across pages.
(6) ネットワークを介してユーザ端末と通信可能に構成されたウェブページ情報処理装置が、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するウェブページ情報処理方法であって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得ステップと、
前記ウェブページ取得ステップにより取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成ステップと、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成ステップと、
前記結果データ生成ステップによって生成された結果データを前記ユーザ端末に送信する検索結果送信ステップと、
を備えたことを特徴とするウェブページ情報処理方法。
(6) A web page information processing apparatus configured to be communicable with a user terminal via a network displays a web page searched based on a keyword designated by the user using the user terminal. A web page information processing method for transmitting result data configured to be transmitted to the user terminal,
A web page acquisition step of acquiring a web page including feature expression data representing content being shown across a plurality of web pages from a large number of web pages managed by the user using the user terminal;
An aggregated data generating step for generating aggregated data configured to be able to aggregate the webpages whose contents are related among the webpages acquired by the webpage acquiring step;
A web page that can be aggregated by aggregated data related to the keyword is configured to be displayed by the user terminal in an aggregated manner, and a web page that can be aggregated by the aggregated data related to the keyword is displayed by the user terminal. A result data generation step for generating result data configured to be displayed;
A search result transmission step of transmitting the result data generated by the result data generation step to the user terminal;
A web page information processing method characterized by comprising:
(6)の構成によれば、所望する情報が複数のウェブページに跨って示される場合であっても、ユーザが所望する情報に係るキーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるので、所望する情報が示されているウェブページを容易に特定することができるようになる。この構成によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。 According to the configuration of (6), even if the desired information is shown across a plurality of web pages, the web pages that can be aggregated by the aggregated data related to the keywords related to the information desired by the user are aggregated. Since it is displayed by the user terminal in such a manner, it becomes possible to easily specify the web page on which the desired information is shown. According to this configuration, it is possible to avoid as much as possible the situation in which the user cannot obtain desired information shown across a plurality of web pages.
(7) ネットワークを介してユーザ端末と通信可能に構成されたウェブページ情報処理装置が、前記ユーザ端末を用いてユーザにより指定されたキーワードに基づいて検索されたウェブページが前記ユーザ端末により表示されるように構成される結果データを前記ユーザ端末に送信するためのウェブページ情報処理プログラムであって、
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得ステップと、
前記ウェブページ取得ステップにより取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成ステップと、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成ステップと、
前記結果データ生成ステップによって生成された結果データを前記ユーザ端末に送信する検索結果送信ステップと、
をコンピュータに実行させることを特徴とするウェブページ情報処理プログラム。
(7) A web page information processing apparatus configured to be communicable with a user terminal via a network displays a web page searched based on a keyword designated by the user using the user terminal. A web page information processing program for transmitting result data configured to the user terminal,
A web page acquisition step of acquiring a web page including feature expression data representing content being shown across a plurality of web pages from a large number of web pages managed by the user using the user terminal;
An aggregated data generating step for generating aggregated data configured to be able to aggregate the webpages whose contents are related among the webpages acquired by the webpage acquiring step;
A web page that can be aggregated by aggregated data related to the keyword is configured to be displayed by the user terminal in an aggregated manner, and a web page that can be aggregated by the aggregated data related to the keyword is displayed by the user terminal. A result data generation step for generating result data configured to be displayed;
A search result transmission step of transmitting the result data generated by the result data generation step to the user terminal;
Web page information processing program characterized by causing a computer to execute.
(7)の構成によれば、所望する情報が複数のウェブページに跨って示される場合であっても、ユーザが所望する情報に係るキーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるので、所望する情報が示されているウェブページを容易に特定することができるようになる。この構成によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。 According to the configuration of (7), even if the desired information is shown across a plurality of web pages, web pages that can be aggregated by aggregated data related to keywords related to the information desired by the user are aggregated. Since it is displayed by the user terminal in such a manner, it becomes possible to easily specify the web page on which the desired information is shown. According to this configuration, it is possible to avoid as much as possible the situation in which the user cannot obtain desired information shown across a plurality of web pages.
本発明によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。 ADVANTAGE OF THE INVENTION According to this invention, the situation where a user cannot acquire the desired information shown ranging over a some web page can be avoided as much as possible.
以下、本発明の実施形態について図1〜図10を例に挙げて説明する。 Hereinafter, an embodiment of the present invention will be described with reference to FIGS.
[ウェブページ情報処理システム1の構成]
図1を参照して、ウェブページ情報処理システム1の構成について説明する。
[Configuration of Web Page Information Processing System 1]
The configuration of the web page
図1に示すように、ウェブページ情報処理システム1は、ウェブページ情報処理装置2、ユーザ端末81、ネットワーク82、及び公開データベースサーバ90から構成されている。ウェブページ情報処理システム1では、ネットワーク82を介してウェブページ情報処理装置2、ユーザ端末81、及び公開データベースサーバ90が相互に通信可能に構成されている。
As shown in FIG. 1, the web page
ユーザ端末81は、インターネット上で公開されている文書や画像などのコンテンツを表示させるためのウェブページをユーザが検索、閲覧等することができるように構成されている。公開データベースサーバ90は、データベース(例えば、後述のブログDB91)を備えている。公開データベースサーバ90は、外部(例えば、ユーザ端末81)からの要求に応じてデータベースを操作(例えば、データベースに格納しているデータからその要求に応じたデータを取得)して、要求元に要求に応じたデータを送信する。なお、ウェブページ情報処理装置2の構成については後述する。
The
[ウェブページ情報処理装置2の構成]
ウェブページ情報処理装置2は、ブログ解析サーバ10と検索サーバ20とデータベースサーバ30とで構成される。
[Configuration of Web Page Information Processing Apparatus 2]
The web page
ブログ解析サーバ10は、記事取得部11、特徴表現抽出部12、開始・終了記事判別部13、継続記事判別部14、ストーリー集約部15、及びインデックス生成部16を備えている。
The
記事取得部11は、ネットワーク82を介して通信可能な公開データベースサーバ90が有するブログDB91から、個人や数人のグループで運営され、管理されるウェブページで公開されている記事、いわゆるブログに掲載されている記事(以下「記事」という)を取得する。より詳細には、記事取得部11は、通信可能な複数の公開データベースサーバ90が有する複数のブログDB91から記事を取得する。
The
特徴表現抽出部12は、データベースサーバ30が有する文例DB31から、複数の記事に跨って内容が示されることを表す特徴表現データ(より詳細には、一連の話が始まることを示す開始データ、一連の話が継続することを示す継続データ、及び一連の話が終わることを示す終了データ)を取得する。なお、特徴表現データの詳細については後述する。そして、特徴表現抽出部12は、記事取得部11により取得された記事から、特徴表現データが含まれる記事を抽出する。
The feature
ここで、文例DB31は、データベースサーバ30に設けられているがこれに限られるものではない。例えば、ブログ解析サーバ10に設けられてもよいし、ウェブページ情報処理装置2の外部にある所定のデータベースサーバに設けられてもよい。なお、インデックスDB32についても同様のことが言える。他方、ブログDB91は、ウェブページ情報処理装置2の外部にある公開データベースサーバ90に設けられているがこれに限られるものではない。例えば、ブログDB91は、ウェブページ情報処理装置2の内部に設けられてもよい。即ち、ウェブページ情報処理装置2がブログDB91を含む構成であってもよい。
Here, the
このようなことを踏まえると、ウェブページ情報処理装置2は、複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、ユーザ端末81を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得手段を備えていると言える。
Based on this, the web page
開始・終了記事判別部13は、特徴表現抽出部12により抽出された記事から、一連の話が始まることを示す記事(以下「開始記事」という)及び一連の話が終わることを示す記事(以下「終了記事」という)を判別する。より詳細には、開始・終了記事判別部13は、開始データが含まれる記事を開始記事として判別し、終了データが含まれる記事を終了記事として判別する。
The start / end
継続記事判別部14は、特徴表現抽出部12により抽出された記事から、一連の話が継続することを示す記事(以下「継続記事」という)を判別する。より詳細には、継続記事判別部14は、継続データが含まれる記事を継続記事として判別する。
The continuation
ストーリー集約部15は、特徴表現抽出部12により抽出された記事から、記事の内容が関連する記事(いわゆる一連のストーリーに関わる記事)を集約する。より詳細には、ストーリー集約部15は、一の記事及び他の記事のうち少なくとも一方に含まれる日時を示す日時情報及び期間を示す期間情報に基づいて一の記事と他の記事とが関連するか否かを判別して、関連があると判別した場合に一の記事と他の記事とを集約する。例えば、ストーリー集約部15は、一の記事に日時情報「12月10日出発」及び期間情報「3泊4日の旅行に行きます」が含まれている場合に、他の記事に日時情報「12月12日の朝」が含まれているならば、これらの記事には関連があると判別する。
The
これに加え、又はこれに代えて、ストーリー集約部15は、記事の類似度に基づいて、一連のストーリーに関わる記事を集約する。即ち、ストーリー集約部15は、特徴表現抽出部12により抽出された記事のうち記事の類似度が相対的に高い記事を集約する。例えば、開始記事のタイトルに含まれる単語又はフレーズに重みをつけて、開始記事に対する類似度を求める。このとき、ストーリー集約部15は、類似度が特定の値より大きい場合に関連があると判別することが好適である。なお、類似度を求める方法は、公知の技術である。
In addition to or instead of this, the
インデックス生成部16は、ストーリー集約部15により集約された結果を示す集約データを含んだインデックスを生成する。ここで、集約データは、特徴表現抽出部12により抽出された記事のうち内容が関連する記事を集約可能に構成されている。なお、生成されたインデックスは、インデックスDB32に格納される。インデックスの詳細については後述する。
The
したがって、ウェブページ情報処理装置2は、上記ウェブページ取得手段により取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成手段を備えていると言える。
Therefore, the web page
検索サーバ20は、インデックス取得部21、検索結果生成部22、及び検索結果送信部23を備えている。
The
インデックス取得部21は、ユーザ端末81を用いてユーザにより指定されたキーワードに関連するインデックスをインデックスDB32から取得する。より詳細には、インデックス取得部21は、キーワード又はキーワードの一部が含まれるインデックスと、当該インデックスに含まれる集約データと一致する集約データが含まれるインデックスとを取得する。
The
検索結果生成部22は、インデックス取得部21により取得されたインデックスに基づいて、キーワードに関連する記事がユーザ端末81により表示されるように構成される結果データを生成する。例えば、結果データには、ユーザが記事を閲覧するためのリンクを表示するときに用いられるURLの情報が含まれている。更に、検索結果生成部22は、キーワードに関連する集約データにより集約可能な記事が集約された態様でユーザ端末81により表示されるように構成される結果データを生成している。なお、記事が集約された態様の詳細については後述する。
Based on the index acquired by the
このようなことから、ウェブページ情報処理装置2は、キーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末81により表示されるように構成され、且つ上記キーワードに関連する集約データにより集約可能なウェブページがユーザ端末81により表示されるように構成される結果データを生成する結果データ生成手段を備えていると言える。
For this reason, the web page
検索結果送信部23は、検索結果生成部22により生成された結果データをユーザ端末81に送信する。より詳細には、記事の検索の要求があったユーザ端末81に検索結果生成部22により生成された結果データを送信する。
The search
故に、ウェブページ情報処理装置2は、結果データ生成手段によって生成された結果データをユーザ端末81に送信する検索結果送信手段を備えていると言える。
Therefore, it can be said that the web page
データベースサーバ30は、文例DB31及びインデックスDB32を備えている。データベースサーバ30は、ブログ解析サーバ10(より厳密には、記事取得部11及びインデックス生成部16)と検索サーバ20(より厳密には、インデックス取得部21)とからの要求に応じて文例DB31及びインデックスDB32を操作して、要求元に要求に応じたデータを送信する。
The
以上のように、ウェブページ情報処理装置2は、上記ウェブページ取得手段と、上記集約データ生成手段と、上記結果データ生成手段と、上記検索結果送信手段と、を備えたことを特徴とする。
As described above, the web page
この構成によれば、所望する情報が複数のウェブページに跨って示される場合であっても、ユーザが所望する情報に係るキーワードに関連する集約データにより集約可能なウェブページが集約された態様でユーザ端末により表示されるので、所望する情報が示されているウェブページを容易に特定することができるようになる。したがって、ウェブページ情報処理装置2によれば、複数のウェブページに跨って示される所望する情報をユーザが取得できないという事態を極力回避することができる。
According to this configuration, even in a case where desired information is shown across a plurality of web pages, web pages that can be aggregated by aggregated data related to keywords related to information desired by the user are aggregated. Since it is displayed by the user terminal, it becomes possible to easily specify the web page on which the desired information is shown. Therefore, according to the web page
[ウェブページ情報処理システム1における主たる処理]
図2を参照して、ウェブページ情報処理システム1における主たる処理について説明する。ウェブページ情報処理システム1では、基本的に、ユーザ端末81による後述の検索要求の検出を契機として一連の処理が開始する。
[Main processing in the web page information processing system 1]
With reference to FIG. 2, main processing in the web page
(検索要求)
ユーザ端末81は、キーワードに基づく検索の要求をユーザが行う操作(以下「検索要求」という)を検出する。ユーザ端末81は、検索要求を検出すると、キーワードに関連する記事を取得するための検索要求データを検索サーバ20に送信する(検索要求送信)。なお、検索要求データには、キーワードに関する情報が含まれている。他方、検索サーバ20は、検索要求データを受信すると、受信した検索要求データをデータベースサーバ30に送信する(検索要求送信)。
(Search request)
The
(検索実行)
データベースサーバ30は、検索要求データを受信すると、検索要求データに含まれるキーワードの情報(言い換えるならば、ユーザ端末81を用いてユーザにより指定されたキーワード)に基づいて、キーワードに関連するインデックスをインデックスDB32から取得する。データベースサーバ30は、キーワードに関連するインデックスを取得すると、インデックスの情報を含んだインデックス返信データを検索サーバ20に送信する(結果返信)。
(Search execution)
Upon receiving the search request data, the
(結果データ生成)
検索サーバ20は、インデックス返信データを受信すると、インデックス返信データに含まれるインデックスの情報に基づいて、結果データを生成する。検索サーバ20は、結果データを生成すると、結果データをユーザ端末81に送信する(結果返信)。
(Result data generation)
Upon receiving the index reply data, the
(結果表示)
ユーザ端末81は、結果データを受信すると、結果データに応じた画面を表示する。より詳細には、ユーザ端末81により、キーワードに関連する記事が集約された態様で表示されると共に、キーワードに関連する記事が閲覧され得る態様で表示される(例えば、ユーザがキーワードに関連する記事を閲覧するためのリンクが表示される)。なお、画面の例については後述する。
(Result display)
When the
(記事要求)
ユーザ端末81は、結果データに応じた画面に基づく記事の要求をユーザが行う操作(以下「記事要求」という)を検出する。ユーザ端末81は、記事要求を検出すると、ユーザにより指定された記事を取得するための閲覧要求データを公開データベースサーバ90に送信する(記事閲覧要求送信)。
(Article request)
The
(記事取得)
公開データベースサーバ90は、閲覧要求データを受信すると、閲覧要求データに対応する記事をデータベース(例えば、ブログDB91)から取得する。公開データベースサーバ90は、閲覧要求データに対応する記事を取得すると、この記事がユーザ端末81により表示されるように構成された記事データをユーザ端末81に送信する(結果返信)。
(Get articles)
When the
(結果表示)
ユーザ端末81は、記事データを受信すると、記事データに応じた記事を表示する。このように、ウェブページ情報処理システム1では一連の処理が行われる。
(Result display)
When receiving the article data, the
[ユーザ端末81により表示される画面の例]
図3を参照して、ユーザ端末81により表示される画面の例について説明する。図3には、結果データに応じた画面の一例である結果表示画面40が示されている。結果表示画面40は、主に、テキストボックス41、検索ボタン42、検索モード切替えリンク43、タイトル44、開始リンク45、継続リンク46、終了リンク47、及びページ切替えリンク48とで構成されている。
[Example of screen displayed by user terminal 81]
An example of a screen displayed by the
テキストボックス41は、ユーザが所望する記事に関連したキーワードを入力するために設けられた入力部である。検索ボタン42は、ユーザが検索を要求する操作を行うために設けられた操作部である。検索モード切替えリンク43は、従来の検索である通常検索と一連のストーリーに関わる記事を検索するストーリー検索とを切替えるために設けられた検索モード切替え部である。タイトル44は、キーワードに基づいて検索された記事に示される一連の話のタイトルである。開始リンク45は、開始記事の照会部である。例えば、ユーザが後述の入力手段を用いて開始リンク45を押すと、ユーザ端末81には、開始記事が表示される。継続リンク46は、継続記事の照会部である。終了リンク47は、終了記事の照会部である。ページ切替えリンク48は、集約された記事のうち画面に表示されていない記事を参照するために設けられたページ切替え部である。
The
ここで、ユーザが後述の入力手段を用いて、キーワードとして「初めて 海外旅行」をテキストボックス41に入力して、検索ボタン42を押した場合にユーザ端末81により表示されるときの画面の一例である結果表示画面40の特質について説明する。なお、検索のモードとしてストーリー検索が指定されているが、これが指定される時機は、検索ボタン42が押される前であってもよいし、検索ボタン42が押された後であってもよい。
Here, an example of a screen displayed by the
結果表示画面40には、キーワードに関連する記事が集約された態様が示されている。集約された態様は、例えば、開始リンク45、継続リンク46、及び終了リンク47の態様である。これらは、ユーザが認識しやすいように整列されている。更に、これらは、ユーザが認識しやすいように識別されている。
The
より詳細には、開始リンク45、継続リンク46、及び終了リンク47は、海外旅行に関する一連の体験談が展開される順序に従って数字が付されて整列されている。そして、開始リンク45には、海外旅行に関する一連の体験談が始まることを示す単語(或は、フレーズ)として、例えば「はじまり」が付されて開始記事が識別されている。他方、終了リンク47には、海外旅行に関する一連の体験談が終わることを示す単語(或は、フレーズ)として、例えば「おしまい」が付されて終了記事が識別されている。
More specifically, the
これらを踏まえると、一連の体験談が複数の記事に跨り示される場合であったとしても、これらの記事が集約され、整列され、更には、識別された態様で表示されているので、雑多な記事が蓄積されているデータベースの中から、閲覧したい一連の体験談を探しながら読み進めるというユーザの手間を省くことができるようになる。 Based on these, even if a series of experiences is shown across multiple articles, these articles are aggregated, aligned, and displayed in an identified manner, so This makes it possible to save the user from having to read through a series of experiences that he wants to browse from a database of articles.
[特徴表現データの例]
図4及び図5を参照して、特徴表現データの例について説明する。図4及び図5には、IDと属性と特徴表現データの内容(特徴表現)とが示されている。
[Example of feature expression data]
An example of feature expression data will be described with reference to FIGS. 4 and 5. 4 and 5 show the ID, the attribute, and the content of the feature expression data (feature expression).
IDは、文例DB31の中から、あるレコード(言い換えるならば、特徴表現データ)を一意に識別するための情報である。属性は、記事を構成する部分のうち特徴表現データが含まれる可能性が相対的に高い部分(例えば、タイトル、本文など)を示すものである。そして、特徴表現データには、属性が対応付けられている。一般に、属性「A」が対応付けられた特徴表現データは、タイトルに含まれることが多く、「B」が対応付けられた特徴表現データは、本文に含まれることが多い。
The ID is information for uniquely identifying a certain record (in other words, feature expression data) from the
ここで、ID「1」に対応する「第 #NUM 話」、ID「40」に対応する「中編」、及びID「193」に対応する「おしまい」を例に挙げて、特徴表現データについて説明する。なお、「#NUM」は、基本的に、任意の自然数である。よって、「第 #NUM 話」は、「第1話」、「第2話」、「第3話」などを示すことになる。
Here, with respect to the feature expression data, “Example #NUM” corresponding to ID “1”, “
例えば、特徴表現が「第1話」である場合には、この特徴表現に係る特徴表現データが開始データであることを意味する。特徴表現が「中編」である場合には、この特徴表現に係る特徴表現データが継続データであることを意味する。特徴表現が「おしまい」である場合には、この特徴表現に係る特徴表現データが終了データであることを意味する。このように、特徴表現データは、複数の記事に跨って一連の内容が示されることを表すと共に、開始記事、継続記事、及び終了記事を識別することができるデータである。なお、特徴表現が「第2話」である場合には、この特徴表現に係る特徴表現データが継続データ又は終了データであることを意味するが、継続データ及び終了データの何れであるかは、日時情報、期間情報などに基づいて決定されている。 For example, when the feature expression is “first episode”, it means that the feature expression data related to this feature expression is start data. When the feature expression is “second edition”, it means that the feature expression data related to this feature expression is continuous data. When the feature expression is “end”, it means that the feature expression data related to this feature expression is end data. As described above, the feature expression data is data that represents that a series of contents are shown across a plurality of articles and can identify a start article, a continuation article, and an end article. In addition, when the feature expression is “second episode”, it means that the feature expression data related to this feature expression is continuation data or end data. It is determined based on date information, period information, and the like.
なお、特徴表現データの追加、変更、及び削除は、手動で行われてもよいし、機械学習の技術を適用して行われてもよい。機械学習には、サポートベクタマシンやナイーブベイズなどという公知の手法があり、それらを用いることで後述の重みが決定され、決定された重みに基づいて特徴表現(例えば、特徴的な単語)を獲得することができる。 The addition, change, and deletion of feature expression data may be performed manually or may be performed by applying a machine learning technique. For machine learning, there are known methods such as support vector machine and naive bayes, and the weights described later are determined by using them, and feature expressions (for example, characteristic words) are acquired based on the determined weights. can do.
即ち、ブログ解析サーバ10は、機械学習により重みを決定する重み決定手部と、この重みに基づいて特徴表現を獲得する特徴表現獲得部と、を備えてもよい。このとき、ブログ解析サーバ10は、所定の記事が単発の記事(以下「単発記事」という)であるか否か、言い換えるならば、所定の記事が連続の記事(以下「連続記事」という)であるか否かを所定の記事に含まれる語(例えば、名詞、動詞)の重みに基づいて判別する単発・連続記事判別部を備えることが好ましい。
That is, the
図6を参照して、ブログ解析サーバ10が単発記事及び連続記事を判別する例について説明する。初めに、ブログ解析サーバ10が以下のステップ1〜ステップ3の処理を行い、重みを決定する一例について説明する。
An example in which the
(ステップ1)
学習に必要な記事がブログ解析サーバ10に与えられる。例えば、学習事例の表に示す4つの記事がブログ解析サーバ10に与えられる。なお、図6に示す属性では、連続記事を「I」、単発記事を「B」と表記する。
(Step 1)
Articles necessary for learning are given to the
(ステップ2)
ブログ解析サーバ10は、記事に含まれる語を取り出し、これらの語が出現する回数(いわゆる出現回数)を計数する。その結果は、例えば、出現回数の表のようになる。なお、語の横の数字は、出現回数を示す。
(Step 2)
The
(ステップ3)
ブログ解析サーバ10は、機械学習でそれぞれに重みをつけ、リスト(いわゆる重みリスト)を作成する。その結果は、例えば、重みリストの表のようになる。実施の形態では、例えば、連続記事である記事NO.1が単発記事であるとブログ解析サーバ10により判定されたときに、「夜遊び」の重みが「0」であった場合には、重みを「1」(=「0+1」)とする。なお、「昨日」、「初めて」、「夜」、「バンフ」、「町」、「出かける」についても同様である。他方、単発記事である記事NO.4が連続記事であるとブログ解析サーバ10により判定されたときに、「おはよう」の重みが「0」であった場合には、重みを「−1」(=「0+(−1)」)とする。なお、「朝」、「しわ」、「足」、「見せる」、「失礼」についても同様である。
(Step 3)
The
即ち、ブログ解析サーバ10は、単発記事及び連続記事の判定を誤った場合に、記事内の各語について、出現回数だけ重みを変える。そして、ブログ解析サーバ10は、何回も(例えば、10回、理想的には、全ての事例が正解するまで)判定を繰り返して最終的な重みを決定する。この結果、重みが大きい語が特徴表現となる。なお、重みリストには、人手で作成した特徴表現が(例えば、大きい重みをつけて)加えられてもよい。
That is, the
そして、ブログ解析サーバ10は、重みが大きい語を多く含んだ記事が連続記事でると判別する。この判別については、「昨日はお土産やさんへ行きました。ここで、お土産をさらに買って荷物を送れないか相談。」という記事がブログ解析サーバ10に与えられた場合を例に挙げて説明する。
Then, the
先ず、ブログ解析サーバ10は、上記記事から語及び語の出現回数(この例では、「昨日:1、お土産:2、行く:1、買う:1、荷物:1、送る:1、相談:1」)を取り出す。続いて、ブログ解析サーバ10は、語の出現回数と重みリストの重みとに基づいてスコアを算出する。より詳細には、ブログ解析サーバ10は、語の出現回数とその語に対応する重みの値との乗算によりスコアを算出する。続いて、ブログ解析サーバ10は、この記事に含まれる各語から求めたスコアの総和を算出する。この例では、総和は、28×1+11×2+7×1=57となる。最後に、ブログ解析サーバ10は、この総和がある閾値以上(例えば、0以上)であるので、この記事を連続記事であると判別する。なお、ブログ解析サーバ10は、この総和が上記閾値未満であるならば、この記事を単発記事であると判別する。
First, the
[インデックスの例]
図7を参照して、インデックスの例について説明する。図7には、ID、区分、状態識別子、URL、タイトル、及び本文(抜粋)が示されている。なお、図7に示す「・・・」では、例の記載を省略している。
[Example of index]
An example of an index will be described with reference to FIG. FIG. 7 shows an ID, a category, a state identifier, a URL, a title, and a text (excerpt). In addition, description of an example is abbreviate | omitted in "..." shown in FIG.
IDは、インデックスDB32の中から、あるレコード(言い換えるならば、インデックス)を一意に識別するための情報である。区分は、集約データを識別するための情報である。状態識別子は、開始記事、継続記事、及び終了記事の各々を識別するための情報である。URLは、記事の場所を示すものである。タイトルは、記事のタイトルを示すものである。本文(抜粋)は、記事の本文の一部を示すものである。より詳細には、本文(抜粋)は、本文からタイトルと関連が高い部分を所定の文字数だけ抜粋したものである。なお、本文の抜粋に代えて、本文の全体を採用してもよい。
The ID is information for uniquely identifying a certain record (in other words, an index) from the
インデックスは、ID、区分、状態識別子、URL、タイトル、及び本文(抜粋)により構成されているがこれに限られるものではない。例えば、インデックスは、これらに加え、記事が作成された日時を含んで構成されてもよい。また、例えば、インデックスは、区分、状態識別子、及びURLにより構成されてもよい。この場合には、検索サーバ20は、検索要求送信に代えて、公開データベースサーバ90よりキーワードに関連する記事のURLを取得するようにする。そして、検索サーバ20は、インデックスDB32を参照して、取得したURLに基づいてインデックスを検索する構成とする。
The index is composed of an ID, a category, a status identifier, a URL, a title, and a text (extract), but is not limited thereto. For example, the index may be configured to include the date and time when the article was created in addition to these. Further, for example, the index may be configured by a section, a state identifier, and a URL. In this case, the
[ブログ解析サーバ10の動作]
図8を参照して、ブログ解析サーバ10で実行される主たる処理について説明する。
[Operation of Blog Analysis Server 10]
With reference to FIG. 8, the main processing executed in the
初めに、ブログ解析サーバ10は、ブログDB91を参照し、記事を取得する(S1)。このとき、ブログ解析サーバ10は、一のブログDB91から記事を取得し、S2〜S9の処理が行われた後に他のブログDB91から記事を取得する構成が好適である。即ち、ブログDB91毎にS1〜S9の処理が行われる構成としてもよい。
First, the
続いて、ブログ解析サーバ10は、文例DB31を参照し、特徴表現データを取得する(S2)。なお、S1の処理が行われてからS2の処理が行われる構成であるが、これに限られるものではない。S2の処理が行われてからS1の処理が行われる構成としてもよいし、S1の処理及びS2の処理が並列で行われる構成としてもよい。
Subsequently, the
続いて、ブログ解析サーバ10は、記事のタイトルに特徴表現が含まれる記事を抽出する(S3)。より詳細には、ブログ解析サーバ10は、記事のタイトルに属性が「A」である特徴表現データが含まれる記事を抽出する。
Subsequently, the
続いて、ブログ解析サーバ10は、記事の本文に特徴表現が含まれる記事を抽出する(S4)。より詳細には、ブログ解析サーバ10は、記事の本文に属性が「B」である特徴表現データが含まれる記事を抽出する。このとき、S3で抽出した記事を除いた記事の中から記事を抽出することが好適である。なお、ブログ解析サーバ10は、記事の本文に属性が「B」である特徴表現データが含まれる記事を抽出する構成を採用しているが、これに限られるものではない。例えば、ブログ解析サーバ10は、記事の本文に属性が「A」又は「B」である特徴表現データが含まれる記事を抽出する構成としてもよい。
Subsequently, the
続いて、ブログ解析サーバ10は、抽出した記事から開始記事及び終了記事を判別する(S5)。より詳細には、ブログ解析サーバ10は、抽出した記事に開始データが含まれるか否かを判別する。このとき、ブログ解析サーバ10は、開始データが含まれると判別した場合に状態識別子が「S」を示す判別データを生成する。更に、ブログ解析サーバ10は、抽出した記事に終了データが含まれるか否かを判別する。このとき、ブログ解析サーバ10は、終了データが含まれると判別した場合に状態識別子が「E」を示す判別データを生成する。
Subsequently, the
続いて、ブログ解析サーバ10は、抽出した記事から継続記事を判別する(S6)。より詳細には、ブログ解析サーバ10は、抽出した記事に継続データが含まれるか否かを判別する。このとき、ブログ解析サーバ10は、継続データが含まれると判別した場合に状態識別子が「C」を示す判別データを生成する。
Subsequently, the
続いて、ブログ解析サーバ10は、内容が関連する記事を集約する(S7)。より詳細には、ブログ解析サーバ10は、日時情報及び期間情報に基づいて一の記事と他の記事とが関連するか否かを判別する。このとき、ブログ解析サーバ10は、関連があると判別した場合に一の記事と他の記事とを集約可能に構成された集約データを生成する。生成された集約データには、区分の情報、URLの情報、及び判別データ等が含まれている。
Subsequently, the
他方、ブログ解析サーバ10は、集約した記事の中から、日時情報及び期間情報に基づいて継続記事及び終了記事を判別する。例えば、ブログ解析サーバ10は、一の記事に日時情報「12月10日出発」及び期間情報「3泊4日の旅行に行きます」が含まれている場合に、他の記事に日時情報「12月12日の朝」が含まれているならば、他の記事が継続記事であると判別し、他の記事に期間情報の最終日を示す日時情報「12月13日の朝」が含まれているならば、基本的に、他の記事が終了記事であると判別する。ただし、集約された記事の中に他の記事に示される日時情報よりも後の日時情報(例えば、「12月18日の朝」)が含まれている類似度が相対的に高い記事があるならば、他の記事に期間情報の最終日(或は最終時)を示す日時情報が含まれていても、当該記事は、継続記事であると判別されることがある。
On the other hand, the
このようなことを踏まえると、ウェブページ情報処理装置2は、前記ウェブページ取得手段により取得されたウェブページに含まれる日時を示す日時情報及び期間を示す期間情報に基づいて、一連の話が継続することを示すウェブページ及び一連の話が終了することを示すウェブページを判別するウェブページ判別手段を備えていると言える。
Based on this, the web page
ここで、図7を参照して上述の内容を説明する。ブログ解析サーバ10は、日時情報及び期間情報に基づいて継続記事を判別するときに、例えば、ID「2」に対応する継続記事、ID「3」に対応する継続記事、ID「4」に対応する継続記事に従って話が進展すると判別した場合には、これらに対応する状態識別子に「1」、「2」、「3」という識別子を付す。したがって、状態識別子は、開始記事、継続記事、及び終了記事の各々を識別すると共に、一連の話が進展する順序を識別するための情報である。即ち、ブログ解析サーバ10は、集約された記事が一連の話となるようにこれらの記事を結合するストーリー結合手段を備えていると言える。
Here, the above-mentioned content is demonstrated with reference to FIG. When the
続いて、ブログ解析サーバ10は、判別した結果及び集約した結果に基づいてインデックスを生成する(S8)。より詳細には、ブログ解析サーバ10は、集約データを含んだインデックスを生成する。
Subsequently, the
続いて、ブログ解析サーバ10は、生成したインデックスを登録するための登録要求データをデータベースサーバ30に送信する(S9)。そして、データベースサーバ30は、登録要求データを受信すると、登録要求データに対応するインデックスをインデックスDB32に格納する。
Subsequently, the
なお、図示は省略しているが、これらの処理は、基本的に、所定の周期(好ましくは1日1回の周期)で、自動的に開始する(いわゆるバッチ処理)。ただし、検索ボタン42が押されたことを契機に開始するように構成されてもよい(いわゆるリアルタイム処理)。リアルタイム処理を採用したならば、S1では、キーワードに関連する記事を取得することが好適である。そして、S9の後に、又はこれに代えて、ブログ解析サーバ10は、生成したインデックス(即ち、インデックスの情報が含まれるインデックスデータ)を検索サーバ20に送信する。そして、検索サーバ20は、インデックスデータを受信すると、このインデックスデータに基づいて結果データを生成する。
Although illustration is omitted, these processes basically start automatically at a predetermined cycle (preferably once a day) (so-called batch processing). However, it may be configured to start when the
[検索サーバ20の動作]
図9を参照して、検索サーバ20で実行される主たる処理について説明する。
[Operation of Search Server 20]
With reference to FIG. 9, main processing executed by the
初めに、検索サーバ20は、インデックスDB32を参照して、結果データを生成する(S11)。例えば、キーワードが「初めて 海外旅行」である場合には、検索サーバ20は、タイトル及び本文(抜粋)にキーワード又はキーワードの一部(なお、キーワードに関連する文字であってもよい)が含まれるインデックスを検索する。このとき、IDが「1」であるインデックスが検索された場合には、区分が「1」である全てのインデックスを取得する。具体的には、検索サーバ20は、取得したインデックスに含まれるURLに基づいて集約された各記事がユーザ端末81により表示されるように構成され、取得したインデックスに含まれる区分「1」に基づいて集約可能なID「1」〜「5」に対応する記事が集約された態様でユーザ端末81により表示されるように構成され、且つ取得したインデックスに含まれる状態識別子「S」、「C」、及び「E」に基づいて開始記事、継続記事、及び終了記事が識別された態様でユーザ端末81により表示されるように構成される結果データを生成する。なお、複数の結果データが生成され得るならば、開始記事が作成された日時の降順に上記内容がユーザ端末81により表示されるように各結果データが生成されてもよいし、キーワードに関連する度合いが高い順に上記内容がユーザ端末81により表示されるように各結果データが生成されてもよい。更には、これらをユーザが指定できる構成が好適である。
First, the
続いて、検索サーバ20は、結果データをユーザ端末81に送信する(S12)。
Subsequently, the
[サーバのハードウェアの構成]
図10は、ブログ解析サーバ10、検索サーバ20、データベースサーバ30、及び公開データベースサーバ90(以下「サーバ」という)のハードウェアの構成を示す図である。制御部を構成するCPU110(マルチプロセッサ構成ではCPU120等複数のCPUが追加されてもよい)、バスライン105、通信I/F140、メインメモリ150、BIOS160、USBポート190、I/Oコントローラ170、並びにキーボード及びマウス180等の入力手段や表示装置122を備える。
[Server hardware configuration]
FIG. 10 is a diagram illustrating a hardware configuration of the
I/Oコントローラ170には、テープドライブ172、ハードディスク174、光ディスクドライブ176、半導体メモリ178等の記憶手段を接続することができる。
Storage means such as a
BIOS160は、サーバの起動時にCPU110が実行するブートプログラムや、サーバのハードウェアに依存するプログラム等を格納する。
The
ハードディスク174は、サーバとして機能するための各種プログラム及び本実施形態の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
The
光ディスクドライブ176としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク177を使用する。光ディスク177から光ディスクドライブ176によりプログラム又はデータを読み取り、I/Oコントローラ170を介してメインメモリ150又はハードディスク174に提供することもできる。また、同様にテープドライブ172に対応したテープメディア171を主としてバックアップのために使用することもできる。
As the
サーバに提供されるプログラムは、ハードディスク174、光ディスク177、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ170を介して、記録媒体から読み出され、又は通信I/F140を介してダウンロードされることによって、サーバにインストールされ実行されてもよい。
The program provided to the server is provided by being stored in a recording medium such as the
上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、ハードディスク174、光ディスク177、又はメモリーカードの他に、MD等の光磁気記録媒体、テープメディア171を用いることができる。また、専用通信回線やインターネット等の通信回線に接続されたサーバシステムに設けたハードディスク174又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、インターネットを介してプログラムをサーバに提供してもよい。
The above program may be stored in an internal or external storage medium. Here, in addition to the
ここで、表示装置122は、各種画面を表示したり、サーバによる演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
Here, the
また、通信I/F140は、サーバをネットワーク82(例えば、専用ネットワーク、公共ネットワークなど)を介してユーザ端末81と接続できるようにするためのネットワーク・アダプタである。通信I/F140は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
The communication I /
以上の例は、サーバについて主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバとして動作させることにより上記で説明した機能を実現することもできる。したがって、本実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。 In the above example, the server has been mainly described. However, the functions described above can be realized by installing a program in a computer and operating the computer as a server. Therefore, the functions realized by the server described as the present embodiment can be realized by executing the above-described method by the computer, or by introducing the above-described program into the computer and executing it.
以上、実施形態について説明したが、本発明は上述した実施形態に限られるものではない。また、本発明による効果は、実施形態に記載されたものに限定されるものではない。 Although the embodiment has been described above, the present invention is not limited to the above-described embodiment. Moreover, the effect by this invention is not limited to what was described in embodiment.
1 ウェブページ情報処理システム
2 ウェブページ情報処理装置
10 ブログ解析サーバ
11 記事取得部
12 特徴表現抽出部
13 開始・終了記事判別部
14 継続記事判別部
15 ストーリー集約部
16 インデックス生成部
20 検索サーバ
21 インデックス取得部
22 検索結果生成部
23 検索結果送信部
30 データベースサーバ
31 文例DB
32 インデックスDB
DESCRIPTION OF
32 Index DB
Claims (7)
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得手段と、
前記ウェブページ取得手段により取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成手段と、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成手段と、
前記結果データ生成手段によって生成された結果データを前記ユーザ端末に送信する検索結果送信手段と、
を備えたことを特徴とするウェブページ情報処理装置。 Result data configured to be communicable with a user terminal via a network and configured to display a web page searched based on a keyword specified by a user using the user terminal is displayed by the user terminal. A web page information processing apparatus for transmitting to a user terminal,
Web page acquisition means for acquiring a web page including feature expression data representing content being shown across a plurality of web pages from a number of web pages managed by the user using the user terminal;
Aggregated data generating means for generating aggregated data configured to be capable of aggregating web pages related to the content among the web pages acquired by the web page acquiring means;
A web page that can be aggregated by aggregated data related to the keyword is configured to be displayed by the user terminal in an aggregated manner, and a web page that can be aggregated by the aggregated data related to the keyword is displayed by the user terminal. Result data generating means for generating result data configured to be displayed;
Search result transmitting means for transmitting result data generated by the result data generating means to the user terminal;
A web page information processing apparatus comprising:
前記ウェブページ取得手段は、前記特徴表現データである、一連の話が始まることを示す開始データ、一連の話が継続することを示す継続データ、及び一連の話が終わることを示す終了データのうち少なくとも1つが含まれるウェブページを取得することを特徴とするウェブページ情報処理装置。 The web page information processing apparatus according to claim 1,
The web page acquisition means includes the feature expression data, start data indicating that a series of stories starts, continuation data indicating that a sequence of stories continues, and end data indicating that a series of stories is over A web page information processing apparatus that acquires a web page including at least one.
前記ウェブページ取得手段により取得されたウェブページに含まれる日時を示す日時情報及び期間を示す期間情報に基づいて、一連の話が継続することを示すウェブページ及び一連の話が終了することを示すウェブページを判別するウェブページ判別手段を備え、
前記集約データ生成手段は、前記ウェブページ判別手段により判別された判別情報を含んで集約データを生成し、
前記結果データ生成手段は、前記キーワードに関連する集約データに含まれる判別情報に基づいて判別されるウェブページが識別された態様で前記ユーザ端末により表示されるように構成される結果データを生成することを特徴とするウェブページ情報処理装置。 The web page information processing apparatus according to claim 2,
Based on the date and time information indicating the date and time included in the web page acquired by the web page acquisition means and the period information indicating the period, the web page indicating that the series of stories continues and the series of stories are ended. Web page discrimination means for discriminating web pages is provided,
The aggregate data generation means generates aggregate data including the discrimination information determined by the web page determination means,
The result data generation unit generates result data configured to be displayed by the user terminal in a manner in which a web page determined based on determination information included in aggregated data related to the keyword is identified. A web page information processing apparatus.
前記集約データ生成手段は、前記ウェブページ取得手段により取得されたウェブページのURLの情報を含んで集約データを生成するウェブページ情報処理装置。 The web page information processing apparatus according to any one of claims 1 to 3,
The aggregated data generation unit is a web page information processing apparatus that generates aggregated data including information on the URL of the web page acquired by the web page acquisition unit.
前記集約データ生成手段は、前記ウェブページ取得手段により取得されたウェブページのうちウェブページの類似度が相対的に高いウェブページを集約可能に構成された集約データを生成することを特徴とするウェブページ情報処理装置。 The web page information processing apparatus according to claim 1,
The aggregated data generation unit generates aggregated data configured to be capable of aggregating web pages having relatively high web page similarity among the web pages acquired by the web page acquiring unit. Page information processing device.
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得ステップと、
前記ウェブページ取得ステップにより取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成ステップと、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成ステップと、
前記結果データ生成ステップによって生成された結果データを前記ユーザ端末に送信する検索結果送信ステップと、
を備えたことを特徴とするウェブページ情報処理方法。 A web page information processing apparatus configured to be communicable with a user terminal via a network so that a web page searched based on a keyword specified by a user using the user terminal is displayed by the user terminal. A web page information processing method for transmitting result data configured to the user terminal,
A web page acquisition step of acquiring a web page including feature expression data representing content being shown across a plurality of web pages from a large number of web pages managed by the user using the user terminal;
An aggregated data generating step for generating aggregated data configured to be able to aggregate the webpages whose contents are related among the webpages acquired by the webpage acquiring step;
A web page that can be aggregated by aggregated data related to the keyword is configured to be displayed by the user terminal in an aggregated manner, and a web page that can be aggregated by the aggregated data related to the keyword is displayed by the user terminal. A result data generation step for generating result data configured to be displayed;
A search result transmission step of transmitting the result data generated by the result data generation step to the user terminal;
A web page information processing method characterized by comprising:
複数のウェブページに跨って内容が示されることを表す特徴表現データが含まれるウェブページを、前記ユーザ端末を用いてユーザにより管理される多数のウェブページから取得するウェブページ取得ステップと、
前記ウェブページ取得ステップにより取得されたウェブページのうち内容が関連するウェブページを集約可能に構成された集約データを生成する集約データ生成ステップと、
前記キーワードに関連する集約データにより集約可能なウェブページが集約された態様で前記ユーザ端末により表示されるように構成され、且つ前記キーワードに関連する集約データにより集約可能なウェブページが前記ユーザ端末により表示されるように構成される結果データを生成する結果データ生成ステップと、
前記結果データ生成ステップによって生成された結果データを前記ユーザ端末に送信する検索結果送信ステップと、
を備えたことを特徴とするウェブページ情報処理プログラム。 A web page information processing apparatus configured to be communicable with a user terminal via a network so that a web page searched based on a keyword specified by a user using the user terminal is displayed by the user terminal. A web page information processing program for transmitting the configured result data to the user terminal,
A web page acquisition step of acquiring a web page including feature expression data representing content being shown across a plurality of web pages from a large number of web pages managed by the user using the user terminal;
An aggregated data generating step for generating aggregated data configured to be able to aggregate the webpages whose contents are related among the webpages acquired by the webpage acquiring step;
A web page that can be aggregated by aggregated data related to the keyword is configured to be displayed by the user terminal in an aggregated manner, and a web page that can be aggregated by the aggregated data related to the keyword is displayed by the user terminal. A result data generation step for generating result data configured to be displayed;
A search result transmission step of transmitting the result data generated by the result data generation step to the user terminal;
A web page information processing program comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007112831A JP4808181B2 (en) | 2007-04-23 | 2007-04-23 | Web page information processing apparatus, web page information processing method, and web page information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007112831A JP4808181B2 (en) | 2007-04-23 | 2007-04-23 | Web page information processing apparatus, web page information processing method, and web page information processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008269392A true JP2008269392A (en) | 2008-11-06 |
JP4808181B2 JP4808181B2 (en) | 2011-11-02 |
Family
ID=40048784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007112831A Active JP4808181B2 (en) | 2007-04-23 | 2007-04-23 | Web page information processing apparatus, web page information processing method, and web page information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4808181B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010250785A (en) * | 2009-04-16 | 2010-11-04 | Yahoo Japan Corp | Server device and method for transmitting message in retrieval system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003319308A (en) * | 2002-02-21 | 2003-11-07 | Matsushita Electric Ind Co Ltd | Record/playback device and record/playback program |
JP2004264928A (en) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | In-web site retrieval method and device, in-web site retrieval program, and storage medium recording the program |
WO2004095314A2 (en) * | 2003-04-23 | 2004-11-04 | David Watt Stevenson | System and method for navigating through websites and like information sources |
JP2006085376A (en) * | 2004-09-15 | 2006-03-30 | Canon Inc | Image forming device, image forming method, computer program and computer-readable storage medium |
JP2006277090A (en) * | 2005-03-28 | 2006-10-12 | Nec Personal Products Co Ltd | Web page processing program |
-
2007
- 2007-04-23 JP JP2007112831A patent/JP4808181B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003319308A (en) * | 2002-02-21 | 2003-11-07 | Matsushita Electric Ind Co Ltd | Record/playback device and record/playback program |
JP2004264928A (en) * | 2003-02-28 | 2004-09-24 | Nippon Telegr & Teleph Corp <Ntt> | In-web site retrieval method and device, in-web site retrieval program, and storage medium recording the program |
WO2004095314A2 (en) * | 2003-04-23 | 2004-11-04 | David Watt Stevenson | System and method for navigating through websites and like information sources |
JP2006085376A (en) * | 2004-09-15 | 2006-03-30 | Canon Inc | Image forming device, image forming method, computer program and computer-readable storage medium |
JP2006277090A (en) * | 2005-03-28 | 2006-10-12 | Nec Personal Products Co Ltd | Web page processing program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010250785A (en) * | 2009-04-16 | 2010-11-04 | Yahoo Japan Corp | Server device and method for transmitting message in retrieval system |
Also Published As
Publication number | Publication date |
---|---|
JP4808181B2 (en) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9430573B2 (en) | Coherent question answering in search results | |
JP5264892B2 (en) | Multilingual information search | |
US9251206B2 (en) | Generalized edit distance for queries | |
EP1988476B1 (en) | Hierarchical metadata generator for retrieval systems | |
US11126630B2 (en) | Ranking partial search query results based on implicit user interactions | |
KR101027999B1 (en) | Inferring search category synonyms from user logs | |
US8370334B2 (en) | Dynamic updating of display and ranking for search results | |
US9418128B2 (en) | Linking documents with entities, actions and applications | |
US8204891B2 (en) | Method and subsystem for searching media content within a content-search-service system | |
JP4917061B2 (en) | Characteristic keyword detection apparatus, characteristic keyword detection method, program, and recording medium | |
US20090248662A1 (en) | Ranking Advertisements with Pseudo-Relevance Feedback and Translation Models | |
JP2009169541A (en) | Web page retrieval server and query recommendation method | |
JP2005128873A (en) | Question/answer type document retrieval system and question/answer type document retrieval program | |
JP2011529600A (en) | Method and apparatus for relating datasets by using semantic vector and keyword analysis | |
JP2021507350A (en) | Reinforcement evidence retrieval of complex answers | |
KR20210103401A (en) | Method and system for providing information to a user relating to a point-of-interest | |
JP5084673B2 (en) | Product information retrieval apparatus, method and system | |
US9015172B2 (en) | Method and subsystem for searching media content within a content-search service system | |
CN109952571B (en) | Context-based image search results | |
US20190065502A1 (en) | Providing information related to a table of a document in response to a search query | |
US9064014B2 (en) | Information provisioning device, information provisioning method, program, and information recording medium | |
JP4808181B2 (en) | Web page information processing apparatus, web page information processing method, and web page information processing program | |
JP5777663B2 (en) | Search support device and search support program | |
JP4871650B2 (en) | Method, server, and program for transmitting item data | |
JP4146067B2 (en) | Document search system and document search method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110816 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4808181 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |