JP2006268771A - Retrieval result providing device - Google Patents

Retrieval result providing device Download PDF

Info

Publication number
JP2006268771A
JP2006268771A JP2005089866A JP2005089866A JP2006268771A JP 2006268771 A JP2006268771 A JP 2006268771A JP 2005089866 A JP2005089866 A JP 2005089866A JP 2005089866 A JP2005089866 A JP 2005089866A JP 2006268771 A JP2006268771 A JP 2006268771A
Authority
JP
Japan
Prior art keywords
information
web page
search
page
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005089866A
Other languages
Japanese (ja)
Inventor
Masanori Yoshimoto
雅則 吉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005089866A priority Critical patent/JP2006268771A/en
Publication of JP2006268771A publication Critical patent/JP2006268771A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a retrieval result providing device, for enabling a user to efficiently acquire information in acquisition of information from Web pages based on their update information. <P>SOLUTION: This device comprises an input information determination part 12 accepting input of a retrieval keyword and rearrangement instruction from a user; a retrieval part 13 retrieving Web pages disclosed on a network with the retrieval keyword; a page content acquisition part 24 acquiring identification information for identifying Web pages; a page update date acquisition part 25 acquiring update information for the Web pages; a retrieval result storage part 26 storing result information composed of pairs of identification information of Web pages and update information of the Web pages; a rearrangement part 14 rearranging, based on the rearrangement instruction, result information stored in the retrieval result storage part 26 in descending order or ascending order of update information; and a retrieval result list transmission part 15 transmitting the result information rearranged by the rearrangement part 14. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、ウェブページを検索し、その検索結果をユーザに提供する検索結果提供装置に関する。   The present invention relates to a search result providing apparatus that searches a web page and provides a search result to a user.

近年、パーソナルコンピュータ(PC)の普及やネットワークの発達により、ネットワーク上に分散した多数の情報資源を数多くのネットワークユーザ(以下「ユーザ」と称する。)が利用することが一般的となっている。   In recent years, with the spread of personal computers (PCs) and the development of networks, it has become common for many network users (hereinafter referred to as “users”) to use a large number of information resources distributed on the network.

例えば、インターネット上では、ウェブページと呼ばれるWWW(World Wide Web)システムを使って公開される文章が分散して存在し、それらウェブページにより、多種多様な情報が公開されている。   For example, on the Internet, texts that are released using a WWW (World Wide Web) system called a web page exist in a distributed manner, and a wide variety of information is released by these web pages.

数多くのユーザは、インターネットに接続されたPCなどのクライアント装置を使用し、ブラウザプログラムを実行することによりウェブページを閲覧し、そこで得た情報を社会生活の様々な局面で利用することを通常行っている。   Many users normally use a client device such as a PC connected to the Internet, browse a web page by executing a browser program, and use the information obtained there in various aspects of social life. ing.

ここで、インターネット上で公開されているウェブページの数は膨大であり、また、その中には長期間更新が行われておらず、情報の有効性、有用性を失ったものも数多く存在する。そのため、ユーザは、自身にとって有用な情報をインターネットから効率的に得るためには、その膨大な数のウェブページの中から効率的に取捨選択を行い、アクセスするウェブページを決定しなければならない。   Here, the number of web pages published on the Internet is enormous, and many of them have not been updated for a long time and have lost their effectiveness and usefulness. . Therefore, in order to obtain information useful for the user efficiently from the Internet, the user must efficiently select from the enormous number of web pages and determine a web page to be accessed.

この、ユーザが取捨選択を行い、アクセスするウェブページを決定する際の基準は、そのウェブページを閲覧することにより得られる情報の種類と、その情報が更新された時期である。この情報が更新された時期は、ウェブページの更新日から知ることができる。   The reference when the user performs selection and determines the web page to be accessed is the type of information obtained by browsing the web page and the time when the information is updated. The time when this information was updated can be known from the date when the web page was updated.

つまり、ユーザは、インターネットから自身にとって有用な情報を得ようとした場合、自身の所望する種類の情報が掲載され、かつ、更新日がある一定期間に含まれるウェブページを選択し、アクセスしたいと考えるが、掲載されている情報が有用であると考えられるウェブページの更新日の基準は、ユーザや、情報の種類によって決定されるものである。   In other words, when a user tries to obtain useful information for himself / herself from the Internet, he / she wants to select and access a web page on which a desired type of information is posted and which is included in a certain period of time with an update date. Although the criteria of the update date of the web page considered that the information posted is useful are considered, it is determined by the user and the type of information.

例えば、コンピュータ技術の最近の動向を知りたいユーザにとっては「3ヶ月前から今日まで」という場合もあり、数学のある理論について発表された論文を読みたいユーザにとっては「5年前から去年まで」という場合もある。   For example, a user who wants to know the latest trends in computer technology may say “from 3 months ago to today”, and a user who wants to read a paper published on a theory of mathematics “from 5 years ago to last year”. There is also a case.

基本的にどのようなウェブページでも、アクセスし、閲覧し、内容を確認すれば、そこに掲載されている内容が自身にとって有用であるかの判断は可能であるが、既に述べたように、ウェブページの数は膨大であり、ある種類の情報が掲載されたウェブページに限っても、その全てにアクセスし、確認することは不可能である。   Basically, you can access, browse, and check the content of any web page to determine if the content on it is useful to you, The number of web pages is enormous, and it is impossible to access and confirm all of the web pages on which some kind of information is posted.

つまり、ユーザが、そのウェブページが自身にとって有用であるか否かを判断し、効率的に情報を得るためには、アクセスする前に、そのウェブページがいつ更新されたかを知ることは非常に重要な事項である。   That is, it is very important for a user to know when a web page has been updated before accessing it in order to determine whether the web page is useful to him and to obtain information efficiently. It is an important matter.

そこで、更新日による検索、および更新日での並べ替えが可能な検索サイトも公開されている(例えば、非特許文献1)。   Therefore, a search site that can be searched by the update date and can be sorted by the update date is also disclosed (for example, Non-Patent Document 1).

この検索サイトでは、ユーザは、キーワードおよび更新日でウェブページを検索することができる。また、検索結果は、リスト形式、つまり検索結果リストとして表示され、ユーザは、その検索結果リストをウェブページの更新日により並べ替えることができる。   In this search site, a user can search a web page by a keyword and an update date. The search results are displayed in a list format, that is, as a search result list, and the user can sort the search result list according to the update date of the web page.

ユーザは、更新日により並べ替えられた検索結果リストの中からアクセスしたいウェブページを選択し、そのウェブページへアクセスするためのリンク(以下、単に「リンク」と称する。)をクリックすることで、そのウェブサイトに掲載された内容を閲覧し情報を得ることができる。
“infoseek(R) ”、[online]、インターネット<URL:http://www.infoseek.co.jp/>
The user selects a web page to be accessed from the search result list sorted according to the update date, and clicks a link (hereinafter simply referred to as “link”) for accessing the web page. You can get information by browsing the contents posted on the website.
"Infoseek (R)", [online], Internet <URL: http://www.infoseek.co.jp/>

しかしながら、上記従来の検索サイトでは、更新日での並べ替えの際、キーワード検索を再度行い、その検索結果を更新日で並べ替えている。つまり、ユーザから、更新日での検索結果の並べ替えの要求のみがなされているのに対し、再度、ウェブページを対象としたキーワード検索を行う必要がある。   However, in the conventional search site, when sorting by the update date, the keyword search is performed again, and the search result is sorted by the update date. In other words, while the user only requests the sorting of the search results by the update date, it is necessary to perform a keyword search for the web page again.

そのため、多くのユーザから更新日での並べ替えの要求がなされた場合、検索サイトのためのサーバ等のリソースへの負荷が増加する。これにより、検索サイト全体のレスポンスが低下し、ユーザが効率的な検索を行えないという課題がある。   For this reason, when a lot of users request reordering by update date, the load on resources such as servers for search sites increases. As a result, the response of the entire search site is lowered, and there is a problem that the user cannot perform an efficient search.

本発明は、上記課題を鑑み、ユーザが、ウェブページからその更新情報に基づいて情報を取得する際に、ユーザに効率的な情報の取得を行わせるための検索結果提供装置を提供することを目的とする。   In view of the above problems, the present invention provides a search result providing apparatus for allowing a user to efficiently acquire information when the user acquires information from a web page based on the update information. Objective.

上記目的を達成するために、本発明に係る検索結果提供装置は、ウェブページを検索し、検索結果を提供する検索結果提供装置であって、ユーザからの検索キーワードの入力と並べ替え指示とを受け付ける受付手段と、前記検索キーワードを検索条件として、ネットワーク上に公開されたウェブページを検索する検索手段と、前記ウェブページを識別するための識別情報を取得する識別情報取得手段と、前記ウェブページの更新情報を取得する更新情報取得手段と、前記検索手段による検索に該当したウェブページの識別情報と当該ウェブページの更新情報とを一組とした結果情報を記憶する結果記憶手段と、前記受付手段によって受け付けられた前記並べ替え指示に基づき、前記結果記憶手段に記憶されている前記結果情報を、前記更新情報について降順または昇順で並べ替える並べ替え手段と、前記並べ替え手段により並べ替えられた前記結果情報を送出する結果情報送出手段とを備えることを特徴とする。   In order to achieve the above object, a search result providing apparatus according to the present invention is a search result providing apparatus for searching a web page and providing a search result, wherein a search keyword input from a user and a sorting instruction are provided. Accepting means for receiving; search means for searching a web page published on a network using the search keyword as a search condition; identification information acquiring means for acquiring identification information for identifying the web page; and the web page Update information acquisition means for acquiring the update information, result storage means for storing result information as a set of identification information of the web page corresponding to the search by the search means and update information of the web page, and the reception Based on the rearrangement instruction received by the means, the result information stored in the result storage means is changed to the update information. A rearranging means for rearranging in descending or ascending order, characterized in that it comprises a result information sending means for sending the sorted by the sorting unit result information.

これによって、ユーザは、ウェブページを対象としたキーワード検索を行うことにより、自身の所望する情報が掲載されたウェブページを検索でき、その検索結果として検索に該当したウェブページの更新情報も知ることができる。また、その検索結果を更新情報について降順または昇順に並べ替える指示を行った際、結果記憶手段に記憶されている検索結果が並べ替えられて送出される。そのため、あらためて検索が実行されることがなく、ユーザは効率的にウェブページからその更新情報に基づいて情報を取得することができる。   As a result, the user can search the web page on which the desired information is posted by performing a keyword search for the web page, and also knows the update information of the web page corresponding to the search as the search result. Can do. Further, when an instruction is given to rearrange the search results in descending order or ascending order for the update information, the search results stored in the result storage means are rearranged and transmitted. Therefore, the search is not executed again, and the user can efficiently acquire information from the web page based on the update information.

なお、本発明は、本発明の検索結果提供装置が備える特徴的な手段をステップとする検索結果提供方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そのプログラムは、CD−ROM等の記憶媒体やインターネット等の伝送媒体を介して配信することができる。   Note that the present invention can be realized as a search result providing method using characteristic means provided in the search result providing apparatus of the present invention as steps, or as a program for causing a computer to execute these steps. The program can be distributed via a storage medium such as a CD-ROM or a transmission medium such as the Internet.

本発明は、ユーザが、ウェブページからその更新情報に基づいて情報を取得する際に、ユーザに効率的な情報の取得を行わせるための検索結果提供装置を提供することができる。   The present invention can provide a search result providing apparatus for allowing a user to efficiently acquire information when the user acquires information from a web page based on the update information.

以下、本発明を実施するための最良の形態について図面を用いて詳細に説明する。
先ず、本発明の実施の形態における検索結果提供システムの構成を、図1〜図5を用いて説明する。
Hereinafter, the best mode for carrying out the present invention will be described in detail with reference to the drawings.
First, the configuration of a search result providing system according to an embodiment of the present invention will be described with reference to FIGS.

図1は検索結果提供システムの構成を示す概観図である。検索結果提供システム1は、ウェブページ(以下、単に「ページ」とも称する。)を対象とした検索を行い、その検索結果を提供するシステムであり、サーバ装置10と、クライアント装置201および202と、これらを相互に接続するネットワーク200とを備えている。サーバ装置10は、ウェブページを対象とした検索を行い、その検索結果をクライアント装置201および202に提供する装置である。クライアント装置201および202はブラウザプログラムを実行し、サーバ装置10にアクセスし、検索の指示を入力し、その検索結果を表示する装置である。   FIG. 1 is an overview diagram showing a configuration of a search result providing system. The search result providing system 1 is a system that performs a search for a web page (hereinafter also simply referred to as “page”) and provides the search result. The server apparatus 10, client apparatuses 201 and 202, And a network 200 for connecting them to each other. The server device 10 is a device that performs a search for a web page and provides the search results to the client devices 201 and 202. The client devices 201 and 202 are devices that execute a browser program, access the server device 10, input a search instruction, and display the search result.

図2は、サーバ装置10の機能的な構成を示す機能ブロック図である。
サーバ装置10は、上述したようにウェブページを対象とした検索を行い、その検索結果をクライアント装置201および202に提供する装置であり、収集ページ情報格納部30と、ページ内容情報格納部40と、ページ更新日情報格納部50と、公開用I/F(インタフェース)部11と、入力情報判断部12と、検索部13と、検索結果格納部26と、並べ替え部14と、検索結果リスト送出部15と、収集用I/F部21と、収集・解析部22と、ページ比較部23と、ページ内容取得部24と、ページ更新日取得部25とを備える。
FIG. 2 is a functional block diagram illustrating a functional configuration of the server apparatus 10.
The server device 10 is a device that performs a search for a web page as described above and provides the search results to the client devices 201 and 202. The server device 10 includes a collected page information storage unit 30, a page content information storage unit 40, , Page update date information storage unit 50, public I / F (interface) unit 11, input information determination unit 12, search unit 13, search result storage unit 26, rearrangement unit 14, and search result list A sending unit 15, a collection I / F unit 21, a collection / analysis unit 22, a page comparison unit 23, a page content acquisition unit 24, and a page update date acquisition unit 25 are provided.

公開用I/F部11は、ネットワーク200を介してクライアント装置201(202)との間で情報のやり取りを行うための処理部である。   The public I / F unit 11 is a processing unit for exchanging information with the client device 201 (202) via the network 200.

収集ページ情報格納部30は、ウェブページの内容や更新日などの各種情報を記録するための収集ページ情報31を格納する記憶装置である。なお、収集ページ情報31は図3を用いて後述する。   The collected page information storage unit 30 is a storage device that stores collected page information 31 for recording various information such as web page contents and update dates. The collected page information 31 will be described later with reference to FIG.

ページ内容情報格納部40は、ウェブページの内容についての情報を記録するためのページ内容情報41を格納する記憶装置である。なお、ページ内容情報41は図4を用いて後述する。   The page content information storage unit 40 is a storage device that stores page content information 41 for recording information about the content of a web page. The page content information 41 will be described later with reference to FIG.

ページ更新日情報格納部50は、ウェブページの更新日についての情報を記録するためのページ更新日情報51を格納する記憶装置である。なお、ページ更新日情報51は図5を用いて後述する。   The page update date information storage unit 50 is a storage device that stores page update date information 51 for recording information about the update date of a web page. The page update date information 51 will be described later with reference to FIG.

入力情報判断部12は、ユーザによってクライアント装置201(202)から入力された検索条件や、サーバ装置10に対する指示や、検索結果の表示項目に関する選択等の情報を受け取り、その指示や選択を判断し、判断結果に応じて、受け取った情報を、検索部13または並べ替え部14へ送信する処理部である。   The input information determination unit 12 receives information such as a search condition input from the client device 201 (202) by the user, an instruction to the server device 10 and a selection related to a display item of the search result, and determines the instruction or selection. The processing unit transmits the received information to the search unit 13 or the rearrangement unit 14 according to the determination result.

検索結果格納部26は、本発明の検索結果提供装置における結果記憶手段の一例であり、検索部13が行った検索結果を一時的に格納する記憶装置である。   The search result storage unit 26 is an example of a result storage unit in the search result providing device of the present invention, and is a storage device that temporarily stores the search result performed by the search unit 13.

検索部13は、ページ内容情報格納部40に格納されたページ内容情報41と、ページ更新日情報格納部50に格納されたページ更新日情報51とを対象とし、入力情報判断部12より受け取った検索条件で検索を行う処理部である。   The search unit 13 receives the page content information 41 stored in the page content information storage unit 40 and the page update date information 51 stored in the page update date information storage unit 50 from the input information determination unit 12. It is a processing unit that performs a search according to a search condition.

並べ替え部14は、検索部13が行った検索結果を所定の並べ替え順序に並べ替え、または、入力情報判断部12より受け取った指示に基づき、検索結果格納部26に記憶されている検索結果を並べ替える処理部である。検索結果リスト送出部15は、並べ替え部より受け取った検索結果を、公開用I/F部11を介し、クライアント装置201(202)へ送出する処理部である。   The sorting unit 14 sorts the search results performed by the search unit 13 into a predetermined sort order, or the search results stored in the search result storage unit 26 based on an instruction received from the input information determination unit 12. It is a processing part which rearranges. The search result list sending unit 15 is a processing unit that sends the search results received from the sorting unit to the client device 201 (202) via the public I / F unit 11.

収集用I/F部21は、ネットワーク200を介し、ウェブページを公開している他のサーバ装置との情報のやりとりを行うための処理部である。   The collection I / F unit 21 is a processing unit for exchanging information with other server devices that publish web pages via the network 200.

収集・解析部22は収集ページ情報格納部30に格納された収集ページ情報31に記録された全てのURLに対して、ヘッダリクエストを送信し、レスポンスヘッダを収集、解析し、その結果に応じて、そのURLのウェブページを取得する処理部である。   The collection / analysis unit 22 transmits a header request to all URLs recorded in the collection page information 31 stored in the collection page information storage unit 30, collects and analyzes response headers, and according to the result , A processing unit for acquiring the web page of the URL.

ページ比較部23は、収集・解析部22により収集されたウェブページもしくはレスポンスヘッダと、収集ページ情報格納部30に格納された収集ページ情報31に記録されているウェブページの情報を比較し、ウェブページの更新を判断し、その判断に応じて、収集・解析部22へのウェブページ取得の指示や、収集ページ情報31の更新を行う処理部である。   The page comparison unit 23 compares the web page or response header collected by the collection / analysis unit 22 with the web page information recorded in the collected page information 31 stored in the collected page information storage unit 30, The processing unit determines whether to update the page and instructs the collection / analysis unit 22 to acquire a web page and updates the collected page information 31 according to the determination.

ページ内容取得部24は、ページ比較部23より受け取ったウェブページの情報から、そのウェブページのURLと、タイトルと、そのウェブページを特徴付けるキーワードと、検索結果として表示する表示用本文とを抽出し、ページ内容情報格納部40に格納されたページ内容情報41を更新する処理部である。   The page content acquisition unit 24 extracts, from the web page information received from the page comparison unit 23, the URL of the web page, the title, the keyword that characterizes the web page, and the display text to be displayed as a search result. The processing unit updates the page content information 41 stored in the page content information storage unit 40.

ページ更新日取得部25は、ページ比較部23より受け取ったウェブページの情報から、各ウェブページのURLと、更新日とを抽出し、ページ更新日情報格納部50に格納されたページ更新日情報51を更新する処理部である。   The page update date acquisition unit 25 extracts the URL and update date of each web page from the web page information received from the page comparison unit 23, and the page update date information stored in the page update date information storage unit 50. 51 is a processing unit for updating 51.

図3は、収集ページ情報格納部30に格納された収集ページ情報31の一例を示す図である。   FIG. 3 is a diagram illustrating an example of the collected page information 31 stored in the collected page information storage unit 30.

図3に示すように、収集ページ情報31は、収集・解析部22によって収集されたウェブページの情報を、ウェブページごとに記録したテーブル構造のデータであって、ページURLと、最終更新日と、タイトルと、本文という項目で構成される。なお、前記項目の「本文」とは、ウェブページをユーザがブラウザプログラムで閲覧した際に、ユーザに表示される文字、記号などのテキストデータ、ウェブページ内に存在する、その他のページへのURLが記録されるものとし、表示されないHTML(Hyper Text Markup Language)タグやスクリプトなどのデータは含まないものとする。   As shown in FIG. 3, the collected page information 31 is data of a table structure in which web page information collected by the collection / analysis unit 22 is recorded for each web page, and includes a page URL, a last update date, , Title and text. The “text” of the item refers to text data such as characters and symbols displayed to the user when the user browses the web page with a browser program, URLs to other pages existing in the web page Are not recorded, and data such as HTML (Hyper Text Markup Language) tags and scripts that are not displayed are not included.

ここで、図3に示す収集ページ情報31の各行を「個別ページ情報」とし、この例の場合、ページURLがユニークな値であり、ページURLにより個別ページ情報が識別される。   Here, each line of the collected page information 31 shown in FIG. 3 is “individual page information”. In this example, the page URL is a unique value, and the individual page information is identified by the page URL.

図4は、ページ内容情報格納部40に格納されたページ内容情報41の一例を示す図である。   FIG. 4 is a diagram illustrating an example of the page content information 41 stored in the page content information storage unit 40.

図4に示すように、ページ内容情報41は、ページ内容取得部24によって取得された、ウェブページごとのURLやキーワードなどの情報を記録したテーブル構造のデータであって、ページURLと、キーワードと、タイトルと、表示用本文という項目で構成される。なお表示用本文は、上記図3の説明にある、個別ページ情報の中の本文の先頭から所定の文字数だけ抜き出したものとする。   As shown in FIG. 4, the page content information 41 is data having a table structure in which information such as a URL and a keyword for each web page acquired by the page content acquisition unit 24 is recorded. , The title and the display text. Note that the display text is extracted by a predetermined number of characters from the top of the text in the individual page information described in FIG.

ここで、図4に示すページ内容情報41の各行を「個別内容情報」とし、この例の場合、ページURLがユニークな値であり、ページURLにより個別内容情報が識別される。   Here, each line of the page content information 41 shown in FIG. 4 is “individual content information”. In this example, the page URL is a unique value, and the individual content information is identified by the page URL.

図5は、ページ更新日情報格納部50に格納されたページ更新日情報51の一例を示す図である。   FIG. 5 is a diagram illustrating an example of the page update date information 51 stored in the page update date information storage unit 50.

図5に示すように、ページ更新日情報51は、ページ更新日取得部25によって取得された、ウェブページごとのURLと更新日を記録したテーブル構造のデータであって、ページURLと、最終更新日という項目で構成される。   As shown in FIG. 5, the page update date information 51 is data having a table structure in which the URL and update date for each web page acquired by the page update date acquisition unit 25 is recorded. It consists of an item called day.

ここで、図5に示すページ更新日情報51の各行を「個別更新日情報」とし、この例の場合、ページURLがユニークな値であり、ページURLにより個別更新日情報が識別される。   Here, each line of the page update date information 51 shown in FIG. 5 is “individual update date information”. In this example, the page URL is a unique value, and the individual update date information is identified by the page URL.

次に、以上のように構成された検索結果提供システム1の、動作を説明する。
まず、検索結果提供システム1が行う、検索及び検索結果に関する処理について以下に説明する。
Next, the operation of the search result providing system 1 configured as described above will be described.
First, the search and processing related to the search result performed by the search result providing system 1 will be described below.

図6は、サーバ装置10が、ユーザからの指示を受け付け、処理を行った結果をクライアント装置201(202)に送出する際の動作の流れを示しており、以下に述べる画面の表示例である図7〜11の説明と合わせて説明する。   FIG. 6 shows a flow of operations when the server device 10 receives an instruction from the user and sends the processing result to the client device 201 (202), and is a display example of the screen described below. This will be described together with the description of FIGS.

図7は、サーバ装置10がクライアント装置201(202)に送出する、ユーザからの検索を受け付けるための画面の表示例であり、検索受付画面100が表示されている。   FIG. 7 is a display example of a screen for receiving a search from the user, which is sent from the server device 10 to the client device 201 (202), and the search reception screen 100 is displayed.

検索受付画面100内のキーワード入力欄101は、ユーザが自由に決定するキーワードを入力する入力欄であり、この例の場合は、検索キーワードとして「サイエンス」が入力されている。   A keyword input field 101 in the search reception screen 100 is an input field for inputting a keyword that is freely determined by the user. In this example, “science” is input as a search keyword.

更新日表示ラジオボタン102は、検索結果に、検索に該当したウェブページのそれぞれの更新日も表示させるか否かの択一選択をユーザが行うボタンであり、この例の場合は、「表示する」が選択されている。   The update date display radio button 102 is a button for the user to select whether to display each update date of the web page corresponding to the search in the search result. Is selected.

開始日付入力欄103と終了日付入力欄104とは、検索実行の際、検索対象となるウェブページの更新日による制限も行う場合に、その制限の開始日付及び終了日付を入力する入力欄であり、この例の場合は何も入力されておらず、つまり、検索実行の際に、更新日による制限はしないことを意味する。   The start date input field 103 and the end date input field 104 are input fields for inputting the start date and the end date of the restriction when the restriction is also made by the update date of the web page to be searched at the time of executing the search. In the case of this example, nothing is input, that is, there is no restriction by the update date when executing the search.

検索実行ボタン105は、キーワード等の検索条件を入力した後に、ユーザがクリックすることにより、サーバ装置10に検索実行を要求する指示である「検索」を送信するボタンである。   The search execution button 105 is a button for transmitting “search”, which is an instruction for requesting execution of search to the server device 10 when the user clicks after inputting a search condition such as a keyword.

上記の検索条件、つまり、キーワード入力欄101に「サイエンス」と入力され、更新日表示ラジオボタン102で「表示する」が選択された状態で、検索実行ボタン105がクリックされると、入力情報判断部12は、更新日の表示の選択に関するデータである、表示選択「表示する」と、実行の指示内容に関するデータである、実行指示「検索」と、キーワード「サイエンス」とを受け付け(S1)、実行指示が「検索」であるので(S2で検索)、表示選択「表示する」と、キーワード「サイエンス」とを検索部13へ送信する(S3)。   When the search execution button 105 is clicked in a state where “Science” is input in the above search condition, that is, the keyword input field 101 and “display” is selected by the update date display radio button 102, input information determination is performed. The unit 12 receives display selection “display”, which is data related to display date selection, and execution instruction “search”, which is data related to execution instruction contents, and a keyword “science” (S1), Since the execution instruction is “search” (search in S2), the display selection “display” and the keyword “science” are transmitted to the search unit 13 (S3).

検索部13は、入力情報判断部12より受け取った表示選択が「表示する」であるので(S4で必要)、ページ内容情報格納部40に格納されたページ内容情報41と、ページ更新日情報格納部50に格納されたページ更新日情報51とを、ページURLをキーとして結合し、検索用結合情報を生成する(S6)。   Since the display selection received from the input information determination unit 12 is “display” (required in S4), the search unit 13 stores the page content information 41 stored in the page content information storage unit 40 and the page update date information storage. The page update date information 51 stored in the unit 50 is combined with the page URL as a key to generate search combination information (S6).

この、検索用結合情報には、ページ内容情報41とページ更新日情報51の全ての情報が含まれている。   The search combination information includes all of the page content information 41 and the page update date information 51.

なお、入力情報判断部12より受け取った表示選択が「表示しない」である場合(S4で不要)については後述する。   The case where the display selection received from the input information determination unit 12 is “not display” (not required in S4) will be described later.

また、図7の例の場合、更新日による制限を行わないので(S7で制限なし)、更新日での検索は行わず、上記検索用結合情報を対象にキーワード「サイエンス」でのみ検索を実行し、検索に該当した各ウェブページにおける、キーワード「サイエンス」の重要度などを加味した所定のランク付け基準に基づいたランク付けを行い、検索結果にランクデータを付加し、並べ替え部14に送信する(S8)。   In the case of the example in FIG. 7, since the restriction by the update date is not performed (there is no restriction at S7), the search by the update date is not performed, and the search is performed only with the keyword “science” for the search combination information. Then, each web page corresponding to the search is ranked based on a predetermined ranking criterion that takes into account the importance of the keyword “science”, etc., rank data is added to the search result, and the result is transmitted to the sorting unit 14. (S8).

ここで、図4に示すページ内容情報41の項目であるキーワードは、そのウェブページを特徴づけるものとして、後述するページ内容取得部24により、複数の単語が、重要度の高い順に配列されている。例えば「サイエンス」が配列の上位にあるウェブページほど、キーワード「サイエンス」で検索した場合に、上記ランク付けにより上位のランク付けが行われ、結果として検索結果リストの上位に表示されることとなる。   Here, the keyword which is an item of the page content information 41 shown in FIG. 4 characterizes the web page, and a plurality of words are arranged in descending order of importance by the page content acquisition unit 24 described later. . For example, if a web page with “Science” at the top of the sequence is searched with the keyword “Science”, the above ranking is performed, and the result is displayed at the top of the search result list. .

なお、検索結果には、検索用結合情報より抽出した、検索結果に該当したウェブページのページURLと、タイトルと、表示用本文と、最終更新日と、ランクデータとが含まれている。また、検索実行の際に更新日による制限を行う場合は、図10、図11を用いて後述する。   The search result includes the page URL of the web page corresponding to the search result extracted from the search combination information, the title, the display text, the last update date, and the rank data. Further, the case of performing the restriction by the update date at the time of executing the search will be described later with reference to FIGS.

並べ替え部14は、検索部13より検索結果を受け取り、検索結果を特定するための識別子である検索IDを生成し、その検索IDと検索結果とを対応付けて検索結果格納部26に格納する。更に、検索結果を対象に、ランクデータに基づいた並べ替えを行い(S11)、検索結果リスト作成用データを生成し、検索IDとともに検索結果リスト送出部15へ送る。   The sorting unit 14 receives the search result from the search unit 13, generates a search ID that is an identifier for specifying the search result, and stores the search ID and the search result in association with each other in the search result storage unit 26. . Further, the search results are rearranged based on the rank data (S11), search result list creation data is generated, and sent to the search result list sending unit 15 together with the search ID.

検索結果リスト送出部15は、並べ替え部14より受け取った、検索結果リスト作成用データを用い、各ウェブページの更新日も含んだ検索結果リストを作成する。作成した検索結果リストと、並べ替え部14から受け取った検索IDと、検索に該当した件数とをクライアント装置201(202)へ送出する(S12)。   The search result list sending unit 15 uses the search result list creation data received from the sorting unit 14 to create a search result list including the update date of each web page. The created search result list, the search ID received from the rearrangement unit 14, and the number corresponding to the search are sent to the client device 201 (202) (S12).

図8は、上記の動作の流れによる検索実行後の、クライアント装置201(202)における画面の表示例である。   FIG. 8 is a display example of a screen on the client device 201 (202) after executing the search according to the above-described operation flow.

検索結果表示画面110において、検索条件および、検索結果件数を表示する、検索ステータス表示欄111が表示され、キーワード「サイエンス」で検索を実行した結果、2312件が該当したことを示している。   On the search result display screen 110, a search status display column 111 for displaying the search condition and the number of search results is displayed. As a result of executing the search with the keyword “science”, 2312 hits are indicated.

また、画面上には表示されていないが、検索結果表示画面110を構成するHTMLタグの中に検索IDが含まれており、ユーザが検索結果の並べ替えの指示を行った際、検索IDが並べ替えの指示とともにサーバ装置10へ送信される。検索結果の並べ替えについては後述する。   Although not displayed on the screen, the search ID is included in the HTML tag constituting the search result display screen 110, and when the user gives an instruction to sort the search results, the search ID is displayed. It is transmitted to the server device 10 together with a rearrangement instruction. The sorting of search results will be described later.

検索結果表示領域112には、検索に該当したウェブページの情報のリスト(以下「検索結果リスト」と称する。)が表示されており、検索結果リスト送出部15から送出された各ウェブページの、タイトル、表示用本文、ページURLが表示されており、ユーザはタイトル又はページURLをクリックすることにより、そのウェブページを開くことができる。   In the search result display area 112, a list of information on web pages corresponding to the search (hereinafter referred to as “search result list”) is displayed, and each web page sent from the search result list sending unit 15 is displayed. A title, a display text, and a page URL are displayed, and the user can open the web page by clicking the title or the page URL.

また、検索結果表示領域112には、更新日表示欄113が設けられ、検索に該当したウェブページのそれぞれの更新日が表示されている。ユーザは、実際にアクセスする前に、この更新日を参考としたウェブページの有用性の判断を行うことができ、効率的な情報の取得が可能となる。   Further, the search result display area 112 is provided with an update date display column 113, which displays the update date of each web page corresponding to the search. The user can determine the usefulness of the web page with reference to this update date before actually accessing it, and can efficiently acquire information.

ここで、検索結果リストの並び順は、検索部13において、前述のランク付け基準にもとづいて決定された並び順であるが、降順ボタン114がクリックされることにより、更新日が新しいものから順に検索結果リストの先頭から表示され、昇順ボタン115をクリックされることにより、更新日が古いものから順に検索結果リストの先頭から表示される。この処理は、以下の処理の結果、実現される。   Here, the order of the search result list is the order determined by the search unit 13 based on the ranking criteria described above, but when the descending order button 114 is clicked, the update date is in descending order. When the ascending order button 115 is clicked, the search result list is displayed from the top of the search result list in order from the oldest date. This process is realized as a result of the following process.

降順ボタン114がクリックされると、クライアント装置201(202)からサーバ装置10へ、実行指示である「降順」と検索IDとが送信される。入力情報判断部12は受け取った実行指示が「降順」であるので(S2で降順or昇順)、実行指示「降順」と検索IDとを並べ替え部14に送信する。   When the descending order button 114 is clicked, an execution instruction “descending order” and a search ID are transmitted from the client apparatus 201 (202) to the server apparatus 10. Since the received execution instruction is “descending order” (descending order or ascending order in S2), the input information determination unit 12 transmits the execution instruction “descending order” and the search ID to the sorting unit 14.

並べ替え部14は、受け取った検索IDに対応する検索結果を検索結果格納部26から抽出する(S10)。更に、受け取った実行指示が「降順」であるので、抽出した検索結果をウェブページの更新日についての降順に並べ替え(S11)、そのユーザの端末装置に再送出する(S12)。ここで、実行指示が「昇順」であった場合も同様の処理を行い、ウェブページの更新日についての昇順に並べ替え、ユーザの端末装置に再送出する(S12)。   The rearrangement unit 14 extracts a search result corresponding to the received search ID from the search result storage unit 26 (S10). Furthermore, since the received execution instruction is “descending order”, the extracted search results are rearranged in descending order with respect to the update date of the web page (S11) and re-sent to the terminal device of the user (S12). Here, when the execution instruction is “ascending order”, the same processing is performed, the web page update date is rearranged in ascending order and re-sent to the user terminal device (S12).

図9は、図8の検索結果表示画面110において、降順ボタン114がクリックされた場合の画面の表示例である。検索ステータス表示欄111の表示に変更はなく、検索結果表示領域112に表示された検索結果リストの並び順が、更新日表示欄113に表示された更新日について降順になっている。   FIG. 9 is a display example of the screen when the descending order button 114 is clicked on the search result display screen 110 of FIG. There is no change in the display of the search status display column 111, and the order of the search result list displayed in the search result display region 112 is in descending order with respect to the update date displayed in the update date display column 113.

この並び順にすることで、アクセスするウェブページを決定する際の基準の中で、ウェブページの有用性と、その更新日の新しさとが比例すると考えるユーザは、先頭からアクセスしていけばよく、利便性が高くなる。   By arranging in this order, users who think that the usefulness of a web page and the newness of its update date are proportional to each other in the criteria for determining the web page to access should access from the top. , Increase convenience.

また同様に、ある事柄について、時系列に沿ってその変遷を知りたいと考えるユーザは、昇順ボタン115をクリックすることにより、検索結果リストの先頭から順にアクセスしていけばよいことになる。   Similarly, a user who wants to know the transition of a matter in time series can access the search result list in order from the top by clicking the ascending order button 115.

上述の更新日による並べ替えは、検索結果格納部26に格納されている検索結果を対象に行われる。つまり、あらためて検索が実行されることがなく、効率的にユーザに対して並べ替えがなされた検索結果を提供することができる。   The rearrangement based on the update date is performed on the search result stored in the search result storage unit 26. That is, the search is not performed again, and the search result that has been efficiently sorted can be provided to the user.

なお、検索結果格納部26に記憶されている検索結果は所定の時間経過後(例えば、30分)で削除される。   The search results stored in the search result storage unit 26 are deleted after a predetermined time has elapsed (for example, 30 minutes).

図10は、図8の説明の中で行った検索条件に、さらに、ページの更新日の制限も加えた場合の検索受付画面の表示例である。検索受付画面100において、新たに、開始日付入力欄103に「2004.3.1」と入力され、終了日付入力欄104に「2004.4.30」と入力されている。   FIG. 10 is a display example of a search acceptance screen when the search condition performed in the description of FIG. 8 is further added with a page update date restriction. In the search reception screen 100, “2004.3.1” is newly input in the start date input field 103, and “2004.4.20” is input in the end date input field 104.

つまり、図10に示す検索受付画面100において、検索実行ボタン105がクリックされることにより、キーワード「サイエンス」と「更新日が2004年3月1日から2004年4月30日まで」とを検索条件としたウェブページの検索が行われ、検索結果に検索に該当したウェブページの更新日も表示されることを示している。   That is, on the search reception screen 100 shown in FIG. 10, the search execution button 105 is clicked to search for the keyword “science” and “update date from March 1, 2004 to April 30, 2004”. It is shown that the search for the web page as a condition is performed, and the update date of the web page corresponding to the search is also displayed in the search result.

図10に示す検索受付画面100において、検索実行ボタン105がクリックされると、入力情報判断部12は、表示選択「表示する」と実行指示「検索」と、キーワード「サイエンス」と、更新日の制限の開始日付「2004.3.1」と、終了日付「2004.4.30」とを受け付ける(S1)。   When the search execution button 105 is clicked on the search reception screen 100 shown in FIG. 10, the input information determination unit 12 displays the display selection “display”, the execution instruction “search”, the keyword “science”, and the update date. The restriction start date “2004.3.1” and the end date “2004.4.20” are received (S1).

また、実行指示が「検索」であるので(S2で検索)、表示選択「表示する」と、キーワード「サイエンス」と、更新日の制限の開始日付「2004.3.1」と、終了日付「2004.4.30」とを検索部13へ送信する(S3)。   Also, since the execution instruction is “search” (search in S2), the display selection “display”, the keyword “science”, the start date “2004.3.1” of the update date restriction, and the end date “ 2004.30 "is transmitted to the search unit 13 (S3).

検索部13は、入力情報判断部12より受け取った表示選択が「表示する」であるので(S4で必要)、ページ内容情報格納部40に格納されたページ内容情報41と、ページ更新日情報格納部50に格納されたページ更新日情報51とを、ページURLをキーとして結合し、検索用結合情報を生成する(S6)。この、検索用結合情報には、ページ内容情報41とページ更新日情報51の全ての情報が含まれている。   Since the display selection received from the input information determination unit 12 is “display” (required in S4), the search unit 13 stores the page content information 41 stored in the page content information storage unit 40 and the page update date information storage. The page update date information 51 stored in the unit 50 is combined with the page URL as a key to generate search combination information (S6). The search combination information includes all of the page content information 41 and the page update date information 51.

ここで、図10の例の場合、更新日による制限を行うので(S7で制限あり)、上記検索用結合情報を対象にキーワード「サイエンス」および、検索用結合情報の最終更新日を対象とした「2004年3月1日以降かつ2004年4月30日以前」という条件により検索を実行し、検索結果に前述のランクデータを付加し、並べ替え部14に送信する(S9)。   Here, in the example of FIG. 10, since the restriction is based on the update date (there is a restriction in S7), the keyword “Science” and the last update date of the search combination information are targeted for the search combination information. The search is executed under the condition “after March 1, 2004 and before April 30, 2004”, the above-mentioned rank data is added to the search result, and the result is transmitted to the rearrangement unit 14 (S9).

なお、検索結果には、検索用結合情報より抽出した、検索結果に該当したウェブページのページURLと、タイトルと、表示用本文と、最終更新日と、ランクデータとが含まれている。   The search result includes the page URL of the web page corresponding to the search result extracted from the search combination information, the title, the display text, the last update date, and the rank data.

以降、サーバ装置10は図8を用いて説明を行った、並べ替え処理(S11)と検索結果リスト送出処理(S12)と同じ処理を行い、クライアント装置201(202)に検索結果が表示される。   Thereafter, the server device 10 performs the same processing as the rearrangement processing (S11) and search result list transmission processing (S12) described with reference to FIG. 8, and the search results are displayed on the client device 201 (202). .

図11は、上記の動作の流れによる、ウェブページの更新日による制限を行った検索の実行後の、クライアント装置201(202)における画面の表示例である。   FIG. 11 is a display example of a screen on the client device 201 (202) after execution of a search that is limited by the update date of the web page, according to the above-described operation flow.

検索結果表示画面110において、検索条件および、検索結果件数を表示する、検索ステータス表示欄111が表示され、キーワード「サイエンス」及び、更新日「2004年3月1日から2004年4月30日まで」という検索条件で検索を実行した結果、3件が該当したことを示している。   On the search result display screen 110, a search status display column 111 for displaying the search condition and the number of search results is displayed. The keyword “science” and the update date “from March 1, 2004 to April 30, 2004” are displayed. As a result of executing the search under the search condition “”, it is shown that three cases are applicable.

検索結果表示領域112には、検索結果リストが表示されており、更新日表示欄113には、検索に該当したウェブページの更新日が表示されており、上記検索条件である、「2004年3月1日から2004年4月30日まで」という条件に該当している。   A search result list is displayed in the search result display area 112, and an update date of the web page corresponding to the search is displayed in the update date display column 113. The search condition “2004 3” is displayed. This corresponds to the condition “from January 1 to April 30, 2004”.

このように、検索条件として、ウェブページの更新日による制限が行えることにより、予め、検索したいウェブページの更新日を、ある期間に限定できるユーザは、検索結果において、無駄なウェブページの情報の表示が省くことができ、有用な情報の取得が効率的に行えることとなる。   As described above, since the search condition can be limited by the update date of the web page, a user who can limit the update date of the web page to be searched in advance to a certain period can be used in the search result. Display can be omitted, and useful information can be efficiently acquired.

特に、ユーザが、所望する情報を検索する際に、その検索に適してはいるが最適ではないキーワードを検索条件とした場合において、更新日を制限することにより、更新日を制限しない場合と比べると、検索結果が絞り込まれ、有用な情報の取得が効率的に行えることとなる。   In particular, when a user searches for desired information, when a keyword that is suitable for the search but is not optimal is used as a search condition, the update date is limited and the update date is not limited. As a result, search results are narrowed down, and useful information can be efficiently acquired.

例えば、ある、数学の分野における理論について知りたいと考え、その分野と、発表された年はわかるが、理論の正式な名称はわからないユーザは、分野名をキーワードとし、その年の1月1日から、12月31までの制限を行い、検索することで、検索結果が絞り込まれ、その情報にアクセスできるまでの時間を短縮させることができる。   For example, a user who wants to know a theory in the field of mathematics and knows the field and the year in which it was published, but does not know the formal name of the theory. By performing the search up to December 31 and performing a search, the search result can be narrowed down and the time until the information can be accessed can be shortened.

ここで、図11に示す検索結果表示領域112内の検索結果リストについても、前述の、降順ボタン114と、昇順ボタン115をクリックすることによる、更新日について降順、もしくは昇順の並べ替えは可能である。   Here, the search result list in the search result display area 112 shown in FIG. 11 can be rearranged in descending order or ascending order with respect to the update date by clicking the descending order button 114 and the ascending order button 115 described above. is there.

なお、上記説明内で、検索部13が、入力情報判断部12より受け取った表示選択が「表示しない」である場合(S4で不要)、検索部13は、ページ内容情報格納部40に格納されたページ内容情報41のみを対象としたキーワード検索を行い、最終更新日を含まない検索結果に前述のランクデータを付加し、並べ替え部14に送信する(S5)。   In the above description, if the display selection received by the search unit 13 from the input information determination unit 12 is “not display” (not required in S4), the search unit 13 is stored in the page content information storage unit 40. The keyword search for only the page content information 41 is performed, the above-mentioned rank data is added to the search result not including the last update date, and the result is transmitted to the sorting unit 14 (S5).

並べ替え部14は、受け取ったランクデータに基づいた並べ替えを行い(S11)、検索結果リスト送出部15へ送信する。検索結果リスト送出部15は、検索に該当したウェブページの更新日を含まない検索結果リストをクライアント装置201(202)へ送出する(S12)。   The rearrangement unit 14 performs rearrangement based on the received rank data (S11), and transmits the result to the search result list transmission unit 15. The search result list sending unit 15 sends a search result list not including the update date of the web page corresponding to the search to the client device 201 (202) (S12).

次に、検索結果提供システム1が行う、ウェブページの情報の収集に関する処理について以下に説明する。   Next, processing related to collection of web page information performed by the search result providing system 1 will be described below.

図12は、サーバ装置10が、ネットワーク200を介して、ウェブページを公開している他のサーバ装置にアクセスし、ウェブページの情報を収集する際の動作の流れを示している。このウェブページの情報の収集は、所定の間隔を置いて、定期的に行うものとし、ここで収集されたウェブページの情報が、ユーザが行う検索の対象となる。   FIG. 12 shows a flow of operations when the server apparatus 10 accesses another server apparatus that publishes a web page via the network 200 and collects information on the web page. The collection of the web page information is periodically performed at predetermined intervals, and the web page information collected here is a target of the search performed by the user.

収集・解析部22は、収集ページ情報格納部30に格納された収集ページ情報31の全ての個別ページ情報のページURLと、本文中にある、そのページURL以外のウェブページのURLとを収集対象URLとして抽出し(S21)、その収集対象URLの一つ一つのURLに対し、順次、以下の処理を行う。   The collection / analysis unit 22 collects the page URLs of all the individual page information of the collection page information 31 stored in the collection page information storage unit 30 and the URLs of web pages other than the page URL in the text. The URL is extracted as a URL (S21), and the following processing is sequentially performed on each URL to be collected.

上述のように、本文から抽出されたURLも収集対象URLとすることにより、収集ページ情報31に個別ページ情報が存在しないウェブページについても収集が行えることとなり、また、収集ページ情報31に個別ページ情報が存在するウェブページに関連するページの収集が行えることになる。   As described above, the URL extracted from the text is also set as the collection target URL, so that it is possible to collect the web page in which the individual page information does not exist in the collection page information 31, and the individual page is included in the collection page information 31. It is possible to collect a page related to the web page on which the information exists.

結果として、上記ウェブページの収集を繰り返すことにより、検索対象となるウェブページの数を増加させることができ、ユーザにとっての利便性が増すこととなる。   As a result, by repeating the collection of the web pages, the number of web pages to be searched can be increased, and convenience for the user is increased.

収集・解析部22は、収集対象URLの一つ(以下「対象URL」と称する。)に対し、HTTP(Hypertext Transfer Protocol)のヘッダリクエストを送信し、対象URLが示すサーバ装置から、そのリクエストへの応答として送信される、レスポンスメッセージのヘッダ情報であり、そのURLが示す場所にあるウェブページの各種情報等が記されたレスポンスヘッダを取得する(S22)。   The collection / analysis unit 22 transmits an HTTP (Hypertext Transfer Protocol) header request to one of the collection target URLs (hereinafter referred to as “target URL”), and the request is sent from the server device indicated by the target URL. The response header is transmitted as a response to the response message, and includes a response header in which various information of the web page at the location indicated by the URL is described (S22).

レスポンスヘッダには、対象URLにウェブページが存在するか否かの情報を含み、ウェブページが存在し取得可能な場合(S23でYES)、レスポンスヘッダからそのウェブページの更新日が記されたLast−modifiedフィールドが取得可能か調べる。取得可能な場合(S24でYES)、レスポンスヘッダと対象URLとをページ比較部23へ送信する。なお、ここで、ウェブページが取得不可能な場合(S23でNO)、当該対象URLについての処理を終了する。また、Last−modifiedフィールドが取得不可能な場合(S24でNO)については後述する。   The response header includes information on whether or not the web page exists in the target URL. If the web page exists and can be acquired (YES in S23), the last in which the update date of the web page is recorded from the response header. Check whether the modified field can be acquired. If it can be acquired (YES in S24), the response header and the target URL are transmitted to the page comparison unit 23. Here, if the web page cannot be acquired (NO in S23), the process for the target URL is terminated. A case where the Last-modified field cannot be acquired (NO in S24) will be described later.

ページ比較部23は、収集・解析部22より受け取ったレスポンスヘッダ(以下「取得レスポンスヘッダ」と称する。)から、Last−modifiedフィールドに記された更新日(以下「取得更新日」と称する。)を抽出する。さらに、対象URLと、収集ページ情報31に記録されたページURLとを比較対照し、特定される個別ページ情報(以下「特定個別ページ情報」と称する。)の最終更新日と、取得更新日との比較を行う(S25)。   The page comparison unit 23 updates the date (hereinafter referred to as “acquisition update date”) described in the Last-modified field from the response header (hereinafter referred to as “acquisition response header”) received from the collection / analysis unit 22. To extract. Further, the target URL and the page URL recorded in the collected page information 31 are compared and contrasted, and the last update date of the specified individual page information (hereinafter referred to as “specific individual page information”), the acquisition update date, Are compared (S25).

ここで、特定個別ページ情報が存在しない場合は、上述の比較を行う最終更新日を「0年1月1日」とすることにより、常に取得更新日が、最終更新日より新しいことになり(S26でYES)、以下に述べる、ウェブページの取得(S27)が行われ、収集ページ情報31と、ページ内容情報41と、ページ更新日情報51とに、ウェブページの情報が新規に追加される(S28)こととなる。   Here, when there is no specific individual page information, the acquisition update date is always newer than the last update date by setting the last update date for the above comparison to “January 1, 0” ( Web page acquisition (S27) described below is performed, and web page information is newly added to the collected page information 31, the page content information 41, and the page update date information 51. (S28)

取得更新日が、最終更新日より新しい場合(S26でYES)、つまり、収集ページ情報31に個別ページ情報が記録されていない、もしくは、個別ページ情報として記録されたウェブページが更新されていた場合、ページ比較部23は、収集・解析部22に対象URLを送信する。   When the acquisition update date is newer than the last update date (YES in S26), that is, when individual page information is not recorded in the collected page information 31, or when a web page recorded as individual page information is updated The page comparison unit 23 transmits the target URL to the collection / analysis unit 22.

なお、ここで取得更新日が、最終更新日より古い場合(S26でNO)は、当該対象URLについての処理を終了する。   If the acquisition update date is older than the last update date (NO in S26), the process for the target URL ends.

収集・解析部22はページ比較部23より受け取った対象URLにHTTPのゲットリクエストを送信することにより、ウェブページを取得し、ページ比較部23へ送信する(S27)。   The collection / analysis unit 22 acquires a web page by transmitting an HTTP get request to the target URL received from the page comparison unit 23, and transmits the web page to the page comparison unit 23 (S27).

ページ比較部23は、収集・解析部22より受け取ったウェブページから、タイトルと本文とを抽出し、特定個別ページ情報が収集ページ情報31に存在する場合、その特定個別ページ情報の各項目である、最終更新日と、タイトルと本文とを、それぞれ、先に抽出した取得更新日と、抽出したタイトルと本文とする更新を行う(S28)。   The page comparison unit 23 extracts the title and the text from the web page received from the collection / analysis unit 22. When the specific individual page information exists in the collection page information 31, the page comparison unit 23 is each item of the specific individual page information. Then, the last update date, the title and the text are updated to the previously acquired acquisition update date and the extracted title and text, respectively (S28).

また、特定個別ページ情報が存在しない場合、対象URLと取得更新日とをそれぞれページURLと最終更新日とし、そのページURLと最終更新日と、抽出したタイトルと本文とを一組の個別ページ情報とし、収集ページ情報31に書き込む。つまり、収集ページ情報31に新規に個別ページ情報が追加されることとなる(S28)。   Further, when there is no specific individual page information, the target URL and the acquisition update date are set as the page URL and the last update date, respectively, and the page URL, the last update date, the extracted title, and the text are a set of individual page information. And is written in the collected page information 31. That is, the individual page information is newly added to the collected page information 31 (S28).

さらに、ページ比較部23は、収集ページ情報31に特定個別ページ情報が存在するか否かに係わらず、対象URLと、抽出したタイトルと本文とを、ページ内容取得部24へ送信し、対象URLと取得更新日を、ページ更新日取得部25に送信する(S29)。   Further, the page comparison unit 23 transmits the target URL and the extracted title and text to the page content acquisition unit 24 regardless of whether or not the specific individual page information exists in the collected page information 31, and the target URL The acquisition update date is transmitted to the page update date acquisition unit 25 (S29).

ページ内容取得部24は、ページ比較部23より受け取った本文の解析を行い、本文中の各単語の出現頻度などから、本文を特徴づける単語である複数のキーワードを抽出し、タイトルや本文におけるキーワード毎の出現回数などからキーワードの重要度を決定し、重要度の高い順に配列する。また、本文の先頭から所定の文字数以降を切り捨て、表示用本文を抽出する。   The page content acquisition unit 24 analyzes the text received from the page comparison unit 23, extracts a plurality of keywords that are words characterizing the text from the appearance frequency of each word in the text, and the keywords in the title and text. The importance of keywords is determined from the number of appearances for each, and the keywords are arranged in descending order of importance. In addition, the display body is extracted by discarding a predetermined number of characters from the beginning of the body.

また、ページ比較部23より受け取った対象URLと、ページ内容情報41に記録されたページURLとを比較対照し特定される個別内容情報(以下「特定個別内容情報」と称する。)が存在する場合は、特定個別内容情報の各項目である、キーワードと、タイトルと、表示用本文とを、それぞれ、配列したキーワードと、ページ比較部23より受け取ったタイトルと、抽出した表示用本文とする更新を行う(S30)。   Further, there is individual content information (hereinafter referred to as “specific individual content information”) specified by comparing and comparing the target URL received from the page comparison unit 23 with the page URL recorded in the page content information 41. Updates the keywords, titles, and display text, which are the items of the specific individual content information, respectively, to the arranged keywords, the title received from the page comparison unit 23, and the extracted display text. Perform (S30).

特定個別内容情報が存在しない場合は、ページ比較部23より受け取った対象URLをページURLとし、そのページURLと、ページ比較部23より受け取ったタイトルと、配列したキーワードと表示用本文とを一組の個別内容情報とし、ページ内容情報41に書き込む。つまり、ページ内容情報41に、新規に個別内容情報が追加される(S30)。   When the specific individual content information does not exist, the target URL received from the page comparison unit 23 is set as the page URL, and the page URL, the title received from the page comparison unit 23, the arranged keyword, and the display text are a set. Is written in the page content information 41. That is, the individual content information is newly added to the page content information 41 (S30).

ページ更新日取得部25は、ページ比較部23より受け取ったページURLと、ページ更新日情報51に記録されたページURLとを比較対照し、特定される個別更新日情報(以下「特定個別更新日情報」と称する。)が存在する場合は、特定個別更新日情報の最終更新日を、ページ比較部23より受け取った取得更新日とする更新を行う(S30)。   The page update date acquisition unit 25 compares and contrasts the page URL received from the page comparison unit 23 with the page URL recorded in the page update date information 51, and specifies individual update date information (hereinafter referred to as “specific individual update date”). If the information is referred to as “information”), update is performed with the last update date of the specific individual update date information as the acquisition update date received from the page comparison unit 23 (S30).

特定個別更新日情報が存在しない場合は、ページ比較部23より受け取った対象URLと取得更新日とを、それぞれ、ページURLと最終更新日とした一組の個別更新日情報とし、ページ更新日情報51に書き込む。つまり、ページ更新日情報51に、新規に個別更新日情報が追加される(S30)。   When the specific individual update date information does not exist, the target URL received from the page comparison unit 23 and the acquired update date are set as a set of individual update date information including the page URL and the last update date, respectively. 51 is written. That is, the individual update date information is newly added to the page update date information 51 (S30).

また、収集・解析部22において、取得したレスポンスヘッダからLast−modifiedフィールドが取得不可能な場合(S24でNO)、対象URLにゲットリクエストを送信することにより、ウェブページを取得し、対象URLと、そのウェブページと、そのウェブページを取得した日付(取得日付)とを、ページ比較部23に送信する(S31)。   Further, when the collection-analysis unit 22 cannot acquire the Last-modified field from the acquired response header (NO in S24), the Web page is acquired by sending a get request to the target URL, and the target URL and The web page and the date (acquisition date) when the web page was acquired are transmitted to the page comparison unit 23 (S31).

ページ比較部23は、収集・解析部22より受け取ったウェブページから、タイトルと本文を抽出する。   The page comparison unit 23 extracts the title and text from the web page received from the collection / analysis unit 22.

さらに、対象URLと、収集ページ情報31に記録されたページURLとを比較対照し、特定個別ページ情報が存在する場合(S32でYES)は、特定個別ページ情報の本文と、上記の抽出した本文(以下「取得本文」と称する。)とを比較する(S33)。   Further, the target URL and the page URL recorded in the collected page information 31 are compared and contrasted. When the specific individual page information exists (YES in S32), the text of the specific individual page information and the extracted text described above are included. (Hereinafter referred to as “acquired text”) (S33).

特定個別ページ情報の本文と取得本文との間に差異がある場合(S34でYES)、収集ページ情報31に個別ページ情報として記録されたウェブページが更新されていたものとみなし、特定個別ページ情報の各項目である最終更新日と、タイトルと、本文とを、それぞれ収集・解析部22より受け取った取得日付と、抽出したタイトルと、取得本文とする更新を行う(S28)。   If there is a difference between the text of the specific individual page information and the acquired text (YES in S34), it is considered that the web page recorded as the individual page information in the collected page information 31 has been updated, and the specific individual page information The last update date, the title, and the text, which are the items, are updated to the acquisition date, the extracted title, and the acquired text received from the collection / analysis unit 22, respectively (S28).

なお、ここで、特定個別ページ情報の本文と取得本文との間に差異がない場合(S34でNO)は、収集ページ情報31に個別ページ情報として記録されたウェブページに更新がなかったものとみなし、当該対象URLについての処理を終了する。   If there is no difference between the text of the specific individual page information and the acquired text (NO in S34), the web page recorded as the individual page information in the collected page information 31 has not been updated. Therefore, the process for the target URL is terminated.

特定個別ページ情報が存在しない場合は(S32でNO)、対象URLと、収集・解析部22より受け取った取得日付と、抽出したタイトルと、取得本文とを、それぞれ、ページURLと、最終更新日と、タイトルと、本文とした一組の個別ページ情報として、収集ページ情報31に書き込む(S28)。つまり、収集ページ情報31に新規に個別ページ情報が追加されることとなる。   If the specific individual page information does not exist (NO in S32), the target URL, the acquisition date received from the collection / analysis unit 22, the extracted title, and the acquisition text are respectively the page URL and the last update date. And the title and the text as a set of individual page information are written in the collected page information 31 (S28). That is, the individual page information is newly added to the collected page information 31.

つまり、上述の、取得したレスポンスヘッダからLast−modifiedフィールドが取得不可能な場合(S24でNO)は、対象URLに存在するウェブページの更新日は取得できないことになるが、その取得したウェブページの本文を、以前に取得した本文と比較することにより、その間に差異が存在した場合は、更新が行われたものとみなし、そのウェブページを取得した日を、更新日としている。   That is, if the Last-modified field cannot be acquired from the acquired response header (NO in S24), the update date of the web page existing in the target URL cannot be acquired, but the acquired web page If there is a difference between the previously obtained text and the previously obtained text, it is considered that the text has been updated, and the date when the web page was acquired is set as the update date.

こうすることで、ユーザに、そのウェブページの有用性の判断の目安としての更新日を知らせることができることとなる。   In this way, the user can be informed of the update date as a guide for determining the usefulness of the web page.

さらに、ページ比較部23は、収集ページ情報31に特定個別ページ情報が存在するか否かに係わらず、対象URLと、抽出したタイトルと本文とを、ページ内容取得部24へ送信し、対象URLと取得日付を、ページ更新日取得部25に送信する(S29)。   Further, the page comparison unit 23 transmits the target URL and the extracted title and text to the page content acquisition unit 24 regardless of whether or not the specific individual page information exists in the collected page information 31, and the target URL And the acquisition date are transmitted to the page update date acquisition unit 25 (S29).

以降、ページ内容取得部24とページ更新日取得部25とは、上述のページ内容情報41及びページ更新日情報の更新(S30)を行う。   Thereafter, the page content acquisition unit 24 and the page update date acquisition unit 25 update the page content information 41 and the page update date information described above (S30).

以上説明したように、本発明の実施の形態である、検索結果提供システムは、ユーザから、ウェブページの内容を対象としたキーワード検索を受け付けることができ、検索結果として、検索に該当したウェブページの更新日も表示させることがでる。   As described above, the search result providing system, which is an embodiment of the present invention, can accept a keyword search targeting the contents of a web page from a user, and the web page corresponding to the search as a search result. The update date of can also be displayed.

よって、ユーザはその表示された更新日を参考にすることにより、ウェブページに実際にアクセスする前に、そのウェブページの内容の有用性を判断することができ、効率的に自身の所望する情報にアクセスすることが可能となる。   Therefore, by referring to the displayed update date, the user can determine the usefulness of the content of the web page before actually accessing the web page, and efficiently information desired by the user. Can be accessed.

また、検索結果リストを、更新日について降順または昇順に並べ替えることができるため、ユーザが、ウェブページの更新日が新しいほど、自身にとっての有用性が高いと考える場合は、降順にすることにより、また逆に、ある事柄について、時系列にそって、その変遷を知りたいという場合は、昇順にすることにより、検索結果リストの先頭のウェブページから順にアクセスしていけばよく、ユーザに利便性の高い検索結果を提供できることとなる。   In addition, since the search result list can be sorted in descending order or ascending order with respect to the update date, if the user thinks that the newer the update date of the web page is, the higher the usefulness for himself / herself, On the other hand, if you want to know the transition of a certain matter in chronological order, you can access it sequentially from the top web page of the search result list by ascending order. It is possible to provide highly-relevant search results.

上述の検索結果の並べ替えは、検索結果格納部26に格納されている検索結果を対象に行われる。そのため、あらためて検索が実行されることなく、効率的にユーザに対して並べ替えがなされた検索結果を提供することができる。   The above-described sorting of the search results is performed on the search results stored in the search result storage unit 26. Therefore, it is possible to provide a search result that is efficiently sorted to the user without performing a search again.

さらに、ウェブページの更新日も検索対象とできることから、ユーザが、自身の所望する情報が発表された、もしくは、発生した時期をユーザが知っている場合、その時期を含むある特定の期間を、ウェブページの更新日を対象とした検索条件として指定することにより、無駄な検索結果を省くことができ、ユーザが所望する情報にアクセスするまでの時間を短縮できることとなる。   Furthermore, since the update date of the web page can also be a search target, if the user knows the time when the desired information was announced or occurred, a specific period including that time, By designating the update date of the web page as a target search condition, useless search results can be omitted, and the time required to access information desired by the user can be shortened.

特に、ユーザが、自身の所望する情報を検索する際に、その検索に適してはいるが最適ではないキーワードを検索条件とした場合において、検索結果を絞り込む役割を果たすため、ユーザに、有用な情報の効率的な取得を行わせる手段の一つとして有効である。   In particular, when a user searches for information desired by the user, it is useful for the user because it plays a role of narrowing the search results when a keyword that is suitable for the search but not optimal is used as a search condition. It is effective as one of means for efficiently obtaining information.

以上、本発明の実施の形態である、検索結果提供システムの説明を行ったが、本発明は、上記の実施の形態に限定されるものではない。   The search result providing system, which is an embodiment of the present invention, has been described above, but the present invention is not limited to the above embodiment.

図8、9、11を用いて説明した検索結果表示画面において、ユーザからの検索条件と実行指示を受け付ける欄があってもよく、その画面の表示例が図13である。   In the search result display screen described with reference to FIGS. 8, 9, and 11, there may be a column for receiving a search condition and an execution instruction from the user. FIG.

図13に示す、検索結果表示画面120は、図7に示す、検索受付画面100において、入力、選択されている条件で検索を実行した後に、クライアント装置201(202)に表示される画面の例である。   The search result display screen 120 shown in FIG. 13 is an example of a screen displayed on the client device 201 (202) after executing a search under the conditions entered and selected in the search acceptance screen 100 shown in FIG. It is.

検索条件入力欄121と、検索結果リスト表示領域112が表示されており、検索条件入力欄121には、キーワード入力欄101と、更新日表示ラジオボタン102と、開始日付入力欄103と、終了日付入力欄104と、検索実行ボタン105とを含む。   A search condition input field 121 and a search result list display area 112 are displayed. The search condition input field 121 includes a keyword input field 101, an update date display radio button 102, a start date input field 103, and an end date. An input field 104 and a search execution button 105 are included.

キーワード入力欄101には、検索条件であるキーワード「サイエンス」が表示され、更新日表示ラジオボタン102は「表示する」が選択されている。つまり、図7に示す検索受付画面100においてユーザによりなされた入力と選択を引き継いでおり、検索結果リスト表示領域112に表示されている検索結果の基となる検索条件が表示されている。   The keyword input field 101 displays the keyword “science” as a search condition, and “display” is selected for the update date display radio button 102. That is, the input and selection made by the user on the search reception screen 100 shown in FIG. 7 are taken over, and the search conditions that are the basis of the search results displayed in the search result list display area 112 are displayed.

このように、検索結果表示画面110においても、検索条件の入力と選択と検索の実行とが行えることにより、検索実行後に、検索受付画面100に戻ることなく、即座に次の検索が行えるなどの利便性が増す。   As described above, the search result display screen 110 can also input, select and execute the search condition, so that the next search can be performed immediately without returning to the search reception screen 100 after the search is executed. Convenience increases.

例えば、ユーザが、キーワードのみの検索を実行し、検索結果が多過ぎると感じた場合、キーワード入力欄への、検索キーワードの追加や、開始日付入力欄103と、終了日付入力欄104への日付を入力を行い、検索実行ボタン105をクリックすることにより、検索結果を追加したキーワードやウェブページの更新日で絞り込むことができる。   For example, when a user performs a search for only keywords and feels that there are too many search results, the search keyword is added to the keyword input field, and the dates to the start date input field 103 and the end date input field 104 Can be narrowed down by the keyword to which the search result has been added or the update date of the web page.

つまり、キーワードで検索した結果を見た後で、キーワードの追加や、更新日での制限を行うかを決定し、即座に検索結果の絞り込みが行えることとなり、ユーザにとっての利便性が増すこととなる。   In other words, after seeing the search results by keyword, you can decide whether to add keywords or restrict by update date, and you can narrow down the search results immediately, which increases convenience for users. Become.

また、図7、10、13に示す開始日付入力欄103と、終了日付入力欄104において、「2004.4.30」等の日付を受け付けるとしたが、これは、「2004」など、年だけや、「2004.4」など年月だけの入力を受け付けてもよい。   In addition, in the start date input field 103 and the end date input field 104 shown in FIGS. 7, 10, and 13, a date such as “2004.4.30” is accepted. Alternatively, an input of only the year and month such as “2004. 4” may be accepted.

この場合、例えば、入力情報判断部12が、ある一定の基準を持ち、開始日付入力欄103に「2004」と入力された場合は、入力情報判断部12が、「2004.1.1」と、月日を補足し、また例えば、終了日付入力欄104に「2004.4」と入力した場合は、入力情報判断部12が、「2004.4.30」と、日を補足するなどして、検索部13へ送信すればよい。   In this case, for example, when the input information determination unit 12 has a certain standard and “2004” is input to the start date input field 103, the input information determination unit 12 sets “2004.1.1”. If the date is input to the end date input field 104, for example, “2004. 4” is input, the input information determination unit 12 adds “2004.4.30” to the date. The search unit 13 may be transmitted.

また、開始日付入力欄103か、終了日付入力欄104かのどちらかのだけの入力を受け付けてもよく、例えば開始日付入力欄103にのみ「2003.4」と入力された場合、入力情報判断部12が、「2003.4.1」と、日を補足し、検索部13へ送信し、検索部13は、「2003年4月1日以降」という検索条件で検索を行えばよい。   Further, only the start date input field 103 or the end date input field 104 may be accepted. For example, when “20033.4” is input only in the start date input field 103, the input information determination is performed. The unit 12 supplements the date “2003.4.1” and transmits it to the search unit 13, and the search unit 13 may perform a search under the search condition “after April 1, 2003”.

こうすることで、ユーザが、ウェブページの更新日に対する制限は大まかでよいと考えた場合、ユーザの入力に係わる労力を低減させることができる。   By doing so, when the user thinks that the restriction on the update date of the web page may be rough, the labor related to the user's input can be reduced.

また、上記の入力情報判断部12での、月や日の補足は、検索部13で行うとしてもよい。   Further, supplementation of the month and day by the input information determination unit 12 may be performed by the search unit 13.

また、ユーザが、更新日の制限のために日付を入力する欄を、開始日付入力欄103と終了日付入力欄104との二つではなく、一つだけ表示させた検索受付画面を設けてもよく、図14は、更新日の制限のための日付を入力する欄を、一つだけ表示させた検索受付画面の表示例である。   In addition, a search acceptance screen may be provided in which a user displays only one field for inputting a date for restriction of the update date, instead of two fields of a start date input field 103 and an end date input field 104. Often, FIG. 14 is a display example of a search acceptance screen in which only one field for inputting a date for limiting the update date is displayed.

図14に示す検索受付画面100には、図10と同様に、キーワード入力欄101と、更新日表示ラジオボタン102が表示されており、制限を行う基準となる日付(以下「基準日付」と称する。)を入力する、基準日付入力欄106と、その選択の組み合わせにより、「以降に限る」と「以前に限る」と「以降を省く」と「以前を省く」との4通りの設定が行える、制限タイプラジオボタン107が表示されている。   As shown in FIG. 10, a keyword input field 101 and an update date display radio button 102 are displayed on the search reception screen 100 shown in FIG. 14, and a date that serves as a reference for restriction (hereinafter referred to as “reference date”). .) Can be set in four ways: “Limited to the following”, “Limited to the previous”, “Exclude the following”, and “Exclude the previous”. A restriction type radio button 107 is displayed.

つまり、図14に示すように、基準日付入力欄106に「2003.12.1」と入力され、制限タイプラジオボタン107は「以前」かつ「を省く」が選択されている場合、更新日を制限する期間は「2003年12月1日を含む、それより前の日付を省く」という意味になり、検索実行後の結果は、更新日が2003年12月2日以降の日付であるウェブページに限られることとなる。   That is, as shown in FIG. 14, when “2003.12.1” is entered in the reference date input field 106 and the restriction type radio button 107 is selected as “Previous” and “Omit”, the update date is set. The restriction period means "Omit dates before December 1, 2003", and the result after the search is executed is a web page whose update date is a date after December 2, 2003 It will be limited to.

こうすることで、日付の入力は基準日付一つでよく、また、ユーザ自身が明示的に制限期間の設定を行うことができるため、更新日の制限を行う場合に、その制限する期間を、ある基準となる日付の前後でのみ決定したいユーザにとっては使い易い検索受付画面となる。   In this way, the date can be input with only one reference date, and since the user can explicitly set the limit period, when limiting the renewal date, This is an easy-to-use search acceptance screen for a user who wants to decide only before or after a certain reference date.

なお、基準日付入力欄106においても、前述の、「2004」など、年だけや、「2004.4」など年月だけの入力を受け付けてもよく、前述のように、月や日の補足を入力情報判断部12または検索部13で行えばよい。   In the reference date input field 106, it is also possible to accept input of only the year, such as “2004”, or only the year and month, such as “2004.4”, and supplement the month and day as described above. The input information determination unit 12 or the search unit 13 may perform this.

また、収集したウェブページの情報は、収集ページ情報31と、ページ内容情報41と、ページ更新日情報51とに記録するとしたが、これらは、ページURLをキーとしたリレーションにより、検索や検索結果の送出に必要なデータを取り出す、もしくは書き込むことができればよく、4以上のファイルに分割して記録してもよく、また一つのファイルに統合してもよい。   Further, the collected web page information is recorded in the collected page information 31, the page content information 41, and the page update date information 51. These are retrieved and retrieved by a relation using the page URL as a key. As long as the data necessary for sending the data can be extracted or written, it may be divided into four or more files and recorded, or may be integrated into one file.

また、図12を用いて説明した、サーバ装置10が、ウェブページの情報の収集を行う動作の中で、レスポンスヘッダ内に、Last−modifiedフィールドが存在しない場合、そのウェブページの更新日の決定方法として、取得したウェブページと以前に取得した同じウェブページの本文の間の差異の存在を検出し、差異が存在した場合は、更新があったものとみなし、そのウェブページの取得日を更新日とする手法を取っている。   In addition, in the operation in which the server apparatus 10 described with reference to FIG. 12 collects web page information, if the Last-modified field does not exist in the response header, the update date of the web page is determined. As a method, the existence of a difference between the acquired web page and the body text of the same web page previously acquired is detected, and if there is a difference, it is considered that there is an update and the acquisition date of the web page is updated. The technique of taking the day is taken.

これは、あくまでもユーザに、ウェブページの更新日の目安を提供する目的であるため、比較の対象は本文の一部としてもよく、例えば、比較の対象を本文の最初から所定の文字数とする、や、先頭と最後の所定の文字数とする、としてもよく、また単純に本文の文字数のみを比較する、としてもよい。   This is only for the purpose of providing the user with a guideline for the update date of the web page, so the comparison target may be a part of the text, for example, the comparison target is a predetermined number of characters from the beginning of the text, Alternatively, the number of characters at the beginning and end may be set, or only the number of characters in the body may be compared.

また、上記、差異の存在を検出する対象はウェブページの本文に限らず、例えば、レスポンスヘッダ内のウェブページのファイルサイズの情報であるContent−Lengthフィールドや、ウェブページの同一性を識別するためのIDであるEtagフィールドなどを以前に取得済みのものと比較する手法でもよい。この場合は、収集ページ情報31に上記フィールドを保存しておけばよい。   In addition, the target for detecting the presence of the difference is not limited to the body of the web page. For example, to identify the Content-Length field that is information on the file size of the web page in the response header and the identity of the web page. A method of comparing the Etag field, which is the ID of, with a previously acquired one may be used. In this case, the above-described fields may be stored in the collection page information 31.

上述の、本文の一部の比較や、レスポンスヘッダ内の各フィールドの比較による、ウェブページが更新されたか否かの判別手法は、本文よりも少ない文字数の比較であるため、サーバ装置10が行うウェブページ収集に関する処理の負荷を低減させることができ、サーバ装置10全体の処理速度を向上させることができる。   The above-described method for determining whether or not a web page has been updated by comparing a part of the text or comparing each field in the response header is a comparison of the number of characters smaller than that of the text, and thus is performed by the server device 10. The processing load related to web page collection can be reduced, and the processing speed of the entire server apparatus 10 can be improved.

また、上記の更新日の判別手法を複数組み合わせて、行ってもよく、その場合は、更新日の信頼性を向上させることができる。   In addition, a plurality of methods for discriminating the update date may be combined, and in that case, the reliability of the update date can be improved.

本発明に係わる検索結果提供装置は、インターネット上に公開されているウェブページを対象とした検索サイトのサーバ装置等に適用できる。   The search result providing apparatus according to the present invention can be applied to a server apparatus or the like of a search site for a web page published on the Internet.

実施の形態の検索結果提供システムの構成を示す概観図である。It is a general-view figure which shows the structure of the search result provision system of embodiment. サーバ装置の機能的な構成を示す機能ブロック図である。It is a functional block diagram which shows the functional structure of a server apparatus. 収集ページ情報格納部に格納された収集ページ情報の一例を示す図である。It is a figure which shows an example of the collection page information stored in the collection page information storage part. ページ内容情報格納部に格納されたページ内容情報の一例を示す図である。It is a figure which shows an example of the page content information stored in the page content information storage part. ページ更新日情報格納部に格納されたページ更新日情報の一例を示す図である。It is a figure which shows an example of the page update date information stored in the page update date information storage part. サーバ装置10が実行する検索及び並べ替えに関する処理のフローチャートである。It is a flowchart of the process regarding the search and rearrangement which the server apparatus 10 performs. 検索受付画面の一例を示す図である。It is a figure which shows an example of a search reception screen. 検索結果表示画面の一例を示す図である。It is a figure which shows an example of a search result display screen. 検索結果を更新日について降順に並び替えた検索結果表示画面の一例を示す図である。It is a figure which shows an example of the search result display screen which rearranged the search result about the update date in descending order. 更新日に制限をかける検索条件が入力された検索受付画面の一例を示す図である。It is a figure which shows an example of the search reception screen into which the search condition which restrict | limits an update date was input. 更新日が制限された検索結果表示画面の一例を示す図である。It is a figure which shows an example of the search result display screen where the update date was restrict | limited. サーバ装置10が実行するウェブページの情報の収集に関する処理のフローチャートである。It is a flowchart of the process regarding the collection of the information of the web page which the server apparatus 10 performs. 検索結果表示画面に検索条件入力欄を設けた場合の一例を示す図である。It is a figure which shows an example at the time of providing the search condition input column in the search result display screen. 検索受付画面の他の一例を示す図である。It is a figure which shows another example of a search reception screen.

符号の説明Explanation of symbols

1 検索結果提供装置
10 サーバ装置
11 公開用I/F部
12 入力情報判断部
13 検索部
14 並べ替え部
15 検索結果リスト送出部
21 収集用I/F部
22 収集・解析部
23 ページ比較部
24 ページ内容取得部
25 ページ更新日取得部
26 検索結果格納部
30 収集ページ情報格納部
31 収集ページ情報
40 ページ内容情報格納部
41 ページ内容情報
50 ページ更新日情報格納部
51 ページ更新日情報
100 検索受付画面
101 キーワード入力欄
102 更新日表示ラジオボタン
103 開始日付入力欄
104 終了日付入力欄
105 検索実行ボタン
106 基準日付入力欄
107 制限タイプラジオボタン
110、120 検索結果表示画面
111 検索ステータス表示欄
112 検索結果表示領域
113 更新日表示欄
114 降順ボタン
115 昇順ボタン
121 検索条件入力欄

DESCRIPTION OF SYMBOLS 1 Search result provision apparatus 10 Server apparatus 11 Public I / F part 12 Input information judgment part 13 Search part 14 Rearrangement part 15 Search result list transmission part 21 Collection I / F part 22 Collection / analysis part 23 Page comparison part 24 Page content acquisition unit 25 Page update date acquisition unit 26 Search result storage unit 30 Collected page information storage unit 31 Collected page information 40 Page content information storage unit 41 Page content information 50 Page update date information storage unit 51 Page update date information 100 Search acceptance Screen 101 Keyword input field 102 Update date display radio button 103 Start date input field 104 End date input field 105 Search execution button 106 Reference date input field 107 Restriction type radio button 110, 120 Search result display screen 111 Search status display field 112 Search result Display area 113 Update date display Field 114 Descending button 115 Ascending button 121 Search condition input field

Claims (10)

ウェブページを検索し、検索結果を提供する検索結果提供装置であって、
ユーザからの検索キーワードの入力と並べ替え指示とを受け付ける受付手段と、
前記検索キーワードを検索条件として、ネットワーク上に公開されたウェブページを検索する検索手段と、
前記ウェブページを識別するための識別情報を取得する識別情報取得手段と、
前記ウェブページの更新情報を取得する更新情報取得手段と、
前記検索手段による検索に該当したウェブページの識別情報と当該ウェブページの更新情報とを一組とした結果情報を記憶する結果記憶手段と、
前記受付手段によって受け付けられた前記並べ替え指示に基づき、前記結果記憶手段に記憶されている前記結果情報を、前記更新情報について降順または昇順で並べ替える並べ替え手段と、
前記並べ替え手段により並べ替えられた前記結果情報を送出する結果情報送出手段と
を備えることを特徴とする検索結果提供装置。
A search result providing device for searching a web page and providing a search result,
A receiving means for receiving a search keyword input and a sorting instruction from a user;
Search means for searching a web page published on the network using the search keyword as a search condition;
Identification information acquisition means for acquiring identification information for identifying the web page;
Update information acquisition means for acquiring update information of the web page;
A result storage means for storing result information including a set of identification information of the web page corresponding to the search by the search means and update information of the web page;
Reordering means for reordering the result information stored in the result storage means in descending or ascending order with respect to the update information based on the reordering instruction accepted by the accepting means;
A search result providing apparatus comprising: result information sending means for sending the result information sorted by the sorting means.
前記更新情報は、前記ウェブページの更新された日付、または、更新されたとみなされる日付であり、
前記受付手段は、更に、前記検索手段により検索されるウェブページを前記更新情報により制限する制限期間情報の入力を受け付け、
前記検索手段は、更に、前記制限期間情報が入力された場合は、前記検索キーワードと前記制限期間情報とを検索条件として、前記ウェブページを検索する
ことを特徴とする請求項1に記載の検索結果提供装置。
The update information is an update date of the web page, or a date considered to be updated,
The accepting means further accepts an input of time limit information for restricting the web page searched by the searching means with the update information,
2. The search according to claim 1, wherein the search means further searches the web page using the search keyword and the limit period information as a search condition when the limit period information is input. Result providing device.
前記検索結果提供装置は、更に
ネットワーク上に公開されたウェブページの内容と、前記ウェブページの更新情報とを含むウェブページ情報を収集するウェブページ情報収集手段を備え、
前記検索手段は、前記検索キーワードにより、前記ウェブページ情報収集手段により収集されたウェブページ情報を検索し、
前記識別情報取得手段は、前記ウェブページ情報収集手段により収集されたウェブページ情報から識別情報を取得し、
前記更新情報取得手段は、前記ウェブページ情報収集手段により収集されたウェブページ情報から更新情報を取得する
ことを特徴とする請求項1に記載の検索結果提供装置。
The search result providing apparatus further includes web page information collecting means for collecting web page information including contents of a web page published on a network and update information of the web page,
The search means searches the web page information collected by the web page information collection means by the search keyword,
The identification information acquisition means acquires identification information from the web page information collected by the web page information collection means,
The search result providing apparatus according to claim 1, wherein the update information acquisition unit acquires update information from the web page information collected by the web page information collection unit.
前記更新情報は、前記ウェブページの更新された日付、または、更新されたとみなされる日付であり、
前記受付手段は、更に、前記検索手段により検索されるウェブページを、前記更新情報により制限する制限期間情報の入力を受け付け、
前記検索手段は、前記検索キーワードと制限期間情報とを検索条件として、前記ウェブページ情報収集手段により収集されたウェブページ情報を検索する
ことを特徴とする請求項3に記載の検索結果提供装置。
The update information is an update date of the web page, or a date considered to be updated,
The accepting means further accepts an input of time limit information for restricting the web page searched by the searching means by the update information,
The search result providing apparatus according to claim 3, wherein the search means searches the web page information collected by the web page information collection means using the search keyword and the limited period information as search conditions.
前記検索結果提供装置は、更に、
前記ウェブページ情報を記憶するウェブページ情報記憶手段と、
前記更新情報取得手段により、ウェブページ情報から取得されたウェブページの更新情報と、ウェブページ情報記憶手段に記憶された、前記ウェブページの過去のウェブページ情報に含まれる更新情報とを比較し、前記ウェブページの更新情報が新しくなっている場合、前記過去のウェブページ情報を、前記ウェブページの新たなウェブページ情報に書き換える比較手段と
を備えることを特徴とする請求項3に記載の検索結果提供装置。
The search result providing apparatus further includes:
Web page information storage means for storing the web page information;
The update information acquisition unit compares the update information of the web page acquired from the web page information with the update information included in the past web page information of the web page stored in the web page information storage unit, The search result according to claim 3, further comprising: a comparison unit that rewrites the past web page information with new web page information of the web page when update information of the web page is new. Providing device.
前記比較手段は、更に、前記更新情報取得手段により、ウェブページ情報からウェブページの更新情報を取得できなかった場合は、前記ウェブページ情報収集手段により収集された前記ウェブページのウェブページ情報の特定部分と、前記ウェブページ記憶手段に記憶された、前記ウェブページの過去のウェブページ情報の特定部分とを比較し、差異がある場合、前記ウェブページが更新されたものとみなして、前記ウェブページのウェブページ情報を最後に収集した日を前記ウェブページの更新日とし、前記ウェブページ情報記憶手段に記憶された前記ウェブページのウェブページ情報を、前記ウェブページの新たウェブページ情報に書き換える
ことを特徴とする請求項5に記載の検索結果提供装置。
The comparison means further specifies the web page information of the web page collected by the web page information collection means when the update information acquisition means cannot obtain the update information of the web page from the web page information. A part and a specific part of the past web page information of the web page stored in the web page storage means, and if there is a difference, the web page is regarded as updated, and the web page The date when the web page information was collected last is the update date of the web page, and the web page information of the web page stored in the web page information storage means is rewritten with new web page information of the web page. The search result providing apparatus according to claim 5, wherein:
前記特定部分は、前記ウェブページ情報の一部または全部である
ことを特徴とする請求項6に記載の検索結果提供装置。
The search result providing apparatus according to claim 6, wherein the specific part is a part or all of the web page information.
前記結果情報の各識別情報には、予め順位が付されており、
前記並べ替え手段は、各識別情報に付された順位に基づき、前記結果情報を並べ替える
ことを特徴とする請求項1記載の検索結果提供装置。
Each identification information of the result information is given a rank in advance,
The search result providing apparatus according to claim 1, wherein the rearranging unit rearranges the result information based on a rank assigned to each identification information.
ウェブページを検索し、検索結果を提供する検索結果提供方法であって、
ユーザからの検索キーワードの入力と並べ替え指示とを受け付ける受付ステップと、
前記検索キーワードを検索条件として、ネットワーク上に公開されたウェブページを検索する検索ステップと、
前記ウェブページを識別するための識別情報を取得する識別情報取得ステップと、
前記ウェブページの更新情報を取得する更新情報取得ステップと、
前記検索手段による検索に該当したウェブページの識別情報と当該ウェブページの更新情報とを一組とした結果情報を記憶手段に記憶する記憶ステップと、
前記受付ステップにおいて受け付けられた前記並べ替え指示に基づき、前記記憶手段に記憶されている前記結果情報を、前記更新情報について降順または昇順で並べ替える並べ替えステップと、
前記並べ替えステップにおいて並べ替えられた前記結果情報を送出する結果情報送出ステップと
を含むことを特徴とする検索結果提供方法。
A search result providing method for searching a web page and providing a search result,
A reception step for receiving a search keyword input and a sorting instruction from a user;
A search step of searching a web page published on the network using the search keyword as a search condition;
An identification information acquisition step of acquiring identification information for identifying the web page;
An update information acquisition step of acquiring update information of the web page;
A storage step of storing, in a storage unit, result information including a set of identification information of the web page corresponding to the search by the search unit and update information of the web page;
Based on the rearrangement instruction received in the reception step, the rearrangement step of rearranging the result information stored in the storage unit in descending or ascending order with respect to the update information;
And a result information sending step of sending the result information sorted in the sorting step.
ウェブページを検索し、検索結果を提供するためのプログラムであって、
ユーザからの検索キーワードの入力と並べ替え指示とを受け付ける受付ステップと、
前記検索キーワードを検索条件として、ネットワーク上に公開されたウェブページを検索する検索ステップと、
前記ウェブページを識別するための識別情報を取得する識別情報取得ステップと、
前記ウェブページの更新情報を取得する更新情報取得ステップと、
前記検索手段による検索に該当したウェブページの識別情報と当該ウェブページの更新情報とを一組とした結果情報を記憶手段に記憶する記憶ステップと、
前記受付ステップにおいて受け付けられた前記並べ替え指示に基づき、前記記憶手段に記憶されている前記結果情報を、前記更新情報について降順または昇順で並べ替える並べ替えステップと、
前記並べ替えステップにおいて並べ替えられた前記結果情報を送出する結果情報送出ステップと
をコンピュータに実行させるためのプログラム。
A program for searching web pages and providing search results,
A reception step for receiving a search keyword input and a sorting instruction from a user;
A search step of searching a web page published on the network using the search keyword as a search condition;
An identification information acquisition step of acquiring identification information for identifying the web page;
An update information acquisition step of acquiring update information of the web page;
A storage step of storing, in a storage unit, result information including a set of identification information of the web page corresponding to the search by the search unit and update information of the web page;
Based on the rearrangement instruction received in the reception step, the rearrangement step of rearranging the result information stored in the storage unit in descending or ascending order with respect to the update information;
A program for causing a computer to execute a result information sending step for sending the result information sorted in the sorting step.
JP2005089866A 2005-03-25 2005-03-25 Retrieval result providing device Pending JP2006268771A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005089866A JP2006268771A (en) 2005-03-25 2005-03-25 Retrieval result providing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005089866A JP2006268771A (en) 2005-03-25 2005-03-25 Retrieval result providing device

Publications (1)

Publication Number Publication Date
JP2006268771A true JP2006268771A (en) 2006-10-05

Family

ID=37204620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005089866A Pending JP2006268771A (en) 2005-03-25 2005-03-25 Retrieval result providing device

Country Status (1)

Country Link
JP (1) JP2006268771A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009043258A (en) * 2007-08-06 2009-02-26 Ricoh Co Ltd Method and system for converting data group into structured format
WO2011036703A1 (en) * 2009-09-24 2011-03-31 株式会社 東芝 Information selector
JP2011515731A (en) * 2008-02-19 2011-05-19 グーグル・インコーポレーテッド Hybrid ad campaign
JP2013061748A (en) * 2011-09-13 2013-04-04 Yahoo Japan Corp Information display device, method, and program
WO2014192736A1 (en) * 2013-05-28 2014-12-04 Ando Yuta Method for displaying site page related to current position in desired condition order in portable terminal, and system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009043258A (en) * 2007-08-06 2009-02-26 Ricoh Co Ltd Method and system for converting data group into structured format
US8869023B2 (en) 2007-08-06 2014-10-21 Ricoh Co., Ltd. Conversion of a collection of data to a structured, printable and navigable format
JP2011515731A (en) * 2008-02-19 2011-05-19 グーグル・インコーポレーテッド Hybrid ad campaign
US9058613B2 (en) 2008-02-19 2015-06-16 Google Inc. Hybrid advertising campaign
WO2011036703A1 (en) * 2009-09-24 2011-03-31 株式会社 東芝 Information selector
JPWO2011036703A1 (en) * 2009-09-24 2013-02-14 株式会社東芝 Information selection apparatus, information selection method, and program
JP2013061748A (en) * 2011-09-13 2013-04-04 Yahoo Japan Corp Information display device, method, and program
WO2014192736A1 (en) * 2013-05-28 2014-12-04 Ando Yuta Method for displaying site page related to current position in desired condition order in portable terminal, and system
JP2014232907A (en) * 2013-05-28 2014-12-11 雄太 安藤 Method and system for displaying site page based on present position on portable terminal in desired conditional order

Similar Documents

Publication Publication Date Title
US6810395B1 (en) Method and apparatus for query-specific bookmarking and data collection
US6665659B1 (en) Methods and apparatus for distributing and using metadata via the internet
JP5015935B2 (en) Mobile site map
US20080256443A1 (en) System for aggregating and displaying syndicated news feeds
JP5084858B2 (en) Summary creation device, summary creation method and program
JP2007183939A (en) Search method, system, program storage device (search service accessing and highlighting local and online available information source accessed before)
KR20080091821A (en) Automated tool for human assisted mining and capturing of precise results
JP2007507801A (en) Personalized web search
US20120030190A1 (en) Method of recording and searching for a web page and method of recording a browsed web page
JP2003178092A (en) Information retrieval system, information providing device, information retrieving method and program
JP2005309998A (en) Content navigation program, method and device
CN101382954A (en) Method and system for providing web site collection name
TW200928815A (en) System and method for history clustering
JP2007172375A (en) Information search system and method
JP2010128928A (en) Retrieval system and retrieval method
JP2009037501A (en) Information retrieval apparatus, information retrieval method and program
JP2006099341A (en) Update history generation device and program
JP4344596B2 (en) Content search system, content search program, and recording medium
JP2006268771A (en) Retrieval result providing device
JP2009015589A (en) System and program for presenting related document
JP2007128367A (en) Information retrieval knowhow management system
JP2009205588A (en) Page search system and program
JP2009075908A (en) Web page browsing history management system, web page browsing history management method, and computer program
JP2008117134A (en) Period extraction device, period extraction method, period extraction program implementing the method, and recording medium storing its program
US8131752B2 (en) Breaking documents