JP6104729B2 - Content search system, content search method, and content search program - Google Patents

Content search system, content search method, and content search program Download PDF

Info

Publication number
JP6104729B2
JP6104729B2 JP2013126942A JP2013126942A JP6104729B2 JP 6104729 B2 JP6104729 B2 JP 6104729B2 JP 2013126942 A JP2013126942 A JP 2013126942A JP 2013126942 A JP2013126942 A JP 2013126942A JP 6104729 B2 JP6104729 B2 JP 6104729B2
Authority
JP
Japan
Prior art keywords
search
content
information
extraction rule
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013126942A
Other languages
Japanese (ja)
Other versions
JP2015001899A (en
Inventor
加藤 剛志
剛志 加藤
圭 黒田
圭 黒田
隼 赤塚
隼 赤塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013126942A priority Critical patent/JP6104729B2/en
Publication of JP2015001899A publication Critical patent/JP2015001899A/en
Application granted granted Critical
Publication of JP6104729B2 publication Critical patent/JP6104729B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ネットワーク上のコンテンツを検索するコンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラムに関する。   The present invention relates to a content search system, a content search method, and a content search program for searching for content on a network.

従来のコンテンツ検索システムでは、例えば特許文献1に記載されているように、予め収集されたコンテンツから、当該コンテンツの本文を抽出する抽出ルールに従って本文を抽出し、抽出された本文を用いて検索インデックスを作成している。このコンテンツ検索システムでは、検索キーワードによる検索要求を受けると、作成された検索インデックスを検索し、その検索結果として予め収集されたコンテンツから抽出された本文の全部又は一部を表示する。   In a conventional content search system, as described in, for example, Patent Document 1, a text is extracted from previously collected content according to an extraction rule for extracting the text of the content, and a search index is used using the extracted text. Have created. In this content search system, when a search request by a search keyword is received, the created search index is searched, and all or part of the text extracted from the content collected in advance as the search result is displayed.

また、従来のコンテンツ検索システムでは、例えば特許文献2に記載されているように、検索インデックスの作成に用いるコンテンツの本文を、抽出ルールを用いず、コンテンツのリンク関係を用いて抽出するものが知られている。このコンテンツ検索システムでは、予め収集されたリンク元のHTMLファイル内に存在するハイパーリンクに基づいてリンク先のHTMLファイルを特定し、特定されたリンク先のHTMLファイル内のテキスト情報とリンク元のハイパーリンク周辺の文字列とを比較することにより、リンク先のHTMLファイルから本文部分を抽出している。   Also, in the conventional content search system, as described in Patent Document 2, for example, a content body used for creating a search index is extracted using a content link relationship without using an extraction rule. It has been. In this content search system, a link destination HTML file is specified based on a hyperlink existing in a link source HTML file collected in advance, and the text information in the link destination HTML file and the link source hyperfile are specified. By comparing the character string around the link, the body part is extracted from the linked HTML file.

特開2004−220251号公報JP 2004-220251 A 特開2013−30041号公報JP 2013-30041 A

しかしながら、特許文献1に記載のコンテンツ検索システムでは、検索結果として表示される本文は、予め収集されたコンテンツから抽出ルールに従って抽出されたものである。よって、例えば検索を要求する時点でコンテンツの内容に修正や変更があったとしても、修正や変更がされる前のコンテンツの本文しか検索結果として表示することができない。   However, in the content search system described in Patent Document 1, the text displayed as the search result is extracted from the previously collected content according to the extraction rule. Therefore, for example, even if there is a correction or change in the content at the time when the search is requested, only the text of the content before the correction or change can be displayed as the search result.

また、特許文献2に記載の技術のように、コンテンツの本文の抽出方法として、抽出ルールを用いずにコンテンツのリンク関係を用いたとしても、抽出する本文はリンク元のHTMLファイルから予め収集されている。このため、検索結果として表示されるコンテンツの本文は、予め収集されたリンク先のHTMLファイルから抽出されたものである。よって、特許文献1に記載の技術と同様、最新のコンテンツの本文を検索結果として表示することができない場合がある。   Further, as in the technique described in Patent Document 2, even if the content link relation is used without using the extraction rule as the content body extraction method, the extracted body text is collected in advance from the link source HTML file. ing. For this reason, the text of the content displayed as the search result is extracted from the linked HTML files collected in advance. Therefore, as in the technique described in Patent Document 1, the text of the latest content may not be displayed as a search result.

本発明は上記実情に鑑みてなされたものであり、検索結果として最新のコンテンツの本文を表示することが可能なコンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a content search system, a content search method, and a content search program capable of displaying the text of the latest content as a search result.

本発明の一形態に係るコンテンツ検索システムは、検索サーバ装置と、検索クライアント装置と、を備えるコンテンツ検索システムであって、検索サーバ装置は、通信ネットワーク上からコンテンツを取得する情報収集手段と、情報収集手段によって取得されたコンテンツの本文を抽出するための抽出ルールを、コンテンツの格納先情報に関連付けて保持する抽出ルール保持手段と、抽出ルール保持手段によって保持される抽出ルールに基づいて、情報収集手段により取得されたコンテンツの本文を抽出するテキスト抽出手段と、テキスト抽出手段により抽出されたコンテンツの本文を、コンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録する登録手段と、コンテンツを検索するための検索要求を検索クライアント装置から受信すると、検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、特定の検索インデックスに対応するコンテンツの格納先情報と、抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応するに対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたコンテンツの本文のいずれかを、コンテンツに関する情報に基づいて選択して前記クライアント装置に返却する検索手段と、を有し、検索クライアント装置は、検索要求を検索サーバ装置の検索手段に送信し、その検索結果として検索手段により返却されるコンテンツの格納先情報と特定の抽出ルールとの組み合わせ又はコンテンツの本文を受信し、受信したコンテンツの格納先情報を用いて通信ネットワーク上からコンテンツを取得する情報取得手段と、情報取得手段によりコンテンツが取得された後に、検索サーバ装置から受信した特定の抽出ルールによりコンテンツの本文を抽出する最新テキスト抽出手段と、情報取得手段により受信されたコンテンツの本文又は最新テキスト抽出手段により抽出されたコンテンツの本文を表示する表示手段と、を有する。   A content search system according to an aspect of the present invention is a content search system including a search server device and a search client device, wherein the search server device includes information collection means for acquiring content from a communication network, and information Information is collected based on the extraction rule holding means for holding the extraction rule for extracting the body text of the content acquired by the collecting means in association with the storage destination information of the content, and the extraction rule held by the extraction rule holding means Text extracting means for extracting the body of the content acquired by the means, registration means for registering the body of the content extracted by the text extracting means in the search index in association with information about the content including the storage location information of the content, Detect search requests to search for content When received from the client device, a specific search index is extracted from the search index based on the search request, the storage location information of the content corresponding to the specific search index, and the content extracted from the extraction rule holding means Either a combination with a specific extraction rule corresponding to the storage location information or a content body registered in a specific search index is selected based on information about the content and returned to the client device The search client device transmits a search request to the search unit of the search server device, and a combination of content storage destination information returned by the search unit as a search result and a specific extraction rule or Receives the content text and uses the received content storage location information Information acquisition means for acquiring content from a communication network, latest text extraction means for extracting the body of the content according to a specific extraction rule received from the search server device after the content is acquired by the information acquisition means, and information acquisition means Display means for displaying the body of the content received by or the content body extracted by the latest text extraction means.

或いは、本発明の他の形態に係るコンテンツ検索方法は、検索サーバ装置と、検索クライアント装置と、によってコンテンツを検索するコンテンツ検索方法であって、検索サーバ装置が、通信ネットワーク上からコンテンツを取得する情報収集ステップと、情報収集ステップにおいて取得されたコンテンツの本文を抽出するための抽出ルールを、コンテンツの格納先情報に関連付けて保持する抽出ルール保持ステップと、抽出ルール保持ステップにおいて保持される抽出ルールに基づいて、情報収集ステップで取得されたコンテンツの本文を抽出するテキスト抽出ステップと、テキスト抽出ステップにおいて抽出されたコンテンツの本文を、コンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録する登録ステップと、コンテンツを検索するための検索要求を検索クライアント装置から受信すると、検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、特定の検索インデックスに対応するコンテンツの格納先情報と、抽出ルール保持ステップにおいて抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたコンテンツの本文のいずれかを、コンテンツの格納先情報に基づいて選択してクライアント装置に返却する検索ステップと、を含み、検索クライアント装置が、検索要求を検索サーバ装置に送信し、その検索結果として検索ステップにおいて返却されるコンテンツの格納先情報と特定の抽出ルールとの組み合わせ又はコンテンツの本文を受信し、受信したコンテンツの格納先情報を用いて通信ネットワーク上からコンテンツを取得する情報取得ステップと、情報取得ステップにおいてコンテンツが取得された後に、検索サーバ装置から受信した特定の抽出ルールによりコンテンツの本文を抽出する最新テキスト抽出ステップと、情報取得ステップにおいて受信されたコンテンツの本文又は最新テキスト抽出ステップで抽出されたコンテンツの本文を表示する表示ステップと、を含む。   Alternatively, a content search method according to another aspect of the present invention is a content search method for searching for content by a search server device and a search client device, and the search server device acquires content from a communication network. An information collection step, an extraction rule holding step for holding an extraction rule for extracting the text of the content acquired in the information collection step in association with the storage location information of the content, and an extraction rule held in the extraction rule holding step A text extraction step for extracting the body of the content acquired in the information collection step, and the content body extracted in the text extraction step in association with information about the content including the content storage location information in the search index To register Step and when a search request for searching for content is received from the search client device, based on the search request, a specific search index is extracted from the search index, and content storage location information corresponding to the specific search index And the combination of the specific extraction rule corresponding to the storage location information of the content extracted in the extraction rule holding step, or the content body registered in the specific search index, the content storage location information A search step that selects and returns to the client device based on the search information, and the search client device sends a search request to the search server device and specifies the storage location information of the content returned in the search step as the search result In combination with extraction rules or content body An information acquisition step of acquiring content from a communication network using the storage location information of the received content, and after the content is acquired in the information acquisition step, the specific extraction rule received from the search server device A latest text extracting step for extracting a body, and a display step for displaying the body of the content received in the information acquisition step or the body of the content extracted in the latest text extracting step.

或いは、本発明の他の形態に係るコンテンツ検索プログラムは、検索サーバ装置と、検索クライアント装置と、によってコンテンツを検索するコンテンツ検索プログラムであって、検索サーバ装置として動作するコンピュータを、通信ネットワーク上からコンテンツを取得する情報収集手段と、情報収集手段によって取得されたコンテンツの本文を抽出するための抽出ルールを、コンテンツの格納先情報に関連付けて保持する抽出ルール保持手段と、抽出ルール保持手段によって保持される抽出ルールに基づいて、情報収集手段により取得されたコンテンツの本文を抽出するテキスト抽出手段と、テキスト抽出手段により抽出されたコンテンツの本文を、コンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録する登録手段と、コンテンツを検索するための検索要求を検索クライアント装置から受信すると、検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、特定の検索インデックスに対応するコンテンツの格納先情報と、抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたコンテンツの本文のいずれかを、コンテンツに関する情報に基づいて選択してクライアント装置に返却する検索手段として機能させ、検索クライアント装置として動作するコンピュータを、検索要求を検索サーバ装置の検索手段に送信し、その検索結果として検索手段により返却されるコンテンツの格納先情報と特定の抽出ルールとの組み合わせ又はコンテンツの本文を受信し、受信したコンテンツの格納先情報を用いて通信ネットワーク上からコンテンツを取得する情報取得手段と、情報取得手段によりコンテンツが取得された後に、検索サーバ装置から受信した特定の抽出ルールによりコンテンツの本文を抽出する最新テキスト抽出手段と、情報取得手段により受信されたコンテンツの本文又は最新テキスト抽出手段により抽出されたコンテンツの本文を表示する表示手段として機能させる。   Alternatively, a content search program according to another aspect of the present invention is a content search program for searching for content by a search server device and a search client device, and a computer that operates as the search server device is connected to a communication network. Information collection means for acquiring content, extraction rule holding means for holding the extraction rule for extracting the body of the content acquired by the information collection means in association with content storage location information, and holding by the extraction rule holding means A text extracting unit that extracts the body of the content acquired by the information collecting unit, and the content body extracted by the text extracting unit is associated with information about the content including the content storage location information Search index When a registration means for registration and a search request for searching for content are received from the search client device, a specific search index is extracted from the search index based on the search request, and the content corresponding to the specific search index is extracted. Either the combination of the storage location information and the specific extraction rule corresponding to the storage location information of the content extracted from the extraction rule holding means, or the content text registered in the specific search index is related to the content. A computer that operates as a search client device is selected based on information and returned to the client device, and a search request is transmitted to the search device of the search server device, and the search result is returned by the search device. Content storage location information and specific extraction rules Received from the search server device after the content is acquired by the information acquisition means, the information acquisition means for acquiring the content from the communication network using the storage location information of the received content The latest text extraction unit that extracts the content body according to a specific extraction rule and the display unit that displays the content body received by the information acquisition unit or the content body extracted by the latest text extraction unit.

この発明の上記いずれかの形態によれば、検索サーバ装置側において通信ネットワーク上からコンテンツが取得され、コンテンツの格納先情報に関連付けて保持された抽出ルールに基づいて、コンテンツの本文が抽出される。抽出されたコンテンツの本文は、コンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録されている。検索サーバ装置は、コンテンツを検索するための検索要求を検索クライアント装置から受信すると、当該検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、当該検索インデックスに対応する情報を検索クライアント装置へ返却する。この際、検索サーバ装置は、コンテンツに関する情報に基づいて、特定の検索インデックスに対応するコンテンツの格納先情報と、該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたコンテンツの本文のいずれかを、検索クライアント装置へ返却する情報とすることができる。検索クライアント装置側では、検索要求を検索サーバ装置に送信し、その検索結果としてコンテンツの格納先情報と特定の抽出ルールとの組み合わせ又はコンテンツの本文を受信することにより、当該コンテンツの格納先情報を用いて通信ネットワーク上からコンテンツを取得でき、取得した当該コンテンツについて検索サーバ装置から受信した特定の抽出ルールにより本文を抽出することができる。よって、例えば検索サーバ装置から受信したコンテンツの本文が最新でない場合などには、必要に応じて検索クライアント装置側で最新のコンテンツの本文を取得して表示することができる。また、例えば検索サーバ装置から受信したコンテンツの本文が最新である場合には、検索クライアント装置側で改めてコンテンツの本文を取得するまでもなく、当該受信したコンテンツの本文を表示することができる。以上より、検索結果として、最新のコンテンツの本文を表示することが可能となる。   According to any one of the above aspects of the present invention, content is acquired from the communication network on the search server device side, and the content body is extracted based on the extraction rule held in association with the storage location information of the content. . The body of the extracted content is registered in the search index in association with information about the content including the content storage location information. When the search server device receives a search request for searching for content from the search client device, the search server device extracts a specific search index from the search index based on the search request and searches for information corresponding to the search index. Return to client device. At this time, the search server device, based on the information about the content, combines the storage location information of the content corresponding to the specific search index and the specific extraction rule corresponding to the storage location information of the content, or the specific Any of the texts of the contents registered in the search index can be used as information to be returned to the search client device. The search client device transmits a search request to the search server device and receives the combination of content storage location information and a specific extraction rule or the content text as the search result, thereby storing the content storage location information. The content can be acquired from the communication network, and the text can be extracted from the acquired content according to the specific extraction rule received from the search server device. Therefore, for example, when the content text received from the search server device is not the latest, the latest content text can be acquired and displayed on the search client device side as necessary. For example, when the text of the content received from the search server device is the latest, it is possible to display the text of the received content without acquiring the content text again on the search client device side. As described above, the latest content text can be displayed as a search result.

また、コンテンツに関する情報は、コンテンツの本文が検索インデックスに登録された日時に関する登録日時情報を含み、検索手段は、登録日時情報に基づき、特定の検索インデックスに登録されたコンテンツの本文当該登録の日時が所定の日時に対して新しいか否かを判定し、登録の日時が所定の日時よりも新しくない場合には、特定の検索インデックスに対応するコンテンツの格納先情報と、抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせを検索クライアント装置に返却し、登録の日時が所定の日時よりも新しい場合には、特定の検索インデックスに登録されたコンテンツの本文を検索クライアント装置に返却することが好ましい。この構成によれば、コンテンツの本文の登録の日時が所定の日時より新しくない場合には、検索サーバ装置側から検索クライアント装置側に、検索結果として該当するコンテンツの格納先情報と抽出ルールとの組み合わせが返却されることになる。よって、検索クライアント装置側においては、検索サーバ装置側から受信したコンテンツの格納先情報と特定の抽出ルールとを用いることにより、通信ネットワーク上から最新のコンテンツの本文を抽出して表示することができる。また、登録の日時が所定の日時より新しい場合には、検索サーバ装置側から検索クライアント装置側に、検索結果として該当するコンテンツの本文が返却されることになる。よって、検索クライアント装置側においては、抽出した日時が所定の日時より新しいコンテンツの本文を表示することができる。以上より、検索結果として、最新のコンテンツの本文を表示することが可能となる。 Further, the information on the content includes registration date / time information on the date / time when the text of the content is registered in the search index, and the search unit is configured to perform registration of the text of the content registered in the specific search index based on the registration date / time information. It is determined whether or not the date / time is newer than the predetermined date / time, and if the registration date / time is not newer than the predetermined date / time, the storage location information of the content corresponding to the specific search index and the extraction rule holding means If the combination with the specific extraction rule corresponding to the storage location information of the content to be extracted is returned to the search client device and the registration date is newer than the predetermined date, the content registered in the specific search index Is preferably returned to the search client device. According to this configuration, when the date and time of registration of the text of the content is not newer than the predetermined date and time, the search server device side sends to the search client device side the relevant content storage location information and the extraction rule. The combination will be returned. Therefore, on the search client device side, the latest content text can be extracted and displayed from the communication network by using the content storage location information received from the search server device side and the specific extraction rule. . When the registration date is newer than the predetermined date, the text of the corresponding content is returned as a search result from the search server device side to the search client device side. Therefore, on the search client device side, it is possible to display the content text whose extracted date is newer than the predetermined date. As described above, the latest content text can be displayed as a search result.

また、検索手段は、特定の検索インデックスに対応するコンテンツの格納先情報が特定のコンテンツの格納先情報であるか否かを判定し、該コンテンツの格納先情報が特定のコンテンツの格納先情報である場合には、特定のコンテンツの格納先情報と、抽出ルール保持手段から抽出される該特定のコンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせを検索クライアント装置に返却し、コンテンツの格納先情報が特定のコンテンツの格納先情報でない場合には、特定の検索インデックスに登録されたコンテンツの本文を検索クライアント装置に返却することが好ましい。この構成によれば、例えばコンテンツの格納先情報が、コンテンツの内容が頻繁に更新されているような特定のコンテンツの格納先情報である場合に、検索クライアント装置側において、通信ネットワーク上から最新のコンテンツの本文を抽出して表示することができる。   Further, the search means determines whether the storage location information of the content corresponding to the specific search index is the storage location information of the specific content, and the storage location information of the content is the storage location information of the specific content. In some cases, the combination of the specific content storage location information and the specific extraction rule corresponding to the specific content storage location information extracted from the extraction rule holding means is returned to the search client device, and the content When the storage location information is not the storage location information of the specific content, it is preferable to return the text of the content registered in the specific search index to the search client device. According to this configuration, for example, when the content storage location information is specific content storage location information in which the content is frequently updated, the search client device side can update the latest information from the communication network. The content text can be extracted and displayed.

また、検索手段は、特定の抽出ルールをリンク情報で返却し、情報取得手段は、検索手段により返却されるリンク情報を用いて通信ネットワーク上からリンク情報に対応する抽出ルールを取得し、取得された抽出ルールをキャッシュすることが好ましい。この構成によれば、検索クライアント装置側において、検索サーバ装置側から受信したリンク情報に基づいて、当該リンク情報に対応する抽出ルールを保持して利用することができる。これにより、抽出ルールを検索サーバ装置側から受信しなくても、検索クライアント装置側にキャッシュされた抽出ルールを用いて最新のコンテンツを取得できる。その結果、コンテンツの検索処理を効率化できる。   The search means returns a specific extraction rule as link information, and the information acquisition means acquires and acquires the extraction rule corresponding to the link information from the communication network using the link information returned by the search means. It is preferable to cache the extracted rules. According to this configuration, on the search client device side, based on the link information received from the search server device side, the extraction rule corresponding to the link information can be held and used. Accordingly, the latest content can be acquired using the extraction rule cached on the search client device side without receiving the extraction rule from the search server device side. As a result, the content search process can be made more efficient.

また、情報取得手段は、特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しいか否かを判定し、特定の抽出ルールがキャッシュされた日時が所定の基準に照らして新しくない場合に、検索手段により返却されるリンク情報を用いて通信ネットワーク上からリンク情報に対応する抽出ルールを取得し、取得された抽出ルールを再度キャッシュすることが好ましい。この構成によれば、検索サーバ装置側から返却される特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しくない場合に、検索クライアント装置側において、検索サーバ装置側から受信するリンク情報を用いて通信ネットワーク上からリンク情報に対応する抽出ルールを取得し、検索クライアント装置内にキャッシュされた抽出ルールを更新することができる。これにより、検索クライアント装置において、最新の抽出ルールを用いてコンテンツを取得することができる。その結果、適切にコンテンツを抽出できる。   Further, the information acquisition means determines whether the date and time when the specific extraction rule was cached last time is new according to a predetermined standard, and the date and time when the specific extraction rule is cached is not new according to the predetermined standard. In this case, it is preferable to acquire the extraction rule corresponding to the link information from the communication network using the link information returned by the search means, and cache the acquired extraction rule again. According to this configuration, the link received from the search server device side on the search client device side when the date and time when the specific extraction rule returned from the search server device side was cached last time is not new according to a predetermined standard The extraction rule corresponding to the link information can be acquired from the communication network using the information, and the extraction rule cached in the search client device can be updated. Thereby, in a search client apparatus, a content can be acquired using the newest extraction rule. As a result, content can be extracted appropriately.

また、情報取得手段は、特定の検索インデックスに対応するコンテンツの格納先情報が特定のコンテンツの格納先情報であるか否かを判定し、コンテンツの格納先情報が特定のコンテンツの格納先情報である場合には、検索手段により返却されるリンク情報を用いて通信ネットワーク上からリンク情報に対応する抽出ルールを取得し、取得された抽出ルールを再度キャッシュすることが好ましい。この構成によれば、特定の検索インデックスにより示されるコンテンツの格納先情報が特定のコンテンツの格納先情報である場合に、検索クライアント装置側において、検索クライアント装置内にキャッシュされた抽出ルールを更新することができる。これにより、例えばコンテンツの格納先情報が、コンテンツの内容が頻繁に更新されているような特定のコンテンツの格納先情報である場合に、検索クライアント装置側において、通信ネットワーク上から取得した最新の抽出ルールを用いてコンテンツの項目を抽出して表示することができる。その結果、コンテンツの内容の更新に合わせて適切にコンテンツを抽出できる。   Further, the information acquisition means determines whether or not the content storage location information corresponding to the specific search index is the specific content storage location information, and the content storage location information is the specific content storage location information. In some cases, it is preferable to acquire the extraction rule corresponding to the link information from the communication network using the link information returned by the search means, and cache the acquired extraction rule again. According to this configuration, when the content storage location information indicated by the specific search index is the specific content storage location information, the search client device updates the extraction rule cached in the search client device. be able to. Thus, for example, when the storage location information of content is storage location information of a specific content in which the content content is frequently updated, the latest extraction acquired from the communication network on the search client device side Content items can be extracted and displayed using rules. As a result, the content can be appropriately extracted in accordance with the update of the content.

本発明によれば、検索結果として最新のコンテンツの本文を表示することが可能なコンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラムを提供することができる。   According to the present invention, it is possible to provide a content search system, a content search method, and a content search program that can display the text of the latest content as a search result.

一実施形態に係るWebコンテンツ検索システムの機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the web content search system which concerns on one Embodiment. 図1に示す検索サーバ装置及び検索クライアント装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the search server apparatus and search client apparatus which are shown in FIG. 図1に示すWebコンテンツ検索システムによる基本的な検索処理の動作を示すシーケンス図である。It is a sequence diagram which shows operation | movement of the basic search process by the Web content search system shown in FIG. 図1に示す検索サーバ装置がWebコンテンツの本文の検索インデックス登録日時情報に基づき検索応答を行う処理手順を説明するフローチャートである。3 is a flowchart for explaining a processing procedure in which the search server device shown in FIG. 1 makes a search response based on search index registration date / time information in the text of Web content. 図4に示す処理手順において検索サーバ装置が作成する検索リストを示す図である。It is a figure which shows the search list which a search server apparatus produces in the process sequence shown in FIG. 図1に示す検索サーバ装置がWebコンテンツのURLに基づき検索応答を行う処理手順を説明するフローチャートである。3 is a flowchart for explaining a processing procedure in which the search server device shown in FIG. 1 makes a search response based on a URL of Web content. 図6に示す処理手順において検索サーバ装置が作成する検索リストを示す図である。It is a figure which shows the search list which a search server apparatus produces in the process sequence shown in FIG. 図1に示す検索サーバ装置が抽出ルールの複雑さに基づき検索応答を行う処理手順を説明するフローチャートである。It is a flowchart explaining the process sequence in which the search server apparatus shown in FIG. 1 performs a search response based on the complexity of an extraction rule. 図8に示す処理手順において検索サーバ装置が作成する検索リストを示す図である。It is a figure which shows the search list which a search server apparatus produces in the process sequence shown in FIG. 図1に示す検索クライアント装置が抽出ルールをキャッシュする場合の検索処理の動作を示すシーケンス図である。It is a sequence diagram which shows the operation | movement of a search process in case the search client apparatus shown in FIG. 1 caches an extraction rule. 図1に示す検索クライアント装置が抽出ルールのキャッシュされた日時情報に基づき抽出ルールのキャッシュを更新する場合の処理手順を説明するフローチャートである。6 is a flowchart for explaining a processing procedure when the search client device shown in FIG. 1 updates the extraction rule cache based on the cached date and time information of the extraction rule. 図11に示す処理手順において検索サーバ装置から受信する検索結果リストを示す図である。It is a figure which shows the search result list | wrist received from a search server apparatus in the process sequence shown in FIG. 図1に示す検索クライアント装置がWebコンテンツのURLに基づき抽出ルールのキャッシュを更新する場合の処理手順を説明するフローチャートである。6 is a flowchart for explaining a processing procedure when the search client device shown in FIG. 1 updates an extraction rule cache based on a URL of Web content. 図13に示す処理手順において検索サーバ装置から受信する検索結果リストを示す図である。It is a figure which shows the search result list | wrist received from a search server apparatus in the process sequence shown in FIG.

以下、添付図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。   Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.

まず、本発明の一実施形態に係るコンテンツ検索システムの機能的構成について、図1を参照して説明する。図1は、一実施形態に係るWebコンテンツ検索システムの機能的構成を示すブロック図である。図1に示すように、Webコンテンツ検索システム1は、検索サーバ装置10及び検索クライアント装置20で構成されている。検索サーバ装置10と検索クライアント装置20とは、通信ネットワーク30で互いに接続されている。通信ネットワーク30内には、複数のWebコンテンツを保持するサーバが含まれる。   First, a functional configuration of a content search system according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram showing a functional configuration of a Web content search system according to an embodiment. As shown in FIG. 1, the Web content search system 1 includes a search server device 10 and a search client device 20. The search server device 10 and the search client device 20 are connected to each other via a communication network 30. The communication network 30 includes a server that holds a plurality of Web contents.

検索サーバ装置10は、機能的構成要素として、情報収集部11と、抽出ルール保持部12と、テキスト抽出部13と、検索インデックス登録部14と、検索部15と、を有している。検索クライアント装置20は、機能的構成要素として、情報取得部21と、最新テキスト抽出部22と、表示部23と、を有している。以下、各構成について詳細に説明する。   The search server device 10 includes an information collection unit 11, an extraction rule holding unit 12, a text extraction unit 13, a search index registration unit 14, and a search unit 15 as functional components. The search client device 20 includes an information acquisition unit 21, a latest text extraction unit 22, and a display unit 23 as functional components. Hereinafter, each configuration will be described in detail.

情報収集部11は、通信ネットワーク30上からWebコンテンツを取得する情報収集手段である。情報収集部11は、例えばインターネットやイントラネット等の通信ネットワーク30上で提供又は配信されている文書データ、マルチメディアデータ等を含むWebコンテンツをWebサイトとして機能するサーバから随時取得する。   The information collection unit 11 is an information collection unit that acquires Web content from the communication network 30. The information collection unit 11 acquires Web content including document data, multimedia data, etc. provided or distributed on a communication network 30 such as the Internet or an intranet from a server functioning as a Web site as needed.

抽出ルール保持部12は、情報収集部11によって取得されたWebコンテンツの本文を抽出するための抽出ルールを、Webコンテンツの格納先情報に関連付けて保持する抽出ルール保持手段である。Webコンテンツの本文とは、本来的にそのWebサイトが提供又は配信したい情報が含まれる部分であり、例えば広告部分やメニュー部分等の不要な部分を排除した部分である。また、本発明におけるWebコンテンツの本文には、本文そのものだけでなく、タイトルや画像URLなども含まれる。Webコンテンツの本文を抽出するための抽出ルールには、従来から知られているものが適用可能であり、例えば特許文献1(特開2004−220251号公報)に記載された抽出ルールを用いることができる。Webコンテンツの格納先情報とは、例えばWebコンテンツの格納先を示すURL(Unifоrm Resоurce Lоcatоr)である。抽出ルールは、URLに関連付けて保持される。また、抽出ルール保持部12は、抽出ルールをリンク情報として保持してもよい。抽出ルール保持部12は、例えば、WebコンテンツのURL、抽出ルール、及び抽出ルールを更新した日時を示す更新日時情報を互いに関連付けたデータベースとして有している。   The extraction rule holding unit 12 is an extraction rule holding unit that holds an extraction rule for extracting the text of the Web content acquired by the information collecting unit 11 in association with the storage destination information of the Web content. The text of the Web content is a part that originally includes information that the website wants to provide or distribute, and is a part that excludes unnecessary parts such as an advertisement part and a menu part. In addition, the text of the Web content in the present invention includes not only the text itself but also a title and an image URL. As the extraction rule for extracting the text of the Web content, a conventionally known extraction rule can be applied. For example, the extraction rule described in Patent Document 1 (Japanese Patent Laid-Open No. 2004-220251) can be used. it can. The Web content storage location information is, for example, a URL (Uniform Resource License) indicating the storage location of the Web content. The extraction rule is held in association with the URL. Further, the extraction rule holding unit 12 may hold the extraction rule as link information. The extraction rule holding unit 12 has, for example, a database in which URLs of Web content, extraction rules, and update date / time information indicating the date / time when the extraction rules are updated are associated with each other.

テキスト抽出部13は、抽出ルール保持部12によって保持される抽出ルールに基づいて、情報収集部11により取得されたWebコンテンツの本文を抽出するテキスト抽出手段である。テキスト抽出部13は、抽出ルールを抽出ルール保持部12から読み込み、Webコンテンツに対して当該抽出ルールを適用することにより、Webコンテンツの本文を抽出する。   The text extraction unit 13 is a text extraction unit that extracts the body of the Web content acquired by the information collection unit 11 based on the extraction rules held by the extraction rule holding unit 12. The text extraction unit 13 reads the extraction rule from the extraction rule holding unit 12, and applies the extraction rule to the Web content, thereby extracting the text of the Web content.

検索インデックス登録部14は、テキスト抽出部13により抽出されたWebコンテンツの本文を、Webコンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録する登録手段である。Webコンテンツの格納先情報を含むコンテンツに関する情報とは、例えばWebコンテンツのURL、及び、Webコンテンツの本文が検索インデックスに登録された日時である登録日時情報などが挙げられる。検索インデックス登録部14は、例えば、検索用インデックス、WebコンテンツのURL、検索用インデックスの基となるWebコンテンツの本文、及び登録日時情報を互いに関連付けたデータベースとして有している。   The search index registration unit 14 is a registration unit that registers the body of the Web content extracted by the text extraction unit 13 in the search index in association with information about the content including the Web content storage location information. Examples of the information related to the content including the storage destination information of the Web content include URL of the Web content and registration date / time information that is the date / time when the text of the Web content is registered in the search index. The search index registration unit 14 has, for example, a database that associates the search index, the URL of the Web content, the text of the Web content that is the basis of the search index, and the registration date and time information.

検索部15は、検索クライアント装置20からの検索要求に基づいて検索結果を返却する検索手段である。検索部15は、Webコンテンツを検索するための検索要求を検索クライアント装置20から受信すると、その検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出する。そして、検索部15は、特定の検索インデックスに関連付けられたWebコンテンツのURLと、当該URLを用いて決定される特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたWebコンテンツの本文のいずれかを、Webコンテンツに関する情報に基づいて選択して検索クライアント装置20に返却する。検索クライアント装置20に返却する特定の抽出ルールは、抽出ルール保持部12に保持される抽出ルールの中から、特定の検索インデックスに関連付けられたWebコンテンツのURLに基づき抽出される。   The search unit 15 is a search unit that returns a search result based on a search request from the search client device 20. When the search unit 15 receives a search request for searching Web content from the search client device 20, the search unit 15 extracts a specific search index from the search index based on the search request. Then, the search unit 15 combines the URL of the Web content associated with the specific search index and the specific extraction rule determined using the URL, or the Web content registered in the specific search index. One of the texts is selected based on the information about the Web content and returned to the search client device 20. The specific extraction rule to be returned to the search client device 20 is extracted from the extraction rules held in the extraction rule holding unit 12 based on the URL of the Web content associated with the specific search index.

詳細には、検索部15は、抽出した特定の検索インデックスに対応するWebコンテンツに関する情報をリスト化し、検索結果リストを作成する。例えば、検索部15は、検索結果として、該当するWebコンテンツの検索インデックス及びこれに紐付けられるWebコンテンツに関する情報をリスト化する。検索結果リストに含まれるWebコンテンツに関する情報の項目には、例えば、WebコンテンツのURL、Webコンテンツの本文が登録された日時(登録日時情報)、Webコンテンツの抽出ルール、及びタイトルと本文と画像URLとを含むWebコンテンツの本文が挙げられる。当該項目のうち、WebコンテンツのURLとWebコンテンツの登録日時情報は、検索インデックス登録部14によりWebコンテンツの本文が検索インデックスに登録される際の当該WebコンテンツのURLと登録日時であり、検索インデックスに関連付けられて検索結果リストに設定される。その他の項目は、Webコンテンツに関する情報に基づいて、必要に応じて選択的に設定される。具体的には、上述のWebコンテンツの登録日時情報やURLを条件として、Webコンテンツの抽出ルール又はWebコンテンツの本文のいずれかが選択されて検索結果リストに設定される。   Specifically, the search unit 15 creates a search result list by listing information about Web contents corresponding to the extracted specific search index. For example, the search unit 15 lists the search index of the corresponding Web content and information related to the Web content associated therewith as the search result. The items of information related to the Web content included in the search result list include, for example, the URL of the Web content, the date and time when the text of the Web content was registered (registration date information), the Web content extraction rule, and the title, text, and image URL. And the body of Web content including Among the items, the URL of the Web content and the registration date / time information of the Web content are the URL and registration date / time of the Web content when the text content of the Web content is registered in the search index by the search index registration unit 14. Is set in the search result list. The other items are selectively set as necessary based on information on the Web content. Specifically, either the Web content extraction rule or the Web content text is selected and set in the search result list on the condition of the registration date information and URL of the Web content described above.

検索部15は、上記のようにして設定した検索結果リストを参照して、検索クライアント装置20側に情報を抽出して返却する。例えば、検索部15は、Webコンテンツの登録日時情報に基づき、特定の検索インデックスに登録されたWebコンテンツの本文が検索インデックス登録部14により検索インデックスに登録された日時が所定の日時に対して新しいか否かを判定する。所定の日時に対して新しいか否かは、例えば現在日時から一日以内か否かなどとして定める。検索部15は、Webコンテンツの本文が検索インデックスに登録された日時が所定の日時よりも新しくないと判定した場合には、特定の検索インデックスに対応するWebコンテンツのURLと、当該URLに紐付けられて抽出ルール保持部12に保持される抽出ルールとの組み合わせを検索クライアント装置20に返却する。一方、Webコンテンツの本文が検索インデックスに登録された日時が登録された日時が所定の日時よりも新しいと判定した場合には、特定の検索インデックスに登録されたWebコンテンツの本文を検索クライアント装置20に返却する。   The search unit 15 refers to the search result list set as described above, and extracts and returns information to the search client device 20 side. For example, the search unit 15 determines that the date and time when the text of the Web content registered in the specific search index is registered in the search index by the search index registration unit 14 based on the registration date and time information of the Web content is new with respect to a predetermined date and time. It is determined whether or not. Whether or not it is new with respect to a predetermined date and time is determined as whether or not it is within one day from the current date and time, for example. When the search unit 15 determines that the date and time when the text of the Web content is registered in the search index is not newer than the predetermined date and time, the search unit 15 associates the URL of the Web content corresponding to the specific search index and the URL. The combination with the extraction rule held in the extraction rule holding unit 12 is returned to the search client device 20. On the other hand, if it is determined that the date and time when the text of the Web content is registered in the search index is newer than the predetermined date and time, the text of the Web content registered in the specific search index is used as the search client device 20. Return to

また、検索部15は、特定の検索インデックスに対応するWebコンテンツのURLが事前に指定された特定のURLであるか否かを判定する。検索部15は、特定の検索インデックスに対応するWebコンテンツのURLが特定のURLである場合には、当該URLと、当該URLに紐付けられて抽出ルール保持部12に保持される抽出ルールとの組み合わせを検索クライアント装置20に返却する。一方、WebコンテンツのURLが特定のURLでない場合には、特定の検索インデックスに登録されたWebコンテンツの本文を検索クライアント装置20に返却する。   Further, the search unit 15 determines whether or not the URL of the Web content corresponding to the specific search index is a specific URL specified in advance. When the URL of the Web content corresponding to the specific search index is a specific URL, the search unit 15 associates the URL with the extraction rule associated with the URL and held in the extraction rule holding unit 12. The combination is returned to the search client device 20. On the other hand, if the URL of the Web content is not a specific URL, the text of the Web content registered in the specific search index is returned to the search client device 20.

また、検索部15は、特定の検索インデックスに対応するWebコンテンツの本文を抽出するための抽出ルールが所定の抽出ルールよりも単純か否かを判定する。検索部15は、特定の検索インデックスにより示されるWebコンテンツの本文を抽出するための抽出ルールが所定の抽出ルールと比べて単純である場合には、特定の検索インデックスに対応するWebコンテンツのURLと、当該URLに紐付けられて抽出ルール保持部12に保持される抽出ルールとの組み合わせを検索クライアント装置20に返却する。一方、特定の検索インデックスに対応するWebコンテンツの本文を抽出するための抽出ルールが所定の抽出ルールと比べて複雑である場合には、特定の検索インデックスに登録されたWebコンテンツの本文を検索クライアント装置20に返却する。   Further, the search unit 15 determines whether or not the extraction rule for extracting the text of the Web content corresponding to the specific search index is simpler than the predetermined extraction rule. When the extraction rule for extracting the text of the Web content indicated by the specific search index is simpler than the predetermined extraction rule, the search unit 15 determines the URL of the Web content corresponding to the specific search index and The combination with the extraction rule associated with the URL and held in the extraction rule holding unit 12 is returned to the search client device 20. On the other hand, when the extraction rule for extracting the text of the Web content corresponding to the specific search index is more complicated than the predetermined extraction rule, the search client uses the text of the Web content registered in the specific search index. Return to device 20.

また、検索部15は、Webコンテンツに関する情報に、抽出ルール保持部12のデータベースから取得した抽出ルールのリンク情報を含めて検索結果リストを作成し、当該検索結果リストを検索クライアント装置20へ送信する。抽出ルールのリンク情報とは、抽出ルールの格納先を示すものであり、当該格納先を示すURLなどが挙げられる。   Further, the search unit 15 creates a search result list by including the extraction rule link information acquired from the database of the extraction rule holding unit 12 in the Web content information, and transmits the search result list to the search client device 20. . The extraction rule link information indicates a storage location of the extraction rule, and includes a URL indicating the storage location.

検索クライアント装置20の情報取得部21は、検索要求を検索部15に送信し、その検索結果として検索部15より返却されるWebコンテンツに関するURLと特定の抽出ルールとの組み合わせ又はWebコンテンツの本文を受信し、受信したURLを用いて通信ネットワーク30上からWebコンテンツを取得する情報取得手段である。   The information acquisition unit 21 of the search client device 20 transmits a search request to the search unit 15, and uses a combination of the URL related to the Web content returned from the search unit 15 and a specific extraction rule or the text of the Web content as a search result. It is an information acquisition unit that receives and acquires Web content from the communication network 30 using the received URL.

また、情報取得部21は、検索サーバ装置10から返却される抽出ルールのリンク情報を用いて、通信ネットワーク30上からリンク情報に対応する抽出ルールを取得する。この場合、情報取得部21は、取得した抽出ルールを検索クライアント装置20内でキャッシュ(一時記憶)する。また、情報取得部21は、キャッシュした際の日時をキャッシュ対象の抽出ルールに対応づけて合わせてキャッシュする。   Further, the information acquisition unit 21 acquires the extraction rule corresponding to the link information from the communication network 30 using the link information of the extraction rule returned from the search server device 10. In this case, the information acquisition unit 21 caches (temporarily stores) the acquired extraction rule in the search client device 20. Further, the information acquisition unit 21 caches the date and time when it is cached in association with the extraction rule to be cached.

また、情報取得部21は、検索インデックスに対応する特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しいか否かを判定する。抽出ルールが前回キャッシュされた日時は、情報取得部21により検索クライアント装置20内で抽出ルールがキャッシュされた直近の日時であり、検索クライアント装置20内のキャッシュデータが読み出されて特定される。所定の基準は、例えば、検索サーバ装置10側において抽出ルールが取得(更新)されたルール取得日時である。すなわち、所定の基準であるルール取得日時は、抽出ルール保持部12のデータベースで保持される更新日時情報に相当する。このルール取得日時に関する情報は、検索部15により検索結果リストに設定され、情報取得部21により検索結果に含めて取得される。所定の基準に照らして新しいか否かは、例えば抽出ルールが前回キャッシュされた日時が、検索結果リストに設定されているルール取得日時に対して新しいかで判定される。情報取得部21は、特定の抽出ルールが前回キャッシュされた日時が検索結果リストに設定されているルール取得日時よりも新しくないと判定した場合に、検索部15から返却された抽出ルールのリンク情報を用いて、通信ネットワーク30上から当該リンク情報に対応する抽出ルールを取得する。そして、取得された抽出ルールを再度キャッシュすることにより、抽出ルールを更新する。   Further, the information acquisition unit 21 determines whether or not the date and time when the specific extraction rule corresponding to the search index was cached last time is new according to a predetermined standard. The date and time when the extraction rule was cached last time is the most recent date and time when the extraction rule is cached in the search client device 20 by the information acquisition unit 21, and the cache data in the search client device 20 is read and specified. The predetermined standard is, for example, the rule acquisition date and time when the extraction rule is acquired (updated) on the search server device 10 side. That is, the rule acquisition date and time that is a predetermined reference corresponds to the update date and time information held in the database of the extraction rule holding unit 12. Information regarding the rule acquisition date and time is set in the search result list by the search unit 15 and is acquired by being included in the search result by the information acquisition unit 21. Whether or not it is new according to a predetermined standard is determined, for example, by whether or not the date and time when the extraction rule was cached last time is newer than the rule acquisition date and time set in the search result list. When the information acquisition unit 21 determines that the date and time when the specific extraction rule was cached last time is not newer than the rule acquisition date and time set in the search result list, the link information of the extraction rule returned from the search unit 15 Is used to obtain an extraction rule corresponding to the link information from the communication network 30. Then, the extracted extraction rule is updated by caching the acquired extraction rule again.

また、情報取得部21は、検索結果リストに含んで検索サーバ装置10から返却されたWebコンテンツのURLが事前に指定された特定のURLであるか否かを判定する。情報取得部21は、検索サーバ装置10から返却されたWebコンテンツのURLが特定のURLであると判定した場合には、検索部15により返却される抽出ルールのリンク情報を用いて、通信ネットワーク30上から当該リンク情報に対応する抽出ルールを取得する。そして、取得された抽出ルールを再度キャッシュすることにより、抽出ルールを更新する。   The information acquisition unit 21 determines whether the URL of the Web content included in the search result list and returned from the search server device 10 is a specific URL specified in advance. When it is determined that the URL of the Web content returned from the search server device 10 is a specific URL, the information acquisition unit 21 uses the link information of the extraction rule returned by the search unit 15 to use the communication network 30. The extraction rule corresponding to the link information is acquired from above. Then, the extracted extraction rule is updated by caching the acquired extraction rule again.

最新テキスト抽出部22は、情報取得部21によりWebコンテンツが取得された後に、検索サーバ装置10から受信した特定の抽出ルールによりWebコンテンツの本文を抽出する最新テキスト抽出手段である。   The latest text extraction unit 22 is a latest text extraction unit that extracts the text of the Web content according to a specific extraction rule received from the search server device 10 after the Web content is acquired by the information acquisition unit 21.

また、最新テキスト抽出部22は、情報取得部21によりWebコンテンツが取得された後に、検索クライアント装置20内に当該Webコンテンツに対応づけてキャッシュされている抽出ルールを用いてWebコンテンツの本文を抽出する。   Further, after the Web content is acquired by the information acquisition unit 21, the latest text extraction unit 22 extracts the text of the Web content using an extraction rule cached in association with the Web content in the search client device 20. To do.

表示部23は、情報取得部21により受信されたWebコンテンツの本文又は最新テキスト抽出部22により抽出されたWebコンテンツの本文を表示する表示手段である。すなわち、表示部23は、検索サーバ装置10側から返却された内容に応じて表示内容を選択する。   The display unit 23 is a display unit that displays the text of the Web content received by the information acquisition unit 21 or the text of the Web content extracted by the latest text extraction unit 22. That is, the display unit 23 selects display contents according to the contents returned from the search server device 10 side.

図2は、図1に示す検索サーバ装置10及び検索クライアント装置20のハードウェア構成を示す図である。図2に示すように、検索サーバ装置10は、物理的には、CPU101、ROM102、RAM103、入力デバイス104、出力デバイス105、データ送受信デバイスである通信モジュール106、補助記憶装置107などを備える。検索サーバ装置10の各機能は、CPU101、RAM103等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU101の制御のもとで、通信モジュール106、入力デバイス104及び出力デバイス105を動作させるとともにRAM103におけるデータの読み出し及び書き込みを行うことで実現される。同様にして、検索クライアント装置20は、物理的には、CPU201、ROM202、RAM203、入力デバイス204、出力デバイス205、データ送受信デバイスである通信モジュール206、補助記憶装置207などを備える。検索クライアント装置20の各機能は、CPU201、RAM203等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU201の制御のもとで、通信モジュール206、入力デバイス204及び出力デバイス205を動作させるとともにRAM203におけるデータの読み出し及び書き込みを行うことで実現される。   FIG. 2 is a diagram showing a hardware configuration of the search server device 10 and the search client device 20 shown in FIG. As shown in FIG. 2, the search server device 10 physically includes a CPU 101, a ROM 102, a RAM 103, an input device 104, an output device 105, a communication module 106 that is a data transmission / reception device, an auxiliary storage device 107, and the like. Each function of the search server device 10 operates the communication module 106, the input device 104, and the output device 105 under the control of the CPU 101 by reading predetermined software on hardware such as the CPU 101 and the RAM 103. This is realized by reading and writing data in the RAM 103. Similarly, the search client device 20 physically includes a CPU 201, a ROM 202, a RAM 203, an input device 204, an output device 205, a communication module 206 that is a data transmission / reception device, an auxiliary storage device 207, and the like. Each function of the search client device 20 causes the communication module 206, the input device 204, and the output device 205 to operate under the control of the CPU 201 by loading predetermined software onto hardware such as the CPU 201 and the RAM 203. This is realized by reading and writing data in the RAM 203.

次に、図3に示すシーケンス図を用いて、Webコンテンツ検索システム1による基本的なWebコンテンツ検索方法を説明する。   Next, a basic Web content search method by the Web content search system 1 will be described using the sequence diagram shown in FIG.

図3は、図1に示すWebコンテンツ検索システム1による基本的な検索処理の動作を示すシーケンス図である。まず、検索サーバ装置10は、随時Webコンテンツを取得している(情報収集ステップ:S1)。その一方で、検索サーバ装置10は、Webコンテンツの本文を抽出するための抽出ルールを、WebコンテンツのURLに関連付けて予め保持及び更新している(抽出ルール保持ステップ:S2)。また、検索サーバ装置10は、情報収集ステップにおいてWebコンテンツを取得する度に、当該Webコンテンツの本文を、抽出ルール保持ステップに保持される抽出ルールに基づいて抽出する(テキスト抽出ステップ:S3)と共に、当該Webコンテンツの本文を、WebコンテンツのURLを含むWebコンテンツに関する情報に関連付けて検索インデックスに登録している(登録ステップ:S4)。   FIG. 3 is a sequence diagram showing the basic search processing operation by the Web content search system 1 shown in FIG. First, the search server device 10 acquires Web content as needed (information collection step: S1). On the other hand, the search server device 10 holds and updates the extraction rule for extracting the text of the Web content in advance in association with the URL of the Web content (extraction rule holding step: S2). Further, every time the Web content is acquired in the information collecting step, the search server device 10 extracts the text of the Web content based on the extraction rule held in the extraction rule holding step (text extraction step: S3). The body of the Web content is registered in the search index in association with information about the Web content including the URL of the Web content (registration step: S4).

一方、検索クライアント装置20は、ユーザからの検索要求(S5)を受けると、その要求を検索サーバ装置10に送信する(情報取得ステップ:S6)。検索要求は、キーワードなどの検索用の情報を含む。検索サーバ装置10は、検索要求に応じてWebコンテンツを検索し、特定の検索インデックスを抽出する(S7)。そして、特定の検索インデックスに対応するWebコンテンツに関する情報に基づいて、検索応答として該当するWebコンテンツのURLとそれに紐付くテキスト抽出ルールの組合せ、又は、検索応答として該当するWebコンテンツの本文を、検索クライアント装置20に返却する(検索ステップ:S8)。   On the other hand, when receiving the search request (S5) from the user, the search client device 20 transmits the request to the search server device 10 (information acquisition step: S6). The search request includes information for search such as a keyword. The search server device 10 searches the Web content in response to the search request and extracts a specific search index (S7). Then, based on the information about the Web content corresponding to the specific search index, search the combination of the URL of the Web content corresponding to the search response and the text extraction rule associated with the URL, or the text of the Web content corresponding to the search response. It returns to the client device 20 (search step: S8).

検索サーバ装置10は、検索クライアント装置20に検索応答を返却する際には、例えば、Webコンテンツの登録日時情報、WebコンテンツのURL、及び、Webコンテンツの抽出ルールなどの情報に基づき応答する情報を選択する。この際のWebコンテンツに関する情報に基づく検索サーバ装置10のより具体的な検索応答の処理手順については、後述する。   When the search server device 10 returns a search response to the search client device 20, for example, information that responds based on information such as Web content registration date and time information, Web content URL, and Web content extraction rules is returned. select. A more specific search response processing procedure of the search server device 10 based on information on the Web content at this time will be described later.

検索クライアント装置20は、検索サーバ装置10からの検索応答を受信すると、検索応答に含まれるURLに対応するWebコンテンツを、通信ネットワーク30上に複数存在するWebサーバ40から取得する(情報取得ステップ:S9)。続いて、検索クライアント装置20は、取得したWebコンテンツから、検索応答に含まれるテキスト抽出ルールを用いて本文を抽出する(最新テキスト抽出ステップ:S10)。そして、検索クライアント装置20は、当該抽出された本文、又は、検索応答に含まれるWebコンテンツの本文を検索結果として表示する(表示ステップ:S11)。   When receiving the search response from the search server device 10, the search client device 20 acquires a plurality of Web contents corresponding to the URL included in the search response from the Web server 40 existing on the communication network 30 (information acquisition step: S9). Subsequently, the search client device 20 extracts the text from the acquired Web content using the text extraction rule included in the search response (latest text extraction step: S10). Then, the search client device 20 displays the extracted text or the text of the Web content included in the search response as a search result (display step: S11).

次に、図4〜図8に示すフローチャート及び検索結果リストを参照して、Webコンテンツに関する情報に基づく検索サーバ装置10の具体的な検索応答の処理手順について説明する。まず、Webコンテンツの本文が登録された登録日時情報に基づいて、検索サーバ装置10が行う検索応答について説明する。図4は図1に示す検索サーバ装置10がWebコンテンツの本文の検索インデックス登録日時情報に基づき検索応答を行う処理手順を説明するフローチャート、図5は図4に示す処理手順において検索サーバ装置10が作成する検索リストを示す図である。   Next, a specific search response processing procedure of the search server device 10 based on information on Web content will be described with reference to flowcharts and search result lists shown in FIGS. First, a search response performed by the search server device 10 based on registration date / time information in which the text of the Web content is registered will be described. FIG. 4 is a flowchart for explaining a processing procedure in which the search server device 10 shown in FIG. 1 makes a search response based on search index registration date / time information of the text of the Web content, and FIG. 5 is a flowchart illustrating the processing procedure shown in FIG. It is a figure which shows the search list to produce.

図4に示すように、検索サーバ装置10の検索部15は、検索クライアント装置20から検索要求を受けると、該当するWebコンテンツを検索して、図5に示す検索結果リスト16に挙げられるような各項目をリスト化する(S12)。リスト化される各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト16の各項目には、検索インデックスに対応するID、WebコンテンツのURL、Webコンテンツの登録日時情報、抽出ルール、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが含まれている。検索結果リスト16の各項目のうち、WebコンテンツのURL及びWebコンテンツの登録日時情報は、検索インデックス登録部14によりWebコンテンツの本文が検索インデックスに登録される際に、検索インデックスに関連付けられて設定されている。例えば、検索結果リスト16のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”と、Webコンテンツの登録日時情報として”2013−05−02 T11:11:11+0900”とが対応づけて設定されている。   As shown in FIG. 4, when the search unit 15 of the search server device 10 receives a search request from the search client device 20, the search unit 15 searches the corresponding Web content and is listed in the search result list 16 shown in FIG. Each item is listed (S12). Each item to be listed is information regarding Web contents linked to an ID corresponding to a specific search index. For example, each item of the search result list 16 includes an ID corresponding to the search index, a URL of the Web content, registration information of the Web content, an extraction rule, a title of the Web content, a text of the Web content, and an image URL of the Web content. It is included. Among the items of the search result list 16, the URL of the Web content and the registration date / time information of the Web content are set in association with the search index when the text of the Web content is registered in the search index by the search index registration unit 14. Has been. For example, when the ID of the search result list 16 is “1”, “http://xxx.com/xxx.html” is the URL of the Web content and “2013-05-02” is the registration date / time information of the Web content. T11: 11: 11 + 0900 "is set in association with each other.

続いて、検索部15は、検索結果リスト16に含まれるWebコンテンツの登録日時情報を確認し、例えば現在日時(2013年5月10日)に対して新しいか否かを判定する(S13)。検索部15は、Webコンテンツの本文が登録された日時が現在日時に対して一日以内で新しいと判定した場合には(S13;Yes)、検索インデックス登録部14により検索インデックスに登録されたWebコンテンツの本文を、検索結果リスト16に設定する(S14)。一方、Webコンテンツの本文が登録された日時が現在日時より一日以上前で新しくないと判定した場合には(S13:Nо)、抽出ルール保持部12に保持されている抽出ルールを、検索結果リスト16に設定する(S15)。例えば、検索結果リスト16のIDが”2”及び”3”の欄においては、Webコンテンツの本文が登録された日時が現在日時に対して新しいと判定された結果、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが設定されている。一方、検索結果リスト16のIDが”1”及び”4”の欄においては、Webコンテンツの本文が登録された日時が現在日時に対して新しくないと判定された結果、抽出ルールが設定されている。   Subsequently, the search unit 15 confirms the registration date / time information of the Web content included in the search result list 16 and determines, for example, whether or not it is new with respect to the current date / time (May 10, 2013) (S13). When the search unit 15 determines that the date and time when the text of the Web content was registered is newer than the current date and time within one day (S13; Yes), the search unit 15 stores the Web registered in the search index. The content body is set in the search result list 16 (S14). On the other hand, if it is determined that the date and time when the text of the Web content is registered is not more than one day before the current date and time (S13: Nо), the extraction rule held in the extraction rule holding unit 12 is used as the search result. The list 16 is set (S15). For example, in the fields of “2” and “3” in the search result list 16, as a result of determining that the date and time when the text of the Web content is registered is newer than the current date and time, the title of the Web content and the Web content And the image URL of the Web content are set. On the other hand, in the fields of “1” and “4” in the search result list 16, the extraction rule is set as a result of determining that the date and time when the text of the Web content is registered is not new with respect to the current date and time. Yes.

続いて、検索部15は、検索結果リスト16に未処理のWebコンテンツが含まれているかどうかを判定する(S16)。未処理のWebコンテンツが含まれていると判定された場合(S16;Yes)には、再び、未処理のWebコンテンツの本文が登録された日時を確認し、現在日時に対して新しいか否かを判定する(S13)。検索結果リスト16に未処理のWebコンテンツが含まれていないと判定された場合(S16;No)には、検索結果リスト16を検索クライアント装置20に送信する(S17)。   Subsequently, the search unit 15 determines whether or not unprocessed Web content is included in the search result list 16 (S16). If it is determined that unprocessed Web content is included (S16; Yes), the date and time when the text of the unprocessed Web content is registered is confirmed again, and whether or not it is new with respect to the current date and time. Is determined (S13). When it is determined that the unprocessed Web content is not included in the search result list 16 (S16; No), the search result list 16 is transmitted to the search client device 20 (S17).

検索クライアント装置20においては、情報取得部21が検索結果リスト16を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されている場合には、そのまま設定されている本文を読み込む。この場合、表示部23は、情報取得部21により読み込まれた検索結果リスト16の本文を表示する。一方、検索結果リスト16を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されておらず、抽出ルールの項目が設定されている場合には、情報取得部21は、検索結果リスト16に含まれるURLと抽出ルールとの組み合わせを読み込む。情報取得部21は、当該URLにより通信ネットワーク30から対応するWebコンテンツを取得する。最新テキスト抽出部22は、情報取得部21で取得されたWebコンテンツに、情報取得部21で読み込まれた抽出ルールを適用することにより、最新のWebコンテンツの本文を抽出する。この場合、表示部23は、最新テキスト抽出部22により抽出された最新のWebコンテンツの本文を表示する。   In the search client device 20, the information acquisition unit 21 refers to the search result list 16, and when a text item is set for an ID corresponding to a specific search index, the set text is read as it is. In this case, the display unit 23 displays the text of the search result list 16 read by the information acquisition unit 21. On the other hand, referring to the search result list 16, when the item of the text is not set for the ID corresponding to the specific search index and the item of the extraction rule is set, the information acquisition unit 21 searches for the search result. A combination of a URL and an extraction rule included in the list 16 is read. The information acquisition unit 21 acquires corresponding Web content from the communication network 30 using the URL. The latest text extraction unit 22 extracts the text of the latest Web content by applying the extraction rule read by the information acquisition unit 21 to the Web content acquired by the information acquisition unit 21. In this case, the display unit 23 displays the text of the latest Web content extracted by the latest text extraction unit 22.

次に、WebコンテンツのURLに基づいて、検索サーバ装置10が行う検索応答について説明する。図6は図1に示す検索サーバ装置10がWebコンテンツのURLに基づき検索応答を行う処理手順を説明するフローチャート、図7は図6に示す処理手順において検索サーバ装置10が作成する検索リストを示す図である。   Next, a search response performed by the search server device 10 based on the URL of the Web content will be described. 6 is a flowchart for explaining a processing procedure in which the search server device 10 shown in FIG. 1 makes a search response based on the URL of the Web content. FIG. 7 shows a search list created by the search server device 10 in the processing procedure shown in FIG. FIG.

図6に示すように、検索サーバ装置10の検索部15は、検索クライアント装置20から検索要求を受けると、該当するWebコンテンツを検索して、図7に示す検索結果リスト17に挙げられるような各項目をリスト化する(S22)。リスト化される各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト17の各項目には、検索インデックスに対応するID、WebコンテンツのURL、抽出ルール、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが含まれている。例えば、検索結果リスト17のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”が対応づけて設定されている。   As shown in FIG. 6, when the search unit 15 of the search server device 10 receives a search request from the search client device 20, the search unit 15 searches the corresponding Web content and is listed in the search result list 17 shown in FIG. Each item is listed (S22). Each item to be listed is information regarding Web contents linked to an ID corresponding to a specific search index. For example, each item of the search result list 17 includes an ID corresponding to the search index, a URL of the Web content, an extraction rule, a title of the Web content, a text of the Web content, and an image URL of the Web content. For example, “http://xxx.com/xxx.html” is set in association with the Web content URL for the ID “1” of the search result list 17.

続いて、検索部15は、検索結果リスト17に含まれるWebコンテンツのURLを確認し、事前に指定される特定のURLかどうかを判定する(S23)。検索部15は、検索結果リスト17に含まれるWebコンテンツのURLが、事前に指定される特定のURLでないと判定した場合(S23;No)には、検索インデックス登録部14により検索インデックスに登録されたWebコンテンツの本文を、検索結果リスト17に設定する(S24。一方、検索結果リスト17に含まれるWebコンテンツのURLが、事前に指定される特定のURLであると判定した場合(S23;Yes)には、抽出ルール保持部12に保持されている抽出ルールを、検索結果リスト17に設定する(S25)。例えば、検索結果リスト17のIDが”2”及び”3”の欄においては、WebコンテンツのURLが特定のURLでないと判定された結果、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが設定されている。一方、検索結果リスト17のIDが”1”及び”4”の欄においては、WebコンテンツのURLが特定のURLであると判定された結果、抽出ルールが設定されている。   Subsequently, the search unit 15 checks the URL of the Web content included in the search result list 17 and determines whether or not the URL is a specific URL specified in advance (S23). When the search unit 15 determines that the URL of the Web content included in the search result list 17 is not a specific URL specified in advance (S23; No), the search index registration unit 14 registers the URL in the search index. The body of the web content is set in the search result list 17 (S24. On the other hand, when it is determined that the URL of the web content included in the search result list 17 is a specific URL specified in advance (S23; Yes). ), The extraction rule held in the extraction rule holding unit 12 is set in the search result list 17 (S25) For example, in the fields where the ID of the search result list 17 is “2” and “3”, As a result of determining that the URL of the Web content is not a specific URL, the title of the Web content and the text of the Web content On the other hand, when the IDs of the search result list 17 are “1” and “4”, it is extracted as a result of determining that the URL of the Web content is a specific URL. Rules are set.

続いて、検索部15は、検索結果リスト17に未処理のWebコンテンツが含まれているかどうかを判定する(S26)。未処理のWebコンテンツが含まれていると判定された場合(S26;Yes)には、再び、未処理のWebコンテンツのURLを確認し、事前に指定される特定のURLか否かを判定する(S23)。検索結果リスト17に未処理のWebコンテンツが含まれていないと判定された場合(S26;No)には、検索結果リスト17を検索クライアント装置20に送信する(S27)。   Subsequently, the search unit 15 determines whether or not unprocessed Web content is included in the search result list 17 (S26). If it is determined that unprocessed Web content is included (S26; Yes), the URL of the unprocessed Web content is confirmed again to determine whether the URL is a specific URL specified in advance. (S23). When it is determined that the unprocessed Web content is not included in the search result list 17 (S26; No), the search result list 17 is transmitted to the search client device 20 (S27).

検索クライアント装置20では、情報取得部21が検索結果リスト17を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されている場合には、そのまま設定されている本文を読み込む。この場合、表示部23は、情報取得部21により読み込まれた検索結果リスト17の本文を表示する。一方、検索結果リスト17を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されておらず、抽出ルールの項目が設定されている場合には、情報取得部21は、検索結果リスト17に含まれるURLと抽出ルールとの組み合わせを読み込む。情報取得部21は、当該URLにより通信ネットワーク30から対応するWebコンテンツを取得する。最新テキスト抽出部22は、情報取得部21で取得されたWebコンテンツに、情報取得部21で読み込まれた抽出ルールを適用することにより、最新のWebコンテンツの本文を抽出する。この場合、表示部23は、最新テキスト抽出部22により抽出された最新のWebコンテンツの本文を表示する。   In the search client device 20, the information acquisition unit 21 refers to the search result list 17, and when the text item is set for the ID corresponding to the specific search index, the set text is read as it is. In this case, the display unit 23 displays the text of the search result list 17 read by the information acquisition unit 21. On the other hand, referring to the search result list 17, when the item of the body is not set for the ID corresponding to the specific search index and the item of the extraction rule is set, the information acquisition unit 21 searches for the search result. A combination of a URL and an extraction rule included in the list 17 is read. The information acquisition unit 21 acquires corresponding Web content from the communication network 30 using the URL. The latest text extraction unit 22 extracts the text of the latest Web content by applying the extraction rule read by the information acquisition unit 21 to the Web content acquired by the information acquisition unit 21. In this case, the display unit 23 displays the text of the latest Web content extracted by the latest text extraction unit 22.

次に、抽出ルールの複雑さに基づいて、検索サーバ装置10が行う検索応答について説明する。図8は図1に示す検索サーバ装置10が抽出ルールの複雑さに基づき検索応答を行う処理手順を説明するフローチャート、図9は図8に示す処理手順において検索サーバ装置10が作成する検索リストを示す図である。   Next, a search response performed by the search server device 10 based on the complexity of the extraction rule will be described. FIG. 8 is a flowchart for explaining a processing procedure in which the search server device 10 shown in FIG. 1 performs a search response based on the complexity of the extraction rule. FIG. 9 shows a search list created by the search server device 10 in the processing procedure shown in FIG. FIG.

図8に示すように、検索サーバ装置10の検索部15は、検索クライアント装置20から検索要求を受けると、該当するWebコンテンツを検索して、図9に示す検索結果リスト18に挙げられるような各項目をリスト化する(S32)。リスト化される各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト18の各項目には、検索インデックスに対応するID、WebコンテンツのURL、抽出ルール、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが含まれている。例えば、検索結果リスト17のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”が対応づけて設定されている。   As shown in FIG. 8, when the search unit 15 of the search server device 10 receives a search request from the search client device 20, the search unit 15 searches the corresponding Web content and is listed in the search result list 18 shown in FIG. 9. Each item is listed (S32). Each item to be listed is information regarding Web contents linked to an ID corresponding to a specific search index. For example, each item of the search result list 18 includes an ID corresponding to the search index, a URL of the Web content, an extraction rule, a title of the Web content, a text of the Web content, and an image URL of the Web content. For example, “http://xxx.com/xxx.html” is set in association with the Web content URL for the ID “1” of the search result list 17.

続いて、検索部15は、検索結果リスト18に含まれるWebコンテンツの本文の抽出ルールを確認し、当該抽出ルールが所定の閾値よりも単純か否かを判定する(S33)。Webコンテンツの本文の抽出ルールの確認時には、検索結果リスト18に含まれるURLを用いて、当該URLに紐付けられて抽出ルール保持部12で保持される抽出ルールを参照する。抽出ルールが所定の閾値よりも単純か否かの判定は、例えば、抽出ルールを実行する際の処理規模等を数値化し、所定の閾値と比較することにより行う。抽出ルールを実行する際の処理規模を決定する数値の具体例としては、抽出対象となるWebコンテンツのサイズや抽出ルールのライン数(プログラム規模)等が挙げられる。当該数値が所定の閾値よりも大きい場合には抽出ルールは所定の閾値よりも複雑であり、当該数値が所定の閾値よりも小さい場合には抽出ルールは所定の閾値よりも単純である。検索部15は、Webコンテンツの本文の抽出ルールが所定の閾値よりも単純でなく、複雑であると判定した場合(S33;No)には、検索インデックス登録部14により検索インデックスに登録されたWebコンテンツの本文を、検索結果リスト18に設定する(S34)。一方、Webコンテンツの本文の抽出ルールが所定の閾値よりも単純であると判定した場合(S33;Yes)には、抽出ルール保持部12に保持されている抽出ルールを、検索結果リスト18に設定する(S35)。例えば、検索結果リスト18のIDが”2”及び”3”の欄においては、Webコンテンツの本文の抽出ルールが閾値よりも複雑であると判定された結果、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが設定されている。一方、検索結果リスト18のIDが”1”及び”4”の欄においては、Webコンテンツの本文の抽出ルールが閾値よりも単純であると判定された結果、抽出ルールが設定されている。   Subsequently, the search unit 15 confirms the extraction rule for the text of the Web content included in the search result list 18 and determines whether or not the extraction rule is simpler than a predetermined threshold (S33). When checking the extraction rule for the text of the Web content, the URL contained in the search result list 18 is used to refer to the extraction rule associated with the URL and held in the extraction rule holding unit 12. Whether or not the extraction rule is simpler than a predetermined threshold is determined by, for example, quantifying the processing scale when executing the extraction rule and comparing it with a predetermined threshold. Specific examples of numerical values that determine the processing scale when executing the extraction rule include the size of the Web content to be extracted, the number of extraction rule lines (program scale), and the like. When the numerical value is larger than the predetermined threshold, the extraction rule is more complicated than the predetermined threshold, and when the numerical value is smaller than the predetermined threshold, the extraction rule is simpler than the predetermined threshold. When the search unit 15 determines that the extraction rule of the text of the Web content is not simpler than the predetermined threshold and is complicated (S33; No), the Web registered in the search index by the search index registration unit 14 The content body is set in the search result list 18 (S34). On the other hand, when it is determined that the extraction rule for the text of the Web content is simpler than the predetermined threshold (S33; Yes), the extraction rule held in the extraction rule holding unit 12 is set in the search result list 18. (S35). For example, in the fields where the IDs of the search result list 18 are “2” and “3”, it is determined that the extraction rule for the text of the Web content is more complicated than the threshold value. , And the image URL of the Web content are set. On the other hand, in the fields where the ID of the search result list 18 is “1” and “4”, the extraction rule is set as a result of determining that the extraction rule for the text of the Web content is simpler than the threshold.

続いて、検索部15は、検索結果リスト18に未処理のWebコンテンツが含まれているかどうかを判定する(S36)。未処理のWebコンテンツが含まれていると判定された場合(S36;Yes)には、再び、未処理のWebコンテンツの本文の抽出ルールを確認し、所定の閾値よりも複雑であるか否かを判定する(S33)。検索結果リスト18に未処理のWebコンテンツが含まれていないと判定された場合(S36;No)には、検索結果リスト18を検索クライアント装置20に送信する(S37)。   Subsequently, the search unit 15 determines whether or not unprocessed Web content is included in the search result list 18 (S36). When it is determined that unprocessed web content is included (S36; Yes), the extraction rules for the body of unprocessed web content are checked again, and whether the content is more complicated than a predetermined threshold value. Is determined (S33). When it is determined that the unprocessed Web content is not included in the search result list 18 (S36; No), the search result list 18 is transmitted to the search client device 20 (S37).

検索クライアント装置20では、情報取得部21が検索結果リスト18を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されている場合には、そのまま設定されている本文を読み込む。この場合、表示部23は、情報取得部21により読み込まれた検索結果リスト18の本文を表示する。一方、検索結果リスト18を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されておらず、抽出ルールの項目が設定されている場合には、情報取得部21は、検索結果リスト18に含まれるURLと抽出ルールとの組み合わせを読み込む。情報取得部21は、当該URLにより通信ネットワーク30から対応するWebコンテンツを取得する。最新テキスト抽出部22は、情報取得部21で取得されたWebコンテンツに、情報取得部21で読み込まれた抽出ルールを適用することにより、最新のWebコンテンツの本文を抽出する。この場合、表示部23は、最新テキスト抽出部22により抽出された最新のWebコンテンツの本文を表示する。   In the search client device 20, the information acquisition unit 21 refers to the search result list 18, and when a text item is set for an ID corresponding to a specific search index, the set text is read as it is. In this case, the display unit 23 displays the text of the search result list 18 read by the information acquisition unit 21. On the other hand, referring to the search result list 18, when the text item is not set for the ID corresponding to the specific search index, and the extraction rule item is set, the information acquisition unit 21 searches the search result list 18. A combination of a URL and an extraction rule included in the list 18 is read. The information acquisition unit 21 acquires corresponding Web content from the communication network 30 using the URL. The latest text extraction unit 22 extracts the text of the latest Web content by applying the extraction rule read by the information acquisition unit 21 to the Web content acquired by the information acquisition unit 21. In this case, the display unit 23 displays the text of the latest Web content extracted by the latest text extraction unit 22.

次に、図10に示すシーケンス図を用いて、検索クライアント装置20側でWebコンテンツの本文の抽出ルールをキャッシュする場合の検索処理の動作を説明する。図10は、図1に示す検索クライアント装置20が抽出ルールをキャッシュする場合の検索処理の動作を示すシーケンス図である。   Next, the operation of search processing when the search rule of the Web content body is cached on the search client device 20 side will be described using the sequence diagram shown in FIG. FIG. 10 is a sequence diagram showing an operation of search processing when the search client device 20 shown in FIG. 1 caches the extraction rule.

まず、検索サーバ装置10が行う情報収集ステップ(S1)、抽出ルール保持ステップ(S2)、テキスト抽出ステップ(S3)、登録ステップ(S4)の処理手順は、図3に示す処理手順と同様である。   First, the processing procedure of the information collection step (S1), extraction rule holding step (S2), text extraction step (S3), and registration step (S4) performed by the search server device 10 is the same as the processing procedure shown in FIG. .

図10に示すように、検索クライアント装置20は、ユーザからの検索要求(S5)を受けると、その要求を検索サーバ装置10に送信する(情報取得ステップ:S6)。検索要求は、キーワードなどの検索用の情報を含む。検索サーバ装置10は、検索要求に応じてWebコンテンツを検索し、特定の検索インデックスを抽出する(S7)。そして、特定の検索インデックスに対応するWebコンテンツに関する情報に基づいて、検索応答として該当するWebコンテンツのURL、それに紐付く抽出ルールのURL、及び、抽出ルールの更新日時情報を、検索クライアント装置20に返却する(検索ステップ:S8)。   As shown in FIG. 10, upon receiving a search request (S5) from the user, the search client device 20 transmits the request to the search server device 10 (information acquisition step: S6). The search request includes information for search such as a keyword. The search server device 10 searches the Web content in response to the search request and extracts a specific search index (S7). Then, based on the information about the Web content corresponding to the specific search index, the URL of the Web content corresponding to the search response, the URL of the extraction rule associated with the URL, and the update date / time information of the extraction rule are sent to the search client device 20. Return (search step: S8).

検索クライアント装置20は、検索サーバ装置10からの検索応答を受信すると、検索応答に含まれるWebコンテンツのURLに紐付くWebコンテンツの抽出ルールが検索クライアント装置20内にキャッシュされているか否かを確認し(S18)、なければ検索サーバ装置10から受信した抽出ルールのURLを用いて、対応する抽出ルールを取得する(S19)。   When the search client device 20 receives the search response from the search server device 10, the search client device 20 confirms whether the Web content extraction rule associated with the URL of the Web content included in the search response is cached in the search client device 20. If not (S18), the corresponding extraction rule is obtained using the URL of the extraction rule received from the search server device 10 (S19).

また、検索クライアント装置20は、検索応答に含まれるWebコンテンツの抽出ルールが検索クライアント装置20内にキャッシュされている場合でも、抽出ルールの更新日時情報やWebコンテンツのURLなどを条件として、抽出ルールのURLを用いて対応する抽出ルールを取得して、再度キャッシュする。これにより、検索クライアント装置20内でキャッシュされている抽出ルールを更新する。なお、抽出ルールの更新日時情報やWebコンテンツのURLなどの情報に基づく検索クライアント装置20のより具体的な抽出ルール更新の処理手順については後述する。   In addition, even when the Web content extraction rule included in the search response is cached in the search client device 20, the search client device 20 uses the update date and time information of the extraction rule, the URL of the Web content, etc. as a condition. The corresponding extraction rule is acquired using the URL of, and cached again. As a result, the extraction rule cached in the search client device 20 is updated. It should be noted that a more specific extraction rule update processing procedure of the search client device 20 based on information such as extraction rule update date / time information and Web content URL will be described later.

また、検索クライアント装置20は、検索応答に含まれるWebコンテンツのURLを用いて、Webコンテンツを通信ネットワーク30上に複数存在するWebサーバ40から取得する(情報取得ステップ:S9)。検索クライアント装置20は、WebコンテンツのURLから取得したWebコンテンツから、抽出ルールのURLから取得した抽出ルールを適用することにより、本文を抽出する(最新テキスト抽出ステップ:S10)。そして、検索クライアント装置20は、当該抽出された本文、又は、検索応答に含まれるWebコンテンツの本文を検索結果として表示する(表示ステップ:S11)。   Further, the search client device 20 acquires a plurality of Web contents from the Web server 40 existing on the communication network 30 using the URL of the Web contents included in the search response (information acquisition step: S9). The search client device 20 extracts the text by applying the extraction rule acquired from the URL of the extraction rule from the Web content acquired from the URL of the Web content (latest text extraction step: S10). Then, the search client device 20 displays the extracted text or the text of the Web content included in the search response as a search result (display step: S11).

次に、図11〜図14に示すフローチャート及び検索結果リストを用いて、検索クライアント装置20が、抽出ルールのキャッシュされた日時情報やWebコンテンツのURLなどの情報に基づき、検索クライアント装置20内にキャッシュされている抽出ルールを更新する場合の処理手順について詳細に説明する。   Next, using the flowcharts and search result lists shown in FIGS. 11 to 14, the search client device 20 stores the search rule information in the search client device 20 based on information such as the cached date and time information of the extraction rule and the URL of the Web content. A processing procedure for updating a cached extraction rule will be described in detail.

まず、更新日時情報に基づいて、検索クライアント装置20が抽出ルールのキャッシュを更新する場合の処理手順について説明する。図11は図1に示す検索クライアント装置20が抽出ルールのキャッシュされた日時情報に基づき抽出ルールのキャッシュを更新する場合の処理手順を説明するフローチャート、図12は図11に示す処理手順において検索サーバ装置10から受信する検索結果リストを示す図である。   First, a processing procedure when the search client device 20 updates the extraction rule cache based on the update date / time information will be described. FIG. 11 is a flowchart for explaining the processing procedure when the search client device 20 shown in FIG. 1 updates the extraction rule cache based on the cached date and time information of the extraction rule, and FIG. 12 is a search server in the processing procedure shown in FIG. FIG. 6 is a diagram showing a search result list received from the device 10.

図11に示すように、検索クライアント装置20は、検索サーバ装置10に検索要求を行い、図12に示すような検索結果リスト24を受信する(S42)。検索結果リスト24の各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト24の各項目には、検索インデックスに対応するID、WebコンテンツのURL、抽出ルールのリンク情報、及びルール取得日時が含まれている。ここで、上述したように、ルール取得日時とは、抽出ルールが抽出ルール保持部12で取得された日時であり、抽出ルールが更新された日時に相当する。例えば、検索結果リスト17のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”と、抽出ルールのリンク情報として”xxx_cоm.yml”と、ルール取得日時として”2013−05−10 T11:11:11+0900”とが対応づけて設定されている。   As shown in FIG. 11, the search client device 20 makes a search request to the search server device 10 and receives a search result list 24 as shown in FIG. 12 (S42). Each item of the search result list 24 is information regarding Web content linked to an ID corresponding to a specific search index. For example, each item of the search result list 24 includes an ID corresponding to the search index, a URL of the Web content, link information of the extraction rule, and a rule acquisition date and time. Here, as described above, the rule acquisition date and time is the date and time when the extraction rule is acquired by the extraction rule holding unit 12, and corresponds to the date and time when the extraction rule is updated. For example, when the ID of the search result list 17 is “1”, “http://xxx.com/xxx.html” is the URL of the Web content, and “xxx_comm.xml” is the link information of the extraction rule. As the rule acquisition date and time, “2013-05-10 T11: 11: 11 + 0900” is set in association with each other.

続いて、情報取得部21は、検索結果リスト24に含まれる抽出ルールが検索クライアント装置20内にキャッシュされている場合には、当該検索結果リスト24に含まれる抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しいか否かを判定する(S43)。例えば、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時よりも進んだ日時である場合には、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しいと判定する。また、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時より遅れた日時である場合には、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しくないと判定する。なお、日時が新しいか否かの判定は、厳密な時刻単位での判定に限られるものではなく、例えば日等の期間単位で判定してもよい。情報取得部21は、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しくないと判定した場合(S43;No)には、検索結果リスト24に含まれる抽出ルールのURLに基づいて、通信ネットワーク30上から改めて抽出ルールを取得し、抽出ルールのキャッシュを更新する(S44)。なお、情報取得部21は、抽出ルールがまだキャッシュされていない場合には、上記判定にかかわらず、抽出ルールを取得してキャッシュする。続いて、情報取得部21は、検索結果リスト24に未処理のWebコンテンツが含まれているかどうかを判定する(S45)。未処理のWebコンテンツが含まれていると判定した場合(S45;Yes)には、再び、未処理のWebコンテンツについて抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しいか否かを再び判定する(S43)。情報取得部21は、検索結果リスト24に未処理のWebコンテンツが含まれていないと判定し(S45;No)、検索結果リスト24に含まれる全ての検索結果の処理を終えると、検索結果リスト24に含まれるWebコンテンツのURLを用いてWebコンテンツを取得する(S46)。そして、最新テキスト抽出部22は、検索クライアント装置20内にキャッシュされた抽出ルールを用いて、情報取得部21により取得されたWebコンテンツの本文を抽出する。その後、表示部23は、当該本文を表示する(S46)。   Subsequently, when the extraction rule included in the search result list 24 is cached in the search client device 20, the information acquisition unit 21 determines the date and time when the extraction rule included in the search result list 24 was cached last time. It is determined whether or not the extraction rule acquisition date is new (S43). For example, when the date and time when the extraction rule was cached last time is a date and time advanced from the acquisition date and time of the extraction rule, it is determined that the date and time when the extraction rule was cached last time is newer than the acquisition date and time of the extraction rule. If the date and time when the extraction rule was cached last time is later than the acquisition date and time of the extraction rule, it is determined that the date and time when the extraction rule was cached last time is not new with respect to the acquisition date and time of the extraction rule. Note that the determination of whether the date and time is new is not limited to the determination in strict time units, and may be performed in units of periods such as days. When it is determined that the date and time when the extraction rule was cached last time is not new with respect to the acquisition date and time of the extraction rule (S43; No), the information acquisition unit 21 is based on the URL of the extraction rule included in the search result list 24. Then, the extraction rule is acquired again from the communication network 30, and the extraction rule cache is updated (S44). Note that if the extraction rule has not yet been cached, the information acquisition unit 21 acquires and caches the extraction rule regardless of the above determination. Subsequently, the information acquisition unit 21 determines whether or not unprocessed Web content is included in the search result list 24 (S45). If it is determined that unprocessed Web content is included (S45; Yes), whether or not the date and time when the extraction rule was previously cached for the unprocessed Web content is newer than the acquisition date and time of the extraction rule. Is again determined (S43). The information acquisition unit 21 determines that the unprocessed Web content is not included in the search result list 24 (S45; No), and when the processing of all the search results included in the search result list 24 is finished, the search result list Web content is acquired using the URL of the Web content included in 24 (S46). Then, the latest text extraction unit 22 extracts the text of the Web content acquired by the information acquisition unit 21 using the extraction rule cached in the search client device 20. Thereafter, the display unit 23 displays the text (S46).

次に、WebコンテンツのURLに基づいて、検索クライアント装置20が抽出ルールのキャッシュを更新する場合の処理手順について説明する。図13は図1に示す検索クライアント装置がWebコンテンツのURLに基づき抽出ルールのキャッシュを更新する場合の処理手順を説明するフローチャート、図14は図13に示す処理手順において検索サーバ装置から受信する検索結果リストを示す図である。   Next, a processing procedure when the search client device 20 updates the extraction rule cache based on the URL of the Web content will be described. FIG. 13 is a flowchart for explaining the processing procedure when the search client device shown in FIG. 1 updates the extraction rule cache based on the URL of the Web content, and FIG. 14 is a search received from the search server device in the processing procedure shown in FIG. It is a figure which shows a result list.

図13に示すように、検索クライアント装置20は、検索サーバ装置10に検索要求を行い、図14に示すような検索結果リスト25を受信する(S52)。検索結果リスト25の各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト25の各項目には、検索インデックスに対応するID、WebコンテンツのURL、及び抽出ルールのリンク情報が含まれている。例えば、検索結果リスト17のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”と、抽出ルールのリンク情報として”xxx_cоm.yml”とが対応付けて設定されている。   As shown in FIG. 13, the search client device 20 makes a search request to the search server device 10 and receives a search result list 25 as shown in FIG. 14 (S52). Each item of the search result list 25 is information regarding Web content linked to an ID corresponding to a specific search index. For example, each item of the search result list 25 includes an ID corresponding to the search index, a URL of the Web content, and link information of the extraction rule. For example, when the ID of the search result list 17 is “1”, “http://xxx.com/xxx.html” is the URL of the Web content, and “xxx_comm.xml” is the link information of the extraction rule. It is set in correspondence.

続いて、情報取得部21は、当該検索結果リスト25に含まれるWebコンテンツのURLが事前に指定された特定のURLであるか否かを判定する(S53)。情報取得部21は、WebコンテンツのURLが特定のURLであると判定した場合(S53;Yes)には、検索結果リスト25に含まれる抽出ルールのURLから抽出ルールを取得し、抽出ルールのキャッシュを更新する(S54)。なお、情報取得部21は、抽出ルールがまだキャッシュされていない場合には、上記判定にかかわらず、抽出ルールを取得してキャッシュする。続いて、情報取得部21は、検索結果リスト25に未処理のWebコンテンツが含まれているかどうかを判定する(S55)。未処理のWebコンテンツが含まれていると判定した場合(S55;Yes)には、再び、未処理のWebコンテンツのURLを確認し、特定のURLであるか否かを判定する(S53)。情報取得部21は、検索結果リスト25に未処理のWebコンテンツが含まれていないと判定し(S55;No)、検索結果リスト25に含まれる全ての検索結果の処理を終えると、検索結果リスト25に含まれるWebコンテンツのURLを用いてWebコンテンツを取得する(S56)。そして、最新コンテンツ抽出部22は、キャッシュに含まれる抽出ルールを用いて、情報取得部21により取得されたWebコンテンツの本文を抽出する。その後、表示部23は、当該本文を表示する(S56)。   Subsequently, the information acquisition unit 21 determines whether the URL of the Web content included in the search result list 25 is a specific URL specified in advance (S53). When the information acquisition unit 21 determines that the URL of the Web content is a specific URL (S53; Yes), the information acquisition unit 21 acquires the extraction rule from the URL of the extraction rule included in the search result list 25, and caches the extraction rule. Is updated (S54). Note that if the extraction rule has not yet been cached, the information acquisition unit 21 acquires and caches the extraction rule regardless of the above determination. Subsequently, the information acquisition unit 21 determines whether or not unprocessed Web content is included in the search result list 25 (S55). If it is determined that unprocessed Web content is included (S55; Yes), the URL of the unprocessed Web content is confirmed again to determine whether the URL is a specific URL (S53). The information acquisition unit 21 determines that the unprocessed Web content is not included in the search result list 25 (S55; No), and when the processing of all the search results included in the search result list 25 is finished, the search result list Web content is acquired using the URL of the Web content included in 25 (S56). And the newest content extraction part 22 extracts the text of the web content acquired by the information acquisition part 21 using the extraction rule contained in a cache. Thereafter, the display unit 23 displays the text (S56).

次に、情報処理装置(コンピュータ)を検索サーバ装置10及び検索クライアント装置20として動作させるWebコンテンツ検索プログラムについて説明する。図2に示すようなハードウェア構成を有する情報処理装置である検索サーバ装置10及び検索クライアント装置20には、それぞれ、Webコンテンツ検索プログラムが、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供される。検索サーバ装置10及び検索クライアント装置20は、ネットワークを介して提供されたWebコンテンツ検索プログラムを、それぞれ、補助記憶装置107,207等のメモリに格納し、当該Webコンテンツ検索プログラムを実行することができる。検索サーバ装置10及び検索クライアント装置20は、メモリに格納されたWebコンテンツ検索プログラムにアクセス可能になり、当該Webコンテンツ検索プログラムによって、本実施形態の検索サーバ装置10及び検索クライアント装置20として動作することが可能になる。   Next, a Web content search program that causes an information processing device (computer) to operate as the search server device 10 and the search client device 20 will be described. Each of the search server device 10 and the search client device 20 which are information processing devices having a hardware configuration as shown in FIG. 2 is provided with a Web content search program via a network as a computer data signal superimposed on a carrier wave. Is done. The search server device 10 and the search client device 20 can store the Web content search program provided via the network in a memory such as the auxiliary storage devices 107 and 207, respectively, and execute the Web content search program. . The search server device 10 and the search client device 20 can access the Web content search program stored in the memory, and operate as the search server device 10 and the search client device 20 of the present embodiment by the Web content search program. Is possible.

また、本発明の実施形態に係るWebコンテンツ検索プログラムは、記録媒体に格納されて提供されてもよい。記録媒体としては、フロッピー(登録商標)ディスク、CD−ROM、DVD、あるいはROM等の記録媒体、あるいは半導体メモリ等が例示される。この場合、検索サーバ装置10及び検索クライアント装置20には、フロッピー(登録商標)ディスクドライブ装置、CD−ROMドライブ装置、DVDドライブ装置等の読取装置を用いてメモリにWebコンテンツ検索プログラムが格納される。   The Web content search program according to the embodiment of the present invention may be provided by being stored in a recording medium. Examples of the recording medium include a floppy (registered trademark) disk, a CD-ROM, a DVD, a ROM, or a recording medium, or a semiconductor memory. In this case, the search server device 10 and the search client device 20 store a Web content search program in a memory using a reading device such as a floppy (registered trademark) disk drive device, a CD-ROM drive device, or a DVD drive device. .

以上説明したWebコンテンツ検索システム1及びこれを用いたWebコンテンツ検索方法によれば、検索サーバ装置10側において通信ネットワーク30上からWebコンテンツが取得され、WebコンテンツのURLに関連付けて保持された抽出ルールに基づいて、Webコンテンツの本文が抽出される。抽出されたWebコンテンツの本文は、WebコンテンツのURLを含むWebコンテンツに関する情報と関連付けて検索インデックスに登録されている。検索サーバ装置10は、Webコンテンツを検索するための検索要求を検索クライアント装置20から受信すると、当該検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、当該検索インデックスに対応する情報を検索クライアント装置20へ返却する。この際、検索サーバ装置10は、Webコンテンツに関する情報に基づいて、特定の検索インデックスに対応するWebコンテンツのURLと、該URLに対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたWebコンテンツの本文のいずれかを、検索クライアント装置20へ返却する情報とすることができる。検索クライアント装置20側では、検索要求を検索サーバ装置10に送信し、その検索結果としてWebコンテンツのURLと特定の抽出ルールとの組み合わせ又はWebコンテンツの本文を受信することにより、当該URLを用いて通信ネットワーク30上からWebコンテンツを取得でき、取得した当該コンテンツについて検索サーバ装置10から受信した特定の抽出ルールにより本文を抽出することができる。よって、例えば検索サーバ装置10から受信したWebコンテンツの本文が最新でない場合などには、必要に応じて検索クライアント装置20側で最新のWebコンテンツの本文を取得して表示することができる。また、例えば検索サーバ装置10から受信したWebコンテンツの本文が最新である場合には、検索クライアント装置20側で改めてWebコンテンツの本文を取得するまでもなく、当該受信したWebコンテンツの本文を表示することができる。以上より、検索結果として、最新のWebコンテンツの本文を表示することが可能となる。   According to the Web content search system 1 and the Web content search method using the Web content search system described above, an extraction rule in which Web content is acquired from the communication network 30 on the search server device 10 side and held in association with the URL of the Web content. Based on this, the text of the Web content is extracted. The extracted text of the Web content is registered in the search index in association with information about the Web content including the URL of the Web content. When the search server device 10 receives a search request for searching Web content from the search client device 20, the search server device 10 extracts a specific search index from the search index based on the search request, and corresponds to the search index. Information is returned to the search client device 20. At this time, the search server device 10 uses the combination of the URL of the Web content corresponding to the specific search index and the specific extraction rule corresponding to the URL, or the specific search index based on the information about the Web content. Any text of the registered Web content can be used as information to be returned to the search client device 20. On the search client device 20 side, a search request is transmitted to the search server device 10, and a combination of the URL of the Web content and a specific extraction rule or the text of the Web content is received as the search result, and the URL is used. Web content can be acquired from the communication network 30, and the text can be extracted from the acquired content according to a specific extraction rule received from the search server device 10. Therefore, for example, when the text of the Web content received from the search server device 10 is not the latest, the latest Web content text can be acquired and displayed on the search client device 20 side as necessary. For example, when the text of the Web content received from the search server device 10 is the latest, the text of the received Web content is displayed without acquiring the Web content text again on the search client device 20 side. be able to. As described above, it is possible to display the text of the latest Web content as a search result.

また、Webコンテンツの本文の登録の日時が所定の日時より新しくない場合には、検索サーバ装置10側から検索クライアント装置20側に、検索結果として該当するWebコンテンツのURLと抽出ルールとの組み合わせが返却されることになる。よって、検索クライアント装置20側においては、検索サーバ装置10側から受信したWebコンテンツのURLと特定の抽出ルールとを用いることにより、通信ネットワーク30上から最新のWebコンテンツの本文を抽出して表示することができる。また、登録の日時が所定の日時より新しい場合には、検索サーバ装置10側から検索クライアント装置20側に、検索結果として該当するWebコンテンツの本文が返却されることになる。よって、検索クライアント装置20側においては、抽出した日時が所定の日時より新しいWebコンテンツの本文を表示することができる。以上より、検索結果として、最新のWebコンテンツの本文を表示することが可能となる。   If the date and time of registration of the text of the Web content is not newer than the predetermined date and time, the combination of the URL of the Web content and the extraction rule corresponding to the search result from the search server device 10 side to the search client device 20 side. Will be returned. Therefore, on the search client device 20 side, by using the URL of the Web content received from the search server device 10 side and a specific extraction rule, the text of the latest Web content is extracted from the communication network 30 and displayed. be able to. When the registration date is newer than the predetermined date, the text of the corresponding Web content is returned as a search result from the search server device 10 side to the search client device 20 side. Therefore, on the search client device 20 side, it is possible to display the text of the Web content whose extracted date is newer than the predetermined date. As described above, it is possible to display the text of the latest Web content as a search result.

また、例えばWebコンテンツのURLが、Webコンテンツの内容が頻繁に更新されているような特定のURLである場合に、検索クライアント装置20側において、通信ネットワーク30上から最新のWebコンテンツの本文を抽出して表示することができる。   Further, for example, when the URL of the Web content is a specific URL such that the content of the Web content is updated frequently, the search client device 20 extracts the latest text of the Web content from the communication network 30. Can be displayed.

また、検索クライアント装置20側において、検索サーバ装置10側から受信したリンク情報に基づいて、当該リンク情報に対応する抽出ルールを保持して利用することができる。これにより、抽出ルールを検索サーバ装置10側から受信しなくても、検索クライアント装置20側にキャッシュされた抽出ルールを用いて最新のWebコンテンツを取得できる。その結果、Webコンテンツの検索処理を効率化できる。   On the search client device 20 side, based on the link information received from the search server device 10 side, an extraction rule corresponding to the link information can be held and used. Accordingly, the latest Web content can be acquired using the extraction rule cached on the search client device 20 side without receiving the extraction rule from the search server device 10 side. As a result, Web content search processing can be made more efficient.

また、検索サーバ装置10側から返却される特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しくない場合に、検索クライアント装置20側において、検索サーバ装置10側から受信するリンク情報を用いて通信ネットワーク30上からリンク情報に対応する抽出ルールを取得し、検索クライアント装置20内にキャッシュされた抽出ルールを更新することができる。これにより、検索クライアント装置20において、最新の抽出ルールを用いてWebコンテンツを取得することができる。その結果、適切にWebコンテンツを抽出できる。   Further, the link information received from the search server device 10 side on the search client device 20 side when the date and time when the specific extraction rule returned from the search server device 10 side was cached last time is not new according to a predetermined standard. Can be used to acquire the extraction rule corresponding to the link information from the communication network 30 and update the extraction rule cached in the search client device 20. As a result, the search client device 20 can acquire Web content using the latest extraction rule. As a result, Web contents can be extracted appropriately.

また、特定の検索インデックスにより示されるWebコンテンツのURLが特定のURLである場合に、検索クライアント装置20側において、検索クライアント装置20内にキャッシュされた抽出ルールを更新することができる。これにより、例えばWebコンテンツのURLが、該コンテンツの内容が頻繁に更新されているような特定のURLである場合に、検索クライアント装置20側において、通信ネットワーク30上から取得した最新の抽出ルールを用いてWebコンテンツの項目を抽出して表示することができる。その結果、Webコンテンツの内容の更新に合わせて適切にWebコンテンツを抽出できる。   Further, when the URL of the Web content indicated by the specific search index is a specific URL, the extraction rule cached in the search client device 20 can be updated on the search client device 20 side. Thereby, for example, when the URL of the Web content is a specific URL such that the content is frequently updated, the latest extraction rule acquired from the communication network 30 is obtained on the search client device 20 side. Web content items can be extracted and displayed. As a result, the Web content can be appropriately extracted in accordance with the update of the content of the Web content.

以上、本発明の好適な実施形態について説明してきたが、本発明は必ずしも上述した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で様々な変更が可能である。   The preferred embodiments of the present invention have been described above. However, the present invention is not necessarily limited to the above-described embodiments, and various modifications can be made without departing from the scope of the present invention.

1…Webコンテンツ検索システム、10…検索サーバ装置、11…情報収集部(情報収集手段)、12…抽出ルール保持部(抽出ルール保持手段)、13…テキスト抽出部(テキスト抽出手段)、14…検索インデックス登録部(登録手段)、15…検索部(検索手段)、20…検索クライアント装置、21…情報取得部(情報取得手段)、22…最新テキスト抽出部(最新テキスト抽出手段)、23…表示部(表示手段)、30…通信ネットワーク。   DESCRIPTION OF SYMBOLS 1 ... Web content search system, 10 ... Search server apparatus, 11 ... Information collection part (information collection means), 12 ... Extraction rule holding part (extraction rule holding means), 13 ... Text extraction part (text extraction means), 14 ... Search index registration unit (registration unit), 15 ... Search unit (search unit), 20 ... Search client device, 21 ... Information acquisition unit (information acquisition unit), 22 ... Latest text extraction unit (latest text extraction unit), 23 ... Display unit (display means), 30... Communication network.

Claims (8)

検索サーバ装置と、検索クライアント装置と、を備えるコンテンツ検索システムであって、
前記検索サーバ装置は、
通信ネットワーク上からコンテンツを取得する情報収集手段と、
前記情報収集手段によって取得された前記コンテンツの本文を抽出するための抽出ルールを、前記コンテンツの格納先情報に関連付けて保持する抽出ルール保持手段と、
前記抽出ルール保持手段によって保持される前記抽出ルールに基づいて、前記情報収集手段により取得された前記コンテンツの本文を抽出するテキスト抽出手段と、
前記テキスト抽出手段により抽出された前記コンテンツの本文を、前記コンテンツの格納先情報を含む前記コンテンツに関する情報と関連付けて検索インデックスに登録する登録手段と、
前記コンテンツを検索するための検索要求を前記検索クライアント装置から受信すると、前記検索要求に基づいて、前記検索インデックスの中から特定の検索インデックスを抽出し、前記特定の検索インデックスに対応する前記コンテンツの格納先情報と、前記抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、前記特定の検索インデックスに登録された前記コンテンツの本文のいずれかを、前記コンテンツに関する情報に基づいて選択して前記クライアント装置に返却する検索手段と、
を有し、
前記検索クライアント装置は、
前記検索要求を前記検索サーバ装置の前記検索手段に送信し、その検索結果として前記検索手段により返却される前記コンテンツの格納先情報と前記特定の抽出ルールとの組み合わせ又は前記コンテンツの本文を受信し、受信した前記コンテンツの格納先情報を用いて前記通信ネットワーク上から前記コンテンツを取得する情報取得手段と、
前記情報取得手段により前記コンテンツが取得された後に、前記検索サーバ装置から受信した前記特定の抽出ルールにより前記コンテンツの本文を抽出する最新テキスト抽出手段と、
前記情報取得手段により受信された前記コンテンツの本文又は前記最新テキスト抽出手段により抽出された前記コンテンツの本文を表示する表示手段と、
を有する、コンテンツ検索システム。
A content search system comprising a search server device and a search client device,
The search server device
Information collecting means for acquiring content from a communication network;
An extraction rule holding means for holding an extraction rule for extracting the text of the content acquired by the information collecting means in association with the storage destination information of the content;
Text extraction means for extracting the body of the content acquired by the information collection means based on the extraction rules held by the extraction rule holding means;
Registration means for registering a body of the content extracted by the text extraction means in a search index in association with information on the content including storage destination information of the content;
When a search request for searching for the content is received from the search client device, a specific search index is extracted from the search index based on the search request, and the content corresponding to the specific search index is extracted. Either a combination of storage location information and a specific extraction rule corresponding to the storage location information of the content extracted from the extraction rule holding means, or a text of the content registered in the specific search index Search means for selecting and returning to the client device based on the information about the content;
Have
The search client device includes:
The search request is transmitted to the search unit of the search server device, and a combination of the storage location information of the content returned by the search unit and the specific extraction rule or the text of the content is received as a search result. Information acquisition means for acquiring the content from the communication network using the received storage location information of the content;
Latest text extraction means for extracting the body of the content according to the specific extraction rule received from the search server device after the content is acquired by the information acquisition means;
Display means for displaying the text of the content received by the information acquisition means or the text of the content extracted by the latest text extraction means;
A content search system.
前記コンテンツに関する情報は、前記コンテンツの本文が前記検索インデックスに登録された日時に関する登録日時情報を含み、
前記検索手段は、前記登録日時情報に基づき、前記特定の検索インデックスに登録された前記コンテンツの本文当該登録の日時が所定の日時に対して新しいか否かを判定し、前記登録の日時が前記所定の日時よりも新しくない場合には、前記特定の検索インデックスに対応する前記コンテンツの格納先情報と、前記抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせを前記検索クライアント装置に返却し、前記登録の日時が前記所定の日時よりも新しい場合には、前記特定の検索インデックスに登録された前記コンテンツの本文を前記検索クライアント装置に返却する、
請求項1に記載のコンテンツ検索システム。
The information related to the content includes registration date and time information related to the date and time when the text of the content was registered in the search index,
The search means determines whether or not the registration date and time of the content body registered in the specific search index is newer than a predetermined date and time based on the registration date and time information. If it is not newer than the predetermined date and time, the storage location information of the content corresponding to the specific search index and the specific extraction rule corresponding to the storage location information of the content extracted from the extraction rule holding means When the date and time of registration is newer than the predetermined date and time, the body of the content registered in the specific search index is returned to the search client device.
The content search system according to claim 1.
前記検索手段は、前記特定の検索インデックスに対応する前記コンテンツの格納先情報が特定のコンテンツの格納先情報であるか否かを判定し、該コンテンツの格納先情報が前記特定のコンテンツの格納先情報である場合には、前記特定のコンテンツの格納先情報と、前記抽出ルール保持手段から抽出される該特定のコンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせを前記検索クライアント装置に返却し、前記コンテンツの格納先情報が前記特定のコンテンツの格納先情報でない場合には、前記特定の検索インデックスに登録された前記コンテンツの本文を前記検索クライアント装置に返却する、
請求項1に記載のコンテンツ検索システム。
The search unit determines whether the storage location information of the content corresponding to the specific search index is storage location information of the specific content, and the storage location information of the content is the storage location of the specific content If it is information, a combination of the storage location information of the specific content and a specific extraction rule corresponding to the storage location information of the specific content extracted from the extraction rule holding unit is stored in the search client device. When the storage location information of the content is not the storage location information of the specific content, the body of the content registered in the specific search index is returned to the search client device.
The content search system according to claim 1.
前記検索手段は、前記特定の抽出ルールをリンク情報で返却し、
前記情報取得手段は、前記検索手段により返却される前記リンク情報を用いて前記通信ネットワーク上から前記リンク情報に対応する前記抽出ルールを取得し、取得された前記抽出ルールをキャッシュする、
請求項1〜3の何れか一項に記載のコンテンツ検索システム。
The search means returns the specific extraction rule as link information,
The information acquisition means acquires the extraction rule corresponding to the link information from the communication network using the link information returned by the search means, and caches the acquired extraction rule.
The content search system as described in any one of Claims 1-3.
前記情報取得手段は、前記特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しいか否かを判定し、前記特定の抽出ルールが前回キャッシュされた日時が前記所定の基準に照らして新しくない場合に、前記検索手段により返却される前記リンク情報を用いて前記通信ネットワーク上から前記リンク情報に対応する前記抽出ルールを取得し、取得された前記抽出ルールを再度キャッシュする、
請求項4に記載のコンテンツ検索システム。
The information acquisition means determines whether the date and time when the specific extraction rule was cached last time is new according to a predetermined criterion, and the date and time when the specific extraction rule was cached last time and according to the predetermined criterion. If not new, obtain the extraction rule corresponding to the link information from the communication network using the link information returned by the search means, and cache the obtained extraction rule again,
The content search system according to claim 4.
前記情報取得手段は、前記特定の検索インデックスに対応する前記コンテンツの格納先情報が特定のコンテンツの格納先情報であるか否かを判定し、前記コンテンツの格納先情報が前記特定のコンテンツの格納先情報である場合には、前記検索手段により返却される前記リンク情報を用いて前記通信ネットワーク上から前記リンク情報に対応する前記抽出ルールを取得し、取得された前記抽出ルールを再度キャッシュする、
請求項4に記載のコンテンツ検索システム。
The information acquisition means determines whether the storage location information of the content corresponding to the specific search index is storage content information of the specific content, and the storage location information of the content stores the specific content. In the case of prior information, the extraction rule corresponding to the link information is acquired from the communication network using the link information returned by the search means, and the acquired extraction rule is cached again.
The content search system according to claim 4.
検索サーバ装置と、検索クライアント装置と、によってコンテンツを検索するコンテンツ検索方法であって、
前記検索サーバ装置が、
通信ネットワーク上からコンテンツを取得する情報収集ステップと、
前記情報収集ステップにおいて取得された前記コンテンツの本文を抽出するための抽出ルールを、前記コンテンツの格納先情報に関連付けて保持する抽出ルール保持ステップと、
前記抽出ルール保持ステップにおいて保持される前記抽出ルールに基づいて、前記情報収集ステップで取得された前記コンテンツの本文を抽出するテキスト抽出ステップと、
前記テキスト抽出ステップにおいて抽出された前記コンテンツの本文を、前記コンテンツの格納先情報を含む前記コンテンツに関する情報と関連付けて検索インデックスに登録する登録ステップと、
前記コンテンツを検索するための検索要求を前記検索クライアント装置から受信すると、前記検索要求に基づいて、前記検索インデックスの中から特定の検索インデックスを抽出し、前記特定の検索インデックスに対応する前記コンテンツの格納先情報と、前記抽出ルール保持ステップにおいて抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、前記特定の検索インデックスに登録された前記コンテンツの本文のいずれかを、前記コンテンツの格納先情報に基づいて選択して前記クライアント装置に返却する検索ステップと、
を含み、
前記検索クライアント装置が、
前記検索要求を前記検索サーバ装置に送信し、その検索結果として前記検索ステップにおいて返却される前記コンテンツの格納先情報と前記特定の抽出ルールとの組み合わせ又は前記コンテンツの本文を受信し、受信した前記コンテンツの格納先情報を用いて前記通信ネットワーク上から前記コンテンツを取得する情報取得ステップと、
前記情報取得ステップにおいて前記コンテンツが取得された後に、前記検索サーバ装置から受信した前記特定の抽出ルールにより前記コンテンツの本文を抽出する最新テキスト抽出ステップと、
前記情報取得ステップにおいて受信された前記コンテンツの本文又は前記最新テキスト抽出ステップで抽出された前記コンテンツの本文を表示する表示ステップと、
を含む、コンテンツ検索方法。
A content search method for searching for content by a search server device and a search client device,
The search server device
An information collecting step of acquiring content from a communication network;
An extraction rule holding step for holding an extraction rule for extracting the text of the content acquired in the information collecting step in association with the storage destination information of the content;
A text extraction step for extracting the body of the content acquired in the information collection step based on the extraction rule held in the extraction rule holding step;
A registration step of registering the body of the content extracted in the text extraction step in a search index in association with information about the content including storage destination information of the content;
When a search request for searching for the content is received from the search client device, a specific search index is extracted from the search index based on the search request, and the content corresponding to the specific search index is extracted. Either a combination of storage location information and a specific extraction rule corresponding to the storage location information of the content extracted in the extraction rule holding step, or a text of the content registered in the specific search index A search step of selecting based on the storage location information of the content and returning it to the client device;
Including
The search client device is
The search request is transmitted to the search server device, and the combination of the storage location information of the content returned in the search step and the specific extraction rule or the text of the content as a search result is received and received. An information acquisition step of acquiring the content from the communication network using content storage location information;
A latest text extraction step of extracting a body of the content according to the specific extraction rule received from the search server device after the content is acquired in the information acquisition step;
A display step for displaying the body of the content received in the information acquisition step or the body of the content extracted in the latest text extraction step;
Content search method including
検索サーバ装置と、検索クライアント装置と、によってコンテンツを検索するコンテンツ検索プログラムであって、
前記検索サーバ装置として動作するコンピュータを、
通信ネットワーク上からコンテンツを取得する情報収集手段と、
前記情報収集手段によって取得された前記コンテンツの本文を抽出するための抽出ルールを、前記コンテンツの格納先情報に関連付けて保持する抽出ルール保持手段と、
前記抽出ルール保持手段によって保持される前記抽出ルールに基づいて、前記情報収集手段により取得された前記コンテンツの本文を抽出するテキスト抽出手段と、
前記テキスト抽出手段により抽出された前記コンテンツの本文を、前記コンテンツの格納先情報を含む前記コンテンツに関する情報と関連付けて検索インデックスに登録する登録手段と、
前記コンテンツを検索するための検索要求を前記検索クライアント装置から受信すると、前記検索要求に基づいて、前記検索インデックスの中から特定の検索インデックスを抽出し、前記特定の検索インデックスに対応する前記コンテンツの格納先情報と、前記抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、前記特定の検索インデックスに登録された前記コンテンツの本文のいずれかを、前記コンテンツに関する情報に基づいて選択して前記クライアント装置に返却する検索手段として機能させ、
前記検索クライアント装置として動作するコンピュータを、
前記検索要求を前記検索サーバ装置の前記検索手段に送信し、その検索結果として前記検索手段により返却される前記コンテンツの格納先情報と前記特定の抽出ルールとの組み合わせ又は前記コンテンツの本文を受信し、受信した前記コンテンツの格納先情報を用いて前記通信ネットワーク上から前記コンテンツを取得する情報取得手段と、
前記情報取得手段により前記コンテンツが取得された後に、前記検索サーバ装置から受信した前記特定の抽出ルールにより前記コンテンツの本文を抽出する最新テキスト抽出手段と、
前記情報取得手段により受信された前記コンテンツの本文又は前記最新テキスト抽出手段により抽出された前記コンテンツの本文を表示する表示手段として機能させる、コンテンツ検索プログラム。
A content search program for searching for content by a search server device and a search client device,
A computer that operates as the search server device,
Information collecting means for acquiring content from a communication network;
An extraction rule holding means for holding an extraction rule for extracting the text of the content acquired by the information collecting means in association with the storage destination information of the content;
Text extraction means for extracting the body of the content acquired by the information collection means based on the extraction rules held by the extraction rule holding means;
Registration means for registering a body of the content extracted by the text extraction means in a search index in association with information on the content including storage destination information of the content;
When a search request for searching for the content is received from the search client device, a specific search index is extracted from the search index based on the search request, and the content corresponding to the specific search index is extracted. Either a combination of storage location information and a specific extraction rule corresponding to the storage location information of the content extracted from the extraction rule holding means, or a text of the content registered in the specific search index , Function as a search means to select and return to the client device based on information about the content,
A computer that operates as the search client device;
The search request is transmitted to the search unit of the search server device, and a combination of the storage location information of the content returned by the search unit and the specific extraction rule or the text of the content is received as a search result. Information acquisition means for acquiring the content from the communication network using the received storage location information of the content;
Latest text extraction means for extracting the body of the content according to the specific extraction rule received from the search server device after the content is acquired by the information acquisition means;
A content search program that functions as a display unit that displays the body of the content received by the information acquisition unit or the body of the content extracted by the latest text extraction unit.
JP2013126942A 2013-06-17 2013-06-17 Content search system, content search method, and content search program Active JP6104729B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013126942A JP6104729B2 (en) 2013-06-17 2013-06-17 Content search system, content search method, and content search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013126942A JP6104729B2 (en) 2013-06-17 2013-06-17 Content search system, content search method, and content search program

Publications (2)

Publication Number Publication Date
JP2015001899A JP2015001899A (en) 2015-01-05
JP6104729B2 true JP6104729B2 (en) 2017-03-29

Family

ID=52296372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013126942A Active JP6104729B2 (en) 2013-06-17 2013-06-17 Content search system, content search method, and content search program

Country Status (1)

Country Link
JP (1) JP6104729B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157965A (en) * 2002-09-12 2004-06-03 Ricoh Co Ltd Search support device and method, program and recording medium
JP2004310461A (en) * 2003-04-07 2004-11-04 Canon Inc Summary preparing device
US7685296B2 (en) * 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
JP4381423B2 (en) * 2007-01-22 2009-12-09 日本電信電話株式会社 Document collection device, document collection method, program, and recording medium
JP5068338B2 (en) * 2010-04-08 2012-11-07 ヤフー株式会社 Search server, system and method

Also Published As

Publication number Publication date
JP2015001899A (en) 2015-01-05

Similar Documents

Publication Publication Date Title
JP6091579B2 (en) Method and apparatus for handling nested fragment caching of web pages
US20080114773A1 (en) Apparatus and method for prefetching web page
US20160232252A1 (en) Method for loading webpage, device and browser thereof
US10455020B2 (en) Systems and methods for managing and publishing managed content
US8244719B2 (en) Computer method and apparatus providing social preview in tag selection
US20090100322A1 (en) Retrieving data relating to a web page prior to initiating viewing of the web page
JPH11175442A (en) Data repeater system, information terminal equipment, computer readable recording medium recorded with data relay program and computer readable record medium recorded with information reading program
JP2008158589A (en) Updated information notification device, and updated information notification program
JP5232054B2 (en) Information provision device
JP2008204189A (en) Updated information responding device and web server
JP6104729B2 (en) Content search system, content search method, and content search program
JP5297295B2 (en) WWW information browsing system and method, and Web browser and program
JP3843390B2 (en) Web page browsing method and web page browsing program
US8103651B2 (en) Auto-updating reader program for document files
JP2002082936A (en) Contents data displaying device and contents data displaying system
JP2007087241A (en) Multilingual multilayered site creation system and multilingual multilayered site creation program
JP2005115721A (en) Method, device and program for searching for image
JP5070018B2 (en) SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM
US20120323966A1 (en) Storage device, server device, storage system, database device, provision method of data, and program
JP5968967B2 (en) Information processing device
JP4715031B2 (en) Structured document conversion system and structured document conversion program
JP5616473B2 (en) Information processing apparatus and information processing method
US8510286B1 (en) Method, architecture and platform for content takedown on the internet
JP2016181290A (en) Information processing apparatus
JP2006227859A (en) System, program, and method for database management, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170301

R150 Certificate of patent or registration of utility model

Ref document number: 6104729

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250