JP6104729B2 - Content search system, content search method, and content search program - Google Patents
Content search system, content search method, and content search program Download PDFInfo
- Publication number
- JP6104729B2 JP6104729B2 JP2013126942A JP2013126942A JP6104729B2 JP 6104729 B2 JP6104729 B2 JP 6104729B2 JP 2013126942 A JP2013126942 A JP 2013126942A JP 2013126942 A JP2013126942 A JP 2013126942A JP 6104729 B2 JP6104729 B2 JP 6104729B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- content
- information
- extraction rule
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ネットワーク上のコンテンツを検索するコンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラムに関する。 The present invention relates to a content search system, a content search method, and a content search program for searching for content on a network.
従来のコンテンツ検索システムでは、例えば特許文献1に記載されているように、予め収集されたコンテンツから、当該コンテンツの本文を抽出する抽出ルールに従って本文を抽出し、抽出された本文を用いて検索インデックスを作成している。このコンテンツ検索システムでは、検索キーワードによる検索要求を受けると、作成された検索インデックスを検索し、その検索結果として予め収集されたコンテンツから抽出された本文の全部又は一部を表示する。
In a conventional content search system, as described in, for example,
また、従来のコンテンツ検索システムでは、例えば特許文献2に記載されているように、検索インデックスの作成に用いるコンテンツの本文を、抽出ルールを用いず、コンテンツのリンク関係を用いて抽出するものが知られている。このコンテンツ検索システムでは、予め収集されたリンク元のHTMLファイル内に存在するハイパーリンクに基づいてリンク先のHTMLファイルを特定し、特定されたリンク先のHTMLファイル内のテキスト情報とリンク元のハイパーリンク周辺の文字列とを比較することにより、リンク先のHTMLファイルから本文部分を抽出している。
Also, in the conventional content search system, as described in
しかしながら、特許文献1に記載のコンテンツ検索システムでは、検索結果として表示される本文は、予め収集されたコンテンツから抽出ルールに従って抽出されたものである。よって、例えば検索を要求する時点でコンテンツの内容に修正や変更があったとしても、修正や変更がされる前のコンテンツの本文しか検索結果として表示することができない。
However, in the content search system described in
また、特許文献2に記載の技術のように、コンテンツの本文の抽出方法として、抽出ルールを用いずにコンテンツのリンク関係を用いたとしても、抽出する本文はリンク元のHTMLファイルから予め収集されている。このため、検索結果として表示されるコンテンツの本文は、予め収集されたリンク先のHTMLファイルから抽出されたものである。よって、特許文献1に記載の技術と同様、最新のコンテンツの本文を検索結果として表示することができない場合がある。
Further, as in the technique described in
本発明は上記実情に鑑みてなされたものであり、検索結果として最新のコンテンツの本文を表示することが可能なコンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide a content search system, a content search method, and a content search program capable of displaying the text of the latest content as a search result.
本発明の一形態に係るコンテンツ検索システムは、検索サーバ装置と、検索クライアント装置と、を備えるコンテンツ検索システムであって、検索サーバ装置は、通信ネットワーク上からコンテンツを取得する情報収集手段と、情報収集手段によって取得されたコンテンツの本文を抽出するための抽出ルールを、コンテンツの格納先情報に関連付けて保持する抽出ルール保持手段と、抽出ルール保持手段によって保持される抽出ルールに基づいて、情報収集手段により取得されたコンテンツの本文を抽出するテキスト抽出手段と、テキスト抽出手段により抽出されたコンテンツの本文を、コンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録する登録手段と、コンテンツを検索するための検索要求を検索クライアント装置から受信すると、検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、特定の検索インデックスに対応するコンテンツの格納先情報と、抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応するに対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたコンテンツの本文のいずれかを、コンテンツに関する情報に基づいて選択して前記クライアント装置に返却する検索手段と、を有し、検索クライアント装置は、検索要求を検索サーバ装置の検索手段に送信し、その検索結果として検索手段により返却されるコンテンツの格納先情報と特定の抽出ルールとの組み合わせ又はコンテンツの本文を受信し、受信したコンテンツの格納先情報を用いて通信ネットワーク上からコンテンツを取得する情報取得手段と、情報取得手段によりコンテンツが取得された後に、検索サーバ装置から受信した特定の抽出ルールによりコンテンツの本文を抽出する最新テキスト抽出手段と、情報取得手段により受信されたコンテンツの本文又は最新テキスト抽出手段により抽出されたコンテンツの本文を表示する表示手段と、を有する。 A content search system according to an aspect of the present invention is a content search system including a search server device and a search client device, wherein the search server device includes information collection means for acquiring content from a communication network, and information Information is collected based on the extraction rule holding means for holding the extraction rule for extracting the body text of the content acquired by the collecting means in association with the storage destination information of the content, and the extraction rule held by the extraction rule holding means Text extracting means for extracting the body of the content acquired by the means, registration means for registering the body of the content extracted by the text extracting means in the search index in association with information about the content including the storage location information of the content, Detect search requests to search for content When received from the client device, a specific search index is extracted from the search index based on the search request, the storage location information of the content corresponding to the specific search index, and the content extracted from the extraction rule holding means Either a combination with a specific extraction rule corresponding to the storage location information or a content body registered in a specific search index is selected based on information about the content and returned to the client device The search client device transmits a search request to the search unit of the search server device, and a combination of content storage destination information returned by the search unit as a search result and a specific extraction rule or Receives the content text and uses the received content storage location information Information acquisition means for acquiring content from a communication network, latest text extraction means for extracting the body of the content according to a specific extraction rule received from the search server device after the content is acquired by the information acquisition means, and information acquisition means Display means for displaying the body of the content received by or the content body extracted by the latest text extraction means.
或いは、本発明の他の形態に係るコンテンツ検索方法は、検索サーバ装置と、検索クライアント装置と、によってコンテンツを検索するコンテンツ検索方法であって、検索サーバ装置が、通信ネットワーク上からコンテンツを取得する情報収集ステップと、情報収集ステップにおいて取得されたコンテンツの本文を抽出するための抽出ルールを、コンテンツの格納先情報に関連付けて保持する抽出ルール保持ステップと、抽出ルール保持ステップにおいて保持される抽出ルールに基づいて、情報収集ステップで取得されたコンテンツの本文を抽出するテキスト抽出ステップと、テキスト抽出ステップにおいて抽出されたコンテンツの本文を、コンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録する登録ステップと、コンテンツを検索するための検索要求を検索クライアント装置から受信すると、検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、特定の検索インデックスに対応するコンテンツの格納先情報と、抽出ルール保持ステップにおいて抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたコンテンツの本文のいずれかを、コンテンツの格納先情報に基づいて選択してクライアント装置に返却する検索ステップと、を含み、検索クライアント装置が、検索要求を検索サーバ装置に送信し、その検索結果として検索ステップにおいて返却されるコンテンツの格納先情報と特定の抽出ルールとの組み合わせ又はコンテンツの本文を受信し、受信したコンテンツの格納先情報を用いて通信ネットワーク上からコンテンツを取得する情報取得ステップと、情報取得ステップにおいてコンテンツが取得された後に、検索サーバ装置から受信した特定の抽出ルールによりコンテンツの本文を抽出する最新テキスト抽出ステップと、情報取得ステップにおいて受信されたコンテンツの本文又は最新テキスト抽出ステップで抽出されたコンテンツの本文を表示する表示ステップと、を含む。 Alternatively, a content search method according to another aspect of the present invention is a content search method for searching for content by a search server device and a search client device, and the search server device acquires content from a communication network. An information collection step, an extraction rule holding step for holding an extraction rule for extracting the text of the content acquired in the information collection step in association with the storage location information of the content, and an extraction rule held in the extraction rule holding step A text extraction step for extracting the body of the content acquired in the information collection step, and the content body extracted in the text extraction step in association with information about the content including the content storage location information in the search index To register Step and when a search request for searching for content is received from the search client device, based on the search request, a specific search index is extracted from the search index, and content storage location information corresponding to the specific search index And the combination of the specific extraction rule corresponding to the storage location information of the content extracted in the extraction rule holding step, or the content body registered in the specific search index, the content storage location information A search step that selects and returns to the client device based on the search information, and the search client device sends a search request to the search server device and specifies the storage location information of the content returned in the search step as the search result In combination with extraction rules or content body An information acquisition step of acquiring content from a communication network using the storage location information of the received content, and after the content is acquired in the information acquisition step, the specific extraction rule received from the search server device A latest text extracting step for extracting a body, and a display step for displaying the body of the content received in the information acquisition step or the body of the content extracted in the latest text extracting step.
或いは、本発明の他の形態に係るコンテンツ検索プログラムは、検索サーバ装置と、検索クライアント装置と、によってコンテンツを検索するコンテンツ検索プログラムであって、検索サーバ装置として動作するコンピュータを、通信ネットワーク上からコンテンツを取得する情報収集手段と、情報収集手段によって取得されたコンテンツの本文を抽出するための抽出ルールを、コンテンツの格納先情報に関連付けて保持する抽出ルール保持手段と、抽出ルール保持手段によって保持される抽出ルールに基づいて、情報収集手段により取得されたコンテンツの本文を抽出するテキスト抽出手段と、テキスト抽出手段により抽出されたコンテンツの本文を、コンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録する登録手段と、コンテンツを検索するための検索要求を検索クライアント装置から受信すると、検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、特定の検索インデックスに対応するコンテンツの格納先情報と、抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたコンテンツの本文のいずれかを、コンテンツに関する情報に基づいて選択してクライアント装置に返却する検索手段として機能させ、検索クライアント装置として動作するコンピュータを、検索要求を検索サーバ装置の検索手段に送信し、その検索結果として検索手段により返却されるコンテンツの格納先情報と特定の抽出ルールとの組み合わせ又はコンテンツの本文を受信し、受信したコンテンツの格納先情報を用いて通信ネットワーク上からコンテンツを取得する情報取得手段と、情報取得手段によりコンテンツが取得された後に、検索サーバ装置から受信した特定の抽出ルールによりコンテンツの本文を抽出する最新テキスト抽出手段と、情報取得手段により受信されたコンテンツの本文又は最新テキスト抽出手段により抽出されたコンテンツの本文を表示する表示手段として機能させる。 Alternatively, a content search program according to another aspect of the present invention is a content search program for searching for content by a search server device and a search client device, and a computer that operates as the search server device is connected to a communication network. Information collection means for acquiring content, extraction rule holding means for holding the extraction rule for extracting the body of the content acquired by the information collection means in association with content storage location information, and holding by the extraction rule holding means A text extracting unit that extracts the body of the content acquired by the information collecting unit, and the content body extracted by the text extracting unit is associated with information about the content including the content storage location information Search index When a registration means for registration and a search request for searching for content are received from the search client device, a specific search index is extracted from the search index based on the search request, and the content corresponding to the specific search index is extracted. Either the combination of the storage location information and the specific extraction rule corresponding to the storage location information of the content extracted from the extraction rule holding means, or the content text registered in the specific search index is related to the content. A computer that operates as a search client device is selected based on information and returned to the client device, and a search request is transmitted to the search device of the search server device, and the search result is returned by the search device. Content storage location information and specific extraction rules Received from the search server device after the content is acquired by the information acquisition means, the information acquisition means for acquiring the content from the communication network using the storage location information of the received content The latest text extraction unit that extracts the content body according to a specific extraction rule and the display unit that displays the content body received by the information acquisition unit or the content body extracted by the latest text extraction unit.
この発明の上記いずれかの形態によれば、検索サーバ装置側において通信ネットワーク上からコンテンツが取得され、コンテンツの格納先情報に関連付けて保持された抽出ルールに基づいて、コンテンツの本文が抽出される。抽出されたコンテンツの本文は、コンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録されている。検索サーバ装置は、コンテンツを検索するための検索要求を検索クライアント装置から受信すると、当該検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、当該検索インデックスに対応する情報を検索クライアント装置へ返却する。この際、検索サーバ装置は、コンテンツに関する情報に基づいて、特定の検索インデックスに対応するコンテンツの格納先情報と、該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたコンテンツの本文のいずれかを、検索クライアント装置へ返却する情報とすることができる。検索クライアント装置側では、検索要求を検索サーバ装置に送信し、その検索結果としてコンテンツの格納先情報と特定の抽出ルールとの組み合わせ又はコンテンツの本文を受信することにより、当該コンテンツの格納先情報を用いて通信ネットワーク上からコンテンツを取得でき、取得した当該コンテンツについて検索サーバ装置から受信した特定の抽出ルールにより本文を抽出することができる。よって、例えば検索サーバ装置から受信したコンテンツの本文が最新でない場合などには、必要に応じて検索クライアント装置側で最新のコンテンツの本文を取得して表示することができる。また、例えば検索サーバ装置から受信したコンテンツの本文が最新である場合には、検索クライアント装置側で改めてコンテンツの本文を取得するまでもなく、当該受信したコンテンツの本文を表示することができる。以上より、検索結果として、最新のコンテンツの本文を表示することが可能となる。 According to any one of the above aspects of the present invention, content is acquired from the communication network on the search server device side, and the content body is extracted based on the extraction rule held in association with the storage location information of the content. . The body of the extracted content is registered in the search index in association with information about the content including the content storage location information. When the search server device receives a search request for searching for content from the search client device, the search server device extracts a specific search index from the search index based on the search request and searches for information corresponding to the search index. Return to client device. At this time, the search server device, based on the information about the content, combines the storage location information of the content corresponding to the specific search index and the specific extraction rule corresponding to the storage location information of the content, or the specific Any of the texts of the contents registered in the search index can be used as information to be returned to the search client device. The search client device transmits a search request to the search server device and receives the combination of content storage location information and a specific extraction rule or the content text as the search result, thereby storing the content storage location information. The content can be acquired from the communication network, and the text can be extracted from the acquired content according to the specific extraction rule received from the search server device. Therefore, for example, when the content text received from the search server device is not the latest, the latest content text can be acquired and displayed on the search client device side as necessary. For example, when the text of the content received from the search server device is the latest, it is possible to display the text of the received content without acquiring the content text again on the search client device side. As described above, the latest content text can be displayed as a search result.
また、コンテンツに関する情報は、コンテンツの本文が検索インデックスに登録された日時に関する登録日時情報を含み、検索手段は、登録日時情報に基づき、特定の検索インデックスに登録されたコンテンツの本文の当該登録の日時が所定の日時に対して新しいか否かを判定し、登録の日時が所定の日時よりも新しくない場合には、特定の検索インデックスに対応するコンテンツの格納先情報と、抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせを検索クライアント装置に返却し、登録の日時が所定の日時よりも新しい場合には、特定の検索インデックスに登録されたコンテンツの本文を検索クライアント装置に返却することが好ましい。この構成によれば、コンテンツの本文の登録の日時が所定の日時より新しくない場合には、検索サーバ装置側から検索クライアント装置側に、検索結果として該当するコンテンツの格納先情報と抽出ルールとの組み合わせが返却されることになる。よって、検索クライアント装置側においては、検索サーバ装置側から受信したコンテンツの格納先情報と特定の抽出ルールとを用いることにより、通信ネットワーク上から最新のコンテンツの本文を抽出して表示することができる。また、登録の日時が所定の日時より新しい場合には、検索サーバ装置側から検索クライアント装置側に、検索結果として該当するコンテンツの本文が返却されることになる。よって、検索クライアント装置側においては、抽出した日時が所定の日時より新しいコンテンツの本文を表示することができる。以上より、検索結果として、最新のコンテンツの本文を表示することが可能となる。 Further, the information on the content includes registration date / time information on the date / time when the text of the content is registered in the search index, and the search unit is configured to perform registration of the text of the content registered in the specific search index based on the registration date / time information. It is determined whether or not the date / time is newer than the predetermined date / time, and if the registration date / time is not newer than the predetermined date / time, the storage location information of the content corresponding to the specific search index and the extraction rule holding means If the combination with the specific extraction rule corresponding to the storage location information of the content to be extracted is returned to the search client device and the registration date is newer than the predetermined date, the content registered in the specific search index Is preferably returned to the search client device. According to this configuration, when the date and time of registration of the text of the content is not newer than the predetermined date and time, the search server device side sends to the search client device side the relevant content storage location information and the extraction rule. The combination will be returned. Therefore, on the search client device side, the latest content text can be extracted and displayed from the communication network by using the content storage location information received from the search server device side and the specific extraction rule. . When the registration date is newer than the predetermined date, the text of the corresponding content is returned as a search result from the search server device side to the search client device side. Therefore, on the search client device side, it is possible to display the content text whose extracted date is newer than the predetermined date. As described above, the latest content text can be displayed as a search result.
また、検索手段は、特定の検索インデックスに対応するコンテンツの格納先情報が特定のコンテンツの格納先情報であるか否かを判定し、該コンテンツの格納先情報が特定のコンテンツの格納先情報である場合には、特定のコンテンツの格納先情報と、抽出ルール保持手段から抽出される該特定のコンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせを検索クライアント装置に返却し、コンテンツの格納先情報が特定のコンテンツの格納先情報でない場合には、特定の検索インデックスに登録されたコンテンツの本文を検索クライアント装置に返却することが好ましい。この構成によれば、例えばコンテンツの格納先情報が、コンテンツの内容が頻繁に更新されているような特定のコンテンツの格納先情報である場合に、検索クライアント装置側において、通信ネットワーク上から最新のコンテンツの本文を抽出して表示することができる。 Further, the search means determines whether the storage location information of the content corresponding to the specific search index is the storage location information of the specific content, and the storage location information of the content is the storage location information of the specific content. In some cases, the combination of the specific content storage location information and the specific extraction rule corresponding to the specific content storage location information extracted from the extraction rule holding means is returned to the search client device, and the content When the storage location information is not the storage location information of the specific content, it is preferable to return the text of the content registered in the specific search index to the search client device. According to this configuration, for example, when the content storage location information is specific content storage location information in which the content is frequently updated, the search client device side can update the latest information from the communication network. The content text can be extracted and displayed.
また、検索手段は、特定の抽出ルールをリンク情報で返却し、情報取得手段は、検索手段により返却されるリンク情報を用いて通信ネットワーク上からリンク情報に対応する抽出ルールを取得し、取得された抽出ルールをキャッシュすることが好ましい。この構成によれば、検索クライアント装置側において、検索サーバ装置側から受信したリンク情報に基づいて、当該リンク情報に対応する抽出ルールを保持して利用することができる。これにより、抽出ルールを検索サーバ装置側から受信しなくても、検索クライアント装置側にキャッシュされた抽出ルールを用いて最新のコンテンツを取得できる。その結果、コンテンツの検索処理を効率化できる。 The search means returns a specific extraction rule as link information, and the information acquisition means acquires and acquires the extraction rule corresponding to the link information from the communication network using the link information returned by the search means. It is preferable to cache the extracted rules. According to this configuration, on the search client device side, based on the link information received from the search server device side, the extraction rule corresponding to the link information can be held and used. Accordingly, the latest content can be acquired using the extraction rule cached on the search client device side without receiving the extraction rule from the search server device side. As a result, the content search process can be made more efficient.
また、情報取得手段は、特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しいか否かを判定し、特定の抽出ルールがキャッシュされた日時が所定の基準に照らして新しくない場合に、検索手段により返却されるリンク情報を用いて通信ネットワーク上からリンク情報に対応する抽出ルールを取得し、取得された抽出ルールを再度キャッシュすることが好ましい。この構成によれば、検索サーバ装置側から返却される特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しくない場合に、検索クライアント装置側において、検索サーバ装置側から受信するリンク情報を用いて通信ネットワーク上からリンク情報に対応する抽出ルールを取得し、検索クライアント装置内にキャッシュされた抽出ルールを更新することができる。これにより、検索クライアント装置において、最新の抽出ルールを用いてコンテンツを取得することができる。その結果、適切にコンテンツを抽出できる。 Further, the information acquisition means determines whether the date and time when the specific extraction rule was cached last time is new according to a predetermined standard, and the date and time when the specific extraction rule is cached is not new according to the predetermined standard. In this case, it is preferable to acquire the extraction rule corresponding to the link information from the communication network using the link information returned by the search means, and cache the acquired extraction rule again. According to this configuration, the link received from the search server device side on the search client device side when the date and time when the specific extraction rule returned from the search server device side was cached last time is not new according to a predetermined standard The extraction rule corresponding to the link information can be acquired from the communication network using the information, and the extraction rule cached in the search client device can be updated. Thereby, in a search client apparatus, a content can be acquired using the newest extraction rule. As a result, content can be extracted appropriately.
また、情報取得手段は、特定の検索インデックスに対応するコンテンツの格納先情報が特定のコンテンツの格納先情報であるか否かを判定し、コンテンツの格納先情報が特定のコンテンツの格納先情報である場合には、検索手段により返却されるリンク情報を用いて通信ネットワーク上からリンク情報に対応する抽出ルールを取得し、取得された抽出ルールを再度キャッシュすることが好ましい。この構成によれば、特定の検索インデックスにより示されるコンテンツの格納先情報が特定のコンテンツの格納先情報である場合に、検索クライアント装置側において、検索クライアント装置内にキャッシュされた抽出ルールを更新することができる。これにより、例えばコンテンツの格納先情報が、コンテンツの内容が頻繁に更新されているような特定のコンテンツの格納先情報である場合に、検索クライアント装置側において、通信ネットワーク上から取得した最新の抽出ルールを用いてコンテンツの項目を抽出して表示することができる。その結果、コンテンツの内容の更新に合わせて適切にコンテンツを抽出できる。 Further, the information acquisition means determines whether or not the content storage location information corresponding to the specific search index is the specific content storage location information, and the content storage location information is the specific content storage location information. In some cases, it is preferable to acquire the extraction rule corresponding to the link information from the communication network using the link information returned by the search means, and cache the acquired extraction rule again. According to this configuration, when the content storage location information indicated by the specific search index is the specific content storage location information, the search client device updates the extraction rule cached in the search client device. be able to. Thus, for example, when the storage location information of content is storage location information of a specific content in which the content content is frequently updated, the latest extraction acquired from the communication network on the search client device side Content items can be extracted and displayed using rules. As a result, the content can be appropriately extracted in accordance with the update of the content.
本発明によれば、検索結果として最新のコンテンツの本文を表示することが可能なコンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラムを提供することができる。 According to the present invention, it is possible to provide a content search system, a content search method, and a content search program that can display the text of the latest content as a search result.
以下、添付図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
まず、本発明の一実施形態に係るコンテンツ検索システムの機能的構成について、図1を参照して説明する。図1は、一実施形態に係るWebコンテンツ検索システムの機能的構成を示すブロック図である。図1に示すように、Webコンテンツ検索システム1は、検索サーバ装置10及び検索クライアント装置20で構成されている。検索サーバ装置10と検索クライアント装置20とは、通信ネットワーク30で互いに接続されている。通信ネットワーク30内には、複数のWebコンテンツを保持するサーバが含まれる。
First, a functional configuration of a content search system according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram showing a functional configuration of a Web content search system according to an embodiment. As shown in FIG. 1, the Web
検索サーバ装置10は、機能的構成要素として、情報収集部11と、抽出ルール保持部12と、テキスト抽出部13と、検索インデックス登録部14と、検索部15と、を有している。検索クライアント装置20は、機能的構成要素として、情報取得部21と、最新テキスト抽出部22と、表示部23と、を有している。以下、各構成について詳細に説明する。
The
情報収集部11は、通信ネットワーク30上からWebコンテンツを取得する情報収集手段である。情報収集部11は、例えばインターネットやイントラネット等の通信ネットワーク30上で提供又は配信されている文書データ、マルチメディアデータ等を含むWebコンテンツをWebサイトとして機能するサーバから随時取得する。
The
抽出ルール保持部12は、情報収集部11によって取得されたWebコンテンツの本文を抽出するための抽出ルールを、Webコンテンツの格納先情報に関連付けて保持する抽出ルール保持手段である。Webコンテンツの本文とは、本来的にそのWebサイトが提供又は配信したい情報が含まれる部分であり、例えば広告部分やメニュー部分等の不要な部分を排除した部分である。また、本発明におけるWebコンテンツの本文には、本文そのものだけでなく、タイトルや画像URLなども含まれる。Webコンテンツの本文を抽出するための抽出ルールには、従来から知られているものが適用可能であり、例えば特許文献1(特開2004−220251号公報)に記載された抽出ルールを用いることができる。Webコンテンツの格納先情報とは、例えばWebコンテンツの格納先を示すURL(Unifоrm Resоurce Lоcatоr)である。抽出ルールは、URLに関連付けて保持される。また、抽出ルール保持部12は、抽出ルールをリンク情報として保持してもよい。抽出ルール保持部12は、例えば、WebコンテンツのURL、抽出ルール、及び抽出ルールを更新した日時を示す更新日時情報を互いに関連付けたデータベースとして有している。
The extraction
テキスト抽出部13は、抽出ルール保持部12によって保持される抽出ルールに基づいて、情報収集部11により取得されたWebコンテンツの本文を抽出するテキスト抽出手段である。テキスト抽出部13は、抽出ルールを抽出ルール保持部12から読み込み、Webコンテンツに対して当該抽出ルールを適用することにより、Webコンテンツの本文を抽出する。
The
検索インデックス登録部14は、テキスト抽出部13により抽出されたWebコンテンツの本文を、Webコンテンツの格納先情報を含むコンテンツに関する情報と関連付けて検索インデックスに登録する登録手段である。Webコンテンツの格納先情報を含むコンテンツに関する情報とは、例えばWebコンテンツのURL、及び、Webコンテンツの本文が検索インデックスに登録された日時である登録日時情報などが挙げられる。検索インデックス登録部14は、例えば、検索用インデックス、WebコンテンツのURL、検索用インデックスの基となるWebコンテンツの本文、及び登録日時情報を互いに関連付けたデータベースとして有している。
The search
検索部15は、検索クライアント装置20からの検索要求に基づいて検索結果を返却する検索手段である。検索部15は、Webコンテンツを検索するための検索要求を検索クライアント装置20から受信すると、その検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出する。そして、検索部15は、特定の検索インデックスに関連付けられたWebコンテンツのURLと、当該URLを用いて決定される特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたWebコンテンツの本文のいずれかを、Webコンテンツに関する情報に基づいて選択して検索クライアント装置20に返却する。検索クライアント装置20に返却する特定の抽出ルールは、抽出ルール保持部12に保持される抽出ルールの中から、特定の検索インデックスに関連付けられたWebコンテンツのURLに基づき抽出される。
The
詳細には、検索部15は、抽出した特定の検索インデックスに対応するWebコンテンツに関する情報をリスト化し、検索結果リストを作成する。例えば、検索部15は、検索結果として、該当するWebコンテンツの検索インデックス及びこれに紐付けられるWebコンテンツに関する情報をリスト化する。検索結果リストに含まれるWebコンテンツに関する情報の項目には、例えば、WebコンテンツのURL、Webコンテンツの本文が登録された日時(登録日時情報)、Webコンテンツの抽出ルール、及びタイトルと本文と画像URLとを含むWebコンテンツの本文が挙げられる。当該項目のうち、WebコンテンツのURLとWebコンテンツの登録日時情報は、検索インデックス登録部14によりWebコンテンツの本文が検索インデックスに登録される際の当該WebコンテンツのURLと登録日時であり、検索インデックスに関連付けられて検索結果リストに設定される。その他の項目は、Webコンテンツに関する情報に基づいて、必要に応じて選択的に設定される。具体的には、上述のWebコンテンツの登録日時情報やURLを条件として、Webコンテンツの抽出ルール又はWebコンテンツの本文のいずれかが選択されて検索結果リストに設定される。
Specifically, the
検索部15は、上記のようにして設定した検索結果リストを参照して、検索クライアント装置20側に情報を抽出して返却する。例えば、検索部15は、Webコンテンツの登録日時情報に基づき、特定の検索インデックスに登録されたWebコンテンツの本文が検索インデックス登録部14により検索インデックスに登録された日時が所定の日時に対して新しいか否かを判定する。所定の日時に対して新しいか否かは、例えば現在日時から一日以内か否かなどとして定める。検索部15は、Webコンテンツの本文が検索インデックスに登録された日時が所定の日時よりも新しくないと判定した場合には、特定の検索インデックスに対応するWebコンテンツのURLと、当該URLに紐付けられて抽出ルール保持部12に保持される抽出ルールとの組み合わせを検索クライアント装置20に返却する。一方、Webコンテンツの本文が検索インデックスに登録された日時が登録された日時が所定の日時よりも新しいと判定した場合には、特定の検索インデックスに登録されたWebコンテンツの本文を検索クライアント装置20に返却する。
The
また、検索部15は、特定の検索インデックスに対応するWebコンテンツのURLが事前に指定された特定のURLであるか否かを判定する。検索部15は、特定の検索インデックスに対応するWebコンテンツのURLが特定のURLである場合には、当該URLと、当該URLに紐付けられて抽出ルール保持部12に保持される抽出ルールとの組み合わせを検索クライアント装置20に返却する。一方、WebコンテンツのURLが特定のURLでない場合には、特定の検索インデックスに登録されたWebコンテンツの本文を検索クライアント装置20に返却する。
Further, the
また、検索部15は、特定の検索インデックスに対応するWebコンテンツの本文を抽出するための抽出ルールが所定の抽出ルールよりも単純か否かを判定する。検索部15は、特定の検索インデックスにより示されるWebコンテンツの本文を抽出するための抽出ルールが所定の抽出ルールと比べて単純である場合には、特定の検索インデックスに対応するWebコンテンツのURLと、当該URLに紐付けられて抽出ルール保持部12に保持される抽出ルールとの組み合わせを検索クライアント装置20に返却する。一方、特定の検索インデックスに対応するWebコンテンツの本文を抽出するための抽出ルールが所定の抽出ルールと比べて複雑である場合には、特定の検索インデックスに登録されたWebコンテンツの本文を検索クライアント装置20に返却する。
Further, the
また、検索部15は、Webコンテンツに関する情報に、抽出ルール保持部12のデータベースから取得した抽出ルールのリンク情報を含めて検索結果リストを作成し、当該検索結果リストを検索クライアント装置20へ送信する。抽出ルールのリンク情報とは、抽出ルールの格納先を示すものであり、当該格納先を示すURLなどが挙げられる。
Further, the
検索クライアント装置20の情報取得部21は、検索要求を検索部15に送信し、その検索結果として検索部15より返却されるWebコンテンツに関するURLと特定の抽出ルールとの組み合わせ又はWebコンテンツの本文を受信し、受信したURLを用いて通信ネットワーク30上からWebコンテンツを取得する情報取得手段である。
The
また、情報取得部21は、検索サーバ装置10から返却される抽出ルールのリンク情報を用いて、通信ネットワーク30上からリンク情報に対応する抽出ルールを取得する。この場合、情報取得部21は、取得した抽出ルールを検索クライアント装置20内でキャッシュ(一時記憶)する。また、情報取得部21は、キャッシュした際の日時をキャッシュ対象の抽出ルールに対応づけて合わせてキャッシュする。
Further, the
また、情報取得部21は、検索インデックスに対応する特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しいか否かを判定する。抽出ルールが前回キャッシュされた日時は、情報取得部21により検索クライアント装置20内で抽出ルールがキャッシュされた直近の日時であり、検索クライアント装置20内のキャッシュデータが読み出されて特定される。所定の基準は、例えば、検索サーバ装置10側において抽出ルールが取得(更新)されたルール取得日時である。すなわち、所定の基準であるルール取得日時は、抽出ルール保持部12のデータベースで保持される更新日時情報に相当する。このルール取得日時に関する情報は、検索部15により検索結果リストに設定され、情報取得部21により検索結果に含めて取得される。所定の基準に照らして新しいか否かは、例えば抽出ルールが前回キャッシュされた日時が、検索結果リストに設定されているルール取得日時に対して新しいかで判定される。情報取得部21は、特定の抽出ルールが前回キャッシュされた日時が検索結果リストに設定されているルール取得日時よりも新しくないと判定した場合に、検索部15から返却された抽出ルールのリンク情報を用いて、通信ネットワーク30上から当該リンク情報に対応する抽出ルールを取得する。そして、取得された抽出ルールを再度キャッシュすることにより、抽出ルールを更新する。
Further, the
また、情報取得部21は、検索結果リストに含んで検索サーバ装置10から返却されたWebコンテンツのURLが事前に指定された特定のURLであるか否かを判定する。情報取得部21は、検索サーバ装置10から返却されたWebコンテンツのURLが特定のURLであると判定した場合には、検索部15により返却される抽出ルールのリンク情報を用いて、通信ネットワーク30上から当該リンク情報に対応する抽出ルールを取得する。そして、取得された抽出ルールを再度キャッシュすることにより、抽出ルールを更新する。
The
最新テキスト抽出部22は、情報取得部21によりWebコンテンツが取得された後に、検索サーバ装置10から受信した特定の抽出ルールによりWebコンテンツの本文を抽出する最新テキスト抽出手段である。
The latest
また、最新テキスト抽出部22は、情報取得部21によりWebコンテンツが取得された後に、検索クライアント装置20内に当該Webコンテンツに対応づけてキャッシュされている抽出ルールを用いてWebコンテンツの本文を抽出する。
Further, after the Web content is acquired by the
表示部23は、情報取得部21により受信されたWebコンテンツの本文又は最新テキスト抽出部22により抽出されたWebコンテンツの本文を表示する表示手段である。すなわち、表示部23は、検索サーバ装置10側から返却された内容に応じて表示内容を選択する。
The display unit 23 is a display unit that displays the text of the Web content received by the
図2は、図1に示す検索サーバ装置10及び検索クライアント装置20のハードウェア構成を示す図である。図2に示すように、検索サーバ装置10は、物理的には、CPU101、ROM102、RAM103、入力デバイス104、出力デバイス105、データ送受信デバイスである通信モジュール106、補助記憶装置107などを備える。検索サーバ装置10の各機能は、CPU101、RAM103等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU101の制御のもとで、通信モジュール106、入力デバイス104及び出力デバイス105を動作させるとともにRAM103におけるデータの読み出し及び書き込みを行うことで実現される。同様にして、検索クライアント装置20は、物理的には、CPU201、ROM202、RAM203、入力デバイス204、出力デバイス205、データ送受信デバイスである通信モジュール206、補助記憶装置207などを備える。検索クライアント装置20の各機能は、CPU201、RAM203等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU201の制御のもとで、通信モジュール206、入力デバイス204及び出力デバイス205を動作させるとともにRAM203におけるデータの読み出し及び書き込みを行うことで実現される。
FIG. 2 is a diagram showing a hardware configuration of the
次に、図3に示すシーケンス図を用いて、Webコンテンツ検索システム1による基本的なWebコンテンツ検索方法を説明する。
Next, a basic Web content search method by the Web
図3は、図1に示すWebコンテンツ検索システム1による基本的な検索処理の動作を示すシーケンス図である。まず、検索サーバ装置10は、随時Webコンテンツを取得している(情報収集ステップ:S1)。その一方で、検索サーバ装置10は、Webコンテンツの本文を抽出するための抽出ルールを、WebコンテンツのURLに関連付けて予め保持及び更新している(抽出ルール保持ステップ:S2)。また、検索サーバ装置10は、情報収集ステップにおいてWebコンテンツを取得する度に、当該Webコンテンツの本文を、抽出ルール保持ステップに保持される抽出ルールに基づいて抽出する(テキスト抽出ステップ:S3)と共に、当該Webコンテンツの本文を、WebコンテンツのURLを含むWebコンテンツに関する情報に関連付けて検索インデックスに登録している(登録ステップ:S4)。
FIG. 3 is a sequence diagram showing the basic search processing operation by the Web
一方、検索クライアント装置20は、ユーザからの検索要求(S5)を受けると、その要求を検索サーバ装置10に送信する(情報取得ステップ:S6)。検索要求は、キーワードなどの検索用の情報を含む。検索サーバ装置10は、検索要求に応じてWebコンテンツを検索し、特定の検索インデックスを抽出する(S7)。そして、特定の検索インデックスに対応するWebコンテンツに関する情報に基づいて、検索応答として該当するWebコンテンツのURLとそれに紐付くテキスト抽出ルールの組合せ、又は、検索応答として該当するWebコンテンツの本文を、検索クライアント装置20に返却する(検索ステップ:S8)。
On the other hand, when receiving the search request (S5) from the user, the
検索サーバ装置10は、検索クライアント装置20に検索応答を返却する際には、例えば、Webコンテンツの登録日時情報、WebコンテンツのURL、及び、Webコンテンツの抽出ルールなどの情報に基づき応答する情報を選択する。この際のWebコンテンツに関する情報に基づく検索サーバ装置10のより具体的な検索応答の処理手順については、後述する。
When the
検索クライアント装置20は、検索サーバ装置10からの検索応答を受信すると、検索応答に含まれるURLに対応するWebコンテンツを、通信ネットワーク30上に複数存在するWebサーバ40から取得する(情報取得ステップ:S9)。続いて、検索クライアント装置20は、取得したWebコンテンツから、検索応答に含まれるテキスト抽出ルールを用いて本文を抽出する(最新テキスト抽出ステップ:S10)。そして、検索クライアント装置20は、当該抽出された本文、又は、検索応答に含まれるWebコンテンツの本文を検索結果として表示する(表示ステップ:S11)。
When receiving the search response from the
次に、図4〜図8に示すフローチャート及び検索結果リストを参照して、Webコンテンツに関する情報に基づく検索サーバ装置10の具体的な検索応答の処理手順について説明する。まず、Webコンテンツの本文が登録された登録日時情報に基づいて、検索サーバ装置10が行う検索応答について説明する。図4は図1に示す検索サーバ装置10がWebコンテンツの本文の検索インデックス登録日時情報に基づき検索応答を行う処理手順を説明するフローチャート、図5は図4に示す処理手順において検索サーバ装置10が作成する検索リストを示す図である。
Next, a specific search response processing procedure of the
図4に示すように、検索サーバ装置10の検索部15は、検索クライアント装置20から検索要求を受けると、該当するWebコンテンツを検索して、図5に示す検索結果リスト16に挙げられるような各項目をリスト化する(S12)。リスト化される各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト16の各項目には、検索インデックスに対応するID、WebコンテンツのURL、Webコンテンツの登録日時情報、抽出ルール、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが含まれている。検索結果リスト16の各項目のうち、WebコンテンツのURL及びWebコンテンツの登録日時情報は、検索インデックス登録部14によりWebコンテンツの本文が検索インデックスに登録される際に、検索インデックスに関連付けられて設定されている。例えば、検索結果リスト16のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”と、Webコンテンツの登録日時情報として”2013−05−02 T11:11:11+0900”とが対応づけて設定されている。
As shown in FIG. 4, when the
続いて、検索部15は、検索結果リスト16に含まれるWebコンテンツの登録日時情報を確認し、例えば現在日時(2013年5月10日)に対して新しいか否かを判定する(S13)。検索部15は、Webコンテンツの本文が登録された日時が現在日時に対して一日以内で新しいと判定した場合には(S13;Yes)、検索インデックス登録部14により検索インデックスに登録されたWebコンテンツの本文を、検索結果リスト16に設定する(S14)。一方、Webコンテンツの本文が登録された日時が現在日時より一日以上前で新しくないと判定した場合には(S13:Nо)、抽出ルール保持部12に保持されている抽出ルールを、検索結果リスト16に設定する(S15)。例えば、検索結果リスト16のIDが”2”及び”3”の欄においては、Webコンテンツの本文が登録された日時が現在日時に対して新しいと判定された結果、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが設定されている。一方、検索結果リスト16のIDが”1”及び”4”の欄においては、Webコンテンツの本文が登録された日時が現在日時に対して新しくないと判定された結果、抽出ルールが設定されている。
Subsequently, the
続いて、検索部15は、検索結果リスト16に未処理のWebコンテンツが含まれているかどうかを判定する(S16)。未処理のWebコンテンツが含まれていると判定された場合(S16;Yes)には、再び、未処理のWebコンテンツの本文が登録された日時を確認し、現在日時に対して新しいか否かを判定する(S13)。検索結果リスト16に未処理のWebコンテンツが含まれていないと判定された場合(S16;No)には、検索結果リスト16を検索クライアント装置20に送信する(S17)。
Subsequently, the
検索クライアント装置20においては、情報取得部21が検索結果リスト16を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されている場合には、そのまま設定されている本文を読み込む。この場合、表示部23は、情報取得部21により読み込まれた検索結果リスト16の本文を表示する。一方、検索結果リスト16を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されておらず、抽出ルールの項目が設定されている場合には、情報取得部21は、検索結果リスト16に含まれるURLと抽出ルールとの組み合わせを読み込む。情報取得部21は、当該URLにより通信ネットワーク30から対応するWebコンテンツを取得する。最新テキスト抽出部22は、情報取得部21で取得されたWebコンテンツに、情報取得部21で読み込まれた抽出ルールを適用することにより、最新のWebコンテンツの本文を抽出する。この場合、表示部23は、最新テキスト抽出部22により抽出された最新のWebコンテンツの本文を表示する。
In the
次に、WebコンテンツのURLに基づいて、検索サーバ装置10が行う検索応答について説明する。図6は図1に示す検索サーバ装置10がWebコンテンツのURLに基づき検索応答を行う処理手順を説明するフローチャート、図7は図6に示す処理手順において検索サーバ装置10が作成する検索リストを示す図である。
Next, a search response performed by the
図6に示すように、検索サーバ装置10の検索部15は、検索クライアント装置20から検索要求を受けると、該当するWebコンテンツを検索して、図7に示す検索結果リスト17に挙げられるような各項目をリスト化する(S22)。リスト化される各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト17の各項目には、検索インデックスに対応するID、WebコンテンツのURL、抽出ルール、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが含まれている。例えば、検索結果リスト17のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”が対応づけて設定されている。
As shown in FIG. 6, when the
続いて、検索部15は、検索結果リスト17に含まれるWebコンテンツのURLを確認し、事前に指定される特定のURLかどうかを判定する(S23)。検索部15は、検索結果リスト17に含まれるWebコンテンツのURLが、事前に指定される特定のURLでないと判定した場合(S23;No)には、検索インデックス登録部14により検索インデックスに登録されたWebコンテンツの本文を、検索結果リスト17に設定する(S24。一方、検索結果リスト17に含まれるWebコンテンツのURLが、事前に指定される特定のURLであると判定した場合(S23;Yes)には、抽出ルール保持部12に保持されている抽出ルールを、検索結果リスト17に設定する(S25)。例えば、検索結果リスト17のIDが”2”及び”3”の欄においては、WebコンテンツのURLが特定のURLでないと判定された結果、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが設定されている。一方、検索結果リスト17のIDが”1”及び”4”の欄においては、WebコンテンツのURLが特定のURLであると判定された結果、抽出ルールが設定されている。
Subsequently, the
続いて、検索部15は、検索結果リスト17に未処理のWebコンテンツが含まれているかどうかを判定する(S26)。未処理のWebコンテンツが含まれていると判定された場合(S26;Yes)には、再び、未処理のWebコンテンツのURLを確認し、事前に指定される特定のURLか否かを判定する(S23)。検索結果リスト17に未処理のWebコンテンツが含まれていないと判定された場合(S26;No)には、検索結果リスト17を検索クライアント装置20に送信する(S27)。
Subsequently, the
検索クライアント装置20では、情報取得部21が検索結果リスト17を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されている場合には、そのまま設定されている本文を読み込む。この場合、表示部23は、情報取得部21により読み込まれた検索結果リスト17の本文を表示する。一方、検索結果リスト17を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されておらず、抽出ルールの項目が設定されている場合には、情報取得部21は、検索結果リスト17に含まれるURLと抽出ルールとの組み合わせを読み込む。情報取得部21は、当該URLにより通信ネットワーク30から対応するWebコンテンツを取得する。最新テキスト抽出部22は、情報取得部21で取得されたWebコンテンツに、情報取得部21で読み込まれた抽出ルールを適用することにより、最新のWebコンテンツの本文を抽出する。この場合、表示部23は、最新テキスト抽出部22により抽出された最新のWebコンテンツの本文を表示する。
In the
次に、抽出ルールの複雑さに基づいて、検索サーバ装置10が行う検索応答について説明する。図8は図1に示す検索サーバ装置10が抽出ルールの複雑さに基づき検索応答を行う処理手順を説明するフローチャート、図9は図8に示す処理手順において検索サーバ装置10が作成する検索リストを示す図である。
Next, a search response performed by the
図8に示すように、検索サーバ装置10の検索部15は、検索クライアント装置20から検索要求を受けると、該当するWebコンテンツを検索して、図9に示す検索結果リスト18に挙げられるような各項目をリスト化する(S32)。リスト化される各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト18の各項目には、検索インデックスに対応するID、WebコンテンツのURL、抽出ルール、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが含まれている。例えば、検索結果リスト17のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”が対応づけて設定されている。
As shown in FIG. 8, when the
続いて、検索部15は、検索結果リスト18に含まれるWebコンテンツの本文の抽出ルールを確認し、当該抽出ルールが所定の閾値よりも単純か否かを判定する(S33)。Webコンテンツの本文の抽出ルールの確認時には、検索結果リスト18に含まれるURLを用いて、当該URLに紐付けられて抽出ルール保持部12で保持される抽出ルールを参照する。抽出ルールが所定の閾値よりも単純か否かの判定は、例えば、抽出ルールを実行する際の処理規模等を数値化し、所定の閾値と比較することにより行う。抽出ルールを実行する際の処理規模を決定する数値の具体例としては、抽出対象となるWebコンテンツのサイズや抽出ルールのライン数(プログラム規模)等が挙げられる。当該数値が所定の閾値よりも大きい場合には抽出ルールは所定の閾値よりも複雑であり、当該数値が所定の閾値よりも小さい場合には抽出ルールは所定の閾値よりも単純である。検索部15は、Webコンテンツの本文の抽出ルールが所定の閾値よりも単純でなく、複雑であると判定した場合(S33;No)には、検索インデックス登録部14により検索インデックスに登録されたWebコンテンツの本文を、検索結果リスト18に設定する(S34)。一方、Webコンテンツの本文の抽出ルールが所定の閾値よりも単純であると判定した場合(S33;Yes)には、抽出ルール保持部12に保持されている抽出ルールを、検索結果リスト18に設定する(S35)。例えば、検索結果リスト18のIDが”2”及び”3”の欄においては、Webコンテンツの本文の抽出ルールが閾値よりも複雑であると判定された結果、Webコンテンツのタイトル、Webコンテンツの本文、及びWebコンテンツの画像URLが設定されている。一方、検索結果リスト18のIDが”1”及び”4”の欄においては、Webコンテンツの本文の抽出ルールが閾値よりも単純であると判定された結果、抽出ルールが設定されている。
Subsequently, the
続いて、検索部15は、検索結果リスト18に未処理のWebコンテンツが含まれているかどうかを判定する(S36)。未処理のWebコンテンツが含まれていると判定された場合(S36;Yes)には、再び、未処理のWebコンテンツの本文の抽出ルールを確認し、所定の閾値よりも複雑であるか否かを判定する(S33)。検索結果リスト18に未処理のWebコンテンツが含まれていないと判定された場合(S36;No)には、検索結果リスト18を検索クライアント装置20に送信する(S37)。
Subsequently, the
検索クライアント装置20では、情報取得部21が検索結果リスト18を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されている場合には、そのまま設定されている本文を読み込む。この場合、表示部23は、情報取得部21により読み込まれた検索結果リスト18の本文を表示する。一方、検索結果リスト18を参照し、特定の検索インデックスに対応するIDについて本文の項目が設定されておらず、抽出ルールの項目が設定されている場合には、情報取得部21は、検索結果リスト18に含まれるURLと抽出ルールとの組み合わせを読み込む。情報取得部21は、当該URLにより通信ネットワーク30から対応するWebコンテンツを取得する。最新テキスト抽出部22は、情報取得部21で取得されたWebコンテンツに、情報取得部21で読み込まれた抽出ルールを適用することにより、最新のWebコンテンツの本文を抽出する。この場合、表示部23は、最新テキスト抽出部22により抽出された最新のWebコンテンツの本文を表示する。
In the
次に、図10に示すシーケンス図を用いて、検索クライアント装置20側でWebコンテンツの本文の抽出ルールをキャッシュする場合の検索処理の動作を説明する。図10は、図1に示す検索クライアント装置20が抽出ルールをキャッシュする場合の検索処理の動作を示すシーケンス図である。
Next, the operation of search processing when the search rule of the Web content body is cached on the
まず、検索サーバ装置10が行う情報収集ステップ(S1)、抽出ルール保持ステップ(S2)、テキスト抽出ステップ(S3)、登録ステップ(S4)の処理手順は、図3に示す処理手順と同様である。
First, the processing procedure of the information collection step (S1), extraction rule holding step (S2), text extraction step (S3), and registration step (S4) performed by the
図10に示すように、検索クライアント装置20は、ユーザからの検索要求(S5)を受けると、その要求を検索サーバ装置10に送信する(情報取得ステップ:S6)。検索要求は、キーワードなどの検索用の情報を含む。検索サーバ装置10は、検索要求に応じてWebコンテンツを検索し、特定の検索インデックスを抽出する(S7)。そして、特定の検索インデックスに対応するWebコンテンツに関する情報に基づいて、検索応答として該当するWebコンテンツのURL、それに紐付く抽出ルールのURL、及び、抽出ルールの更新日時情報を、検索クライアント装置20に返却する(検索ステップ:S8)。
As shown in FIG. 10, upon receiving a search request (S5) from the user, the
検索クライアント装置20は、検索サーバ装置10からの検索応答を受信すると、検索応答に含まれるWebコンテンツのURLに紐付くWebコンテンツの抽出ルールが検索クライアント装置20内にキャッシュされているか否かを確認し(S18)、なければ検索サーバ装置10から受信した抽出ルールのURLを用いて、対応する抽出ルールを取得する(S19)。
When the
また、検索クライアント装置20は、検索応答に含まれるWebコンテンツの抽出ルールが検索クライアント装置20内にキャッシュされている場合でも、抽出ルールの更新日時情報やWebコンテンツのURLなどを条件として、抽出ルールのURLを用いて対応する抽出ルールを取得して、再度キャッシュする。これにより、検索クライアント装置20内でキャッシュされている抽出ルールを更新する。なお、抽出ルールの更新日時情報やWebコンテンツのURLなどの情報に基づく検索クライアント装置20のより具体的な抽出ルール更新の処理手順については後述する。
In addition, even when the Web content extraction rule included in the search response is cached in the
また、検索クライアント装置20は、検索応答に含まれるWebコンテンツのURLを用いて、Webコンテンツを通信ネットワーク30上に複数存在するWebサーバ40から取得する(情報取得ステップ:S9)。検索クライアント装置20は、WebコンテンツのURLから取得したWebコンテンツから、抽出ルールのURLから取得した抽出ルールを適用することにより、本文を抽出する(最新テキスト抽出ステップ:S10)。そして、検索クライアント装置20は、当該抽出された本文、又は、検索応答に含まれるWebコンテンツの本文を検索結果として表示する(表示ステップ:S11)。
Further, the
次に、図11〜図14に示すフローチャート及び検索結果リストを用いて、検索クライアント装置20が、抽出ルールのキャッシュされた日時情報やWebコンテンツのURLなどの情報に基づき、検索クライアント装置20内にキャッシュされている抽出ルールを更新する場合の処理手順について詳細に説明する。
Next, using the flowcharts and search result lists shown in FIGS. 11 to 14, the
まず、更新日時情報に基づいて、検索クライアント装置20が抽出ルールのキャッシュを更新する場合の処理手順について説明する。図11は図1に示す検索クライアント装置20が抽出ルールのキャッシュされた日時情報に基づき抽出ルールのキャッシュを更新する場合の処理手順を説明するフローチャート、図12は図11に示す処理手順において検索サーバ装置10から受信する検索結果リストを示す図である。
First, a processing procedure when the
図11に示すように、検索クライアント装置20は、検索サーバ装置10に検索要求を行い、図12に示すような検索結果リスト24を受信する(S42)。検索結果リスト24の各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト24の各項目には、検索インデックスに対応するID、WebコンテンツのURL、抽出ルールのリンク情報、及びルール取得日時が含まれている。ここで、上述したように、ルール取得日時とは、抽出ルールが抽出ルール保持部12で取得された日時であり、抽出ルールが更新された日時に相当する。例えば、検索結果リスト17のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”と、抽出ルールのリンク情報として”xxx_cоm.yml”と、ルール取得日時として”2013−05−10 T11:11:11+0900”とが対応づけて設定されている。
As shown in FIG. 11, the
続いて、情報取得部21は、検索結果リスト24に含まれる抽出ルールが検索クライアント装置20内にキャッシュされている場合には、当該検索結果リスト24に含まれる抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しいか否かを判定する(S43)。例えば、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時よりも進んだ日時である場合には、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しいと判定する。また、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時より遅れた日時である場合には、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しくないと判定する。なお、日時が新しいか否かの判定は、厳密な時刻単位での判定に限られるものではなく、例えば日等の期間単位で判定してもよい。情報取得部21は、抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しくないと判定した場合(S43;No)には、検索結果リスト24に含まれる抽出ルールのURLに基づいて、通信ネットワーク30上から改めて抽出ルールを取得し、抽出ルールのキャッシュを更新する(S44)。なお、情報取得部21は、抽出ルールがまだキャッシュされていない場合には、上記判定にかかわらず、抽出ルールを取得してキャッシュする。続いて、情報取得部21は、検索結果リスト24に未処理のWebコンテンツが含まれているかどうかを判定する(S45)。未処理のWebコンテンツが含まれていると判定した場合(S45;Yes)には、再び、未処理のWebコンテンツについて抽出ルールが前回キャッシュされた日時が抽出ルールの取得日時に対して新しいか否かを再び判定する(S43)。情報取得部21は、検索結果リスト24に未処理のWebコンテンツが含まれていないと判定し(S45;No)、検索結果リスト24に含まれる全ての検索結果の処理を終えると、検索結果リスト24に含まれるWebコンテンツのURLを用いてWebコンテンツを取得する(S46)。そして、最新テキスト抽出部22は、検索クライアント装置20内にキャッシュされた抽出ルールを用いて、情報取得部21により取得されたWebコンテンツの本文を抽出する。その後、表示部23は、当該本文を表示する(S46)。
Subsequently, when the extraction rule included in the search result list 24 is cached in the
次に、WebコンテンツのURLに基づいて、検索クライアント装置20が抽出ルールのキャッシュを更新する場合の処理手順について説明する。図13は図1に示す検索クライアント装置がWebコンテンツのURLに基づき抽出ルールのキャッシュを更新する場合の処理手順を説明するフローチャート、図14は図13に示す処理手順において検索サーバ装置から受信する検索結果リストを示す図である。
Next, a processing procedure when the
図13に示すように、検索クライアント装置20は、検索サーバ装置10に検索要求を行い、図14に示すような検索結果リスト25を受信する(S52)。検索結果リスト25の各項目は、特定の検索インデックスに対応するIDに紐付けられるWebコンテンツに関する情報である。例えば、検索結果リスト25の各項目には、検索インデックスに対応するID、WebコンテンツのURL、及び抽出ルールのリンク情報が含まれている。例えば、検索結果リスト17のIDが”1”に対しては、WebコンテンツのURLとして”http://xxx.cоm/xxx.html”と、抽出ルールのリンク情報として”xxx_cоm.yml”とが対応付けて設定されている。
As shown in FIG. 13, the
続いて、情報取得部21は、当該検索結果リスト25に含まれるWebコンテンツのURLが事前に指定された特定のURLであるか否かを判定する(S53)。情報取得部21は、WebコンテンツのURLが特定のURLであると判定した場合(S53;Yes)には、検索結果リスト25に含まれる抽出ルールのURLから抽出ルールを取得し、抽出ルールのキャッシュを更新する(S54)。なお、情報取得部21は、抽出ルールがまだキャッシュされていない場合には、上記判定にかかわらず、抽出ルールを取得してキャッシュする。続いて、情報取得部21は、検索結果リスト25に未処理のWebコンテンツが含まれているかどうかを判定する(S55)。未処理のWebコンテンツが含まれていると判定した場合(S55;Yes)には、再び、未処理のWebコンテンツのURLを確認し、特定のURLであるか否かを判定する(S53)。情報取得部21は、検索結果リスト25に未処理のWebコンテンツが含まれていないと判定し(S55;No)、検索結果リスト25に含まれる全ての検索結果の処理を終えると、検索結果リスト25に含まれるWebコンテンツのURLを用いてWebコンテンツを取得する(S56)。そして、最新コンテンツ抽出部22は、キャッシュに含まれる抽出ルールを用いて、情報取得部21により取得されたWebコンテンツの本文を抽出する。その後、表示部23は、当該本文を表示する(S56)。
Subsequently, the
次に、情報処理装置(コンピュータ)を検索サーバ装置10及び検索クライアント装置20として動作させるWebコンテンツ検索プログラムについて説明する。図2に示すようなハードウェア構成を有する情報処理装置である検索サーバ装置10及び検索クライアント装置20には、それぞれ、Webコンテンツ検索プログラムが、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供される。検索サーバ装置10及び検索クライアント装置20は、ネットワークを介して提供されたWebコンテンツ検索プログラムを、それぞれ、補助記憶装置107,207等のメモリに格納し、当該Webコンテンツ検索プログラムを実行することができる。検索サーバ装置10及び検索クライアント装置20は、メモリに格納されたWebコンテンツ検索プログラムにアクセス可能になり、当該Webコンテンツ検索プログラムによって、本実施形態の検索サーバ装置10及び検索クライアント装置20として動作することが可能になる。
Next, a Web content search program that causes an information processing device (computer) to operate as the
また、本発明の実施形態に係るWebコンテンツ検索プログラムは、記録媒体に格納されて提供されてもよい。記録媒体としては、フロッピー(登録商標)ディスク、CD−ROM、DVD、あるいはROM等の記録媒体、あるいは半導体メモリ等が例示される。この場合、検索サーバ装置10及び検索クライアント装置20には、フロッピー(登録商標)ディスクドライブ装置、CD−ROMドライブ装置、DVDドライブ装置等の読取装置を用いてメモリにWebコンテンツ検索プログラムが格納される。
The Web content search program according to the embodiment of the present invention may be provided by being stored in a recording medium. Examples of the recording medium include a floppy (registered trademark) disk, a CD-ROM, a DVD, a ROM, or a recording medium, or a semiconductor memory. In this case, the
以上説明したWebコンテンツ検索システム1及びこれを用いたWebコンテンツ検索方法によれば、検索サーバ装置10側において通信ネットワーク30上からWebコンテンツが取得され、WebコンテンツのURLに関連付けて保持された抽出ルールに基づいて、Webコンテンツの本文が抽出される。抽出されたWebコンテンツの本文は、WebコンテンツのURLを含むWebコンテンツに関する情報と関連付けて検索インデックスに登録されている。検索サーバ装置10は、Webコンテンツを検索するための検索要求を検索クライアント装置20から受信すると、当該検索要求に基づいて、検索インデックスの中から特定の検索インデックスを抽出し、当該検索インデックスに対応する情報を検索クライアント装置20へ返却する。この際、検索サーバ装置10は、Webコンテンツに関する情報に基づいて、特定の検索インデックスに対応するWebコンテンツのURLと、該URLに対応する特定の抽出ルールとの組み合わせ、又は、特定の検索インデックスに登録されたWebコンテンツの本文のいずれかを、検索クライアント装置20へ返却する情報とすることができる。検索クライアント装置20側では、検索要求を検索サーバ装置10に送信し、その検索結果としてWebコンテンツのURLと特定の抽出ルールとの組み合わせ又はWebコンテンツの本文を受信することにより、当該URLを用いて通信ネットワーク30上からWebコンテンツを取得でき、取得した当該コンテンツについて検索サーバ装置10から受信した特定の抽出ルールにより本文を抽出することができる。よって、例えば検索サーバ装置10から受信したWebコンテンツの本文が最新でない場合などには、必要に応じて検索クライアント装置20側で最新のWebコンテンツの本文を取得して表示することができる。また、例えば検索サーバ装置10から受信したWebコンテンツの本文が最新である場合には、検索クライアント装置20側で改めてWebコンテンツの本文を取得するまでもなく、当該受信したWebコンテンツの本文を表示することができる。以上より、検索結果として、最新のWebコンテンツの本文を表示することが可能となる。
According to the Web
また、Webコンテンツの本文の登録の日時が所定の日時より新しくない場合には、検索サーバ装置10側から検索クライアント装置20側に、検索結果として該当するWebコンテンツのURLと抽出ルールとの組み合わせが返却されることになる。よって、検索クライアント装置20側においては、検索サーバ装置10側から受信したWebコンテンツのURLと特定の抽出ルールとを用いることにより、通信ネットワーク30上から最新のWebコンテンツの本文を抽出して表示することができる。また、登録の日時が所定の日時より新しい場合には、検索サーバ装置10側から検索クライアント装置20側に、検索結果として該当するWebコンテンツの本文が返却されることになる。よって、検索クライアント装置20側においては、抽出した日時が所定の日時より新しいWebコンテンツの本文を表示することができる。以上より、検索結果として、最新のWebコンテンツの本文を表示することが可能となる。
If the date and time of registration of the text of the Web content is not newer than the predetermined date and time, the combination of the URL of the Web content and the extraction rule corresponding to the search result from the
また、例えばWebコンテンツのURLが、Webコンテンツの内容が頻繁に更新されているような特定のURLである場合に、検索クライアント装置20側において、通信ネットワーク30上から最新のWebコンテンツの本文を抽出して表示することができる。
Further, for example, when the URL of the Web content is a specific URL such that the content of the Web content is updated frequently, the
また、検索クライアント装置20側において、検索サーバ装置10側から受信したリンク情報に基づいて、当該リンク情報に対応する抽出ルールを保持して利用することができる。これにより、抽出ルールを検索サーバ装置10側から受信しなくても、検索クライアント装置20側にキャッシュされた抽出ルールを用いて最新のWebコンテンツを取得できる。その結果、Webコンテンツの検索処理を効率化できる。
On the
また、検索サーバ装置10側から返却される特定の抽出ルールが前回キャッシュされた日時が所定の基準に照らして新しくない場合に、検索クライアント装置20側において、検索サーバ装置10側から受信するリンク情報を用いて通信ネットワーク30上からリンク情報に対応する抽出ルールを取得し、検索クライアント装置20内にキャッシュされた抽出ルールを更新することができる。これにより、検索クライアント装置20において、最新の抽出ルールを用いてWebコンテンツを取得することができる。その結果、適切にWebコンテンツを抽出できる。
Further, the link information received from the
また、特定の検索インデックスにより示されるWebコンテンツのURLが特定のURLである場合に、検索クライアント装置20側において、検索クライアント装置20内にキャッシュされた抽出ルールを更新することができる。これにより、例えばWebコンテンツのURLが、該コンテンツの内容が頻繁に更新されているような特定のURLである場合に、検索クライアント装置20側において、通信ネットワーク30上から取得した最新の抽出ルールを用いてWebコンテンツの項目を抽出して表示することができる。その結果、Webコンテンツの内容の更新に合わせて適切にWebコンテンツを抽出できる。
Further, when the URL of the Web content indicated by the specific search index is a specific URL, the extraction rule cached in the
以上、本発明の好適な実施形態について説明してきたが、本発明は必ずしも上述した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で様々な変更が可能である。 The preferred embodiments of the present invention have been described above. However, the present invention is not necessarily limited to the above-described embodiments, and various modifications can be made without departing from the scope of the present invention.
1…Webコンテンツ検索システム、10…検索サーバ装置、11…情報収集部(情報収集手段)、12…抽出ルール保持部(抽出ルール保持手段)、13…テキスト抽出部(テキスト抽出手段)、14…検索インデックス登録部(登録手段)、15…検索部(検索手段)、20…検索クライアント装置、21…情報取得部(情報取得手段)、22…最新テキスト抽出部(最新テキスト抽出手段)、23…表示部(表示手段)、30…通信ネットワーク。
DESCRIPTION OF
Claims (8)
前記検索サーバ装置は、
通信ネットワーク上からコンテンツを取得する情報収集手段と、
前記情報収集手段によって取得された前記コンテンツの本文を抽出するための抽出ルールを、前記コンテンツの格納先情報に関連付けて保持する抽出ルール保持手段と、
前記抽出ルール保持手段によって保持される前記抽出ルールに基づいて、前記情報収集手段により取得された前記コンテンツの本文を抽出するテキスト抽出手段と、
前記テキスト抽出手段により抽出された前記コンテンツの本文を、前記コンテンツの格納先情報を含む前記コンテンツに関する情報と関連付けて検索インデックスに登録する登録手段と、
前記コンテンツを検索するための検索要求を前記検索クライアント装置から受信すると、前記検索要求に基づいて、前記検索インデックスの中から特定の検索インデックスを抽出し、前記特定の検索インデックスに対応する前記コンテンツの格納先情報と、前記抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、前記特定の検索インデックスに登録された前記コンテンツの本文のいずれかを、前記コンテンツに関する情報に基づいて選択して前記クライアント装置に返却する検索手段と、
を有し、
前記検索クライアント装置は、
前記検索要求を前記検索サーバ装置の前記検索手段に送信し、その検索結果として前記検索手段により返却される前記コンテンツの格納先情報と前記特定の抽出ルールとの組み合わせ又は前記コンテンツの本文を受信し、受信した前記コンテンツの格納先情報を用いて前記通信ネットワーク上から前記コンテンツを取得する情報取得手段と、
前記情報取得手段により前記コンテンツが取得された後に、前記検索サーバ装置から受信した前記特定の抽出ルールにより前記コンテンツの本文を抽出する最新テキスト抽出手段と、
前記情報取得手段により受信された前記コンテンツの本文又は前記最新テキスト抽出手段により抽出された前記コンテンツの本文を表示する表示手段と、
を有する、コンテンツ検索システム。 A content search system comprising a search server device and a search client device,
The search server device
Information collecting means for acquiring content from a communication network;
An extraction rule holding means for holding an extraction rule for extracting the text of the content acquired by the information collecting means in association with the storage destination information of the content;
Text extraction means for extracting the body of the content acquired by the information collection means based on the extraction rules held by the extraction rule holding means;
Registration means for registering a body of the content extracted by the text extraction means in a search index in association with information on the content including storage destination information of the content;
When a search request for searching for the content is received from the search client device, a specific search index is extracted from the search index based on the search request, and the content corresponding to the specific search index is extracted. Either a combination of storage location information and a specific extraction rule corresponding to the storage location information of the content extracted from the extraction rule holding means, or a text of the content registered in the specific search index Search means for selecting and returning to the client device based on the information about the content;
Have
The search client device includes:
The search request is transmitted to the search unit of the search server device, and a combination of the storage location information of the content returned by the search unit and the specific extraction rule or the text of the content is received as a search result. Information acquisition means for acquiring the content from the communication network using the received storage location information of the content;
Latest text extraction means for extracting the body of the content according to the specific extraction rule received from the search server device after the content is acquired by the information acquisition means;
Display means for displaying the text of the content received by the information acquisition means or the text of the content extracted by the latest text extraction means;
A content search system.
前記検索手段は、前記登録日時情報に基づき、前記特定の検索インデックスに登録された前記コンテンツの本文の当該登録の日時が所定の日時に対して新しいか否かを判定し、前記登録の日時が前記所定の日時よりも新しくない場合には、前記特定の検索インデックスに対応する前記コンテンツの格納先情報と、前記抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせを前記検索クライアント装置に返却し、前記登録の日時が前記所定の日時よりも新しい場合には、前記特定の検索インデックスに登録された前記コンテンツの本文を前記検索クライアント装置に返却する、
請求項1に記載のコンテンツ検索システム。 The information related to the content includes registration date and time information related to the date and time when the text of the content was registered in the search index,
The search means determines whether or not the registration date and time of the content body registered in the specific search index is newer than a predetermined date and time based on the registration date and time information. If it is not newer than the predetermined date and time, the storage location information of the content corresponding to the specific search index and the specific extraction rule corresponding to the storage location information of the content extracted from the extraction rule holding means When the date and time of registration is newer than the predetermined date and time, the body of the content registered in the specific search index is returned to the search client device.
The content search system according to claim 1.
請求項1に記載のコンテンツ検索システム。 The search unit determines whether the storage location information of the content corresponding to the specific search index is storage location information of the specific content, and the storage location information of the content is the storage location of the specific content If it is information, a combination of the storage location information of the specific content and a specific extraction rule corresponding to the storage location information of the specific content extracted from the extraction rule holding unit is stored in the search client device. When the storage location information of the content is not the storage location information of the specific content, the body of the content registered in the specific search index is returned to the search client device.
The content search system according to claim 1.
前記情報取得手段は、前記検索手段により返却される前記リンク情報を用いて前記通信ネットワーク上から前記リンク情報に対応する前記抽出ルールを取得し、取得された前記抽出ルールをキャッシュする、
請求項1〜3の何れか一項に記載のコンテンツ検索システム。 The search means returns the specific extraction rule as link information,
The information acquisition means acquires the extraction rule corresponding to the link information from the communication network using the link information returned by the search means, and caches the acquired extraction rule.
The content search system as described in any one of Claims 1-3.
請求項4に記載のコンテンツ検索システム。 The information acquisition means determines whether the date and time when the specific extraction rule was cached last time is new according to a predetermined criterion, and the date and time when the specific extraction rule was cached last time and according to the predetermined criterion. If not new, obtain the extraction rule corresponding to the link information from the communication network using the link information returned by the search means, and cache the obtained extraction rule again,
The content search system according to claim 4.
請求項4に記載のコンテンツ検索システム。 The information acquisition means determines whether the storage location information of the content corresponding to the specific search index is storage content information of the specific content, and the storage location information of the content stores the specific content. In the case of prior information, the extraction rule corresponding to the link information is acquired from the communication network using the link information returned by the search means, and the acquired extraction rule is cached again.
The content search system according to claim 4.
前記検索サーバ装置が、
通信ネットワーク上からコンテンツを取得する情報収集ステップと、
前記情報収集ステップにおいて取得された前記コンテンツの本文を抽出するための抽出ルールを、前記コンテンツの格納先情報に関連付けて保持する抽出ルール保持ステップと、
前記抽出ルール保持ステップにおいて保持される前記抽出ルールに基づいて、前記情報収集ステップで取得された前記コンテンツの本文を抽出するテキスト抽出ステップと、
前記テキスト抽出ステップにおいて抽出された前記コンテンツの本文を、前記コンテンツの格納先情報を含む前記コンテンツに関する情報と関連付けて検索インデックスに登録する登録ステップと、
前記コンテンツを検索するための検索要求を前記検索クライアント装置から受信すると、前記検索要求に基づいて、前記検索インデックスの中から特定の検索インデックスを抽出し、前記特定の検索インデックスに対応する前記コンテンツの格納先情報と、前記抽出ルール保持ステップにおいて抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、前記特定の検索インデックスに登録された前記コンテンツの本文のいずれかを、前記コンテンツの格納先情報に基づいて選択して前記クライアント装置に返却する検索ステップと、
を含み、
前記検索クライアント装置が、
前記検索要求を前記検索サーバ装置に送信し、その検索結果として前記検索ステップにおいて返却される前記コンテンツの格納先情報と前記特定の抽出ルールとの組み合わせ又は前記コンテンツの本文を受信し、受信した前記コンテンツの格納先情報を用いて前記通信ネットワーク上から前記コンテンツを取得する情報取得ステップと、
前記情報取得ステップにおいて前記コンテンツが取得された後に、前記検索サーバ装置から受信した前記特定の抽出ルールにより前記コンテンツの本文を抽出する最新テキスト抽出ステップと、
前記情報取得ステップにおいて受信された前記コンテンツの本文又は前記最新テキスト抽出ステップで抽出された前記コンテンツの本文を表示する表示ステップと、
を含む、コンテンツ検索方法。 A content search method for searching for content by a search server device and a search client device,
The search server device
An information collecting step of acquiring content from a communication network;
An extraction rule holding step for holding an extraction rule for extracting the text of the content acquired in the information collecting step in association with the storage destination information of the content;
A text extraction step for extracting the body of the content acquired in the information collection step based on the extraction rule held in the extraction rule holding step;
A registration step of registering the body of the content extracted in the text extraction step in a search index in association with information about the content including storage destination information of the content;
When a search request for searching for the content is received from the search client device, a specific search index is extracted from the search index based on the search request, and the content corresponding to the specific search index is extracted. Either a combination of storage location information and a specific extraction rule corresponding to the storage location information of the content extracted in the extraction rule holding step, or a text of the content registered in the specific search index A search step of selecting based on the storage location information of the content and returning it to the client device;
Including
The search client device is
The search request is transmitted to the search server device, and the combination of the storage location information of the content returned in the search step and the specific extraction rule or the text of the content as a search result is received and received. An information acquisition step of acquiring the content from the communication network using content storage location information;
A latest text extraction step of extracting a body of the content according to the specific extraction rule received from the search server device after the content is acquired in the information acquisition step;
A display step for displaying the body of the content received in the information acquisition step or the body of the content extracted in the latest text extraction step;
Content search method including
前記検索サーバ装置として動作するコンピュータを、
通信ネットワーク上からコンテンツを取得する情報収集手段と、
前記情報収集手段によって取得された前記コンテンツの本文を抽出するための抽出ルールを、前記コンテンツの格納先情報に関連付けて保持する抽出ルール保持手段と、
前記抽出ルール保持手段によって保持される前記抽出ルールに基づいて、前記情報収集手段により取得された前記コンテンツの本文を抽出するテキスト抽出手段と、
前記テキスト抽出手段により抽出された前記コンテンツの本文を、前記コンテンツの格納先情報を含む前記コンテンツに関する情報と関連付けて検索インデックスに登録する登録手段と、
前記コンテンツを検索するための検索要求を前記検索クライアント装置から受信すると、前記検索要求に基づいて、前記検索インデックスの中から特定の検索インデックスを抽出し、前記特定の検索インデックスに対応する前記コンテンツの格納先情報と、前記抽出ルール保持手段から抽出される該コンテンツの格納先情報に対応する特定の抽出ルールとの組み合わせ、又は、前記特定の検索インデックスに登録された前記コンテンツの本文のいずれかを、前記コンテンツに関する情報に基づいて選択して前記クライアント装置に返却する検索手段として機能させ、
前記検索クライアント装置として動作するコンピュータを、
前記検索要求を前記検索サーバ装置の前記検索手段に送信し、その検索結果として前記検索手段により返却される前記コンテンツの格納先情報と前記特定の抽出ルールとの組み合わせ又は前記コンテンツの本文を受信し、受信した前記コンテンツの格納先情報を用いて前記通信ネットワーク上から前記コンテンツを取得する情報取得手段と、
前記情報取得手段により前記コンテンツが取得された後に、前記検索サーバ装置から受信した前記特定の抽出ルールにより前記コンテンツの本文を抽出する最新テキスト抽出手段と、
前記情報取得手段により受信された前記コンテンツの本文又は前記最新テキスト抽出手段により抽出された前記コンテンツの本文を表示する表示手段として機能させる、コンテンツ検索プログラム。 A content search program for searching for content by a search server device and a search client device,
A computer that operates as the search server device,
Information collecting means for acquiring content from a communication network;
An extraction rule holding means for holding an extraction rule for extracting the text of the content acquired by the information collecting means in association with the storage destination information of the content;
Text extraction means for extracting the body of the content acquired by the information collection means based on the extraction rules held by the extraction rule holding means;
Registration means for registering a body of the content extracted by the text extraction means in a search index in association with information on the content including storage destination information of the content;
When a search request for searching for the content is received from the search client device, a specific search index is extracted from the search index based on the search request, and the content corresponding to the specific search index is extracted. Either a combination of storage location information and a specific extraction rule corresponding to the storage location information of the content extracted from the extraction rule holding means, or a text of the content registered in the specific search index , Function as a search means to select and return to the client device based on information about the content,
A computer that operates as the search client device;
The search request is transmitted to the search unit of the search server device, and a combination of the storage location information of the content returned by the search unit and the specific extraction rule or the text of the content is received as a search result. Information acquisition means for acquiring the content from the communication network using the received storage location information of the content;
Latest text extraction means for extracting the body of the content according to the specific extraction rule received from the search server device after the content is acquired by the information acquisition means;
A content search program that functions as a display unit that displays the body of the content received by the information acquisition unit or the body of the content extracted by the latest text extraction unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013126942A JP6104729B2 (en) | 2013-06-17 | 2013-06-17 | Content search system, content search method, and content search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013126942A JP6104729B2 (en) | 2013-06-17 | 2013-06-17 | Content search system, content search method, and content search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015001899A JP2015001899A (en) | 2015-01-05 |
JP6104729B2 true JP6104729B2 (en) | 2017-03-29 |
Family
ID=52296372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013126942A Active JP6104729B2 (en) | 2013-06-17 | 2013-06-17 | Content search system, content search method, and content search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6104729B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004157965A (en) * | 2002-09-12 | 2004-06-03 | Ricoh Co Ltd | Search support device and method, program and recording medium |
JP2004310461A (en) * | 2003-04-07 | 2004-11-04 | Canon Inc | Summary preparing device |
US7685296B2 (en) * | 2003-09-25 | 2010-03-23 | Microsoft Corporation | Systems and methods for client-based web crawling |
JP4381423B2 (en) * | 2007-01-22 | 2009-12-09 | 日本電信電話株式会社 | Document collection device, document collection method, program, and recording medium |
JP5068338B2 (en) * | 2010-04-08 | 2012-11-07 | ヤフー株式会社 | Search server, system and method |
-
2013
- 2013-06-17 JP JP2013126942A patent/JP6104729B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015001899A (en) | 2015-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6091579B2 (en) | Method and apparatus for handling nested fragment caching of web pages | |
US20080114773A1 (en) | Apparatus and method for prefetching web page | |
US20160232252A1 (en) | Method for loading webpage, device and browser thereof | |
US10455020B2 (en) | Systems and methods for managing and publishing managed content | |
US8244719B2 (en) | Computer method and apparatus providing social preview in tag selection | |
US20090100322A1 (en) | Retrieving data relating to a web page prior to initiating viewing of the web page | |
JPH11175442A (en) | Data repeater system, information terminal equipment, computer readable recording medium recorded with data relay program and computer readable record medium recorded with information reading program | |
JP2008158589A (en) | Updated information notification device, and updated information notification program | |
JP5232054B2 (en) | Information provision device | |
JP2008204189A (en) | Updated information responding device and web server | |
JP6104729B2 (en) | Content search system, content search method, and content search program | |
JP5297295B2 (en) | WWW information browsing system and method, and Web browser and program | |
JP3843390B2 (en) | Web page browsing method and web page browsing program | |
US8103651B2 (en) | Auto-updating reader program for document files | |
JP2002082936A (en) | Contents data displaying device and contents data displaying system | |
JP2007087241A (en) | Multilingual multilayered site creation system and multilingual multilayered site creation program | |
JP2005115721A (en) | Method, device and program for searching for image | |
JP5070018B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM | |
US20120323966A1 (en) | Storage device, server device, storage system, database device, provision method of data, and program | |
JP5968967B2 (en) | Information processing device | |
JP4715031B2 (en) | Structured document conversion system and structured document conversion program | |
JP5616473B2 (en) | Information processing apparatus and information processing method | |
US8510286B1 (en) | Method, architecture and platform for content takedown on the internet | |
JP2016181290A (en) | Information processing apparatus | |
JP2006227859A (en) | System, program, and method for database management, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6104729 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |