JP2010049638A - Apparatus, system, method for extracting and program - Google Patents

Apparatus, system, method for extracting and program Download PDF

Info

Publication number
JP2010049638A
JP2010049638A JP2008215478A JP2008215478A JP2010049638A JP 2010049638 A JP2010049638 A JP 2010049638A JP 2008215478 A JP2008215478 A JP 2008215478A JP 2008215478 A JP2008215478 A JP 2008215478A JP 2010049638 A JP2010049638 A JP 2010049638A
Authority
JP
Japan
Prior art keywords
extraction
rule
content
request
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008215478A
Other languages
Japanese (ja)
Other versions
JP5153516B2 (en
Inventor
Yusuke Nakano
雄介 中野
Yoji Yamato
庸次 山登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008215478A priority Critical patent/JP5153516B2/en
Publication of JP2010049638A publication Critical patent/JP2010049638A/en
Application granted granted Critical
Publication of JP5153516B2 publication Critical patent/JP5153516B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a program and an apparatus for extracting, a method and an extraction system capable of reducing a service stop time and cutting a maintenance cost by automatically corresponding to a change at a Web application. <P>SOLUTION: An extraction system 1 includes a content provider 30 for transmitting the held content in accordance with a content request for requesting the content, a request transmission and result receiving device 10 for transmitting an extraction request for extracting a specific part within the content and for receiving an extracted result for the extraction request, and an extraction device 20 for receiving the extraction request from the request transmission and result receiving device 10, for transmitting the content request for requesting the content associated with the extraction request to the content provider 30, for extracting the specific part within the content received from the content provider 30, and for transmitting the specific part to a request transmission and result receiving structure as a result of extraction. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、抽出装置、抽出システム、抽出方法およびプログラムに関する。特に、本発明は、Webアプリケーションが生成するHTMLドキュメントから特定部分を抽出する抽出装置、抽出システム、抽出方法およびプログラムに関する。   The present invention relates to an extraction device, an extraction system, an extraction method, and a program. In particular, the present invention relates to an extraction device, an extraction system, an extraction method, and a program for extracting a specific portion from an HTML document generated by a Web application.

近年、Webサービスの必要性が高まっている。Webサービスとは様々なサービスを実現するために、部品としても用いられているサービスコンポーネントのことであり、主に、B2Bの分野で用いられてきた。加えて近年、ユビキタス分野においてもこれらを用いる動きがあり、B2CやC2CにおいてもWebサービスが活躍しつつある。しかし、現段階では利用可能なWebサービス数は少なく、様々なサービスを提供するには至っていない。そこで、Webサービス数を増やし、それらを組み合わせることで様々なサービスを実現できる環境を作る必要がある。   In recent years, the need for Web services has increased. Web services are service components that are also used as parts to realize various services, and have been used mainly in the field of B2B. In addition, in recent years, there is a movement to use these also in the ubiquitous field, and Web services are being actively used in B2C and C2C. However, at this stage, the number of Web services that can be used is small, and various services have not been provided. Therefore, it is necessary to create an environment that can realize various services by increasing the number of Web services and combining them.

既存のWebアプリケーションをWebサービスとして利用するというアイディアがある。これにより、豊富なWebサービスが利用可能となる。これを利用するラッパ(wrapper)がある。ラッパはWebサービスのインターフェイスとWebアプリケーションのインターフェイスを持つ。ラッパはラッパのWebサービス側にきたリクエストをWebアプリケーションのリクエストに変換し、これをWebアプリケーションに送信する。その後、返ってきたHTMLドキュメントから特定部分を抽出し、これをSOAP(Simple Object Access Protocol)に変換し、リクエストの送信者に返す。このとき、Webアプリケーション毎にプロトコル変換のためのコンフィグファイルが必要となる、例えば、ホテル検索Webアプリケーションをホテル検索Webサービスとするためのラッパを実現する場合は、ホテル検索Webアプリケーション用のコンフィグファイルが必要となる。   There is an idea of using an existing web application as a web service. As a result, a wealth of Web services can be used. There are wrappers that use this. The wrapper has a web service interface and a web application interface. The wrapper converts the request that came to the web service side of the wrapper into a web application request and sends it to the web application. After that, a specific part is extracted from the returned HTML document, converted into SOAP (Simple Object Access Protocol), and returned to the request sender. At this time, a configuration file for protocol conversion is required for each Web application. For example, when implementing a wrapper for making a hotel search Web application a hotel search Web service, the configuration file for the hotel search Web application Necessary.

コンフィグファイルには、SOAPのリクエストからWebアプリケーションのリクエストに変換するためのルールと、Webアプリケーションが返すHTMLドキュメントから特定の部分を抽出し、抽出結果をSOAPに変換するためのルールとが主に含まれる。このようなルールを用いてSOAPとWebアプリケーションのプロトコルとを相互変換するための技術として特許文献1、特許文献2がある。
特開2007−241417号公報 特開2008−003848号公報
The configuration file mainly includes rules for converting SOAP requests to Web application requests, and rules for extracting specific parts from HTML documents returned by Web applications and converting the extraction results to SOAP. It is. There are Patent Documents 1 and 2 as technologies for mutual conversion between SOAP and Web application protocols using such rules.
JP 2007-241417 A JP 2008-003848 A

しかし、もし、Webアプリケーションが返すHTMLドキュメントが変化すると、予め作られたコンフィグファイルでは正しい部分を抽出できなくなり、WebアプリケーションをWebサービスとして利用できなくなる。また、これを解消するためにはコンフィグファイルの手直しする必要があるため、多大な労力を必要とする。   However, if the HTML document returned by the Web application changes, the correct part cannot be extracted from the preconfigured config file, and the Web application cannot be used as a Web service. In order to solve this problem, it is necessary to rework the config file, which requires a lot of labor.

Webアプリケーションが返すHTMLドキュメントが変化した場合に、簡便に、正しい部分を抽出し、WebアプリケーションをWebサービスとして利用できるようにすることを目的とする。   When the HTML document returned by the Web application changes, the purpose is to easily extract the correct part so that the Web application can be used as a Web service.

上記問題を解決するために、本発明の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から抽出要求を受信した場合に、コンテンツを保持するコンテンツ送信装置にコンテンツ要求を送信することによって、コンテンツ送信装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置であって、抽出要求に応えるためのルールを保持するルール保持機構と、リクエスト送信・結果受信装置から抽出要求を受信し、当該抽出要求をルールに従ってコンテンツ要求に変換し、当該コンテンツ要求をコンテンツ提供装置に送信し、コンテンツ提供装置から受信したコンテンツから、ルールに従って特定部分を抽出するルールによる抽出機構と、ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たなルールを生成するルール生成機構とを備え、ルールによる抽出機構は、ルール生成機構が新たなルールを生成した場合、新たなルールに従って特定部分を再抽出することを特徴とする。   In order to solve the above-described problem, an aspect of the present invention is to provide content that retains content when an extraction request is received from a request transmission / result reception device that transmits an extraction request that requests extraction of a specific portion in the content. An extraction device that receives content related to the extraction request from the content transmission device by transmitting a content request to the transmission device, extracts a specific portion of the content, and transmits the extracted result to the request transmission / result reception device. A rule holding mechanism for holding a rule for responding to the extraction request, and receiving the extraction request from the request transmission / result reception device, converting the extraction request into a content request according to the rule, and sending the content request to the content providing device. According to the rules from the content sent and received from the content providing device An extraction mechanism based on a rule that extracts a fixed part and a rule generation mechanism that generates a new rule when extraction of a specific part by the rule extraction mechanism fails. The rule extraction mechanism is a new rule generation mechanism. When a simple rule is generated, a specific part is re-extracted according to a new rule.

本発明の一態様である抽出装置のルールによる抽出機構は、コンテンツ提供装置から受信したコンテンツからルールに従って抽出した抽出結果と、ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、ルール生成機構は、コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たなルールとして生成するようにしてもよい。   The extraction mechanism based on the rule of the extraction device according to one aspect of the present invention is based on the similarity between the extraction result extracted from the content received from the content providing device according to the rule and the template of the predetermined extraction result based on the rule. The rule generation mechanism determines whether the similarity with a template of a predetermined extraction result by the rule from among a plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus. The largest extraction result candidate may be selected as the optimum extraction result, and a rule for extracting the optimum extraction result may be generated as a new rule.

本発明の一態様である抽出装置のルールによる抽出機構は、ルール保持機構からルールを取得し、ルールの更新と配信とを行うルール保持部と、リクエスト送信・結果受信装置から抽出要求を受信するリクエスト受信部と、リクエスト受信部によって受信された抽出要求を、ルール保持部によって取得されたルールに従って、コンテンツ要求に変換するリクエスト組立部と、リクエスト組立部によって変換されたコンテンツ要求をコンテンツ提供装置に送信するリクエスト送信部と、コンテンツ要求に対するコンテンツをコンテンツ提供装置から受信し、保持し、配信するコンテンツ保持部と、ルール保持部によって取得されたルールに従って、コンテンツ保持部によって受信されたコンテンツから特定部分を抽出するルールによる抽出部と、ルールによる抽出部による特定部分の抽出が失敗したか否かを判断する抽出失敗検出部と、特定部分の抽出が失敗していないと抽出失敗検出部によって判断された場合に、ルールによる抽出部による抽出結果をリクエスト送信・結果受信装置に返信する抽出結果送信部と、特定部分の抽出が失敗していると抽出失敗検出部によって判断された場合に、コンテンツ保持部からコンテンツを取得し、ルール生成機構に送信するコンテンツ送信部とを有し、ルールによる抽出部は、コンテンツ送信部によって送信されたコンテンツに基づいてルール生成機構が生成した新たなルールに従って特定部分を再抽出するようにしてもよい。   An extraction mechanism based on a rule of an extraction apparatus according to one aspect of the present invention acquires a rule from a rule holding mechanism, receives a request for extraction from a rule holding unit that updates and distributes the rule, and a request transmission / result reception apparatus A request receiving unit, a request assembling unit that converts an extraction request received by the request receiving unit into a content request according to a rule acquired by the rule holding unit, and a content request converted by the request assembling unit A request transmission unit to transmit, a content holding unit that receives, holds, and distributes content in response to a content request from the content providing device, and a specific part from the content received by the content holding unit according to the rules acquired by the rule holding unit Extraction part by rule to extract The extraction failure detection unit that determines whether or not the extraction of the specific part by the extraction unit by the rule has failed, and the extraction unit by the rule when the extraction failure detection unit determines that the extraction of the specific part has not failed When the extraction result sending unit returns the extraction result to the request transmission / result receiving device and the extraction failure detection unit determines that the extraction of the specific part has failed, the content is acquired from the content holding unit, and a rule is generated. A content transmission unit that transmits to the mechanism, and the rule extraction unit may re-extract the specific portion according to the new rule generated by the rule generation mechanism based on the content transmitted by the content transmission unit. .

本発明の一態様である抽出装置のルールによる抽出部は、特定部分を抽出した場合に、抽出結果を抽出失敗検出部に送信し、抽出失敗検出部から抽出が成功した旨の検出結果を受信したときは、抽出結果を抽出結果送信部に送信し、抽出失敗検出部から再抽出が必要である旨の検出結果を受信したときは、新たなルールに従って特定部分を再抽出し、抽出失敗検出部は、ルールによる抽出部から抽出結果を受信した場合に、ルール保持部からルールを取得し、ルールによる所定の抽出結果の雛形と抽出結果との類似度を算出することによって、類似度が閾値以上であるときは、特定部分の抽出が失敗していないと判断し、抽出が成功した旨の検出結果をルールによる抽出部に返信し、類似度が閾値未満である場合には、特定部分の抽出が失敗したと判断し、ルールを再生成するためにコンテンツ送信部にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果をルールによる抽出部に送信し、コンテンツ送信部は、コンテンツ送信依頼を受信したときに、コンテンツ保持部からコンテンツを取得し、ルール生成機構に送信するようにしてもよい。   The extraction unit based on the rule of the extraction device according to one aspect of the present invention, when a specific part is extracted, transmits the extraction result to the extraction failure detection unit, and receives the detection result indicating that the extraction has been successful from the extraction failure detection unit When the detection result is transmitted to the extraction result transmission unit and the detection result indicating that re-extraction is necessary is received from the extraction failure detection unit, the specific part is re-extracted according to the new rule to detect the extraction failure. When the unit receives the extraction result from the rule extraction unit, the unit obtains the rule from the rule holding unit, and calculates the similarity between the template of the predetermined extraction result by the rule and the extraction result, whereby the similarity is a threshold value When it is above, it is determined that the extraction of the specific part has not failed, and the detection result indicating that the extraction has been successful is returned to the extraction part according to the rule, and when the similarity is less than the threshold value, Extraction failed The content transmission request is transmitted to the content transmission unit in order to regenerate the rule, and the detection result indicating that re-extraction is necessary is transmitted to the extraction unit based on the rule. May be acquired from the content holding unit and transmitted to the rule generation mechanism.

本発明の一態様である抽出装置のルール生成機構は、ルール保持機構からルールを読み込み、ルールの配信を行うルール保持部と、ルールによる抽出機構からコンテンツを受信するコンテンツ受信部と、コンテンツ受信部によって受信されたコンテンツの特定部分の抽出結果候補を自動抽出する特定部分自動抽出部と、ルール保持部からルールを読み込み、ルールによる所定の抽出結果の雛形と、特定部分自動抽出部によって自動抽出された複数の抽出結果候補のそれぞれとの類似度を算出することによって、類似度が最大の一の抽出結果候補を最適な抽出結果として選択する抽出結果選択部と、抽出結果選択部によって選択された最適な抽出結果を抽出するための新たなルールを生成するルール生成部と、ルール生成部によって生成された新たなルールをルールによる抽出機構とルール保持機構に送信することによってルールを更新するルール更新部とを有するようにしてもよい。   A rule generation mechanism of an extraction device according to an aspect of the present invention includes a rule holding unit that reads a rule from a rule holding mechanism and distributes the rule, a content reception unit that receives content from the extraction mechanism based on the rule, and a content reception unit The specific part automatic extraction unit that automatically extracts the extraction result candidates of the specific part of the content received by the rule, the rule is read from the rule holding unit, and a template of a predetermined extraction result based on the rule and the specific part automatic extraction unit are automatically extracted The extraction result selection unit that selects the extraction result candidate having the maximum similarity as the optimum extraction result by calculating the similarity with each of the plurality of extraction result candidates, and the extraction result selection unit selected A rule generation unit that generates a new rule for extracting an optimal extraction result, and a rule generation unit It may have a rule updating unit for updating the rules by sending Tana rule extraction mechanism and rule holding mechanism according to the rules.

上記問題を解決するために、本発明の他の一態様は、抽出システムであって、コンテンツを要求するコンテンツ要求に応じて、保持しているコンテンツを送信するコンテンツ提供装置と、コンテンツ内の特定部分の抽出を要求する抽出要求を送信し、抽出要求に対する抽出結果を受信するリクエスト送信・結果受信装置と、リクエスト送信・結果受信装置から抽出要求を受信し、抽出要求に係るコンテンツを要求するコンテンツ要求をコンテンツ提供装置に送信し、コンテンツ提供装置から受信したコンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置とを備え、抽出装置は、抽出要求に応えるためのルールを保持するルール保持機構と、リクエスト送信・結果受信装置から抽出要求を受信し、当該抽出要求をルールに従ってコンテンツ要求に変換し、当該コンテンツ要求をコンテンツ提供装置に送信し、コンテンツ提供装置から受信したコンテンツから、ルールに従って特定部分を抽出するルールによる抽出機構と、ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たなルールを生成するルール生成機構とを有し、ルールによる抽出機構は、ルール生成機構が新たなルールを生成した場合、新たなルールに従って特定部分を再抽出することを特徴とする。   In order to solve the above problem, another aspect of the present invention is an extraction system, a content providing device that transmits content held in response to a content request for requesting content, and identification within the content A request transmission / result reception device that transmits an extraction request for requesting extraction of a portion and receives an extraction result for the extraction request, and a content that receives the extraction request from the request transmission / result reception device and requests content related to the extraction request An extraction device that transmits a request to the content providing device, extracts a specific part of the content received from the content providing device, and transmits the request to the request transmission / result receiving device as an extraction result. Receive the extraction request from the rule holding mechanism and the request sending / result receiving device An extraction mechanism based on a rule that converts the extraction request into a content request according to a rule, transmits the content request to the content providing apparatus, and extracts a specific part from the content received from the content providing apparatus, and an extraction mechanism based on the rule A rule generation mechanism that generates a new rule when the extraction of the specific part fails, and the rule extraction mechanism re-creates the specific part according to the new rule when the rule generation mechanism generates a new rule. It is characterized by extracting.

上記問題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、抽出要求を送信するリクエスト送信・結果受信装置から抽出要求を受信した場合に、コンテンツを保持するコンテンツ送信装置にコンテンツ要求を送信することによって、コンテンツ送信装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置よるコンテンツ内の特定部分を抽出する抽出方法であって、リクエスト送信・結果受信装置から抽出要求を受信し、当該抽出要求をルールに従ってコンテンツ要求に変換し、当該コンテンツ要求をコンテンツ提供装置に送信し、コンテンツ提供装置から受信したコンテンツから、ルールに従って特定部分を抽出するルールによる抽出ステップと、ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たなルールを生成するルール生成ステップとを有し、ルールによる抽出ステップは、ルール生成ステップが新たなルールを生成した場合、新たなルールに従って特定部分を再抽出することを特徴とする。   In order to solve the above-described problem, another aspect of the present invention provides a request transmission / result reception apparatus that holds a rule for responding to an extraction request for requesting extraction of a specific portion in content and transmits the extraction request. When an extraction request is received, by transmitting the content request to the content transmission device that holds the content, the content related to the extraction request is received from the content transmission device, the specific part of the content is extracted, and the extraction result is An extraction method for extracting a specific part in content by an extraction device that transmits to a request transmission / result reception device, receiving an extraction request from the request transmission / result reception device, and converting the extraction request into a content request according to a rule The content request is transmitted to the content providing device and received from the content providing device. An extraction step by a rule for extracting a specific part from the content according to the rule, and a rule generation step for generating a new rule when the extraction of the specific part by the extraction step by the rule fails. When the rule generation step generates a new rule, the specific part is re-extracted according to the new rule.

上記問題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、抽出要求を送信するリクエスト送信・結果受信装置から抽出要求を受信した場合に、コンテンツを保持するコンテンツ送信装置にコンテンツ要求を送信することによって、コンテンツ送信装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置のコンピュータに、リクエスト送信・結果受信装置から抽出要求を受信し、当該抽出要求をルールに従ってコンテンツ要求に変換し、当該コンテンツ要求をコンテンツ提供装置に送信し、コンテンツ提供装置から受信したコンテンツから、ルールに従って特定部分を抽出するルールによる抽出ステップと、 ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たなルールを生成するルール生成ステップとを実行させるプログラムであって、ルールによる抽出ステップは、ルール生成ステップが新たなルールを生成した場合、新たなルールに従って特定部分を再抽出することを特徴とする。   In order to solve the above-described problem, another aspect of the present invention provides a request transmission / result reception apparatus that holds a rule for responding to an extraction request for requesting extraction of a specific portion in content and transmits the extraction request. When an extraction request is received, by transmitting the content request to the content transmission device that holds the content, the content related to the extraction request is received from the content transmission device, the specific part of the content is extracted, and the extraction result is The extraction request is transmitted from the request transmission / result reception device to the request transmission / result reception device, and the extraction request is converted into a content request according to the rule, and the content request is transmitted to the content providing device. From the content received from the content providing device, the specific unit according to the rule Is a program that executes an extraction step based on a rule that extracts a rule, and a rule generation step that generates a new rule if extraction of a specific part by the extraction step based on the rule fails. When the step generates a new rule, the specific part is re-extracted according to the new rule.

本発明によれば、Webアプリケーションが返すHTMLドキュメントが変化し、正しい部分の抽出ができなくなった場合に、新たなルールが自動生成されるため労力を掛けずに、継続してWebアプリケーションをWebサービスとして利用し続けることができる。換言すれば、Webアプリケーションが返すHTMLドキュメントが変化したことをラッパが検知し、自動的に新たなHTMLドキュメントに対応するコンフィグファイルを再生成するため、ラッパがWebアプリケーション側の変更に対応するようになる。つまり、ラッパがWebアプリケーション側の変更に自動的に追従するようになる。従って、ラッパのメンテナンスコストを削減することができる。同時に、ラッパが動作不能となることを減らし、サービス停止時間を削減できる。   According to the present invention, when an HTML document returned by a Web application changes and a correct part cannot be extracted, a new rule is automatically generated. Can continue to be used as. In other words, the wrapper detects that the HTML document returned by the Web application has changed, and automatically regenerates the configuration file corresponding to the new HTML document, so that the wrapper responds to changes on the Web application side. Become. In other words, the wrapper automatically follows changes on the Web application side. Therefore, the maintenance cost of the wrapper can be reduced. At the same time, it is possible to reduce the inoperability of the wrapper and reduce the service stop time.

以下、本発明の実施形態について図面を参照して詳細に説明する。図1は、本発明の実施形態に係る抽出システム1の構成図である。抽出システム1は、図1に示すように、
リクエスト送信・結果受信装置10、抽出装置20およびコンテンツ提供装置30から構成される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a configuration diagram of an extraction system 1 according to an embodiment of the present invention. As shown in FIG.
The request transmission / result reception device 10, the extraction device 20, and the content providing device 30 are configured.

コンテンツ提供装置30は、例えば、Webアプリケーションを実装したサーバである。コンテンツ提供装置30は、例えば、HTTPリクエストを受信し、HTMLドキュメントを送信する。換言すれば、コンテンツ提供装置30は、コンテンツを要求するコンテンツ要求(以下、「コンテンツリクエスト」という)に応じて、保持しているコンテンツを送信する。   The content providing device 30 is, for example, a server that implements a Web application. For example, the content providing apparatus 30 receives an HTTP request and transmits an HTML document. In other words, the content providing apparatus 30 transmits the held content in response to a content request for requesting content (hereinafter referred to as “content request”).

リクエスト送信・結果受信装置10は、例えば、Webサービスのクライアント(端末)である。具体的には、リクエスト送信・結果受信装置10は、マッシュアップ(MushUp)アプリケーションなどを実装したクライアントである。リクエスト送信・結果受信装置10は、Webサービスに対してリクエストを送信し、当該リクエストに対するレスポンスを受信する。具体的には、リクエスト送信・結果受信装置10は、コンテンツ内の特定部分の抽出を要求する抽出要求(以下、単に「リクエスト」という)を送信し、当該抽出要求に対する抽出結果を受信する。   The request transmission / result reception apparatus 10 is, for example, a client (terminal) of a Web service. Specifically, the request transmission / result reception apparatus 10 is a client on which a mashup application or the like is mounted. The request transmission / result reception apparatus 10 transmits a request to the Web service and receives a response to the request. Specifically, the request transmission / result reception apparatus 10 transmits an extraction request (hereinafter simply referred to as “request”) for requesting extraction of a specific portion in the content, and receives an extraction result for the extraction request.

抽出装置20は、例えば、サーバである。抽出装置20は、リクエスト送信・結果受信装置10からSOAPなどでリクエスト(抽出要求)を受信する。リクエストを受信した抽出装置20は、当該リクエストに対するコンテンツを取得するために、HTTPリクエストなどのコンテンツリクエスト(コンテンツ要求)をコンテンツ提供装置30に対して送信し、当該コンテンツリクエストに対するHTMLドキュメントなどのコンテンツをコンテンツ提供装置30から受信する。コンテンツ提供装置30からコンテンツを受信した抽出装置20は、当該コンテンツの特定部分を抽出し、抽出結果として、リクエストの送信元であるリクエスト送信・結果受信装置10に対してSOAPなどで送信(返信)する。   The extraction device 20 is, for example, a server. The extraction device 20 receives a request (extraction request) from the request transmission / result reception device 10 by SOAP or the like. Upon receiving the request, the extraction device 20 transmits a content request (content request) such as an HTTP request to the content providing device 30 in order to acquire content corresponding to the request, and transmits content such as an HTML document corresponding to the content request. Received from the content providing apparatus 30. The extraction device 20 that has received the content from the content providing device 30 extracts a specific portion of the content, and transmits (returns) the extraction result to the request transmission / result reception device 10 that is the request transmission source via SOAP or the like. To do.

図2は、図1に示す抽出装置20の構成を説明するための図である。抽出装置20は、図2に示すように、ルール保持機構200、ルールによる抽出機構210およびルール生成機構220から構成される。   FIG. 2 is a diagram for explaining the configuration of the extraction device 20 shown in FIG. As illustrated in FIG. 2, the extraction device 20 includes a rule holding mechanism 200, a rule extraction mechanism 210, and a rule generation mechanism 220.

ルール保持機構200は、リクエスト送信・結果受信装置10からのリクエスト(抽出要求)に応えるための種々のルールを保持するディレクトリである。具体的には、ルール保持機構200は、抽出装置20が受信したSOAPなどのリクエストをコンテンツ提供装置30へのコンテンツリクエスト(コンテンツ要求)に変換するためのルール、抽出装置20が受け取ったHTMLドキュメントなどのコンテンツから特定部分を抽出し、SOAPなどの形に変換するためのルールなどを保持する。   The rule holding mechanism 200 is a directory that holds various rules for responding to requests (extraction requests) from the request transmission / result reception apparatus 10. Specifically, the rule holding mechanism 200 includes a rule for converting a request such as SOAP received by the extraction device 20 into a content request (content request) to the content providing device 30, an HTML document received by the extraction device 20, and the like. A specific part is extracted from the contents of, and rules for converting to a form such as SOAP are retained.

ルールによる抽出機構210は、リクエスト送信・結果受信装置10からリクエスト(抽出要求)を受信する。ルールによる抽出機構210は、リクエストを受信した場合、リクエストの内容からどのルールを読み込むべきであるかを判断する。ルールによる抽出機構210は、読み込むべきルールを読み込んだ後、当該ルールに従って、リクエスト送信・結果受信装置10から受信したリクエストからコンテンツ提供装置30に送信するコンテンツリクエスト(コンテンツ要求)を組み立てる。   The rule extraction mechanism 210 receives a request (extraction request) from the request transmission / result reception apparatus 10. When receiving a request, the rule extraction mechanism 210 determines which rule should be read from the content of the request. After reading the rule to be read, the rule extraction mechanism 210 assembles a content request (content request) to be transmitted to the content providing device 30 from the request received from the request transmission / result reception device 10 according to the rule.

ルールによる抽出機構210は、組み立てたコンテンツリクエスト(コンテンツ要求)をコンテンツ提供装置30に送信する。ルールによる抽出機構210は、当該コンテンツリクエストに対するコンテンツをコンテンツ提供装置30から受信する。コンテンツ提供装置30からコンテンツを受信したルールによる抽出機構210は、読み込んだルールに従って、当該コンテンツから特定部分を抽出し、SOAPなどの形に変換し、抽出結果として、リクエストの送信元であるリクエスト送信・結果受信装置10に返信する。ルールによる抽出機構210は、コンテンツからの特定部分の抽出に失敗した場合、ルール生成機構220に対し、抽出対象のHTMLドキュメントなどのコンテンツ(本発明のコンテンツ送信依頼に相当する)を送信し、新たなルールをルール生成機構220から取得し、新たなルールに従って、当該コンテンツから特定部分を再抽出する。   The rule extraction mechanism 210 transmits the assembled content request (content request) to the content providing apparatus 30. The rule extraction mechanism 210 receives content corresponding to the content request from the content providing apparatus 30. The extraction mechanism 210 based on the rule that has received the content from the content providing apparatus 30 extracts a specific part from the content according to the read rule, converts it into a form such as SOAP, and transmits a request as a request transmission source as an extraction result Reply to the result receiving device 10 When the rule extraction mechanism 210 fails to extract a specific part from the content, the rule generation mechanism 220 transmits content such as an HTML document to be extracted (corresponding to the content transmission request of the present invention) to a new A specific rule is acquired from the rule generation mechanism 220, and a specific portion is re-extracted from the content according to the new rule.

ルール生成機構220は、ルールによる抽出機構210が特定部分の抽出に失敗した場合、抽出対象のコンテンツをルールによる抽出機構210から取得し、当該コンテンツと当該ルールから新たなルールを生成する。新たなルールを生成したルール生成機構220は、生成した新たなルールをルールによる抽出機構210とルール保持機構200とに送信することによってルールの更新を行う。   When the rule extraction mechanism 210 fails to extract a specific part, the rule generation mechanism 220 acquires the content to be extracted from the rule extraction mechanism 210 and generates a new rule from the content and the rule. The rule generation mechanism 220 that has generated a new rule updates the rule by transmitting the generated new rule to the rule extraction mechanism 210 and the rule holding mechanism 200.

図3は、図2に示すルールによる抽出機構210の構成図である。ルールによる抽出機構210は、図3に示すように、ルール保持部211、リクエスト受信部212、リクエスト組立部213、リクエスト送信部214、コンテンツ保持部215、ルールによる抽出部216、抽出失敗検出部217、抽出結果送信部218およびコンテンツ送信部219から構成される。   FIG. 3 is a configuration diagram of the extraction mechanism 210 based on the rules shown in FIG. As shown in FIG. 3, the rule extraction unit 210 includes a rule holding unit 211, a request reception unit 212, a request assembly unit 213, a request transmission unit 214, a content holding unit 215, a rule extraction unit 216, and an extraction failure detection unit 217. And an extraction result transmission unit 218 and a content transmission unit 219.

ルール保持部211は、ルール保持機構200が保持するルールをルール保持機構200から予め取得しておく(読み込んでおく)。また、ルール保持部211は、ルールの更新と配信とを行う。   The rule holding unit 211 acquires (reads) the rules held by the rule holding mechanism 200 from the rule holding mechanism 200 in advance. Further, the rule holding unit 211 performs rule update and distribution.

リクエスト受信部212は、リクエスト送信・結果受信装置10からリクエスト(抽出要求)を受信する。リクエスト受信部212は、リクエスト送信・結果受信装置10から受信したリクエストをリクエスト組立部213に送信する。   The request reception unit 212 receives a request (extraction request) from the request transmission / result reception apparatus 10. The request reception unit 212 transmits the request received from the request transmission / result reception device 10 to the request assembly unit 213.

リクエスト組立部213は、リクエスト受信部212からリクエスト(抽出要求)を受信する。リクエスト組立部213は、リクエスト受信部212から受信したリクエストから、コンテンツ提供装置30に送信するコンテンツ要求に変換するためのルールをルール保持部211から取得する(読み込む)。リクエスト組立部213は、リクエスト受信部212から受信したリクエストを、ルール保持部211から取得したルールに従って、コンテンツリクエスト(コンテンツ要求)に変換する。リクエスト組立部213は、コンテンツリクエストをリクエスト送信部214に送信する。   The request assembling unit 213 receives a request (extraction request) from the request receiving unit 212. The request assembling unit 213 acquires (reads) from the rule holding unit 211 a rule for converting the request received from the request receiving unit 212 into a content request to be transmitted to the content providing apparatus 30. The request assembling unit 213 converts the request received from the request receiving unit 212 into a content request (content request) according to the rule acquired from the rule holding unit 211. The request assembly unit 213 transmits a content request to the request transmission unit 214.

リクエスト送信部214は、リクエスト組立部213からコンテンツリクエスト(コンテンツ要求)を受信し、コンテンツ提供装置30に送信する。   The request transmission unit 214 receives a content request (content request) from the request assembling unit 213 and transmits it to the content providing apparatus 30.

コンテンツ保持部215は、コンテンツ提供装置30からコンテンツリクエスト(コンテンツ要求)に対応するコンテンツを受信する。コンテンツ保持部215は、受信したコンテンツを保持し、ルールによる抽出部216にコンテンツを送信する。また、コンテンツ保持部215は、コンテンツ送信部219の要求に従い、自身が保持するコンテンツを提供(送信)する。   The content holding unit 215 receives content corresponding to the content request (content request) from the content providing apparatus 30. The content holding unit 215 holds the received content and transmits the content to the rule extraction unit 216. Further, the content holding unit 215 provides (transmits) the content held by the content holding unit 215 according to the request of the content transmission unit 219.

ルールによる抽出部216は、コンテンツ保持部215からコンテンツを受信する。ルールによる抽出部216は、コンテンツ保持部215から受信したコンテンツから、特定部分を抽出するためのルールをルール保持部211から取得する(読み込む)。ルールによる抽出部216は、ルール保持部211から取得したルールに従って、コンテンツ保持部215から受信したコンテンツから特定部分を抽出する。当該変換は、例えば、HTMLドキュメントをXSL変換するようなもので、このときにルールとしてXSLファイルを用いるとよい。ルールによる抽出部216は、抽出結果を抽出失敗検出部217に送信する。   The rule extraction unit 216 receives content from the content holding unit 215. The rule extraction unit 216 acquires (reads) a rule for extracting a specific portion from the content received from the content holding unit 215 from the rule holding unit 211. The rule extraction unit 216 extracts a specific portion from the content received from the content holding unit 215 according to the rule acquired from the rule holding unit 211. The conversion is, for example, an XSL conversion of an HTML document, and an XSL file may be used as a rule at this time. The rule extraction unit 216 transmits the extraction result to the extraction failure detection unit 217.

ルールによる抽出部216は、特定部分を抽出した場合に、特定部分を正しく抽出できたか否かを判断する。具体的には、ルールによる抽出部216は、特定部分を抽出した場合に、抽出結果を抽出失敗検出部217に送信し、抽出失敗検出部217から、抽出が成功した旨の検出結果を受信した場合に、特定部分を正しく抽出できたと判断し、抽出失敗検出部217から、再抽出が必要である旨の検出結果を受信した場合には、特定部分を正しく抽出できなかったと判断する。   The rule extraction unit 216 determines whether the specific part has been correctly extracted when the specific part is extracted. Specifically, when extracting a specific part, the rule extraction unit 216 transmits an extraction result to the extraction failure detection unit 217 and receives a detection result indicating that the extraction has been successful from the extraction failure detection unit 217. In this case, when it is determined that the specific part has been correctly extracted and a detection result indicating that re-extraction is necessary is received from the extraction failure detection unit 217, it is determined that the specific part has not been correctly extracted.

ルールによる抽出部216は、特定部分を正しく抽出できたと判断した場合、つまり、抽出失敗検出部217から抽出が成功した旨の検出結果を受信した場合、抽出結果を抽出結果送信部218に送信する。   When the rule extraction unit 216 determines that the specific portion has been correctly extracted, that is, when the detection result indicating that the extraction has been successful is received from the extraction failure detection unit 217, the extraction result is transmitted to the extraction result transmission unit 218. .

一方、ルールによる抽出部216は、特定部分を正しく抽出できなかったと判断した場合、つまり、抽出失敗検出部217から再抽出が必要である旨の検出結果を受信した場合、ルール保持部211から新たなルールを再度取得し、再度取得したルールに従って特定部分を再抽出し、再抽出による抽出結果を抽出結果送信部218に送信する。   On the other hand, when the rule extraction unit 216 determines that the specific part has not been correctly extracted, that is, when it receives a detection result indicating that re-extraction is necessary from the extraction failure detection unit 217, it extracts a new one from the rule holding unit 211. The specific part is re-extracted according to the re-obtained rule, and the extraction result by re-extraction is transmitted to the extraction result transmission unit 218.

抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信する。抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信した場合に、ルールによる抽出部216が特定部分を正しく抽出できたか否か、つまり、ルールによる抽出部216が特定部分の抽出に失敗したか否かを判断する。   The extraction failure detection unit 217 receives the extraction result from the rule extraction unit 216. When the extraction failure detection unit 217 receives the extraction result from the rule extraction unit 216, whether the rule extraction unit 216 has correctly extracted the specific part, that is, the rule extraction unit 216 extracts the specific part. Determine if it failed.

より詳細には、抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信した場合に、ルール保持部211からルールを取得し、ルールに書かれている抽出すべき部分のお手本と、実際に抽出された部分とを比較し、類似度が閾値以上であるか否かを判断する。換言すれば、抽出失敗検出部217は、ルールによる所定の抽出結果の雛形と抽出結果との類似度を算出し、類似度が閾値以上であるか否かを判断する。   More specifically, when the extraction failure detection unit 217 receives an extraction result from the rule extraction unit 216, the extraction failure detection unit 217 acquires a rule from the rule holding unit 211, and an example of a portion to be extracted written in the rule; It compares with the actually extracted part, and judges whether similarity is more than a threshold value. In other words, the extraction failure detection unit 217 calculates the similarity between the template of the predetermined extraction result based on the rule and the extraction result, and determines whether the similarity is equal to or greater than a threshold value.

抽出失敗検出部217は、類似度が閾値以上であると判断した場合、特定部分の抽出が失敗していないと判断し、抽出が成功した旨の検出結果をルールによる抽出部216に送信(返信)する。   If the extraction failure detection unit 217 determines that the similarity is equal to or greater than the threshold value, the extraction failure detection unit 217 determines that the extraction of the specific portion has not failed, and transmits a detection result indicating that the extraction has been successful to the rule extraction unit 216 (reply) )

一方、抽出失敗検出部217は、類似度が閾値未満であると判断した場合、特定部分の抽出が失敗したと判断し、コンテンツ送信部219にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果をルールによる抽出部216に送信する。なお、コンテンツ送信依頼は、ルールを再生成するために、ルール生成機構220にコンテンツを送信すべき依頼である。   On the other hand, if the extraction failure detection unit 217 determines that the degree of similarity is less than the threshold, it determines that the extraction of the specific part has failed, transmits a content transmission request to the content transmission unit 219, and requires re-extraction. A detection result to the effect is transmitted to the rule extraction unit 216. The content transmission request is a request for transmitting content to the rule generation mechanism 220 in order to regenerate the rule.

抽出結果送信部218は、ルールによる抽出部216が特定部分を正しく抽出できた場合、つまり、ルールによる抽出部216による特定部分の抽出が失敗していないと抽出失敗検出部217によって判断された場合、ルールによる抽出部216から抽出結果を受信し、リクエスト送信・結果受信装置10に送信(返信)する。抽出結果送信部218は、抽出結果を、例えばSOAPなどの形でWebサービスのレスポンスとして送信する。   When the extraction result transmission unit 218 correctly extracts the specific part by the rule extraction unit 216, that is, when the extraction failure detection unit 217 determines that the extraction of the specific part by the extraction unit 216 by the rule has not failed. The result of extraction from the rule extraction unit 216 is received and transmitted (returned) to the request transmission / result reception apparatus 10. The extraction result transmission unit 218 transmits the extraction result as a Web service response in the form of SOAP, for example.

コンテンツ送信部219は、ルールによる抽出部216が特定部分を正しく抽出できなかった場合、つまり、ルールによる抽出部216による特定部分の抽出が失敗したと抽出失敗検出部217によって判断された場合、抽出失敗検出部217からコンテンツ送信依頼を受信する。抽出失敗検出部217からコンテンツ送信依頼を受信したコンテンツ送信部219は、コンテンツ保持部215からコンテンツを取得し、ルール生成機構220に送信する。これによって、ルールが再生成される。   The content transmission unit 219 performs extraction when the extraction unit 216 according to the rule cannot correctly extract the specific part, that is, when the extraction failure detection unit 217 determines that the extraction of the specific part by the extraction unit 216 according to the rule has failed. A content transmission request is received from the failure detection unit 217. The content transmission unit 219 that has received the content transmission request from the extraction failure detection unit 217 acquires the content from the content holding unit 215 and transmits it to the rule generation mechanism 220. This regenerates the rules.

図4は、図2に示すルール生成機構220の構成図である。ルール生成機構220は、図4に示すように、ルール保持部221、コンテンツ受信部222、特定部分自動抽出部223、抽出結果選択部224、ルール生成部225およびルール更新部226から構成される。   FIG. 4 is a configuration diagram of the rule generation mechanism 220 shown in FIG. As shown in FIG. 4, the rule generation mechanism 220 includes a rule holding unit 221, a content reception unit 222, a specific part automatic extraction unit 223, an extraction result selection unit 224, a rule generation unit 225, and a rule update unit 226.

ルール保持部221は、ルール保持機構200が保持するルールをルール保持機構200から予め取得しておく(読み込んでおく)。また、ルール保持部221は、ルールの配信を行う。   The rule holding unit 221 acquires (reads) the rules held by the rule holding mechanism 200 from the rule holding mechanism 200 in advance. The rule holding unit 221 also distributes rules.

コンテンツ受信部222は、ルールによる抽出機構210からコンテンツを受信する。コンテンツ受信部222は、ルールによる抽出機構210から受信したコンテンツを特定部分自動抽出部223に送信する。   The content receiving unit 222 receives content from the rule extraction mechanism 210. The content receiving unit 222 transmits the content received from the rule extraction mechanism 210 to the specific part automatic extraction unit 223.

特定部分自動抽出部223は、コンテンツ受信部222からコンテンツを受信する。特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツの特定部分の候補を自動抽出する。具体的には、特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツから、ルールを使わずに、特定部分の候補を抽出結果候補として複数抽出する。特定部分自動抽出部223は、例えば、HTMLのタグの特徴などを使って特定部分候補を自動抽出する。特定部分自動抽出部223は、自動抽出した複数の抽出結果候補を抽出結果選択部224へ送信する。   The specific part automatic extraction unit 223 receives content from the content reception unit 222. The specific part automatic extraction unit 223 automatically extracts specific part candidates of the content received from the content reception unit 222. Specifically, the specific part automatic extracting unit 223 extracts a plurality of specific part candidates as extraction result candidates from the content received from the content receiving unit 222 without using a rule. The specific part automatic extraction unit 223 automatically extracts specific part candidates using, for example, the characteristics of an HTML tag. The specific part automatic extraction unit 223 transmits the plurality of extraction result candidates automatically extracted to the extraction result selection unit 224.

抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信する。抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信した場合、当該複数の抽出結果候補から一の抽出結果候補を最適な抽出結果として選択する。具体的には、抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信した場合、ルール保持部221からルールを取得し、ルールに書かれている抽出すべき部分のお手本と、各抽出結果候補とを比較し、最も類似している抽出結果候補を最適な抽出結果として選択する。換言すれば、抽出結果選択部224は、ルールによる所定の抽出結果の雛形と各抽出結果候補との類似度をそれぞれ算出し、類似度が最大の一の抽出結果候補を最適な抽出結果として選択する。抽出結果選択部224は、最適な抽出結果をルール生成部225に送信する。なお、最適な抽出結果とは、複数の抽出結果候補のうち正しい抽出結果である可能性が最も高く、新たなルールを生成に最適な抽出結果をいう。   The extraction result selection unit 224 receives a plurality of extraction result candidates from the specific part automatic extraction unit 223. When the extraction result selection unit 224 receives a plurality of extraction result candidates from the specific part automatic extraction unit 223, the extraction result selection unit 224 selects one extraction result candidate from the plurality of extraction result candidates as an optimum extraction result. Specifically, when the extraction result selection unit 224 receives a plurality of extraction result candidates from the specific part automatic extraction unit 223, the extraction result selection unit 224 acquires the rule from the rule holding unit 221 and extracts the part to be extracted written in the rule. The model is compared with each extraction result candidate, and the most similar extraction result candidate is selected as the optimum extraction result. In other words, the extraction result selection unit 224 calculates the similarity between the template of a predetermined extraction result based on the rule and each extraction result candidate, and selects the extraction result candidate having the maximum similarity as the optimum extraction result. To do. The extraction result selection unit 224 transmits the optimum extraction result to the rule generation unit 225. The optimum extraction result is the extraction result most likely to be a correct extraction result among a plurality of extraction result candidates, and is the optimum extraction result for generating a new rule.

ルール生成部225は、抽出結果選択部224から最適な抽出結果を受信する。ルール生成部225は、抽出結果選択部224から最適な抽出結果を受信した場合、最適な抽出結果を抽出するための新たなルールを生成する。換言すれば、ルール生成部225は、最適な抽出結果と同一の部分を抽出するための新たなルールを生成する。ルール生成部225は、生成した新たなルールをルール更新部226に送信する。   The rule generation unit 225 receives an optimum extraction result from the extraction result selection unit 224. When receiving an optimal extraction result from the extraction result selection unit 224, the rule generation unit 225 generates a new rule for extracting the optimal extraction result. In other words, the rule generation unit 225 generates a new rule for extracting the same part as the optimal extraction result. The rule generation unit 225 transmits the generated new rule to the rule update unit 226.

ルール更新部226は、ルール生成部225から新たなルールを受信する。ルール更新部226は、ルール生成部225から受信した新たなルールをルールによる抽出機構210とルール保持機構200とに送信する。これによって、ルールが更新される。   The rule update unit 226 receives a new rule from the rule generation unit 225. The rule update unit 226 transmits the new rule received from the rule generation unit 225 to the rule extraction mechanism 210 and the rule holding mechanism 200. As a result, the rule is updated.

図5は、抽出装置20の動作を示すシーケンス図である。なお、図5は、特定部分の抽出に失敗した場合の動作を示シーケンス図である。ルールによる抽出機構210は、予め、ルール保持機構200からルールを読み込む(S10)。ルール生成機構220は、予め、ルール保持機構200からルールを読み込む(S11)。   FIG. 5 is a sequence diagram illustrating the operation of the extraction device 20. FIG. 5 is a sequence diagram illustrating an operation when extraction of a specific portion fails. The rule extraction mechanism 210 reads a rule from the rule holding mechanism 200 in advance (S10). The rule generation mechanism 220 reads a rule from the rule holding mechanism 200 in advance (S11).

リクエスト送信・結果受信装置10は、ルールによる抽出機構210にリクエスト(抽出要求)を送信する(S12)。ルールによる抽出機構210は、リクエスト(抽出要求)をコンテンツリクエスト(コンテンツ要求)に変換し、コンテンツ提供装置30に送信する(S13)。   The request transmission / result reception apparatus 10 transmits a request (extraction request) to the rule extraction mechanism 210 (S12). The rule extraction mechanism 210 converts the request (extraction request) into a content request (content request) and transmits it to the content providing apparatus 30 (S13).

コンテンツ提供装置30は、コンテンツリクエスト(コンテンツ要求)に対するコンテンツをルールによる抽出機構210に返信する(S14)。ルールによる抽出機構210は、ルールに従って、受信したコンテンツから特定部分を抽出する。ルールによる抽出機構210は、特定部分の抽出に失敗したと判断する。ルールによる抽出機構210は、ルールの再生成のために、コンテンツをルール生成機構220に送信する(S15)。   The content providing apparatus 30 returns the content corresponding to the content request (content request) to the rule extraction mechanism 210 (S14). The rule extraction mechanism 210 extracts a specific part from the received content according to the rule. The rule extraction mechanism 210 determines that the extraction of the specific portion has failed. The rule extraction mechanism 210 transmits the content to the rule generation mechanism 220 to regenerate the rules (S15).

ルール生成機構220は、受信したコンテンツを用いて新たなルールを生成する。ルール生成機構220は、新たなルールをルールによる抽出機構210およびルール保持機構200に送信することによってルールを更新する(S16)。   The rule generation mechanism 220 generates a new rule using the received content. The rule generation mechanism 220 updates the rule by transmitting a new rule to the rule extraction mechanism 210 and the rule holding mechanism 200 (S16).

ルールによる抽出機構210は、新たなルールに従って、コンテンツの特定部分を再抽出する。ルールによる抽出機構210は、再抽出の結果をリクエスト送信・結果受信装置10に返信する(S17)。   The rule extraction mechanism 210 re-extracts the specific part of the content according to the new rule. The rule extraction mechanism 210 returns the re-extraction result to the request transmission / result reception apparatus 10 (S17).

図6、7は、ルールによる抽出機構210の動作を示すシーケンス図である。なお、図6は、特定部分の抽出に失敗した場合の動作を示シーケンス図である。ルール保持部211は、ルール保持機構200から予めルールを読み込む(S20)。   6 and 7 are sequence diagrams showing the operation of the extraction mechanism 210 based on rules. FIG. 6 is a sequence diagram illustrating an operation when extraction of a specific portion fails. The rule holding unit 211 reads a rule in advance from the rule holding mechanism 200 (S20).

リクエスト送信・結果受信装置10は、リクエスト受信部212にリクエスト(抽出要求)を送信する(S21)。リクエスト受信部212は、受信したリクエストをリクエスト組立部213に送信する(S22)。リクエスト組立部213は、ルール保持部211からルールを読み込む(S23)。   The request transmission / result reception apparatus 10 transmits a request (extraction request) to the request reception unit 212 (S21). The request reception unit 212 transmits the received request to the request assembly unit 213 (S22). The request assembling unit 213 reads the rule from the rule holding unit 211 (S23).

リクエスト組立部213は、読み込んだルールに従って、受信したリクエスト(抽出要求)から、コンテンツを取得するためのコンテンツリクエスト(コンテンツ要求)を組み立てる。リクエスト組立部213は、組み立てたコンテンツリクエストをリクエスト送信部214に送信する(S24)。リクエスト送信部214は、受信したコンテンツリクエストをコンテンツ提供装置30に送信する(S25)。   The request assembling unit 213 assembles a content request (content request) for acquiring content from the received request (extraction request) according to the read rule. The request assembly unit 213 transmits the assembled content request to the request transmission unit 214 (S24). The request transmission unit 214 transmits the received content request to the content providing apparatus 30 (S25).

コンテンツ提供装置30は、コンテンツリクエスト(コンテンツ要求)に対するコンテンツをコンテンツ保持部215に送信する(S26)。コンテンツ保持部215は、受信したコンテンツを保持し、コンテンツをルールによる抽出部216に送信する(S27)。ルールによる抽出部216は、コンテンツから特定部分を抽出するためのルールをルール保持部211から読み込む(S28)。ルールによる抽出部216は、ルールに従って、コンテンツから特定部分を抽出する。   The content providing apparatus 30 transmits content corresponding to the content request (content request) to the content holding unit 215 (S26). The content holding unit 215 holds the received content and transmits the content to the rule extraction unit 216 (S27). The rule extraction unit 216 reads a rule for extracting a specific part from the content from the rule holding unit 211 (S28). The rule extraction unit 216 extracts a specific part from the content according to the rule.

ルールによる抽出部216は、抽出結果を抽出失敗検出部217に送信する(S29)。抽出失敗検出部217は、ルールによる抽出部216が特定部分を正しく抽出できたか否かを判断するために、ルール保持部211からルールを読み込む(S30)。   The rule extraction unit 216 transmits the extraction result to the extraction failure detection unit 217 (S29). The extraction failure detection unit 217 reads the rule from the rule holding unit 211 in order to determine whether or not the rule extraction unit 216 has correctly extracted the specific part (S30).

抽出失敗検出部217は、ルールに従って、ルールによる抽出部216が特定部分を正しく抽出できたか否かを判断する。ここでは、抽出失敗検出部217は、正しく抽出できていない、つまり、抽出失敗と判断する。抽出失敗検出部217は、ルールの再生成が必要であるため、コンテンツ送信部219にコンテンツ送信依頼を送信する(S31)。コンテンツ送信部219は、コンテンツ保持部215からコンテンツを読み込む(S32)。コンテンツ送信部219は、読み込んだコンテンツをルール生成機構220に送信する(S33)。   The extraction failure detection unit 217 determines whether the extraction unit 216 according to the rule has correctly extracted the specific part according to the rule. Here, the extraction failure detection unit 217 determines that extraction has not been performed correctly, that is, extraction failure. Since the extraction failure detection unit 217 needs to regenerate the rule, the extraction failure detection unit 217 transmits a content transmission request to the content transmission unit 219 (S31). The content transmission unit 219 reads content from the content holding unit 215 (S32). The content transmission unit 219 transmits the read content to the rule generation mechanism 220 (S33).

ルール生成機構220は、受信したコンテンツを用いて新たなルールを生成する。ルール生成機構220は、新たなルールをルール保持部211およびルール保持機構200に送信することでルールを更新する(S34)。   The rule generation mechanism 220 generates a new rule using the received content. The rule generation mechanism 220 updates the rule by transmitting a new rule to the rule holding unit 211 and the rule holding mechanism 200 (S34).

抽出失敗検出部217は、ルールの更新によって再抽出が必要である旨(ルールが更新された旨)の検出結果をルールによる抽出部216に送信する(S35)。再抽出が必要である旨の検出結果を受信したルールによる抽出部216は、ルールを再読み込みする(S36)。ルールによる抽出部216は、再度、読み込んだルールに従って、コンテンツから特定部分を再抽出する。ルールによる抽出部216は、再抽出結果を抽出結果送信部218に送信する(S37)。抽出結果送信部218は、抽出結果をリクエスト送信・結果受信装置10に送信する(S38)。   The extraction failure detection unit 217 transmits a detection result indicating that re-extraction is necessary (updated rule) to the rule extraction unit 216 (S35). The rule extraction unit 216 that has received the detection result indicating that re-extraction is necessary re-reads the rule (S36). The rule extraction unit 216 again extracts a specific part from the content in accordance with the read rule. The rule extraction unit 216 transmits the re-extraction result to the extraction result transmission unit 218 (S37). The extraction result transmission unit 218 transmits the extraction result to the request transmission / result reception apparatus 10 (S38).

図8は、ルール生成機構220の動作を示すシーケンス図である。ルール保持部221は、ルール保持機構200から予めルールを読み込む(S40)。   FIG. 8 is a sequence diagram showing the operation of the rule generation mechanism 220. The rule holding unit 221 reads a rule in advance from the rule holding mechanism 200 (S40).

ルールによる抽出機構210は、特定部分の抽出に失敗した場合、コンテンツをコンテンツ受信部222に送信する(S41)。コンテンツ受信部222は、受信したコンテンツを特定部分自動抽出部223に送信する(S42)。   When the rule extraction mechanism 210 fails to extract a specific part, the content is transmitted to the content receiver 222 (S41). The content receiving unit 222 transmits the received content to the specific part automatic extraction unit 223 (S42).

特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツから、ルールを使わずに、特定部分の候補を抽出結果候補として複数抽出する。例えば、特定部分自動抽出部223は、HTMLのタグの特徴などを使って特定部分候補を自動抽出する。特定部分自動抽出部223は、複数の抽出結果候補から最適な抽出結果を選択するために、複数の抽出結果候補を抽出結果選択部224に送信する(S43)。   The specific part automatic extraction unit 223 extracts a plurality of specific part candidates as extraction result candidates from the content received from the content reception unit 222 without using rules. For example, the specific part automatic extraction unit 223 automatically extracts specific part candidates using the characteristics of HTML tags. The specific part automatic extraction unit 223 transmits a plurality of extraction result candidates to the extraction result selection unit 224 in order to select an optimum extraction result from the plurality of extraction result candidates (S43).

抽出結果選択部224は、ルール保持部221からルールを読み込む(S44)。抽出結果選択部224は、抽出結果候補の各候補とルールのお手本とを比較し、最も類似している抽出結果候補を最適な抽出結果として選択する(図8において「正しい抽出結果選択」と記載)。抽出結果選択部224は、最適な抽出結果(図8において、単に「抽出結果」と記載)をルール生成部225に送信する(S45)。   The extraction result selection unit 224 reads the rule from the rule holding unit 221 (S44). The extraction result selection unit 224 compares each extraction result candidate with the rule model, and selects the most similar extraction result candidate as the optimum extraction result (described as “correct extraction result selection” in FIG. 8). ). The extraction result selection unit 224 transmits the optimum extraction result (simply described as “extraction result” in FIG. 8) to the rule generation unit 225 (S45).

ルール生成部225は、受信した最適な抽出結果を抽出するための新たなルールを生成する。ルール生成部225は、生成したルールをルール更新部226に送信する(S46)。ルール更新部226は、受信したルールをルール保持機構200およびルールによる抽出機構210に送信することでルールを更新する(S47)。   The rule generation unit 225 generates a new rule for extracting the received optimal extraction result. The rule generation unit 225 transmits the generated rule to the rule update unit 226 (S46). The rule update unit 226 updates the rule by transmitting the received rule to the rule holding mechanism 200 and the rule extraction mechanism 210 (S47).

図9は、抽出失敗検出部217の動作を示すフローチャートである。抽出失敗検出部217は、ルールによる抽出部216から抽出結果を取得する(ステップS100)。抽出失敗検出部217は、ルール保持部211からルールを読み込む(ステップS110)。抽出失敗検出部217は、抽出結果とルール中の抽出するべきお手本との類似度を算出する(ステップS120)。抽出失敗検出部217は、算出した類似度が閾値以上であるか否かを判断する(ステップS130)。   FIG. 9 is a flowchart showing the operation of the extraction failure detection unit 217. The extraction failure detection unit 217 acquires the extraction result from the rule extraction unit 216 (step S100). The extraction failure detection unit 217 reads the rule from the rule holding unit 211 (step S110). The extraction failure detection unit 217 calculates the similarity between the extraction result and the model to be extracted in the rule (step S120). The extraction failure detection unit 217 determines whether or not the calculated similarity is greater than or equal to a threshold value (step S130).

抽出失敗検出部217は、類似度が閾値以上であると判断した場合(ステップS130:Yes)、抽出成功と判断し、ルールによる抽出部216に「抽出成功」と送信する(S140)。つまり、抽出失敗検出部217は、抽出が成功した旨の検出結果をルールによる抽出部216に送信する。   If the extraction failure detection unit 217 determines that the similarity is greater than or equal to the threshold (step S130: Yes), the extraction failure detection unit 217 determines that the extraction is successful and transmits “extraction success” to the rule extraction unit 216 (S140). That is, the extraction failure detection unit 217 transmits a detection result indicating that the extraction has been successful to the rule extraction unit 216.

一方、抽出失敗検出部217は、類似度が閾値未満であると判断した場合(ステップS130:No)、抽出失敗と判断し、ルール生成のためにコンテンツ送信部219にコンテンツ送信依頼を送信する(S150)。なお、抽出失敗検出部217は、再抽出が必要である旨の検出結果をルールによる抽出部216に送信する。   On the other hand, if the extraction failure detection unit 217 determines that the similarity is less than the threshold (No at Step S130), the extraction failure detection unit 217 determines that the extraction has failed and transmits a content transmission request to the content transmission unit 219 for rule generation ( S150). The extraction failure detection unit 217 transmits a detection result indicating that re-extraction is necessary to the rule extraction unit 216.

図10は、抽出結果選択部224の動作を示すフローチャートである。抽出結果選択部224は自動抽出結果である複数の抽出結果候補を取得する(ステップS200)。抽出結果選択部224は、ルール保持部221からルールを読み込む(ステップS210)。抽出結果選択部224は、各抽出結果候補とルール中の抽出すべきお手本との類似度を算出する(ステップS220)。抽出結果選択部224は、算出した類似度が閾値以上の抽出結果候補があるか否かを判断する(ステップS230)。   FIG. 10 is a flowchart showing the operation of the extraction result selection unit 224. The extraction result selection unit 224 acquires a plurality of extraction result candidates that are automatic extraction results (step S200). The extraction result selection unit 224 reads the rule from the rule holding unit 221 (step S210). The extraction result selection unit 224 calculates the similarity between each extraction result candidate and the model to be extracted in the rule (step S220). The extraction result selection unit 224 determines whether there is an extraction result candidate whose calculated similarity is equal to or greater than a threshold (step S230).

抽出結果選択部224は、類似度が閾値以上の抽出結果候補があると判断した場合(ステップS230:Yes)、ルール生成のために類似度が高い抽出結果(具体的には最適な抽出結果)をルール生成部225に送信する(S240)。   If the extraction result selection unit 224 determines that there is an extraction result candidate whose similarity is equal to or greater than the threshold (step S230: Yes), the extraction result having a high similarity for rule generation (specifically, an optimal extraction result) Is transmitted to the rule generation unit 225 (S240).

一方、抽出結果選択部224は、類似度が閾値以上の抽出結果候補がないと判断した場合(ステップS230:No)、ルールの再生成に失敗したと判断し、ルールの再生成と再抽出をあきらめる(ステップS250)。   On the other hand, if the extraction result selection unit 224 determines that there is no extraction result candidate whose similarity is equal to or higher than the threshold (step S230: No), the extraction result selection unit 224 determines that the rule regeneration has failed, and performs rule regeneration and re-extraction. Give up (step S250).

以上、本発明によれば、ラッパがWebアプリケーション側の変更に自動的に追従することで、ラッパのメンテナンスコストを削減することができるようになる。同時に、ラッパが動作不能となることを減らし、サービス停止時間を削減できるようになる。   As described above, according to the present invention, since the wrapper automatically follows the change on the Web application side, the maintenance cost of the wrapper can be reduced. At the same time, it becomes possible to reduce the inoperability of the wrapper and reduce the service stop time.

なお、抽出装置20の各処理を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、抽出装置20に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。   It should be noted that a program for realizing each process of the extraction device 20 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed, whereby the extraction device 20 is executed. The various processes described above may be performed. Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

本発明の実施形態に係る抽出システム1の構成図である。It is a lineblock diagram of extraction system 1 concerning an embodiment of the present invention. 図1に示す抽出装置20の構成を説明するための図である。It is a figure for demonstrating the structure of the extracting device 20 shown in FIG. 図2に示すルールによる抽出機構210の構成図である。It is a block diagram of the extraction mechanism 210 by the rule shown in FIG. 図2に示すルール生成機構220の構成図である。It is a block diagram of the rule production | generation mechanism 220 shown in FIG. 抽出装置20の動作を示すシーケンス図である。FIG. 6 is a sequence diagram showing an operation of the extraction device 20. ルールによる抽出機構210の動作を示すシーケンス図である。It is a sequence diagram which shows operation | movement of the extraction mechanism 210 by a rule. ルールによる抽出機構210の動作を示すシーケンス図である。It is a sequence diagram which shows operation | movement of the extraction mechanism 210 by a rule. ルール生成機構220の動作を示すシーケンス図である。FIG. 6 is a sequence diagram showing an operation of a rule generation mechanism 220. 抽出失敗検出部217の動作を示すフローチャートである。10 is a flowchart showing the operation of an extraction failure detection unit 217. 抽出結果選択部224の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the extraction result selection part 224.

符号の説明Explanation of symbols

1 抽出システム 10 リクエスト送信・結果受信装置 20 抽出装置 30 コンテンツ提供装置 200 ルール保持機構 210 ルールによる抽出機構 211 ルール保持部 212 リクエスト受信部 213 リクエスト組立部 214 リクエスト送信部 215 コンテンツ保持部 216 ルールによる抽出部 217 抽出失敗検出部 218 コンテンツ送信部 219 抽出結果送信部 220 ルール生成機構 221 ルール保持部 222 コンテンツ受信部 223 特定部分自動抽出部 224 抽出結果選択部 225 ルール生成部 226 ルール更新部 DESCRIPTION OF SYMBOLS 1 Extraction system 10 Request transmission / result reception apparatus 20 Extraction apparatus 30 Content provision apparatus 200 Rule holding mechanism 210 Rule extraction mechanism 211 Rule holding section 212 Request reception section 213 Request assembly section 214 Request transmission section 215 Content holding section 216 Extraction by rule Unit 217 extraction failure detection unit 218 content transmission unit 219 extraction result transmission unit 220 rule generation mechanism 221 rule holding unit 222 content reception unit 223 specific part automatic extraction unit 224 extraction result selection unit 225 rule generation unit 226 rule update unit

Claims (8)

コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ送信装置にコンテンツ要求を送信することによって、前記コンテンツ送信装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置であって、
前記抽出要求に応えるためのルールを保持するルール保持機構と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
を備え、
前記ルールによる抽出機構は、
前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出装置。
When the extraction request is received from a request transmission / result receiving apparatus that transmits an extraction request for requesting extraction of a specific part in the content, the content transmission is performed by transmitting the content request to a content transmission apparatus that holds the content. An extraction device that receives content related to the extraction request from a device, extracts a specific part of the content, and transmits the extracted result to the request transmission / result reception device,
A rule holding mechanism for holding a rule for responding to the extraction request;
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus , An extraction mechanism based on a rule for extracting a specific part according to the rule,
A rule generation mechanism that generates a new rule when extraction of a specific part by the extraction mechanism by the rule fails;
The extraction mechanism by the rule is:
When the rule generation mechanism generates a new rule, the extraction device re-extracts the specific portion according to the new rule.
前記ルールによる抽出機構は、
前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
前記ルール生成機構は、
前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たなルールとして生成することを特徴とする請求項1に記載の抽出装置。
The extraction mechanism by the rule is:
Based on the similarity between the extraction result extracted from the content received from the content providing device according to the rule and the template of the predetermined extraction result according to the rule, it is determined whether or not the extraction of the specific part has failed,
The rule generation mechanism is:
Among the plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus, the extraction result candidate having the maximum similarity with the template of the predetermined extraction result by the rule is selected as the optimum extraction result. The extraction apparatus according to claim 1, wherein a rule for extracting the optimum extraction result is generated as a new rule.
前記ルールによる抽出機構は、
前記ルール保持機構から前記ルールを取得し、前記ルールの更新と配信とを行うルール保持部と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信するリクエスト受信部と、
前記リクエスト受信部によって受信された前記抽出要求を、前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ要求に変換するリクエスト組立部と、
前記リクエスト組立部によって変換された前記コンテンツ要求を前記コンテンツ提供装置に送信するリクエスト送信部と、
前記コンテンツ要求に対するコンテンツをコンテンツ提供装置から受信し、保持し、配信するコンテンツ保持部と、
前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ保持部によって受信された前記コンテンツから特定部分を抽出するルールによる抽出部と、
前記ルールによる抽出部による特定部分の抽出が失敗したか否かを判断する抽出失敗検出部と、
特定部分の抽出が失敗していないと前記抽出失敗検出部によって判断された場合に、前記ルールによる抽出部による前記抽出結果を前記リクエスト送信・結果受信装置に返信する抽出結果送信部と、
特定部分の抽出が失敗していると前記抽出失敗検出部によって判断された場合に、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信するコンテンツ送信部と
を有し、
前記ルールによる抽出部は、
前記コンテンツ送信部によって送信された前記コンテンツに基づいて前記ルール生成機構が生成した新たな前記ルールに従って特定部分を再抽出することを特徴とする請求項1に記載の抽出装置。
The extraction mechanism by the rule is:
A rule holding unit that obtains the rule from the rule holding mechanism and updates and distributes the rule;
A request receiving unit that receives the extraction request from the request transmission / result reception device;
A request assembling unit that converts the extraction request received by the request receiving unit into the content request in accordance with the rule acquired by the rule holding unit;
A request transmitting unit that transmits the content request converted by the request assembling unit to the content providing device;
A content holding unit that receives, holds, and distributes content corresponding to the content request from a content providing device;
An extraction unit based on a rule for extracting a specific part from the content received by the content holding unit according to the rule acquired by the rule holding unit;
An extraction failure detection unit that determines whether or not extraction of a specific part by the extraction unit according to the rule has failed;
When the extraction failure detection unit determines that the extraction of the specific part has not failed, an extraction result transmission unit that returns the extraction result by the extraction unit according to the rule to the request transmission / result reception device;
A content transmission unit that acquires the content from the content holding unit and transmits it to the rule generation mechanism when the extraction failure detection unit determines that the extraction of the specific part has failed;
The extraction part according to the rule is:
The extraction device according to claim 1, wherein the specific portion is re-extracted according to the new rule generated by the rule generation mechanism based on the content transmitted by the content transmission unit.
前記ルールによる抽出部は、
特定部分を抽出した場合に、前記抽出結果を前記抽出失敗検出部に送信し、前記抽出失敗検出部から抽出が成功した旨の検出結果を受信したときは、前記抽出結果を前記抽出結果送信部に送信し、前記抽出失敗検出部から再抽出が必要である旨の検出結果を受信したときは、前記新たなルールに従って特定部分を再抽出し、
前記抽出失敗検出部は、
前記ルールによる抽出部から前記抽出結果を受信した場合に、前記ルール保持部からルールを取得し、前記ルールによる所定の抽出結果の雛形と前記抽出結果との類似度を算出することによって、前記類似度が閾値以上であるときは、特定部分の抽出が失敗していないと判断し、前記抽出が成功した旨の検出結果を前記ルールによる抽出部に返信し、前記類似度が閾値未満である場合には、特定部分の抽出が失敗したと判断し、前記ルールを再生成するために前記コンテンツ送信部にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果を前記ルールによる抽出部に送信し、
前記コンテンツ送信部は、
前記コンテンツ送信依頼を受信したときに、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信することを特徴とする請求項3に記載の抽出装置。
The extraction part according to the rule is:
When the specific part is extracted, the extraction result is transmitted to the extraction failure detection unit, and when the detection result indicating that the extraction is successful is received from the extraction failure detection unit, the extraction result is transmitted to the extraction result transmission unit. When the detection result indicating that re-extraction is necessary is received from the extraction failure detection unit, the specific part is re-extracted according to the new rule,
The extraction failure detection unit
When the extraction result is received from the extraction unit based on the rule, the similarity is obtained by obtaining a rule from the rule holding unit and calculating a similarity between a template of a predetermined extraction result based on the rule and the extraction result When the degree is equal to or greater than a threshold value, it is determined that the extraction of the specific part has not failed, and the detection result indicating that the extraction is successful is returned to the extraction unit according to the rule, and the similarity is less than the threshold value In this case, it is determined that the extraction of the specific part has failed, the content transmission request is transmitted to the content transmission unit to regenerate the rule, and the detection result indicating that the re-extraction is necessary is extracted by the rule. Send to the department,
The content transmitting unit
The extraction apparatus according to claim 3, wherein when the content transmission request is received, the content is acquired from the content holding unit and transmitted to the rule generation mechanism.
前記ルール生成機構は、
前記ルール保持機構からルールを読み込み、ルールの配信を行うルール保持部と、
前記ルールによる抽出機構から前記コンテンツを受信するコンテンツ受信部と、
コンテンツ受信部によって受信された前記コンテンツの特定部分の抽出結果候補を自動抽出する特定部分自動抽出部と、
前記ルール保持部からルールを読み込み、前記ルールによる所定の抽出結果の雛形と、前記特定部分自動抽出部によって自動抽出された複数の抽出結果候補のそれぞれとの類似度を算出することによって、前記類似度が最大の一の抽出結果候補を最適な抽出結果として選択する抽出結果選択部と、
前記抽出結果選択部によって選択された前記最適な抽出結果を抽出するための新たなルールを生成するルール生成部と、
前記ルール生成部によって生成された新たなルールを前記ルールによる抽出機構とルール保持機構に送信することによって前記ルールを更新するルール更新部と
を有する請求項1に記載の抽出装置。
The rule generation mechanism is:
A rule holding unit that reads a rule from the rule holding mechanism and distributes the rule;
A content receiver that receives the content from the extraction mechanism according to the rule;
A specific part automatic extraction unit for automatically extracting extraction result candidates of the specific part of the content received by the content receiving unit;
The similarity is obtained by reading a rule from the rule holding unit and calculating a similarity between a template of a predetermined extraction result based on the rule and each of a plurality of extraction result candidates automatically extracted by the specific part automatic extraction unit. An extraction result selection unit that selects an extraction result candidate having the maximum degree as an optimum extraction result;
A rule generation unit that generates a new rule for extracting the optimum extraction result selected by the extraction result selection unit;
The extraction device according to claim 1, further comprising: a rule update unit that updates the rule by transmitting a new rule generated by the rule generation unit to the extraction mechanism based on the rule and a rule holding mechanism.
コンテンツの特定部分を抽出する抽出システムであって、
コンテンツを要求するコンテンツ要求に応じて、保持しているコンテンツを送信するコンテンツ提供装置と、
コンテンツ内の特定部分の抽出を要求する抽出要求を送信し、前記抽出要求に対する抽出結果を受信するリクエスト送信・結果受信装置と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、前記抽出要求に係るコンテンツを要求するコンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置と
を備え、
前記抽出装置は、
前記抽出要求に応えるためのルールを保持するルール保持機構と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
を有し、
前記ルールによる抽出機構は、
前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出システム。
An extraction system that extracts a specific part of content,
A content providing device that transmits content held in response to a content request for requesting content;
A request transmission / result reception device for transmitting an extraction request for requesting extraction of a specific part in content and receiving an extraction result for the extraction request;
Receiving the extraction request from the request transmission / result receiving device, transmitting a content request for requesting content related to the extraction request to the content providing device, extracting a specific part of the content received from the content providing device; An extraction device that transmits to the request transmission / result reception device as an extraction result,
The extraction device comprises:
A rule holding mechanism for holding a rule for responding to the extraction request;
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus , An extraction mechanism based on a rule for extracting a specific part according to the rule,
A rule generation mechanism for generating a new rule when extraction of a specific part by the extraction mechanism by the rule fails;
The extraction mechanism by the rule is:
An extraction system, wherein when the rule generation mechanism generates a new rule, a specific portion is re-extracted according to the new rule.
コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、前記抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ送信装置にコンテンツ要求を送信することによって、前記コンテンツ送信装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置よるコンテンツ内の特定部分を抽出する抽出方法であって、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、
前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップと
を有し、
前記ルールによる抽出ステップは、
前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出方法。
A content transmission apparatus that holds a rule for responding to an extraction request for requesting extraction of a specific part in content, and that holds the content when the extraction request is received from a request transmission / result reception apparatus that transmits the extraction request Content by the extraction device that receives the content related to the extraction request from the content transmission device, extracts a specific part of the content, and transmits it to the request transmission / result reception device as an extraction result An extraction method for extracting a specific part of
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus An extraction step according to a rule for extracting a specific part according to the rule;
A rule generation step for generating a new rule when the extraction of the specific part by the extraction step by the rule fails,
The extraction step according to the rule includes:
When the rule generation step generates a new rule, a specific portion is re-extracted according to the new rule.
コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、前記抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ送信装置にコンテンツ要求を送信することによって、前記コンテンツ送信装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置のコンピュータに、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、
前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップと
を実行させ、
前記ルールによる抽出ステップは、
前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とするプログラム。
A content transmission apparatus that holds a rule for responding to an extraction request for requesting extraction of a specific part in content, and that holds the content when the extraction request is received from a request transmission / result reception apparatus that transmits the extraction request A computer of the extraction device that receives the content related to the extraction request from the content transmission device, extracts a specific part of the content, and transmits it as an extraction result to the request transmission / result reception device In addition,
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus An extraction step according to a rule for extracting a specific part according to the rule;
When the extraction of the specific part by the extraction step by the rule fails, the rule generation step for generating a new rule is executed,
The extraction step according to the rule includes:
When the rule generation step generates a new rule, a specific part is re-extracted according to the new rule.
JP2008215478A 2008-08-25 2008-08-25 Extraction apparatus, extraction system, extraction method and program Expired - Fee Related JP5153516B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008215478A JP5153516B2 (en) 2008-08-25 2008-08-25 Extraction apparatus, extraction system, extraction method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008215478A JP5153516B2 (en) 2008-08-25 2008-08-25 Extraction apparatus, extraction system, extraction method and program

Publications (2)

Publication Number Publication Date
JP2010049638A true JP2010049638A (en) 2010-03-04
JP5153516B2 JP5153516B2 (en) 2013-02-27

Family

ID=42066641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008215478A Expired - Fee Related JP5153516B2 (en) 2008-08-25 2008-08-25 Extraction apparatus, extraction system, extraction method and program

Country Status (1)

Country Link
JP (1) JP5153516B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140050075A (en) * 2011-07-29 2014-04-28 쌩-고벵 글래스 프랑스 Illuminated glass panel for a vehicle, and manufacture thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189740A (en) * 2000-12-19 2002-07-05 Appresso:Kk Data conversion system
JP2008003848A (en) * 2006-06-22 2008-01-10 Nippon Telegr & Teleph Corp <Ntt> Half-structured data structuring system, device and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189740A (en) * 2000-12-19 2002-07-05 Appresso:Kk Data conversion system
JP2008003848A (en) * 2006-06-22 2008-01-10 Nippon Telegr & Teleph Corp <Ntt> Half-structured data structuring system, device and method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200800460016; 中野 雄介 他: 'WebアプリケーションWebサービス化ラッパシステムの実装と評価' 情報処理学会論文誌 Vol.49,No.2, 20080215, PP.727-738., 情報処理学会 *
CSNH200800078008; 中野 雄介 他: 'Webアプリの新たな使い方ーラッパによるWebアプリ連携' NTT技術ジャーナル Vol.20,No.6, 20080601, PP.40-43., (社)電気通信協会 *
JPN6012045493; 中野 雄介 他: 'Webアプリの新たな使い方ーラッパによるWebアプリ連携' NTT技術ジャーナル Vol.20,No.6, 20080601, PP.40-43., (社)電気通信協会 *
JPN6012045496; 中野 雄介 他: 'WebアプリケーションWebサービス化ラッパシステムの実装と評価' 情報処理学会論文誌 Vol.49,No.2, 20080215, PP.727-738., 情報処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140050075A (en) * 2011-07-29 2014-04-28 쌩-고벵 글래스 프랑스 Illuminated glass panel for a vehicle, and manufacture thereof
KR101973219B1 (en) * 2011-07-29 2019-04-26 쌩-고벵 글래스 프랑스 Illuminated glass panel for a vehicle, and manufacture thereof

Also Published As

Publication number Publication date
JP5153516B2 (en) 2013-02-27

Similar Documents

Publication Publication Date Title
JP4644940B2 (en) Billing method, script conversion system and method
CN106534243B (en) Caching, requesting and responding method based on HTTP protocol and corresponding device
JP6588477B2 (en) Remote information query method and server
KR100623482B1 (en) Method for Supporting Session Mobility
US9648119B2 (en) Methods and devices for exchanging data
US20150113015A1 (en) Method and Apparatus for Acquiring Resource
JP5488349B2 (en) Relay device, relay method, and relay program
KR20100087561A (en) Method for managing contents with contents tag and apparatus thereof
US8478943B2 (en) Content caching device, content caching method, and computer readable medium
JP5153516B2 (en) Extraction apparatus, extraction system, extraction method and program
JP5084665B2 (en) Component linkage scenario integrated development environment providing system, scenario creation support method, and program
JP2006243963A (en) Information transmission system and information transmission method
JP6620558B2 (en) Information processing apparatus and information processing program
CN110866196A (en) Printer network information acquisition method and device and electronic equipment
CN111125142B (en) Data updating method and system
KR20150072680A (en) Apparatus and Method for managing Safety Number
JP4887129B2 (en) Update information generation apparatus, identification information update system, identification information update method and program
CN110505277B (en) Data caching method and device and client
CN101917476A (en) Hyper text transmission protocol (HTTP) message processing method and client system thereof
KR101363164B1 (en) Method and apparatus for sharing media content using modified url
CN106453573A (en) Method and system for processing CGI request in HTTP server
KR101351569B1 (en) An identity sharing method and apparatus in mobile computing environment
KR100596922B1 (en) Method of Transmitting Multimedia Messages in the Mobile Communication Terminal
JP4937794B2 (en) Load distribution system, cooperative service providing apparatus, information sharing storage apparatus, load distribution method, and load distribution program
CN104904185A (en) Content transmission system, content transmission device, terminal, and content transmission method

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100526

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5153516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees