JP5153516B2 - Extraction apparatus, extraction system, extraction method and program - Google Patents
Extraction apparatus, extraction system, extraction method and program Download PDFInfo
- Publication number
- JP5153516B2 JP5153516B2 JP2008215478A JP2008215478A JP5153516B2 JP 5153516 B2 JP5153516 B2 JP 5153516B2 JP 2008215478 A JP2008215478 A JP 2008215478A JP 2008215478 A JP2008215478 A JP 2008215478A JP 5153516 B2 JP5153516 B2 JP 5153516B2
- Authority
- JP
- Japan
- Prior art keywords
- extraction
- rule
- content
- request
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、抽出装置、抽出システム、抽出方法およびプログラムに関する。特に、本発明は、Webアプリケーションが生成するHTMLドキュメントから特定部分を抽出する抽出装置、抽出システム、抽出方法およびプログラムに関する。 The present invention relates to an extraction device, an extraction system, an extraction method, and a program. In particular, the present invention relates to an extraction device, an extraction system, an extraction method, and a program for extracting a specific portion from an HTML document generated by a Web application.
近年、Webサービスの必要性が高まっている。Webサービスとは様々なサービスを実現するために、部品としても用いられているサービスコンポーネントのことであり、主に、B2Bの分野で用いられてきた。加えて近年、ユビキタス分野においてもこれらを用いる動きがあり、B2CやC2CにおいてもWebサービスが活躍しつつある。しかし、現段階では利用可能なWebサービス数は少なく、様々なサービスを提供するには至っていない。そこで、Webサービス数を増やし、それらを組み合わせることで様々なサービスを実現できる環境を作る必要がある。 In recent years, the need for Web services has increased. Web services are service components that are also used as parts to realize various services, and have been used mainly in the field of B2B. In addition, in recent years, there is a movement to use these also in the ubiquitous field, and Web services are being actively used in B2C and C2C. However, at this stage, the number of Web services that can be used is small, and various services have not been provided. Therefore, it is necessary to create an environment that can realize various services by increasing the number of Web services and combining them.
既存のWebアプリケーションをWebサービスとして利用するというアイディアがある。これにより、豊富なWebサービスが利用可能となる。これを利用するラッパ(wrapper)がある。ラッパはWebサービスのインターフェイスとWebアプリケーションのインターフェイスを持つ。ラッパはラッパのWebサービス側にきたリクエストをWebアプリケーションのリクエストに変換し、これをWebアプリケーションに送信する。その後、返ってきたHTMLドキュメントから特定部分を抽出し、これをSOAP(Simple Object Access Protocol)に変換し、リクエストの送信者に返す。このとき、Webアプリケーション毎にプロトコル変換のためのコンフィグファイルが必要となる、例えば、ホテル検索Webアプリケーションをホテル検索Webサービスとするためのラッパを実現する場合は、ホテル検索Webアプリケーション用のコンフィグファイルが必要となる。 There is an idea of using an existing web application as a web service. As a result, a wealth of Web services can be used. There are wrappers that use this. The wrapper has a web service interface and a web application interface. The wrapper converts the request that came to the web service side of the wrapper into a web application request and sends it to the web application. After that, a specific part is extracted from the returned HTML document, converted into SOAP (Simple Object Access Protocol), and returned to the request sender. At this time, a configuration file for protocol conversion is required for each Web application. For example, when implementing a wrapper for making a hotel search Web application a hotel search Web service, the configuration file for the hotel search Web application Necessary.
コンフィグファイルには、SOAPのリクエストからWebアプリケーションのリクエストに変換するためのルールと、Webアプリケーションが返すHTMLドキュメントから特定の部分を抽出し、抽出結果をSOAPに変換するためのルールとが主に含まれる。このようなルールを用いてSOAPとWebアプリケーションのプロトコルとを相互変換するための技術として特許文献1、特許文献2がある。
しかし、もし、Webアプリケーションが返すHTMLドキュメントが変化すると、予め作られたコンフィグファイルでは正しい部分を抽出できなくなり、WebアプリケーションをWebサービスとして利用できなくなる。また、これを解消するためにはコンフィグファイルの手直しする必要があるため、多大な労力を必要とする。 However, if the HTML document returned by the Web application changes, the correct part cannot be extracted from the preconfigured config file, and the Web application cannot be used as a Web service. In order to solve this problem, it is necessary to rework the config file, which requires a lot of labor.
Webアプリケーションが返すHTMLドキュメントが変化した場合に、簡便に、正しい部分を抽出し、WebアプリケーションをWebサービスとして利用できるようにすることを目的とする。 When the HTML document returned by the Web application changes, the purpose is to easily extract the correct part so that the Web application can be used as a Web service.
上述した課題を解決するために、本発明の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置であって、前記抽出要求に応えるためのルールを保持するルール保持機構と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構とを備え、前記ルールによる抽出機構は、前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、前記ルール生成機構は、前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、前記ルールによる抽出機構は、前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする。 In order to solve the above-described problem, one aspect of the present invention holds content when the extraction request is received from a request transmission / result receiving apparatus that transmits an extraction request for requesting extraction of a specific portion in the content. By transmitting a content request to the content providing apparatus , the content related to the extraction request is received from the content providing apparatus , a specific part of the content is extracted, and the extracted result is transmitted to the request transmission / result receiving apparatus. An extraction device, a rule holding mechanism for holding a rule for responding to the extraction request, and receiving the extraction request from the request transmission / result reception device, and converting the extraction request into the content request according to the rule , Transmitting the content request to the content providing apparatus, and From content received from the extraction mechanism by rules for extracting a specific portion in accordance with the rules, when the extraction of the specific portion by extracting mechanism according to the rule fails, and a rule generation mechanism that generates a new piece of the rules, The extraction mechanism based on the rule has failed to extract a specific part based on the similarity between the extraction result extracted from the content received from the content providing device according to the rule and a template of the predetermined extraction result based on the rule. And the rule generation mechanism has a maximum similarity to a template of a predetermined extraction result by the rule among a plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus. Select one extraction result candidate as the optimum extraction result and extract the optimum extraction result. It was generated as a new said rule extraction mechanism by the rule, if the rule generation mechanism to generate a new said rules, characterized by re-extracting the specific portion according to the new the rules.
上述した課題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置であって、前記抽出要求に応えるためのルールを保持するルール保持機構と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構とを備え、前記ルールによる抽出機構は、前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出し、前記ルール生成機構は、前記ルール保持機構からルールを読み込み、ルールの配信を行うルール保持部と、前記ルールによる抽出機構から前記コンテンツを受信するコンテンツ受信部と、コンテンツ受信部によって受信された前記コンテンツの特定部分の抽出結果候補を自動抽出する特定部分自動抽出部と、前記ルール保持部からルールを読み込み、前記ルールによる所定の抽出結果の雛形と、前記特定部分自動抽出部によって自動抽出された複数の抽出結果候補のそれぞれとの類似度を算出することによって、前記類似度が最大の一の抽出結果候補を最適な抽出結果として選択する抽出結果選択部と、前記抽出結果選択部によって選択された前記最適な抽出結果を抽出するための新たな前記ルールを生成するルール生成部と、前記ルール生成部によって生成された新たな前記ルールを前記ルールによる抽出機構とルール保持機構に送信することによって前記ルールを更新するルール更新部とを有することを特徴とする。 In order to solve the above-described problem, another aspect of the present invention is that content is received when the extraction request is received from a request transmission / result reception apparatus that transmits an extraction request for requesting extraction of a specific portion in the content. By transmitting the content request to the content providing apparatus that holds the content, receiving the content related to the extraction request from the content providing apparatus , extracting a specific portion of the content, and sending the extracted result to the request transmission / result receiving apparatus. An extraction device for transmitting, a rule holding mechanism for holding a rule for responding to the extraction request, and receiving the extraction request from the request transmission / result receiving device, and converting the extraction request into the content request according to the rule The content request is transmitted to the content providing apparatus, and the content provision is performed. An extraction mechanism based on a rule for extracting a specific part from content received from a device according to the rule; and a rule generation mechanism for generating a new rule when the extraction of the specific part by the extraction mechanism based on the rule fails. When the rule generation mechanism generates a new rule, the rule extraction mechanism re-extracts a specific part according to the new rule , and the rule generation mechanism reads the rule from the rule holding mechanism, A rule holding unit that distributes the content, a content receiving unit that receives the content from the extraction mechanism based on the rule, and a specific part automatic extracting unit that automatically extracts extraction result candidates of the specific part of the content received by the content receiving unit And reading a rule from the rule holding unit, By calculating the similarity between the template of the output result and each of a plurality of extraction result candidates automatically extracted by the specific part automatic extraction unit, the extraction result candidate having the maximum similarity is selected as the optimum extraction result. An extraction result selection unit to select as, a rule generation unit to generate a new rule for extracting the optimum extraction result selected by the extraction result selection unit, and a new generation generated by the rule generation unit It has a rule update part which updates the said rule by transmitting the said rule to the extraction mechanism by the said rule, and a rule holding | maintenance mechanism, It is characterized by the above-mentioned .
上述した課題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置において、前記抽出要求に応えるためのルールを保持するルール保持機構と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構とを備え、前記ルールによる抽出機構は、前記ルール保持機構から前記ルールを取得し、前記ルールの更新と配信とを行うルール保持部と、前記リクエスト送信・結果受信装置から前記抽出要求を受信するリクエスト受信部と、前記リクエスト受信部によって受信された前記抽出要求を、前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ要求に変換するリクエスト組立部と、前記リクエスト組立部によって変換された前記コンテンツ要求を前記コンテンツ提供装置に送信するリクエスト送信部と、前記コンテンツ要求に対するコンテンツをコンテンツ提供装置から受信し、保持し、配信するコンテンツ保持部と、前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ保持部によって受信された前記コンテンツから特定部分を抽出するルールによる抽出部と、前記ルールによる抽出部による特定部分の抽出が失敗したか否かを判断する抽出失敗検出部と、特定部分の抽出が失敗していないと前記抽出失敗検出部によって判断された場合に、前記ルールによる抽出部による前記抽出結果を前記リクエスト送信・結果受信装置に返信する抽出結果送信部と、特定部分の抽出が失敗していると前記抽出失敗検出部によって判断された場合に、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信するコンテンツ送信部とを有し、前記ルールによる抽出部は、前記コンテンツ送信部によって送信された前記コンテンツに基づいて前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出する抽出装置であって、前記ルールによる抽出部は、特定部分を抽出した場合に、前記抽出結果を前記抽出失敗検出部に送信し、前記抽出失敗検出部から抽出が成功した旨の検出結果を受信したときは、前記抽出結果を前記抽出結果送信部に送信し、前記抽出失敗検出部から再抽出が必要である旨の検出結果を受信したときは、新たな前記ルールに従って特定部分を再抽出し、前記抽出失敗検出部は、前記ルールによる抽出部から前記抽出結果を受信した場合に、前記ルール保持部からルールを取得し、前記ルールによる所定の抽出結果の雛形と前記抽出結果との類似度を算出することによって、前記類似度が閾値以上であるときは、特定部分の抽出が失敗していないと判断し、前記抽出が成功した旨の検出結果を前記ルールによる抽出部に返信し、前記類似度が閾値未満である場合には、特定部分の抽出が失敗したと判断し、前記ルールを再生成するために前記コンテンツ送信部にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果を前記ルールによる抽出部に送信し、前記コンテンツ送信部は、前記コンテンツ送信依頼を受信したときに、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信することを特徴とする。 In order to solve the above-described problem, another aspect of the present invention is that content is received when the extraction request is received from a request transmission / result reception apparatus that transmits an extraction request for requesting extraction of a specific portion in the content. By transmitting the content request to the content providing apparatus that holds the content, receiving the content related to the extraction request from the content providing apparatus , extracting a specific portion of the content, and sending the extracted result to the request transmission / result receiving apparatus. in the extraction apparatus to transmit, the rule holding mechanism for holding the rules for responding to the retrieval request, receiving the extraction request from the request transmission-result receiving device, converts the extracted request to the content request in accordance with the rules The content request is transmitted to the content providing apparatus, and the content provision is performed. An extraction mechanism based on a rule for extracting a specific part from content received from a device according to the rule; and a rule generation mechanism for generating a new rule when the extraction of the specific part by the extraction mechanism based on the rule fails. The rule extraction mechanism includes a rule holding unit that acquires the rule from the rule holding mechanism, updates and distributes the rule, and a request reception unit that receives the extraction request from the request transmission / result reception device. A request assembly unit that converts the extraction request received by the request reception unit into the content request according to the rule acquired by the rule holding unit, and the content request converted by the request assembly unit. A request transmitter for transmitting to the content providing device; A content holding unit that receives, holds, and distributes content corresponding to the content request from the content providing device, and extracts a specific part from the content received by the content holding unit according to the rules acquired by the rule holding unit And an extraction failure detection unit that determines whether or not extraction of a specific part by the extraction unit based on the rule has failed, and that the extraction failure detection unit determines that the extraction of the specific part has not failed. The extraction result by the extraction unit based on the rule is returned to the request transmission / result reception device, and the extraction failure detection unit determines that the extraction of the specific part has failed The content is acquired from the content holding unit and transmitted to the rule generation mechanism. A content transmission unit, and when the rule generation mechanism generates a new rule based on the content transmitted by the content transmission unit, the rule extraction unit extracts a specific part according to the new rule. An extraction device for re-extraction , wherein the extraction unit according to the rule transmits the extraction result to the extraction failure detection unit when a specific part is extracted, and the extraction failure detection unit detects that extraction has succeeded When the result is received, the extraction result is transmitted to the extraction result transmission unit, and when the detection result indicating that re-extraction is necessary is received from the extraction failure detection unit, the specific part is determined according to the new rule. When the extraction failure detection unit receives the extraction result from the extraction unit based on the rule, the extraction failure detection unit acquires a rule from the rule holding unit, and By calculating the similarity between the template of the predetermined extraction result by the above and the extraction result, when the similarity is equal to or greater than a threshold, it is determined that the extraction of the specific part has not failed, and the extraction has succeeded The result of detection to the effect is returned to the extraction unit by the rule, and when the similarity is less than the threshold, it is determined that the extraction of the specific part has failed, and the content transmission unit is regenerated to regenerate the rule. The content transmission request is transmitted, and a detection result indicating that re-extraction is necessary is transmitted to the extraction unit based on the rule, and the content transmission unit receives the content transmission request from the content holding unit when the content transmission request is received. Content is acquired and transmitted to the rule generation mechanism.
上述した課題を解決するために、本発明の他の一態様は、コンテンツの特定部分を抽出する抽出システムであって、コンテンツを要求するコンテンツ要求に応じて、保持しているコンテンツを送信するコンテンツ提供装置と、コンテンツ内の特定部分の抽出を要求する抽出要求を送信し、前記抽出要求に対する抽出結果を受信するリクエスト送信・結果受信装置と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、前記抽出要求に係るコンテンツを要求するコンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置とを備え、前記抽出装置は、前記抽出要求に応えるためのルールを保持するルール保持機構と、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構とを有し、前記ルールによる抽出機構は、前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、前記ルール生成機構は、前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、前記ルールによる抽出機構は、前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする。 In order to solve the above-described problem, another aspect of the present invention is an extraction system that extracts a specific portion of content, and transmits content held in response to a content request for requesting content. A request transmission / result reception device for transmitting an extraction request for requesting extraction of a specific part in the content and receiving an extraction result for the extraction request; and receiving the extraction request from the request transmission / result reception device. The content request for requesting the content related to the extraction request is transmitted to the content providing apparatus, the specific part of the content received from the content providing apparatus is extracted, and the request is transmitted to the request transmission / result receiving apparatus as an extraction result. And the extraction device holds a rule for responding to the extraction request. And receiving the extraction request from the request holding / result receiving device, converting the extraction request into the content request according to the rule, and transmitting the content request to the content providing device. An extraction mechanism based on a rule that extracts a specific part from content received from the rule, and a rule generation mechanism that generates a new rule when the extraction of the specific part by the extraction mechanism based on the rule fails. The extraction mechanism based on the rule fails to extract a specific part based on the similarity between the extraction result extracted from the content received from the content providing device according to the rule and a template of the predetermined extraction result based on the rule. The rule generation mechanism determines whether or not the content providing device Among the plurality of extraction result candidates automatically extracted from the content received from the above, the extraction result candidate having the maximum similarity to the template of the predetermined extraction result by the rule is selected as the optimum extraction result, and the optimum extraction result is selected. A rule for extracting an extraction result is generated as a new rule, and the extraction mechanism based on the rule re-extracts a specific part according to the new rule when the rule generation mechanism generates a new rule. It is characterized by.
上述した課題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、前記抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置よるコンテンツ内の特定部分を抽出する抽出方法であって、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップとを有し、前記ルールによる抽出ステップは、前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、前記ルール生成ステップは、前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、前記ルールによる抽出ステップは、前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする。 In order to solve the above-described problem, another aspect of the present invention is to provide a request transmission / result reception for holding a rule for responding to an extraction request for requesting extraction of a specific portion in content and transmitting the extraction request. when the device has received the extraction request, by sending a content request to the content providing device holding the content, it receives the content related to the retrieval request from the content providing device, and extracts a specific part of the content An extraction method for extracting a specific part in the content by the extraction device that transmits to the request transmission / result reception device as an extraction result, wherein the extraction request is received from the request transmission / result reception device, and the extraction request is received The content request is converted into the content request according to the rule, and the content request is converted into the content providing device. An extraction step based on a rule for extracting a specific part according to the rule from content transmitted and received from the content providing apparatus, and a new rule is generated when extraction of the specific part by the extraction step based on the rule fails A rule generation step, wherein the extraction step based on the rule is based on a similarity between the extraction result extracted according to the rule from the content received from the content providing device and a template of a predetermined extraction result based on the rule. Determining whether or not the extraction of the specific part has failed, and the rule generation step includes a step of extracting a predetermined extraction result by the rule from among a plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus. The extraction result candidate with the maximum degree of similarity with the template is selected as the optimal extraction result. Select Te, a rule for extracting the best extraction results generated as a new said rule extraction step by the rule, if the rule generating step has generated a new said rules, according to the new the rules A specific part is re-extracted.
上述した課題を解決するために、本発明の他の一態様は、コンテンツ内の特定部分の抽出を要求する抽出要求に応えるためのルールを保持し、前記抽出要求を送信するリクエスト送信・結果受信装置から前記抽出要求を受信した場合に、コンテンツを保持するコンテンツ提供装置にコンテンツ要求を送信することによって、前記コンテンツ提供装置から当該抽出要求に係るコンテンツを受信し、当該コンテンツの特定部分を抽出し、抽出結果として前記リクエスト送信・結果受信装置に送信する抽出装置のコンピュータに、前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップとを実行させるプログラムであって、前記ルールによる抽出ステップは、前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、前記ルール生成ステップは、前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、前記ルールによる抽出ステップは、前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする。 In order to solve the above-described problem, another aspect of the present invention is to provide a request transmission / result reception for holding a rule for responding to an extraction request for requesting extraction of a specific portion in content and transmitting the extraction request. when the device has received the extraction request, by sending a content request to the content providing device holding the content, it receives the content related to the retrieval request from the content providing device, and extracts a specific part of the content , Receiving the extraction request from the request transmission / result reception device to the computer of the extraction device that transmits to the request transmission / result reception device as an extraction result, converting the extraction request into the content request according to the rule, A content request is transmitted to the content providing apparatus, and the content providing apparatus A program for executing an extraction step based on a rule for extracting a specific part from a received content according to the rule, and a rule generation step for generating a new rule when the extraction of the specific part by the extraction step based on the rule fails In the extraction step based on the rule, based on the similarity between the extraction result extracted from the content received from the content providing apparatus according to the rule and a template of the predetermined extraction result based on the rule, It is determined whether or not extraction has failed, and the rule generation step is similar to a template of a predetermined extraction result by the rule among a plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus. Select the extraction result candidate with the highest degree as the optimal extraction result, The rule for extracting the best extraction results generated as a new said rule extraction step by the rule, if the rule generating step has generated a new said rule, a specific portion according to the new the rules again It is characterized by extracting.
本発明によれば、Webアプリケーションが返すHTMLドキュメントが変化し、正しい部分の抽出ができなくなった場合に、新たなルールが自動生成されるため労力を掛けずに、継続してWebアプリケーションをWebサービスとして利用し続けることができる。換言すれば、Webアプリケーションが返すHTMLドキュメントが変化したことをラッパが検知し、自動的に新たなHTMLドキュメントに対応するコンフィグファイルを再生成するため、ラッパがWebアプリケーション側の変更に対応するようになる。つまり、ラッパがWebアプリケーション側の変更に自動的に追従するようになる。従って、ラッパのメンテナンスコストを削減することができる。同時に、ラッパが動作不能となることを減らし、サービス停止時間を削減できる。 According to the present invention, when an HTML document returned by a Web application changes and a correct part cannot be extracted, a new rule is automatically generated. Can continue to be used as. In other words, the wrapper detects that the HTML document returned by the Web application has changed, and automatically regenerates the configuration file corresponding to the new HTML document, so that the wrapper responds to changes on the Web application side. Become. In other words, the wrapper automatically follows changes on the Web application side. Therefore, the maintenance cost of the wrapper can be reduced. At the same time, it is possible to reduce the inoperability of the wrapper and reduce the service stop time.
以下、本発明の実施形態について図面を参照して詳細に説明する。図1は、本発明の実施形態に係る抽出システム1の構成図である。抽出システム1は、図1に示すように、
リクエスト送信・結果受信装置10、抽出装置20およびコンテンツ提供装置30から構成される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a configuration diagram of an
The request transmission /
コンテンツ提供装置30は、例えば、Webアプリケーションを実装したサーバである。コンテンツ提供装置30は、例えば、HTTPリクエストを受信し、HTMLドキュメントを送信する。換言すれば、コンテンツ提供装置30は、コンテンツを要求するコンテンツ要求(以下、「コンテンツリクエスト」という)に応じて、保持しているコンテンツを送信する。
The
リクエスト送信・結果受信装置10は、例えば、Webサービスのクライアント(端末)である。具体的には、リクエスト送信・結果受信装置10は、マッシュアップ(MushUp)アプリケーションなどを実装したクライアントである。リクエスト送信・結果受信装置10は、Webサービスに対してリクエストを送信し、当該リクエストに対するレスポンスを受信する。具体的には、リクエスト送信・結果受信装置10は、コンテンツ内の特定部分の抽出を要求する抽出要求(以下、単に「リクエスト」という)を送信し、当該抽出要求に対する抽出結果を受信する。
The request transmission /
抽出装置20は、例えば、サーバである。抽出装置20は、リクエスト送信・結果受信装置10からSOAPなどでリクエスト(抽出要求)を受信する。リクエストを受信した抽出装置20は、当該リクエストに対するコンテンツを取得するために、HTTPリクエストなどのコンテンツリクエスト(コンテンツ要求)をコンテンツ提供装置30に対して送信し、当該コンテンツリクエストに対するHTMLドキュメントなどのコンテンツをコンテンツ提供装置30から受信する。コンテンツ提供装置30からコンテンツを受信した抽出装置20は、当該コンテンツの特定部分を抽出し、抽出結果として、リクエストの送信元であるリクエスト送信・結果受信装置10に対してSOAPなどで送信(返信)する。
The
図2は、図1に示す抽出装置20の構成を説明するための図である。抽出装置20は、図2に示すように、ルール保持機構200、ルールによる抽出機構210およびルール生成機構220から構成される。
FIG. 2 is a diagram for explaining the configuration of the
ルール保持機構200は、リクエスト送信・結果受信装置10からのリクエスト(抽出要求)に応えるための種々のルールを保持するディレクトリである。具体的には、ルール保持機構200は、抽出装置20が受信したSOAPなどのリクエストをコンテンツ提供装置30へのコンテンツリクエスト(コンテンツ要求)に変換するためのルール、抽出装置20が受け取ったHTMLドキュメントなどのコンテンツから特定部分を抽出し、SOAPなどの形に変換するためのルールなどを保持する。
The
ルールによる抽出機構210は、リクエスト送信・結果受信装置10からリクエスト(抽出要求)を受信する。ルールによる抽出機構210は、リクエストを受信した場合、リクエストの内容からどのルールを読み込むべきであるかを判断する。ルールによる抽出機構210は、読み込むべきルールを読み込んだ後、当該ルールに従って、リクエスト送信・結果受信装置10から受信したリクエストからコンテンツ提供装置30に送信するコンテンツリクエスト(コンテンツ要求)を組み立てる。
The
ルールによる抽出機構210は、組み立てたコンテンツリクエスト(コンテンツ要求)をコンテンツ提供装置30に送信する。ルールによる抽出機構210は、当該コンテンツリクエストに対するコンテンツをコンテンツ提供装置30から受信する。コンテンツ提供装置30からコンテンツを受信したルールによる抽出機構210は、読み込んだルールに従って、当該コンテンツから特定部分を抽出し、SOAPなどの形に変換し、抽出結果として、リクエストの送信元であるリクエスト送信・結果受信装置10に返信する。ルールによる抽出機構210は、コンテンツからの特定部分の抽出に失敗した場合、ルール生成機構220に対し、抽出対象のHTMLドキュメントなどのコンテンツ(本発明のコンテンツ送信依頼に相当する)を送信し、新たなルールをルール生成機構220から取得し、新たなルールに従って、当該コンテンツから特定部分を再抽出する。
The
ルール生成機構220は、ルールによる抽出機構210が特定部分の抽出に失敗した場合、抽出対象のコンテンツをルールによる抽出機構210から取得し、当該コンテンツと当該ルールから新たなルールを生成する。新たなルールを生成したルール生成機構220は、生成した新たなルールをルールによる抽出機構210とルール保持機構200とに送信することによってルールの更新を行う。
When the
図3は、図2に示すルールによる抽出機構210の構成図である。ルールによる抽出機構210は、図3に示すように、ルール保持部211、リクエスト受信部212、リクエスト組立部213、リクエスト送信部214、コンテンツ保持部215、ルールによる抽出部216、抽出失敗検出部217、抽出結果送信部218およびコンテンツ送信部219から構成される。
FIG. 3 is a configuration diagram of the
ルール保持部211は、ルール保持機構200が保持するルールをルール保持機構200から予め取得しておく(読み込んでおく)。また、ルール保持部211は、ルールの更新と配信とを行う。
The
リクエスト受信部212は、リクエスト送信・結果受信装置10からリクエスト(抽出要求)を受信する。リクエスト受信部212は、リクエスト送信・結果受信装置10から受信したリクエストをリクエスト組立部213に送信する。
The
リクエスト組立部213は、リクエスト受信部212からリクエスト(抽出要求)を受信する。リクエスト組立部213は、リクエスト受信部212から受信したリクエストから、コンテンツ提供装置30に送信するコンテンツ要求に変換するためのルールをルール保持部211から取得する(読み込む)。リクエスト組立部213は、リクエスト受信部212から受信したリクエストを、ルール保持部211から取得したルールに従って、コンテンツリクエスト(コンテンツ要求)に変換する。リクエスト組立部213は、コンテンツリクエストをリクエスト送信部214に送信する。
The
リクエスト送信部214は、リクエスト組立部213からコンテンツリクエスト(コンテンツ要求)を受信し、コンテンツ提供装置30に送信する。
The
コンテンツ保持部215は、コンテンツ提供装置30からコンテンツリクエスト(コンテンツ要求)に対応するコンテンツを受信する。コンテンツ保持部215は、受信したコンテンツを保持し、ルールによる抽出部216にコンテンツを送信する。また、コンテンツ保持部215は、コンテンツ送信部219の要求に従い、自身が保持するコンテンツを提供(送信)する。
The
ルールによる抽出部216は、コンテンツ保持部215からコンテンツを受信する。ルールによる抽出部216は、コンテンツ保持部215から受信したコンテンツから、特定部分を抽出するためのルールをルール保持部211から取得する(読み込む)。ルールによる抽出部216は、ルール保持部211から取得したルールに従って、コンテンツ保持部215から受信したコンテンツから特定部分を抽出する。当該変換は、例えば、HTMLドキュメントをXSL変換するようなもので、このときにルールとしてXSLファイルを用いるとよい。ルールによる抽出部216は、抽出結果を抽出失敗検出部217に送信する。
The
ルールによる抽出部216は、特定部分を抽出した場合に、特定部分を正しく抽出できたか否かを判断する。具体的には、ルールによる抽出部216は、特定部分を抽出した場合に、抽出結果を抽出失敗検出部217に送信し、抽出失敗検出部217から、抽出が成功した旨の検出結果を受信した場合に、特定部分を正しく抽出できたと判断し、抽出失敗検出部217から、再抽出が必要である旨の検出結果を受信した場合には、特定部分を正しく抽出できなかったと判断する。
The
ルールによる抽出部216は、特定部分を正しく抽出できたと判断した場合、つまり、抽出失敗検出部217から抽出が成功した旨の検出結果を受信した場合、抽出結果を抽出結果送信部218に送信する。
When the
一方、ルールによる抽出部216は、特定部分を正しく抽出できなかったと判断した場合、つまり、抽出失敗検出部217から再抽出が必要である旨の検出結果を受信した場合、ルール保持部211から新たなルールを再度取得し、再度取得したルールに従って特定部分を再抽出し、再抽出による抽出結果を抽出結果送信部218に送信する。
On the other hand, when the
抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信する。抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信した場合に、ルールによる抽出部216が特定部分を正しく抽出できたか否か、つまり、ルールによる抽出部216が特定部分の抽出に失敗したか否かを判断する。
The extraction
より詳細には、抽出失敗検出部217は、ルールによる抽出部216から抽出結果を受信した場合に、ルール保持部211からルールを取得し、ルールに書かれている抽出すべき部分のお手本と、実際に抽出された部分とを比較し、類似度が閾値以上であるか否かを判断する。換言すれば、抽出失敗検出部217は、ルールによる所定の抽出結果の雛形と抽出結果との類似度を算出し、類似度が閾値以上であるか否かを判断する。
More specifically, when the extraction
抽出失敗検出部217は、類似度が閾値以上であると判断した場合、特定部分の抽出が失敗していないと判断し、抽出が成功した旨の検出結果をルールによる抽出部216に送信(返信)する。
If the extraction
一方、抽出失敗検出部217は、類似度が閾値未満であると判断した場合、特定部分の抽出が失敗したと判断し、コンテンツ送信部219にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果をルールによる抽出部216に送信する。なお、コンテンツ送信依頼は、ルールを再生成するために、ルール生成機構220にコンテンツを送信すべき依頼である。
On the other hand, if the extraction
抽出結果送信部218は、ルールによる抽出部216が特定部分を正しく抽出できた場合、つまり、ルールによる抽出部216による特定部分の抽出が失敗していないと抽出失敗検出部217によって判断された場合、ルールによる抽出部216から抽出結果を受信し、リクエスト送信・結果受信装置10に送信(返信)する。抽出結果送信部218は、抽出結果を、例えばSOAPなどの形でWebサービスのレスポンスとして送信する。
When the extraction
コンテンツ送信部219は、ルールによる抽出部216が特定部分を正しく抽出できなかった場合、つまり、ルールによる抽出部216による特定部分の抽出が失敗したと抽出失敗検出部217によって判断された場合、抽出失敗検出部217からコンテンツ送信依頼を受信する。抽出失敗検出部217からコンテンツ送信依頼を受信したコンテンツ送信部219は、コンテンツ保持部215からコンテンツを取得し、ルール生成機構220に送信する。これによって、ルールが再生成される。
The
図4は、図2に示すルール生成機構220の構成図である。ルール生成機構220は、図4に示すように、ルール保持部221、コンテンツ受信部222、特定部分自動抽出部223、抽出結果選択部224、ルール生成部225およびルール更新部226から構成される。
FIG. 4 is a configuration diagram of the
ルール保持部221は、ルール保持機構200が保持するルールをルール保持機構200から予め取得しておく(読み込んでおく)。また、ルール保持部221は、ルールの配信を行う。
The
コンテンツ受信部222は、ルールによる抽出機構210からコンテンツを受信する。コンテンツ受信部222は、ルールによる抽出機構210から受信したコンテンツを特定部分自動抽出部223に送信する。
The
特定部分自動抽出部223は、コンテンツ受信部222からコンテンツを受信する。特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツの特定部分の候補を自動抽出する。具体的には、特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツから、ルールを使わずに、特定部分の候補を抽出結果候補として複数抽出する。特定部分自動抽出部223は、例えば、HTMLのタグの特徴などを使って特定部分候補を自動抽出する。特定部分自動抽出部223は、自動抽出した複数の抽出結果候補を抽出結果選択部224へ送信する。
The specific part automatic extraction unit 223 receives content from the
抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信する。抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信した場合、当該複数の抽出結果候補から一の抽出結果候補を最適な抽出結果として選択する。具体的には、抽出結果選択部224は、特定部分自動抽出部223から複数の抽出結果候補を受信した場合、ルール保持部221からルールを取得し、ルールに書かれている抽出すべき部分のお手本と、各抽出結果候補とを比較し、最も類似している抽出結果候補を最適な抽出結果として選択する。換言すれば、抽出結果選択部224は、ルールによる所定の抽出結果の雛形と各抽出結果候補との類似度をそれぞれ算出し、類似度が最大の一の抽出結果候補を最適な抽出結果として選択する。抽出結果選択部224は、最適な抽出結果をルール生成部225に送信する。なお、最適な抽出結果とは、複数の抽出結果候補のうち正しい抽出結果である可能性が最も高く、新たなルールを生成に最適な抽出結果をいう。
The extraction
ルール生成部225は、抽出結果選択部224から最適な抽出結果を受信する。ルール生成部225は、抽出結果選択部224から最適な抽出結果を受信した場合、最適な抽出結果を抽出するための新たなルールを生成する。換言すれば、ルール生成部225は、最適な抽出結果と同一の部分を抽出するための新たなルールを生成する。ルール生成部225は、生成した新たなルールをルール更新部226に送信する。
The
ルール更新部226は、ルール生成部225から新たなルールを受信する。ルール更新部226は、ルール生成部225から受信した新たなルールをルールによる抽出機構210とルール保持機構200とに送信する。これによって、ルールが更新される。
The
図5は、抽出装置20の動作を示すシーケンス図である。なお、図5は、特定部分の抽出に失敗した場合の動作を示シーケンス図である。ルールによる抽出機構210は、予め、ルール保持機構200からルールを読み込む(S10)。ルール生成機構220は、予め、ルール保持機構200からルールを読み込む(S11)。
FIG. 5 is a sequence diagram illustrating the operation of the
リクエスト送信・結果受信装置10は、ルールによる抽出機構210にリクエスト(抽出要求)を送信する(S12)。ルールによる抽出機構210は、リクエスト(抽出要求)をコンテンツリクエスト(コンテンツ要求)に変換し、コンテンツ提供装置30に送信する(S13)。
The request transmission /
コンテンツ提供装置30は、コンテンツリクエスト(コンテンツ要求)に対するコンテンツをルールによる抽出機構210に返信する(S14)。ルールによる抽出機構210は、ルールに従って、受信したコンテンツから特定部分を抽出する。ルールによる抽出機構210は、特定部分の抽出に失敗したと判断する。ルールによる抽出機構210は、ルールの再生成のために、コンテンツをルール生成機構220に送信する(S15)。
The
ルール生成機構220は、受信したコンテンツを用いて新たなルールを生成する。ルール生成機構220は、新たなルールをルールによる抽出機構210およびルール保持機構200に送信することによってルールを更新する(S16)。
The
ルールによる抽出機構210は、新たなルールに従って、コンテンツの特定部分を再抽出する。ルールによる抽出機構210は、再抽出の結果をリクエスト送信・結果受信装置10に返信する(S17)。
The
図6、7は、ルールによる抽出機構210の動作を示すシーケンス図である。なお、図6は、特定部分の抽出に失敗した場合の動作を示シーケンス図である。ルール保持部211は、ルール保持機構200から予めルールを読み込む(S20)。
6 and 7 are sequence diagrams showing the operation of the
リクエスト送信・結果受信装置10は、リクエスト受信部212にリクエスト(抽出要求)を送信する(S21)。リクエスト受信部212は、受信したリクエストをリクエスト組立部213に送信する(S22)。リクエスト組立部213は、ルール保持部211からルールを読み込む(S23)。
The request transmission /
リクエスト組立部213は、読み込んだルールに従って、受信したリクエスト(抽出要求)から、コンテンツを取得するためのコンテンツリクエスト(コンテンツ要求)を組み立てる。リクエスト組立部213は、組み立てたコンテンツリクエストをリクエスト送信部214に送信する(S24)。リクエスト送信部214は、受信したコンテンツリクエストをコンテンツ提供装置30に送信する(S25)。
The
コンテンツ提供装置30は、コンテンツリクエスト(コンテンツ要求)に対するコンテンツをコンテンツ保持部215に送信する(S26)。コンテンツ保持部215は、受信したコンテンツを保持し、コンテンツをルールによる抽出部216に送信する(S27)。ルールによる抽出部216は、コンテンツから特定部分を抽出するためのルールをルール保持部211から読み込む(S28)。ルールによる抽出部216は、ルールに従って、コンテンツから特定部分を抽出する。
The
ルールによる抽出部216は、抽出結果を抽出失敗検出部217に送信する(S29)。抽出失敗検出部217は、ルールによる抽出部216が特定部分を正しく抽出できたか否かを判断するために、ルール保持部211からルールを読み込む(S30)。
The
抽出失敗検出部217は、ルールに従って、ルールによる抽出部216が特定部分を正しく抽出できたか否かを判断する。ここでは、抽出失敗検出部217は、正しく抽出できていない、つまり、抽出失敗と判断する。抽出失敗検出部217は、ルールの再生成が必要であるため、コンテンツ送信部219にコンテンツ送信依頼を送信する(S31)。コンテンツ送信部219は、コンテンツ保持部215からコンテンツを読み込む(S32)。コンテンツ送信部219は、読み込んだコンテンツをルール生成機構220に送信する(S33)。
The extraction
ルール生成機構220は、受信したコンテンツを用いて新たなルールを生成する。ルール生成機構220は、新たなルールをルール保持部211およびルール保持機構200に送信することでルールを更新する(S34)。
The
抽出失敗検出部217は、ルールの更新によって再抽出が必要である旨(ルールが更新された旨)の検出結果をルールによる抽出部216に送信する(S35)。再抽出が必要である旨の検出結果を受信したルールによる抽出部216は、ルールを再読み込みする(S36)。ルールによる抽出部216は、再度、読み込んだルールに従って、コンテンツから特定部分を再抽出する。ルールによる抽出部216は、再抽出結果を抽出結果送信部218に送信する(S37)。抽出結果送信部218は、抽出結果をリクエスト送信・結果受信装置10に送信する(S38)。
The extraction
図8は、ルール生成機構220の動作を示すシーケンス図である。ルール保持部221は、ルール保持機構200から予めルールを読み込む(S40)。
FIG. 8 is a sequence diagram showing the operation of the
ルールによる抽出機構210は、特定部分の抽出に失敗した場合、コンテンツをコンテンツ受信部222に送信する(S41)。コンテンツ受信部222は、受信したコンテンツを特定部分自動抽出部223に送信する(S42)。
When the
特定部分自動抽出部223は、コンテンツ受信部222から受信したコンテンツから、ルールを使わずに、特定部分の候補を抽出結果候補として複数抽出する。例えば、特定部分自動抽出部223は、HTMLのタグの特徴などを使って特定部分候補を自動抽出する。特定部分自動抽出部223は、複数の抽出結果候補から最適な抽出結果を選択するために、複数の抽出結果候補を抽出結果選択部224に送信する(S43)。
The specific part automatic extraction unit 223 extracts a plurality of specific part candidates as extraction result candidates from the content received from the
抽出結果選択部224は、ルール保持部221からルールを読み込む(S44)。抽出結果選択部224は、抽出結果候補の各候補とルールのお手本とを比較し、最も類似している抽出結果候補を最適な抽出結果として選択する(図8において「正しい抽出結果選択」と記載)。抽出結果選択部224は、最適な抽出結果(図8において、単に「抽出結果」と記載)をルール生成部225に送信する(S45)。
The extraction
ルール生成部225は、受信した最適な抽出結果を抽出するための新たなルールを生成する。ルール生成部225は、生成したルールをルール更新部226に送信する(S46)。ルール更新部226は、受信したルールをルール保持機構200およびルールによる抽出機構210に送信することでルールを更新する(S47)。
The
図9は、抽出失敗検出部217の動作を示すフローチャートである。抽出失敗検出部217は、ルールによる抽出部216から抽出結果を取得する(ステップS100)。抽出失敗検出部217は、ルール保持部211からルールを読み込む(ステップS110)。抽出失敗検出部217は、抽出結果とルール中の抽出するべきお手本との類似度を算出する(ステップS120)。抽出失敗検出部217は、算出した類似度が閾値以上であるか否かを判断する(ステップS130)。
FIG. 9 is a flowchart showing the operation of the extraction
抽出失敗検出部217は、類似度が閾値以上であると判断した場合(ステップS130:Yes)、抽出成功と判断し、ルールによる抽出部216に「抽出成功」と送信する(S140)。つまり、抽出失敗検出部217は、抽出が成功した旨の検出結果をルールによる抽出部216に送信する。
If the extraction
一方、抽出失敗検出部217は、類似度が閾値未満であると判断した場合(ステップS130:No)、抽出失敗と判断し、ルール生成のためにコンテンツ送信部219にコンテンツ送信依頼を送信する(S150)。なお、抽出失敗検出部217は、再抽出が必要である旨の検出結果をルールによる抽出部216に送信する。
On the other hand, if the extraction
図10は、抽出結果選択部224の動作を示すフローチャートである。抽出結果選択部224は自動抽出結果である複数の抽出結果候補を取得する(ステップS200)。抽出結果選択部224は、ルール保持部221からルールを読み込む(ステップS210)。抽出結果選択部224は、各抽出結果候補とルール中の抽出すべきお手本との類似度を算出する(ステップS220)。抽出結果選択部224は、算出した類似度が閾値以上の抽出結果候補があるか否かを判断する(ステップS230)。
FIG. 10 is a flowchart showing the operation of the extraction
抽出結果選択部224は、類似度が閾値以上の抽出結果候補があると判断した場合(ステップS230:Yes)、ルール生成のために類似度が高い抽出結果(具体的には最適な抽出結果)をルール生成部225に送信する(S240)。
If the extraction
一方、抽出結果選択部224は、類似度が閾値以上の抽出結果候補がないと判断した場合(ステップS230:No)、ルールの再生成に失敗したと判断し、ルールの再生成と再抽出をあきらめる(ステップS250)。
On the other hand, if the extraction
以上、本発明によれば、ラッパがWebアプリケーション側の変更に自動的に追従することで、ラッパのメンテナンスコストを削減することができるようになる。同時に、ラッパが動作不能となることを減らし、サービス停止時間を削減できるようになる。 As described above, according to the present invention, since the wrapper automatically follows the change on the Web application side, the maintenance cost of the wrapper can be reduced. At the same time, it becomes possible to reduce the inoperability of the wrapper and reduce the service stop time.
なお、抽出装置20の各処理を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、抽出装置20に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
It should be noted that a program for realizing each process of the
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
1 抽出システム 10 リクエスト送信・結果受信装置 20 抽出装置 30 コンテンツ提供装置 200 ルール保持機構 210 ルールによる抽出機構 211 ルール保持部 212 リクエスト受信部 213 リクエスト組立部 214 リクエスト送信部 215 コンテンツ保持部 216 ルールによる抽出部 217 抽出失敗検出部 218 コンテンツ送信部 219 抽出結果送信部 220 ルール生成機構 221 ルール保持部 222 コンテンツ受信部 223 特定部分自動抽出部 224 抽出結果選択部 225 ルール生成部 226 ルール更新部
DESCRIPTION OF
Claims (6)
前記抽出要求に応えるためのルールを保持するルール保持機構と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
を備え、
前記ルールによる抽出機構は、
前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
前記ルール生成機構は、
前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、
前記ルールによる抽出機構は、
前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出装置。 When receiving the extraction request from the request transmission-result receiving unit which transmits the extracted request for extraction of a specific portion of the content by sending a content request to the content providing device holding the content, the content providing An extraction device that receives content related to the extraction request from a device , extracts a specific part of the content, and transmits the extracted result to the request transmission / result reception device,
A rule holding mechanism for holding a rule for responding to the extraction request;
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus , An extraction mechanism based on a rule for extracting a specific part according to the rule,
A rule generation mechanism that generates a new rule when extraction of a specific part by the extraction mechanism by the rule fails;
The extraction mechanism by the rule is:
Based on the similarity between the extraction result extracted from the content received from the content providing device according to the rule and the template of the predetermined extraction result according to the rule, it is determined whether or not the extraction of the specific part has failed,
The rule generation mechanism is:
Among the plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus, the extraction result candidate having the maximum similarity with the template of the predetermined extraction result by the rule is selected as the optimum extraction result. , Generating a rule for extracting the optimum extraction result as the new rule,
The extraction mechanism by the rule is:
When the rule generation mechanism generates a new rule, the extraction device re-extracts the specific portion according to the new rule.
前記抽出要求に応えるためのルールを保持するルール保持機構と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
を備え、
前記ルールによる抽出機構は、
前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出し、
前記ルール生成機構は、
前記ルール保持機構からルールを読み込み、ルールの配信を行うルール保持部と、
前記ルールによる抽出機構から前記コンテンツを受信するコンテンツ受信部と、
コンテンツ受信部によって受信された前記コンテンツの特定部分の抽出結果候補を自動抽出する特定部分自動抽出部と、
前記ルール保持部からルールを読み込み、前記ルールによる所定の抽出結果の雛形と、前記特定部分自動抽出部によって自動抽出された複数の抽出結果候補のそれぞれとの類似度を算出することによって、前記類似度が最大の一の抽出結果候補を最適な抽出結果として選択する抽出結果選択部と、
前記抽出結果選択部によって選択された前記最適な抽出結果を抽出するための新たな前記ルールを生成するルール生成部と、
前記ルール生成部によって生成された新たな前記ルールを前記ルールによる抽出機構とルール保持機構に送信することによって前記ルールを更新するルール更新部と
を有することを特徴とする抽出装置。 When receiving the extraction request from the request transmission-result receiving unit which transmits the extracted request for extraction of a specific portion of the content by sending a content request to the content providing device holding the content, the content providing An extraction device that receives content related to the extraction request from a device , extracts a specific part of the content, and transmits the extracted result to the request transmission / result reception device,
A rule holding mechanism for holding a rule for responding to the extraction request;
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus , An extraction mechanism based on a rule for extracting a specific part according to the rule,
A rule generation mechanism that generates a new rule when extraction of a specific part by the extraction mechanism by the rule fails;
The extraction mechanism by the rule is:
When the rule generation mechanism generates a new rule, the specific part is re-extracted according to the new rule ,
The rule generation mechanism is:
A rule holding unit that reads a rule from the rule holding mechanism and distributes the rule;
A content receiver that receives the content from the extraction mechanism according to the rule;
A specific part automatic extraction unit for automatically extracting extraction result candidates of the specific part of the content received by the content receiving unit;
The similarity is obtained by reading a rule from the rule holding unit and calculating a similarity between a template of a predetermined extraction result based on the rule and each of a plurality of extraction result candidates automatically extracted by the specific part automatic extraction unit. An extraction result selection unit that selects an extraction result candidate having the maximum degree as an optimum extraction result;
A rule generation unit for generating a new rule for extracting the optimum extraction result selected by the extraction result selection unit;
A rule update unit for updating the rule by transmitting the new rule generated by the rule generation unit to an extraction mechanism based on the rule and a rule holding mechanism;
An extraction device comprising:
前記抽出要求に応えるためのルールを保持するルール保持機構と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
を備え、
前記ルールによる抽出機構は、
前記ルール保持機構から前記ルールを取得し、前記ルールの更新と配信とを行うルール保持部と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信するリクエスト受信部と、
前記リクエスト受信部によって受信された前記抽出要求を、前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ要求に変換するリクエスト組立部と、
前記リクエスト組立部によって変換された前記コンテンツ要求を前記コンテンツ提供装置に送信するリクエスト送信部と、
前記コンテンツ要求に対するコンテンツをコンテンツ提供装置から受信し、保持し、配信するコンテンツ保持部と、
前記ルール保持部によって取得された前記ルールに従って、前記コンテンツ保持部によって受信された前記コンテンツから特定部分を抽出するルールによる抽出部と、
前記ルールによる抽出部による特定部分の抽出が失敗したか否かを判断する抽出失敗検出部と、
特定部分の抽出が失敗していないと前記抽出失敗検出部によって判断された場合に、前記ルールによる抽出部による前記抽出結果を前記リクエスト送信・結果受信装置に返信する抽出結果送信部と、
特定部分の抽出が失敗していると前記抽出失敗検出部によって判断された場合に、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信するコンテンツ送信部と
を有し、
前記ルールによる抽出部は、
前記コンテンツ送信部によって送信された前記コンテンツに基づいて前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出する抽出装置であって、
前記ルールによる抽出部は、
特定部分を抽出した場合に、前記抽出結果を前記抽出失敗検出部に送信し、前記抽出失敗検出部から抽出が成功した旨の検出結果を受信したときは、前記抽出結果を前記抽出結果送信部に送信し、前記抽出失敗検出部から再抽出が必要である旨の検出結果を受信したときは、新たな前記ルールに従って特定部分を再抽出し、
前記抽出失敗検出部は、
前記ルールによる抽出部から前記抽出結果を受信した場合に、前記ルール保持部からルールを取得し、前記ルールによる所定の抽出結果の雛形と前記抽出結果との類似度を算出することによって、前記類似度が閾値以上であるときは、特定部分の抽出が失敗していないと判断し、前記抽出が成功した旨の検出結果を前記ルールによる抽出部に返信し、前記類似度が閾値未満である場合には、特定部分の抽出が失敗したと判断し、前記ルールを再生成するために前記コンテンツ送信部にコンテンツ送信依頼を送信するとともに、再抽出が必要である旨の検出結果を前記ルールによる抽出部に送信し、
前記コンテンツ送信部は、
前記コンテンツ送信依頼を受信したときに、前記コンテンツ保持部から前記コンテンツを取得し、前記ルール生成機構に送信することを特徴とする抽出装置。 When receiving the extraction request from the request transmission-result receiving unit which transmits the extracted request for extraction of a specific portion of the content by sending a content request to the content providing device holding the content, the content providing In the extraction device that receives the content related to the extraction request from the device , extracts a specific part of the content, and transmits it to the request transmission / result reception device as an extraction result .
A rule holding mechanism for holding a rule for responding to the extraction request;
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus , An extraction mechanism based on a rule for extracting a specific part according to the rule,
A rule generation mechanism that generates a new rule when extraction of a specific part by the extraction mechanism by the rule fails;
The extraction mechanism by the rule is:
A rule holding unit that obtains the rule from the rule holding mechanism and updates and distributes the rule;
A request receiving unit that receives the extraction request from the request transmission / result reception device;
A request assembling unit that converts the extraction request received by the request receiving unit into the content request in accordance with the rule acquired by the rule holding unit;
A request transmitting unit that transmits the content request converted by the request assembling unit to the content providing device;
A content holding unit that receives, holds, and distributes content corresponding to the content request from a content providing device;
An extraction unit based on a rule for extracting a specific part from the content received by the content holding unit according to the rule acquired by the rule holding unit;
An extraction failure detection unit that determines whether or not extraction of a specific part by the extraction unit according to the rule has failed;
When the extraction failure detection unit determines that the extraction of the specific part has not failed, an extraction result transmission unit that returns the extraction result by the extraction unit according to the rule to the request transmission / result reception device;
A content transmission unit that acquires the content from the content holding unit and transmits the content to the rule generation mechanism when the extraction failure detection unit determines that the extraction of the specific part has failed;
Have
The extraction part according to the rule is:
When the rule generation mechanism generates a new rule based on the content transmitted by the content transmission unit, the extraction device re-extracts a specific part according to the new rule ,
The extraction part according to the rule is:
When the specific part is extracted, the extraction result is transmitted to the extraction failure detection unit, and when the detection result indicating that the extraction is successful is received from the extraction failure detection unit, the extraction result is transmitted to the extraction result transmission unit. When the detection result indicating that re-extraction is necessary is received from the extraction failure detection unit, the specific part is re-extracted according to the new rule,
The extraction failure detection unit
When the extraction result is received from the extraction unit based on the rule, the similarity is obtained by obtaining a rule from the rule holding unit and calculating a similarity between a template of a predetermined extraction result based on the rule and the extraction result When the degree is equal to or greater than a threshold value, it is determined that the extraction of the specific part has not failed, and the detection result indicating that the extraction is successful is returned to the extraction unit according to the rule, and the similarity is less than the threshold value In this case, it is determined that the extraction of the specific part has failed, the content transmission request is transmitted to the content transmission unit to regenerate the rule, and the detection result indicating that the re-extraction is necessary is extracted by the rule. Send to the department,
The content transmitting unit
When the content transmission request is received, the content is acquired from the content holding unit and transmitted to the rule generation mechanism.
コンテンツを要求するコンテンツ要求に応じて、保持しているコンテンツを送信するコンテンツ提供装置と、
コンテンツ内の特定部分の抽出を要求する抽出要求を送信し、前記抽出要求に対する抽出結果を受信するリクエスト送信・結果受信装置と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、前記抽出要求に係るコンテンツを要求するコンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツの特定部分を抽出し、抽出結果としてリクエスト送信・結果受信装置に送信する抽出装置と
を備え、
前記抽出装置は、
前記抽出要求に応えるためのルールを保持するルール保持機構と、
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出機構と、
前記ルールによる抽出機構による特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成機構と
を有し、
前記ルールによる抽出機構は、
前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
前記ルール生成機構は、
前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、
前記ルールによる抽出機構は、
前記ルール生成機構が新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出システム。 An extraction system that extracts a specific part of content,
A content providing device that transmits content held in response to a content request for requesting content;
A request transmission / result reception device for transmitting an extraction request for requesting extraction of a specific part in content and receiving an extraction result for the extraction request;
Receiving the extraction request from the request transmission / result receiving device, transmitting a content request for requesting content related to the extraction request to the content providing device, extracting a specific part of the content received from the content providing device; An extraction device that transmits to the request transmission / result reception device as an extraction result,
The extraction device comprises:
A rule holding mechanism for holding a rule for responding to the extraction request;
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus , An extraction mechanism based on a rule for extracting a specific part according to the rule,
A rule generation mechanism for generating a new rule when extraction of a specific part by the extraction mechanism by the rule fails;
The extraction mechanism by the rule is:
Based on the similarity between the extraction result extracted from the content received from the content providing device according to the rule and the template of the predetermined extraction result according to the rule, it is determined whether or not the extraction of the specific part has failed,
The rule generation mechanism is:
Among the plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus, the extraction result candidate having the maximum similarity with the template of the predetermined extraction result by the rule is selected as the optimum extraction result. , Generating a rule for extracting the optimum extraction result as the new rule,
The extraction mechanism by the rule is:
An extraction system, wherein when the rule generation mechanism generates a new rule, a specific portion is re-extracted according to the new rule.
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、
前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップと
を有し、
前記ルールによる抽出ステップは、
前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
前記ルール生成ステップは、
前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、
前記ルールによる抽出ステップは、
前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とする抽出方法。 A content providing apparatus that holds a rule for responding to an extraction request for requesting extraction of a specific part in content and holds the content when the extraction request is received from a request transmission / result receiving apparatus that transmits the extraction request Content by the extraction device that receives the content related to the extraction request from the content providing device , extracts a specific portion of the content, and transmits it to the request transmission / result reception device as an extraction result An extraction method for extracting a specific part of
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus An extraction step according to a rule for extracting a specific part according to the rule;
A rule generation step for generating a new rule when the extraction of the specific part by the extraction step by the rule fails,
The extraction step according to the rule includes:
Based on the similarity between the extraction result extracted from the content received from the content providing device according to the rule and the template of the predetermined extraction result according to the rule, it is determined whether or not the extraction of the specific part has failed,
The rule generation step includes:
Among the plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus, the extraction result candidate having the maximum similarity with the template of the predetermined extraction result by the rule is selected as the optimum extraction result. , Generating a rule for extracting the optimum extraction result as the new rule,
The extraction step according to the rule includes:
When the rule generation step generates a new rule, a specific portion is re-extracted according to the new rule.
前記リクエスト送信・結果受信装置から前記抽出要求を受信し、当該抽出要求を前記ルールに従って前記コンテンツ要求に変換し、当該コンテンツ要求を前記コンテンツ提供装置に送信し、前記コンテンツ提供装置から受信したコンテンツから、前記ルールに従って特定部分を抽出するルールによる抽出ステップと、
前記ルールによる抽出ステップによる特定部分の抽出が失敗した場合に、新たな前記ルールを生成するルール生成ステップと
を実行させ、
前記ルールによる抽出ステップは、
前記コンテンツ提供装置から受信したコンテンツから前記ルールに従って抽出した前記抽出結果と、前記ルールによる所定の抽出結果の雛形との類似度に基づいて、特定部分の抽出が失敗したか否かを判断し、
前記ルール生成ステップは、
前記コンテンツ提供装置から受信したコンテンツから自動抽出された複数の抽出結果候補のうち、前記ルールによる所定の抽出結果の雛形との類似度が最大の一の抽出結果候補を最適な抽出結果として選択し、当該最適な抽出結果を抽出するためのルールを新たな前記ルールとして生成し、
前記ルールによる抽出ステップは、
前記ルール生成ステップが新たな前記ルールを生成した場合、新たな前記ルールに従って特定部分を再抽出することを特徴とするプログラム。 A content providing apparatus that holds a rule for responding to an extraction request for requesting extraction of a specific part in content and holds the content when the extraction request is received from a request transmission / result receiving apparatus that transmits the extraction request A computer of the extraction device that receives the content related to the extraction request from the content providing device , extracts a specific part of the content, and transmits it to the request transmission / result reception device as an extraction result In addition,
From the content received from the content providing apparatus, receiving the extraction request from the request transmission / result receiving apparatus, converting the extraction request into the content request according to the rule, transmitting the content request to the content providing apparatus An extraction step according to a rule for extracting a specific part according to the rule;
When the extraction of the specific part by the extraction step by the rule fails, the rule generation step for generating a new rule is executed,
The extraction step according to the rule includes:
Based on the similarity between the extraction result extracted from the content received from the content providing device according to the rule and the template of the predetermined extraction result according to the rule, it is determined whether or not the extraction of the specific part has failed,
The rule generation step includes:
Among the plurality of extraction result candidates automatically extracted from the content received from the content providing apparatus, the extraction result candidate having the maximum similarity with the template of the predetermined extraction result by the rule is selected as the optimum extraction result. , Generating a rule for extracting the optimum extraction result as the new rule,
The extraction step according to the rule includes:
When the rule generation step generates a new rule, a specific part is re-extracted according to the new rule.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008215478A JP5153516B2 (en) | 2008-08-25 | 2008-08-25 | Extraction apparatus, extraction system, extraction method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008215478A JP5153516B2 (en) | 2008-08-25 | 2008-08-25 | Extraction apparatus, extraction system, extraction method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010049638A JP2010049638A (en) | 2010-03-04 |
JP5153516B2 true JP5153516B2 (en) | 2013-02-27 |
Family
ID=42066641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008215478A Expired - Fee Related JP5153516B2 (en) | 2008-08-25 | 2008-08-25 | Extraction apparatus, extraction system, extraction method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5153516B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2978379B1 (en) * | 2011-07-29 | 2014-03-14 | Saint Gobain | LIGHTING OF VEHICLE, MANUFACTURING |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002189740A (en) * | 2000-12-19 | 2002-07-05 | Appresso:Kk | Data conversion system |
JP2008003848A (en) * | 2006-06-22 | 2008-01-10 | Nippon Telegr & Teleph Corp <Ntt> | Half-structured data structuring system, device and method |
-
2008
- 2008-08-25 JP JP2008215478A patent/JP5153516B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010049638A (en) | 2010-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4644940B2 (en) | Billing method, script conversion system and method | |
CN101405723B (en) | Estimation of initial dynamic rendering control data | |
CN106533944B (en) | Distributed API gateway, management method and management system | |
KR100623482B1 (en) | Method for Supporting Session Mobility | |
US9648119B2 (en) | Methods and devices for exchanging data | |
CN102567485B (en) | The special parsing of provider for content retrieval | |
CN101390080A (en) | Serving cached query results based on a query portion | |
CN101669113A (en) | Method of deriving web service interfaces from form and table metadata | |
JP5488349B2 (en) | Relay device, relay method, and relay program | |
KR101950997B1 (en) | Method for managing contents with contents tag and apparatus thereof | |
JP5153516B2 (en) | Extraction apparatus, extraction system, extraction method and program | |
US8478943B2 (en) | Content caching device, content caching method, and computer readable medium | |
JP5084665B2 (en) | Component linkage scenario integrated development environment providing system, scenario creation support method, and program | |
JP2005196676A (en) | Service creating method, service creating system, and program, | |
JP6834743B2 (en) | Update processing program, update processing device, and update processing method | |
CN110866196A (en) | Printer network information acquisition method and device and electronic equipment | |
JP6620558B2 (en) | Information processing apparatus and information processing program | |
JP2019061408A (en) | Information processing apparatus and information processing program | |
CN111125142B (en) | Data updating method and system | |
JP2007265356A (en) | Interconnection method and device using communication protocol | |
CN110505277B (en) | Data caching method and device and client | |
CN101917476A (en) | Hyper text transmission protocol (HTTP) message processing method and client system thereof | |
KR102493026B1 (en) | Server, user device and media play device for providing seamless service | |
KR101363164B1 (en) | Method and apparatus for sharing media content using modified url | |
JP4937794B2 (en) | Load distribution system, cooperative service providing apparatus, information sharing storage apparatus, load distribution method, and load distribution program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100526 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5153516 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |