JP5430128B2 - URL conversion apparatus, URL conversion method, URL conversion program, and Web information collection system - Google Patents

URL conversion apparatus, URL conversion method, URL conversion program, and Web information collection system Download PDF

Info

Publication number
JP5430128B2
JP5430128B2 JP2008297949A JP2008297949A JP5430128B2 JP 5430128 B2 JP5430128 B2 JP 5430128B2 JP 2008297949 A JP2008297949 A JP 2008297949A JP 2008297949 A JP2008297949 A JP 2008297949A JP 5430128 B2 JP5430128 B2 JP 5430128B2
Authority
JP
Japan
Prior art keywords
url
conversion
destination
conversion rule
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008297949A
Other languages
Japanese (ja)
Other versions
JP2010123043A (en
Inventor
孝之 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008297949A priority Critical patent/JP5430128B2/en
Publication of JP2010123043A publication Critical patent/JP2010123043A/en
Application granted granted Critical
Publication of JP5430128B2 publication Critical patent/JP5430128B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、例えば、Webクローラ等のアクセス先を指定するURL(Uniform Resource Locator)を変換する技術に関する。   The present invention relates to a technique for converting a URL (Uniform Resource Locator) that specifies an access destination such as a Web crawler.

URLによって特定されるWeb上のアクセス先(以下、Webページ)には、本質的なコンテンツを持たないものが多数存在している。
例えば、Webサイト運営者は、管理するサイトを経由して外部のサイトを訪問した閲覧者を把握するために、外部URLを直接リンクせず、外部URLと1対1に対応する通過型URLをリンクすることがある。通過型URLのリンクを閲覧者がクリックすると、その通過型URLが示すWebページへのアクセスが行われ、そのWebページのアクセスログに外部URLを導出可能な前記URLが記録される。その後、通過型URLが示すWebページはWebブラウザにリダイレクト応答を返し、閲覧者に意識させることなく外部URLが示すWebページ(コンテンツ情報を有するWebページ)へアクセスされる。このような手法は、外部URLへのリンクが集約される検索エンジンやポータルサイト等で広く用いられており、Webサイトの構成の改善や閲覧者の行動分析等に活用されている。
There are many access destinations on the Web (hereinafter referred to as Web pages) specified by the URL that do not have essential content.
For example, a web site operator does not directly link an external URL in order to grasp a visitor who has visited an external site via a managed site, and uses a one-to-one pass-through URL corresponding to the external URL. May link. When the viewer clicks the link of the pass-through URL, the web page indicated by the pass-through URL is accessed, and the URL from which the external URL can be derived is recorded in the access log of the web page. Thereafter, the Web page indicated by the pass-through URL returns a redirect response to the Web browser, and the Web page indicated by the external URL (the Web page having content information) is accessed without making the viewer aware of it. Such a method is widely used in search engines, portal sites, and the like in which links to external URLs are aggregated, and is used for improving the configuration of websites and analyzing the behavior of viewers.

また、音声や動画のストリーミング等においては、直接コンテンツをダウンロードする代わりに、一旦再生用プログラムをダウンロード・実行させ、その再生用プログラムが実コンテンツをダウンロードするという手法が用いられる。現状、Webブラウザの基本機能では、コンテンツ全体をダウンロードしてから再生用プログラムを起動することしかできない。そこで、ストリーミング機能を持つ小容量の再生用プログラムをダウンロードし、Webブラウザのプラグインとして実行することで、閲覧者の待ち時間を解消するとともに、Webブラウザと密接に連携した柔軟なインタフェースの提供を可能にしている。   In streaming audio or moving images, instead of downloading content directly, a method is used in which a playback program is once downloaded and executed, and the playback program downloads actual content. At present, the basic function of the Web browser can only start the playback program after downloading the entire content. Therefore, by downloading a small-capacity playback program with a streaming function and executing it as a Web browser plug-in, it eliminates the waiting time of the viewer and provides a flexible interface closely linked to the Web browser. It is possible.

上記のような本質的なコンテンツへのアクセス経路として設置された通過型URLは、閲覧者の行動分析の重視や、YouTube(登録商標)等のユーザ作成コンテンツ(UGC:User−Generated Contents)サイトの隆盛に伴い、今後ますます増加すると考えられる。しかしながら、Web情報の分析を目的としてWebクローラによる自動的なコンテンツ収集を行う際には、閲覧者が人間であることを前提とした通過型URLの存在は、WebクローラおよびWebサイトの双方にとって不要なアクセス負荷を生じる要因となる。
上記リダイレクトURLに対しては、リダイレクト元URLとリダイレクト先URLの文字列的な対応関係を与え、リダイレクト元URLをリダイレクト先URLに変換する手法が提案されている(例えば、特許文献1参照)。これにより、リダイレクト元URLへのアクセスが生じた際には、リダイレクト元URLをアクセスする代わりに、直接リダイレクト先URLをアクセスすることが可能になる。
特開2005−182617号公報 「Mining the Web: Discovering Knowledge from Hypertext Data」Morgan Kaufmann(2002年8月15日)、ISBN:978−1−55860−754−5 「Googleを支える技術 巨大システムの内側の世界」技術評論社(2008年3月28日)、ISBN:978−4−7741−3432−1
Pass-through URLs set up as access routes to the essential content as described above are important for analyzing the behavior of viewers and for user-generated content (UGC: User-Generated Content) sites such as YouTube (registered trademark). Along with the prosperity, it is expected to increase in the future. However, when automatic content collection is performed by a web crawler for the purpose of analyzing web information, the presence of a pass-through URL based on the assumption that the viewer is a human is unnecessary for both the web crawler and the website. Cause a heavy access load.
A method has been proposed in which a character string correspondence between the redirect URL and the redirect URL is given to the redirect URL, and the redirect URL is converted into the redirect URL (see, for example, Patent Document 1). As a result, when the redirect source URL is accessed, the redirect destination URL can be directly accessed instead of accessing the redirect source URL.
JP 2005-182617 A “Minning the Web: Discovering knowledge from Hypertext Data” Morgan Kaufmann (August 15, 2002), ISBN: 978-1-55860-754-5 "Technology that Supports Google" World inside a giant system, Technical Review (March 28, 2008), ISBN: 978-4-7741-3432-1

しかし、従来のリダイレクトURL変換方式では、URL変換のルールを予め与える必要があり、少数の既知Webサイトにしか適用できないという課題がある。つまり、未知のWebサイトにおいてはリダイレクト元URLに対するアクセスを回避することができない。
また、通常のWebクローリングでは、動画等のストリーミング再生用プログラムを収集する。しかし、通常のWebクローリングでは、HTML(HyperText Markup Language)等の静的コンテンツを対象とするため、再生用プログラムについては充分な解析は行われない。つまり、通常のWebクローリングでは、再生用プログラムを収集することは不要であるが、これを回避することはできない。また、動画等のストリーミング再生用プログラムがアクセスする実コンテンツのURLは、その再生用プログラムを実行しないと判明しないものもある。そのため、通常のWebクローリングでは、本質的でない(不要な)再生用プログラムへのアクセスが回避できないだけでなく、実コンテンツが収集できないという課題がある。
However, in the conventional redirect URL conversion method, it is necessary to give a URL conversion rule in advance, and there is a problem that it can be applied only to a small number of known websites. That is, access to the redirect source URL cannot be avoided on an unknown website.
Also, in normal web crawling, streaming playback programs such as moving images are collected. However, in normal web crawling, static content such as HTML (HyperText Markup Language) is targeted, and thus the reproduction program is not sufficiently analyzed. That is, in normal Web crawling, it is not necessary to collect a reproduction program, but this cannot be avoided. Also, the URL of actual content accessed by a streaming playback program such as a moving image may not be known unless the playback program is executed. For this reason, the normal web crawling has a problem that not only an essential (unnecessary) reproduction program can be avoided but also the actual content cannot be collected.

この発明は、例えば、未知の通過型URL等が示すWebページへの不要なアクセスを回避し、本質的なコンテンツを直接ダウンロードすることを可能にし、大規模Webクローリングの効率化を実現することを目的とする。   The present invention, for example, avoids unnecessary access to a Web page indicated by an unknown pass-through URL or the like, enables essential contents to be directly downloaded, and realizes efficiency of large-scale Web crawling. Objective.

この発明に係るURL変換装置は、例えば、
複数のアクセス先からコンテンツ情報を収集する収集装置がアクセス先を指定するURL(Uniform Resource Locator)を変換するURL変換装置であり、
前記収集装置がコンテンツ情報を収集したURLである参照元URLと、収集したコンテンツ情報から参照されるURLである参照先URLとを取得する取得部と、
前記取得部が取得した前記参照元URLと前記参照先URLとを対にして記憶装置に記憶して前記対を蓄積するURL蓄積部と、
前記URL蓄積部が蓄積した前記対から変換元URLと変換先URLとを変換ルールとして処理装置により検出する変換ルール検出部と、
前記変換ルール検出部が検出した変換ルールを記憶装置に記憶する変換ルール記憶部と、
前記取得部が取得した参照先URLの少なくとも一部が前記変換ルール記憶部が記憶した変換ルールの変換元URLと一致する場合、前記参照先URLの一致部分を当該変換先URLに処理装置により置き換えて前記収集装置へ送信する変換部と
を備えることを特徴とする。
The URL converter according to the present invention is, for example,
A collection device that collects content information from a plurality of access destinations is a URL conversion device that converts a URL (Uniform Resource Locator) that specifies an access destination,
An acquisition unit that acquires a reference source URL that is a URL from which the collection device has collected content information and a reference destination URL that is a URL that is referred to from the collected content information;
A URL storage unit that stores the reference source URL and the reference destination URL acquired by the acquisition unit in a storage device as a pair and stores the pair;
A conversion rule detection unit that detects a conversion source URL and a conversion destination URL from the pair stored by the URL storage unit as a conversion rule by a processing device;
A conversion rule storage unit that stores the conversion rule detected by the conversion rule detection unit in a storage device;
When at least a part of the reference destination URL acquired by the acquisition unit matches the conversion source URL of the conversion rule stored in the conversion rule storage unit, the matching part of the reference destination URL is replaced with the conversion destination URL by the processing device And a conversion unit that transmits the data to the collection device.

この発明に係るURL変換装置は、収集装置が収集したURLと、そのURLが示すアクセス先から取得したコンテンツに含まれるURLとからURLの変換ルールを生成する。そして、生成した変換ルールに基づき、URLを変換する。したがって、この発明に係るURL変換装置によれば、未知の通過型URLに対しても不要なアクセスを回避し、リダイレクト先や実コンテンツを直接ダウンロードすることを可能にし、大規模Webクローリングの効率化を実現することができる。   The URL conversion device according to the present invention generates a URL conversion rule from the URL collected by the collection device and the URL included in the content acquired from the access destination indicated by the URL. Then, the URL is converted based on the generated conversion rule. Therefore, according to the URL conversion apparatus of the present invention, it is possible to avoid unnecessary access to an unknown pass-through URL, to directly download a redirect destination and actual content, and to improve the efficiency of large-scale web crawling Can be realized.

実施の形態1.
この実施の形態では、アクセスしたURLとリダイレクト先URLの間、あるいはストリーミング再生用プログラムのURLとストリーミングコンテンツのURLの間等に共通する部分文字列を検出し、URL間の変換規則を自動的に導出することで、未知の通過型URLに対しても不要なアクセスを回避するWeb情報収集システム(URL変換システム)について説明する。
Embodiment 1 FIG.
In this embodiment, a partial character string that is common between the accessed URL and the redirect destination URL or between the URL of the streaming playback program and the URL of the streaming content is detected, and the conversion rule between the URLs is automatically set. A Web information collection system (URL conversion system) that avoids unnecessary access to unknown pass-through URLs by deriving will be described.

図1は、この実施の形態に係るWeb情報収集システムの構成図である。
図1において、Web情報収集システムは、URL変換装置1、Webクローラ8(収集装置の一例)、動的コンテンツ再生部9を備える。
URL変換装置1は、URLテーブル3(URL蓄積部)と変換ルールテーブル4(変換ルール記憶部)とを備える記憶部2、取得部5(受付部)、変換ルール検出部6、変換部7を備える。また、URL変換装置1は、取得部5と変換部7とにより、Webクローラ8とネットワークを介して接続されている。取得部5は、Webクローラ8からURL受付情報50をネットワークを介して取得してURLテーブル3に蓄積する。変換ルール検出部6は、URLテーブル3に蓄積された複数のURL受付情報50から変換ルールを検出して変換ルールテーブル4に記憶する。変換部7は、変換ルールテーブル4に記憶された変換ルールに基づき、取得部5が取得したURL受付情報50を変換してURL応答情報70にして、Webクローラ8へネットワークを介して送信する。
Webクローラ8と動的コンテンツ再生部9とは、インターネット10に接続されており、インターネット10に接続された複数のWebサーバ11a〜11cからコンテンツをダウンロードする。
FIG. 1 is a configuration diagram of a Web information collection system according to this embodiment.
In FIG. 1, the Web information collection system includes a URL conversion device 1, a Web crawler 8 (an example of a collection device), and a dynamic content playback unit 9.
The URL conversion device 1 includes a storage unit 2 including a URL table 3 (URL storage unit) and a conversion rule table 4 (conversion rule storage unit), an acquisition unit 5 (accepting unit), a conversion rule detection unit 6, and a conversion unit 7. Prepare. Further, the URL conversion apparatus 1 is connected to the Web crawler 8 via the network by the acquisition unit 5 and the conversion unit 7. The acquisition unit 5 acquires the URL reception information 50 from the Web crawler 8 via the network and stores it in the URL table 3. The conversion rule detection unit 6 detects a conversion rule from a plurality of URL reception information 50 accumulated in the URL table 3 and stores it in the conversion rule table 4. Based on the conversion rules stored in the conversion rule table 4, the conversion unit 7 converts the URL reception information 50 acquired by the acquisition unit 5 into URL response information 70 and transmits it to the Web crawler 8 via the network.
The web crawler 8 and the dynamic content playback unit 9 are connected to the Internet 10 and download content from a plurality of Web servers 11 a to 11 c connected to the Internet 10.

なお、上述したURL変換装置1は、詳しくは後述するが、CPU911(プロセッサ)、バス912、メモリ、固定ディスクインタフェース、固定ディスク装置、およびネットワークインタフェース等を備えた一般的なコンピュータにより実現できる。より具体的には、記憶部2を固定ディスク装置で実現し、取得部5、変換ルール検出部6、変換部7をメモリに格納されCPU911で実行されるプログラムとして実現することができる。
また、Webクローラ8と動的コンテンツ再生部9とは、URL変換装置1と同一のコンピュータ、又はURL変換装置1とは別のコンピュータを用いて実現することができ、それぞれ、メモリあるいは固定ディスク装置、又はネットワークインタフェースを介してURL変換装置1と接続される。
The URL conversion device 1 described above can be realized by a general computer including a CPU 911 (processor), a bus 912, a memory, a fixed disk interface, a fixed disk device, and a network interface, which will be described in detail later. More specifically, the storage unit 2 can be realized by a fixed disk device, and the acquisition unit 5, the conversion rule detection unit 6, and the conversion unit 7 can be realized as a program stored in a memory and executed by the CPU 911.
Further, the Web crawler 8 and the dynamic content playback unit 9 can be realized by using the same computer as the URL conversion device 1 or a computer different from the URL conversion device 1, each of which is a memory or a fixed disk device. Or connected to the URL conversion apparatus 1 via a network interface.

ここで、一般的なWebクローラの動作は、公知の文献(例えば、非特許文献1、非特許文献2)に記載されている通り、アクセス先URLが示すWebページのコンテンツをインターネットを介して取得する。また、一般的なWebクローラは、取得したコンテンツを解析してそのコンテンツにリンクされたURLを取り出し、新たなアクセス先URLとすることにより、多数のWebサーバから大量のコンテンツを自動的に収集するものである。
この実施の形態におけるWebクローラ8も、上述したような一般的なWebクローラと同様に動作する。しかし、この実施の形態におけるWebクローラ8は、取得したコンテンツから取り出したリンクURLを新たな取得対象としてフィードバックする際に、URL変換装置1を経由させる点が異なる。
また、一般的なWebクローラはHTMLやXML(eXtensible Markup Language)等で記述されたコンテンツのみを解析し、<A>タグのHREF属性等に明示的に記述されたURLをリンクされたURLとして抽出を行う。
この実施の形態におけるWebクローラ8もHTMLやXML等の静的コンテンツのみを解析する点は一般的なWebクローラと同様である。しかし、この実施の形態におけるWebクローラ8は、例えば、Adobe Systems社のAdobe Flash(登録商標)形式等の動的コンテンツに対しては、動的コンテンツ再生部9の起動を行う点が異なる。
Here, the operation of a general Web crawler acquires the content of the Web page indicated by the access destination URL via the Internet, as described in known documents (for example, Non-Patent Document 1 and Non-Patent Document 2). To do. In addition, a general Web crawler automatically collects a large amount of content from a large number of Web servers by analyzing the acquired content, extracting a URL linked to the content, and setting it as a new access destination URL. Is.
The web crawler 8 in this embodiment also operates in the same manner as a general web crawler as described above. However, the Web crawler 8 in this embodiment is different in that the URL crawler 8 is routed through the URL conversion device 1 when the link URL extracted from the acquired content is fed back as a new acquisition target.
Also, a general Web crawler analyzes only the contents described in HTML, XML (extensible Markup Language), etc., and extracts the URL explicitly described in the HREF attribute etc. of the <A> tag as a linked URL. I do.
The Web crawler 8 in this embodiment is similar to a general Web crawler in that it analyzes only static content such as HTML and XML. However, the Web crawler 8 in this embodiment is different in that, for example, the dynamic content playback unit 9 is activated for dynamic content such as Adobe Flash (registered trademark) format of Adobe Systems.

動的コンテンツ再生部9は、Webブラウザおよびそのプラグイン等、ユーザがWebを閲覧するのに用いるプログラム自体か、画面表示等を除いてWeb閲覧用プログラムと同様に動作するように作成されたプログラムにより実現される。
動的コンテンツ再生部9は、再生対象の動的コンテンツを再生する過程で、その動的コンテンツに埋め込まれた指示にしたがってインターネット10からのダウンロードを行う。Webクローラ8は、動的コンテンツ再生部9がインターネット10へアクセスしたことを検知する。そして、Webクローラ8は、そのアクセス先のURLを、その動的コンテンツからのリンクURLとして抽出して、URL変換装置1に受け渡す。
なお、Webクローラ8がHTMLコンテンツと同様に動的コンテンツ自体を解析し、アクセス先URLの抽出を行わないのは、アクセス先URLが静的な文字列として記述されていない場合があるためである。また、動的コンテンツ再生部9がその動的コンテンツの指示にしたがってダウンロードしたコンテンツが、さらに別のコンテンツに対するダウンロード指示を含むこともある。そのため、動的コンテンツからリンクされたコンテンツを正確に把握するためには、ユーザによる閲覧時と同様の環境で再生する必要があるためである。
The dynamic content playback unit 9 is a program used by a user to browse the web, such as a web browser and its plug-in, or a program created to operate in the same manner as the web browsing program except for screen display It is realized by.
The dynamic content playback unit 9 downloads from the Internet 10 in the process of playing back the dynamic content to be played, in accordance with instructions embedded in the dynamic content. The Web crawler 8 detects that the dynamic content playback unit 9 has accessed the Internet 10. Then, the Web crawler 8 extracts the URL of the access destination as a link URL from the dynamic content and passes it to the URL conversion device 1.
The Web crawler 8 analyzes the dynamic content itself in the same manner as the HTML content and does not extract the access destination URL because the access destination URL may not be described as a static character string. . In addition, the content downloaded by the dynamic content playback unit 9 according to the dynamic content instruction may include a download instruction for another content. Therefore, in order to accurately grasp the content linked from the dynamic content, it is necessary to reproduce the content in the same environment as when viewed by the user.

以上のように、Webクローラ8は、動的コンテンツ再生部9と連携することにより、HTMLで記述された静的コンテンツに加え、動的コンテンツに対しても、リンク先URLの追跡を可能にしている。   As described above, the Web crawler 8 enables tracking of the link destination URL for dynamic content in addition to static content described in HTML by cooperating with the dynamic content playback unit 9. Yes.

図2は、取得部5がWebクローラ8から取得するURL受付情報50の形式を示す図である。
URL受付情報50は、参照元URL51、参照元種別52、および参照先URL53の3つの項目を含む。
参照元URL51は、Webクローラ8がコンテンツ情報を収集したURLである。つまり、参照元URL51は、Webクローラ8が取得し解析した静的コンテンツのURL、又は動的コンテンツ再生部9が再生した動的コンテンツのURLである。
参照元種別52は、参照元URL51に対応するコンテンツの形式を表す情報である。参照元種別52は、例えば、「text/html」(HTMLコンテンツ)、「application/rss+xml」(XMLコンテンツの一種であるRSSフィード)、「application/x−shockwave−flash」(Adobe Flashコンテンツ)等のMIMEタイプ文字列が値となる。参照元種別52の値は、Webクローラ8がWebサーバ11a〜11cから受け取ったHTTP(HyperText Transfer Protocol)応答ヘッダに含まれる「Content−type」フィールドの値とすればよい(RFC2616「Hypertext Transfer Protocol ― HTTP/1.1」参照)。
参照先URL53は、Webクローラ8が取得したコンテンツ情報から参照されるURLである。つまり、参照先URL53は、静的コンテンツから抽出したリンク先URL、又は動的コンテンツのアクセス先URLである。
FIG. 2 is a diagram illustrating a format of the URL reception information 50 that the acquisition unit 5 acquires from the Web crawler 8.
The URL reception information 50 includes three items: a reference source URL 51, a reference source type 52, and a reference destination URL 53.
The reference source URL 51 is a URL where the Web crawler 8 collects content information. That is, the reference source URL 51 is the URL of static content acquired and analyzed by the Web crawler 8 or the URL of dynamic content reproduced by the dynamic content reproduction unit 9.
The reference source type 52 is information representing the format of content corresponding to the reference source URL 51. The reference source type 52 is, for example, “text / html” (HTML content), “application / rss + xml” (RSS feed which is a kind of XML content), “application / x-shockwave-flash” (Adobe Flash content), etc. The MIME type string is the value. The value of the reference source type 52 may be the value of the “Content-type” field included in the HTTP (HyperText Transfer Protocol) response header received by the Web crawler 8 from the Web servers 11a to 11c (RFC 2616 “Hypertext Transfer Protocol— HTTP / 1.1 ").
The reference URL 53 is a URL that is referenced from the content information acquired by the Web crawler 8. That is, the reference destination URL 53 is a link destination URL extracted from static content or an access destination URL of dynamic content.

なお、例えば、Webクローラ8がWebサーバ11a〜11cから受け取ったHTTP応答が成功(ステータス200)ではなく、別URLへのリダイレクト(ステータス301、302、303、および307)であった場合には、アクセスしたURLを参照元URL51に、「http/redirect」を参照元種別52に、リダイレクト先URL(HTTP応答ヘッダのLocationフィールドの値)を参照先URL53に、それぞれ設定したURL受付情報50を取得部5に受け渡すものとする。
また、参照元URLに対応する参照先URLが複数ある場合は、参照先URL毎にURL受付情報50の受け渡しを行う。つまり、1つのURLが示すWebページのコンテンツ情報から複数のURLへリンクされている場合、リンクされているURL毎にURL受付情報50を生成して、URL変換装置1へ受け渡す。すなわち、1つのURL(元URL)が示すWebページのコンテンツ情報から3つのURL(先URL1、先URL2、先URL3)へリンクされている場合、参照元URL51を元URL、参照先URL53を先URL1とするURL受付情報50と、参照元URL51を元URL、参照先URL53を先URL2とするURL受付情報50と、参照元URL51を元URL、参照先URL53を先URL3とするURL受付情報50との3つのURL受付情報50を生成して、URL変換装置1へ受け渡す。
For example, when the HTTP response received by the Web crawler 8 from the Web servers 11a to 11c is not successful (status 200) but redirected to another URL (status 301, 302, 303, and 307), The URL receiving information 50 that has been set is obtained by referring to the accessed URL as the reference source URL 51, “http / direct” as the reference source type 52, the redirect destination URL (the value of the Location field of the HTTP response header) as the reference destination URL 53, respectively. 5 shall be handed over.
When there are a plurality of reference destination URLs corresponding to the reference source URL, the URL reception information 50 is transferred for each reference destination URL. That is, when the content information of the Web page indicated by one URL is linked to a plurality of URLs, the URL reception information 50 is generated for each linked URL and transferred to the URL conversion device 1. That is, when the content information of the Web page indicated by one URL (original URL) is linked to three URLs (destination URL1, destination URL2, destination URL3), the reference source URL 51 is the original URL, and the reference destination URL 53 is the destination URL1. , URL reception information 50 with the source URL 51 as the original URL and reference destination URL 53 as the destination URL 2, and URL reception information 50 with the reference source URL 51 as the original URL and the reference destination URL 53 as the destination URL 3. Three pieces of URL reception information 50 are generated and transferred to the URL conversion device 1.

図3は、変換部7がWebクローラ8に受け渡すURL応答情報70の形式を示す図である。
URL応答情報70は、参照元URL71、および参照先URL72、の2つの項目を含む。
参照元URL71の値は、参照先URL72のコンテンツをダウンロードする際に、HTTP要求ヘッダのRefererフィールドに設定するために用いる。変換部7が参照先URL53を変換した場合、参照元URL71にはURL受付情報50の参照先URL53が設定される。一方、変換部7が参照先URL53を変換しない場合、参照元URL71にはURL受付情報50の参照元URL51が設定される。
参照先URL72には、変換部7が変換ルールテーブル4に記憶された変換ルールに基づき、参照先URL53を変換した変換後のURLが設定される。変換部7によるURLの変換が行われない場合、参照先URL72には参照先URL53が設定される。
つまり、変換部7によるURLの変換が行われない場合、URL応答情報70の参照元URL71と参照先URL72との値は、URL受付情報50の参照元URL51と参照先URL53との値と同一となる。
Webクローラ8は、URL応答情報70を受け取り、参照先URL72を新たなアクセス先のURL(取得対象URL)とする。変換部7は、取得部5が取得したURL受付情報50に対してURL応答情報70をWebクローラ8へ返す。したがって、URL受付情報50と同様に、参照元URLに対応する参照先URLが複数ある場合は、参照先URL毎にURL応答情報70をWebクローラ8へ返す。
FIG. 3 is a diagram illustrating a format of URL response information 70 that the conversion unit 7 passes to the Web crawler 8.
The URL response information 70 includes two items: a reference source URL 71 and a reference destination URL 72.
The value of the reference source URL 71 is used for setting in the Referer field of the HTTP request header when the content of the reference destination URL 72 is downloaded. When the conversion unit 7 converts the reference destination URL 53, the reference destination URL 53 of the URL reception information 50 is set in the reference source URL 71. On the other hand, when the conversion unit 7 does not convert the reference destination URL 53, the reference source URL 51 of the URL reception information 50 is set in the reference source URL 71.
In the reference destination URL 72, a converted URL obtained by converting the reference destination URL 53 based on the conversion rule stored in the conversion rule table 4 by the conversion unit 7 is set. When URL conversion by the conversion unit 7 is not performed, the reference destination URL 53 is set as the reference destination URL 72.
That is, when URL conversion by the conversion unit 7 is not performed, the values of the reference source URL 71 and the reference destination URL 72 of the URL response information 70 are the same as the values of the reference source URL 51 and the reference destination URL 53 of the URL reception information 50. Become.
The Web crawler 8 receives the URL response information 70, and sets the reference destination URL 72 as a new access destination URL (acquisition target URL). The conversion unit 7 returns URL response information 70 to the Web crawler 8 in response to the URL reception information 50 acquired by the acquisition unit 5. Therefore, similarly to the URL reception information 50, when there are a plurality of reference destination URLs corresponding to the reference source URL, the URL response information 70 is returned to the Web crawler 8 for each reference destination URL.

なお、図2と図3とに例として示した値は、上述したURL変換装置1によるURLの変換処理によって変換が行われた場合に対応している。つまり、変換部7が変換を行った場合の例を示す。すなわち、取得部5が図2に示すURL受付情報50をWebクローラ8から取得した場合に、変換部7が図3に示すURL応答情報70をWebクローラ8へ返すことを示す。   The values shown as examples in FIGS. 2 and 3 correspond to the case where the conversion is performed by the URL conversion processing by the URL conversion device 1 described above. That is, an example in which the conversion unit 7 performs conversion is shown. That is, when the acquisition unit 5 acquires the URL reception information 50 illustrated in FIG. 2 from the Web crawler 8, the conversion unit 7 returns the URL response information 70 illustrated in FIG. 3 to the Web crawler 8.

図4は、URLテーブル3の形式を示す図である。
URLテーブル3は、参照元URL31、参照先URL32の2つの項目を含む。
参照元URL31と参照先URL32との値は、取得部5がWebクローラ8から取得したURL受付情報50の参照元URL51と参照先URL53との値である。つまり、URLテーブル3は、取得部5が取得したURL受付情報50の参照元URL51と参照先URL53とを参照元URL31と参照先URL32との対として蓄積する。Webクローラ8は、アクセスしたWebページから次々にURL受付情報50を抽出して、取得部5へ受け渡すため、URLテーブル3には、複数の参照元URL31と参照先URL32との対が蓄積される。
なお、複数の対は、参照元URL31の文字列順に取り出すことが可能になっている。これには、参照元URL31をキーとして、公知のB−tree構造等を用いて各対を格納すれば実現できる。
FIG. 4 is a diagram showing the format of the URL table 3.
The URL table 3 includes two items, a reference source URL 31 and a reference destination URL 32.
The values of the reference source URL 31 and the reference destination URL 32 are the values of the reference source URL 51 and the reference destination URL 53 of the URL reception information 50 acquired from the Web crawler 8 by the acquisition unit 5. That is, the URL table 3 stores the reference source URL 51 and the reference destination URL 53 of the URL reception information 50 acquired by the acquisition unit 5 as a pair of the reference source URL 31 and the reference destination URL 32. Since the Web crawler 8 extracts URL reception information 50 one after another from the accessed Web page and transfers it to the acquisition unit 5, the URL table 3 stores a plurality of pairs of reference source URLs 31 and reference destination URLs 32. The
A plurality of pairs can be extracted in the order of the character strings of the reference source URL 31. This can be realized by storing each pair using a known B-tree structure or the like using the reference source URL 31 as a key.

図5は、変換ルールテーブル4の形式を示す図である。
変換ルールテーブル4は、変換部7がURLの変換に使用する変換ルールを記憶するもので、変換元プレフィックス41、変換元パラメータ名集合42、変換先プレフィックス43、および変換先パラメータ名集合44の4つの項目を含む。
変換元プレフィックス41と変換元パラメータ名集合42とは、変換元のURLに関する情報であり、変換先プレフィックス43と変換先パラメータ名集合44とは、変換先(変換後)のURLに関する情報である。変換元プレフィックス41に対して、変換先プレフィックス43が対応する情報であり、変換元パラメータ名集合42に対して、変換先パラメータ名集合44が対応する情報である。
変換元プレフィックス41と変換先プレフィックス43とは、URL文字列の先頭から取り出した部分文字列である。但し、部分文字列は文字単位ではなく、「/」を区切り文字とするパス要素(ディレクトリ名)を単位として切り出すものとする。例えば、「http://aaa.com/dir1/dir2/file」の部分文字列は、「http://aaa.com/」、「http://aaa.com/dir1/」、「http://aaa.com/dir1/dir2/」、「http://aaa.com/dir1/dir2/file」のいずれかとなる。また、URLがクエリ文字列(「?」に続く部分)を含む場合、部分文字列にはクエリ文字列を含めないものとする。例えば、「http://aaa.com/dir1/dir2/search?q=foo&n=100」の最長部分文字列は、「http://aaa.com/dir1/dir2/search?」となる。つまり、パス要素とは、URLのうち、コンテンツの位置(ディレクトリ)を示す情報である。
変換元パラメータ名集合42と変換先パラメータ名集合44とは、URLのクエリ文字列における「パラメータ名1=値1&パラメータ名2=値2&...」形式から抽出した0個以上のパラメータ名からなる。変換ルールテーブル4の各組の変換元パラメータ名集合42と変換先パラメータ名集合44とは、同数のパラメータ名を含み、各パラメータ名は並び順に応じて対応付けられている。図5の例では、変換元パラメータ名idが変換先パラメータ名idに、変換元パラメータ名vが変換先パラメータ名idに、変換元パラメータ名sizeが変換先パラメータ名sizeに、それぞれ対応する。
なお、変換ルール検出部6は、URLテーブル3に蓄積された対から変換ルールを所定のタイミングで抽出して変換ルールテーブル4に記憶する。したがって、変換ルールテーブル4には、複数の変換ルールが蓄積される。蓄積された複数の変換ルールは、変換元プレフィックス41の文字列順に取り出すことが可能になっている。これには、変換元プレフィックス41をキーとして、公知のB−tree構造等を用いて各対を格納すれば実現できる。
FIG. 5 is a diagram showing the format of the conversion rule table 4.
The conversion rule table 4 stores conversion rules used by the conversion unit 7 for URL conversion. The conversion rule table 4 includes a conversion source prefix 41, a conversion source parameter name set 42, a conversion destination prefix 43, and a conversion destination parameter name set 44. Contains one item.
The conversion source prefix 41 and the conversion source parameter name set 42 are information regarding the URL of the conversion source, and the conversion destination prefix 43 and the conversion destination parameter name set 44 are information regarding the URL of the conversion destination (after conversion). The conversion destination prefix 43 corresponds to the conversion source prefix 41, and the conversion destination parameter name set 44 corresponds to the conversion source parameter name set 42.
The conversion source prefix 41 and the conversion destination prefix 43 are partial character strings extracted from the head of the URL character string. However, it is assumed that the partial character string is cut out not in units of characters but in units of path elements (directory names) having “/” as a delimiter. For example, the partial character strings of “http://aaa.com/dir1/dir2/file” are “http://aaa.com/”, “http://aaa.com/dir1/”, “http: //Aaa.com/dir1/dir2/ ”or“ http://aaa.com/dir1/dir2/file ”. In addition, when the URL includes a query character string (portion following “?”), The partial character string does not include the query character string. For example, the longest partial character string of “http://aaa.com/dir1/dir2/search?q=foo&n=100” is “http://aaa.com/dir1/dir2/search?”. That is, the path element is information indicating the position (directory) of the content in the URL.
The conversion source parameter name set 42 and the conversion destination parameter name set 44 are obtained from zero or more parameter names extracted from the format of “parameter name 1 = value 1 & parameter name 2 = value 2 &...” In the URL query character string. Become. The conversion source parameter name set 42 and the conversion destination parameter name set 44 in each set of the conversion rule table 4 include the same number of parameter names, and the parameter names are associated with each other in the order of arrangement. In the example of FIG. 5, the conversion source parameter name id corresponds to the conversion destination parameter name id, the conversion source parameter name v corresponds to the conversion destination parameter name id, and the conversion source parameter name size corresponds to the conversion destination parameter name size.
The conversion rule detection unit 6 extracts conversion rules from the pairs stored in the URL table 3 at a predetermined timing and stores them in the conversion rule table 4. Therefore, the conversion rule table 4 stores a plurality of conversion rules. The plurality of stored conversion rules can be extracted in the order of the character strings of the conversion source prefix 41. This can be realized by storing each pair using a known B-tree structure or the like using the conversion source prefix 41 as a key.

次に、この実施の形態に係るURL変換装置1の動作について説明する。
図6は、この実施の形態に係る取得部5の動作を示すフローチャートである。取得部5は、Webクローラ8からURL受付情報50を取得する度に以下の処理(S51−S55:取得ステップ)を実行する。
(S51:参照元種別判定ステップ)
取得部5は、取得したURL受付情報50の参照元種別52の値がリダイレクト、又は動的コンテンツを示しているか否か判定する。参照元種別52がリダイレクト、又は動的コンテンツを示している場合(S51でYes)、(S52)へ進む。一方、参照元種別52がリダイレクト、又は動的コンテンツを示していない場合(S51でNo)、(S55)へ進む。
(S52:URL蓄積ステップ)
取得部5は、URL受付情報50の参照元URL51と参照先URL53とを、それぞれ参照元URL31と参照先URL32として対にしてURLテーブル3に挿入する。つまり、取得部5は、参照元URL31と参照先URL32とを対にしてURLテーブル3に蓄積する。
(S53:蓄積件数判定ステップ)
取得部5は、URLテーブル3に蓄積された対の件数を取得する。取得した件数が基準値の整数倍になっている場合(S53でYes)、(S54)に進む。一方、取得した件数が基準値の整数倍になっていない場合(S53でNo)、(S55)に進む。なお、基準値は予め定めておく。
(S54:変換ルール検出ステップ)
取得部5は、変換ルール検出部6を起動して処理を実行させる。変換ルール検出部6の処理については後述する。
(S55:URL受け渡しステップ)
取得部5は、取得したURL受付情報50を変換部7へ受け渡す。
Next, the operation of the URL conversion apparatus 1 according to this embodiment will be described.
FIG. 6 is a flowchart showing the operation of the acquisition unit 5 according to this embodiment. The acquisition unit 5 executes the following processing (S51-S55: acquisition step) every time the URL reception information 50 is acquired from the Web crawler 8.
(S51: Reference source type determination step)
The acquisition unit 5 determines whether the value of the reference source type 52 of the acquired URL reception information 50 indicates redirection or dynamic content. When the reference source type 52 indicates redirect or dynamic content (Yes in S51), the process proceeds to (S52). On the other hand, when the reference source type 52 does not indicate redirection or dynamic content (No in S51), the process proceeds to (S55).
(S52: URL accumulation step)
The acquisition unit 5 inserts the reference source URL 51 and the reference destination URL 53 of the URL reception information 50 into the URL table 3 as a reference source URL 31 and a reference destination URL 32 in pairs. That is, the acquisition unit 5 stores the reference source URL 31 and the reference destination URL 32 in pairs in the URL table 3.
(S53: Accumulated number judgment step)
The acquisition unit 5 acquires the number of pairs stored in the URL table 3. If the acquired number is an integral multiple of the reference value (Yes in S53), the process proceeds to (S54). On the other hand, when the number of acquired cases is not an integral multiple of the reference value (No in S53), the process proceeds to (S55). The reference value is determined in advance.
(S54: Conversion rule detection step)
The acquisition unit 5 activates the conversion rule detection unit 6 to execute processing. The processing of the conversion rule detection unit 6 will be described later.
(S55: URL delivery step)
The acquisition unit 5 passes the acquired URL reception information 50 to the conversion unit 7.

図7は、変換ルール検出部6の動作を示すフローチャートである。変換ルール検出部6は、起動されると以下の処理(S61−S69:変換ルール検出ステップ)を行う。
(S61:変換ルール初期化ステップ)
変換ルール検出部6は、初期設定として、変換ルールテーブル4を全件削除して空にする。また、変換ルール検出部6は、変数i=2、k=0を初期値として設定する。
(S62:最長共通プレフィックス抽出ステップ)
変換ルール検出部6は、URLテーブル3の第i件目の参照元URL31と第i−1件目の参照元URL31に対し、最長共通プレフィックス(参照元共通パス要素)を求める。ここで、URLを「/」で分割した各部分文字列をパス要素と呼ぶ。また、最長共通プレフィックスとは、2つのURLを「/」でパス要素に分割した際に、先頭から一致するパス要素を全て連結したものである。但し、「?」に続くクエリ文字列はURL文字列から取り除く。
また、変換ルール検出部6は、抽出した最長共通プレフィックスのパス要素数をkとし、抽出した最長共通プレフィックスを共通プレフィックスkとする。
例えば、図4の1行目と2行目とに示す参照元URL31「http://aaa.com/dir1/dir2/file」と「http://aaa.com/dir1/dir3/dir4/file2」の最長共通プレフィックスは「http://aaa.com/dir1/」、そのパス要素数は1である。また、例えば、「http://aaa.com/dir1/dir2/search?q=foo&n=100」と「http://aaa.com/dir1/dir2/search?q=bar&n=100」の最長共通プレフィックスは「http://aaa.com/dir1/dir2/search?」、そのパス要素数は3である。
(S63:共通プレフィックス判定ステップ)
変換ルール検出部6は、(S62)で求めたkを、1つ小さなi(つまり、「i−1」)に対して既に求めた最長共通プレフィックスのパス要素数ki−1と比較する。k<ki−1である場合(S63でYes)、(S64)へ進む。一方、k<ki−1でない場合(S63でNo)、(S66)へ進む。
例えば、現在のiの値が3である場合、図4であれば、2行目(第i−1件目)と3行目(第i件目)との最長共通プレフィックスは「http://aaa.com/dir1/dir3/」、そのパス要素数kは2である。一方、1つ小さなiに対して既に求めた最長共通プレフィックスのパス要素数ki−1(つまり、図4の1行目と2行目との最長共通プレフィックスのパス要素数)は上記の通り1である。したがって、この場合、k<ki−1でないため(S66)へ進む。
また、現在のiの値が4である場合、図4であれば、3行目(第i−1件目)と4行目(第i件目)との最長共通プレフィックスは「http://aaa.com/dir1/」、そのパス要素数kは1である。一方、1つ小さなiに対して既に求めた最長共通プレフィックスのパス要素数ki−1は上記の通り2である。したがって、この場合、k<ki−1であるため(S64)へ進む。
(S64:変換ルールチェックステップ)
変換ルール検出部6は、パス要素数(k+1)からki−1までに対応する共通プレフィックスのそれぞれに対し、後述する変換ルールチェック処理を行う。
つまり、上記の現在のiの値が4である場合の例であれば、パス要素数(k+1)は2であり、パス要素数ki−1は2であるから、パス要素数2に対応する共通プレフィックス「http://aaa.com/dir1/dir3/」について後述する変換ルールチェック処理を行う。
(S65:カウンタ値初期化ステップ)
変換ルール検出部6は、パス要素数毎の共通プレフィックスの出現数をカウントするカウンタの内、パス要素数(k+1)からki−1までに対応するものを0クリアする。
つまり、上記の現在のiの値が4である場合の例であれば、パス要素数2に対応するカウンタを0クリアする。
(S66:カウントステップ)
変換ルール検出部6は、パス要素数kに対応するカウンタに1を加える。これは、共通プレフィックスが一致し、直後に続くパス要素が異なる参照元URL31を数えることに相当する。
つまり、上記の現在のiの値が4である場合の例であれば、パス要素数1に対応するカウンタに1加える。つまり、共通プレフィックスは「http://aaa.com/dir1/」であって、直後に続くパス要素が異なる参照元URL31のカウンタに1を加える。つまり、iの値が4の時点で、パス要素数1に対応するカウンタは3になる。すなわち、「http://aaa.com/dir1/」を含む参照元URL31は4件であるが、図4の2行目と3行目とは、「http://aaa.com/dir1/」の直後に続くパス要素が同じであるため1件とカウントされる。したがって、カウンタは3になる。
なお、URLテーブル3の各対は、参照元URL31の順に格納されている。そのため、最長共通プレフィックスのパス要素数が減少した場合(つまり、S63でYesの場合)、前の最長共通プレフィックスに一致する参照元URL31が再度現れることはない。つまり、上記の例であれば、iの値が5以上の場合に、「http://aaa.com/dir1/dir3/」を含む参照元URL31はない。したがって、(S63)の条件成立後の(S64)では、パス要素数(k+1)からki−1までに対応するカウンタは確定値となる。そこで、(S64)においてパス要素数(k+1)からki−1までに対応する共通プレフィックスについての処理を行う。そして、(S65)において、パス要素数(k+1)からki−1までに対応するカウンタをクリアすることで、同じパス要素数を持つ別の共通プレフィックスについての処理に備える。
(S67:iインクリメントステップ)
変換ルール検出部6は、ステップS67でiに1を加える。
(S68:終了判定ステップ)
変換ルール検出部6は、iがURLテーブル3の件数を超えたかどうかを判定する。つまり、変換ルール検出部6は、URLテーブル3の全ての対について処理を行ったか否かを判定する。iがURLテーブル3の件数を超えている場合(S68でYes)、(S69)へ進む。一方、iがURLテーブル3の件数を超えていない場合(S68でNo)、(S62)へ戻り処理を繰り返す。
(S69:終了処理ステップ)
変換ルール検出部6は、終了処理としてパス要素数0からki−1までに対応する共通プレフィックスのそれぞれに対し、後述する変換ルールチェック処理を行う。
FIG. 7 is a flowchart showing the operation of the conversion rule detection unit 6. When started, the conversion rule detection unit 6 performs the following processing (S61-S69: conversion rule detection step).
(S61: Conversion rule initialization step)
The conversion rule detection unit 6 deletes all conversion rule tables 4 to make them empty as an initial setting. Further, the conversion rule detection unit 6 sets variables i = 2 and k 1 = 0 as initial values.
(S62: longest common prefix extraction step)
The conversion rule detection unit 6 obtains the longest common prefix (reference source common path element) for the i-th reference source URL 31 and the (i-1) th reference source URL 31 in the URL table 3. Here, each partial character string obtained by dividing the URL with “/” is called a path element. The longest common prefix is obtained by concatenating all matching path elements from the top when two URLs are divided into path elements with “/”. However, the query character string following “?” Is removed from the URL character string.
Further, the conversion rule detection unit 6 sets the number of path elements of the extracted longest common prefix as k i and sets the extracted longest common prefix as the common prefix k i .
For example, reference URLs 31 “http://aaa.com/dir1/dir2/file” and “http://aaa.com/dir1/dir3/dir4/file2” shown in the first and second lines of FIG. "Is the longest common prefix of" http://aaa.com/dir1/ ", and the number of path elements is one. Further, for example, “http://aaa.com/dir1/dir2/search?q=foo&n=100” and “http://aaa.com/dir1/dir2/search?q=bar&n=100” The prefix is “http://aaa.com/dir1/dir2/search?”, And the number of path elements is three.
(S63: Common prefix determination step)
The conversion rule detection unit 6 compares the k i obtained in (S62) with the number k i−1 of the longest common prefix already obtained for one smaller i (ie, “i−1”). . When k i <k i−1 (Yes in S63), the process proceeds to (S64). On the other hand, when k i <k i−1 is not satisfied (No in S63), the process proceeds to (S66).
For example, if the current value of i is 3, and in FIG. 4, the longest common prefix between the second line (i-1th case) and the third line (ith case) is “http: // /Aaa.com/dir1/dir3/ ”, and the number of path elements k i is two. On the other hand, the number k i−1 of the longest common prefix already obtained for one small i (that is, the number of longest common prefix path elements in the first and second lines in FIG. 4) is as described above. 1. Therefore, in this case, since k i <k i−1 does not hold, the process proceeds to (S66).
If the current value of i is 4, and in FIG. 4, the longest common prefix between the third line (i−1th case) and the fourth line (ith case) is “http: // /Aaa.com/dir1/ ", and the number of path elements k i is 1. On the other hand, the number k i−1 of the longest common prefix path elements already obtained for one small i is 2 as described above. Therefore, in this case, since k i <k i−1 , the process proceeds to (S64).
(S64: Conversion rule check step)
The conversion rule detection unit 6 performs a conversion rule check process to be described later for each of the common prefixes corresponding to the number of path elements (k i +1) to k i−1 .
That is, if the example of the value of the current i of the is 4, is a path number of elements (k i +1) 2, since the path element number k i-1 is 2, the path the number of elements 2 A conversion rule check process to be described later is performed for the common prefix “http://aaa.com/dir1/dir3/” corresponding to.
(S65: Counter value initialization step)
Conversion rule detection unit 6, of the counter for counting the number of occurrences of the common prefix for each number of path elements, those corresponding to the path number of elements (k i +1) to k i-1 is cleared to zero.
That is, in the example in which the current i value is 4, the counter corresponding to the number of path elements 2 is cleared to zero.
(S66: Count step)
The conversion rule detection unit 6 adds 1 to the counter corresponding to the path element number k i . This corresponds to counting the reference source URLs 31 in which the common prefix matches and the path elements immediately following are different.
In other words, in the example in which the current i value is 4, 1 is added to the counter corresponding to 1 path element. That is, the common prefix is “http://aaa.com/dir1/”, and 1 is added to the counter of the reference source URL 31 having a different path element immediately after. That is, when the value of i is 4, the counter corresponding to 1 for the number of path elements is 3. That is, there are four reference source URLs 31 including “http://aaa.com/dir1/”, but the second and third lines in FIG. 4 are “http://aaa.com/dir1/”. Since the path elements immediately following "are the same, one is counted. Therefore, the counter becomes 3.
Each pair of the URL table 3 is stored in the order of the reference source URL 31. For this reason, when the number of path elements of the longest common prefix decreases (that is, in the case of Yes in S63), the reference source URL 31 that matches the previous longest common prefix does not appear again. That is, in the above example, when the value of i is 5 or more, there is no reference source URL 31 including “http://aaa.com/dir1/dir3/”. Therefore, the conditions in the post-establishment (S64), the counter corresponding to the path number of elements (k i +1) to k i-1 determined value (S63). Therefore, the processing associated with common prefixes corresponding to the path number of elements from the (k i +1) to k i-1 in (S64). Then, in the (S65), by clearing the counter corresponding to the path number of elements (k i +1) to k i-1, comprising a processing for another common prefix with the same number of path elements.
(S67: i increment step)
The conversion rule detection unit 6 adds 1 to i in step S67.
(S68: End determination step)
The conversion rule detection unit 6 determines whether i exceeds the number of cases in the URL table 3. That is, the conversion rule detection unit 6 determines whether or not processing has been performed for all pairs in the URL table 3. If i exceeds the number of URL table 3 (Yes in S68), the process proceeds to (S69). On the other hand, if i does not exceed the number of URL table 3 (No in S68), the process returns to (S62) and is repeated.
(S69: End processing step)
The conversion rule detection unit 6 performs a conversion rule check process, which will be described later, for each common prefix corresponding to the number of path elements from 0 to k i−1 as an end process.

図8は、図7のステップ(S64)と(S69)とから呼び出される変換ルールチェック処理の動作を示すフローチャートである。変換ルール検出部6は、パス要素数毎の共通プレフィックスに対し以下の処理(S71−S76:変換ルールチェックステップ)を行う。
(S71:カウンタチェックステップ)
変換ルール検出部6は、共通プレフィックスに対応するカウンタの値と閾値とを比較する。カウンタが閾値以上である場合(S71でYes)、(S72)へ進む。一方、カウンタが閾値以上でない場合(S71でNo)、処理を終了する。これにより、一部のURL間に偶然成立する変換ルールを誤って導出することを防ぐ。なお、閾値は予め定めておく。
つまり、上記のiの値が4である場合の例であれば、共通プレフィックス「http://aaa.com/dir1/dir3/」(パス要素数2)に対応するカウンタの値(つまり、2)と閾値とを比較する。
(S72:プレフィックス抽出ステップ)
変換ルール検出部6は、共通プレフィックスに対応するURLテーブル3の各対から参照先URL32の集合を取得する。そして、変換ルール検出部6は、その集合の全要素に共通するプレフィックス(参照先共通パス要素)を求める。参照先URLの共通プレフィックスは空(パス要素数=0)でも良い。
つまり、上記のiの値が4である場合の例であれば、共通プレフィックス「http://aaa.com/dir1/dir3/」に対応するURLテーブル3の対、すなわち図4の2行目と3行目との対から参照先URL32を取得する。そして、2行目の「http://data.aaa.com/dir1/dir3/dir4/file2?v=1」と、3行目の「http://data.aaa.com/dir1/dir3/dir5/file3?v=1」とに共通するプレフィックス「http://data.aaa.com/dir1/dir3/」を求める。なお、ここでは、説明のため、上記のiの値が4である場合に(S71でYes)であったとする。
(S73:パス要素チェックステップ)
変換ルール検出部6は、URLテーブル3の各対において、参照元URL31のサフィックス(共通プレフィックスに続くパス要素。参照元個別パス要素)と参照先URL32のサフィックス(参照先URL32の共通プレフィックスに続くパス要素。参照先URL32の共通プレフィックスが空の場合、全てのパス要素。参照先個別パス要素)がそれぞれ一致するか否か判定する。全て一致する場合(S73でYes)、(S74)へ進む。一方、不一致がある場合(S73でNo)、変換ルールの導出は不可能であるため処理を終了する。
つまり、上記のiの値が4である場合の例であれば、図4の2行目と3行目とのそれぞれの対について確認を行う。つまり、2行目であれば、参照元URL31のサフィックス「dir4/file2?」と参照先URL32のサフィックス「dir4/file2?」とが一致するか否か判定する。同様に3行目についても判定する。
なお、変換ルール検出部6は、参照元URL31のサフィックスと参照先URL32のサフィックスとを比較する場合には、URLデコードした上で比較を行う。URLデコードとは、「%」に続く16進表現された文字列を文字コードを表すものと解釈することである。つまり、変換ルール検出部6は、「%」に続く16進表現された文字列を文字コードを表すものとして変換して比較する。
(S74:パラメータ値チェックステップ)
変換ルール検出部6は、URLテーブル3の各対において、参照先URL32のクエリ文字列から取り出したパラメータ値の集合が、参照元URL31のクエリ文字列から取り出したパラメータ値の集合に包含されているか否か判定する。包含されている場合(S74でYes)、(S75)へ進む。一方、包含されていない場合(S75でNo)、変換ルールの導出は不可能なため処理を終了する。但し、参照元URL31と参照先URL32とがいずれもクエリ文字列を持たない場合(パラメータ値の集合がいずれも空集合の場合)は、包含されているものとみなす。
つまり、上記のiの値が4である場合の例であれば、2行目と3行目との各対について、参照先URL32のクエリ文字列から取り出したパラメータ値と参照元URL31のクエリ文字列から取り出したパラメータ値とを抽出する。例えば、2行目であれば、パラメータ値はいずれも「1」である。したがって、包含されている。同様に3行目についても包含されている。
(S75:パラメータ名チェックステップ)
変換ルール検出部6は、URLテーブル3の対毎に、パラメータ値が一致するパラメータ名の集合を抽出する。変換ルール検出部6は、抽出したパラメータ名集合が全ての対において一致するか否かを判定する。なお、両集合とも空の場合は一致するものとみなす。一致する場合(S75でYes)、(S76)へ進む。一方、一致しない場合(S75でNo)、変換ルールの導出は不可能なため処理を終了する。
つまり、上記のiの値が4である場合の例であれば、2行目と3行目との各対について、パラメータ値が一致するパラメータ名の集合を抽出する。2行目と3行目とはいずれもパラメータ値が「1」で一致するパラメータ名は参照元URL31においては「id」であり、参照先URL32においては「v」であるため、一致する。
(S76:変換ルール記憶ステップ)
変換ルール検出部6は、参照元URL31の共通プレフィックス((S62)で抽出した共通プレフィックス)を変換元プレフィックス41として、(S75)で抽出したパラメータ名集合のうち参照元URL31に含まれるパラメータ名を変換元パラメータ名集合42として、参照先URL32の共通プレフィックス((S72)で抽出した共通プレフィックス)を変換先プレフィックス43として、(S75)で抽出したパラメータ名集合のうち参照先URL32に含まれるパラメータ名を変換先パラメータ名集合44として、変換ルールテーブル4に挿入する。
つまり、上記のiの値が4である場合の例であれば、変換元プレフィックス41に「http://aaa.com/dir1/dir3/」を挿入する。変換元パラメータ名集合42に「id」を挿入する。変換先プレフィックス43に「http://data.aaa.com/dir1/dir3/」を挿入する。変換先パラメータ名集合44に「v」を挿入する。
FIG. 8 is a flowchart showing the operation of the conversion rule check process called from steps (S64) and (S69) in FIG. The conversion rule detection unit 6 performs the following processing (S71-S76: conversion rule check step) on the common prefix for each number of path elements.
(S71: Counter check step)
The conversion rule detection unit 6 compares the counter value corresponding to the common prefix with a threshold value. If the counter is equal to or greater than the threshold (Yes in S71), the process proceeds to (S72). On the other hand, if the counter is not greater than or equal to the threshold value (No in S71), the process ends. Thereby, it is prevented that a conversion rule that is accidentally established between some URLs is erroneously derived. The threshold value is determined in advance.
In other words, in the example in which the value of i is 4, the counter value corresponding to the common prefix “http://aaa.com/dir1/dir3/” (number of path elements 2) (that is, 2 ) And a threshold value.
(S72: Prefix extraction step)
The conversion rule detection unit 6 acquires a set of reference destination URLs 32 from each pair of the URL table 3 corresponding to the common prefix. Then, the conversion rule detection unit 6 obtains a prefix (reference destination common path element) common to all elements of the set. The common prefix of the reference URL may be empty (number of path elements = 0).
That is, in the example in which the value of i is 4, the URL table 3 pair corresponding to the common prefix “http://aaa.com/dir1/dir3/”, that is, the second line in FIG. And the reference destination URL 32 is acquired from the pair of the third line. The second line “http://data.aaa.com/dir1/dir3/dir4/file2?v=1” and the third line “http://data.aaa.com/dir1/dir3/ The prefix “http://data.aaa.com/dir1/dir3/” common to “dir5 / file3? v = 1” is obtained. Here, for the sake of explanation, it is assumed that the value of i is 4 (Yes in S71).
(S73: Path element check step)
In each pair of URL tables 3, the conversion rule detection unit 6 adds the suffix of the reference source URL 31 (path element following the common prefix; reference source individual path element) and the suffix of the reference destination URL 32 (path following the common prefix of the reference destination URL 32). If the common prefix of the reference destination URL 32 is empty, it is determined whether or not all path elements (reference destination individual path elements) match each other. If they all match (Yes in S73), the process proceeds to (S74). On the other hand, if there is a discrepancy (No in S73), the process ends because it is impossible to derive the conversion rule.
In other words, in the example in which the value of i is 4, confirmation is performed for each pair of the second and third rows in FIG. In other words, if it is the second line, it is determined whether or not the suffix “dir4 / file2?” Of the reference source URL 31 matches the suffix “dir4 / file2?” Of the reference destination URL 32. Similarly, the third line is also determined.
In addition, when comparing the suffix of the reference source URL 31 with the suffix of the reference destination URL 32, the conversion rule detection unit 6 performs the comparison after decoding the URL. URL decoding is to interpret a character string expressed in hexadecimal following “%” as representing a character code. That is, the conversion rule detection unit 6 converts the character string expressed in hexadecimal following “%” as a character code and compares the character strings.
(S74: Parameter value check step)
Whether the conversion rule detection unit 6 includes a set of parameter values extracted from the query character string of the reference URL 32 in each pair of the URL table 3 in a set of parameter values extracted from the query character string of the reference source URL 31. Judge whether or not. If it is included (Yes in S74), the process proceeds to (S75). On the other hand, if it is not included (No in S75), it is impossible to derive the conversion rule, and the process ends. However, when neither the reference source URL 31 nor the reference destination URL 32 has a query character string (when the set of parameter values is an empty set), it is considered to be included.
That is, in the example in which the value of i is 4, the parameter value extracted from the query character string of the reference destination URL 32 and the query character of the reference source URL 31 for each pair of the second and third lines. The parameter value extracted from the column is extracted. For example, in the second row, the parameter values are all “1”. Therefore, it is included. Similarly, the third line is also included.
(S75: Parameter name check step)
The conversion rule detection unit 6 extracts a set of parameter names with matching parameter values for each pair of the URL table 3. The conversion rule detection unit 6 determines whether or not the extracted parameter name sets match in all pairs. If both sets are empty, they are considered to match. If they match (Yes in S75), the process proceeds to (S76). On the other hand, if they do not match (No in S75), the process ends because the conversion rule cannot be derived.
That is, in the example in which the value of i is 4, a set of parameter names having the same parameter value is extracted for each pair of the second row and the third row. Both the second and third lines match because the parameter value is “1” and the matching parameter name is “id” in the reference source URL 31 and “v” in the reference destination URL 32.
(S76: Conversion rule storage step)
The conversion rule detection unit 6 uses the common prefix of the reference source URL 31 (the common prefix extracted in (S62)) as the conversion source prefix 41, and selects the parameter name included in the reference source URL 31 from the parameter name set extracted in (S75). As the conversion source parameter name set 42, the common prefix of the reference destination URL 32 (the common prefix extracted in (S72)) is used as the conversion destination prefix 43, and the parameter name included in the reference destination URL 32 in the parameter name set extracted in (S75). Are inserted into the conversion rule table 4 as a conversion destination parameter name set 44.
In other words, in the example in which the value of i is 4, “http://aaa.com/dir1/dir3/” is inserted into the conversion source prefix 41. “Id” is inserted into the conversion source parameter name set 42. Insert “http://data.aaa.com/dir1/dir3/” into the conversion destination prefix 43. “V” is inserted into the conversion destination parameter name set 44.

図9は、変換部7の動作を示すフローチャートである。
(S81:検索ステップ)
変換部7は、(S55)で取得部5から取得したURL受付情報50の参照先URL53に最長一致する変換元プレフィックス41を持つエントリ(レコード)を変換ルールテーブル4から検索して取得する。最長一致するとは、最も一致する部分が多いことであり、言い替えると、最も一致するパス要素数が多いことである。また、ここでは、URL受付情報50の参照先URL53の先頭側の一部が、変換元プレフィックス41と一致するエントリを検索する。この最長一致検索は、参照先URL53のパス要素を末尾から取り除きながら検索を繰り返すことで実現できる。
(S82:検索判定ステップ)
変換部7は、検索が成功したか否かを判定する。つまり、変換部7は、(S81)でURL受付情報50の参照先URL53の一部と一致する変換元プレフィックス41を持つエントリが取得できたか否かを判定する。検索が成功した場合(S82でYes)、(S83)へ進む。一方、検索が失敗した場合(S82でNo)、(S88)へ進む。
(S83:パラメータ名チェックステップ)
変換部7は、参照先URL53のクエリ文字列からパラメータ名の集合を取り出し、(S81)で検索したエントリの変換元パラメータ名集合42の全ての要素が含まれるか否かを判定する。含まれている場合(S83でYes)、(S84)へ進む。一方、含まれていない場合(S83でNo)、(S88)へ進む。
(S84:乱数チェックステップ)
変換部7は、一様乱数を発生して、発生した乱数値が閾値以上か否かを判定する。乱数値が閾値以上である場合(S84でYes)、(S85)へ進む。乱数値が閾値以上でない場合(S84でNo)、(S88)へ進む。なお、閾値は予め定めておく。
ここでの閾値は変換部7が意図的に変換動作を行わない確率を表す。導出した変換ルール(変換ルールテーブル4に蓄積された変換ルール)を常に適用した場合、変換元プレフィックス41に合致するURLに対するアクセスは全く行われなくなる。そのため、変換ルールが成立し続けているかどうか確認する手段がなくなる。つまり、変換ルールが成立しない状態となった場合であっても、それに気づくことなく変換を続けることになってしまう。そこで、(S84)により、一定の確率で、変換ルールを適用しないようにする。その結果、変換元プレフィックス41に合致する新たな参照元URL31がURLテーブル3に追加されるようになる。そのため、成立しなくなった変換ルールが削除される。つまり、(S61)での全件削除後、(S76)での再挿入が行われない。
(S85:プレフィックス変換ステップ)
変換部7は、URL受付情報50の参照先URL53の変換元プレフィックス41に一致する部分を、対応する変換先プレフィックス43に置換する。
(S86:パラメータ名変換ステップ)
変換部7は、参照先URL53のクエリ文字列中のパラメータ名のうち、変換元パラメータ名集合42に含まれるものを、変換先パラメータ名集合44の対応するパラメータ名に置換する。
(S87:第1URL応答情報生成ステップ)
変換部7は、URL受付情報50の参照先URL53を参照元URL71へ設定するとともに、(S85)と(S86)とで参照先URL53を置換して生成した新たなURLを、参照先URL72に設定してURL応答情報70を生成する。そして、変換部7は、生成したURL応答情報70をWebクローラ8へ送信する。
(S88:第2URL応答情報生成ステップ)
変換部7は、URL受付情報50の参照元URL51を参照元URL71に設定するとともに、参照先URL53を参照先URL72に設定して、URL応答情報70を生成する。そして、変換部7は、生成したURL応答情報70をWebクローラ8へ送信する。
FIG. 9 is a flowchart showing the operation of the conversion unit 7.
(S81: Search step)
The conversion unit 7 searches the conversion rule table 4 and acquires an entry (record) having the conversion source prefix 41 that is the longest match with the reference URL 53 of the URL reception information 50 acquired from the acquisition unit 5 in (S55). “Longest matching” means that there are many matching parts, in other words, the most matching path elements. Here, an entry in which a part of the head of the reference destination URL 53 of the URL reception information 50 matches the conversion source prefix 41 is searched. This longest match search can be realized by repeating the search while removing the path element of the reference URL 53 from the end.
(S82: Search determination step)
The conversion unit 7 determines whether the search is successful. That is, the conversion unit 7 determines whether or not an entry having the conversion source prefix 41 that matches a part of the reference destination URL 53 of the URL reception information 50 has been acquired in (S81). If the search is successful (Yes in S82), the process proceeds to (S83). On the other hand, if the search fails (No in S82), the process proceeds to (S88).
(S83: Parameter name check step)
The conversion unit 7 extracts a set of parameter names from the query character string of the reference destination URL 53, and determines whether or not all elements of the conversion source parameter name set 42 of the entry searched in (S81) are included. If it is included (Yes in S83), the process proceeds to (S84). On the other hand, if it is not included (No in S83), the process proceeds to (S88).
(S84: random number check step)
The conversion unit 7 generates a uniform random number and determines whether or not the generated random value is equal to or greater than a threshold value. If the random value is greater than or equal to the threshold (Yes in S84), the process proceeds to (S85). If the random value is not greater than or equal to the threshold (No in S84), the process proceeds to (S88). The threshold value is determined in advance.
The threshold value here represents a probability that the conversion unit 7 does not intentionally perform the conversion operation. When the derived conversion rule (conversion rule stored in the conversion rule table 4) is always applied, access to the URL that matches the conversion source prefix 41 is not performed at all. For this reason, there is no means for confirming whether or not the conversion rule continues to hold. That is, even if the conversion rule is not established, the conversion is continued without being noticed. Therefore, the conversion rule is not applied with a certain probability in (S84). As a result, a new reference source URL 31 that matches the conversion source prefix 41 is added to the URL table 3. Therefore, the conversion rule that is no longer established is deleted. That is, after all cases are deleted in (S61), re-insertion in (S76) is not performed.
(S85: Prefix conversion step)
The conversion unit 7 replaces the portion that matches the conversion source prefix 41 of the reference destination URL 53 of the URL reception information 50 with the corresponding conversion destination prefix 43.
(S86: Parameter name conversion step)
The conversion unit 7 replaces the parameter names included in the conversion source parameter name set 42 among the parameter names in the query character string of the reference destination URL 53 with the corresponding parameter names of the conversion destination parameter name set 44.
(S87: First URL response information generation step)
The conversion unit 7 sets the reference destination URL 53 of the URL reception information 50 to the reference source URL 71 and sets a new URL generated by replacing the reference destination URL 53 in (S85) and (S86) to the reference destination URL 72. Then, the URL response information 70 is generated. Then, the conversion unit 7 transmits the generated URL response information 70 to the Web crawler 8.
(S88: Second URL response information generation step)
The conversion unit 7 sets the reference source URL 51 of the URL reception information 50 to the reference source URL 71 and sets the reference destination URL 53 to the reference destination URL 72 to generate the URL response information 70. Then, the conversion unit 7 transmits the generated URL response information 70 to the Web crawler 8.

以上のように、この実施の形態に係るURL変換装置1によれば、URLテーブル3に蓄積されたリダイレクトや動的コンテンツにおけるURL間の対応関係に基づき、変換ルール検出部6がURLプレフィックスおよびパラメータ名の置換で変換可能な場合を検出し、変換ルールとして変換ルールテーブル4に蓄積する。そして、変換部7が自動的に蓄積された変換ルールを適用してURLを変換する。そのため、この実施の形態に係るURL変換装置1によれば、リダイレクト先や実コンテンツが予測できる通過型URLに対するアクセスを回避し、Webクローリングの効率を向上することができる。
特に、動的コンテンツ再生部9が動的コンテンツの再生を行いながらWebクローラ8を動作するため、動的コンテンツを再生しなければ得られないコンテンツ情報まで収集することができ、Webクローニングの適用範囲を広げることができる。一方で、動的コンテンツ再生部9が動的コンテンツの再生を行いながらWebクローラ8を動作させても、通過型の再生用プログラムを一定数実行した後には、通過型URLのアクセスを回避できるようになるため、実コンテンツに対応する全ての再生用プログラムを再生することによる速度低下は起こらない。
As described above, according to the URL conversion device 1 according to this embodiment, the conversion rule detection unit 6 performs the URL prefix and parameter based on the redirection stored in the URL table 3 and the correspondence between URLs in dynamic content. A case where conversion is possible by name substitution is detected and stored in the conversion rule table 4 as a conversion rule. Then, the conversion unit 7 converts the URL by applying the automatically stored conversion rules. Therefore, according to the URL conversion apparatus 1 according to this embodiment, it is possible to avoid access to a pass-through URL where a redirect destination or actual content can be predicted, and to improve Web crawling efficiency.
In particular, since the dynamic content playback unit 9 operates the Web crawler 8 while playing back dynamic content, content information that cannot be obtained without playing back dynamic content can be collected. Can be spread. On the other hand, even if the dynamic content playback unit 9 operates the Web crawler 8 while playing back dynamic content, it is possible to avoid access of the pass-through URL after a certain number of pass-through playback programs are executed. Therefore, the speed reduction due to the reproduction of all reproduction programs corresponding to the actual content does not occur.

なお、上記説明では、URLの共通プレフィックスには、クエリ文字列は含まないものとした。しかし、「パラメータ名=値」の同じ組が共通して現れる場合には、クエリ文字列の「パラメータ名=値」部分を共通プレフィックスの一部として扱ってもよい。この場合、共通プレフィックスとして扱った「パラメータ名=値」部分は、クエリ文字列から除外して扱う。
図10は、図8の(S72)で参照先URL32の共通プレフィックスを求めた後に、追加で実行されるステップを示す図である。
(S721:クエリ文字列判定ステップ)
変換ルール検出部6は、参照先URLの共通プレフィックス直後にクエリ文字列が続くか否か判定する。クエリ文字列が続く場合(S721でYes)、(S722)へ進む。一方、クエリ文字列が続かない場合(S721でNo)、(S73)へ進む。
(S722:出現数算出ステップ)
変換ルール検出部6は、図8の(S72)で対象とした参照先URL32の集合における「パラメータ名=値」の組の出現数を算出する。
(S723:プレフィックス抽出ステップ)
変換ルール検出部6は、出現数が閾値以上となる「パラメータ名=値」の組を、参照先URLの共通プレフィックスに追加するとともに、参照先URLのクエリ文字列から除外する。そして、(S73)へ進む。
これにより、参照先URLが参照元URLと関係ない「パラメータ名=値」部分を(デフォルト値として)常に含んでいても、(S74)での変換ルールの棄却を防ぎ、変換ルールの適用範囲を広げることが可能になる。
In the above description, the query character string is not included in the URL common prefix. However, when the same set of “parameter name = value” appears in common, the “parameter name = value” portion of the query character string may be treated as a part of the common prefix. In this case, the “parameter name = value” portion treated as a common prefix is excluded from the query character string.
FIG. 10 is a diagram showing additional steps performed after obtaining the common prefix of the reference destination URL 32 in (S72) of FIG.
(S721: Query string determination step)
The conversion rule detection unit 6 determines whether or not the query character string immediately follows the common prefix of the reference URL. When the query character string continues (Yes in S721), the process proceeds to (S722). On the other hand, if the query character string does not continue (No in S721), the process proceeds to (S73).
(S722: Appearance count calculation step)
The conversion rule detection unit 6 calculates the number of occurrences of “parameter name = value” pairs in the set of reference destination URLs 32 targeted in (S72) of FIG.
(S723: Prefix extraction step)
The conversion rule detection unit 6 adds the “parameter name = value” pair whose number of appearances is equal to or greater than the threshold to the common prefix of the reference destination URL and excludes it from the query character string of the reference destination URL. Then, the process proceeds to (S73).
Thereby, even if the reference destination URL always includes a “parameter name = value” portion that is not related to the reference source URL (as a default value), rejection of the conversion rule in (S74) is prevented, and the application range of the conversion rule is increased. It becomes possible to spread.

また、上記説明では、変換部7は変換ルールの適用を1回しか行わない。しかし、変換後の参照先URLに対する変換ルールが存在する限り、複数回変換ルールを適用してもよい。つまり、リダイレクトされた先のWebページで、さらにリダイレクトされるように、複数回リダイレクトされる場合が考えられる。すなわち、複数の通過型URLが示すWebページを経由して、実コンテンツ情報を有するWebページへアクセスする場合がある。このような場合に、複数回変換ルールを適用することにより、全ての通過型URLが示すWebページへのアクセス回避して、実コンテンツ情報を有するWebページへ直接アクセスすることを可能とする。
図11は、図9のステップS87に代わって実行されるステップを示す図である。
(S87’:第1URL応答情報生成ステップ)
変換部7は、参照元URL51を新たな参照元URLに、参照先URL53を新たな参照先URLに設定して(S81)へ戻る。つまり、2度目以降に実行される(S81)では、取得部5が取得したURL受付情報50の代わりに(S87’)で置換されたURL受付情報50を入力として処理を実行する。
これにより、通過型URLを複数回経由するようなリダイレクト、およびストリーミングコンテンツ再生においても、その始点URLを終点URLに置換し、直接終点URLをアクセスすることで、Webクローリングの効率を向上することが可能になる。
なお、変換ルールの適用回数は所定の回数に限定してもよい。
In the above description, the conversion unit 7 applies the conversion rule only once. However, as long as there is a conversion rule for the converted reference URL, the conversion rule may be applied multiple times. In other words, there may be a case where the redirected web page is redirected a plurality of times so as to be further redirected. In other words, a Web page having actual content information may be accessed via Web pages indicated by a plurality of pass-through URLs. In such a case, by applying the conversion rule a plurality of times, it is possible to avoid direct access to the Web page indicated by all the pass-through URLs and directly access the Web page having actual content information.
FIG. 11 is a diagram showing steps executed in place of step S87 of FIG.
(S87 ′: first URL response information generation step)
The conversion unit 7 sets the reference source URL 51 as a new reference source URL and sets the reference destination URL 53 as a new reference destination URL, and returns to S81. That is, in the second and subsequent executions (S81), the process is executed with the URL reception information 50 replaced in (S87 ′) instead of the URL reception information 50 acquired by the acquisition unit 5 as an input.
This makes it possible to improve the efficiency of Web crawling by replacing the start point URL with the end point URL and directly accessing the end point URL even when redirecting through a pass-through URL multiple times and streaming content playback. It becomes possible.
Note that the number of application of the conversion rule may be limited to a predetermined number.

実施の形態2.
この実施の形態では、実施の形態1に係るURL変換装置1と比べ、変換ルール検出部6の動作効率を向上させたURL変換装置1について説明する。
Embodiment 2. FIG.
In this embodiment, the URL conversion apparatus 1 in which the operation efficiency of the conversion rule detection unit 6 is improved as compared with the URL conversion apparatus 1 according to the first embodiment will be described.

図12は、この実施の形態に係るWeb情報収集システムの構成図である。実施の形態2に係るURL変換装置1は、図1の構成を持つ実施の形態1に係るURL変換装置1と比べ、URLキャッシュ12(キャッシュ記憶部)を備える点が異なり、その他の構成要素については実施の形態1に係るURL変換装置1と同様である。また、URL変換装置1以外のWeb情報収集システムの構成は、実施の形態1に係るWeb情報収集システムと同様である。
図13は、URLキャッシュ12の形式を示す図である。URLキャッシュ12は、所定数以下の参照元URL33を含む。
FIG. 12 is a configuration diagram of the Web information collection system according to this embodiment. The URL conversion apparatus 1 according to the second embodiment is different from the URL conversion apparatus 1 according to the first embodiment having the configuration shown in FIG. 1 in that it includes a URL cache 12 (cache storage unit). Is the same as the URL conversion apparatus 1 according to the first embodiment. The configuration of the Web information collection system other than the URL conversion device 1 is the same as that of the Web information collection system according to the first embodiment.
FIG. 13 is a diagram showing the format of the URL cache 12. The URL cache 12 includes a predetermined number of reference source URLs 33 or less.

図14は、この実施の形態に係る取得部5の動作を示すフローチャートである。この実施の形態においては、取得部5は図6に代わり、図14に従って動作する。
(S91)と(S92)とは、(S51)と(S52)とそれぞれ同様である。但し、(S91でYes)の場合(S92)へ進み、(S91でNo)の場合(S97)へ進む。
(S93:キャッシュ追加ステップ)
取得部5は、URL受付情報50の参照元URL51を参照元URL33としてURLキャッシュ12に追加する。
(S94:キャッシュ判定ステップ)
取得部5は、URLキャッシュ12に格納された参照元URL33の件数を取得する。件数が所定数である場合(S94でYes)、(S95)へ進む。一方、件数が所定数でない場合(S94でNo)、(S97)へ進む。
(S95:変換ルール検出ステップ)
取得部5は、URLキャッシュ12に格納された参照元URL33の値に対応するURLテーブル3のエントリに対して変換ルール検出部6を起動して処理を実行させる。つまり、変換ルール検出部6の処理は、URLテーブル3の一部のエントリに対してのみ実行される。
URLキャッシュ12に格納された参照元URL33の値に対応するURLテーブル3のエントリとは、URLキャッシュ12に格納された参照元URL33に含まれるWebサーバ名(ドメイン名)を含む参照元URL31を有するエントリである。つまり、取得部5は、URLキャッシュ12に格納された参照元URL33に含まれるWebサーバ名を抽出し、抽出したWebサーバ名を含む参照元URL31を有するURLテーブル3のエントリを抽出して、抽出したエントリを対象として変換ルール検出部6を動作させる。変換ルール検出部6は、図7における変数iを前記抽出したエントリに限定して、URLテーブル3の件数を前記抽出したエントリ数とする。また、変換ルールテーブル4の削除対象を、Webサーバ名を含む変換元プレフィックス41を有するエントリのみとする。
(S96:キャッシュ初期化ステップ)
取得部5は、URLキャッシュ12の全件を削除する。
(S97)は、(S55)と同様である。
FIG. 14 is a flowchart showing the operation of the acquisition unit 5 according to this embodiment. In this embodiment, the acquisition unit 5 operates according to FIG. 14 instead of FIG.
(S91) and (S92) are the same as (S51) and (S52), respectively. However, in the case of (Yes in S91), the process proceeds to (S92), and in the case of (No in S91), the process proceeds to (S97).
(S93: Cache addition step)
The acquisition unit 5 adds the reference source URL 51 of the URL reception information 50 as the reference source URL 33 to the URL cache 12.
(S94: Cache determination step)
The acquisition unit 5 acquires the number of reference source URLs 33 stored in the URL cache 12. When the number of cases is a predetermined number (Yes in S94), the process proceeds to (S95). On the other hand, when the number of cases is not the predetermined number (No in S94), the process proceeds to (S97).
(S95: Conversion rule detection step)
The acquisition unit 5 activates the conversion rule detection unit 6 for the entry of the URL table 3 corresponding to the value of the reference source URL 33 stored in the URL cache 12 to execute the process. That is, the process of the conversion rule detection unit 6 is executed only for some entries in the URL table 3.
The entry of the URL table 3 corresponding to the value of the reference source URL 33 stored in the URL cache 12 has a reference source URL 31 including the Web server name (domain name) included in the reference source URL 33 stored in the URL cache 12. Is an entry. That is, the acquisition unit 5 extracts the Web server name included in the reference source URL 33 stored in the URL cache 12, and extracts and extracts the entry in the URL table 3 having the reference source URL 31 including the extracted Web server name. The conversion rule detection unit 6 is operated for the entered entry. The conversion rule detection unit 6 limits the variable i in FIG. 7 to the extracted entry, and sets the number of URL table 3 to the extracted entry number. Further, the deletion target of the conversion rule table 4 is only an entry having the conversion source prefix 41 including the Web server name.
(S96: Cache initialization step)
The acquisition unit 5 deletes all items in the URL cache 12.
(S97) is the same as (S55).

以上のように、この実施の形態に係るURL変換装置1は、URLキャッシュ12を備えるため、変換ルール検出部6を起動するまでにURLテーブル3に追加されたエントリを把握することが可能である。そのため、変換ルール検出部6の動作結果が異なる可能性のある範囲に限定して変換ルール検出部6を動作させることができ、変換ルール検出部6の動作効率を向上することができる。   As described above, since the URL conversion device 1 according to this embodiment includes the URL cache 12, it is possible to grasp the entries added to the URL table 3 before the conversion rule detection unit 6 is activated. . Therefore, the conversion rule detection unit 6 can be operated only in a range where the operation result of the conversion rule detection unit 6 may be different, and the operation efficiency of the conversion rule detection unit 6 can be improved.

実施の形態3.
この実施の形態では、変換ルール更新動作の遅延を防ぎ、Webクローラ8の動作効率を向上するWeb情報収集システムについて説明する。
Embodiment 3 FIG.
In this embodiment, a Web information collection system that prevents the delay of the conversion rule update operation and improves the operation efficiency of the Web crawler 8 will be described.

図15は、この実施の形態に係るWeb情報収集システムの構成図である。この実施の形態に係るURL変換装置1は、実施の形態1に係るURL変換装置1と比べ、プレフィックステーブル13(共通部分記憶部)と変換ルール確認部14とを備える点が異なり、その他の構成要素については実施の形態1に係るURL変換装置1と同様である。また、URL変換装置1以外のWeb情報収集システムの構成は、実施の形態1に係るWeb情報収集システムと同様である。
図16は、プレフィックステーブル13の形式を示す図である。プレフィックステーブル13は、参照元URLプレフィックス34、長さ35、および出現数36の組を含む。参照元URLプレフィックス34は、URL受付情報50の参照元URL51から抽出したプレフィックスである。つまり、参照元URLプレフィックス34は、URL受付情報50の参照元URL51の先頭からパス要素を単位として切り出したURLである。例えば、「http://aaa.com/dir1/dir2/file」のプレフィックスは、「http://aaa.com/」と、「http://aaa.com/dir1/」と、「http://aaa.com/dir1/dir2/」と、「http://aaa.com/dir1/dir2/file」との4つである。長さ35は、参照元URLプレフィックス34に含まれるパス要素数である。出現数36は、URL受付情報50の参照元URL51に参照元URLプレフィックス34が含まれていた回数である。
変換ルール確認部14は、変換ルールテーブル4に蓄積された変換ルールのうち、成立しなくなった変換ルールを削除する。
FIG. 15 is a configuration diagram of a Web information collection system according to this embodiment. The URL conversion device 1 according to this embodiment is different from the URL conversion device 1 according to the first embodiment in that it includes a prefix table 13 (common part storage unit) and a conversion rule confirmation unit 14, and other configurations. The elements are the same as those in the URL conversion apparatus 1 according to the first embodiment. The configuration of the Web information collection system other than the URL conversion device 1 is the same as that of the Web information collection system according to the first embodiment.
FIG. 16 is a diagram showing the format of the prefix table 13. The prefix table 13 includes a set of a reference source URL prefix 34, a length 35, and an appearance number 36. The reference source URL prefix 34 is a prefix extracted from the reference source URL 51 of the URL reception information 50. In other words, the reference source URL prefix 34 is a URL cut out from the head of the reference source URL 51 of the URL reception information 50 in units of path elements. For example, the prefix of “http://aaa.com/dir1/dir2/file” is “http://aaa.com/”, “http://aaa.com/dir1/”, and “http: //Aaa.com/dir1/dir2/ "and" http://aaa.com/dir1/dir2/file ". The length 35 is the number of path elements included in the reference source URL prefix 34. The appearance number 36 is the number of times the reference source URL prefix 34 is included in the reference source URL 51 of the URL reception information 50.
The conversion rule confirmation unit 14 deletes conversion rules that are no longer satisfied from the conversion rules stored in the conversion rule table 4.

図17は、取得部5と変換ルール確認部14との動作を示すフローチャートである。この実施の形態においては、取得部5は図6に代わり、図17に従って動作する。
(S101)と(S102)とは、(S51)と(S52)とそれぞれ同様である。但し、(S101でYes)の場合(S102)へ進み、(S101でNo)の場合(S106)へ進む。
(S103:プレフィックス更新ステップ)
取得部5は、URL受付情報50の参照元URL51の各プレフィックスに基づき、プレフィックステーブル13のエントリを更新する。ここで、参照元URL51の各プレフィックスとは、変換元プレフィックス41等と同様に、URL文字列の先頭からパス要素単位に取り出した部分文字列である。例えば、「http://aaa.com/dir1/dir2/file」のプレフィックスは、「http://aaa.com/」と、「http://aaa.com/dir1/」と、「http://aaa.com/dir1/dir2/」と、「http://aaa.com/dir1/dir2/file」との4つである。取得部5は、参照元URL51の最長のプレフィックスから順に、パス要素を末尾から1つずつ削除しながら、各プレフィックスと一致する参照元URLプレフィックス34を持つエントリをプレフィックステーブル13から検索する。つまり、上記例では、「http://aaa.com/dir1/dir2/file」から順に、「http://aaa.com/dir1/dir2/」、・・・、「http://aaa.com/」までの各プレフィックスを有するエントリをプレフィックステーブル13から検索する。そして、取得部5は、一致するエントリが存在すればプレフィックステーブル13の出現数36の値に1を加える。一方、取得部5は、エントリが存在しなければ、プレフィックステーブル13の参照元URLプレフィックス34にそのプレフィックスを設定し、長さ35に当該プレフィックスのパス要素数を設定し、出現数36に1を設定した新たなエントリをプレフィックステーブル13に追加する。
(S104:変換ルール削除ステップ)
変換ルール確認部14は、URL受付情報50の参照元URL51の各プレフィックスと一致する変換元プレフィックス41を持つ変換ルールテーブル4のエントリを検索して抽出する。変換ルール確認部14は、抽出した各エントリに基づきURL受付情報50の参照元URL51を変換した結果が参照先URL53と一致するか否か判定する。そして、変換ルール確認部14は、一致しない結果をもたらすエントリを変換ルールテーブル4から削除する。
(S105:変換ルール検出ステップ)
取得部5は、(S103)でプレフィックステーブル13を更新したことにより、出現数36が閾値を越えたプレフィックステーブル13のエントリが存在する場合、変換ルール検出部6を起動してそのエントリについて変換ルールの抽出を行う。特に、取得部5は、更新対象となったプレフィックステーブル13のエントリのうち、出現数36が閾値を超え、かつ長さ35が最も大きいエントリに対して、変換ルール検出部6を起動してそのエントリについて変換ルールの抽出を行う。例えば、「http://aaa.com/dir1/dir2/file」のによりプレフィックステーブル13を更新した場合に、「http://aaa.com/」と、「http://aaa.com/dir1/」と、「http://aaa.com/dir1/dir2/」と出現数36が閾値を超えた場合、最も長さ35が長い「http://aaa.com/dir1/dir2/」について変換ルールの抽出を行う。
但し、変換ルール検出部6は、図8に示す変換ルールチェック処理のみを行う。また、変換ルール検出部6は、カウンタの値を前記プレフィックステーブル13のエントリの出現数36から、そのエントリの参照元URLプレフィックス34で始まる(参照元URLプレフィックス34を有する)他のエントリの各出現数36の値の総和を引いた値として動作する。また、変換ルール検出部6は、共通プレフィックスをそのエントリの参照元URLプレフィックス34の値として動作する。また、変換ルール検出部6を起動した参照元URLプレフィックス34については出現数36を0クリアする。あるいは、変換ルール検出部6を起動した参照元URLプレフィックス34を削除する。
(S106)は、(S55)と同様である。
FIG. 17 is a flowchart showing the operations of the acquisition unit 5 and the conversion rule confirmation unit 14. In this embodiment, the acquisition unit 5 operates according to FIG. 17 instead of FIG.
(S101) and (S102) are the same as (S51) and (S52), respectively. However, if (Yes in S101), the process proceeds to (S102), and if (No in S101), the process proceeds to (S106).
(S103: Prefix update step)
The acquisition unit 5 updates the entry in the prefix table 13 based on each prefix of the reference source URL 51 of the URL reception information 50. Here, each prefix of the reference source URL 51 is a partial character string extracted in units of path elements from the head of the URL character string, like the conversion source prefix 41 and the like. For example, the prefix of “http://aaa.com/dir1/dir2/file” is “http://aaa.com/”, “http://aaa.com/dir1/”, and “http: //Aaa.com/dir1/dir2/ "and" http://aaa.com/dir1/dir2/file ". The acquisition unit 5 searches the prefix table 13 for an entry having the reference source URL prefix 34 that matches each prefix while deleting the path elements one by one from the end in order from the longest prefix of the reference source URL 51. That is, in the above example, in order from “http://aaa.com/dir1/dir2/file”, “http://aaa.com/dir1/dir2/”,..., “Http: // aaa. The prefix table 13 is searched for an entry having each prefix up to “com /”. Then, the acquisition unit 5 adds 1 to the value of the number of appearances 36 in the prefix table 13 if there is a matching entry. On the other hand, if the entry does not exist, the acquisition unit 5 sets the prefix in the reference source URL prefix 34 of the prefix table 13, sets the number of path elements of the prefix in the length 35, and sets 1 to the number of appearances 36. The set new entry is added to the prefix table 13.
(S104: Conversion rule deletion step)
The conversion rule confirmation unit 14 searches and extracts an entry in the conversion rule table 4 having a conversion source prefix 41 that matches each prefix of the reference source URL 51 of the URL reception information 50. The conversion rule confirmation unit 14 determines whether or not the result of converting the reference source URL 51 of the URL reception information 50 matches the reference destination URL 53 based on each extracted entry. Then, the conversion rule confirmation unit 14 deletes an entry that causes a result that does not match from the conversion rule table 4.
(S105: Conversion rule detection step)
When the acquisition unit 5 updates the prefix table 13 in (S103) and there is an entry in the prefix table 13 in which the number of appearances 36 exceeds the threshold value, the acquisition unit 5 activates the conversion rule detection unit 6 and converts the conversion rule for the entry. Perform extraction. In particular, the acquisition unit 5 activates the conversion rule detection unit 6 for an entry whose number of appearances 36 exceeds the threshold and has the longest length 35 among the entries of the prefix table 13 to be updated. Conversion rules are extracted for entries. For example, when the prefix table 13 is updated by “http://aaa.com/dir1/dir2/file”, “http://aaa.com/” and “http://aaa.com/dir1”. "/", "Http://aaa.com/dir1/dir2/", and when the number of appearances 36 exceeds the threshold, "http://aaa.com/dir1/dir2/" has the longest length 35 Extract conversion rules.
However, the conversion rule detection unit 6 performs only the conversion rule check process shown in FIG. In addition, the conversion rule detection unit 6 starts the count value of the entry in the prefix table 13 based on the number of appearances 36 of the entry from the reference source URL prefix 34 of each entry (having the reference source URL prefix 34). It operates as a value obtained by subtracting the sum of the values of Expression 36. The conversion rule detection unit 6 operates using the common prefix as the value of the reference URL prefix 34 of the entry. Also, the appearance number 36 is cleared to 0 for the referrer URL prefix 34 that has activated the conversion rule detection unit 6. Alternatively, the referrer URL prefix 34 that activated the conversion rule detection unit 6 is deleted.
(S106) is the same as (S55).

以上のように、この実施の形態に係るURL変換装置1は、プレフィックステーブル13を備えるため、取得部5がURL受付情報50を受け取る度に必要に応じて変換ルール検出部6を動作させることができる。そのため、変換ルール検出部6の動作の遅延を防ぐことができ、動作効率を向上させることができる。
また、取得部5は、URL受付情報50と矛盾する変換ルールを削除する処理(S104)を備えるので、成立しなくなった変換ルールを誤って適用することを防ぐことができる。
As described above, since the URL conversion device 1 according to this embodiment includes the prefix table 13, the conversion rule detection unit 6 can be operated as necessary every time the acquisition unit 5 receives the URL reception information 50. it can. Therefore, a delay in the operation of the conversion rule detection unit 6 can be prevented, and the operation efficiency can be improved.
Moreover, since the acquisition part 5 is provided with the process (S104) which deletes the conversion rule inconsistent with the URL reception information 50, it can prevent applying the conversion rule which is no longer established accidentally.

以上の実施の形態をまとめると、次のようになる。
記憶部2と取得部5と変換ルール検出部6と変換部7とを備えたURL変換装置1であって、
記憶部2は、
URLと、前記URLに対応するコンテンツから参照されるURL(以下、参照先URLと称する)と、の組を複数格納するURLテーブル3と、
URL文字列の部分文字列と、前記URL文字列の前記部分文字列を置換して別のURL文字列を生成するための置換部分文字列と、の組からなる変換ルールを複数格納する変換ルールテーブル4とを備え、
取得部5は、URLと、前記URLに対応する参照先URLと、からなるURL受付情報50を受け取ってURLテーブル3に格納し、
変換ルール検出部6は、
URLテーブル3に格納された、前記URLと、前記参照先URLと、の所定数以上の組からなる集合であって、
その全ての組の前記URLに共通する空でない部分文字列が存在し、各組の前記URLから前記共通する部分文字列を取り除いた文字列が、前記URLと同じ組の前記参照先URLから、全ての組の前記参照先URLに共通する部分文字列を取り除いた文字列を含むような集合に対し、前記URLに共通する部分文字列と、前記参照先URLに共通する部分文字列と、からなる前記変換ルールを変換ルールテーブル4に格納し、
変換部7は、
取得部5が受け取った前記参照先URLについて、
変換ルールテーブル4の前記部分文字列のいずれかに適合する場合、
前記参照先URLと、前記参照先URLの前記部分文字列に一致する部分を前記置換部分文字列に置換してなるURL文字列と、の組をURL応答情報70として出力し、
前記適合する部分文字列が存在しない場合、
前記URLと、前記参照先URLと、の組をURL応答情報70として出力する
ことを特徴とする。
The above embodiment can be summarized as follows.
A URL conversion device 1 including a storage unit 2, an acquisition unit 5, a conversion rule detection unit 6, and a conversion unit 7,
The storage unit 2
A URL table 3 for storing a plurality of sets of URLs and URLs referred to from contents corresponding to the URLs (hereinafter referred to as reference destination URLs);
A conversion rule for storing a plurality of conversion rules each consisting of a combination of a partial character string of a URL character string and a replacement partial character string for replacing the partial character string of the URL character string to generate another URL character string Table 4 and
The acquisition unit 5 receives URL reception information 50 including a URL and a reference URL corresponding to the URL, stores the URL reception information 50 in the URL table 3,
The conversion rule detection unit 6
A set of a predetermined number or more of the URL and the reference URL stored in the URL table 3;
There is a non-empty partial character string common to all the sets of the URLs, and a character string obtained by removing the common partial character string from the URLs of each set is obtained from the reference destination URL of the same set as the URL. For a set including a character string obtained by removing a partial character string common to all of the reference destination URLs, a partial character string common to the URL and a partial character string common to the reference URL The conversion rule is stored in the conversion rule table 4,
The conversion unit 7
Regarding the reference URL received by the acquisition unit 5,
If it matches any of the partial character strings in the conversion rule table 4,
A set of the reference destination URL and a URL character string formed by replacing a portion matching the partial character string of the reference destination URL with the replacement partial character string is output as URL response information 70;
If the matching substring does not exist,
A set of the URL and the reference URL is output as URL response information 70.

取得部5は、
さらに前記URLに対応するコンテンツの種別を含むURL受付情報50を受け取り、
前記コンテンツ種別が所定の値の場合に、URLテーブル3に前記URLと、前記参照先URLを格納し、
前記コンテンツ種別が所定の値でない場合に、URLテーブル3に前記URLと、前記参照先URLを格納しない
ことを特徴とする。
The acquisition unit 5
Furthermore, URL reception information 50 including the type of content corresponding to the URL is received,
When the content type is a predetermined value, the URL and the reference destination URL are stored in the URL table 3,
When the content type is not a predetermined value, the URL and the reference URL are not stored in the URL table 3.

前記所定の値は、HTTPリダイレクト、又は音声・動画等マルチメディアコンテンツを示す値である
ことを特徴とする。
The predetermined value is a value indicating multimedia content such as HTTP redirect or audio / video.

取得部5は、
受け取った前記URLが変換ルールテーブル4の前記部分文字列に適合し、
受け取った前記参照先URLが前記URLの置換結果と一致しない場合に、当該変換ルールを変換ルールテーブル4から除去する
ことを特徴とする。
The acquisition unit 5
The received URL matches the partial character string of the conversion rule table 4,
The conversion rule is removed from the conversion rule table 4 when the received reference destination URL does not match the replacement result of the URL.

変換ルール検出部6は、前記URLから前記共通する部分文字列を取り除いた文字列と、前記参照先URLから前記参照先URLに共通する部分文字列を取り除いた文字列の比較を行う際に、URLデコード(「%」文字に続く16進文字列を文字コードを表すものと解釈)した値を比較する
ことを特徴とする。
When the conversion rule detection unit 6 compares the character string obtained by removing the common partial character string from the URL and the character string obtained by removing the partial character string common to the reference destination URL from the reference destination URL, A value obtained by performing URL decoding (interpreting a hexadecimal character string following a “%” character as a character code) is compared.

変換部7は、前記参照先URLを置換してなるURL文字列が、前記変換ルールテーブルの前記部分文字列に適合する場合、繰り返し置換を行う
ことを特徴とする。
The conversion unit 7 repeatedly performs replacement when a URL character string formed by replacing the reference URL matches the partial character string of the conversion rule table.

変換部7は、前記参照先URLの置換が所定の回数を超えて行われた場合、
前記URL応答情報70を出力しない
ことを特徴とする。
When the conversion of the reference URL is performed more than a predetermined number of times, the conversion unit 7
The URL response information 70 is not output.

変換部7は、所定の割合の前記参照先URLに対し、変換ルールテーブル4の前記部分文字列に適合しても、置換を行わない
ことを特徴とする。
The conversion unit 7 is characterized in that a predetermined ratio of the reference URLs is not replaced even if it matches the partial character string of the conversion rule table 4.

前記部分文字列、および前記置換部分文字列は、それぞれ、URL文字列のパスプレフィックス(元の文字列のいずれかの「/」文字以降を取り除いたもの)と、0個以上のパラメータ名(「?」文字に続くクエリ文字列における「パラメータ名=値」形式から抽出したもの)の組である
ことを特徴とする。
The partial character string and the replacement partial character string are respectively a URL character string path prefix (excluding any “/” characters after the original character string) and zero or more parameter names (“ "?" Character, and a query character string following the "parameter name = value" format)).

取得部5は、URLテーブル3に格納された前記組の件数が所定の条件を満たす場合に前記検出部を起動し、
変換ルール検出部6は、URLテーブル3の各組を前記URLの文字列順に取得し、1つ前のURLと共通するパスプレフィックスの長さ毎に出現数を数え、前記共通パスプレフィックスの長さが減少した際に、出現数が所定値を超える前記共通パスプレフィックスを前記部分文字列として、前記変換ルールを導出する
ことを特徴とする。
The acquisition unit 5 activates the detection unit when the number of cases stored in the URL table 3 satisfies a predetermined condition,
The conversion rule detection unit 6 acquires each set of the URL table 3 in the order of the character string of the URL, counts the number of appearances for each path prefix length common to the previous URL, and calculates the length of the common path prefix. When the number decreases, the conversion rule is derived using the common path prefix whose number of appearances exceeds a predetermined value as the partial character string.

記憶部2は、さらに所定容量のURLキャッシュ12を備え、
取得部5は、さらに受け取った前記URLをURLキャッシュ12に追加し、前記URLキャッシュが前記所定容量に達した場合に前記検出部を起動し、
変換ルール検出部6は、URLキャッシュ12に格納された前記URLから取り出した一意Webサーバに対応するURLテーブル3の組の集合に対して、前記変換ルールの導出を行う
ことを特徴とする。
The storage unit 2 further includes a URL cache 12 having a predetermined capacity,
The acquisition unit 5 further adds the received URL to the URL cache 12, and activates the detection unit when the URL cache reaches the predetermined capacity,
The conversion rule detection unit 6 is characterized in that the conversion rule is derived for a set of sets of the URL table 3 corresponding to the unique Web server extracted from the URL stored in the URL cache 12.

記憶部2は、さらにプレフィックステーブル13を備え、
取得部5は、さらに受け取った前記URLから導出される全てのパスプレフィックスの出現数をプレフィックステーブル13に格納するとともに、前記出現数が所定数に達した前記パスプレフィックスのうち最長のものに対して、変換ルール検出部6を起動し、
変換ルール検出部6は、前記パスプレフィックスで始まり、前記パスプレフィックスより長いパスプレフィックス全ての出現数の総和を、前記パスプレフィックスの出現数から引いた値が所定数を超える場合に、前記変換ルールの導出を行う
ことを特徴とする。
The storage unit 2 further includes a prefix table 13,
The acquisition unit 5 further stores the number of appearances of all the path prefixes derived from the received URL in the prefix table 13 and the longest path prefix among the path prefixes whose number of occurrences reaches a predetermined number. , Start the conversion rule detection unit 6,
The conversion rule detection unit 6 starts with the path prefix, and when the value obtained by subtracting the total number of appearances of all path prefixes longer than the path prefix from the number of appearances of the path prefix exceeds a predetermined number, the conversion rule detection unit 6 It is characterized by performing derivation.

次に、実施の形態におけるURL変換装置1、Webクローラ8、動的コンテンツ再生部9のハードウェア構成について説明する。
図18は、URL変換装置1、Webクローラ8、動的コンテンツ再生部9のハードウェア構成の一例を示す図である。
図18に示すように、URL変換装置1、Webクローラ8、動的コンテンツ再生部9は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、LCD901(Liquid Crystal Display)、キーボード902(K/B)、通信ボード915、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920(固定ディスク装置)の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。磁気ディスク装置920は、所定の固定ディスクインタフェースを介して接続される。
Next, the hardware configuration of the URL conversion device 1, the Web crawler 8, and the dynamic content playback unit 9 in the embodiment will be described.
FIG. 18 is a diagram illustrating an example of a hardware configuration of the URL conversion device 1, the Web crawler 8, and the dynamic content playback unit 9.
As shown in FIG. 18, the URL conversion device 1, the web crawler 8, and the dynamic content playback unit 9 are a CPU 911 (Central Processing Unit, Central Processing Unit, Processing Unit, Arithmetic Unit, Microprocessor, Microprocessor that executes a program. Computer or processor). The CPU 911 is connected to the ROM 913, the RAM 914, the LCD 901 (Liquid Crystal Display), the keyboard 902 (K / B), the communication board 915, and the magnetic disk device 920 via the bus 912, and controls these hardware devices. Instead of the magnetic disk device 920 (fixed disk device), a storage device such as an optical disk device or a memory card read / write device may be used. The magnetic disk device 920 is connected via a predetermined fixed disk interface.

ROM913、磁気ディスク装置920は、不揮発性メモリの一例である。RAM914は、揮発性メモリの一例である。ROM913とRAM914と磁気ディスク装置920とは、記憶装置(メモリ)の一例である。また、キーボード902、通信ボード915は、入力装置の一例である。また、通信ボード915は、通信装置(ネットワークインタフェース)の一例である。さらに、LCD901は、表示装置の一例である。   The ROM 913 and the magnetic disk device 920 are examples of a nonvolatile memory. The RAM 914 is an example of a volatile memory. The ROM 913, the RAM 914, and the magnetic disk device 920 are examples of a storage device (memory). The keyboard 902 and the communication board 915 are examples of input devices. The communication board 915 is an example of a communication device (network interface). Furthermore, the LCD 901 is an example of a display device.

磁気ディスク装置920又はROM913などには、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。   An operating system 921 (OS), a window system 922, a program group 923, and a file group 924 are stored in the magnetic disk device 920 or the ROM 913. The programs in the program group 923 are executed by the CPU 911, the operating system 921, and the window system 922.

プログラム群923には、上記の説明において「取得部5」、「変換ルール検出部6、」「変換部7」、「変換ルール確認部14」等として説明した機能を実行するソフトウェアやプログラムやその他のプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、上記の説明において「記憶部2」が記憶する情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶される。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPU911の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPU911の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
The program group 923 includes software, programs, and the like that execute the functions described as the “acquisition unit 5”, “conversion rule detection unit 6,” “conversion unit 7”, “conversion rule confirmation unit 14”, etc. Is stored. The program is read and executed by the CPU 911.
In the file group 924, information, data, signal values, variable values, and parameters stored in the “storage unit 2” in the above description are stored as items of “file” and “database”. The “file” and “database” are stored in a recording medium such as a disk or a memory. Information, data, signal values, variable values, and parameters stored in a storage medium such as a disk or memory are read out to the main memory or cache memory by the CPU 911 via a read / write circuit, and extracted, searched, referenced, compared, and calculated. Used for the operation of the CPU 911 such as calculation / processing / output / printing / display. Information, data, signal values, variable values, and parameters are temporarily stored in the main memory, cache memory, and buffer memory during the operation of the CPU 911 for extraction, search, reference, comparison, calculation, calculation, processing, output, printing, and display. Is remembered.

また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、その他光ディスク等の記録媒体やICチップに記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体や電波によりオンライン伝送される。
また、上記の説明において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」、「〜機能」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。また、「〜装置」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」、「〜機能」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。さらに、「〜処理」として説明するものは「〜ステップ」であっても構わない。すなわち、「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、ROM913等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、上記で述べた「〜部」としてコンピュータ等を機能させるものである。あるいは、上記で述べた「〜部」の手順や方法をコンピュータ等に実行させるものである。
In the above description, the arrows in the flowchart mainly indicate input / output of data and signals, and the data and signal values are recorded in a memory of the RAM 914, other recording media such as an optical disk, and an IC chip. Data and signals are transmitted online by a bus 912, signal lines, cables, other transmission media, and radio waves.
In addition, what is described as “to part” in the above description may be “to circuit”, “to device”, “to device”, “to means”, and “to function”. It may be “step”, “˜procedure”, “˜processing”. In addition, what is described as “˜device” may be “˜circuit”, “˜device”, “˜device”, “˜means”, “˜function”, and “˜step”, “ ~ Procedure "," ~ process ". Furthermore, what is described as “to process” may be “to step”. That is, what is described as “˜unit” may be realized by firmware stored in the ROM 913. Alternatively, it may be implemented only by software, or only by hardware such as elements, devices, substrates, and wirings, by a combination of software and hardware, or by a combination of firmware. Firmware and software are stored in a recording medium such as ROM 913 as a program. The program is read by the CPU 911 and executed by the CPU 911. That is, the program causes a computer or the like to function as the “˜unit” described above. Alternatively, the computer or the like is caused to execute the procedures and methods of “to part” described above.

実施の形態1に係るWeb情報収集システムの構成図。1 is a configuration diagram of a Web information collection system according to Embodiment 1. FIG. 取得部5がWebクローラ8から取得するURL受付情報50の形式を示す図。The figure which shows the format of the URL reception information 50 which the acquisition part 5 acquires from the Web crawler 8. FIG. 変換部7がWebクローラ8に受け渡すURL応答情報70の形式を示す図。The figure which shows the format of the URL response information 70 which the conversion part 7 delivers to the Web crawler 8. FIG. URLテーブル3の形式を示す図。The figure which shows the format of URL table 3. FIG. 変換ルールテーブル4の形式を示す図。The figure which shows the format of the conversion rule table 4. FIG. 取得部5の動作を示すフローチャート。6 is a flowchart showing the operation of the acquisition unit 5. 変換ルール検出部6の動作を示すフローチャート。7 is a flowchart showing the operation of the conversion rule detection unit 6. 変換ルールチェック処理の動作を示すフローチャート。The flowchart which shows the operation | movement of a conversion rule check process. 変換部7の動作を示すフローチャート。7 is a flowchart showing the operation of the conversion unit 7; 図8の(S72)で参照先URL32の共通プレフィックスを求めた後に、追加で実行されるステップを示す図。The figure which shows the step performed after adding the common prefix of reference destination URL32 in (S72) of FIG. 図9のステップS87に代わって実行されるステップを示す図。The figure which shows the step performed instead of step S87 of FIG. 実施の形態2に係るWeb情報収集システムの構成図。FIG. 3 is a configuration diagram of a Web information collection system according to a second embodiment. URLキャッシュ12の形式を示す図。The figure which shows the format of URL cache 12. FIG. 実施の形態2に係る取得部5の動作を示すフローチャート。9 is a flowchart showing the operation of the acquisition unit 5 according to Embodiment 2. 実施の形態3に係るWeb情報収集システムの構成図。FIG. 5 is a configuration diagram of a Web information collection system according to a third embodiment. プレフィックステーブル13の形式を示す図。The figure which shows the format of the prefix table 13. FIG. 実施の形態3に係る取得部5と変換ルール確認部14との動作を示すフローチャート。10 is a flowchart showing operations of an acquisition unit 5 and a conversion rule confirmation unit 14 according to the third embodiment. URL変換装置1、Webクローラ8、動的コンテンツ再生部9のハードウェア構成の一例を示す図。The figure which shows an example of the hardware constitutions of URL conversion apparatus 1, Web crawler 8, and dynamic content reproduction part 9.

符号の説明Explanation of symbols

1 URL変換装置、2 記憶部、3 URLテーブル、4 変換ルールテーブル、5 取得部、6 変換ルール検出部、7 変換部、8 Webクローラ、9 動的コンテンツ再生部、10 インターネット、11a,11b,11c Webサーバ、12 URLキャッシュ、13 プレフィックステーブル、14 変換ルール確認部、31 参照元URL、32 参照先URL、33 参照元URL、34 参照元URLプレフィックス、35 長さ、36 出現数、41 変換元プレフィックス、42 変換元パラメータ名集合、43 変換先プレフィックス、44 変換先パラメータ名集合、50 URL受付情報、51 参照元URL、52 参照元種別、53 参照先URL、70 URL応答情報、71 参照元URL、72 参照先URL。   DESCRIPTION OF SYMBOLS 1 URL conversion apparatus, 2 Storage | storage part, 3 URL table, 4 Conversion rule table, 5 Acquisition part, 6 Conversion rule detection part, 7 Conversion part, 8 Web crawler, 9 Dynamic content reproduction | regeneration part, 10 Internet, 11a, 11b, 11c Web server, 12 URL cache, 13 prefix table, 14 conversion rule confirmation unit, 31 reference source URL, 32 reference destination URL, 33 reference source URL, 34 reference source URL prefix, 35 length, 36 number of occurrences, 41 conversion source Prefix, 42 Conversion source parameter name set, 43 Conversion destination prefix, 44 Conversion destination parameter name set, 50 URL reception information, 51 Reference source URL, 52 Reference source type, 53 Reference destination URL, 70 URL response information, 71 Reference source URL 72 Reference URL.

Claims (16)

複数のアクセス先からコンテンツ情報を収集する収集装置がアクセス先を指定するURL(Uniform Resource Locator)を変換するURL変換装置であり、
前記収集装置がコンテンツ情報を収集したURLである参照元URLと、収集したコンテンツ情報から参照されるURLである参照先URLとの対複数取得する取得部と、
前記取得部が取得した前記参照元URLと前記参照先URLとの複数の対を蓄積するURL蓄積部と、
前記URL蓄積部が蓄積した前記複数の対から変換元URLと変換先URLとを変換ルールとして処理装置により検出する変換ルール検出部と、
前記変換ルール検出部が検出した変換ルールを記憶装置に記憶する変換ルール記憶部と、
前記取得部が取得したある対に含まれる参照先URLの少なくとも一部が前記変換ルール記憶部が記憶した変換ルールの変換元URLと一致する場合、前記参照先URLの一致部分を当該変換先URLに処理装置により置き換えて前記収集装置へ送信する変換部と
を備えることを特徴とするURL変換装置。
A collection device that collects content information from a plurality of access destinations is a URL conversion device that converts a URL (Uniform Resource Locator) that specifies an access destination,
An acquisition unit that acquires a plurality of pairs of a reference source URL that is a URL from which the collection device has collected content information and a reference destination URL that is a URL that is referenced from the collected content information;
A URL storage unit for storing a plurality of pairs of the reference source URL and the reference destination URL acquired by the acquisition unit;
A conversion rule detection unit that detects a conversion source URL and a conversion destination URL as a conversion rule from the plurality of pairs stored by the URL storage unit by a processing device;
A conversion rule storage unit that stores the conversion rule detected by the conversion rule detection unit in a storage device;
When at least a part of the reference destination URL included in a certain pair acquired by the acquisition unit matches the conversion source URL of the conversion rule stored in the conversion rule storage unit, the matching portion of the reference destination URL is determined as the conversion destination URL. And a conversion unit that is replaced by a processing device and transmits the converted data to the collection device.
記変換ルール検出部は、
前記URL蓄積部が蓄積した複数の対の各対における前記参照元URLのコンテンツの位置を示すパス要素から共通部分を参照元共通パス要素として抽出するとともに、前記各対における前記参照先URLのパス要素から共通部分を参照先共通パス要素として抽出して、
前記各対について、前記参照元URLのパス要素の前記参照元共通パス要素以外の部分である参照元個別パス要素と前記参照先URLのパス要素の前記参照先共通パス要素以外の部分である参照先個別パス要素とが一致する場合には、前記参照元共通パス要素を変換元URLのパス要素と、前記参照先共通パス要素を変換先URLのパス要素とする変換ルールとして検出する
ことを特徴とする請求項1に記載のURL変換装置。
Before Symbol conversion rule detection unit,
The common part is extracted as a reference source common path element from the path element indicating the position of the content of the reference source URL in each of the plurality of pairs stored by the URL storage unit, and the path of the reference destination URL in each pair Extract the common part from the element as the reference common path element,
For each pair, a reference source individual path element that is a part other than the reference source common path element of the path element of the reference source URL and a reference that is a part other than the reference destination common path element of the path element of the reference destination URL When the destination individual path element matches, the reference source common path element is detected as a conversion rule with the path element of the conversion source URL and the reference destination common path element as the path element of the conversion destination URL. The URL conversion apparatus according to claim 1.
前記URL変換装置は、コンテンツの位置を示すパス要素と、パラメータ名とパラメータ値との組を有するクエリ値とを含むURLを変換するURL変換装置であり、
前記変換ルール検出部は、変換元URLのパス要素及び変換元URLのパラメータ名と、変換先URLのパス要素及び変換先URLのパラメータ名とを変換ルールとして検出し、
前記変換ルール記憶部は、前記変換ルール検出部が検出した変換元URLのパス要素及び変換元URLのパラメータ名と、変換先URLのパス要素及び変換先URLのパラメータ名とを対にして記憶し、
前記変換部は、前記取得部が取得した参照先URLの少なくとも一部が前記変換ルール記憶部が記憶した変換元URLと一致するとともに、前記変換元URLのパラメータ名が前記参照先URLに含まれる場合、前記参照先URLの一致部分を前記変換先URLのパス要素に置き換えるとともに、前記参照先URLのパラメータ名であって前記変換元URLのパラメータ名と一致するパラメータ名を前記変換先URLのパラメータ名に置き換えて、前記収集装置へ送信する
ことを特徴とする請求項1又は2に記載のURL変換装置。
The URL conversion apparatus is a URL conversion apparatus that converts a URL including a path element indicating a position of content and a query value having a set of a parameter name and a parameter value,
The conversion rule detection unit detects the path element of the conversion source URL and the parameter name of the conversion source URL, the path element of the conversion destination URL and the parameter name of the conversion destination URL as a conversion rule,
The conversion rule storage unit stores the path name of the conversion source URL and the parameter name of the conversion source URL detected by the conversion rule detection unit in a pair with the path element of the conversion destination URL and the parameter name of the conversion destination URL. ,
In the conversion unit, at least a part of the reference destination URL acquired by the acquisition unit matches the conversion source URL stored in the conversion rule storage unit, and the parameter name of the conversion source URL is included in the reference destination URL. In this case, the matching part of the reference destination URL is replaced with a path element of the conversion destination URL, and the parameter name of the reference destination URL that matches the parameter name of the conversion source URL is changed to the parameter of the conversion destination URL. The URL conversion device according to claim 1, wherein the URL conversion device transmits the information to the collection device in place of a name.
前記変換ルール検出部は、
前記URL蓄積部が蓄積した対における前記参照先URLのクエリ値が有するパラメータ値が、前記対における前記参照元URLのクエリ値が有するパラメータ値を含む場合に
は、前記参照元URLのクエリ値に含まれるパラメータ値に対するパラメータ名を変換元パラメータ名と、前記参照先URLのクエリ値に含まれるパラメータ値に対するパラメータ名を変換先パラメータ名とする変換ルールとして検出する
ことを特徴とする請求項3に記載のURL変換装置。
The conversion rule detection unit
When the parameter value included in the query value of the reference destination URL in the pair stored by the URL storage unit includes the parameter value included in the query value of the reference source URL in the pair, the query value of the reference source URL 4. The method according to claim 3, wherein a parameter name for the included parameter value is detected as a conversion rule with a conversion source parameter name and a parameter name for the parameter value included in the query value of the reference URL as a conversion destination parameter name. The URL converter described.
前記取得部は、前記参照元URL及び前記参照先URLとともに、コンテンツの形式を示す参照元種別を取得し、
前記URL蓄積部は、前記取得部が取得した参照元種別が所定の参照元種別である場合に、前記参照元URLと前記参照先URLとを対にして記憶する
ことを特徴とする請求項1から4までのいずれかに記載のURL変換装置。
The acquisition unit acquires a reference source type indicating a content format together with the reference source URL and the reference destination URL,
The URL accumulation unit stores the reference source URL and the reference destination URL as a pair when the reference source type acquired by the acquisition unit is a predetermined reference source type. To the URL conversion device according to any one of items 4 to 4.
前記URL蓄積部は、前記参照元種別がHTTP(HyperText Transfer Protocol)リダイレクト又は動的コンテンツを示す場合に、前記参照元URLと前記参照先URLとを対にして記憶する
ことを特徴とする請求項5に記載のURL変換装置。
The URL storage unit stores the reference source URL and the reference destination URL as a pair when the reference source type indicates an HTTP (Hyper Text Transfer Protocol) redirect or dynamic content. 5. The URL conversion device according to 5.
前記変換部は、前記参照先URLの前記一部を前記変換先URLに置き換えて生成した新たなURLの一部が、前記変換ルール記憶部が記憶した変換元URLと一致する場合、前記新たなURLの一致部分を前記変換先URLに置き換える
ことを特徴とする請求項1から6までのいずれかに記載のURL変換装置。
When the part of the new URL generated by replacing the part of the reference destination URL with the conversion destination URL matches the conversion source URL stored in the conversion rule storage part, the conversion unit 7. The URL conversion apparatus according to claim 1, wherein a URL matching part is replaced with the conversion destination URL.
前記変換部は、前記取得部が取得した参照先URLの少なくとも一部が前記変換ルール記憶部が記憶した変換元URLと一致する場合、所定の確率で前記参照先URLの前記一部を前記変換先URLに置き換える
ことを特徴とする請求項1から7までのいずれかに記載のURL変換装置。
The conversion unit converts the part of the reference destination URL with a predetermined probability when at least a part of the reference destination URL acquired by the acquisition unit matches the conversion source URL stored in the conversion rule storage unit. 8. The URL conversion device according to claim 1, wherein the URL conversion device is replaced with a destination URL.
前記変換ルール検出部は、前記URL蓄積部が蓄積した対が所定の件数である場合に、変換ルールの検出を行う
ことを特徴とする請求項1から8までのいずれかに記載のURL変換装置。
9. The URL conversion apparatus according to claim 1, wherein the conversion rule detection unit detects a conversion rule when the number of pairs stored by the URL storage unit is a predetermined number. .
前記URL変換装置は、さらに、
前記取得部が取得した前記参照元URLを記憶装置に一時記憶するキャッシュ記憶部を備え、
前記変換ルール検出部は、前記キャッシュ記憶部が記憶した前記参照元URLが示すアクセス先のサーバを特定し、特定したアクセス先のサーバを示す参照元URLを有する対を前記URL蓄積部が蓄積した対から抽出して、抽出した対から変換ルールを検出する
ことを特徴とする請求項1から9までのいずれかに記載のURL変換装置。
The URL converter further includes:
A cache storage unit that temporarily stores the reference source URL acquired by the acquisition unit in a storage device;
The conversion rule detection unit specifies an access destination server indicated by the reference source URL stored in the cache storage unit, and the URL storage unit stores a pair having a reference source URL indicating the specified access destination server. The URL conversion apparatus according to claim 1, wherein the URL conversion apparatus extracts from the pair and detects a conversion rule from the extracted pair.
前記URL変換装置は、さらに、
前記URL蓄積部が記憶した前記参照元URLのコンテンツの位置を示すパス要素の共通部分である参照元共通パス要素と、前記参照元共通パス要素の出現回数とを記憶装置に記憶する共通部分記憶部を備え、
前記変換ルール検出部は、前記共通部分記憶部が記憶した出現回数が所定の回数以上である前記参照元共通パス要素を含む参照元URLを有する対を前記URL蓄積部が蓄積した対から抽出して、抽出した対から変換ルールを検出する
ことを特徴とする請求項1から10までのいずれかに記載のURL変換装置。
The URL converter further includes:
A common partial storage that stores a reference source common path element that is a common part of path elements indicating the position of the content of the reference source URL stored by the URL storage unit and the number of appearances of the reference source common path element in a storage device. Part
The conversion rule detection unit extracts a pair having a reference source URL including the reference source common path element whose number of appearances stored in the common part storage unit is a predetermined number or more from the pair stored in the URL storage unit. The URL conversion apparatus according to claim 1, wherein a conversion rule is detected from the extracted pair.
前記URL変換装置は、さらに、
前記取得部が取得した前記参照元URLの少なくとも一部が前記変換ルール記憶部が記憶した変換元URLと一致する場合に、前記参照元URLの一致部分を前記変換先URLに置き換えて新たなURLを生成して、生成した新たなURLと前記取得部が取得した前記参照先URLとが不一致である場合には、前記変換元URLと前記変換先URLとの変換ルールを削除する変換ルール確認部
を備えることを特徴とする請求項1から11までのいずれかに記載のURL変換装置。
The URL converter further includes:
When at least a part of the reference source URL acquired by the acquisition unit matches the conversion source URL stored in the conversion rule storage unit, the matching portion of the reference source URL is replaced with the conversion destination URL to create a new URL Conversion rule confirmation unit that deletes the conversion rule between the conversion source URL and the conversion destination URL when the generated new URL does not match the reference destination URL acquired by the acquisition unit The URL conversion device according to any one of claims 1 to 11, further comprising:
複数のアクセス先からコンテンツ情報を収集する収集装置がアクセス先を指定するURL(Uniform Resource Locator)を変換するURL変換方法であり、
処理装置が、前記収集装置がコンテンツ情報を収集したURLである参照元URLと、収集したコンテンツ情報から参照されるURLである参照先URLとの対複数取得する取得ステップと、
記憶装置が、前記取得ステップで取得した前記参照元URLと前記参照先URLとの複数の対を蓄積するURL蓄積ステップと、
処理装置が、前記URL蓄積ステップで蓄積した前記複数の対から変換元URLと変換先URLとを変換ルールとして検出する変換ルール検出ステップと、
記憶装置が、前記変換ルール検出ステップで検出した変換ルールを記憶する変換ルール記憶ステップと、
処理装置が、前記取得ステップで取得したある対に含まれる参照先URLの少なくとも一部が前記変換ルール記憶ステップで記憶した変換ルールの変換元URLと一致する場合、前記参照先URLの一致ステップ分を当該変換先URLに置き換えて前記収集装置へ送信する変換ステップと
を備えることを特徴とするURL変換方法。
A URL conversion method in which a collection device that collects content information from a plurality of access destinations converts a URL (Uniform Resource Locator) that specifies the access destination.
An acquisition step in which the processing device acquires a plurality of pairs of a reference source URL that is a URL at which the collection device collects content information and a reference destination URL that is a URL that is referred to from the collected content information;
A URL storage step in which the storage device stores a plurality of pairs of the reference source URL and the reference destination URL acquired in the acquisition step;
A conversion rule detection step in which a processing device detects a conversion source URL and a conversion destination URL as a conversion rule from the plurality of pairs stored in the URL storage step;
A conversion rule storage step in which the storage device stores the conversion rule detected in the conversion rule detection step;
When at least a part of the reference destination URL included in a certain pair acquired in the acquisition step matches the conversion source URL of the conversion rule stored in the conversion rule storage step, the processing device matches the reference destination URL matching step. A URL conversion method comprising: a conversion step of replacing the URL with the conversion destination URL and transmitting the URL to the collection device.
複数のアクセス先からコンテンツ情報を収集する収集装置がアクセス先を指定するURL(Uniform Resource Locator)を変換するURL変換プログラムであり、
前記収集装置がコンテンツ情報を収集したURLである参照元URLと、収集したコンテンツ情報から参照されるURLである参照先URLとの対複数取得する取得処理と、
前記取得処理で取得した前記参照元URLと前記参照先URLとの複数の対を蓄積するURL蓄積処理と、
前記URL蓄積処理で蓄積した前記複数の対から変換元URLと変換先URLとを変換ルールとして検出する変換ルール検出処理と、
前記変換ルール検出処理で検出した変換ルールを記憶する変換ルール記憶処理と、
前記取得処理で取得したある対に含まれる参照先URLの少なくとも一部が前記変換ルール記憶処理で記憶した変換ルールの変換元URLと一致する場合、前記参照先URLの一致処理分を当該変換先URLに置き換えて前記収集装置へ送信する変換処理と
をコンピュータに実行させることを特徴とするURL変換プログラム。
A URL conversion program for converting a URL (Uniform Resource Locator) in which a collection device that collects content information from a plurality of access destinations specifies an access destination;
An acquisition process for acquiring a plurality of pairs of a reference source URL that is a URL from which the collection device has collected content information and a reference destination URL that is a URL that is referenced from the collected content information;
URL accumulation processing for accumulating a plurality of pairs of the reference source URL and the reference destination URL acquired in the acquisition processing;
A conversion rule detection process for detecting a conversion source URL and a conversion destination URL from the plurality of pairs stored in the URL storage process as a conversion rule;
A conversion rule storage process for storing the conversion rule detected in the conversion rule detection process;
When at least a part of the reference destination URL included in a certain pair acquired in the acquisition process matches the conversion source URL of the conversion rule stored in the conversion rule storage process, the matching process of the reference destination URL is determined as the conversion destination. A URL conversion program that causes a computer to execute conversion processing that replaces a URL and transmits it to the collection device.
複数のアクセス先からコンテンツ情報を収集する収集装置と、前記収集装置がアクセス先を指定するURL(Uniform Resource Locator)を変換するURL変換装置とを備えるWeb情報収集システムであり、
前記URL変換装置は、
前記収集装置がコンテンツ情報を収集したURLである参照元URLと、収集したコンテンツ情報から参照されるURLである参照先URLとの対複数取得する取得部と、
前記取得部が取得した前記参照元URLと前記参照先URLとの複数の対を蓄積するURL蓄積部と、
前記URL蓄積部が蓄積した前記複数の対から変換元URLと変換先URLとを変換ルールとして処理装置により検出する変換ルール検出部と、
前記変換ルール検出部が検出した変換ルールを記憶装置に記憶する変換ルール記憶部と、
前記取得部が取得したある対に含まれる参照先URLの少なくとも一部が前記変換ルール記憶部が記憶した変換ルールの変換元URLと一致する場合、前記参照先URLの一致部分を当該変換先URLに処理装置により置き換えた新たなURLを前記収集装置へ送信する変換部と
を備え、
前記収集装置は、前記変換部が送信した新たなURLを受信して、前記新たなURLによりアクセス先を指定してコンテンツ情報を取得する
ことを特徴とするWeb情報収集システム。
A web information collection system comprising: a collection device that collects content information from a plurality of access destinations; and a URL conversion device that converts a URL (Uniform Resource Locator) that specifies the access destination by the collection device;
The URL conversion device
An acquisition unit that acquires a plurality of pairs of a reference source URL that is a URL from which the collection device has collected content information and a reference destination URL that is a URL that is referenced from the collected content information;
A URL storage unit for storing a plurality of pairs of the reference source URL and the reference destination URL acquired by the acquisition unit;
A conversion rule detection unit that detects a conversion source URL and a conversion destination URL as a conversion rule from the plurality of pairs stored by the URL storage unit by a processing device;
A conversion rule storage unit that stores the conversion rule detected by the conversion rule detection unit in a storage device;
When at least a part of the reference destination URL included in a certain pair acquired by the acquisition unit matches the conversion source URL of the conversion rule stored in the conversion rule storage unit, the matching portion of the reference destination URL is determined as the conversion destination URL. A conversion unit that transmits a new URL replaced by the processing device to the collection device,
The collection apparatus receives a new URL transmitted by the conversion unit, and acquires content information by specifying an access destination by the new URL.
前記Web情報収集システムは、さらに、
前記収集装置が収集したコンテンツ情報が動的コンテンツである場合、前記動的コンテンツを再生する動的コンテンツ再生部を備え、
前記収集装置は、前記動的コンテンツ再生部が前記動的コンテンツを再生してコンテンツ情報を取得した場合、前記コンテンツ情報を取得したアクセス先を示すURLを参照元URLとし、前記コンテンツ情報から参照されるURLを参照先URLとして取得し、
前記取得部は、前記収集装置が取得した前記参照元URLと前記参照先URLとを取得する
ことを特徴とする請求項15に記載のWeb情報収集システム。
The web information collection system further includes:
When the content information collected by the collection device is dynamic content, a dynamic content playback unit that plays back the dynamic content,
When the dynamic content reproduction unit reproduces the dynamic content and acquires content information, the collection device uses a URL indicating an access destination from which the content information is acquired as a reference source URL and is referred to from the content information. As a reference URL,
The Web information collection system according to claim 15, wherein the acquisition unit acquires the reference source URL and the reference destination URL acquired by the collection device.
JP2008297949A 2008-11-21 2008-11-21 URL conversion apparatus, URL conversion method, URL conversion program, and Web information collection system Expired - Fee Related JP5430128B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008297949A JP5430128B2 (en) 2008-11-21 2008-11-21 URL conversion apparatus, URL conversion method, URL conversion program, and Web information collection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008297949A JP5430128B2 (en) 2008-11-21 2008-11-21 URL conversion apparatus, URL conversion method, URL conversion program, and Web information collection system

Publications (2)

Publication Number Publication Date
JP2010123043A JP2010123043A (en) 2010-06-03
JP5430128B2 true JP5430128B2 (en) 2014-02-26

Family

ID=42324314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008297949A Expired - Fee Related JP5430128B2 (en) 2008-11-21 2008-11-21 URL conversion apparatus, URL conversion method, URL conversion program, and Web information collection system

Country Status (1)

Country Link
JP (1) JP5430128B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342615B2 (en) 2011-12-07 2016-05-17 Google Inc. Reducing redirects
CN107045507B (en) * 2016-02-05 2020-08-21 北京国双科技有限公司 Webpage crawling method and device

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3665480B2 (en) * 1998-06-24 2005-06-29 富士通株式会社 Document organizing apparatus and method
JP2002163141A (en) * 2000-11-28 2002-06-07 Nippon Telegr & Teleph Corp <Ntt> Advertisement-added content delivery method, system, and storage medium for advertisement-added content delivery program
JP2002215499A (en) * 2001-01-18 2002-08-02 Hitachi Ltd Url switching control method and site charging method
JP2002223247A (en) * 2001-01-25 2002-08-09 Matsushita Electric Ind Co Ltd Real time voice reproducing device
JP3732826B2 (en) * 2002-11-28 2006-01-11 Ecジャパン株式会社 Document output apparatus and static web page composition method used therefor
JP2004206406A (en) * 2002-12-25 2004-07-22 Hitachi Software Eng Co Ltd Url information conversion method and program and content distribution method
JP2005157555A (en) * 2003-11-21 2005-06-16 Ec Japan Inc Web page converting device
JP4483286B2 (en) * 2003-12-22 2010-06-16 富士ゼロックス株式会社 Information collection device
JP2007304644A (en) * 2006-05-08 2007-11-22 Torus Co Ltd Static web page creation method, program, recording medium, and static web page creation management system

Also Published As

Publication number Publication date
JP2010123043A (en) 2010-06-03

Similar Documents

Publication Publication Date Title
US8745039B2 (en) Method and system for user guided search navigation
JP4396242B2 (en) Document link structure information creation apparatus and method
US8660976B2 (en) Web content rewriting, including responses
US7536445B2 (en) Enabling a web-crawling robot to collect information from web sites that tailor information content to the capabilities of accessing devices
US7653623B2 (en) Information searching apparatus and method with mechanism of refining search results
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US7702811B2 (en) Method and apparatus for marking of web page portions for revisiting the marked portions
US20070294265A1 (en) Identification of content downloaded from the internet and its source location
US20090063538A1 (en) Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site
JP2008521147A (en) Application crawler method and apparatus
JP5079845B2 (en) Content navigation program
CN104933363A (en) Method and device for detecting malicious file
US6981037B1 (en) Method and system for using access patterns to improve web site hierarchy and organization
CN106022126B (en) A kind of web page characteristics extracting method towards WEB trojan horse detections
US20090083266A1 (en) Techniques for tokenizing urls
JP2007148885A (en) Content collection device and content collection system
Mahaju et al. Evaluation of firefox browser forensics tools
JP2004220251A (en) Information extraction rule creation system, information extraction rule creation method, and information extraction rule creation program
Hua et al. Design and performance studies of an adaptive scheme for serving dynamic web content in a mobile computing environment
JP5430128B2 (en) URL conversion apparatus, URL conversion method, URL conversion program, and Web information collection system
Chowdhary et al. Study of web page ranking algorithms: a review
US20090292667A1 (en) Automatic updating apparatus, automatic updating method, and programmable storage medium embodying program to perform method for automatic updating
JP5286007B2 (en) Document search device, document search method, and document search program
JP2009259248A (en) Method and unit for tagging images included in web page and providing web retrieval service by using the result and computer-readable recording medium
US7502773B1 (en) System and method facilitating page indexing employing reference information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees