JP2019514137A - How to associate a domain name with a website access activity - Google Patents

How to associate a domain name with a website access activity Download PDF

Info

Publication number
JP2019514137A
JP2019514137A JP2018554480A JP2018554480A JP2019514137A JP 2019514137 A JP2019514137 A JP 2019514137A JP 2018554480 A JP2018554480 A JP 2018554480A JP 2018554480 A JP2018554480 A JP 2018554480A JP 2019514137 A JP2019514137 A JP 2019514137A
Authority
JP
Japan
Prior art keywords
dns
domain name
log
dns log
request set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018554480A
Other languages
Japanese (ja)
Other versions
JP6703621B2 (en
Inventor
ダーシュン ジャン
ダーシュン ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yamu Communication Technology Co Ltd
Original Assignee
Shanghai Yamu Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yamu Communication Technology Co Ltd filed Critical Shanghai Yamu Communication Technology Co Ltd
Publication of JP2019514137A publication Critical patent/JP2019514137A/en
Application granted granted Critical
Publication of JP6703621B2 publication Critical patent/JP6703621B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本発明は、クローラープログラムによりユーザーのウェブサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわち収集したDNSドメイン名リクエストセットを取得するステップS1と、DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得するステップ2と、ステップS1で収集したDNSドメイン名リクエストセット及びステップS2におけるDNSログ分割により得られたドメイン名リクエストセットに対してセット同士とのマッチングを行い、DNSログ分割により得られたドメイン名リクエストセットのうちの1つが前記収集したDNSドメイン名リクエストセットに等しいか又は含まれれば、前記DNSログがユーザーが前記クローラープログラムが収集する時に要求したURLのドメイン名をクリックしたことを示すとみなすステップS3とを含む、ドメイン名とウェブサイトアクセス行為との関連付け方法を提供する。本発明のドメイン名とウェブサイトアクセス行為との関連付け方法によれば、DNSログによりユーザーのインターネット閲覧行為に対する分析を実現することもできる。【選択図】図2The present invention simulates the website access behavior of the user by the crawler program, and divides the DNS log by the step S1 of acquiring all DNS domain name requests in the current HTTP request, that is, the collected DNS domain name request set. Step 2 for acquiring n (where n is an integer of 1 or more) domain name request sets, the DNS domain name request set collected in step S1, and the domain name request set obtained by DNS log division in step S2 , And if one of the domain name request set obtained by the DNS log division is equal to or included in the collected DNS domain name request set, the DNS log is used by the user. Serial and a step S3 regarded as indicating that you click on the domain name of the requested URL when the crawler program is to collect, to provide a method for associating the domain name and web site access act. According to the method for associating a domain name with a website access activity of the present invention, it is also possible to realize analysis of the Internet browsing activity of the user by means of the DNS log. [Selected figure] Figure 2

Description

本発明は、インターネットDNSドメイン名解決の分野及びウェブクローラー技術に関し、特にドメイン名とウェブサイトアクセス行為との関連付け方法に関する。   The present invention relates to the field of Internet DNS domain name resolution and web crawler technology, and in particular to a method of associating a domain name with a website access activity.

DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングする分散型データベースであり、ユーザーがマシンによって直接読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。「DNSドメイン名解決技術」とは、ユーザーがウェブサイトにアクセスすると、ブラウザにこのサイトのドメイン名を入力する必要があり、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができることである。   DNS (Domain Name System) is a distributed database that maps each other as domain names and IP addresses in the Internet, and it is not necessary for users to remember IP numeric strings read directly by machines, making the Internet more convenient. Allows access to "DNS domain name resolution technology", when the user accesses the website, it is necessary to enter the domain name of this site in the browser, and when the return key is pressed, the browser first makes a DNS request, and DNS According to the technology, the browser can obtain a server IP address corresponding to this domain name, and thereafter make an HTTP request to this IP address.

ウェブクローラー技術は、一定のルールに応じて、ワールドワイドウェブ情報を自動的に収集するプログラム又はスクリプトである。それはユーザーをシミュレートしてウェブサイトにHTTPリクエストをして、かつ該過程において生成したDNSリクエストを記録する。   Web crawler technology is a program or script that collects world wide web information automatically according to certain rules. It simulates the user, makes an HTTP request to the website, and records the DNS request generated in the process.

DNSデータの価値は、その分重視されず、IPとドメイン名との対応関係のみと考えられるため、現在市場ではDNSデータにより対応する関連付けを行っていない。   Since the value of DNS data is not emphasized, it is considered that there is only correspondence between IPs and domain names, so the market does not make corresponding correspondence with DNS data.

本発明は、DNSログ収集とウェブクローラー技術を結合して、DNSログによりユーザーのインターネット閲覧行為を分析することもできるドメイン名とウェブサイトアクセス行為との関連付け方法を提供する。   The present invention combines DNS log collection and web crawler technology to provide a method of associating a domain name with a website access activity that can also analyze the user's Internet browsing activity with the DNS log.

本発明のドメイン名とウェブサイトアクセス行為との関連付け方法は、クローラーによりユーザーのサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわち収集したDNSドメイン名リクエストセットを取得するステップS1と、DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得するステップ2と、ステップS1で収集したDNSドメイン名リクエストセット及びステップS2におけるDNSログ分割により得られたドメイン名リクエストセットに対してセット同士とのマッチングを行い、DNSログ分割により得られたドメイン名リクエストセットのうちの1つが前記収集したDNSドメイン名リクエストセットに等しいか又は含まれれば、前記DNSログは、ユーザーが前記クローラーが収集する時に要求したURLのドメイン名をクリックしたことを示すとみなすステップS3とを含む。   The method for associating a domain name with a website access activity according to the present invention simulates the user's site access activity with a crawler, and acquires all DNS domain name requests in the current HTTP request, ie, collected DNS domain name request sets Step S1; step 2 of dividing the DNS log to obtain n (n is an integer of 1 or more) domain name request sets; DNS domain name request set collected in step S1; and DNS in step S2 Match the set with domain name request set obtained by log division, and one of the domain name request set obtained by DNS log division is equal to the collected DNS domain name request set, or In Marere, the DNS log includes a step S3 that the user viewed as indicating the click the domain name of the URL that requested when the crawler collects.

好ましくは、ステップS2では、前記DNSログは、アクセス行為当日のDNSログである。
好ましくは、ステップS2では、前記DNSログを分割することは、まずソースIPに基づいて分割し、その後にタイムスタンプの差に基づいて分割する二回分割を含む。
好ましくは、ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。
好ましくは、前記タイムスタンプの差に基づいてログを分割することは、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割することである。
好ましくは、前記所定時間の長さは3秒間である。
Preferably, in step S2, the DNS log is a DNS log on the day of an access act.
Preferably, in step S2, splitting the DNS log includes splitting twice based on the source IP and then splitting based on the time stamp difference.
Preferably, dividing the DNS log based on the source IP is to obtain a continuous DNS log of the same source IP within a certain time.
Preferably, dividing the log based on the time stamp difference divides the divided log based on the source IP, further based on the time stamp difference of the DNS log, and the time stamp of the two DNS logs Of the two DNS logs if the difference between the two is greater than the predetermined length of time.
Preferably, the length of the predetermined time is 3 seconds.

本発明のドメイン名とサイトアクセス行為との関連付け方法によれば、DNSログによりユーザーのインターネット閲覧行為に対する分析を実現することもできる。   According to the method for associating a domain name with a site access activity of the present invention, it is also possible to realize analysis of the Internet browsing activity of the user by DNS log.

図1は、クローラープログラムが収集したDNSドメイン名リクエストセットの概略図である。FIG. 1 is a schematic diagram of a set of DNS domain name requests collected by the crawler program. 図2は、本発明のドメイン名とウェブサイトアクセス行為との関連付け方法の流れ図である。FIG. 2 is a flow chart of the method for associating a domain name with a website access activity of the present invention.

以下に、図面及び実施例を参照しながら、発明を詳細に説明する。以下の実施例は、本発明を限定するものではない。発明構想の精神及び範囲から逸脱しない場合、当業者が想到し得る変化及び利点はいずれも本発明に含まれる。   The invention will now be described in detail with reference to the drawings and examples. The following examples do not limit the invention. All changes and advantages which can occur to those skilled in the art are included in the present invention without departing from the spirit and scope of the inventive concept.

上述したように、DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングする分散型データベースであり、ユーザーがマシンによって直接読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。ユーザーがサイトにアクセスすると、まず、ブラウザにこのサイトのドメイン名を入力し、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができる。それは、DNSドメイン名解決技術である。   As mentioned above, DNS (Domain Name System, Domain Name System) is a distributed database that maps each other as domain name and IP address in the Internet, without the need for the user to remember the IP digit string read directly by the machine Allows you to access the Internet more conveniently. When a user accesses a site, first, enter the domain name of this site in the browser and press the return key, the browser first makes a DNS request, and by DNS technology, the browser corresponds to the server corresponding to this domain name After obtaining an IP address, you can make an HTTP request to this IP address. It is a DNS domain name resolution technology.

上記ドメイン名解決の過程において、DNSログを生成する。DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ほとんどユーザーによって要求された全てのドメイン名情報を記録することができる。DNSログのフォーマットは以下のとおりである。
14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
A DNS log is generated in the process of domain name resolution. The DNS log records the response content of each DNS request, and can record almost all domain name information requested by the user. The format of the DNS log is as follows:
14. ****. ****. 10 | www. baidu. com. ****. ****. 107; 180. ****. ****. 108 | 0
Source IP | Domain Name | Timestamp | Resolved IP | Status Code

すなわち、DNSログは、「ソースIP」、「ドメイン名」、「タイムスタンプ」、「解決したIP」及び「状態コード」の5つの部分の内容を含む。
以下に、図1を参照しながら、本発明のドメイン名とウェブサイトアクセス行為との関連付け方法を詳細に説明する。
That is, the DNS log includes the contents of five parts of "source IP", "domain name", "time stamp", "resolved IP" and "status code".
In the following, referring to FIG. 1, the method of associating the domain name of the present invention with the website access action will be described in detail.

まず、クローラープログラムによりユーザーのウェブサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわち収集したDNSドメイン名リクエストセットを取得する(ステップS1)。例えば、あるページを開くか又はあるURL(リンク)をクリックし、クローラープログラムは、今回のHTTPリクエストにおける全てのDNSドメイン名リクエストを収集する。あるユーザーがURLをクリックすると、現在のURLのドメイン名に加えて、幾つかの他のドメイン名も要求し、クローラー技術により該URLをクリックした後に生成した全てのDNSドメイン名リクエストを取得することができる。ここで、ユニフォームリソースロケータ(URL)は、インターネットから取得されたリソースの位置及びアクセス方法の簡潔な表示であり、インターネット上の標準リソースのアドレスである。インターネット上の各ファイルは、いずれも唯一のURLを有し、それが含む情報は、ファイルの位置及びブラウザがそれをどのように処理するかを示す。   First, the crawler program simulates the user's website access behavior, and acquires all DNS domain name requests in the current HTTP request, that is, collected DNS domain name request sets (step S1). For example, opening a page or clicking on a URL (link), the crawler program collects all DNS domain name requests in the current HTTP request. When a user clicks on a URL, in addition to the domain name of the current URL, it also requests some other domain names and gets all DNS domain name requests generated after clicking the URL by crawler technology Can. Here, the uniform resource locator (URL) is a brief indication of the location and access method of the resource obtained from the Internet, and is the address of a standard resource on the Internet. Each file on the Internet has a unique URL, and the information it contains indicates the location of the file and how the browser handles it.

例えば、ユーザーは、以下に示すような具体的なURL(リンク)、
http://baike.baidu.com/link?url=Lm−TkKUzV687IRoPCDVUAG5qslgMyZtNa6e6A3nPnWXorcXEAIl50O6XHZWpTJat」をクリックする。
クローラープログラムは、該URLをクリックした後に生成した全てのDNSドメイン名リクエスト、すなわちDNSドメイン名リクエストセットを収集し、具体的には図1に示す。
For example, the user can specify a specific URL (link) as shown below:
Click on " http://baike.baidu.com/link?url=Lm-TkKUzV687IRoPCDVUAG5qslgMyZtNa6e6A3nPnWn OrxXEall50O6XHZWpTJat ".
The crawler program collects all DNS domain name requests generated after clicking on the URL, ie, DNS domain name request set, and specifically shown in FIG.

次に、DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得する(ステップ2)。ここで、DNSログは、一般的には、アクセス行為当日のログである。前記分割は、まずソースIPに基づいて分割し、その後にタイムスタンプの差に基づいて分割する二回分割を含む。   Next, the DNS log is divided to obtain n (where n is an integer of 1 or more) domain name request sets (step 2). Here, the DNS log is generally a log on the day of the access act. The division includes a division twice based on the source IP first and then the division based on the time stamp difference.

1)ソースIPに基づいてDNSログを分割し、すなわちログのソースIPが異なれば、連続的なログを分割する。ソースIPに基づく分割は、ある時間内の同じソースIPの連続的なDNSログを取得することである。以下のとおりである。
1.1.1.1|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
1.1.1.1|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ログ分割線−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
2.2.2.2|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
1) Split the DNS log based on the source IP, ie split the continuous log if the source IP of the log is different. Source IP based partitioning is to get continuous DNS logs of the same source IP within a certain time. It is as follows.
1.1.1.1 | www. baidu. com . ****. ****. 107; 180. ****. ****. 108 | 0
1.1.1.1 | www. qq. com . ****. ****. 107; 180. ****. ****. 108 | 0
-------------------------------Log division line------ ---------------------------
2.2.2.2 | www. baidu. com . ****. ****. 107; 180. ****. ****. 108 | 0
2.2.2.2 | www. qq. com . ****. ****. 107; 180. ****. ****. 108 | 0

2)タイムスタンプの差に基づく分割は、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割することである。2つの連続的なログのタイムスタンプの差が所定時間の長さよりも大きければ、分割される(分割の原因は、ログの時間間隔が長過ぎると2つの異なる行為であると見なされることである)。該所定時間の長さは、必要に応じて調整することができる。本実施例では、前記所定時間の長さは3秒間であり、即ちタイムスタンプの差が3秒間より大きいと分割される。   2) Division based on time stamp difference is to divide the log divided based on the source IP further based on the time difference of DNS log. If the difference between the timestamps of two consecutive logs is greater than the length of the predetermined time, it is divided (the cause of the division is that it is considered to be two different actions if the time interval of the logs is too long ). The length of the predetermined time can be adjusted as needed. In the present embodiment, the length of the predetermined time is 3 seconds, that is, if the time stamp difference is larger than 3 seconds, it is divided.

例えば、ソースIP2.2.2.2のDNSログを、さらにそのタイムスタンプの差に基づいて分割し、以下のとおりである。(タイムスタンプ20141211035932は、2014年12月11日3時59分32秒を示す)   For example, the DNS log of the source IP 2.2.2.2 is further divided based on the difference of its timestamp, and is as follows. (Time stamp 201412110393 532 shows 3:59:32 on Dec. 11, 2014)

ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
2.2.2.2|www.baidu.com|20141211000001|180.***.***.107;180.***.***.108|0
2.2.2.2|a.qq.com|20141211000002|180.***.***.107;180.***.***.108|0
2.2.2.2|b.baidu.com|20141211000003|180.***.***.107;180.***.***.108|0
2.2.2.2|c.tanx.com|20141211000004|180.***.***.107;180.***.***.108|0
2.2.2.2|c.allyes.com|20141211000005|180.***.***.107;180.***.***.108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ログ分割線−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2|www.sina.com|20141211000009|180.***.***.107;180.***.***.108|0
Source IP | Domain Name | Timestamp | Resolved IP | Status Code 2.2.2.2 | www. baidu. com . ****. ****. 107; 180. ****. ****. 108 | 0
2.2.2.2 | a. qq. com | 20141211000002 | 180. ****. ****. 107; 180. ****. ****. 108 | 0
2.2.2.2 | b. baidu. com | 2014121 1000003 | 180. ****. ****. 107; 180. ****. ****. 108 | 0
2.2.2.2 | c. tanx. com . ****. ****. 107; 180. ****. ****. 108 | 0
2.2.2.2 | c. allyes. com . ****. ****. 107; 180. ****. ****. 108 | 0
-------------------------------Log division line------ ---------------------------
2.2.2.2 | www. sina. com . ****. ****. 107; 180. ****. ****. 108 | 0

上述したように、タイムスタンプ20141211000005の05秒と20141211000009の09秒の間の差が4秒間(3秒間より大きい)であるため、ログは分割される。
www.baidu.com、a.qq.com、b.baidu.com、c.tanx.com、c.tanx.comは、DNSログにおける1つのドメイン名リクエストセットである。
As described above, the log is split because the difference between 05 seconds for timestamp 20141211000005 and 09 seconds for 20141211000009 is 4 seconds (greater than 3 seconds).
www. baidu. com, a. qq. com, b. baidu. com, c. tanx. com, c. tanx. com is one domain name request set in the DNS log.

続いて、ステップS1でクローラーが収集したDNSドメイン名リクエストセット及びステップS2におけるDNSログ分割により得られたドメイン名リクエストセットに対してセット同士とのマッチングを行う(ステップS3)。マッチングルールは、[(a,b,c)=(b,c,a)=(a,c,b)]である。   Subsequently, the DNS domain name request set collected by the crawler in step S1 and the domain name request set obtained by the DNS log division in step S2 are matched with each other (step S3). The matching rule is [(a, b, c) = (b, c, a) = (a, c, b)].

ログをマッチングした後に、DNSログの1つのドメイン名リクエストセットがクローラーの収集したドメイン名リクエストセットの一部に含まれ、又は2つのセットが同じであれば、該DNSログは、ユーザーが該ドメイン名(すなわちクローラーが収集する時に要求したURLのドメイン名)をクリックしたことを示すとみなされる。例えば、
クローラーが収集したURLは、www.a.com/doc/1234(該URLは、あるユーザーのクリック行為である)である。収集した全てのドメイン名リクエストセットAは、「www.a.comwww.b.comwww.c.comwww.d.comwww.e.com」である。
DNSログを分割した後にドメイン名リクエストセットBの一部は、「www.a.comwww.b.comwww.e.comwww.d.com」である。
After matching the logs, if one domain name request set of DNS log is included in a part of the domain name request set collected by the crawler, or if the two sets are the same, the DNS log will It is considered to indicate that you have clicked on a name (ie the domain name of the URL that the crawler requested when collecting). For example,
The URLs collected by the crawler are www. a. com / doc / 1234 (the URL is a click action of a certain user). All Domain Name Request Set A collected is " www.a.com , www.b.com , www.c.com , www.d.com , www.e.com ".
After splitting the DNS log, part of the domain name request set B is " www.a.com , www.b.com , www.e.com , www.d.com ".

上述のように、BセットがAセット内に含まれると、ドメイン名リクエストセットBは、ドメイン名セットAがマッピングしたwww.a.com/doc/1234というユーザーアクセス行為を反映しているとみなされる。このように、DNSログによりユーザーのインターネット閲覧行為に対する分析を実現することもできる。 As described above, when B set is included in A set, domain name request set B is mapped to www. a. It is considered to reflect the user access act of com / doc / 1234 . In this way, DNS logs can also provide an analysis of the user's browsing behavior on the Internet.

以上の記載は本発明の好ましい実施例に過ぎず、本発明を限定するものではない。本発明の出願特許範囲内の内容に基づいて行われるいかなる同等変化や修飾は、いずれも本発明の技術的範囲内に属するべきである。   The above descriptions are merely preferred embodiments of the present invention, and are not intended to limit the present invention. Any equivalent change or modification made on the basis of the contents within the application patent range of the present invention should fall within the technical scope of the present invention.

Claims (6)

クローラープログラムによりユーザーのウェブサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわち収集したDNSドメイン名リクエストセットを取得するステップS1と、
DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得するステップ2と、
ステップS1で収集したDNSドメイン名リクエストセット及びステップS2におけるDNSログ分割により得られたn個のドメイン名リクエストセットに対してセット同士とのマッチングを行い、DNSログ分割により得られたドメイン名リクエストセットのうちの1つが前記収集したDNSドメイン名リクエストセットに等しいか又は含まれれば、前記DNSログがユーザーが前記クローラープログラムが収集する時に要求したURLのドメイン名をクリックしたことを示すとみなすステップS3とを含む、ことを特徴とするドメイン名とウェブサイトアクセス行為との関連付け方法。
Simulating a user's website access behavior by the crawler program and acquiring all DNS domain name requests in the current HTTP request, ie, acquiring the collected DNS domain name request set;
Step 2 of dividing the DNS log to obtain n (where n is an integer of 1 or more) domain name request sets;
The DNS domain name request set collected in step S1 and the n domain name request sets obtained by DNS log division in step S2 are matched with each other, and the domain name request set obtained by DNS log division Step S3 to consider that the DNS log indicates that the user has clicked on the domain name of the requested URL when collecting by the crawler program if one of them is equal to or included in the collected DNS domain name request set And a method of associating a domain name with a website access activity, characterized in that the method comprises:
ステップS2では、前記DNSログは、アクセス行為当日のDNSログであることを特徴とする請求項1に記載のドメイン名とウェブサイトアクセス行為との関連付け方法。   The method according to claim 1, wherein the DNS log in step S2 is a DNS log on the day of an access act. ステップS2では、前記DNSログを分割することは、まずソースIPに基づいて分割し、その後にタイムスタンプの差に基づいて分割する二回分割を含むことを特徴とする請求項1に記載のドメイン名とウェブサイトアクセス行為との関連付け方法。   The domain according to claim 1, wherein the step of dividing the DNS log in step S2 comprises dividing the DNS log first based on the source IP, and then dividing based on the time stamp difference. How to associate your name with your website access activity. ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することであることを特徴とする請求項3に記載のドメイン名とウェブサイトアクセス行為との関連付け方法。   The domain name and website access behavior according to claim 3, wherein dividing the DNS log based on the source IP is to obtain a continuous DNS log of the same source IP within a certain time. How to associate with 前記タイムスタンプの差に基づいてログを分割することは、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割することであることを特徴とする請求項4に記載のドメイン名とウェブサイトアクセス行為との関連付け方法。   Dividing the log based on the time stamp difference divides the divided log based on the source IP further based on the time stamp difference of the DNS log, and the time difference between the two DNS logs is The method according to claim 4, wherein the two DNS logs are divided if the length of time is greater than a predetermined length of time. 前記所定時間の長さは3秒間であることを特徴とする請求項5に記載のドメイン名とウェブサイトアクセス行為との関連付け方法。   The method of claim 5, wherein the predetermined time is 3 seconds.
JP2018554480A 2016-04-14 2016-08-17 How to associate your domain name with website access Active JP6703621B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610230263.0 2016-04-14
CN201610230263.0A CN105763633B (en) 2016-04-14 2016-04-14 A kind of correlating method of domain name and website visiting behavior
PCT/CN2016/095670 WO2017177590A1 (en) 2016-04-14 2016-08-17 Method for associating domain name with website access behavior

Publications (2)

Publication Number Publication Date
JP2019514137A true JP2019514137A (en) 2019-05-30
JP6703621B2 JP6703621B2 (en) 2020-06-03

Family

ID=56333890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018554480A Active JP6703621B2 (en) 2016-04-14 2016-08-17 How to associate your domain name with website access

Country Status (5)

Country Link
JP (1) JP6703621B2 (en)
CN (1) CN105763633B (en)
GB (1) GB2567749A (en)
RU (1) RU2709647C9 (en)
WO (1) WO2017177590A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105763633B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A kind of correlating method of domain name and website visiting behavior
CN111131370B (en) * 2018-11-01 2022-09-27 百度在线网络技术(北京)有限公司 Method, device and system for detecting whether service call is correct
CN110798545B (en) * 2019-11-05 2020-08-18 中国人民解放军国防科技大学 Web-based domain name data acquisition method

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734815B2 (en) * 2006-09-18 2010-06-08 Akamai Technologies, Inc. Global load balancing across mirrored data centers
CN101079064B (en) * 2007-06-25 2011-11-30 腾讯科技(深圳)有限公司 Web page sequencing method and device
CN103389983B (en) * 2012-05-08 2016-12-14 阿里巴巴集团控股有限公司 A kind of capturing webpage contents method and device for network crawler system
CN104065532B (en) * 2014-06-26 2018-08-14 国家计算机网络与信息安全管理中心 A kind of non-recorded website search method and system based on multichannel data access way
CN105005600B (en) * 2015-07-02 2017-05-24 焦点科技股份有限公司 Preprocessing method of URL (Uniform Resource Locator) in access log
CN105357054B (en) * 2015-11-26 2019-01-29 上海晶赞科技发展有限公司 Website traffic analysis method, device and electronic equipment
CN105763633B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A kind of correlating method of domain name and website visiting behavior
CN105704260B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A kind of analysis method of internet traffic source whereabouts

Also Published As

Publication number Publication date
JP6703621B2 (en) 2020-06-03
WO2017177590A1 (en) 2017-10-19
CN105763633B (en) 2019-05-21
RU2709647C1 (en) 2019-12-19
GB2567749A (en) 2019-04-24
CN105763633A (en) 2016-07-13
RU2709647C9 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
JP5160556B2 (en) Log file analysis method and system based on distributed computer network
US20170242934A1 (en) Methods for integrating semantic search, query, and analysis and devices thereof
JP4358188B2 (en) Invalid click detection device in Internet search engine
CN106095979B (en) URL merging processing method and device
CN109905288B (en) Application service classification method and device
CN104038363A (en) Method for acquiring and counting CCDN provider information
JP7075348B2 (en) How to analyze the source and destination of Internet traffic
JP6703621B2 (en) How to associate your domain name with website access
CN104199848A (en) Relevance method and device for user data under different domains
Lakshmi et al. An overview of preprocessing on web log data for web usage analysis
Reddy et al. Preprocessing the web server logs: an illustrative approach for effective usage mining
JP2004220251A (en) Information extraction rule creation system, information extraction rule creation method, and information extraction rule creation program
JP2008097259A (en) Business support system and method using access analysis
JP4903118B2 (en) WEB server and program for collecting sensing data
Menezes et al. UX-Log: understanding website usability through recreating users’ experiences in logfiles
CN113839952A (en) Threat tracking method and device for log access relationship and electronic equipment
JP2001014210A (en) Information collection system
JP2006209598A (en) Site information collection system
JP6484767B1 (en) User attribute estimation system based on IP address
JP5851251B2 (en) Communication packet storage device
JP2014229042A (en) User operation recording system, operation record collecting apparatus, user operation recording method, and program thereof
Khosla et al. Capturing web log and performing preprocessing of the users accessing distance education system
Honest et al. Preprocessing phase for University Website Access Domain
Padala et al. A Novel Method for Data Cleaning and User-Session Identification for Web Mining
JP4738902B2 (en) Information management apparatus, information retrieval method, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200508

R150 Certificate of patent or registration of utility model

Ref document number: 6703621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250