JP6703621B2 - How to associate your domain name with website access - Google Patents

How to associate your domain name with website access Download PDF

Info

Publication number
JP6703621B2
JP6703621B2 JP2018554480A JP2018554480A JP6703621B2 JP 6703621 B2 JP6703621 B2 JP 6703621B2 JP 2018554480 A JP2018554480 A JP 2018554480A JP 2018554480 A JP2018554480 A JP 2018554480A JP 6703621 B2 JP6703621 B2 JP 6703621B2
Authority
JP
Japan
Prior art keywords
dns
domain name
log
time
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018554480A
Other languages
Japanese (ja)
Other versions
JP2019514137A (en
Inventor
ダーシュン ジャン
ダーシュン ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yamu Communication Technology Co Ltd
Original Assignee
Shanghai Yamu Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yamu Communication Technology Co Ltd filed Critical Shanghai Yamu Communication Technology Co Ltd
Publication of JP2019514137A publication Critical patent/JP2019514137A/en
Application granted granted Critical
Publication of JP6703621B2 publication Critical patent/JP6703621B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Description

本発明は、インターネットDNSドメイン名解決の分野及びウェブクローラー技術に関し、特にドメイン名とウェブサイトアクセス行為との関連付け方法に関する。 The present invention relates to the field of Internet DNS domain name resolution and web crawler technology, and more particularly to a method for associating a domain name with a website access act.

DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングする分散型データベースであり、ユーザーがマシンによって直接読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。「DNSドメイン名解決技術」とは、ユーザーがウェブサイトにアクセスすると、ブラウザにこのサイトのドメイン名を入力する必要があり、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができることである。 The Domain Name System (DNS) is a distributed database that maps domain names and IP addresses to each other on the Internet, making it more convenient and convenient for users to access the Internet without having to remember the IP digit strings read directly by their machines. To be able to access. "DNS domain name resolution technology" means that when a user accesses a website, the domain name of this site must be entered in the browser, and when the return key is pressed, the browser first makes a DNS request and then the DNS The technique is that the browser can obtain the server IP address corresponding to this domain name and then make an HTTP request to this IP address.

ウェブクローラー技術は、一定のルールに応じて、ワールドワイドウェブ情報を自動的に収集するプログラム又はスクリプトである。それはユーザーをシミュレートしてウェブサイトにHTTPリクエストをして、かつ該過程において生成したDNSリクエストを記録する。 Web crawler technology is a program or script that automatically collects World Wide Web information according to certain rules. It simulates a user, makes an HTTP request to a website, and records the DNS request generated in the process.

DNSデータの価値は、その分重視されず、IPとドメイン名との対応関係のみと考えられるため、現在市場ではDNSデータにより対応する関連付けを行っていない。 The value of the DNS data is not emphasized to that extent, and is considered to be only the correspondence relationship between the IP and the domain name. Therefore, the market is currently not associated with the corresponding DNS data.

本発明は、DNSログ収集とウェブクローラー技術を結合して、DNSログによりユーザーのインターネット閲覧行為を分析することもできるドメイン名とウェブサイトアクセス行為との関連付け方法を提供する。 The present invention provides a method of associating a domain name with a website access behavior, which can analyze DNS browsing behavior of a user's Internet by combining DNS log collection and web crawler technology.

本発明のドメイン名とウェブサイトアクセス行為との関連付け方法は、コンピュータープログラムにより実行されるドメイン名とウェブサイトアクセス行為との関連付け方法であって、クローラーによりユーザーのサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわちキャプチャしたDNSドメイン名リクエストセットを取得するステップS1と、DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得するステップ2と、ステップS1でキャプチャしたDNSドメイン名リクエストセット及びステップS2で分割したn個のドメイン名リクエストセットに対してセット同士とのマッチングを行い、DNSログから分割した1つのドメイン名リクエストセットが前記キャプチャしたDNSドメイン名リクエストセットに等しいか又は含まれれば、前記DNSログがユーザーが前記クローラーのキャプチャする時に要求したURLのドメイン名をクリックしたことを示すと考えられるステップS3とを含む。
A method of associating a domain name with a website access act of the present invention is a method of associating a domain name with a website access act executed by a computer program, wherein a crawler simulates a user's site access act, and All DNS domain name requests in the HTTP request of step S1, that is, step S1 of acquiring the captured DNS domain name request set, and dividing the DNS log into n (n is an integer of 1 or more) number of domain name request sets. step S 2 to be acquired it matches the set together for n domain name request set divided by the DNS domain name request set and S2 captured in step S1, 1 single domain name resolved from DNS log If a request set is equal to or included in the captured DNS domain name request set, the DNS log is considered to indicate that the user has clicked on the domain name of the URL requested at the time of the capture of the crawler, step S3. Including.

好ましくは、ステップS2では、前記DNSログは、アクセス行為当日のDNSログである。
好ましくは、ステップS2では、前記DNSログを分割することは、まずソースIPに基づいて分割し、その後にタイムスタンプの差に基づいて分割する二回分割を含む。
好ましくは、ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。
好ましくは、前記タイムスタンプの差に基づいてログを分割することは、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割することである。
好ましくは、前記所定時間の長さは3秒間である。
Preferably, in step S2, the DNS log is a DNS log on the day of the access act.
Preferably, in step S2, the splitting of the DNS log comprises a split twice based on the source IP first and then on the time stamp difference.
Preferably, splitting a DNS log based on source IP is to get consecutive DNS logs for the same source IP within a certain time.
Preferably, dividing the log based on the difference of the time stamps further divides the log divided based on the source IP based on the difference of the time stamps of the DNS logs, and divides the time stamps of the two DNS logs. If the difference is larger than the predetermined length of time, it means to divide the two DNS logs.
Preferably, the length of the predetermined time is 3 seconds.

本発明のドメイン名とサイトアクセス行為との関連付け方法によれば、DNSログによりユーザーのインターネット閲覧行為に対する分析を実現することもできる。 According to the method of associating the domain name with the site access act of the present invention, it is possible to realize the analysis of the user's Internet browsing act by the DNS log.

図1は、クローラープログラムが収集したDNSドメイン名リクエストセットの概略図である。FIG. 1 is a schematic diagram of a DNS domain name request set collected by the crawler program. 図2は、本発明のドメイン名とウェブサイトアクセス行為との関連付け方法の流れ図である。FIG. 2 is a flowchart of a method of associating a domain name with a website access act according to the present invention.

以下に、図面及び実施例を参照しながら、発明を詳細に説明する。以下の実施例は、本発明を限定するものではない。発明構想の精神及び範囲から逸脱しない場合、当業者が想到し得る変化及び利点はいずれも本発明に含まれる。 Hereinafter, the invention will be described in detail with reference to the drawings and embodiments. The following examples do not limit the invention. All changes and advantages that can be considered by those skilled in the art are included in the present invention without departing from the spirit and scope of the inventive concept.

上述したように、DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングする分散型データベースであり、ユーザーがマシンによって直接読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。ユーザーがサイトにアクセスすると、まず、ブラウザにこのサイトのドメイン名を入力し、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができる。それは、DNSドメイン名解決技術である。 As mentioned above, DNS (Domain Name System, Domain Name System) is a distributed database that maps domain names and IP addresses to each other on the Internet, without the need for the user to remember the IP number strings read directly by the machine. Allows you to access the Internet more conveniently. When a user visits a site, first enter the domain name of this site in the browser and press the return key. The browser first makes a DNS request, and the DNS technology causes the browser to respond to the server corresponding to this domain name. An IP address can be obtained and then an HTTP request can be made to this IP address. It is a DNS domain name resolution technology.

上記ドメイン名解決の過程において、DNSログを生成する。DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ほとんどユーザーによって要求された全てのドメイン名情報を記録することができる。DNSログのフォーマットは以下のとおりである。
14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
In the domain name resolution process, a DNS log is generated. The DNS log records the response content of each DNS request and can record almost all domain name information requested by the user. The format of the DNS log is as follows.
14. ***. ***. 10|www. baidu. com|20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
Source IP | domain name | time stamp | resolved IP | status code

すなわち、DNSログは、「ソースIP」、「ドメイン名」、「タイムスタンプ」、「解決したIP」及び「状態コード」の5つの部分の内容を含む。
以下に、図1を参照しながら、本発明のドメイン名とウェブサイトアクセス行為との関連付け方法を詳細に説明する。
That is, the DNS log includes the contents of five parts, "source IP", "domain name", "time stamp", "solved IP", and "status code".
Hereinafter, a method of associating a domain name with a website access act according to the present invention will be described in detail with reference to FIG.

まず、クローラープログラムによりユーザーのウェブサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわち収集したDNSドメイン名リクエストセットを取得する(ステップS1)。例えば、あるページを開くか又はあるURL(リンク)をクリックし、クローラープログラムは、今回のHTTPリクエストにおける全てのDNSドメイン名リクエストを収集する。あるユーザーがURLをクリックすると、現在のURLのドメイン名に加えて、幾つかの他のドメイン名も要求し、クローラー技術により該URLをクリックした後に生成した全てのDNSドメイン名リクエストを取得することができる。ここで、ユニフォームリソースロケータ(URL)は、インターネットから取得されたリソースの位置及びアクセス方法の簡潔な表示であり、インターネット上の標準リソースのアドレスである。インターネット上の各ファイルは、いずれも唯一のURLを有し、それが含む情報は、ファイルの位置及びブラウザがそれをどのように処理するかを示す。 First, the crawler program simulates a user's website access action, and acquires all DNS domain name requests in this HTTP request, that is, the collected DNS domain name request set (step S1). For example, by opening a page or clicking a URL (link), the crawler program collects all DNS domain name requests in this HTTP request. When a user clicks on a URL, it requests some other domain name in addition to the domain name of the current URL, and gets all DNS domain name requests generated by the crawler technology after clicking the URL. You can Here, the uniform resource locator (URL) is a simple display of the location and access method of the resource acquired from the Internet, and is the address of the standard resource on the Internet. Each file on the Internet has a unique URL, and the information it contains indicates the location of the file and how the browser handles it.

例えば、ユーザーは、以下に示すような具体的なURL(リンク)、
http://baike.baidu.com/link?url=Lm−TkKUzV687IRoPCDVUAG5qslgMyZtNa6e6A3nPnWXorcXEAIl50O6XHZWpTJat」をクリックする。
クローラープログラムは、該URLをクリックした後に生成した全てのDNSドメイン名リクエスト、すなわちDNSドメイン名リクエストセットを収集し、具体的には図1に示す。
For example, the user may specify a specific URL (link) as shown below,
Click " http://baike.baidu.com/link?url=Lm-TkKUzV687IRoPCDVUAG5qslgMyZtNa6e6A3nPnWXorcXEAII50O6XHZWpTJat ".
The crawler program collects all the DNS domain name requests generated after clicking the URL, that is, the DNS domain name request set, and is specifically shown in FIG.

次に、DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得する(ステップ2)。ここで、DNSログは、一般的には、アクセス行為当日のログである。前記分割は、まずソースIPに基づいて分割し、その後にタイムスタンプの差に基づいて分割する二回分割を含む。 Next, the DNS log is divided to obtain n (n is an integer of 1 or more) domain name request sets (step 2). Here, the DNS log is generally a log on the day of the access act. The division includes a two-time division in which the source IP is first divided and then the time stamp difference is used.

1)ソースIPに基づいてDNSログを分割し、すなわちログのソースIPが異なれば、連続的なログを分割する。ソースIPに基づく分割は、ある時間内の同じソースIPの連続的なDNSログを取得することである。以下のとおりである。
1.1.1.1|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
1.1.1.1|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ログ分割線−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
2.2.2.2|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
1) Split the DNS log based on the source IP, i.e., split the continuous log if the source IP of the log is different. Source IP based splitting is to get consecutive DNS logs of the same source IP within a certain time. It is as follows.
1.1.1.1| www. baidu. com |20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
1.1.1.1| www. qq. com |20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Log division line −−−−−−−−− −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2| www. baidu. com |20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2| www. qq. com |20141211035932|180. ***. ***. 107;180. ***. ***. 108|0

2)タイムスタンプの差に基づく分割は、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割することである。2つの連続的なログのタイムスタンプの差が所定時間の長さよりも大きければ、分割される(分割の原因は、ログの時間間隔が長過ぎると2つの異なる行為であると見なされることである)。該所定時間の長さは、必要に応じて調整することができる。本実施例では、前記所定時間の長さは3秒間であり、即ちタイムスタンプの差が3秒間より大きいと分割される。 2) The division based on the time stamp difference is that the log divided based on the source IP is further divided based on the time stamp difference of the DNS log. If the difference between the time stamps of two consecutive logs is greater than a predetermined amount of time, it will be split (the reason for the split is that if the log time interval is too long, it is considered to be two different actions. ). The length of the predetermined time can be adjusted as needed. In this embodiment, the length of the predetermined time is 3 seconds, that is, the time stamp is divided when the difference is larger than 3 seconds.

例えば、ソースIP2.2.2.2のDNSログを、さらにそのタイムスタンプの差に基づいて分割し、以下のとおりである。(タイムスタンプ20141211035932は、2014年12月11日3時59分32秒を示す) For example, the DNS log of the source IP 2.2.2.2 is further divided based on the difference of the time stamps thereof, as follows. (Timestamp 20141211035932 indicates 3:59:32 on December 11, 2014)

ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
2.2.2.2|www.baidu.com|20141211000001|180.***.***.107;180.***.***.108|0
2.2.2.2|a.qq.com|20141211000002|180.***.***.107;180.***.***.108|0
2.2.2.2|b.baidu.com|20141211000003|180.***.***.107;180.***.***.108|0
2.2.2.2|c.tanx.com|20141211000004|180.***.***.107;180.***.***.108|0
2.2.2.2|c.allyes.com|20141211000005|180.***.***.107;180.***.***.108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ログ分割線−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2|www.sina.com|20141211000009|180.***.***.107;180.***.***.108|0
Source IP|domain name|timestamp|solved IP|status code 2.2.2.2| www. baidu. com |20141211000001|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2|a. qq. com|20141211000002|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2| b. baidu. com |20141211000003|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2| c. tanx. com |20141211000004|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2| c. allies. com |20141211000005|180. ***. ***. 107;180. ***. ***. 108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Log division line −−−−−−−−− −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2| www. sina. com |20141211000009|180. ***. ***. 107;180. ***. ***. 108|0

上述したように、タイムスタンプ20141211000005の05秒と20141211000009の09秒の間の差が4秒間(3秒間より大きい)であるため、ログは分割される。
www.baidu.com、a.qq.com、b.baidu.com、c.tanx.com、c.tanx.comは、DNSログにおける1つのドメイン名リクエストセットである。
As described above, the log is divided because the difference between 05 seconds of the time stamps 20141211000005 and 09 seconds of the 20141211000009 is 4 seconds (more than 3 seconds).
www. baidu. com, a. qq. com, b. baidu. com, c. tanx. com, c. tanx. com is one domain name request set in the DNS log.

続いて、ステップS1でクローラーが収集したDNSドメイン名リクエストセット及びステップS2におけるDNSログ分割により得られたドメイン名リクエストセットに対してセット同士とのマッチングを行う(ステップS3)。マッチングルールは、[(a,b,c)=(b,c,a)=(a,c,b)]である。 Subsequently, the DNS domain name request set collected by the crawler in step S1 and the domain name request set obtained by the DNS log division in step S2 are matched with each other (step S3). The matching rule is [(a, b, c)=(b, c, a)=(a, c, b)].

ログをマッチングした後に、DNSログの1つのドメイン名リクエストセットがクローラーの収集したドメイン名リクエストセットの一部に含まれ、又は2つのセットが同じであれば、該DNSログは、ユーザーが該ドメイン名(すなわちクローラーが収集する時に要求したURLのドメイン名)をクリックしたことを示すとみなされる。例えば、
クローラーが収集したURLは、www.a.com/doc/1234(該URLは、あるユーザーのクリック行為である)である。収集した全てのドメイン名リクエストセットAは、「www.a.comwww.b.comwww.c.comwww.d.comwww.e.com」である。
DNSログを分割した後にドメイン名リクエストセットBの一部は、「www.a.comwww.b.comwww.e.comwww.d.com」である。
After matching the logs, one domain name request set in the DNS log is included as part of the domain name request set collected by the crawler, or if the two sets are the same, the DNS log indicates that the user has It is considered to indicate that you have clicked on the name (ie the domain name of the URL that the crawler requested when collecting). For example,
The URL collected by the crawler is www. a. com/doc/1234 (the URL is a click action of a certain user). All the collected domain name request sets A are “ www.a.com , www.b.com , www.c.com , www.d.com , www.e.com ”.
After splitting the DNS log, part of the domain name request set B is " www.a.com , www.b.com , www.e.com , www.d.com ".

上述のように、BセットがAセット内に含まれると、ドメイン名リクエストセットBは、ドメイン名セットAがマッピングしたwww.a.com/doc/1234というユーザーアクセス行為を反映しているとみなされる。このように、DNSログによりユーザーのインターネット閲覧行為に対する分析を実現することもできる。 As described above, when the B set is included in the A set, the domain name request set B is converted into the www. a. It is considered to reflect the user access behavior of com/doc/1234 . In this way, the DNS log can also realize the analysis of the user's Internet browsing activity.

以上の記載は本発明の好ましい実施例に過ぎず、本発明を限定するものではない。本発明の出願特許範囲内の内容に基づいて行われるいかなる同等変化や修飾は、いずれも本発明の技術的範囲内に属するべきである。 The above descriptions are merely preferred embodiments of the present invention, and do not limit the present invention. Any equivalent changes or modifications made based on the content within the patent scope of the present application should belong to the technical scope of the present invention.

Claims (6)

コンピュータープログラムにより実行されるドメイン名とウェブサイトアクセス行為との関連付け方法であって、
クローラーによりユーザーのサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわちキャプチャしたDNSドメイン名リクエストセットを取得するステップS1と、
DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得するステップ2と、
ステップS1でキャプチャしたDNSドメイン名リクエストセット及びステップS2で分割したn個のドメイン名リクエストセットに対してセット同士とのマッチングを行い、DNSログから分割した1つのドメイン名リクエストセットが前記キャプチャしたDNSドメイン名リクエストセットに等しいか又は含まれれば、前記DNSログがユーザーが前記クローラーのキャプチャする時に要求したURLのドメイン名をクリックしたことを示すと考えられるステップS3とを含む、ことを特徴とするドメイン名とサイトアクセス行為との関連付け方法。
A method for associating a website name with a domain name executed by a computer program,
Step S1 of simulating a user's site access action by a crawler, and acquiring all DNS domain name requests in the HTTP request of this time, that is, the captured DNS domain name request set,
Step S 2 of dividing the DNS log to obtain n (n is an integer of 1 or more) domain name request sets,
The DNS domain name request set captured in step S1 and the n domain name request sets divided in step S2 are matched with each other, and one domain name request set divided from the DNS log is the captured DNS. If equal to or included in the domain name request set, the DNS log is considered to indicate that the user has clicked on the domain name of the URL requested at the time of the crawler capture, step S3. How to associate a domain name with a site access act.
ステップS2では、前記DNSログは、アクセス行為当日のDNSログであることを特徴とする請求項1に記載のドメイン名とサイトアクセス行為との関連付け方法。 The method of associating a domain name with a site access act according to claim 1, wherein in step S2, the DNS log is a DNS log of the day of the access act. ステップS2では、前記DNSログを分割することは、まずソースIPに基づいて分割し、その後にタイムスタンプの差に基づいて分割する二回分割を含むことを特徴とする請求項1に記載のドメイン名とサイトアクセス行為との関連付け方法。 The domain according to claim 1, wherein, in step S2, dividing the DNS log includes dividing the DNS log based on a source IP first and then dividing the DNS log based on a time stamp difference. How to associate a name with a site access act. ソースIPに基づいてNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することであることを特徴とする請求項3に記載の関連付け方法。 The method according to claim 3, wherein dividing the NS log based on the source IP is to obtain consecutive DNS logs of the same source IP within a certain time. 前記タイムスタンプの差に基づいてログを分割することは、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割することであることを特徴とする請求項4に記載の関連付け方法。 Splitting the log based on the time stamp difference means that the log divided based on the source IP is further divided based on the time stamp difference between the DNS logs so that the time stamp difference between the two DNS logs is The associating method according to claim 4, wherein the two DNS logs are divided if the length of the predetermined time is larger than the predetermined length of time. 前記所定時間の長さは3秒間であることを特徴とする請求項5に記載の関連付け方法。 The association method according to claim 5, wherein the length of the predetermined time period is 3 seconds.
JP2018554480A 2016-04-14 2016-08-17 How to associate your domain name with website access Active JP6703621B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610230263.0 2016-04-14
CN201610230263.0A CN105763633B (en) 2016-04-14 2016-04-14 A kind of correlating method of domain name and website visiting behavior
PCT/CN2016/095670 WO2017177590A1 (en) 2016-04-14 2016-08-17 Method for associating domain name with website access behavior

Publications (2)

Publication Number Publication Date
JP2019514137A JP2019514137A (en) 2019-05-30
JP6703621B2 true JP6703621B2 (en) 2020-06-03

Family

ID=56333890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018554480A Active JP6703621B2 (en) 2016-04-14 2016-08-17 How to associate your domain name with website access

Country Status (5)

Country Link
JP (1) JP6703621B2 (en)
CN (1) CN105763633B (en)
GB (1) GB2567749A (en)
RU (1) RU2709647C9 (en)
WO (1) WO2017177590A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105763633B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A kind of correlating method of domain name and website visiting behavior
CN111131370B (en) * 2018-11-01 2022-09-27 百度在线网络技术(北京)有限公司 Method, device and system for detecting whether service call is correct
CN110798545B (en) * 2019-11-05 2020-08-18 中国人民解放军国防科技大学 Web-based domain name data acquisition method

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734815B2 (en) * 2006-09-18 2010-06-08 Akamai Technologies, Inc. Global load balancing across mirrored data centers
CN101079064B (en) * 2007-06-25 2011-11-30 腾讯科技(深圳)有限公司 Web page sequencing method and device
CN103389983B (en) * 2012-05-08 2016-12-14 阿里巴巴集团控股有限公司 A kind of capturing webpage contents method and device for network crawler system
CN104065532B (en) * 2014-06-26 2018-08-14 国家计算机网络与信息安全管理中心 A kind of non-recorded website search method and system based on multichannel data access way
CN105005600B (en) * 2015-07-02 2017-05-24 焦点科技股份有限公司 Preprocessing method of URL (Uniform Resource Locator) in access log
CN105357054B (en) * 2015-11-26 2019-01-29 上海晶赞科技发展有限公司 Website traffic analysis method, device and electronic equipment
CN105704260B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A kind of analysis method of internet traffic source whereabouts
CN105763633B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A kind of correlating method of domain name and website visiting behavior

Also Published As

Publication number Publication date
JP2019514137A (en) 2019-05-30
WO2017177590A1 (en) 2017-10-19
RU2709647C1 (en) 2019-12-19
GB2567749A (en) 2019-04-24
RU2709647C9 (en) 2020-04-02
CN105763633B (en) 2019-05-21
CN105763633A (en) 2016-07-13

Similar Documents

Publication Publication Date Title
Suneetha et al. Identifying user behavior by analyzing web server access log file
JP4350744B2 (en) Method and system for providing regional information search results
CN106095979B (en) URL merging processing method and device
CN104601408B (en) Website data statistics and analysis method and system for non-open network environment
JP7075348B2 (en) How to analyze the source and destination of Internet traffic
CN104199848B (en) The correlating method and device of user data under a kind of not same area
CN102594934A (en) Method and device for identifying hijacked website
CN104038363A (en) Method for acquiring and counting CCDN provider information
JP6703621B2 (en) How to associate your domain name with website access
JP6520513B2 (en) Question and Answer Information Providing System, Information Processing Device, and Program
Lakshmi et al. An overview of preprocessing on web log data for web usage analysis
Hess Discovering digital library user behavior with google analytics
JP2009181459A (en) Access analyzing device and access analyzing method and access analyzing program
JP2008097259A (en) Business support system and method using access analysis
JP2004110080A (en) Computer network connection method on internet by real name, and computer network system
US10990607B1 (en) Systems and methods for log aggregation
CN106126538B (en) Page conversion processing method and device
JP2006209598A (en) Site information collection system
Mowla et al. Analysis of web server logs to understand internet user behaviour and develop digital marketing strategies
JP2014229042A (en) User operation recording system, operation record collecting apparatus, user operation recording method, and program thereof
JP5851251B2 (en) Communication packet storage device
JPH11306160A (en) Service unit extraction method and device from service application history and recording medium recording extraction program
JP2006185279A (en) Device and method for grasping accessing party
Dragos Why integrated E-learning Analytics are the best solution?
Bakariya et al. User behavior analysis from web log using log analyzer tool

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200508

R150 Certificate of patent or registration of utility model

Ref document number: 6703621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250