JP6703621B2 - How to associate your domain name with website access - Google Patents
How to associate your domain name with website access Download PDFInfo
- Publication number
- JP6703621B2 JP6703621B2 JP2018554480A JP2018554480A JP6703621B2 JP 6703621 B2 JP6703621 B2 JP 6703621B2 JP 2018554480 A JP2018554480 A JP 2018554480A JP 2018554480 A JP2018554480 A JP 2018554480A JP 6703621 B2 JP6703621 B2 JP 6703621B2
- Authority
- JP
- Japan
- Prior art keywords
- dns
- domain name
- log
- time
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Description
本発明は、インターネットDNSドメイン名解決の分野及びウェブクローラー技術に関し、特にドメイン名とウェブサイトアクセス行為との関連付け方法に関する。 The present invention relates to the field of Internet DNS domain name resolution and web crawler technology, and more particularly to a method for associating a domain name with a website access act.
DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングする分散型データベースであり、ユーザーがマシンによって直接読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。「DNSドメイン名解決技術」とは、ユーザーがウェブサイトにアクセスすると、ブラウザにこのサイトのドメイン名を入力する必要があり、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができることである。 The Domain Name System (DNS) is a distributed database that maps domain names and IP addresses to each other on the Internet, making it more convenient and convenient for users to access the Internet without having to remember the IP digit strings read directly by their machines. To be able to access. "DNS domain name resolution technology" means that when a user accesses a website, the domain name of this site must be entered in the browser, and when the return key is pressed, the browser first makes a DNS request and then the DNS The technique is that the browser can obtain the server IP address corresponding to this domain name and then make an HTTP request to this IP address.
ウェブクローラー技術は、一定のルールに応じて、ワールドワイドウェブ情報を自動的に収集するプログラム又はスクリプトである。それはユーザーをシミュレートしてウェブサイトにHTTPリクエストをして、かつ該過程において生成したDNSリクエストを記録する。 Web crawler technology is a program or script that automatically collects World Wide Web information according to certain rules. It simulates a user, makes an HTTP request to a website, and records the DNS request generated in the process.
DNSデータの価値は、その分重視されず、IPとドメイン名との対応関係のみと考えられるため、現在市場ではDNSデータにより対応する関連付けを行っていない。 The value of the DNS data is not emphasized to that extent, and is considered to be only the correspondence relationship between the IP and the domain name. Therefore, the market is currently not associated with the corresponding DNS data.
本発明は、DNSログ収集とウェブクローラー技術を結合して、DNSログによりユーザーのインターネット閲覧行為を分析することもできるドメイン名とウェブサイトアクセス行為との関連付け方法を提供する。 The present invention provides a method of associating a domain name with a website access behavior, which can analyze DNS browsing behavior of a user's Internet by combining DNS log collection and web crawler technology.
本発明のドメイン名とウェブサイトアクセス行為との関連付け方法は、コンピュータープログラムにより実行されるドメイン名とウェブサイトアクセス行為との関連付け方法であって、クローラーによりユーザーのサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわちキャプチャしたDNSドメイン名リクエストセットを取得するステップS1と、DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得するステップS2と、ステップS1でキャプチャしたDNSドメイン名リクエストセット及びステップS2で分割したn個のドメイン名リクエストセットに対してセット同士とのマッチングを行い、DNSログから分割した1つのドメイン名リクエストセットが前記キャプチャしたDNSドメイン名リクエストセットに等しいか又は含まれれば、前記DNSログがユーザーが前記クローラーのキャプチャする時に要求したURLのドメイン名をクリックしたことを示すと考えられるステップS3とを含む。
A method of associating a domain name with a website access act of the present invention is a method of associating a domain name with a website access act executed by a computer program, wherein a crawler simulates a user's site access act, and All DNS domain name requests in the HTTP request of step S1, that is, step S1 of acquiring the captured DNS domain name request set, and dividing the DNS log into n (n is an integer of 1 or more) number of domain name request sets. step S 2 to be acquired it matches the set together for n domain name request set divided by the DNS domain name request set and S2 captured in step S1, 1 single domain name resolved from DNS log If a request set is equal to or included in the captured DNS domain name request set, the DNS log is considered to indicate that the user has clicked on the domain name of the URL requested at the time of the capture of the crawler, step S3. Including.
好ましくは、ステップS2では、前記DNSログは、アクセス行為当日のDNSログである。
好ましくは、ステップS2では、前記DNSログを分割することは、まずソースIPに基づいて分割し、その後にタイムスタンプの差に基づいて分割する二回分割を含む。
好ましくは、ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。
好ましくは、前記タイムスタンプの差に基づいてログを分割することは、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割することである。
好ましくは、前記所定時間の長さは3秒間である。
Preferably, in step S2, the DNS log is a DNS log on the day of the access act.
Preferably, in step S2, the splitting of the DNS log comprises a split twice based on the source IP first and then on the time stamp difference.
Preferably, splitting a DNS log based on source IP is to get consecutive DNS logs for the same source IP within a certain time.
Preferably, dividing the log based on the difference of the time stamps further divides the log divided based on the source IP based on the difference of the time stamps of the DNS logs, and divides the time stamps of the two DNS logs. If the difference is larger than the predetermined length of time, it means to divide the two DNS logs.
Preferably, the length of the predetermined time is 3 seconds.
本発明のドメイン名とサイトアクセス行為との関連付け方法によれば、DNSログによりユーザーのインターネット閲覧行為に対する分析を実現することもできる。 According to the method of associating the domain name with the site access act of the present invention, it is possible to realize the analysis of the user's Internet browsing act by the DNS log.
以下に、図面及び実施例を参照しながら、発明を詳細に説明する。以下の実施例は、本発明を限定するものではない。発明構想の精神及び範囲から逸脱しない場合、当業者が想到し得る変化及び利点はいずれも本発明に含まれる。 Hereinafter, the invention will be described in detail with reference to the drawings and embodiments. The following examples do not limit the invention. All changes and advantages that can be considered by those skilled in the art are included in the present invention without departing from the spirit and scope of the inventive concept.
上述したように、DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングする分散型データベースであり、ユーザーがマシンによって直接読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。ユーザーがサイトにアクセスすると、まず、ブラウザにこのサイトのドメイン名を入力し、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができる。それは、DNSドメイン名解決技術である。 As mentioned above, DNS (Domain Name System, Domain Name System) is a distributed database that maps domain names and IP addresses to each other on the Internet, without the need for the user to remember the IP number strings read directly by the machine. Allows you to access the Internet more conveniently. When a user visits a site, first enter the domain name of this site in the browser and press the return key. The browser first makes a DNS request, and the DNS technology causes the browser to respond to the server corresponding to this domain name. An IP address can be obtained and then an HTTP request can be made to this IP address. It is a DNS domain name resolution technology.
上記ドメイン名解決の過程において、DNSログを生成する。DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ほとんどユーザーによって要求された全てのドメイン名情報を記録することができる。DNSログのフォーマットは以下のとおりである。
14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
In the domain name resolution process, a DNS log is generated. The DNS log records the response content of each DNS request and can record almost all domain name information requested by the user. The format of the DNS log is as follows.
14. ***. ***. 10|www. baidu. com|20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
Source IP | domain name | time stamp | resolved IP | status code
すなわち、DNSログは、「ソースIP」、「ドメイン名」、「タイムスタンプ」、「解決したIP」及び「状態コード」の5つの部分の内容を含む。
以下に、図1を参照しながら、本発明のドメイン名とウェブサイトアクセス行為との関連付け方法を詳細に説明する。
That is, the DNS log includes the contents of five parts, "source IP", "domain name", "time stamp", "solved IP", and "status code".
Hereinafter, a method of associating a domain name with a website access act according to the present invention will be described in detail with reference to FIG.
まず、クローラープログラムによりユーザーのウェブサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわち収集したDNSドメイン名リクエストセットを取得する(ステップS1)。例えば、あるページを開くか又はあるURL(リンク)をクリックし、クローラープログラムは、今回のHTTPリクエストにおける全てのDNSドメイン名リクエストを収集する。あるユーザーがURLをクリックすると、現在のURLのドメイン名に加えて、幾つかの他のドメイン名も要求し、クローラー技術により該URLをクリックした後に生成した全てのDNSドメイン名リクエストを取得することができる。ここで、ユニフォームリソースロケータ(URL)は、インターネットから取得されたリソースの位置及びアクセス方法の簡潔な表示であり、インターネット上の標準リソースのアドレスである。インターネット上の各ファイルは、いずれも唯一のURLを有し、それが含む情報は、ファイルの位置及びブラウザがそれをどのように処理するかを示す。 First, the crawler program simulates a user's website access action, and acquires all DNS domain name requests in this HTTP request, that is, the collected DNS domain name request set (step S1). For example, by opening a page or clicking a URL (link), the crawler program collects all DNS domain name requests in this HTTP request. When a user clicks on a URL, it requests some other domain name in addition to the domain name of the current URL, and gets all DNS domain name requests generated by the crawler technology after clicking the URL. You can Here, the uniform resource locator (URL) is a simple display of the location and access method of the resource acquired from the Internet, and is the address of the standard resource on the Internet. Each file on the Internet has a unique URL, and the information it contains indicates the location of the file and how the browser handles it.
例えば、ユーザーは、以下に示すような具体的なURL(リンク)、
「http://baike.baidu.com/link?url=Lm−TkKUzV687IRoPCDVUAG5qslgMyZtNa6e6A3nPnWXorcXEAIl50O6XHZWpTJat」をクリックする。
クローラープログラムは、該URLをクリックした後に生成した全てのDNSドメイン名リクエスト、すなわちDNSドメイン名リクエストセットを収集し、具体的には図1に示す。
For example, the user may specify a specific URL (link) as shown below,
Click " http://baike.baidu.com/link?url=Lm-TkKUzV687IRoPCDVUAG5qslgMyZtNa6e6A3nPnWXorcXEAII50O6XHZWpTJat ".
The crawler program collects all the DNS domain name requests generated after clicking the URL, that is, the DNS domain name request set, and is specifically shown in FIG.
次に、DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得する(ステップ2)。ここで、DNSログは、一般的には、アクセス行為当日のログである。前記分割は、まずソースIPに基づいて分割し、その後にタイムスタンプの差に基づいて分割する二回分割を含む。 Next, the DNS log is divided to obtain n (n is an integer of 1 or more) domain name request sets (step 2). Here, the DNS log is generally a log on the day of the access act. The division includes a two-time division in which the source IP is first divided and then the time stamp difference is used.
1)ソースIPに基づいてDNSログを分割し、すなわちログのソースIPが異なれば、連続的なログを分割する。ソースIPに基づく分割は、ある時間内の同じソースIPの連続的なDNSログを取得することである。以下のとおりである。
1.1.1.1|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
1.1.1.1|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ログ分割線−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
2.2.2.2|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
1) Split the DNS log based on the source IP, i.e., split the continuous log if the source IP of the log is different. Source IP based splitting is to get consecutive DNS logs of the same source IP within a certain time. It is as follows.
1.1.1.1| www. baidu. com |20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
1.1.1.1| www. qq. com |20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Log division line −−−−−−−−− −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2| www. baidu. com |20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2| www. qq. com |20141211035932|180. ***. ***. 107;180. ***. ***. 108|0
2)タイムスタンプの差に基づく分割は、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割することである。2つの連続的なログのタイムスタンプの差が所定時間の長さよりも大きければ、分割される(分割の原因は、ログの時間間隔が長過ぎると2つの異なる行為であると見なされることである)。該所定時間の長さは、必要に応じて調整することができる。本実施例では、前記所定時間の長さは3秒間であり、即ちタイムスタンプの差が3秒間より大きいと分割される。 2) The division based on the time stamp difference is that the log divided based on the source IP is further divided based on the time stamp difference of the DNS log. If the difference between the time stamps of two consecutive logs is greater than a predetermined amount of time, it will be split (the reason for the split is that if the log time interval is too long, it is considered to be two different actions. ). The length of the predetermined time can be adjusted as needed. In this embodiment, the length of the predetermined time is 3 seconds, that is, the time stamp is divided when the difference is larger than 3 seconds.
例えば、ソースIP2.2.2.2のDNSログを、さらにそのタイムスタンプの差に基づいて分割し、以下のとおりである。(タイムスタンプ20141211035932は、2014年12月11日3時59分32秒を示す) For example, the DNS log of the source IP 2.2.2.2 is further divided based on the difference of the time stamps thereof, as follows. (Timestamp 20141211035932 indicates 3:59:32 on December 11, 2014)
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
2.2.2.2|www.baidu.com|20141211000001|180.***.***.107;180.***.***.108|0
2.2.2.2|a.qq.com|20141211000002|180.***.***.107;180.***.***.108|0
2.2.2.2|b.baidu.com|20141211000003|180.***.***.107;180.***.***.108|0
2.2.2.2|c.tanx.com|20141211000004|180.***.***.107;180.***.***.108|0
2.2.2.2|c.allyes.com|20141211000005|180.***.***.107;180.***.***.108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−ログ分割線−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2|www.sina.com|20141211000009|180.***.***.107;180.***.***.108|0
Source IP|domain name|timestamp|solved IP|status code 2.2.2.2| www. baidu. com |20141211000001|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2|a. qq. com|20141211000002|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2| b. baidu. com |20141211000003|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2| c. tanx. com |20141211000004|180. ***. ***. 107;180. ***. ***. 108|0
2.2.2.2| c. allies. com |20141211000005|180. ***. ***. 107;180. ***. ***. 108|0
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− Log division line −−−−−−−−− −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2.2.2.2| www. sina. com |20141211000009|180. ***. ***. 107;180. ***. ***. 108|0
上述したように、タイムスタンプ20141211000005の05秒と20141211000009の09秒の間の差が4秒間(3秒間より大きい)であるため、ログは分割される。
www.baidu.com、a.qq.com、b.baidu.com、c.tanx.com、c.tanx.comは、DNSログにおける1つのドメイン名リクエストセットである。
As described above, the log is divided because the difference between 05 seconds of the time stamps 20141211000005 and 09 seconds of the 20141211000009 is 4 seconds (more than 3 seconds).
www. baidu. com, a. qq. com, b. baidu. com, c. tanx. com, c. tanx. com is one domain name request set in the DNS log.
続いて、ステップS1でクローラーが収集したDNSドメイン名リクエストセット及びステップS2におけるDNSログ分割により得られたドメイン名リクエストセットに対してセット同士とのマッチングを行う(ステップS3)。マッチングルールは、[(a,b,c)=(b,c,a)=(a,c,b)]である。 Subsequently, the DNS domain name request set collected by the crawler in step S1 and the domain name request set obtained by the DNS log division in step S2 are matched with each other (step S3). The matching rule is [(a, b, c)=(b, c, a)=(a, c, b)].
ログをマッチングした後に、DNSログの1つのドメイン名リクエストセットがクローラーの収集したドメイン名リクエストセットの一部に含まれ、又は2つのセットが同じであれば、該DNSログは、ユーザーが該ドメイン名(すなわちクローラーが収集する時に要求したURLのドメイン名)をクリックしたことを示すとみなされる。例えば、
クローラーが収集したURLは、www.a.com/doc/1234(該URLは、あるユーザーのクリック行為である)である。収集した全てのドメイン名リクエストセットAは、「www.a.com、www.b.com、www.c.com、www.d.com、www.e.com」である。
DNSログを分割した後にドメイン名リクエストセットBの一部は、「www.a.com、www.b.com、www.e.com、www.d.com」である。
After matching the logs, one domain name request set in the DNS log is included as part of the domain name request set collected by the crawler, or if the two sets are the same, the DNS log indicates that the user has It is considered to indicate that you have clicked on the name (ie the domain name of the URL that the crawler requested when collecting). For example,
The URL collected by the crawler is www. a. com/doc/1234 (the URL is a click action of a certain user). All the collected domain name request sets A are “ www.a.com , www.b.com , www.c.com , www.d.com , www.e.com ”.
After splitting the DNS log, part of the domain name request set B is " www.a.com , www.b.com , www.e.com , www.d.com ".
上述のように、BセットがAセット内に含まれると、ドメイン名リクエストセットBは、ドメイン名セットAがマッピングしたwww.a.com/doc/1234というユーザーアクセス行為を反映しているとみなされる。このように、DNSログによりユーザーのインターネット閲覧行為に対する分析を実現することもできる。 As described above, when the B set is included in the A set, the domain name request set B is converted into the www. a. It is considered to reflect the user access behavior of com/doc/1234 . In this way, the DNS log can also realize the analysis of the user's Internet browsing activity.
以上の記載は本発明の好ましい実施例に過ぎず、本発明を限定するものではない。本発明の出願特許範囲内の内容に基づいて行われるいかなる同等変化や修飾は、いずれも本発明の技術的範囲内に属するべきである。 The above descriptions are merely preferred embodiments of the present invention, and do not limit the present invention. Any equivalent changes or modifications made based on the content within the patent scope of the present application should belong to the technical scope of the present invention.
Claims (6)
クローラーによりユーザーのサイトアクセス行為をシミュレートし、今回のHTTPリクエストにおける全てのDNSドメイン名リクエスト、すなわちキャプチャしたDNSドメイン名リクエストセットを取得するステップS1と、
DNSログを分割してn(nが1以上の整数である)個のドメイン名リクエストセットを取得するステップS2と、
ステップS1でキャプチャしたDNSドメイン名リクエストセット及びステップS2で分割したn個のドメイン名リクエストセットに対してセット同士とのマッチングを行い、DNSログから分割した1つのドメイン名リクエストセットが前記キャプチャしたDNSドメイン名リクエストセットに等しいか又は含まれれば、前記DNSログがユーザーが前記クローラーのキャプチャする時に要求したURLのドメイン名をクリックしたことを示すと考えられるステップS3とを含む、ことを特徴とするドメイン名とサイトアクセス行為との関連付け方法。 A method for associating a website name with a domain name executed by a computer program,
Step S1 of simulating a user's site access action by a crawler, and acquiring all DNS domain name requests in the HTTP request of this time, that is, the captured DNS domain name request set,
Step S 2 of dividing the DNS log to obtain n (n is an integer of 1 or more) domain name request sets,
The DNS domain name request set captured in step S1 and the n domain name request sets divided in step S2 are matched with each other, and one domain name request set divided from the DNS log is the captured DNS. If equal to or included in the domain name request set, the DNS log is considered to indicate that the user has clicked on the domain name of the URL requested at the time of the crawler capture, step S3. How to associate a domain name with a site access act.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610230263.0 | 2016-04-14 | ||
CN201610230263.0A CN105763633B (en) | 2016-04-14 | 2016-04-14 | A kind of correlating method of domain name and website visiting behavior |
PCT/CN2016/095670 WO2017177590A1 (en) | 2016-04-14 | 2016-08-17 | Method for associating domain name with website access behavior |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019514137A JP2019514137A (en) | 2019-05-30 |
JP6703621B2 true JP6703621B2 (en) | 2020-06-03 |
Family
ID=56333890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018554480A Active JP6703621B2 (en) | 2016-04-14 | 2016-08-17 | How to associate your domain name with website access |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP6703621B2 (en) |
CN (1) | CN105763633B (en) |
GB (1) | GB2567749A (en) |
RU (1) | RU2709647C9 (en) |
WO (1) | WO2017177590A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105763633B (en) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | A kind of correlating method of domain name and website visiting behavior |
CN111131370B (en) * | 2018-11-01 | 2022-09-27 | 百度在线网络技术(北京)有限公司 | Method, device and system for detecting whether service call is correct |
CN110798545B (en) * | 2019-11-05 | 2020-08-18 | 中国人民解放军国防科技大学 | Web-based domain name data acquisition method |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7734815B2 (en) * | 2006-09-18 | 2010-06-08 | Akamai Technologies, Inc. | Global load balancing across mirrored data centers |
CN101079064B (en) * | 2007-06-25 | 2011-11-30 | 腾讯科技(深圳)有限公司 | Web page sequencing method and device |
CN103389983B (en) * | 2012-05-08 | 2016-12-14 | 阿里巴巴集团控股有限公司 | A kind of capturing webpage contents method and device for network crawler system |
CN104065532B (en) * | 2014-06-26 | 2018-08-14 | 国家计算机网络与信息安全管理中心 | A kind of non-recorded website search method and system based on multichannel data access way |
CN105005600B (en) * | 2015-07-02 | 2017-05-24 | 焦点科技股份有限公司 | Preprocessing method of URL (Uniform Resource Locator) in access log |
CN105357054B (en) * | 2015-11-26 | 2019-01-29 | 上海晶赞科技发展有限公司 | Website traffic analysis method, device and electronic equipment |
CN105704260B (en) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | A kind of analysis method of internet traffic source whereabouts |
CN105763633B (en) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | A kind of correlating method of domain name and website visiting behavior |
-
2016
- 2016-04-14 CN CN201610230263.0A patent/CN105763633B/en active Active
- 2016-08-17 JP JP2018554480A patent/JP6703621B2/en active Active
- 2016-08-17 RU RU2018139988A patent/RU2709647C9/en active
- 2016-08-17 WO PCT/CN2016/095670 patent/WO2017177590A1/en active Application Filing
- 2016-08-17 GB GB1816195.0A patent/GB2567749A/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JP2019514137A (en) | 2019-05-30 |
WO2017177590A1 (en) | 2017-10-19 |
RU2709647C1 (en) | 2019-12-19 |
GB2567749A (en) | 2019-04-24 |
RU2709647C9 (en) | 2020-04-02 |
CN105763633B (en) | 2019-05-21 |
CN105763633A (en) | 2016-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Suneetha et al. | Identifying user behavior by analyzing web server access log file | |
JP4350744B2 (en) | Method and system for providing regional information search results | |
CN106095979B (en) | URL merging processing method and device | |
CN104601408B (en) | Website data statistics and analysis method and system for non-open network environment | |
JP7075348B2 (en) | How to analyze the source and destination of Internet traffic | |
CN104199848B (en) | The correlating method and device of user data under a kind of not same area | |
CN102594934A (en) | Method and device for identifying hijacked website | |
CN104038363A (en) | Method for acquiring and counting CCDN provider information | |
JP6703621B2 (en) | How to associate your domain name with website access | |
JP6520513B2 (en) | Question and Answer Information Providing System, Information Processing Device, and Program | |
Lakshmi et al. | An overview of preprocessing on web log data for web usage analysis | |
Hess | Discovering digital library user behavior with google analytics | |
JP2009181459A (en) | Access analyzing device and access analyzing method and access analyzing program | |
JP2008097259A (en) | Business support system and method using access analysis | |
JP2004110080A (en) | Computer network connection method on internet by real name, and computer network system | |
US10990607B1 (en) | Systems and methods for log aggregation | |
CN106126538B (en) | Page conversion processing method and device | |
JP2006209598A (en) | Site information collection system | |
Mowla et al. | Analysis of web server logs to understand internet user behaviour and develop digital marketing strategies | |
JP2014229042A (en) | User operation recording system, operation record collecting apparatus, user operation recording method, and program thereof | |
JP5851251B2 (en) | Communication packet storage device | |
JPH11306160A (en) | Service unit extraction method and device from service application history and recording medium recording extraction program | |
JP2006185279A (en) | Device and method for grasping accessing party | |
Dragos | Why integrated E-learning Analytics are the best solution? | |
Bakariya et al. | User behavior analysis from web log using log analyzer tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181011 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190827 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20191126 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6703621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |