JP5890301B2 - User behavior visualization information providing device and method, program, and access log analysis device - Google Patents

User behavior visualization information providing device and method, program, and access log analysis device Download PDF

Info

Publication number
JP5890301B2
JP5890301B2 JP2012272879A JP2012272879A JP5890301B2 JP 5890301 B2 JP5890301 B2 JP 5890301B2 JP 2012272879 A JP2012272879 A JP 2012272879A JP 2012272879 A JP2012272879 A JP 2012272879A JP 5890301 B2 JP5890301 B2 JP 5890301B2
Authority
JP
Japan
Prior art keywords
host
information
domain
path
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012272879A
Other languages
Japanese (ja)
Other versions
JP2014119838A (en
Inventor
高橋 大和
大和 高橋
裕介 市川
裕介 市川
内山 匡
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012272879A priority Critical patent/JP5890301B2/en
Publication of JP2014119838A publication Critical patent/JP2014119838A/en
Application granted granted Critical
Publication of JP5890301B2 publication Critical patent/JP5890301B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザ行動可視化情報付与装置及び方法及びプログラム及びアクセスログ分析装置に係り、特に、Web上の行動を記録したユーザ毎のアクセスログのURL(Uniform Resource Locator)からユーザがどのようなWebページを閲覧したかを分類し、ユーザの行動を把握するためのユーザ行動可視化情報付与装置及び方法及びプログラム及びアクセスログ分析装置に関する。   The present invention relates to a user behavior visualization information assigning device and method, a program, and an access log analysis device, and in particular, what kind of Web a user can access from a URL (Uniform Resource Locator) of an access log for each user that records behavior on the Web. The present invention relates to a user behavior visualization information adding device and method, a program, and an access log analysis device for classifying whether a page has been browsed and grasping a user's behavior.

登録済みのURLのみについての分類情報を提供する機能として、例えば、"ヤフー!カテゴリ検索(登録商標)"(非特許文献1参照)では、Webサイト内にどのような情報があるかを示すカテゴリ体系に沿ってURLを分類、整理して検索できるよう公開している。基本的には、カテゴリで検索を行い、そこに属するURLを取得することができる。   For example, in “Yahoo! Category Search (registered trademark)” (see Non-Patent Document 1) as a function for providing classification information for only registered URLs, a category indicating what information is present in the website We publish it so that URLs can be classified, organized and searched according to the system. Basically, you can search by category and get the URLs that belong to it.

また、ネットスター(登録商標)のカテゴリ登録確認(非特許文献2参照)も同様に、登録済みのURLに関してカテゴリを取得できる確認インターフェースを備える。   Similarly, Netstar (registered trademark) category registration confirmation (see Non-Patent Document 2) also includes a confirmation interface that can acquire a category for a registered URL.

Yahooカテゴリ http://dir.hahoo.co.jp/Yahoo category http://dir.hahoo.co.jp/ NetSTARのカテゴリ分類確認 http://category.netstar-inc.com/check/index.htmlNetSTAR category classification check http://category.netstar-inc.com/check/index.html

しかしながら、上記非特許文献1のカテゴリ検索を利用することで、逆に登録されているURLに関しては、属するカテゴリを取得することは可能であるが、未登録ホストに関するカテゴリは取得することができない、という問題がある。   However, by using the category search of Non-Patent Document 1, it is possible to acquire the category to which the URL is registered, but not the category related to the unregistered host. There is a problem.

また、非特許文献2は、例えば、http://www.itmedia.co.jp/news/(ITメディアニュース(登録商標))の情報は分類結果を取得できるが、http://www.itmedia.co.jp/(ITメディア(登録商標))に関する情報については分類結果を取得できない。   Non-Patent Document 2, for example, can obtain the classification result of information of http://www.itmedia.co.jp/news/ (IT Media News (registered trademark)), but http: //www.itmedia Classification results cannot be obtained for information on .co.jp / (IT media (registered trademark)).

上記のように、従来のポータルサイトでは、登録済みのURLについてのみしか分類情報が得られなかった。   As described above, in the conventional portal site, the classification information can be obtained only for the registered URL.

本発明は、上記の点に鑑みなされたもので、ユーザのアクセスログの登録されていないURLのみから、URLを分類するための手掛かりとなる情報を得ることが可能なユーザ行動可視化情報付与装置及び方法及びプログラム及びアクセスログ分析装置を提供することを目的とする。   The present invention has been made in view of the above points, and a user behavior visualization information providing device capable of obtaining information that is a clue for classifying URLs from only URLs that are not registered in a user's access log, and It is an object to provide a method, a program, and an access log analysis apparatus.

上記の課題を解決するため、本発明(請求項1)は、Web上の行動を記録したユーザ毎のアクセスログのURLからユーザの行動を把握するためのユーザ行動可視化情報付与装置であって、
前記アクセスログに付加するための、ドメイン名に対応するドメイン関連情報を対応付けたドメインデータと、ホスト名とホスト関連情報を対応付けたホストデータとを格納した付加情報記憶手段と、
入力されたアクセスログのURLを、スキーム、ドメイン名、ホスト名、パスに分割し、該パスのディレクトリ部分の有無を検査するURL分割手段と、
ドメイン名、ホスト名、パスの順に前記付加情報記憶手段のデータとのマッチングするマッチング規則に基づいて、前記URL分割手段で分割された前記スキーム、前記ドメイン名、前記ホスト名について該付加情報記憶手段を参照して、検索された付与情報をアクセスログと共に結果蓄積手段に出力する付与情報決定手段と、を有し、
前記付与情報決定手段は、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる、パス先頭の“/”に続く1文字を格納したパスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られ、前記パスに基づいて該ホストデータに含まれるパスが得られた場合には、該ドメイン付与情報と該パス−ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる前記パスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られ、前記パスに対応する該ホストデータに含まれるパスが得られない場合には、該ドメイン付与情報と該ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる前記パスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られない場合は、該ドメイン付与情報と該ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、該ドメイン名に基づいて前記ホストデータを参照してホスト付与情報が得られない場合で、前記ドメインデータに含まれる同じ役割を持つ複数のホストがある場合に、該ホストデータの、同じ付与情報を与えてもよい複数のホストを扱うためのルールである特別ホストルールに前記ホスト名がある場合は、該ホスト名に対応するホスト付与情報と、該ドメイン付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記特別ホストルールに前記ホスト名がない場合は、未知ホストドメイン付与情報を出力する手段と、
を含む
In order to solve the above problems, the present invention (Claim 1) is a user behavior visualization information providing device for grasping a user's behavior from a URL of an access log for each user that records the behavior on the Web,
Additional information storage means for storing domain data associated with domain-related information corresponding to a domain name and host data associated with a host name and host-related information for adding to the access log;
URL dividing means for dividing the URL of the input access log into a scheme, a domain name, a host name, and a path, and inspecting the presence or absence of the directory portion of the path;
The additional information storage means for the scheme, the domain name, and the host name divided by the URL division means based on matching rules that match the data of the additional information storage means in the order of domain name, host name, and path see, I have a, and giving information determining means for outputting the result storage means together with the access logs searched issuance information,
The given information determining means includes
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path By referring to the path match list storing one character following the “/” at the head of the path included in the host data, a pair of a corresponding path list and host assignment information is obtained, and the host is based on the path. Means for outputting the domain assignment information and the path-host assignment information when a path included in the data is obtained;
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path When the path match list included in the host data is referred to, a pair of a corresponding path list and host assignment information is obtained, and when a path included in the host data corresponding to the path is not obtained, Means for outputting the domain grant information and the host grant information;
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path The path match list included in the host data is referred to, and when a pair of a corresponding path list and host assignment information is not obtained, means for outputting the domain assignment information and the host assignment information;
Domain grant information is obtained by referring to the domain data of the additional information storage means based on the domain name, and host grant information cannot be obtained by referring to the host data based on the domain name, When there are a plurality of hosts having the same role included in the domain data and the host name is in a special host rule that is a rule for handling a plurality of hosts that may be given the same grant information of the host data Includes host grant information corresponding to the host name, means for outputting the domain grant information,
Domain grant information is obtained by referring to the domain data of the additional information storage means based on the domain name, and when there is no host name in the special host rule, means for outputting unknown host domain grant information;
Including

また、本発明(請求項)は、 Web上の行動を記録したユーザ毎のアクセスログのURLからユーザの行動を把握するためのユーザ行動可視化情報付与装置であって、
前記アクセスログに付加するための、ドメイン名に対応するドメイン関連情報を対応付けたドメインデータと、ホスト名とホスト関連情報を対応付けたホストデータとを格納した付加情報記憶手段と、
入力されたアクセスログのURLを、スキーム、ドメイン名、ホスト名、パスに分割し、該パスのディレクトリ部分の有無を検査するURL分割手段と、
ドメイン名、ホスト名、パスの順に前記付加情報記憶手段のデータとのマッチングするマッチング規則に基づいて、前記URL分割手段で分割された前記スキーム、前記ドメイン名、前記ホスト名について該付加情報記憶手段を参照して、検索された付与情報をアクセスログと共に結果蓄積手段に出力する付与情報決定手段と、
を有し、
前記付与情報決定手段は、
前記URL分割手段で前記パスに前記ディレクトリ部分がある場合は、パス先頭の“/”に続く1文字がパスマッチリスト含まれているかを判定し、含まれていない場合はURLにドメイン付与情報とホスト付与情報を付与し、必要に応じて任意の追加処理を行い、該パスに該ディレクトリ部分がない場合は該パスマッチリストとの照合は行わず、必要に応じて任意の追加処理を行う手段を含む。
Further, the present invention (Claim 2 ) is a user behavior visualization information providing device for grasping a user's behavior from a URL of an access log for each user that records the behavior on the Web,
Additional information storage means for storing domain data associated with domain-related information corresponding to a domain name and host data associated with a host name and host-related information for adding to the access log;
URL dividing means for dividing the URL of the input access log into a scheme, a domain name, a host name, and a path, and inspecting the presence or absence of the directory portion of the path;
The additional information storage means for the scheme, the domain name, and the host name divided by the URL division means based on matching rules that match the data of the additional information storage means in the order of domain name, host name, and path The attached information determining means for outputting the searched assigned information together with the access log to the result accumulating means,
Have
The given information determining means includes
When the URL division means includes the directory part in the path, it is determined whether one character following the leading “/” is included in the path match list. And host addition information are added, and arbitrary addition processing is performed as necessary. If the directory portion is not included in the path, matching with the path match list is not performed, and arbitrary addition processing is performed as necessary. Including means.

本発明によれば、予めマッチング規則と、規則にマッチした場合の付与情報を対応させて作成しておくことにより、URLのみから、URLを分類するための手掛かりとなる情報を得ることができる。ユーザのアクセスログに含まれるURLにこの技術を適用することで、ユーザの行動把握に利用することが可能となる。   According to the present invention, information that is a clue for classifying URLs can be obtained from URLs alone by previously creating matching rules and information to be assigned when the rules are matched. By applying this technology to the URL included in the user's access log, it can be used for grasping the user's behavior.

本発明の第1の実施の形態におけるユーザ行動可視化情報付与装置の構成図である。It is a block diagram of the user action visualization information provision apparatus in the 1st Embodiment of this invention. 本発明の第1の実施の形態におけるアクセスログ蓄積装置のアクセスログの例である。It is an example of the access log of the access log storage device in the first exemplary embodiment of the present invention. 本発明の第1の実施の形態における付与情報DBのデータ例である。It is an example of data of grant information DB in a 1st embodiment of the present invention. 本発明の第1の実施の形態におけるアクセスログのURLの構成例である。It is a structural example of URL of the access log in the 1st Embodiment of this invention. 本発明の第1の実施の形態における付与情報決定部のフローチャートである。It is a flowchart of the provision information determination part in the 1st Embodiment of this invention. 本発明の第1の実施の形態における出力データの例である。It is an example of the output data in the 1st Embodiment of this invention. 本発明の第2の実施の形態におけるアクセス分析装置の構成図である。It is a block diagram of the access analysis apparatus in the 2nd Embodiment of this invention.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

Web上では、新規のホストが日々出現しているため、未登録ホストである場合、正しいカテゴリを取得することはできない。しかし、ユーザ行動把握の観点からは、正しいカテゴリではなくとも、あるWebサービスの一部である、ということが示されるだけでも有用である。例えば、Webサービスの一つであるYahoo!オークション(登録商標)は、http://auctions.yahoo.co.jp/をサービストップとして、多数のホストから成り立っている。これらのホスト名すべてを正確に知ることは難しいが、"XXX.auctions.yahoo.co.jp"であれば、Yahoo!オークション(登録商標)の一部であろう、という推測は可能であり、Yahoo!オークション(登録商標)の一部であることを示されることは、どういったWebサービスを利用したのかの把握をしやすくなる。   Since new hosts appear on the Web every day, the correct category cannot be acquired if the host is an unregistered host. However, from the point of view of user behavior, it is useful to show that it is a part of a certain Web service, even if it is not the correct category. For example, Yahoo! Auction (registered trademark), one of Web services, is made up of a number of hosts with http://auctions.yahoo.co.jp/ as the service top. Although it is difficult to know all these host names accurately, it is possible to guess that "XXX.auctions.yahoo.co.jp" will be part of Yahoo! Auction (registered trademark), Being shown to be part of Yahoo! Auction (registered trademark) makes it easier to understand what kind of Web service you used.

このように、未登録のホストであっても、ホストの一部のあるレベルまでのドメインであれば何かしらの付与情報を提示することができる場合が多い。例えば、ヤフー(登録商標)(yahoo.co.jp)で新規のサービスを行うホストが追加された場合(例:newservice.yahoo.co.jpが新規に稼動)でも、yahoo.co.jpドメインに属しているから「ヤフー(登録商標)の一部」であることを示すだけでも有用である。   As described above, even if the host is not registered, it is often possible to present some additional information as long as the host is a domain up to a certain level. For example, even if a host that provides a new service in Yahoo (registered trademark) (yahoo.co.jp) is added (eg, newservice.yahoo.co.jp is newly operating), it will be added to the yahoo.co.jp domain. It is also useful to simply indicate that it is a “part of Yahoo (registered trademark)” because it belongs.

また、ブログサイトでは、ホスト毎にブログユーザが割り当てられるものも多い。例えば、So-net(登録商標)ブログ(http://blog.so-net.ne.jp/)は、ユーザ毎にホストを割り当てる(例:http://amanosworld.blog.so-net.ne.jp/)場合も、ドメイン(blog.so-net.ne.jp)でブログサイトという付加情報を示すだけでも有用と考えられる。   In many blog sites, a blog user is assigned to each host. For example, a So-net (registered trademark) blog (http://blog.so-net.ne.jp/) allocates a host for each user (eg, http://amanosworld.blog.so-net.ne). In the case of .jp /), it may be useful to just show additional information called a blog site in the domain (blog.so-net.ne.jp).

図1は、本発明の一実施の形態におけるユーザ行動可視化情報付与装置の構成を示す。   FIG. 1 shows a configuration of a user behavior visualization information providing device according to an embodiment of the present invention.

同図に示すユーザ行動可視化情報付与装置10は、URL分割処理部11、付与情報決定部12、付与情報DB13を有し、URL分割処理部11は、アクセスログ蓄積装置1に、付与情報決定部12は結果蓄積装置2に接続されている。URL分割処理部11は、アクセスログ蓄積装置1からアクセスログを取得し、当該アクセスログからURLを分割し、スキーム、ドメイン名、ホスト名、パスを抽出し、ディレクトリ部分の有無を検査して付与情報決定部12に出力する。付与情報決定部12は、ドメイン名に基づいて付与情報DB13を検索し、付与情報を取得して、アクセスログと付与情報を結果蓄積装置2に出力する。   The user action visualization information adding device 10 shown in FIG. 1 includes a URL division processing unit 11, a grant information determining unit 12, and a grant information DB 13. The URL split processing unit 11 is added to the access log storage device 1 and a grant information determining unit. Reference numeral 12 is connected to the result storage device 2. The URL division processing unit 11 acquires an access log from the access log storage device 1, divides a URL from the access log, extracts a scheme, a domain name, a host name, and a path, and inspects and adds a directory portion. It outputs to the information determination part 12. The grant information determination unit 12 searches the grant information DB 13 based on the domain name, acquires the grant information, and outputs the access log and the grant information to the result storage device 2.

アクセスログ蓄積装置1の例を図2に示す。アクセスログは、ユーザID毎に、アクセス時刻とアクセスしたURLを保持する。   An example of the access log storage device 1 is shown in FIG. The access log holds the access time and the accessed URL for each user ID.

付与情報DB13は、図3に示すように、ドメインデータとホストのデータからなる。
ドメインのデータは、同図(a)に示すように、ドメイン名、ドメイン関連情報を有する。ドメイン関連情報としては、スキーム、ドメイン付与情報、特別ホストルール、ホスト付与情報を含む。ホストデータは、同図(b)に示すように、ホスト名とホスト関連情報を有し、ホスト関連情報は、スキーム、ホスト付与情報、パスマッチリスト、パスリスト、ホスト付与情報(パス)を含む。
As shown in FIG. 3, the assignment information DB 13 includes domain data and host data.
The domain data has a domain name and domain related information as shown in FIG. The domain related information includes a scheme, domain assignment information, special host rules, and host assignment information. As shown in FIG. 4B, the host data has a host name and host-related information, and the host-related information includes a scheme, a host assignment information, a path match list, a path list, and host assignment information (path). .

URL分割処理部11は、アクセスログを取得し、URLからスキーム、ドメイン名、ホスト名、パスを抽出し、パス部分にディレクトリがあるかを検査する。アクセスログのURLの例を図4に示す。本実施の形態では、プロトコルを識別するスキーム、WebサーバやWebアプリケーションを実行するマシンを識別するホスト部、ドメイン名、Webサーバ、アプリケーション内でのメッセージの送り先を識別するパス情報を抽出するものとする。   The URL division processing unit 11 acquires an access log, extracts a scheme, a domain name, a host name, and a path from the URL, and checks whether there is a directory in the path part. An example of the URL of the access log is shown in FIG. In this embodiment, a scheme for identifying a protocol, a host part for identifying a machine executing a Web server or a Web application, a domain name, a Web server, and path information for identifying a message destination in the application are extracted. To do.

付与情報決定部12は、ドメイン名を生成し、付与情報を決定する。ドメイン名は、URLのホスト名から2nd、もしくは3rdレベルまで利用して生成する。日本では、co,ne, go,ed, ad,ac,or,gr,lgが2ndレベル予約ドメインとなっており、これらの場合は、3rdレベルドメインまでで、ドメイン名として扱う。   The assignment information determination unit 12 generates a domain name and determines the assignment information. The domain name is generated from the host name of the URL up to the 2nd or 3rd level. In Japan, co, ne, go, ed, ad, ac, or, gr, and lg are 2nd level reserved domains. In these cases, domain names up to the 3rd level domain are handled.

付与情報決定部12において取り扱うスキームは任意であるが、必ず何らかのスキームとドメイン付与情報は記載するものとする。付与情報決定部12では、ドメイン名とスキームが決まれば、URLに付与すべきドメイン付与情報が決定できる。   The scheme handled by the grant information determination unit 12 is arbitrary, but some scheme and domain grant information must be described. The assignment information determination unit 12 can determine the domain assignment information to be assigned to the URL when the domain name and the scheme are determined.

付与情報DB13の特別ホストルールは、同じ役割を持つ複数のホストがある場合に、それぞれのホスト名一つ一つのエントリを用意するよりも、正規表現などを使って簡潔に表現することで、同じ付与情報を与えてもよい複数のホストを扱うためのルールである。例えば、blog…は、"blog000"や"blog111"といったホストにマッチして、メールというホスト付与情報をURLに付与することになる。   The special host rule of the assignment information DB 13 is the same by using a regular expression or the like to express concisely rather than preparing an entry for each host name when there are multiple hosts having the same role. This is a rule for handling a plurality of hosts that may be given assignment information. For example, blog ... matches hosts such as “blog000” and “blog111” and adds host assignment information called mail to the URL.

ホスト名とスキームが決まれば、URLに付与すべきホスト付与情報が決定できる。但し、ホストによっては、パスによってサービスが変わることがあるため、そういったパスは、ホストのデータ(図3(b))のパスリストとして扱う。パスリストに纏めるパスの数は、ホストによってはかなり大量になる場合が考えられる。パスは、パスの文字数分合っているかを検査しなければならないため、数が多い場合は検査に時間がかかることになる。また、パスは、"/"を区切りとして複数の単語から構成されるため、URLのパス部分をもとに単語の組み合わせで検索を行おうとすると、パスのインデックスが複雑になる。そのため、ホストデータに含まれるパスリストを基に、URLのパス部分の先頭からパス文字列が全て合っているかどうかで判断する方が効率的である。さらに、余計なパスの検査を省くために、結果パスリストのパス先頭の"/"に続く1文字をまとめ、パスマッチリストとして付与情報DB13のホストのデータ(図3(b))に格納する。これにより、1文字を検査するだけで、パスリストでの検査を要/不要を判定できる。   Once the host name and scheme are determined, the host assignment information to be assigned to the URL can be determined. However, depending on the host, the service may change depending on the path. Therefore, such a path is handled as a path list of host data (FIG. 3B). The number of paths collected in the path list may be quite large depending on the host. Since it is necessary to inspect whether the number of paths matches the number of characters in the path, if the number is large, the inspection takes time. In addition, since the path is composed of a plurality of words with “/” as a delimiter, if a search is performed using a combination of words based on the path portion of the URL, the path index becomes complicated. For this reason, it is more efficient to determine whether or not all the path character strings match from the beginning of the path portion of the URL based on the path list included in the host data. Furthermore, in order to eliminate unnecessary path inspections, one character following the “/” at the head of the path in the result path list is collected and stored as path match list in the host data (FIG. 3B) of the assignment information DB 13. . As a result, it is possible to determine whether or not the inspection in the path list is necessary or not only by inspecting one character.

例えば、あるURL(http://www.aaa.co.jp/articles/20120101.html)に対して、パス部分(/articles/20120101.html)の先頭の/に続く1文字"a"は、このパスリスト(nmb)には含まれていないので、ホスト付与情報としては、「ポータル」が与えられる。   For example, for a URL (http://www.aaa.co.jp/articles/20120101.html), the single character "a" following the first / in the path part (/articles/20120101.html) Since it is not included in this path list (nmb), “portal” is given as the host assignment information.

また、あるURL(http://www.aaa.co.jp/news/20120101.html)に対して、パス部分(/news/20120101.html)のパス先頭の/に続く"n"は、このパスリスト(nmb)には含まれているので、続いて、パスリストのパス(/news/)がURLのパス部分に全部含まれているかを検査する。この場合は含まれているので、ホスト付与情報としては、「ニュース」が与えられる。   Also, for a URL (http://www.aaa.co.jp/news/20120101.html), the "n" following the / at the beginning of the path part (/news/20120101.html) Since it is included in the path list (nmb), it is subsequently checked whether all the paths (/ news /) in the path list are included in the path portion of the URL. Since this case is included, “news” is given as the host assignment information.

また、URLには、検索クエリやブログユーザ名が含まれていることもあるため、こういった情報をURLから抽出したい場合、その制御として、ホスト付与情報に特定のキーワードを記述する機構を追加してもよい。   Also, since URLs may contain search queries and blog user names, if you want to extract this information from the URL, add a mechanism to describe specific keywords in the host assignment information as a control. May be.

図4は、本発明の一実施の形態における付与情報決定部のフローチャートである。   FIG. 4 is a flowchart of the assignment information determination unit in the embodiment of the present invention.

付与情報決定部12は、URL分割処理部11から取得したURLから2nd、もしくは、3rdまでを使ってドメイン名を生成する(ステップ1)。   The assignment information determination unit 12 generates a domain name using 2nd or 3rd from the URL acquired from the URL division processing unit 11 (step 1).

以下の処理は、ドメイン名、ホスト名、パスの順に付与情報DB13とマッチングする。   The following processing matches the assignment information DB 13 in the order of domain name, host name, and path.

付与情報DB13のドメインデータを参照し、ステップ1で生成したドメイン名が登録されているかを判定する(ステップ2)。ない場合は、未知ドメインとして出力し、当該処理を終了する(ステップ3)。ドメイン名がある場合は、取得したドメイン関連情報を基に、スキームに応じたドメイン付与情報をURLに付与する。もし、ドメインデータの関連情報に該当スキームがない場合でも、必ず何らかのスキームとドメイン付与情報があるので、URLに付与して、補完した旨と共に出力結果とする。   It is determined whether or not the domain name generated in Step 1 is registered by referring to the domain data in the assignment information DB 13 (Step 2). If not, it is output as an unknown domain and the process is terminated (step 3). If there is a domain name, the domain assignment information corresponding to the scheme is assigned to the URL based on the acquired domain related information. Even if there is no corresponding scheme in the domain data related information, there is always some scheme and domain assignment information.

URL分割処理部11から取得したホスト名に基づいて、付与情報DB13のホストデータを参照し、ホスト名を検索する(ステップ4)。ホスト名がなかった場合はステップ4、無)、ホストデータの特別ホストルールに適合するかを検査する(ステップ5)。特別ホストルールと適合した場合には、URLにホスト付加情報を付加して出力する。適合しなかった場合は(ステップ5,無)、ドメイン付与情報のみを出力する(ステップ6)。   Based on the host name acquired from the URL division processing unit 11, the host name is searched by referring to the host data in the assignment information DB 13 (step 4). If there is no host name, step 4 (No) is performed, and it is checked whether the host data conforms to the special host rule (step 5). If it matches the special host rule, the host additional information is added to the URL and output. If it does not match (step 5, no), only the domain assignment information is output (step 6).

ステップ4において、ホスト名がホスト名データにあり、それに加えてパス部分にディレクトリがあった場合は、パス部分先頭の"/"に続く1文字がホストデータのパスマッチリストに含まれているかどうか検査し(ステップ7)、パスマッチリストに含まれていない場合は、URLにドメイン付与情報とホスト付与情報を付与し(ステップ8)、付与情報の内容によっては、追加処理を行って出力する。パス部分にディレクトリが無かった場合は、パスマッチリストとの照合は必要はないが、付与情報の内容によっては、追加処理を行って、その結果を出力する。
追加処理の一例としては、検索キーワードの抽出が挙げられる。追加処理としての、検索キーワードの抽出ルールは、例えば、search.cgi?query=%00%11から、%00%11を抽出して、可能なら入力された検索キーワードまで復号して示す等の方法がある。
In step 4, if the host name is in the host name data and there is a directory in the path part, whether or not one character following the "/" at the beginning of the path part is included in the host data path match list If it is not included in the path match list (step 7), domain assignment information and host assignment information are attached to the URL (step 8), and depending on the content of the assignment information, additional processing is performed and output. If there is no directory in the path part, it is not necessary to collate with the path match list, but depending on the content of the assignment information, additional processing is performed and the result is output.
An example of the additional processing is extraction of a search keyword. As an additional processing, the search keyword extraction rule is, for example, a method of extracting% 00% 11 from search.cgi? Query =% 00% 11 and decrypting the input search keyword if possible There is.

ステップ7でパスマッチリストのパスにマッチした場合、パスリストにあるパスを順に、URLのパス部分に含まれているかを検査し(ステップ9)、含まれているものがあれば(ステップ9、有り)、ホスト付与情報(パス)をURLに付与し、付与情報の内容によっては、追加処理を行って出力する。ない場合は(ステップ9、無)、ドメイン付与情報とホスト付与情報のみを付与し、出力する(ステップ10)。パスリストの判定の際には、パスリストの先頭の"/"に続く1文字のみをチェックするものとする。   If the path matches the path in the path match list in step 7, it is checked whether the paths in the path list are sequentially included in the path portion of the URL (step 9), and if they are included (step 9, Yes), host assignment information (path) is assigned to the URL, and depending on the content of the assignment information, additional processing is performed and output. If not (step 9, no), only domain assignment information and host assignment information are assigned and output (step 10). When determining the path list, only one character following the leading “/” in the path list is checked.

上記のステップ5において、ホストデータの特別ホストルールに合致するホスト名があり、かつ、追加処理が必要である場合は(ステップ11、有り)、ドメイン付与情報とホスト付与情報、追加処理情報を出力する(ステップ12)。追加処理が不要である場合は(ステップ11、無)、ドメイン付与情報とホスト付与情報を出力する(ステップ13)。   In step 5 above, if there is a host name that matches the special host rule of the host data and additional processing is required (step 11 is present), domain assignment information, host assignment information, and additional processing information are output. (Step 12). When the additional processing is not required (step 11, no), the domain assignment information and the host assignment information are output (step 13).

上記のステップ9において、パスリストに該当するパスがある場合で、かつ、追加処理が必要な場合は(ステップ14、有り)、例えば、上記のような検索キーワード抽出ルールより、検索キーワードを抽出し(ステップ16)。追加処理が不要な場合は(ステップ14、無)、ドメイン付与情報とホスト付与情報(パス)を出力する(ステップ15)。   If there is a path corresponding to the path list in the above step 9 and additional processing is necessary (step 14 is present), for example, the search keyword is extracted from the search keyword extraction rule as described above. (Step 16). If additional processing is not required (step 14, no), domain assignment information and host assignment information (path) are output (step 15).

上記の処理により出力されるデータの例を図5に示す。同図に示すように、URL、ドメイン付与情報、ホスト付与情報が結果蓄積装置2に出力される。   An example of data output by the above processing is shown in FIG. As shown in the figure, the URL, domain assignment information, and host assignment information are output to the result storage device 2.

上記の処理により、対象とするアクセスログのURLに対して、ドメイン付与情報とホスト付与情報を与えることが可能となる。   With the above processing, it is possible to give domain assignment information and host assignment information to the URL of the target access log.

[第2の実施の形態]
本実施の形態では、第1の実施の形態におけるユーザ行動可視化情報付与装置の機能に、集計機能を付加し、アクセスログの分析を行うためのアクセスログ分析装置について説明する。アクセスログ分析装置は、ドメイン付与情報にWebサイトの名称だけではなく、その運用元や関連情報も保持しておき、当該運用元での集計や関連情報による集計を可能にするものである。
[Second Embodiment]
In the present embodiment, an access log analyzing apparatus for adding an aggregation function to the function of the user behavior visualization information providing apparatus in the first embodiment and analyzing an access log will be described. The access log analysis apparatus retains not only the name of the Web site but also the operation source and related information in the domain assignment information, and enables the aggregation at the operation source and the aggregation based on the related information.

図6は、本発明の第2の実施の形態におけるアクセスログ分析装置の構成を示す。   FIG. 6 shows the configuration of the access log analysis apparatus according to the second embodiment of the present invention.

同図に示すアクセスログ分析装置20は、付与情報展開部21、展開付与情報記憶部22、付与情報集約部23を有し、付与情報展開部21は、第1の実施の形態でアクセスログと付与情報が格納された結果蓄積装置2に接続され、付与情報集約部23は集約結果蓄積装置3に接続されている。なお、同図に示すアクセスログ分析装置20は、図1に示すユーザ行動可視化情報付与装置10とは独立した構成としているが、この例に限定されることなく、図1のユーザ行動可視化情報付与装置10を含む構成としてもよい。   The access log analysis apparatus 20 shown in the figure has a provision information development unit 21, a development provision information storage unit 22, and a provision information aggregation unit 23. The provision information development unit 21 is an access log in the first embodiment. The assignment information is stored in the result storage device 2 in which the assignment information is stored, and the assignment information aggregating unit 23 is connected to the aggregation result storage device 3. The access log analysis device 20 shown in the figure has a configuration independent of the user behavior visualization information adding device 10 shown in FIG. 1, but is not limited to this example, and the user behavior visualization information grant shown in FIG. 1 is provided. A configuration including the device 10 may be adopted.

付与情報展開部21は、ドメイン付与情報やホスト付与情報に対するブランド等の追加情報を、ドメイン付与情報のラベル名に対応付けた関連情報や、辞書やルールといった形式で格納するメモリ211を有し、結果蓄積装置2から、アクセスログ(URL)と付与情報(ドメイン付与情報、ホスト付与情報)を読み込み、アクセスログからユーザ情報とURLを抽出し、メモリ211を参照してドメイン付与情報、もしくはホスト付与情報に対する追加情報を取得、または、生成し、付与情報と共に、展開付与情報記憶部22に格納する。   The assignment information development unit 21 includes a memory 211 that stores additional information such as a brand for domain assignment information and host assignment information in the form of related information associated with the label name of the domain assignment information, a dictionary, a rule, Read the access log (URL) and grant information (domain grant information, host grant information) from the result storage device 2, extract user information and URL from the access log, and refer to the memory 211 to give the domain grant information or host grant Additional information with respect to the information is acquired or generated, and stored in the development and grant information storage unit 22 together with the grant information.

ドメイン付与情報は、主には、Webサービス名(例:Yahoo!(登録商標)や楽天市場(登録商標)など)を記述することにより、どういったサイトにアクセスしたかが分かり易くなる。これに加えて、上記のように追加情報を加えて展開付与情報記憶部22に格納することにより、付与情報集約部23において、その運用会社名に基づいて集計することで、URLだけでは集計できない事象を可視化することができる。例えば、楽天市場(登録商標)の関連サイトとして、サイトa、サイトb、サイトcがあった場合に、ユーザ毎に、各サイトに何回アクセスしたかを集計することが可能となる。   The domain assignment information is mainly described by describing a Web service name (for example, Yahoo! (registered trademark), Rakuten Ichiba (registered trademark), etc.), which makes it easy to understand what site is accessed. In addition to this, by adding additional information as described above and storing it in the development grant information storage unit 22, the grant information aggregating unit 23 tabulates based on the operating company name, and thus cannot be tabulated only by the URL. Events can be visualized. For example, when there are a site a, a site b, and a site c as sites related to Rakuten Ichiba (registered trademark), it is possible to count how many times each site has been accessed for each user.

付与情報展開部21で追加する追加情報について説明する。   The additional information added by the assignment information expansion unit 21 will be described.

例えば、化粧品を扱う会社は様々なブランド名を持ち、ブランド名による公式サイトを運営している。これらのブランドサイトがどの会社が母体であるかについては、人手や機械的な推定処理などで関係性を作成しておき、付与情報展開部21内のメモリ211に格納しておく。例えば、SK-II(登録商標)(www.sk-ii.jp)はP&G(登録商標)が母体であり、P&G(登録商標)は他にも、アリエール(登録商標)(http://myrepi.com/ariel/)やファブリーズ(登録商標)(http://www.febreze.jp/)といった、URLだけでは推定できない関係性を追加情報として付与情報に付与して展開付与情報記憶部22に格納する。   For example, a company that handles cosmetics has various brand names and operates an official website under the brand name. As to which company of these brand sites is the parent company, a relationship is created by manual or mechanical estimation processing and stored in the memory 211 in the assignment information development unit 21. For example, SK-II (registered trademark) (www.sk-ii.jp) is based on P & G (registered trademark), and P & G (registered trademark) is also Arière (registered trademark) (http: // myrepi .com / ariel /) and Fabrys (registered trademark) (http://www.febreze.jp/), a relationship that cannot be estimated by the URL alone is added to the grant information as additional information and stored in the deployment grant information storage unit 22. Store.

これにより、付与情報集約部23では、展開付与情報記憶部22に格納された情報を活用することで、特定メーカの複数ブランドへのアクセスの集計が可能となる。   Thereby, the grant information aggregating unit 23 can collect access to a plurality of brands of a specific manufacturer by using the information stored in the development grant information storage unit 22.

また、ホスト付与情報は、付与情報展開部21において、後ほど付与情報集約部23での集計を意識してラベルを付与し、展開付与情報記憶部22に格納する。   In addition, in the grant information development unit 21, a label is given to the host grant information in consideration of the aggregation in the grant information aggregating unit 23 later, and is stored in the deployment grant information storage unit 22.

付与情報集約部23は、展開付与情報記憶部22のホスト情報とラベルを用いて、同一ラベルに属する異なるドメイン、いわば競合サービスへのアクセスを把握することができる。   The grant information aggregating unit 23 can grasp access to different domains belonging to the same label, that is, a competing service, using the host information and the label of the development grant information storage unit 22.

例えば、"www.Yahoo.co.jp"やwww.goo.ne.jpに「ポータル」といったラベルを付与することで、アクセスしたサービスを認識し易くすると共に、「ポータル」で集計することで競合サービスとの使い分けなどが分かる。   For example, by adding a label such as “Portal” to “www.Yahoo.co.jp” or www.goo.ne.jp, it is easy to recognize the accessed services, and competing by counting with “Portal” You can see how to use the service.

付与情報集約部23は、種々の集計が可能であるが、例えば、ユーザ毎のドメイン付与情報利用率、ホスト付与情報のラベルごとのユーザ数等を集約結果蓄積装置3に出力する。   The grant information aggregating unit 23 can perform various tabulations, and outputs, for example, the domain grant information usage rate for each user, the number of users for each label of the host grant information, and the like to the aggregation result storage device 3.

なお、本発明は、図1に示すユーザ行動可視化情報付与装置、及び図7のアクセス分析装置の構成要素の動作をプログラムとして構築し、ユーザ行動可視化情報付与装置やアクセス分析装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   The present invention constructs the operations of the constituent elements of the user behavior visualization information providing device shown in FIG. 1 and the access analysis device shown in FIG. 7 as a program, and is used as the user behavior visualization information provision device and the access analysis device. It can be installed and executed on the network, or distributed via a network.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.

1 アクセスログ蓄積装置
2 結果蓄積装置
3 展開付与情報記憶部
10 ユーザ行動可視化情報付与装置
11 URL分割処理部
12 付与情報決定部
13 付与情報DB
20 アクセス分析装置
21 付与情報展開部
22 展開付与情報記憶部
23 付与情報集約部
211 メモリ
DESCRIPTION OF SYMBOLS 1 Access log storage device 2 Result storage device 3 Expansion provision information storage part 10 User action visualization information provision apparatus 11 URL division | segmentation process part 12 Assignment information determination part 13 Assignment information DB
20 Access Analysis Device 21 Granted Information Expanding Unit 22 Expanded Granted Information Storage Unit 23 Granted Information Aggregating Unit 211 Memory

Claims (7)

Web上の行動を記録したユーザ毎のアクセスログのURLからユーザの行動を把握するためのユーザ行動可視化情報付与装置であって、
前記アクセスログに付加するための、ドメイン名に対応するドメイン関連情報を対応付けたドメインデータと、ホスト名とホスト関連情報を対応付けたホストデータとを格納した付加情報記憶手段と、
入力されたアクセスログのURLを、スキーム、ドメイン名、ホスト名、パスに分割し、該パスのディレクトリ部分の有無を検査するURL分割手段と、
ドメイン名、ホスト名、パスの順に前記付加情報記憶手段のデータとのマッチングするマッチング規則に基づいて、前記URL分割手段で分割された前記スキーム、前記ドメイン名、前記ホスト名について該付加情報記憶手段を参照して、検索された付与情報をアクセスログと共に結果蓄積手段に出力する付与情報決定手段と、
を有し、
前記付与情報決定手段は、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる、パス先頭の“/”に続く1文字を格納したパスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られ、前記パスに基づいて該ホストデータに含まれるパスが得られた場合には、該ドメイン付与情報と該パス−ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる前記パスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られ、前記パスに対応する該ホストデータに含まれるパスが得られない場合には、該ドメイン付与情報と該ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる前記パスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られない場合は、該ドメイン付与情報と該ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、該ドメイン名に基づいて前記ホストデータを参照してホスト付与情報が得られない場合で、前記ドメインデータに含まれる同じ役割を持つ複数のホストがある場合に、該ホストデータの、同じ付与情報を与えてもよい複数のホストを扱うためのルールである特別ホストルールに前記ホスト名がある場合は、該ホスト名に対応するホスト付与情報と、該ドメイン付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記特別ホストルールに前記ホスト名がない場合は、未知ホストドメイン付与情報を出力する手段と、
を含むことを特徴とするユーザ行動可視化情報付与装置。
A user behavior visualization information providing device for grasping a user's behavior from a URL of an access log for each user that records the behavior on the web,
Additional information storage means for storing domain data associated with domain-related information corresponding to a domain name and host data associated with a host name and host-related information for adding to the access log;
URL dividing means for dividing the URL of the input access log into a scheme, a domain name, a host name, and a path, and inspecting the presence or absence of the directory portion of the path;
The additional information storage means for the scheme, the domain name, and the host name divided by the URL division means based on matching rules that match the data of the additional information storage means in the order of domain name, host name, and path The attached information determining means for outputting the searched assigned information together with the access log to the result accumulating means,
I have a,
The given information determining means includes
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path By referring to the path match list storing one character following the “/” at the head of the path included in the host data, a pair of a corresponding path list and host assignment information is obtained, and the host is based on the path. Means for outputting the domain assignment information and the path-host assignment information when a path included in the data is obtained;
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path When the path match list included in the host data is referred to, a pair of a corresponding path list and host assignment information is obtained, and when a path included in the host data corresponding to the path is not obtained, Means for outputting the domain grant information and the host grant information;
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path The path match list included in the host data is referred to, and when a pair of a corresponding path list and host assignment information is not obtained, means for outputting the domain assignment information and the host assignment information;
Domain grant information is obtained by referring to the domain data of the additional information storage means based on the domain name, and host grant information cannot be obtained by referring to the host data based on the domain name, When there are a plurality of hosts having the same role included in the domain data and the host name is in a special host rule that is a rule for handling a plurality of hosts that may be given the same grant information of the host data Includes host grant information corresponding to the host name, means for outputting the domain grant information,
Domain grant information is obtained by referring to the domain data of the additional information storage means based on the domain name, and when there is no host name in the special host rule, means for outputting unknown host domain grant information;
The user action visualization information provision apparatus characterized by including .
Web上の行動を記録したユーザ毎のアクセスログのURLからユーザの行動を把握するためのユーザ行動可視化情報付与装置であって、
前記アクセスログに付加するための、ドメイン名に対応するドメイン関連情報を対応付けたドメインデータと、ホスト名とホスト関連情報を対応付けたホストデータとを格納した付加情報記憶手段と、
入力されたアクセスログのURLを、スキーム、ドメイン名、ホスト名、パスに分割し、該パスのディレクトリ部分の有無を検査するURL分割手段と、
ドメイン名、ホスト名、パスの順に前記付加情報記憶手段のデータとのマッチングするマッチング規則に基づいて、前記URL分割手段で分割された前記スキーム、前記ドメイン名、前記ホスト名について該付加情報記憶手段を参照して、検索された付与情報をアクセスログと共に結果蓄積手段に出力する付与情報決定手段と、
を有し、
前記付与情報決定手段は、
前記URL分割手段で前記パスに前記ディレクトリ部分がある場合は、パス先頭の“/”に続く1文字がパスマッチリスト含まれているかを判定し、含まれていない場合はURLにドメイン付与情報とホスト付与情報を付与し、必要に応じて任意の追加処理を行い、該パスに該ディレクトリ部分がない場合は該パスマッチリストとの照合は行わず、必要に応じて任意の追加処理を行う手段を含むことを特徴とするユーザ行動可視化情報付与装置。
A user behavior visualization information providing device for grasping a user's behavior from a URL of an access log for each user that records the behavior on the web,
Additional information storage means for storing domain data associated with domain-related information corresponding to a domain name and host data associated with a host name and host-related information for adding to the access log;
URL dividing means for dividing the URL of the input access log into a scheme, a domain name, a host name, and a path, and inspecting the presence or absence of the directory portion of the path;
The additional information storage means for the scheme, the domain name, and the host name divided by the URL division means based on matching rules that match the data of the additional information storage means in the order of domain name, host name, and path The attached information determining means for outputting the searched assigned information together with the access log to the result accumulating means,
Have
The given information determining means includes
When the URL division means includes the directory part in the path, it is determined whether one character following the leading “/” is included in the path match list. And host addition information are added, and arbitrary addition processing is performed as necessary. If the directory portion is not included in the path, matching with the path match list is not performed, and arbitrary addition processing is performed as necessary. user behavior visualization applying device which comprises a means.
Web上の行動を記録したユーザ毎のアクセスログのURLからユーザの行動を把握するためのユーザ行動可視化情報付与方法であって、
前記アクセスログに付加するための、ドメイン名に対応するドメイン関連情報を対応付けたドメインデータと、ホスト名とホスト関連情報を対応付けたホストデータとを格納した付加情報記憶手段と、URL分割手段と、付与情報決定手段と、を有する装置において、
前記URL分割手段が、入力されたアクセスログのURLを、スキーム、ドメイン名、ホスト名、パスに分割し、該パスにディレクトリ部分の有無を検査するURL分割ステップと、
前記付与情報決定手段が、ドメイン名、ホスト名、パスの順に前記付加情報記憶手段のデータとのマッチングするマッチング規則に基づいて、前記URL分割手段で分割された前記スキーム、前記ドメイン名、前記ホスト名について該付加情報記憶手段を参照して、検索された付与情報をアクセスログと共に結果蓄積手段に出力する付与情報決定ステップと、
を行い、
前記付与情報決定ステップにおいて、
前記付与情報決定手段が、前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる、パス先頭の“/”に続く1文字を格納したパスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られ、前記パスに基づいて該ホストデータに含まれるパスが得られた場合には、該ドメイン付与情報と該パス−ホスト付与情報を出力するステップと、
前記付与情報決定手段が、前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる前記パスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られ、前記パスに対応する該ホストデータに含まれるパスが得られない場合には、該ドメイン付与情報と該ホスト付与情報を出力するステップと、
前記付与情報決定手段が、前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる前記パスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られない場合は、該ドメイン付与情報と該ホスト付与情報を出力するステップと、
前記付与情報決定手段が、前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、該ドメイン名に基づいて前記ホストデータを参照してホスト付与情報が得られない場合で、前記ドメインデータに含まれる同じ役割を持つ複数のホストがある場合に、該ホストデータの、同じ付与情報を与えてもよい複数のホストを扱うためのルールである特別ホストルールに前記ホスト名がある場合は、該ホスト名に対応するホスト付与情報と、該ドメイン付与情報を出力するステップと、
前記付与情報決定手段が、前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記特別ホストルールに前記ホスト名がない場合は、未知ホストドメイン付与情報を出力するステップと、
を行うことを特徴とするユーザ行動可視化情報付与方法。
A user behavior visualization information providing method for grasping a user's behavior from a URL of an access log for each user that records the behavior on the web,
Additional information storage means for storing domain data associated with domain-related information corresponding to a domain name, host data associated with a host name and host-related information, and URL dividing means for adding to the access log And an attached information determining means,
The URL dividing means divides the URL of the input access log into a scheme, a domain name, a host name, and a path, and a URL dividing step for checking whether there is a directory part in the path;
The attached information determining means is configured to divide the scheme, the domain name, and the host divided by the URL dividing means based on a matching rule that matches data in the additional information storage means in the order of domain name, host name, and path. A grant information determination step of referring to the additional information storage means for the name and outputting the searched grant information together with the access log to the result storage means;
The stomach line,
In the grant information determination step,
The grant information determining means refers to the domain data of the additional information storage means based on the domain name to obtain domain grant information, and refers to the host data based on the host name to obtain host grant information. Based on the path, a path match list containing one character following “/” at the head of the path included in the host data is referred to, and a pair of a corresponding path list and host assignment information is obtained. When a path included in the host data is obtained based on the path, outputting the domain grant information and the path-host grant information;
The grant information determining means refers to the domain data of the additional information storage means based on the domain name to obtain domain grant information, and refers to the host data based on the host name to obtain host grant information. Based on the path, the path match list included in the host data is referred to, a pair of a corresponding path list and host assignment information is obtained, and a path included in the host data corresponding to the path is obtained. If not, outputting the domain grant information and the host grant information;
The grant information determining means refers to the domain data of the additional information storage means based on the domain name to obtain domain grant information, and refers to the host data based on the host name to obtain host grant information. When the path match list included in the host data is obtained based on the path and a pair of the corresponding path list and host assignment information cannot be obtained, the domain assignment information and the host assignment information are Output step;
The grant information determining means refers to the domain data in the additional information storage means based on the domain name to obtain domain grant information, and refers to the host data based on the domain name to obtain host grant information. If there is a plurality of hosts having the same role included in the domain data, a special host rule that is a rule for handling a plurality of hosts that may be given the same grant information of the host data. The host assignment information corresponding to the host name, and outputting the domain assignment information,
The assignment information determining means refers to the domain data in the additional information storage means based on the domain name, and domain assignment information is obtained. If the host name is not included in the special host rule, an unknown host domain assignment is performed. Outputting information; and
A method for providing user behavior visualization information, characterized by:
Web上の行動を記録したユーザ毎のアクセスログのURLからユーザの行動を把握するためのユーザ行動可視化情報付与方法であって、  A user behavior visualization information providing method for grasping a user's behavior from a URL of an access log for each user that records the behavior on the web,
前記アクセスログに付加するための、ドメイン名に対応するドメイン関連情報を対応付けたドメインデータと、ホスト名とホスト関連情報を対応付けたホストデータとを格納した付加情報記憶手段と、URL分割手段と、付与情報決定手段と、を有する装置において、  Additional information storage means for storing domain data associated with domain-related information corresponding to a domain name, host data associated with a host name and host-related information, and URL dividing means for adding to the access log And an attached information determining means,
前記URL分割手段が、入力されたアクセスログのURLを、スキーム、ドメイン名、ホスト名、パスに分割し、該パスにディレクトリ部分の有無を検査するURL分割ステップと、  The URL dividing means divides the URL of the input access log into a scheme, a domain name, a host name, and a path, and a URL dividing step for checking whether there is a directory part in the path;
前記付与情報決定手段が、ドメイン名、ホスト名、パスの順に前記付加情報記憶手段のデータとのマッチングするマッチング規則に基づいて、前記URL分割手段で分割された前記スキーム、前記ドメイン名、前記ホスト名について該付加情報記憶手段を参照して、検索された付与情報をアクセスログと共に結果蓄積手段に出力する付与情報決定ステップと、  The attached information determining means is configured to divide the scheme, the domain name, and the host divided by the URL dividing means based on a matching rule that matches data in the additional information storage means in the order of domain name, host name, and path. A grant information determination step of referring to the additional information storage means for the name and outputting the searched grant information together with the access log to the result storage means;
を行い、And
前記付与情報決定ステップにおいて、  In the grant information determination step,
前記付与情報決定手段が、前記URL分割手段で前記パスに前記ディレクトリ部分がある場合は、パス先頭の“/”に続く1文字がパスマッチリストに含まれているかを判定し、含まれていない場合はURLにドメイン付与情報とホスト付与情報を付与し、必要に応じて任意の追加処理を行い、該パスに該ディレクトリ部分がない場合は該パスマッチリストとの照合は行わず、必要に応じて任意の追加処理を行うステップを行うことを特徴とするユーザ行動可視化情報付与方法。  In the case where the directory information is included in the path by the URL dividing unit, the addition information determining unit determines whether one character following the “/” at the head of the path is included in the path match list, and is not included. In this case, add domain assignment information and host assignment information to the URL, and perform any additional processing as necessary. If there is no directory part in the path, the path match list is not checked. And performing a step of performing an arbitrary additional process.
コンピュータを、
請求項1又は2に記載のユーザ行動可視化情報付与装置の各手段として機能させるためのユーザ行動可視化情報付与プログラム。
Computer
The user action visualization information provision program for functioning as each means of the user action visualization information provision apparatus of Claim 1 or 2 .
Web上の行動を記録したユーザ毎のアクセスログのURLからユーザの行動を把握し、分析するためのアクセスログ分析装置であって、
前記アクセスログに付加するための、ドメイン名に対応するドメイン関連情報を対応付けたドメインデータと、ホスト名とホスト関連情報を対応付けたホストデータとを格納した付加情報記憶手段と、
入力されたアクセスログのURLを、スキーム、ドメイン名、ホスト名、パスに分割し、該パスにディレクトリ部分の有無を検査するURL分割手段と、
ドメイン名、ホスト名、パスの順に前記付加情報記憶手段のデータとのマッチングするマッチング規則に基づいて、前記URL分割手段で分割された前記スキーム、前記ドメイン名、前記ホスト名について該付加情報記憶手段を参照して、検索された付与情報をアクセスログと共に結果蓄積手段に出力する付与情報決定手段と、
前記結果蓄積手段から前記アクセスログと前記付与情報を読み込み、該アクセスログのURLに関連する情報、または、該URLに対応する規則、または、該URLに対応する辞書が予め格納されている関連情報記憶手段を参照し、該URLに対応する関連情報を取得して展開付与情報記憶手段に格納する付与情報展開手段と、
前記展開付与情報記憶手段から前記付与情報、前記関連情報を取得して、任意の集計処理を行い、集計結果と前記アクセスログから取得したユーザ情報を集約結果記憶手段に格納する付与情報集約手段と、
を有し、
前記付与情報決定手段は、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる、パス先頭の“/”に続く1文字を格納したパスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られ、前記パスに基づいて該ホストデータに含まれるパスが得られた場合には、該ドメイン付与情報と該パス−ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる前記パスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られ、前記パスに対応する該ホストデータに含まれるパスが得られない場合には、該ドメイン付与情報と該ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記ホスト名に基づいて前記ホストデータを参照してホスト付与情報が得られ、前記パスに基づいて該ホストデータに含まれる前記パスマッチリストを参照し、対応するパスのリストとホスト付与情報の組が得られない場合は、該ドメイン付与情報と該ホスト付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、該ドメイン名に基づいて前記ホストデータを参照してホスト付与情報が得られない場合で、前記ドメインデータに含まれる同じ役割を持つ複数のホストがある場合に、該ホストデータの、同じ付与情報を与えてもよい複数のホストを扱うためのルールである特別ホストルールに前記ホスト名がある場合は、該ホスト名に対応するホスト付与情報と、該ドメイン付与情報を出力する手段と、
前記ドメイン名に基づいて前記付加情報記憶手段の前記ドメインデータを参照してドメイン付与情報が得られ、前記特別ホストルールに前記ホスト名がない場合は、未知ホストドメイン付与情報を出力する手段と、
を含むことを特徴とするアクセスログ分析装置。
An access log analysis device for grasping and analyzing user behavior from the URL of the access log for each user that records behavior on the web,
Additional information storage means for storing domain data associated with domain-related information corresponding to a domain name and host data associated with a host name and host-related information for adding to the access log;
URL dividing means for dividing the URL of the input access log into a scheme, a domain name, a host name, and a path, and inspecting the presence or absence of a directory part in the path;
The additional information storage means for the scheme, the domain name, and the host name divided by the URL division means based on matching rules that match the data of the additional information storage means in the order of domain name, host name, and path The attached information determining means for outputting the searched assigned information together with the access log to the result accumulating means,
The access log and the attached information are read from the result storage unit, and the information related to the URL of the access log, the rule corresponding to the URL, or the related information in which the dictionary corresponding to the URL is stored in advance An attached information expansion means for referring to the storage means, acquiring the related information corresponding to the URL, and storing it in the expanded assignment information storage means;
An assignment information aggregating unit that acquires the grant information and the related information from the development grant information storage unit, performs an arbitrary aggregation process, and stores the aggregation result and user information acquired from the access log in an aggregation result storage unit; ,
I have a,
The given information determining means includes
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path By referring to the path match list storing one character following the “/” at the head of the path included in the host data, a pair of a corresponding path list and host assignment information is obtained, and the host is based on the path. Means for outputting the domain assignment information and the path-host assignment information when a path included in the data is obtained;
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path When the path match list included in the host data is referred to, a pair of a corresponding path list and host assignment information is obtained, and when a path included in the host data corresponding to the path is not obtained, Means for outputting the domain grant information and the host grant information;
Based on the domain name, domain grant information is obtained by referring to the domain data in the additional information storage means, host grant information is obtained by referring to the host data based on the host name, and based on the path The path match list included in the host data is referred to, and when a pair of a corresponding path list and host assignment information is not obtained, means for outputting the domain assignment information and the host assignment information;
Domain grant information is obtained by referring to the domain data of the additional information storage means based on the domain name, and host grant information cannot be obtained by referring to the host data based on the domain name, When there are a plurality of hosts having the same role included in the domain data and the host name is in a special host rule that is a rule for handling a plurality of hosts that may be given the same grant information of the host data Includes host grant information corresponding to the host name, means for outputting the domain grant information,
Domain grant information is obtained by referring to the domain data of the additional information storage means based on the domain name, and when there is no host name in the special host rule, means for outputting unknown host domain grant information;
Access log analyzer which comprises a.
Web上の行動を記録したユーザ毎のアクセスログのURLからユーザの行動を把握し、分析するためのアクセスログ分析装置であって、  An access log analysis device for grasping and analyzing user behavior from the URL of the access log for each user that records behavior on the web,
前記アクセスログに付加するための、ドメイン名に対応するドメイン関連情報を対応付けたドメインデータと、ホスト名とホスト関連情報を対応付けたホストデータとを格納した付加情報記憶手段と、  Additional information storage means for storing domain data associated with domain-related information corresponding to a domain name and host data associated with a host name and host-related information for adding to the access log;
入力されたアクセスログのURLを、スキーム、ドメイン名、ホスト名、パスに分割し、該パスにディレクトリ部分の有無を検査するURL分割手段と、  URL dividing means for dividing the URL of the input access log into a scheme, a domain name, a host name, and a path, and inspecting the presence or absence of a directory part in the path;
ドメイン名、ホスト名、パスの順に前記付加情報記憶手段のデータとのマッチングするマッチング規則に基づいて、前記URL分割手段で分割された前記スキーム、前記ドメイン名、前記ホスト名について該付加情報記憶手段を参照して、検索された付与情報をアクセスログと共に結果蓄積手段に出力する付与情報決定手段と、  The additional information storage means for the scheme, the domain name, and the host name divided by the URL division means based on matching rules that match the data of the additional information storage means in the order of domain name, host name, and path The attached information determining means for outputting the searched assigned information together with the access log to the result accumulating means,
前記結果蓄積手段から前記アクセスログと前記付与情報を読み込み、該アクセスログのURLに関連する情報、または、該URLに対応する規則、または、該URLに対応する辞書が予め格納されている関連情報記憶手段を参照し、該URLに対応する関連情報を取得して展開付与情報記憶手段に格納する付与情報展開手段と、  The access log and the attached information are read from the result storage unit, and the information related to the URL of the access log, the rule corresponding to the URL, or the related information in which the dictionary corresponding to the URL is stored in advance An attached information expansion means for referring to the storage means, acquiring the related information corresponding to the URL, and storing it in the expanded assignment information storage means;
前記展開付与情報記憶手段から前記付与情報、前記関連情報を取得して、任意の集計処理を行い、集計結果と前記アクセスログから取得したユーザ情報を集約結果記憶手段に格納する付与情報集約手段と、  An assignment information aggregating unit that acquires the grant information and the related information from the development grant information storage unit, performs an arbitrary aggregation process, and stores the aggregation result and user information acquired from the access log in an aggregation result storage unit; ,
を有し、Have
前記付与情報決定手段は、  The given information determining means includes
前記URL分割手段で前記パスに前記ディレクトリ部分がある場合は、パス先頭の“/”に続く1文字がパスマッチリストに含まれているかを判定し、含まれていない場合はURLにドメイン付与情報とホスト付与情報を付与し、必要に応じて任意の追加処理を行い、該パスに該ディレクトリ部分がない場合は該パスマッチリストとの照合は行わず、必要に応じて任意の追加処理を行う手段を含むことを特徴とするアクセスログ分析装置。  When the URL division means includes the directory part in the path, it is determined whether one character following the leading “/” is included in the path match list. And host addition information are added, and arbitrary addition processing is performed as necessary. If the directory portion is not included in the path, matching with the path match list is not performed, and arbitrary addition processing is performed as necessary. An access log analyzing apparatus comprising: means.
JP2012272879A 2012-12-13 2012-12-13 User behavior visualization information providing device and method, program, and access log analysis device Expired - Fee Related JP5890301B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012272879A JP5890301B2 (en) 2012-12-13 2012-12-13 User behavior visualization information providing device and method, program, and access log analysis device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012272879A JP5890301B2 (en) 2012-12-13 2012-12-13 User behavior visualization information providing device and method, program, and access log analysis device

Publications (2)

Publication Number Publication Date
JP2014119838A JP2014119838A (en) 2014-06-30
JP5890301B2 true JP5890301B2 (en) 2016-03-22

Family

ID=51174647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012272879A Expired - Fee Related JP5890301B2 (en) 2012-12-13 2012-12-13 User behavior visualization information providing device and method, program, and access log analysis device

Country Status (1)

Country Link
JP (1) JP5890301B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341942A (en) * 2003-05-16 2004-12-02 Nippon Telegr & Teleph Corp <Ntt> Content classification method, content classification device, content classification program, and storage medium storing content classification program
JP5135174B2 (en) * 2008-11-13 2013-01-30 日本電信電話株式会社 Large-scale WEB site evaluation apparatus, large-scale WEB site evaluation method, and large-scale WEB site evaluation program
JP2010123000A (en) * 2008-11-20 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> Web page group extraction method, device and program
JP5415390B2 (en) * 2010-10-28 2014-02-12 日本電信電話株式会社 Filtering method, filtering system, and filtering program
JP5100855B2 (en) * 2011-02-09 2012-12-19 株式会社エヌ・ティ・ティ・ドコモ Latent class analyzer, latent class analyzing method and program

Also Published As

Publication number Publication date
JP2014119838A (en) 2014-06-30

Similar Documents

Publication Publication Date Title
US9436747B1 (en) Query generation using structural similarity between documents
CN108304410B (en) Method and device for detecting abnormal access page and data analysis method
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
US20130198240A1 (en) Social Network Analysis
CN108900554B (en) HTTP asset detection method, system, device and computer medium
CN105718578A (en) Short link generation method and device
US20110270691A1 (en) Method and system for providing url possible new advertising
CN104252447A (en) File behavior analysis method and device
CN105808605B (en) A kind of search log merging method and system
JP5492047B2 (en) Purchasing behavior analysis apparatus, purchasing behavior analysis method, purchasing behavior analysis program, purchasing behavior analysis system, and control method
US7711648B2 (en) Method and apparatus for obtaining content license rights via a document link resolver
US20160117352A1 (en) Apparatus and method for supporting visualization of connection relationship
CN108287831B (en) URL classification method and system and data processing method and system
CN112632419A (en) Domain name pre-resolution configuration method and device, computer equipment and storage medium
WO2017177590A1 (en) Method for associating domain name with website access behavior
JP5890301B2 (en) User behavior visualization information providing device and method, program, and access log analysis device
CN109948015B (en) Meta search list result extraction method and system
CN104021143A (en) Method and device for recording webpage access behavior
CN105677827B (en) A kind of acquisition methods and device of list
CN110825976B (en) Website page detection method and device, electronic equipment and medium
JPWO2015016133A1 (en) Information management apparatus and information management method
JP2004341942A (en) Content classification method, content classification device, content classification program, and storage medium storing content classification program
CN102521288A (en) Acquisition method of Web service information on Internet
JP5008152B2 (en) Procurement information search system
JP2011086156A (en) System and program for tracking of leaked information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160218

R150 Certificate of patent or registration of utility model

Ref document number: 5890301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees