JP5121622B2 - Access destination scoring method and program - Google Patents
Access destination scoring method and program Download PDFInfo
- Publication number
- JP5121622B2 JP5121622B2 JP2008201729A JP2008201729A JP5121622B2 JP 5121622 B2 JP5121622 B2 JP 5121622B2 JP 2008201729 A JP2008201729 A JP 2008201729A JP 2008201729 A JP2008201729 A JP 2008201729A JP 5121622 B2 JP5121622 B2 JP 5121622B2
- Authority
- JP
- Japan
- Prior art keywords
- access destination
- access
- scoring method
- destination
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は通信網におけるアクセス先のスコアリング技術に関する。 The present invention relates to an access destination scoring technique in a communication network.
ウイルス感染や有害情報を回避するために、Webサイト、ドメイン名などのインターネットのアクセス先に対して、感染の可能性や有害度合い(以降、悪性度と呼ぶ)に応じてスコアリングを行い、高スコアなアクセス先に対するアクセスを遮断するなどの対策が行われている。 In order to avoid virus infection and harmful information, Internet access destinations such as websites and domain names are scored according to the possibility of infection and the degree of harm (hereinafter referred to as malignancy). Measures such as blocking access to a scored access destination are being taken.
しかしながら、膨大なアクセス先全てに対してスコアリングすることは困難であり、これらスコアリングが必ずしも信頼できるわけではない。従って、悪性でなくとも高スコアアクセス先と判定される場合(擬陽性)、悪性にもかかわらず低スコアとスコアリングされる場合(擬陰性)ともに発生しうる。 However, it is difficult to score all the huge access destinations, and these scoring is not always reliable. Therefore, even if not malignant, it can occur both when judged as a high score access destination (false positive) and when scored as low score despite malignancy (false negative).
ここで、悪性アクセス先に対するアクセス元(ユーザ端末など)が他にアクセスしたアクセス先は悪性である可能性が高い。例えば、ウイルスが埋め込まれているWebサイトにアクセスした端末は、そのウイルスによる挙動として、攻撃指示受信などのために特定のサイトにアクセスするケースが多いことが知られている。 Here, there is a high possibility that an access destination accessed by another access source (such as a user terminal) for the malicious access destination is malicious. For example, it is known that a terminal that accesses a Web site in which a virus is embedded often accesses a specific site for receiving an attack instruction or the like as a behavior due to the virus.
特許文献1では、このような考えの下、悪性と確定した少数アクセス先を元に、そのアクセス先に対するユーザ端末群に特徴的な他のアクセス先を元のアクセス先と関連度が高いとして悪性アクセス先と判定し、上記擬陰性を回避する手法を提案している。しかしながら特許文献1では、アクセス元−アクセス先の関係を一回のみ利用しており、新たに抽出された悪性アクセス先と関連度が高いアクセス先を悪性アクセス先として抽出することはしない、また、擬陽性の問題は回避できないという課題があった。
In Japanese Patent Application Laid-Open No. 2004-151867, based on such a concept, based on a small number of access destinations determined to be malignant, other access destinations characteristic of the user terminal group for the access destination are considered to be highly related to the original access destination. Proposed a method to determine the access destination and avoid the false negative. However, in
また、非特許文献1では、アクセス元とアクセス先の関係と同様に、単語と文脈の関係を用いて、単語間の関連度を求める手法が提案されている。本手法では、単語と文脈の関係を二部グラフととらえ、このグラフ上でスコアを繰り返し計算することによって、単語間の関連度を求めている。同手法をアクセス元−アクセス先に適用することにより、アクセス先間の関連度を計算でき、悪性アクセス先との関連度の高さに応じて共通のアクセス元を持っていないアクセス先であってもスコアリングすることが出来る。しかしながら擬陽性の課題は残る。また、非特許文献1に述べられているように多数のアクセス元を持つアクセス先のスコアが高くなってしまうという課題がある。
Further, Non-Patent
本発明は上記課題を鑑み、アクセス元−アクセス先の二部グラフ上に初期スコアを拡散させた拡散スコアのみならず、初期スコアを反転させたスコアを拡散させた反転拡散スコアをも用いて、アクセス先のスコアリングを行うものである。 In view of the above problems, the present invention uses not only a diffusion score obtained by diffusing an initial score on an access source-access destination bipartite graph but also an inverted diffusion score obtained by diffusing a score obtained by inverting an initial score. Access destination scoring.
本発明の目的は、予め与えられた悪性リストに対して、アクセス先とアクセス元の関係を利用し、その悪性リストの擬陽性、擬陰性を排除する技術を提供することである。 An object of the present invention is to provide a technique for eliminating false positives and false negatives of a malignant list using a relationship between an access destination and an access source with respect to a previously given malignant list.
本明細書において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。 Of the inventions disclosed in this specification, the outline of typical ones will be briefly described as follows.
本発明は、アクセス先スコアリング装置におけるアクセス先スコアリング方法であって、前記アクセス先スコアリング装置は、アクセス先初期スコア取得部とアクセス先−アクセス元間アクセスログ取得部とアクセス先間関連度計算部とアクセス先スコアリング部とを備え、前記アクセス先初期スコア取得部が、1つ以上のアクセス先の初期スコアを取得する第1のステップと、前記アクセス先−アクセス元間アクセスログ取得部が、アクセス先に対するアクセス元のアクセスログを取得する第2のステップと、前記アクセス先間関連度計算部が、前記第2のステップで得られたアクセスログから、アクセス元に関するアクセス先間の関連度を計算する第3のステップと、前記アクセス先スコアリング部が、前記第1のステップで得られたアクセス先の初期スコアを前記第3のステップで得られたアクセス先間関連度によって、他のアクセス先に拡散させた拡散スコアを計算する第4のステップと、前記アクセス先スコアリング部が、前記第1のステップで得られたアクセス先の初期スコアを反転させたスコアを、前記第3のステップで得られたアクセス先間関連度によって、他のアクセス先に拡散させた反転拡散スコアを計算する第5のステップと、前記アクセス先スコアリング部が、前記第4のステップで得られた拡散スコアと、前記第5のステップで得られた反転拡散スコアの比を用いた拡散スコア比を計算する第6のステップと、を含むことを特徴とする。 The present invention is an access destination scoring method in an access destination scoring device, wherein the access destination scoring device includes an access destination initial score acquisition unit, an access destination-access source access log acquisition unit, and a degree of association between access destinations. A calculation unit and an access destination scoring unit, wherein the access destination initial score acquisition unit acquires an initial score of one or more access destinations; and the access destination-access source access log acquisition unit The second step of acquiring the access log of the access source for the access destination, and the relationship between the access destinations is calculated from the access log obtained in the second step. A third step of calculating a degree, and the access destination scoring unit; A fourth step of calculating a diffusion score in which the initial score of the access destination is diffused to other access destinations according to the degree of association between the access destinations obtained in the third step, and the access destination scoring unit includes: An inverted diffusion score obtained by diffusing the score obtained by inverting the initial score of the access destination obtained in the first step to other access destinations based on the degree of association between the access destinations obtained in the third step is calculated. The fifth step and the access destination scoring unit calculates a diffusion score ratio using a ratio between the diffusion score obtained in the fourth step and the inverted diffusion score obtained in the fifth step. And a sixth step.
本発明によればWebサイト、ドメイン名などのインターネットのアクセス先に関して予め与えられた悪性リストに対して、アクセス先とアクセス元の関係を利用し、その悪性リストの擬陽性、擬陰性を排除することができる。 According to the present invention, a malignant list given in advance with respect to an Internet access destination such as a website or a domain name is used to eliminate false positives and false negatives of the malignant list using the relationship between the access destination and the access source. Can do.
以下、図面を用いて本発明の実施例を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1は、本発明の実施例におけるアクセス先スコアリング装置の構成例を示すブロック図である。101はアクセス先初期スコア取得部、102はアクセス先−アクセス元間アクセスログ取得部、103はアクセス先間関連度計算部、104はアクセス先スコアリング部である。
FIG. 1 is a block diagram illustrating a configuration example of an access destination scoring apparatus according to an embodiment of the present invention.
図2は本発明の実施例のアクセス先スコアリング装置の動作を示すフローチャートである。201は、アクセス先初期スコア取得部101が1つ以上のアクセス先の初期スコアを取得する第1のステップである。202は、アクセス先−アクセス元間アクセスログ取得部102がアクセス先に対するアクセス元のアクセスログを取得する第2のステップである。203は、アクセス先間関連度計算部103が、第2のステップで得られたアクセスログから、アクセス元に関するアクセス先間の関連度を計算する第3のステップである。204は、アクセス先スコアリング部104が第1のステップ201で得られたアクセス先の初期スコアを第3のステップ203で得られたアクセス先間関連度によって、他のアクセス先に拡散させた拡散スコアを計算する第4のステップである。205は、アクセス先スコアリング部104が第1のステップ201で得られたアクセス先の初期スコアを反転させたスコアを、第3のステップ203で得られたアクセス先間関連度によって、他のアクセス先に拡散させた反転拡散スコアを計算する第5のステップである。206は、アクセス先スコアリング部104が第4のステップ204で得られた拡散スコアと、第5のステップ205で得られた反転拡散スコアの比を用いた拡散スコア比を計算する第6のステップである。
FIG. 2 is a flowchart showing the operation of the access destination scoring apparatus according to the embodiment of the present invention. 201 is a first step in which the access destination initial
以下、第1〜第6のステップについて詳細に説明する。 Hereinafter, the first to sixth steps will be described in detail.
第1のステップ201では、アクセス先初期スコア取得部101がアクセス先の初期スコアを取得する。
In the
図3は、アクセス先とアクセス元の関係の一例を示す図である。ここではアクセス先としてドメイン名、アクセス元としてユーザホストを例に挙げている。ここで、ユーザホストが当該ドメイン名に対して、例えばWebアクセスを行う、名前解決を行うなどの行為をドメイン名に対するアクセスとみなすことが出来る。背景が黒となっているドメイン名が、初期スコアを悪性度高としてスコアリングされたドメイン名である。その内、ドメイン名“white.domain.labeled.black”は、誤って悪性ドメインとして判定されたドメイン(擬陽性)とする。また、背景が白となっているドメイン名が、初期スコアを悪性度低としてスコアリングされたドメイン名である。その内、ドメイン名“black.domain.labeled.white”は、誤って悪性度低として判定されたドメイン(擬陰性)とする。 FIG. 3 is a diagram illustrating an example of a relationship between an access destination and an access source. Here, the domain name is taken as an example of the access destination, and the user host is taken as an example of the access source. Here, for example, an action such as a web access or name resolution by the user host to the domain name can be regarded as an access to the domain name. A domain name with a black background is a domain name scored with an initial score of high malignancy. Among them, the domain name “white.domain.labeled.black” is a domain erroneously determined as a malignant domain (false positive). A domain name with a white background is a domain name scored with an initial score of low malignancy. Among them, the domain name “black.domain.labeled.white” is assumed to be a domain (false negative) erroneously determined as low malignancy.
第1のステップ201では、アクセス先初期スコア取得部101はこの7つのドメイン名に対して初期スコアを取得する。ここで7ドメイン名の初期スコアを上から順に(1,1,1,1,0,0,0)とする。
In the
このとき、第2のステップ202では、アクセス先−アクセス元間アクセスログ取得部102がアクセス先に対するアクセス元のアクセスログを取得する。ここで、アクセスログはサーバ側のアクセスログによって取得してもよいし、ネットワークトラヒックを観測することによって取得してもよい。
At this time, in the
第3のステップでは、アクセス先間関連度計算部103がドメイン名とユーザホスト間の関係を利用して、ドメイン名間の関連度を計算する。以下、第3のステップにおける関連度計算方法の実施例について説明する。
In the third step, the inter-access destination
(1)関連度計算方法1(請求項2に対応)では、アクセス先の集合をO、その要素数を|O|、アクセス元の集合をD、その要素数を|D|とし、アクセス元−アクセス先の接続関係を表した二部グラフに関する、数式1で示されるサイズ(|D|+|O|)×(|D|+|O|)の数式1で示される隣接行列をA={aij}、Aと同一サイズの単位行列をIとしたときに、数式2で示される行列KN(β)の(i,j)成分(1≦i,j≦|D|)をアクセス先iとアクセス先j間の関連度とする。
(1) In relevance calculation method 1 (corresponding to claim 2), the access destination set is O, the number of elements is | O |, the access source set is D, and the number of elements is | D | -An adjacency matrix represented by
例えば、7ドメイン名と6ユーザホスト間の関係を示す7×6の行列Rを、 For example, a 7 × 6 matrix R indicating the relationship between 7 domain names and 6 user hosts is
とする。数式12はドメイン名とホストの接続グラフの隣接行列表現である。列方向がドメイン名、行方向がホストとなり、ドメイン名iがホストjからアクセスされている場合は要素(i,j)が1、そうでなければ0である。このとき、ドメイン名、ユーザホスト間の隣接行列Aは And Formula 12 is an adjacency matrix representation of a connection graph of domain names and hosts. The element (i, j) is 1 when the column direction is the domain name, the row direction is the host, and the domain name i is accessed from the host j, and 0 otherwise. At this time, the adjacency matrix A between domain names and user hosts is
となるが(ここでRtはRの転置行列、07は7×7の、06は6×6の零行列)、Aと同一サイズの13×13の単位行列をI、パラメータをβとしたときに、数式2で示される行列KN(β)の(i,j)成分(1≦i,j≦7)をドメインiとドメインj間の関連度とすることを特徴とする。これは非特許文献1で記載されているノイマンカーネルによる関連度となる。例えばβ=0.01のとき、KN(β)のドメイン名部分(左上7×7部分行列)KN(β)’は、
Where R t is a transpose matrix of R, 0 7 is a 7 × 7, 0 6 is a 6 × 6 zero matrix, and a 13 × 13 unit matrix of the same size as A is I and a parameter is β , The (i, j) component (1 ≦ i, j ≦ 7) of the matrix K N (β) expressed by
と計算され、例えばドメイン名xxx.xxx.xxxとyyy.yyy.yyyの関連度は0.03であるが、xxx.xxx.xxxとwhite.domain.labeled.blackの間の関連度は0となる。数式14は7個のドメイン名の相互関連度を示す7×7の行列となり,要素(i,j)がドメイン名iとドメイン名j間の関連度を示す。xxx.xxx.xxxは1番目のドメイン名、yyy.yyy.yyyは2番目のドメイン名、white.domain.labeled.blackは4番目のドメイン名となるので、数式14の要素(1,2),(1,4)の値を見ることによって上記関連度がわかる。 For example, the relevance between domain names xxx.xxx.xxx and yyy.yyy.yyy is 0.03, but the relevance between xxx.xxx.xxx and white.domain.labeled.black is 0. Become. Equation 14 is a 7 × 7 matrix indicating the degree of correlation between the seven domain names, and element (i, j) indicates the degree of association between domain name i and domain name j. xxx.xxx.xxx is the first domain name, yyy.yyy.yyy is the second domain name, and white.domain.labeled.black is the fourth domain name. , (1, 4) to see the relevance.
(2)関連度計算方法2(請求項3に対応)では、予め定められたパラメータβ、関連計算方法1(請求項2に対応)の隣接行列A={aij}を用いて数式3で示される行列L={lij}に対して、数式4で表される行列KD(β)の(i,j)成分(1≦i,j≦|D|)をアクセス先iとアクセス先j間の関連度とする。
(2) In the relevance calculation method 2 (corresponding to claim 3), a predetermined parameter β and the adjacency matrix A = {a ij } of the relevance calculation method 1 (corresponding to claim 2) For the matrix L = {l ij } shown, the access destination i and the access destination are the (i, j) components (1 ≦ i, j ≦ | D |) of the matrix K D (β) expressed by
この関連度計算方法では、数式4で示される行列KD(β)の(i,j)成分(1≦i,j≦7)をドメインiとドメインj間の関連度とすることを特徴とする。これは非特許文献1で記載されている拡散カーネルによる関連度となる。
In this relevance calculation method, the (i, j) component (1 ≦ i, j ≦ 7) of the matrix K D (β) expressed by
(3)関連度計算方法3(請求項4に対応)では、予め定められたパラメータβ、関連度計算方法2(請求項3に対応)の行列L={lij}に対して、数式5で示される行列KL(β)の(i,j)成分(1≦i,j≦|D|)をアクセス先iとアクセス先j間の関連度とする。
(3) In the relevance calculation method 3 (corresponding to claim 4), for the predetermined parameter β and the matrix L = {l ij } of the relevance calculation method 2 (corresponding to claim 3),
この関連度計算方法では、数式5で示される行列KL(β)の(i,j)成分(1≦i,j≦7)をドメインiとドメインj間の関連度とすることを特徴とする。これは非特許文献1で記載されている正則ラプラシアンカーネルによる関連度となる。
In this relevance calculation method, the (i, j) component (1 ≦ i, j ≦ 7) of the matrix K L (β) expressed by
上記の関連度計算においては、数式1で示される隣接行列Aのべき乗を用いて関連度の計算をしている。隣接行列Aのべき乗、Akの(i,j)成分は、アクセス先iからjまでkステップで行くパスが何通りあるかを示している。たとえば数式13で計算される隣接行列Aにおいて、A2の(1,2)成分は3であり、これはアクセス先xxx.xxx.xxxとyyy.yyy.yyyを2ステップで結ぶパスが、Host1,Host2,Host3経由の3通りあることを示している。従って隣接行列Aを用いた関連度計算においては、アクセス先iからアクセス先jへのパス数が多いと関連度が高くなる。
In the above relevance calculation, the relevance is calculated using the power of the adjacency matrix A expressed by
一方で、アクセス先iを始点するkステップの全パスのうち、アクセス先jを終点とするパス数の割合を関連度計算に用いる方法も考えられる。この場合は、隣接行列の値を正規化した行列を用いて関連度を計算する必要がある。次に示す関連度計算方法4、5(請求項5、6に対応)では正規化した隣接行列Tを用いて関連度計算を行う。
On the other hand, a method of using the ratio of the number of paths having the access destination j as the end point in the k steps starting from the access destination i in the relevance calculation is also conceivable. In this case, it is necessary to calculate the degree of association using a matrix obtained by normalizing the values of the adjacency matrix. In the following
(4)関連度計算方法4(請求項5に対応)では、関連度計算方法1(請求項2に対応)において、前記行列Aの代わりに、数式6で表される行列T={tij}を用いる。 (4) In the relevance calculation method 4 (corresponding to claim 5), in the relevance calculation method 1 (corresponding to claim 2), instead of the matrix A, a matrix T = {t ij } Is used.
(5)関連度計算方法5(請求項6に対応)では、関連度計算方法2また3(請求項3または4に対応)において、前記行列Lの計算時に、行列Aの代わりに数式6で表される行列T={tij}を用いる。
(5) In the relevance calculation method 5 (corresponding to claim 6), in the
上記のように行列を用いて上記の方法でアクセス先間の関連度を計算できるが、アクセス先数が膨大な場合、大規模行列の計算は不可能な場合が発生しうる。以下に示す関連度計算方法では、そのような場合に、アクセス先を始点とし、図3に示されるようなアクセス先−アクセス元の二部グラフ上のランダムウォークを生成し、ランダムウォーク中に出現した他のアクセス先に対して、その出現数、出現場所、出現場所までの異なるパス数の情報を用いて、始点アクセス先との関連度を計算する。 As described above, the degree of association between access destinations can be calculated by the above method using a matrix. However, when the number of access destinations is enormous, a large-scale matrix may not be calculated. In such a case, the relevance calculation method shown below generates a random walk on the bipartite graph of the access destination-access source as shown in FIG. 3, starting from the access destination, and appears in the random walk. The degree of association with the start point access destination is calculated using the information on the number of appearances, the appearance location, and the number of different paths to the appearance location.
(6)関連度計算方法6(請求項7に対応)では、あるアクセス先iを始点とし、アクセス元−アクセス先の二部グラフ上のランダムウォークを生成し、ランダムウォーク中に出現したアクセス先に対して、その出現数、出現場所、出現場所までの異なるパス数の情報を用いて、始点アクセス先との関連度を計算する。 (6) In relevance calculation method 6 (corresponding to claim 7), a random walk on an access source-access destination bipartite graph is generated starting from a certain access destination i, and the access destination that appears in the random walk The degree of association with the start point access destination is calculated using information on the number of appearances, the appearance location, and the number of different paths to the appearance location.
以下、ランダムウォークを用いた関連度計算方法のより具体的な実施例を説明する。 Hereinafter, a more specific embodiment of the relevance calculation method using a random walk will be described.
(6−1)関連度計算方法6−1(請求項8に対応)では、アクセス先iを始点とし、予め定められた長さlのランダムウォークをn個生成し、ランダムウォーク中の出現場所を、始点アクセス先のlから1ずつ増える値としたときに、出現場所kのアクセス先jの出現回数がnk、異なるパス数がpkであった場合に、アクセス先iとアクセス先jの関連度を、予め定められたパラメータβを用いて、 (6-1) In the degree-of-association calculation method 6-1 (corresponding to claim 8), n random walks having a predetermined length l are generated starting from the access destination i, and appearing places in the random walk Is a value that is incremented by 1 from l of the start point access destination, and the access destination i and the access destination j are jk when the number of appearances of the access destination j at the appearance location k is n k and the number of different paths is p k. Using the predetermined parameter β,
で計算される値とする。 The value calculated by.
この関連度計算方法では、出現場所kのアクセス先jの出現回数がnk、異なるパス数がp kであった場合に、アクセス先iとアクセス先jの関連度を、予め定められたパラメータβを用いて、数式7によって計算する。
In this relevance calculation method, when the number of appearances of the access destination j at the appearance location k is n k and the number of different paths is p k , the relevance between the access destination i and the access destination j is determined by a predetermined parameter. Using β, calculation is performed according to Equation 7 .
(6−2)関連度計算方法6−2(請求項9に対応)では、アクセス先iを始点とし、予め定められた確率pで終了するランダムウォークをn個生成したときに、出現アクセス先数m、ランダムウォーク中の出現場所kのアクセス先jの出現回数がnk、異なるパス数がpkであった場合に、アクセス先iとアクセス先jの関連度を、 (6-2) In the relevance calculation method 6-2 (corresponding to claim 9), when n random walks starting from the access destination i and ending with a predetermined probability p are generated, the appearance access destination When the number of appearances of the access destination j at the appearance location k in the random walk is n k and the number of different paths is p k , the degree of association between the access destination i and the access destination j is
とする。 And
この関連度計算方法では、固定長のランダムウォークではなく、一定確率pでランダムウォークを終了させる。一定確率で終了させることにより、ステップ数が長いパスの出現確率が減るため、関連度計算時にβ乗の必要が無くなる。 In this relevance calculation method, the random walk is terminated with a fixed probability p, not a fixed-length random walk. By ending with a certain probability, the appearance probability of a path with a long number of steps is reduced, so that the necessity of the β power is not necessary when calculating the degree of association.
(6−3)関連度計算方法6−3(請求項10に対応)では、アクセス先iを始点とし、予め定められた長さlのランダムウォークをn個生成し、ランダムウォーク中の出現場所を、始点アクセス先のlから1ずつ増える値としたときに、出現場所kのアクセス先jの出現回数がnk、であった場合に、アクセス先iとアクセス先jの関連度を、予め定められたパラメータβを用いて、 (6-3) In the relevance calculation method 6-3 (corresponding to claim 10), n random walks having a predetermined length l are generated starting from the access destination i, and appearing places in the random walk When the number of appearances of the access destination j at the appearance location k is n k , where the relevance degree between the access destination i and the access destination j is Using the defined parameter β
とする。 And
(6−4)関連度計算方法6−4(請求項11に対応)では、アクセス先iを始点とし予め定められた確率pで終了するランダムウォークをn個生成したときに、ランダムウォーク中の出現場所を、始点アクセス先のlから1ずつ増える値としたときに、出現場所kのアクセス先jの出現回数がnk、であった場合に、アクセス先iとアクセス先jの関連度を、予め定められたパラメータβを用いて、 (6-4) In the relevance calculation method 6-4 (corresponding to claim 11), when n random walks starting from the access destination i and ending with a predetermined probability p are generated, When the number of appearances of the access destination j at the appearance location k is n k when the appearance location is set to a value that increases by 1 from 1 of the start point access destination, the degree of association between the access destination i and the access destination j is , Using a predetermined parameter β,
とする。 And
関連度計算方法6−3、6−3では、出現パス数ではなく、出現回数を用いる。これは関連度計算方法4、5(請求項5、6に対応)に記載の、アクセス先iを始点するkステップの全パスのうち、アクセス先jを終点とするパス数の割合を関連度計算に用いる方法をランダムウォークシミュレーションで実施していることになる。
In the relevance calculation methods 6-3 and 6-3, the number of appearances is used instead of the number of appearance paths. This is the ratio of the number of paths having the access destination j as the end point of all the k-step paths starting from the access destination i described in the
第4のステップ204では、アクセス先スコアリング部104が第1のステップ201で得られたアクセス先の初期スコアを第2のステップ202で得られたアクセス先間関連度によって、他のアクセス先に拡散させた拡散スコアを計算する。図3において、初期スコアベクトル
(1,1,1,1,0,0,0)t
とした場合、例えば関連度計算方法1(請求項2に対応)で計算した、数式2で示される関連度を用いて計算した拡散スコアは、
(0.09,0.09,0.09,0.02,0.09,0.02,0.02)t
となる。
In the
In this case, for example, the diffusion score calculated using the relevance expressed by
(0.09, 0.09, 0.09, 0.02, 0.09, 0.02, 0.02) t
It becomes.
第5のステップ205では、アクセス先スコアリング部104が第1のステップ201で得られたアクセス先の初期スコアを反転させたスコアを、第2のステップ202で得られたアクセス先間関連度によって、他のアクセス先に拡散させた反転拡散スコアを計算する。図1において、初期スコアベクトル
(1,1,1,1,0,0,0)t
とした場合、反転スコアベクトルは
(0,0,0,0,1,1,1)t
となる。例えば関連度計算方法1(請求項2に対応)で計算した、数式2で示される関連度を用いて計算した反転拡散スコアは、
(0.03,0.03,0.03,0.04,0.03,0.06,0.06)t
となる。
In the
, The inverted score vector is (0,0,0,0,1,1,1) t
It becomes. For example, the inversion diffusion score calculated using the relevance represented by
(0.03, 0.03, 0.03, 0.04, 0.03, 0.06, 0.06) t
It becomes.
第6のステップ206では、第4のステップ204で得られた拡散スコアと、第5のステップ205で得られた反転拡散スコアの比を用いた拡散スコア比を計算する。図1において、初期スコアベクトルを
(1,1,1,1,0,0,0)t
とし、関連度計算方法1(請求項2に対応)で計算した、拡散スコア、反転拡散スコアを関連度計算方法4−1(請求項8に対応)で計算した拡散スコア比は、
(0.75,0.75,0.75,0.33,0.75,0.25,0.25)t
となる。したがって、ドメイン名、“xxx.xxx.xxx”は拡散スコア比が高いままである一方、ドメイン名“white.domain.labeled.black”は初期スコアが1であったにもかかわらず、拡散スコア比は0.33と低くなっている。また、ドメイン名“aaa.aaa.aaa”は拡散スコア比が低いままである一方、ドメイン名“black.domain.labeled.white”は初期スコアが0であったにもかかわらず、拡散スコア比は0.75と高くなっている。
In the
And the diffusion score ratio calculated by the relevance calculation method 4-1 (corresponding to claim 8) of the diffusion score and the inverted diffusion score calculated by the relevance calculation method 1 (corresponding to claim 2) is:
(0.75,0.75,0.75,0.33,0.75,0.25,0.25) t
It becomes. Thus, the domain name “xxx.xxx.xxx” remains high in spreading score ratio while the domain name “white.domain.labeled.black” has a spreading score ratio even though the initial score is 1. Is as low as 0.33. The domain name “aaa.aaa.aaa” has a low diffusion score ratio, whereas the domain name “black.domain.labeled.white” has an initial score of 0, but the diffusion score ratio is It is as high as 0.75.
すなわち、擬陽性であったドメイン名“white.domain.labeled.black”の拡散スコア比は低いから、陰性であると推定することができ、擬陰性であったドメイン名“black.domain.labeled.white”の拡散スコア比は高いから、陽性であると推定することができる。このようにして、Webサイト、ドメイン名などのインターネットのアクセス先に関して予め与えられた悪性リストに対して、アクセス先とアクセス元の関係を利用し、拡散スコア比を得ることにより、その悪性リストの擬陽性、擬陰性を排除することができる。 That is, since the diffusion score ratio of the domain name “white.domain.labeled.black” that is false positive is low, it can be estimated that the domain name “black.domain.labeled.white” is false. Since the diffusion score ratio of “is high, it can be estimated to be positive. In this way, by using the relationship between the access destination and the access source with respect to the malignant list given in advance with respect to the Internet access destination such as the website and the domain name, by obtaining the diffusion score ratio, False positives and false negatives can be excluded.
以上説明したアクセス先スコアリング装置は、コンピュータとプログラムで構成することができる。また、そのプログラムの一部または全部をハードウェアで構成してもよい。 The access destination scoring apparatus described above can be composed of a computer and a program. Moreover, you may comprise a part or all of the program with a hardware.
以上、本発明者によってなされた発明を、前記実施形態に基づき具体的に説明したが、本発明は、前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Of course.
101…アクセス先初期スコア取得部、102…アクセス先−アクセス元間アクセスログ取得部、103…アクセス先間関連度計算部、104…アクセス先スコアリング部、201…第1のステップ、202…第2のステップ、203…第3のステップ、204…第4のステップ、205…第5のステップ、206…第6のステップ
DESCRIPTION OF
Claims (13)
前記アクセス先スコアリング装置は、アクセス先初期スコア取得部とアクセス先−アクセス元間アクセスログ取得部とアクセス先間関連度計算部とアクセス先スコアリング部とを備え、
前記アクセス先初期スコア取得部が、1つ以上のアクセス先の初期スコアを取得する第1のステップと、
前記アクセス先−アクセス元間アクセスログ取得部が、アクセス先に対するアクセス元のアクセスログを取得する第2のステップと、
前記アクセス先間関連度計算部が、前記第2のステップで得られたアクセスログから、アクセス元に関するアクセス先間の関連度を計算する第3のステップと、
前記アクセス先スコアリング部が、前記第1のステップで得られたアクセス先の初期スコアを前記第3のステップで得られたアクセス先間関連度によって、他のアクセス先に拡散させた拡散スコアを計算する第4のステップと、
前記アクセス先スコアリング部が、前記第1のステップで得られたアクセス先の初期スコアを反転させたスコアを、前記第3のステップで得られたアクセス先間関連度によって、他のアクセス先に拡散させた反転拡散スコアを計算する第5のステップと、
前記アクセス先スコアリング部が、前記第4のステップで得られた拡散スコアと、前記第5のステップで得られた反転拡散スコアの比を用いた拡散スコア比を計算する第6のステップと、
を含むことを特徴とするアクセス先スコアリング方法。 An access destination scoring method in an access destination scoring device,
The access destination scoring device includes an access destination initial score acquisition unit, an access destination-access source access log acquisition unit, an access destination relevance calculation unit, and an access destination scoring unit.
A first step in which the access destination initial score acquisition unit acquires initial scores of one or more access destinations;
A second step in which the access destination-access source access log acquisition unit acquires an access log of an access source for the access destination;
A third step in which the inter-access-destination relevance calculating unit calculates a relevance between the access destinations regarding the access source from the access log obtained in the second step;
The access destination scoring unit spreads the diffusion score obtained by diffusing the initial score of the access destination obtained in the first step to other access destinations according to the degree of association between the access destinations obtained in the third step. A fourth step of calculating;
The access destination scoring unit assigns a score obtained by inverting the initial score of the access destination obtained in the first step to another access destination according to the degree of association between the access destinations obtained in the third step. A fifth step of calculating a diffuse inverted diffusion score;
A sixth step in which the access destination scoring unit calculates a diffusion score ratio using a ratio between the diffusion score obtained in the fourth step and the inverted diffusion score obtained in the fifth step;
An access destination scoring method comprising:
前記第3のステップにおいて、アクセス先の集合をO、その要素数を|O|、アクセス元の集合をD、その要素数を|D|とし、アクセス元−アクセス先の接続関係を表した二部グラフに関する、数式1で示されるサイズ(|D|+|O|)×(|D|+|O|)の数式1で示される隣接行列をA={aij}、Aと同一サイズの単位行列をIとしたときに、数式2で示される行列KN(β)の(i,j)成分(1≦i,j≦|D|)をアクセス先iとアクセス先j間の関連度とすることを特徴とするアクセス先スコアリング方法。
In the third step, the access destination set is O, the number of elements is | O |, the access source set is D, and the number of elements is | D |. For the subgraph, the adjacency matrix represented by Equation 1 of the size (| D | + | O |) × (| D | + | O |) represented by Equation 1 is A = {a ij }, which has the same size as A When the unit matrix is I, the degree of association between the access destination i and the access destination j is the (i, j) component (1 ≦ i, j ≦ | D |) of the matrix K N (β) expressed by Equation 2 And an access destination scoring method.
前記第3のステップにおいて、予め定められたパラメータβ、請求項2記載の隣接行列A={aij}を用いて数式3で示される行列L={lij}に対して、数式4で表される行列KD(β)の(i,j)成分(1≦i,j≦|D|)をアクセス先iとアクセス先j間の関連度とすることを特徴とするアクセス先スコアリング方法。
In the third step, the matrix L = {l ij } represented by Equation 3 using the predetermined parameter β and the adjacency matrix A = {a ij } according to claim 2 is expressed by Equation 4. Access destination scoring method, wherein the (i, j) component (1 ≦ i, j ≦ | D |) of the matrix K D (β) to be processed is used as the degree of association between the access destination i and the access destination j .
前記第3のステップにおいて、予め定められたパラメータβ、請求項3記載の行列L={lij}に対して、数式5で示される行列KL(β)の(i,j)成分(1≦i,j≦|D|)をアクセス先iとアクセス先j間の関連度とすることを特徴とするアクセス先スコアリング方法。
In the third step, the (i, j) component (1) of the matrix K L (β) expressed by Equation 5 with respect to the predetermined parameter β and the matrix L = {l ij } according to claim 3. ≦ i, j ≦ | D |) is defined as the degree of association between the access destination i and the access destination j.
前記行列Aの代わりに、数式6で表される行列T={tij}を用いることを特徴とするアクセス先スコアリング方法。
Instead of the matrix A, a matrix T = {t ij } expressed by Equation 6 is used.
前記行列Lの計算時に、行列Aの代わりに請求項5記載の行列T={tij}を用いることを特徴とするアクセス先スコアリング方法。 The access destination scoring method according to claim 3 or 4,
6. The access destination scoring method according to claim 5, wherein a matrix T = {t ij } according to claim 5 is used instead of the matrix A when calculating the matrix L.
前記第3のステップにおいて、あるアクセス先iを始点とし、アクセス元−アクセス先の二部グラフ上のランダムウォークを生成し、ランダムウォーク中に出現したアクセス先に対して、その出現数、出現場所、出現場所までの異なるパス数の情報を用いて、始点アクセス先との関連度を計算することを特徴とするアクセス先スコアリング方法。 The access destination scoring method according to claim 1,
In the third step, a random walk on an access source-access destination bipartite graph is generated with a certain access destination i as a starting point, and the number of appearances and appearance locations for the access destinations that appear during the random walk. An access destination scoring method, wherein the degree of association with the start point access destination is calculated using information on the number of different paths to the appearance location.
アクセス先iを始点とし、予め定められた長さlのランダムウォークをn個生成し、ランダムウォーク中の出現場所を、始点アクセス先のlから1ずつ増える値としたときに、出現場所kのアクセス先jの出現回数がnk、異なるパス数がpkであった場合に、アクセス先iとアクセス先jの関連度を、予め定められたパラメータβを用いて、
When n random walks having a predetermined length l are generated starting from the access destination i, and the appearance location in the random walk is set to a value that increases by 1 from l of the start access destination, the appearance location k When the number of appearances of the access destination j is n k and the number of different paths is p k , the degree of association between the access destination i and the access destination j is determined using a predetermined parameter β,
アクセス先iを始点とし、予め定められた確率pで終了するランダムウォークをn個生成したときに、出現アクセス先数m、ランダムウォーク中の出現場所kのアクセス先jの出現回数がnk、異なるパス数がpkであった場合に、アクセス先iとアクセス先jの関連度を、
When n random walks starting from the access destination i and ending with a predetermined probability p are generated, the number m of appearance access destinations, the number of appearances of the access destination j at the appearance location k in the random walk is n k , When the number of different paths is pk , the degree of association between the access destination i and the access destination j is
アクセス先iを始点とし、予め定められた長さlのランダムウォークをn個生成し、ランダムウォーク中の出現場所を、始点アクセス先のlから1ずつ増える値としたときに、出現場所kのアクセス先jの出現回数がnk、であった場合に、アクセス先iとアクセス先jの関連度を、予め定められたパラメータβを用いて、
When n random walks having a predetermined length l are generated starting from the access destination i, and the appearance location in the random walk is set to a value that increases by 1 from l of the start access destination, the appearance location k When the number of appearances of the access destination j is n k , the degree of association between the access destination i and the access destination j is determined using a predetermined parameter β,
アクセス先iを始点とし予め定められた確率pで終了するランダムウォークをn個生成したときに、ランダムウォーク中の出現場所を、始点アクセス先のlから1ずつ増える値としたときに、出現場所kのアクセス先jの出現回数がnk、であった場合に、アクセス先iとアクセス先jの関連度を、予め定められたパラメータβを用いて、
When n random walks starting at the access destination i and ending with a predetermined probability p are generated, the appearance location when the appearance location in the random walk is set to a value that is incremented by 1 from the start access destination l When the number of appearances of the access destination j of k is n k , the degree of association between the access destination i and the access destination j is determined using a predetermined parameter β,
前記第6のステップにおいて、拡散スコアをb、反転拡散スコアをwとしたときに、拡散スコア比を
In the sixth step, when the diffusion score is b and the inverted diffusion score is w, the diffusion score ratio is
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008201729A JP5121622B2 (en) | 2008-08-05 | 2008-08-05 | Access destination scoring method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008201729A JP5121622B2 (en) | 2008-08-05 | 2008-08-05 | Access destination scoring method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010039749A JP2010039749A (en) | 2010-02-18 |
JP5121622B2 true JP5121622B2 (en) | 2013-01-16 |
Family
ID=42012235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008201729A Active JP5121622B2 (en) | 2008-08-05 | 2008-08-05 | Access destination scoring method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5121622B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5411823B2 (en) * | 2010-09-10 | 2014-02-12 | 日本電信電話株式会社 | Estimated value accuracy improving system, estimated value accuracy improving method, and estimated value accuracy improving program |
WO2017019391A1 (en) * | 2015-07-24 | 2017-02-02 | Nec Laboratories America, Inc. | Graph-based intrusion detection using process traces |
JP6759852B2 (en) | 2016-08-22 | 2020-09-23 | 株式会社デンソーウェーブ | I / O module |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4501280B2 (en) * | 1998-12-09 | 2010-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method and apparatus for providing network and computer system security |
JP2005189996A (en) * | 2003-12-24 | 2005-07-14 | Fuji Electric Holdings Co Ltd | Network intrusion detection system |
JP4570652B2 (en) * | 2007-11-02 | 2010-10-27 | 日本電信電話株式会社 | Unauthorized access monitoring apparatus and method |
-
2008
- 2008-08-05 JP JP2008201729A patent/JP5121622B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010039749A (en) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9405910B2 (en) | Automatic library detection | |
JP6624771B2 (en) | Client-based local malware detection method | |
WO2016201819A1 (en) | Method and apparatus for detecting malicious file | |
JP4395178B2 (en) | Content processing system, method and program | |
CN109768992B (en) | Webpage malicious scanning processing method and device, terminal device and readable storage medium | |
US9135443B2 (en) | Identifying malicious threads | |
US9213837B2 (en) | System and method for detecting malware in documents | |
KR101530941B1 (en) | Method, system and client terminal for detection of phishing websites | |
EP1672515A1 (en) | System and method for utilizing a scanner in a search engine to protect from malicious content | |
JP6473234B2 (en) | Analysis method, analysis device, and analysis program | |
BRPI0720343B1 (en) | METHOD AND APPARATUS FOR DETECTION OF COMPUTER FRAUD | |
JP6687761B2 (en) | Coupling device, coupling method and coupling program | |
US11270001B2 (en) | Classification apparatus, classification method, and classification program | |
WO2015109928A1 (en) | Method, device and system for loading recommendation information and detecting url | |
AU2018298640B2 (en) | Determination device, determination method, and determination program | |
JP6805366B2 (en) | Communication equipment, communication systems and communication programs | |
WO2021031902A1 (en) | Url extraction method, apparatus and device and computer-readable storage medium | |
JP5121622B2 (en) | Access destination scoring method and program | |
US20170004307A1 (en) | Method and device for virus identification, nonvolatile storage medium, and device | |
JP2013257773A (en) | Monitoring device and monitoring method | |
JP2016540333A (en) | Terminal marking method, terminal marking device, program, and recording medium | |
RU2603535C2 (en) | METHOD AND SYSTEM FOR USING A Web-BROWSER | |
JP2010108363A (en) | Retrieval processor, retrieval processing method and program which perform seed selection of crawler for specialty retrieval by utilizing click log | |
JP6930667B2 (en) | Detection device and detection program | |
RU2697960C1 (en) | Method of determining unknown attributes of web data fragments when launching a web page in a browser |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100913 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120731 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121023 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121023 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5121622 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |