CN107679029A - 一种高准确性英文域名相似度检测方法 - Google Patents
一种高准确性英文域名相似度检测方法 Download PDFInfo
- Publication number
- CN107679029A CN107679029A CN201710749636.XA CN201710749636A CN107679029A CN 107679029 A CN107679029 A CN 107679029A CN 201710749636 A CN201710749636 A CN 201710749636A CN 107679029 A CN107679029 A CN 107679029A
- Authority
- CN
- China
- Prior art keywords
- domain name
- mrow
- english
- main body
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种高准确性英文域名相似度检测方法,属于网络安全技术领域。首先获取待检测域名和目标域名,对其初始化生成域名主体;其次根据相似字符集对域名主体进行归一化处理,并作为Levenshtein算法的输入生成检测矩阵;然后再次根据相似字符集给予域名字符相应的权重计算编辑距离;最后由编辑距离和归一化处理后域名主体的最长长度计算相似度。本发明与现有技术相比,主要解决了现有技术为了追求高效率判断而使得准确性降低、误判率升高、实际应用中不够人性化等现象,致力于增加目前域名相似度检测算法的准确性。
Description
技术领域
本发明涉及一种高准确性英文域名相似度检测方法,属于网络安全技术领域。
背景技术
英文域名作为使用率最高的域名,是国际化域名的重要组成部分,针对英文域名的域名仿冒攻击日渐增多,域名的仿冒形式也日益复杂。由于英文字母、数字中存在很多形近字符,再加上人的快速阅读习惯,难免会在一定程度上造成视觉的错误判断。
Levenshtein算法是一种判断字符串相似度的算法,目前被广泛应用于域名相似度检测系统中。但现有技术为了追求高效率判断,往往只是将整个域名作为输入,进而判断相似度,这样一来准确性有所降低,二来在实际应用中不够人性化。如果仿冒网站制作者将一个字符相似拆分为多个字符,或将多个字符相似合并为一个字符,则现有技术判断的准确率将大大降低。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种高准确性英文域名相似度检测方法,创新性地引入相似字符集,根据相似字符集中的相似字符给予域名字符相应的权重,对目前被广泛应用于域名相似度检测系统中的Levenshtein算法进行改进,以解决现有技术为了追求高效率判断而使得准确性降低、误判率升高、实际应用中不够人性化等现象,致力于增加目前域名相似度检测算法的准确性。
本发明的技术方案是:一种高准确性英文域名相似度检测方法,具体步骤为:
(1)获取待检测域名X以及目标域名Y;
(2)对待检测域名X和目标域名Y以点号“.”分割,忽略网络名、域名后缀,保留域名主体,并生成域名主体的英文字符集合x:{x1,x2…xp}和y:{y1,y2…yq};
(3)根据相似字符集,若待检测域名的域名主体英文字符集合x:{x1,x2…xp}和目标域名的域名主体英文字符集合y:{y1,y2…yq}中有一个字符拆分相似于多个字符,或多个字符合并相似于一个字符,则将其统一替换为指定字符,进行归一化处理,并生成处理后待检测域名的域名主体英文字符集合x':{x1,x2…xm}和目标域名的域名主体英文字符集合y':{y1,y2…yn};
(4)将处理后待检测域名的域名主体英文字符集合x':{x1,x2…xm}和目标域名的域名主体英文字符集合y':{y1,y2…yn}作为Levenshtein算法的输入,生成检测矩阵I(X,Y)(m+1)×(n+1);
(5)对检测矩阵I(X,Y)(m+1)×(n+1)按照公式(1)进行矩阵初始化处理:
(6)对初始化后检测矩阵I(X,Y)(m+1)×(n+1)中需计算的数据d[i,j](1≤i≤m,1≤j≤n),若xi和yj相同,则按照公式(2)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]) (2)
若xi和yj不同,则再次根据相似字符集判断是否为相似字符,若是相似字符,则取该相似字符组相应的权重w,根据公式(3)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+w) (3)
若不是相似字符,则根据公式(4)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1) (4)
(7)检测矩阵I(X,Y)(m+1)×(n+1)中所有数据d[i,j]计算完毕后,最终待检测域名X与目标域名Y的编辑距离为d[m,n],根据最终编辑距离d[m,n]和归一化处理后域名主体的最长长度l=max(m,n),由公式(5):
计算待检测域名X与目标域名Y的相似度。
所述步骤(1)中的待检测域名X以及目标域名Y,可以为一级域名或二级域名。
所述步骤(2)中如果待检测域名X以及目标域名Y是一级域名,则只需忽略域名后缀。
所述步骤(1)中待检测域名X以及目标域名Y需是符合常规的域名,即经步骤(2)初始化后,生成域名主体的英文字符集合x:{x1,x2…xp}和y:{y1,y2…yq}需满足以下要求:
p,q∈N+
同样,经步骤(3)归一化后,生成处理后域名主体的英文字符集合x':{x1,x2…xm}和y':{y1,y2…yn}理应满足以下要求:
m,n∈N+。
所述步骤(3)和步骤(6)中的相似字符集由若干组相似字符及对应的权重、归一化字符等组成,且权重w应满足以下要求:
0≤w≤1。
所述步骤(7)中计算的相似度r(X,Y)理应满足以下要求:
0≤r(X,Y)≤1
若不满足,则说明计算错误,需重新计算;
若满足,其值越接近1,则说明待检测域名与目标域名的相似度越高。
本发明的有益效果是:创新性地引入相似字符集,根据相似字符集中的相似字符给予域名字符相应的权重,对目前被广泛应用于域名相似度检测系统中的Levenshtein算法进行改进。首先获取待检测域名和目标域名,对其初始化生成域名主体;其次根据相似字符集对域名主体进行归一化处理,并作为Levenshtein算法的输入生成检测矩阵;然后再次根据相似字符集给予域名字符相应的权重计算编辑距离;最后由编辑距离和归一化处理后域名主体的最长长度计算相似度。本发明与现有技术相比,主要解决了现有技术为了追求高效率判断而使得准确性降低、误判率升高、实际应用中不够人性化等现象,致力于增加目前域名相似度检测算法的准确性。
附图说明
图1是本发明的流程示意图;
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种高准确性英文域名相似度检测方法,具体步骤为:
(1)获取待检测域名X以及目标域名Y;
(2)对待检测域名X和目标域名Y以点号“.”分割,忽略网络名、域名后缀,保留域名主体,并生成域名主体的英文字符集合x:{x1,x2…xp}和y:{y1,y2…yq};
(3)根据相似字符集,若待检测域名的域名主体英文字符集合x:{x1,x2…xp}和目标域名的域名主体英文字符集合y:{y1,y2…yq}中有一个字符拆分相似于多个字符,或多个字符合并相似于一个字符,则将其统一替换为指定字符,进行归一化处理,并生成处理后待检测域名的域名主体英文字符集合x':{x1,x2…xm}和目标域名的域名主体英文字符集合y':{y1,y2…yn};
(4)将处理后待检测域名的域名主体英文字符集合x':{x1,x2…xm}和目标域名的域名主体英文字符集合y':{y1,y2…yn}作为Levenshtein算法的输入,生成检测矩阵I(X,Y)(m+1)×(n+1);
(5)对检测矩阵I(X,Y)(m+1)×(n+1)按照公式(1)进行矩阵初始化处理:
(6)对初始化后检测矩阵I(X,Y)(m+1)×(n+1)中需计算的数据d[i,j](1≤i≤m,1≤j≤n),若xi和yj相同,则按照公式(2)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]) (2)
若xi和yj不同,则再次根据相似字符集判断是否为相似字符,若是相似字符,则取该相似字符组相应的权重w,根据公式(3)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+w) (3)
若不是相似字符,则根据公式(4)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1) (4)
(7)检测矩阵I(X,Y)(m+1)×(n+1)中所有数据d[i,j]计算完毕后,最终待检测域名X与目标域名Y的编辑距离为d[m,n],根据最终编辑距离d[m,n]和归一化处理后域名主体的最长长度l=max(m,n),由公式(5):
计算待检测域名X与目标域名Y的相似度。
所述步骤(1)中的待检测域名X以及目标域名Y,可以为一级域名或二级域名。
所述步骤(2)中如果待检测域名X以及目标域名Y是一级域名,则只需忽略域名后缀。
所述步骤(1)中待检测域名X以及目标域名Y需是符合常规的域名,即经步骤(2)初始化后,生成域名主体的英文字符集合x:{x1,x2…xp}和y:{y1,y2…yq}需满足以下要求:
p,q∈N+
同样,经步骤(3)归一化后,生成处理后域名主体的英文字符集合x':{x1,x2…xm}和y':{y1,y2…yn}理应满足以下要求:
m,n∈N+。
所述步骤(3)和步骤(6)中的相似字符集由若干组相似字符及对应的权重、归一化字符等组成,且权重w应满足以下要求:
0≤w≤1。
所述步骤(7)中计算的相似度r(X,Y)理应满足以下要求:
0≤r(X,Y)≤1
若不满足,则说明计算错误,需重新计算;
若满足,其值越接近1,则说明待检测域名与目标域名的相似度越高。
实施例2:如图1所示,在实施例1的基础上,假设经上述步骤(1)获取的待检测域名为X="www.ba1olu.com",目标域名为Y="www.baidu.com",由上述步骤(2)初始化处理后,生成域名主体的英文字符集合为x:{b,a,1,o,l,u}和y:{b,a,i,d,u}。
假设相似字符集(第一列为相似字符,第二列为权重,第三列为归一化字符)为:
经上述步骤(3)归一化处理后,生成处理后待检测域名的域名主体英文字符集合x':{b,a,1,d,u}和目标域名的域名主体英文字符集合y':{b,a,i,d,u}。
经上述步骤(4)将处理后待检测域名的域名主体英文字符集合x':{b,a,1,d,u}和目标域名的域名主体英文字符集合y':{b,a,i,d,u}作为Levenshtein算法的输入,生成检测矩阵I(X,Y)6×6,并按上述步骤(5)进行矩阵初始化,结果如下所示。
再由步骤(6)中的计算规则对其编辑距离d[i,j](1≤i≤5,1≤j≤5)计算,经查阅相似字符集,“i”与“1”的权重为0,关键的计算过程d[3,3]及最终生成的检测矩阵如下所示。
d[3,3]=min(d[2,3]+1,d[3,2]+1,d[2,2]+0)
=min(2,2,0)
=0
最后,由步骤(7)中的计算规则对相似度r(X,Y)进行计算,计算结果如下所述。
结果表明,虽然待检测域名X和目标域名Y长度不一致,但检测所得的相似度为1。也就是说,按照本发明的计算原则,待检测域名X和目标域名Y为相似域名,且相似度为1,有效地预防了如果仿冒网站制作者将一个字符相似拆分为多个字符,或将多个字符相似合并为一个字符,现有技术判断的准确率低的缺点,实际应用中也较人性化。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种高准确性英文域名相似度检测方法,其特征在于:
(1)获取待检测域名X以及目标域名Y;
(2)对待检测域名X和目标域名Y以点号“.”分割,忽略网络名、域名后缀,保留域名主体,并生成域名主体的英文字符集合x:{x1,x2…xp}和y:{y1,y2…yq};
(3)根据相似字符集,若待检测域名的域名主体英文字符集合x:{x1,x2…xp}和目标域名的域名主体英文字符集合y:{y1,y2…yq}中有一个字符拆分相似于多个字符,或多个字符合并相似于一个字符,则将其统一替换为指定字符,进行归一化处理,并生成处理后待检测域名的域名主体英文字符集合x':{x1,x2…xm}和目标域名的域名主体英文字符集合y':{y1,y2…yn};
(4)将处理后待检测域名的域名主体英文字符集合x':{x1,x2…xm}和目标域名的域名主体英文字符集合y':{y1,y2…yn}作为Levenshtein算法的输入,生成检测矩阵I(X,Y)(m+1)×(n+1);
(5)对检测矩阵I(X,Y)(m+1)×(n+1)按照公式(1)进行矩阵初始化处理:
<mrow>
<msub>
<mi>d</mi>
<mrow>
<mo>&lsqb;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>&rsqb;</mo>
</mrow>
</msub>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>0</mn>
<mo>,</mo>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>j</mi>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>&le;</mo>
<mi>j</mi>
<mo>&le;</mo>
<mi>n</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>i</mi>
</mtd>
<mtd>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>&le;</mo>
<mi>i</mi>
<mo>&le;</mo>
<mi>m</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
(6)对初始化后检测矩阵I(X,Y)(m+1)×(n+1)中需计算的数据d[i,j](1≤i≤m,1≤j≤n),若xi和yj相同,则按照公式(2)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]) (2)
若xi和yj不同,则再次根据相似字符集判断是否为相似字符,若是相似字符,则取该相似字符组相应的权重w,根据公式(3)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+w) (3)
若不是相似字符,则根据公式(4)计算该处的编辑距离:
d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+1) (4)
(7)检测矩阵I(X,Y)(m+1)×(n+1)中所有数据d[i,j]计算完毕后,最终待检测域名X与目标域名Y的编辑距离为d[m,n],根据最终编辑距离d[m,n]和归一化处理后域名主体的最长长度l=max(m,n),由公式(5):
<mrow>
<mi>r</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<msub>
<mi>d</mi>
<mrow>
<mo>&lsqb;</mo>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>&rsqb;</mo>
</mrow>
</msub>
<mi>l</mi>
</mfrac>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<msub>
<mi>d</mi>
<mrow>
<mo>&lsqb;</mo>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>&rsqb;</mo>
</mrow>
</msub>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
计算待检测域名X与目标域名Y的相似度。
2.根据权利要求1所述的高准确性英文域名相似度检测方法,其特征在于:所述步骤(1)中的待检测域名X以及目标域名Y,可以为一级域名或二级域名。
3.根据权利要求1所述的高准确性英文域名相似度检测方法,其特征在于:所述步骤(2)中如果待检测域名X以及目标域名Y是一级域名,则只需忽略域名后缀。
4.根据权利要求1所述的高准确性英文域名相似度检测方法,其特征在于:所述步骤(1)中待检测域名X以及目标域名Y需是符合常规的域名,即经步骤(2)初始化后,生成域名主体的英文字符集合x:{x1,x2…xp}和y:{y1,y2…yq}需满足以下要求:
p,q∈N+
同样,经步骤(3)归一化后,生成处理后域名主体的英文字符集合x':{x1,x2…xm}和y':{y1,y2…yn}理应满足以下要求:
m,n∈N+。
5.根据权利要求1所述的高准确性英文域名相似度检测方法,其特征在于:所述步骤(3)和步骤(6)中的相似字符集由若干组相似字符及对应的权重、归一化字符等组成,且权重w应满足以下要求:
0≤w≤1。
6.根据权利要求1所述的高准确性英文域名相似度检测方法,其特征在于:所述步骤(7)中计算的相似度r(X,Y)理应满足以下要求:
0≤r(X,Y)≤1
若不满足,则说明计算错误,需重新计算;
若满足,其值越接近1,则说明待检测域名与目标域名的相似度越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710749636.XA CN107679029B (zh) | 2017-08-28 | 2017-08-28 | 一种英文域名相似度检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710749636.XA CN107679029B (zh) | 2017-08-28 | 2017-08-28 | 一种英文域名相似度检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679029A true CN107679029A (zh) | 2018-02-09 |
CN107679029B CN107679029B (zh) | 2021-07-16 |
Family
ID=61134429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710749636.XA Active CN107679029B (zh) | 2017-08-28 | 2017-08-28 | 一种英文域名相似度检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679029B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110768929A (zh) * | 2018-07-26 | 2020-02-07 | 中国电信股份有限公司 | 域名检测方法和装置、计算机可读存储介质 |
CN114285627A (zh) * | 2021-12-21 | 2022-04-05 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
CN115311672A (zh) * | 2022-08-09 | 2022-11-08 | 北京惠朗时代科技有限公司 | 一种英文审批文件和实际用印文件的替换检测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100313266A1 (en) * | 2009-06-05 | 2010-12-09 | At&T Corp. | Method of Detecting Potential Phishing by Analyzing Universal Resource Locators |
CN102790762A (zh) * | 2012-06-18 | 2012-11-21 | 东南大学 | 基于url分类的钓鱼网站检测方法 |
CN103561120A (zh) * | 2013-10-08 | 2014-02-05 | 北京奇虎科技有限公司 | 检测可疑dns的方法、装置和可疑dns的处理方法、系统 |
CN104077396A (zh) * | 2014-07-01 | 2014-10-01 | 清华大学深圳研究生院 | 一种钓鱼网站检测方法及装置 |
CN105912633A (zh) * | 2016-04-11 | 2016-08-31 | 上海大学 | 面向稀疏样本的聚焦式Web信息抽取系统及方法 |
US20160294852A1 (en) * | 2015-04-06 | 2016-10-06 | Trend Micro Incorporated | Determining string similarity using syntactic edit distance |
CN106170002A (zh) * | 2016-09-08 | 2016-11-30 | 中国科学院信息工程研究所 | 一种中文仿冒域名检测方法及系统 |
CN106503244A (zh) * | 2016-11-08 | 2017-03-15 | 天津海量信息技术股份有限公司 | 一种统一资源定位符相似度的处理方法 |
-
2017
- 2017-08-28 CN CN201710749636.XA patent/CN107679029B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100313266A1 (en) * | 2009-06-05 | 2010-12-09 | At&T Corp. | Method of Detecting Potential Phishing by Analyzing Universal Resource Locators |
CN102790762A (zh) * | 2012-06-18 | 2012-11-21 | 东南大学 | 基于url分类的钓鱼网站检测方法 |
CN103561120A (zh) * | 2013-10-08 | 2014-02-05 | 北京奇虎科技有限公司 | 检测可疑dns的方法、装置和可疑dns的处理方法、系统 |
CN104077396A (zh) * | 2014-07-01 | 2014-10-01 | 清华大学深圳研究生院 | 一种钓鱼网站检测方法及装置 |
US20160294852A1 (en) * | 2015-04-06 | 2016-10-06 | Trend Micro Incorporated | Determining string similarity using syntactic edit distance |
CN105912633A (zh) * | 2016-04-11 | 2016-08-31 | 上海大学 | 面向稀疏样本的聚焦式Web信息抽取系统及方法 |
CN106170002A (zh) * | 2016-09-08 | 2016-11-30 | 中国科学院信息工程研究所 | 一种中文仿冒域名检测方法及系统 |
CN106503244A (zh) * | 2016-11-08 | 2017-03-15 | 天津海量信息技术股份有限公司 | 一种统一资源定位符相似度的处理方法 |
Non-Patent Citations (1)
Title |
---|
郑礼雄等: "基于域名信息的钓鱼URL探测", 《计算机工程》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110768929A (zh) * | 2018-07-26 | 2020-02-07 | 中国电信股份有限公司 | 域名检测方法和装置、计算机可读存储介质 |
CN114285627A (zh) * | 2021-12-21 | 2022-04-05 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
CN114285627B (zh) * | 2021-12-21 | 2023-12-22 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
CN115311672A (zh) * | 2022-08-09 | 2022-11-08 | 北京惠朗时代科技有限公司 | 一种英文审批文件和实际用印文件的替换检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107679029B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI607387B (zh) | 字符辨識系統及其字符辨識方法 | |
Akinyelu et al. | Classification of phishing email using random forest machine learning technique | |
CN107679029A (zh) | 一种高准确性英文域名相似度检测方法 | |
CN108288088A (zh) | 一种基于端到端全卷积神经网络的场景文本检测方法 | |
CN107992469A (zh) | 一种基于词序列的钓鱼url检测方法及系统 | |
CN103428307A (zh) | 仿冒域名检测方法及设备 | |
Chen et al. | Gradient band-based adversarial training for generalized attack immunity of A3C path finding | |
CN109450845A (zh) | 一种基于深度神经网络的算法生成恶意域名检测方法 | |
Guo et al. | Exsense: Extract sensitive information from unstructured data | |
Jiang et al. | Detecting suspicious following behavior in multimillion-node social networks | |
CN107392016A (zh) | 一种基于代理的Web数据库攻击行为检测系统 | |
CN105786799A (zh) | 网络文章原创性判定方法 | |
CN105808709A (zh) | 人脸识别快速检索方法及装置 | |
CN107181730A (zh) | 一种仿冒网站监测识别方法及系统 | |
CN108509794A (zh) | 一种基于分类学习算法的恶意网页防御检测方法 | |
CN104580254B (zh) | 一种钓鱼网站识别系统及方法 | |
CN101604408A (zh) | 一种检测器的生成和检测方法 | |
WO2023272994A1 (zh) | 基于深度学习网络的行人重识别方法、装置、设备及介质 | |
CN104299000A (zh) | 基于局部片段分布特征的笔迹识别方法 | |
Yazhmozhi et al. | Natural language processing and Machine learning based phishing website detection system | |
Wang et al. | Point pattern matching algorithm for planar point sets under Euclidean transform | |
Wu et al. | Classification of diabetic retinopathy using adversarial training | |
Liao et al. | Federated hierarchical hybrid networks for clickbait detection | |
CN107609059A (zh) | 一种基于j‑w距离的中文域名相似度量方法 | |
Liu et al. | A novel DGA domain adversarial sample generation method by geometric perturbation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |