CN111478877B

CN111478877B - 网域名称识别方法及网域名称识别装置

Info

Publication number: CN111478877B
Application number: CN201910070158.9A
Authority: CN
Inventors: 林品铨; 吴侑峻; 孙明功; 张宗铨; 曾奕中; 黄琼莹
Original assignee: Anjie Information Co ltd
Current assignee: Anjie Information Co ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2022-08-02
Anticipated expiration: 2039-01-24
Also published as: CN111478877A

Abstract

本发明提出一种网域名称识别方法及网域名称识别装置。网域名称识别方法包括：获得第一网域名称的第一字串及第二网域名称的第二字串；将第一字串及第二字串的多个字符分类成多个群集，并产生对应群集的多个向量，其中每个字符对应到向量的其中之一；产生对应第一字串的第一向量组及对应第二字串的第二向量组；以及利用算法来计算第一向量组及第二向量组的相似度。

Description

网域名称识别方法及网域名称识别装置

技术领域

本发明涉及一种网域名称识别方法及网域名称识别装置，尤其涉及一种能识别恶意网站的网域名称识别方法及网域名称识别装置。

背景技术

许多恶意网站会将网域名称(Domain name)设计的很像使用者一般常造访的安全网站(例如，goog1e.com)。这些恶意网站会尝试诱骗使用者提供帐号和密码，以存取使用者的网上帐户。一旦成功存取帐户，便可利用使用者的个人资料窃取身份、盗用信用卡、提取银行帐户存款、查阅使用者的电邮，甚至进一步变更密码，使得使用者无法登入网上帐户。

虽然我们可以通过某些特征来检测这些恶意网站(例如，网域名称、网页内容等)，但随着每位使用者对于资安相关知识的了解程度不同，警觉程度也不相同。大部分使用者往往在不经意的情况下进入恶意网站而不自觉，当发现明显异状时(例如，密码已遭到修改)，相关数据往往已经遭到窃取。

过去防范恶意网站的方式是利用使用者反馈的数据，整理出可疑网站的清单，再请资安专家针对这些网站仔细研究，最终筛选出真正具高风险性的网站，并将其列入黑名单。但这样的流程相当旷日废时，导致当新的恶意网站出现时，无法及时更新黑名单。此外，整理的过程中需要许多资安专家参与其中，耗费大量人力资源。因此，如何能有效地识别恶意网站是本领域技术人员应致力的目标。

发明内容

本发明提供一种网域名称识别方法及网域名称识别装置，能有效地识别恶意网站。

本发明提出一种网域名称识别方法，包括：获得第一网域名称的第一字串及第二网域名称的第二字串；将第一字串及第二字串的多个字符分类成多个群集，并产生对应群集的多个向量，其中每个字符对应到向量的其中之一；产生对应第一字串的第一向量组及对应第二字串的第二向量组；以及利用算法来计算第一向量组及第二向量组的相似度。

在本发明的一实施例中，上述第一字串及第二字串的长度不必相同。

在本发明的一实施例中，上述每个向量为单位向量，且不同的群集对应到不同的向量。

在本发明的一实施例中，上述算法为动态时间归整(Dynamic Time Warping，DTW)算法。

在本发明的一实施例中，上述算法产生维度对应第一字串的长度及第二字串的长度的矩阵，建立矩阵中的最左下元素到最右上元素的最短距离路径，计算最短距离路径上的每个元素对应的第一向量组的其中之一及第二向量组的其中之一的距离，并根据最短距离路径上的每个距离的总和来计算相似度。

在本发明的一实施例中，上述矩阵的每个元素的值为每个元素的距离加上每个元素的左方元素、下方元素及左下方元素的值的最小值的总和，且最短距离路径通过从矩阵的最右上元素选出最右上元素的左方元素、下方元素及左下方元素中元素值最小的元素来产生。

本发明提出一种网域名称识别装置，包括处理器及耦接到处理器的存储器。处理器获得第一网域名称的第一字串及第二网域名称的第二字串；将第一字串及第二字串的多个字符分类成多个群集，并产生对应群集的多个向量，其中每个字符对应到向量的其中之一；产生对应第一字串的第一向量组及对应第二字串的第二向量组；以及利用算法来计算第一向量组及第二向量组的相似度。

在本发明的一实施例中，上述算法为动态时间归整算法。

基于上述，本发明的网域名称识别方法及网域名称识别装置会将网域名称的字符分成多个群集并产生对应群集的多个向量，并进一步产生两个网域名称的向量组。最后再计算两个网域名称对应的两个向量组的相似度。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附附图作详细说明如下。

附图说明

图1为根据本发明一实施例的网域名称识别装置的方块图。

图2为根据本发明一实施例的群集对应向量的示意图。

图3A到图3C为根据本发明一实施例计算两个字串的相似度的范例。

图4为根据本发明一实施例的网域名称识别方法的流程图。

【符号说明】

100：网域名称识别装置

110：处理器

120：存储器

300：矩阵

301、302、303、304、305：元素

S401～S404：网域名称识别方法的步骤

具体实施方式

在一实施例中，欧基里德距离(Euclidean distance)、汉明距离(Hammingdistance)、编辑距离(Edit distance)及余弦相似度(Cosine similarity)可用来进行序列相似度计算。欧基里德距离及汉明距离限定欲比对的两个字串向量长度必须相同，然而在网域名称比对的情境中，大多时候各个网域名称的长度并不相同。编辑距离通过计算将一个字串转换为另一字串所需的最少编辑次数来比较两字串间的相似度。但最少编辑次数并没有办法有效反应出网域名称的相似度(例如，将“google”转换为“oogle”的最少编辑次数为1，而将“google”转换为“g00g1e”的最少编辑次数则为3，但实际上后者才是较难被使用者察觉的恶意网站)。余弦相似度必须先通过特定的向量化方式，将两组字串转成相同长度，然而中间的向量化过程容易导致网域名称的排列顺序失真。

图1为根据本发明一实施例的网域名称识别装置的方块图。

请参照图1，本发明一实施例的网域名称识别装置100包括处理器110及耦接到处理器110的存储器120。处理器110例如是中央处理单元(Central Processing Unit，CPU)，或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor，DSP)、可程序化控制器、特殊应用集成电路(ApplicationSpecific Integrated Circuit，ASIC)或其他类似元件或上述元件的组合。存储器120例如是任何型态的固定或可移动随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、快闪存储器(flash memory)、硬盘(Hard Disk Drive，HDD)、固态硬盘(Solid State Drive，SSD)或类似元件或上述元件的组合。网域名称识别装置100可为个人电脑、伺服器、笔记本电脑、平板电脑、智能手机等电子装置。

在一实施例中，处理器110可通过网域名称的比对来找出伪装成一般安全网站的恶意网站，并在使用者尚未受害之前，协助使用者察觉自己已经被导引进入一个高风险网站中。具体来说，当给定一个安全网域名称清单(例如，全球500大网站的网域名称清单，或称为白名单)时，处理器110可在使用者可以在进入特定网站之前比对特定网站的网域名称字串与白名单的网域名称字串的相似度。若特定网站的网域名称字串与白名单的网域名称字串的相似度过高，却又非白名单中的网域名称时，则处理器110可产生一个警示通知给使用者，以提醒使用者目前造访的网站可能是恶意网站。

在一实施例中，处理器110可将网域名称字串中的字符(character)分类成多个群集(cluster)。每个群集中可包括多个可能彼此容易被人眼误认的字符。表一为将字符分类成多个群集的范例，且表一可记录在存储器120中。

表一

群集	字符
		C0	其他符号
C1	o,0
		C2	p,q,g,9
C3	i,l,j,1

以goo.gl为例，在上述分类下goo.gl的每个字符会被转换成以下编码：

g	o	o	.	g	l
						C2	C1	C1	C0	C2	C3

除此之外，每个群集还能对应到一个单位向量，如图2所示。在上述范例中共有4个群集，因此每个群集对应的单位向量具有4个元素，且每个群集对应的单位向量彼此不重复。

以下将举例说明如何比对两个网域名称的字串的相似度。

请参照图3A，为了方便理解，假设第一字串及第二字串的长度分别为3及2，第一字串的第一字符、第二字符及第三字符分别被分类到群集C0、C1及C2，第二字串的第一字符及第二字符分别被分类到群集C1及C2。值得注意的是，在图3A到图3C的范例中，群集数量为三个(即，C0、C1及C2)。处理器110可基于动态时间归整(Dynamic Time Warping，DTW)算法来进行以下运算。

具体来说，处理器110可产生一个维度对应到第一字串及第二字串的长度的矩阵300(即，2x3的矩阵)。在矩阵300中，每个元素值的计算方式为计算每个元素对应的两个向量的距离，加上在此元素的左方元素、下方元素及左下方元素中的最小值。举例来说，由于元素301并没有左方元素、下方元素及左下方元素，因此元素301的值为C1及C0的距离2(两个群集的距离为两个群集的所有对应元素相减的绝对值的总和)。元素302的值则为C1及C1的距离0加上元素302的左方元素值2的总和2，因为元素302并没有下方元素及左下方元素。由于元素303的左方元素304、下方元素302、左下方元素301的最小值为2，且元素303对应的C1及C2的距离为2，因此元素303的值为2加上2等于4。其他元素的值可以此类推。

请参照图3B，在算出矩阵300中所有元素的值之后，处理器110会建立该矩阵中的最左下元素到最右上元素的最短距离路径。举例来说，处理器110会以元素305为基准找出元素305的左方元素、下方元素、左下方元素中具有最小值的元素302，并找出元素302的左方元素、下方元素、左下方元素中具有最小值的元素301(元素302并没有下方元素及左下方元素因此直接找出元素301)。因此，元素301、元素302及元素305构成了矩阵300的最短距离路径。

请参照图3C，处理器110会重新计算最短距离路径上所有元素对应的两个群集之间的距离。举例来说，元素301的值重新计算为C0及C1的距离2，元素302的值重新计算为C1及C1的距离0，元素305的值重新计算为C2及C2的距离0。

最后，处理器110会将最短距离路径上所有元素重新计算的值加总，再除以第一字串及第二字串的长度加总，来得到一个最终值。举例来说，最终值＝(2+0+0)/(2+3)＝0.4。当最终值越小代表两个字串的相似度越高。因此，处理器110可以在上述最终值小于一个门槛值时，发出警示通知来提醒使用者。

图4为根据本发明一实施例的网域名称识别方法的流程图。

请参照图4，在步骤S401中，获得第一网域名称的第一字串及第二网域名称的第二字串。

在步骤S402中，将第一字串及第二字串的多个字符分类成多个群集，并产生对应群集的多个向量，其中每个字符对应到向量的其中之一。

在步骤S403中，产生对应第一字串的第一向量组及对应第二字串的第二向量组。

在步骤S404中，利用算法来计算第一向量组及第二向量组的相似度。

综上所述，本发明的网域名称识别方法及网域名称识别装置会将网域名称的字符分成多个群集并产生对应群集的多个向量，并进一步产生两个网域名称的向量组。最后再计算两个网域名称对应的两个向量组的相似度。当相似度过高时可发出警示通知来提醒使用者。本发明在比对字串相似度采用动态时间归整算法，由于此算法基于动态规划所设计，因此能大幅降低比对时间。此外，本发明相对于网域名称黑名单的作法也能避免使用者受害后才能产生黑名单的状况。

虽然本发明已以实施例揭示如上，然其并非用以限定本发明，任何所属技术领域中的技术人员，在不脱离本发明的精神和范围内，当可作些许的更改与润饰，故本发明的保护范围当视权利要求所界定的为准。

Claims

1.一种网域名称识别方法，其特征在于，包括：

获得第一网域名称的第一字串及第二网域名称的第二字串；

将所述第一字串及所述第二字串的多个字符根据彼此之间的相似程度分类成多个群集，其中所述多个群集的每一个群集中包括多个可能彼此容易被人眼误认的字符，并产生对应所述多个群集的多个向量，其中每个所述多个字符对应到所述多个向量的其中之一；

产生对应所述第一字串的第一向量组及对应所述第二字串的第二向量组；以及

利用算法来计算所述第一向量组及所述第二向量组的相似度。

2.根据权利要求1所述的网域名称识别方法，其特征在于，其中所述第一字串及所述第二字串的长度不必相同。

3.根据权利要求1所述的网域名称识别方法，其特征在于，其中每个所述多个向量为单位向量，且不同的所述多个群集对应到不同的所述多个向量。

4.根据权利要求1所述的网域名称识别方法，其特征在于，其中所述算法为动态时间归整算法。

5.根据权利要求1所述的网域名称识别方法，其特征在于，其中所述算法产生维度对应所述第一字串的长度及所述第二字串的长度的矩阵，建立所述矩阵中的最左下元素到最右上元素的最短距离路径，计算所述最短距离路径上的每个元素对应的所述第一向量组的其中之一及所述第二向量组的其中之一的距离，并根据所述最短距离路径上的每个所述距离的总和来计算所述相似度。

6.根据权利要求5所述的网域名称识别方法，其特征在于，其中所述矩阵的每个元素的值为每个元素的所述距离加上每个元素的左方元素、下方元素及左下方元素的值的最小值的总和，且所述最短距离路径通过从所述矩阵的最右上元素选出所述最右上元素的左方元素、下方元素及左下方元素中元素值最小的元素来产生。

7.一种网域名称识别装置，其特征在于，包括：

处理器；以及

存储器，耦接到所述处理器，其中所述处理器：

获得第一网域名称的第一字串及第二网域名称的第二字串；

8.根据权利要求7所述的网域名称识别装置，其特征在于，其中所述第一字串及所述第二字串的长度不必相同。

9.根据权利要求7所述的网域名称识别装置，其特征在于，其中每个所述多个向量为单位向量，且不同的所述多个群集对应到不同的所述多个向量。

10.根据权利要求7所述的网域名称识别装置，其特征在于，其中所述算法为动态时间归整算法。

11.根据权利要求7所述的网域名称识别装置，其特征在于，其中所述算法产生维度对应所述第一字串的长度及所述第二字串的长度的矩阵，建立所述矩阵中的最左下元素到最右上元素的最短距离路径，计算所述最短距离路径上的每个元素对应的所述第一向量组的其中之一及所述第二向量组的其中之一的距离，并根据所述最短距离路径上的每个所述距离的总和来计算所述相似度。

12.根据权利要求11所述的网域名称识别装置，其特征在于，其中所述矩阵的每个元素的值为每个元素的所述距离加上每个元素的左方元素、下方元素及左下方元素的值的最小值的总和，且所述最短距离路径通过从所述矩阵的最右上元素选出所述最右上元素的左方元素、下方元素及左下方元素中元素值最小的元素来产生。