CN113449816A

CN113449816A - 网址分类模型训练、网址分类方法、装置、设备及介质

Info

Publication number: CN113449816A
Application number: CN202110820105.1A
Authority: CN
Inventors: 潘申龄; 周小明; 邓乔波; 李林翰; 黄之; 吴金鑫; 侯立冬; 孟宝权; 王杰; 杨满智; 蔡琳; 梁彧; 田野; 傅强; 金红; 陈晓光
Original assignee: Eversec Beijing Technology Co Ltd
Current assignee: Eversec Beijing Technology Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-09-28

Abstract

本发明实施例公开了一种网址分类模型训练、网址分类方法、装置、设备及介质。该网址分类模型训练方法，包括：获取网址训练数据；其中，所述网址训练数据包括URL地址和地址分类标签；根据所述网址训练数据生成字符向量矩阵和词向量矩阵；提取所述字符向量矩阵的特征向量作为第一特征向量，并提取所述词向量矩阵的特征向量作为第二特征向量；对所述第一特征向量和所述第二特征向量进行拼接，得到拼接特征向量；根据所述拼接特征向量对网址分类模型进行模型训练。本发明实施例的技术方案能够提高网址分类模型的查全率，从而提高网址分类模型的准确率和分类精度。

Description

网址分类模型训练、网址分类方法、装置、设备及介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及网址分类模型训练、网址分类方法、装置、设备及介质。

背景技术

随着互联网的发展，网络攻击成为日益重要的安全问题。钓鱼、木马、恶意软件等多种攻击类型，常常以恶意URL(Uniform Resource Locator，统一资源定位器)作为途径。因此，识别恶意URL对阻止各类网络攻击、维护网络安全具有重要意义。

随着人工智能的发展，深度学习方法被广泛应用于恶意URL检测，然而现有的深度学习方法仅以单方面的网址特征，如字符特征进行训练，导致模型语义学习能力和特征提取能力较差，模型准确率低。

发明内容

本发明实施例提供一种网址分类模型训练、网址分类方法、装置、设备及介质，以实现提高网址分类模型的查全率，从而提高网址分类模型的准确率和分类精度。

第一方面，本发明实施例提供了一种网址分类模型训练方法，包括：

获取网址训练数据；其中，所述网址训练数据包括URL地址和地址分类标签；根据所述网址训练数据生成字符向量矩阵和词向量矩阵；

提取所述字符向量矩阵的特征向量作为第一特征向量，并提取所述词向量矩阵的特征向量作为第二特征向量；

对所述第一特征向量和所述第二特征向量进行拼接，得到拼接特征向量；

根据所述拼接特征向量对网址分类模型进行模型训练。

第二方面，本发明实施例还提供了一种网址分类方法，包括：

获取待检测网址数据；

将所述待检测网址数据输入至网址分类模型中，得到所述待检测网址数据的标签预测结果；其中，所述标签预测结果包括预测标签和标签概率；

在确定所述标签概率大于或等于预设标签概率阈值的情况下，将所述预测标签作为所述待检测网址数据的网址标签。

第三方面，本发明实施例还提供了一种网址分类模型训练装置，包括：

网址训练数据获取模块，用于获取网址训练数据；其中，所述网址训练数据包括URL地址和地址分类标签；

向量矩阵生成模块，用于根据所述网址训练数据生成字符向量矩阵和词向量矩阵；

特征向量提取模块，用于提取所述字符向量矩阵的特征向量作为第一特征向量，并提取所述词向量矩阵的特征向量作为第二特征向量；

特征向量拼接模块，用于对所述第一特征向量和所述第二特征向量进行拼接，得到拼接特征向量；

网址分类模型训练模块，用于根据所述拼接特征向量对网址分类模型进行模型训练。

第四方面，本发明实施例还提供了一种网址分类装置，包括：

待检测网址数据获取模块，用于获取待检测网址数据；

标签预测结果获取模块，用于将所述待检测网址数据输入至网址分类模型中，得到所述待检测网址数据的标签预测结果；其中，所述标签预测结果包括预测标签和标签概率；

网址标签确定模块，用于在确定所述标签概率大于或等于预设标签概率阈值的情况下，将所述预测标签作为所述待检测网址数据的网址标签。

第五方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现第一方面所提供的网址分类模型训练方法，或者第二方面所提供的网址分类方法。

第四方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所提供的网址分类模型训练方法，或者第二方面所提供的网址分类方法。

本发明实施例通过获取网址训练数据，其中，网址训练数据包括URL地址和地址分类标签，并根据网址训练数据生成字符向量矩阵和词向量矩阵，提取字符向量矩阵的特征向量作为第一特征向量，并提取词向量矩阵的特征向量作为第二特征向量，并对第一特征向量和第二特征向量进行拼接，从而得到拼接特征向量，再根据拼接特征向量对网址分类模型进行模型训练，以利用训练成功的网址分类模型对待检测网址数据进行网址分类，解决现有网址分类模型准确率低的问题，能够提高网址分类模型查全率，从而提高网址分类模型的准确率和分类精度。

附图说明

图1是本发明实施例一提供的一种网址分类模型训练方法的流程图；

图2是本发明实施例二提供的一种网址分类模型训练方法的流程图；

图3是本发明实施例二提供的一种网址分类模型的结构示意图；

图4是本发明实施例二提供的一种网址分类方法的流程图；

图5是本发明实施例四提供的一种网址检测方法的具体示例流程图；

图6是本发明实施例五提供的一种网址分类模型训练装置的示意图；

图7是本发明实施例六提供的一种网址分类装置的示意图；

图8为本发明实施例七提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本发明实施例的说明书和权利要求书及附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

实施例一

图1是本发明实施例一提供的一种网址分类模型训练方法的流程图，本实施例可适用于利用多维度的网址特征对网址分类模型进行训练的情况，该方法可以由网址分类模型训练装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在执行本方法的电子设备中。如图1所示，网址分类模型训练方法具体可以包括以下步骤：

S110、获取网址训练数据；其中，所述网址训练数据包括URL地址和地址分类标签。

其中，网址训练数据可以是任意类型的，用于网址分类模型训练的网址数据，本发明实施例对此并不进行限制。

在本发明实施例中，可以将网址训练数据作为输入至网址分类模型中，以利用网址训练数据对模型进行优化训练。

具体的，网址训练数据可以包括但不限于URL地址和地址分类标签等。其中，URL地址可以是网址训练数据中的URL地址，地址分类标签可以是网址训练数据中的URL地址的分类标签。示例性的，网址训练数据的地址分类标签可以是恶意网址或正常网址。

S120、根据所述网址训练数据生成字符向量矩阵和词向量矩阵。

其中，字符向量矩阵可以是网址训练数据中字符特征向量的矩阵。词向量矩阵可以是网址训练数据中词特征向量的矩阵。

可以理解的是，每个网址训练数据都可以由多个字符以及多个词组成。字符和词可以分别包含网址不同类型的特征。因此，在本发明实施例中，网址分类模型在获取网址训练数据之后，可以进一步根据网址训练数据生成字符向量矩阵和词向量矩阵，以分别根据字符向量矩阵和词向量矩阵提取网址训练数据的字符特征和词特征。

S130、提取所述字符向量矩阵的特征向量作为第一特征向量，并提取所述词向量矩阵的特征向量作为第二特征向量。

其中，第一特征向量可以是字符向量矩阵中提取出的字符特征向量。第二特征向量可以是词向量矩阵中提取出的词特征向量。

在本发明实施例中，网址分类模型在根据网址训练数据生成字符向量矩阵和词向量矩阵之后，可以进一步提取字符向量矩阵的特征向量作为第一特征向量，并提取词向量矩阵的特征向量作为第二特征向量，以实现多维度特征的提取。

S140、对所述第一特征向量和所述第二特征向量进行拼接，得到拼接特征向量。

其中，拼接特征向量可以是由第一特征向量和第二特征向量拼接而成的特征向量，可选的，拼接特征向量可以为序列型特征向量。

在本发明实施例中，网址分类模型在获取第一特征向量和第二特征向量之后，可以进一步对第一特征向量和第二特征向量进行拼接，从而得到拼接特征向量。

S150、根据所述拼接特征向量对网址分类模型进行模型训练。

在本发明实施例中，网址分类模型获取拼接特征向量之后，可以进一步根据拼接特征向量对网址分类模型进行模型训练，由于拼接特征向量包括了网址训练数据的多维度特征，因此利用拼接特征向量训练网址分类模型，能够提升模型的语义学习能力和特征抽取能力，从而提高网址分类模型的查全率，进一步提高网址分类模型的准确率和分类精度。

本实施例的技术方案，通过获取网址训练数据，其中，网址训练数据包括URL地址和地址分类标签，并根据网址训练数据生成字符向量矩阵和词向量矩阵，提取字符向量矩阵的特征向量作为第一特征向量，并提取词向量矩阵的特征向量作为第二特征向量，并对第一特征向量和第二特征向量进行拼接，从而得到拼接特征向量，再根据拼接特征向量对网址分类模型进行模型训练，解决现有网址分类模型准确率低的问题，实现提高网址分类模型的查全率，从而提高网址分类模型的准确率和分类精度。

实施例二

图2是本发明实施例二提供的一种网址分类模型训练方法的流程图，本实施例是对上述各技术方案的进一步细化，给出了根据网址训练数据生成字符向量矩阵和词向量矩阵以及根据拼接特征向量对网址分类模型进行模型训练的多种具体可选的实现方式。本实施例中的技术方案可以与上述一个或多个实施例中的各个可选方案结合。其中，图3是本发明实施例二提供的一种网址分类模型的结构示意图，如图3所示，网址分类模型可以包括网址输入层310、字符嵌入层321、词嵌入层322、字符CNN特征提取层331、词CNN特征提取层332、向量拼接层340、RNN(Recurrent Neuron Network，循环神经网络)特征提取层350、FC层(fully connected layers，全连接层)360以及输出层370。需要说明的是，网址分类模型的程序可以用python、java、c++或c等其他语言进行开发，本发明实施例对此并不进行限制。

可选的，在该网址分类模式的训练过程中，可以选取合适的深度学习模型结构超参数和训练超参数，具体可以包括以下参数：

RNN层次结构可以采用Vanilla-RNN、LSTM和GRU等循环神经网络结构；最长词序列长度：默认200；最长字符序列长度：默认200；最小词频：默认1；滤波器长度列表：默认3，4，5，6；epoch数目：默认5；batch-size：默认1024；学习率：默认0.001；优化器：Adam。

相应的，如图2所示，本实施例的方法可以包括如下步骤：

S210、获取原始网址训练数据。

其中，原始网址训练数据可以是网址分类模型获取的最初的网址训练数据。

在本发明实施例中，在将网址训练数据输入至网址分类模型之前，可以首先获取原始网址训练数据，并对原始网址训练数据进行数据预处理生成网址训练数据，以提高网址训练数据的精准度。

在本发明实施例的一个具体实施方式中，原始网址训练数据可以包括URL地址和地址分类标签。

S220、对所述原始网址训练数据进行预处理，得到目标网址训练数据。

其中，目标网址训练数据可以是对原始网址训练数据进行预处理后得到的数据。

在本发明实施例中，在获取原始网址训练数据之后，可以进一步对原始网址训练数据进行预处理，例如可以删除原始网址训练数据中的冗余数据，以得到目标网址训练数据。示例性的，可以删除原始网址训练数据中的“http”、“www”和“html”等无具体意义的前缀或后缀。本发明实施例对预处理的具体内容不进行具体限制。

S230、从所述目标网址训练数据中划分设定比例的数据作为所述网址训练数据。

其中，设定比例可以是预先设定的，在目标网址训练数据中划分出一定比例的网址训练数据。例如可以是划分目标网址训练数据中80％的数据作为网址训练数据，也可以是划分目标网址训练数据中70％的数据作为网址训练数据，本发明实施例对设定比例的具体数值并不进行限制。

在本发明实施例中，在得到目标网址训练数据之后，可以进一步从目标网址训练数据中划分设定比例的数据作为网址训练数据，以对网址分类模型进行训练。

S240、获取网址训练数据。

S250、根据所述网址训练数据确定字符编码映射表和词编码映射表。

其中，字符编码映射表可以是字符和字符编码的映射关系表，例如可以是字符和字符对应的ID序列的映射关系表，也可称为以字符为编码单位的词典。词编码映射表可以是词和词编码的映射关系表，例如可以是词和词对应的ID序列的映射关系表，也可称为以词为编码单位的词典。

在本发明实施例中，在获取网址训练数据之后，可以进一步根据网址训练数据确定字符编码映射表和词编码映射表，以便根据网址训练数据中的字符确定字符对应的ID序列，以及根据网址训练数据中的词确定词对应的ID序列。

S260、对所述网址训练数据进行分字符处理和分词处理，得到分字符结果和分词结果。

其中，分字符处理可以是将网址训练数据中的字符按字符编码映射表中的字符进行分字符处理。分词处理可以是将网址训练数据中按词编码映射表中的词进行分词处理。分字符结果可以是经过分字符处理后得到的分字符结果。分词结果可以是经过分词处理后得到的分词结果。示例性的，如果字符编码映射表中包括字符A，则可以对网址训练数据中的字符A进行提取，从而实现分字符处理。如果词编码映射表中包括词AB，则可以对网址训练数据中的词AB进行提取，从而实现分词处理。本发明实施例对此并不进行限制。

在本发明实施例中，网址分类模型的网址输入层310在获取网址训练数据之后，可以进一步对网址训练数据中涉及的字符和词分别进行分字符处理和分词处理，从而得到分字符结果和分词结果。

S270、根据所述分字符结果和所述字符编码映射表生成所述字符向量矩阵。

在本发明实施例中，在网址分类模型的网址输入层310对网址训练数据进行分字符处理得到分字符结果之后，网址分类模型的字符嵌入层321可以进一步根据分字符结果和字符编码映射表生成字符向量矩阵。

在一个具体示例中，网址分类模型的网址输入层310对网址训练数据进行分字符处理后，可以根据字符编码映射表生成字符对应的ID序列，则字符s的映射u可以表示为：

s→u＝(u₁,...,u_n)；

其中，u_i表示对应字符的ID序列，n表示字符序列的长度。

在一个具体示例中，网址分类模型的字符嵌入层321可以进一步根据字符映射u和字符数量生成字符向量矩阵：

其中，W_char表示字符向量矩阵，m1表示字符的数量，k1表示字符向量的维度。其中，字符向量的维度可以是自定义的用于表示字符的数字个数。例如，如果k1为50，则说明有50个数字表示一个字符。

S280、根据所述分词结果和所述词编码映射表生成所述词向量矩阵。

在本发明实施例中，在网址分类模型的网址输入层310对网址训练数据进行分词处理得到分词结果之后，网址分类模型的词嵌入层322可以进一步根据分词结果和词编码映射表生成词向量矩阵。

在一个具体示例中，网址分类模型的网址输入层310对网址训练数据进行分词处理后，可以根据词编码映射表生成词对应的ID序列，则词p的映射v可以表示为：

p→v＝(v₁,...,v_n)；

其中，v_i表示对应词的ID序列，n表示词序列的长度。

在一个具体示例中，网址分类模型的词嵌入层322可以进一步根据词映射v和词数量生成词向量矩阵：

其中，W_word表示词向量矩阵，m2表示词的数量，k2表示词向量的维度。其中，词向量的维度可以是自定义的用于表示词的数字个数。例如，如果k2为100，则说明有100个数字表示一个词。

S290、提取所述字符向量矩阵的特征向量作为第一特征向量，并提取所述词向量矩阵的特征向量作为第二特征向量。

可选的，第一特征向量和第二特征向量可以为CNN特征向量。

在一个具体示例中，在网址分类模型的词嵌入层322生成字符向量矩阵之后，可以将字符向量矩阵通过矩阵运算转换成字符特征向量，即u->x＝(x₁,...,x_n)，其中x_i表示第i维向量。相应的，在网址分类模型的词嵌入层322生成词向量矩阵之后，可以将词向量矩阵通过矩阵运算转换成词特征向量，即v->y＝(y₁,...,y_n)，其中y_i表示第i维向量。

可选的，在网址分类模型的字符嵌入层321提取字符特征向量和词嵌入层322提取词特征向量之后，字符CNN特征提取层331可以进一步将字符特征向量通过不同的卷积层，且词CNN特征提取层332可以进一步将词特征向量通过不同的卷积层，并分别进行局部特征提取。通过设置不同尺寸的滤波器，将提取的不同尺寸的特征向量，并进行拼接，最终分别获得第一特征向量和第二特征向量。

上述技术方案，通过对网址训练数据中的字符进行分字符处理，以根据分字符处理的结果进行字符CNN特征的提取过程，可以根据特定组合的字符特征识别到网址训练数据的关键字符的组合信息。通过对网址训练数据中的词进行分词处理，以根据分词处理的结果进行词CNN特征的提取过程，可以根据特征词组合的词特征识别到网址训练数据的关键词的组合信息。

示例性的，对于每个卷积滤波器的操作可以表示如下：

其中，

表示提取到的字符特征向量，

表示提取到的词特征向量，

表示长度为t的滤波器w∈R^k×t对x或y进行卷积操作，b_i表示偏置量，f表示非线性激活函数。最终，所有字符CNN特征提取层331和词CNN特征提取层332输出的新的特征向量可以表示为：

其中，

和

分别表示为经过字符CNN特征提取层331和词CNN特征提取层332提取出的一个新的特征向量，W_char表示第一特征向量，W_word表示第二特征向量。

S2100、对所述第一特征向量和所述第二特征向量进行拼接，得到拼接特征向量。

示例性的，网址分类模型的向量拼接层340可以将第一特征向量和第二特征向量进行拼接，获得CNN特征提取向量：

其中，

表示向量的拼接操作，W表示拼接特征向量。由于第一特征向量和第二特征向量均为CNN特征向量，所以拼接特征向量也可以为CNN特征向量。

S2110、对所述拼接特征向量提取序列特征，得到序列特征向量。

其中，序列特征可以是通过RNN特征提取层350对拼接特征向量提取到的序列特征。序列特征向量可以是序列特征生成的特征向量，例如可以是最后一个时间步长的隐藏层的输出向量。

在本发明实施例中，在向量拼接层340得到拼接特征向量之后，可以进一步将拼接特征向量输入RNN特征提取层350中进行序列特征提取，从而获取序列特征向量。

可选的，RNN特征提取层350可以采用Vanilla-RNN、LSTM(Long Short-TermMemory，长短期记忆网络)和GRU(Gated Recurrent Unit，门控循环单元)等循环神经网络结构。示例性的，如果RNN特征提取层350采用LSTM结构，则循环神经网络的第t个时间步长的数据操作可表示如下：

i^(t)＝σ(W⁽ⁱ⁾g^(t)+U⁽ⁱ⁾h^(t-1)+b_i)；

f^(t)＝σ(W^(f)g^(t)+U^(f)h^(t-1)+b_f)；

o^(t)＝σ(W^(o)g^(t)+U^(o)h^(t-1)+b_o)；

h^(t)＝o^(t)tanh(c^(t))；

其中，g^(t)表示字符CNN特征提取层331和词CNN特征提取层332的特征输出量，i^(t)、f^(t)、o^(t)分别表示t时刻LSTM结构中输入门、遗忘门和输出门的输出，

表示新的候选值向量，c^(t)表示新的细胞状态，h^(t)表示隐藏状态，σ为sigmoid激活函数，W⁽ⁱ⁾、U⁽ⁱ⁾、W^(f)、U^(f)、W^(o)、U^(o)、W^(c)、U^(c)均表示线性关系的权重系数，b_i、b_f、b_o、b_c为偏置量。

S2120、对所述序列特征向量进行非线性映射变换，得到序列变换特征向量。

其中，序列变化特征向量可以是对序列特征向量进行非线性映射变换得到的。

在本发明实施例中，在网址分类模型的RNN特征提取层350获取序列特征向量之后，网址分类模型的FC层360可以进一步对序列特征向量进行非线性映射变换，从而得到序列变换特征向量，以提高网址分类模型的拟合程度和抽象性。

上述技术方案，通过将CNN结构和RNN结构相结合，提升了网址分类模型的特征抽取能力。

S2130、根据所述序列变换特征向量预测网址训练数据的标签预测结果；其中，所述标签预测结果包括预测标签和标签概率。

其中，网址训练数据的标签预测结果可以是网址训练数据通过网址分类模型识别得到的网址标签预测结果。网址训练数据的预测标签可以是标识网址训练数据的标签，例如可以是标识网址训练数据是恶意网址的“恶意网址”预测标签，也可以是标识网址训练数据是正常网址的“正常网址”预测标签。网址训练数据的标签概率可以是通过网址分类模型识别的预测标签对应的概率，例如通过网址分类模型识别的网址训练数据是恶意网址的概率是80％，则预测标签“恶意网址”的标签概率为“80％”。

在本发明实施例中，在网址分类模型的FC层360获得序列变换特征向量之后，网址分类模型的输出层370可以进一步根据序列变换特征向量预测网址训练数据的预测标签和标签概率，以便对网址分类模型进行训练。

可选的，网址分类模型的输出层370可以包括2个神经元，以对序列变化特征向量进行sigmoid变换，从而获得最终的标签概率。示例性的，sigmoid函数如下所示：

其中，x_i表示神经元的输出结果。

S2140、对所述网址分类标签和所述标签预测结果进行对比，以确定所述网址分类模型的训练效果。

在本发明实施例中，在网址分类模型的输出层370获取标签预测结果之后，可以进一步将网址分类标签与标签预测结果进行对比，从而确定网址分类模型的训练效果。示例性的，如果网址训练数据的网址分类标签为“恶意网址”，且该网址训练数据通过网址分类模型识别出的预测标签为“恶意网址”，标签概率为95％，则说明该网址训练数据对网址分类模型的训练效果是有效的。如果网址训练数据的网址分类标签为“恶意网址”，且该网址训练数据通过网址分类模型识别出的预测标签为“恶意网址”，标签概率为35％，则说明该网址训练数据对网址分类模型的训练效果是无效的。

S2150、获取网址测试数据。

其中，网址测试数据可以是用于网址分类模型测试的数据。

在本发明实施例中，在对网址分类模型完成训练之后，可以进一步在目标网址训练数据中获取网址测试数据。

S2160、根据所述网址测试数据对所述网址分类模型进行模型评估。

在本发明实施例中，在获取网址测试数据之后，可以进一步根据网址测试数据对网址分类模型进行模型评估，以确定网址分类模型的可用性。可以理解的是，如果网址分类模型的准确率高于设定的线上应用标准，则该网址分类模型可以进行线上应用。

上述技术方案，通过选取合适的深度学习模型结构超参数、训练超参数和网址训练数据，对模型进行训练，当达到设置的训练epoch数目后，停止训练并对模型进行保存。也可以采取Early Stopping(早停法)对模型进行提前停止训练的控制。

本实施例的技术方案，通过获取原始网址训练数据后对原始网址训练数据进行预处理，得到目标网址训练数据，并从目标网址训练数据中划分设定比例的数据作为网址训练数据，在获取网址训练数据后根据网址训练数据确定字符编码映射表和词编码映射表，对网址训练数据进行分字符处理和分词处理，从而得到分字符结果和分词结果，再根据分字符结果和字符编码映射表生成字符向量矩阵，根据分词结果和词编码映射表生成词向量矩阵，提取字符向量矩阵的特征向量作为第一特征向量，并提取词向量矩阵的特征向量作为第二特征向量，对第一特征向量和第二特征向量进行拼接，得到拼接特征向量后，对拼接特征向量提取序列特征，得到序列特征向量，再对序列特征向量进行非线性映射变换，得到序列变换特征向量，根据序列变换特征向量预测网址训练数据的标签预测结果，对网址分类标签和标签预测结果进行对比，以确定网址分类模型的训练效果，获取网址测试数据，根据网址测试数据对网址分类模型进行模型评估，解决了现有网址分类模型准确率低的问题，从而提高网址分类模型的训练效果和提高网址分类模型的查全率，进而提高网址分类模型的准确率和分类精度。

实施例三

图4是本发明实施例二提供的一种网址分类方法的流程图，本实施例可适用于使用上述各技术方案中的网址分类模型进行网址分类的情况，该方法可以由网址分类装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在执行本方法的电子设备中。如图4所示，网址分类方法具体可以包括以下步骤：

S410、获取待检测网址数据。

其中，待检测网址数据可以是使用网址分类模型进行检测的网址数据。在本发明实施例中，网址分类模型可以获取待检测网址数据，以对待检测网址数据进行识别。

S420、将所述待检测网址数据输入至网址分类模型中，得到所述待检测网址数据的标签预测结果；其中，标签预测结果包括预测标签和标签概率。

其中，待检测网址数据的标签预测结果可以是待检测网址数据通过网址分类模型识别得到的网址标签预测结果。待检测网址数据的预测标签可以是标识待检测网址数据的标签。待检测网址数据的标签概率可以是通过网址分类模型识别的预测标签对应的概率。

在本发明实施例中，在将待检测网址数据输入至网址分类模型之后，可以进一步通过网址分类模型识别得到待检测网址数据的预测标签和标签概率，以对待检测网址数据进行识别。

S430、判断标签概率是否大于或等于预设标签概率阈值；若是，执行S440，否则，执行S450。

其中，预设标签概率阈值可以是预设的标签概率阈值。可以理解的是，如果标签概率大于或等于预设标签概率阈值，说明通过网址分类模型识别得到的预测标签的概率值较大，此时该预测标签可以作为待检测网址数据的网址标签。如果标签概率小于预设标签概率阈值，说明通过网址分类模型识别得到的预测标签的概率值较小，此时该预测标签不可以作为待检测网址数据的网址标签。

在本发明实施例中，在得到待检测网址数据的标签预测结果之后，可以进一步判断标签概率是否大于或等于预设标签概率阈值。

S440、将所述预测标签作为所述待检测网址数据的网址标签。

在本发明实施例中，当标签概率大于或等于预设标签概率阈值时，可以将预测标签作为待检测网址数据的网址标签，从而实现对待检测网址的识别。示例性的，如果预设标签概率阈值为85％，且预测标签对应的标签概率大于或等于85％时，则将该预测标签作为待检测网址数据的网址标签。

S450、拒绝将所述预测标签作为所述待检测网址数据的网址标签。

在本发明实施例中，当标签概率小于预设标签概率阈值时，可以拒绝将预测标签作为待检测网址数据的网址标签。

本实施例的技术方案，通过获取待检测网址数据，将待检测网址数据输入至网址分类模型中，得到待检测网址数据的标签预测结果，在标签概率大于或等于预设标签概率阈值时，将预测标签作为待检测网址数据的网址标签，实现了网址的自动识别，无需维护黑名单或指定规则，且能够提高网址分类模型的查全率，从而提高网址分类模型的准确率和分类精度。

实施例四

本发明实施例以网址检测应用场景为例具体说明，随着互联网的发展，网络攻击成为日益重要的安全问题。钓鱼、木马、恶意软件等多种攻击类型，常常以恶意URL作为途径。因此，识别恶意URL对阻止各类网络攻击、维护网络安全具有重要意义。图5是本发明实施例四提供的一种网址检测方法的具体示例流程图，如图5所示，具体可以包括以下步骤：

S1、数据采集：采集若干正常网址和恶意网址，构成网址训练数据，每条样本数据包括：URL地址和其对应的分类标签：正常或者恶意。对网址训练数据进行预处理操作，去除“www.”、“http://”、“https://”和“.html”等不需要的前缀和后缀，保存经预处理的网址训练数据。最后，按一定比例进行划分，获得网址训练数据和网址测试数据，其中网址训练数据用于模型训练，网址测试数据用于网址分类模型评估。

S2、模型开发：网址分类模型结构可以为多Level-CRNN模型结构，具体可以包括网址输入层、字符嵌入层、词嵌入层、字符CNN特征提取层、词CNN特征提取层、向量拼接层、RNN特征提取层、FC层以及输出层。

S3、模型训练：选取合适的深度学习模型结构超参数和训练超参数，并利用上述超参数和网址训练数据对网址分类模型进行训练。

S4、模型评估：可以采用不同的超参数组合对网址分类模型进行训练，并利用网址测试数据对保存的网址分类模型进行评估测试。采用准确率最高的网址分类模型为最优网址分类模型，若其准确率高于线上应用标准，则该网址分类模型可进行线上应用。

S5、线上应用：采用最优网址分类模型对恶意URL进行线上应用，具体可以是：获取待检测的URL地址；对URL地址进行预处理操作，处理URL样本数据，首先进行预处理，去除“www.”、“http://”、“https://”和“.html”等不需要的前缀和后缀；将经过预处理的URL地址输入网址分类模型，经过网址分类模型的前向运算；获得最终的网址分类模型输出结果，包括：预测标签：恶意或者正常，及其对应的概率值，若该概率值大于预设的阈值，则采用网址分类模型的预测标签，否则不确定该URL地址是否为恶意，需要进行进一步的判断。

本实施例的技术方案，通过设计多Level-CRNN深度学习模型，从而实现恶意网址的自动检测；通过采用CRNN的模型层次结果，将CNN结构与RNN结构相结合，从而提升模型的特征抽取能力；通过采用多level嵌入标识，可以优化网址分类模型的语义学习能力。

实施例五

图6是本发明实施例五提供的一种网址分类模型训练装置的示意图，如图6所示，所述装置包括：网址训练数据获取模块610、向量矩阵生成模块620、特征向量提取模块630、特征向量拼接模块640以及网址分类模型训练模块650，其中：

网址训练数据获取模块610，用于获取网址训练数据；其中，所述网址训练数据包括URL地址和地址分类标签；

向量矩阵生成模块620，用于根据所述网址训练数据生成字符向量矩阵和词向量矩阵；

特征向量提取模块630，用于提取所述字符向量矩阵的特征向量作为第一特征向量，并提取所述词向量矩阵的特征向量作为第二特征向量；

特征向量拼接模块640，用于对所述第一特征向量和所述第二特征向量进行拼接，得到拼接特征向量；

网址分类模型训练模块650，用于根据所述拼接特征向量对网址分类模型进行模型训练。

可选的，第一特征向量和第二特征向量可以为CNN特征向量。

可选的，网址分类模型训练模块650，还可以进一步用于：对所述拼接特征向量提取序列特征，得到序列特征向量；对所述序列特征向量进行非线性映射变换，得到序列变换特征向量；根据所述序列变换特征向量预测网址训练数据的标签预测结果；其中，所述标签预测结果包括预测标签和标签概率；对所述地址分类标签和所述标签预测结果进行对比，以确定所述网址分类模型的训练效果。

可选的，向量矩阵生成模块620，还可以进一步用于：根据所述网址训练数据确定字符编码映射表和词编码映射表；对所述网址训练数据进行分字符处理和分词处理，得到分字符结果和分词结果；根据所述分字符结果和所述字符编码映射表生成所述字符向量矩阵；根据所述分词结果和所述词编码映射表生成所述词向量矩阵。

可选的，所述装置还可以包括：

原始网址训练数据获取模块，用于获取原始网址训练数据；

目标网址训练数据生成模块，用于对所述原始网址训练进行预处理，得到目标网址训练数据；

网址训练数据划分模块，用于从所述目标网址训练数据中划分设定比例的数据作为所述网址训练数据。

可选的，所述装置还可以进一步包括：

网址测试数据获取模块，用于获取网址测试数据；

网址分类模型评估模块，用于根据所述网址测试数据对所述网址分类模型进行模型评估。

上述网址分类模型训练装置可执行本发明任意实施例所提供的网址分类模型训练方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的网址分类模型训练方法。

由于上述所介绍的网址分类模型训练装置为可以执行本发明实施例中的网址分类模型训练方法的装置，故而基于本发明实施例中所介绍的网址分类模型训练方法，本领域所属技术人员能够了解本实施例的网址分类模型训练装置的具体实施方式以及其各种变化形式，所以在此对于该网址分类模型训练装置如何实现本发明实施例中的网址分类模型训练方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中网址分类模型训练方法所采用的装置，都属于本申请所欲保护的范围。

实施例六

图7是本发明实施例六提供的一种网址分类装置的示意图，如图7所示，所述装置包括：待检测网址数据获取模块710、标签预测结果获取模块720以及网址标签确定模块730，其中：

待检测网址数据获取模块710，用于获取待检测网址数据；

标签预测结果获取模块720，用于将所述待检测网址数据输入至网址分类模型中，得到所述待检测网址数据的标签预测结果；其中，所述标签预测结果包括预测标签和标签概率；

网址标签确定模块730，用于在确定所述标签概率大于或等于预设标签概率阈值的情况下，将所述预测标签作为所述待检测网址数据的网址标签。

本实施例的技术方案，通过获取待检测网址数据，将待检测网址数据输入至网址分类模型中，得到待检测网址数据的标签预测结果，在标签概率大于或等于预设标签概率阈值时，将预测标签作为待检测网址数据的网址标签，解决现有网址分类模型准确率低的问题，实现提高网址分类模型的查全率，从而提高网址分类模型的准确率和分类精度。

上述网址分类装置可执行本发明任意实施例所提供的网址分类方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的网址分类方法。

由于上述所介绍的网址分类装置为可以执行本发明实施例中的网址分类方法的装置，故而基于本发明实施例中所介绍的网址分类方法，本领域所属技术人员能够了解本实施例的网址分类装置的具体实施方式以及其各种变化形式，所以在此对于该网址分类装置如何实现本发明实施例中的网址分类方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中网址分类方法所采用的装置，都属于本申请所欲保护的范围。

实施例七

图8为本发明实施例七提供的一种电子设备的结构示意图。如图8所示，该电子设备包括处理器810、存储器820、输入装置830和输出装置840；电子设备中处理器810的数量可以是一个或多个，图8中以一个处理器810为例；电子设备中的处理器810、存储器820、输入装置830和输出装置840可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器820作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的网址分类模型训练方法对应的程序指令/模块(例如，网址分类模型训练装置中的网址训练数据获取模块610、向量矩阵生成模块620、特征向量提取模块630、特征向量拼接模块640以及网址分类模型训练模块650)。处理器810通过运行存储在存储器820中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的网址分类模型训练方法：获取网址训练数据；其中，所述网址训练数据包括URL地址和地址分类标签；根据所述网址训练数据生成字符向量矩阵和词向量矩阵；提取所述字符向量矩阵的特征向量作为第一特征向量，并提取所述词向量矩阵的特征向量作为第二特征向量；对所述第一特征向量和所述第二特征向量进行拼接，得到拼接特征向量；根据所述拼接特征向量对网址分类模型进行模型训练。

或者，存储器820作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的网址分类方法对应的程序指令/模块(例如，网址分类装置中的待检测网址数据获取模块710、标签预测结果获取模块720以及网址标签确定模块730)。处理器810通过运行存储在存储器820中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的网址分类方法：获取待检测网址数据；将所述待检测网址数据输入至网址分类模型中，得到所述待检测网址数据的标签预测结果；其中，所述标签预测结果包括预测标签和标签概率；在确定所述标签概率大于或等于预设标签概率阈值的情况下，将所述预测标签作为所述待检测网址数据的网址标签。

存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器820可进一步包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

实施例八

本发明实施例八还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的网址分类模型训练方法：获取网址训练数据；其中，所述网址训练数据包括URL地址和地址分类标签；根据所述网址训练数据生成字符向量矩阵和词向量矩阵；提取所述字符向量矩阵的特征向量作为第一特征向量，并提取所述词向量矩阵的特征向量作为第二特征向量；对所述第一特征向量和所述第二特征向量进行拼接，得到拼接特征向量；根据所述拼接特征向量对网址分类模型进行模型训练。

或所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的网址分类方法：获取待检测网址数据；将所述待检测网址数据输入至网址分类模型中，得到所述待检测网址数据的标签预测结果；其中，所述标签预测结果包括预测标签和标签概率；在确定所述标签概率大于或等于预设标签概率阈值的情况下，将所述预测标签作为所述待检测网址数据的网址标签。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory，ROM)、可擦式可编程只读存储器((Erasable Programmable Read OnlyMemory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种网址分类模型训练方法，其特征在于，包括：

获取网址训练数据；其中，所述网址训练数据包括URL地址和地址分类标签；

根据所述网址训练数据生成字符向量矩阵和词向量矩阵；

根据所述拼接特征向量对网址分类模型进行模型训练。

2.根据权利要求1所述的方法，其特征在于，所述第一特征向量和所述第二特征向量为卷积神经网络CNN特征向量；

所述根据所述拼接特征向量对文本识别模型进行模型训练，包括：

对所述拼接特征向量提取序列特征，得到序列特征向量；

对所述序列特征向量进行非线性映射变换，得到序列变换特征向量；

根据所述序列变换特征向量预测文本训练数据的标签预测结果；其中，所述标签预测结果包括预测标签和标签概率；

对所述网址分类标签和所述标签预测结果进行对比，以确定所述网址分类模型的训练效果。

3.根据权利要求1所述的方法，其特征在于，所述根据所述网址训练数据生成字符向量矩阵和词向量矩阵，包括：

根据所述网址训练数据确定字符编码映射表和词编码映射表；

对所述网址训练数据进行分字符处理和分词处理，得到分字符结果和分词结果；

根据所述分字符结果和所述字符编码映射表生成所述字符向量矩阵；

根据所述分词结果和所述词编码映射表生成所述词向量矩阵。

4.根据权利要求1所述的方法，其特征在于，在获取网址训练数据之前，还包括：

获取原始网址训练数据；

对所述原始网址训练数据进行预处理，得到目标网址训练数据；

从所述目标网址训练数据中划分设定比例的数据作为所述网址训练数据。

5.根据权利要求1所述的方法，其特征在于，在所述根据所述拼接特征向量对网址分类模型进行模型训练之后，还包括：

获取网址测试数据；

根据所述网址测试数据对所述网址分类模型进行模型评估。

6.一种网址分类方法，其特征在于，包括：

获取待检测网址数据；

7.一种网址分类模型训练装置，其特征在于，包括：

8.一种网址分类装置，其特征在于，包括：

待检测网址数据获取模块，用于获取待检测网址数据；

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的网址分类模型训练方法，或者实现如权利要求6中所述的网址分类方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的网址分类模型训练方法，或者实现如权利要求6中所述的网址分类方法。