CN114244603B

CN114244603B - 异常检测及对比嵌入模型训练、检测方法、装置及介质

Info

Publication number: CN114244603B
Application number: CN202111539786.0A
Authority: CN
Inventors: 陈龙
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2024-02-23
Anticipated expiration: 2041-12-15
Also published as: CN114244603A

Abstract

本申请实施例中提供异常检测及对比嵌入模型训练、检测方法、装置及介质，异常检测方法包括：获取待检测样本；预处理所述待检测样本；将经预处理的待检测样本输入已训练的对比学习嵌入模型，以获得待检测样本嵌入特征向量；将所述待检测样本输入已训练的异常检测模型，得到异常检测结果。本申请实施例中的异常检测模型由机器学习模型训练得到，在根据网络流量文本进行异常检测之前，通过已训练的对比学习嵌入模型对网络流量文本生成嵌入向量，对比学习加强相似异常的样本在特征空间上的聚集程度，也就使不相似异常的样本更分离，提升异常检测准确性。

Description

异常检测及对比嵌入模型训练、检测方法、装置及介质

技术领域

本申请涉及异常检测技术领域，尤其涉及异常检测及对比嵌入模型训练、检测方法、装置及介质。

背景技术

随着互联网络的普及，网络安全问题日益凸显，需要相应地防范各种网络攻击行为。

为了检测可能存在网络攻击等异常行为，会对网络的流量进行检测。通常，会基于流量相关的记录中的统一资源定位符(URL)地址相关的文本进行分析，来发现一些可能是异常行为的语义异常特点。

然而，如果采用人工方式进行筛查，无法负担海量文本的工作量；而通过机器的文本语义识别方式来进行分析，往往不能准确地提取表达文本语义的特征向量，导致文本语义实质上的相似性，不利于检测出异常文本，容易造成网络异常行为检测的遗漏或者误报。

发明消息

鉴于以上所述现有技术的缺点，本申请的目的在于提供异常检测及对比嵌入模型训练、检测方法、装置及介质，用于解决上述问题。

本申请第一方面提供一种异常检测模型的训练方法，用于根据网络流量文本检测异常流量的异常检测模型的训练；所述训练方法包括：预处理各异常检测训练样本；所述异常检测训练样本为网络流量文本；将经预处理的各异常检测训练样本输入已训练的对比学习嵌入模型，以获得输出的各训练样本嵌入特征向量；将各所述训练样本嵌入特征向量输入一异常检测模型，以训练所述异常检测模型。

在第一方面的一些实施例中，所述预处理各异常检测训练样本包括：对异常检测训练样本进行泛化和/或乱序。

本申请第二方面提供一种异常检测方法，包括：获取待检测样本；预处理所述待检测样本；将经预处理的待检测样本输入已训练的对比学习嵌入模型，以获得待检测样本嵌入特征向量；将所述待检测样本输入已训练的异常检测模型，得到异常检测结果；其中，所述异常检测模型由如第一方面任一项所述的训练方法所训练得到。

本申请第三方面提供一种对比学习嵌入模型的训练方法，应用于对第一方面中任一项所述的训练方法、或第二方面的异常检测方法中所使用的对比学习嵌入模型进行训练，包括：预处理对比学习样本集种的各对比学习样本；将预处理后的对比学习样本集划分形成训练样本集和评估样本集；根据所述评估样本集生成评估数据；利用所述训练样本集训练所述对比学习嵌入模型；通过所述评估数据评估所述对比学习嵌入模型的训练结果；获得评估通过的对比学习嵌入模型。

在第三方面的一些实施例中，所述网络流量文本包括：URL地址；所述预处理对比学习样本集种的各对比学习样本，包括：对URL地址形式的对比学习样本去除文本干扰；所述文本干扰包括：协议信息、IP地址及端口号中的至少一种；将网络流量文本转换为小写形式和/或统一编码格式。

在第三方面的一些实施例中，所述根据所述评估样本集生成评估数据，包括：计算评估样本集中的评估集样本之间的余弦相似矩阵；根据所述余弦相似矩阵，在所述评估集中为每个评估集样本获取其最相似样本及对应余弦相似度，以组成每个评估集样本的相似样本三元组；以及，获取每个评估集样本的最相异样本及对应余弦相似度，以组成每个评估集样本的相异样本三元组；其中，各个评估集样本的相似样本三元组和相异样本三元组构成所述评估数据。

在第三方面的一些实施例中，所述对比学习嵌入模型由多层的深度神经网络实现；所述利用所述训练样本集训练所述对比学习嵌入模型，包括：将一组训练样本输入所述对比学习嵌入模型，其中每个训练样本输入所述对比学习嵌入模型两次；其中，在第二次输入时，所述对比学习嵌入模型中的部分神经元失活；提取当前训练样本两次输入时所述对比学习嵌入模型时的隐藏层向量矩阵，分别对两个所述隐藏层向量矩阵进行均值池化以得到对应的两个当前隐层向量；利用一损失函数，根据所述两个当前隐层向量之间的余弦相似度计算的一向量相似度的指数函数值同由所述一组训练样本得到的各向量相似度的指数函数值之和间的比例关系的对数结果以计算损失；以降低所述损失为目标，调节所述对比学习嵌入模型的参数。

在第三方面的一些实施例中，所述通过所述评估数据评估所述对比学习嵌入模型的训练结果，包括：将评估样本、以及所述评估样本在评估样本集中的最相似样本和最相异样本输入所述对比学习嵌入模型，以得到对应所述评估样本的第一模型输出向量、对应所述最相似样本的第二模型输出向量、以及对应所述最相异样本的第三模型输出向量；并且，计算所述第一模型输出向量和第二模型输出向量之间的第一余弦相似度，第一模型输出向量和第三模型输出向量之间的第二余弦相似度；根据第一余弦相似度和第二余弦相似度构成第一评估数据对向量；通过预设向量生成算法处理所述评估样本及其最相似样本和最相异样本以分别得到第一算法输出向量、第二算法输出向量和第三算法输出向量；并且，计算所述第一算法输出向量和第二算法输出向量之间的第三余弦相似度，第一算法输出向量和第三算法输出向量之间的第四余弦相似度；根据第三余弦相似度和第四余弦相似度构成第二评估数据对向量；计算第一评估数据对向量和第二评估数据对向量之间的相关度；响应于所述相关度达到预设阈值以上，确定所述对比学习嵌入模型评估通过。

在第三方面的一些实施例中，所述预设向量生成算法包括TF-IDF；和/或，所述相关度通过皮尔森相关系数计算。

本申请第四方面提供一种异常检测模型的训练装置，用于根据网络流量文本检测异常流量的异常检测模型的训练；所述训练装置包括：第一预处理模块，用于预处理各异常检测训练样本；所述异常检测训练样本为网络流量文本；第一输入模块，用于将经预处理的各异常检测训练样本输入已训练的对比学习嵌入模型，以获得输出的各训练样本嵌入特征向量；第一训练模块，用于将各所述训练样本嵌入特征向量输入一异常检测模型，以训练所述异常检测模型。

本申请第五方面提供一种异常检测装置，包括：样本获取模块，用于获取待检测样本；第二预处理模块，用于预处理所述待检测样本；第二输入模块，用于将经预处理的待检测样本输入已训练的对比学习嵌入模型，以获得待检测样本嵌入特征向量；第三输入模块，用于将所述待检测样本输入已训练的异常检测模型，得到异常检测结果；其中，所述异常检测模型由如第一方方面中任一项所述的训练方法所训练得到。

本申请第六方面提供一种对比学习嵌入模型的训练装置，应用于对第一方面中任一项所述的训练方法、或如第二方面所述的异常检测方法中所使用的对比学习嵌入模型进行训练，包括：第三预处理模块，用于预处理对比学习样本集种的各对比学习样本；样本集划分模块，用于将预处理后的对比学习样本集划分形成训练样本集和评估样本集；评估数据生成模块，用于根据所述评估样本集生成评估数据；第二训练模块，用于利用所述训练样本集训练所述对比学习嵌入模型；评估模块，用于通过所述评估数据评估所述对比学习嵌入模型的训练结果；模型获得模块，用于获得评估通过的对比学习嵌入模型。

本申请第七方面提供一种计算机装置，包括：通信器、存储器及处理器；所述通信器用于与外部通信；所述存储器用于存储程序指令；所述处理器用于运行所述程序指令以执行第一方面中任一项所述的训练方法；或者，执行第二方面所述的异常检测方法；或者，执行第三方面中任一项所述的训练方法。

本申请第八方面提供一种计算机可读存储介质，存储有程序指令，所述程序指令被运行以执行第一方面中任一项所述的训练方法；或者，执行第二方面所述的异常检测方法；或者，执行第三方面中任一项所述的训练方法。

如上所述，本申请实施例中提供异常检测及对比嵌入模型训练、检测方法、装置及介质，异常检测方法包括：获取待检测样本；预处理所述待检测样本；将经预处理的待检测样本输入已训练的对比学习嵌入模型，以获得待检测样本嵌入特征向量；将所述待检测样本输入已训练的异常检测模型，得到异常检测结果。本申请实施例中的异常检测模型由机器学习模型训练得到，在根据网络流量文本进行异常检测之前，通过已训练的对比学习嵌入模型对网络流量文本生成嵌入向量，对比学习加强相似异常的样本在特征空间上的聚集程度，也就使不相似异常的样本更分离，提升异常检测准确性。

附图说明

图1展示本申请一实施例中的实现异常检测的系统架构示意图。

图2展示本申请一实施例中异常检测模型的训练方法的流程示意图。

图3展示本申请一实施例中异常检测方法的流程示意图。

图4展示本申请一具体实施例中异常检测模型的训练方法和异常检测方法并列呈现的原理示意图。

图5展示本申请一实施例中对比学习嵌入模型的训练方法的流程示意图。

图6展示本申请一应用实例中对比学习嵌入模型的训练方法的具体原理示意图。

图7展示本申请一实施例中异常检测模型的训练装置的模块示意图。

图8展示本申请一实施例中异常检测装置的模块示意图。

图9展示本申请一实施例中对比学习嵌入模型的训练装置的模块示意图。

图10展示本申请一实施例中计算机装置的结构示意图。

具体实施方式

以下通过特定的具体示例说明本申请的实施方式，本领域技术人员可由本申请所揭露的消息轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用系统，本申请中的各项细节也可以根据不同观点与应用系统，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面以附图为参考，针对本申请的实施例进行详细说明，以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现，并不限定于此处说明的实施例。

在本申请的表示中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本申请中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于表示目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的表示中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了明确说明本申请，省略与说明无关的器件，对于通篇说明书中相同或类似的构成要素，赋予了相同的参照符号。

在通篇说明书中，当说某器件与另一器件“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种器件“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素排除在外，而是意味着可以还包括其它构成要素。

虽然在一些示例中术语第一、第二等在本文中用来表示各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如，第一接口及第二接口等表示。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、模块、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、模块、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

此处使用的专业术语只用于言及特定实施例，并非意在限定本申请。此处使用的单数形态，只要语句未明确表示出与之相反的意义，那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化，并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。

虽然未不同地定义，但包括此处使用的技术术语及科学术语，所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的消息相符的意义，只要未进行定义，不得过度解释为理想的或非常公式性的意义。

在相关技术中，虽然有通过语义分析算法来根据网络流量文本进行流量异常检测，但是往往由于对网络流量文本的特征挖掘不精确、不充分，导致异常检测结果不准确，而出现遗漏或误报等不良情形。

鉴于此，本申请实施例中结合对比嵌入模型和异常网络检测模型，对比嵌入模型可以使异常文本的特征向量相比于正常文本在特征空间上分离度更高，以解决上述问题。

如图1所示，展示本申请实施例中实现异常检测的系统架构示意图。

参考图1，所述实现异常检测的系统包括：对比学习嵌入模型101以及异常检测模型102。所述对比学习嵌入模型101为预训练模型，对比学习嵌入模型101将所述输入映射成对应的嵌入(embedding)特征向量，再作为输入进入所述异常检测模型102。所述异常检测模型102根据所述嵌入特征向量进行异常检测结果的预测。基于异常检测的二分类应用场景，通过在对文本样本转化为特征向量时使用“对比学习”的对比学习嵌入模型101，可以使得网络流量文本在特征空间上的特征向量的分布呈现为相似的异常特征向量更加接近，与正常特征向量的分离度更高，从而更利于确定异常流量，提升异常检测结果的准确性，避免误报。

如图2所示，展示本申请实施例中异常检测模型的训练方法的流程示意图。

所述训练方法包括：

步骤S201：预处理各异常检测训练样本。

其中，所述异常检测训练样本为网络流量文本。在一些实施例中，所述网络流量文本可以包括URL地址。所述预处理各异常检测训练样本包括：对异常检测训练样本进行泛化和/或乱序等。其中，泛化是用较高层的概念替换较低层的概念，例如，对于地区替代城市。乱序指的是打乱排列顺序，以增加多样性。

步骤S202：将经预处理的各异常检测训练样本输入已训练的对比学习嵌入模型，以获得输出的各训练样本嵌入特征向量。

步骤S203：将各所述训练样本嵌入特征向量输入一异常检测模型，以训练所述异常检测模型。

在一些实施例中，所述异常检测模型可以基于预设异常检测算法实现，例如孤立森林孤立森林(ISOLATION FOREST，IFOREST)。

通常，异常检测方法主要是通过对正常样本的描述，给出一个正常样本在特征空间中的区域，对于不在这个区域中的样本，视为异常。这些方法的缺点是，异常检测只会对正常样本的描述做优化，而不会对异常样本的描述做优化，这样就有可能造成大量的误报，或者只检测到少量的异常。

可以理解的，异常的两个特点：异常数据只占很少量、异常数据特征值和正常数据差别很大。孤立森林算法不再是描述正常的样本点，而是要孤立异常点。在孤立森林中，“异常”被定义为“容易被孤立的离群点(more likely to be separated)”，可以将其理解为分布稀疏且离密度高的群体较远的点。在特征空间里，分布稀疏的区域表示事件发生在该区域的概率很低，因而可以认为落在这些区域里的数据是异常的。孤立森林是一种适用于连续数据(Continuous numerical data)的无监督异常检测方法。在孤立森林中，递归地随机分割数据集，直到所有的样本点都是孤立的。在这种随机分割的策略下，异常点通常具有较短的路径。

具体而言，IFOST算法利用一种名为孤立树的二叉搜索树结构来孤立样本。由于异常值的数量较少且与大部分样本的疏离性，因此，异常值会被更早的孤立出来，也即异常值会距离的根节点更近，而正常值则会距离根节点有更远的距离。此外，相较于LOF，K-means等传统算法，孤立森林算法对高纬数据有较好的鲁棒性。

当然，孤立森林算法只是一种异常检测模型的示例，在其它实施例中也可以通过其它算法所替代，例如它的变种算法(例如FBIF)。或者，基于支持向量机的异常检测算法，如OCSVM(One-Class SupportVectorMachines)等，并非以上述为限。

相应的，训练是一种输入到输出，再到模型调节至输出趋于收敛的过程。以孤立森林算法为例，通过以下切割训练方式得到单棵孤立树，包括：构建一棵孤立树时，从训练样本集中抽取一批特征(A、B....)，所述训练样本集即本申请实施例中对比学习嵌入模型对应输入的异常检测训练样本所输出的嵌入特征向量集；然后，随机选择一个特征A作为起始点，在该特征A在各个所述嵌入特征向量中取值的最大值和最小值之间随机选择一个值作为切割点，比如100个嵌入特征向量包含特征A取值就有100个，则可以得到100值中最大值和最小值以及之间的98个值并能从98个值中随机取一值作为切割点，将各所述嵌入特征向量中特征取值小于该切割点的数据划分到左分支，大于等于该切割点的划分到右分支。然后，在左右分支数据中(即下一层的各个节点)，重复上述步骤，即再随机选择一个特征B，根据特征B在各所述嵌入特征向量中的取值进行切割....以此类推，直到满足如下条件：1)数据不可再分，即：只包含一条数据，或者全部数据相同；2)二叉树达到最大深度阈值(即层数达到预设阈值)。

按照上述对一棵孤立树的训练方法执行，就可以得到多棵孤立树，形成“孤立森林”。利用孤立森林即可进行异常的预测，由于异常值会距离的根节点更近的特点，根据某个嵌入特征向量x分别在多棵孤立树中对应叶子节点离根节点的路径长度计算x的各个异常分值，综合各个异常分值得到总异常分值以用于判断x是否异常。

如图3所示，展示本申请实施例中的异常检测方法的流程示意图。所述异常检测方法可以利用通过图2示例中训练完成的异常检测模型。

所述异常检测方法包括：

步骤S301：获取待检测样本。

在流量异常检测场景中，所述待检测样本为网络流量样本，如URL样本。

步骤S302：预处理所述待检测样本。

在一些实施例中，步骤S302中的预处理可以与步骤S201中的预处理相同。

步骤S303：将经预处理的待检测样本输入已训练的对比学习嵌入模型，以获得待检测样本嵌入特征向量。

在一些实施例中，步骤S303与步骤S202中的已训练的对比学习嵌入模型为同一个。

步骤S304：将所述待检测样本输入已训练的异常检测模型，得到异常检测结果。

步骤S304中的异常检测模型是通过图2中的训练方法训练得到的。

再如图4所示，为更直观说明上述异常检测模型的使用，将异常检测模型的训练方法和通过所述异常检测模型执行的异常检测方法并列列出。但是，可以理解的是，异常检测模型的训练和用于检测并非是在同一个时机中连续地执行。在实际应用中，会先对异常检测模型进行训练，训练完成后，再用于实际的异常检测。

在图4中，展示有包括：

【训练过程】

1.将异常检测训练样本进行预处理，例如对样本做泛化、乱序等步骤；

2.将预处理过的异常检测训练样本输入对比学习嵌入模型，并提取训练样本嵌入特征向量；

3.将训练样本嵌入特征向量输入异常检测模型以对其训练；

4.保存训练完成的异常检测模型；

【应用过程】

5.将待检测样本进行预处理，例如对样本做泛化、乱序等步骤；

6.将预处理过的待检测样本输入所述对比学习嵌入模型，提取待检测样本嵌入特征向量；

7.将待检测样本嵌入特征向量输入异常检测模型，进行异常检测；

8.获得异常检测结果。

所述对比学习嵌入模型可以用于加强相似异常样本在特征空间上的聚集程度。以下通过实施例具体说明所述对比学习嵌入模型的原理。

在一些实施例中，所述对比学习嵌入模型可以是文本预处理模型，将输入的文本映射为嵌入特征向量形式输出。嵌入指的是用密集的分布式向量来表示文本中的元素(例如词、句)。相比于独热(one-hot)编码方式，使用嵌入特征向量表示文本能包含更多的语义信息，并压缩数据量。可能的，所述对比学习嵌入模型可以基于神经网络所构建，包括输入层，隐藏层及输出层。例如，所述对比学习嵌入模型可以基于BERT或其变种模型所构建。通过训练所述对比学习嵌入模型，训练完成后的对比学习嵌入模型可用于之前的异常检测模型的训练方法及异常检测方法。

如图5所示，展示本申请实施例中的对比学习嵌入模型的训练方法的流程示意图。

图5中，流程包括：

步骤S501：预处理对比学习样本集种的各对比学习样本。

在一些实施例中，所述对比学习样本也是网络流量文本。所述网络流量文本包括：URL地址。相应的，所述预处理对比学习样本集种的各对比学习样本可以包括：对URL地址形式的对比学习样本去除文本干扰。所述文本干扰包括：协议信息、IP地址及端口号中的至少一种。另外，还可以将网络流量文本转换为小写形式(lowcase)和/或统一编码格式(例如UNICODE，UTF-8等编码格式)。

通过预处理可以提升训练准确率和效率。

步骤S502：将预处理后的对比学习样本集划分形成训练样本集和评估样本集。

在一些实施例中，可以对比学习样本集随机排序，并分割为训练集和评估集。分割比例不做具体限制，但数量可取得尽量大。

步骤S503：根据所述评估样本集生成评估数据。

在一些实施例中，步骤S503可具体包括以下过程：

计算评估样本集中的评估集样本之间的余弦相似矩阵。可以理解例如评估集样本有a、b、c，以a、b、c为行和列，构成3x3的矩阵，矩阵中行列交叉点的取值分别为a和a、a和b、b和b、a和c、b和c、c和c之间的余弦相似度。

根据所述余弦相似矩阵，在所述评估集中为每个评估集样本获取其最相似样本及对应余弦相似度，以组成每个评估集样本的相似样本三元组；以及，获取每个评估集样本的最相异样本及对应余弦相似度，以组成每个评估集样本的相异样本三元组；其中，各个评估集样本的相似样本三元组和相异样本三元组构成所述评估数据。例如，在a、b、c、d的4x4的余弦相似矩阵中，由a和b、a和c、a和d之间的余弦相似度的高低确定a的最相似样本、最相异样本；如a和b的余弦相似度x最高，则b是a的最相似样本，构成样本a的相似样本三元组<a，b，x>；如a和d的余弦相似度y最低，则构成a的相异样本三元组<a，d，y>。

在一些实施例中，在形成三元组之前，可预先对评估集样本进行分词处理。

步骤S504：利用所述训练样本集训练所述对比学习嵌入模型。

在一些实施例中，所述对比学习嵌入模型由多层的深度神经网络实现，例如基于BERT的变种模型实现。相应的，步骤S504可以具体包括：

A)将一组训练样本输入所述对比学习嵌入模型，其中每个训练样本输入所述对比学习嵌入模型两次；其中，在第二次输入时，所述对比学习嵌入模型中的部分神经元失活。

在一些实施例中，所述部分神经元失活指的是dropout，dropout的神经元比例可例如为0.1。所述一组训练样本可以是一个批次(batch)的样本。

B)提取当前训练样本两次输入时所述对比学习嵌入模型时的隐藏层向量矩阵，分别对两个所述隐藏层向量矩阵进行均值池化以得到对应的两个当前隐层向量。所述隐藏层向量矩阵中的各个隐藏层向量可以是隐藏层中每个神经元向下层输出的特征向量。

C)利用一损失函数，根据所述两个当前隐层向量之间的余弦相似度计算的一向量相似度的指数函数值同由所述一组训练样本得到的各向量相似度的指数函数值之和间的比例关系的对数结果以计算损失。

示例性地，损失函数为：

其中h为训练样本首次输入时隐藏层输出特征向量的均值，h’为训练样本第二次输入(dropout)时隐藏层输出特征向量的均值；N为一个batch的大小，即训练样本数量；h_i为同batch的其它训练样本的隐藏层输出特征向量的均值，τ为超参数。Sim为余弦相似度计算。

D)以降低所述损失为目标，调节所述对比学习嵌入模型的参数。

根据以上损失函数可知，e指数函数有增强的效果，使相似异常样本在特征空间上更佳接近。

步骤S505：通过所述评估数据评估所述对比学习嵌入模型的训练结果。

在一些实施例中，步骤S505可包括以下流程：

A)将评估样本、以及所述评估样本在评估样本集中的最相似样本和最相异样本输入所述对比学习嵌入模型，以得到对应所述评估样本的第一模型输出向量、对应所述最相似样本的第二模型输出向量、以及对应所述最相异样本的第三模型输出向量；并且，计算所述第一模型输出向量和第二模型输出向量之间的第一余弦相似度，第一模型输出向量和第三模型输出向量之间的第二余弦相似度。根据第一余弦相似度和第二余弦相似度构成第一评估数据对向量。

例如，以之前示例中的评估样本a为例，相应三元组为<a，b，x>，<a，d，y>，b是a的最相似样本，d是a的最相异样本，将两个三元组输入输入对比学习嵌入模型，对比学习嵌入模型分别对a映射到模型输出向量a1，b映射到模型输出向量b1，d映射到模型输出向量d1，并可以得到a1和b1之间的余弦相似度m1，a1和d1之间的余弦相似度n1。(m1，n1)构成第一评估数据对向量。

B)通过预设向量生成算法处理所述评估样本及其最相似样本和最相异样本以分别得到第一算法输出向量、第二算法输出向量和第三算法输出向量；并且，计算所述第一算法输出向量和第二算法输出向量之间的第三余弦相似度，第一算法输出向量和第三算法输出向量之间的第四余弦相似度。根据第三余弦相似度和第四余弦相似度构成第二评估数据对向量。

在一些实施例中，所述预设向量生成算法可以包括TF-IDF。

接续上述示例，通过预设向量生成算法根据a映射到算法输出向量a2，b映射到算法输出向量b2，d映射到算法输出向量d2，并可以得到a2和b2之间的余弦相似度m2，a2和d2之间的余弦相似度n2。(m2，n2)构成第二评估数据对向量。

C)计算第一评估数据对向量和第二评估数据对向量之间的相关度。

举例来说，所述相关度的计算公式可以示例性地表示为：

accuracy＝pearsonr(V_t,V_e)

其中，V_t代表所述对比嵌入模型处理评估数据得到的第一评估数据对向量，V_e代表预设向量生成算法(例如TF-IDF)根据评估数据计算的第二评估数据对向量，pearsonr代表皮尔森相关系数。所述相关度越接近1，说明相似准确度越高。

D)响应于所述相关度达到预设阈值以上，确定所述对比学习嵌入模型评估通过。

例如，当相关度高于某个预设阈值，或者取值趋于接近1收敛时，可以认为对比嵌入模型评估通过。

步骤S506：获得评估通过的对比学习嵌入模型。

评估通过的对比学习嵌入模型可以被认为完成训练，而应用到所述异常检测模型的训练方法、异常检测方法中。

为直观说明对比学习嵌入模型的训练原理，如图6所示，展示本申请一应用实例中对比学习嵌入模型的训练方法的具体原理示意图。

图6中的流程如下：

1.将对比学习训练样本集预处理，例如对样本做泛化、乱序等步骤；

2.将预处理后的对比学习训练样本集分割为训练样本集和评估样本集；

3.根据评估样本集生成评估数据；

4.将训练样本集输入对比学习嵌入模型，训练对比学习嵌入模型，并使用所述评估数据评估训练结果；

5.获得并保存对比学习嵌入模型。

如图7所示，展示本申请一实施例中的异常检测模型的训练装置的模块示意图。由于所述异常检测模型的训练装置的实现可以参考之前异常检测模型的训练方法实施例，因此此示例中不再对相同的技术内容进行重复赘述。

所述异常检测模型的训练装置700包括：

第一预处理模块701，用于预处理各异常检测训练样本；所述异常检测训练样本为网络流量文本；

第一输入模块702，用于将经预处理的各异常检测训练样本输入已训练的对比学习嵌入模型，以获得输出的各训练样本嵌入特征向量；

第一训练模块703，用于将各所述训练样本嵌入特征向量输入一异常检测模型，以训练所述异常检测模型。

在一些实施例中，所述预处理各异常检测训练样本包括：对异常检测训练样本进行泛化和/或乱序。

如图8所示，展示本申请一实施例中的异常检测装置的模块示意图。由于所述异常检测装置的实现可以参考之前异常检测方法实施例，因此此示例中不再对相同的技术内容进行重复赘述。

所述异常检测装置800，包括：

样本获取模块801，用于获取待检测样本；

第二预处理模块802，用于预处理所述待检测样本；

第二输入模块803，用于将经预处理的待检测样本输入已训练的对比学习嵌入模型，以获得待检测样本嵌入特征向量；

第三输入模块804，用于将所述待检测样本输入已训练的异常检测模型，得到异常检测结果；其中，所述异常检测模型由所述异常检测模型的训练方法所训练得到。

如图9所示，展示本申请一实施例中的对比学习嵌入模型的训练装置的模块示意图。由于所述对比学习嵌入模型的训练装置的实现可以参考之前对比学习嵌入模型的训练方法实施例，因此此示例中不再对相同的技术内容进行重复赘述。

所述对比学习嵌入模型的训练装置900包括：

第三预处理模块901，用于预处理对比学习样本集种的各对比学习样本；

样本集划分模块902，用于将预处理后的对比学习样本集划分形成训练样本集和评估样本集；

评估数据生成模块903，用于根据所述评估样本集生成评估数据；

第二训练模块904，用于利用所述训练样本集训练所述对比学习嵌入模型；

评估模块905，用于通过所述评估数据评估所述对比学习嵌入模型的训练结果；模型获得模块，用于获得评估通过的对比学习嵌入模型。

在一些实施例中，所述网络流量文本包括：URL地址；所述预处理对比学习样本集种的各对比学习样本，包括：对URL地址形式的对比学习样本去除文本干扰；所述文本干扰包括：协议信息、IP地址及端口号中的至少一种；将网络流量文本转换为小写形式和/或统一编码格式。

在一些实施例中，所述根据所述评估样本集生成评估数据，包括：计算评估样本集中的评估集样本之间的余弦相似矩阵；根据所述余弦相似矩阵，在所述评估集中为每个评估集样本获取其最相似样本及对应余弦相似度，以组成每个评估集样本的相似样本三元组；以及，获取每个评估集样本的最相异样本及对应余弦相似度，以组成每个评估集样本的相异样本三元组；其中，各个评估集样本的相似样本三元组和相异样本三元组构成所述评估数据。

在一些实施例中，所述对比学习嵌入模型由多层的深度神经网络实现；所述利用所述训练样本集训练所述对比学习嵌入模型，包括：将一组训练样本输入所述对比学习嵌入模型，其中每个训练样本输入所述对比学习嵌入模型两次；其中，在第二次输入时，所述对比学习嵌入模型中的部分神经元失活；提取当前训练样本两次输入时所述对比学习嵌入模型时的隐藏层向量矩阵，分别对两个所述隐藏层向量矩阵进行均值池化以得到对应的两个当前隐层向量；利用一损失函数，根据所述两个当前隐层向量之间的余弦相似度计算的一向量相似度的指数函数值同由所述一组训练样本得到的各向量相似度的指数函数值之和间的比例关系的对数结果以计算损失；以降低所述损失为目标，调节所述对比学习嵌入模型的参数。

在一些实施例中，所述通过所述评估数据评估所述对比学习嵌入模型的训练结果，包括：将评估样本、以及所述评估样本在评估样本集中的最相似样本和最相异样本输入所述对比学习嵌入模型，以得到对应所述评估样本的第一模型输出向量、对应所述最相似样本的第二模型输出向量、以及对应所述最相异样本的第三模型输出向量；并且，计算所述第一模型输出向量和第二模型输出向量之间的第一余弦相似度，第一模型输出向量和第三模型输出向量之间的第二余弦相似度；根据第一余弦相似度和第二余弦相似度构成第一评估数据对向量；通过预设向量生成算法处理所述评估样本及其最相似样本和最相异样本以分别得到第一算法输出向量、第二算法输出向量和第三算法输出向量；并且，计算所述第一算法输出向量和第二算法输出向量之间的第三余弦相似度，第一算法输出向量和第三算法输出向量之间的第四余弦相似度；根据第三余弦相似度和第四余弦相似度构成第二评估数据对向量；计算第一评估数据对向量和第二评估数据对向量之间的相关度；响应于所述相关度达到预设阈值以上，确定所述对比学习嵌入模型评估通过。

在一些实施例中，所述预设向量生成算法包括TF-IDF；和/或，所述相关度通过皮尔森相关系数计算。

需特别说明的是，在图7、图8、图9实施例中的各个功能模块，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以程序指令产品的形式实现。程序指令产品包括一个或多个程序指令。在计算机上加载和执行程序指令指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。程序指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

并且，图7、图8、图9实施例所揭露的装置，可通过其它的模块划分方式实现。以上所表示的装置实施例仅仅是示意性的，例如所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或模块可以结合或者可以动态到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接于可以是通过一些接口，装置或模块的间接耦合或通信连接于，可以是电性或其它的形式。

另外，图7、图8、图9实施例中的各功能模块及子模块可以动态在一个处理部件中，也可以是各个模块单独物理存在，也可以两个或两个以上模块动态在一个部件中。上述动态的部件既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述动态的部件如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

需特别说明的是，本申请上述实施例的流程图表示的流程或方法表示可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

例如，图2、图3、图5等实施例中的各个步骤的顺序可能可以在具体场景中加以变化，并非以上述表示为限。

如图1所示，展示本申请一实施例中计算机装置的电路结构示意图。

所述计算机装置1000包括总线1001、处理器1002、存储器1003及通信器1004。处理器1002、存储器1003之间可以通过总线1001通信。所述存储器1003中可以存储有程序指令(比如系统或应用软件)。所述处理器1002通过运行存储器1003中的程序指令来实现本申请实施例中异常检测模型的训练方法、异常检测方法、或对比学习嵌入模型的训练方法等中的步骤。

总线1001可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，虽然图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在一些实施例中，处理器1002可以为中央处理器(Central Processing Unit，CPU)、微处理单元(MCU)、片上系统(System On Chip)、或现场可编程逻辑阵列(FPGA)等实现。存储器1003可以包括易失性存储器(Volatile Memory)以用于运行程序时的数据暂存使用，例如随机存取存储器(Random Access Memory，RAM)。

存储器1003还可以包括非易失性存储器(non-volatile memory)以用于数据存储，例如只读存储器(Read-Only Memory，ROM)，快闪存储器，硬盘驱动器(Hard DiskDrive，HDD)或固态盘(Solid-State Disk，SSD)。

所述通信器1004用于与外部通信。在具体实例中，所述通信器1004可以包括一个或多个有线和/或无线通信电路模块。举例来说，所述通信器1004可以包括例如有线网卡、USB模块、串行接口模块等中的一种或多种。无线通信模块所遵循的无线通信协议包括：例如近距离无线通信(Nearfield communication，NFC)技术、红外(Infared，IR)技术、全球移动通讯系统(Global System for Mobile communications，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址引入(Code Division MultipleAccess，CDMA)、宽带码分多址(Wideband Code division multiple access，WCDMA)、时分码分多址(Time-Division Code Division Multiple Access，TD-SCDMA)、长期演进(LongTerm Evolution，LTE)、蓝牙(BlueTooth，BT)、全球导航卫星系统(Global NavigationSatellite System，GNSS)等中的一种或多种。

本申请实施例中还可以提供一种计算机可读存储介质，存储有程序指令，所述程序指令被运行时执行前述方法实施例(例如图2、图3、或图5)所执行的流程步骤。

即上述实施例中的方法步骤被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此表示的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。

综上，本申请实施例中提供异常检测及对比嵌入模型训练、检测方法、装置及介质，异常检测方法包括：获取待检测样本；预处理所述待检测样本；将经预处理的待检测样本输入已训练的对比学习嵌入模型，以获得待检测样本嵌入特征向量；将所述待检测样本输入已训练的异常检测模型，得到异常检测结果。本申请实施例中的异常检测模型由机器学习模型训练得到，在根据网络流量文本进行异常检测之前，通过已训练的对比学习嵌入模型对网络流量文本生成嵌入向量，对比学习加强相似异常的样本在特征空间上的聚集程度，也就使不相似异常的样本更分离，提升异常检测准确性。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种对比学习嵌入模型的训练方法，其特征在于，包括：

预处理对比学习样本集中的各对比学习样本；

将预处理后的对比学习样本集划分形成训练样本集和评估样本集；

根据所述评估样本集生成评估数据；

利用所述训练样本集训练所述对比学习嵌入模型；

通过所述评估数据评估所述对比学习嵌入模型的训练结果；

获得评估通过的对比学习嵌入模型；

已训练的所述对比学习嵌入模型应用于如下用于根据网络流量文本检测异常流量的异常检测模型的训练方法：

预处理各异常检测训练样本；所述异常检测训练样本为网络流量文本；

将经预处理的各异常检测训练样本输入已训练的对比学习嵌入模型，以获得输出的各训练样本嵌入特征向量；

将各所述训练样本嵌入特征向量输入一异常检测模型，以训练所述异常检测模型；或者，

已训练的所述对比学习嵌入模型应用于如下异常检测方法：

获取待检测样本；

预处理所述待检测样本；

将经预处理的待检测样本输入已训练的对比学习嵌入模型，以获得待检测样本嵌入特征向量；

将所述待检测样本输入已训练的异常检测模型，得到异常检测结果；

其中，所述异常检测模型由如上所述异常检测模型的训练方法所训练得到。

2.根据权利要求1所述的训练方法，其特征在于，所述预处理各异常检测训练样本包括：对异常检测训练样本进行泛化和/或乱序。

3.根据权利要求1所述的训练方法，其特征在于，所述网络流量文本包括：

URL地址；所述预处理对比学习样本集中的各对比学习样本，包括：

对URL地址形式的对比学习样本去除文本干扰；所述文本干扰包括：协议信息、IP地址及端口号中的至少一种；

将网络流量文本转换为小写形式和/或统一编码格式。

4.根据权利要求1所述的训练方法，其特征在于，所述根据所述评估样本集生成评估数据，包括：

计算评估样本集中的评估集样本之间的余弦相似矩阵；

根据所述余弦相似矩阵，在所述评估集中为每个评估集样本获取其最相似样本及对应余弦相似度，以组成每个评估集样本的相似样本三元组；以及，获取每个评估集样本的最相异样本及对应余弦相似度，以组成每个评估集样本的相异样本三元组；

其中，各个评估集样本的相似样本三元组和相异样本三元组构成所述评估数据。

5.根据权利要求1所述的训练方法，其特征在于，所述对比学习嵌入模型由多层的深度神经网络实现；所述利用所述训练样本集训练所述对比学习嵌入模型，包括：

将一组训练样本输入所述对比学习嵌入模型，其中每个训练样本输入所述对比学习嵌入模型两次；其中，在第二次输入时，所述对比学习嵌入模型中的部分神经元失活；

提取当前训练样本两次输入时所述对比学习嵌入模型时的隐藏层向量矩阵，分别对两个所述隐藏层向量矩阵进行均值池化以得到对应的两个当前隐层向量；

利用一损失函数，根据所述两个当前隐层向量之间的余弦相似度计算的一向量相似度的指数函数值同由所述一组训练样本得到的各向量相似度的指数函数值之和间的比例关系的对数结果以计算损失；

以降低所述损失为目标，调节所述对比学习嵌入模型的参数。

6.根据权利要求1所述的训练方法，其特征在于，所述通过所述评估数据评估所述对比学习嵌入模型的训练结果，包括：

将评估样本、以及所述评估样本在评估样本集中的最相似样本和最相异样本输入所述对比学习嵌入模型，以得到对应所述评估样本的第一模型输出向量、对应所述最相似样本的第二模型输出向量、以及对应所述最相异样本的第三模型输出向量；并且，计算所述第一模型输出向量和第二模型输出向量之间的第一余弦相似度，第一模型输出向量和第三模型输出向量之间的第二余弦相似度；根据第一余弦相似度和第二余弦相似度构成第一评估数据对向量；

通过预设向量生成算法处理所述评估样本及其最相似样本和最相异样本以分别得到第一算法输出向量、第二算法输出向量和第三算法输出向量；并且，计算所述第一算法输出向量和第二算法输出向量之间的第三余弦相似度，第一算法输出向量和第三算法输出向量之间的第四余弦相似度；根据第三余弦相似度和第四余弦相似度构成第二评估数据对向量；

计算第一评估数据对向量和第二评估数据对向量之间的相关度；

响应于所述相关度达到预设阈值以上，确定所述对比学习嵌入模型评估通过。

7.根据权利要求6所述的训练方法，其特征在于，所述预设向量生成算法包括TF-IDF；和/或，所述相关度通过皮尔森相关系数计算。

8.一种对比学习嵌入模型的训练装置，其特征在于，包括：

第三预处理模块，用于预处理对比学习样本集中的各对比学习样本；

样本集划分模块，用于将预处理后的对比学习样本集划分形成训练样本集和评估样本集；

评估数据生成模块，用于根据所述评估样本集生成评估数据；

第二训练模块，用于利用所述训练样本集训练所述对比学习嵌入模型；

评估模块，用于通过所述评估数据评估所述对比学习嵌入模型的训练结果；

模型获得模块，用于获得评估通过的对比学习嵌入模型；

已训练的所述对比学习嵌入模型应用于如下异常检测方法：

获取待检测样本；

预处理所述待检测样本；

9.一种计算机装置，其特征在于，包括：通信器、存储器及处理器；所述通信器用于与外部通信；所述存储器用于存储程序指令；所述处理器用于运行所述程序指令以执行如权利要求1至7中任一项所述的对比学习嵌入模型的训练方法。

10.一种计算机可读存储介质，其特征在于，存储有程序指令，所述程序指令被运行以执行如权利要求1至7中任一项所述的对比学习嵌入模型的训练方法。