CN118035995A

CN118035995A - 一种恶意证书检测方法和装置

Info

Publication number: CN118035995A
Application number: CN202211371637.2A
Authority: CN
Inventors: 胡泽远
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2024-05-14

Abstract

本发明公开了一种恶意证书检测方法和装置，通过获取历史证书信息，对历史证书信息进行数据预处理后进行特征数据提取，得到多个类型的特征数据；针对每个类型的特征数据，根据对应的特征处理方式进行特征处理；根据处理后的多个类别的特征数据形成样本数据集；将样本数据集输入融合模型中进行训练得到恶意证书检测模型；获取待检测证书信息，依据恶意证书检测模型对待检测证书信息进行恶意证书检测。本申请的恶意证书检测模型基于深度学习和集成学习，利用表征学习和融合模型集成的深度神经网络，实现了对恶意证书精准的自动化检测，提高了恶意证书检测的智能化水平和性能指标。

Description

一种恶意证书检测方法和装置

技术领域

本发明涉及互联网技术领域，具体涉及一种恶意证书检测方法和装置。

背景技术

由于超文本传输安全协议(Hypertext Transfer Protocol Secure，HTTPS)证书系统的结构缺陷，证书和证书颁发机构被破坏或操纵，更多的恶意攻击使用伪造、泄露密钥的证书或被恶意颁发的证书，恶意证书导致的恶意软件问题频发。此外，当出现“https://”、绿色挂锁或绿色地址栏等证书标识符，用户通常认为是安全或可信的，所以当出现证书警告时，用户会做出错误决策，导致用户的隐私暴露和经济损失，因此在当前形势下，智能化地检测恶意证书势在必行。

现有技术中恶意证书检测的方案有以下几种：方案一是基于人工核验来手动检测恶意证书；方案二是通过互联网的历史数据构建证书黑名单数据库，基于黑名单的检测策略是通过证书黑名单与证书或网际互连协议(Internet Protocol，IP)的匹配来完成的；当一个新连接来自任何黑名单中的IP或使用已知的恶意证书时，将其归类为恶意证书；方案三是基于机器学习或深度学习的恶意证书检测；该方案通过机器学习或深度学习模型训练正常证书和恶意证书样本，往往使用已知的证书内容来构建特征作为输入，得到分类模型。在预测阶段对预测样本进行同样操作输入调优的模型中，根据预测得分归类为恶意证书。

方案一的缺点是由于攻击者创建的恶意软件具有与合法软件相似的外观和感觉，导致即使是专业人员也容易产生偏差。方案二的缺点是检测性能和检测效率过分依赖于黑名单统计的质量；且由于恶意网站的活动时间短，被发现为恶意攻击后，用户访问会显示警告，所以攻击者也会减少恶意活动甚至关停网页，由于恶意攻击的不断更新，黑名单更新的工作很费时且繁琐；方案三的缺点是单模态的模型特征比较单一，检测效果有限，容易出现漏报误报的情况；模型性能严重依赖特征工程和网络结构的设计，不相关的特征容易影响模型效果。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种恶意证书检测方法和装置。

根据本发明的一个方面，提供了一种恶意证书检测方法，包括：

获取历史证书信息，对所述历史证书信息进行数据预处理后进行特征数据提取，得到多个类型的特征数据；

针对每个类型的特征数据，根据对应的特征处理方式进行特征处理；

根据处理后的多个类别的特征数据形成样本数据集；

将所述样本数据集输入融合模型中进行训练得到恶意证书检测模型；

获取待检测证书信息，依据所述恶意证书检测模型对所述待检测证书信息进行恶意证书检测。

根据本发明的另一方面，提供了一种恶意证书检测装置，包括：

数据获取模块，用于获取历史证书信息，对所述历史证书信息进行数据预处理后进行特征数据提取，得到多个类型的特征数据；

数据处理模块，用于针对每个类型的特征数据，根据对应的特征处理方式进行特征处理；根据处理后的多个类别的特征数据形成样本数据集；

模型训练模块，用于将所述样本数据集输入融合模型中进行训练得到恶意证书检测模型；

检测模块，用于获取待检测证书信息，依据所述恶意证书检测模型对所述待检测证书信息进行恶意证书检测。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述一种恶意证书检测方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述一种恶意证书检测方法对应的操作。

根据本发明的一种恶意证书检测方法和装置，通过获取历史证书信息，对历史证书信息进行数据预处理后进行特征数据提取，得到多个类型的特征数据；针对每个类型的特征数据，根据对应的特征处理方式进行特征处理；根据处理后的多个类别的特征数据形成样本数据集；将样本数据集输入融合模型中进行训练得到恶意证书检测模型；获取待检测证书信息，依据恶意证书检测模型对待检测证书信息进行恶意证书检测。本申请的恶意证书检测模型基于深度学习和集成学习，利用表征学习和融合模型集成的深度神经网络，实现了对恶意证书精准的自动化检测，提高了恶意证书检测的智能化水平和性能指标。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种恶意证书检测方法流程图；

图2a图示出了本发明实施例提供的一种恶意证书检测方法实施例的流程示意图；

图2b示出了本发明实施例提供的DeepFM模型的架构示意图；

图3示出了本发明实施例提供的一种恶意证书检测装置的结构示意图；

图4示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明一种恶意证书检测方法实施例的流程图，如图1所示，该方法包括以下步骤：

步骤S110：获取历史证书信息，对历史证书信息进行数据预处理后进行特征数据提取，得到多个类型的特征数据。

在本申请中，证书(Certificate)指的是数字证书，可以包括：安全套接层(SecureSocket Layer,SSL)协议、传输层安全协议(TransportLayer Security，TLS)证书、HTTPS证书、公钥证书等。

在一种可选的方式中，步骤S110进一步包括：对历史证书信息通过预设工具包进行数据清洗和数据解密；提取历史证书信息的基本特征信息、证书发行者特征信息、证书使用者属性信息以及外部特征信息；将基本特征信息、证书发行者特征信息、证书使用者属性信息以及外部特征信息按照信息类别进行分类，得到文本特征数据、类别特征数据以及数值特征数据。

在一种可选的方式中，基本特征信息至少包括：基本证书域中的版本号、序列号、签名算法、扩展信息；证书发行者特征信息至少包括：证书发行者主体信息和证书发行者统计信息；证书使用者属性信息至少包括：使用者主体信息和使用者统计信息；外部特征信息至少包括：证书验证等级信息、证书有效期信息。

图2a示出了本发明实施例提供的一种恶意证书检测方法实施例的流程示意图，如图2a所示，该方法包括预处理阶段、表征学习阶段和集成学习阶段；其中，预处理阶段主要用于对历史证书信息进行预处理；预处理的方式包括：数据清洗和数据解密，其中，对数据进行数据清洗工作，保证数据纯度的同时，又在一定程度上降低了数据的维度；在本实施例中，预设工具包可以包括：开放的SSL(openSSL)工具包等；使用开放的SSL工具包进行数据清洗具体为：使用检测证书文件筛选出历史证书中符合X.509证书格式标准；其中，X.509是密码学里公钥证书的格式标准；数据解密是通过使用OpenSSL在命令行中完成加密证书文件的解密，通过数据清洗和数据解密完成历史证书信息的初筛，保证后续模型训练时数据的纯度。

进一步地，在表征学习阶段进行多源多模态特征采集，具体地，依赖于证书结构和内容信息，提取历史证书信息的基本特征信息、证书发行者特征信息、证书使用者属性信息以及外部特征信息四个部分的多源特征信息，其中，基本特征信息包含了基本证书域中的版本号、序列号、签名算法、扩展信息等；证书发行者特征信息包含了发行者主体信息和相关的统计信息等；证书使用者属性信息包含了使用者主体信息和相关的统计信息等；外部特征信息包含了其他证书内容的信息，例如证书验证等级信息、有效期等信息。

将基本特征信息、证书发行者特征信息、证书使用者属性信息以及外部特征信息按照信息类别进行分类归纳后，不同模态的特征的类型包括三种：文本特征数据、类别特征数据以及数值特征数据。

步骤S120：针对每个类型的特征数据，根据对应的特征处理方式进行特征处理。

在一种可选的方式中，步骤S120进一步包括：将文本特征数据作为文本特征样本数据；针对类别特征数据，通过独热编码技术进行编码形成类别特征样本数据；针对数值特征数据，将数值特征数据进行等频离散化处理后，通过预设编码技术进行编码形成数值特征样本数据。

在本步骤中，预设的文本预训练模型可以是双向加密的深度学习模型(Bidirectional Encoder Representation from Transformers，Bert)，Bert模型是基于自注意力(attention)机制的；因此，对于文本特征数据，直接基于预设的文本预训练模型(例如图2a中的Bert模型)的多头自注意力机制进行建模；对于类别特征信息，直接进行独热(one-hot)编码进行编码形成类别特征样本数据；对于数值特征数据，由于恶意证书的特征含有较多离群点，因此可以将数值特征数据进行等频离散化处理后再通过预设编码技术进行编码形成数值特征样本数据；数值特征数据的预设编码技术也可以是one-hot编码技术。

步骤S130：根据处理后的多个类别的特征数据形成样本数据集。

在一种可选的方式中，样本数据集中的样本数据包括：文本特征样本数据、类别特征样本数据以及数值特征样本数据。

需要说明的是，由于恶意证书本身收集数据较少，且时间久的证书很多已被吊销，因此在处理得到文本特征样本数据、类别特征样本数据以及数值特征样本数据后，可在特征归一化后采用其他算法对恶意证书样本进行采样，联合上述处理后的多个类别的特征数据形成样本数据集；其中，预设算法可以是合成少数类过采样算法Borderline-SMOTE(Synthetic Minority Oversampling Technique，SMOTE)，Borderline-SMOTE是改进的过采样算法，该算法仅使用边界上的少数类样本来合成新样本，从而改善样本的类别分布。

步骤S140：将样本数据集输入融合模型中进行训练得到恶意证书检测模型。

在一种可选的方式中，步骤S140进一步包括：将文本特征样本数据基于预设的文本预训练模型的多头自注意力机制生成第一模型嵌入向量；将类别特征样本数据和数值特征样本数据通过深度因子分解机的嵌入层生成第二模型嵌入向量；将第一模型嵌入向量和第二模型嵌入向量输入融合模型中进行训练得到恶意证书检测模型。

在本步骤中，无需人工处理文本特征样本数据、类别特征样本数据以及数值特征样本数据，可以使用表征融合的方式进行特征表达。对于文本特征样本数据，采用预设的文本预训练模型(例如Bert模型)的多头自注意力机制生成第一模型嵌入向量，具体地，可以通过Bert模型的嵌入层(embedding)生成嵌入向量进行表征。

对于类别特征样本数据以及数值特征样本数据，将类别特征样本数据和数值特征样本数据通过深度因子分解机(Deep Factor Machine，DeepFM)的嵌入层生成第二模型嵌入向量；具体地，对于类别特征样本数据，特征类别中的字符索引的值为1，其他所有位置都为0；对于数值特征样本数据，离散化处理后原特征值所处分段的索引值为1，其他所有位置都为0，为了充分利用这些多源的、稀疏的特征数据，并且考虑特征与特征之间的联系，采用DeepFM的架构进行建模，用DeepFM的嵌入层(Dense Embedding)生成第二模型嵌入向量。图2b示出了本发明实施例提供的DeepFM模型的架构示意图，如图2b所示，DeepFM模型将原始的类别特征样本数据和数值特征样本数据作为FM和深度神经网络(Deep NeuralNetworks，DNN)模型部分的共同输入，保证融合模型输入的特征数据的准确与一致，同时，DNN部分和DeepFM二阶部分共享DeepFM的第二模型嵌入向量，通过DNN拼接层&平滑层(Concat&Flatten)以及全连接层1和全连接层2恰好将表征学习阶段的样本数据进行了对齐，通过DeepFM和DNN生成稀疏特征(Sparse Features)，如图2b中的特征域1、特征域2、特征域3、特征域4。

在一种可选的方式中，融合模型具体为：通过集成学习，将预设的多种组件学习器进行权重加权计算得到的融合模型；其中每种组件学习器的权重通过融合模型训练后归一化得到。

在一种可选的方式中，多种组件学习器至少包括：预设的文本预训练模型、预设的表格数据神经网络、深度因子分解机、极限梯度提升算法和深度神经网络。

集成学习的主要思想是去用模型去融合多种组件学习器的优势，集成学习在准确性、泛化性和鲁棒性三个方面优于单一模型。

在集成学习阶段，将样本数据集输入融合模型中进行训练得到恶意证书检测模型；通过集成学习，借鉴深度学习中的注意力机制，将预设的多种组件学习器进行权重加权计算得到的融合模型，融合公式如下式(1)：

f(x)＝α₁f₁(x)+α₂f₂(x)+α₃f₃(x)+α₄f₄(x)+α₅f₅(x)； (1)

其中，权重α_i(i＝1，2，3，4，5)由模型联合训练后归一化得到，五种异质的组件学习器f_i(x)(i＝1，2，3，4，5)的选取包括：Bert模型、预设的表格数据神经网络(TabNet)模型、DeepFM模型、极限梯度提升算法(Extreme Gradient Boosting，XGBoost)模型和DNN网络：

其中，Bert模型是预训练的语言表征模型。输入为处理后的文本特征样本数据。

TabNet是一个新的高性能和可解释的典型的深度表格数据学习架构，使用顺序注意力来选择在每个决策步骤中要推理的特征数据，使可解释性和更有效的学习成为可能，因为学习能力被用于最突出的特征，另外，TabNet在各种非性能饱和的表格数据集上的表现优于其他神经网络和决策树变体，并产生了可解释的特征属性和对全局模型行为的洞察力，TabNet的输入是类别特征样本数据以及数值特征样本数据。

XGBoost在梯度提升的基础上改进了目标函数的计算方式，在决策树构建阶段将树的复杂度作为正则项加入到目标函数中，并利用损失函数的二阶导数信息训练决策树模型，以此加快训练速度，提升了模型的泛化性能；XGBoost的输入是类别特征样本数据以及数值特征样本数据。

DNN由多层神经网络组成，具有较强的信息抽取能力和模型泛化能力，通过模仿大脑的学习机制，自动将简单特征组合为更复杂的高阶特征，并使用这些高阶特征输出预测结果。输入是两部分第一模型嵌入向量和第二模型嵌入向量的拼接。

DeepFM的主要思想是利用因子分解机(FM)解决二阶特征交叉的同时利用DNN解决高阶特征交叉。FM中含有多个内积操作单元对不同特征向量进行两两组合，可以应对高维稀疏的类别特征，这样FM部分增强了模型的“记忆能力”，即发现目标样本直接的关联规则的能力；而DNN部分增强了模型的“泛化能力”，即挖掘目标高维度、间接的相关性；输入是原始的类别特征数据和数值特征数据。

步骤S150：获取待检测证书信息，依据恶意证书检测模型对待检测证书信息进行恶意证书检测。

采用本实施例的方法，利用DeepFM对类别特征数据和数值特征数据进行建模，一方面可以应对高维稀疏的类别特征数据和数值特征数据，另一方面可以挖掘高阶特征数据之间的关系，增强了模型的表达能力；在特征归一化后采用Borderline-SMOTE算法对恶意证书样本进行采样，解决了样本数据集样本数据不平衡的问题；采集多源多模态特征并通过不同的建模方式进行表征学习，无需人工抽取，最后按照不同的逻辑输入多模型集成学习模块中，起到了技术选型之间的优势互补和统一性作用，模型性能不再依赖于特征工程；利用Bert、TabNet、DNN、XGBoost、DeepFM五种异质的组件学习器进行集成学习，综合了深度学习、机器学习各种模型的优点，实现了各个组件学习器模型之间的优势互补，提升了融合模型的准确性、泛化性和鲁棒性。

图3示出了本发明一种恶意证书检测装置实施例的结构示意图。如图3所示，该装置包括：数据获取模块310、数据处理模块320、模型训练模块330和检测模块340。

数据获取模块310，用于获取历史证书信息，对历史证书信息进行数据预处理后进行特征数据提取，得到多个类型的特征数据。

在一种可选的方式中，数据获取模块310进一步用于：对历史证书信息通过预设工具包进行数据清洗和数据解密；提取历史证书信息的基本特征信息、证书发行者特征信息、证书使用者属性信息以及外部特征信息；将基本特征信息、证书发行者特征信息、证书使用者属性信息以及外部特征信息按照信息类别进行分类，得到文本特征数据、类别特征数据以及数值特征数据。

数据处理模块320，用于针对每个类型的特征数据，根据对应的特征处理方式进行特征处理；根据处理后的多个类别的特征数据形成样本数据集。

在一种可选的方式中，数据处理模块320进一步用于：将文本特征数据作为文本特征样本数据；针对类别特征数据，通过独热编码技术进行编码形成类别特征样本数据；针对数值特征数据，将数值特征数据进行等频离散化处理后，通过预设编码技术进行编码形成数值特征样本数据。

模型训练模块330，用于将样本数据集输入融合模型中进行训练得到恶意证书检测模型。

在一种可选的方式中，样本数据集中的样本数据包括：文本特征样本数据、类别特征样本数据以及数值特征样本数据；模型训练模块330进一步用于：将文本特征样本数据基于预设的文本预训练模型的多头自注意力机制生成第一模型嵌入向量；将类别特征样本数据和数值特征样本数据通过深度因子分解机的嵌入层生成第二模型嵌入向量；将第一模型嵌入向量和第二模型嵌入向量输入融合模型中进行训练得到恶意证书检测模型。

检测模块340，用于获取待检测证书信息，依据恶意证书检测模型对待检测证书信息进行恶意证书检测。

采用本实施例的装置，利用DeepFM对类别特征数据和数值特征数据进行建模，一方面可以应对高维稀疏的类别特征数据和数值特征数据，另一方面可以挖掘高阶特征数据之间的关系，增强了模型的表达能力；在特征归一化后采用Borderline-SMOTE算法对恶意证书样本进行采样，解决了样本数据集样本数据不平衡的问题；采集多源多模态特征并通过不同的建模方式进行表征学习，无需人工抽取，最后按照不同的逻辑输入多模型集成学习模块中，起到了技术选型之间的优势互补和统一性作用，模型性能不再依赖于特征工程；利用Bert、TabNet、DNN、XGBoost、DeepFM五种异质的组件学习器进行集成学习，综合了深度学习、机器学习各种模型的优点，实现了各个组件学习器模型之间的优势互补，提升了融合模型的准确性、泛化性和鲁棒性。

本发明实施例提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的一种恶意证书检测方法。

可执行指令具体可以用于使得处理器执行以下操作：

获取历史证书信息，对历史证书信息进行数据预处理后进行特征数据提取，得到多个类型的特征数据；

根据处理后的多个类别的特征数据形成样本数据集；

将样本数据集输入融合模型中进行训练得到恶意证书检测模型；

获取待检测证书信息，依据恶意证书检测模型对待检测证书信息进行恶意证书检测。

图4示出了本发明计算设备实施例的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图4所示，该计算设备可以包括：

处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。

其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口，用于与其它设备比如客户端或其它服务器等的网元通信。处理器，用于执行程序，具体可以执行上述一种恶意证书检测方法实施例中的相关步骤。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器可能是中央处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序具体可以用于使得处理器执行以下操作：

根据处理后的多个类别的特征数据形成样本数据集；

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种恶意证书检测方法，其特征在于，包括：

根据处理后的多个类别的特征数据形成样本数据集；

2.根据权利要求1所述的方法，其特征在于，所述对所述历史证书信息进行数据预处理后进行特征数据提取，得到多个类型的特征数据进一步包括：

对所述历史证书信息通过预设工具包进行数据清洗和数据解密；

提取所述历史证书信息的基本特征信息、证书发行者特征信息、证书使用者属性信息以及外部特征信息；

将所述基本特征信息、证书发行者特征信息、证书使用者属性信息以及外部特征信息按照信息类别进行分类，得到文本特征数据、类别特征数据以及数值特征数据。

3.根据权利要求2所述的方法，其特征在于，所述针对每个类型的特征数据，根据对应的特征处理方式进行特征处理进一步包括：

将所述文本特征数据作为文本特征样本数据；

针对类别特征数据，通过独热编码技术进行编码形成类别特征样本数据；

针对数值特征数据，将所述数值特征数据进行等频离散化处理后，通过预设编码技术进行编码形成数值特征样本数据。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述样本数据集中的样本数据包括：文本特征样本数据、类别特征样本数据以及数值特征样本数据；

所述将所述样本数据集输入融合模型中进行训练得到恶意证书检测模型进一步包括：

将所述文本特征样本数据基于预设的文本预训练模型的多头自注意力机制生成第一模型嵌入向量；

将所述类别特征样本数据和所述数值特征样本数据通过深度因子分解机的嵌入层生成第二模型嵌入向量；

将所述第一模型嵌入向量和所述第二模型嵌入向量输入融合模型中进行训练得到恶意证书检测模型。

5.根据权利要求2所述的方法，其特征在于，所述基本特征信息至少包括：基本证书域中的版本号、序列号、签名算法、扩展信息；

所述证书发行者特征信息至少包括：证书发行者主体信息和证书发行者统计信息；

所述证书使用者属性信息至少包括：使用者主体信息和使用者统计信息；

所述外部特征信息至少包括：证书验证等级信息、证书有效期信息。

6.根据权利要求1-5任一项中所述的方法，其特征在于，所述融合模型具体为：通过集成学习，将预设的多种组件学习器进行权重加权计算得到的融合模型；其中每种组件学习器的权重通过融合模型训练后归一化得到。

7.根据权利要求6所述的方法，其特征在于，所述多种组件学习器至少包括：预设的文本预训练模型、预设的表格数据神经网络、深度因子分解机、极限梯度提升算法和深度神经网络。

8.一种恶意证书检测装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的一种恶意证书检测方法对应的操作。

10.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的一种恶意证书检测方法对应的操作。