CN114070547B

CN114070547B - 基于集成学习的密码算法多层复合识别方法

Info

Publication number: CN114070547B
Application number: CN202111355079.6A
Authority: CN
Inventors: 袁科; 黄雅冰; 李家保; 端木珂珂; 杜展飞; 杨龙威; 刘杨; 史楠楠
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-07-28
Anticipated expiration: 2041-11-16
Also published as: CN114070547A

Abstract

本发明提供一种基于集成学习的密码算法多层复合识别方法。该方法包括：步骤1：训练四个簇分分类模型；步骤2：训练五个单分分类模型；步骤3：采用簇分模型1区分为古典密码体制和现代密码体制，若为前者，则采用单分模型1进行单分；否则，继续执行步骤4；步骤4：采用簇分模型2区分为对称密码体制和非对称密码体制，若为后者，则采用单分模型2进行单分；否则，继续执行步骤5；步骤5：采用簇分模型3区分为序列密码体制和分组密码体制，若为前者，则采用单分模型3进行单分；否则，继续执行步骤6；步骤6：采用簇分模型4区分为CBC工作模式和ECB工作模式，然后在对应工作模式下采用单分模型4或5进行单分完成具体的密码算法的识别。

Description

基于集成学习的密码算法多层复合识别方法

技术领域

本发明涉及密码分析技术领域，尤其涉及一种基于集成学习的密码算法多层复合识别方法。

背景技术

目前大多数的密码分析技术是在密码体制已知的条件下，针对一种或某几种特定的密码算法开展相关识别工作。而在现实应用场景中，研究者通常无法直接获取到加密明文生成密文时使用的具体密码体制及密码算法，将获取到的密文信息预测并规范在固定的几种密码体制范围内更是难以实现。因此，正确识别出密文所用的密码体制下的具体算法是开展密码分析的前提条件。

现有的大部分密码算法识别方案均是采用单层识别，即是对具体的密码算法直接进行识别。但是随着各种密码算法的不断增多，直接将所获得密文数据所采用的密码算法限制在固定的几种密码算法中很难符合实际情况(因为可能不包括实际采用的密码算法)；而如果将尽可能多的密码算法作为识别对象，则会导致识别能力急剧降低。由此，高效的先分密码体制，再分密码算法的多层识别机制成为研究热点。如今，已有研究者对密码算法分层识别进行设计研究。2013年，Mishra等人(参考Mishra S，Bhattacharjya A.Patternanalysis of cipher text：A combined approach[C].International Conference onRecent Trends in Information Technology.IEEE，2013，2013：393-398)就针对由AES、DES、Blowfish三种密码算法加密生成不同文件大小的密文数据，提出了两阶段联合识别的方法，该方案结合了熵特征、分组长度分析以及字典分析对其进行识别，使其平均达到了80％的识别率。2018年，黄良韬等人(黄良韬,赵志诚,赵亚群.基于随机森林的密码体制分层识别方案[J].计算机学报,2018,41(02):382-399)提出了基于随机森林的密码体制分层识别方案，初步给出了一个完整的密码体制识别问题的定义系统，其识别对象包含了古典、分组、序列以及公钥四种密码体制下的算法，该方案通过簇分和单分两个阶段来对密文所属的密码算法类别进行识别，提出了CM-簇分、CSN-簇分及CSBP-簇分3种具体的簇分方式，实验结果表明，与单层识别方案相比，分层识别方案的识别准确率和稳定性均具有很大的优越性。

在密码算法分层识别方案中，首先是对密文进行簇分，以识别出密文加密时所用的密码算法属于的密码体制类别，然后在特定的簇分类别下进一步识别出密文加密时所用的具体加密算法。虽然当前研究者已经在设计密码算法分层识别方案中取得了很大的进展，但不同的密码算法制有多种分类方式，没有统一的评判标准，所以密码算法分层识别方案现有的理论框架也需要进一步完善。

发明内容

为了提高密码算法识别的准确度，本发明提供一种基于集成学习的密码算法多层复合识别方法。

本发明提供的基于集成学习的密码算法多层复合识别方法，包括：

步骤1：预先训练四个用于区分密码体制的簇分分类模型，包括用于区分古典密码体制的现代密码体制的簇分分类模型1、用于区分对称密码体制和非对称密码体制的簇分分类模型2、用于区分序列密码体制和分组密码体制的簇分分类模型3和用于区分ECB工作模式和CBC工作模式的簇分分类模型4；

步骤2：预先训练五个用于区分具体密码算法的单分分类模型，包括用于在古典密码体制下进行具体密码算法的识别的单分分类模型1、用于在非对称密码体制下进行具体密码算法的识别的单分分类模型2、用于在序列密码体制下进行具体密码算法的识别的单分分类模型3、用于在分组密码体制CBC工作模式下进行具体密码算法的识别的单分分类模型4和用于在分组密码体制ECB工作模式下进行具体密码算法的识别的单分分类模型5；

步骤3：采用所述簇分分类模型1进行第一次簇分，将待识别密文文件的密码算法区分为古典密码体制和现代密码体制，若属于古典密码体制，则采用单分分类模型1进行单分完成具体的古典密码算法的识别；否则，继续执行步骤4；

步骤4：采用所述簇分分类模型2进行第二次簇分，将待识别密文文件的密码算法区分为对称密码体制和非对称密码体制，若属于非对称密码体制，则采用单分分类模型2进行单分完成具体的非对称密码算法的识别；否则，继续执行步骤5；

步骤5：采用所述簇分分类模型3进行第三次簇分，将待识别密文文件的密码算法区分为序列密码体制和分组密码体制，若属于序列密码体制，则采用单分分类模型3进行单分完成具体的序列密码算法的识别；否则，继续执行步骤6；

步骤6：采用所述簇分分类模型4进行第四次簇分，将待识别密文文件的密码算法区分为CBC工作模式和ECB工作模式，然后在对应工作模式下采用单分分类模型4或单分分类模型5对所述待识别密文文件的密码算法进行单分完成具体的密码算法的识别。

进一步地，所述方法还包括：依次设定古典密码体制、现代密码体制、非对称密码体制、对称密码体制、序列密码体制、分组密码体制、ECB工作模式和CBC工作模式所对应的簇标签，得到簇分标签集合

对应地，每个所述簇分分类模型的训练过程具体包括：

步骤A1：当训练簇分分类模型x时，分别采集一组簇标签为2x-1和2x的密文文件F(x)₁,F(x)₂,…,F(x)_n；其中，1≤x≤4，x为整数，n为文件个数；

步骤A2：对n个所述密文文件进行特征提取，得到一组特征集其中/>表示密文文件/>的第j个特征；i₂＝1,2,…,n，d表示特征维度；

步骤A3：将每个密文文件作为一个样本，将每个样本的簇标签作为分类标签，记为将FeaTr(x)和CLab(x)组成的二元组(FeaTr(x),CLab(x))记为原始数据集T(x)；

步骤A4：将所述原始数据集T(x)作为训练数据，采用基于混合随机森林和逻辑回归模型的识别算法进行训练，得到簇分分类模型x。

进一步地，所述预先训练五个单分分类模型，具体包括：

步骤B1：选取F(1)_j中簇标签为1的密文文件组成密文集合F^C＝{F(1)_c|1≤c≤n}，将由F^C对应的密文特征和古典密码体制下的密码算法标签组成的二元组作为输入，训练古典密码体制下具体密码算法的单分分类模型1；

步骤B2：选取F(2)_j中簇标签为4的密文文件组成密文集合F^A＝{F(2)_a|1≤a≤n}，将由F^A对应的密文特征和非对称密码体制下的密码算法标签组成的二元组作为输入，训练非对称密码体制下具体密码算法的单分分类模型2；

步骤B3：选取F(3)_j中簇标签为5的密文文件组成密文集合FS＝{F(3)_s|1≤s≤n}，将FS对应的密文特征和密码算法标签组成的二元组作为输入，训练序列密码体制下具体密码算法的单分分类模型3；

步骤B4：选取F(4)_j中簇标签为7的密文文件组成密文集合F^ECB＝{F(4)_e|1≤e≤n}，将由F^ECB对应的密文特征和密码算法标签组成的二元组作为输入，训练分组密码体制ECB工作模式下具体密码算法的单分分类模型5；

步骤B5：选取F(4)_j中簇标签为8的密文文件组成密文集合F^CBC＝{F(4)_b|1≤b≤n-e}，将由F^CBC对应的密文特征和密码算法标签组成的二元组作为输入，训练分组密码体制CBC工作模式下具体密码算法的单分分类模型4；

其中，F(x)_j表示簇标签和密码算法标签均已知的参与第x次簇分的第j个密文文件。

进一步地，在训练五个所述单分分类模型时，均采用混合随机森林和逻辑回归模型的识别算法进行训练。

本发明的有益效果：

在针对多种密码体制存在的场景下，本发明实施例采取簇分与单分交叉进行的方式开展密码算法识别工作，实现了对古典密码体制、非对称密码体制、序列密码体制、分组密码体制以及对分组密码体制下的ECB工作模式和CBC工作模式下的共29种密码算法的识别。

附图说明

图1为本发明实施例提供的一种基于集成学习的密码算法多层复合识别方法的流程示意图之一；

图2为本发明实施例提供的一种基于集成学习的密码算法多层复合识别方法的流程示意图之二。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明实施例提供一种基于集成学习的密码算法多层复合识别方法，包括以下步骤：

S101：预先训练四个用于区分密码体制的簇分分类模型，包括用于区分古典密码体制的现代密码体制的簇分分类模型1、用于区分对称密码体制和非对称密码体制的簇分分类模型2、用于区分序列密码体制和分组密码体制的簇分分类模型3和用于区分ECB工作模式和CBC工作模式的簇分分类模型4；

S102：预先训练五个用于区分具体密码算法的单分分类模型，包括用于在古典密码体制下进行具体密码算法的识别的单分分类模型1、用于在非对称密码体制下进行具体密码算法的识别的单分分类模型2、用于在序列密码体制下进行具体密码算法的识别的单分分类模型3、用于在分组密码体制CBC工作模式下进行具体密码算法的识别的单分分类模型4和用于在分组密码体制ECB工作模式下进行具体密码算法的识别的单分分类模型5；

S103：采用所述簇分分类模型1进行第一次簇分，将待识别密文文件的密码算法区分为古典密码体制和现代密码体制，若属于古典密码体制，则采用单分分类模型1进行单分完成具体的古典密码算法的识别；否则，继续执行步骤S104；

S104：采用所述簇分分类模型2进行第二次簇分，将待识别密文文件的密码算法区分为对称密码体制和非对称密码体制，若属于非对称密码体制，则采用单分分类模型2进行单分完成具体的非对称密码算法的识别；否则，继续执行步骤S105；

S105：采用所述簇分分类模型3进行第三次簇分，将待识别密文文件的密码算法区分为序列密码体制和分组密码体制，若属于序列密码体制，则采用单分分类模型3进行单分完成具体的序列密码算法的识别；否则，继续执行步骤S106；

S106：采用所述簇分分类模型4进行第四次簇分，将待识别密文文件的密码算法区分为CBC工作模式和ECB工作模式，然后在对应工作模式下采用单分分类模型4或单分分类模型5对所述待识别密文文件的密码算法进行单分完成具体的密码算法的识别。

实施例2

结合图1和图2所示，在上述实施例的基础上，本发明实施例提供一种更加具体的基于集成学习的密码算法多层复合识别方法，包括训练阶段和测试阶段，具体包括以下步骤：

训练阶段包括以下步骤：

依次设定古典密码体制、现代密码体制、非对称密码体制、对称密码体制、序列密码体制、分组密码体制、ECB工作模式和CBC工作模式所对应的簇标签，得到簇分标签集合Clust＝{clust_i1|i₁＝1,2,…,8}；收集簇标签和密码算法标签均已知的四组密文文件Ftr＝{F(x)_j|x＝1,2,3,4,j＝1,2,…,n}，F(x)_j表示簇标签和密码算法标签均已知的参与第x次簇分的第j个密文文件，n为文件个数；

步骤S201：训练四个簇分分类模型；其中，每个所述簇分分类模型的训练过程具体包括：

步骤A2：对n个所述密文文件进行特征提取，得到一组特征集其中/>表示密文文件F(x)_i2的第j个特征；i₂＝1,2,…,n，d表示特征维度；

步骤S202：训练五个单分分类模型；其中，每个所述单分分类模型的训练过程具体包括：

步骤B5：选取F(4)_j中簇标签为8的密文文件组成密文集合F^CBC＝{F(4)_b|1≤b≤n-e}，将由F^CBC对应的密文特征和密码算法标签组成的二元组作为输入，训练分组密码体制CBC工作模式下具体密码算法的单分分类模型4。

作为一种可实施方式，在训练五个所述单分分类模型时，均采用混合随机森林和逻辑回归模型的识别算法进行训练。

测试阶段包括以下步骤：

步骤S203：获取待识别密文文件Fte，提取该待识别密文文件Fte的密文特征，记作特征集FeaTe＝{feate^j|j＝1,2,…,d}，其中feate^j为待识别密文文件Fte的第j个密文特征，d为特征维度；

步骤S204：将特征集FeaTe输入至簇分分类模型1进行第一次簇分，簇分结果为Plab(1)，将Plab(1)输入筛选器，将待识别密文文件的密码算法区分为古典密码体制和现代密码体制：

若属于古典密码体制，则将特征集FeaTe继续输入至单分分类模型1进行单分完成具体的古典密码算法的识别，单分分类模型1的输出即为待识别密文文件的密码算法标签a_te；

若属于现代密码体制，继续执行步骤S205；

步骤S205：将特征集FeaTe输入至簇分分类模型2进行第二次簇分，簇分结果为Plab(2)，将Plab(2)输入筛选器，将待识别密文文件的密码算法区分为对称密码体制和非对称密码体制：

若属于非对称密码体制，则将特征集FeaTe继续输入至单分分类模型2进行单分完成具体的非对称密码算法的识别，单分分类模型2的输出即为待识别密文文件的密码算法标签a_te；

若属于对称密码体制，继续执行步骤S206；

步骤S206：将特征集FeaTe输入至簇分分类模型3进行第三次簇分，簇分结果为Plab(3)，将Plab(3)输入筛选器，将待识别密文文件的密码算法区分为序列密码体制和分组密码体制：

若属于序列密码体制，则将特征集FeaTe继续输入至单分分类模型3进行单分完成具体的序列密码算法的识别，单分分类模型3的输出即为待识别密文文件的密码算法标签a_te；

若属于分组密码体制，继续执行步骤S207；

步骤S207：将特征集FeaTe输入至簇分分类模型4进行第四次簇分，簇分结果为Plab(4)，将Plab(4)输入筛选器，将待识别密文文件的密码算法区分为ECB工作模式和CBC工作模式：

若属于分组密码体制下的ECB工作模式，则将特征集FeaTe继续输入至单分分类模型5进行ECB工作模式下的密码算法单分识别，单分分类模型5的输出即为待识别密文文件的密码算法标签a_te；

若属于分组密码体制下的CBC工作模式，则将特征集FeaTe继续输入至单分分类模型4进行CBC工作模式下的密码算法单分识别，单分分类模型4的输出即为待识别密文文件的密码算法标签a_te。

与随机分类和对不同密码体制下的单层识别方案相比，本发明中所提出的密码算法多层复合识别方法在理论支撑、方案设计和识别精度方面都具有明显的进步。

需要说明的是，本发明实施例中，密码体制的簇分阶段和具体密码算法的单分阶段都需要进行密文特征的提取，将提取到的密文特征作为识别模型的输入，由此可见密文特征的提取直接影响到密文的识别结果。作为一种可实施方式，本发明实施例以NIST随机性测试理论为基础，以假设检验作为随机性测试的理论基础，参考现有的基于随机性检测的密文特征提取方法重新设计并采集了40种密文特征(如表1所示)作为簇分阶段和单分阶段的密文特征集。

表1 40种密文特征

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于集成学习的密码算法多层复合识别方法，其特征在于，包括：

步骤1：预先训练四个用于区分密码体制的簇分分类模型，包括用于区分古典密码体制和现代密码体制的簇分分类模型1、用于区分对称密码体制和非对称密码体制的簇分分类模型2、用于区分序列密码体制和分组密码体制的簇分分类模型3和用于区分ECB工作模式和CBC工作模式的簇分分类模型4；具体包括：

依次设定古典密码体制、现代密码体制、非对称密码体制、对称密码体制、序列密码体制、分组密码体制、ECB工作模式和CBC工作模式所对应的簇标签，得到簇分标签集合

对应地，每个所述簇分分类模型的训练过程具体包括：

步骤A4：将所述原始数据集T(x)作为训练数据，采用基于混合随机森林和逻辑回归模型的识别算法进行训练，得到簇分分类模型x；

步骤2：预先训练五个用于区分具体密码算法的单分分类模型，包括用于在古典密码体制下进行具体密码算法的识别的单分分类模型1、用于在非对称密码体制下进行具体密码算法的识别的单分分类模型2、用于在序列密码体制下进行具体密码算法的识别的单分分类模型3、用于在分组密码体制CBC工作模式下进行具体密码算法的识别的单分分类模型4和用于在分组密码体制ECB工作模式下进行具体密码算法的识别的单分分类模型5；具体包括：

其中，F(x)_j表示簇标签和密码算法标签均已知的参与第x次簇分的第j个密文文件；

2.根据权利要求1所述的基于集成学习的密码算法多层复合识别方法，其特征在于，在训练五个所述单分分类模型时，采用混合随机森林和逻辑回归模型的识别算法进行训练。