CN109145582A

CN109145582A - 一种基于字节对编码的密码猜测集生成方法、密码破解方法及装置

Info

Publication number: CN109145582A
Application number: CN201810568923.5A
Authority: CN
Inventors: 陈小军; 王大魁; 时金桥; 王星星; 徐睿; 文新; 张闯; 胡兰兰
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2019-01-04
Anticipated expiration: 2038-06-05
Also published as: CN109145582B

Abstract

本发明涉及一种基于字节对编码的密码猜测集生成方法、密码破解方法及装置。该方法首先采用字节对编码对训练集密码进行分词，然后根据分词的结果，采用马尔可夫模型生成密码猜测集。进一步地，使用所述密码猜测集，通过进行字符串匹配来破解明文密码。本发明完全利用统计概率的思想对密码进行切分，并借用马尔可夫模型探究密码组成之间的关联，进而提高密码猜测效果和密码破解效率；用本发明生成的密码猜测集直接进行字符串匹配，可以更好地生成密码猜测集和评估密码的安全强度。

Description

一种基于字节对编码的密码猜测集生成方法、密码破解方法及装置

技术领域

本发明属于信息技术领域，涉及一种基于字节对编码的密码猜测集生成方法、密码破解方法及装置。

背景技术

目前密码破解采用的方法主要有以下几种：

1)暴力破解，采用所有可能字符的排列组合，对密码进行逐一尝试，直到找到正确的密码为止。结合字符在自然语言中的频率不同，可以按频率顺序尝试最可能的组合，从而提高破解效率。但是显然，考虑到计算机的性能和消耗的时间，不可能尝试所有组合。

2)字典攻击，利用准备好的(按概率排序的)字典，结合一些变形规则，如首字母大写、末尾添加数字或特殊字符等，以此来遍历字典猜测密码。字典攻击可以有效降低暴力破解的搜索空间，但破解的成功率取决于攻击字典的质量。

3)统计概率模型，主要包含两类：基于概率上下文无关文法(ProbabilisticContext-Free Grammars，PCFG)和基于马尔可夫链(Markov-Chain)的方法。前一种方法是将密码“分词”，假设分词后的每个片段之间是无关的，并利用一些语义规则去构建密码的组成模型。这种方法是基于先验规则的，有失偏颇。后一种方法是对整个密码进行训练，假设密码中的字符(或人为切分出的片段)是前后关联的，完全基于统计的概率。但基于字符的Markov模型无法充分利用密码中的整体性，基于片段的Markov模型则没有一个很好的密码分词方法。

发明内容

本发明的目的在于针对上述问题，提供一种基于字节对编码的密码猜测集生成、密码破解方法及装置，能够提高密码猜测效果和密码破解效率。

本发明采用的技术方案如下：

一种基于字节对编码的密码猜测集生成方法，包括以下步骤：

1)采用字节对编码对训练集密码进行分词；

2)根据分词的结果，采用马尔可夫模型生成密码猜测集。

进一步地，步骤1)包括：

1-1)将训练集密码字典文件t中所有密码变换为字符序列，字符之间用空格隔开，并在最后加入一个结束符，初始化迭代次数s＝0；

1-2)统计所有字符对的个数，将个数最多的字符对用一个新的字符代替，s自增1；

1-3)重复步骤1-2)，直到s满足一定的值；

1-4)用步骤1-3)迭代生成的所有新的字符对t中密码进行切分，得到切分之后的密码字典st。

进一步地，步骤2)所述采用马尔可夫模型生成密码猜测集，包括：

2-1)将每一个分词后的密码转为数组，数组中每一个元素是用分隔符隔开的密码片段，将数组表示为[s₁,s₂,…,s_n]；

2-2)每一个数组添加一个元素s₀作为起始符，添加一个元素s_e作为结束符，即[s₀,s₁,s₂,…,s_n,s_e]；

2-3)统计密码中所有片段出现的次数，记片段s_i出现的次数为c_i；统计相邻两个密码片段出现的次数，记相邻两个密码片段(s_i,s_j)出现的次数为c_ij；

2-4)计算每一个条件概率

2-5)根据所有的密码片段及其条件概率构建一个两层概率字典probDict，其中key是分词后的所有密码片段，value是一个字典；value字典中的key2是在key之后出现的密码片段，对应的value2是在key出现后key2出现的条件概率；

2-6)利用2-5)中的字典probDict，采用一阶马尔可夫模型生成密码猜测集。

一种基于字节对编码的密码猜测集生成装置，其包括：

分词模块，负责采用字节对编码对训练集密码进行分词；

密码猜测集构建模块，负责根据分词的结果，采用马尔可夫模型生成密码猜测集。

一种密码破解方法，包括以下步骤：

1)采用上面所述方法生成基于字节对编码的密码猜测集；

2)使用所述密码猜测集，通过进行字符串匹配来破解明文密码。

一种密码破解装置，其包括：

密码猜测集生成模块，负责采用上面所述方法生成基于字节对编码的密码猜测集；

匹配模块，负责使用所述密码猜测集，通过进行字符串匹配来破解明文密码。

本发明的有益效果是：

本发明完全利用统计概率的思想对密码进行切分，并借用Markov模型探究密码组成之间的关联，进而提高密码猜测效果和密码破解效率。假设待破解的密码为明文，用本发明生成的密码猜测集直接进行字符串匹配，本发明可以更好地生成密码猜测集和评估密码的安全强度。

附图说明

图1为本发明方法的流程图。

图2(a)～图2(d)为BPE-Markov、PCFG、一阶字符型Markov方法的对比结果图。其中BPE_α-Markov即为本发明方法，α表示BPE迭代次数，设定为三个值1e4(10⁴)、5e4(5*10⁴)和1e5(10⁵)；PCFG表示Weir发明的PCFG算法，但是其中的L_n变量使用训练集中的字典；Markov表示基于字符的一阶Markov方法。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

为了提高密码破解效率，本发明提供了一种基于Markov模型并且利用字节对编码(Byte Pair Encoding，BPE)对密码进行统计方法的切分和片段提取的密码猜测生成器，简称基于字节对编码的密码猜测生成器。

本发明主要包含两个方面：1)首先对互联网泄漏库(包括CSDN、178、000webhost、rockyou等)中的密码进行字节对编码的切分，根据统计的思想提取出人们经常在密码中使用的片段(或字符组合)；2)使用Markov模型，根据提取出的片段及其在数据集中的概率，生成按概率降序的密码猜测集，并对互联网泄漏库(7k7k和gmail)中的密码进行测试。图1为本发明方法的具体流程图。

字节对编码是一种简单的数据压缩方法，通过使用数据中不存在的一个字节替换最常出现的连续字节数据。不考虑密码字典中两个密码之间的分隔符，本发明用这种方法对密码进行分词，具体流程如下：

设输入参数t是训练集密码字典文件，s为迭代(或合并)次数，输出为分词之后的密码文件st。

1.将t中所有密码变换为字符序列，字符之间用空格隔开(训练集所有密码均不包含空格)，并在最后加入一个结束符(如“</w>”)，例如“love123”转换为“l o v e 1 2 3</w>”，初始化迭代次数s＝0；

2.统计所有字符对的个数，将个数最多的字符对，如(“A”，“B”)用一个新的“字符”“AB”代替，s自增1；

3.重复步骤2，直到s满足一定的值，这时训练集密码会被切分成片段的形式。对于一般的训练集(密码数量一般在10万以上)，可以设置s为10000，这样能够找出尽量多的常用片段。s不宜设置过大，因为迭代过程比较耗时和消耗资源，以1万-10万之间的数字为佳；

4.用步骤3迭代生成的所有新的“字符”对t中密码进行切分，如密码“smart1010”被切分成“smart###1010”(“###”为分隔符)，得到切分之后的密码字典st。

由此可见采用字节对编码对密码进行分词，是完全统计的结果，不受任何规则的影响。当然，这样分词的结果受到迭代次数s的影响。

密码分词后，本发明使用Markov模型生成密码猜测集，具体步骤如下：

1.将每一个分词后的密码转为数组，数组中每一个元素就是用分隔符隔开的密码片段，即[s₁,s₂,…,s_n]；

2.每一个数组添加一个元素s₀作为起始符，添加一个元素s_e作为结束符，即[s₀,s₁,s₂,…,s_n,s_e]；

3.统计密码中所有片段出现的次数，如s_i出现的次数为c_i；统计相邻两个密码片段出现的次数，如(s_i,s_j)出现的次数为c_ij；

4.计算每一个条件概率，

5.根据所有的密码片段及其条件概率构建一个两层概率字典probDict，字典的key是分词后的所有密码片段，value是一个字典，value字典中的key2是在key之后出现的密码片段，对应的value2是在key出现后key2出现的条件概率；

6.应用一阶Markov模型生成猜测，具体流程如下：

1)定义优先队列PQ，存放节点([s₀,s₁,…,s_k],p)，其中p＝P(s₀s₁…s_k)＝P(s₀)P(s₁|₀)…P(s_k|s_k-1)，优先队列按照p降序排列；p表示密码猜测s₀s₁…s_k的概率；

2)将初始结点([s₀],1.0)入队；

3)将PQ中的一个结点([s₀,s₁,…,s_k],p)(优先队列特性保证该结点概率最大)出队；

4)判断该结点中最后一个密码片段s_k是否为结束符；

5)若s_k不是结束符，则将probDict中key＝s_k的值value(字典)中的每一个片段s_k+1加入[s₀,s₁,…,s_k]中构成一个新的片段集[s₀,s₁,…,s_k,s_k+1]，计算新片段集的概率，即p_new＝p·p_k+1，将组成的多个新结点入队；

6)若s_k是结束符，则将该结点转为密码猜测(去掉起始符和结束符)，即s₁s₂…s_k-1，输出；

7)重复步骤3)，直到密码猜测集中密码数量达到设定值，密码猜测集就此构建完成。

7.最后，使用密码猜测集破解密码。可通过进行字符串匹配来破解明文密码。

以A泄漏密码库作为训练集，B泄漏数据库作为测试集为例：

1)对A库的所有密码进行字节对编码切分。如CSDN中的密码“lj7202”经过1万次BPE迭代，可以获得“lj 720 2”形式的切分结果，而经过5万次迭代则获得“lj 7202”形式的切分结果。

2)在每个切分密码后加上一个片段作为结束符，如换行符“\n”，并设定每一个密码都有一个起始符，如“\v”。

3)对所有组成片段进行全局概率统计，得到每个组成片段的概率和每个组成片段在前一个片段后的条件概率，得到一个概率字典，如1万次BPE迭代后获得的分词密码集，可以得到如下的一个字典：

{

"liu123456":{"\n":1.0},

"d 5060":{"69":1.0},

"zaqw":{"3232":0.030,"zm":0.029,"12":0.059,"1979":0.030,"1789":0.029,"ww":0.029,"14725":0.030,"za":0.029,"12369":0.030,"sk":0.029,"0":0.029,"s":0.059,"sx":0.471,"1026":0.029,"12345":0.030,"_":0.029,"sd":0.029},

……

}

4)声明一个优先队列，将起始结点([“\v”],1.0)入队，然后再出队。因为“\v”不等于结束符“\n”，所以将字典中key为“\v”的值中所有结点入队，其中概率最大的结点为([\v,123456789],p)，其概率为：

p＝P([\v,123456789])＝P(\v)P(123456789|\v)＝1.0*0.03750931418155182，

因为“123456789”不是结束符“\n”，所以将字典中key为“123456789”的值中所有结点入队，这时概率最大的为([\v,123456789,\n],p)，其概率为：

p＝P([\v,123456789,\n])＝P(\v)P(123456789|\v)P(\n|123456789)＝1.0*0.03750931418155182*0.9755267481903439，

因为“\n”是结束符，所以输出猜测“123456789”，这也是基于1万次BPE迭代的Markov方法针对CSDN数据集产生的第一个猜测。

5)生成10万个密码猜测，同时和B库进行比对，查找生成的密码猜测是否能够命中B库中的密码，每隔100个猜测输出次数和命中率作为实验结果。如：

100,0.0557906366063

200,0.0732556312055

……

99900,0.258464045645

100000,0.258503671755

对比本发明提供的方法，和当前先进的密码猜测方法PCFG算法和基于字符的一阶Markov方法，在不同数据集上进行了对比实验。实验数据集来源包含CSDN、178、7k7k、000webhost、rockyou、gmail泄露账号密码集共计7600万账户。由于计算机性能限制，每个实验中的密码猜测次数限定为10万次。

本发明的实验结果具体表现如下：

本发明基于BPE的Markov密码猜测方法与PCFG算法和基于字符的一阶Markov算法在不同数据集上的破解效果对比，如图2(a)～图2(d)所示。针对中国网站，分别采用CSDN、178泄漏库的密码作为训练集，7k7k泄漏库的密码作为测试集(分别对应图2(a)和图2(b))；对英文网站，分别采用000webhost、rockyou泄漏库的密码作为训练集，采用gmail泄漏库的密码作为测试集(分别对应图2(c)和图2(d))，进行猜测攻击。4个攻击实验都反映出基于字符的一阶Markov算法的破解效率最差。

第一个攻击试验中，3种不同BPE迭代次数的Markov方法的破解效率都优于PCFG算法，其中50000次BPE迭代的Markov方法比PCFG算法多猜测21.82％的密码。

第二个攻击试验表现的结果与第一个实验一样，只是破解的提升比较小，10万次BPE迭代的Markov方法只比PCFG算法多猜测4.06％的密码。这是由于两个数据集都来自游戏网站，密码结构具有较高的相似度，采用PCFG算法可以获得较高的破解率。

第三个攻击试验中，所有方法的总体破解率较低，但是本发明的方法较之PCFG算法提升很明显，其中1万次迭代的方法比PCFG算法多猜测161.42％的密码，而10万次迭代的方法破解率提升更大，达到212.41％。

最后一个试验中，本发明中1万次迭代的方法的破解率比PCFG算法低，这是由于rockyou数据集较大，较小的BPE迭代次数无法很好地找出密码集中最常用的片段，分词效果不佳。但是10万次迭代的方法比PCFG算法的破解率高出8.51％。

本发明另一实施例提供一种基于字节对编码的密码猜测集生成装置，其包括：分词模块，负责采用字节对编码对训练集密码进行分词；密码猜测集构建模块，负责根据分词的结果，采用马尔可夫模型生成密码猜测集。

本发明另一实施例提供一种密码破解装置，其包括：密码猜测集生成模块，负责采用上面所述方法生成基于字节对编码的密码猜测集；匹配模块，负责使用所述密码猜测集，通过进行字符串匹配来破解明文密码。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于字节对编码的密码猜测集生成方法，其特征在于，包括以下步骤：

1)采用字节对编码对训练集密码进行分词；

2)根据分词的结果，采用马尔可夫模型生成密码猜测集。

2.根据权利要求1所述的方法，其特征在于，步骤1)包括：

1-3)重复步骤1-2)，直到s满足一定的值；

1-4)用步骤1-3)生成的所有新的字符对t中密码进行切分，得到切分之后的密码字典st。

3.根据权利要求1所述的方法，其特征在于，步骤2)所述采用马尔可夫模型生成密码猜测集，包括：

2-4)计算每一个条件概率

4.根据权利要求3所述的方法，其特征在于，步骤2-6)所述采用一阶马尔可夫模型生成密码猜测集，包括：

2-6-1)定义优先队列PQ，存放节点([s₀,s₁,…,s_k],p)，其中p＝P(s₀s₁…s_k)＝P(s₀)P(s₁|s₀)…P(s_k|s_k-1)，优先队列按照p降序排列；

2-6-2)将初始结点([s₀],1.0)入队；

2-6-3)将PQ中的一个结点([s₀,s₁,…,s_k],p)出队；

2-6-4)判断该结点中最后一个密码片段s_k是否为结束符；

2-6-5)若s_k不是结束符，则将所述字典probDict中key＝s_k的值value中的每一个片段s_k+1加入[s₀,s₁,…,s_k]中构成一个新的片段集[s₀,s₁,…,s_k,s_k+1]，计算新片段集的概率，即p_new＝p·p_k+1，将组成的多个新结点入队；

2-6-6)若s_k是结束符，则将该结点转为密码猜测，去掉起始符和结束符，即s₁s₂…s_k-1，输出；

2-6-7)重复步骤2-6-3)，直到密码猜测集中密码数量达到设定值，密码猜测集就此构建完成。

5.一种基于字节对编码的密码猜测集生成装置，其特征在于，包括：

分词模块，负责采用字节对编码对训练集密码进行分词；

6.根据权利要求5所述的装置，其特征在于，所述分词模块采用以下操作进行分词：

将训练集密码字典文件t中所有密码变换为字符序列，字符之间用空格隔开，并在最后加入一个结束符，初始化迭代次数s＝0；

统计所有字符对的个数，将个数最多的字符对用一个新的字符代替，s自增1；

重复以上步骤，进行迭代处理，直到s满足一定的值；

用迭代生成的所有新的字符对t中密码进行切分，得到切分之后的密码字典st。

7.根据权利要求5所述的装置，其特征在于，所述密码猜测集构建模块采用以下操作生成密码猜测集：

将每一个分词后的密码转为数组，数组中每一个元素是用分隔符隔开的密码片段，将数组表示为[s₁,s₂,…,s_n]；

每一个数组添加一个元素s₀作为起始符，添加一个元素s_e作为结束符，即[s₀,s₁,s₂,…,s_n,s_e]；

统计密码中所有片段出现的次数，记片段s_i出现的次数为c_i；统计相邻两个密码片段出现的次数，记相邻两个密码片段(s_i,s_j)出现的次数为c_ij；

计算每一个条件概率

根据所有的密码片段及其条件概率构建一个两层概率字典probDict，其中key是分词后的所有密码片段，value是一个字典；value字典中的key2是在key之后出现的密码片段，对应的value2是在key出现后key2出现的条件概率；

利用字典probDict，采用一阶马尔可夫模型生成密码猜测集。

8.根据权利要求7所述的装置，其特征在于，所述采用一阶马尔可夫模型生成密码猜测集，包括：

1)定义优先队列PQ，存放节点([s₀,s₁,…,s_k],p)，其中p＝P(s₀s₁…s_k)＝P(s₀)P(s₁|s₀)…P(s_k|s_k-1)，优先队列按照p降序排列；

2)将初始结点([s₀],1.0)入队；

3)将PQ中的一个结点([s₀,s₁,…,s_k],p)出队；

4)判断该结点中最后一个密码片段s_k是否为结束符；

5)若s_k不是结束符，则将所述字典probDict中key＝s_k的值value中的每一个片段s_k+1加入[s₀,s₁,…,s_k]中构成一个新的片段集[s₀,s₁,…,s_k,s_k+1]，计算新片段集的概率，即p_new＝p·p_k+1，将组成的多个新结点入队；

6)若s_k是结束符，则将该结点转为密码猜测，去掉起始符和结束符，即s₁s₂…s_k-1，输出；

9.一种密码破解方法，其特征在于，包括以下步骤：

1)采用权利要求1至4中任一权利要求所述方法生成基于字节对编码的密码猜测集；

10.一种密码破解装置，其特征在于，包括：

密码猜测集生成模块，负责采用权利要求1至4中任一权利要求所述方法生成基于字节对编码的密码猜测集；