CN113111329B

CN113111329B - 基于多序列长短期记忆网络的口令字典生成方法及系统

Info

Publication number: CN113111329B
Application number: CN202110652105.5A
Authority: CN
Inventors: 陈文�; 常庚; 廖小瑶
Original assignee: Sichuan University
Current assignee: Sichuan Gehou Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-13
Anticipated expiration: 2041-06-11
Also published as: CN113111329A

Abstract

本发明公开了基于多序列长短期记忆网络的口令字典生成方法及系统，从训练集截取字符并进行字符编码，训练不同序列长度的LSTM模型；从训练集中首字符提取字符编码，输入相应的LSTM模型得到下一个字符；再选取相应的LSTM模型生成下一个字符；字符序列的长度大于模型最长序列长度时通过滑动窗口方式预测后面字符，取样到结束符时生成口令字符串，加入生成口令字典。本发明由多个LSTM模型级联组成，根据输入的样本序列选择相应的LSTM模型，保证生成结果的多样性；短序列LSTM输出作为下个序列长度LSTM的输入，最大程度使用学习到的信息，保证生成样本的准确性。

Description

基于多序列长短期记忆网络的口令字典生成方法及系统

技术领域

本发明涉及信息安全技术领域，尤其是口令生成技术领域，具体的说，是一种基于多序列长短期记忆网络的口令字典生成方法及系统。

背景技术

近年来，人们相继提出了图形认证、指纹认证和人脸识别等许多新的身份认证方法，但是上述方法存在着特殊硬件要求、认证环境受限等，无法从根本上代替口令认证。目前，口令仍然是是身份认证最广泛使用的手段，用户需要强制设置口令作为身份认证的首要步骤。然而随着不断出现的口令泄露事件，口令认证的安全性受到了严重的威胁，探究口令生成方法及口令安全具有重要意义。口令猜测攻击是用户口令安全主要的研究方向之一。口令猜测攻击包括漫步猜测攻击和定向猜测攻击。在漫步猜测攻击中，攻击者没有特定的目标，其主要目的是破解尽可能多的口令。在定向猜测攻击中，攻击者通过收集目标特定的个人信息以提高猜测效率，在有限数量的口令猜测中破解目标口令。口令猜测的代表性工具包括HashCat和JtR（John the Ripper）等，需要根据规则生成口令，命中率较低。而传统的漫步猜测方法主要包括马尔可夫模型（Markov models）和概率上下文无关文法PCFG（Probabilistic Context-Free Grammars），这两种模型基于统计概率。2016年，Melicher等提出使用神经网络中的长短期记忆网络（LSTM）来实现口令猜测(William Melicher,Blase Ur ,Sean M Segreti et al.“Fast,lean,and accurate:Modeling passwordguessability using neural networks”.In:25th{USENIX}Security Symposium({USENIX}Security 16),2016:175–191.)。它需要预先设置一个固定的序列长度，在生成口令时根据输入序列预测口令的下一个字符。

由于传统LSTM神经网络在口令猜测中需要提前设置一个固定的序列长度，再在训练阶段根据设定的长度截取训练集，这样导致：

当模型设置的序列长度较大时，在口令生成阶段，使用较长的序列来预测下一个字符出现的概率。但如果训练样本数据小于此长度，则训练样本将无法将加入训练集，导致在训练过程中的口令样本不足，由于训练集的数据稀疏问题，训练后的模型生成很多重复的口令。

当模型设置的序列长度比较小时，口令和个人信息都可以加入训练集，使用较短的序列来预测下一个字符出现的概率，由于使用的输入序列信息太少，具有较大的随机性和发散性，导致对当前位置的字符概率计算不够准确，生成更多无规则的字符串，口令猜测结果的准确率低。

发明内容

本发明的目的在于提供一种基于多序列长短期记忆网络的口令字典生成方法及系统，用于解决现有技术中LSTM神经网络需要设置固定的序列长度，序列长度过长导致生成重复口令、序列长度过短导致口令猜解准确率低的问题。

本发明通过下述技术方案解决上述问题：

一种基于多序列长短期记忆网络的口令字典生成方法，包括：

步骤S100：将原始口令集和个人信息集加入训练集，将训练集中的每个字符作为一个类别，提取字符的字符编码作为特征向量，分别训练不同序列长度的LSTM模型，得到多分类问题的概率模型；

步骤S200：从训练集中随机采样得到首字符，提取首字符的字符编码，输入到该多分类问题的概率模型中相应序列长度的LSTM模型，得到首字符的后一个字符的多分类每个类别的概率，从概率中进行随机取样，得到下一个字符以及其概率值；

步骤S300：执行以下步骤：

步骤S310：由首字符和LSTM模型预测出的字符依次生成字符序列，根据字符序列的序列长度选取相应序列长度的LSTM模型进行下一个字符的生成；

步骤S320：循环执行步骤S310，直到生成的字符序列的长度大于序列长度最长的LSTM模型的序列长度，采用序列长度最长的LSTM模型通过滑动窗口方式预测后面字符，直到取样得到结束符，生成口令字符串，进入步骤S400；

步骤S400：若生成的口令字符串的长度小于或等于设置口令的最长长度，则将口令字符串加入生成口令字典，若生成口令字典的口令数量未达到预设数量，返回步骤S200。

所述步骤S100具体包括：

步骤S110：提取原始口令作为原始口令集，提取个人信息作为个人信息集，将原始口令集和个人信息集组成训练集，对训练集中的所有字符串补充结束符，形成新字符串；

步骤S120：采用不同序列长度的LSTM模型分别截取训练集的新字符串，得到不同的输入序列和输入序列对应的标签，输入序列对应的标签为输入序列的下一个字符；

步骤S130：对输入序列中的每个字符进行字符编码，得到特征向量，并存入特征向量数组；对输入序列对应的标签进行字符编码得到标签向量，并存入标签向量数组；

步骤S140：采用特征向量和标签向量训练不同序列长度的LSTM模型，得到训练好的不同序列长度的LSTM模型；

步骤S150：将训练好的不同序列长度的LSTM模型按照序列长度由小到大的顺序级联得到多分类问题的概率模型。

基于多序列长短期记忆网络的口令字典生成系统，包括个人信息提取模块、训练集、输入序列截取模块、训练集特征提取模块、模型训练模块和口令生成模块，其中：

个人信息提取模块，用于提取个人信息字符串；

训练集，用于存放新字符串，包括个人信息字符串增加结束符得到的新字符串和原始口令中的字符串补充结束符得到的新字符串；

输入序列截取模块，用于采用不同序列长度的LSTM模型截取训练集中新字符串，得到输入序列和对应的标签；

训练集特征提取模块，用于对输入序列和对应的标签进行字符编码，得到特征向量和标签向量；

模型训练模块，采用特征向量和标签向量训练不同序列长度的LSTM模型，得到训练好的不同序列长度的LSTM模型；

口令生成模块，由训练好的不同序列长度的LSTM模型按照序列长度由小到大的顺序级联得到，用于从训练集提取首字符作为输入序列，输入训练好的对应序列长度的LSTM模型中，得到后一个字符及其概率，选取概率最大的输出字符连接到输入序列的尾部，形成生成字符序列；再根据生成的字符序列的序列长度选取相应序列长度的LSTM模型，将生成序列作为输入序列输入该模型预测下一个字符，将预测的下一个字符连接到输入序列，迭代该过程至生成的字符序列的序列长度大于序列长度最长的LSTM模型的序列长度，然后采用序列长度最长的LSTM模型使用滑动窗口方式预测后面字符，直到取样得到结束符，生成口令字符串，若生成的口令字符串的序列长度小于或等于设置口令的最长长度，将口令字符串加入生成口令字典。

本发明与现有技术相比，具有以下优点及有益效果：

本发明由多个LSTM模型级联组成，包括模型训练阶段和口令生成阶段，在训练阶段，分别训练出不同序列长度的LSTM模型，学习不同序列之间的关系；在口令生成阶段，采用训练好的多个不同序列长度的LSTM模型顺序级联方式生成口令，在给定输入的样本序列长度比较短时，使用序列长度较短的LSTM模型，保证生成结果的多样性；短序列LSTM输出作为下个序列长度LSTM模型的输入，最大程度使用学习到的信息，保证生成样本的准确性，解决了现有技术中LSTM神经网络需要设置固定的序列长度，序列长度过长导致生成重复口令、序列长度过短导致口令猜解准确率低的问题。

附图说明

图1为本发明的原理框图；

图2为本发明中的模型训练阶段的原理框图；

图3为生成口令的流程图；

图4为截取字符串的示意图；

图5为基于12306数据集训练并在178数据集测试的本发明与Markov-3、Markov-4、PCFG以及LSTM的准确率比较示意图；

图6为基于178数据集训练并在12306数据集测试的本发明与Markov-3、Markov-4、PCFG以及LSTM的准确率比较示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

一种基于多序列长短期记忆网络的口令字典生成方法，对LSTM模型进行改进，由多个不同序列长度的LSTM模型级联组成，包括模型训练阶段和口令生成阶段，如图1所示。以下以序列长度为1-5的LSTM模型为例进行说明：

对原始口令集的所有口令补充一个结束符后加入训练集；对个人信息提取后，根据LSTM模型的序列长度以滑动窗口模式提取个人信息字符串，补充结束符后加入训练集。

设置序列长度为n的LSTM，从字符串的第一个字符开始，截取序列长度n的字符串作为输入序列字符串，下一个临近的字符作为标签，以此采用滑动窗口模式截取口令的剩余部分，得到截取的字符串。

如图4所示，以口令“123abc”和个人信息“lisi”为例，对应序列长度为1的LSTM模型，输入序列和标签分别为“1”和“2”、“2”和“3”、“3”和“a”、“a”和“b”、“b”和“c”；个人信息“lisi”的输入序列和标签分别为“l”和“i”、“i”和“s、“s”和“i”、“l”和“s”；对于序列长度为2的LSTM，输入序列和标签分别为“12”和“3”、“23”和“a”、“3a”和“b”、“ab”和“c”、“li”和“s”、“is”和“i”；对于序列长度为3的LSTM，输入序列和标签分别为“123”和“a”、“23a”和“b”、“3ab”和“c”、“lis”和“i”；对于序列长度为4的LSTM，输入序列和标签分别为“123a”和“b”、“23ab”和“c”；对于序列长度为5的LSTM，输入序列和标签分别为“123ab”和“c”。

个人信息“lisi”可以被序列长度为1、2和3的LSTM模型截取，能够有效地将个人信息加入训练集，利用不同序列长度的LSTM对个人信息进行学习。

对输入序列和标签的每个字符进行字符编码，用1～10位表示0～9，用11～62位表示a～z和A～Z，用63～95位表示各个特殊字符的序号，其中按照ascii码的顺序对特殊字符进行排序，96位表示结束符；对于序列长度为1的LSTM，如输入序列和标签分别为“1”和“2”时表示为（0 1 0 0 0 0…0）和（0 0 1 0 0 0…0）；对于序列长度为2的LSTM，输入序列和标签分别为“12”和“3”时表示为（（0 1 0 0 0 0…0） (0 0 1 0 0 0…0））和（0 0 0 1 0 0…0），将输入序列的字符编码保存到特征向量数组，将标签的字符编码保存到标签数组；将特征向量和标签向量分别输入到LSTM模型中进行训练，得到训练好的不同序列长度的LSTM模型。本发明中所采用的每个LSTM模型具有2个LSTM层，每个LSTM层具有256个神经元，最后一层使用全连接层和softmax激活函数用作多分类，多分类的结果就是下一个字符的概率分布，采用的优化器均为Adam；学习率取0.001。

口令生成过程如图3所示，生成口令时从空串开始生成，第一次输入的字符从数据集进行随机抽取，对选取的字符使用上述字符编码提取的方法提取出字符特征（即特征向量），然后根据字符长度选取相对应长度的LSTM模型，输入到LSTM模型中进行预测，输出下一个字符的多分类每个类别的概率。从概率数组中进行随机取样，得到下一个字符。

将首字符和预测的下一个字符生成字符序列，根据生成的字符序列的序列长度选取相应序列长度的模型，如果生成的字符序列的长度大于序列长度最长的LSTM模型的序列长度，对序列长度最长的LSTM模型使用滑动窗口方式预测后面字符，直到取样得到结束符，得到口令字符串，判断口令字符串长度是否大于设置口令的最大长度，如果是，则忽略该口令字符串，否则，判断生成口令数量是否大于设置的数量，如果是，则将口令字符串加入生成口令字典，否则，返回随机选取字符，继续按照上述方法生成口令。

例如：假设第一次输入的字符随机取到“1”，使用序列长度为1的LSTM预测出字符“2”；接着使用序列长度为2的LSTM，输入序列为“12”，预测字符标签为“3”；接着使用序列长度为3的LSTM，输入序列为“123”，预测字符标签为“a”；接着使用序列长度为4的LSTM，输入为“123a”，预测字符标签为“b”，以此类推，最后得到口令字符串，若口令字符串长度不大于设置口令的最大长度且口令数量不大于设置的数量，则将口令字符串加入生成口令字典。

为了验证本发明的有效性，本发明将与马尔可夫（Markov，其中Markov包括3th-order Markov，4th-order Markov）、概率上下文无关文法（Probabilistic Context FreeGrammar，PCFG）、长短期记忆网络（Long Short-Term Memory，LSTM）进行实验对比，三种模型都需要对数据集进行训练。由于不同网站面对用户群体不同，口令数据集呈现的特征也不同，因此模拟真实场景，使用A网站泄漏的口令作为训练集进行训练，猜测阶段生成的口令攻击B网站，命中率作为评价指标，其结果分别如图5和图6所示。

在图5和图6中，实线表示本发明的准确率，虚线表示其他方向（3th-orderMarkov，4th-order Markov、PCFG以及LSTM）的结果。其中图5表示基于12306数据集训练并在178数据集测试的本发明与Markov-3、Markov-4、PCFG以及LSTM的准确率比较示意图，图6表示基于178数据集训练并在12306数据集测试的本发明与Markov-3、Markov-4、PCFG以及LSTM的准确率比较示意图。从实验结果可以看出，本发明实施例所提方法准确率普遍高于传统方法，具有很好的效果和较强的实用性。

综上所述，本发明在训练阶段将个人信息引入基于长短期记忆网络的口令字典生成方法，利用模型特点将个人信息有效加入训练过程。生成阶段，当输入的样本序列长度较短，使用序列长度较短的LSTM模型，保证生成结果的多样性。短序列LSTM输出结果作为下个序列长度LSTM模型的输入，进行口令生成。模型在保证生成结果的多样的同时提升了准确性，解决了序列长度选择困难问题，能够取得良好的效果。

实施例2：

结合图2所示，基于多序列长短期记忆网络的口令字典生成系统，包括个人信息提取模块、训练集、输入序列截取模块、训练集特征提取模块、模型训练模块和口令生成模块，其中：

个人信息提取模块，用于提取个人信息字符串；

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.基于多序列长短期记忆网络的口令字典生成方法，其特征在于，包括：

步骤S100：将原始口令集和个人信息集加入训练集，将训练集中的每个字符作为一个类别，提取字符的字符编码作为特征向量，分别训练不同序列长度的LSTM模型，将训练好的不同序列长度的LSTM模型按照序列长度由小到大的顺序级联得到多分类问题的概率模型；

步骤S300：执行以下步骤：

步骤S310：由首字符和LSTM模型预测出的字符依次生成字符序列，根据字符序列的序列长度选取相应序列长度的LSTM模型进行下一个字符的生成；步骤S320：循环执行步骤S310，直到生成的字符序列的长度大于序列长度最长的LSTM模型的序列长度，采用序列长度最长的LSTM模型通过滑动窗口方式预测后面字符，直到取样得到结束符，生成口令字符串，进入步骤S400；

2.根据权利要求1所述的基于多序列长短期记忆网络的口令字典生成方法，其特征在于，所述步骤S100具体包括：

3.基于多序列长短期记忆网络的口令字典生成系统，其特征在于，包括个人信息提取模块、训练集、输入序列截取模块、训练集特征提取模块、模型训练模块和口令生成模块，其中：

个人信息提取模块，用于提取个人信息字符串；