CN112784227A

CN112784227A - 基于口令语义结构的字典生成系统及方法

Info

Publication number: CN112784227A
Application number: CN202110002545.6A
Authority: CN
Inventors: 邱卫东; 田昊; 郭捷; 唐鹏; 黄征; 刘国珍
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-05-11

Abstract

一种基于口令语义结构的字典生成系统及方法，包括：口令语义结构分析模块和口令字典生成模块，其中：口令语义结构学习模块从样本集中提取出对应口令的语义结构以及口令语义结构对应的口令因子并输出至口令字典生成模块，口令字典生成模块通过分析目标数据集的特征，根据生成阈值生成用于解密验证的口令字典。本发明通过学习样本集中口令的特征，得到带权重的口令因子库，并提出了字典生成的改进算法，能够准确、高效的生成字典。

Description

基于口令语义结构的字典生成系统及方法

技术领域

本发明涉及的是一种信息安全领域的技术，具体是一种在基于口令语义结构的字典生成系统及方法。

背景技术

在口令字典生成方面，国内的相关研究暂时停留在基于模式的静态口令生成阶段。北京大学的研究团队在口令重构方面进行了积极的尝试，分析了多个口令样本的组成特点，并提出了针对不同场景下的口令猜测算法框架。上海交通大学的研究团队将循环神经网络模型应用在口令的字符转移概率分析上，并给出了针对“在线攻击”、“离线攻击”两个具体场景下的口令分析与重构方法。

国外的研究主要成果包含以下三部分。基于Markov模型的口令分析技术是由Narayanan 和Shmatikov提出的字典生成方法。该方法从口令的设定习惯出发，使用马尔可夫模型选择出现概率大的字符组合作为候选口令，并结合有限状态自动机减少搜索空间，去掉概率小的口令组合。基于概率上下文无关法的口令分析技术则是对口令的构成属性进行深入研究，将口令按照字符类别，如数字，大写字母，小写字母等进行统计分析，找出训练集出现的字符类别组合及其概率，最后使用PCFG(概率上下文无关法)进行规则式口令填充，以此产生新的口令字典。 William Melicher曾提出过使用LSTM进行口令预测的方法，但是受限于CPU运算能力与IO传输瓶颈的限制，以及其LSTM模型所使用口令抽象算法的局限性，该方案并没有体现出较以上两种方式更为明显的有效性优势。

目前，对于基于口令语义结构的字典生是口令分析与重构的热门方向。但是这一方向成果较少，并且已有的字典生成方法均有着较大的缺陷等待解决。

国内的研究中，北京大学的框架强烈依赖于其他个人信息作为先验知识，在没有先验知识的情况下，该框架的口令重构生成效果不甚理想。上海交通大学的“在线攻击”方法受限于社工信息的缺失，并没有取得很好的结果，这也显示了单纯对口令中字符转移概率进行分析，并不能很好地表示出口令设定习惯和规律。

国外的研究中，基于Markov模型的口令分析技术对与有限自动机限定之外的大概率字符缺少考虑，在字典生成中容易产生口令的遗失情况。同时当Markov转移矩阵阶数较高时，极易产生不可避免的指数爆炸现象；基于概率上下文无关法的口令分析技术在进行字典生成时仅支持对样本库中出现过的口令子集进行重构，其泛化能力是该模型的重要瓶颈和制约条件；使用LSTM模型进行字典生成旧存在局限于依靠口令整体概率而忽视了口令的结构化特征的问题，无法深刻体现样本集中口令的结构化特征，也就无法发挥LSTM模型的统计优势。

发明内容

本发明针对现有口令分析与重构方法生成的口令效率不高，无法满足高效率解密的矛盾，提出一种基于口令语义结构的字典生成系统及方法，通过学习样本集中口令的特征，得到带权重的口令因子库，并提出了字典生成的改进算法，能够准确、高效的生成字典。

本发明是通过以下技术方案实现的：

本发明涉及一种基于口令语义结构的字典生成系统包括：口令语义结构分析模块和口令字典生成模块，其中：口令语义结构学习模块从样本集中提取出对应口令的语义结构以及口令语义结构对应的口令因子并输出至口令字典生成模块，口令字典生成模块通过分析目标数据集的特征，根据生成阈值生成用于解密验证的口令字典。

所述的口令语义结构学习模块包括：初始化模块、预处理模块、分词模块、数字处理模块、特殊字符处理模块以及字母处理模块，其中：初始化模块生成哈希表，预处理模块对输入的口令进行分类判断，分词模块对经分类判断后仍然没有明确语义的输入口令进行分词处理，数字处理模块对于分词模块得到的数字部分根据长度进行分类，并判断其中特定长度的数字是否包含语义结构，特殊字符处理模块对于分词模块得到的特殊字符部分，根据长度进行再次分类；字母处理模块对于分词模块得到的字母部分，依次进行单词拆分、词性标注模块和特殊语义处理。

所述的初始化模块，根据命令行提供的参数，在Rules文件夹下新建存放口令语义结构因子的目录，新建存放所有口令语义结构因子的哈希表A。

所述的分类判断是指：预处理模块判断输入的口令是否包含三种特殊类型：键盘组合(例如1qaz2wsx)、邮件地址(例如XXX@sjtu.edu.cn)以及网址(www.baidu.com)。需要特殊处理这三类的原因是在分词模块中会按照字母，数字，特殊字符来切分口令，而这三种类型都是包含两种及两种以上的字符类型，不预先处理它们会造成分词的不准确。

所述的特殊类型的处理规则是：键盘组合是通过判断字符串在键盘上的相对位置，观察字符之间是否互为邻居来判断。邮件地址和网址则是根据一组固定的后缀(比如.com，.cn等) 以及他们固定的格式(比如邮件地址里面必须有@符号)来判断。

所述的分词处理，首先按照字母，数字和特殊字符对口令进行切分，切分后的部分再进行分类判断处理。

所述的特定长度的数字，当长度为6位或8位数字，则判断是否是年月日(比如，格式 YYYYMMDD和YYMMDD)；当长度为4位数字，则判断是否是年份；当长度为11位数字，则判断是否是合法电话号码(根据我国电话号规则)。

所述的字母处理模块包括：单词拆分单元，词性标注单元和特殊语义处理单元。

所述的单词拆分单元的分割算法具体为单词拆分(word break)算法，该算法使用参考语料库，将命名实体作为名词的子集，其中命名实体包括：地名，月份，男性名，女性名和中文名缩写，其中中文名缩写，大多数缩写仅包含3个字母，并且这种简短的首字母缩写词有时会导致错误的分割结果，因此，分割算法首先运行不包含中文名缩写的分割算法，并且如果分割结果包括任何无法识别的部分，将包含中文名缩写进行第二次分割。事实证明，这有助于平衡两个冲突的需求：即完整性和准确性。

所述的词性标注单元根据口令语义结构定义，对于词性标注(POS)标记过程，使用了称为顺序退避标记器的方法，该方法尝试从三元(Trigram)标记器，然后是二元(bigram)标记器，最后是单元(unigram)标记器进行标记过程。

所述的口令语义结构定义为具有明确语义的因素，包括：代词([PRON])，名词([NOUN])，限定词([DET])，形容词([ADJ])，动词([VERB])，介词([ADP])，副词([ADV])，小品词([PRT])，连词([CONJ])，代表数字的英语单词([NUM])和词缀([X])。

所述的特殊语义处理单元对经过词性标注单元后仍需要处理的命名实体和无法识别的段进行补充识别分类。

标记上面列出的段关联因素之外，标记器还将命名实体标记为“NP”，将任何无法识别的段标记为“NN”。

所述的补充识别分类包括：对实体标记部分通过字符串匹配映射到四个或五个命名实体(地名，月份，男性名，女性名和中文名缩写)；对于无法识别的段首先尝试判断他是不是合法的拼音表达式。然后，通过检查该细分是否是英语短语的首字母缩写，判断规则是改部分是否是由至少三个连续的辅音字母组成的。

所述的口令字典生成模块包括：准备工作单元和字典生成单元，其中：准备工作单元对于口令语义结构文件计算每种语义结构的出现频率得到带权值的结构文件；并构建优先队列，将每一个语义结构中包含的每一种语义结构因子以及因子库中最高概率的因子存入优先队列中；字典生成单元弹出优先队列中概率最高的口令输入到生成文件中，同时该口令对应的口令语义结构中概率仅次于口令E的口令加入优先队列。

所述的字典生成单元进一步使用纯数字生成算法提高生成字典的覆盖率。

所述的纯数字生成算法是指：对于纯数字构成口令，则是采取了全部生成的策略(比如结构：3位数字，就是生成000到999，而该结构的概率计算则是P(现在的概率)＝P(原本的概率)/1000)。重复执行这一流程，直到优先队列为空或者生成的字典数达到预先设置的阈值。结束生成，得到口令字典。

本发明涉及上述系统的字典生成方法，通过提取样本集中的口令的语义结构信息，然后结合训练中获得的带权值的口令因子库，最后具体实现基于口令语义结构的字典生成。

技术效果

本发明整体解决了现有技术口令字典生成问题；相比已有的口令分析技术，本发明通过学习得到口令的语义结构，训练得到口令的带权值的因子库(包括生日，手机号，年份，拼音，名词，动词等常见的语义结构)，依照口令的语义结结构生成口令字典。可以从语义层面上剖析口令的结构，学习人类在设置口令时的可能的想法，进而根据习得的结构来反作用于口令分析；这是目前主流的口令分析PCFG(只能将口令按照字符类型拆分)，深度神经网络(只能学习口令字符间转移概率)有很大区别。

附图说明

图1为本发明系统模块图；

图2为口令语义结构学习模块图；

图3为口令字典生成流程图。

具体实施方式

如图1所示，为本实施例涉及一种基于口令语义结构的字典生成方法，优选在Linux操作系统平台上实现，具体步骤包括：口令语义结构学习和基于口令语义结构的口令字典生成。

第一步、如图2所示，进行口令语义结构学习，具体包括以下步骤：

1.1)选择待分析的口令泄漏库；

1.2)从1.1)所选择的口令泄露库中随机选择合适大小的样本A，比如100万条；

1.3)分析1.2)所选择的样本A，具体步骤如下：

1.3.1)初始化：新建存放口令语义结构因子的目录，新建存放所有口令语义结构因子的哈希表A。对每条输入的口令进行1.3.2)～1.3.)的操作。

1.3.2)预处理：判断输入的口令是否包含特殊类型，即：键盘组合(例如1qaz2wsx)、邮件地址(例如XXX@sjtu.edu.cn)以及网址(www.baidu.com)，特殊类型的处理规则是：键盘组合是通过判断字符串在键盘上的相对位置，观察字符之间是否互为邻居来判断。邮件地址和网址则是根据一组固定的后缀(比如.com，.cn等)以及他们固定的格式(比如邮件地址里面必须有@符号)来判断。

在1.3.3)分词处理：对经过1.3.2)预处理后口令中仍然没有明确语义的部分进行分词处理。首先按照字母，数字和特殊字符对口令进行切分。切分后的部分根据类型分别处理。

1.3.4)数字处理：对于每个1.3.3)中得到的数字，首先根据长度进行再次分类，其次对于某些特定长度的数字，判断是否包含语义结构。6位或8位数字判断是否是年月日(比如，格式 YYYYMMDD和YYMMDD)，4位数字是否是年份，11位数字是否是合法电话号码(根据我国电话号规则)。

1.3.5)特殊字符处理：对于每个1.3.3)中得到的特殊字符，根据长度进行再次分类。

1.3.6)字母处理：对于每个1.3.3)中得到的字母，对它的处理流程包括单词拆分，词性标注和特殊语义处理，具体包括：

1.3.6.1)单词拆分：在使用参考语料库的同时，也支持将命名实体作为名词的子集。目前在使用的代表五种不同的语义因子类型：地名，月份，男性名，女性名和中文名缩写。对于中文名缩写，大多数缩写仅包含3个字母，并且这种简短的首字母缩写词有时会导致错误的分割结果，因此，分割算法首先运行不包含中文名缩写的分割算法，并且如果分割结果包括任何无法识别的部分，将包含中文名缩写进行第二次分割。事实证明，这有助于平衡两个冲突的需求：即完整性和准确性。

1.3.6.2)词性标注：将口令因子做以下定义：口令因子可以识别为以下具有明确语义的因素：代词([PRON])，名词([NOUN])，限定词([DET])，形容词([ADJ])，动词([VERB])，介词([ADP])，副词([ADV])，小品词([PRT])，连词([CONJ])，代表数字的英语单词([NUM])和词缀([X])。使用了顺序退避标记器的方法，该方法尝试从三元语法标记器，然后是二元语法标记器，最后是单元语法标记器进行标记过程。除了标记上面列出的段关联因素之外，标记器还将命名实体标记为“NP”，将任何无法识别的段标记为“NN”。

1.3.6.3)在1.3.6.2)的词性标注之后，仍需要处理标注为NP和NN部分。NP部分可以通过简单的字符串匹配映射到四个或五个命名实体(地名，月份，男性名，女性名和中文名缩写)。对于NN细分，首先尝试判断他是不是合法的拼音表达式。然后，通过检查该细分是否是英语短语的首字母缩写，判断规则是改部分是否是由至少三个连续的辅音字母组成的。

1.4)将1.3)中每一个口令得到的口令语义结构存入结构文件B，并将每个口令语义结构因子及其权重存入到因子库C中。

第二步，如图3所示，进行基于口令语义结构的字典生成，需要1.4)中得到的结构文件 B和因子库C。具体包括：

2.1)准备工作：对于结构文件B，计算每种语义结构的出现频率，保存为带权值的结构文件D。构建优先队列，将每一个语义结构中包含的每一种语义结构因子，以及因子库中最高概率的因子保存下来。

2.2)字典生成：弹出优先队列中概率最高的口令E，输入到生成文件中，同时口令E对应的口令语义结构中概率仅次于口令E的口令加入优先队列。对于纯数字构成口令，则是采取了全部生成的策略(比如结构：3位数字，就是生成000到999，而该结构的概率计算则是P(现在的概率)＝P(原本的概率)/1000)。

2.3)重复执行2.2)，直到优先队列为空或者生成的字典数达到预先设置的阈值。结束生成，得到口令字典F。

综上所述，本实施采取了基于口令语义结构的口令字典生成方法，支持多个语义内容，多个语种内容的口令语义分析，和基于语义的口令口令字典生成。同时针对纯数字做的字典生成算法改进也提高了口令破解率。在10亿的字典生成量级下，对中文库的口令覆盖率平均达到37.9％，在同样的训练集下超过神经网络方法15.7％，超过PCFGs算法70％。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于口令语义结构的字典生成系统，其特征在于，包括：口令语义结构分析模块和口令字典生成模块，其中：口令语义结构学习模块从样本集中提取出对应口令的语义结构以及口令语义结构对应的口令因子并输出至口令字典生成模块，口令字典生成模块通过分析目标数据集的特征，根据生成阈值生成用于解密验证的口令字典；

所述的口令语义结构学习模块包括：初始化模块、预处理模块、分词模块、数字处理模块、特殊字符处理模块以及字母处理模块，其中：初始化模块生成哈希表，预处理模块对输入的口令进行分类判断，分词模块对经分类判断后仍然没有明确语义的输入口令进行分词处理，数字处理模块对于分词模块得到的数字部分根据长度进行分类，并判断其中特定长度的数字是否包含语义结构，特殊字符处理模块对于分词模块得到的特殊字符部分，根据长度进行再次分类；字母处理模块对于分词模块得到的字母部分，依次进行单词拆分、词性标注模块和特殊语义处理；

所述的字母处理模块包括：单词拆分单元，词性标注单元和特殊语义处理单元，其中：单词拆分单元使用参考语料库，将命名实体作为名词的子集，首先运行不包含中文名缩写的分割算法，并且当分割结果包括任何无法识别的部分，将包含中文名缩写进行第二次分割；词性标注单元根据口令语义结构定义，对于词性标注(POS)标记过程，使用了称为顺序退避标记器的方法，该方法尝试从三元(Trigram)标记器，然后是二元(bigram)标记器，最后是单元(unigram)标记器进行标记过程；特殊语义处理单元对经过词性标注单元后仍需要处理的命名实体和无法识别的段进行补充识别分类。

2.根据权利要求1所述的基于口令语义结构的字典生成系统，其特征是，所述的初始化模块，根据命令行提供的参数，在Rules文件夹下新建存放口令语义结构因子的目录，新建存放所有口令语义结构因子的哈希表A。

3.根据权利要求1所述的基于口令语义结构的字典生成系统，其特征是，所述的分类判断是指：预处理模块判断输入的口令是否包含键盘组合、邮件地址或网址，其中：键盘组合通过判断字符串在键盘上的相对位置，观察字符之间是否互为邻居进行判断；邮件地址和网址则分别根据一组固定的后缀以及固定格式进行判断。

4.根据权利要求1所述的基于口令语义结构的字典生成系统，其特征是，所述的分词处理，首先按照字母，数字和特殊字符对口令进行切分，切分后的部分再进行分类判断处理。

5.根据权利要求1所述的基于口令语义结构的字典生成系统，其特征是，所述的特定长度的数字，当长度为6位或8位数字，则判断是否是年月日；当长度为4位数字，则判断是否是年份；当长度为11位数字，则判断是否是合法电话号码。

6.根据权利要求1所述的基于口令语义结构的字典生成系统，其特征是，所述的口令语义结构定义是指：具有明确语义的因素，包括：代词([PRON])，名词([NOUN])，限定词([DET])，形容词([ADJ])，动词([VERB])，介词([ADP])，副词([ADV])，小品词([PRT])，连词([CONJ])，代表数字的英语单词([NUM])和词缀([X])。

7.根据权利要求1所述的基于口令语义结构的字典生成系统，其特征是，所述的标记器进一步将命名实体标记为“NP”，将任何无法识别的段标记为“NN”。

8.根据权利要求1所述的基于口令语义结构的字典生成系统，其特征是，所述的补充识别分类包括：对实体标记部分通过字符串匹配映射到四个或五个命名实体；对于无法识别的段首先尝试判断他是不是合法的拼音表达式；然后通过检查该细分是否是英语短语的首字母缩写，判断规则是改部分是否是由至少三个连续的辅音字母组成的。

9.根据权利要求1所述的基于口令语义结构的字典生成系统，其特征是，所述的口令字典生成模块包括：准备工作单元和字典生成单元，其中：准备工作单元对于口令语义结构文件计算每种语义结构的出现频率得到带权值的结构文件；并构建优先队列，将每一个语义结构中包含的每一种语义结构因子以及因子库中最高概率的因子存入优先队列中；字典生成单元弹出优先队列中概率最高的口令输入到生成文件中，同时该口令对应的口令语义结构中概率仅次于口令E的口令加入优先队列。

10.根据权利要求9所述的基于口令语义结构的字典生成系统，其特征是，所述的字典生成单元进一步使用纯数字生成算法提高生成字典的覆盖率，该纯数字生成算法是指：对于纯数字构成口令，则是采取了全部生成的策略(比如结构：3位数字，就是生成000到999，而该结构的概率计算则是P(现在的概率)＝P(原本的概率)/1000)，重复执行这一流程，直到优先队列为空或者生成的字典数达到预先设置的阈值，结束生成，得到口令字典。