CN113609461A

CN113609461A - 口令强度识别方法、装置、设备和计算机可读存储介质

Info

Publication number: CN113609461A
Application number: CN202110846271.9A
Authority: CN
Inventors: 白兴伟; 王闰婷; 赵正罡; 刘加勇; 肖棚
Original assignee: Beijing Huayuan Information Technology Co Ltd
Current assignee: Beijing Huayuan Information Technology Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-05

Abstract

本公开的实施例提供了口令强度识别方法、装置、设备和计算机可读存储介质。所述方法包括：获取待识别口令的特征集；将所述待识别口令的特征集输入预先训练的目标口令强度识别模型中，得到所述待识别口令的强度识别结果。以此方式，可以提高口令强度的识别准确度，避免需要人为预先设置好的评估规则库才能进行口令强度的评估，提高口令强度的识别智能性。

Description

口令强度识别方法、装置、设备和计算机可读存储介质

技术领域

本公开的实施例一般涉及身份验证技术领域，并且更具体地，涉及口令强度识别方法、装置、设备和计算机可读存储介质。

背景技术

目前，用户在请求访问系统服务时，为保障业务系统和各个终端的安全，同时保护账号不被恶意窃取，需要采用身份验证技术。身份验证存在诸多方式，而口令验证因其成本低、易于实现等特性，仍是最主流的身份验证方法。随着互联网公司对产品不断的推陈出新以及用户对各类系统访问的需求增多，为方便记忆用户通常会将简单的口令串重复设置。

然而，口令猜测技术逐渐趋向智能化，使得账户的安全性受到严重威胁。而常用的口令强度识别方法又是依赖人为设定的评估规则，具有很大的局限性，如：口令强度评估的指标模糊，完全依赖规则库，无法自动提取有效的口令特征，且此类方法的泛化性和准确度较低。

发明内容

根据本公开的实施例，提供了一种口令强度识别方案。

在本公开的第一方面，提供了一种口令强度识别方法。该方法包括：

获取待识别口令的特征集；

将所述待识别口令的特征集输入预先训练的目标口令强度识别模型中，得到所述待识别口令的强度识别结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述目标口令强度识别模型通过以下步骤训练：

将训练口令样本的特征集以及所述训练口令样本的强度标记，输入至初始口令强度识别模型；

利用所述初始口令强度识别模型中每层的实际输出值与预期值的差值、方差、学习率以及每层的初始权重值，对每层的权重值进行迭代更新，以得到新的口令强度识别模型；

将新的训练口令样本的特征集输入至所述新的口令强度识别模型，并重复迭代更新步骤，以得到所述目标口令强度识别模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，通过以下步骤对所述训练口令样本以及所述新的训练口令样本进行强度标记：

按照基本标记规则和/或用户偏好标记规则，对所述训练口令样本以及所述新的训练口令样本进行强度标记，其中，所述强度标记包括强弱标记以及弱口令类型；

所述基本标记规则包括以下至少一项：

长度标记规则；

大小写标记规则；

字符相同或连续标记规则；

多账号共用标记规则；

所述用户偏好标记规则包括以下至少一项：

用户个人特征标记规则；

相关用户信息标记规则；

用户爱好标记规则；

所述方法还包括：

根据所述目标口令强度识别模型实际输出的所述新的训练口令样本的弱口令类型，对所述基本标记规则和/或所述用户偏好规则进行修改。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，通过以下步骤对所述训练口令样本进行强度标记：

对所述训练口令样本进行字段类别的划分，以确定所述训练口令样本中的字母段；所述字段类别的划分包括以下至少一项：数字段的划分、字母段的划分、符号段的划分；

对所述字母段进行词频关联分析，以对所述训练口令样本进行强度标记。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述字母段包括多个；

所述对所述字母段进行词频关联分析，以对所述训练口令样本进行强度标记，包括：

利用N-Gram模型对多个所述字母段进行词频统计；

根据词频统计结果进行词频关联度分析；

根据词频关联度分析结果对所述训练口令样本进行强度标记。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

根据对所述训练口令样本的强度标记、强度标记消耗时间以及所述训练口令样本的实际强度，确定所述N-Gram模型中N的取值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取特征集，包括：

将所述口令中的字母进行标准化处理，然后进行编码；

将所述口令中的符号转换成数值；

将所述口令进行编号以及数值转换之后，再进行归一化处理，所述口令包括：所述待识别口令、训练口令样本以及新的训练口令样本。

在本公开的第二方面，提供了一种口令强度识别装置。该装置包括：

获取模块，用于获取待识别口令的特征集；

输入模块，用于将所述待识别口令的特征集输入预先训练的目标口令强度识别模型中，得到所述待识别口令的强度识别结果。

在本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的口令强度识别方法的流程图；

图2示出了根据本公开的实施例的口令强度识别装置的方框图；

图3示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开中，可利用训练好的目标口令强度识别模型对待识别口令的强度进行自动识别，从而提高口令强度的识别准确度，避免需要人为预先设置好的评估规则库才能进行口令强度的评估，提高口令强度的识别智能性。

图1示出了根据本公开实施例的口令强度识别方法100的流程图。方法100可以包括：

步骤110，获取待识别口令的特征集；特征集包括一个或多个特征。

步骤120，将所述待识别口令的特征集输入预先训练的目标口令强度识别模型中，得到所述待识别口令的强度识别结果。

通过将待识别口令的特征集输入至目标口令强度识别模型中，可利用目标口令强度识别模型对待识别口令的强度进行自动识别，从而提高口令强度的识别准确度，避免需要人为预先设置好的评估规则库才能进行口令强度的评估，提高口令强度的识别智能性。

在一个实施例中，所述目标口令强度识别模型通过以下步骤训练：

利用所述初始口令强度识别模型中每层的实际输出值与预期值的差值、方差、学习率以及每层的初始权重值，对每层的权重值(即下文的weight1、weight2)进行迭代更新，以得到新的口令强度识别模型；

本实施例主要更新输入层到隐藏层的连接权重以及隐藏层到输出层的连接权重。

通过将训练口令样本的特征集和训练口令样本的强度标记输入至初始口令强度识别模型中，可利用每层的实际输出值与预期值的差值、方差、学习率以及每层的初始权重值，对每层的权重值进行不断的迭代更新，以得到新的口令强度识别模型，然后将新的训练口令样本的特征集以及新的训练口令样本的强度标记自动输入至新的口令强度识别模型中，以不断重复上述迭代更新步骤，从而最终获得强度标记准确度较高的目标口令强度识别模型。

在一个实施例中，通过以下步骤对所述训练口令样本以及所述新的训练口令样本的强度标记进行强度标记：

所述基本标记规则包括以下至少一项：

长度标记规则；

大小写标记规则；

字符相同或连续标记规则；如口令中存在m个相同字符或者连续的字符，则该口令为弱口令。

多账号共用标记规则；如某口令被多个账号共用，则该口令为弱口令。

所述用户偏好标记规则包括以下至少一项：

用户个人特征标记规则；该规则可用于指示若口令中存在用户个人特征，则该口令为弱口令。

相关用户信息标记规则；相关用户信息为与用户关系密切的其他用户的信息，如父母的信息、子女的信息、配偶的信息等。该规则可用于指示若口令中存在相关用户信息，则该口令为弱口令。

用户爱好标记规则；

所述方法还包括：

根据所述目标口令强度识别模型实际输出的所述新的训练口令样本的弱口令类型，对所述基本标记规则和/或所述用户偏好进行修改。

在对训练口令样本进行强度标记时，可自动按照基本标记规则和/或用户偏好标记规则自动进行标记，例如：在按照长度标记规则时，可规定若口令的长度低于预设长度，则将训练口令样本的强度标记为弱；又例如：在按照大小写标记规则时，可规定若口令都是大写或小写，则将训练口令样本的强度标记为弱。

强弱标记分为强或弱，而弱口令类型又可细分为一般弱、很弱、非常弱，且这几个弱口令类型的弱的程度依次降低，即这几个弱口令类型越来越弱。

进而，根据目标口令强度识别模型输出的该新的训练口令样本的弱口令类型，对基本标记规则和/或用户偏好自动地进行适应性修改，从而使得基本标记规则和/或用户偏好规则更加准确，对新的训练口令样本的强度标记更加精准，进而有利于提高目标口令强度识别模型的训练精准度。

假如用户爱好标记规则为若某口令样本包括用户爱好或者擅长领域，则该口令样本为弱口令且弱口令类型为一般弱，但对于包括用户爱好或者擅长领域的多个口令，目标口令强度识别模型多次实际输出的弱口令类型为很弱，则说明该用户爱好标记规则可能不太准确，可将该用户爱好标记规则修改为若某口令样本包括用户爱好或者擅长领域，则将该口令样本的弱口令类型修改为很弱。

在一个实施例中，通过以下步骤对所述训练口令样本进行强度标记：

在对训练口令样本进行强度标记时，还可按照字段类别对训练口令样本进行划分，从而得到训练口令样本中的不同字段，本实施例主要目的是获得字母段，进而利用字母段进行词频关联分析，从而对训练口令样本进行关联度分析，进而利用关联度分析结果即可自动而智能地对训练口令样本进行强度标记。

另外，利用词频关联分析进行强度标记的实施例可与根据基本标记规则和/或用户偏好标记规则进行强度标记的实施例，叠加使用，也可以单独使用，当然，由于该强度标记实施例需要进行深度分析，因而，在强度标记时，可先判断是否符合基本标记规则和/或用户偏好标记规则，若不符合，再利用词频关联分析进行强度标记。

在一个实施例中，所述字母段包括多个；

利用N-Gram模型对多个所述字母段进行词频统计；

N-Gram模型是一种基于统计语言模型的算法。

根据词频统计结果进行词频关联度分析；

可利用N-Gram模型对训练口令样本中的多个字母段进行词频统计，如统计所有字母段中每个字母的出现频次，然后利用词频统计结果进行词频关联度分析即确定训练口令样本中词与词之间(或字符与字符之间)的关联度的高低，最后基于词频关联度分析结果自动而智能地对训练口令样本进行强度标记，例如：词频关联度分析结果为训练口令样本中词与词之间的关联度很高，则强度标记为低；反之，若关联度很低，则强度标记为高。

在一个实施例中，所述方法还包括：

根据对所述训练口令样本的强度标记(即利用最新的N-Gram模型对训练口令样本所标注的强度)、强度标记消耗时间(即利用最新的N-Gram模型对训练口令样本进行强度标记所使用的时间)以及所述训练口令样本的实际强度(即真实的强度)，确定所述N-Gram模型中N的取值。

在本实施例中，还可根据训练口令样本的强度标记、强度标记消耗时间以及所述训练口令样本的实际强度，自动确定所述N-Gram模型中N的取值，从而对N-Gram模型进行参数更新，如此，可确保之后的词频关联分析结果更加准确。

在一个实施例中，所述获取特征集，包括：

将所述口令中的字母进行标准化处理，然后进行编码；

将所述口令中的符号转换成数值；

在获得特征集时，可对口令中的字母进行标准化处理，然后统一进行编码，如将其转换成ASCII码，再根据ASCII码的数值将其一一映射为独热编码，然后将口令中的符号通过字典等方式映射成计算机可识别的数值，最后再将编码和数值进行统一化处理，从而确保特征集的准确性以及格式的统一性，如此也有利于提高口令强度的识别准确性。

下面将进一步详细说明本发明的技术方案：

一、特征规则

首先，制定基于统计学的特征规则，为后续的特征工程提供便利。特征规则可由三部分组成：

1、执行基本标记规则。即出现如下情况，将口令标识为弱口令。

(1)若口令由全大写、小写字母、全数字构成；

(2)若口令的总长度小于8个字符；

(3)若口令中含有账户名字段；

(4)若口令由相同、连续的字符构成；

(5)若相同口令被多个不同的账号所使用。

2、基于用户偏好标记规则。此规则重点关注与用户相关的环境参数。

(1)涉及到用户本人生日、电话、姓名、邮箱、社交账号；

(2)用户的父母、子女、配偶等关系成员的生日、电话、姓名。

(3)有关用户个人爱好、擅长领域和职业类别的简称。

若口令符合上述用户偏好标记规则则就标记为弱口令。

3、口令结构划分规则。

由于口令通常由数字、字母和符号组合而成，遂将口令按各个字段的类别进行结构划分。由于大多符号在口令中没有实际含义，若在口令的首、尾部，可不做任何分析处理，仅将其标识为符号段。若不在首尾两处，再判断其左右是否为字母段，是则进入词频关联阶段，否则将其视为分隔标志，仅标识为符号段。

二、特征工程

为使特征规则阶段的特征数据能更好的适用于模型的训练，本方案将特征工程分为以下三个阶段：

1、词频关联阶段：根据关联度拆解口令，关联关系越强，则该口令容易被破解的概率越大，该口令的强度自然越弱；而关联度大体是根据字符出现频率得出的

对于口令中字符的前后为字母段的情况，采用n-gram模型对各个字母段(不会对数字和符号进行统计)进行频率统计，然后根据词频统计情况，确定字母的关联性强度；关联性越强，则越容易被破解，该口令越弱，关联性越弱，则越不容易被破解，该口令越强。

根据前人经验，一般将依赖词的个数n的选取规定在[2,4]范围内，工程上三元模型使用最多，但能使用二元模型解决就不采用三元。“n”可通过比较评估结果(词频关联程度)和消耗时间(词频关联程度统计所用时间)确定。

2、特征预处理阶段：

为将原始字串转换为易于模型计算的特征数据，还需要进行预处理工作。将口令中的字母段做标准化处理，将其转换成ASCII码，再根据ASCII码的数值将其一一映射为独热编码。还需将符号通过字典方式映射为计算机易于处理的数值类型，字典映射规则为如：{@:1，#:2，...}。另外，需采用归一化方法将数据量纲控制在[0,1]范围内，从而得到该口令的高维二进制，以作为口令的特征集。

3、特征训练阶段：

特征处理后即可进入训练阶段，此阶段利用深度学习模型(Deep Belief Nets，DBN)，进行自动的特征提取和训练过程。模型中的BP权值微调方法是DBN的核心，具体公式如下。其中weight1，weight2表示各层更新的权值，b[j]和c[k]为更新偏移量，η为学习率，v和w为各层更新前的权值，X为输入的特征向量集。另外，相应层更新前后的误差corresponding_layer_error，可通过期望与输出层实际结果的方差计算。

weight1+＝η*input_hidden_error[j]*Sigmoid(v[j]^TX+b[j])

weight1为输入层到隐藏层的连接权重

input_hidden_error[j]为隐藏层的预期值与实际值的差值

b[j]+＝η*corresponding_layer_error corresponding_layer_error为隐藏层的预期值与实际的方差得来的j是输入层的神经元个数

v[j]表示输入层的最近一次更新的权重，即上一个weight1

weight2+＝η*hidden_output_error[k]*Sigmoid(w[k]^TX+c[k])

weight2为隐藏层到输出层的连接权重

hidden_output_error[k]为输出层的预期值与实际的差值

c[k]+＝η*corresponding_layer_error corresponding_layer_error为输出层的预期值与实际的方差得来的k是隐藏层的神经元个数

w[k]表示隐藏层的最近一次更新的权重，即上一个weight2。

最终使用正确率指标判定训练好的深度学习模型的效果，不再对此算法模型内部的工作进行赘述。

三、预测评估

经历上述两个阶段，现可实施口令强度识别，利用网络上公开的口令集和系统键入的账号口令，以及未出现在集合中的口令集输入，完成口令强度的评估。本方案优化人工规则，利用深度学习DBN的特征学习优势，进一步提升口令强度识别的准确率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图2示出了根据本公开的实施例的口令强度识别装置200的方框图。

如图2所示，装置200包括：

获取模块210，用于获取待识别口令的特征集；

输入模块220，用于将所述待识别口令的特征集输入预先训练的目标口令强度识别模型中，得到所述待识别口令的强度识别结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图3示出了可以用来实施本公开的实施例的电子设备300的示意性框图。设备300可以用于实现图1的口令强度识别装置200。如图3所示，设备300包括CPU301，其可以根据存储在ROM302中的计算机程序指令或者从存储单元308加载到RAM303中的计算机程序指令，来执行各种适当的动作和处理。在RAM 303中，还可以存储设备300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。I/O接口305也连接至总线304。

设备300中的多个部件连接至I/O接口305，包括：输入单元306，例如键盘、鼠标等；输出单元303，例如各种类型的显示器、扬声器等；存储单元308，例如磁盘、光盘等；以及通信单元309，例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元301执行上文所描述的各个方法和处理，例如方法100。例如，在一些实施例中，方法100可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到RAM 303并由CPU 301执行时，可以执行上文描述的方法100的一个或多个步骤。备选地，在其他实施例中，CPU 301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法100。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM、光纤、CD-ROM、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种口令强度识别方法，其特征在于，包括：

获取待识别口令的特征集；

2.根据权利要求1所述的方法，其特征在于，所述目标口令强度识别模型通过以下步骤训练：

将新的训练口令样本的特征集以及所述新的训练口令样本的强度标记输入至所述新的口令强度识别模型，并重复迭代更新步骤，以得到所述目标口令强度识别模型。

3.根据权利要求2所述的方法，其特征在于，通过以下步骤对所述训练口令样本以及所述新的训练口令样本进行强度标记：

所述基本标记规则包括以下至少一项：

长度标记规则；

大小写标记规则；

字符相同或连续标记规则；

多账号共用标记规则；

所述用户偏好标记规则包括以下至少一项：

用户个人特征标记规则；