CN114338058B - 一种信息处理方法、装置和存储介质 - Google Patents

一种信息处理方法、装置和存储介质 Download PDF

Info

Publication number
CN114338058B
CN114338058B CN202011034650.XA CN202011034650A CN114338058B CN 114338058 B CN114338058 B CN 114338058B CN 202011034650 A CN202011034650 A CN 202011034650A CN 114338058 B CN114338058 B CN 114338058B
Authority
CN
China
Prior art keywords
password
information
detected
word
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011034650.XA
Other languages
English (en)
Other versions
CN114338058A (zh
Inventor
张鸿硕
王星
朱琳
顾宁伦
李伟
吕明
孙涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011034650.XA priority Critical patent/CN114338058B/zh
Publication of CN114338058A publication Critical patent/CN114338058A/zh
Application granted granted Critical
Publication of CN114338058B publication Critical patent/CN114338058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种信息处理方法、装置和存储介质,所述方法包括:获取待测回显信息;检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码。

Description

一种信息处理方法、装置和存储介质
技术领域
本发明涉及网络运维领域,尤其涉及一种信息处理方法、装置和存储介质。
背景技术
集中化统一安全管理平台(4A平台)是支持网络运维人员远程操作以及维护的唯一入口,网络运维人员使用4A平台进行故障处理和日常维护时回显信息中有时会出现未加密过的明文密码。4A平台里还存有用户的姓名、手机号、用户名等信息,一旦4A平台被入侵,再加上用户的明文密码,攻击者就可以用用户名和密码去其他设备或应用尝试登陆(因为往往用户会将多个网站的密码根据习惯设成一样的),一旦登陆成功,就会造成很严重的后果。
因此,在每日海量的回显信息中找到出现明文密码的回显信息并精准找到回显信息中的明文密码,对预防重大故障有着重要的意义。
发明内容
有鉴于此,本发明的主要目的在于提供一种信息处理方法、装置和存储介质。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种信息处理方法,所述方法包括:
获取待测回显信息;
检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;
运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码。
上述方案中,所述获取待测回显信息,包括:
获取回显信息集;所述回显信息集包括至少一个回显信息;
从所述回显信息集中确定满足第一条件的回显信息,作为所述待测回显信息;
所述满足第一条件表征回显信息中具有与目标词库中至少一个词匹配的词。
上述方案中,所述检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息,包括:
对所述待测回显信息进行文本分割,得到所述待测回显信息包括的至少一个待测词;
根据所述至少一个待测词查询所述目标词库,确定所述至少一个待测词与所述目标词库中的词匹配时,将与所述目标词库中的词匹配的待测词,作为关键词;
对所述关键词相关的字符串进行检测,确定所述关键词对应的密码信息。
上述方案中,所述对所述关键词相关的字符串进行检测,确定所述关键词对应的密码信息,包括:
确定所述关键词的位置,根据所述关键词的位置确定所述关键词相关的字符串;
对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码信息。
上述方案中,所述方法还包括:生成所述识别模型;所述生成识别模型,包括:
获取训练样本集;所述训练样本集包括:至少一个训练样本;每个所述训练样本对应有样本标签;
采用Xgboost算法,运用所述训练样本集训练预设模型,得到训练后的预设模型,作为所述识别模型;所述预设模型包括至少两个决策树。
上述方案中,所述方法还包括:提取所述密码信息的至少一个特征;所述特征,包括以下至少之一:密码信息的长度、数字个数在总密码信息中的占比、密码信息中的小写字母个数、密码信息中是否含单词、特定字符个数在总密码段中占比;
所述运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码,包括:
运用预设的识别模型对所述至少一个特征进行识别,得到识别结果;
确定所述识别结果表征所述密码信息为明文时,将所述密码信息作为所述关键词对应的明文密码。
本发明实施例提供了一种信息处理装置,所述装置包括:
第一处理模块,用于获取待测回显信息;
第二处理模块,用于检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;
第三处理模块,用于运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码。
上述方案中,所述第一处理模块,用于获取回显信息集;所述回显信息集包括至少一个回显信息;
从所述回显信息集中确定满足第一条件的回显信息,作为所述待测回显信息;
所述满足第一条件表征回显信息中具有与目标词库中至少一个词匹配的词。
上述方案中,所述第二处理模块,用于对所述待测回显信息进行文本分割,得到所述待测回显信息包括的至少一个待测词;
根据所述至少一个待测词查询所述目标词库,确定所述至少一个待测词与所述目标词库中的词匹配时,将与所述目标词库中的词匹配的待测词,作为关键词;
对所述关键词相关的字符串进行检测,确定所述关键词对应的密码信息。
上述方案中,所述第二处理模块,用于确定所述关键词的位置,根据所述关键词的位置确定所述关键词相关的字符串;
对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码信息。
上述方案中,所述装置还包括:预处理模块,用于获取训练样本集;所述训练样本集包括:至少一个训练样本;每个所述训练样本对应有样本标签;
采用Xgboost算法,运用所述训练样本集训练预设模型,得到训练后的预设模型,作为所述识别模型;所述预设模型包括至少两个决策树。
上述方案中,所述第二处理模块,还用于提取所述密码信息的至少一个特征;所述特征,包括以下至少之一:密码信息的长度、数字个数在总密码信息中的占比、密码信息中的小写字母个数、密码信息中是否含单词、特定字符个数在总密码段中占比;
所述第三处理模块,用于运用预设的识别模型对所述至少一个特征进行识别,得到识别结果;
确定所述识别结果表征所述密码信息为明文时,将所述密码信息作为所述关键词对应的明文密码。
本发明实施例提供了一种信息处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上任一项所述信息处理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上任一项所述信息处理方法的步骤。
本发明实施例所提供的一种信息处理方法、装置和存储介质,所述方法包括:获取待测回显信息;检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码;如此,实现在安全监控场景下判断回显信息中是否包括明文密码。
附图说明
图1为本发明实施例提供的一种信息处理方法的流程示意图;
图2为本发明实施例提供的另一种信息处理方法的流程示意图;
图3为本发明实施例提供的一种信息处理装置的结构示意图;
图4为本发明实施例提供的另一种信息处理装置的结构示意图。
具体实施方式
本发明实施例提供的方法,获取待测回显信息;检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码。
下面结合实施例对本发明再作进一步详细的说明。
图1为本发明实施例提供的一种信息处理方法的流程示意图;如图1所示,所述方法包括:
步骤101、获取待测回显信息;
步骤102、检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;
步骤103、运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码。
本发明实施例提供的方法可以应用于服务器,所述服务器可以与4A平台通信,以获取回显信息;所述方法还可以直接应用于4A平台。4A平台,指针对认证(Authentication)、授权(Authorization)、账号(Account)、审计(Audit)的管理。
需要说明的是,4A平台仅一种涉及到回显信息的平台的示例,本发明实施例提供的方法可以适用于任意需对回显信息进行明文密码查询的平台。即,本发明实施例提供的方法可以应用于任意需要对回显信息进行明文密码查询的平台,或与相应平台通信的服务器。
在一些实施例中,所述获取待测回显信息,包括:
获取回显信息集;所述回显信息集包括至少一个回显信息;
从所述回显信息集中确定满足第一条件的回显信息,作为所述待测回显信息;
所述满足第一条件表征回显信息中具有与目标词库中至少一个词匹配的词。
这里,所述从所述回显信息集中确定满足第一条件的回显信息之前,可以对回显信息进行预处理,例如:将回显信息中的字符小写处理或大写处理,使其与关键词中的字符的大小写一致。
在一些实施例中,所述检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息,包括:
对所述待测回显信息进行文本分割,得到所述待测回显信息包括的至少一个待测词;
根据所述至少一个待测词查询所述目标词库,确定所述至少一个待测词与所述目标词库中的词匹配时,将与所述目标词库中的词匹配的待测词,作为关键词;
对所述关键词相关的字符串进行检测,确定所述关键词对应的密码信息。
在一些实施例中,所述对所述关键词相关的字符串进行检测,确定所述关键词对应的密码信息,包括:
确定所述关键词的位置,根据所述关键词的位置确定所述关键词相关的字符串;
对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码信息。
所述根据所述关键词的位置确定所述关键词相关的字符串,包括:
根据所述关键词的位置,读取所述关键词之后的字符串;
确定所述关键词之后的字符为预设符号时,读取所述预设符号之后的字符串。
例如,所述关键词,可以包括:‘password’、‘passwd’、‘pwd’;
所述预设符号,可以包括:‘=’、‘:’、‘==’、‘:>’;
假设,回显信息中包括:FtpPassword=1111112;则可以确定相关的字符串为:1111112。
具体地,所述对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码信息,包括:
相应于所述字符串中仅包括数字和/或字母时,将所述数字和/或字母确定为满足预设条件的密码信息;
相应于所述字符串中除数字和/或字母外还包括有目标符号时,读取目标符号前的第一部分和目标符号后的第二部分;基于所述第一部分、所述目标符号和所述第二部分,确定满足预设条件的密码信息。
其中,所述基于所述第一部分、所述目标符号和所述第二部分,确定满足预设条件的密码信息,包括:
相应于所述第二部分的第一个字符为非字母时,将所述第一部分、所述目标符号、所述第二部分组成的字符串,作为所述满足预设条件的密码信息;
相应于所述第二部分的第一个字符为字母时,判断所述第一个字符与所述第一个字符后相连的至少一个字符是否可组成单词,确定可以组成单词时,将所述第一部分确定为所述满足预设条件的密码信息;确定不可以组成单词时,将所述第一部分、所述目标符号、所述第二部分组成的字符串,作为所述满足预设条件的密码信息。
这里,所述目标符号由开发人员基于需求设定,例如,可以为‘,’或‘&’。
需要说明的是,上述关键词、预设符号、目标符号等仅为一种示例,针对不同程序或应用采用的表达方式的不同,这里的关键词、预设符号、目标符号也可以不同,相应的,关键词和关键词相关的字符串的确定方式也可以不同。这里仅用于说明,可获取关键词和密码信息。
在一些实施例中,所述方法还包括:生成所述识别模型;所述生成识别模型,包括:
获取训练样本集;所述训练样本集包括:至少一个训练样本;每个所述训练样本对应有样本标签;
采用Xgboost算法,运用所述训练样本集训练预设模型,得到训练后的预设模型,作为所述识别模型;所述预设模型包括至少两个决策树。
通过将训练样本集输入预设模型,对预设模型进行训练,得到用于进行密码信息是否为明文的判定的分类器,作为所述识别模型。
在一些实施例中,所述方法还包括:获取测试样本集;所述测试样本集包括:至少一个测试样本;每个所述测试样本对应有样本标签;
采用Xgboost算法,运用所述测试样本集测试所述识别模型,基于测试结果对所述识别模型进行优化。
在一些实施例中,所述方法还包括:提取所述密码信息的至少一个特征;所述特征,包括以下至少之一:密码信息的长度、数字个数在总密码信息中的占比、密码信息中的小写字母个数、密码信息中是否含单词、特定字符个数在总密码段中占比;
所述运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码,包括:
运用预设的识别模型对所述至少一个特征进行识别,得到识别结果;
确定所述识别结果表征所述密码信息为明文时,将所述密码信息作为所述关键词对应的明文密码。
这里,所述训练样本集中的每个训练样本可以包括:样本密码、样本密码对应的至少一个特征。
所述测试样本集中的测试样本可以包括:测试密码和测试密码对应的至少一个特征。
所述特征,包括以下至少之一:密码信息的长度、数字个数在总密码信息中的占比、密码信息中的小写字母个数、密码信息中是否含单词、特定字符个数在总密码段中占比;
其中,所述特定字符可以包括以下至少之一:‘/’、‘.’、‘-’。
所述特征还可以包括:密码信息中特殊字符个数;所述特殊字符可以包括:`~!@#$%^&*()_+={}[]|;:'"<,>?等。
提供一种具体示例,所述特征,具体包括以下至少之一:
1)密码信息长度;
2)密码信息长度是否超过20;
3)密码信息中大写字母个数;
4)大写字母个数在总密码信息中占比;
5)密码信息中小写字母个数;
6)小写字母个数在总密码信息中占比;
7)密码信息中数字个数;
8)数字个数在总密码信息中占比;
9)密码信息中特殊字符个数(`~!@#$%^&*()_+={}[]|;:'"<,>?);
10)特殊字符个数在总密码信息中占比;
11)密码信息中‘/’符号个数;
12)‘/’符号字符个数在总密码信息中占比;
13)密码信息中‘.’符号个数;
14)‘.’符号字符个数在总密码信息中占比;
15)密码信息中‘-’符号个数;
16)‘-’符号个数在总密码信息中占比;
17)密码信息中对称符号个数;
18)对称符号个数在总密码信息中占比;
19)密码信息中是否含单词;
20)密码信息中含单词个数;
21)密码信息中中文个数;
22)中文个数在总密码信息中占比。
需要说明的是,以上特征的选择基于回显信息中所使用的到密码格式确定,实际应用时,还可以采用其他不同特征,以上仅仅作为示例说明,并不做限定。
所述预设模型包括至少两个决策树,例如,所述预设模型的参数可以包括:
学习率:0.1,Xgboost树个数:20,每棵树的深度:10,叶子节点最小权重:1,gamma惩罚项:1。
模型训练的效果:训练样本集ROC曲线下与坐标轴围成的面积(AUC,Area UnderCurve)score:0.99,训练后在测试样本集上准确率:0.96,测试样本集AUC score:1。
模型训练后可以对所有特征中重要性排名前五,例如可以依次为:密码信息的长度、数字个数在总密码信息中的占比、密码信息中的小写字母个数、密码信息中是否含单词、特定字符(如‘.’、‘/’等)个数在总密码段中占比。
实际应用中,可以基于排序后得到的重要性排名前N的特征进行识别。即,可以对待测回显信息的密码信息提取上述排名前N的特征,基于提取的特征运用上述识别模型进行识别,确定密码信息是否为明文。
本发明实时例提供的方法,实现了在每日海量的回显信息中找到出现明文密码的回显信息并且精准找到回显信息中的明文密码,为网络运维安全监控中的实际需求,对预防重大故障有着重要的意义。
图2为本发明实施例提供的另一种信息处理方法的流程示意图;如图2所示,所述方法包括:
步骤201、从回显信息集中确定待测回显信息。
这里,需要对回显信息集中的回显信息进行第一次筛选,得到所有涉及密码的指令。
具体地,所述步骤201包括:
2011、对所有回显信息进行预处理;所述预处理,包括:对回显信息进行小写处理;即,将回显信息中的大写字符转换为小写。
2012、筛选出满足第一条件的回显信息;
所述第一条件,包括:具有与目标词库中的至少一个词匹配的关键词;
所述第一条件,还可以包括:具有与目标词库中的至少一个词匹配的关键词、且关键词后具有第一符号;
所述关键词,可以为:password、passwd、pwd;
所述第一符号,可以为:=、:、==、:>;
2013、记录关键词对应的第一位置(p_pos)和第一符号对应的第二位置(punc_pos);
步骤202、确定回显信息中的密码段(相当于上述密码信息)。
所述步骤202,包括:
将密码段(password)置为空字符串,逐字符读第二位置(punc_pos)后内容,并判断是否加入到密码段:
1)、若字符i不为空格且i不是‘,’或‘&’,则将字符i加入密码段password;
2)、若字符i的字符为空格且密码段长度不为0,则密码段结束,跳出循环,得到完整密码段;
3)、若字符i的字符是‘,’或‘&’,则认为‘,’或‘&’可能并非密码段中内容而是起连接作用,继续判断之后位置的内容(即判断‘,’或‘&’之后的字符,记做字符j),判断能否组成单词,基于判断结果确定是否加入密码段。这里,可以设置空字符串word,置flag为0,逐字符读取字符i和符号(如
‘,’或‘&’)后的字符j的内容,以确定密码段。具体包括以下情况:
31)若字符j不是字母,则跳出对j的循环,继续外层对字符i的循环,以得到完整的密码段;
例如,回显信息包括:password=123456&*aa,读取到字符‘&’,需判断后面的字符j,读取到字符j为‘*’,确定不是字母,则继续外层对字符i的循环,并依次确定字符i为‘*’、‘a’、‘a’,将‘*’、‘a’、‘a’加入密码段;最终确定的密码段包括:123456&*aa。
32)、若字符j是字母,则将字符j加入word,若word长度大于2且word为单词,flag置为1,否则保持为0不变;
这里,flag为1表示‘,’或‘&’后的字符可组成单词,word不可加入密码段;flag为0表示‘,’或‘&’后的字符不可组成单词,可加入密码段。
当确定flag为1时,则跳出对j和i的循环,得到完整密码段;
当确定flag为0时,仅将字符i加入密码段,这里的字符i包括‘,’或‘&’后的字符。
例如,回显信息包括:password=123456&groupid=xx;基于上述步骤读取读取到字符‘&’,需判断后面的字符j;读取到字符j为‘g’,确定为字母,将字母‘g’加入word,则继续读取字符j(此时j=j+1),如此,确定‘&’后的字符j组成单词‘groupid’,确定不可加入密码段;最终确定的密码段包括:123456;
再例如,回显信息包括:password=123456&gx0;基于上述步骤读取读取到字符‘&’,需判断后面的字符j;读取到字符j为‘g’,确定为字母,将字母‘g’加入word,继续读取字符j(此时j=j+1),如此,确定‘&’后的字符j为‘x’、‘0’,与字母‘g’不可组成单词,进而确定‘g’、‘x’、‘0’可加入密码段;最终确定的密码段包括:123456&gx0。
4)、若字符i为空格且密码段长度为0,则不作处理进入下一次循环。
步骤203、对密码段进行二次处理。
这里,考虑到如上操作得到的密码段,有时会出现非密码段内容夹杂其中情况,因此,可以对密码段进行二次处理,通过删减密码段,保证密码段精准。
所述步骤203,包括:确定密码段的结尾与关键词的前部为相对称符号时,则删除密码段的结尾与关键词的前部。
这里,如上所得密码段结尾可能是关键词之前出现符号的对称结束符号,例如回显信息:(passwd=123456),若不做对称删除,此时得到的密码段为:123456),此处右小括号应当做对称符号删除。
从回显信息首部按字符k读至p_pos,若k为‘(’、‘[’、‘{’、‘}’、‘]’、‘)’、‘”’、‘''(实际要排除回显中‘’s’情况),将字符k加入列表list中,若list长度大于1,取list末尾两元素a与b,若a与b互为对称符号将两元素移出list,如此循环结束得到密码段前尚未对称的符号集。
反向读密码段,若是‘}’、‘]’、‘)’、‘”’、‘'',检索与之对称的‘(’、‘[’、‘{’、‘”’、‘''是否在list中,若在则删除密码段尾部符号进入下次循环,若不在则不做处理结束循环;
所述步骤203,还包括:确定密码段的首尾符号对称时,删除对称的首尾符号。例如,回显信息为:32m+32m self.password="123456",显然左右双引号均不应在密码段之中应删除,删除后得到密码段为:123456。
步骤204、提取密码段的特征。
这里,得到精准的密码段后,提取密码段的特征,具体可以提取以下22维特征中的至少之一:
1)密码段长度;
2)密码段长度是否超过20;
3)密码段中大写字母个数;
4)大写字母个数在总密码段中占比;
5)密码段中小写字母个数;
6)小写字母个数在总密码段中占比;
7)密码段中数字个数;
8)数字个数在总密码段中占比;
9)密码段中特殊字符个数(`~!@#$%^&*()_+={}[]|;:'"<,>?);
10)特殊字符个数在总密码段中占比;
11)密码段中‘/’符号个数;
12)‘/’符号字符个数在总密码段中占比;
13)密码段中‘.’符号个数;
14)‘.’符号字符个数在总密码段中占比;
15)密码段中‘-’符号个数;
16)‘-’符号个数在总密码段中占比;
17)密码段中对称符号个数;
18)对称符号个数在总密码段中占比;
19)密码段中是否含单词;
20)密码段中含单词个数;
21)密码段中中文个数;
22)中文个数在总密码段中占比。
上述特征可以由运维人员对进行特征提取,也可以运用预设特征提取的模型或程序识别相应密码段,以提取上述特征。
步骤205、使用Xgboost分类器进行二分类,判断密码段是否为明文。
以下提供一种Xgboost分类器的训练方法。
初始Xgboost模型,确定训练样本集作为输入,所述确定训练样本集记做I={(x1,y1),(x2,y2),...(xm,ym)},其中,x为训练样本的特征,y为训练样本的标签;设置最大迭代次数为T,损失函数为L,正则化系数为λ、γ。Xgboost模型的输出为强学习器ft(x)。
对迭代轮数t=1,2,...T有:
1)、计算第i个训练样本(i=1,2,…,m),在当前轮迭代t损失函数L基于ft-1(xi)的一阶导数为gti,二阶导数为hti;计算所有样本的一阶导数和
Figure BDA0002704706180000141
以及二阶导数和
Figure BDA0002704706180000142
所述损失函数L基于需求由开发人员选定,这里不做限定。
所述损失函数可以采用二元分类损失函数:L(y,f(x))=log(1+exp(-yf(x))),其中,y为标签,f(x)为预测结果;
相应的,此损失函数的一阶导数:gi=-yi/(1+exp(yif(xi)));
二阶导数:
Figure BDA0002704706180000143
其中,yi表示第i个样本的标签,f(xi)表示为针对第i个样本的预测结果;exp表示以自然常数e为底的指数函数。
2)、基于当前节点尝试分裂决策树,默认分数score=0,G和H为当前需要分裂的节点的一阶导数之和、二阶导数之和。
对步骤203得到的特征k=1,2...K:
a)、GL=0,HL=0
b.1)、将样本按特征k从小到大排列,依次取出第i个训练样本,依次计算当前训练样本放入左子树后,左右子树一阶导数和二阶导数和分别为:
GL=GL+gti,GR=G-GL
HL=HL+hti,HR=H-HL
b.2)、尝试更新最大的分数:
Figure BDA0002704706180000151
3)、基于最大score对应的划分特征和特征值分裂子树。
4)、如果最大score为0,则当前决策树建立完毕,计算叶子区域最优解wtj,得到弱学习器ht(x),更新强学习器ft(x),进入下一轮弱学习器迭代,如果最大score不为0,则转到第2)步继续尝试分裂决策树。
其中,
Figure BDA0002704706180000152
其中,Gtj表示第j个叶子节点的一阶导数和,Htj表示第j个叶子节点的二阶导数和;λ表示正则化系数;
得到弱学习器公式:
Figure BDA0002704706180000153
其中,其中,J为叶子节点的个数;Rtj代表叶子节点区域,I(x∈Rtj)表示x属于这个叶子节点区域则为1,否则为0的函数。
更新强学习器公式:
Figure BDA0002704706180000154
如上流程操作便训练出了强学习器ft(x),所述强学习器ft(x),即为所述Xgboost分类器,用于对密码段进行二分类,确定其是否为明文。
关于Xgboost模型中一些可能影响模型的关键参数,可以设置如下:
学习率:0.1,建立Xgboost树个数:20,每棵树的深度:10,叶子节点最小权重:1,gamma惩罚项:1。
模型训练后,效果如下:训练集AUC score:0.99,训练后在测试集上准确率:0.96,测试集AUC score:1,模型中所有特征中重要性排名前五依次为:密码段长度、数字个数在总密码段中占比、密码段中小写字母个数、密码段中是否含单词、‘.’符号字符个数在总密码段中占比。
以下提供两种应用场景和实施例:
第一种,例如某天的操作指令日志经过第一步筛选后某条实际回显为:url==>http://172.16.156.101:8999/synCenter/nsmpSynData/queryResList?userName=jt&password=82c949a4ec0fe22889cd90c0e898ca4a&resGroupId=bd19b882a0df4abfa93e38597cbd207a&page=1&pageSize=9999,经过第二步精准找到回显中待检测密码段为:82c949a4ec0fe22889cd90c0e898ca4a;
经过特征提取后,得到针对上述密码段的特征,如下表1所示:
Figure BDA0002704706180000161
表1
表1中,length表示密码段长度;
length_over_20表示密码段长度是否超过20;
big_num表示密码段中大写字母个数;
big_per表示大写字母个数在总密码段中占比;
small_num表示密码段中小写字母个数;
small_per表示小写字母个数在总密码段中占比;
di_num表示密码段中数字个数;
di_per表示数字个数在总密码段中占比;
special_num表示密码段中特殊字符个数;
special_per表示特殊字符个数在总密码段中占比;
slash_num表示密码段中‘/’符号个数;
slash_per表示‘/’符号字符个数在总密码段中占比;
dot_num表示密码段中‘.’符号个数;
dot_per表示‘.’符号字符个数在总密码段中占比;
mi_num表示密码段中‘-’符号个数;
mi_per表示‘-’符号个数在总密码段中占比;
cor_num表示密码段中对称符号个数;
cor_per表示对称符号个数在总密码段中占比;
has_word表示密码段中是否含单词;
word_num表示密码段中含单词个数;
zh_num表示密码段中中文个数;
zh_per表示中文个数在总密码段中占比;
得到特征后,使用Xgboost进行分类,确定上述密码段不是明文。
第二种,假设回显信息包括:password=123456&groupid=abc(已隐藏真实密码),确定其中密码段为:123456;对其进行特征提取,得到上述22个特征,使用Xgboost进行分类,确定上述密码段为明文。
图3为本发明实施例提供的一种信息处理装置的结构示意图;如图3所示,所述装置包括:
第一处理模块,用于获取待测回显信息;
第二处理模块,用于检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;
第三处理模块,用于运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码。
具体的,所述第一处理模块,用于获取回显信息集;所述回显信息集包括至少一个回显信息;
从所述回显信息集中确定满足第一条件的回显信息,作为所述待测回显信息;
所述满足第一条件表征回显信息中具有与目标词库中至少一个词匹配的词。
具体的,所述第二处理模块,用于对所述待测回显信息进行文本分割,得到所述待测回显信息包括的至少一个待测词;
根据所述至少一个待测词查询所述目标词库,确定所述至少一个待测词与所述目标词库中的词匹配时,将与所述目标词库中的词匹配的待测词,作为关键词;
对所述关键词相关的字符串进行检测,确定所述关键词对应的密码信息。
具体的,所述第二处理模块,用于确定所述关键词的位置,根据所述关键词的位置确定所述关键词相关的字符串;
对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码信息。
具体的,所述装置还包括:预处理模块,用于获取训练样本集;所述训练样本集包括:至少一个训练样本;每个所述训练样本对应有样本标签;
采用Xgboost算法,运用所述训练样本集训练预设模型,得到训练后的预设模型,作为所述识别模型;所述预设模型包括至少两个决策树。
具体的,所述第二处理模块,还用于提取所述密码信息的至少一个特征;所述特征,包括以下至少之一:密码信息的长度、数字个数在总密码信息中的占比、密码信息中的小写字母个数、密码信息中是否含单词、特定字符个数在总密码段中占比;
所述第三处理模块,用于运用预设的识别模型对所述至少一个特征进行识别,得到识别结果;
确定所述识别结果表征所述密码信息为明文时,将所述密码信息作为所述关键词对应的明文密码。
图4为本发明实施例提供的另一种信息处理装置的结构示意图,如图4所示,所述装置40包括:处理器401和用于存储能够在所述处理器上运行的计算机程序的存储器402;所述处理器401用于运行所述计算机程序时,执行:获取待测回显信息;检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:获取回显信息集;所述回显信息集包括至少一个回显信息;从所述回显信息集中确定满足第一条件的回显信息,作为所述待测回显信息;所述满足第一条件表征回显信息中具有与目标词库中至少一个词匹配的词。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:对所述待测回显信息进行文本分割,得到所述待测回显信息包括的至少一个待测词;根据所述至少一个待测词查询所述目标词库,确定所述至少一个待测词与所述目标词库中的词匹配时,将与所述目标词库中的词匹配的待测词,作为关键词;对所述关键词相关的字符串进行检测,确定所述关键词对应的密码信息。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:确定所述关键词的位置,根据所述关键词的位置确定所述关键词相关的字符串;对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码信息。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:获取训练样本集;所述训练样本集包括:至少一个训练样本;每个所述训练样本对应有样本标签;采用Xgboost算法,运用所述训练样本集训练预设模型,得到训练后的预设模型,作为所述识别模型;所述预设模型包括至少两个决策树。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:提取所述密码信息的至少一个特征;所述特征,包括以下至少之一:密码信息的长度、数字个数在总密码信息中的占比、密码信息中的小写字母个数、密码信息中是否含单词、特定字符个数在总密码段中占比;以及,
运用预设的识别模型对所述至少一个特征进行识别,得到识别结果;确定所述识别结果表征所述密码信息为明文时,将所述密码信息作为所述关键词对应的明文密码。
实际应用时,所述装置40还可以包括:至少一个网络接口403。所述装置40中的各个组件通过总线系统404耦合在一起。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统404。其中,所述处理器401的个数可以为至少一个。网络接口403用于装置40与其他设备之间有线或无线方式的通信。
本发明实施例中的存储器402用于存储各种类型的数据以支持装置40的操作。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP,DiGital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,装置40可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器运行时,执行:获取待测回显信息;检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码信息;运用预设的识别模型识别所述密码信息,确定所述密码信息满足预设条件时,将所述密码信息作为所述关键词对应的明文密码。
在一实施例中,所述计算机程序被处理器运行时,执行:获取回显信息集;所述回显信息集包括至少一个回显信息;从所述回显信息集中确定满足第一条件的回显信息,作为所述待测回显信息;所述满足第一条件表征回显信息中具有与目标词库中至少一个词匹配的词。
在一实施例中,所述计算机程序被处理器运行时,执行:对所述待测回显信息进行文本分割,得到所述待测回显信息包括的至少一个待测词;根据所述至少一个待测词查询所述目标词库,确定所述至少一个待测词与所述目标词库中的词匹配时,将与所述目标词库中的词匹配的待测词,作为关键词;对所述关键词相关的字符串进行检测,确定所述关键词对应的密码信息。
在一实施例中,所述计算机程序被处理器运行时,执行:确定所述关键词的位置,根据所述关键词的位置确定所述关键词相关的字符串;对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码信息。
在一实施例中,所述计算机程序被处理器运行时,执行:获取训练样本集;所述训练样本集包括:至少一个训练样本;每个所述训练样本对应有样本标签;采用Xgboost算法,运用所述训练样本集训练预设模型,得到训练后的预设模型,作为所述识别模型;所述预设模型包括至少两个决策树。
在一实施例中,所述计算机程序被处理器运行时,执行:提取所述密码信息的至少一个特征;所述特征,包括以下至少之一:密码信息的长度、数字个数在总密码信息中的占比、密码信息中的小写字母个数、密码信息中是否含单词、特定字符个数在总密码段中占比;以及,
运用预设的识别模型对所述至少一个特征进行识别,得到识别结果;确定所述识别结果表征所述密码信息为明文时,将所述密码信息作为所述关键词对应的明文密码。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
获取待测回显信息;
检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码;
运用预设的识别模型识别所述密码,确定所述密码满足预设条件时,将所述密码作为所述关键词对应的明文密码;
其中,所述检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码,包括:
对所述待测回显信息进行文本分割,得到所述待测回显信息包括的至少一个待测词;
根据所述至少一个待测词查询目标词库,确定所述至少一个待测词与所述目标词库中的词匹配时,将与所述目标词库中的词匹配的待测词,作为关键词;
对所述关键词相关的字符串进行检测,确定所述关键词对应的密码;
其中,所述对所述关键词相关的字符串进行检测,确定所述关键词对应的密码,包括:
确定所述关键词的位置,根据所述关键词的位置确定所述关键词相关的字符串;
对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码;
其中,所述方法还包括:提取所述密码的至少一个特征;
所述运用预设的识别模型识别所述密码,确定所述密码满足预设条件时,将所述密码作为所述关键词对应的明文密码,包括:
运用预设的识别模型对所述至少一个特征进行识别,得到识别结果;
确定所述识别结果表征所述密码为明文时,将所述密码作为所述关键词对应的明文密码。
2.根据权利要求1所述的方法,其特征在于,所述获取待测回显信息,包括:
获取回显信息集;所述回显信息集包括至少一个回显信息;
从所述回显信息集中确定满足第一条件的回显信息,作为所述待测回显信息;
所述满足第一条件表征回显信息中具有与目标词库中至少一个词匹配的词。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:生成所述识别模型;所述生成识别模型,包括:
获取训练样本集;所述训练样本集包括:至少一个训练样本;每个所述训练样本对应有样本标签;
采用Xgboost算法,运用所述训练样本集训练预设模型,得到训练后的预设模型,作为所述识别模型;所述预设模型包括至少两个决策树。
4.根据权利要求1所述的方法,其特征在于,所述特征,包括以下至少之一:密码的长度、数字个数在总密码中的占比、密码中的小写字母个数、密码中是否含单词、特定字符个数在总密码段中占比。
5.一种信息处理装置,其特征在于,所述装置包括:
第一处理模块,用于获取待测回显信息;
第二处理模块,用于检测所述待测回显信息,确定所述待测回显信息中包含的关键词和关键词对应的密码;
第三处理模块,用于运用预设的识别模型识别所述密码,确定所述密码满足预设条件时,将所述密码作为所述关键词对应的明文密码;
其中,所述第二处理模块,用于对所述待测回显信息进行文本分割,得到所述待测回显信息包括的至少一个待测词;
根据所述至少一个待测词查询目标词库,确定所述至少一个待测词与所述目标词库中的词匹配时,将与所述目标词库中的词匹配的待测词,作为关键词;
对所述关键词相关的字符串进行检测,确定所述关键词对应的密码;
其中,所述第二处理模块,还用于确定所述关键词的位置,根据所述关键词的位置确定所述关键词相关的字符串;
对所述字符串包括的字符依次进行检测,从所述字符串中确定满足预设条件的密码;
所述第二处理模块,还用于提取所述密码的至少一个特征;
所述第三处理模块,还用于运用预设的识别模型对所述至少一个特征进行识别,得到识别结果;
确定所述识别结果表征所述密码为明文时,将所述密码作为所述关键词对应的明文密码。
6.根据权利要求5所述的装置,其特征在于,所述第一处理模块,用于获取回显信息集;所述回显信息集包括至少一个回显信息;
从所述回显信息集中确定满足第一条件的回显信息,作为所述待测回显信息;
所述满足第一条件表征回显信息中具有与目标词库中至少一个词匹配的词。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:预处理模块,用于获取训练样本集;所述训练样本集包括:至少一个训练样本;每个所述训练样本对应有样本标签;
采用Xgboost算法,运用所述训练样本集训练预设模型,得到训练后的预设模型,作为所述识别模型;所述预设模型包括至少两个决策树。
8.根据权利要求5所述的装置,其特征在于,所述特征,包括以下至少之一:密码的长度、数字个数在总密码中的占比、密码中的小写字母个数、密码中是否含单词、特定字符个数在总密码段中占比。
9.一种信息处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
CN202011034650.XA 2020-09-27 2020-09-27 一种信息处理方法、装置和存储介质 Active CN114338058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011034650.XA CN114338058B (zh) 2020-09-27 2020-09-27 一种信息处理方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011034650.XA CN114338058B (zh) 2020-09-27 2020-09-27 一种信息处理方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN114338058A CN114338058A (zh) 2022-04-12
CN114338058B true CN114338058B (zh) 2023-05-09

Family

ID=81011921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011034650.XA Active CN114338058B (zh) 2020-09-27 2020-09-27 一种信息处理方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN114338058B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069922B (zh) * 2023-04-06 2023-06-20 广东远景信息科技有限公司 基于检索信息进行法律法规筛选的方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101426008B (zh) * 2007-10-30 2011-06-22 北京启明星辰信息技术股份有限公司 一种基于回显的审计方法及系统
CN105227302B (zh) * 2015-10-28 2019-06-14 Oppo广东移动通信有限公司 密码的共享方法及密码的共享系统
CN107085694B (zh) * 2016-02-16 2020-01-07 深信服科技股份有限公司 信息显示处理方法和装置
US10762192B2 (en) * 2018-08-22 2020-09-01 Paypal, Inc. Cleartext password detection using machine learning
CN111400440A (zh) * 2020-02-28 2020-07-10 深圳市华海同创科技有限公司 一种意图识别的方法及装置

Also Published As

Publication number Publication date
CN114338058A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US11475143B2 (en) Sensitive data classification
US11385942B2 (en) Systems and methods for censoring text inline
US11463476B2 (en) Character string classification method and system, and character string classification device
CN104077396B (zh) 一种钓鱼网站检测方法及装置
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
US20230385409A1 (en) Unstructured text classification
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN113098887A (zh) 一种基于网站联合特征的钓鱼网站检测方法
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN110830489B (zh) 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN114357190A (zh) 一种数据检测方法、装置、电子设备及存储介质
CN107204956A (zh) 网站识别方法及装置
CN112651025A (zh) 一种基于字符级嵌入编码的webshell检测方法
CN110110218B (zh) 一种身份关联方法及终端
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN114338058B (zh) 一种信息处理方法、装置和存储介质
CN117235532B (zh) 一种基于M-Bert的恶意网站检测模型的训练及检测方法
CN116543237B (zh) 无源域无监督域适应的图像分类方法、系统、设备及介质
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN116186708A (zh) 类别识别模型生成方法、装置、计算机设备和存储介质
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN114024701A (zh) 域名检测方法、装置及通信系统
CN111598159B (zh) 机器学习模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant