CN117240548A - 一种网络身份的信息溯源方法、装置、设备和存储介质 - Google Patents
一种网络身份的信息溯源方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117240548A CN117240548A CN202311199104.5A CN202311199104A CN117240548A CN 117240548 A CN117240548 A CN 117240548A CN 202311199104 A CN202311199104 A CN 202311199104A CN 117240548 A CN117240548 A CN 117240548A
- Authority
- CN
- China
- Prior art keywords
- password
- data
- probability
- identity
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 238000004140 cleaning Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000002253 acid Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Storage Device Security (AREA)
Abstract
本发明涉及一种网络身份的信息溯源方法,该方法从大数据中提取包含密码字段的特征数据,对所述数据按照加密方式分类后对各分类数据依次进行数据清洗和降噪,计算出各分类中每一密码的出现概率,进而得出分类中使用同一密码的所有账号的实际使用主体将密码设置为相同这一随机事件的实际概率,即不同账号间设置相同密码的概率,并将概率置于可信范围阈值内的密码对应的所有账号的主体标记为同一主体。本发明基于大数据的方式,将符合上述特性的所有密码的出现概率预先计算出来,同时聚合同密码关联的各类身份数据,使之能够通过已知的一个身份,通过可信的同密码关联方式查询到其他身份,为追溯网络账号的实际控制人或控制团体信息提供线索。
Description
技术领域
本发明涉及网络安全和大数据领域,尤其涉及一种网络身份的信息溯源方法、装置、设备和存储介质。
背景技术
随着计算机技术的飞速发展,信息网络已成为社会发展的重要保证,承载各类信息的网络难免受到来自各地、各领域的人为攻击。每当网络受到攻击,网络安全就成为保护网络系统硬件、软件和系统数据不受攻击的铠甲。网络安全工作除了保护网络数据、升级漏洞补丁防止数据泄露、改写、破坏,防止网络系统被破坏等工作外,识别并追溯攻击者身份亦是一项非常重要的工作。
攻击者在实施网络攻击过程中,一般都会隐藏真实身份,使得身份溯源过程中被攻击方所获取信息极度有限。如何从有限的信息当中尽量多的提取并关联出攻击者的真实身份,具有重大的实质意义。
真实社会的人物与网络空间当中的人物实体不一定是一一对应关系,即存在一个真实社会人物控制多个网络空间账号且所控制的账号属于网络空间的不同身份实体的情况。比如,在某次攻击过程中,某攻击者可能使用虚假身份A进行,A身份注册信息是张三,而在另一次的攻击过程中,该攻击者使用了另一虚假身份B进行,B身份注册信息是李四,而该攻击者的真实身份为王五。现有的身份溯源方法,往往只能溯源到攻击者所使用的虚假身份A与虚假身份B,识别不出虚假身份A与虚假身份B实质被同一人或者团体王五所控制。
现有的网络身份溯源可以解决真实社会的人物与网络空间的身份实体一一对应的情况下的数据分析问题,但其不能解决真实社会的人物与网络空间的身份实体不对应情况下的数据分析问题。通俗的说,现有技术可以回答网络空间的账号的注册身份信息是谁的,但回答不了网络空间的账号实际使用人的情况的问题,即现有的身份溯源方法无法通过众多网络身份识别出实际使用账号的人员的实质身份。
发明内容
基于此,本发明的目的在于,提供一种网络身份的信息溯源方法、装置、设备和存储介质,具有在一定程度上识别不同网络身份间具有某种内部关联,为溯源诸如黑客等目标的身份信息提供有用线索的优点。
第一方面,本发明提供了一种网络身份的信息溯源方法,包括:
S10从大数据中提取包含密码字段的特征数据,并按照密码字段的加密方式对所述特征数据进行分类,得到若干分类数据集;
S20对所述分类数据集进行数据去重,并计算分类数据集中每个密码出现的概率,得到各分类数据集的密码概率数据表;
S30对所述密码概率表进行降噪,得到各分类数据集的密码结果表;
S40根据所述密码结果表和对应的分类数据集建立身份关系表,通过所述身份关系表的查询结果获得目标网络身份的各项线索信息。
本发明所述的网络身份的信息溯源方法,通过大数据的同密码分析,获得部分网络用户背后的身份实体间存在的潜在关联关系,可为溯源的目标用户的实际控制人和团体提供相关身份信息线索。本发明可在一定程度上解决现有的身份信息溯源技术架构存在的无法给出不同网络空间账号的注册身份与实际使用人不一致的情况下的身份溯源问题。同时,本发明采用的根据密码加密方式分类计算密码出现概率的方法可有效避免在对数据集进行清洗时易出现数据倾斜的问题,可提高计算密码出现概率的精度,可针对不同的加密类别设定符合该类别数据的不同的密码出现概率阈值,精细化使用数据,进一步提高数据的使用效率。
进一步地,所述S20包括以下子步骤:
S21按照数据来源字段对所述分类数据集的数据进行去重,得到第一去重数据集;
S22按照用户名字段、密码字段和数据来源对所述第一去重数据集进行去重,得到第二去重数据集;
S23从所述第二去重数据集的数据中按照用户名字段、密码字段和数据来源字段进行数据抽取,并将抽取数据存储于第一临时数据表;
S24统计所述第一临时数据表的密码总条数及各密码出现的次数,得到各密码出现的概率P,并将各密码及其对应的出现次数和出现概率储存于第二临时数据表,所述第二临时数据表为密码概率表。
本发明对所述的分类数据集采用两阶段去重法清洗数据,第一阶段对数据表层面的去重,可有效避免因数据命名方式不规范等因素导致的同一来源的数据被标识为不同数据而出现数据统计存在误差的问题;第二阶段对数据表内的内容去重,可有效提高同密码出现次数的统计精度,进而能精确计算出同密码的出现概率,避免因统计误差而导致的密码概率计算出现偏差,进而导致一部分符合条件的密码被移除密码结果表。
进一步地,所述S30采用以下子步骤对所述密码概率表进行降噪:
S31将所述密码概率表中密码出现次数为1的对应数据行删除;
S32将所述密码概率表中与弱口令集预存的密码相同的密码对应数据行删除;
S33将所述密码概率表中密码出现概率大于第一概率阈值的密码对应数据行删除,得到密码结果表,其中,第一概率阈值为预设值。
进一步地,还包括:S50对所述身份关系表进行应用建模,得到身份关系查询器;具体包括以下子步骤:
S51从所述身份关系表中提取出密码-证件号码子关系表、密码-手机号码子关系表、密码-邮件地址子关系表、密码-用户名子关系表;
S52以所述密码-证件号码子关系表、密码-手机号码子关系表、密码-邮件地址子关系表、密码-用户名子关系表为基础,以密码作为中间关联依据融合多个实体身份信息,建立实体表或视图;
S53根据所述实体表或视图建立身份查询器。
本发明依据所述身份关系表建立身份关系查询器,可使用户仅通过一账号或一注册身份信息即可查询到与该账号或该注册身份信息相关联的其他身份信息,包括其他网络账号、其他身份证件号码、其他电话号码、其他邮箱地址等;可为用户快速提供可视的身份信息溯源线索。
第二方面,本发明还提供了一种网络身份的信息溯源装置,包括:
分类模块,用于从大数据中提取包含密码字段的特征数据,并按照密码字段的加密方式对所述特征数据进行分类,得到若干分类数据集;
处理模块,用于对所述分类数据集进行数据去重后计算分类数据集中每个密码出现的概率,得到各分类数据集的密码概率数据表;
所述处理模块,还用于对所述密码概率表进行降噪,得到各分类数据集的密码结果表;
查询模块,用于根据所述密码结果表和对应的分类数据集建立身份关系表,从所述身份关系表中溯源目标网络身份的各项线索信息。
第三方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述网络身份的信息溯源方法的步骤。
第四方面,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如如第一方面所述网络身份的信息溯源方法的步骤。
本发明提供的网络身份的信息溯源装置、设备和存储介质的有益效果同第一方面所述的网络身份的信息溯源方法相同,不在此赘述。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明一实施例的流程示意图;
图2为本发明一实施例的身份查询器示意图;
图3为本发明提供的信息溯源装置一实施例的结构示意图;
图4为本发明提供的电子设备一实施例的结构示意图。
具体实施方式
一方面,密码本身的保密性来源于其随机性,完全毫不相关的人设置相同密码的概率是组成密码的各密码特征概率的乘积,若密码有n个密码特征,则设置相同秘密的概率为:
P(c)=P1×P2×...×Pi×...×Pn,
其中Pi为第i个密码特征选用某一字符的概率。
对于密码特征数量n比较大或是选用字符种类比较多的密码而言,完全毫不相关的人设置密码特征数量较多的密码成相同密码的概率特别小。
另一方面,采用密码心理学分析网络用户的心理,经实验测试,网络用户由于思维的惯性和惰性易将不同网络平台的账号或同一平台的不同账号设置为相同的密码便于登录认证;在此基础上,再剔除5类安全性较低、易于猜测的弱密码后,若仍然发现不同账号出现同密码的频率在一个置信区间内,那么同密码的不同账号的实际用户必然存在某种关联性。
基于此,本发明提出一种基于同密码分析的网络身份的信息溯源方法,该方法从大数据中提取包含密码字段的特征数据,对所述数据按照加密方式分类并对各分类数据进行数据清洗后计算不同账号出现同密码的概率,再对各分类数据进行降噪后判断不同账号出现同密码的概率是否在可信范围内,确定不同账后背后的实体身份是否存在内在关联性,为认定同密码的不同账号实际为某一人或某团体控制提供一定的参考,为追溯网络账号的实际控制人或控制团体信息提供线索。
本发明利用满足特定条件的密码间接作为人物实体的识别标识,可在一定程度上解决现有知识图谱在构造人物实体时采用身份证、护照号、驾驶证号、手机号等有现实区分人物标志的号码直接或间接作为不同账号背后的人物实体的唯一标识,而出现的无法识别不同账号背后的实际使用者是否为同一人或同一团体的问题。
本发明可在特定场景中运用,比如目标身份的溯源、数据分析当中的线索发现等。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
请参阅图1,本发明所述的网络身份的信息溯源方法,包括以下步骤。
S10从大数据中提取包含密码字段的特征数据,并按照密码字段的加密方式对所述特征数据进行分类,得到若干分类数据集。
所述包含密码字段的特征数据包括但不限于用户名字段、密码字段、注册用户实体身份字段、数据来源字段等。例如,特征数据来源于A网站的数据包含用户名信息、密码信息、A网站信息和身份证号信息;特征数据来源于B网站的数据包含用户名信息、密码信息、B网站信息和护照信息;特征数据来源于C应用程序的数据包含用户名信息、密码信息、C应用程序信息和昵称信息,等等。
在具体实施时,按照密码字段的加密方式对所述特征数据进行分类,得到若干分类数据集,各分类数据集记为LB1、LB2、...、LBi、...、LBn-1、LBn。例如,采用明文保存的为LB1,采用MD5单向HASH算法保存的为LB2,采用sha-256算法保存的为LB3,以此类推。若判断不出加密算法的,则以哈希之后的密码长度作为分类,以此类推。
所述分类数据集中的数据表包括数据表名、字段个数、字段名、数据内容等,所述数据表名与数据来源名称对应。
S20对所述分类数据集进行数据去重,并计算分类数据集中每个密码出现的概率,得到各分类数据集的密码概率数据表。
具体地,包括以下子步骤。
S21按照数据来源字段对所述分类数据集LBi的数据进行去重,得到第一去重数据集LBi 1。
通过经验判断分类数据集LBi中是否存在两张数据表,其数据来源为同一来源;若有,则将两张数据表合并为一张数据表。重复以上过程,直到不存在任何两张数据表,其数据来源为同一来源的情况,得到第一去重数据集LBi 1。
在判断分类数据集LBi中的两张数据表的数据来源是否为同一来源时,可通过以下方式来判断,但不局限于以下方式:
分析分类数据集LBi中各数据表的数据表名是否一致,字段个数是否一致,所有字段的字段名是否相同,以及数据表名与数据内容的相关性;若分类数据集LBi中存在字段个数一致且所有字段名相同,且经确认确属同一来源数据的,则将所述的多个来源不同的数据表合并为一数据表。例如,在分类数据集LBi中,某数据表A名称为xxxxxxxx-1,某数据表B名称为xxxxxxxx-2,从数据表A与数据表B的名称来看,两者名称有区别又有联系,从表象看似是两个数据源,但实际分析两数据表具有相同的字段个数且所有字段名相同,则表明数据表A与数据表B实质是同一个来源的两个批次数据,通过分析其中一表示创建时间的字段发现数据表A是2022年的数据,数据表B是2023年的数据;则将数据表A与数据表B两张表的数据进行合并。
因数据表名的命名方式不规范,经常会有同一来源的数据被标为不同数据的情况,针对这一情况,在数据处理阶段对数据表名存在一定相似度的数据表需要进行初始判断,若判断出两张表数据确为同一来源,则将两张表合为一张表。
S22按照用户名字段、密码字段和数据来源对所述第一去重数据集LBi 1进行去重,得到第二去重数据集LBi 2。
本申请不限制采用何种数据去重算法对所述第一去重数据集LBi 1的数据进行进一步去重。在具体实施时,可以采用数据库现成的算法,如“SELECT DISTINCT用户名,密码,数据来源FROM表名”,也可以采用python等语言写的外部实现算法。
S23从所述第二去重数据集的数据中按照用户名字段、密码字段和数据来源字段进行数据抽取,并将抽取数据存储于第一临时数据表DTi 1。
从所述第二去重数据集的数据中抽取至少包括“用户名”、“密码”、“数据来源”三个字段的信息,并将抽取的信息存储于第一临时数据表DTi 1中,其中“数据来源”可以是来源网站或来源应用程序的名称等。
S24统计所述第一临时数据表DTi 1的密码总条数及各密码出现的次数,得到各密码出现的概率P,并将各密码及其对应的出现次数和出现概率储存于第二临时数据表DTi 2,所述第二临时数据表DTi 2为密码概率表。
统计所述第一临时数据表DTi 1的行数,该行数对应密码的总条数,此数量即为所述第二去重数据集的有效样本总量N;统计所述第一临时数据表DTi 1中某个密码Passwordj出现的次数m,其中j∈(1,N),1≤m≤N;计算该密码Passwordj出现的概率Pj,所述Pj满足下式:
Pj=m/N。
计算出所述第一临时数据表DTi 1中出现的每一个密码对应的出现概率P,并连密码及其出现次数同时存储于第二临时数据表DTi 2中,命名为密码概率表。
以此类推,对每一个分类数据集LB1、LB2、...、LBn-1、LBn按照步骤S21-S24进行处理,得到各分类数据集对应的密码概率表:
由于获取的数据集的数据不均衡,在对数据集进行清洗的时候容易出现数据倾斜的问题,影响有效样本总量N的计算,进而影响密码出现概率P的计算。例如,假设数据总共被分为2个分类数据集,LB1的样本量有100亿,LB2的样本量有10亿,对于在LB2中的某个密码X,假设其出现的次数为5,若按分类样本计算其出现概率PX=5/109,若按整体样本计算其出现概率PX=5/1.1010。因此采用加密方式对数据集进行分类,可以提高计算密码出现概率的精度,可以针对不同的加密类别设定符合该类别数据的不同的密码出现概率阈值,进而提高目标识别的准确性。
S30对所述密码概率表进行降噪,得到各分类数据集的密码结果表。
具体地,包括以下子步骤。
S31将所述密码概率表中密码出现次数为1的对应数据行删除。
S32将所述密码概率表中与弱口令集预存的密码相同的密码对应数据行删除。
S33将所述密码概率表中密码出现概率大于第一概率阈值P1-Value的密码对应数据行删除,得到密码结果表,其中第一概率阈值P1-Value为预设值。
所述第一概率阈值P1-Value根据大数据量情况以及实际业务场景的精度要求确定,在具体实施时,第一概率阈值P1-Value的参考值为亿分之一,可根据所所掌握的数据情况进行调整。每一类别的分类数据集对应的第一概率阈值P1-Value可根据实际情况调整设置。
S40根据所述密码结果表和对应的分类数据集建立身份关系表,通过所述身份关系表的查询结果获得目标网络身份的各项线索信息。
根据所述密码结果表中的密码字段,从分类数据集LBi中抽取与该密码字段对应的用户名、数据来源和注册用户实体身份(Person ID)字段信息,并将抽取数据存储于第三临时数据表DT3中,命名为身份关系表。其中,根据注册用户采用的实体认证方式不同,注册用户实体身份信息包括但不限于证件号码信息、手机号码信息、邮件地址信息等。
以密码作为中间关联依据,整合所有与该密码对应的字段信息,通过一字段信息从所述身份关系表中提取出与该字段信息对应的密码字段及与所述密码字段对应的所有字段信息,进而完成对网络使用者的身份信息溯源。
示例性的,在密码结果表中存有多组证件号码不同、证件类型不同但密码相同的数据,可使用聚合函数,将多个证件号码聚合到同一注册用户实体身份字段中。
“聚合前:
密码aaaaaaaa证件号码1,证件类型1
密码aaaaaaaa证件号码2,证件类型2
聚合后:
密码aaaaaaaa{(证件号码2,证件类型2),(证件号码1,证件类型1)}”。
通过证件号码1查询到对应的密码aaaaaaaa,该密码aaaaaaaa与证件号码2存在对应关系,即说明网络使用者与证件号码1和证件号码2背后的实体身份拥有者具有关联性。
进一步地,为便于应用,还可对所述身份关系表进行业务建模操作。
S50对所述身份关系表进行应用建模,得到身份关系查询器。
S51从所述身份关系表中提取出密码-证件号码子关系表、密码-手机号码子关系表、密码-邮件地址子关系表、密码-用户名子关系表等。
具体实施时,可以为所述身份关系表中的每一密码赋予一个id,提取出id_idcode子关系表、id_phone子关系表、id_email子关系表、id_account子关系表等,其中,idcode表示证件号码、phone表示电话号码、email表示邮件地址、account表示用户名。
以下是本发明实施方式的示例,以id_idcode子关系表的其中一种实现方式为例,本发明不一一列举其他可实现同样效果的方式。同时,其他子关系表的建立过程类似,不一一列举。
“Insert into id_idcode
Select id,idcode from(select*from密码结果表where数据来源=‘XX’)Ainnerjoin数据来源‘XX’的数据表B where A.密码=B.密码”。
S52以所述密码-证件号码子关系表、密码-手机号码子关系表、密码-邮件地址子关系表、密码-用户名子关系表为基础,以密码作为中间关联依据融合多个实体身份信息,建立实体表或视图。
S53根据所述实体表或视图建立身份查询器。
请参阅图2,身份查询器中的实体表或视图为通过上述id_idcode关系表的实现方式所示的检索时返回的数据内容。所述实体表或视图的返回信息可以参照以下内容但不限于以下内容进行设置:
(1)证件号码查询入口表或视图,该表或视图设置的返回内容包括但不限于:“证件号码”、“证件类型”、“(证件号码,证件类型)”、“邮件地址”、“手机号码”、“(网站账号用户名,密码,网站名称)”、id和/或密码。
(2)手机号码查询入口表或视图,该表或视图设置的返回内容包括但不限于:“手机号码”、“(证件号码,证件类型)”、“其他手机号码”、“邮件地址”、“(网站账号用户名,密码,网站名称)”、id和/或密码。
(3)邮件地址查询入口表或视图,该表或视图设置的返回内容包括但不限于:“邮件地址”、“(证件号码,证件类型)”、“其他邮件地址”、“手机号码”、“(网站账号用户名,密码,网站名称)”、id和/或密码。
(4)网络账号查询入口表或视图,该表或视图设置的返回内容包括但不限于:“网站账号”、“(证件号码,证件类型)”、“邮件地址”、“手机号码”、“(网站账号用户名,密码,网站名称)”、id和/或密码。
以下是本发明实施方式中通过id和/或密码作为中间关联依据融合多个证件号码的方法。
S101从各子关系表中获取id和/或密码对应的所有证件号码,手机号码、邮件地址、用户名,并将获取的信息按类别归集为证件号码集、手机号码集、邮件地址集、用户名集。
以id_idcode子关系表为例,本发明不一一列举其他子关系表的归集过程。
“Select id,array_agg(‘(’||idcode||’,’||idcode_type||’)’)as证件号码集from id_idcode group by id”。
S102对于每一个具体的id和/或密码,查询其在所述查询入口表中是否存在,存在则更新,不存在则将该密码对应的证件号码集、手机号码集、邮件地址集、用户名集插入到所述查询入口表中。
本发明实施时,参考的更新语句为“update证件号码查询入口表set zjhm_jh=证件号码集where id=’aaaaaaaa’”;参考的插入语句为“Insert into证件号码查询入口表values(‘’,’xxxx’,’lx’,zjhm_jh,”,”,”)”。
将所有密码对应的证件号码集、手机号码集、邮件地址集、用户名集插入到查询入口表中,完成同密码不同身份信息的融合。
通过上述方式构建的身份查询器,在实际应用时可通过电话号码查询入口表查询与某一电话号码相关的注册用户的其他实体身份信息;亦可通过证件号码查询入口表查询与某一证件号码相关的注册用户的其他实体身份信息;亦可通过邮件地址查询入口表查询与某一邮箱地址相关的注册用户的其他实体身份信息;以此类推,可通过设置的实体身份信息查询入口表,查询到与某一实体身份相关的其他实体身份信息,追溯到拥有这些不同实体身份信息的网络用户实际使用者与这些不同实体身份信息的实体人物之间存在必然的联系和相关性,使对目标网络身份的信息追溯更快、更准确。
本发明所述的网络身份的信息溯源方法,通过计算密码出现概率,并以出现概率置于可信范围内的同密码作为中间关联依据,整合所有与该密码对应的实体身份信息的方式,解决现有技术无法通过众多网络身份识别出实际使用账号的人员的实质身份的问题。本发明提供的网络身份的信息溯源方法可在一定程度上确定不同账后背后的实体身份是否存在内在关联性,为认定同密码的不同账号实际为某一人或某团体控制提供一定的参考,为追溯网络账号的实际控制人或控制团体的信息提供线索。
请参阅图3,基于同一发明构思,本申请还提供一种网络身份的信息溯源装置,包括:
分类模块,用于从大数据中提取包含密码字段的特征数据,并按照密码字段的加密方式对所述特征数据进行分类,得到若干分类数据集;
处理模块,用于对所述分类数据集进行数据去重后计算分类数据集中每个密码出现的概率,得到各分类数据集的密码概率数据表;
所述处理模块,还用于对所述密码概率表进行降噪,得到各分类数据集的密码结果表;
查询模块,用于根据所述密码结果表和对应的分类数据集建立身份关系表,通过所述身份关系表的查询结果获得目标网络身份的各项线索信息。
请参阅图4,基于同一发明构思,本申请还提供一种电子设备,可以是服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该设备包括一个或多个处理器和存储器,其中处理器用于执行程序实现基于大数据同密码分析的网络身份的信息溯源方法;存储器用于存储可由所述处理器执行的计算机程序。
基于同一发明构思,本申请还提供一种非暂态计算机可读存储介质,与前述基于大数据同密码分析的网络身份的信息溯源方法的实施例相对应,所述计算机可读存储介质其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所记载的网络身份的信息溯源方法的步骤。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (10)
1.一种网络身份的信息溯源方法,其特征在于,包括:
S10从大数据中提取包含密码字段的特征数据,并按照密码字段的加密方式对所述特征数据进行分类,得到若干分类数据集;
S20对所述分类数据集进行数据去重,并计算分类数据集中每个密码出现的概率,得到各分类数据集的密码概率数据表;
S30对所述密码概率表进行降噪,得到各分类数据集的密码结果表;
S40根据所述密码结果表和对应的分类数据集建立身份关系表,通过所述身份关系表的查询结果获得目标网络身份的各项线索信息。
2.根据权利要求1所述的溯源方法,其特征在于,所述S20包括以下子步骤:
S21按照数据来源字段对所述分类数据集的数据进行去重,得到第一去重数据集;
S22按照用户名字段、密码字段和数据来源对所述第一去重数据集进行去重,得到第二去重数据集;
S23从所述第二去重数据集的数据中按照用户名字段、密码字段和数据来源字段进行数据抽取,并将抽取数据存储于第一临时数据表;
S24统计所述第一临时数据表的密码总条数及各密码出现的次数,得到各密码出现的概率P,并将各密码及其对应的出现次数和出现概率储存于第二临时数据表,所述第二临时数据表为密码概率表。
3.根据权利要求2所述的溯源方法,其特征在于,所述S24中各密码出现的概率满足下式:
Pj=m/N
其中,Pj表示某一密码Passwordj出现的概率,m表示某一密码Passwordj出现的次数,N表示第二去重数据集的有效样本总量,j∈(1,N),1≤m≤N。
4.根据权利要求1所述的溯源方法,其特征在于,所述S30采用以下子步骤对所述密码概率表进行降噪:
S31将所述密码概率表中密码出现次数为1的对应数据行删除;
S32将所述密码概率表中与弱口令集预存的密码相同的密码对应数据行删除;
S33将所述密码概率表中密码出现概率大于第一概率阈值的密码对应数据行删除,得到密码结果表,其中,第一概率阈值为预设值。
5.根据权利要求1-4任一项所述的溯源方法,其特征在于,还包括:S50对所述身份关系表进行应用建模,得到身份关系查询器;具体包括以下子步骤:
S51从所述身份关系表中提取出密码-证件号码子关系表、密码-手机号码子关系表、密码-邮件地址子关系表、密码-用户名子关系表;
S52以所述密码-证件号码子关系表、密码-手机号码子关系表、密码-邮件地址子关系表、密码-用户名子关系表为基础,以密码作为中间关联依据融合多个实体身份信息,建立实体表或视图;
S53根据所述实体表或视图建立身份查询器。
6.根据权利要求5所述的溯源方法,其特征在于,所述S52中实体表或视图包括但不限于以下内容:
证件号码查询入口表或视图,该表或视图设置的返回内容包括但不限于:“证件号码”、“证件类型”、“(证件号码,证件类型)”、“邮件地址”、“手机号码”、“(网站账号用户名,密码,网站名称)”、“密码”;
手机号码查询入口表或视图,该表或视图设置的返回内容包括但不限于:“手机号码”、“(证件号码,证件类型)”、“其他手机号码”、“邮件地址”、“(网站账号用户名,密码,网站名称)”、“密码”;
邮件地址查询入口表或视图,该表或视图设置的返回内容包括但不限于:“邮件地址”、“(证件号码,证件类型)”、“其他邮件地址”、“手机号码”、“(网站账号用户名,密码,网站名称)”、“密码”;
网络账号查询入口表或视图,该表或视图设置的返回内容包括但不限于:“网站账号”、“(证件号码,证件类型)”、“邮件地址”、“手机号码”、“(网站账号用户名,密码,网站名称)”、“密码”。
7.根据权利要求6所述的溯源方法,其特征在于,所述S52中通过密码作为中间关联依据融合多个实体身份信息包括以下子步骤:
从各子关系表中获取密码对应的所有证件号码、手机号码、邮件地址、用户名,并将获取的信息按类别归集为证件号码集、手机号码集、邮件地址集、用户名集;
对于每一个具体的密码,查询其在所述查询入口表中是否存在,存在则更新,不存在则将该密码对应的证件号码集、手机号码集、邮件地址集、用户名集插入到所述查询入口表中;
将所有密码对应的证件号码集、手机号码集、邮件地址集、用户名集插入到查询入口表中,完成同密码不同身份信息的融合。
8.一种网络身份的信息溯源装置,其特征在于,包括:
分类模块,用于从大数据中提取包含密码字段的特征数据,并按照密码字段的加密方式对所述特征数据进行分类,得到若干分类数据集;
处理模块,用于对所述分类数据集进行数据去重后计算分类数据集中每个密码出现的概率,得到各分类数据集的密码概率数据表;
所述处理模块,还用于对所述密码概率表进行降噪,得到各分类数据集的密码结果表;
查询模块,用于根据所述密码结果表和对应的分类数据集建立身份关系表,从所述身份关系表中溯源目标网络身份的各项线索信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述网络身份的信息溯源方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述网络身份的信息溯源方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199104.5A CN117240548A (zh) | 2023-09-15 | 2023-09-15 | 一种网络身份的信息溯源方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199104.5A CN117240548A (zh) | 2023-09-15 | 2023-09-15 | 一种网络身份的信息溯源方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117240548A true CN117240548A (zh) | 2023-12-15 |
Family
ID=89094283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311199104.5A Pending CN117240548A (zh) | 2023-09-15 | 2023-09-15 | 一种网络身份的信息溯源方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117240548A (zh) |
-
2023
- 2023-09-15 CN CN202311199104.5A patent/CN117240548A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9027134B2 (en) | Social threat scoring | |
US8407774B2 (en) | Cloud authentication processing and verification | |
CN108924118B (zh) | 一种撞库行为检测方法及系统 | |
EP2095277B1 (en) | Fuzzy database matching | |
CN110415107B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
KR102110642B1 (ko) | 패스워드 보호 질문 설정 방법 및 디바이스 | |
CN111159413A (zh) | 日志聚类方法、装置、设备及存储介质 | |
CN109257369B (zh) | 一种基于机器学习的扫描ip分类方法及装置 | |
CN114003903A (zh) | 一种网络攻击追踪溯源方法及装置 | |
CN110445772B (zh) | 一种基于主机关系的互联网主机扫描方法及系统 | |
Camacho et al. | A cloud-oriented integrity verification system for audio forensics | |
CN116366338A (zh) | 一种风险网站识别方法、装置、计算机设备及存储介质 | |
CN115834231A (zh) | 一种蜜罐系统的识别方法、装置、终端设备及存储介质 | |
CN117240548A (zh) | 一种网络身份的信息溯源方法、装置、设备和存储介质 | |
CN110457600B (zh) | 查找目标群体的方法、装置、存储介质和计算机设备 | |
CN112118259B (zh) | 一种基于提升树的分类模型的越权漏洞检测方法 | |
CN115225359A (zh) | 蜜罐数据溯源方法、装置、计算机设备和存储介质 | |
CN114124484A (zh) | 网络攻击识别方法、系统、装置、终端设备以及存储介质 | |
CN112100670A (zh) | 一种基于大数据的隐私数据分级保护方法 | |
CN114826726B (zh) | 网络资产脆弱性检测方法、装置、计算机设备和存储介质 | |
CN115022063B (zh) | 网空威胁行为体攻击意图分析方法、系统、电子设备及存储介质 | |
CN116599666B (zh) | 密码字典生成方法、装置、计算机设备和存储介质 | |
CN113972994B (zh) | 基于工控蜜罐的流量分析方法、装置、计算机设备和可读存储介质 | |
CN114978674B (zh) | 一种爬虫识别增强的方法及装置、存储介质及电子设备 | |
CN114221824B (zh) | 一种私域网络的安全访问控制方法、系统和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |