CN114330300A - 渗透测试文档分析方法、装置、设备和存储介质 - Google Patents

渗透测试文档分析方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114330300A
CN114330300A CN202111651869.9A CN202111651869A CN114330300A CN 114330300 A CN114330300 A CN 114330300A CN 202111651869 A CN202111651869 A CN 202111651869A CN 114330300 A CN114330300 A CN 114330300A
Authority
CN
China
Prior art keywords
penetration test
test document
word
document
word frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111651869.9A
Other languages
English (en)
Inventor
沈传宝
王超
马维士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huayuan Information Technology Co Ltd
Original Assignee
Beijing Huayuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huayuan Information Technology Co Ltd filed Critical Beijing Huayuan Information Technology Co Ltd
Priority to CN202111651869.9A priority Critical patent/CN114330300A/zh
Publication of CN114330300A publication Critical patent/CN114330300A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供了一种渗透测试文档分析方法、装置、设备和存储介质。该方法包括:获取渗透测试过程中得到的渗透测试文档;对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频;根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数;对价值分数满足预设条件的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息。以此方式,可以基于NLP自动化地对渗透测试文档进行全面分析,提高分析效率。

Description

渗透测试文档分析方法、装置、设备和存储介质
技术领域
本公开涉及网络安全领域,尤其涉及一种渗透测试文档分析方法、装置、设备和存储介质。
背景技术
近年来,网络攻击事件频发,互联网上的木马、蠕虫、勒索攻击层出不穷,这对网络安全形成了严重的威胁。因此,需要对网络进行渗透测试,测试网络的防护能力。众所周知,在渗透测试中需要对获取的文档即渗透测试文档进行分析。
目前,渗透测试文档分析主要依赖人工进行分析,但随着信息技术的飞速发展,一台普通PC都有着上TB的存储空间,而服务器更是达到了几十TB甚至几百TB的存储容量,其内部存在着大量的文档文件,人工分析效率越来越难以满足需要。因此,如何提高渗透测试文档的分析效率就成为了目前亟待解决的技术问题。
发明内容
本公开提供了一种渗透测试文档分析方法、装置、设备和存储介质,可以基于NLP自动化地对渗透测试文档进行全面分析,提高分析效率。
第一方面,本公开实施例提供了一种渗透测试文档分析方法,该方法包括:
获取渗透测试过程中得到的渗透测试文档;
对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频;
根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数;
对价值分数满足预设条件的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息。
在第一方面的一些可实现方式中,对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频,包括:
对每个渗透测试文档进行分词处理,得到每个渗透测试文档中的词语;
根据每个渗透测试文档中的词语,统计每个渗透测试文档中每个词语的词频。
在第一方面的一些可实现方式中,根据每个渗透测试文档中的词语,统计每个渗透测试文档中每个词语的词频,包括:
删除每个渗透测试文档中词性为虚词的词语;
根据每个渗透测试文档中保留的词语,统计每个渗透测试文档中每个词语的词频。
在第一方面的一些可实现方式中,根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数,包括:
根据每个渗透测试文档中每个词语的词频,从每个渗透测试文档中的词语中确定词频高于预设词频阈值的目标词语;
若目标词语为敏感词语,则从敏感词语表中确定目标词语的敏感值;
将每个渗透测试文档中每个目标词语的敏感值乘以对应的词频,得到每个渗透测试文档中每个目标词语的敏感分数;
对每个渗透测试文档中每个目标词语的敏感分数进行累加求和,得到每个渗透测试文档的价值分数。
在第一方面的一些可实现方式中,该方法还包括:
对每个渗透测试文档进行文档识别,得到每个渗透测试文档的格式类型、标签、编辑信息;
根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数,包括:
根据每个渗透测试文档中每个词语的词频,计算每个渗透测试文档的词频价值分数;
根据每个渗透测试文档的格式类型,计算每个渗透测试文档的格式价值分数;
根据每个渗透测试文档的标签,计算每个渗透测试文档的标签价值分数;
根据每个渗透测试文档的编辑信息,计算每个渗透测试文档的编辑价值分数;
根据每个渗透测试文档的词频价值分数、格式价值分数、标签价值分数、编辑价值分数分别对应的权重,对每个渗透测试文档的词频价值分数、格式价值分数、标签价值分数、编辑价值分数进行加权求和,得到每个渗透测试文档的价值分数。
在第一方面的一些可实现方式中,该方法还包括:
利用目标渗透测试文档的属性信息和敏感信息构建知识图谱,并展示知识图谱。
在第一方面的一些可实现方式中,预设条件包括:渗透测试文档的价值分数大于或等于预设分数阈值;或者,
渗透测试文档的价值分数按照价值分数从大到小的顺序处于前N位,N为大于等于1的正整数。
第二方面,本公开实施例提供了一种渗透测试文档分析装置,该装置包括:
获取模块,用于获取多个渗透测试文档;
统计模块,用于对每个渗透测试文档进行词频统计,得到每个渗透测试文档的词频;
确定模块,用于根据每个渗透测试文档的词频,确定每个渗透测试文档的价值分数;
挖掘模块,用于对价值分数满足预设高价值文档条件的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息。
第三方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如以上所述的方法。
第四方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如以上所述的方法。
第五方面,本公开实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现如以上所述的方法。
在本公开中,可以对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频,并根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数,然后对价值分数满足预设条件的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息,从而可以实现对渗透测试文档的自动化分析,提高分析的全面性和效率。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了一种能够在其中实现本公开的实施例的示例性运行环境的示意图;
图2示出了本公开实施例提供的一种渗透测试文档分析方法的流程图;
图3示出了本公开实施例提供的一种知识图谱示意图;
图4示出了本公开实施例提供的一种渗透测试文档分析装置的结构图;
图5示出了一种能够实施本公开的实施例的示例性电子设备的结构图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
针对背景技术中出现的问题,本公开实施例提供了一种渗透测试文档分析方法、装置、设备和存储介质。具体地,可以对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频,并根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数,然后对价值分数满足预设条件的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息,从而可以实现对渗透测试文档的自动化分析,提高分析的全面性和效率。
下面结合附图,通过具体的实施例对本公开实施例提供的渗透测试文档分析方法、装置、设备和存储介质进行详细地说明。
图1示出了一种能够在其中实现本公开的实施例的示例性运行环境100的示意图,如图1所示,运行环境100中可以包括电子设备110和目标网络120。
其中,电子设备110可以是移动电子设备,也可以是非移动电子设备。例如,移动电子设备可以是平板电脑、笔记本电脑、掌上电脑或者超级移动个人计算机(Ultra-MobilePersonal Computer,UMPC)等,非移动电子设备可以是个人计算机(Personal Computer,PC)或者服务器等。
目标网络120是进行渗透测试的网络,其可以是企业或团体的整体网络,包括多个资产,其中,资产可以是主机、网关设备、路由器、Web系统、数据库等。
作为一个示例,在目标网络120进行渗透测试期间,电子设备110可以获取渗透测试过程中得到的渗透测试文档,对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频,并根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数,然后对价值分数满足预设条件的目标渗透测试文档也即高价值文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息,从而可以实现对渗透测试文档的自动化分析,避免因人工分析导致的各类问题,如:全面性、准确性等,提高分析的全面性和效率。
下面将详细介绍本公开实施例提供的渗透测试文档分析方法,其中,该渗透测试文档分析方法的执行主体可以是图1所示的电子设备110。
图2示出了本公开实施例提供的一种渗透测试文档分析方法的流程图,如图2所示,渗透测试文档分析方法200可以包括以下步骤:
S210,获取渗透测试过程中得到的渗透测试文档。
具体地,在目标网络进行渗透测试期间,可以得到一个或多个测试文档,因此,可以实时获取渗透测试过程中得到的渗透测试文档。
S220,对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频。
在一些实施例中,可以先对每个渗透测试文档进行分词处理,得到每个渗透测试文档中的词语。示例性地,可以基于语义词典对每个渗透测试文档进行分词处理,例如使用Python Jieba等工具对每个渗透测试文档进行分词处理,得到每个渗透测试文档中的词语。
然后根据每个渗透测试文档中的词语,快速统计每个渗透测试文档中每个词语的词频。示例性地,可以删除每个渗透测试文档中词性为虚词的词语,例如:拟声词、介词、连词等,从而根据每个渗透测试文档中保留的词语,统计每个渗透测试文档中每个词语的词频,例如:“证件”、“身份证”、“电话号码”、“邮箱”等词语的词频。如此一来,可以删除无实际意义的词语,仅统计有实际意义的词语的词频,在减少数据计算量的同时,提高词频统计效果。
可选地,词频统计可以通过Scikit-Learn工具完成。
S230,根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数。
示例性地,可以根据每个渗透测试文档中每个词语的词频,从每个渗透测试文档中的词语中确定词频高于预设词频阈值的目标词语也即高频词语,其中,预设词频阈值可以随实际需要灵活设置,在此不做限制。
若目标词语为敏感词语,则从敏感词语表中确定目标词语的敏感值,并将每个渗透测试文档中每个目标词语的敏感值乘以对应的词频,得到每个渗透测试文档中每个目标词语的敏感分数,然后对每个渗透测试文档中每个目标词语的敏感分数进行累加求和,得到每个渗透测试文档的价值分数,实现对渗透测试文档的精确评估。
例如,渗透测试文档1中存在“证件”、“身份证”、“电话号码”、“邮箱”4个目标词语,皆是敏感词语,可以从敏感词语表中确定“证件”、“身份证”、“电话号码”、“邮箱”分别对应的敏感值,并将“证件”、“身份证”、“电话号码”、“邮箱”的敏感值乘以对应的词频,也即“证件”的敏感值乘以“证件”的词频,“身份证”的敏感值乘以“身份证”的词频,“电话号码”的敏感值乘以“电话号码”的词频、“邮箱”的敏感值乘以“邮箱”的词频,得到“证件”、“身份证”、“电话号码”、“邮箱”的敏感分数,然后将“证件”、“身份证”、“电话号码”、“邮箱”的敏感分数相加,得到渗透测试文档1的价值分数。
S240,对价值分数满足预设条件的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息。
其中,预设条件可以包括:渗透测试文档的价值分数大于或等于预设分数阈值;或者,渗透测试文档的价值分数按照价值分数从大到小的顺序处于前N位,N为大于等于1的正整数。
示例性地,可以对价值分数大于或等于预设分数阈值的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息。
也可以按照价值分数从大到小的顺序对渗透测试文档进行排序,对前N位的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息。如此一来,可以过滤掉低价值文档,仅对高价值文档进行信息挖掘,在减少信息挖掘量的同时提高信息挖掘效果。
需要注意的是,对目标渗透测试文档进行信息挖掘,主要是对目标渗透测试文档的各要素进行深度抽取和分析。例如针对文档外围信息将提取:文档创建人、文档类型、文档名称、文档创建时间、文档修改时间、文档存储位置、文档大小等属性信息;针对文档内部信息将提取:产品名称、人员姓名、电话号码、用户名、密码、邮箱地址、URL等敏感信息。
根据本公开实施例,可以对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频,并根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数,然后对价值分数满足预设条件的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息,从而可以实现对渗透测试文档的自动化分析,解决因人工分析带来的各项瓶颈,提高分析的全面性和效率。
在一些实施例中,可以对每个渗透测试文档进行文档识别,得到每个渗透测试文档的格式类型、标签、编辑信息。示例性地,格式类型可以是word、xlsx等。标签是根据文档名称标注而来的,例如:“工资表”打上“财务”标签,“用户手册”打上“产品”标签。编辑信息可以是最后一次编辑时间。
可以根据每个渗透测试文档中每个词语的词频,计算每个渗透测试文档的词频价值分数,根据每个渗透测试文档的格式类型,计算每个渗透测试文档的格式价值分数,根据每个渗透测试文档的标签,计算每个渗透测试文档的标签价值分数,根据每个渗透测试文档的编辑信息,计算每个渗透测试文档的编辑价值分数。
然后根据每个渗透测试文档的词频价值分数、格式价值分数、标签价值分数、编辑价值分数分别对应的权重,对每个渗透测试文档的词频价值分数、格式价值分数、标签价值分数、编辑价值分数进行加权求和,得到每个渗透测试文档的价值分数。如此一来,可以结合多维度评估指标,精确确定渗透测试文档的价值分数。
在一些实施例中,可以利用目标渗透测试文档的属性信息和敏感信息构建知识图谱,并展示知识图谱,实现对文档内容的可视化呈现。
如图3所示,还可以根据利用目标渗透测试文档的目标词语也即高频词语、敏感词语也即关键词语、属性信息和敏感信息构建知识图谱,并展示知识图谱。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图4示出了根据本公开的实施例提供的一种渗透测试文档分析装置的结构图,如图4所示,渗透测试文档分析装置400可以包括:
获取模块410,用于获取多个渗透测试文档。
统计模块420,用于对每个渗透测试文档进行词频统计,得到每个渗透测试文档的词频。
确定模块430,用于根据每个渗透测试文档的词频,确定每个渗透测试文档的价值分数。
挖掘模块440,用于对价值分数满足预设高价值文档条件的目标渗透测试文档进行信息挖掘,得到目标渗透测试文档的属性信息和敏感信息。
在一些实施例中,统计模块420具体用于:
对每个渗透测试文档进行分词处理,得到每个渗透测试文档中的词语。
根据每个渗透测试文档中的词语,统计每个渗透测试文档中每个词语的词频。
在一些实施例中,统计模块420具体用于:
删除每个渗透测试文档中词性为虚词的词语。
根据每个渗透测试文档中保留的词语,统计每个渗透测试文档中每个词语的词频。
在一些实施例中,确定模块430具体用于:
根据每个渗透测试文档中每个词语的词频,从每个渗透测试文档中的词语中确定词频高于预设词频阈值的目标词语。
若目标词语为敏感词语,则从敏感词语表中确定目标词语的敏感值。
将每个渗透测试文档中每个目标词语的敏感值乘以对应的词频,得到每个渗透测试文档中每个目标词语的敏感分数。
对每个渗透测试文档中每个目标词语的敏感分数进行累加求和,得到每个渗透测试文档的价值分数。
在一些实施例中,渗透测试文档分析装置400还包括:
识别模块,用于对每个渗透测试文档进行文档识别,得到每个渗透测试文档的格式类型、标签、编辑信息。
确定模块430具体用于:
根据每个渗透测试文档中每个词语的词频,计算每个渗透测试文档的词频价值分数。
根据每个渗透测试文档的格式类型,计算每个渗透测试文档的格式价值分数。
根据每个渗透测试文档的标签,计算每个渗透测试文档的标签价值分数。
根据每个渗透测试文档的编辑信息,计算每个渗透测试文档的编辑价值分数。
根据每个渗透测试文档的词频价值分数、格式价值分数、标签价值分数、编辑价值分数分别对应的权重,对每个渗透测试文档的词频价值分数、格式价值分数、标签价值分数、编辑价值分数进行加权求和,得到每个渗透测试文档的价值分数。
在一些实施例中,渗透测试文档分析装置400还包括:
构建模块,用于利用目标渗透测试文档的属性信息和敏感信息构建知识图谱,并展示知识图谱。
在一些实施例中,预设条件包括:渗透测试文档的价值分数大于或等于预设分数阈值;或者,
渗透测试文档的价值分数按照价值分数从大到小的顺序处于前N位,N为大于等于1的正整数。
可以理解的是,图4所示渗透测试文档分析装置400中的各个模块/单元具有实现本公开实施例提供的渗透测试文档分析方法200中的各个步骤的功能,并能达到其相应的技术效果,为了简洁,在此不再赘述。
图5示出了一种可以用来实施本公开的实施例的电子设备的结构图。电子设备500旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备500还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500可以包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM503中,还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如方法200。例如,在一些实施例中,方法200可被实现为计算机程序产品,包括计算机程序,其被有形地包含于计算机可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM503并由计算单元501执行时,可以执行上文描述的方法200的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
本文中以上描述的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,计算机可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或计算机可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要注意的是,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行方法200,并达到本公开实施例执行其方法达到的相应技术效果,为简洁描述,在此不再赘述。
另外,本公开还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现方法200。
为了提供与用户的交互,可以在计算机上实施以上描述的实施例,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将以上描述的实施例实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种渗透测试文档分析方法,其特征在于,所述方法包括:
获取渗透测试过程中得到的渗透测试文档;
对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频;
根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数;
对价值分数满足预设条件的目标渗透测试文档进行信息挖掘,得到所述目标渗透测试文档的属性信息和敏感信息。
2.根据权利要求1所述的方法,其特征在于,所述对每个渗透测试文档进行词频统计,得到每个渗透测试文档中每个词语的词频,包括:
对每个渗透测试文档进行分词处理,得到每个渗透测试文档中的词语;
根据每个渗透测试文档中的词语,统计每个渗透测试文档中每个词语的词频。
3.根据权利要求2所述的方法,其特征在于,所述根据每个渗透测试文档中的词语,统计每个渗透测试文档中每个词语的词频,包括:
删除每个渗透测试文档中词性为虚词的词语;
根据每个渗透测试文档中保留的词语,统计每个渗透测试文档中每个词语的词频。
4.根据权利要求1所述的方法,其特征在于,所述根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数,包括:
根据每个渗透测试文档中每个词语的词频,从每个渗透测试文档中的词语中确定词频高于预设词频阈值的目标词语;
若所述目标词语为敏感词语,则从敏感词语表中确定所述目标词语的敏感值;
将每个渗透测试文档中每个目标词语的敏感值乘以对应的词频,得到每个渗透测试文档中每个目标词语的敏感分数;
对每个渗透测试文档中每个目标词语的敏感分数进行累加求和,得到每个渗透测试文档的价值分数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对每个渗透测试文档进行文档识别,得到每个渗透测试文档的格式类型、标签、编辑信息;
所述根据每个渗透测试文档中每个词语的词频,确定每个渗透测试文档的价值分数,包括:
根据每个渗透测试文档中每个词语的词频,计算每个渗透测试文档的词频价值分数;
根据每个渗透测试文档的格式类型,计算每个渗透测试文档的格式价值分数;
根据每个渗透测试文档的标签,计算每个渗透测试文档的标签价值分数;
根据每个渗透测试文档的编辑信息,计算每个渗透测试文档的编辑价值分数;
根据每个渗透测试文档的词频价值分数、格式价值分数、标签价值分数、编辑价值分数分别对应的权重,对每个渗透测试文档的词频价值分数、格式价值分数、标签价值分数、编辑价值分数进行加权求和,得到每个渗透测试文档的价值分数。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
利用所述目标渗透测试文档的属性信息和敏感信息构建知识图谱,并展示所述知识图谱。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述预设条件包括:渗透测试文档的价值分数大于或等于预设分数阈值;或者,
渗透测试文档的价值分数按照价值分数从大到小的顺序处于前N位,N为大于等于1的正整数。
8.一种渗透测试文档分析装置,其特征在于,所述装置包括:
获取模块,用于获取多个渗透测试文档;
统计模块,用于对每个渗透测试文档进行词频统计,得到每个渗透测试文档的词频;
确定模块,用于根据每个渗透测试文档的词频,确定每个渗透测试文档的价值分数;
挖掘模块,用于对价值分数满足预设高价值文档条件的目标渗透测试文档进行信息挖掘,得到所述目标渗透测试文档的属性信息和敏感信息。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。
CN202111651869.9A 2021-12-30 2021-12-30 渗透测试文档分析方法、装置、设备和存储介质 Pending CN114330300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111651869.9A CN114330300A (zh) 2021-12-30 2021-12-30 渗透测试文档分析方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111651869.9A CN114330300A (zh) 2021-12-30 2021-12-30 渗透测试文档分析方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114330300A true CN114330300A (zh) 2022-04-12

Family

ID=81019247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111651869.9A Pending CN114330300A (zh) 2021-12-30 2021-12-30 渗透测试文档分析方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114330300A (zh)

Similar Documents

Publication Publication Date Title
CN107809331B (zh) 识别异常流量的方法和装置
US12118770B2 (en) Image recognition method and apparatus, electronic device and readable storage medium
WO2024098699A1 (zh) 实体对象的威胁检测方法、装置、设备及存储介质
CN113360918A (zh) 漏洞快速扫描方法、装置、设备以及存储介质
CN114924959A (zh) 页面测试方法、装置、电子设备和介质
CN110751354B (zh) 一种异常用户的检测方法和装置
CN114741544A (zh) 图像检索方法、检索库构建方法、装置、电子设备及介质
CN113904943A (zh) 账号检测方法、装置、电子设备和存储介质
CN115589339B (zh) 网络攻击类型识别方法、装置、设备以及存储介质
CN116743474A (zh) 决策树生成方法、装置、电子设备及存储介质
CN117076610A (zh) 一种数据敏感表的识别方法、装置、电子设备及存储介质
CN115952792A (zh) 一种文本审核方法、装置、电子设备、存储介质及产品
CN113239687B (zh) 一种数据处理方法和装置
CN114330300A (zh) 渗透测试文档分析方法、装置、设备和存储介质
CN115344495A (zh) 批量任务测试的数据分析方法、装置、计算机设备及介质
CN115408236A (zh) 一种日志数据审计系统、方法、设备及介质
CN114492364A (zh) 相同漏洞的判断方法、装置、设备和存储介质
CN113722593A (zh) 事件数据处理方法、装置、电子设备和介质
CN115378746B (zh) 网络入侵检测规则生成方法、装置、设备以及存储介质
CN117574362B (zh) 一种达人账号数据异常分辨方法及系统
CN113868660B (zh) 恶意软件检测模型的训练方法、装置以及设备
CN114428887B (zh) 点击数据去噪方法、装置、电子设备及存储介质
CN114492409B (zh) 文件内容的评价方法、装置、电子设备及程序产品
CN115269879B (zh) 知识结构数据的生成方法、数据搜索方法和风险告警方法
CN115168727B (zh) 用户习惯的挖掘方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination