CN113836381A

CN113836381A - 一种系统评分覆盖度调优方法

Info

Publication number: CN113836381A
Application number: CN202111159328.4A
Authority: CN
Inventors: 才华
Original assignee: Guangdong Southern Information Security Research Institute
Current assignee: Guangdong Southern Information Security Research Institute
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-12-24

Abstract

本发明通过爬虫框webmagic爬取行业标准网上信息安全相关的的标准文本作为原始数据，通过预设文本匹配规则对所述需要更新的行业标准文件进行结构化抽取，得到结构化标准数据，建立字段以及风险的权重表，获取更新的行业标准文本，通过评估新旧标准文本之间的差异性、新旧评分标准文本之间的差异性，挖掘出差异性之间的映射关系，通过差异性评估系统识别更新行业标准内容，实现需要审核调准标准的排序列表的动态更新，能够使系统评分标准覆盖更全面，减少系统评价不全带来的负面效果；能够针对性地匹配相关方面的国家标准，使人为设立的评分标准，能够结合最新的国家标准，使评分标准覆盖更多国家标准，使之更加规范，更加可行。

Description

一种系统评分覆盖度调优方法

【技术领域】

本发明涉及深度学习算法应用技术领域，尤其涉及一种系统评分覆盖度调优方法。

【技术背景】

计算机的安全性是国家重要职能部门内部一个需要不断优化的内容。而计算机配置有千万种，针对每一个配置，我们需要测试它的安全性，进行人工验证和操作配置，看看是不是足够安全。例如，如果登录密码的要求是需要，数字、特殊字符、字母，三者构成。如果有一个公安系统，管理员配置它的密码只要求纯数字，那么就是不安全。这时测试人员会为这样的系统打低分，证明它不安全。系统评分是现代信息社会中大大小小的系统必不可少的一方面，它可以用一套标准对系统的各方面进行评分，从而及时发现系统的缺陷与可能带来的问题，方便管理者及时修补。但是，现阶段的各方面系统评分往往由人为设立，可能存在对于系统某些评价尚未覆盖的重要问题，容易造成未知的负面后果。对于社会各方面的运行系统，国家都会设立一系列完整的标准对其加以规范，运用国家标准规范系统运作能大大降低系统运行带来的未知后果，但认为设定的系统涉及的细节和重点可能与国家标准对比并不完全吻合，例如，旧的规则，不一定能适应新的国家标准。这需要人为根据国家标准去不断制定规则，这可能带来的便是覆盖不完全的问题，或者需要人工不断变化其标准的问题。因此对于系统评分覆盖度的调优很有必要。

【发明内容】

本发明的目的是为了解决上述现有技术的缺陷，提供一种系统评分覆盖度调优方法。

本发明的目的可以通过采取如下技术方案达到：

一种系统评分覆盖度调优方法，其特征在于，包括：

通过爬虫框架webmagic爬取行业标准网上信息安全相关的的标准文本数据作为原始数据；

根据所述标准文本数据得出第一目录和第二目录，通过python-Levenshtein工具包遍历所述第一目录及所述第二目录每行目录的编辑距离，所述编辑距离小于2的子目录的个数占所述第一目录的子目录个数的比例作为目录重叠比例；根据所述目录重叠比例得到怀疑更新标准；

通过预设文本匹配规则对需要更新的行业标准文件数据进行结构化抽取，得到结构化标准数据；

通过将所述结构化标准数据与故障原因关键词匹配获取所述结构化标准数据包含的故障原因；

通过机器学习的方法对所述故障时间平均风险等级、所述故障导致经济损失的平均风险等级赋予不同的权重，计算系统故障基于行业特点的综合风险等级，最终输出所述行业系统故障的综合风险等级表；

根据标准文本的结构化标准数据对目前需要测试的网络环境进行测评，得到测评分数p1，评审员人工对目前需要测试的网络环境进行测评，得到测评分数p2；

根据p1和p2的一致性判断更新标准文本是否准确，一致则更新标准文本准确，否则则更新标准文本不准确；

若更新标准文本不准确则获取每个差异点的字段信息，将差异点的字段信息与所述平均风险等级表中的对应字段进行匹配，在所述差异点的故障时间、故障导致的经济损失的两个角度进行匹配，获得所述差异点在故障时间、故障导致的经济损失的两个角度的平均风险等级，根据平均风险等级利用排序算法排序，得到所述差异点的平均风险等级顺序表；

评审员根据所述差异点的平均风险等级顺序表进行人工审查。

优选的，通过爬虫框架webmagic爬取行业标准网上信息安全相关的的标准文本数据作为原始数据，包括：根据种子链接抽取目标链接并放入待爬取队列，从页面中解析并下载所述标准文本数据，webmagics使用Jsoup组件来解析html页面，将提取出来的所述标准文本数据以文本文件格式存放并存入数据库。

优选的，所述根据标准文本数据得出第一目录和第二目录；通过python-Levenshtein 工具包遍历所述第一目录及所述第二目录每行目录的编辑距离得到目录重叠比例，包括：

根据所述标准文本数据获取一篇所述标准文本数据作为第一标准文本数据，遍历除所述第一标准文本数据其他标准文本数据，遍历时将剩余所述其他标准文本数据中一篇所述标准文本数据作为第二标准文本数据，所述第一标准文本数据的目录中包含“要求”二字的目录作为所述第一目录，所述第二标准文本数据的目录中包含“要求”二字的目录作为所述第二目录，并通过python-Levenshtein工具包遍历所述第一目录及所述第二目录中每一行目录的编辑距离，计算编辑距离小于2的子目录的个数占所述第一目录的子目录个数的比例作为所述目录重叠比例，当所述目录重叠比例超过预设值时，将所述第二标准文本数据作为所述第一标准文本数据的怀疑更新标准。

优选的，所述通过将所述结构化标准数据与故障原因关键词匹配获取所述结构化标准数据包含的故障原因；并通过机器学习的方法对所述故障时间平均风险等级、所述通过机器学习的方法对所述故障时间平均风险等级、所述故障导致经济损失的平均风险等级赋予不同的权重，计算系统故障基于行业特点的综合风险等级，最终输出所述行业系统故障的综合风险等级表，包括：

收集系统正常运行下的状态信息，所述状态信息包括：系统响应状态、网络设备状态、数据库状态，建立故障原因和故障状态的映射关系表，通过对系统输入预设故障原因得到系统预设故障状态，建立所述预设故障原因和所述系统预设故障状态的映射关系，根据状态信息获取当前系统故障状态,通过字符串编辑距离的方法计算所述当前系统故障状态与系统预设故障状态中预设故障状态名称的相似度，当所述当前系统故障状态与所述系统预设故障状态中预设故障状态名称匹配程度高于所设相似对阈值时，得到所述当前系统故障状态对应的该系统预设故障状态，根据所述预设故障原因和该系统预设故障状态的映射关系，获得所述系统故障的故障原因，获取所述系统中出现故障的情况、所述故障情况包括故障时间、故障导致的经济损失、故障导致的信誉损失，所述故障情况保存在数据库的历史表中，对所述结构化标准数据与故障原因的关键词匹配，所述故障原因的关键词与所述结构化标准数据的匹配程度高于所述特定阀值时，认为所述结构化标准数据包含所述故障原因，将所述结构化标准数据保存在数据库的历史表中；

根据所述系统数据库的历史表，使用Learning to Rank排序算法，对系统故障导致的经济损失进行从大到小的排序，得到所述故障导致的经济损失顺序表，根据所述系统故障时间顺序表预设5个故障时间阈值，根据所述故障时间阈值将故障时间分为5个区间，同一个区间内的的系统故障为同一个风险等级，共5个风险等级，根据所述系统故障所处的区间得出该系统故障的故障时间风险等级，最终得到故障时间的风险等级表，根据所述系统故障导致的经济损失顺序表，预设5个经济损失阈值，根据所述经济损失阈值将经济损失分为5个区间，同一区间内的的系统故障视为同一风险等级，共5个风险等级，根据系统故障所处的区间得出该系统故障的经济损失风险等级，最终得到故障导致经济损失的风险等级表；根据故障时间、故障导致的经济损失情况，对各个故障原因在所述行业各系统所处的风险等级求平均，得到所述各个故障原因在所述行业系统的故障时间平均风险等级和所述故障导致的经济损失的平均风险等级，根据历史表中故障原因所对应的字段，获取所述行业每一个字段的平均风险等级，最后以表格的方式输出，所述表格为所述行业根据故障时间、故障导致的经济损失的平均风险等级表。

优选的，所述通过自动测试系统，根据标准文本的结构化标准数据对目前需要测试的网络环境进行自动测评，得到测评分数p1，评审员人工对目前需要测试的网络环境进行测评，得到测评分数p2，包括：

根据获取的更新标准文本的结构化标准数据对目需要测试的网络环境进行自动测评，得到测评分数p1；评审员人工对目前需要测试的网络环境进行测评，得到测评分数p2；所述需要测试的网络环境是指需要进行网络安全环境测评的信息系统；所述自动测试系统是内预设软件自动测试工具，通过所述标准文本的结构化标准中的行业标准字段名称或对应的评分标准内容对网络环境进行自动测评得到测评分数；所述评审员人工对目前需要测试的网络环境进行测评，包括：将所述获取的更新标准文本的结构化标准数据以及新旧评分标准文本之间的差异性，挖掘出这两种差异性之间的映射关系推送给所述评审员，辅助评审员人工对网络环境进行测评；对比p1与p2两者之间的结果是否一致，根据对比结果处理更新的标准文本；如果一致，判断更新标准文本准确，对更新的标准文本及对应的结构化标准数据进行入库；如果结果不一致，默认判断更新标准文本字段更新错了导致评分差别。

优选的，所述若更新标准文本不准确则获取每个差异点的字段信息，将差异点的字段信息与所述平均风险等级表中的对应字段进行匹配，在所述差异点的故障时间、故障导致的经济损失的两个角度进行匹配，获得所述差异点在故障时间、故障导致的经济损失的两个角度的平均风险等级，根据平均风险等级利用排序算法排序，得到所述差异点的平均风险等级顺序表；评审员根据所述差异点的平均风险等级顺序表进行人工审查，包括：

在评分过程中，将导致评分不同的文字段视为所述差异点，通过所述更新标准文本的差异点，确定需要人工审核调整的标准文本与国家标准文本的差异，统计所述需要人工审核调整的标准文本个数并按所述需要人工审核调整的标准文本个数从大到小进行第一轮排序；获取每个所述差异点的字段信息，将所述差异点的字段信息与所述平均风险等级表中的对应字段进行匹配，在所述差异点的故障时间、故障导致的经济损失的两个角度进行匹配，获得所述差异点在故障时间、故障导致的经济损失的两个角度的平均风险等级，根据平均风险等级利用排序算法排序，得到所述差异点在故障时间、故障导致的经济损失两个角度的平均风险等级的顺序表，所述平均风险等级的顺序表从故障时间、故障原因两个角度对差异点进行排序，评审人员可优先审核调整在两个角度下风险等级更高的差异点，根据所述需要人工审核调整标准文本所在的行业特点，对所述故障时间的平均风险等级、所述故障导致经济损失的平均风险等级赋予不同的权重，获得每个差异点的综合风险等级，根据综合风险等级利用机器学习的排序算法排序，得到每个差异点的综合风险等级的顺序表；

根据每个差异点的字段信息，匹配需要审核调整标准下的风险等级，匹配国家标准的风险等级，比较所述每个差异点在所述需要审核调整标准和所述国家标准两个标准下的风险等级变化，用所述每个差异点在所述需要审核调整标准的风险等级减去在所述国家标准的风险等级，获得所述每个差异点的风险等级差值，得到所述每个差异点的风险等级差异变化；

将每篇所述需要人工审核调整标准的所有差异点的风险等级差值求和，得到每篇所述需要人工审核调整标准的风险等级差值总和，根据所述风险等级差值总和的大小对需要人工审核调整标准进行降序排序，根据排序结果确定所述需要人工审核调整的标准的优先级，风险等级差值总和越大，优先级越高，根据风险等级差值的平均值，将所述风险等级差值总和除以所述需要人工审核调整标准的差异点个数，得到所述需要审核调整标准的平均风险等级差值，根据所述平均风险等级差值大小对需要人工审核调整标准进行降序排序，根据排序结果确定需要人工审核调整的标准的平均优先级；

评审人员在所述评审系统上根据需要审核调整标准的优先级和平均优先级的排序结果进行审核，在评审系统上，获取每篇需要审核调整标准的被点击次数，根据所述被点击次数从大到小进行排序，根据排序结果确定人工审核时所述需要审核调整标准的主观优先级。

【本发明实施例提供的技术方案可以包括以下有益效果】：

本发明对人为设立的系统评分标准进行覆盖度评价并提醒进行标准补充，能够使系统评分标准覆盖更全面，减少系统评价不全带来的负面效果；能够针对性地匹配相关方面的国家标准，使人为设立的评分标准，能够结合最新的国家标准，使评分标准覆盖更多国家标准，使之更加规范，更加可行。

【附图说明】

图1是本发明实施例提供的一种系统评分覆盖度调优方法流程图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

S1：通过爬虫框webmagic爬取行业标准网上信息安全相关的的标准文本数据作为原始数据，包括：根据种子链接抽取目标链接放入待爬取队列，从页面中解析并下载所述标准文本数据，webmagics使用Jsoup组件来解析html页面，将提取出来的所述标准文本数据以文本文件格式存放或者存入数据库。

S2：根据标准文本数据得出第一目录和第二目录；通过python-Levenshtein工具包遍历所述第一目录及所述第二目录每行目录的编辑距离得到目录重叠比例，包括：根据所述标准文本数据获取一篇所述标准文本数据作为第一标准文本数据，遍历其他标准文本数据，遍历时将剩余所述标准文本数据中一篇所述标准文本数据作为第二标准文本数据，所述第一标准文本数据的目录中包含“要求”二字的目录作为所述第一目录，所述第二标准文本数据的目录中包含“要求”二字的目录作为所述第二目录，并通过python-Levenshtein工具包遍历所述第一目录及所述第二目录中每一行目录的编辑距离，计算编辑距离小于2的子目录的个数占所述第一目录的子目录个数的比例作为所述目录重叠比例，当所述目录重叠比例超过预设值时，将所述第二标准文本数据作为所述第一标准文本数据的怀疑更新标准。

例如：首先，通过爬虫爬取到的第一标准文本数据是：《金融行业网络安全等级保护测评指南》和第二标准文本数据《金融行业网络安全等级保护实施指引第2部分：基本要求》这两个行业标准文件。假设其对应的旧行业标准是《金融行业网络安全等级保护测评指南》；针对每一份行业标准文件，提取文件二级目录中名称有含有“要求”这个关键词的文本信息；并通过python-Levenshtein工具包遍历所述第一目录及所述第二目录中每一行目录的编辑距离，计算编辑距离小于2的子目录情况，比如，《金融行业网络安全等级保护测评指南》中提取的文本信息包括：6第二级测评要求、7第三级测评要求、8第四级测评要求中三个二级目录下的所有文本信息；而《金融行业网络安全等级保护实施指引第2部分：基本要求》中提取的文本信息包括：7第二级安全要求、8第三级安全要求、9第四级安全要求中三个二级目录下的所有文本信息。根据“第二级要求”下面都包括四个点，对于《金融行业网络安全等级保护实施指引第2部分：基本要求》分别是：安全通用要求、云计算安全扩展要求、移动互联网安全扩展要求、物联网安全扩展要求；而对于《金融行业网络安全等级保护测评指南》分别是：安全通用测评要求、云计算安全测评扩展要求、移动互联网安全测评扩展要求、物联网安全测评扩展要求；根据“安全通用要求”下的目录包括：安全物理环境、安全通信网络、安全区域边界等等；根据所述安全物理环境，两份行业标准的物理位置文本信息如下：7.1.1.1物理位置选择本项要求包括：a)机房场地应选择在具有防震、防风和防雨等能力的建筑内。b)机房场地应避免设在建筑物的顶层或地下室，否则应加强防水和防潮措施。6.1.1.1物理位置选择测评单元(L2-PES1-01)该测评单元包括以下要求：a)测评指标：机房场地应选择在其有防震、防风和防雨等能力的建筑内。b)测评对象：记录表单类文档和机房。c)测评实施包括以下内容：1)应核查所在建筑物是否具有建筑物抗震设防审批文档。2)应核查机房是否不存在雨水漏。3)应核查机房门窗是否不存在因风导致尘土严重的情况。1)应核查屋顶、墙体、门窗和地面等是否没有破损开裂。d)单元判定：如果1)～-4)均为肯定，则符合本测评单元指标要求，否则不符合或部分符合本测评单元指标要求。测评单元(L2-PES1-02)该测评单元包括以下要求：a)测评指标：机房场地应避免设在建筑物的项层或地下室，否则应加强防水和防潮描施。b)测评对象：机房。c)测评实施：应核查机房是否不位于所在建筑物的顶层或地下室，如果否，则核查机房是否采取了防水和防潮措施。d)单元判定：如果以上测评实施内容为肯定，则符合本测评单元指标要求，否则不符合本测评单元指标要求。《金融行业网络安全等级保护测评指南》中的要求标准是包含了《金融行业网络安全等级保护实施指引第2部分：基本要求》里面的所有内容，得到《金融行业网络安全等级保护测评指南》中包含了《金融行业网络安全等级保护实施指引第2部分：基本要求》所有要求，目录重叠比例超过预设值80％。导致系统判定这两份行业标准过于相似。从而无法区分。如果不加以区分，系统以《金融行业网络安全等级保护实施指引第2部分：基本要求》进行解析并且提取文本的信息进行更新行业标准操作。将会直接导致更新错误。

S3：预设文本匹配规则对需要更新的行业标准文件进行结构化抽取，得到结构化标准数据，包括：

所述结构化标准统一预设规则表示为：{[行业标准字段名称],[对应的评分标准内容]}，所述非网络安全类型为无法通过测试自动测试安全评分的类型，所述可自动测试网络安全类型是指可以通过测试系统自动测试安全评分的类型。所述结构化抽取具体实施如下：

基于《信息安全技术基于IPv6的高性能网络审计系统产品安全技术要求》行业标准文本，利用语法分析技术从所述文本信息中提取字段信息特征；其中，所述字段信息特征包括字段类型、字段类型对应字段内容。对于这份行业标准文件，提取的文本信息，是在其第一级标题中标题包含“要求”关键字的所有文本信息。过滤掉其他不需要的一级标题文本信息。如一级标题分别有：“安全功能要求”、“环境适应性要求”、“性能要求”、“安全保障要求”。而对于每个二级标题，抽取其对应的最后一级子主题的标题作为特征值里面的其中一个键，而其文本信息对应的要求作为这个键所对应的值。“安全功能要求”这个模块，会发现这份行业标准文档中标准要求信息既包括了非网络安全类型的，也包括可自动测试网络安全类型的。其中的“信息采集”、“数据还原”、“管理控制要求”、“安全管理”、“数据存储”这五个模块，抽取到的文本信息向量化后都是属于非网络安全类型。而剩下的“审计记录统计”、“审计记录分析处理”、“标识与鉴别”、“审计日志”这四个模块的文本信息向量化后都是属于可自动测试网络安全类型的。具体如下:对于非网络安全类型，“数据存储”，根据其最后一级标题，抽取到的键有：“存储介质”、“数据删除”、“备份与恢复”等等。文本信息标准化处理之后的数据格式如下：{‘数据删除’：[a)应能够记录删除行为的基本信息，包括时间日期、操作人、删除内容描述，b)能够设置策略自动删除超过保存时限的数据]，‘数据删除评分标准’：[a)不能够记录删除行为的基本信息，包括时间日期、操作人、删除内容描述，扣1分，b)不能够设置策略自动删除超过保存时限的数据，扣1分]}{‘备份与恢复’：[IPv6网络审计产品应提供审计记录备份与恢复功能]，‘备份与恢复评分标准’：[IPv6网络审计产品没有提供审计记录备份与恢复功能，扣1分]} 对于可自动测试网络安全类型，“审计记录分析处理”，根据其最后一级标题，抽取到的键有：“关联分析”、“异常分析”、“响应警告”等等。文本信息标准化处理之后的数据格式如下：{‘异常分析’：[a)能够预定义异常事件，能够对某个时间段内发生的次数或频域达到某个阈值或某种流量达到阈值时触发报警,b)能够基于关联分析功能的结果定义异常行为，对系统的异常行为触发报警,c)其他异常情况]，‘异常分析评分标准’：[a)能够预定义异常事件，能够对某个时间段内发生的次数或频域达到某个阈值或某种流量达到阈值时触发报警，扣1分,b)能够基于关联分析功能的结果定义异常行为，对系统的异常行为触发报警，扣1分,c)其他异常情况，扣1分]}{‘关联分析’：[a)基本信息关联，包括基于时间、事件、源IP地址、源端口地址、目的IP地址、服务类型、网络协议等采集信息,b) 统计关联，利用数据发掘算法等方法统计不同网络事件间的进行关联分析],‘关联分析评分标准’：[a)没有基本信息关联，包括基于时间、事件、源IP地址、源端口地址、目的IP 地址、服务类型、网络协议等采集信息，扣0.5分,b)没有统计关联，利用数据发掘算法等方法统计不同网络事件间的进行关联分析，扣0.5分]}{‘响应警告’：[a)产品应支持策略设置触发告警，b)应能记录告警，内容应包括：日期、时间、事件主体、事件课题、事件的级别、事件描述、告警次数、事件结果，c)告警方式应至少支持邮件告警、SNMP trap 告警、声光电告警、短信告警等方式中的一种],‘响应警告评分标准’：[a)产品不能支持策略设置触发告警，扣1分，b)不能记录告警，内容应包括：日期、时间、事件主体、事件课题、事件的级别、事件描述、告警次数、事件结果，扣1分，c)告警方式没有至少支持邮件告警、SNMPtrap告警、声光电告警、短信告警等方式中的一种，扣1分]}。

S4：通过将所述结构化标准数据与故障原因关键词匹配获取所述结构化标准数据包含的故障原因；并通过机器学习的方法对所述故障时间平均风险等级、所述通过机器学习的方法对所述故障时间平均风险等级、所述故障导致经济损失的平均风险等级赋予不同的权重，计算系统故障基于行业特点的综合风险等级，最终输出所述行业系统故障的综合风险等级表，包括：

如所述系统最影响故障时间的故障原因是数据中毒，则对应字段是数据完整性缺失，根据所述系统数据库的历史表，使用Learning to Rank排序算法，对系统故障导致的经济损失进行从大到小的排序，得到所述故障导致的经济损失顺序表，根据所述系统故障时间顺序表预设5个故障时间阈值，根据所述故障时间阈值将故障时间分为5个区间，同一个区间内的的系统故障为同一个风险等级，共5个风险等级，根据所述系统故障所处的区间得出该系统故障的故障时间风险等级，最终得到故障时间的风险等级表，根据所述系统故障导致的经济损失顺序表，预设5个经济损失阈值，根据所述经济损失阈值将经济损失分为5个区间，同一区间内的的系统故障视为同一风险等级，共5个风险等级，根据系统故障所处的区间得出该系统故障的经济损失风险等级，最终得到故障导致经济损失的风险等级表；

考虑故障时间、故障导致的经济损失情况，对各个故障原因在所述行业各系统所处的风险等级求平均，得到所述各个故障原因在所述行业系统的故障时间平均风险等级和所述故障导致的经济损失的平均风险等级，根据历史表中故障原因所对应的字段，获取所述行业每一个字段的平均风险等级，最后以表格的方式输出，所述表格为所述行业在考虑故障时间、故障导致的经济损失的两个平均风险等级表；

所述综合风险等级表包括故障原因、字段和综合风险等级，如在金融服务行业，所述金融服务行业侧重考虑经济损失因素，如故障时间因素的重要性相对较低，则对故障导致经济损失赋予较高的权重，获取到需要更新的行业标准文本，通过评估新旧标准文本之间的差异性、新旧评分标准文本之间的差异性，挖掘出差异性之间的映射关系，对这种映射关系建模，差异性包括两方面：1、不同时间下标准文本的变化程度2、评分标准的变化程度，标准文本的差异性特征也可以细分为三个方面：数值、程度副词和数量变化。例如：标准文本中的数值描述发生改变：旧标准文本：描述产品的安全功能应覆盖80％；新标准文本：描述产品的安全功能应覆盖90％。其变化在于数值特征从“80％”变化为“90％”。标准文本中的程度副词发生改变：旧标准文本：部分描述产品的安全功能；新标准文本：完全描述产品的安全功能。其变化在于程度副词特征从“部分”变化为“完全”。标准文本中的数量发生改变：旧标准文本：开发者应提供完备的功能规范说明，功能规范说明应满足以下要求：a)完全描述产品的安全功能；b)描述所有安全功能接口的目的与使用方法；c)标识和描述每个安全功能接口相关的所有参数；d)描述安全功能接口相关的安全功能实施行为；e)描述由安全功能实施行为处理而引起的直接错误消息；f)描述安全功能要求到安全功能接口的追溯；新标准文本：开发者应提供完备的功能规范说明，功能规范说明应满足以下要求：a) 完全描述产品的安全功能；b)描述所有安全功能接口的目的与使用方法；c)标识和描述每个安全功能接口相关的所有参数；d)描述安全功能接口相关的安全功能实施行为；e) 描述由安全功能实施行为处理而引起的直接错误消息；f)描述安全功能要求到安全功能接口的追溯；g)描述安全功能实施过程中，与安全功能接口相关的所有行为；其变化在于标准的数量从“6”增加到“7”。

通过差异性评估系统识别更新行业标准内容，所述差异性评估系统包括特征识别模型，包括：通过实体识别模型识别去所给文本中的“特征”实体，如：“明天就是中秋节了”，“中秋节”就是一种“节日”实体。涉及信息安全领域的行业标准和评分标准所述特征识别模型是实体识别模型，能识别出所给定文本中的实体词，所涉及的文本具有较强的规律性，将训练样本中的实体特征取出来，建立特征词词典，对序列进行标注，利用正则匹配的方法识别实体，以识别“描述产品的安全功能应覆盖90％”中的特征为例：首先对该句子进行分词[描述产品的安全功能应覆盖90％]，接着用词性标注工具进行标注，标注的规则是如果该词在特征词词典中，则标注为E，其余的就按照词性标注工具中所给出的词性进行标注，得到的序列为[V N DET N ADV V E]；利用该模型对待处理的行业标准文本和评分标准文本进行特征识别，利用LSTM网络对已经识别出特征的文本进行编码，通过多层感知机对LSTM编码后的句子进行非线性变化，实现对特征的语义理解，将标注的序列作为特征和标签一起输入到LSTM网络中进行训练，其中输出维度取50，激活函数取tanh，再加入0.5的Dropout层，激活函数为softmax的全连接层，优化器采用adam，监控指标采用准确率，所述特征识别模块识别出所给行业标准文本“描述产品的安全功能应覆盖90％”和评分标准文本“描述产品的安全功能应覆盖若只达到80％，扣1分；描述产品的安全功能应覆盖若只达到70％，扣2分；不足70％，扣5分(满分5分)”，识别出数值特征后，利用文本理解模块，对识别的特征进行语义理解，实现对此类行业标准文本和评分标准文本之间的映射关系进行建模。例如：行业标准数值特征的变化与评分标准的变化程度存在相关性，当行业标准的数值特征从“80％”调整到“90％”时，相应的评分标准数值特征也从“80％”变为“90％”，其变化的特点在于两个特征的变化具有一致性。

S5：通过自动测试系统，根据标准文本的结构化标准数据对目前需要测试的网络环境进行自动测评，得到测评分数p1，评审员人工对目前需要测试的网络环境进行测评，得到测评分数p2，包括：

S6：若更新标准文本不准确则获取每个差异点的字段信息，将差异点的字段信息与所述平均风险等级表中的对应字段进行匹配，在所述差异点的故障时间、故障导致的经济损失的两个角度进行匹配，获得所述差异点在故障时间、故障导致的经济损失的两个角度的平均风险等级，根据平均风险等级利用排序算法排序，得到所述差异点的平均风险等级顺序表；评审员根据所述差异点的平均风险等级顺序表进行人工审查，包括：

Claims

1.一种系统评分覆盖度调优方法，其特征在于，包括：

根据所述标准文本数据得出第一目录和第二目录，通过 python-Levenshtein工具包遍历所述第一目录及所述第二目录每行目录的编辑距离，所述编辑距离小于 2 的子目录的个数占所述第一目录的子目录个数的比例作为目录重叠比例；根据所述目录重叠比例得到怀疑更新标准；

2.根据权利要求1所述的一种系统评分覆盖度调优方法，其特征在于：所述通过爬虫框架webmagic爬取行业标准网上信息安全相关的的标准文本数据作为原始数据，包括：根据种子链接抽取目标链接并放入待爬取队列，从页面中解析并下载所述标准文本数据，webmagics 使用Jsoup 组件来解析html 页面，将提取出来的所述标准文本数据以文本文件格式存放并存入数据库。

3.根据权利要求1所述的一种系统评分覆盖度调优方法，其特征在于：所述根据标准文本数据得出第一目录和第二目录；通过 python-Levenshtein工具包遍历所述第一目录及所述第二目录每行目录的编辑距离得到目录重叠比例，包括：

根据所述标准文本数据获取一篇所述标准文本数据作为第一标准文本数据，遍历除所述第一标准文本数据其他标准文本数据，遍历时将剩余所述其他标准文本数据中一篇所述标准文本数据作为第二标准文本数据，所述第一标准文本数据的目录中包含“要求” 二字的目录作为所述第一目录，所述第二标准文本数据的目录中包含“要求” 二字的目录作为所述第二目录，并通过 python-Levenshtein 工具包遍历所述第一目录及所述第二目录中每一行目录的编辑距离，计算编辑距离小于 2 的子目录的个数占所述第一目录的子目录个数的比例作为所述目录重叠比例，当所述目录重叠比例超过预设值时，将所述第二标准文本数据作为所述第一标准文本数据的怀疑更新标准。

4.根据权利要求1所述的一种系统评分覆盖度调优方法，其特征在于：所述通过将所述结构化标准数据与故障原因关键词匹配获取所述结构化标准数据包含的故障原因；并通过机器学习的方法对所述故障时间平均风险等级、所述通过机器学习的方法对所述故障时间平均风险等级、所述故障导致经济损失的平均风险等级赋予不同的权重，计算系统故障基于行业特点的综合风险等级，最终输出所述行业系统故障的综合风险等级表，包括：

收集系统正常运行下的状态信息，所述状态信息包括：系统响应状态、网络设备状态、数据库状态，建立故障原因和故障状态的映射关系表，通过对系统输入预设故障原因得到系统预设故障状态，建立所述预设故障原因和所述系统预设故障状态的映射关系，根据状态信息获取当前系统故障状态, 通过字符串编辑距离的方法计算所述当前系统故障状态与系统预设故障状态中预设故障状态名称的相似度，当所述当前系统故障状态与所述系统预设故障状态中预设故障状态名称匹配程度高于所设相似对阈值时，得到所述当前系统故障状态对应的该系统预设故障状态，根据所述预设故障原因和该系统预设故障状态的映射关系，获得所述系统故障的故障原因，获取所述系统中出现故障的情况、所述故障情况包括故障时间、故障导致的经济损失、故障导致的信誉损失，所述故障情况保存在数据库的历史表中，对所述结构化标准数据与故障原因的关键词匹配，所述故障原因的关键词与所述结构化标准数据的匹配程度高于所述特定阀值时，认为所述结构化标准数据包含所述故障原因，将所述结构化标准数据保存在数据库的历史表中；

5.根据权利要求1所述的一种系统评分覆盖度调优方法，其特征在于：所述通过自动测试系统，根据标准文本的结构化标准数据对目前需要测试的网络环境进行自动测评，得到测评分数p1，评审员人工对目前需要测试的网络环境进行测评，得到测评分数p2，包括：

根据获取的更新标准文本的结构化标准数据对目需要测试的网络环境进行自动测评，得到测评分数p1；评审员人工对目前需要测试的网络环境进行测评，得到测评分数p2；所述需要测试的网络环境是指需要进行网络安全环境测评的信息系统；所述自动测试系统是内预设软件自动测试工具，通过所述标准文本的结构化标准中的行业标准字段名称或对应的评分标准内容对网络环境进行自动测评得到测评分数；所述评审员人工对目前需要测试的网络环境进行测评，包括：将所述获取的更新标准文本的结构化标准数据以及新旧评分标准文本之间的差异性，挖掘出这两种差异性之间的映射关系推送给所述评审员，辅助评审员人工对网络环境进行测评；对比p1 与p2 两者之间的结果是否一致，根据对比结果处理更新的标准文本；如果一致，判断更新标准文本准确，对更新的标准文本及对应的结构化标准数据进行入库；如果结果不一致，默认判断更新标准文本字段更新错了导致评分差别。

6.根据权利要求1所述的一种系统评分覆盖度调优方法，其特征在于:所述若更新标准文本不准确则获取每个差异点的字段信息，将差异点的字段信息与所述平均风险等级表中的对应字段进行匹配，在所述差异点的故障时间、故障导致的经济损失的两个角度进行匹配，获得所述差异点在故障时间、故障导致的经济损失的两个角度的平均风险等级，根据平均风险等级利用排序算法排序，得到所述差异点的平均风险等级顺序表；评审员根据所述差异点的平均风险等级顺序表进行人工审查，包括：