CN109857835B

CN109857835B - 一种基于认知诊断理论的自适应网络安全知识测评方法

Info

Publication number: CN109857835B
Application number: CN201811616366.6A
Authority: CN
Inventors: 齐斌; 王宇; 李冀兴
Original assignee: Beijing Hongshan Ruida Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Beijing Hongshan Ruida Technology Co ltd; National Computer Network and Information Security Management Center
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2021-04-02
Anticipated expiration: 2038-12-28
Also published as: CN109857835A

Abstract

本发明公开了一种基于认知诊断理论的自适应网络安全知识测评方法，该基于认知诊断理论的自适应网络安全知识测评方法包括如下步骤:S1：测评系统根据用户的身份背景生成网络安全知识图谱，并根据知识结构按照预定顺序对用户进行测试；S2：所述测试系统根据用户上传的个人身份背景信息按照特定格式生成个人基本信息数据库；S3：测试系统按照知识图谱结构顺序遍历进行逐项测试，基于相应难度标准的试题抽取实现了对用户知识水平的精确定位。本发明通过用户在测试上的实时反馈获得潜在知识状态，利用新型认知诊断模型PH‑DINA高效推理用户的真实知识、技能水平以及相应短板，实现了高效、准确的教育评估，更好地反映用户的学习状况。

Description

一种基于认知诊断理论的自适应网络安全知识测评方法

技术领域

本发明涉及网络安全领域，具体而言，涉及一种基于认知诊断理论的自适应网络安全知识测评方法。

背景技术

近年来网络攻击事件频发，人员作为网络空间安全链条的薄弱环节，所遭受的风险远远大于技术，因而造成的损失也越来越大。

当前网络安全意识测评方式仅有知识考核和模拟测评两类较为独立的方案，尤其是知识考核问题，主要是采用集体试卷等传统考试方式，这种方式很难有效判别被试的知识掌握程度，水平低的人员根本无法作答难度大的题目，水平高的人员作答简单题目又测不出真实水平。另外，测试结果对于人员提升网络安全意识、网络安全知识的指导意义极低，无法准确测量人员网络安全意识和知识的短板，也无法体现人员网络安全意识的真实强度。

发明内容

本发明的目的在于提供一种基于认知诊断理论的自适应网络安全知识测评方法，该基于认知诊断理论的自适应网络安全知识测评方法包括如下步骤:

S1：测评系统根据用户的身份背景生成网络安全知识图谱，并根据知识结构按照预定顺序对用户进行测试；

S2：所述测试系统根据用户上传的个人身份背景信息按照特定格式生成个人基本信息数据库，基于个人基本信息数据库，系统可综合检索所在领域的网络安全标准和《网络安全法》配套法律法规，校验通过后生成定制化知识图谱；

S3：测试系统按照知识图谱结构顺序遍历进行逐项测试，基于相应难度标准的试题抽取实现了对用户知识水平的精确定位。

优选的，S2中个人基本信息数据库包括用户名、邮箱、工作领域、所在单位名称、工作岗位、网络安全从业经历，系统通过对“工作领域、所在单位、工作岗位”进行逐级检索相关网络安全标准及规范，并抽取相适应的标准条款作为测试评估指标；所述测评系统采用自然语言处理系统挖掘相关标准规范的潜在联系特征和模拟量化标准，形成定制化的评估标准体系架构；所述特征还包括自然语言处理系统对相关标准和规范性文件根据固定格式搭配“内容+标准”抽取评估标准信息，并利用关键词检索匹配网络安全知识体系及网络安全知识库模型中存在的知识点，将知识点按照模型结构重新组合成用户的定制化网络安全知识网。

优选的，测评系统对定制化网络安全知识网进行基于逻辑的知识推理，将复杂知识网进行融合和加工，构建个性化的网络安全知识图谱；

所述知识推理，即计算相似知识点对于所在知识族群的信息熵，选取最大熵值的知识点作为输出结果，其余相似知识点舍去，从而生成结构稠密的网络安全知识图谱，再通过计算与网络安全知识库模型的相似度，选取相似度最高的知识图谱作为最终结果，并根据知识点具体内容索引试题库。

优选的，所述测试系统根据用户的作答情况对用户的知识属性进行预测和校正并实时调整下一道测试题目的类型及难度等，循环测试直至估计误差小于定值，最终输出用户的知识属性模式值；所述测试系统根据用户上传的个人信息评估用户的初始知识属性值，并根据所在领域的网络安全规范要求校正所选试题库的试题属性参数；所述测试系统根据选题策略，按照网络安全知识图谱的顺序对用户进行试题抽取，并根据试题作答结果反馈估计用户的知识属性模式，进而抽取相应的测试题校正用户的知识属性值；所述测试系统循环执行用户的知识属性参数估计，直至知识属性误差值小于定值，将最后一次估计值输出，为用户的网络安全知识属性模型。

优选的，所述测试系统根据用户上传的个人信息确定用户应具备的网络安全知识，并采用边际贝叶斯估计或极大似然估计法对被试的知识属性进行初始参数估计，知识属性参数值为每一具体考察属性的值的集合，通过最大后验估计和期望后验估计两个过程估计知识属性参数；在假定已知知识属性参数的条件下，从试题库中选取具有考察知识属性功能的试题，并采用MCMC算法估算出相应的试题属性参数，试题参数包括该项目所考察的全部知识属性及对应难度指标，可再将两个参数中一个条件估计的结果作为另一个条件估计的参数，如此反复执行EM迭代算法形成训练模型，使得全部参数收敛并逼近真值，形成较为成熟的试题项目属性Q矩阵。

优选的，所述测试系统的选题策略采用基于PMF协同过滤和认知诊断模型的试题抽取策略；测试系统根据试题当前作答结果，采用基于多级属性评分的认知诊断模型的似然函数估计法对用户的知识属性模式进行校准和再估计，并将估计的知识属性参数作为试题选题策略的输入条件，系统根据得分概率模型计算该知识属性模式在备选试题中的得分概率，同时将该知识属性对试题的先验概率和后验概率作为输入条件，计算PH_HKL信息量值，将能够使PH_HKL信息量值最大的试题参数及编号作为抽取试题。

优选的，基于PMF协同过滤和认知诊断模型的试题抽取策略，以及PH_HKL信息量函数推荐试题指标；所述测试系统根据试题当前作答结果，采用基于多级属性评分的认知诊断模型的似然函数估计法对用户的知识属性模式进行校准和再估计，将被试的知识属性估计参数和待测试题库的考察属性参数通过PMF模型分解为知识属性模式潜在因子和试题参数潜在因子的先验概率，据此预测用户在测试题目上的得分，最后通过信息量函数实现在自适应测试过程中动态推荐试题，进而精准评估被试的知识水平；所述PH_HKL信息量函数，将不同属性状态的用户在待测试题上得分的反应概率、用户知识属性在测试题目上的后验概率和先验概率以及不同被试的知识状态间的相似性作为函数输入条件，计算信息量函数值并进行排序，输出能够使函数值最大的试题项目作为最优试题推荐。

优选的，所述测试系统循环执行用户的知识属性参数估计，直至满足终止条件，将最后一次估计值输出，作为用户的网络安全知识属性模型；所述终止条件包括测试的终止条件，包括：假使用户的知识属性估计值持续(≥3)高于某一定值，且自适应调整的下一试题项目出现作答错误，则可以终止测试，并最终输出用户的知识属性模式及其值域；所述终止条件包括：参数估计精度的指标小于定值，通过计算估计值与真值的平均绝对偏差以及计算偏移均方根的平均值，当小于测试设置的定值，即可终止测试，并输出最后一次用户知识属性参数的估计值。

优选的，系统根据用户的全部测试作答结果生成用户的知识水平评估报告并针对知识短板提供定制化的培训教育方案；所述测试系统根据用户的知识属性掌握模式同用户所在工作领域、工作单位、工作岗位的网络安全知识掌握要求进行对比，评估用户对于工作岗位的风险即威胁，将不满足工作要求的知识点作为该用户的知识短板，从试题库中将相应的补缺内容详解抽取推送，输出该用户的评估报告；所述测试系统根据待测人员所在单位的全部测试人员的知识属性数据综合分析，统计分析整体人员共同缺失的网络安全知识作为集中培训要点内容，个别独立的知识点内容将单独推送给不同人员，以便于管理者及时知悉所在单位的人员的具体网络安全意识、知识掌握程度及风险，输出所在单位报告；所述测试系统将用户的测试数据及网络安全知识属性模式进行加密，并设置权限，仅由本人及单位相关责任人有权浏览；并将该用户的数据作为分析统计源，作为用户下一次自适应网络安全知识测试的试题参数和用户知识属性参数。

与现有技术相比，本发明的有益效果是：本发明通过用户在测试上的实时反馈获得潜在知识状态，利用新型认知诊断模型PH-DINA高效推理用户的真实知识、技能水平以及相应短板，实现了高效、准确的教育评估，更好地反映用户的学习状况，为教学提供反馈信息。

附图说明

图1为计算机自适应测试流程图；

图2为人员安全知识库模型图；

图3为测试流程图；

图4为考核知识网的先序遍历示例；

图5为CDPMF模型图；

图6为滑动窗口选题策略图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

自适应网络安全知识测评方法概述

基于认知诊断理论的自适应测试技术，旨在将认知诊断理论同计算机自适应测试技术相结合，通过自适应调整测试题目从而高效的评估被试知识、技能等水平，准确分析出被试在知识结构中的短板，为自适应学习提供数据参考，其流程如图1所示。

被试在应用测试系统前，应先应进行必要的信息注册，通过必要的注册信息对角色进行较为精准的定位，并根据相应的网络安全指导规范性文件预计被试在各网络安全知识点上的应有掌握程度，作为抽取初始试题的参考。因为不同行业、不同岗位的职能对网络安全相关知识和技能的要求并不一致，因此，根据社会角色定位重新组合成适用的知识图谱或知识库模型，作为测试过程中试题抽取的数据库。

测试过程中，系统将根据被试每一题的作答情况及时记录和评估，同时进行被试在该知识点的能力参数矫正，从而根据新的能力参数抽取符合条件的试题，如此反复，直至符合测试终止条件才会转向下一个知识点的测试，而能力参数将被记录在个人作答数据库中作为下一周期反馈测试的初值。最后，综合全部知识点的掌握情况，准确评估个人网络安全知识状态。

基于认知诊断的计算机自适应测试技术流程中主要涉及了6个模块的研究重点，分别是认知诊断模型、题库建设、初始题目选择、选题策略、能力(知识状态)参数估计和终止规则。

知识图谱

知识图谱中自然语言处理方面

初始题目的选择可根据被试注册信息中的社会角色定位，确定其行业、岗位及其生活习惯，依据相应的网络安全规范和其他指导性文件，确定对被试的能力要求，及能力预估计参数。社会角色定位可采用两种方案并行，一是依据用户注册时填写的具体必要信息，包括工作领域、工作岗位、大致工作内容等，判断其主要社会角色定位，二是通过用户的公开社交信息，利用社交软件的公开API接口，采取基于社会网络和统计方法的关键词抽取技术辅助确定用户公开信息中的职业、兴趣、习惯等信息。进而通过社会网络信息补充用户的网络安全知识图谱中试题库选取的试题要素。

为降低系统整体的运算量，统计方法主要采用主流的简单统计TFIDF(termfrequency-inverse document frequency)及其改进。TFIDF算法的优点是简单快速，在社交软件中短文本的语言表达中结果比较符合实际情况。其中，TF称为词频，用于计算该词描述文档内容的能力；IDF称为逆文档频率，用于计算该词区分文档的能力。TFIDF方法的指导思想是一个合理性主题假设，即用户在一个文档中出现很多次的单词，在另一个同类型文档中出现次数不会少。以TF和IDF的乘积作为特征空间坐标系的取值测度，各项目的计算方法如下：

w_ij＝tfidf_ij＝tf_ij×idf_i

其中，n_ij是词t_i在文档d_j中的出现次数，|D|表示语料库中的文档总数，|D_i|表示语料库中包含词t_i的文档总数，w_ij表示词t_i在文档d_j中的权重(归一化)。

综上，根据角色定位后的能力要求，在其网络安全知识图谱中采用先序遍历测试的方式，取根目录下第一个知识点的满足能力参数的试题作为初始题目。初始题的选取会影响被试知识状态的估计和测试效率，在CD-CAT起始规则方面，考虑项目属性向量因素，采用基于预置能力参数的先认知诊断后估计能力的方法，通过属性层级递推估计。

为提高测试系统的健壮性、连贯性，减小因系统在测试过程中逐题计算参数而引发的庞大运算量，尽可能无法及时抽取题目，故引入滑动窗口策略。即根据初始能力值先在题库中选取参数匹配的m道试题，随后根据第一题的测试结果，估算其能力值并动态调整第m+1道试题的内容，如此往复，从而为系统运算提供了时间。

基于模糊集和相似度的图谱选择

定义存在知识图谱K＝{x₁,x₂,……,x_m}和知识图谱W＝{w₁,w₂,……,w_n}，则有W关于K的相似度为

其中，T(·)，s(·)分别表示是模糊集的t-模和s-模，采用“积”和“概率和”的形式将其具体化，即T(x,y)＝xy，s(x,y)＝x+y-xy。f(x_i,W)是W关于x_i的匹配度，μw(x_i)表示知识体系W中与x_i相匹配的元素完善度。g(K,W)是K相对于W的复杂性系数。ε为相似度调节系数，其作用是放大分子的计算数值便于相似度比较，权重ω_i范围在[0,1]之间，可利用聚类分析优化方法进行权重的优化。

匹配度f(x_i,W)是反映知识图谱同需求的匹配程度，其范围在[0,1]之间。当知识图谱W中存在的知识点元素若与xi完全匹配时f(x_i,W)＝1；若与xi完全不匹配时f(x_i,W)＝0，匹配度通常实在知识量的基础上进行对比分析。

完善度μw(x_i)是反映知识图谱满足用户要求的程度，通常采用模糊集和定义其数值。将知识图谱底层知识点{p₁,p₂...,p_n}上的一个模糊集定义为μ(p_i)：P→[0,1]，μ(p_i)即为知识点p_i的完善度。0表示该知识点不具有任何意义，数值越大表示该知识点信息越完善。

复杂性系数g(K,W)是对知识图谱复杂程度的比较，因为满足用户需求的知识图谱不一定只存在1种，通过对比图谱间的复杂度从而权衡选择。

当W复杂于K时，g(K,W)>1；当K复杂度不小于W时，g(K,W)＝1。

综上，相似度sml(·)是综合考虑知识图谱在“质”(完善度)、“量”(匹配度)和复杂性三个方面，具有如下性质：相似度函数是完善度和匹配度单增函数，是复杂性系数的单减函数；在复杂性系数为1的条件下，子集、交集的相似度不大于原集合的相似度，并集的相似度不小于原集合的相似度。

根据相似度相关性质，以相似度为核心的基于模糊集的知识图谱选择算法如下：

①根据行业规范要求对用户需求知识进行层次化处理，并映射至需求知识图谱R，又称参考知识图谱。例如，以R_ij代表i层第j个需求，映射到参考知识图谱的元素即为R_ij。根据相关参数，计算R的复杂度G(R)。

②计算参考知识图谱的知识量。由于可能存在某一需求同时对应多个知识点或某一知识点对应多个需求的情况，则此类需求知识点通过集合表示Kx_ij＝{Kx_ij1,Kx_ij2......}，测度为

为x_ij对应的知识点数目。根据度量公式(4)，可得知识图谱的知识量

③通过有监督学习的模糊关联聚类生成目标知识图谱K_i(i＝1,2……)，由于可能生成满足要求的多个知识图谱，则对生成的知识图谱做相应的交并运算，生成组合的知识图谱，再分别计算其复杂度，知识量和同R相比的相似度。

④根据相似度计算公式，在保证目标知识图谱相似于R的情况下，即生成的知识图谱满足用户需求(sml值尽可能大)，也可根据具体情况选择知识量较少或复杂度的较低的知识图谱，便于工程实现。

知识库模型

ACM SIGCSE2018国际会议上正式发布了网络空间安全学科知识体系(CSEC2017)，并将人员安全的重要性提升至最高层次，指明在软件安全、数据安全、组件安全等基础领域之上考虑人员安全，这既是符合现实意义也是体现人员网络安全重要性的理论支撑。人员安全知识领域主要关乎个人数据保护、个人隐私保护和安全威胁化解，也涉及用户的行为、知识和隐私对网络空间安全的影响。

人员安全知识库不仅需要本身独有的社会工程学等安全知识还应该包括数据安全、系统安全等职工应该掌握的知识和技能。但客观条件下，人员处在不同行业领域、不同职业岗位都会对个人安全知识掌握的内容、层次和程度产生很大的差别。因此，综合分析国内外现有的网络安全知识体系分类标准，结合具体行业领域规范，本文构建了基于“行业、岗位、人员”的知识库模型，如图2所示。

模型的核心是具体人员的知识分类和属性指标，人员需要掌握的安全知识内容可大致分为物理环境安全、上网安全、系统安全、应用安全、数据安全、社会工程学、法律规范、组织安全等八类顶层知识域，在不同的知识领域下仍然可根据内容再次划分位具体的知识点，并根据行业领域的客观要求赋予不同的权重。但因人员岗位的要求不同，即使是同一知识点也仍可根据诸如难度等指标继续分类，因此有必要将每一知识点都额外设置具体的属性指标，以便于知识的抽取和试题的分类补充。

测试题库是根据测试需求以知识库模型为模板先建立起个人的网络安全知识图谱，即基于具体人员角色的网络安全知识库，并根据相应知识点补充所属的不同类型的测试题，存在同一道测试题可考核多个知识点的试题类型，即每一道试题至少包含一个知识属性，则试题Q可表示为Q_j＝(q_j1，q_j2，......，q_jk)。其中j为测试题目的编号，k为题目j待考核知识点的最大数目，q_jk＝(0，1，2，...，n)表示第k个测试属性具有n个级别，若q_jk＝n≥1则代表考察难度为n的第k个知识属性，反之，q_jk＝0则代表不考察该知识属性。

自适应测试流程

只有当被试能力水平大于项目难度时，提供的信息量才最大，且测验结果的效度和信度以及被试接受测验的积极性均可有效提高，这就是我们在自适应测试中抽选试题的理论依据。CAT测试的优势在于可以根据实时测试的情况估计被试的能力参数，从而动态调整试题的难度，达到高效、快捷、准确的目的。测试算法流程如图3所示，据步骤进行组卷优化。

根据被试的行业、岗位和角色要求，依知识库选取相应的知识点生成知识考核网络，参考图论中二叉树的先序遍历算法，从而提高试题间的逻辑性，便于优化组卷，如图4所示。针对某一知识网络，为全面、综合考核被试的知识掌握水平及其能力，应尽可能遍历考核知识点，同时保证知识的连贯性，避免因打破知识间的逻辑而降低估计的收敛速度。

在项目参数初始值尚未确定时，一般可采用Mislevy的边际贝叶斯估计法，而能力参数估计不仅可以采用上述证明中应用的极大似然估计，也可以采用贝叶斯定理，通过最大后验估计和期望后验估计两个过程估计能力参数。假设ξ为项目参数向量，y(ξ)表示第i个项目参数的先验分布，f(θ)表示能力的先验分布，则有：

h(u|ξ,θ)∝L(u|ξ,θ)*y(ξ)*f(θ)

对(1)取对数，可以得到似然函数

通过对方程(2)求偏导，计算出能力估计参数。在假定已知能力参数的条件下，可估算出相应的试题参数。再将两个参数中一个条件估计的结果作为另一个条件估计的参数，如此反复执行EM迭代算法形成训练模型，使得全部参数收敛并逼近真值。

认知诊断模型PH_DINA

实际测试情景中，人们因为认知结构倾向不同，解决问题的认知加工过程也不一致，涉及的认知成分也不同，所以在实际测试中往往需要评估认知属性的等级。为提高诊断评价的准确性和计算效率，符合更加实际的复杂测试要求与测试环境，本文将P-DINA模型(Polytomous Deterministic Inputs,Noisy“And”gate model)拓展为基于多级属性评分的认知诊断模型，记为PH_DINA(Polytomous Hierarchical DINA)模型，并利用该模型验证参数估计方法和协同过滤选题策略。

认知诊断模型是认知心理学与心理计量学的产物，它不仅可以宏观评价个体心理特质水平，还可以诊断个体的认知加工特点，因而在教育测量学领域得到了广泛的拓展应用，其中因DINA(deterministic inputs,noisy“and”gate model)模型只涉及"失误"和"猜测"两个参数，比其他模型更加简洁、灵活和易于解释，因此得到了广泛的理论研究。

P-DINA^[4]是典型的非补偿模型，即要求被试必须掌握待测的全部技能或知识属性α_i才可被认定正确作答，项目所考察的技能或属性则全部被包含在待测项目q_j中，项目反应函数为：

P(Y_ij＝t|α_i)＝P^*(Y_ij＝t|α_i)-P^*(Y_ij＝t+1|α_i) (3)

P(Y_ij＝t|α_i)表示被试i在项目j上得t分的概率，P^*(Y_ij＝t|α_i)表示被试i在项目j上得t分及以上的概率，η_ij∈{0，1}表示被试在理想情况下(不考虑猜测和失误的情况)作答的结果得分。s_j＝P(Y_ij＝1|η_ij＝1)是项目j的失误参数，指被试在掌握项目j考核的属性下仍答错的概率，g_j＝P(Y_ij＝1|η_ij＝0)为项目j的猜测参数，指被试在尚未完全掌握项目j考核的属性下答对的概率。

公式4的猜测参数和失误参数需满足要求：s_jt≤s_jt+1，即对于需要掌握项目j考核属性的被试而言，得t分的失误概率要小于t+1分的失误概率；g_jt≥g_jt+1，即对未全部掌握项目j考核属性的被试而言，猜对t分的概率要大于猜对t+1分的概率，从而保证了被试答对的概率恒不为负。

公式5中K表示测试属性的数量，α_i＝(α_i1，α_i2，...，α_ik|α_ik＝{0，1})表示被试i对各个属性的掌握情况，α_ik＝1说明被试i掌握了k属性，反之为0则未掌握；q_j＝(q_j1，q_j2，...，q_jk|q_jk＝{0，1})表示项目j对各个属性的考察，q_jk＝1说明项目j考察了属性k，反之为0则未考察。

为适应网络安全等领域的复杂知识结构和匹配的网络安全知识库模型，本文引入属性层级(Hierarchical)的概念。属性多级的Q矩阵可以进行任意整数赋值，如q_jk＝3则代表项目j考察指标为3的k属性，α_ik＝2则代表被试i掌握了k属性的第2层次。如果被试要正确作答项目则需要掌握考核属性指标水平及其以上的层次，如项目j测量的属性p_j＝(1，3，2)，属性A1、A2、A3分别具有2、3、3种层次，则被试掌握的属性模式α_i＝{(1，3，2)|(2，3，2)|(1，3，3)|(2，3，3)}才可能答对项目j。

对于属性多级模型，α_ik和q_jk的取值共有L_k种，即属性k的层级计有L≥2种，因此如果属性k数值为非0-1元素，则理想反应得分η_ij和项目反应函数不再适用，且增加了参数估计的难度和计算量。为了保持认知诊断模型的简洁性和易解释性，需要通过Discriminant函数将多级α、q转换为0-1元素。Discriminant函数如下所示：

模型此时虽然实现了属性多级化的计算处理，满足了多级属性的客观考察要求，但观察得分同理想得分仍然无法对应，所以为进一步描述被试掌握属性模式对项目的真实反馈，利用Weight函数将公式5拓展为多级理想得分函数：

其中，ω_jk是项目j考察属性中k属性所占的权重，

为被试i在项目j上掌握属性的比例，mf_j是第j题目的满分值。为便于参数估计，降低模型的计算规模，结合上述改进方案将公式4转化为：

上述公式3、7、9即为PH-DINA模型的项目反应概率函数。与P-DINA模型相比，PH-DINA模型不仅增加了被试和项目多级属性指标的运算，还拓展了理想反应得分η_ij的计算方法，增加了项目的实际考察范围和反馈的信息量。

知识属性参数估计及试题参数估计

计算机自适应测试的参数估计一般包括被试知识属性条件估计和项目参数条件估计。本节结合PH-DINA模型的知识属性参数改进了极大似然估计算法，为优先保障项目参数的准确性，结合属性等级改进了MCMC估计算法。

假设L(Y_i|α)是被试i在多级属性评分下的似然函数，则有

因此PH-DINA模型的似然函数为：

其中u_ijt＝{0，1}指被试i在项目j上得t分得事实判断，则被试i的知识属性的极大似然估计计算公式为：

对于项目参数估计中的s、g而言，精确度是首要考虑要素，且项目参数的精确与否将会直接影响被试知识属性的判准率，因此选用MCMC算法对其进行估计。

根据Beyes定理，待估参数的近似满条件分布：

P(s，g|Y，α)∝L(s，g|α)P(s)P(g)

因此

从均匀分布

中随机抽取，

从均匀分布

中随机抽取，现假定δ_s＝δ_g＝0.1，则参数转移概率公式为：

由于仅需要估计PH-DINA模型的项目j参数，假设N为参与测试的总人数，因此有效似然函数为：

CDPMF选题策略

直接应用基于认知诊断的自适应选题和基于协同过滤的试题推荐方法均存在一定的不足，前者对内在因素衡量的不确定性会提高参数估计的计算量，后者忽略了被试个体的独立性导致可解释性弱、个性化差。因此本文在计算机自适应测试的应用场景下，提出了基于概率矩阵分解和认知诊断的试题推荐方法，记作CDPMF。方法先利用认知诊断理论分析被试潜在知识属性，再通过PMF模型进行得分预测，最后通过信息量函数实现在自适应测试过程中动态推荐试题，进而精准评估被试的知识水平，方法具体内容如下。

被试得分预测

根据上述认知诊断模型，可准确估计出被试的认知属性结构，包括具体掌握的属性等级指标，直接用于概率矩阵分解。将同领域同岗位n个被试的答题情况构建成得分矩阵A，A_ij指被试i对项目j的作答情况，从而提出特征参数b_ij作为PMF的先验信息，矩阵A和特征参数计算公式如下：

其中，b_i表示被试i的知识得分先验程度，描述了被试间知识掌握程度的差异性，即矩阵A第i行的平均值；b_j表示试题j的先验得分，描述了项目之间的属性级别差异性，即矩阵A第j列的平均值。

引入被试和项目的先验参数b_i、b_j后，可利用CDPMF模型对其作答情况进行建模，模型示意图如图5所示，在该模型框架下被试的潜在作答情况可由下式表示：

其中μ是总体平均得分，ρ∈[0,1]表示共性特征和被试独立属性掌握模式之间的比例参数，ρ值越大则预测得分由认知诊断模型影响越大，ρ值越小则预测得分受共性特征影响较大，ρ＝0时则代表不引入认知属性状态，方法退化为PMF模型。通过在概率矩阵分解中加入被试的认知属性掌握模式，可以使PMF分解出低维度的潜在因子被试特征矩阵M、测试项目特征矩阵N，其中M∈Z^L×I、N∈Z^L×J且M_i和N_j分别表示特定被试i和试题j的潜在特征向量以刻画被试及试题在低维空间下的表现，则被试对项目的得分R′_ij应满足条件分布：

CDPMF模型中被试的得分预测由整体平均值、试题先验、被试先验和被试-试题四个部分交互组成，每一部分都可对观察值的某一属性进行解释。其中N(x|μ，σ²)是均值为μ、方差为σ²的高斯分布概率密度函数，则被试和项目的特征向量也应同时满足均值为0的高斯分布：

通过贝叶斯推论，则特征向量的后验概率应为

为便于CDPMF模型在试题推荐中的实际应用，其优化目标可变为最小化函数公式，λ是模型的正则化系数：

另外，为解决协同过滤中存在的“冷启动”问题，避免因新被试和新试题的出现干扰试题推荐，可通过ρ＝1规避PMF模型的影响，当共性特征无法提取时，则完全利用认知诊断的选题策略进行试题推荐。基于认知诊断的自适应测试通过新被试或新试题的实际作答概况估计被试的能力参数和试题的属性参数，具体算法详见参数估计一节。为进一步确保参数估计的有效性，可根据用户需求和实际情况在“冷启动”测试后补充同等参数条件下的试题对被试能力估计水平进行校正。

试题抽取

计算机自适应测试中，CDPMF可根据被试潜在作答情况

向不同的被试推荐合适的试题。智能教育中自适应测试的目的不仅是评估被试的真实能力水平，更需要诊断其知识短板以便于及时查漏补缺或自我提升，所以试题的推荐不同于商品等项目可以按照被试的兴趣或者难度等级进行推荐，而是选择能够快速高效的反馈被试真实能力水平的试题。因此，只有当被试知识属性水平恰好在适应性范围内大于等于项目所考察的级别时，提供的信息量才最大，这就是自适应测试中试题推荐的理论依据。

知识属性往往是非连续性的，考虑到PH-DINA模型的参数多维性，本文选用KL(Kullback Leibler)信息量作为试题推荐指标，信息量越大越能证明被试的认知状态属于估计的属性模式，即选择同知识属性掌握模式相当的推荐试题。HKL选题策略因为对属性掌握模式有良好的区分度在自适应测试中得到广泛的应用，但因为原始公式面向的是二值函数，不适用于多级属性模式的计算，因此结合PHDINA模型对其进行拓展，记作PH-HKL试题推荐。参数估计所得的被试能力水平参数与试题属性参数作为输入，选择能够使PHHKL的信息量值最大的试题项目作为最优试题推荐。

PH-KHL信息量不仅考虑了后验概率加权，而且进一步考虑了被试之间知识属性的相似性，其计算公式为：

其中

P(Y_j＝t|α_c)指不同属性状态的被试在项目上得分的反应概率，π(α_c|Y_j)是指知识属性为α_c(c＝1,2…2^K)的后验概率，记p(α_c)为知识状态α_c的先验概率，则后验的概率公式为：

指不同被试的知识状态间的相似性，具体描述如下：

综上，基于协同过滤和认知诊断的试题推荐方法在进行试题抽取时，综合了被试的认知属性掌握模式的个性和同类型被试人员知识属性的共性，体现了被试当前的认知掌握模式等学习状态，符合复杂试题类型和多维知识属性的试题推荐环境，提高了试题推荐的准确度。

终止条件

为提高测试系统的健壮性、连贯性，本文提出了在b-CBUI方法的基础上建立数量为5的滑动窗口策略。即根据初始能力值先在题库中选取参数匹配的5道试题，随后根据第一题的测试结果，估算其能力值并动态调整第6道试题的内容，如此往复，从而为系统运算提供了时间。简单讲，就是根据第i题决定第i+5题的内容，形成滑动窗口，如图6所示。另外，可以根据系统的具体运算情况，更改每次调整试题的数量，但数量不得大于滑动窗口数目。调整试题若超过1道，试题的难度变化应控制在[d’-0.1,d’+0.1]，其中d’是依据临时估计的能力参数而选定的试题难度值。

5道试题的选择由于缺乏调整的可能性，为了保证能力估计参数计算的有效性，可首先确定初始难度d₀，则前5道题目的难度分别为[d₀-0.1，d₀-0.1,d₀,d₀+0.1,d₀+0.1],根据试题难度安排选取策略可以有效减少参数估计的运算量，进而提高组卷效率。

为降低高质量、高区分度试题的曝光率，引入了优先级的概念，即将某一知识点题库内的同一难度级别的试题进行优先级排序，由于知识库设置在云服务器上，不同被试调用的相应知识点的试题时，均选取优先级最高的试题，则被选取的试题优先级置0，其他试题的优先级均做“+1”运算，从而保障了试题内容的均衡问题、控制了曝光率，减小了测度误差。

测试的终止条件在一定程度上决定了测试的效率，目前终止条件一般有按照试题数目、测试时间和能力估计的标准差等方式，前者缺点是能力估计的精度较低，后者是测试可能过长。综合来看，测试终止条件可同时结合多种方法，如果能力估计值持续(≥3)高于某一定值，且根据能力参数调整的下一题出现作答错误，则可以终止测试，并最终估计其本次测试的能力值。若估计精度的指标小于定值，也可作为终止条件。两种方式无论哪一种先达到标准均可停止测试。

估计精度一般采用ABS(平均绝对偏差)和RMSD(平均偏移均方根)两个指标，具体公式如下：

其中，

是根据x_i的第r次测试计算的估计，x_i是模拟真值，K是测试题数量，R表示测试次数，测试方法中R＝1。ABS指标反映了估计与真值的平均偏差，RMSD指标反映了偏移均方根的平均，所以值越小，估计的准确性越高。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于认知诊断理论的自适应网络安全知识测评方法，其特征在于，该基于认知诊断理论的自适应网络安全知识测评方法包括如下步骤:

S3：测试系统按照知识图谱结构顺序遍历进行逐项测试，基于相应难度标准的试题抽取实现了对用户知识水平的精确定位；

所述测试系统根据用户的作答情况对用户的知识属性进行预测和校正并实时调整下一道测试题目的类型及难度，循环测试直至估计误差小于定值，最终输出用户的知识属性模式值；所述测试系统根据用户上传的个人信息评估用户的初始知识属性值，并根据所在领域的网络安全规范要求校正所选试题库的试题属性参数；所述测试系统根据选题策略，按照网络安全知识图谱的顺序对用户进行试题抽取，并根据试题作答结果反馈估计用户的知识属性模式，进而抽取相应的测试题校正用户的知识属性值；

所述测试系统循环执行用户的知识属性参数估计，直至知识属性误差值小于定值，将最后一次估计值输出，为用户的网络安全知识属性模型，所述测试系统根据用户上传的个人信息确定用户应具备的网络安全知识，并采用边际贝叶斯估计或极大似然估计法对被试的知识属性进行初始参数估计，知识属性参数值为每一具体考察属性的值的集合，通过最大后验估计和期望后验估计两个过程估计知识属性参数；在假定已知知识属性参数的条件下，从试题库中选取具有考察知识属性功能的试题，并采用MCMC算法估算出相应的试题属性参数，试题参数包括考察的全部知识属性及对应难度指标，可再将两个参数中一个条件估计的结果作为另一个条件估计的参数，如此反复执行EM迭代算法形成训练模型，使得全部参数收敛并逼近真值，形成较为成熟的试题项目属性Q矩阵，所述测试系统的选题策略采用基于PMF协同过滤和认知诊断模型的试题抽取策略；测试系统根据试题当前作答结果，采用基于多级属性评分的认知诊断模型的似然函数估计法对用户的知识属性模式进行校准和再估计，并将估计的知识属性参数作为试题选题策略的输入条件，系统根据得分概率模型计算该知识属性模式在备选试题中的得分概率，同时将该知识属性对试题的先验概率和后验概率作为输入条件，计算PH_HKL信息量值，将能够使PH_HKL信息量值最大的试题参数及编号作为抽取试题。

2.根据权利要求1所述的一种基于认知诊断理论的自适应网络安全知识测评方法，其特征在于，S2中个人基本信息数据库包括用户名、邮箱、工作领域、所在单位名称、工作岗位、网络安全从业经历，系统通过对“工作领域、所在单位、工作岗位”进行逐级检索相关网络安全标准及规范，并抽取相适应的标准条款作为测试评估指标；所述测评系统采用自然语言处理系统挖掘相关标准规范的潜在联系特征和模拟量化标准，形成定制化的评估标准体系架构；所述特征还包括自然语言处理系统对相关标准和规范性文件根据固定格式搭配“内容+标准”抽取评估标准信息，并利用关键词检索匹配网络安全知识体系及网络安全知识库模型中存在的知识点，将知识点按照模型结构重新组合成用户的定制化网络安全知识网。

3.根据权利要求1所述的一种基于认知诊断理论的自适应网络安全知识测评方法，其特征在于，测评系统对定制化网络安全知识网进行基于逻辑的知识推理，将复杂知识网进行融合和加工，构建个性化的网络安全知识图谱；所述知识推理，即计算相似知识点对于所在知识族群的信息熵，选取最大熵值的知识点作为输出结果，其余相似知识点舍去，从而生成结构稠密的网络安全知识图谱，再通过计算与网络安全知识库模型的相似度，选取相似度最高的知识图谱作为最终结果，并根据知识点具体内容索引试题库。

4.根据权利要求1所述的一种基于认知诊断理论的自适应网络安全知识测评方法，其特征在于，基于PMF协同过滤和认知诊断模型的试题抽取策略，以及PH_HKL信息量函数推荐试题指标；所述测试系统根据试题当前作答结果，采用基于多级属性评分的认知诊断模型的似然函数估计法对用户的知识属性模式进行校准和再估计，将被试的知识属性估计参数和待测试题库的考察属性参数通过PMF模型分解为知识属性模式潜在因子和试题参数潜在因子的先验概率，据此预测用户在测试题目上的得分，最后通过信息量函数实现在自适应测试过程中动态推荐试题，进而精准评估被试的知识水平；所述PH_HKL信息量函数，将不同属性状态的用户在待测试题上得分的反应概率、用户知识属性在测试题目上的后验概率和先验概率以及不同被试的知识状态间的相似性作为函数输入条件，计算信息量函数值并进行排序，输出能够使函数值最大的试题项目作为最优试题推荐。

5.根据权利要求1所述的一种基于认知诊断理论的自适应网络安全知识测评方法，其特征在于，所述测试系统循环执行用户的知识属性参数估计，直至满足终止条件，将最后一次估计值输出，作为用户的网络安全知识属性模型；所述终止条件包括测试的终止条件，包括：假使用户的知识属性估计值持续≥3，高于某一定值，且自适应调整的下一试题项目出现作答错误，则可以终止测试，并最终输出用户的知识属性模式及其值域；所述终止条件包括：参数估计精度的指标小于定值，通过计算估计值与真值的平均绝对偏差以及计算偏移均方根的平均值，当小于测试设置的定值，即可终止测试，并输出最后一次用户知识属性参数的估计值。

6.根据权利要求1所述的一种基于认知诊断理论的自适应网络安全知识测评方法，其特征在于，系统根据用户的全部测试作答结果生成用户的知识水平评估报告并针对知识短板提供定制化的培训教育方案；所述测试系统根据用户的知识属性掌握模式同用户所在工作领域、工作单位、工作岗位的网络安全知识掌握要求进行对比，评估用户对于工作岗位的风险即威胁，将不满足工作要求的知识点作为该用户的知识短板，从试题库中将相应的补缺内容详解抽取推送，输出该用户的评估报告；所述测试系统根据待测人员所在单位的全部测试人员的知识属性数据综合分析，统计分析整体人员共同缺失的网络安全知识作为集中培训要点内容，个别独立的知识点内容将单独推送给不同人员，以便于管理者及时知悉所在单位的人员的具体网络安全意识、知识掌握程度及风险，输出所在单位报告；所述测试系统将用户的测试数据及网络安全知识属性模式进行加密，并设置权限，仅由本人及单位相关责任人有权浏览；并将该用户的数据作为分析统计源，作为用户下一次自适应网络安全知识测试的试题参数和用户知识属性参数。