CN117332133A - 一种基于专家评分的数据分级方法 - Google Patents
一种基于专家评分的数据分级方法 Download PDFInfo
- Publication number
- CN117332133A CN117332133A CN202311343847.5A CN202311343847A CN117332133A CN 117332133 A CN117332133 A CN 117332133A CN 202311343847 A CN202311343847 A CN 202311343847A CN 117332133 A CN117332133 A CN 117332133A
- Authority
- CN
- China
- Prior art keywords
- data
- grading
- standard
- reference standard
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000003016 pheromone Substances 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 19
- 241000257303 Hymenoptera Species 0.000 claims description 18
- 230000008020 evaporation Effects 0.000 claims description 16
- 238000001704 evaporation Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 7
- 238000012804 iterative process Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 230000019771 cognition Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于专家评分的数据分级方法,涉及数据处理技术领域,包括步骤S1:确定进行数据分级的目标企业的初始数据分级标准并建立第一数据分级表;步骤S2:建立分级参考标准组用于输出参考数据分级结果;步骤S3:根据分级权重值分别计算出期望总分和参考标准组的专家总分,将期望总分与专家总分按照预设的期望分阈值进行对比;步骤S4:当专家总分符合期望分阈值范围时更新初始数据分级标准。通过使用有多个参考数据分级标准的参考标准组,能够使得企业在对非专业领域进行数据分级时避免因为缺乏明确定义的数据分级标准而盲目使用同一个常规的数据分级方法,使得企业在借助多领域数据分级标准时的效能得到明显提升。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于专家评分的数据分级方法。
背景技术
随着数字化转型的发展,互联网中积累了大量数据资产,这些数据资产包括个人身份信息、财务数据、医疗记录等敏感信息,需要有效的管理和保护。同时数据隐私和安全法规的不断出台,数据管理面临着更加严格的合规性要求。目前在面对各行业数据技术特性和数据安全事件危害程度均不同的情况下,以及在某些行业可能缺乏明确定义的数据分级标准的情况下,使用同一个常规的数据分级方法对不同行业进行数据分级管理时,容易存在对数据的重要或危害程度的认知差异,导致数据分级方法在各行业的通用性和合规性不足,在落实数据分级工作时存在类别定级模糊不准确的问题。例如医疗保健行业的数据特征主要包含机密的医疗诊断和治疗信息以及患者的身体状况,医疗数据的风险管理主要关注隐私保护和遵守法规,以及确保数据完整性以避免医疗事故;金融服务行业的数据特征主要包含客户银行账户、财务资产以及负债的详细信息,金融行业更关注金融交易的安全性并侧重分级数据的欺诈检测和防范措施。使用常规的数据分级方法对上述两个不同行业进行数据分级时,可能会因为缺乏针对行业差异的分析,从而导致对不同行业数据分级的定级工作带来额外的数据问题和数据风险。
发明内容
本发明提供一种基于专家评分的数据分级方法,解决现有数据分级方法在用于一些尚未形成统一数据分类分级标准的行业,在落实数据分类分级工作时遇到了定级模糊不准确缺乏分级修正的问题。
本发明通过下述技术方案实现:
一种基于专家评分的数据分级方法,该方法包括:
步骤S1:设置用于专家评分的知识库,确定进行数据分级的目标企业自身的初始数据安全等级、各级数据的分级权重值、进行分级的目标数据范围和初始数据分级标准并以此设置期望数据分级结果,根据初始数据分级标准完成初始数据分级,并建立包含有初始数据分级结果的第一数据分级表;
步骤S2:根据第一数据分级表的分级结果,在知识库中建立用于更新优化目标企业数据安全定级和对数据分级进行专家评分的分级参考标准组,同时基于分级参考标准组输出的参考数据分级结果建立第二数据分级表,同时将第一数据分级表与第二数据分级表进行对比,按照数据分类筛选出所有的同类或相似类的分级数据;
步骤S3:将所有同类或相似类的分级数据整理后统计出当前筛选数据之间的所有分级差异值,基于筛选数据的分级差异值为参考标准组中的分级数据分配分级权重值,根据分级权重值分配计算加权平均值分别计算出期望数据分级结果的期望总分和参考标准组的专家总分,将期望总分与专家总分按照预设的期望分阈值进行对比;
步骤S4:当专家总分符合期望分阈值范围时,将参考标准组中输出的数据分级规则和参考数据分级标准分别更新优化至目标企业的初始数据安全等级和初始数据分级标准,以完成目标企业的数据分级修正,当不符合期望分阈值范围时对第一数据分级表进行重新评估和更新用以重新建立分级参考标准组。
目前在面对各行业数据技术特性和数据安全事件危害程度均不同的情况下,以及在某些行业可能缺乏明确定义的数据分级标准的情况下,使用同一个常规的数据分级方法对不同行业进行数据分级管理时,容易存在对数据的重要或危害程度的认知差异,导致数据分级方法在各行业的通用性和合规性不足,在落实数据分级工作时存在类别定级模糊不准确的问题。对此本发明提供一种基于专家评分的数据分级方法,解决现有数据分级方法在用于一些尚未形成统一数据分类分级标准的行业,在落实数据分类分级工作时遇到了定级模糊不准确缺乏分级修正的问题。
进一步地,设定蚁群优化方法用于建立分级参考标准组,所述分级参考标准组包括多个最终参考标准,该方法包括:
步骤A1:初始化蚁群优化变量,包括蚂蚁数量、迭代次数、信息素和启发函数,每只蚂蚁表示一个初始参考标准,迭代次数表示根据当前信息素和启发函数找寻并更新参考标准的次数,并根据期望数据分级结果与初始数据分级结果的差异设定适应度函数,用于评估当前每个参考标准的性能是否满足分级准确度的要求;
步骤A2:释放蚁群按照迭代次数对参考标准进行迭代优化,在每次迭代时每只蚂蚁根据当前信息素和启发函数选择针对参考标准的下一步调整行为,并在每次调整后使用适应度函数进行性能评估,并根据评估结果更新信息素浓度以反应当前参考标准的迭代方向;
步骤A3:完成全部迭代次数后根据适应度函数,对最后更新信息素浓度的全部蚂蚁进行参考标准的最终评估,筛选出参考标准满足性能要求的全部最优蚂蚁,并将每个最优蚂蚁输出的参考标准设定为全部最终参考标准以组成当前的分级参考标准组。
进一步地,设置信息素蒸发速率以控制信息素在每次迭代后的减少速度;在当前迭代次数的序数位于迭代次数总数前50%之内时,所述信息素的蒸发速率限制在0.1-0.5之间;在当前迭代次数的序数位于迭代次数总数后50%之内时,所述信息素的蒸发速率限制在0.5-0.7之间。
进一步地,在启发函数中添加随机噪声以模拟随机性和允许蚂蚁随机选择下一个分级级别;在迭代过程中对启发函数的更新机制保持动态调节,其过程包括记录蚁群路径的性能、计算路径对启发函数的贡献值以及设置信息素与启发函数的权重平衡。
进一步地,蚂蚁迭代找寻并更新参考标准的领域包括当前行业所属领域和若干个其他行业所属领域,其迭代过程还包括不同行业之间的数据相似性度量、数据样本选择和数据参数调整。
进一步地,所述适应度函数基于数据相似性度量设定,所述适应度函数的设定内容包括:
收集至少三个行业内的最多使用的跨行数据分级标准,并将其表示为向量,每个向量代表一个行业的跨行数据分级标准,同时按照相似性程度的大小差异,为每个跨行数据分级标准等比例赋予同样大小差异的适应度权重值;
使用余弦相似度计算当前参考标准与每个行业标准之间的相似度,为每个跨行数据分级标准生成一个相似性分数,以反映当前参考标准与该行业标准的相似性程度;
设置适应度=α∙第一余弦相似度+β∙第二余弦相似度+γ∙第三余弦相似度,其中第一余弦相似度、第二余弦相似度和第三余弦相似度等表示当前参考标准与三个所述跨行数据分级标准的余弦相似度分数,α、β和γ表示三个所述跨行数据分级标准的适应度权重值。
进一步地,所述第二数据分级表的对比过程包括:
参照第一数据分级表来定义第二数据分级表的数据分级结构,根据第一数据分级表中的初始数据分级标准对数据进行分类和标记,并为每个级别分配标识符;使用余弦相似度计算方式,将第一数据分级表中的每个级别逐一与第二分级表中的全部级别进行相似性分数的计算;在计算结果的0到1之间,对每个级别数据均设定第一对照阈值和第二对照阈值,且第一对照阈值大于第二对照阈值;
当计算结果大于第一对照阈值且小于1时,该级数据视为同类数据;
当计算结果大于第二对照阈值且小于第一对照阈值时,该级数据视为相似类数据;
当计算结果大于0且小于第二对照阈值时,该级数据视为无法判断相似性。
进一步地,所述筛选数据的分级差异值,其统计过程包括:
明确分级差异值标准与分级差异值的程度,所述分级差异值标准包括正向、负向及中性,所述分级差异值的程度基于各级数据的业务标准设置有差异临界值,并且将分级差异值与目标企业的当前业务需求进行优先级匹配,将达到差异临界值的分级差异值筛选出,根据分级差异值的各级数据的内容、合规性及潜在风险对各级数据逐一分配分级权重值。
本发明与现有技术相比,具有如下的优点和有益效果:
通过使用有多个参考数据分级标准的参考标准组,可以减少单一参考标准的主观性影响。能够使得企业在对非专业领域进行数据分级时避免因为缺乏明确定义的数据分级标准而盲目使用同一个常规的数据分级方法,从而导致数据分级因为通用性和合规性不足出现类别定级模糊或出错的问题,使得企业在借助多领域数据分级标准时的效能得到明显提升。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明方法流程框图;
图2为本发明蚁群优化流程图;
图3为本发明流程结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1-图3所示,本实施例为一种基于专家评分的数据分级方法,该方法包括:
步骤S1:设置用于专家评分的知识库,确定进行数据分级的目标企业自身的初始数据安全等级、各级数据的分级权重值、进行分级的目标数据范围和初始数据分级标准并以此设置期望数据分级结果,根据初始数据分级标准完成初始数据分级,并建立包含有初始数据分级结果的第一数据分级表;
步骤S2:根据第一数据分级表的分级结果,在知识库中建立用于更新优化目标企业数据安全定级和对数据分级进行专家评分的分级参考标准组,同时基于分级参考标准组输出的参考数据分级结果建立第二数据分级表,同时将第一数据分级表与第二数据分级表进行对比,按照数据分类筛选出所有的同类或相似类的分级数据;
步骤S3:将所有同类或相似类的分级数据整理后统计出当前筛选数据之间的所有分级差异值,基于筛选数据的分级差异值为参考标准组中的分级数据分配分级权重值,根据分级权重值分配计算加权平均值分别计算出期望数据分级结果的期望总分和参考标准组的专家总分,将期望总分与专家总分按照预设的期望分阈值进行对比;
步骤S4:当专家总分符合期望分阈值范围时,将参考标准组中输出的数据分级规则和参考数据分级标准分别更新优化至目标企业的初始数据安全等级和初始数据分级标准,以完成目标企业的数据分级修正,当不符合期望分阈值范围时对第一数据分级表进行重新评估和更新用以重新建立分级参考标准组。
在进行用于建立第一分级表的初始数据分级之前,目标企业需要根据目标业务的特征来确定待分级处理的数据信息,主要包括初始数据安全等级、各级数据的分级权重值、进行分级的目标数据范围和初始数据分级标准。所述初始数据分级标准即为目标企业根据自身的数据管理方式并结合目标数据领域的现有分级方法来实行的常规数据分级。企业在确定进行数据分级的目标、安全等级和初始数据分级标准时,主要根据数据的法规合规性、数据风险性和敏感性、数据访问需求和业务自身流程需求来明确,即采用较为常规的数据分级方式即可。而目标业务的各级数据分级权重值在确定的过程中,除了可以根据上述明确要求以外,还可以包括需要考虑根据业务的特性来计划将数据分成的级别数,并确定每个数据分级级别将被赋予的权重类型。例如可以包括正向权重(表示较高级别)、负向权重(表示较低级别)或中性权重(表示中间级别)。同时明确权重的分配标准,即为每个分级级别分配权重值的规则,例如可以基于业务需求、风险评估、合规性要求等因素来确定。基于上述目标业务的数据特征所构建的期望数据分级结果为企业目标业务的数据分级所要达到的理想数据分级标准。因为当企业使用同一个常规的数据分级方法对不同行业进行数据分级管理时,容易存在对数据的重要或危害程度的认知差异,导致数据分级方法在各行业的通用性和合规性不足,在落实数据分级工作时存在类别定级模糊不准确的问题。同时即使通过借助该领域的现有标准设定了用作最终分级目标的期望数据分级结果,但由于可能目标业务并非企业擅长的领域,导致在具体实行数据分级的各个步骤时出现各类差错或导致分级效果欠佳。因此建立所述知识库即为当企业对目标业务进行数据分级时,通过找寻收集能够用于对初级数据分级进行参照完善的参考数据分级标准,以用于对初始数据分级标准进行分级修正,使得企业对当前目标业务的数据分级能够更加完善并接近期望数据分级结果。所述分级参考标准组为知识库中的主要内容,即用于生成输出参考数据分级标准用以对初始数据分级结果进行完善。
进一步地,作为一种可行的实施方式,所述第二数据分级表的对比过程包括:
参照第一数据分级表来定义第二数据分级表的数据分级结构,根据第一数据分级表中的初始数据分级标准对数据进行分类和标记,并为每个级别分配标识符;使用余弦相似度计算方式,将第一数据分级表中的每个级别逐一与第二分级表中的全部级别进行相似性分数的计算;在计算结果的0到1之间,对每个级别数据均设定第一对照阈值和第二对照阈值,且第一对照阈值大于第二对照阈值;当计算结果大于第一对照阈值且小于1时,该级数据视为同类数据;当计算结果大于第二对照阈值且小于第一对照阈值时,该级数据视为相似类数据;当计算结果大于0且小于第二对照阈值时,该级数据视为无法判断相似性。
余弦相似度算法是一种非参数化方法,广泛适用于各种类型的数据。它不依赖于数据的分布,且不收数据维度和缩放的影响,不需要对数据进行标准化或者归一化,同时因为余弦相似度算法只涉及向量之间的点积和范数计算,计算效率较高,适用于大规模数据集,因此对于不同数据类型的比较非常灵活。对各级数据分别设定第一对照阈值和第二对照阈值的主要目的在于对数据类别的相似性和相同程度进行明确划分,能够减少不必要的数据分类误报,明确了分类的标准明细。
在实际具体实施中,主要根据目标企业业务的数据应用要求和数据关联度的重要性来设置余弦相似度的第一和第二对照阈值大小,同时还可参照企业当前业务对某项数据误差程度的容忍度,较高的阈值大小能够容忍更多的误差,而较低的阈值会更严格。同时不同类型、不同安全级别或优先级别的数据也是阈值大小的重要参照,例如某一级数据对业务目标更关键,可以对其设定相对较低的阈值以确保更高的匹配精确度;如果某些数据有较高的噪声或变异性,可能也需要设置更为宽松的阈值范围。更多地,数据量的大小不同也可能会影响阈值的设置,例如大规模数据集可能需要更高的阈值来进行处理以提高计算效率。如果企业内负责数据分级的部门或者个人对当前数据分级所处业务具有先验知识和经验,也可以用于指导阈值设置。
更多地,作为一种可行的实施方式,所述筛选数据的分级差异值,其统计过程包括:
明确分级差异值标准与分级差异值的程度,所述分级差异值标准包括正向、负向及中性,所述分级差异值的程度基于各级数据的业务标准设置有差异临界值,并且将分级差异值与目标企业的当前业务需求进行优先级匹配,将达到差异临界值的分级差异值筛选出,根据分级差异值的各级数据的内容、合规性及潜在风险对各级数据逐一分配分级权重值。
在具体运用中,所述正向差异值标准主要设置有高数据级别、高合规性、高准确性和高优先级四个方面,负向差异值标准也同理。在正向差异值标准中高数据级别表示第二分级表中的数据级别在某些方面,例如数据敏感性或数据价值等明显高于第一分级表中的级别;高合规性表示第二分级表中的数据级别可能满足更多法规或合规性要求;高准确性和高优先级均体现在该级数据在目标业务中的受重视程度更高。负向差异值标准的设置内容同理。而中性分级差异值具有相对一致性和小幅差异性,相对一致性表示第一分级表和第二分级表中的数据级别在大多数方面是一致的,没有明显的正向或负向差异。小幅差异性指存在一些小幅的差异,但这些差异对业务或合规性的影响相对较小。所述差异临界值的设定需经过风险评估来确定,高风险数据可能需要更低的差异临界值。
与差异临界值相匹配的业务需求的相关制定,需先明确目标企业的业务目标,不同业务目标可能对分级差异值的程度有不同的优先级。同时将分级差异值与企业目标业务的战略目标、客户需求、流程改进、性能利用等多方面进行资源匹配,以确保分级差异值的设定符合企业的发展规划。明确正向、负向和中性的标准有助于明确不同分级之间的差异程度。正向标准表示较高级别,负向标准表示较低级别,而中性标准表示中间级别,这有助于识别和量化分级差异,能够确保分级差异值标准在不同数据分级中一致性。将分级差异值的程度基于各级数据的业务标准设置差异临界值,能够允许为不同类型的数据设置个性化的分级差异值。这提供了业务灵活性和调整的机会。同时通过优先级匹配,可以确保根据数据的重要性和业务需求来分级以最大化数据的价值。基于分级差异值的标准和程度分配分级权重值,可以实现更精细的数据控制,例如高权重的数据将受到更严格的访问和保护控制,而低权重的数据将更容易访问。同时权重分配可确保数据合规性。对于受到法规要求的数据,分配较高的权重以确保依从性,考虑潜在风险并分配权重,有助于管理风险。高风险数据将分配较高的权重,以确保更严格的控制和监测。
进一步地,作为一种可行的实施方式,设定蚁群优化方法用于建立分级参考标准组,所述分级参考标准组包括多个最终参考标准,该方法包括:
步骤A1:初始化蚁群优化变量,包括蚂蚁数量、迭代次数、信息素和启发函数,每只蚂蚁表示一个初始参考标准,迭代次数表示根据当前信息素和启发函数找寻并更新参考标准的次数,并根据期望数据分级结果与初始数据分级结果的差异设定适应度函数,用于评估当前每个参考标准的性能是否满足分级准确度的要求;
步骤A2:释放蚁群按照迭代次数对参考标准进行迭代优化,在每次迭代时每只蚂蚁根据当前信息素和启发函数选择针对参考标准的下一步调整行为,并在每次调整后使用适应度函数进行性能评估,并根据评估结果更新信息素浓度以反应当前参考标准的迭代方向;
步骤A3:完成全部迭代次数后根据适应度函数,对最后更新信息素浓度的全部蚂蚁进行参考标准的最终评估,筛选出参考标准满足性能要求的全部最优蚂蚁,并将每个最优蚂蚁输出的参考标准设定为全部最终参考标准以组成当前的分级参考标准组。
在蚁群优化方法中,蚂蚁数量表示在蚁群算法中模拟的蚂蚁个体数量,每个蚂蚁代表一个可能的解决方案,即一种参考标准或参考标准表示的数据分级规则。蚂蚁数量决定了每轮迭代中参考标准的生成数量。迭代次数表示算法运行的轮次,即蚁群算法将执行多少次迭代,每一轮迭代都包括蚂蚁根据当前的信息素和启发函数生成新的参考标准,并评估它们的性能。迭代次数决定了算法搜索空间的探索程度。信息素是一个数值,通常表示在蚁群算法中,每个可能的数据分级规则或参考标准的质量或性能,这个数值可以看作是一个度量,用于评估某个规则或标准在数据分级任务中的优劣。而信息素浓度表示信息素的数值大小,它可以用来表示一个规则或标准被认为有多好或多差,较高的信息素浓度通常表示一个参考标准在过去的搜索过程中表现良好,而较低的信息素浓度则表示规则或标准表现较差。在每次迭代后,信息素值会根据蚂蚁的选择和规则的表现进行更新,较好的规则通常会受到更多的信息素增加,从而在下一轮迭代中更容易被选中。这种信息素的更新过程有助于引导算法朝着更优规则的方向搜索。启发函数用于指导蚂蚁选择下一步的路径或生成下一个参考标准。它根据问题的特性和目标函数来评估每个路径或规则的质量。在数据分级中,启发函数可以根据当前的数据分级情况、敏感性、完整性等因素来评估规则的质量,从而影响蚂蚁的行为。
使用蚁群优化方法来找寻分级参考标准组中的参考数据分级标准,能够作为一种高效的全局自动探索方式来减少人工干预,节省时间和人力资源,对整个修正解空间保持搜索找寻,能够提升参考标准的质量;同时蚁群算法能够生成多个不同的参考标准,考虑了多种因素,从而提供了多样性的选项,以满足不同需求和情况。另一方面,蚁群算法可以根据不断变化的数据和环境来调整参考标准以适应新的情况和需求,使得参考标准能够保持更新和适应性。
进一步地,设置信息素蒸发速率以控制信息素在每次迭代后的减少速度;在当前迭代次数的序数位于迭代次数总数前50%之内时,所述信息素的蒸发速率限制在0.1-0.5之间;在当前迭代次数的序数位于迭代次数总数后50%之内时,所述信息素的蒸发速率限制在0.5-0.7之间。所述信息素表示每个潜在的数据分级决策的倾向程度,且信息素的初始化设置为每个潜在的数据分级级别或决策层赋予信息素水平大小。将信息素的蒸发速率按照前后两部分的迭代周期进行不同速率的设置,主要用于设置探索利用阶段和探索加速阶段。在迭代的前半段,信息素的较低蒸发速率即0.1-0.5之间有助于保留先前蚁群搜索的路径信息,从而促进蚂蚁更好地利用已知路径,加强对已知解决方案的利用,提高算法的收敛速度,能够避免早熟收敛,即避免在搜索空间中陷入局部最优解。蚁群需要有足够的探索能力来发现更好的解决方案。在迭代的后半段,信息素的较高蒸发速率即0.5-0.7之间有助于鼓励蚂蚁进行更多的探索,尤其是在搜索空间中未经探索的区域。这提高了算法的全局搜索性能,在算法后期,较高的蒸发速率有助于加速收敛到最佳解。一旦蚁群发现了良好的路径或解决方案,较高的蒸发速率可以促使更多的蚂蚁选择该路径,有助于跳出局部最优解,从而加速全局最优解的发现。这种动态调整信息素蒸发速率的方法具备一定的自适应性,根据算法的当前状态来调整蒸发速率,这意味着算法可以更好地适应不同数据的问题和不同阶段的需要
进一步地,作为一种可行的实施方式,在启发函数中添加随机噪声以模拟随机性和允许蚂蚁随机选择下一个分级级别;在迭代过程中对启发函数的更新机制保持动态调节,其过程包括记录蚁群路径的性能、计算路径对启发函数的贡献值以及设置信息素与启发函数的权重平衡。蚂蚁迭代找寻并更新参考标准的领域包括当前行业所属领域和若干个其他行业所属领域,其迭代过程还包括不同行业之间的数据相似性度量、数据样本选择和数据参数调整。所述随机噪声可以包含多个方面,包括蚁群的随机探索方向、随机权重值、随机找寻目标以及随机停留时间。所述蚁群路径的性能包括表示找寻成本的路径质量、表示特定分级问题约束的适应性、表示找寻方案效率的收敛性等。所述路径对启发函数的贡献值主要包括表示蚂蚁选择该路径的代价或距离的路径长度和表示响应时间或数据吞吐量的路径性能指标。
进一步地,为了有利于蚁群优化方法在跨行业探索数据分级标准时能够将标准更加适应于当前待优化的数据分级标准,在具体实施中,作为一种可行的实施方式,所述适应度函数基于数据相似性度量设定,所述适应度函数的设定内容包括:
收集至少三个行业内的最多使用的跨行数据分级标准,并将其表示为向量,每个向量代表一个行业的跨行数据分级标准,同时按照相似性程度的大小差异,为每个跨行数据分级标准等比例赋予同样大小差异的适应度权重值;
使用余弦相似度计算当前参考标准与每个行业标准之间的相似度,为每个跨行数据分级标准生成一个相似性分数,以反映当前参考标准与该行业标准的相似性程度;
设置适应度=α∙第一余弦相似度+β∙第二余弦相似度+γ∙第三余弦相似度,其中第一余弦相似度、第二余弦相似度和第三余弦相似度等表示当前参考标准与三个所述跨行数据分级标准的余弦相似度分数,α、β和γ表示三个所述跨行数据分级标准的适应度权重值。
通过将不同行业的标准表示为向量,可以进行直观的比较,以了解它们之间的相似性和差异。为每个标准赋予适应度权重值可以帮助确定每个标准在数据分级中的相对重要性。这有助于确保更重要的标准在数据分级过程中得到更高的权重,同时适应度权重值能够综合考虑这些标准,以生成一个统一的数据分级标准来满足多行业跨行的数据分级需求。所述适应度权重值的赋予过程主要包括确定权重数量和分布权重参数。每个权重的分布值大小则根据具体业务的数据特征或类型以行业标准或人为规定来确认,同时赋值过程中确保所有权重分布值的和为1。确定权重数量的过程主要结合考虑数据的不同属性、分级的不同目标级别以及多样性的法规或业务需求,例如不同数据对应的不同机密程度、敏感程度以及行业标准中的参考值等。相似性分数允许对当前参考标准与每个行业标准之间的相似性进行客观评估,这有助于确定哪些标准更适合用作参考标准以及哪些不适合用作参考标准,通过比较不同行业标准的相似性分数,可以选择最接近当前需求的标准,从而提高数据分级的准确性,有助于减少错误率,因为更相似的标准通常更容易适用于给定的数据。在本实施例中,使用了三个不同跨行数据分级标准的余弦相似度分数,并根据权重值α、β和γ进行了组合式计算。以此构建的适应度函数综合了三个不同标准的相似度评分,提供了多个维度的评估,使得适应度函数的结构具有自适应性,因为它可以根据权重参数的不同组合来适应不同的目标和条件,即不仅可以评估与一个标准的相似性,还可以综合评估与多个标准的相似性。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于专家评分的数据分级方法,其特征在于,该方法包括:
步骤S1:设置用于专家评分的知识库,确定进行数据分级的目标企业自身的初始数据安全等级、各级数据的分级权重值、进行分级的目标数据范围和初始数据分级标准并以此设置期望数据分级结果,根据初始数据分级标准完成初始数据分级,并建立包含有初始数据分级结果的第一数据分级表;
步骤S2:根据第一数据分级表的分级结果,在知识库中建立用于更新优化目标企业数据安全定级和对数据分级进行专家评分的分级参考标准组,同时基于分级参考标准组输出的参考数据分级结果建立第二数据分级表,同时将第一数据分级表与第二数据分级表进行对比,按照数据分类筛选出所有的同类或相似类的分级数据;
步骤S3:将所有同类或相似类的分级数据整理后统计出当前筛选数据之间的所有分级差异值,基于筛选数据的分级差异值为参考标准组中的分级数据分配分级权重值,根据分级权重值分配计算加权平均值分别计算出期望数据分级结果的期望总分和参考标准组的专家总分,将期望总分与专家总分按照预设的期望分阈值进行对比;
步骤S4:当专家总分符合期望分阈值范围时,将参考标准组中输出的数据分级规则和参考数据分级标准分别更新优化至目标企业的初始数据安全等级和初始数据分级标准,以完成目标企业的数据分级修正,当不符合期望分阈值范围时对第一数据分级表进行重新评估和更新用以重新建立分级参考标准组。
2.根据权利要求1所述的一种基于专家评分的数据分级方法,其特征在于,设定蚁群优化方法用于建立分级参考标准组,所述分级参考标准组包括多个最终参考标准,该方法包括:
步骤A1:初始化蚁群优化变量,包括蚂蚁数量、迭代次数、信息素和启发函数,每只蚂蚁表示一个初始参考标准,迭代次数表示根据当前信息素和启发函数找寻并更新参考标准的次数,并根据期望数据分级结果与初始数据分级结果的差异设定适应度函数,用于评估当前每个参考标准的性能是否满足分级准确度的要求;
步骤A2:释放蚁群按照迭代次数对参考标准进行迭代优化,在每次迭代时每只蚂蚁根据当前信息素和启发函数选择针对参考标准的下一步调整行为,并在每次调整后使用适应度函数进行性能评估,并根据评估结果更新信息素浓度以反应当前参考标准的迭代方向;
步骤A3:完成全部迭代次数后根据适应度函数,对最后更新信息素浓度的全部蚂蚁进行参考标准的最终评估,筛选出参考标准满足性能要求的全部最优蚂蚁,并将每个最优蚂蚁输出的参考标准设定为全部最终参考标准以组成当前的分级参考标准组。
3.根据权利要求2所述的一种基于专家评分的数据分级方法,其特征在于,设置信息素蒸发速率以控制信息素在每次迭代后的减少速度;在当前迭代次数的序数位于迭代次数总数前50%之内时,所述信息素的蒸发速率限制在0.1-0.5之间;在当前迭代次数的序数位于迭代次数总数后50%之内时,所述信息素的蒸发速率限制在0.5-0.7之间。
4.根据权利要求2所述的一种基于专家评分的数据分级方法,其特征在于,在启发函数中添加随机噪声以模拟随机性和允许蚂蚁随机选择下一个分级级别;在迭代过程中对启发函数的更新机制保持动态调节,其过程包括记录蚁群路径的性能、计算路径对启发函数的贡献值以及设置信息素与启发函数的权重平衡。
5.根据权利要求2所述的一种基于专家评分的数据分级方法,其特征在于,蚂蚁迭代找寻并更新参考标准的领域包括当前行业所属领域和若干个其他行业所属领域,其迭代过程还包括不同行业之间的数据相似性度量、数据样本选择和数据参数调整。
6.根据权利要求5所述的一种基于专家评分的数据分级方法,其特征在于,所述适应度函数基于数据相似性度量设定,所述适应度函数的设定内容包括:
收集至少三个行业内的最多使用的跨行数据分级标准,并将其表示为向量,每个向量代表一个行业的跨行数据分级标准,同时按照相似性程度的大小差异,为每个跨行数据分级标准等比例赋予同样大小差异的适应度权重值;
使用余弦相似度计算当前参考标准与每个行业标准之间的相似度,为每个跨行数据分级标准生成一个相似性分数,以反映当前参考标准与该行业标准的相似性程度;
设置适应度=α∙第一余弦相似度+β∙第二余弦相似度+γ∙第三余弦相似度,其中第一余弦相似度、第二余弦相似度和第三余弦相似度等表示当前参考标准与三个所述跨行数据分级标准的余弦相似度分数,α、β和γ表示三个所述跨行数据分级标准的适应度权重值。
7.根据权利要求1所述的一种基于专家评分的数据分级方法,其特征在于,所述第二数据分级表的对比过程包括:
参照第一数据分级表来定义第二数据分级表的数据分级结构,根据第一数据分级表中的初始数据分级标准对数据进行分类和标记,并为每个级别分配标识符;使用余弦相似度计算方式,将第一数据分级表中的每个级别逐一与第二分级表中的全部级别进行相似性分数的计算;在计算结果的0到1之间,对每个级别数据均设定第一对照阈值和第二对照阈值,且第一对照阈值大于第二对照阈值;
当计算结果大于第一对照阈值且小于1时,该级数据视为同类数据;
当计算结果大于第二对照阈值且小于第一对照阈值时,该级数据视为相似类数据;
当计算结果大于0且小于第二对照阈值时,该级数据视为无法判断相似性。
8.根据权利要求1所述的一种基于专家评分的数据分级方法,其特征在于,所述筛选数据的分级差异值,其统计过程包括:
明确分级差异值标准与分级差异值的程度,所述分级差异值标准包括正向、负向及中性,所述分级差异值的程度基于各级数据的业务标准设置有差异临界值,并且将分级差异值与目标企业的当前业务需求进行优先级匹配,将达到差异临界值的分级差异值筛选出,根据分级差异值的各级数据的内容、合规性及潜在风险对各级数据逐一分配分级权重值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311343847.5A CN117332133B (zh) | 2023-10-17 | 2023-10-17 | 一种基于专家评分的数据分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311343847.5A CN117332133B (zh) | 2023-10-17 | 2023-10-17 | 一种基于专家评分的数据分级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332133A true CN117332133A (zh) | 2024-01-02 |
CN117332133B CN117332133B (zh) | 2024-03-19 |
Family
ID=89295062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311343847.5A Active CN117332133B (zh) | 2023-10-17 | 2023-10-17 | 一种基于专家评分的数据分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332133B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608276A (zh) * | 2015-12-24 | 2016-05-25 | 国家电网公司 | 输电线路路径自动选择方法及元胞自动机模型 |
CN109273096A (zh) * | 2018-09-05 | 2019-01-25 | 南京邮电大学 | 一种基于机器学习的药品风险分级评估方法 |
CN113988530A (zh) * | 2021-09-29 | 2022-01-28 | 应急管理部通信信息中心 | 一种非煤矿山安全风险评估分级方法及系统 |
-
2023
- 2023-10-17 CN CN202311343847.5A patent/CN117332133B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608276A (zh) * | 2015-12-24 | 2016-05-25 | 国家电网公司 | 输电线路路径自动选择方法及元胞自动机模型 |
CN109273096A (zh) * | 2018-09-05 | 2019-01-25 | 南京邮电大学 | 一种基于机器学习的药品风险分级评估方法 |
CN113988530A (zh) * | 2021-09-29 | 2022-01-28 | 应急管理部通信信息中心 | 一种非煤矿山安全风险评估分级方法及系统 |
Non-Patent Citations (2)
Title |
---|
张文德;陈龙龙;安结;: "基于蚁群算法的企业专利价值分析方法", 情报探索, no. 03, 15 March 2016 (2016-03-15), pages 5 - 8 * |
陈龙龙;张文德;安结;: "基于ACO的企业专利价值分析方法设计与系统实现", 现代图书情报技术, no. 04, 25 April 2016 (2016-04-25), pages 101 - 107 * |
Also Published As
Publication number | Publication date |
---|---|
CN117332133B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12002094B2 (en) | Systems and methods for generating gradient-boosted models with improved fairness | |
Larose | An introduction to data mining | |
Zadrozny et al. | Learning and making decisions when costs and probabilities are both unknown | |
US5745654A (en) | Fast explanations of scored observations | |
EP3719704A1 (en) | Feature interpretation method and device for gbdt model | |
CN109598278B (zh) | 聚类处理方法、装置、电子设备及计算机可读存储介质 | |
US7620609B2 (en) | Genetic algorithm based approach to access structure selection with storage constraint | |
CN112001788B (zh) | 一种基于rf-dbscan算法的信用卡违约欺诈识别方法 | |
CN111062806B (zh) | 个人金融信用风险评价方法、系统和存储介质 | |
Petrak | Fast subsampling performance estimates for classification algorithm selection | |
CN110532429B (zh) | 一种基于聚类和关联规则的线上用户群体分类方法及装置 | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
US20220101062A1 (en) | System and a Method for Bias Estimation in Artificial Intelligence (AI) Models Using Deep Neural Network | |
Eddy et al. | Credit scoring models: Techniques and issues | |
JP2004502994A (ja) | 詐欺容疑推定システム及び方法 | |
CN117332133B (zh) | 一种基于专家评分的数据分级方法 | |
CN117035983A (zh) | 信贷风险等级的确定方法、装置、存储介质及电子设备 | |
Liu | The evaluation of classification models for credit scoring | |
CN115936841A (zh) | 一种构建信贷风险评估模型的方法及装置 | |
İkizler et al. | Mining interesting rules in bank loans data | |
WO2022183019A1 (en) | Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact | |
CN113221966A (zh) | 基于F_Max属性度量的差分隐私决策树构建方法 | |
CN108846577B (zh) | 一种基于情境分析的群体任务分配方法 | |
Cohensius et al. | Efficient crowdsourcing via proxy voting | |
CN111858639A (zh) | 用于风控管理的外部数据管理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |