CN115632845B - 一种基于风险评分卡的景区算法应用风险评估方法 - Google Patents
一种基于风险评分卡的景区算法应用风险评估方法 Download PDFInfo
- Publication number
- CN115632845B CN115632845B CN202211248098.3A CN202211248098A CN115632845B CN 115632845 B CN115632845 B CN 115632845B CN 202211248098 A CN202211248098 A CN 202211248098A CN 115632845 B CN115632845 B CN 115632845B
- Authority
- CN
- China
- Prior art keywords
- algorithm
- risk
- data
- scenic spot
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012502 risk assessment Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims abstract description 11
- 238000003860 storage Methods 0.000 claims abstract description 11
- 238000013461 design Methods 0.000 claims abstract description 8
- 230000006378 damage Effects 0.000 claims abstract description 6
- 230000001364 causal effect Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 15
- 238000007477 logistic regression Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013500 data storage Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 108010014173 Factor X Proteins 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000013506 data mapping Methods 0.000 claims description 2
- 238000007667 floating Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013058 risk prediction model Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000013097 stability assessment Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Tourism & Hospitality (AREA)
- Computer Security & Cryptography (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Pure & Applied Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于风险评分卡的景区算法应用风险评估方法,将算法应用风险分为内生风险和外生风险两大类,算法内生风险以算法应用厂家提供的算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标形成内生风险因子,算法外生风险以算法应用部署网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程形成外生风险因子,结合个人信息安全影响需求对多种因子进行归一化和权重分配,构成风险评分模型。最后通过模型对已上线或待上线算法应用进行风险评分,生成风险评分报告,满足景区自查及上级监管部门对算法应用的监管需求。
Description
技术领域
本发明属于算法审计领域,尤其涉及旅游景区的算法应用利用个人隐私数据行为的风险评估。
背景技术
随着大数据在社会治理中发挥越来越重要的作用,要求有关算法的监管要尽可能避免“一刀切”、进入常态化治理阶段,实现“灵活敏捷治理”,使算法治理能够跟上技术发展步伐。目前对算法的监管主要是从网络安全、法律风险等角度作规范,由于数据流转过程中的追溯难度大、涉及面广、算法的封闭性、算法审计制度不完善等因素导致算法监管技术手段匮乏。旅游景区作为服务提供方及算法应用使用方,大量使用等保规范保障信息安全,对于涉及大量个人隐私数据相关的算法应用安全风险、风险影响范围均无相关技术手段进行防范,无法满足监管单位需求。
CN202210276088.4涉及城市节假日旅游景区风险评估的方法,包括以下步骤:
步骤一:确定并获取与景区旅游风险相关影响因素的数据;步骤二:使用线性假设描述影响景区风险的固定要素;步骤三:使用RBF网络描述影响景区风险的浮动要素;步骤四:合并固定要素影响和浮动要素影响得到景区风险模型;步骤五:利用景区风险模型进行风险评估,并使用RBF网络学习提升模型描述的准确性。本发明结合城市节假日旅游景区治理调度的业务需求,从景区天气、历史平均游客接待量、景区隐患点、救援力量分布、景区客流、游客投诉等方面的数据,可以定量的反映旅游景区的风险情况,将有限的救援力量投入关键的地点,提高救援的精准度,降低风险发生的概率。
CN202210276116.2一种基于RBF网络学习的景区风险预测模型构建方法,包括以下步骤:固定因素提取,获取景区历史旅游数据,提取某一时间段内的影响景区风险大小的相对固定因素,并采用线性假设方式将提取的相对固定因素组合为景区风险线性函数;浮动因素提取,根据景区历史旅游数据提取浮动因素,并构建RBF网络对提取的浮动因素进行线性转换,获得与景区风险线性相关的的浮动因素;风险预测模型构建,合并固定因素和浮动因素得到最终景区风险模型。本发明可以定量的反映旅游景区的风险情况,将有限的救援力量投入关键的地点,提高救援的精准度,降低风险发生的概率。
CN202111258913X景区疫情风险预测与限流方法、装置、设备和存储介质,方法包括:获取预设的历史时段内各单位时间的景区疫情数据,得到样本数据,所述景区疫情数据包括景区所在的县级行政区在确诊患者城市流动网络中的中心度、景区所在的县级行政区的传染病再生数、景区人流量以及景区人流密度;分别根据样本数据中的各景区疫情数据,对各景区疫情数据对应的神经网络模型进行训练;分别根据训练后的各神经网络模型,得到各景区疫情数据的预测值,并根据各景区疫情数据的预测值,计算疫情风险指数;根据疫情风险指数,确定限流比例。
CN2017109308670一种景区交通监测管理系统,围绕重点旅游景区交通监测管理建设,构建完备的景区大面积交通拥堵预警与监管、停车拥堵预警与监管、客流密度预警与监管以及景区交通出行信息服务体系,突破在重点旅游景区行人车辆聚集与交通综合运行稳定性评估分析方面的核心技术。
为满足算法监管需求,互联网大厂从算法应用内部进行风险评估,将机器学习模型风险从自身信息泄露风险、训练数据泄露风险、推理服务数据泄露风险、模型攻击成本等维度进行刻画,并采用逻辑回归算法拟合算法整体的风险得分,得分越高风险越高。该方法实现一种算法内生监管模式,能满足算法应用开发方自身的算法风险防范,但对于算法监管方和算法使用方的算法应用风险监管还存在以下问题:
1、算法应用作为信息系统中的一种细分应用,不同算法开发商在不同场景下所使用的算法技术架构、数据源、服务提供方式均不一致,特别是OTA(Online Travel Agency,在线旅行社)厂家利用个人隐私数据提供推荐服务时,不仅要满足算法内生风险评估,还要客观的描述算法数据交互风险、算法输出结果风险,满足算法应用监管需求。
2、景区为旅客提供无感入园服务时,也将个人隐私数据(包含但不限于身份证号、健康码状态、生物特征信息等)存储在闸机、票务系统等系统内,因此不同景区承担着个人隐私数据泄露风险,因此缺乏一种满足从网络风险、设备风险、数据流转风险等多维算法应用风险评估方法指导景区进行风险防护。
针对上述问题,本发明提出一种基于风险评分卡的景区算法应用风险评估方法,从算法应用数据流转各个维度进行风险评估,并为景区及监管部门提供可解释性强的风险评估报告。
发明内容
本发明目的是,针对景区内算法应用风险防控能力不足问题,提出了一种基于风险评分卡的景区算法应用风险评估方法。
针对现有技术的不足,本发明要解决的技术问题主要包括:
(1)从监管角度刻画算法内生风险;从算法开发厂家提供的数据构建内生风险因子,避免因景区人员对算法应用风险认知不足。
(2)从个人隐私数据保护角度刻画算法应用外生风险;从现有景区信息系统安全测评报告中抽取算法应用部署的网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程指标,形成外生风险因子,体系化评估算法应用外生风险,避免信息系统风险数据孤岛。
(3)引入因果正则化对类别数据进行处理,利用内生因子和外生因子构建评分卡模型,避免传统逻辑回归评分卡模型仅有相关性噪声变量的误导。
为此,本发明提供了一种基于风险评分卡的景区算法应用风险评估方法,方法包括:该方法将算法应用风险分为内生风险和外生风险两大类,算法内生风险以算法应用厂家提供的算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标形成内生风险因子,算法外生风险以算法应用部署网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程形成外生风险因子,结合个人信息安全影响需求对多种因子进行归一化和权重分配,构成风险评分模型。最后通过模型对已上线或待上线算法应用进行风险评分,生成风险评分报告,满足景区自查及上级监管部门对算法应用的监管需求。具体步骤为,
(1)算法应用内生风险指标抽取;从算法开发厂家提供的算法应用白皮书等说明文档及算法舆情数据中抽取算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标;
●算法数据输入指标主要包含是否涉及个人信息采集、个人信息采集是否加密、输入数据是否为特征向量、输入数据是否加密、加密算法类型、是否存储数据、数据存储时间、数据输入长度、数据交互鉴权方式等;
●算法架构设计相关指标主要包含算法架构是否为开源架构、是否有数据泄露漏洞、数据泄露数量、算法架构是否有泄露风险事件、模型参数是否有泄露风险事件等;
●算法训练数据相关指标主要包含训练数据中是否包含个人隐私数据、训练数据是否有泄露风险事件等;
●算法推理服务相关指标主要包含算法推理接口是否有鉴权、鉴权方式、推理服务组件是否有漏洞、漏洞数量等;
●算法输出数据相关指标主要包含匿名机制是否有效、是否为个性化展示提供可控制或可关闭机制、输出结果是否可定位到个人等;
(2)算法应用外生风险指标抽取;从现有景区信息系统安全测评报告中抽取算法应用部署的网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程指标;相关指标包含但不限于是否内网环境、是否与互联网有数据交互、是否有个人信息存储、是否加密存储、是否加密传输、是否有身份鉴别、是否有访问控制、是否有边界防护、是否有网络流量监控、是否有网络入侵检测模块、数据存储介质类型、最近是否发生过个人信息泄露、是否遭受过网络攻击、是否发生过安全事件、是否受过安全警告、网络攻击频次、安全事件发生频次等;
(3)算法应用内生风险指标和外生风险指标经过数据预处理模块生成风险特征向量Xfeat;
●数据拼接;将内生风险指标与外生风险指标拼接为风险指标特征向量,每一行代表一个景区,每一列代表一个指标数据;
●数据分类;风险指标按数据类型分为类别变量和连续变量;类别变量主要为诸如是否存储个人隐私数据、数据存储介质类型等状态是否存在、状态的有限类型等相关数据;连续变量主要为漏洞或事件发生的频次、数量等;
●数据清洗;不同景区信息系统的安全防护等级不一致,因此风险指标存在缺失值、分布异常等异常值问题。对于类别变量清洗默认填充为0,表示当前数据正常,连续变量清洗采用中值填充;
●数据映射;连续变量通过卡方分箱方式将连续值分为几个区块,将连续变量转换为类别变量;针对类别变量采用One-Hot方式进行处理,将类别变量映射至欧式空间;
(4)基于因果正则化抽取特征向量与目标变量之间的因果关系,结合逻辑回归算法训练评分卡模型;
●人工标记景区投诉事件作为训练标签Ytrain,与算法应用相关为1,否则为0;用第(3)步抽取事件相关的内生风险因子Xinner和外生风险因子Xouter,进行拼接生成训练特征变量Xtrain;
●引入系数W,让处理变量为0和1时的混淆项的矩最小化,消除训练样本与真实样本分布差异,实现混淆平衡,保证变量与目标之间的关系为因果关系;其中
●逻辑回归表达式可表示为结合因果正则化结果逻辑回归目标函数可以优化为J(w,β)(W≥0)使得风险评分映射为[0,1]之间;其中
其中权衡系数γi>0(i=1,2,3,4,5),初始化β和W,计算当前J(w,β),直至J(w,β)收敛或达到最大迭代次数,返回因果系数β和样本权重W。
●评分公式则可转换为base是基准分,也就是赋给景区风险的基础分数,所有算法应用风险分数在这个分数上面进行加减;P正样本是上一步计算出来的概率;lift是提升分数;默认lift设置为50、base设置为600。
(5)对景区内现有算法应用和待上线算法应用采用申报预审方式进行风险评估,收集算法应用的内生指标和外生指标组成Xtest,将特征向量输入上述模型即可得到算法应用风险评分;
有益效果:本申请相对现有技术而言,具备以下优点:
(1)本发明将算法应用风险分为内生风险及外生风险,结合景区安全防范需求及政策导向设计一种多维指标抽取和评估因子计算方法,多方位刻画算法应用风险,在不增加成本情况下满足风险防控的可扩展性需求。
(2)采用因果正则项衡量特征变量对目标变量的因果作用,设计一种逻辑回归算法目标函数,在提升算法精度同时满足算法泛化性,满足不同景区、不同算法应用风险评估。
(3)提出一种基于风险评分卡的景区算法应用风险评估方法,能够对景区内算法应用风险按照风险评分卡生成评分,为算法应用风险管控提供一种决策方法,为景区和监管部门提供新的风险防控手段。
附图说明
图1本发明逻辑流程图;
图2数据预处理逻辑流程图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图和具体实施方式,对本发明的技术方案做进一步描述。
Step1:如图1所示,利用算法应用内生风险指标抽取模块对下辖景区所有算法应用进行指标抽取;
●抽取算法应用输入数据相关指标;算法数据输入指标主要包含是否涉及个人信息采集[0,1]、个人信息采集是否加密[0,1]、输入数据是否为特征向量[0,1]、输入数据是否加密[0,1]、输入数据类别[A,B,C]、输入数据敏感级别[低敏感级、较敏感级、敏感级、极敏感级],加密算法类型[DES、RSA、SHA、SM2、SM3、SM4、其它]、是否存储数据[0,1]、数据存储时长、数据输入长度等;如景区闸机需要个人身份证号、生物特征、健康码等数据进行人员身份核验,该数据为A类敏感数据;且为保障离线状态仍可为游客提供服务,闸机还存储了当天游客核验相关身份信息;
抽取算法架构设计相关指标;指标主要包含算法架构是否为开源架构[0,1]、算法框架类型[Tensorflow、PyTorch、MxNet、PaddlePaddle、其它]、是否有数据泄露漏洞[0,1]、数据泄露数量、算法架构是否有泄露风险事件[0,1]、模型参数是否有泄露风险事件[0,1]等。每一个都代表一项信息系统安全风险,这些数据会从开源舆情事情中获取,属于另外一个数据采集领域;
●算法基础框架大多采用开源框架实现,且不同框架有或多或少的安全漏洞;
●抽取算法训练数据相关指标,主要指标有是否包含个人隐私数据[0,1]、训练数据是否有泄露风险事件[0,1]等。对于训练数据不同开发方使用的数据分布均不一样,相关指标项易产生缺失,后续对于缺失值由数据预处理模块进行填充;
●抽取算法推理服务及输出数据相关指标;主要包含匿名机制是否有效[0,1]、是否为个性化展示提供可控制或可关闭机制[0,1]、输出结果是否可定位到个人[0,1]等;
内生风险的检测主要创新性在于统一衡量风险;外生风险的定义就是系统所处环境风险;
Step2:如图1所示利用算法应用外生风险模块从景区安全扫描报告中抽取外生风险指标;外生风险指标从各景区的安全评估报告中抽取网络安全、数据安全、设备安全等维度指标,但由于不同景区安全等级要求不一致,因此指标维度也不一致,在监管侧默认各景区无风险的情况下对缺省指标采用默认填充缺省值方式进行处理。相关指标包含但不限于是否内网环境[0,1]、是否与互联网有数据交互[0,1]、是否有个人信息存储[0,1]、是否加密存储[0,1]、是否加密传输[0,1]、是否有身份鉴别[0,1]、是否有访问控制[0,1]、是否有边界防护[0,1]、是否有网络流量监控[0,1]、是否有网络入侵检测模块[0,1]、数据存储介质类型[分布式存储、磁盘阵列、SD卡、闪存、记忆棒、其它]、最近是否发生过个人信息泄露[0,1]、是否遭受过网络攻击[0,1]、是否发生过安全事件[0,1]、是否受过安全警告[0,1]、网络攻击频次、安全事件发生频次等;
Step3:如图2所示对内生风险指标和内生风险指标进行数据预处理;
Step3.1数据拼接;内生风险指标与外生风险指标可拼接为风险指标特征向量Xori_feat,每一列均为一个指标数据,每一行为景区ID;
Step3.2数据分类;Xori_feat按数据类型分为类别变量和连续变量;
Step3.3异常值处理;
●类别指标异常值处理;外生风险指标异常值表示安全防控力度缺失,而内生风险指标的缺失仅代表数据未提交所代表缺失,因此外生风险指标采用-1进行填充代表异常;内生风险指标采用0作为缺失值填充代表正常;
●连续数据指标异常值处理;连续数据指标按景区大小、安全防控等级进行分组求均值进行填充。均值即自适应均值,已经属于数学领域最小描述单元;核心在分组求均值,由一个函数groupby.mean处理;
Step3.4连续变量分箱处理;对于网络攻击频次、安全事件发生频次等指标采用景区上一年数据分布做等频分箱方式进行处理,其余指标采用卡方分箱算法进行处理。等频分箱方式是本领域的处理方式;
Step3.5数据映射;按上述步骤处理后的数据全变为类别变量矩阵,采用One-Hot算法进行映射,将Xori_feat特征向量变为维度更宽的风险特征矩阵Xfeat;
Step4基于因果正则化抽取特征向量与目标变量之间的因果关系,结合逻辑回归算法训练评分卡模型;
人工标记景区投诉事件作为训练标签Ytrain,与算法应用相关为1,否则为0;标记事件相关的算法应用数据和景区安全测评报告等数据经过Step1~Step3处理后生成训练特征变量Xtrain;投诉事件为1,正常事件为0,人工标记。会有标记工具,但不在当前描述范围内。数据的处理步骤是上述Step1~Step3的描述步骤。
引入系数W,让处理变量为0和1时的混淆项的矩最小化,消除训练样本与真实样本分布差异,实现混淆平衡,保证变量与目标之间的关系为因果关系;其中
●逻辑回归表达式可表示为结合因果正则化结果逻辑回归目标函数可以优化为J(w,β)(W≥0)使得风险评分映射为[0,1]之间;其中
其中权衡系数γi>0(i=1,2,3,4,5),初始化β和W,计算当前J(w,β),直至J(w,β)收敛或达到最大迭代次数,返回因果系数β和样本权重W。
●在训练过程中因果系数β和样本权重W采用固定一个优化另一个的方法使得J(w,β)收敛或达到最大迭代次数,且在训练过程中采用交叉验证方式寻找最优解。
Step5待测评景区算法应用相关数据经过Step1~Step3处理后生成测试特征向量Xtest,输入至Step4生成的评分卡模型中返回score,其中 lift设置为50、base设置为600。生成评分后基于统计指标和业务维度划分风险等级,设置[0,500]为高风险,(500,700]为中风险,(700,1000)为低风险。
Claims (1)
1.一种基于风险评分卡的景区算法应用风险评估方法,其特征是,将算法应用风险分为内生风险和外生风险两大类,算法内生风险以算法应用厂家提供的算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据属性指标形成内生风险因子,算法外生风险以算法应用部署网络环境、设备及个人隐私数据采集、存储、加密、销毁处理流程形成外生风险因子,结合个人信息安全影响需求对多种因子进行归一化和权重分配,构成风险评分模型;最后通过模型对已上线或待上线算法应用进行风险评分,生成风险评分报告,满足景区自查及上级监管部门对算法应用的监管需求;具体步骤为,
(1)算法应用内生风险指标抽取;从算法开发厂家提供的算法应用白皮书说明文档及算法舆情数据中抽取算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据属性指标;
·算法数据输入指标包含是否涉及个人信息采集、个人信息采集是否加密、输入数据是否为特征向量、输入数据是否加密、加密算法类型、是否存储数据、数据存储时间、数据输入长度、数据交互鉴权方式;
·算法架构设计相关指标包含算法架构是否为开源架构、是否有数据泄露漏洞、数据泄露数量、算法架构是否有泄露风险事件、模型参数是否有泄露风险事件;
·算法训练数据相关指标包含训练数据中是否包含个人隐私数据、训练数据是否有泄露风险事件;
·算法推理服务相关指标包含算法推理接口是否有鉴权、鉴权方式、推理服务组件是否有漏洞、漏洞数量;
·算法输出数据相关指标包含匿名机制是否有效、是否为个性化展示提供能控制或能关闭机制、输出结果是否能定位到个人;
(2)算法应用外生风险指标抽取;从现有景区信息系统安全测评报告中抽取算法应用部署的网络环境、设备及个人隐私数据采集、存储、加密、销毁处理流程指标;相关指标包含但不限于是否内网环境、是否与互联网有数据交互、是否有个人信息存储、是否加密存储、是否加密传输、是否有身份鉴别、是否有访问控制、是否有边界防护、是否有网络流量监控、是否有网络入侵检测模块、数据存储介质类型、最近是否发生过个人信息泄露、是否遭受过网络攻击、是否发生过安全事件、是否受过安全警告、网络攻击频次、安全事件发生频次;
(3)算法应用内生风险指标和外生风险指标经过数据预处理模块生成风险特征向量Xfeat;
·数据拼接;将内生风险指标与外生风险指标拼接为风险指标特征向量,每一行代表一个景区,每一列代表一个指标数据;
·数据分类;风险指标按数据类型分为类别变量和连续变量;类别变量为诸如是否存储个人隐私数据、数据存储介质类型状态是否存在、状态的有限类型相关数据;连续变量为漏洞或事件发生的频次、数量;
·数据清洗;不同景区信息系统的安全防护等级不一致,因此风险指标存在缺失值、分布异常异常值问题;对于类别变量清洗默认填充为0,表示当前数据正常,连续变量清洗采用中值填充;
·数据映射;连续变量通过卡方分箱方式将连续值分为几个区块,将连续变量转换为类别变量;针对类别变量采用One-Hot方式进行处理,将类别变量映射至欧式空间;
(4)基于因果正则化抽取特征向量与目标变量之间的因果关系,结合逻辑回归算法训练评分卡模型;
·人工标记景区投诉事件作为训练标签Ytrain,与算法应用相关为1,否则为0;用第(3)步抽取事件相关的内生风险因子Xinner={Xinnner1,Xinner2,…Xinnerm}和外生风险因子Xouter={Xouter1,Xouter2,…Xoutern},进行拼接生成训练特征变量
·引入系数W,让处理变量为0和1时的混淆项的矩最小化,消除训练样本与真实样本分布差异,实现混淆平衡,保证变量与目标之间的关系为因果关系;其中
·逻辑回归表达式能表示为θ=WX+β,结合因果正则化结果逻辑回归目标函数能优化为J(w,β)(W≥0)使得风险评分映射为[0,1]之间;其中
其中权衡系数γi>0(i=1,2,3,4,5),初始化β和W,计算当前J(w,β),直至J(w,β)收敛或达到最大迭代次数,返回因果系数β和样本权重W;
·评分公式则能转换为base是基准分,也就是赋给景区风险的基础分数,所有算法应用风险分数在这个分数上面进行加减;P正样本是上一步计算出来的概率;lift是提升分数;默认lift设置为50、base设置为600;
(5)对景区内现有算法应用和待上线算法应用采用申报预审方式进行风险评估,收集算法应用的内生指标和外生指标组成Xtest,将特征向量输入上述模型即得到算法应用风险评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211248098.3A CN115632845B (zh) | 2022-10-12 | 2022-10-12 | 一种基于风险评分卡的景区算法应用风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211248098.3A CN115632845B (zh) | 2022-10-12 | 2022-10-12 | 一种基于风险评分卡的景区算法应用风险评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115632845A CN115632845A (zh) | 2023-01-20 |
CN115632845B true CN115632845B (zh) | 2023-12-05 |
Family
ID=84904636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211248098.3A Active CN115632845B (zh) | 2022-10-12 | 2022-10-12 | 一种基于风险评分卡的景区算法应用风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115632845B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN113361665A (zh) * | 2021-08-11 | 2021-09-07 | 成都理工大学 | 一种基于强化学习的高原山地旅游安全风险预警方法 |
CN113807570A (zh) * | 2021-08-12 | 2021-12-17 | 水利部南京水利水文自动化研究所 | 基于XGBoost的水库大坝风险等级评估方法及系统 |
CN114266441A (zh) * | 2021-11-20 | 2022-04-01 | 国网甘肃省电力公司 | 一种降低生产作业人员风险的量化评价系统及方法 |
CN114331122A (zh) * | 2021-12-28 | 2022-04-12 | 天津汇智星源信息技术有限公司 | 重点人员风险等级评估方法及相关设备 |
CN114358667A (zh) * | 2022-03-21 | 2022-04-15 | 创意信息技术股份有限公司 | 一种基于rbf网络学习的景区风险预测模型构建方法 |
CN114372642A (zh) * | 2022-03-21 | 2022-04-19 | 创意信息技术股份有限公司 | 一种城市节假日旅游景区风险评估的方法 |
CN114387089A (zh) * | 2022-01-18 | 2022-04-22 | 深圳前海微众银行股份有限公司 | 客户信用风险评估方法、装置、设备及存储介质 |
-
2022
- 2022-10-12 CN CN202211248098.3A patent/CN115632845B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN113361665A (zh) * | 2021-08-11 | 2021-09-07 | 成都理工大学 | 一种基于强化学习的高原山地旅游安全风险预警方法 |
CN113807570A (zh) * | 2021-08-12 | 2021-12-17 | 水利部南京水利水文自动化研究所 | 基于XGBoost的水库大坝风险等级评估方法及系统 |
CN114266441A (zh) * | 2021-11-20 | 2022-04-01 | 国网甘肃省电力公司 | 一种降低生产作业人员风险的量化评价系统及方法 |
CN114331122A (zh) * | 2021-12-28 | 2022-04-12 | 天津汇智星源信息技术有限公司 | 重点人员风险等级评估方法及相关设备 |
CN114387089A (zh) * | 2022-01-18 | 2022-04-22 | 深圳前海微众银行股份有限公司 | 客户信用风险评估方法、装置、设备及存储介质 |
CN114358667A (zh) * | 2022-03-21 | 2022-04-15 | 创意信息技术股份有限公司 | 一种基于rbf网络学习的景区风险预测模型构建方法 |
CN114372642A (zh) * | 2022-03-21 | 2022-04-19 | 创意信息技术股份有限公司 | 一种城市节假日旅游景区风险评估的方法 |
Non-Patent Citations (2)
Title |
---|
基于风险矩阵-Delphi法的山岳型景区风险因子评估;林柏泉;王一涵;揣小明;;黑龙江科技大学学报(06);全文 * |
林柏泉 ; 王一涵 ; 揣小明 ; .基于风险矩阵-Delphi法的山岳型景区风险因子评估.黑龙江科技大学学报.2017,(06),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115632845A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Henman | Improving public services using artificial intelligence: possibilities, pitfalls, governance | |
ES2877112T3 (es) | Detección de anomalías mejorada | |
Bozza et al. | Urban resilience: A civil engineering perspective | |
Socha et al. | Urban video surveillance as a tool to improve security in public spaces | |
Elluri et al. | Developing machine learning based predictive models for smart policing | |
Goldenfein | Algorithmic transparency and decision-making accountability: Thoughts for buying machine learning algorithms | |
Ranjbar et al. | A GIS-based approach for earthquake loss estimation based on the immediate extraction of damaged buildings | |
Schinke et al. | Analysing the effects of flood-resilience technologies in urban areas using a synthetic model approach | |
Hafez et al. | Optimizing expert-based decision-making of pavement maintenance using artificial neural networks with pattern-recognition algorithms | |
Garnett et al. | LIDAR—A technology to assist with smart cities and climate change resilience: A case study in an urban metropolis | |
Kaya et al. | Statistics and artificial intelligence-based pavement performance and remaining service life prediction models for flexible and composite pavement systems | |
Navarro et al. | Machine Learning Prediction of the Long-Term Environmental Acoustic Pattern of a City Location Using Short-Term Sound Pressure Level Measurements | |
CN115632845B (zh) | 一种基于风险评分卡的景区算法应用风险评估方法 | |
Zhou et al. | Risk Assessment in urban large-scale public spaces using Dempster-Shafer theory: An empirical study in Ningbo, China | |
Xiaoping et al. | Strategic Learning and Knowledge Management of Technological Innovation in Safety Evaluation Planning of Construction Projects | |
Guan et al. | Evaluating the impact of water protection policy on urban growth: A case study of Jiaxing | |
Barankin et al. | Evidence-driven approach for assessing social vulnerability and equality during extreme climatic events | |
Bian et al. | Estimating uncertainty of work zone capacity using neural network models | |
CN116051874A (zh) | 物品识别方法、装置、电子设备、介质和程序产品 | |
Custers et al. | Reuse of data in smart cities: Legal and ethical frameworks for big data in the public Arena | |
Singha et al. | COVID-19 Disease Classification Model Using Deep Dense Convolutional Neural Networks | |
Remmel | Investigating global and local categorical map configuration comparisons based on coincidence matrices | |
Chillali et al. | ECC Image Encryption Using System Generator | |
Cordero et al. | Performance Measure–Based Framework for Evaluating Transportation Infrastructure Resilience | |
Kadar et al. | Towards a burglary risk profiler using demographic and spatial factors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |