CN115632845B

CN115632845B - 一种基于风险评分卡的景区算法应用风险评估方法

Info

Publication number: CN115632845B
Application number: CN202211248098.3A
Authority: CN
Inventors: 罗义斌; 李军; 胡明慧; 孙力斌; 权骏
Original assignee: Nanjing Lianchuang Digital Technology Co ltd
Current assignee: Nanjing Lianchuang Digital Technology Co ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2023-12-05
Anticipated expiration: 2042-10-12
Also published as: CN115632845A

Abstract

一种基于风险评分卡的景区算法应用风险评估方法，将算法应用风险分为内生风险和外生风险两大类，算法内生风险以算法应用厂家提供的算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标形成内生风险因子，算法外生风险以算法应用部署网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程形成外生风险因子，结合个人信息安全影响需求对多种因子进行归一化和权重分配，构成风险评分模型。最后通过模型对已上线或待上线算法应用进行风险评分，生成风险评分报告，满足景区自查及上级监管部门对算法应用的监管需求。

Description

一种基于风险评分卡的景区算法应用风险评估方法

技术领域

本发明属于算法审计领域，尤其涉及旅游景区的算法应用利用个人隐私数据行为的风险评估。

背景技术

随着大数据在社会治理中发挥越来越重要的作用，要求有关算法的监管要尽可能避免“一刀切”、进入常态化治理阶段，实现“灵活敏捷治理”，使算法治理能够跟上技术发展步伐。目前对算法的监管主要是从网络安全、法律风险等角度作规范，由于数据流转过程中的追溯难度大、涉及面广、算法的封闭性、算法审计制度不完善等因素导致算法监管技术手段匮乏。旅游景区作为服务提供方及算法应用使用方，大量使用等保规范保障信息安全，对于涉及大量个人隐私数据相关的算法应用安全风险、风险影响范围均无相关技术手段进行防范，无法满足监管单位需求。

CN202210276088.4涉及城市节假日旅游景区风险评估的方法，包括以下步骤：

步骤一：确定并获取与景区旅游风险相关影响因素的数据；步骤二：使用线性假设描述影响景区风险的固定要素；步骤三：使用RBF网络描述影响景区风险的浮动要素；步骤四：合并固定要素影响和浮动要素影响得到景区风险模型；步骤五：利用景区风险模型进行风险评估，并使用RBF网络学习提升模型描述的准确性。本发明结合城市节假日旅游景区治理调度的业务需求，从景区天气、历史平均游客接待量、景区隐患点、救援力量分布、景区客流、游客投诉等方面的数据，可以定量的反映旅游景区的风险情况，将有限的救援力量投入关键的地点，提高救援的精准度，降低风险发生的概率。

CN202210276116.2一种基于RBF网络学习的景区风险预测模型构建方法，包括以下步骤：固定因素提取，获取景区历史旅游数据，提取某一时间段内的影响景区风险大小的相对固定因素，并采用线性假设方式将提取的相对固定因素组合为景区风险线性函数；浮动因素提取，根据景区历史旅游数据提取浮动因素，并构建RBF网络对提取的浮动因素进行线性转换，获得与景区风险线性相关的的浮动因素；风险预测模型构建，合并固定因素和浮动因素得到最终景区风险模型。本发明可以定量的反映旅游景区的风险情况，将有限的救援力量投入关键的地点，提高救援的精准度，降低风险发生的概率。

CN202111258913X景区疫情风险预测与限流方法、装置、设备和存储介质，方法包括：获取预设的历史时段内各单位时间的景区疫情数据，得到样本数据，所述景区疫情数据包括景区所在的县级行政区在确诊患者城市流动网络中的中心度、景区所在的县级行政区的传染病再生数、景区人流量以及景区人流密度；分别根据样本数据中的各景区疫情数据，对各景区疫情数据对应的神经网络模型进行训练；分别根据训练后的各神经网络模型，得到各景区疫情数据的预测值，并根据各景区疫情数据的预测值，计算疫情风险指数；根据疫情风险指数，确定限流比例。

CN2017109308670一种景区交通监测管理系统，围绕重点旅游景区交通监测管理建设，构建完备的景区大面积交通拥堵预警与监管、停车拥堵预警与监管、客流密度预警与监管以及景区交通出行信息服务体系，突破在重点旅游景区行人车辆聚集与交通综合运行稳定性评估分析方面的核心技术。

为满足算法监管需求，互联网大厂从算法应用内部进行风险评估，将机器学习模型风险从自身信息泄露风险、训练数据泄露风险、推理服务数据泄露风险、模型攻击成本等维度进行刻画，并采用逻辑回归算法拟合算法整体的风险得分，得分越高风险越高。该方法实现一种算法内生监管模式，能满足算法应用开发方自身的算法风险防范，但对于算法监管方和算法使用方的算法应用风险监管还存在以下问题：

1、算法应用作为信息系统中的一种细分应用，不同算法开发商在不同场景下所使用的算法技术架构、数据源、服务提供方式均不一致，特别是OTA(Online Travel Agency，在线旅行社)厂家利用个人隐私数据提供推荐服务时，不仅要满足算法内生风险评估，还要客观的描述算法数据交互风险、算法输出结果风险，满足算法应用监管需求。

2、景区为旅客提供无感入园服务时，也将个人隐私数据(包含但不限于身份证号、健康码状态、生物特征信息等)存储在闸机、票务系统等系统内，因此不同景区承担着个人隐私数据泄露风险，因此缺乏一种满足从网络风险、设备风险、数据流转风险等多维算法应用风险评估方法指导景区进行风险防护。

针对上述问题，本发明提出一种基于风险评分卡的景区算法应用风险评估方法，从算法应用数据流转各个维度进行风险评估，并为景区及监管部门提供可解释性强的风险评估报告。

发明内容

本发明目的是，针对景区内算法应用风险防控能力不足问题，提出了一种基于风险评分卡的景区算法应用风险评估方法。

针对现有技术的不足，本发明要解决的技术问题主要包括：

(1)从监管角度刻画算法内生风险；从算法开发厂家提供的数据构建内生风险因子，避免因景区人员对算法应用风险认知不足。

(2)从个人隐私数据保护角度刻画算法应用外生风险；从现有景区信息系统安全测评报告中抽取算法应用部署的网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程指标，形成外生风险因子，体系化评估算法应用外生风险，避免信息系统风险数据孤岛。

(3)引入因果正则化对类别数据进行处理，利用内生因子和外生因子构建评分卡模型，避免传统逻辑回归评分卡模型仅有相关性噪声变量的误导。

为此，本发明提供了一种基于风险评分卡的景区算法应用风险评估方法，方法包括：该方法将算法应用风险分为内生风险和外生风险两大类，算法内生风险以算法应用厂家提供的算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标形成内生风险因子，算法外生风险以算法应用部署网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程形成外生风险因子，结合个人信息安全影响需求对多种因子进行归一化和权重分配，构成风险评分模型。最后通过模型对已上线或待上线算法应用进行风险评分，生成风险评分报告，满足景区自查及上级监管部门对算法应用的监管需求。具体步骤为，

(1)算法应用内生风险指标抽取；从算法开发厂家提供的算法应用白皮书等说明文档及算法舆情数据中抽取算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据等属性指标；

●算法数据输入指标主要包含是否涉及个人信息采集、个人信息采集是否加密、输入数据是否为特征向量、输入数据是否加密、加密算法类型、是否存储数据、数据存储时间、数据输入长度、数据交互鉴权方式等；

●算法架构设计相关指标主要包含算法架构是否为开源架构、是否有数据泄露漏洞、数据泄露数量、算法架构是否有泄露风险事件、模型参数是否有泄露风险事件等；

●算法训练数据相关指标主要包含训练数据中是否包含个人隐私数据、训练数据是否有泄露风险事件等；

●算法推理服务相关指标主要包含算法推理接口是否有鉴权、鉴权方式、推理服务组件是否有漏洞、漏洞数量等；

●算法输出数据相关指标主要包含匿名机制是否有效、是否为个性化展示提供可控制或可关闭机制、输出结果是否可定位到个人等；

(2)算法应用外生风险指标抽取；从现有景区信息系统安全测评报告中抽取算法应用部署的网络环境、设备及个人隐私数据采集、存储、加密、销毁等处理流程指标；相关指标包含但不限于是否内网环境、是否与互联网有数据交互、是否有个人信息存储、是否加密存储、是否加密传输、是否有身份鉴别、是否有访问控制、是否有边界防护、是否有网络流量监控、是否有网络入侵检测模块、数据存储介质类型、最近是否发生过个人信息泄露、是否遭受过网络攻击、是否发生过安全事件、是否受过安全警告、网络攻击频次、安全事件发生频次等；

(3)算法应用内生风险指标和外生风险指标经过数据预处理模块生成风险特征向量X_feat；

●数据拼接；将内生风险指标与外生风险指标拼接为风险指标特征向量，每一行代表一个景区，每一列代表一个指标数据；

●数据分类；风险指标按数据类型分为类别变量和连续变量；类别变量主要为诸如是否存储个人隐私数据、数据存储介质类型等状态是否存在、状态的有限类型等相关数据；连续变量主要为漏洞或事件发生的频次、数量等；

●数据清洗；不同景区信息系统的安全防护等级不一致，因此风险指标存在缺失值、分布异常等异常值问题。对于类别变量清洗默认填充为0，表示当前数据正常，连续变量清洗采用中值填充；

●数据映射；连续变量通过卡方分箱方式将连续值分为几个区块，将连续变量转换为类别变量；针对类别变量采用One-Hot方式进行处理，将类别变量映射至欧式空间；

(4)基于因果正则化抽取特征向量与目标变量之间的因果关系，结合逻辑回归算法训练评分卡模型；

●人工标记景区投诉事件作为训练标签Y_train，与算法应用相关为1，否则为0；用第(3)步抽取事件相关的内生风险因子X_inner和外生风险因子X_outer，进行拼接生成训练特征变量X_train；

●引入系数W，让处理变量为0和1时的混淆项的矩最小化，消除训练样本与真实样本分布差异，实现混淆平衡，保证变量与目标之间的关系为因果关系；其中

●逻辑回归表达式可表示为结合因果正则化结果逻辑回归目标函数可以优化为J_(w，β)(W≥0)使得风险评分映射为[0，1]之间；其中

其中权衡系数γ_i>0(i＝1,2,3,4,5),初始化β和W,计算当前J_(w,β)，直至J_(w,β)收敛或达到最大迭代次数，返回因果系数β和样本权重W。

●评分公式则可转换为base是基准分，也就是赋给景区风险的基础分数，所有算法应用风险分数在这个分数上面进行加减；P_正样本是上一步计算出来的概率；lift是提升分数；默认lift设置为50、base设置为600。

(5)对景区内现有算法应用和待上线算法应用采用申报预审方式进行风险评估，收集算法应用的内生指标和外生指标组成X_test，将特征向量输入上述模型即可得到算法应用风险评分；

有益效果：本申请相对现有技术而言，具备以下优点：

(1)本发明将算法应用风险分为内生风险及外生风险，结合景区安全防范需求及政策导向设计一种多维指标抽取和评估因子计算方法，多方位刻画算法应用风险，在不增加成本情况下满足风险防控的可扩展性需求。

(2)采用因果正则项衡量特征变量对目标变量的因果作用，设计一种逻辑回归算法目标函数，在提升算法精度同时满足算法泛化性，满足不同景区、不同算法应用风险评估。

(3)提出一种基于风险评分卡的景区算法应用风险评估方法，能够对景区内算法应用风险按照风险评分卡生成评分，为算法应用风险管控提供一种决策方法，为景区和监管部门提供新的风险防控手段。

附图说明

图1本发明逻辑流程图；

图2数据预处理逻辑流程图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图和具体实施方式，对本发明的技术方案做进一步描述。

Step1：如图1所示，利用算法应用内生风险指标抽取模块对下辖景区所有算法应用进行指标抽取；

●抽取算法应用输入数据相关指标；算法数据输入指标主要包含是否涉及个人信息采集[0,1]、个人信息采集是否加密[0,1]、输入数据是否为特征向量[0,1]、输入数据是否加密[0,1]、输入数据类别[A,B,C]、输入数据敏感级别[低敏感级、较敏感级、敏感级、极敏感级]，加密算法类型[DES、RSA、SHA、SM2、SM3、SM4、其它]、是否存储数据[0,1]、数据存储时长、数据输入长度等；如景区闸机需要个人身份证号、生物特征、健康码等数据进行人员身份核验，该数据为A类敏感数据；且为保障离线状态仍可为游客提供服务，闸机还存储了当天游客核验相关身份信息；

抽取算法架构设计相关指标；指标主要包含算法架构是否为开源架构[0,1]、算法框架类型[Tensorflow、PyTorch、MxNet、PaddlePaddle、其它]、是否有数据泄露漏洞[0,1]、数据泄露数量、算法架构是否有泄露风险事件[0,1]、模型参数是否有泄露风险事件[0,1]等。每一个都代表一项信息系统安全风险，这些数据会从开源舆情事情中获取，属于另外一个数据采集领域；

●算法基础框架大多采用开源框架实现，且不同框架有或多或少的安全漏洞；

●抽取算法训练数据相关指标，主要指标有是否包含个人隐私数据[0,1]、训练数据是否有泄露风险事件[0,1]等。对于训练数据不同开发方使用的数据分布均不一样，相关指标项易产生缺失，后续对于缺失值由数据预处理模块进行填充；

●抽取算法推理服务及输出数据相关指标；主要包含匿名机制是否有效[0,1]、是否为个性化展示提供可控制或可关闭机制[0,1]、输出结果是否可定位到个人[0,1]等；

内生风险的检测主要创新性在于统一衡量风险；外生风险的定义就是系统所处环境风险；

Step2：如图1所示利用算法应用外生风险模块从景区安全扫描报告中抽取外生风险指标；外生风险指标从各景区的安全评估报告中抽取网络安全、数据安全、设备安全等维度指标，但由于不同景区安全等级要求不一致，因此指标维度也不一致，在监管侧默认各景区无风险的情况下对缺省指标采用默认填充缺省值方式进行处理。相关指标包含但不限于是否内网环境[0,1]、是否与互联网有数据交互[0,1]、是否有个人信息存储[0,1]、是否加密存储[0,1]、是否加密传输[0,1]、是否有身份鉴别[0,1]、是否有访问控制[0,1]、是否有边界防护[0,1]、是否有网络流量监控[0,1]、是否有网络入侵检测模块[0,1]、数据存储介质类型[分布式存储、磁盘阵列、SD卡、闪存、记忆棒、其它]、最近是否发生过个人信息泄露[0,1]、是否遭受过网络攻击[0,1]、是否发生过安全事件[0,1]、是否受过安全警告[0,1]、网络攻击频次、安全事件发生频次等；

Step3：如图2所示对内生风险指标和内生风险指标进行数据预处理；

Step3.1数据拼接；内生风险指标与外生风险指标可拼接为风险指标特征向量X_{ori_feat}，每一列均为一个指标数据，每一行为景区ID；

Step3.2数据分类；X_{ori_feat}按数据类型分为类别变量和连续变量；

Step3.3异常值处理；

●类别指标异常值处理；外生风险指标异常值表示安全防控力度缺失，而内生风险指标的缺失仅代表数据未提交所代表缺失，因此外生风险指标采用-1进行填充代表异常；内生风险指标采用0作为缺失值填充代表正常；

●连续数据指标异常值处理；连续数据指标按景区大小、安全防控等级进行分组求均值进行填充。均值即自适应均值，已经属于数学领域最小描述单元；核心在分组求均值，由一个函数groupby.mean处理；

Step3.4连续变量分箱处理；对于网络攻击频次、安全事件发生频次等指标采用景区上一年数据分布做等频分箱方式进行处理，其余指标采用卡方分箱算法进行处理。等频分箱方式是本领域的处理方式；

Step3.5数据映射；按上述步骤处理后的数据全变为类别变量矩阵，采用One-Hot算法进行映射，将X_{ori_feat}特征向量变为维度更宽的风险特征矩阵X_feat；

Step4基于因果正则化抽取特征向量与目标变量之间的因果关系，结合逻辑回归算法训练评分卡模型；

人工标记景区投诉事件作为训练标签Y_train，与算法应用相关为1，否则为0；标记事件相关的算法应用数据和景区安全测评报告等数据经过Step1～Step3处理后生成训练特征变量X_train；投诉事件为1，正常事件为0，人工标记。会有标记工具，但不在当前描述范围内。数据的处理步骤是上述Step1～Step3的描述步骤。

引入系数W，让处理变量为0和1时的混淆项的矩最小化，消除训练样本与真实样本分布差异，实现混淆平衡，保证变量与目标之间的关系为因果关系；其中

其中权衡系数γ_i＞0(i＝1，2，3，4，5)，初始化β和W，计算当前J_(w，β)，直至J_(w，β)收敛或达到最大迭代次数，返回因果系数β和样本权重W。

●在训练过程中因果系数β和样本权重W采用固定一个优化另一个的方法使得J_(w，β)收敛或达到最大迭代次数，且在训练过程中采用交叉验证方式寻找最优解。

Step5待测评景区算法应用相关数据经过Step1～Step3处理后生成测试特征向量X_test，输入至Step4生成的评分卡模型中返回score，其中 lift设置为50、base设置为600。生成评分后基于统计指标和业务维度划分风险等级，设置[0，500]为高风险，(500，700]为中风险，(700，1000)为低风险。

Claims

1.一种基于风险评分卡的景区算法应用风险评估方法，其特征是，将算法应用风险分为内生风险和外生风险两大类，算法内生风险以算法应用厂家提供的算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据属性指标形成内生风险因子，算法外生风险以算法应用部署网络环境、设备及个人隐私数据采集、存储、加密、销毁处理流程形成外生风险因子，结合个人信息安全影响需求对多种因子进行归一化和权重分配，构成风险评分模型；最后通过模型对已上线或待上线算法应用进行风险评分，生成风险评分报告，满足景区自查及上级监管部门对算法应用的监管需求；具体步骤为，

(1)算法应用内生风险指标抽取；从算法开发厂家提供的算法应用白皮书说明文档及算法舆情数据中抽取算法数据输入、算法架构设计、算法训练数据、推理服务运行方式、算法输出数据属性指标；

·算法数据输入指标包含是否涉及个人信息采集、个人信息采集是否加密、输入数据是否为特征向量、输入数据是否加密、加密算法类型、是否存储数据、数据存储时间、数据输入长度、数据交互鉴权方式；

·算法架构设计相关指标包含算法架构是否为开源架构、是否有数据泄露漏洞、数据泄露数量、算法架构是否有泄露风险事件、模型参数是否有泄露风险事件；

·算法训练数据相关指标包含训练数据中是否包含个人隐私数据、训练数据是否有泄露风险事件；

·算法推理服务相关指标包含算法推理接口是否有鉴权、鉴权方式、推理服务组件是否有漏洞、漏洞数量；

·算法输出数据相关指标包含匿名机制是否有效、是否为个性化展示提供能控制或能关闭机制、输出结果是否能定位到个人；

(2)算法应用外生风险指标抽取；从现有景区信息系统安全测评报告中抽取算法应用部署的网络环境、设备及个人隐私数据采集、存储、加密、销毁处理流程指标；相关指标包含但不限于是否内网环境、是否与互联网有数据交互、是否有个人信息存储、是否加密存储、是否加密传输、是否有身份鉴别、是否有访问控制、是否有边界防护、是否有网络流量监控、是否有网络入侵检测模块、数据存储介质类型、最近是否发生过个人信息泄露、是否遭受过网络攻击、是否发生过安全事件、是否受过安全警告、网络攻击频次、安全事件发生频次；

·数据拼接；将内生风险指标与外生风险指标拼接为风险指标特征向量，每一行代表一个景区，每一列代表一个指标数据；

·数据分类；风险指标按数据类型分为类别变量和连续变量；类别变量为诸如是否存储个人隐私数据、数据存储介质类型状态是否存在、状态的有限类型相关数据；连续变量为漏洞或事件发生的频次、数量；

·数据清洗；不同景区信息系统的安全防护等级不一致，因此风险指标存在缺失值、分布异常异常值问题；对于类别变量清洗默认填充为0，表示当前数据正常，连续变量清洗采用中值填充；

·数据映射；连续变量通过卡方分箱方式将连续值分为几个区块，将连续变量转换为类别变量；针对类别变量采用One-Hot方式进行处理，将类别变量映射至欧式空间；

·人工标记景区投诉事件作为训练标签Y_train，与算法应用相关为1，否则为0；用第(3)步抽取事件相关的内生风险因子X_inner＝{X_innner1,X_inner2,…X_innerm}和外生风险因子X_outer＝{X_outer1,X_outer2,…X_outern}，进行拼接生成训练特征变量

·引入系数W，让处理变量为0和1时的混淆项的矩最小化，消除训练样本与真实样本分布差异，实现混淆平衡，保证变量与目标之间的关系为因果关系；其中

·逻辑回归表达式能表示为θ＝WX+β，结合因果正则化结果逻辑回归目标函数能优化为J_(w,β)(W≥0)使得风险评分映射为[0,1]之间；其中

其中权衡系数γ_i>0(i＝1,2,3,4,5),初始化β和W,计算当前J_(w,β)，直至J_(w,β)收敛或达到最大迭代次数，返回因果系数β和样本权重W；

·评分公式则能转换为base是基准分，也就是赋给景区风险的基础分数，所有算法应用风险分数在这个分数上面进行加减；P_正样本是上一步计算出来的概率；lift是提升分数；默认lift设置为50、base设置为600；

(5)对景区内现有算法应用和待上线算法应用采用申报预审方式进行风险评估，收集算法应用的内生指标和外生指标组成X_test，将特征向量输入上述模型即得到算法应用风险评分。