CN114254867A - 一种电信诈骗受害人风险评估系统及方法 - Google Patents
一种电信诈骗受害人风险评估系统及方法 Download PDFInfo
- Publication number
- CN114254867A CN114254867A CN202111390750.0A CN202111390750A CN114254867A CN 114254867 A CN114254867 A CN 114254867A CN 202111390750 A CN202111390750 A CN 202111390750A CN 114254867 A CN114254867 A CN 114254867A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- sample
- training
- fraud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及风险评估技术领域,公开了一种电信诈骗受害人风险评估系统及方法,所述的系统包括:数据库构建模块,用于提取指定区域内的电信诈骗受害人的数据信息和该区域内常住人口的数据信息后建立模型样本集,并按照70%和30%的比例分为训练集和测试集两个部分;特征辨识模块,提取训练集作为训练测试样本导入算法模型,把样本数据以众多决策树形式集中在一起,形成一个很强的分类器并从中提取有效特征目标,按照每个特征数据的重要性并排序选最优;模型构建模块,以指定特征值对样本数据进行预测模型训练,确定容易受电信诈骗的风险概率,相比于传统方式,本申请对缺失值不敏感、抗噪能力强的特点,能够尽可能的降低对模型准确度的影响。
Description
技术领域
本发明属于风险评估技术领域,具体涉及一种电信诈骗受害人风险评估系统及方法。
背景技术
电信诈骗是指通过电话、网络和短信方式,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人打款或转账的犯罪行为,通常以冒充他人及仿冒、伪造各种合法外衣和形式的方式达到欺骗的目的。
近年来,电信诈骗案件更是高发多发,成为群众反应最强烈的突出犯罪,电信诈骗案件呈现的特点有3个方面:
1、发案数量多,损失越来越大;
2、打击难度大,成本越来越高,犯罪窝点向国外转移,分工越来越细;
3、社会风险高,隐患越来越大,不仅给受害人带来经济损失,还会给部分受害人带来危及身心健康的二次伤害,极易引发社会关注事件或者个人极端事件。
而为了有效的防止电信诈骗案件,需要从源头出发,围绕“源头预防和减少电信诈骗案件”这一总体目标,以“预测识别易受害人”为核心,来对电信诈骗进行有效的处理。
而这里源头指的是易受害人,这些易受害人在面对电信诈骗时都有着辨析能力差,容易受骗的特性,因此通过识别出这些易受害人,并进行相关的指导,可以从源头减少电信诈骗案件的发生。
现在常见的防止电信诈骗的处理中大多是集中调取一定区域内所有的居民信息,这些居民信息涵盖有年龄、性别、职业甚至是工作经历和受教育水平,覆盖范围非常广,但是当遇到人员属性(收入、婚姻状况等)数据不全面的问题时,会在筛选和判定的过程中造成影响,抗噪能力较弱,不能保证模型的准确性。
发明内容
本发明的目的在于提供一种电信诈骗受害人风险评估系统及方法,以解决上述背景技术中提出如何在绕过授权中心之后,仍能够保证系统运行的安全性。
为实现上述目的,本发明提供如下技术方案:
一种电信诈骗受害人风险评估系统,所述的系统包括:
数据库构建模块,用于提取指定区域内的电信诈骗受害人的数据信息和该区域内常住人口的数据信息后建立模型样本集,并按照70%和30%的比例分训练集和测试集两个部分;
特征辨识模块,提取训练集作为训练测试样本导入算法模型,把样本数据以众多决策树形式集中在一起,形成一个很强的分类器并从中提取有效特征目标,按照每个特征数据的重要性并排序选最优;
模型构建模块,以指定特征值对样本数据进行预测模型训练,确定容易受电信诈骗的风险概率。
以下是本发明对上述技术方案的进一步优化:
还包括模型参数优化模块,所述的模型参数优化模块用于调节模型算法的参数,用以提高模型的学习速率和准确性,模型学习速率是指模型在训练是对数据样本集中数据的采样条目数,理论上将每一条数据都通过模型进行遍历读取,的确会得到最准确的分析结果,预测模型在学习速率调参优化方面,采用了学习速率退火方法,即从一个比较高的学习速率,通过制定“步衰减”表来逐步中降低学习速率。
进一步优化:还包括模型测试模块,所述的模型测试模块用于衡量数据模型,在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标作出接受者操作特性曲线(ROC曲线),通过所述的接受者操作特性曲线(ROC曲线)计算出AUC,通过AUC作为衡量数据模型的评价指标,以是否超过标准值0.85为依据,判断是否完全满足风险预测的实际需要。
进一步优化:当出现新的电信诈骗受害人时,会提取其数据信息,并对模型样本集进行更新。
一种电信诈骗受害人风险评估方法,所述的方法包括:
提取指定区域内的电信诈骗受害人的数据信息和该区域内常住人口的数据信息后建立模型样本集,并按照70%和30%的比例分为训练集和测试集两个部分;
提取训练集作为训练测试样本导入算法模型,把样本数据以众多决策树形式集中在一起,形成一个很强的分类器并从中提取有效特征目标,按照每个特征数据的重要性并排序选最优;
以指定特征值对样本数据进行预测模型训练,确定容易受电信诈骗的风险概率。
进一步优化:还需要调节模型算法的参数,用以提高模型的学习速率和准确性,模型学习速率是指模型在训练是对数据样本集中数据的采样条目数,理论上将每一条数据都通过模型进行遍历读取,得到最准确的分析结果,预测模型在学习速率调参优化方面,采用了学习速率退火方法,即从一个比较高的学习速率,通过制定“步衰减”表来逐步中降低学习速率。
进一步优化:需要衡量数据模型,在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标作出接受者操作特性曲线(ROC曲线),通过所述的接受者操作特性曲线(ROC曲线)计算出AUC,通过AUC作为衡量数据模型的评价指标,以是否超过标准值0.85为依据,判断是否完全满足风险预测的实际需要。
进一步优化:当出现新的电信诈骗受害人时,会提取其数据信息,并对模型样本集进行更新。
与现有技术相比,本发明的有益效果是:
通过本申请中的建模算法,可以有效避免因正负样本值数量差距大,导致数据过拟合的问题。
并且对缺失值不敏感、抗噪能力强的特点,能够尽可能的降低对模型准确度的影响。
支持并行化计算,训练速度快,当后期获取到新的数据类别或数据内容时,能够随时参与模型计算,为缩减模型优化迭代时间,提供了技术保障,这也是针对电诈手段不断翻新,需要及时识别特征规律的实战需求。
下面结合附图和实施例对本实用新型进一步说明。
附图说明
图1为本发明实施例1的结构示意图;
图2为本发明实施例2的结构示意图;
图3为本发明电信诈骗受害人风险评估系统流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有方向性指示(诸如上、下、左、右、前、后......),则其仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若在本发明中涉及“第一”、“第二”等的描述,则其仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例1:
如图1所示,示出了本发明中的一种电信诈骗受害人风险评估系统的结构示意图,所述的一种电信诈骗受害人风险评估系统应用于能够实时连接互联网的设备,该设备可以是手机、平板电脑和计算机等可以通信的设备,此处不做具体限定,详述如下:
数据库构建模块100,用于提取指定区域内的电信诈骗受害人的数据信息和该区域内常住人口的数据信息后建立模型样本集,并按照70%和30%的比例分为训练集和测试集两个部分;
特征辨识模块200,提取训练集作为训练测试样本导入算法模型,把样本数据以众多决策树形式集中在一起,形成一个很强的分类器并从中提取有效特征目标,按照每个特征数据的重要性并排序选最优;
模型构建模块300,以指定特征值对样本数据进行预测模型训练,确定容易受电信诈骗的风险概率。
另外,所述的一种离线充值支付系统还包括模型参数优化模块400,所述的模型参数优化模块400用于调节模型算法的参数,用以提高模型的学习速率和准确性,模型学习速率是指模型在训练是对数据样本集中数据的采样条目数,理论上将每一条数据都通过模型进行遍历读取,的确会得到最准确的分析结果,预测模型在学习速率调参优化方面,采用了学习速率退火方法,即从一个比较高的学习速率,通过制定“步衰减”表来逐步中降低学习速率。
实施例2:
如图2中所示,在本发明另一种优选的实施例中,还包括模型测试模块500,所述的模型测试模块500用于衡量数据模型,在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标作出接受者操作特性曲线(ROC曲线),通过所述的接受者操作特性曲线(ROC曲线)计算出AUC,通过AUC作为衡量数据模型的评价指标,以是否超过标准值0.85为依据,判断是否完全满足风险预测的实际需要。
在本实施例的一种情况中,当出现新的电信诈骗受害人时,会提取其数据信息,并对模型样本集进行更新。
如图3所示,根据实施例1和实施例2,本发明还提供了一种电信诈骗受害人风险评估方法,所述的方法包括:
步骤S101,提取指定区域内的电信诈骗受害人的数据信息和该区域内常住人口的数据信息后建立模型样本集,并按照70%和30%的比例分为训练集和测试集两个部分;
步骤S102,提取训练集作为训练测试样本导入算法模型,把样本数据以众多决策树形式集中在一起,形成一个很强的分类器并从中提取有效特征目标,按照每个特征数据的重要性并排序选最优;
步骤S103,以指定特征值对样本数据进行预测模型训练,确定容易受电信诈骗的风险概率。
所述电信诈骗受害人风险评估系统及方法 所能实现的功能均由计算机设备完成,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所电信诈骗受害人风险评估系统及方法的功能。
在此,我们以一个案例作为示范:
第一步是构建数据样本,我们梳理本地2019年以来的1387名电诈受害人数据,与全市97万常住人口数据和民政、医疗、教育、卫健、医院等18类、530余万条社会资源数据进行匹配,建立模型样本集,并按照70%和30%的比例分为训练集和测试集两个部分。
基于本地2019年以来的1387名电诈受害人数据,整合全市公安、民政、医疗、教育、卫健等多种公安内外部社会资源数据,进行尽可能多的特征属性数据匹配,特别是对从经验看较为重要的人员收入、职业类型等特征数据的充实。
依托以上数据特征库,建立模型样本集,模型样本集同样引入class标签进行正反样本数据构建。
这里需要注意的是,因为1387条电诈受害人数据相比全市户籍人口近97万条的正样本数据占比太少,有可能出现数据分布很不均匀的情况而产生“长尾现象”,即如果预测电诈易受害人的可能,如果百分之九十以上的数据都在非受害人这里,那系统预测一条数据他的标签是正负,预测器只需要把所有数据预测为非受害人即可得到较高的准确率,而这样的预测器显然没有价值。
为了解决正负样本比例不平衡问题,解决主要方法即是设法让大众和小众样本在机器学习中可以得到一致的话语权,例如利用采样、加权等方法。
本次主要利用采样方法从整理的全市户籍人口样本数据中随机抽样15万人做负样本的非受害者与1387条已经受害人员共同组建样本数据集,并按照70%和30%的比例分为训练集和测试集两个部分,作为机器学习的训练与测试样本。
其中,具体整合的特征数据有19项,具体相应样本数据宽表示例如下表所示:
特征属性 | 样本1 | 样本2 | 样本3 | 样本4 |
职业 | 事业单位人员 | 门卫 | 学生 | 居家 |
年龄 | 34 | 56 | 17 | 48 |
文化程度 | 本科 | 中专 | 高中 | 高中 |
婚姻状况 | 1 | 1 | 0 | 1 |
哺乳期 | 1 | 0 | 0 | 0 |
收入状况 | 中等收入 | 中高收入 | 无收入 | 无收入 |
性别 | 女 | 男 | 女 | 女 |
育龄妇女 | 1 | 0 | 1 | 1 |
是否残疾 | 0 | 0 | 0 | 0 |
政治面貌 | 党员干部 | 群众 | 群众 | 群众 |
民族 | 汉族 | 汉族 | 汉族 | 汉族 |
乡镇街道 | 长河街道 | 铁西南镇 | 新湖街道办事处 | 翟家镇 |
工作单位 | 某学校 | 某门岗 | 某学校 | 无 |
是否有微信 | 1 | 1 | 1 | 1 |
是否有qq | 1 | 1 | 0 | 0 |
是否农村 | 0 | 0 | 0 | 1 |
是否公务员事业单位 | 1 | 0 | 0 | 0 |
是否在校学生 | 0 | 0 | 1 | 0 |
居住地类型 | 市区小区 | 城镇小区 | 市区小区 | 行政村居 |
是否受骗标签 | 0 | 1 | 0 | 1 |
第二步是提取特征。
XGboost算法介绍
将训练样本数据导入Xgboost算法(是集成学习方法之一的boosting 下提升树模型的一种)模型进行特征提取,把以上带有正反标注的样本数据以众多决策树形式集中在一起,形成一个很强的分类器而提取有效特征目标,通过该算法自动确定每个特征数据的重要性并排序选最优。
其中,Xgboost是一种Boosting算法,Boosting算法的思想是将许多弱分类器集成形成一个强分类器,可以有效防止数据过拟合,适合提取有效特征。
其决策树模型为CART分类回归树模型,这是一种有效的非参数分类(终结点为分类变量)和回归(终结的是连续变量)方法,以构建数、修建树、评估树来逐步构建一个二叉树,Boosting算法的数学意义是一种加法模型(additive training)。
项目采用XGBoost算法进行模型的搭建,主要是有以下几个方面的因素:
1)从建模数据集特点看:建模数据中正样本是2019年以来1387名受害人数据,负样本是本地人口库中排除受害人后随机抽取20%约15万条人口数据,正负样本数量占比差距较大,随机森林算法可以有效避免因正负样本值数量差距大,导致数据过拟合的问题。
2)从数据集数据质量看:人员属性(收入、婚姻状况等)数据不全面的现实问题,随机森林算法具有对缺失值不敏感、抗噪能力强的特点,能够尽可能的降低对模型准确度的影响。
3)从电信诈骗案件特点看:XGBoost算法支持并行化计算,训练速度快,当后期获取到新的数据类别或数据内容时,能够随时参与模型计算,为缩减模型优化迭代时间,提供了技术保障,这也是针对电诈手段不断翻新,需要及时识别特征规律的实战需求。
4)从反诈工作实战需求看:公安机关在打击预防电诈案件的实战工作中,不仅需要知道谁容易被骗,还需要了解是哪些方面导致受害人容易被骗,以便更主动的开展电诈宣传工作。
而XGBoost算法即具有分类性又具有回归性的特点,就能够很好的满足以上两点的实战需求,分类性的特点可以识别哪些人具有风险;而回归性能够对近百项人口属性特征的权重值进行分析,解答为什么是“他”被骗的问题,基于以上原因,模型采用XGboost算法进行建模。
XGboost算法应用
在模型应用中,通过调用决策树可视化函数,对其中可视化的一条决策树枝干进行解释,从以上算法中调用决策树可视化函数,对其中局部决策树分类方式进行展示,可以看到,其中,中间不断可以用是否分类的属性判别节点叫中间节点,可以继续划分的属性分类,而带有leaf值的最终结果叫叶节点,其已经是最终运算,不能在继续进行,其数值表示的即是在以上中间节点分裂完成后已经可以判断正负样本。
对年龄小于24.5岁的自变量进行判断,如果不是的样本,系统再进行年龄小于25.5岁的判定,如果这是年龄小于25.5岁后,根据该变量往上的所有二叉树划分,已经可以把样本进行正反分类,则该分支决策树结束,输出相应的叶节点及数值。
如果年龄不是小于25.5岁,机器自动再分配比较性别自变量,直到自变量的分裂已经可以将数据进行分类后停止。
根据以上定义,采用Xgboost算法进行特征提取,每一条数据构建单个决策树,决策树中每个属性字段分裂点的量来计算该属性的重要性,由决策树节点负责加权和记录次数,越靠近决策树根节点的属性,权重值越大,最终对每一个属性字段在决策树中的重要性进行评分,树的分叉和叶子节点的顺序都是机器生成的。
具体实现,首先建立特征提取数据集,以人口数据、民政、医疗、教育、卫健、医院等19类为属性字段。
接着样本集中每一条数据构建单个决策树,决策树中每个属性字段分裂点的量来计算该属性的重要性,有决策树节点负责加权和记录次数,越靠近决策树根节点的属性,权重值越大,最终对每一个属性字段在决策树中的重要性进行评分。
当然对于属性加权和评分都是XGBoost算法,自动完成的,不需要人工干预。
通过XGBoost算法计算确定的特征,包括:职业、年龄、文化程度、婚姻状况等11项数据,作为预测模型的计算变量,这些特征都是通过算法自动提取,不是我们凭经验人为确定的。
第三步是搭建模型。
因XGboost算法即可以分类也可以回归,同时该算法适合电诈场景的预测,本质上就是以决策树的形式,预测某一特定人员容易受电信诈骗的风险概率。
因为该模型支持并行化计算,训练速度较快,该优势点对电诈案件十分重要,在电诈案件循环换代很快及情报主导警务模式开展的社会面数据整合实时推进的过程中,Xgboost并行化计算较快的优势可以让随时整合的案件受害人数据和新型特征维度作为样本数据,不断进行模型的迭代优化升级。
基于以上确定的11项重要特征值的计算结果,以该11项特征属性匹配样本数据进行预测模型训练,用XGBoost算法搭建模型,预测某一特定人员容易受电信诈骗的风险概率。
因为XGboost等机器学习算法模型均为黑箱模型,模型训练中根本无法看到样本数据的完整决策树类型,并且无法对建模过程进行手段干预。
在系统测试过程中,对测试结果的调整,主要依托两类维度的变化:
一是需要调整增加新的回归树数量,该项调整对应增加回归树为应用上图红框中的n_estimators参数来实现;
二是为给每个回归树赋予合适的深度,来相应增加回归树深度的为红框中max_depth参数调整。
通过对以上两个数值的反复调试,在此基础上综合不同的回归树预测指标得分来获得更为准确的预测结果,这就是模型搭建中xgboost调参基本思路。
每次参数调整完成后,通过AUC指标对模型进行评价,以确定该轮调参内容是否对模型准确性提升有帮助。
AUC是作为评价学习器性能的指标 :主要指ROC曲线下的面积大小,而ROC曲线以TP为纵坐标,FP为横坐标,表示为达到某个TP(识别率),其相应的该分类器的FP(误判率)数值,体现两者的关系。
该曲线下方区域面积即为AUC,AUC指标一般大于0.5,这个值越接近1,说明模型的判别效果越优异。
在使用测试数据集对模型进行测试的过程中,模型评价得分val-accuracy(AUC值)是0.95813,已经远远超过了标准值0.85,完全满足风险预测的实际需要,建模完成。
模型参数调优
传统数据建模往往将通用的机器学习算法(例如:随机森林、神经网络)直接应用模型的搭建,忽略了对模型进行算法调参优化的步骤,导致模型建立后存在训练速度慢、分析结果不够准的问题,依据该模型开发的系统,虽然能用但却不那么好用。
如果将通用算法看做是一把“切菜刀”的话,有些人只能囫囵切土豆块,有些人却能切土豆丝,其中的差距就在于从应用方面对算法的掌握与优化。
公安为了能将反诈受害人预测工作做精做细,在预测模型技术框架基本确立后,重点从模型学习速率和准确性两个方面,开展了模型算法调参优化的工作。
模型学习速率是指模型在训练是对数据样本集中数据的采样条目数,理论上将每一条数据都通过模型进行遍历读取,的确会得到最准确的分析结果,但模型训练时间会大幅上升,无法满足抢在电诈发生之前制止犯罪的建模目标。
减少数据采样数量,能明显降低模型训练时间,但会影响受害人特征识别的准确性,模型学习速率调参技术,就是为了确定适合的学习速率。
预测模型在学习速率调参优化方面,采用了学习速率退火(learning rateannealing)方法,即从一个比较高的学习速率,通过制定“步衰减”(Step Decay)表来逐步中降低学习速率。
随着数据采样比例的下降,模型训练时间也同比减少。
处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成。
所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。
一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。
存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。
此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。
其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电信诈骗受害人风险评估系统,其特征在于:所述的系统包括:数据库构建模块,用于提取指定区域内的电信诈骗受害人的数据信息和该区域内常住人口的数据信息后建立模型样本集,并按照70%和30%的比例分为训练集和测试集两个部分;
特征辨识模块,提取训练集作为训练测试样本导入算法模型,把样本数据以众多决策树形式集中在一起,形成一个很强的分类器并从中提取有效特征目标,按照每个特征数据的重要性并排序选最优;
模型构建模块,以指定特征值对样本数据进行预测模型训练,确定容易受电信诈骗的风险概率。
2.根据权利要求1所述的一种电信诈骗受害人风险评估系统 ,其特征在于:还包括模型参数优化模块,所述的模型参数优化模块用于调节模型算法的参数,用以提高模型的学习速率和准确性,模型学习速率是指模型在训练是对数据样本集中数据的采样条目数,理论上将每一条数据都通过模型进行遍历读取,得到最准确的分析结果,预测模型在学习速率调参优化方面,采用了学习速率退火方法,即从一个比较高的学习速率,通过制定“步衰减”表来逐步中降低学习速率。
3.根据权利要求2所述的一种电信诈骗受害人风险评估系统 ,其特征在于:还包括模型测试模块,所述的模型测试模块用于衡量数据模型,在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标作出接受者操作特性曲线(ROC曲线),通过所述的接受者操作特性曲线(ROC曲线)计算出AUC。
4.根据权利要求3所述的一种电信诈骗受害人风险评估系统 ,其特征在于:当出现新的电信诈骗受害人时,会提取其数据信息,并对模型样本集进行更新。
5.一种电信诈骗受害人风险评估方法,其特征在于:所述的方法包括:
提取指定区域内的电信诈骗受害人的数据信息和该区域内常住人口的数据信息后建立模型样本集;
提取训练集作为训练测试样本导入算法模型,把样本数据以众多决策树形式集中在一起,形成一个很强的分类器并从中提取有效特征目标,按照每个特征数据的重要性并排序选最优;
以指定特征值对样本数据进行预测模型训练,确定容易受电信诈骗的风险概率。
6.根据权利要求5所述的一种电信诈骗受害人风险评估方法,其特征在于:还需要调节模型算法的参数,用以提高模型的学习速率和准确性,模型学习速率是指模型在训练是对数据样本集中数据的采样条目数,理论上将每一条数据都通过模型进行遍历读取,得到最准确的分析结果,预测模型在学习速率调参优化方面,采用了学习速率退火方法,即从一个比较高的学习速率,通过制定“步衰减”表来逐步中降低学习速率。
7.根据权利要求6所述的一种电信诈骗受害人风险评估方法,其特征在于:需要衡量数据模型,在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标作出接受者操作特性曲线(ROC曲线),通过所述的接受者操作特性曲线(ROC曲线)计算出AUC,通过AUC作为衡量数据模型的评价指标。
8.根据权利要求5所述的一种电信诈骗受害人风险评估方法,其特征在于:当出现新的电信诈骗受害人时,会提取其数据信息,并对模型样本集进行更新。
9.根据权利要求5所述的一种电信诈骗受害人风险评估方法,其特征在于:将所述的模型样本集按照70%和30%的比例分为训练集和测试集两个部分。
10.根据权利要求7的所述的一种电信诈骗受害人风险评估方法,其特征在于:在具体的评价中,以AUC值是否超过标准值0.85为依据,判断是否完全满足风险预测的实际需要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111390750.0A CN114254867A (zh) | 2021-11-20 | 2021-11-20 | 一种电信诈骗受害人风险评估系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111390750.0A CN114254867A (zh) | 2021-11-20 | 2021-11-20 | 一种电信诈骗受害人风险评估系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254867A true CN114254867A (zh) | 2022-03-29 |
Family
ID=80792966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111390750.0A Pending CN114254867A (zh) | 2021-11-20 | 2021-11-20 | 一种电信诈骗受害人风险评估系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254867A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581219A (zh) * | 2022-04-29 | 2022-06-03 | 弘沣智安科技(北京)有限公司 | 一种反电信网络诈骗预警方法及系统 |
CN115423156A (zh) * | 2022-08-15 | 2022-12-02 | 博源规划设计集团有限公司 | 一种新建铁路四电工程用地选址优化方法 |
CN115689298A (zh) * | 2022-12-30 | 2023-02-03 | 北京码牛科技股份有限公司 | 一种电信诈骗风险预测方法、系统、设备及可读存储介质 |
-
2021
- 2021-11-20 CN CN202111390750.0A patent/CN114254867A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581219A (zh) * | 2022-04-29 | 2022-06-03 | 弘沣智安科技(北京)有限公司 | 一种反电信网络诈骗预警方法及系统 |
CN115423156A (zh) * | 2022-08-15 | 2022-12-02 | 博源规划设计集团有限公司 | 一种新建铁路四电工程用地选址优化方法 |
CN115423156B (zh) * | 2022-08-15 | 2023-09-15 | 博源规划设计集团有限公司 | 一种新建铁路四电工程用地选址优化方法 |
CN115689298A (zh) * | 2022-12-30 | 2023-02-03 | 北京码牛科技股份有限公司 | 一种电信诈骗风险预测方法、系统、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114254867A (zh) | 一种电信诈骗受害人风险评估系统及方法 | |
CN109816092A (zh) | 深度神经网络训练方法、装置、电子设备及存储介质 | |
CN109492945A (zh) | 企业风险识别监控方法、装置、设备及存储介质 | |
CN109670936A (zh) | 贷款审批处理方法、平台、设备及计算机可读存储介质 | |
CN109409677A (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
CN109636061A (zh) | 医保欺诈预测网络的训练方法、装置、设备及存储介质 | |
CN108399509A (zh) | 确定业务请求事件的风险概率的方法及装置 | |
CN110084610A (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN108898476A (zh) | 一种贷款客户信用评分方法和装置 | |
CN109377339A (zh) | 一种可疑交易案例的辅助甄别方法及系统 | |
WO2022142903A1 (zh) | 身份识别方法、装置、电子设备及相关产品 | |
CN110209841A (zh) | 一种基于诈骗案件案情的诈骗分析方法及装置 | |
CN114757677A (zh) | 一种交易欺诈风险的智能评估方法及系统 | |
CN112749973A (zh) | 一种权限管理方法、装置和计算机可读存储介质 | |
CN109522858A (zh) | 植物疾病检测方法、装置及终端设备 | |
CN111798303A (zh) | 一种法院被执行人履行能力评估的方法 | |
CA3150593A1 (en) | Method for identifying underground industry entities and system thereof | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN115049397A (zh) | 识别社交网络中的风险账户的方法及装置 | |
CN116823442A (zh) | 信贷业务中欺诈风险的预测方法 | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
CN113673870B (zh) | 一种企业数据分析方法及相关组件 | |
CN113435713B (zh) | 基于gis技术和两模型融合的风险地图编制方法及系统 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN109063485A (zh) | 一种基于漏洞平台的漏洞分类统计系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |