CN108549954A - 风险模型训练方法、风险识别方法、装置、设备及介质 - Google Patents

风险模型训练方法、风险识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN108549954A
CN108549954A CN201810250156.3A CN201810250156A CN108549954A CN 108549954 A CN108549954 A CN 108549954A CN 201810250156 A CN201810250156 A CN 201810250156A CN 108549954 A CN108549954 A CN 108549954A
Authority
CN
China
Prior art keywords
risk
training data
risk model
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810250156.3A
Other languages
English (en)
Other versions
CN108549954B (zh
Inventor
金戈
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810250156.3A priority Critical patent/CN108549954B/zh
Priority to PCT/CN2018/094183 priority patent/WO2019184119A1/zh
Publication of CN108549954A publication Critical patent/CN108549954A/zh
Application granted granted Critical
Publication of CN108549954B publication Critical patent/CN108549954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q50/40

Abstract

本发明公开了一种风险模型训练方法、风险识别方法、装置、设备及介质,该风险模型训练方法包括:对历史出行数据进行风险值标注,获取原始训练数据;对所述原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据;按照预设时间对所述目标训练数据进行拆分,获取训练集和测试集;采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型;采用测试集对原始风险模型进行测试,获取目标风险模型。该风险模型训练方法有效解决了当前风险模型的识别效率低且模型的准确率不高的问题。

Description

风险模型训练方法、风险识别方法、装置、设备及介质
技术领域
本发明涉及数据预测领域,尤其涉及一种风险模型训练方法、风险识别方法、装置、设备及介质。
背景技术
目前,基于运输业的风险模型主要用于识别运输对象的风险,尤其是用于训练和识别运输对象的犯罪风险。现有基于运输业的风险模型的因子对模型影响不大。例如:现有风险模型包括运输对象的出行时间点、出行地点、性别、出生年月和证件类型等模型因子。这些模型因子的数量较少且蕴含风险的相关信息量较少,使得只采用这些模型因子进行训练所得到的风险模型的识别效率低且风险模型识别的准确率不高。
发明内容
本发明实施例提供一种风险模型训练方法、风险识别方法、装置、设备及介质,以解决当前风险模型的识别效率低和准确率不高的问题。
第一方面,本发明实施例提供一种风险模型训练方法,包括:
对历史出行数据进行风险值标注,获取原始训练数据;
对所述原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据;
按照预设时间对所述目标训练数据进行拆分,获取训练集和测试集;
采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型;
采用测试集对原始风险模型进行测试,获取目标风险模型。
第二方面,本发明实施例提供一种风险模型训练装置,包括:
原始训练数据获取模块,用于对历史出行数据进行风险值标注,获取原始训练数据;
目标训练数据获取模块,用于对所述原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据;
目标训练数据划分模块,用于按照预设时间对所述目标训练数据进行拆分,获取训练集和测试集;
原始风险模型获取模块,用于采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型;
目标风险模型获取模块,用于采用测试集对原始风险模型进行测试,获取目标风险模型。
第三方面,本发明实施例提供一种风险识别方法,包括:
获取待识别出行数据;
将所述待识别出行数据输入到所述目标风险模型进行识别,获取风险识别结果;
其中,所述目标风险模型是采用第一方面所述风险模型训练方法获取的模型。
第四方面,本发明实施例提供一种风险识别装置,包括:
待识别出行数据获取模块,用于获取待识别出行数据;
风险识别结果获取模块,用于将所述待识别出行数据输入到所述目标风险模型进行识别,获取风险识别结果;
其中,所述目标风险模型是采用第一方面所述风险模型训练方法获取的模型。
第五方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述风险模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现所述风险识别方法的步骤。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述风险模型训练方法的步骤;或者,所述计算机程序被处理器执行时实现所述风险识别方法的步骤。
本发明实施例提供的风险模型训练方法、装置、设备及介质中,通过对历史出行数据进行风险值标注,获取原始训练数据,以便对原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据。然后,按照预设时间对目标训练数据进行拆分,获取训练集和测试集,保证了模型在时间上的预测能力。采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型,该决策树算法可以在相对短的时间内对大型数据源做出可行且效果良好的预测结果,以提高风险模型的准确率,并且决策树只需要一次构建,反复使用,提高风险模型的识别效率。最后,采用测试集对原始风险模型进行测试,获取目标风险模型,进一步提高风险模型的准确率,以使目标风险模型的辅助识别效果更佳。
本实施例所提供的风险识别方法、装置、设备及介质中,通过获取待识别出行数据,以便将待识别出行数据输入到目标风险模型进行识别,获取风险识别结果,保证识别的准确率更高,较精准的识别待识别出行数据,以辅助业务方快速锁定高风险用户,以便及时采取措施。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1中提供的风险模型训练方法的一流程图。
图2是图1中步骤S12的一具体示意图。
图3是图2中步骤S121的一具体示意图。
图4是图2中步骤S122的一具体示意图。
图5是图1中步骤S14的一具体示意图。
图6是本发明实施例2中提供的风险模型训练装置的一原理框图。
图7是本发明实施例3中提供的风险识别方法的一流程图。
图8是本发明实施例4中提供的风险识别装置的一原理框图。
图9是本发明实施例6中提供的计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1示出本实施例中风险模型训练方法的流程图。该风险模型训练方法可应用在司法机构或其他机构的计算机设备上,以便利用该训练好的风险模型对运输工具上的运输对象(如乘客)进行识别,能够有效辅助业务方分析运输对象的风险等级,以保证运输工具上其他运输对象的安全。如图1所示,该风险模型训练方法包括如下步骤:
S11:对历史出行数据进行风险值标注,获取原始训练数据。
其中,历史出行数据是从业务方获取到的运输对象的出行数据。该历史出行数据包括但不限于出行时间、性别、年龄、查验情况和出行地点等。原始训练数据是对历史出行数据进行风险值标注后的训练数据。本实施例中,历史出行数据包括低风险对象的历史出行数据和高风险对象的历史出行数据。风险值包括高风险值和低风险值,即对低风险对象的历史出行数据进行低风险值标注,对高风险对象的历史出行数据进行高风险值标注,以获取原始训练数据,每一原始训练数据包括历史出行数据和其对应的风险值。
S12:对原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据。
其中,目标训练数据是用于进行模型训练所需的数据。同行分析指对与已知高风险对象同时行动的群体的行为特征进行的专门分析。口岸漂移分析是对运输对象在一定时间内是否会更改出行地点的分析。本实施例中,通过对原始训练数据进行同行分析和口岸漂移分析,以获取模型训练所需的特征因子(即目标训练数据),为后续进行模型训练提供技术支持。
S13:按照预设时间对目标训练数据进行拆分,获取训练集和测试集。
其中,训练集(training set)是学习样本数据集,是通过匹配一些参数来建立分类器,即采用训练集中的目标训练数据来训练机器学习模型,以确定机器学习模型的参数。测试集(test set)是用于测试训练好的机器学习模型的分辨能力,如识别率。预设时间是预先设定好的,用于对目标训练数据进行分类的时间。本实施例中,该预设时间的设定包括但不限于是根据历史经验获取或者根据原始训练数据中的运输对象的出行时间进行统计,选取出行次数排在前n位(n为正整数)的时间区间,以确定预设时间,例如,例如,根据历史数据中的出行时间统计,得到运输对象的出行时间在5-8月份时,出行次数较多,排在所有出行时间的前几位,因此,选取出行时间为5、6、7、8月份的时间为预设时间。进一步地,为了保证风险模型在时间上的预测能力,选取出行时间在5、6月份的目标训练数据作为训练集,出行时间在7、8月份的目标训练数据作为测试集。
S14:采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型。
其中,决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性(即维度特征)的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为a=aj的逻辑判断,其中a是特征因子,aj(属性值)是该特征因子的所有取值,树的边是逻辑判断的分支结果。决策树算法可以在相对短的时间内对大型数据源做出可行且效果良好的结果,可以提高风险模型的准确率,并且决策树只需要一次构建,反复使用,提高了风险模型的效率。
S15:采用测试集对原始风险模型进行测试,获取目标风险模型。
其中,目标风险模型是采用测试集中的目标训练数据对原始风险模型进行测试,以使原始风险模型的准确度达到预设准确度的模型。具体地,采用测试集中的目标训练数据对原始风险模型进行测试,以获取对应的准确度;若准确度达到预设准确度,则将该原始风险模型作为目标风险模型。
本实施例中,通过对历史出行数据进行风险值标注,获取原始训练数据,以便对原始训练数据进行同行分析和口岸漂移分析获取模型训练所需的特征因子即目标训练数据。然后,按照预设时间对目标训练数据进行拆分,获取训练集和测试集,保证了模型在时间上的预测能力。采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型,该决策树算法可以在相对短的时间内对大型数据源做出可行且效果良好的预测结果,以提高风险模型的准确率,并且决策树只需要一次构建,反复使用,提高风险模型的识别效率。最后,采用测试集对原始风险模型进行测试,获取目标风险模型,进一步提高风险模型的准确率,以使目标风险模型的辅助识别效果更佳。
在一具体实施方式中,如图2所示,步骤S12中,即对原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据,具体包括如下步骤:
S121:对原始训练数据进行同行分析,获取同行特征。
其中,同行特征是通过对原始训练数据进行同行分析所得到的特征。由于已知高风险对象是有同伙的,而同伙都会同时行动,通过同行分析能够锁定高风险用户群体,有效辅助业务方查获大量的高风险对象的同伙。
S122:对原始训练数据进行口岸漂移分析,获取口岸漂移特征。
其中,口岸漂移特征是通过对原始训练数据进行口岸漂移分析所得到的特征。根据统计高风险对象的历史出行数据,得到高风险对象一般不会更改出行地点的结论,因此通过对原始训练数据进行口岸漂移分析,获取其口岸漂移特征可以作为风险模型的特征因子。例如,嫌疑人会在某一段时间内频繁在同一地点进行作案,因此,通过口岸漂移分析能有效辅助业务方判定运输对象是否具有高风险。
S123:基于同行特征和口岸漂移特征,获取中间训练数据。
具体地,将通过同行分析得到的同行特征和通过口岸漂移分析得到的口岸漂移特征作为特征因子加入到模型训练中,以获取模型训练所需的中间训练数据。本实施例中,通过将同行特征和口岸漂移特征作为特征因子加入到风险模型训练中,以使后续基于目标训练数据获取的风险模型的识别效果更佳。
S124:对中间训练数据进行缺失值处理和离散变量编码,获取目标训练数据。
其中,缺失值处理包括若中间训练数据的缺失值较大时,则直接抛弃该数据;若中间训练数据的缺失值较小时则取中位数进行填写。其中,中间训练数据的缺失值是指中间训练数据中某运输对象缺失属性值的特征因子的数量与该运输对象对应的全部特征因子的比例。例如,若中间训练数据中的某运输对象的特征因子(性别或年龄)的缺失值大于预设阈值时,则直接抛弃该数据;若其缺失值不大于预设阈值,则取该特征因子下对应的所有中间训练数据的中位数进行填写,例如若某运输对象的年龄特征的属性值缺失,则取中间训练数据中年龄特征下所有运输对象的年龄的中位数进行填写。
离散变量编码是指对变量进行编码,使其容易计算。例如对于离散变量性别的编码为0(男)和1(女)。本实施例中,通过对中间训练数据进行缺失值处理和离散变量编码,获取目标训练数据,以方便计算,提高模型训练的效率。
进一步地,对中间训练数据进行离散变量编码之后,还会对离散变量编码后的目标训练数据进行异常值处理,其中,异常值是指目标训练数据中任一特征(如年龄等)的数值在标准范围之外(即大于标准范围或小于标准范围),则其为异常值。本实施例中,对离散变量编码后的目标训练数据进行异常值处理具体包括:识别目标训练数据中任一特征的数值是否为异常值,若为异常值,则将该特征的属性值转换成对应的分位数的值,以使后续基于目标训练数据进行训练所获取的目标风险模型具有容错性。例如,异常值(数据过大或过小)处理方法包括如果一个样本(即目标训练数据)的某变量(性别或年龄)的属性值大于该变量的99分位数,则将该变量的属性值被强制指定为99分位数的值;类似的,如果一个样本的某变量的属性值小于该变量的1分位数,则该变量的属性值被强制指定为1分位数。其中,分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数和百分位数等。即分位数是将总体的全部数据(即目标训练数据)按从小到大顺序排列后,处于各等分位置的变量值。
本实施例中,先对原始训练数据进行同行分析,获取同行特征,以便通过同行分析能够锁定高风险用户群体,有效辅助业务方查获大量的高风险对象的同伙。依据高风险对象一般不会更改出行地点,通过统计高风险对象的历史出行数据(即原始训练数据),以获取高风险对象的口岸漂移特征。然后,将通过同行分析得到的同行特征和通过口岸漂移分析得到的口岸漂移特征作为特征因子加入到模型训练中,以获取中间训练数据,最后,对中间训练数据进行缺失值处理和离散变量编码,获取目标训练数据,方便计算,提高风险模型训练的效率。
在一具体实施方式中,如图3所示,步骤S121中,即对原始训练数据进行同行分析,获取同行特征,具体包括如下步骤:
S1211:获取所有高风险值的原始训练数据对应的历史出行时间。
具体地,从原始训练数据中选取所有标注有高风险值的历史出行数据(即高风险值对应的原始训练数据),并对该历史出行数据中的历史出行时间进行统计,为后续基于该历史出行时间,获取同行特征提供技术支持。
S1212:对历史出行时间进行区间划分,获取同行特征。
具体地,对历史出行时间进行区间划分,即统计高风险对象在哪一段时间内频繁出行。例如,若某高风险对象的历史出行时间集中在4月和5月,则将4-5月作为该高风险对象的同行特征,为后续将同行特征作为特征因子进行建模提供技术支持。
本实施例中,先从原始训练数据中选取所有标注有高风险对象的历史出行数据,并对该历史出行数据中的出行时间进行统计。然后,按照历史出行时间进行区间划分,即统计高风险对象在哪一段时间内频繁出行为后续将同行特征作为特征因子进行建模提供技术支持。
在一具体实施方式中,如图4所示,步骤S122中,即对原始训练数据进行口岸漂移分析,获取口岸漂移特征,具体包括如下步骤:
S1221:统计所有高风险值的原始训练数据在预设时间内的出行次数和地点变更次数。
具体地,从原始训练数据中选取所有标注有高风险值对应的运输对象(即高风险对象)的历史出行数据,并统计该历史出行数据中预设时间内的高风险值对应的运输对象(即高风险对象)的出行次数和地点变更次数。本实施例中,该预设时间与同行特征的出行时间相同,以使同行特征和口岸漂移特征相关联,提高模型识别的准确率。
S1222:采用公式S=Y/X对出行次数和地点变更次数进行计算,获取口岸漂移特征。其中,Y为出行地点变更次数,X为出行次数。
具体地,通过公式S=Y/X计算口岸漂移特征。其中,X表示运输对象在预设时间内的总的出行次数,Y表示运输对象在预设时间内的出行地点变更次数。通过计算高风险对象的S值即为口岸漂移特征,用以作为确定高风险用户的判定阈值。本实施例中,通过计算高风险对象的口岸漂移特征即得到的S值一般都大于1,由此可知高风险对象一般不会更改出行地点的结论。
本实施例中,从原始训练数据中选取所有标注有高风险值对应的运输对象(即高风险对象)的历史出行数据,并统计该历史出行数据中预设时间内的高风险对象的出行次数和地点变更次数,以便采用口岸漂移特征计算公式S=Y/X计算高风险对象的口岸漂移特征,即获取高风险对象一般不会更改出行地点的特征,以达到辅助业务方判定运输对象是否为高风险对象的目的。
在一具体实施方式中,如图5所示,步骤S14中,即采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型,具体包括如下步骤:
S141:初始化决策树算法对应的层级参数。
其中,层级参数是决策树在生长过程中的最大生长层的参数,即初始化决策树的停止分裂的条件,以使决策树不再无限生长,以防止模型过拟合,达到在相对短的时间内对大型数据源做出可行且效果良好的预测结果的目的,提高模型识别的准确率。
S142:采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到层级参数时,获取原始风险模型。
其中,CART(Classification And Regression Tree,分类回归树)算法,是一种采用二分递归分割的技术进行学习的算法,该算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶结点都只有两个分支。由于CART算法生成的决策树是结构简洁的二叉树,因此,CART算法适用于样本特征的取值为是或非的场景。具体地,采用CART算法对训练集中的目标训练数据进行训练的过程,即决策树的生长过程。由于CART算法过程包括生长过程和剪枝过程,但本实施例中,在树的生长时会通过初始化的层级参数去限制树的生长,因此不需要CATR算法中的剪枝过程。
在一具体实施方式中,步骤S142中,即采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到层级参数时,获取原始风险模型,具体包括如下步骤:
S1421:采用公式计算每一维度特征对应的基尼系数;其中,D为训练集,α为维度特征,Pk为维度特征的概率。
具体地,CART算法的计算公式为计算维度特征所对应的基尼系数;其中,D为训练集,为维度特征,如本实施例中的同行特征和口岸漂移特特征等,Pk为训练集中的目标训练数据属于第k个维度特征的概率,Dv表示D中在维度特征α上的取值为αv的所有样本集合。
S1422:选取最小基尼系数对应的维度特征作为决策树的根节点。
具体地,选取最小基尼系数对应的维度特征和对应的属性值(如性别对应的属性值为“男”和“女”)作为最优的特征和最优切分点(即最优属性值)作为决策树生长的根节点。
S1423:基于决策树的根节点,重复执行计算维度特征所对应的基尼系数的步骤,直至决策树的生长层数达到层级参数的条件时,获取原始风险模型。
具体地,基于决策树根节点会将目标训练数据分为N部分,N取决于根节点的属性值的数量,然后重复执行计算维度特征所对应的基尼系数的步骤即步骤S1421,计算剩余维度特征在根节点作用下的基尼系数,直至决策树的生长层数达到层级参数的条件时,停止决策树的生长过程,获取原始风险模型。
本实施例中,先初始化决策树算法对应的层级参数,以使决策树不再无限生长,以防止模型过拟合,达到在相对短的时间内对大型数据源做出可行且效果良好的结果的目的,提高模型的准确率。然后,采用CART算法对训练集中的目标训练数据进行训练,即决策树的生长过程。在决策树在生长时,通过计算每一维度特征的基尼系数,选取最小基尼系数对应的维度特征和对应的属性值作为最优特征和最优切分点作为决策树生长的根节点,然后继续迭代直到满足决策树的生长层数达到层级参数时,停止生长,以获取原始风险模型。
本实施例中,通过对历史出行数据进行风险值标注,获取原始训练数据,以便对原始训练数据进行同行分析获取同行特征,通过同行分析能够锁定高风险用户群体,有效辅助业务方查获大量的高风险对象的同伙。通过统计高风险对象的历史出行数据,获取高风险对象的口岸漂移特征即高风险对象一般不会更改出行地点。然后,将通过同行分析得到的同行特征和通过口岸漂移分析得到的口岸漂移特征作为特征因子加入到模型训练中,以获取原始训练数据,以使基于原始训练数据获取的风险模型的识别效果更佳。最后,对原始训练数据进行缺失值处理和离散变量编码,获取目标训练数据,方便计算,提高风险模型训练的效率。然后,按照预设时间对目标训练数据进行拆分,获取训练集和测试集,保证了模型在时间上的预测能力。采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型,该决策树算法可以在相对短的时间内对大型数据源做出可行且效果良好的结果提高风险模型的准确率,并且决策树只需要一次构建,反复使用,提高风险模型的识别效率。最后,采用测试集对原始风险模型进行测试,获取目标风险模型,进一步提高风险模型的准确率,以使目标风险模型的辅助效果更佳。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
图6示出与实施例1中风险模型训练方法一一对应的风险模型训练装置的原理框图。如图6所示,该风险模型训练装置包括原始训练数据获取模块11、目标训练数据获取模块12、目标训练数据划分模块13、原始风险模型获取模块14和目标风险模型获取模块15。其中,原始训练数据获取模块11、目标训练数据获取模块12、目标训练数据划分模块13、原始风险模型获取模块14和目标风险模型获取模块15的实现功能与实施例中风险模型训练方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
原始训练数据获取模块11,用于对历史出行数据进行风险值标注,获取原始训练数据。
目标训练数据获取模块12,用于对原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据。
目标训练数据划分模块13,用于按照预设时间对目标训练数据进行拆分,获取训练集和测试集。
原始风险模型获取模块14,用于采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型。
目标风险模型获取模块15,用于采用测试集对原始风险模型进行测试,获取目标风险模型。
优选地,目标训练数据获取模块12包括同行特征获取单元121、口岸漂移特征获取单元122、中间训练数据获取单元123和目标训练数据获取单元124。
同行特征获取单元121,用于对原始训练数据进行同行分析,获取同行特征。
口岸漂移特征获取单元122,用于对原始训练数据进行口岸漂移分析,获取口岸漂移特征。
中间训练数据获取单元123,用于基于同行特征和口岸漂移特征,获取中间训练数据。
目标训练数据获取单元124,用于对中间训练数据进行缺失值处理和离散变量编码,获取目标训练数据。
优选地,同行特征获取单元121包括历史出行时间获取单元1211和同行特征获取单元1212。
历史出行时间获取单元1211,用于获取所有高风险值的原始训练数据对应的历史出行时间。
同行特征获取单元1212,用于对历史出行时间进行区间划分,获取同行特征。
优选地,口岸漂移特征获取单元122包括原始训练数据统计单元1221和口岸漂移特征获取1222。
原始训练数据统计单元1221,用于统计所有高风险值的原始训练数据在预设时间内的出行次数和地点变更次数。
口岸漂移特征获取1222,用于采用公式S=Y/X对出行次数和地点变更次数进行计算,获取口岸漂移特征。其中,Y为出行地点变更次数,X为出行次数。
优选地,原始风险模型获取模块14包括算法参数初始单元141和原始风险模型获取单元142。
算法参数初始单元141,用于初始化决策树算法对应的层级参数。
原始风险模型获取单元142,用于采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到层级参数时,获取原始风险模型。
优选地,目标训练数据包括至少两个维度特征。
原始风险模型获取单元142包括基尼系数获取子单元1421、根节点获取子单元1422和原始风险模型获取子单元1423。
基尼系数获取子单元1421,用于采用公式
计算每一维度特征对应的基尼系数。其中,D为训练集,α为维度特征,Pk为维度特征的概率。
根节点获取子单元1422,用于选取最小基尼系数对应的维度特征作为决策树的根节点。
原始风险模型获取子单元1423,用于基于决策树的根节点,重复执行计算维度特征所对应的基尼系数的步骤,直至决策树的生长层数达到层级参数的条件时,获取原始风险模型。
实施例3
图7示出本实施例中风险识别方法的流程图。该风险识别方法可应用在司法机构或其他机构的计算机设备上,以便对运输对象的历史出行数据进行查验,以达到辅助业务方分析运输对象的风险等级的目的。如图7所示,该风险模型训练方法包括如下步骤:
S21:获取待识别出行数据。
其中,待识别出行数据指运输对象在出行时实时采集到的用于识别是否是否有风险的行为数据。该待识别出行数据包括但不限于运输对象的出行时间、出行地点和查验情况等,还包括运输对象自身的基础特征(例如,性别和年龄)。具体地,查验情况是指在对运输对象进行风险识别之前,查询该风险对象是否经过查验风险的情况。
S22:将待识别出行数据输入到目标风险模型进行识别,获取风险识别结果。
其中,目标风险模型是采用实施例1风险模型训练方法获取的模型,采用该目标风险模型对待识别数据进行识别,使得风险识别结果的准确率更高。
本实施例中,将待识别出行数据输入到目标风险模型中进行识别,在目标风险模型中对输入的待识别出行数据进行决策并输出风险识别结果。具体地,计算机设备在获取运输对象A的待识别出行数据后,将待识别出行数据在目标风险模型中进行决策并输出识别结果。
本实施例所提供的风险识别方法中,通过获取待识别出行数据,以便将待识别出行数据输入到目标风险模型进行识别,获取风险识别结果,保证识别的准确率更高,较精准对待识别出行数据进行识别,以辅助业务方快速锁定高风险用户,以便及时采取措施。
实施例4
图8示出与实施例3中风险识别方法一一对应的风险识别装置的原理框图。如图8所示,该风险识别装置包括待识别出行数据获取模块21和风险识别结果获取模块22。其中,待识别出行数据获取模块21和风险识别结果获取模块22的实现功能与实施例3中风险识别方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
待识别出行数据获取模块21,用于获取待识别出行数据。
风险识别结果获取模块22,用于将待识别出行数据输入到目标风险模型进行识别,获取风险识别结果;
其中,目标风险模型是采用实施例1中的风险模型训练方法获取的模型。
实施例5
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中风险模型训练方法,为避免重复,这里不再赘述。
或者,该计算机程序被处理器执行时实现实施例2中风险模型训练装置中各模块/单元的功能,为避免重复,这里不再赘述;
或者,该计算机程序被处理器执行时实现实施例3中风险识别方法,为避免重复,这里不再赘述;
或者,该计算机程序被处理器执行时实现实施例4中风险识别装置中各模块/单元的功能,为避免重复,这里不再赘述。
实施例6
图9是本发明一实施例提供的计算机设备的示意图。如图9所示,该实施例的计算机设备90包括:处理器91、存储器92以及存储在存储器92中并可在处理器91上运行的计算机程序93。处理器91执行计算机程序93时实现上述实施例1中风险模型训练各个方法的步骤,为避免重复,此处不一一赘述。或者,处理器91执行计算机程序93时实现上述实施例2中风险模型训练装置的各模块/单元的功能,为避免重复,此处不一一赘述;或者,处理器91执行计算机程序93时实现上述实施例3中风险识别方法的步骤,为避免重复,此处不一一赘述;或者,处理器91执行计算机程序93时实现上述实施例4中风险识别装置的各模块/单元的功能,为避免重复,此处不一一赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种风险模型训练方法,其特征在于,包括:
对历史出行数据进行风险值标注,获取原始训练数据;
对所述原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据;
按照预设时间对所述目标训练数据进行拆分,获取训练集和测试集;
采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型;
采用测试集对所述原始风险模型进行测试,获取目标风险模型。
2.如权利要求1所述的风险模型训练方法,其特征在于,所述对所述原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据,包括:
对所述原始训练数据进行同行分析,获取同行特征;
对所述原始训练数据进行口岸漂移分析,获取口岸漂移特征;
基于所述同行特征和所述口岸漂移特征,获取中间训练数据;
对所述中间训练数据进行缺失值处理和离散变量编码,获取目标训练数据。
3.如权利要求2所述的风险模型训练方法,其特征在于,所述对原始训练数据进行同行分析,包括:
获取所有高风险值的原始训练数据对应的历史出行时间;
对历史出行时间进行区间划分,获取同行特征。
4.如权利要求2所述的风险模型训练方法,其特征在于,所述对原始训练数据进行口岸漂移分析,获取口岸漂移特征,包括:
统计所有高风险值的原始训练数据在预设时间内的出行次数和地点变更次数;
采用公式S=Y/X对所述出行次数和地点变更次数进行计算,获取口岸漂移特征;其中,Y为所述出行地点变更次数,X为所述出行次数。
5.如权利要求1所述的风险模型训练方法,其特征在于,所述采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型,包括:
初始化决策树算法对应的层级参数;
采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到所述层级参数时,获取所述原始风险模型;
所述目标训练数据包括至少两个维度特征;
所述采用CART算法对训练集中的目标训练数据进行训练,在决策树的生长层数达到所述层级参数时,获取所述原始风险模型,包括:
采用公式
计算每一所述维度特征对应的基尼系数;其中,D为所述训练集,α为所述维度特征,Pk为所述维度特征的概率;
选取最小基尼系数对应的维度特征作为决策树的根节点;
基于所述决策树的根节点,重复执行计算维度特征所对应的基尼系数的步骤,直至决策树的生长层数达到层级参数的条件时,获取原始风险模型。
6.一种风险识别方法,其特征在于,包括:
获取待识别出行数据;
将所述待识别出行数据输入到所述目标风险模型进行识别,获取风险识别结果;
其中,所述目标风险模型是采用权利要求1-5任一项所述风险模型训练方法获取的模型。
7.一种风险模型训练装置,其特征在于,包括:
原始训练数据获取模块,用于对历史出行数据进行风险值标注,获取原始训练数据;
目标训练数据获取模块,用于对所述原始训练数据进行同行分析和口岸漂移分析,获取目标训练数据;
目标训练数据划分模块,用于按照预设时间对所述目标训练数据进行拆分,获取训练集和测试集;
原始风险模型获取模块,用于采用决策树算法对训练集中的目标训练数据进行训练,获取原始风险模型;
目标风险模型获取模块,用于采用测试集对原始风险模型进行测试,获取目标风险模型。
8.一种风险识别装置,其特征在于,包括:
待识别出行数据获取模块,用于获取待识别出行数据;
风险识别结果获取模块,用于将所述待识别出行数据输入到所述目标风险模型进行识别,获取风险识别结果;
其中,所述目标风险模型是采用权利要求1-5任一项所述风险模型训练方法获取的模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述风险模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现如权利要求6所述风险识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述风险模型训练方法的步骤;或者,所述计算机程序被处理器执行时实现如权利要求6所述风险识别方法的步骤。
CN201810250156.3A 2018-03-26 2018-03-26 风险模型训练方法、风险识别方法、装置、设备及介质 Active CN108549954B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810250156.3A CN108549954B (zh) 2018-03-26 2018-03-26 风险模型训练方法、风险识别方法、装置、设备及介质
PCT/CN2018/094183 WO2019184119A1 (zh) 2018-03-26 2018-07-03 风险模型训练方法、风险识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810250156.3A CN108549954B (zh) 2018-03-26 2018-03-26 风险模型训练方法、风险识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN108549954A true CN108549954A (zh) 2018-09-18
CN108549954B CN108549954B (zh) 2022-08-02

Family

ID=63516935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810250156.3A Active CN108549954B (zh) 2018-03-26 2018-03-26 风险模型训练方法、风险识别方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN108549954B (zh)
WO (1) WO2019184119A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033092A (zh) * 2019-01-31 2019-07-19 阿里巴巴集团控股有限公司 数据标签生成、模型训练、事件识别方法和装置
CN110399927A (zh) * 2019-07-26 2019-11-01 玖壹叁陆零医学科技南京有限公司 识别模型训练方法、目标识别方法及装置
CN110517154A (zh) * 2019-07-23 2019-11-29 平安科技(深圳)有限公司 数据模型训练方法、系统及计算机设备
CN111160797A (zh) * 2019-12-31 2020-05-15 深圳市分期乐网络科技有限公司 风控模型的构建方法、装置、存储介质及终端
CN111160733A (zh) * 2019-12-16 2020-05-15 北京淇瑀信息科技有限公司 一种基于有偏样本的风险控制方法、装置及电子设备
CN111222994A (zh) * 2018-11-23 2020-06-02 泰康保险集团股份有限公司 客户风险评估方法、装置、介质和电子设备
CN111310784A (zh) * 2020-01-14 2020-06-19 支付宝(杭州)信息技术有限公司 资源数据的处理方法及装置
CN111400663A (zh) * 2020-03-17 2020-07-10 深圳前海微众银行股份有限公司 风险识别方法、装置、设备及计算机可读存储介质
CN113139876A (zh) * 2021-04-22 2021-07-20 平安壹钱包电子商务有限公司 风险模型训练方法、装置、计算机设备及可读存储介质
CN113159175A (zh) * 2021-04-21 2021-07-23 平安科技(深圳)有限公司 数据预测方法、装置、设备及存储介质
CN113313417A (zh) * 2021-06-23 2021-08-27 北京鼎泰智源科技有限公司 一种基于决策树模型的涉诉风险信号分级方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126434B (zh) * 2019-11-19 2023-07-11 山东省科学院激光研究所 基于随机森林的微震初至波到时自动拾取方法及系统
CN111695824B (zh) * 2020-06-16 2024-03-29 深圳前海微众银行股份有限公司 风险尾端客户分析方法、装置、设备及计算机存储介质
CN112184241B (zh) * 2020-09-27 2024-02-20 中国银联股份有限公司 一种身份认证的方法及装置
CN112749924A (zh) * 2021-02-01 2021-05-04 深圳无域科技技术有限公司 风控模型训练方法、系统、设备及计算机可读介质
CN112508698B (zh) * 2021-02-07 2024-04-26 北京淇瑀信息科技有限公司 用户策略触发方法、装置及电子设备
CN113673866A (zh) * 2021-08-20 2021-11-19 上海寻梦信息技术有限公司 农作物决策方法、模型训练方法以及相关设备
CN113837635A (zh) * 2021-09-29 2021-12-24 支付宝(杭州)信息技术有限公司 风险检测处理方法、装置及设备
CN115346665B (zh) * 2022-10-19 2023-03-10 南昌大学第二附属医院 视网膜病变发病风险预测模型的构建方法、系统及设备
CN116579448A (zh) * 2022-12-26 2023-08-11 北京码牛科技股份有限公司 一种人员染毒风险预测方法、系统、智能终端和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294246A1 (en) * 2014-04-10 2015-10-15 International Business Machines Corporation Selecting optimal training data set for service contract prediction
CN106127380A (zh) * 2016-06-22 2016-11-16 北京拓明科技有限公司 一种大数据风险分析方法
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
CN107730087A (zh) * 2017-09-20 2018-02-23 平安科技(深圳)有限公司 预测模型训练方法、数据监控方法、装置、设备及介质
CN107742193A (zh) * 2017-11-28 2018-02-27 江苏大学 一种基于时变状态转移概率马尔可夫链的行车风险预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100483343C (zh) * 2007-11-30 2009-04-29 清华大学 一种基于产品结构树的仿真流程信息建模及维护方法
CN101226615A (zh) * 2008-02-03 2008-07-23 北京航空航天大学 基于角色权限控制的企业业务过程协同建模方法
CN107222865B (zh) * 2017-04-28 2019-08-13 北京大学 基于可疑行为识别的通讯诈骗实时检测方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294246A1 (en) * 2014-04-10 2015-10-15 International Business Machines Corporation Selecting optimal training data set for service contract prediction
CN106127380A (zh) * 2016-06-22 2016-11-16 北京拓明科技有限公司 一种大数据风险分析方法
CN106503863A (zh) * 2016-11-10 2017-03-15 北京红马传媒文化发展有限公司 基于决策树模型的年龄特征的预测方法、系统及终端
CN107730087A (zh) * 2017-09-20 2018-02-23 平安科技(深圳)有限公司 预测模型训练方法、数据监控方法、装置、设备及介质
CN107742193A (zh) * 2017-11-28 2018-02-27 江苏大学 一种基于时变状态转移概率马尔可夫链的行车风险预测方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222994A (zh) * 2018-11-23 2020-06-02 泰康保险集团股份有限公司 客户风险评估方法、装置、介质和电子设备
CN110033092A (zh) * 2019-01-31 2019-07-19 阿里巴巴集团控股有限公司 数据标签生成、模型训练、事件识别方法和装置
CN110517154A (zh) * 2019-07-23 2019-11-29 平安科技(深圳)有限公司 数据模型训练方法、系统及计算机设备
CN110399927A (zh) * 2019-07-26 2019-11-01 玖壹叁陆零医学科技南京有限公司 识别模型训练方法、目标识别方法及装置
CN111160733B (zh) * 2019-12-16 2024-03-29 北京淇瑀信息科技有限公司 一种基于有偏样本的风险控制方法、装置及电子设备
CN111160733A (zh) * 2019-12-16 2020-05-15 北京淇瑀信息科技有限公司 一种基于有偏样本的风险控制方法、装置及电子设备
CN111160797A (zh) * 2019-12-31 2020-05-15 深圳市分期乐网络科技有限公司 风控模型的构建方法、装置、存储介质及终端
CN111310784A (zh) * 2020-01-14 2020-06-19 支付宝(杭州)信息技术有限公司 资源数据的处理方法及装置
CN111400663B (zh) * 2020-03-17 2022-06-14 深圳前海微众银行股份有限公司 模型训练方法、装置、设备及计算机可读存储介质
CN111400663A (zh) * 2020-03-17 2020-07-10 深圳前海微众银行股份有限公司 风险识别方法、装置、设备及计算机可读存储介质
CN113159175A (zh) * 2021-04-21 2021-07-23 平安科技(深圳)有限公司 数据预测方法、装置、设备及存储介质
CN113159175B (zh) * 2021-04-21 2023-06-06 平安科技(深圳)有限公司 数据预测方法、装置、设备及存储介质
CN113139876A (zh) * 2021-04-22 2021-07-20 平安壹钱包电子商务有限公司 风险模型训练方法、装置、计算机设备及可读存储介质
CN113313417A (zh) * 2021-06-23 2021-08-27 北京鼎泰智源科技有限公司 一种基于决策树模型的涉诉风险信号分级方法及装置
CN113313417B (zh) * 2021-06-23 2024-01-26 北京鼎泰智源科技有限公司 一种基于决策树模型的涉诉风险信号分级方法及装置

Also Published As

Publication number Publication date
WO2019184119A1 (zh) 2019-10-03
CN108549954B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN108549954A (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
Kumar et al. Resnet-based approach for detection and classification of plant leaf diseases
CN107016405A (zh) 一种基于分级预测卷积神经网络的害虫图像分类方法
Khan et al. Deep learning for apple diseases: classification and identification
CN108399431A (zh) 分类模型训练方法以及分类方法
CN106248559A (zh) 一种基于深度学习的白细胞五分类方法
CN108459955A (zh) 基于深度自编码网络的软件缺陷预测方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN103839078B (zh) 一种基于主动学习的高光谱图像分类方法
CN108629369A (zh) 一种基于Trimmed SSD的尿沉渣有形成分自动识别方法
CN104820724B (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN109273096A (zh) 一种基于机器学习的药品风险分级评估方法
CN110455512B (zh) 基于深度自编码器dae的旋转机械多集成故障诊断方法
CN106709421A (zh) 一种基于变换域特征和cnn的细胞图像识别分类方法
CN107942854A (zh) 一种全自动生化分析仪远程设备诊断策略
CN106022352A (zh) 基于支持向量机的潜油柱塞泵故障诊断方法
CN116664931A (zh) 基于量子向经典迁移学习的膝骨关节炎分级方法
CN103902798B (zh) 数据预处理方法
Deulkar et al. An automated tomato quality grading using clustering based support vector machine
Jagetia et al. Visual transformer for soil classification
CN107729918A (zh) 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法
CN104732246B (zh) 一种半监督协同训练高光谱图像分类方法
CN110414615A (zh) 基于阶段性深度修复图像及改进Double-DQN技术的玉米草地贪夜蛾检测方法
CN113096079B (zh) 图像分析系统及其构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant