CN114638391A - 运单风险场景识别处理方法、装置、计算机设备和介质 - Google Patents
运单风险场景识别处理方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN114638391A CN114638391A CN202011482197.9A CN202011482197A CN114638391A CN 114638391 A CN114638391 A CN 114638391A CN 202011482197 A CN202011482197 A CN 202011482197A CN 114638391 A CN114638391 A CN 114638391A
- Authority
- CN
- China
- Prior art keywords
- waybill
- feature
- risk
- data
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0838—Historical data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种运单风险场景识别处理方法、装置、计算机设备和存储介质。采用本方法能够通过对实时运单数据的分析识别与预设的高风险场景匹配的特征,并将该运单发送至风险运单处理端进行处理,为风险运单处理端提供了更准确的目标对象,提高了风险运单的时效处理效率,提高了高风险场景识别的可靠性。该方法包括:获取当前运单数据;从当前运单数据中提取与预设特征维度对应的运单特征,得到多维度运单特征集;将上述多维度运单特征集输入预先构建的运单风险场景识别模型,以使运单风险场景识别模型识别上述多维度运单特征集是否与预设的高风险场景匹配;若匹配,则将当前运单作为高风险运单发送至风险运单处理端进行处理。
Description
技术领域
本申请涉及物流技术领域,特别是涉及一种运单风险场景识别处理方法、装置、计算机设备和存储介质。
背景技术
随着经济和生活水平的提高,人们对快件或物流的服务质量要求越来越高,各个快递或物流公司在服务质量方面的竞争也越来越激烈,不仅要求提高快件投递的准确性、及时性,还必须降低客户投诉率,降低快递的滞留量等。
目前针对如何预测运单后期是否会产生时效投诉的问题,已经存在一种机器学习算法,能够从历史数据中学习并根据学习结果预测现有的运单是否会产生客户投诉。但,鉴于机器学习的黑盒特性,使得基于机器学习的预测方法缺少可解释性,也缺乏可靠性,某些预测结果仍然与事实结果有一定的偏差,进而导致快递或物流公司无法从业务流程上进行及时监控和采取措施,提高了快递或物流公司的运营成本。
发明内容
基于此,有必要针对上述技术问题,提供一种运单风险场景识别处理方法、装置、计算机设备和存储介质。
一种运单风险场景识别处理方法,所述方法包括:
获取当前运单数据;
从所述当前运单数据中提取与预设特征维度对应的运单特征,得到多维度运单特征集;
将所述多维度运单特征集输入预先构建的运单风险场景识别模型,以使所述运单风险场景识别模型识别所述多维度运单特征集是否与预设的高风险场景匹配;
若匹配,则将所述当前运单作为高风险运单发送至风险运单处理端进行处理。
在其中一个实施例中,所述获取当前运单数据之前,还包括:
获取历史运单数据;
从所述历史运单数据中筛选得到有效特征集;所述有效特征集是指运单特征的重要性程度高于第一预设阈值的特征;
将所述有效特征集中的不同有效特征进行分组融合,得到多个有效融合特征组;各个所述有效融合特征组对应不同场景;
计算各个所述有效融合特征组对应的客诉率;
将所述客诉率高于第二预设阈值的有效特征组对应的场景作为高风险场景;
基于所述高风险场景构建所述运单风险场景识别模型。
在其中一个实施例中,所述从所述历史运单数据总筛选得到有效特征集,包括:
从所述历史运单数据中获取多个原始运单特征;
确定各个所述原始运单特征的重要性程度;
选取所述多个原始运单特征中重要性程度最高的预设数量的原始运单特征,构成所述有效特征集。
在其中一个实施例中,所述将所述有效特征集中的不同有效特征进行分组融合,得到多个有效融合特征组,包括:
针对所述有效特征集中的每一个所述有效特征,将每一个所述有效特征与至少一个其他所述有效特征进行特征融合,得到所述多个有效融合特征组。
在其中一个实施例中,所述确定各个所述原始运单特征的重要性程度,包括:
通过特征筛选算法确定各个所述原始运单特征的重要性程度;所述特征筛选算法包括xgboost算法和IV值算法。
在其中一个实施例中,所述预设特征维度包括运单维度、实时维度和客户维度,所述从所述历史运单数据总获取多个原始运单特征,包括:
分别根据所述运单维度、所述实时维度和所述客户维度从所述历史运单数据中统计得到三个特征组,包括运单特征组、实时特征组和客户特征组;
所述确定各个所述原始运单特征的重要性程度,包括:
通过xgboost算法计算得到各个所述原始运单特征的特征重要性预测值;
通过IV值算法计算每个所述特征组中的各个所述原始运单特征在相应的所述特征组中的信息价值;
根据预设的权重计算所述特征重要性预测值与所述信息价值的加权值,得到每个所述原始运单特征的所述重要性程度。
在其中一个实施例中,所述获取当前运单数据,包括:
所述获取当前运单数据,包括:
通过卡夫卡系统获取各个运单调配网点的所述当前运单数据;所述卡夫卡系统用于存储所述运单调配网点的所有当前运单数据和所述运单调配网点的历史运单数据。
一种运单风险场景识别处理装置,所述装置包括:
数据获取模块,用于获取当前运单数据;
特征提取模块,用于从所述当前运单数据中提取与预设特征维度对应的运单特征,得到多维度运单特征集;
风险场景识别模块,用于将所述多维度运单特征集输入预先构建的运单风险场景识别模型,以使所述运单风险场景识别模型识别所述多维度运单特征集是否与预设的风险场景匹配;
高风险运单处理模块,用于若匹配,则将所述当前运单作为高风险运单发送至风险运单处理端记性处理。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一种运单风险场景识别处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种运单风险场景识别处理方法的步骤。
上述运单风险场景识别处理方法、装置、计算机设备和存储介质,通过获取当前运单数据;从当前运单数据中提取与预设特征维度对应的运单特征,得到多维度运单特征集;将上述多维度运单特征集输入预先构建的运单风险场景识别模型,以使运单风险场景识别模型识别上述多维度运单特征集是否与预设的高风险场景匹配;若匹配,则将当前运单作为高风险运单发送至风险运单处理端进行处理。该方法通过预先设立好高风险场景存储于运单风险场景识别模型中,将当前运单实时数据输入上述运单风险场景识别模型中进行识别,通过对实时数据的识别能够识别出与预设的高风险场景匹配的运单,并将该运单发送至风险运单处理端进行处理,为风险运单处理端提供了更准确的目标对象,提高了风险运单的时效处理效率。
附图说明
图1为一个实施例中运单风险场景识别处理方法的应用环境图;
图2为一个实施例中运单风险场景识别处理方法的流程示意图;
图3为一个实施例中运单风险场景识别模型构建步骤的流程示意图;
图4为一个实施例中运单风险场景识别处理装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的运单风险场景识别处理方法,可以应用于如图1所示的应用环境中。其中,服务器101通过网络与终端102进行通信。其中,服务器101可以用独立的服务器或者是多个服务器组成的服务器集群来实现,终端102是快递或物流行业中遍布于各个地区的快递网点或物流网点的运单登记设备,例如扫码仪、或能够进行数据记录的个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在一个实施例中,如图2所示,提供了一种运单风险场景识别处理方法,以该方法应用于图1中的服务器101为例进行说明,包括以下步骤:
步骤S201,获取当前运单数据。
其中,运单是指快递或物流行业中,货物运输及运输代理的合同凭证,也是运输经营者接受货物并在运输期间负责保管和据以交付的凭据,也包括电子凭据,运单数据包括货物名称、种类、起运地点、目的地、重量、支付金额等等数据。
具体地,上述获取当前运单数据是指服务器101获取当前该网点中通过终端设备102例如扫码枪获取的到达该网点或从该网点发出的运单的数据,包括上述获取名称、种类、扫码时间等等与该运单相关的所有数据。
步骤S202,从当前运单数据中提取与预设特征维度对应的运单特征,得到多维度运单特征集。
其中,预设特征维度是指人为划分的特征种类,例如运单维度的运单特征包括托寄物种类、产品代码、是否保价、是否增值服务,实时维度的运单特征包括“收件人前90天到达网点后微信催派一次是否发生时效客诉”、“收件人前90天到达网点后查件一次是否发生时效客诉”等,客户维度对应的运单特征包括“是否滞留”、“滞留数量”等,预设特征维度可根据实际需要灵活配置。
具体地,服务器101按照预设特征维度从所有当前运单数据中统计得到每张订单的多维度运单特征集。
步骤S203,将上述多维度特征集输入预先构建的运单风险场景识别模型,以使所述运单风险场景识别模型识别上述多维度运单特征集是否与预设的高风险场景匹配。
其中,预先构建的运单风险场景识别模型是指通过历史运单数据做数据分析,能够针对输入运单的运单特征识别出该运单是否容易引发客诉,该模型中已保存有预设的多种高风险场景以及识别路径,例如“寄件人历史发生过时效客诉”且“当前运单处于滞留”的场景可作为容易引发客户的高风险场景。
具体地,服务器101获取将当前运单的运单特征对应的特征值输入上述运单风险场景识别模型,则该运单风险场景识别模型能够识别出该运单当前所处的场景是否与预设的高风险场景匹配。
步骤S204,若匹配,则将上述当前运单作为高风险运单发送至风险运单处理端进行处理。
其中,风险运单处理端是指专门对高风险运单进行调配处理的端口,包括通过发送短信发送给快递小哥、通过智能外呼方式与客户提前沟通等。
上述实施例,通过预先设立好高风险场景存储于运单风险场景识别模型中,将当前运单实时数据输入上述运单风险场景识别模型中进行识别,通过对实时数据的识别能够识别出与预设的高风险场景匹配的运单,并将该运单发送至风险运单处理端进行处理,为风险运单处理端提供了更准确的目标对象,提高了风险运单的时效处理效率。
在一实施例中,上述步骤S201之前还包括运单风险场景识别模型构建步骤,如图3所示,图3为运单风险场景识别模型构建步骤的流程示意图,包括以下步骤:
步骤S301,获取历史运单数据;
其中,历史运单数据是指各个网点中存储的已完成交付的所有运单的运单数据。
具体地,服务器101可调取数据库中存储的所有历史运单数据,也可调取一定时间段内的历史运单数据。
步骤S302,从上述历史运单数据中筛选得到有效特征集;该有效特征集是指运单特征的重要性程度高于第一预设阈值的特征集合。
其中,运单特征的重要性程度是指通过一定的统计量分析所有运单,得到的用于表征该运单特征与客诉率的关联关系的量化指标。
具体地,服务器101通过统计分析所有历史运单数据,得到运单特征,通过一定算法计算每个特征对客诉率的重要性程度,选取其中高于第一预设阈值的特征集合作为有效特征,例如共设置了200个运单特征,通过设置阈值,选取其中50个特征作为有效特征。
步骤S303,将上述有效特征集中的不同有效特征进行分组融合,得到多个有效融合特征组;各个所述有效融合特征组对应不同场景;
具体地,在上述已选出的50个有效特征中,将其中不同的特征组合在一起作为有效融合特征组,例如“寄件人历史是否存在时效客诉”、“快件是否滞留”作为一组有效融合特征组,这样的有效融合特征组的特征数目可以为2个、3个……或50个。
步骤S304,计算各个有效融合特征组对应的客诉率。
具体地,以数据进行说明书如下:通过对历史某一周的数据进行统计分析,通过特征筛选及特征融合,得到如下数据结果:
表1特征融合及其对应的客诉率
步骤S305,将客诉率高于第二预设阈值的有效融合特征组对应的场景作为高风险场景。
具体地,以上述表格中计算出的客诉率为例进行说明,设置客诉率阈值为10%,将高于10%的客诉率对应的场景作为高风险场景,例如当运单对应的寄件人历史存在时效客诉,运单存在滞留情况,且有客户约定时间,则可推测该运单存在时效客诉风险。
步骤S306,基于上述高风险场景构建运单风险场景识别模型。
具体地,将上述所有高于预设阈值的高风险场景储存于预设识别模型中,生成运单风险场景识别模型。
上述实施例,通过从历史运单数据中统计出相关运单特征,并进行特征融合计算每个有效融合特征组对应的客诉率,设置阈值得到高风险场景,基于这些高风险场景构建运单风险场景识别模型,相比于机器学习算法,这种方法为高风险运单识别提供了更为可靠的数据依据,进一步提高了场景识别的准确性,也为高风险场景挽救提供了可靠的理论支持。
在一实施例中,上述步骤S302包括:从历史运单数据中获取多个原始运单特征;确定各个原始运单特征的重要性程度;选取多个原始运单特征中重要性程度最高的预设数量的原始运单特征,构成有效特征集。
具体地,在数据准备阶段,通过数据分析及实际场景调研,确立庞大的原始运单特征作为指标体系。
在本实施例中,可从三个维度确定原始运单特征,包括以下三个维度:
(1)运单维度数据——运单维度
运单维度数据包括“托寄物种类”,“时效类型”(例如急件、特急等),“产品代码”,“是否保价”,“是否增值服务”,这部分特征属于运单基础特征,不需要我们进行任何处理,可直接作为高风险场景识别特征。
(2)客户维度数据——客户维度
客户维度数据是统计客户在过去一段时间内的发起时效客诉的数据,并以此来定义客户行为,作为高风险场景识别方案中的客户行为特征,在统计过程中,将客户行为细化为寄件人行为及收件人行为,具体来说,主要包括“寄件人前90天是否发生时效客诉”,“寄件人前90天查件一次是否发生时效客诉”,“寄件人前90天微信催派一次是否发生时效客诉”,“寄件人前90天到达网点后微信催派一次是否发生时效客诉”,“寄件人前90天到达网点后查件一次是否发生时效客诉”,“收件人前90天是否发生时效客诉”,“收件人前90天查件一次是否发生时效客诉”,“收件人前90天微信催派一次是否发生时效客诉”,“收件人前90天到达网点后微信催派一次是否发生时效客诉”,“收件人前90天到达网点后查件一次是否发生时效客诉”等共52个特征。
(3)实时数据——实时维度
实时数据是根据运单在流转过程中的实时路由信息获取的数据,这部分数据直接或经过统计计算生成相应的实时特征,作为高风险场景识别方案中的实时特征,主要包括“是否滞留”,“滞留数量”,“当前操作场地停留时间”,“当前城市停留时间”,“是否查件”,“查件次数”,“是否微信催派”,“微信催派次数”,“流转时长”,“寄件时间距离最后一次查件时间差”,“第一次查件距离承诺时效时间差”,“是否有客户约定时间”等共98个特征。
对于高风险场景识别方案的确立来说,不能将所有特征进行随机组合,需要通过技术手段从众多特征指标中筛选出有效性更高或者说对最终的时效客诉预测更重要的特征,这个过程称为特征工程中的特征筛选。确定各个特征对于时效风险的重要性程度,例如可通过机器学习算法或IV(Information Value,信息价值)值算法对所有原始运单特征进行有效性筛选,其中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。特征变量的IV值的大小即表示该变量预测能力的强弱。通过设置阈值,或选取预设数量的原始运单特征作为有效特征,例如最终从上述原始运单特征中选出20个有效特征构成有效特征集。
上述实施例,通过特征构建和特征筛选,从庞大的原始运单特征这种筛选得到对时效风险影响最大的预设数量的有效特征,为后续模型的运算提供了数据基础,同时也减少了模型识别高风险场景的运算量,加快了运算速度。
在一实施例中,上述步骤S303包括:针对有效特征集中的每一个有效特征,将每一个有效特征与至少一个其他有效特征进行特征融合,得到多个有效融合特征组。
具体地,通过前期数据获取及特征筛选,共保留20个有效特征,可采用python作为辅助工具,首先将20个特征根据前期的特征重要性程度进行排序,然后通过循环算法,从最重要的特征开始,依次与其他特征相互融合,并计算融合后的特征在不同取值下的时效客诉率。分别称20个特征为特征1、特征2,…,特征20,具体做法是,以特征1为基准,分别与另外19个特征进行融合,计算各特征融合场景下的时效客诉率,再以特征2为基准,分别与另外18个特征进行融合,依次类推,最后按照相同方法,遍历三个特征相互融合、四个特征相互融合等,直至将20个特征整体融合,作为有效融合特征组,至此可得到多个有效融合特征组。
上述实施例,通过循环算法遍历所有的有效融合特征组,得到多个有效融合特征组,为高风险场景的构建提供了方法。
在一实施例中,上述确定各个原始运单特征的重要性程度的步骤,包括:通过特征筛选算法去顶各个原始运单特征的重要性程度;该特征筛选算法包括xgboost算法和IV值算法。
其中,xgboost算法,全称eXtreme Gradient Boosting(极值梯度提升算法),具有良好的性质,在众多机器学习模型汇中,预测效果表现良好,同时可通过自带的函数feature_importance,输出所有特征的重要性排序。在本实施例中,通过feature_importance计算所有原始运单特征的特征重要性预测值。
IV值算法是计算每个原始运单特征的IV值(也称为信息价值),通过IV值排序及设定相应阈值,来进行特征筛选。
上述实施例,通过特征筛选算法筛选出预设数量的有效特征,并给出了各个有效特征的特征重要性程度,为后续高风险订单的处理提供了依据。
在一实施例中,上述预设特征维度包括运单维度、实时维度和客户维度,上述从历史运单数据中获取多个原始运单特征的步骤包括:分别根据运单维度、实时维度和客户维度从历史运单数据中统计得到三个特征组,包括运单特征组、实时特征组和客户特征组。
具体地,可从上述三个维度确定原始运单特征,包括以下三个维度:
(1)运单维度数据——运单维度
运单维度数据包括“托寄物种类”,“时效类型”(例如急件、特急等),“产品代码”,“是否保价”,“是否增值服务”,作为运单特征组,这部分特征属于运单基础特征,不需要我们进行任何处理,可直接作为高风险场景识别特征。
(2)客户维度数据——客户维度
客户维度数据是统计客户在过去一段时间内的发起时效客诉的数据,并以此来定义客户行为,作为高风险场景识别方案中的客户行为特征,在统计过程中,将客户行为细化为寄件人行为及收件人行为,具体来说,主要包括“寄件人前90天是否发生时效客诉”,“寄件人前90天查件一次是否发生时效客诉”,“寄件人前90天微信催派一次是否发生时效客诉”,“寄件人前90天到达网点后微信催派一次是否发生时效客诉”,“寄件人前90天到达网点后查件一次是否发生时效客诉”,“收件人前90天是否发生时效客诉”,“收件人前90天查件一次是否发生时效客诉”,“收件人前90天微信催派一次是否发生时效客诉”,“收件人前90天到达网点后微信催派一次是否发生时效客诉”,“收件人前90天到达网点后查件一次是否发生时效客诉”等共52个特征,作为客户特征组。
(3)实时数据——实时维度
实时数据是根据运单在流转过程中的实时路由信息获取的数据,这部分数据直接或经过统计计算生成相应的实时特征,作为高风险场景识别方案中的实时特征,主要包括“是否滞留”,“滞留数量”,“当前操作场地停留时间”,“当前城市停留时间”,“是否查件”,“查件次数”,“是否微信催派”,“微信催派次数”,“流转时长”,“寄件时间距离最后一次查件时间差”,“第一次查件距离承诺时效时间差”,“是否有客户约定时间”等共98个特征,作为实时特征组。
上述确定各个原始运单特征的重要性程度,包括:通过xgboost算法计算得到各个原始运单特征的特征重要性预测值;通过IV值算法计算每个特征组中的各个原始运单特征在相应的特征组中的信息价值;根据预设的权重计算特征重要性预测值与信息价值的加权值,得到每个原始运单特征的重要性程度。
具体地,首先通过Xgboost算法自带的函数feature_importance_,输出所有特征的特征重要性预测值;然后,通过IV值算法计算每个原始运单特征的信息价值。在计算iv值之前,需要计算woe值,woe及iv值具体计算办法,在下面给出。
其中:woei为每一维特征自动分组后,每一组的woe值;pyi为每一维特征自动分组后,每一组中正样本的数量占所有正样本数量的比例;pni为每一维特征自动分组后,每一组中负样本的数量占所有负样本数量的比例;#yi为每一维特征自动分组后,每一组中正样本的数量;#yτ为所有样本中,正样本的数量;#ni为每一维特征自动分组后,每一组中正样本的数量;#nτ为所有样本中,负样本的数量。
注:每一维特征,每一个分组,都对应一个woe值;每一维特征,只对应一个IV值,这个IV值,是每组IV值的简单加和。
在本实施例中,分别通过上述两种方法分别获取两种特征重要性排序,融合两个特种重要性排序结果,保留在两个排序结果中,都表现很重要的特征,进行特征筛选。例如,可通过预设的权重计算通过xgboost算法得到的特征重要性预测值与上述信息价值(即IV值)的加权值,得到每个原始运单特征的重要性程度,保留特征重要性程度位于TOP20的特征,包括是否滞留、滞留原因是否为65、是否保价、到达网点后电话外呼次数、寄件人90天是否发生时效客诉、电话外呼次数、是否投递丰巢柜、托寄物分类、时效类型、产品代码等。
上述实施例,通过Xgboost算法和IV值算法计算每个原始原始运单特征的重要性程度,筛选出对于时效风险预测最关键的预设数量的特征,为后续构建高风险场景提供了数据基础。
在一实施例中,上述获取当前运单数据,包括:通过卡夫卡系统获取各个运单调配网点的当前运单数据;卡夫卡系统用于存储运单调配网点的所有当前运单数据和运单调配网点的历史运单数据。
具体地,在各个运单调配网点设置kafka实时接入系统,通过kafka实时接入运单各维度数据,另外,由于kafka具有数据实时备份的功能,因此还可通过kafka系统存储单调配网点的历史运单数据。
上述实施例,通过kafka实时接入系统存储运单调配网点的所有当前运单数据和运单调配网点的历史运单数据,便于对不同阶段的运单数据进行分析,从而更新上述运单风险场景识别模型中的高风险场景。同时也能够通过kafka实时接入系统及时将高风险运单发送至风险运单处理端进行处理,降低客户发起客诉的可能性,实现降本增效。
应该理解的是,虽然图1至3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1至3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种运单风险场景识别处理装置400,包括:数据获取模块401、特征提取模块402、风险场景识别模块403和高风险运单处理模块404,其中:
数据获取模块,用于获取当前运单数据;
特征提取模块,用于从所述当前运单数据中提取与预设特征维度对应的运单特征,得到多维度运单特征集;
风险场景识别模块,用于将所述多维度运单特征集输入预先构建的运单风险场景识别模型,以使所述运单风险场景识别模型识别所述多维度运单特征集是否与预设的风险场景匹配;
高风险运单处理模块,用于若匹配,则将所述当前运单作为高风险运单发送至风险运单处理端记性处理。
在一实施例中,上述运单风险场景识别处理装置400还包括模型构建单元,上述数据获取模块401,还用于获取历史运单数据;上述特征提取模块402,还用于从所述历史运单数据中筛选得到有效特征集;所述有效特征集是指运单特征的重要性程度高于第一预设阈值的特征集合;上述模型构建单元,用于将所述有效特征集中的不同有效特征进行分组融合,得到多个有效融合特征组;各个所述有效融合特征组对应不同场景;计算各个所述有效融合特征组对应的客诉率;将所述客诉率高于第二预设阈值的有效融合特征组对应的场景作为高风险场景;基于所述高风险场景构建所述运单风险场景识别模型。
在一实施例中,上述特征提取模块402,进一步用于:从所述历史运单数据中获取多个原始运单特征;确定各个所述原始运单特征的重要性程度;选取所述多个原始运单特征中重要性程度最高的预设数量的原始运单特征,构成所述有效特征集。
在一实施例中,上述模型构建单元,用于针对所述有效特征集中的每一个所述有效特征,将每一个所述有效特征与至少一个其他所述有效特征进行特征融合,得到所述多个有效融合特征组。
在一实施例中,上述模型构建单元进一步用于,通过特征筛选算法确定各个所述原始运单特征的重要性程度;所述特征筛选算法包括xgboost算法和IV值算法。
在一实施例中,上述模型构建单元,进一步用于,通过xgboost算法计算得到各个所述原始运单特征的特征重要性预测值;通过IV值算法计算每个所述特征组中的各个所述原始运单特征在相应的所述特征组中的信息价值;根据预设的权重计算所述特征重要性预测值与所述信息价值的加权值,得到每个所述原始运单特征的所述重要性程度。
在一实施例中,上述数据获取模块401还用于,通过卡夫卡系统获取各个运单调配网点的所述当前运单数据;所述卡夫卡系统用于存储所述运单调配网点的所有当前运单数据和所述运单调配网点的历史运单数据。
关于运单风险场景识别处理装置的具体限定可以参见上文中对于运单风险场景识别处理方法的限定,在此不再赘述。上述运单风险场景识别处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储运单数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种运单风险场景识别处理方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如上述的运单风险场景识别处理方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述的运单风险场景识别处理方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种运单风险场景识别处理方法,其特征在于,所述方法包括:
获取当前运单数据;
从所述当前运单数据中提取与预设特征维度对应的运单特征,得到多维度运单特征集;
将所述多维度运单特征集输入预先构建的运单风险场景识别模型,以使所述运单风险场景识别模型识别所述多维度运单特征集是否与预设的高风险场景匹配;
若匹配,则将所述当前运单作为高风险运单发送至风险运单处理端进行处理。
2.根据权利要求1所述的方法,其特征在于,所述获取当前运单数据之前,包括:
获取历史运单数据;
从所述历史运单数据中筛选得到有效特征集;所述有效特征集是指运单特征的重要性程度高于第一预设阈值的特征集合;
将所述有效特征集中的不同有效特征进行分组融合,得到多个有效融合特征组;各个所述有效融合特征组对应不同场景;
计算各个所述有效融合特征组对应的客诉率;
将所述客诉率高于第二预设阈值的有效融合特征组对应的场景作为高风险场景;
基于所述高风险场景构建所述运单风险场景识别模型。
3.根据权利要求2所述的方法,其特征在于,所述从所述历史运单数据中筛选得到有效特征集,包括:
从所述历史运单数据中获取多个原始运单特征;
确定各个所述原始运单特征的重要性程度;
选取所述多个原始运单特征中重要性程度最高的预设数量的原始运单特征,构成所述有效特征集。
4.根据权利要求2所述的方法,其特征在于,所述将所述有效特征集中的不同有效特征进行分组融合,得到多个有效融合特征组,包括:
针对所述有效特征集中的每一个所述有效特征,将每一个所述有效特征与至少一个其他所述有效特征进行特征融合,得到所述多个有效融合特征组。
5.根据权利要求3所述的方法,其特征在于,所述确定各个所述原始运单特征的重要性程度,包括:
通过特征筛选算法确定各个所述原始运单特征的重要性程度;所述特征筛选算法包括xgboost算法和IV值算法。
6.根据权利要求3所述的方法,其特征在于,所述预设特征维度包括运单维度、实时维度和客户维度,所述从所述历史运单数据中获取多个原始运单特征,包括:
分别根据所述运单维度、所述实时维度和所述客户维度从所述历史运单数据中统计得到三个特征组,包括运单特征组、实时特征组和客户特征组;
所述确定各个所述原始运单特征的重要性程度,包括:
通过xgboost算法计算得到各个所述原始运单特征的特征重要性预测值;
通过IV值算法计算每个所述特征组中的各个所述原始运单特征在相应的所述特征组中的信息价值;
根据预设的权重计算所述特征重要性预测值与所述信息价值的加权值,得到每个所述原始运单特征的所述重要性程度。
7.根据权利要求1至6任一项所述的方法,其特征在于,
所述获取当前运单数据,包括:
通过卡夫卡系统获取各个运单调配网点的所述当前运单数据;所述卡夫卡系统用于存储所述运单调配网点的所有当前运单数据和所述运单调配网点的历史运单数据。
8.一种运单风险场景识别处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取当前运单数据;
特征提取模块,用于从所述当前运单数据中提取与预设特征维度对应的运单特征,得到多维度运单特征集;
风险场景识别模块,用于将所述多维度运单特征集输入预先构建的运单风险场景识别模型,以使所述运单风险场景识别模型识别所述多维度运单特征集是否与预设的风险场景匹配;
高风险运单处理模块,用于若匹配,则将所述当前运单作为高风险运单发送至风险运单处理端记性处理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482197.9A CN114638391A (zh) | 2020-12-16 | 2020-12-16 | 运单风险场景识别处理方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482197.9A CN114638391A (zh) | 2020-12-16 | 2020-12-16 | 运单风险场景识别处理方法、装置、计算机设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114638391A true CN114638391A (zh) | 2022-06-17 |
Family
ID=81944393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011482197.9A Pending CN114638391A (zh) | 2020-12-16 | 2020-12-16 | 运单风险场景识别处理方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638391A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402236A (zh) * | 2023-05-31 | 2023-07-07 | 北京京东乾石科技有限公司 | 信息生成方法和装置 |
CN116991562A (zh) * | 2023-09-28 | 2023-11-03 | 宁波银行股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN117171560A (zh) * | 2023-08-23 | 2023-12-05 | 国网吉林省电力有限公司经济技术研究院 | 一种基于XGBoost算法的乡村能效数据集缺失值填充方法 |
CN117474344A (zh) * | 2023-12-28 | 2024-01-30 | 青岛盈智科技有限公司 | 一种货物运输过程的风险评估方法及系统 |
-
2020
- 2020-12-16 CN CN202011482197.9A patent/CN114638391A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402236A (zh) * | 2023-05-31 | 2023-07-07 | 北京京东乾石科技有限公司 | 信息生成方法和装置 |
CN117171560A (zh) * | 2023-08-23 | 2023-12-05 | 国网吉林省电力有限公司经济技术研究院 | 一种基于XGBoost算法的乡村能效数据集缺失值填充方法 |
CN116991562A (zh) * | 2023-09-28 | 2023-11-03 | 宁波银行股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN116991562B (zh) * | 2023-09-28 | 2023-12-26 | 宁波银行股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN117474344A (zh) * | 2023-12-28 | 2024-01-30 | 青岛盈智科技有限公司 | 一种货物运输过程的风险评估方法及系统 |
CN117474344B (zh) * | 2023-12-28 | 2024-03-22 | 青岛盈智科技有限公司 | 一种货物运输过程的风险评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114638391A (zh) | 运单风险场景识别处理方法、装置、计算机设备和介质 | |
CN110737818A (zh) | 网络发布数据处理方法、装置、计算机设备和存储介质 | |
CN110610431A (zh) | 基于大数据的智能理赔方法及智能理赔系统 | |
CN110084634B (zh) | 广告投放优化方法、装置、计算机设备及存储介质 | |
CN108256721A (zh) | 一种任务调度方法、终端设备及介质 | |
CN109409780B (zh) | 变更处理方法、装置、计算机设备和存储介质 | |
CN113888299A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN116245112B (zh) | 一种物流信息的识别方法、装置和计算机设备 | |
CN110765351A (zh) | 目标用户识别方法、装置、计算机设备和存储介质 | |
CN111260214B (zh) | 核电站预留工单领料方法、装置、设备及存储介质 | |
CN111382944A (zh) | 作业行为风险识别方法、装置、计算机设备和存储介质 | |
CN115063218A (zh) | 社保卡的制卡信息与金融信息的交互方法、装置及设备 | |
CN111882113B (zh) | 一种企业手机银行用户的预测方法和装置 | |
CN117593579A (zh) | 变电设备检修行为识别方法、装置和计算机设备 | |
CN116434415A (zh) | 叫号系统的信息处理方法、装置、处理器以及电子设备 | |
CN111652471A (zh) | 名单分配控制方法、装置、电子设备及存储介质 | |
CN116187675A (zh) | 任务分配方法、装置、设备及存储介质 | |
Li et al. | Learning to bundle proactively for on-demand meal delivery | |
CN113313505B (zh) | 异常定位方法、装置及计算设备 | |
CN114663107A (zh) | 客诉风险预测方法、装置、计算机设备和存储介质 | |
CN114972931A (zh) | 一种基于知识蒸馏的货物存放方法及装置 | |
US11016828B2 (en) | Task support system and method | |
CN114782101A (zh) | 一种基于语音识别的客户成交概率分析方法、系统和设备 | |
CN110516922B (zh) | 分配数据处理对象的方法及装置 | |
CN111311150B (zh) | 配送任务分组方法、平台、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |