CN110675173A - 一种数据处理方法、装置及电子设备 - Google Patents
一种数据处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110675173A CN110675173A CN201910943974.6A CN201910943974A CN110675173A CN 110675173 A CN110675173 A CN 110675173A CN 201910943974 A CN201910943974 A CN 201910943974A CN 110675173 A CN110675173 A CN 110675173A
- Authority
- CN
- China
- Prior art keywords
- data
- item
- attribute
- characteristic
- data items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
- G06Q30/016—After-sales
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据处理方法、装置及电子设备,方法包括:获得对象的至少一个数据项,所述数据项具有属性及属性值;在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
目前,商品的售后市场已经越来越广阔。在用户对商品的使用中商品的售后服务占据较大的比重,而对用户商品的售后预测可以为用户提供更优质的售后服务。
例如,对用户汽车在首保后进行回站保养或检修进行预测,以及对用户汽车所做的保养项目或检修项目进行针对性推荐等,均可以给用户提供更优质便捷的服务。
因此,需要对商品的售后状态进行有效预测,才能为用户提供更优质的售后服务。
发明内容
有鉴于此,本申请提供一种数据处理方法、装置及电子设备,用以解决现有技术中需要对对象的二次处理进行有效预测,如对商品的售后进行预测,为用户提供优质服务,如下:
一种数据处理方法,包括:
获得对象的至少一个数据项,所述数据项具有属性及属性值;
在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;
将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;
其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
上述方法,优选的,在所述数据项中选取至少一个特征项,包括:
在所述数据项中选取至少一个满足第一条件的数据项为特征项。
上述方法,优选的,所述第一条件,包括:所述特征项属于预设的目标数据维度;或者,所述特征项的属性值满足预设的数据规则。
上述方法,优选的,在所述数据项中选取至少一个特征项之前,所述方法还包括:
对所述数据项按照离散型和连续型进行分类;
对连续型的数据项与所述对象是否被二次处理的变量进行相关性计算,得到第一结果;
对离散型的数据项与所述对象是否被二次处理的变量进行相关性计算,得到第二结果;
基于所述第一结果或所述第二结果,舍弃或保留所述数据项。
上述方法,优选的,在得到所述训练模型输出的所述对象的概率值之后,所述方法还包括:
基于所述概率值,生成提示信息,所述提示信息包括:所述对象被二次处理的处理项目信息。
上述方法,优选的,所述数据项包括首次处理的属性数据项、所述对象的操作行为的属性数据项、二次处理的属性数据项中的一种或多种数据项。
一种数据处理装置,包括:
数据获得单元,用于获得对象的至少一个数据项,所述数据项具有属性及属性值;
特征选择单元,用于在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;
概率获得单元,用于将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;
其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
一种电子设备,包括:
存储器,用于存储应用程序和所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现功能:获得对象的至少一个数据项,所述数据项具有属性及属性值;在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
从上述技术方案可以看出,本申请公开的一种数据处理方法、装置及电子设备,在获得对象的包含属性和属性至的数据项之后,通过对数据项进行特征项提取,进而将特征项中的特征属性及相应的特征属性值输入到利用具有二次处理标签的样本训练得到的训练模型中,进而得到训练模型输出表征在特定的时间范围内对象被二次处理的概率的值,由此实现对对象在特定时间范围内进行二次处理进行有效预测,例如,对商品的售后进行有效预测,进而针对对象被二次处理的概率值来为用户提供相应的服务做准备,从而能够为用户提供更加优质的服务,改善用户体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种数据处理方法的流程图;
图2为本申请实施例一中对数据项分类筛选的流程图;
图3为本申请实施例一提供的一种数据处理方法的另一流程图;
图4为本申请实施例在购车场景中的示例图;
图5为本申请实施例二提供的一种数据处理装置的结构示意图;
图6为本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请实施例一提供的一种数据处理方法的实现流程图,本实施例中的方法适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的方法主要用于对对象在特定范围内被二次处理的概率进行预测,以便于针对对象作出相应的服务准备。例如,本实施例中的方法能够用于对商品是否在特定时间范围内进行售后的概率进行预测,以便于为商品售后作相应的准备工作,由此为用户提供更优质的商品售后服务。
具体的,本实施例中的方法可以包括以下步骤:
步骤101:获得对象的至少一个数据项。
其中,数据项中具有属性及属性值。
需要说明的是,数据项中可以包括有多种维度上关于对象的处理相关的数据项,相应的,这些数据项中具有相应的维度属性和属性值,属性值表征在该属性上的特点。
具体的,数据项中包括对象被首次处理的属性数据项、对象的操作行为的属性数据项、对象的二次处理的属性数据项等中的任意一种或任意多种的数据项。
其中,对象被首次处理的属性数据项可以理解为:对象被首次处理时所涉及的处理时间、对象本身的特点、对该对象执行第一处理的第一目标物的特点、对该对象执行第二处理的第二目标物的特点等;
对象的操作行为的属性数据项可以理解为:对象被第一目标物如用户进行第一处理如购买或使用的特点;
对象的二次处理的属性数据项可以理解为:对象被第二目标物如商店进行第二处理如售后的特点,等等。
相应的,本实施例中可以通过对相关数据库进行访问或者问卷调查的方式获得以上关于对象的数据项。
以对象为汽车商品为例,数据项中可以包括有以下数据项:
汽车被用户购买时的属性数据项:购车时长、购车价格、购车的商店等等;
汽车本身的属性特征项:汽车颜色、汽车配置等;
购买并驾驶汽车的用户的属性特征项:用户职业、年龄、收入状况、学历、婚否、是否有子女、是否首次购车等;
汽车被售后保养或维修的商店的属性特征项:商店名称、地址、商店周边的其他商店的距离等;
汽车被用户驾驶的属性数据项:驾驶频次、平均驾驶里程、通常行驶路况等;
汽车被商店保养或维修的属性特征项:商店保养或维修的价格、保养或维修的项目等等。
另外,本实施例中的数据项中还包括有第一目标物针对对象的其他属性数据项,如是否查阅与对象相关的信息等,以对象为汽车商品为例,汽车的数据项中还包括有用户手机中是否有汽车相关的应用、是否主动搜索过汽车咨询、是否了解过互联网舆论信息等。
步骤102:在数据项中选取至少一个特征项。
其中,特征项具有特征属性及特征属性值。
需要说明的是,本实施例中在对数据项进行特征项选取之前,可以首先对数据项进行预处理,如下:
本实施例中可以将获得到的对象的数据项之间,以一个预设的特征进行数据项关联,例如,以首次处理该对象的用户的身份标识如ID(identification)或对象标识等为关键词聚合不同来源的数据项,这里的不同来源可以是数据库或者问卷调查等来源,不同来源的数据项中对对象的描述方式不同,但均具有首次处理该对象的用户标识这一特征来聚合不同来源的数据项,将对应于不同用户标识的数据项聚合在一起,以便于分别或依次针对各用户首次处理的相应对象被二次处理的概率值进行预测;
另外,本实施例中对数据项进行预处理,还可以有以下实现:
对数据项的属性值是否出现缺失进行判断,进而补充缺失的值或舍弃数据项。其中,由于数据库或问卷调查等方式所得到的数据项可能会出现某些属性部分至缺失的情况,在后续进行预测时,可能导致预测失败的情况,因此,本实施例中针对出现属性值缺失的数据项,在缺失值较少时,如缺失比例在10%以内时,本实施例中可以针对数值型数据项的属性值进行均值填充或上下数据填充等,针对离散型数据项的属性值可以使用众数进行填充;而在缺失值较多时,可以直接将该数据项舍去,否则对缺失填充可能会因为引入较多的噪声而导致预测结果准确率过低的情况。
例如,以对象为汽车商品为例,本实施例中可以首先对汽车商品所获得的各种数据项关于购买者的身份信息进行聚合,将属于同一购买者的商品数据项聚合在一起;进一步的,针对汽车商品数据项进行缺失值处理,而缺失值的处理方式具体可以参考前文中内容。
具体的,本实施例中在数据项中选取特征项时,可以选取全部或部分数据项作为特征项,相应的,特征项中具有特征属性及特征属性值。
步骤103:将特征属性及特征属性至输入到训练模型中,得到训练模型输出的对象的概率值。
其中,该概率值表明在特定的时间范围内对象被二次处理的概率。特定的时间范围可以为预先设置的时间范围,也可以是在对象的数据项中所表征的时间范围。
需要说明的是,本实施例中的训练模型为利用至少两个具有二次处理标签的样本训练得到,该样本为具有二次处理标签的数据项。也就是说,本实施例中预先利用具有二次处理标签的多个数据项对初始的搭建的训练模型进行训练,以使得训练完的训练模型能够根据样本数据项中的二次处理标签对被预测的对象的数据项进行数据分析,以预测出被预测的对象的数据项与这些具有二次处理标签的数据项之间一致的概率值,进而得到被预测的对象在特定的时间范围内被二次处理的概率值。
具体的,本实施例中的训练模型可以为选取鲁棒性较强的随机森林、梯度提升树GBDT(Gradient Boosting Decision Tree)、轻型梯度提升树lightGBM(light gradientboosting machine)等算法搭建初始的模型,在模型中以决策树为基础,具有通过特征组合构建非线性特征的优先,同时能够通过多棵树的组合训练方法降低模型输出的误差,由此,在对该模型经过多个具有二次处理标签的样本数据项的训练之后,所得到的训练模型能够对未知二次处理标签的对象的数据项进行概率值输出,由此表征对象在特定的时间范围内被二次处理的概率。
由上述方案可知,本申请实施例一的一种数据处理方法,在获得对象的包含属性和属性至的数据项之后,通过对数据项进行特征项提取,进而将特征项中的特征属性及相应的特征属性值输入到利用具有二次处理标签的样本训练得到的训练模型中,进而得到训练模型输出表征在特定的时间范围内对象被二次处理的概率的值,由此实现对对象在特定时间范围内进行二次处理进行有效预测,例如,对商品的售后进行有效预测,进而针对对象被二次处理的概率值来为用户提供相应的服务做准备,从而能够为用户提供更加优质的服务,改善用户体验。
在一种实现方式中,步骤102中在数据项中选取至少一个特征项时,可以是在数据项中选取至少一个满足第一条件的数据项为特征项。
其中,第一条件可以为:特征项属于预设的目标数据维度;或者,第一条件也可以为:特征项的属性值满足预设的数据规则。
需要说明的是,目标数据维度可以为根据用户需求预先设置,如首次处理的数据项维度、操作行为的数据项维度和二次处理的数据项维度等中的一种维度或多种维度,相应的,经过训练模型预测的概率值所表征的是侧重该目标数据维度的对象被二次处理的概率。
另外,数据规则可以为属性值的缺失率低于阈值,或者属性值处于特定的值范围。相应的,本实施例中通过不满足数据规则的数据项剔除,而选取出满足数据规则的数据项作为训练模型的输入,从而避免属性值缺失而导致的输出结果不准确的情况,由此来提高预测准确率。
由此,本实施例中通过将满足第一条件的数据项作为特征项,进而作为训练模型的输入,来减少数据计算量,加快预测效率,并且在一定程度上提高预测准确率。
在一种实现方式中,本实施例中在选取出特征项之前,还可以预先对数据项进行一次筛选,如图2中所示:
步骤201:对数据项按照离散型和连续型进行分类。
其中,离散型和连续型是针对数据项的属性值而言,数据项的属性值可能为离散型的数据项属性值,如汽车保养项目数据项、汽车颜色数据项等;或者,数据项的属性值可能为连续型的数据项属性值,如年龄数据项、收入状态数据项等。
具体的,本实施例中可以通过对数据项的属性值在数值上是否具有连续性进行分析,来确定数据项时属于离散型数据项还是连续型数据项。
步骤202:对连续型的数据项与对象是否被二次处理的变量进行相关性计算,得到第一结果。
其中,对象是否被二次处理的变量可以理解为对象在特定的时间范围内是否被二次处理的变量。该变量以对象被二次处理和对象不被二次处理量化后的值组成,例如,对象在特定的时间范围如半年被二次处理被量化为值为1或是或其他表征正向的值的变量,对象在特定的时间范围不被二次处理被量化为值为0或否或其他表征负向的值的变量,相应的,该变量能够进行相关性计算。
具体的,本实施例中可以利用皮尔逊算法,来获得连续型的数据项与对象是否被二次处理的变量之间的皮尔逊相关系数,作为第一结果,以表征数据项与对象是否被二次处理的变量之间的相关性。
步骤203:基于第一结果,舍弃或保留该数据项。
其中,如果第一结果中表征数据项与对象是否被二次处理的变量之间的相关性较高,那么表明该数据项在作为训练模型的输入进行对象被二次处理的预测时是具有统计意义的,可以保留进行模型预测,否则,可以舍去相应的数据项。
例如,如果皮尔逊相关系数小于0.05,那么表征该数据项与对象是否被二次处理的变量之间的相关性较高,那么表明该数据项作为训练模型的输入进行对象被二次处理的预测时是具有统计意义的,此时保留该数据项;如果皮尔逊相关系数大于0.05,那么表征该数据项与对象是否被二次处理的变量之间的相关性较低,那么表明该数据项作为训练模型的输入进行对象被二次处理的预测时是没有统计意义的,此时舍去该数据项。
步骤204:对离散型的数据项与对象是否被二次处理的变量进行相关性计算,得到第二结果。
其中,本实施例中可以利用卡方检验算法,来获得离散型的数据项与对象是否被二次处理的变量之间的卡方值,作为第二结果,以表征数据项与对象是否被二次处理的变量之间的相关性。
步骤205:基于第二结果,舍弃或保留该数据项。
其中,如果第二结果中表征数据项与对象是否被二次处理的变量之间的相关性较高,那么表明该数据项在作为训练模型的输入进行对象被二次处理的预测时是具有统计意义的,可以保留进行模型预测,否则,可以舍去相应的数据项。
例如,如果卡方值小于0.05,那么表征该数据项与对象是否被二次处理的变量之间的相关性较高,那么表明该数据项作为训练模型的输入进行对象被二次处理的预测时是具有统计意义的,此时保留该数据项;如果卡方值大于0.05,那么表征该数据项与对象是否被二次处理的变量之间的相关性较低,那么表明该数据项作为训练模型的输入进行对象被二次处理的预测时是没有统计意义的,此时舍去该数据项。
可见,本实施例中通过分类对数据项用于模型预测的统计意义进行计算,以确定是否保留相应的数据项,从而能够做到对数据项进行进一步筛选,以剔除掉对对象在特定的时间范围内是否被二次处理进行预测没有意义的数据项,从而减少数据计算量,在加快预测效率的同时,也能够提高准确率。
在一种实现方式中,本实施例中在得到训练模型输出的对象的概率值之后,还可以包括以下步骤,如图3中所示:
步骤104:基于概率值,生成提示信息。
其中,本实施例中可以根据最大的概率值对应的对象所涉及的处理项目,来生成提示信息,相应的,提示信息中包括有:对象被二次处理的处理项目信息,以便于提示用户或其他目标物根据处理项目信息做出相应的处理。
例如,以汽车为例,本实施例中在预测对用户对购车进行回店保养的概率值进行预测之后,输出保养项目信息,以提前提示用户或商店做好保养准备,由此为用户提供更优质的保养服务。
在一种实现方式中,训练模型可以预先通过以下方式训练得到:
首先,获得多个对象的样本数据项,每个样本数据项具有属性及属性值,并且每个样本数据项具有预设的二次处理标签。具体的,本实施例中可以通过授权的数据库访问、街头问卷调查等方式采集多个对象的样本数据项。而所述数据项包括首次处理的属性数据项、所述对象的操作行为的属性数据项、二次处理的属性数据项中的一种或多种数据项。
以对象为汽车商品为例,对象的数据项中可以包括有以下数据项,如图4中所示:
汽车购买使用数据:购车时长、价格、颜色、配置、购车的4S店、驾驶频次、平均驾驶里程、通常行驶路况等;
用户个人数据:职业、年龄、收入状况、学历、婚否、是否有宝宝、是否首次购车等;
保养服务数据:保养项目、保养价格是否满意、保养的4S店、附近保养店的距离等;
外部数据:用户手机中是否有汽车相关的应用程序、是否主动了解汽车资讯、互联网舆论信息等。
其次,本实施例中对多个对象的样本数据项进行预处理,如下:
(1)数据关联:其中,前期所得到的数据项通常是通过多种不同的渠道或方式所采集到的数据项,针对多个对象,涉及不同对象的第一目标物如购车用户,也涉及不同的处理项目或第二目标物如商店等,相应到,本实施例中可以预先对数据项进行梳理,例如,对汽车的相关数据项以用户ID或者车牌号为关键词key聚合不同来源的数据项。
(2)缺失值处理:本实施例中可以对数据项的属性值是否缺失或者缺失比例进行解析,以根据缺失的程度来进行相应的处理,例如,对于缺失比例较低的数据项可以根据均值进行适当地补充,而对于属性值过于稀疏的数据项如缺失比例较高时,可以直接舍去该数据项,以便进行补充引入更多的噪声,影响模型的训练准确性。
之后,参考图4,本实施例中对经过预处理的数据项进行筛选,如下:
(1)本实施例中可以将数据项按照对象所涉及的第二目标物即对对象进行二次处理的目标物进行聚类,聚类成不同的簇进行编码。例如,对于汽车商品对象,本实施例中对相关的数据项根据各个购车及保养4S店的地理位置、汽车销量、汽车保养情况、回站保养率等数据项信息进行关于4S店的聚类,聚类形成不同的簇再进行one-hot编码。
(2)对连续型的数据项与对象是否被二次处理的变量进行相关性计算,得到第一结果;例如,将数据项与汽车是否被回店保养做皮尔逊相关分析,得到皮尔逊相关系数,作为第一结果来确定是否舍弃该数据项,如果皮尔逊相关系数小于0.05,那么表明该数据项具有统计意义,保留,否则舍弃;
对于对离散型的数据项与所述对象是否被二次处理的变量进行相关性计算,得到第二结果;例如,将数据项与汽车是否被回店保养做卡方检验,得到卡方值,作为第二结果来确定是否舍弃该数据项,如果卡方值小于0.05,那么表明该数据项具有统计意义,保留,否则舍弃;
(3)在数据项中选取至少一个满足第一条件的数据项为特征项。其中,第一条件,包括:特征项属于预设的目标数据维度;或者,特征项的属性值满足预设的数据规则。例如,本实施例中可以使用RFE(递归特征消除算法)、或Lasso算法对数据项进行降维及筛选,由此,本实施例中通过降维和筛选能够减少特征数量、降维,使模型泛化能力更强,减少过拟合,进而提升模型的性能,并增强对特征和特征值之间的理解,更能帮助解数据项的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
最后,本实施例中可以选择鲁棒性较强的随机森林、GBDT、LightGBM等进行模型构建,作为初始模型,在模型中的集成树以决策树为基础,具备通过特征组合构建非线性特征的优点,同时能够通过多棵树的组合训练方法降低模型误差,此外,模型还能够输出在样本整体上特征的重要性,具备良好的可解释性,对业务能够起到参考作用。进一步的,本实施例中可以采用stacking的方法增加模型的泛化能力,即用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。
由此,在搭建初始的模型之后,利用以上多个对象的经过预处理和筛选的数据项进行模型训练,得到能够进行预测的训练模型,用以按照图1中所示的流程对任意一个对象进行预测,以得到该对象在特定的时间范围内被二次处理的概率值。
例如,参考图4,本实施例中在得到训练模型之后,可以使用训练出的模型对购车进行首保后的用户进行预测,得出不同用户的回站保养可能性,即回店预测结果中的用户回店保养的概率值,以此精准定位用户人群,并输出提示信息给4S店,以便于提前准备保养服务,改善用户保养体验;
进一步的,参考图4,本实施例中可以根据模型得出各个特征项的重要性(概率值)的高低,得知影响用户回站保养的特征,作为入手点输出提示信息给4S店,以便针对高概率(如回站概率大于0.5)保养的人群对保养服务进行针对性地改进;同时提示对应的4S店跟进、挽留低概率(如回站概率低于0.3或者处于0.3和0.5之间)保养的客户人群,对不同人群匹配营销、关怀策略,进一步的,本实施例中可以获取回店后的反馈结果,根据反馈的结果不断对模型进行迭代和优化。
综上,在购车场景中,本实施例中通过对用户购车的相关数据项进行采集,并利用训练模型进行预测,进而能够输出表征用户回店保养的相关概率值,并以此输出提示信息,由此,本实施例中能够分析用户回站保养的可能性区分人群,促进精准营销,针对特定人群匹配营销策略,提升销售效率;并且,本实施例中通过构建用户回站保养预测的训练模型,将预测结果与实际业务流程匹配,进而能够分析客户流失原因,降低流失率,提高企业的盈利水平和竞争力,而且能够以主动服务为手段有为后续营销打好基础,同时通过售后维修保养增加售后产值。
参考图5,为本申请实施例二提供的一种数据处理装置的结构示意图,本实施例中的装置可以配置在能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的装置主要用于对对象在特定范围内被二次处理的概率进行预测,以便于针对对象作出相应的服务准备。例如,本实施例中的方法能够用于对商品是否在特定时间范围内进行售后的概率进行预测,以便于为商品售后作相应的准备工作,由此为用户提供更优质的商品售后服务。
具体的,本实施例中的装置可以包括以下单元:
数据获得单元501,用于获得对象的至少一个数据项,所述数据项具有属性及属性值;
其中,所述数据项包括首次处理的属性数据项、所述对象的操作行为的属性数据项、二次处理的属性数据项中的一种或多种数据项。
特征选择单元502,用于在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;
概率获得单元503,用于将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;
其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
由上述方案可知,本申请实施例二的一种数据处理装置,在获得对象的包含属性和属性至的数据项之后,通过对数据项进行特征项提取,进而将特征项中的特征属性及相应的特征属性值输入到利用具有二次处理标签的样本训练得到的训练模型中,进而得到训练模型输出表征在特定的时间范围内对象被二次处理的概率的值,由此实现对对象在特定时间范围内进行二次处理进行有效预测,例如,对商品的售后进行有效预测,进而针对对象被二次处理的概率值来为用户提供相应的服务做准备,从而能够为用户提供更加优质的服务,改善用户体验。
在一种实现方式中,在所述数据项中选取至少一个特征项可以通过以下方式实现:
在所述数据项中选取至少一个满足第一条件的数据项为特征项。
其中,所述第一条件,包括:所述特征项属于预设的目标数据维度;或者,所述特征项的属性值满足预设的数据规则。
可选的,在所述数据项中选取至少一个特征项之前,所述方法还包括:
对所述数据项按照离散型和连续型进行分类;
对连续型的数据项与所述对象是否被二次处理的变量进行相关性计算,得到第一结果;
对离散型的数据项与所述对象是否被二次处理的变量进行相关性计算,得到第二结果;
基于所述第一结果或所述第二结果,舍弃或保留所述数据项。
可选的,在得到所述训练模型输出的所述对象的概率值之后,所述方法还包括:
基于所述概率值,生成提示信息,所述提示信息包括:所述对象被二次处理的处理项目信息。
需要说明的是,本实施例的装置中各单元的具体实现可以参考前文中相应内容,此处不再详述。
参考图6,为本申请实施例三提供的一种电子设备的结构示意图,本实施例中的电子设备可以为能够进行数据处理的电子设备,如计算机或服务器等。本实施例中的电子设备主要用于对对象在特定范围内被二次处理的概率进行预测,以便于针对对象作出相应的服务准备。例如,本实施例中的方法能够用于对商品是否在特定时间范围内进行售后的概率进行预测,以便于为商品售后作相应的准备工作,由此为用户提供更优质的商品售后服务。
具体的,本实施例中的电子设备可以包括以下单元:
存储器601,用于存储应用程序和所述应用程序运行所产生的数据;
处理器602,用于执行所述应用程序,以实现功能:获得对象的至少一个数据项,所述数据项具有属性及属性值;在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
由上述方案可知,本申请实施例三的一种电子设备,在获得对象的包含属性和属性至的数据项之后,通过对数据项进行特征项提取,进而将特征项中的特征属性及相应的特征属性值输入到利用具有二次处理标签的样本训练得到的训练模型中,进而得到训练模型输出表征在特定的时间范围内对象被二次处理的概率的值,由此实现对对象在特定时间范围内进行二次处理进行有效预测,例如,对商品的售后进行有效预测,进而针对对象被二次处理的概率值来为用户提供相应的服务做准备,从而能够为用户提供更加优质的服务,改善用户体验。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种数据处理方法,包括:
获得对象的至少一个数据项,所述数据项具有属性及属性值;
在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;
将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;
其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
2.根据权利要求1所述的方法,在所述数据项中选取至少一个特征项,包括:
在所述数据项中选取至少一个满足第一条件的数据项为特征项。
3.根据权利要求2所述的方法,所述第一条件,包括:所述特征项属于预设的目标数据维度;或者,所述特征项的属性值满足预设的数据规则。
4.根据权利要求1或2所述的方法,在所述数据项中选取至少一个特征项之前,所述方法还包括:
对所述数据项按照离散型和连续型进行分类;
对连续型的数据项与所述对象是否被二次处理的变量进行相关性计算,得到第一结果;
对离散型的数据项与所述对象是否被二次处理的变量进行相关性计算,得到第二结果;
基于所述第一结果或所述第二结果,舍弃或保留所述数据项。
5.根据权利要求1所述的方法,在得到所述训练模型输出的所述对象的概率值之后,所述方法还包括:
基于所述概率值,生成提示信息,所述提示信息包括:所述对象被二次处理的处理项目信息。
6.根据权利要求1所述的方法,所述数据项包括首次处理的属性数据项、所述对象的操作行为的属性数据项、二次处理的属性数据项中的一种或多种数据项。
7.一种数据处理装置,包括:
数据获得单元,用于获得对象的至少一个数据项,所述数据项具有属性及属性值;
特征选择单元,用于在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;
概率获得单元,用于将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;
其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
8.一种电子设备,包括:
存储器,用于存储应用程序和所述应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现功能:获得对象的至少一个数据项,所述数据项具有属性及属性值;在所述数据项中选取至少一个特征项,所述特征项具有特征属性及特征属性值;将所述特征属性及所述特征属性值输入到训练模型中,得到所述训练模型输出的所述对象的概率值;所述概率值表明在特定的时间范围内所述对象被二次处理的概率;其中,所述训练模型为利用至少两个具有二次处理标签的样本训练得到,所述样本为具有所述二次处理标签的样本数据项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910943974.6A CN110675173A (zh) | 2019-09-30 | 2019-09-30 | 一种数据处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910943974.6A CN110675173A (zh) | 2019-09-30 | 2019-09-30 | 一种数据处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110675173A true CN110675173A (zh) | 2020-01-10 |
Family
ID=69078715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910943974.6A Pending CN110675173A (zh) | 2019-09-30 | 2019-09-30 | 一种数据处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110675173A (zh) |
-
2019
- 2019-09-30 CN CN201910943974.6A patent/CN110675173A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
CN111291816B (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN109583966B (zh) | 一种高价值客户识别方法、系统、设备及存储介质 | |
US7062477B2 (en) | Information-processing apparatus, information-processing method and storage medium | |
CN112668859A (zh) | 基于大数据的客户风险评级方法、装置、设备及存储介质 | |
CN111429268B (zh) | 一种车辆信贷风险检测方法、终端设备和存储介质 | |
CN115147155A (zh) | 一种基于集成学习的铁路货运客户流失预测方法 | |
TW201818304A (zh) | 產品服務系統分類與服務轉型方法 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
CN110619545A (zh) | 基于大数据的车险数据推送方法、系统、设备及存储介质 | |
CN111161104A (zh) | 一种社区用户画像的生成方法及装置 | |
CN111861521A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN116070019A (zh) | 一种基于大数据的智能招商推荐方法、系统和可读存储介质 | |
CN112016756A (zh) | 数据预测的方法和装置 | |
CN115577172A (zh) | 物品推荐方法、装置、设备及介质 | |
CN106997371B (zh) | 单用户智慧图谱的构建方法 | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
CN117196787B (zh) | 一种基于人工智能的智能决策优化方法及系统 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN117709691A (zh) | 一种基于云服务的智能分包管理方法及系统 | |
CN116702059B (zh) | 一种基于物联网的智能生产车间管理系统 | |
KR102217084B1 (ko) | 하이브리드 추천 시스템 및 방법 | |
CN116934372A (zh) | 一种门店运营客户数据管理方法和系统 | |
CN110675173A (zh) | 一种数据处理方法、装置及电子设备 | |
CN109189831A (zh) | 一种基于组合赋权的购车倾向用户识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |