CN108256052B - 基于tri-training的汽车行业潜在客户识别方法 - Google Patents

基于tri-training的汽车行业潜在客户识别方法 Download PDF

Info

Publication number
CN108256052B
CN108256052B CN201810034618.8A CN201810034618A CN108256052B CN 108256052 B CN108256052 B CN 108256052B CN 201810034618 A CN201810034618 A CN 201810034618A CN 108256052 B CN108256052 B CN 108256052B
Authority
CN
China
Prior art keywords
sample
data
training
attribute
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810034618.8A
Other languages
English (en)
Other versions
CN108256052A (zh
Inventor
姚黎明
李晓非
张胤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Datalk Technology Co ltd
Original Assignee
Chengdu Datalk Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Datalk Technology Co ltd filed Critical Chengdu Datalk Technology Co ltd
Priority to CN201810034618.8A priority Critical patent/CN108256052B/zh
Publication of CN108256052A publication Critical patent/CN108256052A/zh
Application granted granted Critical
Publication of CN108256052B publication Critical patent/CN108256052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于tri‑training的汽车行业潜在客户识别方法,包括以下步骤:数据预处理,包括异常值处理、缺失值处理、分类属性处理、组合特征生成、特征选择、数据归一化;数据建模,用半监督学习中的Tri‑Training协同训练算法,并选择BP神经网络作为协同训练过程中的基学习器。本发明利用汽车品牌经销商的历史销售数据(带类别标签的客户数据)与采集的潜在客户数据(无标签的客户数据)建立半监督客户识别模型,从而为汽车行业的精准营销提供准确的营销对象,节省人力成本和资金成本。

Description

基于tri-training的汽车行业潜在客户识别方法
技术领域
本发明涉及一种潜在客户识别方法,尤其涉及一种基于tri-training的汽车行业潜在客户识别方法。
背景技术
随着互联网的蓬勃发展与普遍接入,人们在互联网上的行为产生了大量数据,对这些数据的储存、处理、分析等需求带动了数据库、云计算等相关技术的发展,这些数据采集、存储与处理技术的发展又反过来促进了企业对海量数据的分析应用,推动了大数据的发展。当前,越来越多的企业开始重视数据资产的积累、应用和变现。
在汽车行业,各汽车品牌经销商都可以通过手机WAP网站、手机APP、汽车门户电脑网站等数据源获取到近期关注自身品牌或竞争品牌的潜在消费者线索。若汽车品牌经销商能够快速、准确地从这些潜在消费者线索中识别出真正会购买汽车的,或有较大可能性购买汽车的客户,则经销商可以迅速采用更精准的营销方案针对客户进行营销,从而可以在竞争对手之前把握机会,抢占客户,提高销售额。
上述潜在消费者线索通常包括用户浏览过的汽车品牌、汽车型号、在每款汽车页面浏览时长与浏览时间、搜素关键字、价格偏好、用户年龄、居住地等属性。此类数据通常具有数据量大,维数多的特点,且由于用户对自身某些信息的保密性,数据在某些维度上呈现出缺失状态,更重要的一点是这些大量数据是不带有类别标签的,即汽车品牌经销商并不知道这些数据所代表的的用户是否会真正的购买自家汽车。与此同时,汽车品牌经销商在以往的销售中拥有许多同类型的已购买汽车的,即带有类别标签的历史客户数据,通过对两类数据的学习,可以帮助汽车品牌经销商识别每一客户购买汽车的可能性。
在汽车购买客户识别问题当中,传统的解决方法通常有三种:1、汽车经销商指定有经验的销售人员人工观察潜在客户数据并对每一条数据进行打分,分数高低即代表了该客户购买汽车的可能性高低;2、汽车经销商将数据交给第三方数据公司进行客户识别;3、选择常用的有监督模型从已购买汽车的客户数据中学习模型,再对大量无标签的客户数据进行打分。
上述三种传统解决方案均有不足,具体缺陷如下:
方法1:需要指定有经验的销售人员对每一条数据进行打分,而通常潜在客户的数据量是非常大的,且每一天都在产生,人工识别虽然在一定程度上比机器要准确,但是人工识别的速度非常慢,采用模型进行预测可能只需要几分钟,而人工识别可能需要一天甚至几天,因此该方法效率低下,同时也增加了人力成本。
方法2:将潜在客户数据交给第三方数据公司进行识别,由于市场上的第三方数据公司良莠不齐,因此识别结果的准确性难以得到保证,同时这种客户识别是一种长期性的需求,因此从长远看,寻求第三方的资金成本较高,且难以保证第三方能完全遵守数据保密条约,因此存在数据泄露的风险。
方法3:采用常用的有监督模型从已购买汽车的客户数据中学习模型,但在实际中,有标签数据是少量的,这样以少量数据训练得到的模型不能完全抓住数据生成的内在规律,因此模型泛化能力较差,即对于新数据的预测准确性不高,同时也浪费了大量无标签数据中存在的信息。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于tri-training的汽车行业潜在客户识别方法。
本发明通过以下技术方案来实现上述目的:
一种基于tri-training的汽车行业潜在客户识别方法,包括以下步骤:
步骤(1):数据预处理,包括以下步骤:
步骤(1.1):异常值处理:针对每一个属性,检查所有数据中是否有异常的属性值,如果有则删除;
步骤(1.2):缺失值处理:针对分类属性,将缺失值作为一个新类型;针对连续属性,将包含缺失值的某一个属性看做因变量Y,将其他无缺失值的属性看做自变量X,再将Y中无缺失值的样本及其对应的X中样本作为训练集,选择随机森林模型在训练集上进行训练,使用训练好后的模型对Y中的缺失值进行预测,从而对原始数据中的缺失值进行填充;对其余包含缺失值的连续属性做上述处理直至全部缺失值处理完毕;
步骤(1.3):分类属性处理:采用one-hot编码对分类属性进行编码:若分类属性有m个属性值,则该属性将被编码为m维,每一维的取值均为0和1,若某一数据在该分类属性上取值为i,则编码后m维中的第i维取值为1,其余维取值为0;one-hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效;
步骤(1.4):组合特征生成:采用GBDT生成组合特征:使用GBDT模型对上述经过处理的数据分类,模型首先产生一棵决策树并计算得到当前模型的损失函数的负梯度,再生成第二棵树用于拟合上述负梯度,第二棵树加入到当前模型中形成新模型,计算新模型的损失函数的负梯度,再生成第三棵树并加入到当前模型中更新模型,如此不断循环更新模型,每棵树的产生都是为了拟合上一轮更新后的模型的损失函数的负梯度;最后,GBDT模型将生成多棵决策树,每个样本在每棵树中都会被分到一个叶子节点中;将每棵树中的叶子节点从左至右排列,每个样本在每棵树中的叶子节点位置即可作为一个组合特征;对于第t棵树,若该树共有j个叶子节点,样本x经过该树后落入第d个(d≤j)叶子节点中,则由第t棵树构造的样本x的组合特征可表示为[f1,f2,…fd,…fj],其中,fd=1,表示该样本落入第d个叶子节点,其余值为0;若GBDT共生成了T棵决策树,则得到T个上述组合特征,将这T个组合特征加入到原始数据中,则原始的汽车行业潜在消费者数据增加的特征维度=
Figure BDA0001547541620000041
即第t棵树的叶子节点数量;GBDT(Gradient Boosting Decision Tree)又叫MART(MultipleAdditive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案,它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法;
步骤(1.5):特征选择:采用主成分分析即PCA对数据进行特征选择:将给定的一组变量X1,X2…Xk,通过线性变换,转换为一组不相关的变量Y1,Y2…Yk,在该变换中,保持变量的总方差即X1,X2…Xk的方差之和不变,同时,使Y1具有最大方差,称为第一主成分,Y2具有次最大方差,称为第二主成分,以此类推,选择q<k个主成分,这q个主成分的方差和是总方差的绝大部分,则完成特征选择;PCA(Principal Component Analysis)即主成分分析,是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分;
步骤(1.6):数据归一化:采用最大-最小归一化方法将每个属性的取值都归一化到[0,1]:最大最小归一化公式:
Figure BDA0001547541620000042
其中x表示样本在某一属性下的原始值,x’表示归一化后的属性值,xmin、xmax分别表示该属性下所有样本中最小的属性值和最大的属性值;
步骤(2):数据建模:采用半监督学习中的Tri-Training协同训练算法,并选择BP神经网络作为协同训练过程中的基学习器,具体步骤如下:
步骤(2.1):将全部样本数据分为有标签样本数据集L和无标签样本数据集U;
步骤(2.2):对有标签数据集L做三次可放回随机采样,得到三个L的子集L1、L2、L3;
步骤(2.3):以Tri-Training协同训练算法及批量训练方式使用L1、L2和L3分别训练一个BP神经网络分类器,记为C1、C2、C3;
步骤(2.4):C1、C2、C3进行在线学习:从数据集U中不放回地取一个样本,分别使用C1、C2、C3对其进行预测,若三个分类器的分类结果一致,则将该样本标上预测类别,放入集合l’中,使用该样本同时更新训练C1、C2、C3;若C1、C2预测类别一致,则将该样本放入集合l3中并用该样本更新训练C3;若C1、C3预测类别一致,则将该样本放入集合l2中并用该样本更新训练C2;若C2、C3预测类别一致,则将该样本放入集合l1中并用该样本更新训练C1,一次更新完毕;
步骤(2.5):重复步骤(2.4),即每次都从无标签数据集U中不放回地随机取一个样本,使用上一轮更新后的三个分类器分别预测该样本,若三个BP神经网络分类器的预测类别一致,则将该样本放入集合l中,并用该样本同时更新三个分类器,若只有分类器Ci、Cj的预测类别一致,则将该样本放入集合lk中并用该样本更新分类器Ck,其中,i、j、k∈{1,2,3},且k≠i≠j;当数据集U中无剩余样本时,第一轮训练结束;计算三个分类器的分类误差率ei=集合li中样本数量/集合U中样本数量,其中i=1,2,3;令L=L∪l’,U=U-l’,即将第一轮训练中所有三个分类器分类一致的样本加入到有标签数据集L中,同时从无标签数据集U中剔除,三个分类器分类不一致的样本仍旧保留在无标签数据集U中;然后清空集合li及l’,其中i=1,2,3;
步骤(2.6):重复步骤(2.2)-步骤(2.5),直至分类错误率ei达到给定阈值或不再下降,其中i=1,2,3,或l’中再无新样本进入,此时模型训练完毕;
步骤(2.7):使用步骤(2.6)中得到的三个BP神经网络分类器对原始无标签数据集U中的全部样本进行预测,取三个分类器的输出概率均值作为每个无标签样本的标签值为1的决策概率,即每个潜在客户真正会购买汽车的概率。
Tri-Training是一种半监督学习算法,在少量标记数据下,通过三个不同的分类器,从未标记样本中采样并标记新的训练数据,作为各分类器训练数据的有效补充。BP(back propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是目前应用最广泛的神经网络。
本发明的有益效果在于:
本发明利用汽车品牌经销商的历史销售数据(带类别标签的客户数据)与采集的潜在客户数据(无标签的客户数据)建立半监督客户识别模型,从而为汽车行业的精准营销提供准确的营销对象,节省人力成本和资金成本;具体优点为:
1、对数据做了预处理,包括异常值处理、缺失值处理、特征工程、数据归一化等,使得数据更利于建模,提高了预测准确性;
2、组合特征生成过程中采用了GBDT算法生成了组合特征用于之后模型的训练,能够提高预测准确性,而现有技术中缺少对组合特征的利用;
3、采用了半监督协同训练算法即Tri-Training协同训练算法,综合利用了有标签数据和无标签数据来进行模式识别工作,为汽车购买的客户识别问题提供了解决思路,信息利用更完全,可提高预测准确性;
4、在利用半监督协同训练算法的同时对其做了适应性修改,对基学习器使用了在线学习的训练方式,训练更快,当有新数据不断加入时可直接进行训练;
5、选择了具有较强学习能力的BP神经网络作为Tri-Training协同训练算法中的基学习器,对基学习器采取了在线学习方式,机器自动学习,从而大大减少了训练时间,可代替大量人工,节约人力成本;
6、该模型长期可用,节省了寻找第三方数据公司的资金成本。
具体实施方式
下面结合实施例对本发明作进一步说明:
实施例:
一种基于tri-training的汽车行业潜在客户识别方法,包括以下步骤:
步骤(1):数据预处理,包括以下步骤:
步骤(1.1):异常值处理:针对每一个属性,检查所有数据中是否有异常的属性值,如果有则删除;
步骤(1.2):缺失值处理:针对分类属性,将缺失值作为一个新类型;针对连续属性,将包含缺失值的某一个属性看做因变量Y,将其他无缺失值的属性看做自变量X,再将Y中无缺失值的样本及其对应的X中样本作为训练集,选择随机森林模型在训练集上进行训练,使用训练好后的模型对Y中的缺失值进行预测,从而对原始数据中的缺失值进行填充;对其余包含缺失值的连续属性做上述处理直至全部缺失值处理完毕;
步骤(1.3):分类属性处理:采用one-hot编码对分类属性进行编码:若分类属性有m个属性值,则该属性将被编码为m维,每一维的取值均为0和1,若某一数据在该分类属性上取值为i,则编码后m维中的第i维取值为1,其余维取值为0;
步骤(1.4):组合特征生成:采用GBDT生成组合特征:使用GBDT模型对上述经过处理的数据分类,模型首先产生一棵决策树并计算得到当前模型的损失函数的负梯度,再生成第二棵树用于拟合上述负梯度,第二棵树加入到当前模型中形成新模型,计算新模型的损失函数的负梯度,再生成第三棵树并加入到当前模型中更新模型,如此不断循环更新模型,每棵树的产生都是为了拟合上一轮更新后的模型的损失函数的负梯度;最后,GBDT模型将生成多棵决策树,每个样本在每棵树中都会被分到一个叶子节点中;将每棵树中的叶子节点从左至右排列,每个样本在每棵树中的叶子节点位置即可作为一个组合特征;对于第t棵树,若该树共有j个叶子节点,样本x经过该树后落入第d个(d≤j)叶子节点中,则由第t棵树构造的样本x的组合特征可表示为[f1,f2,…fd,…fj],其中,fd=1,表示该样本落入第d个叶子节点,其余值为0;若GBDT共生成了T棵决策树,则得到T个上述组合特征,将这T个组合特征加入到原始数据中,则原始的汽车行业潜在消费者数据增加的特征维度=
Figure BDA0001547541620000081
即第t棵树的叶子节点数量;
步骤(1.5):特征选择:采用主成分分析即PCA对数据进行特征选择:将给定的一组变量X1,X2…Xk,通过线性变换,转换为一组不相关的变量Y1,Y2…Yk,在该变换中,保持变量的总方差即X1,X2…Xk的方差之和不变,同时,使Y1具有最大方差,称为第一主成分,Y2具有次最大方差,称为第二主成分,以此类推,选择q<k个主成分,这q个主成分的方差和是总方差的绝大部分,则完成特征选择;
步骤(1.6):数据归一化:采用最大-最小归一化方法将每个属性的取值都归一化到[0,1]:最大最小归一化公式:
Figure BDA0001547541620000091
其中x表示样本在某一属性下的原始值,x’表示归一化后的属性值,xmin、xmax分别表示该属性下所有样本中最小的属性值和最大的属性值;
步骤(2):数据建模:采用半监督学习中的Tri-Training协同训练算法,并选择BP神经网络作为协同训练过程中的基学习器,具体步骤如下:
步骤(2.1):将全部样本数据分为有标签样本数据集L和无标签样本数据集U;
步骤(2.2):对有标签数据集L做三次可放回随机采样,得到三个L的子集L1、L2、L3;
步骤(2.3):以Tri-Training协同训练算法及批量训练方式使用L1、L2和L3分别训练一个BP神经网络分类器,记为C1、C2、C3;
步骤(2.4):C1、C2、C3进行在线学习:从数据集U中不放回地取一个样本,分别使用C1、C2、C3对其进行预测,若三个分类器的分类结果一致,则将该样本标上预测类别,放入集合l’中,使用该样本同时更新训练C1、C2、C3;若C1、C2预测类别一致,则将该样本放入集合l3中并用该样本更新训练C3;若C1、C3预测类别一致,则将该样本放入集合l2中并用该样本更新训练C2;若C2、C3预测类别一致,则将该样本放入集合l1中并用该样本更新训练C1,一次更新完毕;
步骤(2.5):重复步骤(2.4),即每次都从无标签数据集U中不放回地随机取一个样本,使用上一轮更新后的三个分类器分别预测该样本,若三个BP神经网络分类器的预测类别一致,则将该样本放入集合l中,并用该样本同时更新三个分类器,若只有分类器Ci、Cj的预测类别一致,则将该样本放入集合lk中并用该样本更新分类器Ck,其中,i、j、k∈{1,2,3},且k≠i≠j;当数据集U中无剩余样本时,第一轮训练结束;计算三个分类器的分类误差率ei=集合li中样本数量/集合U中样本数量,其中i=1,2,3;令L=L∪l’,U=U-l’,即将第一轮训练中所有三个分类器分类一致的样本加入到有标签数据集L中,同时从无标签数据集U中剔除,三个分类器分类不一致的样本仍旧保留在无标签数据集U中;然后清空集合li及l’,其中i=1,2,3;
步骤(2.6):重复步骤(2.2)-步骤(2.5),直至分类错误率ei达到给定阈值或不再下降,其中i=1,2,3,或l’中再无新样本进入,此时模型训练完毕;
步骤(2.7):使用步骤(2.6)中得到的三个BP神经网络分类器对原始无标签数据集U中的全部样本进行预测,取三个分类器的输出概率均值作为每个无标签样本的标签值为1的决策概率,即每个潜在客户真正会购买汽车的概率。
通过上述方法能够为汽车行业的精准营销提供准确的营销对象,节省人力成本和资金成本。
上述实施例只是本发明的较佳实施例,并不是对本发明技术方案的限制,只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案,均应视为落入本发明专利的权利保护范围内。

Claims (1)

1.一种基于tri-training的汽车行业潜在客户识别方法,其特征在于:包括以下步骤:
步骤(1):数据预处理,包括以下步骤:
步骤(1.1):异常值处理:针对每一个属性,检查所有数据中是否有异常的属性值,如果有则删除;
步骤(1.2):缺失值处理:针对分类属性,将缺失值作为一个新类型;针对连续属性,将包含缺失值的某一个属性看做因变量Y,将其他无缺失值的属性看做自变量X,再将Y中无缺失值的样本及其对应的X中样本作为训练集,选择随机森林模型在训练集上进行训练,使用训练好后的模型对Y中的缺失值进行预测,从而对原始数据中的缺失值进行填充;对其余包含缺失值的连续属性做上述处理直至全部缺失值处理完毕;
步骤(1.3):分类属性处理:采用one-hot编码对分类属性进行编码:若分类属性有m个属性值,则该属性将被编码为m维,每一维的取值均为0和1,若某一数据在该分类属性上取值为i,则编码后m维中的第i维取值为1,其余维取值为0;
步骤(1.4):组合特征生成:采用GBDT生成组合特征:使用GBDT模型对上述经过步骤(1.1)、步骤(1.2)和步骤(1.3)处理的数据分类,模型首先产生一棵决策树并计算得到当前模型的损失函数的负梯度,再生成第二棵树用于拟合上述负梯度,第二棵树加入到当前模型中形成新模型,计算新模型的损失函数的负梯度,再生成第三棵树并加入到当前模型中更新模型,如此不断循环更新模型,每棵树的产生都是为了拟合上一轮更新后的模型的损失函数的负梯度;最后,GBDT模型将生成多棵决策树,每个样本在每棵树中都会被分到一个叶子节点中;将每棵树中的叶子节点从左至右排列,每个样本在每棵树中的叶子节点位置即可作为一个组合特征;对于第t棵树,若该树共有j个叶子节点,样本x经过该树后落入第d个(d≤j)叶子节点中,则由第t棵树构造的样本x的组合特征可表示为[f1,f2,…fd,…fj],其中,fd=1,表示该样本落入第d个叶子节点,其余值为0;若GBDT共生成了T棵决策树,则得到T个上述组合特征,将这T个组合特征加入到原始数据中,
Figure FDA0004247621660000021
步骤(1.5):特征选择:采用主成分分析即PCA对数据进行特征选择:将给定的一组变量X1,X2…Xk,通过线性变换,转换为一组不相关的变量Y1,Y2…Yk,在该变换中,保持变量的总方差即X1,X2…Xk的方差之和不变,同时,使Y1具有最大方差,称为第一主成分,Y2具有次最大方差,称为第二主成分,以此类推,选择q<k个主成分,这q个主成分的方差和是总方差的绝大部分,则完成特征选择;
步骤(1.6):数据归一化:采用最大-最小归一化方法将每个属性的取值都归一化到[0,1]:最大最小归一化公式:
Figure FDA0004247621660000022
其中x表示样本在某一属性下的原始值,x’表示归一化后的属性值,xmin、xmax分别表示该属性下所有样本中最小的属性值和最大的属性值;
步骤(2):数据建模:采用半监督学习中的Tri-Training协同训练算法,并选择BP神经网络作为协同训练过程中的基学习器,具体步骤如下:
步骤(2.1):将全部样本数据分为有标签样本数据集L和无标签样本数据集U;
步骤(2.2):对有标签数据集L做三次可放回随机采样,得到三个L的子集L1、L2、L3;
步骤(2.3):以Tri-Training协同训练算法及批量训练方式使用L1、L2和L3分别训练一个BP神经网络分类器,记为C1、C2、C3;
步骤(2.4):C1、C2、C3进行在线学习:从数据集U中不放回地取一个样本,分别使用C1、C2、C3对其进行预测,若三个分类器的分类结果一致,则将该样本标上预测类别,放入集合l’中,使用该样本同时更新训练C1、C2、C3;若C1、C2预测类别一致,则将该样本放入集合l3中并用该样本更新训练C3;若C1、C3预测类别一致,则将该样本放入集合l2中并用该样本更新训练C2;若C2、C3预测类别一致,则将该样本放入集合l1中并用该样本更新训练C1,一次更新完毕;
步骤(2.5):重复步骤(2.4),即每次都从无标签数据集U中不放回地随机取一个样本,使用上一轮更新后的三个分类器分别预测该样本,若三个BP神经网络分类器的预测类别一致,则将该样本放入集合l中,并用该样本同时更新三个分类器,若只有分类器Ci、Cj的预测类别一致,则将该样本放入集合lk中并用该样本更新分类器Ck,其中,i、j、k∈{1,2,3},且k≠i≠j;当数据集U中无剩余样本时,第一轮训练结束;计算三个分类器的分类误差率ei=集合li中样本数量/集合U中样本数量,其中i=1,2,3;令L=L∪l’,U=U-l’,即将第一轮训练中所有三个分类器分类一致的样本加入到有标签数据集L中,同时从无标签数据集U中剔除,三个分类器分类不一致的样本仍旧保留在无标签数据集U中;然后清空集合li及l’,其中i=1,2,3;
步骤(2.6):重复步骤(2.2)-步骤(2.5),直至分类错误率ei达到给定阈值或不再下降,其中i=1,2,3,或l’中再无新样本进入,此时模型训练完毕;
步骤(2.7):使用步骤(2.6)中得到的三个BP神经网络分类器对原始无标签数据集U中的全部样本进行预测,取三个分类器的输出概率均值作为每个无标签样本的标签值为1的决策概率,即每个潜在客户真正会购买汽车的概率。
CN201810034618.8A 2018-01-15 2018-01-15 基于tri-training的汽车行业潜在客户识别方法 Active CN108256052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810034618.8A CN108256052B (zh) 2018-01-15 2018-01-15 基于tri-training的汽车行业潜在客户识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810034618.8A CN108256052B (zh) 2018-01-15 2018-01-15 基于tri-training的汽车行业潜在客户识别方法

Publications (2)

Publication Number Publication Date
CN108256052A CN108256052A (zh) 2018-07-06
CN108256052B true CN108256052B (zh) 2023-07-11

Family

ID=62727026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810034618.8A Active CN108256052B (zh) 2018-01-15 2018-01-15 基于tri-training的汽车行业潜在客户识别方法

Country Status (1)

Country Link
CN (1) CN108256052B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299728B (zh) * 2018-08-10 2023-06-27 深圳前海微众银行股份有限公司 基于构建梯度树模型的样本联合预测方法、系统及介质
CN109214437A (zh) * 2018-08-22 2019-01-15 湖南自兴智慧医疗科技有限公司 一种基于机器学习的ivf-et早孕胚胎发育预测系统
CN109558396A (zh) * 2018-10-24 2019-04-02 深圳市万屏时代科技有限公司 一种用户需求数据清洗方法及系统
CN111199409A (zh) * 2018-11-16 2020-05-26 浙江舜宇智能光学技术有限公司 用于特定产品的成本管控方法、成本管控系统和电子设备
CN109685583B (zh) * 2019-01-10 2020-12-25 博拉网络股份有限公司 一种基于大数据的供应链需求预测方法
CN109816043B (zh) * 2019-02-02 2021-01-01 拉扎斯网络科技(上海)有限公司 用户识别模型的确定方法、装置、电子设备及存储介质
CN109978257A (zh) * 2019-03-25 2019-07-05 上海赢科信息技术有限公司 车险的续保预测方法及系统
CN110084314B (zh) * 2019-05-06 2021-08-13 西安交通大学 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN110264311B (zh) * 2019-05-30 2023-04-18 佛山科学技术学院 一种基于深度学习的商业推广信息精准推荐方法及系统
CN110263431B (zh) * 2019-06-10 2023-04-07 中国科学院重庆绿色智能技术研究院 一种混凝土28d抗压强度预测方法
CN110210913A (zh) * 2019-06-14 2019-09-06 重庆邮电大学 一种基于大数据的商家回头客预测方法
CN110390041B (zh) * 2019-07-02 2022-05-20 上海上湖信息技术有限公司 在线学习方法及装置、计算机可读存储介质
CN110688553B (zh) * 2019-08-13 2024-09-13 平安科技(深圳)有限公司 基于数据分析的信息推送方法、装置、计算机设备及存储介质
CN110503025B (zh) * 2019-08-19 2023-04-18 重庆大学 一种基于半监督协同训练的模拟电路早期故障诊断方法
CN110689069A (zh) * 2019-09-25 2020-01-14 贵州电网有限责任公司 一种基于半监督bp网络的变压器故障类型诊断方法
CN110837847A (zh) * 2019-10-12 2020-02-25 上海上湖信息技术有限公司 用户分类方法及装置、存储介质、服务器
CN110929633A (zh) * 2019-11-19 2020-03-27 公安部第三研究所 基于小数据集实现涉烟车辆异常检测的方法
CN111177568B (zh) * 2020-01-02 2020-08-21 平安科技(深圳)有限公司 基于多源数据的对象推送方法、电子装置及存储介质
CN111291798B (zh) * 2020-01-21 2021-04-20 北京工商大学 一种基于集成学习的用户基础属性预测方法
CN113222632A (zh) * 2020-02-04 2021-08-06 北京京东振世信息技术有限公司 对象挖掘的方法和装置
CN111639714B (zh) * 2020-06-01 2021-07-23 贝壳找房(北京)科技有限公司 确定用户的属性的方法、装置和设备
CN111898766B (zh) * 2020-07-31 2023-02-24 平安科技(深圳)有限公司 基于自动机器学习的以太坊燃料限制预测方法及装置
CN112529624B (zh) * 2020-12-15 2024-01-09 北京百度网讯科技有限公司 生成业务预测模型的方法、装置、设备以及存储介质
CN112699942B (zh) * 2020-12-30 2024-08-02 东软睿驰汽车技术(沈阳)有限公司 一种运营车辆识别方法、装置、设备及存储介质
CN112699965B (zh) * 2021-01-14 2022-08-30 中国人民解放军海军航空大学 基于卷积自编码的雷达hrrp目标类别标注方法
CN112667911A (zh) * 2021-01-14 2021-04-16 中山世达模型制造有限公司 一种利用社交软件大数据找寻潜在客户的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506620A (zh) * 2014-12-23 2015-04-08 西安电子科技大学 一种可扩展的自动化计算服务平台及其构建方法
CN106897359A (zh) * 2017-01-09 2017-06-27 成都达拓智通科技有限公司 互联网信息收集及关联方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160866A (zh) * 2015-08-07 2015-12-16 浙江高速信息工程技术有限公司 一种基于深度学习神经网络结构的交通流预测方法
US10229357B2 (en) * 2015-09-11 2019-03-12 Facebook, Inc. High-capacity machine learning system
US10366451B2 (en) * 2016-01-27 2019-07-30 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN105761112B (zh) * 2016-02-23 2017-03-08 国元证券股份有限公司 一种证券融资融券和资管目标客户的挖掘方法
CN106056134A (zh) * 2016-05-20 2016-10-26 重庆大学 一种基于Spark的半监督随机森林分类方法
CN106295139B (zh) * 2016-07-29 2019-04-02 汤一平 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506620A (zh) * 2014-12-23 2015-04-08 西安电子科技大学 一种可扩展的自动化计算服务平台及其构建方法
CN106897359A (zh) * 2017-01-09 2017-06-27 成都达拓智通科技有限公司 互联网信息收集及关联方法

Also Published As

Publication number Publication date
CN108256052A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN108256052B (zh) 基于tri-training的汽车行业潜在客户识别方法
CN104781837B (zh) 用于通过使用基于事件的情绪分析来形成预测的系统和方法
CN111932336A (zh) 一种基于长短期兴趣偏好的商品列表推荐方法
CN111581520A (zh) 基于会话中物品重要性的物品推荐方法和系统
CN109636482B (zh) 基于相似度模型的数据处理方法及系统
CN113469730A (zh) 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN111626331B (zh) 一种自动化行业分类装置及其工作方法
CN114861050A (zh) 一种基于神经网络的特征融合推荐方法及系统
CN114970751A (zh) 基于自编码器的自适应目标分类方法、系统及电子设备
CN117076672A (zh) 文本分类模型的训练方法、文本分类方法及装置
CN117235264A (zh) 文本处理方法、装置、设备和计算机可读存储介质
CN111353728A (zh) 一种风险分析方法和系统
CN115099680B (zh) 风险管理方法、装置、设备及存储介质
CN110889716A (zh) 识别潜在注册用户的方法及装置
CN115600677A (zh) 针对序列推荐系统成员推断攻击推理系统及方法
CN115482048A (zh) 潜在客户预测方法、装置、电子设备及存储介质
CN115293867A (zh) 财务报销用户画像优化方法、装置、设备及存储介质
CN114118779A (zh) 一种基于kgann的面向互联网舆情事件的企业风险识别方法
CN111400413B (zh) 一种确定知识库中知识点类目的方法及系统
CN114741592A (zh) 一种基于多模型融合的产品推荐方法、设备及介质
Khadija et al. Predicting Consumer Secondhand Luxury Preferences for Marketing Strategy in Post Pandemic Using Machine Learning: A Case Study of Consumer in Indonesia
CN114547472A (zh) 信息推荐方法及装置
Teoh et al. Artificial Intelligence in Business Management
CN116304058B (zh) 企业负面信息的识别方法、装置、电子设备及存储介质
Mao Time Series and Machine Learning Models for Financial Markets Forecast

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210729

Address after: 610000 1302-1304, building 2, Laimeng metropolis, No. 51, South Section 4, Second Ring Road, Wuhou District, Chengdu, Sichuan

Applicant after: CHENGDU DATALK TECHNOLOGY Co.,Ltd.

Address before: 610000 No. 607t-4, floor 6, building 10, No. 399, west section of Fucheng Avenue, high tech Zone, Chengdu, Sichuan

Applicant before: CHENGDU CHULIAN CHUANGZHI SOFTWARE Co.,Ltd.

GR01 Patent grant
GR01 Patent grant