CN113887625A - 基于随机森林的产品复投预测方法、装置、设备及介质 - Google Patents

基于随机森林的产品复投预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN113887625A
CN113887625A CN202111162386.2A CN202111162386A CN113887625A CN 113887625 A CN113887625 A CN 113887625A CN 202111162386 A CN202111162386 A CN 202111162386A CN 113887625 A CN113887625 A CN 113887625A
Authority
CN
China
Prior art keywords
casting
characteristic data
projection
data
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111162386.2A
Other languages
English (en)
Inventor
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weikun Shanghai Technology Service Co Ltd
Original Assignee
Weikun Shanghai Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weikun Shanghai Technology Service Co Ltd filed Critical Weikun Shanghai Technology Service Co Ltd
Priority to CN202111162386.2A priority Critical patent/CN113887625A/zh
Publication of CN113887625A publication Critical patent/CN113887625A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种基于随机森林的产品复投预测方法、装置、设备及介质。本发明涉及人工智能技术领域,其包括:从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对复投特征数据进行预处理;对预处理后的任意两个复投特征数据进行相关性计算以得到相关系数,并根据相关系数将满足预设条件的复投特征数据作为目标数据集;将目标数据集分为训练数据集及验证数据集,分别用于Scikit‑learn库中随机森林算法模型的训练及评估以得到复投决策模型;接收客户端发送的客户复投特征数据,并根据客户复投特征数据及复投决策模型预测与客户复投特征数据相对应的复投率。本申请实施例可提高复投数据计算的准确度。

Description

基于随机森林的产品复投预测方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于随机森林的产品复投预测方法、装置、设备及介质。
背景技术
针对客户回款的业务场景,通常会在客户回款前进行运营,现有技术中,基于对客户、复投产品以及交易数据的统计分析,使用机器学习及人工两种方式进行回款运营,例如人工电话、智能AI外呼、弹窗提示,铺垫性的推荐产品和视频等,但运营效率及客户回款后复投概率还是比较低,复投数据预测的准确度不高。
发明内容
本发明实施例提供了一种基于随机森林的产品复投预测方法、装置、设备及介质,旨在解决现有复投数据预测的准确度不高的问题。
第一方面,本发明实施例提供了一种基于随机森林的产品复投预测方法,其包括:
从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据;
对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集;
根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型;
接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。
第二方面,本发明实施例还提供了一种基于随机森林的产品复投预测装置,其包括:
预处理单元,用于从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据;
计算单元,用于对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集;
训练评估单元,用于根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型;
预测单元,用于接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本发明实施例提供了一种基于随机森林的产品复投预测方法、装置、设备及介质。其中,所述方法包括:从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据;对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集;根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型;接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。本发明实施例的技术方案,对预处理后的复投特征数据进行相关性计算以确定目标数据集,可提高样本数据的质量,从而使复投决策模型的训练更为快速有效;根据产品推荐模型及客户复投特征数据确定复投率,可提高复投数据计算的准确度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于随机森林的产品复投预测方法的流程示意图;
图2为本发明实施例提供的一种基于随机森林的产品复投预测方法的子流程示意图;
图3为本发明实施例提供的一种基于随机森林的产品复投预测方法的子流程示意图;
图4为本发明实施例提供的一种基于随机森林的产品复投预测方法的子流程示意图;
图5为本发明实施例提供的一种基于随机森林的产品复投预测方法的子流程示意图;
图6为本发明另一实施例提供的一种基于随机森林的产品复投预测方法的流程示意图;
图7为本发明实施例提供的一种基于随机森林的产品复投预测装置的示意性框图;
图8为本发明实施例提供的基于随机森林的产品复投预测装置的预处理单元的示意性框图;
图9为本发明实施例提供的基于随机森林的产品复投预测装置的计算单元的示意性框图;
图10为本发明实施例提供的基于随机森林的产品复投预测装置的训练评估单元的示意性框图;
图11为本发明另一实施例提供的一种基于随机森林的产品复投预测装置的示意性框图;以及
图12为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的一种基于随机森林的产品复投预测方法的流程示意图。本发明实施例的基于随机森林的产品复投预测方法可应用于服务器中,通过安装于所述服务器上的应用程序来实现所述基于随机森林的产品复投预测方法,从而提高复投数据计算的准确度。如图1所示,该方法包括以下步骤S100-S130。
S100、从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据。
在本发明实施例中,先从预设数据库中获取客户的复投特征数据,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据,其中,所述固定复投特征数据为客户固有的特征数据,例如,出生地、性别、当前资金情况等复投特征数据;所述交互复投特征数据为可变动的特征数据,例如,客户对复投界面停留时长、语音外呼的接听、弹窗点击情况等复投特征数据。获取到固定复投特征数据及交互复投特征数据之后,通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,数据清洗包括缺失值填充及异常值处理。
请参阅图2,在一实施例中,例如在本发明实施例中,所述步骤S100包括如下步骤S101-S102。
S101、对所述复投特征数据进行缺失值填充及异常值处理以得到第一复投特征数据;
S102、对所述第一复投特征数据进行归一化处理以得到第二复投特征数据,将所述第二复投特征数据作为预处理后的所述复投特征数据。
在本发明实施例中,先对所述复投特征数据进行缺失值填充,具体地,若客户对应的某个复投特征数据缺失,则采用预设填充值例如采用数值0进行填充,之后再查找所述复投特征数据中是否存在异常值,例如,客户对复投界面停留时长中存在一负数,表明所述复投特征数据中存在异常值,则使用预设界面停留时长替换该负数,即替换该异常值,以得到第一复投特征数据。之后对所述第一复投特征数据进行归一化处理以得到第二复投特征数据,其中,归一化为将所述第一复投特征数据映射为(0,1)之间的数值,以方便处理。最后将所述第二复投特征数据作为预处理后的所述复投特征数据以进行相关性计算。
S110、对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集。
在本发明实施例中,通过数据清洗及数据归一化方法对所述复投特征数据进行预处理之后,将会对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集。具体地,可通过调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算得到相关系数,再根据所述相关系数及预设比值确定目标数据集。
请参阅图3,在一实施例中,例如在本发明实施例中,所述步骤S110包括如下步骤S111-S115。
S111、调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数;
S112、筛选出数值大于预设值的相关系数作为目标对象,并计算所述目标对象在总的所述相关系数中的占比以得到相关比值;
S113、判断所述相关比值是否大于预设比值,若所述相关比值大于所述预设比值,则执行步骤S114,否则执行步骤S115;
S114、将所述目标对象对应的复投特征数据作为目标数据集;
S115、将所述相关系数的值不大于预设系数值所对应的任意N列复投特征数据相加合并,以形成新的复投特征数据,并返回执行步骤S111,其中,N为不小于2的任意数。
在本发明实施例中,先调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,可理解地,相关系数越大,表明对复投的影响更大,即贡献度更大;再筛选出数值大于预设值的相关系数作为目标对象,其中,预设值为0.7,假设复投特征数据为出生地、性别、复投界面停留时长、语音外呼的接听、弹窗点击情况;与复投特征数据相对应地相关系数分别为0.8,0.7,0.2,0.5,0.9,筛选出的目标对象为0.8,0.7,0.9,所述目标对象在总的所述相关系数中的占比为0.6,即相关比值为0.6;之后再判断所述相关比值是否大于预设比值,其中,所述预设比值可任意设置;若所述相关比值大于所述预设比值,表明所述相关系数大于预设系数值的个数较多,所述相关系数大于预设系数值对应的所述复投特征数据可以表征客户是否进行复投这一行为,则将所述所述目标对象对应的特征向数据作为目标数据集;若所述相关比值不大于所述预设比值,表明所述相关系数大于预设系数值的个数较少,所述相关系数大于预设系数值对应的所述复投特征数据不可以表征客户是否进行复投这一行为,则将所述相关系数的值不大于预设系数值所对应的任意N列复投特征数据相加合并形成新的复投特征数据,并返回执行步骤S111,其中,N为不小于2的任意数,即相加形成新的复投特征数据的列数可以为大于等于2列以上的任意列。例如,假设所述预设比值为0.8大于所述相关比值0.6,则将复投界面停留时长及语音外呼的接听这两列的复投特征数据进行合并形成新的复投特征数据,再重新计算任意两列所述复投特征数据的相关系数。
S120、根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型。
在本发明实施例中,得到所述目标数据集之后,根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型。其中,Scikit-learn是用python实现的机器学习算法库,可以实现数据预处理、分类、回归、降维、模型选择等常用的机器学习算法。在本实施例中,调用Scikit-learn库中随机森林算法模型进行训练及评估。
请参阅图4,在一实施例中,例如在本发明实施例中,所述步骤S120包括如下步骤S121-S125。
S121、将所述目标数据集按预设比例分为训练数据集及验证数据集;
S122、将所述训练数据集输入Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止;
请参阅图5,在一实施例中,例如在本发明实施例中,所述步骤S122包括如下步骤S1221-S1223。
S1221、设置Scikit-learn库中随机森林算法模型的决策树数量及创建每棵所述决策树时随机选定的特征数量;
S1222、通过交叉验证方法对所述训练数据集进行验证;
S1223、通过R方拟合度确定最优的所述决策树数量及所述特征数量,并根据验证后的所述训练数据集、最优的所述决策树数量以及最优的所述特征数量对所述Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止。
在本发明实施例中,将所述训练数据集输入Scikit-learn库中的随机森林算法模型进行训练。具体地,先设置Scikit-learn库中随机森林算法模型的决策树数量及创建每颗所述决策树时随机选定的特征数量;再通过交叉验证方法对所述训练数据机进行验证,可理解地,所述交叉验证方法包括三折交叉验证方法、五折交叉验证方法以及十折交叉验证方法;然后通过R方拟合度确定最优的所述决策树数量及所述特征数量。需要说明的是,在本发明实施例中,R方拟合度值越大,表明拟合效果越好,即设置的所述决策树数量及所述特征数量就越接近最优的所述决策树数量及所述特征数量;最优的所述决策树数量及所述特征数量确定之后,根据所述训练数据集、最优的所述决策树数量以及最优的所述特征数量对所述Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止。
S123、将所述验证数据集输入训练后的所述随机森林算法模型以得到复投预测结果;
S124、将所述复投预测结果与所述验证数据集中的复投结果进行比较以得到复投预测正确率,并判断所述复投预测正确率是否超过预设评估值,若所述复投预测正确率超过所述预设评估值,则执行步骤S125,否则执行步骤S126;
S125、将训练后的所述随机森林算法模型作为复投决策模型;
S126、重新设置所述预设比例及所述预设训练次数,并返回执行步骤S121。
在本发明实施例中,先将所述目标数据集按预设比例分为训练数据集及验证数据集,其中,预设比例为7:3,可理解地,预设比例还可设为其它比例值,根据实际情况可灵活调整;将所述训练数据集输入Scikit-learn库中的随机森林算法模型进行训练,其中,随机森林算法模型对应的函数为RandomForestgressor;训练完成之后,将所述验证数据集输入训练后的所述随机森林算法模型进行预测,得到复投预测结果;将所述复投预测结果与所述验证数据集中的复投结果进行比较以得到复投预测正确率,并判断所述复投预测正确率是否超过预设评估值;若所述复投预测正确率超过所述预设评估值,表明所述随机森林算法模型满足复投计算需求,则将训练后的所述随机森林算法模型作为复投决策模型;若所述复投预测正确率未超过所述预设评估值,表明所述随机森林模型计算出的复投正确率较低,需要重新进行模型训练评估,则重新设置所述预设比例及所述预设训练次数,并返回执行步骤S121。
S130、接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。
在本发明实施例中,所述复投决策模型训练完成之后,服务器端接收客户端发送的客户复投特征数据,将所述客户复投特征数据输入所述复投决策模型得到与所述客户复投特征数据相对应的复投率,若所述复投率比较高,例如,所述复投率为0.9,表明客户回款之后,复投的概率比较大;反之,若所述复投率比较低,例如,所述复投率为0.2,表明客户回款之后,复投的概率比较低,则应向客户推送客户偏好的产品以提高客户复投率。
图6为本发明另一实施例提供的基于随机森林的产品复投预测方法的流程示意图,如图6所示,在本实施例中,所述方法包括步骤S100-S150。也即,在本实施例中,所述方法在上述实施例的步骤S130之后,还包括步骤S140及步骤S150。
S140、若所述复投率小于预设复投率,则根据相关性系数的大小对所述交互复投特征数据的重要性进行排序,以获得所述交互复投特征数据对所述复投率的贡献度;
S150、根据所述贡献度通过与所述交互复投特征数据相对应的交互方式向客户推荐产品。
在本发明实施例中,根据所述客户复投特征数据及所述复投决策模型确定与所述客户复投特征数据相对应的复投率之后,判断所述复投率是否小于预设复投率,若所述复投率小于所述预设复投率,则先调用pandas库中的corr函数对所述交互复投特征数据进行相关性计算以得到相关系数,然后根据相关性系数的大小对所述交互复投特征数据的重要性进行排序,以获得所述交互复投特征数据对所述复投率的贡献度;根据所述贡献度通过与所述交互复投特征数据相对应的交互方式向客户推荐产品以提高复投率。例如,若客户在产品A界面停留的时间较长,表明客户对产品A比较感兴趣,则通过语音外呼或者弹窗方式向客户推荐产品A,以增加客户复投的概率。
图7是本发明实施例提供的一种基于随机森林的产品复投预测装置200的示意性框图。如图7所示,对应于以上基于随机森林的产品复投预测方法,本发明还提供一种基于随机森林的产品复投预测装置200。该基于随机森林的产品复投预测装置200包括用于执行上述基于随机森林的产品复投预测方法的单元,该装置可以被配置于服务器中。具体地,请参阅图7,该基于随机森林的产品复投预测装置200包括预处理单元201、计算单元202、训练评估单元203以及预测单元204。
其中,所述预处理单元201用于从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据;所述计算单元202用于对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集;所述训练评估单元203用于根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型;所述预测单元204用于接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。
在某些实施例,例如本实施例中,如图8所示,所述预处理单元201包括第一处理单元2011及第二处理单元2012。
其中,所述第一处理单元2011用于对所述复投特征数据进行缺失值填充及异常值处理以得到第一复投特征数据;所述第二处理单元2012用于对所述第一复投特征数据进行归一化处理以得到第二复投特征数据,将所述第二复投特征数据作为预处理后的所述复投特征数据。
在某些实施例,例如本实施例中,如图9所示,所述计算单元202包括第一计算子单元2021、第二计算子单元2022、第一判断单元2023、第一作为单元2024以及返回单元2025。
其中,所述第一计算子单元2021用于调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数;所述第二计算子单元2022用于筛选出数值大于预设值的相关系数作为目标对象,并计算所述目标对象在总的所述相关系数中的占比以得到相关比值;所述第一判断单元2023用于判断所述相关比值是否大于预设比值;所述第一作为单元2024用于若所述相关比值大于所述预设比值,则将所述目标对象对应的复投特征数据作为目标数据集;所述返回单元2025用于若所述相关比值不大于所述预设比值,则将所述相关系数的值不大于预设系数值所对应的任意N列复投特征数据相加合并,以形成新的复投特征数据,并返回执行所述调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数的步骤,其中,N为不小于2的任意数。
在某些实施例,例如本实施例中,如图10所示,所述训练评估单元203包括分为单元2031、设置单元2032、验证单元2033、训练单元2034、输入单元2035、第二判断单元2036、第二作为单元2037。
其中,所述分为单元2031用于将所述目标数据集按预设比例分为训练数据集及验证数据集;所述设置单元2032用于设置Scikit-learn库中随机森林算法模型的决策树数量及创建每棵所述决策树时随机选定的特征数量;所述验证单元2033用于通过交叉验证方法对所述训练数据集进行验证;所述训练单元2034用于通过R方拟合度确定最优的所述决策树数量及所述特征数量,并根据验证后的所述训练数据集、最优的所述决策树数量以及最优的所述特征数量对所述Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止;所述输入单元2035用于将所述验证数据集输入训练后的所述随机森林算法模型以得到复投预测结果;所述第二判断单元2036用于将所述复投预测结果与所述验证数据集中的复投结果进行比较以得到复投预测正确率,并判断所述复投预测正确率是否超过预设评估值;所述第二作为单元2037用于若所述复投预测正确率超过所述预设评估值,则将训练后的所述随机森林算法模型作为复投决策模型。
在某些实施例,例如本实施例中,如图11所示,所述基于随机森林的产品复投预测装置200还包括排序单元205及推荐单元206。
其中,所述排序单元205用于若所述复投率小于预设复投率,则根据相关性系数的大小对所述交互复投特征数据的重要性进行排序,以获得所述交互复投特征数据对所述复投率的贡献度;所述推荐单元206用于根据所述贡献度通过与所述交互复投特征数据相对应的交互方式向客户推荐产品。
本发明实施例的基于随机森林的产品复投预测装置200的具体实现方式与上述基于随机森林的产品复投预测方法相对应,在此不再赘述。
上述基于随机森林的产品复投预测装置可以实现为一种计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备300为服务器,具体地,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参阅图12,该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305,其中,存储器可以包括存储介质303和内存储器304。
该存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时,可使得处理器302执行一种基于随机森林的产品复投预测方法。
该处理器302用于提供计算和控制能力,以支撑整个计算机设备300的运行。
该内存储器304为存储介质303中的计算机程序3032的运行提供环境,该计算机程序3032被处理器302执行时,可使得处理器302执行一种基于随机森林的产品复投预测方法。
该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备300的限定,具体的计算机设备300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器302用于运行存储在存储器中的计算机程序3032,以实现如下步骤:从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据;对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集;根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型;接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。
在某些实施例,例如本实施例中,处理器302在实现所述通过数据清洗及数据归一化方法对所述复投特征数据进行预处理步骤时,具体实现如下步骤:对所述复投特征数据进行缺失值填充及异常值处理以得到第一复投特征数据;对所述第一复投特征数据进行归一化处理以得到第二复投特征数据,将所述第二复投特征数据作为预处理后的所述复投特征数据。
在某些实施例,例如本实施例中,处理器302在实现所述对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集步骤时,具体实现如下步骤:调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数;筛选出数值大于预设值的相关系数作为目标对象,并计算所述目标对象在总的所述相关系数中的占比以得到相关比值;判断所述相关比值是否大于预设比值;若所述相关比值大于所述预设比值,则将所述目标对象对应的复投特征数据作为目标数据集;若所述相关比值不大于所述预设比值,则将所述相关系数的值不大于预设系数值所对应的任意N列复投特征数据相加合并,以形成新的复投特征数据,并返回执行所述调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数的步骤,其中,N为不小于2的任意数。
在某些实施例,例如本实施例中,处理器302在实现所述根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型步骤时,具体实现如下步骤:将所述目标数据集按预设比例分为训练数据集及验证数据集;设置Scikit-learn库中随机森林算法模型的决策树数量及创建每棵所述决策树时随机选定的特征数量;通过交叉验证方法对所述训练数据集进行验证;通过R方拟合度确定最优的所述决策树数量及所述特征数量,并根据验证后的所述训练数据集、最优的所述决策树数量以及最优的所述特征数量对所述Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止;将所述验证数据集输入训练后的所述随机森林算法模型以得到复投预测结果;将所述复投预测结果与所述验证数据集中的复投结果进行比较以得到复投预测正确率,并判断所述复投预测正确率是否超过预设评估值;若所述复投预测正确率超过所述预设评估值,则将训练后的所述随机森林算法模型作为复投决策模型。
在某些实施例,例如本实施例中,处理器302在实现所述接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率步骤之后,具体实现还包括如下步骤:若所述复投率小于预设复投率,则根据相关性系数的大小对所述交互复投特征数据的重要性进行排序,以获得所述交互复投特征数据对所述复投率的贡献度;根据所述贡献度通过与所述交互复投特征数据相对应的交互方式向客户推荐产品。
应当理解,在本申请实施例中,处理器302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行上述基于随机森林的产品复投预测方法的任意实施例。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于随机森林的产品复投预测方法,其特征在于,包括:
从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据;
对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集;
根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型;
接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。
2.根据权利要求1所述的方法,其特征在于,所述通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,包括:
对所述复投特征数据进行缺失值填充及异常值处理以得到第一复投特征数据;
对所述第一复投特征数据进行归一化处理以得到第二复投特征数据,将所述第二复投特征数据作为预处理后的所述复投特征数据。
3.根据权利要求1所述的方法,其特征在于,所述对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集,包括:
调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数;
筛选出数值大于预设值的相关系数作为目标对象,并计算所述目标对象在总的所述相关系数中的占比以得到相关比值;
判断所述相关比值是否大于预设比值;
若所述相关比值大于所述预设比值,则将所述目标对象对应的复投特征数据作为目标数据集。
4.根据权利要求3所述的方法,其特征在于,所述判断所述相关比值是否大于预设比值之后,还包括:
若所述相关比值不大于所述预设比值,则将所述相关系数的值不大于预设系数值所对应的任意N列复投特征数据相加合并,以形成新的复投特征数据,并返回执行所述调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数的步骤,其中,N为不小于2的任意数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型,包括:
将所述目标数据集按预设比例分为训练数据集及验证数据集;
将所述训练数据集输入Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止;
将所述验证数据集输入训练后的所述随机森林算法模型以得到复投预测结果;
将所述复投预测结果与所述验证数据集中的复投结果进行比较以得到复投预测正确率,并判断所述复投预测正确率是否超过预设评估值;
若所述复投预测正确率超过所述预设评估值,则将训练后的所述随机森林算法模型作为复投决策模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述训练数据集输入Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止,包括:
设置Scikit-learn库中随机森林算法模型的决策树数量及创建每棵所述决策树时随机选定的特征数量;
通过交叉验证方法对所述训练数据集进行验证;
通过R方拟合度确定最优的所述决策树数量及所述特征数量,并根据验证后的所述训练数据集、最优的所述决策树数量以及最优的所述特征数量对所述Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止。
7.根据权利要求1所述的方法,其特征在于,所述接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率之后,还包括:
若所述复投率小于预设复投率,则根据相关性系数的大小对所述交互复投特征数据的重要性进行排序,以获得所述交互复投特征数据对所述复投率的贡献度;
根据所述贡献度通过与所述交互复投特征数据相对应的交互方式向客户推荐产品。
8.一种基于随机森林的产品复投预测装置,其特征在于,包括:
预处理单元,用于从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据;
计算单元,用于对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集;
训练评估单元,用于根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型;
预测单元,用于接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202111162386.2A 2021-09-30 2021-09-30 基于随机森林的产品复投预测方法、装置、设备及介质 Pending CN113887625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111162386.2A CN113887625A (zh) 2021-09-30 2021-09-30 基于随机森林的产品复投预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111162386.2A CN113887625A (zh) 2021-09-30 2021-09-30 基于随机森林的产品复投预测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113887625A true CN113887625A (zh) 2022-01-04

Family

ID=79004876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111162386.2A Pending CN113887625A (zh) 2021-09-30 2021-09-30 基于随机森林的产品复投预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113887625A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943861A (zh) * 2022-05-07 2022-08-26 江苏易透健康科技有限公司 一种基于模拟退火的扩展孤立森林的异常检测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943861A (zh) * 2022-05-07 2022-08-26 江苏易透健康科技有限公司 一种基于模拟退火的扩展孤立森林的异常检测方法及系统

Similar Documents

Publication Publication Date Title
CN109241415B (zh) 项目推荐方法、装置、计算机设备及存储介质
CN106484777B (zh) 一种多媒体数据处理方法以及装置
CN111080360B (zh) 行为预测方法、模型训练方法、装置、服务器及存储介质
CN111459922A (zh) 用户识别方法、装置、设备及存储介质
WO2019052169A1 (zh) 坐席监控方法、装置、设备及计算机可读存储介质
CN110555451A (zh) 信息识别方法和装置
CN111144941A (zh) 商户评分的生成方法、装置、设备及可读存储介质
CN111105265A (zh) 基于客户信息的预测方法、装置、计算机设备及存储介质
CN111506798A (zh) 用户筛选方法、装置、设备及存储介质
CN113887625A (zh) 基于随机森林的产品复投预测方法、装置、设备及介质
CN114493361A (zh) 一种商品推荐算法的有效性评估方法和装置
CN114117223A (zh) 一种保险推荐方法、装置、设备及介质
CN112487021B (zh) 业务数据的关联分析方法、装置及设备
CN111859057B (zh) 数据特征处理方法及数据特征处理装置
CN110633304B (zh) 组合特征筛选方法、装置、计算机设备及存储介质
CN112270348A (zh) 用户激活方法、模型训练方法、装置、设备及存储介质
CN110717787A (zh) 一种用户的分类方法及装置
CN111222566A (zh) 用户属性识别方法、装置及存储介质
CN112015970A (zh) 产品推荐方法、相关设备及计算机存储介质
CN116187754A (zh) 生产线故障定位方法、设备及可读存储介质
CN113254919B (zh) 异常设备识别方法、电子设备和计算机可读存储介质
CN113850670A (zh) 银行产品推荐方法、装置、设备及存储介质
CN110264306B (zh) 基于大数据的产品推荐方法、装置、服务器及介质
US11481668B2 (en) Machine-learning techniques for evaluating suitability of candidate datasets for target applications
CN115082844A (zh) 相似人群扩展方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination