CN110223102A - 客户推荐方法、装置、电子设备及存储介质 - Google Patents

客户推荐方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110223102A
CN110223102A CN201910387678.2A CN201910387678A CN110223102A CN 110223102 A CN110223102 A CN 110223102A CN 201910387678 A CN201910387678 A CN 201910387678A CN 110223102 A CN110223102 A CN 110223102A
Authority
CN
China
Prior art keywords
data
dimension data
sample data
negative sample
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910387678.2A
Other languages
English (en)
Inventor
肖会兵
王迪
孙启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN201910387678.2A priority Critical patent/CN110223102A/zh
Publication of CN110223102A publication Critical patent/CN110223102A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

本发明实施例提供了一种客户推荐方法、装置、电子设备及存储介质,其中,所述方法包括:获取测试时间段内各未成单客户的负样本数据;预处理所述负样本数据,得到标准样本数据;结合各个维度数据的生成时间,建立数据矩阵;利用打分模型为所述数据矩阵打分,得到所述数据矩阵对应客户的成单可能分数;按照所述成单可能分数由高到低的顺序,推荐相应的客户至销售人员。本发明所提供的客户推荐方法能够准确计算出各个未成单客户的成单可能性,进而向销售人员精准推荐成单可能性高的目标客户,令销售成功率大大提高。

Description

客户推荐方法、装置、电子设备及存储介质
技术领域
本申请涉及网络销售业务领域,尤其涉及一种客户推荐方法、装置、电子设备及存储介质。
背景技术
互联网公司业绩的提升依赖于销售人员不断拓展客户,同时促使客户成单。可见,具有较强成单可能性的目标客户是销售人员的主要营销对象,因此,能够准确分辨出目标客户变得尤为重要。
通常,销售人员会根据自身经验确定所要进行营销的客户。例如,众多客户会在网站上发大量帖子,以表达自己的需求,销售人员会通过阅读每个客户的帖子内容,根据其中包含的特征信息,如关键词、购买意愿等,判断该客户是否可以作为进行营销的客户。但是,这种方法需要耗费销售人员大量的时间和精力,同时由于所获得特征信息主观性过强,因此,极易产生客户确定失准的情况。为了避免上述问题,现今多采用机器学习法来确定所要进行营销的客户。具体地,首先对各客户的行为数据建模,建模的基础为各客户的行为数据中的特征信息。然后利用SPARK(计算引擎)对各特征信息进行计算,得到各客户的行为数据计算模型。最后利用该计算模型,计算各客户的成单可能性。
但是,在采用机器学习法确定目标客户时,需要首先针对客户的行为数据获得特征信息,特征信息通常包含机器特征信息和人工特征信息,然后利用SPARK同时计算两类特征信息。由于特征信息的类别不同,且机器特征信息和人工特征信息分别包含线上及线下多种形式的特征信息来源,因此,令SPARK难以给出统一的计算过程,造成SPARK计算过程的混乱,令计算获得的成单可能性的准确度下降。
发明内容
本申请提供了一种客户推荐方法、装置、电子设备及存储介质,以解决现有确定所要营销的客户的方法准确度较低的问题。
第一方面,本发明实施例提供了一种客户推荐方法,包括:
获取测试时间段内各未成单客户的负样本数据,所述负样本数据由所述未成单客户在各个行为维度上所产生的维度数据构成;
预处理所述负样本数据,得到标准样本数据,所述标准样本数据中各个维度数据的数值均在预设数值范围内;
结合各个维度数据的生成时间,建立数据矩阵,其中,所述数据矩阵的列代表由所述测试时间段中同一预设时间单元对应的每个维度数据构成的列向量,所述数据矩阵的行代表由所述测试时间段中全部预设时间单元对应的同一维度数据构成的行向量;
利用打分模型为所述数据矩阵打分,得到所述数据矩阵对应客户的成单可能分数;
按照所述成单可能分数由高到低的顺序,推荐相应的客户至销售人员。
在本发明实施例第一方面一种可能的实现方式中,所述预处理负样本数据,得到标准样本数据包括:
利用半监督学习法,确定全部所述负样本数据中的问题样本数据,所述问题样本数据为所述测试时间段内成单客户所对应的样本数据;
从全部所述负样本数据中剔除所述问题样本数据,得到最终负样本数据;
预处理所述最终负样本数据,得到标准样本数据。
在本发明实施例第一方面一种可能的实现方式中,所述预处理负样本数据,得到标准样本数据还包括:
确定异常维度数据,所述异常维度数据为生成时间不符合实际时间顺序的维度数据,和/或在预设时间单元内的数值超过预设常规数值范围的维度数据;
从所述负样本数据中剔除所述异常维度数据,得到处理后负样本数据;
预处理所述处理后负样本数据,得到标准样本数据。
在本发明实施例第一方面一种可能的实现方式中,所述预处理负样本数据,得到标准样本数据包括:
按照行为维度划分所述负样本数据,得到单个维度数据;
归一化所述单个维度数据,得到标准化单个维度数据,各所述标准化单个维度数据的数值均在同一预设数值范围内;
整合同一负样本数据所对应的全部单个维度数据,得到标准样本数据。
在本发明实施例第一方面一种可能的实现方式中,所述归一化单个维度数据,得到标准化单个维度数据之前包括:
利用箱线图法,确定各所述单个维度数据的上限值;
设定特殊单个维度数据所对应的数值,得到所述特殊单个维度数据所对应的单个维度数据,所述特殊单个维度数据为数值大于对应上限值的单个维度数据,所述数值为特殊单个维度数据对应的上限值。
在本发明实施例第一方面一种可能的实现方式中,所述归一化单个维度数据,得到标准化单个维度数据包括:
利用箱线图法,计算各所述单个维度数据的四分位距,所述四分位距为单个维度数据的四分之三位数与单个维度数据的四分之一位数的差值;
结合所述单个维度数据及对应的上限值和四分位距,归一化所述单个维度数据,得到标准化单个维度数据。
在本发明实施例第一方面一种可能的实现方式中,所述获取测试时间段内各未成单客户的负样本数据之前包括:
确定预选测试时间段中的全部特殊时间段,所述特殊时间段为具有造成客户行为突变可能性的时间段;
从预选测试时间段中剔除所述特殊时间段,得到处理后时间段;
在所述处理后时间段之后增加后补时间段,得到测试时间段,所述后补时间段为与各所述特殊时间段时长总和相等的非特殊时间段。
第二方面,本发明实施例提供了一种客户推荐装置,包括:
负样本获取模块,用于获取测试时间段内各未成单客户的负样本数据,所述负样本数据由所述未成单客户在各个行为维度上所产生的维度数据构成;
预处理模块,用于预处理所述负样本数据,得到标准样本数据,所述标准样本数据中各个维度数据的数值均在预设数值范围内;
矩阵建立模块,用于结合各个维度数据的生成时间,建立数据矩阵,其中,所述数据矩阵的列代表由所述测试时间段中同一预设时间单元对应的每个维度数据构成的列向量,所述数据矩阵的行代表由所述测试时间段中全部预设时间单元对应的同一维度数据构成的行向量;
打分模块,用于利用打分模型为所述数据矩阵打分,得到所述数据矩阵对应客户的成单可能分数;
推荐模块,用于按照所述成单可能分数由高到低的顺序,推荐相应的客户至销售人员。
在本发明实施例第二方面一种可能的实现方式中,所述预处理模块包括:
问题样本数据确定模块,用于利用半监督学习法,确定全部所述负样本数据中的问题样本数据,所述问题样本数据为所述测试时间段内成单客户所对应的样本数据;
问题样本数据剔除模块,用于从全部所述负样本数据中剔除所述问题样本数据,得到最终负样本数据;
最终负样本数据预处理模块,用于预处理所述最终负样本数据,得到标准样本数据。
在本发明实施例第二方面一种可能的实现方式中,所述预处理模块包括:
异常维度数据确定模块,用于确定异常维度数据,所述异常维度数据为生成时间不符合实际时间顺序的维度数据,和/或在预设时间单元内的数值超过预设常规数值范围的维度数据;
异常维度数据剔除模块,用于从所述负样本数据中剔除所述异常维度数据,得到处理后负样本数据;
处理后负样本数据预处理模块,用于预处理所述处理后负样本数据,得到标准样本数据。
在本发明实施例第二方面一种可能的实现方式中,所述预处理模块包括:
划分模块,用于按照行为维度划分所述负样本数据,得到单个维度数据;
归一化模块,用于归一化所述单个维度数据,得到标准化单个维度数据,各所述标准化单个维度数据的数值均在同一预设数值范围内;
整合模块,用于整合同一负样本数据所对应的全部单个维度数据,得到标准样本数据。
在本发明实施例第二方面一种可能的实现方式中,所述预处理模块还包括:
上限值确定模块,用于利用箱线图法,确定各所述单个维度数据的上限值;
数值设定模块,用于设定特殊单个维度数据所对应的数值,得到所述特殊单个维度数据所对应的单个维度数据,所述特殊单个维度数据为数值大于对应上限值的单个维度数据,所述数值为特殊单个维度数据对应的上限值。
在本发明实施例第二方面一种可能的实现方式中,所述归一化模块包括:
四分位距计算模块,用于利用箱线图法,计算各所述单个维度数据的四分位距,所述四分位距为单个维度数据的四分之三位数与单个维度数据的四分之一位数的差值;
归一化处理模块,用于结合所述单个维度数据及对应的上限值和四分位距,归一化所述单个维度数据,得到标准化单个维度数据。
在本发明实施例第二方面一种可能的实现方式中,所述装置还包括:
特殊时间段确定模块,用于确定预选测试时间段中的全部特殊时间段,所述特殊时间段为具有造成客户行为突变可能性的时间段;
特殊时间段剔除模块,用于从预选测试时间段中剔除所述特殊时间段,得到处理后时间段;
增补时间段模块,用于在所述处理后时间段之后增加后补时间段,得到测试时间段,所述后补时间段为与各所述特殊时间段时长总和相等的非特殊时间段。
第三方面,本发明实施例提供了一种电子设备,包括:
处理器,以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的客户推荐方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的客户推荐方法。
本发明实施例提供了一种客户推荐方法、装置、电子设备及存储介质,其中,在客户推荐方法中,获取测试时间段内各未成单客户的负样本数据;预处理所述负样本数据,得到标准样本数据;结合各个维度数据的生成时间,建立数据矩阵;利用打分模型为所述数据矩阵打分,得到所述数据矩阵对应客户的成单可能分数;按照所述成单可能分数由高到低的顺序,推荐相应的客户至销售人员。本发明实施例所提供的客户推荐方法是针对未成单客户的负样本数据进行计算,在计算之前会对各负样本数据进行预处理,进而减小各维度数据之间的数据差异,从而降低计算难度,提高计算准确度。本发明在计算的过程中需要同时保证数据的时序性,即需要结合各个维度数据的生成时间,建立用于计算的数据矩阵,然后利用打分模型对各个数据矩阵进行打分,所获得分也就是各个数据矩阵对应客户的成单可能分数,最后按照成单可能分数由高到低的顺序,向销售人员推荐相应的客户。可见,本发明实施例所提供的客户推荐方法,能够准确计算出各个未成单客户的成单可能性,进而向销售人员精准推荐成单可能性高的目标客户,令销售成功率大大提高。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的客户推荐方法的流程示意图;
图2(1)为本发明实施例提供的一种发帖和话务两个行为维度在测试时间段内的维度数据分布图;
图2(2)为本发明实施例提供的另一种发帖和话务两个行为维度在测试时间段内的维度数据分布图;
图3为本发明实施例提供的一种归一化各维度数据的方法的流程图;
图4为本发明实施例提供的一种处理单个维度数据中特殊单个维度数据的方法的流程图;
图5本发明实施例还提供了一种进一步对单个维度数据归一化处理的方法的流程图;
图6为本发明实施例提供的一种剔除问题样本数据的方法的流程图;
图7为本发明实施例提供的一种剔除问题样本数据的方法的流程图;
图8为本发明实施例提供的一种双向LSTM模型打分过程示意图;
图9为本发明实施例提供的一种确定测试时间段的方法的流程图;
图10为本发明实施例提供的客户推荐装置实施例一的结构示意图;
图11为本发明实施例提供的客户推荐装置实施例二的结构示意图;
图12为本发明实施例提供的客户推荐装置实施例三的结构示意图;
图13为本发明实施例提供的客户推荐装置实施例四的结构示意图
图14为本发明实施例提供的客户推荐装置实施例五的结构示意图;
图15为本发明实施例提供的客户推荐装置实施例六的结构示意图;
图16为本发明实施例提供的客户推荐装置实施例七的结构示意图;
图17为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的客户推荐方法的流程示意图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种可操作设备中。
如图1所示,本实施例提供的客户推荐方法包括:
S1、获取测试时间段内各未成单客户的负样本数据,所述负样本数据由所述未成单客户在各个行为维度上所产生的维度数据构成。
客户推荐装置在获取负样本数据之前会设定满足实际需求的测试时间段,即设定一个测试起始时间点和一个测试终止时间点。同时会设定一个对应的时间单元,作为获取维度数据的最小时间单位。例如,如果测试终止时间点为当前日,测试起始时间点为当前日前推一整年,则测试时间段为365天(假设当前年为平年),对应设定时间单元为1天,则所获得的负样本数据由365个未成单客户在一天内所产生的各维度数据构成;如果测试终止时间点为每日的24点,测试起始时间点为每日的0点,则测试时间段为24小时,对应设定时间单元为1小时,则所获得的负样本数据由24个未成单客户在1小时内所产生的各维度数据构成。当然,所设定的测试时间段的长短可以根据实际需求进行相应的放大或者缩小,相应的,时间单元也需要随着测试时间段长短的变化而变化,以防时间单元过小,造成维度数据量过密,增加后续计算难度,同时防止时间单元过大,造成维度数据所体现的行为特征不明显,降低后续计算的准确度。
具体地,在本发明实施例中所公开的未成单客户通常为在测试时间段内存在相关行为活动的,但是从未产生过付费行为,和/或接听过销售人员的通讯,但是并未做出后续下单、咨询等任一行为的,和/或从未有过下单行为的客户。其中,相关行为活动对应于各个行为维度,例如点击、登录、发帖、刷新、更新、充值、话务、消费等体现客户实际需求和潜在需求的行为,而在每一个行为维度上所产生的数据,即为本发明实施例中所公开的维度数据。可见,本发明实施例所获取的负样本数据,能够充分体现未成单客户在各个行为维度上的活动数据,进而令负样本数据更加丰满,保证后续计算的准确性,以及与实际情况的贴合度。
S2、预处理所述负样本数据,得到标准样本数据,所述标准样本数据中各个维度数据的数值均在预设数值范围内。
对负样本数据的计算,通常负样本数据所对应的数据分布图。如图2(1)所示,直接获得的负样本数据在各个行为维度上的维度数据差距较大,图2(1)中展示了发帖和话务两个行为维度在测试时间段内的维度数据,其中,横坐标为时间单元,单位为1,且总数量为365;纵坐标为数据量,单位为1。可见,由于发帖与话务所产生的维度数据的数据量相差很多,因此,在柱状图上会呈现较大的柱高差异,而这种差异会增加对维度数据整体计算的难度。为了消除这种差异,直观上会采用增加数据量较大的维度数据的步长,进而降低对应柱高的高度。如图2(2)所示,发帖的纵坐标的单位修改为20,则发帖所对应的维度数据的柱高将大大降低,与话务所对应的数据维度的柱高位于同一范围内,但是由于发帖的纵坐标和话务的纵坐标的单位(步长)相差较大,因此,仍然会增加对维度数据整体计算的难度。因此,在对负样本数据极性计算之前,需要对其进行预处理,以缩小各维度数据的步长之间的差距,同时令各维度数据的数值落于同一预设数值范围内。
如图3所示,为本发明实施例提供的一种归一化各维度数据的方法的流程图。在所述方法中:
S211、按照行为维度划分所述负样本数据,得到单个维度数据;
S212、归一化所述单个维度数据,得到标准化单个维度数据,各所述标准化单个维度数据的数值均在同一预设数值范围内;
S213、整合同一负样本数据所对应的全部单个维度数据,得到标准样本数据。
对负样本数据预处理的过程,具体地,是对负样本数据中各个维度数据的预处理,由于一个未成单客户的负样本数据中包含多个维度数据,因此,需要首先准确划分这些维度数据。维度数据的产生依据行为维度,因此,可以按照行为维度划分负样本数据,例如将负样本数据划分为点击、登录、发帖、刷新、消费、更新、充值、话务等行为维度对应的单个维度数据。这时,可以继续对单个维度数据进行归一化处理,得到数值均在同一预设数值范围内的标准化单个维度数据。此时,各个标准化单个维度数据为分散的形式,但是后续计算所针对的对象为每一个未成单客户,即针对标准化单个维度数据的整体,因此,需要再次将同属一个负样本数据的标准化单个维度数据整合为标准样本数据。
其中,对单个维度数据的归一化处理具体为:
如图4所示,为本发明实施例提供的一种处理单个维度数据中特殊单个维度数据的方法的流程图。
S2121、利用箱线图法,确定各所述单个维度数据的上限值;
S2122、设定特殊单个维度数据所对应的数值,得到所述特殊单个维度数据所对应的单个维度数据,所述特殊单个维度数据为数值大于对应上限值的单个维度数据,所述数值为特殊单个维度数据对应的上限值。
箱线图是一种用作显示一组数据分散情况的统计图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。本发明实施例中所提供的各个行为维度的数据显然带有分布的特征,因此,能够利用箱线图展示出单个维度数据在测试时间段内全部时间单元所对应数值的分布特征,并通过箱线图对应确定出各个单个维度数据在测试时间段内的上限值。
其中,会存在包含某些问题时间单元所对应的数值大于上限值的特殊单个维度数据,此时,需要将该时间单元所对应的数值直接设定为上限值,进而得到将所问题时间单元的数值全部设定为上限值的修正后的单个维度数据,从而有效避免过大的数值对整体计算造成不良影响。
同时,如图5所示,本发明实施例还提供了一种进一步对单个维度数据归一化处理的方法的流程图。所述方法包括:
S2123、利用箱线图法,计算各所述单个维度数据的四分位距,所述四分位距为单个维度数据的四分之三位数与单个维度数据的四分之一位数的差值;
S2124、结合所述单个维度数据及对应的上限值和四分位距,归一化所述单个维度数据,得到标准化单个维度数据。
同S2121所述,利用箱线图法,能够准确计算出各个单个维度数据的四分位距,通常计算公式如下所示:
IQR=Q3-Q1
其中,IQR代表四分位距,Q3代表单个维度数据的四分之三位数,Q1代表单个维度数据的四分之一位数。
在本发明实施例中,公开了一种计算单个维度数据的上限值的方法,即根据下式计算上限值:
max=Q3+1.5IQR
其中,max代表单个维度数据的上限值,Q3代表单个维度数据的四分之三位数,IQR代表四分位距。可见,单个维度数据的上限值为单个维度数据的四分之三位数与1.5倍的四分位距的总和。需要注意的是,本发明仅公开了一种计算单个维度数据的上限值的方法,在实际应用的过程中,可以根据单个维度数据的四分位距及对应的箱线图,设定不同的上限值。
在本发明实施例中,公开了一种单个维度数据的归一化方程,如下所示:
其中,xp代表单个维度数据中每个时间单元所对应的数据归一化后的数值,x代表单个维度数据中每个时间单元所对应的数据,xmin代表单个维度数据在测试时间段内的最小数据,xmax代表单个维度数据的上限值。例如,如果发帖这一单个维度数据中,第3天的数据x为90,而发帖这一单个维度数据在测试时间段内的最小数据xmin为80,上限值xmax为100,则通过归一化公式计算得到的xp值为0.5;如果发帖这一单个维度数据中,第4天的数据x为120,而发帖这一单个维度数据在测试时间段内的最小数据xmin为80,上限值xmax为100,那么首先将该时间单元所对应的数值设定为上限值,即x为100,再通过归一化公式计算得到的xp值为1;如果发帖这一单个维度数据中,第50天的数据x为0,而发帖这一单个维度数据在测试时间段内的最小数据xmin为80,上限值xmax为100,则通过归一化公式计算得到的xp值为0。可见,经过归一化处理后得到的单个维度数据中每个时间单元所对应的数值均为位于[0,1],因此,可以说单个维度数据的数值范围也位于[0,1]。经过归一化处理后得到的各个标准化单个维度数据的数值均在同一数值范围内,因此,能够有效缩小各个维度数据数值之间的差异,从而提高后续计算精度。
在对负样本数据进行预处理的过程中,负样本数据中会存在一些问题数据,影响预处理的准确性,浪费处理时间,因此,需要在预处理的过程中,将这些问题数据准确筛选出来,并从负样本数据中剔除。
如图6所示,为本发明实施例提供的一种剔除问题样本数据的方法的流程图。所述方法包括:
S221、利用半监督学习法,确定全部所述负样本数据中的问题样本数据,所述问题样本数据为所述测试时间段内成单客户所对应的样本数据;
S222、从全部所述负样本数据中剔除所述问题样本数据,得到最终负样本数据;
S223、预处理所述最终负样本数据,得到标准样本数据。
通常获取测试时间段内的未成单客户的负样本数据,是从测试时间段内的海量客户样本数据中提取出来的,这些海量客户样本数据包含未成单客户的负样本数据以及成单客户的正样本数据,而这些样本数据的种类可以通过客户的行为维度数据加以区分,例如通过消费、充值等行为维度是否产生数据,确定客户的分类。但是,由于客户数量庞大,且行为维度种类繁多,对应的数据量庞大,因此,极易出现对客户分类的误判,即将成单客户的正样本数据误判为未成单客户的负样本数据。因此,为了保证后续计算过程的准确性,需要准确确定负样本数据中混入的问题样本数据。由于半监督学习法(PUlearning,positive-unlabeled)的应用场景为清晰确定正样本数据,因此,可以PUlearning确定负样本数据中混入的正样本数据。需要注意的是,本发明实施例仅示例性的公开而一种半监督学习法,还可以采用其他半监督学习方法确定正样本数据。从负样本数据中剔除问题样本数据后,得到最终负样本数据,此时的最终负样本数据能够有效保证后续计算基础的准确性。
在对负样本数据进行预处理的过程中,负样本数据中还会存在一些时序上存在问题的异常维度数据,也需要在预处理的过程中,将这些问题数据准确筛选出来,并从负样本数据中剔除。
如图7所示,为本发明实施例提供的一种剔除异常维度数据的方法的流程图。所述方法包括:
S231、确定异常维度数据,所述异常维度数据为生成时间不符合实际时间顺序的维度数据,和/或在预设时间单元内的数值超过预设常规数值范围的维度数据;
S232、从所述负样本数据中剔除所述异常维度数据,得到处理后负样本数据;
S233、预处理所述处理后负样本数据,得到标准样本数据。
各个维度数据均对应于各自的时间单元,时间单元本身必然存在时序性,即时间单元靠后的维度数据必然不会出现于时间单元靠前的维度数据之前,同理,时间单元靠前的维度数据也必然不会出现于时间单元靠后的维度数据之后,因此,一旦出现了时序上的逆转,则该维度数据即为异常维度数据。由于后续打分模型的计算基础为依据时间单元建立的数据矩阵,因此,一旦维度数据的时序性出现了问题,那么所建立的数据矩阵也将出现问题,令后续打分不准确,所以,需要严格控制维度数据的时序性。
同时,维度数据的时序性也体现在维度数据的连续性,即不会出现维度数据的突然大幅度出现,或者维度数据的长时间为0。如果存在上述问题,则表明该维度数据的时序性也存在异常,属于异常维度数据,也需要从负样本数据中被剔除。
剔除了异常维度数据之后,获得处理后负样本数据,该处理后负样本数据由具有良好时序性的各维度数据构成,进而能够有效保证后续计算的准确性。
经过上述步骤,能够获得为后续计算提供准确基础的各个维度数据。
S3、结合各个维度数据的生成时间,建立数据矩阵,其中,所述数据矩阵的列代表由所述测试时间段中同一预设时间单元对应的每个维度数据构成的列向量,所述数据矩阵的行代表由所述测试时间段中全部预设时间单元对应的同一维度数据构成的行向量。
例如,
其中,x下角标中左边代表维度数据的种类,可见,该数据矩阵中共有8中维度数据;x下角标中右边代表维度数据对应的时间单元标号,可见,该数据矩阵共有365个时间单元。需要注意的是,数据矩阵的排列与具体的时间单元和维度数据种类相对应。
S4、利用打分模型为所述数据矩阵打分,得到所述数据矩阵对应客户的成单可能分数。
本发明实施例提供一种打分模型,双向LSTM(Long-short term memory,长短期记忆)模型,如图8所示,将每个时间单元所对应的维度数据依次输入双向LSTM模型,通过各个双向LSTM之间的迭代计算,得到数据矩阵的概率值P,即客户的成单可能分数。
S5、按照所述成单可能分数由高到低的顺序,推荐相应的客户至销售人员。
将S4中计算所得的客户的成单可能分数由高到低进行排序,必要时,可以生成客户列表,依此,客户推荐装置可以根据将成单可能分数高的客户推荐至销售人员。
可见,本发明实施例所提供的客户推荐方法,能够准确计算出各个未成单客户的成单可能性,进而向销售人员精准推荐成单可能性高的目标客户,令销售成功率大大提高。
测试时间段的选择也会影响后续计算的准确性,如果所选时间段比较特殊,则容易出现客户数据极少或者极多的情况,令客户的数据失真,降低参考价值。
如图9所示,为本发明实施例提供的一种确定测试时间段的方法的流程图。所述方法包括:
S101、确定预选测试时间段中的全部特殊时间段,所述特殊时间段为具有造成客户行为突变可能性的时间段;
S102、从预选测试时间段中剔除所述特殊时间段,得到处理后时间段;
S103、在所述处理后时间段之后增加后补时间段,得到测试时间段,所述后补时间段为与各所述特殊时间段时长总和相等的非特殊时间段。
如果预选测试时间段中含有特殊时间段,即含有节假日、串休日等,客户会在此特殊时间段发生行为突变,例如,大量减少维度数据或者大量增多维度数据,因此,需要从预选测试时间段中将这些特殊时间段剔除,得到处理后时间段。
如果处理后时间段的时间总量高于预设测试时间阈值,缩减后的测试时长不会影响计算准确性,则无需补充时间段;如果处理后时间段的时间总量低于预设测试时间阈值,无法保证测试时长,则需要补充时间段至处理后时间段中。如果测试时间段的终止时间点为当前时刻,说明后续已无可增加的后补时间段,则在测试时间段之前向前延伸等时长的后补时间段;如果测试时间段之后存在可以增加的后补时间段,可以选在在测试时间段之后延长等时长的后补时间段,也可以在测试时间段的两端各延伸总和与特殊时间段时长总和相等的后补时间段。
图10为本发明实施例提供的客户推荐装置实施例一的结构示意图,所述装置包括:负样本获取模块1,用于获取测试时间段内各未成单客户的负样本数据,所述负样本数据由所述未成单客户在各个行为维度上所产生的维度数据构成;预处理模块2,用于预处理所述负样本数据,得到标准样本数据,所述标准样本数据中各个维度数据的数值均在预设数值范围内;矩阵建立模块3,用于结合各个维度数据的生成时间,建立数据矩阵,其中,所述数据矩阵的列代表由所述测试时间段中同一预设时间单元对应的每个维度数据构成的列向量,所述数据矩阵的行代表由所述测试时间段中全部预设时间单元对应的同一维度数据构成的行向量;打分模块4,用于利用打分模型为所述数据矩阵打分,得到所述数据矩阵对应客户的成单可能分数;推荐模块5,用于按照所述成单可能分数由高到低的顺序,推荐相应的客户至销售人员。
图11为本发明实施例提供的客户推荐装置实施例二的结构示意图,所述预处理模块2包括:问题样本数据确定模块21,用于利用半监督学习法,确定全部所述负样本数据中的问题样本数据,所述问题样本数据为所述测试时间段内成单客户所对应的样本数据;问题样本数据剔除模块22,用于从全部所述负样本数据中剔除所述问题样本数据,得到最终负样本数据;最终负样本数据预处理模块23,用于预处理所述最终负样本数据,得到标准样本数据。
图12为本发明实施例提供的客户推荐装置实施例三的结构示意图,所述预处理模块2包括:异常维度数据确定模块24,用于确定异常维度数据,所述异常维度数据为生成时间不符合实际时间顺序的维度数据,和/或在预设时间单元内的数值超过预设常规数值范围的维度数据;异常维度数据剔除模块25,用于从所述负样本数据中剔除所述异常维度数据,得到处理后负样本数据;处理后负样本数据预处理模块26,用于预处理所述处理后负样本数据,得到标准样本数据。
图13为本发明实施例提供的客户推荐装置实施例四的结构示意图,所述预处理模块2包括:划分模块27,用于按照行为维度划分所述负样本数据,得到单个维度数据;归一化模块28,用于归一化所述单个维度数据,得到标准化单个维度数据,各所述标准化单个维度数据的数值均在同一预设数值范围内;整合模块29,用于整合同一负样本数据所对应的全部单个维度数据,得到标准样本数据。
图14为本发明实施例提供的客户推荐装置实施例五的结构示意图,所述预处理模块2还包括:上限值确定模块210,用于利用箱线图法,确定各所述单个维度数据的上限值;数值设定模块211,用于设定特殊单个维度数据所对应的数值,得到所述特殊单个维度数据所对应的单个维度数据,所述特殊单个维度数据为数值大于对应上限值的单个维度数据,所述数值为特殊单个维度数据对应的上限值。
图15为本发明实施例提供的客户推荐装置实施例六的结构示意图,所述归一化模块28包括:四分位距计算模块281,用于利用箱线图法,计算各所述单个维度数据的四分位距,所述四分位距为单个维度数据的四分之三位数与单个维度数据的四分之一位数的差值;归一化处理模块282,用于结合所述单个维度数据及对应的上限值和四分位距,归一化所述单个维度数据,得到标准化单个维度数据。
图16为本发明实施例提供的客户推荐装置实施例七的结构示意图,所述装置还包括:特殊时间段确定模块11,用于确定预选测试时间段中的全部特殊时间段,所述特殊时间段为具有造成客户行为突变可能性的时间段;特殊时间段剔除模块12,用于从预选测试时间段中剔除所述特殊时间段,得到处理后时间段;增补时间段模块13,用于在所述处理后时间段之后增加后补时间段,得到测试时间段,所述后补时间段为与各所述特殊时间段时长总和相等的非特殊时间段。
图17为本发明实施例提供的电子设备的硬件结构示意图。该电子设备包括:存储器101和处理器102;
存储器101,用于存储计算机程序;
处理器102,用于执行存储器存储的计算机程序,以实现上述实施例中的客户推荐方法。具体可以参见前述方法实施例中的相关描述。
可选地,存储器101既可以是独立的,也可以跟处理器102集成在一起。
当所述存储器101是独立于处理器102之外的器件时,所述电子设备还可以包括:
总线103,用于连接所述存储器101和处理器102。
本发明实施例提供的电子设备可用于执行上述实施例中任一所示的客户推荐方法,其实现方式和技术效果类似,本发明实施例此处不再赘述。
本发明实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当消息发送的装置的至少一个处理器执行该计算机程序时,消息发送的装置执行上述实施例任一所述的客户推荐方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于以计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种客户推荐方法,其特征在于,所述方法包括:
获取测试时间段内各未成单客户的负样本数据,所述负样本数据由所述未成单客户在各个行为维度上所产生的维度数据构成;
预处理所述负样本数据,得到标准样本数据,所述标准样本数据中各个维度数据的数值均在预设数值范围内;
结合各个维度数据的生成时间,建立数据矩阵,其中,所述数据矩阵的列代表由所述测试时间段中同一预设时间单元对应的每个维度数据构成的列向量,所述数据矩阵的行代表由所述测试时间段中全部预设时间单元对应的同一维度数据构成的行向量;
利用打分模型为所述数据矩阵打分,得到所述数据矩阵对应客户的成单可能分数;
按照所述成单可能分数由高到低的顺序,推荐相应的客户至销售人员。
2.根据权利要求1所述的方法,其特征在于,所述预处理负样本数据,得到标准样本数据包括:
利用半监督学习法,确定全部所述负样本数据中的问题样本数据,所述问题样本数据为所述测试时间段内成单客户所对应的样本数据;
从全部所述负样本数据中剔除所述问题样本数据,得到最终负样本数据;
预处理所述最终负样本数据,得到标准样本数据。
3.根据权利要求1所述的方法,其特征在于,所述预处理负样本数据,得到标准样本数据还包括:
确定异常维度数据,所述异常维度数据为生成时间不符合实际时间顺序的维度数据,和/或在预设时间单元内的数值超过预设常规数值范围的维度数据;
从所述负样本数据中剔除所述异常维度数据,得到处理后负样本数据;
预处理所述处理后负样本数据,得到标准样本数据。
4.根据权利要求1所述的方法,其特征在于,所述预处理负样本数据,得到标准样本数据包括:
按照行为维度划分所述负样本数据,得到单个维度数据;
归一化所述单个维度数据,得到标准化单个维度数据,各所述标准化单个维度数据的数值均在同一预设数值范围内;
整合同一负样本数据所对应的全部单个维度数据,得到标准样本数据。
5.根据权利要求4所述的方法,其特征在于,所述归一化单个维度数据,得到标准化单个维度数据之前包括:
利用箱线图法,确定各所述单个维度数据的上限值;
设定特殊单个维度数据所对应的数值,得到所述特殊单个维度数据所对应的单个维度数据,所述特殊单个维度数据为数值大于对应上限值的单个维度数据,所述数值为特殊单个维度数据对应的上限值。
6.根据权利要求5所述的方法,其特征在于,所述归一化单个维度数据,得到标准化单个维度数据包括:
利用箱线图法,计算各所述单个维度数据的四分位距,所述四分位距为单个维度数据的四分之三位数与单个维度数据的四分之一位数的差值;
结合所述单个维度数据及对应的上限值和四分位距,归一化所述单个维度数据,得到标准化单个维度数据。
7.根据权利要求1-6中任一所述的方法,其特征在于,所述获取测试时间段内各未成单客户的负样本数据之前包括:
确定预选测试时间段中的全部特殊时间段,所述特殊时间段为具有造成客户行为突变可能性的时间段;
从预选测试时间段中剔除所述特殊时间段,得到处理后时间段;
在所述处理后时间段之后增加后补时间段,得到测试时间段,所述后补时间段为与各所述特殊时间段时长总和相等的非特殊时间段。
8.一种客户推荐装置,其特征在于,所述装置包括:
负样本获取模块,用于获取测试时间段内各未成单客户的负样本数据,所述负样本数据由所述未成单客户在各个行为维度上所产生的维度数据构成;
预处理模块,用于预处理所述负样本数据,得到标准样本数据,所述标准样本数据中各个维度数据的数值均在预设数值范围内;
矩阵建立模块,用于结合各个维度数据的生成时间,建立数据矩阵,其中,所述数据矩阵的列代表由所述测试时间段中同一预设时间单元对应的每个维度数据构成的列向量,所述数据矩阵的行代表由所述测试时间段中全部预设时间单元对应的同一维度数据构成的行向量;
打分模块,用于利用打分模型为所述数据矩阵打分,得到所述数据矩阵对应客户的成单可能分数;
推荐模块,用于按照所述成单可能分数由高到低的顺序,推荐相应的客户至销售人员。
9.根据权利要求8所述的装置,其特征在于,所述预处理模块包括:
问题样本数据确定模块,用于利用半监督学习法,确定全部所述负样本数据中的问题样本数据,所述问题样本数据为所述测试时间段内成单客户所对应的样本数据;
问题样本数据剔除模块,用于从全部所述负样本数据中剔除所述问题样本数据,得到最终负样本数据;
最终负样本数据预处理模块,用于预处理所述最终负样本数据,得到标准样本数据。
10.根据权利要求8所述的装置,其特征在于,所述预处理模块包括:
异常维度数据确定模块,用于确定异常维度数据,所述异常维度数据为生成时间不符合实际时间顺序的维度数据,和/或在预设时间单元内的数值超过预设常规数值范围的维度数据;
异常维度数据剔除模块,用于从所述负样本数据中剔除所述异常维度数据,得到处理后负样本数据;
处理后负样本数据预处理模块,用于预处理所述处理后负样本数据,得到标准样本数据。
11.根据权利要求8所述的装置,其特征在于,所述预处理模块包括:
划分模块,用于按照行为维度划分所述负样本数据,得到单个维度数据;
归一化模块,用于归一化所述单个维度数据,得到标准化单个维度数据,各所述标准化单个维度数据的数值均在同一预设数值范围内;
整合模块,用于整合同一负样本数据所对应的全部单个维度数据,得到标准样本数据。
12.根据权利要求11所述的装置,其特征在于,所述预处理模块还包括:
上限值确定模块,用于利用箱线图法,确定各所述单个维度数据的上限值;
数值设定模块,用于设定特殊单个维度数据所对应的数值,得到所述特殊单个维度数据所对应的单个维度数据,所述特殊单个维度数据为数值大于对应上限值的单个维度数据,所述数值为特殊单个维度数据对应的上限值。
13.根据权利要求12所述的装置,其特征在于,所述归一化模块包括:
四分位距计算模块,用于利用箱线图法,计算各所述单个维度数据的四分位距,所述四分位距为单个维度数据的四分之三位数与单个维度数据的四分之一位数的差值;
归一化处理模块,用于结合所述单个维度数据及对应的上限值和四分位距,归一化所述单个维度数据,得到标准化单个维度数据。
14.根据权利要求8-13任一所述的装置,其特征在于,所述装置还包括:
特殊时间段确定模块,用于确定预选测试时间段中的全部特殊时间段,所述特殊时间段为具有造成客户行为突变可能性的时间段;
特殊时间段剔除模块,用于从预选测试时间段中剔除所述特殊时间段,得到处理后时间段;
增补时间段模块,用于在所述处理后时间段之后增加后补时间段,得到测试时间段,所述后补时间段为与各所述特殊时间段时长总和相等的非特殊时间段。
15.一种电子设备,其特征在于,所述电子设备包括:
处理器,以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一所述的客户推荐方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的客户推荐方法。
CN201910387678.2A 2019-05-08 2019-05-08 客户推荐方法、装置、电子设备及存储介质 Pending CN110223102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910387678.2A CN110223102A (zh) 2019-05-08 2019-05-08 客户推荐方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910387678.2A CN110223102A (zh) 2019-05-08 2019-05-08 客户推荐方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110223102A true CN110223102A (zh) 2019-09-10

Family

ID=67820647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910387678.2A Pending CN110223102A (zh) 2019-05-08 2019-05-08 客户推荐方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110223102A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765451A (zh) * 2020-12-30 2021-05-07 中国人寿保险股份有限公司上海数据中心 一种基于集成学习算法的客户智能筛选方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294727A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 一种被推荐对象的过滤方法及系统
CN106327227A (zh) * 2015-06-19 2017-01-11 北京航天在线网络科技有限公司 一种信息推荐系统及信息推荐方法
CN106600302A (zh) * 2015-10-19 2017-04-26 玺阅信息科技(上海)有限公司 基于Hadoop的商品推荐系统
CN107292648A (zh) * 2016-04-01 2017-10-24 株式会社理光 一种用户行为分析方法及装置
CN107451748A (zh) * 2017-08-10 2017-12-08 北京奇鱼时代科技有限公司 一种客户关系管理系统中客户公海管理方法
CN108628721A (zh) * 2018-05-02 2018-10-09 腾讯科技(上海)有限公司 用户数据值的异常检测方法、装置、存储介质及电子装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294727A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 一种被推荐对象的过滤方法及系统
CN106327227A (zh) * 2015-06-19 2017-01-11 北京航天在线网络科技有限公司 一种信息推荐系统及信息推荐方法
CN106600302A (zh) * 2015-10-19 2017-04-26 玺阅信息科技(上海)有限公司 基于Hadoop的商品推荐系统
CN107292648A (zh) * 2016-04-01 2017-10-24 株式会社理光 一种用户行为分析方法及装置
CN107451748A (zh) * 2017-08-10 2017-12-08 北京奇鱼时代科技有限公司 一种客户关系管理系统中客户公海管理方法
CN108628721A (zh) * 2018-05-02 2018-10-09 腾讯科技(上海)有限公司 用户数据值的异常检测方法、装置、存储介质及电子装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765451A (zh) * 2020-12-30 2021-05-07 中国人寿保险股份有限公司上海数据中心 一种基于集成学习算法的客户智能筛选方法和系统

Similar Documents

Publication Publication Date Title
CN109213868A (zh) 基于卷积注意力机制网络的实体级别情感分类方法
CN113947336A (zh) 评估投标企业风险的方法、装置、存储介质及计算机设备
CN110264270A (zh) 一种行为预测方法、装置、设备和存储介质
US20230401637A1 (en) Deep learning approach for assessing credit risk
CN113449046A (zh) 基于企业知识图谱的模型训练方法、系统及相关装置
CN112419029B (zh) 类金融机构风险监控方法、风险模拟系统及存储介质
CN112801498A (zh) 风险识别模型的训练方法、风险识别方法、装置及设备
CN114913923A (zh) 针对单细胞染色质开放性测序数据的细胞类型识别方法
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN112200656A (zh) 一种房贷的线上预审批方法、装置、介质及电子设备
CN110826315A (zh) 使用神经网络系统识别短文本时效性的方法
CN114328277A (zh) 一种软件缺陷预测和质量分析方法、装置、设备及介质
CN113256181A (zh) 风险因子预测方法、装置、设备及介质
CN110223102A (zh) 客户推荐方法、装置、电子设备及存储介质
CN111815435A (zh) 一种群体风险特征的可视化方法、装置、设备及存储介质
US11593692B2 (en) Graph structure analysis apparatus, graph structure analysis method, and computer-readable recording medium
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
Julianto et al. Price Prediction of Non-Fungible Tokens (NFTs) using Data Mining Prediction Algorithm
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
WO2022143431A1 (zh) 一种反洗钱模型的训练方法及装置
CN115759401A (zh) 一种电力市场成员竞价行为预测标签生成方法和系统
CN114254762A (zh) 可解释性机器学习模型构建方法、装置和计算机设备
CN115048487A (zh) 基于人工智能的舆情分析方法、装置、计算机设备及介质
CN108764981A (zh) 服务器、文本数据的处理方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination