CN112016756A

CN112016756A - 数据预测的方法和装置

Info

Publication number: CN112016756A
Application number: CN202010901455.6A
Authority: CN
Inventors: 詹秋泉
Original assignee: Beijing Shenyan Intelligent Technology Co ltd
Current assignee: Beijing Shenyan Intelligent Technology Co ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-01

Abstract

本发明公开了一种数据预测的方法和装置。其中，该方法包括：获取样本候选集、未标注样本集和随机采样比例；依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本；依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体。本发明解决了由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户换购意向准确率低的技术问题。

Description

数据预测的方法和装置

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种数据预测的方法和装置。

背景技术

根据中国汽车工业协会数据显示，2018年汽车年销量为2808万辆，这是全国汽车销量增长速度出现了28年以来的第一次负增长，并且从2018年7月开始，汽车当月销量增速一直处于持续负增长的状态。这表明中国的汽车市场正在从增量市场逐渐转变为存量市场。首次购车的消费者数量正在急剧减少，在存量市场中挖掘销售机会开始成为汽车行业的重要课题。

行业内传统的做法是，基于4S店多年销售的经验总结，归纳出业务过程中较为明显的换购特点，例如购车年限大于5年，行驶里程超过10万公里等硬规则，运用这样硬规则的筛选，找到潜在的换购人群。但是，该方式过于主观，没有经过大数据的校验，其方法存在一定的劣势，同时需要耗费大量的人力物力开展这一课题。

同样，少部分企业已经开始采用机器学习应用于这一场景，通过大量数据的训练，得到一个分类器，最终预测出每个用户的换购意向。现有的做法是，将未标记的样本都作为负样本进行训练，但是存在的几个缺陷：

1.在汽车换购行业场景下，正负样本极度不平衡，负样本数量远远超过正样本，使得训练效果很差。

2.运用机器学习处理过程中，某些关键样本会干扰分类器的最优分隔面的选择，尤其是SVM。

针对上述由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户的换购意向准确率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据预测的方法和装置，以至少解决由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户换购意向准确率低的技术问题。

根据本发明实施例的一个方面，提供了一种数据预测的方法，包括：获取样本候选集、未标注样本集和随机采样比例；依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本；依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，至少一类群体用于指示换购车辆的概率。

可选的，依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本包括：依据随机采样比例从样本候选集中随机选择部分样本，得到第一样本；将第一样本放入未标注样本集中，得到第一初始训练样本和第二初始训练样本。

进一步地，可选的，该方法还包括：在依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集之前，设置第一目标样本集和第二目标样本集为空集。

可选的，依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本包括：依据第一初始训练样本和第二初始训练样本进行样本训练，得到分类器；依据分类器对未标注样本集和样本候选集,计算所有样本的预测概率；依据第一样本在所有样本的预测概率的分布，设置第一阈值和第二阈值；将未标注样本集中低于第一阈值的样本确定第二目标样本；将未标注样本集中高与第二阈值的样本确定第一目标样本。

可选的，依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体包括：依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到已购车辆的群体中各程度换购概率的人群；依据各程度换购概率的人群进行类别划分，得到至少一类群体。

根据本发明实施例的另一方面，还提供了一种数据预测的装置，包括：获取模块，用于获取样本候选集、未标注样本集和随机采样比例；样本获取模块，用于依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；训练模块，用于依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本；预测模块，用于依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，至少一类群体用于指示换购车辆的概率。

可选的，样本获取模块包括：选择单元，用于依据随机采样比例从样本候选集中随机选择部分样本，得到第一样本；样本获取单元，用于将第一样本放入未标注样本集中，得到第一初始训练样本和第二初始训练样本。

进一步地，可选的，该装置还包括：设置模块，用于在依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集之前，设置第一目标样本集和第二目标样本集为空集。

可选的，训练模块包括：训练单元，用于依据第一初始训练样本和第二初始训练样本进行样本训练，得到分类器；计算单元，用于依据分类器对未标注样本集和样本候选集,计算所有样本的预测概率；设置单元，用于依据第一样本在所有样本的预测概率的分布，设置第一阈值和第二阈值；第一确定单元，用于将未标注样本集中低于第一阈值的样本确定第二目标样本；第二确定单元，用于将未标注样本集中高与第二阈值的样本确定第一目标样本。

可选的，预测模块包括：预测单元，用于依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到已购车辆的群体中各程度换购概率的人群；分类单元，用于依据各程度换购概率的人群进行类别划分，得到至少一类群体。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，其中，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述方法。

根据本发明实施例的另一方面，还提供了一种处理器，其中，处理器用于运行程序，其中，程序运行时执行上述方法。

在本发明实施例中，通过获取样本候选集、未标注样本集和随机采样比例；依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本；依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，至少一类群体用于指示换购车辆的概率，达到了准确预测用户换购意向的目的，从而实现了提升了预测用户的换购意向准确率技术效果，进而解决了由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户换购意向准确率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据预测的方法的流程示意图；

图2是根据本发明实施例的数据预测的方法中模型训练的流程示意图；

图3是根据本发明实施例的数据预测的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种数据预测的方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的数据预测的方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，获取样本候选集、未标注样本集和随机采样比例；

步骤S104，依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；

可选的，步骤S104中依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本包括：依据随机采样比例从样本候选集中随机选择部分样本，得到第一样本；将第一样本放入未标注样本集中，得到第一初始训练样本和第二初始训练样本。

进一步地，可选的，本申请实施例提供的数据预测的方法还包括：在依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集之前，设置第一目标样本集和第二目标样本集为空集。

步骤S106，依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本；

可选的，步骤S106中依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本包括：依据第一初始训练样本和第二初始训练样本进行样本训练，得到分类器；依据分类器对未标注样本集和样本候选集,计算所有样本的预测概率；依据第一样本在所有样本的预测概率的分布，设置第一阈值和第二阈值；将未标注样本集中低于第一阈值的样本确定第二目标样本；将未标注样本集中高与第二阈值的样本确定第一目标样本。

步骤S108，依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，至少一类群体用于指示换购车辆的概率。

可选的，步骤S108中依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体包括：依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到已购车辆的群体中各程度换购概率的人群；依据各程度换购概率的人群进行类别划分，得到至少一类群体。

综上，本申请实施例提供的数据预测的方法具体如下：

Step 1：从正样本P(即，本申请实施例中的样本候选集)中随机选择一些正样本SA，暂且将SA称为间谍样本(spy samples)(即，本申请实施例中的第一样本)放入未标注样本U(即，本申请实施例中的未标注样本集)中。此时样本集变为P-SA(即，本申请实施例中的第一初始训练样本)和U+SA(即，本申请实施例中的第二初始训练样本)。

其中，从正样本P中划分子集SA的数量比例一般为15-20％。

Step 2：使用P-SA作为正样本，U+SA作为负样本，利用迭代的EM算法进行分类。初始化时，我们把所有无标签样本当作负类(label＝0)，训练一个分类器，对所有样本预测概率(label＝1)。

Step 3：以间谍样本SA分布的最小值作为阈值，将未标注样本U中所有低于这个阈值的样本认为是可靠负样本RN(即，本申请实施例中的第二目标样本)。

Step 4：使用正样本P与识别出的可靠负样本RN，组成二阶段训练的可靠样本集，训练一个分类器，对所有的未标注样本U预测概率(label＝1)。

基于上述，图2是根据本发明实施例的数据预测的方法中模型训练的流程示意图，如图2所示，本申请实施例提供的数据预测的方法具体实现如下：

目的：找到二阶段可靠的正负样本

输入：正样本候选集P，未标注样本集U，随机采样比例s(即，本申请实施例中的随机采样比例)。

输出：可靠正样本RP(即，本申请实施例中的第一目标样本)，可靠负样本RN(即，本申请实施例中的第二目标样本)。

处理过程：

Step 1：设置可靠正样本集为空集RP＝Φ，可靠负样本集为空集RN＝Φ

Step 2：设置间谍样本SA，SA＝random(s，P)

Step 3：设置一阶段训练正样本为Ps＝P-SA，一阶段训练负样本为Us＝U+SA

Step 4：训练样本Ps和Us，得到一个分类器G。

Setp 5：使用分类器G对所有未标注样本U和候选正样本P，计算为正样本的概率值。

Step 6：通过间谍样本SA为正样本概率值的分布，设置可靠负样本阈值Θ_n(即，本申请实施例中的第一阈值)和可靠正样本阈值Θ_p(即，本申请实施例中的第二阈值)。

Setp 7：对于所有的样本d进行判断，

If P(1|d)≤Θ_n RN＝RN∪d

If P(1|d)≥Θ_p RP＝RP∪d

实施例2

根据本发明实施例的另一方面，还提供了一种数据预测的装置，图3是根据本发明实施例的数据预测的装置的示意图，如图3所示，包括：获取模块32，用于获取样本候选集、未标注样本集和随机采样比例；样本获取模块34，用于依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；训练模块36，用于依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本；预测模块38，用于依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，至少一类群体用于指示换购车辆的概率。

可选的，样本获取模块34包括：选择单元，用于依据随机采样比例从样本候选集中随机选择部分样本，得到第一样本；样本获取单元，用于将第一样本放入未标注样本集中，得到第一初始训练样本和第二初始训练样本。

进一步地，可选的，本申请实施例提供的数据预测的装置还包括：设置模块，用于在依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集之前，设置第一目标样本集和第二目标样本集为空集。

可选的，训练模块36包括：训练单元，用于依据第一初始训练样本和第二初始训练样本进行样本训练，得到分类器；计算单元，用于依据分类器对未标注样本集和样本候选集,计算所有样本的预测概率；设置单元，用于依据第一样本在所有样本的预测概率的分布，设置第一阈值和第二阈值；第一确定单元，用于将未标注样本集中低于第一阈值的样本确定第二目标样本；第二确定单元，用于将未标注样本集中高与第二阈值的样本确定第一目标样本。

可选的，预测模块38包括：预测单元，用于依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到已购车辆的群体中各程度换购概率的人群；分类单元，用于依据各程度换购概率的人群进行类别划分，得到至少一类群体。

实施例3

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，其中，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述实施例1中的方法。

实施例4

根据本发明实施例的另一方面，还提供了一种处理器，其中，处理器用于运行程序，其中，程序运行时执行上述实施例1中的方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据预测的方法，其特征在于，包括：

获取样本候选集、未标注样本集和随机采样比例；

依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；

依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本；

依据所述第一目标样本和所述第二目标样本进行样本训练，得到对应目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，所述至少一类群体用于指示换购车辆的概率。

2.根据权利要求1所述的方法，其特征在于，依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本包括：

依据所述随机采样比例从所述样本候选集中随机选择部分样本，得到第一样本；

将所述第一样本放入所述未标注样本集中，得到所述第一初始训练样本和所述第二初始训练样本。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集之前，设置第一目标样本集和第二目标样本集为空集。

4.根据权利要求2所述的方法，其特征在于，依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本包括：

依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到分类器；

依据所述分类器对所述未标注样本集和所述样本候选集,计算所有样本的预测概率；

依据所述第一样本在所有样本的预测概率的分布，设置第一阈值和第二阈值；

将所述未标注样本集中低于所述第一阈值的样本确定所述第二目标样本；

将所述未标注样本集中高与所述第二阈值的样本确定所述第一目标样本。

5.根据权利要求1所述的方法，其特征在于，所述依据所述第一目标样本和所述第二目标样本进行样本训练，得到对应目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到至少一类群体包括：

依据第一目标样本和第二目标样本进行样本训练，得到对应所述目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到已购车辆的群体中各程度换购概率的人群；

依据各程度换购概率的人群进行类别划分，得到所述至少一类群体。

6.一种数据预测的装置，其特征在于，包括：

获取模块，用于获取样本候选集、未标注样本集和随机采样比例；

样本获取模块，用于依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；

训练模块，用于依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本；

预测模块，用于依据所述第一目标样本和所述第二目标样本进行样本训练，得到对应目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，所述至少一类群体用于指示换购车辆的概率。

7.根据权利要求6所述的装置，其特征在于，样本获取模块包括：

选择单元，用于依据所述随机采样比例从所述样本候选集中随机选择部分样本，得到第一样本；

样本获取单元，用于将所述第一样本放入所述未标注样本集中，得到所述第一初始训练样本和所述第二初始训练样本。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

设置模块，用于在依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集之前，设置第一目标样本集和第二目标样本集为空集。

9.根据权利要求7所述的装置，其特征在于，所述训练模块包括：

训练单元，用于依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到分类器；

计算单元，用于依据所述分类器对所述未标注样本集和所述样本候选集,计算所有样本的预测概率；

设置单元，用于依据所述第一样本在所有样本的预测概率的分布，设置第一阈值和第二阈值；

第一确定单元，用于将所述未标注样本集中低于所述第一阈值的样本确定所述第二目标样本；

第二确定单元，用于将所述未标注样本集中高与所述第二阈值的样本确定所述第一目标样本。

10.根据权利要求6所述的装置，其特征在于，所述预测模块包括：

预测单元，用于依据第一目标样本和所述第二目标样本进行样本训练，得到对应所述目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到已购车辆的群体中各程度换购概率的人群；

分类单元，用于依据各程度换购概率的人群进行类别划分，得到所述至少一类群体。

11.一种非易失性存储介质，其中，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至5中任意一项所述的方法。

12.一种处理器，其中，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的方法。