CN109636047A - 用户活跃度预测模型训练方法、系统、设备及存储介质 - Google Patents

用户活跃度预测模型训练方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN109636047A
CN109636047A CN201811544239.XA CN201811544239A CN109636047A CN 109636047 A CN109636047 A CN 109636047A CN 201811544239 A CN201811544239 A CN 201811544239A CN 109636047 A CN109636047 A CN 109636047A
Authority
CN
China
Prior art keywords
user
liveness
label
prediction model
historical data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811544239.XA
Other languages
English (en)
Other versions
CN109636047B (zh
Inventor
王东
沙韬伟
罗竞佳
邓金秋
刘祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yunmanman Information Technology Co ltd
Original Assignee
Jiangsu Manyun Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Software Technology Co Ltd filed Critical Jiangsu Manyun Software Technology Co Ltd
Priority to CN201811544239.XA priority Critical patent/CN109636047B/zh
Publication of CN109636047A publication Critical patent/CN109636047A/zh
Application granted granted Critical
Publication of CN109636047B publication Critical patent/CN109636047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Accounting & Taxation (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用户活跃度预测模型训练方法、系统、设备及存储介质,该方法包括:采集用户在平台的历史数据,将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户;将第一用户的历史数据和活跃度标签加入第一训练集,采用第一训练集训练预分类模型;将第二用户的历史数据输入预分类模型,根据预分类模型的输出结果为第二用户添加活跃度标签;将第一用户的历史数据和活跃度标签以及第二用户的历史数据和活跃度标签加入第二训练集,采用第二训练集训练活跃度预测模型。通过采用本发明的方案,采用半监督学习的方法,可以有效地重复利用不平衡样本中偏少的样本数据,快速有效地构建准确率高的活跃度预测模型。

Description

用户活跃度预测模型训练方法、系统、设备及存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种用户活跃度预测模型训练方法、系统、设备及存储介质。
背景技术
平台用户生命流程,通常会经历注册阶段、活跃阶段、流失阶段和沉默阶段。沉默阶段的用户数量较大且不能给平台带来价值,需要针对一些高概率可被激活的用户后续再进行push营销、短信营销、客服回访等方法进行挽留,提升平台用户的整体活跃度。然而,现有的活跃度预测方法中,如果采用活跃度预测模型,由于沉默用户和非沉默用户的比例差异巨大,并且样本平衡的方法比较匮乏,容易丢失大量样本信息,无法直接进行简单的有监督学习,并且在常规的预测方法中,对特征交叉和特征深度都没有成熟的应用,活跃度预测模型的准确率无法得到保证。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种用户活跃度预测模型训练方法、系统、设备及存储介质,采用半监督学习的方法,可以有效地重复利用不平衡样本中偏少的样本数据,更加有效地进行信息提取,快速有效地构建准确率高的活跃度预测模型。
本发明实施例提供一种用户活跃度预测模型训练方法,用于指定平台的用户活跃度预测,所述方法包括如下步骤:
采集用户在平台的历史数据,将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户;
将所述第一用户的历史数据和活跃度标签加入第一训练集,采用所述第一训练集训练预分类模型;
将所述第二用户的历史数据输入所述预分类模型,根据所述预分类模型的输出结果为所述第二用户添加活跃度标签;
将所述第一用户的历史数据和活跃度标签以及所述第二用户的历史数据和活跃度标签加入第二训练集,采用所述第二训练集训练活跃度预测模型。
可选地,所述将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,包括如下步骤:
统计用户在第一预设时间内和第二预设时间内是否执行过指定类型操作,根据统计结果将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,所述第一预设时间大于所述第二预设时间。
可选地,所述根据统计结果将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,包括如下步骤:
将在第一预设时间内未执行过指定类型操作的用户作为所述第一用户,将在第二预设时间内执行过指定类型操作的用户作为所述第一用户,将在第二预设时间内未执行过指定类型操作,且在第一预设时间内执行过指定类型操作的用户作为所述第二用户;
将在第一预设时间内未执行过指定类型操作的用户的历史数据作为预分类模型的正样本,将在第二预设时间内执行过指定类型操作的用户的历史数据作为预分类模型的负样本,为所述正样本和负样本添加标签。
可选地,应用于物流司机平台,所述指定类型操作包括用户在平台上执行的联系货主操作。
可选地,所述用户的历史数据包括用户信息和用户的操作数据。
可选地,所述活跃度预测模型为DeepFM预测模型。
本发明实施例还提供一种用户活跃度预测模型训练系统,用于指定平台的用户活跃度预测,所述系统包括:
数据采集模块,用于采集用户在所述平台的历史数据;
用户分类模块,用于将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户;
预分类模型训练模块,用于将所述第一用户的历史数据和活跃度标签加入第一训练集,采用所述第一训练集训练预分类模型;
模糊识别模块,用于将所述第二用户的历史数据输入所述预分类模型,根据所述预分类模型的输出结果为所述第二用户添加活跃度标签;
活跃度预测模型训练模块,用于将所述第一用户的历史数据和活跃度标签以及所述第二用户的历史数据和活跃度标签加入第二训练集,采用所述第二训练集训练活跃度预测模型。
可选地,所述用户分类模块用于统计用户在第一预设时间内和第二预设时间内是否执行过执行类型操作,根据统计结果将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,所述第一预设时间大于所述第二预设时间。
可选地,所述活跃度预测模型为DeepFM预测模型。
本发明实施例还提供一种用户活跃度预测模型训练设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的用户活跃度预测模型训练方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的用户活跃度预测模型训练方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的用户活跃度预测模型训练方法、系统、设备及存储介质具有下列优点:
本发明基于半监督学习的方法,首先根据确定标签的用户历史数据训练预分类模型,然后采用预分类模型对未确定标签的用户历史数据进行识别,为模糊标签的历史数据添加标签,然后训练准确的活跃度预测模型,从而得到可以快速准确地识别用户活跃度的预测模型,后期可以采用用户活跃度的预测模型对用户的活跃度进行预测,从而根据活跃度预测值选择高概率可被激活的用户,后续进行挽留,从而降低后续激活用户操作的成本,提升平台用户的整体活跃度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的用户活跃度预测模型训练方法的流程图;
图2是本发明一具体实例的用户活跃度预测模型训练方法的流程图;
图3是本发明一实施例的用户活跃度预测模型训练系统的结构示意图;
图4是本发明一实施例的用户活跃度预测模型训练设备的示意图;
图5是本发明一实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,为了解决上述技术问题,本发明实施例提供一种用户活跃度预测模型训练方法,所述方法包括如下步骤:
S100:采集用户的历史数据,将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户;
S200:将所述第一用户的历史数据和活跃度标签加入第一训练集,采用所述第一训练集训练预分类模型;
S300:将所述第二用户的历史数据输入所述预分类模型,根据所述预分类模型的输出结果为所述第二用户添加活跃度标签;
S400:将所述第一用户的历史数据和活跃度标签以及所述第二用户的历史数据和活跃度标签加入第二训练集,采用所述第二训练集训练活跃度预测模型。
本发明基于半监督学习的方法。半监督学习的方法主要是指使用大量的未标记数据,以及同时使用标记数据,进行模式识别工作。首先根据确定标签的用户历史数据训练预分类模型,然后采用预分类模型对未确定标签的用户历史数据进行识别,为模糊标签的历史数据添加标签,然后训练准确的活跃度预测模型,从而得到可以快速准确地识别用户活跃度的预测模型。在得到活跃度预测模型之后,可以将待预测的用户在平台的数据输入到预测模型中,得到活跃度预测结果,对于一段时间内在平台没有过操作但是活跃度预测值大于一个预设阈值的用户,可以将其确定为高概率可被激活的用户,着重进行挽留,降低选择高概率可被激活用户的成本,提高平台用户整体的活跃度。
所述用户的历史数据包括用户信息和用户的操作数据。其中,用户信息可以包括用户在平台的注册信息,例如年龄、性别等等,而操作数据则可以是用户平时在平台执行的操作,例如选择某个功能,输入某项信息等等。
在该实施例中,所述步骤S100中,将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,包括如下步骤:
统计用户在第一预设时间内和第二预设时间内是否执行过指定类型操作,根据统计结果将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,所述第一预设时间大于所述第二预设时间。例如,将第一预设时间设定为十五天,将第二预设时间设定为三天,统计用户在十五天内和在三天内是否执行过指定类型操作。第一预设时间和第二预设时间的时间长度可以根据需要进行选择。
在该实施例中,所述根据统计结果将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,包括如下步骤:
将在第一预设时间内未执行过指定类型操作的用户作为所述第一用户,将在第二预设时间内执行过指定类型操作的用户作为所述第一用户,将在第二预设时间内未执行过指定类型操作,且在第一预设时间内执行过指定类型操作的用户作为所述第二用户;
将在第一预设时间内未执行过指定类型操作的用户的历史数据作为预分类模型的正样本,将在第二预设时间内执行过指定类型操作的用户的历史数据作为预分类模型的负样本,为所述正样本和负样本添加标签。
第一预设时间内未执行过指定类型操作的用户是确定的沉默用户,第二预设时间内执行过指定类型操作的用户是确定的活跃用户。这两类用户可以分别作为预分类模型的正负样本。在第二预设时间内未执行过指定类型操作,且在第一预设时间内执行过指定类型操作的用户作为所述第二用户则是活跃状态不确定的用户。此处将沉默用户分为两类,一类是确定的沉默用户,此类用户后续激活的可能性比较低,而另一类是不确定的沉默用户,此类沉默用户相对于确定的沉默用户来说,其活跃度较高,后续激活的可能性比较高。而第二用户中可能存在活跃用户,也可能是存在不确定的沉默用户。在将第二用户采用预分类模型进行分类后,可以根据其更倾向于沉默用户还是更倾向于活跃用户对其进行分类。
所述步骤S200中,预分类模型可以是DeepFM预测模型,但是不限于此,也可以采用其他类型的分类器,例如支持向量机等等,能够实现活跃用户和沉默用户的分类识别即可。
所述步骤S400中,活跃度预测模型采用DeepFM预测模型。DeepFM模型是一种CTR(Click through rate,点击率)预估算法模型,DeepFM模型结合了广度和深度模型的优点,联合训练FM(Factorization Machine,因子分解机)模型和DNN(Deep Neural Network,深度神经网络)模型,来同时学习低阶特征组合和高阶特征组合。
本发明的活跃度预测模型训练方法可以应用于物流司机平台,物流司机平台上的用户一般都是物流司机,所述指定类型操作可以包括物流司机在平台上执行的联系货主操作,或者是物流司机执行的其他与货运业务相关的操作。现有技术中,尚没有针对物流司机平台的沉默用户激活的概率评估的方法。而通过采用本发明的方法,通过半监督学习的机制可以有效地重复利用不平衡样本中偏少的样本数据,更加有效地进行信息提取,采用DeepFM预测模型可以同时兼顾特征信息之间的交叉和利用特征信息的深度进行建模拟合。
下面结合物流司机平台,介绍本发明一具体实例的活跃度预测模型训练方法。可理解的是,本发明的活跃度预测模型还可以应用于其他类型的平台。
S1:首先进行司机用户在物流司机平台的历史数据的采集,用户在物流平台的基本信息可以包括用户的年龄、性别、长跑路线、车型属性等等,而用户在物流平台的操作数据可以包括浏览货主信息、联系货主、查看货主评价等等。
S2:对采集的历史数据进行预处理,包括提取异常数据,进行数据标准化,剔除共线性数据,进行数据非线性变换等等;
S3:对用户进行分类,将过去十五天没有联系过任何货主的司机作为沉默用户,将过去三天内联系过任何货主的司机作为活跃用户,将过去十五天内联系过任何货主但是过去三天内没有联系过任何货主的司机作为未知用户;
S4:采用沉默用户和活跃用户的历史数据分别作为正负样本,训练预分类模型;
S5:将未知用户的历史数据输入到预分类模型,得到预分类模型的输出结果,为未知用户添加标签;
S6:将沉默用户、活跃用户和新添加标签的用户的历史数据作为训练集,训练用户活跃度预测模型。
如图3所示,本发明实施例还提供一种用户活跃度预测模型训练系统,用于指定平台的用户活跃度预测,所述系统包括:
数据采集模块M100,用于采集用户在所述平台的历史数据;
用户分类模块M200,用于将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户;
预分类模型训练模块M300,用于将所述第一用户的历史数据和活跃度标签加入第一训练集,采用所述第一训练集训练预分类模型;
模糊识别模块M400,用于将所述第二用户的历史数据输入所述预分类模型,根据所述预分类模型的输出结果为所述第二用户添加活跃度标签;
活跃度预测模型训练模块M500,用于将所述第一用户的历史数据和活跃度标签以及所述第二用户的历史数据和活跃度标签加入第二训练集,采用所述第二训练集训练活跃度预测模型。
通过采用本发明的方法,通过半监督学习的机制可以有效地重复利用不平衡样本中偏少的样本数据,更加有效地进行信息提取,活跃度预测模型可以进一步采用DeepFM预测模型,从而同时兼顾特征信息之间的交叉和利用特征信息的深度进行建模拟合。
本发明实施例还提供一种用户活跃度预测模型训练设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的用户活跃度预测模型训练方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图4来描述根据本发明的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备600以通用计算设备的形式表现。电子设备600的组合可以包括但不限于:至少一个处理单元470、至少一个存储单元620、连接不同平台组合(包括存储单元620和处理单元470)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元470执行,使得所述处理单元470执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元470可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的用户活跃度预测模型训练方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,与现有技术相比,本发明所提供的用户活跃度预测模型训练方法、系统、设备及存储介质具有下列优点:
本发明基于半监督学习的方法,首先根据确定标签的用户历史数据训练预分类模型,然后采用预分类模型对未确定标签的用户历史数据进行识别,为模糊标签的历史数据添加标签,然后训练准确的活跃度预测模型,从而得到可以快速准确地识别用户活跃度的预测模型,后期可以采用用户活跃度的预测模型对用户的活跃度进行预测,从而根据活跃度预测值选择高概率可被激活的用户,后续进行挽留,从而降低后续激活用户操作的成本,提升平台用户的整体活跃度。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (11)

1.一种用户活跃度预测模型训练方法,其特征在于,用于指定平台的用户活跃度预测,所述方法包括如下步骤:
采集用户在平台的历史数据,将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户;
将所述第一用户的历史数据和活跃度标签加入第一训练集,采用所述第一训练集训练预分类模型;
将所述第二用户的历史数据输入所述预分类模型,根据所述预分类模型的输出结果为所述第二用户添加活跃度标签;
将所述第一用户的历史数据和活跃度标签以及所述第二用户的历史数据和活跃度标签加入第二训练集,采用所述第二训练集训练活跃度预测模型。
2.根据权利要求1所述的用户活跃度预测模型训练方法,其特征在于,所述将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,包括如下步骤:
统计用户在第一预设时间内和第二预设时间内是否执行过指定类型操作,根据统计结果将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,所述第一预设时间大于所述第二预设时间。
3.根据权利要求2所述的用户活跃度预测模型训练方法,其特征在于,所述根据统计结果将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,包括如下步骤:
将在第一预设时间内未执行过指定类型操作的用户作为所述第一用户,将在第二预设时间内执行过指定类型操作的用户作为所述第一用户,将在第二预设时间内未执行过指定类型操作,且在第一预设时间内执行过指定类型操作的用户作为所述第二用户;
将在第一预设时间内未执行过指定类型操作的用户的历史数据作为预分类模型的正样本,将在第二预设时间内执行过指定类型操作的用户的历史数据作为预分类模型的负样本,为所述正样本和负样本添加标签。
4.根据权利要求2所述的用户活跃度预测模型训练方法,其特征在于,应用于物流司机平台,所述指定类型操作包括用户在平台上执行的联系货主操作。
5.根据权利要求1所述的用户活跃度预测模型训练方法,其特征在于,所述用户的历史数据包括用户信息和用户的操作数据。
6.根据权利要求1所述的用户活跃度预测模型训练方法,其特征在于,所述活跃度预测模型为DeepFM预测模型。
7.一种用户活跃度预测模型训练系统,其特征在于,用于指定平台的用户活跃度预测,所述系统包括:
数据采集模块,用于采集用户在所述平台的历史数据;
用户分类模块,用于将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户;
预分类模型训练模块,用于将所述第一用户的历史数据和活跃度标签加入第一训练集,采用所述第一训练集训练预分类模型;
模糊识别模块,用于将所述第二用户的历史数据输入所述预分类模型,根据所述预分类模型的输出结果为所述第二用户添加活跃度标签;
活跃度预测模型训练模块,用于将所述第一用户的历史数据和活跃度标签以及所述第二用户的历史数据和活跃度标签加入第二训练集,采用所述第二训练集训练活跃度预测模型。
8.根据权利要求7所述的用户活跃度预测模型训练系统,其特征在于,所述用户分类模块用于统计用户在第一预设时间内和第二预设时间内是否执行过执行类型操作,根据统计结果将用户划分为活跃度标签确定的第一用户和活跃度标签不确定的第二用户,所述第一预设时间大于所述第二预设时间。
9.根据权利要求7所述的用户活跃度预测模型训练系统,其特征在于,所述活跃度预测模型为DeepFM预测模型。
10.一种用户活跃度预测模型训练设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任一项所述的用户活跃度预测模型训练方法的步骤。
11.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至6中任一项所述的用户活跃度预测模型训练方法的步骤。
CN201811544239.XA 2018-12-17 2018-12-17 用户活跃度预测模型训练方法、系统、设备及存储介质 Active CN109636047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811544239.XA CN109636047B (zh) 2018-12-17 2018-12-17 用户活跃度预测模型训练方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811544239.XA CN109636047B (zh) 2018-12-17 2018-12-17 用户活跃度预测模型训练方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109636047A true CN109636047A (zh) 2019-04-16
CN109636047B CN109636047B (zh) 2021-07-16

Family

ID=66074768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811544239.XA Active CN109636047B (zh) 2018-12-17 2018-12-17 用户活跃度预测模型训练方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109636047B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110732139A (zh) * 2019-10-25 2020-01-31 腾讯科技(深圳)有限公司 检测模型的训练方法和用户数据的检测方法、装置
CN111260368A (zh) * 2020-01-08 2020-06-09 支付宝(杭州)信息技术有限公司 一种账户交易风险判断方法、装置及电子设备
CN111695680A (zh) * 2020-06-15 2020-09-22 北京百度网讯科技有限公司 成绩预测方法、成绩预测模型训练方法、装置及电子设备
CN111967521A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 跨境活跃用户识别方法及装置
CN112015726A (zh) * 2020-08-21 2020-12-01 广州欢网科技有限责任公司 一种用户活跃度预测方法、系统及可读存储介质
CN112612826A (zh) * 2020-12-21 2021-04-06 北京达佳互联信息技术有限公司 数据处理方法和装置
CN112767028A (zh) * 2021-01-20 2021-05-07 每日互动股份有限公司 一种活跃用户数量的预测方法、计算机设备及存储介质
CN114549071A (zh) * 2022-02-18 2022-05-27 上海钧正网络科技有限公司 一种营销策略的确定方法、装置、计算机设备及存储介质
CN114840757A (zh) * 2022-05-07 2022-08-02 阿里巴巴(中国)有限公司 模型训练和推荐方法、装置、电子设备和存储介质
CN117786478A (zh) * 2023-11-30 2024-03-29 北京蓝色创想网络科技有限责任公司 基于多模型的用户活跃度预测方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039540A1 (en) * 2013-07-31 2015-02-05 International Business Machines Corporation Method and apparatus for evaluating predictive model
CN105631538A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种用户活跃度的预测方法、装置及其应用方法和系统
CN107665520A (zh) * 2016-07-27 2018-02-06 上海博泰悦臻网络技术服务有限公司 一种基于车辆行驶数据的行车监控方法及装置
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039540A1 (en) * 2013-07-31 2015-02-05 International Business Machines Corporation Method and apparatus for evaluating predictive model
CN105631538A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种用户活跃度的预测方法、装置及其应用方法和系统
CN107665520A (zh) * 2016-07-27 2018-02-06 上海博泰悦臻网络技术服务有限公司 一种基于车辆行驶数据的行车监控方法及装置
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110732139A (zh) * 2019-10-25 2020-01-31 腾讯科技(深圳)有限公司 检测模型的训练方法和用户数据的检测方法、装置
CN110732139B (zh) * 2019-10-25 2024-03-05 腾讯科技(深圳)有限公司 检测模型的训练方法和用户数据的检测方法、装置
CN111260368A (zh) * 2020-01-08 2020-06-09 支付宝(杭州)信息技术有限公司 一种账户交易风险判断方法、装置及电子设备
CN111695680A (zh) * 2020-06-15 2020-09-22 北京百度网讯科技有限公司 成绩预测方法、成绩预测模型训练方法、装置及电子设备
CN111695680B (zh) * 2020-06-15 2023-11-10 北京百度网讯科技有限公司 成绩预测方法、成绩预测模型训练方法、装置及电子设备
CN111967521B (zh) * 2020-08-18 2023-09-19 中国银行股份有限公司 跨境活跃用户识别方法及装置
CN111967521A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 跨境活跃用户识别方法及装置
CN112015726A (zh) * 2020-08-21 2020-12-01 广州欢网科技有限责任公司 一种用户活跃度预测方法、系统及可读存储介质
CN112015726B (zh) * 2020-08-21 2024-04-12 广州欢网科技有限责任公司 一种用户活跃度预测方法、系统及可读存储介质
CN112612826B (zh) * 2020-12-21 2024-02-06 北京达佳互联信息技术有限公司 数据处理方法和装置
CN112612826A (zh) * 2020-12-21 2021-04-06 北京达佳互联信息技术有限公司 数据处理方法和装置
CN112767028A (zh) * 2021-01-20 2021-05-07 每日互动股份有限公司 一种活跃用户数量的预测方法、计算机设备及存储介质
CN114549071A (zh) * 2022-02-18 2022-05-27 上海钧正网络科技有限公司 一种营销策略的确定方法、装置、计算机设备及存储介质
CN114840757A (zh) * 2022-05-07 2022-08-02 阿里巴巴(中国)有限公司 模型训练和推荐方法、装置、电子设备和存储介质
CN117786478A (zh) * 2023-11-30 2024-03-29 北京蓝色创想网络科技有限责任公司 基于多模型的用户活跃度预测方法、系统、设备及介质
CN117786478B (zh) * 2023-11-30 2024-05-14 北京蓝色创想网络科技有限责任公司 基于多模型的用户活跃度预测方法、系统、设备及介质

Also Published As

Publication number Publication date
CN109636047B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN109636047A (zh) 用户活跃度预测模型训练方法、系统、设备及存储介质
CN109657243A (zh) 敏感信息识别方法、系统、设备及存储介质
CN109658033B (zh) 货源路线相似度计算方法、系统、设备及存储介质
CN111143226B (zh) 自动化测试方法及装置、计算机可读存储介质、电子设备
US20200379958A1 (en) Dynamic syntactic affinity group formation in a high-dimensional functional information system
CN112541122A (zh) 推荐模型的训练方法、装置、电子设备及存储介质
CN109242044A (zh) 车货匹配模型的训练方法、装置、存储介质及电子设备
CN106600052A (zh) 一种基于时空轨迹的用户属性与社会网络检测系统
CN109598566A (zh) 下单预测方法、装置、计算机设备和计算机可读存储介质
CN107357874A (zh) 用户分类方法及装置、电子设备、存储介质
CN114298050A (zh) 模型的训练方法、实体关系抽取方法、装置、介质、设备
CN111800289B (zh) 通信网络故障分析方法和装置
CN114647741A (zh) 工艺自动决策和推理方法、装置、计算机设备及存储介质
CN111198935A (zh) 模型处理方法、装置、存储介质及电子设备
CN109447334A (zh) 货源信息的数据降维方法、装置、电子设备、存储介质
CN113435998B (zh) 贷款逾期预测方法、装置、电子设备及存储介质
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN116975299B (zh) 文本数据的判别方法、装置、设备及介质
Elmousalami Intelligent methodology for project conceptual cost prediction
CN116205482A (zh) 重点人员风险等级评估方法及相关设备
CN117093477A (zh) 一种软件质量评估方法、装置、计算机设备及存储介质
CN113869609A (zh) 一种根因分析频繁子图置信度预测方法及系统
CN113256325A (zh) 二手车估价方法、系统、计算设备和存储介质
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
CN112102062A (zh) 一种基于弱监督学习的风险评估方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210628

Address after: 210012 3rd floor, building a, Wanbo Science Park, 66 Huashen Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant after: Jiangsu manyun Logistics Information Co.,Ltd.

Address before: 210012 3-5 / F, building 4, 170-1 software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant before: JIANGSU MANYUN SOFTWARE TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 210012 3rd floor, building a, Wanbo Science Park, 66 Huashen Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Jiangsu Yunmanman Information Technology Co.,Ltd.

Address before: 210012 3rd floor, building a, Wanbo Science Park, 66 Huashen Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee before: Jiangsu manyun Logistics Information Co.,Ltd.