CN111062736A - 模型训练、线索排序方法、装置及设备 - Google Patents

模型训练、线索排序方法、装置及设备 Download PDF

Info

Publication number
CN111062736A
CN111062736A CN201811210047.5A CN201811210047A CN111062736A CN 111062736 A CN111062736 A CN 111062736A CN 201811210047 A CN201811210047 A CN 201811210047A CN 111062736 A CN111062736 A CN 111062736A
Authority
CN
China
Prior art keywords
user
model
target
features
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811210047.5A
Other languages
English (en)
Inventor
周丽芳
尹存祥
骆金昌
方军
钟辉强
吴晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811210047.5A priority Critical patent/CN111062736A/zh
Publication of CN111062736A publication Critical patent/CN111062736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种模型训练方法,包括:获取目标用户的数据;将在获取数据之前的目标时长内,执行目标行为的目标用户作为正样本,未执行目标行为的目标用户作为负样本;提取正样本的特征和负样本的特征;根据正样本的特征和负样本的特征,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。本申请还提供了一种模型训练装置、设备及计算机可读存储介质,以及线索排序的方法、装置、设备及计算机可读存储介质。本申请实施例提供的模型训练方法和线索排序方法能够有助于优先开发成单意愿较高的线索,有效地提高了线索开发的效率。

Description

模型训练、线索排序方法、装置及设备
技术领域
本申请涉及数据处理领域,具体提供一种模型训练、线索排序方法、装置及设备。
背景技术
线索,是指可能有潜在意向投放广告的企业。现有技术中,资源中心无法判断合理的线索开发顺序,从而随机下发线索,导致销售人员拿到线索后,随机拨打线索,成单效率低。尤其,在面对千万级别的企业数量时,以随机的方式下发线索,会浪费大量的人力物力。
发明内容
为解决上述技术问题至少之一,本申请提供了一种模型训练、线索排序方法、装置及设备。
第一方面,本申请提供了一种模型训练方法,包括:获取目标用户的数据;将在获取数据之前的目标时长内,执行目标行为的目标用户作为正样本,未执行目标行为的目标用户作为负样本;提取正样本的特征和负样本的特征;根据正样本的特征和负样本的特征,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
根据本申请的至少一个实施方式,目标行为包括购买行为、浏览行为和续费行为中的至少一个。
根据本申请的至少一个实施方式,还包括:提取正样本的地域特征和负样本的地域特征;按照地域特征对正样本和负样本进行分类,以便根据不同地域特征来训练不同模型。
根据本申请的至少一个实施方式,获取目标用户的数据之前,还包括:去除特殊用户、历史成单用户以及无联系方式用户,其中,特殊用户为不需要预测的用户。
根据本申请的至少一个实施方式,根据正样本的特征和负样本的特征,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练,包括:将正样本的特征和负样本的特征作为模型的输入,将目标用户在目标时长内是否执行目标行为的结果作为模型的输出,采用xgboost算法对模型进行训练。
根据本申请的至少一个实施方式,特征包括业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,模型为意向度模型,根据正样本的特征和负样本的特征,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练,包括:将业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征作为意向度模型的输入,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
根据本申请的至少一个实施方式,特征包括ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,模型为潜力度模型,根据正样本的特征和负样本的特征,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练,包括:将ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征作为潜力度模型的输入,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
第二方面,本申请公开了一种线索排序方法,包括:使用根据上述的模型训练方法获得的模型,得到待预测用户在获取数据之后执行目标行为的概率;根据概率对待预测用户进行排序。
第三方面,本申请公开了一种模型训练装置,包括:数据获取模块,用于获取目标用户的数据;样本提取模块,用于将在获取数据之前的目标时长内,执行目标行为的目标用户提取为正样本,未执行目标行为的目标用户提取为负样本;特征提取模块,用于提取正样本的特征和负样本的特征;模型训练模块,用于根据正样本的特征和负样本的特征,对用于预测待预测用户在获取数据之后执行目标行为概率的模型进行训练。
根据本申请的至少一个实施方式,目标行为包括购买行为、浏览行为和续费行为中的至少一个。
根据本申请的至少一个实施方式,还包括:地域特征提取模块,用于提取正样本的地域特征和负样本的地域特征;用户分类模块,用于根据地域特征对正样本和负样本进行分类,以便根据不同的地域特征来训练不同模型。
根据本申请的至少一个实施方式,还包括:用户去除模块,用于去除特殊用户、历史成单用户以及无联系方式用户,其中,特殊用户为不需要预测的用户。
根据本申请的至少一个实施方式,模型训练模块包括:输入提取单元,用于提取正样本的特征和负样本的特征作为模型的输入;输出提取单元,用于提取目标用户在目标时长内是否执行目标行为的结果作为模型的输出;模型训练单元,用于根据xgboost算法对模型进行训练。
根据本申请的至少一个实施方式,特征包括业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,模型训练模块为意向度模型训练模块,意向度模型训练模块将业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征作为意向度模型的输入,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
根据本申请的至少一个实施方式,特征包括ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,模型训练模块为潜力度模型训练模块,潜力度模型训练模块将ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征作为潜力度模型的输入,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
第四方面,本申请公开了一种线索排序装置,包括:概率获取模块,用于根据上述的模型训练装置获得的模型,获取待预测用户在获取数据之后执行目标行为的概率;用户排序模块,用于根据概率对待预测用户进行排序。
第五方面,本申请公开了一种设备,该设备包括:存储器,用于存储可执行程序代码;一个或多个处理器,用于读取存储器中存储的可执行程序代码以执行上述的模型训练方法,或者,用于读取存储器中存储的可执行程序代码以执行上述的线索排序方法。
第六方面,一种计算机可读存储介质,计算机可读存储介质包括指令,当指令在计算机上运行时,使得计算机执行上述的模型训练方法,或者,使得计算机执行上述的线索排序方法。
本申请实施例提供的模型训练、线索排序方法、装置及设备中,通过将目标用户的数据划分为正样本和负样本,并利用正样本和负样本训练预测模型,从而根据该预测模型对待预测用户执行目标行为的概率进行预测,并按照该概率对待预测用户进行排序,进而有助于优先开发成单意愿较高的线索,有效地提高了线索开发的效率。
附图说明
图1是本申请第一个实施例提供的模型训练方法的流程示意图;
图2是本申请第二个实施例提供的用户意向度模型训练方法的流程示意图;
图3是本申请第三个实施例提供的用户潜力度模型训练方法的流程示意图;
图4是本申请第四个实施例提供的线索排序方法的流程示意图;
图5是本申请第五个实施例提供的模型训练装置的结构示意图;
图6是本申请第六个实施例提供的模型训练装置的结构示意图;
图7示出了适用于来实现本申请实施例的计算设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是本申请第一个实施例提供的模型训练方法的流程示意图。
如图1所示,模型训练方法包括以下步骤:
步骤101,获取目标用户的数据。
在本实施例中,数据可以从企业知识图谱、用户画像以及业务数据中的至少一个来获取。例如,可以由专门的数据分析团队,根据业务场景的需要,对企业知识图谱、用户画像以及业务数据中的至少一个进行特定数据的分析,筛选出目标用户的数据。再例如,也可以通过爬虫软件从特定的网站或者数据库中,爬取特定的数据,以得到目标用户的数据。
在本实施例的一些可选的实施方式中,在获取目标用户的数据之前,先对用户进行筛选,去除特殊用户、历史成单用户以及无联系方式用户。其中,特殊用户为不需要被预测的用户。例如,特殊用户为线索开发企业,即不需要被预测的用户,相应地,在获取目标用户的数据之前,应先去除该企业及其相关的信息,以保证预测模型训练的准确性;又例如,由于线索主要采用电话沟通的方式来进行开发,相应地,在获取目标用户的数据之前,应先筛选出没有联系电话的用户并去除。
步骤102,将在获取数据之前的目标时长内,执行目标行为的目标用户作为正样本,未执行目标行为的目标用户作为负样本。
在本实施例中,目标行为包括购买行为、浏览行为和续费行为中的至少一个,也就是说,目标用户在执行上述的行为中的至少一个后,就认定为目标用户执行目标行为。
在本实施例的一些可选的实施方式中,通过对获取数据的时刻和目标时长进行设置,即在不同时间节点来获取目标用户的数据,以及在该时间节点之前设置获取数据的不同时长,能够完成对样本中某一个公司在不同时间阶段的不同数据的采集。
在本实施例的一些可选的实施方式中,采样时间为2018年9月1日,设定目标时长为45天,即选取在2018年9月1日之前的45天内执行过目标行为的用户作为正样本,选取在2018年9月1日之前的45天内的用户中除去正样本用户剩余的用户作为负样本。
需要说明的是,目标时长也可以是其他时长,例如,30天、40天或50天,本领域技术人员可以根据实际需要来灵活地设定目标时长的大小。
在本实施例的一些可选的实施方式中,为了防止模型训练过程中出现过拟合,在选取正样本和负样本时,可以选择部分正样本和部分负样本,从而能够有效地避免过拟合现象的出现。
步骤103,提取正样本的特征和负样本的特征。
在本实施例的一些可选的实施方式中,为了使预测模型更具有针对性,因此,在根据正样本和负样本进行模型训练时,需要先提取正样本的地域特征和负样本的地域特征,并按照地域特征对正样本和负样本进行分类,以便根据不同的地域特征来训练不同的模型,从而使得训练得到的模型预测的结果更加准确。
步骤104,根据正样本的特征和负样本的特征,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
本实施例的一些可选的实施方式中,将正样本的特征和负样本的特征作为模型的输入,将目标用户在目标时长内是否执行目标行为的结果作为模型的输出,采用xgboost算法对模型进行训练。
在本实施例中,模型采用xgboost模型,即提升树模型,提升树是迭代多棵回归树来共同决策,在xgboost模型每次训练时增加一棵新树,每棵树的输出值采用加和策略,决策树的训练过程即找到最优的决策树,而找到最优的决策树,是通过建立目标,即目标函数来实现找到最优的决策树,目标函数采用二分类logistics回归。
在本实施例中,模型训练方法是通过将采集到的目标用户数据进行筛选,去除特殊用户、历史成单用户以及无联系方式用户,将筛选后的目标用户划分为正样本和负样本,通过正样本和负样本对预测模型进行训练,并通过训练后的模型来预测待预测用户执行目标行为的概率,从而根据预测得到的概率对待预测用户进行排序,从而有助于优先开发排名靠前的线索,进而能够有效地提高线索开发的效率。
在本实施例中,通过正样本和负样本训练后得到的模型包括意向度模型或潜力度模型,其中,意向度模型用于预测待预测用户成单意愿的概率,潜力度模型用于预测目标用户成单潜力的概率。
下面结合附图对意向度模型和潜力度模型进行具体地说明。
图2是本申请第二个实施例提供的用户意向度模型训练方法的流程示意图。
参见图2,用户意向度模型训练方法包括以下步骤:
步骤201,获取目标用户的数据。
本实施例中,步骤201的解释说明可以参照上述实施例中的步骤101的解释说明,此处不再赘述。
步骤202,将在获取数据之前的目标时长内,执行目标行为的目标用户作为正样本,未执行目标行为的目标用户作为负样本。
本实施例中,步骤202的解释说明可以参照上述实施例中的步骤102的解释说明,此处不再赘述。
步骤203,对正样本和负样本进行特征提取。
在本实施例中,提取的特征包括:业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征。
在本实施例的一些可选的实施方式中,业务特征可以包括:拨打量,即拨打电话的个数;接通量,即接通电话的个数;意向量,即通话时间大于等于180秒的通话个数;有效量,即通话时间大于等于60秒并且小于180秒的通话个数;秒挂量,即通话时间小于等于10秒的通话个数。
在本实施例的一些可选的实施方式中,ICP(Internet Content Provider),电信与信息服务业务经营许可证,即向广大用户综合提供互联网信息业务和增值业务的电信运营商。因此,ICP特征可以包括:ICP距获取数据时刻时的天数;ICP网站个数。
在本实施例的一些可选的实施方式中,用户工商特征可以包括:企业的注册资金、成立年份以及注册时长。由于企业注册资金会存在币种不同的情况,为了方便模型的训练,可以将不同的币种转化为统一币种用于模型的训练,例如,统一转化为人民币。
在本实施例的一些可选的实施方式中,用户网站点击特征可以包括:用户的网站在获取数据的时刻之前,一段时间内被点击的次数,或一段时间内的点击次数比率。可选地,用户网站点击特征可以是用户网站一个月的点击次数、上个月的点击次数、上上个月的点击次数、一个月点击次数比率。能够理解的是,点击次数比率是指网站页面上某一内容被点击的次数与被显示次数之比。
在本实施例的一些可选的实施方式中,用户名搜索特征可以包括:用户的名称在获取数据的时刻之前,一段时间内被搜索的次数,或一段时间内的搜索次数比率。可选地,用户名搜索特征可以是用户名称一个月的搜索次数、上个月的搜索次数、上上个月的搜索次数、一个月搜索次数比率。能够理解的是,搜索次数比率是指两个连续周期内的搜索次数比值,例如,一个月内的搜索次数/上一个月的搜索次数。
步骤204,将业务特征、ICP特征、用户工商特征、用户网站点击特征、用户名搜索特征作为意向度模型的输入,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
本实施例中,意向度模型可以采用xgboost模型,将目标用户的业务特征、ICP特征、用户工商特征、用户网站点击特征、用户名搜索特征作为意向度模型的输入,将是否执行目标行为的结果(例如,0或1)作为意向度模型的输出,来训练意向度模型的输入和输出之间的参数。在训练过程中,去除掉对模型训练的结果没有影响或者影响较小的特征。
本实施例中,通过将目标用户的业务特征、ICP特征、用户工商特征、用户网站点击特征、用户名搜索特征作为意向度模型的输入,对用于预测待预测用户在获取数据时刻之后执行目标行为的概率的模型进行训练,训练得到的意向度模型能够用于预测待预测用户在获取数据时刻之后执行目标行为的意向度的概率,通过概率能够反映出待预测用户执行目标行为意向度的高低,有助于开发线索的效率。
图3是本申请第三个实施例提供的用户潜力度模型训练方法的流程示意图。
如图3所示,用户潜力度模型训练方法包括以下步骤:
步骤301,获取目标用户的数据。
步骤302,将在获取数据之前的目标时长内,执行目标行为的目标用户作为正样本,未执行目标行为的目标用户作为负样本。
步骤303,对正样本和负样本进行特征提取。
在本实施例中,提取的特征包括:ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征。
步骤304,将ICP特征、用户工商特征、用户网站点击特征、用户名搜索特征作为潜力度模型的输入,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
本实施例中,用户潜力度概率排序方法与上述的用户意向度概率排序方法类似,唯一的区别之处在于提取的特征不包含业务特征,其余均与用户意向度概率排序方法相同,此处不再赘述。
图4是本申请第四个实施例提供的线索排序方法的流程示意图。
如图4所示,线索排序方法包括以下步骤:
步骤401,根据训练后的模型,得到待预测用户在获取数据之后执行目标行为的概率。
在本实施例中,训练后的模型可以是意向度模型,也可以是潜力度模型。
在本实施例的一些可选的实施方式中,在步骤401之前,还包括:获取待预测用户的数据,以及提取待预测用户的特征。需要说明的是,在需要预测待预测用户的意向度概率时,提取待预测用户的业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,并通过上述的特征作为训练后的模型的输入来获取待预测用户的意向度概率;在需要预测待预测用户的潜力度概率时,提取待预测用户的ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,并通过将上述的特征作为训练后的模型的输入来获取待预测用户的潜力度概率。
步骤402,根据概率对待预测用户进行排序。
在本实施例的一些可选的实施方式中,针对在2018年9月1日之后获取的待预测用户,可以根据上述的意向度模型或者潜力度模型来得到待预测用户在2018年9月1日之后执行目标行为的概率并根据概率进行排序,并将排序后的待预测用户名单下发至销售人员,以方便销售人员开发线索,即优先寻找意向度较高的待预测用户。
在本实施例的一些可选的实施方式中,在2018年9月1日采集一次目标用户的数据,15天后,即2018年9月16日再次采集一次目标用户的数据,目标时长设定为45天,因此,通过用第二次采集到的数据更新替换掉第一次采集到的全部或者部分数据,以便于针对同一公司在不同时间阶段执行目标行为的意向度概率进行预测。
在本实施例的一些可选的实施方式中,可以将上述的用户意向度模型训练方法或者潜力度模型训练方法集成到一个软件中,该软件能够实现输入待预测用户的名称,则会输出待预测用户执行目标行为的意向度概率或者潜力度概率,以便于销售人员能够灵活地开发线索,即寻找意向度或者潜力度较高的待预测用户。
进一步参见图5,作为对上述各图所示方法的实现,本申请提供了一种模型训练装置的一个实施例,该装置实施例与图1至图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例提供的模型训练装置500包括:
数据获取模块510,用于获取目标用户的数据。
样本提取模块520,用于将在获取数据之前的目标时长内,执行目标行为的目标用户提取为正样本,未执行目标行为的目标用户提取为负样本。
特征提取模块530,用于提取正样本的特征和负样本的特征。
模型训练模块540,用于根据正样本的特征和负样本的特征,对用于预测待预测用户在获取数据之后执行目标行为概率的模型进行训练。
在本实施例的一些可选的实施方式中,目标行为包括购买行为、浏览行为和续费行为中的至少一个。
在本实施例的一些可选的实施方式中,模型训练装置500还包括:地域特征提取模块550,用于提取正样本的地域特征和负样本的地域特征;用户分类模块560,用于根据地域特征对正样本和负样本进行分类,以便根据不同的地域特征来训练不同模型。
在本实施例的一些可选的实施方式中,模型训练装置500还包括:用户去除模块570,用于去除特殊用户、历史成单用户以及无联系方式用户,其中,特殊用户为不需要预测的用户。
在本实施例的一些可选的实施方式中,模型训练模块540包括:输入提取单元,用于提取正样本的特征和负样本的特征作为模型的输入;输出提取单元,用于提取目标用户在目标时长内是否执行目标行为的结果作为模型的输出;模型训练单元,用于根据xgboost算法对模型进行训练。
在本实施例的一些可选的实施方式中,特征提取模块530提取到的特征包括业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,模型训练模块540为意向度模型训练模块,该意向度模型训练模块将业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征作为意向度模型的输入,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
在本实施例的一些可选的实施方式中,特征提取模块530提取到的特征包括ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,模型训练模块540为潜力度模型训练模块,该潜力度模型训练模块将ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征作为潜力度模型的输入,对用于预测待预测用户在获取数据之后执行目标行为的概率的模型进行训练。
需要说明的是,前述对模型训练方法实施例的解释说明也适用于本实施例的装置,此处不再赘述。
进一步参见图6,作为对上述各图所示方法的实现,本申请提供了一种模型训练装置的一个实施例,该装置实施例与图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例提供的线索排序装置600包括:
概率获取模块601,用于根据上述的模型训练装置获得的模型,获取待预测用户在获取数据之后执行目标行为的概率。
用户排序模块602,用于根据概率对待预测用户进行排序。
需要说明的是,前述对线索排序方法实施例的解释说明也适用于本实施例的装置,此处不再赘述。
本实施例中,模型训练装置500是通过数据获取模块510采集目标用户数据,通过用户去除模块570去除特殊用户、历史成单用户以及无联系方式用户,通过样本提取模块520提取正样本和负样本,通过模型训练模块540对预测模型进行训练,最后通过概率获取模块601获取待预测用户执行目标行为的概率,从而通过用户排序模块602根据预测得到的概率对待预测用户进行排序,从而有助于优先开发排名靠前的线索,进而能够有效地提高线索开发的效率。
下面参考图7,其示出了适用于来实现本申请实施例的计算设备的结构示意图。
如图7所示,计算设备包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705以及输出设备706。其中,输入接口702、中央处理器703、存储器704以及输出接口705通过总线707相互连接,输入设备701和输出设备706分别通过输入接口702和输出接口705与总线707连接,进而与计算设备的其他组件连接。具体地,输入设备704接收来自外部的输入信息,并通过输入接口702将输入信息传送到中央处理器703;中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器704中,然后通过输出接口705将输出信息传送到输出设备706;输出设备706将输出信息输出到计算设备700的外部供用户使用。
也就是说,图7所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1至图3描述的模型训练方法,或者该一个或多个处理器在执行计算机可执行指令时可以实现结合图4描述的线索排序方法。
在本实施例的一些可选的实施方式中,图7所示的计算设备可以被实现为包括:存储器704,被配置为存储可执行程序代码;一个或多个中央处理器703,被配置为运行存储器704中存储的可执行程序代码,以执行上述实施例中的模型排序方法或者线索排序方法。
在本实施例的一些可选的实施方式中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (18)

1.一种模型训练方法,其特征在于,包括:
获取目标用户的数据;
将在获取所述数据之前的目标时长内,执行目标行为的所述目标用户作为正样本,未执行所述目标行为的所述目标用户作为负样本;
提取所述正样本的特征和所述负样本的特征;
根据所述正样本的特征和所述负样本的特征,对用于预测待预测用户在获取所述数据之后执行所述目标行为的概率的模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述目标行为包括购买行为、浏览行为和续费行为中的至少一个。
3.根据权利要求1所述的方法,其特征在于,还包括:
提取所述正样本的地域特征和所述负样本的地域特征;
按照所述地域特征对所述正样本和所述负样本进行分类,以便根据不同地域特征来训练不同的模型。
4.根据权利要求1所述的方法,其特征在于,所述获取目标用户的数据之前,还包括:
去除特殊用户、历史成单用户以及无联系方式用户,其中,所述特殊用户为不需要预测的用户。
5.根据权利要求1所述的方法,其特征在于,所述根据所述正样本的特征和所述负样本的特征,对用于预测待预测用户在获取所述数据之后执行所述目标行为的概率的模型进行训练,包括:
将所述正样本的特征和所述负样本的特征作为所述模型的输入,将所述目标用户在所述目标时长内是否执行目标行为的结果作为所述模型的输出,采用xgboost算法对所述模型进行训练。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述特征包括业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,所述模型为意向度模型,
所述根据所述正样本的特征和所述负样本的特征,对用于预测待预测用户在获取所述数据之后执行所述目标行为的概率的模型进行训练,包括:
将所述业务特征、所述ICP特征、所述用户工商特征、所述用户网站点击特征和所述用户名搜索特征作为所述意向度模型的输入,对用于预测所述待预测用户在获取所述数据之后执行所述目标行为的概率的模型进行训练。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述特征包括ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,所述模型为潜力度模型,
所述根据所述正样本的特征和所述负样本的特征,对用于预测待预测用户在获取所述数据之后执行所述目标行为的概率的模型进行训练,包括:
将所述ICP特征、所述用户工商特征、所述用户网站点击特征和所述用户名搜索特征作为所述潜力度模型的输入,对用于预测所述待预测用户在获取所述数据之后执行所述目标行为的概率的模型进行训练。
8.一种线索排序方法,其特征在于,包括:
使用根据权利要求1至7中任一项所述的模型训练方法获得的所述模型,得到所述待预测用户在获取所述数据之后执行所述目标行为的概率;
根据所述概率对所述待预测用户进行排序。
9.一种模型训练装置,其特征在于,包括:
数据获取模块,用于获取目标用户的数据;
样本提取模块,用于将在获取所述数据之前的目标时长内,执行目标行为的所述目标用户提取为正样本,未执行所述目标行为的所述目标用户提取为负样本;
特征提取模块,用于提取所述正样本的特征和所述负样本的特征;
模型训练模块,用于根据所述正样本的特征和所述负样本的特征,对用于预测待预测用户在获取所述数据之后执行所述目标行为概率的模型进行训练。
10.根据权利要求9所述的装置,其特征在于,所述目标行为包括购买行为、浏览行为和续费行为中的至少一个。
11.根据权利要求9所述的装置,其特征在于,还包括:
地域特征提取模块,用于提取所述正样本的地域特征和所述负样本的地域特征;
用户分类模块,用于根据所述地域特征对所述正样本和所述负样本进行分类,以便根据不同的地域特征来训练不同模型。
12.根据权利要求9所述的装置,其特征在于,还包括:
用户去除模块,用于去除特殊用户、历史成单用户以及无联系方式用户,其中,所述特殊用户为不需要预测的用户。
13.根据权利要求9所述的装置,其特征在于,所述模型训练模块包括:
输入提取单元,用于提取所述正样本的特征和所述负样本的特征作为所述模型的输入;
输出提取单元,用于提取所述目标用户在所述目标时长内是否执行所述目标行为的结果作为所述模型的输出;
模型训练单元,用于根据xgboost算法对所述模型进行训练。
14.根据权利要求9至13中任一项所述的装置,其特征在于,所述特征包括业务特征、ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,所述模型训练模块为意向度模型训练模块,
所述意向度模型训练模块将所述业务特征、所述ICP特征、所述用户工商特征、所述用户网站点击特征和所述用户名搜索特征作为所述意向度模型的输入,对用于预测所述待预测用户在获取所述数据之后执行所述目标行为的概率的模型进行训练。
15.根据权利要求9至13中任一项所述的装置,其特征在于,所述特征包括ICP特征、用户工商特征、用户网站点击特征和用户名搜索特征,所述模型训练模块为潜力度模型训练模块,
所述潜力度模型训练模块将所述ICP特征、所述用户工商特征、所述用户网站点击特征和所述用户名搜索特征作为所述潜力度模型的输入,对用于预测所述待预测用户在获取所述数据之后执行所述目标行为的概率的模型进行训练。
16.一种线索排序装置,其特征在于,包括:
概率获取模块,用于根据权利要求9至15中任一项所述的模型训练装置获得的所述模型,获取所述待预测用户在获取所述数据之后执行所述目标行为的概率;
用户排序模块,用于根据所述概率对所述待预测用户进行排序。
17.一种设备,其特征在于,所述设备包括:
存储器,用于存储可执行程序代码;
一个或多个处理器,用于读取所述存储器中存储的可执行程序代码以执行权利要求1至7中任一项所述的模型训练方法,或者,
用于读取所述存储器中存储的可执行程序代码以执行权利要求8所述的线索排序方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行权利要求1至7中任一项所述的模型训练方法,或者,
使得计算机执行权利要求8所述的线索排序方法。
CN201811210047.5A 2018-10-17 2018-10-17 模型训练、线索排序方法、装置及设备 Pending CN111062736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811210047.5A CN111062736A (zh) 2018-10-17 2018-10-17 模型训练、线索排序方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811210047.5A CN111062736A (zh) 2018-10-17 2018-10-17 模型训练、线索排序方法、装置及设备

Publications (1)

Publication Number Publication Date
CN111062736A true CN111062736A (zh) 2020-04-24

Family

ID=70297290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811210047.5A Pending CN111062736A (zh) 2018-10-17 2018-10-17 模型训练、线索排序方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111062736A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782611A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 预测模型建模方法、装置、设备及存储介质
WO2021232588A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 食品安全风险评估方法、装置、设备及存储介质
CN113902132A (zh) * 2021-12-09 2022-01-07 北京达佳互联信息技术有限公司 负反馈行为预测模型训练方法、消息推送方法及设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226856A1 (en) * 2012-02-23 2013-08-29 Palo Alto Research Center Incorporated Performance-efficient system for predicting user activities based on time-related features
US20130339126A1 (en) * 2012-06-13 2013-12-19 Yahoo! Inc. Campaign performance forecasting for non-guaranteed delivery advertising
CN104679771A (zh) * 2013-11-29 2015-06-03 阿里巴巴集团控股有限公司 一种个性化数据搜索方法和装置
CN105631707A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 基于决策树的广告点击率预估方法与应用推荐方法及装置
US20160180355A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation Estimation model for estimating an attribute of an unknown target
CN105930934A (zh) * 2016-04-27 2016-09-07 北京物思创想科技有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
US20180032883A1 (en) * 2016-07-27 2018-02-01 Facebook, Inc. Socioeconomic group classification based on user features
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN108121795A (zh) * 2017-12-20 2018-06-05 北京奇虎科技有限公司 用户行为预测方法及装置
US20180189812A1 (en) * 2016-12-29 2018-07-05 Truecar, Inc. System and method for dealer evaluation and dealer network optimization using spatial and geographic analysis in a network of distributed computer systems
CN108337316A (zh) * 2018-02-08 2018-07-27 平安科技(深圳)有限公司 信息推送方法、装置、计算机设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226856A1 (en) * 2012-02-23 2013-08-29 Palo Alto Research Center Incorporated Performance-efficient system for predicting user activities based on time-related features
US20130339126A1 (en) * 2012-06-13 2013-12-19 Yahoo! Inc. Campaign performance forecasting for non-guaranteed delivery advertising
CN104679771A (zh) * 2013-11-29 2015-06-03 阿里巴巴集团控股有限公司 一种个性化数据搜索方法和装置
US20160180355A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation Estimation model for estimating an attribute of an unknown target
CN105631707A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 基于决策树的广告点击率预估方法与应用推荐方法及装置
CN105930934A (zh) * 2016-04-27 2016-09-07 北京物思创想科技有限公司 展示预测模型的方法、装置及调整预测模型的方法、装置
US20180032883A1 (en) * 2016-07-27 2018-02-01 Facebook, Inc. Socioeconomic group classification based on user features
US20180189812A1 (en) * 2016-12-29 2018-07-05 Truecar, Inc. System and method for dealer evaluation and dealer network optimization using spatial and geographic analysis in a network of distributed computer systems
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN108121795A (zh) * 2017-12-20 2018-06-05 北京奇虎科技有限公司 用户行为预测方法及装置
CN108337316A (zh) * 2018-02-08 2018-07-27 平安科技(深圳)有限公司 信息推送方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAOQING LIU,等: "An Applied Research of Decision Tree Algorithm in Track and Field Equipment Training" *
杨立洪,等: "基于二次组合的特征工程与XGBoost 模型的用户行为预测" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232588A1 (zh) * 2020-05-21 2021-11-25 平安国际智慧城市科技股份有限公司 食品安全风险评估方法、装置、设备及存储介质
CN111782611A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 预测模型建模方法、装置、设备及存储介质
CN111782611B (zh) * 2020-06-30 2024-01-23 北京百度网讯科技有限公司 预测模型建模方法、装置、设备及存储介质
CN113902132A (zh) * 2021-12-09 2022-01-07 北京达佳互联信息技术有限公司 负反馈行为预测模型训练方法、消息推送方法及设备

Similar Documents

Publication Publication Date Title
CN108804450B (zh) 信息推送的方法和装置
CN102262647B (zh) 信息处理装置、信息处理方法和程序
CN107862022B (zh) 文化资源推荐系统
CN107679217B (zh) 基于数据挖掘的关联内容提取方法和装置
US20190179966A1 (en) Method and apparatus for identifying demand
CN107105031A (zh) 信息推送方法和装置
US10169730B2 (en) System and method to present a summarized task view in a case management system
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
CN112669096B (zh) 对象推荐模型训练方法以及装置
US20140279583A1 (en) Systems and Methods for Classifying Entities
CN111552870A (zh) 对象推荐方法、电子装置及存储介质
CN112036577B (zh) 基于数据形式的应用机器学习的方法、装置和电子设备
CN111125574A (zh) 用于生成信息的方法和装置
CN109685537B (zh) 用户行为的分析方法、装置、介质和电子设备
WO2017121076A1 (zh) 信息推送方法和装置
CN111062736A (zh) 模型训练、线索排序方法、装置及设备
CN110597965B (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
JP2020170538A (ja) 検索データを処理するための方法、装置及びプログラム
JP2019191975A (ja) 人材選定装置、人材選定システム、人材選定方法及びプログラム
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
CN114298845A (zh) 一种理赔票据处理方法和装置
CN114239697A (zh) 目标对象的分类方法、装置、电子设备及存储介质
CN111507471B (zh) 一种模型训练方法、装置、设备及存储介质
CN112182414A (zh) 文章推荐方法、装置及电子设备
CN108520012B (zh) 基于机器学习的移动互联网用户评论挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424

RJ01 Rejection of invention patent application after publication