CN111626783B - 用于实现事件转化概率预测的离线信息设置方法和装置 - Google Patents
用于实现事件转化概率预测的离线信息设置方法和装置 Download PDFInfo
- Publication number
- CN111626783B CN111626783B CN202010469556.0A CN202010469556A CN111626783B CN 111626783 B CN111626783 B CN 111626783B CN 202010469556 A CN202010469556 A CN 202010469556A CN 111626783 B CN111626783 B CN 111626783B
- Authority
- CN
- China
- Prior art keywords
- event
- sample
- probability prediction
- samples
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开了一种用于实现事件转化概率预测的离线信息设置方法和装置。其中的方法包括:获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率;对多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,获得多个第二事件转化概率预测样本,形成第二样本集;根据事件发生概率,从第二样本集中筛选出事件发生概率满足预定要求的第二事件转化概率预测样本;根据筛选出的第二事件转化概率预测样本,生成预测集;预测预测集中的各事件转化概率预测样本的事件转化概率,形成用于预测事件转化概率的离线信息。本公开有利于快速便捷的生成用于预测事件转化概率的离线信息,进而有利于提高待预测样本进一步转化的概率。
Description
本公开要求在2020年4月30日提交中国专利局、申请号为202010363410.8、发明名称为“用于实现商机价值预测的离线信息设置方法、装置介质和设备”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开涉及计算机技术,尤其是涉及一种用于实现事件转化概率预测的离线信息设置方法、用于实现事件转化概率预测的离线信息设置装置、存储介质以及电子设备。
背景技术
一些事件往往是系统中非常重要的一项内容。例如,在房产领域中,房产经纪人可以通过将事件转化为带客户实地看房等行为,而最终实现房屋的成交。
准确的预测事件转化概率对于多方都是非常有利的。例如,在房产领域,准确的预测事件转化概率,有利于使用户得到相应的服务,有利于平台为房产经纪人提供存在差异的事件信息,有利于房产经纪人针对各事件合理分配服务时间,以便于提高房产经纪人的工作效率等。
在基于离线信息实现事件转化概率预测的过程中,往往需要预先准备非常庞大的离线信息,这不但会使离线信息的生成周期较长,而且通常对生成离线信息的设备的硬件要求往往较高。如何快速便捷的生成用于预测事件转化概率的离线信息,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种用于实现事件转化概率预测的离线信息设置方法、用于实现事件转化概率预测的离线信息设置装置、存储介质以及电子设备。
根据本公开实施例的一个方面,提供了一种用于实现事件转化概率预测的离线信息设置方法,包括:获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率;对所述第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,获得多个第二事件转化概率预测样本,形成第二样本集;根据所述事件发生概率,从所述第二样本集中筛选出事件发生概率满足预定要求的第二事件转化概率预测样本;根据所述筛选出的第二事件转化概率预测样本,生成多个事件转化概率预测样本,形成预测集;预测所述预测集中的各事件转化概率预测样本的事件转化概率,形成用于预测事件转化概率的离线信息。
在本公开一实施方式中,所述获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率,包括:获取第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征;对各用户特征分别进行事件发生概率预测处理,获得所述多个第一事件转化概率预测样本各自对应的事件发生概率。
在本公开又一实施方式中,所述对所述第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,包括:利用第一压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征进行特征维度压缩处理;利用第二压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的事件特征进行特征维度压缩处理;利用第三压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的事件标的特征进行特征维度压缩处理;其中,特征维度压缩处理后的用户特征、事件特征和事件标的特征形成多个中间样本。
在本公开再一实施方式中,所述对所述第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,包括:针对所述中间样本所包含的所有特征中的各特征元素,将所述多个中间样本分别划分为多个样本组,并为同一样本组中的各中间样本所包含的相应特征元素设置相同的特征值;合并所有特征元素的特征值完全相同的多个中间样本。
在本公开再一实施方式中,所述针对所述中间样本所包含的所有特征中的各特征元素,将所述多个中间样本分别划分为多个样本组,包括:针对所述中间样本所包含的任一特征中的任一特征元素,根据所述多个中间样本各自包含的该特征元素的特征值,对所述多个中间样本进行等频分箱处理,获得多个样本组。
在本公开再一实施方式中,所述为同一样本组中的各中间样本所包含的相应特征元素设置相同的特征值,包括:根据同一样本组中的各中间样本所包含的相应特征元素的最小特征值和最大特征值,确定同一样本组中的相应特征元素的特征取值范围,并根据该特征取值范围更新该样本组中的各中间样本所包含的相应特征元素的特征值。
在本公开再一实施方式中,所述方法还包括:获取待预测样本;对所述待预测样本所包含的各特征元素进行特征维度压缩处理,获得第一待预测样本;根据所述第一待预测样本所包含的各特征元素各自所属的特征取值范围,更新第一待预测样本中的各特征元素的特征值,形成第二待预测样本;根据所述第二待预测样本所包含的各特征元素的更新后的特征值,在所述离线信息中查找匹配的记录,并将所述匹配的记录中的事件转化概率作为预测出的所述待预测样本的事件转化概率。
在本公开再一实施方式中,所述根据所述事件发生概率,从所述第二样本集中筛选出事件发生概率满足预定要求的第二事件转化概率预测样本,包括:按照所述事件发生概率从大到小的顺序,对所述第二样本集中的第二事件转化概率预测样本进行排序,并根据预设用户数量,从所述排序后的第二事件转化概率预测样本中选取相应数量的第二事件转化概率预测样本;或者,从所述第二样本集中筛选出事件发生概率不低于预定概率值的第二事件转化概率预测样本。
在本公开再一实施方式中,所述根据所述筛选出的第二事件转化概率预测样本,生成多个事件转化概率预测样本,包括:根据所述筛选出的各第二事件转化概率预测样本中的用户特征、事件特征以及事件标的特征,进行特征枚举计算,获得多个事件转化概率预测样本。
根据本公开实施例的另一个方面,提供了一种用于实现事件转化概率预测的离线信息设置装置,该装置包括:获取概率模块,用于获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率;压缩模块,用于对所述第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,获得多个第二事件转化概率预测样本,形成第二样本集;筛选模块,用于根据所述获取概率模块获取事件发生概率,从所述压缩模块获得的第二样本集中筛选出事件发生概率满足预定要求的第二事件转化概率预测样本;生成样本模块,用于根据所述筛选模块筛选出的第二事件转化概率预测样本,生成多个事件转化概率预测样本,形成预测集;生成离线信息模块,用于预测所述生成样本模块形成的预测集中的各事件转化概率预测样本的事件转化概率,形成用于预测事件转化概率的离线信息。
在本公开一实施方式中,所述获取概率模块包括:第一子模块,用于获取第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征;第二子模块,用于对各用户特征分别进行事件发生概率预测处理,获得所述多个第一事件转化概率预测样本各自对应的事件发生概率。
在本公开又一实施方式中,所述压缩模块包括:第三子模块,用于利用第一压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征进行特征维度压缩处理;第四子模块,用于利用第二压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的事件特征进行特征维度压缩处理;第五子模块,用于利用第三压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的事件标的特征进行特征维度压缩处理;其中,特征维度压缩处理后的用户特征、事件特征和事件标的特征形成多个中间样本。
在本公开再一实施方式中,所述压缩模块包括:第六子模块,用于针对所述中间样本所包含的所有特征中的各特征元素,将所述多个中间样本分别划分为多个样本组,并为同一样本组中的各中间样本所包含的相应特征元素设置相同的特征值;第七子模块,用于合并所有特征元素的特征值完全相同的多个中间样本。
在本公开再一实施方式中,所述第六子模块进一步用于:针对所述中间样本所包含的任一特征中的任一特征元素,根据所述多个中间样本各自包含的该特征元素的特征值,对所述多个中间样本进行等频分箱处理,获得多个样本组。
在本公开再一实施方式中,所述第六子模块进一步用于:根据同一样本组中的各中间样本所包含的相应特征元素的最小特征值和最大特征值,确定同一样本组中的相应特征元素的特征取值范围,并根据该特征取值范围更新该样本组中的各中间样本所包含的相应特征元素的特征值。
在本公开再一实施方式中,所述装置还包括离线预测模块,用于:获取待预测样本;对所述待预测样本所包含的各特征元素进行特征维度压缩处理,获得第一待预测样本;根据所述第一待预测样本所包含的各特征元素各自所属的特征取值范围,更新第一待预测样本中的各特征元素的特征值,形成第二待预测样本;根据所述第二待预测样本所包含的各特征元素的更新后的特征值,在所述离线信息中查找匹配的记录,并将所述匹配的记录中的事件转化概率作为预测出的所述待预测样本的事件转化概率。
在本公开再一实施方式中,所述筛选模块包括:第八子模块,用于按照所述事件发生概率从大到小的顺序,对所述第二样本集中的第二事件转化概率预测样本进行排序,并根据预设用户数量,从所述排序后的第二事件转化概率预测样本中选取相应数量的第二事件转化概率预测样本;或者,第九子模块,用于从所述第二样本集中筛选出事件发生概率不低于预定概率值的第二事件转化概率预测样本。
在本公开再一实施方式中,所述生成样本模块进一步用于:根据所述筛选出的各第二事件转化概率预测样本中的用户特征、事件特征以及事件标的特征,进行特征枚举计算,获得多个事件转化概率预测样本。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述用于实现事件转化概率预测的离线信息设置方法。
根据本公开实施例的又一方面,提供一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述用于实现事件转化概率预测的离线信息设置方法。
基于本公开上述实施例提供的一种用于实现事件转化概率预测的离线信息设置方法和装置,通过对第一样本集中的多个第一事件转化概率预测样本所包含的特征形成的特征空间进行压缩处理,可以有效降低该特征空间的大小;例如,可以有效降低该特征空间在长和/或宽方向上的维度;通过利用第一样本集中的各第一事件转化概率预测样本各自对应的事件发生概率,对第二样本集中的第二事件转化概率预测样本进行筛选,有利于使筛选出的第二事件转化概率预测样本属于较有可能存在事件的样本;通过利用筛选出的第二事件转化概率预测样本形成预测集,有利于在保证预测集中的事件转化概率预测样本的样本质量的同时,极小化预测集;由于离线信息由预测集中的事件转化概率预测样本形成,因此,本公开有利于极小化离线信息;虽然极小化的离线信息不能较好的对整体待预测样本进行覆盖,但是极小化的离线信息能够较好的覆盖事件转化概率较高的待预测样本,即本公开设置的离线信息可能会对事件转化概率较低的待预测样本的覆盖率较低,但是对事件转化概率较高的待预测样本的覆盖率却较高;由于在实际应用,通常是对事件转化概率较高的待预测样本予以更多的关注,因此,本公开设置的离线信息虽然不能较好的对整体待预测样本进行覆盖,但是却具有较强的实用价值。由此可知,本公开提供的技术方案有利于快速便捷的生成用于预测事件转化概率的离线信息,进而有利于提高待预测样本进一步转化的概率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的适用场景的一个实施例的示意图;
图2为本公开的用于实现事件转化概率预测的离线信息设置方法一个实施例的流程图;
图3为本公开的利用三个自编码器实现特征维度压缩一实施例的流程图;
图4为本公开的利用离线信息实现事件转化概率预测一实施例的流程图;
图5为本公开的训练概率预测模型一实施例的流程图;
图6为本公开的训练事件转化概率预测模型一实施例的流程图;
图7为本公开的用于实现事件转化概率预测的离线信息设置装置一个实施例的结构示意图;
图8为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,在设置用于实现事件转化概率预测的离线信息的过程中,在基于历史业务数据获得初始事件转化概率预测样本之后,为了提高离线信息的覆盖率,往往需要对初始事件转化概率预测样本进行特征枚举值组合处理,从而获得大量的事件转化概率预测样本,这些大量的事件转化概率预测样本形成预测集。预测集中的各事件转化概率预测样本与其事件转化概率一起,形成用于实现事件转化概率预测的离线信息。
然而,在实际应用中,如果初始事件转化概率预测样本选取数量较多,则特征枚举值组合处理会使最终形成的事件转化概率预测样本的数量呈指数级增长,虽然有利于提高离线信息的覆盖率,但是也会大大增加计算资源的占用以及离线信息生成时间,例如,往往需要GPU集群来完成离线信息的生成;再例如,无法在规定时间内完成离线信息的生成,具体的,由于计算量过大,而往往无法在当前日期(即T日)的前一天(即T-1日),针对T-N(N为大于1的整数)日至T-1日中的所有用户操作,完成离线信息的生成等。如果为了避免上述问题,而选取较少数量的初始事件转化概率预测样本,则可能会导致一些有价值的初始事件转化概率预测样本被忽略。
示例性概述
本公开提供的用于实现事件转化概率预测的离线信息设置技术的应用场景的一个例子,如图1所示。
图1中,本公开可以在当前日期(即当天,也可以称为T日)的零点(或者前一天的23:00等)开始,以该时间点之前生成的历史业务数据为基础数据,按照本公开提供的技术方案设置离线信息,并将当前生成的离线信息存储在网络侧的服务器102中。该离线信息包括多条记录,每一条记录均可以包括:特征(如压缩处理后的用户特征、事件特征和事件标的特征等)以及特征对应的事件转化概率。
假设用户100在当前日期(即T日)使用其终端设备101(如计算机或者智能移动电话等)访问服务器102,服务器102根据用户100的访问需求,向终端设备101推送相应的信息,终端设备101根据服务器102推送来的信息,形成相应的页面(如网页形式的页面或者APP形式的页面等),并显示给用户100。
在用户100采用点击当前显示的页面中的相关按钮等操作方式,产生一个事件时,本公开中的服务器102可以获得当前产生的该事件对所应的多个特征(如用户特征、事件特征以及事件标的特征等),本公开的服务器102可以对当前产生的该事件所对应的特征,在特征维度上进行压缩处理,并利用压缩处理后的特征在预先设置的离线信息中进行特征匹配查找。本公开可以将查找到的特征匹配的记录中的事件转化概率,作为用户100当前产生的该事件的事件转化概率。相关人员(如房产经纪人等)可以基于该事件转化概率决定对用户100提供的服务,例如,基于该事件转化概率决定对用户100提供服务的优先级等。
示例性方法
图2为本公开的用于实现事件转化概率预测的离线信息设置方法一个实施例的流程图。图2所示的实施例的方法包括:S200、S201、S202、S203以及S204。下面对各步骤分别进行说明。
S200、获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率。
本公开中的第一样本集可以称为初始预测集。第一样本集中的第一事件转化概率预测样本可以称为初始事件转化概率预测样本。初始事件转化概率预测样本通常直接来源于业务数据。例如,以用户为单位,通过对业务数据(如T-90日至T-1日的日志等)进行特征提取,获得第一事件转化概率预测样本。即本公开可以利用业务数据获得第一事件转化概率预测样本所包含的各特征的具体取值。一个第一事件转化概率预测样本通常对应一个用户,且不同的第一事件转化概率预测样本可能对应同一个用户,也可能对应不同用户。第一事件转化概率预测样本可以称为用户的第一事件转化概率预测样本。本公开中的事件转化概率可以是指在事件发生后,达成预期目标或者目的的概率。例如,事件转化概率可以为在事件发生后,成功交易的概率或者成功委托的概率等。本公开中的业务数据可以是指由于用户本人和/或网络侧维护人员等,通过对计算机或者智能移动电话等设备的操作而生成的数据。本公开中的业务数据可以包括在服务器一侧形成的操作日志或者访问日志等信息。
一个第一事件转化概率预测样本可以包含有多个特征组,每一个特征组通常对应一个特征主体,且不同特征组通常对应不同的特征主体。另外,每一个特征组均可以包括多个特征,一个特征通常用于描述其所在特征组所对应的特征主体的一个特点。
本公开中的第一事件转化概率预测样本对应的事件发生概率可以是指:第一事件转化概率预测样本所属的用户在一起始时间(如第一事件转化概率预测样本所对应的用户行为发生时间)后的预定时间段内(如用户行为发生日期的转天等)产生事件的可能性。由于第一样本集中的一个第一事件转化概率预测样本通常属于一个用户,因此,一个第一事件转化概率预测样本对应的事件发生概率可以认为是:该第一事件转化概率预测样本所属的用户的事件发生概率。
本公开可以通过采用模型预测的方式,获得第一事件转化概率预测样本对应的事件发生概率。例如,将第一事件转化概率预测样本中的相应特征作为输入,提供给预先设置的相应模型,并根据该模型的输出,获得该第一事件转化概率预测样本对应的事件发生概率。
S201、对第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,获得多个第二事件转化概率预测样本,形成第二样本集。
本公开中的每一个第一事件转化概率预测样本均包含有多个特征,因此,多个第一事件转化概率预测样本所包含的所有特征可以形成一个h×w的特征空间。其中的h和w均为大于1的整数。该特征空间可以认为是一个特征矩阵。本公开中的对特征空间进行压缩处理可以包括:对特征空间的列进行压缩处理,和/或,对特征空间的行进行压缩处理。
本公开中的对特征空间的列进行压缩处理可以认为是:对多个第一事件转化概率预测样本进行特征维度上的压缩处理。即本公开中的对第一样本集中的多个第一事件转化概率预测样本进行特征维度上的压缩处理可以是指:为了降低第一事件转化概率预测样本所包括的特征数量,而对第一样本集中的多个第一事件转化概率预测样本所执行的压缩处理。
本公开中的对特征空间的行进行压缩处理可以认为:是对多个第一事件转化概率预测样本进行样本数量维度上的压缩处理。即本公开中的对第一样本集中的多个第一事件转化概率预测样本进行样本数量维度上的压缩处理可以是指:为了降低第一预测中的多个第一事件转化概率预测样本的数量,而对第一样本集中的多个第一事件转化概率预测样本所执行的压缩处理。
本公开可以先在特征维度上对第一样本集中的多个第一事件转化概率预测样本进行特征压缩处理,之后,再在样本数量维度上对特征压缩处理后的第一事件转化概率预测样本进行样本数量压缩处理,获得一定数量的第二事件转化概率预测样本,所有第二事件转化概率预测样本形成第二样本集。第二样本集中的第二事件转化概率预测样本的数量通常远小于第一样本集中的第一事件转化概率预测样本的数量。
另外,本公开也可以先在样本数量维度上对第一样本集中的第一事件转化概率预测样本进行样本数量压缩处理,之后,再在特征维度上对样本数据压缩处理后的各第一事件转化概率预测样本进行特征压缩处理,从而获得一定数量的第二事件转化概率预测样本。同样的,所有第二事件转化概率预测样本形成第二样本集,且第二样本集中的第二事件转化概率预测样本的数量通常远小于第一样本集中的第一事件转化概率预测样本的数量。
本公开可以采用预先设置的模型,实现特征维度上的压缩处理。例如,将第一事件转化概率预测样本所包含的特征作为输入,提供给预先设置的模型(如编码器等),并根据该模型的输出,获得该第一事件转化概率预测样本所包含的压缩后的多个特征。
本公开的第一样本集中的第一事件转化概率预测样本与第二样本集中的第二事件转化概率预测样本之间存在对应关系,例如,一个或者两个或者更多数量的第一事件转化概率预测样本对应一个第二事件转化概率预测样本。也就是说,一个第二事件转化概率预测样本所属的用户的数量可以为一个或者两个或更多。
需要特别说明的是,第二事件转化概率预测样本同样可以包含有多个特征组,每一个特征组所对应特征主体与第一事件转化概率预测样本中的相应特征组所对应的特征主体相同。另外,在特征维度压缩处理前,第一事件转化概率预测样本所包含的各特征元素通常是具有物理含义的,而在特征维度压缩处理后,第一事件转化概率预测样本所包含的各特征元素通常不再具有物理含义。即第二事件转化概率预测样本中的每一个特征组同样可以包括多个特征元素,只是每一个特征元素已经不再具有物理含义。
S202、根据上述事件发生概率,从第二样本集中筛选出事件发生概率满足预定要求的第二事件转化概率预测样本。
本公开是利用S200中确定出的事件发生概率,对S201获得的第二样本集中的第二事件转化概率预测样本进行筛选的。本公开中的第二样本集中的一个第二事件转化概率预测样本通常对应一个或者两个或者更多数量的第一事件转化概率预测样本。即一个第二事件转化概率预测样本属于一个或者两个或者更多数量的用户。如果一个第二事件转化概率预测样本所属的所有用户的事件发生概率中的其中一个事件发生概率满足预定要求,则可以认为该第二事件转化概率预测样本的事件发生概率满足预定要求,即该第二事件转化概率预测样本被筛选出来。
S203、根据筛选出的第二事件转化概率预测样本,生成多个事件转化概率预测样本,形成预测集。
本公开中的预测集中的事件转化概率预测样本的数量通常远远大于筛选出的第二事件转化概率预测样本的数量。例如,事件转化概率预测样本的数量通常是筛选出的第二事件转化概率预测样本的数量的数万倍或者数千万倍等。本公开的事件转化概率预测样本通常是以第二事件转化概率预测样本所包含的特征的特征值为基础数据,并通过对基础数据进行交换组合,形成新的样本,即事件转化概率预测样本。例如,本公开可以以特征组为单位,通过对筛选出的第二事件转化概率预测样本所包含的所有特征组进行交换组合等方式,形成事件转化概率预测样本。
S204、预测预测集中的各事件转化概率预测样本的事件转化概率,形成用于根据特征查找事件转化概率的离线信息。
本公开中的事件转化概率预测样本的事件转化概率可以是指:如果事件转化概率预测样本所属的用户产生了事件,则该事件被转化为目标行为的可能性。其中的目标行为可以根据实际应用领域的具体需求设置。例如,目标行为可以为标的成交行为或者成功委托行为或者用户的带看房屋行为等等。本公开对此不作限定。
本公开可以采用模型预测的方式,获得各事件转化概率预测样本的事件转化概率。例如,将各事件转化概率预测样本所包含的所有特征分别作为输入,提供给预先设置的相应模型,并根据该模型的输出,获得各事件转化概率预测样本的事件转化概率。
本公开中的离线信息通常包括多条记录,其中任一条记录通常均包括:一个事件转化概率预测样本和预测出的该样本的事件转化概率。
本公开通过对第一样本集中的多个第一事件转化概率预测样本所包含的特征形成的特征空间进行压缩处理,可以有效降低该特征空间的大小;例如,可以有效降低该特征空间在长和/或宽方向上的维度;通过利用第一样本集中的各第一事件转化概率预测样本各自对应的事件发生概率,对第二样本集中的第二事件转化概率预测样本进行筛选,有利于使筛选出的第二事件转化概率预测样本属于较有可能存在事件的样本;通过利用筛选出的第二事件转化概率预测样本形成预测集,有利于在保证预测集中的事件转化概率预测样本的样本质量的同时,极小化预测集;由于离线信息由预测集中的事件转化概率预测样本形成,因此,本公开有利于极小化离线信息;虽然极小化的离线信息不能较好的对整体待预测样本进行覆盖,但是极小化的离线信息能够较好的覆盖事件转化概率较高的待预测样本,即本公开设置的离线信息可能会对事件转化概率较低的待预测样本的覆盖率较低,但是对事件转化概率较高的待预测样本的覆盖率却较高;由于在实际应用,通常是对事件转化概率较高的待预测样本予以更多的关注,因此,本公开设置的离线信息虽然不能较好的对整体待预测样本进行覆盖,但是却具有较强的实用价值。由此可知,本公开提供的技术方案有利于快速便捷的生成用于预测事件转化概率的离线信息,进而有利于提高待预测样本进一步转化的概率。
在一个可选示例中,本公开中的第一事件转化概率预测样本所包括的所有特征可以对应多个特征主体,例如,用户、事件(如用户打开与房产经纪人的对话页面)以及事件标的(如房屋或者楼盘等)等特征主体。即本公开中的第一事件转化概率预测样本可以包括:用户特征、事件特征以及事件标的特征(如房屋特征或者楼盘特征等)等。另外,第一事件转化概率预测样本还可以包括:能够表征出唯一一个用户的用户标识、能够表征出唯一一个事件的事件标识以及能够表征出唯一一个事件标的的标识(如房屋标识)等信息。本公开可以利用第一事件转化概率预测样本所包含的用户特征获取第一事件转化概率预测样本对应的事件发生概率。
可选的,本公开可以先获取第一样本集中的每一个第一事件转化概率预测样本各自包含的用户特征,之后,对获取到的各用户特征分别进行事件发生概率的预测处理,从而可以获得第一事件转化概率预测样本各自对应的事件发生概率。
本公开中的用户特征可以是指:用于表征用户自身以及行为等方面的特点的信息。例如,用户特征可以包括:用户的静态特征以及用户的行为特征等,其中的用户的静态特征可以包括所有形式的用户来源等。其中的用户的行为特征可以包括:在距离x1时间最近的x时间段内,用户执行y行为的行为量等。用户的行为特征通常可以包括:用户可能涉及到的所有类型的行为的行为特征。本公开不限制用户特征所包括的具体内容。
由上述描述可知,所有第一事件转化概率预测样本所包含的所有用户特征通常呈现出稀疏结构。同样的,所有第一事件转化概率预测样本所包含的所有事件特征通常呈现出稀疏结构,所有第一事件转化概率预测样本所包含的所有事件标的特征通常也呈现出稀疏结构。
可选的,本公开可以将各用户特征分别作为模型输入,提供给预先成功训练的概率预测模型,经由该概率预测模型对各模型输入分别进行事件发生概率预测处理,从而本公开可以根据该概率预测模型输出的各预测处理结果,获得各第一事件转化概率预测样本各自对应的事件发生概率。该概率预测模型可以为基于树的模型,如Xgboost模型等。该概率预测模型可以针对每一个模型输入分别生成一个属于预定取值区间(如0-1)的概率值,该概率值即为相应第一事件转化概率预测样本对应的事件发生概率,也即相应用户的事件发生概率。该概率预测模型的训练过程可以参见下述针对图5的描述,在此不再详细说明。
本公开通过实践分析得知,用户特征通常与是否发生事件的关联性较强,因此,本公开利用第一事件转化概率预测样本所包含的用户特征,可以较为准确的获得第一事件转化概率预测样本对应的事件发生概率。
在一个可选示例中,本公开对特征空间进行压缩处理可以包括:对第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征、事件特征以及事件标的特征分别进行特征维度压缩处理,从而获得多个中间样本。
需要特别说明的是,本公开可以对每一个第一事件转化概率预测样本所包含的各特征组分别进行特征维度压缩处理,即本公开是以特征组为单位进行特征维度压缩的。例如,本公开可以利用第一压缩模型,对第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征分别进行特征维度压缩处理,本公开可以利用第二压缩模型,对第一样本集中的多个第一事件转化概率预测样本各自包含的事件特征分别进行特征维度压缩处理,利用第三压缩模型,对第一样本集中的多个第一事件转化概率预测样本各自包含的事件标的特征分别进行特征维度压缩处理。一个第一事件转化概率预测样本所对应的压缩处理后的用户特征、压缩处理后的事件特征和压缩处理后的事件标的特征,形成一中间样本。
可选的,本公开可以采用自编码器(Auto Encoder)实现特征维度压缩,且每一特征组对应一个自编码器,不同特征组对应不同的自编码器。例如,第一压缩模型为第一自编码器,第二压缩模型为第二自编码器,第三压缩模型为第三自编码器。利用三个自编码器实现特征维度压缩的一个具体例子如图3所示。
图3中,假设第一事件转化概率预测样本300包含N1维用户特征、N2维事件特征以及N3维事件标的特征,且其中的每一维特征均具有相应的物理含义。本公开可以将该N1维用户特征提供给第一自编码器301,将N2维事件特征提供给第二自编码器302,并将N3维事件标的特征提供给第三自编码器303。
第一自编码器301会针对其输入,生成并输出M1维用户特征,且M1通常远小于N1。第二自编码器302会针对其输入,生成并输出M2维事件特征,且M2通常远小于N2。第三自编码器303会针对其输入,生成并输出M3维事件标的特征,且M3通常远小于N3。另外,M1维用户特征、M2维事件特征以及M3维事件标的特征中的任一维特征,通常均没有实际的物理含义。
可选的,本公开中的自编码器的训练过程可以为:对自编码器输出的压缩后的特征进行还原,并利用还原后的特征与压缩前的特征的差异,对自编码器的参数进行调整。在自编码器输出的压缩后的特征与还原后的特征的差异满足预定要求时,自编码器成功训练完成。本公开需要对每一个自编码器分别进行单独训练。
本公开通过对第一事件转化概率预测样本包含的用户特征、事件特征以及事件标的特征分别进行特征维度压缩处理,可以使呈现稀疏结构的用户特征、事件特征以及事件标的特征均呈现为紧密结构,从而有利于较为显著的缩小第一样本集的大小。
在一个可选示例中,本公开对特征空间进行压缩处理还可以包括:对中间样本的数量进行压缩处理。具体的,针对中间样本所包含的所有特征中的每一个特征元素,本公开可以将多个中间样本分别划分为多个样本组,并为同一样本组中的各中间样本所包含的相应特征元素设置相同的特征值,从而通过合并所有特征元素的特征值完全相同的多个中间样本,实现对中间样本的数量的压缩。也就是说,本公开可以对各中间样本所包含的各特征元素的特征值进行修改,使不同的中间样本中的某一特征元素具有相同的特征值。在针对各中间样本中的所有特征元素的特征值均进行修改之后,一些中间样本会具有完全相同的特征值,从而本公开可以通过合并具有完全相同的特征值的多个中间样本,实现对中间样本的数量的压缩。
一个例子,对于中间样本所包含的第一个特征元素而言,本公开可以将所有中间样本划分为多个样本组,其中的一个样本组通常包括一个或者两个或者更多数量的中间样本,本公开可以为同一样本组中的各中间样本所包含的第一个特征元素设置相同的特征值。对于中间样本所包含的第二个特征元素而言,本公开可以将所有中间样本划分为多个样本组,其中的一个样本组通常包括一个或者两个或者更多数量的中间样本,本公开可以为同一样本组中的各中间样本所包含的第二个特征元素设置相同的特征值。……,以此类推,对于中间样本所包含的最后一个特征元素而言,本公开可以将所有中间样本划分为多个样本组,其中的一个样本组通常包括一个或者两个或者更多数量的中间样本,本公开可以为同一样本组中的各中间样本所包含的最后一个特征元素设置相同的特征值。在更新了所有中间样本所包含的所有特征元素的特征值之后,本公开可以检视所有的更新后的中间样本,通常会存在所有特征元素的特征取值完全相同的多个中间样本,本公开可以将这样的多个中间样本合并为一个样本,合并后的样本可以被作为第二事件转化概率预测样本,从而本公开最终获得的第二事件转化概率预测样本的数量通常较少。本公开获得的所有第二事件转化概率预测样本形成第二样本集。
可选的,本公开在将所有中间样本划分为多个组时,可以考虑每个样本组所包含的样本的数量大致相同,也可以考虑每个样本组中的相应特征元素的特征取值相近情况等因素。例如,本公开可以采用分箱技术将多个中间样本划分为多个组。具体的,本公开可以根据多个中间样本各自包含的各特征元素的特征值,对多个中间样本分别进行等频分箱处理,从而可以针对每一个特征元素分别获得多个样本组。
一个具体的例子,对于中间样本所包含的第一个特征元素而言,本公开可以根据所有中间样本的第一个特征元素的特征值,对所有中间样本进行等频分箱处理,从而将所有中间样本划分为多个样本组。对于中间样本所包含的第二个特征元素而言,本公开可以根据所有中间样本的第二个特征元素的特征值,对所有中间样本进行等频分箱处理,从而将所有中间样本划分为多个样本组。……,以此类推,对于中间样本所包含的最后一个特征元素而言,本公开可以根据所有中间样本的最后一个特征元素的特征值,对所有中间样本进行等频分箱处理,从而将所有中间样本划分为多个样本组。本公开通过利用等频分箱处理方式,有利于快捷的实现中间样本的组划分。
可选的,本公开为一个样本组的各中间样本中的相应特征元素所设置的新的特征值,通常为一特征取值范围。例如,本公开可以利用一样本组中的各中间样本所包含的相应特征元素的最小特征值和最大特征值形成一特征取值范围,并将该特征取值范围作为该样本组中的各中间样本的该相应特征元素的新的特征值。
一个例子,假设针对中间样本所包含的第i个特征元素,对所有中间样本进行分组,获得的一个样本组包括3个中间样本,即第一中间样本、第二中间样本和第三中间样本,假设第一中间样本的第i个特征元素的特征取值为a1,第二中间样本的第i个特征元素的特征取值为a2,且第三中间样本的第i个特征元素的特征取值为a3,假设a1大于a2,且a2大于a3,则本公开为该样本组中的第一中间样本、第二中间样本和第三中间样本所包含的第i个特征元素设置的新的特征值均为[a3,a1]。即第一中间样本、第二中间样本和第三中间样本所包含的第i个特征元素具有相同的取值范围。
可选的,本公开中的未修改特征值之前的中间样本所包含的用户特征中的3个用户特征元素(即Feature1、Feature2和Feature3)的一个例子,如下述表1所示;本公开中的修改特征值之后的中间样本所包含的用户特征中的3个用户特征元素的一个例子,如下述表2所示。
表1
用户ID | Feature1 | Feature2 | Feature3 |
0008 | 0.04 | 0.2 | 0.44 |
0009 | 0.07 | 0.3 | 0.34 |
表2
用户ID | Feature1 | Feature2 | Feature3 |
0008 | 0.01-0.05 | 0.1-0.5 | 0.1-0.5 |
0009 | 0.05-0.1 | 0.1-0.5 | 0.1-0.5 |
可选的,本公开为一个样本组的各中间样本中的相应特征元素所设置的新的特征值,也可以为一个具体的数值。例如,本公开可以利用一样本组中的各中间样本所包含的相应特征元素的最小特征值和最大特征值形成一特征取值范围,并将该特征取值范围中的一个数值作为该样本组中的各中间样本所包含的该相应特征元素的新的特征值。
一个例子,假设针对中间样本所包含的第i个特征元素,对所有中间样本进行分组,获得的一个样本组包括3个中间样本,即第一中间样本、第二中间样本和第三中间样本,假设第一中间样本的第i个特征元素的特征取值为a1,第二中间样本的第i个特征元素的特征取值为a2,且第三中间样本的第i个特征元素的特征取值为a3,假设a1大于a2,且a2大于a3,则本公开为该样本组中的第一中间样本、第二中间样本和第三中间样本所包含的第i个特征元素设置的新的特征值均为(a1+a2+a3)/3或者(a1+a3)/2或者a2等。即第一中间样本、第二中间样本和第三中间样本所包含的第i个特征元素具有相同的数值。
可选的,本公开中的任一第二事件转化概率预测样本通常均包括一个或者多个用户标识,例如,在一个第二事件转化概率预测样本是由多个中间样本合并而成的情况下,该第二事件转化概率预测样本通常包括:这多个中间样本各自对应的第一事件转化概率预测样本中的用户标识。例如,第二事件转化概率预测样本所包含的用户特征中的3个用户特征元素(即Feature1-User、Feature2-User和Feature3-User)的一个例子如下述表3所示:
表3
本公开通过对中间样本所包含的每一个特征元素分别进行样本组的划分,并使同一个样本组中的相应特征元素具有相同的特征值,可以使多个中间样本被合并,从而可以较显著的缩小第二样本集中的第二事件转化概率预测样本的数量。
在一个可选示例中,本公开需要从第二样本集中筛选出事件发生概率较高的第二事件转化概率预测样本。筛选出的所有第二事件转化概率预测样本用于形成预测集。
一个例子,本公开可以先按照事件发生概率从大到小的顺序,对第二样本集中的所有第二事件转化概率预测样本进行排序,然后,再根据预设用户数量,从排序后的第二事件转化概率预测样本中选取相应数量的第二事件转化概率预测样本。例如,假设第二样本集包括m个第二事件转化概率预测样本,即第二事件转化概率预测样本1、第二事件转化概率预测样本2、……、第二事件转化概率预测样本m-1和第二事件转化概率预测样本m,m个第二事件转化概率预测样本的事件发生概率分别为m1、m2、……、mm-1和mm,本公开可以按照m1、m2、……、mm-1和mm从大到小的顺序,对m个第二事件转化概率预测样本进行排序,如果预设用户数量为mi(i小于m),则本公开可以选取排在前面的前mi个第二事件转化概率预测样本。
另一个例子,本公开可以从第二样本集中筛选出事件发生概率不低于预定概率值的第二事件转化概率预测样本。例如,假设第二样本集包括m个第二事件转化概率预测样本,即第二事件转化概率预测样本1、第二事件转化概率预测样本2、……第二事件转化概率预测样本m-1和第二事件转化概率预测样本m,且这m个第二事件转化概率预测样本的事件发生概率分别为m1、m2、……、mm-1以及mm,如果预定概率值为mj,则本公开可以分别比较m个第二事件转化概率预测样本的事件发生概率是否低于mj,并选取出事件发生概率不低于mj的第二事件转化概率预测样本。
需要说明的是,本公开中的一个第二事件转化概率预测样本通常对应一个或者多个第一事件转化概率预测样本,而每一个第一事件转化概率预测样本分别具有一个事件发生概率,本公开可以根据一个第二事件转化概率预测样本所对应的所有第一事件转化概率预测样本的事件发生概率,确定该第二事件转化概率预测样本的事件发生概率。一例子,本公开可以将一个第二事件转化概率预测样本所对应的所有第一事件转化概率预测样本的事件发生概率的均值,作为该第二事件转化概率预测样本的事件发生概率。另一例子,本公开可以将一个第二事件转化概率预测样本所对应的所有第一事件转化概率预测样本的最大或最小事件发生概率,作为该第二事件转化概率预测样本的事件发生概率。本公开不限制根据一个第二事件转化概率预测样本所对应的所有第一事件转化概率预测样本的事件发生概率,确定该第二事件转化概率预测样本的事件发生概率的具体实现方式。
本公开通过筛选出事件发生概率较高的第二事件转化概率预测样本,有利于在保证预测集中的事件转化概率预测样本的样本质量的同时,极小化预测集。
在一个可选示例中,本公开利用筛选出的第二事件转化概率预测样本,形成预测集中的事件转化概率预测样本的实现方式可以为:根据筛选出的所有第二事件转化概率预测样本中的用户特征、事件特征以及事件标的特征,进行特征枚举计算,从而获得多个事件转化概率预测样本。本公开是以用户特征、事件特征和事件标的特征为单位进行特征枚举计算的,即本公开是以特征组为单位进行特征枚举计算的,而并不是以特征组中的特征元素为单位进行枚举计算的。本公开通对用户特征、事件特征以及事件标的特征进行特征枚举计算,有利于使预测集中的事件转化概率预测样本能够覆盖事件发生概率较高的各种可能情况。
一个例子,假设当前筛选出的第二事件转化概率预测样本为:第二事件转化概率预测样本1和第二事件转化概率预测样本2,这两个第二事件转化概率预测样本各自包含的用户特征分别为:用户特征a和用户特征b,且用户特征a和用户特征b分别包括多个用户特征元素。上述两个第二事件转化概率预测样本各自包含的事件特征分别为:事件特征a和事件特征b,且事件特征a和事件特征b分别包括多个事件特征元素。上述两个第二事件转化概率预测样本各自包含的事件标的特征分别为:事件标的特征a和事件标的特征b,且事件标的特征a和事件标的特征b分别包括多个事件标的特征元素。上述两个第二事件转化概率预测样本可以如下述表4所示:
表4
用户特征 | 事件特征 | 事件标的特征 | |
第二事件转化概率预测样本1 | 用户特征a | 事件特征a | 事件标的特征a |
第二事件转化概率预测样本2 | 用户特征b | 事件特征b | 事件标的特征b |
本公开利用如上述表4所示的两个第二事件转化概率预测样本,可以形成8个事件转化概率预测样本,这8个事件转化概率预测样本各自包含的用户特征、事件特征以及事件标的特征如下表5所示:
表5
用户特征 | 事件特征 | 事件标的特征 | |
事件转化概率预测样本1 | 用户特征a | 事件特征a | 事件标的特征a |
事件转化概率预测样本2 | 用户特征a | 事件特征a | 事件标的特征b |
事件转化概率预测样本3 | 用户特征a | 事件特征b | 事件标的特征a |
事件转化概率预测样本4 | 用户特征a | 事件特征b | 事件标的特征b |
事件转化概率预测样本5 | 用户特征b | 事件特征a | 事件标的特征a |
事件转化概率预测样本6 | 用户特征b | 事件特征a | 事件标的特征b |
事件转化概率预测样本7 | 用户特征b | 事件特征b | 事件标的特征a |
事件转化概率预测样本8 | 用户特征b | 事件特征b | 事件标的特征b |
可选的,本公开可以将上述表5所示的8个事件转化概率预测样本分别作为模型输入,提供给预先成功训练的事件转化概率预测模型,由该事件转化概率预测模型针对每一个模型输入,分别输出一个数值,本公开直接可以将模型输出的8个数值作为上述8个事件转化概率预测样本的事件转化概率。本公开也可以对模型输出的8个数值进行相应的处理,并将处理结果作为上述8个事件转化概率预测样本的事件转化概率。本公开中的事件转化概率预测模型可以为基于树的模型,如Xgboost模型等。本公开对事件转化概率预测模型进行训练的一个例子如下述针对图6的描述。
本公开的离线信息的一条记录所包括的部分内容的一例子,如下述表6所示:
表6
Feature1-User | Feature2-User | Feature3-User | Value-Score |
0.01-0.05 | 0.1-0.5 | 0.1-0.5 | 0.07 |
上述表6中,Feature1-User、Feature2-User和Feature3-User为事件转化概率预测样本的用户特征中的3个用户特征元素(压缩后的用户特征元素),Value-Score为该条记录中的事件转化概率预测样本的事件转化概率。
本公开在成功形成离线信息之后,利用该离线信息实现事件转化概率预测的一个例子如图4所示。
图4中,S400、获取待预测样本。
可选的,用户在执行了相应操作而触发并形成一个事件时,本公开可以根据当前存储的业务数据获得该事件对应的用户特征、事件特征和事件标的特征。例如,在形成一个事件时,可以获得该事件的事件标识、该事件对应的用户标识以及事件标的标识,从而本公开可以利用用户标识从业务数据中获得用户特征,利用事件标识从业务数据中获得事件特征,并利用事件标的标识从业务数据中获得事件标的特征。本公开中的事件标识、用户标识、事件标的标识、用户特征、事件特征以及事件标的特征可以形成一条待预测样本。
S401、对待预测样本所包含的各特征元素进行特征维度压缩处理,获得第一待预测样本。
可选的,本公开可以采用三个自编码器对待预测样本进行特征维度压缩。具体的,本公开可以将该待预测样本包含的用户特征提供给第一个自编码器,将该待预测样本包含的事件特征提供给第二个自编码器,并将待预测样本包含的事件标的特征提供给第三个自编码器,从而本公开可以根据第一个自编码器的输出获得压缩后的用户特征,根据第二个自编码器的输出获得压缩后的事件特征,根据第三个自编码器的输出获得压缩后的事件标的特征。本公开中的第一待预测样本可以包括:事件标识、用户标识、事件标的标识、压缩后的用户特征、压缩后的事件特征以及压缩后的事件标的特征。
S402、根据第一待预测样本所包含的各特征元素各自所属的特征取值范围,更新第一待预测样本中的各特征元素的特征值,形成第二待预测样本。
可选的,本公开中的第一待预测样本所包含的各特征元素各自所属的特征取值范围为:上述实施例中的基于样本组而形成的特征取值范围。本公开可以直接将第一待预测样本所包含的各特征元素各自所属的特征取值范围,分别作为第一待预测样本中的各特征元素的所包含的各特征的特征值。当然,在离线信息中的各记录所包含的特征元素的特征值被设置为具体数值的情况下,本公开也可以将第一待预测样本所包含的各特征元素各自所属的特征取值范围的中间值等具体数值,分别作为第一待预测样本所包含的各特征元素的特征值。
一个例子,假设第一待预测样本所包含的第i个特征元素的特征值为x,且该特征值x对应的特征取值范围为[x1,x2],则本公开可以将该第一待预测样本的第i个特征元素的特征值更新设置为[x1,x2]。当然,在离线信息中的各记录所包含的特征元素的特征值被设置为具体数值的情况下,本公开也可以将该第i个特征元素的特征值更新设置为(x1+x2)/2等具体数值。本公开在为第一待预测样本所包含的所有特征元素均更新设置了特征值后,获得一第二待预测样本。
S403、根据第二待预测样本所包含的各特征元素的更新后的特征值,在离线信息中查找匹配的记录,并将匹配的记录中的事件转化概率作为该待预测样本的事件转化概率。
可选的,本公开中的离线信息包括多条记录,每一条记录均包括一个事件转化概率预测样本和该样本对应的事件转化概率。
在离线信息中的所有记录所包含的所有特征元素的特征值均为特征取值范围,而第二待预测样本所包含的所有特征元素的特征值也均为特征取值范围的情况下,如果第二待预测样本所包含的所有特征元素的特征取值范围分别与离线信息的一条记录中的相应特征元素的特征取值范围完全相同,则确定该条记录为与该第二待预测样本匹配的记录,该条记录中的事件转化概率被作为预测出的待预测样本的事件转化概率。
在离线信息中的所有记录所包含的所有特征元素的特征值均为特征取值范围,第二待预测样本所包含的所有特征元素的特征值均为具体数值的情况下,如果第二待预测样本所包含的所有特征元素的特征值分别属于离线信息的一条记录中的相应特征元素的特征取值范围,则确定该记录为与该第二待预测样本匹配的记录,该记录中的事件转化概率被作为预测出的待预测样本的事件转化概率。
在离线信息中的所有记录所包含的所有特征元素的特征值均为具体数值,而第二待预测样本所包含的所有特征元素的特征值也均为具体数值的情况下,如果第二待预测样本所包含的所有特征元素的特征值分别与离线信息的一条记录中的所有特征元素的特征值完全相同,则确定该条记录为与该第二待预测样本匹配的记录,该记录中的事件转化概率被作为预测出的待预测样本的事件转化概率。
由于本公开极大的减少了离线信息的大小,且虽然对于具有很差事件转化概率的待预测样本的覆盖率有所欠缺,但是离线信息对具有较好事件转化概率的待预测样本的覆盖率较高,因此,本公开可以快速预测出具有较好事件转化概率的待预测样本的事件转化概率,具有较强的实用价值。
在一个可选示例中,本公开可以预先准备用于训练概率预测模型、第一压缩模型、第二压缩模型、第三压缩模型以及事件转化概率预测模型的训练样本。本公开可以根据历史业务数据获得多个训练样本。本公开可以将一部分训练样本作为训练集中的训练样本,并将另一部分训练样本作为测试集中的测试样本。训练集用于调整模型参数,测试集用于检测模型训练的效果。
可选的,本公开可以从相应的历史业务数据(如T-91日至T-2日的事件日志等)中获取多个事件特征,并利用各事件特征的事件标识从关联的历史业务数据(如用户特征表以及事件标的特征表,其中的事件标的特征表如房屋/楼盘特征表等)中获取用户特征和事件标的特征,另外,本公开还应获取用户标识和事件标的标识。且一条训练样本除了包括用户标识、事件标识、事件标的标识、用户特征、事件特征以及事件标的特征之外,还应包括两个标签,即用于表征事件是否被转化为目标行为的第一标签以及用于表征用户在预定时间间隔内(如T-1日)是否有事件的第二标签。其中的第一标签可以称为事件转化概率标签,其中的第二标签可以称为事件标签。本公开可以根据历史业务数据为每一条训练样本分别设置第一标签和第二标签。本公开的训练样本中的用户特征、事件特征以及事件标的特征所包含的特征元素通常与第一事件转化概率预测样本中的用户特征、事件特征以及事件标的特征所包含的特征元素相同。
可选的,第一标签可以使训练样本呈现为正样本和负样本,而第二标签也可以使训练样本呈现为正样本和负样本。在对概率预测模型进行训练时,所采用的基于第一标签的正负样本的数量通常大致相同。在对事件转化概率预测模型进行训练时,所采用的基于第二标签的正负样本的数量通常大致相同。
在一个可选示例中,本公开利用预先准备好的训练集中的训练样本,对概率预测模型进行训练的一个过程如图5所示。
图5中,S500、将训练集中的多个训练样本中的用户特征分别作为模型输入,提供给待训练概率预测模型。
可选的,本公开可以将训练集中的每一个训练样本中的用户特征所包含的所有用户特征元素,分别提供给概率预测模型。例如,本公开可以根据预设批处理数量从训练集中分别随机选取相同数量的正样本和负样本,并将每一个正样本和负样本中的用户特征所包含的所有用户特征元素分别作为概率预测模型的模型输入,提供给概率预测模型。
可选的,本公开可以根据预先设置的模型输入的格式,使训练样本中的用户特征形成模型输入。例如,本公开可以对训练样本中的相应用户特征元素进行归一化或者类型转换或者映射等处理,以使用户特征元素满足待训练概率预测模型的输入要求。在通常情况下,一条训练样本所包含的所有用户特征元素被作为概率预测模型的一条模型输入。
S501、经由待训练概率预测模型根据模型输入,对每一个训练样本进行事件发生概率预测处理,获得每一个训练样本中的用户特征的事件发生概率。
可选的,待训练概率预测模型会针对其每一个模型输入,分别形成一个概率值,该概率值可以表征出模型输入对应的用户在预定时间间隔内(如次日)产生事件的可能性。
S502、根据各训练样本中的第二标签以及待训练概率预测模型输出的相应概率值,调整概率预测模型的模型参数。
可选的,本公开可以根据预先设置的损失函数对待训练概率预测模型输出的各概率值和相应训练样本中的第二标签进行损失计算,并将损失计算的结果在该待训练概率预测模型中进行传播,以调整该待训练概率预测模型的模型参数。待训练概率预测模型的模型参数可以包括二叉树的结构参数等。
可选的,在针对该待训练概率预测模型的训练达到预定迭代条件时,本次针对该待训练概率预测模型的训练过程结束。
可选的,本公开中的预定迭代条件可以包括:根据待训练概率预测模型针对测试集中的测试样本输出获得的预测结果的准确性达到预定要求。在待训练概率预测模型针对测试集中的测试样本的输出获得的预测结果的准确性达到预定要求的情况下,本次对该待训练概率预测模型成功训练完成。本公开中的预定迭代条件还可以包括:对一待训练概率预测模型进行训练,所使用的训练集中的训练样本的数量已经达到预定数量要求等。在使用的训练样本的数量达到预定数量要求,然而,在该概率预测模型针对测试集中的测试样本的输出获得的预测结果的准确性并未达到预定要求的情况下,本次对该待训练概率预测模型并未训练成功。成功训练完成的概率预测模型可以用于预测上述实施例中的第一事件转化概率预测样本对应的事件发生概率。
在一个可选示例中,本公开利用预先准备好的训练集中的训练样本,对待训练事件转化概率预测模型进行训练的一个过程如图6所示。
图6中,S600、对训练集中的多个训练样本所包含的各特征进行特征维度压缩处理,获得多个第一训练样本。
可选的,本公开可以采用三个自编码器对训练样本进行特征维度压缩。具体的,本公开可以将训练样本中的用户特征提供给第一个自编码器,将训练样本中的事件特征提供给第二个自编码器,并将训练样本中的事件标的特征提供给第三个自编码器,从而本公开可以根据第一个自编码器的输出获得压缩后的用户特征,根据第二个自编码器的输出获得压缩后的事件特征,根据第三个自编码器的输出获得压缩后的事件标的特征。本公开中的一第一训练样本可以包括:事件标识、用户标识、事件标的标识、压缩后的用户特征、压缩后的事件特征以及压缩后的事件标的特征。
S601、根据多个第一训练样本各自包含的各特征元素的特征值,对多个第一训练样本分别进行等频分箱处理,针对每一个特征元素分别获得多个样本组。
S602、根据每一个样本组中的所有第一训练样本中的相应特征元素的特征值,为每一样本组中的所有第一训练样本中的相应特征元素分别设置相同的特征取值范围,形成多个第二训练样本。
S603、检视所有第二训练样本,将所有特征元素的特征取值完全相同的所有第二训练样本合并为一个样本。
S604、将合并后的多个样本所包含的所有特征元素分别作为模型输入,提供给待训练事件转化概率预测模型。
S605、经由待训练事件转化概率预测模型根据模型输入,对每一个样本进行事件转化概率预测处理,获得每一个样本的事件转化概率。
S606、根据每一个样本的事件转化概率,确定相应的训练样本的事件转化概率。
可选的,如果一样本对应多个训练样本,则可以将该样本的事件转化概率作为其对应的多个训练样本的事件转化概率。
S607、根据各训练样本的第一标签以及上述获得的训练样本的事件转化概率,调整待训练事件转化概率预测模型的模型参数。
可选的,本公开可以根据预先设置的损失函数对训练样本的事件转化概率和相应训练样本中的第一标签进行损失计算,并将损失计算的结果在该待训练事件转化概率预测模型中进行传播,以调整该待训练事件转化概率预测模型的模型参数。待训练事件转化概率预测模型的模型参数可以包括二叉树的结构参数等。
可选的,在针对待训练事件转化概率预测模型的训练达到预定迭代条件时,本次针对待训练事件转化概率预测模型的训练过程结束。待训练事件转化概率预测模型的预定迭代条件与待训练概率预测模型的预定迭代条件基本相同,在此不再详细说明。
示例性装置
图7为本公开的用于实现事件转化概率预测的离线信息设置装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。
如图7所示,本实施例的装置包括:获取概率模块700、压缩模块701、筛选模块702、生成样本模块703以及生成离线信息模块704。可选的,该实施例的装置还可以包括:离线预测模块705。另外,本公开还可以包括:训练模块(图7中未示出)。训练模块用于训练本公开所需的模型。训练模块执行的操作可以参见上述实施例中有关图5和图6的描述。
获取概率模块700用于获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率。该获取概率模块700可以包括:第一子模块7001和第二子模块7002。其中的第一子模块7001用于获取第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征。其中的第二子模块7002用于对各用户特征分别进行事件发生概率预测处理,获得多个第一事件转化概率预测样本各自对应的事件发生概率。
压缩模块701用于对第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,获得多个第二事件转化概率预测样本,形成第二样本集。该压缩模块701可以包括:第三子模块7011、第四子模块7012、第五子模块7013、第六子模块7014以及第七子模块7015。其中的第三子模块7011用于利用第一压缩模型,对第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征进行特征维度压缩处理。其中的第四子模块7012用于利用第二压缩模型,对第一样本集中的多个第一事件转化概率预测样本各自包含的事件特征进行特征维度压缩处理。其中的第五子模块7013用于利用第三压缩模型,对第一样本集中的多个第一事件转化概率预测样本各自包含的事件标的特征进行特征维度压缩处理。特征维度压缩处理后的用户特征、事件特征和事件标的特征形成多个中间样本。其中的第六子模块7014用于针对中间样本所包含的所有特征中的各特征元素,将多个中间样本分别划分为多个样本组,并为同一样本组中的各中间样本所包含的相应特征元素设置相同的特征值。具体的,针对中间样本所包含的任一特征中的任一特征元素,第六子模块7014可以根据多个中间样本各自包含的该特征元素的特征值,对多个中间样本进行等频分箱处理,从而获得多个样本组。第六子模块7014可以根据同一样本组中的各中间样本所包含的相应特征元素的最小特征值和最大特征值,确定同一样本组中的相应特征元素的特征取值范围,并根据该特征取值范围更新该样本组中的各中间样本所包含的相应特征元素的特征值。其中的第七子模块7015用于合并所有特征元素的特征值完全相同的多个中间样本。
筛选模块702用于根据获取概率模块700获取事件发生概率,从压缩模块701获得的第二样本集中筛选事件发生概率满足预定要求的第二事件转化概率预测样本。
筛选模块702可以包括:第八子模块7021或者第九子模块7022。其中的第八子模块7021用于按照事件发生概率从大到小的顺序,对第二样本集中的第二事件转化概率预测样本进行排序,并根据预设用户数量,从排序后的第二事件转化概率预测样本中选取相应数量的第二事件转化概率预测样本。其中的第九子模块7022用于从第二样本集中筛选出事件发生概率不低于预定概率值的第二事件转化概率预测样本。
生成样本模块703用于根据筛选模块702筛选出的第二事件转化概率预测样本生成多个事件转化概率预测样本,形成预测集。例如,生成样本模块703可以根据筛选模块702筛选出的各第二事件转化概率预测样本中的用户特征、事件特征以及事件标的特征,进行特征枚举计算,获得多个事件转化概率预测样本。
生成离线信息模块704用于预测生成样本模块形成的预测集中的各事件转化概率预测样本的事件转化概率,形成用于预测事件转化概率的离线信息。
离线预测模块705用于获取待预测样本,对待预测样本所包含的各特征元素进行特征维度压缩处理,获得第一待预测样本,离线预测模块705根据第一待预测样本所包含的各特征元素各自所属的特征取值范围,更新第一待预测样本中的各特征元素的特征值,形成第二待预测样本;离线预测模块705根据第二待预测样本所包含的各特征元素的更新后的特征值,在离线信息中查找匹配的记录,并将匹配的记录中的事件转化概率作为预测出的待预测样本的事件转化概率。
上述各模块及其包括的子模块具体执行的操作可以参见上述方法实施例中针对图2-图6的描述,在此不再详细说明。
示例性电子设备
下面参考图8来描述根据本公开实施例的电子设备。图8示出了根据本公开实施例的电子设备的框图。如图8所示,电子设备81包括一个或多个处理器811和存储器812。
处理器811可以是中央处理单元(CPU)或者具有用于实现事件转化概率预测的离线信息设置能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备81中的其他组件以执行期望的功能。
存储器812可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器811可以运行所述程序指令,以实现上文所述的本公开的各个实施例的用于实现事件转化概率预测的离线信息设置方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备81还可以包括:输入装置813以及输出装置814等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备813还可以包括例如键盘、鼠标等等。该输出装置814可以向外部输出各种信息。该输出设备814可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备81中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备81还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于实现事件转化概率预测的离线信息设置方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于实现事件转化概率预测的离线信息设置方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (18)
1.一种用于实现事件转化概率预测的离线信息设置方法,包括:
获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率;
对所述第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,获得多个第二事件转化概率预测样本,形成第二样本集;其中,所述第一事件转化概率预测样本包含的各特征包括:用户特征、事件特征以及事件标的特征;
根据所述事件发生概率,从所述第二样本集中筛选出事件发生概率满足预定要求的第二事件转化概率预测样本;
根据所述筛选出的第二事件转化概率预测样本中的用户特征、事件特征以及事件标的特征,进行特征枚举计算,获得多个事件转化概率预测样本,形成预测集;
预测所述预测集中的各事件转化概率预测样本的事件转化概率,形成用于预测事件转化概率的离线信息;其中,所述事件转化概率为在事件发生后,标的成功交易的概率或者成功委托的概率或者带看房屋行为的概率。
2.根据权利要求1所述的方法,其中,所述获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率,包括:
获取第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征;
对各用户特征分别进行事件发生概率预测处理,获得所述多个第一事件转化概率预测样本各自对应的事件发生概率。
3.根据权利要求1所述的方法,其中,所述对所述第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,包括:
利用第一压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征进行特征维度压缩处理;
利用第二压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的事件特征进行特征维度压缩处理;
利用第三压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的事件标的特征进行特征维度压缩处理;
其中,特征维度压缩处理后的用户特征、事件特征和事件标的特征形成多个中间样本。
4.根据权利要求3所述的方法,其中,所述对所述第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,包括:
针对所述中间样本所包含的所有特征中的各特征元素,将所述多个中间样本分别划分为多个样本组,并为同一样本组中的各中间样本所包含的相应特征元素设置相同的特征值;
合并所有特征元素的特征值完全相同的多个中间样本。
5.根据权利要求4所述的方法,其中,所述针对所述中间样本所包含的所有特征中的各特征元素,将所述多个中间样本分别划分为多个样本组,包括:
针对所述中间样本所包含的任一特征中的任一特征元素,根据所述多个中间样本各自包含的该特征元素的特征值,对所述多个中间样本进行等频分箱处理,获得多个样本组。
6.根据权利要求4所述的方法,其中,所述为同一样本组中的各中间样本所包含的相应特征元素设置相同的特征值,包括:
根据同一样本组中的各中间样本所包含的相应特征元素的最小特征值和最大特征值,确定同一样本组中的相应特征元素的特征取值范围,并根据该特征取值范围更新该样本组中的各中间样本所包含的相应特征元素的特征值。
7.根据权利要求6所述的方法,其中,所述方法还包括:
获取待预测样本;
对所述待预测样本所包含的各特征元素进行特征维度压缩处理,获得第一待预测样本;
根据所述第一待预测样本所包含的各特征元素各自所属的特征取值范围,更新第一待预测样本中的各特征元素的特征值,形成第二待预测样本;
根据所述第二待预测样本所包含的各特征元素的更新后的特征值,在所述离线信息中查找匹配的记录,并将所述匹配的记录中的事件转化概率作为预测出的所述待预测样本的事件转化概率。
8.根据权利要求1至7中任一项所述的方法,其中,所述根据所述事件发生概率,从所述第二样本集中筛选出事件发生概率满足预定要求的第二事件转化概率预测样本,包括:
按照所述事件发生概率从大到小的顺序,对所述第二样本集中的第二事件转化概率预测样本进行排序,并根据预设用户数量,从所述排序后的第二事件转化概率预测样本中选取相应数量的第二事件转化概率预测样本;或者
从所述第二样本集中筛选出事件发生概率不低于预定概率值的第二事件转化概率预测样本。
9.一种用于实现事件转化概率预测的离线信息设置装置,其中,所述装置包括:
获取概率模块,用于获取第一样本集中的多个第一事件转化概率预测样本各自对应的事件发生概率;
压缩模块,用于对所述第一样本集中的多个第一事件转化概率预测样本包含的各特征形成的特征空间进行压缩处理,获得多个第二事件转化概率预测样本,形成第二样本集;其中,所述第一事件转化概率预测样本包含的各特征包括:用户特征、事件特征以及事件标的特征;
筛选模块,用于根据所述获取概率模块获取事件发生概率,从所述压缩模块获得的第二样本集中筛选出事件发生概率满足预定要求的第二事件转化概率预测样本;
生成样本模块,用于根据所述筛选模块筛选出的第二事件转化概率预测样本中的用户特征、事件特征以及事件标的特征,进行特征枚举计算,获得多个事件转化概率预测样本,形成预测集;
生成离线信息模块,用于预测所述生成样本模块形成的预测集中的各事件转化概率预测样本的事件转化概率,形成用于预测事件转化概率的离线信息;其中,所述事件转化概率为在事件发生后,标的成功交易的概率或者成功委托的概率或者带看房屋行为的概率。
10.根据权利要求9所述的装置,其中,所述获取概率模块包括:
第一子模块,用于获取第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征;
第二子模块,用于对各用户特征分别进行事件发生概率预测处理,获得所述多个第一事件转化概率预测样本各自对应的事件发生概率。
11.根据权利要求9所述的装置,其中,所述压缩模块包括:
第三子模块,用于利用第一压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的用户特征进行特征维度压缩处理;
第四子模块,用于利用第二压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的事件特征进行特征维度压缩处理;
第五子模块,用于利用第三压缩模型,对所述第一样本集中的多个第一事件转化概率预测样本各自包含的事件标的特征进行特征维度压缩处理;
其中,特征维度压缩处理后的用户特征、事件特征和事件标的特征形成多个中间样本。
12.根据权利要求11所述的装置,其中,所述压缩模块包括:
第六子模块,用于针对所述中间样本所包含的所有特征中的各特征元素,将所述多个中间样本分别划分为多个样本组,并为同一样本组中的各中间样本所包含的相应特征元素设置相同的特征值;
第七子模块,用于合并所有特征元素的特征值完全相同的多个中间样本。
13.根据权利要求12所述的装置,其中,所述第六子模块进一步用于:
针对所述中间样本所包含的任一特征中的任一特征元素,根据所述多个中间样本各自包含的该特征元素的特征值,对所述多个中间样本进行等频分箱处理,获得多个样本组。
14.根据权利要求12所述的装置,其中,所述第六子模块进一步用于:
根据同一样本组中的各中间样本所包含的相应特征元素的最小特征值和最大特征值,确定同一样本组中的相应特征元素的特征取值范围,并根据该特征取值范围更新该样本组中的各中间样本所包含的相应特征元素的特征值。
15.根据权利要求14所述的装置,其中,所述装置还包括离线预测模块,用于:
获取待预测样本;
对所述待预测样本所包含的各特征元素进行特征维度压缩处理,获得第一待预测样本;
根据所述第一待预测样本所包含的各特征元素各自所属的特征取值范围,更新第一待预测样本中的各特征元素的特征值,形成第二待预测样本;
根据所述第二待预测样本所包含的各特征元素的更新后的特征值,在所述离线信息中查找匹配的记录,并将所述匹配的记录中的事件转化概率作为预测出的所述待预测样本的事件转化概率。
16.根据权利要求9至15中任一项所述的装置,其中,所述筛选模块包括:
第八子模块,用于按照所述事件发生概率从大到小的顺序,对所述第二样本集中的第二事件转化概率预测样本进行排序,并根据预设用户数量,从所述排序后的第二事件转化概率预测样本中选取相应数量的第二事件转化概率预测样本;或者
第九子模块,用于从所述第二样本集中筛选出事件发生概率不低于预定概率值的第二事件转化概率预测样本。
17.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8中任一项所述的方法。
18.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020103634108 | 2020-04-30 | ||
CN202010363410 | 2020-04-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626783A CN111626783A (zh) | 2020-09-04 |
CN111626783B true CN111626783B (zh) | 2021-08-31 |
Family
ID=72272854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010469556.0A Active CN111626783B (zh) | 2020-04-30 | 2020-05-28 | 用于实现事件转化概率预测的离线信息设置方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626783B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI786510B (zh) * | 2021-01-08 | 2022-12-11 | 聚英企業管理顧問股份有限公司 | 對客戶的熟識度分析裝置 |
CN114048928B (zh) * | 2022-01-12 | 2022-04-19 | 汉谷云智(武汉)科技有限公司 | 一种具备高度可迁移能力的建筑短期负荷预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682754A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 事件发生概率预测方法及装置 |
CN107622333A (zh) * | 2017-11-02 | 2018-01-23 | 北京百分点信息科技有限公司 | 一种事件预测方法、装置及系统 |
JP2019046173A (ja) * | 2017-09-01 | 2019-03-22 | ヤフー株式会社 | 情報解析装置、情報解析方法、およびプログラム |
CN109948851A (zh) * | 2019-03-20 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于预测事件发生概率的方法和装置 |
CN110414714A (zh) * | 2019-06-28 | 2019-11-05 | 上海上湖信息技术有限公司 | 逾期事件的回款概率预测方法及装置、可读存储介质 |
CN110782061A (zh) * | 2018-08-01 | 2020-02-11 | 北京嘀嘀无限科技发展有限公司 | 一种恶性事件的预测方法及系统 |
AU2020100708A4 (en) * | 2020-05-05 | 2020-06-18 | Li, Wenjun Miss | A prediction method of defaulters of bank loans based on big data mining |
-
2020
- 2020-05-28 CN CN202010469556.0A patent/CN111626783B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682754A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 事件发生概率预测方法及装置 |
JP2019046173A (ja) * | 2017-09-01 | 2019-03-22 | ヤフー株式会社 | 情報解析装置、情報解析方法、およびプログラム |
CN107622333A (zh) * | 2017-11-02 | 2018-01-23 | 北京百分点信息科技有限公司 | 一种事件预测方法、装置及系统 |
CN110782061A (zh) * | 2018-08-01 | 2020-02-11 | 北京嘀嘀无限科技发展有限公司 | 一种恶性事件的预测方法及系统 |
CN109948851A (zh) * | 2019-03-20 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于预测事件发生概率的方法和装置 |
CN110414714A (zh) * | 2019-06-28 | 2019-11-05 | 上海上湖信息技术有限公司 | 逾期事件的回款概率预测方法及装置、可读存储介质 |
AU2020100708A4 (en) * | 2020-05-05 | 2020-06-18 | Li, Wenjun Miss | A prediction method of defaulters of bank loans based on big data mining |
Also Published As
Publication number | Publication date |
---|---|
CN111626783A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804567B (zh) | 提高智能客服应答率的方法、设备、存储介质及装置 | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
US11243992B2 (en) | System and method for information recommendation | |
Thorleuchter et al. | Analyzing existing customers’ websites to improve the customer acquisition process as well as the profitability prediction in B-to-B marketing | |
CN109690581B (zh) | 用户指导系统及方法 | |
US11748452B2 (en) | Method for data processing by performing different non-linear combination processing | |
CN111626783B (zh) | 用于实现事件转化概率预测的离线信息设置方法和装置 | |
CN112861026B (zh) | 用户偏好挖掘方法、装置、介质和电子设备 | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
CN111652468A (zh) | 业务流程的生成方法、装置、存储介质及计算机设备 | |
CN115130711A (zh) | 一种数据处理方法、装置、计算机及可读存储介质 | |
CN111768242A (zh) | 下单率预测方法、设备及可读存储介质 | |
CN114676423B (zh) | 一种应对云计算办公威胁的数据处理方法及服务器 | |
CN112967100B (zh) | 相似人群扩展方法、装置、计算设备以及介质 | |
CN112116393B (zh) | 用于实现事件用户维护的方法、装置和设备 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN108009150B (zh) | 一种基于循环神经网络的输入方法及装置 | |
CN114282121A (zh) | 业务节点推荐方法、系统、设备及存储介质 | |
CN114510405A (zh) | 指标数据评估方法、装置、设备、存储介质及程序产品 | |
KR20140073624A (ko) | 기업의 해외 진출 역량 평가 방법 | |
CN112527851A (zh) | 用户特征数据筛选方法、装置及电子设备 | |
US20190392498A1 (en) | Recommendation engine and system | |
CN112906723A (zh) | 一种特征选择的方法和装置 | |
CN113139105B (zh) | 一种数据处理方法、装置、设备以及可读存储介质 | |
CN116484230B (zh) | 识别异常业务数据的方法及ai数字人的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201102 Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd. Address before: 300 457 days Unit 5, Room 1, 112, Room 1, Office Building C, Nangang Industrial Zone, Binhai New Area Economic and Technological Development Zone, Tianjin Applicant before: BEIKE TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |