CN111626898B - 用于实现事件归因的方法、装置、介质和电子设备 - Google Patents

用于实现事件归因的方法、装置、介质和电子设备 Download PDF

Info

Publication number
CN111626898B
CN111626898B CN202010468154.9A CN202010468154A CN111626898B CN 111626898 B CN111626898 B CN 111626898B CN 202010468154 A CN202010468154 A CN 202010468154A CN 111626898 B CN111626898 B CN 111626898B
Authority
CN
China
Prior art keywords
feature
characteristic
elements
user
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010468154.9A
Other languages
English (en)
Other versions
CN111626898A (zh
Inventor
李嘉晨
郭凯
刘雷
刘洋
付东东
胡磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Seashell Housing Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seashell Housing Beijing Technology Co Ltd filed Critical Seashell Housing Beijing Technology Co Ltd
Publication of CN111626898A publication Critical patent/CN111626898A/zh
Application granted granted Critical
Publication of CN111626898B publication Critical patent/CN111626898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种用于实现事件归因的方法、装置、介质以及电子设备。其中的方法包括:获取多个用户的第一特征信息;其中一个用户的第一特征信息包括多个特征元素;根据所述多个用户的第一特征信息,分别预测所述多个用户分别获得事件的第一概率;针对由所述多个特征元素中的至少一个特征元素形成的一归因特征组,交换多个用户的归因特征组,获得所述多个用户的第二特征信息;根据所述多个用户的第二特征信息,预测所述多个用户分别获得事件的第二概率;根据所述第一概率和第二概率,确定所述归因特征组中的特征元素对用户获得事件的贡献。本公开提供的技术方案有利于提高事件归因的准确性,从而有利于保证并促进目标的达成。

Description

用于实现事件归因的方法、装置、介质和电子设备
本公开要求在2020年3月20日提交中国专利局、申请号为202010200857.3、发明名称为“用于实现商机归因的方法、装置介质和电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开涉及计算机技术,尤其是涉及一种用于实现事件归因的方法、用于实现事件归因的装置、存储介质以及电子设备。
背景技术
在房地产等领域,事件归因的作用在于提高用户获得事件的概率。即事件归因包括:确定多个归因因素分别对用户获得事件的影响,从而可以根据各归因因素各自对应的影响,决定需要调整的归因因素以及归因因素的具体调整方式。
由于准确的确定出归因因素对用户获得事件的影响,有利于提高用户获得事件的概率,因此,如何准确的实现事件归因,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种用于实现事件归因的方法、用于实现事件归因的装置、存储介质以及电子设备。
根据本公开实施例的一个方面,提供一种用于实现事件归因的方法,该方法包括:获取多个用户的第一特征信息;其中一个用户的第一特征信息包括多个特征元素;根据所述多个用户的第一特征信息,预测所述多个用户分别获得事件的第一概率;针对由所述多个特征元素中的至少一个特征元素形成的一归因特征组,交换所述多个用户的归因特征组,获得所述多个用户的第二特征信息;根据所述多个用户的第二特征信息,预测所述多个用户分别获得事件的第二概率;根据所述第一概率和第二概率,确定所述归因特征组中的特征元素对用户获得事件的贡献。
在本公开一实施方式中,所述根据所述多个用户的第一特征信息,预测所述多个用户分别获得事件的第一概率,包括:将所述多个用户的第一特征信息分别提供给预测模型,经由所述预测模型对所述多个用户的第一特征信息分别进行概率预测处理;根据所述预测模型的输出,获得所述多个用户分别获得事件的第一概率;其中,所述预测模型包括:由决策树和逻辑回归形成的预测模型。
在本公开又一实施方式中,所述方法还包括:根据所述多个特征元素之间的相似度,确定属于同一归因特征组的特征元素。
在本公开再一实施方式中,所述根据所述多个特征元素之间的相似度,确定属于同一归因特征组的特征元素,包括:计算所述多个特征元素中的两两特征元素之间的相似度;将相似度满足预定相似度要求的两个特征元素作为一个归因特征组;合并包含有相同特征元素的不同归因特征组。
在本公开再一实施方式中,所述计算所述多个特征元素中的两两特征元素之间的相似度,包括:在两个特征元素为一连续型特征元素和一离散型特征元素的情况下,将所述连续型特征元素转换为离散型特征元素;确定两个离散型特征元素的信息增益率;其中,所述信息增益率被作为所述连续型特征元素和离散型特征元素之间的相似度。
在本公开再一实施方式中,所述计算所述多个特征元素中的两两特征元素之间的相似度,包括:在两个特征元素为两个离散型特征元素的情况下,确定所述两个离散型特征元素的信息增益率;其中,所述信息增益率被作为所述两个离散型特征元素之间的相似度。
在本公开再一实施方式中,所述计算所述多个特征元素中的两两特征元素之间的相似度,包括:针对所述多个特征元素中的所有连续型特征元素,确定所述所有连续型特征元素的皮尔逊相关系数矩阵;其中,所述皮尔逊相关系数矩阵中的矩阵元素被作为相应两个连续型特征元素之间的相似度。
在本公开再一实施方式中,所述根据所述多个用户的第二特征信息,预测所述多个用户分别获得事件的第二概率,包括:将所述多个用户的第二特征信息分别提供给预设预测模型,经由所述预测模型对所述多个用户的第二特征信息分别进行概率预测处理;根据所述预测模型的输出,获得所述多个用户分别获得事件的第二概率;其中,所述预测模型包括:由决策树和逻辑回归形成的预测模型。
在本公开再一实施方式中,所述根据所述第一概率和第二概率,确定所述归因特征组中的特征元素对用户获得事件的贡献,包括:对于所述归因特征组中的任一特征元素,确定各用户的该特征元素的变化量,根据各用户获得事件的第一概率和第二概率,确定各用户获得事件的概率变化量,并根据各用户的该特征元素的变化量和各用户获得事件的概率变化量,确定各用户的该特征元素的单位变化量对用户获得事件的贡献;将所述各用户的该特征元素的单位变化量对用户获得事件的贡献的均值,作为该特征元素对用户获得事件的贡献。
在本公开再一实施方式中,所述方法还包括:对用户的历史业务数据分别进行统计处理,获得用于训练所述预测模型的多个样本数据;将所述样本数据分别提供给待训练预测模型;根据待训练预测模型输出的预测结果和所述样本数据的标注信息,调整所述待训练预测模型的参数。
根据本公开实施例的另一个方面,提供了一种用于实现事件归因的装置,该装置包括:获取模块,用于获取多个用户的第一特征信息;其中一个用户的第一特征信息包括多个特征元素;预测模块,用于根据所述多个用户的第一特征信息,预测所述多个用户分别获得事件的第一概率;交换模块,用于针对由所述多个特征元素中的至少一个特征元素形成的一归因特征组,交换所述多个用户的归因特征组,获得所述多个用户的第二特征信息;所述预测模块还用于根据所述多个用户的第二特征信息,预测所述多个用户分别获得事件的第二概率;确定贡献模块,用于根据所述第一概率和第二概率,确定所述归因特征组中的特征元素对用户获得事件的贡献。
在本公开一实施方式中,所述预测模块进一步用于:将所述多个用户的第一特征信息分别提供给预测模型,经由所述预测模型对所述多个用户的第一特征信息分别进行概率预测处理;根据所述预测模型的输出,获得所述多个用户分别获得事件的第一概率;其中,所述预测模型包括:由决策树和逻辑回归形成的预测模型。
在本公开又一实施方式中,所述装置还包括:确定相似度模块,用于根据所述多个特征元素之间的相似度,确定属于同一归因特征组的特征元素。
在本公开再一实施方式中,所述确定相似度模块包括:第一子模块,用于计算所述多个特征元素中的两两特征元素之间的相似度;第二子模块,用于将相似度满足预定相似度要求的两个特征元素作为一个归因特征组;第三子模块,用于合并包含有相同特征元素的不同归因特征组。
在本公开再一实施方式中,所述第一子模块包括:第一单元,用于在两个特征元素为一连续型特征元素和一离散型特征元素的情况下,将所述连续型特征元素转换为离散型特征元素,并确定两个离散型特征元素的信息增益率;其中,所述信息增益率被作为所述连续型特征元素和离散型特征元素之间的相似度。
在本公开再一实施方式中,所述第一子模块包括:第二单元,用于在两个特征元素为两个离散型特征元素的情况下,确定所述两个离散型特征元素的信息增益率;其中,所述信息增益率被作为所述两个离散型特征元素之间的相似度。
在本公开再一实施方式中,所述第一子模块包括:第三单元,用于针对所述多个特征元素中的所有连续型特征元素,确定所述所有连续型特征元素的皮尔逊相关系数矩阵;其中,所述皮尔逊相关系数矩阵中的矩阵元素被作为相应两个连续型特征元素之间的相似度。
在本公开再一实施方式中,所述预测模块进一步用于:将所述多个用户的第二特征信息分别提供给预设预测模型,经由所述预测模型对所述多个用户的第二特征信息分别进行概率预测处理;根据所述预测模型的输出,获得所述多个用户分别获得事件的第二概率;其中,所述预测模型包括:由决策树和逻辑回归形成的预测模型。
在本公开再一实施方式中,所述确定贡献模块包括:第四子模块,用于对于所述归因特征组中的任一特征元素,确定各用户的该特征元素的变化量,根据各用户获得事件的第一概率和第二概率,确定各用户获得事件的概率变化量,并根据各用户的该特征元素的变化量和各用户获得事件的概率变化量,确定各用户的该特征元素的单位变化量对用户获得事件的贡献;第五子模块,用于将所述各用户的该特征元素的单位变化量对用户获得事件的贡献的均值,作为该特征元素对用户获得事件的贡献。
在本公开再一实施方式中,所述装置还包括:训练模块用于:对用户的历史业务数据分别进行统计处理,获得用于训练所述预测模型的多个样本数据;将所述样本数据分别提供给待训练预测模型;根据待训练预测模型输出的预测结果和所述样本数据的标注信息,调整所述待训练预测模型的参数。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述用于实现事件归因的方法。
根据本公开实施例的又一方面,提供一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述用于实现事件归因的方法。
基于本公开上述实施例提供的一种用于实现事件归因的方法和装置,通过利用归因特征组,可以使多个特征元素作为一个归因特征组,例如,可以使具有关联关系的多个特征元素形成一个归因特征组,这样,本公开通过在多个用户的第一特征信息之间进行归因特征组的交换,不仅可以便捷的获得第二特征信息,而且不会使用户的第二特征信息存在与实际情况不相符的问题;例如,可以有效避免具有关联关系的多个特征元素中的一个特征元素的取值发生变化,而使具有关联关系的多个特征元素的取值存在矛盾的现象,即本公开可以有效避免出现异常特征信息的现象;从而本公开不仅可以便捷的获得第二概率,而且还有利于提高第二概率的准确性。由此可知,本公开提供的技术方案有利于提高事件归因的准确性,从而有利于保证并促进目标的达成。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的适用场景的一个实施例的示意图;
图2为本公开的用于实现事件归因的方法一个实施例的流程图;
图3为本公开的确定属于同一归因特征组的特征元素一实施例的流程图;
图4为本公开的确定归因特征组中的特征元素对用户获得事件的贡献一实施例的流程图;
图5为本公开的训练预测模型一实施例的流程图;
图6为本公开的用于实现事件归因的装置一个实施例的结构示意图;
图7为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,目前,在确定归因因素对用户获得事件的影响时,往往需要先获得大量用户的特征信息,并在大量用户的特征信息中查找只在特征信息中的一个特征元素上存在数值差别,而其他特征元素的数值均相同的所有用户的特征信息,查找获得的所有用户的特征信息形成一个特征信息组,之后,将存在数值差别的特征元素作为归因因素,根据该特征信息组中的归因因素以及该特征信息组中的各特征信息各自对应的目标值,计算出该归因因素对用户获得事件的影响。然而,上述利用大量用户的特征信息形成一特征信息组的过程,往往会使实现事件归因的过程受到一定的限制,从而不利于提高事件归因的准确性。
示例性概述
本公开提供的用于实现事件归因技术的应用场景的一个例子,如图1所示。
图1中,假设存在n个用户,即第一个用户、第二个用户、……以及第n个用户。各用户的特征信息均包括m个特征元素,即特征元素1、特征元素2、……以及特征元素m。其中的m可以为大于4的整数。其中的n通常为远远大于m的整数,例如,n可以为百数量级、千数量级或者万数量级的整数。
假设m为大于6的整数。假设特征元素1和特征元素2之间具有较强的相关性。假设特征元素3、特征元素4和特征元素5之间具有较强的相关性。假设特征元素6至特征元素m中的任一特征元素与其他特征元素均不具有相关性。
在上述假设的情况下,本公开可以获得m-3个特征组。其中,第一个特征组包括:特征元素1以及特征元素2;第二个特征组包括:特征元素3、特征元素4以及特征元素5;第三个特征组包括:特征元素6;……;以此类推,第m-3个特征组包括:特征元素m。
首先,本公开可以根据各用户的所有特征元素的当前取值,获得各用户获得事件的概率。
其次,在将特征元素1作为归因因素的情况下,本公开可以在保持第二个特征组至第m-3个特征组中的所有特征元素的取值不发生变化的情况下,交换所有用户的第一个特征组的取值,例如,在n为偶数的情况下,可以将每两个用户作为一个用户组,从而将n个用户划分为n/2个用户组,每一个用户组中的两个用户的第一特征组的取值进行交换,如图1中,假定第一个用户的第一特征组中的特征元素1和特征元素2的取值为(a1和b1),第二个用户的第一特征组中的特征元素1和特征元素2的取值为(a2和b2),交换之后,第一个用户的第一特征组中的特征元素1和特征元素2的取值为(a2和b2),第二个用户的第一特征组中的特征元素1和特征元素2的取值为(a1和b1)。
再次,本公开可以根据各用户的所有特征组的当前取值,再次获得各用户获得事件的概率。
之后,本公开可以根据两次获得的所有概率以及所有用户的特征元素1的取值在交换前后发生的变化,确定出特征元素1对用户获得事件的贡献。另外,本公开还可以根据两次获得的所有概率以及所有用户的特征元素2的取值在交换前后发生的变化,确定出特征元素2对用户获得事件的贡献。
同理,在将特征元素3作为归因因素的情况下,本公开可以利用上述多个步骤获得特征元素3对用户获得事件的贡献。另外,本公开还可以利用上述多个步骤获得特征元素4对用户获得事件的贡献和特征元素5对用户获得事件的贡献。
以此类推,本公开可以获得每一个特征元素分别对用户获得事件的贡献。
本公开通过对上述获得的所有贡献进行综合考虑,可以确定出需要针对某个特征元素设定的要求进行调整,以提高所有用户获得事件的整体概率。例如,有利于提高所有房产经纪人出租/出售房屋的整体概率。
示例性方法
图2为本公开的用于实现事件归因的方法一个实施例的流程图。图2所示的实施例的方法包括步骤:S200、S201、S202以及S203。下面对各步骤分别进行说明。
S200、获取多个用户的第一特征信息。
本公开中的用户可以是指事件归因的管理对象。例如,在房地产领域中,用户可以为房产经纪人。再例如,在商品零售领域中,用户可以为推销员等。需要说明的是,本公开中的用户可以不限于实体人,也可以为虚拟人等。本公开不限制用户的具体表现形式。另外,本公开中的多个用户的数量通常较大,例如,用户的数量可以为百数量级、千数量级或者万数量级等。
本公开中的第一特征信息通常包括多个特征元素,一个特征元素可以是指用于表征用户的一个行为特征或者自身特征的信息。例如,特征元素可以为用户的入职时间或者用户的页面浏览量等。用户的第一特征信息也可以称为用户的属性信息等。
本公开中的第一特征信息所包含的特征元素可以根据实际应用领域的具体需求设置。本公开可以通过在数据集合(如数据库或者日志等)中进行查找以及统计等方式,获得多个用户的第一特征信息中的各特征元素的取值。一个用户的第一特征信息中的各特征元素的取值可以称为该用户的各特征元素的初始取值。
S201、根据多个用户的第一特征信息,预测多个用户分别获得事件的第一概率。
本公开中的事件可以是指达到预期目标或者目的。例如,事件可以为成功交易或者成功委托等。本公开中的用户获得事件的第一概率用于表征用户在具有第一特征信息的前提条件下,实现预期目标或者目的的可能性。例如,用户获得事件的第一概率用于表征用户在具有第一特征信息的前提条件下,在未来N天内实现预期目标或者目的的可能性。本公开可以利用预先设置的模型对各用户的第一特征信息进行处理,从而获得各用户分别获得事件的第一概率。
S202、针对由多个特征元素中的至少一个特征元素形成的一归因特征组,交换多个用户的归因特征组,获得多个用户的第二特征信息。
本公开中的归因特征组可以是指由一个与其他任一特征元素均不存在关联关系的特征元素形成的一个组,也可以是指由具有关联关系的两个或者更多特征元素形成的一个组。也就是说,归因特征组所包括的特征元素的数量可以为一个或者两个或者两个以上。本公开中的归因特征组也可以简称为特征组。
本公开中的存在关联关系的特征元素可以是指相互关联的特征元素。在一个归因特征组包括两个或者更多特征元素的情况下,该归因特征组中的所有特征元素相互关联。即该归因特征组中的所有特征元素之间的关联关系应满足预定关联关系要求。
本公开中的交换多个用户的归因特征组可以是指:针对任一用户的一归因特征组而言,将该用户的该归因特征组中的各特征元素的取值设置为其他用户的该归因特征组中的各特征元素的取值。即本公开是以归因特征组为单位进行特征元素的取值交换的。本公开可以利用shuffle(打乱)操作,实现多个用户的归因特征组的交换。
针对任一用户而言,在交换特征元素的取值之前,该用户的第一特征信息包括所有特征元素的初始取值;在交换特征元素的取值之后,该用户的第二特征信息包括该用户的交换后的归因特征组中的各特征元素的取值以及该用户的其他特征元素的初始取值。
需要特别说明的是,在本公开的任一用户的第二特征信息所包括的所有特征元素的取值中,通常只有一个归因特征组中的特征元素的取值被交换,而其他归因特征组中的特征元素的取值均未被交换。另外,在理想状态下,在交换多个用户的归因特征组之后,任一用户的第一特征信息所包含的所有特征元素的取值与该用户的第二特征信息所包含的所有特征元素的取值存在区别。
S203、根据多个用户的第二特征信息,预测多个用户分别获得事件的第二概率。
本公开中的用户获得事件的第二概率用于表征用户在具有第二特征信息的前提条件下,实现预期目标或者目的的可能性。本公开可以利用预先设置的模型对各用户的第二特征信息进行处理,从而获得各用户分别获得事件的第二概率。
S204、根据第一概率和第二概率,确定归因特征组中的特征元素对用户获得事件的贡献。
本公开中的归因特征组中的特征元素对用户获得事件的贡献可以是指:归因特征组中的特征元素对用户获得事件的影响。本公开获得的所有第一概率以及所有第二概率可以形成多个概率对,一个概率对包括一个第一概率和一个第二概率,且一个概率对对应一个用户,即一个用户的第一概率和第二概率形成一个概率对。本公开可以针对每一个概率对中的第一概率和第二概率的差异、以及每一个用户的归因特征组中的各特征元素的交换前后的取值差异,进行计算,获得归因特征组中的各特征元素对用户获得事件的贡献。
本公开通过利用归因特征组,可以使多个特征元素作为一个归因特征组,例如,可以使具有关联关系的多个特征元素形成一个归因特征组,这样,在多个用户的第一特征信息之间进行归因特征组的交换,不仅可以便捷的获得第二特征信息,而且不会使用户的第二特征信息存在与实际情况不相符的问题;例如,可以有效避免具有关联关系的多个特征元素中的一个特征元素的取值发生变化,而使具有关联关系的多个特征元素的取值存在矛盾的现象,即本公开可以有效避免出现异常特征信息的现象;从而本公开不仅可以便捷的获得第二概率,而且还有利于提高第二概率的准确性。由此可知,本公开提供的技术方案有利于提高事件归因的准确性,从而有利于保证并促进目标的达成。
在一个可选示例中,本公开可以基于用户的历史业务数据获得多个用户的第一特征信息。例如,本公开可以根据预先设置的特征元素,对各用户的历史业务数据分别进行提取以及统计处理等操作,从而获得多个用户的第一特征信息。本公开中的历史业务数据可以是指由于用户或者维护人员等的历史操作而形成的业务数据。历史业务数据可以包括在服务器一侧形成的操作日志等。本公开通过利用用户的历史业务数据,针对预先设置特征元素,可以便捷的获得各用户的第一特征信息。
可选的,在房产领域,特征信息中的多个特征元素可以包括:房产经纪人在一段时间范围内(如最近30天等)的带看房次数(可以简称为带看量)以及房产经纪人在一段时间范围内(如最近30天等)的委托量等。特征信息所包含的特征元素可以根据实际应用领域的具体需求设置。本公开对此不作限定。
可选的,本公开可以利用hive(一种基于Hadoop的数据仓库工具),对历史业务数据进行提取以及统计处理等操作。由于特征元素通常与事件以及事件发生的时间相关,因此,本公开可以利用hive,基于用户ID+事件ID来获得各用户的第一特征信息。
一个例子,假定本公开中的第一特征信息包括:基于新房的最近N1天的详情页的PV(Page View,页面浏览)量、基于新房的最近N2天的详情页的PV量、基于新房的最近N1至N2天的详情页的PV量、基于新房的最近N1天的活动页的PV量、基于新房的最近N2天的活动页的PV量、基于新房的最近N1至N2天的活动页的PV量、基于新房的最近N1天的功能页的PV量、基于新房的最近N2天的功能页的PV量、基于新房的最近N1至2天的功能页的PV量、基于新房的最近N1天使用预定功能(如房贷计算器)的次数、基于新房的最近N2天使用网站中的预定功能(如房贷计算器)的次数以及基于新房的最近N1至N2天使用预定功能(如房贷计算器)的次数。其中的N1大于N2。例如,最近N1天为最近90天,最近N2天为最近60。本公开可以先根据用户标识以及事件标识获得每一个用户发生详情页浏览、活动页浏览、功能页浏览、使用网站中的预定功能的具体时间、各具体时间分别对应的PV量以及各具体时间分别对应的使用次数,然后,再根据用户标识、事件标识、当前时间、N1、N2以及N1-N2对上述获得的PV量以及次数分别进行统计,从而可以获得每一个用户的第一特征信息包含的相应特征元素的具体取值。
在一个可选示例中,本公开利用预设的预测模型获得多个用户分别获得事件的第一概率的实现方式可以为:将每一个用户的第一特征信息先后提供给预先成功训练后的预测模型,经由预测模型对每一个用户的第一特征信息分别进行概率预测处理,并根据预测模型针对输入的每一个用户的第一特征信息的输出,获得每一个用户分别获得事件的第一概率。例如,本公开根据该预测模型的输出可以获得每一个房产经纪人在未来N天(如7天等)的获得事件的概率。本公开中的第一特征信息可以认为是事件归因的自变量,而用户获得事件的第一概率可以认为是事件归因的因变量,成功训练后的预测模型可以认为是预先为事件归因的自变量和因变量建立的映射关系,从而本公开可以利用该映射关系,确定出第一特征信息对应的用户获得事件的第一概率。
可选的,本公开中的预测模型可以为:由决策树(如Xgboost)和LR(LogisticRegression,逻辑回归)形成的预测模型。也就是说,本公开的预测模型可以认为是Xgboost+LR。该预测模型的训练过程可以参见下述针对图5的描述。
本公开通过使预测模型采用Xgboost+LR的结构形式,有利于在提高预测模型的拟合能力的同时,防止过拟合现象的发生,从而有利于提高用户获得事件的第一概率的预测准确性。
在一个可选示例中,本公开中的属于同一个归因特征组中的各特征元素通常是具有关联关系的特征元素。即属于同一个归因特征组中的各特征元素是相互关联的特征元素。本公开可以利用不同特征元素之间的相似度,确定出具有关联关系的特征元素。也就是说,本公开可以根据多个特征元素之间的相似度,确定属于同一归因特征组的特征元素。例如,本公开可以预先设置相似度阈值,并为相似度达到相似度阈值的特征元素建立一个归因特征组。本公开中的不同特征元素之间的相似度也可以称为不同特征元素之间的相关度。
由于不同特征元素之间的相似度,可以在一定程度上反映出不同特征元素之间的关联关系,因此,本公开通过计算特征元素的相似度,可以便捷的确定出不同元素之间是否具有关联关系。
在一个可选示例中,根据多个特征元素之间的相似度,确定属于同一归因特征组的特征元素的过程可以如图3所示。
图3中,S300、计算多个特征元素中的两两特征元素之间的相似度。
可选的,针对任一特征元素而言,本公开可以计算该特征元素分别与其他所有特征元素之间的相似度,从而可以获得所有特征元素中的任意两个特征元素之间的相似度。本公开可以采用多种方式计算两两特征元素之间的相似度。下面以三个具体的例子进行说明:
第一个例子,假定两个特征元素中的其中一个为一连续型特征元素,而另一个为离散型特征元素。连续型特征元素可以认为是连续型变量,如年龄、工龄或者入职时间等。离散型特征元素可以认为是离散型变量,如性别或者住址等。本公开可以先将连续型特征元素转换为离散型特征元素,然后,计算两个离散型特征元素的信息增益率,并将计算出的信息增益率作为连续型特征元素和离散型特征元素之间的相似度。
可选的,本公开可以先将所有的连续型特征元素分别转换为离散型的特征元素,从而使所有的特征元素均为离散型的特征元素,之后,针对任意两个特征元素,分别计算信息增益率,从而获得两两特征元素之间的相似度。
可选的,假定一个特征元素为用户所在城市,另一个特征元素为用户最近一周访问网站的频率,由于用户所在城市为离散型特征元素,用户最近一周访问网站的频率为连续型特征元素,因此,本公开可以先将用户最近一周访问网站的频率转换为离散型特征元素,然后,计算这两个离散型特征元素的信息增益率,并将获得的信息增益率作为用户所在城市和用户最近一周访问网站的频率之间的相似度,例如,本公开计算出的这两个特征元素之间的相似度可以为0.79。
本公开通过对连续型特征元素进行转换,并利用信息增益率来表示两个离散型特征元素之间的相似度,为获得不同类型的特征元素之间的相似度提供了一种便捷的实现方式。
第二个例子,假定两个特征元素均为离散型特征元素。本公开可以直接计算这两个离散型特征元素的信息增益率,并将计算出的信息增益率作为这两个离散型特征元素之间的相似度。
本公开通过利用信息增益率来表示两个离散型特征元素之间的相似度,为获得两个离散型特征元素之间的相似度提供了一种便捷的实现方式。
第三个例子,从多个特征元素中挑选出所有连续型特征元素,在所有连续型特征元素的数量n不小于2的情况下,本公开可以确定出所有连续型特征元素的皮尔逊相关系数(Pearson correlation coefficient)矩阵。该皮尔逊相关系数矩阵通常为一个n×n的矩阵。该皮尔逊相关系数矩阵中的每一个矩阵元素分别表示相应的两个连续型特征元素之间的相似度。每一个矩阵元素的取值均不大于1,且矩阵元素的取值可以为负数。
可选的,假定一个特征元素为房产经纪人的最近30天的带看房次数,另一个特征元素为房产经纪人的最近30天的委托量,这两个特征元素均为连续型特征元素,本公开可以通过计算这两个特征元素之间的皮尔逊相关系数矩阵,获得这两个特征元素之间的相似度,例如,本公开计算出的这两个特征元素之间的相似度可以为0.83。
本公开通过利用皮尔逊相关系数矩阵来表示所有连续型特征元素中的两两特征元素之间的相似度,为获得两个连续型特征元素之间的相似度提供了一种便捷的实现方式。
可选的,本公开可以采用下述公式(1)来计算两个离散型特征元素的信息增益率:
Figure BDA0002513378110000141
在上述公式(1)中,GainRatio(S,A)表示离散型特征元素S和离散型特征元素A的信息增益率;Gain(S,A)表示离散型特征元素S和离散型特征元素A的增益度量;SplitInformation(S,A)表示离散型特征元素S和离散型特征元素A的分裂信息度量。
S301、将相似度满足预定相似度要求的两个特征元素作为一个归因特征组。
可选的,本公开可以设定相似度阈值,如果两个特征元素的相似度的绝对值达到相似度阈值,则认为这两个特征元素的相似度满足预定相似度要求,即这两个特征元素可以属于同一个归因特征组。
续前例,假定相似度阈值为0.7,由于本公开获得的用户所在城市和用户最近一周访问网站的频率之间的相似度为0.79,且本公开获得的房产经纪人的最近30天的带看房次数与房产经纪人的最近30天的委托量之间相似度为0.83,均超过了相似度阈值0.7,因此,可以认为用户所在城市和用户最近一周访问网站的频率这两个特征元素属于同一个归因特征组,而房产经纪人的最近30天的带看房次数与房产经纪人的最近30天的委托量属于同一个归因特征组。
S302、合并包含有相同特征元素的不同归因特征组。
可选的,如果特征元素a和特征元素b属于第一个归因特征组,特征元素a和特征元素c属于第二个归因特征组,特征元素b和特征元素d属于第三个归因特征组,则由于第一个归因特征组和第二个归因特征组均包含有特征元素a,而第一个归因特征组和第三个归因特征组均包含有特征元素b,因此,这三个归因特征组可以合并为一个归因特征组,且本次合并后的归因特征组包括:特征元素a、特征元素b、特征元素c以及特征元素d。
本公开通过利用两两特征元素之间的相似度组建归因特征组,并对包含有相同特征元素的不同归因特征组进行合并,可以快捷准确的将所有特征元素中的相互关联的各特征元素聚合在一个归因特征组中。
在一个可选示例中,本公开利用预设的预测模型获得多个用户分别获得事件的第二概率的实现方式可以为:将每一个用户的第二特征信息先后提供给预先成功训练后的预测模型,经由预测模型对每一个用户的第二特征信息分别进行概率预测处理,并根据预测模型针对输入的每一个用户的第二特征信息的输出,获得每一个用户分别获得事件的第二概率。例如,本公开根据该预测模型的输出可以获得每一个房产经纪人在未来N天(如7天等)的获得事件的概率。本公开中的第二特征信息可以认为是事件归因的自变量,而用户获得事件的第二概率可以认为是事件归因的因变量,成功训练后的预测模型可以认为是预先为事件归因的自变量和因变量建立的映射关系,从而本公开可以利用该映射关系,确定出第二特征信息对应的用户获得事件的第二概率。
可选的,本公开中的用于预测用户获得事件的第二概率的预测模型与用于预测用户获得事件的第一概率的预测模型通常为同一个预测模型,例如,由决策树(如Xgboost)和LR(Logistic Regression,逻辑回归)形成的预测模型。
本公开通过使预测模型采用Xgboost+LR的结构形式,有利于在提高预测模型的拟合能力的同时,防止过拟合现象的发生,从而有利于提高用户获得事件的第二概率的预测准确性。
在一个可选示例中,本公开中的确定归因特征组中的特征元素对用户获得事件的贡献的过程可以如图4所示。
图4,S400、对于归因特征组中的任一特征元素,确定各用户的该特征元素的变化量。
可选的,本公开可以通过计算各用户的该特征元素的初始取值分别与该特征元素的交换后的取值的差值,获得各用户的该特征元素的变化量,该变化量可以称为自变量的变化量。
一个例子,假设有n个用户,假设一归因特征组包括两个特征元素,分别为第一特征元素和第二特征元素,且假设本公开针对该归因特征组进行了特征元素取值的交换。对于第一个用户,本公开可以计算该用户的第一特征元素的初始取值与第一特征元素的交换后的取值的差值,从而获得第一个用户的第一特征元素的变化量,本公开还可以计算该用户的第二特征元素的初始取值与第二特征元素的交换后的取值的差值,从而获得第一个用户的第二特征元素的变化量。以此类推,本公开可以获得每一个用户的第一特征元素的变化量以及第二特征元素的变化量,即本公开获得了n个第一特征元素的变化量以及n个第二特征元素的变化量。
S401、根据各用户获得事件的第一概率和第二概率,确定各用户获得事件的概率变化量。
可选的,本公开可以通过计算各用户获得事件的第一概率和第二概率的差值,获得各用户获得事件的概率变化量,该变化量可以称为因变量的变化量。
一个例子,假设有n个用户,假设本公开针对一归因特征组进行了特征元素取值的交换,对于第一个用户,本公开可以计算交换前获得的该用户的第一概率和交换后获得的第二概率之间的差值,从而获得第一个用户获得事件的概率变化量。以此类推,本公开可以获得每一个用户获得事件的概率变化量,即本公开可以获得n个概率变化量。
S402、根据各用户的该特征元素的变化量和各用户获得事件的概率变化量,确定各用户的该特征元素的单位变化量对用户获得事件的贡献。
可选的,本公开可以通过计算各用户获得事件的概率变化量和各个用户的该特征元素的变化量的商,获得各用户的该特征元素的单位变化量对用户获得事件的贡献。
一个例子,假设有n个用户,假设一归因特征组包括两个特征元素,分别为第一特征元素和第二特征元素,且假设本公开针对该归因特征组进行了特征元素取值的交换。对于第一个用户,本公开可以计算该第一个用户获得事件的概率变化量与第一特征元素的变化量的商,从而获得第一个用户的第一特征元素的单位变化量对第一个用户获得事件的贡献;另外,本公开可以计算该第一个用户获得事件的概率变化量与第二特征元素的变化量的商,从而获得第一个用户的第二特征元素的单位变化量对第一个用户获得事件的贡献。以此类推,本公开可以获得每一个用户的第一特征元素的单位变化量对相应用户获得事件的贡献(即n个贡献)、以及每一个用户的第二特征元素的单位变化量对相应用户获得事件的贡献(即n个贡献)。
可选的,本公开可以使用下述公式(2)获得一用户的该特征元素的单位变化量对用户获得事件的贡献:
Figure BDA0002513378110000171
在上述公式(2)中,
Figure BDA0002513378110000172
表示第Ai个用户的第一特征元素x1的单位变化量对用户获得事件的贡献;Δy表示第Ai个用户获得事件的概率变化量;ΔX表示第Ai个用户的第一特征元素x1的变化量。
S403、计算各用户的该特征元素的单位变化量对用户获得事件的贡献的均值,并将该均值作为该特征元素对用户获得事件的贡献。
续前例,本公开可以先获得n个用户的第一特征元素的单位变化量对相应用户获得事件的贡献之和,并将该和与n的商作为第一特征元素用对用户获得事件的贡献。同样的,本公开可以先获得n个用户的第二特征元素的单位变化量对相应用户获得事件的贡献之和,并将该和与n的商作为第二特征元素用对用户获得事件的贡献。
可选的,本公开可以使用下述公式(3)获得一特征元素对用户获得事件的贡献:
Figure BDA0002513378110000181
在上述公式(3)中,Wx1表示第一特征元素x1对用户获得事件的贡献;
Figure BDA0002513378110000182
表示第Ai个用户的第一特征元素x1的单位变化量对用户获得事件的贡献;n表示用户的数量。
由上述公式(3)可知,本公开中的特征元素对用户获得事件的贡献可以具体为特征元素的单位变化量对用户获得事件的贡献,即特征元素的单位变化量对用户获得事件的影响。
利用上述如图4所示的过程,本公开可以获得每一个特征元素分别对用户获得事件的贡献。本公开通过将各用户的同一特征元素的单位变化量对用户获得事件的贡献的均值,作为该特征元素对用户获得事件的贡献,有利于降低部分特征元素的单位变化量对用户获得事件的贡献异常,对最终获得结果的影响,从而有利于提高最终获得的特征元素对用户获得事件的贡献的准确性。
在一个可选示例中,本公开对预测模型进行训练的一个过程如图5所示。
图5中,S500、对用户的历史业务数据分别进行统计处理,获得用于训练预测模型的多个样本数据。
可选的,本公开中的样本数据所包含的特征元素与上述实施例中的特征元素相同,且本公开中的样本数据带有标注信息。样本数据带有的标注信息可以为以发生某一事件的时间为开始时间,在该开始时间之后的未来N天内,是否实现预期目标或者目的。例如,如果在该开始时间之后的未来N天内,实现了预期的目标或者目的,则标注信息可以为1,否则,标注信息可以为0。其中的发生某一事件可以为用户执行了某一操作等。
可选的,本公开可以根据预先设置的特征元素,对各用户的历史业务数据分别进行提取以及统计处理等操作,从而获得多个用户的样本数据。本公开中的历史业务数据可以是指由于用户或者维护人员等的历史操作而形成的业务数据。历史业务数据可以包括在服务器一侧形成的操作日志等。本公开通过利用用户的历史业务数据,针对预先设置特征元素,可以便捷的获得各用户的样本数据。
可选的,本公开可以将获得的所有样本数据划分为训练集合以及测试集合等。
S501、将样本数据分别提供给待训练预测模型。
可选的,本公开可以将训练集合中的多个样本数据分别提供给待训练预测模型。例如,根据预设批处理数量从训练集合中随机选取多个样本数据,并分别作为输入,提供给待训练预测模型。
S502、根据待训练预测模型输出的预测结果和样本数据的标注信息,调整待训练预测模型的参数。
可选的,本公开可以根据预先设置的损失函数对待训练预测模型输出的预测结果和各输入的样本数据的标注信息进行损失计算,并将损失计算的结果在待训练预测模型中进行传播,以调整待训练预测模型的参数。待训练预测模型的参数可以包括二叉树的结构参数等。
可选的,在针对本公开的待训练预测模型的训练达到预定迭代条件时,本次训练过程结束。本公开中的预定迭代条件可以包括:根据待训练预测模型针对测试集合中的样本数据的输出获得的预测结果的准确性达到预定要求。在待训练预测模型针对测试集合中的样本数据的输出获得的预测结果的准确性达到预定要求的情况下,本次对待训练预测模型成功训练完成。本公开中的预定迭代条件还可以包括:对该待训练预测模型进行训练,所使用的样本数据的数量已经达到预定数量要求等。在使用的样本数据的数量达到预定数量要求,然而,在预测模型针对测试集合中的样本数据的输出获得的预测结果的准确性并未达到预定要求的情况下,本次对待训练预测模型并未训练成功。成功训练完成的预测模型可以用于获得上述实施例中的第一概率和第二概率。
示例性装置
图6为本公开的用于实现事件归因的装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。
如图6所示,本实施例的装置可以包括:获取模块600、预测模块601、交换模块602以及确定贡献模块603。可选的,该实施例的装置还可以包括:确定相似度模块604和训练模块605。
获取模块600用于获取多个用户的第一特征信息。其中一个用户的第一特征信息包括多个特征元素。
预测模块601用于根据获取模块600获取到的多个用户的第一特征信息,预测所述多个用户分别获得事件的第一概率。
可选的,预测模块601可以进一步用于将多个用户的第一特征信息分别提供给预测模型,经由该预测模型对多个用户的第一特征信息分别进行概率预测处理,从而预测模块601可以根据预测模型的输出,获得多个用户分别获得事件的第一概率。其中的预测模型包括:由决策树和逻辑回归形成的预测模型。
交换模块602用于针对由多个特征元素中的至少一个特征元素形成的一归因特征组,交换多个用户的归因特征组,获得多个用户的第二特征信息。
可选的,预测模块601还用于根据多个用户的第二特征信息,预测多个用户分别获得事件的第二概率。例如,预测模块601将多个用户的第二特征信息分别提供给预设预测模型,经由该预测模型对多个用户的第二特征信息分别进行概率预测处理,从而预测模块601可以根据预测模型的输出,获得多个用户分别获得事件的第二概率。
确定贡献模块603用于根据预测模块601获得的第一概率和第二概率,确定归因特征组中的特征元素对用户获得事件的贡献。
可选的,该确定贡献模块603可以包括:第四子模块6031以及第五子模块6032。其中的第四子模块6031可以用于对于归因特征组中的任一特征元素,确定各用户的该特征元素的变化量,并根据各用户获得事件的第一概率和第二概率,确定各用户获得事件的概率变化量,从而第四子模块6031可以根据各用户的该特征元素的变化量和各用户获得事件的概率变化量,确定各用户的该特征元素的单位变化量对用户获得事件的贡献。其中的第五子模块6032可以用于将各用户的该特征元素的单位变化量对用户获得事件的贡献的均值,作为该特征元素对用户获得事件的贡献。
确定相似度模块604用于根据多个特征元素之间的相似度,确定属于同一归因特征组的特征元素。
可选的,确定相似度模块604可以包括:第一子模块6041、第二子模块6042以及第三子模块6043。其中的第一子模块6041用于计算多个特征元素中的两两特征元素之间的相似度。其中的第二子模块6042可以用于将相似度满足预定相似度要求的两个特征元素作为一个归因特征组。其中的第三子模块6043可以用于合并包含有相同特征元素的不同归因特征组。
可选的,第一子模块6041可以包括:第一单元60411、第二单元60412以及第三单元60413中的至少一个。其中的第一单元60411用于在两个特征元素为一连续型特征元素和一离散型特征元素的情况下,将连续型特征元素转换为离散型特征元素,并确定两个离散型特征元素的信息增益率。其中的信息增益率被作为连续型特征元素和离散型特征元素之间的相似度。其中的第二单元60412用于在两个特征元素为两个离散型特征元素的情况下,确定两个离散型特征元素的信息增益率。其中的信息增益率被作为两个离散型特征元素之间的相似度。其中的第三单元60413用于针对多个特征元素中的所有连续型特征元素,确定所有连续型特征元素的皮尔逊相关系数矩阵。其中的皮尔逊相关系数矩阵中的矩阵元素被作为相应两个连续型特征元素之间的相似度。
训练模块605用于对用户的历史业务数据分别进行统计处理,获得用于训练所述预测模型的多个样本数据,将样本数据分别提供给待训练预测模型,并根据待训练预测模型输出的预测结果和样本数据的标注信息,调整待训练预测模型的参数。
上述各模块及其包括的子模块和单元具体执行的操作可以参见上述方法实施例中针对图2-图5的描述,在此不再详细说明。
示例性电子设备
下面参考图7来描述根据本公开实施例的电子设备。图7示出了根据本公开实施例的电子设备的框图。如图7所示,电子设备71包括一个或多个处理器711和存储器712。
处理器711可以是中央处理单元(CPU)或者具有用于实现事件归因的能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备71中的其他组件以执行期望的功能。
存储器712可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器711可以运行所述程序指令,以实现上文所述的本公开的各个实施例的用于实现事件归因的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备71还可以包括:输入装置713以及输出装置714等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备713还可以包括例如键盘、鼠标等等。该输出装置714可以向外部输出各种信息。该输出设备714可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备71中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备71还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于实现事件归因的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于实现事件归因的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (22)

1.一种用于实现事件归因的方法,包括:
获取多个用户的第一特征信息;其中一个用户的第一特征信息包括多个特征元素;
根据所述多个用户的第一特征信息,预测所述多个用户分别获得事件的第一概率;
针对由所述多个特征元素中的至少一个特征元素形成的一归因特征组,交换所述多个用户的归因特征组,获得所述多个用户的第二特征信息;
根据所述多个用户的第二特征信息,预测所述多个用户分别获得事件的第二概率;
根据所述第一概率和第二概率,确定所述归因特征组中的特征元素对用户获得事件的贡献;
其中,所述交换所述多个用户的归因特征组包括:
针对所述多个用户中的任一用户的一归因特征组,将该用户的该归因特征组中的各特征元素的取值,设置为所述多个用户中除该用户之外的其他用户的该归因特征组中的各特征元素的取值。
2.根据权利要求1所述的方法,其中,所述根据所述多个用户的第一特征信息,预测所述多个用户分别获得事件的第一概率,包括:
将所述多个用户的第一特征信息分别提供给预测模型,经由所述预测模型对所述多个用户的第一特征信息分别进行概率预测处理;
根据所述预测模型的输出,获得所述多个用户分别获得事件的第一概率;
其中,所述预测模型包括:由决策树和逻辑回归形成的预测模型。
3.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述多个特征元素之间的相似度,确定属于同一归因特征组的特征元素。
4.根据权利要求3所述的方法,其中,所述根据所述多个特征元素之间的相似度,确定属于同一归因特征组的特征元素,包括:
计算所述多个特征元素中的两两特征元素之间的相似度;
将相似度满足预定相似度要求的两个特征元素作为一个归因特征组;
合并包含有相同特征元素的不同归因特征组。
5.根据权利要求4所述的方法,其中,所述计算所述多个特征元素中的两两特征元素之间的相似度,包括:
在两个特征元素为一连续型特征元素和一离散型特征元素的情况下,将所述连续型特征元素转换为离散型特征元素;
确定两个离散型特征元素的信息增益率;
其中,所述信息增益率被作为所述连续型特征元素和离散型特征元素之间的相似度。
6.根据权利要求4所述的方法,其中,所述计算所述多个特征元素中的两两特征元素之间的相似度,包括:
在两个特征元素为两个离散型特征元素的情况下,确定所述两个离散型特征元素的信息增益率;
其中,所述信息增益率被作为所述两个离散型特征元素之间的相似度。
7.根据权利要求4所述的方法,其中,所述计算所述多个特征元素中的两两特征元素之间的相似度,包括:
针对所述多个特征元素中的所有连续型特征元素,确定所述所有连续型特征元素的皮尔逊相关系数矩阵;
其中,所述皮尔逊相关系数矩阵中的矩阵元素被作为相应两个连续型特征元素之间的相似度。
8.根据权利要求1至7中任一项所述的方法,其中,所述根据所述多个用户的第二特征信息,预测所述多个用户分别获得事件的第二概率,包括:
将所述多个用户的第二特征信息分别提供给预设预测模型,经由所述预测模型对所述多个用户的第二特征信息分别进行概率预测处理;
根据所述预测模型的输出,获得所述多个用户分别获得事件的第二概率;
其中,所述预测模型包括:由决策树和逻辑回归形成的预测模型。
9.根据权利要求1至7中任一项所述的方法,其中,所述根据所述第一概率和第二概率,确定所述归因特征组中的特征元素对用户获得事件的贡献,包括:
对于所述归因特征组中的任一特征元素,确定各用户的该特征元素的变化量,根据各用户获得事件的第一概率和第二概率,确定各用户获得事件的概率变化量,并根据各用户的该特征元素的变化量和各用户获得事件的概率变化量,确定各用户的该特征元素的单位变化量对用户获得事件的贡献;
将所述各用户的该特征元素的单位变化量对用户获得事件的贡献的均值,作为该特征元素对用户获得事件的贡献。
10.根据权利要求2所述的方法,其中,所述方法还包括:
对用户的历史业务数据分别进行统计处理,获得用于训练所述预测模型的多个样本数据;
将所述样本数据分别供给待训练预测模型;
根据待训练预测模型输出的预测结果和所述样本数据的标注信息,调整所述待训练预测模型的参数。
11.一种用于实现事件归因的装置,其中,所述装置包括:
获取模块,用于获取多个用户的第一特征信息;其中一个用户的第一特征信息包括多个特征元素;
预测模块,用于根据所述多个用户的第一特征信息,预测所述多个用户分别获得事件的第一概率;
交换模块,用于针对由所述多个特征元素中的至少一个特征元素形成的一归因特征组,交换所述多个用户的归因特征组,获得所述多个用户的第二特征信息;
所述预测模块还用于根据所述多个用户的第二特征信息,预测所述多个用户分别获得事件的第二概率;
确定贡献模块,用于根据所述第一概率和第二概率,确定所述归因特征组中的特征元素对用户获得事件的贡献;
其中,所述交换模块,具体用于:
针对所述多个用户中的任一用户的一归因特征组,将该用户的该归因特征组中的各特征元素的取值,设置为所述多个用户中除该用户之外的其他用户的该归因特征组中的各特征元素的取值。
12.根据权利要求11所述的装置,其中,所述预测模块进一步用于:
将所述多个用户的第一特征信息分别提供给预测模型,经由所述预测模型对所述多个用户的第一特征信息分别进行概率预测处理;
根据所述预测模型的输出,获得所述多个用户分别获得事件的第一概率;
其中,所述预测模型包括:由决策树和逻辑回归形成的预测模型。
13.根据权利要求11所述的装置,其中,所述装置还包括:
确定相似度模块,用于根据所述多个特征元素之间的相似度,确定属于同一归因特征组的特征元素。
14.根据权利要求13所述的装置,其中,所述确定相似度模块包括:
第一子模块,用于计算所述多个特征元素中的两两特征元素之间的相似度;
第二子模块,用于将相似度满足预定相似度要求的两个特征元素作为一个归因特征组;
第三子模块,用于合并包含有相同特征元素的不同归因特征组。
15.根据权利要求14所述的装置,其中,所述第一子模块包括:
第一单元,用于在两个特征元素为一连续型特征元素和一离散型特征元素的情况下,将所述连续型特征元素转换为离散型特征元素,并确定两个离散型特征元素的信息增益率;
其中,所述信息增益率被作为所述连续型特征元素和离散型特征元素之间的相似度。
16.根据权利要求14所述的装置,其中,所述第一子模块包括:
第二单元,用于在两个特征元素为两个离散型特征元素的情况下,确定所述两个离散型特征元素的信息增益率;
其中,所述信息增益率被作为所述两个离散型特征元素之间的相似度。
17.根据权利要求14所述的装置,其中,所述第一子模块包括:
第三单元,用于针对所述多个特征元素中的所有连续型特征元素,确定所述所有连续型特征元素的皮尔逊相关系数矩阵;
其中,所述皮尔逊相关系数矩阵中的矩阵元素被作为相应两个连续型特征元素之间的相似度。
18.根据权利要求11至17中任一项所述的装置,其中,所述预测模块进一步用于:
将所述多个用户的第二特征信息分别提供给预设预测模型,经由所述预测模型对所述多个用户的第二特征信息分别进行概率预测处理;
根据所述预测模型的输出,获得所述多个用户分别获得事件的第二概率;
其中,所述预测模型包括:由决策树和逻辑回归形成的预测模型。
19.根据权利要求11至17中任一项所述的装置,其中,所述确定贡献模块包括:
第四子模块,用于对于所述归因特征组中的任一特征元素,确定各用户的该特征元素的变化量,根据各用户获得事件的第一概率和第二概率,确定各用户获得事件的概率变化量,并根据各用户的该特征元素的变化量和各用户获得事件的概率变化量,确定各用户的该特征元素的单位变化量对用户获得事件的贡献;
第五子模块,用于将所述各用户的该特征元素的单位变化量对用户获得事件的贡献的均值,作为该特征元素对用户获得事件的贡献。
20.根据权利要求12所述的装置,其中,所述装置还包括:训练模块用于:
对用户的历史业务数据分别进行统计处理,获得用于训练所述预测模型的多个样本数据;
将所述样本数据分别提供给待训练预测模型;
根据待训练预测模型输出的预测结果和所述样本数据的标注信息,调整所述待训练预测模型的参数。
21.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-10中任一项所述的方法。
22.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-10中任一项所述的方法。
CN202010468154.9A 2020-03-20 2020-05-28 用于实现事件归因的方法、装置、介质和电子设备 Active CN111626898B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020102008573 2020-03-20
CN202010200857 2020-03-20

Publications (2)

Publication Number Publication Date
CN111626898A CN111626898A (zh) 2020-09-04
CN111626898B true CN111626898B (zh) 2022-03-15

Family

ID=72272610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010468154.9A Active CN111626898B (zh) 2020-03-20 2020-05-28 用于实现事件归因的方法、装置、介质和电子设备

Country Status (1)

Country Link
CN (1) CN111626898B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286772B (zh) * 2020-10-14 2023-03-10 北京易观智库网络科技有限公司 归因分析方法、装置和电子设备
CN114331227B (zh) * 2022-03-08 2022-06-14 腾讯科技(深圳)有限公司 数据分析的方法、装置、电子设备和可读介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072663A1 (zh) * 2016-10-18 2018-04-26 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统、存储介质
CN108027935A (zh) * 2016-02-09 2018-05-11 谷歌有限责任公司 与内容项目相关的归因转换
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置
CN109558492A (zh) * 2018-10-16 2019-04-02 中山大学 一种适于事件归因的上市公司知识图谱构建方法及装置
CN109902849A (zh) * 2018-06-20 2019-06-18 华为技术有限公司 用户行为预测方法及装置、行为预测模型训练方法及装置
CN109948851A (zh) * 2019-03-20 2019-06-28 北京百度网讯科技有限公司 用于预测事件发生概率的方法和装置
CN110197207A (zh) * 2019-05-13 2019-09-03 腾讯科技(深圳)有限公司 对未归类用户群进行归类的方法及相关装置
CN110472742A (zh) * 2019-07-11 2019-11-19 阿里巴巴集团控股有限公司 一种模型变量确定方法、装置及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596616B (zh) * 2018-04-20 2023-04-18 平安科技(深圳)有限公司 用户数据真实性分析方法及装置、存储介质、电子设备
CN110598157B (zh) * 2019-09-20 2023-01-03 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108027935A (zh) * 2016-02-09 2018-05-11 谷歌有限责任公司 与内容项目相关的归因转换
WO2018072663A1 (zh) * 2016-10-18 2018-04-26 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统、存储介质
CN109558887A (zh) * 2017-09-27 2019-04-02 北京京东尚科信息技术有限公司 一种预测行为的方法和装置
CN109902849A (zh) * 2018-06-20 2019-06-18 华为技术有限公司 用户行为预测方法及装置、行为预测模型训练方法及装置
CN109558492A (zh) * 2018-10-16 2019-04-02 中山大学 一种适于事件归因的上市公司知识图谱构建方法及装置
CN109948851A (zh) * 2019-03-20 2019-06-28 北京百度网讯科技有限公司 用于预测事件发生概率的方法和装置
CN110197207A (zh) * 2019-05-13 2019-09-03 腾讯科技(深圳)有限公司 对未归类用户群进行归类的方法及相关装置
CN110472742A (zh) * 2019-07-11 2019-11-19 阿里巴巴集团控股有限公司 一种模型变量确定方法、装置及设备

Also Published As

Publication number Publication date
CN111626898A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN115526363A (zh) 业务数据处理方法、装置、计算机设备和存储介质
WO2021204176A1 (zh) 业务数据预测方法、装置、电子设备及计算机可读存储介质
CN109993627B (zh) 推荐方法、推荐模型的训练方法、装置和存储介质
EP3961384A1 (en) Automatic derivation of software engineering artifact attributes from product or service development concepts
CN111626898B (zh) 用于实现事件归因的方法、装置、介质和电子设备
CN112070545B (zh) 用于优化信息触达的方法、装置、介质和电子设备
CN112256973B (zh) 用户画像修正方法、装置、介质和电子设备
CN111598360A (zh) 服务策略确定方法、装置及电子设备
CN111598338B (zh) 用于更新预测模型的方法、装置、介质和电子设备
CN115705583A (zh) 多目标预测方法、装置、设备及存储介质
CN111626783B (zh) 用于实现事件转化概率预测的离线信息设置方法和装置
US20210027319A1 (en) Method and system for collecting and analyzing data to generate performance forecasts for assets
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN113256422B (zh) 分仓账户识别方法、装置、计算机设备和存储介质
CN112116393B (zh) 用于实现事件用户维护的方法、装置和设备
CN112016791B (zh) 资源分配方法、装置及电子设备
CN115858147A (zh) 成本建模方法和装置
CN113901328A (zh) 信息推荐方法和装置、电子设备和存储介质
CN114219664A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN113760550A (zh) 资源分配方法和资源分配装置
CN112115316B (zh) 一种分箱方法、装置、电子设备及存储介质
CN113656702A (zh) 用户行为的预测方法及装置
CN111753208A (zh) 确定用户可比属性收敛度的方法、装置、介质和电子设备
CN111985773A (zh) 用户资源分配策略确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201104

Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 300 457 days Unit 5, Room 1, 112, Room 1, Office Building C, Nangang Industrial Zone, Binhai New Area Economic and Technological Development Zone, Tianjin

Applicant before: BEIKE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant