发明内容
为了克服现有技术中的上述不足,本发明的目的在于提供一种数据处理方法,应用于数据处理设备,所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述方法包括:
获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型进行处理;
获得LR模型输出的所述目标用户点击所述目标链接的概率。
可选地,在上述方法中,所述将所述原始数据输入GBDT模型进行处理的步骤,包括:
根据所述原始数据,遍历所述GBDT模型中的回归树,得到所述原始数据在每个所述回归树中对应的叶子节点的节点编号,其中,每个所述叶子节点具有唯一的节点编号。
可选地,在上述方法中,所述方法还包括:
在将所述GBDT模型的处理结果输入LR模型的同时,将所述原始数据输入所述LR模型。
可选地,在上述方法中,所述目标用户的特征信息包括通用特征信息,所述通用特征信息为不同用户均具有的特征信息;所述将所述原始数据输入GBDT模型进行处理的步骤,包括:
将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
可选地,在上述方法中,所述目标用户的特征信息还包括特定特征信息,所述特定特征信息为不是所有用户均具有的特征信息;所述将所述原始数据输入所述LR模型的步骤包括:
将所述原始数据中的所述目标用户的通用特征信息、特定特征信息以及所述目标连接的特征信息输入到所述LR模型。
可选地,在上述方法中,所述数据处理设备包括服务器,所述目标链接包括广告链接。
本发明的另一目的在于提供一种数据处理装置,应用于数据处理设备,所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述装置包括:
数据获取模块,用于获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
数据处理模块,用于将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型;
结果获取模块,用于获得LR模型输出的所述目标用户点击所述目标链接的概率。
可选地,在上述装置中,所述数据处理模块在对所述原始数据进行处理时,根据所述原始数据,遍历所述GBDT模型中的回归树,得到所述原始数据在每个所述回归树中对应的叶子节点的节点编号作为所述中间处理结果,其中,每个所述叶子节点具有唯一的节点编号。
可选地,在上述装置中,所述数据处理模块还用于将所述GBDT模型得出的中间处理结果输入LR模型的同时,将所述原始数据输入所述LR模型。
可选地,在上述装置中,所述目标用户的特征信息包括通用特征信息,所述通用特征信息为不同用户均具有的特征信息;GBDT处理模块将所述原始数据输入GBDT模型时,
将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
可选地,在上述装置中,所述目标用户的特征信息还包括特定特征信息,所述特定特征信息为不是所有用户均具有的特征信息;所述数据处理模块在将所述原始数据输入所述LR模型时,
将所述原始数据中的所述目标用户的通用特征信息、特定特征信息以及所述目标连接的特征信息输入到所述LR模型。
可选地,在上述装置中,所述数据处理设备包括服务器,所述目标链接包括广告链接。
本发明的另一目的在于提供一种数据处理设备,所述数据处理设备包括:
存储器;
处理器;及
数据处理装置,所述数据处理装置包括一个或多个存储于所述存储器中并由所述处理器执行的软件功能模块;所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述数据处理装置包括:
数据获取模块,用于获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
数据处理模块,用于将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型;
结果获取模块,用于获得LR模型输出的所述目标用户点击所述目标链接的概率。
相对于现有技术而言,本发明具有以下有益效果:
本发明提供的数据处理方法、装置及设备,通过对所述原始数据进行多个不同最大深度限制的GBDT处理,使得最终得出的预测结果具有较好的数据表达能力,预测结果更准确,同时可以有效减少人工干预。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参照图1,图1是本发明较佳实施例提供的一种数据处理设备100,所述数据处理设备100可以是,但不限于,服务器、个人电脑(personal computer,PC)或其他具有数据处理能力的电子设备。所述数据处理设备100包括数据处理装置110、存储器120及处理器130。
所述存储器120及处理器130之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据处理装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据处理设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述数据处理装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图2,图2为应用于图1所示的数据处理设备100的一种应用信息获取方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S110,获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息。
在本实施例中,所述用户特征信息可以包括通用特征信息及特定特征信息。所述通用特征信息为不同用户均具有的特征信息,例如,用户的性别、收入等级、职业、年龄等特征信息。所述特定特征信息为不是所有用户均具有的特征信息,例如,某个目标用户曾经点击过页面链接或曾经购买过的商品。
在本实施例中,所述目标链接可以为需要进行CTR预估的广告链接,所述目标链接的特征信息可以包括,但不仅限于,相应商品的类型、价格、投放位置等。
步骤S120,将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型。
GBDT是一种迭代的决策树算法,该算法由多棵回归树组成,所有回归树的结论累加起来作为输出结果。
经发明人研究发现,现有常用的GBDT模型中,一般对回归树采用同样的最大深度限制,导致得到结果的数据表达能力不理想。故在本实施例中,提供的所述GBDT模型可以包括多个相对独立的的回归树组,请参照图3,不同所述回归树组中的回归树具有不同的最大深度限制。即在本实施例中,将所述原始数据输入所述GBDT模型处理后,可以得到多个最大深度限制的处理结果。
可以理解的是,也可以采用将所述原始数据输入多个具有不同最大深度限制的GBDT模型进行处理,得到多个最大深度限制的处理结果。
具体地,在本实施例中,所述GBDT模型中回归树上的每个所述叶子节点具有唯一的节点编号。将所述原始数据输入所述GBDT模型后,根据所述原始数据,遍历所述GBDT模型中的回归树。
针对每个所述回归树,根据该回归树上决策点对所述原始数据中的特征进行判断,将所述原始数据在该回归树中对应的叶子节点作为目标叶子节点。然后将所述原始数据在各回归树上对应的所述目标叶子节点的节点编号的集合作为所述GBDT模型的处理结果。
基于上述设计,本实施例采用的具有多个最大深度限制的GBDT结果作为所述中间处理结果,使得在进行GBDT处理时单个原始特征同时具有不同多阶的交叉特征,得到结果的数据表达能力更好。
进一步地,对于所述GBDT模型,通常所述回归树上的决策点都针对普适性的特征进行判断,故在本实施例中,将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
在从所述GBDT模型得到所述处理结果后,需要输入LR模型进行逻辑回归判断。经发明人大量研究发现,简单多深度限制GBDT得出的所述中间结果输入LR模型会出现所述原始数据的特征量太大不适用GBDT模型的问题。故在本实施例中,请再次参照图3,将所述GBDT模型的处理结果输入LR模型的同时,将所述原始数据与所述中间结果一起输入所述LR模型进行处理。如此,使得最终的处理结果即有抽象能力,又有精准刻画能力。
具体地,在本实施例中,在将所述原始数据输入所述LR模型时,将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
步骤S130,获得LR模型输出的所述目标用户点击所述目标链接的概率。
在本实施例中,通过所述LR模型处理后,最终得到预测的所述原始数据中的所述目标用户点击所述目标链接的概率,达到CTR预估的目的。
请参照图4,图4为应用于图1所示数据处理设备100的一种数据处理装置110的示意图,所述数据处理装置110包括数据获取模块111、数据处理模块112及结果获取模块113。
所述获取模块,用于获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息。
本实施例中,所述获取模块可用于执行图2所示的步骤S110,关于所述获取模块的具体描述可参对所述步骤S110的描述。
所述数据处理模块112,用于将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型。
本实施例中,所述数据处理模块112可用于执行图2所示的步骤S120,关于所述数据处理模块112的具体描述可参对所述步骤S120的描述。
可选地,在本实施例中,所述数据处理模块112在对所述原始数据进行处理时,根据所述原始数据,遍历所述GBDT模型中的回归树,得到所述原始数据在每个所述回归树中对应的叶子节点的节点编号作为所述中间处理结果,其中,每个所述叶子节点具有唯一的节点编号。
可选地,在本实施例中,所述目标用户的特征信息包括通用特征信息,所述通用特征信息为不同用户均具有的特征信息;所述数据处理模块112将所述原始数据输入GBDT模型时,将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
可选地,在本实施例中,所述数据处理模块112还用于将所述GBDT模型得出的中间处理结果输入LR模型的同时,将所述原始数据输入所述LR模型。
所述结果获取模块113,用于获得LR模型输出的所述目标用户点击所述目标链接的概率。
本实施例中,所述结果获取模块113可用于执行图2所示的步骤S130,关于所述结果获取模块113的具体描述可参对所述步骤S130的描述。
可选地,在本实施例中,所述目标用户的特征信息还包括特定特征信息,所述特定特征信息为不是所有用户均具有的特征信息;所述输入模块在将所述原始数据输入所述LR模型时,将所述原始数据中的所述目标用户的通用特征信息、特定特征信息以及所述目标连接的特征信息输入到所述LR模型。
综上所述,本发明提供的数据处理方法、装置及设备,通过对所述原始数据进行多个不同最大深度限制的GBDT处理,并结合所述原始数据本身一起输入LR模型。使得最终得出的预测结果具有较好的数据表达能力,预测结果更准确,同时可以有效减少人工干预。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。