CN107844867A - 数据处理方法、装置及设备 - Google Patents

数据处理方法、装置及设备 Download PDF

Info

Publication number
CN107844867A
CN107844867A CN201711175907.1A CN201711175907A CN107844867A CN 107844867 A CN107844867 A CN 107844867A CN 201711175907 A CN201711175907 A CN 201711175907A CN 107844867 A CN107844867 A CN 107844867A
Authority
CN
China
Prior art keywords
models
characteristic information
initial data
gbdt
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711175907.1A
Other languages
English (en)
Inventor
梁徽科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Youshi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Youshi Network Technology Co Ltd filed Critical Guangzhou Youshi Network Technology Co Ltd
Priority to CN201711175907.1A priority Critical patent/CN107844867A/zh
Publication of CN107844867A publication Critical patent/CN107844867A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据处理方法、装置及设备,所述方法包括:获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;将所述原始数据输入GBDT模型进行处理,其中,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;将所述GBDT模型的处理结果输入LR模型;获得LR模型输出的所述目标用户点击所述目标链接的概率。通过对所述原始数据进行多个不同最大深度限制的GBDT处理,使得最终得出的预测结果具有较好的数据表达能力,预测结果更准确,同时可以有效减少人工干预。

Description

数据处理方法、装置及设备
技术领域
本发明涉及数据分析处理技术领域,具体而言,涉及一种数据处理方法、装置及设备。
背景技术
随着数据分析处理技术的发展,在互联网领域中,可以通过对数据分析进行一些用户行为预测。例如,通过GBDT(Gradient Boosting Decision Tree,梯度提升决策树)模型与LR(Logistic Regression,逻辑回归)融合进行广告内容的CTR预估(Click-ThroughRate Prediction)。常用使用的GBDT与LR融合的方案中,需要进行复杂的超参数(hyperparameters)调整工作,且最终的输出的预测结果不理想。
发明内容
为了克服现有技术中的上述不足,本发明的目的在于提供一种数据处理方法,应用于数据处理设备,所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述方法包括:
获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型进行处理;
获得LR模型输出的所述目标用户点击所述目标链接的概率。
可选地,在上述方法中,所述将所述原始数据输入GBDT模型进行处理的步骤,包括:
根据所述原始数据,遍历所述GBDT模型中的回归树,得到所述原始数据在每个所述回归树中对应的叶子节点的节点编号,其中,每个所述叶子节点具有唯一的节点编号。
可选地,在上述方法中,所述方法还包括:
在将所述GBDT模型的处理结果输入LR模型的同时,将所述原始数据输入所述LR模型。
可选地,在上述方法中,所述目标用户的特征信息包括通用特征信息,所述通用特征信息为不同用户均具有的特征信息;所述将所述原始数据输入GBDT模型进行处理的步骤,包括:
将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
可选地,在上述方法中,所述目标用户的特征信息还包括特定特征信息,所述特定特征信息为不是所有用户均具有的特征信息;所述将所述原始数据输入所述LR模型的步骤包括:
将所述原始数据中的所述目标用户的通用特征信息、特定特征信息以及所述目标连接的特征信息输入到所述LR模型。
可选地,在上述方法中,所述数据处理设备包括服务器,所述目标链接包括广告链接。
本发明的另一目的在于提供一种数据处理装置,应用于数据处理设备,所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述装置包括:
数据获取模块,用于获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
数据处理模块,用于将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型;
结果获取模块,用于获得LR模型输出的所述目标用户点击所述目标链接的概率。
可选地,在上述装置中,所述数据处理模块在对所述原始数据进行处理时,根据所述原始数据,遍历所述GBDT模型中的回归树,得到所述原始数据在每个所述回归树中对应的叶子节点的节点编号作为所述中间处理结果,其中,每个所述叶子节点具有唯一的节点编号。
可选地,在上述装置中,所述数据处理模块还用于将所述GBDT模型得出的中间处理结果输入LR模型的同时,将所述原始数据输入所述LR模型。
可选地,在上述装置中,所述目标用户的特征信息包括通用特征信息,所述通用特征信息为不同用户均具有的特征信息;GBDT处理模块将所述原始数据输入GBDT模型时,
将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
可选地,在上述装置中,所述目标用户的特征信息还包括特定特征信息,所述特定特征信息为不是所有用户均具有的特征信息;所述数据处理模块在将所述原始数据输入所述LR模型时,
将所述原始数据中的所述目标用户的通用特征信息、特定特征信息以及所述目标连接的特征信息输入到所述LR模型。
可选地,在上述装置中,所述数据处理设备包括服务器,所述目标链接包括广告链接。
本发明的另一目的在于提供一种数据处理设备,所述数据处理设备包括:
存储器;
处理器;及
数据处理装置,所述数据处理装置包括一个或多个存储于所述存储器中并由所述处理器执行的软件功能模块;所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述数据处理装置包括:
数据获取模块,用于获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
数据处理模块,用于将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型;
结果获取模块,用于获得LR模型输出的所述目标用户点击所述目标链接的概率。
相对于现有技术而言,本发明具有以下有益效果:
本发明提供的数据处理方法、装置及设备,通过对所述原始数据进行多个不同最大深度限制的GBDT处理,使得最终得出的预测结果具有较好的数据表达能力,预测结果更准确,同时可以有效减少人工干预。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的数据处理设备的示意图;
图2为本发明实施例提供的数据处理方法的步骤流程示意图;
图3为本发明实施例提供的数据流向示意图;
图4为本发明实施例提供的数据处理装置的示意图。
图标:100-数据处理设备;110-数据处理装置;111-数据获取模块;112-数据处理模块;113-结果获取模块;120-存储器;130-处理器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参照图1,图1是本发明较佳实施例提供的一种数据处理设备100,所述数据处理设备100可以是,但不限于,服务器、个人电脑(personal computer,PC)或其他具有数据处理能力的电子设备。所述数据处理设备100包括数据处理装置110、存储器120及处理器130。
所述存储器120及处理器130之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据处理装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据处理设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述数据处理装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图2,图2为应用于图1所示的数据处理设备100的一种应用信息获取方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S110,获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息。
在本实施例中,所述用户特征信息可以包括通用特征信息及特定特征信息。所述通用特征信息为不同用户均具有的特征信息,例如,用户的性别、收入等级、职业、年龄等特征信息。所述特定特征信息为不是所有用户均具有的特征信息,例如,某个目标用户曾经点击过页面链接或曾经购买过的商品。
在本实施例中,所述目标链接可以为需要进行CTR预估的广告链接,所述目标链接的特征信息可以包括,但不仅限于,相应商品的类型、价格、投放位置等。
步骤S120,将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型。
GBDT是一种迭代的决策树算法,该算法由多棵回归树组成,所有回归树的结论累加起来作为输出结果。
经发明人研究发现,现有常用的GBDT模型中,一般对回归树采用同样的最大深度限制,导致得到结果的数据表达能力不理想。故在本实施例中,提供的所述GBDT模型可以包括多个相对独立的的回归树组,请参照图3,不同所述回归树组中的回归树具有不同的最大深度限制。即在本实施例中,将所述原始数据输入所述GBDT模型处理后,可以得到多个最大深度限制的处理结果。
可以理解的是,也可以采用将所述原始数据输入多个具有不同最大深度限制的GBDT模型进行处理,得到多个最大深度限制的处理结果。
具体地,在本实施例中,所述GBDT模型中回归树上的每个所述叶子节点具有唯一的节点编号。将所述原始数据输入所述GBDT模型后,根据所述原始数据,遍历所述GBDT模型中的回归树。
针对每个所述回归树,根据该回归树上决策点对所述原始数据中的特征进行判断,将所述原始数据在该回归树中对应的叶子节点作为目标叶子节点。然后将所述原始数据在各回归树上对应的所述目标叶子节点的节点编号的集合作为所述GBDT模型的处理结果。
基于上述设计,本实施例采用的具有多个最大深度限制的GBDT结果作为所述中间处理结果,使得在进行GBDT处理时单个原始特征同时具有不同多阶的交叉特征,得到结果的数据表达能力更好。
进一步地,对于所述GBDT模型,通常所述回归树上的决策点都针对普适性的特征进行判断,故在本实施例中,将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
在从所述GBDT模型得到所述处理结果后,需要输入LR模型进行逻辑回归判断。经发明人大量研究发现,简单多深度限制GBDT得出的所述中间结果输入LR模型会出现所述原始数据的特征量太大不适用GBDT模型的问题。故在本实施例中,请再次参照图3,将所述GBDT模型的处理结果输入LR模型的同时,将所述原始数据与所述中间结果一起输入所述LR模型进行处理。如此,使得最终的处理结果即有抽象能力,又有精准刻画能力。
具体地,在本实施例中,在将所述原始数据输入所述LR模型时,将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
步骤S130,获得LR模型输出的所述目标用户点击所述目标链接的概率。
在本实施例中,通过所述LR模型处理后,最终得到预测的所述原始数据中的所述目标用户点击所述目标链接的概率,达到CTR预估的目的。
请参照图4,图4为应用于图1所示数据处理设备100的一种数据处理装置110的示意图,所述数据处理装置110包括数据获取模块111、数据处理模块112及结果获取模块113。
所述获取模块,用于获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息。
本实施例中,所述获取模块可用于执行图2所示的步骤S110,关于所述获取模块的具体描述可参对所述步骤S110的描述。
所述数据处理模块112,用于将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型。
本实施例中,所述数据处理模块112可用于执行图2所示的步骤S120,关于所述数据处理模块112的具体描述可参对所述步骤S120的描述。
可选地,在本实施例中,所述数据处理模块112在对所述原始数据进行处理时,根据所述原始数据,遍历所述GBDT模型中的回归树,得到所述原始数据在每个所述回归树中对应的叶子节点的节点编号作为所述中间处理结果,其中,每个所述叶子节点具有唯一的节点编号。
可选地,在本实施例中,所述目标用户的特征信息包括通用特征信息,所述通用特征信息为不同用户均具有的特征信息;所述数据处理模块112将所述原始数据输入GBDT模型时,将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
可选地,在本实施例中,所述数据处理模块112还用于将所述GBDT模型得出的中间处理结果输入LR模型的同时,将所述原始数据输入所述LR模型。
所述结果获取模块113,用于获得LR模型输出的所述目标用户点击所述目标链接的概率。
本实施例中,所述结果获取模块113可用于执行图2所示的步骤S130,关于所述结果获取模块113的具体描述可参对所述步骤S130的描述。
可选地,在本实施例中,所述目标用户的特征信息还包括特定特征信息,所述特定特征信息为不是所有用户均具有的特征信息;所述输入模块在将所述原始数据输入所述LR模型时,将所述原始数据中的所述目标用户的通用特征信息、特定特征信息以及所述目标连接的特征信息输入到所述LR模型。
综上所述,本发明提供的数据处理方法、装置及设备,通过对所述原始数据进行多个不同最大深度限制的GBDT处理,并结合所述原始数据本身一起输入LR模型。使得最终得出的预测结果具有较好的数据表达能力,预测结果更准确,同时可以有效减少人工干预。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (13)

1.一种数据处理方法,应用于数据处理设备,其特征在于,所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述方法包括:
获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型;
获得LR模型输出的所述目标用户点击所述目标链接的概率。
2.根据权利要求1所述的方法,其特征在于,所述将所述原始数据输入GBDT模型进行处理的步骤,包括:
根据所述原始数据,遍历所述GBDT模型中的回归树,得到所述原始数据在每个所述回归树中对应的叶子节点的节点编号,其中,每个所述叶子节点具有唯一的节点编号。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在将所述GBDT模型的处理结果输入LR模型的同时,将所述原始数据输入所述LR模型。
4.根据权利要求3所述的方法,其特征在于,所述目标用户的特征信息包括通用特征信息,所述通用特征信息为不同用户均具有的特征信息;所述将所述原始数据输入GBDT模型进行处理的步骤,包括:
将所述原始数据中所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
5.根据权利要求4所述的方法,其特征在于,所述目标用户的特征信息还包括特定特征信息,所述特定特征信息为不是所有用户均具有的特征信息;所述将所述原始数据输入所述LR模型的步骤包括:
将所述原始数据中的所述目标用户的通用特征信息、特定特征信息以及所述目标连接的特征信息输入到所述LR模型。
6.根据权利要求1所述的方法,其特征在于,所述数据处理设备包括服务器,所述目标链接包括广告链接。
7.一种数据处理装置,应用于数据处理设备,其特征在于,所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述装置包括:
数据获取模块,用于获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
数据处理模块,用于将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型;
结果获取模块,用于获得LR模型输出的所述目标用户点击所述目标链接的概率。
8.根据权利要求7所述的装置,其特征在于,所述数据处理模块在对所述原始数据进行处理时,根据所述原始数据,遍历所述GBDT模型中的回归树,得到所述原始数据在每个所述回归树中对应的叶子节点的节点编号,其中,每个所述叶子节点具有唯一的节点编号。
9.根据权利要求7或8所述的装置,其特征在于,所述数据模块还用于在将所述GBDT模型的处理结果输入LR模型的同时,将所述原始数据输入所述LR模型。
10.根据权利要求9所述的装置,其特征在于,所述目标用户的特征信息包括通用特征信息,所述通用特征信息为不同用户均具有的特征信息;所述数据处理模块将所述原始数据输入GBDT模型时,
将所述原始数据中的所述目标用户的通用特征信息及所述目标连接的特征信息输入所述GBDT模型进行处理。
11.根据权利要求10所述的装置,其特征在于,所述目标用户的特征信息还包括特定特征信息,所述特定特征信息为不是所有用户均具有的特征信息;所述数据模块在将所述原始数据输入所述LR模型时,
将所述原始数据中的所述目标用户的通用特征信息、特定特征信息以及所述目标连接的特征信息输入到所述LR模型。
12.根据权利要求7所述的装置,其特征在于,所述数据处理设备包括服务器,所述目标链接包括广告链接。
13.一种数据处理设备,其特征在于,所述数据处理设备包括:
存储器;
处理器;及
数据处理装置,所述数据处理装置包括一个或多个存储于所述存储器中并由所述处理器执行的软件功能模块;所述数据处理设备预存有GBDT模型及LR模型,所述GBDT模型包括多个相对独立的回归树组,不同所述回归树组中的回归树具有不同的最大深度限制;所述数据处理装置包括:
数据获取模块,用于获取待处理的原始数据,所述原始数据包括目标用户的特征信息及目标链接的特征信息;
数据处理模块,用于将所述原始数据输入GBDT模型进行处理,并将所述GBDT模型的处理结果输入LR模型;
结果获取模块,用于获得LR模型输出的所述目标用户点击所述目标链接的概率。
CN201711175907.1A 2017-11-22 2017-11-22 数据处理方法、装置及设备 Pending CN107844867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711175907.1A CN107844867A (zh) 2017-11-22 2017-11-22 数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711175907.1A CN107844867A (zh) 2017-11-22 2017-11-22 数据处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN107844867A true CN107844867A (zh) 2018-03-27

Family

ID=61680251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711175907.1A Pending CN107844867A (zh) 2017-11-22 2017-11-22 数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN107844867A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805332A (zh) * 2018-05-07 2018-11-13 北京奇艺世纪科技有限公司 一种特征评估方法和装置
CN110888186A (zh) * 2019-11-29 2020-03-17 天津大学 基于gbdt+lr模型的冰雹和短时强降水预报方法
WO2020140619A1 (zh) * 2019-01-03 2020-07-09 平安科技(深圳)有限公司 基于机器学习的系统升级失败的诊断方法、装置、计算机设备及计算机可读存储介质
CN111898675A (zh) * 2020-07-30 2020-11-06 北京云从科技有限公司 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN112990270A (zh) * 2021-02-10 2021-06-18 华东师范大学 一种传统特征与深度特征的自动融合方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808762A (zh) * 2016-03-18 2016-07-27 北京百度网讯科技有限公司 资源排序方法和装置
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置
US20170213280A1 (en) * 2016-01-27 2017-07-27 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213280A1 (en) * 2016-01-27 2017-07-27 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN105808762A (zh) * 2016-03-18 2016-07-27 北京百度网讯科技有限公司 资源排序方法和装置
CN105868847A (zh) * 2016-03-24 2016-08-17 车智互联(北京)科技有限公司 一种购物行为的预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
玉心SOBER: "CTR预估中GBDT与LR融合方案", 《CSDN博客》 *
蔡文学: "基于GBDT与Logistic回归融合的个人信货风险评估模型及实证分析", 《财政金融》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805332A (zh) * 2018-05-07 2018-11-13 北京奇艺世纪科技有限公司 一种特征评估方法和装置
CN108805332B (zh) * 2018-05-07 2022-12-02 北京奇艺世纪科技有限公司 一种特征评估方法和装置
WO2020140619A1 (zh) * 2019-01-03 2020-07-09 平安科技(深圳)有限公司 基于机器学习的系统升级失败的诊断方法、装置、计算机设备及计算机可读存储介质
CN110888186A (zh) * 2019-11-29 2020-03-17 天津大学 基于gbdt+lr模型的冰雹和短时强降水预报方法
CN111898675A (zh) * 2020-07-30 2020-11-06 北京云从科技有限公司 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN112990270A (zh) * 2021-02-10 2021-06-18 华东师范大学 一种传统特征与深度特征的自动融合方法

Similar Documents

Publication Publication Date Title
CN107844867A (zh) 数据处理方法、装置及设备
CN107918905A (zh) 异常交易识别方法、装置及服务器
CN107040397A (zh) 一种业务参数获取方法及装置
US10572929B2 (en) Decision factors analyzing device and decision factors analyzing method
CN104574124B (zh) 确定广告数据的展示效果的方法及装置
US20130254181A1 (en) Aggregation and Categorization
WO2001006416A2 (en) Intelligent mapping of field names in an electronic form with standard field names
CN104992348B (zh) 一种信息展示的方法和装置
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN113592605A (zh) 基于相似产品的产品推荐方法、装置、设备及存储介质
CN114880566A (zh) 基于图神经网络的用户行为分析方法、装置、设备及介质
CN107798558A (zh) 用户行为数据分析方法及服务器
CN111680213B (zh) 信息推荐方法、数据处理方法及装置
CN106933916A (zh) Json字符串的处理方法及装置
CN107944929A (zh) 一种基于用户行为数据进行建模的用户画像建立方法
CN106649323A (zh) 推荐关键词的方法及装置
CN107679889A (zh) 一种潜在客户的识别方法及终端设备
CN107590387A (zh) El表达式注入漏洞检测方法、装置及电子设备
CN111652282B (zh) 基于大数据的用户偏好分析方法、装置及电子设备
CN110335143A (zh) 基于多重时间验证的金融风险分析方法、装置及电子设备
CN113761350A (zh) 一种数据推荐方法、相关装置和数据推荐系统
CN107730281A (zh) 客户管理方法、系统、计算机设备及存储介质
CN109325167A (zh) 特征分析方法、装置、设备、计算机可读存储介质
CN110796520A (zh) 商品推荐的方法、装置、计算设备以及介质
CN113722437B (zh) 基于人工智能的用户标签识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200527

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02 (only for office use)

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180327