CN111275062A - 模型训练方法、装置、服务器及计算机可读存储介质 - Google Patents

模型训练方法、装置、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN111275062A
CN111275062A CN201811476027.2A CN201811476027A CN111275062A CN 111275062 A CN111275062 A CN 111275062A CN 201811476027 A CN201811476027 A CN 201811476027A CN 111275062 A CN111275062 A CN 111275062A
Authority
CN
China
Prior art keywords
features
feature
class
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811476027.2A
Other languages
English (en)
Inventor
付俊强
杜龙志
何龙
李奘
卓呈祥
郄小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201811476027.2A priority Critical patent/CN111275062A/zh
Publication of CN111275062A publication Critical patent/CN111275062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种模型训练方法、装置、服务器及计算机可读存储介质。首先从多个样本中获得样本特征,该样本特征分为两类:ID类特征及非ID类特征;接着使用非ID类特征对预设的集成树模型进行训练得到结果集成树模型;然后将每个样本对应的非ID类特征输入结果集成树模型以得到每个样本对应的叶子节点预测值矩阵;最后根据各样本对应的叶子节点预测值矩阵及ID类特征对LR模型进行训练得到结果LR模型。由于在模型训练中加入ID类特征,因此在后续预测时可以使用ID类特征,因而可以改善预测结果;同时,通过在最后训练LR模型时加入ID类特征,可避免由于在预设的集成树模型训练时直接加入ID类特征导致训练复杂程度增加。

Description

模型训练方法、装置、服务器及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种模型训练方法、装置、服务器及计算机可读存储介质。
背景技术
随着网络技术及大数据技术的发展,各种服务平台应运而生。各服务平台每天都可能会产生大量的服务数据,例如服务订单数据、用户行为数据等等。随着历史数据的日益增多,为了针对用户行为进行精准预测或画像,为服务平台未来的服务提供相应的参考,大多会使用历史数据中包含的特征进行模型训练,后续利用训练得到的模型进行相关的预测和分析。然而,目前的训练模型对特征进行考虑时,较为单一不够全面,导致训练得到的模型在某些情况下预测结果不理想。
发明内容
有鉴于此,本申请实施例的目的在于提供一种模型训练方法、装置、服务器及计算机可读存储介质,可以在不会较大地增加模型训练复杂度的基础上,将ID类特征加入模型训练中,使得后续在进行预测时可以使用ID类特征,以改善预测结果。
根据本申请实施例的一个方面,提供一种服务器,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当服务器运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行模型训练方法。
根据本申请实施例的另一个方面,提供一种模型训练方法,所述方法可以包括:
从多个样本中获得样本特征,其中,所述样本特征包括ID类特征及非ID类特征;
根据所述非ID类特征对预设的集成树模型进行训练得到结果集成树模型;
将每个样本对应的非ID类特征输入所述结果集成树模型得到每个样本对应的叶子节点预测值矩阵;
根据各所述样本对应的叶子节点预测值矩阵及所述ID类特征对逻辑回归LR模型进行训练得到结果LR模型。
在本申请的一些实施例中,所述方法还可以包括:
将待预测样本特征输入所述结果LR模型进行计算,得到该待预测样本特征对应的预测结果,该待预测样本特征包括ID类特征和/ 或非ID类特征。
在本申请的一些实施例中,所述根据各所述样本对应的叶子节点预测值矩阵及所述ID类特征对LR模型进行训练得到结果LR模型,可以包括:
对所述ID类特征进行one-hot编码处理,得到与所述ID类特征对应的单元矩阵;
根据所述单元矩阵及各样本对应的叶子节点预测值矩阵对LR模型进行训练得到结果LR模型。
在本申请的一些实施例中,所述ID类特征包括多种ID特征,所述对所述ID类特征进行one-hot编码处理,得到与所述ID类特征对应的单元矩阵,可以包括:
分别对每种ID特征进行one-hot编码处理,得到每种ID特征对应的单元矩阵;
根据每种ID特征分别对应的单元矩阵得到所述ID类特征对应的单元矩阵。
在本申请的一些实施例中,所述根据每种ID特征分别对应的单元矩阵得到所述ID类特征对应的单元矩阵,可以包括:
根据预先确定的与所述LR模型对应的目标ID特征从上述得到的每种ID特征对应的单元矩阵中获得每种目标ID特征对应的单元矩阵,将获得的各目标ID特征分别对应的单元矩阵作为所述ID类特征对应的单元矩阵,或将各目标ID特征对应分别对应的单元矩阵及至少两个目标ID特征分别对应的单元矩阵经乘积运算后得到的单元矩阵作为所述ID类特征对应的单元矩阵。
在本申请的一些实施例中,所述根据所述非ID类特征对预设的集成树模型进行训练得到结果集成树模型,可以包括:
对所述非ID类特征进行特征处理,得到处理后的非ID类特征;
根据处理后的非ID类特征对所述预设的集成树模型进行训练,得到所述结果集成树模型。
在本申请的一些实施例中,所述对所述非ID类特征进行特征处理,可以包括:
对所述非ID类特征包括的多种非ID特征进行特征过滤;
对特征过滤后的多种非ID特征进行归一化处理;
对特征过滤后的多种非ID特征进行离散化处理。
在本申请的一些实施例中,所述对所述非ID类特征包括的多种非ID特征进行特征过滤,可以包括:
计算每种非ID特征的稀疏度;
将每种非ID特征的稀疏度与预设稀疏度进行比较;
将稀疏度小于所述预设稀疏度的非ID特征删除。
在本申请的一些实施例中,所述对所述非ID类特征进行特征处理,还可以包括:
在对特征过滤后的多种非ID特征进行归一化处理之前,对每种非ID特征进行缺失值填充。
在本申请的一些实施例中,在所述对特征过滤后的多种非ID特征进行归一化处理之前,所述对所述非ID类特征进行特征处理,还可以包括:
将属于时间类型特征的非ID特征通过差值计算转化为数值特征;
将属于字符串形式的非ID特征转化为对应的枚举值。
在本申请的一些实施例中,所述对所述非ID类特征进行特征处理,还可以包括:
从所述非ID类特征的所有非ID特征中提取得到第一非ID特征集合及第二非ID特征集合;
计算第一非ID特征集合与第二非ID特征集合的相关度,其中,所述第一非ID特征集合包括一种或多种非ID特征,所述第二非ID 特征集合包括一种或多种非ID特征;
若计算得到的相关度大于预设值,则删除所述第一非ID特征集合或第二非ID特征集合;和/或,
根据预先确定的所述预设的集成树模型所需的非ID特征从所述非ID类特征中删除该预设的集成树模型不需要的非ID特征。
根据本申请实施例的另一个方面,提供一种模型训练装置,所述装置可以包括:
特征提取模块,用于从多个样本中获得样本特征,其中,所述样本特征包括ID类特征及非ID类特征;
第一训练模块,用于根据所述非ID类特征对预设的集成树模型进行训练得到结果集成树模型;
获取模块,用于将每个样本对应的非ID类特征输入所述结果集成树模型得到每个样本对应的叶子节点预测值矩阵;
第二训练模块,用于根据各所述样本对应的叶子节点预测值矩阵及所述ID类特征对逻辑回归LR模型进行训练得到结果LR模型。
在本申请的一些实施例中,所述装置还可以包括:
预测模块,用于将待预测样本特征输入所述结果LR模型进行计算,得到该待预测样本特征对应的预测结果,该待预测样本特征包括 ID类特征和/或非ID类特征。
在本申请的一些实施例中,所述第二训练模块,可以具体用于:
对所述ID类特征进行one-hot编码处理,得到与所述ID类特征对应的单元矩阵;
根据所述单元矩阵及各样本对应的叶子节点预测值矩阵对LR模型进行训练得到结果LR模型。
在本申请的一些实施例中,所述ID类特征包括多种ID特征,所述第二训练模块,可以具体用于:
分别对每种ID特征进行one-hot编码处理,得到每种ID特征对应的单元矩阵;
根据每种ID特征分别对应的单元矩阵得到所述ID类特征对应的单元矩阵。
在本申请的一些实施例中,所述第二训练模块,可以具体用于:
根据预先确定的与所述LR模型对应的目标ID特征从上述得到的每种ID特征对应的单元矩阵中获得每种目标ID特征对应的单元矩阵,将获得的各目标ID特征分别对应的单元矩阵作为所述ID类特征对应的单元矩阵,或将各目标ID特征对应分别对应的单元矩阵及至少两个目标ID特征分别对应的单元矩阵经乘积运算后得到的单元矩阵作为所述ID类特征对应的单元矩阵。
在本申请的一些实施例中,所述第一训练模块,可以具体用于:
对所述非ID类特征进行特征处理,得到处理后的非ID类特征;
根据处理后的非ID类特征对所述预设的集成树模型进行训练,得到所述结果集成树模型。
在本申请的一些实施例中,所述第一训练模块,可以具体用于:
对所述非ID类特征包括的多种非ID特征进行特征过滤;
对特征过滤后的多种非ID特征进行归一化处理;
对特征过滤后的多种非ID特征进行离散化处理。
在本申请的一些实施例中,所述第一训练模块,可以具体用于:
计算每种非ID特征的稀疏度;
将每种非ID特征的稀疏度与预设稀疏度进行比较;
将稀疏度小于所述预设稀疏度的非ID特征删除。
在本申请的一些实施例中,所述第一训练模块,还可以具体用于:
在对特征过滤后的多种非ID特征进行归一化处理之前,对每种非ID特征进行缺失值填充。
在本申请的一些实施例中,在所述对特征过滤后的多种非ID特征进行归一化处理之前,所述第一训练模块,还可以具体用于:
将属于时间类型特征的非ID特征通过差值计算转化为数值特征;
将属于字符串形式的非ID特征转化为对应的枚举值。
在本申请的一些实施例中,所述第一训练模块,还可以具体用于:
从所述非ID类特征的所有非ID特征中提取得到第一非ID特征集合及第二非ID特征集合;
计算第一非ID特征集合与第二非ID特征集合的相关度,其中,所述第一非ID特征集合包括一种或多种非ID特征,所述第二非ID 特征集合包括一种或多种非ID特征;
若计算得到的相关度大于预设值,则删除所述第一非ID特征集合或第二非ID特征集合;和/或,
根据预先确定的所述预设的集成树模型所需的非ID特征从所述非ID类特征中删除该预设的集成树模型不需要的非ID特征。
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的模型训练方法的步骤。
基于上述任一方面,本申请实施例可从多个样本中获得分为ID 类特征及非ID类特征的样本特征,并利用非ID类特征对预设的集成树模型进行训练,从而得到结果集成树模型。接着将每个样本对应的非ID类特征输入该结果集成树模型,以得到每个样本对应的叶子节点预测值矩阵。最后利用每个样本对应的叶子节点预测值矩阵及ID类特征对LR模型进行训练,得到结果LR模型。后续在使用该结果LR模型进行预测时可以使用ID类特征,从而改善预测结果,避免仅能根据非ID类特征进行预测而导致预测结果不佳的问题。同时,通过在训练LR模型时加入ID类特征,可避免由于在训练预设的集成树模型时加入ID类特征而导致训练复杂难度大幅增加。
为使本申请实施例的上述目的、特征和优点能更明显易懂,下面将结合实施例,并配合所附附图,作详细说明。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种模型训练系统的交互示意框图;
图2示出了本申请实施例所提供的可以实现图1的服务器、服务请求方终端、服务提供方终端的电子设备的示例性硬件和软件组件的示意图;
图3示出了本申请实施例所提供的模型训练方法的流程图之一;
图4示出了本申请实施例所提供的模型训练方法的流程图之二;
图5示出了本申请实施例所提供的模型训练装置的功能模块框图之一;
图6示出了本申请实施例所提供的模型训练装置的功能模块框图之二。
图标:100-模型训练系统;110-服务器;120-网络;130-服务请求方终端;140-服务提供方终端;150-数据库;200-电子设备;210- 网络端口;220-处理器;230-通信总线;240-存储介质;250-接口; 300-模型训练装置;310-特征提取模块;320-第一训练模块;330-获取模块;340-第二训练模块;350-预测模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“网约车打车”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕“网约车打车”进行描述,但是应该理解,这仅是一个示例性实施例。本申请可以应用于任何其他交通运输类型。例如,本申请可以应用于不同的运输系统环境,包括陆地,海洋,或航空等,或其任意组合。运输系统的交通工具可以包括出租车、私家车、顺风车、公共汽车、火车、子弹头列车、高速铁路、地铁、船只、飞机、宇宙飞船、热气球、或无人驾驶车辆等,或其任意组合。本申请还可以包括用于网约车打车的任何服务系统,例如,用于发送和/或接收快递的系统、用于买卖双方交易的服务系统。本申请的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等,或其任意组合。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
本申请中的术语“乘客”、“请求方”、“服务人员”、“服务请求方”和“客户”可互换使用,以指代可以请求或订购服务的个人、实体或工具。本申请中的术语“司机”、“提供方”、“服务提供方”和“供应商”可互换使用,以指代可以提供服务的个人、实体或工具。本申请中的术语“用户”可以指代请求服务、订购服务、提供服务或促成服务的提供的个人、实体或工具。例如,用户可以是乘客、驾驶员、操作员等,或其任意组合。在本申请中,“乘客”和“乘客终端”可以互换使用,“驾驶员”和“驾驶员终端”可以互换使用。
为了解决本申请背景中所述的至少一种技术问题,本申请实施例提供一种模型训练方法、装置、服务器及计算机可读存储介质,可从多个样本中获得分为ID类特征及非ID类特征的样本特征,并利用非ID类特征对预设的集成树模型进行训练,从而得到结果集成树模型。接着将每个样本对应的非ID类特征输入该结果集成树模型,以得到每个样本对应的叶子节点预测值矩阵。最后利用每个样本对应的叶子节点预测值矩阵及ID类特征对LR模型进行训练,得到结果LR 模型。因此,后续在使用该结果LR模型进行预测时可以使用ID类特征,从而改善预测结果,避免仅能根据非ID类特征进行预测。同时,通过在训练LR模型时加入ID类特征,可避免由于在训练预设的集成树模型时加入ID类特征而导致训练复杂难度大幅增加。下面通过可能的实现方式对本申请的技术方案进行说明。
图1是本申请一些实施例的模型训练系统100的框图。例如,模型训练系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台。模型训练系统100可以包括服务器110、网络120、服务请求方终端130、服务提供方终端140和数据库150中的一种或多种,服务器110中可以包括执行指令操作的处理器。
在一些实施例中,服务器110可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器 110可以是分布式系统)。在一些实施例中,服务器110相对于终端,可以是本地的、也可以是远程的。例如,服务器110可以经由网络120访问存储在服务请求方终端130、服务提供方终端140、或数据库150、或其任意组合中的信息和/或数据。作为另一示例,服务器 110可以直接连接到服务请求方终端130、服务提供方终端140和数据库150中至少一个,以访问存储的信息和/或数据。在一些实施例中,服务器110可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。在一些实施例中,服务器110可以在具有本申请中图2所示的一个或多个组件的电子设备200上实现。
在一些实施例中,服务器110可以包括处理器220。处理器220 可以处理与服务请求有关的信息和/或数据,以执行本申请中描述的一个或多个功能。例如,处理器220可以基于从服务请求方终端130 获得的服务请求来确定目标车辆。在一些实施例中,处理器220可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,处理器220可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit, ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器 (Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
网络120可以用于信息和/或数据的交换。在一些实施例中,模型训练系统100中的一个或多个组件(例如,服务器110,服务请求方终端130,服务提供方终端140和数据库150)可以向其他组件发送信息和/或数据。例如,服务器110可以经由网络120从服务请求方终端130获取服务请求。在一些实施例中,网络120可以是任何类型的有线或者无线网络,或者是他们的结合。仅作为示例,网络120 可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless Local Area Networks, WLAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public SwitchedTelephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near FieldCommunication,NFC)网络等,或其任意组合。在一些实施例中,网络120可以包括一个或多个网络接入点。例如,网络120可以包括有线或无线网络接入点,例如基站和/或网络交换节点,模型训练系统 100的一个或多个组件可以通过该接入点连接到网络120以交换数据和/或信息。
在一些实施例中,服务请求方终端130的用户可以是除服务实际需求者之外的其他人。例如,服务请求方终端130的用户A可以使用服务请求方终端130来为服务实际需求者B发起服务请求(比如,用户A可以为自己的朋友B叫车),或者从服务器110接收服务信息或指令等。在一些实施例中,服务提供方终端140的用户可以是服务实际提供者,也可以是除服务实际提供者之外的其他人。例如,服务提供方终端140的用户C可以使用服务提供方终端140接收由服务实际提供者D提供服务的服务请求(比如用户C可以为自己雇用的司机D接单),和/或来自服务器110的信息或指令。在一些实施例中,“服务请求方”和“服务请求方终端”可以互换使用,“服务提供方”和“服务提供方终端”可以互换使用。
在一些实施例中,服务请求方终端130可以包括移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等,或其任意组合。在一些实施例中,移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏设备、导航设备、或销售点(point of sale,POS)设备等,或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等,或其任意组合。例如,虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。在一些实施例中,机动车辆中的内置设备可以包括车载计算机、车载电视等。
数据库150可以存储数据和/或指令。在一些实施例中,数据库 150可以存储从服务请求方终端130和/或服务提供方终端140获得的数据。在一些实施例中,数据库150可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中,数据库150可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器 (Read-Only Memory,ROM)等,或其任意组合。作为举例,大容量存储器可以包括磁盘、光盘、固态驱动器等;可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等;易失性读写存储器可以包括随机存取存储器(Random Access Memory,RAM); RAM可以包括动态RAM(DynamicRandom Access Memory, DRAM),双倍数据速率同步动态RAM(Double Date-RateSynchronous RAM,DDR SDRAM);静态RAM(Static Random-Access Memory,SRAM),晶闸管RAM(Thyristor-Based Random Access Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例, ROM可以包括掩模ROM(Mask Read-Only Memory,MROM)、可编程ROM(ProgrammableRead-Only Memory,PROM)、可擦除可编程ROM(Programmable Erasable Read-onlyMemory,PEROM)、电可擦除可编程ROM(Electrically Erasable Programmable read onlymemory,EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM 等。在一些实施例中,数据库150可以在云平台上实现。仅作为示例,云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云或者其它类似的等,或其任意组合。
在一些实施例中,数据库150可以连接到网络120以与模型训练系统100(例如,服务器110,服务请求方终端130,服务提供方终端140等)中的一个或多个组件通信。模型训练系统100中的一个或多个组件可以经由网络120访问存储在数据库150中的数据或指令。在一些实施例中,数据库150可以直接连接到模型训练系统100中的一个或多个组件(例如,服务器110,服务请求方终端130,服务提供方终端140等);或者,在一些实施例中,数据库150也可以是服务器110的一部分。
在一些实施例中,模型训练系统100中的一个或多个组件(例如,服务器110,服务请求方终端130,服务提供方终端140等)可以具有访问数据库150的权限。在一些实施例中,当满足一定条件时,模型训练系统100中的一个或多个组件可以读取和/或修改与服务请求方、服务提供方、或公众、或其任意组合有关的信息。例如,服务器 110可以在接收服务请求之后读取和/或修改一个或多个用户的信息。
在一些实施例中,可以通过请求服务来实现模型训练系统100 中的一个或多个组件的信息交换。服务请求的对象可以是任何产品。在一些实施方案中,产品可以是有形产品或非物质产品。有形产品可包括食品、药品、商品、化学产品、电器、服装、汽车、房屋、或奢侈品等,或其任意组合。非物质产品可以包括服务产品、金融产品、知识产品、或互联网产品等,或其任意组合。互联网产品可以包括单独的主机产品、网络产品、移动互联网产品、商业主机产品、或嵌入式产品等,或其任意组合。互联网产品可以用在移动终端的软件、程序、或系统等,或者它们的任意组合中。移动终端可以包括平板电脑、笔记本电脑、移动电话、个人数字助理(Personal Digital Assistant, PDA)、智能手表、销售点(Point of sales,POS)设备、车载电脑、车载电视、或可穿戴设备等,或其任意组合。例如,互联网产品可以是计算机或移动电话中使用的任何软件和/或应用程序。软件和/或应用程序可以涉及社交、购物、运输、娱乐时间、学习、或投资等,或其任意组合。在一些实施例中,与运输有关的软件和/或应用程序可以包括旅行软件和/或应用程序、车辆调度软件和/或应用程序、绘图软件和/或应用程序等。在车辆调度软件和/或应用程序中,车辆可包括马、马车、人力车(例如,独轮车、自行车、三轮车等)、汽车(例如,出租车、公共汽车、私家车等)、火车、地铁、船只、飞机(例如,飞机、直升机、航天飞机、火箭、热气球等)等,或其任意组合。
图2示出根据本申请的一些实施例的可以实现本申请思想的服务器110、服务请求方终端130、服务提供方终端140的电子设备200 的示例性硬件和软件组件的示意图。例如,处理器220可以用于电子设备200上,并且用于执行本申请中的功能。
电子设备200可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的模型训练方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口250。
为了便于说明,在电子设备200中仅描述了一个处理器。然而,应当注意,本申请中的电子设备200还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备200的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A 和B。
图3示出了本申请实施例所提供的模型训练方法的流程图之一。该方法可应用于图1中的服务器110,由图1中所示的服务器110执行。应当理解,在其它实施例中,本实施例所述的模型训练方法中的部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。下面对图3所示的模型训练方法的流程进行详细描述。
步骤S110,从多个样本中获得样本特征。
在本实施例中,可从各个离线数据表中获得多个样本,并从每个样本中进行特征提取,以得到所述样本特征。其中,该样本特征可以为大规模结构化特征。结构化特征是指还不能直接作为后续训练模型时使用的特征的一个数据,是原始数据。其中,此时的结构化特征可以为键值对(key value,KV)的形式,比如,注册时间+2014.8.01 (具体的注册时间)。对于不能直接使用的结构化特征,后续可经过特征处理后使用。其中,所述样本特征包括的多种特征中,可以根据每种特征的特征属性判断该种特征是否属于ID类特征,以将包括多种特征的样本特征分为ID类特征及非ID类特征两类。可选地,可以根据该特征是否包括ID信息,以确定该特征是否为ID类特征。当然可以理解的是,也可以根据其他方式将样本特征划分为ID类特征及非ID类特征。ID类特征维度高、无实际物理意义;非ID类特征维度低,能够表示实际含义。
以网约车应用程序为例,从各个离线数据表中提取得到的大规模结构化特征可包括:司机ID、乘客ID、车辆ID、司机性别、司机年龄、司机完单记录、司机每单的金额记录等。其中,司机ID可以为司机注册时分配的一组数字,乘客ID可以为乘客注册时分配的一组数字,车辆ID可以为车牌号。上述特征此时可能为字符串形式,后续使用前可以先将其转化为数值类型。在提取得到样本特征后,根据每种特征的特征属性将所述样本特征分为ID类特征及非ID类特征,比如,ID类型特征可以包括乘客ID、司机ID等;非ID类特征可以包括乘客快车完单数、司机过去一周GMV(Gross Merchandise Volume,网站成交金额)等。
可选地,服务请求方终端130在完成注册后,会有相应的注册记录保存在服务器110或数据库150的数据表中。相应地,服务请求方终端130向服务提供方终端140发送服务提供请求、服务提供方终端 140向服务请求方终端130提供服务等都会有相应的记录生成,该记录可保存在服务器110或数据库150中。在训练模型时,服务器110 可从各离线数据表中得到所述样本特征。
步骤S120,根据所述非ID类特征对预设的集成树模型进行训练得到结果集成树模型。
在本实施例中,首先利用所述非ID类特征对预设的集成树模型进行训练,在训练完成后得到结果集成树模型。其中,该预设的集成树模型可以是,但不限于,XGBoost模型、Random Forest模型等。在本实施例的一种实施方式中,考虑到XGBoost模型的敏感性,优选采用XGBoost模型进行训练。
在本申请的一些实施例中,步骤S120可以通过以下方式实现:对所述非ID类特征进行特征处理,得到处理后的非ID类特征;根据处理后的非ID类特征对所述预设的集成树模型进行训练,得到所述结果集成树模型。
由于可能存在一部分非ID类特征并不能直接用于模型训练,因此需要先对非ID类特征进行特征处理。处理后的特征属于预先确定的预设的集成树模型所需的非ID特征、可以直接用于模型训练。比如,字符串形式的特征处理为数值类型的特征。
作为一种实施方式中,可以通过以下方式对所述非ID类特征进行特征处理:首先,对所述非ID类特征包括的多种非ID特征进行特征过滤;然后,对特征过滤后的多种非ID特征进行归一化处理;最后,对特征过滤后的多种非ID特征进行离散化处理。
通过进行特征过滤可以避免由于某些非ID特征对应的数据过少,导致并不能成功完成模型训练,或虽然可以完成模型训练,但得到的结果集成树模型预测准确性不高。
在本实施例的一种实施方式中,可以通过以下步骤实现特征过滤:计算每种非ID特征的稀疏度;将每种非ID特征的稀疏度与预设稀疏度进行比较;将稀疏度小于所述预设稀疏度的非ID特征删除。
具体地,可以根据样本数量、每种非ID特征下数据的数量计算得到该种非ID特征的稀疏度。若计算得到的稀疏度小于所述预设稀疏度,表示该种非ID特征过于稀疏,不适合用于模型训练,因此将该种非ID特征删除。若计算得到的稀疏度不小于所述预设稀疏度,表示该种非ID特征的稀疏度满足要求,可用于模型训练,因此保留该种非ID特征。由此,可将因数据丢失或无数据导致稀疏度过低的非ID特征删除,避免稀疏度过低的非ID特征对模型训练产生影响。其中,无数据是指该特征下无数据,比如,某个乘客在注册完成后,并未进行打车,那么该乘客的首次打车时间则为无。可选地,每种非 ID特征对应的预设稀疏度可以相同,也可以不同,具体数值可以根据该特征的特征属性确定。
比如,所述非ID类特征包括A、B、C、D四种。其中,A的稀疏度小于预设稀疏度,B、C、D的稀疏度均不小于预设稀疏度,则将非ID特征A删除。经上述处理后,此时得到的非ID类特征包括 B、C、D三种非ID特征。
在完成稀疏度筛选后,若此时非ID类特征均为数值类型特征,则可直接对特征过滤后的多种非ID特征进行归一化处理,以将同一非ID特征下的数据映射到同一值空间范围内,比如(0,1)之间,从而便于针对该种非ID特征进行分析。其中,在归一化处理时采用的方式可以是,但不限于,最大最小归一化、标准归一化、log等其它非线性函数归一化等。可选地,可以根据每种非ID特征的特点选择使用哪种归一化方式进行归一化处理,以确保归一化处理结果最佳。其中,归一化处理结果最佳是指一个非ID特征的数据经归一化处理后,稀疏的部分更加稀疏,密的部分更密。
在完成稀疏度筛选后,若此时非ID类特征均为数值类型特征,则可以直接对特征过滤后的多种非ID特征进行离散化处理,即将每种非ID特征按照实际数据的情况分成一段段或一个个的离散特征值,以将一些数据量化到具体的特征上。比如,以网约车应用程序为例,司机过去完单金额可以为任何数值,可以将该特征下离散的单个数据处理为一段段离散特征值,如,过去完单金额分为:0~20、20~50、 50~80、80~100、100~500等。或者,将关于司机完单情况的特征处理为总的完单数、总的取消数,将司机的拉单金额记录处理为总的拉单金额、最近十天总的拉单金额等。
可选地,在对特征过滤后的多种非ID特征进行归一化、离散化处理之前,可以先根据经特征过滤后的每种非ID特征的具体特点判断是否需要进行归一化和/或离散化处理。其中,是否需要进行归一化和/或离散化处理的条件可以根据实际需求进行确定。比如,某种特征下的数据并不具备实际意义,则可以不进行归一化、离散化处理。
在本实施例的一种实施方式中,为避免非ID特征中的缺失值对模型训练有影响,可以在对特征过滤后的多种非ID特征进行归一化处理之前,对每种非ID特征进行缺失值填充,以保证每种非ID特征下数据尽可能完整。
可选地,可以利用中位数进行缺失值填充,也可以利用均值进行缺失值填充,还可以利用最大值进行缺失值填充,还可以利用最小值进行缺失值填充。值得说明的是,上述缺失值填充方式仅为举例说明,也可以采用其它方式实现缺失值填充。
在本实施例的一种实施方式中,在完成稀疏度筛选后,若此时非 ID类特征中存在不为数值类型特征的非ID特征,则可以在对特征过滤后的多种非ID特征进行归一化处理之前,将属于时间类型特征的非ID特征通过差值计算转化为数值特征;将属于字符串形式的非ID 特征转化为对应的枚举值。
将与时间类型相关的非ID特征经过差值计算可得到有实际意义的数据数值。比如,一非ID特征为乘客注册时间及乘客首次完单时间,该特征此时仅为两个时间点,通过差值计算后可得到乘客注册到完单之间的天数,使得该特征具有实际意义,后续在训练预设的集成树模型时可以进行完单天数方面的训练。
可以将字符串形式的非ID特征通过虚拟编码(Dummy Coding) 转化为整数值,以便于后续训练模型时使用。比如,乘客消费水平有实际含义,需要量化成连续的整数值,但整数值本身不具备实际意义。乘客消费水平分为高、低、中,则可以用100表示消费水平高、010 表示消费水平中、001表示消费水平低,由此可将不同的消费水平用枚举值进行表示。若后续在使用模型预测得到的消费水平为100,则表示消费水平高。
在本实施例的一种实施方式中,在经过上述特征处理后,还可以进行降维处理,以减小所述非ID类特征的维度,从而降低训练预设的集成树模型的复杂度。
可选地,可以通过以下方式对所述非ID类特征进行降维处理:从所述非ID类特征的所有非ID特征中提取得到第一非ID特征集合及第二非ID特征集合;计算第一非ID特征集合与第二非ID特征集合的相关度,其中,所述第一非ID特征集合包括一种或多种非ID 特征,所述第二非ID特征集合包括一种或多种非ID特征;若计算得到的相关度大于预设值,则删除所述第一非ID特征集合或第二非 ID特征集合;和/或,根据预先确定的所述预设的集成树模型所需的非ID特征从所述非ID类特征中删除该预设的集成树模型不需要的非ID特征。
在经过上述一系列的特征处理后,可以从此时所述非ID类特征中选出任意一种或多种非ID特征组成第一非ID特征集合,从所述非ID类特征中剩余的非ID特征中选出任意一种或多种非ID特征组成第二非ID特征集合。然后计算该第一非ID特征集合与该第二非 ID特征集合的相关度。若计算得到的相关度不大于预设值,表示该第一非ID特征集合与该第二非ID特征集合的相关度较低,不能用第一非ID特征集合描述第二非ID特征集合,或不能用第二非ID特征集合描述第一非ID特征集合。在这种情况下,可以同时保留该第一非ID特征集合及第二非ID特征集合。
若计算得到的相关度大于预设值,表示第一非ID特征集合与所述第二非ID特征集合的相关度比较高,可以用第一非ID特征集合描述第二非ID特征集合,或用第二非ID特征集合描述第一非ID特征集合。在这种情况下,可以通过删除第一非ID特征集合或第二非 ID特征集合,以实现降维。
比如,所述非ID类特征包括A、B、C三种非ID特征,若A、 B两种非ID特征的相关度比较高,表示非ID特征A可以被非ID特征B描述,则可以删除A或B,使得非ID类特征包括两种非ID特征:A、C或B、C。若A、B两种非ID特征的相关度较低,则可以同时保留A、B。
由此,通过计算此时所述非ID类特征中任意一种或多种非ID 特征与其它一种或多种非ID特征之间的相关度,删除所述非ID类特征中的一些非必要的非ID特征,可实现降维。
还可以将此时所述非ID类特征中的非ID特征与预先确定的所述预设的集成树模型所需的非ID特征进行比对,若一种非ID特征为所述预设的集成树模型所需的多种非ID特征之一,则表示该非ID 特征为需要保留的非ID特征。由此,则可以筛选出所述非ID类特征包括的该预设的集成树模型不需要的非ID特征,通过删除该特征即可实现降维。
比如,此时非ID类特征包括a1、a2、a3、a4、a5五种非ID特征,而预设的集成树训练模型在训练时不需要使用非ID特征a2,则可以将非ID特征a2删除。
在本实施例的一种方式中,通过PCA(Principal Component Analysis,主成分分析)进行降维。
作为一种实施方式,具体的特征处理顺序如下。在得到多个非ID 特征后,首先进行稀疏度筛选,将稀疏度小于预设稀疏度的非ID特征过滤掉。然后对剩余的非ID特征中属于时间类型特征的非ID特征进行差值计算,以转化为数值特征。接着将所述剩余的非ID特征中以字符串形式表示的非ID特征转化为对应的枚举值。由此,将经过稀疏度筛选后的非ID特征均转换为数值类型的特征。然后对每种非ID特征进行缺失值填充。接着对需要进行归一化和/或离散化处理的非ID特征进行归一化和/或离散化处理。最后通过相关性分析进行降维。
步骤S130,将每个样本对应的非ID类特征输入所述结果集成树模型得到每个样本对应的叶子节点预测值矩阵。
在得到结果集成树模型后,通过该结果集成树模型对经过特征处理后的非ID特征进行预测,即将每个样本对应的经过上述特征处理后的非ID特征输入到所述结果集成树模型中,每个样本对应所述结果集成树中每棵树的叶子节点值,输出一个叶子节点预测值矩阵。假设该结果集成树模型的子树的数量为N,样本数量为M,则将各样本对应的非ID类特征输入该结果集成树模型后,得到的矩阵维度为 M*N。由此,此时使用的是经结果集成树模型的中间结果。
步骤S140,根据各所述样本对应的叶子节点预测值矩阵及所述 ID类特征对LR模型进行训练得到结果LR模型。
在得到经由所述结果集成树模型得到的叶子节点预测值矩阵后,利用ID类特征及上述各样本对应的叶子节点预测值矩阵对LR (Logistic Regression,逻辑回归)模型进行训练,得到结果LR模型。也就是说,先使用所述结果集成树模型包括的N棵树进行预测,每棵树的预测结果为Tn,其中,该结果集成树模型不使用ID类特征。将这些预测结果作为特征用来训练LR=a1T1+a2T2+...anTn+ID类中的参数a1,...,an。由此,在训练LR模型时加入ID类特征,可避免直接在训练预设的集成树模型时导致训练复杂程度增加;同时,由于训练LR模型时加入了ID类特征,后续在使用结果LR模型时可以使用ID类特征,由此可改善预测结果,避免在仅能根据非ID类特征进行预测时,由于非ID特征丢失过多导致预测结果的准确性极低。
在本实施例的一种实施方式中,可以通过以下方式得到所述结果 LR模型:对所述ID类特征进行one-hot编码处理,得到与所述ID 类特征对应的单元矩阵;根据所述单元矩阵及各样本对应的叶子节点预测值矩阵对LR模型进行训练得到结果LR模型。
one-hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。通过one-hot编码处理可将每种ID特征下的ID数值转换为一个向量,进而得到所述ID类特征对应的单元矩阵。然后将该ID类特征对应的单元矩阵、各样本对应的叶子节点预测值矩阵作为训练LR模型的特征,经训练得到所述结果LR模型。其中,若有k个ID类特征,每个特征的空间维度为Dk。若将各样本对应的叶子节点预测值矩阵及ID类特征对应的单元矩阵合并为新矩阵,则矩阵维度为M*(N+∑Dk)。
比如,有5位乘客,每位乘客的乘客ID依次为1、2、3、4、5。虽然乘客ID直接为数值形式,但并不能在后续训练LR模型时直接使用。通过one-hot编码,可将上述乘客ID依次处理为:10000、01000、 00100、00010、00001,进而得到乘客ID的单元矩阵,每个特征值的空间维度为5。
在本实施例的一种实施方式中,可以通过以下方式得到与所述 ID类特征对应的单元矩阵。
在所述ID类特征仅包括一种ID特征时,将该ID特征下的各ID 数值进行one-hot编码处理后,即得到该ID特征对应的单元矩阵。由于所述ID类特征仅包括一种ID特征,因此,该ID特征对应的单元矩阵即为该ID类特征对应的单元矩阵。
在所述ID类特征包括多种ID特征时,分别对每种ID特征下的各ID数据进行one-hot编码处理,以得到各种ID特征对应的单元矩阵,并根据各种ID特征对应的单元矩阵得到所述ID类特征对应的单元矩阵。
在本实施例的一种实施方式中,在得到各种ID特征对应的单元矩阵后,可通过以下方式得到所述ID类特征对应的单元矩阵。根据预先确定的与所述LR模型对应的目标ID特征从上述得到的每种ID 特征对应的单元矩阵中获得每种目标ID特征对应的单元矩阵,将获得的各目标ID特征分别对应的单元矩阵作为所述ID类特征对应的单元矩阵,或将各目标ID特征对应分别对应的单元矩阵及至少两个目标ID特征分别对应的单元矩阵经乘积运算后得到的单元矩阵作为所述ID类特征对应的单元矩阵。
首先根据所述LR模型需要的目标ID特征从多个ID特征的单元矩阵中得到与每个目标ID特征对应的单元矩阵。当然可以理解的是,若所述LR模型需要所有的ID特征,则所述ID类特征包括的每种ID 特征均为目标ID特征。
接着根据实际情况确定直接将各目标ID特征对应的单元矩阵作为所述ID类特征对应的单元矩阵,或经过计算后将各目标ID特征对应的单元矩阵及计算后得到的单元矩阵作为所述ID类特征对应的单元矩阵。可选地,可以根据每种目标ID特征矩阵的维度以确定是否基于至少两个目标ID特征矩阵经乘积运算后生成一个新的单元矩阵,并将新的单元矩阵与各目标ID特征对应的单元矩阵一起作为所述ID类特征对应的单元矩阵。
比如,ID类特征包括的ID特征有:司机ID、车辆ID、城市ID、路线ID、乘客ID。若一LR模型仅与司机ID、车辆ID、路线ID相关,则与该LR模型对应的目标ID特征为司机ID、车辆ID、路线ID。若一LR模型与司机ID、车辆ID、城市ID、路线ID、乘客ID均相关,则该ID类特征包括的ID特征均为目标ID特征。
假设目标ID特征为:司机ID、车辆ID、城市ID、乘客ID,各目标ID特征的单元矩阵分别为:司机ID的单元矩阵a、车辆ID的单元矩阵b、城市ID的单元矩阵c、乘客ID的单元矩阵d。若a、b、 c、d四个单元矩阵的维度都比较高,则可直接将上述四个单元矩阵作为所述ID类特征对应的单元矩阵。每个单元矩阵在后续进行LR 模型时作为一个特征。若a、b、c、d四个单元矩阵中b、c的维度较低,则可将b、c进行乘积运算,生成一个新的单元矩阵,将a、b、 c、d四个单元矩阵及生成的新的单元矩阵作为所述ID类特征对应的单元矩阵,即,此时所述ID类特征对应的单元矩阵包括5个单元矩阵。
图4示出了本申请实施例所提供的模型训练方法的流程示意图之二。在步骤S140之后,所述模型训练方法还可以包括如下步骤:
步骤S150,将待预测样本特征输入所述结果LR模型进行计算,得到该待预测样本特征对应的预测结果。
在训练得到所述结果LR模型后,在使用该结果LR模型进行预测时,比如,用来预测用户与打车有关或无关的行为时,可以将待预测样本特征进行处理,然后将处理后的待预测样本特征输入到该结果 LR模型中,得到预测结果。其中,对待预测样本特征进行处理的处理方式与训练得到该结果LR模型时对特征的处理方式相同。该待预测样本特征包括ID类特征和/或非ID类特征。由此,该结果LR模型既可以仅根据非ID类特征进行预测;也可以在使用非ID类特征的基础上,结合ID类特征进行预测,以改善预测结果。
图5示出了本申请一些实施例提供的模型训练装置300的功能模块框图。该模型训练装置300实现的功能对应上述方法执行的步骤。该模型训练装置300可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,如图所示,模型训练装置300可以包括特征提取模块310、第一训练模块320、获取模块330及第二训练模块340。
特征提取模块310,用于从多个样本中获得样本特征。其中,所述样本特征包括ID类特征及非ID类特征。
第一训练模块320,可以用于根据所述非ID类特征对预设的集成树模型进行训练得到结果集成树模型。
获取模块330,用于将每个样本对应的非ID类特征输入所述结果集成树模型得到每个样本对应的叶子节点预测值矩阵。
第二训练模块340,用于根据各所述样本对应的叶子节点预测值矩阵及所述ID类特征对逻辑回归LR模型进行训练得到结果LR模型。
在本申请的一些实施例中,所述第二训练模块340,可以具体用于:
对所述ID类特征进行one-hot编码处理,得到与所述ID类特征对应的单元矩阵;
根据所述单元矩阵及各样本对应的叶子节点预测值矩阵对LR模型进行训练得到结果LR模型。
在本申请的一些实施例中,所述ID类特征包括多种ID特征,所述第二训练模块340,可以具体用于:
分别对每种ID特征进行one-hot编码处理,得到每种ID特征对应的单元矩阵;
根据每种ID特征分别对应的单元矩阵得到所述ID类特征对应的单元矩阵。
在本申请的一些实施例中,所述第二训练模块340,可以具体用于:
根据预先确定的与所述LR模型对应的目标ID特征从上述得到的每种ID特征对应的单元矩阵中获得每种目标ID特征对应的单元矩阵,将获得的各目标ID特征分别对应的单元矩阵作为所述ID类特征对应的单元矩阵,或将各目标ID特征对应分别对应的单元矩阵及至少两个目标ID特征分别对应的单元矩阵经乘积运算后得到的单元矩阵作为所述ID类特征对应的单元矩阵。
在本申请的一些实施例中,所述第一训练模块320,可以具体用于:
对所述非ID类特征进行特征处理,得到处理后的非ID类特征;
根据处理后的非ID类特征对所述预设的集成树模型进行训练,得到所述结果集成树模型。
在本申请的一些实施例中,所述第一训练模块320,可以具体用于:
对所述非ID类特征包括的多种非ID特征进行特征过滤;
对特征过滤后的多种非ID特征进行归一化处理;
对特征过滤后的多种非ID特征进行离散化处理。
在本申请的一些实施例中,所述第一训练模块320,可以具体用于:
计算每种非ID特征的稀疏度;
将每种非ID特征的稀疏度与预设稀疏度进行比较;
将稀疏度小于所述预设稀疏度的非ID特征删除。
在本申请的一些实施例中,所述第一训练模块320,还可以具体用于:
在对特征过滤后的多种非ID特征进行归一化处理之前,对每种非ID特征进行缺失值填充。
在本申请的一些实施例中,在所述对特征过滤后的多种非ID特征进行归一化处理之前,所述第一训练模块320,还可以具体用于:
将属于时间类型特征的非ID特征通过差值计算转化为数值特征;
将属于字符串形式的非ID特征转化为对应的枚举值。
在本申请的一些实施例中,所述第一训练模块320,还可以具体用于:
从所述非ID类特征的所有非ID特征中提取得到第一非ID特征集合及第二非ID特征集合;
计算第一非ID特征集合与第二非ID特征集合的相关度,其中,所述第一非ID特征集合包括一种或多种非ID特征,所述第二非ID 特征集合包括一种或多种非ID特征;
若计算得到的相关度大于预设值,则删除所述第一非ID特征集合或第二非ID特征集合;和/或,
根据预先确定的所述预设的集成树模型所需的非ID特征从所述非ID类特征中删除该预设的集成树模型不需要的非ID特征。
在本申请的一些实施例中,请参照图6,所述模型训练装置300 还可以包括预测模块350。
预测模块350,用于将待预测样本特征输入所述结果LR模型进行计算,得到该待预测样本特征对应的预测结果,该待预测样本特征包括ID类特征和/或非ID类特征。
由于本申请实施例中的模型训练装置300解决问题的原理与本申请实施例上述模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述模型训练方法的步骤。
本申请实施例所提供的模型训练方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的模型训练方法的步骤,具体可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (24)

1.一种模型训练方法,其特征在于,所述方法包括:
从多个样本中获得样本特征,其中,所述样本特征包括ID类特征及非ID类特征;
根据所述非ID类特征对预设的集成树模型进行训练得到结果集成树模型;
将每个样本对应的非ID类特征输入所述结果集成树模型得到每个样本对应的叶子节点预测值矩阵;
根据各所述样本对应的叶子节点预测值矩阵及所述ID类特征对逻辑回归LR模型进行训练得到结果LR模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将待预测样本特征输入所述结果LR模型进行计算,得到该待预测样本特征对应的预测结果,该待预测样本特征包括ID类特征和/或非ID类特征。
3.根据权利要求1或2所述的方法,其特征在于,所述根据各所述样本对应的叶子节点预测值矩阵及所述ID类特征对LR模型进行训练得到结果LR模型,包括:
对所述ID类特征进行one-hot编码处理,得到与所述ID类特征对应的单元矩阵;
根据所述单元矩阵及各样本对应的叶子节点预测值矩阵对LR模型进行训练得到结果LR模型。
4.根据权利要求3所述的方法,其特征在于,所述ID类特征包括多种ID特征,所述对所述ID类特征进行one-hot编码处理,得到与所述ID类特征对应的单元矩阵,包括:
分别对每种ID特征进行one-hot编码处理,得到每种ID特征对应的单元矩阵;
根据每种ID特征分别对应的单元矩阵得到所述ID类特征对应的单元矩阵。
5.根据权利要求4所述的方法,其特征在于,所述根据每种ID特征分别对应的单元矩阵得到所述ID类特征对应的单元矩阵,包括:
根据预先确定的与所述LR模型对应的目标ID特征从上述得到的每种ID特征对应的单元矩阵中获得每种目标ID特征对应的单元矩阵,将获得的各目标ID特征分别对应的单元矩阵作为所述ID类特征对应的单元矩阵,或将各目标ID特征对应分别对应的单元矩阵及至少两个目标ID特征分别对应的单元矩阵经乘积运算后得到的单元矩阵作为所述ID类特征对应的单元矩阵。
6.根据权利要求1或2所述的方法,其特征在于,所述根据所述非ID类特征对预设的集成树模型进行训练得到结果集成树模型,包括:
对所述非ID类特征进行特征处理,得到处理后的非ID类特征;
根据处理后的非ID类特征对所述预设的集成树模型进行训练,得到所述结果集成树模型。
7.根据权利要求6所述的方法,其特征在于,所述对所述非ID类特征进行特征处理,包括:
对所述非ID类特征包括的多种非ID特征进行特征过滤;
对特征过滤后的多种非ID特征进行归一化处理;
对特征过滤后的多种非ID特征进行离散化处理。
8.根据权利要求7所述的方法,其特征在于,所述对所述非ID类特征包括的多种非ID特征进行特征过滤,包括:
计算每种非ID特征的稀疏度;
将每种非ID特征的稀疏度与预设稀疏度进行比较;
将稀疏度小于所述预设稀疏度的非ID特征删除。
9.根据权利要求7所述的方法,其特征在于,所述对所述非ID类特征进行特征处理,还包括:
在对特征过滤后的多种非ID特征进行归一化处理之前,对每种非ID特征进行缺失值填充。
10.根据权利要求7所述的方法,其特征在于,在所述对特征过滤后的多种非ID特征进行归一化处理之前,所述对所述非ID类特征进行特征处理,还包括:
将属于时间类型特征的非ID特征通过差值计算转化为数值特征;
将属于字符串形式的非ID特征转化为对应的枚举值。
11.根据权利要求10所述的方法,其特征在于,所述对所述非ID类特征进行特征处理,还包括:
从所述非ID类特征的所有非ID特征中提取得到第一非ID特征集合及第二非ID特征集合;
计算第一非ID特征集合与第二非ID特征集合的相关度,其中,所述第一非ID特征集合包括一种或多种非ID特征,所述第二非ID特征集合包括一种或多种非ID特征;
若计算得到的相关度大于预设值,则删除所述第一非ID特征集合或第二非ID特征集合;和/或,
根据预先确定的所述预设的集成树模型所需的非ID特征从所述非ID类特征中删除该预设的集成树模型不需要的非ID特征。
12.一种模型训练装置,其特征在于,所述装置包括:
特征提取模块,用于从多个样本中获得样本特征,其中,所述样本特征包括ID类特征及非ID类特征;
第一训练模块,用于根据所述非ID类特征对预设的集成树模型进行训练得到结果集成树模型;
获取模块,用于将每个样本对应的非ID类特征输入所述结果集成树模型得到每个样本对应的叶子节点预测值矩阵;
第二训练模块,用于根据各所述样本对应的叶子节点预测值矩阵及所述ID类特征对逻辑回归LR模型进行训练得到结果LR模型。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
预测模块,用于将待预测样本特征输入所述结果LR模型进行计算,得到该待预测样本特征对应的预测结果,该待预测样本特征包括ID类特征和/或非ID类特征。
14.根据权利要求12或13所述的装置,其特征在于,所述第二训练模块,具体用于:
对所述ID类特征进行one-hot编码处理,得到与所述ID类特征对应的单元矩阵;
根据所述单元矩阵及各样本对应的叶子节点预测值矩阵对LR模型进行训练得到结果LR模型。
15.根据权利要求14所述的装置,其特征在于,所述ID类特征包括多种ID特征,所述第二训练模块,具体用于:
分别对每种ID特征进行one-hot编码处理,得到每种ID特征对应的单元矩阵;
根据每种ID特征分别对应的单元矩阵得到所述ID类特征对应的单元矩阵。
16.根据权利要求15所述的装置,其特征在于,所述第二训练模块,具体用于:
根据预先确定的与所述LR模型对应的目标ID特征从上述得到的每种ID特征对应的单元矩阵中获得每种目标ID特征对应的单元矩阵,将获得的各目标ID特征分别对应的单元矩阵作为所述ID类特征对应的单元矩阵,或将各目标ID特征对应分别对应的单元矩阵及至少两个目标ID特征分别对应的单元矩阵经乘积运算后得到的单元矩阵作为所述ID类特征对应的单元矩阵。
17.根据权利要求12或13所述的装置,其特征在于,所述第一训练模块,具体用于:
对所述非ID类特征进行特征处理,得到处理后的非ID类特征;
根据处理后的非ID类特征对所述预设的集成树模型进行训练,得到所述结果集成树模型。
18.根据权利要求17所述的装置,其特征在于,所述第一训练模块,具体用于:
对所述非ID类特征包括的多种非ID特征进行特征过滤;
对特征过滤后的多种非ID特征进行归一化处理;
对特征过滤后的多种非ID特征进行离散化处理。
19.根据权利要求18所述的装置,其特征在于,所述第一训练模块,具体用于:
计算每种非ID特征的稀疏度;
将每种非ID特征的稀疏度与预设稀疏度进行比较;
将稀疏度小于所述预设稀疏度的非ID特征删除。
20.根据权利要求18所述的装置,其特征在于,所述第一训练模块,还具体用于:
在对特征过滤后的多种非ID特征进行归一化处理之前,对每种非ID特征进行缺失值填充。
21.根据权利要求18所述的装置,其特征在于,在所述对特征过滤后的多种非ID特征进行归一化处理之前,所述第一训练模块,还具体用于:
将属于时间类型特征的非ID特征通过差值计算转化为数值特征;
将属于字符串形式的非ID特征转化为对应的枚举值。
22.根据权利要求21所述的装置,其特征在于,所述第一训练模块,还具体用于:
从所述非ID类特征的所有非ID特征中提取得到第一非ID特征集合及第二非ID特征集合;
计算第一非ID特征集合与第二非ID特征集合的相关度,其中,所述第一非ID特征集合包括一种或多种非ID特征,所述第二非ID特征集合包括一种或多种非ID特征;
若计算得到的相关度大于预设值,则删除所述第一非ID特征集合或第二非ID特征集合;和/或,
根据预先确定的所述预设的集成树模型所需的非ID特征从所述非ID类特征中删除该预设的集成树模型不需要的非ID特征。
23.一种服务器,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当服务器运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至11任一所述的模型训练方法的步骤。
24.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至11任一所述的模型训练方法的步骤。
CN201811476027.2A 2018-12-04 2018-12-04 模型训练方法、装置、服务器及计算机可读存储介质 Pending CN111275062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811476027.2A CN111275062A (zh) 2018-12-04 2018-12-04 模型训练方法、装置、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811476027.2A CN111275062A (zh) 2018-12-04 2018-12-04 模型训练方法、装置、服务器及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111275062A true CN111275062A (zh) 2020-06-12

Family

ID=71003037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811476027.2A Pending CN111275062A (zh) 2018-12-04 2018-12-04 模型训练方法、装置、服务器及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111275062A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN111882415A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种质量检测模型的训练方法和相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN111882415A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种质量检测模型的训练方法和相关装置

Similar Documents

Publication Publication Date Title
TWI670677B (zh) 用於推薦預估到達時間的系統和方法
JP6677802B2 (ja) 到着時間を推定するための方法およびシステム
AU2018282300B2 (en) Systems and methods for allocating service requests
CN111476588B (zh) 订单需求预测方法、装置、电子设备及可读存储介质
CN110537212B (zh) 确定预估到达时间的系统与方法
AU2017410523A1 (en) System and method for determining safety score of driver
CN111105120B (zh) 一种工单处理方法及装置
WO2018171531A1 (en) System and method for predicting classification for object
JP7047096B2 (ja) オンラインツーオフラインサービスに関する推定された到着時間を決定するためのシステムおよび方法
CN111353092B (zh) 服务推送方法、装置、服务器及可读存储介质
CN109791731B (zh) 一种预估到达时间的方法和系统
CN111274472A (zh) 信息推荐方法、装置、服务器及可读存储介质
CN111104585B (zh) 一种问题推荐方法及装置
WO2021056127A1 (en) Systems and methods for analyzing sentiment
CN111367575A (zh) 一种用户行为预测方法、装置、电子设备及存储介质
TW201842474A (zh) 活動推薦系統和方法
CN111275062A (zh) 模型训练方法、装置、服务器及计算机可读存储介质
CN111489214A (zh) 订单分配方法、条件设置方法、装置及电子设备
CN110458664B (zh) 一种用户出行信息预测方法、装置、设备及存储介质
CN111274471A (zh) 信息推送方法、装置、服务器及可读存储介质
CN111222932A (zh) 订单周期计算方法、装置及电子设备
CN115718740A (zh) 用于稀疏时间序列数据集的数据插补的方法和装置
CN110146102B (zh) 路径规划方法、装置、设备和存储介质
CN111259229B (zh) 一种问题推荐方法及装置
CN111274106B (zh) 订单数据分析方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200612