CN112036665A

CN112036665A - 一种基于连续特征的预测方法、系统和装置

Info

Publication number: CN112036665A
Application number: CN202011004961.1A
Authority: CN
Inventors: 孟格思; 潘佳锋; 薛淼; 李敏
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-04

Abstract

本说明书提供一种基于连续特征的预测方法，所述方法包括将实体的至少一个连续特征通过对应的二叉树模型映射为至少一个第一独热编码，然后预测模型基于至少一个第一独热编码获取实体的预测结果。其中，每一个连续特征对应一个二叉树模型，使得基于连续特征映射得到的第一独热编码可以包含更多的信息量，从而提高预测模型的准确性。

Description

一种基于连续特征的预测方法、系统和装置

技术领域

本申请涉及机器学习领域，特别涉及一种基于连续特征的预测方法、系统和装置。

背景技术

在机器学习领域，预测模型可以根据实体的特征实体的特征对实体进行预测(例如，对用户是否喜欢商品进行预测)。实体的特征实体的特征包括连续特征和离散特征。未经处理的连续特征或者将连续特征简单离散后得到的独热编码，均不能有效利用连续特征的信息。

因此，有必要提供一种能够有效利用连续特征信息的预测方法、系统和装置。

发明内容

本说明书的一个方面提供一种基于连续特征的预测方法，所述方法包括：获取实体的特征实体的特征，所述实体的特征包括至少一个连续特征和至少一个离散特征；针对每一个所述连续特征，将所述连续特征通过对应的二叉树模型映射为第一独热编码，所述第一独热编码对应所述二叉树模型的一个叶子节点；针对每一个所述离散特征，离散模型将所述离散特征映射为第二独热编码；预测模型基于至少一个所述第一独热编码和至少一个所述第二独热编码，获取表示向量，并基于所述表示向量获取所述实体的预测结果。

本说明书的另一个方面提供一种基于连续特征的预测系统，所述系统包括：获取模块，用于获取实体的特征，所述实体的特征包括至少一个连续特征和至少一个离散特征；第一编码模块，用于针对每一个所述连续特征，将所述连续特征通过对应的二叉树模型映射为第一独热编码，所述第一独热编码对应所述二叉树模型的一个叶子节点；第二编码模块，用于针对每一个所述离散特征，离散模型将所述离散特征映射为第二独热编码；预测模块，用于预测模型基于至少一个所述第一独热编码和至少一个所述第二独热编码，获取表示向量，并基于所述表示向量获取所述实体的预测结果。

本说明书的另一个方面提供一种基于连续特征的预测装置，包括处理器，所述处理器用于执行所述基于连续特征的预测方法。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书的一些实施例所示的基于连续特征的预测系统的应用场景示意图；

图2是根据本说明书的一些实施例所示的基于连续特征的预测方法的示例性流程图；

图3是根据本说明书的一些实施例所示的二叉树模型的示意图；

图4是根据本说明书的一些实施例所示的推荐模型的示意图；

图5是根据本说明书的一些实施例所示的联合训练二叉树模型和预测模型的示例性流程图；

图6是根据本说明书的一些实施例所示的确定初始二叉树模型内部节点的判断条件的流程图；

图7是根据本说明书的一些实施例所示的获取初始二叉树模型参数的示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书的一些实施例所示的基于连续特征的预测系统的应用场景示意图。

如图1所示，基于连续特征的预测系统的应用场景100中可以包括第一计算系统130、第二计算系统120。

第一计算系统130和第二计算系统120可以相同也可以不同。

第一计算系统130和第二计算系统120是指具有计算能力的系统，可以包括各种计算机，比如服务器、个人计算机，也可以是由多台计算机以各种结构连接组成的计算平台。

第一计算系统130和第二计算系统120中可以包括处理器，处理器可以执行程序指令。处理器可以包括各种常见的通用中央处理器(Central Processing Unit，CPU)，图形处理器(Graphics Processing Unit，GPU)，微处理器(Microprocessor Unit，MPU)，特殊应用集成电路(Application-Specific Integrated Circuit，ASIC)，或其他类型的集成电路。

第一计算系统130和第二计算系统120中可以包括存储介质，存储介质可以存储指令，也可以存储数据。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。

第一计算系统130和第二计算系统120还可以包括用于内部连接和与外部连接的网络。也可以包括用于输入或输出的终端。网络可以是有线网络或无线网络中的任意一种或多种。终端可以包括各类具有信息接收和/或发送功能的设备，如计算机、手机、文字扫描设备、显示设备、打印机等。

第二计算系统120可以获取训练样本集110。训练样本集110可以包括用于训练模型的多个样本的特征和该样本的标签。训练样本集110可以通过各种常见的方式进入第二计算系统120。

在第二计算系统120中可以包括并训练模型122，更新模型122的参数，得到训练好的模型。具体地，模型122可以包括二叉树模型和预测模型。

第一计算系统130可以获取实体的特征140，实体的特征140可以包括连续特征和离散特征。实体的特征140可以通过各种常见的方式进入第一计算系统130。

在第一计算系统130中可以包括模型132，模型132的参数可以来自训练好的模型122。具体地，模型132可以包括二叉树模型和预测模型。第一计算系统130可以基于模型132，生成预测结果150，预测结果150可以是模型132对实体的特征140的预测结果。

关于模型的更多细节可以参见本说明书其他部分，例如图2～图7，此处不再赘述。

在一些实施例中，基于连续特征的预测系统可以包括获取模块、第一编码模块、第二编码模块、预测模块。

获取模块可以用于：获取实体的特征，该实体的特征包括至少一个连续特征和至少一个离散特征。

第一编码模块可以用于：针对每一个连续特征，将该连续特征通过对应的二叉树模型映射为第一独热编码，该第一独热编码对应所述二叉树模型的一个叶子节点。

第二编码模块可以用于：针对每一个离散特征，离散模型将该离散特征映射为第二独热编码。

预测模块可以用于：预测模型基于至少一个第一独热编码和至少一个第二独热编码，获取表示向量，并基于该表示向量获取所述实体的预测结果。在一些实施例中，预测模型包括推荐模型。在一些实施例中，推荐模型包括高阶特征提取层和低阶特征提取层。在一些实施例中，推荐模型为Deep FM模型。

在一些实施例中，基于连续特征的预测系统还可以包括训练模块。

训练模块可以用于至少一个二叉树模型和预测模型的联合训练，包括：获取训练样本集，所述训练样本集包括多个样本的特征和多个所述样本的标签，所述多个样本中的每一个样本的特征包括所述样本的至少一个连续特征和所述样本的至少一个离散特征；将所述至少一个样本的连续特征输入至少一个初始二叉树模型，得到至少一个第三独热编码，其中，所述至少一个样本的连续特征中的每一个对应所述至少一个初始二叉树模型中的一个；将所述至少一个样本的离散特征输入所述离散模型，得到至少一个第四独热编码；将所述至少一个第三独热编码和所述至少一个第四独热编码输入初始预测模型；基于所述初始预测模型输出的预测结果同步更新所述每一个初始二叉树模型和所述初始预测模型的参数；基于所述更新的参数，得到训练好的二叉树模型和预测模型。

在一些实施例中，每一个初始二叉树模型的参数包括：内部节点的判断条件和内部节点的数量。

在一些实施例中，训练模块还可以用于：将对应的多个样本的连续特征的值按照大小排列；从所述多个样本的连续特征的值中获取多个插值，并基于每一个插值，将所述多个样本划分为第一集合和第二集合；基于第一集合中的连续特征和第二集合中的连续特征，计算所述插值对应的熵值；判断所述熵值中最小值对应的第一集合和第二集合是否满足第一预设条件，所述第一预设条件包括所述第一集合和所述第二集合中的连续特征的值的数量均大于第一阈值；是则将所述熵值中最小值对应的插值作为该二叉树模型的内部节点的判断条件；否则放弃该划分。

在一些实施例中，训练模块还可以用于：判断所述初始二叉树模型是否满足第二预设条件，所述第二预设条件包括内部节点的数量小于第二阈值；是则继续获取所述第一集合或所述第二集合的内部节点的判断条件；否则停止获取所述第一集合或所述第二集合的内部节点的判断条件。

图2是根据本说明书的一些实施例所示的基于连续特征的预测方法的示例性流程图。如图2所示，流程200可以包括：

步骤210，获取实体的特征。具体地，步骤210可以由获取模块执行。

实体是被预测的对象。例如，在借贷风控评分的应用场景中，实体可以包括被预测是否按时还款的客户。又例如，在推荐商品的应用场景中，实体可以包括被预测商品喜好的用户。

实体的特征是与预测实体相关的信息。以推荐商品的应用场景为例，实体的特征可以包括用户特征、商品特征和上下文特征。其中，用户特征可以包括用户基本信息(如性别、年龄、商品推荐平台注册天数、手机型号等)、用户挖掘信息(如职业、收入和是否使用其他商品推荐平台等)、用户行为信息(如单位时间内点击商品推荐平台的次数或访问页面次数、单位时间内点击商品的类型等)；商品特征可以包括被推荐的商品品牌、类型、上架天数和被推荐的商品点击率或被下单次数等；上下文特征可以包括用户和商品方案所在城市、用户点击商品的时间等。

在一些实施例中，获取模块可以通过读取实体信息存储系统(例如用户信息注册平台)、调用相关接口或其他方式获取实体的特征。

在一些实施例中，实体的特征包括至少一个连续特征和至少一个离散特征。

其中，连续特征包括值可以在一段长度内可以取无限个值的特征。示例性地，上述推荐商品的应用场景中，连续特征包括收入、年龄等。例如，收入可以是1000元到2000元中的整数1500元，也可以是小数1500.5元，还可以是无理数1550.5234…。类似地，年龄可以是20岁到80岁之间的整数50岁，也可以是小数50.3岁，还可以是无理数50.335…岁。

离散特征包括值只能用自然数、整数、计数单位等表示的特征。例如，上述推荐商品的应用场景中，离散特征包括性别(如用1表示男，用0表示女)、是否使用其他商品推荐平台(如用1表示“是”，用0表示“否”)、商品品牌(如用1到50的整数分别表示50个商品品牌)等。

步骤220，针对每一个连续特征，将连续特征通过对应的二叉树模型映射为第一独热编码。具体地，步骤220可以由第一编码模块执行。

如前所述，连续特征是指在一段长度内不间断的特征。可以理解，连续特征的值的数量是无限的。在一些实施例中，第一编码模块可以基于二叉树模型，将连续特征的值离散为有限的多个范围。

其中，每一个连续特征对应一个二叉树模型。例如，连续特征1、连续特征2、…连续特征n分别对应二叉树模型1、二叉树模型2、…二叉树模型n。

二叉树模型是一种树形结构，包括至少一个内部节点。

其中，每个内部节点表示连续特征的映射路径的一次选择，每次选择都对应一个判断条件。在一些实施例中，判断条件可以包括连续特征的值是否符合一定的范围。

如图3所示，推荐商品的应用场景中，连续特征2“年龄”对应的二叉树模型包括内部节点N1、N2和N3，分别对应判断条件“年龄≥25”、“年龄≥20”和“年龄≥40”。

具体地，第一编码模块可以基于连续特征的值，根据判断条件，选择“符合判断条件”和“不符合判断条件”两条路径中的一条。如图3所示，第一编码模块可以基于连续特征2“年龄”的值，根据内部节点N1对应的判断条件“年龄≥25”，选择“符合年龄≥25”和“不符合年龄≥25”中的一条映射路径。

二叉树模型还包括至少一个叶子节点。其中，每个叶子节点可以表征一个连续特征的范围。其中，连续特征的范围是基于多个内部节点对应的多个判断条件，选择多次映射路径后得到的，即经过多个判断条件限缩后得到的范围。

如图3所示，二叉树模型的叶子节点1表征的范围是先基于内部节点N1对应的判断条件“年龄≥25”，选择“不符合年龄≥25”的映射路径后，再基于内部节点N2对应的判断条件“年龄≥20”，选择“不符合年龄≥20”的映射路径后得的范围：“年龄＜20”。

类似地，叶子节点2、叶子节点3和叶子节点4表征的范围是基于连续特征2“年龄”，根据多个内部节点对应的判断条件，选择多次映射路径后，分别得到的范围：“年龄[20，25)”、“年龄[25，40)”和“年龄≥40”。

在一些实施例中，连续特征的每一个范围可以用一个M维的第一独热编码表示。

第一独热编码是由1个“1”和M-1个“0”作为元素组成的M维向量，其中元素“1”表示有效位，对应基于连续特征选择多次映射路径后得到的M个范围中一个。可以理解，每个M维的第一独热编码可以表征连续特征的M个范围中的一个，即每个第一独热编码对应二叉树的一个叶子节点。

继续以图3为例，叶子节点表征的范围：叶子节点1“年龄＜20”、叶子节点2“年龄[20，25)”、叶子节点3“年龄[25，40)”和叶子节点4“年龄≥40”，分别与第一独热编码(1，0，0，0)、(0，1，0，0)、(0，0，1，0)和(0，0，0，1)对应。

可以理解，连续特征的值属于其中一个叶子节点表征的范围，就映射为该叶子节点对应的第一独热编码。

示例性地，图3中连续特征2“年龄”的值为30，则按照选择“符合年龄≥25”、“不符合年龄≥40”的映射路径，“年龄：30”被映射为叶子节点3“年龄[25，40)”对应的第一独热编码(0，0，1，0)，同时“年龄：30”属于叶子节点3表征的范围“年龄[25，40)”。

在一些实施例中，二叉树模型可以通过训练获取。关于二叉树模型训练的相关描述，参见图4，在此不再赘述。

步骤230，针对每一个离散特征，离散模型将离散特征映射为第二独热编码。具体地，步骤230可以由第二编码模块执行。

如前所述，离散特征是值只能用自然数、整数、计数单位等表示的特征。可以理解，离散特征的值的数量是有限的，例如L个。

第二独热编码是由1个“1”和L-1个“0”作为元素组成的N维向量，其中元素“1”表示有效位，对应基于离散特征L个值中的一个。可以理解，每个L维的第二独热编码可以表征离散特征的L个值中的一个。

例如，可以用2维的第二独热编码(1，0)和(0，1)分别表示离散特征性别的两个值：男和女。又例如，可以用50维的第二独热编码(1，0，0…，0)、(0，1，0…，0)、…(0，0，0…，1)分别表示离散特征商品品牌的50个值。

离散模型是基于规则的模型。其中，所述规则即离散特征的值和第二独热编码对应的表示关系。在一些实施例中，离散模型的规则可以是预先获取的，也可以是通过训练得到的。

具体地，离散模型可以基于离散特征的值，将离散特征按照规则映射为第二独热编码。示例性地，离散模型可以将离散特征“男”按照前述对应的表示关系，映射为第二独热编码(1，0)。

步骤240，预测模型基于至少一个第一独热编码和至少一个第二独热编码，获取表示向量，并基于表示向量获取实体的预测结果。具体地，步骤240可以由预测模块执行。

在一些实施例中，预测模型可以包括推荐模型、投资模型等。推荐模型可以用于向用户推荐产品和/或信息。投资模型可以帮助投资者判断投资产品的发展趋势等。

预测结果是预测模型根据实体的特征对实体进行预测的结果。例如，推荐模型的预测结果可以是用户对所推荐的产品和/或信息的喜好程度。又例如，投资模型的预测结果可以是投资产品的发展趋势，例如，股票的涨跌行情等。

示例性地，预测模型可以包括推荐模型。推荐模型可以是向用户推荐产品或信息的模型。例如，租车公司向用户推荐合适的车型、租车平台向用户推荐其感兴趣的内容、网页广告投放等。

在一些实施例中，推荐模型可以包括但不限于Wide and Deep模型、Deep FM模型、逻辑回归模型等。

在一些实施例中，推荐模型可以包括低阶特征提取层和高阶特征提取层。

其中，低阶特征提取层是用于提取实体的低阶特征的网络。其中，低阶特征是表征实体的浅层信息的特征。例如，推荐应用场景中，低阶特征可以直接表征实体对商品的喜爱程度。如图4所示，低阶特征提取层可以提取第一独热编码和第二独热编码的低阶特征。在一些实施例中，低阶特征提取层可以包括一个单层的前馈神经网络，例如FM网络。

高阶特征提取层是用于提取实体的高阶特征的网络。其中，高阶特征是表征实体的隐含信息的特征。例如，推荐应用场景中，高阶特征可以表征实体是否购买过商品，从而反映实体对商品的需要程度。如图4所示，高阶特征提取层可以提取第一独热编码和第二独热编码的高阶特征。高阶特征层可以包括多层神经网络，例如DNN网络、RNN网络等。

示例性地，推荐模型可以包括Wide and Deep模型。Wide and Deep模型的低阶特征提取层为Wide模型，高阶特征提取层为Deep模型部分。

又一示例性地，推荐模型可以包括Deep FM模型。Deep FM模型的低阶特征提取层为因子分解机(FM)部分，高阶特征提取层为深度前馈神经网络(Deep)部分。

在一些实施例中，推荐模型还可以包括回归层。推荐模型的回归层可以将实体的高阶特征和低阶特征融合为表示向量，并将表示向量映射成数值或概率，再基于数值或概率得到预测结果。

其中，表示向量包括融合了实体的低阶特征和高阶特征的向量。

在一些实施例中，回归层可以是但不限于支持向量机模型、线性回归模型、逻辑回归模型、朴素贝叶斯分类模型、高斯分布贝叶斯分类模型、决策树模型、随机森林模型、KNN分类模型、神经网络模型等。

优选地，回归层是基于sigmoid函数的逻辑回归模型。在一些实施例中，逻辑回归模型可以先将输入的低阶特征和高阶特征映射融合为表示向量，再将表示向量映射为一个概率，通过比较概率和第三阈值，判断预测结果。

示例性地，预测模型包括向用户推荐网约车的推荐模型，回归层将表示向量映射为概率0.8，大于第三阈值0.5，则预测结果为向用户推荐该网约车。

图5是根据本说明书的一些实施例所示的联合训练二叉树模型和预测模型的示例性流程图。具体地，图5可以由训练模块执行。

如图5所示，流程500可以包括：

步骤510，获取训练样本集。

在一些实施例中，训练模块可以获取训练样本集。训练样本集包括多个样本的特征和多个样本的标签。

在一些实施例中，样本可以是已知预测结果的实体。多个样本中每一个样本的特征包括样本的至少一个连续特征和样本的至少一个离散特征。关于实体、连续特征和离散特征的详细描述可以参见步骤210，在此不再赘述。

在一些实施例中，样本的标签可以是实体的预测结果。预测结果的详细描述可以参见步骤240，在此不再赘述。在一些实施例中，样本的标签可以通过人工输入、读取存储的数据、调用相关接口或其他方式获取。

步骤520，将至少一个样本的连续特征输入至少一个初始二叉树模型，得到至少一个第三独热编码。

其中，每一个初始二叉树模型与样本的一个连续特征对应。具体地，训练样本集中多个样本的连续特征按照对应的类型输入对应的初始二叉树模型。

例如，训练样本集中，样本1包括连续特征1“收入：10万”、连续特征2“年龄20”、....；样本2包括连续特征1“收入：20万”、连续特征2“年龄50”、....；....样本50包括连续特征1“收入：32万”、连续特征2“年龄30”。进一步地，训练模块将样本1的连续特征1“收入：10万”、样本2的连续特征2“收入：20万”、...样本50的连续特征1“收入：32万”输出初始二叉树模型1；将样本1的连续特征2“年龄20”、样本2的连续特征2“年龄50”、...样本50的连续特征2“年龄30”输入初始二叉树模型2；...。

在一些实施例中，每个初始二叉树模型输出至少一个第三独热编码。例如，前述示例中将50个样本的连续特征2输入初始二叉树模型2，则初始二叉树模型2输出对应的50个第三独热编码。

步骤530，将所述至少一个样本的离散特征输入所述离散模型，得到至少一个第四独热编码。

具体地，将所有样本的所有离散特征都输入初始离散模型中，初始离散模型可以输出对应的多个第四独热编码。例如，将前述50个样本的离散特征1、离散特征2.....离散特征X，输入初始离散模型，初始离散模型可以输出50个样本的第四独热编码1、第四独热编码2、.....第四独热编码X，即50X个第四独热编码。

步骤540，将至少一个第三独热编码和至少一个第四独热编码输入初始预测模型。

具体地，初始预测模型基于至少一个第三独热编码和至少一个第四独热编码输出预测结果的详细描述可以参见步骤240，在此不再赘述。

步骤550，基于所述初始预测模型输出的预测结果同步更新所述每一个初始二叉树模型和所述初始预测模型的参数。

具体地，基于初始预测模型输出的预测结果和样本标签构建损失函数，通过常用的方法进行训练，同时更新每一个初始二叉树模型和初始预测模型的参数。例如，可以基于梯度下降法、自适应矩阵估计(Adaptive moment estimation，Adam)法进行训练。优选地，损失函数可以是交叉熵损失函数或最小二乘损失函数。

步骤560，基于更新的参数，得到训练好的二叉树模型和预测模型。

具体地，当训练的初始二叉树模型和初始预测模型满足预设条件时，训练结束，基于训练结束获取的更新的参数，得到训练好的二叉树模型和预测模型。在一些实施例中，预设条件可以是损失函数的值小于预设阈值。

如前所述，内部节点的判断条件可以是连续特征的值是否符合一定的范围。在一些实施例中，每一个初始二叉树模型的内部节点的判断条件基于对应的连续特征确定。关于确定初始二叉树模型内部节点的判断条件的详细描述参见图6，在此不再赘述。

在一些实施例中，每一个初始二叉树模型的内部节点的数量基于第二预设条件确定。

可以理解，在基于连续特征获取内部节点的判断条件后，训练模块要确定是否继续获取下一个内部节点的判断条件。

在一些实施例中，训练模块可以判断初始二叉树模型是否满足第二预设条件；是则继续获取第一集合或第二集合的内部节点的判断条件；否则停止获取第一集合或第二集合的内部节点的判断条件。

其中，第二预设条件包括内部节点的数量小于第二阈值。

例如，图7中的第二预设条件包括内部节点的数量小于3。训练模块获取内部节点N1后，初始决策树模型的内部节点数量为1，小于第二阈值，则继续对第一集合中的多个样本和第二集合中的多个样本执行步骤431到步骤435的获取内部节点的判断条件的过程。训练模块继续获取内部节点N2和N3后，初始二叉树模型的内部节点数量为3，大于第二阈值，否则停止获取内部节点的判断条件。

图6是根据本说明书的一些实施例所示的确定初始二叉树模型内部节点的判断条件的流程图。

如前所述，内部节点的判断条件可以是连续特征的值是否符合一定的范围。在一些实施例中，每一个初始二叉树模型的内部节点的判断条件基于对应的连续特征确定，包括：

步骤610，将对应的多个样本的连续特征的值按照大小排列。

可以理解，多个样本的连续特征的值中可能有相等的值，因此连续特征的值的数量小于等于样本的数量。在一些实施例中，训练模块可以将连续特征的值按照从小到大或从大到小，依次排列成有序数组。

以图7中连续特征2“年龄”对应的初始二叉树模型为例，训练样本集中包括50个样本。其中有16个样本的年龄均为20；10个样本的值均为30；20个样本的年龄均为50；其余4个样本的年龄均不相同，分别为：25、35、40、45；则7个连续特征的值按照从大到小依次排列为数组：20、25、30、35、40、45、50。

步骤620，从多个样本的连续特征的值中获取多个插值，并基于每一个插值，将多个样本划分为第一集合和第二集合。

在一些实施例中，训练模块可以从多个样本的连续特征的值中选取多个值作为插值。在一些实施例中，训练模块可以遍历连续特征的值作为插值。在一些实施例中，训练模块还可以从多个样本的连续特征的值中基于预先设定的数量和规则选取多个插值。

以图7为例，训练模块可以选择数组“20、25、30、35、40、45、50”中的数值25、35和45为插值。

进一步地，训练模块可以将数组中插值之前的数值(包括插值)对应的样本划分到第一集合，将数组中插值之后的数值(不包括插值)对应的样本划分到第二集合。

如图7，以插值35为例，将数组划分为第一集合(即“年龄≤35”的集合)包括：“年龄20”对应的16个样本、“年龄25”对应的1个样本、“年龄30”对应的10个样本和“年龄35”对应的1个样本，共28个样本；第二集合(即“年龄＞35”的集合)包括：“年龄40”对应的1个样本、“年龄45”对应的1个样本和“年龄50”对应的20个样本，共22个样本。

类似地，基于插值25和45可以分别得到对应的第一集合和第二集合。

步骤630，基于第一集合中的连续特征和第二集合中的连续特征，计算插值对应的熵值。

熵可以表征集合中元素的纯度，即集合中元素类别的统一程度。其中，纯度越大，熵值越小。例如，第一集合中的样本标签越统一，则第一集合的纯度越大，熵值越小。在一些实施例中，熵值可以用基尼指数、有效增益、有效增益比率和其他方式表征。其中，基尼指数、有效增益和有效增益比率越大，熵值越小，纯度越大，集合中元素类别的统一程度越高。

示例性地，熵值用基尼指数表征，如公式(1)所示：

其中，GINI(D_i)表示集合i的基尼指数，L_k表示示集合i中的样本属于第k类标签的数量，D_i表示集合i中的样本数量。

继续沿用前述示例，第一集合中的28个样本中，有10个样本的标签为“推荐”，18个样本的标签为“不推荐”，则第一集合的基尼指数为

类似地，第二集合中的22个样本中，10个样本的的标签为“推荐”，12个样本的标签为“不推荐”，类似地，第二集合的基尼数为0.5。

插值对应的熵值是指基于该插值划分的第一集合的熵值和第二集合的熵值获取的值。继续以基尼指数为例，插值A对应的基尼指数GINI(D，A)可以通过公式(2)获取：

其中，D表示划分前多个样本的数量，D₁表示基于插值A划分后第一集合中样本的数量，D₂表示基于插值A划分后第二集合中样本的数量，GINI(D₁)表示第一集合的基尼指数，GINI(D₂)表示第二集合的基尼指数。

继续沿用前述示例，50个样本基于插值35划分为第一集合和第二集合对应的基尼指数为(28/50)×0.46+(22/50)×0.5＝0.48。

类似地，训练模块可以获取插值25对应的基尼指数(如0.3)和插值45对应的基尼指数(如0.4)。

步骤640，判断熵值中最小值对应的第一集合和第二集合是否满足第一预设条件。

熵值中最小值只是多个插值对应的多个熵值中的最小值。可以理解，基于熵值中最小值对应的插值划分的第一集合和第二集合，其中元素的统一程度最高，划分效果最好。

继续以图7为例，插值25、35和45对应的基尼指数分别为0.3、0.48和0.4，则基尼指数的最大值0.48对应的插值为35，即熵值中最小值对应的插值为35。

进一步地，训练模块判断第一集合和第二集合是否满足第一预设条件。在一些实施例中，第一预设条件包括第一集合和第二集合中的连续特征的值的数量均大于第一阈值。其中，第一阈值可以是预先设定的数量。

例如，第一阈值为2，前述插值35对应的第一集合(“年龄≤35”的集合)中样本的年龄包括4个数值：20、25、30、35；第二集合(“年龄＞35”的集合)中样本的年龄包括3个数值：40、45、50，则第一集合和第二集合满足判断条件。

步骤650，是则将熵值中最小值对应的插值作为内部节点的判断条件；否则放弃划分。

可以理解，若第一集合和第二集合不满足判断条件，即第一集合或第二集合中连续特征的值的数量小于第一阈值，说明落到第一集合和第二集合范围内的数值很少，因此没有划分的必要，故放弃划分。

若第一集合和第二集合满足判断条件，训练模块则将连续特征的值是否符合基于插值划分的范围作为二叉树模型内部节点的判断条件。继续以图7为例，前述连续特征2“年龄”的第一个插值为35，则可以将“年龄≤35”作为二叉树模型第一个节点N1的判断条件。

本说明书实施例还提供一种装置，其至少包括处理器以及存储器。所述存储器用于存储指令。当所述指令被所述处理器执行时，导致所述装置实现前述的基于连续特征的预测方法。

本说明书实施例可能带来的有益效果包括但不限于：(1)连续特征基于二叉树模型离散得到的第一独热编码，可以包含更多信息量，提高预测模型的准确性；(2)每个连续特征对应一个二叉树模型，使得增加或减少连续特征只需要再训练或去除对应的二叉树模型，无需再重新训练所有的二叉树模型，提高了预测系统的灵活性；(3)联合训练初始二叉树模型和预测模型，不仅减少了需要的样本数量，还提高了训练效率，同时使得二叉树模型可以针对预测模型将连续特征更好的离散化，从而提高预测模型的性能。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有土20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种基于连续特征的预测方法，其特征在于，所述方法包括：

获取实体的特征，所述实体的特征包括至少一个连续特征和至少一个离散特征；

针对每一个所述连续特征，将所述连续特征通过对应的二叉树模型映射为第一独热编码，所述第一独热编码对应所述二叉树模型的一个叶子节点；

针对每一个所述离散特征，离散模型将所述离散特征映射为第二独热编码；

预测模型基于至少一个所述第一独热编码和至少一个所述第二独热编码，获取表示向量，并基于所述表示向量获取所述实体的预测结果。

2.如权利要求1所述的方法，至少一个所述二叉树模型和所述预测模型通过以下方式获得：

获取训练样本集，所述训练样本集包括多个样本的特征和多个所述样本的标签，所述多个样本中的每一个样本的特征包括所述样本的至少一个连续特征和所述样本的至少一个离散特征；

将所述至少一个样本的连续特征输入至少一个初始二叉树模型，得到至少一个第三独热编码，其中，所述至少一个样本的连续特征中的每一个对应所述至少一个初始二叉树模型中的一个；

将所述至少一个样本的离散特征输入所述离散模型，得到至少一个第四独热编码；

将所述至少一个第三独热编码和所述至少一个第四独热编码输入初始预测模型；

基于所述初始预测模型输出的预测结果同步更新所述每一个初始二叉树模型和所述初始预测模型的参数；

基于所述更新的参数，得到训练好的二叉树模型和预测模型。

3.如权利要求2所述的方法，所述每一个初始二叉树模型的参数包括：内部节点的判断条件和所述内部节点的数量。

4.如权利要求3所述的方法，所述每一个初始二叉树模型的所述内部节点的判断条件基于对应的所述样本的连续特征确定，包括：

将对应的所述多个样本的连续特征的值按照大小排列；

从所述多个样本的连续特征的值中获取多个插值，并基于每一个所述插值，将所述多个样本划分为第一集合和第二集合；

基于所述第一集合中的所述连续特征和所述第二集合中的所述连续特征，计算所述插值对应的熵值；

判断所述熵值中最小值对应的所述第一集合和所述第二集合是否满足第一预设条件，所述第一预设条件包括所述第一集合和所述第二集合中的所述连续特征的值的数量均大于第一阈值；

是则将所述熵值中最小值对应的所述插值作为所述内部节点的判断条件；否则放弃所述划分。

5.如权利要求4所述的方法，所述每一个初始二叉树模型的所述内部节点的数量基于第二预设条件确定，包括：

判断所述初始二叉树模型是否满足第二预设条件，所述第二预设条件包括所述内部节点的数量小于第二阈值；

是则继续获取所述第一集合或所述第二集合的内部节点的判断条件；

否则停止获取所述第一集合或所述第二集合的内部节点的判断条件。

6.如权利要求1所述的方法，所述预测模型包括推荐模型，所述推荐模型包括高阶特征提取层和低阶特征提取层。

7.如权利要求6所述的方法，所述推荐模型为Deep FM模型。

8.一种基于连续特征的预测系统，其特征在于，所述系统包括：

获取模块，用于获取实体的特征，所述实体的特征包括至少一个连续特征和至少一个离散特征；

第一编码模块，用于针对每一个所述连续特征，将所述连续特征通过对应的二叉树模型映射为第一独热编码，所述第一独热编码对应所述二叉树模型的一个叶子节点；

第二编码模块，用于针对每一个所述离散特征，离散模型将所述离散特征映射为第二独热编码；

预测模块，用于预测模型基于至少一个所述第一独热编码和至少一个所述第二独热编码，获取表示向量，并基于所述表示向量获取所述实体的预测结果。

9.如权利要求8所述的系统，还包括训练模块，用于至少一个所述二叉树模型和所述预测模型的联合训练，包括：

10.如权利要求9所述的系统，所述每一个初始二叉树模型的参数包括：内部节点的判断条件和所述内部节点的数量。

11.如权利要求10所述的系统，所述训练模块进一步用于：

将对应的所述多个样本的连续特征的值按照大小排列；

12.如权利要求11所述的系统，所述训练模块进一步用于：

13.如权利要求8所述的系统，所述预测模型包括推荐模型，所述推荐模型包括高阶特征提取层和低阶特征提取层。

14.如权利要求13所述的系统，所述推荐模型为Deep FM模型。

15.一种基于连续特征的预测装置，包括处理器，其中，所述处理器用于执行如权利要求1～7中任一项所述基于连续特征的预测方法。