CN109155008A

CN109155008A - 利用知识引擎的特征集增强

Info

Publication number: CN109155008A
Application number: CN201780030736.5A
Authority: CN
Inventors: 臧慧; 吴宗寰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-05-17
Filing date: 2017-05-08
Publication date: 2019-01-04
Also published as: WO2017198087A1; EP3452927A4; EP3452927A1; US20170337486A1

Abstract

一种方法，包括：接收用于训练机器学习系统的原始特征集，所述特征集包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果；基于该组原始特征来查询知识库，接收一组具有响应知识库的查询的知识特征值的知识特征；生成包括所述原始特征集的所述多个记录和针对所述多个记录的知识特征的第一增强特征集；基于所述第一增强特征集训练所述机器学习系统。

Description

利用知识引擎的特征集增强

本申请要求于2016年5月17日递交的发明名称为“利用知识引擎的特征集增强”的第15/157,138号美国非临时专利申请案的在先申请优先权，该在先申请的内容以引入的方式并入本文。

发明领域

本发明涉及用于机器学习的特征集的增强，尤其涉及使用知识引擎的特征集增强。

背景技术

在机器学习中，线性函数或多项式函数等模型适合于一组训练数据。训练数据可以由从已知数据选择的特征集的值的记录组成，并且包括训练数据中每个记录的期望输出或结果。特征是被观察事物的可测量特性。选择一组全面的特征可以帮助优化机器学习。该组特征可以被用于通过将结果与该组特征中的每个记录关联来训练机器学习系统。机器学习系统将自行配置可以学习正确导出相关联结果的程序，然后将此程序应用于不在特征集中的数据以提供结果。

例如，如果正在训练机器学习系统来识别美国硬币，则这些特征可以包括硬币背面的建筑物的名称，例如蒙蒂塞洛，以及正面的头像的名称，例如托马斯·杰斐逊，这些特征对应一个美国镍币(5美分硬币)。一组原始特征可能是不够的，例如，25美分硬币在每个州可能各自有一个不同的硬币背面的图像，或者可能太冗余或太大导致关于特定领域的机器学习不理想。先前已经利用领域专家的知识进行过促进机器学习的特征选择。

发明内容

在一实施例中，一种方法包括：接收用于训练机器学习系统的原始特征集，所述特征集包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果；基于该组原始特征来查询知识库，接收一组具有响应网络化知识库的查询的知识特征值的知识特征；生成包括所述原始特征集的所述多个记录和针对所述多个记录的知识特征的第一增强特征集；基于所述第一增强特征集训练所述机器学习系统。

可选地，在前述任一实施例中，所述方法还包括：组合单个特征的多个值以创建包括至少两个更高层级特征值集群的至少一个更高层级特征。

可选地，在前述任一实施例中，所述方法还包括：从用于物理特征的多个更高层级特征中选择至少一个更高层级特征以包括在所述第一增强特征集中以训练所述机器学习系统。

可选地，在前述任一实施例中，在所述方法中，每个集群的特征值是所述集群中的特征值的平均值或中值的函数。

可选地，在前述任一实施例中，所述方法还包括：从数学上组合的知识特征或一组知识特征中创建高层级特征值。

可选地，在前述任一实施例中，根据所述方法，所述数学上组合的特征包括长度和宽度，所述长度和宽度相乘以产生面积作为所述进一步的特征值。

可选地，在前述任一实施例中，根据所述方法，所述高层级特征值包括数值或标称值。

可选地，在前述任一实施例中，根据所述方法，所述知识库包括网络化知识库。

可选地，在前述任一实施例中，根据所述方法，基于一个或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将多个特征值组合成更高层级特征值的集群。

可选地，在前述任一实施例中，所述知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。

可选地，在前述任一实施例中，所述方法还包括：提供界面以选择要包括在所述增强特征集中的特征。

在另一实施例中，一种非瞬时性机器可读存储设备具有由机器的处理器执行的以执行操作的指令。所述操作包括：接收用于训练机器学习系统的原始特征集，所述特征集包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果；基于该组原始特征来查询知识库，接收一组具有响应知识库的查询的知识特征值的知识特征；生成包括所述原始特征集的所述多个记录和针对所述多个记录的知识特征的第一增强特征集；基于所述第一增强特征集训练所述机器学习系统。

可选地，在前述任一实施例中，所述操作还包括：组合单个特征的多个值以创建具有至少一个更高层级特征值的集群的至少一个更高层级特征。

可选地，在前述任一实施例中，根据所述机器可读存储设备，基于一个或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将多个特征值组合成更高层级特征值的集群以产生进一步的知识特征。

可选地，在前述任一实施例中，根据所述的机器可读存储设备，所述知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。

在另一实施例中，一种设备，包括：处理器和存储器设备，该存储器设备耦合到该处理器并具有存储在该存储设备上的由处理器执行的以执行操作的程序。所述操作包括：接收用于训练机器学习系统的原始特征集，所述特征集包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果；基于该组原始特征来查询知识库，接收一组具有响应知识库的查询的知识特征值的知识特征；生成包括所述原始特征集的所述多个记录和针对所述多个记录的知识特征的第一增强特征集；基于所述第一增强特征集训练所述机器学习系统。

可选地，在前述任一实施例中，根据所述设备，所述操作还包括：组合单个特征的多个值以创建包括至少两个更高层级特征值集群的至少一个更高层级特征。

可选地，在前述任一实施例中，根据所述设备，所述操作还包括：从物理特征的多个更高层级特征中选择至少一个更高层级特征以包括在所述第一增强特征集中以训练所述机器学习系统。

可选地，在前述任一实施例中，根据所述设备，每个集群的特征值是所述集群中的特征值的平均值或中值的函数。

可选地，在前述任一实施例中，根据所述设备，所述操作还包括：从数学上组合的知识特征或一组知识特征中创建高层级特征值。

可选地，在前述任一实施例中，根据所述设备，所述数学上组合的特征包括长度和宽度，所述长度和宽度相乘以产生面积作为所述进一步的特征值。

可选地，在前述任一实施例中，根据所述设备，所述高层级特征值包括数值或标称值。

可选地，在前述任一实施例中，根据所述海设备，所述知识库包括网络化知识库。

可选地，在前述任一实施例中，根据所述设备，基于一个或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将多个特征值组合成更高层级特征值的集群。

可选地，在前述任一实施例中，根据所述设备，所述知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。

可选地，在前述任一实施例中，根据所述设备，所述操作还包括：提供界面以选择要包括在所述增强特征集中的特征。

附图说明

图1是一示例性实施例提供的表示数据集中的记录和一组对应的原始特征的数据结构；

图2是一示例性实施例提供的获得附加特征以生成增强特征集的过程的框图；

图3是一示例性实施例提供的与包括原始特征和新特征的知识的数据结构的连接相对应的数据结构的表示；

图4是一示例性实施例提供的不同特征层级的图；

图5是一示例性实施例提供的包括原始特征，一些知识特征以及高层级特征的特征集的数据结构表示，原始特征，一些知识特征加上高层级特征共同组成进一步增强的特征集；

图6是一示例性实施例提供的从一组特征中创建分层特征的图表；

图7是示例性实施例提供的增强用于机器学习系统的原始特征集的计算机实现的方法方框流程图；

图8是示例性实施例提供的用于发现附加特征的系统的框图；

图9是示例性实施例提供的用于选择添加到原始特征集的特征的界面的表示；

图10是示例性实施例提供的用于实现一个或多个方法和引擎的计算机系统的示意性框图。

具体实施方式

以下结合附图进行描述所述附图是描述的一部分并通过图解说明的方式示出可以实施本发明的具体实施例。这些实施例将充分详细描述使本领域技术人员能够实施本发明而且应该明白的是可以使用其它实施例并且在不脱离本发明的范围的情况下可以做出结构上、逻辑上、电学上的改变。因此以下示例实施例的描述并不当作限定，本发明的范围由所附权利要求书界定。

本文描述的功能或算法可以在一实施例中的软件中实施。该软件可包含计算机可执行指令，这些计算机可执行指令存储在计算机可读介质上或者计算机可读存储设备上例如一个或多个非瞬时性存储器或其它类型的本地或联网的硬件存储设备。此外，这些功能对应模块这些模块可以是软件、硬件、固件或它们的任意组合。多个功能可根据需要在一个或多个模块中执行所描述的实施例仅为示例。该软件可在数字信号处理器、ASIC、微处理器上执行或者在个人计算机、服务器、或其它计算机系统等其它类型的计算机系统上运行的处理器上执行从而将这个计算机系统转换成一个专门编程的机器。

从用于训练机器学习引擎的数据集派生的原始特征集通过搜索外部网络获得附加特征而被增强。可以将附加特征添加到原始特征集以形成增强特征集。可以进行附加特征的分层聚类以生成更高层级特征，可以将更高层级特征添加至前述增强特征集以形成进一步增强的特征集。

图1是表示数据集中记录和一组对应的原始特征110的数据结构100，该组对应的原始特征110具有与预测或分类蜂窝电话的用户是否可能切换蜂窝网络运营商有关的值。倾向于更频繁地切换运营商的那些用户在用户流失标签列115中被分类为值“1”。不经常切换运营商的用户被赋予值“0”。用户可以通过列120中的电话号码来标识。数据集100中示出了三个用户，具有如下特征，包括：呼叫次数125、分钟数130、使用的兆字节(megabyte，简称MB)135、客户服务呼叫次数140、设备制造商145和设备型号150。尽管在数据结构100中仅示出三个用户，但是在进一步的实施例中，可以包括更多的记录，使得数据结构100可以用于训练知识引擎以正确地分类以前未被分类的用户。

原始特征集可以通过利用领域专家从内部数据库获得。原始特征集中的一些特征可能与正确的分类不完全相关，这会导致过拟合。过拟合发生在统计模型或函数过于复杂，并且可能会描述随机噪声而不是与期望结果的潜在关系时。在其他情况下，在用于生成特征的数据集中可能有太少的特征可用，从而导致例如神经网络等训练的机器学习系统的不准确结果。

图2是获得附加特征以生成增强特征集的过程200的框图。数据集210具有三个记录，这三个记录具有对应的原始特征集，该对应的原始特征集包括特征0到k，设备制造商特征145和设备型号特征150，其中，特征0到k可以对应于图1中的特征。本实施例中的数据集中的每个记录的结果225也是流失指示，比如流失标签“0”或“1”。在一实施例中，设备制造商特征145和设备型号特征150的值可以被知识引擎230用来查询外部信息源235，例如，使用各种基于互联网的服务的网络，如Amazon.com、Egadget.com、CNET.com及其他可以提供特征中的值的更多信息，例如，公司A设备D，公司B设备E和公司C设备F等对应于记录的特征值。知识引擎将使用获得的结果来识别新特征240，在一些实施例中，新特征240包括操作系统(operating system，简称OS)、OS版本、屏幕长度、重量、核数、处理速度、电脑网络评级。搜索结果还可以用于为每个记录的每个新特征填充值，以创建包括具有值的新特征240的数据结构250(数据结构250也包括用于生成新特征的查询所根据的特征145和150)。因此特征145和150同时存在于数据结构210和250中，允许执行数据结构210和250的连接，如255所示。

图3是与包括组成新特征集310的原始特征和新特征240的知识的数据结构100和250的连接相对应的数据结构300的表示。需要注意的是，用户流失标签列115保持不变。一实施例中的数据结构300对应于可用于更好地训练机器学习系统的增强特征集。

某些特征集可能包含太多特征，导致过拟合。在机器学习中，当一组训练数据中的特征太多时，训练产生的模型可能会描述随机误差或噪声，导致当模型应用于训练集之外的数据时结果不一致。过拟合的模型通常会具有较差的预测性能，因为它可能会夸大训练数据的微小波动。

图4是示出针对图400中的一个特征，如屏幕长度，创建更高层级特征的方式的图表400。屏幕长度的值在410处显示在层级0处。在415处的较高层级，层级1处，一些值被组合成具有小、中、大等级的集群。在层级1处具有小等级的集群包括了在4.1和4.4之间的屏幕长度值。层级1的中等级包括了在4.6和4.8之间的屏幕长度值，层级1的大等级包括了在5.3和5.6之间的屏幕长度值。

在420处的层级2处，层级1的中小值被组合成层级2小值集群，而层级1的大值保持在层级2中的大值集群。因此，层级0中的八个值已被转换成两个集群值之一，大或小，简化了特征集。

图5是特征集500的数据结构表示，该特征集500包括原始特征510，一些知识特征515以及在520处指示的高层级特征，这三种特征共同组成进一步增强的特征集500。第一高层级特征包括具有对应于415处的层级1的小，中和大的值S，M和L的屏幕长度525。第二高层级特征包括具有对应于420处的层级2的值S和L的屏幕长度530。特征组500可以包括具有不同层级1和2的值的几个其他特征X1，X2和X3。

图6是使用被称为分层聚类的机器学习方法来创建特征的分层层级的方式的图表600。在610处的层级0处，原始特征值由字母a、b、c、d、e和f表示。这些字母可以表示不同类型的值。例如，它们可以是数字、文本/字符串、矢量或标称值。在每实施例中，a至f应表示相同类型的值。在一实施例中，在610处的层级0处，层级0中的每个特征值可以是实值(数值)，a＝10、b＝207、c＝213、d＝255、e＝265和f＝280。一些值如在620处的第二层级1中的组合所示，形成多个特征值集群，其中，特征值a保持具有实值10的单个特征值，特征值b和c被组合在一个集群中并且给定一个实值210，特征值d和e被组合在具有实值260的集群中，特征值f单独保持为实值280。需要注意的是，层级0的六个特征值已经被减少到层级1中的四个特征值集群，每个集群都赋予一个集群特征值。这个新的特征值也可以是数值的。在另一实施例中，这个新的特征值可以是名义上的，如‘0’、‘1’、‘2’和‘3’所表示的。在630处的较高层级2处，特征值a保持为具有实值10的单个特征值，特征值b和c保持为具有实值210的组合特征值，特征值d、e和f被组合为实值270。在640处的较高层级3中，特征值a仍然是具有实值10的单个特征，特征值b、c、d、e和f被组合且具有实值240。需注意的是，在640处的层级3中，原来的六个特征值a至f被进一步缩减为具有两个不同实值10和240的两个特征值集群。在每一个步骤中，集群的值被计算为该集群中的直接较低层级的值的平均值。在另一实施例中，该集群的值被计算为该集群中原始值的平均值。在另一实施例中，将该集群的值计算为该集群中的直接较低层级的值的中值。在另一实施例中，将该集群的值计算为该集群中的原始值的中值。在另一实施例中，集群的值是名义上的，如‘0’、‘1’、‘2’和‘3’所示的标称值仅对当前层级有意义。

表格650示出了三个原始特征值a、c和f，以及它们的值在每个分层层级如何改变或不改变。原始特征值a在四个层级中的每个层级保持相同的实值10。原始特征值c也具有在每个较高层级中改变的实值。f的原始实值从280变为层级2中的270和层级3中的240。

图6中的各个层级可以被称为一个特征的分层特征的族。分层特征提供了相同物理特征的不同粒度表示。对于最终的模型，可以选择族中最适合的一个层级来为作为该特征取值的层级。

图7是增强机器学习系统的原始特征集的计算机实现的方法700的方框流程图。该方法700包括：接收用于训练机器学习系统的原始特征集710。该原始特征集710包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果。基于该原始特征集710来查询网络化知识库720。知识引擎725可以用于生成和执行一个或多个查询，以及基于由查询获得的信息生成新的特征。在一实施例中，该知识库720可以包括网络化知识库比如互联网，该原始特征可以包括蜂窝电话信息，该结果包括运营商客户流失值。

从知识引擎接收一组知识特征730，该组知识特征包括响应网络化知识库的查询的知识特征值。生成了包括原始特征集710的记录和针对多个记录的知识特征730的第一增强特征集735。在一实施例中，基于第一增强特征集735训练机器学习系统740。

可以使用分层聚类或其他聚类技术来扩展一个或一组特征的表示量。在一实施例中，分层引擎745可以用来创建不同层级的特征。可以将一个或多个这样的层级添加到增强特征集735以产生也可以用于训练机器学习系统740的进一步增强的特征集750。该进一步增强的特征集750的高层级特征值可以包括数值或标称值。在另一实施例中，首先对一组特征进行分组或数学上的组合，然后将聚类应用于这组特征或组合后的特征以创建更高层级特征。

利用分层聚类，可以生成一系列层级，每个层级具有存在于多个集群中的一组完整观察值。每个层级代表不同的粒度。换句话说，较高层级具有较少的包含该组完整观察值的集群。如果用从下到上的方法形成集群，为了决定哪些集群应该被形成和/或组合，可以使用观察值之间的不相似或距离的度量。在一个示例中，可以首先通过将彼此最接近的观察值进行配对来形成集群，然后通过在进一步的级别组合彼此最接近的集群来形成集群。有很多不同的方式可以形成集群。除了称为凝聚聚类的自下而上的方法之外，还可以使用自上向下或分裂的方法，使得所有的观察值开始于一个集群中，并且递归地分裂并向下移动至各分层层级。聚类时，给定特征的值可能是在每个分层层级聚类的值的中位数或平均值。

集群的形成也受到用于确定观察值相互间的距离的方法的影响。可以在不同实施例中使用的各种距离函数包括中值距离函数、欧几里得距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数。

在一实施例中，可以有已知数量的值(比如S/M/L或者XS/S/M/L/XL或者S/L)，K-均值可以用于聚类，其中，K是已知数量的不同的值(S/M/L为3，XS/S/M/L/XL为5)。其他聚类技术可以在其他实施例中使用。需要注意的是，在这种情况下，只生成一个更高层级特征。在一实施例中，多个特征值可以在数学上组合以产进一步的特征。例如，宽度和长度特征值相乘以产生面积特征。在与确定无线运营商网络服务的用户流失有关的一实施例中，多个知识特征包括各种手机的长度和宽度，长度和宽度相乘被乘以产生蜂窝电话的面积作为进一步的知识特征。

只要机器学习系统740被一个或多个特征集训练，机器学习系统740就可被用于预测尚未被用于训练系统740的被指定为输入755的特征集的记录上的结果。系统740根据基于训练特征集生成的算法来处理输入，并提供结果作为输出760。该输出可以指示潜在的新客户是否可能经常改变运营商。基于业务目标，这种输出可用于向潜在的新客户提供客户激励或不同的手机计划。

图8是用于发现附加特征的系统800的框图。学习要求810被用作知识引擎230的输入，其中，所述知识引擎230基于智能数据发现功能820所表示的数据集中的一个或多个特征中的值来生成查询。可以通过搜索所有特征的所有值以及将包含新特征的结果与数据集中每个记录相关联来使智能数据发现功能820自动化。

在一实施例中，系统800可以输出每个特征的重要值或显著值。可以基于主要特征的值对特征进行分类，或者在一些实施例中，可以选择具有超过阈值的值的特征。在另一实施例中，可以基于特征选择中通常使用的一个或多个方法，例如测试特征的子集以找到误差率最小的特征子集，或者封装方法，过滤方法，嵌入方法或其他方法来应用特征修剪步骤。

原始特征及其扩展更高层级的表示可以被称为特征族。通过特征修剪，可以选择每个特征族的最佳等级(类似于为特征选择最佳粒度)以包括在最终模型中。通过如上所述通过经由增强生成更高层级特征之后执行特征选择，潜在有用的更高层级特征在被生成之前不会被排除。特征应用编程接口(application programming interface，API)830可以被用来与该组新特征交互以选择要增强的特征。所选特征可被提供给分层特征集增强函数840，分层特征集增强函数840可运算以创建如前所述的一个或多个分层层级。要包括在进一步增强的特征集中的每个族的层级可以由知识引擎230通过特征修剪来选择，或者可以由用户在850处通过选择特征层级来具体选择，以此获得进一步增强的分层特征集。

在图9处示出了用于选择和编辑新特征和分层特征以添加到原始特征集的界面900。在一实施例中，可以在每个特征旁边的复选框910的列表中描述该特征。用户只需选中该复选框即可包含一个功能。可以提供选项来选择如复选框915所指示的列出的所有特征。继续选择920可以用于将选择的特征添加到特征集，并且取消选择925可以用于取消特征选择界面900。特征列表可以基于特征名称按字母顺序排列，屏幕大小限制仅显示从以字母“A”开头的特征至以字母“C”开头的部分列举特征。某些功能可能有active_user、age、alert_balance、alertdelay、answer_count等名称。

图10是示例性实施例提供的用于实现一个或多个方法和引擎的计算机系统1000的示意性框图。所有组件不需要在各种实施例中使用。计算机1000形式的示例性计算设备可以包括处理单元1002，存储器1003，可移动存储器1010和不可移动存储器1012。计算机1000的组件可以由总线1022或其他通信元件互连。尽管示例性计算设备被描述为计算机1000，但是计算设备在不同的实施例中可以是不同的形式。尽管各种数据存储元件被描述为计算机1000的一部分，但存储器还可以或者可选地包括经由网络例如互联网可访问的基于云的存储器。计算机1000也可以是基于云的资源，例如虚拟机。

存储器1003可以包括易失性存储器1014和非易失性存储器1008。计算机1000可以包括或访问计算环境，该计算环境包括各种计算机可读介质，例如易失性存储器1014和非易失性存储器1008，可移动的存储器1010和不可移动存储器1012。计算机存储器包括随机存取存储器(random access memory，简称RAM)，只读存储器(read only memory，简称ROM)，可擦除可编程只读存储器(erasable programmable read-only memory，简称EPROM)和电可擦除可编程只读存储器(electrically erasable programmable read-onlymemory，简称EEPROM)，闪存或其他存储器技术，光盘只读存储器(compact disc read-onlymemory，简称CD ROM)，数字多功能盘(Digital Versatile Disk，简称DVD)或其他光盘存储器，磁带盒，磁带，磁盘存储器或其他能够存储用于执行的计算机可读指令的磁存储设备以执行本文所述的功能。

计算机1000可以包括或者可以访问包括输入1006，输出1004和通信连接1016的计算环境。输出1004可以包括也可以用作输入设备的显示设备，例如触摸屏。输入1006可以包括一个或多个触摸屏、触摸板、鼠标、键盘、相机、一个或多个设备专用按钮，一个或多个集成在计算机1000内或通过有线或无线数据连接耦合到计算机1000的传感器，以及其他输入设备。计算机1000可以使用通信连接1016在联网环境中利用通信连接1016运行以连接到一个或多个远程计算机，例如，包括基于云的服务器和存储的数据库服务器。远程计算机可以包括个人计算机(personal computer，简称PC)、服务器、路由器、网络PC、对等设备或其他公共网络节点等。通信连接1016可以包括局域网(local area network，简称LAN)、广域网(wide area network，简称WAN)、蜂窝、WiFi、蓝牙或其它网络。

存储在计算机可读存储设备上的计算机可读指令可由计算机1000的处理单元1002执行。硬盘驱动器、CD-ROM和RAM是包括非瞬时性计算机可读介质如存储设备的部件的举例。计算机可读介质和存储设备这两个术语不包括载波或信号。例如，能够提供通用技术以在基于组件对象模型(component object model，简称COM)的系统中对其中一个服务器执行对数据访问和/或进行操作的访问控制检查的计算机程序1018可以被包括在CD-ROM并从CD-ROM加载到硬盘驱动器。计算机可读指令允许计算机1000在具有多个用户和服务器的基于COM的计算机网络系统中提供通用访问控制。

例如：

1、在示例1中，一种方法包括：接收用于训练机器学习系统的原始特征集，所述特征集包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果；基于该组原始特征来查询知识库，接收一组具有响应网络化知识库的查询的知识特征值的知识特征；生成包括所述原始特征集的所述多个记录和针对所述多个记录的知识特征的第一增强特征集；基于第一增强特征集训练机器学习系统。

2、根据示例1所述的方法，还包括：组合单个特征的多个值以创建包括至少两个更高层级特征值集群的至少一个更高层级特征。

3、根据示例2所述的方法，还包括：从物理特征的多个更高层级特征中选择至少一个更高层级特征以包括在所述第一增强特征集中以训练所述机器学习系统。

4、根据示例2和3任一项所述的方法，每个集群的特征值是所述集群中的特征值的平均值或中值的函数。

5、根据示例1-4任一项所述的方法，还包括：从数学上组合的知识特征或一组知识特征中创建高层级特征值。

6、根据示例4和5任一项所述的方法，所述数学上组合的特征包括长度和宽度，所述长度和宽度相乘以产生面积作为所述进一步的特征值。

7、根据示例4和5任一项所述的方法，所述高层级特征值包括数值或标称值。

8、根据示例1-7任一项所述的方法，所述知识库包括网络化知识库。

9、根据示例1-8任一项所述的方法，基于一个或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将多个特征值组合成更高层级特征值的集群。

10、根据示例1-9任一项所述的方法，所述网络化知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。

11、根据示例1-10任一项所述的方法，还包括：提供界面以选择要包括在所述增强特征集中的特征。

12、在示例12中，一种非瞬时性机器可读存储设备具有由机器的处理器执行的以执行操作的指令。所述操作包括：接收用于训练机器学习系统的原始特征集，所述特征集包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果；基于该组原始特征来查询知识库，接收一组具有响应知识库的查询的知识特征值的知识特征；生成包括所述原始特征集的所述多个记录和针对所述多个记录的知识特征的第一增强特征集；基于第一增强特征集训练机器学习系统。

13、根据示例12所述的非瞬时性机器可读存储设备，所述操作还包括：组合单个特征的多个值以创建具有至少一个更高层级特征值的集群的至少一个更高层级特征。

14、根据示例12和13所述的非瞬时性机器可读存储设备，基于一个或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将多个特征值组合成更高层级特征值的集群以产生进一步的知识特征。

15、根据示例12-14任一项所述的非瞬时性机器可读存储设备，所述网络化知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。

16、在示例16中，一种设备包括处理器和存储器设备，该存储器设备耦合到处理器并具有存储在该存储器设备上的由处理器执行以执行操作的程序。所述操作包括：接收用于训练机器学习系统的原始特征集，所述特征集包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果；基于该组原始特征来查询知识库，接收一组具有响应知识库的查询的知识特征值的知识特征；生成包括所述原始特征集的所述多个记录和针对所述多个记录的知识特征的第一增强特征集；基于第一增强特征集训练机器学习系统。

17、根据示例16所述的设备，所述操作还包括：组合单个特征的多个值以创建具有至少一个更高层级特征值的集群的至少一个更高层级特征。

18、根据示例17所述的设备，基于一个活或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将多个特征值组合成更高层级特征值的集群以产生进一步的知识特征。

19、根据示例16-18所述的设备，所述操作还包括：从数学上组合的知识特征中创建高层级特征值，其中，所述数学上组合的特征包括长度和宽度，所述长度和宽度相乘以产生面积作为所述进一步的特征值。

20、根据示例16-19任一项所述的设备，所述知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。

虽然上文详细描述了几实施例但是可能进行其它修改。例如为了获得期望的结果附图中描绘的逻辑流不需要按照所示的特定顺序或者先后顺序。可以提供其它步骤或者从所描述的流程中去除步骤所描述的系统中可以添加或移除其它组件。其它实施例可以在所附权利要求书的范围内。

Claims

1.一种方法，其特征在于，包括：

接收用于训练机器学习系统的原始特征集，所述特征集包括多个记录，每个记录包括一组具有原始特征值的原始特征和一个结果；

基于该组原始特征查询知识库；

接收一组具有响应知识库的查询的知识特征值的知识特征；

生成包括所述原始特征集的所述多个记录和针对所述多个记录的知识特征的第一增强特征集；

基于所述第一增强特征集训练所述机器学习系统。

2.根据权利要求1所述的方法，其特征在于，还包括：组合单个特征的多个值以创建包括至少两个更高层级特征值集群的至少一个更高层级特征。

3.根据权利要求2所述的方法，其特征在于，还包括：从用于物理特征的多个更高层级特征中选择至少一个更高层级特征以包括在所述第一增强特征集中以训练所述机器学习系统。

4.根据权利要求2所述的方法，其特征在于，每个集群的特征值是所述集群中的特征值的平均值或中值的函数。

5.根据权利要求1所述的方法，其特征在于，还包括：从数学上组合的知识特征或一组知识特征中创建高层级特征值。

6.根据权利要求4所述的方法，其特征在于，所述数学上组合的特征包括长度和宽度，所述长度和宽度相乘以产生面积作为进一步的特征值。

7.根据权利要求4所述的方法，其特征在于，所述高层级特征值包括数值或标称值。

8.根据权利要求1所述的方法，其特征在于，所述知识库包括网络化知识库。

9.根据权利要求1所述的方法，其特征在于，基于一个或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将多个特征值组合成更高层级特征值的集群。

10.根据权利要求1所述的方法，其特征在于，所述知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。

11.根据权利要求1所述的方法，其特征在于，还包括：提供界面以选择要包括在所述增强特征集中的特征。

12.一种非瞬时性机器可读存储设备，其特征在于，由一个或多个处理器执行指令以执行操作，包括：

基于该组原始特征查询知识库；

接收一组具有响应知识库的查询的知识特征值的知识特征；

基于所述第一增强特征集训练所述机器学习系统。

13.根据权利要求12所述的非瞬时性机器可读存储设备，其特征在于，所述操作还包括：组合单个特征的多个值以创建包括至少一个更高层级特征值集群的至少一个更高层级特征。

14.根据权利要求12所述的非瞬时性机器可读存储设备，其特征在于，基于一个或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将多个特征值组合成更高层级特征值的集群以产生进一步的知识特征。

15.根据权利要求12所述的非瞬时性机器可读存储设备，其特征在于，所述知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。

16.一种设备，其特征在于，包括：

处理器；

存储设备，该存储设备耦合到所述处理器且具有存储在该存储设备上的由所述处理器执行以执行操作的程序，所述操作包括：

基于该组原始特征查询知识库；

接收一组具有响应知识库的查询的知识特征值的知识特征；

基于所述第一增强特征集训练所述机器学习系统。

17.根据权利要求16所述的设备，其特征在于，所述操作还包括：组合单个特征的多个值以创建包括至少一个更高层级特征值集群的至少一个更高层级特征。

18.根据权利要求17所述的设备，其特征在于，基于一个或多个欧几里德距离函数、曼哈顿距离函数、余弦距离函数或汉明距离函数将所述多个特征值组合成更高层级特征值的集群以产生进一步的知识特征。

19.根据权利要求16所述的设备，其特征在于，所述操作还包括：从数学上组合的知识特征中创建高层级特征值，其中，所述数学上组合的特征包括长度和宽度，所述长度和宽度相乘以产生面积作为所述进一步的特征值。

20.根据权利要求16所述的设备，其特征在于，所述知识库包括互联网，所述原始特征包括蜂窝电话信息，所述结果包括运营商客户流失值。