CN110347688B

CN110347688B - 多元信息的特征融合方法、装置、设备及存储介质

Info

Publication number: CN110347688B
Application number: CN201910619856.XA
Authority: CN
Inventors: 曾宪宇
Original assignee: Transwarp Technology Shanghai Co Ltd
Current assignee: Transwarp Technology Shanghai Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2020-09-11
Anticipated expiration: 2039-07-10
Also published as: CN110347688A

Abstract

本发明实施例公开了一种多元信息的特征融合方法、装置、设备及存储介质。所述方法使用分布式的方式实现，包括：获取至少两个数据源表、数据源表之间的关联关系以及初始目标表；选择指定的数据源表作为目标表，并根据数据源表之间的关联关系，查询目标表的关联表；从关联表的多元信息中提取特征并融合到目标表中；对融合特征进行有效性验证，并删除未通过有效性验证的无效特征；返回融合其他数据源表中多元信息的最终目标表。本发明实施例的技术方案，实现了对多个数据源表中的多元信息自动进行特征融合，并删除无效的融合特征的功能，达到了减少人力成本的开销，降低错误的发生率的效果。

Description

多元信息的特征融合方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据挖掘技术领域，尤其涉及一种多元信息的特征融合方法、装置、设备及存储介质。

背景技术

随着科技的发展和人们生活水平的提高，数据资源日益增多，考虑到数据存储与业务发展的便利性，服务商通常会将一个业务所产生的数据分开存储到不同的数据表中。例如，对于电商业务来说，用户属性一般存在一个单独的用户信息表中，它记录了用户的年龄，性别，地址等基本信息，而用户的消费信息则存在另一个交易表中，它记录了用户在购买某件商品的时间、数量、折扣信息等。

在一般的数据挖掘建模场景下，建模人员首先会对各个表的字段完成一些基本统计分析，然后会综合利用各个来源的信息提取用户不同类型特征，形成一个“特征宽表”。仍以上面提到的场景为例，如果要预测用户接下来一段时间的消费情况，除了需要知道用户的基本信息(性别、年龄等)通常还需要用户的消费信息(平均消费额、最常消费时段、最常消费商品类型等)，这些消费信息就需要建模人员手动从消费表中提取并与用户基本信息表结合在一起形成新的特征表。

现有的特征融合方法需要工作人员按照表的逻辑关系、字段内容以及工作人员的业务知识等规划融合逻辑，综合利用各个来源的信息提取不同类型特征。这种手动方式非常依赖于工作人员的业务素质，需要其花费大量的时间和精力完成一些重复性较高的繁杂操作，并且在数据表或字段数量较多时很容易发生错误。

为了帮助建模人员从这种繁杂劳动中解放出来，已有一些自动化的特征提取和融合工具被提出，但是现有的融合工具仍然存在一些缺点限制了融合工具的大范围应用：

1)采用单机方法实现，扩展性较差。在大数据时代，工业级应用的数据量很容易超过GB甚至TB量级，单机工具无法应用。

2)仅提供了Python的接口，在与使用其他语言和接口实现的工具配合时不是很方便。

3)虽然融合了多元数据，但是里面包含较多无效特征，仍然需要一些手动筛选的工作。

发明内容

本发明实施例提供一种多元信息的特征融合方法、装置、设备及存储介质，以实现对多个数据源表中的多元信息自动进行特征融合，并删除无效的融合特征的功能，实现减少人力成本的开销，降低错误的发生率的效果。此外，本发明使用分布式方式实现，能够良好的适用于工业级的大规模数据量集。

第一方面，本发明实施例提供了一种多元信息的特征融合方法，所述方法使用分布式的方式实现，包括：

获取至少两个数据源表、数据源表之间的关联关系以及初始目标表；

在特征融合过程中，从未被查询的数据源表中，选择当前目标表，并从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表；

将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中；

对所述当前目标表中的融合特征自动化地进行有效性验证，并删除所述当前目标表中未通过有效性验证的无效特征；

返回执行当前目标表的选择操作以及关联表的查询操作，直到初始目标表的关联表均已被查询，得到最终目标表。

可选的，所述获取至少两个数据源表、数据源表之间的关联关系以及初始目标表，包括：

通过预设接口获取至少两个数据源表、数据源表之间的关联关系以及初始目标表；

在所述直到当前目标表的关联表均已被查询，得到最终目标表之后，还包括：

通过所述预设接口输出所述最终目标表；

其中，所述预设接口包括但不限于：Scala语言接口、Java语言接口、Python语言接口、R语言接口以及支持远程调用的RESTFUL接口中的一种。

可选的，所述从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表，包括：

从未被查询的数据源表中，根据数据源表之间的关联关系，查询与当前目标表有关联键的关联表。

可选的，所述将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中，包括：

若关联表中的关联键的数据与当前目标表的关联键的数据是一对多或者一对一的关系，则将关联表中的多元信息直接添加到所述当前目标表的对应列中。

若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，则将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到所述当前目标表的对应列中。

可选的，所述若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，则将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到所述当前目标表的对应列中，包括：

若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，采用内置聚合函数或者自定义聚合函数，将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到所述当前目标表的对应列中。

可选的，所述对所述当前目标表中的融合特征自动化地进行有效性验证，包括：

按照业务有效需求，对当前目标表中的融合特征自动化地进行有效性验证；和/或，

按照内置聚合函数或者自定义聚合函数的有效适用范围，对当前目标表中的融合特征自动化地进行有效性验证。

第二方面，本发明实施例还提供了一种多元信息的特征融合装置，所述装置使用分布式的方式实现，包括：

数据获取模块，用于获取至少两个数据源表、数据源表之间的关联关系以及初始目标表；

关联表查询模块，用于在特征融合过程中，从未被查询的数据源表中，选择当前目标表，并从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表；

特征提取模块，用于将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中；

特征验证模块，用于对所述当前目标表中的融合特征自动化地进行有效性验证，并删除所述当前目标表中未通过有效性验证的无效特征；

循环模块，用于返回执行当前目标表的选择操作以及关联表的查询操作，直到初始目标表的关联表均已被查询，得到最终目标表。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任意实施例提供的多元信息的特征融合方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例提供的多元信息的特征融合方法。

本发明实施例通过获取多个数据源表、数据源表之间的关联关系以及初始目标表，从未被查询的数据源表中，选择当前目标表，并根据多个数据源表之间的关联关系，查询当前目标表的关联表，将关联表中的多元信息进行特征提取并融合到目标表中，再通过自动化地有效性验证删除目标表中无效的特征，重复执行该过程直到当前目标表的关联表均已被查询为止，实现了自动对所获取数据源表中的多元信息进行有效的特征融合的功能，减少了人工成本的开销，降低了特征融合的错误发生率；而且，本发明实施例使用分布式的方式实现，能够高效地对大量数据源表自动进行多元信息的有效特征融合，可扩展性较高；通过对融合特征进行自动化地有效性验证，能够删除无效的融合特征，减少后续人工处理融合特征的成本。

附图说明

图1是本发明实施例一中的一种多元信息的特征融合方法的流程图；

图2是本发明实施例二中的一种多元信息的特征融合方法的流程图；

图3是本发明实施例三中的一种多元信息的特征融合装置的结构示意图；

图4是本发明实施例四中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种多元信息的特征融合方法的流程图，本实施例可适用于使用spark框架实现分布式，对多个数据源表中的多元信息进行有效的特征融合的情况，该方法可以由多元信息的特征融合装置来执行，该装置可以由软件和/或硬件的方式实现，并一般可以集成在各种提供多元信息的特征融合服务的计算机设备中。具体的，参考图1，该方法使用分布式的方式实现，可以包括如下步骤：

步骤110、获取至少两个数据源表、数据源表之间的关联关系以及初始目标表。

本实施例中，数据源表是指等待从多元数据中提取特征，并对所提取特征进行特征融合的原始数据表，由于需要将不同数据源表中的特征融合到一起，构成新的特征表，所以本实施例中需要获取至少两个数据源表。两个数据源表可以因为一个数据源表中的键值与另一个数据源表中的键值相同而具有关联关系。初始目标表是至少两个数据源表中指定的一个，用于确定待融合特征的主体，以及扩展与其关联的其他数据源表的特征得到最终目标表。示例性的，由于客户表的“客户ID”与商品交易表中的“客户ID”相同，因此，商品交易表是与客户表相关联的关联表，二者有关联关系，若要研究用户的特征属性，可以将商品交易表中的用户特征信息融合到用户表中，即，将用户表作为初始目标表，将融合了商品交易表的特征的用户表作为最终目标表。

可选的，可以通过预设接口获取至少两个数据源表、数据源表之间的关联关系以及初始目标表；其中，预设接口可以包括：Scala语言接口、Java语言接口、Python语言接口、R语言接口以及支持远程调用的RESTFUL接口中的一种，但不仅限于上述语言接口或调用接口，用户可以根据其需求从多种接口中选择一种来输入数据源表、数据源表之间的关联关系和指定的初始目标表。

具体的，考虑到不同用户对接口的不同需求，本实施例在原生支持Scala语言接口和Java语言接口之外，还通过socket通信的方式提供了Python语言接口和R语言接口，以及使用超文本传输协议(HyperText Transfer Protocol，HTTP)服务提供了支持远程调用的RESTFUL接口，从而满足不同用户的应用需求，增大了使用用户的普遍性。其中，RESTFUL接口可以使用户不需要搭建特定的Java编程环境或者其他语言的编程环境，通过浏览器就可以向服务器发送指令，使其进行指定的操作。本实施例对用户来说，其分布式计算过程是透明的，用户仅需要选择提供的预设接口，输入至少两个数据源表、至少两个数据源表之间的关联关系以及初始目标表，即可完成至少两个数据源表的特征融合。

本发明实施例使用Spark框架实现分布式，根据Spark框架中的资源管理器从预设接口获取至少两个数据源表、数据源表之间的关联关系以及初始目标表。Spark框架可以根据其数据帧(DataFrame)提供的数据表类型系统管理各种不同数据类型的数据表，并提供分布式的大数据处理能力。本实施例使用Spark框架，采用分布式的方式对大量数据源表自动进行多元信息的有效特征融合，大大节省现有技术中利用人工对大量级数据源表进行处理的时间，提高了可扩展性。

步骤120、从未被查询的数据源表中，选择当前目标表，并从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表。

Spark框架中的资源管理器从预设接口获取至少两个数据源表、数据源表之间的关联关系以及初始目标表之后，驱动程序从资源管理器中获取运行执行器的资源并启动标准执行器后端，将对应的任务分配给执行器，以使执行器完成任务。所述任务可以理解为将从多个数据源表中提取的有效特征融合到初始目标表中，构成最终目标表。

具体的，执行器从分配的任务信息中提取出至少两个数据源表和数据源表之间的关联关系，以及指定的初始目标表的信息，根据初始目标表的信息从未被查询的数据源表中，选择当前目标表，并从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表。

可选的，执行器从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表，可以具体包括：执行器从未被查询的数据源表中，根据数据源表之间的关联关系，查询与当前目标表有关联键的关联表。其中，若有多个与当前目标表有关联键的且未被查询的关联表，则依次从多个关联表中选择一个进行查询。

本实施例中，初始目标表有多级关联表，可以采用递归调用的方式，将与初始目标表相关联的多级关联表，逐级作为目标表，融合与其关联且未被查询的其他数据源表的特征。为了区别于初始目标表，将每一级关联表的特征融合过程中的目标表作为当前目标表。

其中，开始对初始目标表进行特征融合时，选择初始目标表作为当前目标表，并从未被查询的数据源表中，查询与当前目标表有关联键的关联表，以将关联表的特征融合到当前目标表中，此时，若当前目标表的关联表尚未融合其关联的数据源表的特征，则根据递归调用的方式，将初始目标表的关联表设置为当前目标表，以对其进行特征融合，并将融合了其他关联表的特征的当前目标表作为初始目标表的关联表，扩展到初始目标表中，生成最终目标表。

示例性的，对于客户表和商品交易表两个未被查询的数据源表，若指定客户表为初始目标表，商品交易表是包括与初始目标表的主键值“客户ID”相同的键值的关联表，则先将客户表作为当前目标表，然后在客户表的基础上，扩展客户表的主体的特征，即客户的特征，具体通过查询商品交易表，从商品交易表中提取客户的特征信息，并融合到客户表中，以对客户表进行扩展。

步骤130、将关联表中的多元信息进行特征提取并融合到当前目标表中。

驱动器确定待查询的关联表后，根据关联表中的关联键的数据与当前目标表的关联键的数据之间的对应关系，选择对应的方式对关联表中的多元信息进行特征提取，并将提取的特征融合到当前目标表中。

可选的，关联表中的关联键的数据与当前目标表的关联键的数据之间对应关系可以包括一对多的关系、一对一的关系和多对一的关系，其中，若目标表的关联键包括互不相同的多条数据，关联表的关联键包括与目标表的关联键中任一数据相同的至少两条数据，则关联表中的关联键的数据与当前目标表的关联键的数据之间对应关系为多对一的关系；若关联表的关联键包括互不相同的多条数据，目标表的关联键包括与关联表的关联键中任一数据相同的至少两条数据，则关联表中的关联键的数据与当前目标表的关联键的数据之间对应关系为一对多的关系；若关联表的关联键包括互不相同的多条数据，目标表的关联键包括与关联表的关联键中任一数据相同的一条数据，则关联表中的关联键的数据与当前目标表的关联键的数据之间对应关系为一对一的关系。

可选的，若关联表中的关联键的数据与当前目标表的关联键的数据是一对多或者一对一的关系，则将关联表中的多元信息直接添加到当前目标表的对应列中；若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，则将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到当前目标表的对应列中，完成对当前目标表的特征融合。

可选的，若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，采用内置聚合函数或者自定义聚合函数，将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到当前目标表的对应列中。其中，内置聚合函数包括预先定义的求和函数、平均值函数、方差函数和最多次出现函数等，自定义聚合函数是指用户按照任务需求定义的聚合函数，例如，最常消费时段统计函数和最常消费商品类型统计函数等。

步骤140、对当前目标表中的融合特征进行自动化地有效性验证，并删除当前目标表中未通过有效性验证的无效特征。

驱动器将关联表中的多元信息进行特征提取并融合到当前目标表中之后，为了减少后续筛选目标表中的融合特征的人工成本，对当前目标表中的融合特征预先进行自动化地有效性验证，并删除当前目标表中未通过有效性验证的无效特征。

可选的，对当前目标表中的融合特征进行有效性验证可以包括：按照预定义的业务需求，对当前目标表中的融合特征进行有效性验证；例如，从商品交易表中提取出三个特征：客户每天消费的各类商品的数目A(即count(distinct item_id)group by date)，客户每天消费的各类商品的数目的总和B(即sum(A)group by user_id)，以及客户每天消费的各类商品的数目的最大值C(即max(A)group by user_id)，从业务需求的角度看，特征A与特征C是有业务含义的，能够体现出客户消费的多样性，而特征B则没有较明确的业务含义，需要删除。

可选的，对当前目标表中的融合特征进行有效性验证还可以包括：按照内置聚合函数或者自定义聚合函数的有效适用范围，对当前目标表中的融合特征进行有效性验证。具体而言，由于不同类型的数据对应的处理方法是不同的，因此，有必要针对内置聚合函数或者自定义聚合函数的适用范围对当前目标表中的融合特征进行验证，以删除不符合聚合函数的适用范围的无意义特征。例如，对于已经提取的年月日等表示时间的序数值特征(例如月份1、2、3)不能再继续应用数值聚合方法(例如求和函数和求最大值函数等)生成新特征。

步骤150、判断是否存在未被查询的数据源表，如果是，即存在未被查询的数据源表，说明初始目标表的至少一个关联表未被查询，跳转到步骤120；如果否，即不存在未被查询的数据源表，说明初始目标表的关联表均已被查询，跳转到步骤160。

执行器在删除当前目标表中未通过有效性验证的无效特征，完成对当前目标表的有效特征融合之后，进一步判断是否存在未被查询的数据源表，若存在，则返回步骤120，执行当前目标表的选择操作以及关联表的查询操作，直到初始目标表的关联表均已被查询，得到最终目标表。

本实施例中，若一个初始目标表对应多个关联表，且关联表与初始目标表是串行关联的关系，即关联表一与初始目标表关联，关联表二与关联表一关联，关联表三与关联表二关联，则采用递归调用的方式依次对关联表进行特征提取和特征融合，直到初始目标表的关联表均被查询，得到融合了所有关联表的有效特征的最终目标表。

示例性的，假设对三个数据源表进行特征融合，其中，表一为初始目标表，表二关联表一，表三关联表二，则执行器先确定表一为当前目标表，表二为当前目标表的关联表，并确定对表二进行查询，当对表二进行查询时，由于表二有未查询的关联表表三，因此需要先将表三的特征融合到表二中，再将特征融合后的新表二融合到表一中，得到最终目标表。在此情况下，执行器将表二设置为当前目标表，表三为当前目标表未被查询过的关联表，并对表三进行查询，由于表三没有未被查询的关联表，因此可以直接将表三的特征融合到表二中，得到新表二。此时，现有的数据表中，初始目标表表一为当前目标表，新表二为表一的未被查询的关联表，需要返回步骤120，重新调用该扩展流程，将新表二中的特征融合到表一中，得到最终目标表。

可选的，在直到初始目标表的关联表均已被查询，得到最终目标表之后，还包括：通过预设接口输出最终目标表，具体来说，通过获取数据源表的预设接口输出特征融合后得到的最终目标表。

步骤160、结束本次操作。

本发明实施例通过获取多个数据源表及数据源表之间的关联关系，从未被查询的数据源表中，选择当前目标表，并根据多个数据源表之间的关联关系，查询当前目标表的关联表，将关联表中的多元信息进行特征提取并融合到目标表中，再通过有效性验证删除目标表中无效的特征，重复执行该过程直到当前目标表的关联表均已被查询为止，实现了自动对多个数据源表中的多元信息进行有效的特征融合的功能，减少了人工成本的开销，降低了特征融合的错误发生率；而且，本发明实施例使用Spark框架，通过分布式的方式处理大数据量的数据源表，可扩展性较高；通过对融合特征进行有效性验证，自动删除无效的融合特征，减少后续人工处理融合特征的成本。

进一步地，通过预先设置多种调用接口，可以供多种有不同应用需求的用户使用，增大了使用范围。

实施例二

图2是本发明实施例二中的一种多元信息的特征融合方法的流程图，本实施例可以与上述实施例中各个可选方案结合。具体的，参考图2，该方法可以包括如下步骤：

步骤210、获取至少两个数据源表以及数据源表之间的关联关系，设定初始目标表。

本实施例中，对多个数据源表进行特征融合必须获取两个信息，至少两个数据源表以及数据源表之间的关联关系，以及初始目标表的信息。可选的，可以通过预设接口获取至少两个数据源表以及数据源表之间的关联关系，以及初始目标表的信息，根据初始目标表的信息从数据源表中选择对应的数据表，并设置为初始目标表，以在该数据表的基础上扩展该表的主键代表主体的特征信息。

示例性的，假设获取的三个数据源表为客户表、商品交易表和商品信息表，并且商品交易表是客户表的关联表，商品信息表示商品交易表的关联表，设定初始目标表为客户表。其中，客户表如下所示：

表1客户表

客户ID	年龄	性别	星座
				A	32	男	射手
B	25	女	白羊
				C	13	男	双鱼

商品交易表如下所示：

表2商品交易表

商品	客户ID	购买数量	总价
				x	A	3	2.7
y	B	1	1.3
				z	A	2	3.2

商品信息表如下所示：

表3商品信息表

商品	商家	单价	折扣
				x	M	1.5	0.6
y	N	2.6	0.5
				z	M	2	0.8

步骤220、判断初始目标表是否存在未查询过的关联表，若是，则执行步骤230，否则，执行步骤290。

可选的，确定初始目标表之后，根据数据源表之间的关联关系，查找初始目标表未被查询过的关联表，从而判断初始目标表是否存在未查询过的关联表，若确定初始目标表存在未查询过的关联表，则说明还存在待融合到初始目标表的关联表，执行步骤230，若确定初始目标表不存在未查询过的关联表，则说明所有关联表都已经融合到初始目标表中，此时的初始目标表即为融合了其他数据源表中的特征后得到的最终目标表，因此，执行步骤290。

示例性的，确定初始目标表为客户表之后，根据客户表、商品交易表和商品信息表之间的关联关系，找到初始目标表未被查询过的关联表，即商品交易表，因此，需要执行步骤230。

步骤230、从未查询的关联表中选择一个关联表，并设定为已查询状态。

可选的，确定初始目标表存在未查询过的关联表之后，从未查询的关联表中选择一个关联表，并设定为已查询状态，避免对该表进行多次查询，导致重复提取该表的特征并重复融合到初始目标表中，造成完成特征融合过程后得到的最终目标表中的特征无效，从而对使用最终目标表的业务建模产生不良影响。示例性的，选择与客户表关联的商品交易表，并将商品交易表设置为已查询状态。

步骤240、将选择的关联表设置为当前目标表，并调用该扩展流程。

本实施例中，当初始目标表的关联表还存在未被查询的关联表时，需要采用递归调用的方式，先将未被查询的关联表融合到初始目标表的关联表中，然后将完成特征融合后的初始目标表的关联表进一步融合到初始目标表中，得到最终目标表。

可选的，将选择的关联表设置为当前目标表之后，对其调用该扩展流程，以判断是否需要先对其进行扩展。具体的，若调用该扩展流程之后，确定当前目标表还存在未被查询的关联表，则需要先对当前目标表进行扩展，然后将返回的扩展后的当前目标表作为关联表，对其所关联的目标表进行扩展；若调用该扩展流程之后，确定当前目标表不存在未被查询的关联表，则直接将当前目标表作为关联表，对其所关联的目标表进行扩展。

示例性的，将商品交易表设置为已查询状态之后，将其设置为当前目标表，通过对其调用该扩展流程，确定商品交易表还存在未被查询的关联表，即商品信息表，因此，需要先对商品交易表进行扩展。在对商品交易表进行扩展之前，先将商品信息表设置为当前目标表，通过对其调用该扩展流程，确定商品信息表不存在未被查询的关联表，此时，商品信息表被设置为关联表，商品交易表为当前目标表，执行步骤250，对商品交易表进行扩展。

步骤250、判断关联表的键值是否与当前目标表是多对一的关系，若是，则执行步骤270，否则，执行步骤260。

可选的，关联表中的关联键的数据与当前目标表的关联键的数据的对应关系可以包括一对多的关系、一对一的关系以及多对一的关系，若关联表中的关联键的数据与当前目标表的关联键的数据的对应关系是一对多或者一对一的关系，则将关联表中的多元信息直接添加到当前目标表的对应列中；若是多对一的关系，则需要将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到当前目标表的对应列中，以实现对当前目标表的扩展。

示例性的，由于商品信息表的关联键的数据与商品交易表不是多对一的关系，因此需要执行步骤260，以直接将商品信息表中的多元信息添加到商品交易表的对应列中，得到新的商品交易表，完成对商品交易表的特征融合，即对商品交易表的扩展。

步骤260、直接将关联表中的多元信息追加到当前目标表中。

示例性的，将商品信息表中的多元信息直接添加到商品交易表的对应列中，得到新的商品交易表，如下：

表4新的商品交易表

商品	客户ID	购买数量	总价	商家	单价	折扣
							x	A	3	2.7	M	1.5	0.6
y	B	1	1.3	N	2.6	0.5
							z	A	2	3.2	M	2	0.8

步骤270、采用选定的聚合方法，将关联表中的多元信息按照关联键进行聚合处理，并添加到当前目标表中。

可选的，假设当前目标表是客户表，关联表是商品交易表，根据一个客户ID在客户表中只出现一次，而在商品交易表中出现多次，确定关联表中的关联键的数据与当前目标表的关联键的数据的对应关系是多对一的关系，此时，需要执行步骤270，采用内置聚合函数或者自定义聚合函数，将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到当前目标表的对应列中，得到新客户表如下：

表5新客户表

步骤280、对当前目标表中的融合特征自动化地进行有效性验证，并删除当前目标表中未通过有效性验证的无效特征。

可选的，完成对当前目标表的特征融合，得到扩展后的当前目标表之后，为了减少处理最终目标表中的融合特征的人工成本，对当前目标表中的融合特征自动化地进行有效性验证，并删除当前目标表中未通过有效性验证的无效特征。

具体的，有效性验证可以包括：按照业务有效需求，对扩展后的当前目标表中的融合特征自动化地进行有效性验证，例如，在步骤270中得到的新客户表中，折扣总和可以认为没有业务含义，是无效的融合特征；以及，按照内置聚合函数或者自定义聚合函数的有效适用范围，对扩展后的当前目标表中的融合特征进行有效性验证，例如，对于年月日等表示时间的序数值(例如月份1、2、3)不能应用数值聚合方法(例如，求和函数和求均值函数等)。

步骤290、返回扩展后的特征表。

可选的，在删除扩展后的当前目标表中未通过有效性验证的无效特征之后，保留下来的当前目标表即为扩展后的特征表，返回扩展后的特征表，并返回执行当前目标表的选择操作以及关联表的查询操作，直到初始目标表的关联表均已被查询。

本发明实施例通过预设接口获取多个数据源表、数据源表之间的关联关系以及初始目标表，从未被查询的数据源表中，选择当前目标表，并根据多个数据源表之间的关联关系，查询当前目标表的关联表，将关联表中的多元信息进行特征提取并融合到目标表中，再通过有效性验证删除目标表中无效的特征，重复执行该过程直到初始目标表的关联表均已被查询为止，实现了自动对多个数据源表中的多元信息进行有效的特征融合，减少了人工成本的开销，降低了特征融合的错误发生率；而且，本发明实施例使用Spark框架实现分布式，能够高效地对大量数据源表自动进行多元信息的有效特征融合，可扩展性较高；通过预先设置多种调用接口，可以供多种有不同应用需求的用户使用，增大了使用范围；通过对融合特征进行有效性验证，自动删除无效的融合特征，减少后续人工处理融合特征的成本。

实施例三

图3是本发明实施例三中的一种多元信息的特征融合装置的结构示意图。如图3所示，该多元信息的特征融合装置使用分布式的方式实现，包括：

数据获取模块310，用于获取至少两个数据源表、数据源表之间的关联关系以及初始目标表；

关联表查询模块320，用于在特征融合过程中，从未被查询的数据源表中，选择当前目标表，并从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表；

特征提取模块330，用于将关联表中的多元信息进行特征提取并融合到当前目标表中；

特征验证模块340，用于对当前目标表中的融合特征自动化地进行有效性验证，并删除当前目标表中未通过有效性验证的无效特征；

循环模块350，用于返回执行当前目标表的选择操作以及关联表的查询操作，直到初始目标表的关联表均已被查询，得到最终目标表。

本发明实施例的技术方案，通过获取多个数据源表及数据源表之间的关联关系，从未被查询的数据源表中，选择当前目标表，并根据多个数据源表之间的关联关系，查询当前目标表的关联表，将关联表中的多元信息进行特征提取并融合到目标表中，再通过有效性验证删除目标表中无效的特征，重复执行该过程直到当前目标表的关联表均已被查询为止，实现了自动对多个数据源表中的多元信息进行有效的特征融合，减少了人工成本的开销，降低了特征融合的错误发生率；而且，本发明实施例使用分布式的方式实现，能够高效地对大量数据源表自动进行多元信息的有效特征融合，可扩展性较高；通过预先设置多种调用接口，可以供多种有不同应用需求的用户使用，增大了使用范围；通过对融合特征进行有效性验证，自动删除无效的融合特征，减少后续人工处理融合特征的成本。

进一步的，数据获取模块310包括：获取单元，用于通过预设接口获取至少两个数据源表、数据源表之间的关联关系以及初始目标表；输出单元，用于在直到当前目标表的关联表均已被查询，得到最终目标表之后，通过预设接口输出当前目标表；其中，预设接口包括但不限于：Scala语言接口、Java语言接口、Python语言接口、R语言接口以及支持远程调用的RESTFUL接口中的一种。

进一步的，关联表查询模块320具体用于：从未被查询的数据源表中，根据数据源表之间的关联关系，查询与当前目标表有关联键的关联表。

进一步的，特征提取模块330包括：信息添加单元，用于若关联表中的关联键的数据与当前目标表的关联键的数据是一对多或者一对一的关系，则将关联表中的多元信息直接添加到当前目标表的对应列中。

进一步的，特征提取模块330包括：聚合处理单元，用于若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，则将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到当前目标表的对应列中。

进一步的，聚合处理单元可以具体用于：若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，采用内置聚合函数或者自定义聚合函数，将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到当前目标表的对应列中。

进一步的，特征验证模块340包括：第一验证单元，用于按照业务有效需求，对当前目标表中的融合特征自动化地进行有效性验证；和/或，第二验证单元，用于按照内置聚合函数或者自定义聚合函数的有效适用范围，对当前目标表中的融合特征自动化地进行有效性验证。

本发明实施例所提供的多元信息的特征融合装置可执行本发明任意实施例所提供的多元信息的特征融合方法，具备执行方法相应的功能模块和有益效果。

实施例四

参照图4，图4是本发明实施例四提供的一种计算机设备的结构示意图，如图4所示，该设备包括处理器410、存储器420、输入装置430和输出装置440；设备中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的多元信息的特征融合方法对应的程序指令/模块(例如，多元信息的特征融合装置中的数据获取模块310、关联表查询模块320、特征提取模块330、特征验证模块340和循环模块350)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的多元信息的特征融合方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现一种多元信息的特征融合方法，一种多元信息的特征融合方法使用分布式的方式实现，包括：

当然，本发明实施例所提供的一种计算机可读存储介质，其计算机指令可执行不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的多元信息的特征融合方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述多元信息的特征融合装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多元信息的特征融合方法，其特征在于，所述方法使用分布式的方式实现，包括：

在特征融合过程中，判断初始目标表是否存在未查询过的关联表，从未被查询的数据源表中，选择当前目标表，并从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表；

如果与所述关联表关联的数据源表都被查询，则将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中，否则，将所述关联表作为当前目标表，返回执行当前目标表的关联表的查询操作；

返回执行当前目标表的选择操作以及关联表的查询操作，直到初始目标表的关联表均已被查询，得到最终目标表；

其中，所述将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中，包括：

若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，则将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到所述当前目标表的对应列中；

其中，所述对所述当前目标表中的融合特征自动化地进行有效性验证，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取至少两个数据源表、数据源表之间的关联关系以及初始目标表，包括：

在所述直到初始目标表的关联表均已被查询，得到最终目标表之后，还包括：

通过所述预设接口输出所述最终目标表；

3.根据权利要求1所述的方法，其特征在于，所述从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中，包括：

5.根据权利要求1所述的方法，其特征在于，所述若关联表中的关联键的数据与当前目标表的关联键的数据是多对一的关系，则将关联表中的多元信息按照关联键进行聚合处理，并将得到的聚合信息添加到所述当前目标表的对应列中，包括：

6.一种多元信息的特征融合装置，其特征在于，所述装置使用分布式的方式实现，包括：

关联表查询模块，用于在特征融合过程中，判断初始目标表是否存在未查询过的关联表，从未被查询的数据源表中，选择当前目标表，并从未被查询的数据源表中，根据数据源表之间的关联关系，查询当前目标表的关联表；

特征提取模块，用于如果与所述关联表关联的数据源表都被查询，则将所述关联表中的多元信息进行特征提取并融合到所述当前目标表中，否则，将所述关联表作为当前目标表，返回执行当前目标表的关联表的查询操作；

循环模块，用于返回执行当前目标表的选择操作以及关联表的查询操作，直到初始目标表的关联表均已被查询，得到最终目标表；

其中，特征提取模块，具体用于：

其中，循环模块，具体用于：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的多元信息的特征融合方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的多元信息的特征融合方法。