CN110476159A

CN110476159A - 信息处理系统、特征值说明方法和特征值说明程序

Info

Publication number: CN110476159A
Application number: CN201880023104.0A
Authority: CN
Inventors: 楠村幸贵; 藤卷辽平
Original assignee: NEC Corp
Current assignee: Dot Data Co
Priority date: 2017-03-30
Filing date: 2018-03-23
Publication date: 2019-11-19
Also published as: EP3605363A4; US11727203B2; US20200387664A1; WO2018180970A1; JP7199345B2; JPWO2018180970A1; EP3605363A1

Abstract

函数生成单元81使用预先准备的第一模板来生成特征值生成函数，该特征值生成函数从包含预测目标的变量的第一表和第二表生成可以影响预测目标的特征。特征值生成单元82向第一表和第二表应用特征值生成函数以生成特征值。说明文本生成单元83基于第二模板来生成关于特征值生成函数或特征值的说明文本。接收单元84接收要被替代到给第一和第二模板中的值。函数生成单元81将接收到的值替代到第一模板中并且生成特征值生成函数，并且说明文本生成单元83将被替代到第一模板中的该值替代到第二模板中并且生成说明文本。

Description

信息处理系统、特征值说明方法和特征值说明程序

技术领域

本发明涉及用于生成用于在学习或预测中使用的特征的信息处理系统，并且涉及用于描述所生成的特征的特征描述方法和特征描述程序。

背景技术

预测分析的过程大致被分为以下三个阶段。

第一阶段(步骤)是“预处理阶段”。在“预处理阶段”中，例如要被输入到根据预测分析算法操作的装置的属性(或特征)被处理，以便确保预测分析算法的有效运行。

第二阶段是“分析处理阶段”。在“分析处理阶段”中，属性例如被输入到根据预测分析算法操作的装置，以例如从根据预测分析算法操作的装置获得分析结果作为输出。

第三阶段是“后处理阶段”。在“后处理阶段”中，分析结果被转换为易于阅读的图形、要被输入到另一设备的控制信号等等。

为了从这样的预测分析获得有用的知识，有必要适当地执行“预处理阶段”。如何设计用于“预处理阶段”的程序取决于熟练掌握分析技术的人(数据科学家)的专业知识。信息处理技术尚未充分支持设计预处理阶段的任务；它仍然主要取决于技术人员的手动试错操作。

重要的是生成更多数量的属性候选以找到有用的知识。具体地，重要的是生成可能影响作为预测目标的变量(目标变量)的各种属性(说明变量)的候选，因为生成这样的各种候选可以增加候选包括有助于预测的属性的可能性。

例如，专利文献(PTL)1描述了一种属性枚举系统，其枚举作为学习数据的属性的组合的新属性。在专利文献1中被描述的系统生成一组DNF标签，每个标签表示通过对学习数据的属性和要被组合的最大属性数量的使用来组合逻辑公式表达式的方式，每个逻辑公式表达式表示属性的组合。

引用清单

专利文献

专利文献1：WO2015/186278

发明内容

技术问题

同时，在预测分析的过程中，数据分析员需要理解新生成的属性的含义。应当注意到，属性也可以被称为特征。

专利文献1公开了生成新属性，因此大量特征可以通过使用在专利文献1中被描述的系统被有效地枚举。另一方面，存在技术问题：随着所生成的特征的数量增加，掌握相应特征的含义变得更加困难。因此，优选地，可以按照数据分析员容易理解的方式提供对所生成的特征的描述，同时可以有效地生成新特征。

鉴于前述内容，本发明的目的是提供一种信息处理系统、特征描述方法和特征描述程序，其允许以人类易于理解的方式提供对所生成的特征的描述。

对问题的解决方案

根据本发明的信息处理系统包括：描述符生成单元，所述描述符生成单元通过使用预先准备的第一模板来生成特征描述符，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；特征生成单元，所述特征生成单元通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征；特征说明生成单元，所述特征说明生成单元基于第二模板来生成关于所述特征描述符或所述特征的特征说明；以及接受单元，所述接受单元接受要被指派给所述第一模板和所述第二模板的值；其中所述描述符生成单元通过将接受的所述值指派给所述第一模板来生成所述特征描述符，所述特征说明生成单元通过将被指派给所述第一模板的所述值指派给所述第二模板来生成所述特征说明，以及所述特征生成单元当学习用于预测所述预测目标的值的模型时，生成用于用作针对说明变量的候选的所述特征。

根据本发明的另一信息处理系统包括：接受单元，所述接受单元接受指示要与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示聚合操作要对所述第二表中的多个行执行和作为所述聚合操作的目标的列的聚合信息；以及特征说明生成单元，所述特征说明生成单元通过将分别指示由所述接受单元接受的所述表信息、所述结合信息和所述聚合信息的值指派给模板来生成特征说明，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。

根据本发明的特征说明生成方法包括：通过将接受的值指派给预先准备的第一模板来生成特征描述符，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征，所述特征在学习用于预测所述预测目标的值的模型时被用作针对说明变量的候选；以及通过将被指派给所述第一模板的所述值指派给第二模板来生成关于所述特征描述符或所述特征的特征说明。

根据本发明的另一特征说明生成方法包括：接受指示与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示要对所述第二表中的多个行执行聚合操作和作为所述聚合操作的目标的列的聚合信息；以及通过将指示所接受的所述表信息的值、指示所接受的所述结合信息的值和指示所接受的所述聚合信息的值指派给模板来生成特征说明，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。

根据本发明的特征说明生成程序使得计算机执行：通过使用预先准备的第一模板来生成特征描述符的描述符生成处理，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征的特征生成处理；基于第二模板来生成关于所述特征描述符或所述特征的特征说明的特征说明生成处理；以及接受要被指派给所述第一模板和所述第二模板的值的接受处理；其中所述程序使得计算机在所述描述符生成处理中，通过将接受的所述值指派给所述第一模板来生成所述特征描述符，在所述特征说明生成处理中，通过将被指派给所述第一模板的所述值指派给所述第二模板来生成所述特征说明，以及在所述特征生成处理中，当学习用于预测所述预测目标的值的模型时生成用于用作针对说明变量的候选的所述特征。

根据本发明的另一特征说明生成程序使得计算机执行：接受指示要与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示聚合操作要对所述第二表中的多个行执行和作为所述聚合操作的目标的列的聚合信息的接受处理；以及通过将分别指示在所述接受处理中被接受的所述表信息、所述结合信息和所述聚合信息的值指派给模板来生成特征说明的特征说明生成处理，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。

发明的有益效果

根据本发明，上述技术手段提供对所生成的特征的描述能够按照人类易于理解的方式被提供的技术效果。

附图说明

图1是示出根据本发明的信息处理系统的第一实施例的示例性配置的框图。

图2是图示出示例性过滤处理的图。

图3是图示出示例性映射处理的图。

图4是图示出示例性化简(reduce)处理的图。

图5是图示出由相应参数所指示的示例性处理的图。

图6是图示出通过将值应用于第一模板来生成特征描述符的示例性处理的图。

图7是图示出用于在生成特征描述符时使用的示例性信息的图。

图8是图示出通过将值应用于第一模板来生成特征描述符的其他示例性处理的图。

图9是图示出生成特征的示例性处理的图。

图10是图示出生成标签的示例性处理的图。

图11是图示出从所生成的标签生成特征说明的示例性处理的图。

图12是图示出第一实施例的信息处理系统的示例性操作的流程图。

图13是图示出生成特征描述符的处理的经修改的示例的图。

图14是图示出生成特征描述符的处理的另一经修改的示例的图。

图15是图示出示例性源表的图。

图16是图示出包括表参数的示例性第一模板的图。

图17是图示出生成特征描述符的示例性方法的图。

图18是图示出根据本发明的信息处理系统的第三实施例的示例性配置的框图。

图19是图示出示例性目标和源表的图。

图20是图示出所生成的示例性特征的图。

图21是图示出信息处理系统200的示例性操作的图。

图22是图示出根据本发明的信息处理系统的第四实施例的示例性配置的框图。

图23是图示出示例性描述符模板的图。

图24是图示出从特征描述符提取信息片段的示例性处理的图。

图25是图示出第四实施例的信息处理系统的示例性操作的流程图。

图26是图示出根据本发明的信息处理系统的概要的框图。

图27是图示出根据本发明的信息处理系统的另一概要的框图。

图28是图示出根据至少一个实施例的计算机的配置的示意框图。

具体实施方式

以下将参考附图描述本发明的实施例。

实施例1。

图1是示出根据本发明的信息处理系统的第一实施例的示例性配置的框图。本实施例的信息处理系统100包括存储单元11、接受单元12、描述符生成单元13、特征生成单元14和特征说明生成单元15。

存储单元11存储包括预测目标的变量(即，目标变量)的表(其在下文中可以被称为第一表)和包括在第一表中的数据的集合(其在下文中可以被称为第一表数据)。在以下描述中，第一表可以被称为目标表。存储单元11还存储除第一表之外的表(其在下文中可以被称为第二表)以及包括在第二表中的数据的集合(其在下文中可以被称为第二表数据)。在以下描述中，第二表可以被称为源表。

第一表和第二表各自由表示数据属性的列的组合来定义。每个表包括至少一行(或记录)作为指示相应属性的值的数据的组合。例如，假设在每个客户已经事先同意处理他/她的个人信息的状态下，在客户的合同信息和电话信息历史记录的基础上估计某个客户是否会在下个月取消他/她的移动电话合同。在这种情况中，预测的目标是客户取消存在或不存在。在这种情况中，第一表(目标表)包括识别客户的信息(客户ID)，以及指示客户取消存在或不存在的值(参见稍后将描述的图3中的目标表T11；目标表T11中的列“取消”对应于预测目标(即，目标变量))。此外，第二表(源表)包括除第一表中的那些之外的信息片段(参见稍后将描述的图3中的源表S11)。

第一表可以具有与第二表的粒度相同或不同的粒度。这里，表的粒度是表示表中包括的数据的精细度的索引，或者更具体地，表示可以通过哪个项目来唯一地规定表中包括的数据的索引。例如，当可以使用客户的ID(客户ID)规定目标表中包括的每个数据时，那么客户ID对应于表的粒度。例如，在数据库的情况中，粒度对应于主键。因此，具有与目标表(第一表)的粒度不同的粒度的表意味着具有与目标表中的行不一一对应的行的表。应当注意，在生成特征描述符时，第一表数据和第二表数据不必被存储在存储单元11中，这将在后面描述。

接受单元12接受描述符生成单元13(稍后描述)生成特征描述符所需的信息片段以及特征说明生成单元15(稍后描述)生成描述特征描述符或特征的含义的特征说明所需的信息片段的输入。

接受单元12可以接受经由通信网络(未示出)接收的信息，或者它可以从存储这种信息的存储设备(未示出)读取和接受该信息。存储单元11还可以具有作为该存储设备的功能。将在后面描述接受单元12接受的输入内容。

在以下描述中，特征意指可以影响预测目标的变量。此外，特征的向量(或特征向量)是与第一表中的行数相对应的维度的向量，并且它是意指说明变量(预测变量)的数据。应当注意，由多个特征向量构成的信息可以被称为特征表。特征描述符具体是用于生成特征向量的函数。也就是说，生成特征意指生成特征向量。另一方面，设计特征意指设计特征描述符。在以下描述中，特征和特征向量都将被表达为“特征”。

描述符生成单元13通过使用由接受单元12接受的信息来生成特征描述符。该特征描述符被用于从第一表和第二表中生成作为可能影响预测目标(即，目标变量)的变量的特征。

当使用机器学习生成模型时，特征成为说明变量的候选。换句话说，使用在本实施例中生成的特征描述符使得可以在使用机器学习生成模型时自动生成说明变量的候选。

描述符生成单元13通过使用预先准备的模板(在下文中，被称为第一模板)来生成特征描述符。第一模板包括例如三个参数。具体地，接受单元12接受要被指派给三个参数的值作为要被指派给第一模板的值。描述符生成单元13将接受的值指派给第一模板中的对应参数，以生成特征描述符。现在将描述包括在第一模板中的参数的内容。

第一参数是表示用于提取第二表中包括的(一个或多个)行的条件的参数。更具体地，为第一参数指派值(在下文中，被称为选择信息)，其指示用于从第二表选择满足条件的任何行的该条件以及作为选择目标的列。在以下描述中，第一参数可以被称为选择参数。由第一参数指示的选择信息可以被定义为关于源表(第二表)的条件表达式。在下文中，基于第一参数从第二表提取(一个或多个)行的过程可以被称为“过滤”过程，并且这种条件表达式的列表可以被称为“F列表”。

提取条件是任意的，其可以是例如确定该值是否等于(或大于或小于)指定列中的值的条件。

图2是图示出示例性过滤过程的图。图2中所图示的源表S11(第二表)是包括客户的呼叫日志(具体地，呼叫时间、呼叫方向、呼叫类型和呼叫持续时间)的表。在图2中所示的示例中，源表S11包括“客户ID”、“时间”、“呼叫方向”、“类型”和“呼叫持续时间”作为属性。这里假设作为第一参数，属性“呼叫方向”作为选择目标已被指定为列，并且指示属性“呼叫方向”的值“呼出”已被指定为选择条件。在这种情况中，从源表选择包括满足呼叫方向＝呼出的行的表R11。图2中所示的“call direction＝OUT”(呼叫方向＝呼出)对应于选择信息。

第二参数是表示第一表中的列与第二表中的列之间的对应条件的参数。更具体地，第二参数被指派一个值(在下文中，被称为结合信息)，其指示用于在结合第一表和第二表时使用的键列。在以下描述中，第二参数可以被称为结合参数。由第二参数指示的结合信息可以被定义为用于将目标表(第一表)中的列与源表(第二表)中的列相关联的一对列。在下文中，基于第二参数将表中的列相关联的过程可以被称为“映射”过程。此外，这种列对的列表可以被称为“M列表”。通过映射过程将表中的列相关联也可以被解释为通过相关联的列将多个表结合到一个表中。

图3是图示出示例性映射过程的图。图3中所图示的目标表T11(第一表)是包括用于识别客户的客户ID和指示取消存在或不存在的变量的表。图3中所图示的目标表T11包括“客户ID”、“计划”、“设备”和“取消(的存在或不存在)”作为属性。应注意，图3中所图示的源表S11具有与图2中所图示的源表S11相同的内容。

假设在图3中所示的示例中，目标表T11中的“客户ID”列和源表S11中的“客户ID”列已被指定为用于在第二参数中进行结合的键列。该参数意味着目标表T11和源表S11将通过相应表中的“客户ID”列来结合。在表的粒度彼此不同的情况中，根据源表中的“客户ID”列扩展目标表中包括的属性的值。结果，从两个表生成一个表R12。如图3中所示的“目标表列名称：客户ID，源表列名称：客户ID”对应于结合信息。

第三参数是指示关于包括在第二表中的特定列对多个行进行聚合的方式的参数。更具体地，第三参数被指派一个值(下文中，被称为聚合信息)和一个列作为聚合操作目标，该值指示当结合第一表和第二表时要对第二表中的多个行执行的聚合操作。例如，在由目标表中的结合信息指定的列是主键的情况中，一旦确定了由结合信息指定的列中的值，则唯一地确定目标变量列中的值。在这种情况中，通过化简过程，关于源表中某列的记录数因此被聚合到与关于目标变量列的记录数相同的数量。

在以下描述中，第三参数可以被称为聚合参数。由第三参数指示的聚合信息可以被定义为关于源表(第二表)中的列的聚合函数。在下文中，通过由第三参数指示的方法聚合列中的数据的过程可以被称为“化简”过程。此外，这种聚合函数的列表可以被称为“R列表”。

聚合方法是任意的；示例包括列中的总计数、最大值、最小值、均值、中值和方差。可以通过排除或包括冗余数据来计算列中的总计数。

图4是图示出示例性化简过程的图。图4中所图示的表R13指示图3中所图示的表R12中的一些列。在图4中所图示的示例中，假设作为第三参数，最大值的提取已被指定为要在第二表上执行的聚合操作并且呼叫持续时间已被指定为聚合操作的目标列。在这种情况中，作为选择每个“客户ID”的呼叫持续时间的最大值的结果，生成表R14作为键。图4中所示的“列名称：呼叫持续时间，聚合函数：最大”对应于聚合信息。

图5是图示出由参数指示的示例性处理的图。在图5中所图示的示例中，存在一个目标表T和一个源表S，并且键列是用于对表进行关联的列。目标表中的Y列是目标变量。图5中的S₁是源表S中的列集合的子集。

首先，在过滤过程中，选择源表S中X'列中的值满足特定条件的行以生成子集S₁。接下来，在映射过程中，目标表T中的行和源表S中的行经由相应表中的键列结合。例如，结合键列中具有相同值的列。然后，在化简过程中，通过使用从映射过程中关联的源表S中的列中出来的在过滤过程选择的行集合中的值与目标表T中的行来执行聚合操作。

图6是图示出通过将值应用于第一模板来生成特征描述符的示例性处理的图。图6中图所示的第一模板Temp具有对应于相应参数的下划线部分。在图6中所图示的模板中，T意指第一表，并且S意指第二表。此外，“$M.T column name”($M.T列名称)指示第一表中的键列，其被包括在第二参数中。“$R.aggregate function($R.column name)”($R.聚合函数($R.列名称))指示聚合操作和作为聚合操作目标的列，其被包括在第三参数中。“F.conditional expression”(F.条件表达式)指示用于从第二表选择(一个或多个)行的条件，其被包括在第一参数中。“$M.S column name”($M.S列名称)指示第二表中的键列，其被包括在第二参数中。描述符生成单元13将接受的参数值指派给相应参数，从而生成特征描述符。

例如，假设接受单元12已接受“call direction＝IN”(呼叫方向＝呼入)作为选择信息，“T.customer ID＝S.customer ID”(T.客户ID＝S.客户ID)作为结合信息，并且“callduration＝COUNT”(呼叫持续时间＝计数)作为聚合信息。此时，描述符生成单元13将“calldirection＝IN”(呼叫方向＝呼入)指派给第一参数，将“T.customer ID＝S.customer ID”(T.客户ID＝S.客户ID)指派给第二参数，并将“call duration＝COUNT”(呼叫持续时间＝计数)指派给第三参数，生成特征描述符D11。

可以根据SQL作为查询语言来准备第一模板，如图6中所图示。在这种情况中，描述符生成单元13可以通过将提取条件、对应条件和聚合方法应用于用于生成SQL语句的模板来生成特征描述符。因此，可以将特征描述符定义为关于第一表和第二表的查询。虽然将在以下描述中例示关系数据库，但是本发明同样适用于在用于执行分布式处理的框架中使用的抽象数据结构的情况。

此外，当接受单元12接受多个片段的结合信息、聚合信息或选择信息时，描述符生成单元13可以生成所接受的结合信息、聚合信息和选择信息的多个组合，并为每个生成的组合生成特征描述符。

现在将具体描述描述符生成单元13生成多个特征描述符的过程。图7是图示出用于在生成特征描述符时使用的示例性信息的图。在图7中所示的示例中，假设作为预测目标的变量(即，目标变量)是指示客户取消存在或不存在的变量。目标表T11和源表S11具有与图2和图3中所图示的那些相同的内容。

F列表是要被指派给第一参数的选择信息的列表。图7中所示的F列表包括用于选择信息的18个候选。M列表是要被指派给第二参数的结合信息的列表。图7中所示的M列表包括用于结合信息的一个候选。R列表是要被指派给第三参数的聚合信息的列表。图7中所示的R列表包括用于聚合信息的六个候选。

应当注意，F、M和R列表可以由机器自动创建或由人工手动创建。这里，假设已经预先创建了图7中所示的F、M和R列表。

首先，描述符生成单元13从F、M和R列表中的每一个选择候选，以生成候选的组合。例如，作为一种组合，描述符生成单元13从F列表选择“call direction＝IN”(呼叫方向＝呼入)，从M列表选择“T.customer ID＝S.customer ID”(T.客户ID＝S.客户ID)，并且从R列表选择call duration＝COUNT”(呼叫持续时间＝计数)。备选地，描述符生成单元13例如可以从F列表选择“call direction＝OUT and type＝call”(呼叫方向＝呼出且类型＝呼叫)，从M列表选择“T.customer ID＝S.customer ID”(T.客户ID＝S.客户ID)，并且从R列表选择“time＝MAX”(时间＝最大)。在图7中所示的示例中，F列表包括18个条件表达式，M列表包括一个对应条件，并且R列表包括六个聚合方法。因此，从列表中的候选中生成108种组合。

接下来，描述符生成单元13为每个生成的组合生成特征描述符。具体地，描述符生成单元13将包括在所生成的组合中的结合信息、聚合信息和选择信息指派给第一模板，从而生成特征描述符。在以上示例中，结合信息对应于从M列表选择的候选，聚合信息对应于从R列表选择的候选，并且选择信息对应于从F列表选择的候选。

例如，在使用SQL作为查询语言的情况中，将特征描述符定义为SQL语句，并且分别从F、M和R列表选择的三个候选值被指派给用于生成SQL语句的参数。

图8是图示出通过将值应用于第一模板来生成特征描述符的其他示例性处理的图。图8中所图示的模板具有与图6中所图示的模板Temp相同的内容，并且模板被预先准备。描述符生成单元13通过将结合信息、聚合信息和选择信息应用于模板Temp中的下划线参数来生成特征描述符。

即使在生成多个组合时，生成特征描述符的方式也不会改变。例如，假设如图8中所图示，已经生成了具有从F列表选择的条件表达式“call direction＝IN”(呼叫方向＝呼入)、来自M列表的对应条件“associate by the customer IDs”(由客户ID关联)以及来自R列表的聚合方法“count in the column of call duration”(从呼叫持续时间列中计算)的组合。在这种情况中，描述符生成单元13将该组合应用于模板Temp以生成图8中所图示的特征描述符D21。由该特征描述符D21表达的特征指示传入呼叫或接收的消息的总计数。

备选地，如图8中所图示，假设已经生成了具有从F列表选择的条件表达式“calldirection＝OUT AND type＝call”(呼叫方向＝呼出且类型＝呼叫)、来自M列表的对应条件“associate by the customer IDs”(由客户ID关联)以及来自R列表的聚合方法“max intime”(最大时间)的组合。在这种情况中，描述符生成单元13将该组合应用于模板Temp以生成图8中所图示的特征描述符D22。由该特征描述符D22表达的特征指示进行语音呼叫的最新时间。

可以生成除了上面例示的那些之外的各种特征。例如，假设已经生成具有从F列表选择的条件表达式“type＝call AND call direction＝OUT AND HOUR(time)<7”(类型＝呼叫且呼叫方向＝呼出且小时(时间)<7)、来自M列表的对应条件“associate by thecustomer IDs”(由客户ID关联)以及来自R列表的聚合方法“meanin call duration”(呼叫持续时间均值)的组合。由此组合表达的特征指示七点钟之前进行的语音通话的平均持续时间。

此外，假设已经生成了具有从F列表选择的条件表达式“类型＝呼叫且呼叫方向＝呼入”(type＝call AND call direction＝IN)、来自M列表的对应条件“associate by thecustomer IDs”(由客户ID关联)以及来自R列表的聚合方法“variance in call duration”(呼叫持续时间方差)的组合。由该组合表达的特征指示传入呼叫的呼叫持续时间的变化程度。

特征生成单元14通过将所生成的特征描述符应用于第一表和第二表来生成特征(具体地，特征向量)。当学习用于预测预测目标的值的模型时，特征生成单元14生成用于用作针对说明变量的候选的特征。

特征生成单元14基于以下处理、通过使用上述参数的特征描述符来生成特征。首先，特征生成单元14执行过滤过程，在其中基于由第一参数指定的源表上的提取条件从源表提取一行或多行。

接下来，特征生成单元14执行映射过程，在其中映射过程经由由第二参数指定的结合信息将目标表和源表彼此关联。应当注意，当关联目标表和源表时，相关联的行不限于在由结合信息所指示的列中具有完全相同值的行。可以取决于所指定的相似性来对行进行关联。例如，当根据日期和时间数据关联表时，相关联的行不限于具有完全相同的日期和时间的行；在规定范围内(例如，在6小时内)具有日期和时间差异的两行可以彼此关联。另一可想到的示例是，在目标表和源表都具有经度和纬度的列并且经度和纬度被用来描述对应条件的情况中，当两个点之间的距离在规定的范围内(例如，在5公里内)时可以关联行。

接下来，特征生成单元14执行化简过程，在其中，化简过程基于由第三参数所指定的聚合方法将由过滤过程所选择的行中出来的、通过映射过程与目标表中的行相关联的行进行聚合。利用该聚合，产生包括针对目标表中的相应行获得的值在内的向量作为特征。

图9是图示出生成特征的示例性处理的图。在图9中所示的示例中，假设利用图2中所图示的目标表T11和图3中所图示的源表S11来生成特征：“客户的最大呼叫持续时间”。在这种情况中，为第一参数指派选择信息“type＝call”(类型＝呼叫)，为第二参数指派结合信息“T.customer ID＝S.customer ID”(T.客户ID＝S.客户ID)，并为第三参数指派聚合信息“call duration＝MAX”(呼叫持续时间＝最大)。结果，生成图9中所图示的特征描述符D31。

特征生成单元14将该特征描述符D31应用于目标表T11和源表S11，以生成指示“客户的最大呼叫持续时间”的特征R21。特征生成单元14优选地以由结合信息(这里，客户ID)和生成的特征指定的列进行链接的形式输出数据，例如，如图9中的表R21中所示。

特征说明生成单元15生成关于所生成的特征描述符或特征的特征说明。在本实施例中生成的特征说明用自然语言表达抽象特征生成模型；它是表示特征描述符或特征的含义的语句。也就是说，特征说明可以是特征本身的说明，或者它可以是特征描述符的说明。

具体地，特征说明生成单元15基于模板(下文中，被称为第二模板)生成关于特征描述符或特征的特征说明。指派给第一模板的信息也被指派给第二模板。也就是说，特征说明生成单元15通过将被指派给第一模板的值也指派给第二模板来生成特征说明。

第二模板包括：表模板，其根据关于源表的信息(下文中，被称为表信息)生成特征说明的一部分(表标签)；结合模板，其从结合参数生成特征说明的一部分(结合标签)；聚合模板，其从聚合参数生成特征说明的一部分(聚合标签)；选择模板，其从选择参数生成特征说明的一部分(选择标签)。第二模板还包括标签模板，该标签模板根据指派了表标签、结合标签、聚合标签和选择标签的标签参数生成特征说明。

特征说明生成单元15将表信息指派给表参数，以从表模板生成以自然语言被表达的表标签。表信息可以是由接受单元12明确接受的信息，或者它可以由特征说明生成单元15根据选择参数、结合参数或聚合参数而被规定。

类似地，特征说明生成单元15将结合信息指派给结合参数，以从结合模板生成以自然语言被表达的结合标签。此外，特征说明生成单元15将聚合信息指派给聚合参数，以从聚合模板生成以自然语言被表达的聚合标签。此外，特征说明生成单元15将选择信息指派给选择参数，以从选择模板生成以自然语言被表达的选择标签。

然后，特征说明生成单元15将表格标签、结合标签、聚合标签和选择标签指派给相应标签参数，从而从标签模板生成特征说明。

图10是图示出生成标签的示例性处理的图。为了生成表标签，使用如图10中所图示的表模板Temp11。在表模板Temp11中，“$source table name”($源表名称)表示表参数。例如，为表参数指派一个值，该值表示已指派给第一模板的结合信息中的第二表。例如，当特征说明生成单元15接受第二表的名称“call_log”(呼叫_日志)作为表信息时，特征说明生成单元15从表格模板Temp11将名称指派给表参数“$source table name”($源表名称)，以生成用自然语言被表达的表标签“call_log”(呼叫_日志)。应当注意，如果表信息是显而易见的，例如，在仅存在一个第二表的情况中，表信息不一定必须被明确接受；表信息可能已被预先指派给表参数。

类似地，为了生成选择标签，使用如图10中所图示的选择模板Temp12。在选择模板Temp12中，“$conditional expression”($条件表达式)表示选择参数。为选择参数指派已指派给第一模板的选择信息。例如，当特征说明生成单元15接受“call direction＝IN”(呼叫方向＝呼入)作为选择信息时，特征说明生成单元15从选择模板Temp12将该值指派给选择参数“$conditional expression”($条件表达式)，以生成用自然语言被表达的选择标签“fulfilling call direction＝IN”(履行呼叫方向＝呼入)。

类似地，为了生成结合标签，使用如图10中所图示的结合模板Temp13。在结合模板Temp13中，“$T column name”($T列名称)表示结合参数。为结合参数指派已指派给第一模板的结合信息。例如，当特征说明生成单元15接受“T.customer ID＝S.customer ID”(T.客户ID＝S.客户ID)作为结合信息时，特征说明生成单元15从结合模板Temp13将该值指派给结合参数“$T column name”($T列名称)，以生成以自然语言被表达的结合标签“havingthe same customer ID”(具有相同的客户ID)。

类似地，为了生成聚合标签，使用如图10中所图示的聚合模板Temp14。在聚合模板Temp14中，“$column name”($列名称)和“$aggregate function”($聚合函数)表示聚合参数。为聚合参数指派已指派给第一模板的聚合信息。

这里，聚合函数可能未以自然语言被表达。因此，可以预先定义根据聚合函数的转换规则，并且特征说明生成单元15可以基于转换规则来转换聚合信息。例如，假设特征说明生成单元15已经接受“call duration＝SUM”(呼叫持续时间＝总和)作为聚合信息，并且已经预先定义了图10中所图示的转换规则101。在这种情况中，特征说明生成单元15基于转换规则101将聚合函数“SUM”(总和)转换为“总计总和”。

然后，特征说明生成单元15从聚合模板Temp14将聚合信息和转换的聚合函数名称分别指派给聚合参数“$column name”($列名称)和“$aggregate function”($聚合函数)，以生成以自然语言被表达的聚合标签“sum total of call duration”(呼叫持续时间的总计总和)。

图11是图示出从生成的标签生成特征说明的示例性处理的图。为了生成特征说明，使用如图11中所图示的标签模板Temp21。在标签模板Temp21中，“$table label”($表标签)、“$joint label”($结合标签)、“$selection label”($选择标签)、和“$aggregationlabel”($聚合标签)表示标签参数。

特征说明生成单元15通过将表格标签、结合标签、聚合标签和选择标签应用于对应的标签参数，来从标签模板生成特征说明。应用于标签参数的是生成的表标签、结合标签、聚合标签和选择标签。例如，特征说明生成单元15将在图10中生成的表标签“呼叫_日志”、结合标签“具有相同的客户ID”、聚合标签“呼叫持续时间的总和”以及选择标签“fulfilling call direction＝IN”(履行呼叫方向＝呼入)应用于相应标签参数，从而从标签模板Temp21生成特征说明E11。

虽然上面已经描述了用于将聚合函数转换为另一表达式的转换规则101，但是转换要指派的值的处理不限于生成聚合标签的情况，并且转换规则也不限于如上所述的字典类型转换。特征说明生成单元15可以根据预期的输入来定义各种转换规则。

这种转换规则的示例是移除不必要的字母。在上述示例中，当已经接受“call_log”(呼叫_日志)作为表信息时，特征说明生成单元15可以确定连接单词的下划线是不必要的，并通过移除下划线来生成“call log”(呼叫日志)。

此外，特征说明生成单元15可以将所生成的标签翻译成另一种语言。假设在上面的示例中生成了表标签“call log”(呼叫日志)。此时，特征说明生成单元15可以执行从英语到日语的翻译以获得日语等同于“call log”(呼叫日志)的“tsuwa kiroku”。通过这些处理步骤，例如，标签“call_log table”(呼叫_日志表)可以被转换为标签“tsuwa kirokuteburu”，等同于“call log table”(呼叫日志表)的日语。

在已知对应于特定时间段的表达式的情况中，特征说明生成单元15可以将由生成的标签表达的时段转换为该已知表达式。例如，“period from six o'clock to twelve o'clock”(从六点到十二点的时段)通常可以被称为“in the morning”(在早上)。在这种情况中，特征说明生成单元15可以将指示“period from six o'clock to twelve o'clock”(从六点到十二点的时段)(小时(时间)>6和小时(时间)<12)的条件表达式转换为“time inthe morning”(在早上的时间)。这允许人们更容易理解所生成的特征的描述。

此外，在已经一次生成多个特征描述符(或多个特征)和多个特征说明的情况中，特征说明生成单元15将所生成的特征描述符(或特征)与生成的功能说明相关联。在这种情况中，特征说明生成单元15操作为特征说明指明单元。具体地，特征说明生成单元15认为已经基于相同值组合(表信息、选择信息、结合信息和聚合信息中的必要信息)生成的特征描述符和特征说明彼此对应。在将特征与特征说明相关联的情况中，特征说明生成单元15以类似的方式将它们相关联。

存储单元11例如由磁盘设备实现。接受单元12、描述符生成单元13、特征生成单元14和特征说明生成单元15由根据程序(特征描述程序)操作的计算机的CPU而被实现。例如，程序可以被存储在存储单元11中，并且CPU可以读取程序并且根据程序操作为接受单元12、描述符生成单元13、特征生成单元14和特征说明生成单元15。此外，可以按照软件即服务(SaaS)的形式提供本信息处理系统的功能。

备选地，接受单元12、描述符生成单元13、特征生成单元14和特征说明生成单元15均可以由专用硬件实现。接受单元12、描述符生成单元13、特征生成单元14和特征说明生成单元15均可以由通用或专用电路而被实现。这里，通用或专用电路可以由单个芯片配置，或者由经由总线连接的多个芯片配置。此外，在设备的一些或所有组件由多个信息处理设备或电路实现的情况中，这种信息处理设备或电路可以按照集中式或分布式的方式来布置。例如，信息处理设备或电路可以按照客户端和服务器系统、云计算系统等形式而被实现，其中它们经由通信网络连接。

现在将描述本实施例的信息处理系统的操作。图12是图示出第一实施例的信息处理系统的示例性操作的流程图。接受单元12接受要被指派给每个模板的值(即，表信息、选择信息、结合信息和聚合信息之中的必要信息)(步骤S101)。描述符生成单元13将接受的值指派给第一模板，以生成特征描述符(步骤S102)。特征生成单元14将特征描述符应用于第一表和第二表，以生成特征(步骤S103)。特征说明生成单元15将被指派给第一模板的值指派给第二模板，以生成特征说明(步骤S104)。应当注意，步骤S104不一定必须在步骤S102或S103之后执行。例如，可以在步骤S101之后立即执行步骤S104。

如上所述，在本实施例中，描述符生成单元13将接受的值指派给第一模板以生成特征描述符，并且特征生成单元14将特征描述符应用于第一表和第二表以生成特征，当学习用于预测预测目标的值的模型时，将特征用作说明变量的候选。然后，特征说明生成单元15将被指派给第一模板的值指派给第二模板，以生成关于特征描述符或特征的特征说明。因此，可以按照人类容易理解的方式提供对所生成的特征的描述。

也就是说，在本实施例中，使用根据以SQL语句为代表的查询语言创建的第一模板和具有与第一模板的公共参数的第二模板来生成特征说明。因此，可以生成特征描述符(或特征)，并以人类容易理解的方式提供特征描述符(或特征)的特征说明。

现在将描述对本实施例的信息处理系统的第一修改。在第一实施例中，给出了对如下情况的描述：接受单元12接受：结合信息，指示要被指派给结合参数的值；聚合信息，指示要被指派给聚合参数的值；以及选择信息，指示要被指派给选择参数的值。相反，在从第二表选择所有行的情况中，选择信息变得不必要。

在这种情况中，描述符生成单元13可以通过使用在第一实施例中被描述的结合参数和聚合参数来生成特征描述符。在这种情况中，第一模板和第二模板仅需要包括结合参数和聚合参数。接受单元12仅需要接受结合信息和聚合信息。在这种情况中，特征说明生成单元15可以通过仅使用这两个参数(结合参数和聚合参数)来生成特征说明。

具体地，描述符生成单元13将接受的结合信息和聚合信息指派给第一模板以生成特征描述符。特征生成单元14将所生成的特征描述符应用于第一表和第二表以生成特征。特征说明生成单元15将被指派给第一模板的信息(即，结合信息和聚合信息)指派给第二模板，以生成特征说明。

图13是图示出生成特征描述符的处理的经修改的示例的图。假设图13中所图示的源表S12包括仅类型＝呼叫的呼叫日志。在这种情况中，源表S12中包括的所有数据都成为特征生成的目标。因此，选择信息变得不必要。在这种情况中，描述符生成单元13可以将所接受的结合信息“T.customer ID＝S.customer ID”(T.客户ID＝S.客户ID)和聚合信息“call duration＝MAX”(呼叫持续时间＝最大)指派给第一模板，以生成特征描述符D32。

应当注意，当第一模板包括选择参数时，描述符生成单元13可以通过向选择参数指派虚拟条件(例如，1＝1)来生成特征描述符。此时，特征说明生成单元15可以通过将表示虚拟条件的选择标签(例如，“全部涉及”)应用于第二模板来生成特征说明E12。

现在将描述对本实施例的信息处理系统的第二修改。在第一实施例中，描述了当结合第一表和第二表时第一表中的行和第二表中的行具有一对多的对应关系的情况。相反，在第一表和第二表具有一一对应的情况中，聚合信息变得不必要。

在这种情况中，描述符生成单元13可以通过使用在第一实施例中被描述的结合参数和选择参数来生成特征描述符。在这种情况中，第一模板和第二模板仅需要包括结合参数和选择参数。此外，接受单元12仅需要接受结合信息和选择信息。在这种情况中，特征说明生成单元15可以通过仅使用这两个参数(结合参数和选择参数)来生成特征说明。

具体地，描述符生成单元13将接受的结合信息和选择信息指派给第一模板以生成特征描述符。特征生成单元14将所生成的特征描述符应用于第一表和第二表以生成特征。特征说明生成单元15将被指派给第一模板的信息(即，结合信息和选择信息)指派给第二模板，以生成特征说明。

图14是图示出生成特征描述符的处理的另一经修改的示例的图。图14中所图示的源表S13是包括客户的年龄、性别和地址的表。在这种情况中，目标表T11和源表S13具有一一对应关系。因此聚合信息变得不必要。在这种情况中，当期望生成针对男性和女性的年龄的特征时，描述符生成单元13可以指派所接受的结合信息“T.customer ID＝S.customerID”(T.客户ID＝S.客户ID)和接受的选择信息“gender＝male or female”(性别＝男性或女性)到第一模板，生成特征描述符D33。

应当注意，当第一模板包括聚合参数时，描述符生成单元13可以通过向聚合参数指派虚拟条件(例如，模式：MODE(年龄))来生成特征描述符。此时，特征说明生成单元15可以通过将消除了聚合函数的聚合标签(例如，“年龄”)应用于第二模板来生成特征说明E13。

实施例2。

现在将描述根据本发明的信息处理系统的第二实施例。在第一实施例中，描述了在不接受关于第二表的信息的情况中生成特征和特征说明的方式。在本实施例中，将描述明确接受表信息的情况。应注意，本实施例的配置与第一实施例的配置相同。

在本实施例中，第一模板和第二模板包括表参数，向其指派标识第二表的值。除了结合信息、聚合信息和选择信息之外，接受单元12还接受表信息，表信息是要被指派给表参数的值。应注意，第一表和第二表可以具有彼此相等或不同的粒度。

图15是图示出多个示例性源表的图。图15中所图示的源表S14是示例性支付表，其与目标表具有一对多的对应关系。图15中所图示的源表S15是呼叫中心的示例性查询表，其与目标表具有一对多(0到多)的对应关系。图15中所图示的源表S13是客户表，其具有与图14中所图示的相同的内容，并且与目标表具有一一对应关系。

图16是图示出包括表参数的示例性第一模板的图。图16中所图示的第一模板Temp31包括“源表名”作为表参数。当要使用多个源表时，接受单元12可以在每次要生成特征描述符时接受包括源表名的表信息。

图17是图示出生成特征描述符的示例性方法的图。假设使用图17中所图示的目标表T11和源表S14来生成特征：“total amount paid by customer in February,2010”(客户在2010年2月支付的总金额)。此时，接受单元12接受“T.customer ID＝payment.customer ID”(T.客户ID＝支付.客户ID)作为结合信息，接受“SUM(amountpaid)”(总和(支付的金额))作为聚合信息，并且接受“time in February,2010”(2010年2月的时间)作为选择信息。除了这些信息之外，接受单元12还接受表名“payment”(付款)作为表信息。例如，描述符生成单元13将接收的条的信息指派给图16中所图示的第一模板Temp31，以生成特征描述符D34。

如上所述，在本实施例中，第一模板和第二模板还包括向其指派标识第二表的值的表参数。接受单元12还接受表信息，该表信息是要被指派给表参数的值。利用这种配置，可以按照人类容易理解的方式提供所生成的特征的描述。

实施例3。

现在将描述根据本发明的信息处理系统的第三实施例。本实施例的信息处理系统基于生成的特征创建训练数据，使用创建的训练数据来学习预测模型，并使用预测模型来输出预测结果。

图18是图示出根据本发明的信息处理系统的第三实施例的示例性配置的框图。本实施例中的信息处理系统200包括存储单元11、接受单元12、描述符生成单元13、特征生成单元14、特征说明生成单元15、学习单元16、预测单元17、训练数据生成单元18和预测数据生成单元19。

也就是说，与第一实施例中的信息处理系统100相比，本实施例的信息处理系统200另外包括学习单元16、预测单元17、训练数据生成单元18和预测数据生成单元19。应当注意，存储单元11、接受单元12、描述符生成单元13、特征生成单元14和特征说明生成单元15的内容与第一或者第二实施例中的内容相同，因此不再重复其详细描述。

训练数据生成单元18基于第一表和特征生成单元14生成的特征，生成供稍后描述的学习单元16在学习中使用的训练数据。

此外，预测数据生成单元19基于第一表和特征生成单元14生成的特征，生成供稍后描述的预测单元17使用的预测数据。

学习单元16使用所生成的特征作为说明变量的候选，以学习用于预测预测目标的值的模型。应当注意到，没有特别规定学习模型的方式。学习单元16可以具有特征选择功能。当学习单元16接收到用于说明变量的多个候选时，学习单元16可以执行特征选择，并且学习单元16可以通过使用所选择的特征来执行学习处理。学习单元16可以执行学习处理作为特征选择处理的后处理，或者它可以按照集成的方式执行特征选择处理和学习处理。

预测单元17使用由学习单元16学习的模型和预测数据来执行预测。具体地，预测单元17将由预测数据生成单元19生成的预测数据应用于由学习单元16学习的模型，以获得预测结果。

现在将通过使用具体示例来描述学习单元16如何使用所生成的特征生成模型以及预测单元17如何获得预测结果。图19是图示出在该特定示例中使用的示例性目标表和源表的图。在该具体示例中假设存在包括2010年2月的数据的目标表T11和包括2010年3月的数据的目标表T21。目标表T11的主键和目标表T21的主键都是客户ID。在该具体示例中还假设预测目标是2010年3月的数据中包括的客户取消(客户ID＝1021)存在或不存在。

图19中所图示的源表S16表示客户的呼叫日志。源表S16包括：目标表T11中包括的客户的呼叫日志，其中已知取消的存在或不存在；以及目标表T21中包括的客户的呼叫日志。

为了便于理解，在该具体示例中假设接受单元12已经接受指示目标表的主键的列(在T11和T21中示出的示例中，客户ID)作为结合信息。特征生成单元14将特征描述符应用于图19中所图示的目标表T11和源表S16，以生成特征(用于训练数据的特征向量)。此外，特征生成单元14将相同的特征描述符应用于图19中所图示的目标表T21和源表S16，以生成特征(用于预测数据的特征向量)。在该具体示例中，假设“客户的最大呼叫持续时间”(customer's maximum call duration)被生成为第一特征，“客户的总呼叫持续时间”(customer's total call duration)为第二特征，并且“短信息的总计数”(total countof SMS)为第三特征。如上所解释的，假设特征生成单元14以由结合信息(这里，客户ID)指定的列和生成的特征进行链接的形式输出数据。

图20是图示出训练数据和预测数据的具体示例的图。训练数据生成单元18使用目标表T11和由特征生成单元14生成的特征(训练数据的特征向量)来生成训练数据R22。例如，训练数据生成单元18通过使用客户ID作为结合键来将目标表T11和由特征生成单元14生成的特征(假设与客户ID链接，如上所解释的)进行结合从而生成训练数据R22。如图20中所示，训练数据R22中包括的记录各自具有用于目标变量的值。此外，预测数据生成单元19使用目标表T21和由特征生成单元14生成的特征(用于预测数据的特征向量)来生成预测数据R23。例如，预测数据生成单元19通过使用客户ID将客户ID作为结合键来将目标表T21和由特征生成单元14生成的特征(假设与客户ID链接，如上所解释的)进行结合从而生成预测数据R23。如图20中所示，包括在预测数据R23中的记录不具有用于目标变量的值。

学习单元16使用所生成的训练数据R22来学习模型。在图20中所示的示例中，学习单元16通过使用“cancellation”(取消)作为目标变量并且使用其他特征(计划、设备、生成的特征1、2和3)作为说明变量的候选来学习模型。例如，模型可以由以下表达式1来表达。

取消Y＝F(计划，特征2，特征3，......)(表达式1)

预测单元17将来自预测数据R23内的必要特征的值指派给上述表达式1，以获得预测结果。在上述示例中，作为计划的值的“P2”、作为特征2的值的“240”和作为特征3的值的“1”被指派给模型，从而获得预测结果。以这种方式，预测由客户ID＝1021标识的客户取消存在或不存在。

接受单元12、描述符生成单元13、特征生成单元14、特征说明生成单元15、学习单元16、预测单元17、训练数据生成单元18和预测数据生成单元19由根据程序(特征描述程序)操作的计算机的CPU而被实现。

图21是图示出本实施例的信息处理系统200的示例性操作的图。应当注意，图21中所图示的第一模板61、第二模板62、第一表63、第二表64、训练数据65和预测数据66可以被存储在存储单元11中。

首先，接受单元12接受生成特征描述符和特征说明所需的各种信息。描述符生成单元13使用接受的信息和第一模板61来生成特征描述符51。特征说明生成单元15使用接受的信息和第二模板62来生成特征说明52。

特征生成单元14将特征描述符51应用于第一表63和第二表64以生成特征53。特征生成单元14可以将特征说明52添加到生成的特征53。

训练数据生成单元18从生成的特征53和第一表63中的数据生成训练数据65。学习单元16使用训练数据65来学习学习模型54。

预测数据生成单元19从生成的特征53和第一表63中的数据生成预测数据66。预测单元17使用学习模型54和预测数据66来输出预测结果55。

如上所述，在本实施例中，学习单元16使用所生成的特征作为说明变量的候选，以学习用于预测预测目标的值的模型。此外，在本实施例中，预测单元17将特征描述符应用于第一表和第二表以生成要被指派给模型的特征，并将该特征应用于模型以获得预测的值。该配置使得可以通过使用新生成的特征学习模型来进行预测，从而使得能够以更高的准确度进行预测。

实施例4。

现在将描述根据本发明的信息处理系统的第四实施例。在第一至第三实施例中，信息处理系统生成特征描述符和特征说明二者。在本实施例中，将描述从已创建的特征描述符生成特征说明的方法。

图22是图示出根据本发明的信息处理系统的第四实施例的示例性配置的框图。本实施例的信息处理系统300包括存储单元21、接受单元22、提取单元23和特征说明生成单元24。

与第一至第三实施例中一样，存储单元21存储第一表(目标表)和第二表(源表)。此外，第一表和第二表的内容与第一至第三实施例中的内容相同。

接受单元22接受在第一至第三实施例中解释的特征描述符。也就是说，接受单元22接受特征描述符，该特征描述符从第一表和第二表生成作为可能影响预测目标的变量的特征，第一表包括预测目标的变量。

如第一实施例中所解释的，通过将各种信息应用于预先准备的第一模板中的参数来生成特征描述符。第一模板包括：结合参数，向其指派指示在结合第一表和第二表时的键列的值；以及聚合参数，向其指派指示要对第二表中的多个行执行的聚合操作和作为聚合操作的目标的列的值。第一模板还可以包括选择参数，向其指派指示用于从第二表选择满足条件的任何行的条件和作为选择的目标的列的值。此外，第一模板还可以包括表参数，向其指派标识第二表的值。

提取单元23从接受单元22接受的特征描述符提取：指示第二表的名称的表信息，指示在结合第一表和第二表时的键列的结合信息，以及指示要对第二表中的行执行的聚合操作和作为聚合操作的目标的列的聚合信息。提取单元23还可以提取指示用于从第二表选择满足条件的任何行的该条件和作为选择目标的列的选择信息。

具体地，提取单元23保持至少一个模板(下文中，被称为描述符模板)以用于与特征描述符进行比较，并将接受的特征描述符与描述符模板进行比较以提取表信息、结合信息和聚合信息。

描述符模板包括表参数、结合参数和聚合参数。描述符模板被设计成能够从与比较目标(即特征描述符)的位置关系提取相应参数(即表参数、结合参数和聚合参数)。例如，描述符模板可以被设计为当表信息、结合信息和聚合信息被指派给对应参数时能够生成特征描述符。描述符模板还可以包括选择参数。

图23是图示出示例性描述符模板的图。图23中图示出了两个描述符模板。图23中图示出的模板Temp41与图16中图示出的模板Temp31相同。例如，通过与特征描述符进行比较，可以通过使用图23中图示出的模板Temp41来提取参数。此外，将表信息、结合信息、聚合信息和选择信息指派给模板Temp41中的相应参数可以生成特征描述符。

提取单元23提取在与表参数相对应的位置中设置的值作为表信息，提取在与聚合参数相对应的位置中设置的值作为聚合信息，并提取在与结合参数相对应的位置中设置的值作为结合信息。当描述符模板还包括选择参数时，提取单元23提取在与选择参数相对应的位置中设置的值作为选择信息。

图24是图示出从特征描述符提取各种信息片段的示例性处理的图。图24示出了已经接受特征描述符D41并且描述符模板Temp41被用来执行提取处理的示例。

例如，已经在对应于“源表名”的特征描述符D41中的位置中设置“call_log”(呼叫_日志)作为描述符模板Temp41中的表参数。因此，提取单元23提取“call_log”(呼叫_日志)作为表信息。

类似地，已经在分别对应于“R.aggregate function”(R.短信息函数)和“R.column name”(R.列名称)的位置中设置“SUM”(总和)和“call duration”(呼叫持续时间)作为聚合参数。因此，提取单元23提取“call duration,SUM”(呼叫持续时间，总和)作为聚合信息。

此外，已经在对应于“$M.T column name”($M.T列名称)的位置中设置“customerID”(客户ID)作为结合参数的一部分。因此，提取单元23提取与“T.$M.T column name＝Temp.$M.S column name”(T.$M.T列名称＝Temp.$M.S列名称)相对应的“T.customer ID＝Temp(call_log).customer ID”(T.客户ID＝Temp(呼叫_日志).客户ID)作为结合信息。

此外，已经在与“F.conditional expression”(F.条件表达式)相对应的位置中设置“call direction＝IN”(呼叫方向＝呼入)作为选择参数。因此，提取单元23提取“calldirection＝IN”(呼叫方向＝呼入)作为选择信息。

在存在如图23中所图示的两个或更多描述符模板的情况中，提取单元23可以选择与特征描述符相似度最高的描述符模板。为了确定相似性，可以使用任何计算语句之间相似性的方法。

此外，图23中图示出的模板Temp42与第一至第三实施例中使用的模板不同。考虑到所生成的特征描述符的语法的可能变化，优选地根据所预期的特征描述符的格式来准备多个描述符模板。

特征说明生成单元24将提取的信息指派给模板(第二模板)，以生成通过将特征描述符应用于第一表和第二表而获得的特征的特征说明。应当注意，特征说明生成单元24生成特征说明的方式类似于第一至第三实施例中的特征说明生成单元15生成特征说明的方式。

存储单元21例如由磁盘设备实现。接受单元22、提取单元23和特征说明生成单元24由根据程序(特征描述程序)操作的计算机的CPU而被实现。例如，程序可以被存储在存储单元21中，并且CPU可以根据程序读取程序并且根据程序操作为接受单元22、提取单元23和特征说明生成单元24。此外，可以按照软件即服务(SaaS)的形式提供本信息处理系统的功能。此外，接受单元22、提取单元23和特征说明生成单元24均可以由专用硬件而被实现。

接受单元22、提取单元23和特征说明生成单元24均可以由通用或专用电路而被实现。这里，通用或专用电路可以由单个芯片配置，或者由经由总线连接的多个芯片配置。此外，在设备的一些或所有组件由多个信息处理设备或电路实现的情况中，这种信息处理设备或电路可以按照集中式或分布式的方式来布置。例如，信息处理设备或电路可以按照客户端和服务器系统、云计算系统等形式而被实现，其中它们经由通信网络连接。

现在将描述本实施例的信息处理系统的操作。图25是图示出第四实施例的信息处理系统的示例性操作的流程图。

接受单元22接受特征描述符(步骤S111)。提取单元23从特征描述符提取表信息、结合信息和聚合信息(步骤S112)。应当注意，接受单元22还可以从特征描述符提取选择信息。特征说明生成单元24将提取的信息指派给模板(第二模板)以生成特征说明(步骤S113)。

如上所述，在本实施例中，接受单元22接受从第一表和第二表生成特征的特征描述符，并且提取单元23从特征描述符提取表信息、结合信息和聚合信息。然后，特征说明生成单元24将提取的信息指派给模板(第二模板)，以生成通过将特征描述符应用于第一表和第二表而获得的特征的特征说明。因此，可以按照人类容易理解的方式提供所生成的特征的描述。

也就是说，由于上述特征描述符被用于从表提取特征，因此即使人们参考特征描述符，他/她也常常难以快速理解所生成的特征的含义。然而，在本实施例中，提取单元23提取理解含义所需的各种信息，并且特征说明生成单元24对提取的信息进行格式化并提供结果信息。这允许以人类容易理解的方式描述所生成的特征。

现在将概括本发明。图26是示出根据本发明的信息处理系统的概况的框图。根据本发明的信息处理系统80包括：描述符生成单元81(例如，描述符生成单元13)，其使用预先准备的第一模板来生成特征描述符，该特征描述符从第一表(例如，目标表)和第二表(例如，源表)生成可以影响预测目标的特征，第一表包括预测目标的变量；特征生成单元82(例如，特征生成单元14)，其通过将特征描述符应用于第一表和第二表来生成特征；特征说明生成单元83(例如，特征说明生成单元15)，其基于第二模板生成关于特征描述符或特征的特征说明；接受单元84(例如，接受单元12)，其接受要被指派给第一模板和第二模板的值。

描述符生成单元81将接受的值指派给第一模板以生成特征描述符，特征说明生成单元83将被指派给第一模板的值指派给第二模板以生成特征说明，并且当学习用于预测预测目标的值的模型时，特征生成单元82生成被用作说明变量的候选的特征。

利用该配置，可以按照人类容易理解的方式提供所生成的特征的描述。

具体地，第一模板和第二模板可以包括：结合参数，向其指派指示在结合第一表和第二表时的键列的值；以及聚合参数，向其指派指示要对第二表中的多个行执行的聚合操作和作为聚合操作的目标的列的值。然后，接受单元84可以接受指示要被指派给结合参数的值的结合信息和指示要被指派给聚合参数的值的聚合信息。

第一模板和第二模板还可以包括选择参数，向其指派指示用于从第二表选择满足条件的任何行的条件和作为选择的目标的列的值。然后，接受单元84还可以接受指示要被指派给选择参数的值的选择信息。

接受单元84可以接受一条或多条结合信息和一条或多条聚合信息。描述符生成单元81可以生成所接受片段的结合信息和聚合信息的多个组合，并且生成针对相应的组合的特征描述符。特征说明生成单元83可以生成针对相应的组合的特征说明。此时，信息处理系统80还可以包括特征说明指明单元(例如，特征说明生成单元15)，其向基于用于生成特征说明的组合已经被生成的特征描述符指明特征说明，或对通过应用特征描述符已经被生成的特征指明特征说明。

备选地，第一模板和第二模板可以进一步包括选择参数，向其指派指示用于从第二表选择满足条件的任何行的条件和作为选择的目标的列的值。然后，接受单元84还可以接受指示要被指派给选择参数的值的一条或多条选择信息。描述符生成单元81可以生成接受的条的结合信息、聚合信息和选择信息的多个组合，并且生成针对相应的组合的特征描述符。特征说明生成单元83可以生成针对相应的组合的特征说明。

第一模板和第二模板还可以包括表参数，向其指派标识第二表的值。然后，接受单元84还可以接受表信息，该表信息是要被指派给表参数的值。

具体地，第二模板可以包括：包括表参数的表模板、包括结合参数的结合模板、包括聚合参数的聚合模板、包括选择参数的选择模板以及包括向其指派了标签的多个标签参数的标签模板。然后，特征说明生成单元83可以将表信息指派给表参数以从表模板生成以自然语言被表达的表标签，将结合信息指派给结合参数以从结合模板生成以自然语言被表达的结合标签，将聚合信息指派给聚合参数以从聚合模板生成以自然语言被表达的聚合标签，将选择信息指派给选择参数以从选择模板生成以自然语言被表达的选择标签，并将表标签、结合标签、聚合标签和选择标签应用于相应标签参数的位置，以从标签模板生成特征说明。

在第一表中的行和第二表中的行在对表进行结合时具有一对多对应关系的情况中，可以向聚合参数指派指示要对第二表中的多个行执行的聚合操作的信息和作为聚合操作的目标的列。

信息处理系统80还可以包括学习单元(例如，学习单元16)，其通过使用所生成的特征作为说明变量的候选来学习用于预测预测目标的值的模型。

信息处理系统80还可以包括预测单元(例如，预测单元17)，其将所生成的特征应用于模型以获得预测的值。

图27是图示出根据本发明的信息处理系统的另一概要的框图。根据本发明的信息处理系统90包括：接受单元91(例如，接受单元12)，其接受指示要与包括预测目标的变量的第一表(例如，目标表)相关联的第二表(例如，源表)的名称的表信息、指示当结合第一表和第二表时的键列的结合信息以及指示要对第二表中的多个行执行的聚合操作的聚合信息和作为聚合操作的目标的列；特征说明生成单元92(例如，特征说明生成单元15)，其通过将分别指示由接受单元91接受的表信息、结合信息和聚合信息的值指派给模板来生成特征说明，其中模板包括要指派指示表信息的值的表参数，要指派指示结合信息的值的结合参数以及要指派指示聚合信息的值的聚合参数。

利用该配置同样可以按照人类容易理解的方式提供所生成的特征的描述。

图28是图示出根据至少一个实施例的计算机的配置的示意框图。计算机1000包括CPU 1001、主存储装置1002、辅助存储装置1003和接口1004。

在计算机1000中实现上述信息处理系统。上述处理单元的操作以程序(特征描述程序)的形式被存储在辅助存储装置1003中。CPU1001从辅助存储装置1003读取程序并将程序部署在主存储装置1002中，以根据程序执行上述处理。

在至少一个实施例中，辅助存储装置1003是非暂时性有形介质的示例。非暂时性有形介质的其他示例包括磁盘、磁光盘、CD-ROM、DVD-ROM和经由接口1004连接的半导体内存。当经由通信线路将程序分发到计算机1000时，已经接收到分布式程序的计算机1000可以将程序部署在主存储装置1002中并执行上述处理。

程序可以是用于实现上述功能的一部分的程序。此外，程序可以是所谓的差分文件(差分程序)，其与已经存储在辅助存储装置1003中的另一程序组合实现上述功能。

以上示例性实施例中的一些或全部也可以被描述为以下补充说明，但不限于此。

(补充说明1)一种信息处理系统，包括：描述符生成单元，所述描述符生成单元通过使用预先准备的第一模板来生成特征描述符，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；特征生成单元，所述特征生成单元通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征；特征说明生成单元，所述特征说明生成单元基于第二模板来生成关于所述特征描述符或所述特征的特征说明；以及接受单元，所述接受单元接受要被指派给所述第一模板和所述第二模板的值；其中所述描述符生成单元通过将接受的所述值指派给所述第一模板来生成所述特征描述符，所述特征说明生成单元通过将被指派给所述第一模板的所述值指派给所述第二模板来生成所述特征说明，以及所述特征生成单元当学习用于预测所述预测目标的值的模型时，生成用于用作针对说明变量的候选的所述特征。

(补充说明2)根据补充说明1所述的信息处理系统，其中所述第一模板和所述第二模板各自包括结合参数，指示在结合所述第一表和所述第二表时的键列的值被指派给所述结合参数，以及聚合参数，指示要对所述第二表中的多个行执行的聚合操作和作为所述聚合操作的目标的列的值被指派给所述聚合参数，并且所述接受单元接受指示要被指派给所述结合参数的值的结合信息和指示要被指派给所述聚合参数的值的聚合信息。

(补充说明3)根据补充说明2的信息处理系统，其中所述第一模板和所述第二模板各自还包括选择参数，指示用于从所述第二表选择满足条件的任何行的所述条件和作为所述选择的目标的列的值被指派给所述选择参数，并且所述接受单元还接受指示要被指派给所述选择参数的值的选择信息。

(补充说明4)根据补充说明2的信息处理系统，其中所述接受单元接受一条或多条所述结合信息和一条或多条所述聚合信息，所述描述符生成单元生成接受的所述条的所述结合信息和所述聚合信息的多个组合，并且生成针对相应的所述组合的所述特征描述符，并且所述特征说明生成单元生成针对相应的所述组合的所述特征说明，所述系统还包括：特征说明指明单元，所述特征说明指明单元向基于在生成所述特征说明时被使用的所述组合已经被生成的所述特征描述符指明所述特征说明，或者向通过应用所述特征描述符已经被生成的所述特征指明所述特征说明。

(补充说明5)根据补充说明4的信息处理系统，其中所述第一模板和所述第二模板各自还包括选择参数，指示用于从所述第二表选择满足条件的任何行的所述条件和作为所述选择的目标的列的值被指派给所述选择参数，所述接受单元还接受指示要被指派给所述选择参数的值的一条或多条选择信息，所述描述符生成单元生成接受的所述条的所述结合信息、所述聚合信息和所述选择信息的多个组合，并且生成针对相应的所述组合的所述特征描述符，并且所述特征说明生成单元生成针对相应的所述组合的所述特征说明。

(补充说明6)根据补充说明2至5中任一项所述的信息处理系统，其中所述第一模板和所述第二模板各自还包括表参数，标识所述第二表的值被指派给所述表参数，并且所述接受单元还接受指示要被指派给所述表参数的值的表信息。

(补充说明7)根据补充说明6的信息处理系统，其中所述第二模板包括包括表参数的表模板，包括结合参数的结合模板，包括聚合参数的聚合模板，包括选择参数的选择模板，以及包括多个标签参数的标签模板，标签被指派给所述多个标签参数，并且所述特征说明生成单元通过将表信息指派给所述表参数来从所述表模板生成以自然语言被表达的表标签，通过将结合信息指派给所述结合参数来从所述结合模板生成以自然语言被表达的结合标签，通过将聚合信息指派给所述聚合参数来从所述聚合模板生成以自然语言被表达的聚合标签，通过将选择信息指派给所述选择参数来从所述选择模板生成以自然语言被表达的选择标签，以及通过将所述表标签、所述结合标签、所述聚合标签和所述选择标签应用于相应的所述标签参数的位置，来从所述标签模板生成所述特征说明。

(补充说明8)根据补充说明2至7中任一项所述的信息处理系统，其中在当结合所述表时所述第一表中的行和所述第二表中的行具有一对多的对应关系的情况中，所述聚合参数被指派有指示要对所述第二表中的所述多个行执行的所述聚合操作以及作为所述聚合操作的目标的列的信息。

(补充说明9)根据补充说明1至8中任一项所述的信息处理系统，还包括：学习单元，所述学习单元通过使用所生成的特征作为针对说明变量的候选来学习用于预测所述预测目标的值的模型。

(补充说明10)根据补充说明9的信息处理系统，还包括：预测单元，所述预测单元通过将所生成的所述特征应用于所述模型来获得预测的值。

(补充说明11)一种信息处理系统，包括：接受单元，所述接受单元接受指示要与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示聚合操作要对所述第二表中的多个行执行和作为所述聚合操作的目标的列的聚合信息；以及特征说明生成单元，所述特征说明生成单元通过将分别指示由所述接受单元接受的所述表信息、所述结合信息和所述聚合信息的值指派给模板来生成特征说明，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。

(补充说明12)根据补充说明11的信息处理系统，其中所述接受单元还接受选择信息，所述选择信息指示用于从所述第二表选择满足条件的任何行的所述条件以及作为所述选择的目标的列，所述模板还包括选择参数，指示所述选择信息的值被指派给所述选择参数，并且所述特征说明生成单元通过将指示由所述接受单元接受的所述选择信息的值指派给所述模板来生成所述特征说明。

(补充说明13)一种特征说明生成方法，包括：通过将接受的值指派给预先准备的第一模板来生成特征描述符，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征，所述特征在学习用于预测所述预测目标的值的模型时被用作针对说明变量的候选；以及通过将被指派给所述第一模板的所述值指派给第二模板来生成关于所述特征描述符或所述特征的特征说明。

(补充说明14)一种特征说明生成方法，包括：接受指示与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示要对所述第二表中的多个行执行聚合操作和作为所述聚合操作的目标的列的聚合信息；以及通过将指示所接受的所述表信息的值、指示所接受的所述结合信息的值和指示所接受的所述聚合信息的值指派给模板来生成特征说明，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。

(补充说明15)一种特征说明生成程序，使得计算机执行：通过使用预先准备的第一模板来生成特征描述符的描述符生成处理，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征的特征生成处理；基于第二模板来生成关于所述特征描述符或所述特征的特征说明的特征说明生成处理；以及接受要被指派给所述第一模板和所述第二模板的值的接受处理；其中所述程序使得计算机在所述描述符生成处理中，通过将接受的所述值指派给所述第一模板来生成所述特征描述符，在所述特征说明生成处理中，通过将被指派给所述第一模板的所述值指派给所述第二模板来生成所述特征说明，以及在所述特征生成处理中，当学习用于预测所述预测目标的值的模型时生成用于用作针对说明变量的候选的所述特征。

(补充说明16)一种特征说明生成程序，使得计算机执行：接受指示要与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示聚合操作要对所述第二表中的多个行执行和作为所述聚合操作的目标的列的聚合信息的接受处理；以及通过将分别指示在所述接受处理中被接受的所述表信息、所述结合信息和所述聚合信息的值指派给模板来生成特征说明的特征说明生成处理，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。

尽管以上参考实施例和示例描述了本发明，但本发明不限于上述实施例和示例。可以在本发明的范围内对本发明的配置和细节进行本领域技术人员可理解的各种修改。

本申请要求基于2017年3月30日提交的美国临时申请No.62/478,882的优先权，其公开内容以其整体并入本文。

参考标记清单

11、21 存储单元

12、22 接受单元

13 描述符生成单元

14 特征生成单元

15、24 特征说明生成单元

16 学习单元

17 预测单元

18 训练数据生成单元

19 预测数据生成单元

23 提取单元

100、200 信息处理系统

S11、S13、S14、S15 源表

T11、T21 目标表

D11、D21、D22、D31、D32、D33、D34 特征描述符

E11、E12、E13 特征说明

Claims

1.一种信息处理系统，包括：

描述符生成单元，所述描述符生成单元通过使用预先准备的第一模板来生成特征描述符，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；

特征生成单元，所述特征生成单元通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征；

特征说明生成单元，所述特征说明生成单元基于第二模板来生成关于所述特征描述符或所述特征的特征说明；以及

接受单元，所述接受单元接受要被指派给所述第一模板和所述第二模板的值；其中

所述描述符生成单元通过将接受的所述值指派给所述第一模板来生成所述特征描述符，

所述特征说明生成单元通过将被指派给所述第一模板的所述值指派给所述第二模板来生成所述特征说明，以及

所述特征生成单元当学习用于预测所述预测目标的值的模型时，生成用于用作针对说明变量的候选的所述特征。

2.根据权利要求1所述的信息处理系统，其中

所述第一模板和所述第二模板各自包括

结合参数，指示在结合所述第一表和所述第二表时的键列的值被指派给所述结合参数，以及

聚合参数，指示要对所述第二表中的多个行执行的聚合操作和作为所述聚合操作的目标的列的值被指派给所述聚合参数，并且

所述接受单元接受指示要被指派给所述结合参数的值的结合信息和指示要被指派给所述聚合参数的值的聚合信息。

3.根据权利要求2所述的信息处理系统，其中

所述第一模板和所述第二模板各自还包括选择参数，指示用于从所述第二表选择满足条件的任何行的所述条件和作为所述选择的目标的列的值被指派给所述选择参数，并且

所述接受单元还接受指示要被指派给所述选择参数的值的选择信息。

4.根据权利要求2所述的信息处理系统，其中

所述接受单元接受一条或多条所述结合信息和一条或多条所述聚合信息，

所述描述符生成单元生成接受的所述条的所述结合信息和所述聚合信息的多个组合，并且生成针对相应的所述组合的所述特征描述符，并且

所述特征说明生成单元生成针对相应的所述组合的所述特征说明，

所述系统还包括：

特征说明指明单元，所述特征说明指明单元向基于在生成所述特征说明时被使用的所述组合已经被生成的所述特征描述符指明所述特征说明，或者向通过应用所述特征描述符已经被生成的所述特征指明所述特征说明。

5.根据权利要求4所述的信息处理系统，其中

所述第一模板和所述第二模板各自还包括选择参数，指示用于从所述第二表选择满足条件的任何行的所述条件和作为所述选择的目标的列的值被指派给所述选择参数，

所述接受单元还接受指示要被指派给所述选择参数的值的一条或多条选择信息，

所述描述符生成单元生成接受的所述条的所述结合信息、所述聚合信息和所述选择信息的多个组合，并且生成针对相应的所述组合的所述特征描述符，并且

所述特征说明生成单元生成针对相应的所述组合的所述特征说明。

6.根据权利要求2至5中任一项所述的信息处理系统，其中

所述第一模板和所述第二模板各自还包括表参数，标识所述第二表的值被指派给所述表参数，并且

所述接受单元还接受指示要被指派给所述表参数的值的表信息。

7.根据权利要求6所述的信息处理系统，其中

所述第二模板包括

包括表参数的表模板，

包括结合参数的结合模板，

包括聚合参数的聚合模板，

包括选择参数的选择模板，以及

包括多个标签参数的标签模板，标签被指派给所述多个标签参数，并且

所述特征说明生成单元

通过将表信息指派给所述表参数来从所述表模板生成以自然语言被表达的表标签，

通过将结合信息指派给所述结合参数来从所述结合模板生成以自然语言被表达的结合标签，

通过将聚合信息指派给所述聚合参数来从所述聚合模板生成以自然语言被表达的聚合标签，

通过将选择信息指派给所述选择参数来从所述选择模板生成以自然语言被表达的选择标签，以及

通过将所述表标签、所述结合标签、所述聚合标签和所述选择标签应用于相应的所述标签参数的位置，来从所述标签模板生成所述特征说明。

8.根据权利要求2至7中任一项所述的信息处理系统，其中在当结合所述表时所述第一表中的行和所述第二表中的行具有一对多的对应关系的情况中，所述聚合参数被指派有指示要对所述第二表中的所述多个行执行的所述聚合操作以及作为所述聚合操作的目标的列的信息。

9.根据权利要求1至8中任一项所述的信息处理系统，还包括：

学习单元，所述学习单元通过使用所生成的特征作为针对说明变量的候选来学习用于预测所述预测目标的值的模型。

10.根据权利要求9所述的信息处理系统，还包括：

预测单元，所述预测单元通过将所生成的所述特征应用于所述模型来获得预测的值。

11.一种信息处理系统，包括：

接受单元，所述接受单元接受指示要与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示聚合操作要对所述第二表中的多个行执行和作为所述聚合操作的目标的列的聚合信息；以及

特征说明生成单元，所述特征说明生成单元通过将分别指示由所述接受单元接受的所述表信息、所述结合信息和所述聚合信息的值指派给模板来生成特征说明，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。

12.根据权利要求11所述的信息处理系统，其中

所述接受单元还接受选择信息，所述选择信息指示用于从所述第二表选择满足条件的任何行的所述条件以及作为所述选择的目标的列，

所述模板还包括选择参数，指示所述选择信息的值被指派给所述选择参数，并且

所述特征说明生成单元通过将指示由所述接受单元接受的所述选择信息的值指派给所述模板来生成所述特征说明。

13.一种特征说明生成方法，包括：

通过将接受的值指派给预先准备的第一模板来生成特征描述符，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；

通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征，所述特征在学习用于预测所述预测目标的值的模型时被用作针对说明变量的候选；以及

通过将被指派给所述第一模板的所述值指派给第二模板来生成关于所述特征描述符或所述特征的特征说明。

14.一种特征说明生成方法，包括：

接受指示与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示要对所述第二表中的多个行执行聚合操作和作为所述聚合操作的目标的列的聚合信息；以及

通过将指示所接受的所述表信息的值、指示所接受的所述结合信息的值和指示所接受的所述聚合信息的值指派给模板来生成特征说明，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。

15.一种特征说明生成程序，使得计算机执行：

通过使用预先准备的第一模板来生成特征描述符的描述符生成处理，所述特征描述符从第一表和第二表生成能够影响预测目标的特征，所述第一表包括所述预测目标的变量；

通过将所述特征描述符应用于所述第一表和所述第二表来生成所述特征的特征生成处理；

基于第二模板来生成关于所述特征描述符或所述特征的特征说明的特征说明生成处理；以及

接受要被指派给所述第一模板和所述第二模板的值的接受处理；其中

所述程序使得计算机

在所述描述符生成处理中，通过将接受的所述值指派给所述第一模板来生成所述特征描述符，

在所述特征说明生成处理中，通过将被指派给所述第一模板的所述值指派给所述第二模板来生成所述特征说明，以及

在所述特征生成处理中，当学习用于预测所述预测目标的值的模型时生成用于用作针对说明变量的候选的所述特征。

16.一种特征说明生成程序，使得计算机执行：

接受指示要与包括预测目标的变量的第一表相关联的第二表的名称的表信息、指示在结合所述第一表和所述第二表时的键列的结合信息以及指示聚合操作要对所述第二表中的多个行执行和作为所述聚合操作的目标的列的聚合信息的接受处理；以及

通过将分别指示在所述接受处理中被接受的所述表信息、所述结合信息和所述聚合信息的值指派给模板来生成特征说明的特征说明生成处理，所述模板包括要被指派指示所述表信息的值的表参数、要被指派指示所述结合信息的值的结合参数以及要被指派指示所述聚合信息的值的聚合参数。