CN108369584B - 信息处理系统、描述符创建方法和描述符创建程序 - Google Patents

信息处理系统、描述符创建方法和描述符创建程序 Download PDF

Info

Publication number
CN108369584B
CN108369584B CN201680069167.0A CN201680069167A CN108369584B CN 108369584 B CN108369584 B CN 108369584B CN 201680069167 A CN201680069167 A CN 201680069167A CN 108369584 B CN108369584 B CN 108369584B
Authority
CN
China
Prior art keywords
descriptor
reduction method
condition
feature
rows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680069167.0A
Other languages
English (en)
Other versions
CN108369584A (zh
Inventor
楠村幸贵
藤卷辽平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dot Data Co
Original Assignee
Dot Data Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dot Data Co filed Critical Dot Data Co
Publication of CN108369584A publication Critical patent/CN108369584A/zh
Application granted granted Critical
Publication of CN108369584B publication Critical patent/CN108369584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

表格存储单元81存储包括目标变量的第一表格和在粒度上与第一表格不同的第二表格。功能创建单元82根据第一表格和第二表格创建特征量生成函数,以用于生成作为可以影响目标变量的变量的特征量。函数创建单元82通过生成对应条件元素和聚合方法元素的组合来创建多个特征量生成函数中的每一个特征量生成函数,对应条件元素指示用于第一表格和第二表中格的行的对应条件,聚合方法元素指示针对每个目标变量用于聚合包含于第二表格中的每列中的数据的聚合方法。

Description

信息处理系统、描述符创建方法和描述符创建程序
技术领域
本发明涉及信息处理系统、描述符创建方法和描述符创建程序,用以生成学习或预测中使用的特征。
背景技术
数据挖掘是一种从大量信息中发现迄今为止未知的有用知识的技术。将数据挖掘应用于特定示例的过程大致可以分为以下三个阶段。
第一阶段(步骤)是“预处理阶段”。“预处理阶段”是这样的阶段:为了有效运行数据挖掘算法,处理输入到根据数据挖掘算法操作的设备等中的属性(特征)以将属性转换为新属性。
第二阶段是“分析处理阶段”。“分析处理阶段”是这样的阶段:将属性输入到根据数据挖掘算法操作的设备等中,并且获得从根据数据挖掘算法操作的设备等输出的分析结果。
第三阶段是“后处理阶段”。“后处理阶段”是这样的阶段:将分析结果转换为易于查看的图表、待输入到另一设备的控制信号等。
为了通过数据挖掘获得有用的知识,需要适当地执行“预处理阶段”。设计如何执行“预处理阶段”的工作依赖于分析技术的有经验的技术人员(数据科学家)的技能。预处理阶段的设计工作没有得到信息处理技术的全面支持,仍然极大地依赖于有经验的技术人员的手工工作的尝试错误法。
为了找到未知的有用知识,重要的是要生成更多的属性候选。详细地,重要的是为可能影响作为预测对象的变量(目标变量)的属性(解释性变量)生成更多的候选。生成更多的候选会增加在候选中包含有助于预测的属性的可能性。
例如,专利文献(PTL)1描述了生成多个属性的方法。在PTL1中描述的方法从一个数据集中选择多个属性并且生成新的属性,所述数据集使得诸如身高、体重和啤酒的年消耗之类的属性与多个人的标识符相关联。
引文列表
专利文献
PTL1:国际专利申请公开号2015/045318。
发明内容
技术问题
利用PTL1中描述的方法,使用诸如作为示例描述的数据集的一组表格数据生成多个属性候选。然而,本发明人认为,为了生成许多属性候选,优选的是不仅使用一组表格数据而且使用多组表格数据。这是因为使用各种表格数据能够生成更多的属性候选。注意,“属性”也被称为“特征”。
然而,对于一个预测对象,所有组的表格数据很少具有相同的粒度。详细地,由于每组表格数据取决于所收集的数据的性质而在内容上有所不同,因此存在具有用于每个预测对象的多个对应行的表格数据以及其中与预测对象的对应关系不明显的表格数据。
因此,通过简单地使用多组表格数据来生成特征并不容易。还存在一个技术问题,即对于有经验的技术人员来说,要为待生成的每个特征定义处理方法需要巨大的劳力。鉴于这些情况,即使在使用多组表格数据的情况下,也希望能够高效地生成许多特征候选。
因此,本发明的目的是提供一种信息处理系统、描述符创建方法和描述符创建程序,其能够使用多组表格数据有效地生成许多特征候选项。
问题的解决方案
根据本发明的一种信息处理系统包括:表格存储单元,用于存储包括目标变量的第一表格和包括在粒度上与第一表格中包括的数据不同的数据的第二表格;以及描述符创建单元,用于从第一表格中的数据和第二表格中的数据创建特征描述符,以用于生成作为能够影响目标变量的变量的特征;其中所述描述符创建单元通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,映射条件元素指示用于所述第一表格和第二表格中的行的映射条件,归约方法元素指示针对每个目标变量归约包含于第二表格中的数据的归约方法。
根据本发明的一种描述符创建方法,包括:从包括目标变量的第一表格和包括在粒度上与第一表格中所包括的数据不同的数据的第二表格,来创建特征描述符,以用于生成作为能够影响目标变量的变量的特征;其中在创建特征描述符时,通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,映射条件元素指示用于所述第一表格和第二表格中的行的映射条件,归约方法元素指示针对每个目标变量归约包含于第二表格中的数据的归约方法。
根据本发明的一种描述符创建程序,用于使得计算机执行描述符创建过程,描述符创建过程从包括目标变量的第一表格和包括在粒度上与第一表格中所包括的数据不同的数据的第二表格来创建特征描述符,以用于生成作为能够影响目标变量的变量的特征;其中在描述符创建过程中,通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符,映射条件元素指示用于所述第一表格和第二表格中的行的映射条件,归约方法元素指示针对每个目标变量归约包含于第二表格中的数据的归约方法。
发明的有益效果
根据本发明,通过上述技术手段实现了使用多组表格数据有效地生成许多特征候选的技术有利效果。
附图说明
图1是描述根据本发明的信息处理系统的示例性实施例1的结构的示例的框图。
图2是描绘由每个元素表示的过程的例子的说明图。
图3是描绘示例性实施例1中的信息处理系统的操作的示例的流程图。
图4是描绘用于创建特征描述符的信息的示例的说明图。
图5是描绘示例性实施例1中创建特征描述符的操作的示例的流程图。
图6是描绘生成SQL语句的过程的示例的说明图。
图7是描绘根据本发明的信息处理系统的示例性实施例2的结构的示例的框图。
图8是描绘生成多个条件表达式的过程的示例的说明图。
图9是描绘示例性实施例2中的创建特征描述符的操作的示例的流程图。
图10是描绘根据本发明的信息处理系统的概况的框图。
图11是描绘根据至少一个示例性实施例的计算机的结构的示意性框图。
具体实施方式
下面参考附图描述本发明的示例性实施例。在以下描述中,简单术语“数据”表示包含于表格中的每个单元的内容,并且术语“表格数据”表示包含于表格中的全部数据。
示例性实施例1
图1是描述根据本发明的信息处理系统的示例性实施例1的结构的示例的框图。该示例性实施例中的信息处理系统包括存储单元11、输入单元12和描述符创建单元13。
存储单元11存储表格(下文也成为“第一表格”)和包含于第一表格中的一组数据(以下也称为“第一表格数据”),表格包括预测对象(即,目标变量)列。在以下描述中,第一表格被称为“目标表格”。存储单元11还存储与第一表格在粒度上不同的表格(以下也称为“第二表格”)和包含于第二表格中的一组数据(以下也称为“第二表格数据”)。在以下描述中,第二表格被称为“源表格”。
第一表格和第二表格各自通过表示数据属性的列的组合来定义。每个表格包括一个或多个行,所述一个或多个行组合指示相应属性的值的数据。“与目标表格(第一表格)在粒度上不同的表格”表示这样的表格:其行与目标表格的行不是一一对应。当生成下述特征描述符时,存储单元11可以不存储第一表格数据和第二表格数据。
输入单元12接收下述描述符创建单元13创建特征描述符所需的各种信息。输入单元12可以经由通信网络(未示出)接收信息,或者通过从存储信息的存储设备(未示出)读取信息来接收信息。存储单元11也可以用作该存储设备。利用描述符创建单元13的功能在下面描述由输入单元12接收到的信息。
描述符创建单元13使用输入到输入单元12的信息来生成特征描述符。特征描述符是用于从第一表格数据和第二表格数据生成作为可影响目标变量的变量的特征的函数。源表格的数目不限于一个,并且可以是两个或更多个。当使用机器学习生成模型时,生成的特征是解释变量的候选。换句话说,通过使用在本示例性实施例中生成的特征描述符,在使用机器学习生成模型时可以自动生成解释变量的候选。
描述符创建单元13通过生成三个元素的组合来创建多个特征描述符中的每个特征描述符。第一元素是指示包含于第二表格中的行的过滤条件的元素。在以下描述中,第一元素也被称为“过滤条件元素”。详细地,由第一元素指示的过滤条件被定义为源表格(第二表格)的条件表达式。下文还将基于第一元素从第二表格过滤行的过程称为“过滤”。条件表达式的列表在下文中也被表示为“F列表”。
过滤条件可以是任何条件。例如,确定值是否等于(大于或小于)指定列值的条件。
第二元素是指示第一表格数据和第二表格数据中的行的映射条件的元素。在下面的描述中,第二元素也被称为“映射条件元素”。详细地,第二元素被定义为将目标表格(第一表格)中的列与源表格(第二表格)中的列相关联的列对。下文还将基于第二元素关联相应表格的列的过程表示为“映射”。列对的列表在下文中也被表示为“M列表”。通过映射关联相应表格的列可以被认为是用相关联的列将多个表格连接成一个表格。
第三元素是指示用于针对每个目标变量归约第二表格中的每列的数据的归约方法的元素。在以下描述中,第三元素也被称为“归约方法元素”。详细地,第三元素被定义为源表格(第二表格)中列的归约函数。下文还将通过由第三元素指示的方法归约每列的数据的过程表示为“归约”。归约函数的列表在下文中也被表示为“R列表”。在示例性实施例1中,“针对每个目标变量的归约”是指从包含于第二表格中的列归约基于第一元素(即,过滤条件元素)过滤并且基于第二元素(即,映射条件元素)与第一表格中的相同列相关联的数据。
归约方法可以是任何方法。示例包括列的总数、最大值、最小值、平均值、中值和方差。在对列的总数进行计数时,可能会排除或不排除重叠数据。
图2是描绘由每个元素指示的过程的示例的说明图。在图2所示的例子中,存在一个目标表格T和一个源表格S,并且关键列是关联这两个表格的列。在目标表格中的Y列包括目标变量。在图2中,S1是源表格S中的一组列的子集。
“过滤”是选择源表格S中的该组列的子集的过程。“映射”是关联目标表格T中的行与源表格S中的行的过程。“归约”是通过使用由过滤器在由目标表格T中的每行的映射关联的源表格S中的列中选择的一组行的值执行某种归约操作而导出一个值的过程,并且可以使用任何归约函数用于导出。
具有三个元素作为参数的特征描述符被定义为用于基于以下过程生成特征的描述符。首先,基于由第一元素(过滤)指定的用于源表格的过滤条件,从源表格中提取一行或多行。
随后,通过由第二元素(映射)指定的映射条件,将目标表格和源表格彼此相关联。当关联目标表格和源表格时,不仅可以将在由映射条件指示的列值中完全匹配的行,而且可以将根据指定的相似性的行彼此关联。例如,在进行日期和时间数据的关联时,不仅在日期和时间上完全匹配的行,而且日期和时间上的差在预定范围内(例如6小时内)的两个行也可以彼此关联。作为另一示例,当目标表格和源表格各自具有纬度列和经度列,并且映射条件使用纬度列和经度列时,可以执行基于距离的关联,例如在两个位置之间的距离在预定范围(例如,5Km)内的情况下关联行。
之后,对于目标表格中的每一行,基于由第三元素(归约)指定的归约方法,来归约来自通过过滤选择的行的通过映射关联的行。作为该归约的结果,包括针对目标表格中的每一行获得的值的向量是特征。
描述符创建单元13可以使用所生成的特征描述符来生成多个特征。因此,描述符创建单元13可以用作用于生成特征的特征生成单元。
存储单元11例如由磁盘设备来实现。输入单元12和描述符创建单元13由根据程序(描述符创建程序)操作的计算机中的CPU实现。例如,程序可以存储在存储单元11中,其中CPU读取该程序并根据该程序作为输入单元12和描述符创建单元13进行操作。信息处理系统的功能可以以SaaS(软件即服务)形式提供。
输入单元12和描述符创建单元13均可以通过专用硬件来实现。输入单元12和描述符创建单元13均可以通过通用或专用电路来实现。通用或专用电路可以包括单个芯片或经由总线连接的多个芯片。在通过多个信息处理设备、电路等实现每个设备的部分或全部部件的情况下,多个信息处理设备、电路等可以是集中式的或分布式的。例如,多个信息处理设备、电路等可以以如下形式被实现,它们经由通信网络(例如客户端-服务器系统或云计算系统)被连接起来。
下面描述该示例性实施例中的信息处理系统的操作。图3是描绘该示例性实施例中的信息处理系统的操作的示例的流程图。输入单元12接收用于创建特征描述符所需的三个元素(步骤S11)。描述符创建单元13根据输入的三个元素创建特征描述符(步骤S12)。输入的三个元素中的每一个指定存储在存储单元11中的目标表格(第一表格)和/或源表格(第二表格)中的列。
下面描述描述符创建单元13创建特征描述符所依据的具体过程。图4是描绘用于创建特征描述符的信息的示例的说明图。在图4描绘的例子中,预测对象的变量(目标变量)是表示顾客是否取消的变量,目标表格(T)是包括用于识别每个顾客的顾客ID和表示是否进行了取消的变量的表格。源表格(S)是包括每个客户的呼叫日志(例如,呼叫时间、呼叫方向、呼叫类型和呼叫持续时间)的表格。
假设在过滤中使用的F列表包括18个条件表达式候选,映射中使用的M列表包括用于通过客户ID将目标表格和源表格相关联的一个条件,并且在归约中使用的R列表包括与呼叫持续时间或时间相关的六个归约函数。
F列表、M列表和R列表可以由机器自动创建,或者由人员手动创建。这里假设图4所示的F列表、M列表和R列表是预先创建的。
图5是描绘在该示例性实施例中由描述符创建单元13创建特征描述符的操作的示例的流程图。首先,描述符创建单元13从F列表、M列表和R列表中的每一个中选择一个元素,并且生成元素的组合(步骤S22)。在图4所示的示例中,F列表包括18个条件表达式,M列表包括一个映射条件,并且R列表包括六个归约方法。因此,根据这些列表中的元素生成108个组合。
描述符创建单元13然后基于生成的组合来创建特征描述符(步骤S23)。详细地,描述符创建单元13将包含于所生成的组合中的条件和归约方法转换成用于操作或定义表格数据的查询语言。例如,描述符创建单元13可以使用SQL作为查询语言。
这里,描述符创建单元13可以通过将过滤条件、映射条件和归约方法应用于用于生成SQL语句的模板来创建每个特征描述符。详细地,可以预先准备条件和归约方法被应用以生成SQL语句的模板,并且描述符创建单元13可以将包含于每个生成的组合中的条件和归约方法顺序地应用于模板以创建SQL语句。在这种情况下,特征描述符被定义为SQL语句,并且从F列表、M列表和R列表中选择的相应的三个元素对应于用于生成SQL语句的参数。
图6是描绘通过应用于模板来生成SQL语句的过程的示例的说明图。在图6所示的例子中,事先准备好模板Temp。描述符创建单元13将包含于每个生成的组合中的条件和归约方法应用于模板Temp中的下划线部分。结果,生成与组合一样多的特征描述符。
作为示例,假设通过从F列表中选择条件表达式“呼叫方向=进入”,从M列表中选择映射条件“通过客户ID进行关联”,以及从R列表选择归约方法“计数呼叫持续时间列”,来生成组合。当将这种组合应用于模板Temp时,生成图6所示的查询语句Q1。由此查询语句Q1创建的特征表示来电或接收到的消息的总数。
作为另一例子,假设通过从F列表中选择条件表达式“呼叫方向=外出和类型=呼叫”,从M列表中选择映射条件“通过客户ID关联”,以及从R列表选择归约方法“时间:最大”,来生成组合。当该组合应用于模板Temp时,生成图6所示的查询语句Q2。由此查询语句Q2创建的特征表示进行语音呼叫的最新时间值。
也可以生成除了上述特征之外的各种特征。例如,假设通过从F列表中选择条件表达式“类型=呼叫并且呼叫方向=外出并且小时(时间)<7”,从M列表选择映射条件“通过客户ID关联”,以及从R列表选择归约方法“呼叫持续时间均值”,来生成组合。由此组合创建的特征表示在7点之前进行的语音呼叫的平均时间。
假设通过从F列表中选择条件表达式“类型=呼叫并且呼叫方向=进入”,从M列表中选择映射条件“通过客户ID进行关联”,以及从R列表选择归约方法“呼叫持续时间变化”,来生成组合。由此组合创建的特征表示来电的呼叫时间的变化。
如上所述,根据该实施例,描述符创建单元13生成三个元素的组合,以生成特征描述符,用于根据目标表格(第一表格)和源表格(第二表格)生成特征。详细地,在本实施例中,通过三个元素的组合(即过滤、映射和归约)来定义用于根据源表格和目标表格生成特征的描述符。通过三个元素的组合定义特征描述符,许多类型的特征描述符可以被表示为简单元素组合。因此,可以使用多组表格数据高效地生成许多特征候选。例如,在图4中,仅通过定义18个条件表达式、一个映射条件和六个归约方法就可以容易地生成108种类型的特征描述符。此外,由于可以重新使用曾经创建的过滤、映射和归约的定义,因此可以获得归约用于生成特征描述符的步骤的数目的有利效果。
示例性实施例2
下面描述根据本发明的信息处理系统的示例性实施例2。示例性实施例1描述了预先准备由第一元素指示的全部条件表达式的情况。例如,在图4中,在F列表中准备了18个条件表达式。该实施例描述了有效地创建由第一元素指示的许多条件表达式的方法。
图7是描绘根据本发明的信息处理系统的示例性实施例2的结构的示例的框图。与示例性实施例1中的部件相同的部件被给予与图1中相同的附图标记,并且省略其描述。在该示例性实施例中的信息处理系统包括存储单元11、输入单元12、描述符创建单元13和参数生成单元14。因此,该示例性实施例中的信息处理系统与示例性实施例1的不同之处在于,还包括参数生成单元14。
参数生成单元14通过组合包含于由第一元素指示的过滤条件中的条件表达式(以下称为“原子条件表达式”)来生成多个条件表达式中的每个条件表达式。预先设置组合的条件表达式的数目。由AND链接的原子条件表达式的最大数目在下文中也被称为“条件表达式最大长度”。原子条件表达式可以由单个逻辑表达式或通过运算符联合多个逻辑表达式而获得的逻辑表达式来表示。
图8是描绘生成多个条件表达式的过程的示例的说明图。在图8所示的示例中,F列表包括六个原子条件表达式,并且条件表达式最大长度是2。描述符创建单元13组合包含于F列表中的原子条件表达式中的小于或等于“条件表达式最大长度”的多个原子条件表达式,以生成多个新的条件表达式。在图8中,从F列表生成总共18个条件表达式。
在该实施例中,参数生成单元14组合原子条件表达式以生成新的条件表达式。条件表达式可以基本组合高达与原子条件表达式的数目对应的长度。然而,通过联合所有表达式获得的这种长的条件表达式在意义上很难被用户理解,并且通常不切实际。在该实施例中,将条件表达式最大长度设置为其中用户能够理解特征的含义的范围(例如,条件表达式最大长度=2),从而可以降低生成的特征的复杂度。因此,通过指定条件表达式最大长度,可以在将条件表达式限制为用户容易理解的情况下生成特征。
当生成新条件表达式时,描述符创建单元13可以针对相同属性从条件表达式中排除任何矛盾条件。例如,在图8中描述的条件表达式中,呼叫方向为进入的条件和呼叫方向为出去的条件彼此不兼容。在这种情况下,描述符创建单元13可以排除包括这些条件的组合。
输入单元12、描述符创建单元13和参数生成单元14由根据程序(描述符创建程序)操作的计算机中的CPU实现。输入单元12、描述符创建单元13和参数生成单元14均可以由专用或通用硬件或电路来实现。
图9是描绘在该示例性实施例中由描述符创建单元13创建特征描述符的操作的示例的流程图。首先,描述符创建单元13通过组合包含于F列表中的条件表达式来生成新的条件表达式(步骤S21)。随后的基于元素创建特征描述符的过程与图5中的步骤S22至S23的过程相同。
如上所述,根据该示例性实施例,参数生成单元14通过组合小于或等于由指定的最大长度所表示的数目的多个原子条件表达式而生成多个条件表达式。描述符创建单元13然后使用每个生成的条件表达作为第一元素来创建特征描述符。因此,除了示例性实施例1的有益效果之外,通过指定较少的条件表达式可以有效地生成许多特征描述符。例如,简单地通过定义6个条件表达式和它们的条件表达式最大长度(例如,最大长度=2)、一个映射条件和六个归约方法,可以容易地生成108种类型的特征描述符。
示例性实施例3
下面描述根据本发明的信息处理系统的示例性实施例3。示例性实施例1描述了生成三个元素(过滤、映射、归约)的组合以生成用于根据目标表格(第一表格)和源表格(第二表格)生成特征的特征描述符的方法。示例性实施例3描述了一种生成特征描述符而不执行从第二表格(源表格)提取行的过程(即,过滤)的方法。
示例性实施例3中的结构与示例性实施例1中的结构相同,但是示例性实施例3中由描述符创建单元13生成特征描述符的方法与示例性实施例1中的不同。描述符创建单元13如在示例性实施例1中那样使用输入到输入单元12的信息生成特征描述符。然而,在该实施例中,描述符创建单元13通过生成两个元素(映射、归约)(即,示例性实施例1中描述的第二元素(即,映射条件元素)和第三元素(即,归约方法元素))的组合来创建多个特征描述符中的每个特征描述符。
详细地,本示例性实施例中的描述符创建单元13通过生成映射条件元素(对应于示例性实施例1中的第二元素)和归约方法元素(对应于示例性实施例1中的第三元素)的组合,来创建多个特征描述符中的每个特征描述符,映射条件元素指示用于第一表格(目标表格)和第二表格(源表格)中的行的映射条件,并且归约方法元素指示针对每个目标变量归约包含于第二表格中的每列的数据的归约方法。
在示例性实施例3中,“针对每个目标变量的归约”表示从包含于第二表格中的列中归约基于映射条件元素而与第一表格中的相同列相关联的数据。
由描述符生成单元13生成这些元素的每个组合的方法、各元素的内容以及特征描述符的内容与示例性实施例1相同,除了第一元素(即,过滤条件元素)不作为元素而被包含在内。
如上所述,根据该实施例,描述符创建单元13通过生成映射条件元素和归约方法元素的组合来创建多个特征描述符中的每个特征描述符。这具有与示例性实施例1相同的有利效果,也就是说,可以使用多组表格数据有效地生成许多特征候选。例如,在特征生成中使用整个第二表格数据的情况下,不需要使用第二表格数据的子集,从而即使在过滤条件元素不被包含于特征描述符时也能够从每组表格数据生成特征。
下面描述根据本发明的信息处理系统的概述。图10是描绘根据本发明的信息处理系统的概况的框图。根据本发明的信息处理系统包括:表格存储单元81(例如,存储单元11),其存储包括目标变量的第一表格(例如,目标表格)和在粒度上与第一表格不同的第二表格(例如,源表格);以及描述符创建单元82(例如,描述符创建单元13),其创建特征描述符,用以根据第一表格和第二表格生成作为可以影响目标变量的变量的特征。
描述符创建单元82通过生成映射条件元素(例如,第二元素)和归约方法元素(例如,第三元素)的组合,来创建多个特征描述符中的每个特征描述符,映射条件元素指示第一表格和第二表格中的行的映射条件,归约方法元素指示用于针对每个目标变量归约包含于第二表格中的每列的数据的归约方法,。
利用这样的结构,可以使用多组表格数据有效地生成许多特征候选。
描述符创建单元82可以通过生成过滤条件元素(例如,第一元素)、映射条件元素(例如,第二元素)和归约方法元素(例如,第三元素)的组合来创建多个特征描述符中的每个特征描述符,其中所述过滤条件元素包括条件表达式,其指示包含于第二表格中的行的过滤条件,所述映射条件元素指示第一表格和第二表格中的行的映射条件,以及所述归约方法元素指示用于针对每个目标变量归约包含于第二表格中的每列的数据的归约方法。
信息处理系统可以包括过滤条件生成单元(例如,参数生成单元14),其通过组合原子条件表达式来生成多个条件表达式,所述原子条件表达式中的每一个是包含在由过滤条件元素指示的过滤条件中的条件表达式。这里,过滤条件生成单元可以生成多个条件表达式,多个条件表达式中的每个条件表达式是通过组合小于或等于由指定的最大长度所表示的数目的多个原子条件表达式获得的,并且描述符创建单元82可以使用每个生成的条件表达式作为过滤条件元素来创建特征描述符。
利用这样的结构,通过指定较少的条件表达式可以高效地生成许多特征候选。
详细地,描述符创建单元82创建特征描述符,每个特征描述符用于基于由过滤条件元素指定的过滤条件来执行对一行或多行进行过滤的过程,通过由映射条件元素指定的映射条件来执行映射第一表格和第二表格映的过程,以及基于由归约方法元素指定的归约方法来执行归约第二表格中的行的过程。
描述符创建单元82通过选择由过滤条件元素指示的一个过滤条件、由映射条件元素指示的一个映射条件以及由归约方法元素指示的一个归约方法,并且组合所选的条件表达式、映射条件和归约方法,创建多个特征描述符中的每个特征描述符。
例如,过滤条件元素由第二表格中的列的条件表达式和条件表达式的最大长度表示,映射条件元素由关联第一表格中的列和第二表格中的列的列对表示,并且归约方法元素由针对第二表格中的列执行的归约方法表示。
特征描述符中的每个特征描述符可以由从第一表格和第二表格提取数据的SQL语句来定义。这里,描述符创建单元82可以通过将过滤条件、映射条件和归约方法应用于生成SQL语句的模板来创建特征描述符。
图11是描绘根据至少一个示例性实施例的计算机的结构的示意性框图。计算机1000包括CPU 1001、主存储设备1002、辅助存储设备1003以及接口1004。
上述信息处理系统由计算机1000实现。上述每个处理单元的操作以程序(描述符创建程序)的形式存储在辅助存储设备1003中。CPU 1001从辅助存储设备1003读取程序,扩展主存储设备1002中的程序,并根据程序执行上述过程。
在至少一个示例性实施例中,辅助存储设备1003是非瞬态有形介质的示例。非瞬态有形介质的示例包括经由接口1004连接的磁盘、磁光盘、CD-ROM、DVD-ROM和半导体存储器。在通过通信线路将程序分发到计算机1000的情况下,已经被分发了程序的计算机1000可以扩展主存储设备1002中的程序并执行上述过程。
程序可以实现上述功能的一部分。该程序可以是与已经存储在辅助存储设备1003中的另一程序组合实现上述功能的差异文件(差异程序)。
虽然已经参照示例性实施例和示例描述了本发明,但是本发明不限于前述示例性实施例和示例。可以在本发明的范围内对本发明的结构和细节进行本领域技术人员可以理解的各种变化。
本申请要求基于2015年11月25日提交的美国临时申请No.62/259,896的优先权,其公开内容整体并入本文。
参考标记列表
11 存储单元
12 输入单元
13 描述符创建单元
14 参数生成单元

Claims (10)

1.一种信息处理系统,包括:
表格存储单元,其存储第二表格和包括目标变量的第一表格,其中所述第一表格和所述第二表格各自包括多个行,并且所述第一表格的行与所述第二表格的多个行具有非一对一关系;
描述符创建单元,其基于所述第一表格和所述第二表格创建多个特征描述符,
其中所述描述符创建单元基于映射条件元素和归约方法元素的组合来创建包括在多个特征描述符中的每个特征描述符,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的映射条件,所述归约方法元素指示用于归约包括在所述第二表格中的数据的归约方法;以及
特征生成单元,其通过将所述多个特征描述符应用到所述第一表格和所述第二表格来生成多个特征。
2.根据权利要求1所述的信息处理系统,其中,所述描述符创建单元通过生成过滤条件元素、所述映射条件元素和所述归约方法元素的组合来创建所述多个特征描述符中的每个特征描述符,所述过滤条件元素包括指示用于包括在所述第二表格中的行的过滤条件的条件表达式,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的所述映射条件,并且所述归约方法元素指示用于归约包括在所述第二表格中的所述数据的所述归约方法。
3.根据权利要求2所述的信息处理系统,其中,所述描述符创建程序进一步包括:
过滤条件生成单元,其通过组合原子条件表达式来生成多个条件表达式,所述原子条件表达式中的每个原子条件表达式是包括在由所述过滤条件元素指示的所述过滤条件中的条件表达式,
其中所述过滤条件生成单元生成所述多个条件表达式,所述多个条件表达式中的每个条件表达式通过组合数目小于或等于由指定的最大长度所指示的数目的原子条件表达式来获得,并且
其中所述描述符创建单元使用所生成的所述条件表达式中的每一个作为所述过滤条件元素来创建所述特征描述符。
4.根据权利要求2或3所述的信息处理系统,其中,所述描述符创建单元创建所述特征描述符,所述特征描述符中的每一个用于基于由所述过滤条件元素指定的所述过滤条件来执行提取一个或多个行的过程,通过借助于由所述映射条件元素所指示的所述映射条件指定的所述映射条件来执行关联所述第一表格和所述第二表格的过程,以及基于由所述归约方法元素指定的所述归约方法来执行归约所述第二表格中的行的过程。
5.根据权利要求2或3所述的信息处理系统,其中,所述描述符创建单元通过下列来创建所述多个特征描述符:选择由所述过滤条件元素指示的一个过滤条件、由所述映射条件元素指示的一个映射条件、以及由所述归约方法元素指示的一个归约方法,并组合所选的条件表达式、映射条件和归约方法。
6.根据权利要求3所述的信息处理系统,其中,所述过滤条件元素由用于所述第二表格中的列的条件表达式和所述条件表达式的最大长度表示,所述映射条件元素由将所述第一表格中的列与所述第二表格中的列相关联的列对表示,并且所述归约方法元素由针对所述第二表格中的列执行的归约方法表示。
7.根据权利要求2至3或权利要求6中任一项所述的信息处理系统,其中,所述特征描述符中的每个特征描述符由从所述第一表格和所述第二表格提取数据的SQL语句来定义。
8.根据权利要求7所述的信息处理系统,其中,所述描述符创建单元通过将所述过滤条件、所述映射条件和所述归约方法应用于用以生成所述SQL语句的模板来创建所述特征描述符中的每个特征描述符。
9.一种描述符创建方法,包括:
从第二表格和包括目标变量的第一表格来创建多个特征描述符,其中所述第一表格和所述第二表格各自包括多个行,并且所述第一表格的行与所述第二表格的多个行具有非一对一关系,
其中多个特征描述符中的每个特征描述符基于映射条件元素和归约方法元素的组合,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的映射条件,所述归约方法元素指示用于归约包括在所述第二表格中的数据的归约方法;以及
通过将所述多个特征描述符应用到所述第一表格和所述第二表格来生成多个特征。
10.一种信息处理设备,包括:
表格存储单元,其存储第二表格和包括目标变量的第一表格,其中所述第一表格和所述第二表格各自包括多个行,并且所述第一表格的行与所述第二表格的多个行具有非一对一关系;
描述符创建单元,其基于所述第一表格和所述第二表格创建多个特征描述符,
其中所述描述符创建单元基于映射条件元素和归约方法元素的组合来创建包括在多个特征描述符中的每个特征描述符,所述映射条件元素指示用于所述第一表格和所述第二表格中的行的映射条件,所述归约方法元素指示用于归约包括在所述第二表格中的数据的归约方法;以及
特征生成单元,其通过将所述多个特征描述符应用到所述第一表格和所述第二表格来生成多个特征。
CN201680069167.0A 2015-11-25 2016-11-14 信息处理系统、描述符创建方法和描述符创建程序 Active CN108369584B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562259896P 2015-11-25 2015-11-25
US62/259896 2015-11-25
PCT/JP2016/083680 WO2017090475A1 (ja) 2015-11-25 2016-11-14 情報処理システム、関数作成方法および関数作成プログラム

Publications (2)

Publication Number Publication Date
CN108369584A CN108369584A (zh) 2018-08-03
CN108369584B true CN108369584B (zh) 2022-07-08

Family

ID=58763182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680069167.0A Active CN108369584B (zh) 2015-11-25 2016-11-14 信息处理系统、描述符创建方法和描述符创建程序

Country Status (5)

Country Link
US (1) US10885011B2 (zh)
EP (1) EP3382572A4 (zh)
JP (1) JP7098327B2 (zh)
CN (1) CN108369584B (zh)
WO (1) WO2017090475A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885011B2 (en) 2015-11-25 2021-01-05 Dotdata, Inc. Information processing system, descriptor creation method, and descriptor creation program
US11727203B2 (en) 2017-03-30 2023-08-15 Dotdata, Inc. Information processing system, feature description method and feature description program
WO2019069505A1 (ja) * 2017-10-05 2019-04-11 日本電気株式会社 情報処理装置、結合条件生成方法および結合条件生成プログラム
SG11202003814TA (en) * 2017-10-05 2020-05-28 Dotdata Inc Feature generating device, feature generating method, and feature generating program
WO2019069506A1 (ja) * 2017-10-05 2019-04-11 日本電気株式会社 特徴量生成装置、特徴量生成方法および特徴量生成プログラム
JP7257168B2 (ja) * 2019-02-13 2023-04-13 株式会社キーエンス データ分析装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6973459B1 (en) * 2002-05-10 2005-12-06 Oracle International Corporation Adaptive Bayes Network data mining modeling
US7991583B2 (en) * 2006-04-13 2011-08-02 Dspace Digital Signal Processing And Control Engineering Gmbh Diagnosis in automotive applications
JP2011242851A (ja) * 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 和集合集約処理と等結合処理の組み合わせ方法及びデータベースシステム及びプログラム
CN102714767A (zh) * 2010-01-18 2012-10-03 日本电气株式会社 信息终端装置、信息终端装置的操作方法及其程序
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
WO2015085916A1 (zh) * 2013-12-10 2015-06-18 中国银联股份有限公司 数据挖掘方法
CN104881424A (zh) * 2015-03-13 2015-09-02 国家电网公司 一种基于正则表达式的电力大数据采集、存储及分析方法

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3517345B2 (ja) 1998-02-03 2004-04-12 日本電信電話株式会社 住所情報による異種データの結合処理方法および装置
US6721754B1 (en) 1999-04-28 2004-04-13 Arena Pharmaceuticals, Inc. System and method for database similarity join
JP2002007435A (ja) * 2000-06-20 2002-01-11 Nec Corp 対話的分析データベースシステム及び対話的分析プログラムを記録した記録媒体
JP2002109150A (ja) 2000-09-28 2002-04-12 Fuji Electric Co Ltd 時系列データの適応的予測方法
US6820089B2 (en) 2001-04-05 2004-11-16 International Business Machines Corporation Method and system for simplifying the use of data mining in domain-specific analytic applications by packaging predefined data mining models
US20050102303A1 (en) 2003-11-12 2005-05-12 International Business Machines Corporation Computer-implemented method, system and program product for mapping a user data schema to a mining model schema
US7225200B2 (en) 2004-04-14 2007-05-29 Microsoft Corporation Automatic data perspective generation for a target variable
US20060218132A1 (en) * 2005-03-25 2006-09-28 Oracle International Corporation Predictive data mining SQL functions (operators)
US20070203893A1 (en) * 2006-02-27 2007-08-30 Business Objects, S.A. Apparatus and method for federated querying of unstructured data
JP2008102736A (ja) 2006-10-19 2008-05-01 Toshiba Corp 検索装置および検索方法
US8521689B2 (en) * 2007-04-20 2013-08-27 International Business Machines Corporation Generation of a set of pre-filters from a set of event subscriptions to more efficiently select events of interest
JP5527027B2 (ja) 2010-06-04 2014-06-18 富士通株式会社 スキーマ定義生成装置、スキーマ定義生成方法およびスキーマ定義生成プログラム
CA2712028C (en) 2010-08-25 2011-12-20 Ibm Canada Limited - Ibm Canada Limitee Geospatial database integration using business models
JP5457316B2 (ja) 2010-09-13 2014-04-02 株式会社富士通マーケティング レポート作成装置およびそのプログラム
US8731881B2 (en) 2011-03-18 2014-05-20 Nec Corporation Multivariate data mixture model estimation device, mixture model estimation method, and mixture model estimation program
JP5794160B2 (ja) 2012-01-26 2015-10-14 富士通株式会社 説明変数の決定のための情報処理装置、情報処理方法及びプログラム
JP5520330B2 (ja) 2012-02-10 2014-06-11 日本電信電話株式会社 情報取引システム
JP5752621B2 (ja) 2012-03-02 2015-07-22 株式会社日立ソリューションズ東日本 需要予測装置、需要予測プログラムおよび需要予測方法
US9075616B2 (en) * 2012-03-19 2015-07-07 Enterpriseweb Llc Declarative software application meta-model and system for self-modification
US9128991B2 (en) * 2012-04-03 2015-09-08 Sas Institute, Inc. Techniques to perform in-database computational programming
US9201936B2 (en) * 2012-11-13 2015-12-01 International Business Machines Corporation Rapid provisioning of information for business analytics
US9146984B1 (en) * 2013-03-15 2015-09-29 Google Inc. Enhancing queries for data tables with nested fields
US9858600B2 (en) * 2013-03-15 2018-01-02 Turn Inc. Universal tag for page analytics and campaign creation
JP6283190B2 (ja) 2013-10-09 2018-02-21 前田建設工業株式会社 表形式データ処理プログラム、方法、及び装置
WO2014208205A1 (ja) 2013-06-26 2014-12-31 前田建設工業株式会社 表形式データ処理プログラム、方法及び装置
US10452632B1 (en) * 2013-06-29 2019-10-22 Teradata Us, Inc. Multi-input SQL-MR
US20160232213A1 (en) 2013-09-27 2016-08-11 Nec Corporation Information Processing System, Information Processing Method, and Recording Medium with Program Stored Thereon
US10353923B2 (en) * 2014-04-24 2019-07-16 Ebay Inc. Hadoop OLAP engine
WO2015186278A1 (ja) 2014-06-03 2015-12-10 日本電気株式会社 属性列挙システム、属性列挙方法および属性列挙プログラム
US9672474B2 (en) * 2014-06-30 2017-06-06 Amazon Technologies, Inc. Concurrent binning of machine learning data
EP3176744A4 (en) 2014-07-31 2018-01-17 Nec Corporation Behavioral feature prediction system, behavioral feature prediction device, method and program
US9130832B1 (en) * 2014-10-09 2015-09-08 Splunk, Inc. Creating entity definition from a file
US10452664B2 (en) * 2015-05-21 2019-10-22 Oracle International Corporation Declarative MapReduce using regular expressions
US10885011B2 (en) 2015-11-25 2021-01-05 Dotdata, Inc. Information processing system, descriptor creation method, and descriptor creation program
JP7069029B2 (ja) 2016-10-31 2022-05-17 ドットデータ インコーポレイテッド 自動予測システム、自動予測方法および自動予測プログラム
SG11202003814TA (en) 2017-10-05 2020-05-28 Dotdata Inc Feature generating device, feature generating method, and feature generating program
WO2019069505A1 (ja) 2017-10-05 2019-04-11 日本電気株式会社 情報処理装置、結合条件生成方法および結合条件生成プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6973459B1 (en) * 2002-05-10 2005-12-06 Oracle International Corporation Adaptive Bayes Network data mining modeling
US7991583B2 (en) * 2006-04-13 2011-08-02 Dspace Digital Signal Processing And Control Engineering Gmbh Diagnosis in automotive applications
CN102714767A (zh) * 2010-01-18 2012-10-03 日本电气株式会社 信息终端装置、信息终端装置的操作方法及其程序
JP2011242851A (ja) * 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 和集合集約処理と等結合処理の組み合わせ方法及びデータベースシステム及びプログラム
WO2015085916A1 (zh) * 2013-12-10 2015-06-18 中国银联股份有限公司 数据挖掘方法
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
CN104881424A (zh) * 2015-03-13 2015-09-02 国家电网公司 一种基于正则表达式的电力大数据采集、存储及分析方法

Also Published As

Publication number Publication date
CN108369584A (zh) 2018-08-03
EP3382572A1 (en) 2018-10-03
JP7098327B2 (ja) 2022-07-11
JPWO2017090475A1 (ja) 2018-09-20
WO2017090475A1 (ja) 2017-06-01
US20180373764A1 (en) 2018-12-27
EP3382572A4 (en) 2019-07-31
US10885011B2 (en) 2021-01-05

Similar Documents

Publication Publication Date Title
CN108369584B (zh) 信息处理系统、描述符创建方法和描述符创建程序
US11727203B2 (en) Information processing system, feature description method and feature description program
US10606654B2 (en) Data processing method and apparatus
CN107784026B (zh) 一种etl数据处理方法及装置
US11314808B2 (en) Hybrid flows containing a continous flow
US9418241B2 (en) Unified platform for big data processing
EP2983117A1 (en) Event processing method in stream processing system and stream processing system
KR101535813B1 (ko) 복합 이벤트 처리를 위한 이벤트 구성 규칙의 동적 업데이트를 위한 시스템 및 방법
US11281698B2 (en) Data configuration query method and device
Amin et al. A comparison of two oversampling techniques (smote vs mtdf) for handling class imbalance problem: A case study of customer churn prediction
CN102915344B (zh) 一种sql语句处理方法及装置
CN107871055B (zh) 一种数据分析方法和装置
Hondo et al. Data provenance management for bioinformatics workflows using NoSQL database systems in a cloud computing environment
CN105354228A (zh) 相似图搜索方法及装置
US9323793B2 (en) Control data driven modifications and generation of new schema during runtime operations
CN114861059A (zh) 资源推荐方法、装置、电子设备及存储介质
US10169418B2 (en) Deriving a multi-pass matching algorithm for data de-duplication
US11822587B2 (en) Server and method for classifying entities of a query
Masouleh et al. Optimization of ETL process in data warehouse through a combination of parallelization and shared cache memory
CN115687717A (zh) Grok表达式获取方法、装置、设备及计算机可读存储介质
CN110458383B (zh) 需求处理服务化的实现方法、装置及计算机设备、存储介质
CN113010571A (zh) 数据检测方法、装置、电子设备、存储介质和程序产品
CN109710395B (zh) 参数优化控制方法、装置和分布式计算系统
CN106055625B (zh) 一种执行业务的方法及装置
KR20150077669A (ko) 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200414

Address after: California, USA

Applicant after: Dot data Co.

Address before: Tokyo, Japan

Applicant before: NEC Corp.

GR01 Patent grant
GR01 Patent grant