CN110462651A

CN110462651A - 模型变量候补生成装置及方法

Info

Publication number: CN110462651A
Application number: CN201880020457.5A
Authority: CN
Inventors: 藤本浩司; 柴原一友; 是川空
Original assignee: Tenshushitsushi Co Ltd
Current assignee: Tenshushitsushi Co Ltd
Priority date: 2017-04-06
Filing date: 2018-03-06
Publication date: 2019-11-15
Also published as: EP3608802A1; JP2018180712A; US20200090058A1; JP6842111B2; WO2018186090A1; EP3608802A4; US11562262B2

Abstract

本发明提供一种模型变量候补生成装置，能够迅速地进行数据分析中的模型的变量的筛选。在预测模型的生成中生成作为说明变量的候补的说明变量候补的模型变量候补生成装置具有：数据输入部，在每个条目中包括一个以上的项目，该数据输入部向项目输入具有项目值的分析用数据；第一项目判定部，其预备设定分析用数据所含的项目的性质作为第一项目性质；数据性质判定部，其基于分析用数据所含的项目的第一项目性质，来判定分析用数据的性质即数据性质；第二项目判定部，其基于分析用数据的数据性质，来判定分析用数据所含的项目的性质作为第二项目性质；以及变量候补生成部，其基于分析用数据所含的项目的第二项目性质，通过从项目中选择或者对项目进行加工，由此生成说明变量候补。

Description

模型变量候补生成装置及方法

技术领域

本发明涉及用于数据分析的模型的变量候补的提取。

背景技术

通过解析所收集、蓄积的庞大数据间的相关性来预测所希望的预测对象的值的大数据解析技术受到关注。在预测对象的值的计算时，利用了基于蓄积的数据而生成的模型。当将获取到的数据作为说明变量向模型输入时，预测对象作为目标变量的值而被输出。

模型生成是需要庞大数据的解析的繁琐作业。模型生成的一部分作业由计算机自动实现，实现高效化。关于从数据所含的变量中仅选择效果高的变量并使数据离散化、从该数据构筑模型、对构筑的模型进行验证这样的各工序，某种程度上能够实现自动化。

例如，在专利文献1中，公开了如下的信息处理装置：该信息处理装置能够削减在发现应追加于预测模型的说明变量时进行的计算的量。

专利文献1所公开的信息处理装置针对多个目标变量，分别基于该目标变量的实际的值与通过用于预测该目标变量的值的第一预测模型而计算出的值的误差，将多个目标变量分类为多个组，针对该多个组，分别使用针对属于该组的目标变量而计算出的误差，来计算该误差的代表值，针对多个组，分别在改变说明变量的同时，生成多个用于预测计算出的代表值的第二预测模型，基于通过生成的多个第二预测模型而计算出的各个值与代表值之差，来决定向属于该组的目标变量的第一预测模型追加的说明变量。

另外，专利文献2公开了一种变量选择装置，该变量选择装置选择为了构筑模型而使用的说明变量，该模型用于计算特定的变量取特定的值的概率。

专利文献2所公开的变量选择装置将目标变量具有第一值及第二值的样本的频度作为第一频度及第二频度来计数，按照说明变量，将说明变量为第一值且目标变量为第一值的样本的频度作为第三频度来计数，将说明变量为第一值且目标变量为第二值的样本的频度作为第四频度来计数，使用第一频度、第二频度、以及按照说明变量而得到的第三频度及第四频度，分别计算各说明变量的特征量，基于计算出的各特征量来选择一个以上的说明变量。

另外，专利文献3公开了一种能够有效地选择说明变量的装置。

专利文献3所公开的装置中，线性预测器使用由多个说明变量候补与分别对应于多个说明变量候补的多个系数的线性结合和常数项之和表示的变量选择用模型，从多个说明变量候补中选择所希望的说明变量，此时，关于多个系数中的至少一个系数获取符号条件，使用多个数据，在符号条件下计算多个系数的推断值及常数项的推断值，将与推断值被计算为非零的系数对应的说明变量候补选择为所希望的说明变量。

专利文献4中公开了一种数据分析系统，该数据分析系统生成高精度地预测目标变量的预测模型。

专利文献4所公开的数据分析系统基于学习数据，生成根据多个说明变量来预测目标变量的预测模型，针对各记录，计算表示基于预测模型的预测概率的可靠度，制作由多个记录中的可靠度为预定的范围内的记录构成的子集，基于属于子集的记录，从多个说明变量提取与目标变量的相关性高的说明变量的组合，将提取出的说明变量的组合作为新的说明变量而追加于学习数据。

在先技术文献

专利文献

专利文献1：日本特开2013-152656号公报

专利文献2：日本特开2008-158748号公报

专利文献3：日本特许第6069460号公报

专利文献4：日本特开2016-4525号公报

发明内容

发明要解决的问题

在SNS(Social Networking Service)和IoT(Internet of Things)的发展等信息通信的环境变化下，当正式利用大数据时，所收集的数据的种类和数据所含的项目变得庞大。另外，所收集的数据的种类及数据所含的项目的变化变得频繁。

当数据的种类和量都变得非常大时，在生成预测某一目标变量的模型之际，出现成为说明变量的候补的数据的大部分项目与目标变量几乎没有相关性这样的状况。

专利文献1～4所公开的技术都是这样的技术：为了高精度地预测目标变量，通过预定的算法运算，从预先准备的说明变量的候补中选择效果高的说明变量。

但是，在上述那样的、成为说明变量的候补的数据的大部分项目与目标变量几乎没有相关性这样的状况下，在不考虑数据、项目的性质而将所有数据的所有项目作为说明变量的候补时，难以适当地选择说明变量并生成精度高的模型。在生成精度高的模型时，期望说明变量的候补具有包罗性，另一方面，也要求考虑与基于数据、项目的性质的目标变量之间的关系而预先筛选一定程度。

因此，需要进行从庞大数据的项目中预先生成适当的候补的作业，该适当的候补能够成为向选择说明变量的算法运算输入的说明变量。但是在现状下，并未确立预先生成妥当的说明变量的候补的方法，而是人们基于经验进行的。

在正式利用大数据之际，当对庞大存在且频繁变化的数据进行筛选的作业依赖于人工时，其成为瓶颈，存在模型的更新延迟、目标变量的预测精度下降的可能性。

本发明的目的在于，提供一种预先生成数据分析中的模型的变量的候补的技术。

解决方案

本发明的一方式的模型变量候补生成装置是在预测模型的生成中生成作为说明变量的候补的说明变量候补的模型变量候补生成装置，具有数据输入部、第一项目判定部、数据性质判定部、第二项目判定部以及变量候补生成部。

在每个条目中包括一个以上的项目，数据输入部向所述项目输入具有项目值的分析用数据。第一项目判定部预备设定所述分析用数据所含的所述项目的性质作为第一项目性质。数据性质判定部基于所述分析用数据所含的项目的所述第一项目性质，来判定该分析用数据的性质即数据性质。第二项目判定部基于所述分析用数据的所述数据性质，来判定该分析用数据所含的所述项目的性质作为第二项目性质。变量候补生成部基于所述分析用数据所含的项目的所述第二项目性质，通过从所述项目中选择或者对所述项目进行加工，由此生成所述说明变量候补。

发明效果

按照以下的方式，通过递进的步骤来生成说明变量候补：预备设定分析用数据的项目的性质，基于预备设定的项目的性质来判定分析用数据的性质，基于分析用数据的性质，真正地判定项目的性质，基于该真正判定的项目的性质，生成说明变量候补。因此，能够判断由于在分析用数据内不存在判断材料而难以机械判断的分析用数据及各项目的性质，能够考虑分析用数据及项目而迅速地进行数据分析中的预测模型的变量的筛选。

附图说明

图1是模型生成系统的框图。

图2是本实施方式的模型变量候补生成装置的框图。

图3是本实施方式的模型变量候补生成处理的整体的概要流程图。

图4是判断对象项目是否为存在ID的项目的处理的流程图。

图5是判断对象项目是否为存在登记日的项目的处理的流程图。

图6是示出主数据的一例的图。

图7是示出主数据的另一例的图。

图8是示出交易数据的一例的图。

图9是示出即时数据的一例的图。

具体实施方式

参照附图对本发明的实施方式进行说明。

图1是模型生成系统的框图。

模型生成系统90是使用分析用数据进行机器学习、生成能够预测目标变量的预测模型的系统。分析用数据是与未图示的分析对象关联的数据，作为一例，是实际获取到的数据。分析用数据包括一个以上的条目。各条目由多个项目构成。在机器学习中一定程度上需要大容量的数据。作为分析用数据，可以被赋予包括多个条目的大容量的数据，也可以被赋予多个项目的结构相同的容量比较小的数据。在各条目的各项目中分别存在项目值。目标变量是由预测模型预测的项目，是由预测模型生成预测值的变量。

参照图1，模型生成系统90具有模型变量候补生成装置10及模型生成装置20。作为一例，模型变量候补生成装置10及模型生成装置20是通过由计算机执行软件程序而实现的装置。模型变量候补生成装置10和模型生成装置20在物理上可以安装在不同的计算机上，也可以安装在同一计算机上。

向模型变量候补生成装置10输入分析用数据和目标变量，在生成预测目标变量的预测模型时，输出作为说明变量的候补而使用的说明变量候补。说明变量候补是成为预测模型的输入的说明变量的候补。为了提高由预测模型预测的预测精度，期望将对目标变量不产生影响的变量排除在外，并且，包罗性地预先提取对目标变量可能产生影响的说明变量的候补。从说明变量候补中选择说明变量。说明变量候补被赋予模型生成装置20。

向模型生成装置20赋予监督数据及验证用数据。监督数据是在生成预测模型的机器学习中被赋予的数据。验证用数据是为了评价预测模型的性能而与监督数据分开准备的数据。监督数据及验证用数据例如是从分析用数据中选择或者对分析用数据进行加工而生成的数据。监督数据及验证用数据包括多个条目。各条目由多个项目构成。在各条目的各项目中分别存在项目值。监督数据及验证用数据各自的项目中包括说明变量及/或目标变量。需要说明的是，利用监督数据进行了机器学习的预测模型的性能的评价并非是必须的，因此，若不需要评价，则无需准备验证用数据。

模型生成装置20将包括说明变量候补值及目标变量值的监督数据作为输入，生成预测模型。预测模型被赋给预测装置30。

作为一例，预测装置30是通过由计算机执行软件程序而实现的装置。预测装置30将说明变量值或成为其基础的数据作为输入，使用预测模型来计算目标变量值，将目标变量值作为预测结果而输出。

图2是本实施方式的模型变量候补生成装置的框图。

参照图2，模型变量候补生成装置10具有数据输入部11、项目性质预备设定部12、数据性质判定部13、项目性质判定部14及变量候补生成部15。

数据输入部11接受所赋予的分析用数据，并输入到模型变量候补生成装置10内。分析用数据具有多个条目，各条目包括多个项目，各个项目具有项目值。后述分析用数据的详细结构。

项目性质预备设定部12预备设定分析用数据所含的项目的性质。这里，项目性质预备设定部12判定并设定能够基于项目的名称及形式和领域知识来进行判定这一程度的项目的性质。通过根据项目的名称及形式和领域知识在一定程度上掌握分析用数据的各项目的性质，从而能够判定分析用数据的性质。

需要说明的是，关于项目的性质的判定，不仅包括计算机通过运算处理来判定并设定项目的性质的情况，还包括用户对计算机判定出的项目的性质进行修正并设定的情况、以及用户判定并设定项目的性质的情况。将预备设定的项目的性质称为第一项目性质。

数据性质判定部13基于分析用数据所含的项目的第一项目性质和领域知识，来判定该分析用数据的性质即数据性质。数据性质是能够将多种数据分类为多个类别的各数据的特征。

需要说明的是，数据的性质的判定不仅包括计算机通过运算处理来进行判定的情况，还包括用户对计算机判定出的数据的性质进行修正并设定的情况、以及用户对一部分数据的性质进行判定并设定的情况。

项目性质判定部14基于由数据性质判定部13判定出的分析用数据的数据性质，来判定分析用数据所含的各项目的性质。此时，项目性质判定部14也可以利用由项目性质预备设定部12预备设定的项目的性质或者元信息。这里的项目的性质的判定是指，判定在该项目中存在怎样的值。将这里判定出的项目的性质称为第二项目性质。另外，在项目的性质的判定中，也可以包括判定在多个项目之间存在怎样的关系。

变量候补生成部15基于分析用数据所含的项目的第二项目性质，通过从项目中选择或者对项目进行加工，由此生成说明变量候补。

如以上说明的那样，在本实施方式中，预备设定能够根据分析用数据的项目的名称及形式来进行判定的性质，基于预备设定的项目的性质来判定分析用数据的性质，基于分析用数据的性质来真正判定项目的性质，基于该判定出的项目的性质来生成说明变量候补，通过递进的步骤而生成说明变量候补。因此，能够判断在分析用数据内没有判断材料而导致难以机械性的判断的各项目的性质，能够降低在模型生成中说明变量候补的生成所需的人工的作业工时。其结果是，能够迅速地进行数据分析中的预测模型的变量的筛选。

另外，在本实施方式中，第一项目性质是表示特定项目的特征的特定项目特征，数据性质是利用数据结构对分析用数据进行分类的数据结构分类，第二项目性质是表示项目的内容的特征的项目内容特征。这样，首先，判定特定项目的特征，利用能够根据特定的项目的特征而掌握的数据结构对数据进行分类，以利用数据的数据结构来判定该数据所含的项目的内容的特征这样的方式通过递进对项目的内容进行解析，由此能够掌握项目的内容的特征，因此，能够适当地提取说明变量候补。

另外，项目性质预备设定部12基于项目的形式来判定具备特定项目特征的项目。这里所说的项目的形式也包括记载于元信息的项目名。

特定的项目包括：识别分析对象的项目；识别为分析对象的项目以外的项目且是识别为不是分析对象的对象的项目；以及示出条目被登记的时期的项目。当能够掌握存放有分析对象的识别信息的项目、存放有其他某些对象的识别信息的项目、以及示出条目被登记的时期的项目时，能够进行数据结构的推断，能够使数据的分类进展。

另外，数据性质判定部13基于特定项目特征和领域知识来判定分析用数据的数据结构分类。

在该情况下，数据结构分类中包括：预先被赋予的数据即主数据；将预定事件的发生作为触发而获取到的数据即交易数据；将成为预定的时刻作为触发而获取到的数据即即时数据。当知晓主数据、交易数据、即时数据这样的数据结构时，能够加深分析用数据所含的项目的推断，项目的性质的判定精度提高。

另外，项目性质判定部14基于项目的形式、数据的数据结构分类及领域知识来判定项目的项目内容特征。这里所说的项目的形式也包括记载于元信息的项目名。更具体而言，项目性质判定部14基于项目的形式，将项目分类为大分类，基于数据结构分类及领域知识，将项目进一步分类为表示项目内容特征的小分类。由于在根据形式将项目分类为大分类之后再分类为示出内容的特征的小分类，因此，能够容易地判定项目的内容的特征。

此外，项目性质判定部14在数据结构分类及领域知识的基础上还基于项目间的相关性，将项目进一步分类为小分类。由于项目间的相关性用于推断项目的内容的性质，因此，能够进一步加深项目的内容的特征的推断。

图3是本实施方式的模型变量候补生成处理的整体的概要流程图。以下，针对模型变量候补生成装置10所执行的模型变量候补生成处理详细进行说明。

向模型变量候补生成装置10输入分析目的信息、分析用数据及其元信息、以及领域知识信息。

分析目的信息包括决定分析用数据的分析方针的要素。具体而言，包括分析对象ID(识别信息)、目标变量及基准日。

分析对象ID是单独识别分析对象单位的识别信息。例如，以信用卡加入者这样的人为单位进行分析，若预测发生由于余额不足而引起的不能扣款等的某种事件，则分析对象单位成为信用卡加入者这样的人。在该情况下，对各个人设定分析对象ID。另外，若以交易为单位进行分析并进行某种预测，则分析对象单位为交易。在该情况下，对各个交易设定分析对象ID。

将分析对象ID赋给模型变量候补生成装置10的形式没有特别限定。例如，也可以向模型变量候补生成装置10输入将关于多个分析对象的分析对象ID列表化而得到的文件。或者，指定为在向模型变量候补生成装置10输入的某一分析用数据的某一项目中记录有分析对象ID。另外，分析对象ID也可以通过多个信息的组合来表现。

目标变量是表示想要通过预测模型来预测的值的变量。例如，若预测发生由于余额不足而引起的不能扣款这样的事件，则考虑将有无发生不能扣款设定为目标变量。目标变量被设定为，值相对于分析对象被唯一决定。

基准日是设定将到哪一日为止的数据用于预测模型的生成、使用了预测模型的预测对象的状态的预测等分析的日期。例如，将到某一基准日为止的数据用作分析用数据而生成预测模型，重新设定基准日，从到新的基准日为止的数据向说明变量输入值，由此，能够将目标变量作为预测结果而进行计算。

例如，也可以使用到某一基准日为止获取到的分析用数据，生成将不能扣款这一事件的发生概率作为目标变量而输出的预测模型，针对该预测模型，从到新的基准日为止的数据获取说明变量的值，并输入到预测模型，由此，计算不能扣款这一事件的发生概率。

基准日设定为，相对于预测对象被唯一决定。需要说明的是，若将到当前时间点为止获取到的数据向预测模型输入来预测事件，则当前时间点成为基准日，将获取完的所有数据用于预测模型的生成即可，因此，无需设定基准日。

将基准日赋给模型变量候补生成装置10的形式没有特别限定。例如，也可以向模型变量候补生成装置10输入将针对各个预测对象的基准日列表化而得到的文件。或者，也可以将基准日的计算方法(数据的加工方法)指定给模型变量候补生成装置10。具体而言，也可以指定为，将在某一分析用数据的某一项目中登记的年月的月末的日期作为基准日。

分析用数据是用于分析的各种数据。在本实施方式中，作为分析用数据，主要设想CSV形式等的以行和列指定的形式的数据。行对应于条目，列对应于项目。分析用数据中也可以包括元信息。元信息中，例如也可以记述有表示各项目的项目名、各项目的说明、项目间的关联性的信息、数据格式、字符串长度等。也可以向模型变量候补生成装置10输入多个分析用数据。但是，分析用数据的形式和结构没有特别限定。分析用数据即便是如Web页的HTML文件那样未决定明确结构的数据，只要能够提取项目即可。

领域知识信息是蓄积有领域知识的信息。领域知识是应用由模型生成系统90生成的预测模型的对象的区域(对象区域)的专家知晓的事项，例如，包括在对象区域中特有的事项。通过将领域知识作为前提，能够进行该对象区域中的具体推论和判断。在本实施方式中与分析用数据相关的领域知识的信息被赋给模型变量候补生成装置10。作为领域知识，包括在分析用数据的项目中能够存放的值的属性和/或分布趋势等的示出项目个体的性质的项目个体知识、以及示出项目间的相关性的项目间知识。

作为领域知识的项目个体知识的例子，具有融资希望者的年龄的分布、信用卡的利用限度额的分布等。若融资希望者的年龄分布作为领域知识而被预先知晓，则项目性质预备设定部12或项目性质判定部14在存放于某一项目的值的分布与该年龄分布类似时，能够推断为在该项目中存放有融资希望者的年龄。

作为领域知识的项目个体知识的另一例，具有项目的名称与该项目的性质之间的关系等。在对象区域中，若预先知晓在某一项目名的项目中存在的值示出特定的性质，则能够根据项目名而容易地推断项目的性质。例如，若项目名为“消化率”这一项目取0～100％的值被知晓，则能够根据“消化率”这一项目名而容易地推断在项目中存在的值的范围。

作为领域知识的项目间知识的例子，具有数据结构的趋势。若预先知晓在对象区域中使用的情况较多的数据结构，则利用其趋势来推断数据结构，能够根据某一项目的性质来推断相同的分析用数据所含的其他项目的性质。

作为领域知识的项目间知识的另一例，若具有存在数值的两个项目且预先知晓这些项目的数值的大小关系，则在分析用数据中存在具有数值的形式的两个项目的情况下，能够基于数值的大小关系来确定各个项目。

在模型变量候补生成装置10中，项目性质预备设定部12、数据性质判定部13、项目性质判定部14或者变量候补生成部15通过利用领域知识，能够提高各判定的精度。领域知识根据作为对象的区域而多样。也可以将各种区域的领域知识预先蓄积在模型变量候补生成装置10中，生成预测模型的负责人指定并利用该预测模型的对象区域的领域知识。

＜项目判定处理1＞

参照图3，首先，项目性质预备设定部12将分析用数据的各项目作为对象来执行项目判定处理1(步骤S101)。通过项目判定处理1，能够判定可进行分析用数据的性质的判定这一程度的分析用数据的各项目的性质。在项目判定处理1中，与各项目是存在怎样性质的值的项目这一项目性质的判定一起，来判定该判定是哪种程度的可信度。

在本实施方式中，项目性质预备设定部12基于对象项目的名称及形式，判定对象项目是否为存在如下值的项目，该值示出包含分析对象ID、其他ID、登记时期(登记日期时间或登记日)在内的预定的事项。

分析对象ID是单独识别分析对象的识别信息。其他ID是单独识别分析对象以外的对象的识别信息。登记时期(登记日期时间或登记日)是向分析对象数据追加登记了条目的日期时间或日期。当知晓分析对象数据所含的项目中的分析对象ID、其他ID及登记时期时，能够判定分析对象数据的性质。

图4是判断对象项目是否为存在ID的项目的处理的流程图。

首先，项目性质预备设定部12对照对象项目中存在的值与作为分析目的信息而被预先赋予的分析对象的ID所取的值(步骤S201)。若对象项目的值与被预先赋予的分析对象的ID的值具有一定以上的相同性，则项目性质预备设定部12将对象项目推断为分析对象ID的项目(步骤S209)。

若对象项目的值与被预先赋予的分析对象的ID的值不具有一定以上的相同性，则项目性质预备设定部12接着判定是否向对象项目赋予了主键约束(步骤S202)。若向对象项目赋予了主键约束，则项目性质预备设定部12推断为对象项目是存在ID的项目(步骤S207)。

若未向对象项目赋予主键，则项目性质预备设定部12接着判定在元信息的项目名中是否包含“ID”这样的字符串(步骤S203)。若在元信息的项目名中包含“ID”这样的字符串，则项目性质预备设定部12推断为对象项目是存在ID的项目(步骤S207)。

若在元信息的项目名中不包含“ID”这样的字符串，则项目性质预备设定部12接着判定对象项目中存在的值是否成为连号(步骤S204)。若对象项目中存在的值成为连号，则项目性质预备设定部12推断为对象项目是存在ID的项目(步骤S207)。

若对象项目中存在的值未成为连号，则项目性质预备设定部12判定对象项目中存在的值是否被哈希化(步骤S205)。这是因为，被哈希化的项目是ID的可能性高。项目的值的字符串仅由表示0～9及A～F这样的16进制数字的字符来表现，若字符串内的各位置处的各16进制数字的出现率相等，则能够推断为该项目的值被哈希化。若对象项目中存在的值被哈希化，则项目性质预备设定部12推断为对象项目是存在ID的项目(步骤S207)。

若对象项目中存在的值未被哈希化，则项目性质预备设定部12接着判定与对象项目类似的项目是否处于其他的分析用数据(步骤S206)。项目彼此的类似能够通过比较字符串长度、所使用的字符、出现的字符串等来进行判定。ID大多情况下成为将分析用数据与其他的分析用数据结合的键，在该情况下，该ID共同存在于多个分析用数据中。因此，可以说共同存在于多个分析用数据中的项目为ID的可能性高。若与对象项目类似的项目处于其他的分析用数据中，则项目性质预备设定部12推断为对象项目是存在ID的项目(步骤S207)。

在对象项目通过步骤S206被推断为对象项目存在ID的情况下，项目性质预备设定部12判定对象项目中存在的ID是否为分析对象的ID(步骤S208)。例如，若对象项目的项目名中包括表示分析对象的字符串，则能够推断为对象项目中存在的ID是分析对象的ID。表示分析对象的字符串中包括分析对象的名称、简称、首字母、英译等。

若对象项目中存在的ID是分析对象的ID，则项目性质预备设定部12将对象项目推断为分析对象ID的项目(步骤S209)。若对象项目中存在的ID不是分析对象的ID，则项目性质预备设定部12将对象项目推断为分析对象以外的对象的ID(步骤S210)。

根据以上，能够推断对象项目是分析对象ID或者是其他的ID。在本实施方式中，项目性质预备设定部12还推断对象项目是分析对象ID或者其他的ID的可信度。

项目性质预备设定部12在图4的步骤S201～S206的各步骤中预先赋予可信度。这里，作为一例，预先在步骤S201中赋予可信度A，在步骤S202中赋予可信度B，在步骤S203中赋予可信度C，在步骤S204中赋予可信度D，在步骤S205中赋予可信度E，在步骤S206中赋予可信度F。而且，项目性质预备设定部12在图4的判断对象项目是否为存在ID的项目的处理中，在判定为分析对象是ID时，根据在步骤S201～S206的哪个步骤中成为“是”来决定可信度。例如，若向对象项目赋予主键约束，则在步骤S202中成为“是”，将对象项目判定为存在ID的项目，因此，该判定成为可信度B。另外，虽然未向对象项目赋予主键约束，但若对象项目的项目名中包括“ID”的字符串，则在步骤S203中成为“是”，对象项目被判定为存在ID的项目，因此，该判定成为可信度C。

需要说明的是，这里，如图4所示，示出了步骤S201～S206的各判定处理在前级步骤的判定结果为“否”的情况下依次执行下一级步骤的判定的例子，但本发明不局限于此。

作为另一例，也可以针对对象项目进行与步骤S201～S206相当的所有的判定处理，使用这些所有的判定结果，综合地判定对象项目是否为存在ID的项目。在该情况下，也可以是，在与步骤S201～S206相当的判定处理中预先分别赋予分数，将对应于“是”的判定处理的分数的合计值作为对象项目是存在ID的项目的可信度。

接着，针对判定对象项目是否为存在登记日的项目的处理进行说明。

首先，项目性质预备设定部12判定对象项目的格式是否为日期的格式(步骤S301)。若对象项目的格式为日期的格式，则项目性质预备设定部12接着判定对象项目中存在的日期的分布是否与预定的分布类似(步骤S302)。步骤S302是将作为领域知识而预先知晓分布的日期的项目排除在外的处理。例如若作为领域知识而预先知晓分析对象的出生年月日的分布，则推断为与该出生年月日的分布类似的日期的项目不是登记日。

若对象项目的日期的分布不与应排除在外的日期的项目的分布类似，则项目性质预备设定部12判定对象项目的日期是否为时序(步骤S303)。若对象项目的日期为时序，则项目性质预备设定部12推断为对象项目是存在登记日的项目(步骤S304)。

需要说明的是，这里，示出了判定对象项目是否为存在登记日的项目的处理的一例，但关于其他的项目，也能够同样地进行判定。另外，这里，在步骤S302中，将预先知晓分布的目标外的日期的项目排除在外，但不局限于此。若作为领域知识而预先知晓目标日期的项目的分布，则对对象项目的日期的分布与目标日期的项目的分布进行比较，若它们类似，则能够推断为对象项目是存在目标日期的项目。

需要说明的是，也可以针对对象项目来提示多个可能性。例如，也可以进行如下的推断：对象项目在某一可信度中可能是分析对象ID，并且在某一可信度中可能是其他的ID。

通过以上的处理，在分析用数据的项目中，当知晓分析对象ID、其他的ID及登记时期的项目时，能够进行接着说明的分析对象数据的性质的判定处理。

＜数据判定处理＞

返回图3，接下来，数据性质判定部13在步骤S102中基于在步骤S101中预备设定(判定)的项目的性质和领域知识，将分析用数据作为对象来判定作为分析用数据的性质。在本实施方式中，作为分析用数据的性质判定的具体处理，对分析用数据的数据结构进行判定。作为数据结构，具有主数据、交易数据、即时数据这样的区分。也可以具有除此以外的区分。在主数据、交易数据及即时数据中分别具有特征，通过利用该特征，能够对它们分别进行判别。另外，数据性质判定部13也判定使用哪个键时能够与多个分析用数据的条目建立关联。

(主数据)

主数据是登记了与某个对象相关的固定或半固定的信息的数据。作为主数据的例子，具有登记了信用卡加入者的各种属性的列表数据。

图6是示出主数据的一例的图。图6中示出具有针对某个对象逐一地登记条目这样的特征的一对一对应型的主数据的例子。参照图5，在主数据的各条目中登记有与对象相关的识别信息(ID)及属性信息。在图5的例子中，对象例如是信用卡持有人，作为信用卡持有人的固定的属性信息，登记有性别和出生年月日，作为半固定的属性信息，登记有收入、已婚/未婚的属性。ID逐一地出现的分析用数据可能是一对一对应型的主数据。

图7是示出主数据的另一例的图。在图7中示出针对某个对象登记多个条目的1对N对应型的主数据的例子。参照图7，在主数据的各条目中登记有与对象关联的识别信息(ID)及其他的信息。在图7的例子中，对象与图6的例子相同，是信用卡持有人，但主数据中未登记信用卡持有人本人，而登记有其家族的信息。因此，作为单独识别作为对象的信用卡持有人的ID一个以上的相同条目(每个家族的条目)的ID，具有家族编号(No.)。存在信用卡持有人具有家族的情况和不具有家族的情况。

例如，参照图6，ID＝C001的信用卡持有人为男性，参照图7，该ID＝C001的信用卡持有人具有配偶者和一个孩子。配偶者是家族No.＝1，是女性，收入为50万日元。孩子是家族No.＝2，是男性，没有登记收入。在没有登记收入的情况下，包括未获取收入的信息的情况和没有收入的情况。另外，参照图6，登记有ID＝C004这样的信用卡持有人，但参照图7，该信用卡持有人没有家族。

(交易数据)

交易数据是将发生了某个事件作为触发来获取的数据。通常，交易数据中存在事件的发生时期(登记日期时间或发生日)的项目。该事件的发生时期(发生日期时间或发生日)相当于登记时期(登记日期时间或登记日)。

图8是示出交易数据的一例的图。图8中示出针对某个对象将发生了预定的事件作为触发而获取到的交易数据的例子。参照图8，在交易数据的各条目中登记有对象的ID及事件的发生日期和其他的信息。在图8的例子中，对象是信用卡持有人，登记有将信用卡的利用这样的事件作为触发而获取到的事件的属性信息。在事件的属性信息中包括利用店铺业务种类、利用商品数以及利用金额。利用店业务种类是示出利用了信用卡的店铺的业务种类的信息。利用商品数是示出利用信用卡进行了货款支付的商品的个数的信息。利用金额是利用信用卡支付了的货款的信息。交易数据中包括对象的ID和事件发生日(登记日)，有时出现多次相同的ID，具有大多情况下按照时序事件发生日的顺序登记有条目的特征。但是，条目也有可能被重新排序，不按照发生日的顺序登记。

例如，参照图8的最上面的条目，登记有ID＝C001的信用卡持有人在2016年12月1日在饮食店利用信用卡支付了六件商品的货款20000日元这样的条目。

(即时)

即时数据是是将成为预定的时刻作为触发而获取到的数据。通常，即时数据具有以一定时间间隔获取这样的特征。另外，在大多情况下，当成为预定时刻时，针对多个对象在同时期获取数据这样的情况也是即时数据的特征。因此，在具有规则性的时刻重复向即时数据追加条目。另外，在同时期追加多个条目。

图9是示出即时数据的一例的图。图9中示出存放有将成为2016年12月31日作为触发而针对各对象获取到的与对象相关的属性信息的即时数据的例子。具体而言，获取到各信用卡持有人的年龄、收入、已婚/未婚的属性信息。

数据性质判定部13利用分析用数据的预备设定的项目的性质、和基于领域知识的各数据结构的特征，来判定分析用数据的数据结构。此时，数据性质判定部13也可以使用由人们修正了项目性质预备设定部12输出的项目性质的信息而得到的信息，作为分析用数据的项目的预备设定的性质。

(数据结构判定处理)

判定数据结构的处理方法没有特别限定，但这里示例出几个方法。

作为一例，数据性质判定部13也可以通过机器学习，预先构筑将分析用数据和预备设定的其各项目的性质设为说明变量、将数据结构设为目标变量的数据结构判定用模型，数据性质判定部13使用该模型，来判定分析用数据的数据结构。数据结构判定用模型能够通过向学习用的数据赋予该数据具有哪个数据结构的正解并进行机器学习来构筑。在机器学习中，针对预备设定的各项目的性质，也可以进行考虑了判定的可信度的运算。另外，若作为领域知识而预先知晓适当的判断基准根据状况而变化这一情况，则在机器学习中，也可以按照领域知识，使判断基准根据状况而变化。例如，也可以按照状况预先构筑模型，根据状况切换地使用模型。

作为另一例，也可以使用人们的经验法则来预先制作数据结构的判定规则，数据性质判定部13使用该规则来判定分析用数据的数据结构。在制作规则的过程中，针对预备设定的各项目的性质也可以考虑判定的可信度。另外，若作为领域知识而预先知晓适当的判断基准根据状况而变化这一情况，则在规则中，也可以按照领域知识，使判断基准根据状况而变化。例如，也可以按照状况预先构筑规则，根据状况切换地使用规则。

另外，也可以组合地使用基于上述机器学习的模型构筑与人们的经验法则的规则化。例如，也可以是，通过经验法则而能够制作可信度高的规则的部分以规则化对应，通过机器学习，来预先构筑难以基于经验法则来实现规则化的部分的模型，数据性质判定部13适当地切换使用规则和模型。

另外，数据性质判定部13也可以判定使用哪个键时能够将多个分析用数据的条目建立关联。

根据以上说明的数据判定的处理结果，能够判定分析用数据的各项目的性质。

＜项目判定处理2＞

返回图3，接下来，在步骤S103中，项目性质判定部14基于数据性质判定部13判定出的分析用数据的性质，将分析用数据的各项目作为对象，来判定其各项目的性质。

在分析用数据的项目的性质的判定中，项目性质判定部14首先将各项目根据其形式分类为大分类。例如，分类为数值、类别、日期时间、日期等。此外，项目性质判定部14基于分析用数据的性质及领域知识，将项目分类为小分类。此时，作为领域知识，利用如下知识：哪个项目可能包含在哪个数据结构的分析用数据中、在该项目中存在的值是哪种形式、在该项目中可能存在的是哪种范围的值、该项目的值是怎样的分布、其他项目的值是怎样的大小关系等。利用这些领域知识，能够根据数据结构、值的形式及值的分布，来筛选项目的分类。

例如，在项目示出数值的情况下，将该项目例如还细分为年龄、金额、件数、比率等。在项目示出类别的情况下，将该项目例如还细分为ID、区分等级(大区分、中区分、小区分等)等。在项目示出日期时间或日期的情况下，将该项目例如还细分为出生年月日、有效期限等。这里所示的分类是例子，也可以具有其他的分类。

另外，也有时根据项目彼此的相关性来判明项目的性质。因此，在本实施方式中，项目性质判定部14除了分析用数据的项目的单独的性质之外，还将项目彼此的相关性用于项目性质的判定。此时，将项目彼此的相关性与领域知识一起用于项目性质的判定是有效的。

例如，存在具有日期格式的两个项目，推断为其中一方是表示登记日的日期且另一方是表示有效期限的日期，但无法判断哪一方是登记日且哪一方是有效期限，此时，若作为领域知识而在登记日与有效期限之间知晓特定的大小关系，则能够依赖于该大小关系，判定哪一方是登记日且哪一方是有效期限。

另外，考虑作为领域知识而预先知晓限度额为余额以下这样的大小关系。另外，若是示出类别的项目彼此，则考虑作为领域知识而知晓如大区分和中区分那样层次性的包含关系成立。这些领域知识也能够用于判定项目的性质。

还考虑基于领域知识而预先知晓按照各小分类成为出现频度的基础的分布的情况。在该情况下，将分析用数据的项目所含的值的分布与其基础分布进行比较，基于类似度来筛选项目的分类。例如，信用卡的有效期限的分布成为如下的预定分布：由于年、季节、月、日等而偏差少，并且不存在从当前的日期起预定年以上的未来日期。

另外，有时预先知晓两个小分类之间的值存在大小关系。例如，预先知晓信用卡的有效期限比信用卡的发行日晚。基于领域知识而预先获知成为小分类间的基础的值的大小关系，通过对照项目彼此的值的大小关系与基础的大小关系，能够筛选分类。例如，设想以两个项目的某一方是信用卡的有效期限且另一方是信用卡的发行日这样的方式存在多个相同的被筛选至多个小分类的项目且想要进一步筛选的情况。在这样的情况下，信用卡的有效期限比信用卡的发行日晚，因此，信用卡的有效期限的项目取大于信用卡的发行日的项目的值。这样，根据项目彼此的值的大小关系，能够进一步筛选各个项目。

除此之外，根据项目的值的形式来选择并使用适当的领域知识，由此，能够详细地筛选项目的分类。

另外，在本实施方式中，项目性质判定部14还计算项目的性质的判定的可信度。例如，项目性质判定部14也可以对项目的分类的判定条件分别赋予可信度的分数，累计适合的判定条件的分数来计算可信度。

＜候补生成处理＞

返回到图3，接着，变量候补生成部15在步骤S104中生成说明变量候补。

变量候补生成部15基于在步骤S103中由项目性质判定部14判定出的分析用数据的各项目的性质、项目间的相关性及领域知识，将可能成为计算所希望的目标变量的预测模型的说明变量的项目作为说明变量候补。例如，作为领域知识，存在预定的项目(候补项目)，该预定的项目(候补项目)被分类为预先设想对目标变量产生影响的参数。若由项目性质判定部14判定出的项目的性质对应于该候补项目，则该项目可以成为说明变量候补。另外，作为领域知识，知晓被分类为预测对象的属性的预定的项目对目标变量产生影响的可能性高。在该情况下，被判定为示出该预测对象的属性的项目可以成为说明变量候补。

另外，步骤S103中的由项目性质判定部14进行的项目的性质的判定的可信度为预定值以下的项目也可以不设为说明变量候补。这是因为，即便作为领域知识而被判定为设想对目标变量产生影响的项目，若不是这种情况的可能性也足够高，则也有时最好从说明变量候补排除在外。

以下列举出上述的由项目性质判定部14进行的项目性质的判定和与其关联的由变量候补生成部15进行的说明变量候补的决定的具体例(判定例)。

(判定例1)

也可以是，项目性质判定部14将主数据所含的项目中的、出现的项目值为预定种类(下限阈值)以上且为预定种类(上限阈值)以下的项目推断为示出观测对象的属性的观测对象属性项目，变量候补生成部15将推断为观测对象属性项目的项目设为说明变量候补。适当的下限阈值及上限阈值根据对象区域、分析用数据的数据量等而变化，因此，也可以适当设定下限阈值及上限阈值。示出个数被限定的观测对象的属性的项目将观测对象根据其性质而大体分类，有时成为预测模型的有效的说明变量，因此，可以设为说明变量候补。例如，若观测对象为人，则主数据中存在年龄、性别这样的项目的可能性高，另外，有时年龄、性别成为预测模型的说明变量。但是，可以对照对象区域的领域知识，事先判断进行这样的判定是否妥当。在所有的区域中，不一定要将主数据的项目中的出现频度高的项目全部设为变量的候补。

(判定例2)

也可以是，项目性质判定部14将交易数据所含的项目中的、出现的项目值为预定种类以上且预定种类以下的项目推断为示出事件的属性的事件属性项目，变量候补生成部15将推断为事件属性项目的项目设为说明变量候补。示出个数被限定的事件的属性的项目将事件根据其性质大体分类，有时成为预测模型的有效的说明变量，因此，如本例那样，有时可以设为说明变量候补。需要说明的是，在事件属性项目中，也可以包括示出事件的原因、内容、结果或事件发生时的观测对象的状态中的至少任一个的项目。由于事件的原因、内容、结果、或事件发生时的观测对象的状态对事件进行分类，因此，在事件与观测对象的相关性较强的情况下能够成为有效的说明函数。

(判定例3)

也可以是，项目性质判定部14将即时数据所含的项目中的、出现的项目值为预定种类以上且预定种类以下的项目推断为示出观测对象的状态的观测对象状态项目，变量候补生成部15将推断为观测对象状态项目的项目设为说明变量候补。示出个数被限定的观测对象的状态的项目将观测对象的状态根据其性质大体分类，有时成为预测模型的有效的说明变量，因此，如本例那样，有时可以设为说明变量候补。

(判定例4)

也可以是，项目性质判定部14判定作为主数据的分析用数据的项目单独示出的项目性质即项目个体性质、以及示出项目彼此的相互关系的项目性质即项目间性质，变量候补生成部15基于数据性质、项目个体性质以及项目间性质对所述项目进行加工，由此生成所述说明变量候补。针对各项目来判断单独的性质及相互关系，对它们综合进行判断而生成说明变量的候补，因此，能够根据各项目具有的各种性质适当地列举说明变量的候补。

(判定例5)

也可以是，项目性质判定部14从作为主数据的分析用数据所含的项目中，提取唯一确定该分析用数据的各条目的键项目、示出值不存在顺序性的区分的非顺序类别项目、以及示出值存在顺序性的区分的顺序类别项目，将这些项目的属性设为项目个体性质，变量候补生成部15将项目个体性质用于说明变量候补的生成。值不存在顺序性的区分是值的大小不具有特殊含义的区分。作为非顺序类别项目的例子，具有住所的地址。值存在顺序性的区分是指，值的大小具有特殊含义的区分。作为顺序类别项目的例子，具有年龄。变量候补生成部15例如也可以将与特定键项目相应的项目设为说明变量候补。另外，也可以将非顺序类别项目和顺序类别项目中的一方或双方设为说明变量候补。

(判定例6)

也可以是，项目性质预备设定部12和项目性质判定部14中的双方或一方被预先赋予示出已知项目的值的分布的已知项目分布信息，通过对在分析用数据中作为判定对象的项目即判定对象项目的值的分布与已知项目分布信息中的已知项目的值的分布进行比较，来对判定对象项目的项目性质进行判定。例如，具有与通常的年龄分布类似的分布的项目能够推断为是年龄的项目。此外，也能够推断为卡限度额的项目等。

(判定例7)

也可以是，项目性质判定部14在条目数为根据数据结构而决定的预定阈值以上的分析用数据中，将项目值为预定种类以上的项目提取为候补项目，变量候补生成部15将与候补项目相应的项目设为说明变量候补。若条目数较多，则在出现的值的种类数较多的项目中，作为说明变量，有时也有助于目标变量的精度提高，因此，有时可以将这样的项目设为说明变量候补。需要说明的是，根据项目的性质，有时能够在一定程度上设想项目成为有效的说明变量的条目数，因此，若针对对象区域和数据结构设定适当的阈值，则能够适当地选择具有充分的条目数的项目。但是，如项目值的种类与条目数大致相同等那样，在为项目值的种类数比条目数多的项目的情况下，该项目对目标变量的影响的趋势可能无法被提取，因此，项目性质判定部14也可以在条目数为根据数据结构而决定的预定阈值以上的分析用数据中，将项目值为预定种类(下限阈值)以上且预定种类(上限阈值)以下的项目设为候补项目，变量候补生成部15将与候补项目相应的项目设为说明变量候补。

(判定例8)

也可以是，项目性质判定部14将预定的数据结构的数据的项目中的、项目值为规常数值范围内的项目提取为候补项目，变量候补生成部15将与候补项目相应的项目设为说明变量候补。通过预先在数据结构和项目值的范围内对想要设为说明变量候补的项目赋予条件，能够将满足该条件的项目提取为说明变量候补。

以上，在本实施方式中，主要使用了设想从分析用数据的项目中选择说明变量候补的例子，但本发明不局限于此。变量候补生成部15只要利用项目性质判定部14判定出的各项目的性质来生成说明变量候补即可，也可以不直接将项目设为说明变量候补，而是通过对项目进行加工来生成说明变量候补。

例如，变量候补生成部15也可以包罗性地制作将某一变量和其他变量组合而成的合成变量，关于所得到的多种合成变量，计算与目标变量的关联程度，将关联程度为上位预定个的合成变量设为说明变量候补。另外，也可以包罗性地制作向组合某一变量和其他变量而成的合成变量进一步组合其他变量而得到的合成变量，与上述同样地，以与目标变量的关联程度筛选合成变量，由此生成说明变量候补。

上述本发明的实施方式是用于说明本发明的示例，并非意在将本发明的范围仅限定于这些实施方式。本领域技术人员在不脱离本发明的主旨的范围内能够通过其他各种方式来实施本发明。

附图标记说明：

10…模型变量候补生成装置，11…数据输入部，12…项目性质预备设定部，13…数据性质判定部，14…项目性质判定部，15…变量候补生成部，20…模型生成装置，30…预测装置，90…模型生成系统。

Claims

1.一种模型变量候补生成装置，该模型变量候补生成装置在预测模型的生成中生成作为说明变量的候补的说明变量候补，

其特征在于，

所述模型变量候补生成装置具有：

数据输入部，在每个条目中包括一个以上的项目，所述数据输入部向所述项目输入具有项目值的分析用数据；

第一项目判定部，其预备设定所述分析用数据所含的所述项目的性质作为第一项目性质；

数据性质判定部，其基于所述分析用数据所含的项目的所述第一项目性质，来判定该分析用数据的性质即数据性质；

第二项目判定部，其基于所述分析用数据的所述数据性质，来判定该分析用数据所含的所述项目的性质作为第二项目性质；以及

变量候补生成部，其基于所述分析用数据所含的项目的所述第二项目性质，通过从所述项目中选择或者对所述项目进行加工，由此生成所述说明变量候补。

2.根据权利要求1所述的模型变量候补生成装置，其特征在于，

所述第一项目性质是表示特定的项目的特征的特定项目特征，

所述数据性质是利用数据结构对所述数据进行分类的数据结构分类，

所述第二项目性质是表示所述项目的内容的特征的项目内容特征。

3.根据权利要求2所述的模型变量候补生成装置，其特征在于，

所述第一项目判定部基于所述项目的形式，来判定具备所述特定项目特征的项目。

4.根据权利要求3所述的模型变量候补生成装置，其特征在于，

所述特定的项目包括对分析对象进行识别的项目、对不是所述分析对象的对象进行识别的项目、以及示出所述条目被登记的时期的项目。

5.根据权利要求2所述的模型变量候补生成装置，其特征在于，

所述数据性质判定部基于所述特定项目特征和领域知识，来判定所述分析用数据的数据结构分类。

6.根据权利要求5所述的模型变量候补生成装置，其特征在于，

在所述数据结构分类中包括：被预先赋予的数据即主数据；将预定的事件的发生作为触发而获取到的数据即交易数据、以及将成为预定的时刻作为触发而获取到的数据即即时数据。

7.根据权利要求2所述的模型变量候补生成装置，其特征在于，

所述第二项目判定部基于所述项目的形式、所述数据的数据结构分类及领域知识，来判定所述项目的所述项目内容特征。

8.根据权利要求7所述的模型变量候补生成装置，其特征在于，

所述第二项目判定部基于所述项目的形式将所述项目分类为大分类，并基于所述数据结构分类及所述领域知识将所述项目进一步分类为表示所述项目内容特征的小分类。

9.根据权利要求8所述的模型变量候补生成装置，其特征在于，

所述第二项目判定部在所述数据结构分类及所述领域知识的基础上还基于所述项目间的相关性，将所述项目进一步分类为所述小分类。

10.一种模型变量候补生成方法，该模型变量候补生成方法用于在预测模型的生成中生成作为说明变量的候补的说明变量候补，

其特征在于，

在每个条目中包括一个以上的项目，计算机具备的数据输入单元向所述项目输入具有项目值的分析用数据，

计算机具备的第一项目判定单元预备设定所述分析用数据所含的所述项目的性质作为第一项目性质，

计算机具备的数据性质判定单元基于所述分析用数据所含的项目的所述第一项目性质，来判定该分析用数据的性质即数据性质，

计算机具备的第二项目判定单元基于所述分析用数据的所述数据性质，来判定该分析用数据所含的所述项目的性质作为第二项目性质，

计算机具备的变量候补生成单元基于所述分析用数据所含的项目的所述第二项目性质，通过从所述项目中选择或者对所述项目进行加工，由此生成所述说明变量候补。